CN110970054B - 语音采集自动停止的方法、装置、终端设备和存储介质 - Google Patents
语音采集自动停止的方法、装置、终端设备和存储介质 Download PDFInfo
- Publication number
- CN110970054B CN110970054B CN201911077811.0A CN201911077811A CN110970054B CN 110970054 B CN110970054 B CN 110970054B CN 201911077811 A CN201911077811 A CN 201911077811A CN 110970054 B CN110970054 B CN 110970054B
- Authority
- CN
- China
- Prior art keywords
- frequency
- audio data
- data
- voice
- test
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 142
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 52
- 238000011156 evaluation Methods 0.000 abstract description 4
- 230000002452 interceptive effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 13
- 230000002159 abnormal effect Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000002360 preparation method Methods 0.000 description 8
- 230000005856 abnormality Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000012790 confirmation Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例公开了一种语音采集自动停止的方法、装置、终端设备和存储介质。该方法包括:显示文字语料,所述文字语料用于语音测试;接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;提取采集到的音频数据的频率特征;当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。被测者或者参与测评的工作人员在测试开始后无需对语音采集过程进行手动控制,简化了基于机器测试的语音测试过程中用户的交互操作,尤其对于被测者自行控制的测试过程中,可以专注于根据文字语料进行语音表达,不用分散精力进行测试过程中的各种中断控制或者结束控制。
Description
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及语音采集自动停止的方法、装置、终端设备和存储介质。
背景技术
随着人们对语言学习的重视逐渐加强,目前,语音测试己经成为大多数语言水平考试的重要组成部分,而语音测试需要大量的口语练习。但是,口语的自测和正式测试都需要他人的参与评判。例如传统的语音测试需要大量的人力资源进行人工评分,这种评分方式有各方面的问题,例如评分员资源短缺、人工评测成本高、评分带有主观性。
随着语言理论、语音识别和人工智能的发展,面对着口语日常练习和语音测试的庞大的需求,越来越多的口语机器测试方案开始出现,但是现有的口语机器测试方案更多着眼于解决语音测试评分的机器实现本身,被测者或者参与测评的工作人员需要全程关注机器测试并进行测试过程的控制,机器测试过程的用户参与需求过多。
发明内容
本发明提供了一种语音采集自动停止的方法、装置、终端设备和存储介质,以解决现有技术机器实现语音测试的过程中,用户参与需求过多的技术问题。
第一方面,本发明实施例提供了语音采集自动停止的方法,包括:
显示文字语料,所述文字语料用于语音测试;
接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;
提取采集到的音频数据的频率特征;
当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
其中,所述提取采集到的音频数据的频率特征,包括:
实时计算所述音频数据的频率数据;
统计所述频率数据中预设低频范围内的持续时长;
统计所述频率数据中的频率波动幅度;
对应的,所述当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据,具体为:
当所述频率数据中预设低频范围内的持续时长达到预设时长,或频率波动幅度在预设的异常波动幅度范围内,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
其中,所述统计所述频率数据中的频率波动幅度,包括:
统计所述频率数据中连续的数据段之间的频率相似度,所述频率相似度用于表征所述数据段之间的频率波动幅度;
所述频率波动幅度在预设的移动波动幅度范围内,具体为:
连续预设个数的数据段的频率相似度达到预设的相似度门限值。
其中,所述方法还包括:
若所述频率特征满足预设的特征模型时停止采集音频数据,则输出语音采集失败提醒。
其中,所述方法还包括:
若采集到的音频数据达到所述文字语料的对应时长时停止采集音频数据,则保存采集到的音频数据,并根据所述文字语料生成语音测试结果。
第二方面,本发明实施例还提供了语音采集自动停止的装置,包括:
显示单元,用于显示文字语料,所述文字语料用于语音测试;
接收单元,用于接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;
提取单元,用于提取采集到的音频数据的频率特征;
停止单元,用于当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
其中,所述提取单元,包括:
频率计算模块,用于实时计算所述音频数据的频率数据;
低频统计模块,用于统计所述频率数据中预设低频范围内的持续时长;
波动统计模块,用于统计所述频率数据中的频率波动幅度;
对应的,所述停止单元,具体用于当所述频率数据中预设低频范围内的持续时长达到预设时长,或频率波动幅度在预设的异常波动幅度范围内,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
其中,所述波动统计模块,具体用于统计所述频率数据中连续的数据段之间的频率相似度,所述频率相似度用于表征所述数据段之间的频率波动幅度;
所述频率波动幅度在预设的移动波动幅度范围内,具体为:
连续预设个数的数据段的频率相似度达到预设的相似度门限值。
其中,所述装置还包括:
提醒单元,用于若所述频率特征满足预设的特征模型时停止采集音频数据,则输出语音采集失败提醒。
其中,所述装置还包括:
测试单元,用于若采集到的音频数据达到所述文字语料的对应时长时停止采集音频数据,则保存采集到的音频数据,并根据所述文字语料生成语音测试结果。
第三方面,本发明实施例还提供一种终端设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面任一所述的语音采集自动停止的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任一所述的语音采集自动停止的方法。
上述语音采集自动停止的方法、装置、终端设备和存储介质,通过显示文字语料,所述文字语料用于语音测试;接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;提取采集到的音频数据的频率特征;当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。在语音测试过程中,基于语音测试对应的文字语料进行语音采集,在语音采集过程中,提取采集的音频数据的频率特征,如果频率特征满足设定的特征模型,或者采集到的音频数据达到文字语料的对应时长,则自动停止采集音频数据过程,被测者或者参与测评的工作人员在测试开始后无需对语音采集过程进行手动控制,简化了基于机器测试的语音测试过程中用户的交互操作,尤其对于被测者自行控制的测试过程中,可以专注于根据文字语料进行语音表达,不用分散精力进行测试过程中的各种中断控制或者结束控制。此外,具体基于频率异常和持续时长的判断,实现了在语音测试过程中根据具体测试状态自动中断或结束测试的自动停止,避免了测试过程中异常时或测试结束时的用户操作,测试过程中设备状态的切换更加智能。
附图说明
图1为本发明实施例一提供的一种语音采集自动停止的方法的流程图;
图2为本发明实施例二提供的一种语音采集自动停止的方法的流程图;
图3为语音测试过程中音频数据的频率示意图;
图4为本发明实施例三提供的一种语音采集自动停止的装置的结构示意图;
图5为本发明实施例四提供的一种终端设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
需要注意的是,由于篇幅所限,本申请说明书没有穷举所有可选的实施方式,本领域技术人员在阅读本申请说明书后,应该能够想到,只要技术特征不互相矛盾,那么技术特征的任意组合均可以构成可选的实施方式。
例如,在实施例一的一个实施方式中,记载了一个技术特征:开始指令可以通过计时自动生成,在实施例一的另一个实施方式中,记载了另一个技术特征:频率特征满足预设的特征模型时,停止采集音频数据。由于以上两个技术特征不互相矛盾,本领域技术人员在阅读本申请说明书后,应该能够想到,同时具有这两个特征的实施方式也是一种可选的实施方式,即在通过计时自动生成开始指令进行音频数据采集之后,如果音频数据的频率特征满足预设的特征模型,停止采集音频数据。
记载在不同实施例中的不互相矛盾的技术特征也可以任意组合,构成可选的实施方式。
例如,实施例二中记载了:预设的特征模型包括频率数据中预设低频范围内的持续时长达到预设时长和频率波动幅度在预设的异常波动幅度范围内。为了控制本申请说明书的篇幅,在实施例一中,并没有记载这个特征。但是本领域技术人员在阅读本申请说明书后,应该能够想到,实施例一所提供的语音采集自动停止的方法也可以包括该特征。
下面对各实施例进行详细说明。
实施例一
图1为本发明实施例一提供的一种语音采集自动停止的方法的流程图。实施例中提供的语音采集自动停止的方法可以由语音采集自动停止的设备执行,该语音采集自动停止的设备可以通过软件和/或硬件的方式实现,该语音采集自动停止的设备可以是两个或多个物理实体构成,也可以是一个物理实体构成。例如,语音采集自动停止的设备可以是手机、工业控制计算机等。
具体的,参考图1,该语音采集自动停止的方法具体包括:
步骤S101:显示文字语料,所述文字语料用于语音测试。
语音测试可以有针对不同评价维度的测试,例如基于字和/或词的发音标准测试、基于整段文字的发音进阶测试、基于经典名段的朗诵技巧测试、基于命题的表达能力测试等,在本实施例中,主要针对前几种有明确的发音对照文字的测试,用于前几种测试的发音对照文字称为文字语料。
文字语料可以是确认测试开始后,从文字语料库中预存的多份文字语料中随机选中然后进行显示;也可以是用户从文字语料清单中选中一份文字语料进行完整显示。
步骤S102:接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据。
开始指令用于触发采集音频数据,也用于用户确认语音测试正式开始,可以开始说话。开始指令可以是用户操作确认生成,具体来说,在测试过程中,文字语料显示之后可以给被测者提供一个准备时间,在准备时间内,被测者可以随时通过语音采集自动停止的设备提供的触发方式确认开始测试(也可以是被测者示意测试的工作人员确认开始测试),即生成开始指令,被测者可以开始根据文字语料说话,在接收到开始指令之后,通过麦克风进行音频数据的采集。开始指令也可以是自动生成,即给被测者提供的准备时间是固定的,当准备时间结束之后,生成开始指令,麦克风开始进行音频数据的采集,在生成开始指令的同时,也会输出听觉或视觉提醒,以告知被测者语音测试正式开始。此外,开始指令还可以是用户操作确认生成和自动生成的综合实现,即在准备时间的计时结束之前,检测到用户操作确认开始测试时生成开始指令,如果一直没有检测到用户操作,则在准备时间的计时结束时自动生成开始指令。
步骤S103:提取采集到的音频数据的频率特征。
音频数据用于记载音频信号,根据音频信号对应的声波的特征,可把音频数据分类为规则音频和不规则音频,其中规则音频是有规律的声波的频率、幅度变化信息载体,具体又可以分为语音、音乐和音效。语音信号的频率范围是300Hz~3.4kHz,在该步骤中,对频率特征的提取可以不涉及对音频数据中具体携带的语音信息的识别,主要通过对频率特征的基础提取得到被测者的说话状态,从而可以根据说话状态确认被测者的测试状态,并进一步根据被测者的测试状态确定音频数据的采集过程是否继续。
步骤S104:当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
预设的特征模型用于表征被测者的测试状态异常时音频数据的频率状态,从被测者的测试状态而言,异常主要有发声停顿(中止发声)和发声卡顿(一个或多个字重复发声),如果音频数据的采集过程中发现采集到的音频数据明显与正常的语音输出明显不同,则认为被测者的测试异常,明显不符合正常说话所有的频率特征,则中断音频数据的采集。当然,如果采集到的音频数据已经达到文字语料的对应时长,则自动停止采集音频数据,如果用户需要更多时间才能完成文字语料对应的语音测试,测试结果必然视为不合格,同样直接停止采集音频数据。
当然,在具体实现时,也可以接收结束指令从而结束当前测试,结束指令可以由被测者或者参与语音测试的工作人员操作发出。响应于结束指令结束当前测试可以满足被测者或参与语音测试的工作人员随时结束测试的需求,例如被测者对当前测试状态不满意需要重新开始测试,或者提前完成文字语料对应的音频数据的采集需要在对应时长之前确认测试结束。
上述,通过显示文字语料,所述文字语料用于语音测试;接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;提取采集到的音频数据的频率特征;当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。在语音测试过程中,基于语音测试对应的文字语料进行语音采集,在语音采集过程中,提取采集的音频数据的频率特征,如果频率特征满足设定的特征模型,或者采集到的音频数据达到文字语料的对应时长,则自动停止采集音频数据过程,被测者或者参与测评的工作人员在测试开始后无需对语音采集过程进行手动控制,简化了基于机器测试的语音测试过程中用户的交互操作,尤其对于被测者自行控制的测试过程中,可以专注于根据文字语料进行语音表达,不用分散精力进行测试过程中的各种中断控制或者结束控制。
实施例二
图2为本发明实施例二提供的一种语音采集自动停止的方法的流程图。本实施例是在上述实施例的基础上进行具体化。
具体的,参考图2,本实施例提供的语音采集自动停止的方法具体包括:
步骤S201:显示文字语料,所述文字语料用于语音测试。
在开始显示文字语料的同时,可以开始计时,计时用于确认为被测者提供的最大准备时长,计时过程中的时长变化可以显示于文字语料的显示页面。
步骤S202:接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据。
在计时过程中,如果检测到用户的开始操作,即结束计时,并确认接受到开始指令,响应于开始指令,开始缓存麦克风采集到的音频数据。如果计时达到设定的最大准备时长,自动生成开始指令,同样开始缓存麦克风采集到的音频数据。
步骤S203:实时计算所述音频数据的频率数据。
音频数据的频率数据可以从音频数据对应的波纹分析得到,具体有瞬时的频率值,以及连续的时段内频率值的变化情况。
步骤S204:统计所述频率数据中预设低频范围内的持续时长。
低频范围是一个预设值,其预设参考是检测到有人说话的临界值,高于临界值表示当前检测到有人说话,否则表示当前检测不到有人说话,在音频数据采集过程中,因为被测者语言表达时的正常停顿,短暂的低频出现是正常的,但是如果低频的持续时长过长,则确认被测者的语言表达不是合格的测试过程该有的语言表达。具体的低频范围可以是固定值;也可以是提醒用户在禁言状态下对测试环境的声音状态进行采集后的自动设置;还可以是接收被测者在测试前的设置指令设置,以使被测者可以根据自身的说话习惯选择合适的低频状态的参考值。
步骤S205:统计所述频率数据中的频率波动幅度。
基于频率数据的统计,可以对音频数据中某一段对应的被测者的语言表达状态进行判断,对于正常的语言表达,频率的变化应该是无规律的,如果出现频率有一定规律性的音频数据,则可以视为被测者正在进行不正常的语言表达,这种规律性主要体现在同一频率的持续时长和一段频率波动的循环出现。
频率波动幅度是指两个数据段对应的声波波纹之间的差异程度,从正常的语音表达而言,相邻两个字的数据段对应的声波波纹应该相似度较高(例如“实时”)或者相似度较低(例如“明天”),对于一段声波波纹的循环出现,主要在于统计所述频率数据中连续的数据段之间的频率相似度,所述频率相似度用于表征所述数据段之间的频率波动幅度,如果相邻两段数据段的频率波动幅度比较小(即对应的声波波纹的相似度比较高,例如相似度90%以上),则认为两段数据段对应是重复或近似发音。在实际进行波动幅度的比对时,数据段的长度是一个持续调整并进行比较的过程,对应到被测者的说话过程,可能是1个、2个、3个或更多个字的重复,不同的重复长度,对应的数据段的长度不同。此外,也可以固定数据子段的长度,然后将数据子段进行相邻数据子段以及跨数据子段的比较,如果比较出一组连续的多个数据子段与相邻多组连续的数据子段的频率波动幅度比较小,则将每组数据子段作为一个完整的数据段,进而判断数据段的相似程度。
步骤S206:当所述频率数据中预设低频范围内的持续时长达到预设时长,或频率波动幅度在预设的异常波动幅度范围内,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
在开始测试后,如果检测到持续维持在低频范围内,对应到测试场景中,相当于在这段时间被测者没有正常发出声音,如果低频范围进一步持续达到预设时长,则相当于被测者不发出声音的时间太长,基于采集到的音频数据的判断,测试不予通过,直接中断音频数据的采集。
此外,连续预设个数的数据段的频率相似度达到预设的相似度门限值,对应到测试过程,相当于被测者对文字语料的阅读不流畅,出现将一个字重复发声的情况。在具体的实现过程中,预设个数可以设置为两个以上,在文字语料中,可能出现正常的连续两个字的读音相同的情况,例如“实时”,这种情况下识别到频率相同或很接近,此时将这两个数据段之间的频率波动幅度确认在异常波动幅度范围内,而实际上,这种异常波动幅度对应的是被测者的正常表达。而且对于实际的语音测试而言,被测者偶尔出现字或词的一次重复,最多也只予以扣分,而不会判为测试不合格,因此,可以设置为3个或3个以上的连续数据段的频率相似才视为语音测试过程被测者出现严重卡顿,也视为测试不合格,直接中断音频数据的采集。具体的低频范围的持续时长和连续的频率波动幅度在预设的异常波动幅度范围内的数据段,可以在缓存列表中进行记录,当缓存列表中记录的持续时长或数据段的个数达到设定条件,则触发对应的测试结束;当异常状态的记录在到达设定条件前结束,则清除缓存列表中的记录,直到出现新的低频或频率相似的情况,重新开始记录。
进一步参考图3,某段文字语料测试的对应时长为t0,在具体测试过程中,可能会产生多种测试情况,如图3所示,第一种测试情况是在t1时刻开始检测到低频状态出现,低频状态持续到t2时刻,在低频状态下,采集到的音频数据的频率可能会有波动,但是整体上一直维持在低频范围内,在t2时刻,低频状态的持续时长达到预设时长,此时相当于在实际测试场景中被测者的语言表达中断达到预设时长,测试结果可以判断为不合格,直接中断测试过程(即停止采集音频数据)。如图3所示,第二种测试情况是检测到连续5个时段音频数据(t3-t4、t4-t5、t5-t6、t6-t7和t7-t8)之间的频率波动幅度比较小,达到相似度门限值,即这连续5个时段的音频数据的相似度特别高,在数据段连续相似的预设个数设置为5个的情况下,在t8时刻,相当于被测者出现语言表达的卡顿(即重复表达一个或多个字达到5次),对于正常的文字语料而言,这种表达状态可以直接确认为测试结果不合格,也可以直接中断测试过程(即停止采集音频数据)。如图3所示,第三种测试情况是检测到连续4个时段对应的数据段(t9-t10、t10-t11、t11-t12和t12-t13),在t13之后的数据段与t12-t13之间的数据段的频率相似度低于相似度门限值,则前面4个数据段的累积清零,在没有其它异常的情况下,直到t14时刻音频数据的采集时长达到文字语料对应的参考时长t0,自动停止音频数据的采集。第四种测试情况是整个测试过程中没有明显的停顿和卡顿,则在t15时刻音频数据的采集时长达到文字语料对应的参考时长t0时,自动停止音频数据的采集。此外,还有可能在测试过程中既出现某个时段是低频范围但是持续时长没有达到预设时长,也出现连续多个时段达到相似度门限值但是没有达到预设个数的情况,但是这种可以顺利完成测试,在图3中具体体现频率变化的细节。
步骤S207:若所述频率特征满足预设的特征模型时停止采集音频数据,则输出语音采集失败提醒。
在满足预设的特征模型的情况下结束的音频数据采集,实际是默认语音测试不合格,即已经确认了测试结果,直接输出测试结果即可。具体的提醒方式可以是语音、也可以是文字,具体的内容可以是不通过、重新开始等。
步骤S208:若采集到的音频数据达到所述文字语料的对应时长时停止采集音频数据,则保存采集到的音频数据,并根据文字语料生成语音测试结果。
在实际的语音测试过程中,在文字语料的对应时长内完成音频数据的采集并不意味着语音测试通过,只是表明被测者在语音测试过程中没有明显的停顿和文字的重复卡顿,因此后续需要基于音频数据和文字语料生成语音测试结果。测试结果的生成过程根据语音测试的具体测试目标设计,例如文字读音准确、文章诵读流利准确、朗诵的技巧使用等。
上述,具体基于频率异常和持续时长的判断,实现了在语音测试过程中根据具体测试状态自动中断或结束测试的自动停止,避免了测试过程中异常时或测试结束时的用户操作,测试过程中设备状态的切换更加智能。
实施例三
图4为本发明实施例三提供的一种语音采集自动停止的装置的结构示意图。参考图4,该语音采集自动停止的装置包括:显示单元301、接收单元302、提取单元303和停止单元304。
其中,显示单元301,用于显示文字语料,所述文字语料用于语音测试;接收单元302,用于接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;提取单元303,用于提取采集到的音频数据的频率特征;停止单元304,用于当所述频率特征满足预设的特征模型,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
在上述实施例的基础上,所述提取单元303,包括:
频率计算模块,用于实时计算所述音频数据的频率数据;
低频统计模块,用于统计所述频率数据中预设低频范围内的持续时长;
波动统计模块,用于统计所述频率数据中的频率波动幅度;
对应的,所述停止单元304,具体用于当所述频率数据中预设低频范围内的持续时长达到预设时长,或频率波动幅度在预设的异常波动幅度范围内,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
在上述实施例的基础上,所述波动统计模块,具体用于统计所述频率数据中连续的数据段之间的频率相似度,所述频率相似度用于表征所述数据段之间的频率波动幅度;
所述频率波动幅度在预设的移动波动幅度范围内,具体为:
连续预设个数的数据段的频率相似度达到预设的相似度门限值。
在上述实施例的基础上,所述装置,还包括:
提醒单元,用于若所述频率特征满足预设的特征模型时停止采集音频数据,则输出语音采集失败提醒。
在上述实施例的基础上,所述装置还包括:
测试单元,用于若采集到的音频数据达到所述文字语料的对应时长时停止采集音频数据,则保存采集到的音频数据,并根据所述文字语料生成语音测试结果。
本发明实施例提供的语音采集自动停止的装置包含在语音采集自动停止的设备中,且可用于执行上述实施例一和实施例二中提供的任一语音采集自动停止的方法,具备相应的功能和有益效果。
实施例四
图5为本发明实施例四提供的一种终端设备的结构示意图,该终端设备是前文所述语音采集自动停止的设备的一种具体的硬件呈现方案。如图5所示,该终端设备包括处理器410、存储器420、输入装置430、输出装置440以及通信装置450;终端设备中处理器410的数量可以是一个或多个,图5中以一个处理器410为例;终端设备中的处理器410、存储器420、输入装置430、输出装置440以及通信装置450可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语音采集自动停止的方法对应的程序指令/模块(例如,语音采集自动停止的装置中的显示单元301、接收单元302、提取单元303和停止单元304)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行终端设备的各种功能应用以及数据处理,即实现上述的语音采集自动停止的方法。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
上述终端设备包含语音采集自动停止的装置,可以用于执行任意语音采集自动停止的方法,具备相应的功能和有益效果。
实施例五
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本申请任意实施例中提供的语音采集自动停止的方法中的相关操作,且具备相应的功能和有益效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。
因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种语音采集自动停止的方法,其特征在于,包括:
显示文字语料,所述文字语料用于语音测试;
接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;
提取采集到的音频数据的频率特征;
当所述频率特征满足预设的特征模型,停止采集音频数据;
所述提取采集到的音频数据的频率特征,包括:
实时计算所述音频数据的频率数据;
统计所述频率数据中连续的数据段之间的频率相似度,所述频率相似度用于表征所述数据段之间的频率波动幅度;
当所述频率特征满足预设的特征模型,停止采集音频数据,包括:
当连续预设个数的数据段的频率相似度达到预设的相似度门限值,停止采集音频数据。
2.根据权利要求1所述的方法,其特征在于,所述提取采集到的音频数据的频率特征,还包括:
统计所述频率数据中预设低频范围内的持续时长;
对应的,所述当所述频率特征满足预设的特征模型,停止采集音频数据,还包括:
当所述频率数据中预设低频范围内的持续时长达到预设时长,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述频率特征满足预设的特征模型时停止采集音频数据,则输出语音采集失败提醒。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若采集到的音频数据达到所述文字语料的对应时长时停止采集音频数据,则保存采集到的音频数据,并根据所述文字语料生成语音测试结果。
5.一种语音采集自动停止的装置,其特征在于,包括:
显示单元,用于显示文字语料,所述文字语料用于语音测试;
接收单元,用于接收开始指令,所述开始指令用于触发采集得到用于语音测试的音频数据;
提取单元,用于提取采集到的音频数据的频率特征;
停止单元,用于当所述频率特征满足预设的特征模型,停止采集音频数据;
所述提取单元,包括:
频率计算模块,用于实时计算所述音频数据的频率数据;
波动统计模块,用于统计所述频率数据中连续的数据段之间的频率相似度,所述频率相似度用于表征所述数据段之间的频率波动幅度;
所述停止单元,用于当连续预设个数的数据段的频率相似度达到预设的相似度门限值,停止采集音频数据。
6.根据权利要求5所述的装置,其特征在于,所述提取单元,还包括:
低频统计模块,用于统计所述频率数据中预设低频范围内的持续时长;
对应的,所述停止单元,还用于当所述频率数据中预设低频范围内的持续时长达到预设时长,或采集到的音频数据达到所述文字语料的对应时长时,停止采集音频数据。
7.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4任一所述的语音采集自动停止的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4任一所述的语音采集自动停止的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077811.0A CN110970054B (zh) | 2019-11-06 | 2019-11-06 | 语音采集自动停止的方法、装置、终端设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077811.0A CN110970054B (zh) | 2019-11-06 | 2019-11-06 | 语音采集自动停止的方法、装置、终端设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110970054A CN110970054A (zh) | 2020-04-07 |
CN110970054B true CN110970054B (zh) | 2022-06-24 |
Family
ID=70030254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911077811.0A Active CN110970054B (zh) | 2019-11-06 | 2019-11-06 | 语音采集自动停止的方法、装置、终端设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110970054B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113205713A (zh) * | 2021-04-19 | 2021-08-03 | 临沂职业学院 | 用于辅助单词背诵的方法及装置、移动终端 |
CN113448533B (zh) * | 2021-06-11 | 2023-10-31 | 阿波罗智联(北京)科技有限公司 | 提醒音频的生成方法、装置、电子设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104078076B (zh) * | 2014-06-13 | 2017-04-05 | 科大讯飞股份有限公司 | 一种语音录入方法及系统 |
CN105741841B (zh) * | 2014-12-12 | 2019-12-03 | 深圳Tcl新技术有限公司 | 语音控制方法及电子设备 |
CN107274913B (zh) * | 2017-05-26 | 2020-09-11 | 广东美的厨房电器制造有限公司 | 一种声音识别方法及装置 |
CN108364663A (zh) * | 2018-01-02 | 2018-08-03 | 山东浪潮商用系统有限公司 | 一种自动录制人声的方法及模块 |
CN108428457B (zh) * | 2018-02-12 | 2021-03-23 | 北京百度网讯科技有限公司 | 音频去重方法及装置 |
CN109859773A (zh) * | 2019-02-14 | 2019-06-07 | 北京儒博科技有限公司 | 一种声音的录制方法、装置、存储介质及电子设备 |
-
2019
- 2019-11-06 CN CN201911077811.0A patent/CN110970054B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110970054A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102568478B (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
US20170140750A1 (en) | Method and device for speech recognition | |
US11308934B2 (en) | Hotword-aware speech synthesis | |
CN110970054B (zh) | 语音采集自动停止的方法、装置、终端设备和存储介质 | |
CN109697207A (zh) | 时序数据的异常监控方法及系统 | |
CN106028176B (zh) | 一种确定流媒体中热点内容的时间点的方法及装置 | |
JP6999012B2 (ja) | 音声信号検出方法及び装置 | |
US10997965B2 (en) | Automated voice processing testing system and method | |
CN105979376A (zh) | 一种推荐方法和装置 | |
CN106293803B (zh) | 一种应用程序控制方法及装置 | |
CN107609028B (zh) | 一种低效率sql语句的确定方法及装置 | |
CN110047512A (zh) | 一种环境声音分类方法、系统及相关装置 | |
CN106356077B (zh) | 一种笑声检测方法及装置 | |
CN108766431B (zh) | 一种基于语音识别的自动唤醒方法及电子设备 | |
CN108509225B (zh) | 一种信息处理方法及电子设备 | |
CN104707331A (zh) | 一种游戏体感产生方法及装置 | |
CN113421586A (zh) | 梦呓识别方法、装置和电子设备 | |
CN106055641B (zh) | 一种面向智能机器人的人机交互方法及装置 | |
CN111063375A (zh) | 一种音乐播放控制系统、方法、设备和介质 | |
CN109271480B (zh) | 一种语音搜题方法及电子设备 | |
CN108877773B (zh) | 一种语音识别方法及电子设备 | |
CN113099043A (zh) | 客户服务的控制方法、装置和计算机可读存储介质 | |
CN109068005B (zh) | 一种计时提醒事件的创建方法及装置 | |
CN103309993A (zh) | 一种关键词的提取方法及装置 | |
CN109286510B (zh) | 日志数据的收集方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |