CN111540342B - 一种能量阈值调整方法、装置、设备及介质 - Google Patents
一种能量阈值调整方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111540342B CN111540342B CN202010298538.0A CN202010298538A CN111540342B CN 111540342 B CN111540342 B CN 111540342B CN 202010298538 A CN202010298538 A CN 202010298538A CN 111540342 B CN111540342 B CN 111540342B
- Authority
- CN
- China
- Prior art keywords
- energy
- threshold
- value
- audio
- energy threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000001514 detection method Methods 0.000 claims abstract description 60
- 230000008859 change Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 16
- 238000003062 neural network model Methods 0.000 description 12
- 230000007704 transition Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000001133 acceleration Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- XOFYZVNMUHMLCC-ZPOLXVRWSA-N prednisone Chemical compound O=C1C=C[C@]2(C)[C@H]3C(=O)C[C@](C)([C@@](CC4)(O)C(=O)CO)[C@@H]4[C@@H]3CCC2=C1 XOFYZVNMUHMLCC-ZPOLXVRWSA-N 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 230000007815 allergy Effects 0.000 description 1
- 230000003266 anti-allergic effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种能量阈值调整方法、装置、设备及介质,解决现有能量双门限端点检测方法不能准确采集有效语音段的技术问题。本发明通过获取音频段的能量信息,根据该音频段的能量信息,从而确定进行调整的目标能量阈值,进而对目标能量阈值进行调整,使能量阈值可以根据音频段的能量信息的不同而及时进行调整,从而能够更准确的采集有效语音段,也减少了后续指令词识别的工作量。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种能量阈值调整方法、装置、设备及介质。
背景技术
语音在用户交互方式中占70%的比例,在用户生活中起着很大作用。随着科技的进步,智能语音产品逐渐融入到日常生活中,智能语音产品包括:终端设备、智能家居以及车载信息系统等,用户通过语音就可以对智能语音产品进行控制,极大的方便了用户的生活。
目前智能语音产品在识别用户的语音时,可以先采集音频段,继而采用语音识别方法识别采集到的音频段中是否包含预设的指令词,如果包含,就会根据该指令词匹配对应的控制指令。以下是一种现有方案的过程:
现有方案进行语音识别时,采用能量双门限端点检测方法与模型分类器判决相结合方式检测语音端点,能高效准确的检测出语音的端点位置,同时,较容易实现在线化,可以应用于语音识别实时系统。
上述现有方案中涉及的能量双门限端点检测方法可以采用对应的阈值,在满足音频段采集条件时,采集音频段,继而采用网络模型识别采集到的音频段中是否包含预设的指令词。由于能量双门限端点检测方法是根据接收到的语音信息的能量,确定是否能够进行音频段的采集,该方法可以避免将未出现用户说话的音频段(如环境音等)也进行指令词的识别,从而进一步避免了后续指令词识别工作量大的问题。
但是,由上述现有方案可知,目前所用的能量双门限端点检测方法是采用能量阈值,对是否进行音频段采集进行判断,但在环境音强度被改变的情况下,如果一直采用固定不变的能量阈值,可能会导致确定的进行音频段采集的判断不准确,从而不能准确的采集到包含用户语音信息的音频段,即不能准确的采集到有效语音段,可能会给后续指令词识别带来很大的工作量。
发明内容
本发明实施例提供了一种能量阈值调整方法,用于解决现有能量双门限端点检测方法不能准确采集有效语音段的技术问题。
本发明的一方面提供了一种能量阈值调整方法,所述方法包括:
获取音频段的能量信息;
根据所述音频段的能量信息,确定所述音频段的能量波动幅度;
根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值;
对所述目标能量阈值进行调整。
进一步的,所述根据所述音频段的能量信息,确定所述音频段的能量波动幅度包括:
获取所述音频段的最高能量值及最低能量值,将所述最高能量值与最低能量值的比值确定为所述音频段的能量波动幅度。
进一步的,所述根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值包括:
若所述能量波动幅度大于预设的波动阈值,则确定能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值;
若所述能量波动幅度不大于预设的波动阈值,则根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值。
进一步的,若确定与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值,所述对所述目标能量阈值进行调整包括:
根据最高能量阈值的第二初始值对应的第一权重值,及当前保存的最高能量阈值对应的第二权重值,确定调整后的最高能量阈值;
根据最低能量阈值的第一初始值对应的第三权重值,及当前保存的最低能量阈值对应的第四权重值,确定调整后的最低能量阈值。
进一步的,所述第一权重值通过以下方式确定:
根据当前保存的第一权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最高能量阈值调整时所采用的第一权重值;
所述第三权重值通过以下方式确定:
根据当前保存的第三权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最低能量阈值调整时所采用的第三权重值。
进一步的,所述获取音频段的能量信息之前,所述方法还包括:
确定采集的音频段是否包含有效语音信息,若采集的音频段不包含有效语音信息进行后续获取音频段的能量信息的步骤。
进一步的,确定采集的音频段不包含有效语音信息包括:
在接收到的设定数量音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值时,若监测到所述设定数量音频帧之后的第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值,则开始音频信息的采集,若该第一音频帧之后连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则持续进行音频信息的采集,直到出现短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,且所述第二音频帧之后连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则结束音频信息的采集,若采集到的音频段的时长小于预设的时长阈值,则确定采集到的该音频段不包含有效语音信息;若采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,若否,则确定采集到的该音频段不包含有效语音信息;或,
若在第一设定时长内接收到的音频帧中均不存在短时能量值超过最高能量阈值,和/或过零率超过过零率阈值的目标音频帧,则采集第二设定时长的音频段,确定该音频段中不包含有效语音信息。
进一步的,所述预先训练完成的网络模型为包含一维卷积核的深度卷积神经网络模型。
本发明的另一方面提供了一种能量阈值调整装置,所述装置包括:
采集模块,用于获取音频段的能量信息;
计算模块,用于根据所述音频段的能量信息,确定所述音频段的能量波动幅度;
确定模块,用于根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值;
调整模块,用于对所述目标能量阈值进行调整。
本发明的再一方面提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述任一所述能量阈值调整方法的步骤。
本发明的再一方面提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述能量阈值调整方法的步骤。
本发明实施例通过获取音频段的能量信息,根据该音频段的能量信息,从而确定进行调整的目标能量阈值,进而对目标能量阈值进行调整,使能量阈值可以根据音频段的能量信息的不同而及时进行调整,从而能够更准确的采集有效语音段,也减少了后续指令词识别的工作量。
附图说明
图1为本发明实施例提供的第一种能量阈值调整过程示意图;
图2为本发明实施例提供的第二种能量阈值调整过程示意图;
图3为本发明实施例提供的第三种能量阈值调整过程示意图;
图4为本发明实施例提供的一种智能语音产品识别语音过程的流程示意图;
图5为本发明实施例提供的一种视频播放装置;
图6为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了实现能量阈值的自适应调整,从而更准确的采集有效语音段,本发明实施例提供了一种能量阈值调整方法、装置、设备及介质。
实施例1:
图1为本发明实施例提供的第一种能量阈值调整过程示意图,该过程包括以下步骤:
S101:获取音频段的能量信息。
本发明实施例提供的能量阈值调整方法用于调整能量双门限端点检测方法采用的最高能量阈值和最低能量阈值。
在本发明实施例中,获取音频段的能量信息包括,对该音频段中每个音频帧的短时能量进行计算,进而得到该音频段的最高能量值、最低能量值、以及平均能量值等能量信息中的至少一种。具体地,可以利用现有的计算音频帧短时能量的方法,对音频段的能量信息进行计算,在此不再赘述。
S102:根据所述音频段的能量信息,确定所述音频段的能量波动幅度。
能量波动幅度可以在一定程度上反映当前音频段所处的环境中环境音是否稳定,如果环境音比较稳定,则音频段的能量波动幅度较小,相反,如果环境音不稳定,例如有突变噪声,则音频段的能量波动幅度就较大。
音频段的能量波动幅度可以用音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值来表示,也可以用最高短时能量值与平均短时能量值的差值,或者最低短时能量值与平均短时能量值的差值来表示,优选的,采用最高短时能量值与最低短时能量值的比值表示音频段的能量波动幅度,最高短时能量值与最低短时能量值的比值越大,表示音频段的能量波动幅度越大,最高短时能量值与最低短时能量值的比值越小,表示音频段的能量波动幅度越小。
S103:根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值。
为了判断能量波动幅度是否正常,是否对采集有效语音段造成影响,本发明实施例预设有波动阈值,这个波动阈值可以是在能够采集有效语音段的一个环境音较稳定的环境下进行测试得来的。
如果音频段的能量波动幅度大于预设的波动阈值,说明当前环境音中存在影响采集有效语音段的突变噪音,需要对能量阈值进行调整。如果音频段的能量波动幅度不大于预设的波动阈值,则说明当前环境音中不存在影响采集有效语音段的突变噪音,但并不意味着没有影响有效语音段采集的平缓噪声,该影响有效语音段采集的平缓噪声,例如可以是环境中声音较大持续时间比较长的噪音等,因此还需要结合音频段的能量信息进行判断,从而确定对应的目标能量阈值。
S104:对所述目标能量阈值进行调整。
确定目标能量阈值后,就可以对目标能量阈值进行调整,从而确定什么时候能够进行语音信息的采集,以保证采集到的音频段为有效语音段。
本发明实施例通过获取音频段的能量信息,根据该音频段的能量信息,从而确定进行调整的目标能量阈值,进而对目标能量阈值进行调整,使能量阈值可以根据音频段的能量信息的不同而及时进行调整,从而能够更准确的采集到有效语音段,也减少了后续指令词识别的工作量。
实施例2:
为了准确的确定进行调整的目标能量阈值,在上述实施例的基础上,本发明实施例中,根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值包括:
若所述能量波动幅度大于预设的波动阈值,则确定能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值;
若所述能量波动幅度不大于预设的波动阈值,则根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值。
本发明实施例中,如果音频段的能量波动幅度大于预设的波动阈值,说明当前环境音中存在影响采集有效语音段的突变噪音,为了消除突变噪音对采集有效语音段的影响,需要对能量阈值进行调整。具体的,能量双门限端点检测方法对应的最高能量阈值和最低能量阈值都需要进行调整,也就是说目标能量阈值为能量双门限端点检测方法对应的最高能量阈值和最低能量阈值。
如果音频段的能量波动幅度不大于预设的波动阈值,说明当前环境音中不存在突变噪音,但为了确定当前环境音中是否存在平缓噪声,还需要根据获取的能量信息,与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果来确定,从而确定是否对最低能量阈值或最高能量阈值进行调整。
实施例3:
为了准确调整目标能量阈值,在上述各实施例的基础上,在本发明实施例中,若确定与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值,所述对所述目标能量阈值进行调整包括:
根据最高能量阈值的第二初始值对应的第一权重值,及当前保存的最高能量阈值对应的第二权重值,确定调整后的最高能量阈值;
根据最低能量阈值的第一初始值对应的第三权重值,及当前保存的最低能量阈值对应的第四权重值,确定调整后的最低能量阈值。
具体地,在本发明实施例中,如果判断当前环境音中存在突变噪音,目标能量阈值为能量双门限端点检测方法对应的最高能量阈值和最低能量阈值。
在对最高能量阈值进行调整时,根据最高能量阈值的第二初始值和当前保存的最高能量阈值进行调整,具体的调整过程包括:
确定最高能量阈值的第二初始值,并确定第二初始值对应的权重值,即第一权重值,以及确定当前保存的最高能量阈值,并确定当前保存的最高能量阈值对应的权重值,即第二权重值。其中,第一权重值大于0,且小于1;第二权重值大于0,且小于1;且第一权重值与第二权重值的和为1。即调整后的最高能量阈值为第一权重和最高能量阈值的第二初始值的第一乘积,与第二权重和当前保存的最高能量阈值的第二乘积的和。
最高能量阈值的第二初始值为预先设置的值,该第二初始值的大小可以是在较安静的环境中获取的最高能量阈值的值。当前保存的最高能量阈值为采集该音频段时所利用的能量双门限端点检测方法中对应的最高能量阈值。
为了进一步保证确定的最高能量阈值的准确性,在本发明实施例中第一权重值和第二权重值可以随着波动幅度的变化而变化,当音频段的能量波动幅度越大时,第一权重值越大,即最高能量阈值的第二初始值在调整后的最高能量阈值中所占的比例越大,因为第一权重值和第二权重值的和固定,相应的第二权重值将会越小,也就是说当前保存的最高能量阈值在调整后的最高能量阈值中所占的比例越小。
反之,当音频段的能量波动幅度越小时,第一权重值越小,即最高能量阈值的第二初始值在调整后的最高能量阈值中所占的比例越小,因为第一权重值和第二权重值的和固定,相应的第二权重值将会越大,也就是说当前保存的最高能量阈值在调整后的最高能量阈值中所占的比例越大。
为了方便理解,根据最高能量阈值的第二初始值和当前保存的最高能量阈值,对最高能量阈值进行调整时,例如最高能量阈值的第二初始值EH0对应的第一权重值为a,当前保存的最高能量阈值EH对应的第二权重值为(1-a),则将最高能量阈值调整为:aEH0+(1-a)EH,其中0<a<1。
在对最低能量阈值进行调整时,根据最低能量阈值的第一初始值和当前保存的最低能量阈值进行调整,具体的调整包括:
确定最低能量阈值的第一初始值,并确定第一初始值对应的权重值,即第三权重值,以及确定当前保存的最低能量阈值,并确定当前保存的最低能量阈值对应的权重值,即第四权重值。其中,第三权重值大于0,且小于1;第四权重值大于0,且小于1;且第三权重值与第四权重值的和为1。即调整后的最低能量阈值为第三权重和最低能量阈值的第一初始值的第三乘积,与第四权重和当前保存的最低能量阈值的第四乘积的和。
最低能量阈值的第一初始值为预先设置的值,该第一初始值的大小可以是在较安静的环境中获取的最低能量阈值的值。当前保存的最低能量阈值为采集该音频段时所利用的能量双门限端点检测方法中对应的最低能量阈值。
为了进一步保证确定的最低能量阈值的准确性,在本发明实施例中第三权重值和第四权重值可以随着波动幅度的变化而变化,当音频段的能量波动幅度越大时,第三权重值越大,即最低能量阈值的第一初始值在调整后的最低能量阈值中所占的权重比例越大,因为第三权重值和第四权重值的和固定,相应的第四权重值将会越小,也就是说当前保存的最低能量阈值在调整后的最低能量阈值中所占的比例越小。
反之,当音频段的能量波动幅度越小时,第三权重值越小,即最低能量阈值的第一初始值在调整后的最低能量阈值中所占的比例越小,因为第三权重值和第四权重值的和固定,相应的第四权重值将会越大,也就是说当前保存的最低能量阈值在调整后的最低能量阈值中所占的比例越大。
为了方便理解,根据最低能量阈值的第一初始值和当前保存的最低能量阈值,对最低能量阈值进行调整时,例如最低能量阈值的第一初始值EL0对应的第三权重值为b,当前保存的最低能量阈值EL对应的第四权重值为(1-b),则将最低能量阈值调整为:bEL0+(1-b)EL,其中0<b<1。
具体地,第一权重值a、第二权重值(1-a)、第三权重值b、第四权重值(1-b)的大小可以相同,也可以不同,本发明实施例对第一权重值、第二权重值、第三权重值、第四权重值的具体数值不做限定。较佳地,为了方便调整,第一权重值和第三权重值可以相同,第二权重值和第四权重值可以相同。
具体地,第一权重值可以通过以下方式确定:
根据当前保存的第一权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最高能量阈值调整时所采用的第一权重值,对最高能量阈值调整时所采用的第一权重值a可以为:
其中,a1为当前保存的第一权重值,第一权重值的初始值为0.5,k为音频段的能量变化趋势直线的斜率,ΔE为音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,其中,当音频段的能量变化曲线的斜率大于0时,即k>0时,sgnk=1;
当音频段的能量变化曲线的斜率等于0时,即k=0时,sgnk=0;
当音频段的能量变化曲线的斜率小于0时,即k<0时,sgnk=-1。
音频段的能量变化趋势直线的斜率可以用下述方法得到:
建立以时间为横轴,以能量为纵轴的坐标系,确定音频段中每个音频帧的短时能量值和该音频帧对应的时间点,并确定每个音频帧的短时能量值和该音频帧对应的时间点在上述坐标系中对应的坐标点,因为可以得到该音频段中每个音频帧的短时能量值和该音频帧对应的时间点,在上述坐标系中对应的坐标点,因此根据上述各个坐标点的坐标,根据y=kx+n拟合音频段的能量变化趋势直线,其中y为音频帧的短时能量值E,x为音频帧在该音频段中对应的时间点,k为该能量变化趋势直线的斜率,n为固定参数。拟合得到能量变化趋势直线的直线方程后,即得到直线的斜率k。
对最高能量阈值调整时所采用的第一权重值a的具体数值确定后,第二权重值的具体数值为1-a。
具体地,第三权重值可以通过以下方式确定:
根据当前保存的第三权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最低能量阈值调整时所采用的第三权重值,对最低能量阈值调整时所采用的第三权重值b可以为:
其中,b1为当前保存的第三权重值,第三权重值的初始值为0.5,k为音频段的能量变化趋势直线的斜率,ΔE为音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,其中,当音频段的能量变化曲线的斜率大于0时,即k>0时,sgnk=1;
当音频段的能量变化曲线的斜率等于0时,即k=0时,sgnk=0;
当音频段的能量变化曲线的斜率小于0时,即k<0时,sgnk=-1。
音频段的能量变化趋势直线的斜率可以用下述方法得到:
建立以时间为横轴,以能量为纵轴的坐标系,确定音频段中每个音频帧的短时能量值和该音频帧对应的时间点,并确定每个音频帧的短时能量值和该音频帧对应的时间点在上述坐标系中对应的坐标点,因为可以得到该音频段中每个音频帧的短时能量值和该音频帧对应的时间点,在上述坐标系中对应的坐标点,因此根据上述各个坐标点的坐标,根据y=kx+n拟合音频段的能量变化趋势直线,其中y为音频帧的短时能量值E,x为音频帧在该音频段中对应的时间点,k为该能量变化趋势直线的斜率,n为固定参数。拟合得到能量变化趋势直线的直线方程后,即得到直线的斜率k。
对最低能量阈值调整时所采用的第三权重值b的具体数值确定后,第四权重值的具体数值为1-b。
实施例4:
为了准确调整目标能量阈值,在上述各实施例的基础上,本发明实施例中,根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值不小于当前保存的最高能量阈值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述对所述目标能量阈值进行调整包括:
调大所述最高能量阈值。
如果音频段的能量波动幅度不大于预设的波动阈值,则说明当前环境音中不存在影响采集有效语音段的突变噪音,但并不意味着没有影响有效语音段采集的平缓噪声,因此还需要结合音频段的能量信息进行判断,从而确定对应的目标能量阈值。具体地,本发明实施例中,获取音频段的平均能量值,若音频段的平均能量值不小于当前保存的最高能量阈值,即平均能量值大于或者等于当前保存的最高能量阈值,此时将最高能量阈值确定为进行调整的目标能量阈值。
在本发明实施例中,音频段的平均能量值大于或者等于当前保存的最高能量阈值时,说明当前环境中存在影响有效语音段采集的较强的平缓噪声,因此为了准确的采集有效语音信息,需要将当前保存的最高能量阈值调大一些,从而不再将较强的环境音认为是音频段而进行采集,以实现更准确的采集有效语音段。
可以按照预设的调整值,对最高能量阈值进行调大处理,具体地,例如调整值为X,当前保存的最高能量阈值为Y,则调大处理后的最高能量阈值为X+Y。
为了进一步保证采集的有效语音段的准确性,本发明实施例中,调大所述最高能量阈值包括:
获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值的第一初始值和最高能量阈值的第二初始值,确定调高量;
根据所述提高量,调大所述最高能量阈值。
为了在当前环境音强度被改变的情况下,对当前保存的最高能量阈值进行调整,在本发明实施例中,根据该音频段的能量信息中的最小能量值E0、最大能量值E1,以及基于能量双门限端点检测方法确定的最低能量阈值的第一初始值EL0和最高能量阈值的第二初始值EH0来确定对当前保存的最高能量阈值的调高量。
其中,最低能量阈值的第一初始值和最高能量阈值的第二初始值均为预先设置的值,第一初始值的大小可以是在较安静的环境中获取的最低能量阈值的值,第二初始值的大小可以是在较安静的环境中获取的最高能量阈值的值。
根据确定的提高量,将当前保存的最高能量阈值进行调大处理。
实施例5:
为了准确调整目标能量阈值,在上述各实施例的基础上,本发明实施例中,根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值小于当前保存的最高能量阈值,且大于最高能量阈值的第二初始值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述对所述目标能量阈值进行调整包括:
将所述当前保存的最高能量阈值调整到最高能量阈值的第二初始值。
如果音频段的能量波动幅度不大于预设的波动阈值,则说明当前环境音中不存在影响采集有效语音段的突变噪音,但并不意味着没有影响有效语音段采集的平缓噪声,因此还需要结合音频段的能量信息进行判断,从而确定对应的目标能量阈值。具体地,本发明实施例中,获取音频段的平均能量值,若音频段的平均能量值小于当前保存的最高能量阈值,且大于最高能量阈值的第二初始值,此时将最高能量阈值确定为进行调整的目标能量阈值。
在本发明实施例中,音频段的平均能量值小于当前保存的最高能量阈值,且大于最高能量阈值的第二初始值,说明当前保存的最高能量阈值可能适合在环境音中存在较强的平缓噪声时采集音频段,如果环境音中平缓噪声的强度变小之后,仍然利用该较高的最高能量阈值进行音频段的采集,可能会因为当前保存的最高能量阈值偏大而导致没有采集到有效语音段,所以需要将当前保存的最高能量阈值调小一些,从而可以更准确的采集有效语音段。
优选地,为了方便调整,可以将当前保存的最高能量阈值调整到最高能量阈值的第二初始值,以使得可以更准确的采集有效语音段。
实施例6:
为了准确调整目标能量阈值,在上述各实施例的基础上,本发明实施例中,根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值大于所述最低能量阈值,且小于最高能量阈值第二初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述对所述目标能量阈值进行调整包括:
调大所述最低能量阈值。
如果音频段的能量波动幅度不大于预设的波动阈值,则说明当前环境音中不存在影响采集有效语音段的突变噪音,但并不意味着没有影响有效语音段采集的平缓噪声,因此还需要结合音频段的能量信息进行判断,从而确定对应的目标能量阈值。具体地,本发明实施例中,获取音频段的平均能量值,若音频段的平均能量值大于最低能量阈值EL,且小于最高能量阈值第二初始值EH0,即此时将最低能量阈值确定为进行调整的目标能量阈值。
在本发明实施例中,音频段的平均能量值小于最高能量阈值第二初始值,在该音频段中不包含有效语音信息时,可能确实是在该音频段中没有用户说话。但是另一方面,音频段的平均能量值大于最低能量阈值,说明当前保存的最低能量阈值偏小,使得处于过渡段的音频帧较多,因此,为了减少对过渡段的干扰,以更准确的采集有效语音段,需要将当前保存的最低能量阈值调大一些。
可以按照预设的调整值,对最低能量阈值进行调大处理,具体地,例如调整值为M,当前保存的最低能量阈值为N,则调大处理后的最低能量阈值为M+N。
为了进一步保证采集的有效语音段的准确性,本发明实施例中,调大所述最低能量阈值包括:
获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值第一初始值和最高能量阈值第二初始值,确定调高量;
根据所述提高量,调大所述最低能量阈值。
为了在当前环境音强度被改变的情况下,对当前保存的最高能量阈值进行调整,在本发明实施例中,根据该音频段能量信息中的最小能量值E0、最大能量值E1,以及基于能量双门限端点检测方法确定的最低能量阈值的第一初始值EL0和最高能量阈值的第二初始值EH0来确定对当前保存的最高能量阈值的调高量。
根据确定的提高量,将当前保存的最低能量阈值进行调大处理。
实施例7:
为了准确调整目标能量阈值,在上述各实施例的基础上,本发明实施例中,根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值小于当前保存的最低能量阈值,且大于最低能量阈值的第一初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述对所述目标能量阈值进行调整包括:
将所述当前保存的最低能量阈值调整到最低能量阈值的第一初始值。
如果音频段的能量波动幅度不大于预设的波动阈值,则说明当前环境音中不存在影响采集有效语音段的突变噪音,但并不意味着没有影响有效语音段采集的平缓噪声,因此还需要结合音频段的能量信息进行判断,从而确定对应的目标能量阈值。具体地,本发明实施例中,获取音频段的平均能量值,若音频段的平均能量值小于当前保存的最低能量阈值,且大于最低能量阈值的第一初始值,即此时将最低能量阈值确定为进行调整的目标能量阈值。
在本发明实施例中,音频段的平均能量值小于当前保存的最低能量阈值,且大于最低能量阈值的第一初始值,虽然音频段的能量平均值没有超过当前保存的最低能量阈值,可能当前音频段中环境音对采集有效语音段确实没有太大影响,但是音频段的平均能量值超过了最低能量阈值的第一初始值,只是没有达到当前保存的最低能量阈值,说明当前保存的最低能量阈值可能偏大,会使音频长时间处于静音段,甚至连进入过渡段的音频帧都较少,所以为了最大程度的减小环境音对采集音频段的影响,可以将需要进行调整的目标能量阈值确定为最低能量阈值,可以将当前保存的最低能量阈值调小一些,以使可以灵敏的检测到进入过渡段的音频帧,以及时为后期采集音频段做准备,提高采集有效语音段的灵敏性。
优选地,为了方便调节,可以将当前保存的最低能量阈值EL减小为最低能量阈值的第一初始值EL0。
可以理解的,如果音频段的平均能量值小于当前保存的最低能量阈值的第一初始值,则可以认为当前环境音较安静,对采集音频段不造成影响,此时可以不对当前保存的能量阈值进行调整。
实施例8:
为了更进一步节能,在上述各实施例的基础上,本发明实施例中,所述获取音频段的能量信息之前,所述方法还包括:
确定采集的音频段是否包含有效语音信息,若采集的音频段不包含有效语音信息进行后续获取音频段的能量信息的步骤。
在本发明实施例中,可以采集到音频段之后,就获取音频段的能量信息,进而判断是否需要对当前保存的能量阈值进行调整,基于节能考虑,优选地,可以在完成音频段的采集后,如果采集的音频段包含有效语音信息,则确定采集到的音频段为有效语音段,可以不对能量阈值进行调整。而如果采集的音频段中不包含有效语音信息时,考虑是不是当前环境音对有效语音段的采集造成了影响,所以可以在当采集的音频段中不包含有效语音信息时,获取该音频段的能量信息,判断当前环境音是否对有效语音段的采集造成了影响,从而判断是否需要对当前保存的能量阈值进行调整。
实施例9:
为了确定采集的音频段是否包含有效语音信息,在上述各实施例的基础上,本发明实施例中,确定采集的音频段不包含有效语音信息包括:
在接收到的设定数量音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值时,若监测到所述设定数量音频帧之后的第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值,则开始音频信息的采集,若该第一音频帧之后连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则持续进行音频信息的采集,直到出现短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,且所述第二音频帧之后连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则结束音频信息的采集,若采集到的音频段的时长小于预设的时长阈值,则确定采集到的该音频段不包含有效语音信息;若采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,若否,则确定采集到的该音频段不包含有效语音信息;或,
若在第一设定时长内接收到的音频帧中均不存在短时能量值超过最高能量阈值,和/或过零率超过过零率阈值的目标音频帧,则采集第二设定时长的音频段,确定该音频段中不包含有效语音信息。
本发明实施例中,可以在接收到每个音频帧时,计算每个音频帧的短时能量值和过零率,具体地,可以利用现有方法计算音频帧的短时能量和过零率。为了方便进行后续操作,在本发明实施例中预先为音频帧的短时能量设定能量阈值,具体地,为音频帧的短时能量分别设定最高能量阈值和最低能量阈值,并预先为音频帧的过零率设定过零率阈值,具体地,为音频帧的过零率分别设定最高过零率阈值和最低过零率阈值,根据短时能量与能量阈值,以及过零率与过零率阈值的比较结果,确定是否能够进行音频段的采集。
图2为本发明实施例提供的第二种能量阈值调整过程示意图,如图2所示:
S201:为音频帧的短时能量分别设定最高能量阈值和最低能量阈值,为音频帧的过零率分别设定最高过零率阈值和最低过零率阈值。开始接收音频帧,获取接收到的每个音频帧的短时能量值和过零率。
S202:若监测到第三音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值,则判断第三音频帧之后是否有连续多个音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值,若是,则进行步骤S203;若否,则进行步骤S204。
S203:如果第三音频帧之后有连续多个音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值,则认为音频进入过渡段,此时可以为采集音频段做准备,以期可以灵敏的监测到进入音频段的音频帧。并在连续多个音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值之后的音频帧中,若监测到第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值时,进行步骤S205。
S204:如果第三音频帧之后没有连续多个音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值,说明音频从过渡段回落到静音段,可以以第三音频帧之后第一个短时能量值低于最低能量阈值且过零率低于最低过零率阈值的音频帧为当前音频帧,可以在该当前音频帧之后设定数量的音频帧开始监测是否有连续多个音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值的音频帧,例如可以从该当前音频帧之后的第3个音频帧开始继续监测进入过渡段的音频帧,即从当前音频帧之后的第3个音频帧开始继续监测新的目标第三音频帧以及判断目标第三音频帧之后是否有连续多个音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值的音频帧。
S205:若监测到第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值,则对第一音频帧进行标记,具体地,可以将第一音频帧标记为首帧,开始进行音频信息的采集,即开始采集音频段,并判断第一音频帧之后是否有连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值的音频帧,若是,则进行步骤S206;若否,则进行步骤S207。
S206:如果第一音频帧后面连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则持续进行音频信息的采集。并在采集音频信息的过程中,如果监测到短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,则进行步骤S208。
S207:如果第一音频帧后面没有连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则取消对第一音频帧的首帧标记,同时也取消该音频信息的采集,继续利用该方法在后面的音频帧中监测新的首帧,例如以取消该音频信息的采集时收集的音频帧为当前音频帧,可以在当前音频帧之后设定数量的音频帧开始继续监测新的首帧,如从当前音频帧之后的第3个音频帧开始继续监测新的目标首帧。
S208:在采集音频信息的过程中,如果监测到短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,则将第二音频帧标记为末帧,判断第二音频帧之后是否有连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,若是,则进行步骤S209;若否,则进行步骤S210。
S209:如果第二音频帧后面连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则结束该音频段的采集,即完成音频段的采集。并在完成音频段的采集后,进行步骤S211。
S210:如果第二音频帧后面没有连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则取消对第二音频帧的末帧标记,继续采集音频信息,同时利用该方法在后面的音频帧中监测新的末帧,例如以取消对第二音频帧的末帧标记时接收的音频帧为当前音频帧,可以在当前音频帧之后设定数量的音频帧开始继续监测新的目标末帧,如从当前音频帧之后的第3个音频帧开始继续监测新的末帧,直至完成音频段的采集。
S211:判断采集到的音频段的时长是否小于预设的时长阈值,初步判断采集到的音频段是否为有效语音段,若是,则进行步骤S212;若否,则进行步骤S213。
S212:如果采集到的音频段的时长小于预设的时长阈值,则确定采集到的该音频段不包含有效语音信息,则获取该音频段的能量信息,根据该音频段中的能量信息确定需要进行调整的目标能量阈值,以使能量阈值可以根据环境音强度的改变而及时进行调整,从而能够更准确的采集有效语音段。并利用调整后的目标能量阈值,进行步骤S201。
正常的音频段是具有一定长度的,因此如果采集到的音频段的长度较短,则很可能不包含有效语音信息,即不是有效语音段,为了方便识别采集的音频段是否为有效语音段,在本发明实施例中预先设置有预设的时长阈值,因为预设的时长阈值是根据正常语音控制指令的最小时长阈值设定的,所以当采集到的音频段的时长小于预设的时长阈值时,就认为该音频段不包含有效语音段,该音频段可能是突变噪声引起的,例如门突然被大风吹开、突然有汽车鸣笛等。
S213:如果采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,若不包含,则进行步骤S214;若包含,则进行步骤S215。
如果采集到的音频段的时长不小于预设的时长阈值,说明该音频段可能是包含指令词的音频段,可以通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,如果没有包含预设的指令词,则确定采集到的该音频段不包含有效语音信息。
S214:如果通过预先训练完成的网络模型没有识别到音频段中包含预设的指令词,则确定采集到的该音频段不包含有效语音信息,则获取该音频段的能量信息,根据该音频段中的能量信息确定需要进行调整的目标能量阈值,以使能量阈值可以根据环境音强度的改变而及时进行调整,从而能够更准确的采集有效语音段。并利用调整后的目标能量阈值,进行步骤S201。
S215:如果通过预先训练完成的网络模型识别该音频段中包含预设的指令词,则确定采集到的音频段为有效语音段,不对能量阈值进行调整。
可以理解的,如果采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别到该音频段中包含预设的指令词,则确定该音频段中包含有效语音信息,可以认为当前环境音对采集有效语音段没有造成影响,可以不对当前保存的能量阈值进行调整。
另外,如果在第一设定时长内接收到的音频帧中不存在连续多个短时能量值超过最高能量阈值,或者过零率超过过零率阈值的目标音频帧,则进行步骤S216。
S216:如果在第一设定时长内接收到的音频帧中不存在连续多个短时能量值超过最高能量阈值,或者过零率超过过零率阈值的目标音频帧,则采集第二设定时长的音频段,认为该音频段中不包含有效语音信息,并进行步骤S217。
S217:获取第二设定时长的音频段的能量信息,根据该音频段中的能量信息确定需要进行调整的目标能量阈值,以使能量阈值可以根据环境音强度的改变而及时进行调整,从而能够更准确的采集有效语音段。并利用调整后的目标能量阈值,进行步骤S201。
如果在第一设定时长内接收到的音频帧中均不存在短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值的音频帧,则可以准备采集第二设定时长的音频段,具体地,可以在第一设定时长的时长达到后,将第一设定时长之后接收到的第一个音频帧标记为首帧,开始进行音频信息的采集,如果在第一设定时长之后的第二设定时长内接收到的音频帧中存在单个或者连续多个音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值的音频帧,则取消对第一设定时长之后接收到的第一个音频帧的首帧标记,取消该第二设定时长音频段的采集;如果在第一设定时长之后的第二设定时长内接收到的音频帧中,不存在单个或者连续多个音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值的音频帧,则在采集时长达到第二设定时长时,将第二设定时长内接收到的最后一个音频帧标记为末帧,结束对第二设定时长的音频段的采集,即完成第二设定时长的音频段的采集,认为该第二设定时长的音频段中不包含有效语音信息,进而根据该第二设定时长的音频段中的能量信息判断环境音是否对采集有效语音段造成影响,从而确定是否需要对当前保存的能量阈值进行调整。
图3为本发明实施例提供的第三种能量阈值调整过程示意简图,如图3所示:
接收音频帧,获取接收到的每个音频帧的短时能量值和过零率。利用能量双门限端点检测方法对应的能量阈值,在满足音频段采集条件时,采集音频段。在完成音频段的采集后,如果采集的音频段不包含有效语音信息,则获取该音频段的能量信息,根据该音频段中的能量信息确定需要进行调整的目标能量阈值,并对目标能量阈值进行调整,以使能量阈值可以根据环境音强度的改变而及时进行调整,从而能够更准确的采集有效语音段。并利用调整后的目标能量阈值,在满足音频段采集条件时,采集音频段。
实施例10:
为了保障语音识别的实时性,在上述各实施例的基础上,本发明实施例中,预先训练完成的网络模型包括:
预先用包含一维卷积核的深度卷积神经网络模型进行训练。
本发明实施例中,在通过预先训练完成的网络模型识别音频段中是否包含预设的指令词时,可以通过预先训练完成的包含一维卷积核、或者二维卷积核的深度卷积神经网络模型进行识别,为了保障语音识别的实时性,本发明实施例优选采用通过预先训练完成的包含一维卷积核的深度卷积神经网络模型进行识别。
目前在利用预先训练完成的网络模型识别采集的音频段中是否包含预设的指令词时,主要是采用基于二维卷积核的深度卷积神经网络模型进行识别,但是二维卷积核的深度卷积神经网络模型参数量较大,不仅会使网络模型的计算量巨大,也会占用嵌入式硬件端较大内存,针对时长较短的控制语音,难以保障语音识别的实时性,而智能语音产品在确保语音识别准确性的同时,还需保证语音识别的实时性。另外,二维卷积深度卷积神经网络模型需要大量的语音样本数据量,在控制语音的数据量有限时,网络模型难以收敛,无法训练得到一个较好的模型。
而在语音控制领域,所需的控制语音命令字有限,往往无需大量的数据集,只需在一定量的样本数据集内做到网络模型收敛即可,所以,本发明实施例优选用包含一维卷积核的深度卷积神经网络模型。本发明实施例的一维卷积核以单个空间(或时间)维上的层进行卷积,以生成输出张量,对于语音序列识别具有较好的效果,使用一维卷积(1D Conv)可以大大减少模型参数量,可以使训练模型更易收敛,同时可以降低计算复杂度,减少在嵌入式硬件端的计算量,从而可以保障语音识别的实时性。
优选地,本发明实施例在预先用包含一维卷积核的深度卷积神经网络模型进行训练时,在网络模型中引入降过敏层Dropout层,Dropout层为有效的正则化方法之一,可有效的降低网络过拟合,网络模型训练时更容易收敛。整个一维卷积的深度卷积神经网络模型由采用一维卷积核的输入层I,卷积层Conv层C1,池化层Pool层P1,降过敏层Dropout层,变换层ReShape,密集连接层Dense,输出层O等构成。
本发明实施例预先对一维卷积的深度卷积神经网络模型的训练包含如下步骤:
(1)数据集收集,本发明实施例主要针对室内场景的语音指令控制,首先整理所需控制指令,优选实际应用场景中涉及的控制指令,并提取出所涉及的中文字集合等,在相对安静的环境下,录制相关指令的中文语音数据集,尽量保证数据集包含多人的语音,以防止语音数据集的音色单一化,根据所需识别的控制指令数量,录制一定量的语音数据集。
(2)将处理的数据样本,送至一维卷积的深度卷积神经网络模型进行训练,损失函数采用编译码器算法(Connectionist temporal classification,CTC),以实现整个网络模型的端到端训练,通过参数调整,训练反复迭代多次,直至训练完成对所需识别的命令字测试错误率较低的模型。
图4为本发明实施例提供的一种智能语音产品识别语音过程的流程示意图,如图4所示:
S401:连续接收音频帧,获取接收到的每个音频帧的短时能量值和过零率。
S402:利用能量双门限端点检测方法对应的能量阈值,在满足音频段采集条件时,采集音频段。并在采集到音频段之后,进行步骤S403。
S403:将采集的音频段通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,优选的,该预先训练完成的网络模型可以为预先训练完成的基于一维卷积核的深度卷积神经网络模型,并通过数字信号处理(Digital Signal Processing,DSP)、图形处理器(Graphic Processing Unit,GPU)或者神经网络(Neural Network,NN)等嵌入式硬件加速模块并行优化指令集进行加速,达到实时识别的效果。并在识别到指令词之后,进行步骤S404。
S404:网络模型可以结合使用文本匹配算法(Boyer-Moore,BM)和关键词匹配算法,将识别到的指令词快速精准匹配对应的控制指令,使智能语音产品中可以快速精准的执行语音控制指令。并在匹配到对应的控制指令后,进行步骤S405。
S405:智能语音产品执行对应的控制指令。
通过网络模型将指令词识别结果转化成标准指令的过程时,网络模型可以结合使用文本匹配算法(Boyer-Moore,BM)和关键词匹配算法将识别到的指令词快速精准匹配对应的控制指令:对于控制指令来说,指令中的某些关键词,如:“打开”,“播放”,“关闭”“音乐”等,相对其它字词来说更加重要,本发明实施例结合使用BM文本匹配算法和关键词匹配算法,在匹配过程中利用BM文本匹配算法中坏字符规则表及好后缀规则表,坏字符即为匹配出错的文本的字符,其规则为:字符后移位数(digit)=坏字符的位置(curretlocal)-搜索词中上一次字符出现的位置(previous local),好后缀规则表是已经匹配的后缀,其规则为:字符后移位数(digit)=好后缀-搜索词中上一次后缀出现的位置,若坏字符没有在模板中出现过,则后移位数=坏字符的位置+1,而每一次的匹配中出现问题后,后移位数=max{坏字符规则,好后缀规则},在指令词识别结果中,如周围存在其它人说话干扰时,指令词识别结果为:“这是播放你好播放音乐”,本发明实施例利用关键词匹配算法,只需数次匹配计算后,即可以匹配到对应的控制指令“播放音乐”,做到快速高效的匹配效果。
嵌入式硬件加速模块,主要是训练完成的网络模型在硬件上进行前向传播的计算过程,基于一维卷积的深度卷积神经网络模型可以方便的使用数字信号处理(DigitalSignal Processing,DSP)、图形处理器(Graphic Processing Unit,GPU)或者神经网络(Neural Network,NN)等硬件加速模块并行优化指令集进行加速,达到实时识别的效果。
传统的语音识别的方法主要基于模板匹配的方式进行,但是该方式特征提取比较单一,在各种不同特色的场景下,效果大打折扣,同时,由于模板匹配算法复杂度较高,在实时性方面也难以取得较好效果。
随着深度学习技术的发展,出现了基于深度学习原理的语音识别方法,该方法具有比基于模板匹配方式的语音识别方法更好的特征提取及推理能力,并且能够做到端到端训练与识别,在目前的语音识别产品中的应用中越来越广泛。
目前常用的采集音频段的方法包括语音切片、语音端点检测等方法,其中常用的语音端点检测方法包括基于时域参数的方法和基于频域参数的方法。其中本发明实施例中的能量双门限端点检测方法属于基于时域参数的语音端点检测方法。
早先基于能量的方法,将宽带语音分成各个子带,在子带上求能量;语音在2KHz以下频带包含了大量的能量,而噪声在2~4KHz或者4KHz以上频带比0~2KHz频带倾向有更高的能量。信号{x(n)}的短时能量的定义为w(n)为窗函数,其短时平均幅度定义为:音频段的能量比噪声能量大,根据频谱平坦度的概念,音频段的能量是噪声段能量叠加语音声波能量的和,在信噪比很高时,只要输入信号的短时能量或短时平均幅度就能较好的区分背景及噪声,但在信噪比低于10db时,语音和噪声的区分能力会加速下降。短时过零率表示一帧语音信号波形穿过横轴的次数。平均过零率定义为: 对于连续语音信号,过零率意味着时域波形通过时间轴;而对于离散信号,则为相邻的取样值的符号改变。
在本发明实施例中,根据短时能量与能量阈值,以及过零率与过零率阈值的比较结果,可以将一段音频分为静音段、过渡段、音频段和结束段。如果某个或连续多个音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值,说明进入过渡段,此时就可以为采集音频段做准备,以期可以灵敏的监测到进入音频段的音频帧。如果在过渡段中音频帧的短时能量和/或过零率低于最低阈值,说明音频从过渡段回落到静音段。如果在过渡段中,某个或连续多个音频帧的短时能量值超过最高能量阈值,和/或过零率超过最高过零率阈值,则认为进入音频段,开始进行音频信息的采集。如果某个或连续多个音频帧的短时能量值小于最高能量阈值且过零率小于过零率阈值,则结束进行音频信息的采集,即完成音频段的采集。
当采集的音频段中不包含有效语音信息时,获取该音频段的能量信息,为了更好体现该音频段能量平均分布情况,对该音频段的能量进行统计,基于音频信号的连续性,音频信号强度可以拟合成高斯分布,即记为E~N(μ,δ2),得到该音频段的平均能量值以及在(μ-δ,μ+δ)区域分布内的最低能量值E0和最高能量值E1。
本发明实施例采用语音数据语谱图作为网络的输入特征,具体过程如下:先将N0个采样点集合成一个观测单位,作为一帧,为了避免相邻两帧的变化过大,让两相邻帧之间有一段重叠区域,此重叠区域包含M个采样点,通常M的值约为N0的1/2或1/3;然后对每一帧乘以汉明窗,以增加帧左端和右端的连续性,假设分帧后的信号为S(n),n=0,1,..,N-1,N为帧的大小,那么乘以汉明窗后,S′(n)=S(n)×w(n),w(n)的形式如下 0≤n≤N-1,最后对每帧信号进行快速傅里叶变换以得到在频谱上的能量分布,N帧的频谱分布即为语谱图特征。本发明实施例中环境音强度通过频谱变换进行计算,傅里叶变换公式为:k=0,1,…N-1,
实施例11:
图5为本发明实施例提供的一种能量阈值调整装置,如图5所示,在上述各实施例的基础上,本发明实施例提供的一种能量阈值调整装置,所述装置包括:
采集模块51,用于获取音频段的能量信息;
计算模块52,用于根据所述音频段的能量信息,确定所述音频段的能量波动幅度;
确定模块53,用于根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值;
调整模块54,用于对所述目标能量阈值进行调整。
优选的,所述计算模块52,具体用于获取所述音频段的最高能量值及最低能量值,将所述最高能量值与最低能量值的比值确定为所述音频段的能量波动幅度。
优选的,所述确定模块53,具体用于若所述能量波动幅度大于预设的波动阈值,则确定能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值;
若所述能量波动幅度不大于预设的波动阈值,则根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值。
优选的,所述确定模块53,具体用于若所述音频段的平均能量值不小于当前保存的最高能量阈值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述调整模块54,具体用于调大所述最高能量阈值。
优选的,所述确定模块53,具体用于获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值的第一初始值和最高能量阈值的第二初始值,确定调高量;
根据所述提高量,调大所述最高能量阈值。
优选的,所述确定模块53,具体用于若所述音频段的平均能量值小于当前保存的最高能量阈值,且大于最高能量阈值的第二初始值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述调整模块54,具体用于将所述当前保存的最高能量阈值调整到最高能量阈值的第二初始值。
优选的,所述确定模块53,具体用于若所述音频段的平均能量值大于所述最低能量阈值,且小于最高能量阈值第二初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述调整模块54,具体用于调大所述最低能量阈值。
优选的,所述调整模块54,具体用于获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值第一初始值和最高能量阈值第二初始值,确定调高量;
根据所述提高量,调大所述最低能量阈值。
优选的,所述确定模块53,具体用于若所述音频段的平均能量值小于当前保存的最低能量阈值,且大于最低能量阈值的第一初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述调整模块54,具体用于将所述当前保存的最低能量阈值调整到最低能量阈值的第一初始值。
优选的,所述确定模块53,具体用于根据最高能量阈值的第二初始值对应的第一权重值,及当前保存的最高能量阈值对应的第二权重值,确定调整后的最高能量阈值;
根据最低能量阈值的第一初始值对应的第三权重值,及当前保存的最低能量阈值对应的第四权重值,确定调整后的最低能量阈值。
优选的,所述确定模块53,具体用于所述第一权重值通过以下方式确定:
根据当前保存的第一权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最高能量阈值调整时所采用的第一权重值;
所述第三权重值通过以下方式确定:
根据当前保存的第三权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最低能量阈值调整时所采用的第三权重值。
优选的,所述装置还包括:仲裁模块,用于确定采集的音频段是否包含有效语音信息,若采集的音频段不包含有效语音信息,则触发所述采集模块51。
优选的,所述采集模块51,具体用于在接收到的设定数量音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值时,若监测到所述设定数量音频帧之后的第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值,则开始音频信息的采集,若该第一音频帧之后连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则持续进行音频信息的采集,直到出现短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,且所述第二音频帧之后连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则结束音频信息的采集,若采集到的音频段的时长小于预设的时长阈值,则确定采集到的该音频段不包含有效语音信息;若采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,若否,则确定采集到的该音频段不包含有效语音信息;或,
若在第一设定时长内接收到的音频帧中均不存在短时能量值超过最高能量阈值,和/或过零率超过过零率阈值的目标音频帧,则采集第二设定时长的音频段,确定该音频段中不包含有效语音信息。
本发明实施例通过获取音频段的能量信息,根据该音频段的能量信息,从而确定进行调整的目标能量阈值,进而对目标能量阈值进行调整,使能量阈值可以根据音频段的能量信息的不同而及时进行调整,从而能够更准确的采集到有效语音段,也减少了后续指令词识别的工作量。
实施例12:
图6为本发明实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图6所示,包括:处理器61、通信接口62、存储器63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信;
所述存储器63中存储有计算机程序,当所述程序被所述处理器61执行时,使得所述处理器61执行如下步骤:
获取音频段的能量信息;
根据所述音频段的能量信息,确定所述音频段的能量波动幅度;
根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值;
对所述目标能量阈值进行调整。
在一种可能的实施方式中,处理器61,具体用于所述根据所述音频段的能量信息,确定所述音频段的能量波动幅度包括:
获取所述音频段的最高能量值及最低能量值,将所述最高能量值与最低能量值的比值确定为所述音频段的能量波动幅度。
在一种可能的实施方式中,处理器61,具体用于所述根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值包括:
若所述能量波动幅度大于预设的波动阈值,则确定能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值;
若所述能量波动幅度不大于预设的波动阈值,则根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值。
在一种可能的实施方式中,处理器61,具体用于所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值不小于当前保存的最高能量阈值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述对所述目标能量阈值进行调整包括:
调大所述最高能量阈值。
在一种可能的实施方式中,处理器61,具体用于所述调大所述最高能量阈值包括:
获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值的第一初始值和最高能量阈值的第二初始值,确定调高量;
根据所述提高量,调大所述最高能量阈值。
在一种可能的实施方式中,处理器61,具体用于所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值小于当前保存的最高能量阈值,且大于最高能量阈值的第二初始值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述对所述目标能量阈值进行调整包括:
将所述当前保存的最高能量阈值调整到最高能量阈值的第二初始值。
在一种可能的实施方式中,处理器61,具体用于所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值大于所述最低能量阈值,且小于最高能量阈值第二初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述对所述目标能量阈值进行调整包括:
调大所述最低能量阈值。
在一种可能的实施方式中,处理器61,具体用于所述调大所述最低能量阈值包括:
获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值第一初始值和最高能量阈值第二初始值,确定调高量;
根据所述提高量,调大所述最低能量阈值。
在一种可能的实施方式中,处理器61,具体用于所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值小于当前保存的最低能量阈值,且大于最低能量阈值的第一初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述对所述目标能量阈值进行调整包括:
将所述当前保存的最低能量阈值调整到最低能量阈值的第一初始值。
在一种可能的实施方式中,处理器61,具体用于若确定与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值,所述对所述目标能量阈值进行调整包括:
根据最高能量阈值的第二初始值对应的第一权重值,及当前保存的最高能量阈值对应的第二权重值,确定调整后的最高能量阈值;
根据最低能量阈值的第一初始值对应的第三权重值,及当前保存的最低能量阈值对应的第四权重值,确定调整后的最低能量阈值。
在一种可能的实施方式中,处理器61,具体用于所述第一权重值通过以下方式确定:
根据当前保存的第一权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最高能量阈值调整时所采用的第一权重值;
所述第三权重值通过以下方式确定:
根据当前保存的第三权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最低能量阈值调整时所采用的第三权重值。
在一种可能的实施方式中,处理器61,还用于所述获取音频段的能量信息之前,所述方法还包括:
确定采集的音频段是否包含有效语音信息,若采集的音频段不包含有效语音信息进行后续获取音频段的能量信息的步骤。
在一种可能的实施方式中,处理器61,具体用于确定采集的音频段不包含有效语音信息包括:
在接收到的设定数量音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值时,若监测到所述设定数量音频帧之后的第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值,则开始音频信息的采集,若该第一音频帧之后连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则持续进行音频信息的采集,直到出现短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,且所述第二音频帧之后连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则结束音频信息的采集,若采集到的音频段的时长小于预设的时长阈值,则确定采集到的该音频段不包含有效语音信息;若采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,若否,则确定采集到的该音频段不包含有效语音信息;或,
若在第一设定时长内接收到的音频帧中均不存在短时能量值超过最高能量阈值,和/或过零率超过过零率阈值的目标音频帧,则采集第二设定时长的音频段,确定该音频段中不包含有效语音信息。
在一种可能的实施方式中,处理器61,具体用于所述预先训练完成的网络模型为包含一维卷积核的深度卷积神经网络模型。
由于上述电子设备解决问题的原理与能量阈值调整方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口62用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
本发明实施例通过获取音频段的能量信息,根据该音频段的能量信息,从而确定进行调整的目标能量阈值,进而对目标能量阈值进行调整,使能量阈值可以根据音频段的能量信息的不同而及时进行调整,从而能够更准确的采集到有效语音段,也减少了后续指令词识别的工作量。
实施例13:
在上述各实施例的基础上,本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取音频段的能量信息;
根据所述音频段的能量信息,确定所述音频段的能量波动幅度;
根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值;
对所述目标能量阈值进行调整。
在一种可能的实施方式中,所述根据所述音频段的能量信息,确定所述音频段的能量波动幅度包括:
获取所述音频段的最高能量值及最低能量值,将所述最高能量值与最低能量值的比值确定为所述音频段的能量波动幅度。
在一种可能的实施方式中,所述根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值包括:
若所述能量波动幅度大于预设的波动阈值,则确定能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值;
若所述能量波动幅度不大于预设的波动阈值,则根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值。
在一种可能的实施方式中,所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值不小于当前保存的最高能量阈值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述对所述目标能量阈值进行调整包括:
调大所述最高能量阈值。
在一种可能的实施方式中,所述调大所述最高能量阈值包括:
获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值的第一初始值和最高能量阈值的第二初始值,确定调高量;
根据所述提高量,调大所述最高能量阈值。
在一种可能的实施方式中,所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值小于当前保存的最高能量阈值,且大于最高能量阈值的第二初始值,则确定进行调整的目标能量阈值为所述最高能量阈值;
所述对所述目标能量阈值进行调整包括:
将所述当前保存的最高能量阈值调整到最高能量阈值的第二初始值。
在一种可能的实施方式中,所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值大于所述最低能量阈值,且小于最高能量阈值第二初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述对所述目标能量阈值进行调整包括:
调大所述最低能量阈值。
在一种可能的实施方式中,所述调大所述最低能量阈值包括:
获取所述音频段的最小能量值和最大能量值,以及基于所述能量双门限端点检测方法确定的最低能量阈值第一初始值和最高能量阈值第二初始值,确定调高量;
根据所述提高量,调大所述最低能量阈值。
在一种可能的实施方式中,所述根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值包括:
若所述音频段的平均能量值小于当前保存的最低能量阈值,且大于最低能量阈值的第一初始值,则确定进行调整的目标能量阈值为所述最低能量阈值;
所述对所述目标能量阈值进行调整包括:
将所述当前保存的最低能量阈值调整到最低能量阈值的第一初始值。
在一种可能的实施方式中,若确定与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值,所述对所述目标能量阈值进行调整包括:
根据最高能量阈值的第二初始值对应的第一权重值,及当前保存的最高能量阈值对应的第二权重值,确定调整后的最高能量阈值;
根据最低能量阈值的第一初始值对应的第三权重值,及当前保存的最低能量阈值对应的第四权重值,确定调整后的最低能量阈值。
在一种可能的实施方式中,所述第一权重值通过以下方式确定:
根据当前保存的第一权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最高能量阈值调整时所采用的第一权重值;
所述第三权重值通过以下方式确定:
根据当前保存的第三权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最低能量阈值调整时所采用的第三权重值。
在一种可能的实施方式中,所述获取音频段的能量信息之前,所述方法还包括:确定采集的音频段是否包含有效语音信息,若采集的音频段不包含有效语音信息进行后续获取音频段的能量信息的步骤。
在一种可能的实施方式中,确定采集的音频段不包含有效语音信息包括:
在接收到的设定数量音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值时,若监测到所述设定数量音频帧之后的第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值,则开始音频信息的采集,若该第一音频帧之后连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则持续进行音频信息的采集,直到出现短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,且所述第二音频帧之后连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则结束音频信息的采集,若采集到的音频段的时长小于预设的时长阈值,则确定采集到的该音频段不包含有效语音信息;若采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,若否,则确定采集到的该音频段不包含有效语音信息;或,
若在第一设定时长内接收到的音频帧中均不存在短时能量值超过最高能量阈值,和/或过零率超过过零率阈值的目标音频帧,则采集第二设定时长的音频段,确定该音频段中不包含有效语音信息。
在一种可能的实施方式中,所述预先训练完成的网络模型为包含一维卷积核的深度卷积神经网络模型。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
本发明实施例通过获取音频段的能量信息,根据该音频段的能量信息,从而确定进行调整的目标能量阈值,进而对目标能量阈值进行调整,使能量阈值可以根据音频段的能量信息的不同而及时进行调整,从而能够更准确的采集到有效语音段,也减少了后续指令词识别的工作量。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (8)
1.一种能量阈值调整方法,其特征在于,所述方法包括:
获取音频段的能量信息;
根据所述音频段的能量信息,确定所述音频段的能量波动幅度;
根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值;
对所述目标能量阈值进行调整;
所述根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值包括:
若所述能量波动幅度大于预设的波动阈值,则确定能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值;
若所述能量波动幅度不大于预设的波动阈值,则根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值;
若确定与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值,所述对所述目标能量阈值进行调整包括:
根据最高能量阈值的第二初始值对应的第一权重值,及当前保存的最高能量阈值对应的第二权重值,确定调整后的最高能量阈值;根据最低能量阈值的第一初始值对应的第三权重值,及当前保存的最低能量阈值对应的第四权重值,确定调整后的最低能量阈值;
所述第一权重值通过以下方式确定:根据当前保存的第一权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最高能量阈值调整时所采用的第一权重值;
所述第三权重值通过以下方式确定:根据当前保存的第三权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最低能量阈值调整时所采用的第三权重值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述音频段的能量信息,确定所述音频段的能量波动幅度包括:
获取所述音频段的最高能量值及最低能量值,将所述最高能量值与最低能量值的比值确定为所述音频段的能量波动幅度。
3.根据权利要求1所述的方法,其特征在于,所述获取音频段的能量信息之前,所述方法还包括:
确定采集的音频段是否包含有效语音信息,若采集的音频段不包含有效语音信息进行后续获取音频段的能量信息的步骤。
4.根据权利要求3所述的方法,其特征在于,确定采集的音频段不包含有效语音信息包括:
在接收到的设定数量音频帧的短时能量值超过最低能量阈值,和/或过零率超过最低过零率阈值时,若监测到所述设定数量音频帧之后的第一音频帧的短时能量值超过最高能量阈值,或者过零率超过最高过零率阈值,则开始音频信息的采集,若该第一音频帧之后连续多个音频帧的短时能量超过最高能量阈值,或者过零率超过最高过零率阈值,则持续进行音频信息的采集,直到出现短时能量值小于最高能量阈值且过零率小于最高过零率阈值的第二音频帧,且所述第二音频帧之后连续多个音频帧的短时能量值小于最高能量阈值且过零率小于最高过零率阈值,则结束音频信息的采集,若采集到的音频段的时长小于预设的时长阈值,则确定采集到的该音频段不包含有效语音信息;若采集到的音频段的时长不小于预设的时长阈值,通过预先训练完成的网络模型识别该音频段中是否包含预设的指令词,若否,则确定采集到的该音频段不包含有效语音信息;或,
若在第一设定时长内接收到的音频帧中均不存在短时能量值超过最高能量阈值,和/或过零率超过过零率阈值的目标音频帧,则采集第二设定时长的音频段,确定该音频段中不包含有效语音信息。
5.根据权利要求4所述的方法,其特征在于,所述预先训练完成的网络模型为包含一维卷积核的深度卷积神经网络模型。
6.一种能量阈值调整装置,其特征在于,所述装置包括:
采集模块,用于获取音频段的能量信息;
计算模块,用于根据所述音频段的能量信息,确定所述音频段的能量波动幅度;
确定模块,用于根据所述能量波动幅度是否大于预设的波动阈值,确定进行调整的目标能量阈值;
调整模块,用于对所述目标能量阈值进行调整;
所述确定模块,具体用于若所述能量波动幅度大于预设的波动阈值,则确定能量双门限端点检测方法对应的最高能量阈值和最低能量阈值为进行调整的目标能量阈值;若所述能量波动幅度不大于预设的波动阈值,则根据所述能量信息与能量双门限端点检测方法对应的最高能量阈值和最低能量阈值的比较结果,确定进行调整的目标能量阈值;
所述确定模块,具体用于根据最高能量阈值的第二初始值对应的第一权重值,及当前保存的最高能量阈值对应的第二权重值,确定调整后的最高能量阈值;根据最低能量阈值的第一初始值对应的第三权重值,及当前保存的最低能量阈值对应的第四权重值,确定调整后的最低能量阈值;
所述确定模块,具体用于所述第一权重值通过以下方式确定:根据当前保存的第一权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最高能量阈值调整时所采用的第一权重值;所述第三权重值通过以下方式确定:根据当前保存的第三权重值、音频段的能量变化趋势直线的斜率及音频段中所包含音频帧的最高短时能量值与最低短时能量值的比值,确定对最低能量阈值调整时所采用的第三权重值。
7.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任一所述能量阈值调整方法的步骤。
8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述能量阈值调整方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298538.0A CN111540342B (zh) | 2020-04-16 | 2020-04-16 | 一种能量阈值调整方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010298538.0A CN111540342B (zh) | 2020-04-16 | 2020-04-16 | 一种能量阈值调整方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111540342A CN111540342A (zh) | 2020-08-14 |
CN111540342B true CN111540342B (zh) | 2022-07-19 |
Family
ID=71980459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010298538.0A Active CN111540342B (zh) | 2020-04-16 | 2020-04-16 | 一种能量阈值调整方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111540342B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111081271B (zh) * | 2019-11-29 | 2022-09-06 | 福建星网视易信息系统有限公司 | 基于频域和时域的音乐节奏检测方法及存储介质 |
CN112614515B (zh) * | 2020-12-18 | 2023-11-21 | 广州虎牙科技有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN112687273B (zh) * | 2020-12-26 | 2024-04-16 | 科大讯飞股份有限公司 | 一种语音转写方法及装置 |
CN115019834A (zh) * | 2022-05-23 | 2022-09-06 | 北京声智科技有限公司 | 语音端点的检测方法、装置、电子设备、存储介质及产品 |
CN116229987B (zh) * | 2022-12-13 | 2023-11-21 | 广东保伦电子股份有限公司 | 一种校园语音识别的方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002258882A (ja) * | 2001-03-05 | 2002-09-11 | Hitachi Ltd | 音声認識システム及び情報記録媒体 |
EP1517299A2 (en) * | 1997-04-30 | 2005-03-23 | Nippon Hoso Kyokai | Speech interval detecting method and system, and speech speed converting method and system using the speech interval detecting method and system |
CN101320559A (zh) * | 2007-06-07 | 2008-12-10 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
CN108877776A (zh) * | 2018-06-06 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN109473092A (zh) * | 2018-12-03 | 2019-03-15 | 珠海格力电器股份有限公司 | 一种语音端点检测方法及装置 |
-
2020
- 2020-04-16 CN CN202010298538.0A patent/CN111540342B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1517299A2 (en) * | 1997-04-30 | 2005-03-23 | Nippon Hoso Kyokai | Speech interval detecting method and system, and speech speed converting method and system using the speech interval detecting method and system |
JP2002258882A (ja) * | 2001-03-05 | 2002-09-11 | Hitachi Ltd | 音声認識システム及び情報記録媒体 |
CN101320559A (zh) * | 2007-06-07 | 2008-12-10 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
CN108877776A (zh) * | 2018-06-06 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN109473092A (zh) * | 2018-12-03 | 2019-03-15 | 珠海格力电器股份有限公司 | 一种语音端点检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
胡大雷等.高噪声环境下的语音活动检测技术.《中国农业大学学报》.2005,(第03期), * |
Also Published As
Publication number | Publication date |
---|---|
CN111540342A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111540342B (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
CN109473123B (zh) | 语音活动检测方法及装置 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN110021307B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
CN106548786A (zh) | 一种音频数据的检测方法及系统 | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
US11475876B2 (en) | Semantic recognition method and semantic recognition device | |
CN112489692B (zh) | 语音端点检测方法和装置 | |
CN116959495A (zh) | 一种语音信号信噪比估计方法、系统 | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN113299308A (zh) | 一种语音增强方法、装置、电子设备及存储介质 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |