CN116052643A - 一种语音识别方法、装置、存储介质及设备 - Google Patents
一种语音识别方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN116052643A CN116052643A CN202211739112.XA CN202211739112A CN116052643A CN 116052643 A CN116052643 A CN 116052643A CN 202211739112 A CN202211739112 A CN 202211739112A CN 116052643 A CN116052643 A CN 116052643A
- Authority
- CN
- China
- Prior art keywords
- target voice
- preset
- voice
- clipping threshold
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 230000000694 effects Effects 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种语音识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标语音,然后通过实时语音活动端点检测的方式,检测其开始帧和结束帧,并根据开始帧和结束帧,确定目标语音中的有效音频段;接着提取有效音频段的音频特征;并根据音频特征对目标语音进行解码,得到初步识别结果;进而根据初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对目标语音和初步识别结果进行裁剪,得到目标语音对应的最终识别结果。可见,本申请是先通过实时语音活动端点检测的方式,更为准确的检测出目标语音的开始帧和结束帧,再通过自适应动态调整预设的裁剪阈值,降低噪声裁剪的误触发,从而提高了识别结果的准确率。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种语音识别方法、装置、存储介质及设备。
背景技术
随着人工智能技术的不断突破和各种智能终端设备的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高。语音交互作为下一代人机交互方式,能够为人们的生活带来极大的便利,其中比较重要的是进行语音识别的技术。
传统的语音识别方法通常是采用语音端点检测(Voice Activity Detection,简称Vad)来检测音频的开始帧和结束帧,再经过神经网络的特征提取后,计算音频声学的帧平均有效状态数,并在解码中根据预先设置的阈值,如果帧平均有效状态数大于设定的搞阈值,则直接拒识不再进行解码,将解码路径MaxPath置为空,表示噪声音频的识别结果为空。但这种语音识别方法存在两个问题:一是通过Vad检测的音频开始帧和结束帧会带有外边距(margin),不能反映音频真正的开始和结束帧位置;二是在解码过程中帧平均有效状态数的阈值是固定的,不能动态进行调整,导致一部分音频会被当做噪声误裁剪掉。进而会造成语音识别的最终结果不够准确。
发明内容
本申请实施例的主要目的在于提供一种语音识别方法、装置、存储介质及设备,能够在进行语音识别时,有效提高识别结果的准确率。
本申请实施例提供了一种语音识别方法,包括:
获取待识别的目标语音;
通过实时语音活动端点检测的方式,检测所述目标语音的开始帧和结束帧,并根据所述开始帧和结束帧,确定所述目标语音中的有效音频段;
提取所述目标语音中有效音频段的音频特征;并根据所述音频特征对所述目标语音进行解码,得到初步识别结果;
根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述提取所述目标语音中有效音频段的音频特征,包括:
将所述目标语音中的有效音频段输入预设的神经网络,以提取所述目标语音中有效音频段的音频特征。
一种可能的实现方式中,所述预设的裁剪阈值包括第一预设裁剪阈值、第二预设裁剪阈值和第三预设裁剪阈值;所述第一预设裁剪阈值大于所述第二预设裁剪阈值;所述第二预设裁剪阈值大于所述第三预设裁剪阈值。
一种可能的实现方式中,所述根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步解码结果进行裁剪,得到所述目标语音对应的最终识别结果,包括:
判断所述初步识别结果中是否包含预设白名单中的词汇;
若是,则将所述预设的裁剪阈值调整为所述第一预设裁剪阈值;
计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第一预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步解码结果进行裁剪,得到所述目标语音对应的最终识别结果,包括:
判断所述初步识别结果中是否包含预设黑名单中的词汇;
若是,则将所述预设的裁剪阈值调整为所述第三预设裁剪阈值;
计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第三预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步解码结果进行裁剪,得到所述目标语音对应的最终识别结果,包括:
在判断出所述初步识别结果中不包含预设白名单中的词汇和预设黑名单中的词汇时,将所述预设的裁剪阈值调整为所述第二预设裁剪阈值;
计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第二预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述第一预设裁剪阈值为2000;所述第二预设裁剪阈值为1600;所述第三预设裁剪阈值为1130。
本申请实施例还提供了一种语音识别装置,包括:
获取单元,用于获取待识别的目标语音;
检测单元,用于通过实时语音活动端点检测的方式,检测所述目标语音的开始帧和结束帧,并根据所述开始帧和结束帧,确定所述目标语音中的有效音频段;
提取单元,用于提取所述目标语音中有效音频段的音频特征;并根据所述音频特征对所述目标语音进行解码,得到初步识别结果;
裁剪单元,用于根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述提取单元具体用于:
将所述目标语音中的有效音频段输入预设的神经网络,以提取所述目标语音中有效音频段的音频特征。
一种可能的实现方式中,所述预设的裁剪阈值包括第一预设裁剪阈值、第二预设裁剪阈值和第三预设裁剪阈值;所述第一预设裁剪阈值大于所述第二预设裁剪阈值;所述第二预设裁剪阈值大于所述第三预设裁剪阈值。
一种可能的实现方式中,所述裁剪单元包括:
第一判断子单元,用于判断所述初步识别结果中是否包含预设白名单中的词汇;
第一调整子单元,用于若判断出所述初步识别结果中包含预设白名单中的词汇,则将所述预设的裁剪阈值调整为所述第一预设裁剪阈值;
第一裁剪子单元,用于计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第一预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述裁剪单元包括:
第二判断子单元,用于判断所述初步识别结果中是否包含预设黑名单中的词汇;
第二调整子单元,用于若判断出所述初步识别结果中包含预设黑名单中的词汇,则将所述预设的裁剪阈值调整为所述第三预设裁剪阈值;
第二裁剪子单元,用于计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第三预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述裁剪单元包括:
第三调整子单元,用于在判断出所述初步识别结果中不包含预设白名单中的词汇和预设黑名单中的词汇时,将所述预设的裁剪阈值调整为所述第二预设裁剪阈值;
第三裁剪子单元,用于计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第二预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
一种可能的实现方式中,所述第一预设裁剪阈值为2000;所述第二预设裁剪阈值为1600;所述第三预设裁剪阈值为1130。
本申请实施例还提供了一种语音识别设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语音识别方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语音识别方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语音识别方法中的任意一种实现方式。
本申请实施例提供的一种语音识别方法、装置、存储介质及设备,首先获取待识别的目标语音,然后通过实时语音活动端点检测的方式,检测目标语音的开始帧和结束帧,并根据开始帧和结束帧,确定目标语音中的有效音频段;接着,提取目标语音中有效音频段的音频特征;并根据音频特征对目标语音进行解码,得到初步识别结果;进而可以根据初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对目标语音和初步识别结果进行裁剪,得到目标语音对应的最终识别结果。
可见,本申请是先通过实时语音活动端点检测的方式,更为准确的检测出目标语音的开始帧和结束帧,然后再根据音频初步识别结果内容,自适应动态调整预设的裁剪阈值,不仅可以将目标语音中的真正的有效音频段进行裁剪,还可以降低噪声裁剪的误触发,从而能够在进行语音识别时,有效提高识别结果的准确率,也提高了用户体验与识别效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语音识别方法的流程示意图;
图2为本申请实施例提供的通过实时语音活动端点检测的方式,检测目标语音的开始帧和结束帧的示意图;
图3为本申请实施例提供的一种语音识别装置的组成示意图。
具体实施方式
目前比较常用的语音识别方法大致需要经过四个步骤:第一步是将音频经过Vad进行活动端点检测,分割出有效的音频;第二步是将有效的音频经过声学神经网络进行音频特征提取;第三步是将音频特征送入解码器进行解码获取识别结果;第四步是将识别结果送入后处理进行规整后给出最终识别结果。
其中,Vad是语音识别中的一个重要步骤。在人们平时的对话过程中,听起来连续的语音信号其实是由一系列的无音和有音片段组合起来的。在通常情况下,语音片段的持续时间基本不会超过整个说话时间的40%。在实际应用中,需要对系统的输入信号进行判断,准确的筛选出语音信号的起始点和终止点,这样才能采集到真正的语音数据,以减少数据量和运算量。
普通的Vad模型虽然可以检测出音频的开始和结束帧位置,将有效的音频送入神经网络进行特征提取。再将音频特征经过解码和后处理便可以完成语音的识别过程并输出相应的识别结果,但是对于一些噪声场景下的音频,会出现一些如“嗯嗯”、“啊啊”等一些无任何意义的识别结果,针对这些结果需要在解码过程中进行裁剪处理,以便获取正确的识别结果。
可见,现有的上述语音识别方法存在两个问题:一是通过Vad检测的音频开始帧和结束帧会带有外边距(margin),不能反映音频真正的开始和结束帧位置;二是在解码过程中帧平均有效状态数的阈值是固定的,不能动态进行调整,导致一部分音频会被当做噪声误裁剪掉。进而会造成语音识别的最终结果不够准确。
所以,如何有效降低语音识别过程的误裁剪概率,将真正的噪声音频裁剪掉,以提高解码的效率与实时语音识别的准确率是目前亟待解决的技术问题。
为解决上述缺陷,本申请提供了一种语音识别方法,首先获取待识别的目标语音,然后通过实时语音活动端点检测的方式,检测目标语音的开始帧和结束帧,并根据开始帧和结束帧,确定目标语音中的有效音频段;接着,提取目标语音中有效音频段的音频特征;并根据音频特征对目标语音进行解码,得到初步识别结果;进而可以根据初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对目标语音和初步识别结果进行裁剪,得到目标语音对应的最终识别结果。
可见,本申请是先通过实时语音活动端点检测的方式,更为准确的检测出目标语音的开始帧和结束帧,然后再根据音频初步识别结果内容,自适应动态调整预设的裁剪阈值,不仅可以将目标语音中的真正的有效音频段进行裁剪,还可以降低噪声裁剪的误触发,从而能够在进行语音识别时,有效提高识别结果的准确率,也提高了用户体验与识别效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图1,为本实施例提供的一种语音识别方法的流程示意图,该方法包括以下步骤:
S101:获取待识别的目标语音。
在本实施例中,将需要进行识别的任一语音定义为目标语音。需要说明的是,本实施例不限制目标语音的语种类型,比如,目标语音可以是中文构成的语音或英文构成的语音等;同时,本实施例也不限制目标语音的长度,比如,目标语音可以是一句话或一段话等。
可以理解的是,目标语音可以根据实际需要,通过录音等方式获得,例如,人们日常生活中的电话通话语音、或者听见会议系统的录音等均可作为目标语音,并在获取到目标语音的同时,用以利用本实施例提供的方案对该目标语音进行处理,以识别出目标语音对应的文本信息。
S102:通过实时语音活动端点检测的方式,检测目标语音的开始帧和结束帧,并根据开始帧和结束帧,确定目标语音中的有效音频段。
在本实施例中,通过步骤S101获取到待识别的目标语音后,为了准确识别出目标语音对应的文本信息,本申请利用实时语音活动端点检测(Real Time Voice AcitivityDetection,简称RTVad)的方式,取代Vad,对目标语音的开始帧和结束帧进行检测,以去掉通过Vad检测带有的margin,从而能够更为准确的确定出目标语音中的有效音频段,用以通过后续步骤S103,实现对目标语音的有效识别。
具体来讲,在对目标语音进行实时识别时,通常是先将目标语音实时逐帧输入实时语音识别系统,比如可以通过滑动窗口(中间有重叠)的方式选取音频帧进行输入,且输入的音频帧时间不做限定,比如可以将滑动窗口取值为10ms,并将各个语音帧分别定义为{x1,x2,x3...xn}。然后,利用RTVad方式对目标语音进行开始帧和结束帧的检测,以检测出目标语音中有效音频段的开始和结束位置,过滤掉无效的音频部分,得到目标语音中真正的有效音频段。并将检测出的目标语音中有效音频段的开始帧和结束帧分别定义为xbg,和xed,以xbg,和xed分别为第2语音帧和第n-1语音帧为例,在利用RTVad方式对目标语音{x1,x2,x3...xn}进行开始帧和结束帧的检测后,可以得到目标语音中各个语音帧的表示为{x1,xbg,x3...xed,xn},其中,有效音频段为{xbg,xt...xed}。
如图2所示,其示出了通过RTVad方式检测目标语音的开始帧和结束帧的示意图。图中的vad start和vad end分别表示通过普通vad检测出的目标语音的开始帧和结束帧位置,rtvad start和rtvad end分别表示通过RTVad方式检测出的目标语音的开始帧和结束帧位置,其中,每一相邻rtvad start箭头指示位置减去vad start箭头指示位置的音频帧位置便是margin的音频帧,以及每一相邻vad end箭头指示位置减去rtvad end箭头指示位置的音频帧位置也是margin的音频帧,可见,在利用RTVad方式对目标语音进行检测后,得到的开始帧和结束帧位置更加符合真实有效音频段的开始与结束端点。
S103:提取目标语音中有效音频段的音频特征;并根据音频特征对目标语音进行解码,得到初步识别结果。
在本实施例中,通过步骤S102确定出目标语音中的有效音频段{xbg,xt...xed}后,为了提高对于目标语音的识别结果的准确率,进一步需要利用现有或未来出现的特征提取方法,提取出目标语音中有效音频段{xbg,xt...xed}的音频特征,并将该音频特征作为识别依据,对目标语音进行解码,得到初步识别结果,用以通过后续步骤S104,实现对目标语音的有效识别。
具体来讲,一种可选的实现方式是,在确定出目标语音中的有效音频段{xbg,xt...xed}后,可以将其输入预设的神经网络,以提取出目标语音中有效音频段的音频特征,且本申请对预设的神经网络的具体结构不做限定,可以根据实际情况进行设定,如可以采用长短期记忆网络(Long Short-Term Memory,简称LSTM)、双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)等结构。并且,可以将目标语音中的有效音频段{xbg,xt...xed}输入预设的神经网络进行特征提取的结果表示为{hbg,ht...hed}=f({xbg,xt...xed}),其中,f表示预设的神经网络;h(如hbg、ht等)表示经过预设的神经网络提取后的具体的音频特征,其可以为一个15003维的向量,代表了逻辑triphone的发音概率,取值越大代表这一帧音频的发音越接近某个音素。针对正常的音频,15003维特征向量中的概率取值是比较集中的表现出尖峰状,噪声音频的15003维特征向量中的概率取值是比较散布的区分性不大。
需要说明的是,本申请实施例并不限定目标语音的音频特征的提取方法,也不限定具体的提取过程,可根据实际情况选择适当的提取方法,以及进行相应的特征提取操作。之所以优选预设的神经网络来提取目标语音中有效音频段的音频特征,是因为神经网络具有强大的拟合建模能力,并且能够在各种场景中取得非常不错的效果,因此可以采用神经网络来提取目标语音中有效音频段的音频特征。
此外,也可以采用其他特征提取方式进行音频特征的提取,具体的,在提取目标语音中有效音频段的音频特征时,首先可以对有效音频段进行分帧处理,得到对应的语音帧序列,然后再对分帧后的语音帧序列进行预加重;进而再依次提取出每一语音帧的音频特征,其中,该音频特征指的是用于表征对应语音帧的语音信息的特征数据,比如,可以是SDC特征、梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)特征或感知线性预测(Perceptual Linear Predictive,简称PLP)特征等。
进一步的,通过将提取的音频特征输入解码器中进行解码,可以获取到初步识别的文字结果,用以执行后续步骤S104。
S104:根据初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对目标语音和初步识别结果进行裁剪,得到目标语音对应的最终识别结果。
在本实施例中,通过步骤S103得到目标语音中有效音频段的音频特征和目标语音的初步识别的文字结果后,为了能够有效提高对于目标语音的识别结果的准确率,进一步可以在将提取的音频特征输入解码器中进行解码的过程中,缓存每一帧声学状态的总和,并在对有效音频段解码结束的最后一帧,求解这一段有效音频段的帧平均有效状态数,具体计算公式如下:
其中,favgstate表示此段有效音频段的帧平均有效状态数,统计的是从有效音频段的开始帧xbg,到结束帧xed位置之间所有帧的声学状态总数的平均值;i表示此段有效音频段对应的音频特征h的个数;j表示每一个音频特征h(如hbg、ht等15003维的向量)的向量维度。
需要说明的是,favgstate反映了此段有效音频段的音频质量的可靠性,如果是正常的音频,则favgstate的取值偏小,如果是噪声音频,则favgstate的取值偏大,据此,可以根据预设的帧平均有效状态数裁剪阈值,对有效音频段中的噪声音频进行解码裁剪,以获取更为准确的语音识别结果。
具体的,为避免产生较高的噪声误触发,导致正常的音频被裁剪掉,本申请并未采用单一的裁剪阈值来进行裁剪,而是先根据初步识别结果中包含的语义内容,自适应动态调整预设的帧平均有效状态数裁剪阈值;然后,再根据调整后的裁剪阈值,将目标语音中对应的噪声音频及其对应的文字初步识别结果裁剪掉,以提升噪声场景下目标语音识别结果的准确率。
其中,一种可选的实现方式,预设的裁剪阈值可以包括第一预设裁剪阈值、第二预设裁剪阈值和第三预设裁剪阈值;且第一预设裁剪阈值大于第二预设裁剪阈值;第二预设裁剪阈值大于第三预设裁剪阈值。需要说明的是,本申请并不限定第一预设裁剪阈值、第二预设裁剪阈值和第三预设裁剪阈值的具体取值,可根据实际情况和经验值进行确定,比如可以第一预设裁剪阈值设定为2000;将第二预设裁剪阈值设定为1600;将第三预设裁剪阈值设定为1130等。
具体来讲,一种可选的实现方式是,本步骤S104的具体实现过程可以包括:首先判断初步识别结果中是否包含预设白名单中的词汇,若是,则将预设的裁剪阈值调整为第一预设裁剪阈值(如2000),然后,在通过上述公式计算出目标语音中的有效音频段的帧平均有效状态数favgstate后,可以将不小于第一预设裁剪阈值(如2000)的帧平均有效状态数对应的有效音频段(即噪声音频)及其初步识别结果进行裁剪,得到目标语音对应的最终识别结果。
在本实现方式中,预先构建的白名单包含但不限于常用的分词词语,比如常用的网络用语等,具体构建方式不做限定。当判断出初步识别结果中包含预设白名单中的词汇时,可以调大裁剪阈值,即可以将裁剪阈值调整设定为第一预设裁剪阈值(如2000),从而使得favgstate的取值小于第一预设裁剪阈值(如2000)的正常音频将不会被裁剪掉,进而使得识别结果尽可能识别出所有正常音频的文字结果。
另一种可选的实现方式是,本步骤S104的具体实现过程可以包括:首先判断初步识别结果中是否包含预设黑名单中的词汇,若是,则将预设的裁剪阈值调整为第三预设裁剪阈值(如1130),然后,在通过上述公式计算出目标语音中的有效音频段的帧平均有效状态数favgstate后,可以将不小于第三预设裁剪阈值(如1130)的帧平均有效状态数对应的有效音频段(即噪声音频)及其初步识别结果进行裁剪,得到目标语音对应的最终识别结果。
在本实现方式中,预先构建的黑名单包含但不限于常用的语气助词、不文明词语等,比如“啊”、“哼”等,具体构建方式不做限定。当判断出初步识别结果中包含预设黑名单中的词汇时,可以调小裁剪阈值,即可以将裁剪阈值调整设定为第三预设裁剪阈值(如1130),从而使得favgstate的取值小于第三预设裁剪阈值(如2000)的正常音频才将不会被裁剪掉,进而使得识别结果尽可能将噪音音频的识别结果裁剪掉。
再一种可选的实现方式是,本步骤S104的具体实现过程可以包括:首先判断初步识别结果中是否包含预设白名单和黑名单中的词汇,若判断出初步识别结果中既不包含预设白名单中的词汇和预设黑名单中的词汇时,则默认预设的裁剪阈值设定为第二预设裁剪阈值(如1600),然后,在通过上述公式计算出目标语音中的有效音频段的帧平均有效状态数favgstate后,可以将不小于第二预设裁剪阈值(如1600)的帧平均有效状态数对应的有效音频段(即噪声音频)及其初步识别结果进行裁剪,得到目标语音对应的最终识别结果。
这样,通过自适应动态调整预设的裁剪阈值,对目标语音和初步识别结果进行裁剪,既可以让正常音频识别结果得以保留,又可以将噪声音频进行裁剪掉,从而能够提升噪声场景下语音识别结果的准确率。
综上,本实施例提供的一种语音识别方法,首先获取待识别的目标语音,然后通过实时语音活动端点检测的方式,检测目标语音的开始帧和结束帧,并根据开始帧和结束帧,确定目标语音中的有效音频段;接着,提取目标语音中有效音频段的音频特征;并根据音频特征对目标语音进行解码,得到初步识别结果;进而可以根据初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对目标语音和初步识别结果进行裁剪,得到目标语音对应的最终识别结果。
可见,本申请是先通过实时语音活动端点检测的方式,更为准确的检测出目标语音的开始帧和结束帧,然后再根据音频初步识别结果内容,自适应动态调整预设的裁剪阈值,不仅可以将目标语音中的真正的有效音频段进行裁剪,还可以降低噪声裁剪的误触发,从而能够在进行语音识别时,有效提高识别结果的准确率,也提高了用户体验与识别效果。
第二实施例
本实施例将对一种语音识别装置进行介绍,相关内容请参见上述方法实施例。
参见图3,为本实施例提供的一种语音识别装置的组成示意图,该装置300包括:
获取单元301,用于获取待识别的目标语音;
检测单元302,用于通过实时语音活动端点检测的方式,检测所述目标语音的开始帧和结束帧,并根据所述开始帧和结束帧,确定所述目标语音中的有效音频段;
提取单元303,用于提取所述目标语音中有效音频段的音频特征;并根据所述音频特征对所述目标语音进行解码,得到初步识别结果;
裁剪单元304,用于根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
在本实施例的一种实现方式中,所述提取单元303具体用于:
将所述目标语音中的有效音频段输入预设的神经网络,以提取所述目标语音中有效音频段的音频特征。
在本实施例的一种实现方式中,所述预设的裁剪阈值包括第一预设裁剪阈值、第二预设裁剪阈值和第三预设裁剪阈值;所述第一预设裁剪阈值大于所述第二预设裁剪阈值;所述第二预设裁剪阈值大于所述第三预设裁剪阈值。
在本实施例的一种实现方式中,所述裁剪单元304包括:
第一判断子单元,用于判断所述初步识别结果中是否包含预设白名单中的词汇;
第一调整子单元,用于若判断出所述初步识别结果中包含预设白名单中的词汇,则将所述预设的裁剪阈值调整为所述第一预设裁剪阈值;
第一裁剪子单元,用于计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第一预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
在本实施例的一种实现方式中,所述裁剪单元304包括:
第二判断子单元,用于判断所述初步识别结果中是否包含预设黑名单中的词汇;
第二调整子单元,用于若判断出所述初步识别结果中包含预设黑名单中的词汇,则将所述预设的裁剪阈值调整为所述第三预设裁剪阈值;
第二裁剪子单元,用于计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第三预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
在本实施例的一种实现方式中,所述裁剪单元304包括:
第三调整子单元,用于在判断出所述初步识别结果中不包含预设白名单中的词汇和预设黑名单中的词汇时,将所述预设的裁剪阈值调整为所述第二预设裁剪阈值;
第三裁剪子单元,用于计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第二预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
在本实施例的一种实现方式中,所述第一预设裁剪阈值为2000;所述第二预设裁剪阈值为1600;所述第三预设裁剪阈值为1130。
进一步地,本申请实施例还提供了一种语音识别设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语音识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语音识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语音识别方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
获取待识别的目标语音;
通过实时语音活动端点检测的方式,检测所述目标语音的开始帧和结束帧,并根据所述开始帧和结束帧,确定所述目标语音中的有效音频段;
提取所述目标语音中有效音频段的音频特征;并根据所述音频特征对所述目标语音进行解码,得到初步识别结果;
根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述目标语音中有效音频段的音频特征,包括:
将所述目标语音中的有效音频段输入预设的神经网络,以提取所述目标语音中有效音频段的音频特征。
3.根据权利要求1所述的方法,其特征在于,所述预设的裁剪阈值包括第一预设裁剪阈值、第二预设裁剪阈值和第三预设裁剪阈值;所述第一预设裁剪阈值大于所述第二预设裁剪阈值;所述第二预设裁剪阈值大于所述第三预设裁剪阈值。
4.根据权利要求3所述的方法,其特征在于,所述根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步解码结果进行裁剪,得到所述目标语音对应的最终识别结果,包括:
判断所述初步识别结果中是否包含预设白名单中的词汇;
若是,则将所述预设的裁剪阈值调整为所述第一预设裁剪阈值;
计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第一预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
5.根据权利要求3所述的方法,其特征在于,所述根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步解码结果进行裁剪,得到所述目标语音对应的最终识别结果,包括:
判断所述初步识别结果中是否包含预设黑名单中的词汇;
若是,则将所述预设的裁剪阈值调整为所述第三预设裁剪阈值;
计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第三预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
6.根据权利要求3所述的方法,其特征在于,所述根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步解码结果进行裁剪,得到所述目标语音对应的最终识别结果,包括:
在判断出所述初步识别结果中不包含预设白名单中的词汇和预设黑名单中的词汇时,将所述预设的裁剪阈值调整为所述第二预设裁剪阈值;
计算所述目标语音中的有效音频段的帧平均有效状态数,并将不小于所述第二预设裁剪阈值的帧平均有效状态数对应的有效音频段及其初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
7.根据权利要求3-6任一项所述的方法,其特征在于,所述第一预设裁剪阈值为2000;所述第二预设裁剪阈值为1600;所述第三预设裁剪阈值为1130。
8.一种语音识别装置,其特征在于,包括:
获取单元,用于获取待识别的目标语音;
检测单元,用于通过实时语音活动端点检测的方式,检测所述目标语音的开始帧和结束帧,并根据所述开始帧和结束帧,确定所述目标语音中的有效音频段;
提取单元,用于提取所述目标语音中有效音频段的音频特征;并根据所述音频特征对所述目标语音进行解码,得到初步识别结果;
裁剪单元,用于根据所述初步识别结果,自适应动态调整预设的裁剪阈值;并根据调整后的裁剪阈值,对所述目标语音和所述初步识别结果进行裁剪,得到所述目标语音对应的最终识别结果。
9.一种语音识别设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211739112.XA CN116052643A (zh) | 2022-12-30 | 2022-12-30 | 一种语音识别方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211739112.XA CN116052643A (zh) | 2022-12-30 | 2022-12-30 | 一种语音识别方法、装置、存储介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052643A true CN116052643A (zh) | 2023-05-02 |
Family
ID=86126861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211739112.XA Pending CN116052643A (zh) | 2022-12-30 | 2022-12-30 | 一种语音识别方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052643A (zh) |
-
2022
- 2022-12-30 CN CN202211739112.XA patent/CN116052643A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101417975B1 (ko) | 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템 | |
WO2021139425A1 (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN114097026A (zh) | 语音识别的上下文偏置 | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
CN110827795A (zh) | 语音输入结束判断方法、装置、设备、系统以及存储介质 | |
Bahat et al. | Self-content-based audio inpainting | |
CN111968679A (zh) | 情感识别方法、装置、电子设备及存储介质 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN113345473B (zh) | 语音端点检测方法、装置、电子设备和存储介质 | |
US7359856B2 (en) | Speech detection system in an audio signal in noisy surrounding | |
US20130173267A1 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US20230401338A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN113192535B (zh) | 一种语音关键词检索方法、系统和电子装置 | |
CN112614514B (zh) | 有效语音片段检测方法、相关设备及可读存储介质 | |
CN111951796A (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN114385800A (zh) | 语音对话方法和装置 | |
Tong et al. | Evaluating VAD for automatic speech recognition | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
CN115512687B (zh) | 一种语音断句方法、装置、存储介质及电子设备 | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
CN112802498A (zh) | 语音检测方法、装置、计算机设备和存储介质 | |
CN114155882B (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
CN113345423B (zh) | 语音端点检测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |