CN112509556A - 一种语音唤醒方法及装置 - Google Patents
一种语音唤醒方法及装置 Download PDFInfo
- Publication number
- CN112509556A CN112509556A CN201910872875.3A CN201910872875A CN112509556A CN 112509556 A CN112509556 A CN 112509556A CN 201910872875 A CN201910872875 A CN 201910872875A CN 112509556 A CN112509556 A CN 112509556A
- Authority
- CN
- China
- Prior art keywords
- audio
- voice
- awakening
- voice signal
- redundant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000009471 action Effects 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012805 post-processing Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 230000002618 waking effect Effects 0.000 claims description 3
- 230000002401 inhibitory effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 239000000945 filler Substances 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000037007 arousal Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282376 Panthera tigris Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Traffic Control Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开实施例提供的一种语音唤醒方法及装置,通过在解码路径中引入了唤醒字之间的冗余旁路,在对语音信号的后验概率进行解码时,可以抽取出除了唤醒字以外的其他音素集合,即解码路径除了可以区分出唤醒字对应的音素,还可以额外获得非唤醒字音素对应的语音片段,即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后,对冗余语音片段的音频信息进行解析可以得到冗余怀疑度,在判断是否执行唤醒动作时,同时依据解码结果对应的唤醒得分和冗余怀疑度,可以提高判断准确性,抑制误唤醒。
Description
技术领域
本发明涉及语音处理技术领域,尤指一种语音唤醒方法及装置。
背景技术
随着信息和通信技术的发展,智能设备已经在日常生活在被广泛应用。智能设备可以通过麦克风采集语音信号,在进行识别后提供相应的服务。智能设备一般都包含用某个唤醒词(由多个唤醒字构成)唤醒的功能,即语音唤醒功能。
语音唤醒需要解决的两个最关键的问题,一是提高唤醒率,即任何性别、任何年龄段、任何场景(安静、带噪、远场...)都能准确响应;二就是降低误唤醒,即外界的噪声,周边人的讨论声,电视剧播放的内容等,只要不含有唤醒词,智能设备就不能误响应。
误唤醒会极大的影响用户体验,比如办公室买了一个具备唤醒功能的智能音箱,在与同事讨论的时候音箱误唤醒,甚至开始播放歌曲,这种情形令人厌烦甚至愤怒。
发明内容
本发明实施例提供一种语音唤醒方法及装置,用以抑制语音唤醒中的误唤醒。
一方面,本发明实施例提供了一种语音唤醒方法,包括:
确定获取到的语音信号的后验概率,所述后验概率为所述语音信号中每帧音频对应于预设的各标准音素的概率;
采用预先建立的解码路径,对所述语音信号的后验概率进行解码,得到所述语音信号的解码结果并计算所述语音信号的唤醒得分;其中,所述解码路径包含在设定的各唤醒字之间构建的支路和在所述唤醒字之间构建的冗余旁路,所述解码结果包括:所述语音信号中分别属于唤醒语音片段和冗余语音片段的音频,以及所述语音信号中每帧音频对应的音素编号和概率;
根据所述语音信号的解码结果,确定属于所述冗余语音片段的音频的音频信息;
根据所述冗余语音片段的音频的音频信息确定冗余怀疑度;
根据所述唤醒得分和所述冗余怀疑度,确定是否执行唤醒动作。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述确定获取到的语音信号的后验概率,具体包括:
对获取到的所述语音信号进行前端处理,得到所述语音信号中每帧音频的前端特征;
将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算,得到所述语音信号中每帧音频对应于各所述标准音素的概率。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述确定属于所述冗余语音片段的音频的音频信息,具体包括:
确定属于所述冗余语音片段的每帧音频的前端特征,以及属于所述冗余语音片段的每帧音频的语音能量。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述根据所述冗余语音片段的音频的音频信息确定冗余怀疑度,具体包括:
将所述音频信息输入至预设的第二神经网络模型中,得到冗余怀疑度。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,在确定属于所述冗余语音片段的音频的音频信息之前,还包括:
判断所述语音信号的唤醒得分是否大于设定的第一阈值;
若是,则执行确定属于所述冗余语音片段的音频的音频信息。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述根据所述唤醒得分和所述冗余怀疑度,确定是否执行唤醒动作,具体包括:
根据所述唤醒得分和所述冗余怀疑度,确定所述语音信号的唤醒置信度;
在确定所述唤醒置信度大于设定的第二阈值时,确定执行唤醒动作。
在一种可能的实现方式中,在本发明实施例提供的上述方法中,所述根据所述唤醒得分和所述冗余怀疑度,确定所述语音信号的唤醒置信度,具体包括:
将所述唤醒得分与所述冗余怀疑度之差作为所述唤醒置信度。
另一方面,本发明实施例还提供了一种语音唤醒装置,包括:
计算模块,用于确定获取到的语音信号的后验概率,所述后验概率为所述语音信号中每帧音频对应于预设的各标准音素的概率;
解码模块,用于采用预先建立的解码路径,对所述语音信号的后验概率进行解码,得到所述语音信号的解码结果并计算所述语音信号的唤醒得分;其中,所述解码路径包含在设定的各唤醒字之间构建的支路和在所述唤醒字之间构建的冗余旁路,所述解码结果包括:所述语音信号中分别属于唤醒语音片段和冗余语音片段的音频,以及所述语音信号中每帧音频对应的音素编号和概率;
后处理模块,用于根据所述语音信号的解码结果,确定属于所述冗余语音片段的音频的音频信息;根据所述冗余语音片段的音频的音频信息确定冗余怀疑度;
判断模块,用于根据所述唤醒得分和所述冗余怀疑度,确定是否执行唤醒动作。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述计算模块,具体包括:
前端处理模块,用于对获取到的所述语音信号进行前端处理,得到所述语音信号中每帧音频的前端特征;
神经网络计算模块,用于将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算,得到所述语音信号中每帧音频对应于各所述标准音素的概率。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述后处理模块,具体用于确定属于所述冗余语音片段的每帧音频的前端特征,以及属于所述冗余语音片段的每帧音频的语音能量。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述后处理模块,具体用于将所述音频信息输入至预设的第二神经网络模型中,得到冗余怀疑度。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述判断模块,还用于在确定属于所述冗余语音片段的音频的音频信息之前,判断所述语音信号的唤醒得分是否大于设定的第一阈值;若是,则执行确定属于所述冗余语音片段的音频的音频信息。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述判断模块,具体用于根据所述唤醒得分和所述冗余怀疑度,确定所述语音信号的唤醒置信度;在确定所述唤醒置信度大于设定的第二阈值时,确定执行唤醒动作。
在一种可能的实现方式中,在本发明实施例提供的上述装置中,所述判断模块,具体用于将所述唤醒得分与所述冗余怀疑度之差作为所述唤醒置信度。
本发明有益效果如下:
本发明实施例提供的一种语音唤醒方法及装置,通过在解码路径中引入了唤醒字之间的冗余旁路,在对语音信号的后验概率进行解码时,可以抽取出除了唤醒字以外的其他音素集合,即解码路径除了可以区分出唤醒字对应的音素,还可以额外获得非唤醒字音素对应的语音片段,即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后,对冗余语音片段的音频信息进行解析可以得到冗余怀疑度,在判断是否执行唤醒动作时,同时依据解码结果对应的唤醒得分和冗余怀疑度,可以提高判断准确性,抑制误唤醒。
附图说明
图1为本发明实施例提供的语音唤醒方法的流程图;
图2为本发明实施例提供的语音唤醒方法的具体流程图;
图3为本发明实施例提供的语音唤醒方法中使用的解码路径的示意图;
图4为现有语音唤醒方法中使用的解码路径的示意图;
图5为本发明实施例提供的语音唤醒装置的结构示意图。
具体实施方式
针对现有的语音唤醒方法容易出现误唤醒的问题,本发明实施例提供了一种语音唤醒方法及装置。为了使本发明的目的,技术方案和优点更加清楚,下面结合附图,对本发明实施例提供的语音唤醒方法及装置的具体实施方式进行详细地说明。应当理解,下面所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明实施例提供的一种语音唤醒方法,如图1所示,可以包括以下步骤:
S101、确定获取到的语音信号的后验概率,后验概率为语音信号中每帧音频分别对应于预设的各标准音素的概率;具体地,具有语音唤醒功能的设备可以利用麦克风接收外界的语音信号;
S102、采用预先建立的解码路径,对语音信号的后验概率进行解码,得到语音信号的解码结果并计算语音信号的唤醒得分;其中,解码路径包含在设定的各唤醒字之间构建的支路和在唤醒字之间构建的冗余旁路,解码结果包括:语音信号中分别属于唤醒语音片段和冗余语音片段的音频,以及语音信号中每帧音频对应的音素编号和概率;
S103、根据语音信号的解码结果,确定属于冗余语音片段的音频的音频信息;
S104、根据冗余语音片段的音频的音频信息确定冗余怀疑度;
S105、根据唤醒得分和冗余怀疑度,确定是否执行唤醒动作。
具体地,在本发明实施例提供的上述方法中,由于在解码路径中引入了唤醒字之间的冗余旁路,因此,在对语音信号的后验概率进行解码时,可以抽取出除了唤醒字以外的其他音素集合,即解码路径除了可以区分出唤醒字对应的音素,还可以额外获得非唤醒字音素对应的语音片段,即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后,对冗余语音片段的音频信息进行解析可以得到冗余怀疑度,在判断是否执行唤醒动作时,同时依据解码结果对应的唤醒得分和冗余怀疑度,可以提高判断准确性,抑制误唤醒。
以下结合具体实施例对进行本发明实施例提供的语音唤醒方法的各个步骤进行详细说明。
可选地,在本发明实施例提供的上述方法中,如图2所示,上述步骤S101确定获取到的语音信号的后验概率,具体可以包括以下步骤:
S1011、对获取到的语音信号进行前端处理,得到语音信号中每帧音频的前端特征。前端特征可以为fbank特征,mfcc特征等。
具体地,对语音信号进行前端处理可以包括语音降噪、语音增强等处理,使得经过前端处理后的音频具有更高的质量,以有利于后续音素的准确判断。并且,具体计算前端特征所用的算法为一些通用算法,在此不做详述。例如在使用fbank特征作为前端特征时,通过分帧、预增强、加窗、fft、mel滤波等操作后,计算得到fbank特征,又如在使用mfcc特征作为前端特征时,在计算得到fbank特征的基础上,再进行离散余弦变换,计算得到mfcc特征。
S1012、将语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算,得到语音信号中每帧音频分别对应于各标准音素的概率。
具体地,第一神经网络模型的计算包含一系列以矩阵计算为主的数学运算,经过运算后得到每帧音频分别对应各个标准音素的概率。例如,预先设定100个标准音素,经过第一神经网络模型的计算后,会得到每帧音频分别对应于不同标准音素的概率,如对应于第一标准音素的概率为0.3%,对应于第二标准音素的概率为5%,以此类推,且对应于各标准音素的概率之和为1。
具体地,如图3所示,以唤醒词为“你好小虎”为例示意出了本发明实施例提供的上述方法中步骤S102所采用的解码路径,对照现有方式构建出的如图4所示的解码路径,该解码路径除了包含各唤醒字之间构建的支路,例如唤醒字“你”的自跳路径,唤醒字“你”和“好”之间的路径等,还包括在唤醒字之间构建的冗余旁路,例如唤醒字“你”和“好”之间增加间隔Filler 1的自跳路径,以及从唤醒字“你”到间隔Filler 1的路径和从间隔Filler 1到唤醒字“好”之间的路径等。并且,可以模拟人发音规律,在不同的唤醒字之间构建不同时长的间隔Filler,例如,一般发音规律中“你”和“好”之间的间隔时长小于“好”和“小”之间的间隔时长,可以基于此在其间设置不同时长的间隔Filler;或者,仅在部分唤醒字之间构建间隔Filler,在此不做限定。
具体地,在本发明实施例提供的上述方法中的步骤S102由于采用引入冗余旁路的解码路径对语音信号的后验概率进行解码,即对语音信号中每帧音频分别对应于各标准音素的概率进行解码,因此,在解码结果包含的语音信号每帧音频对应的音素编号以及概率中,可以区分出每帧音频究竟是属于具体哪个唤醒字或属于唤醒字之间的间隔音素(即非唤醒字对应的音素),即可以区分出唤醒语音片段和冗余语音片段。
具体地,在上述步骤S102中的计算语音信号的唤醒得分时,可以仅采用属于唤醒语音片段的音频对应的音素编号和概率的数据计算唤醒得分,也可以采用语音信号中的每帧音频对应的音素编号和概率的数据计算唤醒得分,在此不做限定。并且,计算唤醒得分的具体算法可以采用常用算法,在此不作详述。例如通过keyword-filler路径的分差和唤醒词帧平均得分进行加权计算,可以得到唤醒得分。可知,每帧音频对应的音素编号包含在唤醒词之内,且其概率越高,最后计算出的唤醒得分越高,即误唤醒的概率越小。而非唤醒字对应的音素,即冗余语音片段中有可能涵盖唤醒字对应的音素,例如语音信号为“你好不好呀小虎”,其中的“不好呀”会涵盖唤醒字对应的音素,因现有技术中并不会区分出冗余语音片段,而是将非唤醒字对应的音素归类为唤醒字,并直接通过得到的唤醒得分确定是否执行唤醒动作,因此发生误唤醒的概率较大。
具体地,在上述步骤S102中得到的唤醒得分较低时,可知语音信号对应唤醒词的概率很小,即可以认为不需要进行唤醒。因此,可选地,在本发明实施例提供的上述方法中,为了降低后续计算量,如图2所示,在执行上述步骤S103确定属于冗余语音片段的音频的音频信息之前,还可以包括以下步骤:
S102-2、判断语音信号的唤醒得分是否大于设定的第一阈值;
若是,则执行后续步骤S103;若否,则退出流程。
可选地,在本发明实施例提供的上述方法中,如图2所示,上述步骤S103确定属于冗余语音片段的音频的音频信息,具体可以包括以下步骤:
S1031、确定属于冗余语音片段的每帧音频的前端特征,以及属于冗余语音片段的每帧音频的语音能量。
具体地,由于在上述步骤S1011中已经得到了语音信号中每帧音频的前端特征,因此,可以直接从中选取冗余语音片段的每帧音频的前端特征,而不用重复计算。
可选地,在本发明实施例提供的上述方法中,如图2所示,上述步骤S104根据冗余语音片段的音频的音频信息确定冗余怀疑度,具体可以包括以下步骤:
S1041、将音频信息输入至预设的第二神经网络模型中,得到冗余怀疑度。
具体地,第二神经网络模型的计算量要小于第一神经网络模型的计算量。并且,可以预先训练第二神经网络模型,使其在输入的音频信息对应于静音或噪音的背景环境音时,输出的冗余怀疑度越小。或者反之,在此不作详述。
可选地,在本发明实施例提供的上述方法中,如图2所示,上述步骤S105根据唤醒得分和冗余怀疑度,确定是否执行唤醒动作,具体可以包括以下步骤:
S1051、根据唤醒得分和冗余怀疑度,确定语音信号的唤醒置信度;具体地,在第二神经网络模型输入的音频信息对应于静音或噪音的背景环境音时,输出的冗余怀疑度越小时,可以将唤醒得分与冗余怀疑度之差作为唤醒置信度;
S1052、确定唤醒置信度是否大于设定的第二阈值;
若是,则执行步骤S1053、确定执行唤醒动作;若否,则退出流程。
具体地,通过唤醒得分和冗余怀疑度得到唤醒置信度,采用唤醒置信度确定是否执行唤醒动作,可以显著减少发生误唤醒的概率。
基于同一发明构思,本发明实施例还提供了一种语音唤醒装置,可以应用于智能设备,例如智能音箱等,由于该装置解决问题的原理与前述一种语音唤醒方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的一种语音唤醒装置,如图5所示,可以包括:
计算模块1,用于确定获取到的语音信号的后验概率,后验概率为语音信号中每帧音频分别对应于预设的各标准音素的概率;
解码模块2,用于采用预先建立的解码路径,对语音信号的后验概率进行解码,得到语音信号的解码结果并计算语音信号的唤醒得分;其中,解码路径包含在设定的各唤醒字之间构建的支路和在唤醒字之间构建的冗余旁路,解码结果包括:语音信号中分别属于唤醒语音片段和冗余语音片段的音频,以及所述语音信号中每帧音频对应的音素编号和概率;
后处理模块3,用于根据语音信号的解码结果,确定属于冗余语音片段的音频的音频信息;根据冗余语音片段的音频的音频信息确定冗余怀疑度;
判断模块4,用于根据唤醒得分和冗余怀疑度,确定是否执行唤醒动作。
可选地,在本发明实施例提供的上述装置中,如图5所示,计算模块1,可以具体包括:
前端处理模块11,用于对获取到的语音信号进行前端处理,得到语音信号中每帧音频的前端特征;
神经网络计算模块12,用于将语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算,得到语音信号中每帧音频分别对应于各标准音素的概率。
可选地,在本发明实施例提供的上述装置中,后处理模块3,具体可以用于确定属于冗余语音片段的每帧音频的前端特征,以及属于冗余语音片段的每帧音频的语音能量。
可选地,在本发明实施例提供的上述装置中,后处理模块3,具体可以用于将音频信息输入至预设的第二神经网络模型中,得到冗余怀疑度。
可选地,在本发明实施例提供的上述装置中,判断模块4,还可以用于在确定属于冗余语音片段的音频的音频信息之前,判断语音信号的唤醒得分是否大于设定的第一阈值;若是,则执行确定属于冗余语音片段的音频的音频信息。
可选地,在本发明实施例提供的上述装置中,判断模块4,具体可以用于根据唤醒得分和冗余怀疑度,确定语音信号的唤醒置信度;在确定唤醒置信度大于设定的第二阈值时,确定执行唤醒动作。
可选地,在本发明实施例提供的上述装置中,判断模块4,具体可以用于将唤醒得分与冗余怀疑度之差作为唤醒置信度。
本发明实施例提供的上述语音唤醒方法及装置,通过在解码路径中引入了唤醒字之间的冗余旁路,在对语音信号的后验概率进行解码时,可以抽取出除了唤醒字以外的其他音素集合,即解码路径除了可以区分出唤醒字对应的音素,还可以额外获得非唤醒字音素对应的语音片段,即解码结果中包括了语音信号中分别属于唤醒语音片段和冗余语音片段的音频。之后,对冗余语音片段的音频信息进行解析可以得到冗余怀疑度,在判断是否执行唤醒动作时,同时依据解码结果对应的唤醒得分和冗余怀疑度,可以提高判断准确性,抑制误唤醒。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种语音唤醒方法,其特征在于,包括:
确定获取到的语音信号的后验概率,所述后验概率为所述语音信号中每帧音频分别对应于预设的各标准音素的概率;
采用预先建立的解码路径,对所述语音信号的后验概率进行解码,得到所述语音信号的解码结果并计算所述语音信号的唤醒得分;其中,所述解码路径包含在设定的各唤醒字之间构建的支路和在所述唤醒字之间构建的冗余旁路,所述解码结果包括:所述语音信号中分别属于唤醒语音片段和冗余语音片段的音频,以及所述语音信号中每帧音频对应的音素编号和概率;
根据所述语音信号的解码结果,确定属于所述冗余语音片段的音频的音频信息;
根据所述冗余语音片段的音频的音频信息确定冗余怀疑度;
根据所述唤醒得分和所述冗余怀疑度,确定是否执行唤醒动作。
2.如权利要求1所述的方法,其特征在于,所述确定获取到的语音信号的后验概率,具体包括:
对获取到的所述语音信号进行前端处理,得到所述语音信号中每帧音频的前端特征;
将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算,得到所述语音信号中每帧音频分别对应于各所述标准音素的概率。
3.如权利要求2所述的方法,其特征在于,所述确定属于所述冗余语音片段的音频的音频信息,具体包括:
确定属于所述冗余语音片段的每帧音频的前端特征,以及属于所述冗余语音片段的每帧音频的语音能量。
4.如权利要求1所述的方法,其特征在于,所述根据所述冗余语音片段的音频的音频信息确定冗余怀疑度,具体包括:
将所述音频信息输入至预设的第二神经网络模型中,得到冗余怀疑度。
5.如权利要求1所述的方法,其特征在于,在确定属于所述冗余语音片段的音频的音频信息之前,还包括:
判断所述语音信号的唤醒得分是否大于设定的第一阈值;
若是,则执行确定属于所述冗余语音片段的音频的音频信息。
6.如权利要求1所述的方法,其特征在于,所述根据所述唤醒得分和所述冗余怀疑度,确定是否执行唤醒动作,具体包括:
根据所述唤醒得分和所述冗余怀疑度,确定所述语音信号的唤醒置信度;
在确定所述唤醒置信度大于设定的第二阈值时,确定执行唤醒动作。
7.如权利要求6所述的方法,其特征在于,所述根据所述唤醒得分和所述冗余怀疑度,确定所述语音信号的唤醒置信度,具体包括:
将所述唤醒得分与所述冗余怀疑度之差作为所述唤醒置信度。
8.一种语音唤醒装置,其特征在于,包括:
计算模块,用于确定获取到的语音信号的后验概率,所述后验概率为所述语音信号中每帧音频分别对应于预设的各标准音素的概率;
解码模块,用于采用预先建立的解码路径,对所述语音信号的后验概率进行解码,得到所述语音信号的解码结果并计算所述语音信号的唤醒得分;其中,所述解码路径包含在设定的各唤醒字之间构建的支路和在所述唤醒字之间构建的冗余旁路,所述解码结果包括:所述语音信号中分别属于唤醒语音片段和冗余语音片段的音频,以及所述语音信号中每帧音频对应的音素编号和概率;
后处理模块,用于根据所述语音信号的解码结果,确定属于所述冗余语音片段的音频的音频信息;根据所述冗余语音片段的音频的音频信息确定冗余怀疑度;
判断模块,用于根据所述唤醒得分和所述冗余怀疑度,确定是否执行唤醒动作。
9.如权利要求8所述的装置,其特征在于,所述计算模块,具体包括:
前端处理模块,用于对获取到的所述语音信号进行前端处理,得到所述语音信号中每帧音频的前端特征;
神经网络计算模块,用于将所述语音信号中每帧音频的前端特征输入至第一神经网络模型中进行计算,得到所述语音信号中每帧音频分别对应于各所述标准音素的概率。
10.如权利要求9所述的装置,其特征在于,所述后处理模块,具体用于确定属于所述冗余语音片段的每帧音频的前端特征,以及属于所述冗余语音片段的每帧音频的语音能量。
11.如权利要求8所述的装置,其特征在于,所述后处理模块,具体用于将所述音频信息输入至预设的第二神经网络模型中,得到冗余怀疑度。
12.如权利要求8所述的装置,其特征在于,所述判断模块,还用于在确定属于所述冗余语音片段的音频的音频信息之前,判断所述语音信号的唤醒得分是否大于设定的第一阈值;若是,则执行确定属于所述冗余语音片段的音频的音频信息。
13.如权利要求8所述的装置,其特征在于,所述判断模块,具体用于根据所述唤醒得分和所述冗余怀疑度,确定所述语音信号的唤醒置信度;在确定所述唤醒置信度大于设定的第二阈值时,确定执行唤醒动作。
14.如权利要求13所述的装置,其特征在于,所述判断模块,具体用于将所述唤醒得分与所述冗余怀疑度之差作为所述唤醒置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872875.3A CN112509556B (zh) | 2019-09-16 | 2019-09-16 | 一种语音唤醒方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872875.3A CN112509556B (zh) | 2019-09-16 | 2019-09-16 | 一种语音唤醒方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112509556A true CN112509556A (zh) | 2021-03-16 |
CN112509556B CN112509556B (zh) | 2023-11-17 |
Family
ID=74924033
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910872875.3A Active CN112509556B (zh) | 2019-09-16 | 2019-09-16 | 一种语音唤醒方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509556B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053377A (zh) * | 2021-03-23 | 2021-06-29 | 南京地平线机器人技术有限公司 | 语音唤醒方法和装置、计算机可读存储介质、电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140337024A1 (en) * | 2013-05-13 | 2014-11-13 | Canon Kabushiki Kaisha | Method and system for speech command detection, and information processing system |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
CN108154878A (zh) * | 2017-12-12 | 2018-06-12 | 北京小米移动软件有限公司 | 控制监控设备的方法及装置 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
US10176802B1 (en) * | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
-
2019
- 2019-09-16 CN CN201910872875.3A patent/CN112509556B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140337024A1 (en) * | 2013-05-13 | 2014-11-13 | Canon Kabushiki Kaisha | Method and system for speech command detection, and information processing system |
CN104157284A (zh) * | 2013-05-13 | 2014-11-19 | 佳能株式会社 | 语音命令检测方法和系统,以及信息处理系统 |
US10176802B1 (en) * | 2016-03-21 | 2019-01-08 | Amazon Technologies, Inc. | Lattice encoding using recurrent neural networks |
US10210862B1 (en) * | 2016-03-21 | 2019-02-19 | Amazon Technologies, Inc. | Lattice decoding and result confirmation using recurrent neural networks |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
CN108154878A (zh) * | 2017-12-12 | 2018-06-12 | 北京小米移动软件有限公司 | 控制监控设备的方法及装置 |
Non-Patent Citations (2)
Title |
---|
F. SEIDE ET AL: "The use of virtual hypothesis copies in decoding of large-vocabulary continuous speech", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING ( VOLUME: 13, ISSUE: 4, JULY 2005), pages 1 - 14 * |
刘琦;王翠平;唐步天;卢玉军;: "改进音频隐写方法在警用移动终端中的应用", 计算机工程, no. 14 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113053377A (zh) * | 2021-03-23 | 2021-06-29 | 南京地平线机器人技术有限公司 | 语音唤醒方法和装置、计算机可读存储介质、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112509556B (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN106940998B (zh) | 一种设定操作的执行方法及装置 | |
CN110473539B (zh) | 提升语音唤醒性能的方法和装置 | |
CN103943104B (zh) | 一种语音信息识别的方法及终端设备 | |
CN108538293B (zh) | 语音唤醒方法、装置及智能设备 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN105096941A (zh) | 语音识别方法以及装置 | |
CN110910885B (zh) | 基于解码网络的语音唤醒方法和装置 | |
CN111161728B (zh) | 一种智能设备的唤醒方法、装置、设备及介质 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN102945673A (zh) | 一种语音指令范围动态变化的连续语音识别方法 | |
CN111312222A (zh) | 一种唤醒、语音识别模型训练方法及装置 | |
CN112652306B (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN111696580A (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
CN110689887B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN112951243A (zh) | 语音唤醒方法、装置、芯片、电子设备及存储介质 | |
EP3574499B1 (en) | Methods and apparatus for asr with embedded noise reduction | |
CN112509556B (zh) | 一种语音唤醒方法及装置 | |
CN110992940B (zh) | 语音交互的方法、装置、设备和计算机可读存储介质 | |
CN112289311A (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN113241059B (zh) | 语音唤醒方法、装置、设备及存储介质 | |
CN114420136A (zh) | 一种声纹识别模型训练的方法、装置以及存储介质 | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
CN114678040B (zh) | 语音一致性检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |