CN107919116A - 一种语音激活检测方法及装置 - Google Patents
一种语音激活检测方法及装置 Download PDFInfo
- Publication number
- CN107919116A CN107919116A CN201610886934.9A CN201610886934A CN107919116A CN 107919116 A CN107919116 A CN 107919116A CN 201610886934 A CN201610886934 A CN 201610886934A CN 107919116 A CN107919116 A CN 107919116A
- Authority
- CN
- China
- Prior art keywords
- voice
- activation
- sound bite
- word
- voice data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004913 activation Effects 0.000 claims abstract description 94
- 238000001514 detection method Methods 0.000 claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000000306 recurrent effect Effects 0.000 claims abstract description 15
- 230000003213 activating effect Effects 0.000 claims abstract description 14
- 230000007935 neutral effect Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 28
- 230000002457 bidirectional effect Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000000052 comparative effect Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000012790 confirmation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000012634 fragment Substances 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及语音识别技术领域,尤其涉及一种语音激活检测方法及装置,通过采用两次激活检测的方法,将第一次激活判断中取到的语音片段输入BLSTM循环神经网络,通过对整条语音的所有帧进行处理,最终判定是否激活语音识别设备。在两次激活确认中,第一次激活的阈值可以设置适当宽松,以保证较高的检出率;第二次激活确认由于已知起始点,相对更加准确,两次激活检测能够同时降低误激活和漏激活,即有效降低激活的等错误率,从而更加有效的保证激活的性能。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种利用双向循环神经网络进行二次确认的语音激活检测方法及装置。
背景技术
很多语音识别设备需要语音激活之后才能够拾音进而进行识别。语音识别设备激活之后才进行拾音一来是为了降低设备功耗,二来是为了减少不需要进行识别的语音进入语音识别流程,进而带来不必要的响应。近场语音识别环境中,比如手机端的语音识别,可以采用触摸或按键等方式进入拾音状态。在远场识别中,或是近场识别但不方便用手操作的时候,利用语音对设备进行激活使设备进入拾音状态就变得不可或缺。语音激活通常是先设定激活词,然后对设备说出激活词,设备被唤醒之后进入拾音状态。
语音激活最简单直观的方法是利用语音识别的方法,把激活的语音送入语音识别器进行识别,如果识别结果是激活词或者包含激活词,那么设备激活。实际上,只需要对激活语音进行声学打分,计算在设定激活词上的声学得分即可,同时还可以根据得分设定接受和拒绝的阈值;然而阈值是非常难于控制的,这是因为阈值设定太低会带来很多的误激活,阈值设定太高则使得语音识别设备难以被激活。这种现象对于较短的激活词尤其严重。
如何找到一种同时降低误激活和降低漏激活(即降低激活的等错误率)的方法成为本领域技术人员致力于研究的方向。
发明内容
针对上述存在的问题,本发明公开一种语音激活检测方法,其中,应用于对设置有激活词的语音识别设备进行激活时的语音检测,包括以下步骤:
步骤S1,对待测语音数据进行端点检测,以获取包含语音信号的语音数据;
步骤S2,利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率;
步骤S3,对所述三音子后验概率进行流式动态规划,以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分;
步骤S4,将所述路径得分与预先设定的第一阈值进行比较:
若所述路径得分小于所述第一阈值,则判断所述包含语音信号的语音数据为非激活语音,随后退出;
步骤S5,进行回溯,找到所述包含语音信号的语音数据的起始位置,并根据所述起始位置获取语音片段;
步骤S6,利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理,并根据处理结果判断是否激活所述语音识别设备。
上述的语音激活检测方法,其中,所述步骤S6中,根据处理结果判断是否激活所述语音识别设备的判断步骤具体包括:将所述处理结果与预先设定的第二阈值进行比较,并在所述处理结果大于所述第二阈值时激活所述设备。
上述的语音激活检测方法,其中,所述端点检测为基于短时能量、音高或神经网络的端点检测。
上述的语音激活检测方法,其中,所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
上述的语音激活检测方法,其中,关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵,所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。
上述的语音激活检测方法,其中,所述语音片段为只包括所述激活词的语音片段。
上述的语音激活检测方法,其中,所述双向循环神经网络为BLSTM循环神经网络。
上述的语音激活检测方法,其中,所述步骤S6中,预先训练形成所述双向循环神经网络的训练步骤包括:
步骤S61,对包含激活词的语音进行处理以获取只包含激活词的语音片段;
步骤S62,利用所述只包含激活词的语音片段对所述双向循环神经网络进行训练。
本发明还公开了一种语音激活检测装置,应用于设置有激活词的语音识别设备上,以在对所述语音识别设备进行激活时进行语音检测,包括:
端点检测模块,对待测语音数据进行端点检测,以获取包含语音信号的语音数据;
声学打分模块,与所述端点检测模块连接,以利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率;
动态规划模块,与所述声学打分模块连接,对所述三音子后验概率进行流式动态规划,以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分;
比较模块,与所述动态规划模块连接,且所述比较模块中预先设定有第一阈值,所述比较模块将所述路径得分与预先设定的第一阈值进行比较,并根据比较结果判断所述包含语音信号的语音数据是否为激活语音;
回溯模块,与所述比较模块连接,以在所述比较结果判断所述包含语音信号的语音数据为激活语音时进行回溯,找到所述包含语音信号的语音数据的起始位置,并根据所述起始位置获取语音片段;
处理比较模块,与所述回溯模块连接,并包括预先训练形成的双向循环神经网络,以利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理,并根据处理结果判断是否激活所述语音识别设备。
上述的语音激活检测装置,其中,所述处理比较模块包括处理单元和比较单元;
所述处理单元利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理;所述比较单元将所述处理结果与预先设定的第二阈值进行比较,并在所述处理结果大于所述第二阈值时激活所述设备。
上述的语音激活检测装置,其中,所述端点检测模块为基于短时能量、音高或神经网络的端点检测模块。
上述的语音激活检测装置,其中,所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
上述的语音激活检测装置,其中,关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵,所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。
上述的语音激活检测装置,其中,所述语音片段为只包括所述激活词的语音片段。
上述的语音激活检测装置,其中,所述双向循环神经网络为BLSTM循环神经网络。
上述发明具有如下优点或者有益效果:
本发明公开的一种语音激活检测方法及装置,采用两次激活检测的方法,并在第一次激活确认中,仅使用声学打分,然后利用动态规划的方法,并依据路径得分和阈值的比较来判断包含语音信号的语音数据是否有可能激活,然后将有可能激活的语音片段送入到第二次使用BLSTM循环神经网络进行语音激活确认的流程中,通过对整条语音的所有帧进行计算,最终判定是否激活语音识别设备;在两次激活确认中,第一次激活的阈值可以设置的适当宽松,以保证较高的检出率;第二次激活确认由于已知起始点,相对更加准确,两次激活检测能够同时降低误激活和漏激活,即有效降低激活的等错误率,从而更加有效的保证激活的性能。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明及其特征、外形和优点将会变得更加明显。在全部附图中相同的标记指示相同的部分。并未可以按照比例绘制附图,重点在于示出本发明的主旨。
图1是本发明实施例中语音激活检测方法的流程图;
图2是本发明实施例中语音激活检测装置的结构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明作进一步的说明,但是不作为本发明的限定。
如图1所示,本实施例涉及一种语音激活检测方法,应用于对设置有激活词的语音识别设备进行激活时的语音检测,该方法主要由包括以下步骤:
步骤S1,对待测语音数据进行端点检测,以获取包含语音信号的语音数据。
之所以将端点检测的步骤放在方法流程的第一位,是由于如果持续对待测语音数据(连续语音信号)进行声学计算,会浪费较大的资源,而进行端点检测后后续的声学计算只针对包含语音信号的语音数据进行,这样能够节省计算资源。端点检测的方法有很多,例如使用短时能量的方法,使用音高(pitch)的方法以及使用神经网络的方法等(即端点检测可以为基于短时能量、音高或神经网络的端点检测等)。
在本发明的一个优选的实施例中,采用神经网络的方法对待测语音数据进行端点检测,以获取包含语音信号的语音数据;具体的,神经网络的输入是每一帧语音特征,神经网络的输出有2个节点,分别对应语音和非语音。在持续的帧判断中,设定连续出现一定数量的语音帧则认为是起始端点,连续出现一定数量的非语音帧则认为是结束端点。
步骤S2,利用预先训练形成的语音识别声学模型处理得到关联于包含语音信号的语音数据的三音子后验概率。
在本发明一个优选的实施例中,关联于包含语音信号的语音数据的三音子后验概率为一声学得分矩阵,声学得分矩阵包括包含语音信号的语音数据的每一帧语音在激活词所包含的三音子上的得分,(即得分计算需要得到每一帧语音在激活词所包含的三音子上的得分,最终得到一个声学得分矩阵)。
在本发明一个优选的实施例中,上述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN(深度神经网络)-HMM框架的声学模型。
步骤S3,对三音子后验概率进行流式动态规划,以处理得到包含语音信号的语音数据在激活词上的路径得分。
在第一次激活确认的流式动态规划中,为了限制搜索空间的大小,需要设定激活词的最短以及最长时间片段。同时这样做也保证了激活词片段的时长,从而增加了可靠性。更具体的讲,是设定了激活词中每个音子的最短以及最长时间片段。
在声学打分矩阵上使用动态规划算法计算出各语音片段的匹配得分,若该语音中有语音片段的匹配得分高于阈值,则包含有唤醒词。具体如下:
对于一个关键词,如“数字”,其包含有2个字,4个声韵母,相当于4个tri-phone,即12个状态,假设其状态号依次为1-12。那么对于一段测试语音,从每一帧的声学打分模型的输出中提取出这12个状态下的概率,作为该帧在“数字”关键词下的声学打分。那么对于一段T帧的语音,则该语音可以转换为12*T的矩阵。
对于该帧长为T的语音,借助于其对应的12*T矩阵,可计算出任一语音片段的匹配得分,计算细节如下:一般来说,每一个状态的长度为2-10帧,那么“数字”关键词的长度为24-120帧。对于语音流中的任意第t帧,将其作为该语音片段的终止帧,向前取24到120帧,即分别将t-120、t-119、…、t-24作为该语音片段的初始帧,从而构成了96种待判别的情况,分别对这96种情况下的矩阵做动态规划,将得到的结果除以帧长得到平均得分,取这96种情况下的最高平均得分作为第t帧的匹配得分。
步骤S4,将路径得分与预先设定的第一阈值进行比较:若路径得分小于第一阈值,则判断包含语音信号的语音数据为非激活语音,随后退出。
经过第一次语音激活判断(第一次语音激活判断包括步骤S3和步骤S4)之后,可以获取到动态规划的路径得分。将这个路径得分与预先设定的第一阈值进行对比,小于此第一阈值的则认为是非激活语音,随后退出;而超过阈值的认为通过了第一次激活检测,继续进行步骤S5。
步骤S5,进行回溯,找到包含语音信号的语音数据的起始位置,并根据起始位置获取语音片段。
具体的,通过第一次激活检测的语音使用过动态规划的回溯算法找到起始点,从而获取到一段可能包含激活词的语音片段。这段语音片段的选择对于后面使用双向循环神经网络进行激活的二次确认有较大的影响,最好是恰好包含激活词的语音片段,这样才能获得最好的效果。
步骤S6,利用预先训练形成的BLSTM(Bidirectional Long Short Term Memory,双向长短时记忆)循环神经网络对语音片段进行前向处理,并根据处理结果判断是否激活语音识别设备。
BLSTM循环神经网络,其中。双向长短时记忆是神经网络学习模型, “双向”表示输入被前向和后向提供给两个单独的回归网络,这两个回归网络均连接至相同的输出层,并且“长短时记忆”表示能够学习长期依赖性的替选的神经架构。
在此,值得一提的是,神经网络,尤其是循环神经网络,由于强大的建模能力而被语音识别领域广泛采用。而双向循环神经网络拥有比单向循环神经网络更加强大的建模能力。但是,需要知道起始点和结束点才能进行准确计算的要求,使得双向循环神经网络在语音领域难以应用;本发明实施例通过第一次激活检测的语音使用动态规划的回溯算法找到起始点,从而获取到一段可能包含激活词的语音片段,进而可以使得双向循环神经网络在语音激活检测中得以应用。
在步骤S6中,BLSTM循环神经网络需要预先进行训练,它包含几个隐藏层,输入为语音片段的特征,输出节点为2,分别代表非激活节点和激活节点。训练数据同样需要进行处理,将包含激活词的语音进行前面的四个处理步骤,得到只包含激活词的语音片段来进行训练。反样本是误激活数据,发音类似激活词,同样经过处理之后得到语音片段来进行训练。训练中,包含真正激活词的语音片段每一帧的标签都设置为1,反之则将每一帧的标签都设置为0。
进行激活词二次确认的时候,将整个语音片段送入到BLSTM循环神经网络中进行计算,每一帧语音都会得到一个输出结果,最后根据所有帧的加权得分。
将语音片段素有帧的BLSTM循环神经网络的输出计算均值,针对标签1的节点设定阈值,输出值大于阈值的,认为语音片段确实是激活词,设备激活;输出值小于阈值的,认为语言片段并非激活词,设备不激活。
如图2所示,本实施例涉及一种语音激活检测装置,应用于设置有激活词的语音识别设备上,以在对语音识别设备进行激活时进行语音检测,具体的,该语音激活检测装置包括对待测语音数据进行端点检测,以获取包含语音信号的语音数据的端点检测模块、与端点检测模块连接,以利用预先训练形成的语音识别声学模型处理得到关联于包含语音信号的语音数据的三音子后验概率的声学打分模块、与声学打分模块连接,对三音子后验概率进行流式动态规划,以处理得到包含语音信号的语音数据在激活词上的路径得分放入动态规划模块、与动态规划模块连接的比较模块、与比较模块连接的回溯模块以及与回溯模块连接的计算比较模块;其中,比较模块中预先设定有第一阈值,该比较模块将路径得分与预先设定的第一阈值进行比较,并根据比较结果判断包含语音信号的语音数据是否为激活语音;回溯模块以在比较结果判断包含语音信号的语音数据为激活语音时进行回溯,找到包含语音信号的语音数据的起始位置,并根据起始位置获取语音片段;处理比较模块包括预先训练形成的双向循环神经网络,以利用预先训练形成的双向循环神经网络对语音片段进行前向处理,并根据处理结果判断是否激活语音识别设备。
在本发明一个优选的实施例中,上述处理比较模块包括利用预先训练形成的双向循环神经网络对语音片段进行前向处理的处理单元和将处理结果与预先设定的第二阈值进行比较,并在处理结果大于第二阈值时激活设备的比较单元。
在本发明一个优选的实施例中,上述端点检测模块为基于短时能量、音高或神经网络的端点检测模块。
在本发明一个优选的实施例中,上述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
在本发明一个优选的实施例中,上述关联于包含语音信号的语音数据的三音子后验概率为一声学得分矩阵,声学得分矩阵包括包含语音信号的语音数据的每一帧语音在激活词所包含的三音子上的得分。
在本发明一个优选的实施例中,上述语音片段为只包括激活词的语音片段。
在本发明一个优选的实施例中,上述双向循环神经网络为BLSTM双向循环神经网络。
不难发现,本实施例为与上述语音激活检测方法的实施例相对应的结构实施例,本实施例可与上述语音激活检测方法的实施例互相配合实施。上述语音激活检测方法的实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述语音激活检测方法的实施例中。
本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述实施例可以实现变化例,在此不做赘述。这样的变化例并不影响本发明的实质内容,在此不予赘述。
以上对本发明的较佳实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (15)
1.一种语音激活检测方法,其特征在于,应用于对设置有激活词的语音识别设备进行激活时的语音检测,包括以下步骤:
步骤S1,对待测语音数据进行端点检测,以获取包含语音信号的语音数据;
步骤S2,利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率;
步骤S3,对所述三音子后验概率进行流式动态规划,以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分;
步骤S4,将所述路径得分与预先设定的第一阈值进行比较:
若所述路径得分小于所述第一阈值,则判断所述包含语音信号的语音数据为非激活语音,随后退出;
步骤S5,进行回溯,找到所述包含语音信号的语音数据的起始位置,并根据所述起始位置获取语音片段;
步骤S6,利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理,并根据处理结果判断是否激活所述语音识别设备。
2.如权利要求1所述的语音激活检测方法,其特征在于,所述步骤S6中,根据处理结果判断是否激活所述语音识别设备的判断步骤具体包括:将所述处理结果与预先设定的第二阈值进行比较,并在所述处理结果大于所述第二阈值时激活所述设备。
3.如权利要求1所述的语音激活检测方法,其特征在于,所述端点检测为基于短时能量、音高或神经网络的端点检测。
4.如权利要求1所述的语音激活检测方法,其特征在于,所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
5.如权利要求1所述的语音激活检测方法,其特征在于,关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵,所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。
6.如权利要求1所述的语音激活检测方法,其特征在于,所述语音片段为只包括所述激活词的语音片段。
7.如权利要求1所述的语音激活检测方法,其特征在于,所述双向循环神经网络为BLSTM循环神经网络。
8.如权利要求1所述的语音激活检测方法,其特征在于,所述步骤S6中,预先训练形成所述双向循环神经网络的训练步骤包括:
步骤S61,对包含激活词的语音进行处理以获取只包含激活词的语音片段;
步骤S62,利用所述只包含激活词的语音片段对所述双向循环神经网络进行训练。
9.一种语音激活检测装置,其特征在于,应用于设置有激活词的语音识别设备上,以在对所述语音识别设备进行激活时进行语音检测,包括:
端点检测模块,对待测语音数据进行端点检测,以获取包含语音信号的语音数据;
声学打分模块,与所述端点检测模块连接,以利用预先训练形成的语音识别声学模型处理得到关联于所述包含语音信号的语音数据的三音子后验概率;
动态规划模块,与所述声学打分模块连接,对所述三音子后验概率进行流式动态规划,以处理得到所述包含语音信号的语音数据在所述激活词上的路径得分;
比较模块,与所述动态规划模块连接,且所述比较模块中预先设定有第一阈值,所述比较模块将所述路径得分与预先设定的第一阈值进行比较,并根据比较结果判断所述包含语音信号的语音数据是否为激活语音;
回溯模块,与所述比较模块连接,以在所述比较结果判断所述包含语音信号的语音数据为激活语音时进行回溯,找到所述包含语音信号的语音数据的起始位置,并根据所述起始位置获取语音片段;
处理比较模块,与所述回溯模块连接,并包括预先训练形成的双向循环神经网络,以利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理,并根据处理结果判断是否激活所述语音识别设备。
10.如权利要求9所述的语音激活检测装置,其特征在于,所述处理比较模块包括处理单元和比较单元;
所述处理单元利用预先训练形成的双向循环神经网络对所述语音片段进行前向处理;所述比较单元将所述处理结果与预先设定的第二阈值进行比较,并在所述处理结果大于所述第二阈值时激活所述设备。
11.如权利要求9所述的语音激活检测装置,其特征在于,所述端点检测模块为基于短时能量、音高或神经网络的端点检测模块。
12.如权利要求9所述的语音激活检测装置,其特征在于,所述语音识别声学模型为基于GMM-HMM的声学模型或基于DNN-HMM框架的声学模型。
13.如权利要求9所述的语音激活检测装置,其特征在于,关联于所述包含语音信号的语音数据的三音子后验概率为一声学得分矩阵,所述声学得分矩阵包括所述包含语音信号的语音数据的每一帧语音在所述激活词所包含的三音子上的得分。
14.如权利要求9所述的语音激活检测装置,其特征在于,所述语音片段为只包括所述激活词的语音片段。
15.如权利要求9所述的语音激活检测装置,其特征在于,所述双向循环神经网络为BLSTM循环神经网络。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610886934.9A CN107919116B (zh) | 2016-10-11 | 2016-10-11 | 一种语音激活检测方法及装置 |
PCT/CN2017/103861 WO2018068649A1 (zh) | 2016-10-11 | 2017-09-28 | 一种语音激活检测方法及装置 |
TW106133943A TWI659412B (zh) | 2016-10-11 | 2017-09-30 | 一種語音激活檢測方法及裝置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610886934.9A CN107919116B (zh) | 2016-10-11 | 2016-10-11 | 一种语音激活检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107919116A true CN107919116A (zh) | 2018-04-17 |
CN107919116B CN107919116B (zh) | 2019-09-13 |
Family
ID=61892655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610886934.9A Active CN107919116B (zh) | 2016-10-11 | 2016-10-11 | 一种语音激活检测方法及装置 |
Country Status (3)
Country | Link |
---|---|
CN (1) | CN107919116B (zh) |
TW (1) | TWI659412B (zh) |
WO (1) | WO2018068649A1 (zh) |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108665889A (zh) * | 2018-04-20 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 语音信号端点检测方法、装置、设备及存储介质 |
CN111247582A (zh) * | 2018-09-28 | 2020-06-05 | 搜诺思公司 | 使用神经网络模型进行选择性唤醒词检测的系统和方法 |
CN112652296A (zh) * | 2020-12-23 | 2021-04-13 | 北京华宇信息技术有限公司 | 流式语音端点检测方法、装置及设备 |
CN113192499A (zh) * | 2020-01-10 | 2021-07-30 | 青岛海信移动通信技术股份有限公司 | 一种语音唤醒方法及终端 |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
US11315591B2 (en) | 2018-12-19 | 2022-04-26 | Amlogic (Shanghai) Co., Ltd. | Voice activity detection method |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11817076B2 (en) | 2017-09-28 | 2023-11-14 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11816393B2 (en) | 2017-09-08 | 2023-11-14 | Sonos, Inc. | Dynamic computation of system response volume |
US11817083B2 (en) | 2018-12-13 | 2023-11-14 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11832068B2 (en) | 2016-02-22 | 2023-11-28 | Sonos, Inc. | Music service selection |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11881222B2 (en) | 2020-05-20 | 2024-01-23 | Sonos, Inc | Command keywords with input detection windowing |
US11881223B2 (en) | 2018-12-07 | 2024-01-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11887598B2 (en) | 2020-01-07 | 2024-01-30 | Sonos, Inc. | Voice verification for media playback |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11934742B2 (en) | 2016-08-05 | 2024-03-19 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
US11973893B2 (en) | 2018-08-28 | 2024-04-30 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
US11983463B2 (en) | 2016-02-22 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020120446A1 (en) * | 2001-02-23 | 2002-08-29 | Motorola, Inc. | Detection of inconsistent training data in a voice recognition system |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
CN102436816A (zh) * | 2011-09-20 | 2012-05-02 | 安徽科大讯飞信息科技股份有限公司 | 一种语音数据解码方法和装置 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
CN104143326A (zh) * | 2013-12-03 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
CN105374352A (zh) * | 2014-08-22 | 2016-03-02 | 中国科学院声学研究所 | 一种语音激活方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101281745B (zh) * | 2008-05-23 | 2011-08-10 | 深圳市北科瑞声科技有限公司 | 一种车载语音交互系统 |
CN102194452B (zh) * | 2011-04-14 | 2013-10-23 | 西安烽火电子科技有限责任公司 | 复杂背景噪声中的语音激活检测方法 |
US8543397B1 (en) * | 2012-10-11 | 2013-09-24 | Google Inc. | Mobile device voice activation |
CN103839544B (zh) * | 2012-11-27 | 2016-09-07 | 展讯通信(上海)有限公司 | 语音激活检测方法和装置 |
CN103646649B (zh) * | 2013-12-30 | 2016-04-13 | 中国科学院自动化研究所 | 一种高效的语音检测方法 |
CN203882609U (zh) * | 2014-05-08 | 2014-10-15 | 钰太芯微电子科技(上海)有限公司 | 基于语音激活检测的唤醒装置 |
-
2016
- 2016-10-11 CN CN201610886934.9A patent/CN107919116B/zh active Active
-
2017
- 2017-09-28 WO PCT/CN2017/103861 patent/WO2018068649A1/zh active Application Filing
- 2017-09-30 TW TW106133943A patent/TWI659412B/zh active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020120446A1 (en) * | 2001-02-23 | 2002-08-29 | Motorola, Inc. | Detection of inconsistent training data in a voice recognition system |
US20030033143A1 (en) * | 2001-08-13 | 2003-02-13 | Hagai Aronowitz | Decreasing noise sensitivity in speech processing under adverse conditions |
CN102436816A (zh) * | 2011-09-20 | 2012-05-02 | 安徽科大讯飞信息科技股份有限公司 | 一种语音数据解码方法和装置 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别系统中拒识能力提升方法 |
CN103325370A (zh) * | 2013-07-01 | 2013-09-25 | 百度在线网络技术(北京)有限公司 | 语音识别方法和语音识别系统 |
CN104143326A (zh) * | 2013-12-03 | 2014-11-12 | 腾讯科技(深圳)有限公司 | 一种语音命令识别方法和装置 |
CN105374352A (zh) * | 2014-08-22 | 2016-03-02 | 中国科学院声学研究所 | 一种语音激活方法及系统 |
Cited By (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11983463B2 (en) | 2016-02-22 | 2024-05-14 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US11947870B2 (en) | 2016-02-22 | 2024-04-02 | Sonos, Inc. | Audio response playback |
US11863593B2 (en) | 2016-02-22 | 2024-01-02 | Sonos, Inc. | Networked microphone device control |
US11832068B2 (en) | 2016-02-22 | 2023-11-28 | Sonos, Inc. | Music service selection |
US11979960B2 (en) | 2016-07-15 | 2024-05-07 | Sonos, Inc. | Contextualization of voice inputs |
US11934742B2 (en) | 2016-08-05 | 2024-03-19 | Sonos, Inc. | Playback device supporting concurrent voice assistants |
US11727933B2 (en) | 2016-10-19 | 2023-08-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11900937B2 (en) | 2017-08-07 | 2024-02-13 | Sonos, Inc. | Wake-word detection suppression |
US11816393B2 (en) | 2017-09-08 | 2023-11-14 | Sonos, Inc. | Dynamic computation of system response volume |
US11817076B2 (en) | 2017-09-28 | 2023-11-14 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US11893308B2 (en) | 2017-09-29 | 2024-02-06 | Sonos, Inc. | Media playback system with concurrent voice assistance |
CN108665889A (zh) * | 2018-04-20 | 2018-10-16 | 百度在线网络技术(北京)有限公司 | 语音信号端点检测方法、装置、设备及存储介质 |
US11797263B2 (en) | 2018-05-10 | 2023-10-24 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US11792590B2 (en) | 2018-05-25 | 2023-10-17 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US11973893B2 (en) | 2018-08-28 | 2024-04-30 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11778259B2 (en) | 2018-09-14 | 2023-10-03 | Sonos, Inc. | Networked devices, systems and methods for associating playback devices based on sound codes |
US11790937B2 (en) | 2018-09-21 | 2023-10-17 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11790911B2 (en) | 2018-09-28 | 2023-10-17 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
CN111247582A (zh) * | 2018-09-28 | 2020-06-05 | 搜诺思公司 | 使用神经网络模型进行选择性唤醒词检测的系统和方法 |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11881223B2 (en) | 2018-12-07 | 2024-01-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11817083B2 (en) | 2018-12-13 | 2023-11-14 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11315591B2 (en) | 2018-12-19 | 2022-04-26 | Amlogic (Shanghai) Co., Ltd. | Voice activity detection method |
US11798553B2 (en) | 2019-05-03 | 2023-10-24 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11854547B2 (en) | 2019-06-12 | 2023-12-26 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11862161B2 (en) | 2019-10-22 | 2024-01-02 | Sonos, Inc. | VAS toggle based on device orientation |
US11869503B2 (en) | 2019-12-20 | 2024-01-09 | Sonos, Inc. | Offline voice control |
US11887598B2 (en) | 2020-01-07 | 2024-01-30 | Sonos, Inc. | Voice verification for media playback |
CN113192499A (zh) * | 2020-01-10 | 2021-07-30 | 青岛海信移动通信技术股份有限公司 | 一种语音唤醒方法及终端 |
US11961519B2 (en) | 2020-02-07 | 2024-04-16 | Sonos, Inc. | Localized wakeword verification |
CN113593539A (zh) * | 2020-04-30 | 2021-11-02 | 阿里巴巴集团控股有限公司 | 流式端到端语音识别方法、装置及电子设备 |
US11881222B2 (en) | 2020-05-20 | 2024-01-23 | Sonos, Inc | Command keywords with input detection windowing |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
CN112652296A (zh) * | 2020-12-23 | 2021-04-13 | 北京华宇信息技术有限公司 | 流式语音端点检测方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
TW201814689A (zh) | 2018-04-16 |
TWI659412B (zh) | 2019-05-11 |
WO2018068649A1 (zh) | 2018-04-19 |
CN107919116B (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107919116B (zh) | 一种语音激活检测方法及装置 | |
CN106653021B (zh) | 语音唤醒的控制方法、装置及终端 | |
CN109086329B (zh) | 基于话题关键词引导的进行多轮对话方法及装置 | |
CN110083693B (zh) | 机器人对话回复方法及装置 | |
CN107437415B (zh) | 一种智能语音交互方法及系统 | |
CN108509408B (zh) | 一种句子相似度判断方法 | |
CN106940998A (zh) | 一种设定操作的执行方法及装置 | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN107492382A (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN107767863A (zh) | 语音唤醒方法、系统及智能终端 | |
CN104751227B (zh) | 用于语音识别的深度神经网络的构建方法及系统 | |
US20160217367A1 (en) | Sub-matrix input for neural network layers | |
CN109256135A (zh) | 一种端到端说话人确认方法、装置及存储介质 | |
CN105336324A (zh) | 一种语种识别方法及装置 | |
CN110135551A (zh) | 一种基于词向量和循环神经网络的机器人聊天方法 | |
CN104751228A (zh) | 深度神经网络的构建方法及系统 | |
CN104751842A (zh) | 深度神经网络的优化方法及系统 | |
CN106779053A (zh) | 一种基于影响因子和神经网络的知识点摸底方法 | |
CN106875940A (zh) | 一种基于神经网络的机器自学习构建知识图谱训练方法 | |
CN109036471A (zh) | 语音端点检测方法及设备 | |
US11741948B2 (en) | Dilated convolutions and gating for efficient keyword spotting | |
CN112002349B (zh) | 一种语音端点检测方法及装置 | |
CN103810997B (zh) | 一种确定语音识别结果置信度的方法和装置 | |
CN114201683A (zh) | 一种基于多级匹配的兴趣激活新闻推荐方法及系统 | |
CN103797535A (zh) | 减少语音辨识系统中的漏报 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1247435 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |