CN107123417B

CN107123417B - 基于鉴别性训练的定制语音唤醒优化方法及系统

Info

Publication number: CN107123417B
Application number: CN201710343427.5A
Authority: CN
Inventors: 俞凯; 陈哲怀
Original assignee: Shanghai Jiaotong University; AI Speech Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2017-05-16
Filing date: 2017-05-16
Publication date: 2020-06-09
Anticipated expiration: 2037-05-16
Also published as: CN107123417A

Abstract

一种基于鉴别性训练的定制语音唤醒优化方法及系统，在给定带标注的声学数据后，结合初始的基于神经网络的声学模型，通过神经网络前向传播得到逐帧声学概率；结合标注序列及逐帧声学概率，得到标注唤醒词的建模概率；利用在大量文本上统计得到的音素级语言模型，构建为相应的搜索网络；基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模，得到后验概率；结合唤醒词竞争项建模和标注唤醒词建模，进行声学模型的鉴别性训练；通过鉴别性训练得到的声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒。

Description

基于鉴别性训练的定制语音唤醒优化方法及系统

技术领域

本发明涉及的是一种语音识别领域的技术，具体是一种基于鉴别性训练的定制语音唤醒优化方法及系统。

背景技术

可定制的语音唤醒(Voice Wake-up)系统的任务是指从一段连续的语音中自动发现并定位一些事先指定的命令词(唤醒词)。可定制的特性体现在唤醒词检测模型不依赖于用户指定的唤醒词，从而实现无需修改模型即可方便更改用户唤醒词。主要的语音唤醒技术包括早期的动态时间规整法，如今的基于隐马尔科夫模型的方法，以及基于深度学习的方法。

发明内容

本发明针对现有技术无法明确区分唤醒词和非唤醒词语之间的区分性不高，或通过定制语音模型才能实现从而提高了实现成本的同时降低了鲁棒性等缺陷和不足，提出一种基于鉴别性训练的定制语音唤醒优化方法及系统，利用前后文无关音素的声学解码进行高效搜索，从而完成对唤醒词置信度选择。

本发明是通过以下技术方案实现的：

本发明包括以下步骤：

步骤1)在给定带标注的声学数据后，结合初始的基于神经网络的声学模型，通过神经网络前向传播得到逐帧声学概率；

步骤2)结合标注序列及逐帧声学概率，得到标注唤醒词的建模概率。

步骤3)利用在大量文本上统计得到的音素级语言模型，构建为相应的搜索网络，具体是指：在测试阶段根据关键词构建搜索网络，而后在搜索网络上结合声学模型进行搜索。本发明采用基于上下文无关音素的声学模型，这是由于经过了鉴别性训练，声学模型具有更强的序列级信息，因此采用上下文相关音素和上下文无关音素对声学模型的建模效果没有差别。基于上下文无关音素的声学模型，所构建的搜索网络只有传统方法的三分之一大小，而对唤醒性能没有影响。

所述的搜索是指：在测试阶段结合已训练好的声学模型和已构建好的搜索网络，进行逐帧维特比解码，搜索得到发音特征序列对应的最优唤醒词序列，及其相应的识别概率，作为唤醒词置信度。

步骤4)基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模，得到后验概率。

步骤5)结合唤醒词竞争项建模和标注唤醒词建模，进行声学模型的鉴别性训练。

步骤6)通过鉴别性训练得到的声学模型对唤醒词和非唤醒词的区分性更强，能够得到更好的唤醒结果；通过该声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒。

由于可定制唤醒系统不限定唤醒词，对于不同唤醒词所使用的阈值也很难统一，本发明采用针对不同唤醒词自动估计阈值的方法，一定程度上解决阈值难以统一的问题，从而提升系统唤醒的准确性。自动估计阈值方法基于对filler(填充物)的识别概率，将其作为阈值。当唤醒词置信度大于阈值时，系统将输出唤醒词，否则不输出唤醒词，等待下次唤醒语音。

所述的filler是由所有的音素并行构建而成的搜索空间，其识别概率是指在该搜索空间上基于已训练得到的声学模型和声学特征序列进行解码搜索得到的识别概率。

技术效果

与现有技术相比，本发明基于鉴别性训练、音素级语言模型搜索空间以及前后文无关音素的声学解码，从而具有更好的序列级建模，提高唤醒率、更好的序列级非唤醒词建模，降低误唤醒率以及相对更少的模型搜索计算量。

附图说明

图1为本发明实施例系统示意图；

图2为本发明流程图；

图3为阈值建立示意图。

具体实施方式

如图1所示，本实施例涉及一种基于鉴别性训练的定制语音唤醒优化系统，包括：基于唤醒词的搜索网络、解码搜索模块、基于鉴别性训练的声学模型模块以及置信度判别模块，其中：搜索网络与解码搜索模块相连并传输针对定制唤醒词的语言学信息，声学模型模块与解码搜索模块相连并传输针对信号进行建模的声学信息分值，解码搜索模块经模型推测得到后验概率并输出至置信度判别模块，置信度判别模块采用自动估计阈值得到唤醒判定结果。

所述的声学模型模块具体包括：标注唤醒词建模单元、唤醒词竞争项建模单元和声学模型鉴别性训练单元，其中：唤醒词竞争项建模单元根据搜索空间生成基于神经网络的声学模型并输出至唤醒词竞争项建模单元，标注唤醒词建模单元根据带标注的声学数据和初始的声学模型，通过神经网络前向传播得到逐帧声学概率并输出至声学模型鉴别性训练单元，得到基于鉴别性训练的声学模型用于对信号进行建模的声学信息评分。

所述的唤醒词竞争项建模单元内含有基于音素级语言模型的搜索空间，唤醒词竞争项声学信息，通过传输逐帧各音素声学概率，用以得到唤醒词竞争项建模后验概率。

如图2所示，本实施例包括以下步骤：

步骤3)利用在大量文本上统计得到的音素级语言模型，构建为相应的搜索网络，具体是指：在测试阶段根据关键词构建搜索网络，而后在搜索网络上结合声学模型进行搜索。本发明采用基于上下文无关音素的声学模型，这是由于经过了鉴别性训练，声学模型具有更强的序列级信息，因此采用上下文相关音素和上下文无关音素对声学模型的建模效果没有差别。基于上下文无关音素的声学模型，本模块所构建的搜索网络只有传统方法的三分之一大小，而对唤醒性能没有影响。

步骤4)基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模，得到其概率。

所述的鉴别性训练具体包括：

5.1)根据标注唤醒词建模，使用前后向算法，得到唤醒词的对数概率；

5.2)根据唤醒词竞争项建模，使用前后向算法，得到搜索网络对应的对数边缘概率；

5.3)逐帧将对数概率减去对数边缘概率，得到唤醒词在该帧的后验概率；

5.4)基于后验概率使用误差反向传播算法更新声学模型的参数，完成训练。

如图3所示，本发明基于唤醒词置信度与阈值的比较以判别是否唤醒。由于可定制唤醒系统不限定唤醒词，对于不同唤醒词所使用的阈值也很难统一，所以这里提出了一种针对不同唤醒词自动估计阈值的方法，一定程度上解决阈值难以统一的问题，从而提升系统唤醒的准确性。自动估计阈值方法基于对filler的识别概率，将其作为阈值。当唤醒词置信度大于阈值时，系统将输出唤醒词，否则不输出唤醒词，等待下次唤醒语音。

以下为本实施例与现有技术比较得到的实验数据，其中第一行是基于逐帧交叉熵训练(CE)的传统方法，第二行是基于CE初始化后训练最小贝叶斯风险(CE+sMBR)的传统方法，第三行是本方法(LF-bMMI)。倒数第二列是性能指标，越小越好，倒数第三列是效率指标，越小越好；由表中可以看出本发明相对两种传统方法，在性能上，等错率(EER)分别有相对40％和相对20％的显著提升，同时在效率上，实时率(RTF)有近一倍改善。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于鉴别性训练的定制语音唤醒优化方法，其特征在于，包括以下步骤：

步骤2)结合标注序列及逐帧声学概率，得到标注唤醒词的建模概率；

步骤3)利用在大量文本上统计得到的音素级语言模型，构建为相应的搜索网络；

步骤4)基于音素级语言模型的搜索空间和逐帧声学模型可以进行唤醒词竞争项建模，得到后验概率；

步骤5)结合唤醒词竞争项建模和标注唤醒词建模，进行声学模型的鉴别性训练；

步骤6)通过鉴别性训练得到的声学模型采用基于唤醒词置信度与自动估计阈值的比较以判别是否唤醒；

所述的鉴别性训练具体包括：

2.根据权利要求1所述的方法，其特征是，所述的步骤3具体是指：在测试阶段根据关键词构建搜索网络，而后在搜索网络上结合声学模型进行搜索。

3.根据权利要求1所述的方法，其特征是，所述的声学模型为基于上下文无关音素的声学模型。

4.根据权利要求2所述的方法，其特征是，所述的搜索是指：在测试阶段结合已训练好的声学模型和已构建好的搜索网络，进行逐帧维特比解码，搜索得到发音特征序列对应的最优唤醒词序列，及其相应的识别概率，作为唤醒词置信度。

5.根据权利要求1所述的方法，其特征是，所述的自动估计阈值是指：基于对filler的识别概率，将其作为阈值；当唤醒词置信度大于阈值时，系统将输出唤醒词，否则不输出唤醒词，等待下次唤醒语音；所述的filler是由所有的音素并行构建而成的搜索空间，其识别概率是指在该搜索空间上基于已训练得到的声学模型和声学特征序列进行解码搜索得到的识别概率。

6.一种基于鉴别性训练的定制语音唤醒优化系统，其特征在于，包括：基于唤醒词的搜索网络、解码搜索模块、基于鉴别性训练的声学模型模块以及置信度判别模块，其中：搜索网络与解码搜索模块相连并传输针对定制唤醒词的语言学信息，声学模型模块与解码搜索模块相连并传输针对信号进行建模的声学信息分值，解码搜索模块经模型推测得到后验概率并输出至置信度判别模块，置信度判别模块采用自动估计阈值得到唤醒判定结果；

所述的鉴别性训练具体包括：

1)根据标注唤醒词建模，使用前后向算法，得到唤醒词的对数概率；

2)根据唤醒词竞争项建模，使用前后向算法，得到搜索网络对应的对数边缘概率；

3)逐帧将对数概率减去对数边缘概率，得到唤醒词在该帧的后验概率；

4)基于后验概率使用误差反向传播算法更新声学模型的参数，完成训练。

7.根据权利要求6所述的系统，其特征是，所述的声学模型模块具体包括：标注唤醒词建模单元、唤醒词竞争项建模单元和声学模型鉴别性训练单元，其中：唤醒词竞争项建模单元根据搜索空间生成基于神经网络的声学模型并输出至唤醒词竞争项建模单元，标注唤醒词建模单元根据带标注的声学数据和初始的声学模型，通过神经网络前向传播得到逐帧声学概率并输出至声学模型鉴别性训练单元，得到基于鉴别性训练的声学模型用于对信号进行建模的声学信息评分。

8.根据权利要求6所述的系统，其特征是，所述的唤醒词竞争项建模单元内含有基于音素级语言模型的搜索空间，唤醒词竞争项声学信息，通过传输逐帧各音素声学概率，用以得到唤醒词竞争项建模后验概率。