CN110648654A

CN110648654A - 一种引入语言向量的语音识别增强方法和装置

Info

Publication number: CN110648654A
Application number: CN201910954478.0A
Authority: CN
Inventors: 武亚光; 黄秀彬; 杨维; 张莉; 牛逸明; 朱克; 申蕾; 曾玲丽; 刘娟; 李承桓; 郝景昌; 吴传真
Original assignee: State Grid Co Ltd Customer Service Center
Current assignee: State Grid Co Ltd Customer Service Center
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-03

Abstract

本发明公开了一种语音识别方法和装置，特别公开了一种引入语言向量的语音识别增强方法和装置。该一种引入语言向量的语音识别增强方法和装置，本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成；本装置需要预先对训练数据分帧进行发音类别标记，通过神经网络进行分类训练，获取的隐层向量作为语言向量，然后将获取的语言向量加入语音识别系统训练模块中，获取语音识别引擎，通过不同的语言向量来识别不同语言的语音。其益效果是：提高了母语发音和非母语发音的混合语音识别系统识别率，提高语音识别训练效率，降低了参数量，减速了模型训练，并同时提高了语音识别的效率。

Description

一种引入语言向量的语音识别增强方法和装置

技术领域

本发明公开了一种语音识别方法和装置，特别公开了一种引入语言向量的语音识别增强方法和装置。

背景技术

现有技术中，随着科技的进步，传统的单语音识别系统已经不能满足日益多元化的世界，于是多语言或跨语言语音识别系统越来越受到重视。然而，多语言或跨语言语音识别系统相比于单语音识别系统，存在着声学模型不够精确和有效的弊端，模型的训练更加耗费时间和资源，且存在对含有混杂语音的新场景的鲁棒性较差等问题。

另外，单语音识别系统是针对特定的一种语言，该语言是否为发音者的母语也直接影响系统的识别效果，于是混合了母语发音和非母语发音的语音识别系统也可以看做多语言或跨语言语音识别系统需要解决的问题之一。

随着现在国际化的趋势日益明显，现在对于语音识别引擎的要求越来越高，尤其是单语言多种发音的语音识别系统，在具体单语言多种发音的应用中，如英语语音识别系统，其包含了英式英语、中式英语、日式英语、印度式英语等，虽然是同为英语语音识别系统，但是包含的任务比较多，难以满足识别多种人种英语的发音需求。

发明内容

本发明的目的在于提供一种引入语言向量的语音识别增强方法和装置，本发明采用的技术方案是：

本发明一种引入语言向量的语音识别增强方法和装置，本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成；本装置需要预先对训练数据分帧进行发音类别标记，通过神经网络进行分类训练，获取的隐层向量作为语言向量，然后将获取的语言向量加入语音识别系统训练模块中，获取语音识别引擎，通过不同的语言向量来识别不同语言的语音；

具体工作模块与工作流程如下：

语音分帧模块，本模块主要将整段的语音进行切分一帧帧语音，现成一个序列，用s表示s＝{s1,s2,….,sN}，其中s表示一段语音，s1表示一帧语音，N为总帧数；

类别标记模块，本模块主要将语音分帧模块的切分的语音帧进行标记，现成待标记的语音片段，用l表示，l_s表示对语音端s进行标记，l_s＝{l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记，L_s_n的值为语言的类别，如语言类别为英式英语和中式英语，则l_s_n的值为其中一个；

语言向量训练模块，本模块主要是利用神经网络模型进行语言向量进行训练；

其具体流程如下：

输入向量：语音特征选择的是Fbank特征以及它们的一二阶差分，共40维，考虑到上下文关系，输入加入了当前帧前后各5帧近邻帧，总共11帧440维；

网络结构：本方案中采用的DNN是2层隐层，其中前一层有1200个结点，激活函数为f(x)＝x，只做线性映射；后一层20个结点，激活函数为sigmoid函数，最后一层为类别的个数ClassNum；

训练：由于在类别标记模块中对语音帧进行了标注，即可按照分类模型的训练方法进行训练；

基于以上流程，即可获取语言向量生成引擎。

语言向量获取模块，在语言向量训练模块中已经训练得到了语言向量生成模型，本模块即时从此模型中获取语言向量；

具体流程如下：

输入向量：语音特征选择的是Fbank特征以及它们的一二阶差分，共40维，输入加入了当前帧前后各5帧近邻帧，总共11帧440维；

获取语言向量，获取网络模型倒数第二层的隐层，作为语言向量；

语音识别系统训练模块，在获取了语言向量后，即可进行语音识别引擎训练，

具体流程如下：

输入向量：输入向量分为语音特征向量和语言向量，语音特征向量为40维的Fbank特征，考虑到上下文相关，使用11帧的对称窗口，并做LDA降维至200维，语言向量即为104模块中获取的向量；

网络结构：4层隐含层，每层1200个结点，输出层对应GMM的个数，为7552个结点；

模型训练：交叉熵作为训练的评判标准，训练中采用随机梯度下降法；

语音识别模块，在语音识别系统训练模块中训练获得声学模型，本模块将声学模型和语音结合后，即可获取语音识别引擎，即可进行语音识别，语音识别过程为通用流程。

本发明具有的有益效果是：提高了母语发音和非母语发音的混合语音识别系统识别率，通过增加语言向量，可以提高混合语言的鲁棒性，从而提供在整体应用上的识别率；提高语音识别训练效率，加入语言向量，相当于把多语种的语音识别模型作为一个整体训练，降低了参数量，减速了模型训练，并同时提高了语音识别的效率。

附图说明

图1为本发明的流程示意图；

图2为本发明的语音识别引擎训练网络结构图；

图中，101语音分帧模块，102类别标记模块，103语言向量训练模块，104语言向量获取模块，105语音识别系统训练模块，106语音识别模块。

具体实施方式

下面将结合附图和实施例对本发明作进一步的说明。

本发明的一种引入语言向量的语音识别增强方法和装置，本装置主要由语音分帧模块101、类别标记模块102、语言向量训练模块103、语言向量获取模块104、语音识别系统训练模块105和语音识别模块106构成；本装置需要预先对训练数据分帧进行发音类别标记，通过神经网络进行分类训练，获取的隐层向量作为语言向量，然后将获取的语言向量加入语音识别系统训练模块中，获取语音识别引擎，通过不同的语言向量来识别不同语言的语音；

具体工作模块与工作流程如下：

语音分帧模块101，本模块主要将整段的语音进行切分一帧帧语音，现成一个序列，用s表示s＝{s1,s2,….,sN}，其中s表示一段语音，s1表示一帧语音，N为总帧数；

类别标记模块102，本模块主要将语音分帧模块101的切分的语音帧进行标记，现成待标记的语音片段，用l表示，l_s表示对语音端s进行标记，l_s＝{l_s_1,l_s_2,…,l_s_N},其中l_s_1表示对语音帧s1进行标记，L_s_n的值为语言的类别，如语言类别为英式英语和中式英语，则l_s_n的值为其中一个；

语言向量训练模块103，本模块主要是利用神经网络模型进行语言向量进行训练；

其具体流程如下：

基于以上流程，即可获取语言向量生成引擎。

语言向量获取模块104，在语言向量训练模块中已经训练得到了语言向量生成模型，本模块即时从此模型中获取语言向量；

具体流程如下：

语音识别系统训练模块105，在获取了语言向量后，即可进行语音识别引擎训练，

具体流程如下：

语音识别模块106，在语音识别系统训练模块105中训练获得声学模型，本模块将声学模型和语音结合后，即可获取语音识别引擎，即可进行语音识别，语音识别过程为通用流程。

本发明不局限于上述实施方式，任何人应得知在本发明的启示下做出的与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种引入语言向量的语音识别增强方法和装置，其特征在于：本装置主要由语音分帧模块、类别标记模块、语言向量训练模块、语言向量获取模块、语音识别系统训练模块和语音识别模块构成；本装置需要预先对训练数据分帧进行发音类别标记，通过神经网络进行分类训练，获取的隐层向量作为语言向量，然后将获取的语言向量加入语音识别系统训练模块中，获取语音识别引擎，通过不同的语言向量来识别不同语言的语音；

具体工作模块与工作流程如下：

其具体流程如下：

基于以上流程，即可获取语言向量生成引擎。

具体流程如下：