CN106297773B

CN106297773B - 一种神经网络声学模型训练方法

Info

Publication number: CN106297773B
Application number: CN201510290592.XA
Authority: CN
Inventors: 张晴晴; 陈梦喆; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2015-05-29
Filing date: 2015-05-29
Publication date: 2019-11-19
Anticipated expiration: 2035-05-29
Also published as: CN106297773A

Abstract

本发明涉及一种神经网络声学模型训练方法，所述方法具体包含：步骤101)搭建基础DNN网络架构，所述DNN网络架构包含：输入层，隐含层和输出层，其中输出层用于输出三音素状态集；步骤102)对输出的三音素状态集聚类，并将聚类后的三音素根据中心音素进行分类，分为中文音素、英文音素及非语音音素三类；步骤103)在输出层增加一组线索结点，该组线索结点分别对应步骤102)对三音素分类得到的三类结果；其中，加入的线索结点与最后一层隐含层全连接，得到最终网络架构；步骤104)针对得到的最终网络架构进行训练，当训练完成后将线索结点从网络中剥离，进而完成针对神经网络声学模型训练，再基于剥离后的网络进行语音识别。

Description

一种神经网络声学模型训练方法

技术领域

本发明涉及一种在中英文混合语音识别中，增加输出层线索结点来训练神经网络，以提升声学模型的方法。

背景技术

对语音识别技术的研究可以追溯到20世纪50年代，当时的核心技术是用混合高斯模型(Gaussian mixture model,GMM)对隐马尔可夫模型(Hidden Markov model,HMM)进行建模，即采用隐马尔可夫模型描述语音状态的时域跳转，而采用混合高斯模型模拟语音状态的特征分布。近二十年来，随着计算机技术的发展以及硬件系统的提升出现了深度神经网络(Deep Neural Network,DNN)，所述深度神经网络是一种模拟大脑神经突触联接的结构进而进行信息处理的数学模型，这种深度神经网络用以替代GMM应用到语音识别中。DNN具有远超GMM的非线性关系表达能力，这使得识别技术得以真正大范围地普及。许多研究机构的报告均显示了DNN-HMM相对GMM-HMM在各类语音识别任务上的性能优势。目前语音识别中常用的神经网络声学模型的结构包括输入层、输出层以及中间的若干隐含层。建模单元为经过聚类的三音素(triphone)状态，输出层每个结点的输出值表示每个状态的后验概率值。

中英文混合指在人们话语中出现中文和英文两个语种间的切换的情况，语种切换的位置可以在句与句之间，比如“好的。Thanks！”；也可以发生在句子中词与词之间，比如“你是VIP会员么？”。由于语种切换的位置和频率依赖于对话场景，话题领域以及说话人个人习惯等，使得任务难度增加。同时，该任务实际需求量大，这是因为中文和英文两个语种无论是在使用人数，还是使用区域广度上来说都位于各语种的前列。另外，英文作为中国最大的外来语种，它逐渐渗入人们的生活，比如OK，Bye-bye之类的用语会直接应用到日常口语中。

DNN的优势使得中英文混合识别中的声学模型也势必要用其来建模。但是无论是训练数据还是实际使用的环境，中文数据量都远多于英文数据量，这使得训练所得模型更偏向中文，识别结果表现为英文词大量错识为中文词。

发明内容

本发明的目的在于，为克服采用传统DNN导致的识别结果表现为英文词大量错识为中文词的缺陷，本发明提供一种神经网络声学模型训练方法。

为了实现上述目的，本发明提供一种神经网络声学模型训练方法，所述方法为：在神经网络输出层增加一组线索结点，基于增加线索节点后的网络对神经网络声学模型进行训练。

可选的，上述方法具体包含：

步骤101)搭建基础DNN网络架构，所述DNN网络架构包含：输入层，隐含层和输出层，其中输出层用于输出三音素状态集；

步骤102)对输出的三音素状态集聚类，并将聚类后的三音素根据中心音素进行分类，分为中文音素、英文音素及非语音音素三类；

步骤103)在输出层增加一组线索结点，该组线索结点分别对应步骤102)对三音素分类得到的三类结果；其中，加入的线索结点与最后一层隐含层全连接，得到最终网络架构；

步骤104)针对得到的最终网络架构进行训练，当训练完成后将线索结点从网络中剥离，进而完成针对神经网络声学模型训练，再基于剥离后的网络进行语音识别。

进一步可选的，上述步骤103)具体为：在输出层后串联三个结点作为线索结点，所述三个结点分别用来表示中文、英文或非语音状态，且加入的3个结点与最后一层隐含层的节点进行全连接。

可选的，步骤104)所述针对最终网络架构进行训练的步骤还包含误差回传的步骤具体包含：

1)对三音素状态集与线索结点分别作非线性计算；

2)在基线标注向量的基础上增加三维，其中增加的三维的确定策略为：通过本帧语音对齐得到的三音素状态来获取其在线索类中的归属，将表示该类的维度设为1，其余为0；

3)将步骤2)中所得向量与步骤1)中所得向量相减获得误差向量用于训练进行回传。

上述方法基于softmax函数将输出层前向传播得到的值作非线性计算。

上述所述线索结点的剥离操作即将线索结点与外界的所有连接断开。

与现有技术相比，本发明的优点在于：本发明是在神经网络输出层增加一组线索结点，由于DNN可以看成是一个分类器，结点的加入相当于对网络增加一组分类问题，该问题不同于但又相关于整个网络的分类问题。引入的信息量使得语种间的鉴别性增强，识别时语种错误的情况减少。并且，由于最终的网络结构与基础网络相同，不会影响识别效率。实验表明模型在中英文混合识别中有稳定的效果。

附图说明

图1现有的基线神经网络声学模型结构图；

图2本发明提供的增加线索结点的神经网络声学模型结构图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细介绍。

本发明的目的在于缓解中英文混合识别中，中英文数据量不平衡而导致声学模型训练偏向中文的问题，提出一种在神经网络输出层增加线索结点，来增强网络对于语种区别度的学习。除了中英文混合外，该建模方法可以用于各种其他语种混合的情况，其流程主要由以下四部分组成：

1、搭建基础网络架构：基于常用的训练方法得到基础的网络构架，如图1所示。其输入为包含上下文若干帧的语音特征，输出为决策树聚类得到的三音素状态。另外训练时需要强制对齐得到的标注，即每一帧语音对应为一个三音素状态。

2、对聚类后的三音素分类：将三音素根据中心音素进行分类，分为中文音素、英文音素及非语音音素三类，分类需覆盖所有三音素。

3、增加线索结点：在输出层增加一组线索结点，该组结点分别对应步骤2中得到的三类。加入的线索结点与最后一层隐含层全连接，得到最终网络架构，如图2所示。然后对新网络进行训练。

4、剥离线索结点：步骤3得到的网络训练完成后，将线索结点从网络中剥离，使网络最终架构同原始架构一样。用此网络进行语音识别。

本发明优点：引入线索结点，是对网络增加了中英文区分度的信息量，使得语种间的鉴别性增强，识别时语种错误的情况减少。同时，由于最终的网络结构与基础网络相同，不会影响识别效率。通过以上各步的操作得到的模型在中英文混合识别中有稳定的效果。

下面对本发明过程作进一步描述。

1、搭建基础网络架构：本发明实验的DNN模型输入包含当前帧的52维特征，加上上下文各5帧的扩展构成52*11＝572维矢量。其每帧特征使用传统的25ms帧长10ms帧移的方式提取，包含13维plp系数，同时也包含其一阶、二阶以及三阶差分系数。输出为各个经过聚类的三音素状态的后验值，输出维度为3765。故拓扑结构为572-2048-2048-3765。识别任务为涉及中英文两个语种的口语对话风格测试集，共6个：2个纯中文，2个纯英文以及2个中英文混合语音。训练数据为与识别任务风格相同的语料20小时，其中中文和英文数据比例为3:1。

2、对聚类后的三音素分类：将三音素状态根据中心音素分为中文、英文及非语音音素三类。原始音素共206个，其中中文音素为100个，英文97个以及非语音音素9个。非语音音素指模拟停顿、喘气等非语言音段的音素。三音素状态的形式如a-b+c，a和c为b的上下文，b为中心音素，分类即按照b的归属来确定该三音素状态的类别。

3、增加线索结点及训练：本发明在原始输出层后串联三个线索结点分别用来表示中文、英文或非语音状态，加入的结点与最后一层隐含层需进行全连接。新网络的训练与基线网络所用算法相同，不同点在误差回传部分，误差回传需要将输出层前向传播得到的值作非线性计算(语音识别中一般用softmax函数)，再与预备好的标注值向量相减得到误差向量用以回传。不同点在于：1)基线对于所有输出结点作非线性计算，而新网络需要对三音素状态集与线索结点分别作非线性计算；2)基线的标注为强制对齐的0-1分布向量，而新网络的标注需要在基线标注向量的基础上增加三维，这三维的确定是通过本帧语音对齐得到的三音素状态来获取其在线索类中的归属，将表示该类的维度设为1，其余为0。

4、剥离线索结点及识别：线索结点的剥离操作即将线索结点与外界的所有连接断开，得到的是与基线相同的网络结构。基线网络与新网络用于识别系统的方法完全相同。

测试结果用错误率来表示，其中中文为字错误率，英文为词错误率，结果如下：

由表中结果可以看出，新的方法有效地降低了识别错误率。在保证中文识别不受影响的情况下，明显地提升了训练数据量较少的英文上的性能。在中英文的测试集上，也体现出了本发明的效果，但是由于中英文测试集中中文相对英文比例大，因此提升不如在英文上明显。本发明在不影响解码速度的前提下，有效地提升中英文混合声学模型的性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种神经网络声学模型训练方法，所述方法为：在神经网络输出层增加一组线索结点，对增加线索节点后的神经网络进行训练；当训练完成后将线索结点从神经网络中剥离，得到剥离后的神经网络声学模型；

所述方法具体包含：

步骤104)针对得到的最终网络架构进行训练，当训练完成后将线索结点从网络中剥离，得到剥离后的神经网络声学模型。

2.根据权利要求1所述的神经网络声学模型训练方法，其特征在于，所述方法还包括：基于剥离后的神经网络声学模型进行语音识别。

3.根据权利要求1所述的神经网络声学模型训练方法，其特征在于，所述步骤103)具体为：在输出层后串联三个结点作为线索结点，所述三个结点分别用来表示中文、英文或非语音状态，且加入的3个结点与最后一层隐含层的节点进行全连接。

4.根据权利要求1所述的神经网络声学模型训练方法，其特征在于，针对得到的最终网络架构进行训练的步骤中还包含误差回传的步骤具体包含：

步骤1)对三音素状态集与线索结点分别作非线性计算；

步骤2)在基线标注向量的基础上增加三维，其中增加的三维的确定策略为：通过本帧语音对齐得到的三音素状态来获取其在线索类中的归属，将表示该类的维度设为1，其余为0；

步骤3)将步骤2)中所得向量与步骤1)中所得向量相减获得误差向量用于训练进行回传。

5.根据权利要求4所述的神经网络声学模型训练方法，其特征在于，所述非线性计算为采用softmax函数。

6.根据权利要求1所述的神经网络声学模型训练方法，其特征在于，所述线索结点的剥离操作即将线索结点与外界的所有连接断开。