CN108630199A

CN108630199A - 一种声学模型的数据处理方法

Info

Publication number: CN108630199A
Application number: CN201810702540.2A
Authority: CN
Inventors: 屈丹; 龙星延; 张文林; 张连海; 陈琦; 闫红刚; 杨绪魁; 牛铜; 李�真
Original assignee: PLA Information Engineering University
Current assignee: PLA Information Engineering University
Priority date: 2018-06-30
Filing date: 2018-06-30
Publication date: 2018-10-09

Abstract

本发明提供一种声学模型的数据处理方法。该声学模型包括编码网络、注意力网络和解码网络，数据处理方法包括：步骤1、编码网络对语音特征序列(x₁,x₂,...,x_T)进行编码得到高层特征序列(h₁,h₂,...,h_T)，x_T表示待识别语音经过语音特征提取预处理后在T时刻的语音特征，h_T表示所述语音特征x_T在T时刻的高层特征；步骤2、注意力网络根据高层特征序列(h₁,h₂,...,h_T)计算目标向量，目标向量用于对所述高层特征序列(h₁,h₂,...,h_T)进行压缩；步骤3、解码网络根据高层特征序列(h₁,h₂,...,h_T)和目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y₁,y₂,...,y_O)，y_O表示待识别语音经解码网络输出后在位置o上所有音素的后验概率。本发明能够减少参数训练规模，提升训练速度以及提升音素和语音特征对齐的准确度。

Description

一种声学模型的数据处理方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种声学模型的数据处理方法。

背景技术

现有的声学模型存在参数规模大、训练耗时极为严峻的问题；此外，现有的声学模型还存在语音特征序列中因存在相同音素而导致的音素和语音特征对齐不准确的问题。为了解决上述问题，亟需一种方法来构建一个新的声学模型能够迅速而准确地对语音进行识别。

发明内容

为解决现有技术中存在的问题，本发明提供一种声学模型的数据处理方法，该处理方法能够减少参数训练规模，提升训练速度以及提升音素和语音特征对齐的准确度，进而提升语音识别的准确性。

本发明提供一种声学模型的数据处理方法，该声学模型包括：编码网络、注意力网络和解码网络，该数据处理方法包括：

步骤1、所述编码网络对语音特征序列(x₁,x₂,...,x_T)进行编码得到高层特征序列(h₁,h₂,...,h_T)，x_T表示待识别语音经过语音特征提取预处理后在T时刻的语音特征，h_T表示所述语音特征x_T在T时刻的高层特征；

步骤2、所述注意力网络根据高层特征序列(h₁,h₂,...,h_T)计算目标向量，所述目标向量用于对所述高层特征序列(h₁,h₂,...,h_T)进行压缩；

步骤3、所述解码网络根据所述高层特征序列(h₁,h₂,...,h_T)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y₁,y₂,...,y_O)，y_O表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率。

其中，所述编码网络包括前向网络和后向网络，所述前向网络和所述后向网络均由基于最少门单元MGU结构的多层循环神经网络组成。

进一步地，所述解码网络由基于MGU的循环神经网络和maxout网络串联组成。

进一步地，所述步骤1具体包括：

步骤11、所述前向网络根据下式

计算时刻t下第c层前向循环神经网络的隐含层状态

步骤12、所述后向网络根据下式

计算时刻t下第c层后向循环神经网络的隐含层状态

步骤13、根据所述第c层前向循环神经网络的隐含层状态和所述第c层后向循环神经网络的隐含层状态得到所述编码网络在时刻t高层特征h_t，其中t∈[1,T]。

进一步地，所述步骤2具体包括：

步骤21、所述注意力网络根据前一位置注意力系数α_o-1，t确定注意力网络的窗函数w_o,t；

步骤22、根据所述窗函数和所述前一位置注意力系数α_o-1，t确定前一位置元素yo-₁与时刻t高层特征h_t之间的关联度e_o,t；

步骤23、所述注意力网络根据所述关联度e_o,t和所述高层特征序列(h₁,h₂,...,h_T)确定目标向量。

进一步地，所述步骤3具体包括：

步骤31、所述解码网络根据所述目标向量按照下式

s_o＝MGU(s_o-1,ct_o) (19)

计算解码网络的隐含层状态s_o，其中ct_o表示目标向量；

步骤32、所述解码网络根据所述解码网络的隐含层状态s_o按照下式

计算位置o上音素i的后验概率h_i ^maxout，其中k为maxout网络每个隐含层单元的候选单元数，W_:,i,j∈R^d×m×k和b_i,j∈R^m×k分别为maxout网络的参数矩阵和偏置向量，d为maxout网络的隐含层单元数，m为maxout网络的输出层单元数；

步骤33、所述maxout网络根据下式

y_o＝[h₁ ^maxout,h₂ ^maxout,...,h_m ^maxout] (22)

确定所述y_O。

本发明的有益效果：

本发明提供的声学模型的数据处理方法，通过将最少门单元MGU结构替换原有单元(例如门循环单元GRU)结构的循环神经网络单元，从而减少参数规模，提升训练速度；其次，通过加入窗函数限定注意力网络需要计算的语音特征范围并且引入注意力系数，从而提升音素和语音特征对齐的准确度，提升声学模型的识别性能，最终提升语音识别的准确性。

附图说明

图1为本发明实施例提供的声学模型的结构示意图；

图2为本发明实施例提供的声学模型的数据处理方法的流程示意图；

图3为本发明又一实施例提供的声学模型的结构示意图；

图4为本发明实施例提供的采用本发明声学模型后改进系统的音素与特征对齐的效果示意图；

图5为现有技术中基线系统的音素与特征对齐的效果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的声学模型的结构示意图，如图1所示，该声学模型包括编码网络、注意力网络和解码网络；其中，所述编码网络包括前向网络和后向网络，所述前向网络和所述后向网络均由基于最少门单元MGU结构的多层循环神经网络组成。

图2为本发明实施例提供的声学模型的数据处理方法的流程示意图。如图2所示，该声学模型的数据处理方法包括以下步骤：

S201、所述编码网络对语音特征序列(x₁,x₂,...,x_T)进行编码得到高层特征序列(h₁,h₂,...,h_T)，x_T表示待识别语音经过语音特征提取预处理后在T时刻的语音特征，h_T表示所述语音特征x_T在T时刻的高层特征；

具体地，编码网络采用基于MGU单元的多层循环神经网络的学习能力挖掘训练语音特征序列(x₁,x₂,...,x_T)的内在联系，提取待识别语音的高层特征，得到高层特征序列(h₁,h₂,...,h_T)，增强语音特征的表达力和区分性。

S202、所述注意力网络根据高层特征序列(h₁,h₂,...,h_T)计算目标向量，所述目标向量用于对所述高层特征序列(h₁,h₂,...,h_T)进行压缩；

具体地，注意力网络基于注意力机制，所谓注意力机制是在序列到序列的模型中，从特征序列中提取有效特征的技术。注意力网络通过模拟人类视觉机制，将注意力分配在语音特征序列(h₁,h₂,...,h_T)的部分相关区域，忽略无关语音特征。由于语音特征序列(h₁,h₂,...,h_T)是一个变长特征序列，在序列到序列模型中，注意力网络需要先将语音特征序列(h₁,h₂,...,h_T)映射成一个目标向量，该目标向量将语音特征序列(h₁,h₂,...,h_T)中的重要信息进行压缩，从而实现变长特征序列到固定长度矢量的变换。

S203、所述解码网络根据所述高层特征序列(h₁,h₂,...,h_T)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y₁,y₂,...,y_O)，y_O表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率。

具体地，解码网络将编码网络计算得到的高层特征序列(h₁,h₂,...,h_T)和注意力网络计算得到的目标向量作为输入，计算输出序列(y₁,y₂,...,y_O)。

本发明实施例提供的声学模型的数据处理方法，通过将编码网络中的原有单元(例如门循环单元GRU)结构替换为最少门单元MGU结构的循环神经网络单元，从而减少参数规模，提升训练速度；其次，通过增加注意力网络限定需要计算的语音特征范围，从而提升音素和语音特征对齐的准确度，提升声学模型的识别性能，最终提升语音识别的准确性。

在上述实施例的基础上，该方法中的解码网络由基于MGU的循环神经网络和maxout网络串联组成。

具体地，解码网络将注意力网络计算得到的目标向量作为基于MGU的循环神经网络的输入，所述基于MGU的循环神经网络的输出作为maxout网络的输入，通过maxout网络计算高层特征序列(h₁,h₂,...,h_T)每个位置上所有音素的后验概率，从而得到概率序列(y₁,y₂,...,y_O)。

在上述实施例的基础上，该方法中步骤201具体包括以下子步骤：

步骤2011、所述前向网络根据下式

计算时刻t下第c层前向循环神经网络的隐含层状态

步骤2012、所述后向网络根据下式

计算时刻t下第c层后向循环神经网络的隐含层状态

步骤2013、根据所述第c层前向循环神经网络的隐含层状态和所述第c层后向循环神经网络的隐含层状态得到所述编码网络在时刻t高层特征h_t，其中t∈[1,T]。

具体地，编码网络的输入为语音特征序列(x₁,x₂,...,x_T)，输出为高层特征序列(h₁,h₂,...,h_T)。

在时刻t，第c层的前向循环神经网络和后向循环神经网络的隐含层状态分别为和前向网络和后向网络的信息传递方向相反，对应的传递函数分别为：

前向网络和后向网络采用各自的传递函数并行进行层与层之间的特征传递。

对前向网络而言，按照上述的传递函数，由输入的语音特征序列(x₁,x₂,...,x_T)可得到第1层隐含层状态同理，由c-1层隐含层状态可计算出c层隐含层状态前向网络计算隐含层状态的过程如下所示：

对后向网络而言，按照上述的传递函数，由输入的语音特征序列(x₁,x₂,...,x_T)可得到第1层隐含层状态同理，由c-1层隐含层状态可计算出c层隐含层状态后向网络计算隐含层状态的过程如下所示：

拼接前向网络和后向网络的第c层的隐含层状态，得到编码网络在t时刻的高层特征h_t，如下式所示：

在现有的GRU结构中，给定语音特征序列(x₁,x₂,...,x_T)，GRU以下式作为传递函数得到高层特征序列(h₁,h₂,...,h_T)

其中，r_t为重置门，z_t为遗忘门，W_r,W_z,W_h和b_r,b_z,b_h分别为权重矩阵和偏置向量，σ和tanh为激活函数。该传递函数简记为下式：

h_t＝GRU(x_t,h_t-1) (7)

而本发明实施例中的编码网络采用MGU结构，MGU结构在GRU结构的基础上，让重置门r_t和遗忘门z_t共享一套参数，其传递函数如下式所示：

参数共享后，需要训练的权重矩阵从W_r,W_z,W_h减少至W_h、Wz，使得参数规模减少1/3。MGU结构的传递函数简记为下式：

h_t＝MGU(h_t-1,x_t) (9)

在本发明实施例的编码网络中，将原有模型的GRU单元替换成MGU单元，减少参数规模和训练时间。该编码网络由两组基于MGU单元的多层循环神经网络组成，分别为前向网络和后向网络。双向网络的结构能够同时传递过去和未来的信息，提升了高层特征的信息量。

在上述实施例的基础上，该方法中的步骤202具体包括以下子步骤：

步骤2021、所述注意力网络根据前一位置注意力系数α_o-1，t确定注意力网络的窗函数w_o,t；

具体地，注意力网络通过设计一个窗函数对高层特征序列进行范围限定，所述窗函数包括窗口中心和窗口宽度两个属性值。其中，位置o处音素的窗口中心以参数m_o表示，窗口宽度以参数2w表示。

首先，确定窗口中心m_o。本发明实施例中，已知前一位置元素注意力系数α_o-1，t，将提取窗口中心m_o当成随机抽样过程，所有高层特征的时刻为样本，将前一位置注意力系数α_o-1，t作为时刻t频率，确定中心m_o有两种方式：

1)将平均数作为窗口中心,如下式所示：

2)将中位数作为窗口中心，如下式所示：

其次，确定窗口宽度。一般情况下，注意力窗口的宽度w设置为100。待识别语音信号被提取语音特征时帧移通常设置为10ms，因此选择100作为窗口宽度能够利用1s内的高层特征信息，而通常一个音素的发音周期只有0.2～0.5s，所以限定范围后的注意力区域能覆盖1～2个音素的特征，满足对特征提取的要求。

最后，若窗口中心为m_o，窗口宽度为2w，则当前时刻t下窗口范围是(m_o-w,...,m_o+w),窗函数如下式所示：

步骤2022、根据所述窗函数和所述前一位置注意力系数α_o-1，t确定前一位置元素y_o-1与时刻t高层特征h_t之间的关联度e_o,t；

具体地，在实际操作中，首先注意力网络将前一位置注意力系数向量α_o-1，t通过一维卷积神经网络，提升声学模型的区分性和鲁棒性。该卷积神经网络只有一层卷积层，卷积核大小为1×(2w+1)，与窗函数的窗口宽度相同，滤波器数为j，卷积方式可采用samepadding，卷积过程可以由下式描述：

其中，为窗函数内注意力系数组成的2w+1维向量，L为j×(2w+1)矩阵，L可经训练得到，卷积后的矩阵l_o规模为j×(2w+1)。

其次，注意力网络根据下式：

e_o,t＝ω^Ttanh(W[s_o-1,h_t,l_o,t]+b) (15)

计算前一位置元素y_o-1与时刻t高层特征h_t之间的关联度e_o,t，其中，W和b为注意力网络的输入层到隐含层权重矩阵和偏置向量，ω为注意力网络的隐含层到输出层的权重矩阵，l_o,t为矩阵l_o中时刻t对应的列向量，s_o-1为注意力网络前一位置的隐含层状态。

步骤2023、所述注意力网络根据所述关联度e_o,t和所述高层特征序列(h₁,h₂,...,h_T)确定目标向量。

具体地，注意力网络对当前位置所有时刻的关联度进行指数归一化。归一化后的数值称为注意力系数α_o,t，如下式所示：

其次，将注意力系数α_o,t作为权重，对所有时刻的特征加权求和，得到注意力机制下位置o的目标向量ct_o，如下式所示：

本发明实施例中注意力网络计算目标向量的过程，可以简记为下式：

ct_o＝attention([h₁,h₂,...,h_T],y_o-1) (18)

由上述实施例可以看出，考虑到实际语音信号中单个音素持续时间较短，通过注意力网络限定计算关联度时语音特征的范围，使得注意力分布更加集中；进一步地，考虑到位置相邻的音素的注意力分布相似，在注意力网络的输入特征中加入前一位置音素的注意力系数，获取注意力分布的位置信息，使得关联度计算更加准确。

在上述实施例的基础上，该方法中的步骤203具体包括以下子步骤：

步骤2031、所述解码网络根据所述目标向量按照下式

s_o＝MGU(s_o-1,ct_o) (19)

计算解码网络的隐含层状态s_o，其中ct_o表示目标向量；

步骤2032、所述解码网络根据所述解码网络的隐含层状态s_o按照下式

计算位置o上音素i的后验概率h_i ^maxout，其中k为maxout网络每个隐含层的候选单元数，W_:,i,j∈R^d×m×k和b_i,j∈R^m×k分别为maxout网络的参数矩阵和偏置向量，d为maxout网络的隐含层单元数，m为maxout网络的输出层单元数；

步骤2033、所述maxout网络根据下式

y_o＝[h₁ ^maxout,h₂ ^maxout,...,h_m ^maxout] (22)

确定所述y_O。

具体地，首先，解码网络将注意力网络计算得到的目标向量ct_o，作为基于MGU单元的循环神经网络的输入，按照下式：

s_o＝MGU(s_o-1,ct_o) (19)

计算解码网络的隐含层状态s_o。

然后，解码网络以隐含层状态s_o∈R^d作为输入，通过maxout网络计算得到音素i的后验概率h_i ^maxout。maxout网络的每个隐含层单元有多个候选单元，maxout网络从中选择数值最大的单元作为输出。maxout网络计算过程如下式所示：

其中,d为maxout网络的隐含层状态s_o的维度，对应隐含层单元数目，W_:,i,j∈R^d×m×k和b_i,j∈R^m×k分别为maxout网络的参数矩阵和偏置向量，k为maxout网络每个隐含层单元的候选单元数，m为输出层单元数目，在声学模型中对应输出的音素种类数目。

最后，如下式所示：

y_o＝[h₁ ^maxout,h₂ ^maxout,...,h_m ^maxout] (22)

由maxout网络的输出层得到输出向量y_O。

图3为本发明又一实施例提供的声学模型的结构示意图。下面对该声学模型的构建过程进行具体描述，如图3所示，本发明构建该模型的方法包括以下步骤：

步骤1：输入语音特征序列(x₁,x₂,...,x_T)；

步骤2：在时刻t，第c层的前向循环神经网络和后向循环神经网络的隐含层状态分别为和对应的传递函数分别为：

步骤3：由c-1层隐含层状态计算c层前向循环神经网络的隐含层状态和后向循环神经网络的隐含层状态

步骤4：拼接前向网络和后向网络的第c层隐含状态，得到编码网络在时刻t的高层特征h_t：

步骤5：通过注意力网络计算得到目标向量ct_o，作为基于MGU单元循环神经网络的输入，计算隐含层状态s_o：s_o＝MGU(s_o-1,ct_o)；

步骤6：通过maxout网络计算得到音素i的后验概率h_i ^maxout：

步骤7：由maxout网络的输出层得到输出向量y_O：y_o＝[h₁ ^maxout,h₂ ^maxout,...,h_m ^maxout]。

通过以上步骤，即可完成采用最少门单元结构的改进注意力声学模型。在TIMIT语料库测试证明，本发明提供的声学模型使用最少门单元网络，降低了数规模和训练时间，同时性能损失很少。在vystadial_cz捷克语语料库证明，声学模型中的注意力机制提高了音素和特征对齐的准确度，语音识别正确率也得到提升，并且优于传统方法和基于链接时序分类算法的端到端方法。

特征提取采用kaldi开源工具包，端到端模型基线系统采用Theano开源深度学习库搭建。

特征提取：语音信号采样频率是16kHZ，采样位16bit，使用Hamming窗处理，帧长25ms，帧移10ms，预加重系数0.97。语音特征序列采用40维fbank特征和能量，再拼接对应一阶和二阶差分，共计123维参数。

模型初始化：循环神经网络权重矩阵初始设定为标准正交矩阵，偏置向量初始设为0，内部状态值采用均值为0方差为0.1的独立高斯分布初始化。

模型参数：编码网络的隐含层状态维度设为200。注意力网络的卷积神经网络通道数设为10。英语声学模型解码网络输出向量设为63维，分别对应61个音素、空白符和序列终止符的后验概率；捷克语声学模型解码网络输出向量设为44维，分别对应41个捷克语字母，空白符、噪声符号和序列终止符的概率。maxout网络的候选隐含层数目设为64。

实验结果如表1，表2，表3，表4及图4，图5所示。

表1 TIMIT语料库不同模型的性能

表2限定注意力范围后TIMIT和vystadial_cz语料库下的音素错误率和词错误率

表3 TIMIT和vystadial_cz语料库下引入注意力系数特征后系统音素错误率

表4 vystadial_cz语料库下各个系统的词错误率

系统	开发集	测试集
			GMM-HMM	79.11	65.87
GMM-HMM MMI	76.08	67.38
			GMM-HMM bMMI	75.54	66.94
GMM-HMM MPE	73.97	63.08
			DNN-HMM sMBR	69.56	57.74
RNN-CTC	77.72	69.05
			注意力基线系统	60.67	60.33
注意力改进模型	55.41	54.53
			注意力改进模型(MGU)	55.97	55.83

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声学模型的数据处理方法，其特征在于，所述声学模型包括：编码网络、注意力网络和解码网络，所述数据处理方法包括：

步骤3、所述解码网络根据所述高层特征序列(h₁,h₂,...,h_T)和所述目标向量计算待识别语音每个位置上所有音素的后验概率以得到概率序列(y₁,y₂,...,y_O)，y_O表示待识别语音经所述解码网络输出后在位置o上所有音素的后验概率；

2.根据权利要求1所述的方法，其特征在于，所述解码网络由基于MGU的循环神经网络和maxout网络串联组成。

3.根据权利要求1所述的方法，其特征在于，所述步骤1具体包括：

步骤11、所述前向网络根据式(1)

计算时刻t下第c层前向循环神经网络的隐含层状态

步骤12、所述后向网络根据式(2)

计算时刻t下第c层后向循环神经网络的隐含层状态

4.根据权利要求1所述的方法，其特征在于，所述步骤2具体包括：

5.根据权利要求2所述的方法，其特征在于，所述步骤3具体包括：

步骤31、所述解码网络根据所述目标向量按照式(19)

s_o＝MGU(s_o-1,ct_o) (19)

计算解码网络的隐含层状态s_o，其中ct_o表示目标向量；

步骤32、所述解码网络根据所述解码网络的隐含层状态s_o按照式(20)和式(21)

步骤33、所述maxout网络根据式(22)

y_o＝[h₁ ^maxout,h₂ ^maxout,...,h_m ^maxout] (22)

确定所述y_O。