CN107301864B

CN107301864B - 一种基于Maxout神经元的深度双向LSTM声学模型

Info

Publication number: CN107301864B
Application number: CN201710702440.5A
Authority: CN
Inventors: 罗元; 刘宇; 张毅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2017-08-16
Filing date: 2017-08-16
Publication date: 2020-12-22
Anticipated expiration: 2037-08-16
Also published as: CN107301864A

Abstract

本发明请求保护一种基于深度双向长短时记忆(DBLSTM)递归神经网络(RNN)的声学模型，DBLSTM网络主要分为三部分：在DBLSTM的全连接部分，使用Maxout神经元代替原来的Sigmoid神经元来解决RNN中常出现的梯度消失和爆炸的问题；同时使用Dropout正则化训练算法避免了神经网络在训练过程中出现过拟合。在多层BLSTM部分，为适应DBLSTM对每个时间步长的双向依赖性，提出了上下文敏感块的随时间反向传播(CSC‑BPTT)算法来训练该网络。在多层BLSTM部分之后采用一层选择连接层，用于对DBLSTM的输出进行变换得到全连接部分的输入。本发明可得到更高的语音识别率。

Description

一种基于Maxout神经元的深度双向LSTM声学模型

技术领域

本发明属于人工智能语音识别领域，主要涉及深度神经网络在语音声学模型中的应用。

背景技术

深度神经网络(Deep neural network,DNN)的研究与应用极大的推动了自动语音识别(Automatic speech recognition,ASR)技术的发展。在大词汇量连续语音识别(Largevocabulary continuous speech recognition,LVCSR)系统中，相比于传统的高斯混合模型-隐马尔科夫模型(Gaussian mixture models-hidden markov models,GMM-HMM)声学模型，基于DNN的声学模型表现出更好的优势。Seide F等人将基于DNN-HMM声学模型用于Switchboard电话转录任务，其字错误率(Word error rate,WER)相对下降了33％。DNN-HMM声学模型的研究和扩展给ASR技术带来了前所未有的发展。

以前的研究主要集中在用于处理固定长度输入窗的上下文声学特征的前馈神经网络上。然而实际的语音信号具有动态特性，DNN不能很好地表征语音帧之间的长时依赖特性。所以，像循环神经网络(Recurrent neural network,RNN)这样的更强大的序列信号模型再次引起了研究者的关注。最近，RNN在提高语音识别率上的性能优越性已得到证明，RNN的隐含层中具有循环结构，可捕获到更长的时间动态特性。但是标准的RNN仍然受限于梯度消失和爆炸问题，因此提出长短时记忆(Long short-term memory,LSTM)RNN模型，该模型中的输入信号、循环信号和输出信号都由门信号控制，在一定程度上克服了这些问题。Graves A等人建立了基于LSTM RNN的语音识别系统，在TIMIT音素识别任务中取得了很好的成果。Sak H等人将混合深度LSTM-HMM语音识别系统通过帧级交叉熵(Cross entropy,CE)训练和序列级鉴别训练获得更好的识别结果。此后，研究了许多LSTM网络的变体，并针对多种ASR任务进行了有效的实验验证。Jaitly N等人提出深度双向长短时记忆-隐马尔科夫模型(Deep bidirectional long short term memory-hidden markov models,DBLSTM-HMM)声学模型，并在TIMIT和WSJ语料库中验证了其识别性能。Chen K等人提出在LVCSR中使用上下文敏感块-随时间反向传播(Context-sensitive-chunk Back-propagationthrough time,CSC-BPTT)算法来训练DBLSTM声学模型。DBLSTM能够在模型内部存储某一帧的前后语音信息，训练被分类帧两侧的上下文声学特征。

在神经网络训练阶段，LSTM可以通过标准RNN的基于梯度的算法进行训练，如实时循环学习(Real-time recurrent learning,RTRL)、随时间反向传播(Back-propagationthrough time,BPTT)以及其多种变体。但是，由于DBLSTM在每个时间步长上的双向依赖性，上述的训练算法不能直接应用于DBLSTM训练。因为在LVCSR中，DBLSTM不适合于低延迟识别，可能会导致整个语音识别的延迟。Chen K等人提出一种CSC-HMM训练算法，它将每个序列分解为多个具有上下文敏感的组块，并行处理这些组块，这样只是在一小段语音中延迟，而不是整个语句。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种解决RNN训练过程中梯度消失和爆炸问题，以及应用CSC-HMM训练算法满足DBLSTM在每个时间步长上的双向依赖性的特点，实现更好是语音识别性能的基于Maxout神经元的深度双向LSTM声学模型。本发明的技术方案如下：

一种基于Maxout神经元的深度双向LSTM声学模型，其该模型包括：多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型，其中，所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型，所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换，所述全连接层用于对加权变换后的值进行非线性变换，最终得到隐马尔可夫模型所需的后验概率，所述隐马尔可夫模型用于得到语音识别概率；将语音特征输入多层DBLSTM网络进行非线性变换，得到具有上下文语音帧信息的特征矢量，多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练；多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入；全连接层对输入数据进行变换，全连接层部分采用Maxout单元代替原来的Sigmoid单元，并且利用Dropout正则化训练算法对其进行参数训练，再通过Softmax输出层得到声学模型中HMM模型所需的后验概率；前端DBLSTM神经网络得到后验概率后，在经过HMM模型最终输出得到声学模型得分。

进一步的，所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息，然后前馈到同一个输出层，DBLSTM网络中含有两个LSTM层，一层从前到后迭代计算前向隐含层向量

另一层从后向前迭代计算后向隐含层向量

然后，更新输出序列y＝(y₁,y₂,...,y_t,...,y_T)，该网络的迭代过程如下：

b_y表示输出层的偏置向量，y_t表示输出值，H表示输出层的激活函数，

表示LSTM中的权值矩阵，

表示前向隐含层的偏置向量，

表示后向隐含层的偏置向量。

进一步的，所述DBLSTM递归神经网络(深度双向长短时记忆递归神经网络)计算方法为：

首先，对于标准的RNN，给定一个输入序列x＝(x₁,x₂,...,x_T)，通过t＝1到T迭代计算出RNN隐含层的状态向量h＝(h₁,h₂,...,h_T)和输出向量y＝(y₁,y₂,...,y_T)，即

h_t＝H(W_xhx_t+W_hhh_t-1+b_h)

y_t＝W_hyh_t+b_y

其中，W代表各层间的权值矩阵；b_h和b_y分别为隐含层和输出层的偏置向量；H为输出层的激活函数，W_xh表示输如层和隐含层之间的权值矩阵，W_hh表示隐含层与隐含层之间的权值矩阵，W_hy表示隐含层和输入层之间的权值矩阵。

LSTM单元中，激活函数H通过下列公式实现：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_t tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

h_t＝o_t tanh(c_t)

其中，σ为标准sigmoid函数；i、f、o和c分别为输入门、遗忘门、输出门和内存单元；b_i、b_f、b_o和b_c分别为输入门、遗忘门、输出门和内存单元的偏置向量；W为各单元与门矢量之间的权值矩阵，如W_xi为网络输入和输入门之间的权重矩阵。

进一步的，所述选择连接层的计算方法为：

y_t表示输出值

该层是将DBLSTM最后一层BLSTM隐含层输出的两个矢量数据按照上述公式进行加权求和，最终得到一个矢量作为全连接层的输入信号。

进一步的，所述全连接层中Maxout神经元的计算方法为：

在Maxout神经网络中，每个Maxout神经元由几个可选择的激活单元组成，Maxout神经元的输出是选择其的激活单元单元组中最大值：

其中，

是第l层中第i个神经元输出，k是Maxout神经元激活单元组中激活单元的个数，

是第l层中第i个神经元的第j个激活单元，是由前一层向前传播获得：

其中，

和b_l分别是前一层神经元到激活单元z_l的权重矩阵和偏置向量，在SGD训练过程中，Maxout神经元的梯度计算为：

公式表明，当取最大值时Maxout神经元的梯度为1，否则为0，这样在训练期间产生恒定的梯度，从而解决了梯度消失的问题。

进一步的，所述全连接层中Dropout正则化训练算法计算方法为：

Dropout正则化在训练阶段和测试阶段分别采用不同的正则化方法：

1)SGD训练阶段：将二值掩膜m_l应用于原始激活单元，从而获得Maxout神经元输出值：

其中，θ代表神经元进行的非线性变换，是向量的乘积，二值掩膜m_l服从伯努利分布(1-r)，r称为Dropout率；

2)测试阶段：不需要省略激活神经元，但神经元激活值要按照1-r进行缩小用于补偿Dropout训练。

进一步的，所述的DBLSTM网络的训练算法CSC-BPTT算法的计算过程为：

Chunk BPTT算法是将给定的每个序列分成多个特定长度N_c的可能重叠Chunk块，这些Chunk共同组成一个较大的块batch，对于长度小于N_c的Chunk，添加空帧，在训练时每个Chunk被当作独立的序列并行输入进行训练，从而更新网络参数；

CSC-BPTT算法是在Chunk BPTT算法的基础上进行改进的，上下文敏感块在固定数据帧N_c的Chunk左侧添加帧数为N_l的数据作为上文信息，在Chunk右侧添加帧数为N_r的数据作为下文信息，将CSC记为“N_l-N_c+N_r”，整个序列被分为多个上下文敏感块，其中，第一个Chunk的N_l＝0，最后一个Chunk的N_r＝0；

在训练过程中，附加的上下文帧与Chunk帧结合作为输入，生成Chunk帧的输出，由于上下文帧本身并不产生输出，所以这些帧在训练期间不会产生错误信号，但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值，从而更新网络参数。

本发明的优点及有益效果如下：

本发明模型包括：多个BLSTM层形成的DBLSTM网络、选择连接层、全连接层和隐马尔可夫(HMM)模型。DBLSTM在时域和空间域内都具有深层结构。它可以通过与线性循环连接的门信号来处理时域中的梯度消失的问题，但其并不能很好的解决空间域中梯度消失的问题。Maxout神经元可以通过产生恒定梯度来解决此问题，因此考虑用Maxout神经网络来增加DBLSTM的深度。除了用Maxout网络加深网络深度，还将Dropout正则化算法引入Maxout网络中用于避免SGD训练过程中的过拟合现象。考虑到Dropout正则化会损坏BLSTM所学习的长时记忆信息，所以只在全连接层的Maxout网络中使用。由于DBLSTM网络在每个时间步长上的双向依赖性，不能直接使用一般的基于梯度的训练算法。目前适合DBLSTM网络的训练算法只有Epoch-wise BPTT和Chunk BPTT，但它们在训练时丢失了上下文的依赖信息，导致训练的模型性能降低。Chen K等人提出用CSC-BPTT算法训练DBLSTM声学模型的方法已经在大词汇量连续语音识别系统中得到很好的验证。在训练过程中，附加的上下文帧与Chunk帧结合作为输入，生成Chunk帧的输出。由于上下文帧本身并不产生输出，所以这些帧在训练期间不会产生错误信号，但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值，从而更新网络参数。

通过Kaldi语音工具箱在Switchboard语料库中进行评估实验。将该发明的DBLSTM-HMM声学模型与原来的DNN-HMM、RNN-HMM和LSTM-HMM声学模型一起进行语音识别实验，在相同的语料库中，证明了本发明的声学模型的有效性。

该模型为解决LSTM训练过程中常出现的梯度消失和爆炸问题，将DBLSTM神经网络与Maxout神经元和Dropout正则化算法相结合提出一种改进的DBLSTM-HMM声学模型结构，并且为适应DBLSTM对每个时间步长的双向依赖性，提出采用CSC-BPTT算法训练模型中多层BLSTM网络。该模型在一定程度上减少了DBLSTM模型的训练时间，并提高了语音识别率。

附图说明

图1是本发明优选实施例的单个LSTM单元结构图。

图2DBLSTM网络结构图；

图3Maxout神经网络结构图；

图4基于Maxout神经元的DBLSTM网络结构图；

图5上下文敏感块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明如图1所示为单个LSTM单元结构图，其与标准RNN不同。对于标准的RNN，给定一个输入序列x＝(x₁,x₂,...,x_T)，可以通过t＝1到T迭代计算出RNN隐含层的状态向量h＝(h₁,h₂,...,h_T)和输出向量y＝(y₁,y₂,...,y_T)，即

h_t＝H(W_xhx_t+W_hhh_t-1+b_h)

y_t＝W_hyh_t+b_y

其中，W代表各层间的权值矩阵；b_h和b_y分别为隐含层和输出层的偏置向量；H为输出层的激活函数。

一般的RNN通常会出现梯度消失的问题，所以其对长时序列特征建模的效果并不好。LSTM通过构建内存单元对序列信息进行建模，可以解决此类问题。在LSTM单元中，激活函数H通过下列公式实现：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

c_t＝f_tc_t-1+i_t tanh(W_xcx_t+W_hch_t-1+b_c)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

h_t＝o_t tanh(c_t)

如图2所示为DBLSTM网络结构图。DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息，然后前馈到同一个输出层。DBLSTM网络中含有两个LSTM层，一层从前到后迭代计算前向隐含层向量

另一层从后向前迭代计算后向隐含层向量

然后，更新输出序列y。该网络的迭代过程如下：

如图3所示为Maxout神经网络结构图。在深度神经网络的应用中，Sigmoid神经元具有平滑性和梯度计算简单等特点，因此广泛应用于多种神经网络中。但其仍然存在一个缺点：在随机梯度下降(Stochastic gradient descent,SGD)训练算法中，Sigmoid神经元可能会导致训练过程中梯度消失。这是因为当输入值较大(不在零附近)时，Sigmoid函数的梯度值通常趋向于非常小，甚至消失。当网络较深时，这个问题尤为严重，使得这个过程对超参数调整特别敏感。Maxout神经元通过在SGD训练期间产生恒定的梯度来有效地处理梯度消失的问题。Maxout网络收敛速度快，泛化能力强，比整流线性单元(Rectified linrarunits,ReLU)网络和Sigmoid网络更容易优化。

在Maxout神经网络中，每个Maxout神经元又由几个可选择的激活单元组成，Maxout神经元的输出是选择其单元组中最大值：

其中，

是第l层中第i个神经元输出。k是Maxout神经元激活单元组中激活单元的个数。

其中，

和b_l分别是前一层神经元到激活单元z_l的权重矩阵和偏置向量。

在SGD训练过程中，Maxout神经元的梯度计算为：

当取最大值时Maxout神经元的梯度为1，否则为0。这样在训练期间产生恒定的梯度，从而解决了梯度消失的问题。

Maxout神经元虽然很好的解决了DNN训练时梯度消失的问题，但有时也会出现过拟合现象。相关研究表明[25]，Dropout正则化是避免过拟合的一种有效的方法，且其也有利于神经网络模型平均。文献[26]，首次将Dropout正则化方法应用到LVCSR任务中，并取得很好的效果。

SGD训练阶段：将二值掩膜m_l应用与原始激活单元，从而获得Maxout神经元输出值：

其中，θ代表神经元进行的非线性变换，如Sigmoid和Maxout函数，是向量的乘积，二值掩膜m_l服从伯努利分布(1-r)，r称为Dropout率。低Dropout率能保留更多的有用信息，而较高的Dropout率可实现更高的正则化，因此选择一个合适的Dropout率尤为重要。

测试阶段：不需要省略激活神经元，但神经元激活值要按照1-r进行缩小用于补偿Dropout训练。

如图4所示为基于Maxout神经元的DBLSTM网络结构图。DBLSTM在时域和空间域内都具有深层结构。它可以通过与线性循环连接的门信号来处理时域中的梯度消失的问题，但其并不能很好的解决空间域中梯度消失的问题。Maxout神经元可以通过产生恒定梯度来解决此问题，因此考虑用Maxout神经网络来增加DBLSTM的深度。结合上述研究，提出一种DBLSTM与Maxout神经网络组合的深度混合声学模型。在图4中BLSTM作为底层可以对语音信号的长时依赖信息建模。选择连接层将多层BLSTM网络输出的数据按照公式(10)变换后再输入后面隐含层网络。具有Maxout神经元的全连接层利用Dropout正则化算法进行训练，可以得到更好的DBLSTM模型平均。最后加入softmax层作为整个神经网络的输出。

除了用Maxout网络加深网络深度，还将Dropout正则化算法引入Maxout网络中用于避免SGD训练过程中的过拟合现象。考虑到Dropout正则化会损坏BLSTM所学习的长时记忆信息，所以只在全连接层的Maxout网络中使用。

如图5所示为CSC-BPTT训练算法中的上下文敏感块示意图。CSC-BPTT算法是在Chunk BPTT算法的基础上进行改进的。在固定数据帧N_c的Chunk左侧添加帧数为N_l的数据作为上文信息，在Chunk右侧添加帧数为N_r的数据作为下文信息。为了方便，将CSC记为“N_l-N_c+N_r”。整个序列被分为多个上下文敏感块，其中，第一个Chunk的N_l＝0，最后一个Chunk的N_r＝0。在训练过程中，附加的上下文帧与Chunk帧结合作为输入，生成Chunk帧的输出。由于上下文帧本身并不产生输出，所以这些帧在训练期间不会产生错误信号，但Chunk帧的错误信号仍会流经上下文帧用以获得相应的梯度值，从而更新网络参数。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于Maxout神经元的深度双向LSTM声学模型，其特征在于，该模型包括：多个双向长短时记忆网络BLSTM层形成的多层DBLSTM深度双向长短时记忆网络、选择连接层、全连接层和隐马尔可夫模型，其中，所述多层DBLSTM深度双向长短时记忆网络用于语音识别的声学模型，所述选择连接层用于对多个双向长短时记忆网络BLSTM层的输出进行加权变换，所述全连接层用于对加权变换后的值进行非线性变换，最终得到隐马尔可夫模型所需的后验概率，所述隐马尔可夫模型用于得到语音识别概率；将语音特征输入多层DBLSTM网络进行非线性变换，得到具有上下文语音帧信息的特征矢量，多层DBLSTM网络采用CSC-BPTT上下文敏感块的随时间反向传播训练算法进行网络参数训练；多层BLSTM网络输出的数据采用选择连接层对其进行加权变换后再作为全连接层的输入；全连接层对输入数据进行变换，全连接层部分采用Maxout单元代替原来的Sigmoid单元，并且利用Dropout正则化训练算法对其进行参数训练，再通过Softmax输出层得到声学模型中HMM模型所需的后验概率；前端DBLSTM神经网络得到后验概率后，在经过HMM模型最终输出得到声学模型得分；

所述DBLSTM网络通过两个单独的隐含层同时处理两个方向的信息，然后前馈到同一个输出层，DBLSTM网络中含有两个LSTM层，一层从前到后迭代计算前向隐含层向量