CN107293288A

CN107293288A - 一种残差长短期记忆循环神经网络的声学模型建模方法

Info

Publication number: CN107293288A
Application number: CN201710432477.0A
Authority: CN
Inventors: 黄露; 杨毅; 孙甲松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-06-09
Filing date: 2017-06-09
Publication date: 2017-10-24
Anticipated expiration: 2037-06-09
Also published as: CN107293288B

Abstract

一种残差长短期记忆循环神经网络的声学模型建模方法，将标准的长短期记忆神经网络架构的输入和内部节点直连，在直连处将该节点处原来的向量和输入向量拼接，然后投影至原来的维度；本发明提出的方法，给出一个供于直连的内部节点位置，实验表明此位置能够带来识别的性能提升，并结合基于帧的Dropout技术进一步提升系统性能；这种方法提升了基于长短期记忆循环神经网络的语音识别系统的性能，并且结合基于帧的Dropout技术来防止过拟合问题，实现了提升模型泛化能力的目的，该方法可广泛应用于涉及语音识别的多种人机交互领域。

Description

一种残差长短期记忆循环神经网络的声学模型建模方法

技术领域

本发明属于音频技术领域，特别涉及一种残差长短期记忆循环神经网络的声学模型建模方法。

背景技术

随着人工智能和计算机技术的发展，尤其是图形处理器等计算硬件的发展，人工神经网络(Artificial Neural Network，ANN)被广泛应用于自动语音识别系统中。而语音识别的错误率也随着神经网络的引入和数据集的增加得到了明显降低，因而为学术界和产业界的研究热点。

声学模型在目前主流的语音识别系统中扮演着重要角色，其性能的提升对于提升语音识别的性能有着重要意义。在神经网络得到广泛应用之前，声学模型的基本架构是混合高斯模型-隐含马尔可夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)，该模型使得语音识别系统的性能得到了大幅度的提升，也使得语音识别转向商业使用阶段成为了可能。但是GMM-HMM有着很多不足，其中最重要的是GMM不能对深层的非线性变换进行有效建模，导致在语音识别应用中对发音的区分性不够。

自2010年以来，传统的GMM-HMM声学模型逐渐被基于深度神经网络(Deep NeuralNetwork，DNN)的声学模型取代，形成了DNN-HMM混合模型。目前在语音识别领域广泛用于声学建模的神经网络有：深度神经网络(Deep Neural Network，DNN)、时延神经网络(TimeDelay Neural Network，TDNN)、卷积神经网络(Convolutional Neural Network，CNN)以及RNN等。DNN-HMM声学模型的引入使得语音识别的性能得到了大幅度提升。2012年Mohamed等人在TIMIT语料库上通过使用深度置信网络(Deep Belief Network，DBN)，在核心测试集上实现了20.7％的音素错误率(Phone Error Rate，PER)，在此之前基于GMM-HMM取得的最低错误率是22.7％。而在大规模连续语音识别上，在标准的Switchboard电话录音数据集上使用DNN,可以将错误率相对于GMM-HMM模型降低33％。

但是，简单的前馈全连接网络存在两大问题：其一是前馈全连接网络很难对语音信号的历史信息进行建模；其二是在随机梯度下降(Stochastic Gradient Descent，SGD)训练的过程中可能会出现梯度消失(Vanishing Gradient)或梯度爆炸(ExplodingGradient)的问题。

针对第一个问题，研究者主要开展了两类尝试：其一是利用CNN来对语音信号的局部特性进行建模；其二是利用语音帧之间的依赖特性对历史信息建模。基于第二点，研究者提出了基于固定窗长的前馈神经网络训练方法，但是固定窗长的大小是有限的；因此有人提出将RNN用于声学建模，虽然RNN可以学习到历史信息，但是学习到的历史信息是有限的，尤其是其很难学习到很长的历史信息，这是由于RNN在训练过程中仍然存在梯度消失和梯度爆炸的问题。

随后，基于LSTM单元的RNN被引入声学建模，LSTM凭借其自身结构特性，利用输入门、输出门和忘记门等门开关控制信息的流动，既可以很好地缓解梯度消失问题，也可以学习到的更长的历史信息。

但在实际应用中，这类方法距离大规模商业化的要求还有一定的距离，原因在于声学环境的复杂性仍然严重影响语音识别系统的识别精度，特别是声学模型的抗噪性和鲁棒性仍存在一定的改进空间。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种残差长短期记忆循环神经网络的声学模型建模方法，在标准长短期记忆循环神经网络的基础上引入残差学习的思想，用于降低连续语音识别的错误率。

为了实现上述目的，本发明采用的技术方案是：

一种残差长短期记忆循环神经网络的声学模型建模方法，主要包括：

步骤1，构建残差长短期记忆循环神经网络模块

以语音信号当前帧及其前后各两帧的特征x_t作为输入，产生输出：

y_t＝W_rpm_t

其中，m_t＝o_t⊙(W_Resh_t)，h_t＝(tanh(c_t)，x_t)，o_t＝σ(W_xox_t+W_ror_t-1)，r_t＝y_t(1:n_r)，c_t＝i_t⊙g_t+f_t⊙c_t-1，f_t＝σ(W_xfx_t+W_rfr_t-1)，i_t＝σ(W_xix_t+W_rir_t-1)，g_t＝tanh(W_xgx_t+W_rgr_t-1)；

x_t是当前输入特征，y_t是当前输出，W_rp是投影矩阵，m_t为cell输出向量，W_Res是调整维度的投影矩阵，h_t是原向量和输入拼接后的向量，o_t是输出门，c_t是cell的状态值，tanh(·)是双曲正切函数，σ(·)是sigmoid函数，W_xo是输入到忘记门的权重矩阵，W_ro是循环到忘记门的权重矩阵，r_t-1是r_t的前一时刻值，r_t是用于循环的向量，r_t＝y_t(1:n_r)表示r_t是y_t的前n_r个元素，n_r是循环向量的维度，i_t是输入门，g_t是处理后的输入，f_t是忘记门，c_t-1是cell前一时刻的状态值，W_xf为输入到忘记门的权重矩阵，W_rf是循环到忘记门的权重矩阵，W_xi为输入到输入门的权重矩阵，W_ri是循环到输入门的权重矩阵，W_xg为输入到处理后输入的权重矩阵，W_rg是循环到处理后输入的权重矩阵，而且i_t、f_t、o_t、g_t、c_t和m_t维度相同；

步骤2，构建含有Dropout的残差长短期记忆循环神经网络模块

采用基于帧的Dropout技术，即对于网络中的某各节点的输出z_t，随机生成一个由0或1，称为Dropout的掩膜d，其中生成0的概率p为Dropout的丢弃概率，则d服从成功概率为1-p的Bernoulli分布：

d～Bernoulli(1-p)

随后将d和z_t作数乘即可得到Dropout后的向量，即将z_t的元素全部舍弃或者全部保留，

z′_t＝d·z_t

其中z′_t是使用Dropout后的向量；

基于步骤1的残差长短期记忆循环神经网络，在三个门i_t、f_t和o_t处同时使用Dropout，先生成三个Dropout掩膜：

d_x～Bernoulli(1-p) x＝i，f，o

其中d_i、d_f和d_o分别是应用在输入门、忘记门和输出门上的掩膜；然后应用到三个控制门上，即

输出的公式变为：y_t＝W_rpm_t

其中，m_t＝o_t⊙(W_Res1h_t)，h_t＝(tanh(c_t)，x_t)，o_t＝d_o·σ(W_xox_t+W_ror_t-1)，r_t＝y_t(1:n_r)，c_t＝i_t⊙g_t+f_t⊙c_t-1，f_t＝d_f·σ(W_xfx_t+W_rfr_t-1)，i_t＝d_i·σ(W_xix_t+W_rir_t-1)，g_t＝tanh(W_xgx_t+W_rgr_t-1)。

所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块，所述残差长短期记忆循环神经网络子模块由记忆细胞、输入门、输出门、忘记门、乘法器、时延器等组成，长短期记忆神经网络子模块的输出作为线性循环投影层的输入，线性循环投影层的输出作为线下一个长短期记忆神经网络子模块的输入，如此循环多次，最后再接一层使用SoftMax激活函数的全连接层，其输出为整个模块的输出。

所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块，在神经网络的训练过程中，所述残差长短期记忆循环神经网络子模块的输入门、输出门和忘记门均采用了基于帧的Dropout正则化技术。

本发明的主要原理是：将原有的长短期记忆神经网络架构的输入和内部节点直连，在直连处将该节点处原来的向量和输入向量拼接，然后投影至原来的维度。本发明提出了一个供于直连的内部节点位置，该位置能带来识别的性能提升，并且结合基于帧的Dropout训练技术能够进一步提升系统性能。

虽然长短期记忆循环神经网络可以很好地缓解梯度消失问题，但是这很大程度上是由于其在时间上很“深”，即学习很长的历史信息，而其在空间上增加网络深度后仍然会面临空间上梯度消失的问题。本发明提供了一种残差长短期记忆循环神经网络声学模型，能够比较有效地进一步提高长短期记忆循环神经网络声学模型的识别效果。在一些连续语音识别的数据集上采用这种方法，可以获得比长短期记忆循环神经网络方法更好的性能。

与现有技术相比，本发明的有益效果是：进一步提升了基于长短期记忆循环神经网络的语音识别系统性能，并且结合基于帧的Dropout技术可以防止过拟合问题，实现提升模型泛化能力的目的。

附图说明

图1是本发明的残差长短期记忆循环神经网络声学模型建模流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明提出一种残差长短期记忆循环神经网络声学模型的方法和装置，特别地，用于连续语音识别的场景下。这些方法和装置不局限于连续语音识别，也可以是任何与语音识别有关的方法和装置。

图1为本发明的残差长短期记忆循环神经网络声学模型流程图，包括以下内容：

如图1所示的输入101为语音信号特征x_t；其他为残差长短期记忆循环神经网络子模块102，该子模块由记忆细胞103、输入门104、输出门105、遗忘门106、乘法器107组成；长短期记忆神经网络子模块102的输出作为线性循环投影层108的输入，线性循环投影层108的输出作为下一个长短期记忆神经网络子模块的输入，如此循环多次，最后再接一层使用SoftMax激活函数的全连接层，其输出为整个模块的输出109。

输入101包括语音信号特征x_t，t＝1,2,…,T，其中T是语音信号的帧数。

长短期记忆神经网络子模块102指的是：记忆细胞103、输入门104、输出门105、遗忘门106、乘法器107的集合；

在t∈[1,T]时刻长短期记忆神经网络子模块102中的参数按照如下公式计算：

g_t＝tanh(W_xgx_t+W_rgr_t-1) (公式1-1)

i_t＝σ(W_xix_t+W_rir_t-1) (公式1-2)

f_t＝σ(W_xfx_t+W_rfr_t-1) (公式1-3)

c_t＝i_t⊙g_t+f_t⊙c_t-1 (公式1-4)

o_t＝σ(W_xox_t+W_ror_t-1) (公式1-5)

h_t＝(tanh(c_t),x_t) (公式1-6)

m_t＝o_t⊙(W_Resh_t) (公式1-7)

y_t＝W_rpm_t (公式1-8)

r_t＝y_t(1:n_r) (公式1-9)

x_t是当前输入特征，y_t是当前输出，W_rp是投影矩阵，m_t为cell输出向量，W_Res是调整维度的投影矩阵，h_t是原向量和输入拼接后的向量，o_t是输出门，c_t是cell的状态值，tanh(·)是双曲正切函数，σ(·)是sigmod函数，W_xo是输入到忘记门的权重矩阵，W_ro是循环到忘记门的权重矩阵，r_t-1是r_t的前一时刻值，r_t是用于循环的向量，r_t＝y_t(1:n_r)表示r_t是y_t的前n_r个元素，n_r是循环向量的维度，i_t是输入门，g_t是处理后的输入，f_t是忘记门，c_t-1是cell前一时刻的状态值，W_xf为输入到忘记门的权重矩阵，W_rf是循环到忘记门的权重矩阵，W_xi为输入到输入门的权重矩阵，W_ri是循环到输入门的权重矩阵，W_xg为输入到处理后输入的权重矩阵，W_rg是循环到处理后输入的权重矩阵，而且i_t、f_t、o_t、g_t、c_t和m_t维度相同。此外，由于(公式1-1)、(公式1-2)、(公式1-3)和(公式1-5)具有相同的内部运算，因此可以用一个大矩阵实现这四个内部运算，实现GPU加速。

在分类任务中，通常还会在最后一层LSTM后接一层使用Softmax的全连接层。

Claims

1.一种残差长短期记忆循环神经网络的声学模型建模方法，其特征在于，主要包括：

步骤1，构建残差长短期记忆循环神经网络模块

y_t＝W_rpm_t

其中，m_t＝o_t⊙(W_Resh_t)，h_t＝(tanh(c_t),x_t)，o_t＝σ(W_xox_t+W_ror_t-1)，r_t＝y_t(1:n_r)，c_t＝i_t⊙g_t+f_t⊙c_t-1，f_t＝σ(W_xfx_t+W_rfr_t-1)，i_t＝σ(W_xix_t+W_rir_t-1)，g_t＝tanh(W_xgx_t+W_rgr_t-1)；

步骤2，构建含有Dropout的残差长短期记忆循环神经网络模块

d～Bernoulli(1-p)

z′_t＝d·z_t

其中z′_t是使用Dropout后的向量；

d_x～Bernoulli(1-p) x＝i,f,o

输出的公式变为：y_t＝W_rpm_t

其中，m_t＝o_t⊙(W_Res1h_t)，h_t＝(tanh(c_t),x_t)，o_t＝d_o·σ(W_xox_t+W_ror_t-1)，r_t＝y_t(1:n_r)，c_t＝i_t⊙g_t+f_t⊙c_t-1，f_t＝d_f·σ(W_xfx_t+W_rfr_t-1)，i_t＝d_i·σ(W_xix_t+W_rir_t-1)，g_t＝tanh(W_xgx_t+W_rgr_t-1)。

2.根据权利要求1所述残差长短期记忆循环神经网络的声学模型建模方法，其特征在于，所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块，所述残差长短期记忆循环神经网络子模块由记忆细胞、输入门、输出门、忘记门、乘法器、时延器等组成，长短期记忆神经网络子模块的输出作为线性循环投影层的输入，线性循环投影层的输出作为线下一个长短期记忆神经网络子模块的输入，如此循环多次，最后再接一层使用SoftMax激活函数的全连接层，其输出为整个模块的输出。

3.根据权利要求1所述残差长短期记忆循环神经网络的声学模型建模方法，其特征在于，所述残差长短期记忆循环神经网络模块包含有若干残差长短期记忆循环神经网络子模块，在神经网络的训练过程中，所述残差长短期记忆循环神经网络子模块的输入门、输出门和忘记门均采用了基于帧的Dropout正则化技术。