CN104538028A

CN104538028A - 一种基于深度长短期记忆循环神经网络的连续语音识别方法

Info

Publication number: CN104538028A
Application number: CN201410821646.6A
Authority: CN
Inventors: 杨毅; 孙甲松
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-04-22
Anticipated expiration: 2034-12-25
Also published as: CN104538028B; WO2016101688A1

Abstract

一种鲁棒深度长短期记忆循环神经网络声学模型的构建方法，将带噪语音信号和原始纯净语音信号作为训练样本，构建两个结构完全相同的深度长短期记忆循环神经网络模块，在这两个模块的每一层深度长短期记忆层之间通过交叉熵计算获得两者差异，并用线性循环投影层对交叉熵参数进行更新，最终得到对环境噪声鲁棒的深度长短期记忆循环神经网络声学模型；本发明提出的方法，通过构建深度长短期记忆循环神经网络声学模型，提高了对带噪连续语音信号的语音识别率，避免了深度神经网络参数规模大导致大部分计算工作需要在GPU设备上完成的问题，具有计算复杂度低、收敛速度快等特点，可广泛应用于涉及语音识别的说话人识别、关键词识别、人机交互等多种机器学习领域。

Description

一种基于深度长短期记忆循环神经网络的连续语音识别方法

技术领域

本发明属于音频技术领域，特别涉及一种基于深度长短期记忆循环神经网络的连续语音识别方法。

背景技术

随着信息技术的迅速发展，语音识别技术已经具备大规模商业化的条件。目前语音识别主要采用基于统计模型的连续语音识别技术，其主要目标是通过给定的语音序列寻找其所代表的概率最大的词序列。连续语音识别系统通常包括声学模型、语言模型及解码方法，声学建模方法作为连续语音识别的核心技术，近年来获得快速发展。常用的声学模型为混合高斯模型-隐马尔科夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)，其原理为：训练混合高斯模型得到每帧特征属于每个音素状态的概率，训练隐马尔科夫模型得到音素状态之间及自身的转移概率，据此得到每个音素状态序列产生当前语音特征矢量序列的概率。考虑到协同发音(Coarticulation)现象，进一步将音素根据不同的上下文(Context Dependent)分为不同的建模单元，称为CD-GMM-HMM方法。

微软在2011年提出用深度神经网络(Deep Neural Network,DNN)取代传统声学模型中的混合高斯模型，构成了新的CD-DNN-HMM模型，将DNN模型的表达能力与CD-HMM模型的顺序建模能力结合，其核心是对声学特征进行多层变换，并将特征提取和声学建模在同一网络进行优化。与传统的GMM-HMM模型框架相比，DNN-HMM模型在英文连续语音识别库上的错误率降低了30％左右。但是DNN的每一层都有百万量级的参数，且下一层的输入是上一次的输出，因此一般计算代价较大，且在说话速度不同以及需要对长时序列进行处理时效果不佳。

循环神经网络(Recurrent Neural Network,RNN)是一种单元之间存在有向循环来表达网络内部动态时间特性的神经网络，在手写体识别和语言模型等方面得到广泛应用。语音信号是复杂的时变信号，在不同时间尺度上具有复杂的相关性，因此相比于深度神经网络而言，循环神经网络具有的循环连接功能更适合处理这类复杂时序数据。作为循环神经网络的一种，长短期记忆(Long Short-Term Memory,LSTM)模型比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列。多伦多大学提出的增加了记忆模块(memory block)的深度LSTM-RNN声学模型则将深度神经网络的多层次表征能力与循环神经网络灵活利用长跨度上下文的能力结合，使得基于TIMIT库的音素识别错误率降至17.1％。

但是循环神经网络中使用的梯度下降法存在梯度消散(vanishinggradient)问题，也就是在对网络的权重进行调整的过程中，随着网络层数增加，梯度逐层消散，致使其对权重调整的作用越来越小。谷歌提出的两层深度LSTM-RNN声学模型,在以前的深度LSTM-RNN模型中增加了线性循环投影层(Recurrent Projection Layer)，用于解决梯度消散问题。对比实验表明，RNN的帧正确率(Frame Accuracy)及其收敛速度明显逊于LSTM-RNN和DNN；在词错误率及其收敛速度方面，最好的DNN在训练数周后的词错误率为11.3％；而两层深度LSTM-RNN模型在训练48小时后词错误率降低至10.9％，训练100/200小时后，词错误率降低至10.7/10.5(％)。

但实际声学环境的复杂性仍然严重影响和干扰连续语音识别系统的性能，即使利用目前最好的深度神经网络方法，在包括噪声、音乐、口语、重复等复杂条件下的连续语音识别数据集上也只能获得70％左右的识别率，连续语音识别系统中声学模型的抗噪性和鲁棒性有待改进。此外深度神经网络方法参数规模大，大部分计算工作需要在GPU设备上完成，普通CPU难以胜任，因此这类方法距离大规模商业化的要求还有一定的距离。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于深度长短期记忆循环神经网络的连续语音识别方法，提高了对带噪连续语音信号的语音识别率，并且具有计算复杂度低、收敛速度快等特点，适合在普通CPU上实现。

为了实现上述目的，本发明采用的技术方案是：

一种基于深度长短期记忆循环神经网络的连续语音识别方法，包括：

步骤一，建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深度长短期记忆循环神经网络模块；

步骤二，分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块；

步骤三，对两个模块中对应的长短期记忆层的所有参数计算交叉熵来衡量两个模块之间的信息分布差异，并通过线性循环投影层二实现交叉熵参数更新；

步骤四，通过比较最终的更新结果与以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的最终输出，实现连续语音识别。

所述深度长短期记忆循环神经网络模块中，语音信号x＝[x₁,...,x_T]作为整个模块的输入，同时也作为第一个长短期记忆层的输入，第一个长短期记忆层的输出作为第一个线性循环投影层的输入，第一个线性循环投影层的输出作为下一个线性循环投影层的输入，下一个线性循环投影层的输出再作为下下一个线性循环投影层的输入，依次类推，其中，以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块中，最后一个线性循环投影层的输出作为整个深度长短期记忆循环神经网络模块的输出y＝[y₁,...,y_T]，T为语音信号的时间长度，而以带噪信号为输入的深度长短期记忆循环神经网络模块中，最后一个线性循环投影层的输出舍弃。

所述长短期记忆层由记忆细胞、输入门、输出门、遗忘门、tanh函数以及乘法器组成，其中长短期记忆层即长短期记忆神经网络子模块，在t∈[1,T]时刻长短期记忆神经网络子模块中的参数按照如下公式计算：

G_input＝sigmoid(W_ix x+W_ic Cell'+b_i)

G_forget＝sigmoid(W_fx x+W_fc Cell'+b_f)

Cell＝m'+G_forget⊙Cell'+G_input⊙tanh(W_cx x)⊙m'+b_c

G_output＝sigmoid(W_ox x+W_oc Cell'+b_o)

m＝tanh(G_output⊙Cell⊙m')

y＝soft max_k(W_ym m+b_y)

其中G_input为输入门的输出，G_forget为遗忘门的输出，Cell为记忆细胞的输出，Cell'为t-1时刻记忆细胞的输出，G_output为输出门的输出，G'_output为t-1时刻输出门的输出，m为线性循环投影层的输出,m'为t-1时刻线性循环投影层的输出；x为整个长短期记忆循环神经网络模块的输入，y为一个长短期记忆循环神经网络子模块的输出；b_i为输入门i的偏差量，b_f为遗忘门f的偏差量，b_c为记忆细胞c的偏差量，b_o为输出门o的偏差量，b_y为输出y的偏差量，不同的b代表不同的偏差量；W_ix为输入门i与输入x之间的权重，W_ic为输入门i与记忆细胞c之间的权重，W_fx为遗忘门f与输入x之间的权重，W_fc为遗忘门f与记忆细胞c之间的权重，W_oc为输出门o与记忆细胞c之间的权重，W_ym为输出y与输出m之间的权重，且有其中x_k表示第k∈[1,K]个softmax函数的输入，l∈[1,K]用于对全部求和；⊙代表矩阵元素相乘。

所述两个深度长短期记忆循环神经网络模块中，分别取一个位于同一级的长短期记忆神经网络子模块的输出作为一个更新子模块的两个输入，一个更新子模块由交叉熵和线性循环投影层二组成，多个更新子模块串联组成更新模块，一个更新子模块的输出作为下一个更新子模块的输入，最后一个子模块的输出为整个更新模块的输出。

所述更新子模块中的交叉熵按照如下公式计算：

d(x₁,x₂)＝∫x₁ ln x₂dt-∫x₂ lnx₁dt

其中d为交叉熵，x₁和x₂分别代表本更新子模块的两个输入，即以原始纯净语音信号和带噪信号为输入的长短期记忆神经网络模块中的长短期记忆神经网络子模块的输出；

线性循环投影层二的输出按照如下公式计算：

y'＝soft max_k(W_y' d+b_y')

其中y'为整个更新模块的输出矢量，W_y代表参数更新输出到线性循环投影层输出的权重，d代表交叉熵，b_y'代表偏差量。

现有的深度神经网络声学模型在安静的环境下具有很好的性能，但在环境噪声较大使得信噪比急剧下降的情况下失效。与深度神经网络声学模型相比，本发明循环神经网络声学模型中的单元之间存在有向循环，可以有效的描述神经网络内部的动态时间特性，更适合处理具有复杂时序的语音数据。而长短期记忆神经网络比循环神经网络更适合处理和预测事件滞后且时间不定的长时序列，因此用于构建语音识别的声学模型能够取得更好的效果。进一步，在深度长短期记忆循环神经网络声学模型结构中需要降低噪声特征对神经网络参数的影响，提高语音识别系统在环境噪声干扰下的抗噪性及鲁棒性。

附图说明

图1是本发明的深度长短期记忆神经网络模型流程图。

图2是本发明的深度长短期记忆循环神经网络更新模块流程图。

图3是本发明的鲁棒深度长短期记忆神经网络声学模型流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明提出一种鲁棒深度长短期记忆神经网络声学模型的方法和装置，特别地，用于连续语音识别的场景下。这些方法和装置不局限于连续语音识别，也可以是任何与语音识别有关的方法和装置。

步骤1，建立两个结构完全相同的包括多个长短期记忆层和线性循环投影层的深度长短期记忆循环神经网络模块，分别将原始纯净语音信号和带噪信号作为输入送至步骤一的两个模块。

图1为本发明深度长短期记忆循环神经网络模块的流程图，包括以下内容：

输入101为语音信号x＝[x₁,...,x_T](T为语音信号的时间长度)；方框内为长短期记忆层102，也即长短期记忆神经网络子模块，该子模块由记忆细胞103、输入门104、输出门105、遗忘门106、tanh函数107、乘法器组成；长短期记忆神经网络子模块的输出作为线性循环投影层108的输入，线性循环投影层108的输出为y＝[y₁,...,y_T]，即长短期记忆循环神经网络子模块的输出109，109作为下一个长短期记忆神经网络子模块的输入，如此循环多次。

在t∈[1,T]时刻长短期记忆神经网络子模块中的参数按照如下公式计算：

G_input＝sigmoid(W_ix x+W_ic Cell'+b_i)

G_forget＝sigmoid(W_fx x+W_fc Cell'+b_f)

Cell＝m'+G_forget⊙Cell'+G_input⊙tanh(W_cx x)⊙m'+b_c

G_output＝sigmoid(W_ox x+W_oc Cell'+b_o)

m＝tanh(G_output⊙Cell⊙m')

y＝soft max_k(W_ym m+b_y)

其中G_input为输入门的输出，G_forget为遗忘门的输出，Cell为记忆细胞的输出，Cell'为t-1时刻记忆细胞的输出，G_output为输出门的输出，G'_output为t-1时刻输出门的输出，m为线性循环投影层的输出,m'为t-1时刻线性循环投影层的输出；x为整个长短期记忆循环神经网络模块的输入，y为一个长短期记忆循环神经网络子模块的输出；b_i为输入门i的偏差量，b_f为遗忘门f的偏差量，b_c为记忆细胞c的偏差量，b_o为输出门o的偏差量，b_y为输出y的偏差量，不同的b代表不同的偏差量；W_ix为输入门i与输入x之间的权重，W_ic为输入门i与记忆细胞c之间的权重，W_fx为遗忘门f与输入x之间的权重，W_fc为遗忘门f与记忆细胞c之间的权重，W_oc为输出门o与记忆细胞c之间的权重，W_ym为输出y与输出m之间的权重，且有

sigmoid (x) = \frac{1}{1 + e^{- x}}, \tanh (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}, soft \max_{k} (x) = \frac{e^{x_{k}}}{Σ_{l = 1}^{K} e^{x_{l}}},

其中x_k表示第k∈[1,K]个softmax函数的输入，l∈[1,K]用于对全部求和；⊙代表矩阵元素相乘。

步骤2，对两个模块中对应的长短期记忆层的所有参数计算交叉熵来衡量两个模块之间的信息分布差异，并通过线性循环投影层二实现交叉熵参数更新。

图2为本发明的深度长短期记忆循环神经网络更新模块流程图，包括以下内容：将原始纯净语音信号和带噪信号(即受到环境噪声干扰后的原始纯净语音信号)分别作为图1中深度长短期记忆循环神经网络模块的输入，可以分别得到两个长短期记忆神经网络子模块(即图1的方框)的输出，将这两个输出作为本更新模块的输入201；虚线框内为本更新模块的更新子模块202，更新子模块202由交叉熵203和线性循环投影层二204组成；更新子模块202的输出作为下一个更新子模块的输入，如此循环多次；最后一个更新子模块的输出为整个更新模块的输出205。

更新子模块中202的交叉熵203按照如下公式计算：

d(x₁,x₂)＝∫x₁ ln x₂dt-∫x₂ lnx₁dt

其中d为交叉熵，x₁和x₂分别代表本更新模块的两个输入，即原始纯净语音信号和带噪信号分别输入得到的两个长短期记忆循环神经网络的输出。

线性循环投影层204的输出按照如下公式计算：

y'＝sof tmax_k(W_y' d+b_y')

其中y'为整个模块的输出205，W_y代表交叉熵203输出到线性循环投影层204的权重，d代表交叉熵，b_y'代表偏差量，并有其中x_k表示第k∈[1,K]个soft max函数的输入，l∈[1,K]用于对全部求和。

步骤3，通过比较最终的更新结果与以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的最终输出，实现连续语音识别。

图3为本发明的鲁棒深度长短期记忆神经网络声学模型流程图，包括以下内容：

从左到右分别为：以原始纯净语音信号301为输入的深度长短期记忆循环神经网络模块303、深度长短期记忆循环神经网络更新模块304、以带噪信号(即受到环境噪声干扰后的原始纯净语音信号)302为输入的深度长短期记忆循环神经网络模块305，其中参数的计算见步骤1和步骤2，最终输出为原始纯净语音信号为输入的深度长短期记忆循环神经网络模块的输出306，以及深度长短期记忆循环神经网络更新模块的输出307。

Claims

1.一种基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，包括：

2.根据权利要求1所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述深度长短期记忆循环神经网络模块中，语音信号x＝[x₁,...,x_T]作为整个模块的输入，同时也作为第一个长短期记忆层的输入，第一个长短期记忆层的输出作为第一个线性循环投影层的输入，第一个线性循环投影层的输出作为下一个线性循环投影层的输入，下一个线性循环投影层的输出再作为下下一个线性循环投影层的输入，依次类推，其中，以原始纯净语音信号为输入的深度长短期记忆循环神经网络模块中，最后一个线性循环投影层的输出作为整个深度长短期记忆循环神经网络模块的输出y＝[y₁,...,y_T]，T为语音信号的时间长度，而以带噪信号为输入的深度长短期记忆循环神经网络模块中，最后一个线性循环投影层的输出舍弃。

3.根据权利要求1或2所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述长短期记忆层由记忆细胞、输入门、输出门、遗忘门、tanh函数以及乘法器组成，其中长短期记忆层即长短期记忆神经网络子模块，在t∈[1,T]时刻长短期记忆神经网络子模块中的参数按照如下公式计算：

G_input＝sigmoid(W_ixx+W_icCell'+b_i)

G_forget＝sigmoid(W_fxx+W_fcCell'+b_f)

Cell＝m'+G_forget⊙Cell'+G_input⊙tanh(W_cxx)⊙m'+b_c

G_output＝sigmoid(W_oxx+W_ocCell'+b_o)

m＝tanh(G_output⊙Cell⊙m')

y＝softmax_k(W_ymm+b_y)

sigmoid (x) = \frac{1}{1 + e^{- x}}, x \tanh (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}},

4.根据权利要求3所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述两个深度长短期记忆循环神经网络模块中，分别取一个位于同一级的长短期记忆神经网络子模块的输出作为一个更新子模块的两个输入，一个更新子模块由交叉熵和线性循环投影层二组成，多个更新子模块串联组成更新模块，一个更新子模块的输出作为下一个更新子模块的输入，最后一个子模块的输出为整个更新模块的输出。

5.根据权利要求4所述基于深度长短期记忆循环神经网络的连续语音识别方法，其特征在于，所述更新子模块中的交叉熵按照如下公式计算：

d(x₁,x₂)＝∫x₁ln x₂dt-∫x₂lnx₁dt

线性循环投影层二的输出按照如下公式计算：

y'＝soft max_k(W_y'd+b_y')

其中d即交叉熵，y'为整个更新模块的输出矢量，W_y代表参数更新输出到线性循环投影层输出的权重，u代表交叉熵，b_y'代表偏差量。