CN106803422B

CN106803422B - 一种基于长短时记忆网络的语言模型重估方法

Info

Publication number: CN106803422B
Application number: CN201510844693.7A
Authority: CN
Inventors: 张鹏远; 左玲云; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2015-11-26
Filing date: 2015-11-26
Publication date: 2020-05-12
Anticipated expiration: 2035-11-26
Also published as: CN106803422A

Abstract

本发明提出了一种基于长短时记忆网络的语言模型重估方法及系统，所述方法包含：步骤100)输入待识别的语言信息，并对输入的待识别的语言信息进行预处理；步骤101)用N元文法语言模型对预处理后的信息进行一遍解码，然后从中选取M个最优的候选结果；步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息；步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估；步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估；步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合，选出最优结果，作为待识别的语言信息的最终识别结果。

Description

一种基于长短时记忆网络的语言模型重估方法

技术领域

本发明涉及语音识别领域，是一种利用长短时记忆网络语言模型对识别结果进行重估，从而提升语音识别性能的方法。

背景技术

语言模型即用数学的方式描述语言学中词与词之间的约束现象，在语音识别领域起着显著的作用，尤其是在面向电话交谈的语音识别系统中，口语化的语言模型往往可以大幅度提高系统性能。然而，语言模型具有领域性和时效性，现实生活中电话交谈风格的语料是有限的，真实的语音质量多种多样，内容包罗万象，因此语音识别率通常很低。为了提升语音识别系统的性能，一般会增加后处理阶段，即：第一遍解码不仅输出最优首选，而且还输出其他得分较高的候选，这些候选一般可以用M候选列表或者词图表示。后处理阶段利用复杂的模型对M候选列表或者词图进行重新打分，然后选出最优识别结果。

近年来，神经网络语言模型的研究越来越受到学术界的广泛关注。基于分布式假设条件，神经网络语言模型可以通过投影矩阵将离散的词表示映射到连续空间，形成相应的词矢量特征，并可以把词义相近的词聚集在一起。这是因为，词法或者词义等相似的词语矢量特征在连续空间表现出良好的聚类性。最典型的神经网络语言模型是加拿大蒙特利尔大学教授Bengio提出的前向神经网络语言模型(Feed Forward Neutral NetworkLanguage Model，FNNLM)、美国学者Mikolov提出的递归神经网络语言模型(RecurrentNeutral Network Language Model，RNNLM)以及德国学者Sundermeyer最新提出的基于长短时记忆(long-short term memory，LSTM)网络的神经网络语言模型。前向神经网络语言模型虽然可以对词进行连续空间表达，对历史信息起到一定的聚类作用，但是只能考虑有限个历史词信息；递归神经网络语言模型理论上可以考虑无限个历史词信息，但是随着新词的不断引入，这种神经网络语言模型存在着记忆衰退严重的问题；而LSTM神经网络语言模型可以对历史句子信息起到良好的记忆功能。神经网络语言模型因其过高的计算复杂度很少直接应用在解码阶段。它们通常应用在搜索空间较小的重估阶段。

在语音识别系统中，使用高元语言模型进行重估效果不明显，用前向神经网络语言模型和递归神经网络语言模型进行M候选重估，性能提升也是有限的。因为这几种语言模型都不能对历史信息起到良好的记忆功能。而基于LSTM结构的神经网络语言模型因其良好的记忆功能，在语音识别系统(尤其是电话交谈语音识别系统)中对引入历史句子信息的M最优候选结果进行重估性能有明显提升。

发明内容

本发明的目的在于，为了克服上述缺陷，本发明提供一种基于长短时记忆网络的语言模型重估方法及系统。

为了实现上述目的，本发明提供了一种基于长短时记忆网络的语言模型重估方法，所述方法包含：

步骤100)输入待识别的语言信息，并对输入的待识别的语言信息进行预处理；

步骤101)用N元文法语言模型对预处理后的信息进行一遍解码，然后从中选取M个最优的候选结果；

步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果，用一遍解码的识别结果作为历史句子信息，生成引入历史句子信息的M个最优的候选结果；；

步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估；

步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估；

其中，针对电话交谈语料的上下文相关的特性，在进行重估时，用一遍解码的结果作为历史句子信息，对引入历史句子信息的M个最优候选结果用LSTM神经网络语言模型进行重评估；

步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合，选出最优结果，作为待识别的语言信息的最终识别结果。

可选的，上述步骤100)具体为：首先，将输入的语言信息切分为若干具有同一声学性质的音频片段；然后，从音频片段中提取基频、感知线性预测系数和异方差线性判别分析特征，得到预处理后的信号。

可选的，上述步骤101)具体为：

步骤101-1)当N取值为3时，用CTS语料训练第一三元文法语言模型，用通用语料训练第二三元文法语言模型，然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型；

步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码，得到一遍识别结果，并选M个最优候选结果用于后续重估。

上述步骤102)具体为：在获得的M个最优候选结果中引入一遍解码的识别结果作为历史句子信息，得到引入历史句子信息后的最优候选文本。

上述步骤103)进一步包含：步骤103-1)当高元文法语言模型的N取值为4时，用CTS语料训练第一四元文法语言模型，用通用语料训练第二四元文法语言模型，然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型。步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个候选结果进行重评估。

上述步骤104)进一步包含：步骤104-1)用CTS语料训练基于LSTM结构的神经网络语言模型；步骤104-2)用训练后的LSTM神经网络语言模型对得到的引入历史句子信息后的最优候选文本进行重评估。

上述步骤105)进一步包含：将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合，选出最优的结果作为最终的识别结果。

此外，本发明还提供了一种基于长短时记忆网络的语言模型重估系统，所述系统包含：

预处理模块，用于接收待识别的语音，并对输入的语言信息进行预处理操作；

第一解码模块，用于根据N元文法语言模型对预处理后的信息进行一遍解码，然后从中选取M个最优的候选结果；

历史信息添加模块，用于将第一解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息；生成引入历史句子信息的M个最优的候选结果；

重估模块，用于采用用高元文法语言模型对选取的M个最优的候选结果进行重评估；还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估；和

融合处理模块，用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合，选出最优结果，作为待识别的语言信息的最终识别结果。

上述预处理模块进一步包含：语音分段子模块，用于将输入的语言信息切分为若干具有同一声学性质的音频片段；特征提取和规整子模块，用于从音频片段中提取基频、PLP和HLDA特征，进而用于后续解码阶段。

上述第一解码模块进一步包含：

三元文法语言获取子模块，用于当N取值为3时，用CTS语料训练第一三元文法语言模型，用通用语料训练第二三元文法语言模型，然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型；

解码子模块，用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码，得到一遍识别结果，并选M个最优候选结果用于后续重估。

为了获得更好的重估效果，本发明提出了在电话交谈语音识别任务中，引入历史句子信息的LSTM神经网络语言模型重估。

综上所述，本发明提供的具体方法为：输入待识别的语言信息；用N元文法语言模型进行一遍解码，然后从中选取M个最优的候选结果；在获得的M候选结果中引入一遍解码的识别结果作为历史句子信息；用高元文法语言模型对选取的M候选结果进行重评估；用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M候选结果进行重评估：针对电话交谈语料上下文相关的特性，在进行重估时，用一遍解码的结果作为历史句子信息，对选取的M最优候选结果用LSTM神经网络语言模型进行重评估；5.将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合，选出最优结果，作为最终识别结果。

与现有技术相比，本发明的优点：电话交谈风格的语料本身具有一定的上下文相关性，而LSTM神经网络语言模型可以对历史信息起到良好的记忆功能，学习能力更强，通过LSTM神经网络语言模型对引入历史句子信息的M候选进行重估的方法来提高电话交谈语音识别任务的性能。

附图说明

图1本发明提供的基于LSTM结构的神经网络语言模型；

图2本发明提供的语音识别方法的流程图。

具体实施方式

下面结合附图和优选实施例对本发明进行详细说明。

本实验所用数据集如下：

训练集：采用的训练数据包括语言数据联盟LDC(Linguistic Data Consortium)

提供的汉语文本语料：Call-Home、Call-Friend以及Call-HKUST；自采的自然口语对话数据，统称为CTS(Conversational Telephone Speech)语料。另一部分训练数据为网上自行下载的文本语料，统称为通用语料。

开发集：自采的电话信道数据集。

测试集：2005年国家863高科技计划提供的数据集(86305)以及香港大学2004年采集的电话自然口语对话的部分数据(LDC)。

1.训练阶段

1)用CTS语料训练第一三元文法语言模型，用通用语料训练第二三元文法语言模型，然后将这两种模型在开发集上进行插值得到插值后的三元文法语言模型，并以相同的方式训练相应的插值后的四元文法语言模型。

2)用CTS语料训练前向神经网络语言模型、递归神经网络语言模型以及基于LSTM结构的神经网络语言模型(如图1所示)，经过参数调优，训练各类神经网络语言模型时所用词典分类数为500，迭代次数均为15次。

2.解码阶段

1)一遍解码：用插值得到的三元文法语言模型进行一遍解码，得到一遍识别结果，并选取10个最优候选结果用于后续重估。

2)引入历史句子信息：在获得的10个最优候选结果中引入一遍解码的识别结果作为历史句子信息(考虑5句话历史信息)，得到引入历史句子信息后的最优候选文本。

3)高元文法语言模型重估：用插值得到的四元文法语言模型对10个最优候选结果进行重评估。

4)神经网络语言模型重估：用LSTM神经网络语言模型对引入历史句子信息的10个最优候选结果进行重评估。

5)得分融合：通过在开发集上进行融合系数调优，将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合，选出最优的结果作为最终的识别结果；

第一遍解码模块，用于根据N元文法语言模型对预处理后的信息进行一遍解码，然后从中选取M个最优的候选结果；

历史信息添加模块，用于将第一遍解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息；生成引入历史句子信息的M个最优的候选结果；

重估模块，用于采用高元文法语言模型对选取的M个最优的候选结果进行重评估；还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估；

所述预处理模块进一步包含：

语音分段子模块，用于将输入的语言信息切分为若干具有同一声学性质的音频片段；

特征提取和规整子模块，用于从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征，进而用于后续解码阶段。

所述第一遍解码模块进一步包含：

本发明提出了基于LSTM结构的神经网络语言模型对引入历史句子信息的M候选结果进行重估，并与之前的高元文法语言模型重估以及其他神经网络语言模型重估，在电话语音识别系统中进行了系统的对比，具体结果如下：

其中FFNNLM(41200-L300)，表示前向神经网络语言模型考虑了一句话中前4个词的历史信息，投影层和隐藏层均包含300个结构单元；RNNLM(R600)表示只包含隐藏层的递归神经网络语言模型，隐藏层包含600个结构单元；RNNLM(i300-R300)包含投影层和隐藏层的递归神经网络语言模型，投影层和隐藏层均包含300个结构单元；LSTM(i300-m300)表示引入LSTM结构的神经网络语言模型，投影层包含300个结构单元，隐藏层包含300个LSTM结构单元；Ppl表示相应的神经网络语言模型在测试集上的困惑度；WER表示字错误率。实验中，用神经网络进行重估时，考虑历史句子信息数为5句。各个隐层单元数以及考虑历史句子信息数等参数均由参数调优得到。

FFNNLM可以把词映射到连续空间，对词义相近的词起到聚类作用，通过实验可以看出，这种神经网络语言模型比N元文法语言模型学习能力更强。实验中，首先，用FFNNLM与4-Gram进行插值重估，与基线进行对比。因FFNNLM良好的自学习能力，重估性能明显提升。但是FFNNLM只能考虑有限个词的历史信息，因此引入了理论上可以考虑所有历史词信息的RNNLM。接着，对比了只含有隐藏层的RNNLM以及包含投影层和隐藏层的RNNLM，包含两个隐层的RNNLM性能更优，说明深层的神经网络学习能力更强。然后，对比了含有相同隐层数的FFNNLM和RNNLM，RNNLM因引入了自循环，它对历史信息的记忆性更强，重估效果比FFNNLM更优。但是RNNLM随着新词的不断引入存在记忆衰退严重的问题，因此引入了具有良好记忆功能的LSTM神级网络语言模型。最后，对比了含有相同隐层数的RNNLM和引入LSTM的神经网络语言模型。与RNNLM相比，LSTM结构可以对历史句子信息起到良好的记忆功能，在面向电话交谈任务中学习能力比RNNLM更强，重估效果更优。

综上所述，在电话交谈语音识别任务中，引入LSTM结构的神经网络语言模型性能最优。本实验中，用LSTM神经网络语言模型模型对引入历史句子信息的10个最优候选结果进行重评估，并与用4元文法语言模型进行重评估的结果进行融合，最终WER相对降低百分之三左右。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于长短时记忆网络的语言模型重估方法，所述方法包含：

步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果，用一遍解码的识别结果作为历史句子信息，生成引入历史句子信息的M个最优的候选结果；

步骤104)用基于长短时记忆网络结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估；

其中，针对电话交谈语料的上下文相关的特性，在进行重估时，用一遍解码的识别结果作为历史句子信息，对引入历史句子信息的M个最优候选结果用LSTM神经网络语言模型进行重评估；

2.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法，其特在于，所述步骤100)具体为：

首先，将输入的语言信息切分为若干具有同一声学性质的音频片段；

然后，从音频片段中提取基频、感知线性预测系数和异方差线性判别分析特征，得到预处理后的信号。

3.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法，其特在于，所述步骤101)具体为：

4.根据权利要求3所述的基于长短时记忆网络的语言模型重估方法，其特在于，所述步骤103)进一步包含：

步骤103-1)当高元文法语言模型的N取值为4时，用CTS语料训练第一四元文法语言模型，用通用语料训练第二四元文法语言模型，然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型；

步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个最优候选结果进行重评估。

5.根据权利要求4所述的基于长短时记忆网络的语言模型重估方法，其特在于，所述步骤104)进一步包含：

步骤104-1)用CTS语料训练基于LSTM结构的神经网络语言模型；

步骤104-2)用训练后的LSTM神经网络语言模型对得到的引入历史句子信息的最优候选文本进行重评估。

6.根据权利要求4或5所述的基于长短时记忆网络的语言模型重估方法，其特在于，所述步骤105)进一步包含：

将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合，选出最优的结果作为最终的识别结果。

7.一种基于长短时记忆网络的语言模型重估系统，其特征在于，所述系统包含：

历史信息添加模块，用于将第一遍解码模块输出的信息中的一遍解码的识别结果作为历史句子信息；生成引入历史句子信息的M个最优的候选结果；

8.根据权利要求7所述的基于长短时记忆网络的语言模型重估系统，其特征在于，所述预处理模块进一步包含：

特征提取和规整子模块，用于从音频片段中提取基频、感知线性预测系数和异方差线性判别分析特征，进而用于后续解码阶段。

9.根据权利要求7所述的基于长短时记忆网络的语言模型重估系统，其特征在于，所述第一遍解码模块进一步包含：