CN109427330B

CN109427330B - 一种基于统计语言模型得分规整的语音识别方法及系统

Info

Publication number: CN109427330B
Application number: CN201710790753.0A
Authority: CN
Inventors: 张鹏远; 张一珂; 潘接林; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2017-09-05
Filing date: 2017-09-05
Publication date: 2023-04-07
Anticipated expiration: 2037-09-05
Also published as: CN109427330A

Abstract

本发明一种基于统计语言模型得分规整的语音识别方法，所述方法包括：步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型；包括：k阶统计N元文法语言模型，k‑1个不同阶数的统计N元文法语言模型和k‑1个不同阶数的改进的统计N元文法语言模型；步骤2)将待识别语音进行第一遍解码，得到L条候选语音s；步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分，结合声学模型得分计算出每条候选语音的得分；步骤4)选出得分最高的候选语音作为第二遍解码结果；该结果为最终的识别结果。本发明的方法对于识别错误具有良好的容错性，能够有效的提升语音识别的正确率。

Description

一种基于统计语言模型得分规整的语音识别方法及系统

技术领域

本发明涉及语音识别领域和自然语言处理领域，特别涉及一种基于统计语言模型得分规整的语音识别方法及系统。

背景技术

传统的统计语言模型(Language Model,LM)建模目标是学习训练数据的分布，即如何在给定正确的历史词序列的条件下，更加精确预测未来的词。对于统计N元文法语言模型(N gram LM)，国内外研究者已提出多种数据平滑(Data Smoothing)算法，例如加法平滑算法、古德-图灵(Good-Turning)平滑算法、Katz平滑算法、Witten-Bell平滑算法、Kneser-Ney平滑算法等。以上数据平滑算法可以归为插值(Interpolation)与回退(Back-off)两类，其目标都是利用有限的训练数据建立更符合真实数据分布的概率分布模型。对于基于神经网络(Neural Network)的语言模型，尚未有学者提出有效的数据平滑算法，而是利用神经网络对历史词汇的低维表示隐含的对数据进行平滑。

在语音识别中，语言模型作用的条件与其训练条件存在较大差异。在语音识别解码过程中，语言模型依赖的历史序列中包含由识别错误引入的非正确词汇序列。此处非正确词汇序列是指不符合语法、语义规则的词汇序列，正确的词汇序列则是符合语法、语义规则的词汇序列。而统计语言模型在训练和参数估计过程中，仅在输入正确词汇序列的条件下进行预测。因此，统计语言模型训练模式与应用目标的差异，导致了语言模型在语音识别任务中性能受限。

发明内容

本发明的目的在于克服现有语言模型的存在的识别错误的容错性低的缺陷，提出了一种基于统计语言模型得分规则的语音识别方法。

为了实现上述目的，本发明提出了一种基于统计语言模型得分规则的语音识别方法，所述方法包括：

步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型；包括：k阶统计N元文法语言模型，k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型；

步骤2)将待识别语音进行第一遍解码，得到L条候选语音s；

步骤3)利用步骤1)的若干个基于多尺度马尔科夫假设的统计语言模型计算L条候选语音s的语言模型得分，结合声学模型得分计算出每条候选语音的得分；

步骤4)选出得分最高的候选语音作为第二遍解码结果；该结果为最终的识别结果。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)确定马尔科夫假设阶数k，利用训练数据训练待规整的k阶统计N元文法语言模型，记为k gram LM；

步骤1-2)采用步骤1)的训练数据分别训练k+1gram LM，k+2gram LM，…,2k-1gramLM；

给定训练语句W＝w₁，...，w_T，T是语句W的长度，单词w_t，1＜＝t＜＝T的k gram历史是

k gram LM利用语句s中每个单词的k gram历史计算语句W的概率：

步骤1-3)训练0skip k gram LM，1skip k+1gram LM，…，k-2skip 2k-2gram LM；

其中，i skip k gram LM，i<k，i，k为正整数；为改进的统计N元文法语言模型；iskip k gram LM的具体定义如下：

单词w_t的i skip k gram历史是

iskip k gram LM利用语句W中每个单词的i skip k gram历史计算语句W的概率：

作为上述方法的一种改进，所述步骤3)具体包括：

步骤3-1)利用k阶统计N元语言模型计算每条候选语音s的原始语言模型得分l(s)，并记录该候选语音的声学模型得分a(s)，以及语言模型缩放因子lm_sc；

步骤3-2)对于每一条候选语音s，根据k-1个不同阶数的统计N元文法语言模型和k-1个不同阶数的改进的统计N元文法语言模型计算规整后的语言模型得分r(s)；

步骤3-3)将规整后的语言模型得分r(s)与原始的语言模型得分l(s)按照比例m进行加权，得到新的语言模型得分p(s)＝m*r(s)+(1-m)*l(s)；

步骤3-4)重新计算每条候选语音s的得分Score(s)＝a(s)+lm_sc*p(s)。

作为上述方法的一种改进，所述步骤3-2)具体实现过程为：

其中，P_k(s)表示利用k gram LM计算得到的候选语音s的得分，

表示利用iskip i+k gram LM计算得到的候选语音s的得分，r(s)表示利用规整后的语言模型计算得到的候选语音s的得分。

一种基于统计语言模型得分规整的语音识别系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述方法的步骤。

本发明的优点在于：

1、本发明的方法提供的语言模型得分规整算法，在语音识别应用中，对于识别错误具有良好的容错性，即依据包含解码错误的词历史序列依然可以稳健的对当前词进行预测；从而能够有效的提升语音识别的正确率；

2、本发明的方法与传统的统计语言模型数据平滑算法具有叠加性，即可以进一步提升平滑后的语言模型的性能；

3、本发明的方法可应用于基于加权有限状态转换器(Weighted Finite StateTransducer,WFST)的一遍解码过程中，只需要将各个k gram LM、i skip k gram LM按照一般的方法插值后，建立WFST解码图即可。

附图说明

图1为本发明的一种基于统计语言模型得分规整的语音识别方法流程图。

具体实施方式

下面结合附图和实施例对本发明的方法进行详细说明。

如图1所示，一种基于统计语言模型得分规整的语音识别方法，包括：

步骤1)建立和训练若干个基于多尺度马尔科夫假设的统计语言模型；

步骤1-1)确定马尔科夫假设阶数k，利用训练数据训练待规整的k阶统计N元文法语言模型(k gram LM)；

步骤1-2)采用步骤1)的训练数据分别训练不同阶数的统计N元文法语言模型：k+1gram LM，k+2gram LM，…,2k-1gram LM；

给定训练语句W＝w₁，...，w_T，T是句子长度单词，w_t(1＜＝t＜＝T)的k gram历史是

w_t的i skip k gram历史是：

k gram LM利用语句W中每个词的k gram历史计算语句W的概率：

其中，i skip k gram LM(i<k,i,k为正整数)指一种改进的统计N元文法语言模型；i skip k gram LM的具体定义如下：

i skip k gram LM利用语句W中每个词的i skip k gram历史计算语句W的概率：

例如给定句子“一二三四五上山打老虎”，0skip 3gram LM在预测词汇“老虎”时，依赖历史词汇“上山”，而3gram LM在预测词汇“老虎”时，依赖历史词汇“上山”和“打”。

步骤2)将待识别语音进行第一遍解码，得到L条候选语音s；

步骤3)利用k gram LM计算每条候选语音的原始语言模型得分l(s)，声学模型得a(s)，以及语言模型缩放因子lm_sc；

步骤4)对于每一条候选语音s，按照如下公式计算规整后的语言模型得分：

其中，P_k(s)表示利用k gram LM计算得到的候选语音s的得分，

表示利用iskip i+k gram LM计算得到的候选语音s的得分，r(s)表示利用规整后的语言模型计算得到的候选语音s的得分；

步骤5)将规整后的语言模型得分r(s)与原始的语言模型得分l(s)按照比例m(0<m<1)加权，得到新的语言模型得分p(s)＝m*r(s)+(1-m)*l(s)；

步骤6)重新计算每条候选语音s的得分Score(s)＝a(s)+lm_sc*p(s)；

步骤7)选出得分最高的候选语音作为第二遍解码结果；该结果为最终的识别结果。

实例：

本实例采用英文Switchboard公开数据集，利用kaldi语音识别工具搭建识别系统，SRILM工具训练统计语言模型。Switchboard数据集包含Dev和Hub5两个测试集，其中Hub5又包含switchboard(SWB)和callhome(CH)两个子集。

1.搭建基线识别系统：声学模型为3层LSTM-RNN神经网络模型，语言模型为采用Kneser-Ney平滑的2gram统计语言模型(KN2)。

2.抽取100候选：利用基线识别系统对测试集Dev和Hub5分别进行解码，并对每条测试语音保留前100候选。记录每条候选的原始语言模型得分l和声学模型得分a，以及语言模型缩放因子lm_sc。

一般来说，一个语音测试集包含若干条测试语音。

3.训练规整后的语言模型得分所需的辅助模型：依据发明内容步骤1-2)中的公式，规整2gram语言模型的得分，需要训练3gram语言模型和0skip 2gram语言模型。

4.计算规整后的语言模型得分：依据发明内容步骤4)中的公式和步骤4)中的模型可以计算得到每条测试语音每条候选规整后的语言模型得分r。

5.重新计算候选语言模型得分：选取权重比例m＝0.5，依据发明内容步骤5)中公式计算新的语言模型得分p(s)＝0.5*r(s)+0.5*(s)。

6.重新计算候选总分：取语言模型权重因子lm_sc＝9，计算每条测试语音每条候选的最终得分Score(s)＝a(s)+9*p(s)。对于每条测试语音，选取Score最高的候选作为重估解码结果。

7.计算重估结果的识别错误率：对Dev、HUB5、SWB、CH，分别依据各自的参考答案(语音转录文本)，计算重估结果的识别词错误率(Word Error Rate，WER)，具体结果见表1。其中，KN2表示2gram基线语言模型，KN2-r表示规整后的2gram语言模型。

表1：2-gram LM得分规整前后的识别词错误率

	Dev	Hub5	SWB	CH
					KN2	16.4	21.2	16.1	26.1
KN2-r	15.9	20.6	15.4	25.6

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于统计语言模型得分规整的语音识别方法，所述方法包括：

步骤2)将待识别语音进行第一遍解码，得到L条候选语音s；

步骤4)选出得分最高的候选语音作为第二遍解码结果；该结果为最终的识别结果；

所述步骤1)具体包括：

步骤1-2)采用步骤1)的训练数据分别训练k+1gram LM，k+2gram LM，…,2k-1gram LM；

给定训练语句W＝w₁,…,w_T，T是语句W的长度，单词w_t，1<＝t<＝T的kgram历史是

k gram LM利用语句s中每个单词的k gram历史计算语句W的概率：

其中，i skip k gram LM，i<k，i，k为正整数；为改进的统计N元文法语言模型；i skipk gram LM的具体定义如下：

单词w_t的i skip k gram历史是

2.根据权利要求1所述的基于统计语言模型得分规整的语音识别方法，其特征在于，所述步骤3)具体包括：

步骤3-4)重新计算每条候选语音s的得分Score(s)＝a(s)+lm_sc*p(s)。

3.根据权利要求2所述的基于统计语言模型得分规整的语音识别方法，其特征在于，所述步骤3-2)具体实现过程为：

其中，P_k(s)表示利用k gram LM计算得到的候选语音s的得分，

表示利用i skipi+k gram LM计算得到的候选语音s的得分，r(s)表示利用规整后的语言模型计算得到的候选语音s的得分。

4.一种基于统计语言模型得分规整的语音识别系统，包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～3所述方法的步骤。