CN104112447B

CN104112447B - 提高统计语言模型准确度的方法及系统

Info

Publication number: CN104112447B
Application number: CN201410366038.0A
Authority: CN
Inventors: 殷永光; 鹿晓亮; 梁修存
Original assignee: Anhui Puji Information Technology Co ltd
Current assignee: Iflytek Medical Technology Co ltd
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2017-08-25
Anticipated expiration: 2034-07-28
Also published as: CN104112447A

Abstract

本发明公开了一种提高统计语言模型准确度的方法及系统，该方法包括：获取训练语料，并将所述训练语料分为两部分：训练集和保留集；在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。利用本发明，可以有效提高语言模型的整体识别率。

Description

提高统计语言模型准确度的方法及系统

技术领域

本发明涉及语音识别技术领域，具体涉及一种提高统计语言模型准确度的方法及系统。

背景技术

统计语言模型在自然语言处理技术中占有重要地位，在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。在语音识别中，计算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子，然后显示或者打印给使用者。

例如：给定拼音串：ta shi yan jiu sheng wu de；

可能的汉字串有以下几种：踏实研究生物的、他实验救生物的、他使烟酒生物的、他是研究生物的等等。

如何让计算机选择一个最可能的汉字串，就要用到统计语言模型。

在统计语言模型中，判断一个句子是否合理，就要看它的可能性大小。假定S表示一个有意义的句子，由一连串特定顺序排列的词W₁,W₂,...,W_n组成，即S＝W₁,W₂,...,W_n，n是句子的长度，则S在文本中出现的概率为：

P(S)＝P(W₁,W₂,...,W_n)

由条件概率可知，S这个序列在文本中出现的概率等于每一个词出现的条件概率相乘，即：

P(S)＝P(W₁)×P(W₂|W₁)×P(W₃|W₁,W₂)×...×P(W_n|W₁,W₂,...,W_n-1)

其中，P(W₁)表示第一个词出现的概率，P(W₂|W₁)表示在已知第一个词的前提下，第二个词出现的概率，依此类推。

但是依然有一个问题，就是文本序列越靠后的词，依赖的词越多，到最后一个词时可能都无法估算。为此，业界给出了一个简单有效的方法，即假设任意一个词W_i出现的概率只与它前面的词W_i-1有关，则上式(2)简化为：

P(S)＝P(W₁)×P(W₂|W₁)×P(W₃|W₂)×...×P(W_n|W_n-1)

但是，对于统计语言模型，还有很多细节问题需要解决，其中一个问题就是零概率问题。而且，随着阶数的增大，估计为0的模型数越来越多，对语音识别正确率有较大影响。为此，现有技术中通过平滑处理来改进模型的整体正确率。目前，统计语言模型的平滑方法主要有：绝对折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。这几种方法，都是在使非零概率下降的时候，同时改变了非零概率之间的分布比例，导致语言模型困惑度上升，整体正确率下降。

发明内容

本发明实施例提供一种提高统计语言模型准确度的方法及系统，在不改变非零概率之间的分布比例的情况下，消除零概率，提高语言模型的整体识别率。

为此，本发明实施例提供如下技术方案：

一种提高统计语言模型准确度的方法，包括：

获取训练语料，并将所述训练语料分为两部分：训练集和保留集；

在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；

在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；

利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。

优选地，所述设定范围为0～1。

优选地，所述目标函数为语言模型的困惑度PP：

P(S_i)表示所述保留集语料中的词串序列S_i在所述训练集语料中出现的概率，n_i表示所述词串序列S_i在所述训练集语料中出现的次数。

优选地，所述利用对应所述语言模型的最优补偿参数对所述语言模型进行优化，得到优化后的语言模型包括：

对于同阶的非零概率部分，

对于同阶的零概率部分，

其中，词串序列h＝W_i-n+1,...,W_i-1，词串序列h′＝W_i-n+2,...,W_i-1，C(h)表示h在所述训练集语料中出现的次数；C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数；λ(h)表示对应h的最优补偿参数，

一种提高统计语言模型准确度的系统，包括：

语料获取模块，用于获取训练语料；

拆分模块，用于将所述训练语料分为两部分：训练集和保留集；

统计模块，用于在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；

最优补偿参数获取模块，用于在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；

优化模块，用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。

优选地，所述设定范围为0～1。

优选地，所述目标函数为语言模型的困惑度PP：

优选地，所述优化模块具体按以下方式对所述语言模型进行优化：

对于同阶的非零概率部分，

对于同阶的零概率部分，

本发明实施例提供的提高统计语言模型准确度的方法及系统，在数据平滑后，原先非零概率部分的分布比例保持不变，零概率部分不会超过非零概率部分，在语言模型部分加上补偿参数，调节该补偿参数，使原先非零部分的得分保持与实际分布一样，从而修正一些离谱的错误结果，提高语言模型的整体识别正确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例提高统计语言模型准确度的方法的流程图；

图2是本发明实施例提高统计语言模型准确度的系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有的平滑方案存在的问题，本发明实施例提供一种提高统计语言模型准确度的方法及系统，能够消除零概率，并且在数据平滑后，不会改变非零概率部分的分布比例，从而避免了一些离谱的错误识别结果。

假定S表示一个有意义的句子，该句子由一连串顺序排列的词W₁,W₂,...,W_n组成，即S＝W₁,W₂,...,W_n。由于在对各阶词串(即语言模型)在训练语料中出现的次数进行统计时，可能会出现次数为0的模型，导致零概率问题。为了避免这种情况，在本发明实施例中，将这部分的计数设置在一个设定范围内，比如0～1内(当然，也可以是其它大于0的一个范围，比如0～0.8)，并将其作为一个补偿参数加入到语言模型的训练中。

例如，统计模型h＝W_i-n+1,...,W_i-1在训练语料中出现的次数为C(h)，模型(h,W_i)在训练语料中出现的次数为C(h,W_i)，由于C(h,W_i)＝0，因此设置对应模型(h,W_i)的补偿参数为λ(h)，λ(h)实际上是以h为历史、(h,W_i)没有在训练语料中出现的条目总数的估计值。此时，训练语料的总数量变为C(h)+λ(h)。根据训练语料找出一个最优的λ(h)，利用该λ(h)对统计语言模型进行优化，即可在不改变非零概率之间的分布比例的情况下，消除零概率，提高语言模型的平滑度，进而提高语音识别结果的准确性。

如图1所示，是本发明实施例提高统计语言模型准确度的方法的流程图，包括以下步骤：

步骤101，获取训练语料，并将所述训练语料分为两部分：训练集和保留集。

具体地，可以按照任意比例将所述训练语料分为两部分，比如，按0.62：0.38的比例将训练语料分为训练集和保留集两部分，或者按0.5：0.5的比例将训练语料分为训练集和保留集两部分。

步骤102，在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内。

具体地，统计模型h＝W_i-n+1,...,W_i-1在训练集语料中出现的次数C(h)，以及模型(h,W_i)在训练集语料中出现的次数C(h,W_i)。

步骤103，在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数。

在实际应用中，所述目标函数可以是语言模型的困惑度PP(也可称为复杂度)，也可以是交叉熵函数等。

下面以语言模型的困惑度为例，详细说明如何获得所述最优补偿参数。

在本发明实施例中，困惑度的计算可以采用如下公式：

其中，P(S_i)表示所述保留集语料中的词串序列S_i在所述训练集语料中出现的概率，S_i＝W₁,W₂,...,W_i，n_i表示所述词串序列S_i在所述训练集语料中出现的次数。

根据条件概率，词串序列S_i在训练集语料中出现的概率等于词串序列S_i中各阶词串在训练集语料中出现的条件概率相乘，因此，对于每个词串序列S_i，其概率如下：

P(S_i)＝P(W₁)×P(W₂|W₁)×P(W₃|W₁,W₂)×...×P(W_i|W₁,W₂,...,W_i-1) (2)

所述条件概率是指事件A在另外一个事件B已经发生条件下的发生概率，条件概率表示为P(A|B)，即在B条件下A的概率。具体到本发明实施例中，则在已知词串序列h(h＝W_i-n+1,...,W_i-1)的前提下，W_i出现的条件概率为：

其中，C(h)表示h在所述训练集语料中出现的次数；C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数。

在前面步骤102中，已经对词频为0的语言模型设置了对应的补偿参数，即对应模型h的补偿参数为λ(h)。由于补偿参数λ(h)的设置，训练集语料的总数量可以认为是：C(h)+λ(h)，因此，在计算条件概率时，对于可以按照以下的公式来计算：

对于同阶的非零概率部分，

对于同阶的零概率部分，以低阶概率P(W_i|h′)为权进行分配，具体如下：

假设λ(h)的设定范围为0～1，可以按照从0到1每次递增0.001的步长(所述步长可以任意设定)遍历所有λ(h)，找出使得困惑度PP最小的λ(h)。

需要说明的是，由于对应各模型的λ(h)相互独立，因此可以分开计算保留集中各模型的困惑度，找出使其最小的λ(h)，即可得到对应该模型的最优补偿参数。

如果目标函数采用交叉熵函数，则可采用如下公式计算交叉熵函数：

其中，n代表保留集中句子总数，α代表保留集第i句话有多少个词，β代表以h_j为历史可选词的总数，h_j代表此时出现词W_j的历史。

利用上述交叉熵函数获得所述最优补偿参数的具体过程与上述类似，在此不再赘述。

步骤104，利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。

具体地，利用上述公式(4)、(5)，重新计算各阶语言模型在所述训练集上的条件概率，所得的值即为最终统计语言模型。

本发明实施例提供的提高统计语言模型准确度的方法，在数据平滑后，原先非零概率部分的分布比例保持不变，零概率部分不会超过非零概率部分，在语言模型部分加上补偿参数，调节该补偿参数，使原先非零部分的得分保持与实际分布一样，从而修正一些离谱的错误结果，提高语言模型的整体识别正确率。

相应地，本发明实施例还提供一种提高统计语言模型准确度的系统，如图2所示，是该系统的一种结构示意图。

在该实施例中，所述系统包括：

语料获取模块201，用于获取训练语料；

拆分模块202，用于将所述训练语料分为两部分：训练集和保留集；

统计模块203，用于在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；

最优补偿参数获取模块204，用于在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；

优化模块205，用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。

上述拆分模块202可以按照任意比例将所述训练语料分为两部分，比如，0.5：0.5、0.36：0.64等比例。

需要说明的是，在实际应用中，所述目标函数可以是语言模型的困惑度PP等函数，最优补偿参数获取模块204在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数的详细过程可参照前面本发明方法实施例中的描述，在此不再赘述。

本发明实施例提供的提高统计语言模型准确度的系统，在数据平滑后，原先非零概率部分的分布比例保持不变，零概率部分不会超过非零概率部分，在语言模型部分加上补偿参数，调节该补偿参数，使原先非零部分的得分保持与实际分布一样，从而修正一些离谱的错误结果，提高语言模型的整体识别正确率。

需要说明的是，利用本发明实施例的方法及系统得到的统计语言模型，可以应用于语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等领域。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。而且，其中的一些模块所提供的功能也可以由软件来实现，一些模块可以与现有的设备(比如个人电脑、平板电脑、手机)中的相同功能模块共用。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种提高统计语言模型准确度的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述设定范围为0～1。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述目标函数为语言模型的困惑度PP：

<mrow> <mi>P</mi> <mi>P</mi> <mo>=</mo> <mroot> <mfrac> <mn>1</mn> <mrow> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mn>1</mn> </msub> </msup> <mn>....</mn> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msup> </mrow> </mfrac> <mi>N</mi> </mroot> <mo>,</mo> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>N</mi> <mo>;</mo> </mrow>

4.根据权利要求3所述的方法，其特征在于，所述利用对应所述语言模型的最优补偿参数对所述语言模型进行优化，得到优化后的语言模型包括：

对于同阶的非零概率部分，

对于同阶的零概率部分，

5.一种提高统计语言模型准确度的系统，其特征在于，包括：

语料获取模块，用于获取训练语料；

6.根据权利要求5所述的系统，其特征在于，所述设定范围为0～1。

7.根据权利要求5至6任一项所述的系统，其特征在于，所述目标函数为语言模型的困惑度PP：

<mrow> <mi>P</mi> <mi>P</mi> <mo>=</mo> <mroot> <mfrac> <mn>1</mn> <mrow> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mn>1</mn> </msub> </msup> <mn>....</mn> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msup> </mrow> </mfrac> <mi>N</mi> </mroot> <mo>,</mo> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>N</mi> <mo>;</mo> </mrow> 1

8.根据权利要求7所述的系统，其特征在于，所述优化模块具体按以下方式对所述语言模型进行优化：

对于同阶的非零概率部分，

对于同阶的零概率部分，