CN101271450B

CN101271450B - 裁剪语言模型的方法及装置

Info

Publication number: CN101271450B
Application number: CN2008100846147A
Authority: CN
Inventors: 李剑峰; 王海峰; 任登君; 李国华
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-19
Filing date: 2008-03-13
Publication date: 2010-09-29
Anticipated expiration: 2028-03-13
Also published as: CN101271450A

Abstract

本发明提供了裁剪语言模型的方法及装置。根据本发明的一个方面，提供了一种裁剪语言模型的方法，其中，该语言模型包括多个n元组及其概率，以及多个低阶(＜n)的元组及其概率；上述方法包括：根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率，只包含低于n阶的元组及其概率；利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案；以及将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型。

Description

裁剪语言模型的方法及装置

技术领域

本发明涉及自然语言的处理技术，具体地，涉及语言模型裁剪技术。

背景技术

语言模型在自然语言处理中得到了广泛的应用，例如亚洲语言分词、语音识别、亚洲语言的计算机输入(IMF)等。然而，在许多实际应用中，由于计算资源的限制，未经过裁剪的语言模型往往由于尺寸太大而无法直接应用。因此，语言模型裁剪技术被用来将一个尺寸较大的模型裁剪成较小的模型。裁剪的方法一般是根据一定的裁剪准则，删除语言模型中存储的一些参数，从而达到减小模型尺寸的目的。

以往的语言模型裁剪技术依据各种不同的裁剪准则决定语言模型中每一个参数是否被裁。已提出的裁剪准则主要包括出现频次(Count Cut-off)和K-L距离(Kullback-Leibler Distance)。

频次准则参见Fredrick Jelinek于1990年发表的文章“Self-organizedlanguage modeling for speech recognition”，In Alexander Waibel andKai-Fu Lee(Eds.)，Readings in Speech Recognition，pages 450-506，在此通过参考引入其整个内容。

K-L距离准则参见Andreas Stolcke于1998年发表的文章“Entropy-based Pruning of Backoff Language Models”，In Proc.ofDARPA News Transcription and Understanding Workshop，pages270-274，在此通过参考引入其整个内容。

然而，这些裁剪准则都是一般性的准则，没有针对语言模型在实际应用中的性能进行优化，因而模型裁剪不可避免地带来了性能损失。

另外，在Reinhard Kneser和Hermann Hey于1995年发表的文章“Improved Backing-Off for M-Gram Language Modeling”(IEEE，p.181-184，在此通过参考引入其整个内容)中公开了一种语言模型建模的方法。在随机语言模型的建模中，回退(backing-off)被广泛地使用以处理稀疏数据的问题。在该文献中描述了回退的处理过程。

发明内容

为了改善上述现有技术中存在的问题，本发明提供了裁剪语言模型的方法，以及裁剪语言模型的装置。

根据本发明的一个方面，提供了一种裁剪语言模型的方法，其中，该语言模型包括多个n元组及其概率，以及多个低阶的元组及其概率；上述方法包括：根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率，只包含上述低阶的元组及其概率；利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案；以及将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型。

根据本发明的另一个方面，提供了一种裁剪语言模型的装置，其中，该语言模型包括多个n元组(n-gram)及其概率，以及多个低阶的元组及其概率；上述装置包括：基础模型生成单元，根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率，只包含上述低阶的元组及其概率；重要性计算单元，利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案；以及添加单元，将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明的一个实施例的裁剪语言模型的方法的流程图；

图2是根据本发明的实施例的计算二元组重要性的一个实例的流程图；

图3是根据本发明的一个可选实施例的裁剪语言模型的方法的流程图；以及

图4是根据本发明的另一个实施例的裁剪语言模型的装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

裁剪语言模型的方法

图1是根据本发明的一个实施例的裁剪语言模型的方法的流程图。如图1所示，首先，在步骤101，根据语言模型生成初始的基础模型。

在本实施例中，上述语言模型是本领域的技术人员公知用于实际应用，例如亚洲语言分词、语音识别、亚洲语言的计算机输入等的任何n元语言模型，本发明对此没有任何限制。例如，参见Yoshihiko Gotoh和SteveRenals于2003年发表的文章“Statistical Language Modeling”，Text andSpeech Triggered Information Access，S.Renals and G.Grefenstette(eds.)，pages 78-105，Springer，2003，以及Jianfeng Gao，Mu Li和Chang-NingHuang于2003年发表的文章“Improved Source-channel Models forChinese Word Segmentation”，In Proc.of the 41st Annual Meeting ofAssociation for Computational Linguis-tics(ACL-2003)，pages 272-279，在此通过参考引入其全部内容。

更具体地说，语言模型是一种可以为任意词串给出概率的模型。例如：

通常，频率高的词串具有高的概率而生僻词串具有低的概率。

现有技术已有多种语言模型，其中最成功的语言模型是n-gram语言模型。n-gram语言模型利用了HMM(Hidden Markov Model)理论，一个给定词串的概率被分解为依赖于前n-1个词的每个词的概率的积。例如，当n＝2(2元组)时，有：

Pr(“I like playing football”)＝Pr(I)×Pr(like|I)×Pr(playing|like)×Pr(football|playing)

当n＝3(3元组)时，每个词的概率取绝于之前的2个词，此时，应使用Pr(playing|like，I)代替Pr(playing|like)。

为了生成任意输入词串的概率，需要在2元语言模型中保存所有2元组概率，在3元语言模型中保存所有3元组概率。然而，由于词汇量的庞大，这是不现实的。对于100K.词的词汇量来说，需要保存10G个概率值。假设使用C++的浮点数(占4字节)来表示一个概率值，那么需要40G字节的存储空间。

为了解决这个问题，模型中通常只保存频率高的(常出现的)元组。频率低的(不常出现的)元组则通过回退方法在线计算得出。例如，如果3元组(I，like，playing)没有被包含在3元语言模型中，则可以利用以下方式回退获得：

Pr(playing|like，I)→Pr(playing|like)×alpha(like，I)

其中，alpha(like，I)是回退系数。

进而，如果(like，playing)的概率没有出现在模型中，也可以回退获得Pr(playing|like)→Pr(playing)×alpha(like)

所有1元组(n＝1)必须保存在n元语言模型中。

回退系数alpha可以以下列方式获得：：

α (like, I) = \frac{1 - Σ_{w_{i} : Exists (w_{i}, like, I)} \Pr (w_{i} | like, I)}{1 - Σ_{w_{i} : Exists (w_{i}, like, I)} \Pr (w_{i} | like)}

关于更多的现有技术的细节，请参考Slava M.Katz著的“Estimationof Probabilities from Sparse Data for the Language Model Component of aSpeech Recognizer”(发表于IEEE TRANSACTIONS ON ACOUSTICS，SPEECH，AND SIGNAL PROCESSING，VOL.ASP-35，NO.3，MARCH1987)。

因此，对于3元语言模型来说，其中包含一些3元组概率、一些2元组概率(以及回退系数)以及全部1元组概率(以及回退系数)。3元组概率通常占用其中大部分存储空间。裁剪一个3元语言模型即从该模型中去除掉一些3元组概率。类似地，2元语言模型包含2元组概率、单元组概率以及回退系数，其中2元组概率占用大部分存储空间。裁剪一个2元语言模型意味着从该模型中去除掉一些2元组概率。

在本实施例中，通过去掉多个顶阶n元组来对一个n元语言模型进行裁剪，其中，n可以是1、2、3...等。因此，裁剪可以针对任何n元语言模型进行，例如对二元语言模型(n＝2)进行裁剪，本发明对此没有任何限制。

在步骤101，初始的基础模型可以通过将上述n元语言模型中的全部n元组及其概率去掉获得，也就是说，该初始的基础模型只包括上述语言模型中的低阶(小于n)的元组及其概率，而不包括上述多个n元组及其概率。然而，可选地，也可以根据实际需要去掉上述语言模型中的部分n元组来形成初始的基础模型，本发明对此没有任何限制。

在本实施例中，基础模型通过从未裁剪的语言模型中去除全部顶阶元组来获得。例如当n＝2时，未裁剪的2元语言模型包括2元组概率和1元组概率(以及回退系数)，基础模型排除了2元组概率。这样，裁剪2元语言模型就成为向基础模型中添加一些最重要的2元组概率，并将添加后的基础模型作为裁剪后的语言模型。

接着，在步骤105，利用训练语料库计算n元组对于实际应用的重要性。该训练语料库包括训练数据和参考答案，其中参考答案是实际应用针对训练数据的参考结果。在本实施例中，该训练语料库中的参考答案可以是利用上述未裁剪的语言模型或本领域的技术人员公知的其它方法获得的参考答案或通过手工获得的正确答案，本发明对此没有任何限制。训练数据和参考答案的具体细节将在下面针对每个具体的实际应用进行详细说明。

在本实施例中，实际应用包括本领域的技术人员公知利用语言模型的任何应用，包括但不限于亚洲语言分词、语音识别、亚洲语言的计算机输入等，以及其它公知的和将来发展的任何其它应用，本发明对此没有任何限制。

下面参考图2对步骤105中利用训练语料库计算上述n元组对于实际应用的重要性的过程进行详细描述。图2是根据本发明的实施例的计算二元组重要性的一个实例的流程图。其中，以亚洲语言分词为例对本实施例进行描述，亚洲语言分词包括汉语分词、日语分词、韩语分词等等，下面以汉语分词为例对本实施例进行描述。此外，本实施例以二元语言模型为例进行描述。但是，应该理解，本发明并不限于汉语分词和二元语言模型，而是同样适用于其它实际应用和任意n元语言模型。

具体地，对于汉语分词，上述训练语料库(在此标记为M1)中的训练数据是一个或多个未切分字串，其中，每个字串构成一个句子。训练语料库M1中的参考答案可以是利用未裁剪的二元语言模型对每个未切分字串进行切分获得的参考词串，或者是人工进行了切分的正确词串。此外，训练语料库M1中的参考答案也可以是从下面的候选词串中选择的参考词串，例如，可以对下面的候选词串进行本领域的技术人员公知的编辑距离计算，然后选择距离最近的候选词串作为上述参考词串。本发明对训练语料库M1中的参考答案没有任何限制，只要能够利用其根据实际应用对语言模型进行裁剪即可。

例如：

未切分字串：包括已有的疑问

参考词串：包括/已有/的/疑问

如图2所示，首先，在步骤201，将需要计算重要性的多个二元组的重要性初始化为0。

接着，在步骤203，对训练语料库M1中的每一个句子，即每一个未切分字串，利用上述在步骤101中生成的初始的基础模型(在此标记为M2)，生成N个候选词串。在本实施例中，生成N个候选词串的方法可以是本领域的技术人员公知的任何利用语言模型分词的方法，本发明对此没有任何限制，只要能够生成候选词串即可。

具体地，例如，可以首先获得所有的候选词，对于上面的未切分字串，候选词包括：

包括已有的疑问包括已有有的疑问

然后，获得所有可能的切分组合，并计算每种组合的概率，将概率较大的前N个组合作为上述N个候选词串。在这里，计算每种组合的概率的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制。例如，获得的N个候选词串包括：

包括/已有/的/疑问

包括/已/有的/疑问

接着，在步骤204，计算基础模型M2在进行汉语分词时出错的可能性。例如，在本实施例中，可以利用误分类函数来表示基础模型M2在进行汉语分词时出错的可能性。在本实施例中，误分类函数可以利用如下公式(1)计算：

d = - g_{0} + \log {(\frac{1}{N} Σ_{r = 1}^{N} \exp [g_{r} \times η])}^{η} - - - (1)

其中，d表示误分类函数(即上述出错的可能性)，g₀表示基础模型M2对上述参考词串进行评价的得分，g_r表示基础模型M2对上述N个候选词串中第r个候选词串进行评价的得分，η是常数。

在这里，基础模型M2对参考词串和候选词串进行评价的方法可以是本领域的技术人员公知的任何方法，本发明对此没有任何限制，只要能够对参考词串和候选词串的分词结果的好坏作出评价并给出得分即可。

例如，在中文分词的应用中，假设输入的未分词的字符串为“包括已有的疑问”，对于这个字符串可能有两个候选的分词方式“包括/已有/的/疑问”和“包括/已/有的/疑问”。它们都可以被标记为词的序列。哪一个被选中作为输出取决于它们的得分，最简单的评价得分的方式是采用n元语言模型的概率的对数。虽然还有一些考虑其它因素的复杂的评价得分的方法，但是，对于语言模型裁减的任务来说，那些因素都是不变量，因此不会产生影响。

定义：

g_r＝logPr(w₁，w₂，…，w_n)

如果n＝2，则有：

Pr(“包括/已/有的/疑问”)＝Pr(包括)×Pr(已|包括)×Pr(有的|已)×Pr(疑问|有的).

这时，得分以下列方式被评价：

g_r＝logPr(w₁)+logPr(w₂|w₁)+…+logPr(w_n|w_n-1)

当应用未裁剪的2元语言模型并假设概率(w_x，w_y)在模型中存在(表示为P_F(w_y|w_x))时，该概率被直接使用：

logPr(w_y|w_x)＝logP_F(w_y|w_x)

当应用基础语言模型时，由于没有2元组概率，因此所有2元组概率需要通过回退方法计算获得，即：

logPr(w_y|w_x)＝logP_B(w_y)+logα_B(w_x)

这里，下标“B”表示来自基础模型的参数。

对于一个具体的2元组(w_x，w_y)，概率logP_F(w_y|w_x)-logP_B(w_y)-logα_B(w_x)差是用来计算该2元组重要性的基础要素，并可以应用到下面所述的公式(4)中。

基于基础语言模型计算参考词串的得分是：

g_{0} = \log P_{B} (w_{1}) + \log α_{B} (w_{1}) + \log P_{B} (w_{2}) + \log α_{B} (w_{2}) + \cdot \cdot \cdot + \log P_{B} (w_{n})

= Σ_{i = 1}^{n - 1} (\log P_{B} (w_{i}) + \log α_{B} (w_{i})) + \log P_{B} (w_{n})

其中，(w₁，w₂，…，w_n)是参考词串。

多个候选词串的平均评价得分作为公式(1)的一部分被计算，即：

\log {(\frac{1}{N} Σ_{r = 1}^{N} \exp [g_{r} \times η])}^{η}

其中，g_r以与g₀可用类似的方式计算获得。

利用所述基础模型计算该n元组的概率的方法是(对于2元语言模型的裁剪)：

Pr(w_y|w_x)＝P_B(w_y)×α_B(w_x)

其中，

α (w_{x}) = \frac{1 - Σ_{w_{i} : Exists (w_{i}, w_{x})} \Pr (w_{i} | w_{x})}{1 - Σ_{w_{i} : Exists (w_{i}, w_{x})} \Pr (w_{i})}

此外，应该理解，虽然在这里利用误分类函数来表示基础模型M2在进行汉语分词时出错的可能性，但是本发明并不限于此，可以利用本领域的技术人员公知的任何方法来表示基础模型M2在进行汉语分词时出错的可能性。

优选地，可以在步骤205，利用如下公式(2)将误分类函数转换为损失函数：

L (d) = \frac{1}{1 + \exp (- γ \times d)} - - - (2)

其中，L(d)表示上述损失函数，γ是常数，在这里表示斜率系数。在这里，损失函数将误分类函数映射在0-1之间，实际上，就是对误分类函数d的曲线进行了平滑。应该理解，步骤205是可选的步骤。

接着，在步骤207，对每一个二元组，计算该二元组在参考词串中出现的次数，在本实施例中用n₀表示。

接着，在步骤208，对每一个二元组，计算该二元组在N个候选词串中出现的平均次数，在本实施例中用n′表示。具体地，可以利用如下公式(3)计算平均次数：

n^{'} = Σ_{r = 1}^{N} \frac{\exp [g_{r} \times η]}{Σ_{j = 1}^{N} \exp [g_{j} \times η]} n_{r} - - - (3)

其中，n_r表示该二元组在N个候选词串中第r个候选词串中出现的次数，η是常数，在这里表示偏向系数，η越大，n′的计算越偏向第一个候选词串。

接着，在步骤209，利用如下公式(4)计算该二元组对于当前句子的重要性：

其中，imp(w_xw_y；S_i)表示上述二元组的重要性，w_x表示上述二元组中的第一个词，w_y表示上述二元组中的第二个词，S_i表示训练语料库中的第i个句子(即当前句子)，P_F(w_y|w_x)是该二元组在上述语言模型中的二元组概率，logP_B(w_y)+logα_B(w_x)表示该二元组的根据基础模型M2计算的概率，其中P_B(w_y)是基础模型M2中的一元组概率，α_B是基础模型M2中的回退系数。

在这里，利用回退方法根据基础模型M2计算该二元组的概率，回退方法可以是本领域的技术人员公知的任何方法，例如，参见ReinhardKneser和Hermann Hey于1995年发表的文章“Improved Backing-Off forM-Gram Language Modeling”(IEEE，p.181-184)，前面已经进行的详细说明，在此不再重复。

接着，在步骤210，利用如下公式(5)更新该二元组对于训练语料库M1的重要性：

imp(w_xw_y)+＝imp(w_xw_y；S_i) (5)

在该步骤，将该二元组对于训练语料库M1中的每一个句子的重要性累加，获得该二元组对于训练语料库M1的重要性。

接着，在步骤211，判断是否计算完所有需要计算重要性的二元组的重要性。如果在步骤211判断还有二元组的重要性没有计算，则返回步骤206进行计算。反之，方法进行到步骤212。

在步骤212，判断是否针对训练语料库M1中的每一个句子对二元组的重要性进行了计算。如果在步骤212判断还有训练语料没有处理完，则返回202，在步骤203继续进行计算。反之，方法结束。

应该理解，以上虽然描述了如何计算二元组的重要性，但是，对于其它任何n元组，同样可以利用上述参考图2的方法计算它们的重要性，在此不再赘述。

此外，应该理解，以上虽然计算了n元组对于汉语分词的重要性，但是，对于其它亚洲语言分词，例如日语分词、韩语分词等等，同样可以利用上述参考图2的方法计算n元组对于其它亚洲语言分词的重要性，在此不再赘述。

此外，对于其它实际应用，例如语音识别、亚洲语言的计算机输入等等，上述参考图2的方法同样适用。不同的是，对于语言识别，上述训练语料库中的训练数据为一个或多个输入语音，上述训练语料库中的参考答案是利用未裁剪的二元语言模型对每个输入语音进行识别获得的参考文本，或者是人工进行了识别获得的正确文本，或者是从候选文本中选择的参考文本(例如，可以对候选文本进行本领域的技术人员公知的编辑距离计算，然后选择距离最近的候选文本作为上述参考文本)。因此通过上述图2的方法流程同样可以计算出n元组对于语音识别的重要性，在此不再赘述。

同样，对于亚洲语言的计算机输入，上述训练语料库中的训练数据为一个或多个记音符号串，例如对于汉语的计算机输入，记音符号串为拼音串，对于日语的计算机输入，记音符号串为平假名和片假名串。上述训练语料库中的参考答案是利用未裁剪的二元语言模型对每个记音符号串进行转换获得的参考词串，或者是人工进行了转换获得的正确词串，或者是从候选词串中选择的参考词串(例如，可以对候选词串进行本领域的技术人员公知的编辑距离计算，然后选择距离最近的候选词串作为上述参考词串)，例如，对于拼音串，经过转换获得汉语词串，对于平假名和片假名串，经过转换获得日语词串。因此通过上述图2的方法流程同样可以计算出n元组对于亚洲语言的计算机输入的重要性，在此不再赘述。

最后，在步骤110，将上述多个n元组中重要性高的一个或多个n元组及其概率加入上述初始的基础模型，获得裁剪后的语言模型。

此外，在本发明的一个可选实施例中，可以把步骤110中获得的裁剪后的语言模型看作另一个基础模型，并进一步对其添加n元组，以获得希望尺寸的语言模型。

图3是根据本发明的一个可选实施例的裁剪语言模型的方法的流程图。在图3中，首先，在步骤301，根据上述未裁减语言模型和上述裁剪后的语言模型获得待添加的多个n元组及其概率。在本实施例中，获得的待添加的多个n元组为在上述未裁减语言模型中包括而在上述裁剪后的语言模型中不包括的所有n元组。

接着，在步骤305，利用训练语料库计算上述待添加的多个n元组对于实际应用的重要性。在本实施例中，计算待添加的多个n元组对于实际应用的重要性的方法，与上述参考图1的实施例中的步骤105利用训练语料库计算n元组对于实际应用的重要性的方法相同，在此不再赘述。

接着，在步骤310，将上述待添加的多个n元组中重要性高的一个或多个n元组及其概率加入上述裁剪后的语言模型。

接着，在步骤315，判断裁剪后的语言模型是否达到预定尺寸。预定尺寸是根据实际需要定义的任意尺寸，本发明对此没有任何限制。如果在步骤315确定裁剪后的语言模型小于预定尺寸，则返回301继续进行添加，如果裁剪后的语言模型大于预定尺寸，则减少在上一步骤中添加的个数，从而达到预定尺寸。最后，在裁剪后的语言模型达到预定尺寸后，在步骤320，方法结束。

通过本实施例的裁剪语言模型的方法，由于裁剪准则基于语言模型在实际应用中的性能进行优化，在裁剪到同样大小的模型时，语言模型的性能损失更小。另一方面，在保持同样的性能的条件下，相比其它已有的裁剪方法，该方法可以把模型裁剪得更小。

裁剪语言模型的装置

在同一发明构思下，图4是根据本发明的另一个实施例的裁剪n元语言模型的装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图4所示，本实施例提供了一种裁剪语言模型的装置400，其中，该语言模型包括多个n元组及其概率，以及多个低阶(小于n)的元组及其概率；该装置400包括：基础模型生成单元401，根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率，只包含低阶的元组及其概率；重要性计算单元405，利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案；以及添加单元410，将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型

在本实施例中，上述语言模型是本领域的技术人员公知用于实际应用，例如亚洲语言分词、语音识别、亚洲语言的计算机输入等的任何n元语言模型，本发明对此没有任何限制。例如，参见Yoshihiko Gotoh和SteveRenals于2003年发表的文章“Statistical Language Modeling”，Text andSpeech Triggered Information Access，S.Renals and G.Grefenstette(eds.)，pages 78-105，Springer，2003，以及Jianfeng Gao，Mu Li和Chang-NingHuang于2003年发表的文章“Improved Source-channelModels forChinese Word Segmentation”，In Proc.of the 41st Annual Meeting ofAssociation for Computational Linguis-tics(ACL-2003)，pages 272-279，在此通过参考引入其全部内容。

在本实施例中，通过去掉多个顶阶n元来对一个n元语言模型进行裁剪，其中，n可以是1、2、3...等。因此，裁剪可以针对任何n元语言模型进行，例如对二元语言模型(n＝2)进行裁剪，本发明对此没有任何限制。

在本实施例中，基础模型生成单元401可以通过将上述n元语言模型中的全部n元组及其概率去掉获得初始的基础模型，也就是说，该初始的基础模型只包括低阶元组及其概率，而不包括上述多个n元组及其概率。然而，可选地，也可以根据实际需要去掉上述语言模型中的部分n元组来形成初始的基础模型，本发明对此没有任何限制。

在本实施例中，重要性计算单元405利用训练语料库计算n元组对于实际应用的重要性。该训练语料库包括训练数据和参考答案，其中参考答案是实际应用针对训练数据的参考结果。在本实施例中，该训练语料库中的参考答案可以是利用上述未裁剪的语言模型或本领域的技术人员公知的其它方法获得的参考答案或通过手工获得的正确答案，本发明对此没有任何限制。训练数据和参考答案的具体细节将在下面针对每个具体的实际应用进行详细说明。

下面参考图2对重要性计算单元405利用训练语料库计算上述多个n元组对于实际应用的重要性的过程进行详细描述。图2是根据本发明的实施例的计算二元组重要性的一个实例的流程图。其中，以亚洲语言分词为例对本实施例进行描述，亚洲语言分词包括汉语分词、日语分词、韩语分词等等，下面以汉语分词为例对本实施例进行描述。此外，本实施例以二元语言模型为例进行描述。但是，应该理解，本发明并不限于汉语分词和二元语言模型，而是同样适用于其它实际应用和任意n元语言模型。

例如：

未切分字串：包括已有的疑问

参考词串：包括/已有/的/疑问

包括已有的疑问包括已有有的疑问

包括/已有/的/疑问

包括/已/有的/疑问

d = - g_{0} + \log {(\frac{1}{N} Σ_{r = 1}^{N} \exp [g_{r} \times η])}^{η} - - - (1)

L (d) = \frac{1}{1 + \exp (- γ \times d)} - - - (2)

n^{'} = Σ_{r = 1}^{N} \frac{\exp [g_{r} \times η]}{Σ_{j = 1}^{N} \exp [g_{j} \times η]} n_{r} - - - (3)

其中，imp(w_xw_y；S_i)表示上述二元组的重要性，w_x表示上述二元组中的第一个词，w_y表示上述二元组中的第二个词，S_i表示训练语料库中的第i个句子(即当前句子)，P_F(w_y|w_x)是该二元组在上述语言模型中的二元组概率，logP_B(w_y)+logα_B(w_x)表示该二元组的根据基础模型M2计算的概率，其中P_B(w_y)是基础模型M2中的一元组概率，α_B是模型M2中的回退系数。

在这里，利用回退方法根据基础模型M2计算该二元组的概率，回退方法可以是本领域的技术人员公知的任何方法，例如，参见ReinhardKneser和Hermann Hey于1995年发表的文章“Improved Backing-Off forM-Gram Language Modeling”，IEEE，p.181-184，在此通过参考引入其整个内容。

imp(w_xw_y)+＝imp(w_xw_y；S_i) (5)

应该理解，以上虽然描述了重要性计算单元405如何计算二元组的重要性，但是，对于其它任何n元组，同样可以利用上述参考图2的方法计算它们的重要性，在此不再赘述。

此外，应该理解，以上重要性计算单元405虽然计算了n元组对于汉语分词的重要性，但是，对于其它亚洲语言分词，例如日语分词、韩语分词等等，同样可以利用上述参考图2的方法计算n元组对于其它亚洲语言分词的重要性，在此不再赘述。

在本实施例中，添加单元410将上述多个n元组中重要性高的一个或多个n元组及其概率加入上述初始的基础模型，获得裁剪后的语言模型。

此外，在本发明的一个可选实施例中，可以对添加单元410获得的裁剪后的语言模型进行进一步添加，以获得希望尺寸的语言模型。

在该可选实施例中，裁剪语言模型的装置400还包括待添加n元组获得单元，根据上述语言模型和上述裁剪后的语言模型获得待添加的多个n元组及其概率。在本实施例中，获得的待添加的多个n元组为在上述语言模型中包括而在上述裁剪后的语言模型中不包括的所有或部分n元组，本发明对此没有任何限制。

在该可选实施例中，重要性计算单元405利用训练语料库计算上述待添加的多个n元组对于实际应用的重要性。在本实施例中，计算待添加的多个n元组对于实际应用的重要性的方法，与上述参考图1的实施例中的步骤105利用训练语料库计算n元组对于实际应用的重要性的方法相同，在此不再赘述。

在该可选实施例中，添加单元410将上述待添加的多个n元组中重要性高的一个或多个n元组及其概率加入上述基础模型，从而作为裁剪后的语言模型。

此外，在该可选实施例中，裁剪语言模型的装置400可以利用上述待添加n元组获得单元、上述重要性计算单元405和上述添加单元410多次重复对上述裁剪后的语言模型进行添加，直到上述裁剪后的语言模型达到预定尺寸。预定尺寸是根据实际需要定义的任意尺寸，本发明对此没有任何限制。

本实施例的裁剪语言模型的装置400及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。

通过本实施例的裁剪语言模型的装置400，由于裁剪准则基于语言模型在实际应用中的性能进行优化，在裁剪到同样大小的模型时，语言模型的性能损失更小。另一方面，在保持同样的性能的条件下，相比其它已有的裁剪方法，该方法可以把模型裁剪得更小。

以上虽然通过一些示例性的实施例详细地描述了本发明的裁剪语言模型的方法，以及裁剪语言模型的装置，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种裁剪语言模型的方法，其中，该语言模型包括多个n元组及其概率，以及多个低阶的元组及其概率；上述方法包括：

根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率；

利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案，其中上述参考答案是实际应用针对上述训练数据的参考结果；以及

将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型。

2.根据权利要求1所述的裁剪语言模型的方法，其中，上述利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性的步骤包括：

计算上述基础模型对上述训练数据进行上述实际应用时出错的可能性；

计算上述n元组在上述训练语料库中出现的次数；以及

计算上述n元组在上述实际应用中出现的次数；

其中根据上述出错的可能性、上述n元组在上述训练语料库中出现的次数、和上述n元组在上述实际应用中出现的次数，计算上述重要性。

3.根据权利要求2所述的裁剪语言模型的方法，其中，上述利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性的步骤还包括：

利用上述基础模型计算上述n元组的概率；

其中根据上述出错的可能性、上述n元组在上述训练语料库中出现的次数、上述n元组在上述实际应用中出现的次数、上述n元组在上述语言模型中的概率、和上述n元组的利用上述基础模型计算出的概率，计算上述重要性。

4.根据权利要求3所述的裁剪语言模型的方法，其中，上述实际应用是亚洲语言分词，上述训练数据包括未切分字串，上述参考答案包括对上述未切分字串进行切分的参考词串，以及上述计算上述基础模型对上述训练数据进行上述实际应用时出错的可能性的步骤包括：

计算上述基础模型对上述参考词串进行评价的得分；以及

计算上述基础模型对利用上述基础模型对上述未切分字串进行切分的多个候选词串进行评价的平均得分。

5.根据权利要求4所述的裁剪语言模型的方法，其中，上述计算上述n元组在上述训练语料库中出现的次数的步骤包括：

计算上述n元组在上述参考词串中出现的次数。

6.根据权利要求4所述的裁剪语言模型的方法，其中，上述计算上述n元组在上述实际应用中出现的次数的步骤包括：

计算上述n元组在利用上述基础模型对上述未切分字串进行切分的多个候选词串中出现的平均次数。

7.根据权利要求3所述的裁剪语言模型的方法，其中，上述实际应用是语音识别，上述训练数据包括输入语音，上述参考答案包括对上述输入语音进行识别的参考文本，以及上述计算上述基础模型对上述训练数据进行上述实际应用时出错的可能性的步骤包括：

计算上述基础模型对上述参考文本进行评价的得分；以及

计算上述基础模型对利用上述基础模型对上述输入语音进行识别的多个候选文本进行评价的平均得分。

8.根据权利要求7所述的裁剪语言模型的方法，其中，上述计算上述n元组在上述训练语料库中出现的次数的步骤包括：

计算上述n元组在上述参考文本中出现的次数。

9.根据权利要求7所述的裁剪语言模型的方法，其中，上述计算上述n元组在上述实际应用中出现的次数的步骤包括：

计算上述n元组在利用上述基础模型对上述输入语音进行识别的多个候选文本中出现的平均次数。

10.根据权利要求3所述的裁剪语言模型的方法，其中，上述实际应用是亚洲语言的计算机输入，上述训练数据包括记音符号串，上述参考答案包括对上述记音符号串进行转换的参考词串，以及上述计算上述基础模型对上述训练数据进行上述实际应用时出错的可能性的步骤包括：

计算上述基础模型对上述参考词串进行评价的得分；以及

计算上述基础模型对利用上述基础模型对上述记音符号串进行转换的多个候选词串进行评价的平均得分。

11.根据权利要求10所述的裁剪语言模型的方法，其中，上述计算上述n元组在上述训练语料库中出现的次数的步骤包括：

计算上述n元组在上述参考词串中出现的次数。

12.根据权利要求10所述的裁剪语言模型的方法，其中，上述计算上述n元组在上述实际应用中出现的次数的步骤包括：

计算上述n元组在利用上述基础模型对上述记音符号串进行转换的多个候选词串中出现的平均次数。

13.根据权利要求1所述的裁剪语言模型的方法，其中，上述初始的基础模型通过将上述语言模型中的上述多个n元组及其概率去掉获得。

14.根据权利要求1所述的裁剪语言模型的方法，其中，上述训练语料库中的上述参考答案包括利用上述语言模型获得的参考答案或通过手工获得的正确答案。

15.根据权利要求1所述的裁剪语言模型的方法，还包括：

根据上述语言模型和上述裁剪后的语言模型获得待添加的多个n元组及其概率；

利用训练语料库计算上述待添加的多个n元组中的每一个对于实际应用的重要性；以及

将上述待添加的多个n元组中重要性高的至少一个n元组及其概率加入上述裁剪后的语言模型；

其中，上述待添加的多个n元组为在上述语言模型中包括而在上述裁剪后的语言模型中不包括的多个n元组。

16.根据权利要求15所述的裁剪语言模型的方法，还包括：

重复上述根据上述语言模型和上述裁剪后的语言模型获得待添加的多个n元组及其概率的步骤至上述将上述待添加的多个n元组中重要性高的至少一个n元组及其概率加入上述裁剪后的语言模型的步骤。

17.根据权利要求16所述的裁剪语言模型的方法，还包括：

多次进行上述重复步骤，直到上述裁剪后的语言模型达到预定尺寸。

18.一种裁剪语言模型的装置，其中，该语言模型包括多个n元组及其概率，以及多个低阶的元组及其概率；上述装置包括：

基础模型生成单元，根据上述语言模型生成初始的基础模型，该基础模型不包括上述多个n元组及其概率；

重要性计算单元，利用训练语料库计算上述多个n元组中的每一个对于实际应用的重要性，该训练语料库包括训练数据和参考答案，其中上述参考答案是实际应用针对上述训练数据的参考结果；以及

添加单元，将上述多个n元组中重要性高的至少一个n元组及其概率加入上述基础模型，作为裁剪后的语言模型。

19.根据权利要求18所述的裁剪语言模型的装置，其中，上述重要性计算单元用于：

计算上述n元组在上述训练语料库中出现的次数；以及

计算上述n元组在上述实际应用中出现的次数；

其中上述重要性计算单元根据上述出错的可能性、上述n元组在上述训练语料库中出现的次数、和上述n元组在上述实际应用中出现的次数，计算上述重要性。

20.根据权利要求19所述的裁剪语言模型的装置，其中，上述重要性计算单元还用于：

利用上述基础模型计算上述n元组的概率；

其中上述重要性计算单元根据上述出错的可能性、上述n元组在上述训练语料库中出现的次数、上述n元组在上述实际应用中出现的次数、上述n元组在上述语言模型中的概率、和上述n元组的利用上述基础模型计算出的概率，计算上述重要性。

21.根据权利要求20所述的裁剪语言模型的装置，其中，上述实际应用是亚洲语言分词，上述训练数据包括未切分字串，上述参考答案包括对上述未切分字串进行切分的参考词串，以及上述重要性计算单元用于：

计算上述基础模型对上述参考词串进行评价的得分；以及

22.根据权利要求21所述的裁剪语言模型的装置，其中，上述重要性计算单元用于：

计算上述n元组在上述参考词串中出现的次数。

23.根据权利要求21所述的裁剪语言模型的装置，其中，上述重要性计算单元用于：

24.根据权利要求20所述的裁剪语言模型的装置，其中，上述实际应用是语音识别，上述训练数据包括输入语音，上述参考答案包括对上述输入语音进行识别的参考文本，以及上述重要性计算单元用于：

计算上述基础模型对上述参考文本进行评价的得分；以及

25.根据权利要求24所述的裁剪语言模型的装置，其中，上述重要性计算单元用于：

计算上述n元组在上述参考文本中出现的次数。

26.根据权利要求24所述的裁剪语言模型的装置，其中，上述重要性计算单元用于：

27.根据权利要求20所述的裁剪语言模型的装置，其中，上述实际应用是亚洲语言的计算机输入，上述训练数据包括记音符号串，上述参考答案包括对上述记音符号串进行转换的参考词串，以及上述重要性计算单元用于：

计算上述基础模型对上述参考词串进行评价的得分；以及

28.根据权利要求27所述的裁剪语言模型的装置，其中，上述重要性计算单元用于：

计算上述n元组在上述参考词串中出现的次数。

29.根据权利要求27所述的裁剪语言模型的装置，其中，上述重要性计算单元用于：

30.根据权利要求18所述的裁剪语言模型的装置，其中，上述初始的基础模型通过将上述语言模型中的上述多个n元组及其概率去掉获得。

31.根据权利要求18所述的裁剪语言模型的装置，其中，上述训练语料库中的上述参考答案包括利用上述语言模型获得的参考答案或通过手工获得的正确答案。

32.根据权利要求18所述的裁剪语言模型的装置，还包括：

待添加n元组获得单元，根据上述语言模型和上述裁剪后的语言模型获得待添加的多个n元组及其概率；

其中，上述重要性计算单元用于利用训练语料库计算上述待添加的多个n元组中的每一个对于实际应用的重要性；以及

上述添加单元用于将上述待添加的多个n元组中重要性高的至少一个n元组及其概率加入上述裁剪后的语言模型；

33.根据权利要求32所述的裁剪语言模型的装置，其中，利用上述待添加n元组获得单元、上述重要性计算单元和上述添加单元重复对上述裁剪后的语言模型进行添加。

34.根据权利要求33所述的裁剪语言模型的装置，其中，利用上述待添加n元组获得单元、上述重要性计算单元和上述添加单元多次重复对上述裁剪后的语言模型进行添加，直到上述裁剪后的语言模型达到预定尺寸。