CN101989261A

CN101989261A - 统计机器翻译短语抽取方法

Info

Publication number: CN101989261A
Application number: CN 200910164809
Authority: CN
Inventors: 刘洋; 夏天; 肖欣延; 刘群
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-08-01
Filing date: 2009-08-01
Publication date: 2011-03-23
Anticipated expiration: 2029-08-01
Also published as: CN101989261B

Abstract

本发明提供一种统计机器翻译短语抽取方法，包括下列步骤：1)从两个方向对双语语料获得多个对齐句对组合，并计算所述多个对齐句对组合的先验概率；2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率，由所述词语对的对齐概率构成对齐矩阵；3)根据所述对齐矩阵，计算短语对齐的频度；4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。本发明能够有效表示所有可能的对齐短语组合，提高了短语抽取的质量，进而能够提高根据所抽取的短语进行翻译的质量。

Description

统计机器翻译短语抽取方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及文本的统计机器翻译领域。

背景技术

随着世界经济的迅猛发展，各国间的文化，经济等的交往越来越频繁，人们每天的工作和生活有时不得不面对来自各个国家的各种语言的资料和信息，随之而来的一个主要问题便是语言理解问题，人们需要能够在较短的时间内理解使用非母语写成的资料。

因此，机器翻译技术应运而生，早期的机器翻译主要集中在规则翻译系统的研究，但翻译规则的书写需要语言专家的参与，而且通常每更换一个翻译领域就要重写一大批的规则，需要耗费大量的人力、物力、财力，在这种情形下，统计机器翻译方法在机器翻译领域迅速崛起。

统计机器翻译通过利用大规模的平行双语语料对翻译系统进行训练(统计建模)来成功完成翻译。只要拥有足够多的双语平行语料，就可以在无人干预的情形下短时间内搭建一个任何语言对象之间的机器翻译系统，而且从目前国际上主流的统计机器翻译系统的效果来看，已基本上赶上甚至超越了规则翻译系统。

但是，现有的统计机器翻译方法存在一些缺陷。作为统计机器翻译技术最重要的第一步，双语语料的对齐基于吉萨++(GIZA++)产生的最优解(1-best)进行。在所生成的被称作对齐矩阵的反映对齐关系的二维矩阵中，如果词语对齐，则相应的元素为“1”；否则为“0”。由于双语语料规模和质量的限制，该对齐矩阵所表示的对齐质量并不理想，从而导致抽取的短语表较差，进一步造成翻译质量差。

发明内容

为了减小统计机器翻译中基于1-best的对齐错误对后续短语抽取的影响，改善抽取短语的质量，本发明提供一种统计机器翻译短语抽取方法。

根据本发明的一个方面，提供了一种统计机器翻译短语抽取方法，包括下列步骤：

1)从两个方向对双语语料获得多个对齐句对组合，并计算所述多个对齐句对组合的先验概率；

2)由所述多个对齐句对组合的词语对的先验概率之和计算所述词语对的对齐概率，由所述词语对的对齐概率构成对齐矩阵；

3)根据所述对齐矩阵，计算短语对齐的频度；

4)根据所述短语对齐的频度计算的所述短语对齐的相对频度和词汇化概率。

在该短语抽取方法中，所述步骤3)进一步包括：

31)根据所述对齐矩阵，对于每个短语对齐，计算内向概率和外向概率；

32)计算所述内向概率和所述外向概率的积作为所述短语对齐的频度。

在该短语抽取方法中，所述步骤32)后还包括：

步骤33)过滤所述短语对齐的频度小于阈值的短语对齐。

在该短语抽取方法中，所述阈值为区间(0.1，1)内的实数。

在该短语抽取方法中，所述步骤1)进一步包括：

分别从两个方向对双语语料进行对齐，每个方向获得多个对齐的最优解以及所述最优解的概率；

获得一个方向的所述多个最优解与另一个方向的所述多个最优解的对齐句对组合，并根据所述最优解的概率计算所述对齐句对组合的先验概率。

在该短语抽取方法中，所述对齐的最优解的个数为大于1且小于11的正整数。

本发明的优点在于，能够有效表示所有可能的对齐短语组合，提高了短语抽取的质量。

附图说明

图1是根据本发明一个具体实施例的统计机器翻译短语抽取方法的流程图；

图2是示出对齐的最优解的个数N与翻译系统的性能的关系的示意图；

图3是当所述对齐的最优解的个数N＝50时，减枝阈值与翻译性能的关系的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的统计机器翻译短语抽取方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了根据本发明一个具体实施例的统计机器翻译短语抽取方法的流程图，如图所示，该方法包括以下步骤：

步骤1)从两个方向对双语语料获得多个对齐句对组合，并计算所述多个对齐句对组合的先验概率。

下面给出执行该步骤的一个示例：

11)分别从源语言到目标语言的方向和相反方向利用GIZA++对双语语料进行对齐，并对于每个方向都输出N个对齐的最优解(N-best)以及对齐的最优解的概率。

12)从每个方向的N个最优解中各取一个进行组合，得到N²个对齐句对组合；对这N²个对齐句对组合，利用启发式合并策略(grow-diag-final-and)，进行合并，根据每个对齐句对组合的两个对齐的最优解的概率之积计算该对齐句对组合的概率，并对对齐句对组合的概率进行平滑，作为该对齐句对组合的先验概率。更具体地，取前N个对齐的最优解的概率并进行归一化。假设对于某一可能的对齐句对的两个方向的对齐，GIZA++输出概率分别为p₁，p₂，则对于对应的对齐句对组合，利用启发式合并策略进行合并后所得到的对齐句对组合的先验概率为(p₁p₂)^a。由于启发式合并是基于规则的，因此指数为一个控制平滑的参数，优选的，该指数的范围为(0.1，2)。特别的，对于新闻语料，该参数优选为1，而对于口语，该参数优选为0.5。

本领域普通技术人员可以理解，除了上面所述的示例，也可以使用例如“判别式”对齐模型等来直接生成N²个对齐句对组合，并计算该N²个对齐句对组合的先验概率。

步骤2)、对于所有对齐的最优解，将其先验概率压缩到一个二维对齐矩阵上，对齐矩阵上的(i，j)元素的数值表示所对应的词语对的对齐概率，其为N²个对齐句对组合中该词语对的先验概率之和。如果存在空词，则所有对齐包括空词和其相应的词语的对齐。值得注意的是在对齐矩阵上的每一个元素仅仅反映对应的词语对的对齐的概率，而与其它词语对的对齐没有关系。

步骤3)、在二维对齐矩阵上进行短语抽取：枚举所有短语对齐，计算内向概率和外向概率，用其乘积作为该短语对齐的频度。根据本发明的优选实施例，利用频度阈值过滤掉对齐的频度较低的低质量的短语。下面给出一个计算内向概率和外向概率的具体示例。

假定对齐矩阵如下：

其中，对齐句对为“中国的经济发展“和”the development of China’s economy“。矩阵中的每一个元素均表示一个词语对的对齐概率，可以理解，该词语对不对齐的概率就是(1-该对齐概率)。

对于任意一个给定的短语对齐，例如“中国的”和“of China”，如上表所示，将矩阵的元素划分为三部分：

1：内部元素，如虚线矩形和实线矩形相重合的部分；

2：外部元素，如虚线矩形和实线矩形中除内部元素的部分；

3：不相关元素，如对齐矩阵中其它元素。

根据短语抽取的“对齐一致性”原则，如果可以抽取“中国的”和“of China”这个短语对齐，就要求两点：

1：内部元素存在一个不为0的情况，这对应于内部概率，其等于(1-所有内部元素同时为0的概率之积)。

2：外部元素所有均为0的情况，这对应于外部概率，其等于所有外部元素同时为0的概率之积。

仍以短语对齐“中国的”和“of China”为例，其

内部概率为：1-(1-1.0)(1-0)(1-0)(1-0.6)＝1

外部概率为：

(1-0)(1-0)(1-0)(1-0.4)(1-0)(1-0)(1-0)(1-0)(1-0)(1-0)(1-0)(1-0.4)＝0.36

因此该短语对齐的频度为1*0.36＝0.36

枚举所有短语对齐是一个穷举对齐矩形内部的所有子矩阵的过程。如上所述使用内向概率和外向概率的乘积来评价短语对齐的频度。使用一个阈值来控制最小频度的短语对齐，其中该阈值的范围是(0.1，1)。优选地，如果在枚举的过程中发现某个短语对齐的频度小于阈值，则不再对该短语对齐继续计算。此过程被称为减枝过程，其在实际中被证明有效提高了方法的速度。

步骤4)根据上述所计算的短语对齐的频度计算短语对齐的相对频度和词汇化概率，并输出短语表，其中相对频度和词汇化概率均是短语对齐的特征。

对于对齐短语的相对频度P_rel(tgt|src)，根据本发明的一个具体实施例，采用如下面公式进行计算：

P_{rel} (tgt | src) = c (src, tgt) / \underset{{tgt}_{*}}{Σ} c (src, {tgt}^{*})

其中src表示源语言短语，tgt表示某一个目标语言短语，tgt^*表示任一的目标语言短语，c(src，tgt)表示如上所述的短语对齐src-tgt的频度，c(src，tgt^*)与之类似。

对于对齐短语的词汇化概率

根据本发明的一个具体实施例，采用如下面公式进行计算：

p_{w} (\tilde{e} / \tilde{f}, m) = Π_{i = 1}^{| \tilde{e} |} ((\frac{1}{| {j / p (j, i) > 0} |} \times \underset{&ForAll; j : p (j, i) > 0}{Σ} p (e_{i} / f_{j}) \times p (j, i)) + p (e_{i} / f_{0}) \times Π_{j = 1}^{| \tilde{f} |} (\overset{&OverBar;}{p} (j, i)))

其中

表示目标语言短语，

表示源语言短语，m表示对齐矩阵，p(j，i)表示对齐矩阵中第j行，第i列位置的元素，符号|{j/p(j，i)＞0}|表示取符合条件的j的个数，p(e_i/f_j)表示短语对齐e_i-f_j的相对频度特征，f₀表示空词，

表示源语言短语

中的词语的个数，

\overset{&OverBar;}{p} (j, i) = 1 - p (j, i) .

本发明提取了更高效的短语对齐集合，以提高后续的机器翻译的质量。在本发明的汉语到英语的实施例中，使用大约23万句对的新闻FBIS作为训练集合，使用国际知名的开源机器翻译系统摩西(Moses)进行测试，使用机器翻译的标准度量方法BLEU进行效果衡量，其中BLEU越高表示效果越好。

图2示出了当上面所述对齐的最优解的个数N取不同数值时翻译系统的性能比较示意图。如图所示，当N＝1时，即根据现有技术多获得的短语对齐，摩西系统的BLEU为0.2826，N＞1时，诸如N＝50，翻译系统的性能大于N＝1的情况。当N＝10时BLEU为0.29，但当N＞10，系统性能又出现了下降，综合考虑时间因素，所以优选的，1＜N≤10。

图3示出了当所述对齐的最优解的个数N＝50时，减枝阈值t对最后翻译性能的影响，其反映了不同阈值下抽取的规则数量对BLEU的影响。如图所示，当阈值为(0.1，1)的范围内时，BLEU的值已经收敛，所以该阈值优选为(0.1，1)。

综合上面两个实验结果来看，根据本发明的实施例的统计机器翻译短语抽取方法对后续的机器翻译有着显著的积极作用。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

Claims

1.一种统计机器翻译短语抽取方法，包括下列步骤：

3)根据所述对齐矩阵，计算短语对齐的频度；

4)根据所述短语对齐的频度计算所述短语对齐的相对频度和词汇化概率。

2.根据权利要求1所述的短语抽取方法，其特征在于，所述步骤3)进一步包括：

3.根据权利要求2所述的短语抽取方法，其特征在于，所述步骤32)后还包括：

步骤33)过滤所述短语对齐的频度小于阈值的短语对齐。

4.根据权利要求3所述的短语抽取方法，其特征在于，所述阈值为区间(0.1，1)内的实数。

5.根据权利要求1所述的短语抽取方法，其特征在于，所述步骤1)进一步包括：

6.根据权利要求1或5所述的短语抽取方法，其特征在于，所述对齐的最优解的个数为大于1且小于11的正整数。