CN101290616A

CN101290616A - 一种统计机器翻译方法和系统

Info

Publication number: CN101290616A
Application number: CNA2008101147351A
Authority: CN
Inventors: 何中军; 刘群; 林守勋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-06-11
Filing date: 2008-06-11
Publication date: 2008-10-22

Abstract

本发明公开了一种统计机器翻译方法和系统，其中该方法包括下列步骤：1)对源语言句进行短语划分，根据划分的短语从双语短语表中检索双语短语；2)检查划分的短语与双语短语匹配程度，如果完全匹配将双语短语加入候选短语表，执行步骤4)，如果部分匹配，执行步骤3)；3)根据划分的短语和双语短语构造翻译模板，把划分的短语与双语短语不同的词语翻译填入翻译模板，生成新双语短语，并加入所述候选短语表；4)根据候选短语表翻译所述待翻译源语言句。本发明能够在双语语料受限的情况下有效的提高翻译质量，解决了统计机器翻译系统面临的数据稀疏问题。

Description

一种统计机器翻译方法和系统

技术领域

本发明涉及机器翻译技术领域，特别涉及一种基于短语的统计机器翻译方法和系统。

背景技术

随着社会的不断进步和经济的飞速发展，国际间的交流和合作日益密切，对不同语种之间的翻译提出了更高的要求。借助于计算机强大的存储和计算能力进行自然语言之间的翻译(又称机器翻译)可以极大地降低翻译成本，提高工作效率。另外，蓬勃发展的互联网络以及多语种的文档资料等为我们提供了大量的平行语料库，为统计机器翻译奠定了深厚的基础。

统计机器翻译是一种基于语料库的翻译方法，其主要思想是对翻译过程构建数学模型，并利用计算机从庞大的双语语料库中自动学习模型参数，最终完成翻译。与传统的基于规则的翻译方法相比，统计机器翻译无需人类专家撰写大量规则，其翻译知识可以全自动的从双语语料库中获取；统计机器翻译具有语言无关性的特点，一个统计机器翻译系统可以翻译多种语言对，而无需做大量的改动，而基于规则的方法需要针对特定的语言对撰写特定的翻译规则。由于以上特点，统计机器翻译系统开发周期短，翻译质量好，是目前被广泛使用的翻译方法。

由于统计机器翻译系统需要从双语平行语料库中学习翻译知识，因此，对于双语语料库的数量和质量要求都比较高。理论上来说，只要有足够多并且足够好的双语语料，统计机器翻译系统就能够输出高质量的译文。然而，在实践中，这样的条件往往很难达到。一方面，有些语言对本身存在的双语语料就比较少，例如蒙古语-汉语，这样训练出来的模型就面临很严重的数据稀疏问题；另一方面，在具体的应用中，对于计算资源会有比较多的限制，例如在手机或者掌上电脑中，其内存和硬盘空间非常有限，限制了统计机器翻译系统的知识库。

目前，在统计机器翻译领域，基于短语的统计机器翻译方法表现出了很好的性能，其中短语是指连续的词语串。该方法的翻译知识是从双语平行语料库中自动学习的双语短语，称之为双语短语表。利用双语短语表，翻译系统能够很好的翻译固定搭配、习惯用语，输出准确度和流利度都很高的译文。在翻译过程中，对于一个具体的短语翻译，普遍采用的方法是完全匹配策略，即如果它和短语表中的某个短语完全一样，那么就能够找到该短语的翻译，否则，即便是只有一个词语不一样，也不能翻译该短语。这就是所谓的数据稀疏问题。当双语语料库规模受限时，数据稀疏问题尤为严重。

因此，如何有效的利用有限的双语语料资源，减轻实际应用中的数据稀疏问题，提高翻译的质量，是一个亟待解决的问题。

发明内容

本发明的目的在于克服现有的利用短语进行翻译的统计机器翻译系统在双语语料库受限时面临的数据稀疏问题，提供一种基于短语的统计机器翻译方法和系统，从而使统计机器翻译系统在双语语料库受限时能够输出高质量的译文。

为了实现上述目的，根据本发明的一个方面，本发明提供了一种基于短语相似度的统计机器翻译方法，包括以下步骤：

1)对源语言句进行短语划分，根据所述划分的短语从双语短语表中检索双语短语；

2)检查所述划分的短语与所述双语短语匹配程度，如果完全匹配将所述双语短语加入候选短语表，执行步骤4)，如果部分匹配，执行步骤3)；

3)根据所述双语短语的词语对齐，删除所述双语短语中与所述划分的短语不同的词语，把所述划分的短语中与所述双语短语不同词语的翻译填入所述双语短语的目标语言短语，生成新双语短语，并加入所述候选短语表；

4)根据所述候选短语表翻译所述待翻译源语言句。

根据本发明的第二方面，所述双语短语包括源语言短语、目标语言短语，源语言短语和目标语言短语内部的词语对齐，短语翻译分数。

根据本发明的第三方面，所述步骤2)根据相似度检查所述划分的短语与所述双语短语的匹配程度。

其中，所述相似度根据所述划分的短语和所述双语短语的源语言短语中相同词语数量占所述划分的短语长度的比例进行计算。

其中，优选的，所述步骤2)的部分匹配是相似度属于(0.3，1)。

根据本发明的第四方面，所述步骤3)进一步包括以下步骤：

31)比较所述划分的短语和所述双语短语的源语言短语中的词语，记录词语不同的位置；

32)删除所述双语短语的源语言短语和目标语言短语的步骤31)所述位置的词语，形成所述翻译模板；

33)翻译与所述双语短语的源语言短语中词语不同的所述划分的短语中的词语，并将翻译结果填入所述翻译模板，生成新双语短语，将所述新双语短语加入所述候选短语表。

根据本发明的第五方面，所述步骤1)进一步包括：

11)对源语言句进行短语划分；

12)根据所述双语短语的源语言短语建立索引，索引项是源语言短语，索引值是双语短语在所述双语短语表中的位置；

13)根据所述划分的短语和所述索引从双语短语表中检索双语短语。

根据本发明的第六方面，所述步骤1)对源语言句进行短语划分，列举该句子所有划分；

所述步骤4)根据所述候选短语表翻译所述待翻译源语言句，根据所述候选短语的翻译分数选择翻译结果。

根据本发明的第七方面，步骤1)的双语短语表通过下列步骤获得：

a)对句子对齐的训练语料库进行词语对齐，得到词语对齐的训练语料库；

b)从所述词语对齐的训练语料库中抽取双语短语形成所述双语短语表。

根据本发明的第八方面，所述步骤b)包括下列步骤：

b1)从所述词语对齐的训练语料库中抽取双语短语；

b2)计算所述抽取的双语短语的翻译分数，生成所述双语短语表。

根据本发明的第九方面，所述步骤b2)的翻译分数包括短语翻译概率和词汇化翻译概率。

根据本发明的第十方面，还提供了一种统计机器翻译系统，包括：

短语划分装置，其用于对源语言句进行短语划分；

短语检索装置，其用于根据所述划分的短语从双语短语表中检索双语短语；

确定匹配程度装置，其用于检查所述划分的短语与所述双语短语的匹配程度，并记录完全匹配的双语短语；

部分匹配短语翻译装置，其用于翻译与所述双语短语部分匹配的划分的短语，生成新双语短语；

源语言句翻译装置，其用于根据完全匹配的双语短语和/或所述部分匹配短语翻译装置生成的新双语短语翻译所述源语言句。

根据上述装置，所述部分匹配短语翻译装置进一步包含如下装置：

比较装置，其用于比较所述部分匹配的划分的短语和所述双语短语的源语言短语中的词语，并记录词语不同的位置；

翻译模板生成装置，其用于删除所述双语短语的源语言短语和目标语言短语的所述比较装置记录位置的词语，形成所述翻译模板；

新双语短语生成装置，其用于翻译与双语短语的源语言短语中词语不同的所述部分匹配的划分的短语中的词语，并将翻译结果填入所述翻译模板生成装置生成的翻译模板，生成新双语短语。

本发明的优点在于：

本发明提供的基于短语的统计机器翻译方法和系统，可以深入挖掘已有的双语语料资源，有效地提高短语表的利用程度，缓解数据稀疏问题；

本发明提供的基于短语的统计机器翻译方法和系统，能够在语料资源受限的情况下，获得较高的翻译质量；

本发明提供的基于短语的统计机器翻译方法和系统，适用于任何使用短语进行翻译的统计机器翻译系统，例如基于短语的系统、基于句法的系统等。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，其中：

图1是从双语语料库中获取双语短语表的流程图。

图2是短语翻译的流程图。

图3是句子翻译的流程图。

具体实施方式

基于短语的统计机器翻译方法首先需要获得双语短语表，然后对源语言句子进行翻译。现有技术中，翻译源语言句子具体包括下列步骤：首先，对待翻译源语言句子F′₁ ^H＝f′₁…f′_H(其中，f′_j(j＝1…H)表示源语言词语)进行短语划分，得到所划分的短语序列

F_{1}^{' H} = {\tilde{F}}_{1}^{' K} = f_{1}^{' X} \cdot \cdot \cdot f_{K}^{' Y}

(其中，f′₁ ^X表示源语言短语，其含有X个源语言词语；f′_K ^Y与f′₁ ^X类似，如公式所示该源语言句子被划分为K个短语)，优选地，列举该句子中所有可能的短语划分；然后，根据待翻译源语言句子从双语短语表中检索双语短语，如果检索到完全匹配的双语短语则将该双语短语加入候选短语表，完成短语翻译；最后，如图3所示，根据该候选短语表翻译该待翻译源语言句子，如果在短语划分时列举了待翻译句子中所有可能的短语划分，则通过短语翻译可以为待翻译句子找到所有可用的双语短语，根据各个双语短语的翻译分数选择待翻译句子的最优翻译结果。从此实施步骤可知，如果检索不到完全匹配的双语短语，则翻译失败。在双语语料受限的情况下，短语完全匹配的可能性较小，则必然造成翻译质量差，也即造成数据稀疏问题。本发明对短语翻译步骤进行研究，完成了部分匹配的短语翻译，从而成功解决了数据稀疏问题。

本领域内技术人员可以理解，现有技术中存在多种双语短语表的获得方式，例如：对句子对齐的训练语料库进行词语对齐训练然后进行短语抽取的方式。本发明在此给出一种训练的实施方式。如图1的流程图所示，根据本实施例，训练进一步包括以下步骤：

步骤101是对句子对齐的训练语料库进行词语对齐，得到词语对齐的训练语料库。其中句子对齐的训练语料库是双语的，且经过了词语切分，并且对源语言句子进行了词性标注；句子对齐是指在语料库中，按照从前到后的顺序，相同序号的源语言的一个句子和目标语言的一个句子互为翻译。

词语对齐是一项比较成熟的技术，本实施例中可采用参考文献1“PeterF.Brown，Stephen A.Della Pietra，Vincent J.Della Pietra，and PobertL.Mercer.1993，The Mathematics of Statistical Machine Translation：ParameterEstimation，Computational Linguistics[J]，vol.19，no.2，pages263-311”中的EM算法。

步骤102是从词语对齐的训练语料库中抽取双语短语形成双语短语表。其中所述的双语短语包括以下四部分：包含J个词的源语言短语f₁ ^J、包含I个词语的目标语言短语e₁ ^I、源语言短语和目标语言短语内部的词语对齐a和短语翻译分数p，表示为(f₁ ^J，e₁ ^I，a，p)。此步骤进一步包括如下步骤：

首先，从词语对齐的语料库中抽取双语短语。例如，双语句对“给我一杯茶，Give me a cup oftea”中的词语对齐关系为“给

Give”，“我

me”，“一

a”，“杯

cup”，“茶

tea”，即“1:1，2:2，3:3，4:4，5:6”，其中“:”前的数字表示汉语词位置，“:”后的数字表示英语词位置。则可抽取短语如“给我|||Give me|||1:1，2:2”，“一杯茶|||a cup of tea|||1:1，2:2，3:4”等。

然后，计算短语翻译分数(可以采用文献2“Philipp Koehn，Franz JosephOch，and Daniel Marcu.2003.Statistical Phrase-Based Translation.InProceedings of the Human Language Technology and North AmericanAssociation for Computational Linguistics Conference，pages 127～133”中的方法)。它包含四部分：短语翻译概率p(e₁ ^I|f₁ ^J)和p(f₁ ^J|e₁ ^I)，词汇化翻译概率p_w(e₁ ^I|f₁ ^J，a)和p_w(f₁ ^J|e₁ ^I，a)。

短语翻译概率p(e₁ ^I|f₁ ^J)表示f₁ ^J翻译为e₁ ^I的概率，计算如下：

p (e_{1}^{I} | f_{1}^{J}) = \frac{N (f_{1}^{J}, e_{1}^{J})}{\underset{e e_{1}^{I}}{Σ} N (f_{1}^{J}, {ee}_{1}^{I})};

同理，可以计算p(f₁ ^J|e₁ ^I)。其中，N(f₁ ^J，e₁ ^I)表示短语对(f₁ ^J，e₁ ^I)在语料库中出现的次数，ee₁ ^I表示f₁ ^J对应的所有可能的目标语言短语，N(f₁ ^J，ee₁ ^I)与N(f₁ ^J，e₁ ^I)同理。

词汇化翻译概率计算如下：

p_{w} ({e_{1}}^{I} | f_{1}^{J}, a) = Π_{i = 1}^{I} \frac{1}{| {j | (i, j) &Element; a} |} \underset{&ForAll; (i, j) &Element; a}{Σ} p (e_{i} | f_{j})

同理，可以计算p_w(f₁ ^J|e₁ ^I，a)。其中，p(e_i|f_j)表示源语言词语f_j(j＝1…J)翻译为目标语言词语e₁，i＝1…I的概率，a表示(f₁ ^J，e₁ ^I)中的词语对齐关系。

作为一个具体实施例，图2示出了根据上述获得的双语短语表进行短语翻译的方法，包括下列步骤：

如图中步骤201所示，根据待翻译源语言句子从双语短语表中检索双语短语。为了加快检索速度，优选的，可以对双语短语表建立索引，索引项是双语短语的源语言短语f₁ ^J，索引值是检索到的双语短语(f₁ ^J，e₁ ^I，a，p)在双语短语表中的位置。

为了加快检索速度，规定所划分的短语f′₁ ^J和f₁ ^J必需含有相同的词语个数，并且具有相同的词性序列，即两个短语中相同位置上的词语词性必须相同。

如图中步骤202所示，检查短语匹配的程度，本发明使用短语相似度来衡量待翻译源语言短语与双语短语中的源语言短语的匹配程度。短语相似度可以由戴斯系数(Dice Coefficient)法、余弦函数法等计算得到。在本实施例中，对戴斯系数法进行了改进。具体说明如下：

对于任意两个源语言短语

f_{1}^{J} = f_{1}, f_{2} \cdot \cdot \cdot f_{J},

f′₁ ^J＝f′₁，f′₂…f′_J，相似度计算如下：

SIM (f_{1}^{J}, {f^{'}}_{1}^{J}) = \frac{Σ_{J = 1}^{J} δ_{f_{J} {f^{'}}_{J}}}{J}

其中，

如果步骤202判断匹配为完全匹配，也即相似度为1.0，则将检索到的双语短语直接加入候选短语表中，其中候选短语表是指待翻译源语言句子所有可用的双语短语的集合。如果是部分匹配，也即相似度大于0小于1.0，则执行步骤203，优选的，选择相似度大于阈值α的所有双语短语，其中阈值α最优取值范围是(0.3，0.5)。

步骤203执行短语翻译。当为一个待翻译源语言短语f′₁ ^J检索到部分匹配的双语短语(f₁ ^J，e₁ ^I，a，p)后，可以为其构造新的短语对(f′₁ ^J，e′₁ ^I′，a，p′)。这一过程称为短语翻译，通过以下步骤可以完成：

比较f₁ ^J和f′₁ ^J每个位置上的词语，得到二者词语不同的位置的集合PosSet＝{j|f_J≠f′_J，j＝1，…，J}；

从源短语f₁ ^J中删除f_J，并根据词语对齐a，从目标短语e₁ ^I中删除f_J对应的词语

其中j∈PosSet；此时，得到一个翻译模板；

从双语短语表中找到词语f′_j(j∈PosSet)的翻译结果e′，并根据词语对齐a将其放到翻译模板中对应的目标语言位置a_j。

例如，对于源语言短语f′₁ ⁴＝“于昨晚抵达泰国”，检索到的部分匹配的短语对是(f₁ ⁴，e₁ ⁴，a，p)＝“于昨天抵达布拉格|||arrived in Pragueyesterday|||1:2 2:4 3:1 4:3|||0.1 0.2 0.3 0.4”。

比较源语言短语每个位置上的词语，第2个位置的词语“昨晚”和“昨天”以及第4个位置的词语“泰国”和“布拉格”不同，则PosSet＝{2，4}；

从f₁ ⁴中删除第2个词语“昨天”和第4个词语“布拉格”，并根据词语对齐a＝“1:2 2:4 3:1 4:3”，从e₁ ⁴中删掉第4个词语“yesterday”和第3个词语“Prague”，得到翻译模板“于X1抵达X2，arrived in X2 X1”，其中，X1和X2是变量，在下一步骤中可以被替换为词语。

从双语短语表中查找词语“昨晚”和“泰国”的翻译，分别是“lastevening”和“Thailand”，根据词语对齐，分别填入翻译模板目标语言的第4个位置和第3个位置，则短语翻译的结果是“于昨晚抵达泰国|||arrived in Thailand last evening”。

计算短语的4个翻译分数。在本实施例中，新构造短语的短语翻译概率等于它所对应的部分匹配短语的短语翻译概率，即

p ({e^{'}}_{1}^{I} | {f^{'}}_{1}^{J}) = P ({e_{1}}^{I} | f_{1}^{J})

p ({f^{'}}_{1}^{J} | {e^{'}}_{1}^{I}) = p (f_{1}^{J} | {e_{1}}^{I})

新构造短语的词汇化翻译概率计算如下：

p_{w} (e_{1}^{' I} | {f^{'}}_{1}^{J}, a) = \frac{p_{w} ({e_{1}}^{I} | f_{1}^{J}, a) \times \underset{(f^{'}, e^{'}) &Element; S^{'} {(f^{'}, e^{'})}}{Π} p_{w} (e^{'} | f^{'})}{\underset{(f, e) &Element; S {(f, e)}}{Π} p_{w} (e | f)}

其中，f和f′表示源语言词语，e和e′表示目标语言词语，S′{(f′，e′)}替换的词对集合是，S{(f，e)}是被替换掉的词对集合。

例如，在上例中

对于本领域普通技术人员来说，本发明可以采用统计机器翻译系统来实现，该系统包含如下几个部分：

短语划分装置，其用于对源语言句进行短语划分。

短语检索装置，其用于根据划分的短语从双语短语表中检索双语短语。

确定匹配程度装置，其用于检查划分的短语与双语短语的匹配程度，并记录完全匹配的双语短语。

部分匹配短语翻译装置，其用于翻译与双语短语部分匹配的所述划分的短语，生成新双语短语。进一步包含如下装置：

比较装置，其用于比较部分匹配的划分的短语和双语短语的源语言短语中的词语，并记录词语不同的位置；

翻译模板生成装置，其用于删除双语短语的源语言短语和目标语言短语的比较装置所记录位置的词语，形成所述翻译模板；

源语言句翻译装置，其用于根据完全匹配的双语短语或部分匹配短语翻译装置生成的新双语短语翻译待翻译源语言句。

对于本领域普通技术人员来说，上述的每个功能都可以采用硬件、软件或硬件和软件的适当组合的方式实现。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于短语的统计机器翻译方法，包括下列步骤：

4)根据所述候选短语表翻译所述待翻译源语言句。

2.根据权利要求1所述的方法，其特征在于，所述双语短语包括源语言短语、目标语言短语，源语言短语和目标语言短语内部的词语对齐，短语翻译分数。

3.根据权利要求2所述的方法，其特征在于，所述步骤2)根据相似度检查所述划分的短语与所述双语短语的匹配程度。

4.根据权利要求3所述的方法，其特征在于，所述相似度根据所述划分的短语和所述双语短语的源语言短语中相同词语数量占所述划分的短语长度的比例进行计算。

5.根据权利要求4所述的方法，其特征在于，所述步骤2)的部分匹配是相似度属于(0.3，1)。

6.根据权利要求2所述的方法，其特征在于，所述步骤3)进一步包括以下步骤：

7.根据权利要求1所述的方法，其特征在于，所述步骤1)包括：

11)对源语言句进行短语划分；

8.根据权利要求2至7中任一项所述的方法，其特征在于，

所述步骤1)对源语言句进行短语划分，列举该句子所有划分；

9.根据权利要求2所述的方法，其特征在于，步骤1)的双语短语表通过下列步骤获得：

10.根据权利要求9所述的方法，其特征在于，所述步骤b)包括下列步骤：

b1)从所述词语对齐的训练语料库中抽取双语短语；

11.根据权利要求10所述的方法，其特征在于，所述步骤b2)的翻译分数包括短语翻译概率和词汇化翻译概率。

12.一种统计机器翻译系统，包括：

短语划分装置，其用于对源语言句进行短语划分；

13.根据权利要求12所述的装置，其特征在于所述部分匹配短语翻译装置进一步包含如下装置：