CN100527125C

CN100527125C - 一种统计机器翻译中的在线翻译模型选择方法和系统

Info

Publication number: CN100527125C
Application number: CNB2007100997246A
Authority: CN
Inventors: 吕雅娟; 刘群; 黄瑾
Original assignee: Institute of Computing Technology of CAS
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-05-29
Filing date: 2007-05-29
Publication date: 2009-08-12
Anticipated expiration: 2027-05-29
Also published as: CN101079028A

Abstract

本发明公开了一种统计机器翻译的在线翻译模型选择方法，包括训练和翻译两个阶段，训练阶段包括：收集双语平行语料库，根据类型，将双语平行语料库划分到不同的子语料库中；为子语料库训练候选翻译模型；为子语料库建立索引，得到语料库索引文件；翻译阶段包括：输入待翻译文本，从语料库索引文件中检索与待翻译文本中的句子相似的句子；根据检索结果，得到与相似句子所在子语料库所对应的候选翻译模型，从所有的候选翻译模型中选择最终翻译模型；根据最终翻译模型对输入的待翻译文本进行翻译，得到最后的翻译结果。本发明很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题，能够有效地提高统计机器翻译系统的翻译质量。

Description

一种统计机器翻译中的在线翻译模型选择方法和系统

技术领域

本发明涉及统计机器翻译技术领域，特别涉及统计机器翻译系统的在线翻译模型选择方法。

背景技术

随着信息时代的到来以及互联网的迅猛发展，各国间的交流日益广泛，人们对于机器翻译的需求也越来越迫切。近年来，机器翻译研究取得了很大的发展，尤其是以统计机器翻译技术为代表的机器翻译新技术取得了一定程度的突破，成为目前机器翻译研究的主流。

机器翻译方法可分为基于规则的机器翻译方法(即规则机器翻译方法)和基于统计的机器翻译方法(统计机器翻译方法)。在传统的基于规则的机器翻译方法中，翻译知识主要体现为词典和规则，而词典和规则主要依靠人类专家来编写。这种方法存在的主要问题有：人类专家编写语言知识需要耗费大量的人力物力和时间；人类专家编写的知识很难全面覆盖真实翻译环境中面临的各种问题；人类专家编写的语言知识在面临冲突时没有好的解决办法；人类专家编写的语言知识不方便移植到不同的语种和领域。而在统计机器翻译中，所有的翻译知识全部来源于真实的双语平行语料库(parallel corpus)，通过统计建模，自动学习双语平行语料库中的翻译知识，因此克服了人类专家编写知识所面临的主要问题，而且容易移植到新的领域和语种上。由于具有严格的统计模型为依据，在克服知识的冲突上有比较合理的解决办法，总体上可以到达较好的翻译结果。这是目前基于统计的机器翻译方法的翻译质量可以超过基于规则的机器翻译方法的主要原因。

统计机器翻译系统的建立通常包括两个主要过程：训练和解码。所谓训练就是根据一定的算法从语料库资源中自动估计出统计翻译模型的参数；所谓解码就是根据训练过程得到的模型参数对输入文本进行翻译的过程，因此解码通常也直接称为翻译。在参考文献1“Peter F.Brown，Stephen A.Della Pietra，Vincent J.Della Pietra，andPobert L.Mercer.1993，The Mathem atics of Statistical Machine Translation：ParameterEstimation，Computational Linguistics[J]，vol.19，no.2，pages263-311”；参考文献2“Philipp Koehn，Franz Joseph Och，and Daniel Marcu.2003.Statistical phrase-basedtranslation.In Proceedings of Human Language Technology Conference/North Americanchapter of the Association for Computational Linguistics annual meeting 2003，pages127-133”；参考文献3“Franz J.Och and Hermann Ney.2002.Discriminative trainingand maximum entropy models for statistical machine translation.In Proceedings of the40th Annual Meeting of Association for Computational Linguistics 2002，pages295-302.”中都有对现有技术中训练和解码过程的说明。

统计机器翻译的训练过程中的一个重要的资源就是双语平行语料库，即包含两种语言对照翻译的文本的集合。由于统计机器翻译系统中的翻译知识全部来源于双语平行语料库，因此双语平行语料库的规模和质量直接影响到翻译系统的翻译质量。一般来说，用于训练翻译模型的双语平行语料库规模越大，训练得到的模型参数越稳定，越接近于真实情况，翻译质量越高。因此很多研究者提出了自动搜集双语语料库的方法，如从Web上自动获取双语平行语料库或从可比文本中获取双语平行语料库等。但是，目前搜集的双语平行语料库往往具有很强的领域性，如目前在汉英统计机器翻译训练中常用的几个规模比较大的双语平行语料库分别来自于香港议会会议录、香港法律、新华社新闻等相差很远的若干领域。简单地将这些领域相差很远的语料库合并进行训练并不能明显提高翻译质量。利用某一领域的语料库训练得到的翻译模型在该领域可以得到很好的翻译结果，而将该模型应用于其它领域翻译时翻译质量就会下降很多，即统计机器翻译系统对于训练语料和翻译文本的领域非常敏感。在实际应用中，大多情况下系统无法预知用户输入的待翻译文本的领域，如果用一个统一的模型来翻译不同领域的文本，势必会影响系统的翻译质量。因此，如何提高统计机器翻译系统对不同翻译文本的领域适应能力，改善统计机器翻译系统的翻译质量、推进统计机器翻译系统的实用性是人们迫切需要解决的问题。

发明内容

本发明的目的在于克服现有的统计机器翻译系统不能同时适应不同领域翻译文本的缺陷，提供一种根据所要翻译的文本选择翻译模型的方法，从而对于不同领域的翻译输入都能取得较好翻译结果。

为了实现上述目的，本发明提供了一种统计机器翻译中候选翻译模型生成方法，包括以下步骤：

步骤101)、收集双语平行语料库，根据类型，将双语平行语料库划分到不同的子语料库中，从而构建不同类型的子语料库；其中，所述的将双语平行语料库划分到不同的子语料库中包括：划分双语平行语料库时，根据双语平行语料库中数据的所属领域、主题和用词，采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中；

步骤102)、根据步骤101)得到的子语料库，训练候选翻译模型；其中，对每个子语料库进行翻译模型的训练，得到对应的子翻译模型；对所有的子语料库合并进行翻译模型的训练，得到一个通用的翻译模型；所有的子翻译模型和通用翻译模型统称为候选翻译模型；

步骤103)、为步骤101)得到的子语料库建立索引，得到语料库索引文件。

上述技术方案中，所述的分类或聚类方法包括k均值聚类法或k近邻分类法或最大熵分类法。

上述技术方案中，在所述的步骤103)中，为双语平行语料库中每个翻译句对的源语言句子建立索引，所述索引包括翻译句对的源语言句子所在子语料库的信息。

上述技术方案中，采用Lemur信息检索工具建立索引。

本发明还提供了一种统计机器翻译中利用候选翻译模型进行翻译的方法，包括以下步骤：

步骤200)、采用所述的统计机器翻译中候选翻译模型生成方法生成候选翻译模型以及各个子语料库的语料库索引文件；

步骤201)、输入待翻译文本，从所述语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子，得到检索结果；其中，所述检索结果中的句子称为相似句子；

步骤202)、根据步骤201)的检索结果，得到与相似句子所在子语料库所对应的候选翻译模型，从所有的候选翻译模型中选择最终翻译模型；

步骤203)、根据步骤202)所确定的最终翻译模型对输入的待翻译文本进行翻译，得到最后的翻译结果。

上述技术方案中，在所述的步骤201)中，采用相似度检索模型计算所述的待翻译文本与语料索引文件中所有索引文档之间的相似度，然后根据相似度大小为所有的计算结果按从大到小依次排序，选择相似度最高的至少一个句子，所选择的句子包括该句子所在子语料库的信息。

上述技术方案中，采用向量空间模型及TF-IDF相似度计算方法实现相似句子的检索。

上述技术方案中，在所述的步骤202)中，设定选择策略，根据选择策略从所有的候选翻译模型中选择一个候选翻译模型或几个候选翻译模型的组合作为所述的最终翻译模型。

所述的选择策略包括根据同一子语料库中所包含相似句子的个数确定候选翻译模型，或结合相似度的数值来确定候选翻译模型。

本发明又提供了一种统计机器翻译的在线翻译模型选择方法，包括训练和翻译两个阶段，其特征在于，所述的训练阶段包括以下步骤：

步骤103)、为步骤101)得到的子语料库建立索引，得到语料库索引文件；

所述的翻译阶段包括以下步骤：

步骤201)、输入待翻译文本，从步骤103)得到的语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子，得到检索结果；其中，所述检索结果中的句子称为相似句子；

本发明又提供了一种统计机器翻译中的在线翻译模型选择系统，包括训练模块和翻译模块，所述的训练模块包括语料库收集单元、候选翻译模型训练单元和索引建立单元，所述的翻译模块包括检索单元、候选翻译模型选择单元和翻译单元；其中：

所述的语料库收集单元用于收集双语平行语料库，并根据所收集双语平行语料库的类型，构建子语料库；其中，所述的将双语平行语料库划分到不同的子语料库中包括：划分双语平行语料库时，根据双语平行语料库中数据的所属领域、主题和用词，采用分类或聚类方法将具有相似的领域、主题和用词的双语平行语料库划分到同一个子语料库中；

所述的候选翻译模型训练单元用于为所述的子语料库训练候选翻译模型；其中，对每个子语料库进行翻译模型的训练，得到对应的子翻译模型；对所有的子语料库合并进行翻译模型的训练，得到一个通用的翻译模型；所有的子翻译模型和通用翻译模型统称为候选翻译模型；

所述的索引建立单元为所述的子语料库建立索引，得到语料库索引文件；

所述的检索单元用于根据输入的待翻译文本，从所述的语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子，得到检索结果；其中，所述检索结果中的句子称为相似句子；

所述的候选翻译模型选择单元用于根据检索结果，得到与相似句子所在子语料库对应的候选翻译模型，从所有的候选翻译模型中选择最终翻译模型；

所述的翻译单元根据所选择的最终翻译模型对待翻译文件进行翻译。

本发明的优点在于：

1.本发明提供的这种在线翻译模型选择方法，使得统计机器翻译系统可以根据输入的待翻译文本，在线选择适合的翻译模型进行翻译，很好地解决了统计机器翻译系统不能适应不同领域输入文本的问题，能够有效地提高统计机器翻译系统的翻译质量，为统计机器翻译系统的实用化提供了可行的方案。

2.本发明提供的在线翻译模型选择方法，与具体的统计机器翻译方法的建模、训练和解码过程是独立的，可以适用于各种统计机器翻译方法，如基于词汇的统计机器翻译方法、基于短语的统计机器翻译方法，基于句法的统计机器翻译方法等。因此该发明具有适应性好，实施简单等优点。

附图说明

图1为本发明的统计机器翻译的在线翻译模型选择方法中模型训练部分的示意图；

图2为统计机器翻译的在线翻译模型选择方法中在线翻译部分的示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

本发明的统计机器翻译的在线翻译模型选择方法包括模型训练和在线翻译两大部分，下面分别进行详细说明。

如图1所示，本发明的模型训练过程具体包括以下步骤：

步骤101、收集双语平行语料库，根据类型，将双语平行语料库划分到不同的子语料库中，从而构建不同类型的子语料库。在本步骤中，所收集的双语平行语料库一般是句子对齐的双语语料库，该语料库中包含句子的对照翻译。在把双语平行语料库划分到不同类型的子语料库中时，应当使得同一个子语料库中的数据尽可能具有相似的领域、主题和用词等，不同的子语料库之间的数据的领域、主题及用词等的差距尽可能大。在将双语平行语料库划分到不同类型的子语料库中时，可采用分类或聚类的方法，现有的分类或聚类方法都可应用于本发明，如常用的k均值聚类、k近邻分类、最大熵分类等方法。此外，在收集双语语料库时，往往可以知道语料库的来源和领域，这时可以按照语料库的来源和领域直接将语料库分成几个领域不同的子语料库。

通过上述操作，所收集的双语平行语料库被划分成几个子语料库。所划分的子语料库个数不宜过多，要保证每个子语料库包含一定规模的语料(即翻译句对)，以避免子语料库规模过小而对翻译质量造成的影响。另外，在子语料库划分过程中，原有语料库中的一个翻译句对也可能同时分在不同的子语料库中，也就是说划分完的子语料库中允许包含相同的翻译句对。

步骤102、根据步骤101得到的子语料库，训练候选翻译模型。在训练候选翻译模型时，对划分好的每个子语料库进行翻译模型的训练，得到对应的子翻译模型。同时，利用所有的双语平行语料库进行训练，得到一个通用的翻译模型。

在本步骤中，翻译模型的训练是成熟的现有技术，可以采用常用的翻译模型训练方法，例如，在本实施例中可采用参考文献1中所披露的EM训练法；在参考文献2中所披露的最大似然训练法；和在参考文献3中所披露的判别训练方法等。

通过本步骤得到的翻译模型就是在后续的翻译阶段所要用到的候选翻译模型。

步骤103、为子语料库建立索引，得到语料库索引文件。对子语料库中的每个翻译句对的源语言句子建立索引，在所建立的索引中包括翻译句对的源语言句子所在子语料库的信息。建立索引的目的是使得在后续翻译过程中可以方便、快速地检索查找到与给定文本最相似的N个句子，同时可以知道这些句子来源于哪一个或哪几个子语料库。为子语料库建立索引的工作采用成熟的现有技术即可，在本实施例中可使用Lemur信息检索工具建立索引。在建立索引的过程中把每个翻译句对的源语言句子看作一个文档，同时在文档的路径信息中记录了该文档所属的子语料库信息。

通过上述的操作，完成了对翻译模型的训练过程，下面对在线翻译的过程进行具体的说明。

如图2所示，本发明的统计机器翻译的在线翻译模型选择方法中的在线翻译方法包括以下步骤：

步骤201、输入待翻译文本，从语料库索引文件中检索与待翻译文本中的句子相似的训练句子。

对待翻译文件检索相似句子时，可利用相似度检索方法从训练语料库的索引中检索出最相似的N个句子，每个句子同时包含其对应的子语料库信息，即该句子属于哪一个子语料库。

其中，上述的相似度检索方法具有多种实现方式，如Dice系数法、编辑距离法、余弦函数法等。在本实施例中可采用信息检索中常用的向量空间模型及TF-IDF相似度计算方法来实现相似句子的检索，具体说明如下：

在向量空间模型检索过程中，将用户输入的查询和系统中的文档都使用向量表示，假设共有n个单词，则每篇文档(或查询)D_i都可视为一个n维向量(w_i1，w_i2，...，w_in)，其中的w_ij表示文档D_i中的第j维的权值，对该权值的计算可按如下的TF-IDF方法进行：

w_ij＝tf_ij×log(idf_j)

其中，tf_ij是指单词j在文档D_i中出现的频次，tf_ij的值越大，表示单词j对于文档D_i越重要；而idf_j称为逆文本频率指数，为包含有单词j的文档数目的倒数，计算时一般使用文档总数除以含有单词j的文档数。idf_j越小，包含单词j的文档数目越多，表示单词j在衡量文档相似性方面的作用越低。

当用户输入待翻译文本时，检索系统首先计算待翻译文本与所有索引文档向量之间的相似度，然后根据相似度大小为所有的计算结果从大到小依次排序。在计算相似度时，常采用向量之间的夹角余弦或者内积来表示相似度大小。

在步骤103中提到可以采用Lemur信息检索工具建立索引，在本步骤中，同样可利用Lemur信息检索工具实现基于向量空间模型及TF-IDF相似度的相似句子检索。通过检索，可获得前N个与待翻译文本最相似的训练句子，同时可以获得每个句子的所属训练子语料库信息。

步骤202、根据步骤201中检索的结果选择翻译模型。在步骤201得到所检索到的相似句子后，还得到了相似句子所属子语料库的信息。根据步骤102中的相关描述信息，一个子语料库对应有一个候选翻译模型，而在步骤201所得到的多个相似句子可能从属于不同的子语料库，因此也会对应不同的候选翻译模型，在本步骤中就是要根据一定的选择策略选择其中的一个候选模型或几个候选模型的组合作为最后的翻译模型。所述的选择策略可以根据实际需要确定，如既可以根据子语料库相似句子的个数，也可以结合相似度的数值来确定选择策略。假设对一个待翻译的句子，它有5个相似句子，其中3个相似句子属于子语料库1，1个相似句子属于子语料库2，1个相似句子属于子语料库3，则根据子语料库相似句子个数的选择策略，将子语料库1对应的候选翻译模型作为最终的翻译模型。又假设对一个待翻译的句子，它有5个相似句子，它们的相似度分别为0.9、0.7、0.5、0.3、0.1，其中，第1和第2个相似句子属于子语料库1，第3、4、5个相似句子属于子语料库2，则根据相似度数值的选择策略，由于子语料库1的相似度总值为1.6(0.9+0.7)，而子语料库2的相似度总值为0.9(0.5+0.3+0.1)，因此，尽管子语料库2包含的相似句子更多，但仍然选择子语类库1所对应的候选翻译模型作为最终的翻译模型。

下面采用一个简单的模型选择策略对本步骤的具体实现过程进行说明：

if Proportion(max_model)>0.5

δ₀＝0；δ_{i=max_model}＝1；δ_{i≠max_model}＝0；

else

δ₀＝1；δ_i＝0；

其中，δ₀表示通用翻译模型的权重，δ_i表示第i个子翻译模型的权重，i＝(1...M)。Max_model是占有最大比例的那个模型。函数Proportion(Max_model)表示检索到的相似句子中，属于Max_model所对应的子语料库的句子所占的比例。

在确定模型的权重δ₀和δ_i后，最终的翻译模型为这些候选模型的对数线性插值：

\hat{e} = \underset{e}{\arg \max} (δ_{0} \log (p_{0} (e | c)) + Σ_{i = 1}^{M} δ_{i} \log (p_{i} (e | c)))

其中，c表示待翻译的汉语句子，e表示候选翻译结果，

表示概率最大的翻译结果。p₀是利用通用翻译模型得到的翻译概率，p_i是利用第i个翻译模型得到的翻译概率。

根据该公式及上面的模型选择策略，当最大比例的模型Max_model所占的比例大于0.5时，使用Max_model作为最后的翻译模型，否则，使用通用模型作为最后的翻译模型。当然，也可以定义更复杂的模型选择策略，如下面的策略是根据检索到的相似句子中每个子语料库所占的比例来决定各个子模型的权重：

If Proportion(max_model)>0.5

δ₀＝0；

δ_i＝proportion(model_i)；

else

δ₀＝0.5；

δ_i＝0.5×proportion(model_i)；

步骤203、根据步骤202所确定的翻译模型对输入的待翻译文本进行翻译，得到最后的翻译结果。

本步骤与现有的统计机器翻译系统中的翻译实现过程相类似，因此，在本发明中不再做详细说明。

上面是对本发明的统计机器翻译中的在线翻译模型选择方法实现过程的具体说明，与现有技术相比，本发明为收集到的双语平行语料库按照类别进行了划分，并为每个子语料库建立了相应的翻译模型，为所有的双语平行语料库建立了通用模型，并为源语言句子建立了相应的索引文件。当输入待翻译文本后，首先搜索相似句子，根据相似句子选择翻译模型，避免了现有技术采用单一的翻译模型所造成的翻译精确度不高，对不同领域翻译文本适应能力弱的缺陷。

根据本发明提出的统计机器翻译中的在线模型选择方法，本发明还提出了与之相适应的在线翻译模型选择系统，该系统包括训练模块和翻译模块，其中的训练模块包括语料库收集单元、候选翻译模型训练单元和索引建立单元，翻译模块包括检索单元、候选翻译模型选择单元和翻译单元。

语料库收集单元用于收集双语平行语料库，并根据所收集双语平行语料库的类型，构建子语料库。

候选翻译模型训练单元用于为子语料库训练候选翻译模型。

索引建立单元为子语料库建立索引，得到语料库索引文件。

检索单元用于根据输入的待翻译文本，从语料库索引文件中检索与待翻译文本中的句子相似的句子。

候选翻译模型选择单元用于根据检索结果，得到与相似句子所在子语料库对应的候选翻译模型，从所有的候选翻译模型中选择最终翻译模型。

翻译单元根据所选择的最终翻译模型对待翻译文件进行翻译。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种统计机器翻译中候选翻译模型生成方法，包括以下步骤：

步骤102)、根据所述子语料库，训练候选翻译模型；其中，对每个子语料库进行翻译模型的训练，得到对应的子翻译模型；对所有的子语料库合并进行翻译模型的训练，得到一个通用的翻译模型；所有的子翻译模型和通用翻译模型统称为候选翻译模型；

步骤103)、为所述子语料库建立索引，得到语料库索引文件。

2、根据权利要求1所述的统计机器翻译中候选翻译模型生成方法，其特征在于，所述的分类或聚类方法为k均值聚类法或k近邻分类法或最大熵分类法。

3、根据权利要求1所述的统计机器翻译中候选翻译模型生成方法，其特征在于，在所述的步骤103)中，所述子语料库建立索引，是指：

子语料库中每个翻译句对的源语言句子建立索引，所述索引包括翻译句对的源语言句子所在子语料库的信息。

4、根据权利要求3所述的统计机器翻译中候选翻译模型生成方法，其特征在于，采用Lemur信息检索工具建立索引。

5、一种统计机器翻译中利用候选翻译模型进行翻译的方法，包括以下步骤：

步骤200)、采用权利要求1-4之一的统计机器翻译中候选翻译模型生成方法生成候选翻译模型以及各个子语料库的语料库索引文件；

步骤202)、根据所述检索结果，得到与相似句子所在子语料库所对应的候选翻译模型，从所有的候选翻译模型中选择最终翻译模型；

步骤203)、根据所述最终翻译模型对输入的待翻译文本进行翻译，得到最后的翻译结果。

6、根据权利要求5所述的统计机器翻译中利用候选翻译模型进行翻译的方法，其特征在于，在所述的步骤201)中，所述从语料库索引文件中检索与待翻译文本中的句子相似度最高的至少一个句子，是指：

采用相似度检索方法计算所述的待翻译文本与语料索引文件中所有索引文档之间的相似度，然后根据相似度大小为所有的计算结果按从大到小依次排序，选择相似度最高的至少一个句子，所选择的句子包括该句子所在子语料库的信息。

7、根据权利要求6所述的统计机器翻译中利用候选翻译模型进行翻译的方法，其特征在于，所述相似度检索方法为向量空间模型及TF-IDF相似度计算方法。

8、根据权利要求5所述的统计机器翻译中利用候选翻译模型进行翻译的方法，其特征在于，在所述的步骤202)中，所述从所有的候选翻译模型中选择最终翻译模型，是指：

设定选择策略，根据选择策略从所有的候选翻译模型中选择一个候选翻译模型或几个候选翻译模型的组合作为所述的最终翻译模型。

9、根据权利要求8所述的统计机器翻译中利用候选翻译模型进行翻译的方法，其特征在于，所述的选择策略为根据同一子语料库中所包含相似句子的个数确定候选翻译模型，或结合相似度的数值来确定候选翻译模型。

10、一种统计机器翻译中的在线翻译模型选择方法，包括训练和翻译两个阶段，其特征在于，所述的训练阶段包括以下步骤：

步骤103)、为所述子语料库建立索引，得到语料库索引文件；

所述的翻译阶段包括以下步骤：

11、一种统计机器翻译中的在线翻译模型选择系统，包括训练模块和翻译模块，其特征在于，所述的训练模块包括语料库收集单元、候选翻译模型训练单元和索引建立单元，所述的翻译模块包括检索单元、候选翻译模型选择单元和翻译单元；其中：