CN103631773A

CN103631773A - 基于领域相似性度量方法的统计机器翻译方法

Info

Publication number: CN103631773A
Application number: CN201310689351.3A
Authority: CN
Inventors: 曹海龙; 刘淋; 赵铁军; 郑德权; 杨沐昀; 徐冰; 朱聪慧
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2013-12-16
Filing date: 2013-12-16
Publication date: 2014-03-12

Abstract

基于领域相似性度量方法的统计机器翻译方法，涉及机器翻译技术领域。它解决了现机器翻译技术中选取平行语料的方法中，采用余弦函数与词频来作为领域间相似性的度工具并不能反应实际的相似程度以及忽略了文字背后的语义关联，而导致选取的平行语不能反映实际含义、最终影响翻译结果准确性的问题。本发明是在现有统计机器翻译方法中，在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料，其中判断相似性的方法为：用相对词频或主题模型作为特征代表，采用余弦距离数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行档相似性度量。本发明的翻译结果更接近于人工翻译的结果。

Description

基于领域相似性度量方法的统计机器翻译方法

技术领域

本申请涉及机器翻译技术领域，具体涉及到机器翻译领域中平行语料选取技术。

背景技术

在全球化趋势下，世界各国、各民族之间的交往越来越频繁。而要进行畅通无阻的交流，语言是一大障碍。于是，机器翻译作为从一种语言到另一种语言的自动翻译有着巨大的市场需求和广泛的应用前景。

相对于基于规则的机器翻译方法，近年来，统计机器翻译研究得到了迅猛的发展，提出了很多新的模型和方法并取得了很好的效果。

统计机器翻译系统的构建一般分为训练和翻译两个主要步骤。训练步骤是从语料中学习统计知识并进行参数训练。典型的基于短语的统计机器翻译系统的训练包含在大规模的双语语料库上的翻译模型训练、在目标语言的单语语料库上的语言模型训练、参数训练三个主要部分。如果抛开翻译系统模型的好坏而纯从训练语料的角度来看，训练语料与待翻译文本的领域相似性与统计机器翻译系统的质量有着重要关系。领域相似性越高，翻译系统的效果越好。训练得到的模型在翻译同一领域的文本时通常会得到质量较高的译文，但翻译其他领域文本时，翻译质量明显下降。如，在商务领域语料上训练出来的模型无法较好地应用在餐饮领域的翻译上。然而，就翻译模型的训练，对于某些领域而言，获取大规模的平行语料是非常困难的。研究有效的领域自适应策略是一个可行办法。

一般来说，某个特定领域的双语平行语料难以获得，但领域混杂的平行语料较易获得。若能从这样的混杂语料中选取出与待翻译文本领域相似的语料在训练时加以利用，则可想而知，翻译效果应能有所提升。很多相关研究都根据这种思路，利用信息检索工具等学习方法进行了领域自适应地探索。

然而，研究者们大多都直接用余弦函数与词频来作为领域间相似性的度量工具。但是计算相似度的余弦函数实际是计算两向量的夹角，它不考虑向量的绝对长度，着重从方向上考虑它们之间的关系。通常来说，如果两篇文本所有的特征词都相同，则两篇文本的相似度为1；如果没有一个特征词是相同的，则其相似度为0。一般情况下，这种方法能够判断出文本间的相似程度，但是由于该方法没有对文本间相同的特征词进行统计，有时可能导致计算值并不能反应实际的领域相似度。另一方面，两篇文档是否相关往往不只取决于字面上的词语重复（即词频），还取决于文字背后的语义关联。

发明内容

本发明的目的是解决现有机器翻译的领域自适应技术中选取平行语料的方法中，采用余弦函数与词频来作为领域间相似性的度量工具、忽略了文字背后的语义关联，而导致获得的平行语料不能够反映实际的领域相似度，最终影响翻译结果准确性的问题。

本发明提出的基于领域相似性度量方法的统计机器翻译方法，是在现有统计机器翻译方法中，在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为平行语料选取对象。

在从双语平行的训练语料库中选取与翻译文本的领域最相似的若干篇文档作为平行语料选取对象的过程为：将翻译文本逐一与双语平行训练语料库中的文档进行相似性度量，然后对所有度量结果进行排序，选取度量结果最佳的若干篇文档作为平行语料选取对象。

将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法有两种：

方法一：采用相对词频作为特征代表，采用偏斜距离函数、余弦距离函数、变分距离函数、欧式距离函数或者JS距离函数作为相似度函数进行文档相似性度量。

词频分为绝对词频和相对词频两种，其中，绝对词频是指词在文本中出现的频率；相对词频是规范化的词频，即要求所有向量分量的平方和为1。本发明中采用相对词频作为特征代表。

所述相对词频的获得方法为采用TF-IDF公式计算相对词频，所述TF-IDF公式为：

TF-IDF=词频(TF)×逆文档频率(IDF)，其中：

方法二：采用主题模型作为特征代表，采用偏斜距离函数、余弦距离函数、变分距离函数、欧式距离函数或者JS距离函数作为相似度函数进行文当相似性度量。

每个文档中每个词语出现的概率为：

p(词语|文档)=∑_主题p(主题|文档)×(主题|文档)。

所述距离函数分别如下：

偏斜距离函数(Skew divergence)为：

S_α(q,r,α)=D(q(y)||αr(y)+(1-α)q(y))，α∈[0,1)，

所述函数中，q(y)和r(y)表示两个文档中特征代表概率分布，D(q||r)表示KL距离(Kullback-Leibler divergence)，是对偏斜距离公式中的D进行叙述，α表示q(y)和r(y)这两个分布在进行KL距离计算时的混合程度。它是非负的、累加的、非对称的距离函数，所述非对称是指D(q||r)≠D(r||q)，其中：

D (q | | r) = Σ_{y} q (y) \log \frac{q (y)}{r (y)} .

所述余弦距离函数（Cosine distance function）为：

cos(q,r)=q(y)×r(y)/||q(y)||||r(y)||

所述变分距离函数为：Var(q,r)=∑_y|q(y)-r(y)|。

所述欧式距离函数(Euclidean distance function)为：

所述JS距离函数为：JS(q,r)=1/2[D(q||avg(q,r)+D(r||avg(q,r))]。

在统计机器翻译技术领域中，由于特定领域的平行语料的缺乏，导致许多领域自适应方法都通过比较与待翻译文本相似性的方式从领域混杂的语料中选取语料在训练时加以利用，来提升翻译系统的效果，但是，这些方法一般都直接采用信息检索中比较相似性的方法，即在向量空间模型中，使用余弦函数来度量相似度。采用该方法获得的平行语料进行统计机器翻译获得的结果准确性难以保证。

统计机器翻译与信息检索毕竟是两种不同的自然语言处理问题，衡量的指标也不一样。所以，采用信息检索中的方法获得的平行语料应用在统计机器翻译中，不能够达到准确的翻译结果。

本发明所述的领域相似性度量方法是指在从双语平行的训练语料库中通过比较与待翻译文本相似度选取出训练翻译模型的平行语料这一过程中所用到的比较相似度的方法。即：根据待翻译文本，用相似性度量方法从语料库中选取与待翻译文本最相似的若干篇文章组成训练语料，进行翻译模型的训练。实验结果表明，本发明所述的统计机器翻译方法的翻译结果所表达的含义更接近于人工翻译的结果。

具体实施方式

具体实施方式一：本实施方式所述的基于领域相似性度量方法的统计机器翻译方法，是在现有统计机器翻译方法中，在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为平行语料选取对象。

本实施方式所述的基于领域相似性度量方法的统计机器翻译方法，在翻译过程中，首先从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为文档训练语料进行翻译，进而提高翻译的准确度。

具体实施方式二：本实施方是对具体实施方式一所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，在从双语平行的训练语料库中选取与翻译文本的领域最相似的若干篇文档作为平行语料选取对象的过程为：将翻译文本逐一与双语平行训练语料库中的文档进行相似性度量，然后对所有度量结果进行排序，选取度量结果最佳的若干篇文档作为训练语料。

所述选取文档的个数可以根据不同翻译系统的需要和文档大小来确定。一般选择5至20篇文档即可。

具体实施方式三：本实施方是对具体实施方式二所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为：

采用相对词频作为特征代表，采用余弦距离函数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文档相似性度量。

具体实施方式四：本实施方是对具体实施方式三所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，所述相对词频的获得方法为：

采用TF-IDF公式计算相对词频（TF），所述TF-IDF公式为：

TF-IDF=词频(TF)×逆文档频率(IDF)，其中：

具体实施方式五：本实施方是对具体实施方式二所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为：

采用主题模型作为特征代表，采用变分距离函数、余弦距离、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文档相似性度量。

两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。从生成模型的视角来看，一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到的。

可以采用Mallet工具包(Machine Learning for LanguageE Toolkit)作为主题建模的工具，经实验验证，在主题数量分别为5和100两种情况下，对相似性度量结果的影响并不大，因此，可以选择主题数量为5至100间的任意整数均可。

具体实施方式六：本实施方是对具体实施方式三或五所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，所述余弦距离函数为：

cos(q,r)=q(y)×r(y)/||q(y)||||r(y)||，

所述余弦距离函数中：q(y)和r(y)表示两个文档中的特征代表的分布。

具体实施方式七：本实施方是对具体实施方式三或五所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，所述偏斜距离函数为：

S_α(q,r,α)=D(q(y)||αr(y)+(1-α)q(y))，α∈[0,1)，

所述函数中，q(y)和r(y)表示两个文档中的特征代表的分布，D(q&r)表示KL距离(Kullback-Leibler divergence)，α表示q(y)和r(y)这两个分布在进行KL距离计算时的混合程度。它是非负的、累加的、非对称的距离函数，所述非对称是指D(q||r)≠D(r||q)，其中：

D (q | | r) = Σ_{y} q (y) \log \frac{q (y)}{r (y)} .

具体实施方式八：本实施方是对具体实施方式三或五所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，所述变分距离函数(Variationaldistance function)为：Var(q,r)=∑_y|q(y)-r(y)|

具体实施方式九：本实施方是对具体实施方式三或五所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，所述欧式距离函数(Euclidean distancefunction)为：

Eur (q, r) = \sqrt{Σ_{y} (q (y) - r (y))} .

具体实施方式十：本实施方是对具体实施方式三或五所述的基于领域相似性度量方法的统计机器翻译方法的进一步限定，本实施方式中，所述JS距离函数(Jensen-Shannondivergence)为：JS(q,r)=1/2[D(q||avg(q,r)+D(r||avg(q,r))]。

JS距离函数中，非对称的偏斜距离Sα通过一个定义于[0，1)区间的度α把两个分布混合。当α接近1时，偏斜距离就近似于KL距离，一般设置α为0.99。

具体实施方式十一：本实施方式是通过试样的方式验证上述各实施方式所记载统计机器翻译方法的效果。本实施方式中，语言模型统一采用全部语料的目标语言端语料进行训练，翻译模型的训练集，分别采用实施方式三和五所记载的10种相似性度量方法获得，采用著名的开源工具Moses作为翻译系统，语言模型训练工具采用SRILM Toolkit，评测工具使用mteval-v13a.pl，评测指标采用BLEU，中文分词软件采用斯坦福中文分词工具，实验中对特征代表主题模型的评估采用在MALLET工具包中实现的LDA模型，所述10种相似性度量方法分别为：

1、以相对词频作为特征代表，以偏斜距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的相对词频，值越小表示相似程度越高。

2、以相对词频作为特征代表，以JS距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的相对词频，值越小表示相似程度越高。

3、以相对词频作为特征代表，以余弦距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的相对词频，值越大表示相似程度越高。

4、以相对词频作为特征代表，以欧式距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的相对词频，值越小表示相似程度越高。

5、以相对词频作为特征代表，以变分距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的相对词频，值越小表示相似程度越高。

6、以主题模型作为特征代表，以JS距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的主题分布，值越小表示相似程度越高。

7、以主题模型作为特征代表，以偏斜距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的主题分布，值越小表示相似程度越高。

8、以主题模型作为特征代表，以余弦距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的主题分布，值越大表示相似程度越高。

9、以主题模型作为特征代表，以欧式距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的主题分布，值越小表示相似程度越高。

10、以主题模型作为特征代表，以变分距离作为相似性度量函数时，对于两篇要比较相似性的文章，q(y)和r(y)分别为这两篇文章的主题分布，值越小表示相似程度越高。

采用上述10种相似性度量方法，分别选择5、10、15和20篇文档作为训练文档，对应的翻译方法的结果参见表1所示：

表1

根据上述结果可以判断，采用本发明所述的领域相似度的方法选择训练文档的翻译方法的翻译效果中，采用主题模型作为特征代表结合余弦距离函数作为相似度函数来选择训练模型的翻译效果相对比较好，采用相对词频作为特征代表结合偏斜距离函数做为相似度函数来选择训练模型的翻译效果相对较好。

Claims

1.基于领域相似性度量方法的统计机器翻译方法，其特征在于，所述统计机器翻译方法为在现有统计机器翻译方法中，在从双语平行的训练语料库中选取与翻译文本的领域相似性高的若干篇文档作为训练语料。

2.根据权利要求1所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，在从双语平行的训练语料库中选取与翻译文本的领域最相似的若干篇文档作为训练语料的过程为：将翻译文本逐一与双语平行训练语料库中的文档进行相似性度量，然后对所有度量结果进行排序，选取度量结果最佳的若干篇文档作为训练语料。

3.根据权利要求2所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为：

采用相对词频作为特征代表，采用余弦距离函数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文当相似性度量。

4.根据权利要求3所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，所述相对词频的获得方法为采用TF-IDF公式计算相对词频（TF），所述TF-IDF公式为：TF-IDF=词频(TF)×逆文档频率(IDF)，其中：

5.根据权利要求2所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，将翻译文本与双语平行训练语料库中的任意一个文档进行相似性度量的方法为：

采用主题模型作为特征代表，采用余弦距离函数、变分距离函数、欧式距离函数、偏斜距离函数或者JS距离函数作为相似度函数进行文当相似性度量。

6.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，所述偏斜距离函数为：

S_α(q,r,α)=D(q(y)||αr(y)+(1-α)q(y))，α∈[0,1)，

所述函数中，q(y)和r(y)表示表示两个文档中的特征代表的分布，D(q||r)表示KL距离，α表示q(y)和r(y)这两个分布在进行KL距离计算时的混合程度。它是非负的、累加的、非对称的距离函数，所述非对称是指D(q||r)≠D(r||q)，其中：

D (q | | r) = Σ_{y} q (y) \log \frac{q (y)}{r (y)} .

7.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，所述所述余弦距离函数为：

cos(q(y),r(y))=q(y)×r(y)/||q(y)||||r(y)||

所述余弦距离函数中：q(y)和r(y)表示两文档中的特征代表概率分布。

8.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，所述变分距离函数为：Var(q,r)=∑_y|q(y)-r(y)|，q(y)和r(y)表示表示两个文档中的特征代表的分布。

9.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，所述欧式距离函数(Euclidean distance function)为：q(y)和r(y)表示表示两个文档中的特征代表的分布。

10.根据权利要求3或5所述的基于领域相似性度量方法的统计机器翻译方法，其特征在于，所述JS距离函数为：JS(q,r)=1/2[D(q||avg(q,r)+D(r||avg(q,r))]，q(y)和r(y)表示表示两个文档中的特征代表的分布。