CN102945232A

CN102945232A - 面向统计机器翻译的训练语料质量评价及选取方法

Info

Publication number: CN102945232A
Application number: CN2012104691724A
Authority: CN
Inventors: 朱靖波; 张�浩; 肖桐; 李强
Original assignee: SHENYANG YAYI NETWORK TECHNOLOGY Co Ltd
Current assignee: Shenyang Yayi Network Technology Co ltd
Priority date: 2012-11-16
Filing date: 2012-11-16
Publication date: 2013-02-27
Anticipated expiration: 2032-11-16
Also published as: CN102945232B

Abstract

本发明涉及一种面向统计机器翻译的训练语料质量评价及选取方法，步骤为：权重自动获取：采用小规模语料对权重自动获取模型进行训练，以得到特征的权重和分类临界值；句对质量评价：将上述权重和分类临界值与原始大规模平行语料一起做为输入，由句对质量评价线性模型对大规模平行语料进行分类，生成各个语料子集；高质量语料子集选取：在上述各个语料子集的基础上，考虑覆盖度的影响，选取高质量语料做为统计机器翻译系统的训练数据。本发明提出更丰富的句对质量评价特征，实现了特征权重的自动学习，当子集规模达到30%时性能可能够达到100%甚至更好；可以对任意输入的句对划分其所属的等级，可以为高质量语料数据选取等任务提供帮助。

Description

面向统计机器翻译的训练语料质量评价及选取方法

技术领域

本发明涉及一种统计机器翻译技术，具体的说是一种面向统计机器翻译的训练语料质量评价及选取方法。

背景技术

统计机器翻译（Statistical Machine Translation，SMT）系统的训练需要大规模的双语平行语料的支持，语料的质量和数量会对机器翻译系统的性能带来很大的影响。一般来说，训练语料规模的增加有助于获得稳定的模型参数并提高SMT系统的翻译性能。但是语料规模越大，系统的执行代价就越高，训练和解码需要的时间也越长。另外，更大规模的语料也就意味着可能存在更多的噪声数据，会在一定程度上影响到系统训练的可靠性。

姚树杰等人（2010）曾提出了一种基于句对质量和覆盖度的统计机器翻译训练语料选取的方法，他们通过综合考虑覆盖度和句对质量两方面的因素，从已有的平行语料中获取高质量小规模训练子集，以达到同使用全部训练语料相当的翻译性能。在姚树杰等人提出的模型中，有五个质量评价特征，各个特征的权重采用人工设定经验值的方法得到。人工的方法需要大量的实验支撑，耗时耗力，并且在特征数量增加的时候，变得非常不可用。

发明内容

针对基于句对质量和覆盖度的统计机器翻译技术中的质量评价特征采用人工设定经验值的方法得到，耗时耗力，并且在特征数量增加时变得非常不可用等不足之处，本发明要解决的技术问题是提供一种可自动生成特征权重，能够提供更丰富的句对质量评价特征的面向统计机器翻译的训练语料质量评价及选取方法。

为解决上述技术问题，本发明采用的技术方案是：

本发明面向统计机器翻译的训练语料质量评价及选取方法包括以下步骤：

权重自动获取：

采用小规模语料对权重自动获取模型进行训练，以得到特征的权重和分类临界值；

句对质量评价：将上述权重和分类临界值与原始大规模平行语料一起做为输入，由句对质量评价线性模型对大规模平行语料进行分类，生成各个语料子集；

高质量语料子集选取：在上述各个语料子集的基础上，考虑覆盖度的影响，选取高质量语料做为统计机器翻译系统的训练数据。

所述句对质量评价线性模型为：

Q (c, e) = Σ_{i = 1}^{k} weigh t_{i} φ_{i} (c, e) - - - (1)

其中，Q(c，e)为句对(c，e)的质量，c为源语句子，e为目标语句子，k为模型包含的特征个数，φ_i为特征函数，weight_i为对应特征的权重，i为自变量，i＝1~k。

所述高质量句对为：

句对中源语句和目标语句都是流畅的句子，且源语句和目标语句的互译程度高。

句对质量评价特征包括：高质量翻译短语特征和基于实词的质量评价特征，其中：

高质量翻译短语：

在高质量短语翻译表中，查找提取的短语对是否存在，其特征公式如下：

φ_{phrase} (c, e) = \frac{Σ_{i = 1}^{m} phrase (p_{i})}{m} - - - (5)

其中，c为源语句子，e为目标语句子；m为句对提取短语对的个数；p_i为提取出的短语对；phrase(p_i)为短语对p_i是否在高质量短语翻译表中存在，若存在，phrase(p_i)为1，否则为0；

基于实词的质量评价特征：

利用双语翻译词典，考察句对中实词的翻译质量，通过如下特征公式进行评价：

φ_{CW} (w) = \frac{Σ_{i = 1}^{l_{w}} lex (w_{i}) \times isCW (w_{i})}{l_{w}} - - - (3)

其中，φ_CW(w)为基于实词的特征函数，isCW(w_i)表示词w_i是否是实词，若是，isCW(w_i)为1，否则为0；lw为句子w的长度。

所述句对质量评价特征还包括：基于IBM model 1的翻译概率的质量评价特征、基于IBM model 1的最大化翻译概率（MTP）的质量评价特征、基于词汇化翻译概率（Lexical Weighting，LW）的质量评价特征、基于词典的质量评价特征、基于短语表染色机制的质量评价特征和基于语言模型的质量评价特征，其中：

基于IBM model 1的最大化翻译概率（MTP）的质量评价特征通过以下公式实现：

φ_{MTP} (e | c) = \frac{1}{l_{e}} Σ_{j = 1}^{l_{e}} \log \max_{i = 0}^{l_{c}} t (e_{j} | c_{i}) - - - (10)

其中，φ_MTP(e|c)为源语句子c被翻译成目标语句子e的最大化翻译概率，t(e_j|c_i)为源语词c_i被翻译为目标语词e_j的条件概率，l_c为源语句子的长度，l_e为目标语句子的长度，i为自变量，其取值为1~l_c，j为自变量，其取值为1~l_e；

基于词汇化翻译概率（Lexical Weighting，LW）的质量评价特征为：

φ_{LW} (e | c, a) = \frac{1}{l_{e}} Σ_{i = 1}^{l_{e}} \log \frac{Σ_{&ForAll; (i, j) &Element; a} w (e_{i} | c_{j})}{| {j | (i, j) &Element; a} |} - - - (13)

其中φ_LW(e|c，a)为词汇化翻译概率，w(e_i|c_j)表示给定第j个源语词c_j翻译成第i个目标语词e_i的翻译概率，l_e为目标语句子长度，i为自变量，其取值范围为1~l_e，j为源语句子长度，其取值范围为1~l_c；

基于IBM model 1翻译概率的质量评价特征：

φ_{IBM} (e | c) = - l_{e} \times \log (l_{c} + 1) + Σ_{j = 4}^{l_{e}} \log Σ_{i = - 0}^{l_{c}} t (e_{j} | c_{i}) - - - (9)

式中，l_c表示源语句子长度，l_e表示目标语句子长度，t(ei|cj)为给定第i个源语词c_i翻译成第j个目标语词e_j的翻译概率；

基于词典的质量评价特征：

利用现有双语翻译词典，通过如下特征公式进行评价：

φ_{lex} (w) = \frac{Σ_{i = 1}^{l_{w}} lex (w_{i})}{l_{w}} - - - (2)

其中，φ_lex(w)为基于词典的特征函数，w为待评价句子，l_w为待评价句子w的长度，即包含词的个数；w_i表示句子中的词，lex(w_i)表示词w_i在对应目标语中是否存在译文，若存在，lex(w_i)为1，否则为0；

短语表染色机制：

根据高质量短语表中给出的翻译选项，源语中的短语片段，如果在目标语中可以找到译文，则将源语和目标语中相应的短语片段中的词染色，在染色的过程中，允许一个词被多次染色，其特征公式如下：

φ_{dye} (w) = \frac{Σ_{i = 1}^{l_{w}} dye (w_{i})}{l_{w}} - - - (4)

其中，φ_dye(w)为短语表染色机制特征函数，dye(w_i)表示词w_i是否被染色，若被染色，dye(w_i)为1，否则为0，lw为句子w的长度，i为自变量；

基于语言模型的质量评价特征：

基于语言模型的质量评价特征用于考察句对中单语句子的流畅程度，假设句子中词的出现概率仅与其前面的N-1个词有关，利用N元语言模型，给出特征评价公式如下：

φ_{LM} (w) = \frac{1}{l_{w}} Σ_{i = 21}^{l_{w}} \log p (w_{i} | w_{i - N + 1}, . . ., w_{i - 1}) - - - (6)

其中，φ_LM(w)为语言模型质量评价特征函数，p(w_i|w_i-N+1,...,w_i-1)表示词w_i在N元语言模型下的概率，N为语言模型的阶数，lw为句子w的长度。

词w_i在N元语言模型下的概率p(w_i|w_i-N+1，...,w_i-1)通过以下公式得到：

p (w_{i} | w_{i - N + 1}, . . ., w_{i - 1}) =

\frac{count (w_{i - N + 1}, . . ., w_{i - 1}, w_{i})}{Σ_{w} count (w_{- N + 1}, . . ., w_{i - 1}, w)} - - - (7)

其中，count表示语料中词串wi-N+1，...,wi-1,wi出现的频次。

在权重自动获取步骤中，采用小规模语料对权重自动获取模型进行训练通过Pranking算法实现，通过训练数据自动调整各个特征的权重，训练集中的每组数据执行调整过程后，得到新的权重向量与临界值向量，做为下一组数据计算的初始值；当多组训练数据全部执行完成后，所得的权重向量与临界值向量即为最终结果。

所述考虑基于句对质量和覆盖度的语料选取包括以下步骤：

使用句对质量评价模型将训练语料分为质量高低不同的k个等级，k为Pranking算法训练数据标注的等级数；

采用翻译短语对作为覆盖度的度量标准，一个句子对覆盖度的贡献，是其中包含的不同的未知翻译短语对的个数；

选取数据首先从质量等级最高的数据中选取句对，当全部剩余句对已经无法增加训练子集的覆盖度时，再从质量次之的等级中选取；当高质量句对的覆盖度贡献值小于设定的阈值a时，优先考虑从质量较低集合中选取覆盖度贡献大的句对，同时，将高质量的未被选取句对的覆盖度加上一个常数b，与质量较低的数据一同参选；

在选取数据时，从包含词对齐信息的句对中抽取出翻译短语对，以句子包含的翻译短语对的数量作为各个句子的初始覆盖度贡献值；

训练语料子集对应的短语对集合每增加一个新的短语对，则相应的所有包含该短语对的句子的覆盖度贡献减1；

每次从语料中选取覆盖度贡献最大的句子加入语料子集中，然后更新所有未被选取的句子的覆盖度贡献值；

迭代进行此过程，直至选取的子集达到目标规模。

所述考虑覆盖度的影响选取高质量语料还包括特征评价结果缩放步骤：

对基于IBM model 1的最大化翻译概率的质量评价特征

基于IBMmodel 1翻译概率的质量评价特征

基于语言模型的质量评价特征

以及基于语言模型的质量评价特征

的结果进行缩放，采用公式(14)将[0,-∞]区间缩放至[0,1]区间：

其中代表缩放前的特征函数，

代表缩放后的结果，

代表缩放前该特征分数中的最小值。

本发明具有以下有益效果及优点：

1.本发明提出更丰富的句对质量评价特征，尤其引入了Pranking算法，重新构造了句对质量评价的线性模型，实现了特征权重的自动学习，将排序问题转化为分类问题，同时由于本发明提出了更有效的覆盖度算法，在机器翻译对比实验中取得了良好的实验结果，对句对质量评价的准确率可以达到83.56%；使用本发明方法进行训练语料子集选取，当选取原始语料规模20%的子集作为训练语料时，能达到原始语料性能的97%以上，当子集规模达到30%时性能可能够达到100%甚至更好。

2.本发明引入Pranking算法，实现特征权重的自动获取。该方法简单有效，并且在特征个数很多时仍可以快速准确地得到各个特征的权重；在训练阶段，从人工标注的数据中选取一定量的数据做为训练集，将各个特征对训练集每个句对的评分以及人工标注的等级做为输入，由Pranking算法自动学习，获得各个特征的权重，以及进行分类的临界值；利用这组数据，可以对任意输入的句对划分其所属的等级，进行可以为高质量语料数据选取等任务提供帮助。

附图说明

图1为句对质量评价模型框架图；

图2A为本发明中在CWMT数据上机器翻译性能与选取数据规模的实验结果；

图2B为本发明中在NIST数据上机器翻译性能与选取数据规模的实验结果。

具体实施方式

下面结合说明书附图对本发明作进一步阐述。

权重自动获取：采用小规模语料对权重自动获取模型进行训练，以得到质量评价线性模型中各特征的权重和分类临界值；

高质量语料子集选取：在上述各个语料子集的基础上，考虑覆盖度因素选取高质量语料做为统计机器翻译系统的训练数据。

在本发明方法中，句对质量评价模型框架分为三个部分：权重自动获取、句对质量评价以及高质量语料子集选取。模型框架如图1所示。

首先采用人工标注的小规模语料对权重自动获取模型进行训练，以得到各个特征的权重和分类临界值，然后，将上述值和大规模语料一起做为输入，由句对质量评价模型对大规模语料进行分类，将语料划分为k个子集，其中k为人工标注语料中划分语料质量等级的总数；最后，在各个语料子集的基础上，考虑覆盖度的影响，选取一定规模的高质量语料做为SMT系统的训练数据。

一．句对质量评价模型

本发明中，句对质量评价模型采用线性模型，采用线性模型整合各个特征，即：

Q (c, e) = Σ_{i = 1}^{k} weigh t_{i} φ_{i} (c, e) - - - (1)

其中，Q(c，e)为句对(c，e)的质量，c为源语句子，e为目标语句子，k为模型包含的特征个数，φ_i为特征函数，weight_i为对应特征函数的权重，i为自变量，i＝1~k。

本发明引入Pranking算法，实现特征权重的自动获取。该方法简单有效，并且在特征个数很多时仍可以快速准确地得到各个特征的权重。在训练阶段，从人工标注的数据中选取一定量的数据做为训练集，将各个特征对训练集每个句对的评分以及人工标注的等级做为输入，由Pranking算法自动学习，获得各个特征的权重，以及进行分类的临界值。利用这组数据，可以对任意输入的句对划分其所属的等级，进行可以为高质量语料数据选取等任务提供帮助。

二．句对质量评价特征

评价句对质量，必须明确什么样的句对是高质量句对。本发明采用以下标准定义高质量句对：

基于上述标准，本发明提出多个句对质量评价特征，下面将对各个特征进行详细介绍。

句对质量评价特征至少包括：基于实词的质量评价特征（CW）和基于高质量翻译短语特征（phrase），其中：

1）基于实词的质量评价特征：

φ_{CW} (w) = \frac{Σ_{i = 1}^{l_{w}} lex (w_{i}) \times isCW (w_{i})}{l_{w}} - - - (3)

为了方便计算，本实施例将句子中的动词、名词、形容词、副词看做实词。

2）基于高质量翻译短语特征

φ_{phrase} (c, e) = \frac{Σ_{i = 1}^{m} phrase (p_{i})}{m} - - - (5)

所述句对质量评价特征还包括：基于IBM model 1的翻译概率的质量评价特征、基于词典的质量评价特征、基于IBM model 1的最大化翻译概率（Maximization Translation Probability，MTP）的质量评价特征和基于词汇化翻译概率（Lexical Weighting，LW）的质量评价特征以及基于语言模型的质量评价特征，其中：

3）基于IBM model 1翻译概率的质量评价特征：

φ_{IBM} (e | c) = - l_{e} \times \log (l_{c} + 1) + Σ_{j = 4}^{l_{e}} \log Σ_{i = - 0}^{l_{c}} t (e_{j} | c_{i}) - - - (9)

式中，l_c表示源语句子长度，l_e表示目标语句子长度，t(ei|cj)为给定第i个源语言词c_i翻译成第j个目标语言词e_j的翻译概率。

本发明利用IBM model 1翻译模型作为特征衡量一个句对的翻译质量。采用EM算法（Expectation Maximization algorithm），得到源语词c_i被翻译为目标语词e_j的条件概率t(e_j|c_i)。根据IBM model 1的思想，源语句子c被翻译为目标语句子e的翻译概率为：

p (e | c) = \frac{&Element;}{{(l_{c} + 1)}^{l_{e}}} Π_{j = 1}^{l_{e}} Σ_{i = 0}^{l_{c}} t (e_{j} | c_{i}) - - - (8)

公式(8)中，lc表示源语句子长度，le表示目标语句子长度；c₀表示源语中插入的NULL；ε是常量，不影响句子之间翻译概率的比较。本发明在定义特征公式时，将取为1，并对p(e|c)取对数，得到φ_IBM(e|c)的公式如下：

φ_{IBM} (e | c) = \log (\frac{1}{{(l_{c} + 1)}^{l_{e}}} Π_{j = 1}^{l_{e}} Σ_{i = 0}^{l_{c}} t (e_{j} | c_{i}))

= - l_{e} \times \log (l_{c} + 1) +

+ Σ_{j = 1}^{l_{e}} \log Σ_{i = 0}^{l_{c}} t (e_{j} | c_{i}) - - - (9^{'})

4）基于词典的质量评价特征：

利用现有双语翻译词典，通过如下特征公式进行评价：

φ_{lex} (w) = \frac{Σ_{i = 1}^{l_{w}} lex (w_{i})}{l_{w}} - - - (2)

词典是人工标注的高质量双语数据。根据词典中给出的翻译选项，考察双语句对的互译程度，具有较高的可信度。

5）基于IBM model 1的最大化翻译概率（MTP）的质量评价特征通过以下公式实现：

φ_{MTP} (e | c) = \frac{1}{l_{e}} Σ_{j = 1}^{l_{e}} \log \max_{i = 0}^{l_{c}} t (e_{j} | c_{i}) - - - (10)

其中，φ_MTP(e|c)为源语句子c被翻译成目标语句子e的最大化翻译概率，t(e_j|c_i)为源语词c_i被翻译为目标语词e_j的条件概率，l_c为源语言句子的长度，l_e为目标语句子的长度，i为自变量，其取值为1~l_c，j为自变量，其取值为1~l_e，t(e_j|c_i)为源语词c_i翻译为目标语词e _j的条件概率。

6）基于词汇化翻译概率（Lexical Weighting，LW）的质量评价特征通过以下公式实现：

φ_{LW} (e | c, a) = \frac{1}{l_{e}} Σ_{i = 1}^{l_{e}} \log \frac{Σ_{&ForAll; (i, j) &Element; a} w (e_{i} | c_{j})}{| {j | (i, j) &Element; a} |} - - - (13)

其中φ_LW(e|c，a)为词汇化翻译概率，w(e_i|c_j)表示给定第j个源语言词c_j翻译成第i个目标语言词e_i的翻译概率，l_e为目标语句子长度，i为自变量，其取值范围为1~l_e，j为源语言句子长度，其取值范围为1~l_c。

相比基于IBM model 1的质量评价特征，词汇化翻译概率特征中充分利用了现有的词对齐结果。词汇化特征的传统定义如下：

lex (e | c, a) = Π_{i = 1}^{l_{e}} \frac{Σ_{&ForAll; (i, j) &Element; a} w (e_{i} | c_{j})}{| {j | (i, j) &Element; a} |} - - - (12)

φ_{LW} (e | c, a) = \log \sqrt[l_{e}]{lex (e | c, a)}

= \log \sqrt[l_{e}]{Π_{i = 1}^{l_{e}} \frac{Σ_{&ForAll; (i, j) &Element; a} w (e_{i} | c_{j})}{| {j | (i, j) &Element; a} |}}

= \frac{1}{l_{e}} Σ_{i = 1}^{l_{e}} \log \frac{Σ_{&ForAll; (i, j) &Element; a} w (e_{j} | c_{j})}{| {j | (i, j) &Element; a} |} - - - (13^{'})

在公式(12)中，如果一个目标语词被对齐到了多个源语词，则对相应的词翻译概率取均值；如果一个目标语词没有对应到任何一个源语词，则认为这个目标语词对应到NULL。

本发明在计算词汇化翻译概率时，在公式（12）的基础上，为消除目标语句子长度（词数）对结果的影响，对公式（12）取对数值，得到如公式(13′)也就是公式（13）所示的特征计算公式。

7）基于语言模型的质量评价特征：

φ_{LM} (w) = \frac{1}{l_{w}} Σ_{i = 1}^{l_{w}} \log p (w_{i} | w_{i - N + 1}, . . ., w_{i - 1}) - - - (6)

其中，p(_wi|w_i-N+1,...,w_i-1)表示词w_i在N元语言模型下的概率，N为语言模型的阶数，lw为句子w的长度。

词w_i在N元语言模型下的概率p(w_i|w_i-N+1，...,w_i-1)可以用公式(7)计算得到。

p (w_{i} | w_{i - N + 1}, . . ., w_{i - 1}) =

\frac{count (w_{i - N + 1}, . . ., w_{i - 1}, w_{i})}{Σ_{w} count (w_{i - N + 1}, . . ., w_{i - 1}, w)} - - - (7)

三．特征评价结果缩放

上述为本发明所用到的全部特征，其中于词汇化翻译概率的质量评价特征φ_lex、基于实词的质量评价特征φ_CW、短语表染色机制φ_dye、高质量翻译短语φ_phrase所得结果为[0,1]区间内的值，基于语言模型的质量评价特征φ_LM、基于IBM model 1翻译概率的质量评价特征φ_IBM、基于IBM model1的最大化翻译概率的质量评价特征φ_MTP、基于语言模型的质量评价特征φ_LW所得结果为[0,-∞]区间内的值。为了使所有特征的评价结果的量级相同，本实施例对特征

φ_IBM、φ_MTP、φ_LW的结果进行缩放，采用公式(14)将[0,-∞]区间缩放至[0,1]区间。

φ_{i}^{'} = 1 + \frac{φ_{i}}{| mi n_{j} φ_{j} + 1 |} - - - (14)

其中φ_i代表缩放前的特征分数，φ'代表缩放后的结果，min_j(φ_j)代表缩放前该特征分数中的最小值。下文中，提到特征LM、IBM、MTP、LW的结果，都是指缩放后的结果。

四．权重自动学习：Pranking算法

本发明引入Pranking算法，实现特征权重的自动获取。下面对Pranking算法做简单介绍。

Pranking算法可以通过训练数据自动调整各个特征的权重。训练数据的格式为(x1,y1)，...,(xt,yt)，...。其中，xt∈Rn是特征向量，n为特征的个数；yt为第t组数据的等级，即目标结果，并且yt={1,2，...,k}，k为训练数据总的等级数。记权重为向量w∈Rn，于是有，第t组数据的评分scoret=wt·xt。对于每组权重，都会有k个临界值b1≤b2≤...≤bk-1≤bk=∞与之对应。为方便起见，将前k-1个数记为向量b（由于bk的值始终为无穷，所以这里省去不记）。第t组数据的预测等级

即为使wt·xt<br成立的最小的下标r，即，

{\hat{y}}^{t} = \min_{r &Element; {1, . . ., k}} {r : w^{t} \cdot x^{t} - b_{r} < 0}

由于b_k=∞，所以总能取到合法的值。

简单起见，将输入数据、权重向量w^t、b^t分别简记为(x,y)、w、b。对于递增序列b₁≤b₂≤...≤b_k-1≤b_k，如果预测等级是正确的，则有

\{\begin{matrix} w \cdot x &GreaterEqual; b_{r} r = 1, . . . y - 1 \\ w \cdot x < b_{r}, r = y, . . ., k \end{matrix} - - - (15)

为方便说明，引入临时变量序列y_1,...,y_{k-1}，每个变量y_r的取值如下：

y_{r} = \{\begin{matrix} + 1, w \cdot x &GreaterEqual; b_{r} \\ - 1, w \cdot x < b_{r} \end{matrix} - - - (16)

也就是说，对于每个等级的值y，都有向量(y₁,...,y_k-1)=(+1,..,+1,-1,...,-1)。其中，使y_r=+1的最大下标r为y-1。这样，如果预测等级

是正确的则有

r(w·x-b_r)>0,r=1,2,...,k

如果

则至少存在一个下标r使得y_r(w·x-b_r)≤0。为了修正这个错误，可以将w·x值与b_r值相向“移动”。对于使y_r(w·x-b_r)≤0的所有r，令

r=b_r-y_r

对于权重向量w的更新，则令

w w+(∑y_r)x

对于训练集中的每组数据(x}^t,y^t)，都执行一遍上述的调整过程，得到新的权重向量w}^{t+1}与临界值向量b，做为下一组数据计算的初始值。当T组训练数据全部执行完成后，所得的权重向量w^T+1与临界值向量b即为最终结果。

四．基于覆盖度的训练语料选取

1）考虑覆盖度的动机

从训练语料中选取一个子集作为训练语料，并且希望使SMT的性能达到与使用原始全部语料相比时相当的性能，这就要求在保证质量的前提下，覆盖尽可能多的语言现象。如果说句对质量评价是考虑语言现象的可靠性，那么覆盖度就是要保证包含广泛的语言现象。很容易理解，如果待翻译文本所包含的语言现象没有出现在训练语料中，那么这些语言现象对于机器翻译系统来说就是完全陌生的。显然，在这种情况下，翻译系统不可能给出一个可靠的翻译结果。由此，本实施例引入覆盖度因素，在质量评价基础上，选择合适的句对构成训练子集。

2）基于覆盖度的语料选取

本发明采用翻译短语对作为覆盖度的度量标准，认为一个句子对覆盖度的贡献，是其中包含的不同的未知翻译短语对的个数。一个训练语料集合，可以转化为一个短语对集合。这样，语料子集的选取过程，可以等同看做是构建短语对集合的过程。在这个过程中考虑覆盖度的目的，是要在选取相同规模语料的前提下，使得到训练语料子集包含最多的翻译短语对。

使用GIZA++工具获得词对齐信息后，可以从句对中抽取出翻译短语对，以句子包含的翻译短语对的数量作为各个句子的初始覆盖度贡献值。

在选取的过程中，训练语料子集对应的短语对集合每增加一个新的短语对，则相应的所有包含该短语对的句子的覆盖度贡献减1。这样每次从语料中选取覆盖度贡献最大的句子加入语料子集中，然后更新所有未被选取的句子的覆盖度贡献值。迭代进行此过程，直至选取的子集达到目标规模。

3）基于句对质量和覆盖度的语料选取

在句对质量评价模型中，将训练语料分为质量高低不同的k个等级，k是Pranking算法训练数据标注的等级数。在选取数据时，首先从质量等级最高的数据中选取句对，当全部剩余句对已经无法增加训练子集的覆盖度时，再从质量次之的等级中选取，依次类推。这样，在数据选取的过程中，同时考虑了句对质量和覆盖度两个因素。当数据量很小的时候，覆盖度因素对机器翻译性能的影响可能高于句对质量。

在高等级的数据子集中选取句子的时候，随着已选取句对数目的增加，剩余高质量句对的覆盖度贡献越来越小。当剩余句对的覆盖度贡献小到一定程度时，选取这些高质量、低覆盖度贡献的句对加入子集，就不如选择那些质量稍差但是对覆盖度贡献很大的句对，因为此时，增加覆盖度对MT性能带来的改善更为可观。

本发明针对这一现象，在原始的覆盖度思想的基础上，增加了阈值的设定。即当高质量句对的覆盖度贡献值小于设定的阈值a时，优先考虑从质量较低集合中选取覆盖度贡献大的句对，同时，将高质量的未被选取句对的覆盖度加上一个常数b，与质量较低的数据一同参选。

现阶段，对于阈值a和常数b的设定采用人工的方法。

五．实验

1）baseline系统

本发明方法中，实验所使用的统计机器翻译系统为东北大学自然语言处理实验室开发的NiuTrans统计机器翻译系统（http://www.nlplab.com/NiuPlan/NiuTrans.html），实验均使用基于短语的机器翻译子系统。分词采用东北大学自然语言处理实验室分词系统；词对齐使用GIZA++工具。实验使用CWMT 2008语料和NIST评测中部分语料（LDC编号：LDC2000T46,LDC2000T47,LDC2003E14,LDC2000T50,LDC2005T10）分别构成两组实验数据，数据的规模和一些相关信息如表\ref{table:data}所示。实验中，先将语料中句对随机排序，然后从句首起顺次分别取1%、5%、10%、15%、20%直至80%、90%、100%作为Baseline系统训练语料，利用BLEU值来估计这些不同规模训练数据的质量。另外一些实验相关信息如表3所示。

表2：数据规模及相关信息

表3：一些实验相关信息

本发明实验系统所采用的短语表中源语和目标语的最大长度分别为3和5，这一设置可达到与常用设置（常见的短语最大长度限制在源语端和目标语端都为7）相当的性能，并可以在很大程度上减少计算代价。

2）质量评价特征生成

使用第3节中定义的每个质量评价特征，计算源语到目标语、目标语到源语两个方向的评价结果，然后将两个方向的评价结果相乘取平方根，得到综合结果。这样，每个特征可以对一个句对得到三个评价结果。

表4：各个特征及相应权重

本发明实验中所使用到的特征及其计算公式如表4所示。特征

需要在表4所列公式计算结果上进行缩放操作，将结果区间由[0,-∞]缩放至[0,1]。特征生成过程中的一些相关信息如下：

计算过程中需要使用的双语词典，本实施例使用的是Chinese-to-English Wordlist version 2.0（英文词性标注准确率97.28%，中文词性标注准确率94.13%）。为了消除同一个词的不同词形词态对计算的影响，本实施例对双语数据和词典同步进行了取词根（Stemming）操作（http://tartarus.org∧~{}martin/PorterStemmer/）。

在

特征基础上，该特征增加了实词识别过程。本实施例使用Stanford POS Tagger（http://nlp.stanford.edu/software/tagger.shtml）作为词性标注工具，并且使用其提供的标注模型（英文词性标注准确率97.28%，中文词性标注准确率94.13%）对中英文平行数据标注。标注后，将词性为名词、动词、形容词、副词的词作为实词。

特征中用到的高质量短语表，在NIST 2012评测提供的约1000万汉英双语平行语料(LDC编号：LDC2000T46,LDC2000T47,LDC2000T50,LDC2003E14,LDC2005T10,LDC2002E18,LDC2007T09,LDC2003E07,LDC2005T06,LDC2002L27,LDC2005T34,LDC2006E26,LDC2007E06,LDC2007E46,LDC2007E87,LDC2007E101,LDC2008E40,LDC2008E56,LDC2009E 16,LDC2009E95,LDC2005E83,LDC2006E24,LDC2006E34,LDC2006E85,LDC2006E92.)上训练得到，并根据训练过程中得到的短语翻译概率对短语表进行排序，最终保留结果中的前20%做为高质量短语表。

文本使用的中文语言模型是在LDC2009T27-Chinese GigawordFourth Edition-Xinhua News Agency语料上训练的5元语言模型，预处理后，训练语料共1405万句；英文语言模型是在LDC2011T07-English GigawordFifth Edition-Xinhua News Agency,English Service语料上训练的5元语言模型，预处理后，训练语料共1628万句。

本实施例使用EM算法，在待评分语料上，迭代5轮获得条件概率t(e_j|c_i)、t(c_i|e_j)的值，即评价CWMT 2008语料时使用的t(e_j|c_i)、t(c_i|e_j)是在CWMT 2008语料自身上计算得到的。

词对齐使用GIZA++工具自动生成。w(e_i|c_j)、w(c_i|e_j)在待评价语料中计算得到。

3）Pranking实验

（1）数据标注

使用Pranking算法自动学习线性模型中各个特征的权重，需要一定数量的准确划分等级的数据作为训练语料。本实施例通过人工的方法，在CWMT 2008平行语料中选取955个句对，分别标为0分、1分或2分，构成标注集合。标注集中不同等级（分数）句对的规模及选取标准如表5所示。

表5：标注集规模及选取标准

不同等级的句对示例如下：

2分：

中国对外政策的宗旨,就是维护世界和平,促进共同发展.

the purposes of china's foreign policy are to safeguard world peace andpromote common development.

1分：

“让我坐一会儿:孩子们走得这么快,把我累坏了.”

``let me sit down for a moment:the children have been walking me off myfeet."

0分：

听到约瑟芬尖叫,看到理查猛地一下窜到他面前把他挡住不让

他妻子看见,他惊呆了.

he stood amazed at josephine's piercing cry;

（2）实验设置

训练和测试数据：

使用前文所述的人工标注集作为Pranking实验语料，语料中共包含955个句对。实验采用交叉检验的方法，每次选取约80%的数据做训练集，20%的数据做测试集。

评价方法：

本实施例使用Accuracy和Ranking loss两个指标评价的实验结果。Accuracy计算预测等级与目标等级相同的数据占全部预测数据的百分比。Ranking loss计算预测等级和目标等级之间的平均距离。y^t表示第t个句对的目标等级，

表示预测等级，m表示句对个数，Ranking loss被定义为

Rankingloss = \frac{Σ_{t}^{m} | y^{t} - {\hat{y}}^{t} |}{m} - - - (17)

（3）语料质量评价实验结果

使用第3节定义的句对质量评价特征构成特征向量，采用Pranking算法在标注数据集上自动获得特征权重，实验结果如表7所示。

表6展示了Our Method在不同等级数据上的预测性能。

表6：本方方法在不同等级数据子集上的性能

表7：Pranking实验结果

4）机器翻译训练语料选取实验

（1）实验设置

使用第2节所述的质量评价模型来评价训练语料中的双语句对，将句对按照质量分为三个等级，等级2表示质量最高，1次之，0最低，每个等级包含的数据规模如表8所示。

数据	2	1	0	ALL
					CWMT	156,544	474,356	104,476	735,376
NIST	919,143	121,460	8,670	1,049,273

表7：不同等级数据子集的规模（句对数）

在句对质量评价结果基础上，考虑覆盖度因素进行数据选取。实验中本实施例采用了人工的方法设定覆盖度中阈值a和常数b的值：初始a、b的值设为0，然后人工观察抽取出的较小训练集合的MT性能，根据结果，对a、b的值进行调整，如此反复，最后阈值a和常数b由人工给定一个合理的经验值。

在实验中，阈值a设为2，常数b设为5，在CWMT和NIST两组数据上进行平行实验。

针对所选取数据量的不同以及不同的应用场景，设计了两组实验，分别为：

在保证机器翻译性能的前提下选取尽量少的数据；

选取极少量的数据观察机器翻译性能的变化。

（2）保证MT性能的实验

一般来讲，所期望的情况是，在使用尽量少的数据的前提下，不降低或尽量少降低机器翻译的性能。为此，使用本发明方法，在CWMT和NIST两个数据集上分别选取10%、20%、30%、40%、50%、60%、70%、80%的数据作为机器翻译的训练数据，观察测试集上的BLEU值。同Baseline系统的比较结果如图2A、2B所示。其中，图2A为CWMT数据集上的实验结果对比，图2B为对应的NIST数据集上的实验结果。

实验表明，使用本发明方法的结果明显优于Baseline的结果，这一点在NIST数据集上表现得尤为突出。

使用本发明方法，当选取数据子集规模为原始数据20%时，在CWMT数据集上可以达到Baseline 97%的性能，在NIST数据集上则可以达到Baseline性能的99.15%；当选取数据规模达到30%时，两个数据集上的实验结果均能够达到100%甚至更好的性能。

（3）选取少量数据的实验

在某些极端情况下，如硬件条件受限，只能使用很少量的数据训练机器翻译系统。本实施例同样设计一组实验，观察在选择极少量数据情况下机器翻译性能。使用本发明方法，分别从CWMT和NIST数据集中选取了规模为原始数据1%、5%、10%的子集作为训练数据，同Baseline系统做比较，结果如表9所示。

表9：选取极少量数据的实验结果

实验结果表明，在数据量较少的情况下，机器翻译的性能有较大的下降，但本发明方法相对于baseline的性能有明显的优势。

在CWMT数据集上，本发明方法平均性能高出baseline约2.7个点；在NIST数据集上，本发明方法平均性能高出baseline约3.2个点。

5）利用质量评价等级对进行翻译系统的改进

考虑到既然采用句对质量评价模型，可以将训练语料按照句对质量的不同分为几个等级，那么能否利用这些句对质量信息达到提升MT系统性能的目的。一个简单的想法就是在训练MT系统时，在短语表中增加m维特征，m是训练语料质量等级个数。如果一个短语在某一质量等级的数据中出现时，则相应的特征被置为1，否则为0。采用这种方法在CWMT和NIST数据上进行实验，结果如表10所示。

表10：不同质量数据设定不同权重与Baseline的比较

使用本发明方法，在CWMT和NIST两个数据集上进行实验，结果证明，当抽取的训练子集规模达到原始语料20%时，可以达到与原始语料作为训练集时97%的性能；在子集规模达到30%时，能够达到100%甚至更好的性能。

Claims

1.一种面向统计机器翻译的训练语料质量评价及选取方法，其特征在于包括以下步骤：

权重自动获取：

2.按权利要求1所述的面向统计机器翻译的训练语料质量评价及选取方法，其特征在于：所述句对质量评价线性模型为：

Q (c, e) = Σ_{i = 1}^{k} weigh t_{i} φ_{i} (c, e) - - - (1)

3.按权利要求1所述的面向统计机器翻译的训练语料质量评价及选取方法，其特征在于：所述高质量句对为：

4.按权利要求1所述的面向统计机器翻译的训练语料质量评价及选取方法，其特征在于：句对质量评价特征包括：高质量翻译短语特征和基于实词的质量评价特征，其中：

高质量翻译短语：

φ_{phrase} (c, e) = \frac{Σ_{i = 1}^{m} phrase (p_{i})}{m} - - - (5)

基于实词的质量评价特征：

φ_{CW} (w) = \frac{Σ_{i = 1}^{l_{w}} lex (w_{i}) \times isCW (w_{i})}{l_{w}} - - - (3)

其中，φ_CW(w)为基于实词的特征函数，isCW(w_t)表示词w_i是否是实词，若是，isCW(w_i)为1，否则为0；lw为句子w的长度。

5.按权利要求4所述的面向统计机器翻译的训练语料质量评价及选取方法，其特征在于：所述句对质量评价特征还包括：基于IBM model 1的翻译概率的质量评价特征、基于IBM model 1的最大化翻译概率（MTP）的质量评价特征、基于词汇化翻译概率（Lexical Weighting，LW）的质量评价特征、基于词典的质量评价特征、基于短语表染色机制的质量评价特征和基于语言模型的质量评价特征，其中：