CN101520779A

CN101520779A - 一种机器翻译自动诊断评价方法

Info

Publication number: CN101520779A
Application number: CN200910071818A
Authority: CN
Inventors: 杨沐昀; 王博; 赵铁军; 李生
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2009-04-17
Filing date: 2009-04-17
Publication date: 2009-09-02

Abstract

一种机器翻译自动诊断评价方法，属于机器翻译评价技术。它解决了现有翻译系统的评价方法中存在的只能考察翻译系统对特定单语现象的处理能力、和不能够获得翻译系统的缺陷的问题。它的具体过程为：首先将参考译文和系统译文进行词汇级匹配，然后对于每个目标语词汇利用翻译知识来寻找可能的源语言词汇，然后进行错误识别，并针对每个错误，采用源语言与目标语之间的关系判定其双语类型，进而利用双语特征与翻译知识的关系判定错误的成因。本发明所述的双语错误用源语言句子、参考译文及系统译文中相关联的词汇来表示，并在诊断过程中引入了词汇的语言学特征。本发明的方法能够更加直接的帮助开发者找到并解决翻译系统的内在缺陷。

Description

一种机器翻译自动诊断评价方法

技术领域

本发明属于机器翻译诊断技术，具体涉及到一种机器翻译的评价方法。

背景技术

对翻译结果进行评价是统计机器翻译(SMT)开发中的重要问题。由于人工评价耗时费力，人们一直致力于开发能够快速评价译文质量的自动评价方法。目前的自动评价方法通过对系统译文和人工参考。其中一些方法已经被广泛用作系统比较的标准，例如BLEU(Papieni et al.，2002)，NIST(Doddington，2002)，TER(Snover et al.，2006)，GTM(Melamed et al.，2003)，Rouge(Lin andOch，2004)以及METEOR(Banerj ee and Lavie，2005)。

然而，SMT的体系结构日趋复杂，常涉及到多种模块和参数的调试。这种开发亟需一种能够从多角度对翻译系统进行评价和分析的自动化方法。但是当前的自动评价方法尚无法完成这种“白箱”评价。基于当前方法所给出的整体分数，我们可以判断哪一个系统好一些，哪一个差一些。但是我们无法了解这种差异是怎样以及为何产生的。显而易见，一个能够明确考察SMT系统的优缺点的评价方法是当前开发所需要的。

针对这种需求，研究者们提出了一些半自动化的分析方法，包括“Niessenet al.，2000”、“Popovic et al.，200a”、“Popovic et al.，2006b”及“Kirchhoffet al.，2007”。与上述半自动化方法不同，“Popovic et al.，2007”提出了一种全自动化的错误分析方法，这种方法利用WER何PER的结合使用，在目标语一侧识别5种典型的错误。Woodpecker(Ming et al.，2008)是另一种最新的诊断方法，它能够评价SMT系统对若干典型的源语言语法现象的翻译能力。Woodpecker能够自动抽取源语言中的检测点，对检测点进行评价并在不同的语言学层次上整合评价的结果。这些诊断方法有两种不足。首先，他们仅仅考察双语对的一侧(虽然Woodpecker使用目标语词汇作为参考译文，但是检测点本身还是单语的)，这使得他们只能捕捉错误的单语特征而不能够刻画错误的翻译过程。其次，这些方法也不能够指出导致错误的原因。

基于双语信息的机器翻译自动诊断是SMT研究中的一个挑战。与当前句子级或篇章级的黑箱方法不同，诊断方法旨在使用一种白箱方法来多角度的分析翻译系统的性能。通过捕捉特定的错误和判定导致错误的具体原因，诊断方法可以更直接的帮助开发者改进翻译系统。一般来说，一个理想的诊断系统应当能够完成4个主要任务。

一、将宏观的评价对象分解为若干子对象；

二、将子对象进行适当的分类；

三、能够对翻译系统在子对象上的性能进行分别评价；

四、判断导致系统在子对象上的性能差异的具体原因。

基于这个框架，Woodpecker将源语言句子分解为若干子串，并利用层次化的语言学体系对其分类。与此不同，Popovic的方法将目标语句子分解为若干子串，并根据若干典型的目标语错误类型对其分类。这两种诊断方法，包括其他方法，都旨在考察翻译系统对特定单语现象的处理能力。

当前诊断方法的另一个不足是无法从系统缺陷的角度来解释翻译中的错误。对于开发者来说，评价的最主要任务是找到系统的缺陷并改进他。而当前的诊断方法只能够刻画错误但不能够直接找到相对应的系统缺陷，开发者仍然需要通过大量的人工分析来实现这一目的。

上述两种翻译系统的诊断方法，包括其他方法，都旨在考察翻译系统对特定单语现象的处理能力，无法从系统缺陷的角度来解释翻译中的错误。然而，翻译系统的实际任务是实现源语言到目标语的转换。

发明内容

为了解决现有翻译系统的诊断方法中存在的只能考察翻译系统对特定单语现象的处理能力、和不能够获得翻译系统的缺陷的问题，本申请提出了一种机器翻译自动诊断评价方法。

本发明的机器翻译自动诊断评价方法的具体过程为：

第一步：将参考译文和系统译文进行词汇级匹配；

第二步：对于每个目标语词汇利用翻译知识来寻找可能的源语言词汇。

第三步：错误识别，针对每一个未匹配的目标语词汇被识别为翻译错误的目标语部分；针对部分匹配的，被识别为排序错误的目标语部分；

第四步：针对每个错误，采用源语言与目标语之间的关系判定其双语类型，进而利用双语特征与翻译知识的关系判定错误的成因。

本发明的翻译错误是指源语言到目标语的错误转换，所述翻译错误的双语类型分为错误翻译、未翻译和冗余翻译三种。

本发明的排序错误是指被正确翻译但是放置在了错误位置上的词汇，本实施方式所述的双语类型的排序错误有：本地调序、错误调序和未调序三种。

本发明的方法，首先将错误定义为不正确的翻译过程，包括了错误的双语转换和错误的目标语排序，进而通过考察双语对与基于短语的统计机器翻译的系统知识之间的关系来判定错误的成因。

本发明的方法与现有方法不同，本发明旨在捕捉和分析不正确的双语转换操作而非单语的语言现象，以及分析错误的成因。基于特定系统的翻译知识，本发明大致区分了两种机器翻译的错误成因，同时也将错误划分为翻译错误和排序错误两类，并分别给出了识别方法。本发明还将语言学特征引入了错误当中。经实验证明，本发明的方法能够更加直接的帮助开发者找到并解决翻译系统的内在缺陷。

将本发明所述的方法应用于基于Moses的英汉和汉英翻译的诊断，结果显示所考察的两种错误都有助于对系统在英汉之间的翻译性能进行深入分析。

说明书附图

图1是本发明所述的方法与已有方法间的关系示意图；图2是本发明所述的方法的基本框架；图3三种翻译错误的示意图；图4是三种排序错误的示意图；图5是一组相对应的源语言句子与目标与句子之间的匹配关系示意图；图6是图5中目标与句子间的匹配关系示意图；图7是英汉翻译中排序错误的参考译文跨度(RDt)；图8是汉英翻译中排序错误的参考译文跨度(RDt)，图7和图8中的X轴为跨度的长度值，Y轴为排序错误的数量。

具体实施方式：

具体实施方式一：本实施方式所述的机器翻译自动诊断评价方法为：

第一步：将参考译文和系统译文进行词汇级匹配；

第四步：针对每个错误利用源语言与目标语之间的关系判定其双语类型，进而利用双语特征与翻译知识的关系判定错误的成因。

在第一步中，采用最小交叉率的unigram匹配方法将参考译文和系统译文进行词汇级匹配。

在第三步中所述的翻译错误，是指源语言到目标语的错误转换，所述翻译错误的双语类型分为错误翻译、未翻译和冗余翻译三种。

上述三种翻译错误的双语类型的判定方法为：

当对于同一源语言部分，参考译文与之对应的部分和系统译文与之对应的部分不相同，如图3中的部分1所示，表示参考译文中的正确词汇被翻译成了系统译文中的错误词汇，则判定为错误翻译的错误。

当源语言部分在参考译文中有对应部分，但在系统译文中没有对应的部分，如图3中的部分2和部分3所示，表示参考译文中的词汇未能被翻译，则判定为未翻译的错误。

当源语言部分在系统译文中有对应的部分，但在参考译文中没有对应的部分，如图3中的部分4所示，表示源语言中有不应该被翻译的词被翻译了，则判定为冗余翻译的错误。

第三步中的翻译错误的识别方法为：首先扫描参考译文中的未匹配词汇来识别未翻译和错误翻译两种翻译错误，然后，系统译文中未匹配且未被识别的词汇被识别为冗余翻译错误。具体过程为：从目标语一侧开始识别错误，基于系统译文和参考译文的词汇级差异，将翻译错误形式化的定义为一个6元组：

<S，R，T，Bi，Cs，Ln>

其中，S，R，T是相应句子中的词汇序列，S表示源语言部分，R表示参考译文部分，T表示系统译文部分，Bi为错误的双语类型，Cs为成因，Ln是语言学特征的集合。

所述Ln是一个可扩展得语言学特征集合，采用Ln中的成员对文本中的错误来进一步分类。任何可以与源语言或目标语词汇相关联的语言学特征都可以被引入Ln，例如词性，词组标记，依存类型等等。本技术方案中仅考虑词汇的词性特征。

定义Src表示源语言句子，Trs和Ref分别表示相对应的系统译文和参考译文，RU为翻译系统的翻译规则集合，每个未翻译和错误翻译通过以下过程来识别：

令错误的参考译文部分R＝r，所述r表示参考译文Ref中每一个未匹配的词汇，则翻译规则的集合Ru1为：

Ru1＝{A->B|A->B∈RU，A∈Src，B∈Ref，r∈B}，

其中机器翻译中，从源语言短语A到目标语短语B的翻译关系A->B属于翻译规则的集合RU；

如果所述翻译规则的集合Ru1为空，则有：S＝null，T＝null；

否则，翻译规则的集合Ru2为：

Ru2＝{A->B|A->B∈Ru1，B∈Trs}，

其中，机器翻译中从源语言短语A到目标语短语B的翻译关系A->B属于翻译规则的集合Ru1；

如果翻译规则的集合Ru2为空，则有：S＝Min(source，Ru1)，T＝null；

否则，S＝Min(source，Ru2)，T＝Min(target，Ru2)。

相关程序代码为：

For each unmatched and not identified word t in Trs

T＝t；R＝null；Bi＝Extra-Translation

Ru1＝{A->B|A->B∈RU，A∈Src，B∈Trs，t∈B}

S＝Min(source，Ru1)

因为冗余翻译错误都是由翻译模型的错误操作导致的，所以他们的错误原因Cs为模型错误的原因，Cs＝Model-Caused。最后，将S，R和T的词性加入Ln中，获得翻译错误的6元组：<S，R，T，Bi，Cs，Ln>。

第三步中所述的排序错误，是指被正确翻译但是放置在了错误位置上的词汇，本实施方式所述的双语类型的排序错误有：本地调序、错误调序和未调序三种。

上述三种排序错误的判定方法为：

如果同一个源语言部分有两个对应的参考译文部分R1、R2，并且所述源语言部分有两个对应的系统译文部分T1、T2，如图4中的部分5所示，则判定为是本地错误；这种错误可以通过选择正确的翻译规则来解决。

如果与两个源语言部分S1、S2对应的两个参考译文部分R1、R2和两个系统译文部分T1、T2的顺序不同，并且所述两个源语言部分S1、S2与两个参考译文部分R1、R2的顺序相同，如图4中的部分6所示：则判定为错误调序，表示一个不需要被调序的词汇被调序了；

如果与两个源语言部分S1、S2对应的两个参考译文部分R1、R2和两个系统译文部分T1、T2的顺序不同，并且所述两个源语言部分S1、S2与两个参考译文R1、R2的顺序相同，如图4中的部分7所示：则判定为未调序错误，表示应该被调序的词汇没有被调序。

所述排序错误的识别方法为：

将系统译文与参考译文中相匹配的词汇视为正确翻译的词汇，对于任意一对被匹配的参考译文词汇r1和r2，如果他们在系统译文中所对应的词汇具有不同的顺序，则判定为是一个排序错误，采用一个9元组来形式化的表示：<W1，W2，S1，S2，Bi，RDt，TDt，SDt，Ln>，

其中，W1表示系统译文中的词汇，W1＝r1，W2表示参考译文中的词汇，W2＝r2，S1表示r1在源语言句子中的对应部分，S2表示r2在源语言句子中的对应部分，Bi为双语类型，RDt表示排序错误在参考译文中的跨度，TDt表示排序错误在系统译文中的跨度，SDt表示排序错误在源语言句子中的跨度，Ln仍为语言学特征集合；

所述排序错误的识别过程为：获得源语言部分S1和S2：

根据Ru1＝{A->B|A->B∈RU，A∈Src，B∈Ref，r1∈B}和

Ru2＝{A->B|A->B∈RU，A∈Src，B∈Ref，r2∈B}获得翻译规则的集合Ru1和翻译规则的集合Ru2，如果所述翻译规则的集合Ru1和翻译规则的集合Ru2的交集为空，Ru1∩Ru2≠φ，则有：源语言部分S1和S2为S1＝S2＝Min(source，Ru1∩Ru2)；否则源语言部分S1和S2为：S1＝Min(source，Ru1)，S2＝Min(source，Ru2)；

根据公式

{AcS}_{i} = \frac{Id (S_{i} . l) + Id (S_{i} . r)}{2} - - - (3)

分别获得排序错误的两个源语言部分S₁和S₂的锚点AcS₁和AcS₂；

其中Id(w)表示词汇w在句子中的序号，S_il和S_ir分别为短语S的最左词汇和最右词汇；

根据获得的S₁和S₂，以及S₁和S₂的锚点AcS₁和AcS₂获得错误的双语类型Bi：

当S₁＝S₂时，双语类型Bi为本地错误，Bi＝Local-Order；

当(Id(r₁)-Id(r₂))×(AcS₁-AcS₂)<0时，双语类型Bi为未调序本地错误，Bi＝Not-Order；否则，双语类型Bi为错误调序错误，Bi＝False-Order；

公式

Bi = \{\begin{matrix} Local - Orderif S_{1} = S_{2} \\ Not - Orderedif (Id (r_{1}) - Id (r_{2})) * \\ ({AcS}_{1} - {AcS}_{2}) < 0 \\ False - Orderedif (Id (r_{1}) - Id (r_{2})) * \\ ({AcS}_{1} - {AcS}_{2}) &GreaterEqual; 0 \end{matrix} - - - (4)

排序错误在参考译文中的跨度RDt为：

RDt＝Abs(Id(r₁)-Id(r₂))；

排序错误在系统译文中的跨度TDt为：

TDt＝Abs(Id(t₁)-Id(t₂))；

排序错误在源语言句子中的跨度SDt为：

SDt = Abs (\frac{(Id (S_{1} . l) - Id (S_{2} . l)) + (Id (S_{1} . r) - Id (S_{2} . r))}{2});

其中Abs(a)为a的绝对值，t₁和t₂分别为r₁和r₂在系统译文中的对应词汇。

具体实施方式二：本实施方式是具体实施方式一所述的机器翻译自动诊断评价方法的一个实施例。

这里我们给出一个错误识别的实例。

图5给出了一组相对应的源语言句子与目标与句子之间的匹配关系，所述匹配关系是根据翻译规则获得的，所述目标是指系统译文，句子是指系统译文。

所述目标与句子间的匹配关系参见图6所示，其中，产生系统译文的翻译系统使用了以下的翻译规则：

我-I；喜欢-love；喜欢-like；桌子-table；桌子-desk；上-on；的-of；书-book；上-on the；

基于以上信息可以识别出3个翻译错误<S，R，T，Bi，Cs，Ln>为：

由于翻译模型导致的错误翻译：

[桌子，table，desk，Mis-Translation，Model-Caused，{NN，NN，NN}]；

由于翻译知识导致的未翻译：

[Null，that，Null，Not-Translation，Knowledge-Caused，{Null，PN，Null}]；

由于翻译模型导致的冗余翻译：

[的，Null，of，Extra-Translation，Model-Caused，{DEC，Null，IN}]；

上述信息的3个排序错误<W1，W2，S1，S2，Bi，RDt，TDt，SDt，Ln>为：

错误调序：[I，like，我，喜欢，False-Ordered，1，1，1，{PN，VV，PN，VV}]；

未调序：[book，on，书，上，Not-Ordered，1，2，2，{NN，IN，NN，IN}]；

本地调序：[on，the，上，上，Local-Ordered，1，2，0，{IN，DT，IN，IN}]；

需要注意的是，因为排序错误都是正确的翻译，所以他们不可能由翻译知识的缺乏所导致。因此我们不判定排序错误的成因，因为他们都是模型导致的错误。

实验

我们将本发明所述的诊断方法应用于一个典型的基于短语的统计机器翻译系统：Moses(Koehn et al.，2007)，词性标记由Stanford statistical parser(Klein2003)获取。

实验所使用的数据来自第4届China Workshop on Machine Translation。训练数据包括两个领域：新闻和科技。两个领域分别包括约800K个汉英句对。汉语和英语的开发集分别包含492和505个新闻句子。汉语和英语测试集分别包含了1000和1006个新闻句子。评测中，测试集中的每个句子配备了4个人共参考译文。

在实验中来自两个领域的训练语料被分别随机的划分为5个子集，其规模从全部语料的1/16到全部语料呈指数级增长。我们将Moses在划分出的10组训练语料上进行训练，然后在汉英的新闻语料上进行测试。最后，使用新的诊断系统对翻译结果进行诊断。我们可以通过对诊断结果进行各种不同的统计分析来获取翻译系统的内部特征，本发明中我们选取了其中的3组统计结果。

第一组结果统计了各类翻译错误的数量并在表1中给出。第一列为训练语料的规模。其余列自左向右分别为全部翻译错误，知识导致的错误，模型导致的错误，错误翻译，未翻译和冗余错误的数量。

表1 不同规模训练集上的汉英翻译的翻译错误数量

第二个统计关注于错误的语言学特征。对于英汉和汉英翻译我们在表2中列出了目标与一侧出现最为频繁的5个词性标记。而表3进一步给出了汉英翻译错误的各子类别中出现最为频繁的5个词性。

表2 错误中的高频词性标记

Direction	Error Type	1st	2nd	3rd	4th	5th
Direction	Error Type	1st	2nd	3rd	4th	5th	E-C	Translation	名词	动词	副词	介词	数词
E-C	Order	名词	动词	“的”	“的”	介词	E-C	Translation	名词	动词	副词	介词	数词
E-C	Order	名词	动词	“的”	“的”	介词	C-E	Translation	名词	介词	冠词	专有名词	形容词
C-E	Order	冠词	介词	名词	专有名词	形容词	C-E	Translation	名词	介词	冠词	专有名词	形容词

表3 汉英翻译错误中的高频词性标记

为了进一步考察双语转换的语言学特征，我们在表4中列出了英汉和汉英翻译中出现最为频繁的双语词性标记对。

表4 翻译错误中的高频词性对

Direction	1st	2nd	3rd	4th
Direction	1st	2nd	3rd	4th	E-C	名词-名词	介词-名词	介词-动词	专有名词-名词
	5th	6th	7th	8th	E-C	名词-名词	介词-名词	介词-动词	专有名词-名词
	5th	6th	7th	8th		复数-名词	名词-动词	介词-介词	形容词-名词
	1st	2nd	3rd	4th		复数-名词	名词-动词	介词-介词	形容词-名词
	1st	2nd	3rd	4th	C-E	名词-名词	名词-复数	名词-形容词	动词-名词
	5th	6th	7th	8th	C-E	名词-名词	名词-复数	名词-形容词	动词-名词
	5th	6th	7th	8th		名词-专有名词	动词-动词	动词-动词	名词-介词

在表1中随着语料规模的增加各类翻译错误的数量均显著下降，唯有模型导致的错误例外。这提示我们训练语料的增加在提供了更加丰富的翻译知识的同时，也增加了选择正确知识的难度。

表中代码的含义：NN-名词，IN-介词，VV-动词，NNP-专有名词，NNS-复数，JJ-形容词，

与基于科技领域知识的译文相比，基于新闻领域知识的译文错误明显较少。这清楚表明了由于领域区别所造成的知识缺乏。另一个有趣的现象是与其他类型的错误相比，错误翻译类型的错误的数量随着语料规模和领域的变化，表现出较强的稳定性。其原因可以在表3中找到：本实验中，错误翻译类型的错误经常发生在一些高频词汇上(如冠词，介词和“TO”)。这些词汇往往具有多种译文，并且出现在多个翻译规则当中。这使得错误翻译类型的错误的数量相对较少并且较为稳定。

表2，3，4共同刻画了错误的语言学特征。从单语的角度看，名词是最高频的错误词性标记。虚词(如介词和冠词)错误常常是由模型导致的而实词(如名词和形容词)错误常常是由知识导致的。在英汉翻译中，汉语动词较难翻译，而汉语虚词“的”较难被排序。而在汉英翻译中，英文冠词和介词较难排序。进一步的，表3中汉英翻译的排序错误的双语类型给出了2个信息：首先很多冠词排序错误是本地排序类型，也就是说他们可以通过选择正确的翻译规则来解决。其次，名词的排序往往被忽视。

从双语的角度看，由于名词的高频度，名词-名词仍然是最高频的词性对。从其他高频词性对中可以获取等多关于较难翻译的双语现象的信息。第一个是英语的词形变化与汉语词汇间的翻译，例如英语复数名词与汉语名词间的翻译以及英语动词过去式和汉语动词之间的翻译。第二个是对于那些在两种语言种具有相同含义但是词性不同的词汇间的翻译。例如，汉语名词经常被作为修饰性的定语使用，这时它往往应当被翻译为英语的形容词。这种情况包括了英语形容词和汉语名词间的翻译以及英语名词与汉语动词之间的翻译。需要注意的是，英文介词经常与名词和动词相配对。这是因为错误的源语言部分同时也是翻译规则的源语言部分，这就使得英语中常常与名词和副词相邻接的介词会被错误的引入错误的源语言部分而参与统计。

在第3组统计中，我们着重考察排序错误的跨度。图7和图8中比较了英汉和汉英翻译中排序错误的参考译文跨度(RDt)。其中X轴为跨度的长度值，而Y轴为排序错误的数量。其中Y轴的值使用全部排序错误的值进行了归一化。白色的条柱表示汉英翻译的排序错误分布，而黑色的条柱表示英汉翻译的排序错误分布。其中图7中跨度值不超过10，而图8中跨度值大于10。

根据图7和图8所示，多数排序错误跨度较短。同时也可发现汉语中的跨度要长于英语中的跨度。

实验结果表明，与已有的方法不同，新的诊断方法可以有效的从多角度对翻译系统进行评价和分析。新方法不仅可以从宏观的角度对系统进行评价，也可以解释系统的内在特征。

表5中计算了当前主流的宏观评测方法与翻译错误数量之间的Spearman相关度。翻译错误的总数是新方法中最能够表系统宏观质量的参数。表5中的高相关度表明新方法具有可靠的系统级评价能力。除系统级评价外，模型导致的错误数量和知识导致的错误数量与主流方法具有完全相反的相关度。这一区别刻画了系统内在的变化趋势，而这一趋势是其他方法所无法捕捉到的。

表5 错误数量与主流方法分数间的相关度(新闻/科技)

Error Type	BLEU4	NIST5	METEOR
Error Type	BLEU4	NIST5	METEOR	All Translation	-1/-1	-0.9/-1	-1/-1
Knowledge-Caused	-1/-1	-0.9/-1	-1/-1	All Translation	-1/-1	-0.9/-1	-1/-1
Knowledge-Caused	-1/-1	-0.9/-1	-1/-1	Model-Caused	0.9/1	0.7/1	0.9/1

与已有的其他诊断方法相比，成因分析是本发明所特有的能力。本发明的另一个重要特点是对双语类型的引入和识别。双语类型不仅能够识别预定义的若干典型的双语转换错误，而且可以捕捉到系统特有的转换错误。相反，其他基于单语特征的诊断方法是无法做到这一点的。

Claims

1、一种机器翻译自动诊断评价方法，其特征在于，它的具体过程为：

第一步：将参考译文和系统译文进行词汇级匹配；

2、根据权利要求1所述的一种机器翻译自动诊断评价方法，其特征在于，在第一步中，采用最小交叉率的unigram匹配方法将参考译文和系统译文进行词汇级匹配。

3、根据权利要求1所述的一种机器翻译自动诊断评价方法，其特征在于，在第三步中所述的翻译错误，是指源语言到目标语的错误转换，所述翻译错误的双语类型分为错误翻译、未翻译和冗余翻译三种。

4、根据权利要求3所述的一种机器翻译自动诊断评价方法，其特征在于，所述三种翻译错误的双语类型的判定方法为：

当对于同一源语言部分，参考译文与之对应的部分和系统译文与之对应的部分不相同时，判定为错误翻译；

当源语言部分在参考译文中有对应部分，但在系统译文中没有对应的部分，则判定为未翻译；

当源语言部分在系统译文中有对应的部分，但在参考译文中没有对应的部分，则判定冗余翻译。

5、根据权利要求1所述的一种机器翻译自动诊断评价方法，其特征在于，第三步中翻译错误的识别方法为：首先扫描参考译文中的未匹配词汇来识别未翻译和错误翻译两种翻译错误，然后，系统译文中未匹配且未被识别的词汇被识别为冗余翻译错误。

6、根据权利要求5所述的一种机器翻译自动诊断评价方法，其特征在于，翻译错误的识别方法具体为：从目标语一侧开始识别错误，基于系统译文和参考译文的词汇级差异，将翻译错误形式化的定义为一个6元组：<S，R，T，Bi，Cs，Ln>，其中，S，R，T是相应句子中的词汇序列，S表示源语言部分，R表示参考译文部分，T表示系统译文部分，Bi为错误的双语类型，Cs为成因，Ln是语言学特征的集合；

定义Src表示源语言句子，Trs和Ref分别表示相对应的系统译文和参考译文，RU为翻译系统的翻译规则集合，

未翻译和错误翻译错误的识别过程为：

Ru1＝{A->B|A->B∈RU，A∈Src，B∈Ref，r∈B}，

如果所述翻译规则的集合Ru1为空，则有：S＝null，T＝null；

否则，翻译规则的集合Ru2为：

Ru2＝{A->B|A->B∈Ru1，B∈Trs}，

否则，S＝Min(source，Ru2)，T＝Min(target，Ru2)；

根据获得的S和T的值，确定双语类型Bi和错误原因Cs：

当S＝null时，错误原因Cs为知识缺乏的原因，Cs＝Knowledge-Caused，否则，错误原因Cs为模型错误的原因，Cs＝Model-Caused；

冗余翻译错误的识别过程为：在完成识别错误翻译和未翻译错误之后，基于系统译文中每个未被识别的未匹配词汇t来识别冗余翻译错误，具体过程为：

错误的系统译文部分T＝t；

错误的参考译文部分R为空，R＝null；

错误的双语类型Bi为冗余翻译错误：Bi＝Extra-Translation；

则有：S＝Min(source，Ru1)，Cs＝Model-Caused；

最后，将S，R和T的词性加入Ln中，获得翻译错误的6元组：<S，R，T，Bi，Cs，Ln>。

7、根据权利要求1所述的一种机器翻译自动诊断评价方法，其特征在于，第三步中所述的排序错误，是指被正确翻译但是放置在了错误位置上的词汇。

8、根据权利要求1所述的一种机器翻译自动诊断评价方法，其特征在于，所述排序错误，是基于参考译文中被匹配的词汇来识别的，所述的双语类型的排序错误有三种，分别为：本地调序、错误调序和未调序。

9、根据权利要求8所述的一种机器翻译自动诊断评价方法，其特征在于，所述三种排序错误的判定方法为：

如果同一个源语言部分有两个对应的参考译文部分R1、R2，并且所述源语言部分有两个对应的系统译文部分T1、T2，则判定为是本地错误；

如果与两个源语言部分S1、S2对应的两个参考译文部分R1、R2和两个系统译文部分T1、T2的顺序不同，并且所述两个源语言部分S1、S2与两个参考译文部分R1、R2的顺序相同，则判定为错误调序；

如果与两个源语言部分S1、S2对应的两个参考译文部分R1、R2和两个系统译文部分T1、T2的顺序不同，并且所述两个源语言部分S1、S2与两个参考译文R1、R2的顺序相同，则判定为未调序。

10、根据权利要求1所述的一种机器翻译自动诊断评价方法，其特征在于，所述排序错误的识别方法为：

将系统译文与参考译文中相匹配的词汇视为正确翻译的词汇，对于任意一对被匹配的参考译文词汇r1和r2，采用一个9元组来形式化的表示排序错误：<W1，W2，S1，S2，Bi，RDt，TDt，SDt，Ln>，

所述排序错误的识别过程为：

根据Ru1＝{A->B|A->B∈RU，A∈Src，B∈Ref，r1∈B}和

根据公式

{AcS}_{i} = \frac{Id (S_{i} l) + Id (S_{i} r)}{2}

根据获得的S₁和S₂、以及S₁和S₂的锚点AcS₁和AcS₂获得错误的双语类型Bi：

当S₁＝S₂时，双语类型Bi为本地错误，Bi＝Local-Order；

排序错误在参考译文中的跨度RDt为：

RDt＝Abs(Id(r₁)-Id(r₂))；

排序错误在系统译文中的跨度TDt为：

TDt＝Abs(Id(t₁)-Id(t₂))；

排序错误在源语言句子中的跨度SDt为：

SDt = Abs (\frac{(Id (S_{1} . l) - Id (S_{2} . l)) + (Id (S_{1} . r) - Id (S_{2} . r))}{2});