CN103119584B

CN103119584B - 机器翻译测评装置及方法

Info

Publication number: CN103119584B
Application number: CN201080069241.1A
Authority: CN
Inventors: 徐金安; 蒋俊杰
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2010-12-17
Filing date: 2010-12-17
Publication date: 2016-03-16
Anticipated expiration: 2030-12-17
Also published as: WO2012079247A1; CN103119584A

Abstract

本发明提供了一种机器翻译测评装臵及方法，其中，该装臵包括：源语言评分单元，用于接收源语言输入语句，并根据预设的源语言模型对该源语言输入语句进行评分计算，得到第一评分值；目标语言评分单元，用于接收目标语言输出语句，并根据预设的与该源语言模型相对应的目标语言模型对该目标语言输出语句进行评分计算，得到第二评分值，其中，该目标语言输出语句为该源语言输入语句对应的翻译结果；评价单元，用于根据该第一评分值与该第二评分值，计算得到该目标语言输出语句的评价值。本发明实现了在不存在参考译文或标准翻译结果的情况下，对目标语言输出语句的翻译质量进行合理评价，提高了机器翻译测评的可操作性。

Description

机器翻译测评装置及方法

技术领域

本发明涉及自然语言处理研究领域，具体涉及一种机器翻译测评装置及方法。

背景技术

机器翻译技术在翻译产业中起着重要的辅助作用，可以大大减少翻译工作人员的工作量，其地位将稳步提升。机器翻译作为自然语言处理的一项应用技术，涉及人工智能、数学、语言学、计算语言学、语音识别和语音合成等多种学科和技术，具有综合性、交叉性强的特点。

现有的机器翻译系统可以分为基于规则和基于语料库两大类。习惯上人们把直接翻译方法、转换方法、中间语言方法归类于基于规则的翻译方法。基于语料库的方法又可以细分为基于记忆的翻译方法、基于实例的翻译方法、基于神经网络的翻译方法和基于统计的翻译方法等等。目前，基于规则的方法、基于实例的方法和基于统计的方法占据主流地位。多引擎机器翻译策略的出现促进了三种主流机器翻译系统的平衡发展。

基于规则的机器翻译方法对语言语句的词法、语义和句法结构进行分析、判断和取舍，然后重新排列组合，最后生成等价的目标语言。基于实例的机器翻译方法的基本思想借鉴了外语初学者的学习过程和基本模式。翻译过程是首先将源语言句子分解为一些短语碎片，接着通过类比的方法把这些短语碎片翻译成目标语言的短语碎片，最后再把这些短语碎片组合构成完整的句子。基于统计的机器翻译方法具有良好的数学模型、无指导的学习能力和良好的鲁棒性；直接依靠统计结果进行语义消歧处理和译文选择，从而避开了语言理解的诸多难题，同时大大缩短了系统的研制周期。基于统计的机器翻译方法翻译质量的高低主要取决于概率模型的好坏和语料库的质量及其覆盖能力。近几年，多引擎机器翻译技术发展很快，在一定程度上提高了机器翻译系统的精度、鲁棒性和实用性。

当前，机器翻译研究进展很快，在机器翻译的实用化方面，国内外相关产品已经发展到翻译语言多样化、系统大规模集成化、使用终端小巧化和自动语音翻译系统实用化阶段。

在机器翻译系统的实用化过程中，机器翻译测评非常重要，主要是指运用主观或客观标准对译文质量进行评价。机器翻译测评作为机器翻译领域的重要组成部分，对翻译系统进行评价，发现系统存在的问题而促使翻译系统不断改进，从而对机器翻译技术的研究和发展起到积极的推进作用。对于研究人员而言，机器翻译测评的结果有助于改进现有的技术，为未来的研究提供方向。对于普通用户而言，机器翻译测评的结果有助于在不同翻译系统间挑选评价更高的译文供自己使用。

目前，机器翻译系统的译文评测标准有两种：一种是主观评测标准，即由人工主观判断译文质量打分；另一种是客观评测标准，即依据一定的评价模型计算打分，定量地计算系统译文与参考译文之间的接近程度。常用的客观评测打分方法如下述非专利文献1和非专利文献2中的BLEU值和NIST值、以及mWER、mPER、GMT和METEOR等，以及如专利文献1和专利文献2中的方法等。

【专利文献1】CN1641631A一种机器翻译评测方法机器系统；

【专利文献2】日本特開2007-241910机器翻译评价装置和方法；

【非专利文献1】PapineniK,RoukosS,WardT,ZhuWJ.2002.BLEU:aMethodforAutomaticEvaluationofMachineTranslation.In:Proceedingsofthe40thAnnualMeetingoftheAssociationfortheComputationalLinguistics(ACL).Philadelphia,July.Pages311-318；

【非专利文献2】YingZhang,StephanVogel,andAlexWaibel.2004.InterpretingBLEU/NISTscores:Howmuchimprovementdoweneedtohaveabettersystem?InProceedingsoftheFourthInternationalConferenceonLanguageResourcesandEvaluation(LREC),pages2051–2054。

上述传统技术方法都需要依赖参考译文，即源语言翻译句子的目标语言的正确翻译结果。然而，由于语言的多样性，对绝大多数的源语言句子而言，很难得到其正确的翻译结果，导致无法对源语言句子的翻译结果给予评测。特别是对于普通用户而言，通常的需求往往是在没有参考译文的条件下想知道翻译结果的可信度，或者比较多个系统译文的评分以选择评分更高的译文供自己使用，而上述参考文献中的各种方法，在不存在参考译文或标准翻译结果的情况下，无法对翻译结果进行评测，造成用户对翻译结果的可信度或信赖度一无所知或无法了解的状况，成为机器翻译系统的推广使用的障碍。

发明内容

本发明的第一目的是提出一种可操作性高的机器翻译测评装置。

本发明的第二目的是提出一种可操作性高的机器翻译测评方法。

为实现上述第一目的，本发明提出了一种机器翻译测评装置，包括：源语言评分单元，用于接收源语言输入语句，并根据预设的源语言模型对该源语言输入语句进行评分计算，得到第一评分值；目标语言评分单元，用于接收目标语言输出语句，并根据预设的与该源语言模型相对应的目标语言模型对该目标语言输出语句进行评分计算，得到第二评分值，其中，该目标语言输出语句为该源语言输入语句对应的翻译结果；评价单元，用于根据该第一评分值与该第二评分值，计算得到该目标语言输出语句的评价值。

为实现上述第二目的，本发明提出了一种机器翻译测评方法，包括：接收源语言输入语句，并根据预设的源语言模型对该源语言输入语句进行评分计算，得到第一评分值；接收目标语言输出语句，并根据预设的与该源语言模型相对应的目标语言模型对该目标语言输出语句进行评分计算，得到第二评分值，其中，该目标语言输出语句为该源语言输入语句对应的翻译结果；根据该第一评分值与该第二评分值，计算得到该目标语言输出语句的评价值。

本发明各个实施例中，通过基于源语言模型对源语言输入语句进行评分计算得到第一评分值，并基于与该源语言模型对应的目标语言模型对该目标语言输出语句进行评分计算第二评分值，进而根据该第一评分值及第二评分值计算得到目标语言输出语句的评价值，实现了在不存在参考译文或标准翻译结果的情况下，对目标语言输出语句的翻译质量进行合理评价，提高了机器翻译测评的可操作性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一并用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的机器翻译测评方法的实施例一流程图；

图2为本发明的机器翻译测评方法的实施例二流程图；

图3为本发明的机器翻译测评装置的实施例一结构图；

图4为本发明的机器翻译测评装置的实施例二结构图；

图5为本发明的机器翻译测评装置的实施例三结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

方法实施例

图1为本发明的机器翻译测评方法的实施例一流程图。如图1所示，本实施例包括：

步骤102：接收源语言输入语句，并根据预设的源语言模型对该源语言输入语句进行评分计算，得到第一评分值；

步骤104：接收目标语言输出语句，并根据预设的与该源语言模型相对应的目标语言模型对该目标语言输出语句进行评分计算，得到第二评分值，其中，该目标语言输出语句为该源语言输入语句对应的翻译结果；本领域技术人员可以理解，此处与该源语言模型相对应的目标语言模型具体含义是，相对应的目标语言模型与源语言模型的基本思路和原理一致，只是二者所基于的语料库为不同语言，如若源语言及目标语言分别为中文及英文，源语言模型为N元语言模型时，其语料库基于中文；目标语言模型也为N元语言模型，其语料库基于英文；

步骤106：根据该第一评分值与第二评分值，计算得到该目标语言输出语句的评价值。

本实施例通过基于源语言模型对源语言输入语句进行评分计算得到第一评分值，并基于与该源语言模型对应的目标语言模型对该目标语言输出语句进行评分计算第二评分值，进而根据该第一评分值及第二评分值计算得到目标语言输出语句的评价值，实现了在不存在参考译文或标准翻译结果的情况下，对目标语言输出语句的翻译质量进行合理评价，提高了机器翻译测评的可操作性。

图2为本发明的机器翻译测评方法的实施例二示意图。如图2所示，本实施例包括：

步骤201，接收源语言输入语句，具体操作时，步骤201可以由源语言输入单元执行，该源语言输入单元可以将接收的源语言输入语句读入内存，并将内存中的源语言输入语句输出给源语言评分单元，或者该源语言输入单元还可以直接存储源语言输入语句，并直接将接收的源语言输入语句输出给源语言评分单元；具体操作时，该源语言输入单元还可以将源语言输入语句输出至机器翻译系统；

步骤202，源语言评分单元根据预设的源语言模型对源语言输入语句进行评分计算，得到第一评分值；具体操作时，可以预设一至多种源语言模型，相应地，在预设的多种语言模型中选择一种源语言模型进行评分计算，还可以设臵一个源语言模型库以存储各种源语言模型；以下以N元语言模型(n-grammodel)为例进行解释说明具体的评分计算过程：

源语言评分单元根据N元语言模型计算源语言输入语句的概率，其基本思想为：将语言模型构建为字符串s的概率分布p(s)，该p(s)反映的是字符串s作为一个句子出现的概率；假定s由多个词组成，表示为s＝w₁w₂w₃...w_l，则可得到：

p (s) = p (w_{1}) p (w_{2} | w_{1}) p (w_{3} | w_{1} w_{2}) . . . p (w_{l} | w_{1} w_{2} . . . w_{l - 1}) = Π_{i = 1}^{l} p (w_{i} | w_{1} . . . w_{i - 1});

考虑到通常一个词的出现仅与前n-1个词有关系，即一个词出现的概率只依赖于它前面的n-1个词，对应得到N元语言模型；同时，在句子开头加上句首标记<BOS>，在句子结尾加上句尾标记<EOS>，即，w0为<BOS>，wl+1为<EOS>，则有：

p (s) = Π_{i = 1}^{l} p (w_{i} | w_{1} . . . w_{i - 1}) \approx Π_{i = 1}^{l + 1} p (w_{i} | w_{i - n + 1}^{i - 1}) - - - (1)

具体在计算时可以采用最大似然估计，即：

p (w_{i} | w_{i - n + 1}^{i - 1}) = \frac{c (w_{i - n + 1}^{i})}{\underset{w_{i}}{Σ} c (w_{i - n + 1}^{i})} - - - (2)

在实际计算中可能会出现某个为0，从而导致p(s)=0的情况，而事实上某个字符串s总有出现的可能，其概率应该大于0，因而可以采用平滑技术使p(s)的概率不为0，例如加1法，即：

p (w_{i} | w_{i - n + 1}^{i - 1}) = \frac{1 + c (w_{i - 1} w_{i})}{\underset{w_{i}}{Σ} [1 + c (w_{i - 1} w_{i})]} = \frac{1 + c (w_{i - 1} w_{i})}{| V | + \underset{w_{i}}{Σ} c (w_{i - 1} w_{i})} - - - (3)

当然，具体操作时也可以采用其它的平滑方法，如加法平滑法、Good-Turing估计法、Katz平滑法、Jelinek-Mercer平滑法、Witten-Bell平滑法等；本领域技术人员可以理解，对于每种具体的源语言模型可以采用由其结构确定的与之相应的各种评分计算方法，如在N元语言模型时，可以计算1元、2元、3元等对应的概率或者是各概率值的组合，得到评分值；每种语言模型对应的评分计算方法根据语言模型本身的结构及形式确定，为现有技术，不再赘述；

以下结合具体的实例对基于N元语言模型进行评分计算的过程进行解释说明，假定源语言输入语句为英语，如，训练语料由以下3个句子构成：

(“BROWNREADHOLYBIBLE”,

“MARKREADATEXTBOOK”,

“HEREADABOOKBYDAVID”)

源语言输入语句为”BROWNREADABOOK”，根据上述（1）式-（3）式建立3元语言模型，则可以得到：

p (BROWN | < BOS >) = \frac{1 + c (< BOS > BROWN)}{| V | + \underset{w_{i}}{Σ} c (< BOS > w_{i})} = \frac{1 + 1}{11 + 3} = \frac{2}{14};

p (READ | < BOS > BROWN) = \frac{1 + c (< BOS > BROWNREAD)}{| V | + \underset{w_{i}}{Σ} c (< BOS > BROWN w_{i})} = \frac{2}{12};

p (A | BROWNREAD) = \frac{1 + c (BROWNREADA)}{| V | + \underset{w_{i}}{Σ} c (BROWNREAD w_{i})} = \frac{1}{12};

p (BOOK | READA) = \frac{1 + c (READABOOK)}{| V | + \underset{w_{i}}{Σ} c (READA w_{i})} = \frac{2}{13};

p (< EOS > | ABOOK) = \frac{1 + c (ABOOK < EOS >)}{| V | + \underset{w_{i}}{Σ} c (ABOOK w_{i})} = \frac{1}{12};

则源语言输入语句“BROWNREADABOOK”的概率为：

P (BROWN READ A BOOK) = \frac{2}{14} \times \frac{2}{12} \times \frac{1}{12} \times \frac{2}{13} \times \frac{1}{12} \approx 0.0000254;

将0.0000254作为源语言输入语句的评分；本领域技术人员可以理解，上述基于Ｎ元语言模型进行分析为举例说明，具体操作时还可以根据其他的语言模型，如决策树模型，进行评分计算；

此外，该源语言评分单元在对源语言输入语句进行评分计算时，还可以考虑源语言句法结构信息，例如，源语言输入语句为主谓宾结构，目标语言输出语句为主宾结构，则可以对评分做相应的调整，具体过程可以参见图5的解释说明；

步骤203，机器翻译系统根据源语言输入语句翻译得到目标语言输出语句；

步骤204，目标语言输出单元将步骤203中得到的目标语言输出语句输出至目标语言评分单元；具体操作时，目标语言输出单元还可以将翻译结果（即目标语言输出语句）以文件、显示器、语音合成等方式进行输出；

本领域技术人员可以理解，步骤203为通过机器翻译系统翻译得到待测评的对象（即目标语言输出语句）的过程，本发明为对目标语言输出语句的测评方法及装置，也就是说，源语言输入单元与目标语言输出单元均可以不与机器翻译系统进行交互，由目标语言输出单元接收人工输入或其他的非直接源于机器翻译系统的目标语言输出语句，相应地，接收该源语言输入语句与接收目标语言输出语句之间可以无先后次序关系；步骤203中“由该源语言输入单元将源语言输入语句输出至机器翻译系统”以及步骤204中“目标语言输出单元接收机器翻译系统的目标语言输出语句”实现了本实施例中该源语言输入单元及目标语言输出单元与现有的机器翻译系统之间有效连接，为优选技术方案；

步骤205，目标语言评分单元根据与步骤202中源语言模型相对应的目标语言模型，对目标语言输出语句进行评分计算，得到评分值（可以称为第二评分值）；具体操作时可以预设多种目标语言模型，还可以设臵一个目标语言模型库存储各种目标语言模型；对应于步骤202中的举例说明，以下结合N元语言模型及平滑技术对目标语言评分单元进行评分计算的解释说明：

如与源语言语料对应的平行语料集（经过ICTLAS分词）为：

（“布朗读圣经”

“马克读一本课本”

“他读一本大卫写的书”）

若机器翻译系统为GOOGLE在线翻译系统，目标语言输出语句为“布朗读书”，使用ICTCLAS分词后为“布朗读书”，结合加1平滑法建立3元模型，计算概率：

则目标语言输出语句“布朗读书”的概率为：，将0.0008547作为目标语言输出语句的评分值；

与源语言评分单元一致，目标语言评分单元在具体评分时，也可以考虑目标语言句法结构信息进行评分，具体参见图5的解释说明；

步骤206，评价单元接收源语言评分单元和目标语言评分单元的输出结果，计算用于表征目标语言输出语句的翻译质量的评价值；

如可以计算源语言评分值与目标语言评分值的平均值，并将目标语言评分值与该平均值之间的差值表示该目标语言输出语句的评价值，该评价值表示偏离源语言输入语句的程度，显然该差值越小表示翻译结果越好；本领域技术人员可以理解，具体的评价值计算方法可以根据实际需要而设臵，如可以计算源语言评分单元和目标语言评分单元输出结果之间的和、差、积、商、对数、指数等中的任意一种，或根据这些计算方法中的至少一种计算得到目标语言输出语句的评价值；此外，也可以计算源语言评分单元和目标语言评分单元输出结果的算术平均值、几何平均值、方差等，还可以根据源语言评分单元和目标语言评分单元输出结果的归一化值进行评价值的计算；

具体操作时，在依据上述各种方法得到评价值后，还可以比较源语言输入语句与目标语言输出语句在词，词性，语义等属性上的一致性，对得到的评价值进行修正得到最终评价值，作为对翻译结果质量的评价；具体如，基于步骤202中源语言评分单元的输出为0.0000254，步骤205中目标语言评分单元的输出为0.0008547，有如下操作：

a，计算目标语言评分值与平均值之间差的绝对值，Δ＝|0.0008547-（0.0008547+0.0000254）/2|=0.0004147；

b，考虑源语言与目标语言三个属性的对应，包括词，词性，语义，具体针对词属性，修正值Δ可遵循如表1所示原则：

表1

例如，对于源语言输入语句”BROWNREADABOOK”，目标语言输出语句“布朗读书”，假设存在表2，查询表2后发现目标语言输出语句与源语言输入语句相比少了一个词：“A”，则Δ+＝Δ*1/3＝0.0005529（其中Δ+＝Δ*1/3表示修正之后的值为Δ+Δ*1/3，以下各式均为类似的计算手段）；实际操作时还可以根据需要设臵各种情况下的Δ增量，如作为谓语Δ的增量对应增大，若是量词或介词增量可以对应减小；

表2

BROWN	布朗
		READ	读
A	一
		BOOK	书

针对词性属性，假设可基于表3所示原则：

表3

对于源语言输入语句“BROWNREADABOOK”，目标语言输出语句“布朗读书”，词性对比表如表4：

表4

BROWN	名词	布朗	名词
				READ	动词	读	动词
A	量词
				BOOK	名词	书	名词

所对应词的词属性完全一致，则Δ+＝0＝0.0005529；本领域技术人员可以理解，对各种属性的分析的顺序可以自由设臵，如，若先对词性进行分析时，所对应词的词属性完全一致，则可以得到Δ+＝0＝0.0004147；若针对语义属性，可采用表5所示原则：

表5

对于源语言输入语句“BROWNREADABOOK”，目标语言输出语句“布朗读书”，语义属性对比表见表6；

表6

BROWN	主语	布朗	主语
				READ	谓语	读	谓语
BOOK	宾语	书	宾语

对应词的语义属性完全一致，则Δ+＝0＝0.0005529；这样，基于依次进行词，词性，语义的分析时，计算得到的评分为0.0005529，具体操作时还可以取其倒数1/0.0005529＝1808.6453247，作为步骤206的最终得分；

需要说明的是，评分单元在计算评价值时，还可以考虑句长的因素，具体参见图3的解释说明；

步骤207，输出步骤206的结果；具体操作时，步骤207中结果输出的形式多种多样，如文件、显示器输出、合成语音等形式；此外，还可以根据实际需要向源语言用户、目标语言用户中的至少一方进行输出。

本实施例基于源语言模型对源语言输入语句进行评分计算得到第一评分值，并基于与该源语言模型对应的目标语言模型对该目标语言输出语句进行评分计算第二评分值，进而根据该第一评分值及第二评分值计算得到目标语言输出语句的评价值，实现了在不存在参考译文或标准翻译结果的情况下，对目标语言输出语句的翻译质量进行合理评价，提高了机器翻译测评的可操作性。

装置实施例

图3为本发明的机器翻译测评装置的实施例一结构图。图1及2所示的各方法实施例均可适用于本实施例。本实施例包括：源语言评分单元32，用于接收源语言输入语句，并根据预设的源语言模型对该源语言输入语句进行评分计算，得到第一评分值；目标语言评分单元34，用于接收目标语言输出语句，并根据预设的与该源语言模型相对应的目标语言模型对该目标语言输出语句进行评分计算，得到第二评分值，其中，该目标语言输出语句为该源语言输入语句对应的翻译结果；评价单元36，用于根据该第一评分值与该第二评分值，计算得到该目标语言输出语句的评价值。

具体操作时，各源语言模型及目标语言模型可以分别预先在源语言评分单元32及目标语言评分单元34中设臵，也可以由分别存入源语言模型库及目标语言模型库（详见图4的解释说明）。

源语言评分单元32可以包括：

第一接收子单元322，用于接收源语言输入语句；

选择子单元324，用于在预设的多种源语言模型中选择一种源语言模型，并在预设的多种评分计算方法中选择一种评分计算方法，其中，多种评分计算方法根据该选择的源语言模型的结构确定（详见图2的解释说明）；

第一处理子单元326，用于根据选择的源语言模型及选择的评分计算方法，对源语言输入语句进行评分计算，得到第一评分值；其中，第一处理子单元326可以根据各源语言模型的不同，可以包括（仅为例举，不应作限定性解释）：N元语言模型处理模块（图未示），用于在选择的源语言模型为N元语言模型时，根据N元语言模型及根据N元语言模型的结构确定的评分计算方法，计算源语言输入语句的概率，概率为第一评分值。

相应地，目标语言评分单元34可以包括：第二接收子单元342，用于接收目标语言输出语句；获取子单元344，用于获取与该选择的源语言模型相对应的目标语言模型，以及获取该选择的评分计算方法；第二处理子单元346，用于根据该获取的目标语言模型及该选择的评分计算方法，对该目标语言输出语句的进行评分计算，得到第二评分值。

评价单元36可以包括：

句子长度权值子单元362，用于根据预设的估计方法及源语言输入语句得到该目标语言输出语句的句长估计值，并根据该句长估计值与该目标语言输出语句的句长实际值计算句子长度权值；其中，该估计方法一般可以形如y=f(x)的线性函数表示，如：

的估计长度，L_{SourceLanguage}表示源语言输入语句的长度，a_i表示加权系数，反映出源语言句子和目标语言句子之间的在句子长度上的对应关系，其中L_{SourcetLanguage}(x)可以由用户根据需要选定函数，如：

{\hat{l}}_{T \arg et} = Σ_{i = 1}^{k} a_{i} L_{SourcetL \arg uage} (x) = Σ_{i = 1}^{k} a_{i} x^{i} - - - (5)

其中，加权系数a_i可以使用一定规模的高质量平行语料库作为实验数据，以源语言的不同字长的句子为分析对象，如以特定字节（如每50个字节）的句子长度作为划分区间，把源语言的句子划分为k个区间，再计算每一个区间的句子的平均长度，进而考察与源语言对应的目标语言的句子字长的分布情况、并求出目标语言的句子长度在每一个划分区间的平均值，这样，可以得到k组源语言和目标语言的句子长度的对应关系数据；然后，根据误差最小均方差（LeastMeanSquare,LMS）准则，对预测句子长度的误差方程求偏微分可以得到k个方程式组成的方程组，对此方程组求解，则可以得到加权系数a_i；根据源语言输入语句及公式（4）或（5）容易求得目标语言输出语句的估计值；

具体操作时，可以根据需要，使用和、差、积、商等运算中的一种或多种方法对目标语言输出语句的估值和目标语言输出语句的实际长度l_Target进行计算，得到句子长度权值。

评价子单元364，用于根据和、差、乘、商、指数、对数中的至少一种计算方法，对句子长度权值、第一评分值及第二评分值进行计算，得到目标语言输出语句的评价值，如将根据该第一评分值及第二评分值计算得到的评价值再利用句子长度权值进行加权，得到最终评价值。

本实施例通过源语言评分单元32基于源语言模型对源语言输入语句计算得到第一评分值，并通过目标语言评分单元34基于与该源语言模型对应的目标语言模型对目标语言输出语句计算得到第二评分值，进而由该评价单元36根据该第一评分值及第二评分值计算得到目标语言输出语句的评价值，实现了在不存在参考译文或标准翻译结果的情况下，对目标语言输出语句的翻译质量进行合理评价，提高了机器翻译测评的可操作性；优选地，评价单元36考虑了句长的因素，提高机器翻译评测的正确性。

图4为本发明的机器翻译测评装置的实施例二结构图。图1及2所示的各方法实施例均可适用于本实施例。本实施例包括：源语言输入单元400、源语言评分单元402、源语言模型库404、目标语言输出单元406、目标语言评分单元408、目标语言模型库410、评价单元412、评价结果输出单元414，本领域技术人员可以理解，本发明中的各单元与图2解释中的各执行体相对应，如，源语言评分单元402与步骤202中的源语言评分单元对应。

源语言输入单元400，用于接收源语言输入语句，并转发给源语言评分单元402（对应于图2的解释说明，具体操作时，还可以将源语言输入语句输送给机器翻译系统）；可以使用各种输入设备进行源语言输入语句的输入，如键盘、手写识别、语音识别装置，或者从已存盘的文件中读取；源语言输入单元400接收各输入设备上的输入，例如，源语言输入单元400接收用户键盘上的输入，并将输入的字符串结果作为源语言输入语句，源语言输入单元400的实现过程及功能为现有技术，不再赘述；

源语言评分单元402，用于接收源语言输入单元400输出的源语言输入语句，从源语言模型库404选择一种源语言模型对源语言输入语句进行评分计算，得到对应的评分值，然后将该评分值输出到评价单元412；源语言评分单元402的具体操作参见图2的解释说明；

源语言模型库404，用于存储多种源语言模型，为源语言评分单元402提供对源语言输入语句进行评分的依据；源语言模型可以多种多样，只要能够对源语言输入语句进行评分即可，如N元语言模型、决策树模型等；评分的算法也可以根据具体的语言模型的结构和形式采用相应的计算方法，如对于选择N元语言模型的情况下，可以通过计算1元、2元等的概率，将计算得到的概率作为对应的评分值；

目标语言模型库410与源语言模型库404在构成、原理和使用方法上具有对称性和一致性，从而保证源语言评分单元402和目标语言评分单元408的处理结果具有可比性；对应于图2中的解释说明，本实施例中的机器翻译系统不是本发明各实施例中的组成部分，此处源语言输入单元400及目标语言输出单元406分别与该机器翻译系统连接，为优选的技术方案；

目标语言输出单元406，用于接收源语言输入语句对应的翻译结果（即目标语言输出语句），并把翻译结果输出到目标语言评分单元408；还可以将该翻译结果输出给用户，输出的形式多种多样，可以是文件输出，也可以是显示器输出，还可以进行语音合成以语音形式输出等等；

目标语言评分单元408，用于接收目标语言输出单元406输出的目标语言输出语句，在目标语言模型库410中选择与源语言评分单元402进行评分的源语言模型所对应的目标语言模型，对目标语言输出语句进行评分计算，得到对应的评分值（可称为第二评分值），然后将对该目标语言输出语句的评分值输出到评价单元412；目标语言评分单元408的具体操作参见图2的解释说明；

评价单元412，用于接收源语言评分单元402和目标语言评分单元408的输出结果，对机器翻译系统的输出结果（即目标语言输出语句）进行评价，得到评价值，然后把评价值输出至评价结果输出单元414；评价单元412的计算方法多种多样，具体操作详见图2的解释说明，具体操作时，该评价单元还可以考虑句长的因素，详细参见图3的解释说明；

评价结果输出单元414，用于评价单元412的评分值，并把该评分值进行输出处理，输出的形式多种多样，可以是文件输出，也可以是显示器输出，还可以进行语音合成以语音形式输出等。

图5为本发明的机器翻译测评装置的实施例二结构图。图1及2所示的各方法实施例均可适用于本实施例。本实施例包括：源语言输入单元400、源语言评分单元402、源语言模型库404、目标语言输出单元406、目标语言评分单元408、目标语言模型库410、评价单元412、评价结果输出单元414，源语言句法库500、目标语言句法库502。

本实施例与图4对应的实施例不同点在于：增加了源语言句法库500以及目标语言句法库502，其他的构成要素和单元均相同。具体地，源语言句法库500用于存储源语言的句法结构信息，以便于源语言评分单元402在进行评分计算时，可以根据需要导入句子中中心词的句法结构信息，从而提高机器翻译结果评价的可靠性；同理，目标语言句法库502用于存储目标语言的句法结构信息（如各种TreeBank等），提高利用目标语言评分单元408进行机器翻译结果评价的可靠性。

相应于增加的源语言句法库500、目标语言句法库502，还可以有如下设臵：

源语言评分单元402还包括源语言句法评分模块（图未示）及第一综合评分模块（图未示），源语言句法评分模块用于根据源语言句法结构信息，对源语言输入语句进行句法评分，得到源语言句法评分值；第一综合评分模块用于根据源语言句法评分值及第一评分值计算得到第一综合评分值，第一综合评分值的计算方法可以为多种，如加权，具体如对该源语言句法评分值及第一评分值进行归一化加权后求和得到第一综合评分值，即源语言句法评分值的归一化加权值与该第一评分值的归一化加权值的和为1；其中，源语言句法评分模块的具体实现方式多种多样，具体地：首先，对源语言输入语句进行句法分析，可以得到源语言输入语句的句子结构；其次，以源语言输入语句的句子结构中的动词等谓语成分为中心词，和源语言句法库500中相对应的谓语动词的所有结构进行相似度计算，并取相似度最大的值为源语言输入语句的句法结构得分。

目标语言评分单元408还包括目标语言句法评分模块（图未示）及第二综合评分模块（图未示），目标语言句法评分模块用于根据目标语言句法结构信息，对目标语言输出语句进行句法评分，得到目标语言句法评分值；第二综合评分模块用于根据目标语言句法评分值及第二评分值计算得到第二综合评分值，与源语言句法评分模块的具体实现方式类似：

首先，对目标语言输出语句进行句法分析，可以得到目标语言输出语句的句子结构；其次，对目标语言输出语句的句子结构中谓语词为中心词，和目标语言句法库502中相对应的谓语动词的所有结构进行相似度计算，并取相似度最大的值为目标语言输出语句的句法结构得分。

相应地，评价单元412可以包括综合评价子单元（图未示），用于根据第一综合评分值与第二综合评分值，计算得到目标语言输出语句的评价值。

本领域技术人员可以理解，具体操作时，还可以源语言评分单元402直接将得到的第一评分值及源语言句法评分值输送给评价单元412，由目标语言评分单元408直接将得到的第二评分值及目标语言句法评分值输送给评价单元412；再由评价单元412使用和、差、积、商等运算中的至少一种方法对该源语言句法评分值及目标语言句法评分值进行计算，得到翻译结果在句法结构上的评价值。

本实施通过源语言评分单元402基于源语言模型对源语言输入语句计算得到第一评分值，并通过目标语言评分单元408基于与该源语言模型对应的目标语言模型对目标语言输出语句计算得到第二评分值，进而由该评价单元36根据该第一评分值及第二评分值计算得到目标语言输出语句的评价值，实现了在不存在参考译文或标准翻译结果的情况下，对目标语言输出语句的翻译质量进行合理评价，提高了机器翻译测评的可操作性；优选地，通过增设源语言句法库500、目标语言句法库502，以在评分计算阶段考虑法句法结构信息，提高测评正确度。

最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种机器翻译测评装置，其特征在于，包括：

源语言评分单元，用于接收源语言输入语句，并根据预设的源语言模型对所述源语言输入语句进行评分计算，得到第一评分值；所述源语言模型为预设的多种源语言模型中的一种；

目标语言评分单元，用于接收目标语言输出语句，并根据预设的与所述源语言模型相对应的目标语言模型对所述目标语言输出语句进行评分计算，得到第二评分值，其中，所述目标语言输出语句为所述源语言输入语句对应的翻译结果；

评价单元，用于根据所述第一评分值与所述第二评分值，计算得到所述目标语言输出语句的评价值。

2.根据权利要求1所述的机器翻译测评装置，其特征在于，所述源语言评分单元包括：

第一接收子单元，用于接收所述源语言输入语句；

选择子单元，用于在预设的多种源语言模型中选择一种源语言模型，并在预设的多种评分计算方法中选择一种评分计算方法，其中，所述多种评分计算方法根据所述选择的源语言模型的结构确定；

第一处理子单元，用于根据所述选择的源语言模型及所述选择的评分计算方法，对所述源语言输入语句进行评分计算，得到所述第一评分值；

所述目标语言评分单元包括：

第二接收子单元，用于接收所述目标语言输出语句；

获取子单元，用于获取与所述选择的源语言模型相对应的目标语言模型，以及获取所述选择的评分计算方法；

第二处理子单元，用于根据所述获取的目标语言模型及所述选择的评分计算方法，对所述目标语言输出语句的进行评分计算，得到所述第二评分值。

3.根据权利要求2所述的机器翻译测评装置，其特征在于，所述第一处理子单元包括：

N元语言模型处理模块，用于在所述选择的源语言模型为N元语言模型时，根据N元语言模型及根据N元语言模型的结构确定的评分计算方法，计算所述源语言输入语句的概率，所述概率为所述第一评分值。

4.根据上述权利要求1-3中任一项所述的机器翻译测评装置，其特征在于，所述评价单元包括：

句子长度权值子单元，用于根据预设的估计方法及所述源语言输入语句，得到所述目标语言输出语句的句长估计值，并根据所述句长估计值与所述目标语言输出语句的句长实际值，计算得到句子长度权值；

评价子单元，用于根据和、差、乘、商、指数、对数中的至少一种计算方法，对所述句子长度权值、第一评分值及第二评分值进行计算，得到所述目标语言输出语句的评价值。

5.根据权利要求2或3所述的机器翻译测评装置，其特征在于，还包括：

源语言输入单元，用于将接收的所述源语言输入语句发送至所述源语言评分单元；

目标语言输出单元，用于将接收的所述目标语言输出语句发送至所述目标语言评分单元；

源语言模型库，用于存储多种源语言模型，并为所述源语言评分单元提供所述选择的源语言模型；

目标语言模型库，用于存储多种目标语言模型，并为所述目标语言评分单元提供所述获取的目标语言模型；

评价结果输出单元，用于输出所述评价单元得到的评价值。

6.根据上述权利要求1-3中任一项所述的机器翻译测评装置，其特征在于，所述机器翻译测评装置还包括：

源语言句法库，用于存储源语言句法结构信息；

目标语言句法库，用于存储目标语言句法结构信息；

所述源语言评分单元还包括：

源语言句法评分模块，用于根据所述源语言句法结构信息，对所述源语言输入语句进行句法评分，得到源语言句法评分值；

第一综合评分模块，用于根据所述源语言句法评分值及所述第一评分值计算得到第一综合评分值；

所述目标语言评分单元还包括：

目标语言句法评分模块，用于根据所述目标语言句法结构信息，对所述目标语言输出语句进行句法评分，得到目标语言句法评分值；

第二综合评分模块，用于根据所述目标语言句法评分值及所述第二评分值计算得到第二综合评分值；

所述评价单元包括：

综合评价子单元，用于根据所述第一综合评分值与所述第二综合评分值，计算得到所述目标语言输出语句的评价值。

7.一种机器翻译测评方法，其特征在于，包括：

接收源语言输入语句，并根据预设的源语言模型对所述源语言输入语句进行评分计算，得到第一评分值；所述源语言模型为预设的多种源语言模型中的一种；

接收目标语言输出语句，并根据预设的与所述源语言模型相对应的目标语言模型对所述目标语言输出语句进行评分计算，得到第二评分值，其中，所述目标语言输出语句为所述源语言输入语句对应的翻译结果；

根据所述第一评分值与所述第二评分值，计算得到所述目标语言输出语句的评价值。

8.根据权利要求7所述的机器翻译测评方法，其特征在于，所述根据预设的源语言模型对所述源语言输入语句进行评分计算，得到第一评分值的步骤包括：

在预设的多种源语言模型中选择一种源语言模型，并在预设的多种评分计算方法中选择一种评分计算方法，其中，所述多种评分计算方法根据所述选择的源语言模型的结构确定；

根据所述选择的源语言模型及所述选择的评分计算方法，对所述源语言输入语句进行评分计算，得到所述第一评分值。

9.根据权利要求8所述的机器翻译测评方法，其特征在于，所述根据所述选择的源语言模型及所述选择的评分计算方法，对所述源语言输入语句进行评分计算，得到所述第一评分值的步骤包括：

在所述选择的源语言模型为N元语言模型时，根据N元语言模型及根据N元语言模型的结构确定的评分计算方法，计算所述源语言输入语句的概率，所述概率为所述第一评分值。

10.根据上述权利要求7-9中任一项所述的机器翻译测评方法，其特征在于，所述根据所述第一评分值与所述第二评分值，计算得到所述目标语言输出语句的评价值的步骤包括：

根据预设的估计方法及所述源语言输入语句，得到所述目标语言输出语句的句长估计值，并根据所述句长估计值与所述目标语言输出语句的句长实际值，计算得到句子长度权值；

根据和、差、乘、商、指数、对数中的至少一种计算方法，对所述句子长度权值、第一评分值及第二评分值进行计算，得到所述目标语言输出语句的评价值。