CN107480147A

CN107480147A - 一种对比评价机器翻译系统的方法及系统

Info

Publication number: CN107480147A
Application number: CN201710694449.6A
Authority: CN
Inventors: 宗浩; 程国艮; 李世奇
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Mandarin Technology (beijing) Co Ltd
Priority date: 2017-08-15
Filing date: 2017-08-15
Publication date: 2017-12-15

Abstract

本发明属于机器翻译领域，公开了一种对比评价机器翻译系统的方法及系统；使用两个不同的维度对翻译进行评价，比传统的机器评价更贴近人的直观感受，评价的也更加精准。此外，使用人工评价，可以不要求语料有参考译文，这样大大降低了评测对语料的要求，语料的选取范围可以变的更加宽泛。本发明使用随机排列不同系统译文结果的方法，可以有效的避免评价人对某一个系统产生固定思维，使得最终的评价结果更加准确可靠。

Description

一种对比评价机器翻译系统的方法及系统

技术领域

本发明属于机器翻译领域，尤其涉及一种对比评价机器翻译系统的方法及系统。

背景技术

机器翻译是利用计算机算法自动地将一种源语言句子翻译成为另一种目标语言句子的过程。机器翻译是人工智能的一个研究方向，具有十分重要的科研价值和实用价值。伴随着全球化进程的不断深化和互联网的迅速发展，机器翻译技术在国内外政治、经济、社会、文化交流等方面发挥着越来越重要的作用。

目前，市面上提供机器翻译的服务厂商有很多，如何选择适合自己的服务商成了一个亟待解决的难题。现有机器翻译评测方法多数以机器评测为主，机器评测主要是对比参考译文和机器译文的区别来给机器译文进行打分，要求比较严格，对资源的需求也比较大，需要严格依赖原文译文对照的语料,例如现在广泛采用的机器评测标准BLEU(Bilingual Evaluation Understudy)就是比较机器翻译的译文和给出的参考译文之间的差距来打分的，而翻译的内容本身可能不固定，例如英文翻译到中文，英文为“I want acup of coffee.”，翻译成中文，既可以翻译成：“我想要一杯咖啡”，也可以翻译成“给我一杯咖啡”。在人看来的两种译法都对，而在机器评分中，若给出的参考译文是前者，则翻译成后者的得分较低，若给出的参考译文是后者，则前者的得分较低。所以在评价机器翻译的准确性上，人往往比机器更准确。

综上所述，现有技术中存在的问题是：目前市面上没有很好的机器翻译的对比评价系统，来同时对比两个或多个机器翻译系统的翻译质量。微软在对比统计机器翻译系统和神经网络机器翻译系统中使用了同时呈现两种不同译文的方法，评分人根据自己的判断来选择出更好的译文结果。这种方法虽然能在一定程度上判断两个或多个机器翻译系统的好坏，但无法量化的去判断一个翻译系统比另一个翻译系统好多少，从而无法量化的去评价两个或两个以上的翻译系统。

发明内容

针对现有技术存在的问题，本发明提供了一种对比评价机器翻译系统的方法及系统，

本发明是这样实现的，一种对比评价机器翻译系统的方法，所述评价机器翻译系统的方法在忠实度和流利度两个维度评价译文的质量；在生成系统译文时随机排列译文系统顺序；由评价人员根据原文和译文进行打分；最终根据完整的评测语料生成详细的量化评测结果。

进一步，所述对比评价机器翻译系统的方法具体包括：

录入需要评测的语料；

调用不同翻译系统获取其相应的译文；

随机排列翻译的译文；

译员使用忠实度和流利度对每一句译文进行评价；

系统自动总结所有译文的评价，生成评价总结。

进一步，所述忠实度和流利度是两个不同的考量机器翻译质量的维度，忠实度从语义转换层面衡量译句的质量，评价时需要依据原文或参考译文；

流利度评价仅从译文是否符合目标语言的语法和表达方式层面考查，评价时不参照原文或参考译文。

进一步，系统自动总结所有译文的评价的方法为：

最后得分＝(忠实度总得分x0.6+流利度总得分x0.4)/句子总数。

本发明的另一目的在于提供一种对比评价机器翻译系统。

所述忠实度和流利度具体的评价标准如下：

忠实度：

。

流利度：

。

本发明的优点及积极效果为：本发明主要使用了两个不同的标准来从不同的维度对翻译进行评价，比传统的机器评价更贴近人的直观感受，评价的也更加精准。此外，使用人工评价，可以不要求语料有参考译文，这样大大降低了评测对语料的要求，语料的选取范围可以变的更加宽泛。

使用随机排列不同系统译文结果的方法，可以有效的避免评价人对某一个系统产生固定思维，使得最终的评价结果更加准确可靠。

综合来看，通过实验得出使用本发明的评价方法可以在提高40％的单人评价准确性。实验方法为，选取英语到中文的翻译方向，3个机器翻译系统进行翻译质量评比，评测语料选取8个不同的领域包含：政治、经济、教育、体育、社会、口语、科技和医疗。每个领域选取200句翻译原文，选取4个译员分别对每句话的三个机器译文进行满分为100的百分制打分，最终分别得到三个机器翻译系统的平均分作为标准答案，然后使用五名译员独立的分别进行百分制打分和忠实度、流利度两级指标进行打分。最终对比标准答案，比较三个系统的翻译水平顺序，使用百分制的五个结果只有三个正确，而使用忠实度、流利度进行打分的结果全部正确。

附图说明

图1是本发明实施提供的一种对比评价机器翻译系统的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例提供的对比评价机器翻译系统的方法，包括在忠实度和流利度两个维度评价译文质量。具体步骤如下:

S101：录入需要评测的语料。

S102：调用不同翻译系统获取其相应的译文。

S103：随机排列翻译的译文。

S104：译员使用忠实度和流利度对每一句译文进行评价。

S105：系统自动总结所有译文的评价，生成评价总结。

本发明实施例提供一种对比评价机器翻译系统。

下面结合具体实施例对本发明作进一步描述。

现有两个机器翻译系统甲乙，需要评价甲乙的系统翻译质量，评测语料为英语到中文方向的两句话。第一句话为“Investigation of the incident is being carriedout by the Counter-Terrorism Command.”第二句为：“Prime Minister Theresa Maywill chair an emergency meeting Monday morning.”

(1)甲乙两个系统分别对两句话进行翻译，得到译文A1,B1；A2；B2；如下表

A1	对该事件的调查正在由反恐指挥部进行。
		B1	反恐怖主义指挥部正在对这一事件进行调查。
A2	特蕾莎总理将于星期一上午主持紧急会议。
		B2	TheresaMay总理将主持星期一上午的紧急会议。

(2)系统随机排列译文顺序，最终得到顺序为：第一句的翻译结果为B1，A1，第二句的翻译结果为A2，B2。

(3)译员对四句翻译结果从忠实度流利度两方面进行打分，情况如下表：

句子序号	忠实度	流利度
			1	4	4
2	4	4
			3	4	4
4	3	4

(4)系统根据上面表格内的评分结果计算每个系统的平均得分，计算方法为：

最后得分＝(忠实度总得分x0.6+流利度总得分x0.4)/句子总数

根据上述公式得到系统甲的得分为4分，乙的得分为3.7。得到结论，甲系统的翻译质量优于乙。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对比评价机器翻译系统的方法，其特征在于，所述评价机器翻译系统的方法在忠实度和流利度两个维度评价译文的质量；在生成系统译文时随机排列译文系统顺序；由评价人员根据原文和译文进行打分；最终根据完整的评测语料生成详细的量化评测结果。

2.如权利要求1所述的对比评价机器翻译系统的方法，其特征在于，所述对比评价机器翻译系统的方法具体包括：

录入需要评测的语料；

调用不同翻译系统获取其相应的译文；

随机排列翻译的译文；

译员使用忠实度和流利度对每一句译文进行评价；

系统自动总结所有译文的评价，生成评价总结。

3.如权利要求1所述的对比评价机器翻译系统的方法，其特征在于，所述忠实度和流利度是两个不同的考量机器翻译质量的维度，忠实度从语义转换层面衡量译句的质量，评价时需要依据原文或参考译文；

4.如权利要求2所述的对比评价机器翻译系统的方法，其特征在于，系统自动总结所有译文的评价的方法为：

最后得分＝(忠实度总得分x0.6+流利度总得分x0.4)/句子总数。

5.一种如权利要求所述对比评价机器翻译系统的方法的对比评价机器翻译系统。