CN110472257A

CN110472257A - 一种基于句对的机器翻译引擎测评优选方法及系统

Info

Publication number: CN110472257A
Application number: CN201910772953.2A
Authority: CN
Inventors: 张井; 陈件; 宋德敏
Original assignee: Nanjing Timeihus Information Technology Co Ltd
Current assignee: Nanjing Timeihus Information Technology Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-11-19

Abstract

本发明公开了一种基于句对的机器翻译引擎测评优选方法及系统，其通过根据选择的语言对、句的领域，对各机器翻译引擎进行多个维度的评分，再对上述评分进行加权求和得到各机器翻译引擎在句上的加权和值，选择加权和值最高的机器翻译引擎输出句的翻译结果，从而整合得到整篇翻译文本。通过上述方法可以使得在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务，能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务，提高翻译效率，减少用户的后续工作量，提供优质的机器翻译服务。

Description

一种基于句对的机器翻译引擎测评优选方法及系统

技术领域

本申请涉及机器翻译领域，特别涉及一种基于句对的机器翻译引擎测评优选方法及系统。

背景技术

在人工智能高速发展的今天，机器翻译技术取得了突破性进展。市面上涌现了大量的商家提供机器翻译服务，包括微软、谷歌、百度、搜狗、有道、腾讯翻译君等。众多复杂的机器翻译引擎在翻译质量、擅长领域上都参差不齐，所以如何为用户提供自动优选机器翻译引擎服务、如何客观的评价目前市面上的机器翻译引擎是一件必要和必须的事情。目前市面上还没有机器翻译引擎的自动优选服务，用户面对诸多翻译引擎还处于无法分辨好坏的阶段，机器翻译引擎的翻译结果并不是那么让用户满意，得到的结果可能需要让用户再次进行核对修改，影响了生活工作的效率。

发明内容

本发明提供了一种基于句对的机器翻译引擎测评优选方法及系统，目的在于现有技术中的机器翻译引起在翻译质量、擅长领域上参差不齐，无法得到最优选的翻译结果。

为了解决上述问题或至少部分地解决上述技术问题，在本申请的一个实施例中，提供了一种基于句对的机器翻译引擎测评优选方法，其中所述机器翻译引擎具有多个，所述方法包括：

步骤一、对上传的待翻译文件选择目标语言，得到源语言和目标语言的语言对；

步骤二、对所述待翻译文件进行解析，确定所述待翻译文件中的每一句所属的领域；

步骤三、根据所述语言对、所述句的领域，对各所述机器翻译引擎进行多个维度的评分；

步骤四、对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值；

步骤五、所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果；

步骤六、将所述句的翻译结果整合输出所述目标语言的翻译文本。

在本申请的又一实施例中，还提供了一种基于句对的机器翻译引擎测评优选系统，其中所述机器翻译引擎具有多个，其特征在于，所述系统包括：

目标语言选择模块，用于对上传的待翻译文件选择目标语言，得到源语言和目标语言的语言对；

领域解析模块，用于对所述待翻译文件进行解析，确定所述待翻译文件中的每一句所属的领域；

多维度评分模块，用于根据所述语言对、所述句的领域，对各所述机器翻译引擎进行多个维度的评分；

计算模块，用于对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值；

优选模块，用于将所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果；

整合模块，用于将所述句的翻译结果整合输出所述目标语言的翻译文本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地，下面描述中的附图仅用于示意本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。

图1是本发明一实施例的一种基于句对的机器翻译引擎测评优选方法的流程示意图；

图2是本发明另一实施例的一种基于句对的机器翻译引擎测评优选系统的结构示意图。

具体实施例

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX，但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如，在不脱离本申请实施例范围的情况下，第一XXX也可以被称为第二XXX，类似地，第二XXX也可以被称为第一XXX。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地，取决于语境，短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

在一实施例中，如图1所示，提供了一种基于句对的机器翻译引擎测评优选方法，其方法包括：

步骤一、对上传的待翻译文件选择目标语言，得到源语言和目标语言的语言对。

用户上传待翻译文件，选择文件需要翻译的目标语言，形成各机器翻译引擎的源语言和目标语言的语言对。其中，机器翻译引擎包括但不限于微软、谷歌、百度、搜狗、有道、腾讯翻译君等；上述语言对包括但不局限于中英、英中、中日、日中、英日、日英、中德、德中、中法、法中、中俄、俄中、中韩、韩中等。

步骤二、对所述待翻译文件进行解析，确定所述待翻译文件中的每一句所属的领域。

对用户上传的待翻译文件进行解析，对长篇进行断句，对于每一句话，使用CNN分类器对每句话划分不同的领域，确定待翻译文件中每一句所属的领域。其中，上述领域可以包括多种技术领域，包括但不限于航空航天、商业、汽车、化学、建筑、文化、电子信息、金融、地理、法律、机械、医学、军事、旅游及其它。

步骤三、根据所述语言对、所述句的领域，对各所述机器翻译引擎进行多个维度的评分。其中，上述多个维度主要分为历史数据分析和自定义测评。

历史数据应当包含源语言文本、机器翻译结果、人工PE结果、所选用的机器翻译和编辑时间这五个字段。其中，历史数据分析主要从三个方面对各机器翻译引擎在选择的语言对、确定的领域进行测评。这三个方面分别为用户喜爱度、平均编辑代价、平均编辑时间。

其中，第一方面：用户喜爱度，其测评步骤为：

1)选定测评集：抽取源语言和目标语言为选择的语言对的各机器翻译历史数据；利用已有的CNN文本分类器将上述抽取的数据划分领域；抽取上述划分的领域为确定的领域的数据作为测评集。

2)统计在测评集上用户选择各机器翻译引擎翻译的句对数；

3)根据各机器翻译引擎翻译的句对数，对各机器翻译引擎做升序排序；

4)上述升序排序中，各机器翻译引擎的序列即为该机器翻译引擎在用户喜爱度上的得分。

其中，第二方面：平均编辑代价，其测评步骤为：

1)选定测评集：抽取源语言和目标语言为选择的语言对的各机器翻译历史数据；利用已有的CNN文本分类器将上述抽取的数据划分领域；在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集。其中数据量为2万条，即在选择的语言对、确定的领域下，所属各机器翻译引擎的句对数都为2万条。

2)根据机器翻译引擎的不同，分别计算平均编辑代价；

其中，平均编辑代价定义为：

其中len(x)为字符串x的长度，MT(x)为句段x机器翻译的结果，PE(x)为句段x人工修改的结果，ED(x)句段x机器翻译结果到人工修改结果的编辑距离。

3)根据平均编辑代价，对于各机器翻译引擎做降序排序；

4)在上述降序排序中，各机器翻译引擎的序列即为该机器翻译引擎在维度编辑代价上的得分。

其中，第三方面：平均编辑时间，其测评方法为：

1)选定测评集：抽取源语言和目标语言为选择的语言对的各机器翻译历史数据；利用已有的CNN文本分类器将上述抽取的数据划分领域；在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集。其中，数据量为2万条，即在选择的语言对、领域下，所属各机器翻译引擎的句对数都为2万条。

2)根据机器翻译引擎的不同，分别计算平均编辑时间；

其中，平均编辑时间定义为：

其中ET(x)句段x译员从开始翻译到确认所使用的时间。

3)根据平均编辑时间，对于各机器翻译引擎做降序排序；

4)在上述降序排序中，各机器翻译引擎的序列即为该机器翻译引擎在维度编辑时间上的得分。

自定义测评，主要从三个方面上对各机器翻译引擎在选择的语言对、确定的领域进行测评。这三个方面分别为参考译文测评、关键字测评和语言模型困惑度测评。

其中，第一方面：参考译文测评，其方法步骤为：

1)选定测评集：选择语言为选择的语言对源语言的数据集；利用CNN文本分类器对该数据进行领域划分；抽取一定数量的，划分领域为选定领域的句子作为待翻译数据，其中上述抽取的句子数为2千条；由专业译员翻译该数据集，给出多份参考译文，其中上述参考翻译的个数为5份；利用各机器翻译引擎翻译待翻译数据，与译员给出的参考译文共同组成测评集。

2)在上述测评集中计算机器翻译结果与参考译文的BLEU值；

3)根据BLEU值对各机器翻译引擎做升序排序；

4)在上述升序排序中，各机器翻译引擎的序列即为该机器翻译引擎在参考译文测评上的得分。

其中，第二方面：关键字测评，其方法步骤为：

1)选定测评集：选择语言为选择的语言对源语言的数据集；利用上述CNN文本分类器对该数据进行领域划分；抽取一定数量的，划分领域为选定领域的句子作为待翻译数据，其中上述抽取句子的数量为2万条；由专业译员给出每个句子译文应包含的关键词得出句对关键字；利用各机器翻译引擎翻译待翻译数据，与其句对关键字共同组成测评集。

2)检测句对关键字在各机器翻译结果中是否出现，若未出现减一分(各机器翻译引擎的初始分数为0)；

3)根据上述评分对对各机器翻译引擎做升序排序；

4)在上述升序排序中，各机器翻译引擎的序列即为该机器翻译引擎在关键字测评上的得分。

其中，第三方面:语言模型困惑度测评，其方法步骤为：

1)选定测评集：选择语言为选择的语言对源语言的数据集；利用上述CNN文本分类器对该数据进行领域划分；抽取一定数量的，划分领域为选定领域的句子作为待翻译数据，其中上述抽取句子的数量应为2万条；利用各机器翻译引擎翻译待翻译数据，形成测试集。

2)利用已训练好的，语言为给定语言的神经网络语言模型对各机器翻译引擎的测试集进行评分；

3)根据上述评分，对各机器翻译引擎做升序排序；

4)在上述升序排序中，各机器翻译引擎的序列即为该机器翻译引擎在语言模型困惑度测评上的得分。

步骤四、对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值。

其中，上述两个维度包含的六个方面：用户喜爱度、平均编辑代价、平均编辑时间、参考译文测评、关键字测评和语言模型困惑度测评，他们的权重设置为0.2，0.1，0.1，0.2，0.2，0.2。

步骤五、所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果。

在得到加权求和值最高者即为该选择的语言对、领域上的最优机器翻译引擎之后，使用该最优机器翻译引擎将用户上传的待翻译文件翻译出所需的语言，然后返回给用户。

步骤六、将所述句的翻译结果整合输出所述目标语言的翻译文本。将每一句的最优翻译结果都整合起来，形成整篇的翻译后的文本，该翻译文本即是最优选的翻译文本。

上述一种基于句对的机器翻译引擎测评优选方法，可以在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务，能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务，提高翻译效率，减少用户的后续工作量，提供优质的机器翻译服务。

在另一实施例中，如图2所示，提供了一种基于句对的机器翻译引擎测评优选系统，所述系统包括：

目标语言选择模块，用于对上传的待翻译文件选择目标语言，得到源语言和目标语言的语言对。

领域解析模块，用于对所述待翻译文件进行解析，确定所述待翻译文件中的每一句所属的领域。

多维度评分模块，用于根据所述语言对、所述句的领域，对各所述机器翻译引擎进行多个维度的评分。其中，上述多个维度主要分为历史数据分析和自定义测评。

其中，第一方面：用户喜爱度，其测评步骤为：

2)统计在测评集上用户选择各机器翻译引擎翻译的句对数；

其中，第二方面：平均编辑代价，其测评步骤为：

2)根据机器翻译引擎的不同，分别计算平均编辑代价；

其中，平均编辑代价定义为：

3)根据平均编辑代价，对于各机器翻译引擎做降序排序；

其中，第三方面：平均编辑时间，其测评方法为：

2)根据机器翻译引擎的不同，分别计算平均编辑时间；

其中，平均编辑时间定义为：

其中ET(x)句段x译员从开始翻译到确认所使用的时间。

3)根据平均编辑时间，对于各机器翻译引擎做降序排序；

其中，第一方面：参考译文测评，其方法步骤为：

2)在上述测评集中计算机器翻译结果与参考译文的BLEU值；

3)根据BLEU值对各机器翻译引擎做升序排序；

其中，第二方面：关键字测评，其方法步骤为：

3)根据上述评分对对各机器翻译引擎做升序排序；

其中，第三方面:语言模型困惑度测评，其方法步骤为：

3)根据上述评分，对各机器翻译引擎做升序排序；

计算模块，用于对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值。

优选模块，用于将所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果。

整合模块，用于将所述句的翻译结果整合输出所述目标语言的翻译文本。将每一句的最优翻译结果都整合起来，形成整篇的翻译后的文本，该翻译文本即是最优选的翻译文本。

上述一种基于句对的机器翻译引擎测评优选系统，可以在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务，能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务，提高翻译效率，减少用户的后续工作量，提供优质的机器翻译服务。

上述说明示出并描述了本发明的若干优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于句对的机器翻译引擎测评优选方法，其中所述机器翻译引擎具有多个，其特征在于，所述方法包括：

2.根据权利要求1所述的基于句对的机器翻译引擎测评优选方法，其特征在于，所述多个维度包括：历史数据分析和自定义测评；

其中，历史数据的字段包括源语言文本、机器翻译结果、人工PE结果、所选用的机器翻译和编辑时间；

所述历史数据分析包括对用户喜爱度、平均编辑代价、平均编辑时间这三个方面进行测评分析；

所述自定义测评包括对参考译文测评、关键字测评和语言模型困惑度测评这三个方面进行测评分析。

3.根据权利要求2所述的基于句对的机器翻译引擎测评优选方法，其特征在于，其中所述历史数据分析中的所述用户喜爱度的测评步骤为：

1)选定测评集：抽取源语言和目标语言为选择的语言对的各机器翻译历史数据；利用已有的CNN文本分类器将上述抽取的数据划分领域；抽取上述划分的领域为确定的领域的数据作为测评集；

2)统计在所述测评集上用户选择所述各机器翻译引擎翻译的句对数；

3)根据所述各机器翻译引擎翻译的句对数，对所述各机器翻译引擎做升序排序；

4)上述升序排序中，所述各机器翻译引擎的序列即为该机器翻译引擎在用户喜爱度上的得分。

4.根据权利要求3所述的基于句对的机器翻译引擎测评优选方法，其特征在于，其中所述历史数据分析中的所述平均编辑代价的测评步骤为：

1)选定测评集：抽取源语言和目标语言为选择的语言对的各机器翻译历史数据；利用已有的CNN文本分类器将上述抽取的数据划分领域；在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集；

2)根据机器翻译引擎的不同，分别计算平均编辑代价；

其中，平均编辑代价定义为：

3)根据平均编辑代价，对于各机器翻译引擎做降序排序；

5.根据权利要求4所述的基于句对的机器翻译引擎测评优选方法，其特征在于，其中所述历史数据分析中的所述平均编辑时间的测评步骤为：

2)根据机器翻译引擎的不同，分别计算平均编辑时间；

其中，平均编辑时间定义为：

其中ET(x)句段x译员从开始翻译到确认所使用的时间；

3)根据平均编辑时间，对于各机器翻译引擎做降序排序；

6.根据权利要求2所述的基于句对的机器翻译引擎测评优选方法，其特征在于，其中所述自定义测评中的所述参考译文测评的测评步骤为：

1)选定测评集：选择语言为选择的语言对源语言的数据集；利用CNN文本分类器对该数据进行领域划分；抽取一定数量的，划分领域为选定领域的句子作为待翻译数据；由专业译员翻译该数据集，给出多份参考译文；利用各机器翻译引擎翻译待翻译数据，与译员给出的参考译文共同组成测评集；

2)在上述测评集中计算机器翻译结果与参考译文的BLEU值；

3)根据BLEU值对各机器翻译引擎做升序排序；

7.根据权利要求6所述的基于句对的机器翻译引擎测评优选方法，其特征在于，其中所述自定义测评中的所述关键字测评的测评步骤为：

1)选定测评集：选择语言为选择的语言对源语言的数据集；利用上述CNN文本分类器对该数据进行领域划分；抽取一定数量的，划分领域为选定领域的句子作为待翻译数据；由专业译员给出每个句子译文应包含的关键词得出句对关键字；利用各机器翻译引擎翻译待翻译数据，与其句对关键字共同组成测评集；

2)检测句对关键字在各机器翻译结果中是否出现，若未出现减一分，其中各机器翻译引擎的初始分数为0；

3)根据上述评分对对各机器翻译引擎做升序排序；

8.根据权利要求7所述的基于句对的机器翻译引擎测评优选方法，其特征在于，其中所述自定义测评中的所述语言模型困惑度测评的测评步骤为：

1)选定测评集：选择语言为选择的语言对源语言的数据集；利用上述CNN文本分类器对该数据进行领域划分；抽取一定数量的，划分领域为选定领域的句子作为待翻译数据；利用各机器翻译引擎翻译待翻译数据，形成测试集；

3)根据上述评分，对各机器翻译引擎做升序排序；

9.根据权利要求5或8所述的所述的基于句对的机器翻译引擎测评优选方法，其特征在于，所述用户喜爱度、平均编辑代价、平均编辑时间、参考译文测评、关键字测评和语言模型困惑度测评在加权求和的权重分别设置为0.2，0.1，0.1，0.2，0.2，0.2。

10.一种根据权利要求1-9所述的基于句对的机器翻译引擎测评优选方法的测评优选系统，其中所述机器翻译引擎具有多个，其特征在于，所述系统包括：