CN110472257A - 一种基于句对的机器翻译引擎测评优选方法及系统 - Google Patents
一种基于句对的机器翻译引擎测评优选方法及系统 Download PDFInfo
- Publication number
- CN110472257A CN110472257A CN201910772953.2A CN201910772953A CN110472257A CN 110472257 A CN110472257 A CN 110472257A CN 201910772953 A CN201910772953 A CN 201910772953A CN 110472257 A CN110472257 A CN 110472257A
- Authority
- CN
- China
- Prior art keywords
- engine
- language
- assessment
- sentence
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于句对的机器翻译引擎测评优选方法及系统,其通过根据选择的语言对、句的领域,对各机器翻译引擎进行多个维度的评分,再对上述评分进行加权求和得到各机器翻译引擎在句上的加权和值,选择加权和值最高的机器翻译引擎输出句的翻译结果,从而整合得到整篇翻译文本。通过上述方法可以使得在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务,能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务,提高翻译效率,减少用户的后续工作量,提供优质的机器翻译服务。
Description
技术领域
本申请涉及机器翻译领域,特别涉及一种基于句对的机器翻译引擎测评优选方法及系统。
背景技术
在人工智能高速发展的今天,机器翻译技术取得了突破性进展。市面上涌现了大量的商家提供机器翻译服务,包括微软、谷歌、百度、搜狗、有道、腾讯翻译君等。众多复杂的机器翻译引擎在翻译质量、擅长领域上都参差不齐,所以如何为用户提供自动优选机器翻译引擎服务、如何客观的评价目前市面上的机器翻译引擎是一件必要和必须的事情。目前市面上还没有机器翻译引擎的自动优选服务,用户面对诸多翻译引擎还处于无法分辨好坏的阶段,机器翻译引擎的翻译结果并不是那么让用户满意,得到的结果可能需要让用户再次进行核对修改,影响了生活工作的效率。
发明内容
本发明提供了一种基于句对的机器翻译引擎测评优选方法及系统,目的在于现有技术中的机器翻译引起在翻译质量、擅长领域上参差不齐,无法得到最优选的翻译结果。
为了解决上述问题或至少部分地解决上述技术问题,在本申请的一个实施例中,提供了一种基于句对的机器翻译引擎测评优选方法,其中所述机器翻译引擎具有多个,所述方法包括:
步骤一、对上传的待翻译文件选择目标语言,得到源语言和目标语言的语言对;
步骤二、对所述待翻译文件进行解析,确定所述待翻译文件中的每一句所属的领域;
步骤三、根据所述语言对、所述句的领域,对各所述机器翻译引擎进行多个维度的评分;
步骤四、对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值;
步骤五、所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果;
步骤六、将所述句的翻译结果整合输出所述目标语言的翻译文本。
在本申请的又一实施例中,还提供了一种基于句对的机器翻译引擎测评优选系统,其中所述机器翻译引擎具有多个,其特征在于,所述系统包括:
目标语言选择模块,用于对上传的待翻译文件选择目标语言,得到源语言和目标语言的语言对;
领域解析模块,用于对所述待翻译文件进行解析,确定所述待翻译文件中的每一句所属的领域;
多维度评分模块,用于根据所述语言对、所述句的领域,对各所述机器翻译引擎进行多个维度的评分;
计算模块,用于对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值;
优选模块,用于将所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果;
整合模块,用于将所述句的翻译结果整合输出所述目标语言的翻译文本。
本发明公开了一种基于句对的机器翻译引擎测评优选方法及系统,其通过根据选择的语言对、句的领域,对各机器翻译引擎进行多个维度的评分,再对上述评分进行加权求和得到各机器翻译引擎在句上的加权和值,选择加权和值最高的机器翻译引擎输出句的翻译结果,从而整合得到整篇翻译文本。通过上述方法可以使得在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务,能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务,提高翻译效率,减少用户的后续工作量,提供优质的机器翻译服务。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅用于示意本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图中未提及的技术特征、连接关系乃至方法步骤。
图1是本发明一实施例的一种基于句对的机器翻译引擎测评优选方法的流程示意图;
图2是本发明另一实施例的一种基于句对的机器翻译引擎测评优选系统的结构示意图。
具体实施例
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地,取决于语境,短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
在一实施例中,如图1所示,提供了一种基于句对的机器翻译引擎测评优选方法,其方法包括:
步骤一、对上传的待翻译文件选择目标语言,得到源语言和目标语言的语言对。
用户上传待翻译文件,选择文件需要翻译的目标语言,形成各机器翻译引擎的源语言和目标语言的语言对。其中,机器翻译引擎包括但不限于微软、谷歌、百度、搜狗、有道、腾讯翻译君等;上述语言对包括但不局限于中英、英中、中日、日中、英日、日英、中德、德中、中法、法中、中俄、俄中、中韩、韩中等。
步骤二、对所述待翻译文件进行解析,确定所述待翻译文件中的每一句所属的领域。
对用户上传的待翻译文件进行解析,对长篇进行断句,对于每一句话,使用CNN分类器对每句话划分不同的领域,确定待翻译文件中每一句所属的领域。其中,上述领域可以包括多种技术领域,包括但不限于航空航天、商业、汽车、化学、建筑、文化、电子信息、金融、地理、法律、机械、医学、军事、旅游及其它。
步骤三、根据所述语言对、所述句的领域,对各所述机器翻译引擎进行多个维度的评分。其中,上述多个维度主要分为历史数据分析和自定义测评。
历史数据应当包含源语言文本、机器翻译结果、人工PE结果、所选用的机器翻译和编辑时间这五个字段。其中,历史数据分析主要从三个方面对各机器翻译引擎在选择的语言对、确定的领域进行测评。这三个方面分别为用户喜爱度、平均编辑代价、平均编辑时间。
其中,第一方面:用户喜爱度,其测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;抽取上述划分的领域为确定的领域的数据作为测评集。
2)统计在测评集上用户选择各机器翻译引擎翻译的句对数;
3)根据各机器翻译引擎翻译的句对数,对各机器翻译引擎做升序排序;
4)上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在用户喜爱度上的得分。
其中,第二方面:平均编辑代价,其测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集。其中数据量为2万条,即在选择的语言对、确定的领域下,所属各机器翻译引擎的句对数都为2万条。
2)根据机器翻译引擎的不同,分别计算平均编辑代价;
其中,平均编辑代价定义为:
其中len(x)为字符串x的长度,MT(x)为句段x机器翻译的结果,PE(x)为句段x人工修改的结果,ED(x)句段x机器翻译结果到人工修改结果的编辑距离。
3)根据平均编辑代价,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑代价上的得分。
其中,第三方面:平均编辑时间,其测评方法为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集。其中,数据量为2万条,即在选择的语言对、领域下,所属各机器翻译引擎的句对数都为2万条。
2)根据机器翻译引擎的不同,分别计算平均编辑时间;
其中,平均编辑时间定义为:
其中ET(x)句段x译员从开始翻译到确认所使用的时间。
3)根据平均编辑时间,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑时间上的得分。
自定义测评,主要从三个方面上对各机器翻译引擎在选择的语言对、确定的领域进行测评。这三个方面分别为参考译文测评、关键字测评和语言模型困惑度测评。
其中,第一方面:参考译文测评,其方法步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据,其中上述抽取的句子数为2千条;由专业译员翻译该数据集,给出多份参考译文,其中上述参考翻译的个数为5份;利用各机器翻译引擎翻译待翻译数据,与译员给出的参考译文共同组成测评集。
2)在上述测评集中计算机器翻译结果与参考译文的BLEU值;
3)根据BLEU值对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在参考译文测评上的得分。
其中,第二方面:关键字测评,其方法步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用上述CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据,其中上述抽取句子的数量为2万条;由专业译员给出每个句子译文应包含的关键词得出句对关键字;利用各机器翻译引擎翻译待翻译数据,与其句对关键字共同组成测评集。
2)检测句对关键字在各机器翻译结果中是否出现,若未出现减一分(各机器翻译引擎的初始分数为0);
3)根据上述评分对对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在关键字测评上的得分。
其中,第三方面:语言模型困惑度测评,其方法步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用上述CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据,其中上述抽取句子的数量应为2万条;利用各机器翻译引擎翻译待翻译数据,形成测试集。
2)利用已训练好的,语言为给定语言的神经网络语言模型对各机器翻译引擎的测试集进行评分;
3)根据上述评分,对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在语言模型困惑度测评上的得分。
步骤四、对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值。
其中,上述两个维度包含的六个方面:用户喜爱度、平均编辑代价、平均编辑时间、参考译文测评、关键字测评和语言模型困惑度测评,他们的权重设置为0.2,0.1,0.1,0.2,0.2,0.2。
步骤五、所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果。
在得到加权求和值最高者即为该选择的语言对、领域上的最优机器翻译引擎之后,使用该最优机器翻译引擎将用户上传的待翻译文件翻译出所需的语言,然后返回给用户。
步骤六、将所述句的翻译结果整合输出所述目标语言的翻译文本。将每一句的最优翻译结果都整合起来,形成整篇的翻译后的文本,该翻译文本即是最优选的翻译文本。
上述一种基于句对的机器翻译引擎测评优选方法,可以在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务,能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务,提高翻译效率,减少用户的后续工作量,提供优质的机器翻译服务。
在另一实施例中,如图2所示,提供了一种基于句对的机器翻译引擎测评优选系统,所述系统包括:
目标语言选择模块,用于对上传的待翻译文件选择目标语言,得到源语言和目标语言的语言对。
用户上传待翻译文件,选择文件需要翻译的目标语言,形成各机器翻译引擎的源语言和目标语言的语言对。其中,机器翻译引擎包括但不限于微软、谷歌、百度、搜狗、有道、腾讯翻译君等;上述语言对包括但不局限于中英、英中、中日、日中、英日、日英、中德、德中、中法、法中、中俄、俄中、中韩、韩中等。
领域解析模块,用于对所述待翻译文件进行解析,确定所述待翻译文件中的每一句所属的领域。
对用户上传的待翻译文件进行解析,对长篇进行断句,对于每一句话,使用CNN分类器对每句话划分不同的领域,确定待翻译文件中每一句所属的领域。其中,上述领域可以包括多种技术领域,包括但不限于航空航天、商业、汽车、化学、建筑、文化、电子信息、金融、地理、法律、机械、医学、军事、旅游及其它。
多维度评分模块,用于根据所述语言对、所述句的领域,对各所述机器翻译引擎进行多个维度的评分。其中,上述多个维度主要分为历史数据分析和自定义测评。
历史数据应当包含源语言文本、机器翻译结果、人工PE结果、所选用的机器翻译和编辑时间这五个字段。其中,历史数据分析主要从三个方面对各机器翻译引擎在选择的语言对、确定的领域进行测评。这三个方面分别为用户喜爱度、平均编辑代价、平均编辑时间。
其中,第一方面:用户喜爱度,其测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;抽取上述划分的领域为确定的领域的数据作为测评集。
2)统计在测评集上用户选择各机器翻译引擎翻译的句对数;
3)根据各机器翻译引擎翻译的句对数,对各机器翻译引擎做升序排序;
4)上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在用户喜爱度上的得分。
其中,第二方面:平均编辑代价,其测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集。其中数据量为2万条,即在选择的语言对、确定的领域下,所属各机器翻译引擎的句对数都为2万条。
2)根据机器翻译引擎的不同,分别计算平均编辑代价;
其中,平均编辑代价定义为:
其中len(x)为字符串x的长度,MT(x)为句段x机器翻译的结果,PE(x)为句段x人工修改的结果,ED(x)句段x机器翻译结果到人工修改结果的编辑距离。
3)根据平均编辑代价,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑代价上的得分。
其中,第三方面:平均编辑时间,其测评方法为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集。其中,数据量为2万条,即在选择的语言对、领域下,所属各机器翻译引擎的句对数都为2万条。
2)根据机器翻译引擎的不同,分别计算平均编辑时间;
其中,平均编辑时间定义为:
其中ET(x)句段x译员从开始翻译到确认所使用的时间。
3)根据平均编辑时间,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑时间上的得分。
自定义测评,主要从三个方面上对各机器翻译引擎在选择的语言对、确定的领域进行测评。这三个方面分别为参考译文测评、关键字测评和语言模型困惑度测评。
其中,第一方面:参考译文测评,其方法步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据,其中上述抽取的句子数为2千条;由专业译员翻译该数据集,给出多份参考译文,其中上述参考翻译的个数为5份;利用各机器翻译引擎翻译待翻译数据,与译员给出的参考译文共同组成测评集。
2)在上述测评集中计算机器翻译结果与参考译文的BLEU值;
3)根据BLEU值对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在参考译文测评上的得分。
其中,第二方面:关键字测评,其方法步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用上述CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据,其中上述抽取句子的数量为2万条;由专业译员给出每个句子译文应包含的关键词得出句对关键字;利用各机器翻译引擎翻译待翻译数据,与其句对关键字共同组成测评集。
2)检测句对关键字在各机器翻译结果中是否出现,若未出现减一分(各机器翻译引擎的初始分数为0);
3)根据上述评分对对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在关键字测评上的得分。
其中,第三方面:语言模型困惑度测评,其方法步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用上述CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据,其中上述抽取句子的数量应为2万条;利用各机器翻译引擎翻译待翻译数据,形成测试集。
2)利用已训练好的,语言为给定语言的神经网络语言模型对各机器翻译引擎的测试集进行评分;
3)根据上述评分,对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在语言模型困惑度测评上的得分。
计算模块,用于对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值。
其中,上述两个维度包含的六个方面:用户喜爱度、平均编辑代价、平均编辑时间、参考译文测评、关键字测评和语言模型困惑度测评,他们的权重设置为0.2,0.1,0.1,0.2,0.2,0.2。
优选模块,用于将所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果。
在得到加权求和值最高者即为该选择的语言对、领域上的最优机器翻译引擎之后,使用该最优机器翻译引擎将用户上传的待翻译文件翻译出所需的语言,然后返回给用户。
整合模块,用于将所述句的翻译结果整合输出所述目标语言的翻译文本。将每一句的最优翻译结果都整合起来,形成整篇的翻译后的文本,该翻译文本即是最优选的翻译文本。
上述一种基于句对的机器翻译引擎测评优选系统,可以在众多复杂的、翻译质量参差不齐、擅长领域和语言对各有不同的各类机器翻译引擎中为用户提供机器翻译引擎自动优选服务,能够让用户在翻译文件等长文本时每句话都得到目前最优秀的机器翻译引擎服务,提高翻译效率,减少用户的后续工作量,提供优质的机器翻译服务。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种基于句对的机器翻译引擎测评优选方法,其中所述机器翻译引擎具有多个,其特征在于,所述方法包括:
步骤一、对上传的待翻译文件选择目标语言,得到源语言和目标语言的语言对;
步骤二、对所述待翻译文件进行解析,确定所述待翻译文件中的每一句所属的领域;
步骤三、根据所述语言对、所述句的领域,对各所述机器翻译引擎进行多个维度的评分;
步骤四、对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值;
步骤五、所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果;
步骤六、将所述句的翻译结果整合输出所述目标语言的翻译文本。
2.根据权利要求1所述的基于句对的机器翻译引擎测评优选方法,其特征在于,所述多个维度包括:历史数据分析和自定义测评;
其中,历史数据的字段包括源语言文本、机器翻译结果、人工PE结果、所选用的机器翻译和编辑时间;
所述历史数据分析包括对用户喜爱度、平均编辑代价、平均编辑时间这三个方面进行测评分析;
所述自定义测评包括对参考译文测评、关键字测评和语言模型困惑度测评这三个方面进行测评分析。
3.根据权利要求2所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述历史数据分析中的所述用户喜爱度的测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;抽取上述划分的领域为确定的领域的数据作为测评集;
2)统计在所述测评集上用户选择所述各机器翻译引擎翻译的句对数;
3)根据所述各机器翻译引擎翻译的句对数,对所述各机器翻译引擎做升序排序;
4)上述升序排序中,所述各机器翻译引擎的序列即为该机器翻译引擎在用户喜爱度上的得分。
4.根据权利要求3所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述历史数据分析中的所述平均编辑代价的测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集;
2)根据机器翻译引擎的不同,分别计算平均编辑代价;
其中,平均编辑代价定义为:
其中len(x)为字符串x的长度,MT(x)为句段x机器翻译的结果,PE(x)为句段x人工修改的结果,ED(x)句段x机器翻译结果到人工修改结果的编辑距离。
3)根据平均编辑代价,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑代价上的得分。
5.根据权利要求4所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述历史数据分析中的所述平均编辑时间的测评步骤为:
1)选定测评集:抽取源语言和目标语言为选择的语言对的各机器翻译历史数据;利用已有的CNN文本分类器将上述抽取的数据划分领域;在确定的领域的数据集上根据使用的机器翻译引擎的不同抽取一定数量的数据作为测评集;
2)根据机器翻译引擎的不同,分别计算平均编辑时间;
其中,平均编辑时间定义为:
其中ET(x)句段x译员从开始翻译到确认所使用的时间;
3)根据平均编辑时间,对于各机器翻译引擎做降序排序;
4)在上述降序排序中,各机器翻译引擎的序列即为该机器翻译引擎在维度编辑时间上的得分。
6.根据权利要求2所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述自定义测评中的所述参考译文测评的测评步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据;由专业译员翻译该数据集,给出多份参考译文;利用各机器翻译引擎翻译待翻译数据,与译员给出的参考译文共同组成测评集;
2)在上述测评集中计算机器翻译结果与参考译文的BLEU值;
3)根据BLEU值对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在参考译文测评上的得分。
7.根据权利要求6所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述自定义测评中的所述关键字测评的测评步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用上述CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据;由专业译员给出每个句子译文应包含的关键词得出句对关键字;利用各机器翻译引擎翻译待翻译数据,与其句对关键字共同组成测评集;
2)检测句对关键字在各机器翻译结果中是否出现,若未出现减一分,其中各机器翻译引擎的初始分数为0;
3)根据上述评分对对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在关键字测评上的得分。
8.根据权利要求7所述的基于句对的机器翻译引擎测评优选方法,其特征在于,其中所述自定义测评中的所述语言模型困惑度测评的测评步骤为:
1)选定测评集:选择语言为选择的语言对源语言的数据集;利用上述CNN文本分类器对该数据进行领域划分;抽取一定数量的,划分领域为选定领域的句子作为待翻译数据;利用各机器翻译引擎翻译待翻译数据,形成测试集;
2)利用已训练好的,语言为给定语言的神经网络语言模型对各机器翻译引擎的测试集进行评分;
3)根据上述评分,对各机器翻译引擎做升序排序;
4)在上述升序排序中,各机器翻译引擎的序列即为该机器翻译引擎在语言模型困惑度测评上的得分。
9.根据权利要求5或8所述的所述的基于句对的机器翻译引擎测评优选方法,其特征在于,所述用户喜爱度、平均编辑代价、平均编辑时间、参考译文测评、关键字测评和语言模型困惑度测评在加权求和的权重分别设置为0.2,0.1,0.1,0.2,0.2,0.2。
10.一种根据权利要求1-9所述的基于句对的机器翻译引擎测评优选方法的测评优选系统,其中所述机器翻译引擎具有多个,其特征在于,所述系统包括:
目标语言选择模块,用于对上传的待翻译文件选择目标语言,得到源语言和目标语言的语言对;
领域解析模块,用于对所述待翻译文件进行解析,确定所述待翻译文件中的每一句所属的领域;
多维度评分模块,用于根据所述语言对、所述句的领域,对各所述机器翻译引擎进行多个维度的评分;
计算模块,用于对所述各机器翻译引擎的所述多个维度上的评分进行加权求和得到所述各机器翻译引擎在所述句上的所述加权和值;
优选模块,用于将所述加权和值最高的所述机器翻译引擎输出所述句的翻译结果;
整合模块,用于将所述句的翻译结果整合输出所述目标语言的翻译文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910772953.2A CN110472257A (zh) | 2019-08-20 | 2019-08-20 | 一种基于句对的机器翻译引擎测评优选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910772953.2A CN110472257A (zh) | 2019-08-20 | 2019-08-20 | 一种基于句对的机器翻译引擎测评优选方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110472257A true CN110472257A (zh) | 2019-11-19 |
Family
ID=68513168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910772953.2A Pending CN110472257A (zh) | 2019-08-20 | 2019-08-20 | 一种基于句对的机器翻译引擎测评优选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472257A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991193A (zh) * | 2019-11-27 | 2020-04-10 | 语联网(武汉)信息技术有限公司 | 一种基于OpenKiWi的翻译矩阵模型选择系统 |
CN110991194A (zh) * | 2019-11-27 | 2020-04-10 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi进化的引擎优化方法以及翻译系统 |
CN111046676A (zh) * | 2019-11-27 | 2020-04-21 | 语联网(武汉)信息技术有限公司 | 一种基于gmm的机翻引擎测试方法与翻译工具包 |
CN111144134A (zh) * | 2019-11-27 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi的翻译引擎自动化评测系统 |
CN111160048A (zh) * | 2019-11-27 | 2020-05-15 | 语联网(武汉)信息技术有限公司 | 一种基于聚类进化的翻译引擎优化系统及方法 |
CN111401085A (zh) * | 2020-04-24 | 2020-07-10 | 南京莱科智能工程研究院有限公司 | 基于混合策略的移动设备机器翻译系统 |
CN113627200A (zh) * | 2021-06-15 | 2021-11-09 | 天津师范大学 | 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243481A1 (en) * | 2007-03-26 | 2008-10-02 | Thorsten Brants | Large Language Models in Machine Translation |
CN104090870A (zh) * | 2014-06-26 | 2014-10-08 | 武汉传神信息技术有限公司 | 一种在线翻译引擎的推送方法 |
CN108415906A (zh) * | 2018-03-28 | 2018-08-17 | 中译语通科技股份有限公司 | 基于领域自动识别篇章机器翻译方法、机器翻译系统 |
CN109190132A (zh) * | 2018-11-02 | 2019-01-11 | 语联网(武汉)信息技术有限公司 | 翻译质量测评方法及装置 |
CN109299481A (zh) * | 2018-11-15 | 2019-02-01 | 语联网(武汉)信息技术有限公司 | 机器翻译引擎推荐方法、装置及电子设备 |
CN109697292A (zh) * | 2018-12-17 | 2019-04-30 | 北京百度网讯科技有限公司 | 一种机器翻译方法、装置、电子设备和介质 |
-
2019
- 2019-08-20 CN CN201910772953.2A patent/CN110472257A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080243481A1 (en) * | 2007-03-26 | 2008-10-02 | Thorsten Brants | Large Language Models in Machine Translation |
CN104090870A (zh) * | 2014-06-26 | 2014-10-08 | 武汉传神信息技术有限公司 | 一种在线翻译引擎的推送方法 |
CN108415906A (zh) * | 2018-03-28 | 2018-08-17 | 中译语通科技股份有限公司 | 基于领域自动识别篇章机器翻译方法、机器翻译系统 |
CN109190132A (zh) * | 2018-11-02 | 2019-01-11 | 语联网(武汉)信息技术有限公司 | 翻译质量测评方法及装置 |
CN109299481A (zh) * | 2018-11-15 | 2019-02-01 | 语联网(武汉)信息技术有限公司 | 机器翻译引擎推荐方法、装置及电子设备 |
CN109697292A (zh) * | 2018-12-17 | 2019-04-30 | 北京百度网讯科技有限公司 | 一种机器翻译方法、装置、电子设备和介质 |
Non-Patent Citations (1)
Title |
---|
蒋俊杰: "机器翻译评测技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991193A (zh) * | 2019-11-27 | 2020-04-10 | 语联网(武汉)信息技术有限公司 | 一种基于OpenKiWi的翻译矩阵模型选择系统 |
CN110991194A (zh) * | 2019-11-27 | 2020-04-10 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi进化的引擎优化方法以及翻译系统 |
CN111046676A (zh) * | 2019-11-27 | 2020-04-21 | 语联网(武汉)信息技术有限公司 | 一种基于gmm的机翻引擎测试方法与翻译工具包 |
CN111144134A (zh) * | 2019-11-27 | 2020-05-12 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi的翻译引擎自动化评测系统 |
CN111160048A (zh) * | 2019-11-27 | 2020-05-15 | 语联网(武汉)信息技术有限公司 | 一种基于聚类进化的翻译引擎优化系统及方法 |
CN111144134B (zh) * | 2019-11-27 | 2023-05-16 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi的翻译引擎自动化评测系统 |
CN110991194B (zh) * | 2019-11-27 | 2023-05-16 | 语联网(武汉)信息技术有限公司 | 基于OpenKiWi进化的引擎优化方法以及翻译系统 |
CN111160048B (zh) * | 2019-11-27 | 2023-06-06 | 语联网(武汉)信息技术有限公司 | 一种基于聚类进化的翻译引擎优化系统及方法 |
CN110991193B (zh) * | 2019-11-27 | 2023-06-09 | 语联网(武汉)信息技术有限公司 | 一种基于OpenKiWi的翻译矩阵模型选择系统 |
CN111401085A (zh) * | 2020-04-24 | 2020-07-10 | 南京莱科智能工程研究院有限公司 | 基于混合策略的移动设备机器翻译系统 |
CN113627200A (zh) * | 2021-06-15 | 2021-11-09 | 天津师范大学 | 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法 |
CN113627200B (zh) * | 2021-06-15 | 2023-12-08 | 天津师范大学 | 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472257A (zh) | 一种基于句对的机器翻译引擎测评优选方法及系统 | |
US10740563B2 (en) | System and methods for text classification | |
CN110472256A (zh) | 一种基于篇章的机器翻译引擎测评优选方法及系统 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN110765257A (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN106886580B (zh) | 一种基于深度学习的图片情感极性分析方法 | |
CN109739986A (zh) | 一种基于深度集成学习的投诉短文本分类方法 | |
CN106528528A (zh) | 文本情感分析的方法及装置 | |
CN103473262A (zh) | 一种基于关联规则的Web评论观点自动分类系统及分类方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN110147552B (zh) | 基于自然语言处理的教育资源质量评价挖掘方法及系统 | |
CN112307773B (zh) | 机器阅读理解系统的自定义问题数据自动生成方法 | |
CN110910175A (zh) | 一种旅游门票产品画像生成方法 | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
Lopes et al. | Exploring bert for aspect extraction in portuguese language | |
CN109002561A (zh) | 基于样本关键词学习的文本自动分类方法、系统及介质 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN109543049B (zh) | 一种针对写作特点自动推送素材的方法及系统 | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Theophilo et al. | Explainable artificial intelligence for authorship attribution on social media | |
CN111984790A (zh) | 一种实体关系抽取方法 | |
CN104199981A (zh) | 一种基于微博文本的个人和机构用户分类方法及系统 | |
Sharma et al. | Lexicon a linguistic approach for sentiment classification | |
CN108804524B (zh) | 基于层次化分类体系的情感判别和重要性划分方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |