CN109299481A

CN109299481A - 机器翻译引擎推荐方法、装置及电子设备

Info

Publication number: CN109299481A
Application number: CN201811364535.1A
Authority: CN
Inventors: 陈钰清; 肖凤华
Original assignee: Language Network (wuhan) Information Technology Co Ltd
Current assignee: Language Network (wuhan) Information Technology Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-02-01

Abstract

本发明提供了一种机器翻译引擎推荐方法、装置及电子设备，涉及自然语言处理的技术领域，该方法包括获取待翻译原文；提取待翻译原文的目标特征向量，其中，该目标特征向量包括语种特征和行业领域特征；根据该目标特征向量和训练好的分类器，确定与待翻译原文对应的目标机器翻译引擎。这样实现了机器翻译引擎的智能推荐，从而提高了机器翻译的译文质量。

Description

机器翻译引擎推荐方法、装置及电子设备

技术领域

本发明涉及自然语言处理领域，尤其是涉及一种机器翻译引擎推荐方法、装置及电子设备。

背景技术

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。随着经济全球化及互联网的飞速发展，机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。

机器翻译具有重要的实用价值，机器翻译相较于人工翻译具有三个明显的优势：成本低、易把控以及翻译速度快。机器翻译技术的发展一直与计算机技术、信息论、语言学等学科的发展紧密相随。从早期的词典匹配，到词典结合语言学专家知识的规则翻译，再到基于语料库的统计机器翻译，近两年NMT(UnitNeural Machine Translation，神经网络机器翻译)技术异军突起，取得了翻译质量的大幅跃升。

机器翻译技术在具体应用上一般分为三种，分别是：词典翻译软件、计算机辅助翻译软件和机器翻译软件。近年来随着人工智能的发展，机器翻译技术也越发成熟。随着计算机计算能力的提升和多语言信息的爆发式增长，机器翻译技术开始为普通用户提供实时便捷的翻译服务。各大公司也相继推出自己的机器翻译引擎，目前市面上的机器翻译引擎有google、百度、有道和腾讯等。但由于缺少有效的机器翻译引擎质量检测手段，导致机器翻译质量较差。

发明内容

有鉴于此，本发明的目的在于提供一种机器翻译引擎推荐方法、装置及电子设备，以提高机器翻译的译文质量。

第一方面，本发明实施例提供了一种机器翻译引擎推荐方法，包括：获取待翻译原文；提取上述待翻译原文的目标特征向量，其中，上述目标特征向量包括语种特征和行业领域特征；根据上述目标特征向量和训练好的分类器，确定与上述待翻译原文对应的目标机器翻译引擎。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述提取待翻译原文的目标特征向量，该方法还包括：对上述待翻译原文进行语种识别，得到上述待翻译原文的语种特征；对上述待翻译原文进行行业领域识别，得到上述待翻译原文的行业领域特征；由上述待翻译原文的语种特征和行业领域特征建立上述待翻译原文的目标特征向量。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述分类器通过以下方式训练：获取多组样本原文；其中，每组上述样本原文包括相同语种、相同行业领域的多个待译样本；对于每组上述样本原文，提取上述样本原文的样本特征向量；获取采用多个预选的机器翻译引擎分别对每个上述待译样本进行翻译的原始行为数据和每个上述待译样本对应的标准译文；根据上述原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于上述样本原文的总评分值；根据各组上述样本原文的上述样本特定向量和各个上述机器翻译引擎的对应于每组上述样本原文的上述总评分值，对上述分类器进行训练。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述根据原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于上述样本原文的总评分值，包括：根据上述原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于上述样本原文的译文质量好评率值、响应速度值和稳定性值；根据每个上述机器翻译引擎的对应于上述样本原文的译文质量好评率值、响应速度值和稳定性值，计算得到上述机器翻译引擎的对应于上述样本原文的总评分值。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述原始行为数据包括样本译文、翻译时长和翻译是否成功的翻译结果；根据上述原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于上述样本原文的译文质量好评率值、响应速度值和稳定性值，包括：根据每个上述机器翻译引擎的对应于上述样本原文中每个上述待译样本的样本译文和每个上述待译样本对应的标准译文，计算得到每个上述待译样本对应的偏离值；根据每个上述待译样本对应的偏离值，确定上述机器翻译引擎的对应于上述样本原文的译文质量好评率值；根据每个上述机器翻译引擎的对应于上述样本原文的翻译时长，计算得到上述机器翻译引擎的对应于上述样本原文的响应速度值；根据每个上述机器翻译引擎的对应于上述样本原文的翻译结果，计算得到上述机器翻译引擎的对应于上述样本原文的稳定性值。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，通过以下公式计算上述机器翻译引擎的对应于上述样本原文的总评分值：

总评分值＝PR*W1+ARS*W2+ST*W3

其中，PR表示上述机器翻译引擎的对应于上述样本原文的译文质量好评率值，W1表示译文质量好评率权重值，ARS表示上述机器翻译引擎的对应于该样本原文的响应速度值，W2表示响应速度权重值，ST表示上述机器翻译引擎的对应于所该本原文的稳定性值，W3表示稳定性权重值。

第二方面，本发明实施例还提供一种机器翻译引擎推荐装置，包括：获取模块，用于获取待翻译原文；提取模块，用于提取上述待翻译原文的目标特征向量，其中，上述目标特征向量包括语种特征和行业领域特征；推荐模块，用于根据上述目标特征向量和训练好的分类器，确定与上述待翻译原文对应的目标机器翻译引擎。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述提取模块用于：对上述待翻译原文进行语种识别，得到该待翻译原文的语种特征；对该待翻译原文进行行业领域识别，得到该待翻译原文的行业领域特征；由该待翻译原文的语种特征和行业领域特征建立该待翻译原文的目标特征向量。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述装置还包括训练模块，上述训练模块包括：第一获取单元，用于获取多组样本原文；其中，每组上述样本原文包括相同语种、相同行业领域的多个待译样本；向量提取单元，用于对于每组上述样本原文，提取上述样本原文的样本特征向量；第二获取单元，用于获取采用多个预选的机器翻译引擎分别对每个上述待译样本进行翻译的原始行为数据和每个上述待译样本对应的标准译文；计算单元，用于根据上述原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于上述样本原文的总评分值；训练单元，用于根据各组上述样本原文的上述样本特定向量和各个上述机器翻译引擎的对应于每组上述样本原文的该总评分值，对上述分类器进行训练。

第三方面，本发明实施例还提供一种机器翻译引擎电子设备，包括存储器、处理器，上述存储器中存储有可在上述处理器上运行的计算机程序，该处理器执行该计算机程序时实现上述第一方面或其任一种可能的实施方式上述的方法。

本发明实施例带来了以下有益效果：

本发明实施例中，获取待翻译原文，提取该待翻译原文的目标特征向量，其中，该目标特征向量包括语种特征和行业领域特征，根据该目标特征向量和训练好的分类器，确定与该待翻译原文对应的目标机器翻译引擎。该目标机器翻译引擎是经过训练后的分类器根据待翻译原文的特征向量所推荐的翻译质量最高的机器翻译引擎，因此应用本发明实施例提供的机器翻译引擎推荐方法、装置及电子设备，提高了机器翻译质量。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种机器翻译引擎推荐方法的流程示意图；

图2为本发明实施例提供的一种提取目标特征向量的流程示意图；

图3为本发明实施例提供的一种训练分类器的流程示意图；

图4为本发明实施例提供的一种计算总评分值的流程示意图；

图5为本发明实施例提供的一种计算偏离值的流程示意图；

图6为本发明实施例提供的另一种机器翻译引擎推荐方法的流程示意图；

图7为本发明实施例提供的一种机器翻译引擎推荐装置的结构示意图；

图8为本发明实施例提供的另一种机器翻译引擎推荐装置的结构示意图；

图9为本发明实施例提供的一种计算单元的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前市面上有诸多机器翻译引擎，例如google、百度、有道、腾讯等。由于各机器翻译引擎使用的核心技术和训练语料差异较大，使得各机器翻译引擎在不同语种、行业领域翻译质量优劣不一，又缺少有效的机器翻译引擎质量检测手段，导致机器翻译质量较差，基于此，本发明实施例提供一种机器翻译引擎推荐方法、装置及电子设备，可以提高机器翻译的译文质量。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种机器翻译引擎推荐方法进行详细介绍。

图1为本发明第一实施例提供的一种机器翻译引擎推荐方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤S102，获取待翻译原文。

具体地，待翻译原文可以为不同语种不同行业的原文。

步骤S104，提取上述待翻译原文的目标特征向量，其中，该目标特征向量包括语种特征和行业领域特征。

上述待翻译原文的特征向量可以通过软件工具来提取；上述目标特征向量包括语种特征和行业领域特征，在一些可能的实施例中，语种特征包括以下之一：中文、英文和韩文；行业领域特征包括以下之一：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏和娱乐领域。

步骤S106，根据上述目标特征向量和训练好的分类器，确定与上述待翻译原文对应的目标机器翻译引擎。

具体地，把目标特征向量输入分类器，分类器推荐与待翻译原文对应的目标机器翻译引擎，该机器翻译引擎是与待翻译原文对应的翻译质量最高的机器翻译引擎。

本发明实施例中，获取待翻译原文，提取该待翻译原文的目标特征向量，其中，该目标特征向量包括语种特征和行业领域特征，根据该目标特征向量和训练好的分类器，确定与该待翻译原文对应的目标机器翻译引擎。该目标机器翻译引擎是经过训练后的分类器根据待翻译原文的特征向量所推荐的翻译质量最高的机器翻译引擎，因此应用本发明实施例提供的机器翻译引擎推荐方法，提高了机器翻译质量。

图2为本发明实施例提供的一种提取目标特征向量的流程示意图，如图2所示，通过以下步骤提取目标特征向量：

步骤S202，对待翻译原文进行语种识别，得到该待翻译原文的语种特征。

可选地，可以使用python开源插件langid识别语种特征，python开源插件langid可以识别的语种包括：中文、英文和韩文。

下面通过具体实例详细介绍python开源插件langid进行语种识别的过程：

在DOS窗口下使用pip安装python开源插件langid，调用如下代码安装python开源插件langid：

pip install langid；

再调用如下代码，实现对s1、s2和s3的语种向量识别功能：

import langid

s1＝‘这是一种语检查工具’

s2＝‘This is a language checker’

print(langid.classify(s1))

print(langid.classify(s2))

print(langid.classify(s3))

输出并打印结果如下：

(‘zh’，0.92)

(‘en'，0.95)

(‘ko’，1.0)

‘zh’代表中文，s1被python开源插件langid识别为中文；‘en’代表英文，s2被python开源插件langid识别为英文；‘ko’代表韩文，s3被python开源插件langid识别为韩文。

步骤S204，对待翻译原文进行行业领域识别，得到该待翻译原文的行业领域特征。

可选地，可以使用THUCTC开源文本分类工具包识别行业领域特征，THUCTC包含的训练数据集的分类标准如下：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐等行业领域，THUCTC开源文本分类工具包能够自动实现用户选择的文本分类语料的训练、评测、分类功能。

下面详细介绍THUCTC开源文本分类工具的使用过程：

THUCTC开源文本分类工具需要对文本进行训练并测试，使用官方提供的demo包中的runTrainAndTest方法设定新建分类器对象、训练参数等功能，代码如下：

BasicTextClassifier classifier＝new BasicTextClassifier()；

classifier.Init(defaultArguments.split(“”))；

使用官方提供的demo包中的classifier类完成THUCTC开源文本分类工具的训练过程，并生成预测模型，代码如下：

classifier.runAsBigramChineseTextClassifier()；

读取已经训练好的预测模型，使用预测模型进行分类。可调用函数runLoadModelAndUse实现分类功能，代码如下：

//设置分类种类，并读取模型

classifier.loadCategoryListFromFile("my_novel_model/category")；

classifier.setTextClassifier(new LinearBigramChineseTextClassifier(classifier.getCategorySize()))；

classifier.getTextClassifier().loadModel("my_novel_model")；

//开始预测分类

ClassifyResult[]result＝classifier.classifyText(text，topN)；

步骤S206，由上述待翻译原文的语种特征和行业领域特征建立该待翻译原文的目标特征向量。

表1示出了经过步骤S202、步骤S204和步骤S206后获得信息对照表。

表1

可选地，目标特征向量可以包含语种特征和行业领域特征，也可以单独包括语种特征或者行业领域特征，还可以包含其他特征，这里不做限定。

图3为本发明实施例提供的一种训练分类器的流程示意图，如图3所示，通过以下步骤训练分类器：

步骤S302，获取多组样本原文；其中，每组样本原文包括相同语种、相同行业领域的多个待译样本。

具体地，样本原文选取不同语种和不同行业领域的待译样本。把这些样本原文按相同语种、相同行业领域分组，每组样本原文的数量可以相同，也可以不相同。

步骤S304，对于每组上述样本原文，提取该样本原文的样本特征向量。

上述样本特征向量包括语种特征和行业领域特征，语种特征和行业领域特征提取方法可参考步骤S202和步骤S204的相应说明。

步骤S306，获取采用多个预选的机器翻译引擎分别对每个上述待译样本进行翻译的原始行为数据和每个该待译样本对应的标准译文。

预选的机器翻译引擎可以但不限于为：google、百度、有道和腾讯等。使用每个机器引擎对每个待译样本进行翻译，获得原始行为数据，同时获取该待译样本对应的标准译文，其中，每个预选的机器翻译引擎都要对待译样本进行翻译。原始行为数据可以但不限于为：样本译文、翻译时长和翻译是否成功的翻译结果，将译员译文作为标准译文。

步骤S308，根据上述原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于上述样本原文的总评分值。

具体地，总评分值为各个上述机器翻译引擎在上述样本原文所属的语种和行业领域下的总评分值。

可选地，步骤S308可以通过以下过程实现：根据上述原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于该样本原文的译文质量好评率值、响应速度值和稳定性值；根据每个上述机器翻译引擎的对应于该样本原文的译文质量好评率值、响应速度值和稳定性值，计算得到上述机器翻译引擎的对应于该样本原文的总评分值。

步骤S310，根据各组上述样本原文的上述样本特定向量和各个上述机器翻译引擎的对应于每组该样本原文的上述总评分值，对该分类器进行训练。

不同机器翻译引擎翻译具备特定特征向量的某组样本原文，会得到不同的总评分值，把总评分值最高的机器翻译引擎和该特征向量对应起来。

使用分类器推荐机器翻译系统时，把特征向量输入分类器，分类器会推荐出和特征向量对应的总评分值最高的机器翻译引擎。

表2示出了机器翻译引擎翻译待翻译原文后获得的信息对照表。

表2

数据项	说明
		ID	机器翻译引擎的ID
原文	待翻译的原文
		语种	语种特征
行业领域	行业领域特征
		样本译文	待翻译样本原文翻译后的译文
标准译文	待翻译样本原文的标准译文
		Ln	待翻译样本的偏离值
Tn	待翻译样本的翻译时长
		STn	待翻译样本翻译是否成功的翻译结果

图4为本发明实施例提供的一种计算总评分值的流程示意图，如图4所示，通过以下步骤计算总评分值：

步骤S402，根据每个上述机器翻译引擎的对应于上述样本原文中每个上述待译样本的样本译文和每个该待译样本对应的标准译文，计算得到每个待译样本对应的偏离值。

待译样本的样本译文和标准译文的偏离值，可通过译员对于样本译文改变幅度大小来衡量。样本译文改变幅度大小可以采用字符串编辑距离计算，字符串编辑距离是一种计算两个字符串间的差异程度的字符串度量。可认为字符串编辑距离就是从一个字符串修改到另一个字符串时，其中编辑单个字符(比如修改、插入、删除)所需要的最少次数。偏离值的详细计算过程将后续参见图5进行具体说明。

步骤S404，根据每个上述待译样本对应的偏离值，确定该机器翻译引擎的对应于上述样本原文的译文质量好评率值。

在一些可能的实施例中，译文质量好评率PR可以由以下公式计算得到：

其中，n代表一组样本译文的数量，L1代表这组样本译文中第一个样本译文的偏离值，L2代表这组样本译文中第二个样本译文的偏离值，Ln代表这组样本译文中第n个样本译文的偏离值。

步骤S406，根据每个上述机器翻译引擎的对应于上述样本原文的翻译时长，计算得到该机器翻译引擎的对应于该样本原文的响应速度值。

在一些可能的实施例中，先根据每个机器翻译引擎的对应于上述样本原文的各个翻译时长计算响应速度值均值，再根据该响应速度值均值计算得到该机器翻译引擎的响应速度值。

具体地，响应速度值均值可以由以下公式计算所得：

其中，n代表一组样本译文的数量，T1代表这组样本译文中翻译第一个样本译文的翻译时长，T2代表这组样本译文中翻译第二个样本译文的翻译时长，Tn代表这组样本译文中翻译第n个样本译文的翻译时长。

响应速度值ARS再由以下公式转化得到：

其中，max为这组样本译文中机器翻译引擎响应速度最大值，min机器翻译引擎响应速度最小值。

步骤S408，根据每个上述机器翻译引擎的对应于上述样本原文的翻译结果，计算得到该机器翻译引擎的对应于该样本原文的稳定性值。

在一些可能的实施例中，稳定性值ST可以由以下公式计算所得：

其中，n代表一组样本译文的数量，ST1代表这组样本译文中第一个样本译文翻译是否成功的翻译结果，如果翻译成功ST1值为1，如果翻译失败ST1值为0。ST2代表这组样本译文中第二个样本译文翻译是否成功的翻译结果，如果翻译成功ST2值为1，如果翻译失败ST2值为0。同样，STn代表这组样本译文中第n个样本译文翻译是否成功的翻译结果，如果翻译成功STn值为1，如果翻译失败STn值为0。

需要说明的是，上述计算质量好评率值PR值、响应速度值ARS值和稳定性值ST值这三个值之间没有先后执行顺序。

步骤S410，根据上述译文质量好评率值PR值、响应速度值ARS值和稳定性值ST值，计算上述各个机器翻译引擎的对应于上述样本原文的总评分值。

在一些可能的实施例中，通过以下公式计算上述机器翻译引擎的对应于上述样本原文的总评分值：

总评分值＝PR*W1+ARS*W2+ST*W3

其中，PR表示是上述机器翻译引擎的对应于上述样本原文的译文质量好评率值，W1表示译文质量好评率权重值，ARS表示该机器翻译引擎的对应于该样本原文的响应速度值，W2表示响应速度权重值，ST表示所该机器翻译引擎的对应于该样本原文的稳定性值，W3表示稳定性权重值。

表3示出了经过步骤S402至S410后获得信息对照表。

表3

数据项	说明
		ID	机器翻译引擎的ID
语种	语种特征
		行业领域	行业领域特征
PR	待翻译样本的译文质量好评率值
		ARS	待翻译样本的响应速度值
ST	待翻译样本的稳定性值
		总评分值	待翻译样本的总评分值

图5为本发明实施例提供的一种计算偏离值的流程示意图，如图5所示，计算偏离值的详细步骤如下：

步骤S502，获取Textn、Textn1和Textn1，Textn代表一组待翻译样本中的第n个待翻译样本，Textn1代表Textn的样本译文，Textn2代表Textn的标准译文。

步骤S504，计算Textn的长度L1。

Textn的长度指Textn文本中字符的总长度；

步骤S506，计算Textn1和Textn2的字符串编辑距离L2。

步骤S508，根据Textn的长度L1和字符串编辑距离L2计算得到字符串距离L。

在一些可能的实施例中，将Textn的长度L1与字符串编辑距离L2的比值作为字符串距离L，即字符串距离L可以由以下公式计算得到：

L＝(L1/L2)

步骤S510，根据字符串距离L计算得到偏离值Ln。

在一些可能的实施例中，偏离值Ln由以下公式计算得到：

Ln＝L*100

通过以上公式，偏离值Ln被扩展到区间【0，100】。

图6为本发明实施例提供另一种机器翻译引擎推荐方法的流程示意图，如图6所示，下面以机器翻译引擎google和百度为例，详细说明机器翻译引擎的推荐过程：

步骤S602，获取待翻译原文和标准译文，并提取待翻译原文的目标特征向量。

此实施例中，选取机器翻译引擎google和百度，再选取一组待翻译原文，每组待翻译原文包括5个原文。使用python开源插件langid工具提取语种特征，使用THUCTC开源文本分类工具包提取行业领域特征。

表4示出了获取标准译文和提取特征向量后获得的信息对照表。

表4

步骤S604，分别使用google和百度两种机器翻译引擎翻译待翻译原文，获得对应样本译文、翻译时长Tn和翻译是否成功的翻译结果STn。

步骤S606，别计算google和百度两种机器翻译引擎翻译对应待翻译原文的偏离值Ln。

表5示出了经过步骤S604和步骤S606后获得的信息对照表。

表5

表中符号‘～’代表翻译失败，没有结果。

步骤S608，计算两种机器翻译引擎分别对应待翻译原文的译文质量好评率值、响应速度值和稳定性值。

译文质量好评率值、响应速度值和稳定性值详细计算方法可参考步骤S404至步骤S408。

表6示出了计算google和百度两种机器翻译引擎分别对应待翻译原文的译文质量好评率值、响应速度值和稳定性值后的信息对照表。

表6

ID	语种	行业	PR	ARS	ST
						google	中文	社会	0.27	0.16	0.6
百度	中文	社会	0.7	0.2	0.6

步骤S610，计算google和百度两种机器翻译引擎分别对应待翻译原文的总评分值。

总评分值详细计算方法可参考步骤S410，本实施例中，预设译文质量好评率权重值W1为0.5，预设响应速度权重值W2为0.25，预设稳定性权重值W3为0.25，google和百度两种机器翻译引擎的总评分值可通过以下公式计算得到：

总评分值＝PR*W1+ARS*W2+ST*W3

表7示出了google和百度两种机器翻译引擎分别对应的总评分值的信息对照表。

表7

ID	语种	行业	总评分值
				google	中文	社会	0.325
百度	中文	社会	0.55

步骤S612，根据总评分值，推荐总评分值较高的机器翻译引擎去翻译上述待翻译样本原文。

根据表7中总评分值对比可得到如下结果，如果待翻译原文特征向量为语种特征和行业领域特征，语种特征为中文，行业领域特征为社会，百度机器翻译引擎的总评分值大于google机器翻译引擎的总评分值，所以百度机器翻译引擎的翻译质量优于google机器翻译引擎的翻译质量。在分类器训练时，把中文语种特征和社会行业领域和百度机器翻译引擎对应起来。当用户使用分类器推荐机器引擎时，如果待翻译原文特征向量为中文语种特征和社会行业领域，分类器根据对应结果推荐对应的百度机器翻译引擎。

对应于上述机器翻译引擎推荐方法，本实施例还提供了一种机器翻译引擎推荐装置，参见图7，该装置包括：

获取模块72，用于获取待翻译原文；

提取模块74，用于提取上述待翻译原文的目标特征向量，其中，该目标特征向量包括语种特征和行业领域特征；

推荐模块76，用于根据上述目标特征向量和训练好的分类器，确定与上述待翻译原文对应的目标机器翻译引擎。

可选地，上述提取模块74具体用于：

对上述待翻译原文进行语种识别，得到待翻译原文的语种特征；

对待翻译原文进行行业领域识别，得到待翻译原文的行业领域特征；

由待翻译原文的语种特征和行业领域特征建立待翻译原文的目标特征向量。

本发明实施例还提供了另一种机器翻译引擎推荐装置，参见图8，在图7的基础上，该装置还包括训练模块88，训练模块88包括：

第一获取单元881，用于获取多组样本原文；其中，每组该样本原文包括相同语种、相同行业领域的多个待译样本；

向量提取单元882，用于对于每组上述样本原文，提取该样本原文的样本特征向量；

第二获取单元883，用于获取采用多个预选的机器翻译引擎分别对每个待译样本进行翻译的原始行为数据和每个待译样本对应的标准译文；

计算单元884，用于根据原始行为数据和上述标准译文，计算得到各个机器翻译引擎的对应于该样本原文的总评分值；

训练单元885，用于根据各组样本原文的上述样本特定向量和各个机器翻译引擎的对应于每组该样本原文的总评分值，对上述分类器进行训练。

图9为本发明实施例提供的一种计算单元的结构示意图，如图9所示，计算单元884包括：

第一计算子单元92，用于根据上述原始行为数据和上述标准译文，计算得到各个上述机器翻译引擎的对应于上述样本原文的译文质量好评率值、响应速度值和稳定性值；

第二计算子单元94，用于根据每个上述机器翻译引擎的对应于上述样本原文的译文质量好评率值、响应速度值和稳定性值，计算得到该机器翻译引擎的对应于该样本原文的总评分值。

可选地，上述原始行为数据包括样本译文、翻译时长和翻译是否成功的翻译结果，上述第一计算子单元92具体用于：

根据每个上述机器翻译引擎的对应于上述样本原文中每个上述待译样本的样本译文和每个上述待译样本对应的标准译文，计算得到每个该待译样本对应的偏离值；

根据每个待译样本对应的偏离值，确定机器翻译引擎的对应于样本原文的译文质量好评率值；

根据每个机器翻译引擎的对应于样本原文的翻译时长，计算得到机器翻译引擎的对应于样本原文的响应速度值；

根据每个机器翻译引擎的对应于样本原文的翻译结果，计算得到机器翻译引擎的对应于样本原文的稳定性值。

上述第二计算子单元94具体用于：

通过以下公式计算机器翻译引擎的对应于样本原文的总评分值：

总评分值＝PR*W1+ARS*W2+ST*W3

其中，PR表示机器翻译引擎的对应于上述样本原文的译文质量好评率值，W1表示译文质量好评率权重值，ARS表示机器翻译引擎的对应于该样本原文的响应速度值，W2表示响应速度权重值，ST表示机器翻译引擎的对应于该样本原文的稳定性值，W3表示稳定性权重值。

本发明实施例中，获取待翻译原文，提取该待翻译原文的目标特征向量，其中，该目标特征向量包括语种特征和行业领域特征，根据该目标特征向量和训练好的分类器，确定与该待翻译原文对应的目标机器翻译引擎。该目标机器翻译引擎是经过训练后的分类器根据待翻译原文的特征向量所推荐的翻译质量最高的机器翻译引擎，因此应用本发明实施例提供的机器翻译引擎推荐装置，提高了机器翻译质量。

参见图10，本发明实施例还提供一种电子设备100，包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置及电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例提供的机器翻译引擎推荐装置及电子设备，与上述实施例提供的机器翻译引擎推荐方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，上述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例所提供的进行机器翻译引擎推荐方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，上述程序代码包括的指令可用于执行前面方法实施例中上述的方法，具体实现可参见方法实施例，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上上述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应上述以权利要求的保护范围为准。

Claims

1.一种机器翻译引擎推荐方法，其特征在于，包括：

获取待翻译原文；

提取所述待翻译原文的目标特征向量，其中，所述目标特征向量包括语种特征和行业领域特征；

根据所述目标特征向量和训练好的分类器，确定与所述待翻译原文对应的目标机器翻译引擎。

2.根据权利要求1所述的方法，其特征在于，所述提取所述待翻译原文的目标特征向量，包括：

对所述待翻译原文进行语种识别，得到所述待翻译原文的语种特征；

对所述待翻译原文进行行业领域识别，得到所述待翻译原文的行业领域特征；

由所述待翻译原文的语种特征和行业领域特征建立所述待翻译原文的目标特征向量。

3.根据权利要求1所述的方法，其特征在于，所述分类器通过以下方式训练：

获取多组样本原文；其中，每组所述样本原文包括相同语种、相同行业领域的多个待译样本；

对于每组所述样本原文，提取所述样本原文的样本特征向量；

获取采用多个预选的机器翻译引擎分别对每个所述待译样本进行翻译的原始行为数据和每个所述待译样本对应的标准译文；

根据所述原始行为数据和所述标准译文，计算得到各个所述机器翻译引擎的对应于所述样本原文的总评分值；

根据各组所述样本原文的所述样本特定向量和各个所述机器翻译引擎的对应于每组所述样本原文的所述总评分值，对所述分类器进行训练。

4.根据权利要求3所述的方法，其特征在于，所述根据所述原始行为数据和所述标准译文，计算得到各个所述机器翻译引擎的对应于所述样本原文的总评分值，包括：

根据所述原始行为数据和所述标准译文，计算得到各个所述机器翻译引擎的对应于所述样本原文的译文质量好评率值、响应速度值和稳定性值；

根据每个所述机器翻译引擎的对应于所述样本原文的译文质量好评率值、响应速度值和稳定性值，计算得到所述机器翻译引擎的对应于所述样本原文的总评分值。

5.根据权利要求4所述的方法，其特征在于，所述原始行为数据包括样本译文、翻译时长和翻译是否成功的翻译结果；

所述根据所述原始行为数据和所述标准译文，计算得到各个所述机器翻译引擎的对应于所述样本原文的译文质量好评率值、响应速度值和稳定性值，包括：

根据每个所述机器翻译引擎的对应于所述样本原文中每个所述待译样本的样本译文和每个所述待译样本对应的标准译文，计算得到每个所述待译样本对应的偏离值；

根据每个所述待译样本对应的偏离值，确定所述机器翻译引擎的对应于所述样本原文的译文质量好评率值；

根据每个所述机器翻译引擎的对应于所述样本原文的翻译时长，计算得到所述机器翻译引擎的对应于所述样本原文的响应速度值；

根据每个所述机器翻译引擎的对应于所述样本原文的翻译结果，计算得到所述机器翻译引擎的对应于所述样本原文的稳定性值。

6.根据权利要求4所述的方法，其特征在于，通过以下公式计算所述机器翻译引擎的对应于所述样本原文的总评分值：

总评分值＝PR*W1+ARS*W2+ST*W3

其中，PR表示所述机器翻译引擎的对应于所述样本原文的译文质量好评率值，W1表示译文质量好评率权重值，ARS表示所述机器翻译引擎的对应于所述样本原文的响应速度值，W2表示响应速度权重值，ST表示所述机器翻译引擎的对应于所述样本原文的稳定性值，W3表示稳定性权重值。

7.一种机器翻译引擎推荐装置，其特征在于，包括：

获取模块，用于获取待翻译原文；

提取模块，用于提取所述待翻译原文的目标特征向量，其中，所述目标特征向量包括语种特征和行业领域特征；

推荐模块，用于根据所述目标特征向量和训练好的分类器，确定与所述待翻译原文对应的目标机器翻译引擎。

8.根据权利要求7所述的装置，其特征在于，所述提取模块用于：

9.根据权利要求7所述的装置，其特征在于，所述装置还包括训练模块，所述训练模块包括：

第一获取单元，用于获取多组样本原文；其中，每组所述样本原文包括相同语种、相同行业领域的多个待译样本；

向量提取单元，用于对于每组所述样本原文，提取所述样本原文的样本特征向量；

第二获取单元，用于获取采用多个预选的机器翻译引擎分别对每个所述待译样本进行翻译的原始行为数据和每个所述待译样本对应的标准译文；

计算单元，用于根据所述原始行为数据和所述标准译文，计算得到各个所述机器翻译引擎的对应于所述样本原文的总评分值；

训练单元，用于根据各组所述样本原文的所述样本特定向量和各个所述机器翻译引擎的对应于每组所述样本原文的所述总评分值，对所述分类器进行训练。

10.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的方法。