CN106776583A

CN106776583A - 机器翻译评价方法和设备及机器翻译方法和设备

Info

Publication number: CN106776583A
Application number: CN201510824703.0A
Authority: CN
Inventors: 王晓利; 张永生
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2015-11-24
Filing date: 2015-11-24
Publication date: 2017-05-31
Also published as: JP2017097882A

Abstract

提供了一种用于跨语言问答系统的机器翻译评价方法和设备以及机器翻译方法和设备。所述机器翻译评价方法包括：对于源语言查询语句和通过机器翻译得到的对应的目标语言查询语句分别进行语义角色标注；计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率；和基于所计算的各个对齐概率，确定所述目标语言查询语句的翻译质量。该方法提出了一种利用语义角色标注、基于论元对齐概率的新颖的机器翻译评价方案，通过该方法能够提供较为准确的机器翻译评价，进而提高跨语言问答系统的性能。

Description

机器翻译评价方法和设备及机器翻译方法和设备

技术领域

本公开总体涉及机器翻译，具体涉及用于跨语言问答系统的机器翻译评价方法和设备以及机器翻译方法和设备。

背景技术

跨语言问答系统(Cross-language question answering system)是跨语言信息检索技术在自动问答系统中运用的产物，比起单语种的自动问答系统，跨语言问答系统需要涉及更为复杂的跨语言、信息检索等处理技术。其要求系统接收用户以源语言表述的问题作为输入、系统自动在另一语种的语料库中找到关于这个问题的最佳答案、并将此答案以源语言的形式返回给用户。由于系统接收的问题的语种与语料库的语种不一致，因此为了进行跨语种检索，需要通过机器翻译进行语种的转换。针对这一语种的转换，可以采用两种不同的思路，一种是将源语言的问题转化(翻译)为与语料库相同的语言，然后使用针对语料库的语种设计的问答系统来获取答案，另一种是通过机器翻译将整个语料库转化为与源语言相同的语言，然后在转化后的语料库中获取答案。可以看出，无论采用哪种思路，机器翻译的好坏对问答系统的性能都有着非常重要的影响。

由于上述第二种思路中需要将整个语料库转化为与源语言相同的语言，工作负荷很重，因此，目前本领域中的研究更多地集中在第一种思路上。具体的，当前针对将源语言的问题转化为与语料库相同的语言的机器翻译已经提出了许多具体的方法。相应的，为了确定翻译的质量，研究人员进行了很多研究以期对翻译结果进行评价，从而选择翻译质量较高的翻译。然而，现有的各种翻译评价方法在可靠性和通用性上不能令人满意。例如，美国专利申请US2012330990公开了一种跨语言查询建议的评价方法，其确定各个候选翻译在目标语言查询日志中的出现频率，并选择出现频率最高的候选翻译作为翻译质量最高的翻译。然而按照方法，在候选翻译漏译了源语言中的某些词时，会导致其在目标语言查询日志中的出现频率较高，另外，有时在某些特定词翻译错误时也会导致较高的出现频率，从而导致错误的翻译评价。再比如，日本专利申请WO2013014877A1公开了一种根据源语言和目标语言的翻译的反向翻译结果之间的距离来评估翻译可靠性的方法。然而，该方法需要从源语言翻译成目标语言、以及从目标语言反向翻译成源语言的两种翻译模型，而且从目标语言反向翻译成源语言的性能也会影响评价的可靠性。

发明内容

至少针对以上问题提出本公开。

根据本公开的一个实施例，提供了一种用于跨语言问答系统的机器翻译评价方法，包括：对于源语言查询语句和通过机器翻译得到的对应的目标语言查询语句分别进行语义角色标注；计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率；和基于所计算的各个对齐概率，确定所述目标语言查询语句的翻译质量。

根据本公开的另一实施例，提供了一种用于跨语言问答系统的机器翻译方法，包括：接收要翻译的第一语言的内容，并判断该第一语言的内容的类型；基于所确定的类型选择适合于该类型的多个翻译引擎；利用所述多个翻译引擎分别对所述第一语言的内容进行翻译，得到多个第二语言的候选翻译；对每个第二语言的候选翻译的翻译质量进行打分，并选择得分最高的候选翻译作为所述第一语言的内容的翻译。

根据本公开的另一实施例，提供了一种用于跨语言问答系统的机器翻译评价设备，包括：标注部件，配置为对于源语言查询语句和通过机器翻译得到的对应的目标语言查询语句分别进行语义角色标注；对齐部件，配置为计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率；和评价部件，配置为基于所计算的各个对齐概率，确定所述目标语言查询语句的翻译质量。

根据本公开的又一实施例，提供了一种用于跨语言问答系统的机器翻译设备，包括：判断部件，配置为接收要翻译的第一语言的内容，并判断该第一语言的内容的类型；选择部件，配置为基于所确定的类型选择适合于该类型的多个翻译引擎；翻译部件，配置为利用所述多个翻译引擎分别对所述第一语言的内容进行翻译，得到多个第二语言的候选翻译；确定部件，配置为对每个第二语言的候选翻译的翻译质量进行打分，并选择得分最高的候选翻译作为所述第一语言的内容的翻译。

根据本公开实施例的机器翻译评价技术提出了一种利用语义角色标注、基于论元对齐概率的新颖的机器翻译评价方案，通过该方法能够提供较为准确的机器翻译评价，进而提高跨语言问答系统的性能。根据本公开实施例的机器翻译技术对于不同类型的待翻译内容选用适合于该类型的不同翻译引擎，并且对于每种类型的翻译内容采用多个翻译引擎进行翻译，从而对于各种类型的待翻译内容都能提供较好的翻译结果。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示意性地示出了根据本公开实施例的用于跨语言问答系统的机器翻译评价方法的流程图。

图2例示了根据本公开实施例的可用于跨语言问答系统的机器翻译方法的流程图。

图3示出了根据本公开实施例的用于跨语言问答系统的机器翻译评价设备的功能配置框图。

图4示出了根据本公开实施例的用于跨语言问答系统的机器翻译设备的功能配置框图。

图5示出了可用于实现本公开实施例的、用于跨语言问答系统的机器翻译评价设备和机器翻译设备的计算设备的示意性框图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。基于本公开中描述的实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。

首先对根据本公开实施例的机器翻译评价技术的基本思想进行简单介绍。

本发明人认识到，对于不同类型的待翻译内容，翻译质量的评价标准是不尽相同的。以跨语言问答系统中的源语言查询语句的翻译为例，本发明人通过大量的研究发现，不同于通常的翻译质量评价标准，源语言查询语句的翻译结果中各元素的位置对于跨语言问答系统的性能影响不大，因而不应作为评价翻译质量好坏的标准。例如假设源语言是英文，目标语言是中文(如无另外说明，下文中均采用这一假设)，对于英文查询“Is it cold at the night ofearly December,HK？”，中文翻译“是不是很冷，在十二月初，香港”中的各元素位置虽然不符合通常的语序，但是其准确地表达了英文查询的原意，因此不应认定其翻译质量不好。另外，翻译结果的流畅度对于跨语言问答系统的性能影响也不大，因而也不应作为评价翻译质量好坏的标准。例如，对于英文查询“What would be the highlights and the best things to see in Shanghai Expo2010？”，有两种可能的翻译“什么是亮点，并看到在上海2010年世博会最好的东西”以及“在上海世博会上看到的2010个亮点和最好的东西是什么”，其中的第二种虽然比较流畅但是不符合英文查询的原意，而第一种虽然不够流畅，但是大致符合原意，因而不应当认定其翻译质量不好。事实上，本发明人认识到语义角色在一定程度上能够表达语义，因此应当是评价翻译质量的一个重要指标，并由此提出了下面将详细描述的利用语义角色标注、基于论元对齐概率的新颖的机器翻译评价方案。

语义角色标注是一种浅层语义分析技术，它以句子为单位，不对句子所包含的语义信息进行深入分析，而只是分析句子的谓词-论元结构。具体来讲，语义角色标注的任务就是以句子的谓词为中心，研究句子中各论元与谓词之间的关系，并且通过语义角色标注来描述论元与谓词之间的关系。例如，下面示出了语义角色标注的几个示例：

示例1：

示例2：

语义角色分为核心语义角色和附加语义角色。核心语义角色用ARG+数字表示，通常认为包含5类，其中ARG0表示动作的施事者，ARG1表示动作的受事者，ARG2表示动作的工具、手段等，ARG3表示起始点，ARG4表示结束点。附加语义角色用AGRM-表示，用于表示动作的时间、地点等等，例如上面的示例1中的“in 1989”。

如前面提到的，本发明人认识到语义角色在一定程度上能够表达语义，而双语平行句对是互为翻译的，因此它们在语义上应该是等价的，这种情况反映在语义角色标注上，两个对应的句子应该有一致的谓词-论元结构。例如，如下的示例示出了一对双语平行句之间的论元对齐关系，可以看出这两个句子具有一致的谓词-论元结构。

基于以上认识，在本公开的实施例中将基于双语平行句之间的谓词-论元一致性，或者说论元的对齐关系来确定翻译质量的好坏。更明确的说，如果通过机器翻译得到的对应的目标语言查询语句与源语言的查询语句的谓词-论元一致性高，或者说如果这两个语句之间的论元对齐程度高，则认为目标语言查询语句的翻译质量高。

下面将参考图1对根据本公开实施例的用于跨语言问答系统的机器翻译评价方法进行详细的描述。图1示意性地示出了根据本公开实施例的用于跨语言问答系统的机器翻译评价方法的流程图。

如图1所示，在步骤S110，对于源语言查询语句和通过机器翻译得到的对应的目标语言查询语句分别进行语义角色标注。

目前在自然语言处理领域中对语义角色标注已经进行了大量的研究，有许多可用的语义角色标注方法，并且语义角色标注的规则也已经相当完善。在该步骤中，可以采用任何已知的语义角色标注方法对于源语言的查询语句进行语义角色标注，并对通过机器翻译得到的对应的目标语言查询语句(即待评价翻译质量的候选翻译)进行语义角色标注，此处不再详细描述。

在步骤S120，计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率。

在该步骤中，将基于步骤S110的语义角色标注结果来计算源语言查询语句中各个论元与目标语言查询语句中各个论元的对齐概率。更明确的说，在该步骤中，对于源语言查询语句中的每个论元，计算其与目标语言查询语句中的每个论元的对齐概率，以期由此获知这两个语句之间的论元对齐关系，进而评价目标语言查询语句的翻译质量。

每个论元都是由若干个词构成的，如果源语言的一个论元所包含的词与目标语言的论元所包含的词大部分是对齐的，那么这两个论元也很有可能是对齐的。因此，作为一种可选的方式，在计算源语言查询语句中的一个论元和目标语言查询语句中的一个论元的论元对齐概率时，可以对这两个论元进行词对齐，并根据词对齐结果确定这两个论元的对齐概率。

所谓词对齐是指在双语平行句的互译关系的词之间建立对应关系。词对齐是自然语言处理中的常用技术手段，按照分类方法的不同，词对齐可以分为无监督和有监督的词对齐、启发式和统计式词对齐等等。在该步骤中，可以采用任何适当的词对齐方法，对源语言查询语句中的一个论元和目标语言查询语句中的一个论元进行词对齐处理，进而根据词对齐结果确定这两个论元的对齐概率。具体的，两个论元之间对齐的词越多，则这两个论元的对齐概率越大。

作为另一种可选的方式，可以根据中心词对齐结果以及论元之间的距离确定论元的对齐概率。所谓中心词是偏正短语中被修饰语所修饰、限制的中心成分。能够理解，一个论元的中心词往往比该论元中的其他词更具有代表性。因此，如果两个论元的中心词是对齐的，那么即使其他词对齐得不是很多，这两个论元也很可能是对齐的。另一方面，大量的统计表明，两个对齐的论元的语义角色标签往往是相同的，或者即使不相同，这两个论元之间的距离也应该较为接近。以中文句子中的论元ARG0为例，统计表明，大多数情况下，该中文句子中的ARG0和英文句子中的ARG0对齐，此时两个论元之间的距离为0；该中文句子中的ARG0和英文句子中的ARG1对齐的的情形大大减少，此时两个论元之间的距离为1；而该中文句子中的ARG0和英文句子中的ARG2对齐的情形则几乎没有，此时两个论元之间的距离为2。也就是说，两个论元之间的距离越近，这两个论元对齐的概率越高，而两个论元之间的距离越远，则它们之间的对齐概率越低。

因此，如上所述，可选的，对于源语言查询语句中的一个论元和目标语言查询语句中的一个论元，可以基于这两个论元的中心词的词对齐结果(即是否对齐)以及这两个论元之间的距离，确定这两个论元的对齐概率。例如，可以根据具体情况为中心词对齐结果和论元之间的距离分别设定适当的权重，并计算两者的加权和以确定两个论元的对齐概率。

以上例示了计算源语言查询语句中的一个论元与目标语言查询语句中的一个论元的论元对齐概率的方法，应当理解，这仅仅是示例性的说明而并非是对本公开的限制，也可以根据具体情况采用其他方式来计算两个论元之间的对齐概率。例如可以同时考虑两个论元之间的词对齐结果、中心词对齐结果、以及论元之间的距离来确定论元的对齐概率。

回到图1，在步骤S130，基于所计算的各个对齐概率，确定所述目标语言查询语句的翻译质量。

在该步骤中，可以以各种方式利用在步骤S120中计算出的各个论元对齐概率，以确定目标语言查询语句的翻译质量。

统计显示，各个对齐概率中的最大对齐概率是影响翻译质量的一个很重要的因素，因此可选的，可以基于所计算的各个对齐概率中的最大对齐概率，确定所述目标语言查询语句的翻译质量。其中，最大对齐概率越大，则目标语言查询语句的翻译质量越好。

另外，统计显示，各个对齐概率的平均对齐概率也对翻译质量有较大的影响，因此可以基于所计算的各个对齐概率的平均对齐概率及最大对齐概率来确定所述目标语言查询语句的翻译质量。此外，除了平均对齐概率及最大对齐概率之外，还可以进一步结合源语言查询语句的长度、目标语言查询语句的长度、目标语言查询语句中谓词的数目等其他相关的影响因素来确定目标语言查询语句的翻译质量。作为一个具体示例，可以为上述各个影响因素分别设定适当的权重，并通过计算各个影响因素的加权和来确定目标语言查询语句的翻译质量。

可选的，可以采用上述各个影响因素、通过建立数学模型来确定目标语言查询语句的翻译质量。例如，可以如表达式(1)所示，利用预先训练好的多项式逻辑回归模型，对目标语言查询语句的翻译质量打分，以对翻译质量做出评价：

其中，P(Y＝k|x)表示模型的各输出值(即各翻译质量打分)的逻辑可能性，x表示模型的特征值，Wk表示各特征值的权重，其具体值是在模型的训练过程中训练得到的，K表示特征值的数目，k*表示具有最大逻辑可能性的输出值，即最可能的翻译质量打分。如前所述，各个对齐概率中的最大对齐概率是一个很重要的因素，因此该模型的特征值可以是最大对齐概率。可选的，该模型的特征值还可以包括其他相关因素，例如，平均对齐概率、源语言查询语句的长度、目标语言查询语句的长度、目标语言查询语句中谓词的数目等。

该多项式逻辑回归模型是在进行翻译质量评价之前通过诸如SAS、SPSS等训练方法预先训练得到。模型训练是数理统计中的常用技术手段，此处不再详细描述。值得说明的是，在采用训练集中的各个目标语言查询语句对模型进行训练时，可以基于各种规则对该各个目标语言查询语句手动进行打分。例如，可以根据采用训练集中的各个目标语言查询语句在跨语言问答系统中查询到的回答的正确性，手动对该各个目标语言查询语句打分。表1示出了一种示例性的打分规则。

表1

上述多项式逻辑回归模型仅仅是一个可选的示例，而并非是对本公开的限制，也可以采用诸如SVC(支持向量机)、非线性模型、神经网络等其他适当的模型来对目标语言查询语句的翻译质量进行打分。

以上详细描述了根据本公开实施例的用于跨语言问答系统的机器翻译评价方法。本发明人已经采用测试集对其进行了验证，验证结果表明，应用该机器翻译评价方法对源语言查询语句的翻译质量进行评价的正确率能够达到90％左右。可见根据本发明实施例的机器翻译评价方法能够提供较为准确的机器翻译评价，进而提高跨语言问答系统的性能。下面将对可以应用前述的机器翻译评价方法的、根据本公开实施例的可用于跨语言问答系统的机器翻译方法进行描述。图2例示了根据本公开实施例的可用于跨语言问答系统的机器翻译方法的流程图。

如图2所示，在步骤S210，接收要翻译的第一语言的内容，并判断该第一语言的内容的类型。

在跨语言问答系统中，待翻译的内容至少包括以下几种类型：由用户输入的源语言的查询语句、由问答系统搜索到的不同于源语言的另一语种(以下简称目标语言)的查询结果、待翻译成源语言的目标语言的语料库。

如前所示，本发明人认识到，对于不同类型的待翻译内容，翻译质量的评价标准应当是不尽相同的。因此，在该步骤中，判断要翻译的第一语言的内容的类型，以便在后续的处理中可以选择适合于该类型的评价标准和翻译工具。

在步骤S220，基于所确定的类型选择适合于该类型的多个翻译引擎。

统计发现，没有一种翻译引擎是明显优于其他翻译引擎的，也没有一种翻译方法是明显优于其他翻译方法的。因此，在该步骤中，针对所确定的第一语言的内容的类型，选择适合于该类型的多个翻译引擎。其中，所述适合于该类型的多个翻译引擎是预先确定好的。更明确的说，预先利用诸如google、bing、baidu等各种翻译引擎对大量该类型的第一语言的内容进行翻译，并通过现有的各种评价模型或人工评价等方式对各翻译引擎的翻译结果进行评价(离线评价)，从而确定具有较好的翻译质量的若干引擎为适合于该类型的翻译引擎。

在步骤S230，利用所述多个翻译引擎分别对所述第一语言的内容进行翻译，得到多个第二语言的候选翻译。

在步骤S240，对每个第二语言的候选翻译的翻译质量进行打分，并选择得分最高的候选翻译作为所述第一语言的内容的翻译。

在该步骤中可以采用任何适当的翻译质量评价方法对在步骤S230中得到的每个第二语言的候选翻译的翻译质量进行打分(在线评价)，本实施例中对此并没有限制。

可选的，当所述第一语言的内容的类型是查询语句时，可以采用上文中结合图1描述的根据本公开实施例的机器翻译评价方法对每个第二语言的候选翻译的翻译质量进行打分。具体的，对于一个待评价的第二语言的候选翻译，可以对第一语言的内容和该第二语言的候选翻译分别进行语义角色标注；然后计算第一语言的内容中每个被标注的论元与该第二语言的候选翻译中每个被标注的论元的对齐概率；最后基于所计算的各个对齐概率，对该第二语言的候选翻译的翻译质量进行打分。上述处理的具体操作与上文中结合图1描述的各步骤的操作相同，此处不再赘述。

以上详细描述了根据本公开实施例的用于跨语言问答系统的机器翻译方法。根据该实施例，对于不同类型的待翻译内容选用通过离线评价预先确定的适合于该类型的翻译引擎，并且对于每种类型的翻译内容采用多个翻译引擎进行翻译，并通过在线评价选择打分最高的候选翻译作为最终翻译，从而保证了对于各种类型的待翻译内容都能提供较好的翻译结果。

下面，将参照图3来描述根据本公开实施例的用于跨语言问答系统的机器翻译评价设备。图3示出了根据本公开实施例的用于跨语言问答系统的机器翻译评价设备的功能配置框图。如图3所示，机器翻译评价设备300可以包括：标注部件310，对齐部件320和评价部件330。所述各部件的具体功能和操作与上文中针对图1描述的基本相同，因此为了避免重复，在下文中仅对所述设备进行简要的描述，而省略对相同细节的详细描述。

标注部件310配置为对于源语言查询语句和通过机器翻译得到的对应的目标语言查询语句分别进行语义角色标注。具体的，标注部件310可以采用任何已知的语义角色标注方法对于源语言的查询语句进行语义角色标注，并对通过机器翻译得到的对应的目标语言查询语句(即待评价翻译质量的候选翻译)进行语义角色标注，此处不再详细描述。

对齐部件320配置为计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率。具体的，对齐部件320对于源语言查询语句中的每个论元，计算其与目标语言查询语句中的每个论元的对齐概率，以期由此获知这两个语句之间的论元对齐关系，进而评价目标语言查询语句的翻译质量。

对齐部件320可以采用各种适当的方式来计算所述论元对齐概率。作为一种可选的方式，在计算源语言查询语句中的一个论元和目标语言查询语句中的一个论元的论元对齐概率时，可以对这两个论元进行词对齐，并根据词对齐结果确定这两个论元的对齐概率。其中，两个论元之间对齐的词越多，则这两个论元的对齐概率越大。作为另一种可选的方式，对于源语言查询语句中的一个论元和目标语言查询语句中的一个论元，可以基于这两个论元的中心词的词对齐结果以及这两个论元之间的距离，确定这两个论元的对齐概率。具体的，可以根据具体情况为中心词对齐结果和论元之间的距离分别设定适当的权重，并计算两者的加权和以确定两个论元的对齐概率。

评价部件330配置为基于所计算的各个对齐概率，确定所述目标语言查询语句的翻译质量。评价部件330可以以各种方式利用由对齐部件320计算出的各个论元对齐概率，从而确定目标语言查询语句的翻译质量。

可选的，评价部件330可以基于所计算的各个对齐概率中的最大对齐概率，确定所述目标语言查询语句的翻译质量。其中，最大对齐概率越大，则目标语言查询语句的翻译质量越好。

可选的，评价部件330可以基于所计算的各个对齐概率的平均对齐概率及最大对齐概率来确定所述目标语言查询语句的翻译质量。此外，评价部件330还可以进一步结合源语言查询语句的长度、目标语言查询语句的长度、目标语言查询语句中谓词的数目等其他相关的影响因素来确定目标语言查询语句的翻译质量。作为一个具体示例，评价部件330可以为上述各个影响因素分别设定适当的权重，并通过计算各个影响因素的加权和来确定目标语言查询语句的翻译质量。

可选的，评价部件330也可以采用至少包括最大对齐概率在内的上述各个影响因素、通过建立数学模型来确定目标语言查询语句的翻译质量。例如，可以采用前文中提到的表达式(1)，利用预先训练好的多项式逻辑回归模型，对目标语言查询语句的翻译质量打分，以对翻译质量做出评价。

该多项式逻辑回归模型是在进行翻译质量的评价之前通过诸如SAS、SPSS等训练方法预先训练得到。其中，在采用训练集中的各个目标语言查询语句对模型进行训练时，可以基于各种规则对该各个目标语言查询语句手动进行打分。例如，可以根据采用训练集中的各个目标语言查询语句在跨语言问答系统中查询到的回答的正确性，手动对该各个目标语言查询语句打分。

以上详细描述了根据本公开实施例的用于跨语言问答系统的机器翻译评价设备，该设备能够提供较为准确的机器翻译评价，进而提高跨语言问答系统的性能。

下面，参照图4来描述根据本公开实施例的用于跨语言问答系统的机器翻译设备。图4示出了根据本公开实施例的用于跨语言问答系统的机器翻译设备的功能配置框图。如图4所示，机器翻译评价设备400可以包括：判断部件410，选择部件420，翻译部件430和确定部件440。所述各部件的具体功能和操作与上文中针对图2和图3描述的基本相同，因此为了避免重复，在下文中仅对所述设备进行简要的描述，而省略对相同细节的详细描述。

判断部件410配置为接收要翻译的第一语言的内容，并判断该第一语言的内容的类型。如前所述，在跨语言问答系统中，待翻译的内容至少包括以下几种类型：由用户输入的源语言的查询语句、由问答系统搜索到的不同于源语言的另一语种(以下简称目标语言)的查询结果、待翻译成源语言的目标语言的语料库。对于不同类型的待翻译内容，翻译质量的评价标准应当是不尽相同的。因此判断部件410判断要翻译的第一语言的内容的类型，以便在后续的处理中可以选择适合于该类型的评价标准和翻译工具。

选择部件420配置为基于所确定的类型选择适合于该类型的多个翻译引擎。统计发现，没有一种翻译引擎是明显优于其他翻译引擎的，也没有一种翻译方法是明显优于其他翻译方法的。因此，选择部件420针对所确定的第一语言的内容的类型，选择适合于该类型的多个翻译引擎。其中，所述适合于该类型的多个翻译引擎是预先确定好的。更明确的说，预先利用各种翻译引擎对大量该类型的第一语言的内容进行翻译，并通过现有的各种评价模型或人工评价等方式对各翻译引擎的翻译结果进行评价(离线评价)，从而确定具有较好的翻译质量的若干引擎为适合于该类型的翻译引擎。

翻译部件430配置为利用所述多个翻译引擎分别对所述第一语言的内容进行翻译，得到多个第二语言的候选翻译。

确定部件440配置为对每个第二语言的候选翻译的翻译质量进行打分，并选择得分最高的候选翻译作为所述第一语言的内容的翻译。确定部件440可以采用任何适当的翻译质量评价方法对通过翻译部件430得到的每个第二语言的候选翻译的翻译质量进行打分(在线评价)，本实施例中对此并没有限制。

可选的，当所述第一语言的内容的类型是查询语句时，确定部件440可以采用上文中结合图3描述的机器翻译评价设备，以对每个第二语言的候选翻译的翻译质量进行打分。具体的，确定部件440可以包括标注单元，用于对第一语言的内容和一个第二语言的候选翻译分别进行语义角色标注；对齐单元，用于计算第一语言的内容中每个被标注的论元与该第二语言的候选翻译中每个被标注的论元的对齐概率；评价单元，基于所计算的各个对齐概率，对该第二语言的候选翻译的翻译质量进行打分。该确定部件440中各单元的功能和具体操作与上文中结合图3描述的机器翻译评价设备相同，此处不再赘述。

以上详细描述了根据本公开实施例的用于跨语言问答系统的机器翻译设备。根据该实施例，对于不同类型的待翻译内容选用通过离线评价预先确定的适合于该类型的翻译引擎，并且对于每种类型的翻译内容采用多个翻译引擎进行翻译，并通过在线评价选择打分最高的候选翻译作为最终翻译，从而保证了对于各种类型的待翻译内容都能提供较好的翻译结果。

下面，参照图5来描述可用于实现本公开实施例的、用于跨语言问答系统的机器翻译评价设备和机器翻译设备的计算设备的示意性框图。

如图5所示，计算设备500包括一个或多个处理器502、存储装置504、输入装置506和输出装置508，这些组件通过总线系统510和/或其它形式的连接机构(未示出)互连。应当注意，图5所示的计算设备500的组件和结构只是示例性的，而非限制性的，根据需要，计算设备500也可以具有其他组件和结构。

处理器502可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制计算设备500中的其它组件以执行期望的功能。

存储装置504可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器502可以运行所述程序指令，以实现上文所述的本公开的实施例的功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如上文中提到的源语言查询语句、翻译得到的目标语言查询语句、各论元的语义角色、两个论元中的词对齐结果、各论元的对齐概率、目标语言查询语句的打分等等。

输入装置506用于接收来自用户的输入信息，例如源语言查询、要翻译的第一语言的内容等，其可以包括诸如有线/无线网卡、键盘、鼠标、触摸屏、麦克风等各种输入设备。

输出装置508可以向外部输出各种信息，例如目标语言查询语句的翻译质量、第一语言的内容的第二语言的翻译，并且可以包括诸如有线/无线网卡、显示器、投影仪、电视等各种显示设备。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

另外，如在此使用的，在以“至少一个”开始的项的列举中使用的“或”指示分离的列举，以便例如“A、B或C的至少一个”的列举意味着A或B或C，或AB或AC或BC，或ABC(即A和B和C)。此外，措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

还需要指出的是，在本公开的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于跨语言问答系统的机器翻译评价方法，包括：

对于源语言查询语句和通过机器翻译得到的对应的目标语言查询语句分别进行语义角色标注；

计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率；和

基于所计算的各个对齐概率，确定所述目标语言查询语句的翻译质量。

2.如权利要求1所述的机器翻译评价方法，其中所述计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率包括：

对于源语言查询语句中的一个论元和目标语言查询语句中的一个论元进行词对齐，并根据词对齐结果确定这两个论元的对齐概率，其中这两个论元之间对齐的词越多，则这两个论元的对齐概率越大。

3.如权利要求1所述的机器翻译评价方法，其中所述计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率包括：

对于源语言查询语句中的一个论元和目标语言查询语句中的一个论元，基于这两个论元的中心词的词对齐结果以及这两个论元之间的距离，确定这两个论元的对齐概率。

4.如权利要求1所述的机器翻译评价方法，所述基于所计算的各个对齐概率确定所述目标语言查询语句的翻译质量进一步包括：

至少基于所计算的各个对齐概率中的最大对齐概率，确定所述目标语言查询语句的翻译质量。

5.如权利要求4所述的机器翻译评价方法，所述基于所计算的各个对齐概率确定所述目标语言查询语句的翻译质量进一步包括：

利用预先训练好的模型，对所述目标语言查询语句的翻译质量打分，该模型的特征值至少包括所述各个对齐概率中的最大对齐概率。

6.如权利要求5所述的机器翻译评价方法，其中所述模型是多项式逻辑回归模型。

7.如权利要求5或6所述的机器翻译评价方法，其中在训练所述模型时，根据采用训练集中的各个目标语言查询语句在所述跨语言问答系统中查询到的回答的正确性，手动对训练集中的所述各个目标语言查询语句打分。

8.一种用于跨语言问答系统的机器翻译方法，包括：

接收要翻译的第一语言的内容，并判断该第一语言的内容的类型；

基于所确定的类型选择适合于该类型的多个翻译引擎；

利用所述多个翻译引擎分别对所述第一语言的内容进行翻译，得到多个第二语言的候选翻译；

对每个第二语言的候选翻译的翻译质量进行打分，并选择得分最高的候选翻译作为所述第一语言的内容的翻译。

9.如权利要求8所述的机器翻译方法，其中所述第一语言的内容的类型包括：查询语句、查询结果、语料库。

10.如权利要求8所述的机器翻译方法，其中所述适合于该类型的多个翻译引擎是根据各翻译引擎对该类型的第一语言的内容的翻译结果的质量而预先确定的。

11.如权利要求8所述的机器翻译方法，其中，所述第一语言的内容的类型是查询语句，并且所述对每个第二语言的候选翻译的翻译质量进行打分包括：

对于所述第一语言的内容和该第二语言的候选翻译分别进行语义角色标注；

计算所述第一语言的内容中每个被标注的论元与该第二语言的候选翻译中每个被标注的论元的对齐概率；和

基于所计算的各个对齐概率，对该第二语言的候选翻译的翻译质量进行打分。

12.如权利要求11所述的机器翻译方法，其中所述计算所述第一语言的内容中每个被标注的论元与该第二语言的候选翻译中每个被标注的论元的对齐概率包括：

对于第一语言的内容中的一个论元和第二语言的候选翻译中的一个论元进行词对齐，并根据词对齐结果确定这两个论元的对齐概率，其中这两个论元之间对齐的词越多，则这两个论元的对齐概率越大。

13.如权利要求11所述的机器翻译方法，所述基于所计算的各个对齐概率对该第二语言的候选翻译的翻译质量进行打分进一步包括：

至少基于所计算的各个对齐概率中的最大对齐概率，对该第二语言的候选翻译的翻译质量打分。

14.一种用于跨语言问答系统的机器翻译评价设备，包括：

标注部件，配置为对于源语言查询语句和通过机器翻译得到的对应的目标语言查询语句分别进行语义角色标注；

对齐部件，配置为计算源语言查询语句中每个被标注的论元与目标语言查询语句中每个被标注的论元的对齐概率；和

评价部件，配置为基于所计算的各个对齐概率，确定所述目标语言查询语句的翻译质量。

15.一种用于跨语言问答系统的机器翻译设备，包括：

判断部件，配置为接收要翻译的第一语言的内容，并判断该第一语言的内容的类型；

选择部件，配置为基于所确定的类型选择适合于该类型的多个翻译引擎；

翻译部件，配置为利用所述多个翻译引擎分别对所述第一语言的内容进行翻译，得到多个第二语言的候选翻译；

确定部件，配置为对每个第二语言的候选翻译的翻译质量进行打分，并选择得分最高的候选翻译作为所述第一语言的内容的翻译。

16.如权利要求15所述的机器翻译设备，其中，所述第一语言的内容的类型是查询语句，并且所述确定部件进一步包括：

标注部件，配置为对于所述第一语言的内容和该第二语言的候选翻译分别进行语义角色标注；

对齐部件，配置为计算所述第一语言的内容中每个被标注的论元与该第二语言的候选翻译中每个被标注的论元的对齐概率；和

评价部件，配置为基于所计算的各个对齐概率，对该第二语言的候选翻译的翻译质量进行打分。