CN104123274A

CN104123274A - 评价中间语的词语的方法和装置以及机器翻译方法和设备

Info

Publication number: CN104123274A
Application number: CN201310150456.1A
Authority: CN
Inventors: 付亦雯; 葛乃晟; 郑仲光; 孟遥; 于浩
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-04-26
Filing date: 2013-04-26
Publication date: 2014-10-29
Anticipated expiration: 2033-04-26
Also published as: JP2014216029A; JP6326940B2; CN104123274B

Abstract

本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法，包括确定中间语的词语相对于源语言的第一特定属性；确定中间语的词语相对于目标语的第二特定属性；根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数；以及根据可靠性分数来评价中间语的词语，其中，中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。

Description

评价中间语的词语的方法和装置以及机器翻译方法和设备

技术领域

本发明涉及语言处理领域，具体涉及对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。

背景技术

平行的词汇信息在交叉语言应用（包括机器翻译、交叉语言信息获取等等）中占有至关重要的地位。然而，不是任何两种语言的平行词汇信息的获取都是可行的，尤其是那些使用范围非常有限的语言。另外，由于新名词的发展十分迅速，因而想要使所掌握的平行词汇信息能够追赶上新名词的发展十分困难。因此，中间语（Pivot language）这一概念被引入。通过中间语来补充更多的平行词汇信息。然而，对中间语的使用主要存在两个主要障碍，第一是歧义性，第二是不匹配。

为解决源语言（Source language）、中间语与目标语（Target language）的歧义问题，传统方法使用结构化双语词典、语义类别（semantic class）、多个中间语言、相关频率、编辑距离等信息。传统方法始终相信源语言与中间语之间的翻译概率、中间语与目标语之间的翻译概率可以反映歧义问题，并可以通过选择最高概率来解决歧义问题。

通过中间语获取双语信息的传统方法基本遵循如下过程。首先获取源语言与中间语的信息、中间语与目标语的信息，例如，翻译概率、词汇化翻译概率、编辑距离，语义信息等。通过这些信息选择出最可靠的成对的源语言词语与目标语词语。然而，如果中间语含有多个语义，传统方法并不会对这种情况进行特殊处理，而是依旧选择翻译概率最高的词语作为最终结果。这种做法忽略了源自非平行语料的源语言和目标语不具有相同涵义这一特点，因此，在中间语的词语具有歧义的情况下，翻译概率并不能反映源语言的词语与目标语的词语之间的语义关系。

因此，期望提出一种能够解决上述问题的技术。

发明内容

在下文中给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的一个主要目的在于，提供一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。

根据本发明的一个方面，提供了一种对中间语的词语进行评价的方法。该方法包括：确定中间语的词语相对于源语言的第一特定属性；确定中间语的词语相对于目标语的第二特定属性；根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数；以及根据可靠性分数来评价中间语的词语，其中，中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。

根据本发明的另一个方面，提供了一种机器翻译方法。该方法包括：通过上述的对中间语的词语进行评价的方法获得中间语的词语的可靠性分数；根据中间语的词语的可靠性分数、以及将源语言的特定词语通过中间语的词语翻译成目标语的候选词语的机器翻译分数，计算目标语的候选词语的翻译分数；以及根据翻译分数从目标语的候选词语中选择目标语的词语作为翻译结果。

根据本发明的又一个方面，提供了一种对中间语的词语进行评价的装置。该装置包括：第一特定属性确定部，用于确定中间语的词语相对于源语言的第一特定属性；第二特定属性确定部，用于确定中间语的词语相对于目标语的第二特定属性；可靠性分数计算部，用于根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数；以及评价部，用于根据可靠性分数来评价中间语的词语，其中，中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。

根据本发明的又一个方面，提供了一种机器翻译设备。该设备包括：上述的对中间语的词语进行评价的装置，用于获得中间语的词语的可靠性分数；翻译分数计算部，用于根据中间语的词语的可靠性分数、以及将源语言的特定词语通过中间语的词语翻译成目标语的候选词语的机器翻译分数，计算目标语的候选词语的翻译分数；以及翻译结果选择部，用于根据翻译分数从目标语的候选词语中选择目标语的词语作为翻译结果。

另外，根据本发明的又一个方面，提供了一种用于实现上述装置的计算机程序。

此外，根据本发明的又一个方面，提供了一种至少计算机可读介质形式的计算机程序产品，其上记录有用于实现上述装置的计算机程序代码。

通过以下结合附图对本发明的最佳实施例的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。

图1A是示出根据本发明的一个实施例的对中间语的词语进行评价的方法的流程图。

图1B是示出根据本发明的一个实施例的通过人工神经网络来计算可靠性分数的示意图。

图2是示出根据本发明的另一个实施例的对中间语的词语进行评价的方法的流程图。

图3是示出根据本发明的一个实施例的机器翻译方法的流程图。

图4是示出根据本发明的一个实施例的对中间语的词语进行评价的装置的配置的框图。

图5是示出根据本发明的另一个实施例的对中间语的词语进行评价的装置的配置的框图。

图6是示出根据本发明又一个实施例的对中间语的词语进行评价的装置的配置的框图。

图7是示出根据本发明的一个实施例的机器翻译设备的配置的框图。

图8是示出可以用于实施本发明的对中间语的词语进行评价的方法和装置的计算设备以及机器翻译方法和机器翻译设备的举例的结构图。

具体实施方式

下面参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

在有些情况下，可能缺少将源语言A和目标语B直接关联起来的信息，而存在将中间语E和源语言A直接关联起来的信息、以及将中间语E和目标语B直接关联起来的信息。在这种情况下，可以考虑在中间语E中寻找一个或多个词语P作为桥梁，以将源语言A中的特定词语S翻译成目标语B中的相应词语。换句话说，中间语E的词语P可作为将源语言A的特定词语S翻译成目标语B中的相应词语T的桥梁。

图1A是示出根据本发明的一个实施例的对中间语E的词语P进行评价的方法100的流程图。图1B是示出根据本发明的一个实施例的通过人工神经网络来计算可靠性分数的示意图。

如图1所示，在步骤S102中，确定中间语E的每个词语P相对于源语言A的特定属性（即，第一特定属性）。换句话说，确定词语P在源语言A中呈现的特定属性。

第一特定属性可以包括：中间语E的每个词语P在源语言A中的语义范围（即，第一语义范围）。词语P在源语言A中的含义越多，则第一语义范围越大。例如，该第一语义范围可以是源语言A中与中间语E的每个词语P对应的词语的数量、或该数量的函数。在有些情况下，源语言A中与中间语E的词语P对应的词语的数量可能呈指数性，因此，可以取该数量的一个函数，使得得到的结果呈线性。例如，该函数可以为对数。

在步骤S104中，确定中间语E的每个词语P相对于目标语B的特定属性（即，第二特定属性）。换句话说，确定词语P在源语言A中呈现的特定属性。

第二特定属性可以包括：中间语E的每个词语P在目标语B中的语义范围（即，第二语义范围）。词语P在目标语B中的含义越多，则第二语义范围越大。例如，该第二语义范围可以是目标语B中与中间语E的每个词语P对应的词语的数量或该数量的函数。类似地，该函数可以为对数。

在步骤S106中，根据第一特定属性和第二特定属性来计算中间语E的每个词语P的可靠性分数。

在一个实施例中，可以将第一特定属性和第二特定属性作为特征，通过例如回归算法来计算中间语E的每个词语P的可靠性分数。

优选地，在一个实施例中，可以将第一特定属性和第二特定属性作为特征，通过人工神经网络（Artificial Neural Networks，简称ANN）算法来计算中间语E的每个词语P的可靠性分数。

人工神经网络实质是一种简单的数学模型，可以通过方程f:x|y来定义。人工神经网络中的网络一词指的是每个系统中的各层神经元中的神经元间的相互连接。一个典型的人工神经网络具有三层神经元。第一层神经元为输入神经元，用于接收数据并传递至第二层神经元。之后，通过数量多于第一层的第二层神经元传递至第三层输出神经元。更加复杂的人工神经网络可以包括更多的层数。每个神经元存储的参数被称为权重，权重在数据传递过程中与数据进行计算。数学上讲，一个神经网络方程f(x)就是一系列方程g_m(x)的组合。g_m(x)也可以被定义为另外一系列方程的组合。这个方程可以被表示为如图1B所示的网络结构图，结构图中的箭头描述每个变量之间的依存关系，Pr(S|P)表示中间语E的词语P到源语言A的特定词语的翻译概率，Pw(S|P)表示中间语E的词语到源语言A的特定词语的词汇化翻译概率，S(P)表包括第一语义范围和第二语义范围。尽管在图1B中同时示出了Pr(S|P)、Pw(S|P)和S(P)，但是也可以只使用S(P)而不用Pr(S|P)和Pw(S|P)。

在人工神经网络中，“非线性权重和”是一种广泛使用的函数组合，如下：

f (x) = K ((\underset{m}{Σ} w_{m} \times g_{m} (x)) + biasW \times biasV) - - - (1)

其中，f(x)表示可靠性分数，K表示活化函数，g_m(x)表示第m个特征的值，w_m表示第m个特征的权重，biasW表示偏置权重，biasV表示偏置值。在一个实施例中，使用tanh(x)做为活化函数。

这样，通过人工神经网络，可以计算出可靠性分数。但是应当理解到，可以使用其他回归方法或其他适当方法来计算可靠性分数。

在一个实施例中，中间语的可靠性可以被定义为：词语P成为将词语S翻译成相应的词语T的桥梁的可能性与语义准确性的平衡。例如，在上面的实施例中，通过使用人工神经网络做回归计算来寻求可能性与语义准确性间的平衡，并最终针对中间语E中的每个词语P计算出相应的可靠性分数。

在一个实施例中，可以使用第一语义范围和第二语义范围作为特征来计算可靠性分数。在另一个实施例中，可以使用第一语义范围、第二语义范围、中间语E的词语P到源语言A的特定词语S的翻译概率、和/或中间语E的词语到源语言A的特定词语S的词汇化翻译概率作为特征来计算可靠性分数。也就是说，在该实施例中，除了第一语义范围和第二语义范围之外，第一特定属性还可以包括中间语E的词语P到源语言A的特定词语的翻译概率、和/或中间语E的词语到源语言A的特定词语的词汇化翻译概率。可以通过任意适当的方法来计算中间语E的词语P到源语言A的特定词语的翻译概率Pr(S|P)和中间语E的词语到源语言A的特定词语的词汇化翻译概率Pw(S|P)。例如，可以通过下述式子（2）来计算中间语E的词语P到源语言A的特定词语的翻译概率Pr(S|P)：

\Pr (S | P) = \frac{N (S, P)}{Σ_{i &Element; (1, n)} N (S_{i}, P)} - - - (2)

其中，函数N(S,P)表示源语言A中的特定词语S与中间语E中的词语P的共现次数，S_i表示源语言中所有的词语。

例如，可以通过下述式子（3）来计算中间语E的词语到源语言A的特定词语的词汇化翻译概率Pw(S|P)：

Pw (S | P, Al) = Π_{i = 1}^{n} \frac{1}{| {j | (i, j) &Element; Al} |} \underset{&ForAll; (i, j) &Element; Al}{Σ} W (S_{i}, P_{j}) - - - (3)

其中，假设中间语E的词语P由m个词组成，每个词被表示为P_j，j=1，2，……，m，源语言A的特定词语S由n个词组成，每个词被表示为S_i，i=1，2，……，n。函数W(S_i,P_j)表示将词P_j翻译为词S_i的概率。在计算中，假设词语P到特定词语S的词一级的对齐关系是已知的（例如，已知词语P中的第一个词对应特定词语S的第1到第3个词），Al表示对齐。(i,j)∈Al的含义是在词语P与特定S对齐时，词P_i和词S_i是对应的。|...|表示对求个数，所以求积符号后面的分数代表与S_i对应的P中词语的个数，也就是对后面求和数值求算数平均值。求积符号规定了i的取值从1增长到n（即，从特定词语S中的第一个词到最后一个词），对于词语P中与词S_i对应的所有词，求将词语P中的词P_j翻译为S_i的概率，然后求和。用和除以词语P中的词P_j与S_i对应的个数，从而得到一个分数。将所得到的分数相乘的积做为词语P到词语S的词汇化翻译概率。

接下来，在步骤S108中，根据可靠性分数来评价中间语E的每个词语P。换句话说，

以下以源语言为中文、目标语为日文、中间语为英文为例来说明本发明的一个优点。在本发明的一个实施例中，倾向于在中间语中选择拥有最窄语义范围的词语。例如，假设我们想要将中文的“水流”翻译成日文中的相应词语。由于在英文中有不止一个可选的词语，传统方法倾向使用一个具有最可能包含语义“水流”的词语，因此，“flow”是最好的选择。然而“flow”翻译为日文“水流”的概率却非常低，最终，通过“flow”将导致错误的日文翻译。而在本发明的一个实施例中，认为中间语中的“waterflow”是最准确的，因为它覆盖中文“水流”的语义，同时还可以准确的映射到日文中的“水流”。因此，根据中间语E中的词语P在源语言A中的特定属性以及词语P在目标语B中的特定属性，可以评价词语P作为桥梁的可靠性，从而有可能选择更加可靠的中间语词语作为桥梁来进行翻译。

图2是示出根据本发明的另一个实施例的对中间语E的词语P进行评价的方法200的流程图。

如图2所示，在步骤S202中，将源语言A的特定词语S与中间语E的语库中的词语对齐以得到中间语E的至少一个第一词语。换句话说，将特定词语S与中间语E的语库中可能具有特定词语S的含义的词语对齐，为了便于描述将得到的词语称为第一词语。

在步骤S204中，从至少一个第一词语中去除不与源语言A的特定词语S对应的部分以得到至少一个第一对齐词语。换句话说，对于每个第一词语，可能只有一部分对应于特定词语S，因此需要除去那些不对应的部分，为了便于描述，将去掉不对应的部分后得到的词语称为第一对齐词语。要注意的是，此处所去除的部分是指一个第一词语中的一部分，而不是指多个第一词语中的一些第一词语。

在步骤S206中，将目标语B的语库中的词语与中间语E的语库中的词语对齐以得到中间语E的至少一个第二词语。在有些情况下，存在一些语料，该语料包含目标语B与中间语E的相关性，但是往往目标语B和中间语E并不是一一对应的，因此需要将目标语B和中间语E对齐。为了便于描述，将中间语E中能够与目标语B中的词语对齐的词语称为第二词语。

在步骤S208中，从至少一个第二词语中去除不与目标语B的语库中的词语对齐的部分以得到至少一个第二对齐词语。类似地，对于每个第二词语，可能只有一部分与目标语B中的词语有对应性，因此需要除去那些不对应的部分，为了便于描述将去掉不对应的部分后得到的词语称为第二对齐词语。要注意的是，此处所去除的部分是指一个第二词语中的一部分，而不是指多个第二词语中的一些第二词语。

在步骤S210中，将所述至少一个第一对齐词语和所述至少一个第二对齐词语的交集中的词语作为中间语E的待评价词语。交集中的词语与源语言A中的词语S对应的词语，并且与目标语B中的词语有对应性，因此，交集中的词语有作为将词语S翻译成目标语中的相应词语的可能性。

为了便于理解，以下通过一个特定例子来描述上述过程。

在该特定例子中，假设中文作为源语言A，特定词语S为“甲硫氨酸”，中间语E为英文，目标语B为日文。

在将中文的“甲硫氨酸”与英文语库中的词语对齐之后，得到第一词语“methionine Promix,NEN,Boston,MA”、“-14C]-L-methionine”等等。在该第一词语中去除不与“甲硫氨酸”对应的部分，即，去除“Promix,NEN,Boston,MA”、“-14C]-L-”等等，从而得到第一对齐词语“methionine”。此处，仅列举了与“甲硫氨酸”对应的一个词语“methionine”。但是，容易理解到，对于有些词语，例如“气体”，可能对应的英文词语不止一个，例如，“air”、“gas”等等，因此，得到的第一词语不止一个，得到的第一对齐词语也不止一个。

接下来，将日文语库中的词语与英文语库中的词语对齐，从而得到与各个日文词语对应的英文词语作为第二词语，即，相当于得到日文词语与英文词语的对应关系。类似地，在英文词语中去除不与日文词语对应的部分以得到第二对齐词语。显然，第二对齐词语的量很可能大于第一对齐词语的量。最后，将第一对齐词语和第二对齐词语的交集中的词语作为待评价的英文词语，即，将交集中的词语作为需要计算可靠性分数的词语。

在一个实施例中，在将第一对齐词语和第二对齐词语的交集中的词语作为待评价中间语E的词语的步骤（即，步骤S210）之前还可以分别判断第一对齐词语的起始部分和第二对齐词语的起始部分是否稳定。例如，分别判断第一对齐词语的起始部分和第二对齐词语的起始部分在源语言A中的语义范围是否超过第一阈值。此外，还可以分别判断第一对齐词语的起始部分和第二对齐词语的起始部分在目标语B中的语义范围是否超过第二阈值。如果第一对齐词语的起始部分和第二对齐词语的起始部分不稳定，则去除起始部分。仍以源语言为中文、中间语为英文以及目标语为日文为例，起始部分的定冠词、不定冠词、介词、副词等等在中文中的语义范围以及在日文中的语义范围往往过大，因而可以作为不稳定的词语被去除。

接下来，在步骤S212中，确定中间语E的待评价词语相对于源语言A的第一特定属性。

在步骤S214中，确定中间语E的待评价词语相对于目标语B的第二特定属性。

在步骤S216中，根据第一特定属性和第二特定属性来计算中间语E的待评价词语的可靠性分数。

在步骤S218中，根据可靠性分数来评价中间语E的待评价词语。

图3是示出根据本发明的一个实施例的机器翻译方法300的流程图。

如图3所示，在步骤S302中，可以通过上述的评价中间语E的词语P的方法100或200来获得中间语E的词语P的可靠性分数。

在步骤S304中，根据中间语E的词语P的可靠性分数、以及将源语言A的特定词语S通过中间语E的词语翻译成目标语B的候选词语的机器翻译分数，计算目标语B的候选词语的翻译分数。

例如，可以根据可靠性分数和机器翻译分数，通过CKY（Cocke-Kasami-Younger）算法来计算目标语B的候选词语的翻译分数。

例如，可以从中间语E的多个词语中选择可靠性分数大于预定可靠性分数阈值的词语作为可靠词语。假设可靠词语的个数为N。优选地，可以根据以下表达式（4）来计算目标语B的第i个候选词语的翻译分数Pi：

P_{i} = Σ_{j = 1}^{N} r_{j} * T_{i}^{j} / N - - - (4)

其中，r_j是中间语E的第j个可靠词语的可靠性分数，是将源语言A的特定词语S通过中间语E的第j个可靠词语翻译成目标语B的第i个候选词语的机器翻译分数。

其中，可以通过下式来计算机器翻译分数，（简写为T）：

T = Σ_{i = 1}^{4} W_{i} \ln (F_{i}) - - - (5)

其中，W_i为翻译权重，F_i为特征。优选地，使用4个特征，正翻译概率、反翻译概率、正词汇化翻译概率和反词汇化翻译概率。ln为对4个特征分别求自然对数。

在步骤S306中，根据翻译分数从目标语B的候选词语中选择目标语B的词语作为翻译结果。例如，可以选择目标语中翻译分数最高的词语作为翻译结果。

由于难以估计中间语的可靠性分数，在一个实施例中，使用群体智能算法来调节在上述方法中使用的参数，例如人工神经网络算法中的参数、CKY算法中的参数和预定语义范围阈值等等。

群体智能算法与遗传算法相类似。在群体智能算法中，首先执行初始化，以得到很多份系统设置，每套系统设置做为一个个体存在。每个个体所包含的信息都足以配置整个系统。每个个体都由一个评价函数来进行评价。每个个体的评价得分直接影响此个体的突变概率和繁衍概率。拥有高评价值的个体的繁衍率更高，但是突变率低。相反，拥有低评价值的个体的繁衍率低，但是突变概率高。在整个群体经过几代繁衍过后，选择一个拥有最高评价值的个体来配置整个系统。

粒子群优化算法（Particle Swarm Optimization，简称PSO）是基于群体的，根据对环境的适应度将群体中的个体移动到好的区域。然而它不对个体使用演化算子，而是将每个个体看作是D维搜索空间中的一个没有体积的微粒（即，点），在搜索空间中以一定的速度飞行，这个速度根据它本身的飞行经验和同伴的飞行经验来动态调整。第i个微粒表示为Xi=(xi1,xi2,…,xiD)，其中，维度D的大小为所有需要调整的参数的个数，每个参数对应一个特定的维度。它经历过的最好位置记为Pi=(pi1,pi2,…,piD)，也称为pbest。其中，最好的位置指的是具有最好的适应值的位置，适应值的计算是将Xi代入目标方程求解，求解的值就为适应值。在本发明中，目标方程是上述式（4），即用于计算翻译分数的公式。在群体所有微粒经历过的最好位置的索引号用符号g表示，即Pg，也称为gbest。微粒i的速度用Vi=(vi1,vi2,…,viD)表示。对每一代，它的第d维(1≤d≤D)根据如下方程进行变化：

vid=w·vid+c1·rand()·(pid-xid)+c2·Rand()·(pgd-xid) （6）

xid=xid+vid （7）

其中w为惯性权重(inertia weight)，c1和c2为加速常数（accelerationconstants），rand()和Rand()为两个在[0,1]范围里变化的随机值。

此外，微粒的速度Vi被一个最大速度Vmax所限制。如果当前对微粒的加速导致它在某维的速度vid超过该维的最大速度vmax,d，则该维的速度被限制为该维最大速度vmax,d。

对公式（4），第一部分为微粒先前行为的惯性，第二部分为“认知（cognition）”部分，表示微粒本身的思考；第三部分为“社会（social）”部分，表示微粒间的信息共享与相互合作。

“认知”部分：一个得到加强的随机行为在将来更有可能出现。这里的行为即“认知”，并假设获得正确的知识是得到加强的，这样的一个模型假定微粒被激励着去减小误差。

“社会”部分：当观察者观察到一个模型在加强某一行为时，将增加它实行该行为的几率。即微粒本身的认知将被其它微粒所模仿。

PSO算法使用如下心理学假设：在寻求一致的认知过程中，个体往往记住自身的信念，并同时考虑同事们的信念。当其察觉同事的信念较好的时候，将进行适应性地调整。

标准PSO的算法流程如下：1）初始化一群微粒（群体规模为m），包括随机的位置和速度；2）评价每个微粒的适应度；3）对每个微粒，将它的适应值和它经历过的最好位置pbest的作比较，如果较好，则将其作为当前的最好位置pbest；4）对每个微粒，将它的适应值和全局所经历最好位置gbest的作比较，如果较好，则重新设置gbest的索引号；5）根据方程(1)变化微粒的速度和位置；5）如未达到结束条件（通常为足够好的适应值或达到一个预设最大代数Gmax），回到2)。

除了使用群体智能算法之外，也可以使用其他算法，如遗传算法、人工免疫系统、随机传播搜索和最大期望算法等等。

图4是示出根据本发明的一个实施例的对中间语E的词语P进行评价的装置400的配置的框图。

如图4所示，对中间语E的词语P进行评价的装置400可以包括第一特定属性确定部412、第二特定属性确定部414、可靠性分数计算部416和评价部418。中间语E的词语P是将源语言A的特定词语S翻译成目标语B的词语的桥梁。

第一特定属性确定部412可以确定中间语E的词语相对于源语言A的第一特定属性。

例如，第一特定属性包括中间语E的词语在源语言A中的第一语义范围。第一语义范围是源语言A中与中间语E的词语对应的词语的数量或该数量的函数。该函数例如可以是对数函数。在一些实施例中，第一特定属性还可以包括中间语E的词语P到源语言A的特定词语S的翻译概率、和/或中间语E的词语P到源语言A的特定词语S的词汇化翻译概率。

第二特定属性确定部414可以确定中间语E的词语P相对于目标语B的第二特定属性。

例如，第二特定属性可以包括：中间语E的词语在目标语B中的第二语义范围。例如，第二语义范围是目标语B中与中间语E的词语对应的词语的数量或该数量的函数。该函数例如可以是对数函数。

可靠性分数计算部416可以根据第一特定属性和第二特定属性来计算中间语E的词语P的可靠性分数。

评价部418可以根据可靠性分数来评价中间语E的词语P。

图5是示出根据本发明的另一个实施例的对中间语E的词语P进行评价的装置400’的配置的框图。

如图5所示，装置400’包括第一对齐部402、第一去除部404、第二对齐部406、第二去除部408和交集确定部410、以及与参照图4描述的那些部件相同的第一特定属性确定部412、第二特定属性确定部414、可靠性分数计算部416和评价部418。

第一对齐部402可以将源语言A的特定词语S与中间语E的语库中的词语对齐以得到中间语E的第一词语。

第一去除部404可以从第一词语中去除不与源语言A的特定词语S对应的部分以得到第一对齐词语。

第二对齐部406可以将目标语B的语库中的词语与中间语E的语库中的词语对齐以得到中间语E的第二词语。

第二去除部408可以从第二词语中去除不与目标语B的语库中的词语对齐的部分以得到第二对齐词语。

交集确定部410可以将第一对齐词语和第二对齐词语的交集中的词语作为中间语E的待评价词语。

第一特定属性确定部412可以确定中间语E的待评价词语相对于源语言A的第一特定属性。

第二特定属性确定部414可以确定中间语E的待评价词语相对于目标语B的第二特定属性。

可靠性分数计算部416可以根据第一特定属性和第二特定属性来计算中间语E的待评价词语的可靠性分数。

评价部418可以根据可靠性分数来评价中间语E的待评价词语。

图6是示出根据本发明又一个实施例的对中间语E的词语P进行评价的装置400”的配置的框图。

如图6所示的装置400”与如图5所示的装置400’的区别在于，装置400”还包括第三去除部409。

第三去除部409可以分别判断第一对齐词语的起始部分和第二对齐词语的起始部分是否稳定，并且如果第一对齐词语的起始部分和第二对齐词语的起始部分不稳定，则去除这些起始部分。

例如，第三去除部409可以分别判断第一对齐词语的起始部分和第二对齐词语的起始部分在源语言A中的语义范围是否超过第一阈值，如果是，则去除该起始部分。此外，还可以分别判断第一对齐词语的起始部分和第二对齐词语的起始部分在目标语B中的语义范围是否超过第二阈值，如果是，则去除该起始部分。仍以源语言为中文、中间语为英文以及目标语为日文为例，起始部分的定冠词、不定冠词、介词、副词等等在中文中的语义范围以及在日文中的语义范围往往过大，因而可以作为不稳定的词语被去除。

图7是示出根据本发明的一个实施例的机器翻译设备700的配置的框图。

如图7所示，机器翻译设备700包括对中间语E的词语进行评价的装置712、翻译分数计算部714和翻译结果选择部716。

对中间语的词语进行评价的装置712例如可以是参照图4描述的装置400、参照图5描述的装置400’或参照图6描述的装置400”。

对中间语E的词语进行评价的装置712可以获得中间语E的词语P的可靠性分数。

翻译分数计算部714可以根据中间语E的词语P的可靠性分数、以及将源语言A的特定词语S通过中间语E的词语P翻译成目标语B的候选词语的机器翻译分数，计算目标语B的候选词语的翻译分数。例如，翻译分数计算部714可以根据可靠性分数和机器翻译分数，通过CKY算法来计算目标语B的候选词语的翻译分数。

例如，可以从中间语E的多个词语中选择可靠性分数大于预定可靠性分数阈值的词语作为可靠词语。

优选地，可以根据上述表达式（4）来计算目标语B的第i个候选词语的翻译分数Pi。

翻译结果选择部716可以根据翻译分数计算部714计算出的翻译分数从目标语B的候选词语中选择目标语B的词语作为翻译结果。

在本发明的实施例中，通过建模来分析中间语的歧义，并优先选择中间语中没有歧义或歧义很小的词语作为桥梁。在本发明的实施例中，可以通过中间语E中的一个词语P将源语言A中的特定词语S翻译成目标词语中的词语，也可以通过中间语E的多个词语P将源语言A中的特定词语S翻译成目标词语中的词语。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的装置和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述装置或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

在通过软件和/或固件实现本发明的实施例的情况下，从存储介质或网络向具有专用硬件结构的计算机，例如图8所示的通用计算机800安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等等。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM803中，也根据需要存储当CPU801执行各种处理等等时所需的数据。CPU801、ROM802和RAM803经由总线804彼此链路。输入/输出接口805也链路到总线804。

下述部件链路到输入/输出接口805：输入部分806（包括键盘、鼠标等等）、输出部分807（包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等）、存储部分808（包括硬盘等）、通信部分809（包括网络接口卡比如LAN卡、调制解调器等）。通信部分809经由网络比如因特网执行通信处理。根据需要，驱动器810也可链路到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘（包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM802、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时，可执行上述根据本发明实施例的装置。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本领域的普通技术人员应理解，在此所例举的是示例性的，本发明并不局限于此。

在本说明书中，“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开，以清楚地描述本发明。因此，不应将其视为具有任何限定性的含义。

作为一个例子，上述装置的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合，并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。

作为一个例子，在通过软件或固件实现的情况下，可以从存储介质或网络向具有专用硬件结构的计算机（例如图8所示的通用计算机800）安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用，与其他实施方式中的特征相组合，或替代其他实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。

此外，本发明的装置不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的装置的执行顺序不对本发明的技术范围构成限制。

本发明及其优点，但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且，本发明的范围不仅限于说明书所描述的过程、设备、手段、装置和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解，根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、装置或者步骤。因此，所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、装置或者步骤。

基于以上的说明，可知至少公开了以下技术方案：

附记1.一种对中间语的词语进行评价的方法，包括：

确定所述中间语的词语相对于源语言的第一特定属性；

确定所述中间语的词语相对于目标语的第二特定属性；

根据所述第一特定属性和所述第二特定属性来计算所述中间语的词语的可靠性分数；以及

根据所述可靠性分数来评价所述中间语的词语，

其中，所述中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁。

附记2.根据附记1所述的方法，其中，

所述第一特定属性包括：所述中间语的词语在所述源语言中的第一语义范围；以及

所述第二特定属性包括：所述中间语的词语在所述目标语中的第二语义范围。

附记3.根据附记2所述的方法，其中，

所述第一语义范围是所述源语言中与所述中间语的词语对应的词语的数量或该数量的函数，以及

所述第二语义范围是所述目标语中与所述中间语的词语对应的词语的数量或该数量的函数。

附记4.根据附记1所述的方法，其中，所述第一特定属性还包括：

所述中间语的词语到所述源语言的特定词语的翻译概率；和/或

所述中间语的词语到所述源语言的特定词语的词汇化翻译概率。

附记5.根据附记1所述的方法，其中，在确定所述中间语的词语相对于源语言的第一特定属性的步骤之前，所述方法还包括：

将所述源语言的特定词语与所述中间语的语库中的词语对齐以得到所述中间语的第一词语；

从所述第一词语中去除不与所述源语言的特定词语对应的部分以得到第一对齐词语；

将所述目标语的语库中的词语与所述中间语的语库中的词语对齐以得到所述中间语的第二词语；

从所述第二词语中去除不与所述目标语的语库中的词语对齐的部分以得到第二对齐词语；以及

将所述第一对齐词语和所述第二对齐词语的交集中的词语作为所述中间语的待评价的词语。

附记6.根据附记5所述的方法，其中，在将所述第一对齐词语和所述第二对齐词语的交集中的词语作为所述中间语的待评价的词语的步骤之前还包括：

分别判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分是否稳定，

如果所述第一对齐词语的起始部分和所述第二对齐词语的起始部分不稳定，则去除所述起始部分。

附记7.根据附记6所述的方法，其中，判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分是否稳定的步骤包括：

分别判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分在所述源语言中的语义范围是否超过第一阈值；和/或

分别判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分在所述目标语中的语义范围是否超过第二阈值。

附记8.根据附记1所述的方法，其中，

将所述第一特定属性和所述第二特定属性作为特征，通过回归算法计算所述中间语的词语的可靠性分数。

附记9.根据附记8所述的方法，其中，所述回归算法为人工神经网络算法。

附记10.根据附记9所述的方法，其中，根据以下表达式来计算所述可靠性分数f(x)：

f (x) = K ((\underset{m}{Σ} w_{m} \times g_{m} (x)) + biasW \times biasV)

其中，K表示活化函数，g_m(x)表示第m个特征的值，w_m表示第m个特征的权重，biasW表示偏置权重，biasV表示偏置值。

附记11.一种机器翻译方法，包括：

根据附记1至10中任一项所述的方法获得所述中间语的词语的可靠性分数；

根据所述中间语的词语的可靠性分数、以及将源语言的特定词语通过所述中间语的词语翻译成所述目标语的候选词语的机器翻译分数，计算所述目标语的所述候选词语的翻译分数；以及

根据所述翻译分数从所述目标语的所述候选词语中选择所述目标语的词语作为翻译结果。

附记12.根据附记11所述的方法，还包括：

根据所述可靠性分数和所述机器翻译分数，通过CKY算法来计算所述目标语的所述候选词语的翻译分数。

附记13.根据附记11所述的方法，还包括：

从所述中间语的多个词语中选择所述可靠性分数大于预定可靠性分数阈值的词语作为可靠词语。

附记14.根据附记13所述的方法，其中，根据以下表达式来计算所述目标语的第i个候选词语的翻译分数P_i：

P_{i} = Σ_{j = 1}^{N} r_{j} * T_{i}^{j} / N

其中，r_j是所述中间语的第j个可靠词语的可靠性分数，是将所述源语言的特定词语通过所述中间语的第j个可靠词语翻译成所述目标语的第i个候选词语的机器翻译分数。

附记15.一种对中间语的词语进行评价的装置，包括：

第一特定属性确定部，用于确定所述中间语的词语相对于源语言的第一特定属性；

第二特定属性确定部，用于确定所述中间语的词语相对于目标语的第二特定属性；

可靠性分数计算部，用于根据所述第一特定属性和所述第二特定属性来计算所述中间语的词语的可靠性分数；以及

评价部，用于根据所述可靠性分数来评价所述中间语的词语，

附记16.根据附记15所述的装置，其中，

附记17.根据附记16所述的装置，其中，

附记18.根据附记15至17中任一项所述的装置，其中，所述第一特定属性还包括：

附记19.根据附记15至17中任一项所述的装置，还包括：

第一对齐部，用于将所述源语言的特定词语与所述中间语的语库中的词语对齐以得到所述中间语的第一词语；

第一去除部，用于从所述第一词语中去除不与所述源语言的特定词语对应的部分以得到第一对齐词语；

第二对齐部，用于将所述目标语的语库中的词语与所述中间语的语库中的词语对齐以得到所述中间语的第二词语；

第二去除部，用于从所述第二词语中去除不与所述目标语的语库中的词语对齐的部分以得到第二对齐词语；以及

交集确定部，用于将所述第一对齐词语和所述第二对齐词语的交集中的词语作为待评价所述中间语的词语。

附记20.一种机器翻译设备，包括：

根据附记15至19中任一项所述的装置，用于获得所述中间语的词语的可靠性分数；

翻译分数计算部，用于根据所述中间语的词语的可靠性分数、以及将源语言的特定词语通过所述中间语的词语翻译成所述目标语的候选词语的机器翻译分数，计算所述目标语的所述候选词语的翻译分数；以及

翻译结果选择部，用于根据所述翻译分数从所述目标语的所述候选词语中选择所述目标语的词语作为翻译结果。

Claims

1.一种对中间语的词语进行评价的方法，包括：

确定所述中间语的词语相对于源语言的第一特定属性；

确定所述中间语的词语相对于目标语的第二特定属性；

根据所述可靠性分数来评价所述中间语的词语，

2.根据权利要求1所述的方法，其中，

3.根据权利要求2所述的方法，其中，

4.根据权利要求1所述的方法，其中，所述第一特定属性还包括：

5.根据权利要求1所述的方法，其中，在确定所述中间语的词语相对于源语言的第一特定属性的步骤之前，所述方法还包括：

6.根据权利要求5所述的方法，其中，在将所述第一对齐词语和所述第二对齐词语的交集中的词语作为所述中间语的待评价的词语的步骤之前还包括：

7.根据权利要求6所述的方法，其中，判断所述第一对齐词语的起始部分和所述第二对齐词语的起始部分是否稳定的步骤包括：

8.一种机器翻译方法，包括：

根据权利要求1至7中任一项所述的方法获得所述中间语的词语的可靠性分数；

9.一种对中间语的词语进行评价的装置，包括：

10.一种机器翻译设备，包括：

根据权利要求9所述的装置，用于获得所述中间语的词语的可靠性分数；