CN101989260B

CN101989260B - 统计机器解码特征权重的训练方法和解码方法

Info

Publication number: CN101989260B
Application number: CN2009101648082A
Authority: CN
Inventors: 刘洋; 米海涛; 冯洋; 刘群
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2009-08-01
Filing date: 2009-08-01
Publication date: 2012-08-22
Anticipated expiration: 2029-08-01
Also published as: CN101989260A

Abstract

本发明提供一种统计机器解码方法，包括下列步骤：1)对于测试集的每个源语言句子，由单解码器生成测试集句子的翻译超图；2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图；3)在所述测试集句子的共享压缩翻译超图上，进行联合解码，从所述联合解码所获得的多个最优译文中选择最终译文。根据上述方法进行统计机器解码，缓解了单解码器和系统融合的局限性，并且提高了译文翻译的准确性。

Description

统计机器解码特征权重的训练方法和解码方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及文本翻译技术领域。

背景技术

在文本翻译领域，鉴于基于单机器翻译模型的解码器(单解码器)的表达能力的局限性，系统融合被用来将多个单解码器的译文融合起来形成新的翻译，以此来提高翻译的质量。近年来很多实验已经证明了系统融合在提高翻译质量方面的有效性，但是，一方面，系统融合只对单解码器最终的译文进行操作，没有利用单解码器在解码过程中产生的有用信息，所以导致系统融合采用的特征过于简单；另一方面，在搜索产生译文的时候，由于每个译文可能由多个推导产生，而系统融合只用产生该译文的最大推导的分数来近似代表该译文的分数，导致了译文的分数计算不准确。综上，现有的翻译方法存在翻译精度差的缺陷。

发明内容

为解决上述技术问题，本发明提供一种统计机器解码特征权重的训练方法和解码方法，以缓解单解码器和系统融合的局限性，并且提高译文翻译的准确性。

为实现上述目的，根据本发明的一个方面，提供了一种统计机器解码方法，包括下列步骤：

1)对于测试集的每个源语言句子，由单解码器生成测试集句子的翻译超图；

2)将所述测试集句子的翻译超图压缩为测试集句子的共享压缩翻译超图；

3)在所述测试集句子的共享压缩翻译超图上，进行联合解码，从所述联合解码所获得的多个最优译文中选择最终译文。

在该解码方法中，所述步骤2)进一步包括：

将所述测试集句子的翻译超图中译文相同且对应于相同源语言端的结点压缩成共享结点；

保留所述测试集句子的翻译超图中其它结点和所有超边。

在该解码方法中，所述步骤3)中所述联合解码进一步包括：

在所述测试集句子的共享压缩翻译超图上搜索到达包含所述源语言句子的译文的结点的路径；

计算所述路径对应的译文的分数；

根据所述译文的分数选择所述多个最优的译文。

在该解码方法中，搜索路径的步骤采用译文级的联合的策略。

在该解码方法中，搜索路径的步骤采用推导级的联合的策略。

在该解码方法中，所述搜索路径的步骤进一步包括：

在所述测试集句子的共享压缩翻译超图上，将不同单解码器用到的规则进行重组，由此产生新的路径；

搜索到达包含所述源语言句子的译文的结点的所有路径。

根据本发明的另一方面，还提供了一种统计机器解码特征权重的训练方法，包括下列步骤：

1)对于开发集的每个源语言句子，由单解码器生成开发集句子的翻译超图；

2)将所述开发集句子的翻译超图压缩为开发集句子的共享压缩翻译超图；

3)在所述开发集句子的共享压缩翻译超图上，对所述每个源语言句子进行联合解码获得多个译文，对所述多个译文进行特征权重训练；

4)重复执行所述步骤3)直至收敛，生成期望的特征权重。

根据本发明的又一方面，提供了另外一种根据上述的训练方法所生成的期望的特征权重的统计机器解码方法，包括下列步骤：

3)在所述测试集句子的共享压缩翻译超图上，根据所述期望的特征权重进行联合解码，从所述联合解码所获得的多个最优译文中选择最终译文。

本发明将多个单解码器在解码过程中产生的信息融合到一个共享压缩翻译超图中，通过搜索该共享压缩翻译超图中的最优路径来搜索最优的翻译结果，充分利用了每个单解码器解码过程中的信息，从而缓解了单解码器的表达局限性，提高了翻译的精度。本发明用最大翻译(N-best推导)计算译文的分数，即用产生每个译文的最大翻译的分数之和作为该译文的分数，避免了只用最大推导对精度造成的损失，对分数的计算更为准确，从而进一步保证了翻译质量。

附图说明

图1是根据本发明一个优选具体实施例的统计机器解码方法的流程图；

图2a是根据本发明一个具体实施例的翻译超图；

图2b是根据本发明一个具体实施例的另一个翻译超图；

图2c是根据本发明一个具体实施例的共享压缩翻译超图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明一个实施例的统计机器解码方法进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1示出了根据本发明一个优选具体实施例的统计机器解码方法的流程图，如图所示，该方法包括以下步骤：

步骤101)、对于开发集的每个源语言句子，利用单解码器生成翻译超图。具体操作为：先将源语言句子中每个短语的译文表示成结点，然后再将两个短语合并成更长的短语，并把这两个短语对应的译文也合并，同时在翻译超图中增加对应于新的译文的结点，并增加一条超边，该超边头结点分别是之前的两个短语对应的结点，尾结点为新产生的译文对应的结点；该过程反复进行，直至覆盖整个源语言句子。

图2(a)是根据本发明一个具体实施例的单解码器的翻译超图，图2(b)是另一个单解码器的翻译超图。其均对应一个共同的源语言句子：₀fabiao ₁ yanjiang ₂。

对于上述附图，以图2(a)中的部分结点为例进行说明。图2(a)中结点<give，[0，1]>表示源语言端0和1之间的短语“fabaio”对应的译文，结点<“give talks”，[0，2]>表示源语言端0和2之间的短语“fabiao yanjiang”对应的译文。同理，结点<“give a talk”，[0，2]>代表了“fabiao yanjiang”对应的另外一个译文。结点<“give a talk”，[0，2]>是由结点<give，[0，1]>和结点<“talk”，[1，2]>对应的译文合并得到，在翻译超图里用一条相应的超边来表示。

步骤102)、对于开发集的每个源语言句子，将其由所有单解码器生成的翻译超图压缩成共享压缩翻译超图，图2(c)示出了根据图2(a)和图2(b)所示的两个单解码器的共享压缩翻译超图。该压缩过程如下：将译文相同且对应于相同源语言端的结点压缩为一个共享结点；保留其它结点和所有超边。在图2(c)中，实线表示图2(a)所示的单解码器的翻译超图所包含的超边，虚线表示图2(b)所示的单解码器的翻译超图所包含的超边。两个翻译超图都包含的结点有：<give，[0，1]>，表示两个模型都将“fabiao”翻译成“give”；<“give a talk”，[0，2]>，表示两个模型都将“fabiao yanjiang”翻译成“give a talk”。图2(c)中分别将这些结点压缩成相应的共享结点。

上述只是共享压缩翻译超图的一种生成方式，还可以采用其他方式生成共享压缩翻译超图。另外一种生成方式的具体过程为：对于每个源语言短语，每个单解码器先生成多个译文，每个译文在共享压缩翻译超图中对应一个结点，满足如下条件的结点进行压缩：译文相同且对应的源语言端相同，如此反复直至覆盖整个源语言端。

上述两种生成方式的区别在于：前者先对每个单解码器产生所有源语言短语的译文再进行合并，后者先对每个源语言短语产生所有单解码器的译文并立即进行合并。

步骤103)、对于开发集的每个源语言句子，在其共享压缩翻译超图上进行特征权重的训练，以生成期望的特征权重。

首先，给每个特征的特征权重赋个初值，通常情况下初值都设为1，根据该初值对开发集的每个源语言句子进行联合解码，得到每个源语言句子的前N个最优的译文，其中N的值可以根据实际需要来设定；然后，对开发集的所有源语言句子的前N个最优的译文，利用诸如鲍威尔算法的训练算法进行特征权重的训练，生成新的特征权重，再次利用新的特征权重进行联合解码；循环执行前一步骤，直至收敛，最后所生成的特征权重即为期望的特征权重。

其中，联合解码的过程为：在共享压缩翻译超图中从初始点<S>出发，搜索到达包含整个源语言句子的译文的结点的路径，根据当前特征权重计算路径对应的译文的分数，根据该分数选择N个最优的译文。其中，每条路径给出了产生该路径的译文所用到的一个规则，也就是产生该译文的推导。

在联合解码的搜索路径过程中，根据本发明的具体实施例，可以采用译文级的联合或推导级的联合。下面详细描述采用上述两种策略的搜索路径过程：

译文级的联合并不产生新的译文，其解码过程是：从共享压缩翻译超图的开始结点<S>出发，根据已有的超边来搜索最优路径，直至得到覆盖整个源语言句子的最优译文。在这个过程不产生新的超边，只对现有共享压缩翻译超图进行搜索。如在图2(c)中，从结点<S>到结点<“give a talk”，[0，2]>的路径给出了将源语言句子“fabiao yanjiang”翻译成“give a talk”的所用到的规则；同样也可以将“fabiao yanjiang”翻译成“give talks”和“makea speech”，所用到的规则也可以分别通过结点<S>到结点<“give talks”，[0，2]>的路径和<S>到<“make a speech”，[0，2]>的路径来获得。上面给出了“fabiao yanjiang”的三种译文，根据其对应的路径的分数来从中选取最终的翻译结果。

推导级的联合可以将每条路径所给出的规则进行重组，由此在共享压缩翻译超图产生新的路径，进而对于源语言句子产生新的译文，然后从共享压缩翻译超图的开始结点<S>出发，根据超边来搜索最优路径，直至得到覆盖整个源语言句子的译文。关于新路径的产生如以下示例所示：

IP(x₁：VV，x₂：NN)→x₁ x₂

X→<fabiao，give>

X→<yanjiang，a talk>

所示的示例为“fabiao yanjiang”的整个推导过程，第一条规则取自树到串模型，第二条和第三条规则取自层次短语模型。这映射到共享压缩翻译超图中就是不仅可以利用现有的超边所代表的规则，而且可以添加新的超边和结点。添加的准则是：对于每一条现有的超边，只要保证添加的超边和该现有超边的所有尾结点对应的源端的短语相同即可，而新添加的超边的头结点对应的译文则由尾结点对应的译文组合而成，如果超图中不存在对应的结点，则还需要添加相应的结点。如图2(c)中所示，结点<“talk”，[1，2]>和结点<“speech”，[1，2]>对应的源端短语都是“yanjiang”，并且已经存在一条连接结点<give，[0，1]>和结点<“talk”，[1，2]>的超边，则可以添加一条新的超边，该超边的尾结点是<give，[0，1]>和<“speech”，[1，2]>，头结点是<give a speech，[0，2]>，由于超图中不存在该结点，同时需要添加结点<give a speech，[0，2]>。

对于联合解码的计算路径对应的译文的分数步骤，现有技术中对于每个译文e，采用最大推导(1-best)根据如下公式进行评分：

\hat{e} \approx \underset{e}{\arg \max} {\exp \underset{m}{Σ} λ_{m} h_{m} (e, f)} \approx \underset{e}{\arg \max} {\underset{m}{Σ} λ_{m} h_{m} (e, f)}

其中，f表示源语言句子，h_m(e，f)表示对应于最大推导的第m个特征，λ_m表示对应于第m个特征的权重。

在现有技术的系统融合中，只对单解码器最终的译文进行操作。以对层次短语模型和树到串模型进行系统融合为例，其没办法获得层次短语采用了哪些规则以及这些规则的概率，也没办法获得树到串模型采用了哪些规则以及这些规则的概率，所以其无法采用以上两个特征，这就导致了系统融合只能采用所有单解码器共有的特征，如译文的长度，语言模型概率等，这些特征的表达能力较差，从而评分的结果也并不理想。

而本发明的具体实施例中采用最大翻译(即N-best推导)根据如下公式对译文进行评分：

\hat{e} \approx \underset{e}{\arg \max} {\underset{d &Element; Δ (e, f)}{Σ} \exp \underset{m}{Σ} λ_{m} h_{m} (d, e, f)}

在以上公式中，d表示产生译文e的推导，f表示源语言句子，由于采用所有的推导为NP完全问题，所以这里采用N-best推导，h_m(d，e，f)表示对应于推导d的第m个特征，λ_m表示对应于第m个特征的权重，d∈Δ(e，f)表示产生译文e的一个推导，每个译文的分数为所有N个推导的分数之和。最大翻译(N-best推导)比最大推导(1-best)更逼近分数的真实表示，所以计算得到的分数更为准确。

对于联合解码，虽然并不采用单解码器的分数，但是可以采用单解码器的特征。以对层次短语模型和树到串模型进行联合解码为例，可以分别采用以下与单解码器相关的特征：层次短语模型的规则的概率，树到串的翻译规则的概率。

步骤104)、与步骤101)和步骤102)类似，对于测试集的待翻译句子，也利用单解码器生成翻译超图，并压缩为共享压缩翻译超图；并且，利用步骤103)所生成的期望的特征权重，进行联合解码，并从所获得的N个最优的译文中选择一个最终译文，则最终译文即为待翻译句子的翻译结果。

本领域普通技术人员可以理解，在上述步骤104)中可以利用另外的方法所生成的期望的特征权重，则步骤104)本身也能够构成一个完整的解码方法，且其也能够实现本发明的基本目的。

最后所应说明的是，以上仅用以说明本发明理论原理和技术方案而非限制。本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种统计机器解码方法，包括下列步骤：

3)在所述测试集句子的共享压缩翻译超图上搜索到达包含所述源语言句子的译文的结点的路径，计算所述路径对应的译文的分数，并根据所述译文的分数选择多个最优的译文；

4)从经步骤3)所获得的多个最优的译文中选择最终译文。

2.根据权利要求1所述的解码方法，其特征在于，所述步骤2)进一步包括：

保留所述测试集句子的翻译超图中其它结点和所有超边。

3.根据权利要求1或2所述的解码方法，其特征在于，搜索路径的步骤采用译文级的联合的策略。

4.根据权利要求1或2所述的解码方法，其特征在于，搜索路径的步骤采用推导级的联合的策略。

5.根据权利要求4所述的解码方法，其特征在于，所述搜索路径的步骤进一步包括：

搜索到达包含所述源语言句子的译文的结点的所有路径。

6.一种统计机器解码特征权重的训练方法，包括下列步骤：

3)在所述开发集句子的共享压缩翻译超图上搜索到达包含所述源语言句子的译文的结点的路径，根据当前特征权重计算所述路径对应的译文的分数，根据所述译文的分数选择多个最优的译文，以及对所述多个译文进行特征权重训练；

4)重复执行所述步骤3)直至收敛，生成期望的特征权重。

7.一种根据权利要求6所述的训练方法所生成的期望的特征权重的统计机器解码方法，包括下列步骤：

3)在所述测试集句子的共享压缩翻译超图上搜索到达包含所述源语言句子的译文的结点的路径，根据所述期望的特征权重计算所述路径对应的译文的分数，并根据所述译文的分数选择多个最优的译文；

4)从经步骤3)所获得的多个最优译文中选择最终译文。