CN104572636A

CN104572636A - 一种调序模型建立方法、装置及翻译方法

Info

Publication number: CN104572636A
Application number: CN201510057964.4A
Authority: CN
Inventors: 熊德意; 王星; 张民
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-02-04
Filing date: 2015-02-04
Publication date: 2015-04-29

Abstract

本申请公开了一种调序模型建立方法、装置及翻译方法，其中调序模型建立过程为：对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档，对每份文档进行文档主题估计，确定对应的主题信息，从训练语料中抽取含主题信息的语块，作为调序实例，并参考预置规则模板，从调序实例中抽取至少包含文档主题信息的调序特征，利用最大熵训练工具来训练调序特征，得到调序模型。申请所获取的调序模型融合了文档主题信息，在对译文进行调序时，能够很好的适应不同文档主题对译文顺序的影响，提高了翻译译文的质量。

Description

一种调序模型建立方法、装置及翻译方法

技术领域

本申请涉及统计机器翻译技术领域，更具体地说，涉及一种调序模型建立方法、装置及翻译方法。

背景技术

随着计算能力的提升和语言资源的不断丰富，统计机器翻译逐渐成为自然语言处理领域最重要的研究热点。在机器翻译中，由于源语言和目标语言词序的不一致，导致在对源语言翻译为目标语言的过程中，需要对目标语言进行重排序，这就是统计机器翻译中的调序问题。

在经典的基于短语模型统计机器翻译中，首先根据一个最优的划分，将源语言句子划分成为几个短语。然后，根据学习得到的双语短语表将划分出来的短语进行词汇化翻译，相应的，源语言短语在词汇化翻译后生成目标语言短语。最后，根据学习得到的调序模型，对目标语言短语进行重排序，得到最终的翻译结果。但是，不同的文档主题中对于相同的源语言句子有着不同的调序现象。比如，在翻译英语“I go first”时，普通话中更偏向于翻译为“我先走”，然而在粤语表达中更喜欢翻译为“我走先”。在仅仅使用词汇化信息和语法信息的情况下，现有的调序模型很难将上述调序现象进行捕捉，从而造成了错误的调序。

发明内容

有鉴于此，本申请提供了一种调序模型建立方法、装置及翻译方法，用于解决现有调序模型无法融合文档主题信息，从而在翻译时容易产生调序错误的问题。

为了实现上述目的，现提出的方案如下：

一种调序模型建立方法，包括：

对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；

对每份所述文档进行文档主题估计，获得每份文档的主题信息；

从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；

参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；

利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。

优选地，在所述对训练语料按照文档标记进行切分之前，还包括：

对所述训练语料进行停用词和低频词过滤。

优选地，所述规则模板为：

抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边界词、所述调序实例所属文档的主题信息，所述主题信息包括所述调序实例所属文档的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。

优选地，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++进行主题估计；

所述最大熵训练工具为Maxent工具。

一种调序模型建立装置，包括：

文档切分单元，用于对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；

主题估计单元，用于对每份所述文档进行文档主题估计，获得每份文档的主题信息；

调序实例抽取单元，用于从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；

调序特征抽取单元，用于参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；

调序特征训练单元，用于利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。

优选地，还包括：

词过滤单元，用于在对训练语料按照文档标记进行切分之前，对所述训练语料进行停用词和低频词过滤。

优选地，所述规则模板为：

所述最大熵训练工具为Maxent工具。

一种翻译方法，基于上述所述的调序模型建立装置，该方法包括：

对待翻译文本按照文档标记进行切分，并以文档为单位组织成若干份待翻译文档；

利用所述主题估计单元对每份所述待翻译文档进行文档主题估计，获得每份待翻译文档的主题信息；

按照所述预置的规则模板，提取所述待翻译文档的调序特征；

利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计。

优选地，所述利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计，具体为：

使用最大熵公式估计两个相邻调序特征A¹和A²的顺序或者逆序概率：

P {o | C (A^{1}, A^{2})} = \frac{\exp (\underset{i}{Σ} θ_{i} f_{i} (o, C (A^{1}, A^{2})))}{\underset{o^{'}}{Σ} \exp (\underset{i}{Σ} θ_{i} f_{i} (o^{'}, C (A^{1}, A^{2})))}

其中，C(A¹,A²)表示调序特征A¹和调序特征A²的属性，f_i为二元化特征，θ_i为相应的特征权重。

从上述的技术方案可以看出，本申请实施例提供的调序模型建立方法，对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档，对每份文档进行文档主题估计，确定对应的主题信息，从训练语料中抽取含主题信息的语块，作为调序实例，并参考预置规则模板，从调序实例中抽取至少包含文档主题信息的调序特征，利用最大熵训练工具来训练调序特征，得到调序模型。本申请所获取的调序模型融合了文档主题信息，在对译文进行调序时，能够很好的适应不同文档主题对译文顺序的影响，提高了翻译译文的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种调序模型建立方法流程图；

图2为本申请实施例公开的另一种调序模型建立方法流程图；

图3为本申请实施例公开的一种调序实例的主题信息示意图；

图4为本申请实施例公开的一种调序模型建立装置结构示意图；

图5为本申请实施例公开的另一种调序模型建立装置结构示意图；

图6为本申请实施例公开的一种翻译方法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，图1为本申请实施例公开的一种调序模型建立方法流程图。

如图1所示，该方法包括：

步骤S100、对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；

具体地，训练语料带有文档标记，文档标记标注了训练语料所属的文档。按照文档标记对训练语料进行分类，并以文档为单位组织成不同的文档。

需要解释的是，训练语料由双语语料组成，分别为源端和目标端，目标端即对源端翻译之后所得。

步骤S110、对每份所述文档进行文档主题估计，获得每份文档的主题信息；

文档主题信息能够帮助人们更好的理解文档的语义。文档间是否有关联不仅仅取决于文档字母的重复部分，更取决于字面后的语义关联。主题模型是对文字隐含主题进行建模的方法，借助于主题模型，能够对文档的主题信息进行估计。

具体地，可以选用开源的GibbsLDA++工具对文档的主题信息进行估计。主题信息一般为主体分布中概率最大的主题序号，例如文档的主题分布为(0.1，0.2，0.3，0.2，0.1，0.1)共计六个主题。由于第三个主题的概率最大，因此主题信息选取第三个主题。

步骤S120、从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；

步骤S130、参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；

我们预先设置了规则模板，规定了如何从调序实例中抽取出调序特征。并且，规则模板至少包括调序实例所属文档的主题信息，也即抽取出的调序特征必然包括调序实例所属文档的文档主题信息。

步骤S140、利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。

具体地，在确定了调序特征之后，可以选用最大熵训练工具Maxent来训练调序特征，获取训练所得的调序模型。调序模型能够在给定主题信息的条件下对调序进行更准确地预测，从而更好的提升翻译译文的质量。

本申请实施例提供的调序模型建立方法，对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档，对每份文档进行文档主题估计，确定对应的主题信息，从训练语料中抽取含主题信息的语块，作为调序实例，并参考预置规则模板，从调序实例中抽取至少包含文档主题信息的调序特征，利用最大熵训练工具来训练调序特征，得到调序模型。本申请所获取的调序模型融合了文档主题信息，在对译文进行调序时，能够很好的适应不同文档主题对译文顺序的影响，提高了翻译译文的质量。

参见图2，在对训练语料按照文档标记进行切分之前，本申请的方法还可以进一步包括：

步骤S200、对所述训练语料进行停用词和低频词过滤。

其中，停用词可以从网络资源中进行获取。对训练语料中的词语进行次数统计，对于出现次数小于阈值的词语标记为低频词。检测训练语料中所有的句子，如果含有停用词或低频词，则删除停用词或低频词。

进一步，在利用规则模板进行调序特征抽取时，可以设置规则模板为：抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边界词、所述调序实例所属文档的主题信息，所述主题信息包括所述调序实例所属文档的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。

以图3所示的具体实例为例：

调序实例中存在源端：“关于会议的情况”，目标端为：“matters relatingto the meeting”。主题分布为(0.1，0.2，0.3，0.2，0.1，0.1)，则选取调序实例所属文档的文档级别主题为主题分布概率最大的主题，即主题3。源端短语词级别主题为(-1，3，-1，4)，其中-1代表该词为功能词，在主体估计过程不对该类词赋予主题。对调序实例的调序特征抽取分别为：源端的左边界词＝关于，源端的右边界词＝情况，目标端的左边界词＝matters，目标端的右边界词＝meeting，调序实例所属文档的文档级别主题＝主题3，源端最左边实词的词级别主题＝3，源端最左边实词的词级别主题＝4。

下面对本申请实施例提供的调序模型建立装置进行描述，下文描述的调序模型建立装置与上文描述的调序模型建立方法可相互对应参照。

如图4所示，该装置包括：

文档切分单元40，用于对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档；

主题估计单元41，用于对每份所述文档进行文档主题估计，获得每份文档的主题信息；

调序实例抽取单元42，用于从所述训练语料中抽取含有所述主题信息的语块，确定为调序实例；

调序特征抽取单元43，用于参考预置的规则模板，从所述调序实例中抽取调序特征，所述规则模板至少包括调序实例所属文档的主题信息；

调序特征训练单元44，用于利用开源的最大熵训练工具，对所述调序特征进行训练，获得调序模型。

本申请实施例提供的调序模型建立装置，对训练语料按照文档标记进行切分，并以文档为单位组织成若干份文档，对每份文档进行文档主题估计，确定对应的主题信息，从训练语料中抽取含主题信息的语块，作为调序实例，并参考预置规则模板，从调序实例中抽取至少包含文档主题信息的调序特征，利用最大熵训练工具来训练调序特征，得到调序模型。本申请所获取的调序模型融合了文档主题信息，在对译文进行调序时，能够很好的适应不同文档主题对译文顺序的影响，提高了翻译译文的质量。

进一步，如图5所示，本申请上述调序模型建立装置还可以包括：

词过滤单元45，用于在对训练语料按照文档标记进行切分之前，对所述训练语料进行停用词和低频词过滤。

可选的，上述规则模板可以为：抽取调序实例的源端的左边界词、源端的右边界词、目标端的左边界词、目标端的右边界词、所述调序实例所属文档的主题信息，所述主题信息包括所述调序实例所属文档的文档级别主题、所述调序实例源端最左边和最右边实词的词级别主题。

可选的，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++进行主题估计。

可选的，在对调序特征进行训练时，可以选用最大熵训练工具Maxent对调序特征进行训练。

本申请还公开了一种翻译方法，基于上述实施例提供的调序模型建立装置。

如图6所示，翻译方法包括：

步骤S600、对待翻译文本按照文档标记进行切分，并以文档为单位组织成若干份待翻译文档；

具体地，该步骤与上述步骤S100的过程类似，可相互参照。

步骤S610、利用所述主题估计单元对每份所述待翻译文档进行文档主题估计，获得每份待翻译文档的主题信息；

具体地，上述主题估计单元41对训练语料组成的文档进行主题估计时会得到一个训练好的主题模型。本步骤使用该训练好的主题模型对待翻译文档进行文档主题估计，获取每份文档的主题信息。

步骤S620、按照所述预置的规则模板，提取所述待翻译文档的调序特征；

具体地，本步骤中使用上述调序特征抽取单元43所使用的规则模板，来对待翻译文档进行调序特征的抽取。

步骤S630、利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计。

利用调序模型建立装置所得到的调序模型，对调序特征进行顺序或者逆序概率估计，从而确定译文的调序顺序。

本申请实施例提供的翻译方法，由于使用了上述生成的融合文档主题信息的调序模型建立装置，因此在翻译调序时，能够很好的适应不同文档主题对译文顺序的影响，提高了翻译译文的质量。

进一步，还可以在步骤S600之前对待翻译文本进行停用词及低频词过滤。

具体地，在步骤S630对调序特征进行顺序或者逆序概率估计时，可以使用如下最大熵公式估计两个相邻调序特征A¹和A²的调序概率：

P {o | C (A^{1}, A^{2})} = \frac{\exp (\underset{i}{Σ} θ_{i} f_{i} (o, C (A^{1}, A^{2})))}{\underset{o^{'}}{Σ} \exp (\underset{i}{Σ} θ_{i} f_{i} (o^{'}, C (A^{1}, A^{2})))}

其中，C(A¹,A²)表示调序特征A¹和调序特征A²的属性，f_i为二元化特征，θ_i为相应的特征权重。o是指调序的方向：正序或者逆序，o`是一种遍历的符号，和最外层的累加符形成遍历。

可以将上述调序概率作为线性对数模型的一个特征进行使用，帮助候选译文的产生。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种调序模型建立方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述对训练语料按照文档标记进行切分之前，还包括：

对所述训练语料进行停用词和低频词过滤。

3.根据权利要求1或2所述的方法，其特征在于，所述规则模板为：

4.根据权利要求3所述的方法，其特征在于，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++进行主题估计；

所述最大熵训练工具为Maxent工具。

5.一种调序模型建立装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，还包括：

7.根据权利要求5或6所述的装置，其特征在于，所述规则模板为：

8.根据权利要求7所述的装置，其特征在于，在对每份所述文档进行文档主题估计时，使用主题模型工具GibbsLDA++进行主题估计；

所述最大熵训练工具为Maxent工具。

9.一种翻译方法，其特征在于，基于权利要求5所述的调序模型建立装置，该方法包括：

10.根据权利要求9所述的翻译方法，其特征在于，所述利用所述调序模型，对所述调序特征进行顺序或者逆序概率估计，具体为：

P {o | C (A^{1}, A^{2})} = \frac{\exp (\underset{i}{Σ} θ_{i} f_{i} (o, C (A^{1}, A^{2})))}{\underset{o^{'}}{Σ} \exp (\underset{i}{Σ} θ_{i} f_{i} (o^{'}, C (A^{1}, A^{2})))}