CN104915337B

CN104915337B - 基于双语篇章结构信息的译文篇章完整性评估方法

Info

Publication number: CN104915337B
Application number: CN201510340623.8A
Authority: CN
Inventors: 周玉; 涂眉; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-06-18
Filing date: 2015-06-18
Publication date: 2017-12-05
Anticipated expiration: 2035-06-18
Also published as: CN104915337A

Abstract

本发明公开了一种基于双语篇章结构信息的译文篇章完整性评估方法，包括以下步骤：步骤1：从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料；步骤2：利用步骤1生成的训练语料构建目标端篇章单元完整性模型；步骤3：将目标端篇章单元完整性模型融入对数线性翻译模型中，并采用适应性解码方式进行译文生成。本发明提出的方法借助了双语篇章结构信息，使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息，来进一步提高当前统计机器翻译的译文质量。

Description

基于双语篇章结构信息的译文篇章完整性评估方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及基于篇章分析的统计机器翻译方法。

背景技术

机器翻译(machine translation,MT)是指借助计算机技术将一种自然语言(通常称为源语言，source language)翻译成另一种自然语言(通常称为目标语言，targetlanguage)。

经过二十多年的发展，统计机器翻译的研究取得了一系列的创新成果，无论是翻译模型还是实用系统都在不断地完善和改进。从基于词的翻译模型到基于短语的翻译模型，再到基于句法的翻译模型，人们逐步将语言学知识融入到统计机器翻译中，目前对于一些简单的句子，机器翻译可以得到不错的结果。但是，面对复杂句子乃至篇章，现有的机器翻译结果仍然存在着连贯不好、语义完整性被破坏、可读性差的问题。

随着人们对于译文质量的要求不断提高，研究者们开始将目光投向篇章翻译中的衔接性和连贯性的问题，以期望通过研究篇章的遣词、造句、谋篇、构段的行文方式来帮助翻译系统生成流畅度更好，更连贯的译文。

有的研究者提出了词汇化衔接性模型，用以解决翻译过程中词汇衔接性不好的问题。除此之外，还有的研究针对语法衔接性的问题提出了改进的方案。不过以上的方法都只能解决句子表层的衔接问题，还没有真正深入到语义连贯的层面。

为了使得译文的连贯性更好，从篇章理论的角度来看，不仅需要句子表层的衔接自然，而且从语义层面来说也应该是完整和明确的。然而，在现有的机器翻译系统中，由于短语划分和调序并没有考虑到语义完整性的问题，只根据翻译概率、语言模型等打分来决定最后的翻译结果，因此，译文中会经常出现语义单元完整性遭到破坏的情况。这不仅影响了整个译文的流畅度和连贯性，而且会误导读者对于译文的理解。另一方面，译文篇章单元的语义完整性往往与源语言的篇章结构和目标语言的表达习惯有着密切的联系。因为译文的篇章单元必然处于某个译文篇章结构中，而译文的篇章结构会直接受到源语言的逻辑结构的约束。所以，译文的篇章单元其实是受到了源端和目标端的共同约束。基于以上分析可知，研究如何利用篇章结构信息来解决译文篇章单元完整性的问题具有重要的理论研究意义和实用价值。

发明内容

针对上述问题，本发明的提出一种基于双语篇章结构信息的译文篇章完整性评估方法，使得在基于层次短语翻译模型的解码过程中，解码器能充分恰当地挖掘源端和目标端的篇章语言学知识提供的语义完整性信息，进一步提高当前统计机器翻译的译文质量。

本发明提出的一种基于双语篇章结构信息的译文篇章完整性评估方法，包括以下步骤：

步骤1：从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料；

步骤2：利用步骤1生成的训练语料构建目标端篇章单元完整性模型；

步骤3：将目标端篇章单元完整性模型融入对数线性翻译模型中，并采用适应性解码方式进行译文生成。

优选的，步骤1采用对比估计的方法，从篇章单元正样本空间生成负样本，然后通过1:1随机采样生成最终用于构建篇章单元完整性模型的具有正负样本的训练语料。

优选的，所述正负样本的训练语料的生成过程包括以下步骤：

步骤1-1：从目标端篇章结构树中抽出所有的叶子节点作为标准篇章单元的正样本；

步骤1-2：在每一个正样本的首尾添加M个词或者删除N个词，生成的词串作为负样本；

步骤1-3：按照正负比1:1的比例，从步骤1-1和步骤1-2得到的正样本和负样本中进行随机采样，生成最终用于构建篇章单元完整性模型的具有正负样本的训练语料。

优选的，步骤2利用最大熵分类器以及分布式表示的词汇化特征训练出译文篇章单元完整性模型。

优选的，步骤2所述构建目标端篇章单元完整性模型的具体步骤包括：

步骤2-1：训练分布式词向量：使用深度神经网络模型得到篇章单元完整性模型的训练语料中出现的每一个英文单词的词向量表示；

步骤2-2：抽取分类器特征：抽取步骤1-3所述训练语料的开始和结尾的3个连续词汇组成的短语，将短语中的每个单词表示成词向量的形式并拼接起来形成最后分布式表示的词汇化特征；

步骤2-3：学习目标端篇章单元完整性模型：根据步骤2-2形成的分布式表示的词汇化特征和步骤1-3所述训练语料，通过最大熵模型训练出目标端篇章单元完整性模型。

优选的，步骤3将目标端篇章单元完整性模型的得分作为一个新的特征h_EDU(t_sp)加入对数线性翻译模型中，其中h_EDU(t_sp)的公式为

其中g_j(t_sp)是目标端篇章单元完整性模型的特征，w_j是相应的权重系数，t_sp为目标语言跨度，∈为若源语言跨度sp不是基本篇章单元时的特征h_EDU(t_sp)的得分，源语言跨度sp为源语言的一个包含一个或多个词汇的短语片段。

步骤3所述采用适应性解码方式进行译文生成具体为采用基于最大熵分类的句子级别的系统融合方法，对输入句子进行适应性解码。

优选的，所述对输入句子进行适应性解码的过程中，采用基于最大熵分类的句子级别的系统融合方法，根据源语言句子的特点选择解码时是否使用译文篇章单元完整性模型；

选择解码时是否使用译文篇章单元完整性模型的方法为：在解码的过程中，动态判断输入待翻译的源语言片段是否为一个完整的基本篇章单元，如果是，使用译文篇章单元完整性模型这个特征进行解码，如果不是，不使用译文篇章单元完整性模型这个特征。

优选的，步骤2-2所述抽取的分类器特征包含：

概率特征：双向翻译概率得分、双向词汇化翻译概率得分；

译文词长；

语言模型得分；

源语言ngram倾向性得分：给定源语言句子s和它的参考译文r，那么源语言句子中的N个连续词汇组成的短语在使用译文篇章单元完整性模型两种解码方式上的倾向性得分S₁(ngram)和不使用译文篇章单元完整性模型两种解码方式上的倾向性得分S₂(ngram)的计算公式分别为：

S₁(ngram)＝log{E_T[P_ngram(t₁,r)]}

S₂(ngram)＝log{E_T[P_ngram(t₂,r)]}

其中t₁、t₂分别是ngram在使用译文篇章单元完整性模型解码方式和不使用译文篇章单元完整性模型解码方式中的对应部分译文，t₁、t₂通过回溯译文的翻译路径获得，P_ngram(t,r)的计算公式为：

本发明提出的方法借助了双语篇章结构信息，使得解码器能充分恰当地利用基于双语篇章语言知识的语义完整性信息，来进一步提高当前统计机器翻译的译文质量。，在新闻领域的汉英任务上进行实验，通过BLEU打分的结果表明，利用本发明，在NIST04和NIST06上能分别提高0.6和0.73个BLEU值，通过显著性检验显示，在p<0.01的程度上显著改善了翻译质量。

附图说明

图1是本发明中融合译文篇章单元完整性模型的翻译流程框图；

图2是本发明中生成完整性模型负训练样本时的操作示意图；

图3是本发明中提及的篇章结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明所有代码实现都是用C++编程语言完成，开发平台是Ubuntu Linux 8.04。由于所写程序没有用到任何与平台相关的代码，因此所述的系统实现也可以运行于Windows操作系统上。

本发明的基本思想是在基于层次短语翻译模型的解码过程中，解码器能充分恰当地挖掘源端和目标端的篇章语言学知识提供的语义完整性信息，从而进一步提高当前统计机器翻译的译文质量。

图1示出了本发明提出的融合译文篇章单元完整性模型的翻译系统流程框图。该方法包括：

该步骤的目的在于从目标端篇章结构树语料中生成篇章单元完整性模型的正样本和负样本。

本发明根据对比估计的方法生成所需要的训练样本，具体操作步骤包括：

步骤1-1：正样本的抽取过程；

从篇章结构树中抽出所有的叶子节点作为标准篇章单元的正样本。本发明优选实施例中，使用RST Discourse Treebank提供的篇章结构树资源。RST Discourse Treebank是语言数据联盟(Linguistic Data Consortium)构建的英语篇章结构的语料库资源。这个语料库中的英语篇章结构被表示成了篇章结构树的形式，典型的篇章结构树如图3所示，该图标识了一个英语篇章结构的篇章结构树所具备的基本信息，包括基本篇章单元、核心和卫星成分以及这些篇章单元之间构成的篇章关系。从图3中可以看出，树上的叶子节点被称为基本篇章单元(edu)，它们都具有相对独立的语法功能和完整的语义，如图3所示的句子一共由8个基本篇章单元组成，分别标记为edu₁,edu₂,…,edu₇,edu₈；这些基本篇章单元之间由篇章关系控制，比如基本篇章单元2(edu₂)和基本篇章单元3(edu₃)就构成了一种Sequence(顺承)关系；在篇章关系的孩子节点中起主要作用的被称为“N(核心)”，起补充说明作用的被称为“S(卫星)”。这些基本篇章单元在篇章关系的约束下，自底向上结合生成更大的语义片段，并最后形成一棵完整的篇章结构树，所述的篇章关系如图3所示包括Contrast(对比)、Condition(条件)、Sequence(顺承)、Elaboration(详述)、Conjuntion(联合)、Reason(因果)。

步骤1-2：负样本的抽取过程；

从理论上说，任何没有完整的语义或者独立的语言学功能的词串都属于负样本。实际上，要枚举所有错误的EDU词串不具备可操作性，并且对于翻译系统来说，很多无意义的负样本，比如“the the the the the”，在翻译模型和语言模型的共同作用下就能被过滤掉，并不需要借助EDU完整性模型来进行筛选。因此，即使生成了类似如上词串的负样本，训练出的模型对机器翻译来说，也没有实际帮助。再考虑到在实际解码过程中，实际的负样本是因为本应拥有完整语义的短语边界词汇被扩充或者删减造成的，本发明从正样本数据中直接进行边界词汇的扩展或者删减生成负样本数据。具体操作过程是将每一个正样本在首尾添加M个词，或者删除N个词，生成的词串作为负样本。其中添加和删除操作包括如图2所示的八种情况，其中被涂为灰度的格子表示操作的方式及位置，如第一排第一个表示的情况为在正样本的开始部分进行删除词的操作，第二排最后一个表示的情况为在正样本的开始部分和结尾部分分别进行添加词的操作。

在得到了训练语料之后，本发明采用了最大熵分类器来训练完整性模型。

本发明在训练分类器时，采用了分布式表示的词汇化特征。具体操作步骤包括：

步骤2-1：训练分布式词向量

由于分布式词向量的表示方法具备高度抽象和表征的能力，能够很好地捕捉具备相同语义的不同词汇间的语义距离，进而能很大程度上缓解数据稀疏问题，因此，本发明使用深度神经网络模型得到篇章单元完整性模型的训练语料中出现的每一个英文单词的词向量表示。

步骤2-2：抽取分类器特征

对每一个从步骤1-3得到的正样本和负样本抽取其开始和结尾的3个连续词汇组成的短语，将短语中的每个单词表示成词向量的形式并拼接起来形成最后分布式表示的词汇化特征。

步骤2-3：学习目标端篇章单元完整性模型

根据步骤2-2形成的分布式表示的词汇化特征和步骤1-3所述训练语料，通过最大熵模型训练出目标端篇章单元完整性模型。

步骤3：在翻译过程中融合源端篇章单元信息和目标端篇章单元完整性模型，以激励解码器产生语义完整性更好的译文，并采用适应性解码的方式提高翻译系统的鲁棒性。其包括：

步骤3-1：在解码器对数线性翻译模型的特征函数中新增目标端篇章单元完整性模型特征。

从数学描述上来说，给定源语言句子它由基本篇章单元序列eu＝{eu₁,...,eu_i,...,eu_I}组成，若在翻译过程中按某种划分a进行翻译可以得到译文t，那么最佳译文的表示如式(1)所示：

其中沿用对数线性翻译模型，其进一步分解如式(2)所示：

其中t'是的所有可能翻译中的一个；λ_k为权重；

最重要的就是特征函数的选择，本发明将目标端篇章单元完整性模型的得分作为一个新的特征h_EDU(t_sp)加入对数线性翻译模型中，h_EDU(t_sp)的表示如式(3)所示。

其中g_j(t_sp)是目标端篇章单元完整性模型的特征，w_j是相应的权重系数，t_sp为目标语言跨度，∈为若源语言跨度sp不是基本篇章单元时的特征h_EDU(t_sp)的得分，源语言跨度sp的定义为源语言的一个包含一个或多个词汇的短语片段。

在解码过程中，本发明使用到的特征除了译文篇章单元完整性特征以外，还包括以下特征：

(1)翻译特征：双向的规则翻译概率、双向词汇化翻译概率、以及短语惩罚概率；

(2)语言模型特征：本发明优选实施例中利用语言模型训练工具SRILM工具包。在英语的训练语料上，使用Kneser-Ney平滑方法，训练一个5元语言模型；

(3)BTG调序特征：当两个译文片段进行合并的时候，需要判断其正序还是逆序，本发明采用了基于括号转录文法的调序方法。

(4)其他特征：包括单词长度惩罚和glue规则惩罚特征。

步骤3-2：适应性解码：采用基于最大熵分类的句子级别的系统融合方法，对输入句子进行适应性解码。

这一步的目的在于有选择性地使用篇章单元完整性模型，从而提高翻译系统的鲁棒性。

由于本发明提出的篇章单元完整性模型的理想应用场景是：源语言的基本篇章单元一一对应于目标语言的基本篇章单元。但是在真实的平行语料中，源语言和目标语言的篇章单元并非总是一一对应的，特别是中英文翻译，一对多的情况也比较常见。有研究指出从新闻语料统计发现，将汉语翻译到英语时，一对多翻译的情况大约占所有句子的26.2％。

比如中文篇章单元“经济是一个国家赖以生存的基础”对应的英文为“theeconomy is the foundation on which a state depends for its existence”，译文包括了两个篇章单元，它们分别是“the economy is the foundation”和“on which a statedepends for its existence”。在这样的情况下，若仍然使用一个篇章单元的评价标准去要求两个篇章单元是不合理的。因此，若对句子上都使用译文篇章单元完整性模型可能反而会降低翻译质量。本发明采用了基于最大熵分类的句子级别的系统融合方法，根据源语言句子的特点自动选择解码时是否使用译文篇章单元完整性模型，分类器的特征如下所示：

(1)概率特征：双向翻译概率得分、双向词汇化翻译概率得分；

(2)译文词长

(3)语言模型得分

(4)源语言ngram倾向性得分：本发明提出了源语言ngram倾向性得分，旨在通过考虑源语言的每一个N个连续词汇组成的短语是否倾向于使用译文篇章单元完整性模型，来帮助判断整个句子是否适合使用该模型。例如，假设源语言句子中的“赖以生存的”经过两种解码方式(解码方式1：使用译文篇章单元完整性模型；解码方式2：不使用译文篇章单元完整性模型)得到的译文分别为“for its existence”和“depends on existence”。与参考译文比较可知系统1给出的译文得分更高，因为它在参考译文中能找到完全匹配的部分。通过对所有的短语和参考译文进行统计，就能知道哪些短语更适合于使用译文篇章单元完整性模型，进而帮助分类模型做出更好的选择。这个特征的数学定义为：给定源语言句子s和它的参考译文r，那么源语言句子中的N个连续词汇组成的短语在解码方式1和解码方式2上的倾向性得分S₁(ngram)和S₂(ngram)可以通过式(4)、(5)进行计算：

S₁(ngram)＝log{E_T[P_ngram(t₁,r)]} (4)

S₂(ngram)＝log{E_T[P_ngram(t₂,r)]} (5)

其中t₁、t₂分别是ngram在解码方式1和解码方式2译文中的对应部分，它们可以通过回溯译文的翻译路径获得，P_ngram(t,r)由式(6)计算，

下面通过汉-英翻译的实验数据来说明本发明提出的融入上述译文篇章单元完整性模型的翻译方法所达到的性能。在实验中，目标端篇章单元完整性模型的训练语料包括大约1000万句英语新闻领域的句子。翻译模型的训练语料包含23.5万汉英平行句对，开发集包括919句新闻领域的句对，测试集有两个，分别包括1788、1000句的新闻领域句对。表1给出了不同融合策略下翻译质量的打分。

表1

	NIST04	NIST06
			基线系统	33.42	33.88
+译文篇章单元完整性模型(EDUM)	33.86	34.02
			+EDUM+适应性解码	34.02*	34.61*

从表1可以看出，融合了完整性模型和适应性解码的翻译系统在NIST04和NIST06上分别提高了0.6和0.73个点。通过显著性测试检验显示，NIST04和NIST06上的翻译结果在p<0.01的程度上显著改善了翻译质量。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于双语篇章结构信息的译文篇章完整性评估方法，其特征在于，包括以下步骤：

步骤1，从目标端篇章结构树上抽取用于构建目标端篇章单元完整性模型的训练语料；

步骤2，利用步骤1生成的训练语料构建目标端篇章单元完整性模型；

步骤3，将目标端篇章单元完整性模型融入对数线性翻译模型中，并采用适应性解码方式进行译文生成；

其中，

步骤1具体包括：

步骤1-1，从目标端篇章结构树中抽出所有的叶子节点作为标准篇章单元的正样本；

步骤1-2，在每一个正样本的首尾添加M个词或者删除N个词，生成的词串作为负样本；

步骤1-3，按照正负比1:1的比例，从步骤1-1和步骤1-2得到的正样本和负样本中进行随机采样，生成最终用于构建目标端篇章单元完整性模型的具有正负样本的训练语料；

步骤2具体包括：

步骤2-1，训练分布式词向量：使用深度神经网络模型得到篇章单元完整性模型的训练语料中出现的每一个英文单词的词向量表示；

步骤2-2，抽取分类器特征：抽取步骤1-3所述训练语料的开始和结尾的3个连续词汇组成的短语，将短语中的每个单词表示成词向量的形式并拼接起来形成最后分布式表示的词汇化特征；

步骤2-3，学习目标端篇章单元完整性模型：根据步骤2-2形成的分布式表示的词汇化特征和步骤1-3所述训练语料，通过最大熵模型训练出目标端篇章单元完整性模型。

2.如权利要求1所述的基于双语篇章结构信息的译文篇章完整性评估方法，其特征在于，步骤3将目标端篇章单元完整性模型的得分作为一个新的特征h_EDU(t_sp)加入对数线性翻译模型中，其中h_EDU(t_sp)的公式为

其中g_j(t_sp)是所述目标端篇章单元完整性模型的特征，w_j是相应的权重系数，t_sp为目标语言跨度，∈为若源语言跨度sp不是基本篇章单元时的特征h_EDU(t_sp)的得分，源语言跨度sp的定义为源语言的一个包含一个或多个词汇的短语片段；

3.如权利要求2所述的基于双语篇章结构信息的译文篇章完整性评估方法，其特征在于，所述对输入句子进行适应性解码的过程中，采用基于最大熵分类的句子级别的系统融合方法，根据源语言句子的特点选择解码时是否使用译文篇章单元完整性模型；

4.如权利要求3所述的基于双语篇章结构信息的译文篇章完整性评估方法，其特征在于，步骤2-2所述抽取分类器特征包含：

概率特征：双向翻译概率得分、双向词汇化翻译概率得分；

译文词长；

语言模型得分；

S₁(ngram)＝log{E_T[P_ngram(t₁,r)]}

S₂(ngram)＝log{E_T[P_ngram(t₂,r)]}