CN102945231A

CN102945231A - 一种面向增量式翻译的结构化语言模型构建方法及系统

Info

Publication number: CN102945231A
Application number: CN2012104012386A
Authority: CN
Inventors: 于恒; 米海涛; 刘群
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-10-19
Filing date: 2012-10-19
Publication date: 2013-02-27
Anticipated expiration: 2032-10-19
Also published as: CN102945231B

Abstract

本发明公开了一种面向增量式翻译的结构化语言模型构建方法及系统，该方法包括：步骤1，对增量式生成的翻译片段进行依存句法分析，得到依存树片段集合；步骤2，在依存树片段集合上抽取判别式特征实例，并利用判别式依存句法模型计算其特征分数。步骤3，根据特征分数对依存树片段集合进行剪枝，将特征分数最大值作为结构化语言模型的得分，保留结构化语言模型分数最高的片段，获得优化的依存树片段集合；步骤4，将下一个翻译片段通过移进-规约操作拼接到优化的依存树片段集合上，重复步骤1,2,3直到翻译结束，生成完整的依存树。本发明能在语言模型中融入句法信息和长距离依赖信息，在解码过程中为动态计算结构化语言模型提出有效的优化算法，提高了翻译质量。

Description

一种面向增量式翻译的结构化语言模型构建方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体地说，本发明涉及一种面向增量式翻译模型的结构化语言模型。

背景技术

统计语言模型作为一种计算自然语言生成概率的统计模型，在自然语言处理的很多问题中都起着至关重要的作用。在机器翻译问题中，对于新生成的翻译片段，我们使用语言模型计算其生成概率，并保留概率较高的翻译，从而达到提高翻译质量的效果。n-gram语言模型，也称n-1阶马尔科夫模型，是统计语言模型中应用最广泛的模型，它基于有限历史假设：第n个词出现的概率仅与前面n-1个词相关。这一假设大大降低了语言模型的复杂度，并使各种统计方法能够得到应用。这种方法能够良好地捕捉短距离语言特征，如常用搭配，词组，但这种基于词的模型缺乏捕捉句法信息和长距离语言信息的能力，因此导致生成不符合语法约束的翻译。现有的结构化语言模型(Ciprian Chelba,Frederick Jelinek Structured language modeling Computer Speech & Language,2000)基于句法树建立模型，将句法信息融入语言模型，从而能够弥补传统语言模型的不足，使结果更加符合句法性。但其采用较为复杂的概率模型，且需要在一棵完整的句法树进行计算。无法满足机器翻译问题中增量式生成翻译并同时进行语言模型计算的需求。

发明内容

本发明的目的是提出一种面向增量式翻译的结构化语言模型构建方法及系统，弥补了传统语言模型在捕捉句法信息方面的不足，能在语言模型中融入句法信息和长距离依赖信息，在解码过程中为动态计算结构化语言模型提出有效的优化算法，提高了翻译质量。

为实现上述目的，本发明提出了一种面向增量式翻译的结构化语言模型构建方法，包括：

步骤1，对增量式生成的翻译片段进行依存句法分析，得到依存树片段集合；

步骤2，在所述依存树片段集合上抽取判别式特征实例，并利用判别式依存句法模型计算其特征分数。

步骤3，根据所述特征分数对所述依存树片段集合进行剪枝，将所述特征分数最大值作为结构化语言模型的得分，保留结构化语言模型分数最高的片段，获得优化的依存树片段集合；

步骤4，将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上，重复步骤1,2,3直到翻译结束，生成完整的依存树。

其中所述步骤1中所述翻译片段是按从左到右的顺序生成的，并通过移进-规约依存句法分析器进行依存句法分析，该分析器按照增量式进行解码。

所述步骤1中依存树片段是指未完成的依存树子结构，是依存树中的任意联通子图。

进一步的，所述步骤2中是按照判别式依存特征抽取方法，参照基于动态规划算法的增量式句法分析，第二章（Liang Huang and Kenji Sagae，2010，Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics）的方法，获得判别式特征实例。

进一步的，所述步骤3中的构建剪枝过程如下：

a）对所述依存树片段集合中当前特征窗口相同的结构进行合并，保留其中所述特征分数较高的依存树片段；将所述依存树片段集合按照规约操作的次数进行分组，每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略，即保留分数最高的N个依存树片段，N为堆栈大小；

b）将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。

本发明还提供了一种面向增量式翻译的结构化语言模型构建系统，包括：

依存句法分析模块，用于对增量式生成的翻译片段依次进行依存句法分析，得到依存树片段集合；

特征分数计算模块，用于在所述依存树片段集合上抽取判别式特征实例，并利用判别式依存句法模型计算其特征分数。

依存树片段优化模块，根据所述特征分数对所述依存树片段集合进行剪枝，将所述特征分数最大值作为结构化语言模型的得分，保留结构化语言模型分数最高的片段，获得优化的依存树片段集合；

依存树构建模块，用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上，重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块，直到翻译结束生成完整的依存树。

其中，所述依存句法分析模块中的所述翻译片段是按从左到右的顺序生成的，并通过移进-规约依存句法分析器进行依存句法分析，该分析器按照增量式进行解码。

而所述依存句法分析模块中的所述依存树片段是指未完成的依存树子结构，是依存树中的任意联通子图。

进一步的，所述特征分数计算模块中是按照判别式依存特征抽取方法，参照基于动态规划算法的增量式句法分析，第二章（Liang Huang and KenjiSagae，2010，Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics,）的方法。获得判别式特征实例。

进一步的，所述依存树片段优化模块包括：

处理模块，对所述依存树片段集合中当前特征窗口相同的结构进行合并，保留其中所述特征分数较高的依存树片段；将所述依存树片段集合按照规约操作的次数进行分组，每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略，即保留分数最高的N个依存树片段，N为堆栈大小；

选择模块，用于将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。

本发明具有如下技术效果：

本发明将结构化语言模型用于增量式机器翻译模型，弥补了传统语言模型在捕捉句法信息方面的不足。在150万汉英平行句对上，英语为目标语言，本发明较传统语言模型在测试集困惑度上下降了2%，并在翻译质量上提高1.12个BLEU点。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1是本发明的结构化语言模型构建方法流程图；

图2是本发明的结构化语言模型构建系统示意图；

图3为本发明中分组剪枝策略和同等状态合并策略的实例；

图4为图2中同等状态A,B的特征窗口。

具体实施方式

如图1所示，图1是本发明的结构化语言模型构建方法流程图，该方法包括以下步骤：

步骤1，对于增量式生成的翻译片段依次进行依存句法分析，得到依存树片段集合。

依存分析的主要任务是对输入的翻译片段进行依存分析得到相应的依存树片段集合。由于目前应用最广的机器翻译系统都是增量式生成翻译，所以必须使用解码顺序相同的依存分析算法，本实例中采用移进-规约算法，可参考增量式确定性依存句法分析，第三，四章（Joakim Nivre.2004.Incrementality indeterministic dependency parsing.In Proceedings of the ACL Workshop Incremental Parsing.Association for Computational Linguistics）其中包含以下两种操作：

1）移进：从当前输入串移入一个词，将其移至句法分析栈顶端，并将其作为一个节点拼接至已有依存树片段上。

2）规约：如果句法分析栈中有两个以上节点，则取栈顶的两个节点，判断它们之前的依存关系，在依存树片段中将其中一个节点作为Head头节点生成一条指向另一节点Modifier的有向边。操作完成后Head节点存于栈顶继续参与其他节点的操作，Modifier节点作为Head节点的孩子从栈顶移除。

对于一个N个词的翻译片段，共需进行N次移进操作，将所有词语移进句法分析栈，并进行若干次规约操作(最多N-1次)，确定栈顶两个节点的依存关系，生成不同的依存树片段。

上述技术方案中，所述步骤1中，所述依存树片段是指未完成的依存树子结构，并可以通过后续操作生成完整的依存树。它可以是依存树中任意联通子图，且所述增量式是指从左到右的顺序。

所述判别式特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。可参考基于感知机算法的增量式句法分析，第二章（Collins,M.and Roark,B.，2004，Incremental parsing with the perceptron algorithm，Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics）的方法。

在依存树片段中，依存关系以一条Head头结点指向Modifier修饰节点的有向边表示。其依存信息以判别式训练的依存特征实例的形式存储于结构化语言模型中。

现有的判别式依存特征抽取方法，可参考基于动态规划算法的增量式句法分析，第二章（Liang Huang and Kenji Sagae，2010，Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics,）的方法获得判别式特征实例。

利用当前依存树片段的Head和Modifier，依存分析栈栈顶的词，输出串的第一个词以及它们的词性标注作为基础特征模板，并生成组合特征。

其中对图3中的目标端依存树片段实例的特征实例表示为表1中形式。

表1是图3中实例的判别式特征实例表示形式

wordH＝held	wordLM+posH＝Bush+VBD	posH+posIN＝VBD+IN
			wordLM＝Bush	wordH+wordLM＝held+Bush	posH+posIN+wordH＝VBD+IN+held
wordRM＝meeting	posH+posLM＝VBD+NNP	posH+posIN+wordIN＝VBD+IN+with
			wordIN＝with	wordH+posH+wordLM＝held+VBD+Bush
posH＝VBD	wordH+wordLM+posLM＝held+Bush+NNP	posH+posLM+posRM＝VBD+NNP+NN
			posLM＝NNP	wordH+posH+posLM＝held+VBD+NNP	posH+posLM+posIN＝VBD+NNP+IN
posRM＝NN	wordRM+posH＝meeting+VBD	posH+posRM+posIN＝VBD+NN+IN
			posIN＝IN	wordH+wordRM＝held+meeting	posH+posLM+posRM+posIN＝VBD+NNP+NN+IN
	posH+posRM=VBD+NN

	wordH+posH+wordRM＝held+VBD+meeting
				wordH+wordRM+posRM＝held+meeting+NN
	wordH+posH+posRM＝held+VBD+NN

上述技术方案中，所述步骤2）中，所述特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。其计算公式如下：

F (x) = \underset{y &Element; GEN (x)}{\arg \max} \underset{i &Element; K}{Σ} Φ_{i} (x, y) * α_{i}

其中x为输入串，y为依存树片段，GEN(x)为x可能的依存树片段集合，Φ_i(x,y)为判别式特征实α_i例，为特征权重。F(x)为所述判别式特征分数。

步骤3，根据所述特征分数对所述依存树片段集合进行剪枝，将所述特征分数最大值作为结构化语言模型的得分，保留结构化语言模型分数最高的片段，获得优化的依存树片段集合。

如图4所示，A与B是不同的依存结构，但当前的特征窗口相同，所以我们定义A，B为等价状态，并将其合并，保留特征分值较高的依存树片段。

具体步骤如下：a）对所述依存树片段集合中当前特征窗口相同的结构进行合并，保留其中所述特征分数较高的依存树片段；将所述依存树片段集合按照规约操作的次数进行分组，每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略，即保留分数最高的N个依存树片段，N为堆栈大小；

如图3所示，图中片段集合均为翻译片段”Bush held a meeting”的依存结构，由于在依存分析中可以进行若干次规约操作并生成不同的依存结构。为了保证剪枝的公平性，我们按照规约次数将其分组，并在每组中使用堆栈剪枝，保留特征分值较高的片段。最后从得到的依存树片段结合中选择特征分值最高的作为结构化语言模型的得分。

以上按照规约操作次数进行分组的理由在于：由于增量式依存句法分析中的操作不确定性，不同次数的规约操作生成的依存结构之间是不可比的，规约次数较少的依存结构当前特征分数较低，但在未来的依存分析中却可能生成更好的依存结构，所以需要在每步依存分析中尽量保留规约次数不同的依存结构，保证候选的多样性，提升依存分析的性能。

图2是本发明的结构化语言模型构建系统示意图。该系统包括：

依存句法分析模块100，用于对增量式生成的翻译片段依次进行依存句法分析，得到依存树片段集合。

上述技术方案中，所述依存句法分析模块中，所述依存树片段是指未完成的依存树子结构，并可以通过后续操作生成完整的依存树。它可以是依存树中任意联通子图，且所述增量式是指从左到右的顺序。

特征分数计算模块200，用于在所述依存树片段集合上抽取判别式特征实例，并利用判别式依存句法模型计算其特征分数。

现有的判别式依存特征抽取方法，可参考基于动态规划算法的增量式句法分析，第二章（Liang Huang and Kenji Sagae，2010，Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics.）的方法获得判别式特征实例。利用当前依存树片段的Head和Modifier，依存分析栈栈顶的词，输出串的第一个词以及它们的词性标注作为基础特征模板，并生成组合特征。

表1是图3中实例的判别式特征实例表示形式

wordH＝held	wordLM+posH＝Bush+VBD	posH+posIN＝VBD+IN
			wordLM＝Bush	wordH+wordLM＝held+Bush	posH+posIN+wordH＝VBD+IN+held
wordRM＝meeting	posH+posLM＝VBD+NNP	posH+posIN+wordIN＝VBD+IN+with
			wordIN＝with	wordH+posH+wordLM＝held+VBD+Bush
posH＝VBD	wordH+wordLM+posLM＝held+Bush+NNP	posH+posLM+posRM＝VBD+NNP+NN
			posLM＝NNP	wordH+posH+posLM＝held+VBD+NNP	posH+posLM+posIN＝VBD+NNP+IN
posRM＝NN	wordRM+posH＝meeting+VBD	posH+posRM+posIN＝VBD+NN+IN
			posIN＝IN	wordH+wordRM＝held+meeting	posH+posLM+posRM+posIN＝VBD+NNP+NN+IN
	posH+posRM＝VBD+NN
				wordH+posH+wordRM＝held+VBD+meeting
	wordH+wordRM+posRM＝held+meeting+NN
				wordH+posH+posRM＝held+VBD+NN

上述技术方案中，所述特征分数计算模块中，所述特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。其计算公式如下：

其中x为输入串，y为依存树片段，GEN(x)为x可能的依存树片段集合，Φ_i(x,y)为判别式特征实例，α_i为特征权重。F(x)为所述判别式特征分数。

依存树片段优化模块300，根据所述特征分数对所述依存树片段集合进行剪枝，将所述特征分数最大值作为结构化语言模型的得分，保留结构化语言模型分数最高的片段，获得优化的依存树片段集合。

如图4所示，A与B是不同的依存结构，但当前的特征窗口相同，即当前A，B依存结构的差异将不会影响以后的依存分析结果，所以我们定义A，B为等价状态，并将其合并，保留特征分值较高的依存树片段。

具体而言，依存树片段优化模块300包括：

如图3所示，图中片段集合均为翻译”Bush held a meeting”的依存结构，由于在依存分析中可以进行若干次规约操作并生成不同的依存结构。为了保证剪枝的公平性，我们按照规约次数将其分组，并在每组中使用堆栈剪枝，保留特征分值较高的片段。最后从得到的依存树片段集合中选择特征分值最高的作为结构化语言模型的得分。

依存树构建模块400，用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上，重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块，直到翻译结束生成完整的依存树。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明权利要求的保护范围。

Claims

1.一种面向增量式翻译的结构化语言模型构建方法，其特征在于，包括：

步骤1，对于增量式生成的翻译片段依次进行依存句法分析，得到依存树片段集合；

2.根据权利要求1所述的结构化语言模型构建方法，其特征在于，所述步骤1中的所述翻译片段是按从左到右的顺序生成的，并通过移进-规约依存句法分析器进行依存句法分析，该分析器按照增量式进行解码。

3.根据权利要求1所述的结构化语言模型构建方法，其特征在于，所述步骤1中的所述依存树片段是指未完成的依存树子结构，是依存树中的任意联通子图。

4.根据权利要求1所述的结构化语言模型构建方法，其特征在于，所述步骤2中是利用判别式依存特征抽取方法获得判别式特征实例。

5.根据权利要求1所述的结构化语言模型构建方法，其特征在于，所述步骤3中的构建剪枝过程如下：

6.一种面向增量式翻译的结构化语言模型构建系统，其特征在于，包括：

7.根据权利要求6所述的结构化语言模型构建系统，其特征在于，所述依存句法分析模块中的所述翻译片段是按从左到右的顺序生成的，并通过移进-规约依存句法分析器进行依存句法分析，该分析器按照增量式进行解码。

8.根据权利要求6所述的结构化语言模型构建系统，其特征在于，所述依存句法分析模块中的所述依存树片段是指未完成的依存树子结构，是依存树中的任意联通子图。

9.根据权利要求6所述的结构化语言模型构建系统，其特征在于，所述特征分数计算模块中利用判别式依存特征抽取方法获得判别式特征实例。

10.根据权利要求6所述的结构化语言模型构建系统，其特征在于，所述依存树构建模块包括：