CN102760121A

CN102760121A - 依存映射方法及系统

Info

Publication number: CN102760121A
Application number: CN201210222936XA
Authority: CN
Inventors: 刘凯; 姜文斌; 吕雅娟; 刘群
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-06-28
Filing date: 2012-06-28
Publication date: 2012-10-31
Anticipated expiration: 2032-06-28
Also published as: CN102760121B

Abstract

本发明提供一种依存映射方法，该方法首先在源语言与目标语言的双语语料库的基础上，经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器；然后基于映射依存特征实例集合和无监督特征实例集合，对目标语言依存句法模型进行训练，以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器。其中，映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的，无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。这种依存映射方法可以最大限度地保留映射的依存信息，并且能够鲁棒的处理噪声信息。

Description

依存映射方法及系统

技术领域

本发明属于自然语言处理技术领域，尤其涉及依存映射方法。

背景技术

依存文法是自然语言处理领域中最为流行的文法之一。与短语结构文法相比，依存文法兼具语法和语义信息，具有以下特点：依存结构具有最好的短语结合性质（phrasal cohesion properties）；依存关系边给出语义信息。因此，依存文法是自然语言处理领域中非常具有吸引力的资源。对于一些资源缺乏语言，通常缺乏相应的依存树库，甚至缺乏相应的依存树标准。资源的缺乏给相应的自然语言处理任务带来了一定的困难。此时利用依存映射方法，将资源丰富语言的知识映射到资源贫乏的语言上可以一定程度缓解类似困难。

在现有的依存映射方法（例如参考文献1，Wenbin Jiang and Qun Liu.Dependency parsing and projection based on word-pair classification.InProceedings of the 48^th Annual Meeting of the Association for ComputationalLinguistics.2010.）中，首先将源语言端句子进行有监督的依存分析得到源语言句子依存树；再将源语言与目标语言的双语语料库进行词汇对齐；利用词汇对齐及源语言依存树通过一定规则将依存句法信息映射到目标语言端；利用映射后目标语言端的依存句法信息训练映射后的目标语言依存句法分析器。但这样得到的映射依存树不完整，且存在映射错误和映射信息相互冲突的现象。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种依存映射方法，缓解依存映射所面临的上述问题，并保证较优的性能。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种依存映射方法，包括：

步骤1，在源语言与目标语言的双语语料库的基础上，经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器；

步骤2，基于映射依存特征实例集合和无监督特征实例集合，对目标语言依存句法模型进行训练，以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器；

其中，映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的，无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。

上述技术方案中，所述步骤1可包括：

步骤11）在源语言与目标语言的双语语料库的基础上，根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系，将源语言依存信息映射到目标语言，从而得到经依存映射后的目标语言的依存句法信息；

步骤12）基于经依存映射后的目标语言的依存句法信息，建立当前的目标语言依存句法分析模型及依存句法分析器；

上述技术方案中，所述步骤2可包括：

步骤21）使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析，得到在当前依存句法分析模型下的依存树；

步骤22)通过特征模板从步骤21）得到的依存树抽取无监督特征实例集合，并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合；

步骤23）基于无监督特征实例集合和映射依存特征实例集合，通过分类目标函数得到优化后的依存句法分析模型；

步骤24）根据步骤24）得到的依存句法分析模型构造优化后目标语言依存句法分析器，然后基于该目标依存句法分析器重新执行步骤21）至步骤24），直到满足终止条件为止。

上述技术方案中，所述步骤23）中分类目标函数可以为：

l(w)＝(1-α)θ(w)+αφ(w)

其中α为插值，θ(w)和φ(w)分别为：

θ (w) = \underset{d_{e} &Element; D_{p}}{Π} C (d_{e}, +) \underset{d_{e} &Element; D_{n}}{Π} C (d_{e}, -)

&equiv; \underset{d_{e} &Element; D_{p}}{Σ} \log C (d_{e}, +)

+ \underset{d_{e} &Element; D_{n}}{Σ} \log C (d_{e}, -)

φ (w) = \underset{d_{e} &Element; D_{P}}{Σ} \log C (d_{e}, +)

+ \frac{| | D_{P} | |}{| | D_{N} | |} \underset{d_{e} &Element; D_{N}}{Σ} \log C (d_{e}, -)

其中D_P为无监督特征实例集合中的正例集合，D_N为无监督特征实例集合中的反例集合；D_p为映射依存特征实例集合中的正例集合，D_n为映射依存特征实例集合中的反例集合；

为Logistic函数：

C (d_{e_{ij}}, +) = \frac{\exp (w_{+} \cdot f (d_{e_{ij}}))}{Σ_{r} \exp (ω_{r} \cdot f (d_{e_{ij}}))}

为依存实例边，则

为所述特征实例的特征向量，w_r为相应特征的类别权重，r为+时表示正例权重，r为-时表示反例权重。

上述技术方案中，所述步骤24）中的终止条件可以为相邻两次所得到的目标语言依存树没有太大变化或相邻两次所得到的分类目标函数的极值没有太大变化，或步骤重复次数超过预定阈值。

又一方面，本发明提供了一种依存映射系统，包括：

依存映射装置，用于在源语言与目标语言的双语语料库的基础上，经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器；

依存优化装置，用于基于映射依存特征实例集合和无监督特征实例集合，对目标语言依存句法模型进行训练，以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器；

上述系统中，所述依存映射装置可包括：

用于在源语言与目标语言的双语语料库的基础上，根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系，将源语言依存信息映射到目标语言，从而得到经依存映射后的目标语言的依存句法信息的装置；

用于基于经依存映射后的目标语言的依存句法信息，建立当前的目标语言依存句法分析模型及依存句法分析器的装置。

上述系统中，所述依存优化装置可包括：

用于使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析，得到在当前依存句法分析模型下的依存树的装置；

用于通过特征模板从所述依存树抽取无监督特征实例集合，并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合的装置；

用于基于无监督特征实例集合和映射依存特征实例集合，通过分类目标函数得到优化后的依存句法分析模型的装置；

用于从优化后的依存句法分析模型构造优化后目标语言依存句法分析器的装置。

又一方面，本发明提供了一种机器翻译方法，包括：

1）基于第一语言的依存句法树以及第一语言和第二语言的双语语料库，通过如上面所述的依存映射方法得到第二语言的依存句法分析器；

2）接收第二语言的句子，通过所得到的第二语言的依存句法分析器得到该第二语言的句子的依存句法分析树；

3）基于该第二语言的句子的依存句法分析树，通过相应的机器翻译方法将该第二语言的句子翻译为第三语言的句子。

与现有技术相比，本发明的优点在于：

本发明的依存映射方法最大限度地保留了映射的依存信息，并且能够鲁棒的处理噪声信息。而且在优化时结合无监督特征实例集合和映射依存特征实例集合这两个集合，既考虑了依存映射过来的信息，又兼顾了目标语言的隐式结构信息。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1现有的依存映射示意图；

图2为根据本发明实施例的依存映射方法的流程示意图；

图3为一个依存边的示意图

图4为根据本发明实施例的对经依存映射得到的目标依存句法器的优化过程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解本发明，首先对依存映射进行简单介绍。图1给出现有依存映射示例示意图。其中源语言串为“布什与沙龙举行了会谈”，目标语言串为“Bush held a talk with Sharon”，双语词汇对齐关系为:“布什”和“Bush”、“与”和“with”、“沙龙”和“Sharon”、“举行”和“held”、“会谈”和“talk”。根据现有的依存映射方法首先将源语言串的依存树映射到目标语言串。例如，将源语言依存树中的依存边“举行->会谈”、“举行->布什”、“举行->与”和“与->沙龙”分别映射为目标语言依存树中的依存边“held->talk”、“held->Bush”、“held->with”和“with->Sharon”。之后利用分类方法（例如：最大熵分类方法，SVM分类方法）将映射过来的依存关系(如上面所述的目标树中的依存边)作为正例，其他没有被映射的依存关系作为反例（例如依存边“举行->了”，因为这条边没有被映射）进行分类，以得到映射后的目标语言依存分析模型。例如：图1中的目标语言端实线表示的依存边即为分类实例的正例，而所有没有标出的可能的依存边即为分类实例的反例。从图1中可以看到，利用这样的依存映射方法得到的目标语言依存信息（在图1的目标语言依存树中以实线表示）并不完整，需要添加上依存边“talk->a”（在图1中以虚线表示）才能将该目标依存树补充完整。而且还包含噪声“held->with”，这条依存边在目标语言中是不正确的，正确的依存边应为“talk->with”（在图1中以虚线表示）。

已有的依存映射方法中都是在经依存映射得到的目标语言依存句法信息的基础上，通过利用一些简单规则直接添加或者删除一些映射的依存边或者利用一些分类优化方法来补全映射信息和处理噪声的方法，这容易损失许多映射信息，并导入新的错误（噪声）信息，而且没有考虑目标语言的自身结构信息。

图2示出了根据本发明一个实施例的依存映射方法的流程示意图。该方法首先在源语言与目标语言的双语语料库的基础上，根据源语言串的依存句法分析树（也可简称为依存树）、目标语言串以及源语言与目标语言间的词语对齐关系，将源语言依存信息映射到目标语言来得到经依存映射后的目标语言的依存句法信息。然后，通过上述经依存映射得到的目标端依存句法信息（下文简称为映射依存句法信息）并结合目标串自身结构信息，对原始的映射依存句法信息进行无监督优化，最终得到更优的映射依存句法信息。更具体地，该方法主要包括以下步骤：

步骤1，在源语言与目标语言的双语语料库的基础上，根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系，将源语言依存信息映射到目标语言，从而得到经依存映射后的目标语言的依存句法信息。

参考图2，首先获取源语言串的依存句法树（步骤101）。在一个实施例中，可以利用依存句法分析器分析源语言串得到依存句法树。可用的依存句法分析器包括MSTParser、MaltParser等。在又一个实施例中，可以利用成分树句法分析器分析源语言串得到成分句法树，然后通过适当的转换规则得到依存句法树。可用的成分句法分析器包括Charniak parser、Charniak-Johnson Parser、Berkeley Parser、Bikel Parser、Stanford parser、Collins Parser或MuskCpars句法分析器。

接着，根据三元组（源语言依存句法树、目标语言以及源语言与目标语言间的词语对齐关系），将源语言依存句法信息映射到目标语言中，以得到目标语言端的原始的映射依存句法信息（步骤102）。

其中，所述对齐关系为在互译的双语句对中，源语言词与目标语言词之间的对齐概率。在一个实施例中，源语言和目标语言间的对齐关系可以通过对齐工具GIZA++（参考文献2：Franz Josef Och,Hermann Ney."ASystematic Comparison of Various Statistical AlignmentModels",Computational Linguistics,volume 29,number 1,pp.19-51 March2003.）自动获得。本领域普通技术人员应理解在其他实施例中可以采用现有的其他对齐工具来获得源语言和目标语言间的词语对齐关系。源语言与目标语言间的词语对齐关系可以保存在双语对齐概率矩阵中。可以采用现有的依存树映射方法来将源语言依存树中每对词的依存关系根据双语对齐概率矩阵映射到目标语言端。

然后，基于所得到的目标语言端的原始的映射依存句法信息，建立目标语言的依存句法分析模型，并采用分类方法进行训练得到映射后的目标语言句法分析器（步骤103）。

经映射后得到的目标语言依存信息可以以判别式训练的依存正反实例特征及判别式依存句法分析模型形式存储的。以图1为例，图1中的目标语言端的依存树中实线表示的依存边即为分类实例的正例，而所有没有标出的可能的依存边即为分类实例的反例。而依存正反实例特征是可以通过特征模板从依存实例中抽取的。

图3给出了一个依存边的示意图。该依存边为“建设->浦东”,Head指示“建设”为该依存边的头结点，Modifier指示“浦东”为依存边的修饰结点。其中，符号”/”后面的表示前面词的词性，例如“浦东/NR”中“NR”表示浦东为名词。表1给出了根据特征模板从图3所示一条依存边所抽取的分类特征实例的集合。

表1

wordH=建设	wordH+posH+wordM=建设+NN+浦东	posH-1+posH+posM+1＝NN+NN+NN
			wordM=浦东	wordH+wordM+posM=建设+浦东+NR	posH+1+posH+posM-1＝VV+NN+NR
posH＝NN	wordH+posH+posM=建设+NN+NR	posH+1+posH+posM+1=VV+NN+NN
			posM＝NR	wordM+posH+posM＝浦东+NN+NR	posH-1+posM+posM-1＝NN+NR+NR
wordH+posH=建设+NN	wordH+wordM+posH+posM=建设+浦东+NN+NR	posH-1+posM+posM+1＝NN+NR+NN
			wordM+posM＝浦东+NR	posH-1+posH+posM＝NN+NN+NR	posH+1+posM+posM-1＝VV+NR+NR
wordH+posM=建设+NR	posH+1+posH+posM＝VV+NN+NR	posH+1+posM+posM+1＝VV+NR+NN
			wordM+posH＝浦东+NN	posH+posM+posM-1＝NN+NR+NR	posH-1+posH+posM+posM-1＝NN+NN+NR+NR
wordH+wordM=建设+浦东	posH+posM+posM+1＝NN+NR+NN	posH-1+posH+posM+posM+1＝NN+NN+NR+NN
			posH+posM＝NN+NR	posH-1+posH+posM-1＝NN+NN+NR	posH+1+posH+posM+posM-1＝VV+NN+NR+NR
		posH+1+posH+posM+posM+1＝VV+NN+NR+NN

其中“wordH”为头结点的词；“wordM”为修饰结点的词；“posh”为头结点的词性；“posM”为修饰结点的词性；“word”和“pos”后的“+1”“-1”分别代表当前词前面后面一个词和前面一个词相应的特征。表1中所有等号的前面部分为特征模板,例如“wordM+posM”、“posH+1+posH+posM+posM+1”等，而加上等号后面整体为特征实例，随不同的依存边不同而发生变化，例如在表1中仅示出了图3所示的依存边的分类特征实例的集合。

利用类似如表1所示的特征模板可以为目标语言依存树构造如下的依存分类特征实例的集合（如表2所示）：

表2

正例：wordH=建设；wordM=浦东；posH＝NN；posM＝NR；wordH+posH=建设+NN；…(所有分类特征实例)
	正例：…（其他正例依存边的分类特征实例）
…
	反例:…（反例依存边的分类特征实例）
…

最后，基于如表2所示的分类特征实例集合，可以直接利用各种分类器（分类器可以例如是最大熵、SVM等）对所建立的目标语言的依存句法分析模型进行分类训练。其中，依存句法分析模型以分类器的分类特征权重形式保存。利用训练好的依存句法分析模型构造初始的目标端的依存句法分析器。映射后的依存句法分析器为判别式的依存句法分析器，例如现有的MSTParser等。

如上文所述，通过上述依存映射最终得到的目标语言的初始的依存句法分析器中，依存信息不完整，存在映射错误，而且没有考虑目标语言的自身结构信息。因此，下面将进一步对其进行优化。

步骤2，通过上述经依存映射得到的目标端依存句法信息并结合目标串自身结构信息，对原始的映射依存句法信息进行无监督优化，最终得到更优的映射依存句法信息。更具体地，步骤2主要包括以下步骤：

步骤4-1）使用目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析，得到在当前依存句法分析模型下的依存树（图2中步骤104）。

步骤4-2）通过特征模板从步骤4-1）得到的依存树抽取依存特征实例集合（在下文中称为无监督特征实例集合）。例如，利用如表1所示的特征模板从得到的依存句法树集合抽取无监督特征实例。并从经依存映射的得到的目标依存句法信息中抽取的如表2所示的映射依存特征实例集合。（如表2所示）

步骤4-3）基于无监督特征实例集合和映射依存特征实例集合，通过分类目标函数得到当前的最优的依存句法模型（图2中步骤105）。

图3给出了基于无监督特征实例集合和映射依存特征实例集合对目标语言的依存句法模型进行优化的过程示意图。其中所采用的分类目标优化函数为加权的多目标优化函数，其基本形式为：

l(w)＝(1-α)θ(w)+αφ(w) （式1）

其中α为插值，在本发明的实施例中，θ(w)为传统的优化映射目标函数（可以是其他任意的分类目标函数），φ(w)为无监督优化目标函数。例如，在一个示例中，θ(w)和φ(w)分别为：

θ (w) = \underset{d_{e} &Element; D_{p}}{Π} C (d_{e}, +) \underset{d_{e} &Element; D_{n}}{Π} C (d_{e}, -)

&equiv; \underset{d_{e} &Element; D_{p}}{Σ} \log C (d_{e}, +)

+ \underset{d_{e} &Element; D_{n}}{Σ} \log C (d_{e}, -)

（式2）

φ (w) = \underset{d_{e} &Element; D_{P}}{Σ} \log C (d_{e}, +)

+ \frac{| | D_{P} | |}{| | D_{N} | |} \underset{d_{e} &Element; D_{N}}{Σ} \log C (d_{e}, -)

（式3）

其中D_P为训练过程中利用目标依存句法分析模型进行依存分析的结果中，被认为在依存树上的依存关系（正例）实例集合，D_N为训练过程中利用目标依存句法分析模型进行依存分析的结果中，认为不在依存树上的依存关系（反例）实例集合；D_p为之前利用依映射方法映射过来的正例依存边分类特征实例（正例）集合，D_n为相应的反例依存边分类特征实例集合；d_e代表依存实例边；

为一般形式的Logistic函数：

C (d_{e_{ij}}, +) = \frac{\exp (w_{+} \cdot f (d_{e_{ij}}))}{Σ_{r} \exp (ω_{r} \cdot f (d_{e_{ij}}))}

为依存实例边，则

为通过表1中的特征模板获得的此实例的特征向量，w_r为相应特征的类别权重，相反“r＝+”的时候是正例权重，r=-的时候是反例权重。训练模型的过程就是调整这些w_r权重的过程，最终使得函数l(w)最大化。

对上述分类目标函数的优化方法通常是先对该目标函数求导，然后利用最优化方法利用导数求目标函数极值，然后，根据目标函数极值所对应的权重值获得当前最优的依存句法模型。

步骤4-4）根据步骤4-3）得到的依存句法模型构造优化后的目标语言依存句法分析器，然后基于优化后的目标依存句法分析器重新执行步骤4-1）至步骤4-4），直到相邻两次所得到的目标语言依存树没有太大变化或相邻两次所得到的分类目标函数的极值没有太大变化，或重复次数超过预定阈值为止（图2中步骤106）。

通过上述实施例，可以看出本发明的依存映射方法，不需要人为在目标串上删除或添加依存边。最大限度的保留了映射的依存信息，并且能够鲁棒的处理噪声信息。而且在优化时基于无监督特征实例集合和映射依存特征实例集合这两个集合，既考虑了依存映射过来的信息，又兼顾了目标语言的隐式结构信息。

为了说明上述方法的效果，发明人还进行了下述实验。

在23万英汉平行句对上，英语为源语言，汉语为目标语言，分别采用现有的依存映射方法和本发明的依存映射方法获得了目标语言的依存句法分析器，然后在同一测试文本上进行了准确率测试。与现有的依存映射方法相比，根据本发明实施例的依存映射方法准确率提高3.2个百分点，达到61.7%。另外，在6万汉蒙平行句对上，以汉语为源语言，蒙语为目标语言，本发明在现有依存映射方法的基础上提高了5.7个百分点的准确率。

在本发明的又一个实施例中，还提供了一种机器翻译方法。依存句法树中包含的依存句法信息是机器翻译领域中非常具有吸引力的资源。例如，以源语言依存句法树中的任意连通子图作为翻译规则的基本结构，来对源语言进行翻译。例如，假设将B语言作为源语言进行翻译，例如可以将B语言翻译为C语言、D语言等等。但是目前还没有B语言的依存句法信息，仅获得A语言的依存句法树以及A语言和B语言的双语语料库。那么，该机器翻译方法可以通过下述步骤实现对B语言的机器翻译：

1）在A语言的依存句法树以及A语言和B语言的双语语料库的基础上，通过上述依存映射方法可得到B语言的依存句法分析器；

2）接收B语言句子，通过所得到的B语言的依存句法分析器得到该B语言句子的依存句法分析树；

3）基于该B语言句子的依存句法分析树，通过相应的机器翻译方法将该B语言句子翻译为相应的目标语言（例如C语言或D语言等等）的句子。

由于通过上述依存映射方法得到的依存句法分析器最大限度的保留了映射的依存信息，并且能够鲁棒的处理噪声信息，因此基于通过上述依存句法分析器所得到的依存句法分析树进行机器翻译，可以提高机器翻译的质量。

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。