CN108647254A

CN108647254A - 基于模式嵌入的自动树库转化方法及系统

Info

Publication number: CN108647254A
Application number: CN201810366793.7A
Authority: CN
Inventors: 李正华; 章波; 江心舟; 张民; 陈文亮
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2018-10-12
Anticipated expiration: 2038-04-23
Also published as: CN108647254B

Abstract

本发明涉及一种基于模式嵌入的自动树库转化方法及系统，为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法，确定词w_i和词w_j的模式；将词w_i和词w_j的模式变换为对应的模式嵌入向量；将源端树中词w_i、词w_j、最小公共祖先节点w_a三者分别对应的依存关系标签分别变换为依存关系嵌入向量；将模式嵌入向量和三个依存关系嵌入向量拼接起来，作为源端树中词w_i和词w_j的结构信息的表示向量，循环神经网络的顶层输出分别与表示向量拼接起来，作为感知器MLP的输入；利用双仿射计算获得词w_i和词w_j的目标端依存弧分值；本发明充分利用源端句法树，刻画两种标注规范的对应规律，最终完成高质量树库转化。

Description

基于模式嵌入的自动树库转化方法及系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于模式嵌入的自动树库转化方法及系统。

背景技术

目前研究人员在树库研究方面开展了大量的研究和开发工作，也取得了可观的成果。这些树库采用的标注体系差别巨大，按照描述方法大体分为两种，一种是短语结构树，一种是依存树。

对于依存树而言，两个树库的依存标注是遵循不同的标注规范的，称这两个树库是异构的。很多世界主流语言都拥有多个大规模异构树库，由于树库的构建需要非常高昂的人工代价，因此如何利用不同的异构树库推进句法分析的性能是一个非常重要的研究方向。

树库转化工作的主要动机是通过标注小规模的双树对齐数据，有效的刻画不同标注规范之间的对应规律，构建有监督转化模型(树库转化模型)，最终目的是将大规模源端规范树库转化为符合目标规范的树库，迅速扩大符合目标规范的训练数据规模。如图1所示，图的上半部分是按照苏州大学的规范所标注的结果，下半部分是按照哈工大汉语依存树库HIT-CDT规范所标注的结果。这样一个句子有两种标注规范的数据，称之为双树对齐数据。

为了提高句法分析的性能，本领域研究人员提出了多个经典的方法，例如：基于指导特征的间接方法、基于多任务学习的间接方法、基于转化的直接方法。间接方法的主要问题是对源端树库的利用不充分，无法有效刻画规范之间对应规律；而基于转化的直接方法，受限于双树对齐数据的缺失，也无法有效学习规范之间的对应规律，因此转化效果一般。

发明内容

为解决上述技术问题，本发明的目的是提供一种充分利用源端树库的结构信息，进而得到更优目标端依存弧得分值的基于模式嵌入的自动树库转化方法及系统。

为达到上述发明目的，本发明基于模式嵌入的自动树库转化方法，包括：

获取双树对齐数据库，所述双树对齐数据库内存储有采用两种标注规范进行标注的句子；

分别计算各所述句子中每两个词在目标端树中的依存弧分值，其中，所述的两个词分别以词w_i和词w_j表示，预设词w_i和词w_j在目标端树中分别为修饰词和核心词，词w_i和词w_j在目标端树中的依存弧分值计算过程包括：

根据词w_i和词w_j在源端树d^src中的句法关系，确定词w_i和词w_j的模式；

基于模式与嵌入向量对应表，将词w_i和词w_j的模式变换为对应的模式嵌入向量

将源端树中词w_i对应的依存关系标签、词w_j的依存关系标签、词w_i和词 w_j的最小公共祖先节点w_a的依存关系标签分别变换为依存关系嵌入向量

将模式嵌入向量和三个依存关系嵌入向量拼接起来，作为源端树 d^src中词w_i和词w_j的结构信息的表示向量

基于循环神经网络BiSeqLSTM，得到所述句子中各个词各自对应的顶层输出向量，词w_i和词w_j各自对应的顶层输出向量

将词w_i和词w_j各自对应的顶层输出向量分别与所述的表示向量拼接起来，作为感知器MLP的输入；

感知器萃取出句法相关信息：

利用双仿射计算词w_i和词w_j的目标端依存弧分值，具体计算公式为：

其中，W^b为双仿射运算参数；

其中，将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接，得到该词对应的拼接向量，以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM，运算处理后，循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量，其中，词w_i和词w_j各自对应的顶层输出向量表示为

进一步地，还包括：基于双树对齐数据库中各句子的词w_i和词w_j在目标端树的依存弧分值，进行数据训练，得到有监督转换模型，其中使用全局的 CRFloss，对每一个句子定义损失函数。

特别地，源端树的词和词之间定义了9种模式，其中，其他情况根据词和词的路径距离细分为4类，词w_k为所述句子中词w_i、词w_j以外的任一词，表格表示如下：

为达到上述发明目的，本发明基于模式嵌入的自动树库转化系统，包括：双树对齐数据库、目标端树的依存弧分值预测单元，其中，

双树对齐数据库，存储采用两种标注规范进行标注的句子；

目标端树的依存弧分值预测单元包括：

模式判定模块，预定义在目标端树中，词w_i为修饰词、词w_j为核心词，根据词w_i和词w_j在源端树d^src中的句法关系，确定词w_i和词w_j的模式；

模式嵌入向量生成模块，基于模式与嵌入向量对应表，将词w_j和词w_j的模式变换为对应的模式嵌入向量，记为

依存关系嵌入向量生成模块，将源端树中词w_i对应的依存关系标签、词 w_j的依存关系标签、词w_i和词w_j的最小公共祖先节点w_a的依存关系标签分别变换为依存关系嵌入向量，分别记为

结构信息的表示向量生成模块，将模式嵌入向量和三个依存关系嵌入向量拼接起来，作为源端树d^src中词w_i和词w_j的结构信息的表示向量，记为

循环神经网络BiSeqLSTM模块，将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接，得到该词对应的拼接向量，以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块，运算处理后，循环神经网络BiSeqLSTM模块的顶层输出该句子的各个词各自对应的顶层输出向量，其中，词w_i和词w_j各自对应的顶层输出向量表示为

感知器MLP模块，词w_i对应的循环神经网络BiSeqLSTM的顶层输出、词 w_j对应的循环神经网络BiSeqLSTM的顶层输出分别与结构信息的表示向量拼接起来，作为感知器MLP的输入，感知器萃取出句法相关信息：

依存弧分值输出模块，利用双仿射计算获得词w_i和词w_j的目标端依存弧分值，具体计算公式为：

其中，W^b为双仿射运算参数。

进一步地，还包括有监督转换模型生成单元，基于双树对齐数据库中各句子的词w_i和词w_j在目标端树的依存弧分值，进行数据训练，得到有监督转换模型，其中使用全局的CRFloss，对每一个句子定义损失函数，其中使用全局的 CRFloss，对每一个句子定义损失函数。

借由上述方案，本发明基于模式嵌入的自动树库转化方法及系统至少具有以下优点：

本发明通过人工标注获取一部分双数对齐数据，将词w_i和词w_j的模式变换为对应的模式嵌入向量、将源端树中词w_i对应的依存关系标签、词w_j的依存关系标签、词w_i和词w_j的最小公共祖先节点w_a的依存关系标签分别变换为依存关系嵌入向量，也即得到三个依存关系嵌入向量。将模式嵌入向量和三个依存关系嵌入向量拼接起来，作为源端树d^src中词w_i和词w_j的结构信息的表示向量。循环神经网络BiSeqLSTM的输出的词w_i和词w_j的分别对应的顶输出向量分别与结构信息的表示向量拼接起来，作为感知器MLP的输入。因此这样，MLP输出的词表示向量也包含了源端树中的结构信息，进而利用双仿射计算获得词w_i和词w_j的目标端依存弧分值也更优，进而能够建立更加精准的有监督转化模型，进而直接刻画不同规范之间的结构映射关系，最终完成高质量树库转化。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为一双树对齐数据的句法树示例，苏州大学的规范(上)与HIT-CDT规范(下)；

图2为本发明基于模式嵌入的自动树库转化方法的转化模型中依存弧 score(i←j)的分值计算过程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明中，所述的双树对齐数据库为现有的，本技术领域人员已标注好的双树对齐数据。

参见表1，罗列了目前公开的较大规模的汉语句法树库。Sinica汉语树库1 由中国台湾中央研究院开发并标注，包含的文本为繁体(Chenetal.,2003)；宾大树库CTB最初由美国宾夕法尼亚大学发起，目前由布兰迪斯大学薛念文教授等维护和更新(Xueetal.,2005)；北大汉语树库PCT由北大中文系逐步建设(詹卫东,2012)；清华汉语树库TCT由清华大学周强教授等建设(周强,2004)；哈工大汉语依存树库HIT-CDT由哈工大社会计算与信息检索研究中心建设；北大汉语依存树库PKU-CDT由北大计算语言学研究所构建(邱立坤等,2015)。

表1目前公开的较大规模的汉语句法树库

实施例1

本实施例基于模式嵌入的自动树库转化方法，包括：

感知器萃取出句法相关信息：

其中，W^b为双仿射运算参数；

本实施例中，源端树的词和词之间定义了9种模式，例如w_i和w_j在源端树d^src中修饰同一个词w_k，即为兄弟节点，则p_i←j＝“sibling”。表2给出了所有9种模式。其中，“else”表示其他情况，根据词w_i和词w_j的路径距离(词w_i和词w_j之间隔着几个词)细分为4类。表2如下：

本实施例，为了利用源端树中的依存关系标签信息，将源端树中w_i、 w_j和最小公共祖先节点(lowest common ancestor,LCA)w_a对应的依存关系标签，分别变换为嵌入向量。将四个嵌入向量拼接起来，作为d^src中w_i和 w_j的结构信息的表示向量。最终，表示向量和顶层BiSeqLSTM的输出拼接起来，作为MLP层的输入。这样，MLP输出的词表示向量r_i,i←j和r_j,i←j也包含了源端树中的结构信息。因此，经过双仿射运算后，得到的依存弧分值也更优。

实施例2

本实施例基于模式嵌入的自动树库转化方法，在实施例1的基础上，还包括：基于双树对齐数据库中各句子的词w_i和词w_j在目标端树的依存弧分值，进行数据训练，得到有监督转换模型，其中使用全局的CRFloss，对每一个句子定义损失函数，其中使用全局的CRFloss，对每一个句子定义损失函数。

Biaffine Parser对每个词定义局部的softmax loss。考虑到本实施例标注的训练通常为局部标注数据，局部损失函数的缺点是没有标注词的词语完全无法参与训练。局部标注中，已有的依存弧会对其他依存弧的概率分布产生影响，形成一定的指导信息。因此，对Baiffine Parser进行扩展，使用全局的CRF loss，对每一个句子定义损失函数，从而更好的利用局部标注数据。

实施例3

本实施例基于模式嵌入的自动树库转化系统，为了运行上述实施例1所述的方法，包括：双树对齐数据库，存储采用两种标注规范进行标注的句子；

目标端树的依存弧分值预测单元包括：

双树对齐数据库，存储采用两种标注规范进行标注的句子；

目标端树的依存弧分值预测单元包括：

模式嵌入向量生成模块，基于模式与嵌入向量对应表，将词w_i和词w_j的模式变换为对应的模式嵌入向量，记为

其中，W^b为双仿射运算参数。

实施例4

本实施例基于模式嵌入的自动树库转化系统，在实施例3的基础上，为了运行上述实施例2所述的方法，还包括有监督转换模型生成单元，基于双树对齐数据库中各句子的词w_i和词w_j在目标端树的依存弧分值，进行数据训练，得到有监督转换模型，其中使用全局的CRFloss，对每一个句子定义损失函数，其中使用全局的CRFloss，对每一个句子定义损失函数。

如图1所示，本发明，树库转化模型的输入为句子x和源端规范句法树d^src (HIT-CDT规范)，输出是符合目标规范的句法树d^tgt。因此，和标准句法分析任务相比，树库转化任务的重要挑战在于如何充分利用源端句法树d^src，刻画两种规范的对应规律，从而更好地构建目标端句法树。

特别说明：本发明中，MLP^D、MLP^H中的D和H没有特殊含义，仅仅用于区分两个公式。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于模式嵌入的自动树库转化方法，其特征在于，包括：

将源端树中词w_i对应的依存关系标签、词w_j的依存关系标签、词w_i和词w_j的最小公共祖先节点w_a的依存关系标签分别变换为依存关系嵌入向量

将模式嵌入向量和三个依存关系嵌入向量拼接起来，作为源端树d^src中词w_i和词w_j的结构信息的表示向量

感知器萃取出句法相关信息：

其中，W^b为双仿射运算参数；

2.根据权利要求1所述的基于模式嵌入的自动树库转化方法，其特征在于，还包括：基于双树对齐数据库中各句子的词w_i和词w_j在目标端树的依存弧分值，进行数据训练，得到有监督转换模型，其中使用全局的CRFloss，对每一个句子定义损失函数。

3.根据权利要求1所述的基于模式嵌入的自动树库转化方法，其特征在于，源端树的词和词之间定义了9种模式，其中，其他情况根据词和词的路径距离细分为4类，词w_k为所述句子中词w_i、词w_j以外的任一词，表格表示如下：

4.一种基于模式嵌入的自动树库转化系统，其特征在于，包括：双树对齐数据库、目标端树的依存弧分值预测单元，其中，

双树对齐数据库，存储采用两种标注规范进行标注的句子；

目标端树的依存弧分值预测单元包括：

依存关系嵌入向量生成模块，将源端树中词w_i对应的依存关系标签、词w_j的依存关系标签、词w_i和词w_j的最小公共祖先节点w_a的依存关系标签分别变换为依存关系嵌入向量，分别记为

感知器MLP模块，词w_i对应的循环神经网络BiSeqLSTM的顶层输出、词w_j对应的循环神经网络BiSeqLSTM的顶层输出分别与结构信息的表示向量拼接起来，作为感知器MLP的输入，感知器萃取出句法相关信息：

其中，W^b为双仿射运算参数。

5.根据权利要求4所述的基于模式嵌入的自动树库转化系统，其特征在于，还包括有监督转换模型生成单元，基于双树对齐数据库中各句子的词w_i和词w_j在目标端树的依存弧分值，进行数据训练，得到有监督转换模型，其中使用全局的CRFloss，对每一个句子定义损失函数，其中使用全局的CRFloss，对每一个句子定义损失函数。