CN108628829B

CN108628829B - 基于树形循环神经网络的自动树库转化方法及系统

Info

Publication number: CN108628829B
Application number: CN201810366795.6A
Authority: CN
Inventors: 李正华; 江心舟; 章波; 张民; 陈文亮
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-04-23
Filing date: 2018-04-23
Publication date: 2022-03-15
Anticipated expiration: 2038-04-23
Also published as: CN108628829A

Abstract

本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统，为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法，包括：基于双向树形循环神经网络TreeLSTM，得到词w_i、词w_i、词w_a的隐藏层输出向量

将隐藏层输出向量拼接起来，作为词w_i和词w_j在源端树中的表示向量

循环神经网络BiSeqLSTM顶层输出的输出向量

分别与表示向量

拼接起来，作为感知器MLP的输入，感知器萃取出句法相关信息；利用双仿射计算词w_i和词w_j的目标端依存弧分值。本发明充分利用源端句法树，刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。

Description

基于树形循环神经网络的自动树库转化方法及系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于树形循环神经网络的自动树库转化方法及系统。

背景技术

目前研究人员在树库研究方面开展了大量的研究和开发工作，也取得了可观的成果。这些树库采用的标注体系差别巨大，按照描述方法大体分为两种，一种是短语结构树，一种是依存树。

对于依存树而言，两个树库的依存标注是遵循不同的标注规范的，称这两个树库是异构的。很多世界主流语言都拥有多个大规模异构树库，由于树库的构建需要非常高昂的人工代价，因此如何利用不同的异构树库推进句法分析的性能是一个非常重要的研究方向。

树库转化工作的主要动机是通过标注小规模的双树对齐数据，有效的刻画不同标注规范之间的对应规律，构建有监督转化模型(树库转化模型)，最终目的是将大规模源端规范树库转化为符合目标规范的树库，迅速扩大符合目标规范的训练数据规模。如图1所示，图的上半部分是按照苏州大学的规范所标注的结果，下半部分是按照哈工大汉语依存树库HIT-CDT规范所标注的结果。这样一个句子有两种标注规范的数据，称之为双树对齐数据。

为了提高句法分析的性能，本领域研究人员提出了多个经典的方法，例如：基于指导特征的间接方法、基于多任务学习的间接方法、基于转化的直接方法。间接方法的主要问题是对源端树库的利用不充分，无法有效刻画规范之间对应规律；而基于转化的直接方法，受限于双树对齐数据的缺失，也无法有效学习规范之间的对应规律，因此转化效果一般。

发明内容

为解决上述技术问题，本发明的目的是提供一种充分利用源端树库的结构信息，进而得到更优目标端依存弧得分值的基于树形循环神经网络的自动树库转化方法及系统。

为达到上述发明目的，本发明基于树形循环神经网络的自动树库转化方法，包括：

获取双树对齐数据库，所述双树对齐数据库内存储有采用两种标注规范进行标注的句子；

分别计算各所述句子中每两个词在目标端树中的依存弧分值，其中，所述的两个词分别以词w_i和词w_j表示，预设词w_i和词w_j在目标端树中分别为修饰词和核心词，词w_i和词w_j在目标端树中的依存弧分值计算过程包括：

在源端树中提取词w_i、词w_j的最短路径树，基于双向树形循环神经网络TreeLSTM，得到该最短路径树中词w_i、词w_j、词w_a各自对应的隐藏层输出向量

其中，在源端树dsrc中，词ω_a为词ω_i和词ω_j的最近公共祖先节点；

将词w_i、词w_j、词w_a的隐藏层输出向量拼接起来，作为词w_i和词w_j在源端树中的表示向量

即

基于循环神经网络BiSeqLSTM，得到所述句子中各个词各自对应的顶层输出向量，词w_i和词w_j各自对应的顶层输出向量表示为

将词w_i和词w_j各自对应的顶层输出向量

分别与所述的表示向量

拼接起来，作为感知器MLP的输入；

感知器萃取出句法相关信息，公式表示如下：

利用双仿射计算词w_i和词ω_j的目标端依存弧分值，计算公式为：

其中，W^b为双仿射运算参数；

其中，将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接，得到该词对应的拼接向量，以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM，运算处理后，循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量；

其中，双向树形循环神经网络TreeLSTM计算词w_i、词w_j、词w_a各自对应的隐藏层输出向量的方法包括：对提取的最短路径树分别进行自下向上和自上向下的运算，其中

自下向上运算，LSTM节点的输入信息包括两部分，一部分为：该LSTM节点对应的顶层输出向量；若该LSTM节点有儿子节点，则另一部分为所有儿子节点的隐藏层输出向量；若该LSTM节点没有儿子节点，则另一部分为零向量；自下向上运算过程中，词ω_a的隐藏层输出向量h_a的计算公式如下：

f_a,k＝σ(U^(f)x_a+V^(f)h_k+b^(f))

h_a＝o_ae tanh(c_a)

其中，h_k是儿子节点w_k节点的隐藏层输出向量；

x_a是最近公共祖先节点w_a的输入向量；

C(a)是最近公共祖先节点w_a在最短路径树SP-tree中的儿子构成的集合；

f_a,k是最近公共祖先节点w_a的儿子节点w_k对应的遗忘门向量；

i_a是最近公共祖先节点w_a输入门输出向量；

U^(f)、V^(f)、b^(f)是遗忘门参数；

U⁽ⁱ⁾、V⁽ⁱ⁾、b⁽ⁱ⁾是输入门参数；

U^(o)、V^(o)、b^(o)是输出门参数；

U^(u)、V^(u)、b^(u)是生成细胞状态候选向量的参数；

o_a是最近公共祖先节点w_a节点的输出门输出向量；

u_a是细胞状态的候选向量；

c_a是新的细胞状态的向量；

h_a是最近公共祖先节点w_a节点的隐藏层输出向量；

自上向下运算，LSTM节点的输入信息包括两部分，一部分为：该LSTM节点对应的顶层输出向量；若该LSTM节点有父亲节点，则另一部分为父亲节点的隐藏层输出向量；若该LSTM节点没有父亲节点，则另一部分为零向量。

进一步地，还包括：基于每一个句子的词w_i和词ω_j在目标端树的依存弧分值以及双树对齐数据库中的双树对齐数据作为训练数据，基于全局的CRF loss对每一个句子定义损失函数，机器学习得到有监督转换模型。

为达到上述发明目的，本发明基于树形循环神经网络的自动树库转化系统，包括：

双树对齐数据库、目标端树的依存弧分值预测单元，其中，

双树对齐数据库，存储采用两种标注规范进行标注的句子，每一个句子即为双树对齐数据；

目标端树的依存弧分值预测单元包括：

双向树形循环神经网络模块，运行双向树形循环神经网络TreeLSTM，计算得到词w_i、词w_j、词w_a的隐藏层输出向量

在源端树dsrc中，词ω_a为词ω_i和词ω_j的最近公共祖先节点；

隐藏层向量拼接模块，将词w_i、词w_j、词w_a的隐藏层输出向量拼接起来，作为词w_i和词w_j在源端树中的表示向量

即

循环神经网络BiSeqLSTM模块，以句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块，运算处理后，循环神经网络BiSeqLSTM模块的顶层输出该句子中各个词分别对应的顶层输出向量，其中，所述拼接向量是一个词的嵌入向量和该词的词性的嵌入向量的拼接；

顶层输出向量和顶层向量拼接模块，将词w_i和词w_j各自对应的顶层输出向量

分别与词w_i和词w_j在源端树中的表示向量

拼接起来，作为感知器MLP的输入；

感知器模块，萃取出句法相关信息：

双仿射运算模块，计算词w_i和词ω_j的目标端依存弧分值，预设词w_i和词ω_j在目标端树中分别为修饰词和核心词，计算公式为：

其中，W^b为双仿射运算参数。

进一步地，还包括有监督转换模型生成单元，基于每一个句子的词w_i和词ω_j在目标端树的依存弧分值以及双树对齐数据库中的句子作为训练数据，基于全局的CRF loss对每一个句子定义损失函数，机器学习得到有监督转换模型。

借由上述方案，本发明基于树形循环神经网络的自动树库转化方法及系统至少具有以下优点：

树形循环神经网络可以自然地表示树状信息，并且被成功应用于信息抽取、情感分类、机器翻译等任务，都取了了较好的效果。本发明基于TreeLSTM(TreeRNN的一种具体实现)的转化方法，通过双向TreeLSTM，对源端树中词w_i和词ω_j的最短路径树(shortest-pathtree，SP-tree)进行深层表示，因此这样，MLP输出的词表示向量也包含了源端树中的结构信息，进而利用双仿射计算获得词w_i和词ω_j的目标端依存弧分值也更优，进而能够建立更加精准的有监督转化模型，进而直接刻画不同规范之间的结构映射关系，最终完成高质量树库转化。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。

附图说明

图1为一双树对齐数据的句法树示例，苏州大学的规范(上)与HIT-CDT规范(下)；

图2为本发明基于树形循环神经网络的自动树库转化方法的转化模型中依存弧score(i←j)的分值计算过程图；

图3为本发明基于树形循环神经网络的自动树库转化方法的实施例1的3.0为句子的源端书，3.1至3.4为四个最短路径树。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本发明中，所述的双树对齐数据库为现有的，本技术领域人员已标注好的双树对齐数据。

参见表1，罗列了目前公开的较大规模的汉语句法树库。Sinica汉语树库1包含的文本为繁体(Chenetal.,2003)；宾大树库CTB2最初由美国宾夕法尼亚大学发起，目前由布兰迪斯大学薛念文教授等维护和更新(Xueetal.,2005)；北大汉语树库PCT3由北大中文系逐步建设(詹卫东,2012)；清华汉语树库TCT4由清华大学周强教授等建设(周强,2004)；哈工大汉语依存树库HIT-CDT5由哈工大社会计算与信息检索研究中心建设；北大汉语依存树库PKU-CDT6由北大计算语言学研究所构建(邱立坤等,2015)。

表1目前公开的较大规模的汉语句法树库

以下各实施例中，循环神经网络BiSeqLSTM的顶层输出向量的计算方法包括：将该句子各个词的嵌入向量和各个词的词性的嵌入向量分别各自进行拼接，得到各个词分别对应的拼接向量，该句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM，运算处理后，循环神经网络BiSeqLSTM的顶层输出该句子中各个词分别对应的顶层输出向量。

实施例1

本实施例基于树形循环神经网络的自动树库转化方法，包括：

即

将词w_i和词w_j各自对应的顶层输出向量

分别与所述的表示向量

拼接起来，作为感知器MLP的输入；

感知器萃取出句法相关信息，公式表示如下：

其中，W^b为双仿射运算参数；

f_a,k＝σ(U^(f)x_a+V^(f)h_k+b^(f))

h_a＝o_ae tanh(c_a)

其中，h_k是儿子节点w_k节点的隐藏层输出向量；

x_a是最近公共祖先节点w_a的输入向量；

i_a是最近公共祖先节点w_a输入门输出向量；

U^(f)、V^(f)、b^(f)是遗忘门参数；

U⁽ⁱ⁾、V⁽ⁱ⁾、b⁽ⁱ⁾是输入门参数；

U^(o)、V^(o)、b^(o)是输出门参数；

U^(u)、V^(u)、b^(u)是生成细胞状态候选向量的参数；

o_a是最近公共祖先节点w_a节点的输出门输出向量；

u_a是细胞状态的候选向量；

c_a是新的细胞状态的向量；

h_a是最近公共祖先节点w_a节点的隐藏层输出向量；

本实施例，通过双向TreeLSTM，对源端树中w_i和w_j的最短路径树(shortest-pathtree，SP-tree)进行深层表示。为了利用源端树中的依存关系标签信息，将词w_i、词w_j、最近公共祖先节点w_a的隐藏层输出向量拼接起来，作为词w_i、词w_j在源端树dsrc中的表示；将

和循环神经网络BiSeqLSTM的输出拼接起来，作为感知器MLP的输入，这样，MLP输出的词表示向量也包含了源端树中的结构信息。因此，经过双仿射运算后，得到的依存弧分值也更优。

对于以下各实施例中的词w_a对应的输出向量也即为该词充当词ω_i或词ω_j时对应的输出向量，无需重新计算。例如参见图3中，图3.1所示的最短路径树中，词C该充当词ω_a的角色，作为词A和词B的最近公共祖先节点。但是在图3.1所示的最短路径树中，词C充当词ω_j的角色。

双向树形循环神经网络TreeLSTM的运算示例，一句话由A、B、C、D、E五个词组成，参见图3.0为该句话的源端树，基于该源端树提取了这五个词不同的两个词之间配对组成的几个最短路径树(当然不限于这几个最短路径树，在实际运算过程中是全部最短路径树)，参见图3.1至3.4。

示例一：参见图3.1，词C、词A、词B的最短路径树，其中词A对应词w_i,词B对应词w_j，词C对应词w_a。

自下向上运算：

(1)计算词A的隐藏层输出向量：LSTM节点的输入信息一部分为：词A对应的顶层输出向量；另一部分为零向量。

(2)计算词B的隐藏层输出向量：LSTM节点的输入信息一部分为：词B对应的顶层输出向量；另一部分为零向量。

(3)计算作为祖先节点的词C的隐藏层输出向量：LSTM节点的输入信息一部分为：词C对应的顶层输出向量；由于词C有两个儿子，则另一部分为子节点词A和词B的隐藏层输出向量。至此图3.1全部计算完毕。

自上向下运算：与图3.1的计算原理相同，

(1)计算词C的隐藏层输出向量：LSTM节点的输入信息一部分为：词C对应的顶层输出向量；另一部分为参照由下至上运算的原理，应该看看词C下面有没有树杈，也即有没有父节点，因此另一部分为零向量。

(2)计算词A的隐藏层输出向量：LSTM节点的输入信息一部分为：词A对应的顶层输出向量；另一部分为参照由下至上运算的原理，应该看看词A下面有没有树杈，也即有没有父节点，显然词A是词C的儿子，因此另一部分为父亲节点词C的隐藏层向量。

(3)计算词B的隐藏层输出向量：与词A的原理相同，LSTM节点的输入信息一部分为：词B对应的顶层输出向量；另一部分为参照由下至上运算的原理，应该看看词B下面有没有树杈，也即有没有父节点，显然词B是词C的儿子，因此另一部分为父亲节点词C的隐藏层向量。

示例二：参见图3.2，词E、词C、词D的最短路径树，其中词D对应词w_i,词C对应词w_j，词E对应词w_a。词E为词C和词D的最接近公共祖先节点，计算方法与示例一相同，在此不再赘述。

示例三：参见图3.3，词A、词C的最短路径树，其中词A对应词w_i,词C对应词w_j，同时词C对应词w_a。

自下向上运算：

(1)计算词A的隐藏层输出向量：LSTM节点的输入信息一部分为：词A对应的顶层输出向量；另一部分为零向量(词A没有儿子节点)。

(2)计算词C的隐藏层输出向量：LSTM节点的输入信息一部分为：词C对应的顶层输出向量；另一部分词A的隐藏层输出向量(词A为词C的儿子节点)，不同于示例一、二之处在于此时词A只有一个儿子节点。

自上向下运算：

(1)计算词C的隐藏层输出向量：LSTM节点的输入信息一部分为：词C对应的顶层输出向量；另一部分为零向量。应该看看词C下面有没有树杈，也即有没有父节点，因此另一部分为零向量。

(2)计算词A的隐藏层输出向量：LSTM节点的输入信息一部分为：词A对应的顶层输出向量，显然词A是词C的儿子，词A下面有树杈，因此另一部分为父亲节点词C的隐藏层向量。

示例四：参见图3.4，词E、词A、词D的最短路径树，其中词D对应词w_i,词A对应词w_j，同时词E对应词w_a。上述三个示例都是两个词之间直接相连，但是这个示例中词A和词E之间还有词C，词C为词A的父亲节点。

自下向上运算：

(2)计算词C的隐藏层输出向量：LSTM节点的输入信息一部分为：词C对应的顶层输出向量；从图中可以看出，词C的儿子节点为词A，因此，另一部分为词A的隐藏层输出向量。

(3)计算词D的隐层输出向量：LSTM节点的输入信息一部分为：词D对应的顶层输出向量；从图中可以看出，词D没有儿子节点，因此，另一部分为零向量。

(4)计算词E的隐层输出向量：LSTM节点的输入信息一部分为：词E对应的顶层输出向量；从图中可以看出，词E的儿子节点为词C、词D，因此，另一部分为词C、词D的隐藏层。

自上向下运算：

(1)计算词E的隐藏层输出向量：LSTM节点的输入信息一部分为：词E对应的顶层输出向量；另一部分为零向量，下面有没有树杈，也即有没有父节点。

(2)计算词D的隐藏层输出向量：LSTM节点的输入信息一部分为：词D对应的顶层输出向量，显然词D是词E的儿子(词D下面有树杈)，因此另一部分为父亲节点词E的隐藏层向量，也即父节点的隐藏层向量。

(3)计算词C的隐藏层输出向量：LSTM节点的输入信息一部分为：词C对应的顶层输出向量，显然词C是词E的儿子，因此另一部分为父亲节点词E的隐藏层向量，也即父节点的隐藏层向量。

(4)计算词A的隐藏层输出向量：LSTM节点的输入信息一部分为：词A对应的顶层输出向量，显然词A是词C的儿子节点，因此另一部分为词C的隐藏层向量，也即父节点的隐藏层向量。

实施例2

本实施例基于树形循环神经网络的自动树库转化方法，在实施例1的基础上，还包括：还包括：基于每一个句子的词w_i和词ω_j在目标端树的依存弧分值以及双树对齐数据库中的双树对齐数据作为训练数据，基于全局的CRF loss对每一个句子定义损失函数，机器学习得到有监督转换模型。

基于预测的每一个句子的词w_i和词ω_j在目标端树的依存弧分值，得到有监督转换模型，其中使用全局的CRFloss，对每一个句子定义损失函数。

本实施例中，Biaffine Parser对每个词定义局部的softmax loss。考虑到本实施例标注的训练通常为局部标注数据，局部损失函数的缺点是没有标注词的词语完全无法参与训练。局部标注中，已有的依存弧会对其他依存弧的概率分布产生影响，形成一定的指导信息。因此，对Baiffine Parser进行扩展，使用全局的CRF loss，对每一个句子定义损失函数，从而更好的利用局部标注数据。

实施例3

本实施例基于树形循环神经网络的自动树库转化系统，为了运行上述实施例1方法，包括：

双树对齐数据库、目标端树的依存弧分值预测单元，其中，

目标端树的依存弧分值预测单元包括：

在源端树dsrc中，词ω_a为词ω_i和词ω_j的最近公共祖先节点；

即

分别与词w_i和词w_j在源端树中的表示向量

拼接起来，作为感知器MLP的输入；

感知器模块，萃取出句法相关信息：

其中，W^b为双仿射运算参数。

实施例4

本实施例基于树形循环神经网络的自动树库转化系统，在实施例3的基础上，为了运行上述实施例2方法，还包括有监督转换模型生成单元，基于每一个句子的词w_i和词ω_j在目标端树的依存弧分值以及双树对齐数据库中的句子作为训练数据，基于全局的CRF loss对每一个句子定义损失函数，机器学习得到有监督转换模型。

实施例3、4中循环神经网络BiSeqLSTM模块，双向树形循环神经网络模块，的运行方法参见上述实施例1中所记载的内容，在此不再赘述。

如图1所示，本发明，树库转化模型的输入为句子x和源端规范句法树d^src(HIT-CDT规范，)输出是符合目标规范的句法树d^tgt。因此，和标准句法分析任务相比，树库转化任务的重要挑战在于如何充分利用源端句法树d^src，刻画两种规范的对应规律，从而更好地构建目标端句法树。

特别说明：本发明中，MLP^D、MLP^H中的D和H没有特殊含义，仅仅用于区分两个公式。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。