CN109885841B

CN109885841B - 基于结点表示法的指代消解方法

Info

Publication number: CN109885841B
Application number: CN201910212569.7A
Authority: CN
Inventors: 孔芳; 付建; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2023-07-11
Anticipated expiration: 2039-03-20
Also published as: CN109885841A

Abstract

本发明公开了一种基于结点表示法的指代消解方法，包括：结点表示法：给定成分句法树，通过后序遍历得到其对应的结点序列，然后通过“字词嵌入替换法”获得其初始表示，通过双向长短时记忆网络获得其上下文表示；特征补充法：从成分句法树上提出每个结点的特征集加入初始表示中，丰富节点的表示；结点更新法：结合注意力机制与门控机制，利用孩子节点序列更新双亲结点的表示；结点枚举策略。本发明的有益效果：通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略，将整棵成分句法树的信息编码加入模型中，弥补了传统模型忽略结构信息与句法信息的不足，增强了句法结构信息在指代消解系统中的表达。

Description

基于结点表示法的指代消解方法

技术领域

本发明涉及机器语言处理领域，具体涉及一种基于结点表示法的指代消解方法。

背景技术

指代是一种常见的语言现象，大量出现在篇章或者对话中。它保持了语言的简练，减少了冗余。比如句子“玛丽居里开创了放射性理论，发明了放射性同位素的技术。在她的指导下，人们第一次将放射性同位素用于治疗肿瘤”中，“她”指代“玛丽居里”。在语言学中，用于指向的语言单位成为照应语，如例中的“她”；所指向的对象或者内容成为先行词，如例中的“玛丽居里”。

一般情况下，指代分为两种：回指和共指。回指是指当前的照应语与上文出现的词、短语或句子存在密切的语义关联性，指代依存于上下文语义中，在不同的语言环境中可能指代不同的实体，具有非对称性与非传递性；共指是指两个名词或者名词短语指向真实世界中的同一参照体，这种指代脱离上下文依然存在。目前的指代消解研究偏重于共指消解，本文亦然。

指代消解的研究历史悠久。早期的研究主要通过专家构建领域知识，形成消解规则进行指代消解。近年来，得益于自然语言处理会议的召开和其公布的标注良好的指代消解语料，指代消解的研究转向了数据驱动的方法。特别是随着深度学习技术的兴起和发展，越来越多的学者开始应用深度学习方法于指代消解研究。

目前深度学习技术在指代消解任务上应用最为广泛。其中典型的工作是Lee等人[1]于2017年提出的基于神经网络的端到端指代消解框架，该框架构成如图1所示。

对于输入文本

N_D为文本D所包含的单词数，从中抽取出短语集合S＝{s₁,s₂,...,s_n}，其中/>

b_i与e_i分别表示短语s_i的开始位置与结束位置的单词的下标，故1≤b_i≤e_i≤N_D，s_i的宽度为e_i-b_i+1。

该模型的主要思想是利用嵌入层、上下文表示层与注意力机制对短语进行表示，然后通过前馈神经网络对短语进行打分，并根据得分进行修剪，保留置信度较高的短语成为待消解项；对于每一个待消解项，与之前的所有候选先行词分别配对，并使用前馈神经网络计算其间存在指代关系的置信度，取置信度最高的候选先行词作为最终的消解结果。下面对图中的每一层进行简要阐述：

嵌入层：对于

通过字、词嵌入，得到单词对应的嵌入表示

其中w_i与c_i分别表示单词w_i的词嵌入向量与字嵌入向量。

上下文表示层：给定

使用双向LSTM作为表示层来获得x_i对应的上下文表示/>

短语表示层与修剪层：给定短语

设定该短语的向量表示为：

其中f_i表示额外的特征向量(此处编码短语的宽度特征)，

通过以下注意力机制计算得出：

得到所有短语的向量表示后，使用前馈神经网络对其进行打分：

score_m(i)＝FFNN_m(s_i) (0.17)

然后取得分最高的前k个短语作为待消解项集合A，参与后续的消解操作。

消解层：给定待消解项s_i与其候选先行词s_j，其中s_i∈A，s_j∈{ε}∪{s_k|1≤k≤i-1}，0≤j＜i≤k。当j＝0时，s_j＝ε，表示s_i不存在任何候选先行词。类似地，使用前馈神经网络来获得s_i与s_j之间的先行词得分：

score_a(i,j)＝FFNN_a([s_i,s_j,s_i⊙s_j,f_i,j]) (0.18)

其中，f_i,j编码s_i与s_j之间的讲述者、篇章类型与距离特征。

进一步地，可以得到s_i与s_j之间的指代得分：

最终，取s_i的候选先行词集合中与s_i指代得分最高的s_j*＝argmax_jscore(i,j)作为s_i的最终消解结果。

传统技术存在以下技术问题：

大量的研究表明结构信息对于指代消解任务来说至关重要。同时语料中存在的大量的表述间嵌套情况也侧面反映了结构信息的普遍性与研究意义。但是基准平台只编码了文本的线性结构，忽略了文本内部潜在的树形结构信息。

参考文献：

[1]Lee K,He L,Lewis M,et al.End-to-end Neural Coreference Resolution[C]//Proceedings of the 2017Conference on Empirical Methods in NaturalLanguage Processing.2017:188-197.

发明内容

本发明要解决的技术问题是提供一种基于结点表示法的指代消解方法，将成分句法树“扁平化”为节点序列，通过结合双向LSTM、特征工程、门控与注意力机制对节点序列进行编码与表示，并最终加入神经指代消解模型中，增强模型中结构信息的表达。为了解决上述技术问题，本发明提供了一种基于结点表示法的指代消解方法，包括：

节点表示法：

给定句法树t，通过后序遍历得到结点序列

其中n_t表示t中结点的总数(不包括“单词结点”)；

然后利用“字词嵌入替换法”初始化节点序列的表示：

首先使用零向量对其进行初始化，

然后，对序列中与“单词结点”连接结点对应位置的向量表示，替换为对应单词的字词嵌入表示：

使用特征集进一步丰富序列中结点的表征：

特征集包括左右兄弟数、标签与路径特征，其定义如下：

结点x的左右兄弟数：如果两个结点拥有相同的双亲，则称它们为兄弟；由于成分句法树是有序数，定义结点x的左右兄弟数为：[x左侧(或之前)兄弟的数目，x左右(或之后)兄弟的数目]；

结点x的标签：即结点x在成分句法树中的标签；

结点x的路径：从结点x到根结点的简单路径所经过结点的标签序列，标签序列以x的标签开始，以根结点的标签结束；

将加入特征集的O^(t)作为上下文表示层的输入，使得上下文表示层能够学习到序列潜在的层次结构表示，而不仅仅是简单的线性结构；得到对应O^(t)的上下文表示：

使用“结点更新法”进一步增强结构信息的表示：

具体地，对于结点序列中的任意结点

将其孩子结点序列记为/>

并利用以下公式计算孩子结点序列的固定维度的向量表示：

这里，使用注意力机制实现Γ函数，公式如下：

然后结合门控机制，更新结点

的表示：

显然，当

时，

最终再利用新的上下文表示层对h′_i ^(t)进行重新编码，得到新的上下文表示，这里仍将其结果记为

得到新的H^(t)；

由于后续的操作(即短语的表示)只需要单词序列的上下文表示，因此需要再从H^(t)中提取出叶子结点(即单词)序列的上下文表示L^(t)：

对文档D中的每一个成分句法树应用相同的操作，然后按照句子的顺序将其拼接起来，得到文档D的新的上下文表示：

其中，

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一项所述方法的步骤。

一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任一项所述的方法。

本发明的有益效果：

通过“结点表示法”、“特征补充法”、“节点更新法”与节点枚举策略，将整棵成分句法树的信息编码加入模型中，弥补了传统模型忽略结构信息与句法信息的不足，增强了句法结构信息在指代消解系统中的表达。

附图说明

图1是背景技术中的基于神经网络的端到端指代消解框架的示意图。

图2是本发明基于结点表示法的指代消解方法中的结点的表示与更新示意图。

图3是本发明基于结点表示法的指代消解方法中的成分句法树示例。

图4是本发明基于结点表示法的指代消解方法中的后序遍历后的成分句法树示例。

图5是本发明基于结点表示法的指代消解方法中的注意力机制示例。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

给定句法树t，通过后序遍历得到结点序列

其中n_t表示t中结点的总数(不包括“单词结点”)。

为了得到O^(t)的向量表示，首先使用零向量对其进行初始化，

然后，对序列中与“单词结点”连接结点对应位置的向量表示，替换为对应单词的字词嵌入表示(以下简称“字词嵌入替换法”)：

使用特征集进一步丰富序列中结点的表征。特征集包括左右兄弟数、标签与路径特征，其定义如下：

结点x的左右兄弟数：如果两个结点拥有相同的双亲，则称它们为兄弟。由于成分句法树是有序数，定义结点x的左右兄弟数为：[x左侧(或之前)兄弟的数目，x左右(或之后)兄弟的数目]；

结点x的标签：即结点x在成分句法树中的标签；

结点x的路径：从结点x到根结点的简单路径所经过结点的标签序列，标签序列以x的标签开始，以根结点的标签结束。

将加入特征集的O^(t)作为上下文表示层的输入，使得上下文表示层能够学习到序列潜在的层次结构表示，而不仅仅是简单的线性结构。得到对应O^(t)的上下文表示：

然后使用“结点更新法”进一步增强结构信息的表示，如图2所示。

具体地，对于结点序列中的任意结点

将其孩子结点序列记为/>

并利用以下公式计算孩子结点序列的固定维度的向量表示：

这里，使用注意力机制实现Γ函数，公式如下：

然后结合门控机制，更新结点

的表示：

显然，当

时，

得到新的H^(t)。

其中，

另一方面，针对暴力枚举的短语抽取策略所存在的问题，提出一种“结点枚举”策略：将句法树的结点作为短语，取所有结点对应的短语构成候选短语集合。

利用基准框架在CoNLL 2012指代消解评测语料上进行了实验。实验结果如下表1所示。表中的S*分别代表不同的实验配置：

S1：使用后序遍历的结点表示法

S2：使用“左右兄弟数”、“标签”与“路径”构建结点的特征集；

S3：使用注意力机制进行结点的更新，其中自动标注数据使用bilinear注意力，人工标注数据使用tanh注意力；

S4：使用结点枚举的短语抽取策略。

表1各个实验配置在开发集上的结果(CoNLL F1值)

综合上述方法与策略，在CoNLL 2012的中英文测试集上进行了最终的实验，实验结果如表2所示。

表2系统在测试集上的结果(CoNLL F1值)

以句子“NGO/是/一/个/很/好/的/切入点/。”为例对上述过程中的关键步骤进行说明，该句子对应的成分句法树如图3所示。

句法树对应的叶子结点序列为[NN，VC，CD，CLP，AD，VA，DEC，NN，PU]，序列长度为9。后序遍历后得到树的结点序列为[NN，NP，VC，CD，M，CLP，QP，AD，ADVP，VA，VP，VP，IP，DEC，CP，CP，NN，NP，NP，VP，PU，IP，TOP]，序列长度为23，如图4所示。

按照上文所述，使用字词嵌入替换法得到序列的初始表示

O^(t)＝[x₁,0,x₂,x₃,x₄,0,0,x₅,0,x₆,0,0,0,x₇,0,0,x₈,0,0,0,x₉,0,0] (0.45)

然后抽取每个结点的特征集，加入O^(t)中，以图4中的结点“NP-19”为例，其特征集如表3所示。

表3

初始表示经由上下文表示层编码得到对应的上下文表示

结合注意力机制，得到新的上下文表示。同样以“NP-19”为例，其求孩子结点序列的表示a₁₉如图5所示。

最终，从新的表示H^(t)中提取出单词序列的上下文表示：

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例，本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换，均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。