CN112487189B

CN112487189B - 一种图卷积网络增强的隐式篇章文本关系分类方法

Info

Publication number: CN112487189B
Application number: CN202011445448.6A
Authority: CN
Inventors: 钱铁云; 郑浩杰; 姜聪聪
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-07-05
Anticipated expiration: 2040-12-08
Also published as: CN112487189A

Abstract

本发明公开了一种图卷积网络增强的隐式篇章文本关系分类方法。该方法是一种从电子文本中进行隐式篇章关系分类的方法。首先，其引入了BERT预训练模型，提供了更高效的动态词向量表示，从而提高了篇章级别的整体表示；其次，该发明引入了图神经网络来建模句子之间的词级别的关系，能够更加准确地预测出句子对之间的隐式关系类型。该隐式篇章关系分类的方法采用图卷积网络增强的神经网络的技术，形成了一个更加直接、完整、端到端的隐式篇章关系分类模型，提高了关系分类任务的效果。

Description

一种图卷积网络增强的隐式篇章文本关系分类方法

技术领域

本发明涉及篇章关系分类领域，具体涉及一种图卷积网络增强的隐式篇章文本关系分类方法。

背景技术

互联网的快速发展和广泛普及，使得大量信息以电子文本的形式呈现在人们眼前。篇章关系(Discourse Relation)是指大量电子文本片段之间的语义关系或者修辞关系，文本片段通常由一个句子或者几个句子共同组成。篇章关系中主要包含四大类关系：对比关系(Comparison)，条件关系(Contingency)，时序关系(Temporal)，扩充关系(Expansion)。篇章关系分类(Discourse Relation Classification)指对文本中的文本片段之间存在的上述关系进行分类。篇章关系分类是篇章分析的关键步骤之一，对信息提取、机器翻译和自然语言生成等自然语言处理任务都有重要意义。

篇章关系主要分类两种类型：一种是在文本中有明显能表明关系类型的连接词，比如but、because等，这种类型的篇章关系称作显式篇章关系；相对的，另一种是在文本中没有出现连接词，必须从上下文语义中判断篇章关系的，这种称作隐式篇章关系。显式篇章关系因为有连接词的存在，可以很好地判断出篇章关系类型，而隐式篇章关系的分类准确度较低，所以本发明主要涉及的是隐式篇章关系分类方法。

初期的篇章关系分类任务通常采用基于特征工程技术的模型。这种模型的复杂度较低，实现简单，但是存在显著缺陷。因为特征工程技术需要由领域相关的专家人工设计关键的特征和规则，并且会依赖外部的自然语言处理工具。

随着深度学习及神经网络在学术界与工业界的大力应用，采用深度学习技术的隐式篇章关系分类模型被广泛使用，一定程度上缓解了基于特征工程技术模型的缺陷。采用深度学习技术的模型一方面可以实现“端到端”的系统架构，即一端输入原始数据，另一端输出分析结果，可以形成更加自动、完整的事件抽取系统。另一方面深度学习技术具有更加强大的特征表示与建模能力，能够从大量的数据中自动学习到有用的特征帮助模型进行关系分类。

在目前已有的基于神经网络的隐式篇章关系分类模型中，大多是在词向量基础上进行特征提取和特征交互，最后对句子关系进行分类。这种方法存在的缺陷就是，由词向量得到的句子整体含义的表示会有很大程度的偏差。并且以前的方法一般利用词对和Attention机制来获取句子对之间的关系，但是Attention机制不能很好判断成分之间的联系程度和重要程度，因此存在句子内部不同成分的交互不足的缺陷。

针对以上缺陷，本发明提出了一种图卷积网络增强的隐式篇章文本关系分类模型，以形成一种端到端和高效的隐式关系方法。

发明内容

针对已有联合模型中的缺陷，本发明提供了一种图卷积网络增强的隐式篇章文本关系分类方法。该方法考虑了句子整体表示获取的方法以及以往的方法在句子内部成分关系交互方面的不足，提高了隐式关系分类的准确度。

本发明的技术方案如下：图卷积网络增强的隐式篇章文本关系分类方法，其特征在于，包括以下步骤：

步骤1：对原始数据集中的电子文本及标注信息，进行预处理获得符号化表示，并且按照需求比例划分训练集、验证集和测试集。

步骤2：将训练样本与验证样本批量随机地输入图卷积网络增强的隐式篇章文本关系分类模型中，开始迭代模型训练过程，得到训练集与验证集上的评价指标，当验证集上的指标不再上升或者迭代达到一定次数后停止，保存验证集上的最优模型。

步骤3：加载保存的在验证集上评价指标最优的图卷积网络增强的篇章文本关系分类模型，将测试样本批量送入网络中，输出与保存分类的结果。

进一步的，所述步骤1中的原始数据集需要包含相关的篇章文本与其对应的关系的标注结果。对含有隐式篇章关系的篇章文本与标注的预处理包括将文章中有隐式篇章关系的每对文本提取出来，并且与其关系对应等，最终处理成一系列有序、固定格式、篇章级别的模型所需输入。最后，按照需求，划分训练集、验证集和测试集。

进一步的，所述步骤2中的图卷积网络增强的隐式篇章文本关系分类网络具体包含以下子步骤：动态词向量表示、序列信息特征表示、句子对之间关系表示、关系分类。1)动态词向量是相对于静态词向量而言的词向量表示，主要以BERT模型生成的词向量为代表。动态词向量表示的目标是利用预先训练好的BERT模型，将文本中的每个字转化为具有上下文信息的对应的动态向量表示。具体地，本发明在将文本输入BERT模型之前，还需要在句子1的前面加一个[CLS]位，在句子1和句子2之间以及句子2的最后各加一个[SEP]位，这是BERT预训练模型在进行句子对关系分类时的固定输入模式。利用预训练好的BERT模型生成动态词向量，每个词都用一个连续的动态的稠密向量来表示，并且[CLS]对应的词向量包含了句子对的整体信息和句子对之间的关系信息。BERT模型的参数也会随着训练而进行微调。2)序列信息特征主要是通过建模使得序列中的每个个体能够获得上下文的信息。序列信息特征表示的目标是对每条句子的单词序列进行建模。本发明采用了双向长短期记忆网络分别对该任务中的每条句子进行序列建模，这样每个单词的表示融合了上下文的信息。3)句子对之间关系表示的目的是融合两个句子对之间的一些重要短语或单词之间的关系。具体地，本发明将序列信息特征的表示输入图卷积网络中，采用图卷积的方法来建模句子对的内部单词之间的关系，可以帮助识别句子对之间的关系。图卷积网络输出的每个单词的表示融合了句子对之间的词对信息，然后将两句话的所有单词的表示输入Pooling层，得到了图卷积网络建模的句间关系的特征表示。4)关系分类的目的是识别出每一对句子之间的关系类型。本发明采用两个分类器。分类器1是对BERT的[CLS]位的输出特征进行分类，将[CLS]位对应的向量的表示通过前馈神经网络及softmax层，可转换为每种关系的概率分布P₁。分类器2是将图卷积网络建模的句间关系的特征表示输入前馈神经网络和softmax层，也可以转换成每种句间关系的概率分布P₂。对P₁和P₂两个概率分布分别计算交叉熵损失然后求和，通过最小化该损失和，可使得分类任务的准确性更高。

按照上述几个子步骤依次构建图卷积网络增强的隐式篇章文本关系分类网络后，将训练与验证样本随机批量的输入到网络中，并且利用随机梯度下降(StochasticGradient Descent)方法使网络逐渐学习最优的参数值，同时计算在验证集上的评价指标，当验证集上的指标不再上升或者网络训练迭代到一定次数后停止训练，保存验证集上表现最优的关系分类模型。

进一步的，所述步骤3的测试过程具体为先加载步骤2中训练好的关系分类模型，再将测试集中的样本批量输入到网络中，此时网络参数固定不变。经过网络计算后，得到每对句子之间的关系类型。

与现有技术相比，本发明具有以下优点和积极效果：

1)本发明引入了BERT预训练模型来获取更好的动态的词向量表示，并且提高了句子的整体表示效果。

2)本发明考虑到了句子之间内部成分关系的交互，采用了图卷积网络来增强上下句之间的交互，提高关系分类的准确度。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例的网络框架图；

具体实施方式

具体实施时，本发明所提供技术方案可由本领域技术人员采用计算机软件技术实现自动运行流程。以下结合附图和实施例详细说明本发明技术方案。

实施例中，本发明选择了篇章关系分类任务中被广泛采用的PDTB v2.0数据集，该数据集自被提出后便逐渐在篇章关系分类领域内取得了广泛的使用。该数据集提供了三种不同层次的关系分类标注，由于第一层次的四个大类已经能很好的描述篇章级别的语义关系，而且在第二层次的分类中的各种关系中所包含的数据条数之间极度不平衡，故本发明选择在第一层次的关系标注上进行实验。第一层次标注中包含Comparison，Contingency，Expansion，Temporal四个大类关系。

在进行预处理后，将按照通用的训练、验证、测试划分方式，对于总计包含23个section的电子文本的PDTB v2.0英文数据集，本发明把section 2-20作为训练集,把section 0-1作为验证集,把section 21-22作为测试集。具体地，一对具有篇章关系的文本可以表示为：

D＝{W₁,W₂}

其中W₁＝w₁₁,w₁₂…,w_1n和＝w₂₁,w₂₂…,w_2m代表两条句子分别包含N个和M个词。

步骤2：参考附图1，将训练样本与验证样本批量随机地输入图神经网络增强的隐式篇章文本关系分类网络中，开始迭代模型训练过程，得到训练集与验证集上的评价指标，当验证集上的指标不再上升或者迭代达到一定次数后停止，保存验证集上的最优模型。

实施例中，按照固定的批大小，每次随机选定部分样本句子对作为输入。参考附图2，此处以步骤1中的篇章关系文本D中的一对句子W₁,W₂为例，说明整个网络的实现过程。

1)动态词向量表示：本发明采用Google公司提出的预训练动态词向量模型BERT。首先，将W₁,W₂分别用BERT分词工具进行分词，然后句子1的前面加一个[CLS]位，在句子1和句子2之间以及句子2的最后各加一个[SEP]位，这是BERT预训练模型在进行句子对关系分类时的固定输入模式。接着将两个序列拼成一个，一起输入到BERT模型中，利用BERT内已有的参数来为整个句子对生成隐藏层向量。每一个输入BERT的分词就会对应一个动态词向量表示，并且[CLS]位对应的输出向量包含了上下句之间的关系：

其大小分别为(N+2)*d_w和(M+1)*d_w，其中d_w为BERT输出的词向量的维度。

最后，本发明将上下句得到的向量拼接成一个序列，得到整个句子对序列初步的矩阵向量表示

其维度为(N+M+3)*d_w。同时，BERT输出的[CLS]位对应的词向量包含着两句话之间的关系和全局的信息，也会在最后用来预测关系分类，记为x_[CLS]。

2)序列信息特征表示：本发明选择使用双向长短期记忆网络(Bi-LSTM)来捕获每个句子的特定序列信息，并建立上下文关系。具体地，将上下句的词向量矩阵

分别送入双向LSTM网络中，得到前向的表示：

以及后向的表示：

接着将前向表示与后向表示拼接得到序列信息的特征表示:

其维度为(N+2)*(2d_gru)，其中d_gru为设定的双向LSTM的隐藏单元个数。

本发明考虑了两句话之间训练趋势的差异，为句子一和句子二分别训练了一套双向LSTM，即对于输入矩阵

最终可以分别得到序列向量表示

3)句子对之间关系表示：本发明将序列信息特征的表示输入图卷积网络中，采用图卷积的方法来建模句子对的内部单词之间的关系，可以帮助识别句子对之间的关系。具体地，经过Bi-LSTM之后，可以得到句子对的序列信息特征表示

与

然后本发明对这两个表示进行图卷积操作。现在假设

的长度是N+2，

的长度是M+1，所以构造的图的节点数是|V|＝N+M+3，关系图的邻接矩阵是A∈R^|V|×|V|。因为篇章关系分类的目标在于分析两个句子间的关系，因此构图的目标是建立两个句子之间单词之间的关系，而不是同句子内部的关系。为了方便描述，邻接矩阵A可以表示为分块矩阵：

其中，I^(N+2)×(N+2)和I^(M+1)×(M+1)是句子一和句子二各自内部单词的连边，对于同一个句内的单词，只构建自连边，故而它们为单位矩阵。W∈R^(N+2)×(M+1)表示句子一的单词表示和句子二的单词表示之间的关系。W中的每个元素表示的是两句话之间的单词的关系，而不是同一句话内部的单词之间的关系。具体地，W中的第i行第j列的元素w_ij表示的是句子一的第i个位置的表示与句子二的第j个位置的表示关系。w_ij的值由两个部分得到，其中前半部分为句子一的第i个单词的序列表示h_1i和句子二的第j个单词序列表示h_2j的余弦相似度值；后半部分为第一个句子的第i个单词的序列表示h_1i和BERT预训练模型输出的[CLS]位的隐藏层向量x_[CLS]的余弦相似度值：

其中‖·‖表示的是L2正则化。那么矩阵W就可表示为：

得到两个句子的邻接矩阵以及节点的表示(也就是单词的序列表示)后，本发明按照图卷积运算进行计算，得到卷积后的每个节点的表示：

其中D矩阵是A矩阵的度矩阵，D为一个对角矩阵，其对角线上的值计算方式为D_ii＝∑_jA_ij。σ为激活函数如Sigmoid，Tanh或者Relu等。

经过图卷积层后，我们得到经过图卷积的节点表示矩阵G后，本发明采用平均池化和最大值池化的方法来获得最后的用于篇章关系分类的表示：

O＝[maxpooling(G)，meanpooling(G)]

4)关系分类：本发明采用两个分类器。分类器1是对BERT的[CLS]位的输出特征进行分类，将[CLS]位对应的向量的表示x_[CLS]通过前馈神经网络及softmax层，可转换为每种关系的概率分布P₁：

P₁＝softmax(FFN(x_[CLS]))

分类器2是将图卷积网络建模的句间关系的特征表示O输入前馈神经网络和softmax层，也可以转换成每种句间关系的概率分布P₂：

P₂＝softmax(FFN(O))

对P₁和P₂两个概率分布分别计算交叉熵损失然后求和，通过最小化该损失的和，可使得分类任务的准确性更高。

本发明使用Adam算法将梯度回传并计算更新后的参数值。在每一轮训练后，考察模型在验证集D^dev上的性能指标：精确度Precision、召回率Recall和宏平均F1值。最后，保存在验证集上表现最好的模型，作为最终的交互增强的多任务联合事件抽取模型。

步骤3：加载步骤2中训练好的隐式篇章关系分类模型，再将测试集中的样本批量输入到网络中，此时网络参数固定不变。经过网络计算后，得到每对句子的关系类型。

实施例中，加载在验证集上表现最好的模型，输入测试集D^test，得到测试集的关系分类结果。例如，输入一对句子：

Arg 1:as many real-estate values depreciated,the council says.(该委员会说，由于许多房地产价格下跌。)

Arg 2:RJR Nabisco pays up to$30,000of losses,including improvements.(RJR纳贝斯克公司承担了高达3万美元的损失，包括改善的费用。)

模型输出的关系类型为Expansion(扩展)。

本文中所描述的具体实施例仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例作各种各样的修改、补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种图卷积网络增强的隐式篇章文本关系分类方法，其特征在于，包括以下步骤：

步骤1：对原始数据集中的电子文本及标注信息，进行预处理获得符号化表示，并且按照需求比例划分训练集、验证集和测试集；

步骤2：将训练样本与验证样本批量随机地输入图卷积网络增强的隐式篇章文本关系分类模型中，开始迭代模型训练过程，得到训练集与验证集上的评价指标，当验证集上的指标不再上升或者迭代达到一定次数后停止，保存验证集上的最优模型；

图卷积网络增强的隐式篇章文本关系分类模型具体包含以下子过程：

1）动态词向量表示：利用预先训练好的BERT模型，将文本中的每个字转化为具有上下文信息的对应的动态向量表示；

2）序列信息特征表示：对每条句子的序列信息进行建模；

3）句子对之间关系表示：融合两个句子对之间的一些重要短语或单词之间的关系；

4）关系分类：识别出每一对句子之间的关系类型；

所述关系分类具体为：采用两个分类器，分类器1对BERT的[CLS]位的输出特征进行分类，将[CLS]位对应的向量表示通过前馈神经网络及softmax层，转换为每种关系的概率分布P1；分类器2是将图卷积网络建模的句间关系的特征表示输入前馈神经网络和softmax层，转换成每种句间关系的概率分布P2；对P1和P2两个概率分布分别计算交叉熵损失然后求和，通过最小化损失和；按照上述步骤依次构建图卷积网络增强的隐式篇章文本关系分类网络后，将训练与验证样本随机批量的输入到网络中，并且利用随机梯度下降方法使网络逐渐学习最优的参数值，同时计算在验证集上的评价指标，当验证集上的指标不再上升或者网络训练迭代到一定次数后停止训练，保存验证集上表现最优的关系分类模型；

2.根据权利要求1所述的图卷积网络增强的隐式篇章文本关系分类方法，其特征在于，所述步骤1中的原始数据集需要包含相关的篇章文本与其对应的关系的标注结果；对含有隐式篇章关系的篇章文本与标注的预处理包括将文章中有隐式篇章关系的每对文本提取出来，并且与其关系对应，最终处理成一系列有序、固定格式、篇章级别的模型所需输入；最后，按照需求，划分训练集、验证集和测试集。

3.根据权利要求2所述的图卷积网络增强的隐式篇章文本关系分类方法，其特征在于：所述动态词向量表示具体为：将文本输入BERT模型之前，在句子1的前面加一个[CLS]位，在句子1和句子2之间以及句子2的最后各加一个[SEP]位，利用预训练好的BERT模型生成动态词向量，每个词都用一个连续的动态的稠密向量来表示，并且[CLS]对应的词向量包含了句子对的整体信息和句子对之间的关系信息。

4.根据权利要求3所述的图卷积网络增强的隐式篇章文本关系分类方法，其特征在于：所述序列信息特征表示具体为：采用了双向长短期记忆网络分别对任务中的每条句子进行序列建模。

5.根据权利要求4所述的图卷积网络增强的隐式篇章文本关系分类方法，其特征在于：所述句子对之间关系表示具体为：将序列信息特征的表示输入图卷积网络中，采用图卷积的方法来建模句子对的内部单词之间的关系；图卷积网络输出的每个单词的表示融合了句子对之间的词对信息，然后将两句话的所有单词的表示输入Pooling层，得到了图卷积网络建模的句间关系的特征表示。

6.根据权利要求1所述的图卷积网络增强的隐式篇章文本关系分类方法，其特征在于，所述步骤3的测试过程具体为先加载步骤2中训练好的关系分类模型，再将测试集中的样本批量输入到网络中，此时网络参数固定不变；经过网络计算后，得到每对句子之间的关系类型。