CN111695341A

CN111695341A - 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统

Info

Publication number: CN111695341A
Application number: CN202010547455.0A
Authority: CN
Inventors: 鉴萍; 张映雪
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-09-22
Anticipated expiration: 2040-06-16
Also published as: CN111695341B

Abstract

本发明提供一种基于篇章结构图卷积网络的隐式篇章关系分析方法和系统，包括S1，输入文章；S2，通过分类器识别篇章关系，其中，分类器的构建方法包括：S21、获取语料库样本和篇章关系类别，对样本进行预处理以获得篇章段落和样本的词向量；S22、将篇章段落中的论元输入Bi‑LSTM编码，获取样本的局部句子特征；S23、构建篇章结构图；S24、篇章结构图卷积，以获得样本的全局句子特征；S25、融合样本的全局句子特征和局部句子特征，并作为输入，将篇章关系类别作为输出，训练分类器。通过本发明，有效利用了上下文信息，提升了隐式篇章关系识别的准确度。

Description

一种基于篇章结构图卷积的隐式篇章关系分析方法和系统

技术领域

本发明涉及一种隐式篇章关系分析方法，特别涉及一种基于篇章结构图卷积的隐式篇章关系分析方法和系统，属于自然语言处理应用技术领域。

背景技术

隐式篇章关系分析是篇章关系分析的重要分支，也是当前丞待解决的难点。隐式篇章关系建立在词法和句法分析之上，旨在篇章级别对没有篇章连接词连接的句际关系进行识别与归类。由于句子(亦称论元)之间缺乏篇章连接词，模型只能通过理解文本中的深层语义来识别句间的隐式关系，这十分具有挑战性。

现有方法大多专注于论元本身的局部语义，而忽略篇章中的上下文信息。但是，篇章中的句子并非独立存在，而是往往围绕同一个话题并相互关联。有时，两个论元在不同的语境之中会产生不同的关系。因此掌握篇章的上下文信息，抽取结合篇章语境的论元表示十分有助于正确判断论元间篇章关系的类别。Dai等人初次在利用篇章上下文语义上前进了一步，他们引入一种篇章级别的神经网络，该模型基于序列模型双向LSTM实现，对篇章单元之间的相互依存以及篇章关系的连贯性进行建模，获得全局信息帮助分类。但这种基于序列模型的篇章建模方法有一定局限性。首先，序列模型自左向右或自右向左对篇章编码，会面临长距离遗忘的问题。其次，序列模型难以建模一些非连续的依赖，弱化了一些至关重要的关联信息，极易造成模型判断失误。

综上所述，本发明创新性地提出利用论元间共指关系、词汇链关系及连接关系构造篇章结构图，并利用图卷积网络从篇章结构图中抽取融合上下文信息的论元表示帮助分类。在英文语料集PDTB 2.0上的实验证明了考虑篇章上下文信息可有效提升隐式篇章关系分类的效果，且基于图结构的篇章建模方法优于层级化LSTM模型的建模方法。

发明内容

针对以上问题，本发明提出将篇章中各个句子之间的关联抽象为图结构，形成篇章结构图，并基于该图使用图卷积网络抽取融合篇章整体语义的论元表示以帮助分类，提升隐式篇章关系分析的效果。

本发明技术方案的思想是：首先根据篇章中句子之间的共指关系、词汇链关系和连接关系构建篇章结构图。篇章结构图以单个论元为节点，有关联的论元之间相连。从文本的链接方式和篇章的特点这两个角度出发，我们确定了共指关系、词汇链关系和连接关系三种关系来构造图中的边，拟合句子之间长距离且非连续的依赖。其次，构建BiLSTM模型获取每句话的整体表示，用于初始化篇章结构图的节点。最后，应用图卷积网络在篇章结构图上抽取融合了篇章上下文语义的论元表示。该表示与BiLSTM的输出拼接作为最终的分类特征输入到分类器中。

根据本发明的一个方面，提出一种基于篇章结构图卷积网络的隐式篇章关系分析方法，包括以下步骤：

S1，输入文章；

S2，通过分类器识别篇章关系。

进一步的，所述分类器的构建方法包括：

S21、获取语料库样本和篇章关系类别，对样本进行预处理以获得篇章段落和样本的词向量；

S22、将篇章段落中的论元输入Bi-LSTM编码，获取样本的局部句子特征；

S23、构建篇章结构图；

S24、篇章结构图卷积，以获得样本的全局句子特征；

S25、融合样本的全局句子特征和局部句子特征，并作为输入，将篇章关系类别作为输出，训练分类器。

进一步的，所述步骤S21中，对样本进行预处理以获得段落和样本的词向量包括：

S211、对所有的样本进行分词，构建词表；

S212、针对样本，抽取所述样本在语料库中的若干句上文与所述样本构成篇章段落；

S213、对篇章段落中的每句论元进行词向量初始化。

进一步的，在所述步骤S213中，采用ELMo方法进行词向量初始化。

进一步的，在所述步骤S23中，构建篇章结构图的方法包括：

S231、以论元生成节点；

S232、通过以下三种方式生成边：

(1)通过指代链识别，为包含指代同一对象的论元节点生成边；

(2)通过词汇链识别，为包含词汇链中词汇的论元节点生成边；

(3)通过连接关系识别，为存在连接词的论元节点生成边。

进一步的，词汇链的构建方法包括：

(1)通过文本匹配识别篇章段落中重复出现的名词或名词短语；

(2)利用wordnet中的关系与所述篇章关系类别，识别篇章段落中与所述重复出现的名词或名词短语相关的词，从而构成词汇链。

进一步的，在所述步骤S24中，利用篇章结构图，使用GCN网络抽取论元融合上下文信息的全局句子特征。

进一步的，在所述步骤S25中，通过双层感知机进行训练。

根据本发明的另一方面，提出一种基于篇章结构图卷积网络的隐式篇章关系分析系统，包括分类器构建模块和篇章关系分析模块，其中，篇章关系分析模块用于接收篇章，将所述篇章输入分类器，并将分类器的输出结果呈现给用户。

进一步的，分类器构建模块包括：样本获取单元、预处理单元、局部特征获取单元、篇章结构图构建单元、全局特征获取单元和训练单元；其中，

样本获取单元，用于获取语料库中的样本或形成样本以及样本中的关系类别；

预处理单元，用于对样本进行预处理以获得篇章段落和样本的词向量；

局部特征获取单元，用于获取样本的局部句子特征；

篇章结构图构建单元，用于构建篇章结构图；

全局特征获取单元，用于对篇章结构图卷积，以获得样本的全局句子特征；

训练单元，用于融合样本的全局句子特征和局部句子特征，并作为输入，将关系类别作为输出，训练分类器。

本发明的有益效果是：通过构建篇章结构图有效利用上下文信息，提升了隐式篇章关系识别的准确度。

附图说明

图1为根据本发明一个实施例的方法流程图；

图2为根据本发明一个实施例的系统架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和具体实施方式对本发明作进一步说明。

本发明提出一种基于篇章结构图卷积的隐式篇章关系分析方法，该方法包括以下步骤：S1，输入文章；S2，通过分类器识别篇章关系。

在步骤S2中，如图1所示，构建分类器的方法包括：

S23、构建篇章结构图；

S24、篇章结构图卷积，以获得样本的全局句子特征；

在步骤S21中，获取语料库样本和篇章关系类别，对样本进行预处理。例如，选用PDTB 2.0为语料集。PDTB 2.0是当前最大的隐式篇章关系的数据集，其中包含16224个隐式样本。每个样本包括两个或多个句子(一个句子称为一个论元，下面以包含2个句子为例进行说明)，标注为两个句子之间的关系。PDTB 2.0中关系类别有三个等级，我们可以专注于一个等级，比如第一等级共有四种关系类别：Temporal,Expansion,Contingency,Comparison。下面以一个样本为例说明样本的形式，样本的两个论元如下

论元一：石油价格又上涨了。

论元二：之前不是一直在下降嘛。

这两个论元之间的篇章关系为“Comparison”。

在一个实施例中，预处理时，首先对所有的样本进行分词，构建词表。然后，针对每对论元，我们抽取其在语料库中的若干句(比如4句)上文和其一起构成篇章段落P。对P中的每句论元进行词向量初始化。例如，获得段落P中每个词的ELMo表示。ELMo的工作机制是：利用预训练双向LSTM语言模型获取结合了上下文信息的词向量，其使用每个单词的字符序列作为输入，采用CNN和HighWay网络编码后输入到之后连接的多层biLSTM中，最终的输出结果即每个单词的上下文嵌入表示。因此，ELMo实际上可看作是字符、单词和句子的混合编码器，为每个单词添加大量上下文信息，并简化了模型的语义学习。

在步骤S22中，在初始化词向量后，将段落P中的每个句子分别输入Bi-LSTM编码，获取融合了本句话信息的局部句子表示。令x_t表示一个序列第t个单词的嵌入表示。在时刻t，单向LSTM计算h_t如下：

h_t＝o_t×tanh(c_t)， (3)

其中，i_t，f_t，o_t分别表示输入门、记忆门和输出门，T_A，b表示在网络参数A和b之下的非线性变换，c_t和c_t-1分别表示当前时刻和上一时刻的状态变量，

为候选状态变量，h_t和h_t-1分别表示当前时刻和上一时刻的隐藏变量。经过足够次数的迭代以后，h_t中将包含单词x_t所所在的上文信息。σ，tanh是激活函数。Bi-LSTM是前向LSTM和后向LSTM的组合。因此，它可以捕获论元正向和逆向两个方向的上下文语义。Bi-LSTM在每个步骤中生成两个向量：

和

在步骤t，我们以它们的拼接

作为此序列的第t个单词的最终表示。将两个方向的最后一个状态拼接起来，可得到该句子的整体表示，即

每个样本的局部特征用

和

表示(因为其包含2个论元)，该特征一方面作为局部语义特征直接参与分类，一方面用于初始化篇章结构图的节点，为篇章结构图上的卷积奠定一个好的语义基础。

在步骤S23中，构建篇章结构图。我们以以下段落为例子，为简洁起见，我们仅取了四句话举例说明。该段落有ABCD四个论元(括号内是该论元与其下一个论元之间的篇章关系)

A:该制造商于1987年8月以每股15.75美元的价格上市(Expansion)

B:当时西姆的目标是到1992年每股价格达到29美元。(Expansion)

C:强劲的收益增长帮助该价格在1988年8月远远超过了预定价格。(Comparison)

D:此后，股票价格开始走软，上周的交易价格约为每股25美元。

篇章结构图以每个论元为一个节点，边的构造基于以下三种关系：

(1)指代链识别。可以采用开源的NLP工具包spaCy(https://spacy.io/)对段落进行指代消解，识别段落中的指代链，如论元C中“预定价格”与论元B中“29美元”存在共指关系，因此论元B与论元C之间构建一条指代边。根据指代链将具有指代同一对象的论元节点相连。

(2)词汇链识别。首先通过文本匹配将段落中重复出现的名词或名词短语识别出来，之后利用wordnet中的关系进一步识别该段落中与其相关的词。wordnet中定义的词汇间的关系直观上来看对于隐式篇章关系分类十分有用。例如，上位词及下位词关系可与篇章关系中“Expansion”比较相关，反义词关系与篇章关系中“Comparison”密切相关等。我们希望当使用wordnet扩大相关词汇链后，可以更轻松地对此类篇章关系进行分类。在识别上位词、下位词时，我们将搜索范围定义为8层。构造完词汇链后，我们将其中词汇所对应的论元节点相连。如论元A中“15.75美元”，论元B中“29美元”，论元D中“25美元”，这些构成描绘股票价格的词汇链，可以在其对应的句子之间构建词汇链边。

以此类推。

(3)连接关系识别。将PDTB中标注的连接词汇成词表，并通过词表匹配的方式识别句间的连接词。之间存在连接词的论元节点相连。如论元C与论元D之间存在连接词“此后”，因此在C与D之间构建连接边。以此类推。

经过以上关系的识别，可得到篇章结构图G＝{V,E},其中V代表节点集合，E代表边的集合。

在步骤S24中，对篇章结构图卷积。得到篇章结构图后，使用GCN网络分别从中抽取论元融合上下文信息的语义特征。给定图G＝(V，E)，及邻接矩阵A(通过图就能确定它的邻接矩阵)，在图G添加节点的自连接后，邻接矩阵变为

其中I_N是单位矩阵。G的度矩阵表示为D，

每个节点被初始化为BiLSTM的输出，再通过图卷积层来抽取结构化的特征：

这里，X为图中节点表示的拼接，该节点表示由BiLSTM的输出初始化。σ为激活函数。W是权重矩阵(权重矩阵是图卷积网络的网络参数，训练模型也就是训练这些参数)。由此可得到待分类论元融合了上下文信息的全局特征

和

在步骤S25中，将步骤S22获得的样本的论元的局部特征

和

和步骤S24获得的样本论元的全局特征

和

进行拼接(本例中，样本包含2个论元，所以每种特征是2个)，获得用以分类的最终特征：

然后，将最终特征输入双层感知机中得到分类预判结果。双层感知机中，输入是样本的最终特征，输出是样本标注的类别，利用下面的交叉熵损失函数训练，目标函数为交叉熵损失函数：

其中，C为分类任务的总类别数，y为真实标签，$\widehat{y}$为模型预测出的各个类别的概率分布

模型采用Adam梯度更新算法更新模型中的参数，收敛后将模型存储下来后用于后续的篇章关系识别。交叉熵损失函数和训练方法是现有技术，不再赘述。训练结束后，将待识别的样本(论元对)输入到模型中，输出最终的篇章关系识别结果。

根据本发明的另一方面，提出一种基于篇章结构图卷积网络的隐式篇章关系分析系统，如图2所示，包括分类器构建模块和篇章关系分析模块，其中，篇章关系分析模块用于接收篇章，将篇章输入分类器，并将分类器的输出结果呈现给用户。

分类器构建模块包括：样本获取单元、预处理单元、局部特征获取单元、篇章结构图构建单元、全局特征获取单元和训练单元；其中，

局部特征获取单元，用于获取样本的局部句子特征；

篇章结构图构建单元，用于构建篇章结构图；

在样本获取单元中，可以选用PDTB 2.0为语料集。

在预处理单元中，预处理时，首先对所有的样本进行分词，构建词表。然后，针对每对论元，抽取其在语料库中的若干句(比如4句)上文和其一起构成篇章段落P。对P中的每句论元进行词向量初始化。具体的方法如上文所述。

在局部特征获取单元中，将段落中的每个论元分别输入Bi-LSTM编码，获取融合了本句话信息的局部句子表示。具体上法如上文所述。

在篇章结构图构建单元中，构建篇章结构图。具体方法如上文所述。

在全局特征获取单元中，使用GCN网络从篇章结构图中抽取论元融合上下文信息的全局语义特征。具体方法如上文所述。

在训练单元中，将局部特征获取单元获得的样本的论元的局部特征和全局特征获取单元获得的样本论元的全局特征进行拼接，获得用以分类的最终特征；然后，将最终特征输入双层感知机中得到分类预判结果。具体的训练方法如上文所述。

本领域普通技术人员可以理解：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims

1.一种基于篇章结构图卷积网络的隐式篇章关系分析方法，其特征在于，包括以下步骤：

S1，输入文章；

S2，通过分类器识别篇章关系。

2.根据权利要求1所述的方法，其特征在于，所述分类器的构建方法包括：

S23、构建篇章结构图；

S24、篇章结构图卷积，以获得样本的全局句子特征；

3.根据权利要求2所述的方法，其特征在于，所述步骤S21中，对样本进行预处理以获得段落和样本的词向量包括：

S211、对所有的样本进行分词，构建词表；

S213、对篇章段落中的每句论元进行词向量初始化。

4.根据权利要求3所述的方法，其特征在于，在所述步骤S213中，采用ELMo方法进行词向量初始化。

5.根据权利要求2所述的方法，其特征在于，在所述步骤S23中，构建篇章结构图的方法包括：

S231、以论元生成节点；

S232、通过以下三种方式生成边：

(1)通过指代链识别，为包含指代同一对象的节点生成边；

(2)通过词汇链识别，为包含词汇链中词汇的节点生成边；

(3)通过连接关系识别，为存在连接词的节点生成边。

6.根据权利要求5所述的方法，其特征在于，词汇链的构建方法包括：

(1)通过文本匹配识别所述篇章段落中重复出现的名词或名词短语；

(2)利用wordnet中的关系与所述篇章关系类别，识别所述篇章段落中与所述重复出现的名词或名词短语相关的词，从而构成词汇链。

7.根据权利要求2所述的方法，其特征在于，在所述步骤S24中，利用篇章结构图，使用GCN网络抽取论元融合上下文信息的全局句子特征。

8.根据权利要求2所述的方法，其特征在于，在所述步骤S25中，通过双层感知机进行训练。

9.一种基于篇章结构图卷积网络的隐式篇章关系分析系统，其特征在于，所述系统包括分类器构建模块和篇章关系分析模块，其中，篇章关系分析模块用于接收篇章，将所述篇章输入分类器，并将分类器的输出结果呈现给用户。

10.根据权利要求9所述的系统，其特征在于，分类器构建模块包括：样本获取单元、预处理单元、局部特征获取单元、篇章结构图构建单元、全局特征获取单元和训练单元；其中，

局部特征获取单元，用于获取样本的局部句子特征；

篇章结构图构建单元，用于构建篇章结构图；