CN112069804B

CN112069804B - 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法

Info

Publication number: CN112069804B
Application number: CN202010935727.4A
Authority: CN
Inventors: 韩玉桂; 贺瑞芳; 任冬伟; 贺迎春; 朱永凯; 黄静
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2023-12-19
Anticipated expiration: 2040-09-08
Also published as: CN112069804A

Abstract

本发明公开一种基于动态路由的交互式胶囊网络的隐式篇章关系识别方法，本方法利用一种动态交互路由从多种篇章关系的角度充分捕获论元交互；并且以迭代细化的方式将论元特征聚合为潜在的篇章关系表示，以获得论元特征的篇章关系暗示性语义线索。此外，通过考虑所有可能的篇章关系，有效捕获复杂的论元交互模式，从而做出更准确的篇章关系预测。

Description

基于动态路由的交互式胶囊网络的隐式篇章关系识别方法

技术领域

本发明涉及自然语言处理中篇章分析技术领域，尤其是涉及篇章关系识别技术，具体为一种基于动态路由的交互式胶囊网络的隐式篇章关系识别方法。

背景技术

篇章关系描述了两个相邻的文本单元(如篇章单元，从句或者句子)，被称为Arg1和Arg2，在逻辑上如何关联(如因果关系，对比关系)。由于缺乏显式连接词，隐式篇章关系识别仍然具有挑战性(Pitler et al.,2009)[1]。识别篇章关系可以帮助许多自然语言处理(Natural Language Processing,NLP)任务，如机器翻译(Meyer et al.，2015)[2]、对话系统(Ma et al.，2019)[3]等。

随着深度学习在NLP领域的空前成功，基于神经网络的模型已成为隐式篇章关系识别的主流方向，并取得了令人鼓舞的性能提升。主要包括：1)基于表示的神经网络；2)基于交互的模型。前者大多利用基本的神经网络(如卷积神经网络(Convolutional NeuralNetworks,CNNs)、循环神经网络(Recurrent Neural networks,RNNs))及其变体学习篇章论元的语义(Zhang et al.,2015；Liu et al.,2016；Qin et al.,2016；Cai and Zhao,2017；Bai and Zhao,2018)[4-8]。此外，这些模型采用不同的池化操作或注意力机制聚合论元特征。而基于交互的模型采用不同的复杂神经网络(Liu and Li,2016；Chen et al.,2016；Liu et al.,2017；Guo et al.,2018；Xu et al.,2019)[9-13]，使用注意力机制、门控机制或记忆机制捕获论元的交互信息。然而，他们侧重于从单一的关系层面挖掘篇章论元特征和交互信息；如何更好地挖掘篇章关系暗示性语义线索仍然是一个挑战；从多种篇章关系的角度进行综合考虑，有助于探索更好的论元特征聚合和交互模式。

发明内容

本发明的目的是为了克服现有技术中的不足，先前的大多数方法仅以简单的操作聚合论元特征，这无法很好地保留篇章关系暗示性语义线索；并且着重于从单一关系的角度挖掘论元交互，这忽略了不同篇章关系下篇章论元的具体交互模式。为了更好地聚合论元特征和从多种篇章关系角度捕获论元交互，本发明首次将胶囊网络引入篇章关系识别，提供一种基于动态路由的交互式胶囊网络的隐式篇章关系识别方法。具体地，将双向长短期记忆神经网络和带有不同尺寸卷积核的卷积神经网络编码的两个篇章论元的特征向量表示作为基于动态路由的交互式胶囊网络的输入，捕获不同篇章关系角度下论元交互，实现了从一个更全面的角度挖掘论元特征聚合和论元交互，从而有效地推断篇章关系。

本发明的目的是通过以下技术方案实现的：基于动态路由的交互式胶囊网络的隐式篇章关系识别方法，包括以下步骤：

(101)构建双向长短期记忆神经网络层：将篇章论元Arg1、Arg2的向量表示作为双向长短期记忆神经网络的输入，编码得到篇章论元Arg1、Arg2的抽象表示；

(102)构建论元特征胶囊层：将步骤(101)得到的论元抽象表示输入到卷积神经网络中，并利用若干个不同的卷积核在论元抽象表示的不同位置抽取N-gram特征，获得一系列论元特征胶囊，以实现论元特征抽取；

(103)构建篇章关系感知的交互层：将论元特征胶囊聚合为表示潜在篇章关系的篇章关系胶囊，并从多种篇章关系的角度捕获论元交互；一方面，通过特征聚合构建论元与篇章关系之间的相关性，从而捕获论元特征的篇章关系暗示性语义线索；另一方面，通过动态交互式路由进一步捕获篇章关系感知的论元交互；

(104)构建篇章关系识别层：利用步骤(103)生成的表示潜在篇章关系的篇章关系胶囊对隐式篇章关系进行识别。

进一步的，步骤(101)中具体如下：给定包含L个单词的论元的向量表示S＝{w₁,w₂,...w_L}，通过查找表操作，每个单词由一个d_w维的向量表示；为了获得每个单词的上下文信息，利用双向长短期记忆网络将论元编码成隐状态；

其中，w_t表示论元中的每个单词，LSTM_fw和LSTM_bw分别为正向LSTM和反向LSTM，拼接和/>即单词在正反两个方向上的隐表示以得到单词的隐状态/>d_h为双向长短期记忆神经网络中隐单元的数量；因此，得到整个论元的表示为/>h_L表示第L个单词的隐表示。

进一步的，步骤(102)中具体如下：为了从论元抽象表示H中抽取N-gram特征，在局部区域进行卷积操作，以获得论元特征胶囊u_i：

其中f是非线性激活函数，为一个卷积核组，K_t×d_h为卷积核的尺寸，K_t为卷积操作的N-gram大小，t表示卷积核组的数量，d表示论元特征胶囊的维度，ο表示逐元素乘法，b是偏差项；在H上滑动所有的卷积核组后，拼接获得的多个特征图，最终得到一组论元特征胶囊/>其中r的计算方法为：

利用不同的卷积核组重复上述步骤C次，论元特征胶囊层的最终输出计算如下：

即是得到的所有论元特征胶囊，M为胶囊的数量，并且M＝r×C。

进一步的，步骤(103)中具体如下：

1)特征聚合；利用动态路由将论元特征胶囊聚合为潜在篇章关系表示；以迭代方式构建非线性映射，以确保每个论元特征胶囊被聚合到合适的篇章关系胶囊；

形式上，论元特征胶囊u_i生成预测向量计算方法为：

其中，为可学习的权重矩阵；对预测向量进行加权求和得到第j个篇章关系胶囊的向量表示v_j，记为：

其中c_ij是第i个论元特征胶囊和第j个篇章关系胶囊之间迭代更新的耦合系数，squash为将胶囊长度限制在[0,1]的范围内的非线性函数，定义为：

2)动态交互式路由通过耦合系数c_ij学习和v_j之间的耦合，记为：

c_ij＝soft max(b_ij) (10)

b_ij为Arg1中c_ij的初始logit值，表示论元特征胶囊u_i路由到篇章关系胶囊v_j的先验概率；相应地，c′_ij和b′_ij分别表示Arg2中的耦合系数和其初始logit值；请注意，带“'”的符号表示Arg2中的相关信息；

在Arg1中，b_ij的初始值为0，并通过协议系数α的转换来更新，Arg2中进行相同的操作；α和α′中的元素的计算方式如下：

其中和/>为预测向量，v_j和和v′_j为篇章关系胶囊；协议系数只能反映单个论元与潜在篇章关系之间的相关性。

为了捕获论元间的重要相关信息，在两个论元上共同执行动态交互式路由；通过一个基于胶囊网络的名为CIF的胶囊交互函数来转换协议系数，分别获得交互协议系数矩阵β和β′：

(β,β′)＝CIF(α,α′) (13)

其中，CIF函数定义如下：

I＝α·α′^T (14)

β＝soft max(I^T)α (15)

β′＝soft max(I)α′ (16)

具体地，公式(14)在学习单个论元和潜在篇章关系之间的关联性的基础上，反映论元交互；并通过公式(15)和(16)学习论元间的互注意力；然后利用交互协议系数分别对b_ij和b′_ij进行更新，记为：

b_ij＝b_ij+β_ij (17)

b′_ij＝b′_ij+β′_ij (18)

b_ij的更新导致c_ij的改变，实现了论元特征胶囊和篇章关系胶囊间的耦合的调整；在设置的z次迭代后，由路由过程学到的耦合系数确保了论元特征被聚合为合适的篇章关系表示；对于任务中的多种篇章关系，篇章关系感知的胶囊交互能够在动态交互路由过程中学到更好的论元特征聚合和论元交互。

5.根据权利要求1所述基于动态路由的交互式胶囊网络的隐式篇章关系识别方法，其特征在于，步骤(104)中具体如下：拼接v_j和v′_j得到最终的篇章关系胶囊V_j，对每个篇章关系胶囊V_j计算滑动边值损失：

其中，如果篇章论元间的关系属于篇章关系j，则Y_j＝1；否则Y_j＝0；λ是一个下加权系数，设定为0.5，m⁺和m^-是边值，设定m⁺＝0.9，m^-＝0.1；篇章关系识别的总损失是所有类型的关系损失的总和，计算为：n为篇章关系类型的数量。

与现有技术相比，本发明的技术方案所带来的有益效果是：

(1)本发明方法首次将胶囊网络引入隐式篇章关系识别中，以迭代路由的方式聚合论元特征，更好地保留篇章关系暗示性语义线索。

(2)与传统的仅适用于单个论元特征聚合的胶囊网络不同，本发明方法设计动态交互式路由策略以学习和共享论元交互信息，以迭代的方式构造论元特征到篇章关系表示的非线性映射；并且从多种篇章关系角度捕获论元交互，克服了传统胶囊网络不适用于文本交互任务的缺点，扩大了传统胶囊网络的使用范围。此外，与现有方法相比，本发明方法基于多种篇章关系的角度捕获论元交互，学到的不同篇章关系下的具体交互模式有助于更准确地识别篇章关系。

(3)本发明通过设计动态交互式路由将论元特征胶囊映射到可以进一步反映篇章关系特性的篇章关系胶囊，实现了不仅从多种篇章关系角度捕获论元交互，而且学到的不同篇章关系的特定交互模式有助于篇章关系识别。

(4)本发明中应用的动态交互式路由具有以下优点：预测向量包含同一论元特征在不同篇章关系下的不同语义表示；迭代细化的路由过程不仅将论元特征聚合为更好的潜在篇章关系表示，也能保留篇章关系暗示性语义线索，更能保证得到更合适的篇章关系表示；能从多种篇章关系的角度捕获两个论元之间更深层的交互信息，并且可以学习篇章论元在不同关系下的具体交互模式。

附图说明

图1是本发明提供的基于动态路由的交互式胶囊网络的隐式篇章关系识别方法框架示意图；

图2a为CN模型的耦合系数的可视化图；

图2b为ICN模型的耦合系数的可视化图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以宾州篇章树库(Penn Discourse TreeBank,PDTB)数据集为例来给出本发明的实施方法。

该方法整体框架见图1所示。整个系统算法流程包括数据集预处理、获取篇章论元的抽象表示、生成论元特征胶囊、特征聚合、捕获论元交互、篇章关系预测这几个步骤。

具体步骤如下：

(1)数据集预处理

宾州篇章树库(Penn Discourse Treebank,PDTB)是一个在2312篇华尔街日报文章上进行标注得到的大规模语料库。PDTB根据不同粒度，将篇章关系分为三层：第一层4类，第二层16类，第三层23类，共43类。第一层为四种主要的关系类型：对比(Comparison)、偶然(Contingency)、扩展(Expansion)和时序(Temporal)。本发明以PDTB为原始语料，本实施例中采用与大多数研究相同的PDTB数据集的划分方法，将Section 2-20部分作为训练集，Section 0-1作为开发集，Section 21-22作为测试集。

表1展示了PDTB数据集的统计信息，其中训练集共有12690条数据，包含1945条Comparison数据、3242条Contingency数据、6794条Expansion数据和709条Temporal数据；开发集共有1187条数据，包含196条Comparison数据、248条Contingency数据、646条Expansion数据和61条Temporal数据；测试集共有1049条数据，包含152条Comparison数据、272条Contingency数据、546条Expansion数据和79条Temporal数据。

表1 PDTB样本数据分布

(2)获取篇章论元的抽象表示

按照上步完成数据集的预处理后，将训练集按批次将篇章论元的向量表示作为双向长短期记忆神经网络模块的输入，得到篇章论元的表示：具体公式如下：

其中，w_t表示论元中的每个单词，LSTM_fw和LSTM_bw分别为正向LSTM和反向LSTM，拼接和/>即单词在正反两个方向上的隐表示以得到单词的隐状态/>d_h是双向长短期记忆神经网络中隐单元的数量。

(3)生成论元特征胶囊

为了从论元表示H中抽取N-gram特征，在局部区域进行卷积操作，以获得论元特征胶囊u_i：

其中，f是非线性激活函数，为一个卷积核组，K_t×d_h为卷积核的尺寸，K_t为卷积操作的N-gram大小，t表示卷积核组的数量，d表示论元特征胶囊的维度，ο表示逐元素乘法，b是偏差项；在H上滑动所有的卷积核组后，拼接获得的多个特征图，最终得到一组论元特征胶囊/>其中r的计算方法为：

即是得到的论元特征胶囊，M为胶囊的数量，并且M＝r×C。

(4)特征聚合

具体地，利用动态路由将这些论元特征胶囊聚合为表示潜在篇章关系的篇章关系胶囊；动态路由的基本思想是以迭代方式构建非线性映射，这确保了每个论元特征胶囊被聚合到合适的篇章关系胶囊。

形式上，论元特征胶囊u_i生成预测向量反映当前论元特征胶囊对第j个篇章关系胶囊的重要性，计算方法为：

其中，为可学习的权重矩阵；然后对这些预测向量进行加权求和得到第j个篇章关系胶囊的向量表示v_j，记为：

其中c_ij是第i个论元特征胶囊和第j个篇章关系胶囊之间的迭代更新的耦合系数，squash为将胶囊长度限制在[0,1]的范围内的非线性函数，定义为：

(5)捕获论元交互

论元交互是关键，然而，传统的胶囊网络以句子或文本作为输入，这不适合捕获两个句子之间的交互。因此，一种胶囊网络框架下的动态交互式路由方法被提出以有效捕获论元特征的篇章关系暗示性语义线索和多种篇章关系角度下的论元交互。

动态交互式路由通过耦合系数c_ij学习和v_j之间的耦合，记为：

c_ij＝soft max(b_ij) (10)

b_ij为Arg1中c_ij的初始logit值，表示论元特征胶囊u_i路由到篇章关系胶囊v_j的概率；相应地，c′_ij和分别表示Arg2中的耦合系数和其初始logit值。请注意，带“'”的符号表示Arg2中的相关信息。

在Arg1中，b_ij的初始值为0，并通过协议系数α的转换来更新(Arg2中也有相同的操作)；α和α′的元素的计算方式如下：

其中和/>为预测向量，v_j和v′_j为篇章关系胶囊；协议系数只能反映单个论元与潜在篇章关系之间的相关性。

为了捕获论元间的重要相关信息，在两个论元上共同执行动态交互式路由。受双向注意力机制(Seo et al.,2016)[14]的启发，通过一个基于胶囊网络的名为CIF的胶囊交互函数来转换协议系数，分别获得交互协议系数矩阵β和β′：

(β,β′)＝CIF(α,α′) (13)

其中，CIF函数的具体公式如下：

I＝α·α′^T (14)

β＝soft max(I^T)α (15)

β′＝soft max(I)α′ (16)

具体地，公式(14)在学习单个论元和潜在篇章关系之间的关联性的基础上，反映论元的交互；并通过公式(15)和(16)学习论元间的互注意力。与一般的交互方法不同，本发明中的动态交互路由方法捕获篇章关系感知的胶囊交互，不仅捕获论元交互，而且考虑论元与潜在篇章关系之间的相关性。然后利用交互协议系数分别对b_ij和b′_ij进行更新，记为：

b_ij＝b_ij+β_ij (17)

b′_ij＝b′_ij+β′_ij (18)

b_ij的更新导致c_ij的改变，这实现了论元特征胶囊和篇章关系胶囊间的耦合的调整；耦合度越高，越有可能将论元特征胶囊路由到相应的篇章关系胶囊。在设置的z次迭代后，由路由过程学到的耦合系数确保了论元特征被聚合为合适的篇章关系表示。对于任务中的多种篇章关系，篇章关系感知的胶囊交互能够在动态交互路由过程中学到更好的论元特征聚合和论元间的交互。

总的来说，动态交互式路由具有以下优点：1)迭代细化的路由过程可以有效地将论元特征聚合为潜在篇章关系表示，从而使论元特征聚合保留篇章关系暗示性语义线索；2)也可以从多种篇章关系的角度捕获更深层次的论元交互。

(6)篇章关系预测

拼接v_j和v′_j得到最终的篇章关系胶囊V_j，和(Zhang et al.2019)[15]类似，对每个篇章关系胶囊V_j计算滑动边值损失：

其中，如果篇章论元间的关系属于篇章关系j，则Y_j＝1；否则Y_j＝0；λ是一个下加权系数，设定为0.5，m⁺和m^-是边值，设定m⁺＝0.9，m^-＝0.1。篇章关系识别的总损失是所有类型的关系损失的总和，计算为：n为篇章关系类型的数量。

在具体实施过程中，以PDTB数据集为例，通过提前设置各种超参数，即单词嵌入是300维的使用Google News预训练的word2vec；使用Adam优化器来优化损失函数；并通过使用ELMo预训练的300维词嵌入增强的论元向量表示。详细参数设置如表2所示：

表2模型在实验中的超参数

参数名称	参数值
		论元长度	length＝50
词嵌入维度	embedding_size＝300
		ELMo维度	ELMo_embedding_size＝300
初始学习率	lr＝0.001
		批次大小	num_batches＝128
胶囊维度	cap_dim＝16
		卷积层数	num_conv＝3
卷积核大小	conv_size＝3,4,5
		迭代次数	r＝3

为了验证本发明方法的有效性，将本发明方法与当前先进并具有代表性的模型以及两个消融模型进行对比：

对比模型：

·(Zhang et al.2015)提出一种具有不同池化操作的浅层卷积神经网络。

·(Liu and Li 2016)设计一个具有多级注意力的神经网络关注重要的单词。

·(Dai and Huang 2018)利用一种段落级神经网络建模论元之间的依赖关系。

·(Chen et al.2016)提出一种门控相关网络，并结合词对间的线性和非线性相关性。

·(Lei et al.2017)使用一个简单的带张量的单词交互模型(SWIM)捕获论元交互信息。

·(Guo et al.2018)应用一种具有交互注意的神经张量网络建模论元交互。

·(Bai and Zhao 2018)利用双向注意机制挖掘论元交互信息。

消融模型：

此外，还比较了以下消融模型和本发明所提出的ICN模型，以验证动态交互式路由和胶囊网络的影响。消融模型中的论元特征表示(指Bi-LSTM和CNN模块)与本发明的ICN模型中一样。

·MP本实验采用最大池化操作作为单个论元特征聚合的方法，将得到的论元表示拼接，作为关系分类器的输入以预测篇章关系。

·CN本实验采用传统的胶囊网络和动态路由聚合单个论元特征，采用与MP模型相同的拼接和输入到关系分类器的操作。

·Our ICN本实验采用动态交互式路由捕获论元交互，并将论元特征聚合到不同的篇章关系表示中，最后将得到的篇章关系表示输入到关系分类器。

目前，篇章分析的评测主要考虑算法的准确度(Accuracy)和F₁值两个性能指标。准确度采用式(20)进行度量。

其中，TruePositive代表本来是正样例，同时分类成正样例的个数；TrueNegative代表本来是负样例，同时分类成负样例的个数；All代表样例总个数。

F₁值由准确率(Precision)和召回率(Recall)共同体现，采用式(21)进行度量。

其中，

其中，FalsePositive代表本来是负样例，但被分类成正样例的个数(通常叫误报)；FalseNegative代表本来是正样例，但被分类成负样例的个数(通常叫漏报)。相关分数值越高表示该模型性能越好。

表3不同对比模型在二分类和四分类中的F₁(％)和Accuracy(％)

表4不同消融模型在二分类和四分类中的F₁(％)和Accuracy(％)

从表3和表4的实验结果可看出，本发明提出的基于动态路由的交互式胶囊网络的隐式篇章关系识别的有效性。

此外，为了验证动态交互式路由的有效性，分别对CN模型和本发明ICN模型的不同耦合系数进行了可视化，如图2a和图2b所示。为了进行公平的比较，选择了这两个模型中相同数量的具有明显的区别性语义表示的论元特征胶囊(0-17)。颜色的深浅表示耦合系数的大小，颜色越深，对应的值越大。以一个偶然关系(Contingency)的例子来进一步说明：

Arg1:Now,they’re charging as little$3a day.

Arg2:If they’re telling the truth now,then they’ve been charging300％more than what is

reasonable.

可以获得以下观察结果：

·图2a反映了CN模型错误地预测为比较关系，因为它关注于论元特征胶囊如“很少”和“多于”的信息，这些信息与比较关系胶囊高度耦合。这表明CN模型仅利用独立的单个论元特征聚合以学习论元表面语义，而忽略论元交互线索。

·在图2b中，ICN模型正确地识别偶然关系。原因可能是ICN模型可以学习全面的论元交互，而不局限于表面词对交互。这说明从多种篇章关系的角度捕获论元交互有助于不同篇章关系之间的信息参考。此外，对多种可能的篇章关系的综合考虑使得模型关注最突出的一个。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Emily Pitler,Annie Louis,and Ani and Nenkova.2009.Automatic senseprediction for implicit discourse relations in text.In AFNLP,pages 683–691.

[2]Thomas Meyer,Najeh Hajlaoui,and Andrei Popescu-Belis.2015.Disambiguating discourse connectives for statistical machinetranslation.IEEE/ACM,TASLP,23(7):1184–1197.

[3]Mingyu Derek Ma,Kevin Bowden,JiaqiWu,Wen Cui,and MarilynWalker.2019.Implicit discourse relation identification for open-domaindialogues.In ACL,pages 666–672.

[4]Biao Zhang,Jinsong Su,Deyi Xiong,Yaojie Lu,Hong Duan,and JunfengYao.2015.Shallow convolutional neural network for implicit discourse relationrecognition.In EMNLP,pages 2230–2235.

[5]Yang Liu,Sujian Li,Xiaodong Zhang,and Zhifang Sui.2016.Implicitdiscourse relation classification via multi-task neural networks.In AAAI,pages 2750–2756.

[6]Lianhui Qin,Zhisong Zhang,and Hai Zhao.2016.Implicit discourserelation recognition with context-aware character-enhanced embeddings.InCOLING,

[7]Deng Cai and Hai Zhao.2017.Pair-aware neural sentence modeling forimplicit discourse relation classification.In IEA-AIE,pages 458–466.Springer.pages 1914–1924.

[8]Hongxiao Bai and Hai Zhao.2018.Deep enhanced representation forimplicit discourse relation recognition.In COLING,pages 571–583.

[9]Yang Liu and Sujian Li.2016.Recognizing implicit discourserelations via repeated reading:Neural networks with multi-level attention.InEMNLP,pages 1224–1233.

[10]Jifan Chen,Qi Zhang,Pengfei Liu,Xipeng Qiu,and XuanjingHuang.2016.Implicit discourse relation detection via a deep architecture withgated relevance network.In ACL,pages 1726–1735.

[11]Yang Liu,Jiajun Zhang,and Chengqing Zong.2017.Memory augmentedattention model for chinese implicit discourse relation recognition.In CCL,NLPNABD,pages 411–423.Springer.

[12]Fengyu Guo,Ruifang He,Di Jin,Jianwu Dang,Longbiao Wang,andXiangang Li.2018.Implicit discourse relation recognition using neural tensornetwork with interactive attention and sparse learning.In COLING,pages 547–558.

[13]Sheng Xu,Peifeng Li,Fang Kong,Qiaoming Zhu,and GuodongZhou.2019.Topic tensor network for implicit discourse relation recognition inchinese.In ACL,pages 608–618.

[14]Minjoon Seo,Aniruddha Kembhavi,Ali Farhadi,and HannanehHajishirzi.2016.Bidirectional Attention flow for machine comprehension.arXivpreprint arXiv:1611.01603.

[15]Xinsong Zhang,Pengshuai Li,Weijia Jia,and Hai Zhao.2019.Multi-labeled relation extraction with attentive capsule network.In AAAI,pages7484–7491.

Claims

1.基于动态路由的交互式胶囊网络的隐式篇章关系识别方法，其特征在于，包括如下步骤：

(101)构建双向长短期记忆神经网络层：将篇章论元Arg1、Arg2的向量表示作为双向长短期记忆神经网络的输入，编码得到篇章论元Arg1、Arg2的抽象表示；给定包含L个单词的论元的向量表示S＝{w₁,w₂,...w_L}，通过查找表操作，每个单词由一个d_w维的向量表示；为了获得每个单词的上下文信息，利用双向长短期记忆网络将论元编码成隐状态；

其中，w_t表示论元中的每个单词，LSTM_fw和LSTM_bw分别为正向LSTM和反向LSTM，拼接和即单词在正反两个方向上的隐表示以得到单词的隐状态/>d_h为双向长短期记忆神经网络中隐单元的数量；因此，得到整个论元的表示为/>h_L表示第L个单词的隐表示；

(102)构建论元特征胶囊层：将步骤(101)得到的论元抽象表示输入到卷积神经网络中，并利用若干个不同的卷积核在论元抽象表示的不同位置抽取N-gram特征，获得一系列论元特征胶囊，以实现论元特征抽取；为了从论元抽象表示H中抽取N-gram特征，在局部区域进行卷积操作，以获得论元特征胶囊u_i：

其中f是非线性激活函数，为一个卷积核组，K_t×d_h为卷积核的尺寸，K_t为卷积操作的N-gram大小，t表示卷积核组的数量，d表示论元特征胶囊的维度，/>表示逐元素乘法，b是偏差项；在H上滑动所有的卷积核组后，拼接获得的多个特征图，最终得到一组论元特征胶囊/>其中r的计算方法为：

即是得到的所有论元特征胶囊，M为胶囊的数量，并且M＝r×C；

(103)构建篇章关系感知的交互层：将论元特征胶囊聚合为表示潜在篇章关系的篇章关系胶囊，并从多种篇章关系的角度捕获论元交互；一方面，通过特征聚合构建论元与篇章关系之间的相关性，从而捕获论元特征的篇章关系暗示性语义线索；另一方面，通过动态交互式路由进一步捕获篇章关系感知的论元交互；具体如下：

形式上，论元特征胶囊u_i生成预测向量计算方法为：

c_ij＝softmax(b_ij) (10)

其中和/>为预测向量，v_j和和v′_j为篇章关系胶囊；协议系数只能反映单个论元与潜在篇章关系之间的相关性；

(β,β′)＝CIF(α,α′) (13)

其中，CIF函数定义如下：

I＝α·α′^T (14)

β＝softmax(I^T)α (15)

β′＝softmax(I)α′ (16)

具体地，公式(14)在学习单个论元和潜在篇章关系之间的关联性的基础上，反映论元交互；并通过公式(15)和(16)学习论元间的互注意力；然后利用交互协议系数分别对b_ij和b_i′_j进行更新，记为：

b_ij＝b_ij+β_ij (17)

b′_ij＝b′_ij+β′_ij (18)

b_ij的更新导致c_ij的改变，实现了论元特征胶囊和篇章关系胶囊间的耦合的调整；在设置的z次迭代后，由路由过程学到的耦合系数确保了论元特征被聚合为合适的篇章关系表示；对于任务中的多种篇章关系，篇章关系感知的胶囊交互能够在动态交互路由过程中学到更好的论元特征聚合和论元交互；

(104)构建篇章关系识别层：利用步骤(103)生成的表示潜在篇章关系的篇章关系胶囊对隐式篇章关系进行识别；拼接v_j和v′_j得到最终的篇章关系胶囊V_j，对每个篇章关系胶囊V_j计算滑动边值损失：