CN112069804A - 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法 - Google Patents

基于动态路由的交互式胶囊网络的隐式篇章关系识别方法 Download PDF

Info

Publication number
CN112069804A
CN112069804A CN202010935727.4A CN202010935727A CN112069804A CN 112069804 A CN112069804 A CN 112069804A CN 202010935727 A CN202010935727 A CN 202010935727A CN 112069804 A CN112069804 A CN 112069804A
Authority
CN
China
Prior art keywords
argument
discourse
capsule
relation
discourse relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010935727.4A
Other languages
English (en)
Other versions
CN112069804B (zh
Inventor
韩玉桂
贺瑞芳
任冬伟
贺迎春
朱永凯
黄静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010935727.4A priority Critical patent/CN112069804B/zh
Publication of CN112069804A publication Critical patent/CN112069804A/zh
Application granted granted Critical
Publication of CN112069804B publication Critical patent/CN112069804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,本方法利用一种动态交互路由从多种篇章关系的角度充分捕获论元交互;并且以迭代细化的方式将论元特征聚合为潜在的篇章关系表示,以获得论元特征的篇章关系暗示性语义线索。此外,通过考虑所有可能的篇章关系,有效捕获复杂的论元交互模式,从而做出更准确的篇章关系预测。

Description

基于动态路由的交互式胶囊网络的隐式篇章关系识别方法
技术领域
本发明涉及自然语言处理中篇章分析技术领域,尤其是涉及篇章关系识别技术,具体为一种基于动态路由的交互式胶囊网络的隐式篇章关系识别方法。
背景技术
篇章关系描述了两个相邻的文本单元(如篇章单元,从句或者句子),被称为Arg1和Arg2,在逻辑上如何关联(如因果关系,对比关系)。由于缺乏显式连接词,隐式篇章关系识别仍然具有挑战性(Pitler et al.,2009)[1]。识别篇章关系可以帮助许多自然语言处理(Natural Language Processing,NLP)任务,如机器翻译(Meyer et al.,2015)[2]、对话系统(Ma et al.,2019)[3]等。
随着深度学习在NLP领域的空前成功,基于神经网络的模型已成为隐式篇章关系识别的主流方向,并取得了令人鼓舞的性能提升。主要包括:1)基于表示的神经网络;2)基于交互的模型。前者大多利用基本的神经网络(如卷积神经网络(Convolutional NeuralNetworks,CNNs)、循环神经网络(Recurrent Neural networks,RNNs))及其变体学习篇章论元的语义(Zhang et al.,2015;Liu et al.,2016;Qin et al.,2016;Cai and Zhao,2017;Bai and Zhao,2018)[4-8]。此外,这些模型采用不同的池化操作或注意力机制聚合论元特征。而基于交互的模型采用不同的复杂神经网络(Liu and Li,2016;Chen et al.,2016;Liu et al.,2017;Guo et al.,2018;Xu et al.,2019)[9-13],使用注意力机制、门控机制或记忆机制捕获论元的交互信息。然而,他们侧重于从单一的关系层面挖掘篇章论元特征和交互信息;如何更好地挖掘篇章关系暗示性语义线索仍然是一个挑战;从多种篇章关系的角度进行综合考虑,有助于探索更好的论元特征聚合和交互模式。
发明内容
本发明的目的是为了克服现有技术中的不足,先前的大多数方法仅以简单的操作聚合论元特征,这无法很好地保留篇章关系暗示性语义线索;并且着重于从单一关系的角度挖掘论元交互,这忽略了不同篇章关系下篇章论元的具体交互模式。为了更好地聚合论元特征和从多种篇章关系角度捕获论元交互,本发明首次将胶囊网络引入篇章关系识别,提供一种基于动态路由的交互式胶囊网络的隐式篇章关系识别方法。具体地,将双向长短期记忆神经网络和带有不同尺寸卷积核的卷积神经网络编码的两个篇章论元的特征向量表示作为基于动态路由的交互式胶囊网络的输入,捕获不同篇章关系角度下论元交互,实现了从一个更全面的角度挖掘论元特征聚合和论元交互,从而有效地推断篇章关系。
本发明的目的是通过以下技术方案实现的:基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,包括以下步骤:
(101)构建双向长短期记忆神经网络层:将篇章论元Arg1、Arg2的向量表示作为双向长短期记忆神经网络的输入,编码得到篇章论元Arg1、Arg2的抽象表示;
(102)构建论元特征胶囊层:将步骤(101)得到的论元抽象表示输入到卷积神经网络中,并利用若干个不同的卷积核在论元抽象表示的不同位置抽取N-gram特征,获得一系列论元特征胶囊,以实现论元特征抽取;
(103)构建篇章关系感知的交互层:将论元特征胶囊聚合为表示潜在篇章关系的篇章关系胶囊,并从多种篇章关系的角度捕获论元交互;一方面,通过特征聚合构建论元与篇章关系之间的相关性,从而捕获论元特征的篇章关系暗示性语义线索;另一方面,通过动态交互式路由进一步捕获篇章关系感知的论元交互;
(104)构建篇章关系识别层:利用步骤(103)生成的表示潜在篇章关系的篇章关系胶囊对隐式篇章关系进行识别。
进一步的,步骤(101)中具体如下:给定包含L个单词的论元的向量表示S={w1,w2,...wL},通过查找表操作,每个单词由一个dw维的向量表示;为了获得每个单词的上下文信息,利用双向长短期记忆网络将论元编码成隐状态;
Figure BDA0002671845640000021
Figure BDA0002671845640000022
Figure BDA0002671845640000023
其中,wt表示论元中的每个单词,LSTMfw和LSTMbw分别为正向LSTM和反向LSTM,拼接
Figure BDA0002671845640000024
Figure BDA0002671845640000025
即单词在正反两个方向上的隐表示以得到单词的隐状态
Figure BDA0002671845640000026
dh为双向长短期记忆神经网络中隐单元的数量;因此,得到整个论元的表示为
Figure BDA0002671845640000027
hL表示第L个单词的隐表示。
进一步的,步骤(102)中具体如下:为了从论元抽象表示H中抽取N-gram特征,在局部区域
Figure BDA0002671845640000028
进行卷积操作,以获得论元特征胶囊ui
Figure BDA0002671845640000031
其中f是非线性激活函数,
Figure BDA0002671845640000032
为一个卷积核组,Kt×dh为卷积核的尺寸,Kt为卷积操作的N-gram大小,t表示卷积核组的数量,d表示论元特征胶囊的维度,ο表示逐元素乘法,b是偏差项;在H上滑动所有的卷积核组后,拼接获得的多个特征图,最终得到一组论元特征胶囊
Figure BDA0002671845640000033
其中r的计算方法为:
Figure BDA0002671845640000034
利用不同的卷积核组重复上述步骤C次,论元特征胶囊层的最终输出计算如下:
Figure BDA0002671845640000035
Figure BDA0002671845640000036
是得到的所有论元特征胶囊,M为胶囊的数量,并且M=r×C。
进一步的,步骤(103)中具体如下:
1)特征聚合;利用动态路由将论元特征胶囊聚合为潜在篇章关系表示;以迭代方式构建非线性映射,以确保每个论元特征胶囊被聚合到合适的篇章关系胶囊;
形式上,论元特征胶囊ui生成预测向量
Figure BDA0002671845640000037
计算方法为:
Figure BDA0002671845640000038
其中,
Figure BDA0002671845640000039
为可学习的权重矩阵;对预测向量进行加权求和得到第j个篇章关系胶囊的向量表示vj,记为:
Figure BDA00026718456400000310
其中cij是第i个论元特征胶囊和第j个篇章关系胶囊之间迭代更新的耦合系数,squash为将胶囊长度限制在[0,1]的范围内的非线性函数,定义为:
Figure BDA00026718456400000311
2)动态交互式路由通过耦合系数cij学习
Figure BDA0002671845640000041
和vj之间的耦合,记为:
cij=soft max(bij) (10)
bij为Arg1中cij的初始logit值,表示论元特征胶囊ui路由到篇章关系胶囊vj的先验概率;相应地,c′ij和b′ij分别表示Arg2中的耦合系数和其初始logit值;请注意,带“'”的符号表示Arg2中的相关信息;
在Arg1中,bij的初始值为0,并通过协议系数α的转换来更新,Arg2中进行相同的操作;α和α′中的元素的计算方式如下:
Figure BDA0002671845640000042
Figure BDA0002671845640000043
其中
Figure BDA0002671845640000044
Figure BDA0002671845640000045
为预测向量,vj和和v′j为篇章关系胶囊;协议系数只能反映单个论元与潜在篇章关系之间的相关性。
为了捕获论元间的重要相关信息,在两个论元上共同执行动态交互式路由;通过一个基于胶囊网络的名为CIF的胶囊交互函数来转换协议系数,分别获得交互协议系数矩阵β和β′:
(β,β′)=CIF(α,α′) (13)其中,CIF函数定义如下:
I=α·α′T (14)
β=soft max(IT)α (15)
β′=soft max(I)α′ (16)
具体地,公式(14)在学习单个论元和潜在篇章关系之间的关联性的基础上,反映论元交互;并通过公式(15)和(16)学习论元间的互注意力;然后利用交互协议系数分别对bij和b′ij进行更新,记为:
bij=bijij (17)
b′ij=b′ij+β′ij (18)
bij的更新导致cij的改变,实现了论元特征胶囊和篇章关系胶囊间的耦合的调整;在设置的z次迭代后,由路由过程学到的耦合系数确保了论元特征被聚合为合适的篇章关系表示;对于任务中的多种篇章关系,篇章关系感知的胶囊交互能够在动态交互路由过程中学到更好的论元特征聚合和论元交互。
5.根据权利要求1所述基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,其特征在于,步骤(104)中具体如下:拼接vj和v′j得到最终的篇章关系胶囊Vj,对每个篇章关系胶囊Vj计算滑动边值损失:
Figure BDA0002671845640000051
其中,如果篇章论元间的关系属于篇章关系j,则Yj=1;否则Yj=0;λ是一个下加权系数,设定为0.5,m+和m-是边值,设定m+=0.9,m-=0.1;篇章关系识别的总损失是所有类型的关系损失的总和,计算为:
Figure BDA0002671845640000052
n为篇章关系类型的数量。
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)本发明方法首次将胶囊网络引入隐式篇章关系识别中,以迭代路由的方式聚合论元特征,更好地保留篇章关系暗示性语义线索。
(2)与传统的仅适用于单个论元特征聚合的胶囊网络不同,本发明方法设计动态交互式路由策略以学习和共享论元交互信息,以迭代的方式构造论元特征到篇章关系表示的非线性映射;并且从多种篇章关系角度捕获论元交互,克服了传统胶囊网络不适用于文本交互任务的缺点,扩大了传统胶囊网络的使用范围。此外,与现有方法相比,本发明方法基于多种篇章关系的角度捕获论元交互,学到的不同篇章关系下的具体交互模式有助于更准确地识别篇章关系。
(3)本发明通过设计动态交互式路由将论元特征胶囊映射到可以进一步反映篇章关系特性的篇章关系胶囊,实现了不仅从多种篇章关系角度捕获论元交互,而且学到的不同篇章关系的特定交互模式有助于篇章关系识别。
(4)本发明中应用的动态交互式路由具有以下优点:预测向量包含同一论元特征在不同篇章关系下的不同语义表示;迭代细化的路由过程不仅将论元特征聚合为更好的潜在篇章关系表示,也能保留篇章关系暗示性语义线索,更能保证得到更合适的篇章关系表示;能从多种篇章关系的角度捕获两个论元之间更深层的交互信息,并且可以学习篇章论元在不同关系下的具体交互模式。
附图说明
图1是本发明提供的基于动态路由的交互式胶囊网络的隐式篇章关系识别方法框架示意图;
图2a为CN模型的耦合系数的可视化图;
图2b为ICN模型的耦合系数的可视化图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以宾州篇章树库(Penn Discourse TreeBank,PDTB)数据集为例来给出本发明的实施方法。
该方法整体框架见图1所示。整个系统算法流程包括数据集预处理、获取篇章论元的抽象表示、生成论元特征胶囊、特征聚合、捕获论元交互、篇章关系预测这几个步骤。
具体步骤如下:
(1)数据集预处理
宾州篇章树库(Penn Discourse Treebank,PDTB)是一个在2312篇华尔街日报文章上进行标注得到的大规模语料库。PDTB根据不同粒度,将篇章关系分为三层:第一层4类,第二层16类,第三层23类,共43类。第一层为四种主要的关系类型:对比(Comparison)、偶然(Contingency)、扩展(Expansion)和时序(Temporal)。本发明以PDTB为原始语料,本实施例中采用与大多数研究相同的PDTB数据集的划分方法,将Section 2-20部分作为训练集,Section 0-1作为开发集,Section 21-22作为测试集。
表1展示了PDTB数据集的统计信息,其中训练集共有12690条数据,包含1945条Comparison数据、3242条Contingency数据、6794条Expansion数据和709条Temporal数据;开发集共有1187条数据,包含196条Comparison数据、248条Contingency数据、646条Expansion数据和61条Temporal数据;测试集共有1049条数据,包含152条Comparison数据、272条Contingency数据、546条Expansion数据和79条Temporal数据。
表1 PDTB样本数据分布
Figure BDA0002671845640000061
Figure BDA0002671845640000071
(2)获取篇章论元的抽象表示
按照上步完成数据集的预处理后,将训练集按批次将篇章论元的向量表示作为双向长短期记忆神经网络模块的输入,得到篇章论元的表示:
Figure BDA0002671845640000072
具体公式如下:
Figure BDA0002671845640000073
Figure BDA0002671845640000074
Figure BDA0002671845640000075
其中,wt表示论元中的每个单词,LSTMfw和LSTMbw分别为正向LSTM和反向LSTM,拼接
Figure BDA0002671845640000076
Figure BDA0002671845640000077
即单词在正反两个方向上的隐表示以得到单词的隐状态
Figure BDA0002671845640000078
dh是双向长短期记忆神经网络中隐单元的数量。
(3)生成论元特征胶囊
为了从论元表示H中抽取N-gram特征,在局部区域
Figure BDA0002671845640000079
进行卷积操作,以获得论元特征胶囊ui
Figure BDA00026718456400000710
其中,f是非线性激活函数,
Figure BDA00026718456400000711
为一个卷积核组,Kt×dh为卷积核的尺寸,Kt为卷积操作的N-gram大小,t表示卷积核组的数量,d表示论元特征胶囊的维度,ο表示逐元素乘法,b是偏差项;在H上滑动所有的卷积核组后,拼接获得的多个特征图,最终得到一组论元特征胶囊
Figure BDA00026718456400000712
其中r的计算方法为:
Figure BDA00026718456400000713
利用不同的卷积核组重复上述步骤C次,论元特征胶囊层的最终输出计算如下:
Figure BDA00026718456400000714
Figure BDA0002671845640000081
是得到的论元特征胶囊,M为胶囊的数量,并且M=r×C。
(4)特征聚合
具体地,利用动态路由将这些论元特征胶囊聚合为表示潜在篇章关系的篇章关系胶囊;动态路由的基本思想是以迭代方式构建非线性映射,这确保了每个论元特征胶囊被聚合到合适的篇章关系胶囊。
形式上,论元特征胶囊ui生成预测向量
Figure BDA0002671845640000082
反映当前论元特征胶囊对第j个篇章关系胶囊的重要性,计算方法为:
Figure BDA0002671845640000083
其中,
Figure BDA0002671845640000084
为可学习的权重矩阵;然后对这些预测向量进行加权求和得到第j个篇章关系胶囊的向量表示vj,记为:
Figure BDA0002671845640000085
其中cij是第i个论元特征胶囊和第j个篇章关系胶囊之间的迭代更新的耦合系数,squash为将胶囊长度限制在[0,1]的范围内的非线性函数,定义为:
Figure BDA0002671845640000086
(5)捕获论元交互
论元交互是关键,然而,传统的胶囊网络以句子或文本作为输入,这不适合捕获两个句子之间的交互。因此,一种胶囊网络框架下的动态交互式路由方法被提出以有效捕获论元特征的篇章关系暗示性语义线索和多种篇章关系角度下的论元交互。
动态交互式路由通过耦合系数cij学习
Figure BDA0002671845640000087
和vj之间的耦合,记为:
cij=soft max(bij) (10)
bij为Arg1中cij的初始logit值,表示论元特征胶囊ui路由到篇章关系胶囊vj的概率;相应地,c′ij和分别表示Arg2中的耦合系数和其初始logit值。请注意,带“'”的符号表示Arg2中的相关信息。
在Arg1中,bij的初始值为0,并通过协议系数α的转换来更新(Arg2中也有相同的操作);α和α′的元素的计算方式如下:
Figure BDA0002671845640000091
Figure BDA0002671845640000092
其中
Figure BDA0002671845640000093
Figure BDA0002671845640000094
为预测向量,vj和v′j为篇章关系胶囊;协议系数只能反映单个论元与潜在篇章关系之间的相关性。
为了捕获论元间的重要相关信息,在两个论元上共同执行动态交互式路由。受双向注意力机制(Seo et al.,2016)[14]的启发,通过一个基于胶囊网络的名为CIF的胶囊交互函数来转换协议系数,分别获得交互协议系数矩阵β和β′:
(β,β′)=CIF(α,α′) (13)其中,CIF函数的具体公式如下:
I=α·α′T (14)
β=soft max(IT)α (15)
β′=soft max(I)α′ (16)
具体地,公式(14)在学习单个论元和潜在篇章关系之间的关联性的基础上,反映论元的交互;并通过公式(15)和(16)学习论元间的互注意力。与一般的交互方法不同,本发明中的动态交互路由方法捕获篇章关系感知的胶囊交互,不仅捕获论元交互,而且考虑论元与潜在篇章关系之间的相关性。然后利用交互协议系数分别对bij和b′ij进行更新,记为:
bij=bijij (17)
b′ij=b′ij+β′ij (18)
bij的更新导致cij的改变,这实现了论元特征胶囊和篇章关系胶囊间的耦合的调整;耦合度越高,越有可能将论元特征胶囊路由到相应的篇章关系胶囊。在设置的z次迭代后,由路由过程学到的耦合系数确保了论元特征被聚合为合适的篇章关系表示。对于任务中的多种篇章关系,篇章关系感知的胶囊交互能够在动态交互路由过程中学到更好的论元特征聚合和论元间的交互。
总的来说,动态交互式路由具有以下优点:1)迭代细化的路由过程可以有效地将论元特征聚合为潜在篇章关系表示,从而使论元特征聚合保留篇章关系暗示性语义线索;2)也可以从多种篇章关系的角度捕获更深层次的论元交互。
(6)篇章关系预测
拼接vj和v′j得到最终的篇章关系胶囊Vj,和(Zhang et al.2019)[15]类似,对每个篇章关系胶囊Vj计算滑动边值损失:
Figure BDA0002671845640000101
其中,如果篇章论元间的关系属于篇章关系j,则Yj=1;否则Yj=0;λ是一个下加权系数,设定为0.5,m+和m-是边值,设定m+=0.9,m-=0.1。篇章关系识别的总损失是所有类型的关系损失的总和,计算为:
Figure BDA0002671845640000102
n为篇章关系类型的数量。
在具体实施过程中,以PDTB数据集为例,通过提前设置各种超参数,即单词嵌入是300维的使用Google News预训练的word2vec;使用Adam优化器来优化损失函数;并通过使用ELMo预训练的300维词嵌入增强的论元向量表示。详细参数设置如表2所示:
表2模型在实验中的超参数
参数名称 参数值
论元长度 length=50
词嵌入维度 embedding_size=300
ELMo维度 ELMo_embedding_size=300
初始学习率 lr=0.001
批次大小 num_batches=128
胶囊维度 cap_dim=16
卷积层数 num_conv=3
卷积核大小 conv_size=3,4,5
迭代次数 r=3
为了验证本发明方法的有效性,将本发明方法与当前先进并具有代表性的模型以及两个消融模型进行对比:
对比模型:
·(Zhang et al.2015)提出一种具有不同池化操作的浅层卷积神经网络。
·(Liu and Li 2016)设计一个具有多级注意力的神经网络关注重要的单词。
·(Dai and Huang 2018)利用一种段落级神经网络建模论元之间的依赖关系。
·(Chen et al.2016)提出一种门控相关网络,并结合词对间的线性和非线性相关性。
·(Lei et al.2017)使用一个简单的带张量的单词交互模型(SWIM)捕获论元交互信息。
·(Guo et al.2018)应用一种具有交互注意的神经张量网络建模论元交互。
·(Bai and Zhao 2018)利用双向注意机制挖掘论元交互信息。
消融模型:
此外,还比较了以下消融模型和本发明所提出的ICN模型,以验证动态交互式路由和胶囊网络的影响。消融模型中的论元特征表示(指Bi-LSTM和CNN模块)与本发明的ICN模型中一样。
·MP本实验采用最大池化操作作为单个论元特征聚合的方法,将得到的论元表示拼接,作为关系分类器的输入以预测篇章关系。
·CN本实验采用传统的胶囊网络和动态路由聚合单个论元特征,采用与MP模型相同的拼接和输入到关系分类器的操作。
·Our ICN本实验采用动态交互式路由捕获论元交互,并将论元特征聚合到不同的篇章关系表示中,最后将得到的篇章关系表示输入到关系分类器。
目前,篇章分析的评测主要考虑算法的准确度(Accuracy)和F1值两个性能指标。准确度采用式(20)进行度量。
Figure BDA0002671845640000111
其中,TruePositive代表本来是正样例,同时分类成正样例的个数;TrueNegative代表本来是负样例,同时分类成负样例的个数;All代表样例总个数。
F1值由准确率(Precision)和召回率(Recall)共同体现,采用式(21)进行度量。
Figure BDA0002671845640000112
其中,
Figure BDA0002671845640000113
Figure BDA0002671845640000121
其中,FalsePositive代表本来是负样例,但被分类成正样例的个数(通常叫误报);FalseNegative代表本来是正样例,但被分类成负样例的个数(通常叫漏报)。相关分数值越高表示该模型性能越好。
表3不同对比模型在二分类和四分类中的F1(%)和Accuracy(%)
Figure BDA0002671845640000122
表4不同消融模型在二分类和四分类中的F1(%)和Accuracy(%)
Figure BDA0002671845640000123
从表3和表4的实验结果可看出,本发明提出的基于动态路由的交互式胶囊网络的隐式篇章关系识别的有效性。
此外,为了验证动态交互式路由的有效性,分别对CN模型和本发明ICN模型的不同耦合系数进行了可视化,如图2a和图2b所示。为了进行公平的比较,选择了这两个模型中相同数量的具有明显的区别性语义表示的论元特征胶囊(0-17)。颜色的深浅表示耦合系数的大小,颜色越深,对应的值越大。以一个偶然关系(Contingency)的例子来进一步说明:
Arg1:Now,they’re charging as little$3a day.
Arg2:If they’re telling the truth now,then they’ve been charging300%more than what is
reasonable.
可以获得以下观察结果:
·图2a反映了CN模型错误地预测为比较关系,因为它关注于论元特征胶囊如“很少”和“多于”的信息,这些信息与比较关系胶囊高度耦合。这表明CN模型仅利用独立的单个论元特征聚合以学习论元表面语义,而忽略论元交互线索。
·在图2b中,ICN模型正确地识别偶然关系。原因可能是ICN模型可以学习全面的论元交互,而不局限于表面词对交互。这说明从多种篇章关系的角度捕获论元交互有助于不同篇章关系之间的信息参考。此外,对多种可能的篇章关系的综合考虑使得模型关注最突出的一个。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Emily Pitler,Annie Louis,and Ani and Nenkova.2009.Automatic senseprediction for implicit discourse relations in text.In AFNLP,pages 683–691.
[2]Thomas Meyer,Najeh Hajlaoui,and Andrei Popescu-Belis.2015.Disambiguating discourse connectives for statistical machinetranslation.IEEE/ACM,TASLP,23(7):1184–1197.
[3]Mingyu Derek Ma,Kevin Bowden,JiaqiWu,Wen Cui,and MarilynWalker.2019.Implicit discourse relation identification for open-domaindialogues.In ACL,pages 666–672.
[4]Biao Zhang,Jinsong Su,Deyi Xiong,Yaojie Lu,Hong Duan,and JunfengYao.2015.Shallow convolutional neural network for implicit discourse relationrecognition.In EMNLP,pages 2230–2235.
[5]Yang Liu,Sujian Li,Xiaodong Zhang,and Zhifang Sui.2016.Implicitdiscourse relation classification via multi-task neural networks.In AAAI,pages 2750–2756.
[6]Lianhui Qin,Zhisong Zhang,and Hai Zhao.2016.Implicit discourserelation recognition with context-aware character-enhanced embeddings.InCOLING,
[7]Deng Cai and Hai Zhao.2017.Pair-aware neural sentence modeling forimplicit discourse relation classification.In IEA-AIE,pages 458–466.Springer.pages 1914–1924.
[8]Hongxiao Bai and Hai Zhao.2018.Deep enhanced representation forimplicit discourse relation recognition.In COLING,pages 571–583.
[9]Yang Liu and Sujian Li.2016.Recognizing implicit discourserelations via repeated reading:Neural networks with multi-level attention.InEMNLP,pages 1224–1233.
[10]Jifan Chen,Qi Zhang,Pengfei Liu,Xipeng Qiu,and XuanjingHuang.2016.Implicit discourse relation detection via a deep architecture withgated relevance network.In ACL,pages 1726–1735.
[11]Yang Liu,Jiajun Zhang,and Chengqing Zong.2017.Memory augmentedattention model for chinese implicit discourse relation recognition.In CCL,NLPNABD,pages 411–423.Springer.
[12]Fengyu Guo,Ruifang He,Di Jin,Jianwu Dang,Longbiao Wang,andXiangang Li.2018.Implicit discourse relation recognition using neural tensornetwork with interactive attention and sparse learning.In COLING,pages 547–558.
[13]Sheng Xu,Peifeng Li,Fang Kong,Qiaoming Zhu,and GuodongZhou.2019.Topic tensor network for implicit discourse relation recognition inchinese.In ACL,pages 608–618.
[14]Minjoon Seo,Aniruddha Kembhavi,Ali Farhadi,and HannanehHajishirzi.2016.Bidirectional Attention flow for machine comprehension.arXivpreprint arXiv:1611.01603.
[15]Xinsong Zhang,Pengshuai Li,Weijia Jia,and Hai Zhao.2019.Multi-labeled relation extraction with attentive capsule network.In AAAI,pages7484–7491.

Claims (5)

1.基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,其特征在于,包括如下步骤:
(101)构建双向长短期记忆神经网络层:将篇章论元Arg1、Arg2的向量表示作为双向长短期记忆神经网络的输入,编码得到篇章论元Arg1、Arg2的抽象表示;
(102)构建论元特征胶囊层:将步骤(101)得到的论元抽象表示输入到卷积神经网络中,并利用若干个不同的卷积核在论元抽象表示的不同位置抽取N-gram特征,获得一系列论元特征胶囊,以实现论元特征抽取;
(103)构建篇章关系感知的交互层:将论元特征胶囊聚合为表示潜在篇章关系的篇章关系胶囊,并从多种篇章关系的角度捕获论元交互;一方面,通过特征聚合构建论元与篇章关系之间的相关性,从而捕获论元特征的篇章关系暗示性语义线索;另一方面,通过动态交互式路由进一步捕获篇章关系感知的论元交互;
(104)构建篇章关系识别层:利用步骤(103)生成的表示潜在篇章关系的篇章关系胶囊对隐式篇章关系进行识别。
2.根据权利要求1所述基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,其特征在于,步骤(101)中具体如下:给定包含L个单词的论元的向量表示S={w1,w2,...wL},通过查找表操作,每个单词由一个dw维的向量表示;为了获得每个单词的上下文信息,利用双向长短期记忆网络将论元编码成隐状态;
Figure FDA0002671845630000011
Figure FDA0002671845630000012
Figure FDA0002671845630000013
其中,wt表示论元中的每个单词,LSTMfw和LSTMbw分别为正向LSTM和反向LSTM,拼接
Figure FDA0002671845630000014
Figure FDA0002671845630000015
即单词在正反两个方向上的隐表示以得到单词的隐状态
Figure FDA0002671845630000016
dh为双向长短期记忆神经网络中隐单元的数量;因此,得到整个论元的表示为
Figure FDA0002671845630000017
hL表示第L个单词的隐表示。
3.根据权利要求1所述基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,其特征在于,步骤(102)中具体如下:为了从论元抽象表示H中抽取N-gram特征,在局部区域
Figure FDA0002671845630000018
进行卷积操作,以获得论元特征胶囊ui
Figure FDA0002671845630000021
其中f是非线性激活函数,
Figure FDA0002671845630000022
为一个卷积核组,Kt×dh为卷积核的尺寸,Kt为卷积操作的N-gram大小,t表示卷积核组的数量,d表示论元特征胶囊的维度,
Figure FDA0002671845630000023
表示逐元素乘法,b是偏差项;在H上滑动所有的卷积核组后,拼接获得的多个特征图,最终得到一组论元特征胶囊
Figure FDA0002671845630000024
其中r的计算方法为:
Figure FDA0002671845630000025
利用不同的卷积核组重复上述步骤C次,论元特征胶囊层的最终输出计算如下:
Figure FDA0002671845630000026
Figure FDA0002671845630000027
是得到的所有论元特征胶囊,M为胶囊的数量,并且M=r×C。
4.根据权利要求1所述基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,其特征在于,步骤(103)中具体如下:
1)特征聚合;利用动态路由将论元特征胶囊聚合为潜在篇章关系表示;以迭代方式构建非线性映射,以确保每个论元特征胶囊被聚合到合适的篇章关系胶囊;
形式上,论元特征胶囊ui生成预测向量
Figure FDA0002671845630000028
计算方法为:
Figure FDA0002671845630000029
其中,
Figure FDA00026718456300000210
为可学习的权重矩阵;对预测向量进行加权求和得到第j个篇章关系胶囊的向量表示vj,记为:
Figure FDA00026718456300000211
其中cij是第i个论元特征胶囊和第j个篇章关系胶囊之间迭代更新的耦合系数,squash为将胶囊长度限制在[0,1]的范围内的非线性函数,定义为:
Figure FDA00026718456300000212
2)动态交互式路由通过耦合系数cij学习
Figure FDA0002671845630000031
和vj之间的耦合,记为:
cij=softmax(bij) (10)
bij为Arg1中cij的初始logit值,表示论元特征胶囊ui路由到篇章关系胶囊vj的先验概率;相应地,c′ij和b′ij分别表示Arg2中的耦合系数和其初始logit值;请注意,带“'”的符号表示Arg2中的相关信息;
在Arg1中,bij的初始值为0,并通过协议系数α的转换来更新,Arg2中进行相同的操作;α和α′中的元素的计算方式如下:
Figure FDA0002671845630000032
Figure FDA0002671845630000033
其中
Figure FDA0002671845630000034
Figure FDA0002671845630000035
为预测向量,vj和和v′j为篇章关系胶囊;协议系数只能反映单个论元与潜在篇章关系之间的相关性;
为了捕获论元间的重要相关信息,在两个论元上共同执行动态交互式路由;通过一个基于胶囊网络的名为CIF的胶囊交互函数来转换协议系数,分别获得交互协议系数矩阵β和β′:
(β,β′)=CIF(α,α′) (13)
其中,CIF函数定义如下:
I=α·α′T (14)
β=softmax(IT)α (15)
β′=softmax(I)α′ (16)
具体地,公式(14)在学习单个论元和潜在篇章关系之间的关联性的基础上,反映论元交互;并通过公式(15)和(16)学习论元间的互注意力;然后利用交互协议系数分别对bij和bij进行更新,记为:
bij=bijij (17)
b′ij=b′ij+β′ij (18)
bij的更新导致cij的改变,实现了论元特征胶囊和篇章关系胶囊间的耦合的调整;在设置的z次迭代后,由路由过程学到的耦合系数确保了论元特征被聚合为合适的篇章关系表示;对于任务中的多种篇章关系,篇章关系感知的胶囊交互能够在动态交互路由过程中学到更好的论元特征聚合和论元交互。
5.根据权利要求1所述基于动态路由的交互式胶囊网络的隐式篇章关系识别方法,其特征在于,步骤(104)中具体如下:拼接vj和v′j得到最终的篇章关系胶囊Vj,对每个篇章关系胶囊Vj计算滑动边值损失:
Figure FDA0002671845630000041
其中,如果篇章论元间的关系属于篇章关系j,则Yj=1;否则Yj=0;λ是一个下加权系数,设定为0.5,m+和m-是边值,设定m+=0.9,m-=0.1;篇章关系识别的总损失是所有类型的关系损失的总和,计算为:
Figure FDA0002671845630000042
n为篇章关系类型的数量。
CN202010935727.4A 2020-09-08 2020-09-08 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法 Active CN112069804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010935727.4A CN112069804B (zh) 2020-09-08 2020-09-08 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010935727.4A CN112069804B (zh) 2020-09-08 2020-09-08 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法

Publications (2)

Publication Number Publication Date
CN112069804A true CN112069804A (zh) 2020-12-11
CN112069804B CN112069804B (zh) 2023-12-19

Family

ID=73664370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010935727.4A Active CN112069804B (zh) 2020-09-08 2020-09-08 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法

Country Status (1)

Country Link
CN (1) CN112069804B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699215A (zh) * 2020-12-24 2021-04-23 齐鲁工业大学 基于胶囊网络与交互注意力机制的评级预测方法及系统
CN112989845A (zh) * 2021-03-02 2021-06-18 北京理工大学 一种基于路由算法的篇章级神经机器翻译方法及系统
CN113780305A (zh) * 2021-08-10 2021-12-10 西安电子科技大学 一种基于两种线索交互的显著性目标检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200019073A (ko) * 2018-08-13 2020-02-21 한국과학기술원 캡슐 네트워크 기반의 종단간 음성 인식 방법 및 장치
US20200159778A1 (en) * 2018-06-19 2020-05-21 Priyadarshini Mohanty Methods and systems of operating computerized neural networks for modelling csr-customer relationships
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200159778A1 (en) * 2018-06-19 2020-05-21 Priyadarshini Mohanty Methods and systems of operating computerized neural networks for modelling csr-customer relationships
KR20200019073A (ko) * 2018-08-13 2020-02-21 한국과학기술원 캡슐 네트워크 기반의 종단간 음성 인식 방법 및 장치
CN111507101A (zh) * 2020-03-03 2020-08-07 杭州电子科技大学 一种基于多层次语义胶囊路由的反讽检测方法
CN111488739A (zh) * 2020-03-17 2020-08-04 天津大学 基于多粒度生成图像增强表示的隐式篇章关系识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王家乾;龚子寒;薛云;庞士冠;古东宏;: "基于混合多头注意力和胶囊网络的特定目标情感分析", 中文信息学报, no. 05 *
郭凤羽;贺瑞芳;党建武;: "基于语境交互感知和模式筛选的隐式篇章关系识别", 计算机学报, no. 05 *
阮慧彬;徐扬;孙雨;洪宇;周国栋;: "基于堆叠式注意力机制的隐式篇章关系识别", 山西大学学报(自然科学版), no. 03 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112699215A (zh) * 2020-12-24 2021-04-23 齐鲁工业大学 基于胶囊网络与交互注意力机制的评级预测方法及系统
CN112989845A (zh) * 2021-03-02 2021-06-18 北京理工大学 一种基于路由算法的篇章级神经机器翻译方法及系统
CN113780305A (zh) * 2021-08-10 2021-12-10 西安电子科技大学 一种基于两种线索交互的显著性目标检测方法
CN113780305B (zh) * 2021-08-10 2024-03-12 西安电子科技大学 一种基于两种线索交互的显著性目标检测方法

Also Published As

Publication number Publication date
CN112069804B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN109766524B (zh) 一种并购重组类公告信息抽取方法及系统
CN112069804B (zh) 基于动态路由的交互式胶囊网络的隐式篇章关系识别方法
CN111914097A (zh) 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
Wu et al. Sentiment classification using attention mechanism and bidirectional long short-term memory network
Liang et al. A multi-scale semantic attention representation for multi-label image recognition with graph networks
Jin et al. Inter-sentence and implicit causality extraction from chinese corpus
Qiao et al. A structure-enriched neural network for network embedding
Tan et al. Fine-grained image classification with factorized deep user click feature
Lin et al. Research on named entity recognition method of metro on-board equipment based on multiheaded self-attention mechanism and CNN-BiLSTM-CRF
Chai et al. An error consistency based approach to answer aggregation in open-ended crowdsourcing
Liu et al. A multi-classification sentiment analysis model of Chinese short text based on gated linear units and attention mechanism
Feng et al. Pre-trained language embedding-based contextual summary and multi-scale transmission network for aspect extraction
Wei et al. Entity relationship extraction based on bi-LSTM and attention mechanism
Tian et al. Scene graph generation by multi-level semantic tasks
Li et al. Evaluating BERT on cloud-edge time series forecasting and sentiment analysis via prompt learning
Yu et al. Aspect-location attention networks for aspect-category sentiment analysis in social media
Mu et al. Synonym recognition from short texts: A self-supervised learning approach
Ye et al. Deep truth discovery for pattern-based fact extraction
Chen et al. Capsule-based bidirectional gated recurrent unit networks for question target classification
Li et al. Class imbalance mitigation: A select-then-extract learning framework for emotion-cause pair extraction
Zhao et al. POS-ATAEPE-BiLSTM: an aspect-based sentiment analysis algorithm considering part-of-speech embedding
Xu et al. Multi text classification model based on bret-cnn-bilstm
Zhang et al. Sentiment analysis of chinese reviews based on BiTCN-attention model
Zhu English Lexical Analysis System of Machine Translation Based on Simple Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant