CN112836048A - 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 - Google Patents
基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 Download PDFInfo
- Publication number
- CN112836048A CN112836048A CN202110109110.1A CN202110109110A CN112836048A CN 112836048 A CN112836048 A CN 112836048A CN 202110109110 A CN202110109110 A CN 202110109110A CN 112836048 A CN112836048 A CN 112836048A
- Authority
- CN
- China
- Prior art keywords
- discourse
- head
- attention
- representation
- relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 42
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 118
- 230000007246 mechanism Effects 0.000 claims abstract description 54
- 230000003993 interaction Effects 0.000 claims abstract description 39
- 230000014509 gene expression Effects 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 101150088826 arg1 gene Proteins 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 101150026173 ARG2 gene Proteins 0.000 claims description 7
- 101100260702 Mus musculus Tinagl1 gene Proteins 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 4
- 101100379633 Xenopus laevis arg2-a gene Proteins 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 claims description 2
- 230000002441 reversible effect Effects 0.000 claims description 2
- 230000017105 transposition Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 description 10
- 238000003058 natural language processing Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法,本发明方法将双向注意力机制和多头注意力机制相结合,在隐式篇章关系识别中引入Transformer可以更好得挖掘篇章论元对的内部交互信息,从而可以更好地学习到包含重要交互信息的用于识别篇章关系的特征向量表示以进行篇章关系识别。本发明方法可以通过Bi‑attention有效地捕获两个篇章论元之间的交互信息。此外,与现有方法相比,本发明方法可以将篇章论元向量表示映射到具有多头注意力机制的不同表示子空间中,并从不同方面更全面地挖掘交互信息,并得到用于识别篇章关系的特征向量表示,最后将用于识别篇章关系的特征向量表示输入到篇章关系识别层进行篇章关系识别。
Description
技术领域
本发明涉及自然语言处理中篇章分析技术领域,尤其是涉及篇章关系识别技术,具体为基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法。
背景技术
篇章分析是自然语言处理(NLP)中的一项基本任务,它对潜在的关系结构进行分析,并挖掘文本单元之间的联系。目前,尽管在包含显式连接词(如“因为”,“但是”)的显式篇章关系识别任务上取得了巨大进步,但是由于篇章连接词的缺失(Pitler et al.,2009)[2],隐式篇章关系识别仍然是一个挑战。提升隐式篇章关系识别任务可以对许多流行自然语言处理(Natural Language Processing,NLP)任务有所帮助,如机器翻译(Li et al.,2014)[3],自动问答等。
现有的基于神经网络的模型已经在隐式篇章关系任务中取得一定的成功。1)基于表示的神经网络(Zhang et al.,2015;Liu and Li.,2016;Dai et al.,2018;Bai et al.,2018)[4-7]可以学习篇章论元的稠密向量表示,它可以在一定程度上捕获语义信息,如卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN),但是,大多数这些模型仅考虑篇章论元表示而没有交互信息,因此无法充分理解句间关系;2)基于交互的神经网络(Chen et al.,2016;Lei et al.,2017;Guo etal.,2018;Xu et al.,2019)[8-11]利用门控相关网络或神经张量网络来建模两个篇章论元之间的更深层相互作用。但是,他们只能在同一表示空间中获得篇章论元的交互特征,而忽略了不同表示子空间中的交互特征;3)最近, Transformer(Vaswani et al.,2017)[12]在NLP领域取得了巨大的成功。Transformer可以通过多头注意机制捕获文本的不同表示子空间中的表示特征。尽管具有自注意力机制(Self-attention) 的Transformer可以有效地捕获单个文本的语义信息,但是对于基于两个文本之间的交互的任务(例如文本匹配,自然语言推断,隐式话语关系识别等)而言还是不够的。与自注意力机制相比,双向注意(Bi-attention)机制(Seo et al.,2016)[13]可以有效地捕获两个文本之间的交互信息,例如问答(Chen et al.,2019)[14]和阅读理解(Tay et al.,2018)[15]。
发明内容
本发明的目的是为了克服现有技术中的不足,提供基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法。先前的大多数方法仅着重于在一个表示空间中挖掘篇章论元的交互信息,这导致交互特征的表示单一。为了捕获不同表示子空间中的篇章论元交互信息,本发明首次将结合多头注意力机制和双向注意力机制相结合,提出了基于多头双向注意力的交互式Transformer(Bi-Transformer)。具体来说,将多层编码器获得的两个篇章论元向量表示作为Bi-Transformer网络的输入,然后利用多头双向注意机制捕获不同表示子空间中两个篇章论元向量表示之间的深层交互信息,从而有效地推断篇章关系。
本发明的目的是通过以下技术方案实现的:
基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法,包括以下步骤:
(101)构建论元的嵌入层:嵌入层是一个根据索引进行查找表操作的投影层;嵌入层通过在嵌入空间中将篇章论元Arg1,Arg2的词向量序列表示逐一映射成两个篇章论元的向量表示,以捕获篇章论元的上下文信息;
(102)构建多层编码器层:通过多层双向长短期记忆神经网络(BidirectionalLong Short-Term Memory,Bi-LSTM)学习不同级别的篇章论元的语义信息;具体来说,多层编码器层的高层级能够捕获单词的上下文信息,而低层级能够对语法信息进行建模;
(103)构建多头双向注意力的交互式Transformer(Bi-Transformer)以捕获交互信息, Bi-Transformer包括双向注意力机制(Bidirectional Attention Mechanism,Bi-attention)、多头双向注意力机制(Multiple Bidirectional Attention Mechanism)和位置前馈网络;双向注意力机制能够通过正向与反向两个方向来获取查询感知的上下文表示,同时双向注意力机制能够关注到篇章论元中能够反映交互信息的重要单词对,从而捕获两个篇章论元向量表示间的交互信息;多头双向注意力机制能够通过对双向注意力机制进行多头建模以获取表示子空间中篇章论元向量表示的交互信息;通过位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示;
(104)构建篇章关系识别层:利用步骤(103)生成的篇章论元向量表示对隐式篇章关系进行识别。
进一步的,步骤(101)中具体包括:给定论元对 其中n1,n2分别是论元Arg1和Arg2的单词个数,分别是Arg1,Arg2中第i个和第j单词;将每个单词在预先训练的单词嵌入上进行查表操作获取对应的低维分布式向量表示后分别组成词向量序列表示,即可获得篇章论元Arg1和Arg2的向量表示:a1,a2;为了获取每个单词的上下文信息,利用ELMo即语言模型的嵌入编码篇章论元向量表示,得到具有上下文信息的篇章论元向量表示:e1,e2;最后,通过将两个篇章论元向量表示进行拼接得到具有丰富语义信息的篇章论元向量表示a′1,a′2,具体公式如下:
进一步的,步骤(102)具体包括:多层编码器层是利用多层双向长短期记忆神经网络 (Bidirectional Long Short-Term Memory,Bi-LSTM)和注意力机制对篇章论元向量表示a′1,a′2进行建模,以获得具有重要词汇信息的语义丰富的篇章论元向量,具体公式如下:
α=softmax(wTtanh(a')) (12)
h*=tanh(a'αT) (13)
h*(m+1)=Bi-LSTM(h*(m)) (14)
其中,a'表示篇章论元向量表示,w的转置wT表示权重参数向量,α表示注意力权重,h*表示经过注意力权重计算的篇章论元向量表示,m表示Bi-LSTM的层数,h*(m)表示经过m层 Bi-LSTM编码的篇章论元向量表示;将篇章论元向量表示a′1,a'2输入到多层编码器层后,使用最后一层的输出作为新的篇章论元向量表示Q和V。
进一步的,步骤(103)具体包括:
1)双向注意力机制,给定两个篇章论元向量表示Q和V,使用Bi-attention函数(BAF) 获得Q和V之间的交互信息:
(Wq,Wv)=BAF(Q,V) (15)
M=QVT (16)
Wq=softmax(MT)Q (17)
Wv=softmax(M)V (18)
其中,M表示篇章论元对的交互注意力矩阵,MT表示M的转置;VT表示V的转置;
2)多头双向注意力机制,多头注意力机制允许模型共同关注来自不同表示子空间的信息,具体公示如下:
MultiHead(Q,V)=Concat(head1,...,headh)WO (19)
其中,是参数矩阵,是一个完整的连接层并且与多头注意力机制的输出相关的参数矩阵;h是多头注意力机制的头的个数,dq,dv分别是每个头中篇章论元向量表示的维度,且dq=dv=de/h,de是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度;将篇章论元向量表示Q和V输入多头双向注意力机制模型后,从不同的表示子空间中获得具有丰富的交互信息的篇章论元向量表示:Q' 和V';
3)位置前馈网络,在通过多头双向注意力机制从不同的表示子空间中具有丰富的交互信息的篇章论元向量表示Q'和V'后,将Q'和V'输入位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示,具体公式如下:
FFN(x)=max(0,xW1+b1)W2+b2 (11)
其中,W1,b1,W2,b2是位置前馈网络的参数,x为篇章论元向量表示,即Q'或V';将Q'和V' 输入位置前馈网络后得到新的篇章论元向量表示:Q″和V″;将Q″和V″进行拼接即能够得到包含重要交互信息的用于识别篇章关系的特征向量表示output。
进一步的,步骤(104)具体包括:
在获得用于识别篇章关系的特征向量表示output后,使用softmax函数对篇章关系向量表示进行归一化,即能够得到两个论元间的篇章关系;将output输入到分类层中,将得到篇章关系概率分布;公式定义如下:
其中f是softmax函数,分别是权重和偏移项,C是篇章关系类别的数量,n表示篇章论元的单词个数,y是真实关系的one-hot表示,是预测关系的表示;损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失,见公式(13);
与现有技术相比,本发明的技术方案所带来的有益效果是:
(1)为了捕获更为丰富的篇章论元交互信息,本发明方法将Transformer的多头注意力机制和双向注意力机制相结合,捕获到了丰富的篇章论元交互信息,从多个角度理解论元的语义,从而增强了论元表示的能力,首次将Transformer应用于句对匹配任务,在篇章论元交互方向使用Transformer做出了创新性的尝试。
(2)本发明方法使用双向注意力机制替换传统Transformer的多头注意力机制中的自注意力机制,克服了传统Transformer不适用于文本交互任务的缺点,扩大了传统Transformer 的使用范围,使Transformer可以很好地适应句对匹配任务。
(3)本发明方法在隐式篇章关系识别中引入Transformer可以更好得挖掘篇章论元对的内部交互信息,从而可以更好地学习到包含重要交互信息的用于识别篇章关系的特征向量表示以进行篇章关系识别。与传统的仅考虑单个文本的语义特征的Transformer不同,本发明方法可以通过Bi-attention轻松有效地捕获两个篇章论元之间的交互信息。此外,与现有方法相比,本发明方法可以将篇章论元向量表示映射到具有多头注意力机制的不同表示子空间中,并从不同方面更全面地挖掘交互信息。除了使用多级编码器对篇章论元进行编码以获取篇章论元向量表示之外,本发明方法还可以捕获不同表示子空间中篇章论元间更丰富的交互信息。
附图说明
图1为本发明提供的基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法框架示意图;
图2a为双向注意力机制(Bi-attention)的注意力可视化图;
图2b为Transformer的注意力可视化图;
图2c为Bi-Transformer的注意力可视化图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以宾州篇章树库(Penn Discourse TreeBank,PDTB)数据集为例来给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括数据集预处理、获取篇章论元的嵌入向量表示、捕获篇章论元的上下文信息、捕获篇章论元的交互信息、篇章关系预测这几个步骤。
具体步骤如下:
(1)数据集预处理
宾州篇章树库(Penn Discourse Treebank,PDTB)是一个在2,312篇华尔街日报文章上进行标注得到的大规模语料库。PDTB根据不同粒度,将篇章关系分为三层:第一层4类,第二层16类,第三层23类,共43类。第一层为四种主要的关系类型:对比(Comparison)、偶然(Contingency)、扩展(Expansion)和时序(Temporal)。本发明以PDTB为原始语料,并按照以下步骤对原始语料进行处理:对PDTB数据集的使用了两种分割方法,1)是 PDTB-Lin[16],它分别使用第2-21、22和23节作为训练、开发和测试集;2)是PDTB-Ji[17],它分别使用第2-20、0-1和21-22节作为训练、开发和测试集。根据PDTB-Ji,由于五种关系类型的训练实例很少并且没有dev和test实例,因此除去这五种类型后,PDTB-Ji数据集中仍有11种二级类型。表1显示了PDTB-JI的第一级的统计信息。
表1PDTB-JI的第一级篇章关系的统计信息
篇章关系 | 训练集 | 开发集 | 测试集 |
Comparison | 1898 | 191 | 146 |
Contingency | 3288 | 287 | 276 |
Expansion | 6900 | 651 | 556 |
Temporal | 689 | 54 | 68 |
Total | 12775 | 1183 | 1046 |
(2)获取篇章论元的嵌入向量表示
按照上步完成数据集的预处理后,将训练集按批次将篇章论元作为词嵌入模块输入,即会得到篇章论元的向量表示:a1,a2。同时将篇章论元作为ELMo的输入,并得到ELMo编码的具有上下问信息的篇章论元向量表示:e1,e2。最后,通过将两个篇章论元向量表示进行拼接得到具有丰富语义信息的篇章论元向量表示a′1,a'2,具体公式如下:
(3)捕获篇章论元的上下文信息
将上一步得到得篇章论元向量表示a′1,a'2,输入到多层编码器中,即可获得包含上下问信息得篇章论元向量表示Q和V,具体公式如下:
α=softmax(wTtanh(a')) (22)
h*=tanh(a'αT) (23)
h*(m+1)=Bi-LSTM(h*(m)) (24)
其中,a'表示篇章论元向量表示,w的转置wT表示权重参数向量,α表示注意力权重,h*表示经过注意力权重计算的篇章论元向量表示,m表示多层双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的层数,h*(m)表示经过m层Bi-LSTM编码的篇章论元向量表示。将篇章论元向量表示a′1,a'2输入到多层编码器层后,使用最后一层的输出作为新的篇章论元向量表示Q和V。
(4)捕获篇章论元的交互信息
通过基于多头双向注意力机制的Transformer(Bi-Transformer),可以动态学习和捕获篇章论元间的重要交互信息。基于多头双向注意力机制的Transformer利用多头注意力机制和双向注意力机制捕获不同表示子空间中的篇章论元间的交互信息,双向注意力机制具体公式如下:
(Wq,Wv)=BAF(Q,V) (25)
M=QVT (26)
Wq=softmax(MT)Q (27)
Wv=softmax(M)V (28)
其中,M表示篇章论元对的交互注意力矩阵,MT表示M的转置。多头注意力机制允许模型共同关注来自不同表示子空间的信息,具体公示如下:
MultiHead(Q,V)=Concat(head1,...,headh)WO (29)
headi=BAF(QWi Q,VWi V) (30)
其中,是参数矩阵,是一个完整的连接层并且与多头注意力机制的输出相关的参数矩阵。h是多头注意力机制的头的个数,dq,dv分别是每个头中篇章论元向量表示的维度,且dq=dv=de/h。de是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度。多头双向注意力机制是一个交互式的模型,也是实现交互式Transformer的重要组件。将篇章论元向量表示Q和V输入多头双向注意力机制后,可以从不同的表示子空间中获得具有丰富的交互信息的篇章论元向量表示: Q'和V'。将Q'和V'输入位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示,具体公式如下:
FFN(x)=max(0,xW1+b1)W2+b2 (11)
其中,W1,b1,W2,b2是位置前馈网络的参数,x为篇章论元向量表示,即Q'或V'。将Q'和V' 输入位置前馈网络后可得到新的篇章论元向量表示:Q″和V″。将Q″和V″进行拼接即可得到包含重要交互信息的用于识别篇章关系的特征向量表示output。
(5)篇章关系预测
按照上一步将得到的用于识别篇章关系的特征向量表示output输入到分类层中,将得到篇章关系概率分布。公式定义如下:
其中f是softmax函数,分别是权重和偏移项,C是篇章关系类别的数量,y是真实关系的one-hot表示,是预测关系的表示。损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失,见公式(13);
在具体实施过程中,以PDTB数据集为例,通过提前设置各种超参数,见表2;即单词嵌入是300维的使用Google News预训练的word2vec[18]。使用Adam优化器来优化损失函数,并通过使用ELMo预训练的300维词嵌入增强的论元向量表示。Bi-LSTM层数为3,迭代次数为100。
表2模型在实验中的超参数
参数名称 | 参数值 |
句子长度 | max_length=50 |
词嵌入维度 | embedding_size=300 |
初始学习率 | lr=0.001 |
批次大小 | num_batches=128 |
迭代次数 | epoch=100 |
ELMo维度 | ELMo_embedding_size=300 |
多层编码器层数 | Layer_num=3 |
多头注意力机制的头数 | h=4 |
为了验证本发明方法的有效性,将本发明方法与当前先进并具有代表性的模型以及四个基本方法进行对比:
对比模型:
·(Ji and Eisenstein 2015)通过句法分析树计算每个篇章论元的分布式表示。
·(Zhang et al.2015)提出了一种纯神经网络和三个不同的池操作,其在词向量上只有一个简单的卷积层并可以学习浅层的任务表示。
·(Qin,Zhang,and Zhao 2016)采用了上下文感知的字符增强嵌入来解决隐式的篇章关系识别任务。
·(Bai and Zhao 2018)采用了不同粒度的文本表示,包括字符、子字、单词、句子和句子对级别来解决隐式的篇章关系识别任务。
·(Dai and Huang 2018)提出了一种使用段落信息帮助预测篇章关系的隐式篇章关系识别方法。
·(Chen et al.2016)提出了一种门控相关网络(GRN),并将词对之间的线性和非线性相互作用结合起来。
·(Lei et al.2017)设计了一种简单的单词交互模型(SWIM)来学习单词对之间的交互信息。
·(Guo et al.2018)提出了一个神经张量网络框架来从两个篇章论元中挖掘交互式注意力。
·(Van Ngo et al.2019)提出了一种多任务学习模型,该模型具有隐式连接词和篇章关系的嵌入以及三个惩罚项的作用,以帮助预测任务之间的知识共享。
消融模型:
·Baseline本实验通过三层Bi-LSTM对两个篇章论元进行编码,并利用双向注意力机制(Bidirectional Attention Mechanism,Bi-attention)获得交互作用,最后利用softmax 层预测篇章关系。Bi-LSTM层数设置为3的原因是它可以在多次试验后获得较好的结果。
·+Transformer基于Baseline,本实验将拼接后的文本表示作为具有3层和4个自注意力机制头的传统Transformer的输入,最后将它们输入到softmax层中。
·+Bi-Transformer本实验将Bi-LSTM获得的两个篇章论元向量表示输入到 Bi-Transformer中,然后将Bi-Transformer的输出作为softmax层的输入。
·+ELMo&Bi-Atten本实验利用预训练的ELMo向量来丰富两个篇章论元向量表示,然后利用双向注意层捕获交互信息,最后将它们提供给softmax层。
·+ELMo&Transformer本实验将利用预训练的ELMo向量来丰富两个篇章论元向量表示,然后输入到传统的Transformer中。
·+ELMo&Bi-Transformer(Ours)本实验将利用预训练的ELMo向量来丰富两个篇章论元向量表示,然后输入到Bi-Transformer中,最后将它们输入到softmax层来识别话语关系。
目前,篇章分析的评测主要考虑算法的准确度(Accuracy)和F1值两个性能指标。准确度采用公式(14)进行度量。
这里,TruePositive代表本来是正样例,同时分类成正样例的个数;TrueNegative代表本来是负样例,同时分类成负样例的个数;All代表样例总个数。
F1值由准确率(Precision)和召回率(Recall)共同体现,采用公式(15)进行度量。
其中,
这里,FalsePositive代表本来是负样例,但被分类成正样例的个数;FalseNegative代表本来是正样例,但被分类成负样例的个数。相关分数值越高表示该模型性能越好。
表3不同对比模型在11分类中的准确度(%)
表4不同消融模型在11分类中的准确度(%)
表5不同对比模型在二分类和四分类中的F1(%)
表6不同消融模型在二分类和四分类中的F1(%)
从表3,4,5,6验结果可看出,本发明提出的基于多头双向注意力的交互式Transformer 的隐式篇章关系识别方法的有效性。此外,为了验证Bi-Transformer的有效性,本实验以偶然(Contingency)为例进行进一步说明:
Arg1:The technology revolution is going to be very threatening toestablished producers.
Arg2:They’ve got too much invested in the old stuff.
图2a至图2c显示的注意力权重仅针对“threatening”一词。不同的灰度色深代表不同的头部。可以获得以下观察结果:
·如图2a和图2c所示,与双向注意力模型(Bi-attention)相比,双向注意模型仅学习到单词对(“threatening”,“too”)的线索。而具有多头双向注意力机制的Bi-Transformer模型可以关注到更重要的线索,例如单词对(“threatening”,“too”),(“threatening”,“old”)和 (“threatening”,“stuff”),它们可以直接将示例识别为偶然(Contingency)关系。此外,不同的注意头可以从不同的角度捕获交互信息,例如,第二层的头中还关注到了单词对 (“threatening”,“invested”)。这说明了多头双向注意机制的有效性;
·如图2b和图2c所示,与Transformer模型相比,Transformer模型主要关注当前单词和与其在相同论元中的重要语义信息。Bi-Transformer模型可以更有针对性地关注篇章论元间的重要交互信息上,并且可以忽略一些影响交互的噪声。这也表明Bi-Transformer模型更适合挖掘篇章论元的交互;
·总体而言,Bi-Transformer模型结合了双向注意力机制和Transformer的优势,可以更全面地挖掘篇章论元之间的重要交互信息。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
参考文献:
[1]Matthew Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,ChristopherClark,Kenton Lee,and Luke Zettlemoyer.2018.Deep contextualized wordrepresentations.In Proceedings of the 2018NAACL,pages 2227– 2237.
[2]Pitler,E.;Louis,A.;and Nenkova,A.2009.Automatic sense predictionfor implicit discourse relations in text.In Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4th InternationalJoint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume2,683–691.Association for Computational Linguistics.
[3]Junyi Jessy Li,Marine Carpuat,and Ani Nenkova.2014.Assessing thediscourse factors that influence the quality of machine translation.InProceedings of the 52nd Annual Meeting of the Association for ComputationalLinguistics(ACL)(Volume 2:Short Papers),pages 283–288,Baltimore,Maryland,June.
[4]Zhang,B.;Su,J.;Xiong,D.;Lu,Y.;Duan,H.;and Yao,J.2015.Shallowconvolutional neural network for implicit discourse relation recognition.InProceedings of the 2015Conference on Empirical Methods in Natural LanguageProcessing,2230–2235.
[5]Liu,Y.;Li,S.;Zhang,X.;and Sui,Z.2016.Implicit discourse relationclassification via multi-task neural networks.In Thirtieth AAAI Conference onArtificial Intelligence.
[6]Dai Z,Huang R.Improving Implicit Discourse Relation Classificationby Modeling Inter-dependencies of Discourse Units in a Paragraph[J].2018.
[7]Hongxiao Bai and Hai Zhao.2018.Deep enhanced representation forimplicit discourse relation recognition.In Proceedings of the 27th COLING,pages 571–583.
[8]Chen,J.;Zhang,Q.;Liu,P.;Qiu,X.;and Huang,X.2016.Implicit discourserelation detection via a deep architecture with gated relevance network.InProceedings of the 54th Annual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers),1726–1735.
[9]Lei,W.;Wang,X.;Liu,M.;Ilievski,I.;He,X.;and Kan,M.-Y.2017.Swim:Asimple word interaction model for implicit discourse relation recognition.InIJCAI,4026–4032.
[10]Guo,F.;He,R.;Jin,D.;Dang,J.;Wang,L.;and Li,X.2018.Implicitdiscourse relation recognition using neural tensor network with interactiveattention and sparse learning.In Proceedings of the 27th InternationalConference on Computational Linguistics,547–558.
[11]Sheng Xu,Peifeng Li,Fang Kong,Qiaoming Zhu,and GuodongZhou.2019.Topic tensor network for implicit discourse relation recognition inchinese.In Proceedings of the 57th ACL,pages 608–618.
[12]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,LlionJones,Aidan N Gomez, Kaiser,and Illia Polosukhin.2017.Attention is allyou need.In Advances in neural information processing systems,pages 5998–6008.
[13]Minjoon Seo,Aniruddha Kembhavi,Ali Farhadi,and HannanehHajishirzi.2016.Bidirectional attention flow for machine comprehension.arXivpreprint arXiv:1611.01603.
[14]Long Chen,Ziyu Guan,Wei Zhao,Wanqing Zhao,XiaopengWang,Zhou Zhao,and Huan Sun.2019. Answer identification from product reviews for userquestions by multi-task attentive networks.
[15]Yi Tay,Anh Tuan Luu,Siu Cheung Hui,and Jian Su.2018.Denselyconnected attention propagation for reading comprehension.In Advances inNeural Information Processing Systems,pages 4906–4917.
[16]Lin Z,Kan M-Y,Ng H T.Recognizing Implicit Discourse Relations inthe Penn Discourse Treebank [C].In Proceedings of the 2009 EMNLP,2009:343–351.
[17]Ji Y,Eisenstein J.One Vector is Not Enough:Entity-AugmentedDistributional Semantics for Discourse Relations[J].Transactions of theAssociation for Computational Linguistics,2015,3:329–344.
[18]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of wordrepresentations in vector space[J]. arXiv preprint arXiv:1301.3781,2013。
Claims (5)
1.基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法,其特征在于,包括以下步骤:
(101)构建论元的嵌入层:嵌入层是一个根据索引进行查找表操作的投影层;嵌入层通过在嵌入空间中将篇章论元Arg1,Arg2的词向量序列表示逐一映射成两个篇章论元的向量表示,以捕获篇章论元的上下文信息;
(102)构建多层编码器层:通过多层双向长短期记忆神经网络(Bidirectional LongShort-Term Memory,Bi-LSTM)学习不同级别的篇章论元的语义信息;具体来说,多层编码器层的高层级能够捕获单词的上下文信息,而低层级能够对语法信息进行建模;
(103)构建多头双向注意力的交互式Transformer(Bi-Transformer)以捕获交互信息,Bi-Transformer包括双向注意力机制(Bidirectional Attention Mechanism,Bi-attention)、多头双向注意力机制(Multiple Bidirectional Attention Mechanism)和位置前馈网络;双向注意力机制能够通过正向与反向两个方向来获取查询感知的上下文表示,同时双向注意力机制能够关注到篇章论元中反映交互信息的重要单词对,从而捕获两个篇章论元向量表示间的交互信息;多头双向注意力机制能够通过对双向注意力机制进行多头建模以获取表示子空间中篇章论元向量表示的交互信息;通过位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示;
(104)构建篇章关系识别层:利用步骤(103)生成的篇章论元向量表示对隐式篇章关系进行识别。
2.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法,其特征在于,步骤(101)中具体包括:给定论元对 其中n1,n2分别是论元Arg1和Arg2的单词个数,分别是Arg1,Arg2中第i个和第j单词;将每个单词在预先训练的单词嵌入上进行查表操作获取对应的低维分布式向量表示后分别组成词向量序列表示,即可获得篇章论元Arg1和Arg2的向量表示:a1,a2;为了获取每个单词的上下文信息,利用ELMo即语言模型的嵌入编码篇章论元向量表示,得到具有上下文信息的篇章论元向量表示:e1,e2;最后,通过将两个篇章论元向量表示进行拼接得到具有丰富语义信息的篇章论元向量表示a′1,a′2,具体公式如下:
3.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法,其特征在于,步骤(102)具体包括:多层编码器层是利用多层双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,Bi-LSTM)和注意力机制对篇章论元向量表示a′1,a′2进行建模,以获得具有重要词汇信息的语义丰富的篇章论元向量,具体公式如下:
α=softmax(wTtanh(a')) (2)
h*=tanh(a'αT) (3)
h*(m+1)=Bi-LSTM(h*(m)) (4)
其中,a'表示篇章论元向量表示,w的转置wT表示权重参数向量,α表示注意力权重,h*表示经过注意力权重计算的篇章论元向量表示,m表示Bi-LSTM的层数,h*(m)表示经过m层Bi-LSTM编码的篇章论元向量表示;将篇章论元向量表示a′1,a′2输入到多层编码器层后,使用最后一层的输出作为新的篇章论元向量表示Q和V。
4.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法,其特征在于,步骤(103)具体包括:
1)双向注意力机制,给定两个篇章论元向量表示Q和V,使用Bi-attention函数(BAF)获得Q和V之间的交互信息:
(Wq,Wv)=BAF(Q,V) (5)
M=QVT (6)
Wq=softmax(MT)Q (7)
Wv=softmax(M)V (8)
其中,M表示篇章论元对的交互注意力矩阵,MT表示M的转置;VT表示V的转置;
2)多头双向注意力机制,多头注意力机制允许模型共同关注来自不同表示子空间的信息,具体公示如下:
MultiHead(Q,V)=Concat(head1,...,headh)WO (9)
headi=BAF(QWi Q,VWi V) (10)
其中,是参数矩阵,是一个完整的连接层并且与多头注意力机制的输出相关的参数矩阵;h是多头注意力机制的头的个数,dq,dv分别是每个头中篇章论元向量表示的维度,且dq=dv=de/h,de是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度;将篇章论元向量表示Q和V输入多头双向注意力机制模型后,从不同的表示子空间中获得具有丰富的交互信息的篇章论元向量表示:Q'和V';
3)位置前馈网络,在通过多头双向注意力机制从不同的表示子空间中具有丰富的交互信息的篇章论元向量表示Q'和V'后,将Q'和V'输入位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示,具体公式如下:
FFN(x)=max(0,xW1+b1)W2+b2 (11)
其中,W1,b1,W2,b2是位置前馈网络的参数,x为篇章论元向量表示,即Q'或V';将Q'和V'输入位置前馈网络后得到新的篇章论元向量表示:Q”和V”;将Q”和V”进行拼接即能够得到包含重要交互信息的用于识别篇章关系的特征向量表示output。
5.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法,其特征在于,步骤(104)具体包括:
在获得用于识别篇章关系的特征向量表示output后,使用softmax函数对篇章关系向量表示进行归一化,即能够得到两个论元间的篇章关系;将output输入到分类层中,将得到篇章关系概率分布;公式定义如下:
其中f是softmax函数,分别是权重和偏移项,C是篇章关系类别的数量,n表示篇章论元的单词个数,y是真实关系的one-hot表示,是预测关系的表示;损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失,见公式(13);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110109110.1A CN112836048A (zh) | 2021-01-27 | 2021-01-27 | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110109110.1A CN112836048A (zh) | 2021-01-27 | 2021-01-27 | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112836048A true CN112836048A (zh) | 2021-05-25 |
Family
ID=75932016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110109110.1A Pending CN112836048A (zh) | 2021-01-27 | 2021-01-27 | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836048A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312452A (zh) * | 2021-06-16 | 2021-08-27 | 哈尔滨工业大学 | 基于多任务学习的篇章级文本连贯性分类方法 |
CN113642319A (zh) * | 2021-07-29 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN114492450A (zh) * | 2021-12-22 | 2022-05-13 | 马上消费金融股份有限公司 | 文本匹配方法及装置 |
CN116882398A (zh) * | 2023-09-06 | 2023-10-13 | 华东交通大学 | 基于短语交互的隐式篇章关系识别方法和系统 |
CN118013962A (zh) * | 2024-04-09 | 2024-05-10 | 华东交通大学 | 一种基于双向序列生成的汉语篇章连接词识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN111209366A (zh) * | 2019-10-10 | 2020-05-29 | 天津大学 | 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111737426A (zh) * | 2020-05-09 | 2020-10-02 | 中国科学院深圳先进技术研究院 | 问答模型的训练方法、计算机设备以及可读存储介质 |
-
2021
- 2021-01-27 CN CN202110109110.1A patent/CN112836048A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN111209366A (zh) * | 2019-10-10 | 2020-05-29 | 天津大学 | 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法 |
CN111488739A (zh) * | 2020-03-17 | 2020-08-04 | 天津大学 | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 |
CN111737426A (zh) * | 2020-05-09 | 2020-10-02 | 中国科学院深圳先进技术研究院 | 问答模型的训练方法、计算机设备以及可读存储介质 |
CN111477221A (zh) * | 2020-05-28 | 2020-07-31 | 中国科学技术大学 | 采用双向时序卷积与自注意力机制网络的语音识别系统 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312452A (zh) * | 2021-06-16 | 2021-08-27 | 哈尔滨工业大学 | 基于多任务学习的篇章级文本连贯性分类方法 |
CN113642319A (zh) * | 2021-07-29 | 2021-11-12 | 北京百度网讯科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN114492450A (zh) * | 2021-12-22 | 2022-05-13 | 马上消费金融股份有限公司 | 文本匹配方法及装置 |
CN116882398A (zh) * | 2023-09-06 | 2023-10-13 | 华东交通大学 | 基于短语交互的隐式篇章关系识别方法和系统 |
CN116882398B (zh) * | 2023-09-06 | 2023-12-08 | 华东交通大学 | 基于短语交互的隐式篇章关系识别方法和系统 |
CN118013962A (zh) * | 2024-04-09 | 2024-05-10 | 华东交通大学 | 一种基于双向序列生成的汉语篇章连接词识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488739B (zh) | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 | |
Du et al. | Techniques for interpretable machine learning | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
Liu et al. | Recognizing implicit discourse relations via repeated reading: Neural networks with multi-level attention | |
CN112836048A (zh) | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 | |
CN111414481B (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
Zhang et al. | Combining cross-modal knowledge transfer and semi-supervised learning for speech emotion recognition | |
CN111680484B (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
CN112232053B (zh) | 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质 | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
Sartakhti et al. | Persian language model based on BiLSTM model on COVID-19 corpus | |
CN113705238A (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及模型 | |
CN111209366A (zh) | 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法 | |
CN116402066A (zh) | 多网络特征融合的属性级文本情感联合抽取方法及系统 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
Farazi et al. | Accuracy vs. complexity: a trade-off in visual question answering models | |
Bouraoui et al. | A comprehensive review of deep learning for natural language processing | |
Zhou et al. | Intra-and Inter-Modal Curriculum for Multimodal Learning | |
Chen | Neural Language Models in Natural Language Processing | |
Li et al. | LiGCN: label-interpretable graph convolutional networks for multi-label text classification | |
Omarov et al. | Bidirectional long-short-term memory with attention mechanism for emotion analysis in textual content | |
CN113342964B (zh) | 一种基于移动业务的推荐类型确定方法及系统 | |
Xu et al. | Multi text classification model based on bret-cnn-bilstm | |
Miao et al. | Multi-turn dialogue model based on the improved hierarchical recurrent attention network | |
Wang et al. | Deep and shallow features learning for short texts matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210525 |