CN112836048A

CN112836048A - 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法

Info

Publication number: CN112836048A
Application number: CN202110109110.1A
Authority: CN
Inventors: 贺瑞芳; 王建; 贺迎春; 朱永凯; 黄静
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-05-25

Abstract

本发明公开一种基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法，本发明方法将双向注意力机制和多头注意力机制相结合，在隐式篇章关系识别中引入Transformer可以更好得挖掘篇章论元对的内部交互信息，从而可以更好地学习到包含重要交互信息的用于识别篇章关系的特征向量表示以进行篇章关系识别。本发明方法可以通过Bi‑attention有效地捕获两个篇章论元之间的交互信息。此外，与现有方法相比，本发明方法可以将篇章论元向量表示映射到具有多头注意力机制的不同表示子空间中，并从不同方面更全面地挖掘交互信息，并得到用于识别篇章关系的特征向量表示，最后将用于识别篇章关系的特征向量表示输入到篇章关系识别层进行篇章关系识别。

Description

基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法

技术领域

本发明涉及自然语言处理中篇章分析技术领域，尤其是涉及篇章关系识别技术，具体为基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法。

背景技术

篇章分析是自然语言处理(NLP)中的一项基本任务，它对潜在的关系结构进行分析，并挖掘文本单元之间的联系。目前，尽管在包含显式连接词(如“因为”，“但是”)的显式篇章关系识别任务上取得了巨大进步，但是由于篇章连接词的缺失(Pitler et al.,2009)[2]，隐式篇章关系识别仍然是一个挑战。提升隐式篇章关系识别任务可以对许多流行自然语言处理(Natural Language Processing,NLP)任务有所帮助，如机器翻译(Li et al.,2014)[3]，自动问答等。

现有的基于神经网络的模型已经在隐式篇章关系任务中取得一定的成功。1)基于表示的神经网络(Zhang et al.,2015；Liu and Li.,2016；Dai et al.,2018；Bai et al.,2018)[4-7]可以学习篇章论元的稠密向量表示，它可以在一定程度上捕获语义信息，如卷积神经网络(Convolutional Neural Networks,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)，但是，大多数这些模型仅考虑篇章论元表示而没有交互信息，因此无法充分理解句间关系；2)基于交互的神经网络(Chen et al.,2016；Lei et al.,2017；Guo etal.,2018；Xu et al.,2019)[8-11]利用门控相关网络或神经张量网络来建模两个篇章论元之间的更深层相互作用。但是，他们只能在同一表示空间中获得篇章论元的交互特征，而忽略了不同表示子空间中的交互特征；3)最近， Transformer(Vaswani et al.,2017)[12]在NLP领域取得了巨大的成功。Transformer可以通过多头注意机制捕获文本的不同表示子空间中的表示特征。尽管具有自注意力机制(Self-attention) 的Transformer可以有效地捕获单个文本的语义信息，但是对于基于两个文本之间的交互的任务(例如文本匹配，自然语言推断，隐式话语关系识别等)而言还是不够的。与自注意力机制相比，双向注意(Bi-attention)机制(Seo et al.,2016)[13]可以有效地捕获两个文本之间的交互信息，例如问答(Chen et al.,2019)[14]和阅读理解(Tay et al.,2018)[15]。

发明内容

本发明的目的是为了克服现有技术中的不足，提供基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法。先前的大多数方法仅着重于在一个表示空间中挖掘篇章论元的交互信息，这导致交互特征的表示单一。为了捕获不同表示子空间中的篇章论元交互信息，本发明首次将结合多头注意力机制和双向注意力机制相结合，提出了基于多头双向注意力的交互式Transformer(Bi-Transformer)。具体来说，将多层编码器获得的两个篇章论元向量表示作为Bi-Transformer网络的输入，然后利用多头双向注意机制捕获不同表示子空间中两个篇章论元向量表示之间的深层交互信息，从而有效地推断篇章关系。

本发明的目的是通过以下技术方案实现的：

基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法，包括以下步骤：

(101)构建论元的嵌入层：嵌入层是一个根据索引进行查找表操作的投影层；嵌入层通过在嵌入空间中将篇章论元Arg1,Arg2的词向量序列表示逐一映射成两个篇章论元的向量表示，以捕获篇章论元的上下文信息；

(102)构建多层编码器层：通过多层双向长短期记忆神经网络(BidirectionalLong Short-Term Memory,Bi-LSTM)学习不同级别的篇章论元的语义信息；具体来说，多层编码器层的高层级能够捕获单词的上下文信息，而低层级能够对语法信息进行建模；

(103)构建多头双向注意力的交互式Transformer(Bi-Transformer)以捕获交互信息， Bi-Transformer包括双向注意力机制(Bidirectional Attention Mechanism,Bi-attention)、多头双向注意力机制(Multiple Bidirectional Attention Mechanism)和位置前馈网络；双向注意力机制能够通过正向与反向两个方向来获取查询感知的上下文表示，同时双向注意力机制能够关注到篇章论元中能够反映交互信息的重要单词对，从而捕获两个篇章论元向量表示间的交互信息；多头双向注意力机制能够通过对双向注意力机制进行多头建模以获取表示子空间中篇章论元向量表示的交互信息；通过位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示；

(104)构建篇章关系识别层：利用步骤(103)生成的篇章论元向量表示对隐式篇章关系进行识别。

进一步的，步骤(101)中具体包括：给定论元对

其中n₁,n₂分别是论元Arg1和Arg2的单词个数，

分别是Arg1，Arg2中第i个和第j单词；将每个单词

在预先训练的单词嵌入上进行查表操作获取对应的低维分布式向量表示后分别组成词向量序列表示，即可获得篇章论元Arg1和Arg2的向量表示：a₁,a₂；为了获取每个单词的上下文信息，利用ELMo即语言模型的嵌入编码篇章论元向量表示，得到具有上下文信息的篇章论元向量表示：e₁,e₂；最后，通过将两个篇章论元向量表示进行拼接得到具有丰富语义信息的篇章论元向量表示a′₁,a′₂，具体公式如下：

进一步的，步骤(102)具体包括：多层编码器层是利用多层双向长短期记忆神经网络 (Bidirectional Long Short-Term Memory,Bi-LSTM)和注意力机制对篇章论元向量表示a′₁,a′₂进行建模，以获得具有重要词汇信息的语义丰富的篇章论元向量，具体公式如下：

α＝softmax(w^Ttanh(a')) (12)

h^*＝tanh(a'α^T) (13)

h^*(m+1)＝Bi-LSTM(h^*(m)) (14)

其中，a'表示篇章论元向量表示，w的转置w^T表示权重参数向量，α表示注意力权重，h^*表示经过注意力权重计算的篇章论元向量表示，m表示Bi-LSTM的层数，h^*(m)表示经过m层 Bi-LSTM编码的篇章论元向量表示；将篇章论元向量表示a′₁,a'₂输入到多层编码器层后，使用最后一层的输出作为新的篇章论元向量表示Q和V。

进一步的，步骤(103)具体包括：

1)双向注意力机制，给定两个篇章论元向量表示Q和V，使用Bi-attention函数(BAF) 获得Q和V之间的交互信息：

(W_q,W_v)＝BAF(Q,V) (15)

其中，

是经过双向注意力权重计算的篇章论元向量表示，n表示篇章论元的单词个数，d_e是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度；BAF的具体公示如下：

M＝QV^T (16)

W_q＝softmax(M^T)Q (17)

W_v＝softmax(M)V (18)

其中，M表示篇章论元对的交互注意力矩阵，M^T表示M的转置；V^T表示V的转置；

2)多头双向注意力机制，多头注意力机制允许模型共同关注来自不同表示子空间的信息，具体公示如下：

MultiHead(Q,V)＝Concat(head₁,...,head_h)W^O (19)

其中，

是参数矩阵，

是一个完整的连接层并且与多头注意力机制的输出相关的参数矩阵；h是多头注意力机制的头的个数，d_q,d_v分别是每个头中篇章论元向量表示的维度，且d_q＝d_v＝d_e/h，d_e是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度；将篇章论元向量表示Q和V输入多头双向注意力机制模型后，从不同的表示子空间中获得具有丰富的交互信息的篇章论元向量表示：Q' 和V'；

3)位置前馈网络，在通过多头双向注意力机制从不同的表示子空间中具有丰富的交互信息的篇章论元向量表示Q'和V'后，将Q'和V'输入位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示，具体公式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (11)

其中，W₁,b₁,W₂,b₂是位置前馈网络的参数，x为篇章论元向量表示，即Q'或V'；将Q'和V' 输入位置前馈网络后得到新的篇章论元向量表示：Q″和V″；将Q″和V″进行拼接即能够得到包含重要交互信息的用于识别篇章关系的特征向量表示output。

进一步的，步骤(104)具体包括：

在获得用于识别篇章关系的特征向量表示output后，使用softmax函数对篇章关系向量表示进行归一化，即能够得到两个论元间的篇章关系；将output输入到分类层中，将得到篇章关系概率分布；公式定义如下：

其中f是softmax函数，

分别是权重和偏移项，C是篇章关系类别的数量，n表示篇章论元的单词个数，y是真实关系的one-hot表示，

是预测关系的表示；损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失，见公式(13)；

其中，y_j,

分别是第j个真实关系的one-hot表示和预测关系的向量表示。

与现有技术相比，本发明的技术方案所带来的有益效果是：

(1)为了捕获更为丰富的篇章论元交互信息，本发明方法将Transformer的多头注意力机制和双向注意力机制相结合，捕获到了丰富的篇章论元交互信息，从多个角度理解论元的语义，从而增强了论元表示的能力，首次将Transformer应用于句对匹配任务，在篇章论元交互方向使用Transformer做出了创新性的尝试。

(2)本发明方法使用双向注意力机制替换传统Transformer的多头注意力机制中的自注意力机制，克服了传统Transformer不适用于文本交互任务的缺点，扩大了传统Transformer 的使用范围，使Transformer可以很好地适应句对匹配任务。

(3)本发明方法在隐式篇章关系识别中引入Transformer可以更好得挖掘篇章论元对的内部交互信息，从而可以更好地学习到包含重要交互信息的用于识别篇章关系的特征向量表示以进行篇章关系识别。与传统的仅考虑单个文本的语义特征的Transformer不同，本发明方法可以通过Bi-attention轻松有效地捕获两个篇章论元之间的交互信息。此外，与现有方法相比，本发明方法可以将篇章论元向量表示映射到具有多头注意力机制的不同表示子空间中，并从不同方面更全面地挖掘交互信息。除了使用多级编码器对篇章论元进行编码以获取篇章论元向量表示之外，本发明方法还可以捕获不同表示子空间中篇章论元间更丰富的交互信息。

附图说明

图1为本发明提供的基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法框架示意图；

图2a为双向注意力机制(Bi-attention)的注意力可视化图；

图2b为Transformer的注意力可视化图；

图2c为Bi-Transformer的注意力可视化图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以宾州篇章树库(Penn Discourse TreeBank,PDTB)数据集为例来给出本发明的实施方法。该方法整体框架见图1所示。整个系统算法流程包括数据集预处理、获取篇章论元的嵌入向量表示、捕获篇章论元的上下文信息、捕获篇章论元的交互信息、篇章关系预测这几个步骤。

具体步骤如下：

(1)数据集预处理

宾州篇章树库(Penn Discourse Treebank,PDTB)是一个在2,312篇华尔街日报文章上进行标注得到的大规模语料库。PDTB根据不同粒度，将篇章关系分为三层：第一层4类，第二层16类，第三层23类，共43类。第一层为四种主要的关系类型：对比(Comparison)、偶然(Contingency)、扩展(Expansion)和时序(Temporal)。本发明以PDTB为原始语料，并按照以下步骤对原始语料进行处理：对PDTB数据集的使用了两种分割方法，1)是 PDTB-Lin[16]，它分别使用第2-21、22和23节作为训练、开发和测试集；2)是PDTB-Ji[17]，它分别使用第2-20、0-1和21-22节作为训练、开发和测试集。根据PDTB-Ji，由于五种关系类型的训练实例很少并且没有dev和test实例，因此除去这五种类型后，PDTB-Ji数据集中仍有11种二级类型。表1显示了PDTB-JI的第一级的统计信息。

表1PDTB-JI的第一级篇章关系的统计信息

篇章关系	训练集	开发集	测试集
				Comparison	1898	191	146
Contingency	3288	287	276
				Expansion	6900	651	556
Temporal	689	54	68
				Total	12775	1183	1046

(2)获取篇章论元的嵌入向量表示

按照上步完成数据集的预处理后，将训练集按批次将篇章论元作为词嵌入模块输入，即会得到篇章论元的向量表示：a₁,a₂。同时将篇章论元作为ELMo的输入，并得到ELMo编码的具有上下问信息的篇章论元向量表示：e₁,e₂。最后，通过将两个篇章论元向量表示进行拼接得到具有丰富语义信息的篇章论元向量表示a′₁,a'₂，具体公式如下：

(3)捕获篇章论元的上下文信息

将上一步得到得篇章论元向量表示a′₁,a'₂，输入到多层编码器中，即可获得包含上下问信息得篇章论元向量表示Q和V，具体公式如下：

α＝softmax(w^Ttanh(a')) (22)

h^*＝tanh(a'α^T) (23)

h^*(m+1)＝Bi-LSTM(h^*(m)) (24)

其中，a'表示篇章论元向量表示，w的转置w^T表示权重参数向量，α表示注意力权重，h^*表示经过注意力权重计算的篇章论元向量表示，m表示多层双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,Bi-LSTM)的层数，h^*(m)表示经过m层Bi-LSTM编码的篇章论元向量表示。将篇章论元向量表示a′₁,a'₂输入到多层编码器层后，使用最后一层的输出作为新的篇章论元向量表示Q和V。

(4)捕获篇章论元的交互信息

通过基于多头双向注意力机制的Transformer(Bi-Transformer)，可以动态学习和捕获篇章论元间的重要交互信息。基于多头双向注意力机制的Transformer利用多头注意力机制和双向注意力机制捕获不同表示子空间中的篇章论元间的交互信息，双向注意力机制具体公式如下：

(W_q,W_v)＝BAF(Q,V) (25)

其中，

是经过双向注意力权重计算的篇章论元向量表示，n表示篇章论元的单词个数，d_e是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度。BAF的具体公示如下：

M＝QV^T (26)

W_q＝softmax(M^T)Q (27)

W_v＝softmax(M)V (28)

其中，M表示篇章论元对的交互注意力矩阵，M^T表示M的转置。多头注意力机制允许模型共同关注来自不同表示子空间的信息，具体公示如下：

MultiHead(Q,V)＝Concat(head₁,...,head_h)W^O (29)

head_i＝BAF(QW_i ^Q,VW_i ^V) (30)

其中，

是参数矩阵，

是一个完整的连接层并且与多头注意力机制的输出相关的参数矩阵。h是多头注意力机制的头的个数，d_q,d_v分别是每个头中篇章论元向量表示的维度，且d_q＝d_v＝d_e/h。d_e是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度。多头双向注意力机制是一个交互式的模型，也是实现交互式Transformer的重要组件。将篇章论元向量表示Q和V输入多头双向注意力机制后，可以从不同的表示子空间中获得具有丰富的交互信息的篇章论元向量表示： Q'和V'。将Q'和V'输入位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示，具体公式如下：

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (11)

其中，W₁,b₁,W₂,b₂是位置前馈网络的参数，x为篇章论元向量表示，即Q'或V'。将Q'和V' 输入位置前馈网络后可得到新的篇章论元向量表示：Q″和V″。将Q″和V″进行拼接即可得到包含重要交互信息的用于识别篇章关系的特征向量表示output。

(5)篇章关系预测

按照上一步将得到的用于识别篇章关系的特征向量表示output输入到分类层中，将得到篇章关系概率分布。公式定义如下：

其中f是softmax函数，

分别是权重和偏移项，C是篇章关系类别的数量，y是真实关系的one-hot表示，

是预测关系的表示。损失函数定义为真实篇章关系类型分布和预测概率值分布的交叉熵损失，见公式(13)；

其中，y_j,

分别是第j个真实关系的one-hot表示和预测关系的向量表示。

在具体实施过程中，以PDTB数据集为例，通过提前设置各种超参数，见表2；即单词嵌入是300维的使用Google News预训练的word2vec[18]。使用Adam优化器来优化损失函数，并通过使用ELMo预训练的300维词嵌入增强的论元向量表示。Bi-LSTM层数为3，迭代次数为100。

表2模型在实验中的超参数

参数名称	参数值
		句子长度	max_length＝50
词嵌入维度	embedding_size＝300
		初始学习率	lr＝0.001
批次大小	num_batches＝128
		迭代次数	epoch＝100
ELMo维度	ELMo_embedding_size＝300
		多层编码器层数	Layer_num＝3
多头注意力机制的头数	h＝4

为了验证本发明方法的有效性，将本发明方法与当前先进并具有代表性的模型以及四个基本方法进行对比：

对比模型：

·(Ji and Eisenstein 2015)通过句法分析树计算每个篇章论元的分布式表示。

·(Zhang et al.2015)提出了一种纯神经网络和三个不同的池操作，其在词向量上只有一个简单的卷积层并可以学习浅层的任务表示。

·(Qin，Zhang，and Zhao 2016)采用了上下文感知的字符增强嵌入来解决隐式的篇章关系识别任务。

·(Bai and Zhao 2018)采用了不同粒度的文本表示，包括字符、子字、单词、句子和句子对级别来解决隐式的篇章关系识别任务。

·(Dai and Huang 2018)提出了一种使用段落信息帮助预测篇章关系的隐式篇章关系识别方法。

·(Chen et al.2016)提出了一种门控相关网络(GRN)，并将词对之间的线性和非线性相互作用结合起来。

·(Lei et al.2017)设计了一种简单的单词交互模型(SWIM)来学习单词对之间的交互信息。

·(Guo et al.2018)提出了一个神经张量网络框架来从两个篇章论元中挖掘交互式注意力。

·(Van Ngo et al.2019)提出了一种多任务学习模型，该模型具有隐式连接词和篇章关系的嵌入以及三个惩罚项的作用，以帮助预测任务之间的知识共享。

消融模型：

·Baseline本实验通过三层Bi-LSTM对两个篇章论元进行编码，并利用双向注意力机制(Bidirectional Attention Mechanism，Bi-attention)获得交互作用，最后利用softmax 层预测篇章关系。Bi-LSTM层数设置为3的原因是它可以在多次试验后获得较好的结果。

·+Transformer基于Baseline，本实验将拼接后的文本表示作为具有3层和4个自注意力机制头的传统Transformer的输入，最后将它们输入到softmax层中。

·+Bi-Transformer本实验将Bi-LSTM获得的两个篇章论元向量表示输入到 Bi-Transformer中，然后将Bi-Transformer的输出作为softmax层的输入。

·+ELMo&Bi-Atten本实验利用预训练的ELMo向量来丰富两个篇章论元向量表示，然后利用双向注意层捕获交互信息，最后将它们提供给softmax层。

·+ELMo&Transformer本实验将利用预训练的ELMo向量来丰富两个篇章论元向量表示，然后输入到传统的Transformer中。

·+ELMo&Bi-Transformer(Ours)本实验将利用预训练的ELMo向量来丰富两个篇章论元向量表示，然后输入到Bi-Transformer中，最后将它们输入到softmax层来识别话语关系。

目前，篇章分析的评测主要考虑算法的准确度(Accuracy)和F₁值两个性能指标。准确度采用公式(14)进行度量。

这里，TruePositive代表本来是正样例，同时分类成正样例的个数；TrueNegative代表本来是负样例，同时分类成负样例的个数；All代表样例总个数。

F₁值由准确率(Precision)和召回率(Recall)共同体现，采用公式(15)进行度量。

其中，

这里，FalsePositive代表本来是负样例，但被分类成正样例的个数；FalseNegative代表本来是正样例，但被分类成负样例的个数。相关分数值越高表示该模型性能越好。

表3不同对比模型在11分类中的准确度(％)

表4不同消融模型在11分类中的准确度(％)

表5不同对比模型在二分类和四分类中的F₁(％)

表6不同消融模型在二分类和四分类中的F₁(％)

从表3，4，5，6验结果可看出，本发明提出的基于多头双向注意力的交互式Transformer 的隐式篇章关系识别方法的有效性。此外，为了验证Bi-Transformer的有效性，本实验以偶然(Contingency)为例进行进一步说明：

Arg1:The technology revolution is going to be very threatening toestablished producers.

Arg2:They’ve got too much invested in the old stuff.

图2a至图2c显示的注意力权重仅针对“threatening”一词。不同的灰度色深代表不同的头部。可以获得以下观察结果：

·如图2a和图2c所示，与双向注意力模型(Bi-attention)相比，双向注意模型仅学习到单词对(“threatening”，“too”)的线索。而具有多头双向注意力机制的Bi-Transformer模型可以关注到更重要的线索，例如单词对(“threatening”,“too”),(“threatening”,“old”)和 (“threatening”,“stuff”)，它们可以直接将示例识别为偶然(Contingency)关系。此外，不同的注意头可以从不同的角度捕获交互信息，例如，第二层的头中还关注到了单词对 (“threatening”,“invested”)。这说明了多头双向注意机制的有效性；

·如图2b和图2c所示，与Transformer模型相比，Transformer模型主要关注当前单词和与其在相同论元中的重要语义信息。Bi-Transformer模型可以更有针对性地关注篇章论元间的重要交互信息上，并且可以忽略一些影响交互的噪声。这也表明Bi-Transformer模型更适合挖掘篇章论元的交互；

·总体而言，Bi-Transformer模型结合了双向注意力机制和Transformer的优势，可以更全面地挖掘篇章论元之间的重要交互信息。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

参考文献：

[1]Matthew Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,ChristopherClark,Kenton Lee,and Luke Zettlemoyer.2018.Deep contextualized wordrepresentations.In Proceedings of the 2018NAACL,pages 2227– 2237.

[2]Pitler,E.；Louis,A.；and Nenkova,A.2009.Automatic sense predictionfor implicit discourse relations in text.In Proceedings of the JointConference of the 47th Annual Meeting of the ACL and the 4th InternationalJoint Conference on Natural Language Processing of the AFNLP:Volume 2-Volume2,683–691.Association for Computational Linguistics.

[3]Junyi Jessy Li,Marine Carpuat,and Ani Nenkova.2014.Assessing thediscourse factors that influence the quality of machine translation.InProceedings of the 52nd Annual Meeting of the Association for ComputationalLinguistics(ACL)(Volume 2:Short Papers),pages 283–288,Baltimore,Maryland,June.

[4]Zhang,B.；Su,J.；Xiong,D.；Lu,Y.；Duan,H.；and Yao,J.2015.Shallowconvolutional neural network for implicit discourse relation recognition.InProceedings of the 2015Conference on Empirical Methods in Natural LanguageProcessing,2230–2235.

[5]Liu,Y.；Li,S.；Zhang,X.；and Sui,Z.2016.Implicit discourse relationclassification via multi-task neural networks.In Thirtieth AAAI Conference onArtificial Intelligence.

[6]Dai Z,Huang R.Improving Implicit Discourse Relation Classificationby Modeling Inter-dependencies of Discourse Units in a Paragraph[J].2018.

[7]Hongxiao Bai and Hai Zhao.2018.Deep enhanced representation forimplicit discourse relation recognition.In Proceedings of the 27th COLING,pages 571–583.

[8]Chen,J.；Zhang,Q.；Liu,P.；Qiu,X.；and Huang,X.2016.Implicit discourserelation detection via a deep architecture with gated relevance network.InProceedings of the 54^th Annual Meeting of the Association for ComputationalLinguistics(Volume 1:Long Papers),1726–1735.

[9]Lei,W.；Wang,X.；Liu,M.；Ilievski,I.；He,X.；and Kan,M.-Y.2017.Swim:Asimple word interaction model for implicit discourse relation recognition.InIJCAI,4026–4032.

[10]Guo,F.；He,R.；Jin,D.；Dang,J.；Wang,L.；and Li,X.2018.Implicitdiscourse relation recognition using neural tensor network with interactiveattention and sparse learning.In Proceedings of the 27th InternationalConference on Computational Linguistics,547–558.

[11]Sheng Xu,Peifeng Li,Fang Kong,Qiaoming Zhu,and GuodongZhou.2019.Topic tensor network for implicit discourse relation recognition inchinese.In Proceedings of the 57th ACL,pages 608–618.

[12]Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,LlionJones,Aidan N Gomez,

Kaiser,and Illia Polosukhin.2017.Attention is allyou need.In Advances in neural information processing systems,pages 5998–6008.

[13]Minjoon Seo,Aniruddha Kembhavi,Ali Farhadi,and HannanehHajishirzi.2016.Bidirectional attention flow for machine comprehension.arXivpreprint arXiv:1611.01603.

[14]Long Chen,Ziyu Guan,Wei Zhao,Wanqing Zhao,XiaopengWang,Zhou Zhao,and Huan Sun.2019. Answer identification from product reviews for userquestions by multi-task attentive networks.

[15]Yi Tay,Anh Tuan Luu,Siu Cheung Hui,and Jian Su.2018.Denselyconnected attention propagation for reading comprehension.In Advances inNeural Information Processing Systems,pages 4906–4917.

[16]Lin Z,Kan M-Y,Ng H T.Recognizing Implicit Discourse Relations inthe Penn Discourse Treebank [C].In Proceedings of the 2009 EMNLP,2009:343–351.

[17]Ji Y,Eisenstein J.One Vector is Not Enough:Entity-AugmentedDistributional Semantics for Discourse Relations[J].Transactions of theAssociation for Computational Linguistics,2015,3:329–344.

[18]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of wordrepresentations in vector space[J]. arXiv preprint arXiv:1301.3781,2013。

Claims

1.基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法，其特征在于，包括以下步骤：

(102)构建多层编码器层：通过多层双向长短期记忆神经网络(Bidirectional LongShort-Term Memory,Bi-LSTM)学习不同级别的篇章论元的语义信息；具体来说，多层编码器层的高层级能够捕获单词的上下文信息，而低层级能够对语法信息进行建模；

(103)构建多头双向注意力的交互式Transformer(Bi-Transformer)以捕获交互信息，Bi-Transformer包括双向注意力机制(Bidirectional Attention Mechanism,Bi-attention)、多头双向注意力机制(Multiple Bidirectional Attention Mechanism)和位置前馈网络；双向注意力机制能够通过正向与反向两个方向来获取查询感知的上下文表示，同时双向注意力机制能够关注到篇章论元中反映交互信息的重要单词对，从而捕获两个篇章论元向量表示间的交互信息；多头双向注意力机制能够通过对双向注意力机制进行多头建模以获取表示子空间中篇章论元向量表示的交互信息；通过位置前馈网络对每个位置进行独立的全连接操作以生成语义丰富的篇章论元向量表示；

2.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法，其特征在于，步骤(101)中具体包括：给定论元对

其中n₁,n₂分别是论元Arg1和Arg2的单词个数，

分别是Arg1，Arg2中第i个和第j单词；将每个单词

3.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法，其特征在于，步骤(102)具体包括：多层编码器层是利用多层双向长短期记忆神经网络(Bidirectional Long Short-Term Memory,Bi-LSTM)和注意力机制对篇章论元向量表示a′₁,a′₂进行建模，以获得具有重要词汇信息的语义丰富的篇章论元向量，具体公式如下：

α＝softmax(w^Ttanh(a')) (2)

h^*＝tanh(a'α^T) (3)

h^*(m+1)＝Bi-LSTM(h^*(m)) (4)

其中，a'表示篇章论元向量表示，w的转置w^T表示权重参数向量，α表示注意力权重，h^*表示经过注意力权重计算的篇章论元向量表示，m表示Bi-LSTM的层数，h^*(m)表示经过m层Bi-LSTM编码的篇章论元向量表示；将篇章论元向量表示a′₁,a′₂输入到多层编码器层后，使用最后一层的输出作为新的篇章论元向量表示Q和V。

4.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法，其特征在于，步骤(103)具体包括：

1)双向注意力机制，给定两个篇章论元向量表示Q和V，使用Bi-attention函数(BAF)获得Q和V之间的交互信息：

(W_q,W_v)＝BAF(Q,V) (5)

其中，

M＝QV^T (6)

W_q＝softmax(M^T)Q (7)

W_v＝softmax(M)V (8)

MultiHead(Q,V)＝Concat(head₁,...,head_h)W^O (9)

head_i＝BAF(QW_i ^Q,VW_i ^V) (10)

其中，

是参数矩阵，

是一个完整的连接层并且与多头注意力机制的输出相关的参数矩阵；h是多头注意力机制的头的个数，d_q,d_v分别是每个头中篇章论元向量表示的维度，且d_q＝d_v＝d_e/h，d_e是将预训练的词嵌入和ELMo编码器的输出拼接在一起的篇章论元向量表示的维度；将篇章论元向量表示Q和V输入多头双向注意力机制模型后，从不同的表示子空间中获得具有丰富的交互信息的篇章论元向量表示：Q'和V'；

FFN(x)＝max(0,xW₁+b₁)W₂+b₂ (11)

其中，W₁,b₁,W₂,b₂是位置前馈网络的参数，x为篇章论元向量表示，即Q'或V'；将Q'和V'输入位置前馈网络后得到新的篇章论元向量表示：Q”和V”；将Q”和V”进行拼接即能够得到包含重要交互信息的用于识别篇章关系的特征向量表示output。

5.根据权利要求1所述基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法，其特征在于，步骤(104)具体包括：

其中f是softmax函数，

其中，

分别是第j个真实关系的one-hot表示和预测关系的向量表示。