CN111274800B - 基于关系图卷积网络的推理型阅读理解方法 - Google Patents

基于关系图卷积网络的推理型阅读理解方法 Download PDF

Info

Publication number
CN111274800B
CN111274800B CN202010063302.9A CN202010063302A CN111274800B CN 111274800 B CN111274800 B CN 111274800B CN 202010063302 A CN202010063302 A CN 202010063302A CN 111274800 B CN111274800 B CN 111274800B
Authority
CN
China
Prior art keywords
node
network
graph
nodes
candidate answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010063302.9A
Other languages
English (en)
Other versions
CN111274800A (zh
Inventor
鲁伟明
汤泽云
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010063302.9A priority Critical patent/CN111274800B/zh
Publication of CN111274800A publication Critical patent/CN111274800A/zh
Application granted granted Critical
Publication of CN111274800B publication Critical patent/CN111274800B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关系图卷积神经网络的推理型阅读理解方法:该方法主要针对在文档间进行推理的阅读理解场景,首先根据问题和候选答案,在文档间挖掘推理路径,抽取推理节点;然后利用问题节点,候选答案节点和推理节点构建一个图网络作为文档和候选答案的表示;利用上下文词向量初始化图网络的节点向量;接着利用问题相关的门控机制优化图卷积网络的更新公式,更新图网络中节点的表示;最后利用双向注意力机制再次对问题和图网络进行交互编码,并通过全连接网络输出每个候选答案的概率。本发明提出了一个解决推理型阅读理解任务的方法,能够在多篇文档之间进行推理,可以有效的提高推理型阅读理解任务的效果,对阅读理解的发展具有较大的意义。

Description

基于关系图卷积网络的推理型阅读理解方法
技术领域
本发明涉及基于关系图卷积网络的推理型阅读理解方法,特别是涉及一种包含推理路径的图卷积网络的选择式阅读理解,利用推理节点将推理路径的思想引入到图网络中,利用门控机制和注意力机制优化关系图卷积的更新方式,在推理过程中引入问题的信息。
背景技术
阅读理解任务是指让机器像人一样,能够阅读文档,理解文档的意思,往往用关于文档的相关问题来验证机器理解文档的能力。阅读理解作为自然语言处理的一个重要任务,在最近几年成为学术和工业界的热点。在智能客服,自动问答系统有广泛的应用,能大大降低人工的劳动力,提高公司的效率。随着大数据,人工智能时代的到来,设计一个能够自动理解文档的阅读理解系统是非常有意义的,可以极大的促进人工智能的发展。
早期的阅读理解模型主要受限于传统机器学习技术的缺陷和大规模数据集的缺失,随着深度神经网络的兴起和大规模数据集的构建,阅读理解任务在近几年发展迅速,成为学术界最炽手可热的研究热点。2015年Hermann等人提出了两个用于阅读理解任务的大规模数据集CNN和Daily Mail。该数据集是一个完形填空式数据集,答案都是文档中的实体。并受机器翻译领域的启发,提出了基于注意力机制和循环神经网络的阅读理解模型,根据注意力机制的不同分为Attentive Reader和Impatient Reader,在这两个数据集上相对传统的自然语言处理方法取得了巨大的提升,成为了后来许多研究的基础。2016年,斯坦福提出了著名的阅读理解数据集SQuAD。SQuAD是典型的抽取式数据集,每个样例包含一个问题,对应的文档和文档中某个连续片段作为答案。2018年,Kociskyd等人提出了NarrativeQA数据集,该数据集需要机器读懂文档,从文档的不同片段推理总结才能得到正确答案。同年,Welbl等人公开了WIKIHOP数据集,Yang等人公开了HotpotQA数据集,这两个数据集都是基于多文档的推理式阅读理解数据集,计算机需要至少从两篇不同文档中提取信息并经过多跳的推理才能得到正确的答案。其中WIKIHOP是答案选择式数据集,HotpotQA是答案抽取式数据集。Cao等人提出了多跳推理阅读理解任务的新方法,利用关系图卷积网络代替传统的RNN来编码文档,图中的节点表示文档中的实体,定义了多种边的关系,利用关系图卷积公式模拟多文档之间的推理过程,他们提出了模型Entity-GCN在WIKIHOP数据集上刷新了当时的最好效果。Yu Cao等人在基于Entity-GCN的基础上,应用双向注意力机制来学习基于问题相关的表示,并引入了ELMo,GloVe,POS,NER等多层次特征信息。
本发明设计并实现了一个基于关系图卷积网络的推理型阅读理解方法。该方法利用目前最新的关系图卷积网络(RGCN)来模拟文档间推理的过程,并且利用推理节点成功将推理路径的思想引入到图网络中,利用注意力机制和门控机制优化关系图卷积的过程,引入问题的信息。
发明内容
本发明为了解决现实中从多篇文档中进行推理,自动回答问题的场景,提出了一种基于关系图卷积网络的推理型阅读理解方法,能够有效回答需要多篇文档间进程推理的阅读理解问题。
本发明解决其技术问题采用的技术方案如下:一种基于关系图卷积网络的推理型阅读理解方法,包括以下步骤:
1)抽取问题节点和候选答案节点:首先利用实体识别工具抽取问题中的实体,然后在文档中寻找该实体,将找到的实体作为一个问题节点,不同的位置的实体做为问题不同的节点;对于候选答案节点,将每个候选答案当做一个实体,然后与问题中的实体做相同的操作形成候选答案节点;
2)抽取推理节点:首先用实体识别工具抽取所有文档的实体;然后选取某一文档中包含问题节点的句子sq,找到句子sq中除问题节点q外的其他实体集m1,然后在其他文档找到另一个包含了m1中的某个实体e1的句子s1。判断句子s1中是否含有某个候选答案节点,如果存在某个候选答案节点c,则找到一条从问题节点q到候选答案节点c的路径为q→e1→c,其中问题节点与候选答案节点之间的节点为推理节点;如果句子s1中不存在任何候选答案节点,则继续找到s1句子中除实体e1外的其他实体集m2,重复上述过程,直到找到存在候选答案的句子;
3)基于推理路径的图网络构建:图网络的构建主要包含节点的确定和边关系的确定。首选以步骤1)和步骤2)抽取的问题节点,候选答案节点和推理节点作为图网络的节点,根据步骤2)中得到的路径添加不同的边关系形成图网络,以此来作为文档和候选答案的表示;
4)图网络的初始化:用步骤3)获得的图网络表示所有文档和候选答案,将所有文档通过深度上下文词向量表示模型(ELMo),获得文档中每个词的上下文相关表示,然后抽取文档中对应图网络节点的词向量,与静态词向量组合作为图网络节点的初始化向量表示。
5)引入问题信息的关系图卷积更新:利用关系图卷积网络(RGCN)来更新步骤3)获得的图网络时,首先利用双向长短期记忆网络(BiLSTM)将问题编码为qrnn,然后利用关系图卷积公式获得图网络节点的更新表示为
Figure BDA0002374354720000031
然后利用注意力机制和门控机制将qrnn引入到节点表示
Figure BDA0002374354720000032
中,接着在利用一个门控机制结合上一时刻的节点表示
Figure BDA0002374354720000033
和更新后的表示
Figure BDA0002374354720000034
获得当前时刻的向量表示
Figure BDA0002374354720000035
将该关系图卷积更新过程堆叠L层获得图网络的表示
Figure BDA0002374354720000036
6)基于双向注意力机制的交互编码:利用双向注意力机制对步骤5)得到的图网络的
Figure BDA0002374354720000037
和qrnn进行交互,然后将交互后的向量拼接,形成节点最终的向量表示;
7)答案输出层:将步骤6)获得的节点向量表示,经过两层的全连接网络,输出每个候选答案的概率,选择概率最大的候选答案作为问题最终的答案。
进一步地,所述的步骤1)中,在文档中寻找相应的实体时,将所有标点统一化,字符小写化,然后采用字符匹配的方式去匹配实体。
进一步地,步骤1)中,所述候选答案为实体或者短语。
进一步地,所述步骤2)中,实体识别工具采用斯坦福大学提供的stanfordcorenlp工具包,并过滤掉日期,数字等无意义的实体。
进一步地,所述步骤3)中,所述图网络中的边关系具有以下6类,分别为:
a)为问题中的实体节点和与它出现在同一个句子中的推理节点添加一种边关系;
b)为出现在同一个推理路径中邻接的推理节点添加一种边关系;
c)为候选答案的节点和与它出现在同一个句子中的推理节点添加一种边关系;
d)为对应同一个候选答案的不同节点添加一种边关系;
e)为出现在同一篇文档中的所有节点添加一种边关系;
f)为不存在上述5类关系的两个节点,添加一种边的关系。
进一步地,所述步骤4)中,静态词向量采用斯坦福大学提供的GloVe词向量,上下文词向量采用AllenNLP提供的已经预训练好的EMLo模型。并且静态词向量和上下文词向量的组合方式采用词向量拼接的方式,然后通过一个全连接网络,得到节点的初始化表示。其中如果节点由多个单词组成,则分别计算GloVe和ELMo向量的均值再拼接。
进一步地,所述步骤5)中,图卷积更新的具体过程公式为:
Figure BDA0002374354720000041
Figure BDA0002374354720000042
Figure BDA0002374354720000043
Figure BDA0002374354720000044
其中
Figure BDA0002374354720000045
是第i个节点的邻接节点集,
Figure BDA0002374354720000046
表示
Figure BDA0002374354720000047
中节点的数量,Rij表示第i个节点和第j个节点存在的关系集,
Figure BDA0002374354720000048
表示第l层第j个节点的向量表示,
Figure BDA0002374354720000049
则是关系r的参数,不同的关系有不同的参数,各个层的参数共享。其中
Figure BDA00023743547200000410
可以看做是一种对节点自身的特殊关系的参数。σ是sigmoid激活函数,
Figure BDA00023743547200000411
是对
Figure BDA00023743547200000412
Figure BDA00023743547200000413
的拼接操作,fg是一个简单多层神经网络(MLP),tanh是非线性激活函数,⊙表示元素相乘。
进一步地,所述的步骤5)中,基于注意力机制和门控机制引入问题信息的具体公式为:
qrnn=BiLSTM(q)
Figure BDA0002374354720000051
Figure BDA0002374354720000052
Figure BDA0002374354720000053
首先利用双向长短记忆网络(BiLSTM)网络编码问题信息,用GloVe作为词向量的初始化,得到qrnn∈Rd×m。然后,运用注意力机制(Attention)与图网络进行交互,获得跟问题相关的图网络的向量表示,其中
Figure BDA0002374354720000054
表示第l层卷积的图网络中的第i个节点,通过与问题交互获得的问题相关的编码。最后利用门控机制引入问题的信息,其中
Figure BDA0002374354720000055
是图网络中融入了问题信息的第l层的第i个节点表示。
Figure BDA0002374354720000056
和bs分别表示为门控机制的权重和偏置。
进一步地,所述的步骤6)中,双向注意力机制的具体公式为:
S=avg-1fa([hL;qrnn;hL⊙qrnn])
gn2q=softmaxcol(S)·qrnn
gq2n=dup(softmax(maxcol(S)))T·hL
Figure BDA0002374354720000057
首先计算相似度矩阵S,其中arg-1表示在向量的最后一维取平均。fa是一个单层的全连接网络,hL为关系图卷积更新过程堆叠L层获得图网络的表示。然后计算基于问题相关的图网络表示gn2q和基于图网络相关的问题表示gq2n,其中softmaxcol和maxcol都是在S相似度矩阵的列向量上操作,dup表示将Softmax(maxcol(S))∈R1×M复制T次。最后将获得hL,gn2q和gq2n拼接形成最终的图网络中的节点表示
Figure BDA0002374354720000058
进一步地,所述的步骤7)中,全连接网络输出每个节点的概率后,对于对应同一个候选答案的不同节点,选择其中的最高分作为该候选答案的分数。训练时利用交叉熵作为训练的损失函数。
本发明方法与现有技术相比具有的有益效果:
1.该方法提出了一种基于关系图卷积网络的推理型阅读理解方法,该方法利用关系图卷积网络来模拟在文档间进行推理的过程,通过利用推理节点在图网络中构建推理路径,提高了在推理型阅读理解任务的效果,对现实中的搜索,自动问答具有极大的应用意义;
2.本发明方法在利用注意力机制和基于问题相关的门控机制优化了关系图卷积的公式,在图卷积操作时引入问题的信息,有效提高了抽取效果。
附图说明
图1是本发明的步骤流程图;
图2是本发明的模型图;
图3是本发明的图网络示意图;
图4是本发明实施例的实验结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1和图2所示,本发明提供的一种基于关系图卷积网络的推理型阅读理解方法,包括以下步骤:
1)抽取问题节点和候选答案节点:首先利用实体识别工具抽取问题中的实体对象,然后去文档中寻找该实体,将找到的实体作为一个问题节点。对于候选答案节点,将每个候选答案当做一个实体,然后与问题中的实体做相同的操作形成候选答案节点;去文档中寻找相应的实体时,将所有标点统一化,字符小写化,然后采用字符匹配的方式去匹配实体。
2)抽取推理节点:首先用实体识别工具抽取所有文档的实体;然后选取某一文档中包含问题节点的句子sq,找到句子sq中除问题节点q外的其他实体集m1,然后在其他文档找到另一个包含了m1中的某个实体e1的句子s1。判断句子s1中是否含有某个候选答案节点,如果存在某个候选答案节点c,则找到一条从问题节点q到候选答案节点c的路径为q→e1→c,其中问题节点与候选答案节点之间的节点为推理节点;如果句子s1中不存在任何候选答案节点,则继续找到s1句子中除实体e1外的其他实体集m2,重复上述过程,直到找到存在候选答案的句子;实体识别工具采用斯坦福大学提供的stanfordcorenlp工具包,并过滤掉日期,数字等无意义的实体。
3)基于推理路径的图网络构建:图网络的构建主要包含节点的确定和边关系的确定。首选以步骤1)和步骤2)抽取的问题节点,候选答案节点和推理节点作为图网络的节点,在不同的节点之间添加不同的边关系,其中关键是根据步骤2)中的推理路径添加的边关系。最终形成包含3类不同节点,6类不同关系的图网络,以此来作为文档和候选答案的表示;6类边的关系分别为:
a)为问题中的实体节点和与它出现在同一个句子中的推理节点添加一种边关系;
b)为出现在同一个推理路径中邻接的推理节点添加一种边关系;
c)为候选答案的节点和与它出现在同一个句子中的推理节点添加一种边关系;
d)为对应同一个候选答案的不同节点添加一种边关系;
e)为出现在同一篇文档中的所有节点添加一种边关系;
f)为不存在上述5类关系的两个节点,添加一种边的关系。
4)图网络的初始化:用步骤3)获得的图网络表示所有文档和候选答案,将所有文档通过深度上下文词向量表示模型(ELMo),获得文档中每个词的上下文相关表示,然后抽取文档中对应图网络节点的词向量,与静态词向量组合作为图网络节点的初始化向量表示。静态词向量采用斯坦福大学提供的GloVe词向量,上下文词向量采用AllenNLP提供的已经预训练好的EMLo模型。并且静态词向量和上下文词向量的组合方式采用词向量拼接的方式,然后通过一个全连接网络,得到节点的初始化表示。其中如果节点由多个单词组成,则分别计算GloVe和ELMo向量的均值再拼接。
5)引入问题信息的关系图卷积更新:利用关系图卷积网络(RGCN)来更新步骤3)获得的图网络时,首先利用双向长短期记忆网络(BiLSTM)将问题编码为qrnn,然后利用关系图卷积公式获得图网络节点的更新表示为
Figure BDA0002374354720000071
然后利用注意力机制和门控机制将qrnn引入到节点表示
Figure BDA0002374354720000081
中,接着在利用一个门控机制结合上一时刻的节点表示
Figure BDA0002374354720000082
和更新后的表示
Figure BDA0002374354720000083
获得当前时刻的向量表示
Figure BDA0002374354720000084
将该关系图卷积更新过程堆叠L层获得图网络的表示
Figure BDA00023743547200000824
图卷积更新的具体过程公式为:
Figure BDA0002374354720000085
Figure BDA0002374354720000086
Figure BDA0002374354720000087
Figure BDA0002374354720000088
其中
Figure BDA0002374354720000089
是第i个节点的邻接节点集,
Figure BDA00023743547200000810
表示
Figure BDA00023743547200000811
中节点的数量,Rij表示第i个节点和第j个节点存在的关系集,
Figure BDA00023743547200000812
表示第l层第j个节点的向量表示,
Figure BDA00023743547200000813
则是关系r的参数,不同的关系有不同的参数,各个层的参数共享。其中
Figure BDA00023743547200000814
可以看做是一种对节点自身的特殊关系的参数。σ是sigmoid激活函数,
Figure BDA00023743547200000815
是对
Figure BDA00023743547200000816
Figure BDA00023743547200000817
的拼接操作,fg是一个简单多层神经网络(MLP),tanh是非线性激活函数,⊙表示元素相乘。
基于注意力机制和门控机制引入问题信息的具体公式为:
qrnn=BiLSTM(q)
Figure BDA00023743547200000818
Figure BDA00023743547200000819
Figure BDA00023743547200000820
首先利用双向长短记忆网络(BiLSTM)网络编码问题信息,用GloVe作为词向量的初始化,得到qrnn∈Rd×m。然后,运用注意力机制(Attention)与图网络进行交互,获得跟问题相关的图网络的向量表示,其中
Figure BDA00023743547200000821
表示第l层卷积的图网络中的第i个节点,通过与问题交互获得的问题相关的编码。最后利用门控机制引入问题的信息,其中
Figure BDA00023743547200000822
是图网络中融入了问题信息的第l层的第i个节点表示。
Figure BDA00023743547200000823
和bs分别表示为门控机制的权重和偏置。
6)基于双向注意力机制的交互编码:利用双向注意力机制对步骤5)得到的图网络的
Figure BDA0002374354720000091
和问题表示qrnn进行交互,然后将交互后的向量拼接,形成节点最终的向量表示。双向注意力机制的具体公式为:
S=avg-1fa([hL;qrnn;hL⊙qrnn])
gn2q=softmaxcol(S)·qrnn
gq2n=dup(softmax(maxcol(S)))T·hL
Figure BDA0002374354720000092
首先计算相似度矩阵S,其中arg-1表示在向量的最后一维取平均。fa是一个单层的全连接网络。然后计算基于问题相关的图网络表示gn2q和基于图网络相关的问题表示gq2n,其中softmaxcol和maxcol都是在S相似度矩阵的列向量上操作,dup表示将Softmax(maxcol(S))∈R1×M复制T次。最后将获得hL,gn2q和gq2n拼接形成最终的图网络中的节点表示
Figure BDA0002374354720000093
7)答案输出层:将步骤6)获得的节点向量表示,经过两层的全连接网络,输出每个候选答案的概率,选择概率最大的候选答案作为问题最终的答案。全连接网络输出每个节点的概率后,对于对应同一个候选答案的不同节点,选择其中的最高分作为该候选答案的分数。训练时利用交叉熵作为训练的损失函数。
实施例
下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)如图2所示,模型的输入为问题,相关文档和候选答案。抽取问题的实体,如图中例子的“Alexander John Ellis”,找到在文档1中的对应实体作为一个问题节点。同样的方式抽取候选节点,如图中的“Kensington”实体。
(2)如图2所示,根据问题节点和候选答案节点抽取推理节点。如图中的“KensalGreen Cemetery”实体,它既在问题节点“Alexander John Ellis”附近,又在候选答案节点“Kensington”的附近,就可以抽取一条从“Alexander John Ellis”到“Kensal GreenCemetery”到“Kensington”的推理路径,然后将“Kensal Green Cemetery”节点作为推理节点放到图网络中;
(3)如图3所示,包含3类不同的节点和和6类不同的关系。其中ms表示问题中实体对应的节点,mc表示抽取的推理节点,ma表示候选答案对应的节点,相同颜色的节点表示对应的实体相同,同一个椭圆内节点表示这些节点是在同一篇文档中抽取得到。默认图的节点数不大于500;
(4)如图2所示,关系图卷积节点的初始化采用GloVe和ELMo相结合的方式。其中ELMo的向量只利用模型最上层LSTM输出的向量,组合的方式采用拼接的模式,其中如果节点由多个单词组成,则分别计算GloVe和ELMo向量的均值再拼接。然后通过一个全连接网络将初始化维度转变为300维的向量。GloVe和ELMo都采用预训练好的模型和参数,并且在本方法的模型训练中不再参与训练;
(5)如图2所示,关系图卷积的更新操作主要分为3个部分,首先利用传统关系图卷积公式聚合上一时刻邻接节点和自身节点的信息,然后利用注意力机制和门控机制引入问题的信息,最后通过另外一个门控机制组合上一时刻的节点信息和当前更新得到的节点信息。关系图卷积的操作堆叠3层,每一层的参数共享,同一层的不同门控机制的参数不共享,所有获得的向量表示维度都为300维;
(6)如图2所示,利用双向注意力机制对图网络和问题表示进行交互,然后将交互后的向量拼接,形成节点最终的向量表示。
(7)如图2所示,将节点最终的向量表示经过两层的全连接网络,输出每个候选答案的概率,选择概率最大的候选答案作为问题最终的答案。全连接网络输出每个节点的概率后,对于对应同一个候选答案的不同节点,选择其中的最高分作为该候选答案的分数。训练时利用交叉熵作为训练的损失函数。
本实施例的结果在附图4所示。最终的实验结果,在公开数据集WIKIHOP测试,采用准确率作为评估的标准,与其他研究学者提出的模型的对比,模型无论在验证集还是测试集都达到了目前最好的效果,其中在single model的验证集达到70.8,测试集72.5的准确率,超过了目前效果最好的DynSAN模型1.1个百分点。在ensemble model中,在测试集更是达到了78.3的准确率,超过人类的准确率4.2个百分点。实验证明,该方法对于推理型阅读理解任务有非常好效果。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (8)

1.一种基于关系图卷积网络的推理型阅读理解方法,其特征在于,包括以下步骤:
1)抽取问题节点和候选答案节点:首先利用实体识别工具抽取问题中的实体,然后在文档中寻找该实体,将找到的实体作为一个问题节点,不同的位置的实体作为问题不同的节点;对于候选答案节点,将每个候选答案当做一个实体,然后与问题中的实体做相同的操作形成候选答案节点;
2)抽取推理节点:首先用实体识别工具抽取所有文档的实体;然后选取某一文档中包含问题节点的句子sq,找到句子sq中除问题节点q外的其他实体集m1,然后在其他文档找到另一个包含了m1中的某个实体e1的句子s1;判断句子s1中是否含有某个候选答案节点,如果存在某个候选答案节点c,则找到一条从问题节点q到候选答案节点c的路径为q→e1→c,其中问题节点与候选答案节点之间的节点为推理节点;如果句子s1中不存在任何候选答案节点,则继续找到s1句子中除实体e1外的其他实体集m2,重复上述过程,直到找到存在候选答案的句子;
3)基于推理路径的图网络构建:图网络的构建主要包含节点的确定和边关系的确定;首选以步骤1)和步骤2)抽取的问题节点,候选答案节点和推理节点作为图网络的节点,根据步骤2)中得到的路径添加不同的边关系形成图网络,以此来作为文档和候选答案的表示;
4)图网络的初始化:用步骤3)获得的图网络表示所有文档和候选答案,将所有文档通过深度上下文词向量表示模型ELMo,获得文档中每个词的上下文相关表示,然后抽取文档中对应图网络节点的词向量,与静态词向量组合作为图网络节点的初始化向量表示;静态词向量采用斯坦福大学提供的GloVe词向量,上下文词向量采用AllenNLP提供的已经预训练好的EMLo模型;并且静态词向量和上下文词向量的组合方式采用词向量拼接的方式,然后通过一个全连接网络,得到节点的初始化表示;其中如果节点由多个单词组成,则分别计算GloVe和ELMo向量的均值再拼接;
5)引入问题信息的关系图卷积更新:利用关系图卷积网络RGCN来更新步骤3)获得的图网络时,首先利用双向长短期记忆网络BiLSTM将问题编码为qrnn,然后利用关系图卷积公式获得图网络节点的更新表示为
Figure FDA0003397785510000021
然后利用注意力机制和门控机制将qrnn引入到节点表示
Figure FDA0003397785510000022
中,接着再利用一个门控机制结合上一时刻的节点表示
Figure FDA0003397785510000023
和更新后的表示
Figure FDA0003397785510000024
获得当前时刻的向量表示
Figure FDA0003397785510000025
将该关系图卷积更新过程堆叠L层获得图网络的表示
Figure FDA0003397785510000026
基于注意力机制和门控机制引入问题信息的具体公式为:
qrnn=BiLSTM(q)
Figure FDA0003397785510000027
Figure FDA0003397785510000028
Figure FDA0003397785510000029
首先利用双向长短记忆网络BiLSTM网络编码问题信息,用GloVe作为词向量的初始化,得到qrnn∈Rd×m;然后,运用注意力机制Attention与图网络进行交互,获得跟问题相关的图网络的向量表示,其中
Figure FDA00033977855100000210
表示第l层卷积的图网络中的第i个节点,通过与问题交互获得的问题相关的编码;最后利用门控机制引入问题的信息,其中
Figure FDA00033977855100000211
是图网络中融入了问题信息的第l层的第i个节点表示;
Figure FDA00033977855100000212
和bs分别表示为门控机制的权重和偏置;
6)基于双向注意力机制的交互编码:利用双向注意力机制对步骤5)得到的图网络的
Figure FDA00033977855100000213
和qrnn进行交互,然后将交互后的向量拼接,形成节点最终的向量表示;
7)答案输出层:将步骤6)获得的节点向量表示,经过两层的全连接网络,输出每个候选答案的概率,选择概率最大的候选答案作为问题最终的答案。
2.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法,其特征在于,所述的步骤1)中,在文档中寻找相应的实体时,将所有标点统一化,字符小写化,然后采用字符匹配的方式去匹配实体。
3.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法,其特征在于,步骤1)中,所述候选答案为实体或者短语。
4.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法,其特征在于,所述步骤2)中,实体识别工具采用斯坦福大学提供的stanfordcorenlp工具包,并过滤掉日期,数字等无意义的实体。
5.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法,其特征在于,所述步骤3)中,所述图网络中的边关系具有以下6类,分别为:
a)为问题中的实体节点和与它出现在同一个句子中的推理节点添加一种边关系;
b)为出现在同一个推理路径中邻接的推理节点添加一种边关系;
c)为候选答案的节点和与它出现在同一个句子中的推理节点添加一种边关系;
d)为对应同一个候选答案的不同节点添加一种边关系;
e)为出现在同一篇文档中的所有节点添加一种边关系;
f)为不存在上述5类关系的两个节点,添加一种边的关系。
6.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法,其特征在于,所述步骤5)中,图卷积更新的具体过程公式为:
Figure FDA0003397785510000031
Figure FDA0003397785510000032
Figure FDA0003397785510000033
Figure FDA0003397785510000034
其中
Figure FDA0003397785510000035
是第i个节点的邻接节点集,
Figure FDA0003397785510000036
表示
Figure FDA0003397785510000037
中节点的数量,Rij表示第i个节点和第j个节点存在的关系集,
Figure FDA0003397785510000038
表示第l层第j个节点的向量表示,
Figure FDA0003397785510000039
则是关系r的参数,不同的关系有不同的参数,各个层的参数共享;其中
Figure FDA00033977855100000310
是一种对节点自身的特殊关系的参数;σ是sigmoid激活函数,
Figure FDA00033977855100000311
是对
Figure FDA0003397785510000041
Figure FDA0003397785510000042
的拼接操作,fg是一个简单多层神经网络MLP,tanh是非线性激活函数,⊙表示元素相乘。
7.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法,其特征在于,所述的步骤6)中,双向注意力机制的具体公式为:
S=avg-1fa([hL;qrnn;hL⊙qrnn])
gn2q=softmaxcol(S)·qrnn
gq2n=dup(softmax(maxcol(S)))T·hL
Figure FDA0003397785510000043
首先计算相似度矩阵S,其中arg-1表示在向量的最后一维取平均;fa是一个单层的全连接网络,hL为关系图卷积更新过程堆叠L层获得图网络的表示;然后计算基于问题相关的图网络表示gn2q和基于图网络相关的问题表示gq2n,其中softmaxcol和maxcol都是在S相似度矩阵的列向量上操作,dup表示将Softmax(maxcol(S))∈R1×M复制T次;最后将获得hL,gn2q和gq2n拼接形成最终的图网络中的节点表示
Figure FDA0003397785510000044
8.根据权利要求1所述的基于关系图卷积网络的推理型阅读理解方法,其特征在于,所述的步骤7)中,全连接网络输出每个节点的概率后,对于对应同一个候选答案的不同节点,选择其中的最高分作为该候选答案的分数;训练时利用交叉熵作为训练的损失函数。
CN202010063302.9A 2020-01-19 2020-01-19 基于关系图卷积网络的推理型阅读理解方法 Active CN111274800B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010063302.9A CN111274800B (zh) 2020-01-19 2020-01-19 基于关系图卷积网络的推理型阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010063302.9A CN111274800B (zh) 2020-01-19 2020-01-19 基于关系图卷积网络的推理型阅读理解方法

Publications (2)

Publication Number Publication Date
CN111274800A CN111274800A (zh) 2020-06-12
CN111274800B true CN111274800B (zh) 2022-03-18

Family

ID=70998885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010063302.9A Active CN111274800B (zh) 2020-01-19 2020-01-19 基于关系图卷积网络的推理型阅读理解方法

Country Status (1)

Country Link
CN (1) CN111274800B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753054B (zh) * 2020-06-22 2023-02-03 神思电子技术股份有限公司 一种基于图神经网络的机器阅读推断方法
CN111831783B (zh) * 2020-07-07 2023-12-08 北京北大软件工程股份有限公司 一种篇章级关系抽取方法
CN111814982B (zh) * 2020-07-15 2021-03-16 四川大学 面向多跳问答的动态推理网络系统及方法
CN112380835B (zh) * 2020-10-10 2024-02-20 中国科学院信息工程研究所 融合实体和句子推理信息的问题答案提取方法及电子装置
CN112131370B (zh) * 2020-11-23 2021-03-12 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112417104B (zh) * 2020-12-04 2022-11-11 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法
CN112632253A (zh) * 2020-12-28 2021-04-09 润联软件系统(深圳)有限公司 基于图卷积网络的答案抽取方法、装置及相关组件
CN113792120B (zh) * 2021-04-08 2023-09-15 北京金山数字娱乐科技有限公司 图网络的构建方法及装置、阅读理解方法及装置
CN113590745B (zh) * 2021-06-30 2023-10-10 中山大学 一种可解释的文本推断方法
CN113609355B (zh) * 2021-07-15 2022-06-03 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
CN114490959A (zh) * 2021-07-18 2022-05-13 北京理工大学 一种以关键词为驱动的动态图神经网络多跳阅读理解方法
CN113792144B (zh) * 2021-09-16 2024-03-12 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
WO2023225858A1 (zh) * 2022-05-24 2023-11-30 中山大学 一种基于常识推理的阅读型考题生成系统及方法
CN116680502B (zh) * 2023-08-02 2023-11-28 中国科学技术大学 数学应用题智能求解方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
CN110222770B (zh) * 2019-06-10 2023-06-02 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110399518B (zh) * 2019-06-17 2021-12-10 杭州电子科技大学 一种基于图卷积的视觉问答增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110597947A (zh) * 2019-03-20 2019-12-20 桂林电子科技大学 一种基于全局和局部注意力交互的阅读理解系统及方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110674279A (zh) * 2019-10-15 2020-01-10 腾讯科技(深圳)有限公司 基于人工智能的问答处理方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BAG: Bi-directional Attention Entity Graph Convolutional Network for Multi-hop Reasoning Question Answering;Yu Cao et al;《https://arxiv.org/abs/1904.04969v1》;20190410;第1-6页 *
Bidirectional Attention Flow for Machine Comprehension;Minjoon Seo et al;《https://arxiv.org/abs/1611.01603v6》;20180621;第1-13页 *
Constructing Datasetsfor Multi-hop Reading Comprehension Across Documents;Johannes Welbl et al;《https://arxiv.org/abs/1710.06481》;20180611;第1-21页 *
Exploring Graph-structured Passage Representation for Multi-hop Reading Comprehension with Graph Neural Networks;Linfeng Song;《https://arxiv.org/abs/1809.02040》;20180906;第1-9页 *
Question Answering by Reasoning Across Documents with Graph Convolutional Networks;Nicola De Cao et al;《http://export.arxiv.org/abs/1808.09920》;20190407;第1-13页 *

Also Published As

Publication number Publication date
CN111274800A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111274800B (zh) 基于关系图卷积网络的推理型阅读理解方法
CN108733792B (zh) 一种实体关系抽取方法
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
US11922121B2 (en) Method and apparatus for information extraction, electronic device, and storage medium
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN110083692B (zh) 一种金融知识问答的文本交互匹配方法及装置
CN110377903B (zh) 一种句子级实体和关系联合抽取方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111046661B (zh) 基于图卷积网络的阅读理解方法
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN108268643A (zh) 一种基于多粒度lstm网络的深层语义匹配实体链接方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN114818703B (zh) 基于BERT语言模型和TextCNN模型的多意图识别方法及系统
CN114419642A (zh) 一种文档图像中键值对信息的抽取方法、装置及系统
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN112949637A (zh) 基于idcnn和注意力机制的招投标文本实体识别方法
CN116522165A (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN113488196B (zh) 一种药品说明书文本命名实体识别建模方法
CN116028888A (zh) 一种平面几何数学题目的自动解题方法
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant