CN112380835B - 融合实体和句子推理信息的问题答案提取方法及电子装置 - Google Patents
融合实体和句子推理信息的问题答案提取方法及电子装置 Download PDFInfo
- Publication number
- CN112380835B CN112380835B CN202011078614.3A CN202011078614A CN112380835B CN 112380835 B CN112380835 B CN 112380835B CN 202011078614 A CN202011078614 A CN 202011078614A CN 112380835 B CN112380835 B CN 112380835B
- Authority
- CN
- China
- Prior art keywords
- representation
- entity
- sentence
- document
- reasoning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000004927 fusion Effects 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 9
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 2
- 230000002776 aggregation Effects 0.000 claims 1
- 238000004220 aggregation Methods 0.000 claims 1
- 230000017105 transposition Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 18
- 230000007547 defect Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 17
- 239000013598 vector Substances 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 210000002569 neuron Anatomy 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 2
- 101100136092 Drosophila melanogaster peng gene Proteins 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种融合实体和句子推理信息的问题答案提取方法及电子装置,包括:将一问题与若干目标文档拼接,输入预训练语言模型,得到问题表示Q与文档上下文表示C;获取融合文档信息的问题表示Q0与融合问题信息的文档表示C0;依据问题表示Q(t‑1)与文档表示Ct‑1,获取实体图节点集合E(t‑1)与句子图节点集合并采用图注意力网络对实体图与句子图更新,获取问题表示Q(t)与文档表示Ct;对实体图节点集合E(t)与句子图节点集合融合并与文档表示Ct交互;依据推理更新后上下文表示C′(t),获取问题答案预测结果。本发明提出引入句子节点的图神经网络,通过门机制将实体表示与句子表示融合,利用句子级别推理信息弥补实体推理信息的缺失,提升推理阅读理解任务的性能。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种融合实体和句子推理信息的问题答案提取方法及电子装置。
背景技术
推理阅读理解是给定用户一个问题的多个相关文档,从文档中找到问题的答案和相关的证据句子。推理阅读理解问题需要模型结合问题,对文本语义上的含义进行推理,找到问题的相关证据句子和最终答案。推理阅读模型整体上可以分为三大类方法。一类是记忆网络的方法,通过不断迭代更新推理状态来模拟推理过程;另一类是基于图神经网络的方法,通过图神经网络的更新来进行推理;还有一些其他的基于深度学习的方法。其中,基于图神经网络的推理阅读理解模型的框架整体可以分为三个部分:1)语义编码阶段;2)推理建模阶段;3)证据和答案预测阶段。语义编码阶段将问题、文档编码成具有上下文语义信息的文本向量;推理建模阶段使用图神经网络技术对推理过程进行建模,建立问题和文档之间的联系;答案预测阶段从得到文本表示中进行相关证据句子和答案片段的预测。针对一些候选段落较多的数据,还需要进行段落选择,段落选择阶段将从候选段落中选择相关段落,用作后续语义编码的输入。
基于记忆网络的方法比较典型的有Dynamic Co-attention Network(CaimingXiong,Victor Zhong,Richard Socher;Dynamic Coattention Networks For QuestionAnswering.ICLR,2017),该方法将模型分为编码和解码两部分。一方面,编码阶段使用了Co-attention机制将问题和文档进行编码,得到问题相关的文档表示;另一方面,在解码阶段,利用答案预测的结果进行迭代,每轮都会根据当前状态值去预测答案,根据答案预测结果更新当轮状态值,不断迭代更新,最后一轮的结果作为最终答案。
基于图神经网络的方法比较典型的有DFGN模型(Lin Qiu,Yunxuan Xiao,YanruQu,Hao Zhou,Lei Li,Weinan Zhang,Yong Yu;Dynamically Fused Graph Network forMulti-hop Reasoning.ACL 2019:6140-6150)。DFGN模型首先使用BERT(BidirectionalEncoder Representation from Transformer)对文档独立分类,进行段落选择,语义编码阶段使用BERT得到文档和问题的上下文表示,推理建模阶段采用GAT(Graph AttentionNetworks)的图神经网络实现,使用BiLSTM建模图与上下文表示双向融合的过程,将图推理后得到的节点信息融合到上下文表示中,通过不断迭代这个图推理的过程来完成图信息与文本信息的双向融合,从而预测抽取式答案;此外,DFGN还建模了问题在图构建过程中的作用,采用Bi-Attention更新问题表示,根据问题表示与节点表示的匹配程度构建动态图,同时在迭代过程中不断更新问题表示。
基于图神经网络的方法还有一些其他的改进,比如SAE模型(Ming Tu,KevinHuang,Guangtao Wang,Jing Huang,Xiaodong He,Bowen Zhou:Select,Answer andExplain:Interpretable Multi-Hop Reading Comprehension over MultipleDocuments.AAAI 2020:9073-9080),模型首先改进了文档选择模块,将分类问题转化为排序问题,设计新的损失函数来提升相关文档的准确率;SAE模型在推理阶段,直接使用句子嵌入表示作为节点来预测相关证据句子;在句子嵌入表示学习中,使用了答案预测的打分,采用混合注意力池化机制将答案预测结果与上下文表示融合,得到句子表示,这个过程实际上是将答案预测的结果用来做证据预测。
其他非图神经网络的方法中,Jianxing Yu、Zhengjun Zha、Jian Yin等人设计了一种推理神经元(Inferential Machine Comprehension:Answering Questions byRecursively Deducing the Evidence Chain from Text.ACL 2019:2241-2251),通过循环链接这种推理神经元,模拟推理过程的链式结构。这种推理神经元包括记忆向量、读操作单元、写操作单元、控制器操作单元组成,控制器单元基于问题产生一系列基于注意力的操作,读操作单元根据控制器的操作指示读取相关内容,写单元根据控制器操作和读单元结果产生新的结果,并更新记忆向量,这个推理神经元是递归链接在一起的,前一步的输出是后一步的结果;此外,由于不同样本推理深度的不确定性,推理过程的终止动作是动态决定的,整个网络通过强化学习来训练。
但目前基于图神经网络的方法,因为推理信息不是只存在于实体信息当中,以实体构建图神经网络来建模推理过程会缺失非实体信息的推理信息。
发明内容
本发明的目的是提出一种融合实体和句子推理信息的问题答案提取方法及电子装置,利用句子中的信息来补充实体信息,将实体和句子的信息互相融合来提升推理阅读理解任务的性能。
为达到上述目的,本发明采用如下技术方案:
一种融合实体和句子推理信息的问题答案提取方法,其步骤包括:
1)将一问题与若干目标文档拼接到一起,输入到预训练语言模型中,得到问题的表示Q与文档的上下文表示C;
2)对表示Q与上下文表示C进行交互,得到融合文档信息的问题表示Q0与融合问题信息的文档表示C0;
3)依据问题表示Q(t-1)与文档表示Ct-1,获取实体图节点集合E(t-1)与句子图节点集合并采用图注意力网络对实体图与句子图进行节点更新,根据得到的实体图节点集合E(t)与句子图节点集合/>获取问题表示Q(t)与文档表示Ct,其中t为推理更新次数,t≥1;
4)对实体图节点集合E(t)与句子图节点集合进行融合,将融合结果与文档表示Ct交互,得到推理更新后的上下文表示C′(t);并依据上下文表示C′(t),得到该问题的答案预测结果。
进一步地,通过以下步骤得到目标文档:
1)将若干原始文档输入一由由预训练语言模型与一层线性分类器组成的段落选择模型;
2)根据一阈值,在各原始文档中选取与所述问题相关的段落,得到若干目标文档。
进一步地,所述预训练语言模型包括:BERT模型。
进一步地,对表示Q与上下文表示C进行交互的方法包括:使用双向注意力机制。
进一步地,通过以下步骤获取实体图节点集合E(t-1):
1)通过MeanMaxPooling,得到问题表示q(t-1)与实体表示其中1≤i≤J,J为实体数量;
2)计算问题表示q(t-1)与各实体表示的相关度/>
3)对各相关度进行归一化处理,得到归一化结果/>
4)获取实体图节点集合
进一步地,通过以下步骤得到的实体图节点集合E(t):
1)计算实体图节点的中间计算表示其中/>U、b均为图注意力网络参数;
2)获取归一化后的注意力系数其中k为实体节点/>的相邻实体节点集合Bi中相邻实体节点个数,/>1≤j≤k,W为图注意力网络参数;
3)计算实体图节点得到实体图节点集合E(t)。
进一步地,通过以下步骤得到句子图节点集合
1)通过双向LSTM网络,得到问题表示与句子表示/>其中1≤n≤K,K为句子数量;
2)计算问题表示与句子表示/>的相关度/>
3)对对所有相关度βi进行归一化处理,得到,得到归一化结果
4)获取句子图节点集合
进一步地,采用双向注意力机制,获取问题表示Q(t)=Bi-Attention(Q(t-1),E(t))。
进一步地,通过以下步骤得到推理更新后的上下文表示C′(t):
1)计算门机制参数其中σ为sigmoid函数,Wg、bg为可训练参数;
2)计算推理更新后的上下文表示C′(t)=f((E(t)·g(t));C(t)),其中f为tanh函数。
进一步地,得到该问题答案预测结果的方法包括:将上下文表示C′(t)输入若干层层堆叠且不共享参数的LSTM层。
进一步地,答案预测结果包括:相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机以执行上述所述的方法。
与现有技术相比,本发明具有以下积极效果:
1)提出引入句子节点的图神经网络推理模型,来完善实体推理图的非实体类推理信息,提升推理阅读理解的效果。
2)通过门机制将实体表示与句子表示进行融合,对实体推理信息与句子推理信息交互建模,提升推理阅读理解的效果。
3)利用句子级别的推理信息来弥补实体推理信息的缺失,将句子推理信息与实体推理信息进行交互融合,提升推理阅读理解任务的性能。
附图说明
图1为本发明的模型框架示例图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实例,并配合所附图作详细说明如下。
请参考图1,本发明模型采用的框架整体分为四个部分:1)段落选择模块;2)语义编码模块;3)图神经网络推理模块;4)证据和答案预测模块。语义编码模块将问题、文档编码成具有上下文语义信息的文本向量,推理模块使用图神经网络对推理过程进行建模,得到上下文文档表示后进行相关证据句子和答案片段的预测。
过程一:段落选择模块。
段落选择模块,使用BERT模型(Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova:BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding.NAACL-HLT 2019:4171-4186.)和一层线性分类器来微调训练一个文本分类的模型,单独判断问题与段落是否相关,设置阈值为0.3来选取较为相关的段落。这是在保证召回率下的选择,同时召回的相关文档总长度基本满足下一阶段的最大输入长度512。
过程二:语义编码模块。
语义编码层将问题和上下文文档编码成具有上下文语义信息的文档向量表示。问题和该问题所有的相关文档拼接在一起构成编码模块的输入,编码模块采用预训练的BERT模型。经过编码后,获得问题的表示以及文档上下文表示其中R代表实数集合,L和N分别是问题和上下文的长度,d1是BERT隐藏层的维度大小。
然后,利用双向注意力机制(Min Joon Seo,Aniruddha Kembhavi,Ali Farhadi,Hannaneh Hajishirzi:Bidirectional Attention Flow for MachineComprehension.ICLR 2017)对问题和上下文进行交互建模。模型使用双向注意力机制,对问题和上下文进行交互建模,学习融合文档信息的问题的表示以及融合问题信息的文档的表示/>其中d2是输出的向量表示的维度大小。
过程三:图神经网络推理模块。
推理建模层的设计是模拟人类单步推理的行为,从问题和上下文开始,找到单步推理的中间实体和相关句子,然后迭代这个单步推理的过程完成最终推理。一个单步推理过程包括三个部分:实体图推理、句子图推理、实体-句子的融合与文档交互。
1)实体图推理部分。
实体图推理中,对融合文档信息的问题的表示Q0计算MeanMaxPooling来得到问题在实体图中的表示,对融合问题信息的文档的表示C0计算MeanMaxPooling来得到实体表示[e1,...,eJ],其中J是实体的个数。然后计算问题表示和实体表示之间的相关度,以相关度为软掩码得到图神经网络的实体节点表示。计算公式如:
q=MeanMaxPooling(Q0)
其中Q0融合文档信息的问题的表示,q是问题在实体图中的表示,MeanMaxPooling是取向量的平均值和最大值。
进一步计算实体e在实体图中的表示:
ei=MeanMaxPooling(C0)
其中C0是融合问题信息的文档的表示,MeanMaxPooling是取向量的平均值和最大值。
然后,计算实体图中问题的表示q和实体表示e之间的相关度γ:
将所有的相关度γ进行归一化有:
最后得到实体图网络上各个实体节点的表示:
E=[α1e1,α2e2,…,αJeJ]
其中,i∈{1,2,…,J}J是实体的个数,V是模型要学习的参数。
进一步将实体图中的节点表示为
然后,采用图注意力网络进行节点更新,得到推理后的实体节点表示。计算公式如下:
进一步的,是相关度过滤后的图神经网络中实体的节点表示,t是迭代到第几轮,k代表与第i个实体节点相邻的实体节点的个数,B代表第i个节点的相邻的实体节点的集合,中间参数:h是实体的节点表示的中间计算表示,U、b、W都是模型要学习的参数。
是归一化后的注意力系数,h是编码后的实体节点表示,γ是中间计算结果,对实体表示/>做非线性变换。
然后,采用双向注意力机制来根据实体集合表示E更新问题表示Q。计算公式如下:
Q(t)=Bi-Attention(Q(t-1),E(t))
进一步地,t代表推理更新次数。Q(t)用于下一次推理更新。
2)句子图推理部分。
句子推理图中,通过双向LSTM对融合了文档信息的问题表示Q0和融合了问题信息的文档的表示C0进行编码得到问题在图上的表示qs和句子表示S。然后计算问题和文档表示之间的相关度,以相关度为软掩码得到图神经网络的句子节点表示。计算公式如下:
qs=LSTM(Q0)
S=LSTM(C0)
计算问题和文档表示的相关度:
其中,U是参数,d3是问题和文档的向量的维度大小。对上述进行归一化得:
即
是软掩码过滤后的句子表示,n∈{1,2,…,K},K是文档句子的个数。
然后,采用图注意力网络进行节点更新,得到推理后的句子节点表示。计算公式如下:
句子推理图与实体推理图共用一个问题表示,问题表示更新见1)中的问题表示更新,得到文档表示C(t)。
3)实体-句子的融合与文档交互。
根据1)和2)得到实体与句子的节点表示后,通过门机制将实体表示与句子表示进行融合,然后与文档表示进行交互。计算公式如下:
C'(t)=f((E(t).g(t));C(t))
进一步地,g是根据句子表示计算得到的门机制参数,其中σ是sigmoid函数,C′(t)是将句子表示与实体表示进行融合,再与文档表示C(t)进行非线性计算,得到推理更新后的文档表示C′(t),其中f是tanh函数C(t-1)的初始值是C0。
过程四:证据与答案预测模块。
最后是证据和答案预测模块,将过程三输出的推理更新后的文档表示C′作为预测层的输入,整个预测层的输出有四个维度,包括相关证据句子、答案的开始位置、答案的结束位置、答案的类型。预测层采用一种垂直结构设计来解决输出之间的依赖关系,四个不共享参数的LSTM层通过层层的堆叠在一起。最后一轮推理模块的上下文表示是第一层LSTM的输入,每层LSTM都会输出一个概率分布然后使用这些概率分布计算交叉熵。具体LSTM的堆叠方式如下:
Osup=F0(C′(t))
Ostart==F1([C′(t),Osup])
Oend=F2([C′(t),Osup,Ostart])
Otype==F3([C′(t),Osup,Ostart])
进一步地,C是过程三输出的推理更新后的文档词表示,F0,F1,F2,F3分别是四个多层感知机,Osup是用来预测证据表示概率分布,Ostart和Oend分别是用来预测答案开始和结束位置的概率分布,Otype是用来预测答案类型的概率分布。
最终联合优化这四个交叉熵损失函数。
L=Lstart+Lend+λsLsup+λtLtype
进一步地,Lstart,Lend,Lsup,Ltype分别是Osup,Ostart,Oend,Otype与真实标签计算交叉熵损失函数得到的损失函数,λs和λt分别是计算证据预测损失和答案类型损失的超参数。
此外,模型在实体推理阶段还引入了一种弱监督的信息来规范实体推理中的掩码分布。这种弱监督信息的获取是以问题中的实体作为起始的掩码,在图上根据邻接矩阵进行宽度为1的宽度优先搜索而获取。对应的损失函数采用二分类的交叉熵损失函数。
在实验效果中,本部分在HotpotQA推理阅读理解数据集(Zhilin Yang,Peng Qi,Saizheng Zhang,Yoshua Bengio,William W.Cohen,Ruslan Salakhutdinov,ChristopherD.Manning:HotpotQA:A Dataset for Diverse,Explainable Multi-hop QuestionAnswering.EMNLP 2018:2369-2380)上进行了实验。训练数据有90247个样本,验证数据有7405个样本。
本发明的评价指标为EM值和F1值。EM值是比较预测的答案与真实答案完全一致的占比情况,F1值综合度量了预测结果和真实结果的准确率与召回率。
本发明与主流方法进行了比较,其中最后一行是本发明提出的模型,具体结果如表1所示。可以看到本发明提出的模型超过了当前大多数模型的效果,证明了本发明提出方法的有效性。
表1:主要模型的性能结果对比
以上通过形式表达和实施例对本发明方法进行了详细的说明,但本发明的具体实现形式并不局限于此。本领域的一般技术人员,可以在不背离本发明所述方法的精神和原则的情况下对其进行各种显而易见的变化与修改。本发明的保护范围应以权利要求书所述为准。
Claims (6)
1.一种融合实体和句子推理信息的问题答案提取方法,其步骤包括:
1)将一问题与若干目标文档拼接到一起,输入到预训练语言模型中,得到问题的表示Q与文档的上下文表示C;
2)使用双向注意力机制,对问题的表示Q与文档的上下文表示C进行交互,得到融合文档信息的问题表示Q0与融合问题信息的文档表示C0;
3)依据融合文档信息的问题表示Q(t-1)与融合问题信息的文档表示C(t-1),获取实体图节点集合E(t-1)与句子推理图节点集合t为推理更新次数,t≥1;其中,在推理更新次数t为1时,融合文档信息的问题表示Q(t-1)与融合问题信息的文档表示C(t-1)分为融合文档信息的问题表示Q0与融合问题信息的文档表示C0;
所述依据融合文档信息的问题表示Q(t-1)与融合问题信息的文档表示C(t-1),获取实体图节点集合E(t-1),包括:
计算问题在实体图中的表示q(t-1)=MeanMaxPooling(Q(t-1))和实体e在实体图中的表示J为实体数量;
计算问题在实体图中的表示q(t-1)与各实体e在实体图中的表示的相关度ri (t-1);
对各相关度ri (t-1)进行归一化处理,得到归一化结果
获取实体图节点集合
所述依据融合文档信息的问题表示Q(t-1)与融合问题信息的文档表示C(t-1),获取句子推理图节点集合包括:
计算问题在句子推理图上的表示和句子表示/> K为句子数量;
计算问题在句子推理图上的表示与句子表示/>的相关度/>
对所述相关度进行归一化处理,得到归一化结果/>
获取句子推理图节点集合
4)采用图注意力网络对实体图与句子推理图进行节点更新,得到的实体图节点集合E(t)与句子推理图节点集合其中,所述采用图注意力网络对实体图进行节点更新,得到的实体图节点集合E(t),包括:
计算实体图节点的中间计算表示其中/>Ut为图注意力网络第一参数,bt为图注意力网络第二参数;
获取归一化后的注意力系数其中k为实体节点/>的相邻实体节点集合Bi中相邻实体节点个数,/>Wt为图注意力网络第三参数,T表示转置;
计算实体e在实体图中的表示得到实体图节点集合E(t);
5)将句子推理图与实体推理图共用一个问题表示,并通过问题表示更新后,得到融合问题信息的文档表示C(t);
6)对融合问题信息的文档表示C(t)进行编码,得到融合后的句子表示s(t);
7)通过门机制将实体图节点集合E(t)与句子表示S(t)进行融合后,与融合问题信息的文档表示C(t)进行交互,得到推理更新后的上下文表示C′(t);其中,所述通过门机制将实体图节点集合E(t)与句子表示S(t)进行融合后,与融合问题信息的文档表示C(t)进行交互,得到推理更新后的上下文表示C′(t),包括:
根据句子表示S(t)计算得到的门机制参数g(t);
计算推理更新后的上下文表示C′(t)=f((E(t)·g(t));C(t)),f表示tanh函数;
8)依据推理更新后的上下文表示C′(t),得到该问题的答案预测结果。
2.如权利要求1所述的方法,其特征在于,通过以下步骤得到目标文档:
1)将若干原始文档输入一由预训练语言模型与一层线性分类器组成的段落选择模型;
2)根据一阈值,在各原始文档中选取与所述问题相关的段落,得到若干目标文档。
3.如权利要求1所述的方法,其特征在于,所述预训练语言模型包括:BERT模型。
4.如权利要求1所述的方法,其特征在于,得到该问题答案预测结果的方法包括:将推理更新后的上下文表示C′(t)输入若干层层堆叠且不共享参数的LSTM层;答案预测结果包括:相关证据句子、答案开始位置、答案结束位置和答案类型中的一种或多种。
5.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1-4中任一所述方法。
6.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行如权利要求1-4中任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078614.3A CN112380835B (zh) | 2020-10-10 | 2020-10-10 | 融合实体和句子推理信息的问题答案提取方法及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011078614.3A CN112380835B (zh) | 2020-10-10 | 2020-10-10 | 融合实体和句子推理信息的问题答案提取方法及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112380835A CN112380835A (zh) | 2021-02-19 |
CN112380835B true CN112380835B (zh) | 2024-02-20 |
Family
ID=74581216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011078614.3A Active CN112380835B (zh) | 2020-10-10 | 2020-10-10 | 融合实体和句子推理信息的问题答案提取方法及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380835B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112800186B (zh) * | 2021-04-08 | 2021-10-12 | 北京金山数字娱乐科技有限公司 | 阅读理解模型的训练方法及装置、阅读理解方法及装置 |
CN113505206B (zh) * | 2021-07-01 | 2023-04-18 | 北京有竹居网络技术有限公司 | 基于自然语言推理的信息处理方法、装置和电子设备 |
CN114490959A (zh) * | 2021-07-18 | 2022-05-13 | 北京理工大学 | 一种以关键词为驱动的动态图神经网络多跳阅读理解方法 |
CN113869033A (zh) * | 2021-09-24 | 2021-12-31 | 厦门大学 | 融入迭代式句对关系预测的图神经网络句子排序方法 |
CN114861631A (zh) * | 2022-05-19 | 2022-08-05 | 昆明理工大学 | 基于上下文的汉越跨语言句嵌入方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733742A (zh) * | 2017-04-13 | 2018-11-02 | 百度(美国)有限责任公司 | 全局归一化阅读器系统和方法 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111046661A (zh) * | 2019-12-13 | 2020-04-21 | 浙江大学 | 基于图卷积网络的阅读理解方法 |
CN111274800A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430501B2 (en) * | 2015-09-18 | 2019-10-01 | International Business Machines Corporation | Mapping of documents with global tagging map |
-
2020
- 2020-10-10 CN CN202011078614.3A patent/CN112380835B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108733742A (zh) * | 2017-04-13 | 2018-11-02 | 百度(美国)有限责任公司 | 全局归一化阅读器系统和方法 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111046661A (zh) * | 2019-12-13 | 2020-04-21 | 浙江大学 | 基于图卷积网络的阅读理解方法 |
CN111274800A (zh) * | 2020-01-19 | 2020-06-12 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
Non-Patent Citations (1)
Title |
---|
基于实体图神经网络的事实核实方法;陈翀昊;黄周捷;蔡飞;余权;郑建明;陈洪辉;;指挥信息系统与技术;第11卷(第03期);第17-21页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112380835A (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112380835B (zh) | 融合实体和句子推理信息的问题答案提取方法及电子装置 | |
CN108733792B (zh) | 一种实体关系抽取方法 | |
CN109947912B (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
US20190370389A1 (en) | Methods and systems for generating and traversing discourse graphs using artificial neural networks | |
CN109614471B (zh) | 一种基于生成式对抗网络的开放式问题自动生成方法 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN111241807B (zh) | 一种基于知识引导注意力的机器阅读理解方法 | |
CN111914067A (zh) | 中文文本匹配方法及系统 | |
CN114860893B (zh) | 基于多模态数据融合与强化学习的智能决策方法及装置 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN114579741A (zh) | 融合句法信息的gcn-rn方面级情感分析方法和系统 | |
Li et al. | Neural-symbolic recursive machine for systematic generalization | |
CN117033602A (zh) | 一种多模态的用户心智感知问答模型的构建方法 | |
CN116414988A (zh) | 基于依赖关系增强的图卷积方面级情感分类方法及系统 | |
CN112380326B (zh) | 一种基于多层感知的问题答案抽取方法及电子装置 | |
CN114818682B (zh) | 基于自适应实体路径感知的文档级实体关系抽取方法 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 | |
CN116629361A (zh) | 基于本体学习和注意力机制的知识推理方法 | |
CN114266905A (zh) | 基于Transformer结构的图像描述生成模型方法、装置和计算机设备 | |
Nie et al. | BMI-Net: A Brain-inspired Multimodal Interaction Network for Image Aesthetic Assessment | |
Li et al. | A hint from arithmetic: On systematic generalization of perception, syntax, and semantics | |
Yu et al. | PLM-PGHC: A novel de-biasing framework for robust question answering | |
Lal et al. | Multi-level shared-weight encoding for abstractive sentence summarization | |
Li et al. | A semi-supervised paraphrase identification model based on multi-granularity interaction reasoning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |