CN112347756B - 一种基于序列化证据抽取的推理阅读理解方法及系统 - Google Patents
一种基于序列化证据抽取的推理阅读理解方法及系统 Download PDFInfo
- Publication number
- CN112347756B CN112347756B CN202011051087.7A CN202011051087A CN112347756B CN 112347756 B CN112347756 B CN 112347756B CN 202011051087 A CN202011051087 A CN 202011051087A CN 112347756 B CN112347756 B CN 112347756B
- Authority
- CN
- China
- Prior art keywords
- evidence
- sentence
- context
- answer
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 238000009826 distribution Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于序列化证据抽取的推理阅读理解方法及系统。该方法训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;利用训练完成的基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。本发明通过GRU与注意力机制根据问题句子来序列化抽取证据文档中的句子作为证据句子的预测结果,将证据句子之间的相关关系考虑进去,逐步推理得到相关证据,同时覆盖问题中的重要信息。本发明从原来的独立预测每个证据句子变为序列化抽取证据句子,从而建模证据之间的相关性认证,从而提高了网络的安全可靠性。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于序列化证据抽取的推理阅读理解方法及系统。
背景技术
图神经网络的概念第一次在论文“Lecun Y,Bottou L.Gradient-based learningapplied to document recognition[J].Proceedings of the IEEE,1998,86(11):P.2278-2324”中提出,该论文将现存的神经网络模型扩展到处理图领域的数据。在一个图结构中,每一个节点由它自身的特征以及与其相连的节点特征来定义该节点。GNN的目标是学习得到一个状态的嵌入向量(embedding),这个向量包含每个节点的邻居节点的信息。图注意力网络(Petar,Cucurull G,Casanova A,et al.Graph AttentionNetworks[J].2017)(GAT)是一种基于空间的图卷积网络,它的注意机制是在聚合特征信息时,将注意机制用于确定节点邻域的权重。
基于图神经网络模型的已有方法直接采用多层感知机独立预测证据句子,缺乏相关证据关联建模。多个证据句子的选择,希望可以共同覆盖必要的相关信息来回答问题,因此证据句子的选择之间并非一个独立的过程,具有一定的相关性从而共同得出问题的答案。由于推理过程本身的关联性与有序性,推理句子选择本身也是有序的。然而,Nishida等人(Nishida K,Nishida K,Nagata M,et al.Answering while Summarizing:Multi-taskLearning for Multi-hop QA with Evidence Extraction[J].Proceedings of the 57thConference of the Association for Computational Linguistics,ACL 2019,2335-2345)提出了QFE模型,将证据句子的抽取过程建模成一个迭代推理的过程,每一步都选择一个相关的证据句子,同时,迭代更新一个状态向量,用于下一步的推理,整个模型基于原来的答案预测模型采用了多任务学习的方式进行训练。在预测相关证据句子时,对所有句子单独进行分类,预测每个句子是相关证据的概率,并没有考虑到选择证据句子之间的相关性与时序性。
发明内容
本发明的目的在于提供一种基于序列化证据抽取的推理阅读理解方法及系统。从人类寻找证据的推理过程来看,首先推理句子本身之间具有一定的关联性,推理过程始终围绕问题和已经获得的相关信息进行,可以用序列化的过程来建模这个推理的链式结构。本发明通过GRU与注意力机制根据问题句子来序列化抽取证据文档中的句子作为证据句子的预测结果,这个过程不同于此前的独立预测证据句子的过程。通过这个序列化抽取证据句子的过程,将证据句子之间的相关关系考虑进去,逐步推理得到相关证据,同时覆盖问题中的重要信息。本发明在抽取句子的过程中引入迭代更新问题表示的方式来计算问题注意力。
本发明采用的技术方案如下:
一种基于序列化证据抽取的推理阅读理解方法,包括以下步骤:
训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C0和问题编码Q0;推理交互层采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,得到交互后的上下文序列C1和问题序列Q1;证据预测层根据C1和Q1预测证据句子;答案预测层根据证据句子的预测结果以及C1、Q1,预测答案的类型和答案片段的开始和结束位置;
利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。
进一步地,所述的采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,包括:
首先,计算上下文序列C0和问题序列Q0中每个词表示之间的相似度:Skj=α(C0:k,Q0:j),其中Skj表示上下文序列的第k个词和问题序列的第j个词的相似度,α=W[C0;Q0;C0⊙Q0],其中W是参数,⊙是按位点乘,[;]表示向量连接;
其次,计算上下文到问题的注意力权值:αk=softmax(Sk:),即对相似矩阵Skj的行向量Sk:进行归一化,得到权值αk;对上下文序列C0做加权和,得到:C1=∑kαkC0
同理,计算问题到上下文的注意力权值:βj=softmax(maxcol(Skj)),其中col表示按列取最大值;再对问题序列Q0做加权和,得到:Q1=∑jβjQ0。
进一步地,所述的根据C1和Q1预测证据句子,包括:
1)C1和Q1通过双向LSTM编码,对于C1,把LSTM双向隐含层表示进行拼接得到文档上下文的一种表示X;对于问题表示Q1,将双向LSTM的输出作为问题的一种表示Y;
2)对于X,将其通过一层全连接神经网络与最大池化层,得到推理状态的初始化表示X0;在X中加入一个可训练参数xEOE,选中该xEOE表示证据句子抽取结束;
3)证据抽取模型根据当前学习到的问题表示推理状态z以及上下文中每个句子的表示/>计算上下文中每个句子被抽取的概率分布;根据概率分布,训练阶段从未被抽取过的真实的证据预测句子集合中选取概率最大的句子作为本轮应当选取的证据句子;当抽取到xEOE这个句子时,抽取过程结束,停止抽取句子并输出预测结果;测试阶段在每个时间推理步中,从当前未被抽取句子集合中选择一个句子,作为抽取结果;设抽取出的证据集合为Et={e1,…,et};
4)证据抽取模型更新推理GRU的状态zt,计算方法为:
zt=tanh(W1xt+W2zt-1)
其中,zt是t时刻的推理状态,zt-1是t-1时刻的推理状态,W1和W2是参数,xt是t时刻的输入;
5)证据抽取模型根据更新的推理状态zt和注意力机制计算得到当前推理步中加权问题的向量表示
T是最大时刻
α=softmaxσ(zt,Q1)
其中,σ=W[zt;Q1;zt⊙Q1],W是参数,Zt表示推理状态,使用最后时刻推理的结果;
6)选择证据语句的计算概率的过程为:
其中W是参数。
进一步地,所述的根据证据句子的预测结果以及C1、Q1,预测答案的类型和答案片段的开始和结束位置,包括:
将证据句子的预测结果与原始输入词表示进行拼接,得到上下文序列C′;
利用上下文序列C′,采用堆叠方式的双向LSTM建模,分别输出答案片段开始位置在整个上下文中的概率分布,答案片段结束位置在整个上下文中的概率分布和答案的类型。
进一步地,所述的基于序列化证据抽取的阅读理解模型,其损失函数包括交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。
一种采用上述方法的基于序列化证据抽取的推理阅读理解系统,其包括:
模型训练模块,用于训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C0和问题编码Q0;推理交互层采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,得到交互后的上下文序列C1和问题序列Q1;证据预测层根据C1和Q1预测证据句子;答案预测层根据证据句子的预测结果以及C1、Q1,预测答案的类型和答案片段的开始和结束位置;
模型应用模块,用于利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。
本发明的技术关键点在于:
1、模型的编码层使用BERT得到上下文和问题编码。
2、证据预测层根据当前学习到的问题表示、推理状态以及每个句子的表示,选取概率最大的一个句子作为本轮时间步的抽取结果作为证据句子,并更新推理GRU的状态。
3、答案预测层根据证据预测结果和上下文、问题编码来预测答案的类型和答案片段的开始和结束位置。
4、模型在训练过程中,引入正确的证据句子来引导模型向正确的方向推理。通过注意力正则使得每个推理步尽量关注问题的不同部分,而不是不断地重复抽取一方面的相关信息。
5、对上轮问题表示引入迭代计算,基于问题计算表示,以及使用问题注意力的正则项。
6、测试过程中模型完全依据自身在之前推理步中做出的决定,来更新当前推理状态,并从剩下的句子中抽取新的句子。
利用本发明提供的方法进行机器阅读理解,具有以下优点:
1、从原来的独立预测每个证据句子变为序列化抽取证据句子,从而建模证据之间的相关性认证,从而提高了网络的安全可靠性;
2、采用循环神经网络的方式建模整个序列化抽取,每一时间步更新推理状态,通过逐步推理得到相关证据。
3、采用注意力机制从文档文本中抽取句子,使得这些句子的内容能够回答问题,也就是覆盖到问题相关的重要信息,用于给出问题的答案。
4、基于问题注意力的正则项,从而使得问题在不同抽取步的注意力分布尽可能分散,避免重叠,防止模型对问题的某一方面过多的关注。
附图说明
图1是本发明方法中证据抽取部分的流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明提供基于序列化证据抽取的阅读理解模型,输入内容是上下文文本和问题文本,输出是答案的类型(是、否、文本片段),答案文本以及相关证据句子的集合。如果答案是文本片段,则其是来自上下文文本中的一个连续短片段,不超过一句话。证据句子集合是回答问题的依据,答案就是根据证据句子得到的,证据集合中至少包含两个证据句子。
本发明的基于序列化证据抽取的阅读理解模型包括:编码层、推理交互层、证据预测层、答案预测层。整个模型的基本实现过程包括以下步骤:
1)编码层使用BERT(Bidirectional Encoder Representations fromTransformers)模型对输入的上下文序列C和问题Q进行编码,将问题Q与上下文序列C进行拼接,得到编码后的上下文序列和问题序列,即上下文编码C0和问题编码Q0。
2)推理交互层采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,得到交互后的上下文序列C1和问题序列Q1。
3)证据预测层再根据C1和Q1预测证据句子。
4)答案预测层根据证据句子的预测结果和C1与Q1,预测答案的类型和答案片段的开始和结束位置。答案预测层将证据预测层学习到的句子表示与原始输入词表示进行拼接,得到上下文序列C′。利用上下文序列C′,答案预测层采用堆叠方式的双向LSTM建模,分别输出答案片段开始位置在整个上下文中的概率分布,答案片段结束位置在整个上下文中的概率分布和答案的类型。
5)整个基于序列化证据抽取的阅读理解模型的损失函数分为交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。
下面以机器阅读Hotpot QA并回答问题为例,说明本发明的基于序列化证据抽取的阅读理解模型。
1)编码层将问题与上下文序列进行拼接,作为BERT的输入进行编码,得到编码后的问题序列和上下文序列C0和Q0;问题的最大长度限制为50个单词,整个输入文本的最大长度限制为512个单词,大于最大长度的文本输入会被截掉。
2)推理交互层采用双向注意力机制对编码后的问题序列和文档序列Q0和C0进行交互建模,双向注意力机制赋予与问题相关的上下文更高的权重,最终得到交互后的上下文序列C1和问题序列Q1。
采用双向注意力机制进行交互建模的具体计算如下:
首先,计算文档序列即上下文序列C0和问题序列Q0中每个词表示之间的相似度:
其中Skj表示上下文序列的第k个词和问题序列的第j个词的相似度,α=W[C0;Q0;C0⊙Q0],其中W是参数,⊙是按位点乘,[;]表示向量连接。
其次,计算文档(即上下文)到问题的注意力权值:
αk=softmax(Sk:)
也就是对相似矩阵Skj的行向量Sk:进行归一化,得到权值αk。然后再对文档向量(即上下文序列C0)做加权和得到文档的表示C1:
C1=∑kαkC0
同理,计算问题到文档(即上下文)的注意力权值,这里取相似度矩阵列中最大值:
βj=softmax(maxcol(Skj))
其中,col表示按列取最大值,Skj表示相似度矩阵。
再对问题向量(即问题序列Q0)做加权和得到问题的表示Q1:
Q1=∑jβjQ0
3)证据预测层根据C1和Q1预测证据句子。图1是证据抽取流程图。具体包括以下步骤:
3.1)C1和Q1通过双向LSTM编码。对于文档表示C1,把LSTM双向隐含层表示进行拼接得到文档上下文的一种表示X。对于问题表示Q1,将双向LSTM的输出作为问题的一种表示Y。
3.2)对于上下文表示X,本方法将其通过一层全连接神经网络与最大池化层,得到推理状态的初始化表示X0。在X中加入了一个可训练参数xEOE,选中该xEOE表示证据句子抽取结束。
3.3)证据抽取模型根据当前学习到的问题表示推理状态z以及上下文中每个句子的表示/>计算上下文中每个句子被抽取的概率分布。根据这些概率分布,训练阶段从未被抽取过的真实的证据预测句子集合中选取概率最大的句子作为本轮应当选取的证据句子。当我们抽取到xEOE这个句子时,这个抽取过程结束,模型停止抽取句子,并输出预测结果。
测试阶段模型会在每个时间推理步中,从当前未被抽取句子集合中选择一个句子,作为抽取结果。此时,模型完全依据自身在之前推理步中做出的决定,来更新当前推理状态,并从剩下的句子中抽取新的句子,直到抽取到xEOE句子。这个抽取过程在每个推理步中都会选取前m个合法的最大概率的未结束状态的句子集合,同时从中挑出已经结束抽取过程的结束状态的句子集合。这里的合法指的是句子集合中无重复抽取的选择,然后计算这m个计算结果的所有扩展结果,依然从中选取出已经结束状态的句子集合,以及前m个合法的最大概率的未结束状态的句子集合。从而不断得到结束状态的句子集合,最终结束状态句子集合达到m个或者搜索深度大于句子个数,则结束搜索过程,从结束状态句子集合中选择概率最大的句子集合作为证据抽取的结果。句子抽取阶段的集束搜索深度和大小设置为5和2。设抽取出的证据集合为Et={e1,…,et}。
3.4)证据抽取模型更新推理GRU(门控循环神经网络)的状态zt,计算方法为:
zt=tanh(W1xt+W2zt-1)
其中,zt是t时刻的推理状态,zt-1是t-1时刻的推理状态,W1和W2是参数,xt是t时刻的输入。
3.5)证据抽取模型根据更新的推理状态zt和注意力机制计算得到当前推理步中加权问题的向量表示
T是最大时刻
α=softmaxσ(zt,Q1)
其中σ=W[zt;Q1;zt⊙Q1],W是参数,Zt表示推理状态,使用最后时刻推理的结果;
3.6)选择证据语句的计算概率的过程为:
其中W是参数。
4)答案预测层根据证据句子的预测结果和C1与Q1,预测答案的类型和答案片段的开始和结束位置。采用堆叠方式的双向LSTM,将证据预测层学习到的句子表示与原始输入词表示进行拼接,得到上下文序列C′,第一层的输入为C′序列,每一层双向LSTM的输出结果都会通过全连接神经网络与sof tmax函数映射成概率分布,第一层概率分布表示答案片段开始位置在整个上下文中的概率分布,第二层概率分布表示答案片段结束位置在整个上下文中的概率分布,第三层概率分布表示答案的类型。
5)计算损失函数,整个模型的损失函数分为答案分布的损失函数La和证据预测的损失函数Le,答案分布的损失函数包括答案的开始结束位置、答案类型,都使用概率分布的交叉熵计算。证据预测的损失函数中,第一部分是抽取句子集合的负对数似然函数,第二部分是基于问题注意力的正则项。第一部分根据证据et以及每个时间推理步中计算输出的上下文句子的概率分布i,对二者计算负对数似然,得到抽取句子集合的损失函数;第二部分基于问题注意力的正则项所以有Le为:
it=softmax(zt)
其中,E表示证据集合,|E|表示所有证据,E\Et-1表示不在证据集合的句子,Pr表示概率值,t表示t时刻。
模型优化器使用Adam优化器,初始学习率为2e-4,衰减因子为1。模型训练的批大小为32,累计梯度更新步数为1。
增加证据句子抽取后的模型在证据句子预测上的性能提升较为明显,EM值达到了0.529,F1值达到了0.833。同时,答案预测中,EM值达到了0.558,F1值到达了0.702。综合性能EM值为0.337,F1值为0.610。EM值很高的原因可能是由于抽取过程中动态决定抽取句子的个数,可以让证据抽取句子过程匹配更精确,从而导致EM值较高。证据预测性能上的提升证明了证据句子抽取模型是有效的。
基于同一发明构思,本发明的另一个实施例提供一种采用上述方法的基于序列化证据抽取的推理阅读理解系统,其包括:
模型训练模块,用于训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C0和问题编码Q0;推理交互层采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,得到交互后的上下文序列C1和问题序列Q1;证据预测层根据C1和Q1预测证据句子;答案预测层根据证据句子的预测结果以及C1、Q1,预测答案的类型和答案片段的开始和结束位置;
模型应用模块,用于利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。
Claims (8)
1.一种基于序列化证据抽取的推理阅读理解方法,其特征在于,包括以下步骤:
训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C0和问题编码Q0;推理交互层采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,得到交互后的上下文序列C1和问题序列Q1;证据预测层根据C1和Q1预测证据句子;答案预测层根据证据句子的预测结果以及C1、Q1,预测答案的类型和答案片段的开始和结束位置;
利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合;
所述的采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,包括:
首先,计算上下文序列C0和问题序列Q0中每个词表示之间的相似度:其中Skj表示上下文序列的第k个词和问题序列的第j个词的相似度,α=W[C0;Q0;C0⊙Q0],其中W是参数,⊙是按位点乘,[;]表示向量连接;
其次,计算上下文到问题的注意力权值:αk=softmax(Sk:),即对相似矩阵Skj的行向量Sk:进行归一化,得到权值αk;对上下文序列C0做加权和,得到:C1=∑kαkC0
同理,计算问题到上下文的注意力权值:βj=softmax(maxcol(Skj)),其中col表示按列取最大值;再对问题序列Q0做加权和,得到:Q1=∑jβjQ0;
所述的根据C1和Q1预测证据句子,包括:
1)C1和Q1通过双向LSTM编码,对于C1,把LSTM双向隐含层表示进行拼接得到文档上下文的一种表示X;对于问题表示Q1,将双向LSTM的输出作为问题的一种表示Y;
2)对于X,将其通过一层全连接神经网络与最大池化层,得到推理状态的初始化表示X0;
在X中加入一个可训练参数xEOE,选中该xEOE表示证据句子抽取结束;
3)证据抽取模型根据当前学习到的问题表示推理状态z以及上下文中每个句子的表示/>计算上下文中每个句子被抽取的概率分布;根据概率分布,训练阶段从未被抽取过的真实的证据预测句子集合中选取概率最大的句子作为本轮应当选取的证据句子;当抽取到xEOE这个句子时,抽取过程结束,停止抽取句子并输出预测结果;测试阶段在每个时间推理步中,从当前未被抽取句子集合中选择一个句子,作为抽取结果;设抽取出的证据集合为Et={e1,…,et},et表示证据集合中的第t个证据;
4)证据抽取模型更新推理GRU的状态zt,计算方法为:
zt=tanh(W1xt+W2zt-1)
其中,zt是t时刻的推理状态,zt-1是t-1时刻的推理状态,W1和W2是参数,xt是t时刻的输入;
5)证据抽取模型根据更新的推理状态zt和注意力机制计算得到当前推理步中加权问题的向量表示
T是最大时刻
α=softmaxσ(zt,Q1)
其中,σ=W[zt;Q1;zt⊙Q1],W是参数,Zt表示推理状态,使用最后时刻推理的结果;
6)选择证据语句的计算概率的过程为:
其中W是参数,/>和/>是t时刻的/>和/>
2.根据权利要求1所述的方法,其特征在于,步骤3)在证据抽取过程的每个推理步中都选取前m个合法的最大概率的未结束状态的句子集合,同时从中挑出已经结束抽取过程的结束状态的句子集合,其中合法指的是句子集合中无重复抽取的选择;然后计算m个计算结果的所有扩展结果,依然从中选取出已经结束状态的句子集合,以及前m个合法的最大概率的未结束状态的句子集合,从而不断得到结束状态的句子集合,最终结束状态句子集合达到m个或者搜索深度大于句子个数,则结束搜索过程,从结束状态句子集合中选择概率最大的句子集合作为证据抽取的结果。
3.根据权利要求1所述的方法,其特征在于,所述的根据证据句子的预测结果以及C1、Q1,预测答案的类型和答案片段的开始和结束位置,包括:
将证据句子的预测结果与原始输入词表示进行拼接,得到上下文序列C′;
利用上下文序列C′,采用堆叠方式的双向LSTM建模,分别输出答案片段开始位置在整个上下文中的概率分布,答案片段结束位置在整个上下文中的概率分布和答案的类型。
4.根据权利要求1所述的方法,其特征在于,所述的基于序列化证据抽取的阅读理解模型,其损失函数包括交叉熵计算的答案分布损失函数La和证据预测的损失函数Le。
5.根据权利要求4所述的方法,其特征在于,所述答案分布损失函数La包括答案的开始结束位置、答案类型,都使用概率分布的交叉熵计算;所述证据预测的损失函数Le中,第一部分根据证据et以及每个时间推理步中计算输出的上下文句子的概率分布i,对二者计算负对数似然,得到抽取句子集合的损失函数;第二部分是基于问题注意力的正则项证据预测的损失函数Le的计算公式为:
it=softmax(zt)
其中,E表示证据集合,|E|表示所有证据,E\Et-1表示不在证据集合的句子,Pr表示概率值,t表示t时刻。
6.一种采用权利要求1~5中任一权利要求所述方法的基于序列化证据抽取的推理阅读理解系统,其特征在于,包括:
模型训练模块,用于训练基于序列化证据抽取的阅读理解模型,该模型包括编码层、推理交互层、证据预测层、答案预测层;其中:编码层使用BERT模型对输入的上下文序列C和问题Q进行编码,得到上下文编码C0和问题编码Q0;推理交互层采用双向注意力机制对上下文编码C0和问题编码Q0进行交互建模,得到交互后的上下文序列C1和问题序列Q1;证据预测层根据C1和Q1预测证据句子;答案预测层根据证据句子的预测结果以及C1、Q1,预测答案的类型和答案片段的开始和结束位置;
模型应用模块,用于利用训练完成的所述基于序列化证据抽取的阅读理解模型,输入上下文文本和问题文本,输出答案的类型、答案文本以及相关证据句子的集合。
7.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~5中任一权利要求所述方法的指令。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~5中任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011051087.7A CN112347756B (zh) | 2020-09-29 | 2020-09-29 | 一种基于序列化证据抽取的推理阅读理解方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011051087.7A CN112347756B (zh) | 2020-09-29 | 2020-09-29 | 一种基于序列化证据抽取的推理阅读理解方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112347756A CN112347756A (zh) | 2021-02-09 |
CN112347756B true CN112347756B (zh) | 2023-12-22 |
Family
ID=74361260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011051087.7A Active CN112347756B (zh) | 2020-09-29 | 2020-09-29 | 一种基于序列化证据抽取的推理阅读理解方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347756B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113254575B (zh) * | 2021-04-23 | 2022-07-22 | 中国科学院信息工程研究所 | 一种基于多步证据推理的机器阅读理解方法与系统 |
CN114490959B (zh) * | 2021-07-18 | 2024-07-16 | 北京理工大学 | 一种以关键词为驱动的动态图神经网络多跳阅读理解方法 |
CN113837384A (zh) * | 2021-08-19 | 2021-12-24 | 东南大学 | 一种基于深度交互推理模型的事实检测方法 |
CN113742451B (zh) * | 2021-09-06 | 2023-12-22 | 深圳市广联智通科技有限公司 | 基于多类型问题和多片段答案抽取的机器阅读理解系统 |
CN114780707B (zh) * | 2022-06-21 | 2022-11-22 | 浙江浙里信征信有限公司 | 基于多跳推理联合优化的多跳问题回答方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN111027327A (zh) * | 2019-10-29 | 2020-04-17 | 平安科技(深圳)有限公司 | 机器阅读理解方法、设备、存储介质及装置 |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN111552773A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种阅读理解任务中是否类问题关键句寻找方法及系统 |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
-
2020
- 2020-09-29 CN CN202011051087.7A patent/CN112347756B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110134771A (zh) * | 2019-04-09 | 2019-08-16 | 广东工业大学 | 一种基于多注意力机制融合网络问答系统的实现方法 |
CN111027327A (zh) * | 2019-10-29 | 2020-04-17 | 平安科技(深圳)有限公司 | 机器阅读理解方法、设备、存储介质及装置 |
CN111611361A (zh) * | 2020-04-01 | 2020-09-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
CN111552773A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种阅读理解任务中是否类问题关键句寻找方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于标签增强的机器阅读理解模型;苏立新;郭嘉丰;范意兴;兰艳艳;程学旗;;模式识别与人工智能(02);第53-60页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112347756A (zh) | 2021-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112347756B (zh) | 一种基于序列化证据抽取的推理阅读理解方法及系统 | |
CN111291183B (zh) | 利用文本分类模型进行分类预测的方法及装置 | |
CN110472242B (zh) | 一种文本处理方法、装置和计算机可读存储介质 | |
CN110364251B (zh) | 一种基于机器阅读理解的智能交互导诊咨询系统 | |
CN111460176B (zh) | 一种基于哈希学习的多文档机器阅读理解方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN114860893B (zh) | 基于多模态数据融合与强化学习的智能决策方法及装置 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
CN109597876A (zh) | 一种基于强化学习的多轮对话答复选择模型及其方法 | |
CN111078847A (zh) | 电力用户意图识别方法、装置、计算机设备和存储介质 | |
CN112380835B (zh) | 融合实体和句子推理信息的问题答案提取方法及电子装置 | |
CN117390151B (zh) | 结构健康诊断视觉-语言基础模型和多模态交互系统的建立方法 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN117829298B (zh) | 一种多跳时序知识图谱问答方法及系统 | |
CN110399472B (zh) | 面试提问提示方法、装置、计算机设备及存储介质 | |
CN117033602A (zh) | 一种多模态的用户心智感知问答模型的构建方法 | |
CN113919811B (zh) | 基于强化关联的热线事件分拨方法 | |
CN113807079A (zh) | 一种基于序列到序列的端到端实体和关系联合抽取方法 | |
CN114266905A (zh) | 基于Transformer结构的图像描述生成模型方法、装置和计算机设备 | |
CN116681078A (zh) | 一种基于强化学习的关键词生成方法 | |
CN111813907A (zh) | 一种自然语言问答技术中的问句意图识别方法 | |
CN116910190A (zh) | 多任务感知模型获取方法、装置、设备及可读存储介质 | |
CN115964475A (zh) | 一种用于医疗问诊的对话摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |