CN112417104B - 一种句法关系增强的机器阅读理解多跳推理模型及方法 - Google Patents
一种句法关系增强的机器阅读理解多跳推理模型及方法 Download PDFInfo
- Publication number
- CN112417104B CN112417104B CN202011410644.XA CN202011410644A CN112417104B CN 112417104 B CN112417104 B CN 112417104B CN 202011410644 A CN202011410644 A CN 202011410644A CN 112417104 B CN112417104 B CN 112417104B
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- article
- module
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及深度学习、自然语言处理等领域,具体涉及一种句法关系增强的机器阅读理解多跳推理模型及方法,模型包括文本编码模块,关联要素关系图构造模块,多跳推理模块,答案生成模块和答案预测模块。本发明将句法关系融入到图构建过程中,构建了关联要素关系图,并基于该关系图利用图注意力网络进行多跳推理,挖掘答案支撑句;同时引入多头自注意力机制进一步挖掘文章中观点型问题的文字线索,改进了观点型问题的自动解答方法;最后,本发明将多个任务进行联合优化学习,使得模型在回答问题的同时,可以给出支撑答案的事实描述,提高模型的可解释性,同时改进了现有观点型问题的解答方法。
Description
技术领域
本发明涉及深度学习、自然语言处理等领域,具体涉及一种句法关系增强的机器阅读理解多跳推理模型及方法。
背景技术
机器阅读理解(Machine Reading Comprehension,MRC)是通过计算机理解文章语义并回答相关问题的一项重要研究任务,机器阅读理解的研究对提升机器的自然语言理解能力具有重要促进作用,已受到学术界和工业界的广泛关注。早期机器阅读理解研究主要采用基于人工规则库的方法,规则库的建立和维护通常需要耗费大量人力,且难以回答规则以外的问题。近年来,随着机器学习,特别是深度学习的快速发展,机器阅读理解的自动答题效果有了明显提升,在一些特定任务中机器阅读理解模型的回答甚至可以媲美人类水平。
随着BERT等预训练模型的出现,片段抽取式MRC任务的实验结果得到了较大提升,很多模型在SQuAD等数据集上已经超越了人类水平。为了进一步检验模型的推理能力,现有很多MRC数据集加入了观点型问题,包括“是/否类”和“不可回答类”问题。观点型问题的答案往往不在文章中直接出现,一般需要通过多个句子推理得出,因此,对于此类问题,模型需要识别文章中的观点类文字线索,综合理解阅读材料后给出观点,并且若根据材料语义无法作答,模型应该将该问题判定为不可回答。
人类在回答阅读理解问题时,不仅可以给出问题答案,而且也可以给出支撑答案的依据,然而现有大多数MRC模型仅可以给出问题的答案,无法给出支撑该答案的答案依据,得到的答案通常缺乏可解释性。为提高MRC模型的可解释性,多跳推理近几年已成为MRC任务中的研究热点,它要求模型在多个文档中寻找线索并推理出答案和答案依据,相关研究人员针对该任务开展了大量深入研究。CogQA建立了一种认知图谱问答模型,它设计了两个系统来维护一张认知图谱,系统一遍历文档,抽取与问题相关的实体来扩展认知图谱,系统二利用图注意力网络在构建的认知图谱上进行推理,并回答问题;SAE设计了一个筛选模块来过滤文档中与问题无关的句子,并将片段抽取与多跳推理两个任务进行联合优化,在多跳推理任务中利用文档句子之间的关系构造关系图,并利用图神经网路在关系图上进行推理。
MRC任务的文章中往往蕴含着丰富的依存句法关系,这些句法关系可以很好的指导模型进行多跳推理,挖掘答案依据,然而大多数多跳推理模型没有考虑这些句法关系,得到的答案依据还不是太准确;同时现有观点型问题的答题方法在答案线索识别上表现还不是太好。
发明内容
针对上述问题本发明提供了一种句法关系增强的机器阅读理解多跳推理方法,本发明将句法关系融入到图构建过程中,构建了关联要素关系图,并基于该关系图利用图注意力网络进行多跳推理,挖掘答案支撑句;同时引入多头自注意力机制进一步挖掘文章中观点型问题的文字线索,改进了观点型问题的自动解答方法;最后,本发明将多个任务进行联合优化学习,在观点型问题解答、片段抽取型问题解答和多跳推理任务中取得了更好的效果。使得模型在回答问题的同时,可以同时给出支撑答案的事实描述,提高模型的可解释性,同时改进了现有观点型问题的解答方法。
为了达到上述目的,本发明采用了下列技术方案:
本发明提供一种句法关系增强的机器阅读理解多跳推理模型,包括文本编码模块、关联要素关系图构建模块、问题解答模块和答案预测模块,其中问题解答模块包括答案生成模块和多跳推理模块。
进一步,所述文本编码模块是对问题和文章进行编码,得到问题和文章的语义化向量化表示;
所述关联要素关系图构建模块是用于识别文章各句子中的关键要素及要素之间的依存句法关系,定义要素关联规则,依据要素关联规则构建关联要素关系图;
所述问题解答模块的答案生成模块用于解决观点型问题和片段抽取型问题;所述问题解答模块的多跳推理模块是基于关联要素关系图和图注意力网络进行多跳推理,获得文章各句子关于问题的相关度评分;
所述答案预测模块将观点型问题、片段抽取型问题和多跳推理任务进行联合优化学习,三个子任务共享编码层,并根据上述模块预测答案及答案依据。
本发明还提供一种句法关系增强的机器阅读理解多跳推理方法包括以下步骤:
步骤1:通过文本编码模块对问题和文章进行编码,得到问题和文章的语义化向量化表示;具体操作为,使用预训练的RoBERTa模型作为编码器,将所述问题和文章的每个字或词映射到一个高维的向量空间,获得每个字或者词的向量化表示表示,计算公式如下所示:
input=[CLS]+Q+[SEP]+P+[SEP]
u=RoBERTa(input)
其中,input表示模型的输入,Q代表问题,P代表文章,[CLS]是模型额外增加的开始标志,说明这是句首位置,[SEP]是分隔符,将问题和文章分开,u代表问题和文章的向量表示。
步骤2:利用关联要素关系图构建模块识别文章各句子中的关键要素及要素之间的依存句法关系,定义要素关联规则,依据要素关联规则构建关联要素关系图;具体为,使用词法分析和句法分析工具从文章中识别时间、地点、人名、组织,名词、专有名词、数量词这类关键要素;根据句号、问号、感叹号以及其它标点符号进行分割,得到语句片段r,通过句法分析工具得到r中不同要素间的依存关系;
进一步,所述要素关联规则包括①文章中同一句子中的所有要素进行连边;②不同句子中的相同要素进行连边;③通过BERT模型获得要素的词向量,然后利用余弦相似度计算不同句子两个要素间的相似度,若相似度大于0.90,连接两个要素,否则不进行连接;④若语句片段r中不同句子间的两个要素存在依存句法关系,则连接两个要素。
步骤3:利用问题解答模块下的答案生成模块解答观点型问题和片段抽取型问题;
所述观点型问题的答案为yes、no、unknown中的一种,通过多头自注意力(Multi-Head Self-Attention,MHSA)机制进一步挖掘了文章中的观点类文字线索,然后通过动态卷积神经网络(Dynamic Convolutional Neural Network,DCNN)对观点型问题进行分类求解,得到观点型问题的答案概率,具体计算见如下公式:
c=MHSA(u)
p=DCNN(c)
{pyes,pno,punk}=p
其中,c表示引入多头自注意力机制后问题与文章的向量表示,pyes表示答案为yes的概率,pno表示答案为no的概率,punk表示答案为unknown的概率。
所述片段抽取型问题的答案为文章中的某一连续片段,需要根据问题在文章中标注出正确答案的开始位置和结束位置,通过文本编码模块得到了文章n个字符的向量表示v=[v1,v2,...,vn],然后通过全连接网络得到文章中n个字符为所述问题对应答案的开始位置和结束位置的概率pstart、pend,具体计算过程见如下公式:
pstart=Dense(v)
pend=Dense(v)
步骤4:基于关联要素关系图和图注意力网络进行多跳推理,获得所述文章各句子关于所述问题的相关度评分;具体步骤如下:
(1)通过要素位置矩阵M,获取要素位置;
(2)获取要素词向量,初始化关联要素关系图;具体为,结合M与u,通过函数g得到要素中各个字符的字向量,然后通过Mean Pooling的方法得到要素的词向量,然后初始化关联要素关系图中的节点特征表示,具体计算过程见如下公式:
x=g(M,u)
h=Mean Pooling(x)
其中,x表示要素中各个字符的字向量,h表示要素词向量。
(3)计算关联要素关系图中每个节点关于问题的重要性,更新节点表示;具体为,在文本编码模块得到了所述问题的向量表示q=[q1,q2,...,qy],y表示问题长度,通过MeanPooling得到问题句向量然后计算关系图中每个节点关于问题的重要性评分mask=[m1,m2,...mN],然后通过mask去更新关系图的节点表示,得到节点关于问题的特征表示h′,具体计算过程见如下公式:
h′=[m1h1,m2h2,...,mNhN]
其中V表示一个线性变换矩阵,d表示特征向量及问题句向量维度,
(4)基于关联要素关系图和图注意力网络进行多跳推理;具体为,从问题中的某个要素开始推理,然后关注该要素附近的要素,即在关联要素关系图上与该要素有连边的节点,通过图注意力网络计算它们之间的注意力分数,更新节点的向量表示;一次推理完成后,使用Bi-Attention去更新问题的向量表示,然后重复步骤(3),计算关联要素关系图每个节点关于当前问题向量的相关度评分mask′,根据mask′去更新关系图的节点表示;不断重复上述步骤形成一条推理链,更新关联要素关系图各节点的特征表示;
图注意力网络具体计算过程如下所示:
首先,假设对于任意节点i,其相邻节点为Ni,则节点i的注意力权重由下式得出:
eij=a(Wh′i,Wh′j),j∈Ni
其中W为一个线性变化的权重矩阵,a(·)是计算两个节点相关度的函数,eij表示两个节点的相关度,LeakyReLU为一个激活函数,aij表示节点i相对于其相邻节点的注意力权重系数,
进一步,根据注意力权重系数,计算节点i的特征表示:
再进一步,通过Multi-Head加强节点i的特征表示:
(5)获取文章中每个句子关于问题的相关度评分;具体为,结合要素位置矩阵M和要素特征表示通过函数f得到了文章各字符新的向量表示然后通过函数l得到文章中各句子的句向量t=[t1,t2,...,tm],m表示文章中的句子数,最后通过全连接网络得到每个句子关于所述问题的相关度评分s=[s1,s2,...,sm],具体计算过程见如下公式:
s=Dense(t)
步骤5:将观点型问题、片段抽取型问题和多跳推理任务进行联合优化学习,三个子任务共享编码层,并根据上述模块预测答案及答案依据;
所述片段抽取型问题的答案预测为:片段抽取型问题的答案是文章中的一个连续片段,答案位置需要满足1≤b≤fandf≤n,其中b表示答案的开始位置,f表示答案的结束位置,n代表文章长度。在答案生成模块得到了文章每个字符作为答案开始位置和结束位置的概率pstart、pend,将开始和结束位置的概率之和的1/2作为答案概率,并且选择答案概率最大的作为片段抽取型问题的最终答案概率pspan;
所述观点型问题的答案预测为:在问题解答模块得到了观点型问题的答案概率pyes、pno、punk;
通过函数f_max从上述多个答案中选择答案概率最大的作为所述问题的最终答案,具体计算如下所示:
answer=f_max([psapn,pyes、pno、punk]);
所述答案依据的预测为:在多跳推理模块,本发明得到了文章中m个句子关于问题的相关度评分s,使用s来表示每个句子对于文章问题的支持率psup,然后通过函数f_sup选择psup>0.5的句子作为支撑问题答案的答案依据,具体计算如下所示:
sup_fact=f_sup(s>0.5)。
与现有技术相比本发明具有以下优点:
(1)本发明将句法关系融入到图构建过程中,提出了基于关联要素关系图的多跳推理方法,实现了答案支撑句挖掘,提高了机器阅读理解模型的可解释性;
(2)本发明通过引入MHSA和DCNN,改进了观点类问题的解答方法;
(3)本发明将多个任务进行联合优化学习,相比单任务学习,多任务学习取得了更好的效果,片段抽取及观点型问题、答案依据挖掘的答题准确率相比单任务均有所提升。
附图说明
图1为本发明的模型框架图;
图2为本发明使用的数据样例;
图3为本发明的关联要素关系图样例;
图4为本发明的答案生成模块结构图;
图5为本发明的多跳推理模块结构图。
具体实施方式
下面结合实施例和附图对本发明做进一步详细描述,所举实施例只用于解释本发明,并非用于限定本发明的保护范围。
实施例1
图1为本发明的模型框架图,主要包括文本编码模块、关联要素关系图构建模块、问题解答模块、答案预测模块,其中问题解答模块包括答案生成模块和多跳推理模块,各模块具体内容如下:
文本编码模块,对所述问题和文章进行编码,得到问题和文章的语义化表示;
关联要素关系图构建模块,识别所述文章各句子中的关键要素及它们之间的依存句法关系,定义要素关联规则,利用关联规则构建关联要素关系图;
多跳推理模块,基于关联要素关系图和图注意力网络进行多跳推理,获得所述文章各句子关于所述问题的相关度评分;
答案生成模块,利用多头自注意力(Multi-Head Self-Attention,MHSA)和动态卷积神经网络(Dynamic Convolutional Neural Network,DCNN)改善观点型问题的解答方法;同时,对于片段抽取问题,获得所述文章中每个字符为所述问题对应答案的开始位置和结束位置的概率。
答案预测模块,将多个任务联合优化学习,并根据上述模块,预测答案及答案依据。
实施例2
图2为2020中国“法研杯”司法人工智能挑战赛(CAIL2020)阅读理解数据集中的一个示例。如图2所述,文章为中国裁判文书上的真实案例,问题为“签订合同中是否约定期限?”,答案为“yes”,答案依据为文章中的句子编号“4、6”。
1、首先利用文本编码模块对所述问题和文章进行编码,得到问题和文章的语义化向量化表示。本发明使用RoBERTa模型作为编码器,将文章和文章的每个字或词映射到一个高维的向量空间,获得每个字或者词的语义化表示。计算公式如下所示:
input=[CLS]+Q+[SEP]+P+[SEP]
u=RoBERTa(input)
其中input表示模型的输入,Q代表问题,P代表文章,[CLS]是模型额外增加的开始标志,说明这是句首位置,[SEP]是分隔符,将问题和文章分开,u代表问题和文字的向量表示。
2、利用关联要素关系图构建模块识别文章中的关键要素及要素间的依存句法关系,并根据关联规则构建关联要素关系图。
(1)通过词法分析工具从文章中识别时间、地点、人名、组织、名词、专有名词、数量词等要素;
(2)根据标点符号句号、问号、感叹号等进行分割,得到语句片段r,通过句法分析工具得到r中不同要素间的依存关系。
(3)关联规则为:①同一句子中的所有要素进行连边;②不同句子中的相同要素进行连边;③通过BERT模型获得要素的词向量,然后利用余弦相似度计算不同句子两个要素间的相似度,若相似度大于0.90,则认为两个要素之间存在联系,连接两个要素,否则不进行连接;④若语句片段r中不同句子间的两个要素存在依存句法关系,则连接两个要素。
图3为关联要素关系图的一个样例,该图根据上述关联规则进行构建。
3、问题解答模块包括答案生成模块和多跳推理模块,具体内容如下:
(1)利用答案生成模块解决观点型问题和片段抽取型问题,图4为答案生成模块结构图。
观点型问题的答案为yes、no、unknown中的一种,该模块通过MHSA机制进一步挖掘了文章中的观点类文字线索,然后通过DCNN对观点型问题进行分类求解,得到观点型问题的答案概率。具体计算见如下公式:
c=MHSA(u)
p=DCNN(c)
{pyes,pno,punk}=p
其中,c表示引入多头自注意力机制后问题与文章的向量表示,pyes表示答案为yes的概率,pno表示答案为no的概率,punk表示答案为unknown的概率。
片段抽取型问题的答案为文章中的某一连续片段,需要根据问题在文章中标注出正确答案的开始位置和结束位置。本发明通过文本编码模块得到了文章n个字符的向量表示v=[v1,v2,...,vn],然后通过全连接网络(Dense)得到文章中n个字符为所述问题对应答案的开始位置和结束位置的概率,具体计算过程见如下公式:
pstart=Dense(v)
pend=Dense(v)
(2)多跳推理模块
多跳推理模块基于关联要素关系图和图注意力网络进行多跳推理,图5为多跳推理模块结构图。多跳推理具体步骤如下:
步骤一,基于上述构建的关联要素关系图获取要素位置。本发明设计了一个要素位置矩阵M,记录了每个要素在文章中的位置,如下所示:
步骤二,获取要素词向量,初始化关联要素关系图。结合M与u,通过函数g得到要素中各个字符的字向量x,然后通过Mean Pooling的方法得到要素的词向量h,然后初始化关联要素关系图中的节点特征表示,具体计算过程见如下公式:
x=g(M,u)
h=Mean Pooling(x)
步骤三,计算关联要素关系图中每个节点关于问题的重要性,更新节点表示。本发明在文本编码模块得到了所述问题的向量表示q=[q1,q2,...,qy],y表示问题长度。进一步,本发明通过Mean Pooling得到问题句向量然后计算关系图中每个节点关于问题的重要性评分mask=[m1,m2,...mN],然后通过mask去更新关系图的节点表示,得到节点关于问题的特征表示h′。具体计算过程见如下公式:
h′=[m1h1,m2h2,...,mNhN]
其中V表示一个线性变换矩阵,d表示特征向量及问题句向量维度,
步骤四,基于关联要素关系图和图注意力网络进行多跳推理。本发明从问题中的某个要素开始推理,然后关注该要素附近的要素,即在关联要素关系图上与该要素有连边的节点,通过图注意力网络计算它们之间的注意力分数,更新节点的向量表示。图注意力网络具体计算过程如下所示:
首先,假设对于任意节点i,其相邻节点为Ni。则节点i的注意力权重由下式得出:
eij=a(Wh′i,Wh′j),j∈Ni
其中W为一个线性变化的权重矩阵,a(·)是计算两个节点相关度的函数,eij表示两个节点的相关度,LeakyReLU为一个激活函数,aij表示节点i相对于其相邻节点的注意力权重系数。
进一步,根据注意力权重系数,计算节点i的特征表示:
再进一步,通过Multi-Head加强节点i的特征表示:
一次推理完成后,本发明使用Bi-Attention去更新问题的向量表示,然后同理步骤三,计算关联要素关系图每个节点关于当前问题向量的相关度评分mask′,根据mask′去更新关系图的节点表示。
最后,不断重复这个步骤形成一条推理链,更新关联要素关系图各节点的特征表示。
步骤五,获取文章中每个句子关于问题的相关度评分。步骤四通过多跳推理,得到了关联要素关系图各节点新的特征表示结合要素位置矩阵M和要素特征表示本发明通过函数f得到了文章各字符新的向量表示然后通过函数l得到文章中各句子的句向量t=[t1,t2,...,tm],m表示文章中的句子数,最后通过全连接网络得到每个句子关于所述问题的相关度评分s=[s1,s2,...,sm]。具体计算过程见如下公式:
s=Dense(t)
4、通过答案预测模块将观点型问题、片段抽取型问题和多跳推理任务进行联合优化学习,三个子任务共享编码层,并基于上述模块实现了对片段抽取型、观点型问题以及多跳推理任务的解答,具体内容如下。
在本发明中,所述问题的类型有两种,即片段抽取型问题和观点型问题,所述片段抽取型问题,它的答案是文章中的一个连续片段,答案位置需要满足1≤b≤f andf≤n,其中b表示答案的开始位置,f表示答案的结束位置,n表示文章的长度。本发明在答案生成模块得到了文章每个字符作为答案开始位置和结束位置的概率pstart、pend,将开始和结束位置的概率之和的1/2作为答案概率,并且选择答案概率最大的作为片段抽取型问题的最终的答案概率pspan;所述观点型问题解答,本发明在问题解答模块得到了观点型问题的答案概率pyes、pno、punk。最后,本发明通过函数f_max从多个答案中选择答案概率最大的作为所述问题的最终答案。具体计算如下所示:
answer=f_max([psapn,pyes、pno、punk])
所述多跳推理任务,在文章中找出支撑答案的依据,即所有支撑答案的句子编号。在多跳推理模块,本发明得到了文章中m个句子关于问题的相关度评分s,使用s来表示每个句子对于文章问题的支持率psup,然后通过函数f_sup选择psup>0.5的句子作为支撑问题答案的答案依据。具体计算如下所示:
sup_fact=f_sup(s>0.5)
以上实施例仅用于说明本发明的技术方案而并非对其进行限制,凡未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明技术方案的范围内。
Claims (8)
1.一种句法关系增强的机器阅读理解多跳推理装置,其特征在于:包括文本编码模块、关联要素关系图构建模块、问题解答模块和答案预测模块,其中问题解答模块包括答案生成模块和多跳推理模块;
所述文本编码模块是对问题和文章进行编码,得到问题和文章的语义化向量化表示;所述关联要素关系图构建模块是用于识别文章各句子中的关键要素及要素之间的依存句法关系,定义要素关联规则,依据要素关联规则构建关联要素关系图;所述问题解答模块的答案生成模块用于解决观点型问题和片段抽取型问题;所述问题解答模块的多跳推理模块是基于关联要素关系图和图注意力网络进行多跳推理,获得文章各句子关于问题的相关度评分;所述答案预测模块将观点型问题、片段抽取型问题和多跳推理任务进行联合优化学习,三个子任务共享编码层,并根据上述模块预测答案及答案依据;
所述片段抽取型问题的答案为文章中的某一连续片段,需要根据问题在文章中标注出正确答案的开始位置和结束位置,通过文本编码模块得到了文章个字符的向量表示,然后通过全连接网络Dense得到文章中个字符为所述问题对应答案的开始位置和结束位置的概率、,具体计算过程见如下公式:
2.一种句法关系增强的机器阅读理解多跳推理方法,其特征在于,包括以下步骤:
步骤1:通过文本编码模块对问题和文章进行编码,得到问题和文章的语义化向量化表示;
步骤2:利用关联要素关系图构建模块识别文章各句子中的关键要素及要素之间的依存句法关系,定义要素关联规则,依据要素关联规则构建关联要素关系图;
步骤3:利用问题解答模块下的答案生成模块解答观点型问题和片段抽取型问题;
所述片段抽取型问题的答案为文章中的某一连续片段,需要根据问题在文章中标注出正确答案的开始位置和结束位置,通过文本编码模块得到了文章个字符的向量表示,然后通过全连接网络Dense得到文章中个字符为所述问题对应答案的开始位置和结束位置的概率、,具体计算过程见如下公式:
步骤4:基于关联要素关系图和图注意力网络进行多跳推理,获得所述文章各句子关于所述问题的相关度评分;
步骤5:将观点型问题、片段抽取型问题和多跳推理任务进行联合优化学习,三个子任务共享编码层,并根据上述模块预测答案及答案依据。
4.根据权利要求2所述的一种句法关系增强的机器阅读理解多跳推理方法,其特征在于:所述步骤2具体为,使用词法分析和句法分析工具从文章中识别时间、地点、人名、组织,名词、专有名词、数量词这类关键要素;根据句号、问号、感叹号以及其它标点符号进行分割,得到语句片段r,通过句法分析工具得到r中不同要素间的依存关系。
5.根据权利要求2所述的一种句法关系增强的机器阅读理解多跳推理方法,其特征在于:步骤2所述要素关联规则包括①文章中同一句子中的所有要素进行连边;②不同句子中的相同要素进行连边;③通过BERT模型获得要素的词向量,然后利用余弦相似度计算不同句子两个要素间的相似度,若相似度大于0.90,连接两个要素,否则不进行连接;④若语句片段r中不同句子间的两个要素存在依存句法关系,则连接两个要素。
6.根据权利要求2所述的一种句法关系增强的机器阅读理解多跳推理方法,其特征在于:步骤4中获得所述文章各句子关于所述问题的相关度评分的具体步骤如下:
步骤2:获取要素词向量,初始化关联要素关系图,
步骤3:计算关联要素关系图中每个节点关于问题的重要性,更新节点表示,
具体为,在文本编码模块得到了所述问题的向量表示,y表示问题长度,通过得到问题句向量,然后计算关系图中每个节点关于问题的重要性评分,然后通过去更新关系图的节点表示,得到节点关于问题的特征表示,具体计算过程见如下公式:
步骤4:基于关联要素关系图和图注意力网络进行多跳推理,
具体为,从问题中的某个要素开始推理,然后关注该要素附近的要素,即在关联要素关系图上与该要素有连边的节点,通过图注意力网络计算它们之间的注意力分数,更新节点的向量表示;一次推理完成后,使用去更新问题的向量表示,然后重复步骤3,计算关联要素关系图每个节点关于当前问题向量的相关度评分,根据去更新关系图的节点表示;不断重复上述步骤形成一条推理链,更新关联要素关系图各节点的特征表示;
步骤5:获取文章中每个句子关于问题的相关度评分,
具体为,结合要素位置矩阵和要素特征表示,通过函数得到了文章各字符新的向量表示,然后通过函数得到文章中各句子的句向量,表示文章中的句子数,最后通过全连接网络得到每个句子关于所述问题的相关度评分,具体计算过程见如下公式:
8.根据权利要求2所述的一种句法关系增强的机器阅读理解多跳推理方法,其特征在于,所述步骤5中片段抽取型问题的答案预测为:片段抽取型问题的答案是文章中的一个连续片段,答案位置需要满足,其中表示答案的开始位置,表示答案的结束位置,代表文章长度,在答案生成模块得到了文章每个字符作为答案开始位置和结束位置的概率、,将开始和结束位置的概率之和的1/2作为答案概率,并且选择答案概率最大的作为片段抽取型问题的最终答案概率;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011410644.XA CN112417104B (zh) | 2020-12-04 | 2020-12-04 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011410644.XA CN112417104B (zh) | 2020-12-04 | 2020-12-04 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417104A CN112417104A (zh) | 2021-02-26 |
CN112417104B true CN112417104B (zh) | 2022-11-11 |
Family
ID=74829270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011410644.XA Active CN112417104B (zh) | 2020-12-04 | 2020-12-04 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417104B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883182A (zh) * | 2021-03-05 | 2021-06-01 | 海信电子科技(武汉)有限公司 | 一种基于机器阅读的问答匹配方法及装置 |
CN113157880B (zh) * | 2021-03-25 | 2023-01-17 | 科大讯飞股份有限公司 | 一种要素内容获取方法、装置、设备及存储介质 |
CN112989024B (zh) * | 2021-03-29 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 文本内容的关系提取方法、装置、设备及存储介质 |
CN112732888A (zh) * | 2021-04-01 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种基于图推理模型的答案预测方法及装置 |
CN113254575B (zh) * | 2021-04-23 | 2022-07-22 | 中国科学院信息工程研究所 | 一种基于多步证据推理的机器阅读理解方法与系统 |
CN113268561B (zh) * | 2021-04-25 | 2021-12-14 | 中国科学技术大学 | 一种基于多任务联合训练的问题生成方法 |
CN113011196B (zh) * | 2021-04-28 | 2023-01-10 | 陕西文都教育科技有限公司 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113220854B (zh) * | 2021-05-24 | 2023-11-07 | 中国平安人寿保险股份有限公司 | 机器阅读理解的智能对话方法及装置 |
CN113420111B (zh) * | 2021-06-17 | 2023-08-11 | 中国科学院声学研究所 | 一种用于多跳推理问题的智能问答方法及装置 |
CN113590776B (zh) * | 2021-06-23 | 2023-12-12 | 北京百度网讯科技有限公司 | 基于知识图谱的文本处理方法、装置、电子设备及介质 |
CN113590745B (zh) * | 2021-06-30 | 2023-10-10 | 中山大学 | 一种可解释的文本推断方法 |
CN114490959A (zh) * | 2021-07-18 | 2022-05-13 | 北京理工大学 | 一种以关键词为驱动的动态图神经网络多跳阅读理解方法 |
CN113535904B (zh) * | 2021-07-23 | 2022-08-09 | 重庆邮电大学 | 一种基于图神经网络的方面级情感分析方法 |
CN113642319B (zh) * | 2021-07-29 | 2022-11-29 | 北京百度网讯科技有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN114648005A (zh) * | 2022-03-14 | 2022-06-21 | 山西大学 | 一种多任务联合学习的多片段机器阅读理解方法及装置 |
CN114706983B (zh) * | 2022-03-31 | 2024-04-19 | 浙江科技学院 | 一种基于图注意力机制的深度学习问答推理方法及装置 |
WO2023225858A1 (zh) * | 2022-05-24 | 2023-11-30 | 中山大学 | 一种基于常识推理的阅读型考题生成系统及方法 |
CN115910327B (zh) * | 2022-12-22 | 2023-09-29 | 北京壹永科技有限公司 | 小样本癌症事件分析方法、装置、设备以及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360346A (zh) * | 2011-10-31 | 2012-02-22 | 武汉大学 | 基于受限的语义依存分析的文本推理方法 |
CN103729395A (zh) * | 2012-10-12 | 2014-04-16 | 国际商业机器公司 | 用于推断查询答案的方法和系统 |
CN104054075A (zh) * | 2011-12-06 | 2014-09-17 | 派赛普申合伙公司 | 文本挖掘、分析和输出系统 |
CN104573028A (zh) * | 2015-01-14 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN109933792A (zh) * | 2019-03-11 | 2019-06-25 | 海南中智信信息技术有限公司 | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 |
CN110263177A (zh) * | 2019-05-23 | 2019-09-20 | 广州市香港科大霍英东研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
CN110990549A (zh) * | 2019-12-02 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 获取答案的方法、装置、电子设备及存储介质 |
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9847039B2 (en) * | 2013-02-19 | 2017-12-19 | Graduate Management Admission Council | Computer-implemented method of administering and scoring integrated reasoning question formats |
US20180232152A1 (en) * | 2017-02-10 | 2018-08-16 | Xerox Corporation | Gated end-to-end memory network |
CN111274800B (zh) * | 2020-01-19 | 2022-03-18 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111782961B (zh) * | 2020-08-05 | 2022-04-22 | 中国人民解放军国防科技大学 | 一种面向机器阅读理解的答案推荐方法 |
-
2020
- 2020-12-04 CN CN202011410644.XA patent/CN112417104B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360346A (zh) * | 2011-10-31 | 2012-02-22 | 武汉大学 | 基于受限的语义依存分析的文本推理方法 |
CN104054075A (zh) * | 2011-12-06 | 2014-09-17 | 派赛普申合伙公司 | 文本挖掘、分析和输出系统 |
CN103729395A (zh) * | 2012-10-12 | 2014-04-16 | 国际商业机器公司 | 用于推断查询答案的方法和系统 |
CN104573028A (zh) * | 2015-01-14 | 2015-04-29 | 百度在线网络技术(北京)有限公司 | 实现智能问答的方法和系统 |
CN108182295A (zh) * | 2018-02-09 | 2018-06-19 | 重庆誉存大数据科技有限公司 | 一种企业知识图谱属性抽取方法及系统 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN109933792A (zh) * | 2019-03-11 | 2019-06-25 | 海南中智信信息技术有限公司 | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 |
CN110263177A (zh) * | 2019-05-23 | 2019-09-20 | 广州市香港科大霍英东研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
CN110990549A (zh) * | 2019-12-02 | 2020-04-10 | 腾讯科技(深圳)有限公司 | 获取答案的方法、装置、电子设备及存储介质 |
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
Non-Patent Citations (2)
Title |
---|
Task-Oriented Multi-Modal Question Answering For Collaborative Applications;Hui Li Tan等;《IEEE》;20200930;第1426-1430页 * |
基于神经网络的机器阅读理解综述;顾迎捷等;《软件学报》;20200715;第2095-2126页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112417104A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112417104B (zh) | 一种句法关系增强的机器阅读理解多跳推理模型及方法 | |
CN111538819B (zh) | 一种基于文档集多跳推理的问答系统的构建方法 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN110188147B (zh) | 基于知识图谱的文献实体关系发现方法及系统 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN111274800A (zh) | 基于关系图卷积网络的推理型阅读理解方法 | |
CN110245238B (zh) | 基于规则推理和句法模式的图嵌入方法及系统 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN110196995B (zh) | 一种基于带偏置随机游走的复杂网络特征提取方法 | |
CN112308326A (zh) | 一种基于元路径和双向编码器的生物网络链接预测方法 | |
CN112988917A (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN109543176A (zh) | 一种基于图向量表征的丰富短文本语义方法及装置 | |
CN113505583A (zh) | 基于语义决策图神经网络的情感原因子句对提取方法 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
CN116821294A (zh) | 一种基于隐式知识反刍的问答推理方法和装置 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN116010621B (zh) | 一种基于规则引导的自适应路径生成方法 | |
CN117313850A (zh) | 一种信息抽取及知识图谱构建系统及方法 | |
CN117235216A (zh) | 一种基于异构知识融合的知识推理方法 | |
CN114611529B (zh) | 意图识别方法和装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |