CN109947912A - 一种基于段落内部推理和联合问题答案匹配的模型方法 - Google Patents

一种基于段落内部推理和联合问题答案匹配的模型方法 Download PDF

Info

Publication number
CN109947912A
CN109947912A CN201910073728.XA CN201910073728A CN109947912A CN 109947912 A CN109947912 A CN 109947912A CN 201910073728 A CN201910073728 A CN 201910073728A CN 109947912 A CN109947912 A CN 109947912A
Authority
CN
China
Prior art keywords
paragraph
answer
question
model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910073728.XA
Other languages
English (en)
Other versions
CN109947912B (zh
Inventor
琚生根
孙界平
夏欣
王霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910073728.XA priority Critical patent/CN109947912B/zh
Publication of CN109947912A publication Critical patent/CN109947912A/zh
Application granted granted Critical
Publication of CN109947912B publication Critical patent/CN109947912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于段落内部推理和联合问题答案匹配的阅读理解模型方法,包括以下步骤:S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案;S2:实验,本发明提出的模型首先把段落在多个粒度下切分为块,编码器利用神经词袋表达将块内词嵌入向量求和,然后,通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理,本模型在正确率上相比基线神经网络模型,Stanford AR和GA Reader提高了9%‑10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右,除此之外,在RACE数据集上的预训练也可以提高模型效果。

Description

一种基于段落内部推理和联合问题答案匹配的模型方法
技术领域
本发明属于阅读理解技术领域,具体涉及一种基于段落内部推理和联合问题答案匹配的模型方法。
背景技术
机器阅读问答(Machine Reading for Question Answering,MRQA)研究近年来受到广泛关注,如何让机器能够阅读并且理解自然语言,是认知智能领域研究的主要问题,阅读理解任务需要在整个文档中整合和推理关于事件,实体及其关系的信息,问答通常用于评估阅读理解能力。机器阅读理解任务的主要类型有完形填空型、选择型和问答型,深度学习近年来在自然语言处理中广泛使用,在机器阅读理解领域也是如此,相比于基于传统特征的方法,在神经网络中,各种语义单元被表达为连续的语义空间上的向量,可以非常有效地解决语义稀疏性问题。
目前的阅读理解方法通常基于成对序列匹配,段落与连接问题和候选答案的序列匹配,或段落与问题匹配,然而,这些方法可能不适合问题和答案通常同样重要的选择型阅读理解,仅仅根据问题匹配段落可能没有意义,并且可能导致段落中的信息丢失,例如“Which statement of the following is true?”这样的问题,另一方面,将问题和答案连接成单个序列进行匹配可能会丢失问题和答案之间的交互信息,例如,有时答案需要问题来进行指代消解等,此外,大多数模型通常采用循环神经网络作为编码器,其逐字逐句地顺序解析文本序列,虽然有助于捕获语言学的词法和语法结构,但段落往往较长,这限制了在段落内部进行多句推理。
针对当前机器阅读理解方法中仅将问题与段落匹配会导致段落中的信息丢失或将问题和答案连接成单个序列与段落匹配会丢失问题与答案之间的交互,和传统的循环网络顺序解析文本从而忽略段落内部推理的问题,提出一种基于段落内部推理和联合问题答案匹配的模型方法。
发明内容
本发明的目的在于提供一种基于段落内部推理和联合问题答案匹配的模型方法,本模型在正确率上相比基线神经网络模型如Stanford AR和GA Reader提高了9%-10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右,除此之外,在RACE数据集上的预训练也可以提高模型效果,以解决上述背景技术中提出的现有技术中的问题。
为实现上述目的,本发明采用了如下技术方案:一种基于段落内部推理和联合问题答案匹配的模型方法,包括以下步骤:
S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案,具体步骤如下:
A:输入层,段落、问题和候选答案对应表达为P={p1,p2,L,pm},Q={q1,q2,L,qn}和A={a1,a2,L,al},其中m,n和l是对应序列的长度,使用GloVe向量将每个词转换为对应的词嵌入,利用三个简单有效的词汇特征EM(P,Q),EM(Q,A)和EM(P,A)表明一个中的词是否在另一个中;
B:编码层,步骤如下:
a:将词嵌入向量和完全匹配特征输入Highway Network,分别得到段落、问题和候选答案序列的表达其中 其中其中
b:对段落进行k={r1,r2,L,rk}次缩放操作,对每个ri,首先将每隔ri个词的词嵌入相加进行压缩,段落长度变为m/ri,然后将得到的序列输入激活函数为ReLU的单层前向神经网络;
c:将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络;
C:交互层,利用注意力机制更新问题和候选答案的表达,使其关注与段落相关的部分,注意力向量计算;
D:层次聚合,为了捕捉段落的句子结构,在共同匹配表达上构建了一个层次LSTM,首先将段落分成句子P1,P2,L,PN,其中N是段落中的句子数,对于每个{Pi,Q,A},i∈[1,N],通过输入、编码及交互层可以得到共同匹配表达Ci,然后在每个句子的共同匹配表达上两次BiLSTM层和最大池化层,以捕获共同匹配的句子级和篇章级表达;
E:输出层,对每个候选答案,它最终交互表达为
S2:实验,具体步骤如下:
A:采用SemEval-2018 Task 11任务的数据集MCScript,并且在RACE数据集进行预训练,MCScript数据集由Mechanical Turk的工作人员采用第一人称描述一个场景故事,旨在借用外部常识知识回答问题;
B:在PyTorch深度学习框架下实现模型,使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,k的取值为1,2,4,10,25,丢失率在0.1,0.2和0.3之间调整,优化器采用Adam,且初始学习率为0.002,批量大小为10,在MCScript数据集上进行30轮训练,在RACE数据集上10轮迭代;
C:对比算法及实验结果,本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比,步骤如下:
a:Sliding Window,采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题,在段落上采用不同大小的滑动窗口,计算窗口和答案的词嵌入平均向量的余弦相似度,具有最高分数的答案被预测为正确答案;
b:SurfaceLR,首先进行词干提取和去除停用词,但不包括‘yes’或‘no’,构建段落、问题和答案的长度特征和共现特征,这个简单模型取得了与神经网络可以竞争的结果;
c:Stanford Attentive Reader,采用一种端到端的神经网络方法,在CNN/DailMaily数据集上取得了很好的效果,首次提出问题相关段落表达,即问题相对段落注意力分数,双线性函数的加权平均表达,然后同样采用双线性函数计算问题与答案的相似度,最后应用softmax得到每个答案的预测概率;
d:Gated-Attention Reader,通过注意力机制捕获问题与段落之间的交互,并采用多层推理迭代地关注文本与问题最相关的部分;
e:TriAN,采用段落与答案、段落与问题、问题与答案三种注意力来建模交互,并且加入词性标注和命名实体识别,基于ConceptNet的关系特征,基于Wikipedia的词频特征及共现特征,本文与其单模型进行对比。
优选的,所述步骤S2中编码层内的激活函数为ReLU的单层前向神经网络:
其中,Wa,ba是需要学习的参数,且对每个ri参数不共享,然后,再通过矩阵操作扩展到原来的序列长度。
优选的,所述步骤S2中编码层内两层激活函数为ReLU的全连接前向神经网络:
其中,gt可以解释为一个从多粒度学习的门控向量来平衡每个词的映射和原始表达,F1(·)和F2(·)是激活函数为ReLU的单层前向神经网络:
其中,Wb,bb是需要学习的参数,Hp={y1,y2,L,ym}为段落的最终表达σ是sigmoid函数,这里借鉴了Highway Network的思想,不同的是门控函数捕获了多粒度和长期依赖信息。
优选的,所述步骤S2中交互层注意力向量计算式:
其中,是需要学习的参数,是元素全为1的列向量,是赋予问题和候选答案序列隐藏状态的注意力权重,是问题隐藏状态的加权和,它表示问题如何与段落的每个隐藏状态对齐,同理,最后,将段落表达与问题和候选答案表达共同匹配:
其中,是需要学习的参数,C由两个矩阵按列拼接得到,$和是对两个矩阵按元素相减和相乘,其作用是获得更好的局部推理信息,为该段落表达与注意力加权的问题表达之间的匹配,同样,为段落表达与注意力加权的候选答案表达之间的匹配,最后,表示每个段落隐藏状态如何与问题和候选答案匹配。
优选的,所述步骤S2中层次聚合BiLSTM层和最大池化层公式为:
其中,MaxPooling(·)是按行操作,是共同匹配的句子级表达,最后,在此基础上再应用一个BiLSTM层和最大池化层:
ht=MaxPooling(BiLSTM(Hs)) (14)
其中,的句子级表达的按行拼接,ht是融合了各种交互信息的最后输出表达。
优选的,所述步骤S2中输出层损失函数计算如下:
其中,是需要学习的参数。
优选的,所述步骤S3中对比算法及实验结果的TriAN的考虑因素包括预训练、答案匹配和段落内部推理进行消融实验。
本发明的技术效果和优点:本发明提出的一种基于段落内部推理和联合问题答案匹配的模型方法,与现有技术相比,具有以下优点:本发明提出的模型首先把段落在多个粒度下切分为块,编码器利用神经词袋表达将块内词嵌入向量求和,其次,将块序列通过前向全连接神经网络扩展到原始序列长度,然后,通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理,最后,通过注意力机制将段落表示与问题和答案的交互来选择答案,在SemEval-2018Task 11任务上的实验结果表明,本模型在正确率上相比基线神经网络模型如Stanford AR和GA Reader提高了9%-10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右.除此之外,在RACE数据集上的预训练也可以提高模型效果。
附图说明
图1为本发明种基于段落内部推理和联合问题答案匹配的模型方法的模型整体框架图;
图2为本发明种基于段落内部推理和联合问题答案匹配的模型方法的段落编码图;
图3为本发明种基于段落内部推理和联合问题答案匹配的模型方法的模型训练过程正确率图;
图4为本发明种基于段落内部推理和联合问题答案匹配的模型方法的损失函数曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于段落内部推理和联合问题答案匹配的模型方法,包括以下步骤:
S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案,本文提出的模型整体框架如图1所示,具体步骤如下:
A:输入层,段落、问题和候选答案对应表达为P={p1,p2,L,pm},Q={q1,q2,L,qn}和A={a1,a2,L,al},其中m,n和l是对应序列的长度,使用GloVe向量将每个词转换为对应的词嵌入,利用三个简单有效的词汇特征EM(P,Q),EM(Q,A)和EM(P,A)表明一个中的词是否在另一个中;
B:编码层,步骤如下:
a:将词嵌入向量和完全匹配特征输入Highway Network,分别得到段落、问题和候选答案序列的表达其中 其中其中
b:对段落进行k={r1,r2,L,rk}次缩放操作,如图2所示,对每个ri,首先将每隔ri个词的词嵌入相加进行压缩,段落长度变为m/ri,然后将得到的序列输入激活函数为ReLU的单层前向神经网络;
c:将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络;
C:交互层,利用注意力机制更新问题和候选答案的表达,使其关注与段落相关的部分,注意力向量计算;
D:层次聚合,为了捕捉段落的句子结构,在共同匹配表达上构建了一个层次LSTM,首先将段落分成句子P1,P2,L,PN,其中N是段落中的句子数,对于每个{Pi,Q,A},i∈[1,N],通过输入、编码及交互层可以得到共同匹配表达Ci,然后在每个句子的共同匹配表达上应用两次一个BiLSTM层和最大池化层,以捕获共同匹配的句子级和文档级表达;
E:输出层,对每个候选答案,它最终交互表达为
S2:实验,具体步骤如下:
A:采用SemEval-2018 Task 11任务的数据集MCScript,并且在RACE数据集进行预训练,MCScript数据集由Mechanical Turk的工作人员采用第一人称描述一个场景故事,旨在借用外部常识知识回答问题;
RACE数据集包含了中考和高考中的英文阅读理解问题.其根据问题的难易程度分为匹配题以及推理题两大类,匹配题指的是需要阅读者在段落中找到问题对应的支撑语句,然后找到问题答案,推理题则需要阅读者总结、分析段落中的线索,进而再选出正确答案,35%的题目是匹配题,65%是推理题。
B:在PyTorch深度学习框架下实现模型,使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,k的取值为1,2,4,10,25,丢失率在0.1,0.2和0.3之间调整,优化器采用Adam,且初始学习率为0.002,批量大小为10,在MCScript数据集上进行30轮训练,在RACE数据集上10轮迭代;见表1 RACE数据描述:
见表2 MCScript数据描述:
C:对比算法及实验结果,本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比,步骤如下:
a:Sliding Window,采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题,在段落上采用不同大小的滑动窗口,计算窗口和答案的词嵌入平均向量的余弦相似度,具有最高分数的答案被预测为正确答案;
b:SurfaceLR,首先进行词干提取和去除停用词,但不包括‘yes’或‘no’,构建段落、问题和答案的长度特征和共现特征,这个简单模型取得了与神经网络可以竞争的结果;
c:Stanford Attentive Reader,采用一种端到端的神经网络方法,在CNN/DailMaily数据集上取得了很好的效果,首次提出问题相关段落表达,即问题相对段落注意力分数,双线性函数的加权平均表达,然后同样采用双线性函数计算问题与答案的相似度,最后应用softmax得到每个答案的预测概率;
d:Gated-Attention Reader,通过注意力机制捕获问题与段落之间的交互,并采用多层推理迭代地关注文本与问题最相关的部分;
e:TriAN,采用段落与答案、段落与问题、问题与答案三种注意力来建模交互,并且加入词性标注和命名实体识别,基于ConceptNet的关系特征,基于Wikipedia的词频特征及共现特征,本文与其单模型进行对比,见表3对比算法及结果:
实验结果如表3所示,可以看出本文模型与基线神经网络模型相比提高了9%-10%左右,比SurfaceLR模型提高了至少3%,超过TriAN单模型1%左右。
此外,考虑因素:①预训练;②答案匹配;③段落内部推理进行消融实验,实验结果如表4所示,可以看到如果没有在预训练模型正确率降低1%左右的,只采用问题进行匹配模型效果降低4%左右,在将编码器换作LSTM的情况下,模型正确率降低了2%左右,见表4:
具体的,所述步骤S2中编码层内的激活函数为ReLU的单层前向神经网络:
其中,Wa,ba是需要学习的参数,且对每个ri参数不共享,然后,再通过矩阵操作扩展到原来的序列长度。
具体的,所述步骤S2中编码层内两层激活函数为ReLU的全连接前向神经网络:
其中,gt可以解释为一个从多粒度学习的门控向量来平衡每个词的映射和原始表达,F1(·)和F2(·)是激活函数为ReLU的单层前向神经网络:
其中,Wb,bb是需要学习的参数,Hp={y1,y2,L,ym}为段落的最终表达σ是sigmoid函数,这里借鉴了Highway Network的思想,不同的是门控函数捕获了多粒度和长期依赖信息。
具体的,所述步骤S2中交互层注意力向量计算式:
其中,是需要学习的参数,是元素全为1的列向量,是赋予问题和候选答案序列隐藏状态的注意力权重,是问题隐藏状态的加权和,它表示问题如何与段落的每个隐藏状态对齐,同理,最后,将段落表达与问题和候选答案表达共同匹配:
其中,是需要学习的参数,C由两个矩阵按列拼接得到,$和是对两个矩阵按元素相减和相乘,其作用是获得更好的局部推理信息,为该段落表达与注意力加权的问题表达之间的匹配,同样,为段落表达与注意力加权的候选答案表达之间的匹配,最后,表示每个段落隐藏状态如何与问题和候选答案匹配。
具体的,所述步骤S2中层次聚合BiLSTM层和最大池化层公式为:
其中,MaxPooling(·)是按行操作,是共同匹配的句子级表达,最后,在此基础上再应用一个BiLSTM层和最大池化层:
ht=MaxPooling(BiLSTM(Hs)) (14)
其中,的句子级表达的按行拼接,ht是融合了各种交互信息的最后输出表达。
具体的,所述步骤S2中输出层损失函数计算如下:
其中,是需要学习的参数。
具体的,所述步骤S3中对比算法及实验结果的TriAN的考虑因素包括预训练、答案匹配和段落内部推理进行消融实验。
本发明提出的模型引入了段落内部推理机制,并且将候选答案和问题与段落同时匹配,首先,类似于自注意力机制,将段落在多个粒度下压缩成NBOW(神经词袋表达),其次,通过仿射变换重新扩展到原始序列长度,将得到的多个粒度下的段落表达输入全连接层以形成门控向量应用到段落原始表达上,该门控建模不同粒度之间关系,捕获段落内部推理,也避免了每步构造一个门控,然后,对段落中的每个句子,计算与问题和候选答案的注意力权重向量来构造段落和问题、段落和候选答案的匹配表达,将两个匹配表达拼接形成共同匹配表达,最后,对段落的共同匹配表达序列应用层次LSTM,信息从词级别汇总到句子级别,然后从句子级别汇总到文档级别,这种方式使得模型可以更好地处理需要多句推理的问题。
综上所述:本发明提出的模型首先把段落在多个粒度下切分为块,编码器利用神经词袋表达将块内词嵌入向量求和,其次,将块序列通过前向全连接神经网络扩展到原始序列长度,然后,通过两层前向神经网络建模每个单词所在不同粒度的块之间的关系构造门控函数以使模型具有更大的上下文信息同时捕获段落内部推理,最后,通过注意力机制将段落表示与问题和答案的交互来选择答案,在SemEval-2018 Task 11任务上的实验结果表明,本模型在正确率上相比基线神经网络模型如Stanford AR和GA Reader提高了9%-10%,比最近的模型SurfaceLR至少提高了3%,超过TriAN的单模型1%左右,除此之外,在RACE数据集上的预训练也可以提高模型效果。
本文在现有的基础上,不同于之前工作只考虑段落与问题匹配,或与问题和候选答案看作一个序列匹配,本文考虑了段落与问题和答案的共同匹配,同时,针对段落序列往往较长传统循环神经网络编码无法进行多句推理的问题,利用缩放操作构成的门控机制,捕获多粒度信息,进行段落内部推理,在SemEval-2018 Task 11任务上进一步提高了预测准确率,在后续的工作中考虑问题类型,引入脚本知识,设计可解释性模型,以及对模型集成的研究。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:包括以下步骤:
S1:对于每个候选答案构建一个向量,该向量表示段落与问题和答案的交互,然后所有候选答案的向量用于选择答案,具体步骤如下:
A:输入层,段落、问题和候选答案对应表达为P={p1,p2,L,pm},Q={q1,q2,L,qn}和A={a1,a2,L,al},其中m,n和l是对应序列的长度,使用GloVe向量将每个词转换为对应的词嵌入,利用三个简单有效的词汇特征EM(P,Q),EM(Q,A)和EM(P,A)表明一个中的词是否在另一个中;
B:编码层,步骤如下:
a:将词嵌入向量和完全匹配特征输入Highway Network,分别得到段落、问题和候选答案序列的表达其中 其中其中
b:对段落进行k={r1,r2,L,rk}次缩放操作,对每个ri,首先将每隔ri个词的词嵌入相加进行压缩,段落长度变为m/ri,然后将得到的序列输入激活函数为ReLU的单层前向神经网络;
c:将得到的k个缩放操作得到的序列拼接输入到两层激活函数为ReLU的全连接前向神经网络;
C:交互层,利用注意力机制更新问题和候选答案的表达,使其关注与段落相关的部分,注意力向量计算;
D:层次聚合,为了捕捉段落的句子结构,在共同匹配表达上构建了一个层次LSTM,首先将段落分成句子P1,P2,L,PN,其中N是段落中的句子数,对于每个{Pi,Q,A},i∈[1,N],通过输入、编码及交互层可以得到共同匹配表达Ci,然后在每个句子的共同匹配表达上应用两次BiLSTM层和最大池化层,以捕获共同匹配的句子级和篇章级表达;
E:输出层,对每个候选答案,它最终交互表达为
S2:实验,具体步骤如下:
A:采用SemEval-2018Task 11任务的数据集MCScript,并且在RACE数据集进行预训练,MCScript数据集由Mechanical Turk的工作人员采用第一人称描述一个场景故事,旨在借用外部常识知识回答问题;
B:在PyTorch深度学习框架下实现模型,使用300维的Glove向量初始化词嵌入,且在训练期间不进行微调,k的取值为1,2,4,10,25,丢失率在0.1,0.2和0.3之间调整,优化器采用Adam,且初始学习率为0.002,批量大小为10,在MCScript数据集上进行30轮训练,在RACE数据集上10轮迭代;
C:对比算法及实验结果,本模型与基线模型、MCScript数据集上最近模型以及本模型进行对比,步骤如下:
a:Sliding Window,采用一种基于规则的方法来选择与文本具有最高相似度分数的候选答案回答问题,在段落上采用不同大小的滑动窗口,计算窗口和答案的词嵌入平均向量的余弦相似度,具有最高分数的答案被预测为正确答案;
b:SurfaceLR,首先进行词干提取和去除停用词,但不包括‘yes’或‘no’,构建段落、问题和答案的长度特征和共现特征,这个简单模型取得了与神经网络可以竞争的结果;
c:Stanford Attentive Reader,采用一种端到端的神经网络方法,在CNN/Dail Maily数据集上取得了很好的效果,首次提出问题相关段落表达,即问题相对段落注意力分数,双线性函数的加权平均表达,然后同样采用双线性函数计算问题与答案的相似度,最后应用softmax得到每个答案的预测概率;
d:Gated-Attention Reader,通过注意力机制捕获问题与段落之间的交互,并采用多层推理迭代地关注文本与问题最相关的部分;
e:TriAN,采用段落与答案、段落与问题、问题与答案三种注意力来建模交互,并且加入词性标注和命名实体识别,基于ConceptNet的关系特征,基于Wikipedia的词频特征及共现特征,本文与其单模型进行对比。
2.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:所述步骤S2中编码层内的激活函数为ReLU的单层前向神经网络:
其中,Wa,ba是需要学习的参数,且对每个ri参数不共享,然后,再通过矩阵操作扩展到原来的序列长度。
3.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:所述步骤S2中编码层内两层激活函数为ReLU的全连接前向神经网络:
其中,gt可以解释为一个从多粒度学习的门控向量来平衡每个词的映射和原始表达,F1(·)和F2(·)是激活函数为ReLU的单层前向神经网络:
其中,Wb,bb是需要学习的参数,Hp={y1,y2,L,ym}为段落的最终表达,σ是sigmoid函数,这里借鉴了Highway Network的思想,不同的是门控函数捕获了多粒度和长期依赖信息。
4.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:所述步骤S2中交互层注意力向量计算式:
其中,是需要学习的参数,是元素全为1的列向量,是赋予问题和候选答案序列隐藏状态的注意力权重,是问题隐藏状态的加权和,它表示问题如何与段落的每个隐藏状态对齐,同理,最后,将段落表达与问题和候选答案表达共同匹配:
其中,是需要学习的参数,C由两个矩阵按列拼接得到,$和是对两个矩阵按元素相减和相乘,其作用是获得更好的局部推理信息,为该段落表达与注意力加权的问题表达之间的匹配,同样,为段落表达与注意力加权的候选答案表达之间的匹配,最后,表示每个段落隐藏状态如何与问题和候选答案匹配。
5.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:所述步骤S2中层次聚合BiLSTM层和最大池化层公式为:
其中,MaxPooling(·)是按行操作,是共同匹配的句子级表达,最后,在此基础上再应用一个BiLSTM层和最大池化层:
ht=MaxPooling(BiLSTM(Hs)) (14)
其中,的句子级表达的按行拼接,ht是融合了各种交互信息的最后输出表达。
6.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:所述步骤S2中输出层损失函数计算如下:
其中,是需要学习的参数。
7.根据权利要求1所述的一种基于段落内部推理和联合问题答案匹配的模型方法,其特征在于:所述步骤S3中对比算法及实验结果的TriAN的考虑因素包括预训练、答案匹配和段落内部推理进行消融实验。
CN201910073728.XA 2019-01-25 2019-01-25 一种基于段落内部推理和联合问题答案匹配的模型方法 Active CN109947912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910073728.XA CN109947912B (zh) 2019-01-25 2019-01-25 一种基于段落内部推理和联合问题答案匹配的模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910073728.XA CN109947912B (zh) 2019-01-25 2019-01-25 一种基于段落内部推理和联合问题答案匹配的模型方法

Publications (2)

Publication Number Publication Date
CN109947912A true CN109947912A (zh) 2019-06-28
CN109947912B CN109947912B (zh) 2020-06-23

Family

ID=67007348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910073728.XA Active CN109947912B (zh) 2019-01-25 2019-01-25 一种基于段落内部推理和联合问题答案匹配的模型方法

Country Status (1)

Country Link
CN (1) CN109947912B (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516697A (zh) * 2019-07-15 2019-11-29 清华大学 基于证据图聚合与推理的声明验证方法及系统
CN110597970A (zh) * 2019-08-19 2019-12-20 华东理工大学 一种多粒度医疗实体联合识别的方法及装置
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110750998A (zh) * 2019-10-14 2020-02-04 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN110879838A (zh) * 2019-10-29 2020-03-13 中科能效(北京)科技有限公司 一种放开域问答系统
CN110909544A (zh) * 2019-11-20 2020-03-24 北京香侬慧语科技有限责任公司 一种数据处理方法和装置
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
CN110990003A (zh) * 2019-11-15 2020-04-10 南通大学 一种基于词嵌入技术的api推荐方法
CN111046132A (zh) * 2019-10-25 2020-04-21 众安信息技术服务有限公司 一种检索多轮对话的客服问答处理方法及其系统
CN111061935A (zh) * 2019-12-16 2020-04-24 北京理工大学 一种基于自注意力机制的科技写作推荐方法
CN111062599A (zh) * 2019-12-09 2020-04-24 莆田学院 基于人员关系的人力资源调度模型训练、调度方法及装置
CN111159340A (zh) * 2019-12-24 2020-05-15 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111666375A (zh) * 2020-05-20 2020-09-15 上海携旅信息技术有限公司 文本相似度的匹配方法、电子设备和计算机可读介质
CN111797219A (zh) * 2020-07-07 2020-10-20 苏州大学 使用多通道融合模型处理答案的神经问题生成方法及系统
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN111831812A (zh) * 2020-09-21 2020-10-27 北京智源人工智能研究院 基于知识图谱的阅读理解数据集自动生成方法和设备
CN111858879A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN111950701A (zh) * 2020-07-13 2020-11-17 中国科学技术大学 一种融合公式信息的数学题求解方法及系统
CN111966797A (zh) * 2020-07-23 2020-11-20 天津大学 利用引入了语义信息的词向量进行机器阅读理解的方法
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112347756A (zh) * 2020-09-29 2021-02-09 中国科学院信息工程研究所 一种基于序列化证据抽取的推理阅读理解方法及系统
CN112417089A (zh) * 2019-08-21 2021-02-26 东北大学秦皇岛分校 一种基于深度学习的高并行性阅读理解的方法
CN112434149A (zh) * 2020-06-24 2021-03-02 北京金山数字娱乐科技有限公司 信息提取方法和装置、设备及存储介质
CN112732879A (zh) * 2020-12-23 2021-04-30 重庆理工大学 一种问答任务的下游任务处理方法及模型
CN113032533A (zh) * 2021-05-31 2021-06-25 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113312909A (zh) * 2021-05-19 2021-08-27 华南理工大学 基于自然语言处理的智能分析试题答案方法与系统
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113779203A (zh) * 2020-06-09 2021-12-10 北京金山数字娱乐科技有限公司 生成段落集的方法和装置、推理方法和装置
CN113836283A (zh) * 2021-09-24 2021-12-24 上海金仕达软件科技有限公司 答案的生成方法、装置、电子设备及存储介质
CN115080723A (zh) * 2022-08-23 2022-09-20 云南师范大学 一种阅读理解问题的自动生成方法
WO2023274187A1 (zh) * 2021-07-01 2023-01-05 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
WO2023225858A1 (zh) * 2022-05-24 2023-11-30 中山大学 一种基于常识推理的阅读型考题生成系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040180311A1 (en) * 2000-09-28 2004-09-16 Scientific Learning Corporation Method and apparatus for automated training of language learning skills
CN103729395A (zh) * 2012-10-12 2014-04-16 国际商业机器公司 用于推断查询答案的方法和系统
US20170024645A1 (en) * 2015-06-01 2017-01-26 Salesforce.Com, Inc. Dynamic Memory Network
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN107622132A (zh) * 2017-10-09 2018-01-23 四川大学 一种面向在线问答社区的关联分析可视化方法
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN109214001A (zh) * 2018-08-23 2019-01-15 桂林电子科技大学 一种中文语义匹配系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040180311A1 (en) * 2000-09-28 2004-09-16 Scientific Learning Corporation Method and apparatus for automated training of language learning skills
CN103729395A (zh) * 2012-10-12 2014-04-16 国际商业机器公司 用于推断查询答案的方法和系统
US20170024645A1 (en) * 2015-06-01 2017-01-26 Salesforce.Com, Inc. Dynamic Memory Network
CN107515854A (zh) * 2017-07-27 2017-12-26 上海交通大学 基于带权时序文本网络的时序社区以及话题的检测方法
CN107622132A (zh) * 2017-10-09 2018-01-23 四川大学 一种面向在线问答社区的关联分析可视化方法
CN108415977A (zh) * 2018-02-09 2018-08-17 华南理工大学 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN109214001A (zh) * 2018-08-23 2019-01-15 桂林电子科技大学 一种中文语义匹配系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王飞鸿: "基于自动生成知识库的智能问答系统设计", 《中国科技信息》 *
琚生根等: "基于状态转移的奖励值音乐推荐研究", 《四川大学学报》 *

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516697A (zh) * 2019-07-15 2019-11-29 清华大学 基于证据图聚合与推理的声明验证方法及系统
CN110516697B (zh) * 2019-07-15 2021-08-31 清华大学 基于证据图聚合与推理的声明验证方法及系统
CN110597970A (zh) * 2019-08-19 2019-12-20 华东理工大学 一种多粒度医疗实体联合识别的方法及装置
CN110597970B (zh) * 2019-08-19 2023-04-07 华东理工大学 一种多粒度医疗实体联合识别的方法及装置
CN112417089B (zh) * 2019-08-21 2022-12-09 东北大学秦皇岛分校 一种基于深度学习的高并行性阅读理解的方法
CN112417089A (zh) * 2019-08-21 2021-02-26 东北大学秦皇岛分校 一种基于深度学习的高并行性阅读理解的方法
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110688491B (zh) * 2019-09-25 2022-05-10 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110750998A (zh) * 2019-10-14 2020-02-04 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN110750998B (zh) * 2019-10-14 2023-10-31 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN111046132B (zh) * 2019-10-25 2023-06-16 众安信息技术服务有限公司 一种检索多轮对话的客服问答处理方法及其系统
CN111046132A (zh) * 2019-10-25 2020-04-21 众安信息技术服务有限公司 一种检索多轮对话的客服问答处理方法及其系统
CN110826338A (zh) * 2019-10-28 2020-02-21 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN110826338B (zh) * 2019-10-28 2022-06-17 桂林电子科技大学 一种单选择门与类间度量的细粒度语义相似识别的方法
CN110879838A (zh) * 2019-10-29 2020-03-13 中科能效(北京)科技有限公司 一种放开域问答系统
CN110879838B (zh) * 2019-10-29 2023-07-14 中科能效(北京)科技有限公司 一种放开域问答系统
CN110990003A (zh) * 2019-11-15 2020-04-10 南通大学 一种基于词嵌入技术的api推荐方法
CN110909544A (zh) * 2019-11-20 2020-03-24 北京香侬慧语科技有限责任公司 一种数据处理方法和装置
CN110929515B (zh) * 2019-11-21 2023-04-18 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
CN110929515A (zh) * 2019-11-21 2020-03-27 中国民航大学 基于协同注意力和自适应调整的阅读理解方法及系统
CN111062599B (zh) * 2019-12-09 2022-06-14 莆田学院 基于人员关系的人力资源调度模型训练、调度方法及装置
CN111062599A (zh) * 2019-12-09 2020-04-24 莆田学院 基于人员关系的人力资源调度模型训练、调度方法及装置
CN111061935B (zh) * 2019-12-16 2022-04-12 北京理工大学 一种基于自注意力机制的科技写作推荐方法
CN111061935A (zh) * 2019-12-16 2020-04-24 北京理工大学 一种基于自注意力机制的科技写作推荐方法
CN111159340A (zh) * 2019-12-24 2020-05-15 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN111159340B (zh) * 2019-12-24 2023-11-03 重庆兆光科技股份有限公司 基于随机优化预测的机器阅读理解的答案匹配方法及系统
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111274800B (zh) * 2020-01-19 2022-03-18 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111666375A (zh) * 2020-05-20 2020-09-15 上海携旅信息技术有限公司 文本相似度的匹配方法、电子设备和计算机可读介质
CN111666375B (zh) * 2020-05-20 2023-07-04 上海携旅信息技术有限公司 文本相似度的匹配方法、电子设备和计算机可读介质
CN113779203A (zh) * 2020-06-09 2021-12-10 北京金山数字娱乐科技有限公司 生成段落集的方法和装置、推理方法和装置
CN111858879B (zh) * 2020-06-18 2024-04-05 达观数据有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN111858879A (zh) * 2020-06-18 2020-10-30 达而观信息科技(上海)有限公司 一种基于机器阅读理解的问答方法及系统、存储介质、计算机设备
CN112434149A (zh) * 2020-06-24 2021-03-02 北京金山数字娱乐科技有限公司 信息提取方法和装置、设备及存储介质
CN112434149B (zh) * 2020-06-24 2023-09-19 北京金山数字娱乐科技有限公司 信息提取方法和装置、设备及存储介质
CN111797219A (zh) * 2020-07-07 2020-10-20 苏州大学 使用多通道融合模型处理答案的神经问题生成方法及系统
CN111797219B (zh) * 2020-07-07 2023-11-24 苏州大学 使用多通道融合模型处理答案的神经问题生成方法及系统
CN111950701B (zh) * 2020-07-13 2022-09-02 中国科学技术大学 一种融合公式信息的数学题求解方法及系统
CN111950701A (zh) * 2020-07-13 2020-11-17 中国科学技术大学 一种融合公式信息的数学题求解方法及系统
CN111814982B (zh) * 2020-07-15 2021-03-16 四川大学 面向多跳问答的动态推理网络系统及方法
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN111966797A (zh) * 2020-07-23 2020-11-20 天津大学 利用引入了语义信息的词向量进行机器阅读理解的方法
CN111966797B (zh) * 2020-07-23 2023-04-07 天津大学 利用引入了语义信息的词向量进行机器阅读理解的方法
CN111831812A (zh) * 2020-09-21 2020-10-27 北京智源人工智能研究院 基于知识图谱的阅读理解数据集自动生成方法和设备
CN112347756B (zh) * 2020-09-29 2023-12-22 中国科学院信息工程研究所 一种基于序列化证据抽取的推理阅读理解方法及系统
CN112347756A (zh) * 2020-09-29 2021-02-09 中国科学院信息工程研究所 一种基于序列化证据抽取的推理阅读理解方法及系统
CN112328767A (zh) * 2020-11-11 2021-02-05 重庆邮电大学 基于bert模型和比较聚合框架的问答匹配方法
CN112732879A (zh) * 2020-12-23 2021-04-30 重庆理工大学 一种问答任务的下游任务处理方法及模型
CN113239160A (zh) * 2021-04-29 2021-08-10 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113239160B (zh) * 2021-04-29 2022-08-12 桂林电子科技大学 一种问题生成方法、装置及存储介质
CN113312909A (zh) * 2021-05-19 2021-08-27 华南理工大学 基于自然语言处理的智能分析试题答案方法与系统
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113032533A (zh) * 2021-05-31 2021-06-25 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
CN113032533B (zh) * 2021-05-31 2021-09-03 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
WO2023274187A1 (zh) * 2021-07-01 2023-01-05 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
CN113836283A (zh) * 2021-09-24 2021-12-24 上海金仕达软件科技有限公司 答案的生成方法、装置、电子设备及存储介质
CN113836283B (zh) * 2021-09-24 2024-04-12 上海金仕达软件科技股份有限公司 答案的生成方法、装置、电子设备及存储介质
WO2023225858A1 (zh) * 2022-05-24 2023-11-30 中山大学 一种基于常识推理的阅读型考题生成系统及方法
CN115080723A (zh) * 2022-08-23 2022-09-20 云南师范大学 一种阅读理解问题的自动生成方法

Also Published As

Publication number Publication date
CN109947912B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN109947912B (zh) 一种基于段落内部推理和联合问题答案匹配的模型方法
CN111985245B (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CN109918671B (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN111274800B (zh) 基于关系图卷积网络的推理型阅读理解方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN109062897A (zh) 基于深度神经网络的句子对齐方法
CN109214001A (zh) 一种中文语义匹配系统及方法
CN112633010A (zh) 基于多头注意力和图卷积网络的方面级情感分析方法及系统
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN113435211A (zh) 一种结合外部知识的文本隐式情感分析方法
CN112131886A (zh) 一种文本的方面级别情感分析方法
CN111027292B (zh) 一种限定采样文本序列生成方法及其系统
CN112380835A (zh) 融合实体和句子推理信息的问题答案提取方法及电子装置
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN114065769B (zh) 情感原因对抽取模型的训练方法、装置、设备及介质
CN117235216A (zh) 一种基于异构知识融合的知识推理方法
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
CN115408603A (zh) 一种基于多头自注意力机制的在线问答社区专家推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant