CN115080715B - 基于残差结构和双向融合注意力的跨度提取阅读理解方法 - Google Patents

基于残差结构和双向融合注意力的跨度提取阅读理解方法 Download PDF

Info

Publication number
CN115080715B
CN115080715B CN202210599756.7A CN202210599756A CN115080715B CN 115080715 B CN115080715 B CN 115080715B CN 202210599756 A CN202210599756 A CN 202210599756A CN 115080715 B CN115080715 B CN 115080715B
Authority
CN
China
Prior art keywords
article
score
vector
question
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210599756.7A
Other languages
English (en)
Other versions
CN115080715A (zh
Inventor
王勇
陈秋怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202210599756.7A priority Critical patent/CN115080715B/zh
Publication of CN115080715A publication Critical patent/CN115080715A/zh
Application granted granted Critical
Publication of CN115080715B publication Critical patent/CN115080715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及自然语言处理技术领域,尤其涉及一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,包括以下步骤:采用不同尺度的卷积核对问题和文章分别卷积,得到不同语义空间下的特征,再分别计算同一尺度卷积核下的问题和文章的相似度分数,最后选取最大特征作为最终的相似度分数矩阵。本发明提出双向融合注意力机制;不仅计算了基于问题的文章表示向量,同时利用提出的针对问题的层叠注意力机制,计算基于文章的问题向量表示,并进行融合拼接以预测答案,并提出残差结构来连接从预训练语言模型输出的具有原始语义的特征向量。

Description

基于残差结构和双向融合注意力的跨度提取阅读理解方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于残差结构和双向融合注意力的跨度提取阅读理解方法。
背景技术
自然语言处理是人工智能的一个重要研究领域之一,其中问答系统是自然语言理解中的主要任务。
抽取式阅读理解任务是问答系统的主要环节,目标是从参考文本中抽取出一个片段作为问题的答案;与一般问答任务不同在于,机器阅读理解基于一段非结构化文本来预测答案;不仅要求模型有足够的推理能力用于已有信息并给出预测答案,同时也考察模型从非结构化文本中提取信息的自然语言理解能力,使得该任务更具有挑战性;现在研究者致力于搭建一个能够阅读文本、回答问题的计算机系统,并量化评估系统的性能。
随着机器学习和深度学习的不断发展,以及大规模高质量数据集的发布,学术界和工业界对阅读理解技术的研究不断深入,从过去基于符号规则的理解逐渐过渡到基于深度学习的模型,在一些数据集上已经超越了人类水平;从实际应用来看,阅读理解的应用已经渗入到我们生活的方方面面;比如在常见的搜索引擎上,当用户输入想要查询的关键词,需要从海量的网站信息中找到相关网页,并花费大量的时间,如果把问答系统技术应用到搜索引擎中,会更加精确地找到所需要的答案;常见的运用问答系统技术的还有淘宝客服对话系统,输入常见的问题,即可返回答案为企业节省了人力物力;然而目前问答系统能处理的场景还较为简单,在涉及复杂句子等问题时和人类还有较大差距,技术上仍有提升的空间。
现有的技术主要存在以下问题:
(1)在以往计算相似度矩阵时,只计算了单个语义空间下的相似度,过于单一,不能在多个语义空间下捕捉文本序列之间的深层语义交互;
(2)之前的注意力机制只计算了基于问题的文章表示向量,通过融合输出答案的起止位置;这样过于片面,没有考虑到基于文章的问题表示;同时,在面对大量的信息处理时,没有选择性的进行记忆的更新和遗忘;
(3)在注意力计算之后,忽略了从预训练语言模型得到的原始语义信息,从而只关注到突出的关键部分,没有考虑基于上下文信息的原始语义。
近年来,机器阅读理解相关的数据集喷涌而出,引起了广泛的研究兴趣,而基于注意力的模型更是层出不断;双向注意力流提出一种基于文本和问题间注意力构建的机器阅读理解模型,其在交互层中对文本和问题实现的注意力方式成为了后续许多模型的参照典范,层叠注意力模型旨在将另一种注意力机制置于现有的文档级注意力之上;R-net在计算注意力中加入了门机制,动态控制模型采用各部分的信息;融合网络是一种改进的基于单词历史和全关注注意力的阅读理解网络模型;单词历史可以更好地理解文章各个层次的语义,而全关注注意力可以利用单词的所有历史信息得到加权系数,同时降低维度提高效率;层叠注意力模型旨在将另一种注意力机制置于现有的文档级注意力之上;这些采用注意力机制的端到端模型,都取得了优异的成绩;
现有的机器阅读理解模型大多都采用预训练语言模型作为编码器端,它克服了机器阅读理解数据不足的弊端,利用大量语料数据建立有效模型再迁移到目标任务中,大大缩短了模型的训练时间并有效优化指定任务,这对目标任务给予了巨大的贡献;在强大的预训练语言模型上,只需要替换输出层即可得到适用于各种机器阅读理解任务的模型,并取得惊人的效果;一个划时代的预训练语言模型——BERT,在机器阅读理解等自然语言处理任务上引起了巨大的反响;BERT的本质是一个多层的Transformer结构,编码出来的单词向量包含了其上下文的信息;BERT模型采用了两个无监督学习的预训练任务,一个是双向语言模型,另一个是判断下一段文本;双向语言模型采用掩码机制,在一段文本中随机选取15%的单词,用[MASK]掩码符号代替;利用多层Transformer来预测被掩码位置的单词;判断下一段文本任务如同其字面意思,即判断两段文本中的第二段是否是第一段的下一段文本;后续相继出现了BERT类似的预训练语言模型,ALBERT,RoBERTa等;ALBERT解决了预训练语言模型参数量过大的问题,即运用矩阵分解和层之间参数共享的方式;同时还将预测下一句话的任务取消,用语句顺序预测任务代替,正例与预测下一句话任务相同,负例则选取相同主题下的两个连续句子并交换顺序;RoBERTa则引入更多的数据,训练更大的模型。
为此,本发明利用上述技术解决现有的技术,以提供出本发明的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法。
发明内容
本发明的目的是提供一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,用于解决上述背景技术中的现有技术问题。
为了实现上述目的,本发明采用了如下技术方案:
一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,包括以下步骤:
定义m个词的文章为C,含有n个词的问题为Q;
把问题Q和文章C通过分词器,并把它们拼接为定长的序列;
把拼接好的定长的序列输入到多层Transformer结构的编码器端,得到输出向量H;
将所述输出向量H按照问题和文章的长度分成问题序列HQ和文章序列HC
采用不同大小的卷积核,分别对文章和问题进行不同语义空间下的特征提取,得到局部表示向量ck和qk
通过注意力机制计算局部表示的相似度矩阵Sk
选取第i个文章单词和第j个问题单词相似度最大值构成最显著的相似度分数矩阵Sij
通过双向融合注意力机制,得到基于问题的文章表示Q based C和基于文章的问题表示C based Q;将基于文章的问题表示C based Q和经过门机制得到的基于问题的文章表示Q based C拼接表示为拼接向量V;
把经过注意力机制后得到的拼接向量V,记为细粒度向量,模拟人类精读时的效果,把从编码器端得到的输出向量H序列记为粗粒度向量,模拟人类略读时的结果;采用跳跃连接将粗粒度向量H与细粒度向量V构成残差结构,输出得到包含粗细两种粒度的语义向量I;
将语义向量I输入全连接层得到每个单词的start logit和end logit;用粗粒度向量H中每个序列的句向量获取class logit;进行训练,且在在训练的过程中,用交叉熵损失函数作为训练目标;
对于问题的可回答性,通过训练一个分类任务,赋予每个问题一个可回答分数;问题的可回答性是二分类任务,在训练的过程中采用二分类的交叉熵损失函数Lossclass
得到分类分数scoreclass
得到跨度提取的分数scoreext
所述scoreclass和scoreext加和取均值得到最终的问题可回答性分数,如果该分数高于阈值,则认为问题有答案,并把得到的跨度预测赋予该问题;相反,如果小于,则问题不可回答。
优选的,其中,把问题Q和文章C通过分词器,并把它们拼接为定长的序列,还包括:
起始位置用[CLS]来标识;
Q和C之间用标识符[SEP]隔开;
C的结尾同样用[SEP]标识;
如果序列过长则截断;
如果序列没有达到定长,则用[PAD]补齐。
优选的,所述编码器端为ALBERT模型。
优选的,所述多层Transformer结构中输入有带有编码特征的向量序列E={e1,e2,…,es};
所述多层Transformer结构中的每一层均包括有两部分,一部分是多头注意力,另一部分是前馈层。
优选的,所述局部表示向量ck和qk分别表示为:
ck=Conv1Dk(HC);
qk=Conv1Dk(HQ);
其中,k=1,3,5大小的卷积核,ck∈Rm×s,qk∈Rn×s
其中,Conv是卷积,Conv1D指一维卷积;qk∈Rn×s中,n和s指qk的空间维度是n行s列,n是问题的长度,s是最大序列长度,在ck的空间维度中,m代表文章的长度。
优选的,所述相似度矩阵Sk表示为:
Sk=ck·qk
其中,Sk∈Rm×n,表示第k个卷积核对应的相似度矩阵。
优选的,所述相似度分数矩阵Sij
Sij=Max([S1;S2;S3]);
其中,Sij∈Rm×n
优选的,所述Q based C和C based Q分别表示为:
Q based C representations=g⊙G+(1-g)⊙x;
C based Q representations=Q+Q⊙qa;
所述Q based C和C based Q拼接形成的拼接向量V表示为:
V=concateC[Q based C;C based Q]。
优选的,所述语义向量I表示为:
I=H+ATT(H)
其中,I∈Rs×h
优选的,所述交叉熵损失函数Lossclass表示为:
Figure GDA0004164270890000071
所述分类分数scoreclass表示为:
scoreclass=logitnull-logithas
其中,logitnull表示无答案的logit值,logithas表示有答案的logit值;
所述跨度提取的分数scoreext表示为:
scoreext_has=max(si+ej),1<i≤j≤s
scoreext_null=s1+e1
scoreext=scoreext_null-scoreext_has
其中,si和ej是问题对应每个单词的起止位置的概率。
本发明至少具备以下有益效果:
1、本发明采用不同尺度的卷积核对问题和文章分别卷积,得到不同语义空间下的特征,再分别计算同一尺度卷积核下的问题和文章的相似度分数,最后选取最大特征作为最终的相似度分数矩阵。
2、本发明提出双向融合注意力机制;不仅计算了基于问题的文章表示向量,同时利用提出的针对问题的层叠注意力机制,计算基于文章的问题向量表示,并进行融合拼接以预测答案。
3、本发明提出残差结构来连接从预训练语言模型输出的具有原始语义的特征向量,和经过我们提出的双向融合注意力机制得到的突出关键部分的特征向量,以对文章进行跨度提取。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的框架示意图;
图2为本发明的双向融合注意力机制示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明为一种一种基于残差结构和双向融合注意力的跨度提取阅读理解方法。
整体的,本发明关注的是机器阅读理解的跨度提取任务。
我们定义一篇有m个词的文章为C={c1,c2,…,cm},含有n个词的问题为Q={q1,q2,…,Qn};
对于可回答的问题,我们返回一个开始位置和结束位置代表正确答案是一段连续的文本A={cbegin,…,cend};对于不可回答问题,我们则赋予其一个空的字符来标记它没有答案,即A=[]。
1.编码层
首先,把问题Q和文章C通过分词器,并把它们拼接为定长的序列,起始位置用[CLS]来标识,问题Q和文章C之间用标识符[SEP]隔开,文章C的结尾同样用[SEP]标识;如果序列过长则截断;如果序列没有达到定长,则用[PAD]补齐;
把生成的序列作为输入送到编码器端,并将E={e1,e2,…,es}作为带有编码特征的向量序列,送到多层Transformer结构中;其中每一层包含两部分,一部分是多头注意力,另一部分是前馈层;把最终经过多层Transformer得到的编码器的输出向量H={h1,h2,…,hs}表示;
本实施例中,编码器端为ALBERT模型。
2.双向融合注意力层
把从编码器的最后一层得到的输出向量H,按问题和文章的长度分成两个序列,HQ={h1,h2,…,hn+1},HC={hn+2,hn+3,…,hs-(n+1)}
2.1相似度矩阵
我们调查了大部分做注意力机制的两种相似度矩阵的计算方式,并提出了一种新型的更可靠更有解释性的计算方法;接下来,我们将分别叙述以上提到的方法;
第一种相似度矩阵计算方法是以双向注意力流为模型代表的相似度计算;计算从文章到问题的交互信息,对于每个文章单词,模型重点关注与其语义相近的问题单词;文章中的第i个单词和问题中第j个单词的注意力分数为:
Figure GDA0004164270890000101
其中,ci⊙qj表示两个向量的每一维度分别相乘得到的向量,Sij∈Rm×n;若WS=[0,…,0;0,…,0;1,…,1],则Sij代表ci和qj的内积;因此,WS的使用扩展了内积注意力函数。
第二种相似度矩阵计算方法是以层叠注意力为模型代表的相似度计算;采用点积计算第i个文章单词和第j个问题单词之间的pair-wise相似度分数:
Figure GDA0004164270890000102
其中,Sij∈Rm×n
不同于以上两种做法,我们的方法首先采用不同大小的卷积核,分别对文章和问题进行不同语义空间下的特征提取,得到一系列的局部表示向量,如式(3)-(4);为了保持大小一致,我们用零填充的方式在卷积方向上的每条边加入[PAD],使得输入和输出维度相同;
ck=Conv1Dk(HC) (3)
qk=Conv1Dk(HQ) (4)
其中,k=1,3,5大小的卷积核,ck∈Rm×s,qk∈Rn×s;之后,如式(5)的做法,通过注意力机制计算局部表示的相似度矩阵Sk
Sk=ck·qk (5)
其中,Sk∈Rm×n,表示第k个卷积核对应的相似度矩阵;为选取某个语义空间下最高的相似度分数,选取第i个文章单词和第j个问题单词相似度最大值构成最显著的相似度分数矩阵Sij,如下面式(6)所示;
Sij=Max([S1;S2;S3]) (6)
其中,Sij∈Rm×n
2.2双向融合注意力机制
这部分,我们的目标是得到基于问题的文章表示Q based C和基于文章的问题表示C based Q,文章和问题可以充分地交换信息但又保持原有信息不被改变,突出关键部分;
基于问题的文章表示Q based C:受之前获得好评的注意力模型双向注意力流的影响,我们构建文章到问题和问题到文章注意力来获得基于问题的文章表示Q based C;通过不同大小的卷积核进行卷积和最大化得到的相似度矩阵S,我们对行做softmax得到矩阵S1,如式(7),计算对于每个文章词,哪个问题词与其最相关;文章到问题的注意力则会突出该问题词的特征,如式(8)所示;类似的,我们先对行取最大值,然后再对列做softmax得到矩阵S2,如式(9),以用来表示哪一个文章词对问题词中的某个词最相关,则证明该词对回答问题至关重要;问题到文章的注意力则根据对问题词相关的文章词来突出文章词的特征,如式(10)所示;
S1=softmax(S) (7)
Acq=S1·Q (8)
S2=softmax(max(S)) (9)
Aqc=S2·C (10)
最后,我们采用如式的融合方式得到最后的基于问题的文章表示Q based C:
G=[C;Acq;C·Acq;C·Aqc] (11)
为了模拟人类阅读时的遗忘与记忆更新的行为,我们将富含丰富语义信息的文章表示通过门机制实现;把融合后的基于问题的文章表示Q based C经过激活函数,得到判断是否记忆还是遗忘的更新向量x,如式(12);再将G和突出问题词特征的Acq注意力通过sigmoid函数生成权重g,如式(13),用来决定更新和遗忘部分与融合后的文章表示向量的权重,如式(14)所示;
x=tanh(Wx·G+bx) (12)
g=sigmoid(Wg[G;Acq]+bg) (13)
Q based C representations=g⊙G+(1-g)⊙x (14)
基于文章的问题表示Q based C:受层叠注意力机制的启发,我们提出针对于问题的层叠注意力,突出问题词的关键部分,得到基于文章的问题词表示C based Q;同式(7),我们对相似度矩阵S的行做softmax得到S1;然后对S的列做softmax并在问题词的方向求均值得到S3,如式(15);再通过式(16),计算在关注第i个文章词时,问题词基于突出文章词的注意力加权和qa;如式(17),把问题词表示与突出关键部分的问题词表示结合,得到最终的基于文章的问题表示C based Q;
S3=mean(softmax(S)) (15)
qa=S1·S3 (16)
C based Q representations=Q+Q⊙qa (17)
将基于文章的问题表示C based Q和上述经过门机制得到的基于问题的文章表示Q based C拼接成和从编码器端生成的向量同等长度的表示拼接向量V,如式(18);
V=concateC[Q based C;C based Q] (18)
其中V∈Rs×h
3.残差结构
人类在进行阅读时,通常会采用略读和精读两种阅读模式;因此,我们把经过注意力机制后得到的拼接向量V记为细粒度向量表示作为模拟人类精读时的效果,把从编码器端得到的输出向量H序列作为粗粒度向量表示,模拟人类略读时的结果;我们采用跳跃连接将输出向量H与拼接向量V构成残差结构,如式(19)所示,用来最终判断序列中的每个单词作为起始位置的概率;这不同于以往的做法,即只通过基于问题的文章表示Q based C得到概率的方法;它能更好地融合原有信息,又能得到关键部分的语义信息,帮助我们从粗细两种粒度上定位并准确提取答案跨度的语义向量I;
I=H+ATT(H) (19)
其中,I∈Rs×h
4.答案预测层
4.1答案提取
经过上述的阅读过程,我们得到最终包含粗细两种粒度的语义向量I,将它送入全连接层,分别得到每个单词的start logit和end logit;同时,为了与判断问题是否可回答的分类任务相耦合,我们用输出向量H中每个序列的句向量获取class logit;在训练的过程中,我们用交叉熵损失函数作为训练目标,如式(20),训练三种损失,最终取平均值作为最终的损失进行优化
Figure GDA0004164270890000141
其中,
Figure GDA0004164270890000142
和/>
Figure GDA0004164270890000143
分别是第i个问题起止位置的真实位置标签,N是问题的个数.
4.2答案分类
参考现有Retro-Reader模型中的处理方法,对于问题的可回答性,我们通过预训练语言模型训练一个分类任务,赋予每个问题一个可回答分数;问题的可回答性是二分类任务,在训练的过程中我们采用二分类的交叉熵损失函数,如下述式(21):
Figure GDA0004164270890000144
其中,y′i是预测的第i个问题的可回答性,yi是第i个问题标记的可回答性,N是问题的个数;
4.3答案预测
参考现有Retro-Reader模型中的基于阈值的答案验证的计算分数的方法,最终用式(22)得到问题是否可回答的分类分数;用式(23)-(25)得到跨度提取的分数;
scoreclass=logitnull-logithas (22)
scoreext_has=max(si+ej),1<i≤j≤s (23)
scoreext_null=s1+e1 (24)
scoreext=scoreext_null-scoreext_has (25)
其中,logitnull表示无答案的logit值,logithas表示有答案的logit值;si和ej是问题对应每个单词的起止位置的概率
最后,scoreclass和scoreext加和取均值得到最终的问题可回答性分数,如果该分数高于阈值,则认为该问题有答案,并把得到的跨度预测赋予该问题;相反,如果小于,则该问题不可回答。
5.总结
本发明最主要的是提出多语义空间下的相似度计算、双向融合注意力机制和残差结构;具体包括:
(1)本申请采用不同尺度的卷积核对问题和文章分别卷积,得到不同语义空间下的特征,再分别计算同一尺度卷积核下的问题和文章的相似度分数,最后选取最大特征作为最终的相似度分数矩阵;
(2)本申请为了实现双向阅读,提出双向融合注意力机制;不仅计算了基于问题的文章表示向量,同时利用提出的针对问题的层叠注意力机制,计算基于文章的问题表示Cbased Q,并进行融合拼接以预测答案;
(3)本申请提出残差结构,连接从预训练语言模型输出的具有原始语义的特征向量,和经过我们提出的双向融合注意力机制得到的突出关键部分的特征向量,以对文章进行跨度提取。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (10)

1.一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,包括以下步骤:
定义m个词的文章为C,含有n个词的问题为Q;
把问题Q和文章C通过分词器,并把它们拼接为定长的序列;
把拼接好的定长的序列输入到多层Transformer结构的编码器端,得到输出向量H;
将所述输出向量H按照问题和文章的长度分成问题序列HQ和文章序列HC
采用不同大小的卷积核,分别对文章和问题进行不同语义空间下的特征提取,得到局部表示向量ck和qk
通过注意力机制计算局部表示的相似度矩阵Sk
选取第i个文章单词和第j个问题单词相似度最大值构成最显著的相似度分数矩阵Sij
通过双向融合注意力机制,得到基于问题的文章表示Q based C和基于文章的问题表示C based Q;将基于文章的问题表示C based Q和经过门机制得到的基于问题的文章表示Q based C拼接表示为拼接向量V;
把经过注意力机制后得到的拼接向量V,记为细粒度向量,模拟人类精读时的效果,把从编码器端得到的输出向量H序列记为粗粒度向量,模拟人类略读时的结果;采用跳跃连接将粗粒度向量H与细粒度向量V构成残差结构,输出得到包含粗细两种粒度的语义向量I;
将语义向量I输入全连接层得到每个单词的start logit和end logit;用粗粒度向量H中每个序列的句向量获取class logit;进行训练,且在训练的过程中,用交叉熵损失函数作为训练目标;
对于问题的可回答性,通过训练一个分类任务,赋予每个问题一个可回答分数;问题的可回答性是二分类任务,在训练的过程中采用二分类的交叉熵损失函数Lossclass
得到分类分数scoreclass
得到跨度提取的分数score ext
所述scoreclass和scoreext加和取均值得到最终的问题可回答性分数,如果该分数高于阈值,则认为问题有答案,并把得到的跨度预测赋予该问题;相反,如果小于,则问题不可回答。
2.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,其中,把问题Q和文章C通过分词器,并把它们拼接为定长的序列,还包括:
起始位置用[CLS]来标识;
Q和C之间用标识符[SEP]隔开;
C的结尾同样用[SEP]标识;
如果序列过长则截断;
如果序列没有达到定长,则用[PAD]补齐。
3.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述编码器端为ALBERT模型。
4.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述多层Transformer结构中输入有带有编码特征的向量序列E={e1,e2,...,es};
所述多层Transformer结构中的每一层均包括有两部分,一部分是多头注意力,另一部分是前馈层。
5.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述局部表示向量ck和qk分别表示为:
ck=Conv1Dk(HC);
qk=Conv1Dk(HQ);
其中,k=1,3,5大小的卷积核,ck∈Rm×s,qk∈Rn×s
其中,Conv是卷积,Conv1D指一维卷积;qk∈Rn×s中,n和s指qk的空间维度是n行s列,n是问题的长度,s是最大序列长度,在ck的空间维度中,m代表文章的长度。
6.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述相似度矩阵Sk表示为:
Sk=ck·qk
其中,Sk∈Rm×n,表示第k个卷积核对应的相似度矩阵。
7.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述相似度分数矩阵Sij
Sij=Max([S1;S2;S3]);
其中,Sij∈Rm×n
8.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述Q based C和C based Q分别表示为:
Q based C representations=g⊙G+(1-g)⊙x;
C based Q representations=Q+Q⊙qa;
其中,Q based C为基于问题的文章表示,C based Q为基于文章的问题表示,qa是问题词基于突出文章词的注意力加权和;
所述Q based C和C based Q拼接形成的拼接向量V表示为:
V=concate[Q based C;C based Q]。
9.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述语义向量I表示为:
I=H+ATT(H)
其中,I∈Rs×h,H为输出向量。
10.根据权利要求1所述的一种基于残差结构和双向融合注意力的跨度提取阅读理解方法,其特征在于,所述交叉熵损失函数Lossclass表示为:
Figure FDA0004133587100000041
其中,y′i是对第i个问题可回答性的预测,yi是第i个问题标签标记的可回答性,N是问题的个数;
所述分类分数scoreclass表示为:
scoreclass=logitnull-logithas
其中,logitnull表示无答案的logit值,logithas表示有答案的logit值;
所述跨度提取的分数scoreext表示为:
scoreext_has=max(si+ej),1<i≤j≤s
scoreext_null=s1+e1
scoreext=scoreext_null-scoreext_has
其中,si和ej是问题对应每个单词的起止位置的概率。
CN202210599756.7A 2022-05-30 2022-05-30 基于残差结构和双向融合注意力的跨度提取阅读理解方法 Active CN115080715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210599756.7A CN115080715B (zh) 2022-05-30 2022-05-30 基于残差结构和双向融合注意力的跨度提取阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210599756.7A CN115080715B (zh) 2022-05-30 2022-05-30 基于残差结构和双向融合注意力的跨度提取阅读理解方法

Publications (2)

Publication Number Publication Date
CN115080715A CN115080715A (zh) 2022-09-20
CN115080715B true CN115080715B (zh) 2023-05-30

Family

ID=83248437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210599756.7A Active CN115080715B (zh) 2022-05-30 2022-05-30 基于残差结构和双向融合注意力的跨度提取阅读理解方法

Country Status (1)

Country Link
CN (1) CN115080715B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108153B (zh) * 2023-02-14 2024-01-23 重庆理工大学 一种基于门控机制的多任务联合训练机器阅读理解方法
CN117151084B (zh) * 2023-10-31 2024-02-23 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
WO2021139297A1 (zh) * 2020-07-28 2021-07-15 平安科技(深圳)有限公司 基于Transformer模型的问答方法、问答装置及存储装置
CN114398976A (zh) * 2022-01-13 2022-04-26 福州大学 基于bert与门控类注意力增强网络的机器阅读理解方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657094B2 (en) * 2019-06-28 2023-05-23 Meta Platforms Technologies, Llc Memory grounded conversational reasoning and question answering for assistant systems
CN112417089B (zh) * 2019-08-21 2022-12-09 东北大学秦皇岛分校 一种基于深度学习的高并行性阅读理解的方法
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
CN112287105B (zh) * 2020-09-30 2023-09-12 昆明理工大学 融合标题和正文双向互注意力的涉法新闻相关性分析方法
CN112732879B (zh) * 2020-12-23 2022-05-10 重庆理工大学 一种问答任务的下游任务处理方法及模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
WO2021139297A1 (zh) * 2020-07-28 2021-07-15 平安科技(深圳)有限公司 基于Transformer模型的问答方法、问答装置及存储装置
CN114398976A (zh) * 2022-01-13 2022-04-26 福州大学 基于bert与门控类注意力增强网络的机器阅读理解方法

Also Published As

Publication number Publication date
CN115080715A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
Jiao et al. Higru: Hierarchical gated recurrent units for utterance-level emotion recognition
CN111611377B (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN115080715B (zh) 基于残差结构和双向融合注意力的跨度提取阅读理解方法
CN109885671B (zh) 基于多任务学习的问答方法
US11580975B2 (en) Systems and methods for response selection in multi-party conversations with dynamic topic tracking
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN117009490A (zh) 基于知识库反馈的生成式大语言模型的训练方法和装置
CN111914553B (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN114756681B (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN111400461A (zh) 智能客服问题匹配方法及装置
Chen et al. Deep neural networks for multi-class sentiment classification
CN115510814A (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN115661842A (zh) 一种基于动态自适应推理的指称目标检测定位方法
Xu et al. Convolutional neural network using a threshold predictor for multi-label speech act classification
CN113127604B (zh) 基于评论文本的细粒度物品推荐方法及系统
CN113836269A (zh) 一种基于问答式系统的篇章级核心事件抽取方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN114840679A (zh) 一种基于乐理知识图谱推理的机器人智能导学方法及应用
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
Dehaqi et al. Adversarial image caption generator network
Ahmed Combining neural networks with knowledge for spoken dialogue systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant