CN110929515B - 基于协同注意力和自适应调整的阅读理解方法及系统 - Google Patents
基于协同注意力和自适应调整的阅读理解方法及系统 Download PDFInfo
- Publication number
- CN110929515B CN110929515B CN201911148081.9A CN201911148081A CN110929515B CN 110929515 B CN110929515 B CN 110929515B CN 201911148081 A CN201911148081 A CN 201911148081A CN 110929515 B CN110929515 B CN 110929515B
- Authority
- CN
- China
- Prior art keywords
- document
- attention
- vector
- word
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims abstract description 131
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 17
- 230000008447 perception Effects 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 15
- 235000019580 granularity Nutrition 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 16
- 150000001875 compounds Chemical class 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000013257 coordination network Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于协同注意力和自适应调整的阅读理解方法及系统,属于机器阅读理解技术领域,其特征在于,包含:S1、输入文档词向量和问题词向量并进行训练,词向量包含字符级嵌入和词嵌入两个粒度;S2、使用余弦相似度计算问题与文档的相似度权重,根据相似度权重对文档词嵌入进行自适应调整;S3、将文档词向量和问题词向量通过多层双向门控循环单元进行编码;S4、对文档和问题使用协同注意力机制,获取带有问题感知的文档向量表示query‑aware和带有文档感知的问题向量表示para‑aware;S5、使用自注意力机制学习文档和问题的内部依赖关系,获取新的语义向量表示;S6、使用注意力作为指针,预测答案的开始位置和结束位置,根据答案跨度抽取答案序列。
Description
技术领域
本发明属于机器阅读理解技术领域,特别是涉及一种基于协同注意力和自适应调整的阅读理解方法及系统。
背景技术
在自然语言处理和人工智能研究中,机器阅读理解注重考察对自然语言的理解能力和推理能力,是一项具有挑战性的任务。机器阅读理解是指以自然语言的形式给出文档和问题,机器通过对自然语言的理解和推理返回正确的答案。根据问题的类型,阅读理解任务可以分为三类:答案选择型、完型填空型和问答型。答案选择型旨在根据机器对文档和问题的理解,从多个候选答案中选出与文档语义最相近的选项作为正确答案。完型填空型是指使用一个占位符替换文档中的一个实体,通过理解上下文,选择最合适的实体填充问题中的占位符。问答型阅读理解需要机器阅读文档和问题后进行推理,自动生成答案。
针对答案选择型阅读理解任务,通常高度依赖于特征工程,无法直接建立端到端的深层模型。针对完型填空型阅读理解任务,通常只需要理解问题附近的文档信息,不需要对文档进行通篇阅读,不足以评估现有的阅读理解技术。为了满足对大型高质量阅读理解数据集的需求,问答式阅读理解数据集随之发布,基于注意力的神经网络模型已经成为阅读理解自动问答的一项普遍的研究课题。
单向注意力模型可以获取更多与文档相关的问题信息,但是无法利用单向注意力将上下文信息融入问题中,导致文档和问题的综合语义向量表示不准确。双向注意力模型可以实现问题和文档信息的交互。但往往忽略使用循环神经网络聚合长文本序列导致的信息丢失问题,影响模型的性能。
发明内容
本发明为了解决背景技术中提及到的技术问题,在精确匹配和模糊匹配指标上均得到显著提升,为此提出一种基于协同注意力和自适应调整的阅读理解方法及系统。
为了解决上述技术问题,本发明的技术方案为:
本专利的第一发明目的是提供一种基于协同注意力和自适应调整的阅读理解方法,包含下列步骤:
S101、输入文档词向量和问题词向量并进行训练,词向量包含字符级嵌入和词嵌入两个粒度;
S102、使用余弦相似度计算问题与文档的相似度权重,根据相似度权重对文档词嵌入进行自适应调整;
S103、将文档词向量和问题词向量通过多层双向门控循环单元进行编码;
S104、对文档和问题使用协同注意力机制,获取带有问题感知的文档向量表示query-aware和带有文档感知的问题向量表示para-aware;
S105、使用自注意力机制学习文档和问题的内部依赖关系,获取新的语义向量表示;
S106、使用注意力作为指针,预测答案的开始位置和结束位置,根据答案跨度抽取答案序列。
进一步,所述S101具体为:使用预训练好的GloVe模型进行训练生成词嵌入;将单词中的字符输入到BiGRU中进行计算生成字符级嵌入,将词嵌入和字符级嵌入进行拼接,输出文档词向量表示:p={p1,p2,…,pT},问题词向量表示:q={q1,q2,…,qL};对于单词X,其词向量表示为:[Xw;Xc]∈Rd,其中,Xw表示词嵌入,Xc表示字符级嵌入,符号[a;b]表示将向量a和向量b水平连接。
所述步骤102为:利用余弦相似度计算<文档,问题>单词对的相关性概率分布矩阵rtl,求取每一列的最大值rt作为文档中第t个单词与问题序列的相关权重。将文档词向量与权重相乘进行自适应调整,使重要词汇携带更多信息,生成新的文档词向量矩阵将输入到下一层。
所述S103为:将文档词向量矩阵和问题词向量矩阵输入双向门控循环单元中进行编码,输出文档和问题的特征矩阵表示。
所述S104为:融合文档和问题信息,生成注意力概率分布矩阵O,对注意力概率分布矩阵O按行归一化,得到文档注意力矩阵;按列归一化,得到问题注意力矩阵,将文档注意力矩阵应用于问题中,再用加入了注意力信息的问题矩阵替换原向量矩阵,再次对文档进行注意力计算;合并两次计算,生成基于协同注意力的问题和文档的相互依赖表示;加入文档特征信息,生成带有问题感知的文档向量表示;用同样的方式,计算带有文档感知的问题向量表示。
所述S105为:对感知向量表示使用自注意力机制动态收集序列内部的信息,聚合匹配向量,实现每个单词与段内其他单词的信息交互;
所述S106为:将问题聚合向量作为初始隐藏状态,以注意力机制为指针,将最大注意力得分所在的位置作为答案的开始位置,将当前注意力加权向量作为输入,使用双向门控循环单元学习带有答案开始位置信息的上下文语境向量作为预测答案结束位置的初始隐藏状态,再次使用注意力指针预测答案的结束位置。
本专利的第二发明目的是提供一种基于协同注意力和自适应调整的阅读理解系统,包括:
输入模块:将文档词向量和问题词向量作为输入进行训练,词向量包含字符级嵌入和词嵌入两个粒度;
过滤模块:使用余弦相似度计算问题与文档的相似度权重,根据相似度权重对文档词嵌入进行自适应调整;
编码模块:将文档向量和问题向量通过多层双向门控循环单元进行编码;
协同注意力模块:对文档和问题使用协同注意力机制,获取带有问题感知的文档向量表示query-aware和带有文档感知的问题向量表示para-aware;
自注意力模块:使用自注意力机制学习文档和问题的内部依赖关系,获取新的语义向量表示;
预测模块:使用注意力作为指针,预测答案的开始位置和结束位置,根据答案跨度抽取答案序列。
本专利的第三发明目的是提供一种实现上述基于协同注意力和自适应调整的阅读理解方法的计算机程序。
本专利的第四发明目的是提供一种实现上述基于协同注意力和自适应调整的阅读理解方法的信息数据处理终端。
本专利的第五发明目的是提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的基于协同注意力和自适应调整的阅读理解方法。
本发明的优点及积极效果为:
本发明利用余弦相似度加强与问题相关文本的特征表示,借助协同注意力机制捕获文档和问题中的相关信息,使用自注意力机制学习当前时间步骤与上下文的关系,获取问题和文档的自匹配向量表示。该模型对于精确匹配和模糊匹配均具有较高性能,具有一定的应用价值。
附图说明
图1为本发明优选实施例的流程图;
图2为本发明优选实施例中不同学习率下的EM值;
图3为本发明优选实施例中不同学习率下的F1值。
具体实施方式
为能进一步了解本发明的发明内容、特点及功效,兹例举以下实施例,并配合附图详细说明如下。
下面结合附图1至图3对本发明的结构作详细的描述。
一种基于协同注意力和自适应调整的阅读理解方法,包含下列步骤:
步骤101中,将文档词向量和问题词向量作为输入进行训练,词向量包含字符级嵌入和词嵌入两个粒度;
具体步骤如下:
将单词转换成一个d维的向量,该向量包括词嵌入和字符级嵌入两个粒度。词嵌入由预训练好的GloVe模型训练而成;字符级嵌入通过将单词中的字符输入到双向门控循环单元中计算得到。将生成的文档词向量表示:p={p1,p2,…,pT},问题词向量表示:q={q1,q2,…,qL}作为输入,捕获语义特征。
步骤102中,使用余弦相似度计算问题与文档的相似度权重,根据相似度权重对文档词嵌入进行自适应调整;
具体步骤如下:
首先利用余弦相似度计算<文档,问题>单词对的相关性概率分布矩阵:
式中,pt∈p,ql∈q。
步骤103中,将文档向量和问题向量通过多层双向门控循环单元进行编码;
具体步骤如下:
将文档向量和问题向量分别输入双向门控循环单元中进行编码,对输出向量进行水平拼接,生成特征矩阵表示。
步骤104中,对文档和问题使用协同注意力机制,获取带有问题感知的文档向量表示(query-aware)和带有文档感知的问题向量表示(para-aware);
具体步骤如下:
将O按行归一化,得到关于文档的问题注意力分数矩阵Oq;按列归一化,得到关于问题的文档注意力分数矩阵Op:
Oq=softmax(row(O))∈RT×L (3)
Op=softmax(col(O))∈RL×T (4)
将文档注意力矩阵应用于问题中,如式(5)所示:
使用加入了注意力信息的问题矩阵替换原向量矩阵,再次对文档进行注意力计算:
步骤105中,使用自注意力机制学习文档和问题的内部依赖关系,获取新的语义向量表示;
具体步骤如下:
使用自注意力动态地收集序列内部的信息,聚合匹配向量,使得序列的每个时间步长可以与段内其他位置实现信息交互,如式(7)~(9)所示:
将DP与cP进行拼接,经过双向门控循环单元得到文档融合上下文信息的语义向量表示。
采用同样的计算方式,生成问题融合上下文信息的语义向量表示。
步骤106中,使用注意力作为指针,预测答案的开始位置和结束位置,根据答案跨度抽取答案序列。
具体步骤如下:
pstart=max(a1,a2,…,aT) (12)
将当前预测概率的注意力加权向量作为输入,使用BiGRU学习新的带有答案开始位置信息的上下文语境向量作为预测答案结束位置的初始隐藏状态:
采用同样地计算方式选择答案的结束位置。
实施例:
为了验证本模型的性能,本发明人设计了相应的实施例,与基于匹配长短时记忆网络和应答指针的端到端神经网络(Match-LSTM)、基于自匹配网络的阅读理解模型(R-Net)、动态协调网络(DCN)、双向注意流神经网络模型(BiDAF)、简单有效的多段落阅读理解模型(S-Norm)进行了对比;实验从学习率和随机失活两个角度考虑,验证了不同参数对模型准确率的影响。
对比一:为验证本文所提模型CARC在机器阅读理解领域的有效性,设计对比实验评价协调注意力和自适应调整阅读理解模型的性能。实验使用SQuAD数据集进行验证。实验结果如表1所示。
表1模型性能对比
根据表1可以看出,本文提出的CARC模型的性能最好,在验证集和测试集均有所提升,精确匹配率达到72.9%,模糊匹配率高达81.8%。Match-LSTM模型的性能最差,它通过软注意力(soft-attention)对问题和文档内容进行交互,语义表示能力较差。它利用序列(Sequence)模型和边界(Boundary)模型两种方式生成答案,验证了Boundary模型的预测能力相对较好。R-Net模型比Match-LSTM模型表现优异,因为它在使用注意力的基础上添加门控机制,加强了问题与文档的关联度。而本文提出的基于协同注意力和自适应调整的模型通过使用协同注意力机制,分别从问题角度和文档角度重点关注重要信息,进一步增强了文档和问题的相互联系,在测试集上比R-Net模型的精确匹配率提高了0.6%,模糊匹配率提高了1.1%,验证了本文提出的CARC模型的有效性。DCN模型和BiDAF模型均使用了双向注意力。DCN模型采用动态迭代的方式反复思考问题提升模型预测能力。BiDAF模型通过多阶段、层次化的方式获取多粒度的文档特征,增强文档的语义表示。但是,它们仅使用双向长短时记忆网络(BiLSTM)对文档信息进行聚合,降低了模型的表示能力,所以它们的性能一般。而本文通过对文档和问题使用自注意力机制,减少了文档长度对模型的影响,很好的表示了自匹配向量,在测试集上比DCN模型精确匹配率提高了6.7%,模糊匹配率提高了5.9%,比BiDAF模型精确匹配率提高了4.9%,模糊匹配率提高了4.5%,验证了CARC模型的有效性。S-Norm模型为了增强文档与问题的相关度,抽取多个相关段落完成阅读理解任务,但是被忽略的段落中可能与文档上下文或问题存在潜在的关联,导致模型性能下降。而本文利用自适应调整加强文档中重要信息的特征,比S-Norm模型精确匹配率提高了6.7%,模糊匹配率提高了5.9%。
对比二:学习率在深度学习中起着重要的作用,决定了目标函数收敛到局部最小值的能力与速度。若学习率设置的过小,会导致收敛过程缓慢。若学习率设置的过大,会导致梯度来回震荡,甚至无法收敛,降低模型性能。合适的学习率可以帮助目标函数快速的收敛到局部最小值。实验中学习率的大小分别设置为:0.01,0.001,0.0001,迭代次数设为5万次,实验数据使用SQuAD中的测试集。图1、图2展示了不同学习率取值对EM值和F1值的影响。
根据图2可得,横坐标表示迭代次数,纵坐标表示答案预测的精确匹配能力。根据曲线可以看出,当learning_rate=0.01时,迭代2.5万次时EM值达到71.3%,但是2.5万次以后曲线不稳定,模型性能一般。当learning_rate=0.0001时,迭代5万次曲线一直处于上升阶段,仍未收敛,模型性能最差。当learning_rate=0.001时,迭代4万次时EM值达到72.7%,最先收敛,模型精确匹配率最高。根据图3可得,横坐标表示迭代次数,纵坐标表示答案预测的模糊匹配能力。可以看出,当learning_rate=0.001时收敛速度最快,F1值取得最大值,模糊匹配能力最好。综合图2、图3可以得出,学习率取0.001时模型的理解和推理能力最好。
对比三:为了防止过拟合的发生,设置合适的随机失活值至关重要。随机失活值设置过高或过低都会影响模型的性能。合适的随机失活值可以控制训练集的训练精度,提高模型精度。实验在训练集和测试集上进行验证,迭代次数为5万次,随机失活选取了0.5,0.6,0.65,0.7,0.8五个不同的数值进行对比。实验结果如表2所示。
表2随机失活对模型性能的影响
根据表2可以看出,当随机失活值取0.8时,训练集和测试集的损失函数值相差最大,模型的表现较差。随着随机失活的减小,损失函数的差距减小,模型的性能逐渐提升。当随机失活值降低到0.6时,准确率达到最高值。当随机失活值取0.5时,在训练集和测试集上模型的性能都表现的最差。实验证明,当随机失活值取0.6时,协同注意力机器阅读理解模型具有最好的答案预测效果。
通过全面的对比不同参数对模型指标以及收敛时间的影响,选取了最优参数设置。通过实验结果可知,本文提出的基于协同注意力和自适应调整的阅读理解模型在阅读理解任务中具有相对较好的性能。
本发明提供的协同注意力和自适应调整阅读理解模型(CARC)模型的基本原理如下:利用余弦相似度加强与问题相关文本的特征表示,借助协同注意力机制捕获文档和问题中的相关信息,使用自注意力机制学习当前时间步骤与上下文的关系,获取问题和文档的自匹配向量表示。实验结果表明本文提出的模型对于精确匹配和模糊匹配均具有较高性能,在机器阅读理解领域具有一定的应用价值。
一种基于协同注意力和自适应调整的阅读理解系统,包括:
输入模块:将文档词向量和问题词向量作为输入进行训练,词向量包含字符级嵌入和词嵌入两个粒度;
过滤模块:使用余弦相似度计算问题与文档的相似度权重,根据相似度权重对文档词嵌入进行自适应调整;
编码模块:将文档向量和问题向量通过多层双向门控循环单元进行编码;
协同注意力模块:对文档和问题使用协同注意力机制,获取带有问题感知的文档向量表示(query-aware)和带有文档感知的问题向量表示(para-aware);
自注意力模块:使用自注意力机制学习文档和问题的内部依赖关系,获取新的语义向量表示;
预测模块:使用注意力作为指针,预测答案的开始位置和结束位置,根据答案跨度抽取答案序列。
一种实现上述上述优选实施例中基于协同注意力和自适应调整的阅读理解方法的计算机程序。
一种实现上述优选实施例中基于协同注意力和自适应调整的阅读理解方法的信息数据处理终端。
一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述优选实施例中的基于协同注意力和自适应调整的阅读理解方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
Claims (5)
1.一种基于协同注意力和自适应调整的阅读理解方法,其特征在于,包含下列步骤:
S101、输入文档词向量和问题词向量并进行训练,词向量包含字符级嵌入和词嵌入两个粒度;具体为:使用预训练好的GloVe模型进行训练生成词嵌入;将单词中的字符输入到BiGRU中进行计算生成字符级嵌入,将词嵌入和字符级嵌入进行拼接,输出文档词向量表示:p={p1,p2,…,pT},问题词向量表示:q={q1,q2,…,qL};对于单词X,其词向量表示为:[Xw;Xc]∈Rd,其中,Xw表示词嵌入,Xc表示字符级嵌入,符号[a;b]表示将向量a和向量b水平连接;
S102、使用余弦相似度计算问题与文档的相似度权重,根据相似度权重对文档词嵌入进行自适应调整;具体步骤如下:
首先利用余弦相似度计算<文档,问题>单词对的相关性概率分布矩阵:
式中,pt∈p,ql∈q;
S103、将文档词向量和问题词向量通过多层双向门控循环单元进行编码;
S104、对文档和问题使用协同注意力机制,获取带有问题感知的文档向量表示query-aware和带有文档感知的问题向量表示para-aware;具体步骤如下:
将O按行归一化,得到关于文档的问题注意力分数矩阵Oq;按列归一化,得到关于问题的文档注意力分数矩阵Op:
Oq=softmax(row(O))∈RT×L (3)
Op=softmax(col(O))∈RL×T (4)
将文档注意力矩阵应用于问题中,如式(5)所示:
使用加入了注意力信息的问题矩阵替换原向量矩阵,再次对文档进行注意力计算:
S105、使用自注意力机制学习文档和问题的内部依赖关系,获取新的语义向量表示;具体步骤如下:
使用自注意力动态地收集序列内部的信息,聚合匹配向量,使得序列的每个时间步长与段内其他位置实现信息交互,如式(7)~(9)所示:
将DP与cP进行拼接,经过双向门控循环单元得到文档融合上下文信息的语义向量表示;采用同样的计算方式,生成问题融合上下文信息的语义向量表示;
S106、使用注意力作为指针,预测答案的开始位置和结束位置,根据答案跨度抽取答案序列;具体步骤如下:
pstart=max(a1,a2,…,aT) (12)
将当前预测概率的注意力加权向量作为输入,使用BiGRU学习新的带有答案开始位置信息的上下文语境向量作为预测答案结束位置的初始隐藏状态:
采用同样的计算方式选择答案的结束位置。
2.根据权利要求1所述的基于协同注意力和自适应调整的阅读理解方法,其特征在于,所述S103为:将文档词向量矩阵和问题词向量矩阵输入双向门控循环单元中进行编码,输出文档和问题的特征矩阵表示。
3.一种基于协同注意力和自适应调整的阅读理解系统,其特征在于,包括:
输入模块:将文档词向量和问题词向量作为输入进行训练,词向量包含字符级嵌入和词嵌入两个粒度;具体为:使用预训练好的GloVe模型进行训练生成词嵌入;将单词中的字符输入到BiGRU中进行计算生成字符级嵌入,将词嵌入和字符级嵌入进行拼接,输出文档词向量表示:p={p1,p2,…,pT},问题词向量表示:q={q1,q2,…,qL};对于单词X,其词向量表示为:[Xw;Xc]∈Rd,其中,Xw表示词嵌入,Xc表示字符级嵌入,符号[a;b]表示将向量a和向量b水平连接;
过滤模块:使用余弦相似度计算问题与文档的相似度权重,根据相似度权重对文档词嵌入进行自适应调整;具体步骤如下:
首先利用余弦相似度计算<文档,问题>单词对的相关性概率分布矩阵:
式中,pt∈p,ql∈q;
编码模块:将文档向量和问题向量通过多层双向门控循环单元进行编码;
协同注意力模块:对文档和问题使用协同注意力机制,获取带有问题感知的文档向量表示query-aware和带有文档感知的问题向量表示para-aware;具体步骤如下:
将O按行归一化,得到关于文档的问题注意力分数矩阵Oq;按列归一化,得到关于问题的文档注意力分数矩阵Op:
Oq=softmax(row(O))∈RT×L (3)
将文档注意力矩阵应用于问题中,如式(5)所示:
使用加入了注意力信息的问题矩阵替换原向量矩阵,再次对文档进行注意力计算:
自注意力模块:使用自注意力机制学习文档和问题的内部依赖关系,获取新的语义向量表示;具体步骤如下:
使用自注意力动态地收集序列内部的信息,聚合匹配向量,使得序列的每个时间步长与段内其他位置实现信息交互,如式(7)~(9)所示:
将DP与cP进行拼接,经过双向门控循环单元得到文档融合上下文信息的语义向量表示;采用同样的计算方式,生成问题融合上下文信息的语义向量表示;
预测模块:使用注意力作为指针,预测答案的开始位置和结束位置,根据答案跨度抽取答案序列;具体步骤如下:
pstart=max(a1,a2,…,aT) (12)
将当前预测概率的注意力加权向量作为输入,使用BiGRU学习新的带有答案开始位置信息的上下文语境向量作为预测答案结束位置的初始隐藏状态:
采用同样的计算方式选择答案的结束位置。
4.一种实现权利要求1所述基于协同注意力和自适应调整的阅读理解方法的信息数据处理终端。
5.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的基于协同注意力和自适应调整的阅读理解方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911148081.9A CN110929515B (zh) | 2019-11-21 | 2019-11-21 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911148081.9A CN110929515B (zh) | 2019-11-21 | 2019-11-21 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929515A CN110929515A (zh) | 2020-03-27 |
CN110929515B true CN110929515B (zh) | 2023-04-18 |
Family
ID=69850578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911148081.9A Active CN110929515B (zh) | 2019-11-21 | 2019-11-21 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929515B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737457B (zh) * | 2020-05-19 | 2024-09-03 | 北京明略软件系统有限公司 | 数据表与实体的匹配方法及相关设备 |
CN111797219B (zh) * | 2020-07-07 | 2023-11-24 | 苏州大学 | 使用多通道融合模型处理答案的神经问题生成方法及系统 |
CN111966797B (zh) * | 2020-07-23 | 2023-04-07 | 天津大学 | 利用引入了语义信息的词向量进行机器阅读理解的方法 |
CN112380835B (zh) * | 2020-10-10 | 2024-02-20 | 中国科学院信息工程研究所 | 融合实体和句子推理信息的问题答案提取方法及电子装置 |
CN112434536A (zh) * | 2020-11-06 | 2021-03-02 | 合肥讯飞数码科技有限公司 | 文档理解方法、设备和存储介质 |
CN112732879B (zh) * | 2020-12-23 | 2022-05-10 | 重庆理工大学 | 一种问答任务的下游任务处理方法及模型 |
CN113011196B (zh) * | 2021-04-28 | 2023-01-10 | 陕西文都教育科技有限公司 | 一种概念增强表示与单向蕴含注意力的主观题自动阅卷神经网络模型 |
CN113312912B (zh) * | 2021-06-25 | 2023-03-31 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN113688207B (zh) * | 2021-08-24 | 2023-11-17 | 思必驰科技股份有限公司 | 基于网络的结构阅读理解的建模处理方法和装置 |
CN113704437B (zh) * | 2021-09-03 | 2023-08-11 | 重庆邮电大学 | 一种融合多头注意力机制和相对位置编码的知识库问答方法 |
US12112131B2 (en) * | 2021-09-10 | 2024-10-08 | Salesforce, Inc. | Systems and methods for factual extraction from language model |
CN113836283B (zh) * | 2021-09-24 | 2024-04-12 | 上海金仕达软件科技股份有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN114218365B (zh) * | 2021-11-26 | 2024-04-05 | 华南理工大学 | 一种机器阅读理解方法、系统、计算机及存储介质 |
CN114297987B (zh) * | 2022-03-09 | 2022-07-19 | 杭州实在智能科技有限公司 | 基于文本分类和阅读理解的文档信息抽取方法及系统 |
CN114971425B (zh) * | 2022-07-27 | 2022-10-21 | 深圳市必提教育科技有限公司 | 数据库信息监控方法、装置、设备及存储介质 |
CN116108158B (zh) * | 2023-04-13 | 2023-07-28 | 合肥工业大学 | 在线互动问答文本特征构造方法和系统 |
CN118070753A (zh) * | 2024-04-17 | 2024-05-24 | 国网江苏省电力有限公司苏州供电分公司 | 基于深度学习的gim模型与实物id匹配方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959396A (zh) * | 2018-06-04 | 2018-12-07 | 众安信息技术服务有限公司 | 机器阅读模型训练方法及装置、问答方法及装置 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
-
2019
- 2019-11-21 CN CN201911148081.9A patent/CN110929515B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959396A (zh) * | 2018-06-04 | 2018-12-07 | 众安信息技术服务有限公司 | 机器阅读模型训练方法及装置、问答方法及装置 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
Non-Patent Citations (4)
Title |
---|
N-Reader:基于双层Self-attention的机器阅读理解模型;梁小波等;《中文信息学报》;20181031;全文 * |
Sumedh Kale ; Aniket Kulkarni ; Rohan Patil ; Yashodhara Haribhakta.Open-Domain Question Answering using Feature Encoded Dynamic Coattention Networks.《 2018 International Conference on Advances in Computing, Communications and Informatics (ICACCI)》.2018, * |
T-Reader:一种基于自注意力机制的多任务深度阅读理解模型;郑玉昆等;《中文信息学报》;20181115(第11期);全文 * |
面向阅读理解任务的问答系统研究与实现;刘珮;《硕士电子期刊》;20190915;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110929515A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929515B (zh) | 基于协同注意力和自适应调整的阅读理解方法及系统 | |
US12067981B2 (en) | Adversarial learning and generation of dialogue responses | |
US12039280B2 (en) | Multi-turn dialogue response generation with persona modeling | |
KR102213478B1 (ko) | 인공 지능 학습 기반의 사용자 지식 추적 시스템 및 그것의 동작 방법 | |
US11544474B2 (en) | Generation of text from structured data | |
CN111738003B (zh) | 命名实体识别模型训练方法、命名实体识别方法和介质 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
EP3371747A1 (en) | Augmenting neural networks with external memory | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN110929532B (zh) | 数据处理方法、装置、设备及存储介质 | |
CN115146068B (zh) | 关系三元组的抽取方法、装置、设备及存储介质 | |
US20220383119A1 (en) | Granular neural network architecture search over low-level primitives | |
US12086713B2 (en) | Evaluating output sequences using an auto-regressive language model neural network | |
KR20210141424A (ko) | 인공 지능 학습 기반의 사용자 지식 추적 시스템 및 그것의 동작 방법 | |
Yang et al. | [Retracted] Research on Students’ Adaptive Learning System Based on Deep Learning Model | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN115309894A (zh) | 一种基于对抗训练和tf-idf的文本情感分类方法及装置 | |
CN114996424B (zh) | 一种基于深度学习的弱监督跨域问答对生成方法 | |
US11914967B2 (en) | Question answering models in closed domains | |
CN118070775B (zh) | 摘要生成模型的性能评测方法、装置、计算机设备 | |
CN117521674B (zh) | 对抗信息的生成方法、装置、计算机设备和存储介质 | |
EP4318271A1 (en) | Learning device, inference device, program, learning method, and inference method | |
CN118245602A (zh) | 情绪识别模型的训练方法、装置、设备及存储介质 | |
Franco et al. | Evaluation of deep neural network architectures for authorship obfuscation of Portuguese texts | |
CN118446225A (zh) | 一种基于机器问答和联合编码的情感原因对提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |