CN109492227A - 一种基于多头注意力机制和动态迭代的机器阅读理解方法 - Google Patents
一种基于多头注意力机制和动态迭代的机器阅读理解方法 Download PDFInfo
- Publication number
- CN109492227A CN109492227A CN201811365160.0A CN201811365160A CN109492227A CN 109492227 A CN109492227 A CN 109492227A CN 201811365160 A CN201811365160 A CN 201811365160A CN 109492227 A CN109492227 A CN 109492227A
- Authority
- CN
- China
- Prior art keywords
- article
- attention
- word
- layer
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 244000309464 bull Species 0.000 title abstract 2
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 230000000306 recurrent effect Effects 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 31
- 230000002457 bidirectional effect Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012804 iterative process Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical compound CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 claims 1
- 241001131927 Placea Species 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract description 2
- 238000013459 approach Methods 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于多头注意力机制和动态迭代的机器阅读理解方法,属于自然语言处理领域。机器阅读理解模型构建方法如下:构建文章和问题编码层;构建基于双向注意力流的循环神经网络;构建自注意力层以及基于动态迭代解码器预测答案输出。本发明方法可以针对机器阅读理解任务文本中的问题进行答案预测;本发明建立了一个新的端到端的神经网络模型,为机器阅读理解任务的探索提供了一种新思路。
Description
技术领域
本发明属于机器阅读理解领域,涉及一种对文章和问题进行编码,再利用双向注意力流、自注意力层和动态迭代解码器预测答案输出的方法。具体是指构建文章问题编码层、构建基于双向注意力流的循环神经网络、构建自注意力层和基于动态迭代解码器预测答案输出。
背景技术
问题回答型阅读理解任务的主要形式是给定一定词汇量的短文和基于此短文的问题,并将答案限制为原文中的一段文本片段,需要在充分理解原文的基础上,通过一定形式的逻辑推断预测问题的答案。目前该领域的主流模型主要有Match-LSTM、BiDAF和R-Net。
Wang和Jiang提出的Match-LSTM(Shuohang Wang and Jing Jiang.2017.Machinecomprehension using match-lstm and answer pointer.In Proceedings of ICLR)是较早在SQuAD数据集上进行测试的端到端的神经网络模型,使用单向LSTM进行编码,并将每个词关于问题的注意力分布和该词表示同时输入另一个LSTM,最后利用指针网络预测答案。Match-LSTM作为早期在SQuAD数据集上进行测试的模型,为后续优秀模型的设计提供了思路,但也存在诸多问题:模型仅计算了文章词向量对问题的单向注意力,损失了大量语义信息,在答案较长时表现不佳,精确匹配结果只有30%左右。
针对Match-LSTM中仅计算了单向注意力的问题,BiDAF模型(Minjoon Seo,Aniruddha Kembhavi,Ali Farhadi,and Hananneh Hajishirzi.2017.Bidirectionalattention flow for machine comprehension.In Proceedings of ICLR)引入了双向注意力机制,即进行从文章到问题和从问题到文章两种注意力计算,并通过双向LSTM进行语义信息的聚合。BiDAF在SQuAD 1.1数据集评测中取得了优异的结果,但仍存在问题:没有类似自匹配的过程,无法很好地获取上下文的依赖关系。
为强化文章内部的信息交互,R-Net模型(Microsoft Research Asia.2017.R-Net:Machine reading comprehension with self-matching networks.In Proceedingsof ACL)引入了自匹配网络。R-Net通过自注意力机制捕捉原文内部各词之间的交互信息,同时利用门控机制更好地提取和文章有关的问题信息。R-Net在SQuAD 1.1数据集评测中取得了接近人类的表现,但也存在一些问题:(1)BiDAF模型和R-Net模型均采用指针网络一次性预测答案位置,不一定能获得全局最优解。(2)R-Net没有类似双向注意流的机制,不能充分融合文章和问题的语义信息。
针对目前主流机器阅读理解方法中存在的问题和不足,本发明受R-Net模型的自匹配网络和DCN模型(Caiming Xiong,Victor Zhong,and Richard Socher.2017.Dynamiccoattention networks for question answering.In Proceedings of ICLR)的动态迭代方式的启发,提出一种新的基于多头注意力机制和动态迭代解码器预测问题答案的机器阅读理解方法,通过双向注意力流机制获取融合了问题信息的文章表示,有效减少信息损失;本发明借鉴了自匹配机制以捕捉文章自身的信息,不同的是基于多头注意力机制计算相似性矩阵,它将文章表示均分成多个部分并行化地计算各部分的注意力权重;不同于指针网络,本发明不再将模型预测作为最终结果,而是将它作为初次预测结果继续输入到模型中作为参考迭代出新一轮的输出,通过动态迭代的方式反复迭代预测答案位置,直到预测结果不再变化或迭代次数超过阈值,避免局部最优解的出现,从而提高模型的精度,为机器阅读理解任务的探索提供一种新思路。
发明内容
本发明提出了一个包括编码文章和问题、循环神经网络、自注意力层和动态迭代解码器的机器阅读理解方法。如图1为机器阅读理解模型框架示意图。
本发明采用的技术方案如下:
一种基于多头注意力机制和动态迭代的机器阅读理解方法,步骤如下:
(一)对文章和问题进行编码
首先,进行语料预处理,借助分词工具Spacy对每个文章和问题进行分词处理,然后构建问题和文章的嵌入层及编码层。
所述构建问题和文章的嵌入层包括字符嵌入和词嵌入两部分:
(1)字符嵌入:将单词的每个字符映射到固定向量空间;设和分别代表每一个样本中单词数为n的文章和单词数为m的问题中单词的字符序列,将它们输入到双向循环神经网络中,得到最终的隐藏层状态表征单词的字符嵌入和
(2)词嵌入:将每个单词映射到固定向量空间;使用预先训练好的词向量模型GloVe来获取每个单词的固定词嵌入和将字符嵌入和词嵌入拼接分别得到文章和问题表示和对于问题Q∈Rd×m和文章P∈Rd×n,序列中的每一个词都被转换成d维的向量;
所述构建问题和文章的编码层:
经过字符嵌入和词嵌入,将文章和问题表示分别输入到由GRU组成的双向循环神经网络编码器,得到文章和问题编码层的语义表示H∈R2d×n和U∈R2d×m。
(二)构建基于双向注意力流的循环神经网络
双向注意力流层负责文章和问题信息的连接和融合,不仅计算文章到问题方向的注意力权重,也计算问题到文章方向的注意力权重;同时双向注意力流层中每个时间步的注意力向量都将与来自上一层的文章表示结合,继续流过后续的模型层。
所述构建双向注意力流层的过程包括计算相似性矩阵、融合输入向量两个部分:
(1)计算相似性矩阵:
首先,双向注意力使用缩放点积函数计算文章语义H∈R2d×n和问题语义U∈R2d×m之间的相似性矩阵S∈Rn×m:
Stj=α(H,U)∈R (1)
其中Stj表示第t个文章单词和第j个问题单词之间的相似性,α函数定义为:
其中w(s) t∈R6d,为可训练权值矩阵,表示逐元素积,“;”表示向量拼接,a和c表示不同的矩阵。
然后,共享相似矩阵S,计算从文章到问题以及从问题到文章两个方向的注意力权重,具体过程是应用softmax函数归一化S的每一列,然后计算文章到问题的注意力A:
at=softmax(St:)∈Rm (3)
其中,at表示文章中第t个词对问题的注意力权重,St:表示S的第t个行向量,A:t表示A的第t个列向量,atk表示at的第k项,U:k表示U的第k个列向量。
之后,应用softmax函数归一化S的每一列最大值,并计算问题到文章的注意力B:
b=softmax(maxcol(S))∈Rn (5)
B:k=∑bkH:k∈R2d (6)
其中,b表示文章单词注意力权重,maxcol即按列求最大值,B:k表示B的第k个列向量,bk表示文章第k个单词的注意力权重,H:k表示H的第k个列向量。
(2)融合输入向量:
联合H,A,B产生双向注意力流层输出:
其中,G中的每一列代表了一个融合问题全部语义信息的文章词向量。β是融合H,A,B三个输入向量的可训练函数,而dG是β函数的输出维度。β函数是任意可训练的神经网络,取β函数为简单拼接,则双向注意力流层输出为:
将双向注意力流层输出G输入由GRU构成的双向循环神经网络,从而获取融合了问题信息但文章语义信息有所缺失的文章表示
(三)构建自注意力层
引入自注意力机制计算文章自身的注意力,从而有效地捕获句子中长距离的相互依赖关系,丰富文章的语义信息。
自注意力层结合双向循环神经网络和自注意力,利用缩放点积式的多头注意力机制,将文章表示均分成h个部分,并行化地计算各部分的注意力权重,动态地在通过的每个文章词向量中收集整个文章中的信息。计算各部分的注意力权重的过程为:
headi=Attention(QWi Q,KWi K,VWi V) (10)
ct=MultiHead(Q,K,V)=Concat(head1,…,headh)WO (11)
其中,WO,WQ,WK和WV均为权值矩阵;Q、K、V分别代表Attetion函数中的查询(Query)、键(Key)和值(Value),分别是编码器的输出和解码器中的输入;dk为查询Q和键K的维度,headi为文章第i部分,ct为多头注意力机制最终输出。双向循环神经网络将拼接后的向量编码至新的向量表示
其中,表示自注意力层输出并对应于文章第t个词的语义表示,为双向注意力层输出的文章表示。进而,经过自注意力层获得文章语义表示
(四)基于动态迭代解码器预测答案输出
利用动态迭代解码器,将模型预测作为初次预测结果继续输入到动态迭代解码器中,通过动态迭代的方式反复迭代预测答案位置,直到预测结果不再变化或迭代次数超过阈值,最终确定答案位置。迭代过程中允许模型跳出初始局部最优答案。自注意力层文章表示某一时间步骤t对应迭代过程r,在第r次迭代过程中,设hr,xr,和er分别表示LSTM状态、起始位置的评估值和终止位置的评估值。则LSTM隐藏层状态为:
其中,和分别表示前一次(r-1)迭代过程中起始位置的评估值和终止位置的评估值。给定当前隐藏层状态值hr,前一次迭代过程起始位置的评估值和终止位置的评估值获得当前起始位置的评估值和终止位置的评估值:
其中,αt和βt分别表示文章中第t个词作为答案跨度起始位置和终止位置的评估分数。利用两个结构相同但不共享参数的神经网络分别计算αt和βt,此处选择结合了MaxoutNetworks和Highway Networks的Highway Maxout Network计算αt:
通过另一个HMNend模型,使用与αt相同的计算方式计算终止位置的评估分数βt。HMN模型的计算公式如下:
其中,参数和为权值矩阵,和b(3)∈Rp为偏置。p是每个maxout层作池化操作的尺寸大小。max操作在张量的第一个维度上计算最大值。在第一个maxout层和最后输出的maxout层之间存在highway连接。
起始位置概率分布X=[x1,x2…,xn]T和终止位置概率分布E=[e1,e2,…,en]T联合乘积得到答案分布矩阵C,矩阵中任意元素Cyz=xyez。答案起始位置y和终止位置z满足y≤z,检索上三角矩阵中概率最大值的行列索引,输出最终答案预测范围。
本发明的有益效果:本发明可以有效解决因单方向计算文章到问题的表示而缺失信息的问题,丰富文章表示的语义信息,从而有效避免信息损失;基于多头注意力机制并行化计算文章各部分注意力权重,并通过动态迭代预测答案,弥补可能输出局部最优解的不足,从而提高模型精度。
附图说明
图1机器阅读理解模型框架示意图。
具体实施方式
本发明的模型能够对给定的文本进行编码、融合文章和问题信息、捕获句子中长距离的依赖关系并预测答案输出。机器阅读理解模型分为编码层,循环神经网络层、自注意力层和输出层四部分,如表1所示。
表1模型结构
实验例:
本发明采用SQuAD数据集来训练和评估模型。模型在字符嵌入,词嵌入和模型的层与层之间都使用了比例为0.2的dropout,并使用初始学习率为1.0的优化器AdaDelta对模型进行优化,AdaDelta使用的ρ和ε分别是0.95和1×e-6。训练样本的批量大小为12。
模型训练的实现需要模型的编码层、循环神经网络层、自注意力层和输出层的协调工作,具体如下:
(一)编码层
首先,借助分词工具Spacy对每个文章和问题进行分词处理,文章词数目的最大值设置为400,问题词数目的最大值设置为50,按照设定值对样例进行处理,丢弃长于设定值的文本部分,并用特殊符号<PAD>对少于设定值的短句子进行填充。字符嵌入部分将文章和问题单词的字符序列输入到1层双向GRU中进行计算,嵌入维度为200;词嵌入部分使用预先训练好的词向量模型Glove分别将文章和问题嵌入至300维的固定向量,所有超出词汇表范围的词汇用零向量表示,并在训练过程中不断更新词嵌入。
分别将经过数据预处理的文章和问题表示输入由GRU构成的双向循环神经网络,获得文章和问题的编码层语义表示。
(二)循环神经网络层
循环神经网络层包括计算相似性矩阵、融合输入向量和获取文章表示三个部分:
(1)计算相似性矩阵:
首先,双向注意力使用缩放点积函数计算文章和问题语义之间的相似性矩阵,见公式(1)。
然后共享相似矩阵,应用softmax函数归一化相似矩阵的每一列,并利用公式(4)计算文章到问题的注意力;应用softmax函数归一化相似矩阵每一列的最大值,并利用公式(6)计算问题到文章的注意力。
(2)融合输入向量:
联合编码层文章表示、文章到问题方向注意力和问题到文章方向注意力,产生双向注意力流层输出,见公式(8)。
(3)获取文章表示:
将文章和问题表示输入由GRU构成的3层双向循环神经网络,模型使用的GRU的隐藏层单元数目全部设定为75。双向循环神经网络输出即融合了问题信息但文章语义信息有所缺失的循环神经网络层文章表示。
(三)自注意力层
利用缩放点积式的多头注意力机制,将文章表示均分成8个部分,dk取64,利用公式(9)、(10)和(11)并行化地计算各部分的注意力权重,动态地在通过的每个文章词向量中收集整个文章中的信息。
将自注意力机制获取的文章表示和循环神经网络层获取的文章表示拼接后输入双向循环神经网络编码至新的自注意力层文章表示。
同时,在自注意力层使用L2正则化,对所有可训练变量进行权重衰减,其参数为λ=3×10-7。
(四)基于动态迭代解码器预测答案输出
模型输出为:用户输入的文本中问题的答案范围,包括起始位置和终止位置。
利用动态迭代解码器迭代更新,最大迭代次数为4。每轮迭代都会产生对答案开始和结束位置的预测,对答案开始位置和结束位置这两个预测结果使用两个结构相同但不共享参数的Highway Maxout Network计算文章中单词作为答案跨度起始位置和终止位置的评估分数,maxout中的池化值大小为16,见公式(16)。将前一次迭代过程中起始位置的评估值和终止位置的评估值拼接后送入LSTM,更新隐藏层状态。给定当前隐藏层状态值、前一次迭代过程起始位置的评估值和终止位置的评估值,获取当前词作为起始位置的评估值和终止位置的评估值,见公式(14)和(15)。
对答案起始位置概率分布和终止位置概率分布使用联合乘积,获取答案分布矩阵。利用答案起始位置在终止位置之前的特性,检索答案概率分布上三角矩阵中最大值的行列索引,确定最终答案起始位置和终止位置。如图1为机器阅读理解模型框架示意图。
对比例:
剥离模型的不同组成部分观察各个部分对模型性能的表现,表2所示是对比实验在验证集上的表现。
表2各组成部分对模型性能的影响
从表2对比数据可以看出,双向注意力流层(Bi-Attention)和自注意力层(Self-Atteotion)都对模型性能产生正向积极的作用,双向注意力层融合问题语义信息,对预测起关键作用。自注意力层则更倾向于解决长文本之间模型表征能力不足的问题,可有效提升模型表现。动态迭代解码器(DID)相较于指针网络(Pointer Network)性能提升3%~4%,表明前者具备更强的预测推理能力。
Claims (1)
1.一种基于多头注意力机制和动态迭代的机器阅读理解方法,其特征在于,步骤如下:
(一)对文章和问题进行编码
首先,进行语料预处理,借助分词工具Spacy对每个文章和问题进行分词处理,然后构建问题和文章的嵌入层及编码层;
所述构建问题和文章的嵌入层包括字符嵌入和词嵌入两部分:
(1)字符嵌入:将单词的每个字符映射到固定向量空间;设和分别代表每一个样本中单词数为n的文章和单词数为m的问题中单词的字符序列,将它们输入到双向循环神经网络中,得到最终的隐藏层状态表征单词的字符嵌入和
(2)词嵌入:将每个单词映射到固定向量空间;使用预先训练好的词向量模型GloVe来获取每个单词的固定词嵌入和将字符嵌入和词嵌入拼接分别得到文章和问题表示和对于问题Q∈Rd×m和文章P∈Rd×n,序列中的每一个词都被转换成d维的向量;
所述构建问题和文章的编码层:
经过字符嵌入和词嵌入,将文章和问题表示分别输入到由GRU组成的双向循环神经网络编码器,得到文章和问题编码层的语义表示H∈R2d×n和U∈R2d×m;
(二)构建基于双向注意力流的循环神经网络
构建双向注意力流层的过程包括计算相似性矩阵、融合输入向量两个部分:
(1)计算相似性矩阵:
首先,双向注意力使用缩放点积函数计算文章语义H∈R2d×n和问题语义U∈R2d×m之间的相似性矩阵S∈Rn×m:
Stj=α(H,U)∈R (1)
其中Stj表示第t个文章单词和第j个问题单词之间的相似性,α函数定义为:
其中w(s) t∈R6d,为可训练权值矩阵,表示逐元素积,“;”表示向量拼接,a和c表示不同的矩阵;
然后,共享相似矩阵S,计算从文章到问题以及从问题到文章两个方向的注意力权重,具体过程是应用softmax函数归一化S的每一列,然后计算文章到问题的注意力A:
at=softmax(St:)∈Rm (3)
其中,at表示文章中第t个词对问题的注意力权重,St:表示S的第t个行向量,A:t表示A的第t个列向量,atk表示at的第k项,U:k表示U的第k个列向量;
之后,应用softmax函数归一化S的每一列最大值,并计算问题到文章的注意力B:
b=softmax(maxcol(S))∈Rn (5)
B:k=∑bkH:k∈R2d (6)
其中,b表示文章单词注意力权重,maxcol即按列求最大值,B:k表示B的第k个列向量,bk表示文章第k个单词的注意力权重,H:k表示H的第k个列向量;
(2)融合输入向量:
联合H,A,B产生双向注意力流层输出:
其中,G中的每一列代表了一个融合问题全部语义信息的文章词向量;β是融合H,A,B三个输入向量的可训练函数,而dG是β函数的输出维度;β函数是任意可训练的神经网络,取β函数为简单拼接,则双向注意力流层输出为:
将双向注意力流层输出G输入由GRU构成的双向循环神经网络,从而获取融合了问题信息但文章语义信息有所缺失的文章表示
(三)构建自注意力层
自注意力层结合双向循环神经网络和自注意力,利用缩放点积式的多头注意力机制,将文章表示均分成h个部分,并行化地计算各部分的注意力权重,动态地在通过的每个文章词向量中收集整个文章中的信息;计算各部分的注意力权重的过程为:
headi=Attention(QWi Q,KWi K,VWi V) (10)
ct=MultiHead(Q,K,V)=Concat(head1,…,headh)WO (11)
其中,WO,WQ,WK和WV均为权值矩阵;Q、K、V分别代表Attetion函数中的查询、键、值,分别是编码器的输出和解码器中的输入;dk为查询Q和键K的维度,headi为文章第i部分,ct为多头注意力机制最终输出;双向循环神经网络将拼接后的向量编码至新的向量表示
其中,表示自注意力层输出并对应于文章第t个词的语义表示,为双向注意力层输出的文章表示;进而,经过自注意力层获得文章语义表示
(四)基于动态迭代解码器预测答案输出
利用动态迭代解码器,将模型预测作为初次预测结果继续输入到动态迭代解码器中,通过动态迭代的方式反复迭代预测答案位置,直到预测结果不再变化或迭代次数超过阈值,最终确定答案位置;迭代过程中允许模型跳出初始局部最优答案;自注意力层文章表示某一时间步骤t对应迭代过程r,在第r次迭代过程中,设hr,xr,和er分别表示LSTM状态、起始位置的评估值和终止位置的评估值;则LSTM隐藏层状态为:
其中,和分别表示前一次迭代过程中起始位置的评估值和终止位置的评估值;给定当前隐藏层状态值hr,前一次迭代过程起始位置的评估值和终止位置的评估值获得当前起始位置的评估值和终止位置的评估值:
其中,αt和βt分别表示文章中第t个词作为答案跨度起始位置和终止位置的评估分数;利用两个结构相同但不共享参数的神经网络分别计算αt和βt,此处选择结合了MaxoutNetworks和Highway Networks的Highway Maxout Network计算αt:
通过另一个HMNend模型,使用与αt相同的计算方式计算终止位置的评估分数βt;HMN模型的计算公式如下:
其中,v∈Rl,参数W(D)∈Rl×5l;W(1)∈Rp×l×3l,W(2)∈Rp×l×l和W(3)∈Rp×1×2l为权值矩阵,b(1)∈Rp×l,b(2)∈Rp×l和b(3)∈Rp为偏置;p是每个maxout层作池化操作的尺寸大小;max操作在张量的第一个维度上计算最大值;在第一个maxout层和最后输出的maxout层之间存在highway连接;
起始位置概率分布X=[x1,x2…,xn]T和终止位置概率分布E=[e1,e2,…,en]T联合乘积得到答案分布矩阵C,矩阵中任意元素Cyz=xyez;答案起始位置y和终止位置z满足y≤z,检索上三角矩阵中概率最大值的行列索引,输出最终答案预测范围。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811365160.0A CN109492227A (zh) | 2018-11-16 | 2018-11-16 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811365160.0A CN109492227A (zh) | 2018-11-16 | 2018-11-16 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109492227A true CN109492227A (zh) | 2019-03-19 |
Family
ID=65695862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811365160.0A Pending CN109492227A (zh) | 2018-11-16 | 2018-11-16 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109492227A (zh) |
Cited By (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977404A (zh) * | 2019-03-22 | 2019-07-05 | 深圳追一科技有限公司 | 基于深度学习的答案抽取方法、装置和存储介质 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110096698A (zh) * | 2019-03-20 | 2019-08-06 | 中国地质大学(武汉) | 一种考虑主题的机器阅读理解模型生成方法与系统 |
CN110134946A (zh) * | 2019-04-15 | 2019-08-16 | 深圳智能思创科技有限公司 | 一种针对复杂数据的机器阅读理解方法 |
CN110245269A (zh) * | 2019-05-06 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 获取关系网络图中节点的动态嵌入向量的方法和装置 |
CN110297889A (zh) * | 2019-06-28 | 2019-10-01 | 南京冰鉴信息科技有限公司 | 一种基于特征融合的企业情感倾向分析方法 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110334189A (zh) * | 2019-07-11 | 2019-10-15 | 河南大学 | 基于长短时和自注意力神经网络的微博话题标签确定方法 |
CN110364251A (zh) * | 2019-06-14 | 2019-10-22 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
CN110516228A (zh) * | 2019-07-04 | 2019-11-29 | 湖南星汉数智科技有限公司 | 命名实体识别方法、装置、计算机装置及计算机可读存储介质 |
CN110599065A (zh) * | 2019-09-23 | 2019-12-20 | 合肥工业大学 | 基于指针神经网络的多星应急任务规划方法及系统 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN110619123A (zh) * | 2019-09-19 | 2019-12-27 | 电子科技大学 | 一种机器阅读理解方法 |
CN110633472A (zh) * | 2019-09-19 | 2019-12-31 | 电子科技大学 | 一种基于注意力与聚合机制的文章与问题的融合方法 |
CN110633867A (zh) * | 2019-09-23 | 2019-12-31 | 国家电网有限公司 | 一种基于gru和注意力机制的超短期负荷预测模型 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN110750630A (zh) * | 2019-09-25 | 2020-02-04 | 北京捷通华声科技股份有限公司 | 一种生成式机器阅读理解方法、装置、设备及存储介质 |
CN110750998A (zh) * | 2019-10-14 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 一种文本输出方法、装置、计算机设备和存储介质 |
CN110765966A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN110767234A (zh) * | 2019-10-31 | 2020-02-07 | 北京字节跳动网络技术有限公司 | 音频信息处理方法、装置、电子设备及存储介质 |
CN110781680A (zh) * | 2019-10-17 | 2020-02-11 | 江南大学 | 基于孪生网络和多头注意力机制的语义相似度匹配方法 |
CN110866098A (zh) * | 2019-10-29 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111061868A (zh) * | 2019-11-05 | 2020-04-24 | 百度在线网络技术(北京)有限公司 | 读法预测模型获取及读法预测方法、装置及存储介质 |
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111090734A (zh) * | 2019-12-25 | 2020-05-01 | 湖南大学 | 基于层级注意力机制优化机器阅读理解能力的方法和系统 |
CN111104492A (zh) * | 2019-09-19 | 2020-05-05 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
CN111241807A (zh) * | 2019-12-31 | 2020-06-05 | 浙江大学 | 一种基于知识引导注意力的机器阅读理解方法 |
CN111309883A (zh) * | 2020-02-13 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的人机对话方法、模型训练方法及装置 |
CN111414762A (zh) * | 2020-02-19 | 2020-07-14 | 重庆邮电大学 | 基于dcu编码和自注意力机制的机器阅读理解方法 |
CN111626062A (zh) * | 2020-05-29 | 2020-09-04 | 苏州思必驰信息科技有限公司 | 文本语义编码方法及系统 |
CN111651576A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大学 | 一种基于迁移学习的多轮阅读理解方法 |
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN111899510A (zh) * | 2020-07-28 | 2020-11-06 | 南京工程学院 | 基于发散卷积和gat的智能交通系统流量短期预测方法及系统 |
CN112084782A (zh) * | 2020-09-14 | 2020-12-15 | 成都数联铭品科技有限公司 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
CN112183085A (zh) * | 2020-09-11 | 2021-01-05 | 杭州远传新业科技有限公司 | 机器阅读理解方法、装置、电子设备及计算机存储介质 |
CN112417089A (zh) * | 2019-08-21 | 2021-02-26 | 东北大学秦皇岛分校 | 一种基于深度学习的高并行性阅读理解的方法 |
CN112417104A (zh) * | 2020-12-04 | 2021-02-26 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
CN112445887A (zh) * | 2019-08-29 | 2021-03-05 | 南京大学 | 基于检索的机器阅读理解系统的实现方法及装置 |
CN112765339A (zh) * | 2021-01-21 | 2021-05-07 | 山东师范大学 | 一种基于强化学习的个性化图书推荐方法及系统 |
CN112836048A (zh) * | 2021-01-27 | 2021-05-25 | 天津大学 | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 |
CN112951239A (zh) * | 2021-03-24 | 2021-06-11 | 平安科技(深圳)有限公司 | 基于注意力模型的佛乐生成方法、装置、设备及存储介质 |
CN112966499A (zh) * | 2021-03-17 | 2021-06-15 | 中山大学 | 一种基于自适应融合多注意力网络的问题和答案匹配方法 |
CN112966474A (zh) * | 2021-02-20 | 2021-06-15 | 中央民族大学 | 一种基于多级注意力机制的藏文机器阅读理解方法 |
CN113033180A (zh) * | 2021-03-02 | 2021-06-25 | 中央民族大学 | 一种面向小学藏语文阅读问题自动生成的服务系统 |
CN113051371A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 中文机器阅读理解方法、装置、电子设备及存储介质 |
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113239148A (zh) * | 2021-05-14 | 2021-08-10 | 廖伟智 | 基于机器阅读理解的科技资源检索方法 |
US11100167B2 (en) | 2019-05-06 | 2021-08-24 | Advanced New Technologies Co., Ltd. | Obtaining dynamic embedding vectors of nodes in relationship graphs |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
WO2021197298A1 (en) * | 2020-04-01 | 2021-10-07 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for action recognition in video and electronic device |
WO2021212377A1 (zh) * | 2020-04-22 | 2021-10-28 | 深圳市欢太数字科技有限公司 | 用户数据的危险属性确定方法、装置以及电子设备 |
CN113672704A (zh) * | 2021-08-26 | 2021-11-19 | 姜文轩 | 一种情境化问答方法 |
US11544259B2 (en) * | 2018-11-29 | 2023-01-03 | Koninklijke Philips N.V. | CRF-based span prediction for fine machine learning comprehension |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233709B1 (en) * | 1998-12-07 | 2001-05-15 | Nokia Mobile Phones Ltd. | Dynamic iterative decoding for balancing quality of service parameters |
CN107679224A (zh) * | 2017-10-20 | 2018-02-09 | 竹间智能科技(上海)有限公司 | 一种面向无结构文本智能问答的方法和系统 |
CN107729326A (zh) * | 2017-09-25 | 2018-02-23 | 沈阳航空航天大学 | 基于Multi‑BiRNN编码的神经机器翻译方法 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN108647603A (zh) * | 2018-04-28 | 2018-10-12 | 清华大学 | 基于注意力机制的半监督连续手语翻译方法及装置 |
CN108733703A (zh) * | 2017-04-20 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 问答系统的答案预测方法及装置、电子设备、存储介质 |
-
2018
- 2018-11-16 CN CN201811365160.0A patent/CN109492227A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6233709B1 (en) * | 1998-12-07 | 2001-05-15 | Nokia Mobile Phones Ltd. | Dynamic iterative decoding for balancing quality of service parameters |
CN108733703A (zh) * | 2017-04-20 | 2018-11-02 | 北京京东尚科信息技术有限公司 | 问答系统的答案预测方法及装置、电子设备、存储介质 |
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107729326A (zh) * | 2017-09-25 | 2018-02-23 | 沈阳航空航天大学 | 基于Multi‑BiRNN编码的神经机器翻译方法 |
CN107679224A (zh) * | 2017-10-20 | 2018-02-09 | 竹间智能科技(上海)有限公司 | 一种面向无结构文本智能问答的方法和系统 |
CN108021616A (zh) * | 2017-11-06 | 2018-05-11 | 大连理工大学 | 一种基于循环神经网络的社区问答专家推荐方法 |
CN108647603A (zh) * | 2018-04-28 | 2018-10-12 | 清华大学 | 基于注意力机制的半监督连续手语翻译方法及装置 |
Non-Patent Citations (4)
Title |
---|
ADAMS WEI YU 等: "QANET:COMBINING LOCAL CONVOLUTION WITH GLOBAL SELF-ATTENTION FOR READING COMPREHENSION", 《ARXIV》 * |
ASHISH VASWANI 等: "Attention Is All You Need", 《ARXIV》 * |
CAIMING XIONG 等: "Dynamic coattention networks for question answering", 《ARXIV》 * |
MINJOON SEO 等: "Bidirectional Attention Flow for Machine Comprehension", 《ARXIV》 * |
Cited By (97)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544259B2 (en) * | 2018-11-29 | 2023-01-03 | Koninklijke Philips N.V. | CRF-based span prediction for fine machine learning comprehension |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN110096698A (zh) * | 2019-03-20 | 2019-08-06 | 中国地质大学(武汉) | 一种考虑主题的机器阅读理解模型生成方法与系统 |
CN110597947B (zh) * | 2019-03-20 | 2023-03-28 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN109977404A (zh) * | 2019-03-22 | 2019-07-05 | 深圳追一科技有限公司 | 基于深度学习的答案抽取方法、装置和存储介质 |
CN110134946A (zh) * | 2019-04-15 | 2019-08-16 | 深圳智能思创科技有限公司 | 一种针对复杂数据的机器阅读理解方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110083682B (zh) * | 2019-04-19 | 2021-05-28 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110245269A (zh) * | 2019-05-06 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 获取关系网络图中节点的动态嵌入向量的方法和装置 |
US11288318B2 (en) | 2019-05-06 | 2022-03-29 | Advanced New Technologies Co., Ltd. | Obtaining dynamic embedding vectors of nodes in relationship graphs |
US11100167B2 (en) | 2019-05-06 | 2021-08-24 | Advanced New Technologies Co., Ltd. | Obtaining dynamic embedding vectors of nodes in relationship graphs |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110364251A (zh) * | 2019-06-14 | 2019-10-22 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN110364251B (zh) * | 2019-06-14 | 2022-08-16 | 南京理工大学 | 一种基于机器阅读理解的智能交互导诊咨询系统 |
CN110309305B (zh) * | 2019-06-14 | 2021-05-11 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110297889A (zh) * | 2019-06-28 | 2019-10-01 | 南京冰鉴信息科技有限公司 | 一种基于特征融合的企业情感倾向分析方法 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
CN110297889B (zh) * | 2019-06-28 | 2020-10-23 | 南京冰鉴信息科技有限公司 | 一种基于特征融合的企业情感倾向分析方法 |
CN110516228A (zh) * | 2019-07-04 | 2019-11-29 | 湖南星汉数智科技有限公司 | 命名实体识别方法、装置、计算机装置及计算机可读存储介质 |
CN110334189A (zh) * | 2019-07-11 | 2019-10-15 | 河南大学 | 基于长短时和自注意力神经网络的微博话题标签确定方法 |
CN110390340B (zh) * | 2019-07-18 | 2021-06-01 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110390340A (zh) * | 2019-07-18 | 2019-10-29 | 暗物智能科技(广州)有限公司 | 特征编码模型、视觉关系检测模型的训练方法及检测方法 |
CN110457710B (zh) * | 2019-08-19 | 2022-08-02 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型的建立方法、方法、存储介质及终端 |
CN110457710A (zh) * | 2019-08-19 | 2019-11-15 | 电子科技大学 | 一种基于动态路由机制的机器阅读理解网络模型、方法、存储介质及终端 |
CN112417089B (zh) * | 2019-08-21 | 2022-12-09 | 东北大学秦皇岛分校 | 一种基于深度学习的高并行性阅读理解的方法 |
CN112417089A (zh) * | 2019-08-21 | 2021-02-26 | 东北大学秦皇岛分校 | 一种基于深度学习的高并行性阅读理解的方法 |
CN112445887B (zh) * | 2019-08-29 | 2024-05-03 | 南京大学 | 基于检索的机器阅读理解系统的实现方法及装置 |
CN112445887A (zh) * | 2019-08-29 | 2021-03-05 | 南京大学 | 基于检索的机器阅读理解系统的实现方法及装置 |
CN111104492B (zh) * | 2019-09-19 | 2023-12-19 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN110619123A (zh) * | 2019-09-19 | 2019-12-27 | 电子科技大学 | 一种机器阅读理解方法 |
CN111104492A (zh) * | 2019-09-19 | 2020-05-05 | 中国民航信息网络股份有限公司 | 一种基于层次化Attention机制的民航领域自动问答方法 |
CN110619123B (zh) * | 2019-09-19 | 2021-01-26 | 电子科技大学 | 一种机器阅读理解方法 |
CN110633472B (zh) * | 2019-09-19 | 2021-03-12 | 电子科技大学 | 一种基于注意力与聚合机制的文章与问题的融合方法 |
CN110633472A (zh) * | 2019-09-19 | 2019-12-31 | 电子科技大学 | 一种基于注意力与聚合机制的文章与问题的融合方法 |
CN110599065A (zh) * | 2019-09-23 | 2019-12-20 | 合肥工业大学 | 基于指针神经网络的多星应急任务规划方法及系统 |
CN110599065B (zh) * | 2019-09-23 | 2022-04-22 | 合肥工业大学 | 基于指针神经网络的多星应急任务规划方法及系统 |
CN110633867A (zh) * | 2019-09-23 | 2019-12-31 | 国家电网有限公司 | 一种基于gru和注意力机制的超短期负荷预测模型 |
CN110688491B (zh) * | 2019-09-25 | 2022-05-10 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN110750630A (zh) * | 2019-09-25 | 2020-02-04 | 北京捷通华声科技股份有限公司 | 一种生成式机器阅读理解方法、装置、设备及存储介质 |
CN110688491A (zh) * | 2019-09-25 | 2020-01-14 | 暨南大学 | 基于深度学习的机器阅读理解方法、系统、设备及介质 |
CN110750998A (zh) * | 2019-10-14 | 2020-02-04 | 腾讯科技(深圳)有限公司 | 一种文本输出方法、装置、计算机设备和存储介质 |
CN110750998B (zh) * | 2019-10-14 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种文本输出方法、装置、计算机设备和存储介质 |
CN110781680B (zh) * | 2019-10-17 | 2023-04-18 | 江南大学 | 基于孪生网络和多头注意力机制的语义相似度匹配方法 |
CN110781680A (zh) * | 2019-10-17 | 2020-02-11 | 江南大学 | 基于孪生网络和多头注意力机制的语义相似度匹配方法 |
CN110866098A (zh) * | 2019-10-29 | 2020-03-06 | 平安科技(深圳)有限公司 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
WO2021082086A1 (zh) * | 2019-10-29 | 2021-05-06 | 平安科技(深圳)有限公司 | 机器阅读方法、系统、装置及存储介质 |
CN110866098B (zh) * | 2019-10-29 | 2022-10-28 | 平安科技(深圳)有限公司 | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 |
CN110765966A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN110765966B (zh) * | 2019-10-30 | 2022-03-25 | 哈尔滨工业大学 | 一种面向手写文字的一阶段自动识别与翻译方法 |
CN110767234A (zh) * | 2019-10-31 | 2020-02-07 | 北京字节跳动网络技术有限公司 | 音频信息处理方法、装置、电子设备及存储介质 |
CN111061868B (zh) * | 2019-11-05 | 2023-05-23 | 百度在线网络技术(北京)有限公司 | 读法预测模型获取及读法预测方法、装置及存储介质 |
CN111061868A (zh) * | 2019-11-05 | 2020-04-24 | 百度在线网络技术(北京)有限公司 | 读法预测模型获取及读法预测方法、装置及存储介质 |
CN111079532B (zh) * | 2019-11-13 | 2021-07-13 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN111079532A (zh) * | 2019-11-13 | 2020-04-28 | 杭州电子科技大学 | 一种基于文本自编码器的视频内容描述方法 |
CN110929515B (zh) * | 2019-11-21 | 2023-04-18 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN110929515A (zh) * | 2019-11-21 | 2020-03-27 | 中国民航大学 | 基于协同注意力和自适应调整的阅读理解方法及系统 |
CN111078836B (zh) * | 2019-12-10 | 2023-08-08 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111078836A (zh) * | 2019-12-10 | 2020-04-28 | 中国科学院自动化研究所 | 基于外部知识增强的机器阅读理解方法、系统、装置 |
CN111090734B (zh) * | 2019-12-25 | 2021-06-15 | 湖南大学 | 基于层级注意力机制优化机器阅读理解能力的方法和系统 |
CN111090734A (zh) * | 2019-12-25 | 2020-05-01 | 湖南大学 | 基于层级注意力机制优化机器阅读理解能力的方法和系统 |
CN111241807B (zh) * | 2019-12-31 | 2021-06-29 | 浙江大学 | 一种基于知识引导注意力的机器阅读理解方法 |
CN111241807A (zh) * | 2019-12-31 | 2020-06-05 | 浙江大学 | 一种基于知识引导注意力的机器阅读理解方法 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
CN111309883B (zh) * | 2020-02-13 | 2023-08-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的人机对话方法、模型训练方法及装置 |
CN111309883A (zh) * | 2020-02-13 | 2020-06-19 | 腾讯科技(深圳)有限公司 | 基于人工智能的人机对话方法、模型训练方法及装置 |
CN111414762A (zh) * | 2020-02-19 | 2020-07-14 | 重庆邮电大学 | 基于dcu编码和自注意力机制的机器阅读理解方法 |
WO2021197298A1 (en) * | 2020-04-01 | 2021-10-07 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for action recognition in video and electronic device |
WO2021212377A1 (zh) * | 2020-04-22 | 2021-10-28 | 深圳市欢太数字科技有限公司 | 用户数据的危险属性确定方法、装置以及电子设备 |
CN111667158B (zh) * | 2020-05-26 | 2022-06-10 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN111651576B (zh) * | 2020-05-29 | 2022-07-08 | 浙江大学 | 一种基于迁移学习的多轮阅读理解方法 |
CN111651576A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大学 | 一种基于迁移学习的多轮阅读理解方法 |
CN111626062A (zh) * | 2020-05-29 | 2020-09-04 | 苏州思必驰信息科技有限公司 | 文本语义编码方法及系统 |
CN111626062B (zh) * | 2020-05-29 | 2023-05-30 | 思必驰科技股份有限公司 | 文本语义编码方法及系统 |
CN111899510A (zh) * | 2020-07-28 | 2020-11-06 | 南京工程学院 | 基于发散卷积和gat的智能交通系统流量短期预测方法及系统 |
CN111899510B (zh) * | 2020-07-28 | 2021-08-20 | 南京工程学院 | 基于发散卷积和gat的智能交通系统流量短期预测方法及系统 |
CN112183085A (zh) * | 2020-09-11 | 2021-01-05 | 杭州远传新业科技有限公司 | 机器阅读理解方法、装置、电子设备及计算机存储介质 |
CN112084782A (zh) * | 2020-09-14 | 2020-12-15 | 成都数联铭品科技有限公司 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
CN112084782B (zh) * | 2020-09-14 | 2024-05-03 | 成都数联铭品科技有限公司 | 一种基于能量增强的注意力网络的答案识别方法及系统 |
CN112417104B (zh) * | 2020-12-04 | 2022-11-11 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
CN112417104A (zh) * | 2020-12-04 | 2021-02-26 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
CN112765339A (zh) * | 2021-01-21 | 2021-05-07 | 山东师范大学 | 一种基于强化学习的个性化图书推荐方法及系统 |
CN112765339B (zh) * | 2021-01-21 | 2022-10-04 | 山东师范大学 | 一种基于强化学习的个性化图书推荐方法及系统 |
CN112836048A (zh) * | 2021-01-27 | 2021-05-25 | 天津大学 | 基于多头双向注意力的交互式Transformer的隐式篇章关系识别方法 |
CN112966474A (zh) * | 2021-02-20 | 2021-06-15 | 中央民族大学 | 一种基于多级注意力机制的藏文机器阅读理解方法 |
CN112966474B (zh) * | 2021-02-20 | 2024-05-24 | 中央民族大学 | 一种基于多级注意力机制的藏文机器阅读理解方法 |
CN113033180B (zh) * | 2021-03-02 | 2024-06-28 | 中央民族大学 | 一种面向小学藏语文阅读问题自动生成的服务系统 |
CN113033180A (zh) * | 2021-03-02 | 2021-06-25 | 中央民族大学 | 一种面向小学藏语文阅读问题自动生成的服务系统 |
CN112966499A (zh) * | 2021-03-17 | 2021-06-15 | 中山大学 | 一种基于自适应融合多注意力网络的问题和答案匹配方法 |
CN112951239B (zh) * | 2021-03-24 | 2023-07-28 | 平安科技(深圳)有限公司 | 基于注意力模型的佛乐生成方法、装置、设备及存储介质 |
CN112951239A (zh) * | 2021-03-24 | 2021-06-11 | 平安科技(深圳)有限公司 | 基于注意力模型的佛乐生成方法、装置、设备及存储介质 |
CN113051371A (zh) * | 2021-04-12 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 中文机器阅读理解方法、装置、电子设备及存储介质 |
CN113241128B (zh) * | 2021-04-29 | 2022-05-13 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113241128A (zh) * | 2021-04-29 | 2021-08-10 | 天津大学 | 基于分子空间位置编码注意力神经网络模型的分子性质预测方法 |
CN113239148A (zh) * | 2021-05-14 | 2021-08-10 | 廖伟智 | 基于机器阅读理解的科技资源检索方法 |
CN113312912A (zh) * | 2021-06-25 | 2021-08-27 | 重庆交通大学 | 一种用于交通基础设施检测文本的机器阅读理解方法 |
CN113672704A (zh) * | 2021-08-26 | 2021-11-19 | 姜文轩 | 一种情境化问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492227A (zh) | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN110717334B (zh) | 基于bert模型和双通道注意力的文本情感分析方法 | |
CN109284506B (zh) | 一种基于注意力卷积神经网络的用户评论情感分析系统及方法 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN111897933B (zh) | 情感对话生成方法、装置及情感对话模型训练方法、装置 | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN108415977A (zh) | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 | |
CN109062897A (zh) | 基于深度神经网络的句子对齐方法 | |
CN108829684A (zh) | 一种基于迁移学习策略的蒙汉神经机器翻译方法 | |
CN109062910A (zh) | 基于深度神经网络的句子对齐方法 | |
CN111881677A (zh) | 基于深度学习模型的地址匹配算法 | |
CN111274398A (zh) | 一种方面级用户产品评论情感分析方法及系统 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN113204976B (zh) | 一种实时问答方法及系统 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN113297364A (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN116225525A (zh) | 一种结合用户反馈和深度学习的代码补全方法 | |
CN114972907A (zh) | 基于强化学习和对比学习的图像语义理解及文本生成 | |
CN114328866A (zh) | 应答流畅准确的强拟人化智能对话机器人 | |
CN114238649A (zh) | 一种常识概念增强的语言模型预训练方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190319 |
|
WD01 | Invention patent application deemed withdrawn after publication |