CN109977199B - 一种基于注意力池化机制的阅读理解方法 - Google Patents

一种基于注意力池化机制的阅读理解方法 Download PDF

Info

Publication number
CN109977199B
CN109977199B CN201910033258.4A CN201910033258A CN109977199B CN 109977199 B CN109977199 B CN 109977199B CN 201910033258 A CN201910033258 A CN 201910033258A CN 109977199 B CN109977199 B CN 109977199B
Authority
CN
China
Prior art keywords
attention
expression
att
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910033258.4A
Other languages
English (en)
Other versions
CN109977199A (zh
Inventor
鲁伟明
汪欢
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910033258.4A priority Critical patent/CN109977199B/zh
Publication of CN109977199A publication Critical patent/CN109977199A/zh
Application granted granted Critical
Publication of CN109977199B publication Critical patent/CN109977199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于注意力池化机制的阅读理解方法。本发明首先使用预训练词向量获得问题和文档中每个词语的向量表达;然后根据该向量表达以及问题和文档是连续序列的特点,采用递归神经网络分别对问题和文档进行进一步的编码,以获得其具有上下文信息的向量表达,并进行注意力计算,执行池化操作,获得池化后的注意力数值;最后采用指针网络根据得到的注意力数值选择最终的答案。本发明基于通用的阅读理解框架,对其中的注意力机制进行改进,提出了注意力池化机制,以引入局部注意力。本发明较好地通过池化技术对局部注意力进行了利用,提高了阅读理解的效果。

Description

一种基于注意力池化机制的阅读理解方法
技术领域
本发明涉及自然语言处理领域中的阅读理解技术,尤其涉及一种基于注意力池化机制的阅读理解方法。
背景技术
阅读理解的目标在于,给定一个问题和与该问题相关的文档段落,将文档中的答案抽取出来。关于阅读理解,传统方法将问题和段落在语法和语义层面进行高度结构化的解析,需要进行依赖树解析等操作,实际操作极为复杂和困难。近年来,随着深度学习技术在自然语言处理任务中的崛起,很多针对阅读理解任务的研究随之诞生。例如基于文档中的答案与问题相关度最高的假设,提出了基于注意力机制的阅读理解框架;例如直接通过计算注意力选择最终的答案,获得更为简单有效的模型;例如指针网络被用来预测答案出现在文本的具体位置使得不再需要作用在整个词表上。其中最重要的步骤即为注意力机制,于是本发明提出了注意力池化机制,以引入局部注意力的思想。
发明内容
本发明针对现有技术的不足,提供一种基于注意力池化机制的阅读理解方法,基于全局和局部注意力提出注意力池化机制,提高阅读理解的准确率。
本发明解决其技术问题采用的技术方案如下:一种基于注意力池化机制的阅读理解方法,包括以下步骤:
(1)使用预训练词向量获得问题和文档中每个词语的向量表达,分别记为qembed、dembed
(2)根据步骤(1)得到的qembed和dembed,根据问题和文档是连续序列的特点,采用递归神经网络分别对问题和文档进行进一步的编码,以获得其具有上下文信息的向量表达,分别记为qrnn、drnn
(3)根据步骤(2)得到的qrnn和drnn进行注意力计算,得到注意力矩阵att∈Rm×n,m为问题长度,n为文档长度;对注意力矩阵att在m轴上进行一维最大池化操作,获得池化后的注意力数值。
(4)采用指针网络根据步骤(3)得到的注意力数值选择最终的答案。
进一步地,所述步骤(1)包括:
1.1)分别对问题q、文档d进行预处理:通过自然语言处理工具对文本进行分词、去停用词处理,获得问题的词语序列q=q1,q2,…,qm和文档的词语序列d=d1,d2,…,dn
1.2)根据预训练词向量分别对问题q、文档d进行词嵌入(Word Embedding)表示,结果记为qembed∈Rm×d和dembed∈Rn×d,其中d是词向量维度。
进一步地,所述步骤(2)包括:
基于双向LSTM分别对步骤(1)得到的问题表达qembed和文档表达dembed进行编码,得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,其中LSTM(长短记忆网络,Long Short-Term Memory network)的具体计算步骤为下:
Figure GDA0003052948730000021
Figure GDA0003052948730000022
hj=oj·tanh(cj)
其中,ij、oj、fj分别是输入、输出、遗忘门,W、b是训练参数。σ和tanh分别为sigmoid和tanh激活函数,xj是在j时刻的输入向量,cj-1和hj-1是j-1时刻计算得到的上下文状态向量和隐层状态向量,
Figure GDA0003052948730000023
是j时刻的更新状态向量。
基于双向LSTM对qembed进行编码,分别得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,如下所示:
Figure GDA0003052948730000024
Figure GDA0003052948730000025
Figure GDA0003052948730000026
其中,
Figure GDA0003052948730000027
Figure GDA0003052948730000028
分别代表了正向和反向的递归神经网络,ht-1是在t-1时刻的隐层状态,
Figure GDA0003052948730000029
是qembed在t时刻的表达,
Figure GDA00030529487300000210
正向和反向的表达分别为
Figure GDA00030529487300000211
Figure GDA00030529487300000212
拼接得到最终的表达
Figure GDA00030529487300000213
Figure GDA00030529487300000214
h为隐层大小。
基于双向LSTM对dembed进行编码,分别得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,如下所示:
Figure GDA00030529487300000215
Figure GDA00030529487300000216
Figure GDA00030529487300000217
其中,
Figure GDA00030529487300000218
Figure GDA00030529487300000219
分别代表了正向和反向的递归神经网络,ht-1是在t-1时刻的隐层状态,
Figure GDA00030529487300000220
是dembed在t时刻的表达,
Figure GDA00030529487300000221
正向和反向的表达分别为
Figure GDA00030529487300000222
Figure GDA00030529487300000223
拼接得到最终的表达
Figure GDA00030529487300000224
Figure GDA00030529487300000225
h为隐层大小。
进一步地,所述步骤(3)包括:
3.1)计算问题中每个词语的表达
Figure GDA0003052948730000031
和文档中每个词语的表达
Figure GDA0003052948730000032
之间的注意力矩阵att:
Figure GDA0003052948730000033
其中,·为矩阵乘法,att∈Rm×n
3.2)对步骤3.1)获得的注意力矩阵att在m轴进行一维最大池化操作:
attp=maxpooling(att)
其中,attp∈Rp×n,p由问题长度m、池化过滤器大小和步长共同决定。
3.3)将池化后的注意力在p轴进行相加操作:
attn=sum(attp)
其中,attn为池化后的注意力数值,attn∈Rn
进一步地,所述步骤(4)包括:
4.1)对步骤3)中获得的文档每个词语的注意力数值attn进行归一化:
attnn=softmax(attn)
其中,softmax代表softmax函数,attnn∈Rn
4.2)根据掩膜对attnn进行计算,获得候选实体的注意力分值
Figure GDA0003052948730000034
Figure GDA0003052948730000035
其中,mask∈Rn×c,c是文档d的候选实体数目,mask将候选实体与文档的词语序列进行映射,记录了实体的具体位置及重复情况;
Figure GDA0003052948730000036
选取
Figure GDA0003052948730000037
中概率值最高的实体作为预测答案。
进一步地,本发明可视为在候选实体上的多分类问题,因此选择交叉熵损失函数作为训练期间的损失函数,如下所示:
Figure GDA0003052948730000038
其中,y是正确答案,具体为在候选实体的one-hot表达,
Figure GDA0003052948730000039
是预测答案。
本发明所提出的方法与传统阅读理解方法相比,具有以下优势:
1.提出了局部注意力的思想,对传统的注意力机制是一个补充。
2.对局部注意力采用池化技术,使得注意力机制的效果更加明显,进而提高了阅读理解的效果。
附图说明
图1是阅读理解模型的示意图;
图2是注意力池化过程的示意图;
图3是最大池化操作的示意图;
图4是指针网络的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例1
如图1所示,本实施例提供的一种基于注意力池化机制的阅读理解方法,包括以下步骤:
(1)使用预训练词向量获得问题和文档中每个词语的向量表达,分别记为qembed、dembed,具体包括:
1.1)分别对问题q、文档d进行预处理:通过自然语言处理工具对文本进行分词、去停用词处理,获得问题的词语序列q=q1,q2,…,qm和文档的词语序列d=d1,d2,…,dn
1.2)根据预训练词向量分别对问题q、文档d进行词嵌入(Word Embedding)表示,结果记为qembed∈Rm×d和dembed∈Rn×d,其中d是词向量维度。
(2)根据步骤(1)得到的qembed和dembed,根据问题和文档是连续序列的特点,采用递归神经网络分别对问题和文档进行进一步的编码,以获得其具有上下文信息的向量表达,分别记为qrnn、drnn,具体如下:
基于双向LSTM分别对步骤(1)得到的问题表达qembed和文档表达dembed进行编码,得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,其中LSTM(长短记忆网络,Long Short-Term Memory network)的具体计算步骤为下:
Figure GDA0003052948730000041
Figure GDA0003052948730000042
hj=oj·tanh(cj)
其中,ij、oj、fj分别是输入、输出、遗忘门,W、b是训练参数。σ和tanh分别为sigmoid和tanh激活函数,xj是在j时刻的输入向量,cj-1和hj-1是j-1时刻计算得到的上下文状态向量和隐层状态向量,
Figure GDA0003052948730000043
是j时刻的更新状态向量。
基于双向LSTM对qembed进行编码,分别得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,如下所示:
Figure GDA0003052948730000044
Figure GDA0003052948730000045
Figure GDA0003052948730000046
其中,
Figure GDA0003052948730000047
Figure GDA0003052948730000048
分别代表了正向和反向的递归神经网络,ht-1是在t-1时刻的隐层状态,
Figure GDA0003052948730000049
是qembed在t时刻的表达,
Figure GDA00030529487300000410
正向和反向的表达分别为
Figure GDA00030529487300000411
Figure GDA00030529487300000412
拼接得到最终的表达
Figure GDA0003052948730000051
Figure GDA0003052948730000052
h为隐层大小。
基于双向LSTM对dembed进行编码,分别得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,如下所示:
Figure GDA0003052948730000053
Figure GDA0003052948730000054
Figure GDA0003052948730000055
其中,
Figure GDA0003052948730000056
Figure GDA0003052948730000057
分别代表了正向和反向的递归神经网络,ht-1是在t-1时刻的隐层状态,
Figure GDA0003052948730000058
是dembed在t时刻的表达,
Figure GDA0003052948730000059
正向和反向的表达分别为
Figure GDA00030529487300000510
Figure GDA00030529487300000511
拼接得到最终的表达
Figure GDA00030529487300000512
Figure GDA00030529487300000513
h为隐层大小。
(3)根据步骤(2)得到的qrnn和drnn,进行注意力计算,得到注意力矩阵att∈Rm×n,m为问题长度,n为文档长度;对注意力矩阵att在m轴上进行一维最大池化操作,获得池化后的注意力数值,具体步骤包括:
3.1)计算问题中每个词语的表达
Figure GDA00030529487300000514
和文档中每个词语的表达
Figure GDA00030529487300000515
之间的注意力矩阵att:
Figure GDA00030529487300000516
其中,·为矩阵乘法,att∈Rm×n
3.2)对步骤3.1)获得的注意力矩阵att在m轴进行一维最大池化操作,见图2,其中最大池化操作过程见图3:
attp=maxpooling(att)
其中,attp∈Rp×n,p由问题长度m、池化过滤器大小和步长共同决定。
3.3)将池化后的注意力在p轴进行相加操作:
attn=sum(attp)
其中,attn为池化后的注意力数值,attn∈Rn
(4)如图4所示,采用指针网络根据步骤(3)得到的注意力数值选择最终的答案,具体步骤包括:
4.1)对步骤3)中获得的文档每个词语的注意力数值attn进行归一化:
attnn=softmax(attn)
其中,softmax代表softmax函数,attnn∈Rn
4.2)根据掩膜对attnn进行计算,获得候选实体的注意力分值
Figure GDA00030529487300000517
Figure GDA00030529487300000518
其中,mask∈Rn×c,c是文档d的候选实体数目,mask将候选实体与文档的词语序列进行映射,记录了实体的具体位置及重复情况;
Figure GDA00030529487300000519
选取
Figure GDA0003052948730000061
中概率值最高的实体作为预测答案。
本发明可视为在候选实体上的多分类问题,因此选择交叉熵损失函数作为训练期间的损失函数,如下所示:
Figure GDA0003052948730000062
其中,y是正确答案,具体为在候选实体的one-hot表达,
Figure GDA0003052948730000063
是预测答案。
实施例2
本实施例采用的数据集包括英文公开数据集Quasar-T和中文公开数据集WebQA。英文公开数据集Quasar-T是包括事实型问答对和相关的文本,用于检索和阅读理解任务。通过对网络上多个数据来源的搜集,一共包括近四万个问题,这些问题的答案大部分是文本段落中的一段,其中大部分是名词短语。WebQA数据集包含形如(问题、证据文本、答案)的三元组,所有的问题、证据文本和答案都搜集于网络。数据集中的问题和答案大部分来源于一个大的问答社区——百度知道,小部分来源于人工搜集的网络文本。因此,该数据集中的所有问题均为现实世界的用户在日常生活中提出的,没有限制条件。数据集相关信息统计如下:
#q(train) #q(dev) #q(test)
Quasar-T 7035 560 568
WebQA 15480 1552 1511
采用TensorFlow框架进行编程,中英文词向量均采用预先训练的词向量,中文为基于百度百科语料的Skip-grams的词嵌入模型训练得到,英文采用GloVe。词向量维度为100,LSTM的隐层大小为[100,128],采用Adam优化器进行模型训练,初始的训练速度是0.001,随着训练次数的增加其将会衰减,以便让模型更好地收敛,并且采用Early Stop机制避免过拟合。
另外,实验中将数据集分为训练集(Train)、验证集(Development)和测试集(Test),在验证集上表现最佳的时刻将模型进行保存,并在测试机上进行预测,计算准确率。
为了比较本方法提出的基于注意力池化机制的局部注意力模型AP Reader(Attention Pooling Reader),选择了多个通用阅读理解模型包括AS Reader、CASReader、BiDAF和GA Reader,其对比结果如下表所示:
Figure GDA0003052948730000064
对比从表中可以看出,本方法提出的基于注意力池化机制的局部注意力模型APReader两个数据集上相比其他模型均有了提升。值得注意的是,通用模型中CAS Reader同样侧重于局部注意力的计算,与我们不同的是,未采用池化机制对注意力进行进一步分析,其准确率在两个数据集上分别为47.35和63.40,AP Reader则分别为48.26和63.80,均有不同程度的提高,再一次证明了将池化机制应用于局部注意力计算中的有效性。
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (4)

1.一种基于注意力池化机制的阅读理解方法,其特征在于,包括以下步骤:
(1)使用预训练词向量获得问题和文档中每个词语的向量表达,分别记为qembed、dembed
(2)根据步骤(1)得到的qembed和dembed,根据问题和文档是连续序列的特点,采用递归神经网络分别对问题和文档进行进一步的编码,以获得其具有上下文信息的向量表达,分别记为qrnn、drnn
(3)根据步骤(2)得到的qrnn和drnn进行注意力计算,得到注意力矩阵att∈Rm×n,m为问题长度,n为文档长度;对注意力矩阵att在m轴上进行一维最大池化操作,获得池化后的注意力数值;具体如下:
3.1)计算问题中每个词语的表达
Figure FDA0003052948720000011
和文档中每个词语的表达
Figure FDA0003052948720000012
之间的注意力矩阵att:
Figure FDA0003052948720000013
其中,·为矩阵乘法,att∈Rm×n
3.2)对步骤3.1)获得的注意力矩阵att在m轴进行一维最大池化操作:
attp=maxpooling(att)
其中,attp∈Rp×n,p由问题长度m、池化过滤器大小和步长共同决定;
3.3)将池化后的注意力在p轴进行相加操作:
attn=sum(attp)
其中,attn为池化后的注意力数值,attn∈Rn
(4)采用指针网络根据步骤(3)得到的注意力数值选择最终的答案,具体如下:
4.1)对步骤3)中获得的文档每个词语的注意力数值attn进行归一化:
attnn=softmax(attn)
其中,softmax代表softmax函数,attnn∈Rn
4.2)根据掩膜对attnn进行计算,获得候选实体的注意力分值
Figure FDA0003052948720000017
Figure FDA0003052948720000014
其中,mask∈Rn×c,c是文档d的候选实体数目,mask将候选实体与文档的词语序列进行映射,记录了实体的具体位置及重复情况;
Figure FDA0003052948720000015
选取
Figure FDA0003052948720000016
中概率值最高的实体作为预测答案。
2.根据权利要求1所述的一种基于注意力池化机制的阅读理解方法,其特征在于,所述步骤(1)包括:
1.1)分别对问题q、文档d进行预处理:通过自然语言处理工具对文本进行分词、去停用词处理,获得问题的词语序列q=q1,q2,...,qm和文档的词语序列d=d1,d2,...,dn
1.2)根据预训练词向量分别对问题q、文档d进行词嵌入表示,结果记为qembed∈Rm×d和dembed∈Rn×d,其中d是词向量维度。
3.根据权利要求1所述的一种基于注意力池化机制的阅读理解方法,其特征在于,所述步骤(2)包括:
基于双向LSTM分别对步骤(1)得到的问题表达qembed和文档表达dembed进行编码,得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,其中LSTM的具体计算步骤为下:
Figure FDA0003052948720000021
Figure FDA0003052948720000022
hj=oj·tanh(cj)
其中,ij、oj、fj分别是输入、输出、遗忘门,W、b是训练参数;σ和tanh分别为sigmoid和tanh激活函数,xj是在j时刻的输入向量,cj-1和hj-1是j-1时刻计算得到的上下文状态向量和隐层状态向量,
Figure FDA0003052948720000023
是j时刻的更新状态向量;
基于双向LSTM对qembed进行编码,分别得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,如下所示:
Figure FDA0003052948720000024
Figure FDA0003052948720000025
Figure FDA0003052948720000026
其中,
Figure FDA0003052948720000027
Figure FDA0003052948720000028
分别代表了正向和反向的递归神经网络,ht-1是在t-1时刻的隐层状态,
Figure FDA00030529487200000223
是qembed在t时刻的表达,
Figure FDA0003052948720000029
正向和反向的表达分别为
Figure FDA00030529487200000210
Figure FDA00030529487200000211
拼接得到最终的表达
Figure FDA00030529487200000212
Figure FDA00030529487200000213
h为隐层大小;
基于双向LSTM对dembed进行编码,分别得到其正向和反向的表达,将每个词语正反向拼接得到最终的表达,如下所示:
Figure FDA00030529487200000214
Figure FDA00030529487200000215
Figure FDA00030529487200000216
其中,
Figure FDA00030529487200000217
Figure FDA00030529487200000218
分别代表了正向和反向的递归神经网络,ht-1是在t-1时刻的隐层状态,
Figure FDA00030529487200000219
是dembed在t时刻的表达,
Figure FDA00030529487200000220
正向和反向的表达分别为
Figure FDA00030529487200000221
Figure FDA00030529487200000222
拼接得到最终的表达
Figure FDA0003052948720000031
Figure FDA0003052948720000032
h为隐层大小。
4.根据权利要求1所述的一种基于注意力池化机制的阅读理解方法,其特征在于,选择交叉熵损失函数作为训练期间的损失函数,如下所示:
Figure FDA0003052948720000033
其中,y是正确答案,yi是第i个候选实体的正确答案,具体为在候选实体的one-hot表达,
Figure FDA0003052948720000034
是预测答案,
Figure FDA0003052948720000035
是第i个候选实体的预测答案。
CN201910033258.4A 2019-01-14 2019-01-14 一种基于注意力池化机制的阅读理解方法 Active CN109977199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910033258.4A CN109977199B (zh) 2019-01-14 2019-01-14 一种基于注意力池化机制的阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910033258.4A CN109977199B (zh) 2019-01-14 2019-01-14 一种基于注意力池化机制的阅读理解方法

Publications (2)

Publication Number Publication Date
CN109977199A CN109977199A (zh) 2019-07-05
CN109977199B true CN109977199B (zh) 2021-06-29

Family

ID=67076678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910033258.4A Active CN109977199B (zh) 2019-01-14 2019-01-14 一种基于注意力池化机制的阅读理解方法

Country Status (1)

Country Link
CN (1) CN109977199B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879838B (zh) * 2019-10-29 2023-07-14 中科能效(北京)科技有限公司 一种放开域问答系统
CN111046661B (zh) * 2019-12-13 2021-09-28 浙江大学 基于图卷积网络的阅读理解方法
CN111241807B (zh) * 2019-12-31 2021-06-29 浙江大学 一种基于知识引导注意力的机器阅读理解方法
CN111274800B (zh) * 2020-01-19 2022-03-18 浙江大学 基于关系图卷积网络的推理型阅读理解方法
CN111611361B (zh) * 2020-04-01 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN111552773A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种阅读理解任务中是否类问题关键句寻找方法及系统
CN111581350A (zh) * 2020-04-30 2020-08-25 识因智能科技(北京)有限公司 一种基于预训练语言模型的多任务学习阅读理解方法
CN112632253B (zh) * 2020-12-28 2024-08-13 华润数字科技有限公司 基于图卷积网络的答案抽取方法、装置及相关组件
CN113537297B (zh) * 2021-06-22 2023-07-28 同盾科技有限公司 一种行为数据预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256228A (zh) * 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法
US20180373682A1 (en) * 2017-05-19 2018-12-27 salesforce.come, inc, Natural language processing using context-specific word vectors

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107180247A (zh) * 2017-05-19 2017-09-19 中国人民解放军国防科学技术大学 基于选择性注意力卷积神经网络的关系分类器及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256228A (zh) * 2017-05-02 2017-10-17 清华大学 基于结构化注意力机制的答案选择系统及方法
US20180373682A1 (en) * 2017-05-19 2018-12-27 salesforce.come, inc, Natural language processing using context-specific word vectors
CN107562792A (zh) * 2017-07-31 2018-01-09 同济大学 一种基于深度学习的问答匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Question-Focused Multi-Factor Attention Network for Question Answering;Souvik Kundu et al;《Association for the Advancement of Artificial》;20180125;第1-7页 *
Text Understanding with the Attention Sum Reader Network;Rudolf Kadlec et al;《In Proceedings of ACL》;20160624;第1-9页 *

Also Published As

Publication number Publication date
CN109977199A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN107967318A (zh) 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
US11409964B2 (en) Method, apparatus, device and storage medium for evaluating quality of answer
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN111966917A (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110134946A (zh) 一种针对复杂数据的机器阅读理解方法
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN112000809A (zh) 一种文本类别的增量学习方法及装置、可读存储介质
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Cai Automatic essay scoring with recurrent neural network
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN114742069A (zh) 一种代码相似度检测方法及装置
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant