CN111241807B - 一种基于知识引导注意力的机器阅读理解方法 - Google Patents

一种基于知识引导注意力的机器阅读理解方法 Download PDF

Info

Publication number
CN111241807B
CN111241807B CN201911423787.1A CN201911423787A CN111241807B CN 111241807 B CN111241807 B CN 111241807B CN 201911423787 A CN201911423787 A CN 201911423787A CN 111241807 B CN111241807 B CN 111241807B
Authority
CN
China
Prior art keywords
article
attention
word
entity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911423787.1A
Other languages
English (en)
Other versions
CN111241807A (zh
Inventor
庄越挺
浦世亮
汤斯亮
谭洁
郝雷光
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911423787.1A priority Critical patent/CN111241807B/zh
Publication of CN111241807A publication Critical patent/CN111241807A/zh
Application granted granted Critical
Publication of CN111241807B publication Critical patent/CN111241807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识引导注意力的机器阅读理解方法。该方法包括如下步骤:(1)利用预训练的词嵌入矩阵得到本文序列的词向量;(2)利用双向GRU网络来对文本中每个单词的上下文信息进行建模;(3)将问题的上下文表示作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息;(4)将外部知识作为长期记忆加入回看机制,在回看过程中来引导注意力的焦点,模型会重新分配注意力分数;(5)在单向GRU网络的输出端经过指针网络得到预测的答案。本发明是一个端到端的模型,不需要未标注语料集中除预训练好的词向量之外的数据预处理,因此本发明能在不同的语言和领域的阅读理解中有广泛应用。

Description

一种基于知识引导注意力的机器阅读理解方法
技术领域
本发明涉及自然语言处理,尤其涉及一种基于知识引导注意力的机器阅读理解方法。
背景技术
自然语言处理(Nature Language Processing,简称NLP)是一门集语言学与计算机科学为一体的交叉学科。阅读理解(Reading Comprehension)是自然语言处理中的一项基本任务,通常通过要求系统回答问题,从给定的文章或上下文中推断出答案。随着互联网时代的到来,网络上的信息呈爆炸式增长,这其中包括了各种语言各种形式的文本数据,如新浪和每日邮报的新闻,百度和维基百科的文章,知乎和Quora等问答社区的回答。这些语料成为构造大规模机器阅读理解数据集的基础。教会机器去阅读,处理和理解人类语言是自然语言处理的核心任务之一,也是人工智能的长期目标。
随着注意力机制的提出和在机器翻译任务上的大获成功,基于注意力机制的深度神经网络在自然语言处理的各个领域成为主流技术,自然在机器阅读理解任务上也成为了核心组件。注意力机制有助于深度神经网络学习和构建从问题空间到答案空间的复杂非线性映射,从而有效地解决问题或答案的释义问题。而且诸如指针网络等基于注意力的结构可以直接将输出与输入中位置相对应的离散变量,不用像之前的方法将神经网络的隐藏层表示解码到文本空间,这种解码方式也成为解决机器阅读理解任务的关键组件。
尽管目前的基于注意力的机器阅读理解模型已经能达到比较很好的效果,但是有研究人员通过构造对抗样本的方式来干扰现有模型,发现现有机器阅读理解模型并不是真正理解了文本,而只是对于句子结构的拟合。事实上,对于人类来说,如果要真正理解一篇新的文章,除了文章本身提供的上下文外,往往需要结合外部知识,也就是一些常识或文章相关的背景知识,才能真正地理解内容。我们寻求一种能够解决上述问题的更加有效的神经网络模型。
鉴于基于注意力机制的方法的成功,为了能够回答复杂的问题,一些研究人员将精力投入对推理机制的研究中,通过注意力焦点的转移机制来模拟人类的推理过程,提升模型的阅读理解能力。人在阅读理解文章内容的时候,推理的过程几乎无处不在,没有推理人是无法完全理解内容的,对于机器也是如此。俗话说,“书读百遍其义自见”,对于比较复杂的文章和问题,人类在阅读的过程中,经常会进行回顾,来确定自己的理解是否有偏差。推理是一个多步进行的过程,一些研究工作尝试通过结合当前时刻的信息和前序获得的信息来模拟这个过程。记忆网络是最早提出推理过程的模型,对后来的其他推理模型有重要影响。
将有用先验知识的融入深度神经网络中无疑可以提高模型的性能和可解释性,尤其是在应对部分可观察数据或者数据噪声比较大的情况下。但是知识融合并不是一件简单的事情,近些年随着Freebase,ConcepNet等知识库的出现,知识与深度神经网络融合进行端到端训练逐渐进入研究人员的视野。在自然语言处理领域中已经有一些工作尝试应用于各种任务中。
发明内容
本发明的目的是为了在给定文章和问题的情况下,希望结合外部知识库更好地对文章进行理解,提出一种基于知识引导注意力的机器阅读理解方法。
本发明具体采用的技术方案如下:
一种基于知识引导注意力的机器阅读理解方法,其特征在于包括如下步骤:
S1:根据文本数据进行数据预处理,对文本进行分句、分词,利用预训练的词嵌入矩阵得到文本序列的词向量;
S2:将词向量传入到双向GRU神经网络,利用双向GRU网络来分别对问题和文本的每个单词的上下文信息进行建模,得到问题和文章的语义编码特征;
S3:将问题的语义编码特征作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息;
S4:将外部知识作为长期记忆加入模型,在回看过程中来引导注意力的焦点,使模型重新分配文章中实体的注意力分数;
S5:针对S3中所得到的语义特征,经过指针网络得到预测的答案。
上述各步骤可具体采用如下实现方式:
所述的步骤S1的具体实现方法如下:
S11:采用自然语言处理工具对文本进行分句和分词,使文章和问题以句子和每句一个词条token的方式呈现;
S12:根据预训练的词向量和词表
Figure BDA0002353046830000021
得到一个词向量的查询矩阵
Figure BDA0002353046830000022
dw为词向量的维度;
S13:利用已预训练好的词向量查询得到文本的单词级特征向量,如(1)式所示:
Figure BDA0002353046830000023
其中,xi为|·|表示向量长度。
所述的步骤S2的具体实现方法如下:
S21:将文章和问题的词级特征向量表示为D={d1,d2,…,dn}和Q={q1,q2,…,qm},分别通过双向GRU神经网络得到其上下文特征,如式(2)所示:
Figure BDA0002353046830000031
其中,
Figure BDA0002353046830000032
表示文章中第i个单词的上下文语义特征,
Figure BDA0002353046830000033
表示问题中第i个单词的上下文语义特特征;BiGRU(·,·)表示双向GRU神经网络,下标D表示文章,下标Q表示问题;n和m分别表示文章和问题中的单词数量;
S22:将双向GRU神经网络中的前向网络和后向网络各自最后一个隐含层状态拼接起来,表示问题的整体
Figure BDA0002353046830000034
Figure BDA0002353046830000035
S23:最终将
Figure BDA0002353046830000036
Figure BDA0002353046830000037
分别作为文章D和问题Q的文本语义特征编码,其中h为双向GRU神经网络中单向网络的输出维度。
所述的步骤S3的具体实现方法如下:
S31:定义搜索状态的序列为S,其初始状态为问题的语义特征编码,问题的表示通过搜索状态的改变而得到显式更新;整个搜索状态序列通过单向GRU网络生成,如式(4)所示:
st=GRUs(st-1,xt) (4)
其中,st表示第t步回看过程的搜索状态,GRU(·,·)表示单向GRU神经网络;用xt表示第t步回看过程得到的文章信息综合,表现为文章每个词特征向量的加权和,如式(5)所示:
Figure BDA0002353046830000038
其中
Figure BDA0002353046830000039
为文章中第i个单词的上下文语义特征,αi,t为文章中第i个单词在第t步回看过程的注意力分数;文章的表示通过注意力分布的改变而得到隐式更新;
S32:使用双线性函数来计算匹配分数ai,t,其依赖于文章语义特征
Figure BDA00023530468300000310
和搜索状态st-1之间的相关性,如式(6)所示:
Figure BDA00023530468300000311
其中
Figure BDA00023530468300000312
是双线性函数的参数;β是偏置项,它使得模型可以注意到文章里在整个回看过程中都很重要的词,独立于搜索状态st-1
所述的步骤S4的具体实现方法如下:
S41:将Freebase作为模型的外部知识来源,对于数据集中所有文章经过实体识别链接系统处理后,得到一个实体表ε和关系表
Figure BDA0002353046830000041
S42:定义一篇文章对应的实体序列为E={e1,e2,…,en},ei为文章第i个token对应的Freebase实体ID;如果token链接不到Freebase,将其标记为NIL;
S43:从Freebase中检索实体表ε中实体两两之间的关系,得到一个稀疏矩阵
Figure BDA0002353046830000042
元素ki,j∈K表示以实体表ε中第i个实体为主体且第j个实体为客体的关系;
S44:采用基于翻译的知识图谱表示学习方法,在完整的Freebase知识图谱上进行预训练,得到实体与关系向量化表达:实体向量查询矩阵
Figure BDA0002353046830000043
和关系向量查询矩阵
Figure BDA0002353046830000044
dk为实体与关系向量的维度;
S45:对于S33中得到的文章与搜索状态的匹配分数{ai,t},通过argmax函数如式(8)所示:
ut=argmax{a1,t,a2,t,…,an,t} (8)
其中argmax函数返回序列中最大值的索引值,ut为第t步回看过程中注意力焦点的索引;
S46:对于文章D={d1,d2,…,dn}其对应到的E={e1,e2,…,en},可以得到注意力焦点对应的实体ID:eu∈ε;
S47:通过知识查询矩阵K得到注意力焦点与文章其他token在长期记忆库中的关系,得到关系序列
Figure BDA0002353046830000045
再通过关系向量查询矩阵
Figure BDA0002353046830000046
得到关系向量序列
Figure BDA0002353046830000047
Figure BDA0002353046830000048
其中
Figure BDA0002353046830000049
表示注意力焦点实体eu与第i个tokenei在长期记忆库中的关系,
Figure BDA00023530468300000410
表示注意力焦点实体eu与第i个tokenei在长期记忆库中的关系向量;
S48:采用主动感知的方式,动态地计算对于一个回看步,注意力焦点与文章其他token的关系对于模型推理文章隐式表示的影响程度,如式(9)所示:
Figure BDA00023530468300000411
其中,bi,u,t表示注意力焦点实体eu与第i个tokenei的关系在第t步回看时对于模型推理文章隐式表示的影响程度,
Figure BDA00023530468300000412
是双线性函数参数,st-1是第t-1步搜索状态;
同时,对于非实体token需要设置其
Figure BDA00023530468300000413
以去掉非法连接的影响;
S49:通过知识影响力分数来引导注意力的权重分配重新调整,如式(10)所示:
αi,t=softmaxi(ai,t+bi,u,t*au,t) (10)
其中au,t表示αi,t为注意力焦点实体eu在第t步回看过程的注意力分数。
所述的步骤S5的具体实现方法如下:
S51:经过T个回看过程,模型最终得到综合的推理信息v=sT,T为超参数;计算出文章序列中每个token作为答案的可能,如式(11)所示:
Figure BDA0002353046830000051
其中,oi表示第i个token作为答案的可能;
S52:将oi归一化之后,表示为对应于文章长度的答案概率分布;然后计算词w为正确答案的概率P(w|Q,D),如式(12)所示:
Figure BDA0002353046830000052
其中I(w,D)表示词w出现在文章D中的位置;
S53:模型最终预测的答案a′,如式(13)所示:
a′=argmax P(w|Q,D) (13)
S54:针对训练目标
Figure BDA0002353046830000053
采用最小化正确答案的平均负对数似然的方法进行参数优化,如式(14)所示:
Figure BDA0002353046830000054
其中θ表示模型中的所有参数,N是一个minibatch的所有训练数据,a是对应于文章D和问题Q的正确答案。
本发明与现有技术相比的有益的效果。
本发明本文提出了基于知识引导注意力的机器阅读理解模型,弥补了现有机器阅读理解模型对于外部知识的忽视。该方法模拟人类阅读过程,首先通过GRU神经网络组件构建文章和问题的上下文隐藏表示;然后重复查看文章和问题,收集有用信息来揭开正确的推理链,通过注意力找到每次推理的信息焦点;在此过程中,模型会在其长期记忆库中检索文章其他部分与当前注意力焦点的关系,并对关系对于问题的影响力进行建模,使之可以用来更新注意力的权重分布来收集隐藏线索;最终进过多次迭代后,模型收集到足够的信息来预测最终答案。通过与其他主流方法的对比试验,本发明所提方法展示出有效性和优越性。
附图说明
图1是基于知识引导注意力的机器阅读理解方法的关键步骤工作流程图;
图2是基于注意力的回看机制示意图;
图3是知识引导注意力模块示意图。
图4是知识引导注意力模块算法流程。
图5是基于知识引导注意力的机器阅读理解方法推理与预测算法流程。
图6为实施例中一个推理过程的可视化示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述。
本发明主要针对阅读理解任务,呈现了一种,结合外部知识库,基于知识引导注意力的机器阅读理解模型,该模型能够学习词向量,在此基础上将学习到的特征向量通过双向GRU得到文章和问题的上下文表示,然后结合外部知识库经过T步对文章的回看,由此从文章中得到准确率较高的答案。如图1所示,是基于知识引导注意力的机器阅读理解方法的关键步骤工作流程图,图2是基于注意力的回看机制示意图;图3是知识引导注意力模块示意图;图4是知识引导注意力模块算法流程;图5是基于知识引导注意力的机器阅读理解方法推理与预测算法流程。
本发明的基于知识引导注意力的机器阅读理解方法,其具体实现步骤如S1~S5所述,下面具体描述各步骤的实现。
S1:根据文本数据进行数据预处理,对文本进行分句、分词,利用预训练的词嵌入矩阵得到文本序列的词向量。具体实现方法如下:
S11:采用自然语言处理工具对文本进行分句和分词,使文章和问题以句子和每句一个词条token的方式呈现;
S12:使用Stanford公开的预训练的词向量和词表
Figure BDA0002353046830000061
得到一个词向量的查询矩阵
Figure BDA0002353046830000062
dw为词向量的维度;
S13:利用已预训练好的词向量查询得到文本的单词级特征向量,如(1)式所示:
Figure BDA0002353046830000063
其中,xi为**|·|表示向量长度。
S2:将词向量传入到双向GRU神经网络,利用双向GRU网络来分别对问题和文本的每个单词的上下文信息进行建模,得到问题和文章的语义编码特征。具体实现方法如下:
S21:将文章和问题的词级特征向量表示为D={d1,d2,…,dn}和Q={q1,q2,…,qm},分别通过双向GRU神经网络得到其上下文特征,如式(2)所示:
Figure BDA0002353046830000064
其中,
Figure BDA0002353046830000065
表示文章中第i个单词的上下文语义特征,
Figure BDA0002353046830000066
表示问题中第i个单词的上下文语义特特征;BiGRU(·,·)表示双向GRU神经网络,下标D表示文章,下标Q表示问题;n和m分别表示文章和问题中的单词数量;
S22:因为问题通常比文章短很多(平均10多个词),将双向GRU神经网络中的前向网络最后一个隐含层状态
Figure BDA0002353046830000071
和后向网络最后一个隐含层状态
Figure BDA0002353046830000072
拼接起来,表示问题的整体
Figure BDA0002353046830000073
Figure BDA0002353046830000074
S23:最终将
Figure BDA0002353046830000075
Figure BDA0002353046830000076
分别作为文章D和问题Q的文本语义特征编码,其中h为双向GRU神经网络中单向网络的输出维度。
S3:将问题的语义编码特征作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息。具体实现方法如下:
S31:定义搜索状态的序列为S,其初始状态为问题的语义特征编码,问题的表示通过搜索状态的改变而得到显式更新;整个搜索状态序列通过单向GRU网络生成,如式(4)所示:
st=GRUs(st-1,xt) (4)
其中,st表示第t步回看过程的搜索状态,GRU(·,·)表示单向GRU神经网络;用xt表示第t步回看过程得到的文章信息综合,表现为文章每个词特征向量的加权和,如式(5)所示:
Figure BDA0002353046830000077
其中
Figure BDA0002353046830000078
为文章中第i个单词的上下文语义特征,αi,t为文章中第i个单词在第t步回看过程的注意力分数;文章的表示通过注意力分布的改变而得到隐式更新;
S32:使用双线性函数来计算匹配分数ai,t,其依赖于文章语义特征
Figure BDA0002353046830000079
和搜索状态st-1之间的相关性,如式(6)所示:
Figure BDA00023530468300000710
其中
Figure BDA00023530468300000711
是双线性函数的参数;β是偏置项,它使得模型可以注意到文章里在整个回看过程中都很重要的词,独立于搜索状态st-1
若不考虑外部知识,在传统的注意力机制中得到注意力权重ai,t,如式(7)所示:
αi,t=softmaxi ai,t (7)
但本发明中,不采用该传统的注意力机制,而是将外部知识作为长期记忆加入模型,具体如S4所示。
S4:将外部知识作为长期记忆加入模型,在回看过程中来引导注意力的焦点,使模型重新分配文章中实体的注意力分数。具体实现方法如下:
S41:将Freebase作为模型的外部知识来源,对于数据集中所有文章经过实体识别链接系统处理后,得到一个实体表ε和关系表
Figure BDA0002353046830000081
S42:定义一篇文章对应的实体序列为E={e1,e2,…,en},ei为文章第i个token对应的Freebase实体ID;如果token链接不到Freebase,将其标记为NIL;
S43:从Freebase中检索实体表ε中实体两两之间的关系,得到一个稀疏矩阵
Figure BDA0002353046830000082
元素ki,j∈K表示以实体表ε中第i个实体为主体且第j个实体为客体的关系;
S44:采用基于翻译的知识图谱表示学习方法(TransE学习算法),在完整的Freebase知识图谱上进行预训练,得到实体与关系向量化表达:实体向量查询矩阵
Figure BDA0002353046830000083
和关系向量查询矩阵
Figure BDA0002353046830000084
dk为实体与关系向量的维度;
S45:对于S33中得到的文章与搜索状态的匹配分数{ai,t},通过argmax函数如式(8)所示:
ut=argmax{a1,t,a2,t,…,an,t} (8)
其中argmax函数返回序列中最大值的索引值,ut为第t步回看过程中注意力焦点的索引;
S46:对于文章D={d1,d2,…,dn}其对应到的E={e1,e2,…,en},可以得到注意力焦点对应的实体ID:eu∈ε;
S47:通过知识查询矩阵K得到注意力焦点与文章其他token在长期记忆库中的关系,得到关系序列
Figure BDA0002353046830000085
再通过关系向量查询矩阵R得到关系向量序列
Figure BDA0002353046830000086
Figure BDA0002353046830000087
其中
Figure BDA0002353046830000088
表示注意力焦点实体eu与第i个tokenei在长期记忆库中的关系,
Figure BDA0002353046830000089
表示注意力焦点实体eu与第i个tokenei在长期记忆库中的关系向量;
S48:采用主动感知的方式,动态地计算对于一个回看步,注意力焦点与文章其他token的关系对于模型推理文章隐式表示的影响程度,如式(9)所示:
Figure BDA00023530468300000810
其中,bi,u,t表示注意力焦点实体eu与第i个tokenei的关系在第t步回看时对于模型推理文章隐式表示的影响程度,
Figure BDA00023530468300000811
是双线性函数参数,st-1是第t-1步搜索状态;
需要注意的是,对于那些非实体tokens,要将其mask out,即对于非实体token需要设置其
Figure BDA00023530468300000812
这样在其归一化之后对应的bi,u,t=0,从而去掉了那些非法连接的影响;
S49:通过知识影响力分数来引导注意力的权重分配重新调整,如式(10)所示:
αi,t=softmaxi(ai,t+bi,u,t*au,t) (10)
其中au,t表示αi,t为注意力焦点实体eu在第t步回看过程的注意力分数。
S5:针对S3中所得到的语义特征,经过指针网络得到预测的答案。具体实现方法如下:
S51:经过T个回看过程(T为超参数),模型最终得到综合的推理信息v=sT,T为超参数;计算出文章序列中每个token作为答案的可能,如式(11)所示:
Figure BDA0002353046830000091
其中,oi表示第i个token作为答案的可能;
S52:将oi归一化之后,表示为对应于文章长度的答案概率分布;然后计算词w为正确答案的概率P(w|Q,D),如式(12)所示:
Figure BDA0002353046830000094
其中I(w,D)表示词w出现在文章D中的位置;
S53:模型最终预测的答案a′,如式(13)所示:
a′=argmax P(w|Q,D) (13)
S54:针对训练目标
Figure BDA0002353046830000092
采用最小化正确答案的平均负对数似然的方法进行参数优化,如式(14)所示:
Figure BDA0002353046830000093
其中θ表示模型中的所有参数,N是一个minibatch的所有训练数据,a是对应于文章D和问题Q的正确答案。
模型训练完毕后,即可用于进行答案的预测。
下面将上述方法应用于实施例中,具体步骤和参数定义如前所述,部分内容不再重复赘述,本实施例主要展示其具体实现以及技术效果。
实施例
以CNN\Daily Mail数据集为例,将上述方法应用于阅读理解任务,各步骤中具体参数和做法如下:
1.使用CNN\Daily Mail数据集,由于CNN\Daily Mail原始数据集是以一条数据一个文件的形式存储,为了便于后续的处理将其合并,并去除多余字段信息,仅保留(Question,Context,Answer),采用自然语言处理工具对文章和问题进行分句和分词,得到词表规模为118497/208045,CNN和Daily Mail文章中平均实体数都是26左右;
2.利用已训练好的6亿斯坦福公开的GloVe 300维向量与1中词表相结合组成300维词向量,为了训练模型,本文统计训练集中的词频,并降序排序,选取前50k个词作为词表
Figure BDA0002353046830000101
根据预训练的词向量和词表
Figure BDA0002353046830000102
可以得到一个词向量的查询矩阵
Figure BDA0002353046830000103
dw为词向量的维度;
3.利用已训练好的词向量查询得到文章和问题的词向量特征,如(1)式所示:
Figure BDA0002353046830000104
其中,xi为|·|表示向量长度。
将词向量输入到双向GRU神经网络,利用双向GRU神经网络来训练得到输入语句信息特征:
4.将文章和问题的词级特征向量表示为D={d1,d2,…,dn}和Q={q1,q2,…,qm},分别通过双向GRU得到其上下文特征,设置GRU隐藏层维度=300,如(2)式所示:
Figure BDA0002353046830000105
5.因为问题通常比文章短很多(平均10多个词),本文将前向网络和后向网络各自最后一个隐含层状态拼接起来表示
Figure BDA0002353046830000106
如(3)式所示:
Figure BDA0002353046830000107
6.最终将
Figure BDA0002353046830000108
Figure BDA0002353046830000109
分别作为文章D和问题Q的文本语义特征编码;
将问题的上下文表示作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息的:
7.定义搜索状态的序列为S,其初始状态为问题的语义特征编码,问题的表示便通过搜索状态的改变而得到显式更新,整个搜索状态序列通过GRU网络生成如式(4)所示:
st=GRUS(st-1,xt) (4)
其中,设置最大回看步数为3,用xt表示第t步回看过程得到的文章信息综合,表现为文章每个词特征向量的加权和如式(5)所示:
Figure BDA00023530468300001010
其中
Figure BDA00023530468300001011
为文章中第i个词的上下文语义特征编码,αi,t为文章中第i个词在第t步回看过程的注意力分数,会在知识引导注意力部分详细介绍,文章的表示便通过注意力分布的改变而得到隐式更新;
8.使用双线性函数来计算匹配分数ai,t,它依赖于文章语义特征
Figure BDA00023530468300001012
和搜索状态st-1之间的相关性,如式(6)所示:
Figure BDA0002353046830000111
其中
Figure BDA0002353046830000112
是双线性函数的参数,β是偏置项,它使得模型可以注意到文章里在整个回看过程中都很重要的词,独立于搜索状态st-1
9.如果在不考虑外部知识,在传统的注意力机制中,可以认为注意力权重ai,t如式(7)所示:
αi,t=softmaxi ai,t (7)
将外部知识作为长期记忆加入模型,在回看过程中来引导注意力的焦点,重新分配文章中实体的注意力分数,其步骤可具体实现如下:
10.将Freebase作为模型的外部知识来源,对于数据集中所有文章经过实体识别链接系统处理后,可以得到一个实体表ε和关系表
Figure BDA0002353046830000113
11.定义一篇文章对应的实体序列为E={e1,e2,…,en}。ei为文章第i个token对应的Freebase实体ID。如果链接不到Freebase,将其标记为NIL,使用实体识别链接系统将这些实体链接到Freebase来构建模型的长期记忆库。由于EDL系统的性能限制,仅能链接到一部分实体,CNN:40%,Daily Mail:33%。
12.从Freebase中检索实体表ε中实体两两之间的关系,得到一个稀疏矩阵
Figure BDA0002353046830000114
元素ki,j∈K表示以实体表ε中第i个实体为主体,第j个实体为客体的关系。
13.采用基于翻译的知识图谱表示学习方法TransE学习算法,在完整的Freebase知识图谱上进行预训练,得到实体与关系向量化表达:实体向量查询矩阵
Figure BDA0002353046830000115
和关系向量查询矩阵
Figure BDA0002353046830000116
dk为实体与关系向量的维度,实体和关系向量采用50维的预训练的OpenKE Freebase嵌入表示进行初始化,并且会在训练过程中固定住;
14.对于式7得到的文章与搜索状态的匹配分数{ai,t},通过argmax函数如式(8)所示:
ut=argmax{a1,t,a2,t,…,an,t} (8)
其中argmax函数返回序列中最大值的索引值,ut为第t步回看过程中注意力焦点的索引;
15.对于文章D={d1,d2,…,dn}其对应到的E={e1,e2,…,en},可以得到注意力焦点对应的实体ID:eu∈ε;
16.通过知识查询矩阵K得到注意力焦点与文章其他token在长期记忆库中的关系,可以得到关系序列
Figure BDA0002353046830000117
再通过关系向量查询矩阵
Figure BDA0002353046830000118
得到关系向量序列
Figure BDA0002353046830000119
17.采用一种主动感知的方式,它可以动态地计算对于一个特定回看步,注意力焦点与文章其他token的关系对于模型推理文章隐式表示的影响程度如式(9)所示:
Figure BDA0002353046830000121
其中
Figure BDA0002353046830000122
是双线性函数参数,st-1是上一步搜索状态。需要注意的是,对于那些非实体tokens,要将其mask out,即
Figure BDA0002353046830000123
这样在其归一化之后对应的bi,u,t=0,从而去掉了那些非法连接的影响;
18.通过知识影响力分数来引导注意力的权重分配重新调整,如式(10)所示:
αi,t=softmaxi(ai,t+bi,u,t*au,t) (10)
使用指针总和注意力机制解码生成问题答案,其步骤可具体实现如下:
19.经过T个回看过程(T为超参数),模型最终得到了综合的推理信息v=sT,计算出文章序列中每个token作为答案的可能,如式(11)所示:
Figure BDA0002353046830000124
20.将oi归一化之后,表示为对应于文章长度的答案概率分布。然后计算词w为正确答案的概率,如式(12)所示:
Figure BDA0002353046830000125
其中I(w,D)表示词w出现在文章D中的位置;
21.模型最终预测的答案如式(13)所示:
a′=argmax P(w|Q,D) (13)
22.作为训练目标,本文采用最小化正确答案的平均负对数似然的方法如式(14)所示:
Figure BDA0002353046830000126
其中θ表示模型中的所有参数,N是一个minibatch的所有训练数据,a是对应于文章D和问题Q的正确答案。
为了降低过拟合现象,模型使用了在网络各层之间,稀疏概率为40%。模型使用Adam算法进行学习,其中β1=0.9,β2=0.999,∈=10-9。初始学习率为η=0.1。为了避免网络过早陷入饱和状态,网络参数由xavier_uniform进行初始化。为了保持学习的稳定性,模型使用梯度剪裁,阈值设为5。本文还是使用早停,当验证集上的性能三个训练周期不提升时停止训练。
23.根据给定文章和问题,将融合外部知识库阅读理解分析后的答案反馈给用户。为了更好地理解知识引导注意力模块是如何模拟人类感知过程,通过对一个具体例子的分析观察外部知识是如何通过KAM来主动感知更多线索,以及注意力是如何重定向的:
如图6所示,模型首先聚焦到与问题直接相关的实体“Yancheng”(@entity37)和“Li Shilong”(@entity5)上。没有知识引导注意力模块,“Yancheng”和他(“Li Shilong”)家乡的关系是无法直接从文章的文字中推理得到的。因此模型会确定“Yancheng”是答案,而正确答案将会被忽略。但是“Jiangsu Province”(@entity9)和“Yancheng”之间的关系(“location.location.contains”)使得“Jiangsu Province”在第二步推理结束的时候被模型考虑进来。沿着这个关系链,“Xiangshui”(@entity8)和“Jiangsu Province”之间的关系(“location.location.contains”)同样会使得”Xiangshui”在第三步成为注意力的焦点。最后,“Xiangshui”以一个模型推断出的高概率成为最终预测的答案。
从这个例子中可以看出,知识引导注意力模块通过可解释的知识改进了模型的推理过程。它不仅使模型表现的更好,而且更易于说明。

Claims (1)

1.一种基于知识引导注意力的机器阅读理解方法,其特征在于包括如下步骤:
S1:根据文本数据进行数据预处理,对文本进行分句、分词,利用预训练的词嵌入矩阵得到文本序列的词向量;
S2:将词向量传入到双向GRU神经网络,利用双向GRU网络来分别对问题和文本的每个单词的上下文信息进行建模,得到问题和文章的语义编码特征;
S3:将问题的语义编码特征作为初始隐藏层状态输入到单向GRU网络,GRU网络使用基于注意力的回看机制迭代地执行搜索步骤以收集文章中可能用于预测答案的信息;
S4:将外部知识作为长期记忆加入模型,在回看过程中来引导注意力的焦点,使模型重新分配文章中实体的注意力分数;
S5:针对S3中所得到的语义特征,经过指针网络得到预测的答案;
所述的步骤S1的具体实现方法如下:
S11:采用自然语言处理工具对文本进行分句和分词,使文章和问题以句子和每句一个词条token的方式呈现;
S12:根据预训练的词向量和词表
Figure FDA0002980947500000017
得到一个词向量的查询矩阵
Figure FDA0002980947500000011
dw为词向量的维度;
S13:利用已预训练好的词向量查询得到文本的单词级特征向量,如(1)式所示:
Figure FDA0002980947500000012
其中,|·|表示向量长度;
所述的步骤S2的具体实现方法如下:
S21:将文章和问题的词级特征向量表示为D={d1,d2,...,dn}和Q={q1,q2,...,qm},分别通过双向GRU神经网络得到其上下文特征,如式(2)所示:
Figure FDA0002980947500000013
其中,
Figure FDA0002980947500000014
表示文章中第i个单词的上下文语义特征,
Figure FDA0002980947500000015
表示问题中第i个单词的上下文语义特征;BiGRU(·,·)表示双向GRU神经网络,下标D表示文章,下标Q表示问题;n和m分别表示文章和问题中的单词数量;
S22:将双向GRU神经网络中的前向网络和后向网络各自最后一个隐含层状态拼接起来,表示问题的整体
Figure FDA0002980947500000016
Figure FDA0002980947500000021
S23:最终将
Figure FDA0002980947500000022
Figure FDA0002980947500000023
分别作为文章D和问题Q的文本语义特征编码,其中h为双向GRU神经网络中单向网络的输出维度;
所述的步骤S3的具体实现方法如下:
S31:定义搜索状态的序列为S,其初始状态为问题的语义特征编码,问题的表示通过搜索状态的改变而得到显式更新;整个搜索状态序列通过单向GRU网络生成,如式(4)所示:
st=GRUs(st-1,xt) (4)
其中,st表示第t步回看过程的搜索状态,GRU(·,·)表示单向GRU神经网络;用xt表示第t步回看过程得到的文章信息综合,表现为文章每个词特征向量的加权和,如式(5)所示:
Figure FDA0002980947500000024
其中
Figure FDA0002980947500000025
为文章中第i个单词的上下文语义特征,αi,t为文章中第i个单词在第t步回看过程的注意力分数;文章的表示通过注意力分布的改变而得到隐式更新;
S32:使用双线性函数来计算匹配分数ai,t,其依赖于文章语义特征
Figure FDA0002980947500000026
和搜索状态st-1之间的相关性,如式(6)所示:
Figure FDA0002980947500000027
其中
Figure FDA0002980947500000028
是双线性函数的参数;β是偏置项,它使得模型可以注意到文章里在整个回看过程中都很重要的词,独立于搜索状态st-1
所述的步骤S4的具体实现方法如下:
S41:将Freebase作为模型的外部知识来源,对于数据集中所有文章经过实体识别链接系统处理后,得到一个实体表ε和关系表
Figure FDA00029809475000000212
S42:定义一篇文章对应的实体序列为E={e1,e2,...,en},ei为文章第i个token对应的Freebase实体ID;如果token链接不到Freebase,将其标记为NIL;
S43:从Freebase中检索实体表ε中实体两两之间的关系,得到一个稀疏矩阵
Figure FDA0002980947500000029
元素ki,j∈K表示以实体表ε中第i个实体为主体且第j个实体为客体的关系;
S44:采用基于翻译的知识图谱表示学习方法,在完整的Freebase知识图谱上进行预训练,得到实体与关系向量化表达:实体向量查询矩阵
Figure FDA00029809475000000210
和关系向量查询矩阵
Figure FDA00029809475000000211
dk为实体与关系向量的维度;
S45:对于S33中得到的文章与搜索状态的匹配分数{ai,t},通过argmax函数如式(8)所示:
ut=argmax{a1,t,a2,t,...,an,t} (8)
其中argmax函数返回序列中最大值的索引值,ut为第t步回看过程中注意力焦点的索引;
S46:对于文章D={d1,d2,...,dn}其对应到的E={e1,e2,...,en},可以得到注意力焦点对应的实体ID:eu∈ε;
S47:通过知识查询矩阵K得到注意力焦点与文章其他token在长期记忆库中的关系,得到关系序列
Figure FDA0002980947500000031
再通过关系向量查询矩阵
Figure FDA0002980947500000032
得到关系向量序列
Figure FDA0002980947500000033
Figure FDA0002980947500000034
其中
Figure FDA0002980947500000035
表示注意力焦点实体eu与第i个token ei在长期记忆库中的关系,
Figure FDA0002980947500000036
表示注意力焦点实体eu与第i个token ei在长期记忆库中的关系向量;
S48:采用主动感知的方式,动态地计算对于一个回看步,注意力焦点与文章其他token的关系对于模型推理文章隐式表示的影响程度,如式(9)所示:
Figure FDA0002980947500000037
其中,bi,u,t表示注意力焦点实体eu与第i个token ei的关系在第t步回看时对于模型推理文章隐式表示的影响程度,
Figure FDA0002980947500000038
是双线性函数参数,st-1是第t-1步搜索状态;
同时,对于非实体token需要设置其
Figure FDA0002980947500000039
以去掉非法连接的影响;
S49:通过知识影响力分数来引导注意力的权重分配重新调整,如式(10)所示:
αi,t=softmaxi(ai,t+bi,u,t*au,t) (10)
其中au,t表示αi,t为注意力焦点实体eu在第t步回看过程的注意力分数;
所述的步骤S5的具体实现方法如下:
S51:经过T个回看过程,模型最终得到综合的推理信息v=sT,T为超参数;计算出文章序列中每个token作为答案的可能,如式(11)所示:
Figure FDA00029809475000000310
其中,oi表示第i个token作为答案的可能;
S52:将oi归一化之后,表示为对应于文章长度的答案概率分布;然后计算词w为正确答案的概率P(w|Q,D),如式(12)所示:
Figure FDA00029809475000000311
其中I(w,D)表示词w出现在文章D中的位置;
S53:模型最终预测的答案a′,如式(13)所示:
a′=argmax P(w|Q,D) (13)
S54:针对训练目标
Figure FDA00029809475000000312
采用最小化正确答案的平均负对数似然的方法进行参数优化,如式(14)所示:
Figure FDA0002980947500000041
其中θ表示模型中的所有参数,N是一个minibatch的所有训练数据,a是对应于文章D和问题Q的正确答案。
CN201911423787.1A 2019-12-31 2019-12-31 一种基于知识引导注意力的机器阅读理解方法 Active CN111241807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911423787.1A CN111241807B (zh) 2019-12-31 2019-12-31 一种基于知识引导注意力的机器阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911423787.1A CN111241807B (zh) 2019-12-31 2019-12-31 一种基于知识引导注意力的机器阅读理解方法

Publications (2)

Publication Number Publication Date
CN111241807A CN111241807A (zh) 2020-06-05
CN111241807B true CN111241807B (zh) 2021-06-29

Family

ID=70872292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911423787.1A Active CN111241807B (zh) 2019-12-31 2019-12-31 一种基于知识引导注意力的机器阅读理解方法

Country Status (1)

Country Link
CN (1) CN111241807B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347780B (zh) * 2020-11-27 2023-09-12 浙江大学 基于深度神经网络的司法事实查明生成方法、装置、介质
CN112687388B (zh) * 2021-01-08 2023-09-01 中山依数科技有限公司 一种基于文本检索的可解释性智慧医疗辅助诊断系统
CN113221544B (zh) * 2021-05-11 2023-10-03 河海大学 基于改进ga的深度神经网络对抗性文本生成方法及系统
CN113239703B (zh) * 2021-05-24 2023-05-02 清华大学深圳国际研究生院 基于多元因素融合的深层逻辑推理金融文本分析方法及系统
CN113032533B (zh) * 2021-05-31 2021-09-03 宏龙科技(杭州)有限公司 一种基于稀疏向量匹配的高效检索方法
CN113724110A (zh) * 2021-08-27 2021-11-30 中国海洋大学 一种可解释的深度知识追踪方法、系统及其应用
CN115617954B (zh) * 2022-11-17 2023-03-28 清华大学 问答方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109657226A (zh) * 2018-09-20 2019-04-19 北京信息科技大学 多联结注意力的阅读理解模型、系统及方法
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020009B (zh) * 2017-09-29 2023-03-21 阿里巴巴集团控股有限公司 在线问答方法、装置及系统
CN109408680A (zh) * 2018-10-08 2019-03-01 腾讯科技(深圳)有限公司 自动问答方法、装置、设备和计算机可读存储介质
CN109727508B (zh) * 2018-12-11 2021-11-23 中山大学中山眼科中心 以动态脑适能为基础的提高视觉能力的视觉训练方法
CN110134771B (zh) * 2019-04-09 2022-03-04 广东工业大学 一种基于多注意力机制融合网络问答系统的实现方法
CN110334184A (zh) * 2019-07-04 2019-10-15 河海大学常州校区 基于机器阅读理解的智能问答系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657226A (zh) * 2018-09-20 2019-04-19 北京信息科技大学 多联结注意力的阅读理解模型、系统及方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task;Chen, Danqi, et al.;《A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task》;20160812;全文 *
Hierarchical Attention Flow for Multiple-Choice Reading Comprehension;Zhu Haichao,et al.;《32nd AAAI Conference on Artificial Intelligence / 30th Innovative Applications of Artificial Intelligence Conference / 8th AAAI Symposium on Educational Advances in Artificial Intelligence》;20180207;全文 *
Reading Document and Answering Question via Global Attentional Inference;Song Jun, et al.;《19th Pacific-Rim Conference on Multimedia (PCM)》;20180922;全文 *
Stanford Attentive Reader:斯坦福机器阅读理解模型;周明的技术博;《https://zhoum1118.github.io/deeplearning/2018/05/10/Stanford-Attentive-Reader-%E6%96%AF%E5%9D%A6%E7%A6%8F%E6%9C%BA%E5%99%A8%E9%98%85%E8%AF%BB%E7%90%86%E8%A7%A3%E6%A8%A1%E5%9E%8B.html》;20180510;全文 *
Text Understanding with the Attention Sum Reader Network;Kadlec Rudolf, et al.;《54th Annual Meeting of the Association-for-Computational-Linguistics (ACL)》;20160812;第3-5页 *
基于注意力池化机制和额外知识的事实型知识问答研究;汪欢;《中国优秀硕士学位论文全文数据库信息科技辑》;20190815;第11-47页 *
汪欢.基于注意力池化机制和额外知识的事实型知识问答研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2019, *
面向属性抽取的门控动态注意力机制;程梦,等;《模式识别与人工智能》;20190215;第186-187页 *

Also Published As

Publication number Publication date
CN111241807A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111241807B (zh) 一种基于知识引导注意力的机器阅读理解方法
Jiang et al. Smart: Robust and efficient fine-tuning for pre-trained natural language models through principled regularized optimization
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
Neubig Neural machine translation and sequence-to-sequence models: A tutorial
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
Nguyen et al. Recurrent neural network-based models for recognizing requisite and effectuation parts in legal texts
CN111651974B (zh) 一种隐式篇章关系分析方法和系统
Mahajani et al. A comprehensive survey on extractive and abstractive techniques for text summarization
Mollas et al. Lionets: Local interpretation of neural networks through penultimate layer decoding
Zhao The state-of-art applications of nlp: Evidence from chatgpt
Seilsepour et al. Self-supervised sentiment classification based on semantic similarity measures and contextual embedding using metaheuristic optimizer
Vo Se4exsum: An integrated semantic-aware neural approach with graph convolutional network for extractive text summarization
Jimmy et al. Bilstm-crf Manipuri ner with character-level word representation
Fernández-Martínez et al. An approach to intent detection and classification based on attentive recurrent neural networks
Bhargava et al. Deep paraphrase detection in indian languages
KASSEM et al. Software effort estimation using hierarchical attention neural network
Abdullahi et al. Deep sequence models for text classification tasks
Kandi Language Modelling for Handling Out-of-Vocabulary Words in Natural Language Processing
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
Zouari French AXA insurance word embeddings: Effects of fine-tuning bert and camembert on AXA france’s data
CN117094291B (zh) 基于智能写作的自动新闻生成系统
Shivakumar et al. Behavior gated language models
Wang An unsupervised approach to relatedness analysis of legal language
Datta et al. A Comprehensive Analytical Study of Traditional and Recent Development in Natural Language Processing
Bensghaier et al. Investigating the Use of Different Recurrent Neural Networks for Natural Language Inference in Arabic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant