CN111046661A - 基于图卷积网络的阅读理解方法 - Google Patents

基于图卷积网络的阅读理解方法 Download PDF

Info

Publication number
CN111046661A
CN111046661A CN201911290660.7A CN201911290660A CN111046661A CN 111046661 A CN111046661 A CN 111046661A CN 201911290660 A CN201911290660 A CN 201911290660A CN 111046661 A CN111046661 A CN 111046661A
Authority
CN
China
Prior art keywords
document
vector
network
word
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911290660.7A
Other languages
English (en)
Other versions
CN111046661B (zh
Inventor
鲁伟明
汤泽云
吴飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911290660.7A priority Critical patent/CN111046661B/zh
Publication of CN111046661A publication Critical patent/CN111046661A/zh
Application granted granted Critical
Publication of CN111046661B publication Critical patent/CN111046661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0281Customer communication at a business location, e.g. providing product or service information, consulting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图卷积神经网络的阅读理解方法:该方法主要针对多篇文档中寻找答案的阅读理解场景,首先用预训练好的词向量初始化问句和文档的表示;利用双向的长短期记忆网络(LSTM)获取问句和文档的语义表示;然后构建图网络来表示每个样本,利用图卷积网络学习文档的表示;接着将图卷积网络学习的向量表示和长短期记忆网络获得的向量表示融合形成文档最终的向量表示;利用候选答案抽取,文档选择,候选答案验证3个任务一起作用抽取问题的最终答案。本发明提出了一个解决多文档的阅读理解任务的方法,能够考虑多篇文档之间的交互性,可以有效的提高多文档阅读理解任务的效果,对阅读理解,智能问答的发展具有较大的意义。

Description

基于图卷积网络的阅读理解方法
技术领域
本发明涉及基于图卷积网络的阅读理解方法,特别是涉及一种自动化图卷积网络的抽取式阅读理解,用多任务和答案验证的方式解决多篇文档的难题。
背景技术
阅读理解任务是指让机器像人一样,能够阅读文档,理解文档的意思,往往用关于文档的相关问题来验证机器理解文档的能力。阅读理解作为自然语言处理的一个重要任务,在最近几年成为学术和工业界的热点。在智能客服,自动问答系统有广泛的应用,能大大降低人工的劳动力,提高公司的效率。随着大数据,人工智能时代的到来,设计一个能够自动理解文档的阅读理解系统是非常有意义的,可以极大的促进人工智能的发展。
最近几年,自然语言处理得到了很大的发展,阅读理解任务作为自然语言处理的重要问题,吸引了广大研究学者的参与,提出了很多的用于研究的数据集。从数据集的任务上来说,阅读理解可以分为两个阶段。最早提出的SQUAD和CNN/Daily mail等数据集,提供了大量监督数据。这些数据集一般只包含一个问题,一篇文档,从提供的一篇文档中寻找答案。在此之上研究出了BIDAF,SAN等优秀的阅读理解模型。然而这样的数据集,仅提供了包含答案的一篇文档,并且只需要匹配文档中的某一个片段即可,与现实中的场景还有不小的差距,现实中的场景往往需要从多篇文档中去寻找答案。在这之后,有学者提出了TriviaQA,NarrativeQA和MSMARCO等数据集,这些数据集对每个问题,提供了多篇文档作为证据,模型需要从多篇文档中寻找答案,并添加了推理功能。在这些数据集之上,提出了VNET等高性能模型。
本发明设计并实现了一个基于图卷积网络的阅读理解方法。该方法利用目前最新的图卷积网络(GCN)来挖掘文档间的关联信息,并且利用多任务学习和答案验证的方法提高了模型的效果。
发明内容
本发明为了解决现实中从多篇文档中寻找答案,自动回答问题的场景,提出了一种基于图卷积网络的阅读理解方法,能够有效回答多篇文档的阅读理解问题。
本发明解决其技术问题采用的技术方案如下:一种基于图卷积网络的阅读理解方法,包括以下步骤:
1)词向量初始化:对于每个问题和对应的多篇文档,首先对问题和文档进行分词;用预训练好的词向量初始化分词后的问题和文档,得到问题和文档中每个词的词向量;
2)基于注意力机制的文档和问题的向量表示:对于步骤1)初始化完成的文档和问题,首先利用双向长短期记忆网络(LSTM)对文档和问题进行进一步编码,得到包含上下文信息的向量表示;然后根据双向注意力机制,获得经过注意力交互后的问题和文档的向量表示;
3)基于图卷积网络的文档交互表示:对于每个问题和对应的多篇文档,构建一个图网络表示问题和其对应的多篇文档,图网络中的节点表示一个词,每个词用步骤2)中得到的文档向量表示。因为图卷积网络表示的是整个样本的信息,将所有文档表示在一个图里,所以用图卷积网络获得向量是经过了文档之间的交互,包含了更加丰富的语义信息。构建图网络的具体过程主要分为两个步骤,第一是节点的抽取:对于问题中的每个词,首先找到文档中对应的词作为中心词,并按照一定大小的滑动窗口找到中心词周围的词,选取这些词作为图的节点;第二是图中节点边的定义,主要定义两种边的关系:第一种,在文档中,根据问题找到的词,这些词对应的节点两两相连,每两个节点连成一条边;第二种,在文档中,根据问题找到的词,以这个词为中心词,将中心词周围的词两两相连,每两个词对应的节点连成一条边。构建完图网络之后,用图卷积网络(GCN)更新图中每个节点的向量表示;
4)基于图卷积网络和双向长短期记忆网络联合表示:用步骤3)中获得的节点向量与步骤2)中获得的文档向量进行拼接得到联合向量。然后在联合向量上利用注意力机制,得到文档最终的向量表示。该处注意力机制的目的有两个,一个是为了更好的融合图卷积网络和长短期记忆网络的向量表示,把两个向量融合在同一个向量空间中;二是因为图卷积网络的更新过程并没有考虑到问题的信息,注意力机制可以将问题的信息融入进来;
5)基于多任务的答案选择:首先将步骤4)得到的文档向量,进行自注意力机制之后,输入到一个全连接网络中,输出一个文档选择分数,用于表示问题的正确答案出现在这篇文档中的概率。然后对每一篇文档,将步骤4)得到的文档向量输入到指针网络中,输出为两个指针,以两个指针之间的片段作为候选答案,以两个指针的分数之和作为该候选答案的文档抽取分数。
6)基于图卷积网络的答案交互验证:参考人做阅读理解的方式,往往会先选定多个候选答案,然后在多个答案间反复思考选择最正确的一个。本方法用图卷积网络(GCN)来模拟候选答案之间比较,选择的过程。将问题和步骤5)得到的多个候选答案文本根据步骤1)-3)得到用图卷积网络(GCN)更新后的候选答案的向量表示;用步骤3)中获得的候选答案向量与步骤2)中获得的候选答案向量进行拼接得到候选答案的联合向量,再对候选答案的联合向量之间进行自注意力机制,最后得到每个候选答案的最终向量表示,然后输入到全连接网络中,输出为每个候选答案的答案验证分数。
7)将步骤5)得到的文档选择分数和文档抽取分数与步骤6)得到的答案验证分数相加,做为每个候选答案的最终分数,选择最终分数最高的候选答案作为问题的答案。
进一步地,所述的步骤1)中,对问题和文档分词具体为:
a)将标点统一化,有中文标点的改成英文标点;
b)大小写统一,将所有单词都小写化;
c)利用空格和标点对文档和问题进行分词。
进一步地,所述的步骤2)中,用双向LSTM编码的过程具体为:利用LSTM,正向编码问题和文章,再反向编码问题和文章,然后将正向的向量和反向的向量拼接形成最终的双向LSTM编码。LSTM的公式为:
ft=σ(Wf·[ht-1,xt]+bf)
Figure BDA0002317898210000031
Figure BDA0002317898210000032
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中xt是当前t时刻的输入,Ct-1和ht-1是t-1时刻的细胞状态和隐层向量,σ和tanh分别是sigmoid函数和tanh函数,ft、it、ot是遗忘门,输入门和输出门,
Figure BDA0002317898210000033
是对当前t时刻输入信息的编码,Ct是经过当前时刻细胞状态,由上一时刻的细胞状态乘以遗忘门和当前信息乘以输入门得到,ht是t时刻的隐层向量,由细胞状态和输出门计算得到。
进一步地,所述步骤2)中,双向注意力机制具体为:首先计算文档中的每个词和问题中的每个词的相似度,经过softmax归一化后,加权计算文档和问题的每个词的向量,将执行注意力机制之后和之前的向量拼接,从而获得经过注意力交互后的问题和文档的向量表示;
进一步地,所述步骤3)中,用图卷积网络(GCN)更新图中每个节点的向量表示的公式具体如下所示:
Figure BDA0002317898210000041
其中A表示的图网络的邻接矩阵,D表示的图的度矩阵,Hl表示的图中第l层的节点向量表示,θ表示的是参数向量,σ为sigmoid激活函数。当前节点使用邻接节更新,度矩阵用于做归一化;
进一步地,所述步骤4)中,注意力机制的具体公式如下所示:
Figure BDA0002317898210000042
Figure BDA0002317898210000043
Figure BDA0002317898210000044
ri=concat([vi;pi])
其中pi为文档中第i个词的拼接后的联合向量表示,j为问题中第j个词的向量表示,
Figure BDA0002317898210000045
是文档第i个词和问题第j个词的相似度,
Figure BDA0002317898210000046
是经过softmax归一化之后文档第i个词和问题第j个词的相似度,vi是经过注意力机制后的文档第i个词的向量表示,n为问题中词的个数,然后将vi和pi拼接,形成文档最终的向量表示ri
进一步地,所述的步骤4)中,拼接得到联合向量的过程中,对于不在图网络中的词,用初始化为0的向量代替,然后通过全连接网络使向量的维度保持不变。
进一步地,所述的步骤5)中,指针网络的具体公式为:
Figure BDA0002317898210000047
Figure BDA0002317898210000048
Figure BDA0002317898210000049
ht=LSTM(ht-1,ct)
其中
Figure BDA0002317898210000051
表示文章中第k个词的注意力权重,t表示第t次的抽取。
Figure BDA0002317898210000052
表示第i篇文章第k个词的向量表示,ht-1表示LSTM上一时刻的隐层状态。
Figure BDA0002317898210000053
表示输入序列第k个词被抽取到的概括。ct表示LSTM下一时刻的输入,是
Figure BDA0002317898210000054
的加权和。根据
Figure BDA0002317898210000055
Figure BDA0002317898210000056
两个指针的值确定答案片段的起始点和结尾点。
进一步地,所述的步骤6)中,图卷积网络做答案间的交互验证,该图卷积网络和步骤3)中的图卷积网络不共享参数,需要单独训练。
本发明方法与现有技术相比具有的有益效果:
1.该方法提出了一种基于图卷积网络的阅读理解模型,该模型利用图卷积网络来对多篇文档间进行交互,通过多任务学习和GCN答案验证的方式,提高了在多篇文档中的阅读理解任务的效果,对现实中的搜索,自动问答具有极大的应用意义;
2.该方法在模式学习基础上,综合考虑了语义相似度、图卷积网络交互、多任务学习、图卷积网络答案验证等方法,有效提高了抽取效果。
附图说明
图1是本发明的步骤流程图;
图2是本发明的编码和多任务学习的模型图;
图3是本发明用图卷积网络做答案验证的模型图;
图4是本发明的一个实验结果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于图卷积网络的阅读理解方法,包括以下步骤:
1)词向量初始化:对于每个问题和对应的多篇文档,首先对问题和文档进行分词;用预训练好的词向量初始化分词后的问题和文档,得到问题和文档中每个词的词向量;对问题和文档分词具体为:
a)将标点统一化,有中文标点的改成英文标点;
b)大小写统一,将所有单词都小写化;
c)利用空格和标点对文档和问题进行分词。
2)基于注意力机制的文档和问题的向量表示:对于步骤1)初始化完成的文档和问题,首先利用双向长短期记忆网络(LSTM)对文档和问题进行进一步编码,得到包含上下文信息的向量表示具体为:利用LSTM,正向编码问题和文章,再反向编码问题和文章,然后将正向的向量和反向的向量拼接形成最终的双向LSTM编码。LSTM的公式为:
ft=σ(Wf·[ht-1,xt]+bf)
Figure BDA0002317898210000061
Figure BDA0002317898210000062
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中xt是当前t时刻的输入,Ct-1和ht-1是t-1时刻的细胞状态和隐层向量,σ和tanh分别是sigmoid函数和tanh函数,ft、it、ot是遗忘门,输入门和输出门,
Figure BDA0002317898210000063
是对当前t时刻输入信息的编码,Ct是经过当前时刻细胞状态,由上一时刻的细胞状态乘以遗忘门和当前信息乘以输入门得到,ht是t时刻的隐层向量,由细胞状态和输出门计算得到;
然后根据双向注意力机制,获得经过注意力交互后的问题和文档的向量表示;具体为:首先计算文档中的每个词和问题中的每个词的相似度,经过softmax归一化后,加权计算文档和问题的每个词的向量,将执行注意力机制之后和之前的向量拼接,从而获得经过注意力交互后的问题和文档的向量表示。
3)基于图卷积网络的文档交互表示:对于每个问题和对应的多篇文档,构建一个图网络表示问题和其对应的多篇文档,图网络中的节点表示一个词,每个词用步骤2)中得到的文档向量表示。因为图卷积网络表示的是整个样本的信息,将所有文档表示在一个图里,所以用图卷积网络获得向量是经过了文档之间的交互,包含了更加丰富的语义信息。构建图网络的具体过程主要分为两个步骤,第一是节点的抽取:对于问题中的每个词,首先找到文档中对应的词作为中心词,并按照一定大小的滑动窗口找到中心词周围的词,选取这些词作为图的节点;第二是图中节点边的定义,主要定义两种边的关系:第一种,在文档中,根据问题找到的词,这些词对应的节点两两相连,每两个节点连成一条边;第二种,在文档中,根据问题找到的词,以这个词为中心词,将中心词周围的词两两相连,每两个词对应的节点连成一条边。构建完图网络之后,用图卷积网络(GCN)更新图中每个节点的向量表示;公式具体如下所示:
Figure BDA0002317898210000071
其中A表示的图网络的邻接矩阵,D表示的图的度矩阵,Hl表示的图中第l层的节点向量表示,θ表示的是参数向量,σ为sigmoid激活函数。当前节点使用邻接节更新,度矩阵用于做归一化。
4)基于图卷积网络和双向长短期记忆网络联合表示:用步骤3)中获得的节点向量与步骤2)中获得的文档向量进行拼接得到联合向量,对于不在图网络中的词,用初始化为0的向量代替,然后通过全连接网络使向量的维度保持不变。然后在联合向量上利用注意力机制,得到文档最终的向量表示。该处注意力机制的目的有两个,一个是为了更好的融合图卷积网络和长短期记忆网络的向量表示,把两个向量融合在同一个向量空间中;二是因为图卷积网络的更新过程并没有考虑到问题的信息,注意力机制可以将问题的信息融入进来;注意力机制的具体公式如下所示:
Figure BDA0002317898210000072
Figure BDA0002317898210000073
Figure BDA0002317898210000074
ri=concat([vi;pi])
其中pi为文档中第i个词的拼接后的联合向量表示,j为问题中第j个词的向量表示,
Figure BDA0002317898210000075
是文档第i个词和问题第j个词的相似度,
Figure BDA0002317898210000076
是经过softmax归一化之后文档第i个词和问题第j个词的相似度,vi是经过注意力机制后的文档第i个词的向量表示,n为问题中词的个数,然后将vi和pi拼接,形成文档最终的向量表示ri
5)基于多任务的答案选择:首先将步骤4)得到的文档向量,进行自注意力机制之后,输入到一个全连接网络中,输出一个文档选择分数,用于表示问题的正确答案出现在这篇文档中的概率。然后对每一篇文档,将步骤4)得到的文档向量输入到指针网络中,输出为两个指针,指针网络的具体公式为:
Figure BDA0002317898210000081
Figure BDA0002317898210000082
Figure BDA0002317898210000083
ht=LSTM(ht-1,ct)
其中
Figure BDA0002317898210000084
表示文章中第k个词的注意力权重,t表示第t次的抽取,本发明中,t最大为2。
Figure BDA0002317898210000085
表示第i篇文章第k个词的向量表示,ht-1表示LSTM上一时刻的隐层状态。
Figure BDA0002317898210000086
表示输入序列第k个词被抽取到的概括。ct表示LSTM下一时刻的输入,是
Figure BDA0002317898210000087
的加权和。根据
Figure BDA0002317898210000088
Figure BDA0002317898210000089
两个指针的值确定答案片段的起始点和结尾点。
以两个指针之间的片段作为候选答案,以两个指针的分数之和作为该候选答案的文档抽取分数。
6)基于图卷积网络的答案交互验证:参考人做阅读理解的方式,往往会先选定多个候选答案,然后在多个答案间反复思考选择最正确的一个。本方法用图卷积网络(GCN)来模拟候选答案之间比较,选择的过程。将问题和步骤5)得到的多个候选答案文本根据步骤1)-3)得到用图卷积网络(GCN)更新后的候选答案的向量表示,包含多个候选答案的图卷积网络和步骤3)中包含文档的图卷积网络不共享参数,需要单独训练;用步骤3)中获得的候选答案向量与步骤2)中获得的候选答案向量进行拼接得到候选答案的联合向量,再对候选答案的联合向量之间进行自注意力机制,最后得到每个候选答案的最终向量表示,然后输入到全连接网络中,输出为每个候选答案的答案验证分数。图卷积网络做答案间的交互验证,该图卷积网络和步骤3)中的图卷积网络不共享参数,需要单独训练。
7)将步骤5)得到的文档选择分数和文档抽取分数与步骤6)得到的答案验证分数相加,做为每个候选答案的最终分数,选择最终分数最高的候选答案作为问题的答案。
实施例
下面结合本技术的方法详细说明该实例实施的具体步骤,如下:
(1)如图1所示,图中的Q表示问题的输入,P1,P2,P3分别表示3篇不同的文档输入,实际情况下会有更多文档。Q和P先经过分词,然后利用预训练好的glove词向量初始化Q和P的向量,作为模型的输入,向量维度都为300维。其中,对于单词少于500的文档,用0向量补充;
(2)如图1所示,图中的LSTM+Attention编码部分就是长短期记忆网络和注意力机制,首先把输入进来的词向量表示经过双向长短期记忆网络,维度为150,双向长短期记忆网络的输出拼接后维度不变。然后对于每篇文档的表示,分别和问题的向量执行一次注意力机制,用问题的向量表示文档,并且把两个向量拼接,作为文档的表示;
(3)如图1所示,图中的图卷积网络交互部分,根据文档和问题构建出图网络来表示文档,节点的初始化由第二部分的LSTM+Attention获得,然后在图上面跑图卷积的过程,文档的每个词的向量表示为图网络节点向量和原有的向量拼接。默认图的节点数不大于500,图卷积的层数为2。
(4)如图1所示,图卷积网络和长短期记忆网络联合表示主要是将长短期记忆网络得到的向量和图卷积网络得到的向量拼接,对于没有在图网络中出现的词,用0向量表示;
(5)如图1所示,多任务学习主要是用两个不同的损失函数来联合学习模型,下层的编码部分基本一致。主要有两个任务,一个是文档的排序任务,根据文档的表示,每篇文档都会输出一个分数,表示文档含有答案的概率。另外一个任务是,每篇文档都会抽取一个片段作为这篇文档的候选答案,每个候选答案也会对应一个分数;
(6)如图2所示,图卷积网络进行答案验证的过程是通过多个答案之间的交互,重新学习答案的表示,然后在每个答案做个选择。
本实例的运行结果在附图3展示。图1为多任务学习的模型图,图2为GCN答案验证的模型图,整个流程由这两个部分组成。最终的实验结果,在微软的MS-MARCO数据集上测试,采用Rouge-L作为评估的标准,以该数据集官方提供的BiDaF Baseline模型作为baseline,在增加了上述方法之后,模型从27.6%提升到34.8%,提升7.2个百分点。实验证明,该方法对于多篇文档之间的阅读理解任务有很大的提升作用。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (9)

1.一种基于图卷积网络的阅读理解方法,其特征在于,包括以下步骤:
1)词向量初始化:对于每个问题和对应的多篇文档,首先对问题和文档进行分词;用预训练好的词向量初始化分词后的问题和文档,得到问题和文档中每个词的词向量;
2)基于注意力机制的文档和问题的向量表示:对于步骤1)初始化完成的文档和问题,首先利用双向长短期记忆网络(LSTM)对文档和问题进行进一步编码,得到包含上下文信息的向量表示;然后根据双向注意力机制,获得经过注意力交互后的问题和文档的向量表示;
3)基于图卷积网络的文档交互表示:对于每个问题和对应的多篇文档,构建一个图网络表示问题和其对应的多篇文档,图网络中的节点表示一个词,每个词用步骤2)中得到的文档向量表示。构建图网络的具体过程主要分为两个步骤,第一是节点的抽取:对于问题中的每个词,首先找到文档中对应的词作为中心词,并按照一定大小的滑动窗口找到中心词周围的词,选取这些词作为图的节点;第二是图中节点边的定义,主要定义两种边的关系:第一种,在文档中,根据问题找到的词,这些词对应的节点两两相连,每两个节点连成一条边;第二种,在文档中,根据问题找到的词,以这个词为中心词,将中心词周围的词两两相连,每两个词对应的节点连成一条边。构建完图网络之后,用图卷积网络(GCN)更新图中每个节点的向量表示
4)基于图卷积网络和双向长短期记忆网络联合表示:用步骤3)中获得的节点向量与步骤2)中获得的文档向量进行拼接得到联合向量。然后在联合向量上利用注意力机制,得到文档最终的向量表示;
5)基于多任务的答案选择:首先将步骤4)得到的文档向量,进行自注意力机制之后,输入到一个全连接网络中,输出一个文档选择分数,用于表示问题的正确答案出现在这篇文档中的概率。然后对每一篇文档,将步骤4)得到的文档向量输入到指针网络中,输出为两个指针,以两个指针之间的片段作为候选答案,以两个指针的分数之和作为该候选答案的文档抽取分数。
6)基于图卷积网络的答案交互验证:将问题和步骤5)得到的多个候选答案文本根据步骤1)-3)得到用图卷积网络(GCN)更新后的候选答案的向量表示;用步骤3)中获得的候选答案向量与步骤2)中获得的候选答案向量进行拼接得到候选答案的联合向量,再对候选答案的联合向量之间进行自注意力机制,最后得到每个候选答案的最终向量表示,然后输入到全连接网络中,输出为每个候选答案的答案验证分数。
7)将步骤5)得到的文档选择分数和文档抽取分数与步骤6)得到的答案验证分数相加,做为每个候选答案的最终分数,选择最终分数最高的候选答案作为问题的答案。
2.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述的步骤1)中,对问题和文档分词具体为:
a)将标点统一化,有中文标点的改成英文标点;
b)大小写统一,将所有单词都小写化;
c)利用空格和标点对文档和问题进行分词。
3.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述步骤2)中,用双向LSTM编码的过程具体为:利用LSTM,正向编码问题和文章,再反向编码问题和文章,然后将正向的向量和反向的向量拼接形成最终的双向LSTM编码。LSTM的公式为:
ft=σ(Wf·[ht-1,xt]+bf)
Figure FDA0002317898200000021
Figure FDA0002317898200000022
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
xt是当前t时刻的输入,Ct-1和ht-1是t-1时刻的细胞状态和隐层向量,σ和tanh分别是sigmoid函数和tanh函数,ft、it、ot是遗忘门,输入门和输出门,
Figure FDA0002317898200000023
是对当前t时刻输入信息的编码,Ct是经过当前时刻细胞状态,由上一时刻的细胞状态乘以遗忘门和当前信息乘以输入门得到,ht是t时刻的隐层向量,由细胞状态和输出门计算得到,wf,wc,wo,bf,bc,bo分别表示3个门控机制的训练参数。
4.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述步骤2)中,双向注意力机制具体为:首先计算文档中的每个词和问题中的每个词的相似度,经过softmax归一化后,加权计算文档和问题的每个词的向量,将执行注意力机制之后和之前的向量拼接,从而获得经过注意力交互后的问题和文档的向量表示。
5.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述步骤3)中,用图卷积网络(GCN)更新图中每个节点的向量表示的公式具体如下所示:
Figure FDA0002317898200000031
其中A表示的图网络的邻接矩阵,D表示的图的度矩阵,Hl表示的图中第l层的节点向量表示,θ表示的是参数向量,σ为sigmoid激活函数。当前节点使用邻接节更新,度矩阵用于做归一化。
6.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述步骤4)中,注意力机制的具体公式如下所示:
Figure FDA0002317898200000032
Figure FDA0002317898200000033
Figure FDA0002317898200000034
ri=concat([vi;pi])
其中pi为文档中第i个词的拼接后的联合向量表示,qj为问题中第j个词的向量表示,
Figure FDA0002317898200000035
是文档第i个词和问题第j个词的相似度,
Figure FDA0002317898200000036
是经过softmax归一化之后文档第i个词和问题第j个词的相似度,vi是经过注意力机制后的文档第i个词的向量表示,n为问题中词的个数,然后将vi和pi拼接,形成文档最终的向量表示ri
7.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述的步骤4)中,拼接得到联合向量的过程中,对于不在图网络中的词,用初始化为0的向量代替,然后通过全连接网络使向量的维度保持不变。
8.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述的步骤5)中,指针网络的具体公式为:
Figure FDA0002317898200000037
Figure FDA0002317898200000038
Figure FDA0002317898200000041
ht=LSTM(ht-1,ct)
其中
Figure FDA0002317898200000042
表示文章中第k个词的注意力权重,w1和w2表示训练的参数,t表示第t次的抽取。
Figure FDA0002317898200000043
表示第i篇文章第k个词的向量表示,ht-1表示LSTM上一时刻的隐层状态。
Figure FDA0002317898200000044
表示输入序列第k个词被抽取到的概括。ct表示LSTM下一时刻的输入,是
Figure FDA0002317898200000045
的加权和。根据
Figure FDA0002317898200000046
Figure FDA0002317898200000047
两个指针的值确定答案片段的起始点和结尾点。
9.根据权利要求1所述的基于图卷积网络的阅读理解方法,其特征在于,所述的步骤6)中,图卷积网络做答案间的交互验证,该图卷积网络和步骤3)中的图卷积网络不共享参数,需要单独训练。
CN201911290660.7A 2019-12-13 2019-12-13 基于图卷积网络的阅读理解方法 Active CN111046661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911290660.7A CN111046661B (zh) 2019-12-13 2019-12-13 基于图卷积网络的阅读理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911290660.7A CN111046661B (zh) 2019-12-13 2019-12-13 基于图卷积网络的阅读理解方法

Publications (2)

Publication Number Publication Date
CN111046661A true CN111046661A (zh) 2020-04-21
CN111046661B CN111046661B (zh) 2021-09-28

Family

ID=70236593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911290660.7A Active CN111046661B (zh) 2019-12-13 2019-12-13 基于图卷积网络的阅读理解方法

Country Status (1)

Country Link
CN (1) CN111046661B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737426A (zh) * 2020-05-09 2020-10-02 中国科学院深圳先进技术研究院 问答模型的训练方法、计算机设备以及可读存储介质
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN112380835A (zh) * 2020-10-10 2021-02-19 中国科学院信息工程研究所 融合实体和句子推理信息的问题答案提取方法及电子装置
CN112632253A (zh) * 2020-12-28 2021-04-09 润联软件系统(深圳)有限公司 基于图卷积网络的答案抽取方法、装置及相关组件
CN112632216A (zh) * 2020-12-10 2021-04-09 深圳得理科技有限公司 一种基于深度学习的长文本检索系统及方法
CN113536798A (zh) * 2021-07-16 2021-10-22 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和系统
CN113792550A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 预测答案的确定方法及装置、阅读理解方法及装置
CN113961692A (zh) * 2021-11-26 2022-01-21 思必驰科技股份有限公司 机器阅读理解方法及系统
CN114036262A (zh) * 2021-11-15 2022-02-11 中国人民大学 一种基于图的搜索结果多样化方法
CN117171333A (zh) * 2023-11-03 2023-12-05 国网浙江省电力有限公司营销服务中心 一种电力文件问答式智能检索方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
US20190311064A1 (en) * 2018-04-07 2019-10-10 Microsoft Technology Licensing, Llc Intelligent question answering using machine reading comprehension

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190311064A1 (en) * 2018-04-07 2019-10-10 Microsoft Technology Licensing, Llc Intelligent question answering using machine reading comprehension
CN109977199A (zh) * 2019-01-14 2019-07-05 浙江大学 一种基于注意力池化机制的阅读理解方法
CN110188176A (zh) * 2019-04-30 2019-08-30 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZEYUN TANG 等: "Multi-hop Reading Comprehension across Documents with Path-based Graph Convolutional Network", 《HTTPS://ARXIV/ABS/2006.06478》 *
杨康 等: "面向自动问答的机器阅读理解综述", 《华东师范大学学报(自然科学版)》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737426B (zh) * 2020-05-09 2021-06-01 中国科学院深圳先进技术研究院 问答模型的训练方法、计算机设备以及可读存储介质
CN111737426A (zh) * 2020-05-09 2020-10-02 中国科学院深圳先进技术研究院 问答模型的训练方法、计算机设备以及可读存储介质
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN112380835B (zh) * 2020-10-10 2024-02-20 中国科学院信息工程研究所 融合实体和句子推理信息的问题答案提取方法及电子装置
CN112380835A (zh) * 2020-10-10 2021-02-19 中国科学院信息工程研究所 融合实体和句子推理信息的问题答案提取方法及电子装置
CN112632216A (zh) * 2020-12-10 2021-04-09 深圳得理科技有限公司 一种基于深度学习的长文本检索系统及方法
CN112632253A (zh) * 2020-12-28 2021-04-09 润联软件系统(深圳)有限公司 基于图卷积网络的答案抽取方法、装置及相关组件
CN112632253B (zh) * 2020-12-28 2024-08-13 华润数字科技有限公司 基于图卷积网络的答案抽取方法、装置及相关组件
CN113792120B (zh) * 2021-04-08 2023-09-15 北京金山数字娱乐科技有限公司 图网络的构建方法及装置、阅读理解方法及装置
CN113792121A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN113792120A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 图网络的构建方法及装置、阅读理解方法及装置
CN113792121B (zh) * 2021-04-08 2023-09-22 北京金山数字娱乐科技有限公司 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN113792550A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 预测答案的确定方法及装置、阅读理解方法及装置
CN113536798B (zh) * 2021-07-16 2024-05-31 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和系统
CN113536798A (zh) * 2021-07-16 2021-10-22 北京易道博识科技有限公司 一种多实例文档关键信息抽取方法和系统
CN114036262A (zh) * 2021-11-15 2022-02-11 中国人民大学 一种基于图的搜索结果多样化方法
CN114036262B (zh) * 2021-11-15 2024-03-29 中国人民大学 一种基于图的搜索结果多样化方法
CN113961692A (zh) * 2021-11-26 2022-01-21 思必驰科技股份有限公司 机器阅读理解方法及系统
CN113961692B (zh) * 2021-11-26 2024-10-18 思必驰科技股份有限公司 机器阅读理解方法及系统
CN117171333A (zh) * 2023-11-03 2023-12-05 国网浙江省电力有限公司营销服务中心 一种电力文件问答式智能检索方法及系统
CN117171333B (zh) * 2023-11-03 2024-08-02 国网浙江省电力有限公司营销服务中心 一种电力文件问答式智能检索方法及系统

Also Published As

Publication number Publication date
CN111046661B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN111046661B (zh) 基于图卷积网络的阅读理解方法
CN111274800B (zh) 基于关系图卷积网络的推理型阅读理解方法
Zhou et al. A comprehensive survey on pretrained foundation models: A history from bert to chatgpt
CN108733792B (zh) 一种实体关系抽取方法
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
CN110580288B (zh) 基于人工智能的文本分类方法和装置
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN108829737B (zh) 基于双向长短期记忆网络的文本交叉组合分类方法
CN112905762B (zh) 一种基于同等注意力图网络的视觉问答方法
CN111125520B (zh) 一种面向新闻文本的基于深度聚类模型的事件线抽取方法
CN111897944A (zh) 基于语义空间共享的知识图谱问答系统
CN118093834B (zh) 一种基于aigc大模型的语言处理问答系统及方法
CN113779220A (zh) 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN118170668A (zh) 一种测试用例生成方法、装置、存储介质和设备
Ishmam et al. From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities
CN113239678B (zh) 一种面向答案选择的多角度注意力特征匹配方法及系统
CN112905750B (zh) 一种优化模型的生成方法和设备
CN117932066A (zh) 一种基于预训练的“提取-生成”式答案生成模型及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant