CN112732888A - 一种基于图推理模型的答案预测方法及装置 - Google Patents

一种基于图推理模型的答案预测方法及装置 Download PDF

Info

Publication number
CN112732888A
CN112732888A CN202110353541.2A CN202110353541A CN112732888A CN 112732888 A CN112732888 A CN 112732888A CN 202110353541 A CN202110353541 A CN 202110353541A CN 112732888 A CN112732888 A CN 112732888A
Authority
CN
China
Prior art keywords
candidate
graph
entity
sentence
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110353541.2A
Other languages
English (en)
Inventor
赵翔
霍立军
刘逸冰
葛斌
谭真
胡升泽
张翀
肖卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202110353541.2A priority Critical patent/CN112732888A/zh
Publication of CN112732888A publication Critical patent/CN112732888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种基于图推理模型的答案预测方法及装置,所述方法包括以下步骤:接收问题和支持文档集;通过文本瘦身筛选掉不相关的文档,并对所有的文本进行语义编码;使用多种注意力机制进行多种文本的语义交互和图节点的初始化;基于构建的图,使用GNN信息传递算法进行多跳推理;基于更新后的图节点表示,为每个候选计算用于预测答案的分数;根据答案的分数分布结果,预测未知的右实体即答案。本发明方法提出了一种新图,它将多种类型的元素视为图节点,使推理更加全面。同时,由于采用了句子节点,推理变得更加准确具体,融合了多种注意力机制来进行多重语义表示,并创新地考虑了候选之间的相对正误对推理的影响,使得答案预测更加准确。

Description

一种基于图推理模型的答案预测方法及装置
技术领域
本发明属于人工智能中的自然语言处理技术领域,具体涉及一种基于图推理模型的答案预测方法及装置。
背景技术
机器阅读理解(MRC)主要被用来衡量机器对自然语言内容的理解程度,是实现人工智能重要的一步。通常情况下,MRC任务会给定一个文档和一个问题,机器需要选择、抽取和融合其中的关键语义信息,尝试回答这个文档相关的问题,这是一项复杂的自然语言处理任务。近年来,随着MRC研究者大军的兴起,很多高质量的数据集已经被提出来去评估MRC的发展水平,比如SQuAD、RACE等。很多神经模型已经被提出去追溯这些任务(BiDAF,Match-LSTM),并且,在一些优秀的预训练模型(BERT,ELMo)被提出之后,巨大的进步被获得。
在这些数据集中,大部分都是单跳的任务,即每个问题只对应一个被用来去寻找正确答案的文档。由于文档数量较少,关键信息比较集中,即使是缺乏推理能力的模型也可以很好的完成它。为了更好的评估和提升模型的推理能力,最近一些新的数据集被提出来(WikiHop,RACE)。这些数据集提供了大量的支持文档,为了完成预测答案的目标,模型需要通过推理在多个文档之间进行文本/信息的跳跃以聚集散落的关键信息。
多跳MRC是一项极具挑战性的任务,其主要体现在以下三个方面。首先,每个问题都对应着大量的支持文档,绝大部分模型难以直接处理如此大规模的支持文档。同时,支持文档中仅有一部分包含了与问题相关的信息,而其余的则是无关文档,这给模型带来了很大的干扰。其次,由于关键信息包含在多个文档之中,模型需要进行跳跃式的抽取,并把获得的信息有逻辑的连接在一起,这个过程是对推理能力的一种考验,然而,大多数模型都没有很好的实现推理。最后,多跳MRC要求模型进行多次递进式的信息提取和融合,而每一次信息抽取的误差会被不断传播,最终会导致误差的积累,给模型效果带来很大的不确定性。
鉴于这些困难,一些基于图神经网络(GNN)的多跳推理模型已经被提出。Song等人把实体作为GNN的节点进行推理,DE Cao等人使用候选在文档中的提及作为GNN的节点,而Tu等人则使用编码后的句子作为GNN的节点,经过多步推理后用更新的句子表示来获得结果。这些模型在不同颗粒度层次使用了基于GNN的多跳推理,在效果上获得了显著提升。然而,单单使用实体、句子或候选的一种作为GNN的节点来实现推理并捕捉关键信息,不足以支撑精准的推理。当然,那也有一些模型使用了两种类型的节点来构建图,但这还不够。同时,基于实体层级的图推理太过精细了而基于文档层级的却太粗糙了,推理效果都得到了压制。
发明内容
有鉴于此,为了解决现存的技术问题,本发明提出一种基于图推理模型的答案预测方法及装置,本发明把实体、候选和句子三种层级的信息当作节点,图的信息更加丰富,包含了回答问题所需的全部关键信息;收集并采用所有三种类型的信息,会大大提高给定的文本资源的利用率;把问题对象作为推理的初始节点,句子和实体用作中间节点,最终推理结束于候选,这样的一个推理过程更符合人类的逻辑;本发明中的图通过合理的规则在节点之间具有丰富的连接,从而确保了平滑的信息流动性,模型方法可以连续捕获节点之间的关联信息并进行传递。最终,使得本发明方法和装置对多跳机器阅读理解中的答案预测准确率更高。
一种基于图推理模型的答案预测方法,包括以下步骤:
步骤1,接收问题
Figure 142605DEST_PATH_IMAGE001
和支持文档集
Figure 200691DEST_PATH_IMAGE002
和候选集
Figure 511586DEST_PATH_IMAGE003
,问题
Figure 860790DEST_PATH_IMAGE001
的形式为
Figure 81687DEST_PATH_IMAGE004
,其中,
Figure 169729DEST_PATH_IMAGE005
是实体对象,
Figure 92555DEST_PATH_IMAGE006
是实体对象和未知右实体
Figure 822613DEST_PATH_IMAGE007
之间的关系,所述未知右实体就是需要从候选集中选择的答案;
步骤2,通过文本瘦身筛选掉支持文档集中不相关的文档,并对所有的文本进行语义编码;
步骤3,使用多种注意力机制进行多种文本的语义交互和图节点的初始化;
步骤4,基于构建的图,使用图神经网络信息传递算法进行多跳推理;
步骤5,基于更新后的图节点表示,为每个候选计算用于预测答案的分数;
步骤6,根据所述预测答案的分数分布结果,预测未知右实体。
进一步的,步骤2中所述的文本瘦身是指,在问题
Figure 694754DEST_PATH_IMAGE008
的辅助下,使用两层的TF-IDF算法挑选出相关文档,包括以下步骤:
步骤201,在第一层TF-IDF算法中,计算支持文档集中每个文档和问题的TF-IDF余弦相似度并取出具有最大余弦相似度的文档;
步骤202,在第二层TF-IDF算法中,计算上一层取出的文档和所有剩下所有文档的TF-IDF余弦相似度;
步骤203,根据所述余弦相似度的大小给所有文档排序,取出前N-1个文档,N为自定义阈值;
步骤204,从支持文档集
Figure 842445DEST_PATH_IMAGE009
取出的全部文档组成新的支持文档集
Figure 862354DEST_PATH_IMAGE010
,其中,
Figure 802628DEST_PATH_IMAGE011
表示第i个文档。
进一步的,步骤2中所述的语义编码是指,使用预训练的语言模型用作编码器,将支持文档集、问题和候选中的每个词块转化为固定长度的向量,同时文本的语义也在这个过程被编码并存储在向量之中,包括以下步骤:
步骤205,给定一个编码器,文档集
Figure 981806DEST_PATH_IMAGE012
和问题
Figure 942809DEST_PATH_IMAGE001
通过如下公式被编码:
Figure 590959DEST_PATH_IMAGE013
Figure 397241DEST_PATH_IMAGE014
,其中,
Figure 197969DEST_PATH_IMAGE015
返回编码器对输入变量编码后的结果,
Figure 798714DEST_PATH_IMAGE016
Figure 934161DEST_PATH_IMAGE017
分别是文档集和问题的序列表示,
Figure 544133DEST_PATH_IMAGE018
表示返回文本序列的长度,
Figure 494641DEST_PATH_IMAGE019
是编码器隐状态的维度,
Figure 407233DEST_PATH_IMAGE020
表示维度;
步骤206,取出候选
Figure 889030DEST_PATH_IMAGE021
Figure 925863DEST_PATH_IMAGE022
中对应的编码,从而获得
Figure 809505DEST_PATH_IMAGE023
的编码表示
Figure 955316DEST_PATH_IMAGE024
,其中,
Figure 49043DEST_PATH_IMAGE025
为候选集
Figure 818DEST_PATH_IMAGE026
中的任意一个候选,
Figure 879912DEST_PATH_IMAGE027
为候选的个数;
步骤207,把文档划分为句子,并取出
Figure 524520DEST_PATH_IMAGE022
中相应的向量用作句子的语义编码;
步骤208,获得基于句子的文档集语义编码
Figure 607008DEST_PATH_IMAGE028
,其中
Figure 362474DEST_PATH_IMAGE029
表示第i个句子的语义编码,
Figure 564917DEST_PATH_IMAGE030
是文档集中包含的句子总数,
Figure 380426DEST_PATH_IMAGE031
是句子的序列长度。
进一步的,步骤3包括以下步骤:
步骤301,通过实体抽取获得所需的实体;
步骤302,把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示;
步骤303,使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。
进一步的,步骤302中句子与问题进行如下步骤的语义交互:
步骤30201,给定一对输入:问题
Figure 448745DEST_PATH_IMAGE032
和一个句子
Figure 7902DEST_PATH_IMAGE033
,二者的关系矩阵B可通过如下公式获得:
Figure 596010DEST_PATH_IMAGE034
其中
Figure 316841DEST_PATH_IMAGE035
表示矩阵转置,矩阵
Figure 370991DEST_PATH_IMAGE036
的每个元素
Figure 468260DEST_PATH_IMAGE037
表示问题中的第
Figure 973191DEST_PATH_IMAGE038
个词和句子中的第
Figure 989557DEST_PATH_IMAGE039
个词的相关程度,被看作是一种注意力;
步骤30202,把步骤30201中所述的注意力分别融入问题和句子,公式如下:
Figure 907835DEST_PATH_IMAGE040
Figure 684161DEST_PATH_IMAGE041
其中,
Figure 105915DEST_PATH_IMAGE042
表示融入了句子注意力的问题编码,
Figure 60227DEST_PATH_IMAGE043
表示融入了问题注意力的句子编码,softmax表示归一化函数;
步骤30203,使用一层双向长短期记忆网络Bi-LSTM再次对句子的语义进行编码,得到
Figure 200221DEST_PATH_IMAGE044
Figure 780238DEST_PATH_IMAGE045
步骤30204,通过一个维度拼接来获得融入了互注意力信息的句子表示
Figure 322078DEST_PATH_IMAGE046
Figure 945826DEST_PATH_IMAGE047
所述的语义交互的方法也被应用到问题-实体和问题-候选对,获得的结果用
Figure 573117DEST_PATH_IMAGE048
,
Figure 425666DEST_PATH_IMAGE049
表示;
步骤303具体包括以下步骤:
步骤30301,使用一个带有tanh激活函数的多层感知机把对象实体的维度转化为2d;对于任意给定的句子序列
Figure 822012DEST_PATH_IMAGE050
,其转化为一个集成向量
Figure 115197DEST_PATH_IMAGE051
的过程可被如下描述:
Figure 229784DEST_PATH_IMAGE052
;
Figure 886024DEST_PATH_IMAGE053
,
Figure 402456DEST_PATH_IMAGE054
,
其中,
Figure 368007DEST_PATH_IMAGE055
,
Figure 969889DEST_PATH_IMAGE056
,
Figure 429821DEST_PATH_IMAGE057
Figure 800759DEST_PATH_IMAGE058
是可训练的权重矩阵,
Figure 235414DEST_PATH_IMAGE059
Figure 934380DEST_PATH_IMAGE060
分别表示未归一化和归一化的权重向量;同样,对实体编码
Figure 322636DEST_PATH_IMAGE061
和候选编码
Figure 672714DEST_PATH_IMAGE062
应用一层自注意力机制,获得的向量分别用
Figure 855434DEST_PATH_IMAGE063
Figure 307275DEST_PATH_IMAGE064
来代表;
步骤30302,在和问题进行了信息交互后,候选的表示得到了初步更新,用
Figure 233643DEST_PATH_IMAGE065
,然后,通过捕捉和集成候选之间的影响来做进一步的更新,具体包括两个过程:多头注意力层和带有门机制的前馈神经网络层;
所述的多头注意力层是注意力机制的一种实现,形式化的描述为:
Figure 936763DEST_PATH_IMAGE066
,
Figure 555963DEST_PATH_IMAGE067
;
Figure 229521DEST_PATH_IMAGE068
,
其中,
Figure 959580DEST_PATH_IMAGE069
表示把变量在最后一个维度等分为head份,
Figure 753092DEST_PATH_IMAGE070
表示拼接操作,
Figure 808773DEST_PATH_IMAGE071
,
Figure 704048DEST_PATH_IMAGE072
Figure 972218DEST_PATH_IMAGE073
是可训练的权重矩阵,
Figure 652861DEST_PATH_IMAGE074
,
Figure 613863DEST_PATH_IMAGE075
,
Figure 996434DEST_PATH_IMAGE076
Figure 68295DEST_PATH_IMAGE077
表示计算过程的中间变量,由原始变量生成,并被消耗;
所述的带有门机制的前馈神经网络层把
Figure 367559DEST_PATH_IMAGE078
Figure 233884DEST_PATH_IMAGE079
当作输入,使用一个带有relu激活函数的MLP来进一步组织其他候选与当前候选交互的集成信息,然后使用门机制来加入候选本身,以保留候选的一部分原始信息,整个过程可以被描述为:
Figure 166067DEST_PATH_IMAGE080
,
Figure 422647DEST_PATH_IMAGE081
,
Figure 451783DEST_PATH_IMAGE082
,
其中,
Figure 364375DEST_PATH_IMAGE083
,
Figure 111751DEST_PATH_IMAGE084
Figure 650049DEST_PATH_IMAGE085
是可训练的权重矩阵,用
Figure 533691DEST_PATH_IMAGE086
表示最终的候选编码集,也即是候选节点的初始表示。
进一步的,步骤4中图的构建包括:建造的图被定义为:
Figure 882764DEST_PATH_IMAGE087
,其中
Figure 851857DEST_PATH_IMAGE088
代表图节点的集合,而
Figure 164152DEST_PATH_IMAGE089
代表连边的集合,在这个图中,把所有的句子、候选和实体作为节点,取编码
Figure 167880DEST_PATH_IMAGE090
,
Figure 422275DEST_PATH_IMAGE091
Figure 878664DEST_PATH_IMAGE092
作为三种类型节点的初始表示,用
Figure 758764DEST_PATH_IMAGE093
取代他们,也就是
Figure 616999DEST_PATH_IMAGE094
,通过定义了如下这些类型的边:
在两个句子节点之间添加一个边,如果他们来源于同一个文档;
在两个句子节点之间添加一个边,如果他们来源于不同文档但是有相同的实体提及;
在两个实体节点之间添加一个边,如果他们来源于同一个文档;
在两个实体节点之间添加一个边,如果他们来源于不同文档,并且是同一个候选的提及;
在一个实体节点和一个候选节点之间添加一个边,如果这个实体是这个候选的提及;
在一个实体节点和一个句子节点之间添加一个边,如果这个实体出现在这个句子中;
在一个候选节点和一个句子节点之间添加一个边,如果这个候选出现在这个句子中。
进一步的,步骤4中所述的信息传递算法驱使信息在图上流动,通过多次的迭代运行,把所需的推理信息汇聚在最终用来预测答案的节点上,由于信息传递算法模拟的是,在问题导向下关联信息的传递,因此,其每运行一次,即可视为一次推理,而运行的次数则取决于预定义的推理次数,具体的,在第t步,节点表示的更新过程可由如下公式表述:
Figure 307874DEST_PATH_IMAGE095
,
其中,
Figure 251560DEST_PATH_IMAGE096
表示相邻节点的信息融合,
Figure 168307DEST_PATH_IMAGE097
表示哈达玛积,而
Figure 881048DEST_PATH_IMAGE098
是门控值,它们可通过如下获得:
Figure 742824DEST_PATH_IMAGE099
,
Figure 95177DEST_PATH_IMAGE100
.
Figure 192446DEST_PATH_IMAGE101
表示所有边类型的集合,
Figure 635060DEST_PATH_IMAGE102
表示节点i所有
Figure 792372DEST_PATH_IMAGE103
类型的邻边,
Figure 336748DEST_PATH_IMAGE104
是节点i在第t步的表示,此外,
Figure 972129DEST_PATH_IMAGE105
Figure 534828DEST_PATH_IMAGE106
Figure 863041DEST_PATH_IMAGE107
均由多层感知机实现,在完成预定义的T次迭代后,将得到句子、实体和候选的最终表示。
进一步的,步骤5中所述的计算用于预测答案的分数,为第k个候选计算分数
Figure 127669DEST_PATH_IMAGE108
的过程如下:
Figure 832320DEST_PATH_IMAGE109
,
其中,
Figure 249526DEST_PATH_IMAGE110
是与第k个候选相对应的所有实体节点的编码表示,
Figure 483061DEST_PATH_IMAGE111
表示在与同一候选相对应的所有实体的评分中,取出最大分数,
Figure 733521DEST_PATH_IMAGE112
Figure 710704DEST_PATH_IMAGE113
都是具有tanh激活函数的多层感知机;
步骤6中从
Figure 247996DEST_PATH_IMAGE114
中选择具有最大分数的候选作为模型预测的答案。
另外,一种基于图推理模型的答案预测装置,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行前述指令来执行基于图推理模型的答案预测方法。
与现有技术相比,本发明有以下优点和有益效果:
首先,本发明方法提出的图把实体、候选和句子同时作为节点,相较于之前的模型,把三种层级的信息当作节点,图的信息更加丰富,包含了回答问题所需的全部关键信息,收集并采用所有三种类型的信息,则会大大提高给定的文本资源的利用率;其次,把问题对象作为推理的初始节点,句子和实体用作中间节点,最终推理结束于候选,这样的一个推理过程更符合人类的逻辑,更具可解释性;另外,句子将文档替换为中间节点,从而在不丢失关键信息的情况下减少了干扰信息,句子比文档更简洁。最后,本发明方法中的图通过合理的规则在节点之间具有丰富的连接,从而确保了平滑的信息流动性,激活基于GNN的推理算法以指导信息流。因此,本发明方法中可以连续捕获节点之间的关联信息并进行传递,所以答案预测更加精准。
附图说明
图1为本发明实施例的流程示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如图1所示,一种基于图推理模型的答案预测方法,包括以下步骤:
步骤1,接受问题
Figure 918012DEST_PATH_IMAGE001
和支持文档集
Figure 157232DEST_PATH_IMAGE002
,问题
Figure 938106DEST_PATH_IMAGE001
的形式为
Figure 329904DEST_PATH_IMAGE004
,其中,
Figure 170821DEST_PATH_IMAGE005
是实体对象,
Figure 398803DEST_PATH_IMAGE006
是实体对象和未知右实体
Figure 655472DEST_PATH_IMAGE007
之间的关系,未知右实体就是需要预测的答案;
步骤2,通过文本瘦身筛选掉支持文档集中不相关的文档,并对所有的文本进行语义编码;
步骤3,使用多种注意力机制进行多种文本的语义交互和图节点的初始化;
步骤4,基于构建的图,使用图神经网络信息传递算法进行多跳推理;
步骤5,基于更新后的图节点表示,为每个候选计算用于预测答案的分数;
步骤6,根据答案的分数分布结果,预测未知的右实体即答案。
任务定义
在WikiHop和MedHop数据集中,每条数据集都会给定一个支持文档集
Figure 26410DEST_PATH_IMAGE115
以及一个相关的问题
Figure 162862DEST_PATH_IMAGE116
。具体来说,这个问题的形式为
Figure 986462DEST_PATH_IMAGE004
,其中,
Figure 250084DEST_PATH_IMAGE005
是实体对象,
Figure 475529DEST_PATH_IMAGE006
是实体和未知右实体之间的关系,而这个右实体就是需要模型去预测的答案。另外,数据集也提供了一个包含正确答案的候选集
Figure 281417DEST_PATH_IMAGE117
。任务的目标是根据给定的问题
Figure 857892DEST_PATH_IMAGE008
和支持文档集
Figure 659626DEST_PATH_IMAGE118
,从候选集
Figure 473998DEST_PATH_IMAGE119
中选择出正确的答案。
文本瘦身和语义编码
考虑答案预测所需的重要信息,只存在于文档集中与问题相关的文档,因此,在问题
Figure 217832DEST_PATH_IMAGE008
的辅助下,使用一个两层的TF-IDF算法挑选出相关文档。具体的,在第一层,计算支持文档集中每个文档和问题的TF-IDF余弦相似度并取出具有最大余弦相似度的文档。在第二层,计算上一层取出的文档和所有剩下所有文档的TF-IDF余弦相似度,然后根据相似度的大小给文档排序,取出前N-1个文档。最后,所有取出的文档组成新的支持集
Figure 16024DEST_PATH_IMAGE010
,其中,
Figure 355870DEST_PATH_IMAGE011
表示第i个文档。
使用预训练的语言模型用作模型的编码器,它会将文档集、问题和候选中的每个词块转化为固定长度的向量,同时文本的语义也在这个过程被编码并存储在向量之中。具体的,给定一个编码器,文档集P和问题q可以通过如下公式被编码:
Figure 555907DEST_PATH_IMAGE120
,
Figure 972107DEST_PATH_IMAGE014
其中,
Figure 992016DEST_PATH_IMAGE121
返回编码器的最后一层输出,这些编码器可以是训练好的语言模型,例如BERT和XLNet。另外,使用Transformer作为上下文编码器也被证明具有非常强大的语言表达能力。
Figure 401131DEST_PATH_IMAGE016
,
Figure 377047DEST_PATH_IMAGE017
分别是文档集和问起的序列表示。
Figure 72470DEST_PATH_IMAGE018
返回文本序列的长度,d是编码器隐状态的维度。另外,由于每个候选都可以在支持文档集中找到,因此本发明取出候选在
Figure 720620DEST_PATH_IMAGE022
中相应的编码,从而获得
Figure 792481DEST_PATH_IMAGE122
作为
Figure 324701DEST_PATH_IMAGE123
的语义表示。
最后,把文档划分为句子,并取出
Figure 456605DEST_PATH_IMAGE022
中相应的向量用作句子的语义编码。然后,本发明获得基于句子的文档集语义编码
Figure 326472DEST_PATH_IMAGE124
,其中,I是文档集中包含的句子总数,L是句子的序列长度。
语义交互和节点初始化
在这一模块,首先通过实体抽取获得所需的实体,然后把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示,最后使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。
a.实体抽取层
左实体和候选分别扮演了一个重要的角色在桥接问题和文档,文档和答案上。因此,本实施例从文档集中抽取左实体和候选这两种实体。用简单的精准匹配策略去找到左实体和候选的提及的位置,也就是在文档中的开始和结束位置,最终获得的每个提及都被当成是一个实体。然后,从文档集的编码
Figure 202024DEST_PATH_IMAGE022
中取出提及对应的向量作为实体的编码表示。用
Figure 355793DEST_PATH_IMAGE125
代表一个实体的编码,其中,m为实体的序列长度。同时问题的对象也被当作实体加入到实体集中。
b.语义互编码层
本实施例获得的问题和句子、实体、候选的编码都是独立的,而实际上,推理往往需要考虑信息间的影响,以约束这些信息朝着正确的方向流动。因此,为了实现信息间的交互,为模型引入互注意力机制。在输入为问题和句子的情况下,这种机制能够同时学习到融入了问题的句子语义信息和融入了句子的问题语义信息。以问题-句子输入对作为示例,展示如何使用互注意力机制进行信息交互,相同的操作可以被应用其他输入对上。
给定一对输入:问题
Figure 393020DEST_PATH_IMAGE126
和一个句子
Figure 750183DEST_PATH_IMAGE127
,二者的关系矩阵B可通过如下公式获得:
Figure 163846DEST_PATH_IMAGE128
,
其中
Figure 673588DEST_PATH_IMAGE035
表示矩阵转置。矩阵
Figure 881715DEST_PATH_IMAGE036
的每个元素
Figure 726174DEST_PATH_IMAGE037
表示问题中的第i个词和句子中的第j个词的相关程度,被看作是一种注意力。
然后,本发明把这种注意力分别融入问题和句子,公式如下:
Figure 943529DEST_PATH_IMAGE040
Figure 806312DEST_PATH_IMAGE041
.
考虑到经过上述操作,句子的序列信息可能会被弱化。因此,使用一层双向长短期记忆网络(Bi-LSTM)再次对句子的语义进行编码:
Figure 450920DEST_PATH_IMAGE045
.
最后,通过一个维度拼接来获得融入了互注意力信息的句子表示
Figure 782675DEST_PATH_IMAGE046
Figure 538141DEST_PATH_IMAGE047
.
相同的互注意力方法也被应用到问题-实体和问题-候选对,获得的结果用
Figure 816282DEST_PATH_IMAGE048
,
Figure 507158DEST_PATH_IMAGE049
表示。注意,本发明没有把问题对象的实体和问题做交互,因为该实体本身是问题的一部分。但为了保持维度一致,本发明使用一个带有tanh激活函数的多层感知机(MLP)把对象实体的维度转化为2d。
c.自注意力层
经过了信息间的全面交互,本发明更新了实体、问题和候选的编码表示,但它们都是以一个序列的形式存在的,而对于图而言,一个向量似乎是更简洁和方便的。因此,使用一层自注意力机制把这些序列转化为单列向量。具体来说,它首先会依据序列的表示为每个词块计算一个分数,而这个分数只于词块本身的语义编码有关。然后,所有词块的分数会被归一化为一个权重分布去加权求和序列。之后,会获得一个向量作为序列的总结。这个过程的数学化表示为:对于任意给定的句子序列
Figure 185264DEST_PATH_IMAGE129
,其转化为一个向量
Figure 869055DEST_PATH_IMAGE130
的过程可被如下描述:
Figure 988321DEST_PATH_IMAGE052
;
Figure 974731DEST_PATH_IMAGE053
,
Figure 31811DEST_PATH_IMAGE054
,
其中,
Figure 129080DEST_PATH_IMAGE055
,
Figure 306115DEST_PATH_IMAGE056
,
Figure 463427DEST_PATH_IMAGE057
Figure 240759DEST_PATH_IMAGE058
是可训练的权重矩阵。相似的,本实施例也对实体编码
Figure 141719DEST_PATH_IMAGE131
和候选编码
Figure 501156DEST_PATH_IMAGE062
应用一层自注意力机制,获得的向量分别用
Figure 452538DEST_PATH_IMAGE063
Figure 592532DEST_PATH_IMAGE064
来代表。
d.候选交互层
在和问题进行了信息交互后,候选的表示得到了初步更新,用
Figure 906970DEST_PATH_IMAGE065
。这里,通过捕捉和集成候选之间的影响来做进一步的更新。
具体来说,交互分为两个过程:多头注意力层和带有门机制的前馈神经网络层(FFL)。多头注意力层是注意力机制的一种实现,它可以形式化的描述为:
Figure 448810DEST_PATH_IMAGE066
,
Figure 72558DEST_PATH_IMAGE067
;
Figure 699848DEST_PATH_IMAGE068
,
上述公式中,
Figure 817977DEST_PATH_IMAGE069
表示把变量在最后一个维度等分为head份,
Figure 479903DEST_PATH_IMAGE070
表示拼接操作。另外,
Figure 776017DEST_PATH_IMAGE071
,
Figure 625024DEST_PATH_IMAGE072
Figure 546844DEST_PATH_IMAGE073
是可训练的权重矩阵。
FFL把
Figure 342237DEST_PATH_IMAGE078
和N当作输入,使用一个带有relu激活函数的MLP来进一步组织其他候选与当前候选交互的集成信息。然后本发明使用门机制来加入候选本身,以保留候选的一部分原始信息,整个过程可以被描述为:
Figure 183154DEST_PATH_IMAGE080
,
Figure 394824DEST_PATH_IMAGE081
,
Figure 979389DEST_PATH_IMAGE082
,
其中,
Figure 412644DEST_PATH_IMAGE083
,
Figure 158883DEST_PATH_IMAGE084
Figure 874161DEST_PATH_IMAGE085
是可训练的权重矩阵。本发明用
Figure 996838DEST_PATH_IMAGE086
表示最终的候选编码集,也即是候选节点的初始表示。
基于图的推理
a.图的构建
建造的图可以被定义为:
Figure 550179DEST_PATH_IMAGE087
,其中
Figure 732898DEST_PATH_IMAGE088
代表图节点的集合,而
Figure 919160DEST_PATH_IMAGE132
代表连边的集合。在这个图中,本发明把所有的句子、候选和实体作为节点,取编码
Figure 288872DEST_PATH_IMAGE090
,
Figure 572086DEST_PATH_IMAGE091
Figure 784761DEST_PATH_IMAGE092
作为三种类型节点的初始表示。为了简化,本发明用
Figure 848532DEST_PATH_IMAGE093
取代他们,也就是
Figure 188378DEST_PATH_IMAGE094
。经过上一层的交互,这些节点的编码表示都被添加了来自于问题的相互信息,但句子、候选和实体三者之间却是相互独立的,而本实施例的推理需要这些要素间的相互联系,这些联系可以被认为是一种线索,用来保证信息的可流动性。通过控制信息在节点之间的流动方向,来构建一条符合人类认知逻辑的信息路径,从而完成多跳推理。因此,为了捕捉这些线索,建立起信息之间的联系,在符合规则的节点之间添加连边。这里描述加边规则。具体的,通过定义了如下这些类型的边:
1. 在两个句子节点之间添加一个边,如果他们来源于同一个文档。
2. 在两个句子节点之间添加一个边,如果他们来源于不同文档但是有相同的实体提及。
3. 在两个实体节点之间添加一个边,如果他们来源于同一个文档。
4. 在两个实体节点之间添加一个边,如果他们来源于不同文档并且是同一个候选的提及。
5. 在一个实体节点和一个候选节点之间添加一个边,如果这个实体是这个候选的提及。
6. 在一个实体节点和一个句子节点之间添加一个边,如果这个实体出现在这个句子中。
7. 在一个候选节点和一个句子节点之间添加一个边,如果这个候选出现在这个句子中。
之前的研究已经证明了类型3、4、5的边对图推理的有效性。其他类型的边主要用于在不同类型的节点之间传输信息,它们起着相互协助和验证的作用。通过上述方法,可以获得包含7种边的集合
Figure 545672DEST_PATH_IMAGE133
b.信息传递算法
信息传递算法能够驱使信息在图上流动。它可以通过多次的迭代运行,把所需的推理信息汇聚在最终用来预测答案的节点上。由于算法模拟的是,在问题导向下关联信息的传递,因此,其每运行一次,即可视为一次推理,而运行的次数则取决于预定义的推理次数。简单来说,信息传递算法即是利用周围节点(包括自身)来更新当前节点的表示。具体的,在第t步,节点表示的更新过程可由如下公式表述:
Figure 742298DEST_PATH_IMAGE095
,
其中,
Figure 27786DEST_PATH_IMAGE096
表示相邻节点的信息融合,而
Figure 686169DEST_PATH_IMAGE098
是门控值,它们可通过如下获得:
Figure 740713DEST_PATH_IMAGE099
,
Figure 311503DEST_PATH_IMAGE100
.
Figure 84287DEST_PATH_IMAGE101
表示所有边类型的集合,
Figure 779317DEST_PATH_IMAGE102
表示节点i所有
Figure 688367DEST_PATH_IMAGE103
类型的邻边,
Figure 695637DEST_PATH_IMAGE104
是节点i在第t步的表示。此外,
Figure 690138DEST_PATH_IMAGE105
Figure 690324DEST_PATH_IMAGE106
Figure 453881DEST_PATH_IMAGE107
均由MLP实现。在完成预定义的T次迭代后,将得到句子、实体和候选的最终表示,它们都高度集成了相邻节点和问题的有效信息。
答案预测
在这一模块,基于上述获得的节点编码来为每个候选评分。考虑到每个实体都与一个候选显式相关,因此,在计算分数时,融入了实体的影响。当然,候选本身也是必要的。而句子与候选之间的不明显关系可能会给预测带来不确定性,因此,评分没有使用到句子。基于上述,为第k个候选计算分数
Figure 632052DEST_PATH_IMAGE108
的过程如下:
Figure 113849DEST_PATH_IMAGE109
,
其中,
Figure 888032DEST_PATH_IMAGE110
是与第k个候选相对应的所有实体节点的编码表示,而
Figure 771675DEST_PATH_IMAGE134
表示在与同一候选相对应的所有实体的评分中,取出最大分数。
Figure 120748DEST_PATH_IMAGE112
Figure 89841DEST_PATH_IMAGE135
都是具有tanh激活函数的MLP。最后,从C中选择具有最大分数的候选作为模型预测的答案。
一种基于图推理模型的答案预测装置,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行前述指令来执行基于图推理模型的答案预测方法。
本实施例中使用WikiHop和MedHop数据集来评估本发明模型的性能。具体的,使用了它们的非屏蔽版本。
WikiHop是一个庞大的多跳MRC数据集,提供约43.8k样本用于训练集,而5.1k样本用于开发集。平均每个样本包含13.7个支持文档,这些文档可以分为大约50个句子,并且文档是从Wikipedia收集的。每个样本的问题包含一个实体和一个关系,算上提供在候选集中的未知答案,它们构成了WikiData知识库的三元组,。
MedHop是较小的数据集,由用于训练集的1.6K样本和用于开发集的342个样本组成。它主要关注分子生物学领域,其每个样本包括一个问题,一个文档集和一个候选集,其结构与WikiHop的样本相同。区别在于每个文档集平均包含9.6个支持文档,并且可以分为大约40个句子。
在实验中,使用训练集中的所有样本来训练本实施例提出的模型方法,并使用开发集中的所有样本来调整模型的超参数。
本发明使用NLTK按照不同的颗粒度将支持文档集切分为词块和句子块,而候选集和问题则被全部分为词块。本发明使用1024维的标准BERT编码器将所有文本转化为向量。经过TF-IDF算法筛选后,本发明选择了支持文档集的前8个文档,每个文档平均包含30个句子。对于多头注意层,本发明将head的值设置为8。
本发明使用交叉熵损失函数来衡量模型训练的水平,并使用Adam优化算法来调整本发明模型的参数。对于每个可训练模块,本发明加入一层剔除概率为0.1的Dropout。本发明将初始学习率设置为0.001,并且每完成2轮数据集的训练,则把其消减为原来的0.8。本发明使用两个NVIDIA P100 GPUs训练了30轮。在每个GPU上,批处理大小被固定为16,总批处理大小为32。本发明选取准确率作为衡量多跳MRC任务的指标。
在表1给出了SECr在WikiHop验证集上的实验结果,并将其与其他原始论文中报告的结果进行比较。
表1:WikiHop验证集上的准确率
Model 准确率(%)
CFC 66.4
BAG 66.5
EEpath 67.1
EPAr 67.2
HDEGraph 68.1
DynSAN 70.1
本发明方法 71.6
可以发现本发明提出的模型取得了很有竞争力的结果,把表中最好的准确率从70.1%提升到了71.6%。和之前基于GNN推理的多跳机器阅读理解模型相比,本发明的模型取得了一个显著的提升。
可以发现,提出的模型取得了很有竞争力的结果,即71.6%。与最佳模型:Chen提出的但还没有出版的方法相比,仍存在0.6%的差距。此外,与先前基于GNN推理的多跳MRC模型相比,本实施例方法得到了显着改进。这表明本发明方法提出的图具有优越的性能,有助于模型实施更好的推理。
接下来,在表2中展示在MedHop上的结果。与最新结果相比,本发明方法在MedHop测试集上有了显著的提升。
表2:MedHop测试集上的准确率。
Model 准确率(%)
FastQA 31.3
Document-cue 44.9
BiDAF 47.8
Self-Attention 59.6
EPAr 60.3
本发明方法 63.1
本发明方法提出了一种新图,它将多种类型的元素视为图节点,使推理更加全面,同时,由于采用了句子节点,推理变得更加准确具体;本发明融合了多种注意力机制来进行多重语义表示,并创新地考虑了候选之间的相对正误对推理的影响。相较于现有技术,本发明有以下改进和技术优势:(a)不同于传统的神经模型,本发明使用新兴的GNN作为模型的核心模块,通过图节点间的连边和集成,可以更好的模拟推理信息在文档间的跳跃。(b)相较于目前的GNN推理模型,本发明使用句子、实体和候选三种层次的节点来构建图,可以保证信息的充分融合和精准的推理。(c)应用多种注意力机制来体现问题和文本间的互相影响,使用互注意力机制来捕捉候选之间的相对正错信息,以模仿人类面临多个选项时的偏好。
上述实施例为本发明方法的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (8)

1.一种基于图推理模型的答案预测方法,其特征在于,包括以下步骤:
步骤1,接收问题
Figure 758557DEST_PATH_IMAGE001
和支持文档集
Figure 832954DEST_PATH_IMAGE002
和候选集
Figure 143850DEST_PATH_IMAGE003
,问题
Figure 945584DEST_PATH_IMAGE001
的形式为
Figure 291114DEST_PATH_IMAGE004
,其中,
Figure 34948DEST_PATH_IMAGE005
是实体对象,
Figure 505244DEST_PATH_IMAGE006
是实体对象和未知右实体
Figure 858471DEST_PATH_IMAGE007
之间的关系,所述未知右实体就是需要从候选集中选择的答案;
步骤2,通过文本瘦身筛选掉支持文档集中不相关的文档,并对所有的文本进行语义编码;
步骤3,使用多种注意力机制进行多种文本的语义交互和图节点的初始化;
步骤4,基于构建的图,使用图神经网络信息传递算法进行多跳推理;
步骤5,基于更新后的图节点表示,为每个候选计算用于预测答案的分数;
步骤6,根据所述预测答案的分数分布结果,预测未知右实体;
步骤3中所述的图节点的初始化包括以下步骤:
步骤301,通过实体抽取获得所需的实体;
步骤302,把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示;
步骤303,使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。
2.根据权利要求1所述的一种基于图推理模型的答案预测方法,其特征在于,步骤2中所述的文本瘦身是指,在问题
Figure 58509DEST_PATH_IMAGE008
的辅助下,使用两层的TF-IDF算法挑选出相关文档,包括以下步骤:
步骤201,在第一层TF-IDF算法中,计算支持文档集中每个文档和问题的TF-IDF余弦相似度并取出具有最大余弦相似度的文档;
步骤202,在第二层TF-IDF算法中,计算上一层取出的文档和所有剩下所有文档的TF-IDF余弦相似度;
步骤203,根据所述余弦相似度的大小给所有文档排序,取出前N-1个文档,N为自定义阈值;
步骤204,从支持文档集
Figure 458397DEST_PATH_IMAGE009
取出的全部文档组成新的支持文档集
Figure 743885DEST_PATH_IMAGE010
,其中,
Figure 136689DEST_PATH_IMAGE011
表示第i个文档。
3.根据权利要求2所述的一种基于图推理模型的答案预测方法,其特征在于,步骤2中所述的语义编码是指,使用预训练的语言模型用作编码器,将支持文档集、问题和候选中的每个词块转化为固定长度的向量,同时文本的语义也在这个过程被编码并存储在向量之中,包括以下步骤:
步骤205,给定一个编码器,文档集
Figure 191233DEST_PATH_IMAGE012
和问题
Figure 27602DEST_PATH_IMAGE001
通过如下公式被编码:
Figure 800386DEST_PATH_IMAGE013
Figure 498345DEST_PATH_IMAGE014
,其中,
Figure 672975DEST_PATH_IMAGE015
返回编码器对输入变量编码后的结果,
Figure 414666DEST_PATH_IMAGE016
Figure 674746DEST_PATH_IMAGE017
分别是文档集和问题的序列表示,
Figure 409353DEST_PATH_IMAGE018
表示返回文本序列的长度,
Figure 438488DEST_PATH_IMAGE019
是编码器隐状态的维度,
Figure 616660DEST_PATH_IMAGE020
表示维度;
步骤206,取出候选
Figure 987205DEST_PATH_IMAGE021
Figure 400869DEST_PATH_IMAGE022
中对应的编码,从而获得
Figure 159877DEST_PATH_IMAGE021
的编码表示
Figure 633584DEST_PATH_IMAGE023
,其中,
Figure 727311DEST_PATH_IMAGE021
为候选集
Figure 679086DEST_PATH_IMAGE024
中的任意一个候选,
Figure 558181DEST_PATH_IMAGE025
为候选的个数;
步骤207,把文档划分为句子,并取出
Figure 202789DEST_PATH_IMAGE022
中相应的向量用作句子的语义编码;
步骤208,获得基于句子的文档集语义编码
Figure 550856DEST_PATH_IMAGE026
,其中
Figure 306322DEST_PATH_IMAGE027
表示第i个句子的语义编码,
Figure 774344DEST_PATH_IMAGE028
是文档集中包含的句子总数,
Figure 589853DEST_PATH_IMAGE029
是句子的序列长度。
4.根据权利要求3所述的一种基于图推理模型的答案预测方法,其特征在于,步骤302中句子与问题进行如下步骤的语义交互:
步骤30201,给定一对输入:问题
Figure 658172DEST_PATH_IMAGE030
和一个句子
Figure 217329DEST_PATH_IMAGE031
,二者的关系矩阵B可通过如下公式获得:
Figure 805437DEST_PATH_IMAGE032
其中
Figure 526268DEST_PATH_IMAGE033
表示矩阵转置,矩阵
Figure 845997DEST_PATH_IMAGE034
的每个元素
Figure 818633DEST_PATH_IMAGE035
表示问题中的第
Figure 651459DEST_PATH_IMAGE036
个词和句子中的第
Figure 667826DEST_PATH_IMAGE037
个词的相关程度,被看作是一种注意力;
步骤30202,把步骤30201中所述的注意力分别融入问题和句子,公式如下:
Figure 586103DEST_PATH_IMAGE038
Figure 362429DEST_PATH_IMAGE039
其中,
Figure 784183DEST_PATH_IMAGE040
表示融入了句子注意力的问题编码,
Figure 4074DEST_PATH_IMAGE041
表示融入了问题注意力的句子编码,softmax表示归一化函数;
步骤30203,使用一层双向长短期记忆网络Bi-LSTM再次对句子的语义进行编码,得到
Figure 144069DEST_PATH_IMAGE042
Figure 724086DEST_PATH_IMAGE043
步骤30204,通过一个维度拼接来获得融入了互注意力信息的句子表示
Figure 656139DEST_PATH_IMAGE044
Figure 155253DEST_PATH_IMAGE045
所述的语义交互的方法也被应用到问题-实体和问题-候选对,获得的结果用
Figure 657910DEST_PATH_IMAGE046
,
Figure 900672DEST_PATH_IMAGE047
表示;
步骤303具体包括以下步骤:
步骤30301,使用一个带有tanh激活函数的多层感知机把对象实体的维度转化为2d;对于任意给定的句子序列
Figure 920187DEST_PATH_IMAGE048
,其转化为一个集成向量
Figure 590203DEST_PATH_IMAGE049
的过程可被如下描述:
Figure 845735DEST_PATH_IMAGE050
;
Figure 626609DEST_PATH_IMAGE051
,
Figure 267675DEST_PATH_IMAGE052
,
其中,
Figure 108592DEST_PATH_IMAGE053
,
Figure 585841DEST_PATH_IMAGE054
,
Figure 170406DEST_PATH_IMAGE055
Figure 167443DEST_PATH_IMAGE056
是可训练的权重矩阵,
Figure 179262DEST_PATH_IMAGE057
Figure 143807DEST_PATH_IMAGE058
分别表示未归一化和归一化的权重向量;同样,对实体编码
Figure 656696DEST_PATH_IMAGE059
和候选编码
Figure 882141DEST_PATH_IMAGE060
应用一层自注意力机制,获得的向量分别用
Figure 940227DEST_PATH_IMAGE061
Figure 516702DEST_PATH_IMAGE062
来代表;
步骤30302,在和问题进行了信息交互后,候选的表示得到了初步更新,用
Figure 402176DEST_PATH_IMAGE063
,然后,通过捕捉和集成候选之间的影响来做进一步的更新,具体包括两个过程:多头注意力层和带有门机制的前馈神经网络层;
所述的多头注意力层是注意力机制的一种实现,形式化的描述为:
Figure 747707DEST_PATH_IMAGE064
,
Figure 242273DEST_PATH_IMAGE065
;
Figure 40465DEST_PATH_IMAGE066
,
其中,
Figure 895157DEST_PATH_IMAGE067
表示把变量在最后一个维度等分为head份,
Figure 829615DEST_PATH_IMAGE068
表示拼接操作,
Figure 495083DEST_PATH_IMAGE069
,
Figure 780571DEST_PATH_IMAGE070
Figure 940419DEST_PATH_IMAGE071
是可训练的权重矩阵,
Figure 870329DEST_PATH_IMAGE072
,
Figure 831332DEST_PATH_IMAGE073
,
Figure 463170DEST_PATH_IMAGE074
Figure 535031DEST_PATH_IMAGE075
表示计算过程的中间变量,由原始变量生成,并被消耗;
所述的带有门机制的前馈神经网络层把
Figure 585027DEST_PATH_IMAGE076
Figure 451352DEST_PATH_IMAGE077
当作输入,使用一个带有relu激活函数的MLP来进一步组织其他候选与当前候选交互的集成信息,然后使用门机制来加入候选本身,以保留候选的一部分原始信息,整个过程可以被描述为:
Figure 334601DEST_PATH_IMAGE078
,
Figure 210153DEST_PATH_IMAGE079
,
Figure 114655DEST_PATH_IMAGE080
,
其中,
Figure 151881DEST_PATH_IMAGE081
,
Figure 23891DEST_PATH_IMAGE082
Figure 437555DEST_PATH_IMAGE083
是可训练的权重矩阵,用
Figure 196563DEST_PATH_IMAGE084
表示最终的候选编码集,也即是候选节点的初始表示。
5.根据权利要求4所述的一种基于图推理模型的答案预测方法,其特征在于,步骤4中图的构建包括:建造的图被定义为:
Figure 670270DEST_PATH_IMAGE085
,其中
Figure 265462DEST_PATH_IMAGE086
代表图节点的集合,而
Figure 358183DEST_PATH_IMAGE087
代表连边的集合,在这个图中,把所有的句子、候选和实体作为节点,取编码
Figure 361911DEST_PATH_IMAGE088
,
Figure 865573DEST_PATH_IMAGE089
Figure 321962DEST_PATH_IMAGE090
作为三种类型节点的初始表示,用
Figure 952795DEST_PATH_IMAGE091
取代他们,也就是
Figure 811030DEST_PATH_IMAGE092
,通过定义了如下这些类型的边:
在两个句子节点之间添加一个边,如果他们来源于同一个文档;
在两个句子节点之间添加一个边,如果他们来源于不同文档但是有相同的实体提及;
在两个实体节点之间添加一个边,如果他们来源于同一个文档;
在两个实体节点之间添加一个边,如果他们来源于不同文档,并且是同一个候选的提及;
在一个实体节点和一个候选节点之间添加一个边,如果这个实体是这个候选的提及;
在一个实体节点和一个句子节点之间添加一个边,如果这个实体出现在这个句子中;
在一个候选节点和一个句子节点之间添加一个边,如果这个候选出现在这个句子中。
6.根据权利要求5所述的一种基于图推理模型的答案预测方法,其特征在于,步骤4中所述的信息传递算法驱使信息在图上流动,通过多次的迭代运行,把所需的推理信息汇聚在最终用来预测答案的节点上,由于信息传递算法模拟的是,在问题导向下关联信息的传递,因此,其每运行一次,即可视为一次推理,而运行的次数则取决于预定义的推理次数,具体的,在第t步,节点表示的更新过程可由如下公式表述:
Figure 249708DEST_PATH_IMAGE093
,
其中,
Figure 458972DEST_PATH_IMAGE094
表示相邻节点的信息融合,
Figure 627917DEST_PATH_IMAGE095
表示哈达玛积,而
Figure 340658DEST_PATH_IMAGE096
是门控值,它们可通过如下获得:
Figure 451702DEST_PATH_IMAGE097
,
Figure 882683DEST_PATH_IMAGE098
.
Figure 855319DEST_PATH_IMAGE099
表示所有边类型的集合,
Figure 422566DEST_PATH_IMAGE100
表示节点i所有
Figure 205977DEST_PATH_IMAGE101
类型的邻边,
Figure 265199DEST_PATH_IMAGE102
是节点i在第t步的表示,此外,
Figure 900580DEST_PATH_IMAGE103
Figure 712547DEST_PATH_IMAGE104
Figure 40760DEST_PATH_IMAGE105
均由多层感知机实现,在完成预定义的T次迭代后,将得到句子、实体和候选的最终表示。
7.根据权利要求6所述的一种基于图推理模型的答案预测方法,其特征在于,步骤5中所述的计算用于预测答案的分数,为第k个候选计算分数
Figure 56121DEST_PATH_IMAGE106
的过程如下:
Figure 760772DEST_PATH_IMAGE107
,
其中,
Figure 925780DEST_PATH_IMAGE108
是与第k个候选相对应的所有实体节点的编码表示,
Figure 424895DEST_PATH_IMAGE109
表示在与同一候选相对应的所有实体的评分中,取出最大分数,
Figure 193131DEST_PATH_IMAGE110
Figure 170314DEST_PATH_IMAGE111
都是具有tanh激活函数的多层感知机;
步骤6中从
Figure 956873DEST_PATH_IMAGE112
中选择具有最大分数的候选作为模型预测的答案。
8.一种基于图推理模型的答案预测装置,其特征在于,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由所述可执行指令来执行如权利要求1至7任一项所述的基于图推理模型预测方法。
CN202110353541.2A 2021-04-01 2021-04-01 一种基于图推理模型的答案预测方法及装置 Pending CN112732888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110353541.2A CN112732888A (zh) 2021-04-01 2021-04-01 一种基于图推理模型的答案预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110353541.2A CN112732888A (zh) 2021-04-01 2021-04-01 一种基于图推理模型的答案预测方法及装置

Publications (1)

Publication Number Publication Date
CN112732888A true CN112732888A (zh) 2021-04-30

Family

ID=75596264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110353541.2A Pending CN112732888A (zh) 2021-04-01 2021-04-01 一种基于图推理模型的答案预测方法及装置

Country Status (1)

Country Link
CN (1) CN112732888A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468314A (zh) * 2021-08-31 2021-10-01 阿里巴巴达摩院(杭州)科技有限公司 关系预测及问答方法、装置、电子设备及计算机存储介质
CN113553402A (zh) * 2021-07-28 2021-10-26 山西大学 一种基于图神经网络的考试阅读理解自动问答方法
CN113688207A (zh) * 2021-08-24 2021-11-23 思必驰科技股份有限公司 基于网络的结构阅读理解的建模处理方法和装置
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN111782961A (zh) * 2020-08-05 2020-10-16 中国人民解放军国防科技大学 一种面向机器阅读理解的答案推荐方法
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
US10853581B2 (en) * 2017-05-10 2020-12-01 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
CN112307773A (zh) * 2020-12-02 2021-02-02 上海交通大学 机器阅读理解系统的自定义问题数据自动生成方法
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10853581B2 (en) * 2017-05-10 2020-12-01 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
CN111538819A (zh) * 2020-03-27 2020-08-14 北京工商大学 一种基于文档集多跳推理的问答系统的构建方法
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN111782961A (zh) * 2020-08-05 2020-10-16 中国人民解放军国防科技大学 一种面向机器阅读理解的答案推荐方法
CN112307773A (zh) * 2020-12-02 2021-02-02 上海交通大学 机器阅读理解系统的自定义问题数据自动生成方法
CN112417104A (zh) * 2020-12-04 2021-02-26 山西大学 一种句法关系增强的机器阅读理解多跳推理模型及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIJUN HUO等: "A Sentence-Based Circular Reasoning Model in Multi-Hop Reading Comprehension", 《IEEE ACCESS》 *
LIJUN HUO等: "Multi-hop Reading Comprehension Incorporating Sentence-Based Reasoning", 《APWEB-WAIM 2020: WEB AND BIG DATA》 *
MING TU等: "Multi-hop Reading Comprehension across Multiple Documents by Reasoning over Heterogeneous Graphs", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553402A (zh) * 2021-07-28 2021-10-26 山西大学 一种基于图神经网络的考试阅读理解自动问答方法
CN113688207A (zh) * 2021-08-24 2021-11-23 思必驰科技股份有限公司 基于网络的结构阅读理解的建模处理方法和装置
CN113688207B (zh) * 2021-08-24 2023-11-17 思必驰科技股份有限公司 基于网络的结构阅读理解的建模处理方法和装置
CN113468314A (zh) * 2021-08-31 2021-10-01 阿里巴巴达摩院(杭州)科技有限公司 关系预测及问答方法、装置、电子设备及计算机存储介质
CN113468314B (zh) * 2021-08-31 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 关系预测及问答方法、装置、电子设备及计算机存储介质
CN116862000A (zh) * 2023-09-01 2023-10-10 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备
CN116862000B (zh) * 2023-09-01 2024-01-23 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备

Similar Documents

Publication Publication Date Title
Wang et al. Learning latent opinions for aspect-level sentiment classification
CN111538819B (zh) 一种基于文档集多跳推理的问答系统的构建方法
CN112732888A (zh) 一种基于图推理模型的答案预测方法及装置
CN111597830A (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
Yogatama et al. Learning word representations with hierarchical sparse coding
CN111782961B (zh) 一种面向机器阅读理解的答案推荐方法
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
Tripathy et al. Comprehensive analysis of embeddings and pre-training in NLP
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN114969278A (zh) 一种基于知识增强图神经网络的文本问答模型
Zhang et al. Description-Enhanced Label Embedding Contrastive Learning for Text Classification
CN110929006A (zh) 一种数据型问答系统
CN111813924B (zh) 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN115171870A (zh) 一种基于m-BERT预训练模型的就诊引导提示方法及系统
Zhou et al. What happens next? Combining enhanced multilevel script learning and dual fusion strategies for script event prediction
He Annotating and Modeling Shallow Semantics Directly from Text
Chatzigianellis Greek news topics classification using graph neural networks
Yu et al. PLM-PGHC: A novel de-biasing framework for robust question answering
Lika et al. Text sentiment analysis using deep convolutional networks
Hasan Automatic emotion detection in text messages using supervised learning
Warholm Detecting Unhealthy Comments in Norwegian using BERT
Saeed et al. Weakly-Supervised Neural Response Selection from an Ensemble of Task-Specialised Dialogue Agents
Li et al. Abductive natural language inference by interactive model with structural loss
Fytili Aspect Extraction from Greek Product Reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210430