CN112732888A - 一种基于图推理模型的答案预测方法及装置 - Google Patents
一种基于图推理模型的答案预测方法及装置 Download PDFInfo
- Publication number
- CN112732888A CN112732888A CN202110353541.2A CN202110353541A CN112732888A CN 112732888 A CN112732888 A CN 112732888A CN 202110353541 A CN202110353541 A CN 202110353541A CN 112732888 A CN112732888 A CN 112732888A
- Authority
- CN
- China
- Prior art keywords
- candidate
- graph
- entity
- sentence
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于图推理模型的答案预测方法及装置,所述方法包括以下步骤:接收问题和支持文档集;通过文本瘦身筛选掉不相关的文档,并对所有的文本进行语义编码;使用多种注意力机制进行多种文本的语义交互和图节点的初始化;基于构建的图,使用GNN信息传递算法进行多跳推理;基于更新后的图节点表示,为每个候选计算用于预测答案的分数;根据答案的分数分布结果,预测未知的右实体即答案。本发明方法提出了一种新图,它将多种类型的元素视为图节点,使推理更加全面。同时,由于采用了句子节点,推理变得更加准确具体,融合了多种注意力机制来进行多重语义表示,并创新地考虑了候选之间的相对正误对推理的影响,使得答案预测更加准确。
Description
技术领域
本发明属于人工智能中的自然语言处理技术领域,具体涉及一种基于图推理模型的答案预测方法及装置。
背景技术
机器阅读理解(MRC)主要被用来衡量机器对自然语言内容的理解程度,是实现人工智能重要的一步。通常情况下,MRC任务会给定一个文档和一个问题,机器需要选择、抽取和融合其中的关键语义信息,尝试回答这个文档相关的问题,这是一项复杂的自然语言处理任务。近年来,随着MRC研究者大军的兴起,很多高质量的数据集已经被提出来去评估MRC的发展水平,比如SQuAD、RACE等。很多神经模型已经被提出去追溯这些任务(BiDAF,Match-LSTM),并且,在一些优秀的预训练模型(BERT,ELMo)被提出之后,巨大的进步被获得。
在这些数据集中,大部分都是单跳的任务,即每个问题只对应一个被用来去寻找正确答案的文档。由于文档数量较少,关键信息比较集中,即使是缺乏推理能力的模型也可以很好的完成它。为了更好的评估和提升模型的推理能力,最近一些新的数据集被提出来(WikiHop,RACE)。这些数据集提供了大量的支持文档,为了完成预测答案的目标,模型需要通过推理在多个文档之间进行文本/信息的跳跃以聚集散落的关键信息。
多跳MRC是一项极具挑战性的任务,其主要体现在以下三个方面。首先,每个问题都对应着大量的支持文档,绝大部分模型难以直接处理如此大规模的支持文档。同时,支持文档中仅有一部分包含了与问题相关的信息,而其余的则是无关文档,这给模型带来了很大的干扰。其次,由于关键信息包含在多个文档之中,模型需要进行跳跃式的抽取,并把获得的信息有逻辑的连接在一起,这个过程是对推理能力的一种考验,然而,大多数模型都没有很好的实现推理。最后,多跳MRC要求模型进行多次递进式的信息提取和融合,而每一次信息抽取的误差会被不断传播,最终会导致误差的积累,给模型效果带来很大的不确定性。
鉴于这些困难,一些基于图神经网络(GNN)的多跳推理模型已经被提出。Song等人把实体作为GNN的节点进行推理,DE Cao等人使用候选在文档中的提及作为GNN的节点,而Tu等人则使用编码后的句子作为GNN的节点,经过多步推理后用更新的句子表示来获得结果。这些模型在不同颗粒度层次使用了基于GNN的多跳推理,在效果上获得了显著提升。然而,单单使用实体、句子或候选的一种作为GNN的节点来实现推理并捕捉关键信息,不足以支撑精准的推理。当然,那也有一些模型使用了两种类型的节点来构建图,但这还不够。同时,基于实体层级的图推理太过精细了而基于文档层级的却太粗糙了,推理效果都得到了压制。
发明内容
有鉴于此,为了解决现存的技术问题,本发明提出一种基于图推理模型的答案预测方法及装置,本发明把实体、候选和句子三种层级的信息当作节点,图的信息更加丰富,包含了回答问题所需的全部关键信息;收集并采用所有三种类型的信息,会大大提高给定的文本资源的利用率;把问题对象作为推理的初始节点,句子和实体用作中间节点,最终推理结束于候选,这样的一个推理过程更符合人类的逻辑;本发明中的图通过合理的规则在节点之间具有丰富的连接,从而确保了平滑的信息流动性,模型方法可以连续捕获节点之间的关联信息并进行传递。最终,使得本发明方法和装置对多跳机器阅读理解中的答案预测准确率更高。
一种基于图推理模型的答案预测方法,包括以下步骤:
步骤2,通过文本瘦身筛选掉支持文档集中不相关的文档,并对所有的文本进行语义编码;
步骤3,使用多种注意力机制进行多种文本的语义交互和图节点的初始化;
步骤4,基于构建的图,使用图神经网络信息传递算法进行多跳推理;
步骤5,基于更新后的图节点表示,为每个候选计算用于预测答案的分数;
步骤6,根据所述预测答案的分数分布结果,预测未知右实体。
步骤201,在第一层TF-IDF算法中,计算支持文档集中每个文档和问题的TF-IDF余弦相似度并取出具有最大余弦相似度的文档;
步骤202,在第二层TF-IDF算法中,计算上一层取出的文档和所有剩下所有文档的TF-IDF余弦相似度;
步骤203,根据所述余弦相似度的大小给所有文档排序,取出前N-1个文档,N为自定义阈值;
进一步的,步骤2中所述的语义编码是指,使用预训练的语言模型用作编码器,将支持文档集、问题和候选中的每个词块转化为固定长度的向量,同时文本的语义也在这个过程被编码并存储在向量之中,包括以下步骤:
进一步的,步骤3包括以下步骤:
步骤301,通过实体抽取获得所需的实体;
步骤302,把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示;
步骤303,使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。
进一步的,步骤302中句子与问题进行如下步骤的语义交互:
步骤30202,把步骤30201中所述的注意力分别融入问题和句子,公式如下:
步骤303具体包括以下步骤:
所述的多头注意力层是注意力机制的一种实现,形式化的描述为:
所述的带有门机制的前馈神经网络层把和当作输入,使用一个带有relu激活函数的MLP来进一步组织其他候选与当前候选交互的集成信息,然后使用门机制来加入候选本身,以保留候选的一部分原始信息,整个过程可以被描述为:
进一步的,步骤4中图的构建包括:建造的图被定义为:,其中 代表图节点的集合,而代表连边的集合,在这个图中,把所有的句子、候选和实体作为节点,取编码, 和作为三种类型节点的初始表示,用取代他们,也就是,通过定义了如下这些类型的边:
在两个句子节点之间添加一个边,如果他们来源于同一个文档;
在两个句子节点之间添加一个边,如果他们来源于不同文档但是有相同的实体提及;
在两个实体节点之间添加一个边,如果他们来源于同一个文档;
在两个实体节点之间添加一个边,如果他们来源于不同文档,并且是同一个候选的提及;
在一个实体节点和一个候选节点之间添加一个边,如果这个实体是这个候选的提及;
在一个实体节点和一个句子节点之间添加一个边,如果这个实体出现在这个句子中;
在一个候选节点和一个句子节点之间添加一个边,如果这个候选出现在这个句子中。
进一步的,步骤4中所述的信息传递算法驱使信息在图上流动,通过多次的迭代运行,把所需的推理信息汇聚在最终用来预测答案的节点上,由于信息传递算法模拟的是,在问题导向下关联信息的传递,因此,其每运行一次,即可视为一次推理,而运行的次数则取决于预定义的推理次数,具体的,在第t步,节点表示的更新过程可由如下公式表述:
另外,一种基于图推理模型的答案预测装置,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行前述指令来执行基于图推理模型的答案预测方法。
与现有技术相比,本发明有以下优点和有益效果:
首先,本发明方法提出的图把实体、候选和句子同时作为节点,相较于之前的模型,把三种层级的信息当作节点,图的信息更加丰富,包含了回答问题所需的全部关键信息,收集并采用所有三种类型的信息,则会大大提高给定的文本资源的利用率;其次,把问题对象作为推理的初始节点,句子和实体用作中间节点,最终推理结束于候选,这样的一个推理过程更符合人类的逻辑,更具可解释性;另外,句子将文档替换为中间节点,从而在不丢失关键信息的情况下减少了干扰信息,句子比文档更简洁。最后,本发明方法中的图通过合理的规则在节点之间具有丰富的连接,从而确保了平滑的信息流动性,激活基于GNN的推理算法以指导信息流。因此,本发明方法中可以连续捕获节点之间的关联信息并进行传递,所以答案预测更加精准。
附图说明
图1为本发明实施例的流程示意图。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
如图1所示,一种基于图推理模型的答案预测方法,包括以下步骤:
步骤2,通过文本瘦身筛选掉支持文档集中不相关的文档,并对所有的文本进行语义编码;
步骤3,使用多种注意力机制进行多种文本的语义交互和图节点的初始化;
步骤4,基于构建的图,使用图神经网络信息传递算法进行多跳推理;
步骤5,基于更新后的图节点表示,为每个候选计算用于预测答案的分数;
步骤6,根据答案的分数分布结果,预测未知的右实体即答案。
任务定义
在WikiHop和MedHop数据集中,每条数据集都会给定一个支持文档集以及一个相关的问题。具体来说,这个问题的形式为,其中,是实体对象,是实体和未知右实体之间的关系,而这个右实体就是需要模型去预测的答案。另外,数据集也提供了一个包含正确答案的候选集。任务的目标是根据给定的问题和支持文档集,从候选集中选择出正确的答案。
文本瘦身和语义编码
考虑答案预测所需的重要信息,只存在于文档集中与问题相关的文档,因此,在问题的辅助下,使用一个两层的TF-IDF算法挑选出相关文档。具体的,在第一层,计算支持文档集中每个文档和问题的TF-IDF余弦相似度并取出具有最大余弦相似度的文档。在第二层,计算上一层取出的文档和所有剩下所有文档的TF-IDF余弦相似度,然后根据相似度的大小给文档排序,取出前N-1个文档。最后,所有取出的文档组成新的支持集,其中,表示第i个文档。
使用预训练的语言模型用作模型的编码器,它会将文档集、问题和候选中的每个词块转化为固定长度的向量,同时文本的语义也在这个过程被编码并存储在向量之中。具体的,给定一个编码器,文档集P和问题q可以通过如下公式被编码:
其中,返回编码器的最后一层输出,这些编码器可以是训练好的语言模型,例如BERT和XLNet。另外,使用Transformer作为上下文编码器也被证明具有非常强大的语言表达能力。, 分别是文档集和问起的序列表示。返回文本序列的长度,d是编码器隐状态的维度。另外,由于每个候选都可以在支持文档集中找到,因此本发明取出候选在中相应的编码,从而获得作为的语义表示。
语义交互和节点初始化
在这一模块,首先通过实体抽取获得所需的实体,然后把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示,最后使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。
a.实体抽取层
左实体和候选分别扮演了一个重要的角色在桥接问题和文档,文档和答案上。因此,本实施例从文档集中抽取左实体和候选这两种实体。用简单的精准匹配策略去找到左实体和候选的提及的位置,也就是在文档中的开始和结束位置,最终获得的每个提及都被当成是一个实体。然后,从文档集的编码中取出提及对应的向量作为实体的编码表示。用代表一个实体的编码,其中,m为实体的序列长度。同时问题的对象也被当作实体加入到实体集中。
b.语义互编码层
本实施例获得的问题和句子、实体、候选的编码都是独立的,而实际上,推理往往需要考虑信息间的影响,以约束这些信息朝着正确的方向流动。因此,为了实现信息间的交互,为模型引入互注意力机制。在输入为问题和句子的情况下,这种机制能够同时学习到融入了问题的句子语义信息和融入了句子的问题语义信息。以问题-句子输入对作为示例,展示如何使用互注意力机制进行信息交互,相同的操作可以被应用其他输入对上。
然后,本发明把这种注意力分别融入问题和句子,公式如下:
考虑到经过上述操作,句子的序列信息可能会被弱化。因此,使用一层双向长短期记忆网络(Bi-LSTM)再次对句子的语义进行编码:
相同的互注意力方法也被应用到问题-实体和问题-候选对,获得的结果用, 表示。注意,本发明没有把问题对象的实体和问题做交互,因为该实体本身是问题的一部分。但为了保持维度一致,本发明使用一个带有tanh激活函数的多层感知机(MLP)把对象实体的维度转化为2d。
c.自注意力层
经过了信息间的全面交互,本发明更新了实体、问题和候选的编码表示,但它们都是以一个序列的形式存在的,而对于图而言,一个向量似乎是更简洁和方便的。因此,使用一层自注意力机制把这些序列转化为单列向量。具体来说,它首先会依据序列的表示为每个词块计算一个分数,而这个分数只于词块本身的语义编码有关。然后,所有词块的分数会被归一化为一个权重分布去加权求和序列。之后,会获得一个向量作为序列的总结。这个过程的数学化表示为:对于任意给定的句子序列,其转化为一个向量的过程可被如下描述:
d.候选交互层
具体来说,交互分为两个过程:多头注意力层和带有门机制的前馈神经网络层(FFL)。多头注意力层是注意力机制的一种实现,它可以形式化的描述为:
基于图的推理
a.图的构建
建造的图可以被定义为: ,其中代表图节点的集合,而代表连边的集合。在这个图中,本发明把所有的句子、候选和实体作为节点,取编码, 和 作为三种类型节点的初始表示。为了简化,本发明用取代他们,也就是。经过上一层的交互,这些节点的编码表示都被添加了来自于问题的相互信息,但句子、候选和实体三者之间却是相互独立的,而本实施例的推理需要这些要素间的相互联系,这些联系可以被认为是一种线索,用来保证信息的可流动性。通过控制信息在节点之间的流动方向,来构建一条符合人类认知逻辑的信息路径,从而完成多跳推理。因此,为了捕捉这些线索,建立起信息之间的联系,在符合规则的节点之间添加连边。这里描述加边规则。具体的,通过定义了如下这些类型的边:
1. 在两个句子节点之间添加一个边,如果他们来源于同一个文档。
2. 在两个句子节点之间添加一个边,如果他们来源于不同文档但是有相同的实体提及。
3. 在两个实体节点之间添加一个边,如果他们来源于同一个文档。
4. 在两个实体节点之间添加一个边,如果他们来源于不同文档并且是同一个候选的提及。
5. 在一个实体节点和一个候选节点之间添加一个边,如果这个实体是这个候选的提及。
6. 在一个实体节点和一个句子节点之间添加一个边,如果这个实体出现在这个句子中。
7. 在一个候选节点和一个句子节点之间添加一个边,如果这个候选出现在这个句子中。
b.信息传递算法
信息传递算法能够驱使信息在图上流动。它可以通过多次的迭代运行,把所需的推理信息汇聚在最终用来预测答案的节点上。由于算法模拟的是,在问题导向下关联信息的传递,因此,其每运行一次,即可视为一次推理,而运行的次数则取决于预定义的推理次数。简单来说,信息传递算法即是利用周围节点(包括自身)来更新当前节点的表示。具体的,在第t步,节点表示的更新过程可由如下公式表述:
表示所有边类型的集合,表示节点i所有类型的邻边,是节点i在第t步的表示。此外,,和均由MLP实现。在完成预定义的T次迭代后,将得到句子、实体和候选的最终表示,它们都高度集成了相邻节点和问题的有效信息。
答案预测
在这一模块,基于上述获得的节点编码来为每个候选评分。考虑到每个实体都与一个候选显式相关,因此,在计算分数时,融入了实体的影响。当然,候选本身也是必要的。而句子与候选之间的不明显关系可能会给预测带来不确定性,因此,评分没有使用到句子。基于上述,为第k个候选计算分数的过程如下:
其中,是与第k个候选相对应的所有实体节点的编码表示,而表示在与同一候选相对应的所有实体的评分中,取出最大分数。和都是具有tanh激活函数的MLP。最后,从C中选择具有最大分数的候选作为模型预测的答案。
一种基于图推理模型的答案预测装置,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行前述指令来执行基于图推理模型的答案预测方法。
本实施例中使用WikiHop和MedHop数据集来评估本发明模型的性能。具体的,使用了它们的非屏蔽版本。
WikiHop是一个庞大的多跳MRC数据集,提供约43.8k样本用于训练集,而5.1k样本用于开发集。平均每个样本包含13.7个支持文档,这些文档可以分为大约50个句子,并且文档是从Wikipedia收集的。每个样本的问题包含一个实体和一个关系,算上提供在候选集中的未知答案,它们构成了WikiData知识库的三元组,。
MedHop是较小的数据集,由用于训练集的1.6K样本和用于开发集的342个样本组成。它主要关注分子生物学领域,其每个样本包括一个问题,一个文档集和一个候选集,其结构与WikiHop的样本相同。区别在于每个文档集平均包含9.6个支持文档,并且可以分为大约40个句子。
在实验中,使用训练集中的所有样本来训练本实施例提出的模型方法,并使用开发集中的所有样本来调整模型的超参数。
本发明使用NLTK按照不同的颗粒度将支持文档集切分为词块和句子块,而候选集和问题则被全部分为词块。本发明使用1024维的标准BERT编码器将所有文本转化为向量。经过TF-IDF算法筛选后,本发明选择了支持文档集的前8个文档,每个文档平均包含30个句子。对于多头注意层,本发明将head的值设置为8。
本发明使用交叉熵损失函数来衡量模型训练的水平,并使用Adam优化算法来调整本发明模型的参数。对于每个可训练模块,本发明加入一层剔除概率为0.1的Dropout。本发明将初始学习率设置为0.001,并且每完成2轮数据集的训练,则把其消减为原来的0.8。本发明使用两个NVIDIA P100 GPUs训练了30轮。在每个GPU上,批处理大小被固定为16,总批处理大小为32。本发明选取准确率作为衡量多跳MRC任务的指标。
在表1给出了SECr在WikiHop验证集上的实验结果,并将其与其他原始论文中报告的结果进行比较。
表1:WikiHop验证集上的准确率
Model | 准确率(%) |
CFC | 66.4 |
BAG | 66.5 |
EEpath | 67.1 |
EPAr | 67.2 |
HDEGraph | 68.1 |
DynSAN | 70.1 |
本发明方法 | 71.6 |
可以发现本发明提出的模型取得了很有竞争力的结果,把表中最好的准确率从70.1%提升到了71.6%。和之前基于GNN推理的多跳机器阅读理解模型相比,本发明的模型取得了一个显著的提升。
可以发现,提出的模型取得了很有竞争力的结果,即71.6%。与最佳模型:Chen提出的但还没有出版的方法相比,仍存在0.6%的差距。此外,与先前基于GNN推理的多跳MRC模型相比,本实施例方法得到了显着改进。这表明本发明方法提出的图具有优越的性能,有助于模型实施更好的推理。
接下来,在表2中展示在MedHop上的结果。与最新结果相比,本发明方法在MedHop测试集上有了显著的提升。
表2:MedHop测试集上的准确率。
Model | 准确率(%) |
FastQA | 31.3 |
Document-cue | 44.9 |
BiDAF | 47.8 |
Self-Attention | 59.6 |
EPAr | 60.3 |
本发明方法 | 63.1 |
本发明方法提出了一种新图,它将多种类型的元素视为图节点,使推理更加全面,同时,由于采用了句子节点,推理变得更加准确具体;本发明融合了多种注意力机制来进行多重语义表示,并创新地考虑了候选之间的相对正误对推理的影响。相较于现有技术,本发明有以下改进和技术优势:(a)不同于传统的神经模型,本发明使用新兴的GNN作为模型的核心模块,通过图节点间的连边和集成,可以更好的模拟推理信息在文档间的跳跃。(b)相较于目前的GNN推理模型,本发明使用句子、实体和候选三种层次的节点来构建图,可以保证信息的充分融合和精准的推理。(c)应用多种注意力机制来体现问题和文本间的互相影响,使用互注意力机制来捕捉候选之间的相对正错信息,以模仿人类面临多个选项时的偏好。
上述实施例为本发明方法的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于图推理模型的答案预测方法,其特征在于,包括以下步骤:
步骤2,通过文本瘦身筛选掉支持文档集中不相关的文档,并对所有的文本进行语义编码;
步骤3,使用多种注意力机制进行多种文本的语义交互和图节点的初始化;
步骤4,基于构建的图,使用图神经网络信息传递算法进行多跳推理;
步骤5,基于更新后的图节点表示,为每个候选计算用于预测答案的分数;
步骤6,根据所述预测答案的分数分布结果,预测未知右实体;
步骤3中所述的图节点的初始化包括以下步骤:
步骤301,通过实体抽取获得所需的实体;
步骤302,把实体、候选、句子分别和问题进行语义交互以更新各自的向量表示;
步骤303,使用一层自注意力来获取基于实体、候选和句子的图节点初始表示。
3.根据权利要求2所述的一种基于图推理模型的答案预测方法,其特征在于,步骤2中所述的语义编码是指,使用预训练的语言模型用作编码器,将支持文档集、问题和候选中的每个词块转化为固定长度的向量,同时文本的语义也在这个过程被编码并存储在向量之中,包括以下步骤:
4.根据权利要求3所述的一种基于图推理模型的答案预测方法,其特征在于,步骤302中句子与问题进行如下步骤的语义交互:
步骤30202,把步骤30201中所述的注意力分别融入问题和句子,公式如下:
步骤303具体包括以下步骤:
所述的多头注意力层是注意力机制的一种实现,形式化的描述为:
所述的带有门机制的前馈神经网络层把和当作输入,使用一个带有relu激活函数的MLP来进一步组织其他候选与当前候选交互的集成信息,然后使用门机制来加入候选本身,以保留候选的一部分原始信息,整个过程可以被描述为:
5.根据权利要求4所述的一种基于图推理模型的答案预测方法,其特征在于,步骤4中图的构建包括:建造的图被定义为:,其中代表图节点的集合,而代表连边的集合,在这个图中,把所有的句子、候选和实体作为节点,取编码, 和作为三种类型节点的初始表示,用取代他们,也就是,通过定义了如下这些类型的边:
在两个句子节点之间添加一个边,如果他们来源于同一个文档;
在两个句子节点之间添加一个边,如果他们来源于不同文档但是有相同的实体提及;
在两个实体节点之间添加一个边,如果他们来源于同一个文档;
在两个实体节点之间添加一个边,如果他们来源于不同文档,并且是同一个候选的提及;
在一个实体节点和一个候选节点之间添加一个边,如果这个实体是这个候选的提及;
在一个实体节点和一个句子节点之间添加一个边,如果这个实体出现在这个句子中;
在一个候选节点和一个句子节点之间添加一个边,如果这个候选出现在这个句子中。
6.根据权利要求5所述的一种基于图推理模型的答案预测方法,其特征在于,步骤4中所述的信息传递算法驱使信息在图上流动,通过多次的迭代运行,把所需的推理信息汇聚在最终用来预测答案的节点上,由于信息传递算法模拟的是,在问题导向下关联信息的传递,因此,其每运行一次,即可视为一次推理,而运行的次数则取决于预定义的推理次数,具体的,在第t步,节点表示的更新过程可由如下公式表述:
8.一种基于图推理模型的答案预测装置,其特征在于,包括:
处理器;
以及,存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由所述可执行指令来执行如权利要求1至7任一项所述的基于图推理模型预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110353541.2A CN112732888A (zh) | 2021-04-01 | 2021-04-01 | 一种基于图推理模型的答案预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110353541.2A CN112732888A (zh) | 2021-04-01 | 2021-04-01 | 一种基于图推理模型的答案预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112732888A true CN112732888A (zh) | 2021-04-30 |
Family
ID=75596264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110353541.2A Pending CN112732888A (zh) | 2021-04-01 | 2021-04-01 | 一种基于图推理模型的答案预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732888A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113468314A (zh) * | 2021-08-31 | 2021-10-01 | 阿里巴巴达摩院(杭州)科技有限公司 | 关系预测及问答方法、装置、电子设备及计算机存储介质 |
CN113553402A (zh) * | 2021-07-28 | 2021-10-26 | 山西大学 | 一种基于图神经网络的考试阅读理解自动问答方法 |
CN113688207A (zh) * | 2021-08-24 | 2021-11-23 | 思必驰科技股份有限公司 | 基于网络的结构阅读理解的建模处理方法和装置 |
CN116862000A (zh) * | 2023-09-01 | 2023-10-10 | 浪潮电子信息产业股份有限公司 | 一种生成式人工智能的因果思维链生成方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
CN111782961A (zh) * | 2020-08-05 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种面向机器阅读理解的答案推荐方法 |
CN111814982A (zh) * | 2020-07-15 | 2020-10-23 | 四川大学 | 面向多跳问答的动态推理网络及方法 |
US10853581B2 (en) * | 2017-05-10 | 2020-12-01 | Oracle International Corporation | Enabling rhetorical analysis via the use of communicative discourse trees |
CN112307773A (zh) * | 2020-12-02 | 2021-02-02 | 上海交通大学 | 机器阅读理解系统的自定义问题数据自动生成方法 |
CN112417104A (zh) * | 2020-12-04 | 2021-02-26 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
-
2021
- 2021-04-01 CN CN202110353541.2A patent/CN112732888A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10853581B2 (en) * | 2017-05-10 | 2020-12-01 | Oracle International Corporation | Enabling rhetorical analysis via the use of communicative discourse trees |
CN111538819A (zh) * | 2020-03-27 | 2020-08-14 | 北京工商大学 | 一种基于文档集多跳推理的问答系统的构建方法 |
CN111814982A (zh) * | 2020-07-15 | 2020-10-23 | 四川大学 | 面向多跳问答的动态推理网络及方法 |
CN111782961A (zh) * | 2020-08-05 | 2020-10-16 | 中国人民解放军国防科技大学 | 一种面向机器阅读理解的答案推荐方法 |
CN112307773A (zh) * | 2020-12-02 | 2021-02-02 | 上海交通大学 | 机器阅读理解系统的自定义问题数据自动生成方法 |
CN112417104A (zh) * | 2020-12-04 | 2021-02-26 | 山西大学 | 一种句法关系增强的机器阅读理解多跳推理模型及方法 |
Non-Patent Citations (3)
Title |
---|
LIJUN HUO等: "A Sentence-Based Circular Reasoning Model in Multi-Hop Reading Comprehension", 《IEEE ACCESS》 * |
LIJUN HUO等: "Multi-hop Reading Comprehension Incorporating Sentence-Based Reasoning", 《APWEB-WAIM 2020: WEB AND BIG DATA》 * |
MING TU等: "Multi-hop Reading Comprehension across Multiple Documents by Reasoning over Heterogeneous Graphs", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553402A (zh) * | 2021-07-28 | 2021-10-26 | 山西大学 | 一种基于图神经网络的考试阅读理解自动问答方法 |
CN113688207A (zh) * | 2021-08-24 | 2021-11-23 | 思必驰科技股份有限公司 | 基于网络的结构阅读理解的建模处理方法和装置 |
CN113688207B (zh) * | 2021-08-24 | 2023-11-17 | 思必驰科技股份有限公司 | 基于网络的结构阅读理解的建模处理方法和装置 |
CN113468314A (zh) * | 2021-08-31 | 2021-10-01 | 阿里巴巴达摩院(杭州)科技有限公司 | 关系预测及问答方法、装置、电子设备及计算机存储介质 |
CN113468314B (zh) * | 2021-08-31 | 2022-02-08 | 阿里巴巴达摩院(杭州)科技有限公司 | 关系预测及问答方法、装置、电子设备及计算机存储介质 |
CN116862000A (zh) * | 2023-09-01 | 2023-10-10 | 浪潮电子信息产业股份有限公司 | 一种生成式人工智能的因果思维链生成方法、装置及设备 |
CN116862000B (zh) * | 2023-09-01 | 2024-01-23 | 浪潮电子信息产业股份有限公司 | 一种生成式人工智能的因果思维链生成方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Learning latent opinions for aspect-level sentiment classification | |
CN111538819B (zh) | 一种基于文档集多跳推理的问答系统的构建方法 | |
CN112732888A (zh) | 一种基于图推理模型的答案预测方法及装置 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
Yogatama et al. | Learning word representations with hierarchical sparse coding | |
CN111782961B (zh) | 一种面向机器阅读理解的答案推荐方法 | |
CN113297364B (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
Tripathy et al. | Comprehensive analysis of embeddings and pre-training in NLP | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN114969278A (zh) | 一种基于知识增强图神经网络的文本问答模型 | |
Zhang et al. | Description-Enhanced Label Embedding Contrastive Learning for Text Classification | |
CN110929006A (zh) | 一种数据型问答系统 | |
CN111813924B (zh) | 基于可扩展动态选择与注意力机制的类别检测算法及系统 | |
CN115171870A (zh) | 一种基于m-BERT预训练模型的就诊引导提示方法及系统 | |
Zhou et al. | What happens next? Combining enhanced multilevel script learning and dual fusion strategies for script event prediction | |
He | Annotating and Modeling Shallow Semantics Directly from Text | |
Chatzigianellis | Greek news topics classification using graph neural networks | |
Yu et al. | PLM-PGHC: A novel de-biasing framework for robust question answering | |
Lika et al. | Text sentiment analysis using deep convolutional networks | |
Hasan | Automatic emotion detection in text messages using supervised learning | |
Warholm | Detecting Unhealthy Comments in Norwegian using BERT | |
Saeed et al. | Weakly-Supervised Neural Response Selection from an Ensemble of Task-Specialised Dialogue Agents | |
Li et al. | Abductive natural language inference by interactive model with structural loss | |
Fytili | Aspect Extraction from Greek Product Reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |