CN111814982B - 面向多跳问答的动态推理网络系统及方法 - Google Patents

面向多跳问答的动态推理网络系统及方法 Download PDF

Info

Publication number
CN111814982B
CN111814982B CN202010683283.XA CN202010683283A CN111814982B CN 111814982 B CN111814982 B CN 111814982B CN 202010683283 A CN202010683283 A CN 202010683283A CN 111814982 B CN111814982 B CN 111814982B
Authority
CN
China
Prior art keywords
entity
question
paragraph
graph
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010683283.XA
Other languages
English (en)
Other versions
CN111814982A (zh
Inventor
琚生根
李晓辉
陈润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010683283.XA priority Critical patent/CN111814982B/zh
Publication of CN111814982A publication Critical patent/CN111814982A/zh
Application granted granted Critical
Publication of CN111814982B publication Critical patent/CN111814982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种面向多跳问答的动态推理网络与方法,网络包括:段落选择器,接收段落与问题,并在段落中选择与问题的答案相关的子段落;编码模块,使用协同注意力加强问题与子段落的交互,计算得到子段落的最终向量表示、与问题的向量表示;实体图构造模块,用于构造一个实体图;动态推理模块,用于对实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;答案预测模块,与编码模块相连,并与动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测。该网络建立了一种问题重塑机制,该机制可以反复阅读问题以模仿人们的阅读习惯能提高多跳推理问答模型的理解和推理能力。

Description

面向多跳问答的动态推理网络系统及方法
技术领域
本发明属于机器阅读理解领域,具体涉及一种面向多跳问答的动态推理网络及方法。
背景技术
机器阅读理解是一项通过推理一组文本来获得给定问题的正确答案的任务,而多跳推理问答是机器阅读理解的子任务,该任务旨在跨多个段落查找给定问题的答案;现在大多数多跳推理问答模型通常仅通过访问一次问题来获得答案,因此模型可能无法获得足够的文本信息。
多跳推理问答模型主要有三个研究方向,第一个是基于记忆网络,该记忆网络使用存储单元将问题与在每一轮中获得的信息进行组合,并通过连续的迭代推理在几次推理后预测答案,这些模型基于端到端训练模型,并动态确定推理的轮数,但是,这些模型无法给出清晰的推理过程;第二个方向直接在所有给定段落中通过构建推理链或获取问题和上下文相关的其他信息来找到答案。这些方法由于没有进行段落选择需要处理大量的数据;第三个是基于问题和文档构建实体图,并通过对实体图进行多跳推理获得答案,从而给出清晰的推理过程。
目前为止,上述三种模型取得了一定的成功,但仍然存在一些局限性;首先,大多数现有模型直接在所有给定段落中进行推理,而没有进行段落选择以去除干扰段落,增加了要处理的数据量;其次,现有模型在将每个文本编码为表示向量之后,无论其是问题还是段落,每个文本总是很少被访问。而模型可能无法仅通过访问一次或两次文本来获得足够的信息,这导致文本信息无法充分被利用。
发明内容
有鉴于此,本发明的目的之一在于提供一种面向多跳问答的动态推理网络,能提高多跳推理问答模型的理解和推理能力。
为实现上述目的,本发明的技术方案为:一种面向多跳问答的动态推理网络,包括:
段落选择器,接收段落与问题,并在段落中选择与所述问题的答案相关的子段落,消除干扰信息;
编码模块,与段落选择器相连,使用协同注意力加强所述问题与所述子段落的交互,计算得到所述子段落的最终向量表示、与所述问题的向量表示;
实体图构造模块,与段落选择器相连,用于构造一个实体图,促进所述子段落之间的多跳推理;实体图包括三个级别:基于问题级别、基于上下文级别、基于段落级别,实体图中包括多个实体节点;
动态推理模块,与所述实体图构造模块相连,并与所述段落选择器相连,用于对所述实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;
答案预测模块,与所述编码模块相连,并与所述动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测;四种类型预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
进一步地,所述段落选择器包括带有句子分类层的预训练BERT模型,所述预训练BERT模型用于预测所述问题与段落之间的相似性。
进一步地,所述动态推理模块包括所述问题重塑单元,动态图注意力单元、图神经网络单元;其中,
所述图神经网络单元与所述实体图构造模块相连,用于在实体图的实体节点之间传递实体节点的交互和变化信息;
所述动态图注意力单元与所述图神经网络单元相连,并与所述段落选择器相连,用于在整个实体图上动态传播信息,并计算得到两个实体节点之间的注意力,并更新节点;
所述问题重塑单元,与编码模块相连,并与所述动态图注意力单元相连,用于根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示。
进一步地,所述根据问题与实体图消息选择重要问题部分的选择方法为:
Figure 100002_DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE004
,
Figure 100002_DEST_PATH_IMAGE006
,
Figure 100002_DEST_PATH_IMAGE008
是可训练的参数,
Figure 100002_DEST_PATH_IMAGE010
是1的行向量,m为重复次数;
Figure 100002_DEST_PATH_IMAGE012
是重要问题部分的表示,
Figure 100002_DEST_PATH_IMAGE014
是当前时刻问题的表示,
Figure 100002_DEST_PATH_IMAGE016
是上一时刻选出的重要问题部分的表示,
Figure 100002_DEST_PATH_IMAGE018
是问题中的第j个词的表示,
Figure 100002_DEST_PATH_IMAGE020
是第i个的注意力,
Figure 100002_DEST_PATH_IMAGE022
第k个注意力,
Figure 100002_DEST_PATH_IMAGE024
表示问题第i个词的表示,k是求和下标,
Figure 100002_DEST_PATH_IMAGE026
是注意力,
Figure DEST_PATH_IMAGE028
是t时刻选出的重要问题部分的表示。
进一步地,所述答案预测模块包括循环神经网络,用于输出四种类型的预测。
有鉴于此,本发明的目的之二在于提供一种面向多跳问答的动态推理方法,该方法能提高在动态推理过程中的理解和推理能力。
为实现上述目的,本发明的技术方案为:一种面向多跳问答的动态推理方法,包括以下步骤:
(1)接收段落与问题,在段落中选择与所述问题的答案相关的至少一个子段落;
(2)识别问题和各子段落中的命名实体,并基于不同级别建立子段落内部或子段落之间的关系构造实体图,级别包括:基于问题级别、基于上下文级别、基于段落级别;
(3)对实体图进行推理,反复阅读子段落与问题,模仿人分析信息过程;
(4)定义查询类型,输出包含四种类型的预测可能性,四种类型的预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
进一步地,步骤(2)具体包括以下步骤:
识别问题和各子段落中的命名实体和名词短语,将命名实体抽象为对应节点;
基于问题级别构建实体图,当两个命名实体的句子表示都包含来自同一问题的命名实体或名词短语,则在两个命名实体对应的节点之间添加一条边;
基于上下文的级别构建实体图,在同一子段落的两个命名实体的节点之间添加一条边;
基于段落的级别构建实体图,当两个命名实体的句子表示至少包含一个相同的命名实体或名词短语,则在两个命名实体的节点之间添加一条边。
进一步地,所述步骤(3)具体包括以下步骤:
在所述实体图上传递信息,选择与问题相关单词,使信息由问题感知的节点传递:
计算实体图上两个节点之间的注意力:
Figure DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
是可学习的参数,
Figure DEST_PATH_IMAGE036
是偏置,
Figure DEST_PATH_IMAGE038
是第i个与第j个实体t时刻的隐藏层状态,
Figure DEST_PATH_IMAGE040
是第i个实体t时刻的隐藏层状态,
Figure DEST_PATH_IMAGE042
是t时刻第i个与第j个实体的注意力权重,
Figure DEST_PATH_IMAGE044
是第j个实体与其他所有实体t时刻的隐藏层状态;
汇聚一个节点接收到的来自邻居节点的所有信息,并更新问题:
Figure DEST_PATH_IMAGE046
其中,
Figure DEST_PATH_IMAGE048
为一节点的邻居节点的集合,
Figure DEST_PATH_IMAGE050
是t时刻第i个实体节点,
Figure DEST_PATH_IMAGE052
是t时刻第i个与第j个节点间的注意力权重,
Figure DEST_PATH_IMAGE054
是t时刻第j个节点的隐藏层状态,
Figure 100002_DEST_PATH_IMAGE056
是双向注意力,
Figure DEST_PATH_IMAGE058
是t-1时刻的问题表示,
Figure DEST_PATH_IMAGE060
是t时刻所有实体节点的表示;
根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示:
Figure 100002_DEST_PATH_IMAGE002A
其中,
Figure DEST_PATH_IMAGE004A
,
Figure DEST_PATH_IMAGE006A
,
Figure 100002_DEST_PATH_IMAGE008A
是可训练的参数,
Figure 100002_DEST_PATH_IMAGE010A
是1的行向量。外部乘积
Figure DEST_PATH_IMAGE062
表示重复
Figure DEST_PATH_IMAGE064
m次,
Figure 100002_DEST_PATH_IMAGE012A
是重要问题部分的表示,
Figure 100002_DEST_PATH_IMAGE014A
是当前时刻问题的表示,
Figure DEST_PATH_IMAGE016A
是上一时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE018A
是问题中的第j个词的表示,
Figure DEST_PATH_IMAGE066
是问题某个词的表示,
Figure DEST_PATH_IMAGE026A
是注意力,
Figure DEST_PATH_IMAGE028A
是t时刻选出的重要问题部分的表示,
Figure 100002_DEST_PATH_IMAGE020A
是第i个的注意力,
Figure 100002_DEST_PATH_IMAGE022A
第k个注意力。
进一步地,所述选择与当前问题更相关的单词的方法为:
Figure DEST_PATH_IMAGE068
其中,
Figure DEST_PATH_IMAGE070
是第i个问题实体的线性投影矩阵,σ是sigmoid函数,
Figure DEST_PATH_IMAGE072
是第i个问题实体的关联程度,
Figure DEST_PATH_IMAGE074
是问题实体的关联程度,
Figure DEST_PATH_IMAGE076
是问题实体的关联程度,
Figure DEST_PATH_IMAGE078
是第i个问题实体的关联程度的另一表示,
Figure DEST_PATH_IMAGE080
是t-1时刻第i个实体,
Figure DEST_PATH_IMAGE082
是过滤出的与第i个问题更相关的实体,
Figure DEST_PATH_IMAGE084
表示问题输出的隐藏层单元大小,
Figure DEST_PATH_IMAGE086
是第n个问题实体的关联程度,
Figure DEST_PATH_IMAGE088
为平均池化。
进一步地,使用二进制分类器来预测当前语句为支持语句的概率。
本发明提供面向多跳问答的动态推理网络和方法,可通过多段之间的多跳推理来获得正确答案,并建立了一种问题重塑机制,该机制可以反复阅读问题以模仿人们的阅读习惯,此外本发明的网络对具有图注意力和问题重塑机制的实体图进行动态推理,能提高该网络的理解和推理能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种面向多跳问答的动态推理网络的结构示意图;
图2为本发明答案预测模块结构示意图;
图3 为本发明一种面向多跳问答的动态推理方法的流程示意图;
图4为本发明一实施例中的实体图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
参考图1,为本发明一种面向多跳问答的动态推理网络的结构示意图,具体地,一种面向多跳问答的动态推理网络包括:
段落选择器1,接收段落与问题,并在段落中选择与问题的答案相关的子段落,消除干扰信息;
本实施例中,段落选择器1包括带有句子分类层的预训练BERT模型,预训练BERT模型用于预测问题与段落之间的相似性,段落选择器1通过连接“ [CLS]” +问题+“ [SEP]” +文档+“ [SEP]”作为问题和段落的输入,并输出0到1之间的匹配分数。段落选择遵循以下规则:如果段落包含答案,则标签为2;如果段落包含至少一个支持语句,则标签为1,否则为0;匹配分数大于阈值n(n值可以预先设定,如n = 0.1)的段落被选择为下游任务的段落。
编码模块2,与段落选择器1相连,使用协同注意力加强问题与子段落的交互,计算得到子段落的最终向量表示、与问题的向量表示;
本实施例中,使用协同注意力来加强问题Q和段落P之间的交互,并计算一注意矩阵
Figure DEST_PATH_IMAGE090
,捕获段落和问题之间的相似性。
实体图构造模块3,与段落选择器1相连,用于构造一个实体图,促进子段落之间的多跳推理;实体图包括三个级别:基于问题级别、基于上下文级别、基于段落级别,实体图中包括多个实体节点;
具体地,本实施例中通过构造一个实体图以促进段落之间的多跳推理,先使用Stanford corenlp工具包(斯坦福大学开发的自然语言处理工具套件)识别问题和段落中的命名实体和名词短语,实体图根据以下规则从三个级别构建:基于问题的级别,如果两个节点的句子表示都包含来自同一问题的命名实体或名词短语,则在两个节点之间添加一条边,从而掌握查询和段落之间的相互作用;基于上下文的级别,在同一段落的两个节点之间添加一条边,获得段落内部的联系;基于段落的级别,如果两个节点的句子表示至少包含一个相同的命名实体或名词短语,则在两个节点之间添加一条边,从而在不同段落之间建立关系。
动态推理模块4,与实体图构造模块3相连,并与段落选择器相连,用于对实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;
本实施例中的动态推理模块4包括问题重塑单元43,动态图注意力单元42、图神经网络单元41;其中,
图神经网络单元41与实体图构造模块3相连,用于在实体图的实体节点之间传递实体节点的交互和变化信息;
动态图注意力单元42与图神经网络单元41相连,并与段落选择器1相连,用于在整个实体图上动态传播信息,并计算得到两个实体节点之间的注意力,并更新节点;
问题重塑单元43,与编码模块2相连,并与动态图注意力单元42相连,用于根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示。
进一步地,本实施例中的问题重塑单元43根据问题与实体图消息选择重要问题部分的选择方法为:
Figure DEST_PATH_IMAGE002AA
其中,
Figure DEST_PATH_IMAGE004AA
,
Figure DEST_PATH_IMAGE006AA
,
Figure DEST_PATH_IMAGE008AA
是可训练的参数,
Figure DEST_PATH_IMAGE010AA
是1的行向量,m为重复次数,
Figure DEST_PATH_IMAGE012AA
是重要问题部分的表示,
Figure DEST_PATH_IMAGE014AA
是当前时刻问题的表示,
Figure DEST_PATH_IMAGE016AA
是上一时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE018AA
是问题中的第j个词的表示,
Figure DEST_PATH_IMAGE066A
是问题某个词的表示,k是第k次重复,
Figure DEST_PATH_IMAGE026AA
是注意力,
Figure 100002_DEST_PATH_IMAGE024A
表示问题第i个词的表示,
Figure DEST_PATH_IMAGE028AA
是t时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE020AA
是第i个的注意力,
Figure DEST_PATH_IMAGE022AA
第k个注意力。
答案预测模块5,与编码模块相连,并与动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测;四种类型预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
本实施例中的答案预测模块5可参考图2,其包括循环神经网络GRU,根据图2,输入从图中下方进入,经过GRU输出支持句子预测,接着支持句子预测与答案预测模块5的输入拼接形成新的数据进入另一GRU得到的数据再次与形成的新数据拼接经线性网络得到开始标记预测;以相同的方法得到结束标记预测;特别地,问题类型预测的得到仅经过一个GRU与线性网络,且在经过线性网络之前不与该GRU的输入拼接。
实施例2
参考图3为本发明一种面向多跳问答的动态推理方法的流程示意图,具体地,一种面向多跳问答的动态推理方法,包括以下步骤:
S600:接收段落与问题,在段落中选择与问题的答案相关的至少一个子段落;然后执行步骤S700;
在本实施例中,在接收需要进行推理的段落与问题过后,实施例1中的段落选择器1会选择段落中与问题的答案相关的段落设为子段落,以此来消除干扰信息,并将问题与得到的子段落进行编码,具体地,问题设为
Figure DEST_PATH_IMAGE092
,子段落设为
Figure DEST_PATH_IMAGE094
,m和n 分别是问题和段落的长度,h是隐藏状态的大小,然后我们使用协同注意力来加强问题Q和段落P之间的交互,使用编码模块2中的注意矩阵
Figure DEST_PATH_IMAGE096
,捕获段落和问题之间的相似性:
Figure DEST_PATH_IMAGE100
然后,计算通过子段落感知的问题的表示形式
Figure DEST_PATH_IMAGE102
Figure DEST_PATH_IMAGE104
载用同样的方法得到一个问题感知的子段落表示形式
Figure DEST_PATH_IMAGE102A
,接着计算了另一种段落表示形式,用于捕获段落感知的问题和子段落之间的交互,它着重于问题中与子段落相关的词和子段落之间的联系。段落的最终表示为
Figure DEST_PATH_IMAGE106
,其中“,”表示将这两个向量连接起来:
Figure DEST_PATH_IMAGE108
其中,
Figure DEST_PATH_IMAGE110
是问题感知的段落,
Figure DEST_PATH_IMAGE112
是注意力矩阵,
Figure DEST_PATH_IMAGE114
是重要问题词感知的段落。
S700:识别问题和各子段落中的命名实体,并基于不同级别建立子段落内部或子段落之间的关系构造实体图,并根据实体图的不同级别建立子段落内部或子段落之间的关系;然后执行步骤S800;
本实施例中的级别包括:基于问题级别、基于上下文级别、基于段落级别;
具体地,使用Stanford corenlp工具包(斯坦福大学开发的自然语言处理工具套件)识别问题和各子段落中的命名实体和名词短语,,将命名实体抽象为对应节点;
基于问题级别构建实体图,当两个节点的句子表示(句子的向量表示)都包含来自同一问题的命名实体或名词短语,则在两个节点之间添加一条边,代表查询和段落之间的相互作用;
基于上下文的级别构建实体图,在同一子段落的两个节点之间添加一条边,代表段落内部的联系;
基于段落的级别构建实体图,当两个节点的句子表示至少包含一个相同的命名实体或名词短语,则在两个节点之间添加一条边,表示在不同段落之间建立关系,本实施例中,抽象实体节点为小圆点,通过不同级别建立子段落内部或子段落之间的关系即在基于级别用线变连接节点,最终构成实体图,如图4,为本发明中一实施例的实体图。
S800:对实体图进行推理,反复阅读子段落与问题,模仿人分析信息过程;然后执行步骤S900;
本实施例中,先通过动态图注意力单元42在实体图上传递信息,该处的信息为文本信息,节点的交互和变化信息,构造实体过滤器以选择与当前问题更相关的单词,使信息由问题感知的节点传递,具体方法为:
Figure DEST_PATH_IMAGE068A
其中,
Figure DEST_PATH_IMAGE070A
是第i个问题实体的线性投影矩阵,σ是sigmoid函数,
Figure DEST_PATH_IMAGE072A
是第i个问题实体的关联程度,
Figure DEST_PATH_IMAGE074A
是问题实体的关联程度,
Figure DEST_PATH_IMAGE076A
是问题实体的关联程度,
Figure DEST_PATH_IMAGE078A
是第i个问题实体的关联程度的另一表示,
Figure DEST_PATH_IMAGE080A
是t-1时刻第i个实体,
Figure DEST_PATH_IMAGE082A
是过滤出的与第i个问题更相关的实体,
Figure DEST_PATH_IMAGE084A
表示问题输出的隐藏层单元大小,
Figure DEST_PATH_IMAGE086A
是第n个问题实体的关联程度,
Figure DEST_PATH_IMAGE088A
为平均池化。
在得到更相关问题后,问题重塑单元43会计算实体图上两个节点之间的注意力:
Figure DEST_PATH_IMAGE030A
其中,
Figure DEST_PATH_IMAGE032A
是可学习的参数,α表示将传递到实体图中每个邻居节点的信息的比例,
Figure DEST_PATH_IMAGE036A
是偏置,
Figure DEST_PATH_IMAGE038A
是第个i实体与第j个实体t时刻的隐藏层状态,
Figure DEST_PATH_IMAGE034A
是可学习参数,
Figure DEST_PATH_IMAGE040A
是第i个实体t时刻的隐藏层状态,
Figure DEST_PATH_IMAGE042A
是t时刻第个i实体与第j个实体的注意力权重,
Figure DEST_PATH_IMAGE044A
是第j个实体与其他所有实体t时刻的隐藏层状态;
汇聚一个节点接收到的来自邻居节点的所有信息,并更新问题:
Figure DEST_PATH_IMAGE046A
其中,
Figure DEST_PATH_IMAGE048A
为一节点的邻居节点的集合,
Figure DEST_PATH_IMAGE116
Figure DEST_PATH_IMAGE116A
函数,
Figure DEST_PATH_IMAGE050A
是t时刻第i个实体节点,
Figure DEST_PATH_IMAGE052A
是t时刻第i个实体与第j个实体节点间的注意力权重,
Figure DEST_PATH_IMAGE054A
是t时刻第j个节点的隐藏层状态,
Figure DEST_PATH_IMAGE056A
是双向注意力,
Figure DEST_PATH_IMAGE058A
是t-1时刻的问题表示,
Figure DEST_PATH_IMAGE060A
是t时刻所有实体节点的表示;
接着,根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示(该重要问题表示即是输出到答案预测模块的数据):
Figure DEST_PATH_IMAGE002AAA
其中,
Figure DEST_PATH_IMAGE004AAA
,
Figure DEST_PATH_IMAGE006AAA
,
Figure DEST_PATH_IMAGE008AAA
是可训练的参数,
Figure DEST_PATH_IMAGE010AAA
是1的行向量,外部乘积
Figure DEST_PATH_IMAGE062A
表示重复
Figure DEST_PATH_IMAGE064A
m次,
Figure DEST_PATH_IMAGE012AAA
是重要问题部分的表示,
Figure DEST_PATH_IMAGE014AAA
是当前时刻问题的表示,
Figure DEST_PATH_IMAGE016AAA
是上一时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE018AAA
是问题中的第j个词的表示,k是第k次重复,
Figure DEST_PATH_IMAGE024AA
表示问题第i个词的表示,
Figure DEST_PATH_IMAGE026AAA
是注意力,
Figure DEST_PATH_IMAGE028AAA
是t时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE020AAA
是第i个的注意力,
Figure DEST_PATH_IMAGE022AAA
第k个注意力。
我们使用GRU通过结合其上下文对所选部分进行编码,并每次获得一个表示。重新访问该问题N次后,我们获得了经过重塑的问题表示形式,该表示形式将被发送到下一个推理步骤:
Figure DEST_PATH_IMAGE118
其中,
Figure DEST_PATH_IMAGE120
是t时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE122
是t时刻的问题词表示,
Figure DEST_PATH_IMAGE124
是t时刻的问题表示,
Figure DEST_PATH_IMAGE126
是问题重塑N次t时刻的问题表示,N是问题重塑的次数。
S900:定义查询类型,输出包含四种类型的预测可能性。
本实施例中的四种类型的预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型;
本实施例中,使用二进制分类器来预测当前语句为支持语句的概率,在答案预测模块5中定义查询类型定义为“span”,“yes”和“no”,GRU 用于输出以下四种类型的可能性:
Figure DEST_PATH_IMAGE128
其中,
Figure DEST_PATH_IMAGE130
是支持语句的可能性,
Figure DEST_PATH_IMAGE132
是答案的开始标记的可能性,
Figure DEST_PATH_IMAGE134
是答案的结束标记的可能性,
Figure DEST_PATH_IMAGE136
是答案类型的可能性,
Figure DEST_PATH_IMAGE138
是段落中的每一个句子的嵌入式表示。
优选地,本实施例中的损失函数为:
Figure DEST_PATH_IMAGE140
其中,
Figure DEST_PATH_IMAGE142
Figure DEST_PATH_IMAGE142A
是权重,用于控制不同损失函数的影响,BCE表示二进制交叉熵损失函数,CE表示交叉熵损失函数,损失函数在多任务学习设置中共同优化。
实施例3
本实施例中,对实施例1的系统和实施例2的方法的有效性进行验证,具体地,本实施例在HotpotQA数据集(用于跨多个段落的多跳推理的最新基准数据集)TriviaQA数据集(基于信息检索(IR)构建的基准数据集)上评估本发明的推理网络,并用相同的参数数据对比其他模型的结果,
本实施例中,采用baseline(2018年Yang,Zhilin,et al.提出hotpot qa数据集时使用的模型)、GRN(2019年Hotpot qa数据集leaderboard上一个排名尚可但未发布论文的模型)、QFE(2019年Nishida,Kosuke,et al.提出的模型)、DFGN(2019年Xiao,Yunxuan,etal.提出的模型)4种模型与本发明系统做比较,并使用EM、F1作为衡量指标,EM是完全匹配值, F1是F1分数。
最终得到的结果参考下表1与表2:
表格 1 HotpotQA 数据集对比结果
Figure DEST_PATH_IMAGE144
表格 2 TriviaQA 数据集对比结果
模型 EM F1
Baseline 44.94 46.85
QFE 55.14 56.26
DFGN 56.50 59.13
本发明网络 59.73 62.21
表1中,Sup fact是段落中支持问题回答的证据,根据表1与表2,与其他基准模型相比,本发明的网络在两种数据集中的F1均高于其他模型,除QFE模型的EM以外,本发明的网络获得的指标数也较其他模型好,即本发明网络中的动态推理模型反复利用注意力机制来模拟人们的阅读习惯,能尽可能地理解文本信息,提高抽取效果。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种面向多跳问答的动态推理网络系统,其特征在于,包括:
段落选择器,接收段落与问题,并在段落中选择与所述问题的答案相关的子段落,消除干扰信息;
编码模块,与段落选择器相连,使用协同注意力加强所述问题与所述子段落的交互,计算得到所述子段落的最终向量表示、与所述问题的向量表示;
实体图构造模块,与段落选择器相连,用于构造一个实体图,促进所述子段落之间的多跳推理;实体图包括三个级别:基于问题级别、基于上下文级别、基于段落级别,实体图中包括多个实体节点;
动态推理模块,与所述实体图构造模块相连,并与所述段落选择器相连,用于对所述实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;
所述动态推理模块包括所述问题重塑单元,动态图注意力单元、图神经网络单元;其中,
所述图神经网络单元与所述实体图构造模块相连,用于在实体图的实体节点之间传递所述实体节点的交互和变化信息;
所述动态图注意力单元与所述图神经网络单元相连,并与所述段落选择器相连,用于在整个实体图上动态传播信息,并计算得到两个实体节点之间的注意力,并更新节点;
所述问题重塑单元,与编码模块相连,并与所述动态图注意力单元相连,用于根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示;
答案预测模块,与所述编码模块相连,并与所述动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测;四种类型预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
2.根据权利要求1所述的面向多跳问答的动态推理网络系统,其特征在于,所述段落选择器包括带有句子分类层的预训练BERT模型,所述预训练BERT模型用于预测所述问题与段落之间的相似性。
3.根据权利要求2所述的面向多跳问答的动态推理网络系统,其特征在于,所述根据问题与实体图消息选择重要问题部分的选择方法为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
,
Figure DEST_PATH_IMAGE004
,
Figure DEST_PATH_IMAGE005
是可训练的参数,
Figure DEST_PATH_IMAGE006
是1的行向量,m为重复次数,
Figure DEST_PATH_IMAGE008
是重要问题部分的表示,
Figure DEST_PATH_IMAGE010
是当前时刻问题的表示,
Figure DEST_PATH_IMAGE012
是上一时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE014
是问题中的第j个词的表示,
Figure DEST_PATH_IMAGE016
表示问题第i个词的表示,k是第k次重复,
Figure DEST_PATH_IMAGE018
是注意力,
Figure DEST_PATH_IMAGE020
是第i个注意力,
Figure DEST_PATH_IMAGE022
第k个注意力,
Figure DEST_PATH_IMAGE024
是t时刻选出的重要问题部分的表示。
4.根据权利要求3所述的面向多跳问答的动态推理网络系统,其特征在于,所述答案预测模块包括循环神经网络,用于输出四种类型的预测。
5.一种面向多跳问答的动态推理方法,其特征在于,包括以下步骤:
(1)接收段落与问题,在段落中选择与所述问题的答案相关的至少一个子段落;
(2)识别问题和各子段落中的命名实体,并基于不同级别建立子段落内部或子段落之间的关系构造实体图,级别包括:基于问题级别、基于上下文级别、基于段落级别;
(3)对实体图进行推理,反复阅读子段落与问题,模仿人分析信息过程;
所述步骤(3)具体包括以下步骤:
在所述实体图上传递信息,选择与问题相关单词,使信息由问题感知的节点传递:
计算实体图上两个节点之间的注意力:
Figure DEST_PATH_IMAGE026
其中,
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE031
是可学习的参数,
Figure DEST_PATH_IMAGE033
是偏置,
Figure DEST_PATH_IMAGE035
是t时刻第个i实体与第j个实体的隐藏层状态,
Figure DEST_PATH_IMAGE037
是第i个实体t时刻的隐藏层状态,
Figure DEST_PATH_IMAGE039
是t时刻第i个实体与第j个实体的注意力权重,
Figure DEST_PATH_IMAGE041
是第j个实体与其他所有实体t时刻的隐藏层状态;
汇聚一个节点接收到的来自邻居节点的所有信息,并更新问题:
Figure DEST_PATH_IMAGE043
其中,Ni为一节点的邻居节点的集合,
Figure DEST_PATH_IMAGE045
是t时刻第i个实体节点,
Figure DEST_PATH_IMAGE047
是t时刻第i个与第j个节点间的注意力权重,
Figure DEST_PATH_IMAGE049
是t时刻第j个节点的隐藏层状态,
Figure DEST_PATH_IMAGE051
是双向注意力,
Figure DEST_PATH_IMAGE053
是t-1时刻的问题表示,
Figure DEST_PATH_IMAGE055
是t时刻所有实体节点的表示;
根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示:
Figure DEST_PATH_IMAGE002A
其中,
Figure 442161DEST_PATH_IMAGE003
,
Figure 858099DEST_PATH_IMAGE004
,
Figure 921870DEST_PATH_IMAGE005
是可训练的参数,
Figure 589612DEST_PATH_IMAGE006
是m维均是1构成的行向量,外部乘积
Figure DEST_PATH_IMAGE056
表示重复
Figure DEST_PATH_IMAGE057
m次,
Figure DEST_PATH_IMAGE008A
是重要问题部分的表示,
Figure DEST_PATH_IMAGE010A
是当前时刻问题的表示,
Figure DEST_PATH_IMAGE012A
是上一时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE014A
是问题中的第j个词的表示,
Figure DEST_PATH_IMAGE059
表示问题第i个词的表示,
Figure DEST_PATH_IMAGE024A
是t时刻选出的重要问题部分的表示,
Figure DEST_PATH_IMAGE020A
是第i个注意力,
Figure DEST_PATH_IMAGE022A
第k个注意力;
(4)定义查询类型,输出包含四种类型的预测可能性,四种类型的预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
6.根据权利要求5所述的面向多跳问答的动态推理方法,其特征在于,步骤(2)具体包括以下步骤:
识别问题和各子段落中的命名实体和名词短语,将命名实体抽象为对应节点;
基于问题级别构建实体图,当两个命名实体的句子表示都包含来自同一问题的命名实体或名词短语,则在两个命名实体对应的节点之间添加一条边;
基于上下文的级别构建实体图,在同一子段落的两个命名实体的节点之间添加一条边;
基于段落的级别构建实体图,当两个命名实体的句子表示至少包含一个相同的命名实体或名词短语,则在两个命名实体的节点之间添加一条边。
7.根据权利要求6所述的面向多跳问答的动态推理方法,其特征在于,所述选择与当前问题更相关的单词的方法为:
Figure DEST_PATH_IMAGE061
其中,
Figure DEST_PATH_IMAGE063
是第i个问题实体的线性投影矩阵,σ是sigmoid函数,
Figure DEST_PATH_IMAGE065
是第i个问题实体的关联程度,
Figure DEST_PATH_IMAGE067
是问题实体的关联程度,
Figure DEST_PATH_IMAGE069
是问题实体的关联程度,
Figure DEST_PATH_IMAGE071
是第i个问题实体的关联程度的另一表示,
Figure DEST_PATH_IMAGE073
是t-1时刻第i个实体,
Figure DEST_PATH_IMAGE075
是过滤出的与问题更相关的第i个实体,
Figure DEST_PATH_IMAGE077
表示问题输出的隐藏层单元大小,
Figure DEST_PATH_IMAGE079
是第n个问题实体的关联程度,
Figure DEST_PATH_IMAGE081
为平均池化。
8.根据权利要求7所述的面向多跳问答的动态推理方法,其特征在于,使用二进制分类器来预测当前语句为支持语句的概率。
CN202010683283.XA 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法 Active CN111814982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010683283.XA CN111814982B (zh) 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010683283.XA CN111814982B (zh) 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法

Publications (2)

Publication Number Publication Date
CN111814982A CN111814982A (zh) 2020-10-23
CN111814982B true CN111814982B (zh) 2021-03-16

Family

ID=72866343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010683283.XA Active CN111814982B (zh) 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法

Country Status (1)

Country Link
CN (1) CN111814982B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131370B (zh) * 2020-11-23 2021-03-12 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112732879B (zh) * 2020-12-23 2022-05-10 重庆理工大学 一种问答任务的下游任务处理方法及模型
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN113361261B (zh) * 2021-05-19 2022-09-09 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113505206B (zh) * 2021-07-01 2023-04-18 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
CN114490959A (zh) * 2021-07-18 2022-05-13 北京理工大学 一种以关键词为驱动的动态图神经网络多跳阅读理解方法
CN113535904B (zh) * 2021-07-23 2022-08-09 重庆邮电大学 一种基于图神经网络的方面级情感分析方法
CN113779220B (zh) * 2021-09-13 2023-06-23 内蒙古工业大学 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN114564562B (zh) * 2022-02-22 2024-05-14 平安科技(深圳)有限公司 基于答案指导的题目生成方法、装置、设备及存储介质
CN114706983B (zh) * 2022-03-31 2024-04-19 浙江科技学院 一种基于图注意力机制的深度学习问答推理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN110929006A (zh) * 2019-10-29 2020-03-27 中科能效(北京)科技有限公司 一种数据型问答系统
CN111026881A (zh) * 2019-12-11 2020-04-17 中国人民解放军国防科技大学 知识图谱中多跳实体关系预测方法和装置
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10002322B1 (en) * 2017-04-06 2018-06-19 The Boston Consulting Group, Inc. Systems and methods for predicting transactions
CN109918489B (zh) * 2019-02-28 2021-02-02 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN110929006A (zh) * 2019-10-29 2020-03-27 中科能效(北京)科技有限公司 一种数据型问答系统
CN111026881A (zh) * 2019-12-11 2020-04-17 中国人民解放军国防科技大学 知识图谱中多跳实体关系预测方法和装置
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Dynamically Fused Graph Network for Multi-hop Reasoning;Lin Qiu等;《Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics》;20190802;6140-6150 *
Encoder-Decoder Network with Cross-Match Mechanism for Answer Selection;Zhengwen Xie等;《Springer Link》;20191013;69-80 *
Multi-Hop Knowledge Graph Reasoning with Reward Shaping;Xi Victoria Lin等;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181104;3243-3253 *
沈明辉等.基于医学知识图谱的交互式可视化医学知识服务系统.《医学信息学杂志》.2018,第39卷(第9期),45-49. *
面向问答的知识图谱推理技术和合并技术研究;杨元锋;《中国优秀硕士学位论文全文数据库_信息科技辑》;20200215;I138-2354 *

Also Published As

Publication number Publication date
CN111814982A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111814982B (zh) 面向多跳问答的动态推理网络系统及方法
CN109992648B (zh) 基于词迁徙学习的深度文本匹配方法及装置
CN108804689B (zh) 面向问答平台的融合用户隐连接关系的标签推荐方法
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN111415740A (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN111753054B (zh) 一种基于图神经网络的机器阅读推断方法
CN111737426B (zh) 问答模型的训练方法、计算机设备以及可读存储介质
CN111126552B (zh) 一种智能学习内容推送方法及系统
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN112257966A (zh) 模型处理方法、装置、电子设备及存储介质
CN113344053A (zh) 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
Liu et al. Research on online learning resource recommendation method based on wide & deep and elmo model
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
Lauren et al. A low-dimensional vector representation for words using an extreme learning machine
Sprenger Confirmation and induction
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN114490959A (zh) 一种以关键词为驱动的动态图神经网络多跳阅读理解方法
CN113392640A (zh) 一种标题确定方法、装置、设备及存储介质
CN111444338A (zh) 文本处理、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant