CN111814982A - 面向多跳问答的动态推理网络及方法 - Google Patents

面向多跳问答的动态推理网络及方法 Download PDF

Info

Publication number
CN111814982A
CN111814982A CN202010683283.XA CN202010683283A CN111814982A CN 111814982 A CN111814982 A CN 111814982A CN 202010683283 A CN202010683283 A CN 202010683283A CN 111814982 A CN111814982 A CN 111814982A
Authority
CN
China
Prior art keywords
entity
question
paragraph
representation
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010683283.XA
Other languages
English (en)
Other versions
CN111814982B (zh
Inventor
琚生根
李晓辉
陈润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010683283.XA priority Critical patent/CN111814982B/zh
Publication of CN111814982A publication Critical patent/CN111814982A/zh
Application granted granted Critical
Publication of CN111814982B publication Critical patent/CN111814982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种面向多跳问答的动态推理网络与方法,网络包括:段落选择器,接收段落与问题,并在段落中选择与问题的答案相关的子段落;编码模块,使用协同注意力加强问题与子段落的交互,计算得到子段落的最终向量表示、与问题的向量表示;实体图构造模块,用于构造一个实体图;动态推理模块,用于对实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;答案预测模块,与编码模块相连,并与动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测。该网络建立了一种问题重塑机制,该机制可以反复阅读问题以模仿人们的阅读习惯能提高多跳推理问答模型的理解和推理能力。

Description

面向多跳问答的动态推理网络及方法
技术领域
本发明属于机器阅读理解领域,具体涉及一种面向多跳问答的动态推理网络及方法。
背景技术
机器阅读理解是一项通过推理一组文本来获得给定问题的正确答案的任务,而多跳推理问答是机器阅读理解的子任务,该任务旨在跨多个段落查找给定问题的答案;现在大多数多跳推理问答模型通常仅通过访问一次问题来获得答案,因此模型可能无法获得足够的文本信息。
多跳推理问答模型主要有三个研究方向,第一个是基于记忆网络,该记忆网络使用存储单元将问题与在每一轮中获得的信息进行组合,并通过连续的迭代推理在几次推理后预测答案,这些模型基于端到端训练模型,并动态确定推理的轮数,但是,这些模型无法给出清晰的推理过程;第二个方向直接在所有给定段落中通过构建推理链或获取问题和上下文相关的其他信息来找到答案。这些方法由于没有进行段落选择需要处理大量的数据;第三个是基于问题和文档构建实体图,并通过对实体图进行多跳推理获得答案,从而给出清晰的推理过程。
目前为止,上述三种模型取得了一定的成功,但仍然存在一些局限性;首先,大多数现有模型直接在所有给定段落中进行推理,而没有进行段落选择以去除干扰段落,增加了要处理的数据量;其次,现有模型在将每个文本编码为表示向量之后,无论其是问题还是段落,每个文本总是很少被访问。而模型可能无法仅通过访问一次或两次文本来获得足够的信息,这导致文本信息无法充分被利用。
发明内容
有鉴于此,本发明的目的之一在于提供一种面向多跳问答的动态推理网络,能提高多跳推理问答模型的理解和推理能力。
为实现上述目的,本发明的技术方案为:一种面向多跳问答的动态推理网络,包括:
段落选择器,接收段落与问题,并在段落中选择与所述问题的答案相关的子段落,消除干扰信息;
编码模块,与段落选择器相连,使用协同注意力加强所述问题与所述子段落的交互,计算得到所述子段落的最终向量表示、与所述问题的向量表示;
实体图构造模块,与段落选择器相连,用于构造一个实体图,促进所述子段落之间的多跳推理;实体图包括三个级别:基于问题级别、基于上下文级别、基于段落级别,实体图中包括多个实体节点;
动态推理模块,与所述实体图构造模块相连,并与所述段落选择器相连,用于对所述实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;
答案预测模块,与所述编码模块相连,并与所述动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测;四种类型预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
进一步地,所述段落选择器包括带有句子分类层的预训练BERT模型,所述预训练BERT模型用于预测所述问题与段落之间的相似性。
进一步地,所述动态推理模块包括所述问题重塑单元,动态图注意力单元、图神经网络单元;其中,
所述图神经网络单元与所述实体图构造模块相连,用于在实体图的实体节点之间传递实体节点的交互和变化信息;
所述动态图注意力单元与所述图神经网络单元相连,并与所述段落选择器相连,用于在整个实体图上动态传播信息,并计算得到两个实体节点之间的注意力,并更新节点;
所述问题重塑单元,与编码模块相连,并与所述动态图注意力单元相连,用于根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示。
进一步地,所述根据问题与实体图消息选择重要问题部分的选择方法为:
Figure BDA0002585348250000041
Figure BDA0002585348250000042
Figure BDA0002585348250000043
其中,W1,W2,W3是可训练的参数,em∈Rm是1的行向量,m为重复次数;μ是重要问题部分的表示,Qt是当前时刻问题的表示,qt-1是上一时刻选出的重要问题部分的表示,μj是问题中的第j个词的表示,qi表示问题第i个词的表示,k是求和下标,α是注意力,qt′是t时刻选出的重要问题部分的表示。
进一步地,所述答案预测模块包括循环神经网络,用于输出四种类型的预测。
有鉴于此,本发明的目的之二在于提供一种面向多跳问答的动态推理方法,该方法能提高在动态推理过程中的理解和推理能力。
为实现上述目的,本发明的技术方案为:一种面向多跳问答的动态推理方法,包括以下步骤:
(1)接收段落与问题,在段落中选择与所述问题的答案相关的至少一个子段落;
(2)识别问题和各子段落中的命名实体,并基于不同级别建立子段落内部或子段落之间的关系构造实体图,级别包括:基于问题级别、基于上下文级别、基于段落级别;
(3)对实体图进行推理,反复阅读子段落与问题,模仿人分析信息过程;
(4)定义查询类型,输出包含四种类型的预测可能性,四种类型的预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
进一步地,步骤(2)具体包括以下步骤:
识别问题和各子段落中的命名实体和名词短语,将命名实体抽象为对应节点;
基于问题级别构建实体图,当两个命名实体的句子表示都包含来自同一问题的命名实体或名词短语,则在两个命名实体对应的节点之间添加一条边;
基于上下文的级别构建实体图,在同一子段落的两个命名实体的节点之间添加一条边;
基于段落的级别构建实体图,当两个命名实体的句子表示至少包含一个相同的命名实体或名词短语,则在两个命名实体的节点之间添加一条边。
进一步地,所述步骤(3)具体包括以下步骤:
在所述实体图上传递信息,选择与问题相关单词,使信息由问题感知的节点传递:
计算实体图上两个节点之间的注意力:
Figure BDA0002585348250000061
Figure BDA0002585348250000062
Figure BDA0002585348250000063
其中,Ut
Figure BDA0002585348250000064
是可学习的参数,bt是偏置,
Figure BDA0002585348250000065
是第i个与第j个实体t时刻的隐藏层状态,
Figure BDA0002585348250000066
是第i个实体t时刻的隐藏层状态,
Figure BDA0002585348250000067
是t时刻第i个与第j个实体的注意力权重,
Figure BDA0002585348250000068
是第j个实体与其他所有实体t时刻的隐藏层状态;
汇聚一个节点接收到的来自邻居节点的所有信息,并更新问题:
Figure BDA0002585348250000069
Qt=Bi-attention(Qt-1,Et);
其中,Ni为一节点的邻居节点的集合,
Figure BDA00025853482500000610
是t时刻第i个实体节点,
Figure BDA00025853482500000611
是t时刻第i个与第j个节点间的注意力权重,
Figure BDA00025853482500000612
是t时刻第j个节点的隐藏层状态,Bi-attention是双向注意力,Qt-1是t-1时刻的问题表示,Et是t时刻所有实体节点的表示;
根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示:
Figure BDA0002585348250000071
Figure BDA0002585348250000072
Figure BDA0002585348250000073
其中,W1,W2,W3是可训练的参数,em∈Rm是1的行向量。外部乘积
Figure BDA0002585348250000074
表示重复W3qt-1m次,μ是重要问题部分的表示,Qt是当前时刻问题的表示,qt-1是上一时刻选出的重要问题部分的表示,μj是问题中的第j个词的表示,q是问题某个词的表示,α是注意力,qt′是t时刻选出的重要问题部分的表示。
进一步地,所述选择与当前问题更相关的单词的方法为:
qt-1=MeanPooling(Qt-1);
Figure BDA0002585348250000075
mt=σ(γ1,γ2,...,γn)+1;
Figure BDA0002585348250000076
其中,
Figure BDA0002585348250000077
是第i个问题实体的线性投影矩阵,σ是sigmoid函数,
Figure BDA0002585348250000078
是第i个问题实体的关联程度,mt是问题实体的关联程度,γ1是问题实体的关联程度,
Figure BDA0002585348250000079
是第i个问题实体的关联程度的另一表示,
Figure BDA00025853482500000710
是t-1时刻第i个实体,ei是过滤出的与第i个问题更相关的实体。
进一步地,使用二进制分类器来预测当前语句为支持语句的概率。
本发明提供面向多跳问答的动态推理网络和方法,可通过多段之间的多跳推理来获得正确答案,并建立了一种问题重塑机制,该机制可以反复阅读问题以模仿人们的阅读习惯,此外本发明的网络对具有图注意力和问题重塑机制的实体图进行动态推理,能提高该网络的理解和推理能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一种面向多跳问答的动态推理网络的结构示意图;
图2为本发明答案预测模块结构示意图;
图3为本发明一种面向多跳问答的动态推理方法的流程示意图;
图4为本发明一实施例中的实体图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
所举实施例是为了更好地对本发明进行说明,但并不是本发明的内容仅局限于所举实施例。所以熟悉本领域的技术人员根据上述发明内容对实施方案进行非本质的改进和调整,仍属于本发明的保护范围。
实施例1
参考图1,为本发明一种面向多跳问答的动态推理网络的结构示意图,具体地,一种面向多跳问答的动态推理网络包括:
段落选择器1,接收段落与问题,并在段落中选择与问题的答案相关的子段落,消除干扰信息;
本实施例中,段落选择器1包括带有句子分类层的预训练BERT模型,预训练BERT模型用于预测问题与段落之间的相似性,段落选择器1通过连接“[CLS]”+问题+“[SEP]”+文档+“[SEP]”作为问题和段落的输入,并输出0到1之间的匹配分数。段落选择遵循以下规则:如果段落包含答案,则标签为2;如果段落包含至少一个支持语句,则标签为1,否则为0;匹配分数大于阈值n(n值可以预先设定,如n=0.1)的段落被选择为下游任务的段落。
编码模块2,与段落选择器1相连,使用协同注意力加强问题与子段落的交互,计算得到子段落的最终向量表示、与问题的向量表示;
本实施例中,使用协同注意力来加强问题Q和段落P之间的交互,并计算一注意矩阵A∈Rm×n,捕获段落和问题之间的相似性。
实体图构造模块3,与段落选择器1相连,用于构造一个实体图,促进子段落之间的多跳推理;实体图包括三个级别:基于问题级别、基于上下文级别、基于段落级别,实体图中包括多个实体节点;
具体地,本实施例中通过构造一个实体图以促进段落之间的多跳推理,先使用Stanford corenlp工具包(斯坦福大学开发的自然语言处理工具套件)识别问题和段落中的命名实体和名词短语,实体图根据以下规则从三个级别构建:基于问题的级别,如果两个节点的句子表示都包含来自同一问题的命名实体或名词短语,则在两个节点之间添加一条边,从而掌握查询和段落之间的相互作用;基于上下文的级别,在同一段落的两个节点之间添加一条边,获得段落内部的联系;基于段落的级别,如果两个节点的句子表示至少包含一个相同的命名实体或名词短语,则在两个节点之间添加一条边,从而在不同段落之间建立关系。
动态推理模块4,与实体图构造模块3相连,并与段落选择器相连,用于对实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;
本实施例中的动态推理模块4包括问题重塑单元43,动态图注意力单元42、图神经网络单元43;其中,
图神经网络单元41与实体图构造模块3相连,用于在实体图的实体节点之间传递实体节点的交互和变化信息;
动态图注意力单元42与图神经网络单元41相连,并与段落选择器1相连,用于在整个实体图上动态传播信息,并计算得到两个实体节点之间的注意力,并更新节点;
问题重塑单元43,与编码模块2相连,并与动态图注意力单元42相连,用于根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示。
进一步地,本实施例中的问题重塑单元43根据问题与实体图消息选择重要问题部分的选择方法为:
Figure BDA0002585348250000111
Figure BDA0002585348250000112
Figure BDA0002585348250000113
其中,W1,W2,W3是可训练的参数,em∈Rm是1的行向量,m为重复次数,μ是重要问题部分的表示,Qt是当前时刻问题的表示,qt-1是上一时刻选出的重要问题部分的表示,μj是问题中的第j个词的表示,q是问题某个词的表示,k是第k次重复,α是注意力,qi表示问题第i个词的表示,qt′是t时刻选出的重要问题部分的表示。
答案预测模块5,与编码模块相连,并与动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测;四种类型预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
本实施例中的答案预测模块5可参考图2,其包括循环神经网络GRU,根据图2,输入从图中下方进入,经过GRU输出支持句子预测,接着支持句子预测与答案预测模块5的输入拼接形成新的数据进入另一GRU得到的数据再次与形成的新数据拼接经线性网络得到开始标记预测;以相同的方法得到结束标记预测;特别地,问题类型预测的得到仅经过一个GRU与线性网络,且在经过线性网络之前不与该GRU的输入拼接。
实施例2
参考图3为本发明一种面向多跳问答的动态推理方法的流程示意图,具体地,一种面向多跳问答的动态推理方法,包括以下步骤:
S600:接收段落与问题,在段落中选择与问题的答案相关的至少一个子段落;然后执行步骤S700;
在本实施例中,在接收需要进行推理的段落与问题过后,实施例1中的段落选择器1会选择段落中与问题的答案相关的段落设为子段落,以此来消除干扰信息,并将问题与得到的子段落进行编码,具体地,问题设为Q=[q1,q2,...,qm]∈Rm×h,子段落设为P=[p1,p2,...,pn]∈Rn×h,m和n分别是问题和段落的长度,h是隐藏状态的大小,然后我们使用协同注意力来加强问题Q和段落P之间的交互,使用编码模块2中的注意矩阵A∈Rm×n,捕获段落和问题之间的相似性:
A=QpT
然后,计算通过子段落感知的问题的表示形式Qp∈Rm×h
Qp=softmax(A)P;
载用同样的方法得到一个问题感知的子段落表示形式Qp∈Rm×h,接着计算了另一种段落表示形式,用于捕获段落感知的问题和子段落之间的交互,它着重于问题中与子段落相关的词和子段落之间的联系。段落的最终表示为Pfinal=[P,P′]∈Rn×2h,其中“,”表示将这两个向量连接起来:
Pq=softmax(AT)Q;
P′=softmax(AT)Qp
其中,Pq是问题感知的段落,AT是注意力矩阵,P′是重要问题词感知的段落。
S700:识别问题和各子段落中的命名实体,并基于不同级别建立子段落内部或子段落之间的关系构造实体图,并根据实体图的不同级别建立子段落内部或子段落之间的关系;然后执行步骤S800;
本实施例中的级别包括:基于问题级别、基于上下文级别、基于段落级别;
具体地,使用Stanford corenlp工具包(斯坦福大学开发的自然语言处理工具套件)识别问题和各子段落中的命名实体和名词短语,,将命名实体抽象为对应节点;
基于问题级别构建实体图,当两个节点的句子表示(句子的向量表示)都包含来自同一问题的命名实体或名词短语,则在两个节点之间添加一条边,代表查询和段落之间的相互作用;
基于上下文的级别构建实体图,在同一子段落的两个节点之间添加一条边,代表段落内部的联系;
基于段落的级别构建实体图,当两个节点的句子表示至少包含一个相同的命名实体或名词短语,则在两个节点之间添加一条边,表示在不同段落之间建立关系,本实施例中,抽象实体节点为小圆点,通过不同级别建立子段落内部或子段落之间的关系即在基于级别用线变连接节点,最终构成实体图,如图4,为本发明中一实施例的实体图。
S800:对实体图进行推理,反复阅读子段落与问题,模仿人分析信息过程;然后执行步骤S900;
本实施例中,先通过动态图注意力单元42在实体图上传递信息,该处的信息为文本信息,节点的交互和变化信息,构造实体过滤器以选择与当前问题更相关的单词,使信息由问题感知的节点传递,具体方法为:
qt-1=MeanPooling(Qt-1);
Figure BDA0002585348250000141
mt=σ(γ1,γ2,...,γn)+1;
Figure BDA0002585348250000142
其中,
Figure BDA0002585348250000143
是第i个问题实体的线性投影矩阵,σ是sigmoid函数,
Figure BDA0002585348250000144
是第i个问题实体的关联程度,mt是问题实体的关联程度,γ1是问题实体的关联程度,
Figure BDA0002585348250000145
是第i个问题实体的关联程度的另一表示,
Figure BDA0002585348250000146
是t-1时刻第i个实体,ei是过滤出的与第i个问题更相关的实体。
在得到更相关问题后,问题重塑单元43会计算实体图上两个节点之间的注意力:
Figure BDA0002585348250000151
Figure BDA0002585348250000152
Figure BDA0002585348250000153
其中,Ut是可学习的参数,d表示将传递到实体图中每个邻居节点的信息的比例,bt是偏置,
Figure BDA0002585348250000154
是第个i实体与第j个实体t时刻的隐藏层状态,
Figure BDA0002585348250000155
是可学习参数,
Figure BDA0002585348250000156
是第i个实体t时刻的隐藏层状态,
Figure BDA0002585348250000157
是t时刻第个i实体与第j个实体的注意力权重,
Figure BDA0002585348250000158
是第j个实体与其他所有实体t时刻的隐藏层状态;
汇聚一个节点接收到的来自邻居节点的所有信息,并更新问题:
Figure BDA0002585348250000159
Qt=Bi-attention(Qt-1,Et);
其中,Ni为一节点的邻居节点的集合,ReLU是ReLU函数,
Figure BDA00025853482500001510
是t时刻第i个实体节点,
Figure BDA00025853482500001511
是t时刻第i个实体与第j个实体节点间的注意力权重,
Figure BDA00025853482500001512
是t时刻第j个节点的隐藏层状态,Bi-attention是双向注意力,Qt-1是t-1时刻的问题表示,Et是t时刻所有实体节点的表示;
接着,根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示(该重要问题表示即是输出到答案预测模块的数据):
Figure BDA0002585348250000161
Figure BDA0002585348250000162
Figure BDA0002585348250000163
其中,W1,W2,W3是可训练的参数,em∈Rm是1的行向量,外部乘积
Figure BDA0002585348250000164
表示重复W3qt-1m次,μ是重要问题部分的表示,Qt是当前时刻问题的表示,qt-1是上一时刻选出的重要问题部分的表示,μj是问题中的第j个词的表示,k是第k次重复,qi表示问题第i个词的表示,α是注意力,qt′是t时刻选出的重要问题部分的表示。
我们使用GRU通过结合其上下文对所选部分进行编码,并每次获得一个表示。重新访问该问题N次后,我们获得了经过重塑的问题表示形式,该表示形式将被发送到下一个推理步骤:
qt=GRU(qt-1,qt′);
Q′t=[q1,q2,...,qN];
其中,q′t是t时刻选出的重要问题部分的表示,qt是t时刻的问题词表示,Q′t是t时刻的问题表示,qN是问题重塑N次t时刻的问题表示,N是问题重塑的次数。
S900:定义查询类型,输出包含四种类型的预测可能性。
本实施例中的四种类型的预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型;
本实施例中,使用二进制分类器来预测当前语句为支持语句的概率,在答案预测模块5中定义查询类型定义为“span”,“yes”和“no”,GRU用于输出以下四种类型的可能性:
Psup=GRU(Ct);
Pstart=GRU([Ct,Psup]);
Pend=GRU([Ct,Psup,Pstart]);
Ptype=GRU([Ct,Psup,Pstart,Pend]);
其中,Psup是支持语句的可能性,Pstart是答案的开始标记的可能性,Pend是答案的结束标记的可能性,Ptype是答案类型的可能性,Ct是段落中的每一个句子的嵌入式表示。
优选地,本实施例中的损失函数为:
L=η1BCE(Psup,P′sup)+CE(Pstart,P′start)+CE(Pend,P′end)+η2CE(Ptype,P′type);
其中,η1、η1是权重,用于控制不同损失函数的影响,BCE表示二进制交叉熵损失函数,CE表示交叉熵损失函数,损失函数在多任务学习设置中共同优化。
实施例3
本实施例中,对实施例1的系统和实施例2的方法的有效性进行验证,具体地,本实施例在HotpotQA数据集(用于跨多个段落的多跳推理的最新基准数据集)TriviaQA数据集(基于信息检索(IR)构建的基准数据集)上评估本发明的推理网络,并用相同的参数数据对比其他模型的结果,
本实施例中,采用baseline(2018年Yang,Zhilin,et al.提出hotpot qa数据集时使用的模型)、GRN(2019年Hotpot qa数据集leaderboard上一个排名尚可但未发布论文的模型)、QFE(2019年Nishida,Kosuke,et al.提出的模型)、DFGN(2019年Xiao,Yunxuan,etal.提出的模型)4种模型与本发明系统做比较,并使用EM、F1作为衡量指标,EM是完全匹配值,F1是F1分数。
最终得到的结果参考下表1与表2:
表格1 HotpotQA数据集对比结果
Figure BDA0002585348250000181
表格2 TriviaQA数据集对比结果
模型 EM F1
Baseline 44.94 46.85
QFE 55.14 56.26
DFGN 56.50 59.13
本发明网络 59.73 62.21
表1中,Sup fact是段落中支持问题回答的证据,根据表1与表2,与其他基准模型相比,本发明的网络在两种数据集中的F1均高于其他模型,除QFE模型的EM以外,本发明的网络获得的指标数也较其他模型好,即本发明网络中的动态推理模型反复利用注意力机制来模拟人们的阅读习惯,能尽可能地理解文本信息,提高抽取效果。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种面向多跳问答的动态推理网络,其特征在于,包括:
段落选择器,接收段落与问题,并在段落中选择与所述问题的答案相关的子段落,消除干扰信息;
编码模块,与段落选择器相连,使用协同注意力加强所述问题与所述子段落的交互,计算得到所述子段落的最终向量表示、与所述问题的向量表示;
实体图构造模块,与段落选择器相连,用于构造一个实体图,促进所述子段落之间的多跳推理;实体图包括三个级别:基于问题级别、基于上下文级别、基于段落级别,实体图中包括多个实体节点;
动态推理模块,与所述实体图构造模块相连,并与所述段落选择器相连,用于对所述实体图进行推理,反复阅读文本模仿人分析信息的过程,并构造问题重塑机制,以重复读取问题及其相关重要部分;
答案预测模块,与所述编码模块相连,并与所述动态推理模块相连,用于接收子段落的最终向量表示,并输出得到四种类型的预测;四种类型预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
2.根据权利要求1所述的面向多跳问答的动态推理网络,其特征在于,所述段落选择器包括带有句子分类层的预训练BERT模型,所述预训练BERT模型用于预测所述问题与段落之间的相似性。
3.根据权利要求2所述的面向多跳问答的动态推理网络,其特征在于,所述动态推理模块包括所述问题重塑单元,动态图注意力单元、图神经网络单元;其中,
所述图神经网络单元与所述实体图构造模块相连,用于在实体图的实体节点之间传递所述实体节点的交互和变化信息;
所述动态图注意力单元与所述图神经网络单元相连,并与所述段落选择器相连,用于在整个实体图上动态传播信息,并计算得到两个实体节点之间的注意力,并更新节点;
所述问题重塑单元,与编码模块相连,并与所述动态图注意力单元相连,用于根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示。
4.根据权利要求3所述的面向多跳问答的动态推理网络,其特征在于,所述根据问题与实体图消息选择重要问题部分的选择方法为:
Figure FDA0002585348240000021
Figure FDA0002585348240000022
Figure FDA0002585348240000023
其中,W1,W2,W3是可训练的参数,em∈Rm是1的行向量,m为重复次数,μ是重要问题部分的表示,Qt是当前时刻问题的表示,qt-1是上一时刻选出的重要问题部分的表示,μj是问题中的第j个词的表示,ql表示问题第i个词的表示,k是第k次重复,α是注意力,qt′是t时刻选出的重要问题部分的表示。
5.根据权利要求4所述的面向多跳问答的动态推理网络,其特征在于,所述答案预测模块包括循环神经网络,用于输出四种类型的预测。
6.一种面向多跳问答的动态推理方法,其特征在于,包括以下步骤:
(1)接收段落与问题,在段落中选择与所述问题的答案相关的至少一个子段落;
(2)识别问题和各子段落中的命名实体,并基于不同级别建立子段落内部或子段落之间的关系构造实体图,级别包括:基于问题级别、基于上下文级别、基于段落级别;
(3)对实体图进行推理,反复阅读子段落与问题,模仿人分析信息过程;
(4)定义查询类型,输出包含四种类型的预测可能性,四种类型的预测包括:支持语句,答案的开始标记,答案的结束标记,答案类型。
7.根据权利要求6所述的面向多跳问答的动态推理方法,其特征在于,步骤(2)具体包括以下步骤:
识别问题和各子段落中的命名实体和名词短语,将命名实体抽象为对应节点;
基于问题级别构建实体图,当两个命名实体的句子表示都包含来自同一问题的命名实体或名词短语,则在两个命名实体对应的节点之间添加一条边;
基于上下文的级别构建实体图,在同一子段落的两个命名实体的节点之间添加一条边;
基于段落的级别构建实体图,当两个命名实体的句子表示至少包含一个相同的命名实体或名词短语,则在两个命名实体的节点之间添加一条边。
8.根据权利要求7所述的面向多跳问答的动态推理方法,其特征在于,所述步骤(3)具体包括以下步骤:
在所述实体图上传递信息,选择与问题相关单词,使信息由问题感知的节点传递:
计算实体图上两个节点之间的注意力:
Figure FDA0002585348240000041
Figure FDA0002585348240000042
Figure FDA0002585348240000043
其中,Ut
Figure FDA00025853482400000412
是可学习的参数,bt是偏置,
Figure FDA0002585348240000044
是t时刻第个i实体与第j个实体的隐藏层状态,
Figure FDA0002585348240000045
是第i个实体t时刻的隐藏层状态,
Figure FDA0002585348240000046
是t时刻第i个实体与第j个实体的注意力权重,
Figure FDA0002585348240000047
是第j个实体与其他所有实体t时刻的隐藏层状态;
汇聚一个节点接收到的来自邻居节点的所有信息,并更新问题:
Figure FDA0002585348240000048
Qt=Bi-attention(Qt-1,Et);
其中,Ni为一节点的邻居节点的集合,
Figure FDA0002585348240000049
是t时刻第i个实体节点,
Figure FDA00025853482400000410
是t时刻第i个与第j个节点间的注意力权重,
Figure FDA00025853482400000411
是t时刻第j个节点的隐藏层状态,Bi-attention是双向注意力,Qt-1是t-1时刻的问题表示,Et是t时刻所有实体节点的表示;
根据问题与实体图消息选择重要问题部分,并对该重要部分进行多次计算使其权重增大,并对重要问题部分进行编码,获得重塑重要问题表示:
Figure FDA0002585348240000051
Figure FDA0002585348240000052
Figure FDA0002585348240000053
其中,W1,W2,W3是可训练的参数,em∈Rm是1的行向量,外部乘积
Figure FDA0002585348240000054
表示重复W3qt-1 m次,μ是重要问题部分的表示,Qt是当前时刻问题的表示,qt-1是上一时刻选出的重要问题部分的表示,μj是问题中的第j个词的表示,ql表示问题第i个词的表示,qt′是t时刻选出的重要问题部分的表示。
9.根据权利要求8所述的面向多跳问答的动态推理方法,其特征在于,所述选择与当前问题更相关的单词的方法为:
qt-1=MeenPooling(Qt-1);
Figure FDA0002585348240000055
mt=σ(γ1,γ2,...,γn)+1;
Figure FDA0002585348240000056
其中,
Figure FDA0002585348240000061
是第i个问题实体的线性投影矩阵,σ是sigmoid函数,
Figure FDA0002585348240000062
是第i个问题实体的关联程度,mt是问题实体的关联程度,γ1是问题实体的关联程度,
Figure FDA0002585348240000063
是第i个问题实体的关联程度的另一表示,
Figure FDA0002585348240000064
是t-1时刻第i个实体,ei是过滤出的与问题更相关的第i个实体。
10.根据权利要求9所述的面向多跳问答的动态推理方法,其特征在于,使用二进制分类器来预测当前语句为支持语句的概率。
CN202010683283.XA 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法 Active CN111814982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010683283.XA CN111814982B (zh) 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010683283.XA CN111814982B (zh) 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法

Publications (2)

Publication Number Publication Date
CN111814982A true CN111814982A (zh) 2020-10-23
CN111814982B CN111814982B (zh) 2021-03-16

Family

ID=72866343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010683283.XA Active CN111814982B (zh) 2020-07-15 2020-07-15 面向多跳问答的动态推理网络系统及方法

Country Status (1)

Country Link
CN (1) CN111814982B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131370A (zh) * 2020-11-23 2020-12-25 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN112732879A (zh) * 2020-12-23 2021-04-30 重庆理工大学 一种问答任务的下游任务处理方法及模型
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
CN113535904A (zh) * 2021-07-23 2021-10-22 重庆邮电大学 一种基于图神经网络的方面级情感分析方法
CN113779220A (zh) * 2021-09-13 2021-12-10 内蒙古工业大学 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN114490959A (zh) * 2021-07-18 2022-05-13 北京理工大学 一种以关键词为驱动的动态图神经网络多跳阅读理解方法
CN114706983A (zh) * 2022-03-31 2022-07-05 浙江科技学院 一种基于图注意力机制的深度学习问答推理方法及装置
WO2023274187A1 (zh) * 2021-07-01 2023-01-05 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
WO2023159753A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 基于答案指导的题目生成方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180293497A1 (en) * 2017-04-06 2018-10-11 The Boston Consulting Group, Inc. Systems and Methods for Learning and Predicting Transactions
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN110929006A (zh) * 2019-10-29 2020-03-27 中科能效(北京)科技有限公司 一种数据型问答系统
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111026881A (zh) * 2019-12-11 2020-04-17 中国人民解放军国防科技大学 知识图谱中多跳实体关系预测方法和装置
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180293497A1 (en) * 2017-04-06 2018-10-11 The Boston Consulting Group, Inc. Systems and Methods for Learning and Predicting Transactions
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109902183A (zh) * 2019-02-13 2019-06-18 北京航空航天大学 一种基于多样图注意力机制的知识图谱嵌入方法
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN110110043A (zh) * 2019-04-11 2019-08-09 中山大学 一种多跳视觉问题推理模型及其推理方法
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN110929006A (zh) * 2019-10-29 2020-03-27 中科能效(北京)科技有限公司 一种数据型问答系统
CN111026875A (zh) * 2019-11-26 2020-04-17 中国人民大学 一种基于实体描述和关系路径的知识图谱补全方法
CN111026881A (zh) * 2019-12-11 2020-04-17 中国人民解放军国防科技大学 知识图谱中多跳实体关系预测方法和装置
CN111274800A (zh) * 2020-01-19 2020-06-12 浙江大学 基于关系图卷积网络的推理型阅读理解方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIN QIU等: "Dynamically Fused Graph Network for Multi-hop Reasoning", 《PROCEEDINGS OF THE 57TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
XI VICTORIA LIN等: "Multi-Hop Knowledge Graph Reasoning with Reward Shaping", 《PROCEEDINGS OF THE 2018 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
ZHENGWEN XIE等: "Encoder-Decoder Network with Cross-Match Mechanism for Answer Selection", 《SPRINGER LINK》 *
杨元锋: "面向问答的知识图谱推理技术和合并技术研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》 *
沈明辉等: "基于医学知识图谱的交互式可视化医学知识服务系统", 《医学信息学杂志》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131370A (zh) * 2020-11-23 2020-12-25 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112131370B (zh) * 2020-11-23 2021-03-12 四川大学 问答模型构建方法及系统、问答方法及装置、审判系统
CN112732879A (zh) * 2020-12-23 2021-04-30 重庆理工大学 一种问答任务的下游任务处理方法及模型
CN112732888A (zh) * 2021-04-01 2021-04-30 中国人民解放军国防科技大学 一种基于图推理模型的答案预测方法及装置
CN113361261A (zh) * 2021-05-19 2021-09-07 重庆邮电大学 一种基于enhance matrix的法律案件候选段落的选取方法及装置
WO2023274187A1 (zh) * 2021-07-01 2023-01-05 北京有竹居网络技术有限公司 基于自然语言推理的信息处理方法、装置和电子设备
CN114490959A (zh) * 2021-07-18 2022-05-13 北京理工大学 一种以关键词为驱动的动态图神经网络多跳阅读理解方法
CN113535904A (zh) * 2021-07-23 2021-10-22 重庆邮电大学 一种基于图神经网络的方面级情感分析方法
CN113779220A (zh) * 2021-09-13 2021-12-10 内蒙古工业大学 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
WO2023159753A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 基于答案指导的题目生成方法、装置、设备及存储介质
CN114706983A (zh) * 2022-03-31 2022-07-05 浙江科技学院 一种基于图注意力机制的深度学习问答推理方法及装置
CN114706983B (zh) * 2022-03-31 2024-04-19 浙江科技学院 一种基于图注意力机制的深度学习问答推理方法及装置

Also Published As

Publication number Publication date
CN111814982B (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN111814982B (zh) 面向多跳问答的动态推理网络系统及方法
CN109992648B (zh) 基于词迁徙学习的深度文本匹配方法及装置
CN108804689B (zh) 面向问答平台的融合用户隐连接关系的标签推荐方法
CN108021616B (zh) 一种基于循环神经网络的社区问答专家推荐方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN109614471B (zh) 一种基于生成式对抗网络的开放式问题自动生成方法
CN111415740A (zh) 问诊信息的处理方法、装置、存储介质及计算机设备
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN113344053A (zh) 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN112818106A (zh) 一种生成式问答的评价方法
CN117236410B (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN115545160B (zh) 一种多学习行为协同的知识追踪方法及系统
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN112380835A (zh) 融合实体和句子推理信息的问题答案提取方法及电子装置
CN110704510A (zh) 一种结合用户画像的题目推荐方法及系统
CN118261163B (zh) 基于transformer结构的智能评价报告生成方法及系统
CN113836269A (zh) 一种基于问答式系统的篇章级核心事件抽取方法
CN113392640A (zh) 一种标题确定方法、装置、设备及存储介质
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
Yang et al. [Retracted] Research on Students’ Adaptive Learning System Based on Deep Learning Model
CN117453898B (zh) 基于思维链的跨模态问答的处理方法和装置
CN114490959A (zh) 一种以关键词为驱动的动态图神经网络多跳阅读理解方法
CN117473951A (zh) 文本处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant