CN115640410B

CN115640410B - 基于强化学习路径推理的知识图谱多跳问答方法

Info

Publication number: CN115640410B
Application number: CN202211553402.5A
Authority: CN
Inventors: 李博涵; 向宇轩; 吴佳骏; 戴天伦; 魏金占; 施睿; 许怡
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-14
Anticipated expiration: 2042-12-06
Also published as: CN115640410A

Abstract

本发明属于知识图谱问答技术领域，公开了一种基于强化学习路径推理的知识图谱多跳问答方法。该方法通过细粒度的语义特征提取发现问题与关系标签间的语义关联，对强化学习进行三重奖励塑造策略，利用强化学习策略网络模型的奖励反馈消除弱监督环境与虚假路径带来的影响，此外，本发明提出了一种利用重排序方法聚合语义关联度进行实体消歧，以及利用强化学习推理路径生成优化可解释性的知识图谱多跳问答方法。对比传统基于深度学习和强化学习的知识图谱多跳问答方法，本发明方法能够更有效的发现推理路径的语义逻辑性，进一步增强中间监督信号，从而对噪音具有更强的抗干扰性，并具有一定的可解释性。

Description

基于强化学习路径推理的知识图谱多跳问答方法

技术领域

本发明属于知识图谱问答技术领域，特别涉及一种基于强化学习路径推理的知识图谱多跳问答方法。

背景技术

近年来，随着语义网络和人工智能技术的发展，海量的结构和非结构化的文本数据通过知识工程以知识图谱的方式进行表示，成为了结构化的知识。知识图谱问答一直是自然语言处理领域的一个重要问题，该任务旨在自动为人们提供他们需要的信息。随着人工智能的广泛应用，人们对问答系统的准确性和可解释性提出了更高的要求。因此，如何引入知识构建质量保证体系受到了广泛的关注。通过大规模知识图谱的创建，问答系统能够在特定领域和开放领域上配置结构良好的知识。知识图谱问答的目标是基于自然语言从知识图谱中找到答案，知识图谱是一个包含多个三元组的多关系图，而答案通常对应于知识图谱中的实体。

基于知识图谱的问答研究方法主要分为两类：一类是基于语义解析的方法，另一类是基于信息检索的方法。过去几年，知识图谱问答主要通过语义解析将问题从自然语言形式转换为逻辑形式来解决问题。在转换为逻辑形式之后，可以通过特定的逻辑语言，例如SPARQL查询知识库。然而，基于语义解析的方法严重依赖于合适且准确的语义解析器，这需要大量的手工构建模板并且对问题的句式有很大的限制。基于信息检索的方法建议提取问题中的实体。这些方法不需要手工制定规则，因此能够更好地扩展到大型复杂的知识库。通过查询知识库中的实体，将生成以实体节点为中心的知识库子图。通常与知识库子图中的实体相距一跳或两跳的每个节点都可以用作候选答案。

目前大部分智能问答系统只考虑了包含单个实体的简单问题，即知识图谱单跳问答。而现实生活中存在许多复杂问题，句式中可能包含多个实体、多种关系，复杂问题的答案在知识图谱中往往距离中心实体超过二跳，需要通过多个事实三元组获取答案，其中任何一个三元组的丢失都会造成错误的结果。先前的方法每增加一跳距离，候选实体的数量和计算复杂度都会指数倍增长，涉及更多关系和主题的复杂问题会极大地增加解析可能的搜索空间，从而降低解析效率。同时，为复杂问题标注通向答案的基本事实路径的成本很高，通常只提供问答对。这表明基于语义解析的方法和基于信息检索的方法必须分别在没有正确逻辑形式和推理路径注释的情况下进行训练，如此微弱的监督信号给这两种方式都带来了困难。

随着深度学习的快速发展，在基于信息检索的方法中基于嵌入的方法不断被提出，此类深度学习的方法是使用神经网络模型将问题和候选答案分别映射到低维空间，得到它们的分布表达式，然后相互匹配进行候选排序，使低维空间中问题向量与其对应的正确答案向量的相关性得分尽可能高。然而，此种深度学习的方法虽然能够取得较好的准确率，但是该深度学习方法具有解释性差的缺点，在多跳推理中无法给出可解释的推理路径。

现有的知识图谱多跳问答主要以两类方法进行推理：基于嵌入的方法和基于路径的方法。基于嵌入的多跳问答方法是将问题和答案在低维向量空间中转换为语义向量表示进行运算。为了充分利用知识图谱的信息，需要应用嵌入的算法将知识图谱中的实体和关系映射到低维的向量空间中，然而这种方式并不具备可解释性，并且易受虚假路径的干扰，如图1所示。图1的问题为：电影《兄弟连》所属国家的官方语言是什么；答案为：英语。从图1能够看到有三条推理路径，两条为虚假推理路径，一条为真实推理路径。虚假推理路径与真实推理路径一样能到达正确的实体节点，然而虚假推理路径中的推理过程是不符合语义的，因此训练过程中混淆虚假推理路径与真实推理路径将带来反向的训练效果。基于路径的多跳知识图谱问答方法是将问题中的主题实体作为源实体，然后通过知识图谱中的三元组的搜索答案实体。大部分基于路径的方法使用强化学习，由于数据标注的高昂代价，问答训练数据集中仅有答案实体节点而缺乏中间监督信号，因此对强化学习的方法造成了奖励稀疏和奖励反馈延迟的问题。因此改进弱监督环境下的知识图谱多跳复杂问答是非常有意义且值得研究的方向。

发明内容

本发明的目的在于提出一种基于强化学习路径推理的知识图谱多跳问答方法，通过对关系边语义信息的进一步利用，设计了以语义奖励为主的三重奖励机制，避免了虚假路径带来的干扰，增强了弱监督环境下强化学习过程中的奖励反馈，通过推理路径生成的方式增强了知识图谱多跳问答的可解释性和可扩展性，提高了知识图谱多跳问答方法的准确率。

本发明为了实现上述目的，采用如下技术方案：

一种基于强化学习路径推理的知识图谱多跳问答方法，其通过多个事实三元组寻找答案实体。其中，本发明方法对多跳复杂问答中的问题和关系分别进行特征提取，并通过关系重排序算法进行细粒度的实体消歧，以获取准确的中心主题实体；考虑多跳问答训练数据集缺乏数据标注产生的中间监督信号缺失的弱监督问题，本发明采用语义、效率和全局三重奖励塑造机制辅助智能体逐步进行推理路径选择，进一步缓解了以往强化学习方法中奖励稀疏与反馈延迟的问题；对比传统的基于深度学习的知识图谱问答方法，本发明利用强化学习能够提高问答的准确率并将推理路径作为问答依据来增强可解释性。

本发明具有如下优点：

1. 本发明利用基于语义解析的深度神经网络，构建了用于主题实体消歧的重排序方法，根据候选关系标签与问题文本的语义相似性，计算其语义得分，选择得到正确的主题实体以及其最符合问题语义的关系边，从而达到准确寻找推理路径起点的目的。

2. 本发明方法通过构建强化学习的奖励塑造策略，加强对分步路径选择的奖励反馈能力，增强训练数据的中间监督信号，从而达到逐步验证推理合理性的效果，消除虚假路径带来的干扰，准确生成一条由中心主题实体节点通往答案节点的推理路径，并由此作为知识图谱多跳问答的回答依据，增强了可解释性。

3. 本发明通过双向深度神经网络动态聚合历史轨迹信息和当前观测环境信息，通过自注意力机制计算候选动作被选择的概率，并依靠贪心策略ϵ保持探索新路径与选择当前概率最优路径的动态平衡，以此期望获得最大收益，提升方法的准确性、鲁棒性以及可扩展性。

附图说明

图1为现有知识图谱多跳问答方法容易受到虚假路径干扰的情况示意图；

图2为本发明实施例中基于强化学习路径推理的知识图谱多跳问答方法的流程图；

图3为本发明实施例中基于强化学习路径推理的知识图谱多跳问答方法的框架图；

图4为本发明在重排序实体消歧中双向循环神经网络对问题或关系嵌入的转换示意图；

图5为本发明中强化学习部分各要素与智能体之间的交互流程图；

图6为本发明实施例中强化学习策略网络注意力机制的原理框图；

图7为本发明在MetaQA数据集六个版本上与现有方法的Hits@1效果对比图；

图8为本发明在WebQuestionsSP数据集上与现有方法的Hits@1和F1得分的效果对比图。

具体实施方式

本实施例述及了一种基于强化学习路径推理的知识图谱多跳问答方法，该知识图谱多跳问答方法主要包括如下步骤：1. 使用双向循环神经网络捕获输入的上下文信息，提取问题与关系的语义特征；2. 设计重排序方法对实体链接得分重新排序，消除复杂问题中多实体的干扰；3. 塑造三重奖励机制，缓解强化学习过程中奖励稀疏和反馈延迟的问题；4. 建立基于自注意力的感知器作为策略网络，学习参数化的策略序列并得到候选概率分布。

下面结合附图以及具体实施方式对本发明作进一步详细说明：

如图2所示，基于强化学习路径推理的知识图谱多跳问答方法，包括如下步骤：

步骤1. 首先将输入的问题以及候选关系通过预训练模型，分别得到问题以及候选关系的嵌入表示；然后利用双向长短时记忆网络和最大池化层分别对问题以及候选关系的嵌入表示进行编码和特征提取，得到问题以及候选关系的向量表示。

其中，候选关系是指问题中主题实体对应知识图谱中节点周围一跳范围内的实体节点。

该步骤1具体为：

步骤1.1. 获取问题的向量表示的过程如下：

首先将每个问题Q=(q ₁,q ₂,…,q _n)分解成单词序列，q _i表示单词，i∈[1,n]。

然后将每个单词q _i通过Word2Vec转换为该单词q _i的词嵌入，并使用双向长短时记忆网络来捕获上下文以获得更精确的语义，如图3所示，具体过程如下：

首先给出每个单词q _i的左上文表示和右下文密集向量表示，如图4所示。

l _c(q _i)=f(W ^(l))l _c(q _i-1)+W ^(sl) e(q _i-1)。

r _c(q _i)=f(W ^(r))r _c(q _i+1)+W ^(sr) e(q _i+1)。

其中，l _c(q _i)和r _c(q _i)分别表示单词q _i用于捕获语义的左上文以及右下文密集向量。

f(·)是非线性激活函数。

W ^(l)、W ^(r)分别是双向长短时记忆网络中上文转换到下一个隐藏层的矩阵和下文转换到上一个隐藏层的矩阵；W ^(sl)、W ^(sr)表示分别用于融合单词左侧上文和右侧下文语义的矩阵。

l _c(q _i-1) 是单词q _i-1用于捕获语义的左上文密集向量，r _c(q _i+1) 是单词q _i+1用于捕获语义得到的右下文密集向量，e(q _i-1)、e(q _i+1)分别表示单词q _i-1、q _i+1的嵌入表示。

然后定义单词q _i的一种新的语义特征表示为x _i ^q，该语义特征表示x _i ^q由以下三部分组成：

x _i ^q=[l _c(q _i); e(q _i);r _c(q _i)]。

其中，e(q _i)表示单词q _i的嵌入表示。

将该语义特征表示x _i ^q输入激活函数tanh，得到新的表示形式y _i ^q为：

y _i ^q=tanh(W ^(t)) x _i ^q+ b ^(t))。

其中W ^(t)和b ^(t)分别是矩阵和偏移量，都是通过训练学习后获得的参数。

最后，将问题的嵌入表示变为问题单词表示序列Y ^q={ y ₁ ^q ,…,y _n ^q }。将问题单词表示序列Y ^q={ y ₁ ^q ,…,y _n ^q }通过一个最大池化层，最终得到问题的向量表示Q ^r。

步骤1.2. 获取候选关系的表示的过程如下：

首先通过已有的实体链接工具对问题进行实体链接，得到一个中心实体候选列表以及每个候选实体对应的得分，接着将每个候选实体周围连接的关系边标签文本内容R提取出。

其中，R=(r ₁,r ₂,…,r _n)，r ₁,r ₂,…,r _n分别表示组成关系边标签文本的单词序列。

将关系边标签文本内容R执行步骤1.1中与问题文本内容Q相同的操作，经过双向长短时记忆网络获得Y ^r={ y ₁ ^r ,…,y _m ^r }。

其中，Y ^r表示经过双向长短时记忆网络后关系的表示形式。

y ₁ ^r ,…,y _m ^r分别表示每个单词的向量表示形式。

最终将Y ^r={ y ₁ ^r ,…,y _m ^r }通过最大池化层得到每个关系边的关系表示R ^r。

本发明利用双向循环神经网络结合部分卷积神经网络对输入文本进行语义解析，很好地捕获了单词上下文的语义信息，提取出特征后，分别将问题特征及需要计算的候选关系特征送入最大池化层，进而得到更细粒度的语义特征表示。

步骤2. 根据余弦相似度对问题表示以及候选关系的表示进行语义匹配，得到每个候选关系的语义相似度得分；通过该语义相似度得分设计实体消歧的重排序方法，对问题经命名实体识别得到的候选实体进行二次排序，将得分最高的实体作为问题的中心主题实体。

由于实体链接很容易受到模糊实体的干扰。因此，本发明方法需要对实体进行消歧，以便为后续的强化学习部分提供准确的起始状态，本发明方法通过使用现有的实体链接器生成问题的top-k实体，然后运行一个实体重排序方法来消除实体的歧义。该步骤2具体为：

步骤2.1. 通过余弦相似度计算问题与候选关系的语义相似度得分S _r(r;Q)，计算公式如下：

S _r(r;Q)=cos(Q ^r, R ^r)。

其中，Q表示问题的文本形式，r表示候选关系的文本形式。

步骤2.2. 针对该语义相似度得分S _r(r;Q)对候选实体排名进行二次排序，将得分最高的候选实体作为问题的中心主题实体，具体过程如下：

将任一候选实体e周围连接的关系边标签提取出作为集合R _e；计算所有候选实体的候选关系与问题的语义相似度得分，获取h个得分最高的关系集合R _Q ^h。

取集合R _e和关系集合R _Q ^h的交集，得到候选实体e的候选关系中得分最高的候选关系以及该候选关系对应的语义相似度得分，将该得分作为候选关系最高得分参与后续的计算。

设计一个权重参数α，计算实体链接得分S _l(e;Q)和候选关系最高得分的综合得分S(e;Q)，进行重排序后得到最终的实体得分排名，计算公式如下：

S(e;Q)=α·S _l(e;Q)+(1-α)·max _r∈A S _r(r;Q)，A=R _Q ^h∩R _e。

其中，实体链接得分S _l(e;Q)是步骤1.2中由实体链接工具计算取得的得分。

取得分排名中综合得分最高的候选实体，并将该候选实体作为问题的中心主题实体。

本发明设计一个权重参数分割实体链接得分和关系得分，通过训练调整权重取最优值，从语义逻辑性的角度对实体链接得到的候选实体进行重排序，起到实体消歧的作用。

该中心主题实体作为也是后续强化学习路径推理的路径起点，这样通过引入语义信息的方式提高了问题中多实体复杂语义带来的实体链接干扰，提高了实体链接的准确率。

本发明方法通过提取实体链接得到的候选实体周围一跳范围内的关系，分别用关系特征计算语义相似度，然后通过重排序方法对候选实体序列进行重新排序，以增加得分最高实体的置信度，从而实现了复杂多实体问题中的实体消歧。

步骤3. 本发明将知识图谱作为强化学习的环境，与当前实体连接的关系边作为下一步动作选择，设计三重奖励机制使每一步动作选择都有对应的奖励反馈，使用一个基于自注意力机制的策略网络计算下一步动作候选的概率，使用贪心策略ϵ探索可能的推理路径。

具体的，将经过重排序得到的中心主题实体作为强化学习模型中智能体的起点，并输入到强化学习模型中，从该中心主题实体搜索通往答案的路径。

在强化学习中智能体经过每一条关系边时，通过三重奖励塑造机制计算所得奖励，通过策略网络不断优化自身策略以获得最大期望奖励，由策略网络计算当前状态下执行各动作的概率。智能体执行所学策略进行推理到达答案节点，并返回推理路径作为问题的证据链。

在以往基于强化学习的知识图谱多跳问答工作中，通常仅对答案节点设置一个二元全局奖励，达到答案奖励为1，而其余步骤奖励均为0，这样的设置会导致虚假路径获得与真实路径相同的奖励，不利于智能体的学习。本发明采用奖励塑造策略来缓解这个问题，为强化学习路径生成提供了三重奖励机制，增加了中间监督信号和奖励反馈，从多维度对推理路径的质量进行评估，其奖励函数由三部分组成：

第一部分奖励为为全局奖励R _GLOBAL，计算过程如下：

当e _t=α时，R _GLOBAL=+1，当e _t≠α时，R _GLOBAL=0。

其中，e _t表示智能体在时间步t时所在的知识图谱中的位置，该位置对应一个实体节点，即智能体每一步都是从一个实体走到另一个实体。

第一部分奖励即传统的二元全局0/1奖励，表示当智能体到达正确答案实体节点给予1的奖励，其他情况则无奖励。

第二部分奖励为语义奖励R _SEMANTIC，计算过程如下：

当t>1时，R _SEMANTIC= cos(Q ^r, R ^r)，当t=1时，R _SEMANTIC= 0；

其中，cos(Q ^r, R ^r) 表示问题与候选关系的语义相似度得分；

第二部分奖励来自于每一步路径选择所选的关系边计算出与问题的语义相似度作为奖励，该奖励为分步奖励，即每一个动作对应一个新的语义奖励（即选取该得分作为对应关系边上的语义奖励，在强化学习智能体游走经过该关系边时，对应语义得分作为语义奖励累加进入总奖励池中），以此缓解强化学习知识图谱多跳问答中的奖励稀疏问题。

另一方面，cos(x) ∈[-1,1]，因此语义奖励的范围可以控制在一定合理的范围内，并且既可以作为选择正确路径的奖励，也可以作为选择错误路径的惩罚。

第三部分奖励为效率奖励R _EFFICIENCY，效率奖励在全局奖励的基础上为路径长度进行奖励，为路径长度倒数的常数倍，使智能体优先趋向于选择更短而高效的推理路径。

第三部分奖励的计算过程为：R _EFFICIENCY=β/length(Η _σ)，β作为权重参数，用于根据多跳问答中的平均跳数进行动态调整，以增加该部分在长路径推理中的权重。

Η _σ表示智能体从开始到结束经过的历史轨迹。length是这段历史轨迹的长度，将从一个实体到另一个实体的一跳定义为距离1，以此为标准计算历史轨迹的长度。

第三部分奖励表示采取有效的途径来获得答案实体，需要设置一个效率奖励，奖励会随着路径的增长而减少，以此规避智能体为了获取更高的奖励而绕路前往答案节点的情况。

最终的奖励R由这三部分奖励累加得到，计算公式如下所示：

R= R _GLOBAL+ R _EFFICIENCY+∑^N _t=1 R _tSEMANTIC；

其中，N表示时间步N；

R _tSEMANTIC表示在时间步t时选择的关系边即动作得到的语义得分。

如图5所示，强化学习看作是马尔可夫决策过程即MDP。

强化学习所用知识图谱G中的环境被定义为五元组(S,O,A,P,R)；其中，S为状态空间，O为观察空间，A为动作空间，P和R分别表示状态转移函数和奖励函数；

状态空间S包含知识图谱节点信息中所有有效的三元组组合，时间步t的每个状态S _t=(e _t,Q,e _s,a)包括智能体当前所在的实体节点的位置以及全局信息(Q,e _s)。

其中，Q为问题，e _s为源实体，a是当前时间步的答案。

初始状态S _I∈S和终止状态S _T∈S表示为S _I=(e _s,Q,e _s,a)和S _T=(a,Q,e _s,a)。

观察空间O，在推理过程中智能体无法知道问题的答案，因此完整状态对智能体不可见，将对智能体可见的部分称为观察，智能体知道它在时间步t时的位置和查询输入条件(Q,e _s)。

因此，将观察函数设置为O(S _t)= (e _t,Q,e _s)。

动作空间A，是知识图谱中有效边的组合，在时间步t时，候选动作集合A(S _t)由智能体所在当前位置的所有出边组成，即A _t ={(r,e)|( e _t, r, e)∈G}。

其中，A _t表示当前时间步t的动作。

状态转移函数P，在时间步t时状态S _t与奖励R _t依赖于前一个状态和动作，即当给定前一个状态和动作的值时，计算当前状态和奖励出现的概率就是状态转移概率。

状态转移函数P被定义为P(S _t, A _t)= (e’,Q,e _s,a)。

其中，A _t =(r’, e’), S _t =(e _t,Q,e _s,a)。

e’表示智能体在时间步t时选择关系边r’随后到达位置为实体节点e’。

为了处理巨大的状态空间，本发明建立了一种称为策略网络的深度神经网络模型，该深度神经网络模型可以通过观察环境的状态来预测应该执行的策略。

策略网络以当前状态信息S _t和上一步中的动作A _t-1为输入，目的是学习一个参数化的策略序列π=(π ₁ , π ₂ …, π _n)并输出一个对候选动作的概率分布π _t: S _t→P{A(S _t)}。

其中，π ₁ , π ₂ …, π _n分别表示在时间步1到n时智能体采取的策略。

P{A(S _t)}表示在时间步t时对候选动作的概率分布。奖励概率将随时间变化而智能体将历史轨迹编码为：H _t ={H _t-1, A _t-1, O _t}，这是在时间步t之前的观察与动作的序列。

其中，H _t、H _t-1分别表示当前的历史轨迹编码和上一步的历史轨迹编码。

O _t表示当前可观察状态的编码。

将H _t-1 ^r和 R _t-1 ^r输入BiLSTM深度神经网络，得到循环神经网络时间步t的输出H _t ^r。

H _t ^r=BiLSTM(H _t-1 ^r, R _t-1 ^r)。

其中，H _t-1 ^r是BiLSTM上一步的输出，而R _t-1 ^r是上一步所选关系的关系表示。

如图6所示，将问题关系特征提取中得到的问题单词表示序列Y ^q={ y ₁ ^q ,…,y _n ^q }，分别计算关系表示与每个问题单词嵌入的相似度，并计算其自注意力对向量进行加权，过程如下：

T _m =W’·(R ^r⊙y _m ^q)+b’。

其中，m表示一个从1到n之间的任意自然数，T _m表示R ^r和y _m ^q间的相似度。

W’表示一个训练得到的矩阵参数。

y _m ^q表示单词表示序列中第m个单词表示，b’表示一个训练得到的偏移量参数。

α _i=exp(T _i)/ ∑_m=1 ⁿ exp(T _m)。

其中，α _i表示对单词序列中第i个表示的注意力。

exp(·)表示以自然常数e为底的指数函数。i表示一个常数， T _i表示表示R ^r和y _i ^q间的相似度。

ρ _q·r=∑_i=1 ⁿ α _i·y _i ^q，其中，ρ _q·r表示向量的加权和。

最终策略网络从所有可用的行动中选择一个作为当前步的行动。

每个动作的语义得分是通过一个感知器计算得到的。

本发明通过构建基于自注意力的感知器，依据历史轨迹和当前观测环境对候选动作概率分布进行输出，依据奖励反馈调整权重，最终实现完整推理路径的生成。

将当前步的历史序列、观测以及查询关系的语义得分输入经过两个非线性的前馈神经网络层，然后使用softmax计算每个动作在时间步t是被选择作为当前策略的几率。

π _t=softmax(M_A(W₂ReLU(W₁[H_t;O_t;ρ _q·r]+b₁)+b₂))。

其中，π _t是所有候选动作的概率分布。

M_A是由所有候选动作表示形式组成的矩阵，W₁、W₂为前馈网络权重，b₁、b₂是偏差。

强化学习的最终累计奖励只有在经历了许多动作之后才能被观察到，而对于每一步中动作的选择，策略选择被分为两种情况：利用（exploitation）和探索（exploration）。

策略中如果只有利用，则会仅根据目前已知的经验选择平均回报最大的动作，即贪心策略的思想，而如果只有探索的策略将会把所有尝试的机会概率平均分配给每个可能的动作，使其通过探索新的动作而拥有取得更高奖励的可能。

这两种情况各有其优势，因此在利用和探索间取得平衡十分重要。

本发明使用贪心策略𝜖保持利用和探索的平衡，即有(1- 𝜖)的概率选择当前状态下最终概率最大的动作，有𝜖的概率进行探索，在候选动作中随机选择动作进行执行。

综上，本发明针对知识图谱多跳问答方法所面对的弱监督环境、虚假路径与可解释性差问题提出了基于强化学习的路径生成的知识图谱多跳问答推理方法，其贡献在于：

现有方法忽略了推理过程对结果的影响，在学习过程中容易受虚假路径的干扰，并难以找到完整的三元组路径。而本发明方法利用强化学习与知识图谱的结合将问答问题转化为图中的路径预测问题，智能体通过探索的过程中得到的奖励反馈发现答案实体。

现有的强化学习方式由于数据标注的缺失，仅依靠答案实体提供奖励易造成奖励稀疏与反馈延迟问题。知识图谱中关系边的关系标签具有丰富的语义信息，而本发明通过对问题和候选关系路径的语义解析，将问题特征与关系特征的语义相似度作为每条关系边上的语义奖励，使路径选择符合自然语言中的语义逻辑，解除了虚假路径可能对结果带来的影响，并结合全局奖励、效率奖励进一步优化路径选择策略。

此外，本发明方法针对复杂问题设计了实体消歧步骤，以提高强化学习初始节点选择的准确率，进一步提高了最终知识图谱多跳问答任务的准确率，最终缓解了知识图谱多跳问答方法面对的弱监督和缺乏可解释性的问题。

下面结合附图和实例对本发明方法作进一步详细说明。

本实例的配置环境如下：CPU 8700K 主频3.7GHz, ROM 16G, 图形计算卡NVIDIAGTX2080Ti, Linux Ubuntu 18.04系统，编程语言Python 3，基于TensorFlow深度学习框架。本发明使用了Meta-QA数据集和WebQuestionsSP作为数据集进行实验评估。

其中，Meta-QA数据集是一个大规模的知识图谱问答数据集，其中，包含超过400k个电影问题，分为一跳（1-hop）问题、二跳（2-hop）问题、三跳（3-hop）问题三个部分，本发明使用了问题的Vanilla版本和Vanilla-EU (EU代表未标记的主题实体)，以及WikiMovies提供的知识图谱，其中包括约43k个实体和135k个三元组。WebQuestionsSP数据集是一个由4737个自然语言问题及其答案组成的问答数据集，其中主要包含一跳问题和二跳问题，本发明使用了GRAFT-NET生成的Freebase知识图谱的子图，子图中包含了约528k个实体。

首先对输入的问题进行主题实体的提取，得到候选主题实体列表及得分后将候选主题实体分别链接到知识图谱之中，按照重排序方法对实体排名重新排序后，选取得分最高的实体作为问题的中心主题实体。实体消歧部分的深度神经网络模型与强化学习的策略网络模型是分别训练的，得到中心主题实体后将其作为强化学习智能体的起点进行游走探索，通过设置在每个关系边上的奖励以及每条路径结束时的奖励来判定路径质量，利用注意力网络计算每一步候选动作的概率分布。通过在两个数据集的七个数据子集上分别进行了验证。

如图7和图8所示，方法中训练、验证和测试集是8:1:1，选取Meta-QA中的Hits@1和WebQuestionsSP中的Hits@1和F1得分作为性能指标。与传统深度学习模型及未使用奖励塑造策略的传统强化学习模型进行对比实验，KV-MemNN模型将文本作为外部知识，将文本中的信息以键值对的形式作为知识图谱三元组提取出来，MINERVA是一种基于问题的状态空间建模的强化学习方法，VRN是一种变分学习算法对知识图谱进行问答的弱监督方法，GraftNet是一种将文本和知识图谱相结合的基于开放域的问答方法，SRN模型提出了一种基于潜能的奖励塑造策略，可以加快训练算法的收敛速度，R-GCN模型主要针对多关系数据而设计，使用关系图卷积网络来完成知识图的任务。本发明方法在Meta-QA中的一跳、二跳、三跳问答中的准确率达到了93.6、91.8、52.6，在WebQuestionsSP中的F1得分达到了64.3，超越了传统方法。

从实验结果看出，本发明方法对知识图谱多跳问答的问题语义信息与关系语义信息进行了动态聚合，增强了实体消歧的准确率与强化学习中的奖励反馈能力。

此外，本发明方法通过生成推理路径，解决了以往深度学习带来的黑盒问题以及受虚假路径干扰的训练不确定性，提高了知识图谱多跳问答的准确率和可解释性。

当然，以上说明仅仅为本发明的较佳实施例，本发明并不限于列举上述实施例，应当说明的是，任何熟悉本领域的技术人员在本说明书的教导下，所做出的所有等同替代、明显变形形式，均落在本说明书的实质范围之内，理应受到本发明的保护。

Claims

1.一种基于强化学习路径推理的知识图谱多跳问答方法，其特征在于，

包括如下步骤：

步骤1.首先将输入的问题以及候选关系通过预训练模型，分别得到问题以及候选关系的嵌入表示；然后利用双向长短时记忆网络和最大池化层分别对问题以及候选关系的嵌入表示进行编码以及特征提取，得到问题以及候选关系的向量表示；

其中，候选关系是指问题中主题实体对应知识图谱中节点周围一跳范围内的实体节点；

步骤2.根据余弦相似度对问题以及候选关系的向量表示进行语义匹配，得到每个候选关系的语义相似度得分；通过该语义相似度得分设计实体消歧的重排序方法，对问题经命名实体识别得到的候选实体进行二次排序，将得分最高的实体作为问题的中心主题实体；

步骤3.将步骤2经过重排序得到的中心主题实体作为强化学习模型中智能体的起点，并输入到强化学习模型中，从该中心主题实体搜索通往答案的路径；

智能体经过每一条关系边时，通过三重奖励塑造机制计算所得奖励，通过策略网络不断优化自身策略以获得最大期望奖励，由策略网络计算当前状态下执行各动作的概率；

智能体执行所学策略进行推理到达答案节点，并返回推理路径作为输入问题的证据链；

所述步骤3中，构建三重奖励塑造机制，其奖励函数R由三部分组成：

第一部分奖励为为全局奖励R_GLOBAL，计算过程如下：

当e_t＝α时，R_GLOBAL＝+1，当e_t≠α时，R_GLOBAL＝0；

其中，e_t表示智能体在时间步t时所在的知识图谱中的位置，该位置对应一个实体节点，即智能体每一步都是从一个实体走到另一个实体；

第一部分奖励表示当智能体到达正确答案实体节点给予1的奖励，其他情况则无奖励；

第二部分奖励为语义奖励R_SEMANTIC，计算过程如下：

当t>1时，R_SEMANTIC＝cos(Q^r,R^r)，当t＝1时，R_SEMANTIC＝0；

其中，cos(Q^r,R^r)表示问题与候选关系的语义相似度得分；

Q^r为问题的向量表示，R^r为关系向量表示；

第二部分奖励来自于每一步路径选择所选的关系边计算出与问题的语义相似度作为奖励，该奖励为分步奖励，即每一个动作对应一个新的语义奖励；

第三部分奖励为效率奖励R_EFFICIENCY，计算过程如下：

R_EFFICIENCY＝β/length(Η_σ)；

其中，β作为权重参数，用于根据多跳问答中的平均跳数进行动态调整；

Η_σ表示智能体从开始到结束经过的历史轨迹，length是历史轨迹Η_σ的长度，将从一个实体到另一个实体的一跳定义为距离1，以此为标准计算历史轨迹的长度；

第三部分奖励表示采取有效的途径获得答案实体，该部分奖励会随着路径的增长而减少；

最终的奖励R由这三部分奖励累加得到，计算公式如下所示：

R＝R_GLOBAL+R_EFFICIENCY+∑^N _t＝1R_{t SEMANTIC}；

其中，N表示时间步N；

R_{t SEMANTIC}表示在时间步t时选择的关系边即动作得到的语义得分；

强化学习看作是马尔可夫决策过程即MDP；

强化学习所用知识图谱G中的环境被定义为五元组(S,O,A,P,R)；其中S为状态空间，O为观察空间，A为动作空间，P和R分别表示状态转移函数和奖励函数；

状态空间S包含知识图谱节点信息中所有有效的三元组组合，时间步t的每个状态S_t＝(e_t,Q,e_s,a)包括智能体当前所在的实体节点e_t的位置以及全局信息(Q,e_s)；

其中，Q为问题，e_s为源实体，a是当前时间步的答案；

初始状态S_I∈S和终止状态S_T∈S表示为S_I＝(e_s,Q,e_s,a)和S_T＝(a,Q,e_s,a)；

观察空间O，将对智能体可见的部分称为观察，智能体知道它在时间步t时的位置e_t和查询输入条件(Q,e_s)；因此，将观察函数设置为O(S_t)＝(e_t,Q,e_s)；

动作空间A，是知识图谱中有效边的组合，在时间步t时，候选动作集合A(S_t)由智能体所在当前位置的所有出边组成，即A_t＝{(r,e)|(e_t,r,e)∈G}；

其中，A_t表示当前时间步t的动作；

状态转移函数P，在时间步t时状态S_t与奖励R_t依赖于前一个状态和动作，即当给定前一个状态和动作的值时，计算当前状态和奖励出现的概率就是状态转移概率；

状态转移函数P被定义为P(S_t,A_t)＝(e’,Q,e_s,a)；

其中，A_t＝(r’,e’),S_t＝(e_t,Q,e_s,a)；

e’表示智能体在时间步t时选择关系边r’随后到达位置为实体节点e’；

策略网络的处理过程如下：

策略网络以当前状态信息S_t和上一步中的动作A_t-1为输入，目的是学习一个参数化的策略序列π＝(π₁,π₂…,π_n)并输出一个对候选动作的概率分布π_t:S_t→P{A(S_t)}；

其中，π₁,π₂…,π_n分别表示在时间步1到时间步n时智能体采取的策略；

P{A(S_t)}表示在时间步t时对候选动作的概率分布；

奖励概率将随时间变化而智能体将历史轨迹编码为：H_t＝{H_t-1,A_t-1,O_t}；

其中，H_t、H_t-1分别表示当前的历史轨迹编码和上一步的历史轨迹编码；

O_t表示当前可观察状态的编码；

将H_t-1 ^r和R_t-1 ^r输入BiLSTM深度神经网络，得到循环神经网络时间步t的输出H_t ^r；

H_t ^r＝BiLSTM(H_t-1 ^r,R_t-1 ^r)；

其中，H_t-1 ^r是BiLSTM上一步的输出，而R_t-1 ^r是上一步所选关系的关系表示；

将问题关系特征提取中得到的问题单词表示序列Y^q＝{y₁ ^q,…,y_n ^q}，分别计算关系表示与每个问题单词嵌入的相似度，并计算其自注意力对向量进行加权，计算公式如下：

T_m＝W’·(R^r⊙y_m ^q)+b’；

其中，m表示一个从1到n之间的任意自然数，T_m表示R^r和y_m ^q间的相似度；

W’表示一个训练得到的矩阵参数；

y_m ^q表示单词表示序列中第m个单词表示，b’表示一个训练得到的偏移量参数；

α_i＝exp(T_i)/∑_m＝1 ⁿexp(T_m)；

其中，α_i表示对单词序列中第i个表示的注意力；

exp(·)表示以自然常数e为底的指数函数，i表示一个常数，T_i表示表示R^r和y_i ^q间的相似度；ρ_q·r＝∑_i＝1 ⁿα_i·y_i ^q，ρ_q·r表示向量的加权和；

最终策略网络从所有可用的行动中选择一个作为当前步的行动；

每个动作的语义得分是通过一个感知器计算得到的；

将当前步的历史序列、观测以及查询关系的语义得分输入经过两个非线性的前馈神经网络层，然后使用softmax计算每个动作在时间步t是被选择作为当前策略的几率；

π_t＝softmax(M_A(W₂ReLU(W₁[H_t；O_t；ρ_q·r]+b₁)+b₂))；

其中，π_t是所有候选动作的概率分布；

2.根据权利要求1所述的基于强化学习路径推理的知识图谱多跳问答方法，其特征在于，

所述步骤1具体为：

步骤1.1.获取问题的向量表示的过程如下：

首先将每个问题Q＝(q₁,q₂,…,q_n)分解成单词序列，q_i表示单词，i∈[1,n]；

然后将每个单词q_i通过Word2Vec转换为该单词q_i的词嵌入，并使用双向长短时记忆网络来捕获上下文以获得更精确的语义，过程如下：

首先给出每个单词q_i的左上文以及右下文密集向量表示，如下述公式所示；

l_c(q_i)＝f(W^(l))l_c(q_i-1)+W^(sl)e(q_i-1)；

r_c(q_i)＝f(W^(r))r_c(q_i+1)+W^(sr)e(q_i+1)；

其中，l_c(q_i)和r_c(q_i)分别表示单词q_i用于捕获语义的左上文以及右下文密集向量；

f(·)是非线性激活函数；

W^(l)、W^(r)分别是双向长短时记忆网络中上文转换到下一个隐藏层的矩阵和下文转换到上一个隐藏层的矩阵；W^(sl)、W^(sr)表示分别用于融合单词左侧上文和右侧下文语义的矩阵；

l_c(q_i-1)是单词q_i-1用于捕获语义的左上文密集向量，r_c(q_i+1)是单词q_i+1用于捕获语义得到的右下文密集向量，e(q_i-1)、e(q_i+1)分别表示单词q_i-1、q_i+1的嵌入表示；

然后定义单词q_i的一种新的语义特征表示为x_i ^q，该语义特征表示x_i ^q由以下三部分组成：

x_i ^q＝[l_c(q_i)；e(q_i)；r_c(q_i)]；

其中，e(q_i)表示单词q_i的嵌入表示；

将该语义特征表示x_i ^q输入激活函数tanh，得到新的表示形式y_i ^q为：

y_i ^q＝tanh(W^(t))x_i ^q+b^(t))；

其中，W^(t)和b^(t)分别是矩阵和偏移量，都是通过训练学习后获得的参数；

最后，将问题的嵌入表示变为问题单词表示序列Y^q＝{y₁ ^q,…,y_n ^q}；将问题单词表示序列Y^q＝{y₁ ^q,…,y_n ^q}通过一个最大池化层，最终得到问题的向量表示Q^r；

步骤1.2.获取候选关系的向量表示的过程如下：

首先通过已有的实体链接工具对问题进行实体链接，得到中心实体候选列表以及每个候选实体对应的得分，接着将每个候选实体周围连接的关系边标签文本内容R提取出；

其中，R＝(r₁,r₂,…,r_n)，r₁,r₂,…,r_n分别表示组成关系边标签文本的单词序列；

将关系边标签文本内容R执行步骤1.1中与问题文本内容Q相同的操作，经过双向长短时记忆网络获得Y^r＝{y₁ ^r,…,y_m ^r}；

其中，Y^r表示经过双向长短时记忆网络后关系的表示形式；

y₁ ^r,…,y_m ^r分别表示每个单词的向量表示形式；

最终将Y^r＝{y₁ ^r,…,y_m ^r}通过最大池化层得到每个关系边的关系向量表示R^r。

3.根据权利要求2所述的基于强化学习路径推理的知识图谱多跳问答方法，其特征在于，

所述步骤2具体为：

步骤2.1.通过余弦相似度计算问题与候选关系的语义相似度得分S_r(r；Q)，计算公式如下：

S_r(r；Q)＝cos(Q^r,R^r)；

其中，Q表示问题的文本形式，r表示候选关系的文本形式；

步骤2.2.针对该语义相似度得分S_r(r；Q)对候选实体排名进行二次排序，将得分最高的候选实体作为问题的中心主题实体，具体过程如下：

将任一候选实体e周围连接的关系边标签提取出作为集合R_e；计算所有候选实体的候选关系与问题的语义相似度得分，获取h个得分最高的关系集合R_Q ^h；

取集合R_e和关系集合R_Q ^h的交集，得到候选实体e的候选关系中得分最高的候选关系以及该候选关系对应的语义相似度得分，将该语义相似度得分作为候选关系最高得分；

设计一个权重参数α，计算实体链接得分S_l(e；Q)以及候选关系最高得分的综合得分S(e；Q)，进行重排序后得到最终的实体得分排名，S(e；Q)的计算公式如下：

S(e；Q)＝α·S_l(e；Q)+(1-α)·max_r∈AS_r(r；Q)，A＝R_Q ^h∩R_e；

其中，实体链接得分S_l(e；Q)是步骤1.2中由实体链接工具计算取得的得分；

4.根据权利要求1所述的基于强化学习路径推理的知识图谱多跳问答方法，其特征在于，

所述步骤3中，强化学习的最终累计奖励只有在经历了许多动作之后才能被观察到，而对于每一步中动作的选择，策略选择被分为两种情况：利用和探索；

使用贪心策略∈保持利用和探索的平衡，即有(1-∈)的概率选择当前状态下最终概率最大的动作，有∈的概率进行探索，在候选动作中随机选择动作进行执行。