CN111581343B

CN111581343B - 基于图卷积神经网络的强化学习知识图谱推理方法及装置

Info

Publication number: CN111581343B
Application number: CN202010333094.XA
Authority: CN
Inventors: 李晶阳; 李波; 张永飞; 牛广林; 孙悦
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2022-08-30
Anticipated expiration: 2040-04-24
Also published as: CN111581343A

Abstract

本发明公开了基于图卷积神经网络的强化学习知识图谱推理方法及装置，该方法包括：基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知；在每一步对环境的感知的基础上，按照策略函数在可选动作中随机选取动作，加入了平衡因子，使得智能体可以自行调节关系和实体对于推理的重要性；并根据带路径的知识图谱表示学习算法给予智能体一个环境反馈，在推理的最后一步还要加上由知识图谱表示学习模型给出的软反馈；最后通过极大化累计奖励期望来对参数进行优化，最终得到推理模型。本发明学习到的知识推理模型，能够在知识图谱补全等推理任务中提高准确率，具有良好的实用性。

Description

基于图卷积神经网络的强化学习知识图谱推理方法及装置

技术领域

本发明涉及人工智能领域中自然语言处理方向的知识图谱技术领域，具体地本发明涉及知识图谱技术中的知识推理分支、以及机器学习中的强化学习和图卷积神经网络技术，更为具体地涉及一种基于图卷积神经网络的强化学习知识图谱推理方法及装置。

背景技术

近年来，随着以深度学习为主的人工智能浪潮的不断前进，从感知到认知的发展正在成为人工智能的核心趋势。在当今互联网、物联网、云计算等技术不断发展的环境下，各类应用层出不穷，因此产生了海量的数据资源，其中包含大量有价值的知识。2012年，Google最早提出知识图谱的概念，知识图谱以结构化的形式描述各类概念、实体及其关系，将海量的信息表达成更接近人类认知世界的形式。具体来说，知识图谱通过(头实体，关系，尾实体)的三元组形式描述数据库中的海量有价值的知识，其能够给出一个实体和其它相关实体更深层和更广泛的联系。目前，知识图谱已在语义搜索、智能问答系统、数据挖掘等领域发挥重要作用。

随着知识图谱的出现，面向知识图谱的知识推理作为支撑上层应用的基础性服务引发了广泛关注。面向知识图谱的知识推理旨在根据知识图谱中的已有知识推理出新的知识，主要包括实体预测和关系预测，具体是指在三元组(头实体，关系，尾实体)的尾实体或关系缺失的情形下，自动推理出具有一定可信度的尾实体或关系。

在此研究领域主要有两大类推理方法。第一类是以TransE为代表的Embedding方法(为离散数据连续化方法)。此类方法将实体和关系映射为低维向量，并通过神经网络的方法构建了三元组集合到实数域的映射来建模三元组成立的概率。Embedding方法虽然计算高效，但是由于其在推理过程中没有考虑到图谱本身的符号逻辑相关性，因此缺乏对其预测结果的可解释性。第二类方法是结合图谱路径的推理方法，此类方法在给出预测结果的同时，可以给出其推理的路径。特别的，基于强化学习的方法是其主流方向之一。但现有的基于强化学习的方法在模型训练和设计上有如下三大缺陷：

1.在实体的表示上，现有模型仅考虑实体表示本身，这不仅仅限制了强化学习智能体对环境的感知，同时也降低了智能体在决策时的决策水平；

2.由于知识图谱的不同质性，在推理时关系路径和实体路径的重要性也会有很大不同。但现有模型将关系和实体向量无差别的连接起来作为下一步的动作，这种无差别的对待会给智能体决策引入噪声而不能达到最优的决策策略；

3.在模型训练上，现有模型仅在推理的最后一步给予反馈，这使得智能体可能对最终的实体关注过大，而导致具体的推理路径的质量变差。

发明内容

针对上述技术问题，本发明提供的一种至少部分或全部解决上述技术问题的基于图卷积神经网络的强化学习知识图谱推理方法及装置，一方面能够更好的整合实体的邻域信息，从而提升应用该方法的智能体的决策水平，同时智能体能够自动权衡下一步动作中关系和实体的重要性。更多地，在模型训练上引入中间反馈，从而使得智能体的每一步的决策得到更好的优化。

为实现上述目的，第一方面，本发明采取的技术方案是：基于图卷积神经网络的强化学习知识图谱推理方法，包括如下步骤：

S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知；

S20、在每一步对环境的感知的基础上，按照策略函数在可选动作中随机选取动作；所述动作的表示由关系、实体以及平衡因子组成；

S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈，在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈；

S40、通过极大化累计奖励期望来对参数进行优化，得到推理模型；

S50、根据所述推理模型进行推理预测。

在一个实施例中，所述步骤S10中，所述深度时间序列模型对环境的感知表示进行编码，得到环境表示的向量：所述深度时间序列模型为LSTM或GRU模型。

在一个实施例中，所述步骤S10包括：

记知识图谱中实体和关系的embedding矩阵分别为E、R，采用图卷积神经网络通过聚合公式(1)将节点e的邻域信息整合进e的embedding表示中：

E(e)＝σ(W₀·N(e)+b) (1)

(1)式中，σ为非线性激活函数；W₀为dim(E(e))×[dim(E(e))+dim(R(r)))]维实参数矩阵，

以及Neigh(e)分别为实体e的一跳邻域内的关系和实体，b为偏置向量；r为关系的向量表示；e_t为领域中的实体；e为实体的向量表示；[R(r)；E(e)]为向量R(r),E(e)的串接；

根据深度时间序列模型LSTM对环境状态进行编码表示，令h_n为第n步时的环境状态向量表示，其和第n-1步时的环境状态之间由公式(2)进行转换；

h_n＝LSTM(h_n-1,[r_n-1；e_n]) (2)

(2)式中，r_n-1,e_n分别为第n-1步时智能体所选择的关系以及所到达的实体所对应的向量表示。

在一个实施例中，所述步骤S20包括：

在每一步对环境的感知的基础上，对策略函数π_θ进行建模：

π_θ(a_n|s_n)＝Softmax(σ(A_n)·σ(s_n)) (3)

(3)式中，s_n为对历史信息h_n、当前实体e_n以及查询关系r的整合；A_n为可选动作的表示矩阵；智能体根据概率分布π_θ进行随机选取动作a_n～Categorical(π_θ)；动作表示矩阵A_n的行向量是每一个可选动作(r,e)对应的动作表示为[R(r)；α_e*E(e)]；α_e为调节动作中关系和实体重要性的平衡因子；

在所述策略函数π_θ的基础上进行如下转化：

m_i～Bernoulli(1-α) (4)

(4)式中，向量m的元素属于{0,1}，由参数为α的Bernoulli分布随机采样得到；ε为常量；m_i为向量m的第i个分量。

在一个实施例中，所述步骤S30包括：

根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈，并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈。

在一个实施例中，根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈，并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈，包括：

每一步的环境反馈定义如下：设预设的最大步长为N,则在满足条件||e_t-e_n||≤||e_t-e_n-1||时，每一步的环境反馈为λ，否则为0；其中，所述条件中的向量由预训练的带路径的表示学习得到的对应的向量；e_n为当前实体的向量表示；e_n-1为上一步所选择的实体的向量表示；e_t表示正确的尾实体的向量表示；

当步数为最后一步N时，加上额外的反馈：

(5)式中，函数f为预训练的概率式的知识图谱Embedding模型；e_h,r,e_N分别为头实体、关系和模型所预测的尾实体。

在一个实施例中，所述步骤S40中，通过极大化累计奖励期望来对参数进行优化，包括：

通过最大化期望奖励函数，并利用REINFORCE算法来不断迭代，参数梯度计算公式为：

(6)式中，

reward_i为第i步时的环境反馈值，γ为强化学习模型中的折扣因数；

为对θ的导数；s_n-1为对历史信息h_n-1、当实体e_n-1以及查询关系r的整合。

在一个实施例中，所述步骤S50包括：根据所述推理模型采用Beam Search算法进行推理预测。

第二方面，本发明实施例还提供基于图卷积神经网络的强化学习知识图谱推理装置，包括：

感知模块，用于基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知；

决策模块，用于在每一步对环境的感知的基础上，按照策略函数在可选动作中随机选取动作；所述动作的表示由关系、实体以及平衡因子组成；

训练模块，用于根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈，在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈；

优化模块，用于通过极大化累计奖励期望来对参数进行优化，得到推理模型；

预测模块，用于根据所述推理模型进行推理预测。

第三方面，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所述的基于图卷积神经网络的强化学习知识图谱推理方法。

本发明优点在于：本发明提供的基于图卷积神经网络的强化学习知识图谱推理方法，与现有强化学习知识图谱推理技术相比的优点在于：

(1)以图卷积神经网络整合信息的方式，将历史推理路径的多跳邻域信息整合到智能体对环境的感知中，丰富和增强了智能体对环境的感知能力，从而提升了其决策水平；

(2)在动作的表示中加入了可学习的平衡因子，给予智能体自动权衡下一步动作中关系和实体的重要性的能力；

(3)在模型训练上通过带路径的表示学习方法引入中间反馈机制，使得智能体的决策不仅仅考虑最终是否能达到目标实体，更能将如何达到目标实体综合考虑进来，从而提升了其局部以至于全局的决策能力。。

附图说明

图1为本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理方法的流程图；

图2为本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示，本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理方法，包括如下步骤：

S50、根据所述推理模型进行推理预测。

其中，上述步骤S10，对环境的表示不仅仅考虑了历史路径，也就是智能体走过的所有的关系和实体，同时考虑了历史路径上实体的多跳邻域信息。采用图卷积神经网络的方式来整合实体的多跳邻域信息，采用深度时间序列模型，如LSTM,GRU等对环境的感知表示进行编码，最终得到环境表示的向量。

步骤S20中，将动作(r,e)表示为[r；α_e·e]，其中r,e是关系r和实体e的向量表示，α_e是和实体e相关的平衡因子标量参数。

本实施例中，首先，图卷积神经网络将节点的邻域信息整合到节点的表示中，增强了强化学习智能体对环境感知能力，从而提升其决策能力；由于知识图谱中的动作是由关系和实体构成，在动作的表示上添加了平衡因子，使得智能体可以自行调节推理时动作中关系和实体部分的重要性；更多地，在模型训练阶段，基于带路径的知识图谱表示学习模型给予智能体步骤反馈，更加有利于其每一步的决策优化。本发明提供的方法可作为知识图谱上很多应用的核心技术，比如可用于知识图谱补全，基于知识图谱的问答等很多应用。

下面分别对上述5个步骤进行详细的说明。

步骤一：基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知：

依照本发明提供的方法所设计的Agent(智能体)不仅仅将当前的实体节点以及其已经走过的历史实体和关系整合到环境的表示中，而且将历史路径周围的邻域状态也整合到环境的表示中。令Env_n表示在Agent走到第n步时的环境，则其可以递归的定义为：

其中

表示当前实体e_n多跳邻域内的关系和实体集合，a_n-1表示上一步时所选择的动作。该步骤中采用图卷积神经网络来将实体的多跳邻域信息整合到实体的表示中，从而利用深度时间序列模型如LSTM来整合环境的整体表示。

记知识图谱中实体和关系的向量表示矩阵分别为E，R，则通过下面的聚合公式来将节点e的邻域信息整合进e的向量表示中：

E(e)＝σ(W₀·N(e)+b) (1)

(1)式中，σ为非线性激活函数，如Sigmoid函数；W₀为dim(E(e))×[dim(E(e))+dim(R(r)))]维实参数矩阵；

以及Neigh(e)表示实体e的一跳邻域内的关系和实体，b为偏置向量；r为关系的向量表示；e_t为领域中的实体；e为实体的向量表示；[R(r)；E(e)]表示向量R(r),E(e)的串接。

需要说明的是，本实施例中在原有知识图谱的基础上，给每一个实体添加了自回路，也即实体到自身的连接三元组，用(e,r_{no_op},e)表示，因此在上面卷积操作中中心实体本身的信息和其邻域信息一样被看待为邻域信息而整体整合到了中心实体的新的表示中。

基于上述整合后的实体表示，通过深度时间序列模型如长短时记忆网络LSTM来对上述环境状态进行编码表示，具体地，令h_n表示第n步时的环境状态向量表示，其和第n-1步时的环境状态之间由下述公式进行转换：

h_n＝LSTM(h_n-1,[r_n-1；e_n]) (2)

(2)式中，r_n-1,e_n分别表示第n-1步时智能体所选择的关系以及所到达的实体(也即当前实体)所对应的向量表示。

步骤二：按照策略函数在可选动作中随机选取动作

基于对历史环境的感知进行步骤决策，也即对策略函数π_θ进行建模：

π_θ(a_n|s_n)＝Softmax(σ(A_n)·σ(s_n)) (3)

(3)式中，s_n表示对历史信息h_n、当前实体e_n以及查询关系r的整合；具体定义为s_n＝W₂·σ(W₁·[h_n；e_n；r])其中W₁,W₂为两个参数矩阵，A_n表示可选动作的表示矩阵；智能体根据概率分布π_θ进行随机选取动作a_n～Categorical(π_θ)；a_n～Categorical(π_θ)表示按照概率分布随机选取动作；即为平衡因子。

需要说明的是，在训练的决策采样阶段，通过堆积随机掩盖某些可选动作来增强路径的探索性，即：在策略函数的基础上加入随机动作采样技巧来增强路径的探索性；具体是指在原有策略函数π_θ的基础上进行如下转化：

m_i～Bernoulli(1-α) (4)

(4)式中，向量m的元素属于{0,1}，由参数为α的Bernoulli分布随机采样得到；Bernoulli分布由一个参数确定，即为：α；ε为一个很小的常量，用于防止概率分布变成0的情况；m_i为向量m的第i个分量。

需要说明的是，动作表示矩阵A_n的行向量是每一个可选动作(r,e)对应的动作表示为[R(r)；α_e*E(e)]；其中，R，E为步骤一中得到的关系和实体矩阵，α_e是用来调节动作中关系和实体重要性的标量参数，即：平衡因子。

步骤三：逐步和全局的的环境反馈

每一步的环境反馈定义如下。设预设的最大步长为N,则在满足条件||e_t-e_n||≤||e_t-e_n-1||时，每一步的环境反馈为λ，否则为0。其中，所述条件中的向量由预训练的带路径的表示学习得到的对应的向量；e_n为当前实体的向量表示；e_n-1为上一步所选择的实体的向量表示；e_t表示正确的尾实体的向量表示；

上述条件中的向量指的是由预训练的带路径的表示学习得到的对应的向量。带路径的表示学习算法，如PtransE和RPJE，这里简述其中一个优化的版本：对于给定的训练三元组(h,r,t)，其中h,r,t分别表示头实体，关系和尾实体，为了符号简洁，将其对应的向量表示也由原字母表示。定义两种能量函数：

E₁(h,r,t)＝||h+A(r)-t||

E₂(p,r)＝R(p|h,t)V(r|p)||C(p)-r||

其中，A(·)表示对向量中每个元素值取绝对值的函数，p指的是h，t之间的一条关系路径，R(p|h,t)表示从h出发经关系路径p随机游走到实体t的概率，V(r|p)表示该关系路径可以推理出关系r的置信度，

表示关系路径中关系向量取绝对值之后的加和。在以上能量函数的定义下，按如下损失函数进行训练：

其中P(h,t)表示实体h,t之间的关系路径，L₁,L₂分别表示由上面两种能量函数引出的marginloss函数，定义如下

其中，T^-表示负样本集合，负采样的方式有很多种，其中一种为将训练样本(h,r,t)的头实体h，关系r，尾实体t中的一个进行随机替换，比如将头实体h随机替换为另一个实体h'后构造出负样本(h',r,t)，在此处统一记负样本为(h',r',t')。更多地，上面公式中的γ₁,γ₂表示margin大小的超参数。

当步数为N，也就是最后一步时，加上额外的反馈：

(5)式中，函数f是指预训练的概率式的知识图谱Embedding模型，如ConvE,ComplEx等；e_h,r,e_N分别为头实体、关系和模型所预测的尾实体。需要说明的是，在具体实施中需对Embedding模型的输出值进行阈值处理，也即当输出值大于某个阈值δ时，输出值为原值，否则输出值为0。比如设置阈值δ＝0.5，则当f(h,r,e_N)≥0.5时，真正带入上面反馈计算公式的f(h,r,e_N)为其原值，否则带入f(h,r,e_N)＝0。

该步骤中，不是只在模型推理的最后一步给予反馈，而是每一步推理都给与环境反馈，更加有利于智能体每一步的决策优化。

步骤四：通过极大化累计奖励期望来对参数进行优化

本发明通过最大化期望奖励函数，加入策略熵进行平衡exploration(探测)和exploitation(开发)，并利用REINFORCE算法来不断迭代优化，参数梯度计算公式为：

其中

reward_i是第i步时的环境反馈值；γ为强化学习模型中的折扣因数，一般取为0.9到1.0之间的数；

步骤五：基于训练好的参数进行推理

基于训练好的推理模型，在每步决策时采用模型给出的动作的概率分布，整体上采用beam search算法最终得到多条推理路径的概率值，进行一定的整合后，按概率值由大到小的顺序进行模型的最终输出。

本发明以基于知识图谱的问答场景举例，假设问句为“运动员A是什么运动员？”，问句解析器从问句中抽取出实体e为“运动员A”和query关系r为“所属运动类别”，则将此query(运动员A，所属运动类别，？)也即(e,r,？)输入到本发明的推理模型中。首先经第一个LSTM Cell后得到历史表示h₁，再由公式(3)得到在当前实体e下的决策概率分布π_θ，选取其中概率值排在前beam_size(此为超参数，一般取为40-200)个的动作，将每个动作一般的记为(r₁,e₁)其对应的概率记为prob₁；经第一步后，智能体可以走到40个实体e₁，在每个实体位置继续按照上面的方法得到进一步的动作概率分布π_θ，将此概率分布与第一步的概率prob₁相乘，记为路径概率，按照概率路径对路径进行排序，选取概率排在前beam_size的动作；不断向下，直到达到预设的最大步长。此时得到了beam_size条推理路径，每条路径有自己的路径概率。最后对路径进行整合排序，即可得到最终推理出的答案。推理路径的整合有多种方式，比如将得到的多条推理加路径按最后预测的实体进行分组(不同的预测实体可能是由若干条路径得到的)，每组取其中的概率最大值作为该组的概率，也可以将每组的概率进行加和作为该组的概率，最终按照组别的概率值对组进行降序排列，从而得到推理结果。

以最初的(运动员A，所属运动类别，？)来讲，模型最终产出beam_size条推理路径，比如其中一条推理路径为(运动员A，效力于，NBA，所属联盟类别，篮球联盟，所属运动，篮球)，对所有推理路径进行整合，排序，即可得到最终的推理结果。

基于同一发明构思，本发明实施例还提供一种基于图卷积神经网络的强化学习知识图谱推理装置，由于该装置所解决问题的原理与前述方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

参照图2所示，本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理装置，包括：

预测模块，用于根据所述推理模型进行推理预测。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

S50、根据所述推理模型进行推理预测。

本发明实施例中，首先，基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示，作为智能体对环境的感知；然后，在每一步对环境的感知的基础上，按照策略函数在可选动作中随机选取动作，动作的表示不是单纯的将关系和实体平行处理，而是加入了平衡因子，使得智能体可以自行调节关系和实体对于推理的重要性；之后，并根据带路径的知识图谱表示学习算法给予智能体一个环境反馈，在推理的最后一步还要加上由知识图谱表示学习模型给出的软反馈；最后通过极大化累计奖励期望来对参数进行优化，最终得到推理模型。本发明学习到的知识推理模型，能够在知识图谱补全等推理任务中提高准确率，具有良好的实用性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于图卷积神经网络的强化学习知识图谱推理方法，其特征在于，包括如下步骤：

S50、根据所述推理模型进行推理预测；

所述步骤S20包括：

π_θ(a_n|s_n)＝Softmax(σ(A_n)·σ(s_n)) (3)

在所述策略函数π_θ的基础上进行如下转化：

m_i～Bernoulli(1-α) (4)

(4)式中，向量m的元素属于{0,1}，由参数为α的Bernoulli分布随机采样得到；ε为常量；m_i为向量m的第i个分量；

所述步骤S30包括：

根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈，并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈；根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈，并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈，包括：

当步数为最后一步N时，加上额外的反馈：

(5)式中，函数f为预训练的概率式的知识图谱Embedding模型；e_h,r,e_N分别为头实体、关系和模型所预测的尾实体；

所述步骤S50包括：根据所述推理模型采用Beam Search算法对基于知识图谱的问答应用进行推理预测；在基于知识图谱的问答场景中，从问句中抽取出实体e和关系r；将所述实体e和关系r输入到所述推理模型中。

2.根据权利要求1所述的方法，其特征在于，所述步骤S10中，所述深度时间序列模型对环境的感知表示进行编码，得到环境表示的向量：所述深度时间序列模型为LSTM或GRU模型。

3.根据权利要求2所述的方法，其特征在于，所述步骤S10包括：

E(e)＝σ(W₀·N(e)+b) (1)

(1)式中，σ为非线性激活函数；W₀为dim(E(e))×[dim(E(e))+dim(R(r))]维实参数矩阵，

以及Neigh(e)为实体e的一跳邻域内的关系和实体，b为偏置向量；r为关系的向量表示；e_t为领域中的实体；e为实体的向量表示；[R(r)；E(e)]为向量R(r),E(e)的串接；

h_n＝LSTM(h_n-1,[r_n-1；e_n]) (2)

4.根据权利要求1所述的方法，其特征在于，所述步骤S40中，通过极大化累计奖励期望来对参数进行优化，包括：

(6)式中，

5.基于图卷积神经网络的强化学习知识图谱推理装置，其特征在于，包括：

预测模块，用于根据所述推理模型进行推理预测；

所述决策模块具体包括：

π_θ(a_n|s_n)＝Softmax(σ(A_n)·σ(s_n)) (3)

在所述策略函数π_θ的基础上进行如下转化：

m_i～Bernoulli(1-α) (4)

所述训练模块具体包括：

当步数为最后一步N时，加上额外的反馈：

所述预测模块，具体用于根据所述推理模型采用Beam Search算法对基于知识图谱的问答应用进行推理预测；在基于知识图谱的问答场景中，从问句中抽取出实体e和关系r；将所述实体e和关系r输入到所述推理模型中。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～4中任一项所述的基于图卷积神经网络的强化学习知识图谱推理方法。