CN111581343B - 基于图卷积神经网络的强化学习知识图谱推理方法及装置 - Google Patents
基于图卷积神经网络的强化学习知识图谱推理方法及装置 Download PDFInfo
- Publication number
- CN111581343B CN111581343B CN202010333094.XA CN202010333094A CN111581343B CN 111581343 B CN111581343 B CN 111581343B CN 202010333094 A CN202010333094 A CN 202010333094A CN 111581343 B CN111581343 B CN 111581343B
- Authority
- CN
- China
- Prior art keywords
- entity
- model
- knowledge graph
- representation
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于图卷积神经网络的强化学习知识图谱推理方法及装置,该方法包括:基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作,加入了平衡因子,使得智能体可以自行调节关系和实体对于推理的重要性;并根据带路径的知识图谱表示学习算法给予智能体一个环境反馈,在推理的最后一步还要加上由知识图谱表示学习模型给出的软反馈;最后通过极大化累计奖励期望来对参数进行优化,最终得到推理模型。本发明学习到的知识推理模型,能够在知识图谱补全等推理任务中提高准确率,具有良好的实用性。
Description
技术领域
本发明涉及人工智能领域中自然语言处理方向的知识图谱技术领域,具体地本发明涉及知识图谱技术中的知识推理分支、以及机器学习中的强化学习和图卷积神经网络技术,更为具体地涉及一种基于图卷积神经网络的强化学习知识图谱推理方法及装置。
背景技术
近年来,随着以深度学习为主的人工智能浪潮的不断前进,从感知到认知的发展正在成为人工智能的核心趋势。在当今互联网、物联网、云计算等技术不断发展的环境下,各类应用层出不穷,因此产生了海量的数据资源,其中包含大量有价值的知识。2012年,Google最早提出知识图谱的概念,知识图谱以结构化的形式描述各类概念、实体及其关系,将海量的信息表达成更接近人类认知世界的形式。具体来说,知识图谱通过(头实体,关系,尾实体)的三元组形式描述数据库中的海量有价值的知识,其能够给出一个实体和其它相关实体更深层和更广泛的联系。目前,知识图谱已在语义搜索、智能问答系统、数据挖掘等领域发挥重要作用。
随着知识图谱的出现,面向知识图谱的知识推理作为支撑上层应用的基础性服务引发了广泛关注。面向知识图谱的知识推理旨在根据知识图谱中的已有知识推理出新的知识,主要包括实体预测和关系预测,具体是指在三元组(头实体,关系,尾实体)的尾实体或关系缺失的情形下,自动推理出具有一定可信度的尾实体或关系。
在此研究领域主要有两大类推理方法。第一类是以TransE为代表的Embedding方法(为离散数据连续化方法)。此类方法将实体和关系映射为低维向量,并通过神经网络的方法构建了三元组集合到实数域的映射来建模三元组成立的概率。Embedding方法虽然计算高效,但是由于其在推理过程中没有考虑到图谱本身的符号逻辑相关性,因此缺乏对其预测结果的可解释性。第二类方法是结合图谱路径的推理方法,此类方法在给出预测结果的同时,可以给出其推理的路径。特别的,基于强化学习的方法是其主流方向之一。但现有的基于强化学习的方法在模型训练和设计上有如下三大缺陷:
1.在实体的表示上,现有模型仅考虑实体表示本身,这不仅仅限制了强化学习智能体对环境的感知,同时也降低了智能体在决策时的决策水平;
2.由于知识图谱的不同质性,在推理时关系路径和实体路径的重要性也会有很大不同。但现有模型将关系和实体向量无差别的连接起来作为下一步的动作,这种无差别的对待会给智能体决策引入噪声而不能达到最优的决策策略;
3.在模型训练上,现有模型仅在推理的最后一步给予反馈,这使得智能体可能对最终的实体关注过大,而导致具体的推理路径的质量变差。
发明内容
针对上述技术问题,本发明提供的一种至少部分或全部解决上述技术问题的基于图卷积神经网络的强化学习知识图谱推理方法及装置,一方面能够更好的整合实体的邻域信息,从而提升应用该方法的智能体的决策水平,同时智能体能够自动权衡下一步动作中关系和实体的重要性。更多地,在模型训练上引入中间反馈,从而使得智能体的每一步的决策得到更好的优化。
为实现上述目的,第一方面,本发明采取的技术方案是:基于图卷积神经网络的强化学习知识图谱推理方法,包括如下步骤:
S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
S20、在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
S40、通过极大化累计奖励期望来对参数进行优化,得到推理模型;
S50、根据所述推理模型进行推理预测。
在一个实施例中,所述步骤S10中,所述深度时间序列模型对环境的感知表示进行编码,得到环境表示的向量:所述深度时间序列模型为LSTM或GRU模型。
在一个实施例中,所述步骤S10包括:
记知识图谱中实体和关系的embedding矩阵分别为E、R,采用图卷积神经网络通过聚合公式(1)将节点e的邻域信息整合进e的embedding表示中:
E(e)=σ(W0·N(e)+b) (1)
(1)式中,σ为非线性激活函数;W0为dim(E(e))×[dim(E(e))+dim(R(r)))]维实参数矩阵,以及Neigh(e)分别为实体e的一跳邻域内的关系和实体,b为偏置向量;r为关系的向量表示;et为领域中的实体;e为实体的向量表示;[R(r);E(e)]为向量R(r),E(e)的串接;
根据深度时间序列模型LSTM对环境状态进行编码表示,令hn为第n步时的环境状态向量表示,其和第n-1步时的环境状态之间由公式(2)进行转换;
hn=LSTM(hn-1,[rn-1;en]) (2)
(2)式中,rn-1,en分别为第n-1步时智能体所选择的关系以及所到达的实体所对应的向量表示。
在一个实施例中,所述步骤S20包括:
在每一步对环境的感知的基础上,对策略函数πθ进行建模:
πθ(an|sn)=Softmax(σ(An)·σ(sn)) (3)
(3)式中,sn为对历史信息hn、当前实体en以及查询关系r的整合;An为可选动作的表示矩阵;智能体根据概率分布πθ进行随机选取动作an~Categorical(πθ);动作表示矩阵An的行向量是每一个可选动作(r,e)对应的动作表示为[R(r);αe*E(e)];αe为调节动作中关系和实体重要性的平衡因子;
在所述策略函数πθ的基础上进行如下转化:
mi~Bernoulli(1-α) (4)
(4)式中,向量m的元素属于{0,1},由参数为α的Bernoulli分布随机采样得到;ε为常量;mi为向量m的第i个分量。
在一个实施例中,所述步骤S30包括:
根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈。
在一个实施例中,根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈,包括:
每一步的环境反馈定义如下:设预设的最大步长为N,则在满足条件||et-en||≤||et-en-1||时,每一步的环境反馈为λ,否则为0;其中,所述条件中的向量由预训练的带路径的表示学习得到的对应的向量;en为当前实体的向量表示;en-1为上一步所选择的实体的向量表示;et表示正确的尾实体的向量表示;
当步数为最后一步N时,加上额外的反馈:
(5)式中,函数f为预训练的概率式的知识图谱Embedding模型;eh,r,eN分别为头实体、关系和模型所预测的尾实体。
在一个实施例中,所述步骤S40中,通过极大化累计奖励期望来对参数进行优化,包括:
通过最大化期望奖励函数,并利用REINFORCE算法来不断迭代,参数梯度计算公式为:
在一个实施例中,所述步骤S50包括:根据所述推理模型采用Beam Search算法进行推理预测。
第二方面,本发明实施例还提供基于图卷积神经网络的强化学习知识图谱推理装置,包括:
感知模块,用于基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
决策模块,用于在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
训练模块,用于根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
优化模块,用于通过极大化累计奖励期望来对参数进行优化,得到推理模型;
预测模块,用于根据所述推理模型进行推理预测。
第三方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的基于图卷积神经网络的强化学习知识图谱推理方法。
本发明优点在于:本发明提供的基于图卷积神经网络的强化学习知识图谱推理方法,与现有强化学习知识图谱推理技术相比的优点在于:
(1)以图卷积神经网络整合信息的方式,将历史推理路径的多跳邻域信息整合到智能体对环境的感知中,丰富和增强了智能体对环境的感知能力,从而提升了其决策水平;
(2)在动作的表示中加入了可学习的平衡因子,给予智能体自动权衡下一步动作中关系和实体的重要性的能力;
(3)在模型训练上通过带路径的表示学习方法引入中间反馈机制,使得智能体的决策不仅仅考虑最终是否能达到目标实体,更能将如何达到目标实体综合考虑进来,从而提升了其局部以至于全局的决策能力。。
附图说明
图1为本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理方法的流程图;
图2为本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1所示,本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理方法,包括如下步骤:
S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
S20、在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
S40、通过极大化累计奖励期望来对参数进行优化,得到推理模型;
S50、根据所述推理模型进行推理预测。
其中,上述步骤S10,对环境的表示不仅仅考虑了历史路径,也就是智能体走过的所有的关系和实体,同时考虑了历史路径上实体的多跳邻域信息。采用图卷积神经网络的方式来整合实体的多跳邻域信息,采用深度时间序列模型,如LSTM,GRU等对环境的感知表示进行编码,最终得到环境表示的向量。
步骤S20中,将动作(r,e)表示为[r;αe·e],其中r,e是关系r和实体e的向量表示,αe是和实体e相关的平衡因子标量参数。
本实施例中,首先,图卷积神经网络将节点的邻域信息整合到节点的表示中,增强了强化学习智能体对环境感知能力,从而提升其决策能力;由于知识图谱中的动作是由关系和实体构成,在动作的表示上添加了平衡因子,使得智能体可以自行调节推理时动作中关系和实体部分的重要性;更多地,在模型训练阶段,基于带路径的知识图谱表示学习模型给予智能体步骤反馈,更加有利于其每一步的决策优化。本发明提供的方法可作为知识图谱上很多应用的核心技术,比如可用于知识图谱补全,基于知识图谱的问答等很多应用。
下面分别对上述5个步骤进行详细的说明。
步骤一:基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知:
依照本发明提供的方法所设计的Agent(智能体)不仅仅将当前的实体节点以及其已经走过的历史实体和关系整合到环境的表示中,而且将历史路径周围的邻域状态也整合到环境的表示中。令Envn表示在Agent走到第n步时的环境,则其可以递归的定义为:其中表示当前实体en多跳邻域内的关系和实体集合,an-1表示上一步时所选择的动作。该步骤中采用图卷积神经网络来将实体的多跳邻域信息整合到实体的表示中,从而利用深度时间序列模型如LSTM来整合环境的整体表示。
记知识图谱中实体和关系的向量表示矩阵分别为E,R,则通过下面的聚合公式来将节点e的邻域信息整合进e的向量表示中:
E(e)=σ(W0·N(e)+b) (1)
(1)式中,σ为非线性激活函数,如Sigmoid函数;W0为dim(E(e))×[dim(E(e))+dim(R(r)))]维实参数矩阵;以及Neigh(e)表示实体e的一跳邻域内的关系和实体,b为偏置向量;r为关系的向量表示;et为领域中的实体;e为实体的向量表示;[R(r);E(e)]表示向量R(r),E(e)的串接。
需要说明的是,本实施例中在原有知识图谱的基础上,给每一个实体添加了自回路,也即实体到自身的连接三元组,用(e,rno_op,e)表示,因此在上面卷积操作中中心实体本身的信息和其邻域信息一样被看待为邻域信息而整体整合到了中心实体的新的表示中。
基于上述整合后的实体表示,通过深度时间序列模型如长短时记忆网络LSTM来对上述环境状态进行编码表示,具体地,令hn表示第n步时的环境状态向量表示,其和第n-1步时的环境状态之间由下述公式进行转换:
hn=LSTM(hn-1,[rn-1;en]) (2)
(2)式中,rn-1,en分别表示第n-1步时智能体所选择的关系以及所到达的实体(也即当前实体)所对应的向量表示。
步骤二:按照策略函数在可选动作中随机选取动作
基于对历史环境的感知进行步骤决策,也即对策略函数πθ进行建模:
πθ(an|sn)=Softmax(σ(An)·σ(sn)) (3)
(3)式中,sn表示对历史信息hn、当前实体en以及查询关系r的整合;具体定义为sn=W2·σ(W1·[hn;en;r])其中W1,W2为两个参数矩阵,An表示可选动作的表示矩阵;智能体根据概率分布πθ进行随机选取动作an~Categorical(πθ);an~Categorical(πθ)表示按照概率分布随机选取动作;即为平衡因子。
需要说明的是,在训练的决策采样阶段,通过堆积随机掩盖某些可选动作来增强路径的探索性,即:在策略函数的基础上加入随机动作采样技巧来增强路径的探索性;具体是指在原有策略函数πθ的基础上进行如下转化:
mi~Bernoulli(1-α) (4)
(4)式中,向量m的元素属于{0,1},由参数为α的Bernoulli分布随机采样得到;Bernoulli分布由一个参数确定,即为:α;ε为一个很小的常量,用于防止概率分布变成0的情况;mi为向量m的第i个分量。
需要说明的是,动作表示矩阵An的行向量是每一个可选动作(r,e)对应的动作表示为[R(r);αe*E(e)];其中,R,E为步骤一中得到的关系和实体矩阵,αe是用来调节动作中关系和实体重要性的标量参数,即:平衡因子。
步骤三:逐步和全局的的环境反馈
每一步的环境反馈定义如下。设预设的最大步长为N,则在满足条件||et-en||≤||et-en-1||时,每一步的环境反馈为λ,否则为0。其中,所述条件中的向量由预训练的带路径的表示学习得到的对应的向量;en为当前实体的向量表示;en-1为上一步所选择的实体的向量表示;et表示正确的尾实体的向量表示;
上述条件中的向量指的是由预训练的带路径的表示学习得到的对应的向量。带路径的表示学习算法,如PtransE和RPJE,这里简述其中一个优化的版本:对于给定的训练三元组(h,r,t),其中h,r,t分别表示头实体,关系和尾实体,为了符号简洁,将其对应的向量表示也由原字母表示。定义两种能量函数:
E1(h,r,t)=||h+A(r)-t||
E2(p,r)=R(p|h,t)V(r|p)||C(p)-r||
其中,A(·)表示对向量中每个元素值取绝对值的函数,p指的是h,t之间的一条关系路径,R(p|h,t)表示从h出发经关系路径p随机游走到实体t的概率,V(r|p)表示该关系路径可以推理出关系r的置信度,表示关系路径中关系向量取绝对值之后的加和。在以上能量函数的定义下,按如下损失函数进行训练:
其中P(h,t)表示实体h,t之间的关系路径,L1,L2分别表示由上面两种能量函数引出的marginloss函数,定义如下
其中,T-表示负样本集合,负采样的方式有很多种,其中一种为将训练样本(h,r,t)的头实体h,关系r,尾实体t中的一个进行随机替换,比如将头实体h随机替换为另一个实体h'后构造出负样本(h',r,t),在此处统一记负样本为(h',r',t')。更多地,上面公式中的γ1,γ2表示margin大小的超参数。
当步数为N,也就是最后一步时,加上额外的反馈:
(5)式中,函数f是指预训练的概率式的知识图谱Embedding模型,如ConvE,ComplEx等;eh,r,eN分别为头实体、关系和模型所预测的尾实体。需要说明的是,在具体实施中需对Embedding模型的输出值进行阈值处理,也即当输出值大于某个阈值δ时,输出值为原值,否则输出值为0。比如设置阈值δ=0.5,则当f(h,r,eN)≥0.5时,真正带入上面反馈计算公式的f(h,r,eN)为其原值,否则带入f(h,r,eN)=0。
该步骤中,不是只在模型推理的最后一步给予反馈,而是每一步推理都给与环境反馈,更加有利于智能体每一步的决策优化。
步骤四:通过极大化累计奖励期望来对参数进行优化
本发明通过最大化期望奖励函数,加入策略熵进行平衡exploration(探测)和exploitation(开发),并利用REINFORCE算法来不断迭代优化,参数梯度计算公式为:其中rewardi是第i步时的环境反馈值;γ为强化学习模型中的折扣因数,一般取为0.9到1.0之间的数;为对θ的导数;sn-1为对历史信息hn-1、当实体en-1以及查询关系r的整合。
步骤五:基于训练好的参数进行推理
基于训练好的推理模型,在每步决策时采用模型给出的动作的概率分布,整体上采用beam search算法最终得到多条推理路径的概率值,进行一定的整合后,按概率值由大到小的顺序进行模型的最终输出。
本发明以基于知识图谱的问答场景举例,假设问句为“运动员A是什么运动员?”,问句解析器从问句中抽取出实体e为“运动员A”和query关系r为“所属运动类别”,则将此query(运动员A,所属运动类别,?)也即(e,r,?)输入到本发明的推理模型中。首先经第一个LSTM Cell后得到历史表示h1,再由公式(3)得到在当前实体e下的决策概率分布πθ,选取其中概率值排在前beam_size(此为超参数,一般取为40-200)个的动作,将每个动作一般的记为(r1,e1)其对应的概率记为prob1;经第一步后,智能体可以走到40个实体e1,在每个实体位置继续按照上面的方法得到进一步的动作概率分布πθ,将此概率分布与第一步的概率prob1相乘,记为路径概率,按照概率路径对路径进行排序,选取概率排在前beam_size的动作;不断向下,直到达到预设的最大步长。此时得到了beam_size条推理路径,每条路径有自己的路径概率。最后对路径进行整合排序,即可得到最终推理出的答案。推理路径的整合有多种方式,比如将得到的多条推理加路径按最后预测的实体进行分组(不同的预测实体可能是由若干条路径得到的),每组取其中的概率最大值作为该组的概率,也可以将每组的概率进行加和作为该组的概率,最终按照组别的概率值对组进行降序排列,从而得到推理结果。
以最初的(运动员A,所属运动类别,?)来讲,模型最终产出beam_size条推理路径,比如其中一条推理路径为(运动员A,效力于,NBA,所属联盟类别,篮球联盟,所属运动,篮球),对所有推理路径进行整合,排序,即可得到最终的推理结果。
基于同一发明构思,本发明实施例还提供一种基于图卷积神经网络的强化学习知识图谱推理装置,由于该装置所解决问题的原理与前述方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
参照图2所示,本发明实施例提供的基于图卷积神经网络的强化学习知识图谱推理装置,包括:
感知模块,用于基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
决策模块,用于在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
训练模块,用于根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
优化模块,用于通过极大化累计奖励期望来对参数进行优化,得到推理模型;
预测模块,用于根据所述推理模型进行推理预测。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:
S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
S20、在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
S40、通过极大化累计奖励期望来对参数进行优化,得到推理模型;
S50、根据所述推理模型进行推理预测。
本发明实施例中,首先,基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;然后,在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作,动作的表示不是单纯的将关系和实体平行处理,而是加入了平衡因子,使得智能体可以自行调节关系和实体对于推理的重要性;之后,并根据带路径的知识图谱表示学习算法给予智能体一个环境反馈,在推理的最后一步还要加上由知识图谱表示学习模型给出的软反馈;最后通过极大化累计奖励期望来对参数进行优化,最终得到推理模型。本发明学习到的知识推理模型,能够在知识图谱补全等推理任务中提高准确率,具有良好的实用性。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于图卷积神经网络的强化学习知识图谱推理方法,其特征在于,包括如下步骤:
S10、基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
S20、在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
S30、根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
S40、通过极大化累计奖励期望来对参数进行优化,得到推理模型;
S50、根据所述推理模型进行推理预测;
所述步骤S20包括:
在每一步对环境的感知的基础上,对策略函数πθ进行建模:
πθ(an|sn)=Softmax(σ(An)·σ(sn)) (3)
(3)式中,sn为对历史信息hn、当前实体en以及查询关系r的整合;An为可选动作的表示矩阵;智能体根据概率分布πθ进行随机选取动作an~Categorical(πθ);动作表示矩阵An的行向量是每一个可选动作(r,e)对应的动作表示为[R(r);αe*E(e)];αe为调节动作中关系和实体重要性的平衡因子;
在所述策略函数πθ的基础上进行如下转化:
mi~Bernoulli(1-α) (4)
(4)式中,向量m的元素属于{0,1},由参数为α的Bernoulli分布随机采样得到;ε为常量;mi为向量m的第i个分量;
所述步骤S30包括:
根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈,包括:
每一步的环境反馈定义如下:设预设的最大步长为N,则在满足条件||et-en||≤||et-en-1||时,每一步的环境反馈为λ,否则为0;其中,所述条件中的向量由预训练的带路径的表示学习得到的对应的向量;en为当前实体的向量表示;en-1为上一步所选择的实体的向量表示;et表示正确的尾实体的向量表示;
当步数为最后一步N时,加上额外的反馈:
(5)式中,函数f为预训练的概率式的知识图谱Embedding模型;eh,r,eN分别为头实体、关系和模型所预测的尾实体;
所述步骤S50包括:根据所述推理模型采用Beam Search算法对基于知识图谱的问答应用进行推理预测;在基于知识图谱的问答场景中,从问句中抽取出实体e和关系r;将所述实体e和关系r输入到所述推理模型中。
2.根据权利要求1所述的方法,其特征在于,所述步骤S10中,所述深度时间序列模型对环境的感知表示进行编码,得到环境表示的向量:所述深度时间序列模型为LSTM或GRU模型。
3.根据权利要求2所述的方法,其特征在于,所述步骤S10包括:
记知识图谱中实体和关系的embedding矩阵分别为E、R,采用图卷积神经网络通过聚合公式(1)将节点e的邻域信息整合进e的embedding表示中:
E(e)=σ(W0·N(e)+b) (1)
(1)式中,σ为非线性激活函数;W0为dim(E(e))×[dim(E(e))+dim(R(r))]维实参数矩阵,以及Neigh(e)为实体e的一跳邻域内的关系和实体,b为偏置向量;r为关系的向量表示;et为领域中的实体;e为实体的向量表示;[R(r);E(e)]为向量R(r),E(e)的串接;
根据深度时间序列模型LSTM对环境状态进行编码表示,令hn为第n步时的环境状态向量表示,其和第n-1步时的环境状态之间由公式(2)进行转换;
hn=LSTM(hn-1,[rn-1;en]) (2)
(2)式中,rn-1,en分别为第n-1步时智能体所选择的关系以及所到达的实体所对应的向量表示。
5.基于图卷积神经网络的强化学习知识图谱推理装置,其特征在于,包括:
感知模块,用于基于深度时间序列模型和图卷积神经网络模型对历史路径及其上实体的多跳邻域信息进行表示,作为智能体对环境的感知;
决策模块,用于在每一步对环境的感知的基础上,按照策略函数在可选动作中随机选取动作;所述动作的表示由关系、实体以及平衡因子组成;
训练模块,用于根据带路径的知识图谱表示学习算法给予所述智能体一个环境反馈,在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;
优化模块,用于通过极大化累计奖励期望来对参数进行优化,得到推理模型;
预测模块,用于根据所述推理模型进行推理预测;
所述决策模块具体包括:
在每一步对环境的感知的基础上,对策略函数πθ进行建模:
πθ(an|sn)=Softmax(σ(An)·σ(sn)) (3)
(3)式中,sn为对历史信息hn、当前实体en以及查询关系r的整合;An为可选动作的表示矩阵;智能体根据概率分布πθ进行随机选取动作an~Categorical(πθ);动作表示矩阵An的行向量是每一个可选动作(r,e)对应的动作表示为[R(r);αe*E(e)];αe为调节动作中关系和实体重要性的平衡因子;
在所述策略函数πθ的基础上进行如下转化:
mi~Bernoulli(1-α) (4)
(4)式中,向量m的元素属于{0,1},由参数为α的Bernoulli分布随机采样得到;ε为常量;mi为向量m的第i个分量;
所述训练模块具体包括:
根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈;根据带路径的知识图谱表示学习算法每一步推理给予智能体一个环境反馈,并在推理的最后一步加上由知识图谱表示学习模型给出的全局软反馈,包括:
每一步的环境反馈定义如下:设预设的最大步长为N,则在满足条件||et-en||≤||et-en-1||时,每一步的环境反馈为λ,否则为0;其中,所述条件中的向量由预训练的带路径的表示学习得到的对应的向量;en为当前实体的向量表示;en-1为上一步所选择的实体的向量表示;et表示正确的尾实体的向量表示;
当步数为最后一步N时,加上额外的反馈:
(5)式中,函数f为预训练的概率式的知识图谱Embedding模型;eh,r,eN分别为头实体、关系和模型所预测的尾实体;
所述预测模块,具体用于根据所述推理模型采用Beam Search算法对基于知识图谱的问答应用进行推理预测;在基于知识图谱的问答场景中,从问句中抽取出实体e和关系r;将所述实体e和关系r输入到所述推理模型中。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~4中任一项所述的基于图卷积神经网络的强化学习知识图谱推理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010333094.XA CN111581343B (zh) | 2020-04-24 | 2020-04-24 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010333094.XA CN111581343B (zh) | 2020-04-24 | 2020-04-24 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581343A CN111581343A (zh) | 2020-08-25 |
CN111581343B true CN111581343B (zh) | 2022-08-30 |
Family
ID=72111631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010333094.XA Active CN111581343B (zh) | 2020-04-24 | 2020-04-24 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581343B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015868B (zh) * | 2020-09-07 | 2022-08-26 | 重庆邮电大学 | 基于知识图谱补全的问答方法 |
CN112328801B (zh) * | 2020-09-28 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 事件知识图谱预测群体性事件的方法 |
CN112201348B (zh) * | 2020-10-28 | 2022-07-26 | 浙江大学 | 基于知识感知的多中心临床数据集适配设备 |
CN112434171A (zh) * | 2020-11-26 | 2021-03-02 | 中山大学 | 一种基于强化学习的知识图谱推理补全方法及系统 |
CN112396184B (zh) * | 2020-12-01 | 2023-09-05 | 中山大学 | 一种基于图结构数据的关系挖掘方法及系统 |
CN113031983B (zh) * | 2021-02-03 | 2022-11-11 | 国电南瑞科技股份有限公司 | 一种基于深度强化学习的软件智能升级方法及装置 |
CN112966591B (zh) * | 2021-03-03 | 2023-01-20 | 河北工业职业技术学院 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
CN113299079B (zh) * | 2021-03-29 | 2022-06-10 | 东南大学 | 一种基于ppo和图卷积神经网络区域交叉口信号控制方法 |
CN112988802B (zh) * | 2021-04-29 | 2022-07-15 | 电子科技大学 | 一种基于强化学习的关系型数据库查询优化方法及系统 |
CN113222711B (zh) * | 2021-05-28 | 2022-04-19 | 桂林电子科技大学 | 一种商品信息推荐方法、系统和存储介质 |
CN113657598B (zh) * | 2021-08-04 | 2024-02-09 | 中国人民解放军战略支援部队航天工程大学 | 基于多策略智能体的推理系统、方法、装置及电子设备 |
CN113780002B (zh) * | 2021-08-13 | 2023-11-28 | 北京信息科技大学 | 基于图表示学习和深度强化学习的知识推理方法及装置 |
CN113688217B (zh) * | 2021-08-24 | 2022-04-22 | 山东省人工智能研究院 | 一种面向搜索引擎知识库的智能问答方法 |
CN113807578B (zh) * | 2021-09-01 | 2023-12-08 | 南京航空航天大学 | 一种基于gcn与强化学习的智能路径推荐方法 |
CN116157791A (zh) * | 2021-09-18 | 2023-05-23 | 京东方科技集团股份有限公司 | 一种文本推荐方法、模型训练方法、装置及可读存储介质 |
CN114091673B (zh) * | 2022-01-19 | 2022-04-08 | 华中科技大学 | 语义编码器、解码器和语义通信框架 |
CN114647741A (zh) * | 2022-03-14 | 2022-06-21 | 广东技术师范大学 | 工艺自动决策和推理方法、装置、计算机设备及存储介质 |
CN114925190B (zh) * | 2022-05-30 | 2023-08-04 | 南瑞集团有限公司 | 一种基于规则推理与gru神经网络推理的混合推理方法 |
CN115640410B (zh) * | 2022-12-06 | 2023-03-14 | 南京航空航天大学 | 基于强化学习路径推理的知识图谱多跳问答方法 |
CN116628247B (zh) * | 2023-07-24 | 2023-10-20 | 北京数慧时空信息技术有限公司 | 基于强化学习和知识图谱的影像推荐方法 |
CN117634599A (zh) * | 2023-10-17 | 2024-03-01 | 中国电子信息产业集团有限公司第六研究所 | 基于知识图谱的路径推理方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN110069638A (zh) * | 2019-03-12 | 2019-07-30 | 北京航空航天大学 | 一种结合规则和路径的知识图谱组合表示学习方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090327172A1 (en) * | 2008-06-27 | 2009-12-31 | Motorola, Inc. | Adaptive knowledge-based reasoning in autonomic computing systems |
CN110110169A (zh) * | 2018-01-26 | 2019-08-09 | 上海智臻智能网络科技股份有限公司 | 人机交互方法及人机交互装置 |
CN109062939A (zh) * | 2018-06-20 | 2018-12-21 | 广东外语外贸大学 | 一种面向汉语国际教育的智能导学方法 |
KR20200042739A (ko) * | 2018-10-16 | 2020-04-24 | 삼성전자주식회사 | 지식 그래프에 기초하여 콘텐트를 제공하는 시스템 및 방법 |
CN110175227B (zh) * | 2019-05-10 | 2021-03-02 | 神思电子技术股份有限公司 | 一种基于组队学习和层级推理的对话辅助系统 |
CN110796254B (zh) * | 2019-10-30 | 2024-02-27 | 南京工业大学 | 一种知识图谱推理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-04-24 CN CN202010333094.XA patent/CN111581343B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN109241291A (zh) * | 2018-07-18 | 2019-01-18 | 华南师范大学 | 基于深度强化学习的知识图谱最优路径查询系统及其方法 |
CN110069638A (zh) * | 2019-03-12 | 2019-07-30 | 北京航空航天大学 | 一种结合规则和路径的知识图谱组合表示学习方法 |
Non-Patent Citations (2)
Title |
---|
Xi Victoria Lin, Richard Socher, Caiming Xiong.Multi-Hop Knowledge Graph Reasoning with Reward Shaping.《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》.2018,3243-3253. * |
基于混合增强智能的知识图谱推理技术研究;杨瑞达等;《计算机应用与软件》;20190630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111581343A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581343B (zh) | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 | |
Adel et al. | Discovering interpretable representations for both deep generative and discriminative models | |
Elthakeb et al. | Releq: A reinforcement learning approach for deep quantization of neural networks | |
US11620487B2 (en) | Neural architecture search based on synaptic connectivity graphs | |
US20230229891A1 (en) | Reservoir computing neural networks based on synaptic connectivity graphs | |
US11593627B2 (en) | Artificial neural network architectures based on synaptic connectivity graphs | |
US11625611B2 (en) | Training artificial neural networks based on synaptic connectivity graphs | |
US11568201B2 (en) | Predicting neuron types based on synaptic connectivity graphs | |
US20220383126A1 (en) | Low-Rank Adaptation of Neural Network Models | |
Zhang et al. | PS-Tree: A piecewise symbolic regression tree | |
US11631000B2 (en) | Training artificial neural networks based on synaptic connectivity graphs | |
Duch et al. | Optimization and global minimization methods suitable for neural networks | |
US20220383127A1 (en) | Methods and systems for training a graph neural network using supervised contrastive learning | |
Hegazy et al. | Dimensionality reduction using an improved whale optimization algorithm for data classification | |
Zamora Esquivel et al. | Adaptive activation functions using fractional calculus | |
Elhani et al. | Optimizing convolutional neural networks architecture using a modified particle swarm optimization for image classification | |
Kim et al. | Building deep random ferns without backpropagation | |
Shokouhifar et al. | A hybrid approach for effective feature selection using neural networks and artificial bee colony optimization | |
Martinez et al. | Towards personalized preprocessing pipeline search | |
CN117150041A (zh) | 一种基于强化学习的小样本知识图谱补全方法 | |
CN116882539A (zh) | 基于改进的Re-GCN模型的水质数据预测方法 | |
US20220335301A1 (en) | Phylogenetic replay learning in deep neural networks | |
Ding et al. | Adaptive training of radial basis function networks using particle swarm optimization algorithm | |
Plested | Beyond binary hyperparameters in deep transfer learning for image classification | |
US20240119291A1 (en) | Dynamic neural network model sparsification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |