CN113780002A - 基于图表示学习和深度强化学习的知识推理方法及装置 - Google Patents
基于图表示学习和深度强化学习的知识推理方法及装置 Download PDFInfo
- Publication number
- CN113780002A CN113780002A CN202110928277.0A CN202110928277A CN113780002A CN 113780002 A CN113780002 A CN 113780002A CN 202110928277 A CN202110928277 A CN 202110928277A CN 113780002 A CN113780002 A CN 113780002A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- graph
- reasoning
- reinforcement learning
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 65
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 27
- 230000002776 aggregation Effects 0.000 claims description 25
- 238000004220 aggregation Methods 0.000 claims description 25
- 230000009471 action Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 150000001875 compounds Chemical class 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 230000009977 dual effect Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供一种基于图表示学习和深度强化学习的知识推理方法及装置。所述方法包括:构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。由于图表示学习后的知识向量含有丰富的以关系类别为主的图拓扑信息和语义信息,提供了强大的单步推理信息,而强化学习推理过程中,通过智能体和环境不断地交互进行多步推理,因此,本发明基于图表示学习和强化学习的推理方法,通过将单步推理和多步推理互补结合,可提高推理效率、增强推理的可解释性。
Description
技术领域
本发明属于人工智能技术领域,具体涉及一种基于图表示学习和深度强化学习的知识推理方法及装置。
背景技术
近年来,随着云计算、物联网等技术的快速发展,数据规模呈现爆发式增长,如何组织和利用数据中的知识备受关注,知识图谱由此应运而生。如今,知识图谱已被广泛运用于搜索引擎、问答系统和推荐系统等领域。现阶段,大批知识图谱已经涌现出来,其中具有代表性的通用知识图谱有Freebase、DBpedia、NELL等。然而,由于知识图谱本身的开放性和构建方法的多样性,导致知识图谱中存在大量实体和关系缺失情况,知识图谱的不完整问题给实际的应用带来了很多障碍,成了人工智能进一步发展的重要制约因素。知识推理方法成为解决该类问题的重要方法。知识推理是指利用已经存在的知识推出未知的或者新知识的方法。面向知识图谱的知识推理中,知识推理主要划分为基于逻辑的推理,基于表示学习的推理、基于图的推理、基于神经网络的推理。其中,基于逻辑的推理是指通过一阶谓词逻辑、描述逻辑以及规则等推理出新的知识;基于表示学习的推理方法主要是利用知识表示学习模型,将知识图谱中的实体和关系映射到低维向量空间,并对知识图谱的低维向量表示进行计算来实现推理;基于图的推理是指在图上进行随机游走以判断两节点间是否存在路径,进而实现推理任务;基于神经网络的推理主要是利用神经网络直接建模学习推理过程以实现推理。
上述现有知识推理方法主要存在以下问题:一是知识图谱自身信息未能充分挖掘利用,如知识图谱的图拓扑结构信息、属性信息、边的描述信息等;二是随着大量新方法(如神经网络、生成对抗模仿学习等)的引入,使得模型参数增加,训练难度增大,推理的可解释性大大减弱;三是推理方法的鲁棒性变差,模型的改进更倾向于解决某一个具体应用问题,或者倾向于某个具体的数据集,模型迁移性差。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于图表示学习和深度强化学习的知识推理方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种基于图表示学习和深度强化学习的知识推理方法,包括以下步骤:
构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
进一步地,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
更进一步地,所述关系图神经网络进行双重聚合的操作表示为:
式中,表示当前节点Vi的第l层隐藏状态,表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,表示与Vi相邻并且关系为r的邻居节点集合,表示集合中元素的数量即关系为r的邻居节点的数量,表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
更进一步地,σ为ReLU函数,表达式为:
进一步地,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重其中表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
第二方面,本发明提供一种基于图表示学习和深度强化学习的知识推理装置,包括:
R-GNN构建模块,用于构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
强化学习模型构建模块,用于以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
进一步地,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
更进一步地,所述关系图神经网络进行双重聚合的操作表示为:
式中,表示当前节点Vi的第l层隐藏状态,表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,表示与Vi相邻并且关系为r的邻居节点集合,表示集合中元素的数量即关系为r的邻居节点的数量,表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
更进一步地,σ为ReLU函数,表达式为:
进一步地,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重其中表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
与现有技术相比,本发明具有以下有益效果。
本发明通过构建关系图神经网络模型,根据输入知识图谱的不同关系类别提取知识的图拓扑结构信息和语义信息,以提取的信息为基础构建强化学习模型,通过强化学习智能体和环境的交互实现知识推理。图表示学习后的知识向量含有丰富的以关系类别为主的图拓扑信息和语义信息,提供了强大的单步推理信息,而强化学习推理过程中,通过智能体和环境不断地交互进行多步推理,因此,本发明基于图表示学习和强化学习的推理方法,通过将单步推理和多步推理互补结合,可提高推理效率、增强推理的可解释性。
附图说明
图1为本发明实施例一种基于图表示学习和深度强化学习的知识推理方法的流程图。
图2为本发明整体构架示意图。
图3为关系图神经网络R-GNN示意图。
图4为本发明应用于问答系统的构架示意图。
图5为本发明实施例一种基于图表示学习和深度强化学习的知识推理装置的方框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种基于图表示学习和深度强化学习的知识推理方法的流程图,包括以下步骤:
步骤101,构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
步骤102,以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
本实施例提供一种结合图表示学习和深度强化学习的知识推理方法,该方法可应用于基于知识图谱的问答系统。它的整体构架如图2所示,主要由两个模块构成,一个是图表示学习模块,代替了传统的全局图卷积处理,本模块为了结合强化学习方法,提出关系图R-GNN的图卷积表示学习算法,该方法按照关系类别分别提取知识图谱中的知识的图拓扑结构信息和语义信息,并将其融入到知识图谱的向量表示中;另一个是深度强化学习模块,该模块将第一部分获取的信息作为深度强化学习的基础,通过建模强化学习模型,实现知识推理任务。
本实施例中,步骤101主要用于提取知识的图拓扑结构信息和语义信息。本实施例通过构建一个关系图神经网络模型R-GNN,以知识图谱数据为输入,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息,输出包含所述信息的知识向量。R-GNN是在基于GNN的聚合邻居节点操作基础上,对GNN模型进行的改进。面向知识推理任务,将图中节点的邻居节点按照不同类别进行划分,然后在不同类别中单独进行邻居节点聚合操作,也就是将GNN的单重聚合操作改为了基于关系和节点(实体)的双重聚合过程。针对问答系统的应用而言,该模块的输入为应用领域的知识图谱数据,包括头实体、关系和尾实体,如“北京(头实体)位于(关系)中国(尾实体)”;该模块的输出为该应用领域的知识图谱数据对应的向量值;中间变量为R-GNN模型的参数值,此参数为图神经网络中的网络权重,它的主要作用是按照不同关系类型提取知识的图拓扑结构信息和语义信息,并将提取到的信息聚合到对应的向量中。
本实施例中,步骤102主要用于进行知识推理输出推理结果。本实施例通过构建强化学习模型,以提取的包含图拓扑结构信息和语义信息的知识向量为基础,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
本实施例经过图表示学习获得的知识向量,含有丰富的以关系类别为主的图拓扑信息和语义信息,提供了强大的单步推理信息;而强化学习推理过程中,通过智能体和环境不断地交互实现多步推理。因此,本实施例是将图表示学习和强化学习结合,通过单步推理和多步推理的互补结合提高推理性能。单步推理是指用直接关系即知识图谱中的三元组(头实体-关系-尾实体)进行学习和推理。具体地,单步推理是在知识图谱中由一个实体和一个关系推理出另一个实体的过程(图谱中的单(一)跳的推理)。单步推理的优点是简单可行,但无法实现复杂推理。多步推理是在单步推理建模直接关系的基础上进一步建模间接关系,即多步关系。多步关系是一种传递性约束,比如,a和b存在关系r1,b和c存在关系r2,这两步路径对应的直接关系是a和c存在关系r3。具体地,多步推理是由多个实体以及关系和实体推理出另一个实体的过程(图谱上的多跳的推理)。图4是本实施例应用于问答系统的构架图,其输入是一个具体的查询问题,如“张三在什么单位工作?”。通过本实施例结合图表示学习和深度强化学习的推理方法可直接在知识图谱中实现多跳推理,如,通过知识图谱中已知的三元组“<张三,同事,李四>,<李四,单位,中国银行>”推理出“<张三,工作于,中国银行>”,问答系统直接输出“中国银行”。由于多步推理在推理过程中获取了更多的信息,因此推理效果比明显优于单步推理,能够解决更复杂的实际问题。
作为一可选实施例,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
本实施例给出了提取知识的图拓扑结构信息和语义信息的一种技术方案。如图3所示,首先按照不同的关系类别将知识图谱数据分为n类:Rel_1,Rel_2,…,Rel_n;然后再将每一类别的当前节点和其邻居的节点划分为入关系集合(如Rel_1(in))和出关系集合(如Rel_1(out)),分别对入关系集合和出关系集合进行转换操作;最后,先对每一类别的入关系集合和出关系集合的转换结果进行聚合,再对n类的转换结果进行聚合,并由激活函数进行非线性化,得到知识图谱中实体的表示信息。
作为一可选实施例,所述关系图神经网络进行双重聚合的操作表示为:
式中,表示当前节点Vi的第l层隐藏状态,表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,表示与Vi相邻并且关系为r的邻居节点集合,表示集合中元素的数量即关系为r的邻居节点的数量,表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
本实施例给出了双重聚合操作的定量表示。如上式所示,双重聚合对应公式中的两个求和公式,里层或右边的求和公式实现对节点聚合,外层或左边的求和公式实现对关系聚合。对每一层而言,利用上一层与节点(实体)vi有关系(边)r的实体vj的隐状态的加权聚合,同时添加上一层自身的隐状态信息从而计算每个实体节点vi本层最终的隐状态,并将其作为下一层的输入状态,不断迭代,直至结束。上式通过归一化(除以)求和累积相邻节点信息的转换为特征向量,最终得到叠加了多层的信息的结果。
作为一可选实施例,σ为ReLU函数,表达式为:
本实施例给出了一种具体的激活函数。本实施例选用ReLU函数为激活函数,其表达式如上式。激活函数一般用来对输出结果进行非线性化,或进行归一化用来表示概率。激活函数很多,即使ReLU函数也有不少变种,如后面出现的LeakyReLU。值得说明的是,本实施例的激活函数只是给出了一种较佳的实施例,并不否定和排斥其它可行的实施方式。
作为一可选实施例,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重其中表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
本实施例给出了强化学习模型的一种技术方案。与通常的强化学习模型一样,本实施例的强化学习模型也是由环境、状态、动作和奖励4个部分组成。其中的环境由知识图谱图表示空间组成。其中的状态不是单一的知识表示,而是由知识表示、LSTM、图注意力机制三部分拼接而成,这是本实施例的重要改进之一。第一部分知识表示,充分利用由关系图神经网络模型获得的信息,为深度强化学习推理提供实体表示;第二部分的LSTM,将LSTM处理时序数据的优势应用于多步推理中,在多步推理过程中,记忆最有利于推理的信息;第三部分图注意力机制,将多步推理过程中推理的重点专注到推理中最重要的信息上,提高推理的准确率和效率。其中的动作是指交互过程中智能体单步移动选择的边。奖励部分采用软奖励、全局准确率、路径有效性、路径多样性的组合奖励形式。
图5为本发明实施例一种基于图表示学习和深度强化学习的知识推理装置的组成示意图,所述装置包括:
R-GNN构建模块11,用于构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息,输出包含所述信息的知识向量;
强化学习模型构建模块12,用于以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
作为一可选实施例,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
作为一可选实施例,所述关系图神经网络进行双重聚合的操作表示为:
式中,表示当前节点Vi的第l层隐藏状态,表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,表示与Vi相邻并且关系为r的邻居节点集合,表示集合中元素的数量即关系为r的邻居节点的数量,表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
作为一可选实施例,σ为ReLU函数,表达式为:
作为一可选实施例,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重其中表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于图表示学习和深度强化学习的知识推理方法,其特征在于,包括以下步骤:
构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
2.根据权利要求1所述的基于图表示学习和深度强化学习的知识推理方法,其特征在于,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
5.根据权利要求1所述的基于图表示学习和深度强化学习的知识推理方法,其特征在于,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重其中表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
6.一种基于图表示学习和深度强化学习的知识推理方法装置,其特征在于,包括:
R-GNN构建模块,用于构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息,输出包含所述信息的知识向量;
强化学习模型构建模块,用于以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
7.根据权利要求6所述的基于图表示学习和深度强化学习的知识推理装置,其特征在于,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
10.根据权利要求6所述的基于图表示学习和深度强化学习的知识推理装置,其特征在于,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重其中表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928277.0A CN113780002B (zh) | 2021-08-13 | 2021-08-13 | 基于图表示学习和深度强化学习的知识推理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110928277.0A CN113780002B (zh) | 2021-08-13 | 2021-08-13 | 基于图表示学习和深度强化学习的知识推理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780002A true CN113780002A (zh) | 2021-12-10 |
CN113780002B CN113780002B (zh) | 2023-11-28 |
Family
ID=78837558
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110928277.0A Active CN113780002B (zh) | 2021-08-13 | 2021-08-13 | 基于图表示学习和深度强化学习的知识推理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780002B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491541A (zh) * | 2022-03-31 | 2022-05-13 | 南京众智维信息科技有限公司 | 基于知识图谱路径分析的安全运营剧本自动化编排方法 |
CN114779792A (zh) * | 2022-06-20 | 2022-07-22 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
CN115640410A (zh) * | 2022-12-06 | 2023-01-24 | 南京航空航天大学 | 基于强化学习路径推理的知识图谱多跳问答方法 |
CN115906867A (zh) * | 2022-11-30 | 2023-04-04 | 华中师范大学 | 基于隐知识空间映射的试题特征提取及知识点标注方法 |
CN116610822A (zh) * | 2023-07-21 | 2023-08-18 | 南京邮电大学 | 一种面向糖尿病文本的知识图谱多跳推理方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581343A (zh) * | 2020-04-24 | 2020-08-25 | 北京航空航天大学 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
CN111597358A (zh) * | 2020-07-22 | 2020-08-28 | 中国人民解放军国防科技大学 | 基于关系注意力的知识图谱推理方法、装置和计算机设备 |
CN111680109A (zh) * | 2020-04-22 | 2020-09-18 | 北京三快在线科技有限公司 | 知识图谱表示学习模型训练方法、装置及电子设备 |
CN112288091A (zh) * | 2020-10-30 | 2021-01-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于多模态知识图谱的知识推理方法 |
CN112507077A (zh) * | 2020-12-15 | 2021-03-16 | 杭州电子科技大学 | 基于关系图注意力神经网络的事件时序关系识别方法 |
US20210081717A1 (en) * | 2018-05-18 | 2021-03-18 | Benevolentai Technology Limited | Graph neutral networks with attention |
CN112733027A (zh) * | 2021-01-08 | 2021-04-30 | 西安交通大学 | 一种基于局部和全局表示模型联合学习的混合推荐算法 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
-
2021
- 2021-08-13 CN CN202110928277.0A patent/CN113780002B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210081717A1 (en) * | 2018-05-18 | 2021-03-18 | Benevolentai Technology Limited | Graph neutral networks with attention |
CN111680109A (zh) * | 2020-04-22 | 2020-09-18 | 北京三快在线科技有限公司 | 知识图谱表示学习模型训练方法、装置及电子设备 |
CN111581343A (zh) * | 2020-04-24 | 2020-08-25 | 北京航空航天大学 | 基于图卷积神经网络的强化学习知识图谱推理方法及装置 |
CN111597358A (zh) * | 2020-07-22 | 2020-08-28 | 中国人民解放军国防科技大学 | 基于关系注意力的知识图谱推理方法、装置和计算机设备 |
CN112288091A (zh) * | 2020-10-30 | 2021-01-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 基于多模态知识图谱的知识推理方法 |
CN112507077A (zh) * | 2020-12-15 | 2021-03-16 | 杭州电子科技大学 | 基于关系图注意力神经网络的事件时序关系识别方法 |
CN112733027A (zh) * | 2021-01-08 | 2021-04-30 | 西安交通大学 | 一种基于局部和全局表示模型联合学习的混合推荐算法 |
CN113010691A (zh) * | 2021-03-30 | 2021-06-22 | 电子科技大学 | 一种基于图神经网络的知识图谱推理关系预测方法 |
Non-Patent Citations (3)
Title |
---|
HENG WANG 等: "Incorporating graph attention mechanism into knowledge graph reasoning based on deep reinforcement learning", 《PROCEEDINGS OF THE 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》, pages 2623 - 2631 * |
WILLIAM L. HAMILTON 等: "Representation Learning on Graphs: Methods and Applications", 《ARXIV:1709.05584V3》, pages 1 - 24 * |
XI VICTORIA LIN 等: "Multi-hop knowledge graph reasoning with reward shaping", 《ARXIV:1808. 10568》, pages 1 - 12 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491541A (zh) * | 2022-03-31 | 2022-05-13 | 南京众智维信息科技有限公司 | 基于知识图谱路径分析的安全运营剧本自动化编排方法 |
CN114779792A (zh) * | 2022-06-20 | 2022-07-22 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
CN114779792B (zh) * | 2022-06-20 | 2022-09-09 | 湖南大学 | 基于模仿与强化学习的医药机器人自主避障方法及系统 |
CN115906867A (zh) * | 2022-11-30 | 2023-04-04 | 华中师范大学 | 基于隐知识空间映射的试题特征提取及知识点标注方法 |
CN115906867B (zh) * | 2022-11-30 | 2023-10-31 | 华中师范大学 | 基于隐知识空间映射的试题特征提取及知识点标注方法 |
CN115640410A (zh) * | 2022-12-06 | 2023-01-24 | 南京航空航天大学 | 基于强化学习路径推理的知识图谱多跳问答方法 |
CN116610822A (zh) * | 2023-07-21 | 2023-08-18 | 南京邮电大学 | 一种面向糖尿病文本的知识图谱多跳推理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113780002B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Jkt: A joint graph convolutional network based deep knowledge tracing | |
CN113780002B (zh) | 基于图表示学习和深度强化学习的知识推理方法及装置 | |
CN112288091B (zh) | 基于多模态知识图谱的知识推理方法 | |
Ta et al. | Adaptive spatio-temporal graph neural network for traffic forecasting | |
Zhu et al. | A survey on graph structure learning: Progress and opportunities | |
CN113299354B (zh) | 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法 | |
CN115640410B (zh) | 基于强化学习路径推理的知识图谱多跳问答方法 | |
CN113190688B (zh) | 基于逻辑推理和图卷积的复杂网络链接预测方法及系统 | |
CN110851566A (zh) | 一种改进的可微分网络结构搜索的方法 | |
CN113486190A (zh) | 一种融合实体图像信息和实体类别信息的多模态知识表示方法 | |
CN112463987A (zh) | 一种中国古典园林知识图谱补全与认知推理方法 | |
CN112417289A (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN113962358A (zh) | 一种基于时序超图注意力神经网络的信息扩散预测方法 | |
Pal et al. | Deep learning for network analysis: problems, approaches and challenges | |
CN114254093A (zh) | 多空间知识增强的知识图谱问答方法及系统 | |
Xue et al. | A graph regularized point process model for event propagation sequence | |
Yang et al. | Noah: Neural-optimized A* search algorithm for graph edit distance computation | |
Ouyang et al. | Domain adversarial graph neural network with cross-city graph structure learning for traffic prediction | |
Li et al. | ANN: a heuristic search algorithm based on artificial neural networks | |
Li et al. | Reinforcement learning with dual attention guided graph convolution for relation extraction | |
CN115545833A (zh) | 一种基于用户社交信息的推荐方法及系统 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
CN114399048A (zh) | 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统 | |
Ababio et al. | Link prediction based on heuristics and graph attention | |
Wang et al. | A Knowledge Graph Reasoning Approach Integrating Attention-based LSTM and Multi-Agent Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |