CN113780002A - 基于图表示学习和深度强化学习的知识推理方法及装置 - Google Patents

基于图表示学习和深度强化学习的知识推理方法及装置 Download PDF

Info

Publication number
CN113780002A
CN113780002A CN202110928277.0A CN202110928277A CN113780002A CN 113780002 A CN113780002 A CN 113780002A CN 202110928277 A CN202110928277 A CN 202110928277A CN 113780002 A CN113780002 A CN 113780002A
Authority
CN
China
Prior art keywords
knowledge
graph
reasoning
reinforcement learning
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110928277.0A
Other languages
English (en)
Other versions
CN113780002B (zh
Inventor
赵刚
宋浩楠
王兴芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202110928277.0A priority Critical patent/CN113780002B/zh
Publication of CN113780002A publication Critical patent/CN113780002A/zh
Application granted granted Critical
Publication of CN113780002B publication Critical patent/CN113780002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种基于图表示学习和深度强化学习的知识推理方法及装置。所述方法包括:构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。由于图表示学习后的知识向量含有丰富的以关系类别为主的图拓扑信息和语义信息,提供了强大的单步推理信息,而强化学习推理过程中,通过智能体和环境不断地交互进行多步推理,因此,本发明基于图表示学习和强化学习的推理方法,通过将单步推理和多步推理互补结合,可提高推理效率、增强推理的可解释性。

Description

基于图表示学习和深度强化学习的知识推理方法及装置
技术领域
本发明属于人工智能技术领域,具体涉及一种基于图表示学习和深度强化学习的知识推理方法及装置。
背景技术
近年来,随着云计算、物联网等技术的快速发展,数据规模呈现爆发式增长,如何组织和利用数据中的知识备受关注,知识图谱由此应运而生。如今,知识图谱已被广泛运用于搜索引擎、问答系统和推荐系统等领域。现阶段,大批知识图谱已经涌现出来,其中具有代表性的通用知识图谱有Freebase、DBpedia、NELL等。然而,由于知识图谱本身的开放性和构建方法的多样性,导致知识图谱中存在大量实体和关系缺失情况,知识图谱的不完整问题给实际的应用带来了很多障碍,成了人工智能进一步发展的重要制约因素。知识推理方法成为解决该类问题的重要方法。知识推理是指利用已经存在的知识推出未知的或者新知识的方法。面向知识图谱的知识推理中,知识推理主要划分为基于逻辑的推理,基于表示学习的推理、基于图的推理、基于神经网络的推理。其中,基于逻辑的推理是指通过一阶谓词逻辑、描述逻辑以及规则等推理出新的知识;基于表示学习的推理方法主要是利用知识表示学习模型,将知识图谱中的实体和关系映射到低维向量空间,并对知识图谱的低维向量表示进行计算来实现推理;基于图的推理是指在图上进行随机游走以判断两节点间是否存在路径,进而实现推理任务;基于神经网络的推理主要是利用神经网络直接建模学习推理过程以实现推理。
上述现有知识推理方法主要存在以下问题:一是知识图谱自身信息未能充分挖掘利用,如知识图谱的图拓扑结构信息、属性信息、边的描述信息等;二是随着大量新方法(如神经网络、生成对抗模仿学习等)的引入,使得模型参数增加,训练难度增大,推理的可解释性大大减弱;三是推理方法的鲁棒性变差,模型的改进更倾向于解决某一个具体应用问题,或者倾向于某个具体的数据集,模型迁移性差。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种基于图表示学习和深度强化学习的知识推理方法及装置。
为了实现上述目的,本发明采用以下技术方案。
第一方面,本发明提供一种基于图表示学习和深度强化学习的知识推理方法,包括以下步骤:
构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
进一步地,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
更进一步地,所述关系图神经网络进行双重聚合的操作表示为:
Figure BDA0003209933800000021
式中,
Figure BDA0003209933800000031
表示当前节点Vi的第l层隐藏状态,
Figure BDA0003209933800000032
表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,
Figure BDA0003209933800000033
表示与Vi相邻并且关系为r的邻居节点集合,
Figure BDA0003209933800000034
表示集合
Figure BDA0003209933800000035
中元素的数量即关系为r的邻居节点的数量,
Figure BDA0003209933800000036
表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,
Figure BDA0003209933800000037
表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
更进一步地,σ为ReLU函数,表达式为:
Figure BDA0003209933800000038
进一步地,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为
Figure BDA0003209933800000039
Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重
Figure BDA00032099338000000310
其中
Figure BDA00032099338000000311
表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
第二方面,本发明提供一种基于图表示学习和深度强化学习的知识推理装置,包括:
R-GNN构建模块,用于构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
强化学习模型构建模块,用于以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
进一步地,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
更进一步地,所述关系图神经网络进行双重聚合的操作表示为:
Figure BDA0003209933800000041
式中,
Figure BDA0003209933800000042
表示当前节点Vi的第l层隐藏状态,
Figure BDA0003209933800000043
表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,
Figure BDA0003209933800000044
表示与Vi相邻并且关系为r的邻居节点集合,
Figure BDA0003209933800000045
表示集合
Figure BDA0003209933800000046
中元素的数量即关系为r的邻居节点的数量,
Figure BDA0003209933800000047
表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,
Figure BDA0003209933800000048
表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
更进一步地,σ为ReLU函数,表达式为:
Figure BDA0003209933800000049
进一步地,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为
Figure BDA0003209933800000051
Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重
Figure BDA0003209933800000052
其中
Figure BDA0003209933800000053
表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Figure BDA0003209933800000054
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
与现有技术相比,本发明具有以下有益效果。
本发明通过构建关系图神经网络模型,根据输入知识图谱的不同关系类别提取知识的图拓扑结构信息和语义信息,以提取的信息为基础构建强化学习模型,通过强化学习智能体和环境的交互实现知识推理。图表示学习后的知识向量含有丰富的以关系类别为主的图拓扑信息和语义信息,提供了强大的单步推理信息,而强化学习推理过程中,通过智能体和环境不断地交互进行多步推理,因此,本发明基于图表示学习和强化学习的推理方法,通过将单步推理和多步推理互补结合,可提高推理效率、增强推理的可解释性。
附图说明
图1为本发明实施例一种基于图表示学习和深度强化学习的知识推理方法的流程图。
图2为本发明整体构架示意图。
图3为关系图神经网络R-GNN示意图。
图4为本发明应用于问答系统的构架示意图。
图5为本发明实施例一种基于图表示学习和深度强化学习的知识推理装置的方框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种基于图表示学习和深度强化学习的知识推理方法的流程图,包括以下步骤:
步骤101,构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
步骤102,以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
本实施例提供一种结合图表示学习和深度强化学习的知识推理方法,该方法可应用于基于知识图谱的问答系统。它的整体构架如图2所示,主要由两个模块构成,一个是图表示学习模块,代替了传统的全局图卷积处理,本模块为了结合强化学习方法,提出关系图R-GNN的图卷积表示学习算法,该方法按照关系类别分别提取知识图谱中的知识的图拓扑结构信息和语义信息,并将其融入到知识图谱的向量表示中;另一个是深度强化学习模块,该模块将第一部分获取的信息作为深度强化学习的基础,通过建模强化学习模型,实现知识推理任务。
本实施例中,步骤101主要用于提取知识的图拓扑结构信息和语义信息。本实施例通过构建一个关系图神经网络模型R-GNN,以知识图谱数据为输入,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息,输出包含所述信息的知识向量。R-GNN是在基于GNN的聚合邻居节点操作基础上,对GNN模型进行的改进。面向知识推理任务,将图中节点的邻居节点按照不同类别进行划分,然后在不同类别中单独进行邻居节点聚合操作,也就是将GNN的单重聚合操作改为了基于关系和节点(实体)的双重聚合过程。针对问答系统的应用而言,该模块的输入为应用领域的知识图谱数据,包括头实体、关系和尾实体,如“北京(头实体)位于(关系)中国(尾实体)”;该模块的输出为该应用领域的知识图谱数据对应的向量值;中间变量为R-GNN模型的参数值,此参数为图神经网络中的网络权重,它的主要作用是按照不同关系类型提取知识的图拓扑结构信息和语义信息,并将提取到的信息聚合到对应的向量中。
本实施例中,步骤102主要用于进行知识推理输出推理结果。本实施例通过构建强化学习模型,以提取的包含图拓扑结构信息和语义信息的知识向量为基础,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏。强化学习把学习看作试探评价过程,Agent选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给Agent,Agent根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
本实施例经过图表示学习获得的知识向量,含有丰富的以关系类别为主的图拓扑信息和语义信息,提供了强大的单步推理信息;而强化学习推理过程中,通过智能体和环境不断地交互实现多步推理。因此,本实施例是将图表示学习和强化学习结合,通过单步推理和多步推理的互补结合提高推理性能。单步推理是指用直接关系即知识图谱中的三元组(头实体-关系-尾实体)进行学习和推理。具体地,单步推理是在知识图谱中由一个实体和一个关系推理出另一个实体的过程(图谱中的单(一)跳的推理)。单步推理的优点是简单可行,但无法实现复杂推理。多步推理是在单步推理建模直接关系的基础上进一步建模间接关系,即多步关系。多步关系是一种传递性约束,比如,a和b存在关系r1,b和c存在关系r2,这两步路径对应的直接关系是a和c存在关系r3。具体地,多步推理是由多个实体以及关系和实体推理出另一个实体的过程(图谱上的多跳的推理)。图4是本实施例应用于问答系统的构架图,其输入是一个具体的查询问题,如“张三在什么单位工作?”。通过本实施例结合图表示学习和深度强化学习的推理方法可直接在知识图谱中实现多跳推理,如,通过知识图谱中已知的三元组“<张三,同事,李四>,<李四,单位,中国银行>”推理出“<张三,工作于,中国银行>”,问答系统直接输出“中国银行”。由于多步推理在推理过程中获取了更多的信息,因此推理效果比明显优于单步推理,能够解决更复杂的实际问题。
作为一可选实施例,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
本实施例给出了提取知识的图拓扑结构信息和语义信息的一种技术方案。如图3所示,首先按照不同的关系类别将知识图谱数据分为n类:Rel_1,Rel_2,…,Rel_n;然后再将每一类别的当前节点和其邻居的节点划分为入关系集合(如Rel_1(in))和出关系集合(如Rel_1(out)),分别对入关系集合和出关系集合进行转换操作;最后,先对每一类别的入关系集合和出关系集合的转换结果进行聚合,再对n类的转换结果进行聚合,并由激活函数进行非线性化,得到知识图谱中实体的表示信息。
作为一可选实施例,所述关系图神经网络进行双重聚合的操作表示为:
Figure BDA0003209933800000091
式中,
Figure BDA0003209933800000092
表示当前节点Vi的第l层隐藏状态,
Figure BDA0003209933800000093
表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,
Figure BDA0003209933800000094
表示与Vi相邻并且关系为r的邻居节点集合,
Figure BDA0003209933800000095
表示集合
Figure BDA0003209933800000096
中元素的数量即关系为r的邻居节点的数量,
Figure BDA0003209933800000097
表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,
Figure BDA0003209933800000098
表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
本实施例给出了双重聚合操作的定量表示。如上式所示,双重聚合对应公式中的两个求和公式,里层或右边的求和公式实现对节点聚合,外层或左边的求和公式实现对关系聚合。对每一层而言,利用上一层与节点(实体)vi有关系(边)r的实体vj的隐状态的加权聚合,同时添加上一层自身的隐状态信息
Figure BDA0003209933800000099
从而计算每个实体节点vi本层最终的隐状态,并将其作为下一层的输入状态,不断迭代,直至结束。上式通过归一化(除以
Figure BDA00032099338000000910
)求和累积相邻节点信息的转换为特征向量,最终得到叠加了多层的信息的结果。
作为一可选实施例,σ为ReLU函数,表达式为:
Figure BDA00032099338000000911
本实施例给出了一种具体的激活函数。本实施例选用ReLU函数为激活函数,其表达式如上式。激活函数一般用来对输出结果进行非线性化,或进行归一化用来表示概率。激活函数很多,即使ReLU函数也有不少变种,如后面出现的LeakyReLU。值得说明的是,本实施例的激活函数只是给出了一种较佳的实施例,并不否定和排斥其它可行的实施方式。
作为一可选实施例,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为
Figure BDA0003209933800000101
Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重
Figure BDA0003209933800000102
其中
Figure BDA0003209933800000103
表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
本实施例给出了强化学习模型的一种技术方案。与通常的强化学习模型一样,本实施例的强化学习模型也是由环境、状态、动作和奖励4个部分组成。其中的环境由知识图谱图表示空间组成。其中的状态不是单一的知识表示,而是由知识表示、LSTM、图注意力机制三部分拼接而成,这是本实施例的重要改进之一。第一部分知识表示,充分利用由关系图神经网络模型获得的信息,为深度强化学习推理提供实体表示;第二部分的LSTM,将LSTM处理时序数据的优势应用于多步推理中,在多步推理过程中,记忆最有利于推理的信息;第三部分图注意力机制,将多步推理过程中推理的重点专注到推理中最重要的信息上,提高推理的准确率和效率。其中的动作是指交互过程中智能体单步移动选择的边。奖励部分采用软奖励、全局准确率、路径有效性、路径多样性的组合奖励形式。
图5为本发明实施例一种基于图表示学习和深度强化学习的知识推理装置的组成示意图,所述装置包括:
R-GNN构建模块11,用于构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息,输出包含所述信息的知识向量;
强化学习模型构建模块12,用于以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。后面的实施例也是如此,均不再展开说明。
作为一可选实施例,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
作为一可选实施例,所述关系图神经网络进行双重聚合的操作表示为:
Figure BDA0003209933800000111
式中,
Figure BDA0003209933800000112
表示当前节点Vi的第l层隐藏状态,
Figure BDA0003209933800000113
表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,
Figure BDA0003209933800000114
表示与Vi相邻并且关系为r的邻居节点集合,
Figure BDA0003209933800000115
表示集合
Figure BDA0003209933800000116
中元素的数量即关系为r的邻居节点的数量,
Figure BDA0003209933800000117
表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,
Figure BDA0003209933800000121
表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
作为一可选实施例,σ为ReLU函数,表达式为:
Figure BDA0003209933800000122
作为一可选实施例,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为
Figure BDA0003209933800000123
Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重
Figure BDA0003209933800000124
其中
Figure BDA0003209933800000125
表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于图表示学习和深度强化学习的知识推理方法,其特征在于,包括以下步骤:
构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息;
以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
2.根据权利要求1所述的基于图表示学习和深度强化学习的知识推理方法,其特征在于,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
3.根据权利要求2所述的基于图表示学习和深度强化学习的知识推理方法,其特征在于,所述关系图神经网络进行双重聚合的操作表示为:
Figure FDA0003209933790000011
式中,
Figure FDA0003209933790000012
表示当前节点Vi的第l层隐藏状态,
Figure FDA0003209933790000013
表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,
Figure FDA0003209933790000014
表示与Vi相邻并且关系为r的邻居节点集合,
Figure FDA0003209933790000015
表示集合
Figure FDA0003209933790000016
中元素的数量即关系为r的邻居节点的数量,
Figure FDA0003209933790000017
表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,
Figure FDA0003209933790000021
表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
4.根据权利要求3所述的基于图表示学习和深度强化学习的知识推理方法,其特征在于,σ为ReLU函数,表达式为:
Figure FDA0003209933790000022
5.根据权利要求1所述的基于图表示学习和深度强化学习的知识推理方法,其特征在于,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为
Figure FDA0003209933790000023
Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重
Figure FDA0003209933790000024
其中
Figure FDA0003209933790000025
表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
6.一种基于图表示学习和深度强化学习的知识推理方法装置,其特征在于,包括:
R-GNN构建模块,用于构建关系图神经网络模型,将知识图谱数据输入到所述模型,根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息,输出包含所述信息的知识向量;
强化学习模型构建模块,用于以提取的信息为基础,构建强化学习模型,通过强化学习智能体和环境的交互进行知识推理,输出推理结果。
7.根据权利要求6所述的基于图表示学习和深度强化学习的知识推理装置,其特征在于,所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息,具体包括:
将知识图谱数据按照不同的关系类别进行分类;
针对每一类别的不同知识集合进行信息聚合,得到每一类别的节点表示;
将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合,并分别对这两种关系集合进行转换操作,入关系集合是邻居节点指向当前节点的边的集合,出关系集合是当前节点指向邻居节点的边的集合;
将所有类别得到的信息进行聚合,并由激活函数进行非线性化,获得知识图谱中实体的表示信息。
8.根据权利要求7所述的基于图表示学习和深度强化学习的知识推理装置,其特征在于,所述关系图神经网络进行双重聚合的操作表示为:
Figure FDA0003209933790000031
式中,
Figure FDA0003209933790000032
表示当前节点Vi的第l层隐藏状态,
Figure FDA0003209933790000033
表示Vi的邻居节点Vj的第l层隐藏状态,σ是一种非线性激活函数,
Figure FDA0003209933790000034
表示与Vi相邻并且关系为r的邻居节点集合,
Figure FDA0003209933790000035
表示集合
Figure FDA0003209933790000036
中元素的数量即关系为r的邻居节点的数量,
Figure FDA0003209933790000037
表示关系为r的邻居节点的第l层隐藏状态的转移权值,R为Vi与邻居节点的关系集合,
Figure FDA0003209933790000038
表示Vi的第l层隐藏状态的转移权值,表示自环即自己指向自己的权重。
9.根据权利要求8所述的基于图表示学习和深度强化学习的知识推理装置,其特征在于,σ为ReLU函数,表达式为:
Figure FDA0003209933790000039
10.根据权利要求6所述的基于图表示学习和深度强化学习的知识推理装置,其特征在于,所述强化学习模型包括环境、状态、动作和奖励,其中,
环境由知识图谱图表示空间组成;
状态由知识表示、LSTM、图注意力机制三部分拼接而成;状态的知识表示部分为mt=et,et为当前实体经过图表示学习后的嵌入向量;状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元,记为ht=LSTM(ht-1,mt),其中,h0=0;状态的图注意力机制部分为
Figure FDA0003209933790000041
Ni为实体ei的周围实体的数量,aik为实体ei和其周围实体ek之间的注意力权重
Figure FDA0003209933790000042
其中
Figure FDA0003209933790000043
表示权重向量,W表示线性转移矩阵;
动作是交互过程中智能体单步移动选择的边At={(r',e')|(et,r',e')∈G},其中et表示当前时刻t智能体所在位置的实体,r'、e'分别为与实体et相连接的关系和实体,G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据;
奖励包括推理过程获得的奖励和软奖励,表示为:
R(sT)=Rglobal(sT)+(1-Rglobal(sT))f(es,rq,eT)
Rglobal(sT)=Rg+Rd+Rp
其中,R(sT)为智能体最终状态sT的奖励,Rglobal(sT)为推理过程获得的奖励,Rg、Rd和Rp分别为全局奖励、路径多样性奖励和路径有效性奖励,f(es,rq,eT)为软奖励,es、rq和eT分别为头实体、关系和尾实体。
CN202110928277.0A 2021-08-13 2021-08-13 基于图表示学习和深度强化学习的知识推理方法及装置 Active CN113780002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110928277.0A CN113780002B (zh) 2021-08-13 2021-08-13 基于图表示学习和深度强化学习的知识推理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110928277.0A CN113780002B (zh) 2021-08-13 2021-08-13 基于图表示学习和深度强化学习的知识推理方法及装置

Publications (2)

Publication Number Publication Date
CN113780002A true CN113780002A (zh) 2021-12-10
CN113780002B CN113780002B (zh) 2023-11-28

Family

ID=78837558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110928277.0A Active CN113780002B (zh) 2021-08-13 2021-08-13 基于图表示学习和深度强化学习的知识推理方法及装置

Country Status (1)

Country Link
CN (1) CN113780002B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491541A (zh) * 2022-03-31 2022-05-13 南京众智维信息科技有限公司 基于知识图谱路径分析的安全运营剧本自动化编排方法
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN115640410A (zh) * 2022-12-06 2023-01-24 南京航空航天大学 基于强化学习路径推理的知识图谱多跳问答方法
CN115906867A (zh) * 2022-11-30 2023-04-04 华中师范大学 基于隐知识空间映射的试题特征提取及知识点标注方法
CN116610822A (zh) * 2023-07-21 2023-08-18 南京邮电大学 一种面向糖尿病文本的知识图谱多跳推理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN111597358A (zh) * 2020-07-22 2020-08-28 中国人民解放军国防科技大学 基于关系注意力的知识图谱推理方法、装置和计算机设备
CN111680109A (zh) * 2020-04-22 2020-09-18 北京三快在线科技有限公司 知识图谱表示学习模型训练方法、装置及电子设备
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN112507077A (zh) * 2020-12-15 2021-03-16 杭州电子科技大学 基于关系图注意力神经网络的事件时序关系识别方法
US20210081717A1 (en) * 2018-05-18 2021-03-18 Benevolentai Technology Limited Graph neutral networks with attention
CN112733027A (zh) * 2021-01-08 2021-04-30 西安交通大学 一种基于局部和全局表示模型联合学习的混合推荐算法
CN113010691A (zh) * 2021-03-30 2021-06-22 电子科技大学 一种基于图神经网络的知识图谱推理关系预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210081717A1 (en) * 2018-05-18 2021-03-18 Benevolentai Technology Limited Graph neutral networks with attention
CN111680109A (zh) * 2020-04-22 2020-09-18 北京三快在线科技有限公司 知识图谱表示学习模型训练方法、装置及电子设备
CN111581343A (zh) * 2020-04-24 2020-08-25 北京航空航天大学 基于图卷积神经网络的强化学习知识图谱推理方法及装置
CN111597358A (zh) * 2020-07-22 2020-08-28 中国人民解放军国防科技大学 基于关系注意力的知识图谱推理方法、装置和计算机设备
CN112288091A (zh) * 2020-10-30 2021-01-29 西南电子技术研究所(中国电子科技集团公司第十研究所) 基于多模态知识图谱的知识推理方法
CN112507077A (zh) * 2020-12-15 2021-03-16 杭州电子科技大学 基于关系图注意力神经网络的事件时序关系识别方法
CN112733027A (zh) * 2021-01-08 2021-04-30 西安交通大学 一种基于局部和全局表示模型联合学习的混合推荐算法
CN113010691A (zh) * 2021-03-30 2021-06-22 电子科技大学 一种基于图神经网络的知识图谱推理关系预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HENG WANG 等: "Incorporating graph attention mechanism into knowledge graph reasoning based on deep reinforcement learning", 《PROCEEDINGS OF THE 2019 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING AND THE 9TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》, pages 2623 - 2631 *
WILLIAM L. HAMILTON 等: "Representation Learning on Graphs: Methods and Applications", 《ARXIV:1709.05584V3》, pages 1 - 24 *
XI VICTORIA LIN 等: "Multi-hop knowledge graph reasoning with reward shaping", 《ARXIV:1808. 10568》, pages 1 - 12 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491541A (zh) * 2022-03-31 2022-05-13 南京众智维信息科技有限公司 基于知识图谱路径分析的安全运营剧本自动化编排方法
CN114779792A (zh) * 2022-06-20 2022-07-22 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN114779792B (zh) * 2022-06-20 2022-09-09 湖南大学 基于模仿与强化学习的医药机器人自主避障方法及系统
CN115906867A (zh) * 2022-11-30 2023-04-04 华中师范大学 基于隐知识空间映射的试题特征提取及知识点标注方法
CN115906867B (zh) * 2022-11-30 2023-10-31 华中师范大学 基于隐知识空间映射的试题特征提取及知识点标注方法
CN115640410A (zh) * 2022-12-06 2023-01-24 南京航空航天大学 基于强化学习路径推理的知识图谱多跳问答方法
CN116610822A (zh) * 2023-07-21 2023-08-18 南京邮电大学 一种面向糖尿病文本的知识图谱多跳推理方法

Also Published As

Publication number Publication date
CN113780002B (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
Song et al. Jkt: A joint graph convolutional network based deep knowledge tracing
CN113780002B (zh) 基于图表示学习和深度强化学习的知识推理方法及装置
CN112288091B (zh) 基于多模态知识图谱的知识推理方法
Ta et al. Adaptive spatio-temporal graph neural network for traffic forecasting
Zhu et al. A survey on graph structure learning: Progress and opportunities
CN113299354B (zh) 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN115640410B (zh) 基于强化学习路径推理的知识图谱多跳问答方法
CN113190688B (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN110851566A (zh) 一种改进的可微分网络结构搜索的方法
CN113486190A (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN112463987A (zh) 一种中国古典园林知识图谱补全与认知推理方法
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
CN113962358A (zh) 一种基于时序超图注意力神经网络的信息扩散预测方法
Pal et al. Deep learning for network analysis: problems, approaches and challenges
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
Xue et al. A graph regularized point process model for event propagation sequence
Yang et al. Noah: Neural-optimized A* search algorithm for graph edit distance computation
Ouyang et al. Domain adversarial graph neural network with cross-city graph structure learning for traffic prediction
Li et al. ANN: a heuristic search algorithm based on artificial neural networks
Li et al. Reinforcement learning with dual attention guided graph convolution for relation extraction
CN115545833A (zh) 一种基于用户社交信息的推荐方法及系统
CN115204171A (zh) 基于超图神经网络的文档级事件抽取方法及系统
CN114399048A (zh) 基于图卷积神经网络与类型嵌入的教育领域联合知识点预测方法及系统
Ababio et al. Link prediction based on heuristics and graph attention
Wang et al. A Knowledge Graph Reasoning Approach Integrating Attention-based LSTM and Multi-Agent Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant