CN113780002B

CN113780002B - 基于图表示学习和深度强化学习的知识推理方法及装置

Info

Publication number: CN113780002B
Application number: CN202110928277.0A
Authority: CN
Inventors: 赵刚; 宋浩楠; 王兴芬
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2023-11-28
Anticipated expiration: 2041-08-13
Also published as: CN113780002A

Abstract

本发明提供一种基于图表示学习和深度强化学习的知识推理方法及装置。所述方法包括：构建关系图神经网络模型，将知识图谱数据输入到所述模型，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息；以提取的信息为基础，构建强化学习模型，通过强化学习智能体和环境的交互进行知识推理，输出推理结果。由于图表示学习后的知识向量含有丰富的以关系类别为主的图拓扑信息和语义信息，提供了强大的单步推理信息，而强化学习推理过程中，通过智能体和环境不断地交互进行多步推理，因此，本发明基于图表示学习和强化学习的推理方法，通过将单步推理和多步推理互补结合，可提高推理效率、增强推理的可解释性。

Description

基于图表示学习和深度强化学习的知识推理方法及装置

技术领域

本发明属于人工智能技术领域，具体涉及一种基于图表示学习和深度强化学习的知识推理方法及装置。

背景技术

近年来，随着云计算、物联网等技术的快速发展，数据规模呈现爆发式增长，如何组织和利用数据中的知识备受关注，知识图谱由此应运而生。如今，知识图谱已被广泛运用于搜索引擎、问答系统和推荐系统等领域。现阶段，大批知识图谱已经涌现出来，其中具有代表性的通用知识图谱有Freebase、DBpedia、NELL等。然而，由于知识图谱本身的开放性和构建方法的多样性，导致知识图谱中存在大量实体和关系缺失情况，知识图谱的不完整问题给实际的应用带来了很多障碍，成了人工智能进一步发展的重要制约因素。知识推理方法成为解决该类问题的重要方法。知识推理是指利用已经存在的知识推出未知的或者新知识的方法。面向知识图谱的知识推理中，知识推理主要划分为基于逻辑的推理，基于表示学习的推理、基于图的推理、基于神经网络的推理。其中，基于逻辑的推理是指通过一阶谓词逻辑、描述逻辑以及规则等推理出新的知识；基于表示学习的推理方法主要是利用知识表示学习模型，将知识图谱中的实体和关系映射到低维向量空间，并对知识图谱的低维向量表示进行计算来实现推理；基于图的推理是指在图上进行随机游走以判断两节点间是否存在路径，进而实现推理任务；基于神经网络的推理主要是利用神经网络直接建模学习推理过程以实现推理。

上述现有知识推理方法主要存在以下问题：一是知识图谱自身信息未能充分挖掘利用，如知识图谱的图拓扑结构信息、属性信息、边的描述信息等；二是随着大量新方法(如神经网络、生成对抗模仿学习等)的引入，使得模型参数增加，训练难度增大，推理的可解释性大大减弱；三是推理方法的鲁棒性变差，模型的改进更倾向于解决某一个具体应用问题，或者倾向于某个具体的数据集，模型迁移性差。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种基于图表示学习和深度强化学习的知识推理方法及装置。

为了实现上述目的，本发明采用以下技术方案。

第一方面，本发明提供一种基于图表示学习和深度强化学习的知识推理方法，包括以下步骤：

构建关系图神经网络模型，将知识图谱数据输入到所述模型，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息；

以提取的信息为基础，构建强化学习模型，通过强化学习智能体和环境的交互进行知识推理，输出推理结果。

进一步地，所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息，具体包括：

将知识图谱数据按照不同的关系类别进行分类；

针对每一类别的不同知识集合进行信息聚合，得到每一类别的节点表示；

将每一类别的当前节点和其邻居的节点划分为入关系集合和出关系集合，并分别对这两种关系集合进行转换操作，入关系集合是邻居节点指向当前节点的边的集合，出关系集合是当前节点指向邻居节点的边的集合；

将所有类别得到的信息进行聚合，并由激活函数进行非线性化，获得知识图谱中实体的表示信息。

更进一步地，所述关系图神经网络进行双重聚合的操作表示为：

式中，表示当前节点V_i的第l层隐藏状态，/>表示V_i的邻居节点V_j的第l层隐藏状态，σ是一种非线性激活函数，/>表示与V_i相邻并且关系为r的邻居节点集合，/>表示集合/>中元素的数量即关系为r的邻居节点的数量，/>表示关系为r的邻居节点的第l层隐藏状态的转移权值，R为V_i与邻居节点的关系集合，/>表示V_i的第l层隐藏状态的转移权值，表示自环即自己指向自己的权重。

更进一步地，σ为ReLU函数，表达式为：

进一步地，所述强化学习模型包括环境、状态、动作和奖励，其中，

环境由知识图谱图表示空间组成；

状态由知识表示、LSTM、图注意力机制三部分拼接而成；状态的知识表示部分为m_t＝e_t，e_t为当前实体经过图表示学习后的嵌入向量；状态的LSTM部分是由强化学习智能体在知识图谱环境中推理过程中的记忆单元，记为h_t＝LSTM(h_t-1,m_t)，其中，h₀＝0；状态的图注意力机制部分为N_i为实体e_i的周围实体的数量，a_ik为实体e_i和其周围实体e_k之间的注意力权重/>其中/>表示权重向量，W表示线性转移矩阵；

动作是交互过程中智能体单步移动选择的边A_t＝{(r',e')|(e_t,r',e')∈G}，其中e_t表示当前时刻t智能体所在位置的实体，r'、e'分别为与实体e_t相连接的关系和实体，G表示知识图谱中所有由头实体、关系和尾实体组成的三元组数据；

奖励包括推理过程获得的奖励和软奖励，表示为：

R(s_T)＝R_global(s_T)+(1-R_global(s_T))f(e_s,r_q,e_T)

R_global(s_T)＝R_g+R_d+R_p

其中，R(s_T)为智能体最终状态s_T的奖励，R_global(s_T)为推理过程获得的奖励，R_g、R_d和R_p分别为全局奖励、路径多样性奖励和路径有效性奖励，f(e_s,r_q,e_T)为软奖励，e_s、r_q和e_T分别为头实体、关系和尾实体。

第二方面，本发明提供一种基于图表示学习和深度强化学习的知识推理装置，包括：

R-GNN构建模块，用于构建关系图神经网络模型，将知识图谱数据输入到所述模型，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息；

强化学习模型构建模块，用于以提取的信息为基础，构建强化学习模型，通过强化学习智能体和环境的交互进行知识推理，输出推理结果。

将知识图谱数据按照不同的关系类别进行分类；

更进一步地，σ为ReLU函数，表达式为：

环境由知识图谱图表示空间组成；

奖励包括推理过程获得的奖励和软奖励，表示为：

R(s_T)＝R_global(s_T)+(1-R_global(s_T))f(e_s,r_q,e_T)

与现有技术相比，本发明具有以下有益效果。

本发明通过构建关系图神经网络模型，根据输入知识图谱的不同关系类别提取知识的图拓扑结构信息和语义信息，以提取的信息为基础构建强化学习模型，通过强化学习智能体和环境的交互实现知识推理。图表示学习后的知识向量含有丰富的以关系类别为主的图拓扑信息和语义信息，提供了强大的单步推理信息，而强化学习推理过程中，通过智能体和环境不断地交互进行多步推理，因此，本发明基于图表示学习和强化学习的推理方法，通过将单步推理和多步推理互补结合，可提高推理效率、增强推理的可解释性。

附图说明

图1为本发明实施例一种基于图表示学习和深度强化学习的知识推理方法的流程图。

图2为本发明整体构架示意图。

图3为关系图神经网络R-GNN示意图。

图4为本发明应用于问答系统的构架示意图。

图5为本发明实施例一种基于图表示学习和深度强化学习的知识推理装置的方框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种基于图表示学习和深度强化学习的知识推理方法的流程图，包括以下步骤：

步骤101，构建关系图神经网络模型，将知识图谱数据输入到所述模型，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息；

步骤102，以提取的信息为基础，构建强化学习模型，通过强化学习智能体和环境的交互进行知识推理，输出推理结果。

本实施例提供一种结合图表示学习和深度强化学习的知识推理方法，该方法可应用于基于知识图谱的问答系统。它的整体构架如图2所示，主要由两个模块构成，一个是图表示学习模块，代替了传统的全局图卷积处理，本模块为了结合强化学习方法，提出关系图R-GNN的图卷积表示学习算法，该方法按照关系类别分别提取知识图谱中的知识的图拓扑结构信息和语义信息，并将其融入到知识图谱的向量表示中；另一个是深度强化学习模块，该模块将第一部分获取的信息作为深度强化学习的基础，通过建模强化学习模型，实现知识推理任务。

本实施例中，步骤101主要用于提取知识的图拓扑结构信息和语义信息。本实施例通过构建一个关系图神经网络模型R-GNN，以知识图谱数据为输入，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息，输出包含所述信息的知识向量。R-GNN是在基于GNN的聚合邻居节点操作基础上，对GNN模型进行的改进。面向知识推理任务，将图中节点的邻居节点按照不同类别进行划分，然后在不同类别中单独进行邻居节点聚合操作，也就是将GNN的单重聚合操作改为了基于关系和节点(实体)的双重聚合过程。针对问答系统的应用而言，该模块的输入为应用领域的知识图谱数据，包括头实体、关系和尾实体，如“北京(头实体)位于(关系)中国(尾实体)”；该模块的输出为该应用领域的知识图谱数据对应的向量值；中间变量为R-GNN模型的参数值，此参数为图神经网络中的网络权重，它的主要作用是按照不同关系类型提取知识的图拓扑结构信息和语义信息，并将提取到的信息聚合到对应的向量中。

本实施例中，步骤102主要用于进行知识推理输出推理结果。本实施例通过构建强化学习模型，以提取的包含图拓扑结构信息和语义信息的知识向量为基础，通过强化学习智能体和环境的交互进行知识推理，输出推理结果。强化学习是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

本实施例经过图表示学习获得的知识向量，含有丰富的以关系类别为主的图拓扑信息和语义信息，提供了强大的单步推理信息；而强化学习推理过程中，通过智能体和环境不断地交互实现多步推理。因此，本实施例是将图表示学习和强化学习结合，通过单步推理和多步推理的互补结合提高推理性能。单步推理是指用直接关系即知识图谱中的三元组(头实体-关系-尾实体)进行学习和推理。具体地，单步推理是在知识图谱中由一个实体和一个关系推理出另一个实体的过程(图谱中的单(一)跳的推理)。单步推理的优点是简单可行，但无法实现复杂推理。多步推理是在单步推理建模直接关系的基础上进一步建模间接关系，即多步关系。多步关系是一种传递性约束，比如，a和b存在关系r1，b和c存在关系r2，这两步路径对应的直接关系是a和c存在关系r3。具体地，多步推理是由多个实体以及关系和实体推理出另一个实体的过程(图谱上的多跳的推理)。图4是本实施例应用于问答系统的构架图，其输入是一个具体的查询问题，如“张三在什么单位工作？”。通过本实施例结合图表示学习和深度强化学习的推理方法可直接在知识图谱中实现多跳推理，如，通过知识图谱中已知的三元组“<张三，同事，李四>，<李四，单位，中国银行>”推理出“<张三，工作于，中国银行>”，问答系统直接输出“中国银行”。由于多步推理在推理过程中获取了更多的信息，因此推理效果比明显优于单步推理，能够解决更复杂的实际问题。

作为一可选实施例，所述关系图神经网络模型通过关系和节点即实体进行双重聚合提取知识的图拓扑结构信息和语义信息，具体包括：

将知识图谱数据按照不同的关系类别进行分类；

本实施例给出了提取知识的图拓扑结构信息和语义信息的一种技术方案。如图3所示，首先按照不同的关系类别将知识图谱数据分为n类：Rel_1，Rel_2，…，Rel_n；然后再将每一类别的当前节点和其邻居的节点划分为入关系集合(如Rel_1(in))和出关系集合(如Rel_1(out))，分别对入关系集合和出关系集合进行转换操作；最后，先对每一类别的入关系集合和出关系集合的转换结果进行聚合，再对n类的转换结果进行聚合，并由激活函数进行非线性化，得到知识图谱中实体的表示信息。

作为一可选实施例，所述关系图神经网络进行双重聚合的操作表示为：

本实施例给出了双重聚合操作的定量表示。如上式所示，双重聚合对应公式中的两个求和公式，里层或右边的求和公式实现对节点聚合，外层或左边的求和公式实现对关系聚合。对每一层而言，利用上一层与节点(实体)v_i有关系(边)r的实体v_j的隐状态的加权聚合，同时添加上一层自身的隐状态信息从而计算每个实体节点v_i本层最终的隐状态，并将其作为下一层的输入状态，不断迭代，直至结束。上式通过归一化(除以/>)求和累积相邻节点信息的转换为特征向量，最终得到叠加了多层的信息的结果。

作为一可选实施例，σ为ReLU函数，表达式为：

本实施例给出了一种具体的激活函数。本实施例选用ReLU函数为激活函数，其表达式如上式。激活函数一般用来对输出结果进行非线性化，或进行归一化用来表示概率。激活函数很多，即使ReLU函数也有不少变种，如后面出现的LeakyReLU。值得说明的是，本实施例的激活函数只是给出了一种较佳的实施例，并不否定和排斥其它可行的实施方式。

作为一可选实施例，所述强化学习模型包括环境、状态、动作和奖励，其中，

环境由知识图谱图表示空间组成；

奖励包括推理过程获得的奖励和软奖励，表示为：

R(s_T)＝R_global(s_T)+(1-R_global(s_T))f(e_s,r_q,e_T)

R_global(s_T)＝R_g+R_d+R_p

本实施例给出了强化学习模型的一种技术方案。与通常的强化学习模型一样，本实施例的强化学习模型也是由环境、状态、动作和奖励4个部分组成。其中的环境由知识图谱图表示空间组成。其中的状态不是单一的知识表示，而是由知识表示、LSTM、图注意力机制三部分拼接而成，这是本实施例的重要改进之一。第一部分知识表示，充分利用由关系图神经网络模型获得的信息，为深度强化学习推理提供实体表示；第二部分的LSTM，将LSTM处理时序数据的优势应用于多步推理中，在多步推理过程中，记忆最有利于推理的信息；第三部分图注意力机制，将多步推理过程中推理的重点专注到推理中最重要的信息上，提高推理的准确率和效率。其中的动作是指交互过程中智能体单步移动选择的边。奖励部分采用软奖励、全局准确率、路径有效性、路径多样性的组合奖励形式。

图5为本发明实施例一种基于图表示学习和深度强化学习的知识推理装置的组成示意图，所述装置包括：

R-GNN构建模块11，用于构建关系图神经网络模型，将知识图谱数据输入到所述模型，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息，输出包含所述信息的知识向量；

强化学习模型构建模块12，用于以提取的信息为基础，构建强化学习模型，通过强化学习智能体和环境的交互进行知识推理，输出推理结果。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。

将知识图谱数据按照不同的关系类别进行分类；

作为一可选实施例，σ为ReLU函数，表达式为：

环境由知识图谱图表示空间组成；

奖励包括推理过程获得的奖励和软奖励，表示为：

R(s_T)＝R_global(s_T)+(1-R_global(s_T))f(e_s,r_q,e_T)

R_global(s_T)＝R_g+R_d+R_p

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图表示学习和深度强化学习的知识推理方法，其特征在于，包括以下步骤：

构建关系图神经网络模型，将用于问答系统的知识图谱数据输入到所述模型，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息；

以提取的信息为基础，构建强化学习模型，通过强化学习智能体和环境的交互进行知识推理，输出推理结果；

所述关系图神经网络模型通过关系和节点实体进行双重聚合提取知识的图拓扑结构信息和语义信息，具体包括：

将知识图谱数据按照不同的关系类别进行分类；

将所有类别得到的信息进行聚合，并由激活函数进行非线性化，获得知识图谱中实体的表示信息；

所述关系图神经网络进行双重聚合的操作表示为：

式中，表示当前节点V_i的第l层隐藏状态，/>表示V_i的邻居节点V_j的第l层隐藏状态，σ是一种非线性激活函数，/>表示与V_i相邻并且关系为r的邻居节点集合，/>表示集合中元素的数量即关系为r的邻居节点的数量，/>表示关系为r的邻居节点的第l层隐藏状态的转移权值，R为V_i与邻居节点的关系集合，/>表示V_i的第l层隐藏状态的转移权值，表示自环即自己指向自己的权重；

所述强化学习模型包括环境、状态、动作和奖励，其中，

环境由知识图谱图表示空间组成；

奖励包括推理过程获得的奖励和软奖励，表示为：

R(s_T)＝R_global(s_T)+(1-R_global(s_T))f(e_s,r_q,e_T)

R_global(s_T)＝R_g+R_d+R_p

2.根据权利要求1所述的基于图表示学习和深度强化学习的知识推理方法，其特征在于，其特征在于，σ为ReLU函数，表达式为：

3.一种基于图表示学习和深度强化学习的知识推理装置，其特征在于，包括：

R-GNN构建模块，用于构建关系图神经网络模型，将用于问答系统的知识图谱数据输入到所述模型，根据输入数据的不同关系类别提取知识的图拓扑结构信息和语义信息，输出包含所述信息的知识向量；

强化学习模型构建模块，用于以提取的信息为基础，构建强化学习模型，通过强化学习智能体和环境的交互进行知识推理，输出推理结果；

将知识图谱数据按照不同的关系类别进行分类；

所述关系图神经网络进行双重聚合的操作表示为：

所述强化学习模型包括环境、状态、动作和奖励，其中，

环境由知识图谱图表示空间组成；

奖励包括推理过程获得的奖励和软奖励，表示为：

R(s_T)＝R_global(s_T)+(1-R_global(s_T))f(e_s,r_q,e_T)

R_global(s_T)＝R_g+R_d+R_p

4.根据权利要求3所述的基于图表示学习和深度强化学习的知识推理装置，其特征在于，σ为ReLU函数，表达式为：