CN114741460A

CN114741460A - 基于规则间关联的知识图谱数据扩展方法及系统

Info

Publication number: CN114741460A
Application number: CN202210649331.2A
Authority: CN
Inventors: 任昭春; 王梓涵; 任鹏杰; 陈竹敏
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-07-12
Anticipated expiration: 2042-06-10
Also published as: CN114741460B

Abstract

本发明提供了一种基于规则间关联的知识图谱数据扩展方法及系统，其属于知识图谱表示技术领域，所述方案包括：获取待处理的知识图谱，从中抽取逻辑规则，实现规则池的构建；计算每条逻辑规则的置信度，并基于所述置信度计算逻辑规则间关联的置信度；对所述逻辑规则进行实例化，获得候选三元组，基于规则约束的优化方法计算每个候选三元组的软标签；基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱，基于所述新知识图谱，采用基于图神经网络的编码器获得实体表示向量，并基于表示学习的解码器获得所述新知识图谱中的关系向量表示，进行缺失三元组成立可能性预测；迭代执行上述步骤，直至满足收敛条件，获得最终的知识图谱。

Description

基于规则间关联的知识图谱数据扩展方法及系统

技术领域

本发明属于知识图谱表示技术领域，尤其涉及一种基于规则间关联的知识图谱数据扩展方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

传统的知识图谱表示方法主要直推式地预测缺失三元组，要求所有的实体在模型训练阶段出现过。然而，在现实的场景中，知识图谱中的知识范围在不断扩大，原有知识图谱之外的实体（OOKG entities）在不断出现。例如，在著名知识图谱DBpedia中，每天都有200多个新实体出现。如图1所示，展示了原有知识图谱之外的实体出现和相关事实预测的例子，给定观察到的知识图谱，假设“太阳”这个实体是新出现的，并且存在一个辅助三元组连接原有知识图谱中的实体（observed entity）和新出现实体“太阳”，即（太阳，被围绕，行星）。接下来，基于观察到的事实和辅助三元组，目标是表示原有知识图谱之外的实体，并预测这些实体缺失的三元组（例如，（太阳，吸引，质量））。然而，为了表示这些新出现的实体，大多数传统的知识表示框架不可避免地需要重新训练模型，非常耗时。

现有方案虽然聚合了新出现实体周围的邻居信息，来表示新出现实体，但是这些框架面临严重的数据稀疏性问题；为了解决该问题，GEN和HRFN设计了元学习（metalearning）和图神经网络（graph neural network）的结合框架在元训练阶段模拟新实体出现的情况，这些方法利用了新出现实体之间的三元组，然而这些三元组往往缺失或者非常稀疏。VN网络利用逻辑规则和对称路径规则，预测新出现实体的虚拟邻居，从而缓解数据稀疏性问题；但是，发明人发现，上述方法主要建模了新出现实体一到两跳的领居结构信息，或者通过挖掘规则来增强预测效果，而忽略了很多其它的有用特征；同时，现有方法将规则置信分数（rule confidence）设为定值，或者利用启发式的规则挖掘方法，其严重忽略了规则挖掘、规则推理及表示学习三个过程之间的关系。

发明内容

本发明为了解决上述问题，提供了一种基于规则间关联的知识图谱数据扩展方法及系统，所述方案将知识图谱中逻辑规则间的关联关系引入知识图谱中新出现实体相关事实的预测中，提高了预测精确度，同时，通过对规则挖掘、规则推理、和表示学习三个过程之间的交互信息进行建模，有效提高了逻辑规则的挖掘效率和知识表示的质量。

根据本发明实施例的第一个方面，提供了一种基于规则间关联的知识图谱数据扩展方法，包括：

步骤1：获取原始知识图谱，通过对所述知识图谱进行遍历获取逻辑规则，实现规则池的构建；

步骤2：计算每条逻辑规则的置信度分数，并基于所述置信度分数计算逻辑规则间关联的置信度分数；

步骤3：对所述逻辑规则进行实例化，获得候选三元组，基于规则约束的优化方法计算每个候选三元组的软标签；其中，所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定；

步骤4：基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱，基于所述新知识图谱，采用基于图神经网络的编码器获得实体表示向量，并基于表示学习的解码器获得所述新知识图谱中的关系向量表示；基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性；

步骤5：迭代执行所述步骤2至步骤4，直至满足收敛条件，获得最终的知识图谱。

进一步的，所述基于规则约束的优化方法计算每个候选三元组的软标签，具体采用如下目标函数：

其中，C为常数，t _vn为包含虚拟邻居的三元组，s（t _vn）为t _vn的软标签（求解该优化问题得到），I（t _vn）为t _vn的真实值（由

计算得到），

，

为松弛变量，

为完整逻辑规则的置信度分数，

为逻辑规则间关联的置信度分数，

为逻辑规则，

为实例化后的规则间关联。

进一步的，所述逻辑规则包括规则头和规则体；所述规则头对应于知识图谱中的三元组；所述规则体对应于规则头的头实体到尾实体之间的路径。

进一步的，所述计算每条逻辑规则的置信度分数，基于所述逻辑规则中规则头和规则体所对应路径的相似度进行计算。

进一步的，所述逻辑规则间关联采用如下方式获得：

基于逻辑规则的规则体中是否存在缺失三元组，判断所述逻辑规则为完整逻辑规则或不完整逻辑规则；

实例化所述逻辑规则，基于路径搜索算法获取所述完整逻辑规则与不完整规则之间的关联路径。

进一步的，所述对所述知识图谱进行遍历获取逻辑规则，具体基于路径搜索算法获得。

根据本发明实施例的第二个方面，提供了一种基于规则间关联的知识图谱数据扩展系统，包括：

规则池构建单元，其用于获取原始知识图谱，通过对所述知识图谱进行遍历获取逻辑规则，实现规则池的构建；

置信度计算单元，其用于计算每条逻辑规则的置信度分数，并基于所述置信度分数计算逻辑规则间关联的置信度分数；

规则推理单元，其用于对所述逻辑规则进行实例化，获得候选三元组，基于规则约束的优化方法计算每个候选三元组的软标签；其中，所述规则约束基于逻辑规则的置信度分数以及逻辑规则间关联的置信度分数确定；

表示学习单元，其用于基于所述软标签将获得的候选三元组与原始知识图谱构建为新知识图谱，基于所述新知识图谱，采用基于图神经网络的编码器获得实体表示向量，并基于表示学习的解码器获得所述新知识图谱中的关系向量表示；基于所述实体表示向量及所述关系向量表示预测新知识图谱中缺失三元组成立可能性；

迭代优化单元，其用于迭代执行所述置信度计算单元、规则推理单元及表示学习单元的步骤，直至满足收敛条件，获得最终的知识图谱。

根据本发明实施例的第三方面，提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上所述的一种基于规则间关联的知识图谱数据扩展方法。

根据本发明实施例的第四方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的一种基于规则间关联的知识图谱数据扩展方法。

与现有技术相比，本发明的有益效果是：

（1）本发明所述方案提供了一种基于规则间关联的知识图谱数据扩展方法及系统，所述方案将知识图谱中逻辑规则间的关联关系引入知识图谱中新出现实体相关事实的预测中，提高了预测精确度，同时，通过对规则挖掘、规则推理、和表示学习三个过程之间的交互信息进行建模，有效提高了逻辑规则的挖掘效率和知识表示的质量。

（2）所述方案有效识别了知识图谱中逻辑规则及逻辑规则间关联关系，挖掘出更多与新出现实体有关的结构信息，进一步提高了对新出现实体相关事实的预测精确度。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明背景技术中所述的原有知识图谱之外的实体出现和相关事实预测示意图；

图2为本发明实施例中所述的基于规则间关联的知识图谱数据扩展方法的框架示意图；

图3为本发明实施例中所述的基于规则间关联的知识图谱数据扩展方法流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：

隐变量（Latent variable）：潜变量，或称隐变量，潜在变量，在统计学中的表示不可观测随机变量，与观测变量相对。

规则（Rule）: 知识图谱中的一种图特征，表示多个事实之间的推理关系。

规则间关联（Inter-rule correlation）：表示规则间之间的关联关系，表示知识图谱规则之间的推理关系，其对应一条路径。

完整逻辑规则：其表示知识图谱多个事实和多个关系的推导关系，形如：

；

不完整逻辑规则：其与相应完整逻辑规则具有相同的形式，但是规则体中存在三元组缺失。

实施例一：

本实施例的目的是提供一种基于规则间关联的知识图谱数据扩展方法。

如图3所示，一种基于规则间关联的知识图谱数据扩展方法，包括：

其中，所述收敛条件需满足如下训练损失函数：

其中，ℒ为可观察三元组集合，包含训练阶段可观察知识图谱的所有三元组，

则为含有虚拟邻居的三元组集合。

计算得到），

，

为松弛变量，

为完整逻辑规则的置信度分数，

为逻辑规则间关联的置信度分数，

为逻辑规则，

为实例化后的规则间关联。

进一步的，所述逻辑规则间关联采用如下方式获得：

实例化所述逻辑规则，基于路径搜索算法获取所述完整逻辑规则与不完整规则之间的关联路径，其中，本实施例中采用深度优先遍历算法。

具体的，为了便于理解，以下结合附图对本实施例所述方案进行详细说明：

为了解决现有技术存在的问题，本实施例提供了一种基于规则间关联的知识图谱数据扩展方法，所述方案通过识别知识图谱中规则间的关联关系，设计了一种迭代式框架，来建模规则挖掘、规则推理、和表示学习三个过程之间的交互信息。如图2所示，所述方案主要包括三个阶段：规则挖掘、规则推理和表示学习；基于给定原始知识图谱，首先从知识图谱中挖掘对应逻辑规则，通过路径搜索产生规则池和利用关系表示计算规则置信度。接下来，在规则推理阶段，利用实例化之后的规则预测候选三元组，并构建规则约束的最优化方法计算每个候选三元组的软标签。在此基础上，这些将候选三元组和原来的知识图谱构成新的知识图谱，并输入至基于图神经网络的编码器中。最后，基于表示学习的解码器将关系映射为表示向量，计算缺失三元组的成立可能性分数，预测知识图谱中的缺失三元组。在训练阶段，规则挖掘、规则推理，和表示学习三个步骤不断迭代循环，直至收敛。具体的，如图3所示，所述方法包括如下步骤：

步骤1：在训练之前，本发明利用路径游走算法产生规则池，低质量的规则则被筛选出去；在每个训练轮次；

步骤2：首先利用当前轮次的关系表示，计算每条规则对应的置信分数；

步骤3：在规则推理阶段，本发明设计了基于规则的优化问题，计算了规则推理三元组的真实性分数，得到了推理出的虚拟邻居的软标签；

步骤4：在表示学习阶段，带有虚拟邻居的知识图谱输入到基于图神经网络的编码器和基于表示学习的解码器，对知识图谱中的关系和实体进行编码和表示，预测知识图谱缺失的事实；

步骤5：所述步骤2至步骤4不断迭代直至达到收敛条件。

以下进行详细说明：

（一）规则挖掘

给定能够观察到的知识图谱，规则挖掘阶段首先通过筛选知识图谱中的路径得到逻辑规则（logic rule）；接着，基于获得的逻辑规则，本实施例所述方案通过查询知识图谱中不完整逻辑规则和逻辑规则间路径；最后，所述方案基于当前逻辑规则间关系表示，计算逻辑规则的置信度分数。

（1）生成规则池。

具体的：对于逻辑规则来说，知识图谱中任一三元组可以看成候选的逻辑规则头（rule head）。规则体（rule body）则可以看成规则头的头实体到尾实体之间的路径。因此，利用路径搜索算法（本实施例中采用深度优先搜索）可以从给定知识图谱中抽取可能的规则体。其中，规则体长度限定为小于2，具体的可根据实际需求进行设置。

对于逻辑规则间关联，基于逻辑规则，通过两个步骤挖掘规则间的关联关系：

1）发现不完整的逻辑规则。具体的，基于从逻辑规则，寻找所有规则体存在一个缺失三元组的不完整逻辑规则；

2）寻找候选逻辑规则间路径。具体的，首先实例化抽取的完整和不完整规则（用实际实体取代规则中的变量），接着寻找完整和不完整逻辑规则之间的关联路径（该路径限定于两个规则中相同位置的实体，长度小于3，具体可根据实际需求进行设置）；

（2）规则置信分数计算。

具体的，基于生成的规则池，利用当前循环的关系表示计算每条规则的置信度(Confidence)分数。

对于逻辑规则来说，规则头和规则体可以看成和规则相关的两条路径。我们通过计算两条规则头和规则体对应路径的相似度表示逻辑规则的置信度，如下所示：

其中，

和

分别是规则体和规则头的路径表示向量，

是相似性函数。其中，路径表示向量由路径经过的关系表示向量相加得到，相似性则利用向量或者矩阵范数来衡量。

基于逻辑规则的置信度分数，同时考虑完整和不完整规则置信度分数，可以计算规则间关联的置信度分数如下所示：

其中，

和

分别表示完整逻辑规则

和不完整规则

的置信度。

（二）规则推理

在规则推理阶段，给定抽取规则，基于规则挖掘获得的逻辑规则，推理出新的三元组(其利用的是逻辑规则本身具有的推理能力，无需额外推理过程)，并计算推理得到三元组的软标签。

这里，我们使用了基于t范数的模糊逻辑，该方法关键在于利用简单三元组真实性分数以及逻辑关系计算复杂三元组（由多个简单三元组和逻辑关系组成）的真实性分数。那么，对于实例化的逻辑规则

，对应的条件真实性分数可以按如下方式计算：

其中，

表示由规则预测的三元组软标签集合，

是可观察知识图谱中的三元组，

则是包含虚拟邻居、规则推理出来的三元组。

是三元组

的真实性分数，可由表示学习中的方法计算得到。

是新预测三元组

的软标签。

在此基础上，实例化之后的规则间关联

的条件真实性分数为：

其中，

表示实例化完整逻辑规则

的真实性分数。

表示实例化不完整规则

的条件真实性分数。

为了得到最优化的软标签

，本实施例构建了如下优化问题：

其中，C是常数。该问题是凸优化问题，存在闭式解：

其中，

和

分别为

和

对

的导数，并且都是常数。

则是截断函数。

（三）表示学习

在表示学习阶段，包含有虚拟邻居以及新预测知识图谱输入到基于图神经网络的编码器和基于表示学习的解码器中。通过这种方式，知识图谱中的实体和关系可以被映射到隐藏空间，利用连续向量表示。

如图2所示，展示了图神经网络的编码器结构，其中，基于图神经网络的编码器包括结构层和查询层，第l结构层可以表示为下面的形式：

其中，

是为关系r设计的注意力权重，

则是第l实体

的表示向量，

表示第l的映射矩阵。除了结构信息以外，输入三元组中的查询关系也是非常重要的特征。因此，

本实施例设计了如下查询层，具体表示如下：

其中，

是未正则化的权值。

是神经网络激活函数。利用基于图神经网络的编码器得到实体表示

。

基于表示学习的解码器将知识图谱中的关系映射为向量表示

，最后可以按如下方式预测缺失三元组的成立可能性（即真实性分数）：

其中，

分别表示正则化之后的实体表示向量，

则表示对角关系矩阵。其中，所述解码器的输入为编码器编码的实体表示向量，输出为三元组成立的可能性分数，关系表示向量以及实体表示向量。

进一步的，所述方法采用如下训练损失函数：

其中，

为可观察三元组集合，包含训练阶段可观察知识图谱的所有三元组，

则为含有虚拟邻居的三元组集合。

实施例二：

本实施例的目的是提供一种基于规则间关联的知识图谱数据扩展系统。

一种基于规则间关联的知识图谱数据扩展系统，包括：

规则池构建单元，其用于获取待处理的知识图谱，通过对所述知识图谱进行遍历获取逻辑规则，实现规则池的构建；其中，所述知识图谱包括原始知识图谱、新出现的实体及其辅助三元组；

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

上述实施例提供的一种基于规则间关联的知识图谱数据扩展方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。