CN117370583A

CN117370583A - 一种基于生成对抗网络的知识图谱实体对齐方法及系统

Info

Publication number: CN117370583A
Application number: CN202311679007.6A
Authority: CN
Inventors: 任剑; 韩继伟
Original assignee: Xiangjiang Laboratory
Current assignee: Xiangjiang Laboratory
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-01-09
Anticipated expiration: 2043-12-08
Also published as: CN117370583B

Abstract

本申请涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统，方法包括：将第一处理数据、第二处理数据分别输入至生成对抗网络，学习得到第一实体嵌入表示向量和第二实体嵌入表示向量；基于预处理后的种子实体，将第一实体嵌入表示向量和第二实体嵌入表示向量映射至统一的嵌入表示空间；在统一的嵌入表示空间中，对第一实体嵌入表示向量和第二实体嵌入表示向量进行相似度计算，得到每个第一实体嵌入表示向量与多个第二实体嵌入表示向量之间的相似度；基于相似度排序结果进行实体对齐。该方法基于生成对抗网络将处理数据表示为嵌入向量，大大提高了实体嵌入表示的准确性，同时提高了后续实体对齐的效率。

Description

一种基于生成对抗网络的知识图谱实体对齐方法及系统

技术领域

本申请涉及知识图谱实体对齐技术领域，特别是涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统。

背景技术

目前，现有的知识图谱实体对齐技术主要存在以下问题：1）为了更好地捕获实体之间的语义关系，需要提供负样本，而现有的负样本通常是采用随机替换正样本中的头实体或尾实体实现的，这样的负样本和正样本之间存在很大差异导致很容易识别出来，嵌入学习模型学习效果不佳；2）在执行实体对齐时有限的种子实体（先验预对齐实体）限制了对齐模型的泛化能力；3）现有的实体对齐方法仅针对某一个具体的技术，缺乏一个系统的设计方案。

发明内容

基于此，有必要提供一种在进行知识图谱融合实体对齐时提供更好地负样本和种子实体（先验预对齐实体）的知识图谱实体对齐方法及系统，具体涉及一种基于生成对抗网络的知识图谱实体对齐方法及系统。

本发明提供了一种基于生成对抗网络的知识图谱实体对齐方法，该方法包括：

S1：获取第一知识图谱的数据以及第二知识图谱的数据，所述数据为三元组形式；

S2：对所述数据进行索引，分别得到第一处理数据和第二处理数据，并对种子实体进行预处理；

S3：将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络，学习得到第一实体嵌入表示向量和第二实体嵌入表示向量；

S4：基于预处理后的所述种子实体，将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间；

S5：在所述统一的嵌入表示空间中，对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算，得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度；

S6：基于相似度排序结果进行实体对齐。

优选的，所述三元组形式包括{头实体、关系、尾实体}。

优选的，S2中，得到第一处理数据和第二处理数据的过程包括：

S2.1：将数据中的头实体、尾实体以及关系分别根据各自的名称的不同，分别生成对应的索引值，索引值取值范围为{0,1,2,……,n-1,n}，n表示头实体、尾实体或关系的不同名称的总数量；

S2.2：以所述索引值替换三元组形式中对应的头实体、关系以及尾实体，得到所述第一处理数据或所述第二处理数据。

优选的，S2中，对种子实体进行预处理包括：将种子实体表示为（h _s,h _t）形式，其中，h _s表示源实体，来自所述第一知识图谱的数据；h _t表示目标实体，来自所述第二知识图谱的数据。

优选的，S3中，所述生成对抗网络包括生成器和判别器，所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率，并抽样概率最高的处理数据作为负样本；概率计算公式为：

；

其中，表示处理数据中替换的头实体索引值或尾实体索引值的概率；/>表示替换头实体索引值或尾实体索引值，/>，表示替换头实体索引值，/>表示替换尾实体索引值；h表示头实体的索引值，r表示关系的索引值，t表示尾实体的索引值；/>表示处理数据的距离得分函数，表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数；

将负样本以及正样本输入至判别器进行对抗训练，学习到嵌入表示模型，根据所述嵌入表示模型得到实体嵌入表示向量。

优选的，所述生成器通过最小化均方误差损失函数进行训练，均方误差损失函数表达式为：

；

其中，表示第i个处理数据的距离得分函数，/>表示替换第i个处理数据中头实体索引值或尾实体索引值的距离得分函数，m表示第一处理数据或第二处理数据的数量；

所述判别器通过最小化基于边缘的损失函数进行训练，基于边缘的损失函数表达式为：

；

其中，T表示正样本集；γ表示基于边缘的损失函数中的边缘值。

优选的，S4中，包括：

利用源实体的索引值或目标实体的索引值分别替换第一处理数据以及第二处理数据中对应的头实体或尾实体的索引值，得到新三元组，新三元组的表达式为：

；

其中，表示新三元组，/>表示源实体索引值，/>表示目标实体的索引值，h表示头实体的索引值，r表示关系的索引值，t表示尾实体的索引值，G ₁表示第一知识图谱的数据，G ₂表示第二知识图谱的数据；

基于所述新三元组并最小化损失函数，得到映射函数，通过所述映射函数将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。

优选的，损失函数表达式为：

；

其中，γ表示基于边缘的损失函数中的边缘值；表示处理数据的距离得分函数，/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数。

优选的，相似度计算公式为：

；

其中，表示从第一处理数据中抽取的源实体的索引值；/>表示从第二处理数据中抽取的目标实体的索引值；m表示第一处理数据或第二处理数据的数量；k表示第k次计算；

采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。

本发明还提供了一种基于生成对抗网络的知识图谱实体对齐系统，该系统包括：

获取模块，用于获取第一知识图谱的数据以及第二知识图谱的数据，所述数据为三元组形式；

预处理模块，用于对所述数据进行索引，分别得到第一处理数据和第二处理数据，并对种子实体进行预处理；

向量生成模块，用于将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络，学习得到第一实体嵌入表示向量和第二实体嵌入表示向量；

映射模块，用于基于预处理后的所述种子实体，将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间；

相似度计算模块，用于在所述统一的嵌入表示空间中，对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算，得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度；

对齐模块，用于基于相似度排序结果进行实体对齐。

有益效果：该方法基于生成对抗网络将处理数据表示为嵌入向量，大大提高了实体嵌入表示的准确性，同时提高了后续实体对齐的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的基于生成对抗网络的知识图谱实体对齐方法的流程图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似改进，因此本申请不受下面公开的具体实施例的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

如图1所示，本实施例提供了一种基于生成对抗网络的知识图谱实体对齐方法，该方法包括：

S1：获取第一知识图谱的数据以及第二知识图谱的数据，所述数据为三元组形式。

具体的，所述三元组形式包括{头实体、关系、尾实体}。

S2：对所述数据进行索引，分别得到第一处理数据和第二处理数据，并对种子实体进行预处理。

具体的，得到第一处理数据和第二处理数据的过程包括：

本实施例给出了第一处理数据或者第二处理数据的表示示例，示例如下：

；

其中，每一行表示一个处理数据（包括头实体、关系以及尾实体的索引值）。

进一步的，对种子实体进行预处理包括：将种子实体表示为（h _s,h _t）形式，其中，h _s表示源实体，来自所述第一知识图谱的数据；h _t表示目标实体，来自所述第二知识图谱的数据。

S3：将所述第一处理数据、所述第二处理数据分别输入至生成对抗网络，学习得到第一实体嵌入表示向量和第二实体嵌入表示向量。

所述生成对抗网络包括生成器和判别器，所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率，并抽样概率最高的处理数据作为负样本；概率计算公式为：

；

其中，表示处理数据中替换的头实体索引值或尾实体索引值的概率；/>表示替换头实体索引值或尾实体索引值，，/>表示替换头实体索引值，/>表示替换尾实体索引值；h表示头实体的索引值，r表示关系的索引值，t表示尾实体的索引值；/>表示处理数据的距离得分函数，/>表示处理数据中替换头实体索引值或尾实体索引值的距离得分函数；

在本实施例中，正样本是未替换头实体或尾实体索引值的处理数据。

生成器的目的是尽可能的提供使判别器无法分辨的负样本，判别器对生成器提供的负样本与未替换头实体或尾实体索引值的正样本进行判别，尽可能的识别出生成器提供的负样本，以此对抗性的训练出一个更高效的实体嵌入表示模型，并得到样本数据的实体嵌入表示向量。

进一步的，所述生成器通过最小化均方误差损失函数进行训练，均方误差损失函数表达式为：

；

其中，T表示正样本集；γ表示基于边缘的损失函数中的边缘值，其用于控制与/>之差的最小值；。

S4：基于预处理后的所述种子实体，将所述第一实体嵌入表示向量和所述第二实体嵌入表示向量映射至统一的嵌入表示空间。

具体的，该过程包括：

；

进一步的，损失函数表达式为：

；

S5：在所述统一的嵌入表示空间中，对所述第一实体嵌入表示向量和所述第二实体嵌入表示向量进行相似度计算，得到每个所述第一实体嵌入表示向量与多个所述第二实体嵌入表示向量之间的相似度。

具体的，相似度计算公式为：

；

其中，表示从第一处理数据中抽取的源实体的索引值；/>表示从第二处理数据中抽取的目标实体的索引值；m表示第一处理数据或第二处理数据的数量；k表示第k次计算。

S6：基于相似度排序结果进行实体对齐，包括：采用排序算法筛选出排序第一的相似度对应的实体对进行实体对齐操作。

本实施例提供的这种方法基于生成对抗网络将处理数据表示为嵌入向量，大大提高了实体嵌入表示的准确性，也提高了后续实体对齐的效率；同时为知识图谱实体对齐任务提供了一个系统的解决流程和方案。

而后使用对齐后的实体对作为新的种子实体，以此迭代调整实体嵌入表示向量；这是基于自举思想迭代提高种子实体的数量，从而减少实体对齐的误差。

本实施例还提供了一种基于生成对抗网络的知识图谱实体对齐系统，该系统包括：

对齐模块，用于基于相似度排序结果进行实体对齐。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于生成对抗网络的知识图谱实体对齐方法，其特征在于，包括：

S6：基于相似度排序结果进行实体对齐。

2.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，所述三元组形式包括{头实体、关系、尾实体}。

3.根据权利要求2所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，S2中，得到第一处理数据和第二处理数据的过程包括：

4.根据权利要求3所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，S2中，对种子实体进行预处理包括：将种子实体表示为（h _s,h _t）形式，其中，h _s表示源实体，来自所述第一知识图谱的数据；h _t表示目标实体，来自所述第二知识图谱的数据。

5.根据权利要求4所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，S3中，所述生成对抗网络包括生成器和判别器，所述生成器采用softmax函数计算每个处理数据中替换的头实体索引值或尾实体索引值的概率，并抽样概率最高的处理数据作为负样本；概率计算公式为：

；

6.根据权利要求5所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，所述生成器通过最小化均方误差损失函数进行训练，均方误差损失函数表达式为：

；

7.根据权利要求5所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，S4中，包括：

；

8.根据权利要求7所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，损失函数表达式为：

；

9.根据权利要求1所述的基于生成对抗网络的知识图谱实体对齐方法，其特征在于，相似度计算公式为：

；

10.一种基于生成对抗网络的知识图谱实体对齐系统，其特征在于，包括：

对齐模块，用于基于相似度排序结果进行实体对齐。