CN117407689A

CN117407689A - 一种面向实体对齐的主动学习方法、装置和电子装置

Info

Publication number: CN117407689A
Application number: CN202311720957.9A
Authority: CN
Inventors: 陆亚飞; 许宝贵; 严笑然; 刘洋; 滕皓
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-12-14
Filing date: 2023-12-14
Publication date: 2024-01-16
Anticipated expiration: 2043-12-14
Also published as: CN117407689B

Abstract

本申请涉及一种面向实体对齐的主动学习方法、装置和电子装置，该方法包括：基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中与第一实体对的特征关系满足预设条件的第二实体对；其中，第一实体对为进行实体对齐后得到的实体对；根据第一实体对和第二实体对，训练预设的图神经网络模型，并基于主动学习规则得到第三实体对，根据第三实体对更新第二实体对；当第三实体对的数量为预设的实体对数量阈值时，确定得到目标图神经网络模型。通过主动学习的方法，得到标注的实体对，进而使用标注实体对训练图神经网络模型，进而降低了在多模态知识图谱实体对齐过程中的标注成本，同时保证了实体对齐的准确性。

Description

一种面向实体对齐的主动学习方法、装置和电子装置

技术领域

本申请涉及人工智能领域，特别是涉及一种面向实体对齐的主动学习方法、装置和电子装置。

背景技术

知识图谱(Knowledge graph，KG)是一种简单而有效的建模人类知识的方式，通过实体和关系来表示，已用于大型语言模型、信息检索和检测等。实体对齐(EntityAlignment, EA)的目标是在不同的知识图谱之间建立相同实体的对应关系，其中，实体对齐是知识图谱融合过程的初始阶段。利用视觉模态(如图像)来增强实体嵌入的多模态知识图谱获得了大量的关注，同时，主动学习方法可以挑选最具价值的实体对来减轻人工标注多模态知识图谱中的实体成本。

现有技术中，多模态知识图谱通过利用视觉模态(如图像)来增强实体嵌入。但是多模态主动学习所对应的不同模式可能会提供重叠的视角，导致冗余标签和注释资源的低效使用；同时，不同的模态可能提供重叠的信息，导致冗余标注，造成标注预算的浪费。而在多模态知识图谱中利用有限的标注预算进行实体对齐的方式，这些方法在标注实体对信息时未充分考虑到其他模态信息的影响，导致标注冗余，未能提升模型效果，导致标注预算的浪费。

针对现有技术中多模态知识图谱实体对齐过程中标注预算浪费，导致标注成本过高的问题，目前还没有提出有效的解决方案。

发明内容

在本实施例中提供了一种面向实体对齐的主动学习方法、装置和电子装置，以解决相关技术中存在多模态知识图谱的实体对齐的准确度有待提高的问题。

第一个方面，在本实施例中提供了一种面向实体对齐的主动学习方法，所述方法包括：

基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对；其中，所述第一实体对为进行实体对齐后得到的实体对；所述第一实体对与第二实体对的特征关系满足预设条件；

根据所述第一实体对和所述第二实体对，训练预设的图神经网络模型，并基于所述主动学习规则得到第三实体对，根据所述第三实体对更新所述第二实体对；

当所述第三实体对的数量为预设的实体对数量阈值时，确定目标图神经网络模型。

在其中的一些实施例中，所述基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对之前，包括：

获取知识图谱中的多个图像实体，并将多个图像实体组成多个图像实体对；

计算多个所述图像实体对中的图像实体之间的相似度，得到多个图像实体相似度；

确定高于预设阈值的图像实体相似度对应的图像实体对为所述第一实体对。

在其中的一些实施例中，所述基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对，包括：

使用所述第一实体对训练预设的图神经网络模型，得到中间图神经网络模型；

输入除第一实体对外的实体至所述中间图神经网络模型，得到所述除第一实体外的实体的标签特征值；

当所述标签特征值在预设范围内时，根据预设的主动学习规则，标注所述标签特征值所对应的实体，并确定所述标签特征值所对应的实体为第二实体对。

在其中的一些实施例中，所述输入除第一实体对外的实体至所述中间图神经网络模型，得到所述除第一实体外的实体的标签特征值，包括：

输入第二实体对的特征值至所述中间图神经网络模型中，得到标签特征向量；

确定所述标签特征向量的平均值为所述第二实体对的标签特征值。

在其中的一些实施例中，所述根据所述第一实体对和所述第二实体对，训练预设的图神经网络模型，并基于所述主动学习规则得到第三实体对，根据所述第三实体对更新所述第二实体对，包括：

根据所述第一实体对和第二实体对，训练所述中间图神经网络模型，得到待标注的实体对；

根据所述预设的主动学习规则，获取所述待标注的实体对中的第三实体对，并对所述第三实体对进行标注；

使用知识图谱中已标注的实体对，训练所述中间图神经网络模型；其中，所述已标注的实体对包括第一实体对、第二实体对和第三实体对。

在其中的一些实施例中，所述确定目标图神经网络模型之后，包括：

输入待对齐实体至所述目标图神经网络模型，得到不同所述待对齐实体之间的相似度，并对相似度在预设的相似度阈值的所述待对齐实体进行实体对齐；

计算实体对齐的结果指标，并根据所述结果指标获取所述实体对齐的准确度；

所述结果指标包括实体对齐的命中指标和实体对齐的评价指标。

在其中的一些实施例中，所述输入待对齐实体至所述目标图神经网络模型，得到不同待对齐实体之间的相似度，包括：

根据所述目标图神经网络模型，计算所述待对齐实体的结构特征；所述结构特征包括在知识图谱中所述待对齐实体的边的特征，以及与所述待对齐实体关联的邻居实体的特征；

根据所述待对齐实体的结构特征，确定所述待对齐实体之间的结构相似度；

根据所述待对齐实体之间的结构相似度和所述待对齐实体之间的图像相似度，确定所述待对齐实体之间的相似度。

第二个方面，在本实施例中提供了一种实体对齐装置，所述装置包括：主动学习模块、训练模块和确定模块；

所述主动学习模块，用于基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对；其中，所述第一实体对为进行实体对齐后得到的实体对；所述第一实体对与第二实体对的特征关系满足预设条件；

所述训练模块，用于根据所述第一实体对和所述第二实体对，训练预设的图神经网络模型，并基于所述主动学习规则得到第三实体对，根据所述第三实体对更新所述第二实体对；

所述确定模块，用于当所述第三实体对的数量等于预设的实体对数量阈值时，确定目标图神经网络模型。

第三个方面，在本实施例中提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一个方面所述的面向实体对齐的主动学习方法。

第四个方面，在本实施例中提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的面向实体对齐的主动学习方法。

与相关技术相比，在本实施例中提供的一种面向实体对齐的主动学习方法、装置和电子装置，基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对；其中，第一实体对为进行实体对齐后得到的实体对；第一实体对与第二实体对的特征关系满足预设条件；根据第一实体对和第二实体对，训练预设的图神经网络模型，并基于主动学习规则得到第三实体对，根据第三实体对更新第二实体对；当第三实体对的数量为预设的实体对数量阈值时，确定得到目标图神经网络模型。通过主动学习的方法，得到标注的实体对，进而使用标注实体对训练图神经网络模型，进而降低了在多模态知识图谱实体对齐过程中的标注成本，同时保证了实体对齐的准确性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的面向实体对齐的主动学习方法的终端的硬件结构框图；

图2是本申请实施例的面向实体对齐的主动学习方法的流程图；

图3是本具体实施例的面向实体对齐的主动学习方法的流程图；

图4是本具体实施例的面向实体对齐的主动学习方法的示意图；

图5是本申请实施例的目标对象匹配方法的流程图；

图6是本申请实施例的面向实体对齐的主动学习装置的结构框图。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行，图1是本申请实施例的面向实体对齐的主动学习方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个（图1中仅示出一个）处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的面向实体对齐的主动学习方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（NetworkInterface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（Radio Frequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种面向实体对齐的主动学习方法，图2是本申请实施例的面向实体对齐的主动学习方法的流程图，如图2所示，该流程包括如下步骤：

步骤S210，基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对；其中，第一实体对为进行实体对齐后得到的实体对；第一实体对与第二实体对的特征关系满足预设条件。

具体地，处理器获取知识图谱中的第一实体对，其中，第一实体对可以通过计算不同知识图谱中实体之间的相似度得到，并将相似度在一定范围的实体对确定为第一实体对；示例性地，可以通过计算实体之间的图像相似度、基于实体名称的字符串的相似度以及基于表示为图形结构的实体及其属性的相似度，在此不做具体限定；根据知识图谱中的第一实体对，并基于预设的主动学习规则，获取知识图谱中与第一实体对的特征关系满足预设条件的第二实体对；例如，预设的主动学习规则包括基于位置感知的主动学习规则，第二实体对与第一实体对中实体的位置关系满足预设条件。

步骤S220，根据第一实体对和第二实体对，训练预设的图神经网络模型，并基于主动学习规则得到第三实体对，根据第三实体对更新第二实体对。

具体地，处理器基于预设的主动学习规则，并根据第一实体对训练预设的图神经网络，进而得到第二实体对；其后，根据第一实体对和第二实体对，并基于主动学习规则，得到第三实体对，并根据第三实体对更新第二实体对；其中，第三实体对的特征关系与第一实体对及第二实体对的特征关系满足预设条件；其中，特征关系可以为位置关系、关联关系等，在此不作具体限定。

步骤S230，当第三实体对的数量达到预设的实体对数量阈值时，确定目标图神经网络模型。

具体地，处理器根据第一实体对、第二实体对以及预设的主动学习规则，训练预设的图神经网络，并判断第三实体对的数量是否达到预设的实体对数量阈值；当判断第三实体对的数量达到预设的实体对数量阈值时，确定得到该第三实体对的数量的图神经网络为目标图神经网络。

通过上述步骤，处理器首先通过知识图谱中实体之间的相似度，确定第一实体对，并根据第一实体对和预设的主动学习规则，训练预设的图神经网络模型，进而得到与第一实体对的特征关系满足预设条件的第二实体对，进而根据第一实体对和第二实体对，并基于预设的图神经网络训练预设的图神经网络模型，进而得到与第一实体对及第二实体对的特征关系满足预设条件的第三实体对；当第三实体对的数量达到预设的实体对数量阈值时，确定得到该数量的第三实体对的图神经网络为目标图神经网络，进而完成了面向实体对齐的主动学习；通过预设的主动学习规则，分别获取特征关系满足预设条件的第二实体对和第三实体对，进而对其进行标注，并用于训练预设的图神经网络，进而有利于减少多模态知识图谱实体对齐过程中的标注成本，同时保证了实体对齐的准确性。

在其中的一些实施例中，步骤S210之前包括步骤S201至步骤S203。

步骤S201，获取知识图谱中的多个图像实体，并将多个图像实体组成多个图像实体对。

具体地，处理器从多模态知识图谱中获取多个图像实体，并将这些图像实体组成多个图像实体对；其中，多模态知识图谱为包括文本、图像、音频、视频及触觉等模态的知识图谱，示例性地，通过视觉模态来增强实体嵌入，在此处不作限定。

步骤S202，计算多个图像实体对中的图像实体之间的相似度，得到多个图像实体相似度。

具体地，处理器通过分别计算图像实体之间的相似度，进而得到多个图像实体之间对应的图像实体相似度；示例性地，计算图像实体之间的相似度，可以通过计算图像实体之间的余弦相似度，进而计算得到多个图像实体对之间的图像相似度，即为图像实体相似度。

步骤S203，确定高于预设阈值的图像实体相似度对应的图像实体对为第一实体对。

具体地，处理器判断图像实体对的图像实体相似度是否高于预设阈值，并将高于预设阈值的第一相似对所对应的图像实体对，确定为第一实体对。

通过上述步骤，处理器将多个知识图谱中不同模态的图像实体进行组合，得到多个图像实体对，并计算多个图像实体对之间的图像实体相似度，进而确定高于第二阈值的图像实体相似度对应的图像实体对为第一实体对，其中第二阈值为判断第一实体对的预设的图像相似度阈值，进而有利于获取更准确以及训练准确率更高的第一实体对，进而有利于后续使用第一实体对训练预设的图神经网络模型；通过获取第一实体对，并根据第一实体对训练预设的图神经网络模型，有利于减少多模态知识图谱实体对齐的标注成本。

在其中的一些实施例中，步骤S210包括步骤S211至步骤S213。

步骤S211，使用第一实体对训练预设的图神经网络模型，得到中间图神经网络模型。

具体地，处理器将第一实体对输入至预设的图神经网络模型，进而训练得到中间图神经网络模型。

步骤S212，输入除第一实体对外的实体至中间图神经网络模型，得到除第一实体外的实体的标签特征值。

具体地，处理器将知识图谱中除第一实体对外的实体输入至图神经网络模型中，进而计算得到对应的实体的标签特征值。

步骤S213，当标签特征值在预设范围内时，根据预设的主动学习规则，标注标签特征值所对应的实体，并确定标签特征值所对应的实体为第二实体对。

具体地，处理器判断得到的实体的标签特征值是否在预设的范围内，并根据预设的主动学习规则，得到不同实体对应的标签特征值，并将满足预设条件的标签特征值所对应的实体对进行标注，并将该实体对确定为第二实体对。

通过上述步骤，处理器将第一实体对输入至预设的图神经网络模型，进而训练得到中间图神经网络模型。将知识图谱中除第一实体对外的实体输入至图神经网络模型中，根据预设的主动学习规则，进而计算得到对应的实体的标签特征值。其后，判断得到的实体的标签特征值是否在预设的范围内，并对满足预设规则的标签特征值对应的实体对进行标注，并将该实体对确定为第二实体对，进而有利于减少实体标注的成本。根据第一实体对训练得到的中间图神经网络计算其它实体的标签特征值，进而有利于提高确定第二实体对的准确性，进一步优先选择在预设范围内的标签特征值对应的第二实体对，进而有利于提高训练图神经网络模型的准确性。

在其中的一些实施例中，步骤S216包括步骤S2161至步骤S2162。

步骤S2161，输入第二实体对的特征值至中间图神经网络模型中，得到标签特征向量。

具体地，处理器将第二实体对的特征值，输入由第一实体对训练得到的中间图神经网络模型中，进而得到第二实体对的标签特征向量。

步骤S2162，确定标签特征向量的平均值为第二实体对的标签特征值。

具体地，处理器计算第二实体对的标签特征值的平均值，并确定该平均值为第二实体对的标签特征值。

通过上述步骤，处理器将第二实体对的特征值，输入由第一实体对训练得到的中间图神经网络模型中，进而得到第二实体对的标签特征向量；确定该标签特征向量的平均值为第二实体对的标签特征值；进而有利于后续根据筛选后的第二实体对训练得到目标图神经网络模型，有利于提高训练图神经网络模型的准确性。

在其中的一些实施例中，步骤S220包括步骤S221至步骤S223。

步骤S221，根据第一实体对和第二实体对，训练中间图神经网络模型，得到待标注的实体对。

具体地，处理器根据第一实体对以及标注的第二实体对，并基于预设的主动学习规则，对中间图神经网络模型进行训练，得到待标注的实体对。

步骤S222，根据预设的主动学习规则，获取待标注的实体对中的第三实体对，并对第三实体对进行标注。

具体地，处理器根据预设的主动学习规则，获取待标注的实体对中的第三实体对，并对第三实体对进行标注；示例性地，获取待标注的实体对中的位置关系与第一实体对及第二实体对的位置关系在预设范围内的实体对作为第三实体对，具体地，预设范围可以为位置距离较远的范围。

步骤S223，使用知识图谱中已标注的实体对，训练中间图神经网络模型；其中，已标注的实体对包括第一实体对、第二实体对和第三实体对。

具体地，处理器根据知识图谱中的第一实体对以及已标注的实体对，即第二实体对和第三实体对，训练中间图神经网络模型。

通过上述步骤，根据第一实体对和第二实体对，以及预设的主动学习规则，对中间图神经网络模型进行训练，得到第三实体对，其中预设的主动学习规则可以为基于位置感知的主动学习规则，通过预设的主动学习规则获取在预设范围内的第三实体对，进而有利于减少知识图谱中的实体标注成本；通过已标注的实体对以及第一实体对对中间图神经网络模型进行训练，进而得到目标图神经网络模型，有利于提高目标图神经网络模型的训练准确度。

在其中的一些实施例中，还包括步骤S250至步骤S260。

步骤S250，输入待对齐实体至目标图神经网络模型，得到不同待对齐实体之间的相似度，并对相似度在预设的相似度阈值的待对齐实体进行实体对齐。

具体地，处理器将待对齐实体输入至训练完成的目标图神经网络模型中，进而得到多个待对齐实体之间的相似度，进而判断待对齐实体之间的相似度是否在预设的相似度阈值范围内，若是，那么将相似度在预设的相似度阈值范围内的待对齐实体进行实体对齐。

步骤S260，计算实体对齐的结果指标，并根据结果指标获取实体对齐的准确度；结果指标包括实体对齐的命中指标和实体对齐的评价指标。

具体地，处理器通过使用训练完成的目标图神经网络模型对待对齐实体进行对齐，进而提高了实体对齐的准确性；将待对齐实体进行对齐后，计算实体对齐的结果指标，并根据包括命中指标和评价指标的结果指标，确定实体对齐的准确度。

通过上述步骤，通过对待对齐实体进行对齐，并计算实体对齐的结果指标，进一步对实体对齐的结果进行验证，进而提高了实体对齐的准确性。

在其中的一些实施例中，步骤S250还包括步骤S251至步骤S253。

步骤S251，根据目标图神经网络模型，计算待对齐实体的结构特征；结构特征包括在知识图谱中待对齐实体的边的特征，以及与待对齐实体关联的邻居实体的特征。

步骤S252，根据待对齐实体的结构特征，确定待对齐实体之间的结构相似度。

步骤S253，根据待对齐实体之间的结构相似度和待对齐实体之间的图像相似度，确定待对齐实体之间的相似度。

具体地，处理器根据目标图神经网络模型，计算待对齐实体的结构特征，并根据待对齐实体的结构特征，确定待对齐实体对的相似度。通过上述步骤，根据待对齐实体边的特征以及关联的邻居实体的特征，进而确定待对齐实体之间的相似度，有利于进一步提高计算实体之间相似度的准确性，进而有利于提高实体对齐的准确性。

下面通过具体实施例对本申请实施例进行描述和说明。

图3是本具体实施例的面向实体对齐的主动学习方法的流程图，如图3所示，该面向实体对齐的主动学习方法包括如下步骤：

步骤S310，对图神经网络模型进行预训练。

具体地，根据知识图谱的实体名称使用搜索引擎爬取对应的图像，使用已经开源的预训练好的神经网络模型来提取图像的特征，作为实体的图像特征；示例性地，通过VGG模型（Visual Geometry Group Network，视觉几何组网络）或者卷积神经网络Resnet提取图像的特征。首先计算多模态知识图谱中图像实体的相似度，并筛选出相似度高于一定阈值的图像实体对作为伪种子对，其中，此处的伪种子对即为前述实施例中的第一实体对，实体的图像特征提取完后不再更新，仅用于产生伪种子对，作为标签数据来表示实体间的匹配关系。后续在图神经网络模型训练过程中需要更新的特征仅仅是实体的结构特征。示例性地，图像实体对之间的相似度通过计算图像之间的余弦相似度得到，其中，多模态指的是实体的图像模态和实体的结构模态。其后，使用伪种子对作为训练数据训练基于关系感知的图神经网络，该图神经网络可以用以下公式来描述：

其中，表示替换图神经网络中的转移矩阵，此处为正交矩阵，I表示单位矩阵；表示第i个实体的第k个边的特征，T表示转置；表示图神经网络的注意力得分，在图神经网络（GNN，Graph Neural Network）聚合周围实体节点时，为每个邻居实体分配权重，exp()表示自然指数函数；表示第i个实体的邻居实体集合中的第个邻居实体，表示实体i与其邻居实体的边的集合，表示实体i与其邻居实体的边的集合中的第条边，表示网络中可学习的参数；表示实体i在图神经网络的第（l+1）层的特征向量，tanh()表示双曲正切函数；表示图神经网络的第l层的注意力得分，表示实体j在图神经网络的第l层的特征向量。

在得到图神经网络GNN中每层的特征后，再将其拼接起来组成实体的特征，第i个实体的特征表示为：

其中，表示实体i在图神经网络的第1层的特征向量，表示实体i在图神经网络的第2层的特征向量，表示实体i在图神经网络的第l层的特征向量；表示将实体i在图神经网络的第0层的特征向量与实体i在图神经网络的第1层的特征向量进行拼接。

同时每个实体特征与其对应的关系特征进行拼接，最后得到实体的特征表示为：

其中，表示第i个实体的特征，表示第i个实体的周围的边的集合，表示这个边的集合中的第m条边，表示第m条边的特征向量；表示将关系特征与实体特征进行拼接。

图神经网络模型的损失函数表示为：

其中，N代表正则化，P表示训练集给出的实体对集合，和分别表示两个知识图谱实体的集合，表示从集合中找到与对应的负样本，表示从集合中找到与对应的负样本；λ和表示调节模型收敛速度的超参数，一般设置为定值，exp()表示自然指数函数。

表示损失函数的值，计算公式为：

其中，m表示边缘距离，是一个超参数，d为距离度量函数，用于计算实体i和实体j之间的L2距离，距离度量函数d表示为：

其中，表示第i个实体，表示第j个实体，和分别表示第i个实体和第j个实体的特征，表示实体i和实体j之间的L2距离，用于度量多维空间中实体i和实体j之间的绝对距离。

步骤S320，基于位置感知的主动学习策略，标注实体对，并训练图神经网络模型。

具体地，基于位置感知的主动学习策略通过计算各个实体间的标签特征值的平均值来判断优先选择的程度。示例性的，对于伪种子对的数据标签值为全1向量，维度与相同，其余实体的标签值为全0向量，维度也与相同，分别将其作为特征输入到基于关系感知的图神经网络中：

其中，表示实体i在图神经网络的第（l+1）层的特征向量，表示图神经网络的第l层的注意力得分，表示替换图神经网络中的转移矩阵，此处为正交矩阵，表示实体j在图神经网络的第l层的特征向量；tanh()表示双曲正切函数。

进一步地，求出GNN中最后一层的标签特征，之后再对该标签特征向量求平均，即可作为优先进行标注的衡量标准。对上述得到的标签特征的平均值进行排序，对于排序在前s位的实体进行标注。示例性地，s为正整数，将标注后的排序在前s位的实体加入至伪种子数据中，作为训练数据进行下一轮迭代；同时已标注的样本数据在进行下一轮迭代的时候其标签特征值变为全1向量，而不是原来的全0向量。不断迭代上述步骤，直到选出预算内所有的实体对，并对预算内所有的实体对进行标注，将标注后的实体对以及伪种子对作为训练数据训练图神经网络，得到训练好的图神经网络。

步骤S330，对实体进行对齐，并计算相似度。

具体地，由于伪种子对仅利用前几个最高图像相似度实体对，没有充分利用图像相似度矩阵内丰富的相似度信息。这里将图像相似性与实体嵌入相似性相结合，计算实体之间的相似度，对相似度高的实体进行对齐，以在推理阶段预测对齐实体。最终实体之间的相似度计算如下：

其中，表示实体和的相似度，通过和的余弦相似度计算得到。表示实体和的图像相似度。α为调节因子。

步骤S340，验证面向实体对齐的主动学习方法的准确性。

具体地，计算出实体对齐的命中率Hit@1和Hit@10，以及评价算法的指标；示例性地，评价算法的指标为：MRR（Mean reciprocal rank）指标。计算方式如下：

其中，|S|表示实体对个数，表示指示函数，若条件为真则该指示函数值为1，否则为0，其中，rank _i是每个查询中第i个结果的排名，rank _i≤n是每个查询中不大于n的第i个结果的排名。最后通过计算得到的结果指标，对实体图像对齐的准确性进行验证。具体地，此处的实体即为前述实施例中的实体图像，此处的伪种子对即为前述实施例中的第一实体对。

在其中一个实施例中，获取待对齐实体的实体名称，输入该实体名称至基于关系感知的图神经网络中，进而得到目标物，并将该目标物作为待对齐实体的对齐结果，进而有利于提高面向实体对齐的主动学习的有效性，进而提高了实体对齐的准确性，提高了计算机的处理效率。

示例性地，关于金融的知识图谱中，公司甲的知识图谱上有个人名实体：用户A，公司乙的知识图谱上有用户A、用户A1、以及用户A2；根据知识图谱中的图像相似度以及结构相似度就可以计算出公司甲的用户和公司乙的哪个用户是同一个人。关于翻译的知识图谱中，知识图谱中每个单词就是实体，如果知识图谱X的每个实体是英文，知识图谱Y的每个实体是中文，那么，根据知识图谱中的图像相似度以及结构相似度，可以得到知识图谱X中的英文单词对应于知识图谱Y中的中文单词。

图4是本具体实施例的面向实体对齐的主动学习方法的示意图，如图4所示，从多模态知识图谱中获取多个实体图像，并根据实体图像进行余弦相似度的计算，得到实体的伪种子对，即伪标签的实体图像对。示例性地，伪种子对为关于苹果图像的伪种子对和关于时钟图像的伪种子对，其中，相同实体在不同模态的知识图谱中对应的图像不同；其后，将伪种子对和知识图谱中未标记候选池中的实体输入至图神经网络中；进而根据基于位置感知的主动学习方法，在图神经网络中选择需要的实体进行标注，得到已标记实体对；并根据已标记实体对和伪种子对训练图神经网络。本具体实施例通过位置感知的主动采样策略，利用图神经网络在多跳中聚合信息的能力，优先选择与其他模态选择的数据相距较远的数据；即通过利用其他模态信息提高实体对采样效果的主动学习框架，选择这类样本进行标注可以实现不同模态信息间的相互补充，减少冗余标注，从而大幅降低了标注样本规模，解决了多模态实体对齐中标注成本过高的问题；同时利用实体的图像相似性矩阵来增强实体结构嵌入的相似性矩阵，从而在不增加实体对齐标注预算，或带来过多计算负担的情况下，实现性能的提高。

进一步地，使用视觉模态信息作为监督信号生成伪实体对以训练模型，然后使用提出的新指标函数对未标记样本进行排序，以优先选择距离已标注样本远的样本为准测，进而从未标记样本池中选择信息量丰富的样本进行标注，有利于实现不同模态信息间的相互补充，减少冗余标注。此外，利用实体的图像相似性矩阵来增强实体结构嵌入的相似性矩阵，从而在不增加额外参数的情况下实现了性能的提高，进一步地，在不影响对齐效果的情况下大幅降低了实体对的标注量，解决了多模态实体对齐中标注成本过高的问题，同时通过整合不同模态的相似度矩阵进一步提高实体对齐准确度。

本实施例中提供了一种目标对象匹配方法，图5是本申请实施例的目标对象匹配方法的流程图，如图5所示，该流程包括如下步骤：

步骤S510，获取目标对象的对象标识。

具体地，这里的目标对象可以为目标用户，目标图像，也可以为目标物体，这里的对象标识可以为目标用户的用户标识，如用户名称或用户描述等，对象标识还可以为目标图像的图像描述或图像对应的物体名称等，对象标识还可以为目标物体的物体名称或物体描述等。

步骤S520，根据对象标识，进行实体对齐。

具体地，将对象标识确定为待对齐的实体，采用本申请的面向实体对齐的主动学习方法，进行实体对齐，获得实体对齐结果；示例性地，当目标对象为目标物体时，输入目标物体的物体名称，至图神经网络模型中，进而得到目标物体的物体名称在知识图谱中对应的实体结构，并获取与该实体结构之间的相似度高于预设阈值的实体结构对应的对象，将目标对象与对应的对象进行实体对齐。

步骤S530，根据实体对齐结果，确定目标对象的匹配结果。

具体地，这里的实体对齐结果可以为与目标对象的实体结构对应的对象，并将该实体结构对应的对象确定为目标对象的匹配结果。

在现有技术中，目标对象匹配方法为利用有限的标注预算进行实体对齐的图像处理方式，由于未充分利用可用的实体相似性信息对不同模态之间的实体相似度进行增强，导致实体图像对齐的准确度不高，同时导致目标对象的匹配准确度较低。通过上述步骤，获取目标对象的对象标识，进而根据对象标识的图像相似度以及在知识图谱中的实体结构相似度，进行实体对齐；并根据目标对象的实体对齐结果，进而确定目标对象的匹配结果；通过结合多模态知识图谱中实体的图像相似度和实体的结构相似度，进而提高对目标对象进行实体对齐的准确度，进一步提高了对目标对象进行匹配的准确度，同时，进一步提高了计算机处理的效率。

在其中一个具体实施例中，目标对象为关于地点的文本，该对象的具体标识为“地点A”，那么将“地点A”确定为目标对象即待对齐的实体，采用本申请中的目标对象匹配方法，获取关于地点的知识图谱中与“地点A”这个实体节点相关联的实体节点以及实体关联关系；其后获取在关于图像的知识图谱以及在关于视频的知识图谱中与实体节点“地点A”的实体结构相似度较高的实体节点，与实体节点“地点A”进行实体对齐，示例性地，获取的相似度较高的实体节点为关于图像的知识图谱中的实体节点“建筑B”，以及关于视频的知识图谱中的实体节点“运动会C”；其后分别将实体节点“地点A”与实体节点“建筑B”进行对齐，将实体节点“地点A”与实体节点“运动会C”进行对齐，得到实体对齐的结果，其中，由于建筑B处于地点A，但是运动会C不止在地点A举办；因此，实体节点“地点A”与实体节点“建筑B”的实体结构相似性高于实体节点“地点A”与实体节点“运动会C”的实体结构相似性；因此，确定实体节点“建筑B”为实体节点“地点A”的匹配结果，进而获取目标对象的匹配结果。

在本实施例中还提供了一种面向实体对齐的主动学习装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是本申请实施例的面向实体对齐的主动学习装置的结构框图，如图6所示，该装置包括：主动学习模块10、训练模块20和确定模块30。

主动学习模块10，用于基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对；其中，第一实体对为进行实体对齐后得到的实体对；第一实体对与第二实体对的特征关系满足预设条件。

训练模块20，用于根据第一实体对和第二实体对，训练预设的图神经网络模型，并基于主动学习规则得到第三实体对，根据第三实体对更新第二实体对。

确定模块30，用于当第三实体对的数量等于预设的实体对数量阈值时，确定目标图神经网络模型。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在本实施例中还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对；其中，第一实体对为进行实体对齐后得到的实体对；第一实体对与第二实体对的特征关系满足预设条件。

S2，根据第一实体对和第二实体对，训练预设的图神经网络模型，并基于主动学习规则得到第三实体对，根据第三实体对更新第二实体对。

S3，当第三实体对的数量为预设的实体对数量阈值时，确定目标图神经网络模型。

需要说明的是，在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

此外，结合上述实施例中提供的面向实体对齐的主动学习方法，在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种面向实体对齐的主动学习方法。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种面向实体对齐的主动学习方法，其特征在于，所述方法包括：

当所述第三实体对的数量达到预设的实体对数量阈值时，确定目标图神经网络模型。

2.根据权利要求1所述的面向实体对齐的主动学习方法，其特征在于，所述基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对之前，包括：

3.根据权利要求1所述的面向实体对齐的主动学习方法，其特征在于，所述基于预设的主动学习规则，并根据知识图谱中的第一实体对，获取知识图谱中的第二实体对，包括：

4.根据权利要求3所述的面向实体对齐的主动学习方法，其特征在于，所述输入除第一实体对外的实体至所述中间图神经网络模型，得到所述除第一实体外的实体的标签特征值，包括：

5.根据权利要求3所述的面向实体对齐的主动学习方法，其特征在于，所述根据所述第一实体对和所述第二实体对，训练预设的图神经网络模型，并基于所述主动学习规则得到第三实体对，根据所述第三实体对更新所述第二实体对，包括：

6.根据权利要求1所述的面向实体对齐的主动学习方法，其特征在于，所述确定目标图神经网络模型之后，包括：

7.根据权利要求6所述的面向实体对齐的主动学习方法，其特征在于，所述输入待对齐实体至所述目标图神经网络模型，得到不同待对齐实体之间的相似度，包括：

8.一种面向实体对齐的主动学习装置，其特征在于，所述装置包括：

主动学习模块、训练模块和确定模块；

所述确定模块，用于当所述第三实体对的数量达到预设的实体对数量阈值时，确定目标图神经网络模型。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至权利要求7中任一项所述的面向实体对齐的主动学习方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的面向实体对齐的主动学习方法的步骤。