CN112445876A

CN112445876A - 融合结构、属性和关系信息的实体对齐方法和系统

Info

Publication number: CN112445876A
Application number: CN202011484523.XA
Authority: CN
Inventors: 杨林瑶; 王晓; 陈薏竹; 王飞跃; 张俊
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2020-11-25
Filing date: 2020-12-16
Publication date: 2021-03-05
Anticipated expiration: 2040-12-16
Also published as: CN112445876B

Abstract

本发明属于信息处理领域，具体涉及一种融合结构、属性和关系信息的实体对齐方法和系统，旨在解决现有实体对齐方法并不能很好地整合结构、属性和关系信息从而限制了实体对齐的效果的问题。本发明方法包括迭代的以下步骤：利用对齐种子集合S，获取各实体的结构向量，并编码其属性向量；进行关系对齐，获得对应的关系向量；基于实体的结构向量、属性向量、关系向量，通过注意力网络获得实体相似性矩阵；基于矩阵查询标记法预测对齐实体，将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′；若S∩S′＝S′，则结束迭代，输出对齐种子集合S；否则，S＝S₀∪S′继续迭代。本发明可以有效提升实体对齐的性能。

Description

融合结构、属性和关系信息的实体对齐方法和系统

技术领域

本发明属于信息处理领域，具体涉及一种融合结构、属性和关系信息的实体对齐方法和系统。

背景技术

知识图谱是人工智能在大数据环境中的成功应用，与大数据和深度学习一起，成为推动互联网和人工智能发展的核心驱动力之一。随着智能信息服务应用的不断发展，知识图谱已被广泛应用于信息检索、个性化推荐、智能问答等多个实际场景，具有极强的表达能力和建模灵活性。

由于任何机构和组织都可以根据自己的需求和设计理念创建知识库，因此知识库中的数据也充满多样性和异构性，并且存在很多相互重复或补充的部分。因此，将不同来源或语言的知识图谱整合到一个统一的知识图谱中变得至关重要，可以更好地推动知识应用的发展。如DB-pedia、YAGO等多语言知识图谱包含了丰富的跨语言信息，包括等效实体的跨语言链接。然而，并非所有等效实体都具有跨语言链接，因此，跨知识图谱实体对齐任务具有重要意义。但是，目前的实体对齐方法并不能很好地整合结构、属性和关系信息，这在一定程度上限制了实体对齐的效果。

发明内容

为了解决现有技术中的上述问题，即为了解决现有实体对齐方法并不能很好地整合结构、属性和关系信息，从而限制了实体对齐的效果的问题，本发明提出了一种融合结构、属性和关系信息的实体对齐方法，包括以下步骤：

S100，获取初始对齐种子集合S₀；所述对齐种子集合为待实体对齐的两个知识图谱G₁、G₂的对齐种子所构成的集合；

S200，利用对齐种子集合S，获取各实体的结构向量，并编码其属性向量；其中，S＝S₀∪S′，S′为上一轮迭代得到的高置信度预测对齐实体集合，其初始状态为空；

S300，基于实体的结构向量，进行关系对齐，获得对应的关系向量；

S400，基于实体的结构向量、属性向量、关系向量，通过注意力网络获得实体相似性矩阵；

S500，利用实体相似性矩阵，基于矩阵查询标记法预测对齐实体，将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′；

S600，若S∩S′＝S′，则结束迭代，输出对齐种子集合S；否则，执行步骤S200。

在一些优选实施方式中，所述结构向量为两个知识图谱G₁、G₂中的实体在统一向量空间中的结构嵌入表示。

在一些优选实施方式中，所述结构向量获取所采用的网络为图注意力网络、RSNs结构嵌入模型或AliNet结构嵌入模型。

在一些优选实施方式中，所述属性向量，其获取方法为：识别不同实体中的属性名实体，将等价的属性名合并映射为同一种命名。

在一些优选实施方式中，所述关系向量，其获取方法为：

基于实体的结构向量近似知识图谱G₁、G₂中关系的表示向量；

基于关系的表示向量，计算知识图谱G₁、G₂中关系的相似性，得到临时相似性矩阵；

基于临时相似性矩阵，通过矩阵查询标记法预测各种关系的对齐关系，并基于对齐结果将实体所连接关系的类型编码为关系向量。

在一些优选实施方式中，所述知识图谱G₁、G₂中关系的相似性通过关系的表示向量之间的曼哈顿距离表示。

在一些优选实施方式中，所述关系向量由前半部分表示实体n_h、后半部分表示实体n_t组成；其中，n_h为头实体所连接的关系类型，n_t为尾实体所连接的关系类型。

在一些优选实施方式中，S400中“通过注意力网络获得实体相似性矩阵”，其方法为：

基于所述关系向量，通过一个全连接神经网络生成连续的关系向量g_h、g_t；

基于结构向量、属性向量计算实体的特征矩阵；

分别计算各实体对不同向量之间的相似度；

通过softmax层和平均层可以得到一个实体对中两个实体对彼此的对应向量相似性的注意力；

将结构、语义和关系的相似性分数与其对应的注意力分数相乘以获得最终的相似性分数；

将所有实体对之间的相似性按照对应位置排列成矩阵即可得最终的实体相似性矩阵。

在一些优选实施方式中，S500中“预测对齐实体”，其方法为：

S501，检索相似性矩阵的最大值，记录其相似度数值及其所处的横纵坐标(i，j)；

S502，将相似性矩阵的第i行和第j列中的数值全部改为一个预设的足够小的数；

S503，迭代执行S501、S502直至整个相似性矩阵中的数值全部标记为预设的足够小的数。

本发明的第二方面提出了一种融合结构、属性和关系信息的实体对齐系统，包括第一模块、第一模块、第三模块、第四模块、第五模块、第六模块：

所述第一模块，获取初始对齐种子集合S₀；所述对齐种子集合为待实体对齐的两个知识图谱G₁、G₂的对齐种子所构成的集合；

所述第二模块，利用对齐种子集合S，获取各实体的结构向量，并编码其属性向量；其中，S＝S₀∪S′，S′为上一轮迭代得到的高置信度预测对齐实体集合，其初始状态为空；

所述第三模块，基于实体的结构向量，进行关系对齐，获得对应的关系向量；

所述第四模块，基于实体的结构向量、属性向量、关系向量，通过注意力网络获得实体相似性矩阵；

所述第五模块，利用实体相似性矩阵，基于矩阵查询标记法预测对齐实体，将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′；

所述第六模块，若S∩S′＝S′，则结束迭代，输出对齐种子集合S；否则，执行返回所述第二模块。

本发明的有益效果：

利用本发明的方法，能够在一个统一的实体对齐框架中充分融合结构、属性和关系信息，有效提升实体对齐的性能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的融合结构、属性和关系信息的实体对齐方法流程示意图；

图2是本发明一种实施例的融合结构、属性和关系信息的实体对齐方法框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对现有实体对齐方法并不能很好地整合结构、属性和关系信息，从而限制了实体对齐的效果的问题，本发明提出建立融合结构、属性和关系信息的实体对齐框架，并提出使用注意机制自适应地调整相应信息的权重，为满足一对一对齐约束，本发明提出一种高效的矩阵标记分配方法，同时，本发明提出以迭代训练的增量学习方式提升模型精度并提出迭代训练的终止判别方法。本发明能够充分利用结构、属性和关系三方面的信息，为实体对齐任务提供一种新的思路，并在广泛使用的公开数据集上取得了更好的效果。

本发明的一种融合结构、属性和关系信息的实体对齐方法，包括以下步骤：

为了更清晰地对本发明进行说明，下面结合附图对本方发明一种实施例中各部分进行展开详述。

本发明一种实施例的一种融合结构、属性和关系信息的实体对齐方法，如图1、图2所示，包括迭代执行的步骤S100-S600。

S100，获取初始对齐种子集合S₀；所述对齐种子集合为待实体对齐的两个知识图谱G₁、G₂的对齐种子所构成的集合。

基于待实体对齐的两个知识图谱G₁、G₂中其实体的结构、属性及实体之间的关系类型信息，获取初始对齐种子集合S₀。

S200，利用对齐种子集合S，获取各实体的结构向量，并编码其属性向量。

为了避免预测误差在多轮迭代中累积，本实施例中的对齐种子集合S为初始对齐种子集合S₀与上一轮迭代得到的高置信度预测对齐实体集合S′的交集，可以表示为S＝S₀∪S′；每一轮的对齐种子集合S；若当前迭代步为第一步，则S′为空集。

结构向量为两个知识图谱G₁、G₂中的实体在统一向量空间中的结构嵌入表示。本实施例中结构向量为，使用图注意力网络来联合学习不同知识图谱中的实体在统一向量空间中的结构嵌入表示

表示维数为d_s的实数向量空间；当然，也可以采用其他结构嵌入模型(RSNs、AliNet等)进行结构嵌入表示的获取，随着迭代次数的增加，简单的结构嵌入模型也可以达到足够的精度。采用的网络为图注意力网络、RSNs结构嵌入模型或AliNet结构嵌入模型获取结构向量的方法已有诸多论文进行公开，此处不再展开赘述。

在属性信息方面，不同实体往往拥有不同的属性类型，属性类型所包含的语义信息比属性值更具有代表性。属性向量获取方法为：识别不同实体中的属性名实体，将等价的属性名合并映射为同一种命名。本实施例为了提高准确度，基于上述的属性向量获取方法进行优化，以半自动的方式构建一个属性名消岐字典，具体方法为：首先，基于openNLP工具自动识别不同实体中的属性名实体，并且将等价的属性名合并映射为同一种命名，然后，由人工对上述结果进行检查，排除误合并的属性名，由于属性类型往往十分有限，该方式即可保证效率。在得到合并的属性类型后，将实体所拥有的属性类型编码为属性向量

(

表示维数为d_n的实数向量空间)，其长度为合并后的属性名类型数量，若实体拥有某种类型的属性，则其属性向量的对应位置为1，否则为0。

S300，基于实体的结构向量，进行关系对齐，获得对应的关系向量。

该步骤可以细化为以下步骤：

S301，基于实体的结构向量近似知识图谱G₁、G₂中关系的表示向量，

在获得实体的结构向量之后，进一步基于实体的结构向量近似知识图谱中关系的表示。以给定的关系r为例，其近似嵌入表示为

其中

表示向量拼接，H_r和T_r分别代表关系r对应的头实体和尾实体的嵌入集合，f(·)则表示实体关系的映射函数，本发明中f(·)具体使用的是均值计算函数。

S302，基于关系的表示向量，计算知识图谱G₁、G₂中关系的相似性，得到临时相似性矩阵。

在得到关系的表示向量后，本发明计算两个知识图谱中关系的相似性，该相似性由关系向量之间的曼哈顿距离计算，可以得到临时相似性矩阵。

S303，基于临时相似性矩阵，通过矩阵查询标记法预测各种关系的对齐关系，并基于对齐结果将实体所连接关系的类型编码为关系向量。

基于以上临时相似性矩阵，通过矩阵查询标记法预测各种关系的对齐关系，并基于关系对齐结果，将实体所连接关系的类型编码为关系向量。本实施例的通过矩阵查询标记法预测各种关系的对齐关系的方法可以采用本发明S500中的方法进行，为了使本发明逻辑更加清晰，此处不展开描述，放到S500部分进行展开详述。

关系向量由两部分组成，前半部分表示实体为头实体所连接的关系类型，以n_h表示，后半部分表示实体为尾实体所连接的关系类型，以n_t表示。n_h和n_t的长度为max(TypeofRel(G₁)，TypeofRel(G₂))，其中TypeofRel表示对应知识图谱中关系类型的数量，对应位置数值为该实体所连接的对应类型的(头或尾)关系数量。

S400，基于实体的结构向量、属性向量、关系向量，通过注意力网络获得实体相似性矩阵。

基于注意力网络，对结构、属性、关系向量之间的相似性赋予不同的权重，以增强实体对齐效果。本发明所用注意力网络的结构如图2中的注意力机制所示，基于该注意力网络获取实体相似性矩阵的步骤包括：

S401，基于所述关系向量，通过一个全连接神经网络生成连续的关系向量g_h、g_t。

通过一个全连接神经网络生成连续的关系向量

和

其中，全连接层的权值矩阵M_h与M_t由两个知识图谱的所有关系向量共享。

表示维数为d_r的实数向量空间。

S402，基于结构向量、属性向量计算实体的特征矩阵。

结合步骤S200得到的结构向量

及属性向量

可得实体e₁的特征矩阵为：

其中，公式中的；表示向量按行拼接成一个矩阵，d_m＝max{d_s，d_n，d_r}，并用0将维度小于d_m的向量填充到d_m。d_s、d_n、d_r分别为结构向量、属性向量和关系向量的维度。

S403，分别计算各实体对不同向量之间的相似度。

两个实体e₁、e₂不同向量之间的相似度

由下式计算：

其中，

表示实体e₁的第i行向量，

表示实体e₂的第j行向量，a是一个可训练的权重矩阵。

S404，通过softmax层和平均层(average)可以得到一个实体对中两个实体对彼此的对应向量相似性的注意力。

本年实施中通过softmax层和平均层可以得到实体e₁和e₂对彼此的对应向量相似性的注意力，即

及

att^z，attⁿ，att^g分别表示关于结构相似性、属性相似性及关系相似性的注意力权重。

S405，将结构、语义和关系的相似性分数与其对应的注意力分数相乘以获得最终的相似性分数。

最终的相似性分数Sim(e₁，e₂)表示为

其中，Sim_z(e₁，e₂)，Sim_n(e₁，e₂)，Sim_g(e₁，e₂)分别表示e₁对e₂结构向量、属性向量、关系向量之间的相似性，分别通过实体e₁和e₂的结构向量、属性向量、关系向量的余弦相似性求得。

S406，将所有实体对之间的相似性按照对应位置排列成矩阵即可得最终的实体相似性矩阵。

构建一个行数为N₁，列数为N₂的矩阵，其中N₁、N₂分别为知识图谱G₁与G₂的实体数，矩阵的每一行代表G₁的一个实体与G₂中不同实体之间的相似性，每一列代表G₂的一个实体与G₁中不同实体之间的相似性，将所有实体对之间的相似性得分填充到矩阵的对应位置即得知识图谱G₁与G₂之间的相似性矩阵Sim(G₁，G₂)。

S500，利用实体相似性矩阵，基于矩阵查询标记法预测对齐实体，将置信度大于给定阈值的预测实体对构成的集合作为高置信度预测对齐实体集合S′。

在得到两个知识图谱实体的相似性矩阵后，本实施例采用一种基于迭代矩阵搜索标记的方法进行实体对齐预测。具体流程为：

S501，检索相似性矩阵的最大值，记录其相似度数值及其所处的横纵坐标(i，j)，则预测G₁中的e_i与G₂中的e_j为对齐实体；

S502，将相似性矩阵的第i行和第j列中的数值全部改为一个预设的足够小的数，如-1000；

该方法可以有效保证预测的对齐实体满足一对一约束，同时，计算复杂度比较小，能够应对大规模知识图谱场景。在得到实体对齐预测结果后，将相似度大于ξ的实体对认定为预测置信度比较高的实体对，ξ可以为人为指定的相似度阈值，输出作为下一轮补充的对齐种子。

基于步骤S500得到高置信度预测对齐实体集合S′，求其与本轮使用的对齐种子集合S的交集，若S′与S的交集等于S′，证明当前的迭代已经比较充分，则结束模型迭代并以本轮模型的预测作为最终的实体对齐预测结果输出；否则，将对齐种子集合S更新为初始对齐种子集合S₀与本次迭代得到的高置信度预测对齐实体集合S′的交集(即对齐种子补充)，进行下一次迭代。

本发明第二实施例的一种融合结构、属性和关系信息的实体对齐系统，包括第一模块、第一模块、第三模块、第四模块、第五模块、第六模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的融合结构、属性和关系信息的实体对齐系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种计算机可读取存储介质，存储用于设备执行的程序代码，该程序代码包括用于执行上述融合结构、属性和关系信息的实体对齐方法。

本发明第四实施例的一种数据处理装置，包括处理器、存储装置；所述存储器用于存储程序指令，所述处理器用于调用所述程序指令来执行上述融合结构、属性和关系信息的实体对齐方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种融合结构、属性和关系信息的实体对齐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，所述结构向量为两个知识图谱G₁、G₂中的实体在统一向量空间中的结构嵌入表示。

3.根据权利要求2所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，所述结构向量获取所采用的网络为图注意力网络、RSNs结构嵌入模型或AliNet结构嵌入模型。

4.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，所述属性向量，其获取方法为：识别不同实体中的属性名实体，将等价的属性名合并映射为同一种命名。

5.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，所述关系向量，其获取方法为：

6.根据权利要求5所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，所述知识图谱G₁、G₂中关系的相似性通过关系的表示向量之间的曼哈顿距离表示。

7.根据权利要求6所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，所述关系向量由前半部分表示实体n_h、后半部分表示实体n_t组成；其中，n_h为头实体所连接的关系类型，n_t为尾实体所连接的关系类型。

8.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，S400中“通过注意力网络获得实体相似性矩阵”，其方法为：

基于结构向量、属性向量计算实体的特征矩阵；

分别计算各实体对不同向量之间的相似度；

9.根据权利要求1所述的融合结构、属性和关系信息的实体对齐方法，其特征在于，S500中“预测对齐实体”，其方法为：

S501，检索相似性矩阵的最大值，记录其相似度数值及其所处的横纵坐标(i,j)；

10.一种融合结构、属性和关系信息的实体对齐系统，其特征在于，包括第一模块、第一模块、第三模块、第四模块、第五模块、第六模块：