CN112417169A

CN112417169A - 知识图谱的实体对齐方法、装置、计算机设备和存储介质

Info

Publication number: CN112417169A
Application number: CN202011314360.0A
Authority: CN
Inventors: 向玥佳; 张子恒; 林镇溪; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-26

Abstract

一种知识图谱的实体对齐方法、装置、计算机设备和存储介质，方法包括：获取第一待对齐知识图谱的各第一待对齐实体，以及第二待对齐知识图谱的各第二待对齐实体；读取各第一待对齐实体和各第二待对齐实体所属的类别；基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵；分别确定各第一待对齐实体与各第二待对齐实体之间的相似度；基于相似度和类别冲突矩阵，对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息，结合类别冲突矩阵进行实体对齐，可减少将相似名称但含义不同等类型的实体聚合到一起的情况，减少了实体对齐的错误。

Description

知识图谱的实体对齐方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种知识图谱的实体对齐方法、装置、计算机设备和存储介质。

背景技术

知识图谱(Knowledge Graph)，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱通常由节点(point)和边(Edge)组成，每个节点表示一个“实体”，每条边为实体与实体之间的“关系”。

在不同的知识图谱中，对于具有相同含义的实体的称呼或者表现形式可能不同，因此需要进行跨知识图谱的实体对齐。相关技术中出现了许多基于嵌入的方法实现实体对齐，这类方法通常是在一个隐含空间中建模图谱的各个维度的信息，然而目前的模型容易将相近称呼或表现形式但不同含义的实体聚类到一起，导致实体对齐错误。

发明内容

基于此，有必要针对上述技术问题，提供一种能够减少实体对齐错误的知识图谱的实体对齐方法、装置、计算机设备和存储介质。

一种知识图谱的实体对齐方法，所述方法包括：

获取第一待对齐知识图谱的各第一待对齐实体，以及第二待对齐知识图谱的各第二待对齐实体；

读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别；

基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵；

分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度；

基于所述相似度和所述类别冲突矩阵，对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，得到对齐后的知识图谱。

在其中的一个实施例中，所述基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵，包括；

统计所述第一待对齐知识图谱中包含的类别，与所述第二待对齐知识图谱中包含的类别之间的已知类别关系的概率统计信息；

基于所述已知类别关系的概率统计信息，确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率，得到所述类别冲突矩阵。

一种知识图谱的实体对齐装置，所述装置包括：

获取模块，用于获取第一待对齐知识图谱的各第一待对齐实体，以及第二待对齐知识图谱的各第二待对齐实体；

类别读取模块，用于读取各所述第一待对齐实体和各所述第二待对齐实体所属的类别；

冲突矩阵构建模块，用于基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵；

相似度确定模块，用于分别确定各所述第一待对齐实体与各所述第二待对齐实体之间的相似度；

实体对齐模块，用于基于所述相似度和所述类别冲突矩阵，对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，得到对齐后的知识图谱。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述知识图谱的实体对齐方法、装置、计算机设备和存储介质，对于待进行实体对齐的两个知识图谱，分别获取其中的实体，并读取各实体所属的类别，基于类别构建两个知识图谱之间的类别冲突矩阵，分别计算两个知识图谱中各实体之间的相似度，最后基于类别冲突矩阵和各实体间的相似度进行实体对齐，得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息，结合类别冲突矩阵进行知识图谱的实体对齐，可减少将相似名称但含义不同等实体聚合到一起的情况，减少了实体对齐的错误。

附图说明

图1为一个实施例中知识图谱的实体对齐方法的流程示意图；

图2为一个实施例中基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵的流程示意图；

图3为一个实施例中基于类别关系信息，分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率的流程示意图；

图4为一个具体实施例中类别从属关系的示意图；

图5为一个实施例中基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率的流程示意图；

图6为一个实施例中基于类别冲突矩阵对各相似度进行调整，得到调整后相似度的流程示意图；

图7为另一个实施例中基于类别冲突矩阵对各相似度进行调整，得到调整后相似度的流程示意图；

图8为一个具体实施例中知识图谱的实体对齐方法的流程示意图；

图9为一个实施例中知识图谱的实体对齐装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种知识图谱的实体对齐方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括步骤S110至步骤S150。

步骤S110，获取第一待对齐知识图谱的各第一待对齐实体，以及第二待对齐知识图谱的各第二待对齐实体。

知识图谱是一种基于图的数据结构，由节点(point)和边(Edge)组成，每个节点表示一个实体，每条边为实体与实体之间的“关系”。知识图谱是由一些相互连接的实体和他们的属性构成的；换句话说，知识图谱是由一条条知识组成，每条知识表示为一个SPO三元组(Subject-Predicate-Object)。其中，实体是客观存在的具体东西，通常指实际存在的、起作用的组织、机构、物品、人物等名词。

实体对齐旨在判断两个或者多个不同信息来源的实体是否为指向真实世界中同一个对象。如果多个实体表征同一个对象，则在这些实体之间构建对齐关系，同时对实体包含的信息进行融合和聚集。知识图谱中的实体对齐是指将两个知识图谱进行合并时需要对两者中描述同一个实体的知识进行归一化。

本实施例中，对两个知识图谱中的实体进行实体对齐，首先分别获取两个待对齐的知识图谱中的实体，为了区分将两个待对齐的知识图谱分别命名为第一待对齐知识图谱和第二待对齐知识图谱，对第一待对齐知识图谱中的实体命名为第一待对齐实体，对第二待对齐知识图谱中的实体命名为第二待对齐实体。

步骤S120，读取各第一待对齐实体和各第二待对齐实体所属的类别。

类别就是品类、门类的意思；在一个实施例中，类别可以用于描述物体。在本实施例中，知识图谱中的实体均对应至少一个所属的类别，例如一个人，所属类别为人类，又如一棵松树，其所属类别为植物；或者说一个人所属类别为成年人，或者还可以从职业的角度描述一个人所属的类别为科学家，等等；在本实施例中，对于知识图谱中的实体，分别获取各实体所属的类别。可以理解地，多个实体可能对应同一类别，一个实体也可能对应多个类别；在一个实施例中，读取实体在待对齐知识图谱中对应的类别。

步骤S130，基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵。

在本实施例中，类别冲突是指两个实体类别之间存在对立或不一致的相互关系；类别冲突矩阵是指表示第一待对齐的知识图谱中包含的各实体所属类别，与第二待对齐知识图谱中包含的各实体所属的类别之间发生冲突的概率，以各两个待对齐知识图谱中包含的各实体所属的类别为基础构建得到。

在一个实施例中，基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵，包括：获取各类别之间的关系，基于类别之间的关系分别确定各类别之间的冲突概率，进而得到第一待对齐知识图谱与第二待对齐知识图谱之间的类别冲突矩阵；其中，类别之间的关系可以基于先验知识确定。具体的基于类别之间的关系确定各类别之间的冲突概率的过程将在后实施例中进行详细描述，在此不再赘述。

步骤S140，分别确定各第一待对齐实体与各第二待对齐实体之间的相似度。

相似度用于描述两个事物之间相似的程度，在本实施例中，对知识图谱中的实体进行相似度的计算，可以理解地，本实施例中确定相似度包括对于第一待对齐知识图谱中的一个实体需计算与第二待对齐知识图谱中的所有实体之间的相似度；假设第一待对齐知识图谱中包含m个实体，第二待对齐知识图谱中包含n个实体，需计算得到m*n个实体间的相似度。

进一步地，计算知识图谱的实体间的相似度可以通过任意一种方式实现。在一个实施例中，可基于通过训练确定的实体对齐模型对各实体确定对应的嵌入表示，并利用各实体对应的嵌入表示计算各实体间的相似度。在一个具体实施例中，可利用余弦距离表示计算各实体对应的嵌入表示来得到各实体间的相似度。

其中通过训练确定的实体对齐模型可以是任意一种实体对齐模型；在一个具体实施例中，实体对齐模型包括MTransE(一种基于嵌入表示的图谱对齐算法)，GCN-Align(一种嵌入式图谱对齐算法)，BootEA(一种基于嵌入表示的图谱对齐算法)等。

步骤S150，基于相似度和类别冲突矩阵，对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，得到对齐后的知识图谱。

在一个实施例中，基于相似度和类别冲突矩阵，对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，包括：基于类别冲突矩阵对各相似度进行调整，得到调整后相似度；根据各第一待对齐实体与各第二待对齐实体之间的调整后相似度，对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐。

进一步地，在一个实施例中，基于类别冲突矩阵对各相似度进行调整，得到调整后相似度，包括：读取相似度对应的两个实体所属的类别在类别冲突矩阵中的冲突概率，以冲突概率和预设系数对相似度进行调整，得到对应的调整后相似度。其中以冲突概率和预设系数对相似度进行调整，得到对应的调整后相似度的具体过程在后实施例中将会详细描述，在此不再赘述。

传统方法通常利用实体对齐模型确定各实体对应的嵌入表示，并以嵌入表示计算相似度表示实体间的相似度，在得到各实体间的相似度之后，基于各实体相似度确定每一个实体的最近邻，进而实现跨知识图谱的实体对齐。而本实施例中通过确定两个知识图谱中各实体所属类别之间的类别冲突矩阵，引入了类别信息，通过一定的方式基于类别冲突矩阵对相似度进行一定的调整，可能对相似度产生一定的影响，进而对知识图谱的实体对齐产生影响，即在知识图谱的实体对齐过程中引入了实体类别冲突信息，从而使得实体对齐减少因类别冲突产生的对齐错误，提高实体对齐的正确率。

上述知识图谱的实体对齐方法，对于待进行实体对齐的两个知识图谱，分别获取其中的实体，并读取各实体所属的类别，基于类别构建两个知识图谱之间的类别冲突矩阵，分别计算两个知识图谱中各实体之间的相似度，最后基于类别冲突矩阵和各实体间的相似度进行实体对齐，得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息，结合类别冲突矩阵进行实体对齐，可减少将相似名称但含义不同的实体聚合到一起的情况，减少了实体对齐的错误。

在一个实施例中，如图2所示，基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵，包括步骤S210和步骤S220。其中：步骤S210，获取与类别关联的类别关系信息；步骤S220，基于类别关系信息，分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率，得到类别冲突矩阵。

其中，在获取第一待对齐知识图谱中各实体类别、第二待对齐知识图谱中各实体类别之后，通过一定方式获取两个待对齐知识图谱的各实体类别之间的类别关系，即为本实施例中的类别关系信息；例如第一待对齐知识图谱中包含的实体类别A1，与第二待对齐知识图谱中包含的实体类别A2，类别A1与类别A2之间，存在的类别关系可能为：类别A1与类别A2不冲突，或者类别A1与类别A2属于同一类别，或者类别A1与类别A2存在冲突，等等关系即为本实施例中的类别关系信息。

在分别确定第一待对齐知识图谱中各实体类别，与第二待对齐知识图谱中各实体类别间的冲突概率后，即可得到第一待对齐知识图谱与第二待对齐知识图谱间的类别冲突矩阵。假设第一待对齐知识图谱包含m个实体类别，第二待对齐知识图谱包含n个实体类别，则可得到m*n的类别冲突矩阵。

在一个实施例中，若第一待对齐实体所属类别和第一待对齐实体所属类别是同一类别，则确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为0。其中，冲突概率为0表示两个类别之间完全不冲突，可以理解地，各类别与其本身是完全不冲突的。

在另一个实施例中，类别关系信息包括与类别关联的已知实体类别冲突关系；在本实施例中，如图3所示，基于类别关系信息，分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率，包括步骤S310：若第一待对齐实体所属类别与第一待对齐实体所属类别属于已知实体类别冲突关系，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为1。

其中，已知实体类别冲突关系是指在实际世界中已经明确的两个类别之间的关系，是否为冲突的，例如在一个具体实施例中，类别“人类”和类别“工作”一定是冲突的。

在一个实施例中，获取第一待对齐知识图谱与第二待对齐知识图谱中的实体schema(数据库的组织和结构)信息，基于schema信息中的元关系“owl:disjointWith(表达一组类是不相交的)”确定两个类别是否冲突；进一步地，在一个实施例中，schema信息中关于两个类别是否冲突通过三元组表示，在本实施例中，通过读取第一待对齐知识图谱与第二待对齐知识图谱中schema信息中表示类别冲突的三元组信息，作为已知实体类别冲突关系。

读取在第一待对齐知识图谱与第二待对齐知识图谱中的已知实体类别冲突关系之后，若根据已知实体类别冲突关系确定两个实体所属类别之间属于冲突，则确定该两个实体所属类别对应的冲突概率为1；可以理解地，冲突概率为1表示两个实体类别是完全冲突的。

在另一个实施例中，类别关系信息包括：第一待对齐知识图谱和第二待对齐知识图谱中的对齐种子；在本实施例中，请继续参照图3，基于类别关系信息，分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率，包括步骤S320：若第一待对齐实体与第二待对齐实体属于对齐种子，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为0。

对齐种子是指第一待对齐知识图谱与第二待对齐知识图谱中已知的对齐实体，对于实体对齐任务，通常会给定少量的对齐种子作为监督信息。在一个实施例中，对齐种子包括实际对齐的一组或多组实体，一组实体分别包括第一待对齐知识图谱中的实体，和第二待对齐知识图谱中的实体。若属于对齐种子，则表示两个实体是对齐的，在本实施例中认为对齐种子的对应实体类别是相关的；进一步地，在本实施例中将属于对齐种子的实体所属类别确定为不冲突，即对应的冲突概率确定为0。例如在第一待对齐知识图谱中存在实体“科学家”，第二待对齐知识图谱中的实体“音乐家”，假设“科学家”与“音乐家”属于一组对齐种子，则认为“科学家”所属类别与“音乐家”所属类别的冲突概率为0。

在另一个实施例中，类别关系信息还包括：各类别的从属关系；在本实施例中，请继续参照图3，基于类别关系信息，分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率，包括步骤S330和步骤S340。

步骤S330，读取预设放缩因子、第一待对齐实体所属类别在从属关系中的第一类别从属关系路径，以及第二待对齐实体所属类别在从属关系中的第二类别从属关系路径。

其中，类别的从属关系是指类别之间正相关关系；在一个实施例，类别的从属关系包括类别所属于的父类别，以及类别包括的子类别；在一个实施例中，类别的从属关系可以以多叉树进行表示。如图4所示为一个具体实施例中类别从属关系的示意图；其中，politician(政治家)的父类为person(人)，person的父类为agent(人的职业或组织机构)，agent同时也是organisation的父类。进一步地，各类别之间的从属关系可以通过任意一种方式获得。

在一个实施例中，第一待对齐实体所属类别在从属关系中的第一类别从属关系路径是指，第一待对齐实体所属类别在从属关系中的到最高父类的路径(在从属关系中的最高一层次的类别)，若以多叉树表示从属关系，即第一待对齐实体所属类别在多叉树中走到根节点的路径集合。与第一待对齐实体所属类别类似地，同样可以确定第二类别从属关系路径。以图4所示多叉树为例，其中，实体类别politician对应的类别从属关系包括：politician→person→agent；实体类别organisation对应的类别从属关系包括organisation→agent。

预设放缩因子在本实施例中用于计算两个实体类别之间的冲突概率，可控制权重的衰减速度；预设放缩因子可以根据实际情况设定。

步骤S340，基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。

在一个实施例中，上述确定类别冲突概率的方法称为路径覆盖原则。

进一步地，如图5所示，在一个实施例中，基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率，包括步骤S341至步骤S344。

步骤S341，确定第一类别从属关系路径与第二类别从属关系路径之间的交集和并集。

在集合论中，设A，B是两个集合，由所有属于集合A且属于集合B的元素所组成的集合，叫做集合A与集合B的交集(intersection)；相应地，把A和B中包含的所有元素合并在一起组成的集合，叫做集合A与集合B的并集。在本实施例中，将第一类别从属关系路径与第二类别从属关系路径中所包含的所有类别做交集和并集。

步骤S342，计算交集与预设放缩因子的第一和值，计算并集与预设放缩因子的第二和值。

步骤S343，计算第一和值与第二和值的比值。

步骤S344，将1与比值的差值确定为第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。

在一个具体实施例中，基于类别从属关系路径计算两个实体类别的冲突概率可以用以下公式表示：

其中，c_i表示类别，P(ci)＝{c_i,p_i,1,p_i,2,…,p_i,j}表示从c_i走到类别树根节点途径的类别从属路径，p_i,j为c_i的第j个父节点；Dist(ci,cj)表示两个类别c_i和c_j之间的冲突概率，K表示预设放缩因子。

上述实施例中通过交并集计算了第一类别从属关系路径与第二类别从属关系路径之间的差异性，度量了两个类别在类别的从属关系中的距离，若两个类别在类别从属关系中的距离越远，则该两个类别发生冲突的概率越大。可以理解地，当c_i＝c_j，则Dist(ci,cj)＝0；如果c_i和c_j位于树的同一分支，则

两者的距离越近，冲突的概率则越小。

本实施例中，通过定义实体类别之间的冲突概率的确定方式，基于上述方式可确定第一待对齐知识图谱与第二待对齐知识图谱之间的类别冲突矩阵，后续用于进行跨知识图谱的实体对齐。

在另一个实施例中，也可以通过概率统计的方式确定第一待对齐知识图谱与第二待对齐知识图谱中各实体类别之间的类别冲突概率，从而生成对应的类别冲突概率。在其中的一个实施例中，基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵，包括；统计第一待对齐知识图谱中包含的类别，与第二待对齐知识图谱中包含的类别之间的已知类别关系的概率统计信息；基于已知类别关系的概率统计信息，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率，得到类别冲突矩阵。

在实际应用中，对于同样的类别，已知的类别关系可能再不同的应用场景中存在不同的类别关系，本实施例中通过统计在不同应用场景中各类别之间的类别关系，基于各类别关系对应的概率确定类别之间的冲突概率。例如在一个具体实施例中，假设第一待对齐知识图谱中的类别A1与第二待对齐知识图谱中的类别A2，在不同的应用场景中统计得到的类别关系信息为：冲突次数占比为1/6，而不冲突次数占比5/6，则认为A1与A2之间的类别冲突概率为1/6。在其它实施例中，基于已知类别关系的概率统计信息确定类别之间的冲突概率也可以通过其它方式实现。

进一步地，在一个实施例中，如图6所示，基于类别冲突矩阵对各相似度进行调整，得到调整后相似度，包括步骤S610至步骤S640。

步骤S610，任意选取第一待对齐知识图谱中的第一目标实体，第二待对齐知识图谱中的第二目标实体。

步骤S620，读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率。

步骤S630，计算1与目标冲突概率的差值。

步骤S640，将差值与目标相似度的乘积，确定为第一目标实体与第二目标实体之间的调整后相似度；目标相似度包括第一目标实体与第二目标实体的相似度。

针对第一待对齐知识图谱中各实体类别、以及第二待对齐知识图谱中各实体类别分别执行上述步骤即可得到所有实体类别之间的调整后相似度。

在一个具体实施例中，以余弦距离表示实体之间的相似度；图6所示实施例中的步骤可用以下公式表示：

sim(ei,ej)＝(1-v_i,j)cos(ei,ej)；

其中，sim(e_i,e_j)表示实体e_i和e_j之间的调整后相似度，v_i,j表示实体e_i和e_j所属类别之间的冲突概率，cos(e_i,e_j)表示实体e_i和e_j之间的相似度；如果v_i,j＝1，即两个类别是完全冲突的，则sim(e_i,e_j)＝0，两个完全类别冲突的实体不应该对齐；如果0<v_i,j<1，即相当于对预测结果相乘一个权重，得到调整后的相似度。

在另一个实施例中，如图7所示，基于类别冲突矩阵对各相似度进行调整，得到调整后相似度，包括步骤S710至步骤S760。

步骤S710，读取预设权重系数。

步骤S720，任意选取第一待对齐知识图谱中的第一目标实体，第二待对齐知识图谱中的第二目标实体。

步骤S730，读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率。

步骤S740，计算1与预设权重系数的第一差值，计算1与目标冲突概率的第二差值。

步骤S750，计算预设权重系数与目标相似度的第一乘积，计算第一差值与第二差值的第二乘积；目标相似度包括第一目标实体与第二目标实体的相似度。

步骤S760，将第一乘积与第二乘积的和值，确定为第一目标实体与第二目标实体之间的调整后相似度。

在一个具体实施例中，以余弦距离表示实体之间的相似度；图7所示实施例中的步骤可用以下公式表示：

sim(ei,ej)＝βcos(ei,ej)+(1-β)(1-v_i,j)；

其中，β是预设权重系数，cos(e_i,e_j)表示实体e_i和e_j之间的相似度，v_i,j表示实体e_i和e_j所属类别之间的冲突概率，同样地，如果v_i,j＝1，即两个类别是完全冲突的，则sim(e_i,e_j)＝0，两个完全类别冲突的实体不应该对齐；如果0<v_i,j<1，即相当于对预测结果相乘一个权重，得到调整后的相似度。

图6所示实施例中将类别冲突概率看成实体嵌入表示的权重，而图7所示实施例中考虑两部分信息，一个是实体嵌入表示的相似度，另一个是实体对应的class不发生冲突的概率(1-v_i,j)。两个实施例中的方法均可计算得到对应的调整后相似度，后续用于进行跨知识图谱的实体对齐。

进一步地，在一个实施例中，在得到第一待对齐实体和第二待对齐实体之间的调整后相似度之后，基于调整后相似度对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，得到对齐后的知识图谱。

在一个实施例中，基于调整后相似度对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，得到对齐后的知识图谱，包括：将数值最大的调整后相似度对应的第一待对齐实体和第二待对齐实体确定为对齐结果。即对于各第一待对齐实体，分别在第二待对齐实体中基于调整后相似度找到最近邻作为对齐结果进行对齐。

上述实施例中在传统方法的基础上通过构建类别冲突矩阵的方式，在实体对齐中引入了类别信息，可减少知识图谱实体对齐中因类别冲突导致的对齐错误，从而提高知识图谱实体对齐的准确率。

进一步地，在一个实施例中，可以将上述知识图谱的实体对齐方法作为一个整体进行；也可以将上述知识图谱的实体对齐方法划分为两阶段，第一阶段先判断冲突概率大小，如果大于一定阈值则略过，如果小于一定阈值则进入第二阶段，进行实体对齐。

本申请还提供一种应用场景，该应用场景应用上述的知识图谱的实体对齐方法，如图8所示为本实施例中方法步骤流程示意图。具体地，该知识图谱的实体对齐方法在该应用场景的应用如下：

首先获取第一待对齐知识图谱和第二待对齐知识图谱中的各实体，按照以下规则构建第一待对齐知识图谱和第二待对齐知识图谱中的各实体之间的类别冲突矩阵。

1、每个类别和自身是不冲突的；

2、根据schema中的元关系“owl:disjointWith”判定两个类别是否冲突。例如schema中定义了三元组(“person”,“disjointWith”,“work”)，说明类别“人类”和“工作”是冲突的；

3、首先，利用本体schema中的类别按照父子类关系组成一棵多叉树，树上每一个结点是一个类别，边定义了类别的从属关系。

对于一个类别c_i，从c_i走到类别树根节点途径的类别集合为P(ci)＝{c_i,p_i,1,p_i,2,…,p_i,j}，即上述类别从属关系，其中p_i,j为c_i的第j个父节点。给定两个类别c_i和c_j，两者冲突的概率Dist(ci,cj)定义如下：

Dist(ci,cj)通过交并集计算P(ci)和P(cj)的差异性，度量了c_i和c_j位于树中的距离。c_i和c_j位于树中的距离越远，则两者冲突的概率则越大。可以发现当c_i＝c_j，则Dist(ci,cj)＝0；如果c_i和c位于树的同一分支，则

两者的距离越近，冲突的概率则越小。其中K是一个放缩因子，控制权重的衰减速度。

4、对于实体对齐任务，通常会给定少量的对齐种子作为监督信息。两个对齐的实体对应的类别应该是相关的，基于此，可以将对齐种子对应的类别对认为是相关的。

给定一批对齐种子AS＝{(ei,ej)|ei∈KG₁,ej∈KG₂}以及实体和类别的映射关系M＝{(e,c)|e∈KG₁,KG₂}。其中KG₁和KG₂分别是两个待对齐的KG；e_i和e_j分别是KG₁和KG₂中需要对齐的实体；c是每个实体e对应的类别。假设(e_i,e_j)是对齐的实体对，则我们认为他们对应的类别对(c_i,c_j)也是相关的，即冲突的概率为0。例如数据集中存在对齐实体对应的类别为“科学家”和“音乐家”，则“科学家”和“音乐家”冲突概率为0。

由上述规则，得到第一待对齐知识图谱与第二待对齐知识图谱中各实体所属类别间的冲突概率可按照以下方式计算：

根据上述公式可以得到第一待对齐知识图谱与第二待对齐知识图谱的类别冲突矩阵，类别冲突矩阵中的每个值表示每个类别和其他类别的冲突概率。

在得到两个待对齐知识图谱的类别冲突矩阵之后，进行以下步骤来进行实体对齐：

先基于训练好的实体对齐模型Q得到每个实体e_i的嵌入表示e_i，利用余弦距离可以度量实体之间的相似度：

sim(e_i,e_j)＝cos(e_i,e_j)

将每个实体以及其最近邻作为对齐结果，其中实体对齐模型的选择可以是任意的实体对齐模型，例如MTransE，GCN-Align，BootEA等。

在计算得到相似度之后，基于类别冲突矩阵可通过点乘或者加权求和的方式进行校正：

(1)点乘：

sim(ei,ej)＝(1-v_i,j)cos(ei,ej),(ei,ej)∈M∧(ej,cj)∈M

其中，v_i,j为实体对(e_i,e_j)对应的类别对(c_i,c_j)的类别冲突概率。如果v_i,j＝0，即两个类别是完全不冲突的，则实体的相似度依赖于其嵌入表示的相似度；如果v_i,j＝1，即两个类别是完全冲突的，则sim(e_i,e_j)＝0，两个完全类别冲突的实体不应该对齐；如果0<v_i,j<1，即相当于对预测结果相乘一个权重，重新调整实体的排序。

(2)加权求和：

sim(ei,ej)＝βcos(ei,ej)+(1-β)(1-v_i,j)；(ei,ci)∈MΛ(ej,cj)∈M

第一种方式点乘将类别冲突概率看成实体嵌入表示的权重，而第二种方式将考虑两部分信息，一个是实体嵌入表示的相似度，另一个是实体对应的class不发生冲突的概率(1-v_i,j)，对这两部分信息加权融合，其中β是权重系数。

上述实施例中的知识图谱的实体对齐方法，通过引入类别冲突矩阵检测预测结果中的类别冲突问题，能够提升模型的召回率以及正确对齐实体的排名。并且上述知识图谱的实体对齐方法中计算各实体的相似度可以采用任意实体对其模型实现，即能够与任意的模型进行结合，提升模型的性能，鲁棒性和有效性较好。

在一个具体实施例中，对比了MTransE(一种嵌入式实体对齐的方法)和AliNet(一种嵌入式图谱对齐算法)，以及本申请所提出的知识图谱的实体对齐方法，分别在DBP15K(FR-EN),DBP15K(JA-EN),SRPRS(EN-FR),SRPRS(EN-DE)上的效果，如表1所示。

表1

由上述实验结果可知，应用本申请所提供的方法可提高实体对齐的准确率,减少实体对齐产生的类别冲突。

应该理解的是，虽然上述实施例中所涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例中所涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种知识图谱的实体对齐装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块910、类别读取模块920、冲突矩阵构建模块930、相似度确定模块940和相似度确定模块940，其中：

获取模块910，用于获取第一待对齐知识图谱的各第一待对齐实体，以及第二待对齐知识图谱的各第二待对齐实体；

类别读取模块920，用于读取各第一待对齐实体和各第二待对齐实体所属的类别；

冲突矩阵构建模块930，用于基于各类别构建第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵；

相似度确定模块940，用于分别确定各第一待对齐实体与各第二待对齐实体之间的相似度；

实体对齐模块950，用于基于相似度和类别冲突矩阵，对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，得到对齐后的知识图谱。

上述知识图谱的实体对齐装置，对于待进行实体对齐的两个知识图谱，分别获取其中的实体，并读取各实体所属的类别，基于类别构建两个知识图谱之间的类别冲突矩阵，分别计算两个知识图谱中各实体之间的相似度，最后基于类别冲突矩阵和各实体间的相似度进行实体对齐，得到对齐后的知识图谱。上述方法通过构建类别冲突矩阵引入了实体类别信息，结合类别冲突矩阵进行实体对齐，可减少将相似名称但含义不同的实体聚合到一起的情况，减少了实体对齐的错误。

在一个实施例中，上述装置的冲突矩阵构建模块930包括：类别获取单元，用于获取与类别关联的类别关系信息；冲突概率确定单元，用于基于类别关系信息，分别确定第一待对齐知识图谱和第二待对齐知识图谱中的所有类别之间的冲突概率，得到类别冲突矩阵。

在一个实施例中，类别关系信息包括与类别关联的已知实体类别冲突关系；在本实施例中，上述冲突概率确定单元具体用于：若第一待对齐实体所属类别与第二待对齐实体所属类别属于已知实体类别冲突关系，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为1。

在一个实施例中，类别关系信息包括：第一待对齐知识图谱和第二待对齐知识图谱中的对齐种子；在本实施例中，上述冲突概率确定单元具体用于：若第一待对齐实体与第二待对齐实体属于对齐种子，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率为0。

在一个实施例中，类别关系信息还包括：各类别的从属关系；在本实施例中，上述冲突概率确定单元具体用于：读取预设放缩因子、第一待对齐实体所属类别在从属关系中的第一类别从属关系路径，以及第二待对齐实体所属类别在从属关系中的第二类别从属关系路径；基于预设放缩因子、第一类别从属关系路径和第二类别从属关系路径，确定第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。

进一步地，在一个实施例中，上述冲突概率确定单元包括：路径运算子单元，用于确定第一类别从属关系路径与第二类别从属关系路径之间的交集和并集；计算子单元，用于计算交集与预设放缩因子的第一和值，并集与预设放缩因子的第二和值；计算第一和值与第二和值的比值；将1与比值的差值确定为第一待对齐实体所属类别与第二待对齐实体所属类别之间的冲突概率。

在一个实施例中，上述装置的实体对齐模块950包括：相似度调整单元，用于基于类别冲突矩阵对各相似度进行调整，得到调整后相似度；上述实体对齐模块950具体用于根据各第一待对齐实体与各第二待对齐实体之间的调整后相似度，对第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐。

进一步地，在一个实施例中，上述装置的相似度调整单元，包括：选取子单元，用于任意选取第一待对齐知识图谱中的第一目标实体，第二待对齐知识图谱中的第二目标实体；冲突概率读取子单元，用于读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率；计算子单元，用于计算1与目标冲突概率的差值；将差值与目标相似度的乘积，确定为第一目标实体与第二目标实体之间的调整后相似度；目标相似度包括第一目标实体与第二目标实体的相似度。

在另一个实施例中，上述装置的相似度调整单元，包括：权重读取子单元，用于读取预设权重系数；选取子单元，用于任意选取第一待对齐知识图谱中的第一目标实体，第二待对齐知识图谱中的第二目标实体；冲突概率读取子单元，用于读取第一目标实体所属的类别与第二目标实体所属的类别在类别冲突矩阵中的目标冲突概率；计算子单元，用于计算1与预设权重系数的第一差值，计算1与目标冲突概率的第二差值；计算预设权重系数与目标相似度的第一乘积，计算第一差值与第二差值的第二乘积；目标相似度包括第一目标实体与第二目标实体的相似度；将第一乘积与第二乘积的和值，确定为第一目标实体与第二目标实体之间的调整后相似度。

关于知识图谱的实体对齐装置的具体限定可以参见上文中对于知识图谱的实体对齐方法的限定，在此不再赘述。上述知识图谱的实体对齐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种知识图谱的实体对齐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种知识图谱的实体对齐方法，其特征在于，所述方法包括：

2.根据权利要求1所述的知识图谱的实体对齐方法，其特征在于，所述基于各所述类别构建所述第一待对齐知识图谱和第二待对齐知识图谱之间的类别冲突矩阵，包括：

获取与所述类别关联的类别关系信息；

基于所述类别关系信息，分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率，得到所述类别冲突矩阵。

3.根据权利要求2所述的知识图谱的实体对齐方法，其特征在于，包括以下至少一项：

第一项，

所述类别关系信息包括与所述类别关联的已知实体类别冲突关系；

所述基于所述类别关系信息，分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率，包括：若所述第一待对齐实体所属类别与所述第二待对齐实体所属类别属于所述已知实体类别冲突关系，确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率为1；

第二项，

所述类别关系信息包括：所述第一待对齐知识图谱和第二待对齐知识图谱中的对齐种子；

所述基于所述类别关系信息，分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率，包括：若所述第一待对齐实体与所述第二待对齐实体属于所述对齐种子，确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率为0；

第三项，

所述类别关系信息包括：各所述类别的从属关系；

所述基于所述类别关系信息，分别确定所述第一待对齐知识图谱和所述第二待对齐知识图谱中的所有类别之间的冲突概率，包括：

读取预设放缩因子、所述第一待对齐实体所属类别在所述从属关系中的第一类别从属关系路径，以及所述第二待对齐实体所属类别在所述从属关系中的第二类别从属关系路径；

基于预设放缩因子、所述第一类别从属关系路径和所述第二类别从属关系路径，确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率。

4.根据权利要求3所述的知识图谱的实体对齐方法，其特征在于，所述基于预设放缩因子、所述第一类别从属关系路径和所述第二类别从属关系路径，确定所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率，包括：

确定所述第一类别从属关系路径与所述第二类别从属关系路径之间的交集和并集；

计算所述交集与所述预设放缩因子的第一和值，所述并集与所述预设放缩因子的第二和值；

计算所述第一和值与所述第二和值的比值；

将1与所述比值的差值确定为所述第一待对齐实体所属类别与所述第二待对齐实体所属类别之间的冲突概率。

5.根据权利要求1所述的知识图谱的实体对齐方法，其特征在于，所述基于所述相似度和所述类别冲突矩阵，对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐，包括：

基于所述类别冲突矩阵对各所述相似度进行调整，得到调整后相似度；

根据各所述第一待对齐实体与各所述第二待对齐实体之间的调整后相似度，对所述第一待对齐知识图谱和第二待对齐知识图谱进行实体对齐。

6.根据权利要求5所述的知识图谱的实体对齐方法，其特征在于，所述基于所述类别冲突矩阵对各所述相似度进行调整，得到调整后相似度，包括：

任意选取第一待对齐知识图谱中的第一目标实体，第二待对齐知识图谱中的第二目标实体；

读取所述第一目标实体所属的类别与所述第二目标实体所属的类别在所述类别冲突矩阵中的目标冲突概率；

计算1与所述目标冲突概率的差值；

将所述差值与目标相似度的乘积，确定为所述第一目标实体与所述第二目标实体之间的调整后相似度；所述目标相似度包括所述第一目标实体与所述第二目标实体的相似度。

7.根据权利要求5所述的知识图谱的实体对齐方法，其特征在于，所述基于所述类别冲突矩阵对各所述相似度进行调整，得到调整后相似度，包括：

读取预设权重系数；

计算1与所述预设权重系数的第一差值，计算1与所述目标冲突概率的第二差值；

计算所述预设权重系数与目标相似度的第一乘积，计算所述第一差值与第二差值的第二乘积；所述目标相似度包括所述第一目标实体与所述第二目标实体的相似度；

将所述第一乘积与第二乘积的和值，确定为所述第一目标实体与所述第二目标实体之间的调整后相似度。

8.一种知识图谱的实体对齐装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。