CN116383677B

CN116383677B - 一种知识图谱实体相似度计算方法及系统

Info

Publication number: CN116383677B
Application number: CN202310653253.8A
Authority: CN
Inventors: 何嘉伟; 王晓龙; 左勇
Original assignee: Athena Eyes Co Ltd
Current assignee: Athena Eyes Co Ltd
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-09-29
Anticipated expiration: 2043-06-05
Also published as: CN116383677A

Abstract

本发明公开了一种知识图谱实体相似度计算方法及系统，包括如下步骤：S1.根据知识图谱查询待计算的第一实体和待计算的第二实体，以获取对应的第一子图谱和第二子图谱；S2.分别将第一子图谱和第二子图谱分解为第一无序根集合和第二无序根集合；S3.根据预设图核计算规则、第一无序根集合和第二无序根集合，获取第一实体和第二实体之间的图核相似度。该方法逻辑清晰，安全、有效、可靠且操作简便，既能有效提高相似度计算效率和准确性，又能在处理大规模知识图谱时表现更为优秀。该系统具有相同的有益效果。

Description

一种知识图谱实体相似度计算方法及系统

技术领域

本发明涉及数据处理技术领域，特别是涉及一种知识图谱实体相似度计算方法及系统。

背景技术

知识图谱实体相似度计算可以应用于如搜索引擎、自然语言处理、推荐系统，知识图谱融合等许多领域中。其具体为：信息检索：利用知识图谱实体相似度计算方法对文本或数据进行语义匹配和相似性搜索，从而提高信息检索的准确性和效率；推荐系统：基于用户的兴趣和行为，利用知识图谱实体相似度计算方法计算不同实体之间的相似度，从而推荐用户感兴趣的内容或产品；生物信息学：利用知识图谱相实体似度计算方法对生物序列、基因、蛋白质等进行相似性计算和分类，从而实现生物信息学中的基因组学、蛋白质组学和代谢组学等领域的研究；社交网络：利用知识图谱实体相似度计算方法对不同用户之间的关系进行建模和计算，从而实现社交网络中的好友推荐和群体分析等任务。

传统的知识图谱实体相似度计算主要是基于结构比较的方法，例如计算实体节点的相似度和路径的相似度等。其中，节点相似度计算通常考虑实体之间的属性和标签等信息，而路径相似度计算则着眼于实体之间的关联关系。这种方法的主要问题在于无法考虑到实体之间的上下文信息，难以准确地反映知识图谱的语义相似度。此外，传统的相似度计算方法难以处理知识图谱中的复杂关系和大规模实体数据，因此在实际应用中受到一定的限制。

因此提供一种具有更高的计算效率和准确性，尤其在处理大规模知识图谱时表现更为优秀的知识图谱实体相似度计算方法及系统是本领域技术人员亟待解决的问题。

发明内容

本发明的目的在于提供知识图谱实体相似度计算方法及系统，该方法逻辑清晰，安全、有效、可靠且操作简便，既能有效提高相似度计算效率和准确性，又能在处理大规模知识图谱时表现更为优秀。

基于以上目的，本发明提供的技术方案如下：

一种知识图谱实体相似度计算方法，包括如下步骤：

S1.根据知识图谱查询待计算的第一实体和待计算的第二实体，以获取对应的第一子图谱和第二子图谱；

S2.分别将所述第一子图谱和所述第二子图谱分解为第一无序根集合和第二无序根集合；

S3.根据预设图核计算规则、所述第一无序根集合和所述第二无序根集合，获取所述第一实体和所述第二实体之间的图核相似度。

优选地，在所述步骤S3之后，还包括：

根据第一预设公式标准化所述图核相似度，以获取标准化的图核相似度。

优选地，所述第一预设公式具体为：

其中，为图核相似度标准化值，/>为图核相似度，/>为第一子图谱，/>为第二子图谱。

优选地，所述步骤S2中的分解子图谱，包括如下步骤：

以子图谱节点为起始点，按照广度优先遍历算法的顺序添加边和节点，以形成无序根组成的集合；

根据上述步骤，则所述第一子图谱对应的分解为第一无序根集合，所述第二子图谱对应的分解为第二无序根集合。

优选地，所述以子图谱节点为起始点，按照广度优先遍历算法的顺序添加边和节点，以形成无序根组成的集合，具体为：

A1.对每个子图谱节点v，以v为起始点执行广度优先遍历，初始无序根初始化为节点v；

A2.按照访问顺序，依次将访问到的节点和边加入至所述初始无序根中；

A3.按照遍历顺序为每条边指定方向，以使得每条边均从上一层访问的节点指向本层访问的节点；

A4.删除连接已访问的第g层节点与已访问的第l层节点之间的边，其中g＜l。

优选地，所述步骤S3具体为：

B1.根据所述第一无序根集合中的第一初始节点、所述第二无序根集合中的第二初始节点和第二预设公式，计算获取所述第一无序根集合和所述第二无序根集合之间存在相同无序根的数量；

B2.根据所述相同无序根的数量和第三预设公式，计算获取树核相似度；

B3.根据所述树核相似度和所述第四预设公式，计算获取所述第一实体和所述第二实体之间的图核相似度。

优选地，所述步骤B1包括如下步骤：

判断所述第一初始节点和所述第二初始节点是否一致；

若不一致，则所述相同无序根的数量为0；

若一致，且所述第一初始节点和所述第二初始节点均为准叶子节点，则定义所述相同无序根的数量为第一参数；

若一致，且所述第一初始节点和所述第二初始节点均不为准叶子节点，则根据所述第二预设公式和所述第一参数计算获取所述相同无序根的数量。

优选地，所述第三预设公式具体为：

其中，为树核相似度，/>为以/>，/>为根的/>，/>的子树之间的相同无序根的数量，/>为第一初始节点，/>为第二初始节点，/>为第一无序根，/>为第二无序根。

优选地，所述第四预设公式具体为：

其中，为图核相似度，/>为第一子图谱，/>为第二子图谱，/>第一无序根集合，/>为第二无序根集合。

一种知识图谱实体相似度计算系统，包括：

子图谱模块，用于根据知识图谱查询待计算的第一实体和待计算的第二实体，以获取对应的第一子图谱和第二子图谱；

分解模块，用于分别将所述第一子图谱和所述第二子图谱分解为第一无序根集合和第二无序根集合；

图核相似度模块，用于根据预设图核计算规则、所述第一无序根集合和所述第二无序根集合，获取所述第一实体和所述第二实体之间的图核相似度。

本发明所提供的知识图谱相似度计算方法，是通过根据已有的知识图谱查询待计算相似度的第一实体和第二实体，从而获取与第一实体相对应的第一子图谱和与第二实体相对应的第二子图谱；通过将第一子图谱分解为对应的第一无序根集合，将第二子图谱分解为对应的第二无序根集合；通过预设的图核计算规则、第一无序根集合和第二无序根集合，计算获取第一实体与第二实体之间的图核相似度。

本发明具体是通过比较第一实体和第二实体的所有关系以及相关实体所构成的第一子图谱和第二子图谱之间的相似性来计算实体相似度，在比较两个子图谱之间的相似性时，通过一种基于有序分解的图核来计算它们的相似度值。相比于现有技术，图核作为一种基于图的子结构衡量图之间相似度的方法，可以捕捉节点和边之间的上下文信息，更好地考虑关联结构的信息，从而在知识图谱实体相似性比较时表现更加出色。另外，相对于传统的计算方法，图核方法具有更高的计算效率和准确性，尤其在处理大规模知识图谱时表现更为优秀。因此，本发明提出的基于图核的知识图谱实体相似度计算方法具有更好的准确性和高效性。

本发明还提供了一种知识图谱实体相似度计算系统，由于该系统与该方法解决相同的技术问题，属于相同的技术构思，理应具有相同的有益效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种知识图谱实体相似度方法的流程图；

图2为本发明实施例提供的步骤S2中分解子图谱的流程图；

图3为本发明实施例提供的步骤S3的流程图；

图4为本发明实施例提供的步骤B1的流程图；

图5为本发明实施例提供的一种知识图谱实体相似度系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例采用递进的方式撰写。

本发明实施例提供了一种知识图谱实体相似度方法及系统。主要解决现有技术中，无法考虑到实体之间的上下文信息，难以准确地反映知识图谱的语义相似度，且难以处理知识图谱中的复杂关系和大规模实体数据的技术问题。

如图1所示，一种知识图谱实体相似度计算方法，包括如下步骤：

S2.分别将第一子图谱和第二子图谱分解为第一无序根集合和第二无序根集合；

S3.根据预设图核计算规则、第一无序根集合和第二无序根集合，获取第一实体和第二实体之间的图核相似度。

步骤S1中，将已有的知识图谱存储到图数据库中，利用图数据库提供的图查询功能来查询第一实体和第二实体的对应的第一子图谱和第二子图谱；

需要说明的是，知识图谱G = {E, R, F}，其中E表示所有实体的集合，R表示所有关系的集合，F为所有三元组的集合，一个三元组f=(h,r,t)其中h表示头节点实体，r表示关系，t代表尾节点实体，r连接头节点和尾节点。即将G所定义的实体，关系，三元组全部存储到图数据库中；

而图数据库提供的图查询功能，对于待比较的实体，可以将该实体所有可达的节点以及连接它们的边全部查询出来。若知识图谱的规模较大，可以对可达节点的步数s进行限制，例如限制s=5，则只最长只查询候选实体通过5步可达的节点以连接它们的边；

步骤S2中，通过对查询所得的子图谱进行分解，对每个子图谱的节点v,生成一个无序根有向无环图(即无序根DAG)，则第一子图谱分解为第一无序根集合，第二子图谱分解为第二无序根集合；

步骤S3中，通过预设的图核计算规则、第一无序根集合和第二无序根集合，计算获取两个实体之间存在的相同无序根的数量，并根据该数量确定两个实体之间的图核相似度；

需要说明的是，图核（graph kernel）本质上是一种相似度度量方法，它通过将图形数据转化为向量表示，然后计算这些向量之间的距离或相似度来衡量不同图之间的相似性核。

优选地，在步骤S3之后，还包括：

根据第一预设公式标准化图核相似度，以获取标准化的图核相似度。

优选地，第一预设公式具体为：

在实际运用过程中，由于的值不会限定在0到1之间，为更直观的确定两个实体之间的相似性，可以将依据上述公式，对图核相似度进行标准化，得到的图核相似度标准化值在（0,1）的范围之内，可以直观显示第一实体与第二实体的相似度百分比。

优选地，步骤S2中的分解子图谱，包括如下步骤：

根据上述步骤，则第一子图谱对应的分解为第一无序根集合，第二子图谱对应的分解为第二无序根集合。

实际运用过程中，以第一子图谱为例，选择第一子图谱的节点为起始点，按照广度有限遍历算法的顺序添加边和节点，从而形成无序根组成的集合，即第一无序根集合；

需要说明的是，广度优先遍历算法,又叫宽度优先遍历,或横向优先遍历,是从根节点（即初始节点）开始,沿着树的宽度遍历树的节点。如果所有节点均被访问,则算法中止。

如图2所示，优选地，以子图谱节点为起始点，按照广度优先遍历算法的顺序添加边和节点，以形成无序根组成的集合，具体为：

A2.按照访问顺序，依次将访问到的节点和边加入至初始无序根中；

步骤A1中，选定一个节点v为起始点，即以该节点为根节点执行广度有限遍历，无序根DAG初始化为节点v；

步骤A2中，按照访问的顺序，依次将访问到的节点和边加入到无序根DAG中；

步骤A3中，按照遍历的顺序为每条边指定方向，边从上一层访问的节点指向本层访问的节点；

步骤A4中，删除连接已访问到的第g层节点到已访问到的l层节点之间的边，其中g<l。

按照步骤A1至A4，第一子图谱对应的分解为第一无序根集合，第二子图谱对应的分解为第二无序根集合；

如图3所示，优选地，步骤S3具体为：

B1.根据第一无序根集合中的第一初始节点、第二无序根集合中的第二初始节点和第二预设公式，计算获取第一无序根集合和第二无序根集合之间存在相同无序根的数量；

B2.根据相同无序根的数量和第三预设公式，计算获取树核相似度；

B3.根据树核相似度和第四预设公式，计算获取第一实体和第二实体之间的图核相似度。

步骤B1中，根据第一无序根集合中的第一初始节点和第二无序根集合中的第二初始节点/>和预设公式，计算获取两个无序根集合之间所存在相同无序根的数量；

步骤B2中，根据相同无序根的数量和第三预设公式，计算获取树核相似度；

需要说明的是，无序根DAG实际上可以被当成一颗树，树的根节点即无序根DAG遍历的起始节点v；

步骤B3中，根据树核相似度和第四预设公式，计算获取第一实体和第二实体之间的图核相似度；

需要说明的是，通过第四预设公式将求无需根DAG之间的树核相似度转化为子图谱之间的相似度。

如图4所示，优选地，步骤B1包括如下步骤：

C1.判断第一初始节点和第二初始节点是否一致；

C2.若不一致，则相同无序根的数量为0；

C3.若一致，且第一初始节点和第二初始节点均为准叶子节点，则定义相同无序根的数量为第一参数；

C4.若一致，且第一初始节点和第二初始节点均不为准叶子节点，则根据第二预设公式和第一参数计算获取相同无序根的数量。

步骤C1中，判断第一初始节点v1,和第二初始节点 v2所包含的实体是否一致。

步骤C2至C4中，若不一致，则C(v1,v2)=0；

若第一初始节点v1,第二初始节点v2所包含的实体一致，且v1, v2都为准叶子节点(即后代为叶子节点),则C(v1,v2)=λ；

若v1, v2所包含的实体一致，且v1, v2不为准叶子节点，则

其中，chsv1, chsv2是v1, v2的儿子节点组成的有序子序列，它们的顺序按照实体的名称以字典序进行排序；J1，J2是chsv1, chsv2的下标序列，J1i, J2i分别表示表示chsv1, chsv2的第i个子节点；|J1|表示下标序列J1的长度，d(J1)=J1|J1|-J11,d(J2)=J2|J2|-J21。

优选地，第三预设公式具体为：

实际运用过程中，第三预设公式是根据相同无序根的数量，通过树核函数计算出树核相似度，不同的相同无序根的定义可以得到不同的C(v1,v2)函数计算法方式。

优选地，第四预设公式具体为：

实际运用过程中，第四预设公式是将子图谱之间的相似度转化为求无需根DAG之间的树核相似度。无序根DAG实际上可以被当成一颗树，树的根节点即无序根DAG遍历的起始节点v。

一种知识图谱实体相似度计算系统，包括：

分解模块，用于分别将第一子图谱和第二子图谱分解为第一无序根集合和第二无序根集合；

图核相似度模块，用于根据预设图核计算规则、第一无序根集合和第二无序根集合，获取第一实体和第二实体之间的图核相似度。

实际运用过程中，还公开了一种知识图谱实体相似度计算系统，设置有子图谱模块、分解模块和图核相似度模块；工作过程中，子图谱模块根据知识图谱查询待计算的第一实体和待计算的第二实体，以获取对应的第一子图谱和第二子图谱，并将第一子图谱和第二子图谱发送至分解模块；分解模块分别将第一子图谱和第二子图谱分解为第一无序根集合和第二无序根集合，并将第一无序根集合和第二无序根集合发送至图核相似度模块；图核相似度模块，根据预设图核计算规则、第一无序根集合和第二无序根集合，获取第一实体和第二实体之间的图核相似度。

在本申请所提供的实施例中，应该理解到，所揭露的方法和系统，可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个模块或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或模块的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

另外，在本发明各实施例中的各功能模块可以全部集成在一个处理器中，也可以是各模块分别单独作为一个器件，也可以两个或两个以上模块集成在一个器件中；本发明各实施例中的各功能模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令及相关的硬件来完成，前述的程序指令可以存储于计算机可读取存储介质中，该程序指令在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，本申请中如若使用了“系统”、“装置”、“单元”和/或“模块”，仅是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本申请实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本申请实施例的描述中，“多个”是指两个或多于两个。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

本申请中如若使用了流程图，则该流程图是用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

以上对本发明所提供的一种知识图谱实体相似度方法及系统进行了详细介绍。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种知识图谱实体相似度计算方法，应用于信息检索、推荐系统、生物信息学和社交网络，其特征在于，包括如下步骤：

S3.根据预设图核计算规则、所述第一无序根集合和所述第二无序根集合，获取所述第一实体和所述第二实体之间的图核相似度；

所述步骤S2中的分解子图谱，包括如下步骤：

根据上述步骤，则所述第一子图谱对应的分解为第一无序根集合，所述第二子图谱对应的分解为第二无序根集合；

所述以子图谱节点为起始点，按照广度优先遍历算法的顺序添加边和节点，以形成无序根组成的集合，具体为：

A4.删除连接已访问的第g层节点与已访问的第l层节点之间的边，其中g＜l；

所述步骤S3具体为：

B3.根据所述树核相似度和第四预设公式，计算获取所述第一实体和所述第二实体之间的图核相似度；

若所述第一初始节点v1与所述第二初始节点v2所包含的实体不一致，则所述相同无序根的数量C(v1,v2)＝0；

若所述第一初始节点v1与所述第二初始节点v2所包含的实体一致，且所述第一初始节点v1,所述第二初始节点v2都为准叶子节点,则所述相同无序根的数量C(v1,v2)＝λ；

若所述第一初始节点v1与所述第二初始节点v2所包含的实体一致，且所述第一初始节点v1,所述第二初始节点v2不为准叶子节点，则所述第二预设公式具体为：

其中，chsv1,chsv2是v1,v2的儿子节点组成的有序子序列，它们的顺序按照实体的名称以字典序进行排序；J1，J2是chsv1,chsv2的下标序列，J1i,J2i分别表示表示chsv1,chsv2的第i个子节点；|J1|表示下标序列J1的长度，d(J1)＝J1|J1|-J11,d(J2)＝J2|J2|-J21；

所述第三预设公式具体为：

其中，K_T(D₁,D₂)为树核相似度，C(v₁,v₂)为以v₁,v₂为根的D₁，D₂的子树之间的相同无序根的数量，v₁为第一初始节点，v₂为第二初始节点，D₁为第一无序根，D₂为第二无序根；

所述第四预设公式具体为：

其中，K(G₁,G₂)为图核相似度，G₁为第一子图谱，G₂为第二子图谱，DD(G₁)第一无序根集合，DD(G₂)为第二无序根集合。

2.如权利要求1所述的知识图谱实体相似度计算方法，其特征在于，在所述步骤S3之后，还包括：

3.如权利要求2所述的知识图谱实体相似度计算方法，其特征在于，所述第一预设公式具体为：

其中，K_N(G₁,G₂)为图核相似度标准化值，K(G₁,G₂)为图核相似度，G₁为第一子图谱，G₂为第二子图谱。

4.如权利要求1所述的知识图谱实体相似度计算方法，其特征在于，所述步骤B1包括如下步骤：

判断所述第一初始节点和所述第二初始节点是否一致；

若不一致，则所述相同无序根的数量为0；

5.一种知识图谱实体相似度计算系统，应用于信息检索、推荐系统、生物信息学和社交网络，其特征在于，包括：

图核相似度模块，用于根据预设图核计算规则、所述第一无序根集合和所述第二无序根集合，获取所述第一实体和所述第二实体之间的图核相似度；

所述分解模块，分解子图谱具体为：以子图谱节点为起始点，按照广度优先遍历算法的顺序添加边和节点，以形成无序根组成的集合；则所述第一子图谱对应的分解为第一无序根集合，所述第二子图谱对应的分解为第二无序根集合；

所述分解模块，以子图谱节点为起始点，按照广度优先遍历算法的顺序添加边和节点，以形成无序根组成的集合，具体为：对每个子图谱节点v，以v为起始点执行广度优先遍历，初始无序根初始化为节点v；按照访问顺序，依次将访问到的节点和边加入至所述初始无序根中；按照遍历顺序为每条边指定方向，以使得每条边均从上一层访问的节点指向本层访问的节点；删除连接已访问的第g层节点与已访问的第l层节点之间的边，其中g＜l；

所述图核相似度模块，获取所述第一实体和所述第二实体之间的图核相似度，具体为：根据所述第一无序根集合中的第一初始节点、所述第二无序根集合中的第二初始节点和第二预设公式，计算获取所述第一无序根集合和所述第二无序根集合之间存在相同无序根的数量；根据所述相同无序根的数量和第三预设公式，计算获取树核相似度；根据所述树核相似度和第四预设公式，计算获取所述第一实体和所述第二实体之间的图核相似度；

所述第三预设公式具体为：

所述第四预设公式具体为：