CN114090784A

CN114090784A - 一种材料领域知识图谱的实体标签聚类方法及装置

Info

Publication number: CN114090784A
Application number: CN202111258392.8A
Authority: CN
Inventors: 付冬梅; 宋广轩
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-25

Abstract

本发明提供了一种材料领域知识图谱的实体标签聚类方法及装置，涉及计算机技术。包括：获取三元组形式的材料领域知识图谱；统计节点和关系信息；构造标签分类树，拆分成标签分类子树；获得材料领域知识图谱聚类信息。本发明可完成对材料领域相对开放的静态知识图谱或未提供本体的材料领域静态知识图谱数据集在无先验知识情况下的实体标签聚类，具有一定的容错能力，可以用于知识图谱本体层标签确定、知识图谱标签异常检测。

Description

一种材料领域知识图谱的实体标签聚类方法及装置

技术领域

本发明涉及计算机技术领域，特别是指一种材料领域知识图谱的实体标签聚类方法及装置。

背景技术

知识图谱是一种结构化的语义知识库。知识图谱中包含了大量的现实世界中的结构化信息，例如百科网站中的信息或材料领域金属加工工艺知识。知识图谱通常将基本事实抽象为实体，将基本事实之间的联系抽象为关系，进一步将实体抽象为节点，将关系抽象为边，则知识图谱可以转化为图结构数据，从而被计算机高效利用。知识图谱因其具有图特性，能显式表征事物属性及事物之间的联系，近几年得到研究人员的广泛关注。

对于材料领域，知识图谱的构建往往需要从开放领域语料中抽取，该抽取过程面向实例层，因此本体层的构建比较困难；或者一些研究者共享材料领域知识图谱数据时，可能以三元组形式共享数据，缺乏本体层信息。对知识图谱实体按标签聚类往往能够确定知识图谱的本体层，本体层能够帮助设计者认识所构建的知识图谱，对依赖知识图谱的下游任务而言，例如基于知识图谱的问答、知识图谱实体补全等任务，本体层能够为任务提供充分的信息。但受到知识图谱实体抽取技术的限制以及现有知识图谱构建方法的局限性，大规模知识图谱实体标签的建立十分困难，因此实体聚类工作十分重要，但获得实体标签往往比较困难。

现有的自动化方法往往需要引入额外的知识辅助分类，而人工标注成本极高，有时即使通过自动化技术或人工进行了实体标签标注，也很难对其准确性进行进一步的验证。

发明内容

针对现有技术中需要额外的知识辅助分类，且人工标注成本高又难以保证准确性的问题，本发明提出了一种材料领域知识图谱的实体标签聚类方法及装置。

为解决上述技术问题，本发明提供如下技术方案：

一方面，提供了一种材料领域知识图谱的实体标签聚类方法，包括：

S1：获取三元组形式的材料领域知识图谱；得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息；

S2：基于所述节点实体集合创建标签分类树根结点；

S3:基于谓词逻辑，遍历所有所述节点实体，将所述节点实体插入所述标签分类树，并记录支持交集结点存在的节点实体数量为证据数量；

S4：根据所述证据数量的阈值，将所述标签分类树拆分成标签分类子树；得到所述标签分类子树中根结点所记录的入边关系集合和出边关系集合；

S5：根据所述标签分类子树中根结点所记录的所述入边关系集合和出边关系集合，将每个所述节点实体归入所述标签分类子树代表的标签类别中，得到节点实体类别标签，完成材料领域知识图谱的实体标签聚类。

可选地，步骤S1中，获取三元组形式的材料领域知识图谱；得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息，包括：

S11：若材料领域知识图谱是以三元组数据模型存储，则将三元组数据模型加载进入系统内存；若否，则先将所述材料领域知识图谱转化为三元组形式，再加载进入系统内存；

S12：遍历所述三元组，将所述三元组中的头实体和尾实体作为节点实体，添加至节点实体集合；

S13：根据添加的所述节点实体在所述三元组中的位置和所述三元组中包含的关系，确定所述关系与所述节点实体的进出关系；将所述关系添加至所述节点实体集合中，记作对应节点实体的入边关系或出边关系记录。

可选地，步骤S2中，基于所述节点实体集合创建标签分类树根结点，包括：

初始化所述标签分类树，创建标签分类树根结点。

可选地，步骤S3中，基于谓词逻辑，遍历所有所述节点实体，将所述节点实体插入所述标签分类树，并记录支持交集结点存在的节点实体数量为证据数量，包括：

S31：取所述节点实体集合中的一个节点实体，插入所述标签分类树根结点；

S32:取所述节点实体集合中另一个未添加至标签分类树中的新节点实体，以广度优先方式搜索所述标签分类树，根据谓词逻辑判断检索结点与所述节点实体的入边关系和出边关系记录存在交集的情况，并根据谓词逻辑将所述节点实体插入标签分类树的特定位置，记录检索结点证据数量；

S33：当对所述标签分类树搜索完成后未能插入新节点实体时，将新节点实体插入至所述标签分类树根结点；

S34：重复步骤S32-S33，直至完成对所述节点实体集合的遍历。

可选地，步骤S32中，取所述节点实体集合中另一个未添加至标签分类树中的新节点实体，以广度优先方式搜索所述标签分类树，根据谓词逻辑判断检索结点与所述节点实体的入边关系和出边关系记录存在交集的情况，并根据谓词逻辑将所述节点实体插入标签分类树的特定位置，记录检索结点证据数量，包括：

I.若所述节点实体与所述标签分类树中同一级至少一个所检索结点存在交集，则根据谓词逻辑推理公式(1)(2)，在有交集的检索结点的父结点处插入新结点，将有交集的检索结点以及所述节点实体移动、插入至所述新结点下；所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集；所述新结点的证据数量记为1；

jC(x,y)＝hasIntersection(x_in,y_in)∨hasIntersection(x_out,y_out) (1)

其中，hasIntersection(x_d,y_d)表示集合x_d与集合y_d有交集，jC(x,y)表示节点实体x与结点y的入边集合有交集或出边集合有交集，

表示所述节点实体e_i与所述标签分类树中所检索结点T₁的入边集合存在交集或所述节点实体e_i与所述标签分类树中所检索结点T₁的出边集合存在交集，areSL(T₁,T₂)表示所述标签分类树中所检索结点T₁和T₂处于所述标签分类树的同一级别，step(1)表示执行在有交集的检索结点T₁和T₂的父结点处插入新结点，将所述有交集的检索结点T₁和T₂及所述节点实体e_i移动、插入至所述新结点下，所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集，所述新结点的证据数量记为1的步骤；

II.若所述节点实体与所述标签分类树中同级的1个检索结点存在交集，且存在交集的检索结点为非叶子结点，则根据谓词逻辑推理公式(1)(3)，将所述节点实体插入至所述检索结点，所述检索结点的入边关系和出边关系集合分别更新为原集合与所述节点实体的入边关系和出边关系集的并集，所述检索结点的证据数量增1；

其中，

表示存在交集的所检索结点T₁为非叶子结点，step(2)表示执行将所述节点实体e_i插入至所述结点T₁，所述结点T₁的入边关系和出边关系集合分别更新为原集合与所述节点实体的入边关系和出边关系集的并集，所述结点的证据数量增1的步骤；

III.若所述节点实体与所述标签分类树中同级的1个检索结点存在交集，且存在交集的检索结点为叶子结点，且检索结点的父结点为根结点，则根据谓词逻辑推理公式(1)(4)，在根结点处插入新结点，将存在交集的检索结点及所述节点实体移动、插入至所述新结点下，所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集，所述新结点的证据数量记为1；

isL(T₁)表示存在交集的所检索结点T₁为叶子结点，F(T₁)表示存在交集的所检索结点T₁的父结点，isR(F(T₁))表示存在交集的所检索结点T₁的父结点F(T₁)为所述标签分类树的根结点,step(3)表示在根结点处F(T₁)插入新结点，将存在交集的所检索结点T₁及所述节点实体e_i移动、插入至所述新结点下，所述新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集，所述新结点的证据数量记为1的步骤；

IV.若所述节点实体与所述标签分类树中同级的1个检索结点存在交集，且存在交集的检索结点为叶子结点，且所检索结点的父结点为非根结点，则根据谓词逻辑推理公式(1)(5)，将所述节点实体插入至所述检索结点的父结点处，所述检索结点的入边关系和出边关系集合分别更新为原集合与所述节点实体的入边关系和出边关系集的并集，所述检索结点的证据数量增1；

其中，

表示存在交集的所检索结点T₁的父结点为所述标签分类树的非根结点，step(4)表示将所述节点实体插入至所述结点T₁的父结点F(T₁)处，所述结点T₁的入边关系和出边关系集合分别更新为原集合与所述节点实体e_i的入边关系和出边关系集的并集，所述结点的证据数量增1。

可选地，步骤S4中，根据所述证据数量的阈值，将所述标签分类树拆分成标签分类子树，包括：

S41:以广度优先方式从所述标签分类树的根结点的各子结点开始检索；

S42:当检索得到的结点记录的证据数量满足预先设定的阈值要求时，将所述结点及其所有子结点从所述标签分类树中割离，作为标签分类子树；为所述标签分类子树赋予一个唯一标签值；

S43:重复步骤S41-S42，直到所述标签分类树中除根结点以外的结点均不满足证据数量的阈值要求，则标签分类树拆分完成。

可选地，步骤S5中，根据所述标签分类子树中根结点所记录的所述入边关系集合和出边关系集合，将每个所述节点实体归入所述标签分类子树代表的标签类别中，得到节点实体类别标签，完成材料领域知识图谱的实体标签聚类，包括：

S51：取所述节点实体集合中的一个节点实体，关联所述节点实体的入边关系或出边关系集合，依次与所述标签分类子树的根结点入边关系或出边关系进行比较；

若所述节点实体的入边关系与某一根结点的入边关系有交集或所述节点实体的出边关系与某一根结点的出边关系有交集，则将所述节点实体的标签设定为标签分类子树的标签值；

S52:再次取所述节点实体集合中的另一个节点实体，重复步骤S51，直到将所有节点实体集合中的节点实体遍历完成，完成材料领域知识图谱的实体标签聚类。

一方面，提供了一种材料领域知识图谱的实体标签聚类装置，该装置应用于上述任意一项的方法，包括：

三元组信息统计模块，用于获取三元组形式的材料领域知识图谱；得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息；

根结点创建模块，用于基于所述节点实体集合创建标签分类树根结点；

标签分类树生成模块，用于基于谓词逻辑，遍历所有所述节点实体，将所述节点实体插入所述标签分类树，并记录支持交集结点存在的节点实体数量为证据数量；

标签分类拆分模块，用于根据所述证据数量的阈值，将所述标签分类树拆分成标签分类子树；得到所述标签分类子树中根结点所记录的入边关系集合和出边关系集合；

知识图谱聚类信息模块，用于根据所述标签分类子树中根结点所记录的所述入边关系集合和出边关系集合，将每个所述节点实体归入与所述标签分类子树代表的标签类别中，得到节点实体类别标签，完成材料领域知识图谱的实体标签聚类。

一方面，提供了一种终端，该终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一的材料领域知识图谱的谓词逻辑实体聚类方法。

一方面，提供了服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一的材料领域知识图谱的谓词逻辑实体聚类方法。

本发明实施例的上述技术方案至少具有如下有益效果：

上述方案中，1、本发明提出了一种面向材料领域知识图谱的谓词逻辑自动实体聚类方法，依据知识图谱本体层中各个概念之间的关系约束实例层中概念所指实体之间所具有的关系的范围，设计通过构造标签分类树对知识图谱中实体关系进行一种并查集求取，对实体聚类，无需提供额外信息，仅需极少人工干预。

2、本发明提出记录标签分类树中支持交集结点存在的证据数量，并根据人工设定的证据数量阈值进行标签分类子树的划分，避免了在大规模材料领域知识图谱中，因少量错误数据或特殊数据污染导致的标签错误归并问题，具有一定的容错能力。

3、本发明具有领域通用性，适用于以材料领域为代表的规模中等、关系类型数量少而规范、本体层信息价值高的领域知识图谱，能帮助材料领域知识图谱开发人员从本体层掌握所设计的材料领域知识图谱，可用于知识图谱实体聚类、本体层标签确定、知识图谱标签异常检测等工作，或为设计知识图谱问答、知识图谱补全等工作提供标签信息，具有良好的实用性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的材料领域知识图谱的实体标签聚类方法的整体流程图；

图2是本发明实施例提供的材料领域知识图谱的实体标签聚类方法的三元组信息统计流程图；

图3是本发明实施例提供的材料领域知识图谱的实体标签聚类方法的证据数量计算流程图；

图4是本发明实施例提供的材料领域知识图谱的实体标签聚类方法的标签分类树的结构示意图；

图5是本发明实施例提供的材料领域知识图谱的实体标签聚类方法的标签分类子树拆分流程图；

图6是本发明实施例提供的材料领域知识图谱的实体标签聚类方法的实体标签聚类流程图；

图7是本发明实施例提供的材料领域知识图谱的实体标签聚类装置的装置框图；

图8是本发明实施例提供的一种终端的结构示意图；

图9是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种材料领域知识图谱的实体标签聚类方法，该方法由电子设备包括：

S2：基于节点实体集合创建标签分类树根结点；

S3:基于谓词逻辑，遍历所有节点实体，将节点实体插入标签分类树，并记录支持交集结点存在的节点实体数量为证据数量；

S4：根据证据数量的阈值，将标签分类树拆分成标签分类子树；得到标签分类子树中根结点所记录的入边关系集合和出边关系集合；

S5：根据标签分类子树中根结点所记录的入边关系集合和出边关系集合，将每个节点实体归入标签分类子树代表的标签类别中，得到节点实体类别标签，完成材料领域知识图谱的实体标签聚类。

一种可行的实施方式中，通过谓词逻辑自动实体聚类的方法，依据知识图谱本体层中各个概念之间的关系约束实例层中概念所指实体之间所具有的关系的范围，设计通过构造标签分类树对知识图谱中实体关系进行一种并查集求取，对实体聚类，无需提供额外信息，仅需极少人工干预。

一般领域知识图谱中，相对易获得的知识图谱是三元组形式，例如材料领域金属牌号知识图谱含有三元组<Q235，含有，碳元素>、<Q235，含有，锰元素>、<Q235，执行，GB/T700-2006>、<Q245，执行，GB713-2008>等，通常三元组数量为万条以上；通过谓词逻辑自动实体聚类的方法，根据“含有”“执行”等关系的左右两侧实体的情况，可以将“Q235”“Q245”等自动聚类，人工识别发现该类别指的是钢牌，同样的，“碳元素”“锰元素”可以自动聚为一类(元素)，“GB/T700-2006”“GB713-2008”可以自动聚为一类(标准)，经过自动聚类，规模庞大的实体将会分为有限的一些类别，再通过人工识别和命名，可以方便的构建该材料领域钢牌知识图谱的模式层，便于进行钢牌问答、钢牌推荐等系统的设计。通过记录标签分类树中支持交集结点存在的证据数量，并根据人工设定的证据数量阈值进行标签分类子树的划分，避免了在大规模材料领域知识图谱中，因少量错误数据或特殊数据污染导致的标签错误归并问题，具有一定的容错能力，例如在材料领域钢牌知识图谱中，因构建时的方法精度不够或审核不严格，难免会有极少量错误的三元组，如<Q235，含有，Q245>，该错误三元组将导致“钢牌”类别与“元素”类别的自动合并，显然会引入错误，通过人工设定的证据数量阈值，能够发现该归并过程的异常，并保持各个类别之间的界限。

优选地，如图2所示，步骤S1中，获取三元组形式的材料领域知识图谱；得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息，包括：

S11：若材料领域知识图谱是以三元组数据模型存储，则将三元组数据模型加载进入系统内存；若否，则先将材料领域知识图谱转化为三元组形式，再加载进入系统内存。

一种可行的实施方式中，初步获得的知识图谱可能是经过对开放材料领域语料知识抽取自下而上构建，且未映射至本体层，并以非三元组数据模型形式存储的知识图谱，例如知识图谱以RDF(Resource Description Framework，资源描述框架)形式存储，或由其他研究者分享得到，且分享该知识图谱的研究者未获得或未分享其本体层信息。应先将RDF形式的知识图谱进行解析，然后导出为三元组形式，并读入计算机内存。

在获取三元组形式的知识图谱后，还包括以下步骤：

S12：遍历三元组，将三元组中的头实体和尾实体作为节点实体，添加至节点实体集合；

一种可行的实施方式中，初始化节点实体集合E＝φ，遍历三元组，对于第n个三元组

若节点实体集合E中不存在实体

或

则向节点实体集合E中添加未出现的实体

或

并将r_n分别添加至

的出边关系记录和

的入边关系记录中，使得E＝{e₁:{R_in,1,R_out,1},…,e_m:{R_in,m,R_out,m}}，其中e_i(i＝1,…,m)表示原知识图谱中第i个节点实体，R_in,i表示e_i的入边关系集合，R_out,i表示e_i的出边关系集合，m为知识图谱中节点实体的数量；该步骤获得了每个节点实体在知识图谱上的全部入边关系和出边关系信息，例如在材料领域钢牌知识图谱中，有<Q235，含有，碳元素>、<Q235，含有，锰元素>、<Q235，执行，GB/T 700-2006>、<Q245，执行，GB713-2008>等三元组，可以构建节点实体集合：

E＝{“Q235”：{入边关系：{}，出边关系：{“含有”，“执行”}}，

“Q245”：{入边关系：{}，出边关系：{“执行”}}，

“碳元素”：{入边关系：{“含有”}，出边关系：{}}，

“锰元素”：{入边关系：{“含有”}，出边关系：{}}，

“GB/T 700-2006”：{入边关系：{“执行”}，出边关系：{}}，

“GB713-2008”：{入边关系：{“执行”}，出边关系：{}}}。

优选地，步骤S2中，基于节点实体集合创建标签分类树根结点，包括：

构造树的数据结构体，并创建标签分类树根结点。

一种可行的实施方式中，初始化标签分类树T：构造树的数据结构体，即标签分类树T，并创建标签分类树根结点{T_root}方便启动后续基于谓词逻辑的实体标签分类工作；

通过构造标签分类树，使得标签分类树中每个结点的子结点所表示的节点实体或节点实体集合的入边关系或出边关系两两对应有交集，以便后续完成在标签分类树的每个结点中记录支持该节点存在的三元组数量(或称为证据数量)的步骤。

优选地，如图3所示，步骤S3中，基于谓词逻辑，遍历所有节点实体，将节点实体插入标签分类树；记录支持交集结点存在的节点实体数量，记为证据数量，包括：

S31：取节点实体集合中的一个节点实体，插入标签分类树根结点，使得后续循环过程可以启动；

S32：取节点实体集合中另一个未添加至标签分类树中的新节点实体，以广度优先方式搜索标签分类树，根据谓词逻辑判断检索结点与节点实体的入边关系和出边关系记录存在交集的情况，并根据谓词逻辑将所述节点实体插入标签分类树的特定位置，记录检索结点证据数量；

S33：当对标签分类树搜索完成后未能插入新节点实体时，将新节点实体插入至标签分类树根结点；

S34：重复步骤S32-S33，直至完成对节点实体集合的遍历。

一种可行的实施方式中，以处于构建过程中的实体标签分类树为例，如图4构建过程中的标签分类树的结构示意图，实体标签分类的步骤具体为：取节点实体集合E中的另一个尚未添加至标签分类树中的节点实体e_i。

且有谓词逻辑推理规则表达式如下：

jC(x,y)＝hasIntersection(x_in,y_in)∨hasIntersection(x_out,y_out) (1)

则在本申请实施例中，分为以下四种情况：

I.若节点实体与标签分类树中同一级至少一个所检索结点存在交集，则根据谓词逻辑推理公式(1)(2)，在有交集的检索结点的父结点处插入新结点，将有交集的检索结点以及节点实体移动、插入至新结点下；新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集；新结点的证据数量记为1；

jC(x,y)＝hasIntersection(x_in,y_in)∨hasIntersection(x_out,y_out) (1)

表示节点实体e_i与标签分类树中所检索结点T₁的入边集合存在交集或节点实体e_i与标签分类树中所检索结点T₁的出边集合存在交集，areSL(T₁,T₂)表示标签分类树中所检索结点T₁和T₂处于标签分类树的同一级别，step(1)表示执行在有交集的检索结点T₁和T₂的父结点处插入新结点，将有交集的检索结点T₁和T₂及节点实体e_i移动、插入至新结点下，新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集，新结点的证据数量记为1的步骤；

II.若节点实体与标签分类树中同级的1个检索结点存在交集，且存在交集的检索结点为非叶子结点，则根据谓词逻辑推理公式(1)(3)，将节点实体插入至检索结点，检索结点的入边关系和出边关系集合分别更新为原集合与节点实体的入边关系和出边关系集的并集，检索结点的证据数量增1；

其中，

表示存在交集的所检索结点T₁为非叶子结点，step(2)表示执行将节点实体e_i插入至结点T₁，结点T₁的入边关系和出边关系集合分别更新为原集合与节点实体的入边关系和出边关系集的并集，结点的证据数量增1的步骤；

III.若节点实体与标签分类树中同级的1个检索结点存在交集，且存在交集的检索结点为叶子结点，且检索结点的父结点为根结点，则根据谓词逻辑推理公式(1)(4)，在根结点处插入新结点，将存在交集的检索结点及节点实体移动、插入至新结点下，新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集，新结点的证据数量记为1；

isL(T₁)表示存在交集的所检索结点T₁为叶子结点，F(T₁)表示存在交集的所检索结点T₁的父结点，isR(F(T₁))表示存在交集的所检索结点T₁的父结点F(T₁)为标签分类树的根结点,step(3)表示在根结点处F(T₁)插入新结点，将存在交集的所检索结点T₁及节点实体e_i移动、插入至新结点下，新结点的入边关系和出边关系集合分别为其子结点入边关系和出边关系集合的并集，新结点的证据数量记为1的步骤；

IV.若节点实体与标签分类树中同级的一个检索结点存在交集，且存在交集的检索结点为叶子结点，且所检索结点的父结点为非根结点，则根据谓词逻辑推理公式(1)(5)，将节点实体插入至检索结点的父结点处，检索结点的入边关系和出边关系集合分别更新为原集合与节点实体的入边关系和出边关系集的并集，检索结点的证据数量增1；

其中，

表示存在交集的所检索结点T₁的父结点为标签分类树的非根结点，step(4)表示将节点实体插入至结点T₁的父结点F(T₁)处，结点T₁的入边关系和出边关系集合分别更新为原集合与节点实体e_i的入边关系和出边关系集的并集，结点的证据数量增1。

本申请实施例中，以广度优先方式搜索标签分类树T，第一次检索到的结点集合为{A,C,e₆}，比较所检索结点{A,C,e₆}与节点实体e_i的入边关系和出边关系记录是否存在交集，即判断下式是否为真：

(R_in,a∩R_in,i≠φ)OR(R_out,a∩R_out,i≠φ) (7)

(R_in,c∩R_in,i≠φ)OR(R_out,c∩R_out,i≠φ) (8)

(R_in,6∩R_in,i≠φ)OR(R_out,6∩R_out,i≠φ) (9)

若有不少于2式值为真，即上述公式(7)-(9)中，至少有2个公式值为真的公式；例如式(7)、式(9)为真，说明节点实体e_i与标签分类树T中同一级多个所检索结点存在交集，满足谓词逻辑推理表达式(1)(2)，则在有交集的检索结点的父结点T_root处插入新结点D，将有交集的检索结点{A,e₆}及节点实体e_i移动、插入至新结点D下，新结点的入边关系集合R_in,d和出边关系集合R_out,d分别为其子结点{A,e₆,e_i}入边关系和出边关系集合的并集(R_in,d＝R_in,a∩R_in,6∩R_in,i，R_out,d＝R_out,a∩R_out,6∩R_out,i)，新结点的证据数量记为1；

若只有1式值为真且为式(7)或式(8)时，即上述公式(7)-(9)中，有2个公式值为真的公式；说明节点实体e_i与标签分类树T中同级的一个所检索结点存在交集，且存在交集的所检索结点{A}或{C}为非叶子结点，满足谓词逻辑推理表达式(1)(3)，则将节点实体e_i插入至存在交集的结点{A}或{C}，结点的入边关系R_in,a/c(new)和出边关系R_out,a/c(new)分别更新为原入边关系R_in,a/c(old)和出边关系R_out,a/c(old)与节点实体的入边关系R_in,i和出边关系集R_out,i的并集(R_in,a/c(new)＝R_in,a/c(old)∩R_in,i，R_out,a/c(new)＝R_out,a/c(old)∩R_out,i)，结点{A}或{C}的证据数量增1；

若只有1式值为真且为式(9)时，即上述公式(7)-(9)中，只有1个公式(9)为值为真的公式；说明节点实体e_i与标签分类树T中同级的一个所检索结点存在交集，且存在交集的所检索结点{e₆}为叶子结点，所检索结点{e₆}的父结点{T_root}为根结点，满足谓词逻辑推理表达式(1)(4)，则在根结点处插入新结点{F}，将存在交集的所检索结点{e₆}及节点实体e_i移动、插入至新结点下{F}，新结点的入边关系R_in,f和出边关系R_out,f集合分别为其子结点入边关系和出边关系集合的并集(R_in,f＝R_in,6∩R_in,i，R_out,f＝R_out,6∩R_out,i)，新结点的证据数量记为1；

若0式值为真，即上述公式(7)-(9)中，没有值为真的公式；则继续进行广度优先搜索，当某次检索到的结点集合为{B,e₅}时，比较所检索结点{B,e₅}与节点实体e_i的入边关系和出边关系记录若有1个存在交集，且存在交集的结点为{e₅}，说明若节点实体e_i与标签分类树中同级的一个所检索结点{B,e₅}存在交集，且存在交集的所检索结点{e₅}为叶子结点，且所检索结点的父结点{C}为非根结点，满足谓词逻辑推理表达式(1)(5)，则将节点实体e_i插入至结点的父结点{C}处，结点的入边关系R_in,c(new)和出边关系R_out,c(new)分别更新为原入边关系R_in,c(old)和出边关系R_out,c(old)与节点实体的入边关系R_in,i和出边关系集R_out,i的并集(R_in,c(new)＝R_in,c(old)∩R_in,i，R_out,c(new)＝R_out,c(old)∩R_out,i)，结点{C}的证据数量增1；

若对标签分类树T搜索完成后未能插入节点实体e_i，满足谓词逻辑推理表达式(1)(6)，则将节点实体e_i插入至标签分类树根结点T_root后；

不断取节点实体集合E中的一个尚未添加至标签分类树中的节点实体e_i+1，插入标签分类树T，直到节点实体集合E中的所有节点实体均被插入标签分类树T，完成标签分类树T的构建。

优选地，如图5所示，步骤S4中，根据证据数量的阈值，将标签分类树拆分成标签分类子树，包括：

S41:以广度优先方式从标签分类树的根结点的各子结点开始检索；

S42:当检索得到的结点记录的证据数量满足预先设定的阈值要求时，将结点及其所有子结点从标签分类树中割离，作为标签分类子树；为标签分类子树赋予一个唯一标签值；

S43:重复步骤S41-S42，直到标签分类树中除根结点以外的结点均不满足证据数量的阈值要求，则标签分类树拆分完成。

一种可行的实施方式中，在上述实施例的基础上，通过预先设定证据数量阈值D；以广度优先方式搜索标签分类树T，查看所检索结点{X}的证据数量是否超过证据数量阈值D，若超过，则将结点{X}及其所有子结点从标签分类树T中割离作为一棵标签分类子树T_X，并为其赋予一个唯一标签值

直到标签分类树T中除根结点{T_root}以外的结点均不满足证据数量的阈值要求。特别地，当所考察结点为标签分类树T的叶结点时，也应当将其割离为一棵标签分类子树，并赋予唯一标签值。

一种可行的实施方式中，预先设定的阈值是很小的数，即当结点所记录的证据数量很小时，则认为将结点的子结点合并的依据并不充分。由此避免了在大规模材料领域知识图谱中，因少量错误数据或特殊数据污染导致的标签错误归并问题。

一种可行的实施方式中，赋予一个唯一标签值的方法可以包括随机生成法、顺序生成法，确保每棵标签分类子树的标签值唯一。

优选地，如图6所示，步骤S5中，根据标签分类子树中根结点所记录的入边关系集合和出边关系集合，将每个节点实体归入标签分类子树代表的标签类别中，得到节点实体类别标签，完成材料领域知识图谱的实体标签聚类，包括：

S51：取节点实体集合中的一个节点实体，关联节点实体的入边关系或出边关系集合，依次与标签分类子树的根结点入边关系或出边关系进行比较；

若节点实体的入边关系与某一根结点的入边关系有交集或节点实体的出边关系与某一根结点的出边关系有交集，则将节点实体的标签设定为标签分类子树的标签值；

S52:再次取节点实体集合中的另一个节点实体，重复S51步骤，直到将所有标签分类子树中节点实体集合中的节点实体遍历完成，完成材料领域知识图谱的实体标签聚类。

一种可行的实施方式中，取节点实体集合E中的一个节点实体e_j，考察节点实体e_j的入边关系集合R_in,j和出边关系集合R_out,j与各个标签分类子树的根结点(T_Y)_root入边关系

或出边关系

是否对应存在交集，其中T_Y代指标签值为

的标签分类子树，Y为任一棵标签分类子树的下标，即下式：

若式(10)为真，则节点实体e_j的标签设定为所考察标签分类子树T_Y的标签值

不断取节点实体集合E中的一个尚未添加标签节点实体e_j+1，与各个标签分类子树比较并赋予标签，直到节点实体集合E中全部节点实体均具有标签，完成材料领域知识图谱的实体标签聚类。

如图7所示，本发明实施例提供了一种材料领域知识图谱的实体标签聚类装置100，该装置应用于上述意一项的方法，包括：

三元组信息统计模块101，用于获取三元组形式的材料领域知识图谱；得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息；

根结点创建模块102，用于基于节点实体集合创建标签分类树根结点；

标签分类树生成模块103，用于基于谓词逻辑，遍历所有节点实体，将节点实体插入标签分类树，并记录支持交集结点存在的节点实体数量为证据数量；

标签分类拆分模块104，用于根据证据数量的阈值，将标签分类树拆分成标签分类子树；得到标签分类子树中根结点所记录的入边关系集合和出边关系集合；

知识图谱聚类信息模块105，用于根据标签分类子树中根结点所记录的入边关系集合和出边关系集合，将每个节点实体归入与标签分类子树代表的标签类别中，得到节点实体类别标签，完成材料领域知识图谱的实体标签聚类。

一种可行的实施方式中，依据知识图谱本体层中各个概念之间的关系约束实例层中概念所指实体之间所具有的关系的范围，设计通过构造标签分类树对知识图谱中实体关系进行一种并查集求取，对实体聚类，无需提供额外信息，仅需极少人工干预；

通过记录标签分类树中支持交集结点存在的证据数量，并根据人工设定的证据数量阈值进行标签分类子树的划分，避免了在大规模材料领域知识图谱中，因少量错误数据或特殊数据污染导致的标签错误归并问题，具有一定的容错能力；

本发明具有领域通用性，适用于以材料领域为代表的规模中等、关系类型数量少而规范、本体层信息价值高的领域知识图谱，能帮助材料领域知识图谱开发人员从本体层掌握所设计的材料领域知识图谱，可用于知识图谱实体聚类、本体层标签确定、知识图谱标签异常检测等工作，或为设计知识图谱问答、知识图谱补全等工作提供标签信息，具有良好的实用性。

如图8所示，本发明实施例提供了一种终端200，终端包括处理器201和存储器202，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一的材料领域知识图谱的谓词逻辑实体聚类方法。

一种可行的实施方式中，所提供的设备包括：处理器201和存储器202。处理器201可以调用存储器202中的计算机程序，以完成知识图谱实体聚类方法的具体步骤。

如图9所示，本发明实施例提供了一种服务器300，服务器包括处理器301和存储器302，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一的材料领域知识图谱的谓词逻辑实体聚类方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种材料领域知识图谱的实体标签聚类方法，其特征在于，包括：

S1：获取三元组形式的材料领域知识图谱；统计知识图谱中的节点实体、节点实体集合以及节点实体的关系信息；

S2：基于所述节点实体集合创建标签分类树根结点；

S3：基于谓词逻辑，遍历所有所述节点实体，将所述节点实体插入所述标签分类树，并记录支持交集结点存在的节点实体数量为证据数量；

2.根据权利要求1所述的材料领域知识图谱的实体标签聚类方法，其特征在于，所述步骤S1中，获取三元组形式的材料领域知识图谱；得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息，包括：

3.根据权利要求2所述的材料领域知识图谱的实体标签聚类方法，其特征在于，所述步骤S2中，基于所述节点实体集合创建标签分类树根结点，包括：

初始化所述标签分类树，创建标签分类树根结点。

4.根据权利要求3所述的材料领域知识图谱的实体标签聚类方法，其特征在于，所述步骤S3中，基于谓词逻辑，遍历所有所述节点实体，将所述节点实体插入所述标签分类树，并记录支持交集结点存在的节点实体数量为证据数量，包括：

S34：重复步骤S32-S33，直至完成对所述节点实体集合的遍历。

5.根据权利要求4所述的材料领域知识图谱的实体标签聚类方法，其特征在于，所述步骤S32中，根据谓词逻辑判断检索结点与所述节点实体的入边关系和出边关系记录存在交集的情况，并根据谓词逻辑将所述节点实体插入标签分类树的特定位置，记录检索结点证据数量，包括：

jC(x,y)＝hasIntersection(x_in,y_in)∨hasIntersection(x_out,y_out) (1)

其中，

其中，

6.根据权利要求1所述的材料领域知识图谱的实体标签聚类方法，其特征在于，所述步骤S4中，根据所述证据数量的阈值，将所述标签分类树拆分成标签分类子树，包括：

7.根据权利要求1所述的材料领域知识图谱的实体标签聚类方法，其特征在于，所述步骤S5中，根据所述标签分类子树中根结点所记录的所述入边关系集合和出边关系集合，将每个所述节点实体归入所述标签分类子树代表的标签类别中，得到节点实体类别标签，完成材料领域知识图谱的实体标签聚类，包括：

8.一种材料领域知识图谱的实体标签聚类装置，其特征在于，所述装置应用于如权利要求1-7任意一项的方法，包括：

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的材料领域知识图谱的谓词逻辑实体聚类方法。

10.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的材料领域知识图谱的谓词逻辑实体聚类方法。