CN116383345B

CN116383345B - 本体融合的方法、装置、电子设备及存储介质

Info

Publication number: CN116383345B
Application number: CN202310656132.9A
Authority: CN
Inventors: 马鹤桐; 李姣; 王序文; 沈柳
Original assignee: Institute of Medical Information CAMS
Current assignee: Institute of Medical Information CAMS
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-08-22
Anticipated expiration: 2043-06-05
Also published as: CN116383345A

Abstract

本申请提供了一种本体融合的方法、装置、电子设备及存储介质。其中，在本体融合的方法中，首先获取主本体和待融合本体的本体信息，其中，所述本体信息包括本体中各个节点的语义类型、概念、关系、其他属性。然后通过语义类型匹配、语义类型融合、概念匹配、概念融合、关系融合、其他属性融合等手段将不同本体进行全方位的数据融合，将重复数据进行融合，最大限度进行了匹配及融合操作，得到一个更综合的本体。解决了现有技术中互有覆盖的不同本体在融合的时候无法最大限度保留已有信息，遗落大量有价值的概念，属性等信息的问题。

Description

本体融合的方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种本体融合的方法、装置、电子设备及存储介质。

背景技术

本体是某一领域的概念的集合，是集成了多个高质量知识库的知识表达系统，可以展示概念、词汇、并延展关系与规则，很大程度上明确了某一领域的范围，提升信息检索效率。在许多专业领域，本体能够提升研究人员的信息检索查全率与查准率，从而提升检索效率，定位到准确的目标信息与文献。

但一个综合的专业领域往往包含多个细分领域的本体，本体与本体之间通常都存在相互重叠，共同覆盖的部分。而现有技术中没有有效的手段去处理本体数据重叠的问题，当用户通过相互重叠的本体进行检索时，不仅会生成大量重复内容，同时也会导致用户浪费更多时间进行重复检索。因此本体融合在任何专业领域中都是必要的，但当下的本体融合结束后，无法最大限度地融合已有本体，会遗漏大量重要信息，如概念及属性。

发明内容

有鉴于此，本申请提供了一种本体融合的方法、装置、电子设备及存储介质，以解决现有技术中互有覆盖的不同本体之间融合过程中无法最大限度融合已有本体，遗漏大量重要信息的问题。

为实现上述目的，本申请提供如下技术方案：

本申请第一方面公开了一种本体融合的方法，包括：

获取主本体和待融合本体的本体信息，其中，所述本体信息包括本体中各个节点的语义类型、概念、关系、其他属性；

针对所述待融合本体的每一个节点，基于所述语义类型与所述主本体的中的各个节点进行语义类型匹配；

针对所述待融合本体中语义类型匹配成功的每一个节点，基于所述概念，与所述主本体中的各个节点进行概念匹配；若概念匹配成功，则进行节点概念融合；若概念匹配不成功，则进行节点语义类型融合；

针对所述待融合本体中未进行概念融合的每一个节点，基于所述概念，与所述主本体每一个节点进行概念匹配，若概念匹配成功，则进行节点概念融合；

针对已进行概念融合的节点，确定所述节点是否存在待融合的关系，若确定出所述节点存在待融合的关系，则对所述节点进行关系融合；

针对已进行概念融合的节点，确定所述节点是否存在待融合的其他属性，若确定出所述节点存在待融合的其他属性，则对所述节点进行其他属性融合。

可选的，上述的方法，所述针对所述待融合本体的每一个节点，基于所述语义类型与所述主本体的中的各个节点进行语义类型匹配，包括：

分别获取待进行语义类型匹配的两个节点的语义类型字符串；

将所述待进行语义类型匹配的两个节点的语义类型字符串进行对比；

若所述待进行语义类型匹配的两个节点的语义类型字符串一致，则语义类型匹配成功；若所述两个节点的语义类型字符串不一致，则语义类型匹配不成功。

可选的，上述的方法，所述针对所述待融合本体中语义类型匹配成功的每一个节点，基于所述概念，与所述主本体中的各个节点进行概念匹配，包括：

对待进行概念匹配的两个节点进行字符串匹配，得到字符串匹配结果；

对所述待进行概念匹配的两个节点进行相似度计算，得到概念相似度；

若所述字符串匹配结果为字符串匹配成功或者所述概念相似度大于预设的第一阈值，则判定所述待进行概念匹配的两个节点概念匹配成功；若所述字符串匹配结果为字符串匹配不成功且所述概念相似度不大于所述第一阈值，则判定所述待进行概念匹配的两个节点概念匹配不成功。

可选的，上述的方法，所述针对已进行概念融合的节点，确定所述节点是否存在待融合的关系，包括：

获取已进行概念融合的节点对应的关系；

查询预设的关系词表，若获取到的关系记录在所述关系词表中，则确定所述获取到的关系为待融合的关系；

若所述获取到的关系不在所述关系词表中，则计算得到所述获取到的关系的关系相似度；

若所述关系相似度大于预设的第二阈值，则所述获取到的关系为待融合的关系；

若所述关系相似度不大于所述第二阈值，则所述获取到的关系不是待融合的关系。

本申请第二方面公开了一种本体融合的装置，包括：

获取单元，用于获取主本体和待融合本体的本体信息，其中，所述本体信息包括本体中各个节点的语义类型、概念、关系、其他属性；

语义类型匹配单元，用于针对所述待融合本体的每一个节点，基于所述语义类型与所述主本体的中的各个节点进行语义类型匹配；

第一概念匹配单元，用于针对所述待融合本体中语义类型匹配成功的每一个节点，基于所述概念，与所述主本体中的各个节点进行概念匹配；若概念匹配成功，则进行节点概念融合；若概念匹配不成功，则进行节点语义类型融合；

第二概念匹配单元，用于针对所述待融合本体中未进行概念融合的每一个节点，基于所述概念，与所述主本体每一个节点进行概念匹配，若概念匹配成功，则进行节点概念融合；

关系融合单元，用于针对已进行概念融合的节点，确定所述节点是否存在待融合的关系，若确定出所述节点存在待融合的关系，则对所述节点进行关系融合；

属性融合单元，用于针对已进行概念融合的节点，确定所述节点是否存在待融合的其他属性，若确定出所述节点存在待融合的其他属性，则对所述节点进行其他属性融合。

可选的，上述的装置，所述语义类型匹配单元，包括：

第一获取子单元，用于分别获取待进行语义类型匹配的两个节点的语义类型字符串；

对比子单元，用于将所述待进行语义类型匹配的两个节点的语义类型字符串进行对比；

第一确定子单元，用于若所述待进行语义类型匹配的两个节点的语义类型字符串一致，则语义类型匹配成功；若所述两个节点的语义类型字符串不一致，则语义类型匹配不成功。

可选的，上述的装置，所述第一概念匹配单元，包括：

匹配子单元，用于对待进行概念匹配的两个节点进行字符串匹配，得到字符串匹配结果；

计算子单元，用于对所述待进行概念匹配的两个节点进行相似度计算，得到概念相似度；

第二确定子单元，用于若所述字符串匹配结果为字符串匹配成功或者所述概念相似度大于预设的第一阈值，则判定所述待进行概念匹配的两个节点概念匹配成功；若所述字符串匹配结果为字符串匹配不成功且所述概念相似度不大于所述第一阈值，则判定所述待进行概念匹配的两个节点概念匹配不成功。

可选的，上述的装置，所述关系融合单元，包括：

第二获取子单元，用于获取已进行概念融合的节点对应的关系；

查询子单元，用于查询预设的关系词表，若获取到的关系记录在所述关系词表中，则确定所述获取到的关系为待融合的关系；

第二计算子单元，用于若所述获取到的关系不在所述关系词表中，则计算得到所述获取到的关系的关系相似度；

第三确定子单元，用于若所述关系相似度大于预设的第二阈值，则所述获取到的关系为待融合的关系；

第四确定子单元，用于若所述关系相似度不大于所述第二阈值，则所述获取到的关系不是待融合的关系。

本申请第三方面公开了一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如本申请第一方面中任意一项所述的方法。

本申请第四方面公开了一种计算机存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如本申请第一方面中任意一项所述的方法。

从上述技术方案可以看出，本申请提供的一种本体融合的方法中，首先获取主本体和待融合本体的本体信息，其中，本体信息包括本体中各个节点的语义类型、概念、关系、其他属性。然后针对待融合本体的每一个节点，基于语义类型与主本体的中的各个节点进行语义类型匹配。接着针对待融合本体中语义类型匹配成功的每一个节点，基于概念，与主本体中的各个节点进行概念匹配；若概念匹配成功，则进行节点概念融合；若概念匹配不成功，则进行节点语义类型融合。针对待融合本体中未进行概念融合的每一个节点，基于概念，与主本体每一个节点进行概念匹配，若概念匹配成功，则进行节点概念融合。针对已进行概念融合的节点，确定节点是否存在待融合的关系，若确定出节点存在待融合的关系，则对节点进行关系融合。最后针对已进行概念融合的节点，确定节点是否存在待融合的其他属性，若确定出节点存在待融合的其他属性，则对节点进行其他属性融合。由此可知，利用本申请的方法，通过语义类型匹配、语义类型融合、概念匹配、概念融合、关系融合、其他属性融合等手段将不同本体进行全方位的数据融合，将重复数据进行融合，最大限度进行了匹配及融合操作，得到一个更综合的本体。解决了现有技术中互有覆盖的不同本体在融合的时候无法最大限度保留已有信息，遗落大量有价值的概念，属性等信息的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种本体融合的方法的流程图；

图2为本申请另一实施例公开的步骤S103中进行概念匹配的一种实施方式的流程图；

图3为本申请另一实施例公开的步骤S105中针对已进行概念融合的节点，确定所述节点是否存在待融合的关系的的一种实施方式的流程图；

图4为本申请另一实施例公开的本体融合的示例图；

图5为本申请另一实施例公开的一种本体融合的装置的示意图；

图6为本申请另一实施例公开的一种电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

并且，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

由背景技术可知，现有技术中没有有效的手段去处理本体数据重叠的问题，当用户通过相互重叠的本体进行检索时，不仅会生成大量重复内容，同时也会导致用户浪费更多时间进行重复检索。因此本体融合在任何专业领域中都是必要的，但当下的本体融合结束后，无法最大限度地融合已有本体，会遗漏大量重要信息，如概念及属性。

鉴于此，本申请提供了一种本体融合的方法、装置、电子设备及存储介质，以解决现有技术中互有覆盖的不同本体之间融合过程中无法最大限度融合已有本体，遗漏大量重要信息的问题。

S101、获取主本体和待融合本体的本体信息，其中，本体信息包括本体中各个节点的语义类型、概念、关系、其他属性。

需要说明的是，首先获取主本体和待融合本体的本体信息，其中，本体信息包括本体中各个节点的语义类型、概念、关系及其他属性。语义类型根据实际情况进行定义，比如一个概念肺栓塞，语义类型可以是疾病，可以是肺部疾病，可以是并发症等。概念包括每个概念的优选词与非优选词。比如肺栓塞概念中，优选词是肺栓塞，非优选词是肺血栓栓塞，肺动脉血栓，肺动脉梗塞，肺血栓等。关系是指在本体中已经存在的关系，比如本体中存在一类药物，其下面的所有概念都是具体的药物，而这些药物都对另外一个类别的一些疾病有治疗关系，那么这个治疗关系就是关系，是本体中的一个属性。本体融合时以主本体为基础，将待融合本体的数据融合到主本体中。

S102、针对待融合本体的每一个节点，基于语义类型与主本体的中的各个节点进行语义类型匹配。

需要说明的是，为方便描述，以下实施例中主本体以A本体表示，待融合本体以B本体表示。针对B本体的每一个节点，基于语义类型与主本体的中的各个节点进行语义类型匹配。具体的，利用广度优先算法，先从B本体的顶层节点开始，将B本体的顶层节点B1与A本体的顶层节点A1进行语义类型匹配，若匹配成功，则对B1的子节点与A1的子节点进行广度优先算法的语义类型匹配。若B1和A1语义类型匹配不成功，则对B本体与A本体的其他顶层节点进行语义类型匹配，如果A本体没有其他顶层节点，则将B本体的顶层节点与A本体的顶层节点的下位节点一一进行语义类型匹配，直至所有节点完成语义类型匹配。以B本体的顶层节点的匹配情况为例，匹配结果可分为以下几种情况：1、B本体的顶层节点语义类型B1与A本体的顶层节点语义类型A1相匹配。2、B本体的顶层节点语义类型B1与A本体的顶层类型A1的某一下位节点语义类型A21相匹配。3、B本体的顶层节点语义类型B1与A本体的某个叶子节点语义类型AJ1相匹配。4、B本体的顶层节点语义类型B1与A本体的所有节点的语义类型均不匹配。当匹配结果为B本体的顶层节点语义类型B1与A本体的所有节点的语义类型均不匹配时，则进入概念匹配阶段，对概念匹配成功的节点及分支进行概念融合操作，没有融合的概念作为悬空概念保留。

可选的，在本申请的另一实施例中，步骤S102的一种实施方式，可以包括：

分别获取待进行语义类型匹配的两个节点的语义类型字符串。

将待进行语义类型匹配的两个节点的语义类型字符串进行对比。

若待进行语义类型匹配的两个节点的语义类型字符串一致，则语义类型匹配成功；若两个节点的语义类型字符串不一致，则语义类型匹配不成功。

需要说明的是，分别获取待进行语义类型匹配的两个节点的语义类型字符串，然后将两个节点的语义类型字符串进行对比。如果两个语义类型字符串一致，说明两个语义类型是同一个内容，则判断当前两个节点的语义类型是相匹配的，语义类型匹配成功。反之，如果两个字符串不一致，则判断当前两个节点的语义类型不是相匹配的，语义类型匹配不成功。

S103、针对待融合本体中语义类型匹配成功的每一个节点，基于概念，与主本体中的各个节点进行概念匹配；若概念匹配成功，则进行节点概念融合；若概念匹配不成功，则进行节点语义类型融合。

需要说明的是，利用广度优先算法进行概念匹配，利用递归算法进行概念融合。按照步骤S102中的匹配顺序，对B本体的顶层节点及其子节点和A本体的顶层节点及其子节点进行概念匹配。具体的，针对待融合本体语义类型匹配成功的节点，若该节点及分支的概念匹配成功，按照广度优先算法结合递归方法的顺序进行概念匹配及融合，即对概念的子节点进行同样的概念匹配，子节点概念匹配成功进行孙子节点的概念匹配直至该节点的最后一级子节点没有子节点，即叶子节点，且遍历完成所有分支节点，自底向上进行融合操作，匹配成功的进行概念融合，匹配不成功进行语义类型融合。若该节点本身概念匹配不成功，则进行语义类型的融合。

其中，概念融合是指，如果概念B11与概念A11相匹配，则在A本体中仍然保留概念A11，并将概念B11中与概念A11不重复的非优选术语以及其他属性信息一并加入到概念A11中，作为概念A11的一部分。其中，语义类型融合是指，如果B本体的某一节点语义类型B1和A本体的某一节点语义类型A1相匹配，但概念匹配不成功，则将B本体的顶层节点作为A本体的的A1节点的兄弟节点，若A1节点无父节点，则将B节点作为A1节点的子节点。

可选的，在本申请的另一实施例中，以A本体和B本体匹配为例，当匹配结果为B本体的顶层节点语义类型B1与A本体的顶层节点语义类型A1相匹配时，则对B本体的顶层节点与A本体的顶层节点进行概念匹配，若概念匹配成功，则对B1的下位节点和A1的下位节点进行相同的算法匹配直至其无下位节点或下位节点均已完成融合，然后对该对节点进行概念融合。若概念匹配不成功，则对B1的下位节点和A1的下位节点进行相同的算法匹配直至其无下位节点或下位节点均已完成融合，然后对该对节点进行语义类型融合。

当B本体的顶层节点语义类型B1与A本体的顶层类型A1的某一下位节点语义类型A21相匹配时，则对B本体的顶层节点与A本体的该下位节点进行概念匹配，若概念匹配成功，则对B1的下位节点和A21的下位节点进行相同的算法匹配直至其无下位节点或下位节点均已完成融合，然后对该对节点进行概念融合。若概念匹配不成功，则对B1的下位节点和A21的下位节点进行相同的算法匹配直至其无下位节点或下位节点均已完成融合，然后对该对节点进行语义类型融合。

当B本体的顶层节点语义类型B1与A本体的某个叶子节点语义类型AJ1相匹配时，则对B本体的顶层节点与A本体的该叶子节点进行概念匹配，若概念匹配成功，则进行概念融合，并将B1所有的下位节点暂时作为AJ1的子节点进行表示。若B1的下位节点的概念与A本体中的任何一个概念都不匹配，最终B1的所有下位节点都将作为AJ1的下位类，如果在下一轮概念匹配阶段，B1的下位节点与A中的其他节点匹配成功，则按照后者进行概念融合操作，撤销该匹配节点在AJ1下的融合操作。

和A1及其所有子节点按照深度优先算法进行概念匹配，并按照递归算法进行概念融合。对于概念匹配成功的进行概念融合，概念匹配不成功的进行语义类型融合。

可选的，在本申请的另一实施例中，步骤S103的一种实施方式，如图2所示，可以包括：

S201、对待进行概念匹配的两个节点进行字符串匹配，得到字符串匹配结果。

需要说明的是，获取待进行概念匹配的两个节点的字符串，并对两个节点字符串进行匹配，得到字符串匹配结果。

S202、对待进行概念匹配的两个节点进行相似度计算，得到概念相似度。

需要说明的是，通过预先构建的bert模型对待进行概念匹配的两个节点的概念进行向量化表示，然后通过余弦相似度计算方法对两个概念向量进行相似度计算，余弦相似度计算公式如下：

Cos(θ)= (x.y)/|x|·|y|

其中，x,y是两个空间向量。

可选的，在本申请的另一实施例中，对于字节完全匹配的两个概念名称，说明两个概念是同一个内容，此时，如果他们的向量化表示有差距，通过正则项中参数的调整，我们可以缩减两个向量间的差距，使两个向量尽可能地相近。

其中，X是更新后的向量，X₀是原先的向量，后面一项是正则项，用来调整两个向量之间的距离。

S203、若字符串匹配结果为字符串匹配成功或者概念相似度大于预设的第一阈值，则判定待进行概念匹配的两个节点概念匹配成功；若字符串匹配结果为字符串匹配不成功且概念相似度不大于所述第一阈值，则判定待进行概念匹配的两个节点概念匹配不成功。

需要说明的是，如果字符串匹配结果为字符串匹配成功或者概念相似度大于预设的阈值，则判定待进行概念匹配的两个节点概念匹配成功。如果字符串匹配结果为字符串匹配不成功且概念相似度不大于预设的阈值，则判定待进行概念匹配的两个节点概念匹配不成功。其中，该第一阈值可以根据实际情况进行设定，比如0.8，也可以对于不同阈值的效果函数进行阈值选取用F1值进行检验，选定F1值更高的阈值，计算F1值的公式如下：

其中，F1值是准确率和召回率的加权平均，P为准确率，R为召回率，P和R根据表1中的数据计算得到：

其中：

S104、针对待融合本体中语义未进行概念融合的每一个节点，基于概念，与主本体每一个节点进行概念匹配，若概念匹配成功，则进行节点概念融合。

需要说明的是，在执行步骤S103之后，针对待融合本体中未进行概念融合的每一个节点，基于概念，与主本体每一个节点进行概念匹配，如果当前节点与主本体中的某个节点的概念匹配成功，则进行节点概念融合。如果当前节点与主本体中的任意一个节点的概念匹配都不成功，则该节点作为悬空概念保留。

S105、针对已进行概念融合的节点，确定节点是否存在待融合的关系，若确定出节点存在待融合的关系，则对节点进行关系融合。

需要说明的是，针对已进行概念融合的节点，确定节点是否存在待融合的关系，如果节点存在待融合的关系，则对节点进行关系融合。其中，关系是指在本体中已经存在的关系，比如本体中存在一类药物，其下面的所有概念都是具体的药物，而这些药物都对另外一个类别的一些疾病有治疗关系，那么这个治疗关系就是所谓的关系，是本体中的一个属性。在进行概念融合之后，针对每一个已进行概念融合的节点，获取当前节点融合前的两个两个节点对应的关系，确定是否存在待融合的关系。如果确定出节点存在待融合的关系，则对节点进行关系融合。比如，A本体中的关系是治疗，B本体中待融合的关系是可治疗，融合操作为保留主本体A中的治疗作为优选关系，B中的可治疗作为非优选关系，保留不同说法。

可选的，在本申请的另一实施例中，步骤S105中针对已进行概念融合的节点，确定节点是否存在待融合的关系的一种实施方式，如图3所示，可以包括：

S301、获取已进行概念融合的节点对应的关系。

需要说明的是，首先获取当前节点融合前的两个节点对应的关系。

S302、查询预设的关系词表，若获取到的关系记录在关系词表中，则确定获取到的关系为待融合的关系。

需要说明的是，通过预设的关系词表，可以了解到同等关系的表示，并查询获取到的关系是否记录在关系词表中，若获取到的关系记录在关系词表中，则确定获取到的关系为待融合的关系。

S303、若获取到的关系不在关系词表中，则计算得到获取到的关系的关系相似度。

需要说明的是，对于未出现在关系表示词表中的待融合关系，进行向量表示后，利用余弦相似度算法计算得到获取到的关系的关系相似度。或者当前节点融合前的两个节点的概念进行矩阵表示，例如将B本体的顶层节点概念B2与A本体的顶层节点概念A2分别进行矩阵表示，具体做法是罗列B2中优选词和非优选词的向量表示成为该概念的矩阵表示，可以得到B的矩阵表示B’与B2的矩阵表示B2’，因为根据BERT向量表示，每个术语最终表示出来的向量都是768维的向量，罗列这些向量会成为一个矩阵，但两个矩阵的维度可能不同，只需要用0补足为相同矩阵进行计算。通过B’*BB2 = B2’计算关系矩阵BB2的向量表示，同理，计算A与A’的关系矩阵AA2。对两个关系矩阵分别做线性变换，用基向量（m维行向量，向量内容为（1，1，1，…1））与该矩阵（矩阵大小为m*768）做向量乘积，最终将两个矩阵重新变换成两个向量，并进行相似度计算，得到关系相似度值。

S304、若关系相似度大于预设的第二阈值，则获取到的关系为待融合的关系。

需要说明的是，如果关系相似度大于预设的第二阈值，则获取到的关系为待融合的关系，其中，第二阈值可根据实际情况进行设定，例如0.85。

S305、若关系相似度不大于第二阈值，则获取到的关系不是待融合的关系。

需要说明的是，如果若关系相似度不大于第二阈值，则获取到的关系不是待融合的关系。

S106、针对已进行概念融合的节点，确定节点是否存在待融合的其他属性，若确定出节点存在待融合的其他属性，则对节点进行其他属性融合。

需要说明的是，针对已进行概念融合的节点，检查该节点融合之前的原始节点中是否存在其他属性，如果存在其他属性，则对节点进行其他属性融合。其中，其他属性比包括定义等属性，例如脑卒中概念中，定义这个属性中可能会写明，“脑卒中是以猝然昏倒，不省人事，伴发口角歪斜，语言不利而出现半身不遂为主要症状的一类脑血液循环障碍性疾病”。在概念融合的过程中，将概念B11的其他属性添加到概念A11中，作为其属性之一进行保留。比如，在概念A11跟概念B11融合的过程中，概念A11没有定义这个属性，但概念B11已经被判定为是跟概念A11一致的内容，此时将概念A11与概念B11概念融合之后，对其定义也进行融合，将概念B11的属性保留至概念A11中作为概念A11的属性，此时概念A11优选概念仍然是概念A11，非优选概念添加了概念B11与A11优选词表述不同的优选概念及非优选概念，概念A11的属性添加了定义，定义内容为概念B11的定义内容。

本申请实施例提供的一种本体融合的方法中，首先获取主本体和待融合本体的本体信息，其中，本体信息包括本体中各个节点的语义类型、概念、关系、其他属性。然后针对待融合本体的每一个节点，基于语义类型与主本体的中的各个节点进行语义类型匹配。接着针对待融合本体中语义类型匹配成功的每一个节点，基于概念，与主本体中的各个节点进行概念匹配；若概念匹配成功，则进行节点概念融合；若概念匹配不成功，则进行节点语义类型融合。针对待融合本体中未进行概念融合的每一个节点，基于概念，与主本体每一个节点进行概念匹配，若概念匹配成功，则进行节点概念融合。针对已进行概念融合的节点，确定节点是否存在待融合的关系，若确定出节点存在待融合的关系，则对节点进行关系融合。最后针对已进行概念融合的节点，确定节点是否存在待融合的其他属性，若确定出节点存在待融合的其他属性，则对节点进行其他属性融合。由此可知，利用本申请的方法，通过语义类型匹配、语义类型融合、概念匹配、概念融合、关系融合、其他属性融合等手段将不同本体进行全方位的数据融合，将重复数据进行融合，最大限度进行了匹配及融合操作，得到一个更综合的本体。解决了现有技术中互有覆盖的不同本体在融合的时候无法最大限度保留已有信息，遗落大量有价值的概念，属性等信息的问题。

在本申请的另一实施例中，假设A本体为主本体，包含节点A，子节点A1，A与A1有症状关系。B本体为待融合本体，包含节点B，子节点B1、B2，B2有非优选术语X，Y，Z。B与B1有治疗关系，B与B2有“有…表现”的关系。如图4所示，首先用B节点与A节点进行语义类型的匹配，发现B与A语义类型完全一致，此时对B与A进行概念匹配，发现其概念相似度大于设定阈值，因此对B和A进行概念融合。但考虑到B有子节点，那么按照广度优先遍历方法遍历B的子节点，首先会遍历到B1，此时对B1与A1进行概念匹配，发现匹配不成功。再遍历B2，发现B2与A1可以通过概念匹配，应融合B2与A1。此时B的其他子节点，直至所有节点都遍历完成，在当前情况下，B本体在匹配到语义类型后，所有的节点都进行了遍历，可以进入融合阶段。由于B2和A1匹配成功，先完成B2和A1的融合操作，对比B2和A1的表述，发现不一致，以A1为主，将B2，X，Y，Z一同加入到A1的非优选概念中，节点表示仍为A1。而未被匹配到的B1由于其父节点B与A的语义类型完全一致，概念也完全一致，则进行语义类型的融合，自动添加到A的子节点。在B的子节点都完成融合操作后，对B和A进行融合，以A的概念为主，添加B为A的非优选概念。由于每个概念节点都进行了匹配和遍历，因此无需进行额外一轮的概念匹配，可以进入到关系及其他属性的匹配中。B有两个关系，一个是治疗，一个是有…表现，A有一个关系，是对A1的症状，这时由于A与B融合，A1与B2融合，因此可以推断A与B是同一个概念，A1与B2是同一个概念，因此他们的关系是可以融合的。因此，A与A1的优选关系仍保留原来的症状，此外再融合进来一个非优选关系“有…表现”。而A与B融合后，B对于B1的关系则予以保留，成为A治疗B1的关系。

在本申请的另一实施例中，还提供了一种本体融合的装置，如图5所示，具体包括：

获取单元501，用于获取主本体和待融合本体的本体信息，其中，本体信息包括本体中各个节点的语义类型、概念、关系、其他属性。

语义类型匹配单元502，用于针对待融合本体的每一个节点，基于语义类型与主本体的中的各个节点进行语义类型匹配。

第一概念匹配单元503，用于针对待融合本体中语义类型匹配成功的每一个节点，基于概念，与主本体中的各个节点进行概念匹配；若概念匹配成功，则进行节点概念融合；若概念匹配不成功，则进行节点语义类型融合。

第二概念匹配单元504，用于针对待融合本体中未进行概念融合的每一个节点，基于概念，与主本体每一个节点进行概念匹配，若概念匹配成功，则进行节点概念融合。

关系融合单元505，用于针对已进行概念融合的节点，确定节点是否存在待融合的关系，若确定出节点存在待融合的关系，则对节点进行关系融合。

属性融合单元506，用于针对已进行概念融合的节点，确定节点是否存在待融合的其他属性，若确定出节点存在待融合的其他属性，则对节点进行其他属性融合。

本实施例中，获取单元501、语义类型匹配单元502、第一概念匹配单元503、第二概念匹配单元504、关系融合单元505、属性融合单元506的具体执行过程，可参见对应图1的方法实施例内容，此处不再赘述。

本申请实施例提供的一种本体融合的装置中，首先获取单元501获取主本体和待融合本体的本体信息，其中，本体信息包括本体中各个节点的语义类型、概念、关系、其他属性。然后语义类型匹配单元502针对待融合本体的每一个节点，基于语义类型与主本体的中的各个节点进行语义类型匹配。接着第一概念匹配单元503针对待融合本体中语义类型匹配成功的每一个节点，基于概念，与主本体中的各个节点进行概念匹配；若概念匹配成功，则进行节点概念融合；若概念匹配不成功，则进行节点语义类型融合。第二概念匹配单元504针对待融合本体中未进行概念融合的每一个节点，基于概念，与主本体每一个节点进行概念匹配，若概念匹配成功，则进行节点概念融合。关系融合单元505针对已进行概念融合的节点，确定节点是否存在待融合的关系，若确定出节点存在待融合的关系，则对节点进行关系融合。最后属性融合单元506针对已进行概念融合的节点，确定节点是否存在待融合的其他属性，若确定出节点存在待融合的其他属性，则对节点进行其他属性融合。由此可知，利用本申请的方法，通过语义类型匹配、语义类型融合、概念匹配、概念融合、关系融合、其他属性融合等手段将不同本体进行全方位的数据融合，将重复数据进行融合，最大限度进行了匹配及融合操作，得到一个更综合的本体。解决了现有技术中互有覆盖的不同本体在融合的时候无法最大限度保留已有信息，遗落大量有价值的概念，属性等信息的问题。

可选的，在本申请的另一实施例中，上述语义类型匹配单元502的一种实施方式，可以包括：

第一获取子单元，用于分别获取待进行语义类型匹配的两个节点的语义类型字符串。

对比子单元，用于将待进行语义类型匹配的两个节点的语义类型字符串进行对比。

第一确定子单元，用于若待进行语义类型匹配的两个节点的语义类型字符串一致，则语义类型匹配成功；若两个节点的语义类型字符串不一致，则语义类型匹配不成功。

本实施例中，第一获取子单元、对比子单元、第一确定子单元的具体执行过程，可参见对应图2的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，上述第一概念匹配单元503的一种实施方式，可以包括：

匹配子单元，用于对待进行概念匹配的两个节点进行字符串匹配，得到字符串匹配结果。

计算子单元，用于对待进行概念匹配的两个节点进行相似度计算，得到概念相似度。

第二确定子单元，用于若字符串匹配结果为字符串匹配成功或者概念相似度大于预设的第一阈值，则判定待进行概念匹配的两个节点概念匹配成功；若字符串匹配结果为字符串匹配不成功且概念相似度不大于第一阈值，则判定待进行概念匹配的两个节点概念匹配不成功。

本实施例中，匹配子单元、计算子单元、第二确定子单元的具体执行过程，可参见对应上述的方法实施例内容，此处不再赘述。

可选的，在本申请的另一实施例中，上述关系融合单元505的一种实施方式，可以包括：

第二获取子单元，用于获取已进行概念融合的节点对应的关系。

查询子单元，用于查询预设的关系词表，若获取到的关系记录在关系词表中，则确定获取到的关系为待融合的关系。

第二计算子单元，用于若获取到的关系不在关系词表中，则计算得到获取到的关系的关系相似度。

第三确定子单元，用于若关系相似度大于预设的第二阈值，则获取到的关系为待融合的关系。

第四确定子单元，用于若关系相似度不大于第二阈值，则获取到的关系不是待融合的关系。

本实施例中，第二获取子单元、查询子单元、第二计算子单元、第三确定子单元、第四确定子单元的具体执行过程，可参见对应图3的方法实施例内容，此处不再赘述。

申请另一实施例还提供了一种电子设备，如图6所示，具体包括：

一个或多个处理器601。

存储装置602，其上存储有一个或多个程序。

当一个或多个程序被一个或多个处理器601执行时，使得一个或多个处理器601实现如上述实施例中任意一项方法。

本申请另一实施例还提供了计算机存储介质，其上存储有计算机程序，其中，计算机程序被处理器执行时实现如上述实施例中任意一项方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种本体融合的方法，其特征在于，包括：

针对所述待融合本体中语义类型匹配成功的每一个节点，基于所述概念，与所述主本体中语义类型匹配成功的各个节点进行概念匹配；

若所述主本体和所述待融合本体中语义类型匹配的两个节点概念匹配成功，则进行节点概念融合；概念融合是指，在主本体中保留主本体第一节点的概念，将待融合本体的第二节点的概念中与第一节点的概念不重复的非优选术语以及其他属性信息一并加入到第一节点的概念中，作为第一节点的概念的一部分，其中第二节点与第一节点是概念匹配成功的节点；

若所述主本体和所述待融合本体中语义类型匹配的两个节点概念匹配不成功，则进行节点语义类型融合，语义类型匹配但概念不匹配的节点的语义类型融合是指，将待融合本体中节点作为主本体对应节点的兄弟节点，主本体对应节点无父节点，则将待融合本体中节点作为主本体对应节点的子节点；

针对所述待融合本体中未进行概念融合的每一个节点，基于所述概念，与所述主本体每一个节点进行概念匹配，若所述待融合本体的当前节点与主本体中的某个节点的概念匹配成功，则进行节点概念融合；如果待融合本体中当前节点与主本体中的任意一个节点的概念匹配都不成功，则该当前节点作为悬空概念保留；

2.根据权利要求1所述的方法，其特征在于，所述针对所述待融合本体的每一个节点，基于所述语义类型与所述主本体的中的各个节点进行语义类型匹配，包括：

3.根据权利要求1所述的方法，其特征在于，所述针对所述待融合本体中语义类型匹配成功的每一个节点，基于所述概念，与所述主本体中的各个节点进行概念匹配，包括：

4.根据权利要求1所述的方法，其特征在于，所述针对已进行概念融合的节点，确定所述节点是否存在待融合的关系，包括：

获取已进行概念融合的节点对应的关系；

5.一种本体融合的装置，其特征在于，包括：

第一概念匹配单元，用于针对所述待融合本体中语义类型匹配成功的每一个节点，基于所述概念，与所述主本体中语义类型匹配成功的各个节点进行概念匹配；若所述主本体和所述待融合本体中语义类型匹配的两个节点概念匹配成功，则进行节点概念融合；概念融合是指，在主本体中保留主本体第一节点的概念，将待融合本体的第二节点的概念中与第一节点的概念不重复的非优选术语以及其他属性信息一并加入到第一节点的概念中，作为第一节点的概念的一部分，其中第二节点与第一节点是概念匹配成功的节点；若所述主本体和所述待融合本体中语义类型匹配的两个节点概念匹配不成功，则进行节点语义类型融合，语义类型匹配但概念不匹配的节点的语义类型融合是指，将待融合本体中节点作为主本体对应节点的兄弟节点，主本体对应节点无父节点，则将待融合本体中节点作为主本体对应节点的子节点；

第二概念匹配单元，用于针对所述待融合本体中未进行概念融合的每一个节点，基于所述概念，与所述主本体每一个节点进行概念匹配，若所述待融合本体的当前节点与主本体中的某个节点的概念匹配成功，则进行节点概念融合；如果待融合本体中当前节点与主本体中的任意一个节点的概念匹配都不成功，则该当前节点作为悬空概念保留；

6.根据权利要求5所述的装置，其特征在于，所述语义类型匹配单元，包括：

7.根据权利要求5所述的装置，其特征在于，所述第一概念匹配单元，包括：

8.根据权利要求5所述的装置，其特征在于，所述关系融合单元，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至4中任意一项所述的方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述的方法。