CN116542332A

CN116542332A - 一种基于语义树的多领域知识融合方法

Info

Publication number: CN116542332A
Application number: CN202310550324.1A
Authority: CN
Inventors: 刘春冉; 权安; 葛蕾; 陈玮; 戎强; 刘刚
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2023-08-04

Abstract

本发明公开了一种基于语义树的多领域知识融合方法，它主要涉及知识图谱在多来源、多领域知识交叉融合的技术领域。本发明基于多个领域知识语义树的建立，提出与之相适应的关联规则挖掘方法，语义树之间进行关联分析，找到不同领域的关联规则，并基于图运算理论进行关联元素的挖掘与计算，可实现多领域知识的有机融合。本发明可以解决不同领域语义树由于异构性不易对齐、关联和合并问题，将多来源、多领域知识融合为有机整体，以提供更全面、统一、协作的知识共享，特别适用于“知识密集型”领域统一技术架构的理论性、系统性设计。

Description

一种基于语义树的多领域知识融合方法

技术领域

本发明涉及知识图谱在多来源、多领域知识交叉融合的技术领域，反映各领域知识体系及其要素的关联及相互作用，特别适用于“知识密集型”领域统一技术架构的理论性、系统性设计。

背景技术

在人工智能、大数据、深度学习等先进科学技术快速发展的时代，知识图谱作为知识体系构建、融合、应用的有效工具，可通过对所获取各领域大规模数据的整合、集成处理以及应用，建立相应的知识语义树，以便于知识的获取提炼。为实现跨领域知识的深度融合，需要将不同来源、不同领域的知识语义树进行合并处理，但是由于不同领域的知识语义树存在异构性，之间的关联关系错综复杂，层级划分不一致，导致无法直接对其进行简单的合并处理。

发明内容

本发明的目的在于针对上述背景技术中的不足之处，提供一种基于语义树的多领域知识融合方法，在建立多个领域语义树的基础上，通过知识关联对多棵语义树进行对齐、关联和合并，使其成为一个有机整体，以提供更全面、统一、协作的知识共享。

本发明所采取的技术方案为：基于多个领域知识语义树的建立，提出与之相适应的关联规则挖掘方法，语义树之间进行关联分析，找到不同领域的关联规则_，并基于图运算理论进行关联元素的挖掘与计算，可实现多领域知识的有机融合。包括以下步骤：

步骤1，基于大数据的文字资料，针对需要研究的多个知识领域进行建模以及属性填充，并拓展各实体之间的联系，构建层次化的知识语义树，反映不同层次知识的上下级和从属结构；

步骤2，建立多个领域语义树的基础上，针对不同领域的知识特点，提出与之相适应的关联规则挖掘方法，利用已有的文字资料，形成跨层次、跨领域的关联规则，并在此基础上给出关联度强弱的指标；

步骤3，采用FP-growth算法对多领域的知识语义树进行关联分析，快速扫描得出之间的关联规则；

步骤4，基于图运算理论进行关联元素的挖掘与计算，从海量结点中寻找最权威节点和距离目标节点最近的次权威节点；

步骤5，综合多领域的知识树以及针对知识语义树挖掘出的关联规则，融合各领域多方面的特征，根据元素之间的关联关系，构建多领域融合的综合性知识图谱体系，其知识图谱中主干与各分支的统一与相互作用反映各领域知识体系及其要素的关联；

步骤6，采用图数据库进行存储。

进一步的，所述步骤2中，关联规则用于反应一个事物与其他事物之间的相互依存性和关联性，用于从大量数据中挖掘出有价值的数据项之间的相关关系；

关联规则的关联强度通过支持度、置信度和提升度来进行描述；

确定关联规则的提取过程是找出所有支持度>＝最小支持度、置信度>＝最小置信度的关联规则；

挖掘出满足条件的关联规则，可以分两步进行：首先生成频繁项集，即找出所有满足最小支持度的项集，然后在频繁项集的基础上生成满足最小置信度的规则；

通过关联规则挖掘得到不同领域知识之间的相关性，直观反映出多领域知识体系的整体关联程度，为综合知识图谱的建立奠定理论基础。

进一步的，所述步骤4中，采用互投票方法确定最权威节点，如果知识图谱的数据量非常庞大，采用分块式的方式来实现，先计算每个分块图的PageRank值，根据各数据块之间的相关性，得到新图PageRank值，再反复迭代，分析权威节点；

采用基于节点属性及节点间关系的多特征方法，将节点属性和关系综合分析来进行权威节点分析。

采用上述技术方案优点在于：

1、本发明构建多领域融合的知识图谱，将多来源、多领域知识融合为有机整体，为统一技术体系架构设计提供系统性的理论指导，以提升综合效能。

2、本发明采用知识图谱技术进行跨领域知识融合的设计方法，基于大数据的文字材料，采用人工智能的数据挖掘方式，让机器能够理解文本的含义，避免了人为主观因素的影响和个人知识面的局限性，分析结果更加客观、全面、合理，更具有理论可行性。

3、本发明选用的算法相对来说耗时短、效率高、计算复杂度低、工作量小，通过优化处理，技术可行性强。

附图说明

图1是本发明的流程示意图；

图2是Dijkstra算法流程图。

具体实施方式

下面结合附图和实施例对本发明的做进一步说明。

如图1所示，本发明包括以下步骤：

(1)多个领域知识语义树的构建

基于大数据的文字资料，针对需要研究的多个知识领域进行建模以及属性填充，并拓展各实体之间的联系，构建层次化的知识语义树，能够清晰的反映不同层次知识的上下级和从属结构，从而能够从多个角度梳理领域知识。

将不同领域原始的文本知识转化成为结构化的语义树进行表示，于是文本原理得以分解，正如树干和其分支，向下寻求其树叶与细节，使之形成层级和层间关系。这样原始知识被转化成更深层次和抽象的语义树，有利于学习迁移。

(2)关联规则的挖掘

在建立多个领域语义树的基础上，针对不同领域的知识特点，提出与之相适应的关联规则挖掘方法，利用已有的文字资料，形成跨层次、跨领域的关联规则，并在此基础上给出关联度强弱的指标。

关联规则反映一个事物与其他事物之间的相互依存性和关联性，用于从大量数据中挖掘出有价值的数据项之间的相关关系。本发明基于不同词汇之间的相关性，通过同一棵树的不同层次与不同树之间的模块关系进行挖掘，发现层间或树间的不同词汇之间的关联特质与属性，从而实现跨领域和跨层次之间的关联性挖掘。

关联规则的关联强度可以用支持度和置信度来进行描述。在关联规则的分析中有三个关键性的概念：支持度(Support)、置信度(Confidence)和提升度(Lift)。

支持度是指几个关联的数据在数据集中出现的次数占总数据集的比重：

其中，Y为关联规则的前项，或被称作先决条件；X为关联规则的后项，也称作关联结果；当项集Y发生时，项集X也有一定概率发生。而置信度是指一个数据出现后，另一个数据出现的概率，或者说数据的条件概率：

提升度则表示含有Y的条件下同时含有X的概率，与X总体发生的概率之比：

基于上述定义，确定关联规则的提取过程是找出所有支持度>＝最小支持度、置信度>＝最小置信度的关联规则。为了快速挖掘出满足条件的关联规则，可以分两步进行：首先生成频繁项集，即找出所有满足最小支持度的项集，然后生成规则，在频繁项集的基础上生成满足最小置信度的规则，产生的规则称为强规则。

通过关联规则挖掘可以得到不同领域知识之间的相关性，直观反映出多领域知识体系的整体关联程度，为综合知识图谱的建立奠定理论基础。

(3)关联分析的操作

经过多种算法的综合比较，采用FP-growth算法对多领域的知识语义树进行关联分析，可快速扫描得出之间的关联规则。具体为：采用分而治之的策略，经过第一遍扫描之后，把数据库中的频繁项集压缩成一棵频繁模式树，同时依然保留关联信息，随后将树分成一些条件库，每个库和一个长度为1的频繁项集相关，然后对这些条件库进行挖掘。当原始数据量很大的时候，可以结合划分的方法，使得树可以放入主存中。

这样，之前建立好的知识语义树的语义频繁模式挖掘完成，在此过程中，产生了模块之间的关联度指标-支持度，通过设置支持度阈值，即可找到不同领域的关联规则。

(4)关联元素的挖掘与计算

基于图运算理论进行关联元素的挖掘与计算，从海量结点中寻找最权威节点(重要节点)和与目标节点最近(路径最短)的次权威节点。

最权威节点的确定需要通过最权威节点分析步骤，从知识图谱中分析节点的权威性，本发明采用互投票方法的方式。该方法的思想源于PageRank思想，PageRank是指被越多的优质网页所指向的网页，具有更高的优质概率。如果知识图谱的数据量非常庞大，为了降低算法开销，可采用分块式的方式来实现算法，先计算每个分块图的PageRank值，根据各数据块之间的相关性，得到新图PageRank值，再反复迭代，分析权威节点。可采用基于节点属性及节点间关系的多特征方法，将节点属性和关系综合分析来进行权威节点分析。

本发明采用的最短路径算法为Dijkstra算法，参照图2，其核心思想是以起始点为中心向外层层扩展，直到扩展到终点为止。其算法步骤为：

a)初始时，S只包含原点v，距离为0，用U表示与S对立的顶点集合。

b)从U中选取一个距离v最小的顶点k，把k加入S集合。

c)以k为另一个原点，对U中每个顶点修改到原点的最短距离，若到k的距离小于到v的距离，则将原有的距离修改为更小的值。

d)重复2、3步骤，直到所有顶点都加入S集合。

其中，S为找到最短路径的节点集合，U为未找到最短路径的节点集合，集合S和U组成全部的节点。

(5)综合性知识图谱的建立

对于来自不同渠道的原始数据或经不同方式处理过的数据特征属性，可基于各自知识体系构建相应的知识树。综合多领域的知识树以及针对知识语义树挖掘出的关联规则，可融合各领域多方面的特征，根据元素之间的关联关系，构建多领域融合的综合性知识图谱体系，其知识图谱中主干与各分支的统一与相互作用反映各领域知识体系及其要素的关联。

(6)知识图谱的存储

对于构建好的综合性知识图谱需选用合适的方法进行存储。目前对于知识图谱的存储可分为基于表结构的存储和基于图结构的存储，为了使多领域融合的知识图谱具有更好的可视化，能够直接准确地反映其内部系统结构，利于对知识的深度挖掘和推理，建议采用图数据库进行存储。

Claims

1.一种基于语义树的多领域知识融合方法，其特征在于，具体步骤如下：

步骤6，采用图数据库进行存储。

2.根据权利要求1所述的一种基于语义树的多领域知识融合方法，其特征在于，所述步骤2中，关联规则用于反应一个事物与其他事物之间的相互依存性和关联性，用于从大量数据中挖掘出有价值的数据项之间的相关关系；

3.根据权利要求1所述的一种基于语义树的多领域知识融合方法，其特征在于，所述步骤4中，采用互投票方法确定最权威节点，如果知识图谱的数据量非常庞大，采用分块式的方式来实现，先计算每个分块图的PageRank值，根据各数据块之间的相关性，得到新图PageRank值，再反复迭代，分析最权威节点；