CN110427341A

CN110427341A - 一种基于路径排序的知识图谱实体关系挖掘方法

Info

Publication number: CN110427341A
Application number: CN201910499161.2A
Authority: CN
Inventors: 肖清林
Original assignee: Fujian Singularity Space-Time Digital Technology Co Ltd
Current assignee: Xiamen Useear Information Technology Co ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-11-08

Abstract

一种基于路径排序的知识图谱实体关系挖掘方法，获取待挖掘文件的路径和路径分区映射表；确定待挖掘文件的路径的字典序；获得最小绝对路径字典序；确定该目标绝对路径所归属的分区信息；将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合；解析数据挖掘流程；确定为各执行步骤提供物理资源的节点；确定分布式系统所能处理的输入数据的最大数据量；对准备挖掘的数据按照各执行步骤进行挖掘处理。本发明可以在规模较大的文件存储系统中挖掘相关文件，显著减小了存储空间并提高了文件挖掘性能，还可以综合评估数据挖掘流程的特性，并对输入的数据进行准确而有效的限定，从而保证系统正常运行。

Description

一种基于路径排序的知识图谱实体关系挖掘方法

技术领域

本发明涉及知识图谱实体关系挖掘技术领域，尤其涉及一种基于路径排序的知识图谱实体关系挖掘方法。

背景技术

数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策；

知识图谱实体关系挖掘方法较为复杂，挖掘性能较差，效率低，并且特征列数量过大时会出现内存不足和资源不够的问题，使得数据挖掘流程执行失败。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于路径排序的知识图谱实体关系挖掘方法，可以在规模较大的文件存储系统中挖掘相关文件，且用于挖掘文件集合的路径分区映射表中的数据项数与分区的数量相同，显著减小了存储空间，同时提高了文件挖掘性能，还可以综合评估数据挖掘流程的特性并分析数据挖掘流程和分布式网络系统中网络节点自身拥有物理资源间的关系，进而对于输入的数据进行准确而有效的限定，从而保证系统正常运行。

(二)技术方案

为解决上述问题，本发明提出了一种基于路径排序的知识图谱实体关系挖掘方法，包括以下步骤：

S1、获取待挖掘文件的路径和路径分区映射表；

S2、确定待挖掘文件的路径的字典序，作为待挖掘字典序，并根据路径映射表中的每一个绝对路径确定对应的绝对路径字典序；

S3、基于待挖掘字典序在所有绝对路径字典序中进行检索，获得大于或等于该待挖掘字典序的各绝对路径字典序中的最小绝对路径字典序，并将获得的绝对路径字典序对应的绝对路径作为目标绝对路径；

S4、根据获得的该目标绝对路径以及路径区分映射表，确定该目标绝对路径所归属的分区信息，并将其作为目标分区信息；

S5、将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合；

S6、解析数据挖掘流程，确定挖掘流程的各个执行步骤；

S7、获取各执行步骤在运行过程中所需的物理资源与挖掘流程的输入数据所占物理资源之间的对应关系；

S8、确定为各执行步骤提供物理资源的节点；

S9、根据对应关系和用于执行相应步骤的节点所拥有的物理资源，确定执行各个步骤的节点所能处理的输入数据的最大数据量；

S10、根据执行各步骤的节点所能处理的输入数据的最大数据量，确定分布式系统所能处理的输入数据的最大数据量；

S11、根据分布式系统所能处理的输入数据的最大数据量，对准备挖掘的数据按照各执行步骤进行挖掘处理。

优选的，在S1中，路径分区映射表中保存有每个分区信息，还保存有每个分区信息对应的分区中字典序最大的绝对路径的对应关系。

优选的，在S1中，还包括根据知识图谱构造目录，并根据所有文件对应的绝对路径对目录进行分区。

优选的，在S3中，还包括将所有绝对路径字典序按照字典序由小到大的顺序进行排序。

优选的，在S5中，若待挖掘文件的路径为绝对路径，则确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合；若不是，则需判断待挖掘文件的路径是否为目标绝对路径的前缀路径。

优选的，若待挖掘文件的路径不是目标绝对路径的前缀路径时，确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合；

若待挖掘文件的路径是目标绝对路径的前缀路径时，将目标分区信息对应的分区中的所有文件添加至待挖掘文件所归属的原文件集合中。

优选的，S7的具体步骤如下：

确定每个执行步骤在运行时，其输入数据和输出数据一共所占用的物理资源与数据挖掘流程的输入数据占用的物理资源的比值。

优选的，在S10中，还包括筛选各节点所能够允许输入数据的一个或多个最大数据量，并将一个或多个最大数据量中最小的值作为分布式系统中运行数据挖掘流程所能处理的输入数据的最大数据量。

优选的，在S11中，需要对挖掘数据中的特征列进行聚类计算，聚类计算对应的聚类算法为K-Means聚类算法、层次聚类算法或密度聚类算法。

本发明的上述技术方案具有如下有益的技术效果：

本发明可以在规模较大的文件存储系统中挖掘相关文件，且用于挖掘文件集合的路径分区映射表中的数据项数与分区的数量相同，显著减小了存储空间，同时提高了文件挖掘性能，还可以综合评估数据挖掘流程的特性并分析数据挖掘流程和分布式网络系统中网络节点自身拥有物理资源间的关系，进而对于输入的数据进行准确而有效的限定，从而保证系统正常运行。

附图说明

图1为本发明提出的一种基于路径排序的知识图谱实体关系挖掘方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种基于路径排序的知识图谱实体关系挖掘方法，包括以下步骤：

S1、获取待挖掘文件的路径和路径分区映射表；

S6、解析数据挖掘流程，确定挖掘流程的各个执行步骤；

S8、确定为各执行步骤提供物理资源的节点；

在一个可选的实施例中，在S1中，路径分区映射表中保存有每个分区信息，还保存有每个分区信息对应的分区中字典序最大的绝对路径的对应关系。

在一个可选的实施例中，在S1中，还包括根据知识图谱构造目录，并根据所有文件对应的绝对路径对目录进行分区。

在一个可选的实施例中，在S3中，还包括将所有绝对路径字典序按照字典序由小到大的顺序进行排序。

在一个可选的实施例中，在S5中，若待挖掘文件的路径为绝对路径，则确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合；若不是，则需判断待挖掘文件的路径是否为目标绝对路径的前缀路径；

若待挖掘文件的路径不是目标绝对路径的前缀路径时，确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合；

在一个可选的实施例中，S7的具体步骤如下：

在一个可选的实施例中，在S10中，还包括筛选各节点所能够允许输入数据的一个或多个最大数据量，并将一个或多个最大数据量中最小的值作为分布式系统中运行数据挖掘流程所能处理的输入数据的最大数据量。

在一个可选的实施例中，在S11中，需要对挖掘数据中的特征列进行聚类计算，聚类计算对应的聚类算法为K-Means聚类算法、层次聚类算法或密度聚类算法。

本发明中，具体步骤如下：首先获取待挖掘文件的路径和路径分区映射表，确定待挖掘文件的路径的字典序，作为待挖掘字典序，并根据路径映射表中的每一个绝对路径确定对应的绝对路径字典序；然后基于待挖掘字典序在所有绝对路径字典序中进行检索，获得大于或等于该待挖掘字典序的各绝对路径字典序中的最小绝对路径字典序，并将获得的绝对路径字典序对应的绝对路径作为目标绝对路径；再根据获得的该目标绝对路径以及路径区分映射表，确定该目标绝对路径所归属的分区信息，并将其作为目标分区信息；再将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合；之后解析数据挖掘流程，确定挖掘流程的各个执行步骤，并获取各执行步骤在运行过程中所需的物理资源与挖掘流程的输入数据所占物理资源之间的对应关系；然后确定为各执行步骤提供物理资源的节点，并根据对应关系和用于执行相应步骤的节点所拥有的物理资源，确定执行各个步骤的节点所能处理的输入数据的最大数据量；然后根据执行各步骤的节点所能处理的输入数据的最大数据量，确定分布式系统所能处理的输入数据的最大数据量；最后根据分布式系统所能处理的输入数据的最大数据量，并对准备挖掘的数据按照各执行步骤进行挖掘处理；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，包括以下步骤：

S1、获取待挖掘文件的路径和路径分区映射表；

S6、解析数据挖掘流程，确定挖掘流程的各个执行步骤；

S8、确定为各执行步骤提供物理资源的节点；

2.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，在S1中，路径分区映射表中保存有每个分区信息，还保存有每个分区信息对应的分区中字典序最大的绝对路径的对应关系。

3.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，在S1中，还包括根据知识图谱构造目录，并根据所有文件对应的绝对路径对目录进行分区。

4.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，在S3中，还包括将所有绝对路径字典序按照字典序由小到大的顺序进行排序。

5.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，在S5中，若待挖掘文件的路径为绝对路径，则确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合；若不是，则需判断待挖掘文件的路径是否为目标绝对路径的前缀路径。

6.根据权利要求5所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，若待挖掘文件的路径不是目标绝对路径的前缀路径时，确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合；

7.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，S7的具体步骤如下：

8.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，在S10中，还包括筛选各节点所能够允许输入数据的一个或多个最大数据量，并将一个或多个最大数据量中最小的值作为分布式系统中运行数据挖掘流程所能处理的输入数据的最大数据量。

9.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法，其特征在于，在S11中，需要对挖掘数据中的特征列进行聚类计算，聚类计算对应的聚类算法为K-Means聚类算法、层次聚类算法或密度聚类算法。