CN110427341A - 一种基于路径排序的知识图谱实体关系挖掘方法 - Google Patents

一种基于路径排序的知识图谱实体关系挖掘方法 Download PDF

Info

Publication number
CN110427341A
CN110427341A CN201910499161.2A CN201910499161A CN110427341A CN 110427341 A CN110427341 A CN 110427341A CN 201910499161 A CN201910499161 A CN 201910499161A CN 110427341 A CN110427341 A CN 110427341A
Authority
CN
China
Prior art keywords
path
data
file
excavated
absolute path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910499161.2A
Other languages
English (en)
Inventor
肖清林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Useear Information Technology Co ltd
Original Assignee
Fujian Singularity Space-Time Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Singularity Space-Time Digital Technology Co Ltd filed Critical Fujian Singularity Space-Time Digital Technology Co Ltd
Priority to CN201910499161.2A priority Critical patent/CN110427341A/zh
Publication of CN110427341A publication Critical patent/CN110427341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于路径排序的知识图谱实体关系挖掘方法,获取待挖掘文件的路径和路径分区映射表;确定待挖掘文件的路径的字典序;获得最小绝对路径字典序;确定该目标绝对路径所归属的分区信息;将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合;解析数据挖掘流程;确定为各执行步骤提供物理资源的节点;确定分布式系统所能处理的输入数据的最大数据量;对准备挖掘的数据按照各执行步骤进行挖掘处理。本发明可以在规模较大的文件存储系统中挖掘相关文件,显著减小了存储空间并提高了文件挖掘性能,还可以综合评估数据挖掘流程的特性,并对输入的数据进行准确而有效的限定,从而保证系统正常运行。

Description

一种基于路径排序的知识图谱实体关系挖掘方法
技术领域
本发明涉及知识图谱实体关系挖掘技术领域,尤其涉及一种基于路径排序的知识图谱实体关系挖掘方法。
背景技术
数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策;
知识图谱实体关系挖掘方法较为复杂,挖掘性能较差,效率低,并且特征列数量过大时会出现内存不足和资源不够的问题,使得数据挖掘流程执行失败。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于路径排序的知识图谱实体关系挖掘方法,可以在规模较大的文件存储系统中挖掘相关文件,且用于挖掘文件集合的路径分区映射表中的数据项数与分区的数量相同,显著减小了存储空间,同时提高了文件挖掘性能,还可以综合评估数据挖掘流程的特性并分析数据挖掘流程和分布式网络系统中网络节点自身拥有物理资源间的关系,进而对于输入的数据进行准确而有效的限定,从而保证系统正常运行。
(二)技术方案
为解决上述问题,本发明提出了一种基于路径排序的知识图谱实体关系挖掘方法,包括以下步骤:
S1、获取待挖掘文件的路径和路径分区映射表;
S2、确定待挖掘文件的路径的字典序,作为待挖掘字典序,并根据路径映射表中的每一个绝对路径确定对应的绝对路径字典序;
S3、基于待挖掘字典序在所有绝对路径字典序中进行检索,获得大于或等于该待挖掘字典序的各绝对路径字典序中的最小绝对路径字典序,并将获得的绝对路径字典序对应的绝对路径作为目标绝对路径;
S4、根据获得的该目标绝对路径以及路径区分映射表,确定该目标绝对路径所归属的分区信息,并将其作为目标分区信息;
S5、将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合;
S6、解析数据挖掘流程,确定挖掘流程的各个执行步骤;
S7、获取各执行步骤在运行过程中所需的物理资源与挖掘流程的输入数据所占物理资源之间的对应关系;
S8、确定为各执行步骤提供物理资源的节点;
S9、根据对应关系和用于执行相应步骤的节点所拥有的物理资源,确定执行各个步骤的节点所能处理的输入数据的最大数据量;
S10、根据执行各步骤的节点所能处理的输入数据的最大数据量,确定分布式系统所能处理的输入数据的最大数据量;
S11、根据分布式系统所能处理的输入数据的最大数据量,对准备挖掘的数据按照各执行步骤进行挖掘处理。
优选的,在S1中,路径分区映射表中保存有每个分区信息,还保存有每个分区信息对应的分区中字典序最大的绝对路径的对应关系。
优选的,在S1中,还包括根据知识图谱构造目录,并根据所有文件对应的绝对路径对目录进行分区。
优选的,在S3中,还包括将所有绝对路径字典序按照字典序由小到大的顺序进行排序。
优选的,在S5中,若待挖掘文件的路径为绝对路径,则确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合;若不是,则需判断待挖掘文件的路径是否为目标绝对路径的前缀路径。
优选的,若待挖掘文件的路径不是目标绝对路径的前缀路径时,确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合;
若待挖掘文件的路径是目标绝对路径的前缀路径时,将目标分区信息对应的分区中的所有文件添加至待挖掘文件所归属的原文件集合中。
优选的,S7的具体步骤如下:
确定每个执行步骤在运行时,其输入数据和输出数据一共所占用的物理资源与数据挖掘流程的输入数据占用的物理资源的比值。
优选的,在S10中,还包括筛选各节点所能够允许输入数据的一个或多个最大数据量,并将一个或多个最大数据量中最小的值作为分布式系统中运行数据挖掘流程所能处理的输入数据的最大数据量。
优选的,在S11中,需要对挖掘数据中的特征列进行聚类计算,聚类计算对应的聚类算法为K-Means聚类算法、层次聚类算法或密度聚类算法。
本发明的上述技术方案具有如下有益的技术效果:
本发明可以在规模较大的文件存储系统中挖掘相关文件,且用于挖掘文件集合的路径分区映射表中的数据项数与分区的数量相同,显著减小了存储空间,同时提高了文件挖掘性能,还可以综合评估数据挖掘流程的特性并分析数据挖掘流程和分布式网络系统中网络节点自身拥有物理资源间的关系,进而对于输入的数据进行准确而有效的限定,从而保证系统正常运行。
附图说明
图1为本发明提出的一种基于路径排序的知识图谱实体关系挖掘方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1所示,本发明提出的一种基于路径排序的知识图谱实体关系挖掘方法,包括以下步骤:
S1、获取待挖掘文件的路径和路径分区映射表;
S2、确定待挖掘文件的路径的字典序,作为待挖掘字典序,并根据路径映射表中的每一个绝对路径确定对应的绝对路径字典序;
S3、基于待挖掘字典序在所有绝对路径字典序中进行检索,获得大于或等于该待挖掘字典序的各绝对路径字典序中的最小绝对路径字典序,并将获得的绝对路径字典序对应的绝对路径作为目标绝对路径;
S4、根据获得的该目标绝对路径以及路径区分映射表,确定该目标绝对路径所归属的分区信息,并将其作为目标分区信息;
S5、将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合;
S6、解析数据挖掘流程,确定挖掘流程的各个执行步骤;
S7、获取各执行步骤在运行过程中所需的物理资源与挖掘流程的输入数据所占物理资源之间的对应关系;
S8、确定为各执行步骤提供物理资源的节点;
S9、根据对应关系和用于执行相应步骤的节点所拥有的物理资源,确定执行各个步骤的节点所能处理的输入数据的最大数据量;
S10、根据执行各步骤的节点所能处理的输入数据的最大数据量,确定分布式系统所能处理的输入数据的最大数据量;
S11、根据分布式系统所能处理的输入数据的最大数据量,对准备挖掘的数据按照各执行步骤进行挖掘处理。
在一个可选的实施例中,在S1中,路径分区映射表中保存有每个分区信息,还保存有每个分区信息对应的分区中字典序最大的绝对路径的对应关系。
在一个可选的实施例中,在S1中,还包括根据知识图谱构造目录,并根据所有文件对应的绝对路径对目录进行分区。
在一个可选的实施例中,在S3中,还包括将所有绝对路径字典序按照字典序由小到大的顺序进行排序。
在一个可选的实施例中,在S5中,若待挖掘文件的路径为绝对路径,则确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合;若不是,则需判断待挖掘文件的路径是否为目标绝对路径的前缀路径;
若待挖掘文件的路径不是目标绝对路径的前缀路径时,确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合;
若待挖掘文件的路径是目标绝对路径的前缀路径时,将目标分区信息对应的分区中的所有文件添加至待挖掘文件所归属的原文件集合中。
在一个可选的实施例中,S7的具体步骤如下:
确定每个执行步骤在运行时,其输入数据和输出数据一共所占用的物理资源与数据挖掘流程的输入数据占用的物理资源的比值。
在一个可选的实施例中,在S10中,还包括筛选各节点所能够允许输入数据的一个或多个最大数据量,并将一个或多个最大数据量中最小的值作为分布式系统中运行数据挖掘流程所能处理的输入数据的最大数据量。
在一个可选的实施例中,在S11中,需要对挖掘数据中的特征列进行聚类计算,聚类计算对应的聚类算法为K-Means聚类算法、层次聚类算法或密度聚类算法。
本发明中,具体步骤如下:首先获取待挖掘文件的路径和路径分区映射表,确定待挖掘文件的路径的字典序,作为待挖掘字典序,并根据路径映射表中的每一个绝对路径确定对应的绝对路径字典序;然后基于待挖掘字典序在所有绝对路径字典序中进行检索,获得大于或等于该待挖掘字典序的各绝对路径字典序中的最小绝对路径字典序,并将获得的绝对路径字典序对应的绝对路径作为目标绝对路径;再根据获得的该目标绝对路径以及路径区分映射表,确定该目标绝对路径所归属的分区信息,并将其作为目标分区信息;再将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合;之后解析数据挖掘流程,确定挖掘流程的各个执行步骤,并获取各执行步骤在运行过程中所需的物理资源与挖掘流程的输入数据所占物理资源之间的对应关系;然后确定为各执行步骤提供物理资源的节点,并根据对应关系和用于执行相应步骤的节点所拥有的物理资源,确定执行各个步骤的节点所能处理的输入数据的最大数据量;然后根据执行各步骤的节点所能处理的输入数据的最大数据量,确定分布式系统所能处理的输入数据的最大数据量;最后根据分布式系统所能处理的输入数据的最大数据量,并对准备挖掘的数据按照各执行步骤进行挖掘处理;
本发明可以在规模较大的文件存储系统中挖掘相关文件,且用于挖掘文件集合的路径分区映射表中的数据项数与分区的数量相同,显著减小了存储空间,同时提高了文件挖掘性能,还可以综合评估数据挖掘流程的特性并分析数据挖掘流程和分布式网络系统中网络节点自身拥有物理资源间的关系,进而对于输入的数据进行准确而有效的限定,从而保证系统正常运行。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (9)

1.一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,包括以下步骤:
S1、获取待挖掘文件的路径和路径分区映射表;
S2、确定待挖掘文件的路径的字典序,作为待挖掘字典序,并根据路径映射表中的每一个绝对路径确定对应的绝对路径字典序;
S3、基于待挖掘字典序在所有绝对路径字典序中进行检索,获得大于或等于该待挖掘字典序的各绝对路径字典序中的最小绝对路径字典序,并将获得的绝对路径字典序对应的绝对路径作为目标绝对路径;
S4、根据获得的该目标绝对路径以及路径区分映射表,确定该目标绝对路径所归属的分区信息,并将其作为目标分区信息;
S5、将目标分区信息对应的分区中的所有文件作为该挖掘文件所归属的文件集合;
S6、解析数据挖掘流程,确定挖掘流程的各个执行步骤;
S7、获取各执行步骤在运行过程中所需的物理资源与挖掘流程的输入数据所占物理资源之间的对应关系;
S8、确定为各执行步骤提供物理资源的节点;
S9、根据对应关系和用于执行相应步骤的节点所拥有的物理资源,确定执行各个步骤的节点所能处理的输入数据的最大数据量;
S10、根据执行各步骤的节点所能处理的输入数据的最大数据量,确定分布式系统所能处理的输入数据的最大数据量;
S11、根据分布式系统所能处理的输入数据的最大数据量,对准备挖掘的数据按照各执行步骤进行挖掘处理。
2.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,在S1中,路径分区映射表中保存有每个分区信息,还保存有每个分区信息对应的分区中字典序最大的绝对路径的对应关系。
3.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,在S1中,还包括根据知识图谱构造目录,并根据所有文件对应的绝对路径对目录进行分区。
4.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,在S3中,还包括将所有绝对路径字典序按照字典序由小到大的顺序进行排序。
5.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,在S5中,若待挖掘文件的路径为绝对路径,则确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合;若不是,则需判断待挖掘文件的路径是否为目标绝对路径的前缀路径。
6.根据权利要求5所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,若待挖掘文件的路径不是目标绝对路径的前缀路径时,确定目标分区信息对应的分区中的所有文件为待挖掘文件所归属的文件集合;
若待挖掘文件的路径是目标绝对路径的前缀路径时,将目标分区信息对应的分区中的所有文件添加至待挖掘文件所归属的原文件集合中。
7.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,S7的具体步骤如下:
确定每个执行步骤在运行时,其输入数据和输出数据一共所占用的物理资源与数据挖掘流程的输入数据占用的物理资源的比值。
8.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,在S10中,还包括筛选各节点所能够允许输入数据的一个或多个最大数据量,并将一个或多个最大数据量中最小的值作为分布式系统中运行数据挖掘流程所能处理的输入数据的最大数据量。
9.根据权利要求1所述的一种基于路径排序的知识图谱实体关系挖掘方法,其特征在于,在S11中,需要对挖掘数据中的特征列进行聚类计算,聚类计算对应的聚类算法为K-Means聚类算法、层次聚类算法或密度聚类算法。
CN201910499161.2A 2019-06-11 2019-06-11 一种基于路径排序的知识图谱实体关系挖掘方法 Pending CN110427341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910499161.2A CN110427341A (zh) 2019-06-11 2019-06-11 一种基于路径排序的知识图谱实体关系挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910499161.2A CN110427341A (zh) 2019-06-11 2019-06-11 一种基于路径排序的知识图谱实体关系挖掘方法

Publications (1)

Publication Number Publication Date
CN110427341A true CN110427341A (zh) 2019-11-08

Family

ID=68408569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910499161.2A Pending CN110427341A (zh) 2019-06-11 2019-06-11 一种基于路径排序的知识图谱实体关系挖掘方法

Country Status (1)

Country Link
CN (1) CN110427341A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711580A (zh) * 2020-12-30 2021-04-27 陈静 用于云计算业务的大数据挖掘方法及云计算金融服务器
WO2022217712A1 (zh) * 2021-04-16 2022-10-20 平安科技(深圳)有限公司 数据挖掘方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429165B1 (en) * 2012-03-07 2013-04-23 Xerox Corporation Systems and methods of partitioning data for synchronous parallel processing
CN104537017A (zh) * 2014-12-18 2015-04-22 华为技术有限公司 一种基于路径的文件搜索方法及装置
CN104537016A (zh) * 2014-12-18 2015-04-22 华为技术有限公司 一种确定文件所在分区的方法及装置
CN105205052A (zh) * 2014-05-30 2015-12-30 华为技术有限公司 一种数据挖掘方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8429165B1 (en) * 2012-03-07 2013-04-23 Xerox Corporation Systems and methods of partitioning data for synchronous parallel processing
CN105205052A (zh) * 2014-05-30 2015-12-30 华为技术有限公司 一种数据挖掘方法及装置
CN104537017A (zh) * 2014-12-18 2015-04-22 华为技术有限公司 一种基于路径的文件搜索方法及装置
CN104537016A (zh) * 2014-12-18 2015-04-22 华为技术有限公司 一种确定文件所在分区的方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711580A (zh) * 2020-12-30 2021-04-27 陈静 用于云计算业务的大数据挖掘方法及云计算金融服务器
WO2022217712A1 (zh) * 2021-04-16 2022-10-20 平安科技(深圳)有限公司 数据挖掘方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN103676645B (zh) 一种时间序列数据流中的关联规则的挖掘方法
CN106777351A (zh) 基于art树分布式系统图存储计算系统及其方法
CN102054002A (zh) 一种数据挖掘系统中决策树的生成方法及装置
CN105205052B (zh) 一种数据挖掘方法及装置
CN107506802A (zh) 一种基于网格的聚类算法及其装置
Khoshnevisan et al. A clustering model based on an evolutionary algorithm for better energy use in crop production
CN106095942A (zh) 强变量提取方法及装置
CN110427341A (zh) 一种基于路径排序的知识图谱实体关系挖掘方法
CN105183796A (zh) 一种基于聚类的分布式链路预测方法
CN109118155A (zh) 一种生成操作模型的方法及装置
CN109446205A (zh) 判断数据状态的装置和方法以及数据更新的装置和方法
CN102945283A (zh) 一种语义Web服务组合方法
CN111651613B (zh) 一种基于知识图谱嵌入的动态推荐方法及系统
CN108416381B (zh) 一种面向三维点集的多密度聚类方法
CN111382320A (zh) 一种面向知识图谱的大规模数据增量处理方法
CN108427753A (zh) 一种新的数据挖掘方法
CN109656898A (zh) 基于节点度的分布式大规模复杂社团探测方法及装置
Queiroga et al. Continuous greedy randomized adaptive search procedure for data clustering
CN109492055B (zh) 一种基于cim模型建立电网大数据仓库的方法
CN106156068A (zh) 一种用户关联处理方法和装置
CN109359205A (zh) 一种基于地理格网的遥感影像切分方法及设备
CN104794234A (zh) 用于同业对标的数据处理方法和装置
CN107515918A (zh) 一种基于网格索引的动态top‑k查询方法
CN105740371A (zh) 一种基于密度的增量聚类数据挖掘方法及系统
CN110489448A (zh) 基于Hadoop的大数据关联规则的挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220914

Address after: 361000 units 1702 and 1703, No. 59, Chengyi North Street, phase III, software park, Xiamen, Fujian

Applicant after: XIAMEN USEEAR INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Unit 1701, unit 1704, No. 59, Chengyi North Street, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: FUJIAN QIDIAN SPACE-TIME DIGITAL TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20191108

RJ01 Rejection of invention patent application after publication