CN109697206A - 一种分布式函数依赖关系挖掘方法 - Google Patents

一种分布式函数依赖关系挖掘方法 Download PDF

Info

Publication number
CN109697206A
CN109697206A CN201811558260.5A CN201811558260A CN109697206A CN 109697206 A CN109697206 A CN 109697206A CN 201811558260 A CN201811558260 A CN 201811558260A CN 109697206 A CN109697206 A CN 109697206A
Authority
CN
China
Prior art keywords
dependence
functional
attribute
digging
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811558260.5A
Other languages
English (en)
Inventor
葛锡聪
叶飞跃
刘琪
张云猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Technology
Original Assignee
Jiangsu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Technology filed Critical Jiangsu University of Technology
Priority to CN201811558260.5A priority Critical patent/CN109697206A/zh
Publication of CN109697206A publication Critical patent/CN109697206A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及传统的函数依赖关系挖掘算法和分布式并行置信度计算领域,具体为一种分布式函数依赖关系挖掘方法;分布式函数依赖关系挖掘方法,帮助企业发现分布在各个节点上的公共规则,为企业决策提供基础:包括以下步骤:(1)对分布式环境下每个节点的原始数据进行函数依赖挖掘,得到相应的函数依赖候选集;(2)根据步骤(1)中的结果,对其进行初步剪枝,得到新的函数依赖候选集;(3)针对步骤(2)中的结果,根据候选函数依赖的左部特征对其进行分组,每一组内的候选函数依赖的LHS部分拥有公共的属性;(4)每次选取一个属性作为LHS公共属性,根据步骤(3)的分组方法对分布式的数据进行重分布;(5)对重分布数据进行置信度检测。

Description

一种分布式函数依赖关系挖掘方法
技术领域
本发明涉及传统的函数依赖关系挖掘算法和分布式并行置信度计算领域,具体为一种分布式函数依赖关系挖掘方法。
背景技术
规则发现是数据挖掘中的一项重要任务,关系数据库中,函数依赖发现在知识发现,数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用,从数据中挖掘属性之间的函数依赖关系有着十分重要的意义。
许多学者也针对集中式环境下关系数据中函数依赖关系的挖掘进行了相关研究,并且提出了多种函数依赖挖掘算法,但是现有的函数依赖挖掘算法主要还是针对于小规模、集中式分布的数据,而针对于分布式环境下进行函数依赖挖掘算法研究的还比较少。
在大数据背景下数据有着4V特征,即数据量巨大、数据类型繁多、数据更新速度快和价值密度低等特点。这些特点使得传统的函数依赖挖掘算法很难适应大数据环境。面对大数据的挑战,有人提出了将所有数据传输到单个节点进行函数依赖挖掘的方法,但是该方法无法高效地利用计算资源,也不能进行计算和存储水平的扩展。因此,如何设计一个面向大规模数据的、高效的函数依赖挖掘算法成为了分布式并行计算方法设计的挑战。
发明内容
针对现有技术中的上述不足,本发明提供一种分布式函数依赖关系挖掘方法,帮助企业发现分布在各个节点上的公共规则,为企业决策提供基础。
为实现以上技术目的,本发明的技术方案是:一种分布式函数依赖关系挖掘方法,包括以下步骤:
(1)对分布式环境下每个节点的原始数据进行函数依赖挖掘,得到相应的函数依赖候选集;
(2)根据步骤(1)中的结果,对其进行初步剪枝,得到新的函数依赖候选集;
(3)针对步骤(2)中的结果,根据候选函数依赖的左部特征对其进行分组,每一组内的候选函数依赖的LHS部分拥有公共的属性,不同的分组的LHS部分的公共属性不同;
(4)每次选取一个属性作为LHS公共属性,根据步骤(3)的分组方法对分布式的数据进行重分布;
(5)每次经过步骤(4)重分布后,通过并行计算当前组内候选函数依赖置信度进行检测,挖掘出不符合条件的函数依赖关系;
(6)根据步骤(5)发现的不符合条件的函数依赖,采用步骤(2)中的剪枝方法,对候选函数依赖进行更深层次的剪枝,得到所有的函数依赖。
作为优选,所述步骤(1)中,分布式环境下不同数据记录分布在不同的节点之上,首先对每个节点的原始数据进行函数依赖挖掘,挖掘出满足单个节点的局部函数依赖关系。
作为优选,所述步骤(2)中,对比分析出步骤(1)结果中不是所有单个节点同时满足的函数依赖,对步骤(1)中挖掘出来的候选函数依赖进行剪枝,删除不符合条件的函数依赖关系。
作为优选,所属步骤(4)中,根据关系r中的属性集中包含的n个属性,每次选取一个属性作为LHS公共属性,对数据进行重分布。
作为优选,:所述步骤(5)中,对于各个节点分组后的候选函数依赖集,采用置信度的计算方法并行检测出不符合条件的函数依赖关系,并广播通知其余节点。
作为优选,所述步骤(6)根据检测出来的不符合条件的函数依赖关系,采用剪枝方法删除相关不符合条件的函数依赖,得到所有的函数依赖。
以上描述可以看出,本发明具备以下优点:本发明的分布式函数依赖关系挖掘方法能够在分布式环境下高效的进行函数依赖关系挖掘。本发明的实施将分布式函数依赖关系挖掘问题分解为上述步骤,利用搜索和剪枝策略提高了函数依赖挖掘的效率,同时,利用分组和并行置信度计算的方法解决了一定的关于数据迁移量和负载均衡的问题,提高了分布式函数依赖关系挖掘的效率和准确性。
附图说明
图1为本发明的智能制造中分布式函数依赖挖掘方法的总体流程图。
图2为本发明实施例中候选函数依赖组合图。
图3为本发明实施例中候选函数依赖搜索空间剪枝图。
图4为本发明实施例中根据第一个属性A对候选函数依赖集进行分组得到的候选函数依赖分组图。
具体实施方式
下面结合本发明给定的附图和具体示例,进一步阐述本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,基于本发明的实施例,本领域普通技术人员在没有创造性劳动的前提下所获得的所有其他实施例。都属于本发明的保护范围。
如图1所示,本发明一中分布式函数依赖关系挖掘方法与系统的实施具体包括如下步骤:
(1)对分布式环境下每个节点的原始数据进行函数依赖挖掘,得到相应的函数依赖候选集;
(2)根据步骤(1)中的结果,对其进行初步剪枝,得到新的函数依赖候选集;
(3)针对步骤(2)中的结果,根据候选函数依赖的左部特征对其进行分组,每一组内的候选函数依赖的LHS部分拥有公共的属性,不同的分组的LHS部分的公共属性不同;
(4)每次选取一个属性作为LHS公共属性,根据步骤(3)的分组方法对分布式的数据进行重分布;
(5)为了提高函数依赖挖掘的准确性,每次经过步骤(4)重分布后,通过并行计算当前组内候选函数依赖置信度进行检测,挖掘出不符合条件的函数依赖关系;
(6)根据步骤(5)发现的不符合条件的函数依赖,采用步骤(2)中的剪枝方法,对候选函数依赖进行更深层次的剪枝,得到所有的函数依赖。
步骤(1)中对分布在各个节点的原始数据函数依赖关系挖掘采用的是传统的函数依赖挖掘算法。其中,该算法的实施包括候选函数依赖的搜索和剪枝。如图2所示,本实施例中包含{A,B,C,D}四个属性,首先通过逐层搜索的方法挖掘出所有的非平凡函数依赖,在本实施例中经过第一层搜索挖掘出4个候选函数依赖,分别为ABC→D、ABD→C、ACD→B、BCD→A,经过第二、三层搜索分别挖掘出12个候选函数依赖,详细候选函数依赖集如图2所示。在搜索过程中,如果出现函数依赖不成立的情况,则可以根据阿姆斯特朗公理的自反律和传递律的得出的剪枝方法对与之相关的LHS部分包含较少的属性的候选函数依赖进行剪枝,该剪枝方法为:如果候选函数依赖X→A不成立,则必然有Y→A不成立,其中这里假定ABC→D不成立,根据剪枝方法可知,可剪枝的候选函数依赖包括:AB→D、AC→D、BC→D、A→D、B→D、C→D,具体剪枝效果如图3所示,虚线部分表示该实施例中被剪掉的候选函数依赖。
步骤(2)中对函数依赖候选集进行剪枝,先对比分析各个节点挖掘出来的函数依赖关系,找出不是所有节点都满足的局部候选函数依赖关系,并在各个节点做出相应的剪枝,得到经过剪枝后的函数依赖候选集。其剪枝方法与步骤(1)中的剪枝方法一致。
步骤(3)和步骤(4)对候选函数依赖进行划分,如图4所示,为以属性A为例进行分组得到的候选函数依赖分组图,根据图示加粗线的部分可知,以A属性为公共属性的候选函数依赖个数为12个,分别是:ABC→D、ABD→C、ACD→B、AB→C、AB→D、AC→B、AC→D、AD→B、AD→C、、A→B、A→C、A→D,同理可知,以B、C、D属性为公共属性的候选函数依赖个数分别为8个、5个和3个。结合步骤(1)中的搜索策略的得到的候选函数依赖个数计算可知,在该是实施例中,第一次重分布可以对12个即约1/2的候选函数依赖进行验证,第二次重分布可以对约3/4的候选函数依赖进行验证,第三次重分布可以对约7/8的候选函数依赖进行验证,经过第四次重分布,该实施例已全部验证完毕。
步骤(5)根据步骤(4)的分组情况,通过并行计算组内的候选函数依赖的置信度来检测函数依赖的准确性,其中,置信度计算标准形式为:一个函数依赖φ:X→Y的置信度con(φ)标准形式为 其中公式中∏X(I)表示属性X在数据库实例I上的投影,CX(x)表示属性X的取值x在I上的元组数。
步骤(6)根据步骤(5)检测出来的不符合条件的函数依赖关系,广播通知各个节点,采用步骤(1)中的剪枝方法对候选函数依赖进行剪枝,得到最终的函数依赖关系。
以上对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.一种分布式函数依赖关系挖掘方法,包括以下步骤:
(1)对分布式环境下每个节点的原始数据进行函数依赖挖掘,得到相应的函数依赖候选集;
(2)根据步骤(1)中的结果,对其进行初步剪枝,得到新的函数依赖候选集;
(3)针对步骤(2)中的结果,根据候选函数依赖的左部特征对其进行分组,每一组内的候选函数依赖的LHS部分拥有公共的属性,不同的分组的LHS部分的公共属性不同;
(4)每次选取一个属性作为LHS公共属性,根据步骤(3)的分组方法对分布式的数据进行重分布;
(5)每次经过步骤(4)重分布后,通过并行计算当前组内候选函数依赖置信度进行检测,挖掘出不符合条件的函数依赖关系;
(6)根据步骤(5)发现的不符合条件的函数依赖,采用步骤(2)中的剪枝方法,对候选函数依赖进行更深层次的剪枝,得到所有的函数依赖。
2.根据权利要求1种所述一种分布式函数依赖关系挖掘方法,其特征在于:所述步骤(1)中,分布式环境下不同数据记录分布在不同的节点之上,首先对每个节点的原始数据进行函数依赖挖掘,挖掘出满足单个节点的局部函数依赖关系。
3.根据权利要求1中所述一种分布式函数依赖关系挖掘方法,其特征在于:所述步骤(2)中,对比分析出步骤(1)结果中不是所有单个节点同时满足的函数依赖,对步骤(1)中挖掘出来的候选函数依赖进行剪枝,删除不符合条件的函数依赖关系。
4.根据权利要求1所述一种分布式函数依赖关系挖掘方法,其特征在于:所属步骤(4)中,根据关系r中的属性集中包含的n个属性,每次选取一个属性作为LHS公共属性,对数据进行重分布。
5.根据权利要求4所述一种分布式函数依赖关系挖掘方法,其特征在于:所述步骤(5)中,对于各个节点分组后的候选函数依赖集,采用置信度的计算方法并行检测出不符合条件的函数依赖关系,并广播通知其余节点。
6.根据权利要求4所述一种分布式函数依赖关系挖掘方法,其特征在于:所述步骤(6)根据检测出来的不符合条件的函数依赖关系,采用剪枝方法删除相关不符合条件的函数依赖,得到所有的函数依赖。
CN201811558260.5A 2018-12-19 2018-12-19 一种分布式函数依赖关系挖掘方法 Pending CN109697206A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811558260.5A CN109697206A (zh) 2018-12-19 2018-12-19 一种分布式函数依赖关系挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811558260.5A CN109697206A (zh) 2018-12-19 2018-12-19 一种分布式函数依赖关系挖掘方法

Publications (1)

Publication Number Publication Date
CN109697206A true CN109697206A (zh) 2019-04-30

Family

ID=66232685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811558260.5A Pending CN109697206A (zh) 2018-12-19 2018-12-19 一种分布式函数依赖关系挖掘方法

Country Status (1)

Country Link
CN (1) CN109697206A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245264A (zh) * 2019-05-22 2019-09-17 江苏理工学院 基于函数依赖的批量交通视频数据结构及其挖掘方法
CN113568599A (zh) * 2020-04-29 2021-10-29 伊姆西Ip控股有限责任公司 用于处理计算作业的方法、电子设备和计算机程序产品
CN113886459A (zh) * 2021-09-24 2022-01-04 深圳市云网万店电子商务有限公司 基于有向图处理自定义公式的方法、系统及存储介质
CN114741381A (zh) * 2022-04-14 2022-07-12 郑州轻工业大学 基于关联依赖的数据清洗方法
CN113568599B (zh) * 2020-04-29 2024-05-31 伊姆西Ip控股有限责任公司 用于处理计算作业的方法、电子设备和计算机程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043925A (zh) * 2009-10-23 2011-05-04 镇江雅迅软件有限责任公司 一种新型分析信息流的方法
CN105893483A (zh) * 2016-03-29 2016-08-24 天津贝德曼科技有限公司 大数据挖掘过程模型总体框架的构造方法
CN108595624A (zh) * 2018-04-23 2018-09-28 南京大学 一种大规模分布式函数依赖发现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043925A (zh) * 2009-10-23 2011-05-04 镇江雅迅软件有限责任公司 一种新型分析信息流的方法
CN105893483A (zh) * 2016-03-29 2016-08-24 天津贝德曼科技有限公司 大数据挖掘过程模型总体框架的构造方法
CN108595624A (zh) * 2018-04-23 2018-09-28 南京大学 一种大规模分布式函数依赖发现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEIYUE YE 等: "A framework for mining functional dependencies from large distributed databases", 《2010 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND COMPUTATIONAL INTELLIGENCE》 *
李卫榜 等: "分布式大数据函数依赖发现", 《计算机研究与发展》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245264A (zh) * 2019-05-22 2019-09-17 江苏理工学院 基于函数依赖的批量交通视频数据结构及其挖掘方法
CN113568599A (zh) * 2020-04-29 2021-10-29 伊姆西Ip控股有限责任公司 用于处理计算作业的方法、电子设备和计算机程序产品
CN113568599B (zh) * 2020-04-29 2024-05-31 伊姆西Ip控股有限责任公司 用于处理计算作业的方法、电子设备和计算机程序产品
CN113886459A (zh) * 2021-09-24 2022-01-04 深圳市云网万店电子商务有限公司 基于有向图处理自定义公式的方法、系统及存储介质
CN114741381A (zh) * 2022-04-14 2022-07-12 郑州轻工业大学 基于关联依赖的数据清洗方法
CN114741381B (zh) * 2022-04-14 2023-04-14 郑州轻工业大学 基于关联依赖的数据清洗方法

Similar Documents

Publication Publication Date Title
CN103838863B (zh) 一种基于云计算平台的大数据聚类算法
CN103020256B (zh) 一种大规模数据的关联规则挖掘方法
Doraiswamy et al. Efficient algorithms for computing Reeb graphs
CN109697206A (zh) 一种分布式函数依赖关系挖掘方法
CN103678671A (zh) 一种社交网络中的动态社区检测方法
CN105740245A (zh) 频繁项集挖掘方法
CN103400227B (zh) 基于图挖掘和图距离的流程推荐方法
CN106897374B (zh) 一种基于轨迹大数据最近邻查询的个性化推荐方法
CN106874788B (zh) 一种敏感数据发布中的隐私保护方法
CN105302803A (zh) 一种产品bom差异分析与同步更新方法
CN109614520B (zh) 一种面向多模式图匹配的并行加速方法
Ghesmoune et al. Micro-batching growing neural gas for clustering data streams using spark streaming
CN108960335A (zh) 一种基于大规模网络进行高效聚类方法
Liu et al. Spotting significant changing subgraphs in evolving graphs
CN104834709A (zh) 一种基于负载均衡的并行余弦模式挖掘方法
Rodríguez-Mazahua et al. Horizontal partitioning of multimedia databases using hierarchical agglomerative clustering
Hassanin et al. DDBSCAN: Different densities-based spatial clustering of applications with noise
Soldano et al. Local knowledge discovery in attributed graphs
CN102708285A (zh) 基于复杂网络模型并行化PageRank算法的核心药物挖掘方法
Singh et al. A comparative analysis of distributed clustering algorithms: A survey
CN104199824A (zh) 一种树型数据上判定节点关系的方法
CN103488757A (zh) 一种基于云计算的聚类特征等值直方图的维护方法
CN104268270A (zh) 基于MapReduce挖掘海量社交网络数据中三角形的方法
Lin et al. Distributed and parallel delaunay triangulation construction with balanced binary-tree model in cloud
CN106503216A (zh) 支持分层的元数据同步方法及元数据同步装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190430