CN110019413A - 基于关联规则的海量物联网数据挖掘系统 - Google Patents

基于关联规则的海量物联网数据挖掘系统 Download PDF

Info

Publication number
CN110019413A
CN110019413A CN201711491380.3A CN201711491380A CN110019413A CN 110019413 A CN110019413 A CN 110019413A CN 201711491380 A CN201711491380 A CN 201711491380A CN 110019413 A CN110019413 A CN 110019413A
Authority
CN
China
Prior art keywords
data
layer module
things
internet
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711491380.3A
Other languages
English (en)
Inventor
祁建明
周峻松
徐继峰
陈墩金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ming - Collar Gene Technology Co Ltd
Original Assignee
Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ming - Collar Gene Technology Co Ltd filed Critical Guangzhou Ming - Collar Gene Technology Co Ltd
Priority to CN201711491380.3A priority Critical patent/CN110019413A/zh
Publication of CN110019413A publication Critical patent/CN110019413A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关联规则的海量物联网数据挖掘系统,该系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。本发明方案在数据挖掘技术与云计算技术的支持下采用物联网海量数据挖掘的算法,实现了海量物联网海量数据挖掘系统的设计。

Description

基于关联规则的海量物联网数据挖掘系统
技术领域
本发明属于大数据挖掘技术领域,涉及一种基于关联规则的海量物联网数据挖掘系统。
背景技术
物联网在互联网基础上技术与功能获得了不断的升级,实现了用户对信息的传感、收集与感知。但利用物联网进行信息交换与通信的过程中会产生海量的数据(如RFID数据流、传感器网络数据等),这些数据不断的增多加大了用户从中获取有用信息的难度。
RFID信息数据是研究物联网海量数据挖掘问题的主要对象,结合数据挖掘技术可从该研究对象中挖掘出潜在、有价值的信息。RFID传感器可采集到EPC(标签的标识码)、Location(阅读器读取标签的地点)、Time(阅读器读取标签的时间)的3个原始数据,这些数据的特征主要体现在海量性、分布式、时间与空间性、异构性、动态性、节点资源有限性,因而要想精确挖掘出物联网海量数据难度极大。
在实际领域中,RFID数据流分析、频繁与序列模式分析、分类与聚类的路径分析等是RFID信息数据挖掘的主要内容,这些数据的挖掘对物联网商业决策具有重要意义。
发明内容
本发明目的在于提供一种基于关联规则的海量物联网数据挖掘系统,针对物联网在信息交换与通信过程中不断产生的海量数据会加大用户从中获取有用信息的难度的问题,结合物联网数据结构的特点,在数据挖掘技术与云计算技术的支持下采用物联网海量数据挖掘的算法,实现了海量物联网数据挖掘系统的设计,有效地解决了物联网海量数据挖掘问题。
为解决上述技术问题,本发明采用如下的技术方案:一种基于关联规则的海量物联网数据挖掘系统,该系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。
进一步地,所述数据存储层模块采用分布式数据存储方式,满足计算与存储的整合、迁移,这也是基于云计算、关联规则Apriori的物联网海量数据挖掘系统的一大特征。
进一步地,所述数据挖掘算法层模块借助了云计算平台,利用Master主控节点来进行控制与管理,根据客户需求向相关节点传送算法来计算。
进一步地,所述挖掘任务处理层模块利用Master可调度系统中所有的挖掘器,使系统每一节点的计算和存储的文件传输效率大大提高。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对物联网在信息交换与通信过程中不断产生的海量数据会加大用户从中获取有用信息的难度的问题,结合物联网数据结构的特点,在数据挖掘技术与云计算技术的支持下采用物联网海量数据挖掘的算法,实现了海量物联网数据挖掘系统的设计,有效地解决了物联网海量数据挖掘问题。
附图说明
图1是基于关联规则的海量物联网数据挖掘系统的整体架构图。
图2是基于关联规则的海量物联网数据挖掘系统的挖掘算法实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种基于关联规则的海量物联网数据挖掘系统,该系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。
本系统的主控节点是Master,任务是交互用户、调度与管理整个系统节点。系统Map/Reduce化的数据挖掘算法被存储在一部分的节点中,有利于实现挖掘的高效性。在HDFS分布式存储系统中,主要由1个NameNode主节点、若干DataNode构成,其中NameNode负责接收用户的请求,同时向用户返回存储数据的DataNode的IP,并向其它接收副本的DataNode发送通知。
数据挖掘中的常用算法都进行了Map/Reduce化,本发明中分布式并行的关联规则算法就是将Apriori算法进行Map/Reduce化获得的,这些常用算法都集成在系统所述数据挖掘算法层模块的算法节点中。在实际使用过程中借助了云计算平台,利用Master主控节点来进行控制与管理,根据客户需求向相关节点传送算法来计算。
所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次,Master可调度系统中所有的挖掘器。具体的挖掘任务处理流程:①将空闲的DataNode节点利用Master找出,并将其放置在空闲节点列表中;②用户请求由Master来接收,并获取DataNode各个数据块中的存储信息、挖掘调用算法;③由Master向算法存储节点申请需要的挖掘算法,而后通过挖掘算法存储节点将所需算法传送给DataNode(原始数据)节点;④在HDFS服务器中根据计算任务启动工作,将工作完成结果传送给Master,经过汇总Master会生成最终结果并反馈给用户,该过程因不必进行数据重组与传送,所以系统每一节点的计算和存储的文件传输效率大大提高。
尽管数据挖掘算法分类众多,但在物联网数据挖掘中最有效的还是关联规则的Apriori算法。Apriori算法运用逐层搜索迭代方式来通过K项集进行(K+1)项集的探索,首先需对数据集进行一次扫描,进而生成频繁1-项集L1,之后利用L1进行频繁项集L2的探索,以不断迭代的方式持续到频繁项集为空集。由于频繁项集具有任一子集都为频繁项集的特性来压缩处理搜索空间,以此加快频繁项集的生成效率。在经历了第K次循环搜索后,数据挖掘的具体过程:①操作JOIN(连接),令LK-1产生候选集CK并进行连接操作;②按照Apriori性质来完成支持度统计与剪枝的操作,令CK产生频繁集LK。这种算法的不足之处是需要多次扫描数据库才可探索出所有的频繁项集,显然具有海量数据的物联网应用并不适合这一算法,多次扫描会耗损大量内存及时间。因此,本发明借鉴云计算平台的分布式并行计算性质,将该性质移植在Apriori算法上,建立Hadoop架构以存储扫描数据库,查找频繁项集所获得的并联规则,扫描处理将在各个DataNode节点中并行操作,由此获得各计算节点上的局部频繁项集。之后,利用Master将实际的全局的支持度、频繁项集统计与确定出来,以此来节省系统的时间与内存消耗,实现数据挖掘效率的大大提高。
同时,还需对Apriori算法进行Map/Reduce化,参考图2,具体处理流程:①用户请求挖掘服务,并将关联规则需要的最小支持度、置信度由用户来设置;②接收到请求的Master需向NameNode申请相关的PML文件,对空闲节点列表进行访问,分配任务给空闲的DataNode,将各个DataNode所需的存储算法节点的算法进行调度与并行处理;③将每个DataNode利用Map函数进行<key,value>对映射与新键值的处理,生成一个局部候选频繁K项集,用来表示,每一的支持度用1表示;④利用Reduce函数进行调用计算,累加每个DataNode节点上相同的候选项集的支持度,以生成一个实际的支持度,对比用户申请时设置的最小支持度,以产生局部频繁K项集的集合,用表示;⑤合并所有的处理结果,以产生全局频繁K项集LK。图2是基于Map/Reduce化的Apriori的挖掘算法实现流程图。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于关联规则的海量物联网数据挖掘系统,其特征在于,所述系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。
2.根据权利要求1所述的基于关联规则的海量物联网数据挖掘系统,其特征在于,所述数据存储层模块采用分布式数据存储方式,满足计算与存储的整合、迁移,这也是基于云计算、关联规则Apriori的物联网海量数据挖掘系统的一大特征。
3.根据权利要求1所述的基于关联规则的海量物联网数据挖掘系统,其特征在于,所述数据挖掘算法层模块借助了云计算平台,利用Master主控节点来进行控制与管理,根据客户需求向相关节点传送算法来计算。
4.根据权利要求1所述的基于关联规则的海量物联网数据挖掘系统,其特征在于,所述挖掘任务处理层模块利用Master可调度系统中所有的挖掘器,使系统每一节点的计算和存储的文件传输效率大大提高。
CN201711491380.3A 2017-12-30 2017-12-30 基于关联规则的海量物联网数据挖掘系统 Pending CN110019413A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711491380.3A CN110019413A (zh) 2017-12-30 2017-12-30 基于关联规则的海量物联网数据挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711491380.3A CN110019413A (zh) 2017-12-30 2017-12-30 基于关联规则的海量物联网数据挖掘系统

Publications (1)

Publication Number Publication Date
CN110019413A true CN110019413A (zh) 2019-07-16

Family

ID=67187223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711491380.3A Pending CN110019413A (zh) 2017-12-30 2017-12-30 基于关联规则的海量物联网数据挖掘系统

Country Status (1)

Country Link
CN (1) CN110019413A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126895A (zh) * 2019-11-18 2020-05-08 青岛海信网络科技股份有限公司 一种复杂场景下调度智能分析算法的管理仓库及调度方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126895A (zh) * 2019-11-18 2020-05-08 青岛海信网络科技股份有限公司 一种复杂场景下调度智能分析算法的管理仓库及调度方法

Similar Documents

Publication Publication Date Title
Du et al. A novel data placement strategy for data-sharing scientific workflows in heterogeneous edge-cloud computing environments
Shyshatskyi et al. Complex Methods of Processing Different Data in Intellectual Systems for Decision Support Systems
Zuiev et al. Development of complex methodology of processing heterogeneous data in intelligent decision support systems
CN105069703B (zh) 一种电网海量数据管理方法
Bai et al. An efficient algorithm for distributed density-based outlier detection on big data
García et al. A Binary Cuckoo Search Big Data Algorithm Applied to Large‐Scale Crew Scheduling Problems
CN104809244B (zh) 一种大数据环境下的数据挖掘方法和装置
CN104834557B (zh) 一种基于Hadoop的数据分析方法
CN104820708B (zh) 一种基于云计算平台的大数据聚类方法和装置
CN107341205A (zh) 一种基于大数据平台的智能配用电系统
CN104050042A (zh) Etl作业的资源分配方法及装置
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN106779219A (zh) 一种用电量预测方法及系统
CN104834751A (zh) 基于物联网的数据分析方法
Tardio et al. An iterative methodology for big data management, analysis and visualization
CN106599190A (zh) 基于云计算的动态Skyline查询方法
CN109150964A (zh) 一种可迁移的数据管理方法及服务迁移方法
CN102158533A (zh) 基于QoS的分布式web服务选择方法
Lwin et al. Non-redundant dynamic fragment allocation with horizontal partition in Distributed Database System
Burghardt et al. Relation modelling within multiple representation databases and generalisation services
CN101930566A (zh) 基于平行系统的水利实验模拟系统及实验模拟方法
Pitoski et al. Network analysis of internal migration in Austria
CN116680090B (zh) 一种基于大数据的边缘计算网络管理方法及平台
CN110019413A (zh) 基于关联规则的海量物联网数据挖掘系统
CN102780766A (zh) 面向云制造的设计服务资源跨域组建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190716

WD01 Invention patent application deemed withdrawn after publication