CN110019413A - 基于关联规则的海量物联网数据挖掘系统 - Google Patents
基于关联规则的海量物联网数据挖掘系统 Download PDFInfo
- Publication number
- CN110019413A CN110019413A CN201711491380.3A CN201711491380A CN110019413A CN 110019413 A CN110019413 A CN 110019413A CN 201711491380 A CN201711491380 A CN 201711491380A CN 110019413 A CN110019413 A CN 110019413A
- Authority
- CN
- China
- Prior art keywords
- data
- layer module
- things
- internet
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007418 data mining Methods 0.000 claims abstract description 28
- 238000005065 mining Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000009412 basement excavation Methods 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims abstract description 9
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 2
- 230000005012 migration Effects 0.000 claims description 2
- 230000010354 integration Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000013461 design Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006854 communication Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关联规则的海量物联网数据挖掘系统,该系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。本发明方案在数据挖掘技术与云计算技术的支持下采用物联网海量数据挖掘的算法,实现了海量物联网海量数据挖掘系统的设计。
Description
技术领域
本发明属于大数据挖掘技术领域,涉及一种基于关联规则的海量物联网数据挖掘系统。
背景技术
物联网在互联网基础上技术与功能获得了不断的升级,实现了用户对信息的传感、收集与感知。但利用物联网进行信息交换与通信的过程中会产生海量的数据(如RFID数据流、传感器网络数据等),这些数据不断的增多加大了用户从中获取有用信息的难度。
RFID信息数据是研究物联网海量数据挖掘问题的主要对象,结合数据挖掘技术可从该研究对象中挖掘出潜在、有价值的信息。RFID传感器可采集到EPC(标签的标识码)、Location(阅读器读取标签的地点)、Time(阅读器读取标签的时间)的3个原始数据,这些数据的特征主要体现在海量性、分布式、时间与空间性、异构性、动态性、节点资源有限性,因而要想精确挖掘出物联网海量数据难度极大。
在实际领域中,RFID数据流分析、频繁与序列模式分析、分类与聚类的路径分析等是RFID信息数据挖掘的主要内容,这些数据的挖掘对物联网商业决策具有重要意义。
发明内容
本发明目的在于提供一种基于关联规则的海量物联网数据挖掘系统,针对物联网在信息交换与通信过程中不断产生的海量数据会加大用户从中获取有用信息的难度的问题,结合物联网数据结构的特点,在数据挖掘技术与云计算技术的支持下采用物联网海量数据挖掘的算法,实现了海量物联网数据挖掘系统的设计,有效地解决了物联网海量数据挖掘问题。
为解决上述技术问题,本发明采用如下的技术方案:一种基于关联规则的海量物联网数据挖掘系统,该系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。
进一步地,所述数据存储层模块采用分布式数据存储方式,满足计算与存储的整合、迁移,这也是基于云计算、关联规则Apriori的物联网海量数据挖掘系统的一大特征。
进一步地,所述数据挖掘算法层模块借助了云计算平台,利用Master主控节点来进行控制与管理,根据客户需求向相关节点传送算法来计算。
进一步地,所述挖掘任务处理层模块利用Master可调度系统中所有的挖掘器,使系统每一节点的计算和存储的文件传输效率大大提高。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对物联网在信息交换与通信过程中不断产生的海量数据会加大用户从中获取有用信息的难度的问题,结合物联网数据结构的特点,在数据挖掘技术与云计算技术的支持下采用物联网海量数据挖掘的算法,实现了海量物联网数据挖掘系统的设计,有效地解决了物联网海量数据挖掘问题。
附图说明
图1是基于关联规则的海量物联网数据挖掘系统的整体架构图。
图2是基于关联规则的海量物联网数据挖掘系统的挖掘算法实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明的一种基于关联规则的海量物联网数据挖掘系统,该系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。
本系统的主控节点是Master,任务是交互用户、调度与管理整个系统节点。系统Map/Reduce化的数据挖掘算法被存储在一部分的节点中,有利于实现挖掘的高效性。在HDFS分布式存储系统中,主要由1个NameNode主节点、若干DataNode构成,其中NameNode负责接收用户的请求,同时向用户返回存储数据的DataNode的IP,并向其它接收副本的DataNode发送通知。
数据挖掘中的常用算法都进行了Map/Reduce化,本发明中分布式并行的关联规则算法就是将Apriori算法进行Map/Reduce化获得的,这些常用算法都集成在系统所述数据挖掘算法层模块的算法节点中。在实际使用过程中借助了云计算平台,利用Master主控节点来进行控制与管理,根据客户需求向相关节点传送算法来计算。
所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次,Master可调度系统中所有的挖掘器。具体的挖掘任务处理流程:①将空闲的DataNode节点利用Master找出,并将其放置在空闲节点列表中;②用户请求由Master来接收,并获取DataNode各个数据块中的存储信息、挖掘调用算法;③由Master向算法存储节点申请需要的挖掘算法,而后通过挖掘算法存储节点将所需算法传送给DataNode(原始数据)节点;④在HDFS服务器中根据计算任务启动工作,将工作完成结果传送给Master,经过汇总Master会生成最终结果并反馈给用户,该过程因不必进行数据重组与传送,所以系统每一节点的计算和存储的文件传输效率大大提高。
尽管数据挖掘算法分类众多,但在物联网数据挖掘中最有效的还是关联规则的Apriori算法。Apriori算法运用逐层搜索迭代方式来通过K项集进行(K+1)项集的探索,首先需对数据集进行一次扫描,进而生成频繁1-项集L1,之后利用L1进行频繁项集L2的探索,以不断迭代的方式持续到频繁项集为空集。由于频繁项集具有任一子集都为频繁项集的特性来压缩处理搜索空间,以此加快频繁项集的生成效率。在经历了第K次循环搜索后,数据挖掘的具体过程:①操作JOIN(连接),令LK-1产生候选集CK并进行连接操作;②按照Apriori性质来完成支持度统计与剪枝的操作,令CK产生频繁集LK。这种算法的不足之处是需要多次扫描数据库才可探索出所有的频繁项集,显然具有海量数据的物联网应用并不适合这一算法,多次扫描会耗损大量内存及时间。因此,本发明借鉴云计算平台的分布式并行计算性质,将该性质移植在Apriori算法上,建立Hadoop架构以存储扫描数据库,查找频繁项集所获得的并联规则,扫描处理将在各个DataNode节点中并行操作,由此获得各计算节点上的局部频繁项集。之后,利用Master将实际的全局的支持度、频繁项集统计与确定出来,以此来节省系统的时间与内存消耗,实现数据挖掘效率的大大提高。
同时,还需对Apriori算法进行Map/Reduce化,参考图2,具体处理流程:①用户请求挖掘服务,并将关联规则需要的最小支持度、置信度由用户来设置;②接收到请求的Master需向NameNode申请相关的PML文件,对空闲节点列表进行访问,分配任务给空闲的DataNode,将各个DataNode所需的存储算法节点的算法进行调度与并行处理;③将每个DataNode利用Map函数进行<key,value>对映射与新键值的处理,生成一个局部候选频繁K项集,用来表示,每一的支持度用1表示;④利用Reduce函数进行调用计算,累加每个DataNode节点上相同的候选项集的支持度,以生成一个实际的支持度,对比用户申请时设置的最小支持度,以产生局部频繁K项集的集合,用表示;⑤合并所有的处理结果,以产生全局频繁K项集LK。图2是基于Map/Reduce化的Apriori的挖掘算法实现流程图。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.基于关联规则的海量物联网数据挖掘系统,其特征在于,所述系统包括:数据存储层模块、数据挖掘算法层模块以及挖掘任务处理层模块;其中,所述数据存储层模块负责在部分计算存储节点中存储被Map/Reduce化的数据挖掘算法,有利于实现所述数据挖掘算法层模块的高效性;所述数据挖掘算法层模块负责集成数据挖掘中的被Map/Reduce化的常用算法;所述挖掘任务处理层模块相当于任务调度层,是系统的核心层次。
2.根据权利要求1所述的基于关联规则的海量物联网数据挖掘系统,其特征在于,所述数据存储层模块采用分布式数据存储方式,满足计算与存储的整合、迁移,这也是基于云计算、关联规则Apriori的物联网海量数据挖掘系统的一大特征。
3.根据权利要求1所述的基于关联规则的海量物联网数据挖掘系统,其特征在于,所述数据挖掘算法层模块借助了云计算平台,利用Master主控节点来进行控制与管理,根据客户需求向相关节点传送算法来计算。
4.根据权利要求1所述的基于关联规则的海量物联网数据挖掘系统,其特征在于,所述挖掘任务处理层模块利用Master可调度系统中所有的挖掘器,使系统每一节点的计算和存储的文件传输效率大大提高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711491380.3A CN110019413A (zh) | 2017-12-30 | 2017-12-30 | 基于关联规则的海量物联网数据挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711491380.3A CN110019413A (zh) | 2017-12-30 | 2017-12-30 | 基于关联规则的海量物联网数据挖掘系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110019413A true CN110019413A (zh) | 2019-07-16 |
Family
ID=67187223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711491380.3A Pending CN110019413A (zh) | 2017-12-30 | 2017-12-30 | 基于关联规则的海量物联网数据挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019413A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126895A (zh) * | 2019-11-18 | 2020-05-08 | 青岛海信网络科技股份有限公司 | 一种复杂场景下调度智能分析算法的管理仓库及调度方法 |
-
2017
- 2017-12-30 CN CN201711491380.3A patent/CN110019413A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126895A (zh) * | 2019-11-18 | 2020-05-08 | 青岛海信网络科技股份有限公司 | 一种复杂场景下调度智能分析算法的管理仓库及调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Du et al. | A novel data placement strategy for data-sharing scientific workflows in heterogeneous edge-cloud computing environments | |
Shyshatskyi et al. | Complex Methods of Processing Different Data in Intellectual Systems for Decision Support System | |
Bai et al. | An efficient algorithm for distributed density-based outlier detection on big data | |
CN104834557B (zh) | 一种基于Hadoop的数据分析方法 | |
CN104809244B (zh) | 一种大数据环境下的数据挖掘方法和装置 | |
CN105005570A (zh) | 基于云计算的海量智能用电数据挖掘方法及装置 | |
CN115129795B (zh) | 一种基于地球空间网格的数据空时存储方法 | |
CN107341205A (zh) | 一种基于大数据平台的智能配用电系统 | |
CN104050042A (zh) | Etl作业的资源分配方法及装置 | |
CN109213752A (zh) | 一种基于cim的数据清洗转换方法 | |
CN104834751A (zh) | 基于物联网的数据分析方法 | |
Tardio et al. | An iterative methodology for big data management, analysis and visualization | |
CN111475837A (zh) | 一种网络大数据隐私保护方法 | |
Orlando et al. | Scheduling high performance data mining tasks on a data grid environment | |
Pitoski et al. | Network analysis of internal migration in Austria | |
CN102158533A (zh) | 基于QoS的分布式web服务选择方法 | |
CN119576862B (zh) | 一种基于大数据的测绘成果管理方法及系统 | |
CN109150964A (zh) | 一种可迁移的数据管理方法及服务迁移方法 | |
CN109460299B (zh) | 一种分布式并行多源社交网络数据采集系统和方法 | |
Lwin et al. | Non-redundant dynamic fragment allocation with horizontal partition in Distributed Database System | |
CN109684331A (zh) | 一种基于Kudu的对象存储元数据管理装置及方法 | |
CN110019413A (zh) | 基于关联规则的海量物联网数据挖掘系统 | |
Singh et al. | A comparative analysis of distributed clustering algorithms: A survey | |
CN116680090B (zh) | 一种基于大数据的边缘计算网络管理方法及平台 | |
CN117634768A (zh) | 基于改进ssa算法的多目标柔性车间调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190716 |
|
WD01 | Invention patent application deemed withdrawn after publication |