CN108062555A - 基于Spark流式聚类的监测数据预警系统 - Google Patents

基于Spark流式聚类的监测数据预警系统 Download PDF

Info

Publication number
CN108062555A
CN108062555A CN201610979723.XA CN201610979723A CN108062555A CN 108062555 A CN108062555 A CN 108062555A CN 201610979723 A CN201610979723 A CN 201610979723A CN 108062555 A CN108062555 A CN 108062555A
Authority
CN
China
Prior art keywords
data
cluster
module
spark
sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610979723.XA
Other languages
English (en)
Inventor
张锐
杨余旺
李玉波
夏吉安
汪文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201610979723.XA priority Critical patent/CN108062555A/zh
Publication of CN108062555A publication Critical patent/CN108062555A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种基于Spark流式聚类的监测数据预警系统,通过传感器族群实时采集环境监测数据,通过GPRS将采集的数据传输到云平台;使用Spark Stream将海量数据集实时写入HBase数据库,通过Spark机器学习库MLlib实现流式K‑Means聚类方法,将监测数据无监督的分为三类:正常环境数据,强特征环境数据,弱特征环境数据,通过流式K‑Means聚类方法对采集的数据进行聚类分析,判断预测的结果是否符合聚类结果;当聚类分析发现异常数据时启动客户端电脑蜂鸣器以及向手机客户端发送报警短信。采用本发明方法能够对海量气象数据进行有效存储与可靠传输,同时极大地提高了气象数据分析与处理的合理性和准确性。

Description

基于Spark流式聚类的监测数据预警系统
技术领域
本发明属于物联网与大数据领域,尤其是涉及一种Spark流式聚类的监测数据预警系统。
背景技术
目前的监测预警系统主要利用GPRS数据服务、WEB-GIS进行数据采集,局域网数据传输技术,监测数据使用中小型关系型数据库进行数据存储,不仅缺乏对于海量监测数据的有效存储与可靠传输,同时缺乏对于数据的分析与决策能力,不能实时实现对监测数据的有效分析与分类判断。
发明内容
本发明的目的是提供一种基于Spark流式聚类的监测数据预警系统。从而实现对环境监测数据的实时监控,模型聚类以及异常数据预警机制。
实现本发明目的的技术解决方案为:一种基于Spark流式聚类的监测数据预警系统,系统功能架构上包含:传感器采集模块、数据传输模块、云平台与数据存储模块、流式聚类模块、上位机管理模块和预警模块。
传感器采集模块由现场传感器族群实现。族群上的传感器对多个环境要素进行监测,实时采集数据。现场传感器族群使用MSP430作为核心控制器,搭载上述2涉及的传感器设备。每个族群由传感器设备,MSP430核心控制器和GPRS中继模块组成。MSP430将传感器采集的监测数据传递到数据传输模块,数据传输模块向远程的云平台与数据存储模块进行发送。将海量的传感器数据存入云平台,留给流式聚类模块实现模型的聚类。
云平台与数据存储模块使用HBase对海量实时数据进行存储。HBase的LSM树型存储结构使其具有实时读写数据的功能。Spark Streaming向HBase写入数据时对每一条数据执行插入操作,采用输出方法foreachRDD(func),将func(此处指将数据插入HBase表格)作用于数据流的每一个RDD(Resilient Distributed Datasets弹性分布式数据集)。在进行数据写入时对数据流执行foreachRDD与foreachPartition操作,为每个分区创建一个cTable对象,提高数据读写效率。使用流式聚类模块中的Spark MLlib库对传感器数据进行聚类模型计算,流式K均值聚类算法包含训练以及预测两个部分,核心思想是先根据已经积累的传感器历史数据训练出模型,然后根据历史数据推导的模型对新到的实时监测数据进行预测。通过使用MLlib算法组件,在Spark平台中实现K-Means聚类流程如下:(1)将N个观察实例分类到K个聚类中,以使得每个观察样本距离它所在的聚类的中心点比其他的聚类中心点的距离更小。(2)在算法实现上采用逐次迭代修正的方式。先选定中心个数K作为初始分类,通过不断改变样本在K类中的划分和K个质心点的位置,使得聚类样本与质心点离差平方和最小。
本发明与现有技术相比,其显著优点为:采用本发明方法能够对海量气象数据进行有效存储与可靠传输,同时极大地提高了气象数据分析与处理的合理性和准确性。
附图说明
图1是本发明结构图。
图2是本发明所述的系统原理流程图。
图3是本发明所述的Spark Streaming写入Hbase工作流程图。
图4是K-Means聚类算法流程图。
具体实施方式
结合图1-图4,对本发明作进一步说明。
环境要素数据来源于传感器所进行的空气与土壤的观测,传感器对多个环境要素进行监测与数据采集。包括空气温湿度传感器、雨量传感器、能见度传感器、土壤温湿度传感器、光照传感器。设计实时现场传感器族群,采集实时环境数据。
数据传输模块通过RS-232接口与控制单元MSP430实现交互,采用GPRS模块与网站数据库更新上位机进行通信。完成建立与上位机的网络连接,单向传送传感器族群的数据流。
对海量实时数据进行处理与存储,必然会产生大量的数据。采用HBase的LSM树型存储结构存储传感器族群采集到的海量传感数据,使其具有实时读写数据的功能。
使用基于Spark框架的流式K-Means聚类方法,通过机器学习方式,将采集的数据进行聚类分析,通过分类与聚类,识别异常环境数据。
传感器族群不间断采集的环境数据,传输至云计算中心,通过MLlib对HBase中存储传感器数据进行K-Means聚类,当预测的结果与聚类结果不相符时,启动客户端电脑的蜂鸣器,同时向客户端发送预警短信。
使用HBase作为Spark Streaming中间数据的存储数据库可大为提高数据存取的效率。Spark Streaming向HBase写入数据时需要对每一条数据执行插入操作,采用输出方法foreachRDD(func),将func(此处指将数据插入HBase表格)作用于数据流的每一个RDD(Resilient Distributed Datasets弹性分布式数据集),可以显著地提高数据存取效率。
MLlib是建立在Spark上的分布式机器学习库,MLlib支持分类、聚类、降维等主要机器学习算法。机器学习算法包含训练以及预测两个部分,首先根据已有的数据训练出模型,然后根据模型对待检测样本进行预测。K-Means聚类是使用最为广泛的聚类算法之一,通过使用MLlib算法组件,在Spark平台中实现K-Means聚类。它将N个观察实例分类到K个聚类中,以使得每个观察样本距离它所在的聚类的中心点比其他的聚类中心点的距离更小。在算法实现上采用逐次迭代修正的方式。先选定中心个数K作为初始分类,通过不断改变样本在K类中的划分和K个质心点的位置,使得聚类样本与质心点离差平方和最小。
1)选择样本之间的相似度距离的计算公式
K-Means算法首先通过计算样本间相似度距离决定样本所属的簇,距离值越小表示样本与质心点越相似,在算法中使用欧几里得距离作为相似度距离。
2)更新簇内质心点的方法。
K-Means算法根据第前一次的聚类结果决定下一次聚类的质心点,通过不断的迭代直至聚类结果不再变化。更新质心点有很多方法,本发明中采用平局值法(means法)。通过计算前一次聚类簇中所有样本坐标的平均值,确定下一次聚类质心点的坐标。
当数据到达流中时,需要动态地估计集群,更新它们作为新的数据到达。通过Spark.mllib实现流K-Means聚类,用参数来控制衰减。使用一个概括的小型批量K-Menas更新规则。对于每一批数据,分配所有点到他们最近的集群,计算新的集群中心,然后更新每个集群。
通过对HBase中存储传感器数据进行K-Means聚类,将数据无监督的分为三类:将其分别标记:正常环境数据,强特征环境数据,弱特征环境数据。将传感器数据预测为其中的某一类,添加标签。同时将新数据在内的所有数据重新K均值聚类,判断预测的结果是否符合聚类结果,修正聚类的参数(迭代次数,类别数,调用算法次数等)。
流式K均值聚类算法采用如下算法实现:
(1)选择样本之间的相似度距离的计算公式
K-Means算法首先通过计算样本间相似度距离决定样本所属的簇,距离值越小表示样本与质心点越相似,在算法中使用欧几里得距离作为相似度距离。
2)更新簇内质心点的方法。
K-Means算法根据第前一次的聚类结果决定下一次聚类的质心点,通过不断的迭代直至聚类结果不再变化。更新质心点有很多方法,本专利中采用平局值法(MEANS法)。通过计算前一次聚类簇中所有样本坐标的平均值,确定下一次聚类质心点的坐标。
当数据到达流中时,需要动态地估计集群,更新它们作为新的数据到达。通过Spark.mllib实现流K均值聚类,用参数来控制衰减。使用一个概括的小型批量K均值更新规则。对于每一批数据,分配所有点到他们最近的集群,计算新的集群中心,然后更新每个集群使用:
nt+1=nt+mt
ct是前一次聚类的质心点,nt是聚类训练样本的数量,xt是当前聚类的质心点,mt是被添加到聚类训练中的样本。α是衰减因子,当α=1,所有数据参与聚类训练;当α=0只有最新的数据参与训练。
通过对HBase中存储传感器数据进行K均值聚类,将数据无监督的分为三类:将其分别标记:正常环境数据,强特征环境数据,弱特征环境数据。将传感器数据预测为其中的某一类,添加标签。同时将新数据在内的所有数据重新K均值聚类,判断预测的结果是否符合聚类结果,修正聚类的参数(迭代次数,类别数,调用算法次数等)。
传感器族群不间断采集的传感数据,传输至大数据中心,基于MLlib库对HBase中存储积累的传感器数据进行流式K均值聚类,使用聚类结果预测新数据是否为异常(普通强/弱特征数据)。将新数据作为聚类元素再次聚类,跟踪该传感器记录,当该记录聚类后与之前预测的结果不相符时,启动客户端电脑的蜂鸣器,同时向客户端发送预警短信。

Claims (6)

1.一种基于Spark流式聚类的监测数据预警系统,其特征在于:包含传感器采集模块、数据传输模块、云平台与数据存储模块、流式聚类模块、上位机管理模块和预警模块;
其中:传感器采集模块包含多种环境传感器,通过连接搭载MSP430处理器的单片机组成传感器族群,MSP430处理器控制传感器族群的数据采集;
数据传输模块通过连接GPRS基站,和云平台与数据存储模块建立网络连接,实时地将传感器采集模块采集的数据传输到云平台与数据存储模块;
云平台与数据存储模块接收数据传输模块传输的数据,将数据存储到HBase数据库中,为流式聚类模块提供采集的传感数据;
流式聚类模块使用基于Hadoop平台的Spark MLlib库对传感器数据进行聚类模型计算,通过流式K均值聚类算法对采集并存储到HBase数据库中的数据进行聚类分析,聚类并且识别异常的环境数据;
上位机管理模块连接云平台与数据存储模块和预警模块,当流式聚类模块识别异常环境数据,上位机模块启动预警模块中的蜂鸣器进行预警,并且发送预警短信;
预警模块与上位机管理平台相连,接收上位机管理平台的信号来实时启动蜂鸣器进行预警,同时向客户端发送预警短信。
2.根据权利要求1所述的基于Spark流式聚类的监测数据预警系统,其特征在于:所述传感器采集模块包括空气温湿度传感器、雨量传感器、能见度传感器、土壤温湿度传感器和光照传感器,对空气与土壤进行实时监测与数据采集,得到多个环境要素数据。
3.根据权利要求1所述的基于Spark流式聚类的监测数据预警系统,其特征在于:所述数据传输模块通过RS-232接口与单片机MSP430实现交互,数据传输模块和云平台与数据存储模块进行通信,单向传送传感器族群的数据流。
4.根据权利要求1所述的基于Spark流式聚类的监测数据预警系统,其特征在于:所述云平台与数据存储模块使用HBase对海量实时数据进行存储;采用HBase数据库的LSM树型存储结构存储传感器族群采集到的海量传感数据,使用HBase作为Spark Streaming中间数据的存储数据库;Spark Streaming向HBase写入数据时对每一条数据执行插入操作,采用输出方法foreachRDD(func),将func(此处指将数据插入HBase表格)作用于数据流的每一个RDD(Resilient Distributed Datasets弹性分布式数据集)。
5.根据权利要求1所述的基于Spark流式聚类的监测数据预警系统,其特征在于:所述流式聚类模块使用基于Spark框架的流式K-Means聚类方法,通过机器学习方式,将采集的数据进行聚类分析,通过分类与聚类,识别异常环境数据;流式聚类模块包含训练以及预测两个部分,首先根据已有的数据训练出模型,然后根据模型对待检测样本进行预测;通过使用MLlib算法组件,在Spark平台中实现K-Means聚类;将N个观察实例分类到K个聚类中,以使得每个观察样本距离它所在的聚类的中心点比其他的聚类中心点的距离更小;在算法实现上采用逐次迭代修正的方式;先选定中心个数K作为初始分类,通过不断改变样本在K类中的划分和K个质心点的位置,使得聚类样本与质心点离差平方和最小;
通过对HBase中存储传感器数据进行K-Means聚类,将数据无监督的分为三类,将其分别标记为:正常环境数据,强特征环境数据,弱特征环境数据;将传感器数据预测为其中的某一类,添加标签;同时将新数据在内的所有数据重新K均值聚类,判断预测的结果是否符合聚类结果,修正聚类的参数即迭代次数、类别数、调用算法次数。
6.根据权利要求1所述的基于Spark流式聚类的监测数据预警系统,其特征在于:所述传感器采集模块不间断采集环境数据,传输至云平台与数据存储模块,流式聚类模块通过MLlib对HBase中存储传感器数据进行K-Means聚类,当预测的结果与聚类结果不相符时,启动客户端电脑的蜂鸣器,同时向客户端发送预警短信。
CN201610979723.XA 2016-11-08 2016-11-08 基于Spark流式聚类的监测数据预警系统 Pending CN108062555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610979723.XA CN108062555A (zh) 2016-11-08 2016-11-08 基于Spark流式聚类的监测数据预警系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610979723.XA CN108062555A (zh) 2016-11-08 2016-11-08 基于Spark流式聚类的监测数据预警系统

Publications (1)

Publication Number Publication Date
CN108062555A true CN108062555A (zh) 2018-05-22

Family

ID=62137736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610979723.XA Pending CN108062555A (zh) 2016-11-08 2016-11-08 基于Spark流式聚类的监测数据预警系统

Country Status (1)

Country Link
CN (1) CN108062555A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764575A (zh) * 2018-05-30 2018-11-06 深圳市益鑫智能科技有限公司 一种智能交通系统
CN108848138A (zh) * 2018-05-30 2018-11-20 深圳大图科创技术开发有限公司 一种监测效果良好的环境监测系统
CN109542914A (zh) * 2018-12-29 2019-03-29 北京工业大学 空气质量监测系统的大数据分析与处理平台
CN110069551A (zh) * 2019-04-25 2019-07-30 江南大学 基于Spark的医疗设备运维信息挖掘分析系统及其使用方法
CN110119421A (zh) * 2019-04-03 2019-08-13 昆明理工大学 一种基于Spark流式分类的电力窃电用户识别方法
CN110362713A (zh) * 2019-07-12 2019-10-22 四川长虹电子系统有限公司 基于Spark Streaming的视频监控预警方法及系统
CN110490229A (zh) * 2019-07-16 2019-11-22 昆明理工大学 一种基于spark和聚类算法的电能表检定误差诊断方法
CN111026043A (zh) * 2019-06-14 2020-04-17 天津赛瑞多肽科技有限公司 多任务的共享式远程多肽合成控制系统、方法及应用
CN111273607A (zh) * 2018-12-04 2020-06-12 沈阳高精数控智能技术股份有限公司 基于Spark的数控机床运行状态监测方法
CN112070225A (zh) * 2020-09-01 2020-12-11 多点(深圳)数字科技有限公司 一种基于无监督学习的实体卡异常绑卡报警的方法
CN112702408A (zh) * 2020-12-20 2021-04-23 国网山东省电力公司临沂供电公司 基于多感知功能的物联网系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401699A (zh) * 2013-07-18 2013-11-20 深圳先进技术研究院 一种云数据中心安全监控预警系统及方法
CN103744962A (zh) * 2014-01-06 2014-04-23 浪潮(北京)电子信息产业有限公司 一种实现K-means聚类的方法及装置
CN103903101A (zh) * 2014-04-14 2014-07-02 上海航天电子通讯设备研究所 一种通用航空多源信息监管平台及其方法
CN104123682A (zh) * 2014-07-28 2014-10-29 国家电网公司 一种基于气象影响因素的配网故障风险评估方法
CN104751354A (zh) * 2015-04-13 2015-07-01 合一信息技术(北京)有限公司 一种广告人群筛选方法
CN105260625A (zh) * 2015-11-19 2016-01-20 阿坝师范学院 一种滑坡地质灾害预警推送方法
CN105784937A (zh) * 2016-03-11 2016-07-20 郑州航空工业管理学院 气体苯系物探测的数据可视化方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401699A (zh) * 2013-07-18 2013-11-20 深圳先进技术研究院 一种云数据中心安全监控预警系统及方法
CN103744962A (zh) * 2014-01-06 2014-04-23 浪潮(北京)电子信息产业有限公司 一种实现K-means聚类的方法及装置
CN103903101A (zh) * 2014-04-14 2014-07-02 上海航天电子通讯设备研究所 一种通用航空多源信息监管平台及其方法
CN104123682A (zh) * 2014-07-28 2014-10-29 国家电网公司 一种基于气象影响因素的配网故障风险评估方法
CN104751354A (zh) * 2015-04-13 2015-07-01 合一信息技术(北京)有限公司 一种广告人群筛选方法
CN105260625A (zh) * 2015-11-19 2016-01-20 阿坝师范学院 一种滑坡地质灾害预警推送方法
CN105784937A (zh) * 2016-03-11 2016-07-20 郑州航空工业管理学院 气体苯系物探测的数据可视化方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848138A (zh) * 2018-05-30 2018-11-20 深圳大图科创技术开发有限公司 一种监测效果良好的环境监测系统
CN108764575A (zh) * 2018-05-30 2018-11-06 深圳市益鑫智能科技有限公司 一种智能交通系统
CN111273607A (zh) * 2018-12-04 2020-06-12 沈阳高精数控智能技术股份有限公司 基于Spark的数控机床运行状态监测方法
CN109542914A (zh) * 2018-12-29 2019-03-29 北京工业大学 空气质量监测系统的大数据分析与处理平台
CN110119421A (zh) * 2019-04-03 2019-08-13 昆明理工大学 一种基于Spark流式分类的电力窃电用户识别方法
CN110069551A (zh) * 2019-04-25 2019-07-30 江南大学 基于Spark的医疗设备运维信息挖掘分析系统及其使用方法
CN111026043A (zh) * 2019-06-14 2020-04-17 天津赛瑞多肽科技有限公司 多任务的共享式远程多肽合成控制系统、方法及应用
CN110362713B (zh) * 2019-07-12 2023-06-06 四川长虹云数信息技术有限公司 基于Spark Streaming的视频监控预警方法及系统
CN110362713A (zh) * 2019-07-12 2019-10-22 四川长虹电子系统有限公司 基于Spark Streaming的视频监控预警方法及系统
CN110490229A (zh) * 2019-07-16 2019-11-22 昆明理工大学 一种基于spark和聚类算法的电能表检定误差诊断方法
CN112070225A (zh) * 2020-09-01 2020-12-11 多点(深圳)数字科技有限公司 一种基于无监督学习的实体卡异常绑卡报警的方法
CN112070225B (zh) * 2020-09-01 2023-10-10 多点(深圳)数字科技有限公司 一种基于无监督学习的实体卡异常绑卡报警的方法
CN112702408A (zh) * 2020-12-20 2021-04-23 国网山东省电力公司临沂供电公司 基于多感知功能的物联网系统及方法

Similar Documents

Publication Publication Date Title
CN108062555A (zh) 基于Spark流式聚类的监测数据预警系统
CN108171117B (zh) 基于多核异构并行计算的电力人工智能视觉分析系统
CN103020288B (zh) 一种动态数据环境下的数据流分类方法
CN107968840A (zh) 一种大规模电力设备监测报警数据实时处理方法及系统
CN102956023B (zh) 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法
CN108322891A (zh) 基于用户手机信令数据的区域拥堵识别方法
CN104717468B (zh) 基于集群轨迹分类的集群场景智能监控方法及系统
CN110058977A (zh) 基于流式处理的监控指标异常检测方法、装置及设备
WO2019205020A1 (zh) 一种路况识别方法、装置及设备
CN110909106B (zh) 一种轨迹预测方法和系统
CN109471847B (zh) 一种i/o拥塞控制方法及控制系统
CN110119421A (zh) 一种基于Spark流式分类的电力窃电用户识别方法
CN112381406A (zh) 一种基于船岸协同的船舶能效管理大数据系统及方法
CN107846472A (zh) 大规模输变电设备监测数据流的快速异常检测方法
CN112395289B (zh) 一种分布式光伏数据分层存储方法和系统
CN108551491A (zh) 基于人工智能的异构网络空间多层次移动物联网云系统
CN108921330A (zh) 一种森林管理系统
CN108021895A (zh) 人数统计方法、设备、可读存储介质及电子设备
CN110347888A (zh) 订单数据的处理方法、装置及存储介质
CN108519465B (zh) 一种基于大数据的空气污染智能监测系统
CN108663084A (zh) 基于大数据处理的桥梁结构安全智能监测系统
CN102819559A (zh) 一种rfid冗余数据过滤方法
CN109272760B (zh) 一种scats系统检测器数据异常值的在线检测方法
CN109067872A (zh) 用于精细农业的土壤质量监测系统
CN116993059A (zh) 一种基于大数据的物联网智能农业植保系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180522

RJ01 Rejection of invention patent application after publication