CN109376132A - 基于Spark技术的计量设备典型运行曲线评估方法及系统 - Google Patents
基于Spark技术的计量设备典型运行曲线评估方法及系统 Download PDFInfo
- Publication number
- CN109376132A CN109376132A CN201810866008.4A CN201810866008A CN109376132A CN 109376132 A CN109376132 A CN 109376132A CN 201810866008 A CN201810866008 A CN 201810866008A CN 109376132 A CN109376132 A CN 109376132A
- Authority
- CN
- China
- Prior art keywords
- measuring equipment
- data
- curve
- cluster
- spark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Spark技术的计量设备典型运行曲线评估方法及系统。目前的评估方法采用简单的可靠性分析手段,不具备计量设备运行数据隐藏价值的挖掘能力。本发明包括:基于HDFS的分布式运行数据存储;基于Spark并行计算框架的MLlib机器学习算法应用:基于海量的运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;基于可视化技术实现计量运行数据典型曲线聚类可视化。本发明通过对计量设备运行数据进行深度挖掘其隐藏价值,实现计量海量数据大应用;利用聚类分析方法,对计量设备运行结果进行典型曲线聚类分析,能够得到不同环境条件下计量设备整体的典型曲线运行趋势,为计量设备的研究提供重要的参考作用。
Description
技术领域
本发明属于计量设备领域,具体地说是一种基于Spark技术的计量设备典型运行曲线评估方法及系统。
背景技术
计量设备的运行数据规模不断增大,考虑到计量设备运行数据的规模巨大,符合大数据Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)的特点,如何对实时运行的数据进行高效存储、稳定分析及深度挖掘已成为重要研究方向;同时,计量设备运行过程中的环境及误差特性已成为研究计量设备的可靠性的评估标准,通过开展典型环境及误差下的计量设备典型曲线分析,对计量设备的研究有着重要的指导意义。
当前对计量设备的可靠性及稳定性的评估主要通过对历史数据进行稳定性分析及相关性分析等等。稳定性分析主要从时间维度通过建立可视化的日、周、月等周期的标准方差计算图,实现对计量设备稳定性的评估。相关性分析主要通过对计量运行数据与环境、误差数据的实时曲线图比较,人为直观的得出其正负相关的关联性。以上评估分析方法均需对可视化分析图,进行头脑二次加工分析,缺乏计算机智能辨识及相关分析应用方法。同时,上述方法为简单的可靠性分析手段,不具备计量设备运行数据隐藏价值的挖掘能力。
发明内容
本发明所要解决的技术问题是克服上述现有技术存在的缺陷,提供一种基于Spark技术的计量设备典型曲线评估方法,其充分考虑当前计量运行数据的利用情况,深度挖掘运行数据中的隐藏价值,进而提炼出计量设备在典型环境下的典型曲线。
为此,本发明采用的技术方案如下:基于Spark技术的计量设备典型运行曲线评估方法,其包括步骤:
1)基于HDFS的分布式运行数据存储:通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储,包含2个数据存储节点及1个管理节点;
2)基于Spark并行计算框架的MLlib机器学习算法应用:基于海量的计量设备运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;
3)基于可视化技术实现计量运行数据典型曲线聚类可视化。
作为上述技术方案的补充,步骤1)中,选择应用点的计量设备,基于MOBUS协议读取运行环境、比差和电能数据进行关系型数据库写入操作,通过Sqoop进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。
HDFS为分布式文件存储系统,其在存储海量数据方面通过分布式管理节点、数据节点的存储,在保障数据一致性的同时,提供高可用性集群部署方案,能极大提升存储效率及数据运算的性能。
作为上述技术方案的补充,所述的步骤2)具体包括:
21)构建海量计量设备运行数据的HDFS分布式存储数据库,为典型曲线的聚类计算提供数据;
22)实例化RDD对象并建立基于聚类算法的计量曲线提取模式;
23)构建spark聚类任务运算机制。
作为上述技术方案的补充,所述步骤22)中,基于Spark并行计算框架实例化聚类分析所需的计量设备运行数据成为RDD对象,RDD为弹性分布式数据集,是分布式内存的对象,将数据保存在内存中且能极大地提高运算中间结果读写性能;MLlib提供聚类的算法,将计量设备运行数据以环境区间范围为单位,将每个类别的时间点数据进行24点聚类分析,进而计算其日典型运行曲线。
作为上述技术方案的补充,所述步骤23)中,所述的运算机制包括MLlib聚类算法和RDD对象任务分解计算与汇总输出。
作为上述技术方案的补充,所述步骤3)的具体内容如下:计量设备典型运行曲线图以X轴为时间坐标,Y轴为相对数坐标;相对数即最高值作为1,相应的其它时间点的运行数据值与最高值的比值,得到Y轴的数值。
本发明还提供一种基于Spark技术的计量设备典型运行曲线评估系统,其包括数据存储模块、Spark聚类计算模块和可视化模块;
数据存储模块:通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储,包含2个数据存储节点及1个管理节点;
Spark聚类计算模块:基于海量的计量设备运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;
可视化模块:基于可视化技术实现计量运行数据典型曲线聚类可视化。
本发明具有的有益效果如下:本发明通过对计量设备运行数据进行深度挖掘其隐藏价值,实现计量海量数据大应用;利用聚类分析方法,对计量设备运行结果进行典型曲线聚类分析,能够得到不同环境条件下计量设备整体的典型曲线运行趋势,为计量设备的研究提供重要的参考作用。
附图说明
图1是本发明实施例1的流程示意图;
图2是本发明实施例1中计量设备运行数据存储的流程图;
图3是本发明实施例1中Spark聚类计算的流程图。
具体实施方式
下面结合说明书附图和具体实施方式对本发明做进一步详细的说明。
实施例1
本实施例提供一种基于Spark技术的计量设备典型运行曲线评估方法,如图1所示,其包括步骤:
步骤一、基于HDFS的分布式运行数据存储:通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储,包含2个数据存储节点及1个管理节点。
选择应用点的计量设备,基于MOBUS协议读取运行环境、比差和电能数据进行关系型数据库写入操作,通过Sqoop进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储,如图2所示。
步骤二、基于Spark并行计算框架的MLlib机器学习算法应用:基于海量的计量设备运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线,如图3所示。
所述的步骤二具体包括:
1.构建海量计量设备运行数据的HDFS分布式存储数据库,为典型曲线的聚类计算提供数据。
2.实例化RDD对象并建立基于聚类算法的计量曲线提取模式;
基于Spark并行计算框架实例化聚类分析所需的计量设备运行数据成为RDD对象,RDD为弹性分布式数据集,是分布式内存的对象,将数据保存在内存中且能极大地提高运算中间结果读写性能;MLlib提供聚类的算法,将计量设备运行数据以环境区间范围为单位,将每个类别的时间点数据进行24点聚类分析,进而计算其日典型运行曲线。
3.构建spark聚类任务运算机制。
所述的运算机制包括MLlib聚类算法和RDD对象任务分解计算与汇总输出。
1)MLlib聚类算法
MLlib中的K-means是一种很常用的传统聚类方法,它需要事先给出类(也称为簇,cluster)的数目k,这里将运行数据进行24小时点的分类。随后按如下过程实施聚类:首先从所有的数据对象中任意选择24个对象作为初始的类(cluster)中心,对剩下的对象,根据它们与这些类中心的距离,分别将它们分配给与其最近的类;然后重新计算每个新类的平均值作为新的类中心;重复这个过程直到准则函数收敛,通常采用所有数据的均方差之和作为准则函数。
具体算法步骤和处理过程如下:
输入:聚类个数24,包含n个数据对象的数据集,这里的n值获得的计量设备运行对象集合。
输出:24个聚类。
(1)从n个数据对象中任意选取k个对象作为初始的聚类中心;
从样本点的集合S={X1,...,Xn}中随机选取k个作为初始的类中心(质心),从而构成初始的质心集合Z={Z1,Z2,...,Zk}。其中,每一样本可由若干特征指标来描述,即Xi=[xi1 xi2…xiJ],其中J为特征指标数,xi,j为第i个样本的第j个特征指标取值。同样,每一簇i的中心Zi=[zi1 zi2…ziJ]是质心的J个特征指标取值构成的向量。
(2)分别计算每个对象到各个聚类中心的距离,把对象分配到距离最近的聚类中;
对集合S={X1,...,Xn}中的每一样本i,计算它到各类中心Zi(j=1,…,k)的距离,以距离最小的类作为样本i所属的类。若记样本i所属的类为s,则s满足其计算公式为:
其中:J为属性数;xij为样本i的第j个属性取值;余类推。由此将所有样本分类k个类,记其中第i类中所含样本集为Ci。
(3)所有对象分配完成以后,重新计算k个聚类的中心。
(4)与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,则转到第(2)个步骤,否则转到第(5)个步骤。
(5)输出聚类结果。
2)RDD对象任务分解计算与汇总输出
将步骤二封装的RDD对象计算任务分解成若干个可供工作节点计算的stage。在申请到了作业执行所需的资源之后,Driver进程就会开始调度和执行聚类操作。Driver进程会将曲线数据聚类进程作业分拆为多个stage,每个stage执行一部分聚类工作,并为每个stage创建一批task,然后将这些task分配到各个Executor进程中执行。task是最小的计算单元,负责执行一模一样的计算逻辑,只是每个task处理的数据不同而已。一个stage的所有task都执行完毕之后,会在各个节点本地的磁盘文件中写入计算中间结果,然后Driver就会调度运行下一个stage。下一个stage的task的输入数据就是上一个stage输出的中间结果。如此循环往复,直到计算完所有的数据,得到聚类完成的典型曲线数据。
步骤三、基于可视化技术实现计量运行数据典型曲线聚类可视化。
计量设备典型运行曲线图以X轴为时间坐标,Y轴为相对数坐标(即以所聚类周期该类最大值为基准表示的标幺值曲线);相对数即最高值作为1,相应的其它时间点的运行数据值与最高值的比值,得到Y轴的数值。
实施例2
本实施例提供一种基于Spark技术的计量设备典型运行曲线评估系统,其包括数据存储模块、Spark聚类计算模块和可视化模块。
数据存储模块:通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储,包含2个数据存储节点及1个管理节点;
Spark聚类计算模块:基于海量的计量设备运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;
可视化模块:基于可视化技术实现计量运行数据典型曲线聚类可视化。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.基于Spark技术的计量设备典型运行曲线评估方法,其特征在于,包括步骤:
1)基于HDFS的分布式运行数据存储:通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储,包含2个数据存储节点及1个管理节点;
2)基于Spark并行计算框架的MLlib机器学习算法应用:基于海量的计量设备运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;
3)基于可视化技术实现计量运行数据典型曲线聚类可视化。
2.根据权利要求1所述的计量设备典型运行曲线评估方法,其特征在于,步骤1)中,选择应用点的计量设备,基于MOBUS协议读取运行环境、比差和电能数据进行关系型数据库写入操作,通过Sqoop进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。
3.根据权利要求1所述的计量设备典型运行曲线评估方法,其特征在于,所述的步骤2)具体包括:
21)构建海量计量设备运行数据的HDFS分布式存储数据库,为典型曲线的聚类计算提供数据;
22)实例化RDD对象并建立基于聚类算法的计量曲线提取模式;
23)构建spark聚类任务运算机制。
4.根据权利要求3所述的计量设备典型运行曲线评估方法,其特征在于,所述步骤22)中,
基于Spark并行计算框架实例化聚类分析所需的计量设备运行数据成为RDD对象,RDD为弹性分布式数据集,是分布式内存的对象,将数据保存在内存中且能极大地提高运算中间结果读写性能;MLlib提供聚类的算法,将计量设备运行数据以环境区间范围为单位,将每个类别的时间点数据进行24点聚类分析,进而计算其日典型运行曲线。
5.根据权利要求3所述的计量设备典型运行曲线评估方法,其特征在于,所述步骤23)中,所述的运算机制包括MLlib聚类算法和RDD对象任务分解计算与汇总输出。
6.根据权利要求1所述的计量设备典型运行曲线评估方法,其特征在于,所述步骤3)的具体内容如下:计量设备典型运行曲线图以X轴为时间坐标,Y轴为相对数坐标;相对数即最高值作为1,相应的其它时间点的运行数据值与最高值的比值,得到Y轴的数值。
7.基于Spark技术的计量设备典型运行曲线评估系统,其特征在于,包括数据存储模块、Spark聚类计算模块和可视化模块;
数据存储模块:通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储,包含2个数据存储节点及1个管理节点;
Spark聚类计算模块:基于海量的计量设备运行数据,采用Spark离线计算的方式进行聚类挖掘分析,生成计量设备典型环境下运行的典型聚类曲线;
可视化模块:基于可视化技术实现计量运行数据典型曲线聚类可视化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810866008.4A CN109376132A (zh) | 2018-08-01 | 2018-08-01 | 基于Spark技术的计量设备典型运行曲线评估方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810866008.4A CN109376132A (zh) | 2018-08-01 | 2018-08-01 | 基于Spark技术的计量设备典型运行曲线评估方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109376132A true CN109376132A (zh) | 2019-02-22 |
Family
ID=65403777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810866008.4A Pending CN109376132A (zh) | 2018-08-01 | 2018-08-01 | 基于Spark技术的计量设备典型运行曲线评估方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109376132A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447082A (zh) * | 2015-11-04 | 2016-03-30 | 广东电网有限责任公司电力科学研究院 | 一种海量负荷曲线的分布式聚类方法 |
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
CN107657266A (zh) * | 2017-08-03 | 2018-02-02 | 华北电力大学(保定) | 一种基于改进谱多流形聚类的负荷曲线聚类方法 |
CN107832876A (zh) * | 2017-10-27 | 2018-03-23 | 国网江苏省电力公司南通供电公司 | 基于MapReduce框架的分区最大负荷预测方法 |
-
2018
- 2018-08-01 CN CN201810866008.4A patent/CN109376132A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447082A (zh) * | 2015-11-04 | 2016-03-30 | 广东电网有限责任公司电力科学研究院 | 一种海量负荷曲线的分布式聚类方法 |
CN105512768A (zh) * | 2015-12-14 | 2016-04-20 | 上海交通大学 | 大数据环境下用户用电关联因素辨识及用电量预测方法 |
CN107657266A (zh) * | 2017-08-03 | 2018-02-02 | 华北电力大学(保定) | 一种基于改进谱多流形聚类的负荷曲线聚类方法 |
CN107832876A (zh) * | 2017-10-27 | 2018-03-23 | 国网江苏省电力公司南通供电公司 | 基于MapReduce框架的分区最大负荷预测方法 |
Non-Patent Citations (4)
Title |
---|
刘荣辉: "《大数据架构技术与实例分析》", 31 January 2018 * |
卓金武: "《MATLAB在数学建模中的应用 第2版》", 30 September 2014 * |
张斌: ""结合降维技术的电力负荷曲线集成聚类算法"", 《中国电机工程学报》 * |
张美娟: ""基于Hadoop+Spark的电能计量与分析自动化系统研究与实现"", 《中国优秀硕士学位论文全文数据库电子期刊 信息科技辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10484479B2 (en) | Integration of quantum processing devices with distributed computers | |
CN104951425B (zh) | 一种基于深度学习的云服务性能自适应动作类型选择方法 | |
Chen et al. | How does the workload look like in production cloud? analysis and clustering of workloads on alibaba cluster trace | |
CN104112026B (zh) | 一种短信文本分类方法及系统 | |
Chen et al. | Distributed modeling in a MapReduce framework for data-driven traffic flow forecasting | |
CN104809244B (zh) | 一种大数据环境下的数据挖掘方法和装置 | |
CN104156463A (zh) | 一种基于MapReduce的大数据聚类集成方法 | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
Liao et al. | Long-term generation scheduling of hydropower system using multi-core parallelization of particle swarm optimization | |
Yang et al. | MapReduce based method for big data semantic clustering | |
Wang et al. | A rhombic dodecahedron topology for human-centric banking big data | |
Pujowidianto et al. | Optimal computing budget allocation for constrained optimization | |
Shu et al. | Resource demand prediction of cloud workloads using an attention-based GRU model | |
Zhang et al. | A parallel task scheduling algorithm based on fuzzy clustering in cloud computing environment | |
CN103207804A (zh) | 基于集群作业日志的MapReduce负载模拟方法 | |
Yang et al. | GPU acceleration of subgraph isomorphism search in large scale graph | |
Hou et al. | r-HUMO: A risk-aware human-machine cooperation framework for entity resolution with quality guarantees | |
Wei et al. | Parallel clustering for visualizing large scientific line data | |
Lakshmi et al. | Machine learning approaches on map reduce for Big Data analytics | |
CN109376132A (zh) | 基于Spark技术的计量设备典型运行曲线评估方法及系统 | |
Fu et al. | Research and application of DBSCAN algorithm based on Hadoop platform | |
Ferretti et al. | Cloud vs On-Premise HPC: a model for comprehensive cost assessment | |
CN103942235A (zh) | 针对大规模数据集交叉比较的分布式计算系统和方法 | |
Tran et al. | A distributed data mining framework accelerated with graphics processing units | |
Guo et al. | Influencing Factors and Forecasting Statistics of Enterprise Market Sales Based on Big Data and Intelligent IoT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190222 |
|
RJ01 | Rejection of invention patent application after publication |