CN109376132A

CN109376132A - 基于Spark技术的计量设备典型运行曲线评估方法及系统

Info

Publication number: CN109376132A
Application number: CN201810866008.4A
Authority: CN
Inventors: 许灵洁; 郭鹏; 陈骁; 沈建良; 张卫华; 吕几凡; 李航康; 方良飞; 严华江; 何文林; 楼平; 韩中杰; 魏泽民; 范金玉
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd; Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Electric Power Research Institute of State Grid Zhejiang Electric Power Co Ltd; Jiaxing Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Huzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2019-02-22

Abstract

本发明公开了一种基于Spark技术的计量设备典型运行曲线评估方法及系统。目前的评估方法采用简单的可靠性分析手段，不具备计量设备运行数据隐藏价值的挖掘能力。本发明包括：基于HDFS的分布式运行数据存储；基于Spark并行计算框架的MLlib机器学习算法应用：基于海量的运行数据，采用Spark离线计算的方式进行聚类挖掘分析，生成计量设备典型环境下运行的典型聚类曲线；基于可视化技术实现计量运行数据典型曲线聚类可视化。本发明通过对计量设备运行数据进行深度挖掘其隐藏价值，实现计量海量数据大应用；利用聚类分析方法，对计量设备运行结果进行典型曲线聚类分析，能够得到不同环境条件下计量设备整体的典型曲线运行趋势，为计量设备的研究提供重要的参考作用。

Description

基于Spark技术的计量设备典型运行曲线评估方法及系统

技术领域

本发明属于计量设备领域，具体地说是一种基于Spark技术的计量设备典型运行曲线评估方法及系统。

背景技术

计量设备的运行数据规模不断增大，考虑到计量设备运行数据的规模巨大，符合大数据Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)的特点，如何对实时运行的数据进行高效存储、稳定分析及深度挖掘已成为重要研究方向；同时，计量设备运行过程中的环境及误差特性已成为研究计量设备的可靠性的评估标准，通过开展典型环境及误差下的计量设备典型曲线分析，对计量设备的研究有着重要的指导意义。

当前对计量设备的可靠性及稳定性的评估主要通过对历史数据进行稳定性分析及相关性分析等等。稳定性分析主要从时间维度通过建立可视化的日、周、月等周期的标准方差计算图，实现对计量设备稳定性的评估。相关性分析主要通过对计量运行数据与环境、误差数据的实时曲线图比较，人为直观的得出其正负相关的关联性。以上评估分析方法均需对可视化分析图，进行头脑二次加工分析，缺乏计算机智能辨识及相关分析应用方法。同时，上述方法为简单的可靠性分析手段，不具备计量设备运行数据隐藏价值的挖掘能力。

发明内容

本发明所要解决的技术问题是克服上述现有技术存在的缺陷，提供一种基于Spark技术的计量设备典型曲线评估方法，其充分考虑当前计量运行数据的利用情况，深度挖掘运行数据中的隐藏价值，进而提炼出计量设备在典型环境下的典型曲线。

为此，本发明采用的技术方案如下：基于Spark技术的计量设备典型运行曲线评估方法，其包括步骤：

1)基于HDFS的分布式运行数据存储：通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储，包含2个数据存储节点及1个管理节点；

2)基于Spark并行计算框架的MLlib机器学习算法应用：基于海量的计量设备运行数据，采用Spark离线计算的方式进行聚类挖掘分析，生成计量设备典型环境下运行的典型聚类曲线；

3)基于可视化技术实现计量运行数据典型曲线聚类可视化。

作为上述技术方案的补充，步骤1)中，选择应用点的计量设备，基于MOBUS协议读取运行环境、比差和电能数据进行关系型数据库写入操作，通过Sqoop进行各个应用点数据整合，实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。

HDFS为分布式文件存储系统，其在存储海量数据方面通过分布式管理节点、数据节点的存储，在保障数据一致性的同时，提供高可用性集群部署方案，能极大提升存储效率及数据运算的性能。

作为上述技术方案的补充，所述的步骤2)具体包括：

21)构建海量计量设备运行数据的HDFS分布式存储数据库，为典型曲线的聚类计算提供数据；

22)实例化RDD对象并建立基于聚类算法的计量曲线提取模式；

23)构建spark聚类任务运算机制。

作为上述技术方案的补充，所述步骤22)中，基于Spark并行计算框架实例化聚类分析所需的计量设备运行数据成为RDD对象，RDD为弹性分布式数据集，是分布式内存的对象，将数据保存在内存中且能极大地提高运算中间结果读写性能；MLlib提供聚类的算法，将计量设备运行数据以环境区间范围为单位，将每个类别的时间点数据进行24点聚类分析，进而计算其日典型运行曲线。

作为上述技术方案的补充，所述步骤23)中，所述的运算机制包括MLlib聚类算法和RDD对象任务分解计算与汇总输出。

作为上述技术方案的补充，所述步骤3)的具体内容如下：计量设备典型运行曲线图以X轴为时间坐标，Y轴为相对数坐标；相对数即最高值作为1，相应的其它时间点的运行数据值与最高值的比值，得到Y轴的数值。

本发明还提供一种基于Spark技术的计量设备典型运行曲线评估系统，其包括数据存储模块、Spark聚类计算模块和可视化模块；

数据存储模块：通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储，包含2个数据存储节点及1个管理节点；

Spark聚类计算模块：基于海量的计量设备运行数据，采用Spark离线计算的方式进行聚类挖掘分析，生成计量设备典型环境下运行的典型聚类曲线；

可视化模块：基于可视化技术实现计量运行数据典型曲线聚类可视化。

本发明具有的有益效果如下：本发明通过对计量设备运行数据进行深度挖掘其隐藏价值，实现计量海量数据大应用；利用聚类分析方法，对计量设备运行结果进行典型曲线聚类分析，能够得到不同环境条件下计量设备整体的典型曲线运行趋势，为计量设备的研究提供重要的参考作用。

附图说明

图1是本发明实施例1的流程示意图；

图2是本发明实施例1中计量设备运行数据存储的流程图；

图3是本发明实施例1中Spark聚类计算的流程图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明做进一步详细的说明。

实施例1

本实施例提供一种基于Spark技术的计量设备典型运行曲线评估方法，如图1所示，其包括步骤：

步骤一、基于HDFS的分布式运行数据存储：通过构建虚拟情况下的HDFS分布式文件存储系统实现海量计量设备运行数据的统一规范存储，包含2个数据存储节点及1个管理节点。

选择应用点的计量设备，基于MOBUS协议读取运行环境、比差和电能数据进行关系型数据库写入操作，通过Sqoop进行各个应用点数据整合，实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储，如图2所示。

步骤二、基于Spark并行计算框架的MLlib机器学习算法应用：基于海量的计量设备运行数据，采用Spark离线计算的方式进行聚类挖掘分析，生成计量设备典型环境下运行的典型聚类曲线，如图3所示。

所述的步骤二具体包括：

1.构建海量计量设备运行数据的HDFS分布式存储数据库，为典型曲线的聚类计算提供数据。

2.实例化RDD对象并建立基于聚类算法的计量曲线提取模式；

基于Spark并行计算框架实例化聚类分析所需的计量设备运行数据成为RDD对象，RDD为弹性分布式数据集，是分布式内存的对象，将数据保存在内存中且能极大地提高运算中间结果读写性能；MLlib提供聚类的算法，将计量设备运行数据以环境区间范围为单位，将每个类别的时间点数据进行24点聚类分析，进而计算其日典型运行曲线。

3.构建spark聚类任务运算机制。

所述的运算机制包括MLlib聚类算法和RDD对象任务分解计算与汇总输出。

1)MLlib聚类算法

MLlib中的K-means是一种很常用的传统聚类方法，它需要事先给出类(也称为簇，cluster)的数目k，这里将运行数据进行24小时点的分类。随后按如下过程实施聚类：首先从所有的数据对象中任意选择24个对象作为初始的类(cluster)中心，对剩下的对象，根据它们与这些类中心的距离，分别将它们分配给与其最近的类；然后重新计算每个新类的平均值作为新的类中心；重复这个过程直到准则函数收敛，通常采用所有数据的均方差之和作为准则函数。

具体算法步骤和处理过程如下：

输入：聚类个数24，包含n个数据对象的数据集，这里的n值获得的计量设备运行对象集合。

输出：24个聚类。

(1)从n个数据对象中任意选取k个对象作为初始的聚类中心；

从样本点的集合S＝{X₁,...,X_n}中随机选取k个作为初始的类中心(质心)，从而构成初始的质心集合Z＝{Z₁,Z₂,...,Z_k}。其中，每一样本可由若干特征指标来描述，即X_i＝[x_i1 x_i2…x_iJ]，其中J为特征指标数，x_i,j为第i个样本的第j个特征指标取值。同样，每一簇i的中心Z_i＝[z_i1 z_i2…z_iJ]是质心的J个特征指标取值构成的向量。

(2)分别计算每个对象到各个聚类中心的距离，把对象分配到距离最近的聚类中；

对集合S＝{X₁,...,X_n}中的每一样本i，计算它到各类中心Z_i(j＝1,…,k)的距离，以距离最小的类作为样本i所属的类。若记样本i所属的类为s，则s满足其计算公式为：

其中：J为属性数；x_ij为样本i的第j个属性取值；余类推。由此将所有样本分类k个类，记其中第i类中所含样本集为C_i。

(3)所有对象分配完成以后，重新计算k个聚类的中心。

(4)与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，则转到第(2)个步骤，否则转到第(5)个步骤。

(5)输出聚类结果。

2)RDD对象任务分解计算与汇总输出

将步骤二封装的RDD对象计算任务分解成若干个可供工作节点计算的stage。在申请到了作业执行所需的资源之后，Driver进程就会开始调度和执行聚类操作。Driver进程会将曲线数据聚类进程作业分拆为多个stage，每个stage执行一部分聚类工作，并为每个stage创建一批task，然后将这些task分配到各个Executor进程中执行。task是最小的计算单元，负责执行一模一样的计算逻辑，只是每个task处理的数据不同而已。一个stage的所有task都执行完毕之后，会在各个节点本地的磁盘文件中写入计算中间结果，然后Driver就会调度运行下一个stage。下一个stage的task的输入数据就是上一个stage输出的中间结果。如此循环往复，直到计算完所有的数据，得到聚类完成的典型曲线数据。

步骤三、基于可视化技术实现计量运行数据典型曲线聚类可视化。

计量设备典型运行曲线图以X轴为时间坐标，Y轴为相对数坐标(即以所聚类周期该类最大值为基准表示的标幺值曲线)；相对数即最高值作为1，相应的其它时间点的运行数据值与最高值的比值，得到Y轴的数值。

实施例2

本实施例提供一种基于Spark技术的计量设备典型运行曲线评估系统，其包括数据存储模块、Spark聚类计算模块和可视化模块。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.基于Spark技术的计量设备典型运行曲线评估方法，其特征在于，包括步骤：

3)基于可视化技术实现计量运行数据典型曲线聚类可视化。

2.根据权利要求1所述的计量设备典型运行曲线评估方法，其特征在于，步骤1)中，选择应用点的计量设备，基于MOBUS协议读取运行环境、比差和电能数据进行关系型数据库写入操作，通过Sqoop进行各个应用点数据整合，实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。

3.根据权利要求1所述的计量设备典型运行曲线评估方法，其特征在于，所述的步骤2)具体包括：

22)实例化RDD对象并建立基于聚类算法的计量曲线提取模式；

23)构建spark聚类任务运算机制。

4.根据权利要求3所述的计量设备典型运行曲线评估方法，其特征在于，所述步骤22)中，

5.根据权利要求3所述的计量设备典型运行曲线评估方法，其特征在于，所述步骤23)中，所述的运算机制包括MLlib聚类算法和RDD对象任务分解计算与汇总输出。

6.根据权利要求1所述的计量设备典型运行曲线评估方法，其特征在于，所述步骤3)的具体内容如下：计量设备典型运行曲线图以X轴为时间坐标，Y轴为相对数坐标；相对数即最高值作为1，相应的其它时间点的运行数据值与最高值的比值，得到Y轴的数值。

7.基于Spark技术的计量设备典型运行曲线评估系统，其特征在于，包括数据存储模块、Spark聚类计算模块和可视化模块；