CN109857817A

CN109857817A - 全网域电子式互感器高频度计量数据甄别及数据处理方法

Info

Publication number: CN109857817A
Application number: CN201910047661.2A
Authority: CN
Inventors: 寇英刚; 范洁; 陈刚; 杨世海; 李志新; 卢树峰; 徐敏锐; 陈文广; 陈飞; 陆子刚; 吴桥; 黄道; 程含渺; 陈晶; 李志立
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Electric Power Research Institute of State Grid Jiangsu Electric Power Co Ltd; Fujian Yirong Information Technology Co Ltd
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2019-06-07

Abstract

本发明公开了一种全网域电子式互感器高频度计量数据甄别及数据处理方法，采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别，对异常数据进行筛选和剔除；基于高频度计量数据，采用Spark离线并行计算方式进行高频度计量数据的甄别；采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。本发明通过采用高效的数据甄别算法，有效地筛选掉高频计量数据中的无用数据，为进一步数据分析提供了良好的数据基础；采用Spark并行计算技术，在速度上有极大的提升，有效提高了高频度计量数据的甄别效率；对筛选后的高频度计量数据采用基于HDFS的分布式运行数据存储，提高了数据存储及访问效率。

Description

全网域电子式互感器高频度计量数据甄别及数据处理方法

技术领域

本发明涉及一种全网域电子式互感器高频度计量数据甄别及数据处理方法，属于电子式电流互感器智能应用技术领域。

背景技术

2010年，为加快智能电网建设步伐，国家电网公司启动了智能变电站“四确保一争取”工程，江苏西泾220kV变电站、四川永昌110kV变电站、延安750kV变电站等智能变电站，在国内首次全站均采用电子式互感器。2016年，国网公司计划在3年内建成投运新一代智能变电站500座，智能变电站建设进一步加快，电子式互感器逐步进入大规模应用阶段。电子式互感器的采样频率高达4kHz，每一个合并单元每天约产生86GB的数据，按照典型220kV智能变电站20个间隔计算，每天约1.7TB数据，每年约有620TB数据，以现有的智能变电站实际情况而言，将这些数据进行采集、存储的成本高、难度大，因此需要一种有效的数据甄别及数据处理方法对全网域电子式互感器大数据进行前期处理，以提高数据分析效率，同时降低系统的运行维护成本。

发明内容

本发明的目的，在于提供一种全网域电子式互感器高频度计量数据甄别及数据处理方法，通过提出高频度计量数据甄别及数据方法，有效的提高全网域电子式互感器高频度计量数据的预处理效率，从而为之后的计量数据分析奠定数据基础。

为了达成上述目的，本发明的解决方案是：

一种全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，包括以下步骤：

步骤1：采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别，对异常数据进行筛选和剔除；

步骤2：基于高频度计量数据，采用Spark离线并行计算方式进行高频度计量数据的甄别；

步骤3：采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。

步骤1中，包括以下步骤：

步骤11，采用拉伊达准则进行异常数据的筛选和剔除；

步骤12，再使用基于聚类分析的方法对数据进行再次甄别，通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。

步骤11具体为：

在相同条件下获得一系列测量数据x₁,x₂.....x_n，其算术平均值为

其中，n为数据个数；

按贝塞尔公式计算出实验标准差s：

若某个可疑值x_d与n个数据的算术平均值之差的绝对值大于等于3s时，判定为异常值，即：

步骤12具体为：

首先对第i个数据对象a_i，1≤i≤n的m个属性赋值量化为p_it，1≤t≤m，采用欧氏距离法计算任意两个数据对象a_i和a_j之间的相异度表示为

根据相异度大小把n个数据进行聚成k个类，其中包括数据点最少的集合A_i中包含的数据点即为离群点。

步骤2中，包括以下步骤：

步骤21，基于Spark并行计算框架实例化数据甄别所需的高频计量数据成为RDD对象，将数据保存在内存中；

步骤22，构建spark任务运算机制，该运算机制为RDD对象任务分解计算与汇总输出，最后得到数据甄别的结果。

步骤22构建的spark任务运算机制具体为：

将封装好的RDD对象任务分解成若干个可供工作节点计算的阶段stage；

在申请到了作业执行所需的资源之后，驱动Driver进程开始调度和执行数据甄别操作；驱动Driver进程将数据甄别进程作业分拆为多个阶段stage，每个阶段stage执行一部分数据甄别工作，并为每个阶段stage创建一批作业task，然后将这些作业task分配到各个执行器Executor进程中执行；

一个阶段stage的所有作业task都执行完毕之后，在各个节点本地的磁盘文件中写入计算中间结果，然后驱动Driver进程调度运行下一个阶段stage；

下一个阶段stage的作业task的输入数据就是上一个阶段stage输出的中间结果；如此循环往复，直到计算完所有的数据，得到数据甄别的结果。

步骤3中，包括以下步骤：

构建虚拟情况下的HDFS分布式文件存储系统，包含3个数据存储节点及1个管理节点；

选择应用点的计量设备，基于MOBUS协议读取高频度计量数据进行关系型数据库写入操作，通过Sqoop工具进行各个应用点数据整合，实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。

一种全网域电子式互感器高频度计量数据甄别及数据处理方法，具体为在高频度计量数据甄别算法方面采用拉伊达准则(3σ准则)与聚类分析方法融合的方式对异常数据进行筛选和剔除，以提高数据甄别的准确性；采用Spark并行计算技术实现高频度计量数据的筛选和剔除，以提高数据处理速度；采用基于HDFS的分布式运行数据存储技术对甄别后的数据进行存储。

本发明的有益效果为：

(1)本发明通过采用高效的数据甄别算法，有效地筛选掉高频计量数据中的无用数据，为进一步数据分析提供了良好的数据基础；

(2)本发明在进行数据甄别时采用Spark并行计算技术，与传统的串行计算技术相比在速度上有极大的提升，有效提高了高频度计量数据的甄别效率；

(3)本发明对筛选后的高频度计量数据采用基于HDFS的分布式运行数据存储，与传统存储技术相比有效的提高了数据存储及访问效率。

附图说明

图1是本发明的整体流程示意图；

图2是本发明Spark并行计算的流程图；

图3是本发明高频计量数据存储的流程图。

具体实施方式

下面结合图1、图2和图3对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

(1)高频度计量数据甄别算法

下面对高频度计量数据甄别算法进行介绍，本算法采用拉伊达准则(3σ准则)与聚类分析方法融合的方式进行数据甄别。首先，采用拉伊达准则(3σ准则)进行异常数据的筛选和剔除。

在相同条件下获得的一系列测量数据x₁,x₂.....x_n，其算术平均值为

其中，n为数据个数；

按贝塞尔公式计算出实验标准差s：

其次，在完成该算法数据甄别的基础上再使用基于聚类分析的方法对数据进行再次甄别，以提高数据的准确性。基于聚类分析的方法是通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。主要步骤是首先对第i个数据对象a_i，1≤i≤n的m个属性赋值量化为p_it，1≤t≤m，可采用欧氏距离法计算任意两个数据对象a_i和a_j之间的相异度可表示为

根据相异度大小把n个数据进行聚成k个类，例如，A₁,A₂,...,A_K，其中包括数据点最少的集合A_i中包含的数据点就可以理解为是离群点。

(2)Spark并行计算

基于海量的高频度计量数据，采用Spark离线计算的方式进行数据甄别。

首先，基于Spark并行计算框架实例化数据甄别所需的高频计量数据成为RDD对象，RDD(Resilient Distributed Datasets))为弹性分布式数据集，是分布式内存的对象，将数据保存在内存中且能极大地提高运算中间结果读写性能。

其次，构建spark任务运算机制。该运算机制为RDD对象任务分解计算与汇总输出。具体地，封装好的RDD对象计算任务分解成若干个可供工作节点计算的stage(阶段)。在申请到了作业执行所需的资源之后，Driver(驱动)进程就会开始调度和执行数据甄别操作。Driver进程会将数据甄别进程作业分拆为多个stage，每个stage执行一部分数据甄别工作，并为每个stage创建一批task(作业)，然后将这些task分配到各个Executor(执行器)进程中执行。task是最小的计算单元，负责执行一模一样的计算逻辑，只是每个task处理的数据不同而已。一个stage的所有task都执行完毕之后，会在各个节点本地的磁盘文件中写入计算中间结果，然后Driver进程就会调度运行下一个stage。下一个stage的task的输入数据就是上一个stage输出的中间结果。如此循环往复，直到计算完所有的数据，得到数据甄别的结果。

(3)基于HDFS的分布式运行数据存储

通过构建虚拟情况下的HDFS(Hadoop分布式文件系统)分布式文件存储系统实现高频度计量数据的统一规范存储，包含3个数据存储节点DataNode及1个管理节点NameNode。选择应用点的计量设备，基于MOBUS协议读取高频度计量数据进行关系型数据库写入操作，通过Sqoop工具进行各个应用点数据整合，实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。

HDFS为分布式文件存储系统，其在存储海量数据方面通过分布式管理节点、数据节点的存储，在保障数据一致性的同时，提供高可用性集群部署方案，能极大提升存储效率及数据运算的性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，包括以下步骤：

2.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，步骤1中，包括以下步骤：

步骤11，采用拉伊达准则进行异常数据的筛选和剔除；

3.根据权利要求2所述的全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，步骤11具体为：

其中，n为数据个数；

按贝塞尔公式计算出实验标准差s：

4.根据权利要求3所述的全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，步骤12具体为：

5.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，步骤2中，包括以下步骤：

6.根据权利要求5所述的全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，步骤22构建的spark任务运算机制具体为：

7.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法，其特征是，步骤3中，包括以下步骤：