CN109857817A - 全网域电子式互感器高频度计量数据甄别及数据处理方法 - Google Patents
全网域电子式互感器高频度计量数据甄别及数据处理方法 Download PDFInfo
- Publication number
- CN109857817A CN109857817A CN201910047661.2A CN201910047661A CN109857817A CN 109857817 A CN109857817 A CN 109857817A CN 201910047661 A CN201910047661 A CN 201910047661A CN 109857817 A CN109857817 A CN 109857817A
- Authority
- CN
- China
- Prior art keywords
- data
- screened
- examination
- continuous data
- stage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种全网域电子式互感器高频度计量数据甄别及数据处理方法,采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别,对异常数据进行筛选和剔除;基于高频度计量数据,采用Spark离线并行计算方式进行高频度计量数据的甄别;采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。本发明通过采用高效的数据甄别算法,有效地筛选掉高频计量数据中的无用数据,为进一步数据分析提供了良好的数据基础;采用Spark并行计算技术,在速度上有极大的提升,有效提高了高频度计量数据的甄别效率;对筛选后的高频度计量数据采用基于HDFS的分布式运行数据存储,提高了数据存储及访问效率。
Description
技术领域
本发明涉及一种全网域电子式互感器高频度计量数据甄别及数据处理方法,属于电子式电流互感器智能应用技术领域。
背景技术
2010年,为加快智能电网建设步伐,国家电网公司启动了智能变电站“四确保一争取”工程,江苏西泾220kV变电站、四川永昌110kV变电站、延安750kV变电站等智能变电站,在国内首次全站均采用电子式互感器。2016年,国网公司计划在3年内建成投运新一代智能变电站500座,智能变电站建设进一步加快,电子式互感器逐步进入大规模应用阶段。电子式互感器的采样频率高达4kHz,每一个合并单元每天约产生86GB的数据,按照典型220kV智能变电站20个间隔计算,每天约1.7TB数据,每年约有620TB数据,以现有的智能变电站实际情况而言,将这些数据进行采集、存储的成本高、难度大,因此需要一种有效的数据甄别及数据处理方法对全网域电子式互感器大数据进行前期处理,以提高数据分析效率,同时降低系统的运行维护成本。
发明内容
本发明的目的,在于提供一种全网域电子式互感器高频度计量数据甄别及数据处理方法,通过提出高频度计量数据甄别及数据方法,有效的提高全网域电子式互感器高频度计量数据的预处理效率,从而为之后的计量数据分析奠定数据基础。
为了达成上述目的,本发明的解决方案是:
一种全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,包括以下步骤:
步骤1:采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别,对异常数据进行筛选和剔除;
步骤2:基于高频度计量数据,采用Spark离线并行计算方式进行高频度计量数据的甄别;
步骤3:采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。
步骤1中,包括以下步骤:
步骤11,采用拉伊达准则进行异常数据的筛选和剔除;
步骤12,再使用基于聚类分析的方法对数据进行再次甄别,通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。
步骤11具体为:
在相同条件下获得一系列测量数据x1,x2.....xn,其算术平均值为
其中,n为数据个数;
按贝塞尔公式计算出实验标准差s:
若某个可疑值xd与n个数据的算术平均值之差的绝对值大于等于3s时,判定为异常值,即:
步骤12具体为:
首先对第i个数据对象ai,1≤i≤n的m个属性赋值量化为pit,1≤t≤m,采用欧氏距离法计算任意两个数据对象ai和aj之间的相异度表示为
根据相异度大小把n个数据进行聚成k个类,其中包括数据点最少的集合Ai中包含的数据点即为离群点。
步骤2中,包括以下步骤:
步骤21,基于Spark并行计算框架实例化数据甄别所需的高频计量数据成为RDD对象,将数据保存在内存中;
步骤22,构建spark任务运算机制,该运算机制为RDD对象任务分解计算与汇总输出,最后得到数据甄别的结果。
步骤22构建的spark任务运算机制具体为:
将封装好的RDD对象任务分解成若干个可供工作节点计算的阶段stage;
在申请到了作业执行所需的资源之后,驱动Driver进程开始调度和执行数据甄别操作;驱动Driver进程将数据甄别进程作业分拆为多个阶段stage,每个阶段stage执行一部分数据甄别工作,并为每个阶段stage创建一批作业task,然后将这些作业task分配到各个执行器Executor进程中执行;
一个阶段stage的所有作业task都执行完毕之后,在各个节点本地的磁盘文件中写入计算中间结果,然后驱动Driver进程调度运行下一个阶段stage;
下一个阶段stage的作业task的输入数据就是上一个阶段stage输出的中间结果;如此循环往复,直到计算完所有的数据,得到数据甄别的结果。
步骤3中,包括以下步骤:
构建虚拟情况下的HDFS分布式文件存储系统,包含3个数据存储节点及1个管理节点;
选择应用点的计量设备,基于MOBUS协议读取高频度计量数据进行关系型数据库写入操作,通过Sqoop工具进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。
一种全网域电子式互感器高频度计量数据甄别及数据处理方法,具体为在高频度计量数据甄别算法方面采用拉伊达准则(3σ准则)与聚类分析方法融合的方式对异常数据进行筛选和剔除,以提高数据甄别的准确性;采用Spark并行计算技术实现高频度计量数据的筛选和剔除,以提高数据处理速度;采用基于HDFS的分布式运行数据存储技术对甄别后的数据进行存储。
本发明的有益效果为:
(1)本发明通过采用高效的数据甄别算法,有效地筛选掉高频计量数据中的无用数据,为进一步数据分析提供了良好的数据基础;
(2)本发明在进行数据甄别时采用Spark并行计算技术,与传统的串行计算技术相比在速度上有极大的提升,有效提高了高频度计量数据的甄别效率;
(3)本发明对筛选后的高频度计量数据采用基于HDFS的分布式运行数据存储,与传统存储技术相比有效的提高了数据存储及访问效率。
附图说明
图1是本发明的整体流程示意图;
图2是本发明Spark并行计算的流程图;
图3是本发明高频计量数据存储的流程图。
具体实施方式
下面结合图1、图2和图3对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
(1)高频度计量数据甄别算法
下面对高频度计量数据甄别算法进行介绍,本算法采用拉伊达准则(3σ准则)与聚类分析方法融合的方式进行数据甄别。首先,采用拉伊达准则(3σ准则)进行异常数据的筛选和剔除。
在相同条件下获得的一系列测量数据x1,x2.....xn,其算术平均值为
其中,n为数据个数;
按贝塞尔公式计算出实验标准差s:
若某个可疑值xd与n个数据的算术平均值之差的绝对值大于等于3s时,判定为异常值,即:
其次,在完成该算法数据甄别的基础上再使用基于聚类分析的方法对数据进行再次甄别,以提高数据的准确性。基于聚类分析的方法是通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。主要步骤是首先对第i个数据对象ai,1≤i≤n的m个属性赋值量化为pit,1≤t≤m,可采用欧氏距离法计算任意两个数据对象ai和aj之间的相异度可表示为
根据相异度大小把n个数据进行聚成k个类,例如,A1,A2,...,AK,其中包括数据点最少的集合Ai中包含的数据点就可以理解为是离群点。
(2)Spark并行计算
基于海量的高频度计量数据,采用Spark离线计算的方式进行数据甄别。
首先,基于Spark并行计算框架实例化数据甄别所需的高频计量数据成为RDD对象,RDD(Resilient Distributed Datasets))为弹性分布式数据集,是分布式内存的对象,将数据保存在内存中且能极大地提高运算中间结果读写性能。
其次,构建spark任务运算机制。该运算机制为RDD对象任务分解计算与汇总输出。具体地,封装好的RDD对象计算任务分解成若干个可供工作节点计算的stage(阶段)。在申请到了作业执行所需的资源之后,Driver(驱动)进程就会开始调度和执行数据甄别操作。Driver进程会将数据甄别进程作业分拆为多个stage,每个stage执行一部分数据甄别工作,并为每个stage创建一批task(作业),然后将这些task分配到各个Executor(执行器)进程中执行。task是最小的计算单元,负责执行一模一样的计算逻辑,只是每个task处理的数据不同而已。一个stage的所有task都执行完毕之后,会在各个节点本地的磁盘文件中写入计算中间结果,然后Driver进程就会调度运行下一个stage。下一个stage的task的输入数据就是上一个stage输出的中间结果。如此循环往复,直到计算完所有的数据,得到数据甄别的结果。
(3)基于HDFS的分布式运行数据存储
通过构建虚拟情况下的HDFS(Hadoop分布式文件系统)分布式文件存储系统实现高频度计量数据的统一规范存储,包含3个数据存储节点DataNode及1个管理节点NameNode。选择应用点的计量设备,基于MOBUS协议读取高频度计量数据进行关系型数据库写入操作,通过Sqoop工具进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。
HDFS为分布式文件存储系统,其在存储海量数据方面通过分布式管理节点、数据节点的存储,在保障数据一致性的同时,提供高可用性集群部署方案,能极大提升存储效率及数据运算的性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (7)
1.一种全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,包括以下步骤:
步骤1:采用拉伊达准则与聚类分析方法融合的方式进行高频度计量数据甄别,对异常数据进行筛选和剔除;
步骤2:基于高频度计量数据,采用Spark离线并行计算方式进行高频度计量数据的甄别;
步骤3:采用基于HDFS的分布式运行数据存储方式对甄别后的数据进行存储。
2.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤1中,包括以下步骤:
步骤11,采用拉伊达准则进行异常数据的筛选和剔除;
步骤12,再使用基于聚类分析的方法对数据进行再次甄别,通过检查数据对象的主要特征和对其进行聚类分析来确定离群点。
3.根据权利要求2所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤11具体为:
在相同条件下获得一系列测量数据x1,x2.....xn,其算术平均值为
其中,n为数据个数;
按贝塞尔公式计算出实验标准差s:
若某个可疑值xd与n个数据的算术平均值之差的绝对值大于等于3s时,判定为异常值,即:
4.根据权利要求3所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤12具体为:
首先对第i个数据对象ai,1≤i≤n的m个属性赋值量化为pit,1≤t≤m,采用欧氏距离法计算任意两个数据对象ai和aj之间的相异度表示为
根据相异度大小把n个数据进行聚成k个类,其中包括数据点最少的集合Ai中包含的数据点即为离群点。
5.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤2中,包括以下步骤:
步骤21,基于Spark并行计算框架实例化数据甄别所需的高频计量数据成为RDD对象,将数据保存在内存中;
步骤22,构建spark任务运算机制,该运算机制为RDD对象任务分解计算与汇总输出,最后得到数据甄别的结果。
6.根据权利要求5所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤22构建的spark任务运算机制具体为:
将封装好的RDD对象任务分解成若干个可供工作节点计算的阶段stage;
在申请到了作业执行所需的资源之后,驱动Driver进程开始调度和执行数据甄别操作;驱动Driver进程将数据甄别进程作业分拆为多个阶段stage,每个阶段stage执行一部分数据甄别工作,并为每个阶段stage创建一批作业task,然后将这些作业task分配到各个执行器Executor进程中执行;
一个阶段stage的所有作业task都执行完毕之后,在各个节点本地的磁盘文件中写入计算中间结果,然后驱动Driver进程调度运行下一个阶段stage;
下一个阶段stage的作业task的输入数据就是上一个阶段stage输出的中间结果;如此循环往复,直到计算完所有的数据,得到数据甄别的结果。
7.根据权利要求1所述的全网域电子式互感器高频度计量数据甄别及数据处理方法,其特征是,步骤3中,包括以下步骤:
构建虚拟情况下的HDFS分布式文件存储系统,包含3个数据存储节点及1个管理节点;
选择应用点的计量设备,基于MOBUS协议读取高频度计量数据进行关系型数据库写入操作,通过Sqoop工具进行各个应用点数据整合,实现从关系型数据库到HDFS分布式文件存储系统的转换统一存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910047661.2A CN109857817A (zh) | 2019-01-18 | 2019-01-18 | 全网域电子式互感器高频度计量数据甄别及数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910047661.2A CN109857817A (zh) | 2019-01-18 | 2019-01-18 | 全网域电子式互感器高频度计量数据甄别及数据处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109857817A true CN109857817A (zh) | 2019-06-07 |
Family
ID=66895190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910047661.2A Pending CN109857817A (zh) | 2019-01-18 | 2019-01-18 | 全网域电子式互感器高频度计量数据甄别及数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857817A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609819A (zh) * | 2019-08-06 | 2019-12-24 | 南京南瑞信息通信科技有限公司 | 基于hdfs的数据处理方法 |
CN112782469A (zh) * | 2021-01-13 | 2021-05-11 | 公诚管理咨询有限公司 | 一种基于分布式计算的智能电网计量处理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104181883A (zh) * | 2014-08-08 | 2014-12-03 | 青岛高校信息产业有限公司 | 实时数据采集系统的异常数据实时处理方法 |
CN104360903A (zh) * | 2014-11-18 | 2015-02-18 | 北京美琦华悦通讯科技有限公司 | Spark作业调度系统中实现任务数据解耦的方法 |
CN106612202A (zh) * | 2015-10-27 | 2017-05-03 | 网易(杭州)网络有限公司 | 一种网游渠道刷量的预估判别方法及系统 |
US20180060341A1 (en) * | 2016-09-01 | 2018-03-01 | Paypal, Inc. | Querying Data Records Stored On A Distributed File System |
CN108460213A (zh) * | 2018-03-07 | 2018-08-28 | 燕山大学 | 基于多聚类原型的t-s模型对炉腹煤气量的预测方法及程序 |
-
2019
- 2019-01-18 CN CN201910047661.2A patent/CN109857817A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104181883A (zh) * | 2014-08-08 | 2014-12-03 | 青岛高校信息产业有限公司 | 实时数据采集系统的异常数据实时处理方法 |
CN104360903A (zh) * | 2014-11-18 | 2015-02-18 | 北京美琦华悦通讯科技有限公司 | Spark作业调度系统中实现任务数据解耦的方法 |
CN106612202A (zh) * | 2015-10-27 | 2017-05-03 | 网易(杭州)网络有限公司 | 一种网游渠道刷量的预估判别方法及系统 |
US20180060341A1 (en) * | 2016-09-01 | 2018-03-01 | Paypal, Inc. | Querying Data Records Stored On A Distributed File System |
CN108460213A (zh) * | 2018-03-07 | 2018-08-28 | 燕山大学 | 基于多聚类原型的t-s模型对炉腹煤气量的预测方法及程序 |
Non-Patent Citations (1)
Title |
---|
蒋华等: ""改进Kmeans算法的海洋数据异常检测"", 《计算机工程与设计》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609819A (zh) * | 2019-08-06 | 2019-12-24 | 南京南瑞信息通信科技有限公司 | 基于hdfs的数据处理方法 |
CN112782469A (zh) * | 2021-01-13 | 2021-05-11 | 公诚管理咨询有限公司 | 一种基于分布式计算的智能电网计量处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106505593B (zh) | 一种基于大数据的配变三相不平衡分析与负荷调整的方法 | |
CN105069134B (zh) | 一种Oracle统计信息自动收集方法 | |
CN110231528A (zh) | 基于负荷特征模型库的变压器户变异常识别方法及装置 | |
CN110082699A (zh) | 一种低压台区智能电能表运行误差计算方法及其系统 | |
CN103902816A (zh) | 基于数据挖掘技术的带电检测数据处理方法 | |
CN106651089A (zh) | 生产调度问题的分布集鲁棒模型的建模及优化求解方法 | |
CN106547882A (zh) | 一种智能电网中营销大数据的实时处理方法及系统 | |
CN114416855A (zh) | 一种基于电力大数据的可视化平台及方法 | |
CN110838055A (zh) | 一种基于大数据的电力企业财务数据管理系统 | |
CN109857817A (zh) | 全网域电子式互感器高频度计量数据甄别及数据处理方法 | |
Ishankhodjayev et al. | Optimization of information processes of multilevel intelligent systems | |
CN109409746A (zh) | 一种生产调度方法及装置 | |
CN114021425B (zh) | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN110516884A (zh) | 一种基于大数据平台的短期负荷预测方法 | |
CN107679133B (zh) | 一种实用于海量实时pmu数据的挖掘方法 | |
Zaman et al. | Scenario-based solution approach for uncertain resource constrained scheduling problems | |
CN103258255A (zh) | 一种适用于电网管理系统的知识发现方法 | |
CN111046059B (zh) | 基于分布式数据库集群的低效sql语句分析方法及系统 | |
Shahidehpour et al. | An overview of power generation scheduling in the optimal operation of a large scale power system | |
CN114676586A (zh) | 一种基于多维、多时空的数字模拟与仿真的建构方法 | |
Hu et al. | Reloca: Optimize resource allocation for data-parallel jobs using deep learning | |
CN106530110A (zh) | 一种基于大数据的海洋工程管理系统及方法 | |
Arakelyan et al. | Analysis of the DCS historical data for estimation of input signal significance | |
CN111553040A (zh) | 一种基于gpu加速的电网拓扑分析高性能计算方法及装置 | |
Suleiman et al. | A Framework for Characterizing Very Large Cloud Workload Traces with Unsupervised Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |
|
RJ01 | Rejection of invention patent application after publication |