CN102685221B - 一种状态监测数据的分布式存储与并行挖掘方法 - Google Patents

一种状态监测数据的分布式存储与并行挖掘方法 Download PDF

Info

Publication number
CN102685221B
CN102685221B CN201210130726.8A CN201210130726A CN102685221B CN 102685221 B CN102685221 B CN 102685221B CN 201210130726 A CN201210130726 A CN 201210130726A CN 102685221 B CN102685221 B CN 102685221B
Authority
CN
China
Prior art keywords
data
monitoring data
condition monitoring
file
status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210130726.8A
Other languages
English (en)
Other versions
CN102685221A (zh
Inventor
王德文
宋亚奇
肖磊
肖凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201210130726.8A priority Critical patent/CN102685221B/zh
Publication of CN102685221A publication Critical patent/CN102685221A/zh
Application granted granted Critical
Publication of CN102685221B publication Critical patent/CN102685221B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

一种状态监测数据的分布式存储与并行挖掘方法,它通过Web服务描述语言定义变电站状态监测远程单元与状态监测通信前置机的功能服务模型,通过简单对象访问协议进行电力广域网环境下电力设备状态监测数据交换;它将大规模状态监测数据冗余存储在分布式文件系统中,对状态监测数据文件创建索引表,并插入到大规模结构化数据表中,根据查询请求完成状态监测数据查询;通过提取、转换与加载生成基础数据与多维度的分析性数据建立数据仓库,并通过MapReduce任务分解与结果汇总,实现关联规则、分类和聚类数据挖掘算法的并行执行。本发明能有效地对智能电网环境下海量电力设备状态监测信息进行分布式数据交换、冗余存储与快速并行处理。

Description

一种状态监测数据的分布式存储与并行挖掘方法
技术领域
本发明涉及一种智能电网海量状态监测数据的分布式存储与并行挖掘方法,属数据处理技术领域。
背景技术
随着大规模波动式能源发电与高渗透率分布式电源的大量接入、负荷特性的日趋复杂,电网规模越来越大,电网安全、稳定运行所面临的压力也越来越大。从智能电网的发展策略和建设进展可以看出,尽管各国智能电网的功能特性、关键技术和建设重点不尽相同, 但是实现电网信息化,即全面整合电网稳态、动态、暂态运行信息,建设基于全景数据的分析与计算平台,为智能电网各类业务应用提供支持和服务,使电力企业的管理模式从分散化到集中化进行转变,则是各国智能电网的基本特征之一。
伴随着特高压电网的建设、可再生能源和分布式能源的不断接入,电网规模将急剧增大。随着传感测量、物联网以及通信等技术的不断发展,电网数据的采样频率将明显提高、采集范围将极大扩展、电网运行数据规模将急速增长。电力设备状态监测装置所采集的实时数据将积累出海量的时间序列历史数据。智能电网的状态监测数据具有广域、全景、海量、实时、准确可靠的特征,远远超出了传统电网状态监测的范畴,它不仅涵盖一次系统设备,还囊括了二次系统设备;不仅包括实时在线状态数据,还应包括设备基本信息、试验数据、运行数据、缺陷数据、巡检记录、带电测试数据等离线信息,面对这些海量的、分布式的、异构的、复杂的状态数据,常规的数据存储与管理方法会遇到极大的困难,现有的数据分析与处理能力不足以支撑智能电网状态信息的分析优化与辅助决策。仅以绝缘子泄漏电流监测为例,假设10ms采集一次数据,一个杆塔在一个月内就达到了2.5亿条,对于关系数据库来说,在一张2.5亿条记录的表里面进行SQL查询,效率是极其低下乃至不可忍受的。
目前,一般以Oracle、Sybase等标准商用数据库与数据仓库存储历史数据,这种体系结构仍然保持了传统的数据库管理系统的特点,存储的是相对静止的数据,而对于存储变化快、连续、海量的时序数据的管理能力是非常有限的。虽然可以采用实时库和历史库相结合的方式,在标准商用数据库平台上外挂实时数据库,用来管理内存实时数据,历史数据文件是以存档文件的形式存在。由于实时数据库大多由厂商自行开发,并且采用各自的专用接口、互不兼容,给系统的二次开发、异构系统的集成、数据共享与管理造成了极大困难。
研究人员采用数据流、并行计算、分布式计算以及网格计算等技术对电网运行数据的高效查询、高性能的分析与挖掘进行了大量研究工作。目前,数据流的处理算法与降载策略还没有解决,应用理论体系尚不成熟完善,数据流管理系统仍停留在原型系统的研发阶段,例如Stanford大学的STREAM项目、UC Berkeley大学的Telegraph CQ项目以及Aurora项目等。 网格计算曾一度被认为是提升电力系统分析与计算能力的有效技术,但是网格计算主要侧重于聚合分布的松散耦合资源、强调资源共享,适用于计算密集型的应用、难以自动扩展,网格的构建大多为完成某一个特定的任务需要,或者支持挑战性的应用,通常被用来解决计算敏感型的科研、数学、学术问题,对企业应用的支持不够,限制了其在电网企业的大规模应用。
云计算是一种新兴的计算模型,具备可靠性高、数据处理量巨大、灵活可扩展以及设备利用率高等优势,正成为信息领域研究的热点,给上述问题的解决带来了机遇。
发明内容
本发明的目的在于克服现有技术的不足、提供一种状态监测数据的分布式存储与并行挖掘方法,实现智能电网环境下海量电力设备状态监测信息的分布式数据交换、冗余存储管理、快速查询与处理。
本发明所称问题是以下述技术方案实现的:
一种状态监测数据的分布式存储与并行挖掘方法,它通过 Web服务描述语言定义变电站状态监测远程单元与状态监测通信前置机的功能服务模型,通过简单对象访问协议进行电力广域网环境下电力设备状态监测数据交换;它将大规模状态监测数据冗余存储在分布式文件系统中,对状态监测数据文件创建索引表,并插入到大规模结构化数据表中,根据查询请求完成状态监测数据查询;通过提取、转换与加载生成基础数据与多维度的分析性数据建立数据仓库,并通过映射与化简并行编程模型进行任务分解与结果汇总,实现关联规则、分类和聚类数据挖掘算法的并行执行。
上述状态监测数据的分布式存储与并行挖掘方法,状态监测数据交换的具体方法为:
a.状态监测服务接口的定义:采用Web服务描述语言(WSDL),为变电站状态监测远程单元(CRU)定义抽象服务接口CRUServiceInterface以及控制命令操作,为状态监测通信前置机(CFC)定义抽象服务接口CFCServiceInterface以及上传心跳信息、配置信息、状态监测数据操作;
b.状态监测服务消息与参数的描述:为上述操作定义请求消息与响应消息,并约束输入与返回参数的数据类型,其中心跳信息请求消息输入参数包括标识符、工作状态与网络状态,配置信息请求消息输入参数包括标识符、数据上传周期与配置参数,状态监测数据请求消息输入参数包括监测数据代码、监测数据值与告警状态;
c.状态监测信息传输方式与消息格式的定义:将CRUServiceInterface与CFCServiceInterface服务接口绑定为简单对象访问协议(SOAP),传输方式采用超文本传送协议(HTTP),并采用document/literal作为状态监测信息的编码方式;
d.访问端点的部署绑定:为CRUServiceInterface与CFCServiceInterface指定特定网络地址来定义访问端点,通过该地址访问所提供的状态监测服务;
e.状态监测数据的交换过程如下:
① CRU处于堵塞状态,周期性主动唤醒后,发起调用远程对象CFC的状态监测数据服务的远程过程调用(RPC)请求;
② 状态监测数据服务的RPC请求被封装成一个采用结构化描述语言(XML)编码的SOAP请求消息,发送到 CFC的SOAP服务器上;
③ CFC的SOAP服务器解码收到的 SOAP 请求消息,对变压器、断路器与容性设备的状态监测数据进行业务逻辑处理,判断是否存在缓存的尚未发出的配置与控制命令,再将处理结果封装成SOAP 响应消息;
④ CRU获得状态监测数据服务的响应消息后,判断是否执行配置与控制命令。
上述状态监测数据的分布式存储与并行挖掘方法,状态监测数据的存储与查询的具体步骤如下:
a.从CFC收集的状态监测数据以文件形式组织,直接将数据以二进制的形式存放到文件里,不包含任何的冗余数据,将数据转化为便于查询的结构化形式,读取状态监测数据文件,逐行扫描每个状态监测数据记录; 
b.将文件扫描检测和索引创建分布在不同节点上,设置主节点服务器对状态文件检测和索引创建,检测是否产生新的状态监测文件,将新的状态监测文件名整合成索引创建请求,并分发给子节点处理,如果子节点失效,转移到其他子节点上,子节点部分检测请求是否到来以及是否为合理,每当子节点接收到一个状态监测数据文件索引创建任务,将从Hadoop分布式文件系统(HDFS)中读取的状态监测文件数据读入内存中,并记录该文件的名称;
c.对文件中的每个状态监测数据记录逐行扫描,提取出对查询有效字段,添加到列表中,根据这些常用字段建立索引表;
d. 将状态监测数据文件产生的索引表插入到分布式列存储的Hadoop结构化数据表(HBase)中,接受并处理用户的状态数据查询请求,并检测该请求是否合理,查询遍历索引表;
e.索引表中行键为查询字段,偏移量为状态监测数据记录在状态数据文件中的位置,即文件名加偏移量,查询将通过文件名和偏移量来获取数据,一张表的行键按照字节序顺序排序,对于指定查询条件,拼接成合理的查询字节序,通过直接定位到行键或者行键的上一个行键,快速获得满足条件的状态监测索引数据,读取后续的数据,获得满足条件的状态监测数据位置信息;当行键不满足时,则查询索引完毕;
f. 根据所获得所有满足条件的状态监测位置信息集合,从状态数据文件中读出所有的状态监测数据记录,将查询结果返回给客户端。
上述状态监测数据的分布式存储与并行挖掘方法,状态监测数据仓库建立与数据挖掘并行化的技术方案如下:
a.状态监测数据的抽取:对于现有的长期存储在关系型数据库中的电力设备历史状态数据,经过数据净化、转换、标准化后,以文件的形式存储于HDFS的数据结点上;
b.状态监测数据仓库的建立:首先采用Hive查询语言(HiveQL)创建表,表的定义、字段以及间隔符信息均存储于元数据库中,然后加载HDFS数据文件到表以构造数据文件目录;根据变电站、设备类型、监测类型与时间状态监测主题组织成分区,按照列属性将数据组织成数据桶;
c.状态监测数据分析:客户端发起状态监测数据分析请求,根据请求命令的内容查询元数据库中对应的表模式,若满足则进入数据文件目录查询相应的表,通过HiveQL找到状态监测量字段,获取满足条件的状态量值,进行聚类、求和、汇总、报表生成操作,最后,将操作生成的查询分析计划存储在HDFS数据仓库中,并将状态数据分析结果返回给客户端;
d.状态监测数据挖掘的并行化:将包括关联规则、分类和聚类的算法运行分发给作业进程(JobTracker,部署在主节点)管理下的各个任务进程(TaskTracker,部署在从节点)共同完成;设置并行化引擎实例,通过映射与化简并行编程模型(MapReduce)将学习过程中的大规模数据集运算分割为若干训练子集分配给多个映射节点(Mapper),在Mapper节点上分别执行各种操作得到中间结果,最后通过化简节点(Reducer)将结果合并,实现算法的并行执行。
本发明采用WSDL对CRU与CFC的状态监测服务进行建模,可以摆脱硬件平台与软件工具的限制,确保了系统的可移植和互操作。采用SOAP作为分布式环境中交换数据的简单协议,使得CRU与CFC完全可以跨越防火墙在电力 Intranet 上进行状态监测数据交换。
大规模的廉价服务器集群技术可以直接利用闲置的服务器搭建,且不要求服务器类型相同,大幅降低建设成本。虚拟化技术通过对服务器、存储设备与网络设备等硬件资源进行虚拟化,可以屏蔽各个电力网省公司和直属单位千差万别的硬件资源,以虚拟机为单位进行统一的自动化管理,一方面可以提高资源利用率,另一方面可以简化管理与维护工作。
HDFS、HBase以及HiveQL等海量分布式数据存储与管理技术可以保障智能电网海量状态监测数据的可靠存储、高效管理与快速查询。MapReduce并行编程模型以及并行数据挖掘可以为设备状态检修提供高性能并行处理能力。
本发明能有效地对智能电网环境下海量电力设备状态监测信息进行分布式数据交换、冗余存储与快速并行处理。
附图说明
下面结合附图对本发明作进一步详述。
图1是智能电网状态监测数据处理系统结构图
图2 是状态监测数据的存储与查询流程图;
图3 是状态监测数据仓库的建立流程图;
图4是状态监测数据挖掘的并行化流程图。
图中及文中各符号为:CFC、状态监测通信前置机;CRU、变电站状态监测远程单元; WSDL 、Web服务描述语言; HDFS、Hadoop分布式文件系统;HBase、Hadoop结构化数据表;HiveQL、Hive查询语言;JobTracker、作业进程;TaskTracker、任务进程;Mapper、映射节点;Reducer、化简节点;MapReduce、映射与化简并行编程模型;CRUServiceInterface、CRU服务接口;CFCServiceInterface、CFC服务接口;HTTP、超文本传送协议;RPC、远程过程调用;SOAP、简单对象访问协议;XML、结构化描述语言。
具体实施方式
本发明公开的一种状态监测数据的分布式存储与并行挖掘方法,包括状态监测数据交换、状态监测数据存储与查询、状态监测数据仓库与数据挖掘,所述状态监测数据交换中,建立Web服务描述语言定义变电站状态监测远程单元与网省公司状态监测通信前置机的功能服务模型,通过简单对象访问协议进行电力广域网环境下变压器、断路器与容性设备等状态监测数据交换;所述状态监测数据存储与查询中,将大规模状态监测数据冗余存储在分布式文件系统中,通过对状态监测数据文件创建索引表,插入到大规模结构化数据表中,根据查询请求完成状态监测数据查询。所述状态监测数据仓库与数据挖掘中,通过提取、转换与加载生成基础数据与多维度的分析性数据建立数据仓库,并通过映射与化简并行编程模型将任务分解与结果汇总,实现关联规则、分类和聚类等数据挖掘算法的并行执行。本发明能有效地对智能电网环境下海量电力设备状态监测信息进行分布式数据交换、冗余存储与快速并行处理。
(1)            状态监测分布式数据交换
变电站设备状态监测的分布式数据交换由变电站状态监测远程单元(CRU)与网省公司状态监测通信前置机(CFC)构成,采用Web服务描述语言(WSDL)定义CAG与CAC的状态监测服务接口、状态监测服务消息与参数、状态监测信息传输方式与消息格式,建立状态监测数据交换的服务模型,通过简单对象访问协议(SOAP)实现变压器、断路器与容性设备等状态监测数据的远程传输,具体方法如下:
1)状态监测服务接口的定义。为CRU与CFC分别定义抽象服务接口CRUServiceInterface与CFCServiceInterface。CRU与CFC之间的数据交换分为主动上传与命令下发两类过程。CRU平时处于堵塞状态,周期性主动唤醒,向CFC上传数据,为CFC定义上传心跳信息、配置信息与状态监测数据等操作,供CRU来调用。另外,CFC还需要主动唤醒CRU,来下发控制命令,为CRU定义控制命令等操作,供CFC来调用。
2)状态监测服务消息与参数的描述。为上述操作定义请求消息与响应消息,请求消息类似于函数的输入参数,而响应消息类似于函数的返回值,并约束输入与返回参数的数据类型,其中心跳信息请求消息输入参数包括标识符、工作状态与网络状态等,配置信息请求消息输入参数包括标识符、数据上传周期与配置参数等,状态监测数据请求消息输入参数包括监测数据代码、监测数据值与告警状态等;
3)状态监测信息传输方式与消息格式的定义。将CRUServiceInterface与CFCServiceInterface服务接口绑定为简单对象访问协议(SOAP),传输方式采用超文本传送协议(HTTP),并采用document/literal作为状态监测信息的编码方式。
4)访问端点的部署绑定。指定特定网络地址来定义访问端点,通过该地址访问所提供的状态监测服务,例如CFC服务访问端点(CFCServicePort)的网络地址为http:// 202.206.212.90/CFC_WS/CFCService.asmx,客户端将通过该地址访问CFC所提供的状态监测服务。
5)状态监测数据的交换过程如下:
a)CRU处于堵塞状态,周期性主动唤醒后,发起调用远程对象CFC的状态监测数据服务的远程过程调用(RPC)请求;
b)状态监测数据服务的RPC请求被封装成一个采用结构化描述语言(XML)编码的SOAP请求消息,发送到 CFC的SOAP服务器上;
c)CFC的SOAP服务器解码收到的 SOAP 请求消息,对变压器、断路器与容性设备等状态监测数据进行业务逻辑处理,判断是否存在缓存的尚未发出的配置与控制命令等,再将处理结果封装成SOAP 响应消息;
d)CRU获得状态监测数据服务的响应消息后,判断是否执行配置与控制命令。
(2)状态监测数据的存储与查询
利用虚拟化监视器或虚拟化平台对服务器、存储设备与网络设备等硬件资源进行虚拟化,以虚拟机为单位构建Web服务器集群、应用服务器集群与数据库服务器集群作为运行环境。将收集的海量状态监测数据存储在Hadoop分布式文件系统(HDFS)集群中,采用主/从架构,主节点负责检测HDFS是否有新的文件产生,并分发给子节点让其创建索引,子节点根据文件记录创建索引,并插入到Hadoop结构化数据表(HBase)中。查询客户端发送请求,在获得状态监测数据查询列表后,从HDFS的状态监测数据文件中读出详细的状态监测数据记录,并逐一返回客户端,如图2所示。
状态监测数据的存储与查询的具体步骤如下:
1)从CFC收集的状态监测数据以文件形式组织,直接将数据以二进制的形式存放到文件里,不包含任何的冗余数据,将数据转化为便于查询的结构化形式。读取状态监测数据文件,逐行扫描每个状态监测数据记录; 
2)将文件扫描检测和索引创建分布在不同节点上,设置主节点服务器对状态文件检测和索引创建,检测是否产生新的状态监测文件,将新的状态监测文件名整合成索引创建请求,并分发给子节点处理。如果子节点失效,转移到其他子节点上。子节点部分检测请求是否到来以及是否为合理,每当子节点接收到一个状态监测数据文件索引创建任务,将从HDFS中读取的状态监测文件数据读入内存中,并记录该文件的名称;
3)对文件中的每个状态监测数据记录逐行扫描,提取出对查询有效字段,添加到列表中,根据这些常用字段建立索引表,例如在状态监测数据索引中,其索引字段为“变电站id+监测时间+数据”;
4) 将状态监测数据文件产生的索引表插入到HBase中,接受并处理用户的状态数据查询请求,并检测该请求是否合理,查询遍历索引表;
5) 索引表中行键为查询字段,偏移量为状态监测数据记录在状态数据文件中的位置,即文件名加偏移量,查询将通过文件名和偏移量来获取数据,一张表的行键按照字节序顺序排序,对于指定查询条件,拼接成合理的查询字节序,通过直接定位到行键或者行键的上一个行键,快速获得满足条件的状态监测索引数据,读取后续的数据,获得满足条件的状态监测数据位置信息;当行键不满足时,则查询索引完毕;
 6) 根据所获得所有满足条件的状态监测位置信息集合,从状态数据文件中读出所有的状态监测数据记录,将查询结果返回给客户端。
(3)状态监测数据仓库与数据分析
通过提取、转换与加载生成规范的、无冗余的基础数据,并生成多维度的分析性数据存储在分布式数据仓库中。通过映射与化简并行编程模型(MapReduce)将任务分解与结果汇总,实现电力设备状态检修中关联规则、分类和聚类等数据挖掘算法的并行化。状态监测数据仓库建立与数据挖掘并行化的技术方案如下:
1)状态监测数据的抽取。对于现有的长期存储在关系型数据库中的电力设备历史状态数据,经过数据净化、转换、标准化后,以文件的形式存储于HDFS的数据结点上。
2)状态监测数据仓库的建立。首先采用Hive查询语言(HiveQL)创建Hive表,Hive表的定义、字段以及间隔符信息均存储于元数据库中,然后加载HDFS数据文件到Hive表以构造数据文件目录。根据变电站、设备类型、监测类型与时间等状态监测主题组织成分区,按照列属性将数据组织成数据桶。
3)状态监测数据分析。参看图3,客户端发起状态监测数据分析请求,根据请求命令的内容查询元数据库中对应的表模式,若满足则进入Hive数据文件目录查询相应的Hive表,通过HiveQL找到状态监测量字段,获取满足条件的状态量值,进行聚类、求和、汇总、报表生成等操作。最后,将操作生成的查询分析计划存储在HDFS数据仓库中,并将状态数据分析结果返回给客户端。
4)状态监测数据挖掘的并行化。将包括关联规则、分类和聚类的算法运行分发给作业进程(JobTracker,部署在主节点)管理下的各个任务进程(TaskTracker,部署在从节点)共同完成;设置并行化引擎实例,通过映射与化简并行编程模型(MapReduce)将学习过程中的大规模数据集运算分割为若干训练子集分配给多个映射节点(Mapper),在Mapper节点上分别执行各种操作得到中间结果,最后通过化简节点(Reducer)将结果合并,实现算法的并行执行,如图4所示。
专业术语解释
 (1)云计算
一种网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机技术和网络技术发展融合的产物。云计算通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的系统,并借助商业模式把计算能力分布到用户手中。 
(2)智能电网
智能电网,就是电网的智能化,也被称为“电网2.0”,它是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、先进的设备技术、先进的控制方法以及先进的决策支持系统技术的应用,实现电网的可靠、安全、经济、高效、环境友好和使用安全的目标,其主要特征包括自愈、激励和包括用户、抵御攻击、提供满足21世纪用户需求的电能质量、容许各种不同发电形式的接入、启动电力市场以及资产的优化高效运行。不同国家针对本国的能源现状制定了不同的智能电网目标。美国侧重于建设现代化电力系统,并注重需求侧管理和可再生能源的应用;欧洲侧重推广分布式发电,比如微电网组网及运行、分布式发电控制、需求侧管理等;日本将主要围绕大规模开发太阳能等新能源,确保电力系统稳定,构建智能电网;中国提出建设“坚强智能电网”,包含电力系统的发电、输电、变电、配电、用电和调度共6个环节,具有信息化、自动化、互动化的智能技术特征。
(2)状态监测
状态监测包括在线监测,必要时的离线检测及试验,以及不与运行设备直接接触的所有可得到运行状态数据的手段,在线监测是指直接安装在设备本体上可实时记录表征设备运行状态特征量的测量系统及技术。
(3)状态监测远程单元(CRU)
部署在变电站内的,能以标准方式对站内各类综合监测单元或状态监测装置进行状态监测信息获取及控制的一种装置。
(4)状态监测通信前置机(CFC)
部署在主站系统侧的一种关口设备,能以标准方式远程连接变电站内状态监测设备,获取并校验各类状态监测信息, 并可进行控制的一种计算机。

Claims (3)

1.一种状态监测数据的分布式存储与并行挖掘方法,其特征是,通过Web服务描述语言定义变电站状态监测远程单元与状态监测通信前置机的功能服务模型,通过简单对象访问协议进行电力广域网环境下电力设备状态监测数据交换;将大规模状态监测数据冗余存储在分布式文件系统中,对状态监测数据文件创建索引表,并插入到大规模结构化数据表中,根据查询请求完成状态监测数据查询;通过提取、转换与加载生成基础数据与多维度的分析性数据建立数据仓库,并通过映射与化简并行编程模型进行任务分解与结果汇总,实现关联规则、分类和聚类数据挖掘算法的并行执行;
状态监测数据仓库建立与数据挖掘并行化处理步骤如下:
a.状态监测数据的抽取:对于现有的长期存储在关系型数据库中的电力设备历史状态数据,经过数据净化、转换、标准化后,以文件的形式存储于HDFS的数据结点上;
b.状态监测数据仓库的建立:首先采用Hive查询语言HiveQL创建表,表的定义、字段以及间隔符信息均存储于元数据库中,然后加载HDFS数据文件到表以构造数据文件目录;根据变电站、设备类型、监测类型与时间状态监测主题组织成分区,按照列属性将数据组织成数据桶;
c.状态监测数据分析:客户端发起状态监测数据分析请求,根据请求命令的内容查询元数据库中对应的表模式,若满足则进入数据文件目录查询相应的表,通过HiveQL找到状态监测量字段,获取满足条件的状态量值,进行聚类、求和、汇总、报表生成操作,最后,将操作生成的查询分析计划存储在HDFS数据仓库中,并将状态数据分析结果返回给客户端;
d.状态监测数据挖掘的并行化:将包括关联规则、分类和聚类的算法运行分发给作业进程管理下的各个任务进程共同完成;设置并行化引擎实例,通过映射与化简并行编程模型MapReduce将学习过程中的大规模数据集运算分割为若干训练子集分配给多个映射节点Mapper,在映射节点上分别执行各种操作得到中间结果,最后通过化简节点Reducer将结果合并,实现算法的并行执行。
2.根据权利要求1所述状态监测数据的分布式存储与并行挖掘方法,其特征是,状态监测数据交换的具体方法为:
a.状态监测服务接口的定义:采用Web服务描述语言WSDL,为变电站状态监测远程单元CRU定义抽象服务接口CRUServiceInterface以及控制命令操作,为状态监测通信前置机CFC定义抽象服务接口CFCServiceInterface以及上传心跳信息、配置信息、状态监测数据操作;
b.状态监测服务消息与参数的描述:为上述操作定义请求消息与响应消息,并约束输入与返回参数的数据类型,其中心跳信息请求消息输入参数包括标识符、工作状态与网络状态,配置信息请求消息输入参数包括标识符、数据上传周期与配置参数,状态监测数据请求消息输入参数包括监测数据代码、监测数据值与告警状态;
c.状态监测信息传输方式与消息格式的定义:将CRUServiceInterface与CFCServiceInterface服务接口绑定为简单对象访问协议SOAP,传输方式采用超文本传送协议HTTP,并采用document/literal作为状态监测信息的编码方式;
d.访问端点的部署绑定: 为CRUServiceInterface与CFCServiceInterface指定特定网络地址来定义访问端点,通过该地址访问所提供的状态监测服务;
e.状态监测数据的交换过程如下:
① CRU处于堵塞状态,周期性主动唤醒后,发起调用远程对象CFC的状态监测数据服务的远程过程调用RPC请求;
② 状态监测数据服务的RPC请求被封装成一个采用结构化描述语言XML编码的SOAP请求消息,发送到 CFC的SOAP服务器上;
③ CFC的SOAP服务器解码收到的 SOAP 请求消息,对变压器、断路器与容性设备的状态监测数据进行业务逻辑处理,判断是否存在缓存的尚未发出的配置与控制命令,再将处理结果封装成SOAP 响应消息;
④ CRU获得状态监测数据服务的响应消息后,判断是否执行配置与控制命令。
3.根据权利要求2所述状态监测数据的分布式存储与并行挖掘方法,其特征是,状态监测数据的存储与查询的具体步骤如下:
a.从CFC收集的状态监测数据以文件形式组织,直接将数据以二进制的形式存放到文件里,不包含任何的冗余数据,将数据转化为便于查询的结构化形式,读取状态监测数据文件,逐行扫描每个状态监测数据记录; 
b.将文件扫描检测和索引创建分布在不同节点上,设置主节点服务器对状态文件检测和索引创建,检测是否产生新的状态监测文件,将新的状态监测文件名整合成索引创建请求,并分发给子节点处理,如果子节点失效,转移到其他子节点上,子节点部分检测请求是否到来以及是否为合理,每当子节点接收到一个状态监测数据文件索引创建任务,将从Hadoop分布式文件系统HDFS中读取的状态监测文件数据读入内存中,并记录该文件的名称;
c.对文件中的每个状态监测数据记录逐行扫描,提取出对查询有效字段,添加到列表中,根据这些常用字段建立索引表;
d. 将状态监测数据文件产生的索引表插入到分布式列存储的Hadoop结构化数据表HBase中,接受并处理用户的状态数据查询请求,并检测该请求是否合理,查询遍历索引表;
e.索引表中行键为查询字段,偏移量为状态监测数据记录在状态数据文件中的位置,即文件名加偏移量,查询将通过文件名和偏移量来获取数据,一张表的行键按照字节序顺序排序,对于指定查询条件,拼接成合理的查询字节序,通过直接定位到行键或者行键的上一个行键,快速获得满足条件的状态监测索引数据,读取后续的数据,获得满足条件的状态监测数据位置信息;当行键不满足时,则查询索引完毕;
f. 根据所获得所有满足条件的状态监测位置信息集合,从状态数据文件中读出所有的状态监测数据记录,将查询结果返回给客户端。
CN201210130726.8A 2012-04-29 2012-04-29 一种状态监测数据的分布式存储与并行挖掘方法 Expired - Fee Related CN102685221B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210130726.8A CN102685221B (zh) 2012-04-29 2012-04-29 一种状态监测数据的分布式存储与并行挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210130726.8A CN102685221B (zh) 2012-04-29 2012-04-29 一种状态监测数据的分布式存储与并行挖掘方法

Publications (2)

Publication Number Publication Date
CN102685221A CN102685221A (zh) 2012-09-19
CN102685221B true CN102685221B (zh) 2014-12-03

Family

ID=46816574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210130726.8A Expired - Fee Related CN102685221B (zh) 2012-04-29 2012-04-29 一种状态监测数据的分布式存储与并行挖掘方法

Country Status (1)

Country Link
CN (1) CN102685221B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220360A (zh) * 2017-06-07 2017-09-29 云南电网有限责任公司信息中心 一种基于海量电力监测数据的统一模型化存储接入方法

Families Citing this family (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116595B (zh) * 2012-10-24 2016-08-10 中国电力科学研究院 面向电网的scada历史数据分布式存储的实现方法
CN103810224B (zh) * 2012-11-15 2017-04-12 阿里巴巴集团控股有限公司 信息持久化和查询方法及装置
CN103049510A (zh) * 2012-12-14 2013-04-17 金华电业局 一种基于文件存储的电网监测数据历史播映方法
CN103268336A (zh) * 2013-05-13 2013-08-28 刘峰 一种快数据和大数据结合的数据处理方法及其系统
CN103246749B (zh) * 2013-05-24 2018-08-03 北京立新盈企大数据技术股份有限公司 面向分布式计算的矩阵数据库系统及其查询方法
KR101480867B1 (ko) * 2013-05-31 2015-01-09 삼성에스디에스 주식회사 맵리듀스 연산 가속 시스템 및 방법
CN103439629B (zh) * 2013-08-05 2016-11-02 国家电网公司 基于数据网格的配电网故障诊断系统
CN103455563B (zh) * 2013-08-15 2016-12-28 国家电网公司 一种适用于智能变电站一体化监控系统的数据挖掘方法
CN103532739B (zh) * 2013-09-25 2017-09-29 上海斐讯数据通信技术有限公司 一种基于网络服务与应用的监控分析系统
CN103617211A (zh) * 2013-11-20 2014-03-05 浪潮电子信息产业股份有限公司 一种HBase加载数据的导入方法
CN103605805B (zh) * 2013-12-09 2016-10-26 冶金自动化研究设计院 一种海量时序数据的存储方法
CN103955863B (zh) * 2014-04-10 2016-08-17 中国南方电网有限责任公司超高压输电公司检修试验中心 一种电网监测装置数据的处理方法
CN104035956A (zh) * 2014-04-11 2014-09-10 江苏瑞中数据股份有限公司 一种基于分布式列存储的时间序列数据存储方法
CN105005570B (zh) * 2014-04-23 2018-02-16 国家电网公司 基于云计算的海量智能用电数据挖掘方法及装置
CN105022763B (zh) * 2014-04-30 2019-03-26 深圳市东方博雅科技有限公司 实现数据查询的方法和系统
CN103955801B (zh) * 2014-05-15 2017-02-22 华北电力大学 基于时空维度的电力系统分布式并行计算管理方法
CN103970903B (zh) * 2014-05-27 2017-05-24 重庆大学 基于Web的大型工业系统反馈数据实时处理方法及系统
CN104050246B (zh) * 2014-06-04 2016-06-08 广东电网有限责任公司茂名供电局 输变电设备状态监测数据的预处理方法和系统
CN104156810A (zh) * 2014-07-31 2014-11-19 国网山东省电力公司 一种基于云计算的电力调度生产管理系统及其实现方法
CN104268709A (zh) * 2014-10-10 2015-01-07 浪潮集团有限公司 一种采用分布式lsm树的rfid系统设计方法
CN105577403A (zh) * 2014-10-14 2016-05-11 中兴通讯股份有限公司 基于频繁路径的告警相关性数据挖掘方法和装置
CN104391957A (zh) * 2014-12-01 2015-03-04 浪潮电子信息产业股份有限公司 一种针对混合型大数据处理系统的数据交互分析方法
CN104579833B (zh) * 2014-12-30 2018-10-09 国家电网公司 一种基于Hadoop的FLASH P2P流媒体实时监测方法
BR112017020503B1 (pt) * 2015-03-27 2023-10-24 Bühler AG Método e sistema para controle de processo de usinas em uma rede de máquina a máquina com base em opc-ua
CN104748796A (zh) * 2015-03-30 2015-07-01 浪潮集团有限公司 一种传感方法、传感器和传感集群
CN105007294B (zh) * 2015-05-26 2018-06-08 华北电力大学(保定) 输变电设备状态监测大数据快速接收和分发系统
CN105046327B (zh) * 2015-06-03 2017-07-18 王宝会 一种基于机器学习技术的智能电网信息系统及方法
CN105843182B (zh) * 2015-09-11 2018-08-24 国家电网公司西北分部 一种基于oms的电力调度事故预案系统及方法
CN105335497A (zh) * 2015-10-26 2016-02-17 北斗恒星(北京)科技发展有限公司 一种基于云计算的北斗林业数据采集与处理方法
CN105445579B (zh) * 2015-11-17 2018-06-22 国网山东省电力公司电力科学研究院 多尺度时序分析的油色谱在线监测数据可视化系统及方法
CN106815274B (zh) * 2015-12-02 2022-02-18 中兴通讯股份有限公司 基于Hadoop的日志数据挖掘方法及系统
CN106844398B (zh) * 2015-12-07 2020-08-18 中国电力科学研究院 一种多源异构能源数据汇集系统
CN105608758B (zh) * 2015-12-17 2018-03-27 山东鲁能软件技术有限公司 一种基于算法组态和分布式流计算的大数据分析平台装置及方法
CN105608144B (zh) * 2015-12-17 2019-02-26 山东鲁能软件技术有限公司 一种基于多层模型迭代的大数据分析平台装置及方法
CN105930441B (zh) * 2016-04-18 2019-04-26 华信咨询设计研究院有限公司 一种无线电监测数据查询方法
CN105930426B (zh) * 2016-04-18 2019-03-08 华信咨询设计研究院有限公司 无线电监测数据查询方法
CN106100885A (zh) * 2016-06-23 2016-11-09 浪潮电子信息产业股份有限公司 一种网络安全告警系统及设计方案
CN106127879A (zh) * 2016-06-24 2016-11-16 都城绿色能源有限公司 用于新能源发电设备的移动智能巡检管理系统及巡检方法
CN106228000A (zh) * 2016-07-18 2016-12-14 北京千安哲信息技术有限公司 过度医疗检测系统及方法
CN106407171B (zh) * 2016-11-03 2023-09-26 华能澜沧江水电股份有限公司 基于树形结构的安全监测自定义报表的生成系统及方法
CN108108358B (zh) * 2016-11-24 2024-02-06 全球能源互联网研究院 一种电能质量数据的存储和检索方法
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用
CN108536705B (zh) 2017-03-02 2021-10-01 华为技术有限公司 数据库系统中对象的编码及运算方法与数据库服务器
CN108694220A (zh) * 2017-04-12 2018-10-23 普天信息技术有限公司 一种空气质量指数获取方法及装置
CN107832354B (zh) * 2017-10-23 2021-07-20 珠海许继芝电网自动化有限公司 一种分布式缓存的配电网智能运维管控系统
CN107908672B (zh) * 2017-10-24 2022-01-14 深圳前海微众银行股份有限公司 基于Hadoop平台的应用报表实现方法、设备及存储介质
CN108039956A (zh) * 2017-10-30 2018-05-15 深圳前海微众银行股份有限公司 应用监控方法、系统和计算机可读存储介质
CN107943927B (zh) * 2017-11-21 2018-10-16 清华大学 一种分布式存储系统中多维数据的存储模式转换方法
CN108228819A (zh) * 2017-12-29 2018-06-29 武汉长江仪器自动化研究所有限公司 基于大数据平台的大坝变形预测方法
CN108334557B (zh) * 2017-12-29 2022-03-11 东软集团(上海)有限公司 一种聚合数据分析方法、装置、存储介质及电子设备
CN108614071B (zh) * 2018-03-21 2020-02-07 中国科学院自动化研究所 分布式室外大气质量监测精度校正系统及参数更新方法
CN109600413B (zh) * 2018-04-23 2021-04-06 中国科学院高能物理研究所 一种基于高能物理事例的数据管理与传输方法
CN108769026B (zh) * 2018-05-31 2022-02-15 康键信息技术(深圳)有限公司 用户账号检测系统和方法
CN108614537A (zh) * 2018-06-15 2018-10-02 北京智邦安科技有限公司 一种智能控制与优化系统
CN109145051A (zh) * 2018-07-03 2019-01-04 阿里巴巴集团控股有限公司 分布式数据库的数据汇总方法及装置和电子设备
CN110795115B (zh) * 2018-08-01 2023-08-08 飞狐信息技术(天津)有限公司 一种探针程序更新方法及系统
CN109582528B (zh) * 2018-09-11 2023-02-28 创新先进技术有限公司 状态监测方法、装置、电子设备及计算机可读存储介质
CN109274742A (zh) * 2018-09-27 2019-01-25 北京工业大学 一种物联网数据采集与监视控制系统
CN109361577B (zh) * 2018-12-20 2020-01-14 李斯嘉 一种基于分布式传感器的数据监测方法和系统
CN110059091B (zh) * 2019-04-22 2020-08-11 成都四方伟业软件股份有限公司 索引构建的方法、装置、客户端、服务器及系统
CN110515938B (zh) * 2019-05-09 2023-12-01 北京科东电力控制系统有限责任公司 基于kafka消息总线的数据汇聚存储方法、设备和存储介质
CN110727689A (zh) * 2019-09-09 2020-01-24 杭州玖欣物联科技有限公司 一种合并设备状态信息的方法
CN110825744B (zh) * 2019-10-31 2023-06-20 武汉工程大学 一种基于集群环境的空气质量监测大数据分区存储方法
CN111078731A (zh) * 2019-11-25 2020-04-28 国网冀北电力有限公司 基于Hbase的电网运行数据协同查询方法、设备及存储介质
CN111159146B (zh) * 2019-12-06 2023-07-25 北京国电通网络技术有限公司 一种嵌入式数据库的处理方法及其装置
CN111162910A (zh) * 2019-12-20 2020-05-15 杭州能信科技有限公司 一种多语言的高并发的新能源发电数据的加密传输方案
CN111198881A (zh) * 2019-12-23 2020-05-26 江苏货斯基网络科技有限公司 一种高效提取车联网高阶数据的方法及系统
CN111125152B (zh) * 2019-12-26 2023-10-13 积成电子股份有限公司 一种基于数据处理过程模型的全链路数据管控方法
CN111563650A (zh) * 2020-03-30 2020-08-21 嘉兴恒创电力集团有限公司华创信息科技分公司 城市级综合能源实时监控分析系统及方法
CN111581200B (zh) * 2020-05-09 2020-11-17 江苏博昊智能科技有限公司 一种基于mes的生产管理系统
CN111935215A (zh) * 2020-06-29 2020-11-13 广东科徕尼智能科技有限公司 物联网数据管理方法、终端、系统以及存储装置
CN111813783B (zh) * 2020-07-27 2024-03-26 南方电网数字电网研究院有限公司 数据处理方法、装置、计算机设备和存储介质
CN112261041B (zh) * 2020-10-21 2021-08-13 中国科学院信息工程研究所 一种电力终端多级分布式监测与防渗透系统
CN112261042B (zh) * 2020-10-21 2021-10-01 中国科学院信息工程研究所 一种基于攻击危害评估的防渗透系统
CN112737124B (zh) * 2020-12-30 2023-06-02 广东电网有限责任公司电力科学研究院 一种电力设备监测终端构建方法和装置
CN113140053B (zh) * 2021-04-29 2022-11-08 四川虹美智能科技有限公司 基于环形动态线的自动化扫码测试系统及方法
CN113450612B (zh) * 2021-05-17 2022-10-28 云南电网有限责任公司 一种应用于继电保护培训的成套教学装置的开发方法
CN113807179B (zh) * 2021-08-13 2024-04-02 广东广宇科技发展有限公司 同行行为判断方法及系统
CN115242717B (zh) * 2022-09-15 2022-12-09 四川汉唐云分布式存储技术有限公司 一种基于端侧计算的中心化存储系统及控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800440A (zh) * 2010-03-26 2010-08-11 国网电力科学研究院武汉南瑞有限责任公司 配电网状态监测系统及其监测方法
CN101917067A (zh) * 2010-08-13 2010-12-15 华北电力大学(保定) 一种电力设备状态监测装置的集成方法
CN102368634A (zh) * 2011-09-14 2012-03-07 文存润 智能变电站状态监测统一信息平台系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101800440A (zh) * 2010-03-26 2010-08-11 国网电力科学研究院武汉南瑞有限责任公司 配电网状态监测系统及其监测方法
CN101917067A (zh) * 2010-08-13 2010-12-15 华北电力大学(保定) 一种电力设备状态监测装置的集成方法
CN102368634A (zh) * 2011-09-14 2012-03-07 文存润 智能变电站状态监测统一信息平台系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
梁竹靓,石超.基于CORBA技术的分布式电力监控系统的设计.《电力系挽保护与控制》.2008,第36卷(第17期),67-70,93. *
韩如月,李俊刚,宋小会,魏勇,狄军峰.输变电设备状态监测系统设计.《高压电器》.2012,第48卷(第1期),58-63,69. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220360A (zh) * 2017-06-07 2017-09-29 云南电网有限责任公司信息中心 一种基于海量电力监测数据的统一模型化存储接入方法

Also Published As

Publication number Publication date
CN102685221A (zh) 2012-09-19

Similar Documents

Publication Publication Date Title
CN102685221B (zh) 一种状态监测数据的分布式存储与并行挖掘方法
CN104156448A (zh) 基于iec61850客户端/服务器数据交换模型
Zhan et al. Study of the key technologies of electric power big data and its application prospects in smart grid
JP2015007968A (ja) 地理情報システム(gis)ネットワークモデルの同期システム及び方法
Yun et al. Research on intelligent fault diagnosis of power acquisition based on knowledge graph
CN111598376A (zh) 一种基于信息驱动的对电网大数据进行辅助决策的方法及系统
CN114153920A (zh) 大数据边平台与方法
CN108647860A (zh) 基于OpenStack的电力设备状态监测与评估云平台
CN105205039A (zh) 一种可定制的scd文件校验方法
CN102647027A (zh) 一种实现建立电能质量数据交换接口的方法
CN104809664A (zh) 一种配电主站的信息集成方法
Ma et al. Research on Key Technologies of Power Distribution Internet of Things
Yang et al. Technology research on panoramic situation awareness of operation state of smart distribution network
Ye et al. Smart energy management cloud platform design based on offshore wind farm
Hu et al. Optimization analysis of intelligent substation monitoring information based on improved PSO
Zhou et al. Digital power grid construction research of the cross-regional core power transmission grid in southwest China based on ubiquitous electric Internet of things
CN105426615A (zh) 智能变电站电源监测管理体系智能电子设备的建模方法
Qu et al. Integrated Management and Control Platform with Big Data Based on IPv6 for Regional Multi-energy Cooperation
Yun et al. A framework research of power distribution equipment condition monitoring cloud platform based on RESTful web service
Xu et al. An Intelligent Arrangement Method for New Distribution Network Data Sharing Service
Duan et al. Intelligent Monitoring System of Electronic Equipment Based on Wireless Sensor
Li et al. The multi-dimensional power big data mining based on improved grey clustering algorithm
Qiao et al. Research and Implementation of Multi Fusion Data Model Construction Technology for Distribution Network Digital Twins
Sun et al. Research on the Application of Energy Wisdom Based on Power Iot and Big Data
Hu et al. Research on Key technologies of Internet of Things Data Terminal and Integrated Management System for Power mobile devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141203

Termination date: 20210429

CF01 Termination of patent right due to non-payment of annual fee