CN106502772A - 基于分布式离线技术的电量数据批量高速处理方法及系统 - Google Patents

基于分布式离线技术的电量数据批量高速处理方法及系统 Download PDF

Info

Publication number
CN106502772A
CN106502772A CN201610880143.5A CN201610880143A CN106502772A CN 106502772 A CN106502772 A CN 106502772A CN 201610880143 A CN201610880143 A CN 201610880143A CN 106502772 A CN106502772 A CN 106502772A
Authority
CN
China
Prior art keywords
data
distributed
electric quantity
topology
storm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610880143.5A
Other languages
English (en)
Inventor
蒋锦霞
朱青山
裴旭斌
戴波
王红凯
何东
闫娇娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Zhejiang Huayun Information Technology Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Zhejiang Huayun Information Technology Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Zhejiang Huayun Information Technology Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201610880143.5A priority Critical patent/CN106502772A/zh
Publication of CN106502772A publication Critical patent/CN106502772A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

基于分布式离线技术的电量数据批量高速处理方法及系统,涉及一种数据批处理方法及系统。目前,高速海量数据存储计算模型欠缺,未能满足不同种类、不同形式的海量数据存储、计算。本发明包括以下步骤:1)电量采集前置机将采集电量实时发送到Kafka队列缓存;2)Storm集群读取Kafka队列电量信息,并实时存储到Hbase;3)Spark在Hbase中抽取需要处理的电量信息,并将其导入到Hive数据表;4)通过Spark离线计算操作相关Hive数据表得到当期电量,并对相关异常处理;本技术方案集Storm和Spark的优点,提升整体计算处理容量。从事务保障任务节点动态迁移技术,提出完整的任务节点迁移的事务保障协议,在确保迁移过程中流系统消息不丢包、不重复的同时,提高迁移本身的执行效率,提升系统稳定性。

Description

基于分布式离线技术的电量数据批量高速处理方法及系统
技术领域
本发明涉及一种数据批处理方法及系统 ,尤其指基于分布式离线技术的电量数据批量高速处理方法及系统。
背景技术
用电信息采集系统由系统主站、传输信道、采集终端以及智能电表组成。
系统主站负责整个系统的用电信息采集、存储、分析、处理和应用,由通信子系统、数据库、业务应用、接口应用等组成。大部分网省公司采用省级集中部署方式建设。
传输信道分为系统主站与终端之间的远程通信信道、终端与智能电表之间的本地通信信道。当前公司范围内采集系统远程通信信道主要采用GPRS/CDMA无线公网系统、230MHz无线专网信道、电话PSTN、光纤通信信道等。本地通信信道主要采用RS485、低压电力线载波(窄带、宽带)、微功率无线等。
目前,系统采集范围主要为专变用户、公变计量点、低压用户及非统调电厂。各网省公司平均接入用户规模已达千万户级别,平均接入采集终端规模从几万台到几百万台不等,平均数据存储规模开始从TB级别向PB级别迈进。
系统每日采集数据包括现场电能表示数、三相电压曲线、三相电流曲线、有功功率曲线、无功功率曲线、功率因数、电压合格率统计数据、各类终端及电能表事件记录等。不同数据采集频率不同,曲线数据采集频率为最高,达15分钟一次。
但目前,高速海量数据存储计算模型欠缺,现用电信息采集业务数据模型,随着高频数据采集、存储、计算的需要,浙江省全省2000多万低压用户,未能满足不同种类、不同形式的海量数据存储、计算。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于分布式离线技术的电量数据批量高速处理方法,以达到加快处理速度的目的。为此,本发明采取以下技术方案。
基于分布式离线技术的电量数据批量高速处理方法,其包括以下步骤:
1)电量采集前置机将采集电量实时发送到Kafka队列缓存;
2)Storm集群读取Kafka队列电量信息,并实时存储到Hbase;
3)Spark在Hbase中抽取需要处理的电量信息,并将其导入到Hive数据表;
4)通过Spark离线计算操作相关Hive数据表得到当期电量,并对相关异常处理。
Storm可以实现正真流式实时的处理数据,例如每次处理一条消息,这样,延迟就可以控制在秒级以下,实时性很高;
在数据容错能力方面,spark的容错是通过状态记录去实现的, spark会将所有的处理过程状态都以log的形式记录下来;spark的批处理特点,能够保证每个批处理的所有数据只处理一次,保证数据不会在恢复的时候错乱(批处理重新执行)。
本技术方案集Storm和Spark的优点,提升整体计算处理容量。从事务保障任务节点动态迁移技术,提出完整的任务节点迁移的事务保障协议,在确保迁移过程中流系统消息不丢包、不重复的同时,提高迁移本身的执行效率,提升系统稳定性。
作为对上述技术方案的进一步完善和补充,本发明还包括以下附加技术特征。
在步骤2)中,Storm集群包括一个主节点Nimbus和一群工作节点Supervisor,并通过 Zookeeper进行协调;Nimbus负责在集群里面分发代码,分配计算任务给机器,并且监控状态;Supervisor监听分配给它那台机器的工作,根据需要启动/关闭工作进程。
Supervisor的每一个工作进程执行一个topology的一个子集;一个运行的topology由运行在多台机器上的多个工作进程组成。
计算任务Topology是由不同的Spouts和Bolts,通过数据流连接起来的图;Spout作为Storm中的消息源,用于为Topology生产消息,从外部数据源不间断地读取数据并发送给Topology消息;Bolt为Storm中的消息处理者,用于为Topology进行消息的处理,Bolt处理包括消息过滤、聚合、查询数据库,其对消息作逐级处理。
最后,Topology被提交到Storm集群中运行;或通过命令停止Topology的运行,将Topology占用的计算资源归还给Storm集群。
基于分布式离线技术的电量数据批量高速处理系统包括:
HDFS集群:用于存储原始数据文件,包括电量、负荷数据;
分布式消息队列存储模块:用于对电量采集前置机采集到的电量进行队列缓存;
分布式数据库:用于存储分布式电量数据;
数据处理工具模块:在系统部署初始化时,使用Sqoop工具直接从关系数据库读取档案数据,并将数据存储到分布式文件存储中,提供给各个分布式计算服务调用档案数据;在系统运行过程中,从关系数据库读取增量档案更新数据,并可将数据实时更新到云平台的分布式文件存储中,为分布式流计算和离线计算提供准确的基础信息;
分布式流计算模块: 采用Apache Storm进行分布式实时计算;读取分布式消息队列存储模块数据,并实时存储到分布式数据库;
分布式离线计算模块:用于在分布式数据库中抽取需要处理的电量信息,并将其导入到Hive数据表;通过Spark离线计算处理相关Hive数据表得到当期电量,并对相关异常处理;
运维监控模块:根据各个应用框架的交互和状态数据,进行可视化的界面展现,同时通过读取各个计算服务存储在分布式数据库中的日志信息以及收集的文本日志信息,监控计算服务的运行状态,实现计算节点的热部署;对计算服务进行实时任务调度。
运维监控模块通过直接读取ZooKeeper中存储的整个Hadoop生态圈的各个应用框架的交互和状态数据,进行可视化的界面展现,同时通过读取各个计算服务存储在分布式数据库中的日志信息以及由Flume收集的文本日志信息,监控计算服务的运行状态,通过调用脚本的方式,实现计算节点的热部署;当需要更改任务调度时,通过直接修改ZooKeeper中的任务数据对计算服务进行实时任务调度;其中ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务。
分布式流计算模块针对每个存储和计算服务功能部署独立的Topolopy,根据每个Topolopy的不同数据特性和性能特点,配置对应的节点数和进程数,通过与分布式MySql和HBase的接口进行数据的实时读取和写入。Storm为一个免费、开源的分布式实时计算系统,其在用电信息采集系统中,针对每个存储和计算服务功能部署独立的Topolopy,可针对每个Topolopy的不同数据特性和性能特点,配置不同的节点数和进程数,充分利用服务器资源,实现将终端上报的大量数据流的高速存储。
分布式离线计算模块在Spark的MLlib内置用于机器学习和应用的实现库,实现库存储内容包括分类、回归、聚类、协同过滤、降维,以为用电信息采集系统中复杂的分析计算提供了原生算法支持。Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,充分利用了内存加速,很好的解决了交互式查询和迭代式机器学习的效率问题。
有益效果:本技术方案集Storm和Spark的优点,提升整体计算处理容量。从事务保障任务节点动态迁移技术,提出完整的任务节点迁移的事务保障协议,在确保迁移过程中流系统消息不丢包、不重复的同时,提高迁移本身的执行效率,提升系统稳定性。
附图说明
图1是本发明流程图。
图2是本发明系统框图。
图3是本发明实时流计算框图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
目前,采集系统可广泛应用于公司营销及其他多个专业。通过远程自动抄表应用实现电费抄核收模式的转变,支撑阶梯电价和峰谷电价的全面实施,自动抄表核算比率达92%以上;通过费控功能应用有效提高了电费回收效率,减小电费风险;通过计量装置在线监测实现对现场计量装置的运行状态评估,对保障电网安全稳定运行、反窃电和降低计量偏差造成的舆情发挥重要作用;通过线损监测应用,降低台区线损,并为同期线损计算提供重要技术支撑;通过分布式电源监测,一方面可实现对分布式电源的有序利用,另一方面可实现配电网的安全、可靠运行;通过市场分析与需求侧管理应用更好的掌握用户的负荷情况和用电规律,有效支撑有序用电工作快速响应,为电力需求侧分析提供数据支撑;通过电能质量监测应用支撑配电网电压质量、供电可靠性的自动统计,提高供电的安全性、可靠性和经济性。同时,采集系统还向营销业务系统、供电电压监测系统、电能质量在线监测系统、省级计量中心生产调度平台、营销稽查监控系统、配网抢修指挥平台、运营监测(控)中心等多个业务应用系统提供接口数据。采集系统正推动着电力营销管理模式的重大变革,并已成为包括营销在内的各专业不可或缺的重要基础支撑系统。
故提高采集系统的计算处理速度,显得尤为重要。
为了提高采集系统的处理速度,如图1所示,电量数据批量处理方法包括以下步骤:
1)电量采集前置机将采集电量实时发送到Kafka队列缓存;
2)Storm集群读取Kafka队列电量信息,并实时存储到Hbase;
3)Spark在Hbase中抽取需要处理的电量信息,并将其导入到Hive数据表;
4)通过Spark离线计算操作相关Hive数据表得到当期电量,并对相关异常处理。
Storm可以实现正真流式实时的处理数据,例如每次处理一条消息,这样,延迟就可以控制在秒级以下,实时性很高;
在数据容错能力方面,spark的容错是通过状态记录去实现的, spark会将所有的处理过程状态都以log的形式记录下来;spark的批处理特点,能够保证每个批处理的所有数据只处理一次,保证数据不会在恢复的时候错乱(批处理重新执行)。Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大。得益于弹性分布式数据集(RDD)的数据对象操作模式,Spark在计算效率方面远高于Hadoop MapReduce。
本技术方案集Storm和Spark的优点,提升整体计算处理容量。从事务保障任务节点动态迁移技术,提出完整的任务节点迁移的事务保障协议,在确保迁移过程中流系统消息不丢包、不重复的同时,提高迁移本身的执行效率,提升系统稳定性。
在步骤2)中,Storm集群包括一个主节点Nimbus和一群工作节点Supervisor,并通过 Zookeeper进行协调;Nimbus负责在集群里面分发代码,分配计算任务给机器,并且监控状态;Supervisor监听分配给它那台机器的工作,根据需要启动/关闭工作进程。
Supervisor的每一个工作进程执行一个topology的一个子集;一个运行的topology由运行在多台机器上的多个工作进程组成。
计算任务Topology是由不同的Spouts和Bolts,通过数据流连接起来的图;Spout作为Storm中的消息源,用于为Topology生产消息,从外部数据源不间断地读取数据并发送给Topology消息;Bolt为Storm中的消息处理者,用于为Topology进行消息的处理,Bolt处理包括消息过滤、聚合、查询数据库,其对消息作逐级处理。
最后,Topology被提交到Storm集群中运行;或通过命令停止Topology的运行,将Topology占用的计算资源归还给Storm集群。
如图2所示,基于分布式离线技术的电量数据批量高速处理系统包括:
HDFS集群:用于存储原始数据文件,包括电量、负荷数据;
分布式消息队列存储模块:用于对电量采集前置机采集到的电量进行队列缓存;
分布式数据库:用于存储分布式电量数据;
数据处理工具模块:在系统部署初始化时,使用Sqoop工具直接从关系数据库读取档案数据,并将数据存储到分布式文件存储中,提供给各个分布式计算服务调用档案数据;在系统运行过程中,从关系数据库读取增量档案更新数据,并可将数据实时更新到云平台的分布式文件存储中,为分布式流计算和离线计算提供准确的基础信息;
分布式流计算模块: 采用Apache Storm进行分布式实时计算;读取分布式消息队列存储模块数据,并实时存储到分布式数据库;
分布式离线计算模块:用于在分布式数据库中抽取需要处理的电量信息,并将其导入到Hive数据表;通过Spark离线计算处理相关Hive数据表得到当期电量,并对相关异常处理;
运维监控模块:根据各个应用框架的交互和状态数据,进行可视化的界面展现,同时通过读取各个计算服务存储在分布式数据库中的日志信息以及收集的文本日志信息,监控计算服务的运行状态,实现计算节点的热部署;对计算服务进行实时任务调度。
分布式离线计算模块采用Apache Spark技术,Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,与Hadoop的区别在于它充分利用了内存加速,很好的解决了交互式查询和迭代式机器学习的效率问题。同时可使用Spark框架中MLlib提供的大量开源算法工具,通过SparkSQL的方式直接读取HDFS文件系统中存储的电量、负荷等原始数据文件,实现各种复杂的分析计算,并将计算结果通过内置接口返回关系数据库或者HBase。
分布式流计算模块采用Apache Storm技术,Apache Storm是一个免费、开源的分布式实时计算系统,现已升级为Apache顶级项目。在用电信息采集系统中,针对每个存储和计算服务功能部署独立的Topolopy,可针对每个Topolopy的不同数据特性和性能特点,配置不同的节点数和进程数,充分利用服务器资源,实现将终端上报的大量数据流的高速存储。通过与分布式MySql和HBase的接口进行数据的实时读取和写入。
在系统部署初始化时,可使用Sqoop工具直接从关系数据库读取档案数据,并将数据通过MR计算的方式直接存储到分布式文件存储中,提供给各个分布式计算服务调用档案数据。在系统运行过程中,通过使用Oracle GoldenGate工具从关系数据库读取增量档案更新数据,并可将数据实时更新到云平台的分布式文件存储(如HBase和Hive)中,为分布式流计算和离线计算提供准确的基础信息。
运维监控模块可以通过直接读取ZooKeeper中存储的整个Hadoop生态圈的各个应用框架的交互和状态数据,进行可视化的界面展现。同时可通过读取各个计算服务存储在分布式数据库中的日志信息以及由Flume收集的文本日志信息,监控计算服务的运行状态,通过调用Shell脚本等方式,实现计算节点的热部署。必要时通过直接修改ZooKeeper中的任务数据对计算服务进行实时任务调度。ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
对于主数据库中的计算任务,使用关系数据库的作业调度定时执行存储过程来实现用电信息采集系统中安装覆盖、抄表统计等统计分析功能。DBMS_JOB包是Oracle提供的内部函数包,提供了管理和调度作业队列中的作业定时执行的控制机制。可以通过DBMS_JOB可视化的管理和配置计算任务的定时执行情况,以及通过存储过程输出日志了解计算任务的内部计算详情。
分布式离线计算,目前主流的分布式离线计算框架有Apache Hive和ApacheSpark,现在都属于 Apache 基金会下的顶级项目。Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大。得益于弹性分布式数据集(RDD)的数据对象操作模式,Spark在计算效率方面远高于Hadoop MapReduce。当Spark的MLlib内置了一些机器学习算法和应用的实现库,包括分类、回归、聚类、协同过滤、降维等,为用电信息采集系统中复杂的分析计算提供了原生算法支持。
如图3所示,分布式流计算模块基于Storm进行实时流计算,它提供了一系列的基本元素用于进行计算:Topology、Stream、Spout、Bolt等等。将整个集群主要由一个主节点(Nimbus后台程序)和一群工作节点(worker node)Supervisor的节点组成,通过Zookeeper进行协调,Nimbus类似Hadoop里面的JobTracker。Nimbus负责在集群里面分发代码,分配计算任务给机器,并且监控状态。从事务保障任务节点动态迁移技术,提出完整的任务节点迁移的事务保障协议,在确保迁移过程中流系统消息不丢包、不重复的同时,提高迁移本身的执行效率,提升系统稳定性。每一个工作节点上面运行一个叫做Supervisor的节点。Supervisor会监听分配给它那台机器的工作,根据需要启动/关闭工作进程。每一个工作进程执行一个topology的一个子集;一 个运行的topology由运行在很多机器上的很多工作进程组成。
计算任务Topology是由不同的Spouts和Bolts,通过数据流(Stream)连接起来的图。Spout作为Storm中的消息源,用于为Topology生产消息(数据),一般是从外部数据源不间断地读取数据并发送给Topology消息(tuple元组)。
Bolt作为Storm中的消息处理者,用于为Topology进行消息的处理,Bolt可以执行过滤,聚合,查询数据库等操作,而且可以一级一级的进行处理。
最终,Topology会被提交到Storm集群中运行;也可以通过命令停止Topology的运行,将Topology占用的计算资源归还给Storm集群。
为进一步说明本技术方案能有效实现电量数据批量高速处理,以下就选择Storm、Spark进行计算处理的理由作进一步说明。
一、Storm功能性对比
测试方法
Storm和Spark Streaming是一个流处理技术,以tuple为基本单位,每个tuple可以包含多个字段(field)。我们给tuple定义两个字段:
l Data: 存放原始的数据,这里是1000字节的数据,此测试中我们仅仅是直接的转发数据,所以唯一的处理开销就是1000字节的内存拷贝
l ltsInfo: 时间戳信息,每经过一个处理模块,在此字段中追加上当时的时间戳,最后统计模块就可以根据这些时间信息计算出总延迟等。由于不同的机器时间戳并不同步,这给计算延迟带来了固有误差,解决的办法就是把数据发送模块和最后的统计模块放到一台物理机上。
关于在分布式集群上测试storm的一个说明:在storm上,很难给某个模块(component)指定其运行的物理机,storm总是自动的把任务平均分配给集群中的各个机器,因此在测试中我们将使用storm的工作方式来扩展, sender与processer不在同一台机器,并与以上测试结果对比。由于不同主机上时间戳不同步,为了消除由此带来的误差,我们必须将数据产生模块sender和最后的计算模块stats放到同一台计算机上,将数据处理模块放到另一台计算机上。
二、Spark与Hive技术性能测试
功能特性对比
对比项 Spark Hive
数据处理模型、数据延迟性 Spark得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法。 MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的性能问题。
数据保护、容错能力 Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。这些数据对象既可以放在内存,也可以放在磁盘。 Hive将每次处理后的数据都写入到磁盘上
框架实现以及编程API Spark支持Scala、Java、Python等几种语言(译者blogchong.com注:spark最合适的编程语言是scala,虽然也支持java,但实现起来很麻烦) 通过使用类SQL 的HiveQL 语言实现数据查询。Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。
测试方法
借助Spark与Hive的SQL客户端工具,测试日常关键读写操作SQL的性能和执行效率,测试数据规模取其中一张大表数据,以浙江2300万用户为例,日电量2300万行记录,一月按31日计算,则测试数据为7.13亿行数据集。
以上图1-3所示的基于分布式离线技术的电量数据批量高速处理方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。

Claims (9)

1.基于分布式离线技术的电量数据批量高速处理方法,其特征在于包括以下步骤:
a)电量采集前置机将采集电量实时发送到Kafka队列缓存;
b)Storm集群读取Kafka队列电量信息,并实时存储到Hbase;
c)Spark在Hbase中抽取需要处理的电量信息,并将其导入到Hive数据表;
d)通过Spark离线计算操作相关Hive数据表得到当期电量,并对相关异常处理。
2.根据权利要求1所述的基于分布式离线技术的电量数据批量高速处理方法,其特征在于:在步骤2)中,Storm集群包括一个主节点Nimbus和一群工作节点Supervisor,并通过Zookeeper进行协调;Nimbus负责在集群里面分发代码,分配计算任务给机器,并且监控状态;Supervisor监听分配给它那台机器的工作,根据需要启动/关闭工作进程。
3.根据权利要求2所述的基于分布式离线技术的电量数据批量高速处理方法,其特征在于:Supervisor的每一个工作进程执行一个topology的一个子集;一个运行的topology由运行在多台机器上的多个工作进程组成。
4.根据权利要求2所述的基于分布式离线技术的电量数据批量高速处理方法,其特征在于:计算任务Topology是由不同的Spouts和Bolts,通过数据流连接起来的图;Spout作为Storm中的消息源,用于为Topology生产消息,从外部数据源不间断地读取数据并发送给Topology消息;Bolt为Storm中的消息处理者,用于为Topology进行消息的处理,Bolt处理包括消息过滤、聚合、查询数据库,其对消息作逐级处理。
5.根据权利要求3所述的基于分布式离线技术的电量数据批量高速处理方法,其特征在于: 最后,Topology被提交到Storm集群中运行;或通过命令停止Topology的运行,将Topology占用的计算资源归还给Storm集群。
6.根据权利要求1所述的基于分布式离线技术的电量数据批量高速处理系统,其特征在于包括:
HDFS集群:用于存储原始数据文件,包括电量、负荷数据;
分布式消息队列存储模块:用于对电量采集前置机采集到的电量进行队列缓存;
分布式数据库:用于存储分布式电量数据;
数据处理工具模块:在系统部署初始化时,使用Sqoop工具直接从关系数据库读取档案数据,并将数据存储到分布式文件存储中,提供给各个分布式计算服务调用档案数据;在系统运行过程中,从关系数据库读取增量档案更新数据,并可将数据实时更新到云平台的分布式文件存储中,为分布式流计算和离线计算提供准确的基础信息;
分布式流计算模块: 采用Apache Storm进行分布式实时计算;读取分布式消息队列存储模块数据,并实时存储到分布式数据库;
分布式离线计算模块:用于在分布式数据库中抽取需要处理的电量信息,并将其导入到Hive数据表;通过Spark离线计算处理相关Hive数据表得到当期电量,并对相关异常处理;
运维监控模块:根据各个应用框架的交互和状态数据,进行可视化的界面展现,同时通过读取各个计算服务存储在分布式数据库中的日志信息以及收集的文本日志信息,监控计算服务的运行状态,实现计算节点的热部署;对计算服务进行实时任务调度。
7.根据权利要求5所述的基于分布式离线技术的电量数据批量高速处理系统,其特征在于:运维监控模块通过直接读取ZooKeeper中存储的整个Hadoop生态圈的各个应用框架的交互和状态数据,进行可视化的界面展现,同时通过读取各个计算服务存储在分布式数据库中的日志信息以及由Flume收集的文本日志信息,监控计算服务的运行状态,通过调用脚本的方式,实现计算节点的热部署;当需要更改任务调度时,通过直接修改ZooKeeper中的任务数据对计算服务进行实时任务调度;其中ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务。
8.根据权利要求5所述的基于分布式离线技术的电量数据批量高速处理系统,其特征在于:分布式流计算模块针对每个存储和计算服务功能部署独立的Topolopy,根据每个Topolopy的不同数据特性和性能特点,配置对应的节点数和进程数,通过与分布式MySql和HBase的接口进行数据的实时读取和写入。
9.根据权利要求5所述的基于分布式离线技术的电量数据批量高速处理系统,其特征在于:当分布式离线计算模块在Spark的MLlib内置用于机器学习和应用的实现库,实现库存储内容包括分类、回归、聚类、协同过滤、降维,以为用电信息采集系统中复杂的分析计算提供了原生算法支持。
CN201610880143.5A 2016-10-09 2016-10-09 基于分布式离线技术的电量数据批量高速处理方法及系统 Pending CN106502772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610880143.5A CN106502772A (zh) 2016-10-09 2016-10-09 基于分布式离线技术的电量数据批量高速处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610880143.5A CN106502772A (zh) 2016-10-09 2016-10-09 基于分布式离线技术的电量数据批量高速处理方法及系统

Publications (1)

Publication Number Publication Date
CN106502772A true CN106502772A (zh) 2017-03-15

Family

ID=58294933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610880143.5A Pending CN106502772A (zh) 2016-10-09 2016-10-09 基于分布式离线技术的电量数据批量高速处理方法及系统

Country Status (1)

Country Link
CN (1) CN106502772A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153681A (zh) * 2017-04-19 2017-09-12 畅捷通信息技术股份有限公司 一种用户注册转换方法及系统
CN107220360A (zh) * 2017-06-07 2017-09-29 云南电网有限责任公司信息中心 一种基于海量电力监测数据的统一模型化存储接入方法
CN107704545A (zh) * 2017-11-08 2018-02-16 华东交通大学 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法
CN107918830A (zh) * 2017-11-20 2018-04-17 国网重庆市电力公司南岸供电分公司 一种基于大数据技术的配电网运行状态评估系统及方法
CN108109075A (zh) * 2017-12-04 2018-06-01 广东电网有限责任公司电力科学研究院 一种基于分布式技术的离线计算平台
CN108595120A (zh) * 2018-04-11 2018-09-28 广东电网有限责任公司 一种scada准实时数据存储方法及系统
CN109636124A (zh) * 2018-11-18 2019-04-16 韩霞 基于大数据的电力行业低压台区线损分析方法及处理系统
CN109714388A (zh) * 2018-11-16 2019-05-03 深圳供电局有限公司 一种基于流处理的停上电事件实时分析系统及方法
CN109783556A (zh) * 2018-12-24 2019-05-21 浙江工业大学 基于Hadoop和SSM架构的电能质量治理设备在线监控系统及构建方法
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN110022226A (zh) * 2019-01-04 2019-07-16 国网浙江省电力有限公司 一种基于面向对象的数据采集系统及采集方法
CN110019143A (zh) * 2018-04-03 2019-07-16 中建材信息技术股份有限公司 基于敏捷数据仓库的运维系统及方法
CN110032558A (zh) * 2019-04-12 2019-07-19 重庆天蓬网络有限公司 一种数据同步方法、装置、系统及存储介质
CN110069474A (zh) * 2019-04-03 2019-07-30 平安普惠企业管理有限公司 一种数据转移方法及相关设备
CN110309115A (zh) * 2018-03-14 2019-10-08 华东交通大学 融合实时计算与离线计算的铁道配电网海量信息处理方法
CN110471914A (zh) * 2019-06-27 2019-11-19 苏宁云计算有限公司 一种实时数据处理中维度关联的方法及系统
CN110490229A (zh) * 2019-07-16 2019-11-22 昆明理工大学 一种基于spark和聚类算法的电能表检定误差诊断方法
CN110908883A (zh) * 2019-11-15 2020-03-24 江苏满运软件科技有限公司 用户画像数据监控方法、系统、设备及存储介质
CN111061812A (zh) * 2019-12-17 2020-04-24 江苏满运软件科技有限公司 大数据分布式存储方法、装置、电子设备、存储介质
CN111107137A (zh) * 2019-12-06 2020-05-05 携程旅游信息技术(上海)有限公司 通信数据同步及处理方法和系统
CN111144696A (zh) * 2019-11-28 2020-05-12 国电南瑞科技股份有限公司 一种基于大数据的轨道交通数据分析方法
CN111177276A (zh) * 2020-01-06 2020-05-19 浙江中烟工业有限责任公司 一种基于Spark计算框架的动能数据处理系统及方法
CN111190706A (zh) * 2018-11-14 2020-05-22 中国电力科学研究院有限公司 一种基于电力交易的多任务优化引擎驱动方法及其系统
CN111522637A (zh) * 2020-04-14 2020-08-11 重庆邮电大学 一种基于成本效益的storm任务调度方法
CN111898009A (zh) * 2020-06-16 2020-11-06 华北电力大学 一种多源电力数据融合的分布式采集系统及方法
CN112148578A (zh) * 2020-10-12 2020-12-29 贵州电网有限责任公司 基于机器学习的it故障缺陷预测方法
CN112330320A (zh) * 2020-11-09 2021-02-05 烟台海颐软件股份有限公司 基于分布式计算的电费抄核业务自动化处理系统及方法
CN112711593A (zh) * 2021-01-04 2021-04-27 浪潮云信息技术股份公司 一种实现混合事务分析的大数据处理方法
CN112804331A (zh) * 2021-01-14 2021-05-14 杭州海兴泽科信息技术有限公司 一种基于消息总线的电能表数据处理方法、系统和电能表
CN112800073A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种基于NiFi更新Delta Lake的方法
CN113486063A (zh) * 2021-07-05 2021-10-08 国网河北省电力有限公司信息通信分公司 电力物联网中流数据处理方法、装置及终端设备
CN114168605A (zh) * 2021-12-08 2022-03-11 镁佳(北京)科技有限公司 一种数据上报方法、装置和设备
CN114637786A (zh) * 2022-03-14 2022-06-17 徐工汉云技术股份有限公司 一种车辆工时离线计算方法及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354268A (zh) * 2015-10-27 2016-02-24 国网山东省电力公司济南供电公司 一种抄表数据管理系统
CN105574643A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种电网实时数据中心与大数据平台融合方法
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105354268A (zh) * 2015-10-27 2016-02-24 国网山东省电力公司济南供电公司 一种抄表数据管理系统
CN105574643A (zh) * 2015-11-23 2016-05-11 江苏瑞中数据股份有限公司 一种电网实时数据中心与大数据平台融合方法
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107153681A (zh) * 2017-04-19 2017-09-12 畅捷通信息技术股份有限公司 一种用户注册转换方法及系统
CN107220360A (zh) * 2017-06-07 2017-09-29 云南电网有限责任公司信息中心 一种基于海量电力监测数据的统一模型化存储接入方法
CN107704545A (zh) * 2017-11-08 2018-02-16 华东交通大学 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法
CN107918830A (zh) * 2017-11-20 2018-04-17 国网重庆市电力公司南岸供电分公司 一种基于大数据技术的配电网运行状态评估系统及方法
CN107918830B (zh) * 2017-11-20 2021-11-23 国网重庆市电力公司南岸供电分公司 一种基于大数据技术的配电网运行状态评估方法
CN108109075A (zh) * 2017-12-04 2018-06-01 广东电网有限责任公司电力科学研究院 一种基于分布式技术的离线计算平台
CN110309115A (zh) * 2018-03-14 2019-10-08 华东交通大学 融合实时计算与离线计算的铁道配电网海量信息处理方法
CN110019143A (zh) * 2018-04-03 2019-07-16 中建材信息技术股份有限公司 基于敏捷数据仓库的运维系统及方法
CN108595120A (zh) * 2018-04-11 2018-09-28 广东电网有限责任公司 一种scada准实时数据存储方法及系统
CN111190706A (zh) * 2018-11-14 2020-05-22 中国电力科学研究院有限公司 一种基于电力交易的多任务优化引擎驱动方法及其系统
CN109714388A (zh) * 2018-11-16 2019-05-03 深圳供电局有限公司 一种基于流处理的停上电事件实时分析系统及方法
CN109636124A (zh) * 2018-11-18 2019-04-16 韩霞 基于大数据的电力行业低压台区线损分析方法及处理系统
CN109783556A (zh) * 2018-12-24 2019-05-21 浙江工业大学 基于Hadoop和SSM架构的电能质量治理设备在线监控系统及构建方法
CN109829005A (zh) * 2019-01-03 2019-05-31 中国联合网络通信集团有限公司 一种大数据处理方法及装置
CN110022226A (zh) * 2019-01-04 2019-07-16 国网浙江省电力有限公司 一种基于面向对象的数据采集系统及采集方法
CN110022226B (zh) * 2019-01-04 2023-04-04 国网浙江省电力有限公司 一种基于面向对象的数据采集系统及采集方法
CN110069474A (zh) * 2019-04-03 2019-07-30 平安普惠企业管理有限公司 一种数据转移方法及相关设备
CN110032558A (zh) * 2019-04-12 2019-07-19 重庆天蓬网络有限公司 一种数据同步方法、装置、系统及存储介质
CN110471914A (zh) * 2019-06-27 2019-11-19 苏宁云计算有限公司 一种实时数据处理中维度关联的方法及系统
CN110471914B (zh) * 2019-06-27 2022-07-12 苏宁云计算有限公司 一种实时数据处理中维度关联的方法及系统
CN110490229A (zh) * 2019-07-16 2019-11-22 昆明理工大学 一种基于spark和聚类算法的电能表检定误差诊断方法
CN110908883A (zh) * 2019-11-15 2020-03-24 江苏满运软件科技有限公司 用户画像数据监控方法、系统、设备及存储介质
CN110908883B (zh) * 2019-11-15 2022-08-30 江苏满运软件科技有限公司 用户画像数据监控方法、系统、设备及存储介质
CN111144696A (zh) * 2019-11-28 2020-05-12 国电南瑞科技股份有限公司 一种基于大数据的轨道交通数据分析方法
CN111107137A (zh) * 2019-12-06 2020-05-05 携程旅游信息技术(上海)有限公司 通信数据同步及处理方法和系统
CN111061812A (zh) * 2019-12-17 2020-04-24 江苏满运软件科技有限公司 大数据分布式存储方法、装置、电子设备、存储介质
CN111061812B (zh) * 2019-12-17 2022-09-02 江苏满运软件科技有限公司 大数据分布式存储方法、装置、电子设备、存储介质
CN111177276B (zh) * 2020-01-06 2023-10-20 浙江中烟工业有限责任公司 一种基于Spark计算框架的动能数据处理系统及方法
CN111177276A (zh) * 2020-01-06 2020-05-19 浙江中烟工业有限责任公司 一种基于Spark计算框架的动能数据处理系统及方法
CN111522637B (zh) * 2020-04-14 2024-03-29 深圳市凌晨知识产权运营有限公司 一种基于成本效益的storm任务调度方法
CN111522637A (zh) * 2020-04-14 2020-08-11 重庆邮电大学 一种基于成本效益的storm任务调度方法
CN111898009A (zh) * 2020-06-16 2020-11-06 华北电力大学 一种多源电力数据融合的分布式采集系统及方法
CN112148578A (zh) * 2020-10-12 2020-12-29 贵州电网有限责任公司 基于机器学习的it故障缺陷预测方法
CN112330320A (zh) * 2020-11-09 2021-02-05 烟台海颐软件股份有限公司 基于分布式计算的电费抄核业务自动化处理系统及方法
CN112711593A (zh) * 2021-01-04 2021-04-27 浪潮云信息技术股份公司 一种实现混合事务分析的大数据处理方法
CN112804331A (zh) * 2021-01-14 2021-05-14 杭州海兴泽科信息技术有限公司 一种基于消息总线的电能表数据处理方法、系统和电能表
CN112800073B (zh) * 2021-01-27 2023-03-28 浪潮云信息技术股份公司 一种基于NiFi更新Delta Lake的方法
CN112800073A (zh) * 2021-01-27 2021-05-14 浪潮云信息技术股份公司 一种基于NiFi更新Delta Lake的方法
CN113486063A (zh) * 2021-07-05 2021-10-08 国网河北省电力有限公司信息通信分公司 电力物联网中流数据处理方法、装置及终端设备
CN114168605A (zh) * 2021-12-08 2022-03-11 镁佳(北京)科技有限公司 一种数据上报方法、装置和设备
CN114637786A (zh) * 2022-03-14 2022-06-17 徐工汉云技术股份有限公司 一种车辆工时离线计算方法及存储介质

Similar Documents

Publication Publication Date Title
CN106502772A (zh) 基于分布式离线技术的电量数据批量高速处理方法及系统
CN110022226B (zh) 一种基于面向对象的数据采集系统及采集方法
CN106651633B (zh) 一种基于大数据技术的用电信息采集系统及其采集方法
CN104820670B (zh) 一种电力信息大数据的采集和存储方法
CN107733986A (zh) 支持一体化部署及监控的保护运行大数据支撑平台
CN102855525B (zh) 一种居民用户负荷预测分析系统和方法
CN103927318B (zh) 智能用电交互系统及方法
CN106547882A (zh) 一种智能电网中营销大数据的实时处理方法及系统
CN103955509A (zh) 一种海量电力计量数据的快速检索方法
CN103607466B (zh) 一种基于云计算的广域多级分布式并行电网分析方法
Liu et al. Real-time complex event processing and analytics for smart grid
CN108170073B (zh) 一种智能光伏云平台
CN102903011A (zh) 一种用于面向工矿企业的安全生产云服务平台的海量数据处理系统
CN104156296A (zh) 智能监控大规模数据中心集群计算节点的系统和方法
CN106850249A (zh) 基于大数据分析的通信网络预警分析系统
CN102903010A (zh) 一种用于面向工矿企业的安全生产云服务平台的基于支持向量机的异常判断方法
CN102880802A (zh) 一种用于面向工矿企业安全生产云服务平台系统的重大危险源的分析评价方法
CN107256442B (zh) 基于移动客户端的线损计算方法
CN108846555A (zh) 一种电力负荷大数据缺失值的高效精确填补法
CN102930372A (zh) 一种用于面向工矿企业安全生产云服务平台系统的关联规则的数据分析方法
CN112527857A (zh) 基于智能电表的多角度线损可视化数据分析平台
Dong et al. Forecasting smart meter energy usage using distributed systems and machine learning
CN112559634A (zh) 一种基于计算机云计算大数据用数据管理系统
CN103530328B (zh) 一种数据统计分析系统和方法
CN107656995A (zh) 面向大数据的数据管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315