CN114416855A

CN114416855A - 一种基于电力大数据的可视化平台及方法

Info

Publication number: CN114416855A
Application number: CN202111530135.5A
Authority: CN
Inventors: 魏孟举; 杨洋; 胡梦锦; 潘明明; 刘钊; 赵贤龙
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; Economic and Technological Research Institute of State Grid Hebei Electric Power Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-29

Abstract

本发明提供了一种基于电力大数据的可视化平台及方法，包括：数据处理端和在线数据分析前端；所述数据处理端，用于对电力系统运行数据进行数据整合、存储管理和复杂数据计算分析，得到电力大数据并进行数据传输；所述在线数据分析前端，用于基于预先建立的电力系统模型对所述电力大数据进行分析，组织成可视化所需的数据结构，并通过可视化技术进行展示。利用本发明可以处理规模庞大的电力大数据，处理时效性高，并且能够处理的数据类型复杂多样，弥补了传统技术手段非结构化以及空间矢量数据等其他数据格式处理能力的不足，解决了传统技术手段不能满足电力大数据处理的问题，实现了电力大数据在线分析、多维查询和大规模分析计算等主要业务应用。

Description

一种基于电力大数据的可视化平台及方法

技术领域

本发明属于能源和信息科学学科领域，具体涉及一种基于电力大数据的可视化平台及方法。

背景技术

随着信息技术和电力自动化技术在电网的广泛应用，以及电网的智能化发展趋势，人们在电网的发电，输电，变电，配电，调度和用电六大环节安装了大量的数据采集和监控设备，从而产生了包括运行监测信息，检修信息，用电数据，消费数据，以及企业的管理数据等的海量电力数据。电网领域相关监测系统采集的数据量巨大，并且每年持续增加，包含结构化、半结构化和非结构化等不同结构数据，在电力数据规模井喷式增长的同时，所隐藏的价值也逐渐增加。电力大数据主要包括电网运行及设备监测数据、电力企业营销数据和电力企业管理数据。具体可分为：如电量、电压指标等组成的生产数据；如用电客户、交易电价等组成的运营数据。对这些基于电网的实际数据展开深入分析，将会产生大量有价值的信息，为电网运行过程中的安全控制、用电预测和异常检测电力调度决策支持等方面提供有力支撑。由于电力大数据研究方向不仅仅是技术进步，更是涉及整个电力系统在大数据时代下发展理念、管理体制和技术路线等方面的重大变革，是下一代智能化电力系统在大数据时代下价值形态的跃升。

但这些电力大数据具有数据体量大、数据类型繁多、价值密度低以及需要快速处理的特点，而目前电网使用的集中式传统模式处理数据能力有限，难以从海量数据中挖掘出有价值的信息来反映电网的运行情况。且面对海量增长的电力大数据，利用单一服务器作为支撑的传统模式存在处理速度慢，系统效率低的问题。因此，需要对现有的数据分析平台进行升级，增加对电力数据资源价值挖掘的研究。

发明内容

为克服上述现有技术的不足，本发明提出一种基于电力大数据的可视化平台，包括：数据处理端和在线数据分析前端；

所述数据处理端，用于对电力系统运行数据进行数据整合、存储管理和复杂数据计算分析，得到电力大数据并进行数据传输；

所述在线数据分析前端，用于基于预先建立的电力系统模型对所述电力大数据进行分析，组织成可视化所需的数据结构，并通过可视化技术进行展示。

优选的，所述数据处理端，包括：分布式存储环境、开发工具集和访问接口；

所述分布式存储环境，由扩展的Hadoop平台构成，用于数据存储、核心计算、云数据查询和提供访问接口；

所述开发工具集，用于通过并行数据仓库技术实现各种应用逻辑到大数据环境的转换，提供数据源管理、调度管理、脚本管理和监控管理；

所述访问接口以服务的形式对在线数据分析前端提供接口，支持数据的复杂查询和大规模分析计算的业务。

优选的，所述分布式存储环境，具体包括：云存储、分布式存储系统、并行分析与计算环境、云数据查询环境、实时数据库和关系型数据库；

所述云存储，用于通过数据迁移工具将源数据库迁移到分布式存储系统中；

所述分布式存储系统，用于作为后台数据管理的文件系统；

所述并行分析与计算环境，用于结合查询及计算涉及的档案信息进行核心计算；

所述云数据查询环境，用于实现数据管理、日志管理、标管理和结构管理；

所述实时数据库，用于进行数据存储、数据加工、曲线查询和断面查询；

所述关系型数据库，用于存储事务密集型数据和档案类数据。

优选的，所述分布式存储系统采用主从结构，包括：多个备份的主节点和从节点；

所述多个备份的主节点，用于向从节点分发任务、避免从节点发生单点故障时数据发生损坏、平衡数据集群和保证数据完整；

所述从节点，用于接收并执行主节点分配的任务。

优选的，所述关系型数据库为GreenPlum关系型数据库，用于处理大规模的数据分析任务，所述大规模的数据分析任务包括数据仓库、在线数据分析和数据挖掘；

所述GreenPlum关系型数据库采用双主节点的分布式设计，用于提高大数据集群的可用性，兼容多种电力系统，并构建高效的在线数据分析平台；

所述GreenPlum关系型数据库中的主节点负责查询解析优化和任务分配；

所述GreenPlum关系型数据库中的数据节点为PostgreSQL，负责实际执行查询任务。

优选的，所述并行分析与计算环境，包括：基于结构化查询语言的在线分析模块和Spark并行计算框架。

优选的，所述Spark并行计算框架采用基于内存的计算技术，通过将非结构化的数据转化成结构化数据存储进数据仓库，并经过数据导入和治理并编写机器学习程序建立自定义模型，结合大数据复杂计算系统完成复杂数据的深度分析。

优选的，所述开发工具集，具体包括：

脚本管理及优化工具、结构化查询语言解析工具、任务调度管理工具和正确性验证工具。

优选的，所述访问接口的具体形式包括：应用程序编程接口、结构化查询语言、全球广域网和用户识别系统。

优选的，所述在线数据分析前端的接口采用JAX-RS技术；

所述在线数据分析前端的接口内部是基于GreenPlum的数据仓库，使用结构化查询语言查询数据，采用GreenPlum进行最终计算，用于发掘数据的规律、提高决策效率和能力。

优选的，所述在线数据分析前端中包含用电信息采集系统业务应用模块，具体用于：

线损监测、反窃电监测、市场分析与需求侧管理、电能质量监测与可靠性统计、分布式电源监测、基础数据查询、用户电量计算、台区线损分析、报文数据分析和数据完整率分析。

优选的，所述基于电力大数据的可视化平台还包括用电信息采集系统前置机群，用于采集电力系统运行数据。

基于同一发明构思，本发明还提供了一种基于电力大数据的可视化方法，包括：

通过数据处理端对所述电力系统运行数据进行数据整合、存储管理和复杂数据计算分析，得到电力大数据并进行数据传输；

通过在线数据分析前端，基于预先建立的电力系统模型对所述电力大数据进行分析，组织成可视化所需的数据结构，并通过可视化技术进行展示。

优选的，所述通过数据处理端对所述电力系统运行数据进行数据整合、存储管理和复杂数据计算分析，得到电力大数据并进行数据传输，包括：

利用云存储通过数据迁移工具将电力系统运行数据安全完整的迁移到分布式存储系统中；

结合查询及计算涉及的档案信息，通过基于结构化查询语言的在线分析模块进行电力系统运行数据的查询、过滤、分类和聚合，以Spark并行计算框架作为数据仓库进行数据存储，并通过Spark并行计算框架进行复杂数据计算分析；

基于复杂数据计算分析的结果，结合数据特点和可视化挖掘类型，利用云数据查询环境生成设定格式的可视化模型数据和档案类数据进行存储，并通过开发工具集进行复杂查询和大规模分析计算，得到电力大数据；

通过访问接口进行所述电力大数据的数据传输。

优选的，所述以Spark并行计算框架作为数据仓库进行数据存储，包括：

以Spark并行计算框架中自定义接收器作为生产者提取数据，并存入ApacheSpark Streaming中；

通过所述Apache Spark Streaming对提取的数据进行消息获取，并通过转换-载入过程存入Greenplum关系型数据库。

优选的，所述以Spark并行计算框架中自定义接收器作为生产者提取数据，并存入Apache Spark Streaming中，包括：

当所述Spark并行计算框架中自定义接收器初始化时，启动数据导入；

通过启动多工作线程，对导入的数据进行提取，并存储到Apache Sparkstreaming中。

优选的，所述通过转换-载入过程存入Greenplum关系型数据库，包括：

基于继承的BaseETLJob，通过连接Greenplum关系型数据库，调用generateSQL进行数据转换，得到结构化查询语言；

通过BaseETLJob将所述结构化查询语言载入Greenplum关系型数据库。

优选的，所述通过Spark并行计算框架进行复杂数据计算分析，包括：通过Spark并行计算框架进行复杂数据计算分析的启动和停止；

通过Spark并行计算框架进行复杂数据计算分析的启动包括，通过Spark并行计算框架中的大数据复杂计算系统，将各Spark调用归入自定义名字的任务组中，直到重新设定不同的任务组；

通过Spark并行计算框架进行复杂数据计算分析的停止包括，通过Spark并行计算框架中的大数据复杂计算系统，直接发送停止指令，停止指定任务组的计算。

优选的，所述通过Spark并行计算框架中的大数据复杂计算系统，调用各Spark归入自定义名字的任务组中，直到重新设定不同的任务组之后，还包括：

通过所述大数据复杂计算系统中的JobManager向所述在线数据分析前端发送任务启动信息；

通过所述JobManager写入并更新任务记录；

当发现未捕获的异常时，对异常对象进行捕获并发送至JobManager中将该任务标记为失败并将异常写入结果中。

与最接近的现有技术相比，本发明具有的有益效果如下：

本发明利用Hadoop平台的分布式存储和并行化处理技术，解决了在线分析接口、复杂计算接口、抽取转换装载等数据可视化和数据分析的问题；通过采用主从结构设计的分布式存储系统，增强了数据的吞吐性，减少了开销，提升了数据分析的稳定性；通过GreenPlum关系型数据库，能够兼容多种电力系统，提升了数据的查询性能和存储扩展能力；通过Spark并行计算技术，可以达到处理数据密集型应用的目的；采用基于JAX-RS技术的在线分析接口，可以进一步发掘数据的规律，提高大数据决策效率和能力。

附图说明

图1为本发明提供的一种基于电力大数据的可视化平台整体架构图；

图2为本发明提供的一种基于电力大数据的可视化平台详细的软件架构图；

图3为本发明提供的一种基于电力大数据的可视化平台的分布式存储系统主从分布式架构图；

图4为本发明提供的一种基于电力大数据的可视化平台的GreenPlum关系型数据库架构图；

图5为本发明提供的一种基于电力大数据的可视化平台的数据分析框架图；

图6为本发明提供的一种基于电力大数据的可视化平台的Spark分布式计算技术结构图；

图7为本发明提供的一种基于电力大数据的可视化平台的Spark集群模式部署架构图；

图8为本发明提供的一种基于电力大数据的可视化平台的ETL系统接口设计示意图；

图9为本发明提供的一种基于电力大数据的可视化平台的ETL系统提取过程示意图；

图10为本发明提供的一种基于电力大数据的可视化平台的ETL系统转换-载入过程示意图；

图11为本发明提供的一种基于电力大数据的可视化平台的大数据复杂计算系统结构示意图；

图12为本发明提供的一种基于电力大数据的可视化平台的大数据复杂计算系统任务启动和停止的主业务逻辑图；

图13为本发明提供的一种基于电力大数据的可视化平台的大数据复杂计算系统的一个任务从校验到执行所经历的状态流程图；

图14为本发明提供的一种基于电力大数据的可视化平台实施例的电力大数据系统的部署示意图；

图15为本发明提供的一种基于电力大数据的可视化平台实施例的OLAP系统数据概况图；

图16为本发明提供的一种基于电力大数据的可视化平台实施例的统计模块的可视化展示效果图；

图17为本发明提供的一种基于电力大数据的可视化平台实施例的按月份聚合信号展示的条形图；

图18为本发明提供的一种基于电力大数据的可视化平台实施例的设备和厂家的关联结果示意图；

图19为本发明提供的一种基于电力大数据的可视化平台实施例的Spark序列比较流程图；

图20为本发明提供的一种基于电力大数据的可视化方法流程示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步的详细说明。

实施例1：

本发明提供的基于电力大数据的可视化平台，其整体架构图如图1所示，包括：数据处理端和在线数据分析前端；

智能电网的发展引起了数据规模爆炸性增长，数据集同时具有体积巨大、来源多样化，数据结构复杂的特征，而当前电网使用的集中式传统处理模式已经难以处理，不能从这些数据中挖掘出更多的价值。为此，利用云计算、大数据分析等信息技术对海量电力数据挖掘分析，实现电力大数据可视化对电力系统安全运行具有重要意义。本发明围绕电力大数据可视化技术展开研究，利用Hadoop平台的分布式存储和并行化处理技术设计了一种电力大数据的可视化平台，解决了在线分析接口、复杂计算接口、抽取转换装载等数据可视化和数据分析问题，并在私有云平台进行部署。该平台具有处理数据规模大，处理时效性高，并且能够处理类型复杂多样数据，弥补传统技术手段数据处理能力的不足，实现了电力大数据在线分析、多维查询和大规模分析计算等主要业务应用。

(一)电力大数据平台设计

(1)需求分析

通过使用智能电表等智能终端设备采集整个电力系统的运行数据，再对采集的电力大数据进行处理分析和可视化处理，从而实现对电网的实时监控。首先对海量电力数据进行挖掘信息，帮助电力系统的工作人员从更深层掌握用电信息的发展趋势；进一步，结合大数据分析与电力系统模型，可以对电网运行进行诊断、优化和负荷预测。具体内容如下：

(1.1)数据整合与互联互通

通过对智能电网指定业务数据进行汇聚，将数据类型繁杂、数据结构定义不一致的数据进行数据清洗和整合管理，为实现数据的分析提供数据支撑，将为跨机构的各类业务系统之间的业务协同，提供统一和集中的数据交互共享服务。

(1.2)海量数据存储管理

大数据平台从各个数据中心的业务系统里抽取的数据量巨大，数据类型繁杂，数据需要持久化的存储和访问。不论是结构化数据、半结构化数据，还是非结构化数据，经过数据存储引擎进行建模后，持久化保存在存储系统上。存储系统要具备高可靠性、快速查询能力。

(1.3)复杂数据计算分析和在线分析(下文以OLAP简称)

海量数据的离线计算能力、高效即席数据查询需求和低时延的实时计算能力。随着数据量的不断增加，需要数据平台具备线性扩展能力和强大的分析能力，以及大规模数据上多维索引和即时查询，支撑不断增长的数据量，满足未来各类业务工作的发展需要，确保业务系统的不间断且有效地工作。

(1.4)数据关联集中需求

对集中存储在数据管理平台的数据，采用数据挖掘技术将这些离散的数据进行关联分析，即：通过分析数据间的业务关系，建立关键数据之间的关联关系，将离散的数据串联起来形成能表达更多含义信息集合，以形成基础库、业务库、知识库等数据集。

(2)整体架构

大数据可视化需要处理海量数据，本发明设计的可视化平台整体架构，主要包括基于云存储的数据处理端和基于Web的OLAP(在线数据分析)前端，本专利设计的可视化平台详细的软件架构图如图2所示。

所述数据处理端，包括：分布式存储环境、开发工具集和访问接口；

其中，分布式存储环境具体包括：云存储、分布式存储系统、并行分析与计算环境、云数据查询环境、实时数据库和关系型数据库；

数据处理端的分布式存储环境由扩展的Hadoop平台构成，承担着数据存储(提取，转化，加载)、核心计算、云数据查询和提供访问接口的任务。首先云存储通过数据迁移工具将不同的源数据库安全完整的迁移到分布式存储系统。然后，通过并行分析与计算环境结合查询及计算涉及的档案信息进行核心计算，一方面基于并行分析与计算环境中的SQL的在线分析，通过编写SQL实现在线分析，包括了查询，过滤，分类，聚合等多种操作；另一方面，通过并行分析与计算环境中的Spark并行计算框架，实现了数据深度分析和挖掘。最后，数据计算和分析结果并不能直接用于生成最终的可视化视图，结合数据特点和可视化挖掘类型，云数据查询环境生成一定格式的可视化模型数据(如低压数据完整率、台区线损计算值等)和档案类数据，并存储于分布式存储环境，同时，向上通过查询引擎支撑复杂查询和支持大规模分析计算，实现数据管理、标管理、日志管理和结构管理等。

数据处理端的开发工具集包括脚本管理及优化工具、正确性验证工具、任务调度管理工具和SQL解析工具等，用于通过并行数据仓库技术(即并行ETL)实现各种应用逻辑到大数据环境的转换，提供包括数据源管理、调度管理、脚本管理、监控管理和具有索引定义以及Map/Reduce的优化等功能。另外，任务调度工具按照任务规划运行业务应用的Map/Reduce任务，维护任务之间的依赖性和关联，保障任务执行的正确性。

数据处理端的访问接口以服务的形式对外部系统提供接口，所述访问接口的具体形式包括：API(应用程序编程接口)、SQL(结构化查询语言)、WEB(全球广域网)和CIS(用户识别系统)。通过访问接口提供支持包括数据的复杂查询、大规模分析计算在内的主要业务，具体包括：电量数据的存储查询、电量数据计算统计、报文数据分析、数据完整率计算分析和档案类数据ETL。

OLAP(在线数据分析)前端是最终呈现给用户的部分，包括各种业务应用相关的应用程序和可视化等几部分。应用程序以服务的形式对外部系统提供接口，将数据计算，组织成需要的数据结构，支持包括数据的复杂查询、大规模分析计算在内的主要业务，并由客户端/可视化技术呈现给工作人员。

OLAP(在线数据分析)前端中含有用电信息采集系统业务应用模块，具体用于：

除上述数据处理端和OLAP前端外，还包括用电信息采集系统前置机群；

所述用电信息采集系统前置机群用于采集电力系统运行数据。

以下(3)-(6)为平台中各部分应用到的具体技术：

(3)分布式存储系统(以下简称HDFS)

本发明由于数据量较大，数据存储显得十分重要。HDFS是Hadoop平台中的分布式文件系统，专门为存储GB规模甚至TB规模的文件而设计，拥有强大的数据吞吐性能，同时使用基于数据密度的调度功能，将用户程序更多地分配到数据量多的节点运行，减少了从目标数据节点到运行计算程序的节点之间传输大量数据的网络开销，提高了处理程序的吞吐量。

HDFS设计时就将故障视作常态，从结构上使用主从结构以提升稳定性，其主从分布式架构如图3所示。图中，Metadata ops即(Orbeon PresentationServer)为元数据描述服务，Block ops为块描述服务，Rack为机架，Replication为块复制，read为读，write为写，client为客户，name为名称，replicas为复制品。

HDFS可配置多个备份的主节点(namenode)来避免单点故障，主节点不参与任何具体的数据操作，它负责将数据操作分发到从节点(即数据节点datanode)，并负责将数据块分配到数据节点上。Hadoop的namenode拥有平衡集群的功能，namenode可以根据自身持有的元数据，判断哪些datanode的数据量较少，并将数据块和备份块平衡过去。由于数据均衡地分配在每一个节点，发生故障时，数据和备份一起损坏掉的概率就更小。针对datanode离线的情况，namenode通过心跳来感知，被标记为离线的节点将不再接受任何操作，存储在这些节点的数据也不再能被访问，直到对应节点重新上线。Hadoop通过给每个数据块创建散列来保证数据完整，客户端取得数据块后会计算校验并比对，如果比对无法通过，客户端可以向其他的datanode请求数据，以保证数据完整。

由于HDFS的这些特性，本发明采用其作为后台数据管理的文件系统。

(4)GreenPlum关系型数据库

电网大量使用了关系型数据库，数据是结构化的，其数据库表之间也存在大量的关联关系。由于NoSQL并不适合处理join查询，故不能直接使用NoSQL。

Join是两个表之间通过特定的有共同点的字段产生关联关系，最终根据一个表找出另一个表中关联的数据条目的操作。而这样的关联关系在电网内部很常见，比如设备的ID，信号的类型等，它们不只是存在于运行数据库，也会存在于调度和检修等各种数据库中。显然，关联查询的需求是一定普遍存在的。本发明采用Hadoop和大规模并行处理(以下简称MPP)数据库混搭的大数据架构，由于基于MPP的关系型数据库可以有效地进行多表关联等复杂的查询，弥补了Hbase/Hive等NoSQL工具在这方面的不足。

Greenplum数据库是最先进的分布式开源数据库技术，其最突出的特色是MPP，主要用来处理大规模的数据分析任务，包括数据仓库、商务智能和数据挖掘等。

GreenPlum的架构如图4所示，从图4看出，GreenPlum采用了双主节点的分布式设计，为集群的高可用性提供了基础。GreenPlum主节点负责查询的解析优化和任务分配，数据节点为PostgreSQL，负责实际执行查询任务。GreenPlum通过MPP技术实现了各个数据节点之间的协调一致，并分布式地执行查询任务。GreenPlum的分布式架构提供了便捷的横向扩展途径，通过大量的X86 PC服务器来提高整个系统的算力，从而提供更快的查询速度和更大的储存容量。

作为GreenPlum的基础，PostgreSQL实现了90％以上的ANSI SQL标准，因此对于符合SQL标准的语句和函数支持性良好，让开发人员可以在不用重复学习知识的情况下掌握PostgreSQL。PostgreSQL内置了大量的数据类型，包括地理信息位置，几何形状，IP地址等结构化的数据，同时，PostgreSQL也支持非结构化数据，在不安装插件和扩展的情况下，PostgreSQL可以支持存储并查询JSON和XML两种数据，这两种数据是互联网上传输信息的主力军，常用于网站接口和网站通讯协议，它们也是重要的非结构化数据(文档类型)的来源之一。

基于PostgreSQL的GreenPlum一方面可以较好地兼容电力系统的系统，另一方面拥有强大的查询性能、存储扩展能力以及应用扩展能力；通过将电网的历史数据抽取，转化，存储到GreenPlum，可以构建高效的大数据在线分析(OLAP)平台。

(5)数据分析框架

由于分析数据量十分巨大，传统的数据分析方式难以适用此场景。为此，本发明采用基于Hadoop的Hive框架分析电网本身的数据。Hadoop是一个由MapReduce模块实现的大数据处理工具,主要的应用场景是在构建数据仓库时，对数据进行抽取、转换和装载操作。MapReduce对于其他语言的开发者来说相对麻烦，而Hive则使SQL语句在Hadoop上的执行成为了可能，达到了提高查询效率的目的。Hive架构如图5所示，图中，CLI为命令行接口，JDBC为Java数据库连接，Driver为驱动程序，Meta store为数据库中的元数据。

(6)Spark分布式计算技术

前面介绍的Hadoop的Hive框架只提供两个操作：map和reduce，表达力欠缺。一个job只有map和reduce两个阶段。复杂的计算需要大量的job完成，job之间的逻辑关系由开发者自己管理时延高，只适用batch数据处理，对于交互式数据处理，实时数据处理的支持不够，并且对于迭代式数据处理性能比较差。

Spark是一种分布式计算技术，专为数据密集型应用设计，其基于内存的计算技术在IO性能上击败了Hadoop Mapreduce，成为了Hadoop的替代者。Spark在电网内将扮演ETL(提取，转化和清洗)和执行复杂计算程序的角色，其中前期更多的是ETL工作，将大量的非结构化的数据转化成结构化数据。经过数据导入和治理后，Spark会承担机器学习的任务，它拥有完善的机器学习库，可以通过编写机器学习程序来建立自定义的模型，从而完成高级的分析。Spark系统结构如图6所示，图中Spark SQL用于提供通过Apache Hive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API；Spark Streaming用于对实时数据流进行处理和控制；GraphX为控制图、并行图操作和计算的一组算法和工具的集合；MLlib为一个常用机器学习算法库；MPI为信息传递接口；Tachyon为速子；Mesos是Apache下的开源分布式资源管理框架，是分布式系统的内核；YARN即(Yet Another Resource Negotiator)为另一种资源协调者。

然而，Spark在单机模式下运行，不但磁盘、内存、CPU资源有限，而且是单点，无法满足企业对于可用性方面的要求，因此实际部署时都会以集群模式部署。集群的架构如图7所示。

(二)电力大数据平台的实现

(1)大数据ETL系统

根据数据仓库ETL可接插、高吞吐的需求，本发明设计采用自定义的Receiver作为生产者，从各种数据库中提取需要的数据，通过Receiver的store()方法将取得的数据存入Apache Streaming，由Apache Spark Streaming上的程序负责取消息，并将消息转化为正确的形式，存入Greenplum数据仓库，形成一个完整的ETL工作流。程序员需要在Streaming平台上实现提取、转化和载入。

提取(Extract)通过实现org.apache.spark.streaming.reciever.Receiver<T>类的方法完成，实现清单如表1。

表1实现自定义接收器需要的方法列表

方法名称	方法作用
		onStart()	开始接受数据，需要新建线程，连接资源等工作
onStop()	工作结束，需要做清理工作，停止开始的线程，回收资源
		Constructor	初始化接收器配置

ETL系统的用户程序基于复杂计算系统接口如图8所示，图中validate为验证，execute为执行。基类BaseETLJob实现复杂计算系统的校验和执行功能，将根据输入的信息选择合适的数据接收器(Receiver)进行提取数据，并将数据通过generateSQL方法转换为目标形式，将数据装载到目标数据库。用户只需要调用generateSQL方法来实现数据的转换过程即可。

图9是提取(Extract)的过程的状态图，图中interaction ReceiverDiagram为接收器间相互作用图；Worker Thread为工作线程；CustomReceiver extends org为接收器延伸结构；loop iterator为环迭代程序。首先调用Receiver的start方法来启动数据导入，该方法将会在用户自定义Receiver初始化ReceiverStream时调用，通过启动多个工作线程即可进行数据的提取，并store到spark streaming等待转换和载入。

图10是转换(Transform)-载入(Load)过程的状态图，图中Spark ExecutorThread为Spark执行线程；loop iterator为环迭代程序。用户需要继承BaseETLJob类，调用generateSQL方法来完成数据的转换，并将其生成为SQL语句，SQL语句则会被BaseETLJob自动提交给数据库执行，完成数据的载入。

(2)大数据复杂计算系统

基于Spark电力大数据平台的运行环境通过大数据复杂系统内部提供的RESTfulAPI接口，实现大数据计算工具服务化，同时大数据复杂计算系统也是大数据ETL的载体。

图11为大数据复杂计算系统的结构，系统在JobServer类通过JAX-RS实现了RESTful API接口，如表2所示。内部由JobManager、PackageManager和ContextSupervisor的交互来实现任务管理，整个应用程序作为一个Spark任务驻留在Spark大数据平台，监听HTTP端口获取指令。

表2大数据复杂计算的主要REST接口

在内部的业务逻辑中，启动和停止任务是关键部分，其业务流程如图12。实现任务的启停使用了两个重要的Spark接口，分别是SparkContext/SparkSession的SetJobGroup()和CancelJobGroup()，其中SetJobGroup()方法能够将此后的所有的Spark调用归入一个自定义名字的任务组中，直到重新调用该方法设定不同的任务组为止。利用这个特性可以在一个Context/Session上运行不同的任务，且不同任务组中的Spark调用不会互相影响。CancelJobGroup()则可以直接通过向任务调度器发送指令，停止指定任务组的计算，这样就可以取消超时或设计错误的任务。

调用SetJobGroup()后，JobManager会在新的线程执行Execute()而后直接向客户端返回任务已启动的信息。新的线程等待Execute()执行完毕，Execute()的返回值则会作为消息发送到JobManager，JobManager将更新任务记录，并把写入结果，此时job的状态变成Finished。如果Execute()在执行过程中遇到未捕获的异常，异常对象会被Execute()捕获，并发送给JobManager，此时该任务被标记为失败，异常的调用栈会被写入结果中。图13为Job的状态图。

(3)OLAP系统接口设计

OLAP系统的Web接口和大规模计算接口同样使用了JAX-RS技术。本发明定义了如表3的几个接口，分别代表了上钻，下钻和切片三种操作，接口内部依赖PostgreSQL/GreenPlum数据仓库，使用SQL查询实现，最终计算交给GreenPlum进行。

OLAP主要基于OMS(调度系统)，EMS(能量管理系统)，PMS(运检系统)的历史数据进行故障分析，以及基于设备和厂家的关联分析。通过切片，下钻等多个手法综合，从而发掘数据的规律，提高决策效率和能力。OLAP的主要接口见表3所示。

表3 OLAP的主要接口

本发明属于能源和信息科学学科的技术领域，提供了一种基于电力大数据的可视化平台，具有处理数据规模大，处理时效性高的特点，并且能够处理的数据类型复杂多样，弥补传统技术手段非结构化以及空间矢量数据等其他数据格式处理能力的不足，解决传统技术手段不能满足电力大数据处理的需要，实现了电力大数据在线分析、多维查询和大规模分析计算等主要业务应用。

实施例2：

为了证明本发明设计的基于电力大数据的可视化平台的有效性，本实施例采用的实验环境为4核心8线程intel Core i7 7700k，16GB内存，1TB机械硬盘的PC机。使用Kubernetes提供的minikube部署上了实验性的Kubernates集群，所有操作均在能够访问国外网络的情况下进行。

大数据系统的各个组件作为电力大数据系统的微服务体系的一部分，最终都需要以Docker容器的形式部署到Kubernetes下面，而服务自身都是以Docker镜像的形式打包起来的。已经有社区支持的软件，可以找到现成的打包镜像，而自己开发的软件，需要自行配置软件的编译安装，配置，形成自己的部署镜像。

应用程序部署的组件关系如图14所示，每个服务组件都部署在Pod内或Pod组内，由对应的Service在Kubernetes网络内部开放，分别部署了复杂计算服务，OLAP应用服务接口和GreenPlum,Hadoop DFS。Spark Executor和Master在并行计算建立时会自动创建，并等待任务。Kube-DNS负责平台内的主机名解析，通过Kubernetes的服务发现机制更新DNS记录，确保任何时候应用程序都能够访问需要的服务，使得服务不会因为pod所在物理主机或分配的内部IP变化而无法访问。最终，Web服务被Kube-Proxy暴露给外界，从而被用户访问。服务之间除了DNS之外，不依赖任何类似ESB(企业服务总线)的总线，服务之间可以直接通过Service暴露的端口互访，构成典型的微服务架构。

(a1)OLAP系统功能

本发明使用从2016年初到2017年初的数个月的历史数据，共计123694862条，68GB，数据有共33个字段，包括事件发生的时间，类型，所属地点等，主要的分析手段为下钻，上卷。其中，OLAP系统数据概况如图15所示。

OLAP系统为B/S结构，使用了浏览器作为应用的最终载体，前端可视化主要使用了HTML5/CSS3/ECMAScript(JavaScript)6技术，通过jquery向后端OLAP接口进行AJAX请求，OLAP系统通过SQL向GreenPlum请求查询。通过ECharts图表查询结果，使用条形图，饼图，折线图，表格等多种形式进行数据展示。本实施例中，OLAP应用程序依托已有的数据进行功能规划，包括关联模块和统计模块两大部分。统计模块是针对历史数据的细化分析和不同方面的可视化展示；关联模块基于数据关联关系的分析，包括调控，运维，检修等方面。

(a1-1)统计模块

统计模块提供了详细的按月统计检测信号的功能，分为单月模式和多月份模式，单月份模式提供了统计选定月份的信号总量，按采集点统计，按天统计当月信号和预测下月信号的功能。同时将采集点按一定规律显示在地图上。统计模块提供了标签云显示各个采集点的信号频度，标签的大小随着信号的数量大小而变化；信号内容按照类别分类，再按照信号发生次数聚合排序，如图16所示。

模块提供了信号的预测功能，可以基于当月采集信息从日期维度进行下钻，显示当月采集信息按天数的聚合结果，并采用自回归滑动平均模型(ARMA)对下月第一周的采集情况进行预测。如图17显示了2016年4月的历史数据，并利用了4月的信号数据量建立ARMA模型进行了5月份第一周的预测。如图所示，5月前2天的预测结果基本符合实际趋势。

(a1-2)关联模块

在电站日常维护中，人们通常不仅需要知道发生故障的设备，还需要知道发生故障的设备和设备生产厂家之间的关系。本发明通过对运维调度和设备的关联字段进行join查询(互联)找出设备和厂家的关系。如图18为设备和厂家的关联结果。

(a2)复杂计算系统功能展示

序列比对是电力系统中的一个现实应用需求。本发明使用最长公共子序列算法(LCS)来解决在序列集合中查找最长子序列的问题。在电网应用中通常待比较序列会很长，导致LCS算法的时间复杂度较高。

本发明中的序列比对应用使用了spark实现LCS算法，主要针对LCS算法的大量内存消耗改进，将原本的长序列按照数倍模板的长度为分段进行切割，减少了单次DP的内存消耗，同时将序列截断有利于并行化，当然也有缺点，如果某个子序列正好经过切割点，那么就会被截断，不再是最长子串，会损失掉一部分结果。因此本算法是少量地牺牲掉准确度换取更加高的效率，并分摊内存占用。此阶段的流程如图19所示。

表4是某地电网的500KV线路故障动作重合闸成功模板，可以看出需要比较的元素有数个，并且每个模板元素需要的比较方法略有不同，需要将场站，间隔，设备几个字段比较字符串是否相等，并且匹配主站信号的数个模板变量，最终判定该元素是否和模板相匹配。之后就可以和LCS一样操作了。

表4电网实际模板

实际应用中不关心误发的具体是什么，直接标注即可，匹配示例如表5所示。

表5实际电网数据根据模板匹配的内容

实施例3：

基于同一发明构思，本发明还提供了一种基于电力大数据的可视化方法，其流程示意图如图20所示，包括：

所述通过数据处理端对所述电力系统运行数据进行数据整合、存储管理和复杂数据计算分析，得到电力大数据并进行数据传输，包括：

通过访问接口进行所述电力大数据的数据传输。

所述以Spark并行计算框架作为数据仓库进行数据存储，包括：

所述以Spark并行计算框架中自定义接收器作为生产者提取数据，并存入ApacheSpark Streaming中，包括：

所述通过转换-载入过程存入Greenplum关系型数据库，包括：

所述通过Spark并行计算框架进行复杂数据计算分析，包括：通过Spark并行计算框架进行复杂数据计算分析的启动和停止；

所述通过Spark并行计算框架中的大数据复杂计算系统，调用各Spark归入自定义名字的任务组中，直到重新设定不同的任务组之后，还包括：

通过所述JobManager写入并更新任务记录；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本发明后依然可对发明的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在发明待批的权利要求保护范围之内。

Claims

1.一种基于电力大数据的可视化平台，其特征在于，包括：数据处理端和在线数据分析前端；

2.如权利要求1所述的平台，其特征在于，所述数据处理端，包括：分布式存储环境、开发工具集和访问接口；

3.如权利要求2所述的平台，其特征在于，所述分布式存储环境，具体包括：云存储、分布式存储系统、并行分析与计算环境、云数据查询环境、实时数据库和关系型数据库；

所述分布式存储系统，用于作为后台数据管理的文件系统；

4.如权利要求3所述的平台，其特征在于，所述分布式存储系统采用主从结构，包括：多个备份的主节点和从节点；

所述从节点，用于接收并执行主节点分配的任务。

5.如权利要求3所述的平台，其特征在于，所述关系型数据库为GreenPlum关系型数据库，用于处理大规模的数据分析任务，所述大规模的数据分析任务包括数据仓库、在线数据分析和数据挖掘；

6.如权利要求3所述的平台，其特征在于，所述并行分析与计算环境，包括：基于结构化查询语言的在线分析模块和Spark并行计算框架。

7.如权利要求6所述的平台，其特征在于，所述Spark并行计算框架采用基于内存的计算技术，通过将非结构化的数据转化成结构化数据存储进数据仓库，并经过数据导入和治理并编写机器学习程序建立自定义模型，结合大数据复杂计算系统完成复杂数据的深度分析。

8.如权利要求2所述的平台，其特征在于，所述开发工具集，具体包括：

9.如权利要求2所述的平台，其特征在于，所述访问接口的具体形式包括：应用程序编程接口、结构化查询语言、全球广域网和用户识别系统。

10.如权利要求1所述的平台，其特征在于，所述在线数据分析前端的接口采用JAX-RS技术；

11.如权利要求1所述的平台，其特征在于，所述在线数据分析前端中包含用电信息采集系统业务应用模块，具体用于：

12.如权利要求1所述的平台，其特征在于，还包括用电信息采集系统前置机群，用于采集电力系统运行数据。

13.一种基于电力大数据的可视化方法，其特征在于，包括：

14.如权利要求13所述的方法，其特征在于，所述通过数据处理端对所述电力系统运行数据进行数据整合、存储管理和复杂数据计算分析，得到电力大数据并进行数据传输，包括：

通过访问接口进行所述电力大数据的数据传输。

15.如权利要求14所述的方法，其特征在于，所述以Spark并行计算框架作为数据仓库进行数据存储，包括：

以Spark并行计算框架中自定义接收器作为生产者提取数据，并存入Apache SparkStreaming中；

16.如权利要求15所述的方法，其特征在于，所述以Spark并行计算框架中自定义接收器作为生产者提取数据，并存入Apache Spark Streaming中，包括：

通过启动多工作线程，对导入的数据进行提取，并存储到Apache Spark streaming中。

17.如权利要求15所述的方法，其特征在于，所述通过转换-载入过程存入Greenplum关系型数据库，包括：

18.如权利要求14所述的方法，其特征在于，所述通过Spark并行计算框架进行复杂数据计算分析，包括：通过Spark并行计算框架进行复杂数据计算分析的启动和停止；

19.如权利要求18所述的方法，其特征在于，所述通过Spark并行计算框架中的大数据复杂计算系统，调用各Spark归入自定义名字的任务组中，直到重新设定不同的任务组之后，还包括：

通过所述JobManager写入并更新任务记录；