CN110019106A

CN110019106A - 一种智能电网的电力营销海量数据处理方法及系统

Info

Publication number: CN110019106A
Application number: CN201910215137.1A
Authority: CN
Inventors: 彭翔; 熊脶成; 韩坚
Original assignee: State Grid Corp of China SGCC; State Grid Jiangxi Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangxi Electric Power Co Ltd
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2019-07-16

Abstract

本发明公开了一种智能电网的电力营销海量数据处理方法，先对数据源层中营销数据进行数据抽取、转换、修正和加载等集成处理操作，在分布式集群中搭建基于Hadoop的分布式文件系统，分布式文件系统用于转存中间计算结果，并安装配置Spark计算框架，Spark计算框架中包含用于实时计算的流处理模块和用于离线分析的批处理模块；通过营销数据决策树算法对电力营销数据进行分类，依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析，挖掘电力营销数据的潜藏价值，从数据层面为电力企业高层管理人员提供决策分析功能。本发明满足电力企业应用场合下的实际处理需求，提升电力企业营销系统的处理效率与业务扩展性。

Description

一种智能电网的电力营销海量数据处理方法及系统

技术领域

本发明涉及数据处理相关技术领域，具体是一种智能电网的电力营销海量数据处理方法及系统。

背景技术

由于近些年我国电力企业的快速发展，电力行业进入到市场化改革的关键时段，在电力企业内部以营销为重点、以客户服务为基础，对电力企业提出了更高的要求，需要应对不断变化的环境及不同的客户做出迅速的高效的应对方案。在这个数据时代，信息通信系统与智能电网的结合，已经成为电力系统高效运行管理的必要途径。在智能电网中，打通数据之间的链接，使之成为一个整体，才能体现出数据的价值。可是现有电力营销系统的计算平台在面对海量数据的交换、处理、存储及应用这几个方面都表现的十分吃力。此外，昂贵的电力营销信息系统平台还存在成本过高，性能不达标等问题，通过简单的设备升级已经跟不上数据增长速度，进而要求计算平台兼具处理效率与扩展性。

以Hadoop为代表的批处理框架经过十余年的发展已经趋近成熟，凭借其高可靠性、高扩展性和高容错性等优点，批处理计算模式在智能电网大数据处理领域已经得到了初步的应用。然而，批处理框架更加适用于大规模的离线数据处理，受限于自身计算模型，其数据处理的实时性和吞吐率越来越难以满足当今电力企业营销系统需求。随着电力营销数据量的积累，将会对电网运行监控设备、数据传输和存储系统造成巨大负担，危及智能电网的安全运行。

Spark计算框架被称为下一代大数据处理引擎，在极短的时间里崭露头角，并以燎原之势席卷业界。Spark对曾经引爆大数据产业革命的Hadoop计算平台的改进主要体现在以下几个方面：Spark处理速度更快，吞吐量更大，能胜任电力营销数据流处理任务；Spark丰富的扩展接口带来了更强大的易用性，Spark不单单支持传统批处理应用，更支持交互式查询、流式计算、机器学习、图计算等多种应用，满足电力企业营销的业务扩展需求和智能化要求。

对于智能电网来说，数据处理速度至关重要，数据量越大，数据处理时间越长，假如超出当前计算平台的承受范围，将会对智能电网的运行造成不良影响，甚至造成电网局部瘫痪。另外，结合智能电网中多源异构电力营销海量数据的应用需求，需要基于已有大数据处理平台上构建各类电力营销大数据应用，为数据集成、数据存储、数据处理及数据分析等服务提供坚强的基础平台和支撑技术。为此提出一种电力营销海量数据的快速并行处理新方法，该方法将电力营销数据进行集成化处理后，通过分布式发布订阅消息中间件，将数据传输给以Spark为计算核心、Hadoop为存储底层的融合计算平台进行处理，计算结果经集中分类后存储至分布式文件系统或分布式数据库，有效提高数据处理效率，满足电力企业多样化的应用需求，深层次挖掘电力营销数据潜藏价值。

发明内容

本发明的目的在于针对现有技术存在的不足，提供能够提升电力营销系统的处理效率和扩展性的一种智能电网的电力营销海量数据处理方法及系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种智能电网的电力营销海量数据处理方法，其特征在于：具体步骤如下：

（1）电力营销系统海量数据集成化接入：

将多源异构的原始电力营销数据提取到系统后，先对数据源层中传输的营销数据进行数据抽取、转换、修正和加载等一系列集成处理操作，完成电力企业外部数据和内部累积数据的整合，并在数据集成层末端引入了分布式发布订阅消息中间件，将电力营销海量数据快速高效地接入分布式集群中；

（2）营销数据实时计算与离线分析：

在分布式集群中搭建基于Hadoop的分布式文件系统，所述分布式文件系统用于转存中间计算结果，并安装配置Spark计算框架，所述Spark计算框架中包含用于实时计算的流处理模块和用于离线分析的批处理模块；实时计算模式下，在流处理模块中配置连接分布式发布订阅消息中间件的数据接口，电力营销海量数据经分布式发布订阅消息中间件，被直接传输到流处理模块中进行实时计算，其计算结果可以转存到分布式文件系统中，方便后续计算再次调用，或者直接将其计算结果存储至分布式数据库中；离线分析模式下，在分布式文件系统中配置连接分布式发布订阅消息中间件的数据接口，先由分布式发布订阅消息中间件将电力营销数据传输至分布式文件系统中进行中间存储，再由批处理模块对中间存储数据进行提取，在完成营销数据离线分析后，计算结果可以继续保存在分布式文件系统中用于后续计算调用，或存储至分布式数据库中；

（3）营销数据存储管理：

在进行计算结果的集中存储前，通过采用改进后的营销数据决策树算法对电力营销数据进行指定分类，经过选择营销数据特征、生成营销数据决策树、修剪营销数据决策树三个步骤，实现存储操作前的数据合理分类，并配置已搭建的分布式数据库，在分布式数据库中建立面向列族的可无限扩张的数据存储表，用于分别存储经实时计算和离线分析后的电力营销海量数据，当计算结果传输至分布式数据库中，将会调用集群中多台数据库服务器进行数据保存，实现电力营销海量数据的分布式列族可靠存储；

（4）营销数据上层应用：

数据应用层主要包括营销数据挖掘、多维度数据分析、数据可视化，即依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析，深层次挖掘电力营销数据的潜藏价值，从数据层面为电力企业高层管理人员提供辅助决策分析功能。

进一步地，所述步骤（3）中所述改进后的营销数据决策树算法包括：

a、选择营销数据特征：

为了衡量节点营销数据集的有序性高低，定义基尼系数作为判断标准，定义公式如下：

其中，fi是第i个属性标签在某数据分区内的频率，D是该分区的总类别数，由于基尼系数是类别的概率乘以分错类别的概率，因此可以度量类别被分错的可能性；

b、生成营销数据决策树：

在每次需要进行决策树生成时，先计算出每个属性的基尼系数，并选择具有最大基尼系数的属性进行生成分裂，令输入为营销数据集C、特征集S、阈值ε，输出为营销决策树T，若营销数据集中所有元素属于同一类别Dk，则该营销决策树为单节点树，并将此类别Dk作为该节点的类标签，返回营销决策树T；若S=∅，则T为单节点树，并将C中元素数最大的类别Dk作为该节点的类标签，返回营销决策树T；

c、修剪营销数据决策树：

生成后的营销数据决策树准确度很高，但存在过分拟合的情况，所以最后还需要对决策树进行修剪，定义极小化损失系数为修剪标准，定义公式如下：

Lα（T）=L(T)+α|T|，

其中，T表示营销数据决策树的叶节点个数，α是调节参数，α越小表示决策树越复杂，拟合度越高。决策树的修剪是从叶节点往上进行回溯，若修剪某叶节点后的极小化损失系数变小，则确认对该叶节点进行修剪。

本发明还提供了一种智能电网的电力营销海量数据处理方法的系统，包括：

数据源层，用于获取多源异构的电力营销数据，包括结构化数据、半结构化数据、非结构话数据；

数据集成层，用于对数据源层中传输的营销数据进行集成处理操作，完成电力企业外部数据和内部累积数据的整合，并引入分布式发布订阅消息中间件将电力营销海量数据快速高效地接入分布式集群中；

存储管理层，用于转存中间计算结果以及在进行计算结果的集中存储前进行指定分类；

数据计算层，用于对电力营销数据流进行实时计算、离线分析；

应用层，用于依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析，深层次挖掘电力营销数据的潜藏价值，从数据层面为电力企业高层管理人员提供辅助决策分析功能。

与现有技术相比，本发明的有益效果是：本发明采用分布式发布订阅消息中间件、Spark计算框架和分布式数据库相结合的云计算技术处理电力营销数据，在执行电力营销海量数据处理任务时，先对多源异构电力营销数据进行集成处理操作，通过分布式发布订阅消息中间件将电力营销海量数据快速高效地接入分布式集群中，可解决分布式集群环境下多源异构数据的资源共享问题，提高电力营销系统的协同工作效率，并根据计算需求选择性地对数据进行实时计算与离线分析，计算结果经改进后的营销数据决策树算法集中分类后再存储至分布式数据库中，满足电力企业各种应用场合下的实际处理需求，提升电力企业营销系统的处理效率与业务扩展性。

附图说明

图1为本发明的系统技术构架图，

图2为本发明方法的融合处理流程示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明的技术方案，下面结合具体实施方式对本发明的技术方案作进一步详细地说明。

请参阅图1，图2，一种智能电网的电力营销海量数据处理方法及系统，具体步骤如下：

（1）电力营销系统海量数据集成化接入：

将多源异构的原始电力营销数据提取到系统后，先对数据源层中传输的营销数据进行数据抽取、数据转换、数据修正和数据加载等一系列集成处理操作，完成电力企业外部数据和内部累积数据的整合，并在数据集成层末端引入分布式发布订阅消息中间件（如Kafka、MetaQ等）并配置好相应的系统环境变量，再将电力营销海量数据快速高效地接入分布式集群中。分布式发布订阅消息中间件的数据传输速度、吞吐量和容错性能优于传统的套接字方式，并具有高实时性和支持多种语言开发的特点，当两个系统处于隔绝状态无法通信的时候，分布式发布订阅消息中间件的发布订阅消息处理机制可实现生产者和消费者之间的无缝对接，达到跨平台数据实时传输的目的，依靠其高效可靠、高吞吐的跨平台数据传输优势，可解决分布式集群环境下多源异构数据的资源共享问题，提高电力营销系统的协同工作效率。

（2）营销数据实时计算与离线分析：

在分布式集群中搭建基于Hadoop的HDFS分布式文件系统，该文件系统用于转存中间计算结果，并安装配置Spark计算框架，该框架中包含用于实时计算的Spark Streaming流处理模块和用于离线分析的Map Reduce批处理模块。

实时计算模式下，在流处理模块中配置连接分布式发布订阅消息中间件的数据接口，电力营销海量数据经分布式发布订阅消息中间件，被直接传输到流处理模块中进行实时计算，根据已设置的流处理间隔，流处理模块将输入的电力营销数据分成一段一段的离散数据队列，然后每一段离散数据都被转换成Spark计算框架中的弹性分布式数据集，这样，实时流处理模块对电力营销数据流的处理就转变成了对Spark计算框架的弹性分布式数据集的处理，其计算结果可以转存到分布式文件系统中，方便后续计算再次调用，或者直接将其计算结果存储至分布式数据库中。

离线分析模式下，在分布式文件系统中配置连接分布式发布订阅消息中间件的数据接口，先由分布式发布订阅消息中间件将电力营销数据传输至分布式文件系统中进行中间存储，再由批处理模块对中间存储数据进行提取，在完成营销数据离线分析后，计算结果可以继续保存在分布式文件系统中用于后续计算调用，或存储至分布式数据库中。

（3）营销数据存储管理：

在进行计算结果的集中存储前，先调用Spark计算框架中内置的MLlib机器学习模块对计算结果进行分类，该模块支持的分类算法有逻辑回归、支持向量机、朴素贝叶斯、决策树等算法，由于Spark基于内存的计算模型天生就擅长迭代计算，多个计算步骤直接在内存中完成，能省下大量的I/O和CPU消耗，在对电力营销数据进行指定分类算法处理后再进行存储，能够达到节约集群资源、提高存储效率的目的。本发明结合智能电网电力营销数据的体量巨大、多源异构等特点，对MLlib自带的分类算法进行针对性改进，改进后的营销数据决策树算法原理如下：

分类算法的本质是从节点数据集合中归纳出具体的分类规则，本发明通过采用启发式的方法获取局部最优解，分为选择数据特征、生成营销数据决策树、修剪营销数据决策树三个步骤：

1、选择营销数据特征

其中，f_i是第i个属性标签在某数据分区内的频率，D是该分区的总类别数，由于基尼系数是类别的概率乘以分错类别的概率，因此可以度量类别被分错的可能性。

2、生成营销数据决策树

在每次需要进行决策树生成时，先计算出每个属性的基尼系数，并选择具有最大基尼系数的属性进行生成分裂，令输入为营销数据集C、特征集S、阈值ε，输出为营销决策树T，若营销数据集中所有元素属于同一类别D_k，则该营销决策树为单节点树，并将此类别D_k作为该节点的类标签，返回营销决策树T；若S=∅，则T为单节点树，并将C中元素数最大的类别D_k作为该节点的类标签，返回营销决策树T。

3、修剪营销数据决策树

另外，配置已搭建的分布式数据库（如HBase等），在分布式数据库中建立面向列族的可无限扩张的数据存储表，用于分别存储经决策树算法分类后的电力营销海量数据。以某用户为例，在表的精简结构形式中，设计行键为用户号属性，再设计三个列族，分别为用户名称属性、用电地址属性与用电类别属性，其中第一个列族为用户名称，另外两个列族分别为用户档案中查询到的用电地址和用电类别，若要应对电力营销系统的更大规模数据存储，分布式数据库逻辑表可根据实际需求动态增加对应用户的列族数量。此外，当计算结果传输至分布式数据库中，将会调用集群中多台数据库服务器进行数据保存，实现电力营销海量数据的分布式列族可靠存储。

（4）营销数据上层应用：

数据应用层主要包括营销数据挖掘、多维度数据分析、数据可视化等多样化上层应用，即依据电力企业的业务需求对累积的电力营销海量数据进行在线/离线处理分析，深层次挖掘电力营销数据的潜藏价值，从数据层面为电力企业高层管理人员提供辅助决策分析功能。Spark是一种高效快速、兼容性强的开放式计算框架，支持多种编程语言和高级算法，使电力企业可以快速构建不同的应用，得益于Spark优秀的通用性，不同类型的处理方式如批处理、交互式查询、实时流处理、机器学习和图计算都可以在同一应用中无缝使用，本发明能减少电力企业开发和维护的人力成本及部署平台的物力成本，满足电力企业在上层应用方面的业务扩展性需求。

上面对本发明的较佳实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种智能电网的电力营销海量数据处理方法，其特征在于：具体步骤如下：

(1)电力营销系统海量数据集成化接入：

(2)营销数据实时计算与离线分析：

(3)营销数据存储管理：

(4)营销数据上层应用：

2.根据权利要求1所述的一种智能电网的电力营销海量数据处理方法，其特征在于：所述步骤(3)中所述改进后的营销数据决策树算法包括：

a、选择营销数据特征：

b、生成营销数据决策树：

在每次需要进行决策树生成时，先计算出每个属性的基尼系数，并选择具有最大基尼系数的属性进行生成分裂，令输入为营销数据集C、特征集S、阈值ε，输出为营销决策树T，若营销数据集中所有元素属于同一类别Dk，则该营销决策树为单节点树，并将此类别Dk作为该节点的类标签，返回营销决策树T；若则T为单节点树，并将C中元素数最大的类别Dk作为该节点的类标签，返回营销决策树T；

c、修剪营销数据决策树：

Lα(T)＝L(T)+α|T|，

3.根据权利要求1所述的一种智能电网的电力营销海量数据处理方法的系统，其特征在于：包括：