CN110119421A

CN110119421A - 一种基于Spark流式分类的电力窃电用户识别方法

Info

Publication number: CN110119421A
Application number: CN201910265689.3A
Authority: CN
Inventors: 吴晟; 舒珏淋
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-08-13

Abstract

本发明涉及一种基于Spark流式分类的电力窃电用户识别方法。本发明利用Nginx实时收集来自电力系统的用户数据，并把全部数据传输至kafka集群队列。Spark Streaming会实时消费kafka集群队列里的数据，将数据读取出进行数据的预处理，并用Spark机器学习库MLlib实现决策树算法对窃电用户数据进行自动识别。经过Spark Streaming实时计算程序分析，将结果写入到Hbase数据库，可以实时获取窃电用户。本发明能够实时的处理来自电力系统的大量用户数据，具有高强度的容错性和实时性，并通过Spark MLlib库的决策树模型准确实时的识别出窃电用户。

Description

一种基于Spark流式分类的电力窃电用户识别方法

技术领域

本发明涉及一种基于Spark流式分类的电力窃电用户识别方法，主要针对物联网传来的海量电力用户数据进行实时处理，提高效率，属于基于云计算平台下的大数据处理技术领域。

背景技术

物联网技术和信息技术的飞速发展导致了信息资源的急剧增长，数据源产生的数据越来越多，处理数据的实时性需求越来越大，比如，早期的在网上产生的股市震荡数据或者地震预测消息是有价值的，时间长了价值就降低了。再比如，淘宝购物，系统会根据买家的日常购买信息，综合分析买家消费习性进行实时推荐，以促进消费。如何从海量的数据挖掘中挖掘出隐含的有用的信息并进行实时的分析统计引起人们越来越多的关注。目前最常用的大数据流的并行处理系统有Spark，Storm,Samza和Flink，这些系统都可以用于接收和处理实时的数据流。

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

Spark包含常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，SparkGraphX用于图计算。

Hadoop的核心组件为HDFS和Mapreduce,HDFS以不同机器作为数据存储节点，Mapreduce以分而治之思想作为计算引擎，同时Mapreduce组件是以非内存和离线分析为主的计算处理，无法满足大规模的数据的实时分析和统计要求。

Storm是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速，但是它是针对每条记录的流式实时计算框架，由于每条数据都进行处理，所以吞吐量不高。

发明内容

本发明提供了一种基于Spark流式分类的电力窃电用户识别方法，本发明能够实时的处理来自电力系统的大量用户数据，具有高强度的容错性和实时性，并通过SparkMLlib库的决策树模型准确实时的识别出窃电用户。

本发明利用了Nginx把收集到的电力用户数据导入Kafka集群，通过SparkStreaming的高并发特性以direct方式和kakfa集群进行整合并对数据进行预处理，利用Spark MLlib库对数据进行分类模型计算，通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分析统计，分类并且识别窃电用户。

本发明的技术方案是：一种基于Spark流式分类的电力窃电用户识别方法，通过Nginx集群作为数据采集系统，不断的接收来自电力系统的用户数据流，利用Kafka集群作为消息缓存队列服务器，接收Nginx传过来的用户数据流，通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里，并在间隔时间内对内存中的数据块进行批处理，Spark通过算子对离散流进行数据的预处理，并把分析处理结果写入到Hbase数据库里，利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模，识别出窃电用户，并通过echarts进行可视化。

进一步地，所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下：

Step1、搭建Nginx集群采集数据，代替flume监听log文件夹，直接把数据导入kafka集群；具体包括：

Step1.1、上传Nginx压缩包到Linux集群，并解压；进入Nginx源码目录安装gcc编译器进行预编译；

Step1.2、编译安装Nginx，启动Nginx，查看Nginx的进程，验证是否开启；

为Nginx集群安装nginx-kafka插件，根据kafka的配置文件，修改Nginx.conf文件，使Nginx集群与kafka集群进行结合；

Step2、初始化创建SteamingContext对象，该对象中的参数包括：SparkContext和批处理时间，同时对批处理时间间隔进行参数的设置，从而找到批处理时间；

Step3、利用direct方式接收kafka集群的用户数据源，并存储在Spark Executor的内存中，之后SparkStreaming启动job对数据进行预处理，把处理之后的用户数据实时存入Hbase数据库里；

Step4、使用基于Hadoop平台的Spark MLlib库对传感器数据进行分类模型计算，通过流式决策树算法对采集并存储到Hbase数据库中的数据进行分类分析，分类并且识别窃电用户的用电数据；

Step5、使用创建的HTable对象中的put()函数将获取到的窃电用户数据存入到Hbase数据库，并用echarts进行可视化展示。

Spark Streaming的容错机制是基于RDD的容错机制，分别为基于血统(lineage)的高度容错机制和检查点机制。血统的高度容错机制是每个RDD都是一个弹性分布式数据集，对RDD的操作产生新的RDD都会通过lineage来表达依赖关系，只要源数据丢失或者失真，或者任意一个RDD出错不可用，都可以通过原始数据进行操作计算而重新算出。检查点机制是由于lineage生命线很长，执行失败的恢复成本比较高，于是Spark Streaming周期性地把应用数据存储到诸如HDFS或Amazon S3这样的可靠存储系统中以供恢复时使用的机制叫做检查点机制。

使用HBase对海量实时数据进行存储。HBase的LSM树型存储结构使其具有实时读写数据的功能。Spark Streaming向HBase写入数据时对每一条数据执行插入操作，采用输出方法foreachRDD(func)，将func(此处指将数据插入HBase表格)作用于数据流的每一个RDD(Resilient Distributed Datasets弹性分布式数据集)。在进行数据写入时对数据流执行foreachRDD与foreachPartition操作，为每个分区创建一个cTable对象，提高数据读写效率。使用Spark机器学习中的Spark MLlib库对Hbase数据进行分类模型计算，流式决策分类算法包含训练以及预测两个部分，核心思想是先根据已经积累的历史数据训练出模型，然后根据历史数据推导的模型对新到的实时监测数据进行识别。通过使用MLlib算法组件，在Spark平台中实现决策树分类流程如下：(1)特征选取，即从众多特征中选择出一个作为当前节点的分类标准。(2)决策树生成，从上到下构建节点，形成一棵倒立的树。(3)剪枝，消除过拟合，需要对决策树剪枝。

本发明的有益效果是：本发明能够实时的处理来自电力系统的大量用户数据，具有高强度的容错性和实时性，并通过Spark MLlib库的决策树模型准确实时的识别出窃电用户。

附图说明

图1是本发明集群系统架构图。

图2是本发明所述的系统原理流程图。

图3是本发明所述的Spark Streaming写入Hbase工作流程图。

图4是SparkML决策树分类算法流程图。

具体实施方式

实施例1：如图1-4所示，一种基于Spark流式分类的电力窃电用户识别方法，通过Nginx集群作为数据采集系统，不断的接收来自电力系统的用户数据流，利用Kafka集群作为消息缓存队列服务器，接收Nginx传过来的用户数据流，通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里，并在间隔时间内对内存中的数据块进行批处理，Spark通过算子对离散流进行数据的预处理，并把分析处理结果写入到Hbase数据库里，利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模，识别出窃电用户，并通过echarts进行可视化。

实施例2：如图1-4所示，一种基于Spark流式分类的电力窃电用户识别方法，所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下：

本发明采用Spark Streaming是因为该数据处理引擎具有高可靠、数据实时分析延迟低、处理数据能力强等优点，达到实时对数据进行处理，避免了数据堆积。

kafka是一个分布式、高吞吐量、易于扩展的基于主题发布/订阅的消息系统，作为消息队列，kafka由于拥有高吞吐量，并且内置消息主题分区、备份、容错等特性，更适合使用在大规模，高强度的消息数据处理的系统中。

数据处理引擎Spark Streaming，它把数据流分成数据块存放在数据块队列中，然后在一定的批处理间隔对数据队列中的数据块进行统一处理，并可以通过调整批处理间隔从而达到对高速数据流和低速数据流的实时处理。

对海量实时数据进行处理与存储，必然会产生大量的数据。采用HBase的LSM树型存储结构存储传感器族群采集到的海量传感数据，使其具有实时读写数据的功能。

使用基于Spark框架的流式决策树分类方法，通过机器学习方式，将采集的数据进行分类分析，识别窃电用户。

Nginx集群不间断采集的电力用户数据，经过分析处理后传输至HBase非关系型数据库，通过MLlib对HBase中存储的电力用户数据进行决策树分类识别，并把分析结果通过echarts进行可视化。

使用HBase作为Spark Streaming中间数据的存储数据库可大为提高数据存取的效率。Spark Streaming向HBase写入数据时需要对每一条数据执行插入操作，采用输出方法foreachRDD(func)，将func(此处指将数据插入HBase表格)作用于数据流的每一个RDD(Resilient Distributed Datasets弹性分布式数据集)，可以显著地提高数据存取效率。

MLlib是建立在Spark上的分布式机器学习库，MLlib支持分类、聚类、降维等主要机器学习算法。机器学习算法包含训练以及预测两个部分，首先根据已有的数据训练出模型，然后根据模型对待检测样本进行预测。决策树是使用最为广泛的分类算法之一，通过使用MLlib算法组件，在Spark平台中实现决策树分类。决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点中的实例都属于同一类。在算法的实现上首先就是对特征的选取，从根节点开始，对实例的某一个特征进行测试，根据测试结果，将实例分配到其子节点。每一个子节点对应着该特征的一个值，如此递归向下移动，直至达到叶节点，最后将实例分配到叶节点的类中。

建立决策树算法的关键，即在当前状态下选择哪个特征作为分类依据。特征选择的标准是找出局部最优的特征，判断一个特征对于当前数据集的分类效果，即按照此特征进行分类后，不同分类的数据是否能被尽量分开。在算法中采用的是特征的信息增益大小作为特征选择的依据。

当数据到达流中时，需要动态地估计集群，更新它们作为新的数据到达。通过Spark.mllib实现流决策树分类，用参数来控制衰减。使用一个概括的小型批量决策树更新规则。对于每一批数据，特征各有不同，动态的根据信息增益计算选择特征作为根节点，依次进行划分。

通过对HBase中存储的电力用户数据进行决策树分类。将数据分为训练数据和预测数据。先将训练数据有监督的分为二类：将其分别标记：正常用电用户标记为1，窃电用户标记为0，从而得到决策树模型，之后利用此模型对预测数据进行分类达到自动识别窃电用户。

流式分类决策树算法采用如下算法实现：

输入：训练数据集D，特征集A，阈值ε。

输出：决策树T。

(1)若D中所有实例属于同一类，则决策树T为单节点树，并将该类作为该节点的类标记，返回T。

(2)若特征集为空，则决策树T为单节点树，并将训练数据集中实例最大的类作为该节点的标记，返回T。

(3)否则计算特征集A中各特征对训练集D的信息增益，选择信息增益最大的特征。

g(D，A)＝H(D)-H(D|A)

g(D，A)为特征A对训练数据集D的信息增，H(D)为训练数据集D的经验熵，H(D|A)为特征A给定条件下D的经验条件熵。根据信息增益准则的特征选择方法是：对训练数据集(或子集)计算其每个特征的信息增益，选择信息增益最大的特征A_g。

(4)如果选择的根特征A_g的信息增益小于阈值ε，则决策树为单节点树，并将训练数据集D中实例最大的类作为该节点的类标记，返回T。

(5)否则，对A_g的每一可能值a_i，依据A_g＝a_i将D分割为若干非空子集D_i，将D_i中实例数最大的类作为标记，构建子结点，由结点及其子结点构成树T，返回T。

(6)对第i个子结点，以D_i为训练集，以A-{A_g}为特征集，递归的调用步(1)～步(5)，得到子树T_i，返回T_i。

Nginx集群不间断采集的电力用户数据，传输至Spark Streaming计算中心对数据进行预处理并储存入HBase数据库，基于MLlib库对HBase中存储积累的电力用户数据进行流式决策树分类，使用训练数据训练得出的决策树分类模型对新数据进行自动识别，判断是否窃电用户，并通过echarts进行可视化展示。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Spark流式分类的电力窃电用户识别方法，其特征在于：通过Nginx集群作为数据采集系统，不断的接收来自电力系统的用户数据流，利用Kafka集群作为消息缓存队列服务器，接收Nginx传过来的用户数据流，通过Spark Streaming把从Kafak集群接收来的实时用户数据流分成多个数据块存放在内存里，并在间隔时间内对内存中的数据块进行批处理，Spark通过算子对离散流进行数据的预处理，并把分析处理结果写入到Hbase数据库里，利用Spark的机器学习库MLlib对Hbase数据库里的数据实现决策树建模，识别出窃电用户，并通过echarts进行可视化。

2.根据权利要求1所述的基于Spark流式分类的电力窃电用户识别方法，其特征在于：所述基于Spark流式分类的电力窃电用户识别方法的具体步骤如下：