CN110309198A

CN110309198A - 一种基于分布式数据流处理的局部节点挖掘方法

Info

Publication number: CN110309198A
Application number: CN201910475884.9A
Authority: CN
Inventors: 娄建楼; 王磊; 时丹丹; 曲朝阳; 张鹏; 梁丰
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-10-08

Abstract

本发明公开了一种基于分布式数据流处理的局部节点挖掘方法，包括以下步骤：S1，数据序列选取；S2，大数据流分类模型建立；S3，局部节点的挖掘方法；S4，基于不平衡数据流的中心节点挖掘方法。本发明的方法，从大数据流的分布式处理角度出发，基于针对电网设备的数据流清洗方法，解决了针对电网设备在线监测数据流分布式处理中的局部节点挖掘问题。

Description

一种基于分布式数据流处理的局部节点挖掘方法

技术领域

本发明涉及电网设备的数据处理，具体涉及一种基于分布式数据流处理的局部节点挖掘方法。

背景技术

目前，随着整个电网正朝着智能化、信息化及网络的方向迈进，各类传感器与各种自动化监测设备在电网中的大量使用，使得电网中的自动监测系统在实时的形成巨量监测数据。据相关部门统计到2013年为止，国家电网共安装了1.82亿只智能电表，完成了对1.91亿用户用电数据的采集，使得用于用电数据收集的自动化系统成为了全球最大的针对电能的计量自动化系统，由于需要对电网设备监测数据的实时获取，使得其每秒数据的采集量将达到PB级甚至EB级。然而对此类型的数据利用率极低。其大多数据仅仅用于单一阈值分析后便被抛弃。并且麦肯锡曾有报告预测，在全球范围内，大数据分析方案的广泛使用能够带来每年3000亿美元的电费消减。电力大数据的有效应用可使电网提高20%49%的利润。

随着智能电网的大力推进，同时数据采集与传输技术，和智能数据处理技术等在电力系统中的应用推广，使得电网中的各类数据采集系统每时每刻都在产生大量的数据。此类数据逐渐表现出了，数据流速度快，数据体量大等大数据流的特征。并且其中隐藏了大量的有关电网设备状态异常的数据信息。因此高效率的利用此类数据流，并从数据流处理的角度来保证电网安全稳定的运行，是目前智能电网所面临关键问题。

针对大规模数据流的处理需要借助大数据流式计算技术的支持。然而在电力系统中对大数据流处理的应用相对较少，其成果主要集中在对流数据处理的系统架构的设计上。

电网设备状态数据流具有连续性、数量大、流速快、各类别分布不平衡等特点，如何从此类数据中获取各类设备异常数据并对其进行准确的分类，为设备的运行与维护提供重要依据具有关键意义，所以可以将大数据流处理技术引入到设备异常检测中。而当下设备异常辨识中主要应用时序、马尔科夫模型、遗传规划算法等，且此类研究处于探索阶段，并且其时效性与分类准确性无法满足实际应用场景的需求。因此基于分布式流处理技术，构建大数据流分类模型，设计局部挖掘模式与全局挖掘模式以实现对电网设备风险的快速辨识。

发明内容

本发明的主要目的在于提供一种基于分布式数据流处理的局部节点挖掘方法。

本发明采用的技术方案是：一种基于分布式数据流处理的局部节点挖掘方法，包括以下步骤：

S1，数据序列选取；

S2，大数据流分类模型建立；

S3，局部节点的挖掘方法；

S4，基于不平衡数据流的中心节点挖掘方法。

进一步地，所述步骤S1包括静态数据序列的选取和渐变数据序列的选取；

静态数据序列的选取：在针对电网设备进行风险评估之前，根据具体设备选取有效的数据序列以及正确的数据处理手段；针对电网设备数据序列的选取需要符合下列标准：高敏感性，即此数据序列能够对电网设备运行状态的波动具有明显的反应；高可靠性，数据序列的波动可以精准映射出电网设备的异常；实用性，数据序列需要便于采集；不同数据序列间需要具有较高的关联性与独立性，能够从不同的角度表征电网设备的状态波动；

渐变数据序列的选取：对电网设备中变化趋势在不断提升的数据进行关注。

更进一步地，所述步骤S2包括数据形态表达和大数据流分类模型建立；

所述数据形态表达具体包括：

定义分布式数据流：设时间序列利用表示数据维度，用表示节点数目；进而得到分布式数据流的定义为：，其中每个是单（局部节点）数据流，是在上采集的多维数据元组序列

定义历史窗口：给定时间序列和它上的一个数据流；设则被称为在上的历史窗口，被称为一个挖掘点，同时在内收集的数据将被当作此历史窗口内的数据块；针对分布式数据流来说，保证全部节点均采用同样的挖掘点序列，同时在随机的挖掘点中，全部的局部节点均采用同一个历史窗口；

定义微簇：设维的数据集，其中，则它对应的微簇结构由一个5元组定义：

：数据个数；

：中心点或称为均值，即

：平方和统计（为防止溢出被开方），即

：方差统计值，即

：数据集的类标识；

所述大数据流分类模型建立包括：将含有分布式与流动性特点的大数据流分类模型利用进行表示，同时利用来实现对获取数据的时间序列进行表示；为通过在局部节点上获取的条局部数据流而形成的分布式数据流，将作为数据挖掘的数据源；是对的操作算子集，需利用算法来完成此操作；全局分类器，是学习的最终结果；设存在局部挖掘时间点，则大数据流分类模型的架构如下：

局部挖掘节点中的挖掘模式，存在下列操作：

按照预先设定的挖掘点来收集窗口数据，chunkt被称为当前数据块；

；负责从当前数据块中挖掘出微簇集；

通过当下的微簇集合来对前一个挖掘点放置微簇集进行增量式的维护与更新处理，进而形成了当下挖掘时刻的微簇集；

中心节点内全局挖掘模式，包含如下操作：

；在中心节点中，放置用于收集由各个局部挖掘模式所输出的微簇集的缓冲池；

；将当前微簇集转换成全局学习样本集；

平衡训练样本中不同类别的数据分布；

；通过样本集来实现对前一个挖掘时刻的全局集成分类器进行增量式的更新与维护，进而获得最新集成分类器。

更进一步地，所述步骤S3包括局部节点的微簇抽取算法和局部节点的增量式微簇维护算法；

局部节点的微簇抽取算法：

在局部节点内，完成对数据块的采集与整理后，对数据块进行微簇抽取处理；完成对已采集到数据块的划分，采用K-Means算法对数据进行类别划分，并针对已划分好的类别进行微簇抽取；

局部节点的增量式微簇维护算法：

对局部节点内的微簇进行周期性的更新，采用通过此刻所采集的数据块而得到的微簇集；

在局部挖掘模式内对局部节点的微簇数量加以限制，防止其随着时间的推进而持续无限的增长；通过来表征微簇数量的上限，当其数量大于时则执行微簇合并操作；然而在对不同微簇进行合并处理操作时，需要查找最适合合并的两个类簇；

基于电网设备数据流的特征，通过方差和最小来查找最适合进行合并微簇，即：选定某一微簇集M，在M中查找方差和最小的两个微簇与，其计算公式如下：

式中—某一微簇的方差的第个维度值；

合并后的微簇；

计算出合并后微簇中其他的统计信息：

定义微簇的合并操作：若存在微簇与，其维度是，如果两个类簇的类标识一致，则可以使用合并运算输出计算后的微簇，利用进行表示，其中内其他的统计信息计算过程如下：

当挖掘模式内的微簇数量大于限定值时，通过反复的微簇合并计算来降低微簇数量；

在上述算法的执行过程中对时间的消耗主要来源于微簇的合并操作的执行次数；

此算法在内存上的消耗大部分为个微簇对应的数据结构。

更进一步地，所述步骤S4包括中心节点的样本重构算法、选择性重采样机制、中心节点的集成分类器更新算法；

中心节点的样本重构算法：

在同一挖掘时间节点中，若果各个局部模式在完成增量式更新与维护处理后，将微簇集与辨识出的异常数据集，同时传送至中心节点内；当此挖掘时间点中的全部微簇与异常集到达缓冲池之后，中心节点内的各个操作算子将开始运行；通过集成分类来进行全局模式的表达与处理；通过此样本来更新集成分类器；

选择性重采样机制：

在以数据块到数据块的挖掘策略为基础的数据流分类模型中，对不平衡数据的处理采用过采样方法，并在过采样方法中通过现有的小类集样本来平衡最新的数据块，并结合聚类算法来划分簇数据块内的小类别样本，利用马氏距离来评估其与现有小样本的相似度，根据评估结果筛选用于平衡的小样本；

中心节点的集成分类器更新算法：

采用具有良好的剪枝与优化性能的作为基础分类器，以实现对电网设备数据流的分类；

采用基于淘汰策略的分类器更新模式，

设存在集成分类器，如果有一学习数据被某个基础分类器预测出其类别，那么需要把此数据点剔除，不利用此数据点对别的基础分类器进行训练，通过这种方式来提升基础分类器的多样性及学习效率；

随着挖掘点的不断推而持续更新集成分类器，基于增量式维护的方式，对于任意一个基础分类器，进行如下操作：

将全部的训练数据用于对任意一个基础器的试验，把预测正确的数据进行剔除；算法的用时消耗与个训练数据点呈现正比例关系；

通过剩余的训练数据来训练新的基础分类器，其时间消耗主要用于基础分类器的学习；

实现对基础分类器数目的维护，对基础分类器的剪裁标准为，当基础分类器的数量超过阈值时，则根据错误率最小进行基础分类器的剪枝；

此算法中的主要时间用于对集成分类器的维护上，由算法定义可得其上限值为，集成分类器更新算法的时间复杂度为；

此算法中空间使用量取决于的数据结构，此类空间消耗与基础分类器数量有关。

本发明的优点：

本发明的基于分布式数据流处理的局部节点挖掘方法，从大数据流的分布式处理角度出发，基于针对电网设备的数据流清洗方法，解决了针对电网设备在线监测数据流分布式处理中的局部节点挖掘问题。首先需要选取能够明显表征设备状态且易获取的数据序列，然后借助于已有的分布式数据流的概念来完成电网设备在线监测数据的格式化抽象，基于大数据流的分布式处理技术，提出了基于分布式的大数据流分类模型的基本定义，并提出局部节点挖掘模式的高效表达结构，以及在局部节点中的数据块到数据块的局部增量式挖掘策略。以实现局部节点对自身局部挖掘模式的实时维护，并对电网设备数据流中各个数据序列的粗聚类，以降低概念漂移对电网设备数据流分类的影响，并且保证局部节点与中心节点间信息交互的高效性，以提高中心节点中集成分类器对数据流分类的精度与效率，进而达到对电网设备实时风险辨识的要求。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的流程图；

图2是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的选择性重采样过程图；

图3是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的时间窗口长度增加时错误率的变化图；

图4是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的流动数据在不同的集成分类设置下的错误率变化图；

图5是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的 E-no=20时错误率变化的情况图；

图6是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的时间窗口长度增加时执行时间的变化情况图；

图7是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的时间窗口长度增加时内存空间的变化情况图；

图8是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的针对不平衡数据的各算法效果对比图；

图9是本发明实施例的一种基于分布式数据流处理的局部节点挖掘方

法的针对概念漂移的各算法效果对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，如图1所示，一种基于分布式数据流处理的局部节点挖掘方法，包括以下步骤：

S1，数据序列选取；

S2，大数据流分类模型建立；

S3，局部节点的挖掘方法；

S4，基于不平衡数据流的中心节点挖掘方法。

所述步骤S1包括静态数据序列的选取和渐变数据序列的选取；

静态数据序列的选取：

为保证对电网设备运行状态的准确甄别，实现对设备的块维护，则选用充足可靠的数据序列将极为关键。

因此针对电网设备数据序列的选取需要符合下列标准：（1）高敏感性，即此数据序列能够对电网设备运行状态的波动具有明显的反应；（2）高可靠性，数据序列的波动可以精准映射出电网设备的异常；（3）实用性，数据序列需要便于采集；（4）不同数据序列间需要具有较高的关联性与独立性，能够从不同的角度表征电网设备的状态波动。

渐变数据序列的选取：

电网设备中的许多风险和故障的恶化尽管呈现出了可统计性，然而许多故障均存在相应的隐藏期，因为静态数据序列缺乏对设备变化的全面映射，例如某些电网设备的其中一个数据尽管比阈值低，但是它的变化趋势在不断提升，则此类情况需要额外关注。

所述步骤S2包括数据形态表达和大数据流分类模型建立；

所述步骤S3包括局部节点的微簇抽取算法和局部节点的增量式微簇维护算法；

局部节点的微簇抽取算法：

算法1说明了微簇抽取的步骤。

算法1：micro-cluster-abtractor

输入：此刻挖掘点；在时刻采集的数据块；利用表示数据维度；表示微小簇的个数

输出：在时刻的微簇集合

；

在上面算法的第1步中通过算法来对数据块聚类，它的时间复杂度为，并用表示算法的迭代执行次数，利用表征用于聚类处理的数据块容量。第2至第5步完成了微簇模式的抽取与建立，其时间复杂度为，利用表示类簇的数量，代表此簇中数据点的平均大小。同时根据可得出算法的时间复杂度取决于。

除此之外，上面算法对内存的消耗情况为：剔除运行所需内存后，算法1的大部分内存消耗来自于对个微簇进行信息统计所建立的数据结构。通过定义3可知，而单一的微簇仅消耗5个数值级别的内存容量。所以算法1的时间复杂度较低能满足对数据流的处理要求。

局部节点的增量式微簇维护算法：

式中—某一微簇的方差的第个维度值；

合并后的微簇；

计算出合并后微簇中其他的统计信息：

算法2中对微簇的增量式更新与维护操作进行了说明。

算法2：

输入：当前挖掘点；从当前数据块内

获得的微簇集合；数据维度

；基于前一次挖掘点维护的微

簇集合；局部节点最大可被

维护的微簇数目

输出：时刻更新的微簇集

；

在上述算法的执行过程中对时间的消耗主要来源于微簇的合并操作的执行次数。因为执行微簇抽取算法后将获得个微簇，所以算法2内对的最大执行次数为。由于，一次试验所采用的微簇集的大小同相近，同时针对集合容量为的微簇集采用两两试验的时间复杂度为。所以此算法的时间总复杂度为。并且因为与为适当的有限值，所以算法2能够满足流数据处理要求。

除此之外，算法2在内存上的消耗大部分为个微簇对应的数据结构，因此本算法的空间复杂度也较低。

所述步骤S4包括中心节点的样本重构算法、选择性重采样机制、中心节点的集成分类器更新算法；

中心节点的样本重构算法：

算法3展示了全局训练样本的生成步骤。

算法3：。

输入：此刻挖掘点；时刻全部微簇的集合；

数据维度；当前类簇的半径；

输出：时刻重构的样本数据集

保证重构

后的数据属于当前类别

合成多维数据点

;

由上述算法流程可知，其时间复杂度为，并利用表示已恢复的样本数量。其中此算法对空间的消耗主要取决于个样本占用的内存。

若要保证全局分类器的准确率仅有异常数据集是远远不够的，因此要保证重构后的数据集同原始样本需为等价的，至少要保证关键的统计信息相同，且重构后数据样本与原本在局部聚类中的类别归属于一类。

选择性重采样机制：

在以数据块到数据块的挖掘策略为基础的数据流分类模型中，对不平衡数据的处理大多采用过采样方法，并在过采样方法中通过现有的小类集样本来平衡最新的数据块，并结合聚类算法来划分簇数据块内的小类别样本，利用马氏距离来评估其与现有小样本的相似度。根据评估结果筛选用于平衡的小样本。

在基于数据块的分析模型下，聚类算法需要对每个训练数据块进行处理，其中候选数据块中聚类过程的时间消耗为。因此，一个数据中聚类过程的时间上限为，由于的值比较小，算法在每个数据块中所占用的时间较少。所以得出算法的总体时间复杂度是，所以在针对流速较快的数据流进行分析时，此算法利用数据块的挖掘策略可以明显减少处理时间。

如图2所示，图内的方块为从距此刻挖掘点最近的个训练样本内，提取的小类别数据，圆形表征为此刻数据块内的小类别数据样本，黄色的三角形为此刻数据块内的大类别数据，并利用五角星代表类簇中心。如图所示当距此刻数据块中的小类集较远，并置于大样本范围内时，则将此数据点看作离群点。由于已有的相似度计算方法，会把离群点看作单独的簇，进而使得评估结果被此类数据所干扰。如图所示，可以有效的甄别出任意类簇内的子概念。使得位置较为紧凑的样本被划分到同一类别，继而能够对离群点进行有效的辨识。因此经过上述处理后，产生了2个小类簇以及3个大类簇。其中利用来表征各个簇的中心，并通过红色的五角星来标识出来。由图2（c）能够看出，将已有的小类集中的数据同与其距离最小的小类簇作相似度计算。并计算此数据与距离它最近的大类集进行相似度计算。针对样本点和，第一个簇是离它们最近的小类簇，从而得到和的值。若，假定忽视类重叠现象，那么两个样本点均有机会被选中。若考虑类重叠现象则的优先级较高。

选择性过采样机制的伪代码如算法4所示。

算法4：

输入：当前数据块；当前训练集；的

不平衡率；后平衡率指在对最新

训练块中小样本重采样后的不平衡比

率；中实例个数：先前个数据块

中的小样本集及其基数；

当前数据块中的小类集；当前数据块

中小样本个数

输出：在当前数据块中经过过采样后的小类集

一般的，选择距离目前挖掘点较近的挖掘点，将其看作目前与将来一小段时间数据样本的分布情况。为降低算法的时间复杂度与空间复杂度，仅利用最近个时刻训练样本内的小类别样本，并将其抽取到集合内。同时如果当前数据块内存在小类别样本的情况下，则通过内的数据来平衡当前数据块内的小样本，反之则认为电网设备状态正常不需要进行数据平衡处理。上述重采样机制中的步骤1-2表示，如果内的数据量较低导致无法对此刻的数据块进行类别平衡，那么将内的所有数据放置到当前数据块内，但前提需要保证当前数据块中含有小样本数据，若当前待处理数据块不含小样本数据则不对此数据块进行过采样处理。步骤5表示，针对此时刻数据块中的小类集进行聚类，从而得到若干个簇。然后，通过马氏距离，将内的数据同此刻的小类簇作相似度计算。在步骤6内完成对与中所有簇的马氏距离评估。基于这种方式，能够避免离群点对相似度评估的影响。步骤7-8中计算出，其意义为与同它距离最近的小类集中心的距离值，并通过来分析在过采样中的优先级别。并且对计算与当前大类簇的差异程度，进而放置类重叠现象的发生。步骤9对中的样本进行聚类，步骤10-11得到。步骤8与步骤12将距离值和分别按升序和降序进行排列。所在步骤14表示内，计算两个距离值的次序和来判断在对进行过采样的优先级。步骤15和17实现了仅当与足够类似并偏离的小样本，才可以被选择进而用于过采样机制中。当完成对的过采样之后，将形成一个学习数据块，将其应用于集成分类器的更新

中心节点的集成分类器更新算法：

采用具有良好的剪枝与优化性能的作为基础分类器，以实现对电网设备数据流的分类。

同时，为应对概念漂对分类效果造成的影响，需要对集成分类器进行周期性的更新与维护。而现今较为经典的集成分类模型大多以与为基础。以为基础的集成分类方法的更新维护方式为调整数据与基础分类的权值，然而此种方式十分繁琐，同时由于基础分类器为，使得此类更新模式的稳定性较差。对于以为基础的集成分类方法，其收敛效率较低。所以为处理具有分布式与流动性等特征的数据流，需要集成分类器需要具有较高的归纳能力与防扰动能力。本发明在上述两种集成分类模式的基础上设计了基于淘汰策略的分类器更新模式。

本发明所提出淘汰方式主要是针对训练数据的淘汰与筛选，假定存在集成分类器，如果有一学习数据被某个基础分类器预测出其类别。那么需要把此数据点剔除，不利用此数据点对别的基础分类器进行训练。通过这种方式来提升基础分类器的多样性，与学习效率。针对集成分类器的训练流程如算法5。

算法5：

输入：此刻挖掘点;训练样本集；最近更新的集成分类器；集成分类器内弱分类器数量的阈值；

输出：时刻更新的集成分类器

;

;学习一个新分类器

;超过上界时删除最差的弱分类器

上述算法随着挖掘点的不断推而持续更新集成分类器，基于增量式维护的方式，对于任意一个基础分类器，进行了如下操作：

（1）上述算法中的步骤3-8表示，将全部的训练数据用于对任意一个基础器的试验，把预测正确的数据进行剔除。算法的用时消耗与个训练数据点呈现正比例关系。

（2）算法中的步骤9-14表示，通过剩余的训练数据来训练新的基础分类器。此步的时间消耗主要用于基础分类器的学习。

（3）在算法中的步骤15-18表示，实现对基础分类器数目的维护，对基础分类器的剪裁标准为，当基础分类器的数量超过阈值时，则根据错误率最小进行基础分类器的剪枝。

由上述算法流程可知，算法中的主要时间用于对集成分类器的维护上，由算法定义可得其上限值为，集成分类器更新算法的时间复杂度为。同时的取值较小，并且和的取值有限，所以本算法的时效性符合对电网设备数据流的处理要求。

算法5中空间使用量取决于的数据结构，此类空间消耗与基础分类器数量有关，然而由于基础分类器取值有限，因此在空间中的消耗能够满足实际应用。并且根据集成分类器的分类结果，将能够辨识出历史数据中已经存在电网设备风险类型，同时，还可以将之前未发生过的风险情况进行有效识别，提高检修人员的故障排查效率。

对于本发明的算法的实验验证：

在本实验验证中，编写了一个模拟分布式数据流动的软件。其采用的方式来构建数据流。本次实验的参数设为：数据样本获取的间隔为；数据流动的速度为记录。为更加真实的模仿实际的数据流动，因此选用了差异化的流速。

本发明实验以3个局部节点和1个中心节点为基础的分布式数据流处理环境。通过内的数据文件系统，把样本分布式的放置在了局部节点内，并将中心节点当成节，来完成对目录信息的维护。同时将设置在各个局部节点上，以实现对数据流的模拟，并完成对数据块的获取。

基于分布式的大数据流分类模型内的操作算子，对应本发明所提出的5个算法，将这些算法通过中的来进行实现。因为在局部节点中的局部挖掘模式的主要任务为对微簇的抽取与对基于微簇结构的局部挖掘模式进行更新和维护，全局挖掘模式的主要任务为还原训练样本，以重采样的方式来处理不平衡数据，并对集成分类器进行增量式更新。所以，各个局部节点内，将算法1与算法2当作主要功能来构建完整的局部挖掘器，同时中心节点中，把算法3，算法4以及算法5看作关键功能来构建完善的全局挖掘器。

在实例验证中以添加操作算子链接模块的方式，完成对局部挖掘模式与全局挖掘模式的构建。例如构建局部节点对局部挖掘模式，利用算法1对应的方法来实现对微簇的抽取，并通过构建新的，如<(簇号1，簇号2)，方差和>，来完成对相应的微簇进行合并。同理全局挖掘模式也利用此类方式来完成构建。针对局部挖掘器与全局挖掘器的交互，采用建立相应的缓冲池，当所有局部微簇到达中心节点后，则全局挖掘器开始运行。

本发明通过实际数据来验证基于分布式大数据流的分类模型的处理性能及精度，此数据来源为某电力检修单位的真实数据，其中共存在5类变压器状态数据分别为：低能放电（LE-D）、低温和中温热故障（LM-T）、高能放电（HE-D）、高温热故障（HT）以及正常状态（Normal）。

在数据集内存在LE-D故障数据16030个，HE-D数据20180个，LM-T数据37090个，HT数据28600个，正常数据297700个。

测试数据集的基本形式如下：

表1 数据基本形式

针对电力变压器中的气体含量值，进行直观的反映出电力变压器是否出现的了相关异常或者故障，能够提前感知其内部潜在的风险情况。

从两个方面对本发明所提的大数据流分类算法进行验证，首先通过与进行对比分析，来验证本发明算法的时效性与错误率。然后与对不平衡数据流的相关算法进行对比分析本发明算法在处理不平衡数据与应对概念漂移上的有效性。

首先之所以选择算法进行性能上的对比分析，是由于其结构与本发明算法相似因此具有可比性。在对比实验中将形成的类簇数据限制在30~100，而本发明算法主要限制的参数为,它们分别表征时间窗口的容量、未标签的数据比例和全局挖掘模式中的基础分类器数量。

实验1：不同历史窗口下的精度测试。

在保持除以为的参数不变的情况下，利用本发明所提算法与上述数据集，在1000s完成对全局分类模式中的集成分类器进行训练，同算法进行精度的对比分析。图3展现了历史窗口的容量对分类精度的影响。

由图3所示，本发明算法的错误率明显小于。以为时间窗口容量的提升则说明获取的数据量较多，因此在固定时间内时间窗口的数量降低，所以精度应进行相应的提升，从上图可以看出，窗口容量的提升本发明算法的精度确实不断上涨，并且同相比稳定性较高。但当窗口增长到21s时算法精度出现了收敛。因此由上图可知，在对分布式数据流处理中，本发明方法可以将代价与精度进行较好的平衡。

实验2：不同的集成分类器设置下的分类精度测试。

当将时间窗口的容量与未标签的数据比例分别设置为时，在1000s内，每间隔100s进行一次错误率的统计。通过此实验能够得出全局挖掘模式中集成分类器内基础分类器的数量与分类精度间的关系，通过图4能够得到随着时间的流逝两种算法的精度在组件上升。同时，为了详细分析两种算法间的差异性。在图5内将基础分类器设置为的本发明方法的错误率与的错误率用折线图进行表示。

从图4中可以看出：当时，本发明算法的分类精度不够理想；在已经有很大改善；当时，本发明算法的挖掘错误率随学习时间的推移则逐步下降。当完成了1000s的学习后，本发明方法的挖掘错误率已降到10%。同时，算法的表现则不是十分稳定，尽管总体精度也在逐步提升但要低于本发明的方法。

通过图5能够得出：若集成分类器内的基础分类数目保持不变时，本发明的方法将随着时间的推移，其挖掘错误率在不断下架，并在一段时间后进行了收敛。与此同时DS-means算法的稳定性较差。

实验3：执行时间和内存空间测试。

将未标签样本比例与基础分类器设置分别为,并分析当时间窗口取不同值时，两种方法在时间与空间上的花费。由于两种算法均需要通过局部节点与中心节点的挖掘来完成对数据流的分类，但由于本发明所提方法中的局部挖掘模式采用微簇结构其在局部节点中的内存花费较小，因此本实验仅记录了中心节点中的全局挖掘器对时间与空间的花费。

由两种方法的时间与空间的花费取决于对中心节点中全局挖掘模式的更新与维护，通过图6可以看出这两种算法在时间消耗上的对比，同时由图7可知两种方法在空间花费行的对比情况。

从图6中可以看出，两种算法随着滑动时间窗口的增长，一次增量式更新的时间消耗均提高。其中原因为时间窗口容量的提升将增加CPU运行用时。并且，尽管虽然本发明算法比DS-means率高，但是两者的攀升幅度相当。其关键原因是，本发明对集成分类器的增量式更新方法需要反复执行C4.5，但由算法5的定义可知，每一次对C4.5算法的运行无需使用全部样本数据，而是经过重采用后的数据块，因此所以本发明算法的执行时间并未比有特别明显地提升。

图7中说明，两种算法的内存花费相近。其具体原因仍然是，本发明算法在运行C4.5算法时采用的是部分样本数据，因此在内存空间行消耗要略低于DS-means。

实验4：应对不平衡数据的分类效果实验

由于电力系统中冗余性较高，因此本发明采用的数据集存在数据类别分布的不平衡，为说明本发明所提算法对不平衡数据的处理效果，其对样本类别的识别精度则不具有明确说服力，需采用G-mean当做算法的评价标准，由公式（5-1）：

式中TP—对正类的分类结果仍然为正类；

FN—对正类数据的分类结果为负类；

FP—对负类数据的分类结果为正类；

TN—对负类数据的分离结果为负类。

在本发明中将变压器的故障数据设为正类，正常数据设为负类。

G-mean为分类器针对小样本的召回率与对大类样本分类精度的集合均值。这个指标通常用于表征不平数据流的分类效果。

为更好的体现本发明算法对不平衡数据流的处理效果，在本次实验中将测试数据中各类故障样本量降低30%并对正常数据增加相应的样本数量，以验证对不平衡数据流的处理效果，且由实验1、2与3可知本发明方法中各参数为：H-size=20，unlab=25%，E-no=20时性最佳。而对比算法采用经典的MuSeRA、SMOTE与实验1、2、3中的DS-means。

MuSeRA能够一同解决概念漂移与数据分类不平衡的问题，其能够使用数据流中已流逝的信息，来降低灾难性的遗忘，并利用马氏距离来计算小样本与此刻小类集的相似度，后平衡率。

SMOTE在利用数据块策略的处理框架下，利用SMOTE算法产生新的小类别数据来平衡此刻的类别分布，数据块设定的大小为3s，后平衡率

由图8可知虽然在前三个实验中DS-means的效率尚可，但在利用G-mean来评估算法性能是时其效果很差，具体原因为DS-means缺少针对平衡数据的处理机制，而MuSeRA与SMOTE算法虽然对电网设备上采集的不平衡数据内的小样本，在甄别上有一定效果，但是并不理想距离电网中的要求有一定差距，而本发明算法由于采用了选择性从采样机制，表现出了良好的性能，符合对电网设备数据流的处理需求。

实验5：基于概念漂移数据集的分类效果实验

为方便验证本发明算法在对概念漂移上的处理性能，因此在本次实验中采用数据集，其利用RBF生成器来进行生成的数据集，其中存在4个渐变重现型的概念漂移，含有817000个数据样本、20个属性与2个类别。采用的实验4中的算法进行对比。

由图9可知由于DS-means算法在内存处理机制中缺乏对不平衡数据和概念漂移问题的处理机制，因此其在基于G-mean的评估上表现的效果较差，无法适应概念漂移。而MuSeRA算法在处理渐变重新型的概念漂移时，其存在对小样本的错误分类的情况导致其在渐变重现型的概念漂移上效果很差，而SMOTE仅仅通过使用上一次的数据块构建分离模型，因而无法使用重现型概念，图中显示其性能无法随着重现型概念漂移的出现而提升。在此数据集上由于本发明算法中对基础分类器更新算法具有较大的覆盖性，且其中保留着部分能够适应之前类别的基础分类器，使得本发明算法在应对各类概念漂移时效果较好。

综合实验1、2、3、4和5，面对基于存在概念漂移与不平衡类别分类数据流的复杂电网设备风险分析，本发明方法能够利用较小时间代价的增长，进而获得挖掘精度的大幅度提升，以实现精度与代价的平衡上获得了一个较为优化的解决方法，进而实现对电网设备风险的快速辨识。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式数据流处理的局部节点挖掘方法，其特征在于，包

括以下步骤：

S1，数据序列选取；

S2，大数据流分类模型建立；

S3，局部节点的挖掘方法；

S4，基于不平衡数据流的中心节点挖掘方法。

2.根据权利要求1所述的基于分布式数据流处理的局部节点挖掘方法，

其特征在于，所述步骤S1包括静态数据序列的选取和渐变数据序列的选取；

3.根据权利要求1所述的基于分布式数据流处理的局部节点挖掘方法，

其特征在于，所述步骤S2包括数据形态表达和大数据流分类模型建立；

所述数据形态表达具体包括：

：数据个数；

：中心点或称为均值，即

：平方和统计（为防止溢出被开方），即

：方差统计值，即

：数据集的类标识；

局部挖掘节点中的挖掘模式，存在下列操作：

；负责从当前数据块中挖掘出微簇集；

中心节点内全局挖掘模式，包含如下操作：

；将当前微簇集转换成全局学习样本集；

平衡训练样本中不同类别的数据分布；

4.根据权利要求1所述的基于分布式数据流处理的局部节点挖掘方法，

其特征在于，所述步骤S3包括局部节点的微簇抽取算法和局部节点的增量式微簇维护算法；

局部节点的微簇抽取算法：

局部节点的增量式微簇维护算法：

式中—某一微簇的方差的第个维度值；

合并后的微簇；

计算出合并后微簇中其他的统计信息：

此算法在内存上的消耗大部分为个微簇对应的数据结构。

5.根据权利要求1所述的基于分布式数据流处理的局部节点挖掘方法，

其特征在于，所述步骤S4包括中心节点的样本重构算法、选择性重采样机制、中心节点的集成分类器更新算法；

中心节点的样本重构算法：

选择性重采样机制：

中心节点的集成分类器更新算法：

采用基于淘汰策略的分类器更新模式，