CN111459926A

CN111459926A - 一种园区综合能源异常数据识别方法

Info

Publication number: CN111459926A
Application number: CN202010227575.2A
Authority: CN
Inventors: 孙乐平; 韩帅; 吴宛潞; 郭小璇; 陈卫东; 肖静; 秦丽娟; 杨艺云; 吴宁; 戴承承; 廖敏乐
Original assignee: Electric Power Research Institute of Guangxi Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2020-07-28

Abstract

本发明公开了一种园区综合能源异常数据识别方法，所述方法包括：从N个样本数据中随机选择K个样本数据，分别作为K个聚类簇中每一个聚类簇的中心点；基于每一个聚类簇的中心点，将N个样本数据中所剩下的N‑K个样本数据分别填补到K个聚类簇中所对应的一个聚类簇；将填补后的K个聚类簇中每一个聚类簇的中心点进行更新；判断填补后的K个聚类簇中每一个聚类簇所包含的样本数据与更新后的中心点之间所形成的准则函数是否收敛；若是，则从填补后的K个聚类簇中获取最佳聚类的k个聚类簇，并将所述k个聚类簇中相对距离较大的点定义为所述N个样本数据中的异常数据。所述方法将高效地识别异常数据，且稳定性强、可靠性高。

Description

一种园区综合能源异常数据识别方法

技术领域

本发明涉及电气技术领域，尤其涉及一种园区综合能源异常数据识别方法。

背景技术

园区综合能源的能耗数据真实反映了特定时间段内企业生产用能多少。根据能耗数据是否满足能耗曲线的连续性与相似性，通常将能耗数据分为常规数据与异常数据，其中异常数据通常受到各种影响，包括外界干扰或者测量仪器自身出现问题，从而导致监测到的负荷值与实际负荷存在一定偏差，但绝大部分的误差数据是服从正态分布的白噪声，对其经过一定的处理后就基本不会产生影响。此外，在综合能源系统运行过程中还会出现部分测量数据缺失或者偏离正常测量轨迹的情况，对负荷曲线的连续性与相似性在局部或者某段时间内造成了破坏。

在综合能源系统实际运行过程中，由于随机因素的复杂性与不可知性，导致异常数据的产生具有一定的随机性，且负荷数据类型也是错综复杂的。若不能对系统运行过程中所产生的异常数据进行有效识别，将使得园区内的实际业务开展变得毫无意义，甚至影响后续业务，如综合能源优化运行。

发明内容

本发明的目的在于克服现有技术的不足，本发明提供了一种园区综合能源异常数据识别方法，所述方法采用聚类算法对样本数据进行聚类，并配合DB指标对样本数据中的异常数据进行有效识别，算法简单且可靠性高。

为了解决上述技术问题，本发明实施例提供了一种园区综合能源异常数据识别方法，所述方法包括：

对聚类中心进行初始化，从N个样本数据中随机选择K个样本数据，所述K个样本数据分别为K个聚类簇中每一个聚类簇的中心点；

基于每一个聚类簇的中心点，将所述N个样本数据中所剩下的N-K个样本数据分别填补到K个聚类簇中所对应的一个聚类簇，所述N-K个样本数据为所述N个样本数据除去所述K个样本数据后所剩下的样本数据；

将填补后的K个聚类簇中每一个聚类簇的中心点进行更新；

判断填补后的K个聚类簇中每一个聚类簇所包含的样本数据与更新后的中心点之间所形成的准则函数是否收敛；

若所述准则函数收敛，则通过不同的聚类方式从填补后的K个聚类簇中获取最佳聚类的k个聚类簇，并将所述k个聚类簇中相对距离较大的点定义为所述N个样本数据中的异常数据。

可选的，所述将所述N个样本数据中所剩下的N-K个样本数据分别对应填补到K个聚类簇中的一个聚类簇包括：

从所述N-K个样本数据中获取第i个数据，计算第i个数据到K个聚类簇中每一个聚类簇的中心点的最小欧几里得距离；

获取所述最小欧几里得距离所对应的第一聚类簇，并将第i个数据归类到所述第一聚类簇中，所述第一聚类簇为K个聚类簇中的一个；

判断i是否小于N-K；

若i小于N-K，则将i+1赋值给i，返回计算第i个数据到K个聚类簇中每一个聚类簇的中心点的最小欧几里得距离；

若i不小于N-K，则将填补后的K个聚类簇中每一个聚类簇的中心点进行更新。

可选的，所述欧几里得距离L为：

其中，x_i为第i个数据，y_j为K个聚类簇中的第j个聚类簇的中心点，d为欧几里得空间的维数。

可选的，所述将填补后的K个聚类簇中每一个聚类簇的中心点进行更新包括：

从填补后的K个聚类簇中获取第j个聚类簇，计算第j个聚类簇中所包含的样本数据的平均向量，所述平均向量为第j个聚类簇的中心点；

判断j是否小于K；

若j小于K，则将j+1赋值给j，返回计算第j个聚类簇中所包含的样本数据的平均向量；

若j不小于K，则判断填补后的K个聚类簇中每一个聚类簇所包含的样本数据与更新后的中心点之间所形成的准则函数是否收敛。

可选的，所述准则函数为：

其中，SSE为所述N个样本数据的平方误差总和，m_i为填补后的K个聚类簇中第i个聚类簇C_i的中心点(平均值)，p为第i个聚类簇C_i的样本数据(非中心点)。

可选的，在判断填补后的K个聚类簇中每一个聚类簇所包含的样本数据与更新后的中心点之间所形成的准则函数是否收敛之后，还包括：

若所述准则函数发散，返回将所述N个样本数据中所剩下的N-K个样本数据分别对应填补到K个聚类簇中的一个聚类簇，其中所述K个聚类簇为所述填补后的K个聚类簇。

可选的，所述通过不同的聚类方式从填补后的K个聚类簇中获取最佳聚类的k个聚类簇包括：

从填补后的K个聚类簇中按照不同的聚类数量选取k个聚类簇，并计算k个聚类簇的最小DB指标，所述最小DB指标所对应的k个聚类簇为最佳聚类结果。

可选的，所述DB指标为：

其中，k为聚类数量，且2≤k∈N，N为样本数据的总量，W_i为第i个聚类簇C_i中所包含的样本数据到更新后的中心点O_i的平均距离，W_j为第j个聚类簇C_j中所包含的样本数据到更新后的中心点O_j的平均距离，C_ij为中心点O_i到中心点O_j的距离。

在本发明实施例中，所述识别方法优先采用欧几里得距离作为相似性的评价指标，对样本数据进行初始聚类；再利用Davies-Bouldin(DB)指标对样本数据本身与初始聚类结果的统计特征进行聚类有效性的评价，以获取样本数据的最佳聚类结果，从而把样本数据中的异常数据有效识别出来。本发明实施过程中的算法简单，便于计算机高效运行，且稳定性与可靠性高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例公开的一种园区综合能源异常数据识别方法的流程示意图；

图2是本发明实施例公开的一组样本数据所对应的负荷曲线示意图；

图3是本发明实施例公开的一组样本数据经不同方式聚类后所形成的DB指标示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1示出了本发明实施例中的一种园区综合能源异常数据识别方法的流程示意图，所述方法包括如下步骤：

S101、对聚类中心进行初始化，从N个样本数据中随机选择K个样本数据，所述K个样本数据分别为K个聚类簇中每一个聚类簇的中心点；

需要说明的是，所述N个样本数据在整个算法空间中的位置是固定不变的，并且随机选择的所述K个样本数据只是作为初始聚类的参考点，不限定为最终聚类的中心点。

S102、基于每一个聚类簇的中心点，将所述N个样本数据中所剩下的N-K个样本数据分别填补到K个聚类簇中所对应的一个聚类簇；

需要说明的是，所述N个样本数据实际上有自己的编号(从1到N)，在该填补过程中按照编号大小进行分类填补，且将自动排除对所述K个样本数据执行填补工作，可避免出现数据遗漏或者重复分类现象，同理K个聚类簇也有自己的编号(从1到K)，本发明具体实施过程为：

(1)从所述N-K个样本数据中获取第i个数据，计算第i个数据到K个聚类簇中每一个聚类簇的中心点的最小欧几里得距离；

具体的，首先限定第i个数据由第一个样本数据开始读取(即i＝1)，计算第i个数据到K个聚类簇中第j个聚类簇的中心点的欧几里得距离，在此过程中的j以一个位长为间距由1开始叠加直至K，可获取K个对应的欧几里得距离，并且在每一次计算过程中将执行与上一个欧几里得距离的对比，以此得到所述最小欧几里得距离，所述欧几里得距离L的计算公式为：

(2)获取所述最小欧几里得距离所对应的第一聚类簇，并将第i个数据归类到所述第一聚类簇中，所述第一聚类簇为K个聚类簇中的一个；

需要说明的是，在本发明实施例中，通常采用欧几里得距离作为度量依据，并以该距离作为所述N个样本数据之间相似性的评价指标，将距离靠近的样本数据分为一聚类簇，即第i个数据与所述第一聚类簇中所包含的样本数据之间的相似度较高。

(3)判断i是否小于N-K；若是，则将i+1赋值给i，返回执行步骤(1)；若否，继续执行步骤S103。

S103、将填补后的K个聚类簇中每一个聚类簇的中心点进行更新；

在本发明实施例中，调整聚类簇中心的方式是：根据某一聚类簇所包含的样本数据，将该聚类簇的原始中心不断更新移动至几何中心(即平均值)，将保证该聚类簇中的各个样本数据具有更高的相似度。具体实施过程为：

(1)从填补后的K个聚类簇中获取第j个聚类簇，计算第j个聚类簇中所包含的样本数据的平均向量，所述平均向量为第j个聚类簇的中心点；

(2)判断j是否小于K；若是，则将j+1赋值给j，返回执行步骤(1)；若否，则判断填补后的K个聚类簇中每一个聚类簇的中心点完成更新，继续执行步骤S104。

需要说明的是，在本发明实施例中，步骤S102与步骤S103并不限制于执行一次，若在后续判断填补后的K个聚类簇中存在一个或者多个聚类簇的类内紧凑程度未达到标准时，填补后的K个聚类簇将发生二次聚类，即填补后的K个聚类簇中每一个聚类簇的几何中心点(平均值)将被当作所述步骤S102中所提及到的中心点，通过迭代进行新一轮的数据分类与中心点更新。

S104、判断填补后的K个聚类簇中每一个聚类簇所包含的样本数据与更新后的中心点之间所形成的准则函数是否收敛；

需要说明的是，准则函数是评价填补后的K个聚类簇之间的聚类性能的标准，当准则函数达到最小(即收敛)的情况下，说明所述N个样本数据的分类不再发生变化，从而使得填补后的K个聚类簇中每一个聚类簇的类内紧凑且类间独立。其中，所述准则函数为：

式中，SSE为所述N个样本数据的平方误差总和，m_i为填补后的K个聚类簇中第i个聚类簇C_i的中心点(平均值)，p为第i个聚类簇C_i的样本数据(非中心点)。

本发明实施过程中，满足准则函数收敛的条件为：SSE<ε，其中ε为本发明所设定的最优解，仅取决于决策者的意愿或者聚类要求。若填补后的K个聚类簇中每一个聚类簇所包含的样本数据与更新后的中心点之间所形成的准则函数值小于所设定的最优解，此时继续执行步骤S105。若否，则返回执行步骤S102，其中步骤S102中所提及到的K个聚类簇即为所述填补后的K个聚类簇，以此进行迭代更新。需要说明的是，填补后的K个聚类簇中每一个聚类簇的中心点进行更新后将变为几何中心，此时存在与步骤S101中提及到的所述K个样本数据对应不一致的值，故返回执行步骤S102时的N-K个数据需要根据实际情况进行约束。

S105、通过不同的聚类方式从填补后的K个聚类簇中获取最佳聚类的k个聚类簇，并将所述k个聚类簇中相对距离较大的点定义为所述N个样本数据中的异常数据。

在本发明实施例中，采用聚类算法的关键问题在于指定最佳聚类数，而最佳聚类结果的评定是由DB指标所决定的，DB指标反映k个聚类簇所对应的每一个聚类簇的类内散度以及不同类间的中心间距，且DB指标值最小则说明k个聚类簇之间的相似度最低。具体实施过程包括：

(1)从填补后的K个聚类簇中按照不同的聚类数量选取k个聚类簇，并计算k个聚类簇的最小DB指标，所述最小DB指标所对应的k个聚类簇为最佳聚类结果，记为第二聚类簇，其中所述DB指标的计算公式为：

式中，k为聚类数量，且2≤k∈N，N为样本数据的总量，W_i为第i个聚类簇C_i中所包含的样本数据到更新后的中心点O_i的平均距离，W_j为第j个聚类簇C_j中所包含的样本数据到更新后的中心点O_j的平均距离，C_ij为中心点O_i到中心点O_j的距离。

需要说明的是，不同的聚类方式包括k的不同取值、以及基于k的取值所对应的不同聚类簇的组合，这两种聚类方式均同等程度地影响DB指标值，本发明中对于最小DB指标的获取过程需要严格按照以上两个聚类方式去考虑执行，通过求解所有不同组合聚类簇的DB指标，再从中选择最小DB指标。

(2)将所述第二聚类簇中相对距离较大的点定义为所述N个样本数据中的异常数据。

需要说明的是，本发明实施例中所提及到的相对距离指的是聚类簇与聚类簇之间的距离，且两个聚类簇中所包含的样本数据在数量上有悬殊，以此作为异常数据的一个判断标准。

具体的，假设所述第二聚类簇仅包含聚类簇A、聚类簇B和聚类簇C(即最佳聚类数k为3)，此时所述第二聚类簇所包含的样本数据总量为：m＝a+b+c，其中a为所述聚类簇A的样本数据数目，b为所述聚类簇B的样本数据数目，c为所述聚类簇C的样本数据数目；分别计算出所述聚类簇A的样本数据量a、所述聚类簇B的样本数据量b和所述聚类簇C的样本数据量c占所述第二聚类簇的样本数据总量m的比例为a/m、b/m、c/m；将上述三个比例值中差距悬殊且比例值极小的一个或多个比例值所对应的聚类簇判断为异常簇，根据异常数据点的出现频率低、数量少、数值无规律的特性，说明该异常簇中所包含的样本数据为所述N个样本数据中的异常数据，与其他正常数据的相对距离较远。

本发明具体实施过程中，以某园区的5个用户从2016年6月至9月这四个月的用电数据为例，按照10min的采样频率在每一个月中各取两组数据，共5x4x2组数据且各组数据的维度为144×3，指定前20组数据为样本集，后20组数据为验证集。将前20组数据(样本集)按照上述步骤S101至步骤S105进行异常数据的识别，该异常数据包括坏数据和缺失数据两种状态。从所述前20组数据中任选一组数据为例，经拟合后的负荷曲线图如图2所示，可直观看出该组数据中包含六处数据缺失点(缺失点为不连续点，在图中以“○”作为显示)和四处数据异常点(即数据超出正常用电水平，在图中以“*”作为显示)：将该组数据依次进行迭代聚类与最佳聚类结果评定(DB指标判断)，如图3所示，可知最小的DB指标值所对应的聚类数目为4(即最佳聚类数为4)，且这4个聚类簇的聚类结果如表1所示：

表1聚类结果展示

由表1可知，类别2和类别4所占的比例极小，且类别2的聚类中心以及类别4的聚类中心与其它点(类别1和类别2中的样本数据)的距离较远，因此类别2和类别4中总共包含的4个数据被判断为不符合用能特性的坏数据，并相应地统计出6处缺失数据，以上提及到的10处异常数据具体如表2所示，再对照图2所示出的负荷曲线示意图，可验证出通过所述识别方法对异常数据进行识别是正确可行的。

表2异常数据结果展示

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，ReadOnly Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种园区综合能源异常数据识别方法进行了详细介绍，本文中应采用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种园区综合能源异常数据识别方法，其特征在于，所述方法包括：

将填补后的K个聚类簇中每一个聚类簇的中心点进行更新；

2.根据权利要求1所述的园区综合能源异常数据识别方法，其特征在于，所述将所述N个样本数据中所剩下的N-K个样本数据分别对应填补到K个聚类簇中的一个聚类簇包括：

判断i是否小于N-K；

3.根据权利要求2所述的园区综合能源异常数据识别方法，其特征在于，所述欧几里得距离L为：

4.根据权利要求1所述的园区综合能源异常数据识别方法，其特征在于，所述将填补后的K个聚类簇中每一个聚类簇的中心点进行更新包括：

判断j是否小于K；

5.根据权利要求4所述的园区综合能源异常数据识别方法，其特征在于，所述准则函数为：

6.根据权利要求5所述的园区综合能源异常数据识别方法，其特征在于，在判断填补后的K个聚类簇中每一个聚类簇所包含的样本数据与更新后的中心点之间所形成的准则函数是否收敛之后，还包括：

7.根据权利要求1所述的园区综合能源异常数据识别方法，其特征在于，所述通过不同的聚类方式从填补后的K个聚类簇中获取最佳聚类的k个聚类簇包括：

8.根据权利要求7所述的园区综合能源异常数据识别方法，其特征在于，所述DB指标为：