CN108681973A

CN108681973A - 电力用户的分类方法、装置、计算机设备和存储介质

Info

Publication number: CN108681973A
Application number: CN201810457380.XA
Authority: CN
Inventors: 许中; 莫文雄; 马智远; 王勇; 周凯; 栾乐; 王劲; 王红斌; 叶志峰; 张群峰; 徐强超; 梁旭懿; 冯振宇; 钟锦群
Original assignee: Guangzhou Power Supply Bureau Co Ltd
Current assignee: Guangzhou Power Supply Bureau Co Ltd
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-10-19

Abstract

本发明涉及电力用户的分类方法、装置、计算机设备和存储介质，属于分类技术领域。所述方法包括：获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。上述技术方案，解决了通过聚类分析方法对电力用户进行分类时不够准确的问题，实现了对电力用户的准确分类。

Description

电力用户的分类方法、装置、计算机设备和存储介质

技术领域

本发明涉及分类技术领域，特别是涉及电力用户的分类方法、装置、计算机设备和存储介质。

背景技术

随着智能电网背景下用电信息采集“全覆盖”的实现，以及近年来负荷数据的不断累加，基于用电信息采集的电力用户分类具有重要意义。目前电力用户分类主要是依据电力用户日用电负荷曲线的形态变化，衡量不同电力用户负荷曲线的相似性，使用聚类分析方法对电力用户的用电负荷数据进行分类。在实现本发明过程中，发明人发现现有技术中至少存在如下问题：目前的电力用户分类方法，在对电力用户的用电负荷数据进行聚类时通常根据经验确定或随机选择初始聚类中心和聚类个数，导致得到的聚类效果差，对电力用户的分类不够准确。

发明内容

基于此，本发明提供了电力用户的分类方法、装置、计算机设备和存储介质，能实现对用电用户的准确分类。

本发明实施例的内容如下：

一种电力用户的分类方法，包括以下步骤：获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

在其中一个实施例中，所述根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析的步骤，包括：对于所述预设范围内的某一聚类个数，随机选取所述多个用电负荷数据中的一个用电负荷数据作为已确定的初始聚类中心；依次从剩余的用电负荷数据中选取下一个已确定的初始聚类中心，直到选取出的已确定的初始聚类中心的个数达到所述某一聚类个数；其中，在所述剩余的用电负荷数据与所有已确定的初始聚类中心的欧氏距离之和中，所述下一个已确定的初始聚类中心的所述欧氏距离之和最高；根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析。

在其中一个实施例中，所述根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析的步骤，包括：计算所述用电负荷数据与所述已确定的初始聚类中心的欧式距离，将各个用电负荷数据分配到所述欧式距离最小的初始聚类中心对应的聚类类别中；计算各个聚类类别的重心，将所述重心作为对应聚类类别的新聚类中心。

在其中一个实施例中，所述确定各个聚类结果的轮廓系数指标的步骤，包括：对于某一聚类结果，确定某一用电负荷数据与同一聚类类别中其他用电负荷数据之间的欧式距离的均值，作为第一系数；确定所述某一用电负荷数据与距离最近的聚类类别中各个用电负荷数据之间的欧式距离的均值，作为第二系数；根据所述第一系数和第二系数计算所述某一用电负荷数据的轮廓系数；计算各个用电负荷数据的轮廓系数的均值，得到对应聚类结果的轮廓系数指标。

在其中一个实施例中，所述获取多个用电负荷数据的步骤之后，还包括：确定所述用电负荷数据的缺失值，对所述缺失值进行删除和/或补充处理。

在其中一个实施例中，所述用电负荷数据包括对应电力用户的多个时间段的多个用电量；所述对所述用电负荷数据的缺失值进行处理的步骤之后，还包括：根据某一用电负荷数据以及对应时间段所有电力用户中的最大用电量和最小用电量，对所述用电负荷数据进行归一化处理。

在其中一个实施例中，所述对各个用电负荷数据进行归一化处理的步骤之后，还包括：根据主成分分析法对所述用电负荷数据进行降维处理。

相应的，本发明实施例提供一种电力用户的分类装置，包括：数据获取模块，用于获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；聚类分析模块，用于根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；指标确定模块，用于分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；以及，类别确定模块，用于将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

上述电力用户的分类方法及装置，根据不同的聚类个数和初始聚类中心对用电负荷数据进行聚类分析，并引入轮廓系数指标来确定最优的聚类结果，提高了聚类算法的性能，使得电力用户的分类结果更加具有准确性。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

上述计算机设备，根据不同的聚类个数和初始聚类中心对用电负荷数据进行聚类分析，并引入轮廓系数指标来确定最优的聚类结果，提高了聚类算法的性能，使得电力用户的分类结果更加具有准确性。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

上述计算机可读存储介质，根据不同的聚类个数和初始聚类中心对用电负荷数据进行聚类分析，并引入轮廓系数指标来确定最优的聚类结果，提高了聚类算法的性能，使得电力用户的分类结果更加具有准确性。

附图说明

图1为一个实施例中电力用户的分类方法的应用环境图；

图2为一个实施例中电力用户的分类方法的流程示意图；

图3为另一个实施例中电力用户的分类方法的流程示意图；

图4为一个实施例中电力用户的分类装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请提供的电力用户的分类方法可以应用于如图1所示的计算机设备中。该计算机设备可以是服务器，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用电负荷数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电力用户的分类方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例提供一种电力用户的分类方法、装置、计算机设备和存储介质。以下分别进行详细说明。

在一个实施例中，如图2所示，提供了一种电力用户的分类方法，包括以下步骤：

S201、获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户。

本步骤获取多个电力用户的用电负荷数据。

在一个实施例中，用电负荷指的是电力用户的用电设备在某一时刻向电力系统取用的电功率的总和。因此，用电负荷数据可以是一段时间内的用电量等。

在一个实施例中，可以获取某一区域若干个电力用户的用电负荷数据，本发明实施例对电力用户以及用电负荷数据的个数不做限制。进一步地，某一电力用户的用电负荷数据可以包括一个数据，也可以包括多个数据。若是多个数据，则可以是采集某一时间段内的多个用电负荷得到的数据。

S202、根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定。

本步骤对于预设范围内的某一聚类个数k，确定k个初始聚类中心，根据这k个初始聚类中心对用电负荷数据进行聚类分析。另外，根据预设范围内的各个聚类个数对用电负荷数据进行一次以上的聚类分析。

在一个实施例中，聚类个数可以是1个，也可以是2个，还可以是其他值。因此，本实施例对聚类个数的预设范围不做限制，使聚类个数为一个及以上即可。

在一个实施例中，聚类分析可以采用K-means聚类、层次聚类和模糊C均值聚类等聚类算法进行。还可以采用有监督学习的自组织映射(SOM)神经网络、支持向量机(SVM)和极限学习机等方法对电力用户进行聚类分类。

在一个实施例中，初始聚类中心指的是在进行聚类分析时，最开始的聚类中心(即每一个聚类类别的中心点)，在逐次迭代的过程中，聚类中心逐渐移动，在聚类结束时，最终的聚类变得合理。

在一个实施例中，用电负荷数据之间的距离可以指各个用电负荷数据的相似度，也可以是各个用电负荷数据之间的欧氏距离等。

S203、分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标。

在一个实施例中，由于每一个聚类个数都确定了对应的初始聚类中心并进行了聚类分析，因此，每一个聚类个数都有与之对应的聚类结果。

在一个实施例中，对聚类结果的有效性进行评价的指标，可以是和方差(SSE)、平均指数充裕度(MIA)、相似度矩阵指示器(SMI)、Davies Bolden指标(DBI)、轮廓系数指标等。

在一个实施例中，选用轮廓系数指标(Silhouette Coefficient)对聚类效果的好坏进行评价。轮廓系数指标结合了聚类的凝聚度(Cohesion)和分离度(Separation)。用于评估聚类的效果时，既考虑了类间效果，也考虑了类内效果。该指标处于-1～1之间，值越大，表示聚类效果越好。

S204、将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

在本步骤中，最终聚类结果中对用电负荷数据进行了分类，每个用电负荷数据都有与之对应的聚类类别，而每个用电负荷数据对应一个电力用户，因此根据最终聚类结果就了确定出各个电力用户所属的聚类类别。

在一个实施例中，每个聚类类别都有与之对应的电力用户类别。该聚类结果可以是根据电力用户的集中用电时间、单位时间内的用电量等得到的分类结果。

本实施例，根据不同的聚类个数和初始聚类中心对用电负荷数据进行聚类分析，并引入轮廓系数指标来确定最优的聚类结果，提高了聚类算法的性能，使得电力用户的分类结果更加具有准确性。另外，每一个聚类结果都有与之对应的聚类个数和初始聚类中心，因此，本实施例还实现了聚类个数和初始聚类中心的选择，将聚类个数和初始聚类中心的选择应用于电力用户的分类，提高了聚类算法的性能，避免出现局部最优的问题，有利于得到全局最优解。

在一个实施例中，所述根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析的步骤，包括：对于所述预设范围内的某一聚类个数，随机选取所述多个用电负荷数据中的一个用电负荷数据作为已确定的初始聚类中心；依次从剩余的用电负荷数据中选取下一个已确定的初始聚类中心，直到选取出的已确定的初始聚类中心的个数达到所述某一聚类个数；其中，在所述剩余的用电负荷数据与所有已确定的初始聚类中心的欧氏距离之和中，所述下一个已确定的初始聚类中心的所述欧氏距离之和最高；根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析。

K-means聚类算法是最广泛使用和最易于实现的聚类算法，它将输入数据集按相似性划分为k个组，是一种无监督学习方法。考虑一个由N个独立的D维(每个输入向量包括D维数据)输入向量组成的数据集{x₁,x₂,…,x_N}。为了获得这k个组，用一组向量{μ_i}找到指向聚类的数据点的分布，以确保每个数据点到其最接近的向量μ_k的距离的平方和最小。在这里，x_i代表经过规范化处理的用户负荷数据。

在一个实施例中，由于对电力用户的分类数不会太多，实际应用中K-means聚类算法本身也不会设置太大的k值，所以可以将k值的预设范围设置为2～10。

在一个实施例中，对用电负荷数据进行聚类分析的实现过程举例如下：

当k值为2时，先随机选取一个用电负荷数据，作为已确定的初始聚类中心C₁；然后确定其他用电负荷数据中与C₁的欧式距离最大的用电负荷数据，并将之选为下一个已确定的初始聚类中心C₂，C₁和C₂即为k值为2时的两个初始聚类中心。

当k值为3时，先随机选取一个用电负荷数据，作为初始聚类中心已确定的C₁；然后确定其他用电负荷数据中与C₁的欧式距离最大的用电负荷数据，并将之选为下一个已确定的初始聚类中心C₂；然后确定剩余的用电负荷数据中与C₁、C₂的欧式距离之和最大的用电负荷数据，并将之选为下一个已确定的初始聚类中心C₃，C₁、C₂和C₃即为k值为3时的三个初始聚类中心。

重复此过程，确定每个k值对应的初始聚类中心，每次确定初始聚类中心时都计算剩余的各个用电负荷数据与先前选出的各个初始聚类中心之间的欧式距离之和，从中选出欧式距离之和最大的用电负荷数据作为下一个初始聚类中心，直到选出所需的k个初始聚类中心，停止选择。

本实施例，确定多个聚类个数，并确定对应个数的初始聚类中心，对用电负荷数据进行多次K-means聚类分析，可以得到多个聚类结果，经过这些结果的比较就能从中确定出最佳的聚类结果。防止在仅通过一个聚类次数进行聚类时，若该聚类个数不准确，将导致聚类结果不准确的问题。

在一个实施例中，所述根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析的步骤，包括：计算所述用电负荷数据与所述已确定的初始聚类中心的欧式距离，将各个用电负荷数据分配到所述欧式距离最小的初始聚类中心对应的聚类类别中；计算各个聚类类别的重心，将所述重心作为对应聚类类别的新聚类中心。

在一个实施例中，K-means聚类分析的具体过程举例如下：

根据欧式距离最小原则，将各个用电负荷数据分配到离它最近的聚类中心所代表的k类聚类类别中，聚类中心C_j对应的聚类类别所包含的用电负荷数据样本数为B_j(其中，B表示某一聚类类别的样本数)。某一个用电负荷数据x_i与聚类中心C_j的欧式距离可以通过下式计算：

其中，i为电力用户编号，经过上式的计算，每个用电负荷数据被分配到与之距离最近的聚类中心所对应的聚类类别中。

K-means聚类算法每次需要计算k个类的重心作为这些聚类类别的新聚类中心，因此，计算各个聚类类别的重心，令为新聚类中心，即：

其中，j代表某一时间段内的用电负荷数据采样点数。

在一个实施例中，根据新聚类中心重新进行用电负荷数据的分配，并不断重复直至聚类结果不再改变或者变化率小于预设的阈值。

本实施例实现的是K-means聚类分析的具体过程，即根据距离最小原则来分配各个用电负荷数据样本，并根据中间聚类结果中各个聚类类别的重心来确定新的聚类中心。经过多次的聚类过程，当聚类结果不再改变时，聚类结束。能实现对用电负荷数据的准确分类，使每一个用电负荷数据都被合理地分配到各个聚类类别中。

在一个实施例中，所述确定各个聚类结果的轮廓系数指标的步骤，包括：对于某一聚类结果，确定某一用电负荷数据与同一聚类类别中其他用电负荷数据之间的欧式距离的均值，作为第一系数；确定所述某一用电负荷数据与距离最近的聚类类别中各个用电负荷数据之间的欧式距离的均值，作为第二系数；根据所述第一系数和第二系数计算所述某一用电负荷数据的轮廓系数；计算各个用电负荷数据的轮廓系数的均值，得到对应聚类结果的轮廓系数指标。

在一个实施例中，第一系数用于量化聚类类别内的凝聚度，第二系数用于量化聚类类别之间的分离度。

在一个实施例中，确定所述某一用电负荷数据距离最近的聚类类别的步骤，包括：计算所述某一用电负荷数据与其他聚类类别中各个用电负荷数据之间的欧式距离，并确定每个聚类类别的欧式距离均值，确定其中欧式距离均值最小的聚类类别，即为距离最近的聚类类别。

在一个实施例中，以任一聚类结果为例，对计算轮廓系数指标的具体过程举例如下：

1)对于第i个用电负荷数据x_i，计算x_i与其同一个聚类类别内的所有其他用电负荷数据的欧式距离的平均值，记作a(i)，称为样本x_i的簇内(聚类类别内)不相似度。

2)选取x_i外的一个聚类类别b，计算x_i与b中所有用电负荷数据的欧式距离的平均值；依次遍历所有其他聚类类别，找到其中欧式距离的平均值最小的聚类类别，记作b(i)，称为用电负荷数据x_i的簇间(聚类类别间)不相似度。

3)根据如下公式计算用电负荷数据x_i的轮廓系数：

从上面的公式不难发现，若S(i)小于0，说明x_i与其聚类类别内的平均欧式距离大于最近的其他聚类类别，表示聚类效果不好，x_i更应被分到其他的聚类类别中。如果a(i)趋于0或者b(i)足够大，那么S(i)趋近于1，说明聚类效果比较好。

4)计算所有用电负荷数据x_i的轮廓系数，求出平均值即为当前聚类结果的整体轮廓系数，即轮廓系数指标。轮廓系数指标是该聚类结果是否合理、有效的度量。

本实施例，在电力用户分类的聚类算法中使用轮廓系数指标作为评价聚类有效性的指标，轮廓系数指标既考虑了类间效果以及类内效果，得到的聚类结果比通过其他指标(如：SSE等)来评价更合理有效。

在一个实施例中，所述获取多个用电负荷数据的步骤之后，还包括：确定所述用电负荷数据的缺失值，对所述缺失值进行删除和/或补充处理。

在一个实施例中，用电负荷数据包括多个负荷曲线，每一个负荷曲线包括多个数据点。当电表对电力用户信息采集失败或者数据同步过程中发生信号丢失的问题，则收集到的原始数据中的用电负荷数据中就会出现缺失值，这会影响对负荷曲线状况的分析，因此需要根据不同的情况合理处理缺失数据。常用的处理方法有简单删除法、均值插补法、多重插补法等。

在一个实施例中，若所述用电负荷数据的缺失值比例高于某一预设阈值，对所述缺失值进行删除处理，若所述用电负荷数据的缺失值比例低于某一预设阈值，对所述缺失值进行补充处理。

在一个实施例中，在将数据删除以后，可以用均值插补法(如：对于存在缺失值的负荷曲线的某一个采样点，将相邻两个负荷曲线上与所述采样点对应的两个数据求均值，得到该采样点的替代值)来替代或者直接用其他的负荷曲线来替换。

在一个实施例中，对缺失值的补充处理可以采用人工补充的方式，也可以采用均值插补法来实现。

在一个实施例中，对缺失值进行删除和/或补充处理的具体过程举例如下：

1)当用电负荷数据的缺失值比例高于30％时，采用简单删除法，在样本中去掉该数据。例如：获取了100个电力用户的用电负荷数据，其中包括每个电力用户一个月内每天的数据，若某一个电力用户某一天的用电负荷数据的缺失值比例为30％以上，则将该电力用户这一天的用电负荷数据删除。

2)当用电负荷数据的缺失值比例小于或等于30％时，采用均值插补法补充上缺失值。

本实施例在用电负荷数据存在缺失值时，对这些缺失值进行针对性的处理，能有效提高用电负荷数据中有效数据的比例，提高电力用户分类结果的准确性。

在一个实施例中，所述用电负荷数据包括对应电力用户的多个时间段的多个用电量；所述对所述用电负荷数据的缺失值进行处理的步骤之后，还包括：根据某一用电负荷数据以及对应时间段所有电力用户中的最大用电量和最小用电量，对所述用电负荷数据进行归一化处理。

由于不同电力用户的用电负荷数据具有较大的差异性，在比较不同电力用户的负荷曲线时，根据各个负荷曲线之间的欧式距离(相似度)来进行用电负荷数据的聚类分析，这样的处理方式比将各个数据点进行聚类分析更复杂，因此数值的大小会影响相似度计算。为了使电力用户基本的用电负荷数据更明显地体现其动态用电行为的变化，需要进行数据的归一化处理。

在一个实施例中，用电负荷数据可以指在一定的时间段内根据一定的采样周期对电力用户的用电负荷进行采样得到的数据。其中，采样周期可以是半个小时或者一刻钟，也可以是其他采样周期。

在一个实施例中，该时间段可以指一天、一周、一个月或者其他时间段。

在一个实施例中，为了专注于特殊电力用户的相对消费水平并使各个负载的分布更接近，将收集到的电力用户的实际用电负荷数据经过下式进行转化，得到x_ij：

其中，表示电力用户i在某一时间段内第j个采样时刻的实际用电负荷数据，x_i,max和x_i,min分别代表对应时间段内的最大用电量和最小用电量。

在本实施例中，经过归一化处理的用电负荷数据的取值都处在[0,1]的区间内，使所有电力用户的用电负荷数据由物理系统数值变成相对值关系的数据，达到缩小和统一量纲的目的，减少了数据的差异性，方便后续数据处理及分析，保证加快程序运行时的收敛，使聚类结果更有意义和可比性。

在一个实施例中，所述对各个用电负荷数据进行归一化处理的步骤之后，还包括：根据主成分分析法对所述用电负荷数据进行降维处理。

主成分分析法(Principal Component Analysis，PCA)是一种数学变换的方法，它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分。依次类推，I个变量就有I个主成分。PCA不进行分类的动作，只对数据进行处理，将样本变换到一个容易分类(向最大化方差的方向，principal component axes，投影)的更低维的新特征空间中，是丢失原始数据信息最少的一种线性降维方式。

在一个实施例中，对经过预处理(缺失值处理以及归一化处理)后的用电负荷数据进行降维处理的具体过程举例如下：

1)对用电负荷数据进行以下均值化处理，使其均值变为零：

其中，m表示电力用户的个数。

2)某一预设时间段内的各个x_ij’构成的向量为用电负荷数据样本x_i，根据用电负荷数据样本x_i计算协方差矩阵C(Convariance Matrix)

其中，矩阵X(m*n)的每一行表示一个用电负荷数据样本x_i；n表示特征总数，即指用电负荷数据的采样点总数。

3)计算协方差矩阵C的特征值和对应的特征向量。

4)将特征值按照从大到小的顺序排序，选择其中最大的k个，然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵P。

5)将用电负荷数据样本点投影到选取的特征向量上。对于每个原始用电负荷数据x_ij，其降维后的用电负荷数据样本点y_ij可以用下式表示：

Y＝P^TX^T

其中，Y表示用电负荷数据样本点y_ij构成的矩阵，上标T表示矩阵的转置。

本实施例对用电负荷数据进行降维处理，能有效降低用电负荷数据的复杂度，加快电力用户的分类效率。

在一个实施例中，如图3所示，提供一种电力用户的分类方法，包括以下步骤：

S301、获取多个用电负荷数据。

S302、确定所述用电负荷数据的缺失值，对所述缺失值进行删除和/或补充处理。

S303、根据某一经过缺失值处理的用电负荷数据以及对应时间段所有电力用户中的最大用电量和最小用电量，对所述用电负荷数据进行归一化处理。

S304、根据主成分分析法对经过归一化处理的用电负荷数据进行降维处理。

S305、根据预设范围内的聚类个数以及对应的初始聚类中心对经过降维处理的用电负荷数据进行聚类分析。

S306、分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标。

S307、将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

本实施例根据不同的聚类个数和初始聚类中心对用电负荷数据进行聚类分析，并引入轮廓系数指标来确定最优的聚类结果，提高了聚类算法的性能，使得电力用户的分类结果更加具有准确性。

为了更好地理解上述方法，以采样时间段为一个月、采样周期为半个小时、聚类个数k的范围为2～10为例，以下详细阐述一个本发明电力用户的分类方法的应用实例：

1)每隔半个小时采集100个电力用户在4月1日至4月30日这一个月的用电负荷数据，每一个电力用户这一个月的用电负荷数据作为一个负荷曲线。

2)若其中一个电力用户在4月10日这一天的用电负荷数据存在20％的缺失值，采用均值插补法补充上缺失值。

3)对每一个负荷曲线进行归一化和PCA降维处理。

4)在k为2时，根据用电负荷数据之间的欧式距离从各个用电负荷数据中选取2个用电负荷数据为初始聚类中心，记为C₁和C₂；根据C₁和C₂对用电负荷数据进行聚类分析，当聚类结果不再变化时(比如此时已经聚类了50次)，聚类结束，得到聚类结果R₂。

…

在k为10时，根据用电负荷数据之间的欧式距离从各个用电负荷数据中选取10个用电负荷数据为初始聚类中心，记为C₁、C₂、…和C₁₀，根据C₁、C₂、…和C₁₀对用电负荷数据进行聚类分析，当聚类结果不再变化时，聚类结束，得到聚类结果R₁₀。

5)对于上述各个聚类结果R₂、R₃、…、R₁₀，分别确定各个聚类结果的轮廓系数指标。

6)将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别，例如：最终聚类结果为聚类个数为3时得到的聚类结果，该最终聚类结果对应的用户类别为：低用电量用户、一般用户以及高用电量用户。根据用电负荷数据的聚类情况，将其中的20个电力用户确定为低用电量用户，将其中的70个电力用户确定为一般用户，将其中的10个电力用户确定为高用电量用户。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

基于与上述实施例中的电力用户的分类方法相同的思想，本发明还提供电力用户的分类装置，该装置可用于执行上述电力用户的分类方法。为了便于说明，电力用户的分类装置实施例的结构示意图中，仅仅示出了与本发明实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所述，电力用户的分类装置包括数据获取模块401、聚类分析模块402、指标确定模块403和类别确定模块404，详细说明如下：

数据获取模块401，用于获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户。

聚类分析模块402，用于根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定。

指标确定模块403，用于分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标。

以及，类别确定模块404，用于将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

在一个实施例中，所述聚类分析模块402，包括：第一聚类中心选取子模块，用于对于所述预设范围内的某一聚类个数，随机选取所述多个用电负荷数据中一个用电负荷数据作为当前初始聚类中心；第二聚类中心选取子模块，依次从剩余的用电负荷数据中选取下一个初始聚类中心，直到选取出的初始聚类中心的个数达到所述某一聚类个数；其中，在所述剩余的用电负荷数据与当前初始聚类中心的欧氏距离中，所述下一个初始聚类中心与当前初始聚类中心的欧氏距离最高；聚类分析子模块，用于根据所选取出的初始聚类中心对所述用电负荷数据进行K-means聚类分析。

在一个实施例中，所述聚类分析子模块，包括：分配单元，用于计算所述用电负荷数据与所述初始聚类中心的欧式距离，将各个用电负荷数据分配到所述欧式距离最小的初始聚类中心对应的聚类类别中；重心计算单元，用于计算各个聚类类别的重心，将所述重心作为对应聚类类别的新聚类中心。

在一个实施例中，所述指标确定模块403，包括：第一系数确定子模块，用于对于某一聚类结果，确定某一用电负荷数据与同一聚类类别中其他用电负荷数据之间的欧式距离的均值，作为第一系数；第二系数确定子模块，用于确定所述某一用电负荷数据与距离最近的聚类类别中各个用电负荷数据之间的欧式距离的均值，作为第二系数；轮廓系数确定子模块，用于根据所述第一系数和第二系数计算所述某一用电负荷数据的轮廓系数；指标计算子模块，用于计算各个用电负荷数据的轮廓系数的均值，得到对应聚类结果的轮廓系数指标。

在一个实施例中，还包括：缺失值处理模块，用于确定所述用电负荷数据的缺失值，对所述缺失值进行删除和/或补充处理。

在一个实施例中，还包括：归一化模块，用于根据某一用电负荷数据以及对应时间段所有电力用户中的最大用电量和最小用电量，对所述用电负荷数据进行归一化处理。

在一个实施例中，还包括：降维模块，用于根据主成分分析法对所述用电负荷数据进行降维处理。

需要说明的是，本发明的电力用户的分类装置与本发明的电力用户的分类方法一一对应，在上述电力用户的分类方法的实施例阐述的技术特征及其有益效果均适用于电力用户的分类装置的实施例中，具体内容可参见本发明方法实施例中的叙述，此处不再赘述，特此声明。

此外，上述示例的电力用户的分类装置的实施方式中，各程序模块的逻辑划分仅是举例说明，实际应用中可以根据需要，例如出于相应硬件的配置要求或者软件的实现的便利考虑，将上述功能分配由不同的程序模块完成，即将所述电力用户的分类装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分功能。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析的步骤，包括：对于所述预设范围内的某一聚类个数，随机选取所述多个用电负荷数据中的一个用电负荷数据作为已确定的初始聚类中心；依次从剩余的用电负荷数据中选取下一个已确定的初始聚类中心，直到选取出的已确定的初始聚类中心的个数达到所述某一聚类个数；其中，在所述剩余的用电负荷数据与所有已确定的初始聚类中心的欧氏距离之和中，所述下一个已确定的初始聚类中心的所述欧氏距离之和最高；根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析的步骤，包括：计算所述用电负荷数据与所述已确定的初始聚类中心的欧式距离，将各个用电负荷数据分配到所述欧式距离最小的初始聚类中心对应的聚类类别中；计算各个聚类类别的重心，将所述重心作为对应聚类类别的新聚类中心。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述确定各个聚类结果的轮廓系数指标的步骤，包括：对于某一聚类结果，确定某一用电负荷数据与同一聚类类别中其他用电负荷数据之间的欧式距离的均值，作为第一系数；确定所述某一用电负荷数据与距离最近的聚类类别中各个用电负荷数据之间的欧式距离的均值，作为第二系数；根据所述第一系数和第二系数计算所述某一用电负荷数据的轮廓系数；计算各个用电负荷数据的轮廓系数的均值，得到对应聚类结果的轮廓系数指标。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述获取多个用电负荷数据的步骤之后，还包括：确定所述用电负荷数据的缺失值，对所述缺失值进行删除和/或补充处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述用电负荷数据包括对应电力用户的多个时间段的多个用电量；所述对所述用电负荷数据的缺失值进行处理的步骤之后，还包括：根据某一用电负荷数据以及对应时间段所有电力用户中的最大用电量和最小用电量，对所述用电负荷数据进行归一化处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：所述对各个用电负荷数据进行归一化处理的步骤之后，还包括：根据主成分分析法对所述用电负荷数据进行降维处理。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析的步骤，包括：对于所述预设范围内的某一聚类个数，随机选取所述多个用电负荷数据中的一个用电负荷数据作为已确定的初始聚类中心；依次从剩余的用电负荷数据中选取下一个已确定的初始聚类中心，直到选取出的已确定的初始聚类中心的个数达到所述某一聚类个数；其中，在所述剩余的用电负荷数据与所有已确定的初始聚类中心的欧氏距离之和中，所述下一个已确定的初始聚类中心的所述欧氏距离之和最高；根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析的步骤，包括：计算所述用电负荷数据与所述已确定的初始聚类中心的欧式距离，将各个用电负荷数据分配到所述欧式距离最小的初始聚类中心对应的聚类类别中；计算各个聚类类别的重心，将所述重心作为对应聚类类别的新聚类中心。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述确定各个聚类结果的轮廓系数指标的步骤，包括：对于某一聚类结果，确定某一用电负荷数据与同一聚类类别中其他用电负荷数据之间的欧式距离的均值，作为第一系数；确定所述某一用电负荷数据与距离最近的聚类类别中各个用电负荷数据之间的欧式距离的均值，作为第二系数；根据所述第一系数和第二系数计算所述某一用电负荷数据的轮廓系数；计算各个用电负荷数据的轮廓系数的均值，得到对应聚类结果的轮廓系数指标。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述获取多个用电负荷数据的步骤之后，还包括：确定所述用电负荷数据的缺失值，对所述缺失值进行删除和/或补充处理。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述用电负荷数据包括对应电力用户的多个时间段的多个用电量；所述对所述用电负荷数据的缺失值进行处理的步骤之后，还包括：根据某一用电负荷数据以及对应时间段所有电力用户中的最大用电量和最小用电量，对所述用电负荷数据进行归一化处理。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：所述对各个用电负荷数据进行归一化处理的步骤之后，还包括：根据主成分分析法对所述用电负荷数据进行降维处理。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，作为独立的产品销售或使用。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本发明实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或(模块)单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，不能理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种电力用户的分类方法，其特征在于，包括以下步骤：

获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；

根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；

分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；

将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

2.根据权利要求1所述的电力用户的分类方法，其特征在于，所述根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析的步骤，包括：

对于所述预设范围内的某一聚类个数，随机选取所述多个用电负荷数据中的一个用电负荷数据作为已确定的初始聚类中心；

依次从剩余的用电负荷数据中选取下一个已确定的初始聚类中心，直到选取出的已确定的初始聚类中心的个数达到所述某一聚类个数；其中，在所述剩余的用电负荷数据与所有已确定的初始聚类中心的欧氏距离之和中，所述下一个已确定的初始聚类中心的所述欧氏距离之和最高；

根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析。

3.根据权利要求2所述的电力用户的分类方法，其特征在于，所述根据已确定的初始聚类中心对所述用电负荷数据进行K-means聚类分析的步骤，包括：

计算所述用电负荷数据与所述已确定的初始聚类中心的欧式距离，将各个用电负荷数据分配到所述欧式距离最小的初始聚类中心对应的聚类类别中；

计算各个聚类类别的重心，将所述重心作为对应聚类类别的新聚类中心。

4.根据权利要求1所述的电力用户的分类方法，其特征在于，所述确定各个聚类结果的轮廓系数指标的步骤，包括：

对于某一聚类结果，确定某一用电负荷数据与同一聚类类别中其他用电负荷数据之间的欧式距离的均值，作为第一系数；

确定所述某一用电负荷数据与距离最近的聚类类别中各个用电负荷数据之间的欧式距离的均值，作为第二系数；

根据所述第一系数和第二系数计算所述某一用电负荷数据的轮廓系数；

计算各个用电负荷数据的轮廓系数的均值，得到对应聚类结果的轮廓系数指标。

5.根据权利要求1至4任一项所述的电力用户的分类方法，其特征在于，所述获取多个用电负荷数据的步骤之后，还包括：

确定所述用电负荷数据的缺失值，对所述缺失值进行删除和/或补充处理。

6.根据权利要求5所述的电力用户的分类方法，其特征在于，所述用电负荷数据包括对应电力用户的多个时间段的多个用电量；

所述对所述用电负荷数据的缺失值进行处理的步骤之后，还包括：

根据某一用电负荷数据以及对应时间段所有电力用户中的最大用电量和最小用电量，对所述用电负荷数据进行归一化处理。

7.根据权利要求6所述的电力用户的分类方法，其特征在于，所述对各个用电负荷数据进行归一化处理的步骤之后，还包括：

根据主成分分析法对所述用电负荷数据进行降维处理。

8.一种电力用户的分类装置，其特征在于，包括：

数据获取模块，用于获取多个用电负荷数据；其中，每个用电负荷数据对应一个电力用户；

聚类分析模块，用于根据预设范围内的聚类个数以及对应的初始聚类中心对用电负荷数据进行聚类分析；其中，初始聚类中心由所述用电负荷数据之间的距离以及对应的聚类个数确定；

指标确定模块，用于分别获取各个聚类个数对应的聚类结果，确定各个聚类结果的轮廓系数指标；

以及，类别确定模块，用于将轮廓系数指标最高的聚类结果确定为最终聚类结果，根据所述最终聚类结果确定各个电力用户所属的聚类类别。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。