CN115982611B

CN115982611B - 基于聚类算法的电力用户用能特点分析方法

Info

Publication number: CN115982611B
Application number: CN202310238921.0A
Authority: CN
Inventors: 刘长庚; 高亚伟; 朱广伟; 房佳
Original assignee: Beijing Yineng Zhongwang Technology Co ltd
Current assignee: Beijing Yineng Zhongwang Technology Co ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-05-26
Anticipated expiration: 2043-03-14
Also published as: CN115982611A

Abstract

本发明涉及电力分析技术领域，具体涉及一种基于聚类算法的电力用户用能特点分析方法，该方法获取每个电力用户的用能序列，获取每个用能序列在不同尺度下的粗粒化序列；对于任意两个用能序列，计算同一尺度下的粗粒化序列之间的距离记为该尺度下的全局差异，通过分别在两个粗粒化序列中截取相同长度的部分序列计算距离，并结合对应的时间差异获取该尺度下的局部差异；依据全局差异、局部差异以及对应的尺度获取综合相似度，进而构建所有用能数据的相似度矩阵，通过对相似度矩阵进行模糊聚类得到所有用能数据的分类结果。本发明综合考虑了在不同尺度下用能序列之间的相似性度量，实现了对电力用户用能数据更为准确的聚类分析。

Description

基于聚类算法的电力用户用能特点分析方法

技术领域

本发明涉及电力分析技术领域，具体涉及一种基于聚类算法的电力用户用能特点分析方法。

背景技术

电力用户用能特点的分析主要通过对电力用户的用能数据分类来实现，由于电力用户的用能数据形式为时间序列数据，对时间序列数据进行聚类分析的方法相较于常见的聚类分析数据略有不同，现有的时间序列聚类方法主要通过如DTW算法计算两个时间序列的相似性，或从时间序列中提取全局特征并利用全局特征作为相似性的度量，但上述两种方法均未考虑时间序列本身在不同的时间尺度下所包含信息可比性的不同，也即不同时间尺度下的用电数据表示用户的用电特征是不同的，仅依靠DTW衡量两个时间序列的相似性是存在较大局限性的，尤其对于电力用户的用能数据来说，对其进行分类本身就要考虑在不同的时间尺度下用能数据包含的内在相似性，因此现有技术中对电力用户用能数据的聚类分析存在一定的局限性，分类结果不够准确。

发明内容

为了解决电力用户用能数据分类结果不准确的问题，本发明提供一种基于聚类算法的电力用户用能特点分析方法，所采用的技术方案具体如下：

本发明一个实施例提供了一种基于聚类算法的电力用户用能特点分析方法，该方法包括以下步骤：

在每个时间节点采集电力用户的用能数据组成每个电力用户的用能序列，对每个用能序列进行不同尺度的粗粒化处理，得到预设数量的粗粒化序列；

对于任意两个用能序列，计算同一尺度下的粗粒化序列之间的距离记为该尺度下的全局差异，通过分别在两个粗粒化序列中截取相同长度的部分序列计算距离，并结合对应的时间差异获取该尺度下的局部差异；

依据全局差异、局部差异以及对应的尺度获取任意两个用能序列的综合相似度，利用每两个用能序列之间的综合相似度构建所有用能数据的相似度矩阵，通过对相似度矩阵进行模糊聚类得到所有用能数据的分类结果。

进一步的，所述用能序列的长度为预设时长下时间节点的数量；在每个时间节点下，所述用能数据为当前时间节点与上一相邻的时间节点之间使用的用电量。

进一步的，所述全局差异的获取方法为：

计算两个用能序列在同一尺度下的粗粒化序列之间的动态时间规整距离，以得到的动态时间规整距离的归一化结果作为对应尺度下的所述全局差异。

进一步的，所述局部差异的获取方法为：

以同一尺度下的其中一个粗粒化序列作为基准序列，以另一个粗粒化序列作为对比序列，分别以不同长度作为截取长度，在每个截取长度下，以该截取长度在基准序列上遍历截取基准段，在对比序列上遍历截取对比段，计算每个基准段和每个对比段之间的动态时间规整距离的归一化结果作为对比差异，并计算该基准段和对比段之间的时间差异，以归一化的时间差异和所述对比差异的乘积作为该基准段和对比段之间的差异指标；

所有差异指标的平均值为对应截取长度下的平均差异指标，计算所有截取长度下的平均差异指标的均值作为所述局部差异。

进一步的，所述时间差异的获取方法为：

计算基准段和对比段之间相差的时长，当该时长大于粗粒化序列长度的一半时，以粗粒化序列长度减去该时长作为对应的时间差异；否则，以该时长作为对应的时间差异。

进一步的，所述综合相似度的获取方法为：

对于任意两个用能序列，在每个尺度下，依据尺度获取全局差异的权重以及局部差异的权重，并对全局差异和局部差异进行加权求和，以所有尺度下的加权求和结果的平均值作为对应两个用能序列的综合差异；进而获取综合相似度，所述综合相似度与所述综合差异呈负相关关系。

进一步的，所述依据尺度获取全局差异的权重以及局部差异的权重，包括：

以当前尺度占最大尺度的比例作为全局差异的权重，所述全局差异的权重与所述局部差异的权重之和为1。

进一步的，所述综合相似度的获取方法为：由预设值减去所述综合差异得到所述综合相似度。

本发明实施例至少具有如下有益效果：

首先通过对电力用户的用能数据组成的用能序列进行不同尺度的粗粒化处理，将用能序列进行不同尺度下的处理，获取更多信息，以便后续数据分析更加全面；然后将任意两个用能序列对应的粗粒化序列进行整体和局部的对比得到全局差异和局部差异，分别从整体和局部对比任意两个用能序列之间的差异情况；再将全局差异、局部差异以及对应的尺度相结合获取两个用能序列之间的综合相似度，反映两个用能序列的相似情况，作为后续分类的依据；利用每两个用能序列之间的综合相似度构建所有用能数据的相似度矩阵，以便完成后续的模糊聚类，通过对相似度矩阵进行模糊聚类得到所有用能数据的分类结果，利用获取的相似度矩阵进行模糊聚类得到聚类后的分类结果，将所有电力用户的用能序列分类。本发明结合电力用户的用能序列的时序特点，在不同时间尺度下对用户用能序列进行粗粒化分析，综合考虑了在不同粗粒化尺度下用户用能序列之间的相似性度量，实现了更为准确的电力用户用能序列的聚类分析，得到更为准确的分类结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种基于聚类算法的电力用户用能特点分析方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于聚类算法的电力用户用能特点分析方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于聚类算法的电力用户用能特点分析方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于聚类算法的电力用户用能特点分析方法的步骤流程图，该方法包括以下步骤：

步骤S001，在每个时间节点采集电力用户的用能数据组成每个电力用户的用能序列，对每个用能序列进行不同尺度的粗粒化处理，得到预设数量的粗粒化序列。

在每天的每个时间节点采集电力用户的用电量，即每个时间节点的用能数据为当前时间节点与上一相邻的时间节点之间的用电量，在本发明实施例中时间节点为每个整点，即每天存在24个时间节点，相应的存在24个用能数据。在其他实施例中还可将时间节点之间的长度根据实际情况调整，例如在另一个实施例中，以15分钟作为两个时间节点之间的时间段，则每天存在4×24=96个时间节点。

用能序列的长度为预设时长下时间节点的数量，在本发明实施例中预设时长为一年，对于每个电力用户，以每个整点作为时间节点时，预设时长下共有24×365=8760个时间节点，对应8760个用能数据，组成电力用户的用能序列，将第i个电力用户的用能序列记为

，其中

表示第i个电力用户在第一个时间节点下的用能数据，

表示第i个电力用户在第二个时间节点下的用能数据，

表示第i 个电力用户在第n个时间节点下的用能数据。需要说明的是，在本发明实施例中n为8760。在另一个实施例中，以每15分钟作为两个时间节点之间的时间段，则预设时长下共有96×365 =35040个时间节点，对应35040个用能数据，组成电力用户的用能序列，此时用能序列的长度为35040。

在其他实施例中预设时长还可以为其他时间长度，根据实际情况调整。

对每个用能序列进行不同尺度的粗粒化处理，在本发明实施例中粗粒化方式为重叠式粗粒化跳跃采样，所述重叠式粗粒化采样过程为：对原始用能序列例如

进行尺度为

的跳跃采样，即每次取时序相邻的

个数据进行平均以产生新的时序数据，并将其按照时序进行重新排列以产生新的序列，即为对应尺度下的粗粒化序列，此步骤为现有技术，不再赘述。

以

作为粗粒化处理的尺度，得到的粗粒化序列为

，当

=1时，

=

。尺度

不同，对应的粗粒化序列不同，每个尺度均对应一个相应的粗粒化处理后的粗粒化序列。在本发明实施例中，

，即每个电力用户的用能序列对应了K个不同的粗粒化序列，即预设数量为K，K的取值反映了用能序列进行粗粒化的程度，在本发明实施例中K的取值为24×30=720，即尺度

取值为K时，用能序列进行粗粒化处理后将每个月的数据处理为新的数据组成粗粒化序列，在其他实施例中还可以根据实际情况选取尺度

的取值和数量。

通过不同尺度的粗粒化处理，得到的粗粒化序列包含了更多的信息，进行后续处理时，反映的信息更加全面。

步骤S002，对于任意两个用能序列，计算同一尺度下的粗粒化序列之间的距离记为该尺度下的全局差异，通过分别在两个粗粒化序列中截取相同长度的部分序列计算距离，并结合对应的时间差异获取该尺度下的局部差异。

对于任意两个电力用户用能数据，由于其对应多个不同尺度的粗粒化序列，需要在相同尺度的粗粒化序列之间进行两两对比，也即相同尺度下的粗粒化序列之间才具有可比性，因此，对于任意两个用能序列需要以同一尺度下的粗粒化序列进行对比。

要综合衡量相同尺度下粗粒化序列间的相似性，不仅需要直接在全局特征上评估两个粗粒化序列是否相似，还需要衡量粗粒化序列的局部是否相似，因此，需要计算同一尺度下的粗粒化序列之间的全局差异以及局部差异。

计算两个用能序列在同一尺度下的粗粒化序列之间的动态时间规整距离，以得到的动态时间规整距离的归一化结果作为对应尺度下的全局差异。

以第

个电力用户和第

个电力用户为例，在同一尺度

下，对应的粗粒化序列分别为

和

，以

表示

与

之间的归一化的动态时间规整距离（DTW距离），即尺度

下的全局差异。其中DTW距离的计算通过动态时间规整算法（DTW）得到，动态时间规整算法为公知技术，在本发明实施例中不再赘述具体计算过程。

由于电力用户用能序列可能在两个较短的连续时间段上具有高度相似性，也即

与

上可能存在时间段分布相近且用能数据相似的两个片段，这样的片段越多，说明二者越相似。因此计算

与

之间的局部差异：

以同一尺度下的其中一个粗粒化序列作为基准序列，以另一个粗粒化序列作为对比序列，分别以不同长度作为截取长度，在每个截取长度下，以该截取长度在基准序列上遍历截取基准段，在对比序列上遍历截取对比段，计算每个基准段和每个对比段之间的动态时间规整距离的归一化结果作为对比差异，并计算该基准段和对比段之间的时间差异，以归一化的时间差异和对比差异的乘积作为该基准段和对比段之间的差异指标。

例如，以

作为基准序列，以

作为对比序列，记截取长度为L，在基准序列上遍历截取基准段，在对比序列上遍历截取对比段，每个基准段长度为L，每个对比段长度也为L，计算任意一个基准段与任意一个对比段之间的归一化DTW距离作为对比差异。

由于基准段和对比段的长度相同，基准段和对比段中任意两个同位置的元素对应的时间节点之间的时长即为基准段和对比段之间相差的时长，作为一个示例，在本发明实施例中，计算基准段和对比段中第一个元素对应的时间节点之间的时长作为基准段和对比段之间相差的时长，记为

。

由于每位电力用户的用能数据在长期看来是存在周期性的，可以将电力用户一年的用能数据组成的用能序列看作环形序列，例如将用能序列粗粒化为12个数据组成的粗粒化数据时，每个数据代表了一个月的平均用电量，此时1月的数据和12月的数据都是属于冬天的数据，相差应当较小，而8月的数据为夏天的数据，1月的数据和8月的数据可能相差较大，但是在时长上，1月和12月之间的时长是大于1月和8月之间的时长的，看作环形序列时，1月和12月之间的时长较小，更加符合实际情况，因此，时间差异的计算方法为：

其中，T表示时间差异，

表示基准段和对比段相差的时长，

表示尺度

下粗粒化序列的长度。

也就是说，时间差异最小为0，最大为

，时间差异越小，基准段和对比段在对应粗粒化序列中的位置越相近，对应的用能数据的差异越小；时间差异越大，基准段和对比段在对应粗粒化序列中的位置越远离，对应的用能数据的差异越大。

以归一化的时间差异和对比差异的乘积作为该基准段和对比段之间的差异指标。

所有差异指标的平均值为对应截取长度下的平均差异指标，计算所有截取长度下的平均差异指标的均值作为局部差异。

进一步的，截取长度L的取值可以变化，即

，其中，

表示尺度

下粗粒化序列的长度。计算每个截取长度下的平均差异指标，将所有截取长度对应的平均差异指标的均值作为局部差异，记为

。差异指标为归一化DTW距离和归一化的时间差异的乘积，取值范围为[0,1]，因此局部差异

的取值范围也为[0,1]。

经过上述步骤，对于任意两个粗粒化序列，获取了每个尺度下的全局差异

和局部差异

。

步骤S003，依据全局差异、局部差异以及对应的尺度获取任意两个用能序列的综合相似度，利用每两个用能序列之间的综合相似度构建所有用能数据的相似度矩阵，通过对相似度矩阵进行模糊聚类得到所有用能数据的分类结果。

对于任意两个用能序列，在每个尺度下，依据尺度获取全局差异的权重以及局部差异的权重，并进行加权求和计算，以所有尺度下的加权求和结果的平均值作为对应两个用能序列的综合差异；进而获取综合相似度，综合相似度与综合差异呈负相关关系。

粗粒化尺度越大，也即

越大时，对全局差异

的关注应越大，因为粗粒化尺度大时，粗粒化序列体现的是全局特征，反之，当粗粒化尺度越小，也即

越小时，对局部差异

的关注应越大，粗粒化序列体现的是局部特征。

因此，以当前尺度占最大尺度的比例

作为全局差异的权重，全局差异的权重与局部差异的权重之和为1，即局部差异的权重为

。

以第

个电力用户在尺度

下的粗粒化序列

和第

个电力用户在尺度

下的粗粒化序列

为例，对应的综合差异的计算过程为：

其中，

表示

和

之间的综合差异；K表示最大粗粒化尺度，也即粗粒化尺度的数量；

表示当前的粗粒化尺度；

表示

和

之间的全局差异，

表示

和

之间的局部差异。

当前的粗粒化尺度越大时，得到的数据代表的时长越长，对全局差异

的关注越大，对应的权重

越大；当前的粗粒化尺度越小时，得到的数据代表的时长越短，对局部差异

的关注越大，对应的权重

越大。当全局差异

越大时，说明

和

整体差异越大，当局部差异

越大时，说明

和

的局部差异越大，因此全局差异

和局部差异

相结合得到综合差异，且全局差异

和局部差异

均与综合差异呈正相关关系。

全局差异

和局部差异

的取值范围均为[0,1]，通过加权求和以及求平均值后，得到的综合差异

的取值范围也为[0,1]，该综合差异反映了第

个电力用户和第

个电力用户的用能序列在所有尺度下的粗粒化序列的综合差异，通过多尺度下的粗粒化序列计算综合差异，从多方面获取用能序列的差异情况，得到的综合差异更加准确全面。

由预设值减去综合差异得到综合相似度：

，

表示

和

之间的综合相似度，1为预设值。

综合差异越大，两者越不相似，对应的综合相似度越小。综合差异

的取值范围为[0,1]，通过预设值1减去综合差异

，对综合差异

进行负相关映射，得到综合相似度

。

每两个电力用户的用能序列之间都对应一个综合相似度，体现电力用户的用能数据之间的相似程度，综合相似度越大，说明一年内这两个电力用户的用电情况越相似。

根据获取的两两综合相似度构建电力用户的用能数据的相似度矩阵。该相似度矩阵为一个M*M的矩阵，M为电力用户的数量。其主对角线上的元素值均为1，每两个电力用户之间的综合相似度为矩阵内对应位置处的数值。对所有数据进行基于最大树的模糊聚类，获取电力用户用能特点数据分类结果。

具体的，取最大树模糊聚类参数

，此参数取值为0-1之间，越大分类越细，越小分类越粗糙。作为一个示例，在本发明实施例中取值为0.7，最大树模糊聚类算法为常用的聚类方法之一，本发明实施例中不再赘述具体过程。

综上所述，本发明实施例在每个时间节点采集电力用户的用能数据组成每个电力用户的用能序列，对每个用能序列进行不同尺度的粗粒化处理，得到预设数量的粗粒化序列；对于任意两个用能序列，计算同一尺度下的粗粒化序列之间的距离记为该尺度下的全局差异，通过分别在两个粗粒化序列中截取相同长度的部分序列计算距离，并结合对应的时间差异获取该尺度下的局部差异；依据全局差异、局部差异以及对应的尺度获取任意两个用能序列的综合相似度；利用每两个用能序列之间的综合相似度构建所有用能数据的相似度矩阵，通过对相似度矩阵进行模糊聚类得到所有用能数据的分类结果。本发明结合电力用户的用能序列的时序特点，在不同时间尺度下对用户用能序列进行粗粒化分析，综合考虑了在不同粗粒化尺度下用户用能序列之间的相似性度量，实现了更为准确的电力用户用能数据的聚类分析，得到更为准确的分类结果。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，均应包含在本申请的保护范围之内。

Claims

1.基于聚类算法的电力用户用能特点分析方法，其特征在于，该方法包括以下步骤：

依据全局差异、局部差异以及对应的尺度获取任意两个用能序列的综合相似度，利用每两个用能序列之间的综合相似度构建所有用能数据的相似度矩阵，通过对相似度矩阵进行模糊聚类得到所有用能数据的分类结果；

所述局部差异的获取方法为：

所有差异指标的平均值为对应截取长度下的平均差异指标，计算所有截取长度下的平均差异指标的均值作为所述局部差异；

所述时间差异的获取方法为：

2.根据权利要求1所述的基于聚类算法的电力用户用能特点分析方法，其特征在于，所述用能序列的长度为预设时长下时间节点的数量；在每个时间节点下，所述用能数据为当前时间节点与上一相邻的时间节点之间使用的用电量。

3.根据权利要求1所述的基于聚类算法的电力用户用能特点分析方法，其特征在于，所述全局差异的获取方法为：

4.根据权利要求1所述的基于聚类算法的电力用户用能特点分析方法，其特征在于，所述综合相似度的获取方法为：

5.根据权利要求4所述的基于聚类算法的电力用户用能特点分析方法，其特征在于，所述依据尺度获取全局差异的权重以及局部差异的权重，包括：

6.根据权利要求4所述的基于聚类算法的电力用户用能特点分析方法，其特征在于，所述综合相似度的获取方法为：由预设值减去所述综合差异得到所述综合相似度。