CN113780347B

CN113780347B - 负荷曲线多重聚类集成方法、系统及存储介质

Info

Publication number: CN113780347B
Application number: CN202110907357.8A
Authority: CN
Inventors: 王松雷; 孙玉芹; 孙园
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2024-03-01
Anticipated expiration: 2041-08-09
Also published as: CN113780347A

Abstract

本发明提供负荷曲线多重聚类集成方法，包括以下步骤：步骤S1，对电力负荷数据进行归一化处理，得到电力负荷数据集；步骤S2，利用层次聚类算法对电力负荷数据集进行划分并基于各划分中心计算数据的标签可信度，得到可信簇；步骤S3，迭代步骤S2，直到满足停止条件，得到多重数据簇；步骤S4，通过多重数据簇，分别计算潜在簇和潜在聚类中心；步骤S5，通过潜在簇和潜在聚类中心计算多重数据簇的相似度，得到相似度矩阵；步骤S6，通过多重数据簇的中心和相似度矩阵得到簇间相似图，进行分割得到簇间相似图的各子图，并计算数据对于各子图隶属情况，得到最终聚类结果。本发明提供负荷曲线多重聚类集成系统。本发明中还提供的一种计算机可读的存储介质。

Description

负荷曲线多重聚类集成方法、系统及存储介质

技术领域

本发明涉及一种考虑簇间重叠关系的负荷曲线多重聚类集成方法、系统及存储介质。

背景技术

在人工智能技术日渐成熟和工业智能化需求不断攀升的背景下，数据化、智能化、模块化已经成为当下产业的转型热点。同时智能电表广泛普及使得电力行业可以高效地获得更为完备且细致的用户能耗数据，即电力负荷数据。如何从海量的电力负荷数据中挖掘具有分析价值的潜在信息，已经成为当下电力企业的研究热点。随着“碳达峰、碳中和”被首次写入政府工作报告，电力企业如何掌握用户用电规律，针对需求侧用电类型制定合理的策略、为企业提供能源规划、保证电力系统的稳定、引导产业调整是当下亟需解决的问题。

聚类算法的出现为上述问题提供了较为有效的解决思路。一个优秀的聚类算法可以有效地识别不同类型的负荷曲线，针对负荷曲线的特性，近几年来涌现出众多针对负荷的聚类思路。K-means算法、模糊K-modes方法、遗传谱聚类算法、基于密度峰值的聚类算法和双层聚类模型等方法均在一定程度上完成聚类的任务，为更好的解决负荷曲线时间序列的特点，一维卷积自编码器网络的一维卷积和池化降维、多维尺度分析降维、SAX算法降维，动态时间弯曲距离和快速动态时间扭曲双指标、余弦距离和皮尔逊相关系数双指标同样被用于进行负荷聚类。

纵观已有技术，大多数技术只是对单一的算法进行度量函数改进或着手于数据集的降维操作，对于大部分多层算法，若忽略底层基聚类的关联，将会导致最终结果的偏差。

发明内容

为解决上述问题，提供一种考虑簇间重叠关系的负荷曲线多重聚类集成方法、系统及存储介质，本发明采用了如下技术方案：

本发明提供了一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，其特征在于，包括如下步骤：步骤S1，采集多组电力负荷数据，对电力负荷数据进行归一化处理，得到电力负荷数据集；步骤S2，利用层次聚类算法对电力负荷数据集进行划分，得到划分中心，并基于划分中心计算数据的标签可信度，得到基于各划分中心的多个可信簇；步骤S3，迭代步骤S2，直到满足停止条件，得到多重数据簇；步骤S4，通过多重数据簇，分别计算多重数据簇两两之间的潜在簇和潜在聚类中心；步骤S5，通过潜在簇和潜在聚类中心计算多重数据簇的相似度，得到相似度矩阵；步骤S6，通过多重数据簇的中心和相似度矩阵得到簇间相似图，使用谱聚类对簇间相似图进行分割得到簇间相似图的各子图，并计算数据对于各子图隶属情况，得到最终聚类结果。

本发明提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，还可以具有这样的技术特征，其中，步骤S2还包括以下步骤：

步骤S2-1，在电力负荷数据集上使用层次聚类算法获取数据划分；步骤S2-2，通过数据划分，计算数据划分内的单条电力负荷数据同其余电力负荷数据的欧氏距离之和，设定欧式距离之和最小的电力负荷数据曲线为数据划分的中心，得到划分中心；步骤S2-3，对划分中心的集合，设定各中心ε邻域内的电力负荷数据具有可信标签，得到可信簇；其中，ε为该中心邻域的半径。

本发明提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，还可以具有这样的技术特征，其中，步骤S3的停止条件是多重数据簇满足以下两种条件其中的任意一种：可信簇的数量达到预设最大簇数量；以及的电力负荷数据集中的未拥有可信标签的电力负荷数据小于目标分类数的平方。

本发明提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，还可以具有这样的技术特征，其中，步骤S4包括以下步骤：步骤S4-1，对划分中心进行两两进行负荷曲线数据中间值的计算，获得潜在聚类中心；步骤S4-2，计算潜在聚类中心的代表可信簇，获得潜在簇。

本发明提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，还可以具有这样的技术特征，其中，步骤S5包括以下步骤：步骤S5-1，计算多重数据簇的中心的欧式距离；步骤S5-2，如果中心距离大于4ε，则相似度为中心的欧式距离和余弦距离乘积的倒数；步骤S5-3，如果中心距离小于4ε，则计算潜在簇的密度，设置潜在簇的密度除以中心的欧式距离与余弦距离乘积所得到的值为相似度；步骤S5-4，通过计算所有多重数据簇的相似度，获得相似度矩阵。

本发明提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，还可以具有这样的技术特征，其中，潜在簇的密度通过统计潜在簇中心邻域内负荷曲线的数量而获得。

本发明提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，还可以具有这样的技术特征，其中，步骤S6包括以下步骤：步骤S6-1，通过设定以各多重数据簇中心为相似图的顶点和以相似度矩阵的对应值为相似图的连接边的权重来构造相似图；步骤S6-2，通过对步骤S2得到各可信簇的可信标签进行修正，依据谱聚类在相似图上的划分结果赋予各簇所在子图的子图标签值来修正子图内多重数据簇的标签值；步骤S6-3，计算电力负荷数据对于子图的隶属度，分配最终标签值，得到最终聚类结果。

本发明中还提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成系统，其特征在于，包括，电力负荷数据集获取模块，用于采集多组电力负荷数据，对电力负荷数据进行归一化处理，得到电力负荷数据集；可信簇划分模块，利用层次聚类算法对电力负荷数据集进行划分，得到划分中心，并基于各划分中心计算数据的标签可信度，得到基于各划分中心的多个可信簇；控制模块，控制可信簇划分模块进行迭代直到满足停止条件，得到多重数据簇；潜在簇计算模块，用于计算多重数据簇两两之间的潜在簇和潜在聚类中心；簇间相似度计算模块，通过潜在簇和潜在聚类中心计算多重数据簇的相似度，得到相似度矩阵；以及最终聚类模块，通过多重数据簇的中心和相似度矩阵得到簇间相似图，使用谱聚类对簇间相似图进行分割得到簇间相似图的各子图，并计算数据对于各子图隶属情况，得到最终聚类结果。

本发明中还提供一种计算机可读的存储介质，用于存储计算机程序，其特征在于，计算机程序被配置成执行时实现权利要求1到8中任一项的负荷曲线多重聚类集成方法的步骤。

发明作用与效果

根据本发明的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法、系统和存储介质。首先，对归一化处理后的电力负荷数据集上使用层次聚类算法获取数据划分，计算得到划分中心，基于划分中心集合设定数据的可信标签，得到可信簇。因此通过引入可信簇的思想，有效地解决层次聚类过程中可能出现的错误分类对最终结果的影响。

其次，本发明在得到多重数据簇过程中计算簇间重叠关系。同时也考虑数值和形态特征，较之于仅考虑单一特征的情况，有更好的泛化能力。

再次，相比于常用的层次聚类算法和谱聚类算法，聚类效果更为优秀合理。本发明中的方法作为集成框架，继承了层次聚类方法的优点，同时克服中层次聚类方法中奇异值影响较大，容易产生错误分类等缺陷，实现多个弱分类器集成为强分类器的目标。

附图说明

图1是本发明实施例中的负荷曲线多重聚类集成方法的流程图；

图2是本发明实施例中判断标签可信度的示意图；

图3是本发明实施例中Jain数据集上构造多重可信簇的流程图；

图4是本发明实施例中计算簇间相似度的示意图；

图5是本发明实施例中的使用谱聚类分割相似图的示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的AAA作具体阐述。

<实施例>

图1为本发明实施例中的负荷曲线多重聚类集成方法的流程图。

如图1所示，本实施例提供一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，具体包括以下步骤：

步骤S1，采集多组电力负荷数据，对电力负荷数据采用归一化处理，得到电力负荷数据集；

为避免数据的量纲差异所产生的影响，使聚类算法更好的聚焦于分析负荷曲线的形态和距离差异性，同时为提高算法的计算速度，降低超参数的调参难度，采用最大最小归一化方法将数据归一化至[0,1]区间内，其定义如下：

式中，X'为m维原始负荷曲线数据，X为归一化之后的m维负荷曲线数据，X'_max表示每个时间点负荷曲线的最大值，X'_min表示每个时间点负荷曲线的最小值。

步骤S2，基于层次聚类获得若干个关于负荷数据集的划分，计算各条负荷数据对于所属划分中心的标签可信度，得到基于各中心的多个具有可信标签的簇。

图2是本发明实施例中判断标签可信度的示意图。

如图2所示，若单纯地使用层次聚类算法，同一划分结果会包含带有不同真实标签的数据。但若定义由层次聚类中心所代表的局部空间，随着局部空间的缩小，空间内点的真实分类愈发趋于一致。

因此，若某一数据划分内的点落在该划分中心的局部空间内，该点的标签值便可被认为是正确的，即拥有可信标签。定义该局部空间为中心的邻域，标签可信度函数定义为：

式中，v_hl为第h个基聚类算法的第l个簇的中心，具体表达式为：

式中，x_i为电力负荷数据，B(v_hl)＝{x_j∈X|d(x_j,v_hl)≤ε}为该中心的ε邻域，ε为中心邻域的半径，d(x_j,v_hl)表示点到中心v_hl的欧式距离。

C_hl表示第h个基聚类算法的第l个簇，邻域内的点都拥有可信标签，本实施例将整个邻域称为“可信簇”，后续基聚类算法将不再考虑这些邻域内的点，同时也保证了最终由每个基聚类算法所产生的可信簇互不相同。

步骤S3，迭代步骤S2，直到满足停止条件，得到多重数据簇。

迭代学习过程表示为：

式中，θ_gi为判断x_i是否参与第g个基聚类算法的判断参数，λ_hl(x_i)为标签可信度函数。

通过设定分类数k，并在原始数据集上迭代的产生可信簇，直至满足停止条件下两种条件其中的任意一种，即原数据集剩余点的数量少于k²以及可信簇的数量达到最大基聚类数目T_max。

图3为本发明实施例中Jain数据集上构造多重可信簇的流程图。

如图3所示，多重可信簇在Jain数据集上生成的过程。首先设定分类数k＝2。第一次，如图3(a)部分所示，通过步骤S2提取落在该划分中心v11和v12的局部空间内的数据点，得到可信簇C₁₁和C₁₂；第二次，如图3(b)部分所示，先剔除落在划分中心v₁₁和v₁₂的局部空间内的数据点，再迭代步骤S2进行计算，得到可信簇C₂₁和C₂₂；……，以此类推，如图3(f)部分所示,当进行第六次计算完成得到C₆₁和C₆₂。迭代步骤满足停止条件，即原数据集剩余点的数量3＜k²＝4。

步骤S4，通过多重数据簇，分别计算两两之间的潜在簇和潜在聚类中心。

获得潜在聚类中心和潜在簇的具体细节为：

通常情况下，对于任意两个簇C_hl和C_pq，若中心的欧式距离d(v_hl,v_pq)大于2ε，C_hl和C_pq被认为不重叠。本实施例中使用基于局部假设的可信簇，各中心所代表的可信簇通常很小，很难满足广义的簇重叠要求，为此，算法提出潜在中心概念并定义潜在簇。潜在中心定义为：

由潜在中心所代表的ε邻域定义为潜在簇。

步骤S5，通过潜在簇和潜在聚类中心计算多重数据簇的相似度，得到相似度矩阵。

图4为本发明实施中计算簇间相似度的示意图。

如图4所示，簇B同簇A和簇C中心的欧式距离均相同，且均小于2ε。但由图4可知A和B应当属于同一类别，即相较于簇C，簇A对于簇B有着更高的相似度。为解决上述问题，更好的计算不同可信簇的相似度，基于局部密度的相似度计算公式定义如下：

式中，ρ(B(v_(hl,pq)))为潜在簇中心的ε邻域内点的数量，即潜在簇密度。d_new为本实施例中所提出的复合距离度量，表达式为：

d_new(x_i,x_j)＝d_e(x_i,x_j)×d_c(x_i,x_j)

式中，d_e(x_i,x_j)为潜在簇的欧式距离，具体表达式为：

d_c(x_i,x_j)为潜在簇的余弦距离，具体表达式为：

d_c(x_i,x_j)＝1-cos(x_i,x_j)。

步骤S6，将多重数据簇的中心和相似度矩阵作为无向权重图的顶点和边权重值，得到簇间相似图，使用谱聚类的思想对相似图进行分割，计算数据对于各子图隶属情况，得到最终集成结果。

相似图获取最终结果的具体细节为：

依据簇间重叠关系得到簇间相似度后，构建一个无向权重图，具体表达式为：

G＝<A,Δ>

式中，A为图G的顶点集合，为本实施例中步骤S2得到的各可信簇。由于可信簇仅考虑中心的ε邻域，A可被看作是各可信簇中心组成的点集。Δ为各边的权重集，对于任意的两个顶点，设定连接边的权重即为该两点所代表的簇的相似度，具体表达式为：

Δ_i,j＝δ(C_i,C_j)

式中，C_i，C_j为步骤S2得到的可信簇。

图5为本发明实施例中的使用谱聚类分割相似图的示意图。

如图5(a)部分所示为相似图构造实例，得到相似图之后，聚类问题变为标准化割图问题，目标函数Q(Ω)表达式为：

式中，为顶点集A的k个划分。

通过最小化目标函数Q(Ω)，每个子图内部的顶点均高度相似且和其余子图高度不相似。谱聚类算法是解决上述问题的最佳选择，使用谱聚类修正各相似簇标签值，相似图割图实例如图5(b)部分所示。

标签对齐操作完成之后，再次计算所有数据的λ_hl(x_i)，数据对于各划分子图的隶属度矩阵表达式为：

式中，ω_hli为判断参数，若x_i属于簇C_hl，则ω_hli为1，反之，ω_hli为0。

依据计算最终聚类结果π(x_i)，具体表达式为：

通过计算各数据对于谱聚类各划分子图的权重，将拥有最大权重值的子图标签赋予数据，从而得到聚类的最终结果，算法称为AGglomerative NESting clusteringensemble(AGNESCE)算法。

本实施例中提供一种考虑簇间重叠关系的负荷曲线多重聚类集成方法，该方法主要包括电力负荷数据集获取、可信簇划分、控制迭代计算、潜在簇计算、簇间相似度计算以及最终聚类的步骤。然而，为了在实际使用时更为方便，可以将本实施例中的负荷曲线多重聚类集成系统方法编码为对应的计算机程序，并形成一种负荷曲线多重聚类集成系统，该系统包括电力负荷数据集获取模块、可信簇划分模块、控制模块、潜在簇计算模块、簇间相似度计算模块和最终聚类模块。

电力负荷数据集获取模块，与上述步骤S1相对应，用于对采集的电力负荷数据进行归一化处理，得到电力负荷数据集；

可信簇划分模块，与上述步骤S2相对应，用于划分所述电力负荷数据集，得到划分中心，并基于各划分中心计算数据的标签可信度，得到基于各划分中心的多个可信簇；

控制模块，与上述步骤S3相对应，用于控制可信簇划分模块进行迭代直到满足停止条件，得到多重数据簇；

潜在簇计算模块，与上述步骤S4相对应，用于计算多重数据簇两两之间的潜在簇和潜在聚类中心；

簇间相似度计算模块，与上述步骤S5相对应，用于计算潜在簇和潜在聚类中心计算多重数据簇的相似度，得到相似度矩阵；

最终聚类模块，与上述步骤S6相对应，用于得到簇间相似图，并使用谱聚类对所述簇间相似图进行分割得到簇间相似图的各子图，再计算数据对于所述各子图隶属情况，最终得到聚类结果。

另外，本实施例中还提供一种计算机存储介质，计算机存储介质存储计算机可执行指令，可执行指令用于使计算机执行本发明。

实施例作用与效果

根据本实施例提供的一种考虑簇间重叠关系的负荷曲线多重聚类集成方法、系统和存储介质。首先，对归一化处理后的电力负荷数据集上使用层次聚类算法获取数据划分，计算得到划分中心，对划分中心集合设定可信标签，得到可信簇。因此通过引入可信簇的思想，有效地解决层次聚类过程中可能出现的错误分类对最终结果的影响。

其次，在计算簇间重叠关系时。同时也考虑数值和形态特征，较之于仅考虑单一特征的情况，有更好的泛化能力。

再次，相比于常用的层次聚类算法和谱聚类算法，聚类效果更为优秀合理。本实施例中的方法作为集成框架，继承了层次聚类算法的优点，同时克服层次聚类算法中奇异值影响较大，容易产生错误分类等缺陷，实现多个弱分类器集成为强分类器的目标。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种负荷曲线多重聚类集成方法，其特征在于，包括如下步骤：

步骤S1，采集多组电力负荷数据，对所述电力负荷数据进行归一化处理，得到电力负荷数据集；

步骤S2，利用层次聚类算法对所述电力负荷数据集进行划分，得到划分中心，并计算所述划分中心的标签可信度，得到基于各所述划分中心的多个可信簇；

步骤S3，迭代步骤S2，直到满足停止条件，得到多重数据簇；

步骤S4，通过所述多重数据簇，分别计算所述多重数据簇两两之间的潜在簇和潜在聚类中心；

步骤S5，通过所述潜在簇和所述潜在聚类中心计算所述多重数据簇的相似度，得到相似度矩阵；

步骤S6，通过所述多重数据簇的中心和所述相似度矩阵得到簇间相似图，使用谱聚类对所述簇间相似图进行分割得到所述簇间相似图的各子图，并计算数据对于所述各子图隶属情况，得到最终聚类结果，

其中，所述的停止条件是所述多重数据簇满足以下两种条件其中的任意一种：

所述可信簇的数量达到预设最大簇数量；

以及所述的电力负荷数据集中的未拥有可信标签的所述电力负荷数据小于目标分类数的平方，

所述步骤S5包括以下步骤：

步骤S5-1，计算所述多重数据簇的中心的欧式距离；

步骤S5-2，如果所述中心的欧式距离大于4ε，则所述相似度为所述中心的欧式距离和余弦距离乘积的倒数；

步骤S5-3，如果所述中心的欧式距离小于4ε，则计算所述潜在簇的密度，设置所述潜在簇的密度除以所述中心的欧式距离与所述余弦距离乘积所得到的值为所述相似度；

步骤S5-4，通过计算所有所述多重数据簇的所述相似度，获得所述相似度矩阵。

2.根据权利要求1所述的负荷曲线多重聚类集成方法，其特征在于：

其中，所述步骤S2还包括如下步骤：

步骤S2-1，在所述电力负荷数据集上使用所述层次聚类算法获取所述数据划分；

步骤S2-2，通过所述数据划分，计算所述数据划分内的单条所述电力负荷数据同其余所述电力负荷数据的欧氏距离之和，设定所述欧式距离之和最小的所述电力负荷数据曲线为所述数据划分的中心，得到所述划分中心；

步骤S2-3，对所述划分中心的集合，设定各中心ε邻域内的所述电力负荷数据具有可信标签，得到所述可信簇；

其中，ε为该中心邻域的半径。

3.根据权利要求1所述的负荷曲线多重聚类集成方法，其特征在于：

其中，所述步骤S4包括以下步骤：

步骤S4-1，对所述划分中心两两进行负荷曲线数据中间值的计算，获得所述潜在聚类中心；

步骤S4-2，计算所述潜在聚类中心代表的可信簇，获得所述潜在簇。

4.根据权利要求1所述的负荷曲线多重聚类集成方法，其特征在于：

其中，所述潜在簇的密度通过统计所述潜在簇中心邻域内所述负荷曲线的数量而获得。

5.根据权利要求1所述的负荷曲线多重聚类集成方法，其特征在于：

其中，所述步骤S6包括以下步骤：

步骤S6-1，通过设定以各所述多重数据簇中心为所述相似图的顶点和以所述相似度矩阵的对应值为所述相似图的连接边的权重来构造所述相似图；

步骤S6-2，通过对步骤S2得到各所述可信簇的所述可信标签进行修正，依据谱聚类对所述相似图的划分结果赋予各簇所在子图的所述子图标签值来修正所述子图内所述多重数据簇的标签值；

步骤S6-3，计算各数据对于所述子图的隶属度，分配最终标签值，得到最终聚类结果。

6.根据权利要求5的所述的负荷曲线多重聚类集成方法，其特征在于，

其中，所述步骤S6-3包括以下步骤：

步骤S6-3-1，对所有所述电力负荷数据，计算满足ε邻域包含所述可信簇数量；

步骤S6-3-2，针对不同所述可信簇在被赋予的不同所述子图的所述标签值，计算所述电力负荷数据对子图的隶属度；

步骤S6-3-3，选取隶属度最大的所述子图的所述标签值作为所述电力负荷数据的所述最终标签值。

7.一种负荷曲线多重聚类集成系统，其特征在于，包括，

电力负荷数据集获取模块，用于采集多组所述电力负荷数据，对所述电力负荷数据进行归一化处理，得到所述电力负荷数据集；

可信簇划分模块，利用层次聚类算法对所述电力负荷数据集进行划分，得到所述划分中心，并计算所述划分中心的标签可信度，得到基于各所述划分中心的多个所述可信簇；

控制模块，控制所述可信簇划分模块进行迭代直到满足停止条件，得到多重数据簇；

潜在簇计算模块，用于计算所述多重数据簇两两之间的潜在簇和潜在聚类中心；

簇间相似度计算模块，通过所述潜在簇和所述潜在聚类中心计算所述多重数据簇的相似度，得到相似度矩阵；以及

最终聚类模块，通过所述多重数据簇的中心和所述相似度矩阵得到簇间相似图，使用谱聚类对所述簇间相似图进行分割得到所述簇间相似图的各子图，并计算数据对于所述各子图隶属情况，得到最终聚类结果，

其中，所述停止条件是所述多重数据簇满足以下两种条件其中的任意一种：

所述可信簇的数量达到预设最大簇数量；

在所述簇间相似度计算模块中，根据所述潜在簇和所述潜在聚类中心得到所述相似度矩阵包括以下步骤：

步骤S5-1，计算所述多重数据簇的中心的欧式距离；

8.一种计算机可读的存储介质，用于存储计算机程序，其特征在于，所述计算机程序被配置成执行时实现所述权利要求1到6中任一项所述的负荷曲线多重聚类集成方法的步骤。