CN115221980A

CN115221980A - 一种基于特征提取和改进K-means算法的负荷聚类方法

Info

Publication number: CN115221980A
Application number: CN202211127930.4A
Authority: CN
Inventors: 陈页; 杨嘉帆
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-09-16
Filing date: 2022-09-16
Publication date: 2022-10-21

Abstract

本发明公开了一种基于特征提取和改进K‑means算法的负荷聚类方法，涉及电力系统负荷聚类的技术领域，包含以下步骤：输入电力负荷数据，进行数据预处理，计算负荷特征指标，采用奇异值分解法对负荷数据降维，得到负荷特征指标表征权重，实用降维后的负荷数据，采用考虑密度的改进K‑means算法进行负荷聚类，本发明解决了目前负荷聚类方法存在的聚类结果不稳定、有丢失原始负荷重要特征的风险以及计算复杂度较高的问题，为下一步进行负荷预测、储能容量配置、需求侧管理等提供有效量化参考。

Description

一种基于特征提取和改进K-means算法的负荷聚类方法

技术领域

本发明涉及电力系统负荷聚类的技术领域，具体涉及一种基于特征提取和改进K-means算法的负荷聚类方法。

背景技术

智能电网拥有强大的信息捕捉能力，为电力资源的优化配置、电网安全稳定运行和清洁能源的高效利用提供数据支撑。其中，智能电表定期记录了大量用户负荷数据，这些负荷曲线有助于刻画用户行为画像，反映用户的用电特征。这些用电数据若能被合理提取和分类，可为电力用户和供电公司提供有效的负荷管理信息。对用户来说，了解自身用电特点后，可以根据市场电价适当调整自身用电习惯；对供电公司来说，对负荷进行聚类分析有利于实现资源的有效配置、电价的灵活调节和科学的需求侧管理。

目前的负荷聚类方法主要分为直接聚类和间接聚类。直接聚类相对简单，但是存在聚类对象过多，聚类结果不稳定的问题；间接聚类则先提取负荷数据特征后进行聚类，常用主成分分析法提取负荷特征，但是该方法需要先对原始负荷特征做零均值化处理，有丢失原始负荷重要特征的风险，此外，计算协方差矩阵的特征向量也使得该方法的复杂度较高，不利于计算的稳定性。

发明内容

针对现有技术的不足，本发明提供了一种基于特征提取和改进K-means算法的负荷聚类方法，解决了上述背景技术中提出的问题。

为实现以上目的，本发明通过以下技术方案予以实现：一种基于特征提取和改进K-means算法的负荷聚类方法，包含以下步骤：

S1：输入电力负荷数据，进行数据预处理，得到处理后的电力负荷数据；

S2：计算负荷特征指标；

S3：采用奇异值分解法对负荷数据降维，得到负荷特征指标表征权重；

S4：根据负荷特征指标表征权重，使用降维后的负荷数据，采用考虑密度的改进K-means算法进行负荷聚类。

作为优选，所述步骤S1中对数据的预处理包括以下步骤：

S1.1：输入原始负荷数据，判断每一个用户日负荷数据是否存在数据缺失，若存在数据缺失则进行步骤S1.2，否则进行步骤S1.3；

S1.2：计算该用户数据缺失率，并将所述数据缺失率与设定的阈值比较，若该用户数据缺失率大于等于所述阈值，则判断该样本数据无效，对该样本做删除处理；若该用户数据缺失率小于所述阈值，则采用相邻点的平均值替换法将缺失数据补齐；

S1.3：采用正态分布

原则判断每个用户的日负荷数据是否存在极端跳变情况；若存在极端跳变情况则进行步骤S1.4，否则进行步骤S1.5；

S1.4：采用相邻点的平均值替换法对存在极端跳变情况的数据进行修正；

S1.5：采用max-min法对负荷数据做归一化处理。

作为优选，所述S1.2中设定的阈值为40%。

作为优选，所述步骤S2中的负荷特征指标包括日最大负荷、日最小负荷、日平均负荷、日负荷率、日峰谷差率、负荷变异系数、峰时负载率、平时负载率、谷时负载率。

作为优选，所述步骤S3中采用奇异值分解法对负荷数据降维，具体包括：

S3.1：输入m个负荷的s个特性，并用矩阵A表示；

S3.2：对矩阵A进行奇异值λ _i求解；

S3.3：将奇异值λ _i从大到小进行排序，取前l个对应特征值；

S3.4：采用max-min法对前l个对应特征值进行归一化处理，得到各特征指标表征权重。

作为优选，所述步骤S3.1中的m、s均为大于1的自然数。

作为优选，所述步骤S4中考虑密度的改进K-means算法，具体包括：

S4.1：输入m个用户l维特征负荷数据；

S4.2：计算聚类对象之间的距离；

S4.3：提取聚类对象中高密度的负荷数据点；

S4.4：比较各聚类对象的密度，以密度最高的点作为聚类初始中心。

S4.5：选取距离该初始聚类中心最远的点作为第二个聚类中心，并以此类推，形成聚类中心候选点；

S4.6：计算各聚类对象到初始聚类中心的距离，进行初始聚类；

S4.7：计算各聚类对象到聚类中心候选点的距离，若附近数据点数量达不到要求数量则重选中心；

S4.8：计算各聚类对象到聚类中心距离的和方差，若满足条件则停止，形成最终聚类方案；若不满足，则重复步骤S4.6和步骤S4.7。

作为优选，所述步骤S4.8中停止迭代的判断条件为和方差

，其中

表示一个任意小的正值。

本发明针对目前负荷聚类方法存在的聚类结果不稳定、有丢失原始负荷重要特征的风险以及计算复杂度较高等问题，提供一种基于特征提取和改进K-means算法的负荷聚类方法，通过输入电力负荷数据，进行数据预处理，计算负荷特征指标，采用奇异值分解法对负荷数据降维，得到负荷特征指标表征权重，实用降维后的负荷数据，最后采用考虑密度的改进K-means算法进行负荷聚类，聚类结果稳定，计算复杂度低，为下一步进行负荷预测、储能容量配置、需求侧管理等提供有效量化参考；本发明的方法可靠性高，容易操作，便于推广。

附图说明

图1为本发明的负荷聚类方法的流程图；

图2为本发明的负荷数据预处理的流程图；

图3为本发明的奇异值分解法对负荷数据降维的流程图；

图4为本发明的考虑密度的改进K-means算法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

如图1所示，本发明的一种基于特征提取和改进K-means算法的负荷聚类方法，包含以下步骤：

S2：计算负荷特征指标；

其中，步骤S1中对负荷数据的预处理方法如图2所示，包含以下步骤：

S1.2：计算该用户数据缺失率，判断数据缺失率是否≥40%，若≥40%则判断该样本数据无效，对该样本做删除处理；若该用户数据缺失率＜40%，则采用相邻点的平均值替换法将缺失数据补齐；

所述相邻点的平均值替换法计算方式为

其中，p(t)、p(t-1) 、p(t+1) 分别表示缺失点负荷、缺失点前一采样点负荷和缺失点后一采样点负荷；

S1.3：采用正态分布

原则判断每个用户的日负荷数据是否存在极端跳变情况；

所述

原则的具体计算方式为

其中，

为该用户的负荷平均值；p(t)为该用户在第t个采样时刻的负荷值；n为日采样点总数，一般情况下每15分钟采集一次负荷数据，即该取值一般为96。

若存在极端跳变情况则进行步骤S1.4；否则进行步骤S1.5。

S1.5：采用max-min法对负荷数据做归一化处理；

所述max-min法的计算方式为

其中，x*为该用户归一化后的负荷数据，x为该用户原始负荷数据，min(x)和max(x)分别为所有用户日负荷数据中的最小值和最大值。

所述步骤S2中计算的负荷特征指标包括日最大负荷、日最小负荷、日平均负荷、日负荷率、日峰谷差率、负荷变异系数、峰时负载率、平时负载率、谷时负载率。

各特征指标计算方式如下：

1）日最大负荷

2）日最小负荷

3）日平均负荷

4）日负荷率

5）日峰谷差率

6）负荷变异系数

7）峰时负载率

8）平时负载率

9）谷时负载率

其中，

为最大负荷；

为最小负荷；

为平均负荷，n为采集点总数，

为所有采集点所得负荷总量；

为日负荷标准差；

、

和

分别为峰时、平时、谷时的平均负荷；

、

分别为第i、k个采集点的负荷；

、

、

分别为峰时、平时、谷时的采集点数量。

如图3所示，所述的步骤S3中采用奇异值分解法对负荷数据降维，具体如下：

S3.1：输入m个负荷的s个特性（m, s>1），用矩阵A表示，即

S3.2：对矩阵A进行奇异值λ _i求解，即

其中，U和V为正交矩阵，可表示为

、

；

为阶对角矩阵。

S3.3：将奇异值λ _i从大到小进行排序，取前l个对应特征值。

l的计算方式如下：

此处，

表示向上取整。

S3.4：采用max-min法对前l个对应特征值进行归一化处理，得到各特征指标表征权重

。

如图4所示，所述步骤S4中采用考虑密度的改进K-means算法进行负荷聚类，具体如下：

S4.1：输入m个用户l维特征负荷数据，每个聚类对象可表示为

S4.2：计算聚类对象之间的距离，计算方法为

其中，d(x _i ,x _j)表示聚类对象x _i和聚类对象x _j之间的各特征指标表征权重计算的加权距离；D(x _i)为x _i与最近N个聚类对象的平均距离，可采用最小化和方差的方式对N进行参数调整。

所述和方差SSE的计算方式为

其中，y _i为该聚类对象到该类中心的距离，

为该类中的所有聚类对象到聚类中心的距离平均值；K为聚类数量，在对N进行参数调整时取1；n _j为类中样本数量，此处为参数N。

S4.3：提取聚类对象中高密度的负荷数据点，数据密度的计算方法为

其中，为聚类对象x _i的密度表示；X为全体负荷数据集合；d(x _i ,p)表示x _i与周围点之间的距离；r为符合条件的半径。

S4.4：比较

，以密度最高的点作为聚类初始中心。

S4.5：选取距离该初始聚类中心最远的点作为第二个聚类中心，并以此类推，形成聚类中心候选点。

S4.6：计算各聚类对象到初始聚类中心的距离，进行初始聚类。

S4.7：计算各聚类对象到聚类中心候选点的距离，若附近数据点数量达不到要求数量则重选中心。

S4.8：计算和方差，若满足条件则停止，形成最终聚类方案；若不满足，则重复步骤S4.6和步骤S4.7。

所述步骤S4.8中停止迭代的判断条件为

，其中

表示一个任意小的正值。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于，包含以下步骤：

S2：计算负荷特征指标；

2.根据权利要求1所述的一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于，所述步骤S1中对数据的预处理包括以下步骤：

S1.3：采用正态分布

S1.5：采用max-min法对负荷数据做归一化处理。

3.根据权利要求1所述的一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于：所述S1.2中设定的阈值为40%。

4.根据权利要求1所述的一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于：所述步骤S2中的负荷特征指标包括日最大负荷、日最小负荷、日平均负荷、日负荷率、日峰谷差率、负荷变异系数、峰时负载率、平时负载率、谷时负载率。

5.根据权利要求1所述的一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于，所述步骤S3中采用奇异值分解法对负荷数据降维，具体包括：

S3.1：输入m个负荷的s个特性，并用矩阵A表示；

S3.2：对矩阵A进行奇异值λ _i求解；

S3.3：将奇异值λ _i从大到小进行排序，取前l个对应特征值；

6.根据权利要求5所述的一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于：所述步骤S3.1中的m、s均为大于1的自然数。

7.根据权利要求1所述的一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于，所述步骤S4中考虑密度的改进K-means算法，具体包括：

S4.1：输入m个用户l维特征负荷数据；

S4.2：计算聚类对象之间的距离；

S4.3：提取聚类对象中高密度的负荷数据点；

S4.4：比较各聚类对象的密度，以密度最高的点作为聚类初始中心；

8.根据权利要求7所述的一种基于特征提取和改进K-means算法的负荷聚类方法，其特征在于：所述步骤S4.8中停止迭代的判断条件为和方差

，其中

表示一个任意小的正值。