CN111783850A

CN111783850A - 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法

Info

Publication number: CN111783850A
Application number: CN202010543636.6A
Authority: CN
Inventors: 黄明磊; 周子豪; 凌华明; 廖志戈; 裴星宇; 黄晓英; 李建标; 邓丽芬; 郭斯晓; 张璇; 沈欣炜; 孙宏斌
Original assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-16

Abstract

本发明提供一种基于Kd树与Canopy优化Bisecting K‑means的负荷聚类方法，包括以下步骤：S1.采集指定时间段内各个用户的用电负荷数据，并对用电负荷数据进行预处理得到负荷数据集X；S2.将负荷数据集X输入Canopy算法中，得到聚类个数K，同时，建立负荷数据集X的Kd树；S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K‑means算法，再将负荷数据集X输入Bisecting K‑means算法进行聚类分析，Kd树对Bisecting K‑means算法进行加速计算；S4.得到聚类结果。本发明能够对高维度的数据集进行快速运算，且聚类结果稳定准确，运算成本低。

Description

一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法

技术领域

本发明涉及数据处理技术领域，更具体地，涉及一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法。

背景技术

随着电力系统的不断发展与大量智能电表的安装，电力系统积累了海量的用电数据。与此同时，当今电网中的供需不平衡问题也越发严峻，用户侧资源越来越受到重视。用户用电负荷分析是供电企业了解用户用电负荷模式所必不可少的课题，而用户负荷数据聚类是其中最重要的一环。良好有效的用户负荷数据聚类分析有利于供电企业总结出不同的用户类别，从而提供针对性的个性化服务。

目前在电力负荷数据聚类方面，已经有许多学者进行了探索。一部分研究使用了基于层次聚类等算法，此类算法可自动确定聚类数，在小样本集上能取得较好的效果，但是此类方法大多计算量冗杂，不适用于海量高纬度的负荷曲线数据。另一部分研究采用了K-means等基于划分的聚类方法，此类算法相对能更好的处理大数据集，但是需要预先给定聚类数等参数，且运算结果不稳定，有一定局限性。虽然已经有学者使用轮廓系数，手肘法等方法来获得K-means所需的聚类数。但这些方法涉及多种评价指标，基于不同指标常给出不同的聚类数目。中国专利公开号CN106530132A，公开时间2017年3月22日，该申请公开了一种电力负荷聚类的方法及装置，采集电力负荷数据；将所述电力负荷数据进行Canopy聚类，生成若干Canopy类和Canopy中心；将所述Canopy中心作为K值，利用K-Means聚类算法，生成电力负荷聚类结果，但是再该申请中对海量数据进行指标的交叉验证费时费力，而且现实负荷数据伴随有维度高，分布稀疏，缺损值多，异常值多等问题，因此其聚类的结果也不够理想。

发明内容

本发明的目的在于克服对于用户用电负荷数据进行聚类过程中交叉验证费时费力，且现实负荷数据伴随有维度高，分布稀疏，缺损值多，异常值多，导致聚类结果不理想的缺点，提供一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法。本发明不需要人为设定聚类个数K，而是根据具体数据集分布由Canopy算法给出，更加科学准确，且利用了Kd树加速计算高维数据距离运算，能够对高维度的数据集进行快速运算，且聚类结果稳定准确，运算成本低。

为解决上述技术问题，本发明采用的技术方案是：一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，包括以下步骤：

S1.采集指定时间段内各个用户的用电负荷数据，并对用电负荷数据进行预处理得到负荷数据集X；

S2.将负荷数据集X输入Canopy算法中，得到聚类个数K，同时，建立负荷数据集X的Kd树；

S3.将步骤S2中得到聚类个数K作为参数Bisecting K-means算法的参数，再将负荷数据集X输入Bisecting K-means算法进行聚类分析，Kd树对BisectingK-means算法进行加速计算；

S4.得到聚类结果。

本技术方案中，现实负荷数据伴随有维度高，分布稀疏，缺损值多，异常值多等问题，故在开始进行聚类之前需要对用电负荷数据进行预处理；Canopy算法为接下来的Bisecting k-means提供了聚类个数K，不再需要人为设定，更加科学准确；在Bisecting k-means中输入聚类个数K，Kd树对Bisecting k-means进行了加速计算，最终Bisecting k-means给出了聚类结果；该聚类方法既保证其结果的准确度，计算效率高，又可以应对不同的负荷数据情况。

进一步的，在步骤S1中，对用电负荷数据进行缺损值填充，异常值替换，降维和归一化的预处理之后得到负荷数据集X。

进一步的，在步骤S2中，Canopy算法包括以下步骤：

S211.复制负荷数据集X得到数据集X_copy，根据先验知识或交叉验证调整初始距离阈值T₁、T₂，且T₁≥T₂；

S212.从数据集X_copy中随机选择一个样本x₁作为第一个Canopy的聚簇质心c₁，质心集记为C,c₁∈C，并将c₁从数据集X_copy中删除。

S213.从数据集X_copy中随机选择一个样本x_i计算其到质心集中所有质心的距离d_ij(代表第i个样本到第j个质心的距离)，考察其中最小的距离

如果

则给x_i一个弱标记，表示x_i属于c_j，并将x_i加入其中；如果

则给x_i一个强标记，表示x_i属于该c_j，且和质心非常接近，因此将x_i从X_copy中删除；如果

则x_i形成一个新的聚簇质心c_new，加入质心集C，并将x_i从X_copy中删除；

S214.重复步骤S213直到数据集X_copy为空，得到聚簇质心数量即聚类个数K。

进一步的，所述步骤S2中，Kd树的建立使用递归的KdConstruct(X,h＝0,H＝d)函数，包括以下步骤：

S221.输入负荷数据集X，Kd树的当前深度h和截止深度H，其中H＝d，d为数据集的维度；

S222.计算负荷数据集X中每一维数据的方差值，将维度序号按方差大小来排序，形成Split List，取Split List中第h维的中点值

作为分割点MidPoint，将负荷数据中的数据X分为两个集合

和

根节点Root包含整个样本集X。

S223.建立根节点Root的左右子节点，Lchild为左子节点，包含样本集X_left，Rchild为右子节点，包含样本集X_right，Lchild＝KdConstruct(X_left,h+1,H),Rchild＝KdConstruct(X_right,h+1,H),递归地调用直到子节点为叶子节点，或h＝H；

S224返回根节点Root。

在步骤S222中，当负荷数据X中的数据x_i小于等于分割点MidPoint则归类为集合X_left，当负荷数据X中的数据x_i大于分割点MidPoint则归类为X_right。本技术方法是通过递归方程生成Kd树，在建立完根节点之后，开始建立左右子节点，左右子节点分别建立俩个子Kd树(通过调用kdConstruct实现)，而左右子节点自身又可以看成是子Kd树的根节点，再往下建立下一级左右子节点。如此递归，直到最后节点只有一个样本(即叶节点)或深度到达H。

进一步的，步骤S3包括以下具体步骤：

S31.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法；

S32.在数据集X_copy的d维中取一维排序成等区间间隔的子集，取2个初始簇心，形成簇C，运行经Kd树加速的k＝2K-means算法，反复计算更新簇心及其簇，直到损失函数收敛，得出最终簇心及其簇；

S33.计算当前所有簇中，对损失函数贡献最大的簇c_j，将该簇作为下一次迭代的目标数据集，X_copy＝{x_i|x_i∈c_j}，再重复步骤S32，直到簇心个数达到K。

其中，Kd树本质上是一种二元搜索树，可以快速而准确地找到某一点的最近邻，从而加速Bisecting K-means中的计算，节约计算成本。

进一步的，步骤S32包括以下具体步骤：

S321.从Kd树的根节点Root开始，修建Kd树中各个节点即样本数据x_i的候选簇心集C_new；

S322.计算节点对象到候选簇心的距离，并把数据x_i分配给距离最小的簇心，如果节点的候选簇心集C_new中只有一个簇心，直接将数据x_i全部分给该簇；

S323.根据步骤S322中分好的簇集重新计算簇心，根据新得的簇心再次进行步骤S322中的分类，反复进行计算分类，直到损失函数收敛，得出最终簇心及其簇。

进一步的，步骤S33的损失函数的计算公式如下

K代表总簇数，x_i∈c_j代表第i个属于簇c_j的样本，d(c_j,x_i)代表簇心c_j到样本点x_i的距离。

进一步的，步骤S322中，距离的计算是采用欧几里得距离公式计算得出。

进一步的，所述步骤S4的聚类结果就是步骤S33中的K个簇心及它们各自对应的簇。

与现有技术相比，本发明的有益效果是：

1.本发明对用电负荷数据进行缺损值填充，异常值替换，降维和归一化的预处理，避免由于样本数据的不稳定导致聚类结果不准确；

2.本发明通过Canopy算法得出Bisecting K-means算法需要提前指定的聚类个数K，提高聚类结果的稳定性；

3.本发明在Bisecting K-means算法中引入Kd树，大量减少参与计算的点和候选的簇心之间的距离计算量，从而显著的减少运行时间和成本；

4.本发明通过使用Bisecting K-means取代传统K-means，使类中心互相之间尽可能远离，来得到稳定可靠的聚类结果，避免陷入局部最优。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合具体实施方式对本发明作进一步的说明。其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本专利的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例

如图1所示为本发明一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法的实施例。一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法的实施例，包括以下步骤：

S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K-means算法，再将负荷数据集X输入Bisecting K-means算法进行聚类分析，Kd树对BisectingK-means算法进行加速计算；

S4.得到聚类结果。

其中，在步骤S1中，采集到的电负荷数据进行缺损值填充，异常值替换，降维和归一化的预处理后得到负荷数据集X。

其中，在步骤S2中，Canopy算法的具体实行步骤如下文所示：

1.复制负荷数据集X得到数据集X_copy，根据先验知识或交叉验证调整初始距离阈值T₁、T₂，且T₁≥T₂；

2.从数据集X_copy中随机选择一个样本x₁作为第一个Canopy的聚簇质心c₁，质心集记为C,c₁∈C，并将c₁从数据集X_copy中删除；

3.从数据集X_copy中随机选择一个样本x_i计算其到质心集中所有质心的距离d_ij，d_ij代表第i个样本到第j个质心的距离，考察其中最小的距离

如果

则给x_i一个弱标记，表示x_i属于c_j，并将x_i加入其中；如果

4.重复上一步骤直到数据集X_copy为空，得到聚簇质心数量即聚类个数K.

其中，在步骤S2中，Kd树的建立包括以下步骤：

1.输入负荷数据集X，Kd树的当前深度h和截止深度H，其中H＝d，d为数据集的维度，负荷数据集X的维度是已知的；

2.计算负荷数据集X中每一维数据的方差值，将维度序号按方差大小来排序，形成Split List，取Split List中第h维的中点值

作为分割点MidPoint，将负荷数据中的数据X分为两个集合

和

根节点Root包含整个样本集X。

3.建立根节点Root的左右子节点，Lchild为左子节点，包含样本集X_left，Rchild为右子节点，包含样本集X_right，Lchild＝KdConstruct(X_left,h+1,H),Rchild＝KdConstruct(X_right,h+1,H),递归地调用直到子节点为叶子节点，或h＝H；

4.返回根节点Root。

其中，在步骤S3中，包括以下具体步骤：

1.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法；

2.在数据集X_copy的d维中取一维排序成等区间间隔的子集，取2个初始簇心，形成簇C，运行经Kd树加速的k＝2K-means算法，反复计算更新簇心及其簇，直到损失函数收敛，得出最终簇心及其簇；

3.计算当前所有簇中，找出对损失函数贡献最大的簇c_j，将该簇作为下一次迭代的目标数据集，X_copy＝{x_i|x_i∈c_j}，再重复上一步骤，直到簇心个数达到K，K个簇心及其簇就是最终得到的聚类结果。

Kd树在Bisecting K-means算法中进行加速运算具体步骤如下所示：

1.从Kd树的根节点Root开始，修建Kd树中各个节点即样本数据x_i的候选簇心集C_new；

2.计算节点对象到候选簇心的距离，并把数据x_i分配给距离最小的簇心，如果节点的候选簇心集C_new中只有一个簇心，直接将数据x_i全部分给该簇；

3.根据上一步骤中分好的簇集重新计算簇心，根据新得的簇心再次进行步骤S322中的分类，反复进行计算分类，直到损失函数收敛，得出最终簇心及其簇。

损失函数的公式如下文所示

本实施例中所有的距离计算均采用欧几里得距离公式进行计算得到。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：包括以下步骤：

S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K-means算法，再将负荷数据集X输入Bisecting K-means算法进行聚类分析，Kd树对Bisecting K-means算法进行加速计算；

S4.得到聚类结果。

2.根据权利要求1所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S1中，对用电负荷数据进行缺损值填充，异常值替换，降维和归一化的预处理之后得到负荷数据集X。

3.根据权利要求2所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S2中，Canopy算法包括以下步骤：

S213.从数据集X_copy中随机选择一个样本x_i，计算其到质心集中所有质心的距离d_ij，d_ij代表第i个样本到第j个质心的距离，考察其中最小的距离

如果

则给x_i一个弱标记，表示x_i属于c_j，并将x_i加入其中；如果

4.根据权利要求3所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S2中，Kd树的建立使用递归的KdConstruct(X,h＝0,H＝d)函数，包括以下步骤：

作为分割点MidPoint，将负荷数据中的数据X分为两个集合

和

根节点Root包含整个样本集X。

S224.返回根节点Root。

5.根据权利要求4所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S3包括以下具体步骤：

S33.计算当前所有簇中，找出对损失函数贡献最大的簇c_j，将该簇作为下一次迭代的目标数据集，X_copy＝{x_i|x_i∈c_j}，再重复步骤S32，直到簇心个数达到K。

6.根据权利要求5所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S32包括以下具体步骤：

7.根据权利要求6所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S33的损失函数的计算公式如下：

8.根据权利要求7所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S322中，距离的计算是采用欧几里得距离公式计算得出。

9.根据权利要求7所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法，其特征在于：所述步骤S4的聚类结果就是步骤S33中的K个簇心及它们各自对应的簇。