CN111783850A - 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 - Google Patents

一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 Download PDF

Info

Publication number
CN111783850A
CN111783850A CN202010543636.6A CN202010543636A CN111783850A CN 111783850 A CN111783850 A CN 111783850A CN 202010543636 A CN202010543636 A CN 202010543636A CN 111783850 A CN111783850 A CN 111783850A
Authority
CN
China
Prior art keywords
tree
data set
clustering
canopy
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010543636.6A
Other languages
English (en)
Inventor
黄明磊
周子豪
凌华明
廖志戈
裴星宇
黄晓英
李建标
邓丽芬
郭斯晓
张璇
沈欣炜
孙宏斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Zhuhai Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202010543636.6A priority Critical patent/CN111783850A/zh
Publication of CN111783850A publication Critical patent/CN111783850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于Kd树与Canopy优化Bisecting K‑means的负荷聚类方法,包括以下步骤:S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K‑means算法,再将负荷数据集X输入Bisecting K‑means算法进行聚类分析,Kd树对Bisecting K‑means算法进行加速计算;S4.得到聚类结果。本发明能够对高维度的数据集进行快速运算,且聚类结果稳定准确,运算成本低。

Description

一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类 方法
技术领域
本发明涉及数据处理技术领域,更具体地,涉及一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法。
背景技术
随着电力系统的不断发展与大量智能电表的安装,电力系统积累了海量的用电数据。与此同时,当今电网中的供需不平衡问题也越发严峻,用户侧资源越来越受到重视。用户用电负荷分析是供电企业了解用户用电负荷模式所必不可少的课题,而用户负荷数据聚类是其中最重要的一环。良好有效的用户负荷数据聚类分析有利于供电企业总结出不同的用户类别,从而提供针对性的个性化服务。
目前在电力负荷数据聚类方面,已经有许多学者进行了探索。一部分研究使用了基于层次聚类等算法,此类算法可自动确定聚类数,在小样本集上能取得较好的效果,但是此类方法大多计算量冗杂,不适用于海量高纬度的负荷曲线数据。另一部分研究采用了K-means等基于划分的聚类方法,此类算法相对能更好的处理大数据集,但是需要预先给定聚类数等参数,且运算结果不稳定,有一定局限性。虽然已经有学者使用轮廓系数,手肘法等方法来获得K-means所需的聚类数。但这些方法涉及多种评价指标,基于不同指标常给出不同的聚类数目。中国专利公开号CN106530132A,公开时间2017年3月22日,该申请公开了一种电力负荷聚类的方法及装置,采集电力负荷数据;将所述电力负荷数据进行Canopy聚类,生成若干Canopy类和Canopy中心;将所述Canopy中心作为K值,利用K-Means聚类算法,生成电力负荷聚类结果,但是再该申请中对海量数据进行指标的交叉验证费时费力,而且现实负荷数据伴随有维度高,分布稀疏,缺损值多,异常值多等问题,因此其聚类的结果也不够理想。
发明内容
本发明的目的在于克服对于用户用电负荷数据进行聚类过程中交叉验证费时费力,且现实负荷数据伴随有维度高,分布稀疏,缺损值多,异常值多,导致聚类结果不理想的缺点,提供一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法。本发明不需要人为设定聚类个数K,而是根据具体数据集分布由Canopy算法给出,更加科学准确,且利用了Kd树加速计算高维数据距离运算,能够对高维度的数据集进行快速运算,且聚类结果稳定准确,运算成本低。
为解决上述技术问题,本发明采用的技术方案是:一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,包括以下步骤:
S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;
S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;
S3.将步骤S2中得到聚类个数K作为参数Bisecting K-means算法的参数,再将负荷数据集X输入Bisecting K-means算法进行聚类分析,Kd树对BisectingK-means算法进行加速计算;
S4.得到聚类结果。
本技术方案中,现实负荷数据伴随有维度高,分布稀疏,缺损值多,异常值多等问题,故在开始进行聚类之前需要对用电负荷数据进行预处理;Canopy算法为接下来的Bisecting k-means提供了聚类个数K,不再需要人为设定,更加科学准确;在Bisecting k-means中输入聚类个数K,Kd树对Bisecting k-means进行了加速计算,最终Bisecting k-means给出了聚类结果;该聚类方法既保证其结果的准确度,计算效率高,又可以应对不同的负荷数据情况。
进一步的,在步骤S1中,对用电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理之后得到负荷数据集X。
进一步的,在步骤S2中,Canopy算法包括以下步骤:
S211.复制负荷数据集X得到数据集Xcopy,根据先验知识或交叉验证调整初始距离阈值T1、T2,且T1≥T2
S212.从数据集Xcopy中随机选择一个样本x1作为第一个Canopy的聚簇质心c1,质心集记为C,c1∈C,并将c1从数据集Xcopy中删除。
S213.从数据集Xcopy中随机选择一个样本xi计算其到质心集中所有质心的距离dij(代表第i个样本到第j个质心的距离),考察其中最小的距离
Figure BDA0002539895050000021
如果
Figure BDA0002539895050000022
则给xi一个弱标记,表示xi属于cj,并将xi加入其中;如果
Figure BDA0002539895050000023
则给xi一个强标记,表示xi属于该cj,且和质心非常接近,因此将xi从Xcopy中删除;如果
Figure BDA0002539895050000024
则xi形成一个新的聚簇质心cnew,加入质心集C,并将xi从Xcopy中删除;
S214.重复步骤S213直到数据集Xcopy为空,得到聚簇质心数量即聚类个数K。
进一步的,所述步骤S2中,Kd树的建立使用递归的KdConstruct(X,h=0,H=d)函数,包括以下步骤:
S221.输入负荷数据集X,Kd树的当前深度h和截止深度H,其中H=d,d为数据集的维度;
S222.计算负荷数据集X中每一维数据的方差值,将维度序号按方差大小来排序,形成Split List,取Split List中第h维的中点值
Figure BDA0002539895050000031
作为分割点MidPoint,将负荷数据中的数据X分为两个集合
Figure BDA0002539895050000032
Figure BDA0002539895050000033
根节点Root包含整个样本集X。
S223.建立根节点Root的左右子节点,Lchild为左子节点,包含样本集Xleft,Rchild为右子节点,包含样本集Xright,Lchild=KdConstruct(Xleft,h+1,H),Rchild=KdConstruct(Xright,h+1,H),递归地调用直到子节点为叶子节点,或h=H;
S224返回根节点Root。
在步骤S222中,当负荷数据X中的数据xi小于等于分割点MidPoint则归类为集合Xleft,当负荷数据X中的数据xi大于分割点MidPoint则归类为Xright。本技术方法是通过递归方程生成Kd树,在建立完根节点之后,开始建立左右子节点,左右子节点分别建立俩个子Kd树(通过调用kdConstruct实现),而左右子节点自身又可以看成是子Kd树的根节点,再往下建立下一级左右子节点。如此递归,直到最后节点只有一个样本(即叶节点)或深度到达H。
进一步的,步骤S3包括以下具体步骤:
S31.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法;
S32.在数据集Xcopy的d维中取一维排序成等区间间隔的子集,取2个初始簇心,形成簇C,运行经Kd树加速的k=2K-means算法,反复计算更新簇心及其簇,直到损失函数收敛,得出最终簇心及其簇;
S33.计算当前所有簇中,对损失函数贡献最大的簇cj,将该簇作为下一次迭代的目标数据集,Xcopy={xi|xi∈cj},再重复步骤S32,直到簇心个数达到K。
其中,Kd树本质上是一种二元搜索树,可以快速而准确地找到某一点的最近邻,从而加速Bisecting K-means中的计算,节约计算成本。
进一步的,步骤S32包括以下具体步骤:
S321.从Kd树的根节点Root开始,修建Kd树中各个节点即样本数据xi的候选簇心集Cnew
S322.计算节点对象到候选簇心的距离,并把数据xi分配给距离最小的簇心,如果节点的候选簇心集Cnew中只有一个簇心,直接将数据xi全部分给该簇;
S323.根据步骤S322中分好的簇集重新计算簇心,根据新得的簇心再次进行步骤S322中的分类,反复进行计算分类,直到损失函数收敛,得出最终簇心及其簇。
进一步的,步骤S33的损失函数的计算公式如下
Figure BDA0002539895050000041
K代表总簇数,xi∈cj代表第i个属于簇cj的样本,d(cj,xi)代表簇心cj到样本点xi的距离。
进一步的,步骤S322中,距离的计算是采用欧几里得距离公式计算得出。
进一步的,所述步骤S4的聚类结果就是步骤S33中的K个簇心及它们各自对应的簇。
与现有技术相比,本发明的有益效果是:
1.本发明对用电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理,避免由于样本数据的不稳定导致聚类结果不准确;
2.本发明通过Canopy算法得出Bisecting K-means算法需要提前指定的聚类个数K,提高聚类结果的稳定性;
3.本发明在Bisecting K-means算法中引入Kd树,大量减少参与计算的点和候选的簇心之间的距离计算量,从而显著的减少运行时间和成本;
4.本发明通过使用Bisecting K-means取代传统K-means,使类中心互相之间尽可能远离,来得到稳定可靠的聚类结果,避免陷入局部最优。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明。其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例
如图1所示为本发明一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法的实施例。一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法的实施例,包括以下步骤:
S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;
S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;
S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K-means算法,再将负荷数据集X输入Bisecting K-means算法进行聚类分析,Kd树对BisectingK-means算法进行加速计算;
S4.得到聚类结果。
其中,在步骤S1中,采集到的电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理后得到负荷数据集X。
其中,在步骤S2中,Canopy算法的具体实行步骤如下文所示:
1.复制负荷数据集X得到数据集Xcopy,根据先验知识或交叉验证调整初始距离阈值T1、T2,且T1≥T2
2.从数据集Xcopy中随机选择一个样本x1作为第一个Canopy的聚簇质心c1,质心集记为C,c1∈C,并将c1从数据集Xcopy中删除;
3.从数据集Xcopy中随机选择一个样本xi计算其到质心集中所有质心的距离dij,dij代表第i个样本到第j个质心的距离,考察其中最小的距离
Figure BDA0002539895050000051
如果
Figure BDA0002539895050000052
则给xi一个弱标记,表示xi属于cj,并将xi加入其中;如果
Figure BDA0002539895050000053
则给xi一个强标记,表示xi属于该cj,且和质心非常接近,因此将xi从Xcopy中删除;如果
Figure BDA0002539895050000054
则xi形成一个新的聚簇质心cnew,加入质心集C,并将xi从Xcopy中删除;
4.重复上一步骤直到数据集Xcopy为空,得到聚簇质心数量即聚类个数K.
其中,在步骤S2中,Kd树的建立包括以下步骤:
1.输入负荷数据集X,Kd树的当前深度h和截止深度H,其中H=d,d为数据集的维度,负荷数据集X的维度是已知的;
2.计算负荷数据集X中每一维数据的方差值,将维度序号按方差大小来排序,形成Split List,取Split List中第h维的中点值
Figure BDA0002539895050000061
作为分割点MidPoint,将负荷数据中的数据X分为两个集合
Figure BDA0002539895050000062
Figure BDA0002539895050000063
根节点Root包含整个样本集X。
3.建立根节点Root的左右子节点,Lchild为左子节点,包含样本集Xleft,Rchild为右子节点,包含样本集Xright,Lchild=KdConstruct(Xleft,h+1,H),Rchild=KdConstruct(Xright,h+1,H),递归地调用直到子节点为叶子节点,或h=H;
4.返回根节点Root。
其中,在步骤S3中,包括以下具体步骤:
1.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法;
2.在数据集Xcopy的d维中取一维排序成等区间间隔的子集,取2个初始簇心,形成簇C,运行经Kd树加速的k=2K-means算法,反复计算更新簇心及其簇,直到损失函数收敛,得出最终簇心及其簇;
3.计算当前所有簇中,找出对损失函数贡献最大的簇cj,将该簇作为下一次迭代的目标数据集,Xcopy={xi|xi∈cj},再重复上一步骤,直到簇心个数达到K,K个簇心及其簇就是最终得到的聚类结果。
Kd树在Bisecting K-means算法中进行加速运算具体步骤如下所示:
1.从Kd树的根节点Root开始,修建Kd树中各个节点即样本数据xi的候选簇心集Cnew
2.计算节点对象到候选簇心的距离,并把数据xi分配给距离最小的簇心,如果节点的候选簇心集Cnew中只有一个簇心,直接将数据xi全部分给该簇;
3.根据上一步骤中分好的簇集重新计算簇心,根据新得的簇心再次进行步骤S322中的分类,反复进行计算分类,直到损失函数收敛,得出最终簇心及其簇。
损失函数的公式如下文所示
Figure BDA0002539895050000064
K代表总簇数,xi∈cj代表第i个属于簇cj的样本,d(cj,xi)代表簇心cj到样本点xi的距离。
本实施例中所有的距离计算均采用欧几里得距离公式进行计算得到。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:包括以下步骤:
S1.采集指定时间段内各个用户的用电负荷数据,并对用电负荷数据进行预处理得到负荷数据集X;
S2.将负荷数据集X输入Canopy算法中,得到聚类个数K,同时,建立负荷数据集X的Kd树;
S3.将步骤S2中得到聚类个数K作为参数输入Bisecting K-means算法,再将负荷数据集X输入Bisecting K-means算法进行聚类分析,Kd树对Bisecting K-means算法进行加速计算;
S4.得到聚类结果。
2.根据权利要求1所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S1中,对用电负荷数据进行缺损值填充,异常值替换,降维和归一化的预处理之后得到负荷数据集X。
3.根据权利要求2所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S2中,Canopy算法包括以下步骤:
S211.复制负荷数据集X得到数据集Xcopy,根据先验知识或交叉验证调整初始距离阈值T1、T2,且T1≥T2
S212.从数据集Xcopy中随机选择一个样本x1作为第一个Canopy的聚簇质心c1,质心集记为C,c1∈C,并将c1从数据集Xcopy中删除。
S213.从数据集Xcopy中随机选择一个样本xi,计算其到质心集中所有质心的距离dij,dij代表第i个样本到第j个质心的距离,考察其中最小的距离
Figure FDA0002539895040000011
如果
Figure FDA0002539895040000012
则给xi一个弱标记,表示xi属于cj,并将xi加入其中;如果
Figure FDA0002539895040000013
则给xi一个强标记,表示xi属于该cj,且和质心非常接近,因此将xi从Xcopy中删除;如果
Figure FDA0002539895040000014
则xi形成一个新的聚簇质心cnew,加入质心集C,并将xi从Xcopy中删除;
S214.重复步骤S213直到数据集Xcopy为空,得到聚簇质心数量即聚类个数K。
4.根据权利要求3所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S2中,Kd树的建立使用递归的KdConstruct(X,h=0,H=d)函数,包括以下步骤:
S221.输入负荷数据集X,Kd树的当前深度h和截止深度H,其中H=d,d为数据集的维度;
S222.计算负荷数据集X中每一维数据的方差值,将维度序号按方差大小来排序,形成Split List,取Split List中第h维的中点值
Figure FDA0002539895040000021
作为分割点MidPoint,将负荷数据中的数据X分为两个集合
Figure FDA0002539895040000022
Figure FDA0002539895040000023
根节点Root包含整个样本集X。
S223.建立根节点Root的左右子节点,Lchild为左子节点,包含样本集Xleft,Rchild为右子节点,包含样本集Xright,Lchild=KdConstruct(Xleft,h+1,H),Rchild=KdConstruct(Xright,h+1,H),递归地调用直到子节点为叶子节点,或h=H;
S224.返回根节点Root。
5.根据权利要求4所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S3包括以下具体步骤:
S31.将Canopy算法中得出的聚类个数K作为参数输入Bisecting K-means算法;
S32.在数据集Xcopy的d维中取一维排序成等区间间隔的子集,取2个初始簇心,形成簇C,运行经Kd树加速的k=2K-means算法,反复计算更新簇心及其簇,直到损失函数收敛,得出最终簇心及其簇;
S33.计算当前所有簇中,找出对损失函数贡献最大的簇cj,将该簇作为下一次迭代的目标数据集,Xcopy={xi|xi∈cj},再重复步骤S32,直到簇心个数达到K。
6.根据权利要求5所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S32包括以下具体步骤:
S321.从Kd树的根节点Root开始,修建Kd树中各个节点即样本数据xi的候选簇心集Cnew
S322.计算节点对象到候选簇心的距离,并把数据xi分配给距离最小的簇心,如果节点的候选簇心集Cnew中只有一个簇心,直接将数据xi全部分给该簇;
S323.根据步骤S322中分好的簇集重新计算簇心,根据新得的簇心再次进行步骤S322中的分类,反复进行计算分类,直到损失函数收敛,得出最终簇心及其簇。
7.根据权利要求6所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S33的损失函数的计算公式如下:
Figure FDA0002539895040000031
K代表总簇数,xi∈cj代表第i个属于簇cj的样本,d(cj,xi)代表簇心cj到样本点xi的距离。
8.根据权利要求7所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S322中,距离的计算是采用欧几里得距离公式计算得出。
9.根据权利要求7所述的一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法,其特征在于:所述步骤S4的聚类结果就是步骤S33中的K个簇心及它们各自对应的簇。
CN202010543636.6A 2020-06-15 2020-06-15 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法 Pending CN111783850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010543636.6A CN111783850A (zh) 2020-06-15 2020-06-15 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010543636.6A CN111783850A (zh) 2020-06-15 2020-06-15 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法

Publications (1)

Publication Number Publication Date
CN111783850A true CN111783850A (zh) 2020-10-16

Family

ID=72755955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010543636.6A Pending CN111783850A (zh) 2020-06-15 2020-06-15 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法

Country Status (1)

Country Link
CN (1) CN111783850A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883403A (zh) * 2021-03-18 2021-06-01 广西师范大学 一种可验证的加密图像检索隐私保护方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129451A (zh) * 2011-02-17 2011-07-20 上海交通大学 图像检索系统中数据聚类方法
WO2017176145A1 (en) * 2016-04-05 2017-10-12 Huawei Technologies Co., Ltd. Accelerated k-means clustering
CN110929169A (zh) * 2019-11-22 2020-03-27 北京网聘咨询有限公司 基于改进Canopy聚类协同过滤算法的职位推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129451A (zh) * 2011-02-17 2011-07-20 上海交通大学 图像检索系统中数据聚类方法
WO2017176145A1 (en) * 2016-04-05 2017-10-12 Huawei Technologies Co., Ltd. Accelerated k-means clustering
CN110929169A (zh) * 2019-11-22 2020-03-27 北京网聘咨询有限公司 基于改进Canopy聚类协同过滤算法的职位推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
商莹: "基于文本挖掘的生鲜电商平台网络口碑评价研究", 《万方》, 25 May 2020 (2020-05-25), pages 35 - 37 *
高亮 等: "基于Kd树改进的高效K-means聚类算法", 《计算技术与自动化》, 31 December 2015 (2015-12-31), pages 69 - 70 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883403A (zh) * 2021-03-18 2021-06-01 广西师范大学 一种可验证的加密图像检索隐私保护方法

Similar Documents

Publication Publication Date Title
Xia et al. Research on parallel adaptive canopy-k-means clustering algorithm for big data mining based on cloud platform
CN106682116B (zh) 基于Spark内存计算大数据平台的OPTICS点排序聚类方法
CN114021799A (zh) 风电场日前风电功率预测方法及系统
CN106250461A (zh) 一种基于Spark框架利用梯度提升决策树进行数据挖掘的算法
CN107705212B (zh) 一种基于粒子群随机游走的角色识别方法
CN107301328B (zh) 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN110263834B (zh) 一种新能源电能质量异常值的检测方法
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN112016175A (zh) 一种基于树状层次聚类的供水管网测压点优化布置方法
CN111815054A (zh) 基于大数据的工业蒸汽热网短期负荷预测方法
CN110942098A (zh) 一种基于贝叶斯剪枝决策树的供电服务质量分析方法
CN110544047A (zh) 一种不良数据辨识方法
CN111783850A (zh) 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法
CN113094448B (zh) 住宅空置状态的分析方法及分析装置、电子设备
CN110830291A (zh) 一种基于元路径的异质信息网络的节点分类方法
CN111985690B (zh) 一种风电基地升压站选址方法
CN112686308A (zh) 一种基于kh与fcm的低压台区归属识别方法及系统
CN113554079B (zh) 一种基于二次检测法的电力负荷异常数据检测方法及系统
CN115273645A (zh) 一种室内面要素自动聚类的地图制图方法
CN114861858A (zh) 一种路面异常数据检测方法、装置、设备及可读存储介质
Mortezanezhad et al. Big-data clustering with genetic algorithm
CN114969143A (zh) 基于数据挖掘的城市间大气污染物时空关联特征分析方法
Liu et al. Study on Chinese text clustering algorithm based on K-mean and evaluation method on effect of clustering for software-intensive system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination