CN111797899A - 一种低压台区kmeans聚类方法及系统 - Google Patents

一种低压台区kmeans聚类方法及系统 Download PDF

Info

Publication number
CN111797899A
CN111797899A CN202010502448.9A CN202010502448A CN111797899A CN 111797899 A CN111797899 A CN 111797899A CN 202010502448 A CN202010502448 A CN 202010502448A CN 111797899 A CN111797899 A CN 111797899A
Authority
CN
China
Prior art keywords
clustering
data set
bird nest
low
kmeans
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010502448.9A
Other languages
English (en)
Other versions
CN111797899B (zh
Inventor
伍栋文
俞林刚
杨爱超
刘强
舒骁骁
严勤
胡志强
祝君剑
朱亮
王珺
汤振华
姬德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Power Supply Service Management Center Of State Grid Jiangxi Electric Power Co ltd
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Original Assignee
Power Supply Service Management Center Of State Grid Jiangxi Electric Power Co ltd
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Power Supply Service Management Center Of State Grid Jiangxi Electric Power Co ltd, State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Jiangxi Electric Power Co Ltd filed Critical Power Supply Service Management Center Of State Grid Jiangxi Electric Power Co ltd
Priority to CN202010502448.9A priority Critical patent/CN111797899B/zh
Publication of CN111797899A publication Critical patent/CN111797899A/zh
Application granted granted Critical
Publication of CN111797899B publication Critical patent/CN111797899B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提出了一种低压台区kmeans聚类方法及系统。包括以下步骤:首先,依托用电信息采集系统,采集若干台区的相关电气特征参数,建立样本数据集;其次,采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;然后,基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;最后,运用t‑SNE方法对聚类结果进行降维三维分类结果显示。本发明相较于传统的kmeans聚类算法,减少了对于初始值的依赖,提高了低压台区聚类的准确性,为下一步进行典型台区的线损计算分析提供了技术支撑。

Description

一种低压台区kmeans聚类方法及系统
技术领域
本发明涉及一种数据挖掘聚类方法,具体涉及一种低压台区kmeans聚类方法及系统。
背景技术
低压台区线损是反映电力公司经营管理水平的一项重要指标。目前对于台区线损的评价主要依靠专家经验,管理缺乏针对性。传统方式计算的台区理论线损是基于线路参数得到的纯技术线损,但计算过程依赖于台区拓扑、供电半径、线路老化情况、线路长度等一系列参数数据,而实际计算中缺少分支线路参数等拓扑数据,导致不能直接沿用这种在中高压线路线损中比较成熟的算法,因此难以准确计算台区理论线损值。
台区线损分析是实现台区精益化管理的最重要途径,当前台区理论线损值存在计算难度大及台区线损评价主观化、分布式电源的接入等问题。
发明内容
本发明提出了一种低压台区kmeans聚类方法,相较于传统的kmeans聚类方法,减少了对于初始值的依赖,提高了低压台区聚类的准确性,为下一步进行典型台区的线损计算分析提供了技术支撑。
为实现上述目的,本发明实施方式的一方面提供一种低压台区kmeans聚类方法,包括以下步骤:
步骤1:依托用电信息采集系统,采集若干台区的相关电气特征参数,建立样本数据集;
步骤2:采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
步骤3:基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
步骤4:运用t-SNE方法对聚类结果进行降维三维分类结果显示。
进一步的,所述步骤1中,首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集系统提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
Figure BDA0002524922270000011
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
Figure BDA0002524922270000012
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,
Figure BDA0002524922270000021
为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
进一步的,所述步骤2运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
进一步的,所述步骤3基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
进一步的,所述步骤4运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
为实现上述目的,本发明实施方式的另一方面还提供一种低压台区kmeans聚类系统,包括:数据采集模块、降维模块、聚类模块和显示模块;
所述数据采集模块,用于依托用电信息采集系统,采集若干台区的相关电气特征参数,建立样本数据集;
所述降维模块,用于采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
所述聚类模块,用于使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
所述显示模块,用于运用t-SNE方法对聚类结果进行降维三维分类结果显示。
进一步的,还包括预处理模块,所述预处理模块首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集系统提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
Figure BDA0002524922270000031
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
Figure BDA0002524922270000032
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,
Figure BDA0002524922270000033
为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
进一步的,所述降维模块运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
进一步的,所述聚类模块使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
进一步的,所述显示模块运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
本发明的有益效果在于:
(1)本发明针对低压台区线损分析的复杂性,提出了一种基于改进布谷鸟搜索的kmeans聚类算法对影响低压台区线损的高维的电气特征参数进行聚类,降低了传统kmeans算法对于初始聚类中心的敏感度,提高了聚类的准确性。
(2)本发明提出的基于改进布谷鸟搜索的kmeans聚类算法,参数精简,自适应鸟巢淘汰概率提高了种群的多样性,改进的自适应步长增强了算法跳出局部最优解的能力。该聚类算法降低了线损数据分析的复杂性,为后续复杂环境下的低压台区线损分析提供了技术支撑,使线损分析更加精细化,提高线损管理的有效性。
附图说明
图1基于改进布谷鸟搜索的低压台区kmeans聚类方法的流程示意图;
图2最佳初始分类图;
图3 k=4的ICS-kmeans算法的适应度进化曲线;
图4 k=4的样本分类百分比;
图5 k=4的样本离散点检测图;
图6 k=4的降维分类显示图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
台区线损分析是实现台区精益化管理的最重要途径,鉴于当前台区理论线损值计算难度大及台区线损评价主观化、分布式电源的接入等问题,本发明考虑对低压台区进行聚类,并利用大数据分析方法进行复杂低压台区的线损合理值分析,为基层台区负责人进行台区线损管理时提供合理的参考值,可进一步提高低压台区的管理水平。
如图1所示为本发明方法流程图。一种低压台区kmeans聚类方法,包括以下步骤:
步骤1:从某地区用电采集系统终端提取600个台区某一天的电气特征参数(包括居民户数、居民容量、非居民户数、非居民容量、有功电量、无功电量、均方根电流、最大最小负荷电流、平均负荷率等15个电气参数),剔除异常数据,整理得到n=577个台区的电气特征参数数据集D,D∈Rn×m用于表示实数矩阵的值域;
Figure BDA0002524922270000051
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,m为电气特征参数总个数。分析数据,由于不同台区的参数有所差异,需消除统计方差的影响,故采用标准差标准化如式(2)对数据集进行归一化。
Figure BDA0002524922270000052
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,
Figure BDA0002524922270000053
为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
步骤2:由于电气特征参数有m=15维之多,对于后续数据聚类带来一定困难,因此采用主成分分析法进行降维,将15维的数据降维p=5维。其具体实施如下:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
步骤3:对降维后的数据集进行聚类分析,本发明提出的基于改进布谷鸟搜索的kmeans聚类算法对低压台区样本数据集进行聚类的具体实施如下。
(1)初始化:设定聚类参数k、最大迭代次数maxiter、鸟巢数popsize、鸟巢淘汰概率范围(Pamin,Pamax)以及步长变化范围(αmin,αmax)。每个鸟巢代表一个解即k组聚类中心的数据集合C,(C∈Rk×p)。在Z数据集中随机产生popsize个k组聚类中心作为初始鸟巢。
(2)适应度计算:依据每个鸟巢的k组聚类中心,采用基于欧几里得距离的kmeans算法进行聚类计算,并选取误差平方和SSE作为准则函数,将其定义为适应度函数用来评价每个鸟巢。
Figure BDA0002524922270000061
式中Ei为第i个聚类簇,ei为簇Ei的聚类中心。进一步采用簇内聚类好的数据均值进行各自簇聚类中心的更新。
(3)更新:对每一个鸟巢的聚类中心进行自适应levy飞行,按公式(4)更新其位置。式中
Figure BDA0002524922270000062
表示第popi个鸟巢的第t代的聚类中心组合;
Figure BDA0002524922270000063
表示第t代中最优解;
Figure BDA0002524922270000064
表示点对点乘法;α表示自适应步长控制量,如式(5)所示,其形为反正切函数,可以在算法初期以较小步长进行细搜索,在后期以较大步长帮助跳出局部最优解;L(λ)表示服从参数(1<λ≤3)的Levy分布产生的一个随机搜索向量,如式(6)所示。对新产生的鸟巢进行kmeans分类,并计算适应度函数值,保存最优鸟巢。
Figure BDA0002524922270000065
α=(αminmax)/2+(αminmax)·arctan(t-maxiter/2)/π (5)
L(λ)~u=t(1<λ≤3) (6)
(4)发现:对每个鸟巢均产生随机数rand,如果rand<Pa,则抛弃该鸟巢并重新随机产生新的鸟巢;否则,不改变鸟巢。Pa为自适应鸟巢淘汰概率,如式(7)所示,其形式同样为反正切函数,使得算法后期的淘汰概率增大,保证种群的多样性。
Pa=(Pamin+Pamax)/2+(Pamin+Pamax)·arctan(t-maxiter/2)/π (7)
(5)对新一代的鸟巢进行kmeans分类,并计算适应度函数值,保存最优鸟巢。
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
为了分析本发明提出的算法性能,从统计学角度,选取不同k值下的运行10次基于改进布谷鸟搜索的kmeans(ICS-kmeans)算法与传统kmeans算法和基本的布谷鸟kmeans聚类算法(CS-kmeans)求解本案例得到准则函数的平均值和最优值进行对比,如表1所示。表中可以看出k值较小时,ICS-kmeans算法的平均值等于或优于其他两种算法。随着k值的增大,两者平均值的差值也逐渐增大,显示了ICS-kmeans算法改善了kmeans算法依赖于初始聚类中心的缺点。最优值的对比,显示了ICS-kmeans算法跳出局部最优解的能力优于其他两种算法。
表1 kmeans、CS-kmeans和ICS-kmeans算法的求解结果对比
Figure BDA0002524922270000066
Figure BDA0002524922270000071
在实际算例中,聚类参数k值的确定可以由线损分析人员主观确定,也可以由最佳初始分类图来确定。取k=2,3,…,8,从统计学角度,运行本发明提出的聚类算法10次取其适应度函数值(即准则函数)的平均值,绘制最佳初始分类图,如图2所示。图形中,可以看出随着初始分类k的增大,准则函数下降得很快,经过拐点后,下降速度减慢。拐点就是最佳初始分类,针对本实施案例,即k=4时为最佳初始分类。
针对本实施案例,选定k=4时,设定参数max iter=100、鸟巢数popsize=20、鸟巢淘汰概率范围Pamin=0.25、Pamax=0.55以及自适应步长范围αmin=0.001、αmax=1,绘制ICS-kmeans算法的适应度进化曲线如图3所示。从图中可以看出,进化初期10代之内,算法已求解了聚类优化结果,求解效率较高。聚类算法的结果输出如图4所示。1类的样本数百分比为52%,2类的样本数百分比为6%,3类的样本数百分比为31%,4类的样本数百分比为11%。进一步,可以对聚类数据进行离散点检测,帮助管理人员分析异常数据。如设定距离阈值为10,离散点检测图如图5所示。可以看出,最远的样本点距离误差为14.0208。管理人员可以主观设置距离阈值,来筛选聚类数据,提高聚类效果。
步骤4:聚类结果的视图化能帮助管理人员直观地查看聚类效果。本实施案例采用t-SNE算法将数据投影到3维空间观察。将数据点之间的相似度转化为条件概率,原始空间中数据点的相似度由高斯联合分布表示,嵌入空间中数据点的相似度由t分布表示。通过原始空间和嵌入空间的联合概率分布的KL散度(用于评估两个分布的相似度的指标)来评估嵌入效果的好坏,即将有关KL散度的函数作为损失函数(loss function),通过梯度下降算法最小化损失函数,最终获得收敛结果。本实施案例聚类结果进行t-SNE降维后,显示结果如图6所示。
本发明实施方式的另一方面还提供一种低压台区kmeans聚类系统,包括:数据采集模块、降维模块、聚类模块和显示模块;
所述数据采集模块,用于依托用电信息采集系统,采集若干台区的相关电气特征参数,建立样本数据集;
所述降维模块,用于采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
所述聚类模块,用于使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
所述显示模块,用于运用t-SNE方法对聚类结果进行降维三维分类结果显示。
进一步的,还包括预处理模块,所述预处理模块首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集系统提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
Figure BDA0002524922270000081
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
Figure BDA0002524922270000082
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,
Figure BDA0002524922270000083
为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
进一步的,所述降维模块运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2 … Zp]构成降维后的数据集。
进一步的,所述聚类模块使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
进一步的,所述显示模块运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种低压台区kmeans聚类方法,其特征在于,包括以下步骤:
步骤1:依托用电信息采集系统,采集若干台区的相关电气特征参数,建立样本数据集;
步骤2:采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
步骤3:基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
步骤4:运用t-SNE方法对聚类结果进行降维三维分类结果显示。
2.根据权利要求1所述的一种低压台区kmeans聚类方法,其特征在于,所述步骤1中,首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集系统提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
Figure FDA0002524922260000011
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
Figure FDA0002524922260000012
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,
Figure FDA0002524922260000013
为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
3.根据权利要求2所述的一种低压台区kmeans聚类方法,其特征在于,所述步骤2运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2…Zp]构成降维后的数据集。
4.根据权利要求1所述的一种低压台区kmeans聚类方法,其特征在于,所述步骤3基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
5.根据权利要求1所述的一种低压台区kmeans聚类方法,其特征在于,所述步骤4运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
6.一种低压台区kmeans聚类系统,其特征在于,包括:数据采集模块、降维模块、聚类模块和显示模块;
所述数据采集模块,用于依托用电信息采集系统,采集若干台区的相关电气特征参数,建立样本数据集;
所述降维模块,用于采用主成分分析法对所述样本数据集进行特征提取,将高维数据集降维到低维数据集;
所述聚类模块,用于使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类;
所述显示模块,用于运用t-SNE方法对聚类结果进行降维三维分类结果显示。
7.根据权利要求6所述的一种低压台区kmeans聚类系统,其特征在于,还包括预处理模块,所述预处理模块首先将采集的相关电气特征参数中的异常数据剔除,经过异常数据处理后的用电采集系统提取的相关电气特征参数构成样本数据集D,D∈Rn×m用于表示实数矩阵的值域;
Figure FDA0002524922260000021
式中di,j为第i个台区的第j个电气特征参数,i=1,2,…,n,j=1,2,…,m,n为低压台区总个数,m为电气特征参数总个数;
对样本数据集D采用zscore标准化处理得到标准化数据集,其均值为0,标准差为1,转化公式为:
Figure FDA0002524922260000031
式中Xj为标准化后数据集X的第j列向量,X′j为原数据集的第j列向量,
Figure FDA0002524922260000032
为原数据集的第j列数据的均值,σj为原数据集的第j列数据的标准差。
8.根据权利要求7所述的一种低压台区kmeans聚类系统,其特征在于,所述降维模块运用pca主成分分析法将标准化数据集降维到n×p维:
(1)对所有样本进行中心化;
(2)计算中心化的样本的协方差矩阵XXT
(3)对协方差矩阵进行特征值分解;
(4)取最大的特征值对应的特征向量,得到特征向量矩阵W;
(5)对标准化数据X进行变换Zl=WTX,得到向量Zl,l=1,2,…p;
(6)Z=[Z1 Z2…Zp]构成降维后的数据集。
9.根据权利要求6所述的一种低压台区kmeans聚类系统,其特征在于,所述聚类模块使用基于改进布谷鸟搜索的kmeans聚类算法对所述低维数据集进行聚类分析的方法为:
(1)确定样本的聚类数目k,初始化改进布谷鸟算法各类参数,以k个随机聚类中心为1个鸟巢,对N个鸟巢初始化;
(2)依据初始化的鸟巢的聚类中心用kmeans算法进行划分聚类,以准则函数作为适应度函数,并更新聚类中心;
(3)开始迭代,对更新的鸟巢的聚类中心进行自适应步长的Levy飞行,产生新的鸟巢,计算新生成的鸟巢的适应度函数值;
(4)生成随机数,依据自适应鸟巢淘汰概率判断是否抛弃该鸟巢并重新初始化,是,抛弃该鸟巢并重新随机产生新的鸟巢,否则,不改变鸟巢;
(5)对新一代的鸟巢进行聚类划分并计算适应度函数值,选出最优鸟巢保存;
(6)如未达到最大迭代次数返回(3)继续执行,否则输出最优鸟巢代表的聚类中心点,以及所有样本数据的聚类划分。
10.根据权利要求6所述的一种低压台区kmeans聚类系统,其特征在于,所述显示模块运用t-SNE降维方法将聚类的数据样本转化为3D数据集,并显示其聚类中心及聚类结果。
CN202010502448.9A 2020-06-04 2020-06-04 一种低压台区kmeans聚类方法及系统 Active CN111797899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010502448.9A CN111797899B (zh) 2020-06-04 2020-06-04 一种低压台区kmeans聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010502448.9A CN111797899B (zh) 2020-06-04 2020-06-04 一种低压台区kmeans聚类方法及系统

Publications (2)

Publication Number Publication Date
CN111797899A true CN111797899A (zh) 2020-10-20
CN111797899B CN111797899B (zh) 2023-11-07

Family

ID=72804226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010502448.9A Active CN111797899B (zh) 2020-06-04 2020-06-04 一种低压台区kmeans聚类方法及系统

Country Status (1)

Country Link
CN (1) CN111797899B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378998A (zh) * 2021-07-12 2021-09-10 西南石油大学 一种基于机器学习的地层岩性随钻识别方法
CN114710114A (zh) * 2022-05-23 2022-07-05 北京华清未来能源技术研究院有限公司 光伏逆变器故障预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140282314A1 (en) * 2013-03-13 2014-09-18 University Of North Texas Intelligent metamodel integrated verilog-ams for fast and accurate analog block design exploration
US20170180062A1 (en) * 2006-01-31 2017-06-22 Sigma Designs, Inc. Environmental change condition detection through antenna-based sensing of environmental change
CN107169557A (zh) * 2017-05-12 2017-09-15 淮阴师范学院 一种对布谷鸟优化算法进行改进的方法
JP2017182528A (ja) * 2016-03-31 2017-10-05 株式会社デンソーウェーブ パラメータ調整装置
CN107767019A (zh) * 2017-09-11 2018-03-06 中国兵器科学研究院 一种产品可靠性鉴定的方法
US20190025813A1 (en) * 2016-05-09 2019-01-24 Strong Force Iot Portfolio 2016, Llc Methods and systems for intelligent collection and analysis of vehicle data
CN110428093A (zh) * 2019-07-19 2019-11-08 北京工商大学 基于改进的布谷鸟算法的城市轨道列车运行优化方法
CN110569316A (zh) * 2019-08-07 2019-12-13 浙江大学 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法
CN110619360A (zh) * 2019-09-09 2019-12-27 国家电网有限公司 一种考虑历史样本相似性的超短期风功率预测方法
CN111126429A (zh) * 2019-11-10 2020-05-08 国网浙江省电力有限公司 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170180062A1 (en) * 2006-01-31 2017-06-22 Sigma Designs, Inc. Environmental change condition detection through antenna-based sensing of environmental change
US20140282314A1 (en) * 2013-03-13 2014-09-18 University Of North Texas Intelligent metamodel integrated verilog-ams for fast and accurate analog block design exploration
JP2017182528A (ja) * 2016-03-31 2017-10-05 株式会社デンソーウェーブ パラメータ調整装置
US20190025813A1 (en) * 2016-05-09 2019-01-24 Strong Force Iot Portfolio 2016, Llc Methods and systems for intelligent collection and analysis of vehicle data
CN107169557A (zh) * 2017-05-12 2017-09-15 淮阴师范学院 一种对布谷鸟优化算法进行改进的方法
CN107767019A (zh) * 2017-09-11 2018-03-06 中国兵器科学研究院 一种产品可靠性鉴定的方法
CN110428093A (zh) * 2019-07-19 2019-11-08 北京工商大学 基于改进的布谷鸟算法的城市轨道列车运行优化方法
CN110569316A (zh) * 2019-08-07 2019-12-13 浙江大学 基于t-SNE降维技术和BIRCH聚类的低压台区用户拓扑辨识方法
CN110619360A (zh) * 2019-09-09 2019-12-27 国家电网有限公司 一种考虑历史样本相似性的超短期风功率预测方法
CN111126429A (zh) * 2019-11-10 2020-05-08 国网浙江省电力有限公司 一种基于PCA降维和K-Means聚类的低压台区用户接入点识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A. C. PANDEY: ""Data clustering using hybrid improved cuckoo search method"", 《2016 NINTH INTERNATIONAL CONFERENCE ON CONTEMPORARY COMPUTING (IC3)》, pages 1 - 6 *
S. YE: ""K-means clustering algorithm based on improved Cuckoo search algorithm and its application"", 《2018 IEEE 3RD INTERNATIONAL CONFERENCE ON BIG DATA ANALYSIS (ICBDA)》, pages 422 - 426 *
YU, L.等: ""An Improved Cuckoo Search Clustering Method for Line Loss Data of Transformer District with DGs"", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》, vol. 2093, no. 1, pages 012017 *
伍栋文等: ""基于ICS-K-means聚类算法和WNN的有源低压台区线损估算方法"", 《智慧电力》, vol. 50, no. 4, pages 8 - 14 *
杨辉华: ""基于自适应布谷鸟搜索算法的K-means聚类算法及其应用"", 《计算机应用》, vol. 36, no. 8, pages 5 *
王日宏: ""自适应调整的布谷鸟搜索K-均值聚类算法"", 《计算机应用研究》, vol. 35, no. 12, pages 3593 - 3597 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378998A (zh) * 2021-07-12 2021-09-10 西南石油大学 一种基于机器学习的地层岩性随钻识别方法
CN113378998B (zh) * 2021-07-12 2022-07-22 西南石油大学 一种基于机器学习的地层岩性随钻识别方法
CN114710114A (zh) * 2022-05-23 2022-07-05 北京华清未来能源技术研究院有限公司 光伏逆变器故障预测方法

Also Published As

Publication number Publication date
CN111797899B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN112037009A (zh) 一种基于随机森林算法的消费信贷场景的风险评估方法
Aliniya et al. A novel combinatorial merge-split approach for automatic clustering using imperialist competitive algorithm
CN112186761B (zh) 一种基于概率分布的风电功率场景生成方法及系统
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
CN111797899A (zh) 一种低压台区kmeans聚类方法及系统
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
CN113839926A (zh) 一种基于灰狼算法特征选择的入侵检测系统建模方法、系统及装置
CN109102008A (zh) 一种基于gpu的雷暴核识别方法
Mandal et al. Unsupervised non-redundant feature selection: a graph-theoretic approach
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
Sa’adah et al. Knowledge discovery from gene expression dataset using bagging lasso decision tree
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN111127184B (zh) 一种分布式组合信用评估方法
Lin et al. A 3D neuronal morphology classification approach based on convolutional neural networks
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Liu et al. An accurate method of determining attribute weights in distance-based classification algorithms
CN116365519B (zh) 一种电力负荷预测方法、系统、存储介质及设备
CN117435580B (zh) 一种数据库参数筛选方法及相关设备
CN116304762A (zh) 负荷的分解方法和装置
CN113723835B (zh) 火电厂用水评估方法和终端设备
CN117977573A (zh) 基于相似日聚类和深度学习的光伏短期发电功率预测方法
CN117911034A (zh) 一种信用卡异常交易检测方法及装置
CN113077011A (zh) 基于一致性聚类的基准子集选取方法、系统和存储介质
Ivakhnenko Short-Term Process Forecasting by Analogues Complexing GMDH Algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant