CN110766043A - 基于电网信息数据的K-means聚类算法 - Google Patents

基于电网信息数据的K-means聚类算法 Download PDF

Info

Publication number
CN110766043A
CN110766043A CN201910854694.8A CN201910854694A CN110766043A CN 110766043 A CN110766043 A CN 110766043A CN 201910854694 A CN201910854694 A CN 201910854694A CN 110766043 A CN110766043 A CN 110766043A
Authority
CN
China
Prior art keywords
data
clustering
power grid
grid information
information data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910854694.8A
Other languages
English (en)
Inventor
司为国
朱炯
张博
张玉鹏
赵开
郭小茜
张�浩
俞成彪
严志毅
闫宇铎
曹杰人
金仁云
宋惠忠
李骏
柳志军
唐鸣
张益军
施萌
张俊
侯伟宏
钟晓红
何可人
高瑾
吴颖
陈晨
厉律阳
徐国锋
章晨璐
朱小炜
孙远
向新宇
华玫
沈志强
朱坚
孙建军
仲从杰
毛无穷
刘磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Zhejiang Zhongxin Electric Power Engineering Construction Co Ltd
Original Assignee
Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Hangzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority to CN201910854694.8A priority Critical patent/CN110766043A/zh
Publication of CN110766043A publication Critical patent/CN110766043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本申请实施例提出了基于电网信息数据的K‑means聚类算法,包括使用手肘法对电网信息数据进行处理,推断最优分类个数;从电网信息数据中随机选取数据作为聚类中心,从剩余数据中选取数据与已选数据计算空间距离,逐个选取全部的聚类中心;基于已选的聚类中心使用K‑means算法进行更新;基于更新后的聚类中心对输出簇进行划分。通过对电网信息数据使用K‑means聚类算法,能够依靠非监督学习判断出最优分类数目,并进行数据聚类。对初始的聚类中心进行计算确定,确保最后的结果不受起始点的随机选择而变化。

Description

基于电网信息数据的K-means聚类算法
技术领域
本发明属于数据处理领域,尤其涉及基于电网信息数据的K-means聚类算法。
背景技术
建立基于无标度网络的业务风险核心因子发现与自组织小世界模型库。在外包业务的协同监督体系中,各个部门、数据、流程、资料、人员间存在时间上、流程上和关系上的复杂关联,是一种具备无标度网络特征的复杂网络,其典型特征是在网络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接。通过自组织模型库的7*24H全天候智能识别,不断验证并提取枢纽节点,枢纽节点是监督的核心所在。通过不断发现枢纽,不断增强对枢纽的监督,完善管理体系,能够有效的降低发生业务风险的概率,提高监督效率和效能。
创建典型案例的高维聚类特征库,应用小数据聚类算法,对典型案例进行无监督学习。由于典型案例库的规模比较小,且不存在大量类似样本供学习,因此从机器学习算法角度来看,样本数据是杂乱无章的。
发明内容
为了解决现有技术中存在的缺点和不足,本发明提出了基于电网信息数据的K-means聚类算法,能够依靠非监督学习判断出最优分类数目,并进行数据聚类。对初始的聚类中心进行计算确定,确保最后的结果不受起始点的随机选择而变化。
具体的,本实施例提出的基于电网信息数据的K-means聚类算法,包括:
使用手肘法对电网信息数据进行处理,推断最优分类个数;
从电网信息数据中随机选取数据作为聚类中心,从剩余数据中选取数据与已选数据计算空间距离,逐个选取全部的聚类中心;
基于已选的聚类中心使用K-means算法进行更新;
基于更新后的聚类中心对输出簇进行划分。
可选的,所述使用手肘法对电网信息数据进行处理,推断最优分类个数,包括:
计算误差平方和SSE
其中N为样本集中的样本数,C为样本集,C每次被分为i个簇,Ci是第i个簇,p是Ci中的样本点,M为均值集,mi是Ci中所有样本的均值;
将i值与计算得到的SEE值做成折线图;
选取斜率变化最大的点,所在的i值就是最佳分类的个数,最佳分类个数为k。
可选的,所述从电网信息数据中随机选取数据作为聚类中心,从剩余数据中选取数据与已选数据计算空间距离,逐个选取全部的聚类中心,包括:
步骤一,聚类中心集K,从输入的数据点集合中随机选择一个点作为第一个聚类中心μ1
步骤二,对于数据集中的每一个点xi,计算它与已选择的聚类中心中最近聚类中心的距离
Figure BDA0002197979250000022
步骤三,将得到的D(xi)递增排序,选择最大的作为新的聚类中心μt,K=K∪μt
步骤四,从步骤一开始循环,直到选择到所有聚类中心。
可选的,所述基于已选的聚类中心使用K-means算法进行更新,包括:
步骤一,样本集为X={xi|i=1,2,…,m},其中m为样本总数,簇为C={ct|t=1,2,…,k},将C初始化为ct=Φ,t=1,2,...,k。
步骤二,计算X中每一个xi和各个聚类中心ct,t=1,2,...,k的距离
Figure BDA0002197979250000031
选择dit对应的值最小的类别ct,此时更新Ct=Ct∪{xi};
步骤三,对于t=1,2,...,k,对ct中所有的样本点进行计算得出新的聚类中心
Figure BDA0002197979250000032
其中n为ct所包含的样本数。
步骤四,从步骤一开始循环,直到所有的聚类中心的位置趋于稳定。
本发明提供的技术方案带来的有益效果是:
通过对电网信息数据使用K-means聚类算法,能够依靠非监督学习判断出最优分类数目,并进行数据聚类。对初始的聚类中心进行计算确定,确保最后的结果不受起始点的随机选择而变化。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提出的基于电网信息数据的K-means聚类算法的流程示意图。
具体实施方式
为使本发明的结构和优点更加清楚,下面将结合附图对本发明的结构作进一步地描述。
实施例一
为了实现对于未整理数据的数据挖掘和信息收集,解决当前不能发现的潜在问题及其规律,本发明提供了一种电网信息数据上的K-means聚类算法,能够依靠非监督学习判断出最优分类数目,并进行数据聚类。对初始的聚类中心进行计算确定,确保最后的结果不受起始点的随机选择而变化。
参照图1,电网行业外协项目中的k-means聚类方法,包括以下步骤:
11、使用手肘法对电网信息数据进行处理,推断最优分类个数;
12、从电网信息数据中随机选取数据作为聚类中心,从剩余数据中选取数据与已选数据计算空间距离,逐个选取全部的聚类中心;
13、基于已选的聚类中心使用K-means算法进行更新;
14、基于更新后的聚类中心对输出簇进行划分。
具体的,上述聚类方法的详细流程为:
第一步:计算误差平方和,
Figure BDA0002197979250000041
其中N为样本集中的样本数,C为样本集,C每次被分为i个簇,Ci是第i个簇,p是Ci中的样本点,M为均值集,mi是Ci中所有样本的均值。
第二步:将i值与计算得到的SEE值做成折线图。
第三步:选取斜率变化最大的点,所在的i值就是最火分类的个数,最佳分类个数为k。
第四步:聚类中心集K,从输入的数据点集合中随机选择一个点作为第一个聚类中心μ1
第五步:对于数据集中的每一个点xi,计算它与已选择的聚类中心中最近聚类中心的距离D(xi),
Figure BDA0002197979250000051
第六步:将得到的D(xi)递增排序,选择最大的作为新的聚类中心μt,K=K∪μt
第七步:是否已选择到所有聚类中心,是则进行下一步,不是则回到第五步。
第八步:样本集为X={xi|i=1,2,…,m},其中m为样本总数,簇为C={ct|t=1,2,…,k},将C初始化为ct=Φ,t=1,2,...,k。
第九步:计算X中每一个xi和各个聚类中心ct,t=1,2,...,k的距离:
Figure BDA0002197979250000052
选择dit对应的值最小的类别ct。此时更新Ct=Ct∪{xi}。
第十步:对于t=1,2,...,k,对ct中所有的样本点进行计算得出新的聚类中心
Figure BDA0002197979250000053
其中n为ct所包含的样本数。
第十一步:判断所有的k个质心向量位置都已稳定不变。是则进行下一步,不是则回到第八步。
第十二步:输出簇划分。
所以需要引入小数据聚类算法,先处理数据集的特征选择或变换,采用降维技术的特征选择与特征变换。将样本库案例的特征进行提取并泛化,通过原始输入空间的属性映射到特征空间后,在特征空间内选择某些较为重要的优化特征子集,从而实现对项目库的匹配与预警。在实际分析中,为应对数据量大,且不易收敛的情况,且对聚类中心的确定对于聚类结果分析影响大的原因,决定使用k-means聚类算法,确保每一个初始聚类中心都彼此有足够的差异,用可视化的方式直观的将数据分类展示出来,给领导层决策做出可视化的数据分析结果,有助于及时调整管理,规避风险震荡。
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.基于电网信息数据的K-means聚类算法,其特征在于,所述聚类算法包括:
使用手肘法对电网信息数据进行处理,推断最优分类个数;
从电网信息数据中随机选取数据作为聚类中心,从剩余数据中选取数据与已选数据计算空间距离,逐个选取全部的聚类中心;
基于已选的聚类中心使用K-means算法进行更新;
基于更新后的聚类中心对输出簇进行划分。
2.根据权利要求1所述的基于电网信息数据的K-means聚类算法,其特征在于,所述使用手肘法对电网信息数据进行处理,推断最优分类个数,包括:
计算误差平方和SSE
Figure FDA0002197979240000011
其中N为样本集中的样本数,C为样本集,C每次被分为i个簇,Ci是第i个簇,p是Ci中的样本点,M为均值集,mi是Ci中所有样本的均值;
将i值与计算得到的SEE值做成折线图;
选取斜率变化最大的点,所在的i值就是最佳分类的个数,最佳分类个数为k。
3.根据权利要求1所述的基于电网信息数据的K-means聚类算法,其特征在于,所述从电网信息数据中随机选取数据作为聚类中心,从剩余数据中选取数据与已选数据计算空间距离,逐个选取全部的聚类中心,包括:
步骤一,聚类中心集K,从输入的数据点集合中随机选择一个点作为第一个聚类中心μ1
步骤二,对于数据集中的每一个点xi,计算它与已选择的聚类中心中最近聚类中心的距离D(xi)
Figure FDA0002197979240000021
步骤三,将得到的D(xi)递增排序,选择最大的作为新的聚类中心μt,K=K∪μt
步骤四,从步骤一开始循环,直到选择到所有聚类中心。
4.根据权利要求1所述的基于电网信息数据的K-means聚类算法,其特征在于,所述基于已选的聚类中心使用K-means算法进行更新,包括:
步骤一,样本集为X={xi|i=1,2,...,m},其中m为样本总数,簇为C={ct|t=1,2,...,k},将C初始化为ct=Φ,t=1,2,...,k;
步骤二,计算X中每一个xi和各个聚类中心ct,t=1,2,...,k的距离
Figure FDA0002197979240000022
选择dit对应的值最小的类别ct,此时更新Ct=Ct∪{xi};
步骤三,对于t=1,2,...,k,对ct中所有的样本点进行计算得出新的聚类中心
Figure FDA0002197979240000023
其中n为ct所包含的样本数;
步骤四,从步骤一开始循环,直到所有的聚类中心的位置趋于稳定。
CN201910854694.8A 2019-09-10 2019-09-10 基于电网信息数据的K-means聚类算法 Pending CN110766043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854694.8A CN110766043A (zh) 2019-09-10 2019-09-10 基于电网信息数据的K-means聚类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854694.8A CN110766043A (zh) 2019-09-10 2019-09-10 基于电网信息数据的K-means聚类算法

Publications (1)

Publication Number Publication Date
CN110766043A true CN110766043A (zh) 2020-02-07

Family

ID=69329588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854694.8A Pending CN110766043A (zh) 2019-09-10 2019-09-10 基于电网信息数据的K-means聚类算法

Country Status (1)

Country Link
CN (1) CN110766043A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159516A (zh) * 2021-03-24 2021-07-23 国网浙江省电力有限公司宁波供电公司 一种基于电网运行数据的三维可视化信息分析系统
CN113281657A (zh) * 2021-05-21 2021-08-20 张家港清研检测技术有限公司 一种智能评估退役电池余能分类和梯次利用方法
CN113301600A (zh) * 2021-07-27 2021-08-24 南京中网卫星通信股份有限公司 卫星与无线通信融合网络性能的异常数据检测方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214084A (zh) * 2018-09-03 2019-01-15 国网浙江省电力有限公司舟山供电公司 孔压静力触探海底土层划分方法及系统
CN109871412A (zh) * 2018-12-26 2019-06-11 航天科工广信智能技术有限公司 基于K-Means聚类的车道流量分析方法
CN110070048A (zh) * 2019-04-23 2019-07-30 山东建筑大学 基于双次K-means聚类的设备类型识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214084A (zh) * 2018-09-03 2019-01-15 国网浙江省电力有限公司舟山供电公司 孔压静力触探海底土层划分方法及系统
CN109871412A (zh) * 2018-12-26 2019-06-11 航天科工广信智能技术有限公司 基于K-Means聚类的车道流量分析方法
CN110070048A (zh) * 2019-04-23 2019-07-30 山东建筑大学 基于双次K-means聚类的设备类型识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159516A (zh) * 2021-03-24 2021-07-23 国网浙江省电力有限公司宁波供电公司 一种基于电网运行数据的三维可视化信息分析系统
CN113159516B (zh) * 2021-03-24 2023-07-14 国网浙江省电力有限公司宁波供电公司 一种基于电网运行数据的三维可视化信息分析系统
CN113281657A (zh) * 2021-05-21 2021-08-20 张家港清研检测技术有限公司 一种智能评估退役电池余能分类和梯次利用方法
CN113301600A (zh) * 2021-07-27 2021-08-24 南京中网卫星通信股份有限公司 卫星与无线通信融合网络性能的异常数据检测方法和装置
WO2023004899A1 (zh) * 2021-07-27 2023-02-02 南京中网卫星通信股份有限公司 卫星与无线通信融合网络性能的异常数据检测方法和装置

Similar Documents

Publication Publication Date Title
Ali et al. A novel design of differential evolution for solving discrete traveling salesman problems
CN110766043A (zh) 基于电网信息数据的K-means聚类算法
Masoud et al. Dynamic clustering using combinatorial particle swarm optimization
Cai et al. A clustering-ranking method for many-objective optimization
WO2018166270A2 (zh) 一种基于指标和方向向量相结合的多目标优化方法及系统
Chen et al. DensityPath: an algorithm to visualize and reconstruct cell state-transition path on density landscape for single-cell RNA sequencing data
Yang et al. Linearly decreasing weight particle swarm optimization with accelerated strategy for data clustering
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
Chang et al. A genetic clustering algorithm using a message-based similarity measure
Liu et al. A novel CBR system for numeric prediction
Ni et al. A novel ensemble pruning approach based on information exchange glowworm swarm optimization and complementarity measure
CN116701979A (zh) 基于受限k-均值的社交网络数据分析方法及系统
Chiu et al. Applying artificial immune system and ant algorithm in air-conditioner market segmentation
Mehdizadeh et al. A combined approach based on k-means and modified electromagnetism-like mechanism for data clustering
Li et al. Optimizing combination of aircraft maintenance tasks by adaptive genetic algorithm based on cluster search
Wan et al. Dgs: Communication-efficient graph sampling for distributed gnn training
CN114511905A (zh) 一种基于图卷积神经网络的人脸聚类方法
Aljibawi et al. A survey on clustering density based data stream algorithms
Yang et al. Representation and assessment of spatial design using a hierarchical graph neural network: Classification of shopping center types
CN112418987B (zh) 交通运输单位信用评级方法、系统、电子设备及存储介质
CN111816259B (zh) 基于网络表示学习的不完整多组学数据集成方法
Zheng et al. Towards improving community detection in complex networks using influential nodes
Davarynejad et al. Accelerating convergence towards the optimal pareto front
Abualigah et al. Boosting moth-flame optimization algorithm by arithmetic optimization algorithm for data clustering
Wang et al. Rapid Trend Prediction for Large-Scale Cloud Database KPIs by Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200929

Address after: 310000, No. 219, Jianguo Middle Road, Shangcheng District, Zhejiang, Hangzhou

Applicant after: HANGZHOU POWER SUPPLY COMPANY, STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

Applicant after: ZHEJIANG ZHONGXIN ELECTRIC POWER ENGINEERING CONSTRUCTION Co.,Ltd.

Address before: 310000, No. 219, Jianguo Middle Road, Shangcheng District, Zhejiang, Hangzhou

Applicant before: HANGZHOU POWER SUPPLY COMPANY, STATE GRID ZHEJIANG ELECTRIC POWER Co.,Ltd.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207