CN114462538A - 基于kmeans的电网异常设备检测方法及装置 - Google Patents

基于kmeans的电网异常设备检测方法及装置 Download PDF

Info

Publication number
CN114462538A
CN114462538A CN202210125407.1A CN202210125407A CN114462538A CN 114462538 A CN114462538 A CN 114462538A CN 202210125407 A CN202210125407 A CN 202210125407A CN 114462538 A CN114462538 A CN 114462538A
Authority
CN
China
Prior art keywords
cluster
basic
power grid
clustering
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210125407.1A
Other languages
English (en)
Inventor
周安
杨云帆
付佳佳
黄浩
王云
张桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202210125407.1A priority Critical patent/CN114462538A/zh
Publication of CN114462538A publication Critical patent/CN114462538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了基于kmeans的电网异常设备检测方法及装置,该检测方法通过构建电网数据集的第一基本簇,并以第一基本簇为基础对电网数据集进行聚类,得到第一聚类簇;在聚类过程中依次判断所述电网数据集中的第一数据点所属的第一基本簇或判断所述第一数据点为异常数据点,并根据所述异常数据点查找对应的异常设备;对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。本发明技术方案提高了针对异常智能电网设备的精准检测。

Description

基于kmeans的电网异常设备检测方法及装置
技术领域
本发明涉及智能电网异常设备检测技术领域,尤其涉及基于kmeans的电网异常设备检测方法及装置。
背景技术
由于信息化和智能化的需要,传统的电网物理系统在向智能电网演化的过程中,人们引进计算、通信、控制3C(Computing、Communication、Control)技术,以实现智能电网系统的自我感知、精确控制、远程协作与优化调度,使系统更加灵活、高效、经济与智能,导致电网物理系统与信息系统的紧密融合,进而使得智能电网系统的运行环境由封闭和隔离变得开放和互联。智能电网信息系统与物理系统的有机融合,在改善智能电网运行效率的同时,同样为攻击者提供了新的攻击渠道,使得智能电网更有可能面临来自恶意内部人员或敌对国家竞争对手的攻击。近年来的一系列信息安全事件充分证实了智能电网的脆弱性,亟需一种新的智能电网异常设备检测方法,基于智能电网设备量测数据,检测存在异常的电网设备,为智能电网防御安全攻击,提供帮助。现有的k-means及其改进方法,只是简单依据点与簇中心的最大相似度,决定该点所属的簇,因此,现有技术存在针对异常设备的检测效率低和检测结果不精准的问题。
发明内容
本发明提供一种基于kmeans的电网异常设备检测方法及装置,提高了针对异常智能电网设备的精准检测。
本发明一实施例提供一种基于kmeans的电网异常设备检测方法,包括以下步骤:
获取电网数据集,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇;所述K为正整数;
以所述第一基本簇为基础对所述电网数据集进行聚类,得到M个第一聚类簇;在所述聚类过程中依次判断所述电网数据集中的第一数据点所属的第一基本簇或判断所述第一数据点为异常数据点,并根据所述异常数据点查找对应的异常设备;所述M为正整数;
对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。
进一步的,以所述第一基本簇为基础对所述电网数据集进行聚类,包括以下步骤:
根据所述K个第一基本簇构建K个基础点集;
针对所述电网数据集中的第一数据点,依次计算各个所述第一数据点相对于各个第一基本簇的预测选择率,并将所述预测选择率最大的第一基本簇记为第二基本簇;
计算所述第二基本簇的平均相似度和所述第一数据点相对于各个基础点集属于所述第二基本簇的第二概率的平均值,所述平均相似度为第二基本簇的中心点和所述第二基本簇的其他数据点之间的平均相似度;
根据所述平均相似度和第二概率的平均值判断所述第一数据点属于第二基本簇或判断所述第一数据点为异常数据点。
进一步的,根据所述平均相似度和第二概率的平均值判断所述第一数据点是否为异常数据点,具体为:
判断所述平均相似度是否小于等于所述第二概率的平均值的预设倍数,若是,则判断所述第一数据点属于所述第二基本簇;若否,则判断所述第一数据点为异常数据点。
进一步的,根据所述K个第一基本簇构建K个基础点集,具体为:
每次从所述K个基本簇中各选取一个第二数据点,并使得本次选取的各个第二数据点之间的距离最大,将每次选取的K个第二数据点组合形成一个基础点集,共选取K次,得到K个基础点集。
进一步的,依次计算各个所述第一数据点相对于各个第一基本簇的预测选择率,具体为:
每次从当前电网数据集中选择一个第一数据点,计算所述第一数据点相对于每个基础点集属于各个第一基本簇的第一概率;所述电网数据集为本次聚类后删除所述各个第一基本簇的数据后得到的当前电网数据集;
根据所述第一概率的计算结果,统计使得所述第一概率最大的基础点集的数量;
根据所述第一概率和数量,计算所述第一数据点属于各个第一基本簇的预测选择率。
进一步的,根据公式
Figure BDA0003500186560000031
计算所述第一数据点相对于每个基础点集属于各个第一基本簇的第一概率;式中xt为所述第一数据点,Cj{j=1,2,…,k}为所述第一基本簇,Gs(s=1,2,…,k)为所述基础点集,
Figure BDA0003500186560000032
为基础点集Gs中的相应数据点,
Figure BDA0003500186560000033
表示xt
Figure BDA0003500186560000034
之间归一化的相似性。
进一步的,根据公式
Figure BDA0003500186560000035
计算所述第一数据点属于各个第一基本簇的预测选择率;式中
Figure BDA0003500186560000036
#{p(Cj|Gs)|s=1,2,…,k}为使得所述第一概率最大的基础点集的数量,k表示所述第一基本簇或基础点集的数量,p(Cj|Gi)为所述第一概率,Cj{j=1,2,…,k}为所述第一基本簇,Gs(s=1,2,…,k)为所述基础点集。
进一步的,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇,具体为:
生成第一基本簇:计算当前电网数据集的均值点,从所述当前电网数据集选取一个与所述均值点最近的数据点作为中心点,再从所述当前电网数据集中选取所述中心点的K-1个近邻和所述中心点一起形成第一基本簇,从所述当前电网数据集中删除所述第一基本簇中的电网数据;
重复执行所述生成第一基本簇的过程,直到得到K个第一基本簇。
进一步的,以所述K个第一基本簇为基础对所述电网数据集进行聚类时,对各个第一基本簇的元素数量进行判断,当所述第一基本簇的元素数量少于第二预设阈值时,将所述第一基本簇的各个数据点设置为第一数据点,并将所述第一数据点分配至其他第一基本簇或将所述第一数据点判断为异常数据点,再删除所述第一基本簇,得到M个第一聚类簇。
本发明另一实施例提供了一种基于kmeans的电网异常设备检测装置,包括基本簇构建模块、异常检测模块和聚类结果检测模块;
所述基本簇构建模块用于获取电网数据集,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇;
所述异常检测模块用于以所述第一基本簇为基础对所述电网数据集进行聚类,得到M个第一聚类簇;在所述聚类过程中依次判断所述电网数据集中的第一数据点所属的第一基本簇或判断所述第一数据点为异常数据点,并根据所述异常数据点查找对应的异常设备;所述K和M为正整数;
所述聚类结果检测模块用于对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。
本发明的实施例,具有如下有益效果:
本发明提供了一种基于kmeans的电网异常设备检测方法及装置,该方法通过依次选取k个相互欧式距离最远的数据点为簇中心,再依次选取与簇中心最近的k-1个近邻,构成k个基本簇。然后从基本簇中依次选取相互距离最远的k个点构成基础点集,再计算其它数据点与k个基础点集中点的相似度,进而得到该数据点属于各个簇的概率,将其进行有机融合,综合该点与各个簇的相似度,确定该数据点所属的簇。现有的k-means及其改进方法,只是简单依据点与簇中心的最大相似度,决定该点所属的簇。相比于现有k-means及其改进方法,本发明综合了数据点与多个簇的多个点的相似度来确定该数据点所属的簇,可以得到较为准确的聚类结果,提高了检测异常电网设备的准确率。
附图说明
图1是本发明一实施例提供的基于kmeans的电网异常设备检测方法的流程示意图;
图2是本发明一实施例提供的基于kmeans的电网异常设备检测装置的结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供的一种基于kmeans的电网异常设备检测方法,包括:
步骤S101:获取电网数据集,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇。
作为其中一种实施例,步骤S101包括以下子步骤:
子步骤S1011:生成第一基本簇:计算当前电网数据集的均值点,从所述当前电网数据集选取一个与所述均值点最近的数据点作为中心点,再从所述当前电网数据集中选取所述中心点的K-1个近邻和所述中心点一起形成第一基本簇,从所述当前电网数据集中删除所述第一基本簇中的电网数据。
子步骤S1012:重复执行所述生成第一基本簇的过程,直到得到K个第一基本簇。
步骤S102:以所述第一基本簇为基础对所述电网数据集进行聚类,得到M个第一聚类簇;在所述聚类过程中依次判断所述电网数据集中的第一数据点所属的第一基本簇或判断所述第一数据点为异常数据点,并根据所述异常数据点查找对应的异常设备;所述K和M为正整数。
作为其中一种实施例,步骤S102包括以下子步骤:
子步骤S1021:根据所述K个第一基本簇构建K个基础点集。
作为其中一种实施例,子步骤S1021具体为:每次从所述K个基本簇中各选取一个第二数据点,并使得本次选取的各个第二数据点之间的距离最大,将每次选取的K个第二数据点组合形成一个基础点集,共选取K次,得到K个基础点集。
子步骤S1022:针对所述电网数据集中的第一数据点,依次计算各个所述第一数据点相对于各个第一基本簇的预测选择率,并将所述预测选择率最大的第一基本簇记为第二基本簇。
作为其中一种实施例,依次计算各个所述第一数据点相对于各个第一基本簇的预测选择率,具体为:
每次从当前电网数据集中选择一个第一数据点,计算所述第一数据点相对于每个基础点集属于各个第一基本簇的第一概率;所述电网数据集为本次聚类后删除所述各个第一基本簇的数据后得到的当前电网数据集;
根据所述第一概率的计算结果,统计使得所述第一概率最大的基础点集的数量;
根据所述第一概率和数量,计算所述第一数据点属于各个第一基本簇的预测选择率。
作为其中一种实施例,根据公式
Figure BDA0003500186560000071
计算所述第一数据点相对于每个基础点集属于各个第一基本簇的第一概率;式中xt为所述第一数据点,Cj{j=1,2,…,k}为所述第一基本簇,Gs(s=1,2,…,k)为所述基础点集,
Figure BDA0003500186560000072
为基础点集Gs中的相应数据点,
Figure BDA0003500186560000073
表示xt
Figure BDA0003500186560000074
之间归一化的相似性。
作为其中一种实施例,根据公式
Figure BDA0003500186560000075
计算所述第一数据点属于各个第一基本簇的预测选择率;式中
Figure BDA0003500186560000076
#{p(Cj|Gs)|s=1,2,…,k}为使得所述第一概率最大的基础点集的数量,k表示所述第一基本簇或基础点集的数量,p(Cj|Gi)为所述第一概率,Cj{j=1,2,…,k}为所述第一基本簇,Gs(s=1,2,…,k)为所述基础点集。
子步骤S1023:计算所述第二基本簇的平均相似度和所述第一数据点相对于各个基础点集属于所述第二基本簇的第二概率的平均值,所述平均相似度为第二基本簇的中心点和所述第二基本簇的其他数据点之间的平均相似度。
子步骤S1024:根据所述平均相似度和第二概率的平均值判断所述第一数据点属于第二基本簇或判断所述第一数据点为异常数据点。具体地,判断所述平均相似度是否小于等于所述第二概率的平均值的预设倍数,若是,则判断所述第一数据点属于所述第二基本簇;若否,则判断所述第一数据点为异常数据点。
步骤S103:对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。
作为其中一种实施例,以所述K个第一基本簇为基础对所述电网数据集进行聚类时,对各个第一基本簇的元素数量进行判断,当所述第一基本簇的元素数量少于第二预设阈值时,将所述第一基本簇的各个数据点设置为第一数据点,并将所述第一数据点分配至其他第一基本簇或将所述第一数据点判断为异常数据点,再删除所述第一基本簇,将完成聚类的第一基本簇记为第一聚类簇,即得到M个第一聚类簇。
作为其中一种详细的实施例,包括以下步骤:
步骤A101:将获取的电网数据集记为X={x1,x2,…,xN}T,计算X的均值点
Figure BDA0003500186560000081
在X中首先选取与所述均值点欧式距离最近的数据点作为中心点,再在X中选取与所述中心点欧式距离最近的K-1个近邻,构成一个第一基本簇BC1
每构建一个第一基本簇后,从所述电网数据集中移除与所述第一基本簇的数据点相同的数据点,得到当前电网数据集即X=X-{BC1},再重复上述构建第一基本簇的过程,直至构建K个第一基本簇。
步骤A102:从构建的第一基本簇BCj(j=1,2,…,k)中任选一点
Figure BDA0003500186560000082
使得
Figure BDA0003500186560000083
与已经从第一基本簇中选取的其它点
Figure BDA0003500186560000084
的欧式距离和最大,令
Figure BDA0003500186560000085
迭代此过程,获得基础点集
Figure BDA0003500186560000086
每次从所述K个基本簇BCj(j=1,2,…,k)中各选取一个第二数据点
Figure BDA0003500186560000087
并使得本次选取的各个第二数据点之间的欧式距离最大(即欧氏距离和最大),将每次选取的K个第二数据点组合形成一个基础点集,共选取K次,得到K个基础点集
Figure BDA0003500186560000088
根据所述第一基本簇和基础点集构建以下矩阵:
Figure BDA0003500186560000091
步骤A103:判断
Figure BDA0003500186560000092
是否为空,若为空则表示所述电网数据集中的所有数据点均完成聚类。若不为空,则针对所述电网数据集中的第一数据点,依次计算各个所述第一数据点相对于各个第一基本簇的预测选择率,并将所述预测选择率最大的第一基本簇记为第三基本簇,所述第一数据点为所述电网数据中删除各个第一基本簇的数据点后选取的数据点。
步骤A1031:选取第一数据点xt,计算xt与各个第一基本簇BCj(j=1,2,…,k)中的点之间的相似性,记为
Figure BDA0003500186560000093
其中
Figure BDA0003500186560000094
1≤s≤k。将计算得到相似性进行归一化,即
Figure BDA0003500186560000095
将第一基本簇BCj{j=1,2,…,k}记为Cj
步骤A1032:基于xt与基础点集Gs(s=1,2,…,k)中点的相似性,计算xt属于第一基本簇Cj{j=1,2,…,k}的归一化相似性,即计算所述第一数据点相对于每个基础点集属于各个第一基本簇的第一概率
Figure BDA0003500186560000096
计算结果如下表所示:
C<sub>1</sub> C<sub>2</sub> C<sub>j</sub> C<sub>k</sub>
G<sub>1</sub> p(C<sub>1</sub>|G<sub>1</sub>) p(C<sub>2</sub>|G<sub>1</sub>) p(C<sub>j</sub>|G<sub>1</sub>) p(C<sub>k</sub>|G<sub>1</sub>)
G<sub>2</sub> p(C<sub>1</sub>|G<sub>2</sub>) p(C<sub>2</sub>|G<sub>2</sub>) p(C<sub>j</sub>|G<sub>2</sub>) p(C<sub>k</sub>|G<sub>2</sub>)
G<sub>s</sub> p(C<sub>1</sub>|G<sub>s</sub>) p(C<sub>2</sub>|G<sub>s</sub>) p(C<sub>j</sub>|G<sub>s</sub>) p(C<sub>k</sub>|G<sub>s</sub>)
G<sub>k</sub> p(C<sub>1</sub>|G<sub>k</sub>) p(C<sub>2</sub>|G<sub>k</sub>) p(C<sub>j</sub>|G<sub>k</sub>) p(C<sub>k</sub>|G<sub>k</sub>)
式中,
Figure BDA0003500186560000101
表示xt
Figure BDA0003500186560000102
之间归一化的相似性。
若所述第一数据点xt相对于基础点集Gs属于第一基本簇C1的点的第一概率(即归一化相似性)计算为:0.125、0.25、0.375、0.5、0.625、0.75、0.875,则第一数据点xt相对于基础点集Gs属于簇C1的第一概率(即归一化相似性)计算为:
Figure BDA0003500186560000103
同理对每一个基础点集Gs(s=1,2,…,k)相对于每一个第一基本簇Cj{j=1,2,…,k},计算
Figure BDA0003500186560000104
并计算
Figure BDA0003500186560000105
#{p(Cj|Gs)|s=1,2,…,k}为使得所述第一概率最大的基础点集的数量。
步骤A1033:根据公式
Figure BDA0003500186560000106
计算所述第一数据点xt属于各个第一基本簇的预测选择率ps(Cj)。
例如,第一数据点相对于基础点集Gs(s=1,2,3)属于第一基本簇Cj{j=1,2,3}的第一概率(即归一化相似性)如下表所示:
C<sub>1</sub> C<sub>2</sub> C<sub>3</sub> 最大值
G<sub>1</sub> 0.1000 0.4000 0.5000 0.500
G<sub>2</sub> 0.1538 0.3846 0.4615 0.4615
G<sub>3</sub> 0.1875 0.4375 0.3750 0.4375
Figure BDA0003500186560000107
p(C1)=0;
ps(C1)=0,
Figure BDA0003500186560000108
Figure BDA0003500186560000109
将所述预测选择率最大的第一基本簇记为第二基本簇。
步骤A104:计算所述第三基本簇
Figure BDA00035001865600001010
的中心点与其它点之间的平均相似度,记为
Figure BDA00035001865600001011
计算第一数据点相对于各个基础点集属于所述第三基本簇的第二概率的平均值As,即计算第一数据点与所述第二基本簇中点的归一化相似性的平均值
Figure BDA0003500186560000111
为第二基本簇。
步骤A105:根据所述平均相似度和第二概率的平均值判断所述第一数据点属于第二基本簇或判断所述第一数据点为异常数据点。具体地,当判断所述平均相似度是否小于等于所述第二概率的平均值的预设倍数,若是,则判断所述第一数据点属于所述第二基本簇;若否,则判断所述第一数据点为异常数据点。即若
Figure BDA0003500186560000112
成立则所述第一数据点属于所述第二基本簇,若不成立则xt为异常数据点。
步骤A106:对所有的第一数据点完成判断后,对聚类得到的各个第一基本簇中的元素数量进行判断,当所述第一基本簇的元素数量少于第二预设阈值时,将所述第一基本簇的各个数据点设置为第一数据点,并将所述第一数据点分配至其他第一基本簇或将所述第一数据点判断为异常数据点,再删除所述第一基本簇。将剩下的所述第一基本簇记为第一聚类簇,即得到M个第一聚类簇。
步骤A107:对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。
具体地,对聚类得到的M个第一聚类簇Ct(1≤t≤m),根据公式
Figure BDA0003500186560000113
计算其聚集程度,根据公式WSS-WSS′<α判断本次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇的聚集程度的差值是否小于第一预设阈值;若是,则结束聚类,若否,则对聚类得到的M个第一聚类簇Ct(1≤t≤m),计算其均值点
Figure BDA0003500186560000114
将第一聚类簇Ct中与
Figure BDA0003500186560000115
欧式距离最近的点选为簇中心,再在相应的第一聚类簇中选取与所述簇中心欧式距离最近的m-1点作为近邻,构成m个第一基本簇,重复步骤A102-A106,直到WSS-WSS′<α,结束聚类;其中WSS′为上一次聚类后得到的第一聚类簇的聚集程度,WSS为本次聚类后得到的第一聚类簇的聚集程度。所述基本簇为聚类前的簇,所述聚类簇为聚类完成后的簇。
本发明实施例综合了数据点与多个簇的多个点的相似度来确定该数据点所属的簇,可以得到较为准确的聚类结果,提高了检测异常电网设备的准确率。本发明实施例通过依次选取k个相互欧式距离最远的数据点为簇中心,再依次选取与簇中心最近的k-1个近邻,构成k个基本簇。然后从基本簇中依次选取相互距离最远的k个点构成基础点集,再计算其它数据点与k个基础点集中点的相似度,进而得到该数据点属于各个簇的概率,将其进行有机融合,综合该点与各个簇的相似度,确定该数据点所属的簇。现有的k-means及其改进方法,只是简单依据点与簇中心的最大相似度,决定该点所属的簇。相比于现有k-means及其改进方法,本发明实施例综合了数据点与多个簇的多个点的相似度来确定该点所属的簇,可以较为准确地确定数据点所属的簇,同时也可发现较为复杂的簇,如密度不同的球星簇等,进而可以精准地检测到异常设备。
如图2所示,本发明另一实施例提供了基于kmeans的电网异常设备检测装置,包括基本簇构建模块、异常检测模块和聚类结果检测模块;
所述基本簇构建模块用于获取电网数据集,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇;
所述异常检测模块用于以所述第一基本簇为基础对所述电网数据集进行聚类,得到M个第一聚类簇;在所述聚类过程中依次判断所述电网数据集中的第一数据点所属的第一基本簇或判断所述第一数据点为异常数据点,并根据所述异常数据点查找对应的异常设备;所述K和M为正整数;
所述聚类结果检测模块用于对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。
为描述的方便和简洁,本装置实施例的基于kmeans的电网异常设备检测装置包括上述基于kmeans的电网异常设备检测方法实施例中的全部实施方式,此处不再赘述。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

Claims (10)

1.一种基于kmeans的电网异常设备检测方法,其特征在于,包括以下步骤:
获取电网数据集,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇;所述K为正整数;
以所述第一基本簇为基础对所述电网数据集进行聚类,得到M个第一聚类簇;在所述聚类过程中依次判断所述电网数据集中的第一数据点所属的第一基本簇或判断所述第一数据点为异常数据点,并根据所述异常数据点查找对应的异常设备;所述M为正整数;
对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。
2.根据权利要求1所述的基于kmeans的电网异常设备检测方法,其特征在于,以所述第一基本簇为基础对所述电网数据集进行聚类,包括以下步骤:
根据所述K个第一基本簇构建K个基础点集;
针对所述电网数据集中的第一数据点,依次计算各个所述第一数据点相对于各个第一基本簇的预测选择率,并将所述预测选择率最大的第一基本簇记为第二基本簇;
计算所述第二基本簇的平均相似度和所述第一数据点相对于各个基础点集属于所述第二基本簇的第二概率的平均值,所述平均相似度为第二基本簇的中心点和所述第二基本簇的其他数据点之间的平均相似度;
根据所述平均相似度和第二概率的平均值判断所述第一数据点属于第二基本簇或判断所述第一数据点为异常数据点。
3.根据权利要求2所述的基于kmeans的电网异常设备检测方法,其特征在于,根据所述平均相似度和第二概率的平均值判断所述第一数据点是否为异常数据点,具体为:
判断所述平均相似度是否小于等于所述第二概率的平均值的预设倍数,若是,则判断所述第一数据点属于所述第二基本簇;若否,则判断所述第一数据点为异常数据点。
4.根据权利要求3所述的基于kmeans的电网异常设备检测方法,其特征在于,根据所述K个第一基本簇构建K个基础点集,具体为:
每次从所述K个基本簇中各选取一个第二数据点,并使得本次选取的各个第二数据点之间的距离最大,将每次选取的K个第二数据点组合形成一个基础点集,共选取K次,得到K个基础点集。
5.根据权利要求4所述的基于kmeans的电网异常设备检测方法,其特征在于,依次计算各个所述第一数据点相对于各个第一基本簇的预测选择率,具体为:
每次从当前电网数据集中选择一个第一数据点,计算所述第一数据点相对于每个基础点集属于各个第一基本簇的第一概率;所述电网数据集为本次聚类后删除所述各个第一基本簇的数据后得到的当前电网数据集;
根据所述第一概率的计算结果,统计使得所述第一概率最大的基础点集的数量;
根据所述第一概率和数量,计算所述第一数据点属于各个第一基本簇的预测选择率。
6.根据权利要求5所述的基于kmeans的电网异常设备检测方法,其特征在于,根据公式
Figure FDA0003500186550000021
计算所述第一数据点相对于每个基础点集属于各个第一基本簇的第一概率;式中xt为所述第一数据点,Cj{j=1,2,…,k}为所述第一基本簇,Gs(s=1,2,…,k)为所述基础点集,
Figure FDA0003500186550000031
为基础点集Gs中的相应数据点,
Figure FDA0003500186550000032
表示xt
Figure FDA0003500186550000033
之间归一化的相似性。
7.根据权利要求6所述的基于kmeans的电网异常设备检测方法,其特征在于,根据公式
Figure FDA0003500186550000034
计算所述第一数据点属于各个第一基本簇的预测选择率;式中
Figure FDA0003500186550000035
为使得所述第一概率最大的基础点集的数量,k表示所述第一基本簇或基础点集的数量,p(Cj|Gi)为所述第一概率,Cj{j=1,2,…,k}为所述第一基本簇,Gs(s=1,2,…,k)为所述基础点集。
8.根据权利要求7所述的基于kmeans的电网异常设备检测方法,其特征在于,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇,具体为:
生成第一基本簇:计算当前电网数据集的均值点,从所述当前电网数据集选取一个与所述均值点最近的数据点作为中心点,再从所述当前电网数据集中选取所述中心点的K-1个近邻和所述中心点一起形成第一基本簇,从所述当前电网数据集中删除所述第一基本簇中的电网数据;
重复执行所述生成第一基本簇的过程,直到得到K个第一基本簇。
9.根据权利要求1至8任一项所述的基于kmeans的电网异常设备检测方法,其特征在于,以所述K个第一基本簇为基础对所述电网数据集进行聚类时,对各个第一基本簇的元素数量进行判断,当所述第一基本簇的元素数量少于第二预设阈值时,将所述第一基本簇的各个数据点设置为第一数据点,并将所述第一数据点分配至其他第一基本簇或将所述第一数据点判断为异常数据点,再删除所述第一基本簇,得到M个第一聚类簇。
10.一种基于kmeans的电网异常设备检测装置,其特征在于,包括基本簇构建模块、异常检测模块和聚类结果检测模块;
所述基本簇构建模块用于获取电网数据集,根据所述电网数据集的K个中心点,选取每个所述中心点的K-1个近邻构成K个第一基本簇;
所述异常检测模块用于以所述第一基本簇为基础对所述电网数据集进行聚类,得到M个第一聚类簇;在所述聚类过程中依次判断所述电网数据集中的第一数据点所属的第一基本簇或判断所述第一数据点为异常数据点,并根据所述异常数据点查找对应的异常设备;所述K和M为正整数;
所述聚类结果检测模块用于对每次聚类后得到的第一聚类簇与上一次聚类后得到的第一聚类簇进行聚集程度比较,当两者的聚集程度的差值小于第一预设阈值时结束聚类,当两者的差值大于等于第一预设阈值时根据所述第一聚类簇构建第一基本簇,并重新以第一基本簇为基础进行聚类。
CN202210125407.1A 2022-02-10 2022-02-10 基于kmeans的电网异常设备检测方法及装置 Pending CN114462538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210125407.1A CN114462538A (zh) 2022-02-10 2022-02-10 基于kmeans的电网异常设备检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210125407.1A CN114462538A (zh) 2022-02-10 2022-02-10 基于kmeans的电网异常设备检测方法及装置

Publications (1)

Publication Number Publication Date
CN114462538A true CN114462538A (zh) 2022-05-10

Family

ID=81412646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210125407.1A Pending CN114462538A (zh) 2022-02-10 2022-02-10 基于kmeans的电网异常设备检测方法及装置

Country Status (1)

Country Link
CN (1) CN114462538A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742178A (zh) * 2022-06-10 2022-07-12 航天亮丽电气有限责任公司 一种通过mems六轴传感器进行非侵入式压板状态监测的方法
CN117251749A (zh) * 2023-11-17 2023-12-19 陕西通信规划设计研究院有限公司 一种基于增量分析的物联网数据处理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114742178A (zh) * 2022-06-10 2022-07-12 航天亮丽电气有限责任公司 一种通过mems六轴传感器进行非侵入式压板状态监测的方法
CN114742178B (zh) * 2022-06-10 2022-11-08 航天亮丽电气有限责任公司 一种通过mems六轴传感器进行非侵入式压板状态监测的方法
CN117251749A (zh) * 2023-11-17 2023-12-19 陕西通信规划设计研究院有限公司 一种基于增量分析的物联网数据处理方法
CN117251749B (zh) * 2023-11-17 2024-02-27 陕西通信规划设计研究院有限公司 一种基于增量分析的物联网数据处理方法

Similar Documents

Publication Publication Date Title
CN109460793B (zh) 一种节点分类的方法、模型训练的方法及装置
CN114462538A (zh) 基于kmeans的电网异常设备检测方法及装置
WO2017076154A1 (zh) 网络事件预测以及建立网络事件预测模型的方法和装置
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
US20210073669A1 (en) Generating training data for machine-learning models
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN107423742A (zh) 人群流量的确定方法及装置
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
US11568179B2 (en) Selecting an algorithm for analyzing a data set based on the distribution of the data set
CN108205570A (zh) 一种数据检测方法和装置
CN108805174A (zh) 聚类方法及装置
CN113010504B (zh) 基于LSTM和改进K-means算法的电力数据异常检测方法及系统
CN110085322A (zh) 一种k-means聚类糖尿病预警模型的改进方法
CN112308345A (zh) 通信网络负荷预测方法、装置及服务器
CN107104747B (zh) 无线时变信道中的多径分量的分簇方法
CN110544047A (zh) 一种不良数据辨识方法
CN103957537A (zh) 基于信道聚类的频谱感知方法及装置
CN111506624B (zh) 一种电力缺失数据辨识方法和相关装置
CN108133234B (zh) 基于稀疏子集选择算法的社区检测方法、装置及设备
CN106297807A (zh) 训练声纹识别系统的方法和装置
CN116047223A (zh) 一种基于实时用电信息及大数据分析的窃电判别方法
Katselis et al. Ensemble online clustering through decentralized observations
JP6233432B2 (ja) 混合モデルの選択方法及び装置
Zhou et al. An optimized space partitioning technique to support two-layer WiFi fingerprinting
Pipelidis et al. Cross-device radio map generation via crowdsourcing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination