CN111259965A - 一种对基于降维的电气特征数据进行均值聚类的方法及系统 - Google Patents

一种对基于降维的电气特征数据进行均值聚类的方法及系统 Download PDF

Info

Publication number
CN111259965A
CN111259965A CN202010052636.6A CN202010052636A CN111259965A CN 111259965 A CN111259965 A CN 111259965A CN 202010052636 A CN202010052636 A CN 202010052636A CN 111259965 A CN111259965 A CN 111259965A
Authority
CN
China
Prior art keywords
parameter data
electrical characteristics
areas
matrix
dimension reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010052636.6A
Other languages
English (en)
Inventor
刘丽平
董美娜
姚力
唐伟
吴萍
张子岩
章江铭
张密
李媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
North China Electric Power University
Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
China Electric Power Research Institute Co Ltd CEPRI
North China Electric Power University
Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, China Electric Power Research Institute Co Ltd CEPRI, North China Electric Power University, Electric Power Research Institute of State Grid Sichuan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202010052636.6A priority Critical patent/CN111259965A/zh
Publication of CN111259965A publication Critical patent/CN111259965A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明公开了一种对基于降维的电气特征数据进行均值聚类的方法及系统,其中方法包括:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。

Description

一种对基于降维的电气特征数据进行均值聚类的方法及系统
技术领域
本发明涉及低压台区技术领域,更具体地,涉及一种对基于降维的电气特征数据进行均值聚类的方法及系统。
背景技术
线损是可以反映电力企业的经营和管理水平重要技术经济指标,其大小与电力企业的经济效益息息相关。低压台区的线损占到了整个配电网线损的一半以上,低压台区线损指的是电压在0.4kV及以下情况下所产生的线损,在电力系统的电能损耗中占的比例较大,具有不易察觉的特点,在我国电网现状下,低压台区线损有非常大的降损节电潜力,可以通过加强低压台区的线损管理,以此来有效地监测配电网每个台区所有电力用户用电量变化,来分析线损组成。因此,低压台区线损分析和降损可以大大降低供电企业运营成本,随着新一轮电力体制改革的持续深入和电力公司化运营管理机制的不断完善,低压台区线损管理的重要性将日益突出,也成为深入开展线损精细化管理的重点。对低压台区的线损进行分析,研究其降损措施,有针对性地采取措施进一步降低台区的线路损耗将显著地提高电力企业的效益,也将为缓减能源压力、减轻环境污染,构建节能环保型社会做出相应的贡献,具有重要的理论研究意义和工程应用价值。
线损计算所需要的原始数据一是有关电力网结构的元件参数和接线图;二是有关电力网的运行参数(电流、电压、功率因数、有功及无功功率等)。但是由于低压台区的建设和管理状况参差不齐、台区和终端用户数目庞大、台账管理不完备、线路分布复杂多样、用电采集系统的采集成功率差别较大,不论计算理论线损率还是评估统计线损率,均需要动用大量的人力、物力才能收集到必要的运行资料和数据,工作量非常大,供电部门很难每月进行一次计算工作。并且目前台区线损管理中普遍存在户变关系不清、抄表量不佳、窃电、计量故障等管理原因致使线损计算数值不准确。基于上述现状,如何快速、准确地计算出台区线损率是亟待解决的问题。
近年来,机器学习的出现与发展,为台区线损率计算提供了新思路和新途径,这类算法无需人工建立配电网复杂的数学模型,通过对样本的训练就可以实现输入到输出的映射,但由于台区规模、用电结构、经济发展水平等各方面差异比较大,将所有台区的线损率放在同一水平线上进行计算评估并不合理,所以需要对台区进行分类分析。
因此,需要一种技术,以实现基于降维的电气特征数据进行均值聚类的方法。
发明内容
本发明技术方案提供一种对基于降维的电气特征数据进行均值聚类的方法及系统,以解决如何基于降维的电气特征数据进行均值聚类的问题。
为了解决上述问题,本发明提供了一种对基于降维的电气特征数据进行均值聚类的方法,所述方法包括:
将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
优选地,还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
优选地,还包括:通过SC系数和CH系数对多个台区的聚类结果进行评价。
优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
优选地,所述对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i
Figure BDA0002371737210000031
Figure BDA0002371737210000032
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij
Figure BDA0002371737210000033
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij
Figure BDA0002371737210000041
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
Figure BDA0002371737210000042
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
Figure BDA0002371737210000043
δ为求导符号;
通过以上步骤,得到降维矩阵V。
基于本发明的另一方面,提供一种对基于降维的电气特征数据进行均值聚类的系统,所述系统包括:
处理单元,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
降维单元,用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
执行单元,用于将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
优选地,还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
优选地,还包括评价单元,用于:通过SC系数和CH系数对多个台区的聚类结果进行评价。
优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
优选地,所述降维单元用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i
Figure BDA0002371737210000051
Figure BDA0002371737210000052
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij
Figure BDA0002371737210000061
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij
Figure BDA0002371737210000062
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
Figure BDA0002371737210000063
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
Figure BDA0002371737210000064
δ为求导符号;
通过以上步骤,得到降维矩阵V。
本发明技术方案提供一种对基于降维的电气特征数据进行均值聚类的方法及系统,其中方法包括:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵;将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。本发明技术方案提出的一种基于电气特征非线性降维的低压台区Mean-shift聚类算法,首先根据t-SNE流行学习算法对原始的多维数据进行降维处理,然后根据降维数据对样本台区进行Mean-shift均值聚类,再根据聚类结果,利用SC系数以及CH系数评价聚类效果的好坏。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程图;
图2为根据本发明优选实施方式的基于改进的聚类算法及集成学习模型对台区线损率进行预测的流程图;
图3为根据本发明优选实施方式的t-SNE流行学习算法流程示意图;以及
图4为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程的系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程图。本申请提出一种基于电气特征非线性降维的低压台区Mean-shift均值聚类算法。本申请首先对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响;步骤2:将多个电气特征参数的参数值进行标准化处理;步骤3:采用t-SNE非线性的降维方法对多个电气特征进行降维,去除指标之间的相关性,实现结果可视化;步骤4:将降维之后的数据作为输入数据,采用Mean-shift均值聚类算法将台区进行聚类,步骤5:采用SC系数以及CH系数评价聚类效果。如图1所示,本申请提供一种对基于降维的电气特征数据进行均值聚类的方法,方法包括:
优选地,在步骤101:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
本申请对台区电气特征参数进行标准化处理,本申请对台区电气特征参数进行标准化处理之前,先确定台区电气特征参数;台区电气特征参数包括以下7个:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷、居民用户占比。
本申请将1959个台区的电气特征指标是作为t-SNE算法的输入,也就是自变量。各参数具有不同的单位和量级,对于t-SNE算法来说只区分数据数值的大小,并不能反映出数据的单位。为了更好的应用上述算法,需要消除各参数间不同单位和量级对数值的影响,防止出现“大数吃小数”的现象。而数据的标准化就是将数据按比例缩放,使之落入一个小的特定区间去除数据的单位限制,将其转化为无量纲的纯数值。
设台区个数为N,每个台区的台区电气特征参数为7个,N个台区样本的台区电气特征参数组成台区电气特征向量X,有:
Figure BDA0002371737210000091
用xij表示台区电气特征向量X的第i行、第j列元素,i=1,2,...,N,j=1,2,...,7;
对台区电气特征参数进行标准化处理,有:
Figure BDA0002371737210000092
Figure BDA0002371737210000093
Figure BDA0002371737210000094
其中,Zij为xij标准化处理后的量,
Figure BDA0002371737210000095
为xij的平均值,sij为xij的方差;
根据以上处理,得到1959个台区标准化后的特征指标,其中部分样本台区电气特征参数如表1:
表1
Figure BDA0002371737210000096
Figure BDA0002371737210000101
以下为标准化后部分台区数据
台区ID 台区容量 负载率 功率因数 功率方差 三相不平衡度 最大负荷 居民用户占比
46290 0.27 -1.51 1.18 0.30 0.39 1.29 0.00
46318 0.21 0.46 -1.28 0.39 -1.17 2.51 -1.38
46319 0.08 -1.51 -0.51 0.39 -0.83 -0.40 -1.10
46321 0.29 -0.98 -0.09 0.23 -0.52 -0.39 -0.50
46324 0.03 -0.98 1.27 -0.13 0.10 -0.79 0.30
46434 0.38 -2.22 0.80 0.57 -0.20 0.25 -0.53
46458 0.23 0.46 0.22 0.25 0.33 -1.15 0.68
46459 0.17 -1.51 0.26 0.32 -0.50 1.12 -0.52
46461 0.02 -0.35 -0.28 0.12 -0.41 0.44 -0.34
46462 0.25 0.46 -0.88 -1.16 0.95 0.40 0.32
优选地,在步骤102:对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵。优选地,方法对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i
Figure BDA0002371737210000111
Figure BDA0002371737210000112
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij
Figure BDA0002371737210000113
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij
Figure BDA0002371737210000114
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
Figure BDA0002371737210000115
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
Figure BDA0002371737210000121
δ为求导符号;
通过以上步骤,得到降维矩阵V。
通过以上步骤,台区样本的特征指标由7个降到了3个,可以实现样本点的可视化,具体流程图见图3,降维之后的台区特征向量为V,有:
Figure BDA0002371737210000122
降维之后的部分样本台区电气特征参数如表2:
表2
台区ID 特征1 特征2 特征3
46290 5.82 4.69 -6.11
46318 -2.10 5.19 0.78
46319 6.59 6.54 0.60
46321 2.40 0.30 -12.37
46324 6.28 0.03 -3.76
46434 4.96 3.15 -2.68
46458 0.85 -9.57 5.62
46459 4.39 6.36 -9.45
46461 -3.56 -1.43 -6.45
46462 -11.10 -2.64 11.69
优选地,在步骤103:将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
本申请将降维之后的台区样本点V采用Mean-shift聚类算法将台区进行聚类,具体如下:
(1)引入高斯核函数,得到数据集的密度,如下:
Figure BDA0002371737210000131
式中K(v)是径向对称函数,如下:
K(v)=ck,dk(||v||2) (16)
其中系数ck,d是归一化常数,使K(v)的积分等于1;
(2)求高斯核函数的梯度,其第一项为实数,第二项的向量与梯度方向一致,表达式如下:
Figure BDA0002371737210000132
因此,Mean-shift算法流程如下:
第一步:计算每个样本的均值漂移向量mh(v);
第二步:对每个样本点以mh(v)进行平移,即:
vi=vi+mh(vi) (18)
第三步:重复(1)(2)步骤,直到样本点收敛,即:mh(v)=0;
第四步:收敛到相同点的样本被认为是同一簇类的成员。
根据上述步骤,将台区样本数据分为2类,具体类别如表3:
表3
类别 第一类 第二类
每一类个数 898 1061
每一类的台区特征指标降维矩阵为V1,V2,有:
Figure BDA0002371737210000141
Figure BDA0002371737210000142
上述10个台区其中第一类台区如表4:
表4
台区ID 特征1 特征2 特征3
46290 5.82 4.69 -6.11
46319 6.59 6.54 0.60
46321 2.40 0.30 -12.37
46324 6.28 0.03 -3.76
46434 4.96 3.15 -2.68
46459 4.39 6.36 -9.45
46461 -3.56 -1.43 -6.45
第二类台区如表5:
表5
台区ID 特征1 特征2 特征3
46318 -2.10 5.19 0.78
46458 0.85 -9.57 5.62
46462 -11.10 -2.64 11.69
优选地,在步骤101之前,方法还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。本申请对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响。如图2所示。
根据公式:
Figure BDA0002371737210000151
Figure BDA0002371737210000152
Figure BDA0002371737210000153
式中,Ey为台区的日均线损率,σy为台区线损率的样本方差,Py为台区的线损率变异系数,去除台区线损率变异系数较大的台区,形成稳定的台区样本数据库。其中,yi为台区i的线损率;
本申请计算出2017个台区的日均线损率和线损率变异系数,去掉线损率变异系数大于1的台区样本,最终得到1959个稳定的台区样本。
优选地,方法还包括:通过SC系数和CH系数对多个台区的聚类结果进行评价。其中,SC系数为轮廓系数(Silhouette Coefficient,SC),CH系数为Calinski-Harabaz指数(Calinski-Harabasz,CH)。
本申请采用SC系数以及CH系数两种性能评价指标评价聚类效果;
SC系数公式如下:
Figure BDA0002371737210000154
上式中,a(i)表示i向量到同一簇内其他点不相似程度的平均值,b(i)表示i向量到其他簇的平均不相似程度的最小值;由此可见SC系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。
CH系数公式如下:
Figure BDA0002371737210000161
式中,W(k)表示类内散度,B(k)表示类间散度,其中k为聚类个数,CH系数越大说明聚类效果越好。
通过对聚类结果进行评估,两类评价函数值如表6:
表6
评价指标 SC系数 CH系数
评价值 0.380087 1495.195
本申请实施方式采用t-SNE非线性降维方法,可以实现结果可视化。本申请提出Mean-shift聚类算法,对于聚类个数无需人为选择,并且受均值影响小。本申请提出的基于电气特征非线性降维的台区聚类方法有效的解决了因台区线损率数值分散而导致的智能算法训练精度差的问题,为台区线损分析提供了技术支撑。
图4为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程的系统结构图。如图4所示,本申请提供一种对基于降维的电气特征数据进行均值聚类的系统,系统包括:
处理单元401,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
本申请对台区电气特征参数进行标准化处理,本申请对台区电气特征参数进行标准化处理之前,先确定台区电气特征参数;台区电气特征参数包括以下7个:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷、居民用户占比。
本申请将1959个台区的电气特征指标是作为t-SNE算法的输入,也就是自变量。各参数具有不同的单位和量级,对于t-SNE算法来说只区分数据数值的大小,并不能反映出数据的单位。为了更好的应用上述算法,需要消除各参数间不同单位和量级对数值的影响,防止出现“大数吃小数”的现象。而数据的标准化就是将数据按比例缩放,使之落入一个小的特定区间去除数据的单位限制,将其转化为无量纲的纯数值。
设台区个数为N,每个台区的台区电气特征参数为7个,N个台区样本的台区电气特征参数组成台区电气特征向量X,有:
Figure BDA0002371737210000171
用xij表示台区电气特征向量X的第i行、第j列元素,i=1,2,...,N,j=1,2,...,7;
对台区电气特征参数进行标准化处理,有:
Figure BDA0002371737210000172
Figure BDA0002371737210000173
Figure BDA0002371737210000174
其中,Zij为xij标准化处理后的量,
Figure BDA0002371737210000175
为xij的平均值,sij为xij的方差;
根据以上处理,得到1959个台区标准化后的特征指标,其中部分样本台区电气特征参数如表1:
表1
台区ID 台区容量 负载率 功率因数 功率方差 三相不平衡度 最大负荷 居民用户占比
46290 315 18.36 0.99 21.38 48.10 96.63 0.65
46318 630 2.42 0.99 4.37 60.90 26.83 0.70
46319 315 7.42 0.99 8.07 30.39 40.80 0.00
46321 400 10.15 0.99 11.53 30.42 71.34 0.97
46324 400 19.08 0.98 18.38 26.15 112.89 0.71
46434 200 15.90 1.00 14.92 37.15 69.92 0.49
46458 630 12.14 0.99 20.71 22.55 130.99 0.94
46459 315 12.38 0.99 11.66 46.28 70.27 1.00
46461 500 9.40 0.98 13.29 38.62 83.60 0.94
46462 630 5.00 0.94 27.56 38.78 112.74 1.00
以下为标准化后部分台区数据
台区ID 台区容量 负载率 功率因数 功率方差 三相不平衡度 最大负荷 居民用户占比
46290 0.27 -1.51 1.18 0.30 0.39 1.29 0.00
46318 0.21 0.46 -1.28 0.39 -1.17 2.51 -1.38
46319 0.08 -1.51 -0.51 0.39 -0.83 -0.40 -1.10
46321 0.29 -0.98 -0.09 0.23 -0.52 -0.39 -0.50
46324 0.03 -0.98 1.27 -0.13 0.10 -0.79 0.30
46434 0.38 -2.22 0.80 0.57 -0.20 0.25 -0.53
46458 0.23 0.46 0.22 0.25 0.33 -1.15 0.68
46459 0.17 -1.51 0.26 0.32 -0.50 1.12 -0.52
46461 0.02 -0.35 -0.28 0.12 -0.41 0.44 -0.34
46462 0.25 0.46 -0.88 -1.16 0.95 0.40 0.32
降维单元402,用于对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵。
优选地,降维单元402用于对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i
Figure BDA0002371737210000191
Figure BDA0002371737210000192
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij
Figure BDA0002371737210000193
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij
Figure BDA0002371737210000194
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
Figure BDA0002371737210000195
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
Figure BDA0002371737210000201
δ为求导符号;
通过以上步骤,得到降维矩阵V。
通过以上步骤,台区样本的特征指标由7个降到了3个,可以实现样本点的可视化,具体流程图见图3,降维之后的台区特征向量为V,有:
Figure BDA0002371737210000202
降维之后的部分样本台区电气特征参数如表2:
表2
Figure BDA0002371737210000203
Figure BDA0002371737210000211
执行单元403,用于将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
本申请将降维之后的台区样本点V采用Mean-shift聚类算法将台区进行聚类,具体如下:
(1)引入高斯核函数,得到数据集的密度,如下:
Figure BDA0002371737210000212
式中K(v)是径向对称函数,如下:
K(v)=ck,dk(||v||2) (16)
其中系数ck,d是归一化常数,使K(v)的积分等于1;
(2)求高斯核函数的梯度,其第一项为实数,第二项的向量与梯度方向一致,表达式如下:
Figure BDA0002371737210000213
因此,Mean-shift算法流程如下:
第一步:计算每个样本的均值漂移向量mh(v);
第二步:对每个样本点以mh(v)进行平移,即:
vi=vi+mh(vi) (18)
第三步:重复(1)(2)步骤,直到样本点收敛,即:mh(v)=0;
第四步:收敛到相同点的样本被认为是同一簇类的成员。
根据上述步骤,将台区样本数据分为2类,具体类别如表3:
表3
类别 第一类 第二类
每一类个数 898 1061
每一类的台区特征指标降维矩阵为V1,V2,有:
Figure BDA0002371737210000221
Figure BDA0002371737210000222
上述10个台区其中第一类台区如表4:
表4
台区ID 特征1 特征2 特征3
46290 5.82 4.69 -6.11
46319 6.59 6.54 0.60
46321 2.40 0.30 -12.37
46324 6.28 0.03 -3.76
46434 4.96 3.15 -2.68
46459 4.39 6.36 -9.45
46461 -3.56 -1.43 -6.45
第二类台区如表5:
表5
台区ID 特征1 特征2 特征3
46318 -2.10 5.19 0.78
46458 0.85 -9.57 5.62
46462 -11.10 -2.64 11.69
优选地,系统还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。本申请对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响。如图2所示。
根据公式:
Figure BDA0002371737210000231
Figure BDA0002371737210000232
Figure BDA0002371737210000233
式中,Ey为台区的日均线损率,σy为台区线损率的样本方差,Py为台区的线损率变异系数,去除台区线损率变异系数较大的台区,形成稳定的台区样本数据库。其中,yi为台区i的线损率;
本申请计算出2017个台区的日均线损率和线损率变异系数,去掉线损率变异系数大于1的台区样本,最终得到1959个稳定的台区样本。
优选地,系统还包括还包括评价单元,用于:通过SC系数和CH系数对多个台区的聚类结果进行评价。本申请SC系数为轮廓系数(Silhouette Coefficient,SC),CH系数为Calinski-Harabaz指数(Calinski-Harabasz,CH)。
本申请采用SC系数以及CH系数两种性能评价指标评价聚类效果;
SC系数公式如下:
Figure BDA0002371737210000234
上式中,a(i)表示i向量到同一簇内其他点不相似程度的平均值,b(i)表示i向量到其他簇的平均不相似程度的最小值;由此可见SC系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。
CH系数公式如下:
Figure BDA0002371737210000241
式中,W(k)表示类内散度,B(k)表示类间散度,其中k为聚类个数,CH系数越大说明聚类效果越好。
通过对聚类结果进行评估,两类评价函数值如表6:
表6
评价指标 SC系数 CH系数
评价值 0.380087 1495.195
本申请实施方式采用t-SNE非线性降维方法,可以实现结果可视化。本申请提出Mean-shift聚类算法,对于聚类个数无需人为选择,并且受均值影响小。本申请提出的基于电气特征非线性降维的台区聚类方法有效的解决了因台区线损率数值分散而导致的智能算法训练精度差的问题,为台区线损分析提供了技术支撑。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

Claims (10)

1.一种对基于降维的电气特征数据进行均值聚类的方法,所述方法包括:
将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据进行聚类,获取多个台区的聚类结果。
2.根据权利要求1所述的方法,还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
3.根据权利要求1所述的方法,还包括:通过SC系数和CH系数对多个台区的聚类结果进行评价。
4.根据权利要求1所述的方法,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
5.根据权利要求1所述的方法,所述对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,包括:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,将参数数据Zij降到3维或2维。
6.一种对基于降维的电气特征数据进行均值聚类的系统,所述系统包括:
处理单元,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
降维单元,用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
执行单元,用于将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据进行聚类,获取多个台区的聚类结果。
7.根据权利要求6所述的系统,还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
8.根据权利要求6所述的系统,还包括评价单元,用于:通过SC系数和CH系数对多个台区的聚类结果进行评价。
9.根据权利要求6所述的系统,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
10.根据权利要求6所述的系统,所述降维单元用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,包括:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,将参数数据Zij降到3维或2维。
CN202010052636.6A 2020-01-17 2020-01-17 一种对基于降维的电气特征数据进行均值聚类的方法及系统 Pending CN111259965A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010052636.6A CN111259965A (zh) 2020-01-17 2020-01-17 一种对基于降维的电气特征数据进行均值聚类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010052636.6A CN111259965A (zh) 2020-01-17 2020-01-17 一种对基于降维的电气特征数据进行均值聚类的方法及系统

Publications (1)

Publication Number Publication Date
CN111259965A true CN111259965A (zh) 2020-06-09

Family

ID=70952290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010052636.6A Pending CN111259965A (zh) 2020-01-17 2020-01-17 一种对基于降维的电气特征数据进行均值聚类的方法及系统

Country Status (1)

Country Link
CN (1) CN111259965A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270338A (zh) * 2020-09-27 2021-01-26 西安理工大学 一种电力负荷曲线聚类方法
CN113393079A (zh) * 2021-05-07 2021-09-14 杭州数知梦科技有限公司 一种基于公交数据的交通小区划分方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270338A (zh) * 2020-09-27 2021-01-26 西安理工大学 一种电力负荷曲线聚类方法
CN113393079A (zh) * 2021-05-07 2021-09-14 杭州数知梦科技有限公司 一种基于公交数据的交通小区划分方法
CN113393079B (zh) * 2021-05-07 2024-01-09 杭州数知梦科技有限公司 一种基于公交数据的交通小区划分方法

Similar Documents

Publication Publication Date Title
CN110781332A (zh) 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
CN110991786B (zh) 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法
CN114298863A (zh) 一种智能抄表终端的数据采集方法及系统
CN112149873A (zh) 一种基于深度学习的低压台区线损合理区间预测方法
CN111259965A (zh) 一种对基于降维的电气特征数据进行均值聚类的方法及系统
CN110738232A (zh) 一种基于数据挖掘技术的电网电压越限成因诊断方法
CN114519514B (zh) 一种低压台区合理线损值测算方法、系统及计算机设备
CN113189418B (zh) 一种基于电压数据的拓扑关系识别方法
CN112001441A (zh) 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法
Lu et al. Adaptive weighted fuzzy clustering algorithm for load profiling of smart grid customers
CN112819649A (zh) 确定台区户变关系的方法及装置
Zhang et al. Short-term load forecasting method based on EWT and IDBSCAN
CN113033617A (zh) 一种基于大数据台区线损数据深度挖掘分析方法
CN115905904A (zh) 一种配电网馈线的线损异常评估方法及装置
CN108898273A (zh) 一种基于形态分析的用户侧负荷特征聚类评价方法
CN113112177A (zh) 一种基于混合指标的台区线损处理方法及系统
CN115051363B (zh) 一种配网台区户变关系辨识方法、装置及计算机存储介质
CN110703038B (zh) 一种适用于风机接入配电网的谐波阻抗估算方法
CN111651448A (zh) 一种基于降噪差分进化的低压拓扑识别方法
CN112464059A (zh) 配电网用户分类方法、装置、计算机设备和存储介质
Wang et al. Application of clustering technique to electricity customer classification for load forecasting
CN111080089A (zh) 一种基于随机矩阵理论的线损率关键因子确定方法和装置
CN116307844A (zh) 一种低压台区线损评估分析方法
Du et al. Hosting capacity assessment in distribution networks considering wind–photovoltaic–load temporal characteristics
CN113609109A (zh) 一种基于数据孪生的自动化场景信息生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination