CN111259965A - 一种对基于降维的电气特征数据进行均值聚类的方法及系统 - Google Patents
一种对基于降维的电气特征数据进行均值聚类的方法及系统 Download PDFInfo
- Publication number
- CN111259965A CN111259965A CN202010052636.6A CN202010052636A CN111259965A CN 111259965 A CN111259965 A CN 111259965A CN 202010052636 A CN202010052636 A CN 202010052636A CN 111259965 A CN111259965 A CN 111259965A
- Authority
- CN
- China
- Prior art keywords
- parameter data
- electrical characteristics
- areas
- matrix
- dimension reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明公开了一种对基于降维的电气特征数据进行均值聚类的方法及系统,其中方法包括:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
Description
技术领域
本发明涉及低压台区技术领域,更具体地,涉及一种对基于降维的电气特征数据进行均值聚类的方法及系统。
背景技术
线损是可以反映电力企业的经营和管理水平重要技术经济指标,其大小与电力企业的经济效益息息相关。低压台区的线损占到了整个配电网线损的一半以上,低压台区线损指的是电压在0.4kV及以下情况下所产生的线损,在电力系统的电能损耗中占的比例较大,具有不易察觉的特点,在我国电网现状下,低压台区线损有非常大的降损节电潜力,可以通过加强低压台区的线损管理,以此来有效地监测配电网每个台区所有电力用户用电量变化,来分析线损组成。因此,低压台区线损分析和降损可以大大降低供电企业运营成本,随着新一轮电力体制改革的持续深入和电力公司化运营管理机制的不断完善,低压台区线损管理的重要性将日益突出,也成为深入开展线损精细化管理的重点。对低压台区的线损进行分析,研究其降损措施,有针对性地采取措施进一步降低台区的线路损耗将显著地提高电力企业的效益,也将为缓减能源压力、减轻环境污染,构建节能环保型社会做出相应的贡献,具有重要的理论研究意义和工程应用价值。
线损计算所需要的原始数据一是有关电力网结构的元件参数和接线图;二是有关电力网的运行参数(电流、电压、功率因数、有功及无功功率等)。但是由于低压台区的建设和管理状况参差不齐、台区和终端用户数目庞大、台账管理不完备、线路分布复杂多样、用电采集系统的采集成功率差别较大,不论计算理论线损率还是评估统计线损率,均需要动用大量的人力、物力才能收集到必要的运行资料和数据,工作量非常大,供电部门很难每月进行一次计算工作。并且目前台区线损管理中普遍存在户变关系不清、抄表量不佳、窃电、计量故障等管理原因致使线损计算数值不准确。基于上述现状,如何快速、准确地计算出台区线损率是亟待解决的问题。
近年来,机器学习的出现与发展,为台区线损率计算提供了新思路和新途径,这类算法无需人工建立配电网复杂的数学模型,通过对样本的训练就可以实现输入到输出的映射,但由于台区规模、用电结构、经济发展水平等各方面差异比较大,将所有台区的线损率放在同一水平线上进行计算评估并不合理,所以需要对台区进行分类分析。
因此,需要一种技术,以实现基于降维的电气特征数据进行均值聚类的方法。
发明内容
本发明技术方案提供一种对基于降维的电气特征数据进行均值聚类的方法及系统,以解决如何基于降维的电气特征数据进行均值聚类的问题。
为了解决上述问题,本发明提供了一种对基于降维的电气特征数据进行均值聚类的方法,所述方法包括:
将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
优选地,还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
优选地,还包括:通过SC系数和CH系数对多个台区的聚类结果进行评价。
优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
优选地,所述对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij:
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij:
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
δ为求导符号;
通过以上步骤,得到降维矩阵V。
基于本发明的另一方面,提供一种对基于降维的电气特征数据进行均值聚类的系统,所述系统包括:
处理单元,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
降维单元,用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
执行单元,用于将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
优选地,还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
优选地,还包括评价单元,用于:通过SC系数和CH系数对多个台区的聚类结果进行评价。
优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
优选地,所述降维单元用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij:
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij:
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
δ为求导符号;
通过以上步骤,得到降维矩阵V。
本发明技术方案提供一种对基于降维的电气特征数据进行均值聚类的方法及系统,其中方法包括:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵;将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。本发明技术方案提出的一种基于电气特征非线性降维的低压台区Mean-shift聚类算法,首先根据t-SNE流行学习算法对原始的多维数据进行降维处理,然后根据降维数据对样本台区进行Mean-shift均值聚类,再根据聚类结果,利用SC系数以及CH系数评价聚类效果的好坏。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程图;
图2为根据本发明优选实施方式的基于改进的聚类算法及集成学习模型对台区线损率进行预测的流程图;
图3为根据本发明优选实施方式的t-SNE流行学习算法流程示意图;以及
图4为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程的系统结构图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
图1为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程图。本申请提出一种基于电气特征非线性降维的低压台区Mean-shift均值聚类算法。本申请首先对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响;步骤2:将多个电气特征参数的参数值进行标准化处理;步骤3:采用t-SNE非线性的降维方法对多个电气特征进行降维,去除指标之间的相关性,实现结果可视化;步骤4:将降维之后的数据作为输入数据,采用Mean-shift均值聚类算法将台区进行聚类,步骤5:采用SC系数以及CH系数评价聚类效果。如图1所示,本申请提供一种对基于降维的电气特征数据进行均值聚类的方法,方法包括:
优选地,在步骤101:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
本申请对台区电气特征参数进行标准化处理,本申请对台区电气特征参数进行标准化处理之前,先确定台区电气特征参数;台区电气特征参数包括以下7个:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷、居民用户占比。
本申请将1959个台区的电气特征指标是作为t-SNE算法的输入,也就是自变量。各参数具有不同的单位和量级,对于t-SNE算法来说只区分数据数值的大小,并不能反映出数据的单位。为了更好的应用上述算法,需要消除各参数间不同单位和量级对数值的影响,防止出现“大数吃小数”的现象。而数据的标准化就是将数据按比例缩放,使之落入一个小的特定区间去除数据的单位限制,将其转化为无量纲的纯数值。
设台区个数为N,每个台区的台区电气特征参数为7个,N个台区样本的台区电气特征参数组成台区电气特征向量X,有:
用xij表示台区电气特征向量X的第i行、第j列元素,i=1,2,...,N,j=1,2,...,7;
对台区电气特征参数进行标准化处理,有:
根据以上处理,得到1959个台区标准化后的特征指标,其中部分样本台区电气特征参数如表1:
表1
以下为标准化后部分台区数据
台区ID | 台区容量 | 负载率 | 功率因数 | 功率方差 | 三相不平衡度 | 最大负荷 | 居民用户占比 |
46290 | 0.27 | -1.51 | 1.18 | 0.30 | 0.39 | 1.29 | 0.00 |
46318 | 0.21 | 0.46 | -1.28 | 0.39 | -1.17 | 2.51 | -1.38 |
46319 | 0.08 | -1.51 | -0.51 | 0.39 | -0.83 | -0.40 | -1.10 |
46321 | 0.29 | -0.98 | -0.09 | 0.23 | -0.52 | -0.39 | -0.50 |
46324 | 0.03 | -0.98 | 1.27 | -0.13 | 0.10 | -0.79 | 0.30 |
46434 | 0.38 | -2.22 | 0.80 | 0.57 | -0.20 | 0.25 | -0.53 |
46458 | 0.23 | 0.46 | 0.22 | 0.25 | 0.33 | -1.15 | 0.68 |
46459 | 0.17 | -1.51 | 0.26 | 0.32 | -0.50 | 1.12 | -0.52 |
46461 | 0.02 | -0.35 | -0.28 | 0.12 | -0.41 | 0.44 | -0.34 |
46462 | 0.25 | 0.46 | -0.88 | -1.16 | 0.95 | 0.40 | 0.32 |
优选地,在步骤102:对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵。优选地,方法对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij:
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij:
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
δ为求导符号;
通过以上步骤,得到降维矩阵V。
通过以上步骤,台区样本的特征指标由7个降到了3个,可以实现样本点的可视化,具体流程图见图3,降维之后的台区特征向量为V,有:
降维之后的部分样本台区电气特征参数如表2:
表2
台区ID | 特征1 | 特征2 | 特征3 |
46290 | 5.82 | 4.69 | -6.11 |
46318 | -2.10 | 5.19 | 0.78 |
46319 | 6.59 | 6.54 | 0.60 |
46321 | 2.40 | 0.30 | -12.37 |
46324 | 6.28 | 0.03 | -3.76 |
46434 | 4.96 | 3.15 | -2.68 |
46458 | 0.85 | -9.57 | 5.62 |
46459 | 4.39 | 6.36 | -9.45 |
46461 | -3.56 | -1.43 | -6.45 |
46462 | -11.10 | -2.64 | 11.69 |
优选地,在步骤103:将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
本申请将降维之后的台区样本点V采用Mean-shift聚类算法将台区进行聚类,具体如下:
(1)引入高斯核函数,得到数据集的密度,如下:
式中K(v)是径向对称函数,如下:
K(v)=ck,dk(||v||2) (16)
其中系数ck,d是归一化常数,使K(v)的积分等于1;
(2)求高斯核函数的梯度,其第一项为实数,第二项的向量与梯度方向一致,表达式如下:
因此,Mean-shift算法流程如下:
第一步:计算每个样本的均值漂移向量mh(v);
第二步:对每个样本点以mh(v)进行平移,即:
vi=vi+mh(vi) (18)
第三步:重复(1)(2)步骤,直到样本点收敛,即:mh(v)=0;
第四步:收敛到相同点的样本被认为是同一簇类的成员。
根据上述步骤,将台区样本数据分为2类,具体类别如表3:
表3
类别 | 第一类 | 第二类 |
每一类个数 | 898 | 1061 |
每一类的台区特征指标降维矩阵为V1,V2,有:
上述10个台区其中第一类台区如表4:
表4
台区ID | 特征1 | 特征2 | 特征3 |
46290 | 5.82 | 4.69 | -6.11 |
46319 | 6.59 | 6.54 | 0.60 |
46321 | 2.40 | 0.30 | -12.37 |
46324 | 6.28 | 0.03 | -3.76 |
46434 | 4.96 | 3.15 | -2.68 |
46459 | 4.39 | 6.36 | -9.45 |
46461 | -3.56 | -1.43 | -6.45 |
第二类台区如表5:
表5
台区ID | 特征1 | 特征2 | 特征3 |
46318 | -2.10 | 5.19 | 0.78 |
46458 | 0.85 | -9.57 | 5.62 |
46462 | -11.10 | -2.64 | 11.69 |
优选地,在步骤101之前,方法还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。本申请对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响。如图2所示。
根据公式:
式中,Ey为台区的日均线损率,σy为台区线损率的样本方差,Py为台区的线损率变异系数,去除台区线损率变异系数较大的台区,形成稳定的台区样本数据库。其中,yi为台区i的线损率;
本申请计算出2017个台区的日均线损率和线损率变异系数,去掉线损率变异系数大于1的台区样本,最终得到1959个稳定的台区样本。
优选地,方法还包括:通过SC系数和CH系数对多个台区的聚类结果进行评价。其中,SC系数为轮廓系数(Silhouette Coefficient,SC),CH系数为Calinski-Harabaz指数(Calinski-Harabasz,CH)。
本申请采用SC系数以及CH系数两种性能评价指标评价聚类效果;
SC系数公式如下:
上式中,a(i)表示i向量到同一簇内其他点不相似程度的平均值,b(i)表示i向量到其他簇的平均不相似程度的最小值;由此可见SC系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。
CH系数公式如下:
式中,W(k)表示类内散度,B(k)表示类间散度,其中k为聚类个数,CH系数越大说明聚类效果越好。
通过对聚类结果进行评估,两类评价函数值如表6:
表6
评价指标 | SC系数 | CH系数 |
评价值 | 0.380087 | 1495.195 |
本申请实施方式采用t-SNE非线性降维方法,可以实现结果可视化。本申请提出Mean-shift聚类算法,对于聚类个数无需人为选择,并且受均值影响小。本申请提出的基于电气特征非线性降维的台区聚类方法有效的解决了因台区线损率数值分散而导致的智能算法训练精度差的问题,为台区线损分析提供了技术支撑。
图4为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程的系统结构图。如图4所示,本申请提供一种对基于降维的电气特征数据进行均值聚类的系统,系统包括:
处理单元401,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
本申请对台区电气特征参数进行标准化处理,本申请对台区电气特征参数进行标准化处理之前,先确定台区电气特征参数;台区电气特征参数包括以下7个:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷、居民用户占比。
本申请将1959个台区的电气特征指标是作为t-SNE算法的输入,也就是自变量。各参数具有不同的单位和量级,对于t-SNE算法来说只区分数据数值的大小,并不能反映出数据的单位。为了更好的应用上述算法,需要消除各参数间不同单位和量级对数值的影响,防止出现“大数吃小数”的现象。而数据的标准化就是将数据按比例缩放,使之落入一个小的特定区间去除数据的单位限制,将其转化为无量纲的纯数值。
设台区个数为N,每个台区的台区电气特征参数为7个,N个台区样本的台区电气特征参数组成台区电气特征向量X,有:
用xij表示台区电气特征向量X的第i行、第j列元素,i=1,2,...,N,j=1,2,...,7;
对台区电气特征参数进行标准化处理,有:
根据以上处理,得到1959个台区标准化后的特征指标,其中部分样本台区电气特征参数如表1:
表1
台区ID | 台区容量 | 负载率 | 功率因数 | 功率方差 | 三相不平衡度 | 最大负荷 | 居民用户占比 |
46290 | 315 | 18.36 | 0.99 | 21.38 | 48.10 | 96.63 | 0.65 |
46318 | 630 | 2.42 | 0.99 | 4.37 | 60.90 | 26.83 | 0.70 |
46319 | 315 | 7.42 | 0.99 | 8.07 | 30.39 | 40.80 | 0.00 |
46321 | 400 | 10.15 | 0.99 | 11.53 | 30.42 | 71.34 | 0.97 |
46324 | 400 | 19.08 | 0.98 | 18.38 | 26.15 | 112.89 | 0.71 |
46434 | 200 | 15.90 | 1.00 | 14.92 | 37.15 | 69.92 | 0.49 |
46458 | 630 | 12.14 | 0.99 | 20.71 | 22.55 | 130.99 | 0.94 |
46459 | 315 | 12.38 | 0.99 | 11.66 | 46.28 | 70.27 | 1.00 |
46461 | 500 | 9.40 | 0.98 | 13.29 | 38.62 | 83.60 | 0.94 |
46462 | 630 | 5.00 | 0.94 | 27.56 | 38.78 | 112.74 | 1.00 |
以下为标准化后部分台区数据
台区ID | 台区容量 | 负载率 | 功率因数 | 功率方差 | 三相不平衡度 | 最大负荷 | 居民用户占比 |
46290 | 0.27 | -1.51 | 1.18 | 0.30 | 0.39 | 1.29 | 0.00 |
46318 | 0.21 | 0.46 | -1.28 | 0.39 | -1.17 | 2.51 | -1.38 |
46319 | 0.08 | -1.51 | -0.51 | 0.39 | -0.83 | -0.40 | -1.10 |
46321 | 0.29 | -0.98 | -0.09 | 0.23 | -0.52 | -0.39 | -0.50 |
46324 | 0.03 | -0.98 | 1.27 | -0.13 | 0.10 | -0.79 | 0.30 |
46434 | 0.38 | -2.22 | 0.80 | 0.57 | -0.20 | 0.25 | -0.53 |
46458 | 0.23 | 0.46 | 0.22 | 0.25 | 0.33 | -1.15 | 0.68 |
46459 | 0.17 | -1.51 | 0.26 | 0.32 | -0.50 | 1.12 | -0.52 |
46461 | 0.02 | -0.35 | -0.28 | 0.12 | -0.41 | 0.44 | -0.34 |
46462 | 0.25 | 0.46 | -0.88 | -1.16 | 0.95 | 0.40 | 0.32 |
降维单元402,用于对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵。
优选地,降维单元402用于对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵,还用于:
对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,采用t-SNE流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:
(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:
式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;
(2)计算高维空间内台区两两样本点之间联合概率pij:
式中N为台区总数量;
(3)计算低维空间内两点之间的联合概率qij:
式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。
(4)计算pij和qij之间的KL散度,将其设为目标函数C:
P为高维空间数据点的联合概率分布;Q为低维空间数据点的联合概率分布;
(5)用目标函数C对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:
δ为求导符号;
通过以上步骤,得到降维矩阵V。
通过以上步骤,台区样本的特征指标由7个降到了3个,可以实现样本点的可视化,具体流程图见图3,降维之后的台区特征向量为V,有:
降维之后的部分样本台区电气特征参数如表2:
表2
执行单元403,用于将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。
本申请将降维之后的台区样本点V采用Mean-shift聚类算法将台区进行聚类,具体如下:
(1)引入高斯核函数,得到数据集的密度,如下:
式中K(v)是径向对称函数,如下:
K(v)=ck,dk(||v||2) (16)
其中系数ck,d是归一化常数,使K(v)的积分等于1;
(2)求高斯核函数的梯度,其第一项为实数,第二项的向量与梯度方向一致,表达式如下:
因此,Mean-shift算法流程如下:
第一步:计算每个样本的均值漂移向量mh(v);
第二步:对每个样本点以mh(v)进行平移,即:
vi=vi+mh(vi) (18)
第三步:重复(1)(2)步骤,直到样本点收敛,即:mh(v)=0;
第四步:收敛到相同点的样本被认为是同一簇类的成员。
根据上述步骤,将台区样本数据分为2类,具体类别如表3:
表3
类别 | 第一类 | 第二类 |
每一类个数 | 898 | 1061 |
每一类的台区特征指标降维矩阵为V1,V2,有:
上述10个台区其中第一类台区如表4:
表4
台区ID | 特征1 | 特征2 | 特征3 |
46290 | 5.82 | 4.69 | -6.11 |
46319 | 6.59 | 6.54 | 0.60 |
46321 | 2.40 | 0.30 | -12.37 |
46324 | 6.28 | 0.03 | -3.76 |
46434 | 4.96 | 3.15 | -2.68 |
46459 | 4.39 | 6.36 | -9.45 |
46461 | -3.56 | -1.43 | -6.45 |
第二类台区如表5:
表5
台区ID | 特征1 | 特征2 | 特征3 |
46318 | -2.10 | 5.19 | 0.78 |
46458 | 0.85 | -9.57 | 5.62 |
46462 | -11.10 | -2.64 | 11.69 |
优选地,系统还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。本申请对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响。如图2所示。
根据公式:
式中,Ey为台区的日均线损率,σy为台区线损率的样本方差,Py为台区的线损率变异系数,去除台区线损率变异系数较大的台区,形成稳定的台区样本数据库。其中,yi为台区i的线损率;
本申请计算出2017个台区的日均线损率和线损率变异系数,去掉线损率变异系数大于1的台区样本,最终得到1959个稳定的台区样本。
优选地,系统还包括还包括评价单元,用于:通过SC系数和CH系数对多个台区的聚类结果进行评价。本申请SC系数为轮廓系数(Silhouette Coefficient,SC),CH系数为Calinski-Harabaz指数(Calinski-Harabasz,CH)。
本申请采用SC系数以及CH系数两种性能评价指标评价聚类效果;
SC系数公式如下:
上式中,a(i)表示i向量到同一簇内其他点不相似程度的平均值,b(i)表示i向量到其他簇的平均不相似程度的最小值;由此可见SC系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。
CH系数公式如下:
式中,W(k)表示类内散度,B(k)表示类间散度,其中k为聚类个数,CH系数越大说明聚类效果越好。
通过对聚类结果进行评估,两类评价函数值如表6:
表6
评价指标 | SC系数 | CH系数 |
评价值 | 0.380087 | 1495.195 |
本申请实施方式采用t-SNE非线性降维方法,可以实现结果可视化。本申请提出Mean-shift聚类算法,对于聚类个数无需人为选择,并且受均值影响小。本申请提出的基于电气特征非线性降维的台区聚类方法有效的解决了因台区线损率数值分散而导致的智能算法训练精度差的问题,为台区线损分析提供了技术支撑。
已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (10)
1.一种对基于降维的电气特征数据进行均值聚类的方法,所述方法包括:
将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据进行聚类,获取多个台区的聚类结果。
2.根据权利要求1所述的方法,还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
3.根据权利要求1所述的方法,还包括:通过SC系数和CH系数对多个台区的聚类结果进行评价。
4.根据权利要求1所述的方法,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
5.根据权利要求1所述的方法,所述对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,包括:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,将参数数据Zij降到3维或2维。
6.一种对基于降维的电气特征数据进行均值聚类的系统,所述系统包括:
处理单元,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;
降维单元,用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;
执行单元,用于将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据进行聚类,获取多个台区的聚类结果。
7.根据权利要求6所述的系统,还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。
8.根据权利要求6所述的系统,还包括评价单元,用于:通过SC系数和CH系数对多个台区的聚类结果进行评价。
9.根据权利要求6所述的系统,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。
10.根据权利要求6所述的系统,所述降维单元用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,包括:
对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据Zij进行降维,将参数数据Zij降到3维或2维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010052636.6A CN111259965A (zh) | 2020-01-17 | 2020-01-17 | 一种对基于降维的电气特征数据进行均值聚类的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010052636.6A CN111259965A (zh) | 2020-01-17 | 2020-01-17 | 一种对基于降维的电气特征数据进行均值聚类的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259965A true CN111259965A (zh) | 2020-06-09 |
Family
ID=70952290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010052636.6A Pending CN111259965A (zh) | 2020-01-17 | 2020-01-17 | 一种对基于降维的电气特征数据进行均值聚类的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259965A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270338A (zh) * | 2020-09-27 | 2021-01-26 | 西安理工大学 | 一种电力负荷曲线聚类方法 |
CN113393079A (zh) * | 2021-05-07 | 2021-09-14 | 杭州数知梦科技有限公司 | 一种基于公交数据的交通小区划分方法 |
-
2020
- 2020-01-17 CN CN202010052636.6A patent/CN111259965A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270338A (zh) * | 2020-09-27 | 2021-01-26 | 西安理工大学 | 一种电力负荷曲线聚类方法 |
CN113393079A (zh) * | 2021-05-07 | 2021-09-14 | 杭州数知梦科技有限公司 | 一种基于公交数据的交通小区划分方法 |
CN113393079B (zh) * | 2021-05-07 | 2024-01-09 | 杭州数知梦科技有限公司 | 一种基于公交数据的交通小区划分方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110781332A (zh) | 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 | |
CN110991786B (zh) | 基于相似日负荷曲线的10kV静态负荷模型参数辨识方法 | |
CN114298863A (zh) | 一种智能抄表终端的数据采集方法及系统 | |
CN112149873A (zh) | 一种基于深度学习的低压台区线损合理区间预测方法 | |
CN111259965A (zh) | 一种对基于降维的电气特征数据进行均值聚类的方法及系统 | |
CN110738232A (zh) | 一种基于数据挖掘技术的电网电压越限成因诊断方法 | |
CN114519514B (zh) | 一种低压台区合理线损值测算方法、系统及计算机设备 | |
CN113189418B (zh) | 一种基于电压数据的拓扑关系识别方法 | |
CN112001441A (zh) | 一种基于Kmeans-AHC混合聚类算法的配电网线损异常检测方法 | |
Lu et al. | Adaptive weighted fuzzy clustering algorithm for load profiling of smart grid customers | |
CN112819649A (zh) | 确定台区户变关系的方法及装置 | |
Zhang et al. | Short-term load forecasting method based on EWT and IDBSCAN | |
CN113033617A (zh) | 一种基于大数据台区线损数据深度挖掘分析方法 | |
CN115905904A (zh) | 一种配电网馈线的线损异常评估方法及装置 | |
CN108898273A (zh) | 一种基于形态分析的用户侧负荷特征聚类评价方法 | |
CN113112177A (zh) | 一种基于混合指标的台区线损处理方法及系统 | |
CN115051363B (zh) | 一种配网台区户变关系辨识方法、装置及计算机存储介质 | |
CN110703038B (zh) | 一种适用于风机接入配电网的谐波阻抗估算方法 | |
CN111651448A (zh) | 一种基于降噪差分进化的低压拓扑识别方法 | |
CN112464059A (zh) | 配电网用户分类方法、装置、计算机设备和存储介质 | |
Wang et al. | Application of clustering technique to electricity customer classification for load forecasting | |
CN111080089A (zh) | 一种基于随机矩阵理论的线损率关键因子确定方法和装置 | |
CN116307844A (zh) | 一种低压台区线损评估分析方法 | |
Du et al. | Hosting capacity assessment in distribution networks considering wind–photovoltaic–load temporal characteristics | |
CN113609109A (zh) | 一种基于数据孪生的自动化场景信息生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |