CN111860600A - 一种基于最大相关最小冗余判据的用户用电特征选择方法 - Google Patents

一种基于最大相关最小冗余判据的用户用电特征选择方法 Download PDF

Info

Publication number
CN111860600A
CN111860600A CN202010573150.7A CN202010573150A CN111860600A CN 111860600 A CN111860600 A CN 111860600A CN 202010573150 A CN202010573150 A CN 202010573150A CN 111860600 A CN111860600 A CN 111860600A
Authority
CN
China
Prior art keywords
value
electricity utilization
characteristic
formula
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010573150.7A
Other languages
English (en)
Inventor
许洪强
赵晋泉
夏雪
苏大威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Hohai University HHU
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Hohai University HHU filed Critical State Grid Corp of China SGCC
Priority to CN202010573150.7A priority Critical patent/CN111860600A/zh
Publication of CN111860600A publication Critical patent/CN111860600A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于最大相关最小冗余判据的电力用户用电特征选择方法,包括以下步骤:将智能量测终端采集的用户用电数据进行预处理,包括缺失数据与失真数据的填补与剔除;给出聚类类别数k值的选取方法,通过构造聚合回报指标,兼具集聚度与分离度,得到最优k值并完成聚类;给出综合考虑特征的有效性与精简性的特征选取方法,采用最大相关最小冗余准则为判据,通过遍历法求解得到最优特征集。相比现有技术,本发明的方法可为优选出兼顾有效性与精简性的最优特征集,面对大数据环境下用电数据快速增长的情况,所选取的优质用电特征集,不仅能大大减少分析时所需计算的数据,降低计算量,同时能有效地提高分析性能。

Description

一种基于最大相关最小冗余判据的用户用电特征选择方法
技术领域
本发明涉及电力用户用电特性研究领域,具体涉及一种基于最大相关最小冗余判据的电力用户用电特征选择方法,适用于已投用智能量测终端的电网。
背景技术
近年来,新能源高比例接入电力系统,由于风、光的资源特性,新能源出力存在随机性和波动性,因此增加了系统调节的负担。负荷资源调度是应对新能源波动性的重要手段,挖掘用户的用电特性是评估负荷可调控性的基础。此外,电力市场运行机制的精细化发展也依赖于对负荷信息的掌控。目前用户用电特性研究中缺乏对用电特征选取的研究,而选取优质的特征集,一方面可以快速有效地实现样本分类,另一方面可以降低用电行为分析的计算复杂度,对于用户用电行为分析、用电量预测、需求响应策略制定等具有参考意义。
与此同时,电网的智能化与自动化发展在不断推进,用电智能化是其中的关键环节。在智能用电领域,智能量测终端的大量投用,使得用户数据得以实时采集,为深度了解用户用电信息提供了有力支撑。挖掘这些数据中的相似性与关联性有助于电网公司掌握用户用电习惯与行为特性,从而针对用户用电特点,为用户制定个性化服务。在各类用户中,居民用户用电具有个体小但总量大的特点。根据长尾效应可知集聚大量居民用户可以具备规模化的调控潜力。因此研究居民用户用电行为特性对评估整体负荷可调动性具有重要意义。
目前,基于数据驱动的居民用户用电行为分析的研究主要有两类:一类是针对电力用户负荷模型构建以及需求响应技术的研究;另一类是通过数据挖掘的手段开展用户用电模式分类、异常行为的辨识与应对措施等的研究。文献一《基于差量特征提取与模糊聚类的非侵入式负荷监测方法》(电力系统自动化,2017,第41卷第4期第86页)采用差量特征提取方法提取特征值,基于模糊聚类算法完成电器负荷数量与种类的识别,能够有效识别低功率电器,满足精细化智能用电的需求。但该方法着眼于电器级负荷类别的识别,没有涉及对用户整体用电情况的研究。文献二《分时电价下用户响应行为的模型与算法》(电网技术,2013,第 37卷第10期第2973页)提出了一种电力用户需求响应行为的模型与算法,通过寻求用户每天峰、平、谷时段电价比率及总负荷量与用户用电安排的映射关系,描述需求响应机制中用户的用电规律,未涉及对居民用电模式的分类分析。文献三《基于云计算的居民用电行为分析模型研究》(电网技术,2013,第37卷第6期第1542页)基于云计算平台和并行k-means 聚类算法,以峰时耗电率、负荷率等时间序列为特征量,实现居民用户分类,但未对特征的选取做出具体分析。文献四《基于云计算和改进K-means算法的海量用电数据分析方法》(计算机应用,2018,第38卷第1期第159页)通过最大权值积法确定聚类中心,提高了聚类的准确率,基于MapReduce模型实现算法并行化,提高了聚类的效率,聚类所选的特征量依然通过经验确定,采用的是文献三中的特征量。
目前关于用电特征的选取的研究较少,特征的选取多为经验所得,所选特征的有效性与精简性并未得到系统的验证,因此本发明提出了一种综合计及特征自身有效性与特征间冗余性的特征选取方法,首先采用簇内集聚度、类间离散度、样本集密度为参考指标,分析k值的选取以及初始聚类中心的选择,对传统k-means算法做出改进,继而结合聚类结果,统计全体特征集,最后基于最大相关最小冗余判据(maximal relevance and minimalredundancy, mRMR)采用遍历法提取兼顾精简性与有效性的优质特征集。
发明内容
发明目的:基于最大相关最小冗余判据实现居民用户的用电特征选取,有效实现居民用户样本的快速分类和用户用电优质特征的准确提取,降低用电行为分析的计算复杂度,从而为用户用电行为分析、用电量预测、需求响应策略制定等提供参考价值。
技术方案:为实现上述发明目的,本发明采用的技术方案为一种含基于最大相关最小冗余判据判据的居民用户用电特征选择方法,包括以下步骤:
步骤A、对负荷数据进行预处理,预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理;
步骤B、综合计算预处理后的负荷数据的簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类;
步骤C、结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集。
进一步地,步骤A所述对负荷数据进行预处理,预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理,具体按照以下方法:
步骤A1、滤除样本集中的不合理数据,包括有部分缺失、数据过大以及日用电均为零的用户数据;
步骤A2、将滤除后得到的样本数据进行归一化处理,其表达式如下:
Figure RE-GDA0002691838880000021
式中:xmtn为第m个用户第t时刻的归一化值;xmt为第m个用户第t时刻的用电量;xmmin和 xmmax分别为第m个用户日用电的最大值和最小值。
进一步地,步骤B所述综合计算簇内集聚度、类间离散度,构造聚合回报指标,选取合适k 值,并在此基础上完成k-means聚类,具体按照以下方法:
步骤B1、误差平方和(sum of squared error,SSE)的定义如下:
Figure RE-GDA0002691838880000031
式中,Ci为第i个类别;x为Ci中的样本点;mi为Ci的质心,即所有样本的均值;
当k值小于最佳聚类数时,k值的增加会大幅增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE 值下降幅度会骤减;
步骤B2、为量化集聚程度回报大小,定义误差降低系数βSSE为:
Figure RE-GDA0002691838880000032
步骤B3、针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:
Figure RE-GDA0002691838880000033
式中,a(xi)为样本xi到簇A其他样本点的平均欧式距离;对于簇B而言,令:D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则
Figure RE-GDA0002691838880000034
即为样本xi到其他簇的平均距离的最小值;
求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:
Figure RE-GDA0002691838880000035
式中,
Figure RE-GDA0002691838880000036
为平均轮廓系数;C为总样本集;n为总样本数;
步骤B4、误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标Re:
Figure RE-GDA0002691838880000037
给定一个最大聚类数kmax,取[2,kmax]的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报指标值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数k值的自动确定;
确定最佳k值后,采用k-means算法对样本进行聚类分析。
进一步地,步骤C所述结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集的步骤中,具体按照以下方法:
步骤C1、构建初始特征集;
采用源于用电曲线的用电特征来表征用户用电行为;用电特征分为两大类:一类是直观描述型,包括日用电量,日最大负荷、日最小负荷、日平均负荷,日峰谷差;另一类是比值描述型,包括谷电系数,日负荷率、日峰谷差率,峰时耗电率,平时段用电百分比;原始特征集由上述两类特征组合构成,记为T={t1,t2,…,tN};
步骤C2、对用电特征进行变量域离散化处理;
把各用电特征的数值序列转化为概率分布区间,对特征集进行归一化处理,将用电特征数值序列区间均匀离散,得到用电特征数值序列的概率分布,继而完成对各个用电特征与用户类别的互信息计算;
步骤C3、以互信息为基础构建最大相关性指标;
第i个用电特征ti的熵的计算公式为:
Figure RE-GDA0002691838880000041
式中,Ni为用电特征ti的区间数量;Mu为用电特征ti落在第u个区间的样本个数;M为总样本数;底数取2;
用户类别d的信息熵为:
Figure RE-GDA0002691838880000042
式中,Nd为用户总类别数;Mv为属于第v个类别的样本个数;底数取2;
第i个用电特征ti与用户类别d的联合信息熵为:
Figure RE-GDA0002691838880000043
式中,Muv为ti落在第u个区间且用户类别d恰好为v的样本个数;底数取2;
第i个用电特征ti与用户类别d的互信息定义为:
I(ti;d)=H(ti)+H(d)-H(ti,d)
根据上式分别求出每个用电特征与用户类别间的互信息;
最大相关性指标D(S,d)为:
Figure RE-GDA0002691838880000051
式中,S与NS为最优特征集及其所包含用电特征的个数;I(ti;d)为S中第i个用电特征和用户类别d之间的互信息值;
步骤C4、以相关系数为基础构建最小冗余性指标;
两个用电特征间信息的冗余性用相关系数指标来衡量,其公式如下:
Figure RE-GDA0002691838880000052
式中,ti和tj分别为最优特征集S中第i和第j个用电特征;cov(ti,tj)为两个用电特征的协方差;
Figure RE-GDA0002691838880000053
Figure RE-GDA0002691838880000054
分别为用电特征ti和tj的标准差;
Figure RE-GDA0002691838880000055
为两个用电特征的相关系数,取值范围为[-1,1],绝对值越接近于1,相关性越大,越接近0,相关性越小;
最小冗余性指标R(S)为:
Figure RE-GDA0002691838880000056
步骤C5、综合两个指标得到最大相关最小冗余准则;
相应的公式如下:
Figure RE-GDA0002691838880000057
求解满足最大相关最小冗余准则的特征集S即为最优特征集;
步骤C6、采用遍历法求解最大相关最小冗余准则,得到最优特征集;
令fi为用电特征ti的集合隶属度指示函数,对其进行0-1编码,fi=1表示该用电特征存在于S中,fi=0则表示在S中不存在标签ti;为简化公式表达,将互信息与相关系数分别用ai与bij表示,即:
Figure RE-GDA0002691838880000058
将上式代入后得到:
Figure RE-GDA0002691838880000059
遍历f=(0,0,…0)至f=(1,1,…,1)得到使mRMR最大的f向量,解码后得到最优特征集S。
区别于现有技术,本发明的基于最大相关最小冗余判据的电力用户用电特征选择方法,通过对传统k-means算法做出改进,结合互信息与相关系数两个指标对特征有效性与冗余性进行分析,基于最大相关最小冗余判据采用遍历法提取兼顾精简性与有效性的优质特征集。本发明通过给出k值与初始聚类中心的选取方法对传统k-means算法进行改进,可以快速有效地实现样本分类;综合考量用电特征的有效性与冗余性,所选优质特征集可反映用户用电特性;通过提取的优质特征集,降低用电行为分析的计算复杂度,对于用户用电行为分析、用电量预测、需求响应策略制定等具有参考意义。
附图说明
图1是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法的流程示意图。
图2是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中完成k-means聚类时k值选取过程的示意图。
图3是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中午晚长峰型用户基于改进k-means算法的聚类效果图。
图4是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中晚间单峰型用户基于改进k-means算法的聚类效果图。
图5是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中午高峰晚次峰型用户基于改进k-means算法的聚类效果图。
图6是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中三类用户基于改进k-means算法的聚类中心示意图。
图7是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中用电特征有效性示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
根据图1的总体运行流程图,对本发明的具体步骤进行详细的说明。
具体分为两个部分:改进k-means聚类分析部分与最优特征提取部分。
所述步骤1针对传统k-means算法进行改进,具体方法为:
步骤B所述综合计及簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类,具体按照以下方法:
步骤B1、误差平方和(sum of squared error,SSE)的定义如下:
Figure RE-GDA0002691838880000071
式中,Ci为第i个类别;x为Ci中的样本点;mi为Ci的质心,即所有样本的均值。
当k值小于最佳聚类数时,k值的增加会大幅增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE 值下降幅度会骤减。
步骤B2、为量化集聚程度回报大小,定义误差降低系数βSSE为:
Figure RE-GDA0002691838880000072
步骤B3、针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:
Figure RE-GDA0002691838880000073
式中,a(xi)为样本xi到簇A其他样本点的平均欧式距离;对于簇B而言,令:D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则
Figure RE-GDA0002691838880000074
即为样本xi到其他簇的平均距离的最小值;
求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:
Figure RE-GDA0002691838880000075
式中,
Figure RE-GDA0002691838880000076
为平均轮廓系数;C为总样本集;n为总样本数;
传统k-means算法是随机选取初始聚类中心,而这种随机性会对结果造成很大的影响,容易选到噪声数据和孤立点,从而使算法迭代次数变多,时间性能变差,还容易陷入局部最优。为解决随机性的问题,本发明综合考虑密度、距离两个参考量选择初始聚类中心。具体步骤如下:
1)首先,从所有数据点中选择密度最大的一个点作为初始聚类中心点;
2)然后选择距离该点最远的点作为第二个初始聚类中心;
3)继而选择距离前两个点最短距离最大的点作为第三个初始聚类中心;
4)最后,依次类推,得到k个初始聚类中心。
所述步骤2进行聚类分析并统计全体特征集,对各特征进行有效性与冗余性分析,具体方法为:
常用的用电特征可分为两大类,一类是直观描述型,包括日用电量,日最大负荷、日最小负荷、日平均负荷,日峰谷差;另一类是比值描述型,包括日负荷率、日峰谷差率,峰时耗电率,平时段用电百分比,谷电系数。
将上述两类用电特征组合得到全体特征集T={日用电量,日最大负荷、日最小负荷、日平均负荷,日峰谷差,日负荷率、日峰谷差率,峰时耗电率,平时段用电百分比,谷电系数}。
根据统计得到的全体特征集T,结合改进聚类算法的分类结果,计算已知用电特征t的情况下所能得到的关于用户类别的信息量的多少,并以此来衡量特征t的有效性,信息量越大,则说明该特征与用户分类关联性越大,即最大化特征与类别变量间的相关性。在求解过程中,为了让各特征变量更具有统计学意义,需要对各个变量进行变量域离散化处理,先对特征集进行归一化处理,再将变量区间均匀离散,得到各特征变量的概率分布,继而完成对各个特征量与用户类别的互信息计算。
在信息论中,熵作为信息不确定性的一个测度,熵越大表示信息不确定的程度越高。第i 个特征ti的熵的计算公式为:
Figure RE-GDA0002691838880000081
式中,Ni为特征ti的区间数量;Mu为特征ti落在第u个区间的样本个数;M为总样本数;底数一般取2。
用户类别d的信息熵为:
Figure RE-GDA0002691838880000082
式中,Nd为用户总类别数;Mv为属于第v个类别的样本个数;底数一般取2。
第i个特征ti与用户类别d的联合信息熵为:
Figure RE-GDA0002691838880000083
式中,Muv为ti落在第u个区间且用户类别d恰好为v的样本个数;底数一般取2。
第i个特征ti与用户类别d的互信息定义为:
I(ti;d)=H(ti)+H(d)-H(ti,d)
根据上式即可分别求出每个特征与用户类别间的互信息。
最大相关性指标D(S,d)为:
Figure RE-GDA0002691838880000084
式中,S与NS为最优特征集及其所包含特征的个数;I(ti;d)为S中第i个特征和用户类别d之间的互信息值。
两个特征间信息的冗余性可以用信息增益、基尼系数、相关系数等指标来衡量。本文采用相关系数,其公式如下:
Figure RE-GDA0002691838880000091
式中,ti和tj分别为最优特征集S中第i和第j个特征;cov(ti,tj)为两个特征的协方差;
Figure RE-GDA0002691838880000092
Figure RE-GDA0002691838880000093
分别为特征ti和tj的标准差;
Figure RE-GDA0002691838880000094
为两个特征的相关系数,取值范围为[-1,1],绝对值越接近于1,相关性越大,越接近0,相关性越小。
最小冗余性指标R(S)为:
Figure RE-GDA0002691838880000095
所述步骤3基于mRMR判据,采用遍历法提取优质特征集,具体方法为:
综合以上两个指标得到最大相关最小冗余准则,相应的公式如下:
Figure RE-GDA0002691838880000096
求解满足最大相关最小冗余准则的特征集S即为最优特征集。
因此,优质特征集就是从全体特征集中提取满足使mRMR最大的特征集S。
本发明采用遍历求解法,该方法得到的是全局最优解,且结果不受初始特征选取的影响。
最优特征集S的求解可转化为优化问题,可分为增量搜索法与群体智能算法两类。但是,增量搜索法可能存在首个特征选取不当的问题,群体智能算法则易陷入局部最优。考虑到用户用电行为的初始特征数量不大,因此采用遍历法,可得到全局最优解。
令fi为ti的集合隶属度指示函数,对其进行0-1编码,fi=1表示该特征存在于S中,fi=0 则表示在S中不存在标签ti。为简化公式表达,将互信息与相关系数分别用ai与bij表示,即:
Figure RE-GDA0002691838880000097
代入后得到:
Figure RE-GDA0002691838880000098
遍历f=(0,0,…0)至f=(1,1,…,1)得到使mRMR最大的f向量,解码后得到最优特征集S。
效果验证:
结果验证:为了测试本发明所述方法的有效性,应用本发明方法对6227个用户用电数据进行了分析验证。
算例:实验数据来自于SEAI发布的爱尔兰智能电表实际量测数据。数据采集了爱尔兰 6277个居民用户于2009年7月14日的日用电数据,每30min采集一次,每用户每天48个采样点,共计6277组数据。
如图2,通过对一系列自然数演算后发现,k值在取到7时轮廓系数最大,轮廓系数越大则簇内样本的距离越近,簇间样本距离越远,但此时SSE值并不处于斜率突变期,当k取3 时,轮廓系数处于第二高峰,且此时SSE斜率陡变,曲线趋于平稳,聚合回报达到最理想状态。因此,综合两个指标共同反映的内聚度与分离度,最佳k值为3。因此通过改进后的k-means 算法可将样本分为三类,如图3-5所示,分别为午晚长峰型用户(A类用户)、晚间单峰型用户(B类用户)、午高峰晚次峰型用户(C类用户)。图6为三类用户的聚类中心。
以信息熵为衡量指标,结合聚类结果可以得到全体特征集的互信息值,反映了不同特征的有效性。如图7所示。以相关系数为衡量指标,得到各特征量之间的关联系,反映了特征之间囊括的信息的重复性,其值介于-1至1间,如表1所示。
表1特征间相关系数
Figure RE-GDA0002691838880000101
综合分析特征有效性以及特征间信息重复性,得到使mRMR值最大的隶属度函数值f为 [0 0 0 1 0 0 1 0 0 1]。解码得到所选特征编号为4、7、10,对应特征为日平均负荷、日负荷率与平时段用电百分比。为验证所选取的最优特征集的有效性与精简性,将全体特征集作为对比特征集1,《智能用电用户行为分析特征优选策略》(电力系统自动化,2017,第41卷第5 期第58页)所提特征集作为对比特征集2,互信息值最大的三个特征组成对比特征集3。以计算时间、分类准确率、迭代次数为衡量指标,对比结果如表2所示。
表2不同实验性能对比
Figure RE-GDA0002691838880000102
Figure RE-GDA0002691838880000111
从上述结果中可以发现,本发明方法准确率高、速度快、效果好,可以有效实现居民用户样本的快速分类和用户用电优质特征的准确提取,降低用电行为分析的计算复杂度。本发明所提特征选取方法可用于海量用户用电行为分析,为用户用电行为分析、用电量预测、需求响应策略制定等提供参考意义。
以上对本发明所提供的基于最大相关最小冗余判据的居民用户用电特征选择方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (4)

1.一种基于最大相关最小冗余判据的电力用户用电特征选择方法,其包括以下步骤:
步骤A、对负荷数据进行预处理,预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理;
步骤B、综合计算预处理后的负荷数据的簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类;
步骤C、结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集。
2.如权利要求1所述的基于最大相关最小冗余判据的电力用户用电特征选择方法,其特征在于,步骤A所述对负荷数据进行预处理,具体按照以下方法:
步骤A1、滤除样本集中的不合理数据,包括有部分缺失、数据过大以及日用电均为零的用户数据;
步骤A2、将滤除后得到的样本数据进行归一化处理,其表达式如下:
Figure FDA0002550124390000011
式中:xmtn为第m个用户第t时刻的归一化值;xmt为第m个用户第t时刻的用电量;xmmin和xmmax分别为第m个用户日用电的最大值和最小值。
3.如权利要求1所述的基于最大相关最小冗余判据的电力用户用电特征选择方法,其特征在于,步骤B所述综合计算簇内集聚度、类间离散度,构造聚合回报指标,选取合适k值,并在此基础上完成k-means聚类,具体按照以下方法:
步骤B1、误差平方和(sum of squared error,SSE)的定义如下:
Figure FDA0002550124390000012
式中,Ci为第i个类别;x为Ci中的样本点;mi为Ci的质心,即所有样本的均值;
当k值小于最佳聚类数时,k值的增加会大幅增加每个簇的集聚程度,故SSE值的下降幅度会陡增,而当k值达到最佳聚类数时,再增加k值所得到的集聚程度回报会迅速变小,SSE值下降幅度会骤减;
步骤B2、为量化集聚程度回报大小,定义误差降低系数βSSE为:
Figure FDA0002550124390000013
步骤B3、针对样本点xi,假设其被聚类到簇A,则其轮廓系数如下:
Figure FDA0002550124390000021
式中,a(xi)为样本xi到簇A其他样本点的平均欧式距离;对于簇B而言,令:D(xi,B)为样本xi与簇B中所有样本的平均欧氏距离,则
Figure FDA0002550124390000022
即为样本xi到其他簇的平均距离的最小值;
求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数:
Figure FDA0002550124390000023
式中,
Figure FDA0002550124390000024
为平均轮廓系数;C为总样本集;n为总样本数;
步骤B4、误差降低系数反映的是簇内集聚度,平均轮廓系数则体现了簇间分离度,因此,综合两个系数定义了聚合回报指标Re:
Figure FDA0002550124390000025
给定一个最大聚类数kmax,取[2,kmax]的范围内每个整数作为聚类数,分别进行一次聚类,当聚合回报指标值最大时,聚类结果最优,通过定义聚合回报指标,实现最佳聚类数k值的自动确定;
确定最佳k值后,采用k-means算法对样本进行聚类分析。
4.如权利要求1所述的基于最大相关最小冗余判据的电力用户用电特征选择方法,其特征在于,步骤C所述结合有效性与冗余性指标,基于最大相关最小冗余判据,采用遍历法提取优质用电特征集的步骤中,具体按照以下方法:
步骤C1、构建初始特征集;
采用源于用电曲线的用电特征来表征用户用电行为;用电特征分为两大类:一类是直观描述型,包括日用电量,日最大负荷、日最小负荷、日平均负荷,日峰谷差;另一类是比值描述型,包括谷电系数,日负荷率、日峰谷差率,峰时耗电率,平时段用电百分比;原始特征集由上述两类特征组合构成,记为T={t1,t2,…,tN};
步骤C2、对用电特征进行变量域离散化处理;
把各用电特征的数值序列转化为概率分布区间,对特征集进行归一化处理,将用电特征数值序列区间均匀离散,得到用电特征数值序列的概率分布,继而完成对各个用电特征与用户类别的互信息计算;
步骤C3、以互信息为基础构建最大相关性指标;
第i个用电特征ti的熵的计算公式为:
Figure FDA0002550124390000031
式中,Ni为用电特征ti的区间数量;Mu为用电特征ti落在第u个区间的样本个数;M为总样本数;底数取2;
用户类别d的信息熵为:
Figure FDA0002550124390000032
式中,Nd为用户总类别数;Mv为属于第v个类别的样本个数;底数取2;
第i个用电特征ti与用户类别d的联合信息熵为:
Figure FDA0002550124390000033
式中,Muv为ti落在第u个区间且用户类别d恰好为v的样本个数;底数取2;
第i个用电特征ti与用户类别d的互信息定义为:
I(ti;d)=H(ti)+H(d)-H(ti,d)
根据上式分别求出每个用电特征与用户类别间的互信息;
最大相关性指标D(S,d)为:
Figure FDA0002550124390000034
式中,S与NS为最优特征集及其所包含用电特征的个数;I(ti;d)为S中第i个用电特征和用户类别d之间的互信息值;
步骤C4、以相关系数为基础构建最小冗余性指标;
两个用电特征间信息的冗余性用相关系数指标来衡量,其公式如下:
Figure FDA0002550124390000035
式中,ti和tj分别为最优特征集S中第i和第j个用电特征;cov(ti,tj)为两个用电特征的协方差;
Figure FDA0002550124390000036
Figure FDA0002550124390000037
分别为用电特征ti和tj的标准差;
Figure FDA0002550124390000038
为两个用电特征的相关系数,取值范围为[-1,1],绝对值越接近于1,相关性越大,越接近0,相关性越小;
最小冗余性指标R(S)为:
Figure FDA0002550124390000041
步骤C5、综合两个指标得到最大相关最小冗余准则;
相应的公式如下:
Figure FDA0002550124390000042
求解满足最大相关最小冗余准则的特征集S即为最优特征集;
步骤C6、采用遍历法求解最大相关最小冗余准则,得到最优特征集;
令fi为用电特征ti的集合隶属度指示函数,对其进行0-1编码,fi=1表示该用电特征存在于S中,fi=0则表示在S中不存在标签ti;为简化公式表达,将互信息与相关系数分别用ai与bij表示,即:
Figure FDA0002550124390000043
将上式代入后得到:
Figure FDA0002550124390000044
遍历f=(0,0,…0)至f=(1,1,…,1)得到使mRMR最大的f向量,解码后得到最优特征集S。
CN202010573150.7A 2020-06-22 2020-06-22 一种基于最大相关最小冗余判据的用户用电特征选择方法 Pending CN111860600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010573150.7A CN111860600A (zh) 2020-06-22 2020-06-22 一种基于最大相关最小冗余判据的用户用电特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010573150.7A CN111860600A (zh) 2020-06-22 2020-06-22 一种基于最大相关最小冗余判据的用户用电特征选择方法

Publications (1)

Publication Number Publication Date
CN111860600A true CN111860600A (zh) 2020-10-30

Family

ID=72987893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010573150.7A Pending CN111860600A (zh) 2020-06-22 2020-06-22 一种基于最大相关最小冗余判据的用户用电特征选择方法

Country Status (1)

Country Link
CN (1) CN111860600A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257953A (zh) * 2020-11-03 2021-01-22 上海电力大学 一种基于极地新能源发电功率预测的数据处理方法
CN112732748A (zh) * 2021-01-07 2021-04-30 西安理工大学 一种基于自适应特征选择的非侵入式家电负荷识别方法
CN112800148A (zh) * 2021-02-04 2021-05-14 国网福建省电力有限公司 一种基于聚类特征树和离群度量化的散乱污企业研判方法
CN112819299A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于中心优化的差分K-means负荷聚类方法
CN112924994A (zh) * 2021-01-21 2021-06-08 中国人民解放军61081部队 一种导航卫星星载原子钟性能综合评估方法
CN113159398A (zh) * 2021-04-01 2021-07-23 国网内蒙古东部电力有限公司 用电量预测方法、装置以及电子设备
CN113484573A (zh) * 2021-07-14 2021-10-08 国家电网有限公司 基于能源数据分析的异常用电监测方法
CN113537734A (zh) * 2021-06-28 2021-10-22 国网福建省电力有限公司经济技术研究院 基于最大相关最小冗余的能源数据应用目录提取方法
CN113610182A (zh) * 2021-08-19 2021-11-05 国网江苏省电力有限公司宿迁供电分公司 用户用电行为聚类分析方法、系统及存储介质
CN114266396A (zh) * 2021-12-21 2022-04-01 国网天津市电力公司 一种基于电网特征智能筛选的暂态稳定判别方法
CN116680546A (zh) * 2023-08-02 2023-09-01 北京前景无忧电子科技股份有限公司 一种低压配电网台区线损率识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971205A (zh) * 2017-04-06 2017-07-21 哈尔滨理工大学 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971205A (zh) * 2017-04-06 2017-07-21 哈尔滨理工大学 一种基于k近邻互信息估计的嵌入式动态特征选择方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
王学贺: "一种基于改进微粒群和轮廓系数的划分聚类方法", 《云南民族大学学报(自然科学版)》, pages 79 - 83 *
赖学方: "最小冗余最大分离准则特征选择方法", 最小冗余最大分离准则特征选择方法, pages 70 - 74 *
陆俊: "智能用电用户行为分析特征优选策略", 《电力系统自动化》, vol. 41, no. 5, pages 58 - 62 *
龚钢军: "智能用电用户行为分析的聚类优选策略", 《电力系统自动化》, vol. 42, no. 2, pages 58 - 62 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257953B (zh) * 2020-11-03 2021-09-24 上海电力大学 一种基于极地新能源发电功率预测的数据处理方法
CN112257953A (zh) * 2020-11-03 2021-01-22 上海电力大学 一种基于极地新能源发电功率预测的数据处理方法
CN112732748A (zh) * 2021-01-07 2021-04-30 西安理工大学 一种基于自适应特征选择的非侵入式家电负荷识别方法
CN112732748B (zh) * 2021-01-07 2024-03-15 西安理工大学 一种基于自适应特征选择的非侵入式家电负荷识别方法
CN112819299A (zh) * 2021-01-21 2021-05-18 上海电力大学 一种基于中心优化的差分K-means负荷聚类方法
CN112924994A (zh) * 2021-01-21 2021-06-08 中国人民解放军61081部队 一种导航卫星星载原子钟性能综合评估方法
CN112800148B (zh) * 2021-02-04 2022-06-07 国网福建省电力有限公司 一种基于聚类特征树和离群度量化的散乱污企业研判方法
CN112800148A (zh) * 2021-02-04 2021-05-14 国网福建省电力有限公司 一种基于聚类特征树和离群度量化的散乱污企业研判方法
CN113159398A (zh) * 2021-04-01 2021-07-23 国网内蒙古东部电力有限公司 用电量预测方法、装置以及电子设备
CN113159398B (zh) * 2021-04-01 2023-10-24 国网内蒙古东部电力有限公司 用电量预测方法、装置以及电子设备
CN113537734A (zh) * 2021-06-28 2021-10-22 国网福建省电力有限公司经济技术研究院 基于最大相关最小冗余的能源数据应用目录提取方法
CN113537734B (zh) * 2021-06-28 2023-02-03 国网福建省电力有限公司经济技术研究院 基于最大相关最小冗余的能源数据应用目录提取方法
CN113484573B (zh) * 2021-07-14 2023-03-07 国家电网有限公司 基于能源数据分析的异常用电监测方法
CN113484573A (zh) * 2021-07-14 2021-10-08 国家电网有限公司 基于能源数据分析的异常用电监测方法
CN113610182A (zh) * 2021-08-19 2021-11-05 国网江苏省电力有限公司宿迁供电分公司 用户用电行为聚类分析方法、系统及存储介质
CN114266396A (zh) * 2021-12-21 2022-04-01 国网天津市电力公司 一种基于电网特征智能筛选的暂态稳定判别方法
CN116680546A (zh) * 2023-08-02 2023-09-01 北京前景无忧电子科技股份有限公司 一种低压配电网台区线损率识别方法

Similar Documents

Publication Publication Date Title
CN111860600A (zh) 一种基于最大相关最小冗余判据的用户用电特征选择方法
Wang et al. Load profiling and its application to demand response: A review
Fu et al. Clustering-based short-term load forecasting for residential electricity under the increasing-block pricing tariffs in China
CN108376262B (zh) 一种风电出力典型特性的分析模型构建方法
CN110781332A (zh) 基于复合聚类算法的电力居民用户日负荷曲线聚类方法
Dou et al. Hybrid model for renewable energy and loads prediction based on data mining and variational mode decomposition
CN106529707A (zh) 一种负荷用电模式识别方法
CN110930198A (zh) 基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备
CN108805213B (zh) 计及小波熵降维的电力负荷曲线双层谱聚类方法
Lu et al. A weekly load data mining approach based on hidden Markov model
CN109634940A (zh) 一种基于海量低压台区用电数据的典型低压台区用电模型构建方法
Lu et al. Adaptive weighted fuzzy clustering algorithm for load profiling of smart grid customers
CN111144447B (zh) 一种新能源出力引起的反调峰风险的电网峰谷时段划分方法
CN110675020A (zh) 一种基于大数据的高价低接用户识别方法
Kojury-Naftchali et al. Identifying susceptible consumers for demand response and energy efficiency policies by time-series analysis and supplementary approaches
Fontanini et al. A data-driven BIRCH clustering method for extracting typical load profiles for big data
Wang et al. Big data analytics for price forecasting in smart grids
CN113450031B (zh) 居民智慧用能服务潜在台区选取方法及装置
Grigoras et al. Processing of smart meters data for peak load estimation of consumers
CN107730399B (zh) 基于风力发电特性曲线的理论线损评估方法
CN112365164A (zh) 基于改进密度峰值快速搜索聚类算法的中大型能源用户用能特性画像方法
Jianyuan et al. Anomaly electricity detection method based on entropy weight method and isolated forest algorithm
CN111553434A (zh) 一种电力系统负荷分类方法及系统
CN111324790A (zh) 基于支持向量机分类的负荷类型识别方法
Kojury-Naftchali et al. AMI Data Analytics: customer charactrization by relief algorithm and supplementary tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination