CN111860600A

CN111860600A - 一种基于最大相关最小冗余判据的用户用电特征选择方法

Info

Publication number: CN111860600A
Application number: CN202010573150.7A
Authority: CN
Inventors: 许洪强; 赵晋泉; 夏雪; 苏大威
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hohai University HHU
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Hohai University HHU
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2020-10-30

Abstract

本发明公开了一种基于最大相关最小冗余判据的电力用户用电特征选择方法，包括以下步骤：将智能量测终端采集的用户用电数据进行预处理，包括缺失数据与失真数据的填补与剔除；给出聚类类别数k值的选取方法，通过构造聚合回报指标，兼具集聚度与分离度，得到最优k值并完成聚类；给出综合考虑特征的有效性与精简性的特征选取方法，采用最大相关最小冗余准则为判据，通过遍历法求解得到最优特征集。相比现有技术，本发明的方法可为优选出兼顾有效性与精简性的最优特征集，面对大数据环境下用电数据快速增长的情况，所选取的优质用电特征集，不仅能大大减少分析时所需计算的数据，降低计算量，同时能有效地提高分析性能。

Description

一种基于最大相关最小冗余判据的用户用电特征选择方法

技术领域

本发明涉及电力用户用电特性研究领域，具体涉及一种基于最大相关最小冗余判据的电力用户用电特征选择方法，适用于已投用智能量测终端的电网。

背景技术

近年来，新能源高比例接入电力系统，由于风、光的资源特性，新能源出力存在随机性和波动性，因此增加了系统调节的负担。负荷资源调度是应对新能源波动性的重要手段，挖掘用户的用电特性是评估负荷可调控性的基础。此外，电力市场运行机制的精细化发展也依赖于对负荷信息的掌控。目前用户用电特性研究中缺乏对用电特征选取的研究，而选取优质的特征集，一方面可以快速有效地实现样本分类，另一方面可以降低用电行为分析的计算复杂度，对于用户用电行为分析、用电量预测、需求响应策略制定等具有参考意义。

与此同时，电网的智能化与自动化发展在不断推进，用电智能化是其中的关键环节。在智能用电领域，智能量测终端的大量投用，使得用户数据得以实时采集，为深度了解用户用电信息提供了有力支撑。挖掘这些数据中的相似性与关联性有助于电网公司掌握用户用电习惯与行为特性，从而针对用户用电特点，为用户制定个性化服务。在各类用户中，居民用户用电具有个体小但总量大的特点。根据长尾效应可知集聚大量居民用户可以具备规模化的调控潜力。因此研究居民用户用电行为特性对评估整体负荷可调动性具有重要意义。

目前，基于数据驱动的居民用户用电行为分析的研究主要有两类：一类是针对电力用户负荷模型构建以及需求响应技术的研究；另一类是通过数据挖掘的手段开展用户用电模式分类、异常行为的辨识与应对措施等的研究。文献一《基于差量特征提取与模糊聚类的非侵入式负荷监测方法》(电力系统自动化，2017，第41卷第4期第86页)采用差量特征提取方法提取特征值，基于模糊聚类算法完成电器负荷数量与种类的识别，能够有效识别低功率电器，满足精细化智能用电的需求。但该方法着眼于电器级负荷类别的识别，没有涉及对用户整体用电情况的研究。文献二《分时电价下用户响应行为的模型与算法》(电网技术，2013，第 37卷第10期第2973页)提出了一种电力用户需求响应行为的模型与算法，通过寻求用户每天峰、平、谷时段电价比率及总负荷量与用户用电安排的映射关系，描述需求响应机制中用户的用电规律，未涉及对居民用电模式的分类分析。文献三《基于云计算的居民用电行为分析模型研究》(电网技术，2013，第37卷第6期第1542页)基于云计算平台和并行k-means 聚类算法，以峰时耗电率、负荷率等时间序列为特征量，实现居民用户分类，但未对特征的选取做出具体分析。文献四《基于云计算和改进K-means算法的海量用电数据分析方法》(计算机应用，2018，第38卷第1期第159页)通过最大权值积法确定聚类中心，提高了聚类的准确率，基于MapReduce模型实现算法并行化，提高了聚类的效率，聚类所选的特征量依然通过经验确定，采用的是文献三中的特征量。

目前关于用电特征的选取的研究较少，特征的选取多为经验所得，所选特征的有效性与精简性并未得到系统的验证，因此本发明提出了一种综合计及特征自身有效性与特征间冗余性的特征选取方法，首先采用簇内集聚度、类间离散度、样本集密度为参考指标，分析k值的选取以及初始聚类中心的选择，对传统k-means算法做出改进，继而结合聚类结果，统计全体特征集，最后基于最大相关最小冗余判据(maximal relevance and minimalredundancy， mRMR)采用遍历法提取兼顾精简性与有效性的优质特征集。

发明内容

发明目的：基于最大相关最小冗余判据实现居民用户的用电特征选取，有效实现居民用户样本的快速分类和用户用电优质特征的准确提取，降低用电行为分析的计算复杂度，从而为用户用电行为分析、用电量预测、需求响应策略制定等提供参考价值。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种含基于最大相关最小冗余判据判据的居民用户用电特征选择方法，包括以下步骤：

步骤A、对负荷数据进行预处理，预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理；

步骤B、综合计算预处理后的负荷数据的簇内集聚度、类间离散度，构造聚合回报指标，选取合适k值，并在此基础上完成k-means聚类；

步骤C、结合有效性与冗余性指标，基于最大相关最小冗余判据，采用遍历法提取优质用电特征集。

进一步地，步骤A所述对负荷数据进行预处理，预处理主要包括缺失数据与失真数据的填补与剔除以及用电数据归一化处理，具体按照以下方法：

步骤A1、滤除样本集中的不合理数据，包括有部分缺失、数据过大以及日用电均为零的用户数据；

步骤A2、将滤除后得到的样本数据进行归一化处理，其表达式如下：

式中：x_mtn为第m个用户第t时刻的归一化值；x_mt为第m个用户第t时刻的用电量；x_mmin和 x_mmax分别为第m个用户日用电的最大值和最小值。

进一步地，步骤B所述综合计算簇内集聚度、类间离散度，构造聚合回报指标，选取合适k 值，并在此基础上完成k-means聚类，具体按照以下方法：

步骤B1、误差平方和(sum of squared error，SSE)的定义如下：

式中，C_i为第i个类别；x为C_i中的样本点；m_i为C_i的质心，即所有样本的均值；

当k值小于最佳聚类数时，k值的增加会大幅增加每个簇的集聚程度，故SSE值的下降幅度会陡增，而当k值达到最佳聚类数时，再增加k值所得到的集聚程度回报会迅速变小，SSE 值下降幅度会骤减；

步骤B2、为量化集聚程度回报大小，定义误差降低系数β_SSE为：

步骤B3、针对样本点x_i，假设其被聚类到簇A，则其轮廓系数如下：

式中，a(x_i)为样本x_i到簇A其他样本点的平均欧式距离；对于簇B而言，令：D(x_i,B)为样本x_i与簇B中所有样本的平均欧氏距离，则

即为样本x_i到其他簇的平均距离的最小值；

求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数：

式中，

为平均轮廓系数；C为总样本集；n为总样本数；

步骤B4、误差降低系数反映的是簇内集聚度，平均轮廓系数则体现了簇间分离度，因此，综合两个系数定义了聚合回报指标Re：

给定一个最大聚类数k_max，取[2,k_max]的范围内每个整数作为聚类数，分别进行一次聚类，当聚合回报指标值最大时，聚类结果最优，通过定义聚合回报指标，实现最佳聚类数k值的自动确定；

确定最佳k值后，采用k-means算法对样本进行聚类分析。

进一步地，步骤C所述结合有效性与冗余性指标，基于最大相关最小冗余判据，采用遍历法提取优质用电特征集的步骤中，具体按照以下方法：

步骤C1、构建初始特征集；

采用源于用电曲线的用电特征来表征用户用电行为；用电特征分为两大类：一类是直观描述型，包括日用电量，日最大负荷、日最小负荷、日平均负荷，日峰谷差；另一类是比值描述型，包括谷电系数，日负荷率、日峰谷差率，峰时耗电率，平时段用电百分比；原始特征集由上述两类特征组合构成，记为T＝{t₁,t₂,…,t_N}；

步骤C2、对用电特征进行变量域离散化处理；

把各用电特征的数值序列转化为概率分布区间，对特征集进行归一化处理，将用电特征数值序列区间均匀离散，得到用电特征数值序列的概率分布，继而完成对各个用电特征与用户类别的互信息计算；

步骤C3、以互信息为基础构建最大相关性指标；

第i个用电特征t_i的熵的计算公式为：

式中，N_i为用电特征t_i的区间数量；M_u为用电特征t_i落在第u个区间的样本个数；M为总样本数；底数取2；

用户类别d的信息熵为：

式中，N_d为用户总类别数；M_v为属于第v个类别的样本个数；底数取2；

第i个用电特征t_i与用户类别d的联合信息熵为：

式中，M_uv为t_i落在第u个区间且用户类别d恰好为v的样本个数；底数取2；

第i个用电特征t_i与用户类别d的互信息定义为：

I(t_i；d)＝H(t_i)+H(d)-H(t_i,d)

根据上式分别求出每个用电特征与用户类别间的互信息；

最大相关性指标D(S,d)为：

式中，S与N_S为最优特征集及其所包含用电特征的个数；I(t_i；d)为S中第i个用电特征和用户类别d之间的互信息值；

步骤C4、以相关系数为基础构建最小冗余性指标；

两个用电特征间信息的冗余性用相关系数指标来衡量，其公式如下：

式中，t_i和t_j分别为最优特征集S中第i和第j个用电特征；cov(t_i,t_j)为两个用电特征的协方差；

和

分别为用电特征t_i和t_j的标准差；

为两个用电特征的相关系数，取值范围为[-1,1]，绝对值越接近于1，相关性越大，越接近0，相关性越小；

最小冗余性指标R(S)为：

步骤C5、综合两个指标得到最大相关最小冗余准则；

相应的公式如下：

求解满足最大相关最小冗余准则的特征集S即为最优特征集；

步骤C6、采用遍历法求解最大相关最小冗余准则，得到最优特征集；

令f_i为用电特征t_i的集合隶属度指示函数，对其进行0-1编码，f_i＝1表示该用电特征存在于S中，f_i＝0则表示在S中不存在标签t_i；为简化公式表达，将互信息与相关系数分别用a_i与b_ij表示，即：

将上式代入后得到：

遍历f＝(0,0,…0)至f＝(1,1,…,1)得到使mRMR最大的f向量，解码后得到最优特征集S。

区别于现有技术，本发明的基于最大相关最小冗余判据的电力用户用电特征选择方法，通过对传统k-means算法做出改进，结合互信息与相关系数两个指标对特征有效性与冗余性进行分析，基于最大相关最小冗余判据采用遍历法提取兼顾精简性与有效性的优质特征集。本发明通过给出k值与初始聚类中心的选取方法对传统k-means算法进行改进，可以快速有效地实现样本分类；综合考量用电特征的有效性与冗余性，所选优质特征集可反映用户用电特性；通过提取的优质特征集，降低用电行为分析的计算复杂度，对于用户用电行为分析、用电量预测、需求响应策略制定等具有参考意义。

附图说明

图1是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法的流程示意图。

图2是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中完成k-means聚类时k值选取过程的示意图。

图3是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中午晚长峰型用户基于改进k-means算法的聚类效果图。

图4是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中晚间单峰型用户基于改进k-means算法的聚类效果图。

图5是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中午高峰晚次峰型用户基于改进k-means算法的聚类效果图。

图6是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中三类用户基于改进k-means算法的聚类中心示意图。

图7是本发明提供的一种基于最大相关最小冗余判据的电力用户用电特征选择方法中用电特征有效性示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

根据图1的总体运行流程图，对本发明的具体步骤进行详细的说明。

具体分为两个部分：改进k-means聚类分析部分与最优特征提取部分。

所述步骤1针对传统k-means算法进行改进，具体方法为：

步骤B所述综合计及簇内集聚度、类间离散度，构造聚合回报指标，选取合适k值，并在此基础上完成k-means聚类，具体按照以下方法：

步骤B1、误差平方和(sum of squared error，SSE)的定义如下：

式中，C_i为第i个类别；x为C_i中的样本点；m_i为C_i的质心，即所有样本的均值。

当k值小于最佳聚类数时，k值的增加会大幅增加每个簇的集聚程度，故SSE值的下降幅度会陡增，而当k值达到最佳聚类数时，再增加k值所得到的集聚程度回报会迅速变小，SSE 值下降幅度会骤减。

即为样本x_i到其他簇的平均距离的最小值；

式中，

为平均轮廓系数；C为总样本集；n为总样本数；

传统k-means算法是随机选取初始聚类中心，而这种随机性会对结果造成很大的影响，容易选到噪声数据和孤立点，从而使算法迭代次数变多，时间性能变差，还容易陷入局部最优。为解决随机性的问题，本发明综合考虑密度、距离两个参考量选择初始聚类中心。具体步骤如下：

1)首先，从所有数据点中选择密度最大的一个点作为初始聚类中心点；

2)然后选择距离该点最远的点作为第二个初始聚类中心；

3)继而选择距离前两个点最短距离最大的点作为第三个初始聚类中心；

4)最后，依次类推，得到k个初始聚类中心。

所述步骤2进行聚类分析并统计全体特征集，对各特征进行有效性与冗余性分析，具体方法为：

常用的用电特征可分为两大类，一类是直观描述型，包括日用电量，日最大负荷、日最小负荷、日平均负荷，日峰谷差；另一类是比值描述型，包括日负荷率、日峰谷差率，峰时耗电率，平时段用电百分比，谷电系数。

将上述两类用电特征组合得到全体特征集T＝{日用电量，日最大负荷、日最小负荷、日平均负荷，日峰谷差，日负荷率、日峰谷差率，峰时耗电率，平时段用电百分比，谷电系数}。

根据统计得到的全体特征集T，结合改进聚类算法的分类结果，计算已知用电特征t的情况下所能得到的关于用户类别的信息量的多少，并以此来衡量特征t的有效性，信息量越大，则说明该特征与用户分类关联性越大，即最大化特征与类别变量间的相关性。在求解过程中，为了让各特征变量更具有统计学意义，需要对各个变量进行变量域离散化处理，先对特征集进行归一化处理，再将变量区间均匀离散，得到各特征变量的概率分布，继而完成对各个特征量与用户类别的互信息计算。

在信息论中，熵作为信息不确定性的一个测度，熵越大表示信息不确定的程度越高。第i 个特征t_i的熵的计算公式为：

式中，N_i为特征t_i的区间数量；M_u为特征t_i落在第u个区间的样本个数；M为总样本数；底数一般取2。

用户类别d的信息熵为：

式中，N_d为用户总类别数；M_v为属于第v个类别的样本个数；底数一般取2。

第i个特征t_i与用户类别d的联合信息熵为：

式中，M_uv为t_i落在第u个区间且用户类别d恰好为v的样本个数；底数一般取2。

第i个特征t_i与用户类别d的互信息定义为：

I(t_i；d)＝H(t_i)+H(d)-H(t_i,d)

根据上式即可分别求出每个特征与用户类别间的互信息。

最大相关性指标D(S,d)为：

式中，S与N_S为最优特征集及其所包含特征的个数；I(t_i；d)为S中第i个特征和用户类别d之间的互信息值。

两个特征间信息的冗余性可以用信息增益、基尼系数、相关系数等指标来衡量。本文采用相关系数，其公式如下：

式中，t_i和t_j分别为最优特征集S中第i和第j个特征；cov(t_i,t_j)为两个特征的协方差；

和

分别为特征t_i和t_j的标准差；

为两个特征的相关系数，取值范围为[-1,1]，绝对值越接近于1，相关性越大，越接近0，相关性越小。

最小冗余性指标R(S)为：

所述步骤3基于mRMR判据，采用遍历法提取优质特征集，具体方法为：

综合以上两个指标得到最大相关最小冗余准则，相应的公式如下：

求解满足最大相关最小冗余准则的特征集S即为最优特征集。

因此，优质特征集就是从全体特征集中提取满足使mRMR最大的特征集S。

本发明采用遍历求解法，该方法得到的是全局最优解，且结果不受初始特征选取的影响。

最优特征集S的求解可转化为优化问题,可分为增量搜索法与群体智能算法两类。但是，增量搜索法可能存在首个特征选取不当的问题，群体智能算法则易陷入局部最优。考虑到用户用电行为的初始特征数量不大，因此采用遍历法，可得到全局最优解。

令f_i为t_i的集合隶属度指示函数，对其进行0-1编码，f_i＝1表示该特征存在于S中，f_i＝0 则表示在S中不存在标签t_i。为简化公式表达，将互信息与相关系数分别用a_i与b_ij表示，即：

代入后得到：

效果验证：

结果验证：为了测试本发明所述方法的有效性，应用本发明方法对6227个用户用电数据进行了分析验证。

算例：实验数据来自于SEAI发布的爱尔兰智能电表实际量测数据。数据采集了爱尔兰 6277个居民用户于2009年7月14日的日用电数据，每30min采集一次，每用户每天48个采样点，共计6277组数据。

如图2，通过对一系列自然数演算后发现，k值在取到7时轮廓系数最大,轮廓系数越大则簇内样本的距离越近，簇间样本距离越远，但此时SSE值并不处于斜率突变期，当k取3 时，轮廓系数处于第二高峰，且此时SSE斜率陡变，曲线趋于平稳，聚合回报达到最理想状态。因此，综合两个指标共同反映的内聚度与分离度，最佳k值为3。因此通过改进后的k-means 算法可将样本分为三类，如图3-5所示，分别为午晚长峰型用户(A类用户)、晚间单峰型用户(B类用户)、午高峰晚次峰型用户(C类用户)。图6为三类用户的聚类中心。

以信息熵为衡量指标，结合聚类结果可以得到全体特征集的互信息值，反映了不同特征的有效性。如图7所示。以相关系数为衡量指标，得到各特征量之间的关联系，反映了特征之间囊括的信息的重复性，其值介于-1至1间，如表1所示。

表1特征间相关系数

综合分析特征有效性以及特征间信息重复性，得到使mRMR值最大的隶属度函数值f为 [0 0 0 1 0 0 1 0 0 1]。解码得到所选特征编号为4、7、10，对应特征为日平均负荷、日负荷率与平时段用电百分比。为验证所选取的最优特征集的有效性与精简性，将全体特征集作为对比特征集1，《智能用电用户行为分析特征优选策略》(电力系统自动化，2017，第41卷第5 期第58页)所提特征集作为对比特征集2，互信息值最大的三个特征组成对比特征集3。以计算时间、分类准确率、迭代次数为衡量指标，对比结果如表2所示。

表2不同实验性能对比

从上述结果中可以发现，本发明方法准确率高、速度快、效果好，可以有效实现居民用户样本的快速分类和用户用电优质特征的准确提取，降低用电行为分析的计算复杂度。本发明所提特征选取方法可用于海量用户用电行为分析，为用户用电行为分析、用电量预测、需求响应策略制定等提供参考意义。

以上对本发明所提供的基于最大相关最小冗余判据的居民用户用电特征选择方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。