CN111914900A

CN111914900A - 一种用户用电模式分类方法

Info

Publication number: CN111914900A
Application number: CN202010630552.6A
Authority: CN
Inventors: 杨祥勇; 李伟华; 张之涵; 许泽宁; 杨远俊; 罗仙鹏; 李超
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-11-10
Anticipated expiration: 2040-07-03
Also published as: CN111914900B

Abstract

本发明涉及一种用户用电模式分类方法，所述方法包括：获取高维量测数据，所述高维量测数据包括多个用户的用电数据；对所述高维量测数据进行主成分分析，并进行特征提取获得相应的特征值；利用预先训练好的自动编码器对所述特征值进行降维处理得到低维用户用电数据；对所述低维用户用电数据进行聚类分析获得每一用户的用电数据所隶属的类别，所述类别为用户的用电模式。本发明方法能够用于高维度和海量用电数据分析以确定用户用电模式。

Description

一种用户用电模式分类方法

技术领域

本发明涉及用户用电负荷分析技术领域，具体涉及一种用户用电模式分类方法。

背景技术

随着电网信息化水平的不断提高，智能配电网促使供电企业拥有一套完备的用电计量系统，使用户用电信息的采集更加完善，通过分析用户用电信息，对用户进行用电模式分类，及时掌握客户用电规律，有利于电网企业实现“按需分配”，制定电力调度规划，降低能耗和线损，以采取差异化营销策略，提高企业的收益。目前用户用电数据维度、数据量越来越大，因此亟待提出一种能够适用于高维度和海量数据分析的用户用电模式分类方法。

发明内容

本发明旨在提出一种用户用电模式分类方法，以用于高维度和海量用电数据分析以确定用户用电模式。

为此，本发明实施例提出一种用户用电模式分类方法，包括：

获取高维量测数据，所述高维量测数据包括多个用户的用电数据；

对所述高维量测数据进行主成分分析，并进行特征提取获得相应的特征值；

利用预先训练好的自动编码器对所述特征值进行降维处理得到低维用户用电数据；

利用模糊C均值聚类算法对所述低维用户用电数据进行聚类分析获得每一用户的用电数据所隶属的类别，所述类别为用户的用电模式。

优选地，所述获取高维量测数据，包括：

周期性地对多个用户的日负荷曲线进行采样获得多个用户的用电数据。

优选地，所述自动编码器的自动编码器输入层与隐含层之间的连接权值以及隐含层与输出层的阈值参数训练，包括：

利用自适应遗传算法对自动编码器网络的权值与阈值进行训练，得到初始权值与初始阈值；

利用BP算法对所述初始权值与初始阈值进行优化得到自动编码器的自动编码器输入层与隐含层之间的连接权值以及隐含层与输出层的阈值参数。

优选地，所述利用自适应遗传算法对自动编码器网络的权值与阈值进行训练，得到初始权值与初始阈值，包括：

对自动编码器网络的权值与阈值进行实数编码，随机生成初始种群，计算种群中每个个体的适应度函数，通过对群体进行选择、复制、交叉及变异的操作不断更新群体，并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡，当群体最大适应度不再发生变化或达到最大更新代数后，将当前的自动编码器网络的权值与阈值输出为初始权值与初始阈值。

优选地，所述利用BP算法对所述初始权值与初始阈值进行优化得到自动编码器的自动编码器输入层与隐含层之间的连接权值以及隐含层与输出层的阈值参数，包括：

根据所述初始权值与所述初始阈值，对种群中个体进行非均匀变异操作，设个体O中的基因o_g(g＝1,2…length)是一个被变异的基因，该被变异的基因为：

其中：

式中：o_max与o_min分别为历代种群中基因o_g的最大值与最小值，r₁与r₂分别为[0,1]内均匀分布的随机数，G与G_max分别为当前迭代次数与最大迭代次数；

其中，自适应变异概率为：

p_m＝0.001+cof·NG

式中：NG为自上次进化以来至当前代为止未进化的代数，cof为变异率提高系数，取值为0.005；

将所述初始权值与初始阈值作为BP算法权值与阈值训练的初始值，然后利用BP算法对权值与阈值进行训练，直至达到训练要求。

优选地，所述利用模糊C均值聚类算法对所述低维用户数据进行聚类分析获得每一用户的用电数据所隶属的类别，包括：

输入低维用户用电数据与聚类规模，设置聚类数；

基于模糊C均值聚类算法对所述低维用户用电数据进行聚类，形成初始聚类中心集合，利用自适应遗传算法优化不断聚类中心，直至适应度函数值达到目标；其中自适应遗传算法对对聚类中心的优化过程为：对聚类中心的进行二进制编码，半随机生成初始种群，计算种群中每个个体的适应度函数，通过对群体进行选择、复制、交叉及变异的操作以不断更新群体，并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡，当群体最大适应度不再发生变化或达到最大更新代数后，此时的聚类结果为用户用电模式分类结果；

重复多次聚类，利用伴随机法形成聚类中心的初始种群；判断此时聚类数N_c是否小于5，若小于5则聚类数加1，再次进行聚类并计算新的聚类数下的平均类内距离指标；

根据所述平均类间距离指标值确定最佳的聚类数以及用户用电模式的分类结果；若此时聚类数N_c不小于5，则确定N_c-1是否为聚类数-平均类内距离曲线的拐点；

若N_c-1为拐点，在聚类数分别为N_c+1，N_c+2，N_c+3下进行聚类，并计算其对应的平均类间距离指标值，与N_c-1，N_c，N_c+1，N_c+2，N_c+3所对应的平均类间距离指标值进行比较，平均类间距离指标值最大的聚类数为最佳聚类数，在最佳聚类数下的聚类结果即为用户用电模式的分类结果。

若N_c-1不为拐点，则聚类数N_c加1，再次进行聚类并计算新的聚类数下的平均类内距离指标与平均类间距离指标并重复本步骤，直至找到拐点。

优选地，半随机生成初始种群为初始种群一半个体为初始聚类中心，另一半个体由随机产生。

优选地，自适应遗传算法的适应度函数为：

其中：z_n(n＝1,2…N)为第n个样本空间数据，即第n个用户用电数据，N为样本总数，即为用户总数；ω_m(m＝1,2…M)为第m类的聚类中心，M为聚类数；μ_mn为第n个用户属于第m类的隶属度；u∈(1,+∞)为模糊指数，d_mn(z_n,ω_m)为第n个用户用电数据与第m个聚类中心的欧式距离，计算公式为：

d_mn(z_n,ω_m)＝||z_n-ω_m||²。

优选地，拐点的确定方法为：

利用点

与

及点

与

分别确定两个正向直线方程S₁(x,y)＝0与S₂(x,y)＝0；其中，

分别为聚类数为N_c-3，N_c-2，N_c-1对应的平均类内距离指标值；并且，计算

的值，若

则N_c-1为聚类数-平均类内距离曲线内部的拐点，否则不为拐点；其中，

为聚类数为N_c对应的平均类内距离指标值。

以上实施例方案至少具有以下有益效果：

本发明实施例针对高维海量量测数据进行主成分分析并提取特征值，并利用自动编码器对提取的特征值进行降维，其良好的特征提取能力与非线性降维能力使用户用电数据在基本保持其原有特征的基础上能够降至更低的维度，使得高效率的模糊C均值聚类算法能够很好地被应用，从而为解决海量高维用户用电数据的聚类问题提供了准确有效的途径。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而得以体现。

本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种用户用电模式分类方法的流程示意图。

图2为本发明实施例中基于自动编码器的用户用电数据降维流程示意图。

图3为本发明实施例中用户用电数据的聚类流程示意图。

图4为本发明实施例中用户典型用电模式示意图。

图5为本发明实施例中三种分类方法的聚类效果对比图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本发明，在下文的具体实施例中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实例中，对于本领域技术人员熟知的手段未作详细描述，以便于凸显本发明的主旨。

如图1所示，本发明一实施例提出一种用户用电模式分类方法，本实施例所述方法包括：

步骤S1、获取高维量测数据，所述高维量测数据包括多个用户的用电数据；

步骤S2、对所述高维量测数据进行主成分分析，并进行特征提取获得相应的特征值；

步骤S3、利用预先训练好的自动编码器对所述特征值进行降维处理得到低维用户用电数据；

步骤S4、利用模糊C均值聚类算法对所述低维用户用电数据进行聚类分析获得每一用户的用电数据所隶属的类别，所述类别为用户的用电模式。

其中，对于高维海量量测数据，采用方差的大小作为衡量信息量多少的标准，认为方差越大提供的信息越多，反之提供的信息就越少。它是在损失很少的信息的前提下把多个指标转化为多元统计指标。在保存原始高维量测数据协方差结构的基础上计算低维表达，它的目标函数可以写为：

其中，N_i是第i个类中样本的个数；

且S_T为总体离散矩阵：

x_i和y_i分别为多维量测数据集合第i个样本；m用来表示所有样本的质心；对转换矩阵做尺度约束

其中I_d为d×d单位矩阵。则目标函数可以写为：

上式问题可以转化为S_T的标准的特征值，最优转换矩阵为S_T的d个最大的特征值所对应的d个m维特征向量。把上述数据投影到一个低维的方向，使得投影后不同的组之间尽可能的分开，而同一组内的的样本比较靠拢，然后在新空间中对样本进行特征指标提取。最优的特征向量对应于前若干个最大的非零特征值，通常取值为4～6，取决于对分类的详细要求。

优选地，所述步骤S1包括：

周期性地对多个用户的日负荷曲线进行采样获得多个用户的用电数据。本实施例中采用周期优选但不限于为15分钟。

步骤S31、利用自适应遗传算法对自动编码器网络的权值与阈值进行训练，得到初始权值与初始阈值；

步骤S32、利用BP算法对所述初始权值与初始阈值进行优化得到自动编码器的自动编码器输入层与隐含层之间的连接权值以及隐含层与输出层的阈值参数。

其中，如图2所示，所述利用自适应遗传算法对自动编码器网络的权值与阈值进行训练，得到初始权值与初始阈值，包括：

具体而言，所述自适应遗传算法的适应度函数为：

式中：N为用户个数；s_k(i)(i＝1,2…96)表示第k个用户的第i维用电数据；

为经过自动编码器重构的第k个用户的第i维用电数据。

自适应遗传算法的自适应交叉概率为：

式中：f_max为个体的最大适应度；f_avg为种群平均适应度；f_high为父代中较高的适应度；p_cmax＝0.9；p_cmin＝0.6。

其中，如图2所示，所述利用BP算法对所述初始权值与初始阈值进行优化得到自动编码器的自动编码器输入层与隐含层之间的连接权值以及隐含层与输出层的阈值参数，包括：

其中：

其中，自适应变异概率为：

p_m＝0.001+cof·NG

本实施例在遗传算法的基础上引入了自适应交叉概率，提高了遗传算法的全局搜索能力与收敛速度，该算法与BP算法结合优化自动编码器的权值与阈值，有效地避免了BP算法易于陷入局部最小值问题，使自动编码特征提取更加准确。

其中，按照台区的性质包括旧居民小区、高层居民小区、农村、城乡结合部的划分功能，以及将居民的用电数据处理后的分类功能，分为四类用户，具体可以体现为以下表1：

表1

优选地，如图3所示，所述步骤S4包括：

步骤S41、输入低维用户用电数据与聚类规模，设置聚类数；具体而言，设置的聚类数通常为2～4，需要基于用户分析精细化程度，以及降维后的的用户用电样本数据类型和数量决定。

步骤S42、基于模糊C均值聚类算法对所述低维用户用电数据进行聚类，形成初始聚类中心集合，利用自适应遗传算法优化不断聚类中心，直至适应度函数值达到目标；其中自适应遗传算法对对聚类中心的优化过程为：对聚类中心的进行二进制编码，半随机生成初始种群，计算种群中每个个体的适应度函数，通过对群体进行选择、复制、交叉及变异的操作以不断更新群体，并通过自适应交叉概率控制种群更新过程中保持种群多样性与保留优秀基因的平衡，当群体最大适应度不再发生变化或达到最大更新代数后，此时的聚类结果为用户用电模式分类结果；

其中，半随机生成初始种群为初始种群一半个体为初始聚类中心，另一半个体由随机产生，能够保证算法能在一个较好的基础上进行，又使得保证了种群的多样性。

其中，聚类过程中自适应遗传算法的适应度函数为：

其中：z_n(n＝1,2…N)为第n个样本空间数据，即第n个用户用电数据，N为样本总数，即为用户总数；ω_m(m＝1,2…M)为第m类的聚类中心，M为聚类数；μ_mn为第n个用户属于第m类的隶属度；u∈(1,+∞)为模糊指数，控制分类矩阵的模糊程度，其值越大，分类的模糊程度越高，通常取值为2；d_mn(z_n,ω_m)为第n个用户用电数据与第m个聚类中心的欧式距离，计算公式为：

d_mn(z_n,ω_m)＝||z_n-ω_m||²。

步骤S43、重复多次聚类，利用伴随机法形成聚类中心的初始种群；判断此时聚类数N_c是否小于5，若小于5则聚类数加1，再次进行聚类并计算新的聚类数下的平均类内距离指标；

步骤S44、根据所述平均类间距离指标值确定最佳的聚类数以及用户用电模式的分类结果；若此时聚类数N_c不小于5，则确定N_c-1是否为聚类数-平均类内距离曲线的拐点；

若N_c-1为拐点，在聚类数分别为N_c+1，N_c+2，N_c+3下进行聚类，并计算其对应的平均类间距离指标值，与N_c-1，N_c，N_c+1，N_c+2，N_c+3所对应的平均类间距离指标值进行比较，平均类间距离指标值最大的聚类数为最佳聚类数，在最佳聚类数下的聚类结果即为用户用电模式的分类结果；

其中，拐点的确定方法为：

利用点

与

及点

与

分别确定两个正向直线方程S₁(x,y)＝0与S₂(x,y)＝0；其中，

的值，若

为聚类数为N_c对应的平均类内距离指标值。

具体而言，本实施例利用自适应遗传算法优化模糊C均值聚类算法，利用聚类数-平均类内距离曲线拐点来确定最佳聚类数，解决了模糊C聚类算法易于陷入局部最小值以及聚类数难以确定的问题，提高了用户用电模式分类的准确性。

为验证本实施例方法的分类效果，特举以下实施例进行说明：

算例采用某地区电网的2000户中小型用户负荷数据进行实验，采用本实施例方法对2000户中小型用户的用电模式进行分类，共将用户分为4类，其典型用户(每类用户的聚类中心)，由图4可知，各类用户特征明显，用户模式可以清晰识别。第一类用户在早上8点时负荷开始快速攀升，在9点左右达到最高水平，并持续维持这一水平直到11点。负荷在11点至下午1点有所下降，在1点之后又恢复至先前负荷水平并维持这一水平至晚上7点，然后开始快速下降至最低水平。根据这一用户的用电特性，可认为这一类用户为商业办公用户，该类用户的用电峰谷期与总体负荷的用电峰谷期基本一致，处于对这一类用户工作性质的考虑，对于这一用户宜采用削峰的需求响应手段。第二类用户负荷为典型的双峰型负荷，第一次峰时段为6:30～8:30，第二次峰时段为19:30～21:30，根据用户负荷特性，可认为是居民用户，其夜间谷时段与总体谷时段相同，可通过调整电价等手段促进用户在夜间时段多使用空调等负荷，以达到该时段负荷填谷的目的。第三类用户负荷在夜间负荷较高，而白天负荷较低，这类用户可认为是充电桩等负荷，该类负荷的峰谷时段与总体峰谷时段基本上相反，是重要的需求响应资源，可通过分时电价等手段进一步提升其需求响应能力。第四类用户负荷较为平稳且负荷相对较小，这类用户可能是便利店或自动取款机，这类用户需求响应能力小，可不执行需求响应。

为了验证本实施例所提分类方法的有效性，还利用了主成分分析法-模糊C均值聚类算法与模糊C均值聚类算法对这些用户的用电模式进行了分类，这三类方法的分类效果参见图5。图中，算法1为本实施例所提分类算法，算法2为采用主成分分析法-模糊C均值聚类算法，算法3为模糊C均值聚类算法，由图可知本实施例所提分类算法无论平均类间距离指标还是在平均类内指标方面都明显由于其他两种算法，这说明本实施例所提分类算法能够更加准确、清晰地对用户用电模式进行分类。

利用本实施例方法，能够对高维海量量测数据进行用户用电模式分类，及时掌握客户用电规律，有利于电网企业实现“按需分配”，制定电力调度规划，降低能耗和线损，以采取差异化营销策略，提高企业的收益。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。