CN114897451A

CN114897451A - 考虑需求响应用户关键特征的双层聚类修正方法及装置

Info

Publication number: CN114897451A
Application number: CN202210821750.XA
Authority: CN
Inventors: 康兵; 韩威; 丁贵立; 王宗耀; 许志浩; 张亚楠; 朱卓航; 习伯泉
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-08-12
Anticipated expiration: 2042-07-13
Also published as: CN114897451B

Abstract

本发明属于电力数据处理技术领域，涉及一种考虑需求响应用户关键特征的双层聚类修正方法及装置，该方法包括：获取用户用电数据集并进行降维处理；利用集成聚类算法整合各成员算法的优势，对用户用电数据集进行第一层聚类分析；获取关键家庭特征因素；以第一层聚类分析和关键家庭特征因素为基础对属于同一类的用户群体进行第二层聚类分析；采用Levy飞行策略和蝴蝶耦合灰狼优化算法进行训练，修正第二层聚类分析结果，得到考虑用户用电信息和多维影响因素的聚类分析结果。本发明可得到综合考虑用户用电数据和多维影响因素的聚类分析结果，可以精准区分不同用户用电特性。

Description

考虑需求响应用户关键特征的双层聚类修正方法及装置

技术领域

本发明属于电力数据处理技术领域，具体涉及一种考虑需求响应用户关键特征的双层聚类修正方法及装置。

背景技术

随着社会经济不断发展和电气化持续推进，全社会用电量不断增加，电网峰值负荷不断攀升，峰谷差的趋势越来越大。过去常用的应对措施是新建电源和线路，通过增加供给侧容量来满足增长的用电负荷和高峰用电需求，该方法会降低发输电设备年利用小时、增加发输电成本，造成社会资源的浪费。近年来，随着用户用电弹性不断增强，需求侧资源的潜力被不断挖掘，为电力系统供需平衡提供了新思路。通过采取一系列源、荷资源协调控制措施，可以有效改善负荷特性，削减尖峰负荷规模，延缓电源电网投资，以较小代价满足用电需求，此外还能带来节能减排等其他额外社会效益。因此，电力需求侧管理是未来电力高质量发展的重点方向。

目前，针对需求响应用户用电特性的聚类多为以用户的用电数据为基础进行的分析，未见有考虑用户多维影响因素的聚类分析，聚类分析结果对用户的用电特性区分模糊，难以精确的体现用户用电的差异性。针对以上现象，本发明提出一种综合考虑用户用电特性和用户关键特征的聚类方法，可以精准的区分不同用户的用电特性。

发明内容

针对现有需求响应活动中存在的用户用电特性区分模糊，无法全面客观准确地评价用户的用电特性，进而影响需求响应活动开展效率差的问题，本发明提供一种考虑需求响应用户关键特征的双层聚类修正方法及装置。

本发明的目的通过下述技术方案实现:一种考虑需求响应用户关键特征的双层聚类修正方法，步骤如下：

步骤S1，获取用户用电数据集并进行降维处理：获取开展需求响应地区用户用电数据集和用户家庭特征问卷调查数据，通过长短期记忆神经网络对缺失值进行拟合，并采用PCA对用户用电数据集进行降维处理；

步骤S2，第一层聚类分析：针对用户用电数据集所形成的用户用电负荷曲线的特点，利用集成聚类算法整合各成员算法的优势，对用户用电数据集进行第一层聚类分析；

步骤S3，获取关键家庭特征因素：将步骤S2中的第一层聚类分析结果作为回归分析的因变量输入多元逻辑回归模型，用户家庭特征问卷调查数据进行特征编码后作为自变量和协变量输入多元逻辑回归模型进行回归分析，通过显著性判别用户家庭特征问卷调查数据的质量，最后得到修正后的影响用户用电特性的关键家庭特征因素，对关键家庭特征因素进行字段方式的编码，将用户家庭特征问卷调查数据转换成可进行聚类分析的数值形式；

步骤S4，第二层聚类分析：以步骤S2得到的第一层聚类分析结果和步骤S3得到的关键家庭特征因素为基础对属于同一大类的用户群体进行第二层聚类分析；

步骤S5，训练并修正第二层聚类分析结果：将第二层聚类分析结果和用户家庭特征问卷调查数据作为Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型的训练数据集，进行训练，修正第二层聚类分析结果，得到考虑用户用电信息和多维影响因素的聚类分析结果。

进一步优选，所述步骤S1中，

步骤S1.1，通过长短期记忆神经网络对缺失值进行拟合填补；得到m个样本，f个维度的用户用电数据集X：

式中，用户用电数据集X为m×f阶的矩阵，X_vb为用户用电数据集X中的第v行第b列的元素，其中1≤v≤m，1≤b≤f，m为用户用电数据集矩阵的行数，f为用户用电数据集矩阵的列数；

步骤S1.2，以步骤S1.1得到的用户用电数据集X为基础进行PCA降维。

进一步优选，PCA降维的详细流程如下：

步骤S1.2.1，将用户用电数据集X表示成列向量的形式；

步骤S1.2.2，计算用户用电数据集X的样本特征的协方差矩阵，并对协方差矩阵进行奇异值求解得到特征值λ和特征向量μ，将特征值λ按照从大到小的顺序排序；

步骤S1.2.3，将特征值λ投影到选取的特征向量μ上，得到降维后的e维特征；假设e为1到f之间的自然数，且λ ₁>λ ₂…>λ _e，第e个特征值λ _e对应的维的信息贡献值等于0.8，将前e个特征值和相对应的e个特征向量提取出来，得到一组特征向量组{(λ ₁,μ ₁), (λ ₂,μ ₂), (λ ₃,μ ₃), …, (λ _e,μ _e)}，其中λ ₁,λ ₂,λ ₃,…,λ _e分别为第1,2,3,…, e个特征值，μ ₁,μ ₂,μ ₃,…,μ _e分别为第1,2,3,…, e个特征向量；其中特征向量组中的特征向量是经过PCA主成分分析投影降维后得到，按照信息贡献值从大到小排序，剔除信息贡献值低的指标，留下信息贡献值高的指标，即重要的、对结果有主要影响的指标变量就是降维后留在特征向量组中的特征向量；

其中主成分分析的方式为：计算主成分的综合得分Z；

其中，U_o为第o个指标的信息贡献值，o是该指标在所有指标中的次序；若主成分的综合得分Z的得分超过预定的阈值，说明此次降维的结果符合标准，若得分未超过阈值则重复上述降维步骤，直至主成分的综合得分Z的得分超过阈值，输出降维结果；

步骤S1.2.4，得到降维后的数据集

：

其中，x _vb为降维后的数据集

中的第v行第b列的元素，其中1≤v≤m，1≤b≤e。

进一步优选，步骤S2中，以步骤S1得到的降维后的数据集

为基础，选用粒子群优化k-means聚类，模糊C均值聚类，自组织映射神经网络SOM聚类和高斯模糊聚类作为集成聚类算法的4种成员算法进行第一层聚类分析。

进一步优选，步骤S2的过程如下：

步骤S2.1，通过聚类有效性指标确定最佳聚类数目；聚类有效性指标通常用于评价聚类分析结果的质量从而选择合适的聚类数目，采用聚类轮廓系数确定最佳聚类数目；

步骤S2.2，通过DB指标评估聚类效果，进而确定基聚类算法；

步骤S2.3，将各成员聚类算法的结果通过一致性函数进行统一；

步骤S2.4，输出第一层聚类分析结果。

进一步优选，步骤S2.2所述DB指标计算方式如下：

式中，k代表聚类个数；d _i代表第i类中所有样本到聚类中心的均值；d _ij代表第i类和第j类的距离；g _i表示第i类的中心点；g _j表示第j类的中心点；c _i表示第i类中包含的样本容量，r_ij表示第i类的中心点与第j类的中心点的距离，x代表样本。

进一步优选，所述步骤S2.3中，首先选定一个聚类算法作为基准聚类算法，其余聚类算法与基准聚类算法作对比；假设基准聚类算法为C _ref，将数据集划分为k类，构建一个基准聚类算法C _ref和其他聚类算法的结果的统一矩阵Q _{ref_n}：

式中， Q _{ref_n}是基准聚类算法C _ref和第n个聚类算法C _n的结果的统一矩阵，ref≠n；该统一矩阵 Q _{ref_n}中的元素S_ij表示基准聚类算法C _ref中第i类与C _n中第j类之间重叠的样本数量，0<i<k，0<j<k，即

表示基准聚类算法C _ref中的第1类和第n个聚类算法C _n中的第1类重叠的样本的数量，统一矩阵 Q _{ref_n}中其他元素的含义以此类推；取统一矩阵每一行数据的最大值所对应的j作为i的匹配类别标签，即第n个聚类算法C _n中的j与基准聚类算法C _ref中的i 为对应类别标签，通过这种方法可以将不同聚类算法的类别标签进行统一化。

进一步优选，步骤S4的过程为：

步骤S4.1，将步骤S3得到的关键家庭特征作为聚类维度指标，以第一层聚类分析结果中的每一大类中包含的样本构建第二层聚类分析的样本数据集θ：

θ=（θ₁，θ₂，⋯，θ_k），

其中，

其中，样本数据集θ是一个用户家庭特征问卷调查数据的集合，θ_k是第一层聚类分析得到的第k个类中包含的用户家庭特征问卷调查数据样本矩阵；θ_hl代表第h行第l列的影响家庭用电的用户家庭特征问卷调查数据；

步骤S4.2，选择k-means算法对样本数据集θ中的每一个用户家庭特征问卷调查数据样本矩阵进行聚类分析，输出聚类分析结果，并进行标记。

进一步地，步骤S5中，采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找SVM模型的参数值，融合蝴蝶和Levy飞行策略的搜索方式控制灰狼算法的α狼、β狼和ω狼的种群更新，防止灰狼算法早熟收敛；

所述Levy飞行策略和蝴蝶耦合灰狼优化算法公式如下：

其中

表示猎物的位置向量，

表示灰狼的位置向量，t是迭代次数；

代表个体与猎物的距离；

是系数向量，系数向量

的随机产生可以有效避免算法陷入局部最优，r是[0，1]中的随机向量；

灰狼的位置向量由下式计算：

其中：A是Levy飞行路径，即迭代步长，u和v是符合正态分布的随机数，

和

代表 u和v的取值分布的上限，

是标准Gamma函数，参数

的取值范围为（0，2）；

灰狼的等级的第一级为领导狼用α狼表示；第二等级称为β狼，也就是帮助领导狼做决定的下属狼；第三等级称为ω狼，ω狼只需要服从领导狼和下属狼的命令；当灰狼不是α狼、β狼、ω狼时，灰狼就被称为δ狼；假设α狼、β狼和ω狼对猎物的潜在位置有了解，保存到目前为止获得的前三个最佳解决方案，并要求其他灰狼根据最佳搜索位置来更新α狼、β狼、ω狼的位置；

其中，

、

、

分别代表α狼、β狼和ω狼与其它个体间的距离，

、

、

分别代表α狼、β狼和ω狼的当前位置，

代表当前灰狼的位置向量，

、

、

分别是α狼、β 狼和ω狼系数向量；

引入

、

、

表示如下：

其中，

代表α狼的迁移轨迹，

代表β狼的迁移轨迹，

代表ω狼的迁移轨迹；

已知第t次的灰狼的位置，求取t+1次灰狼的迁移轨迹如下：

更新

、

和

，并继续迭代更新α狼、β狼、ω狼的位置，直到达到终止条件即可。

本发明还提供了一种考虑需求响应用户关键特征的双层聚类修正装置，包括缺失值填补模块，降维模块，集成聚类模块，多元逻辑回归模块和Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块；所述缺失值填补模块封装长短期记忆神经网络算法，读取用户用电数据，基于长短期记忆神经网络算法特性填补用户用电缺失值；所述降维模块封装PCA降维算法，用于对高维度数据集进行降维处理；所述集成聚类模块封装聚类成员算法、改进轮廓系数算法、DB指标算法和聚类分析结果一致性函数；所述多元逻辑回归模块封装多元逻辑回归分析算法，精准建立因变量和自变量之间的关系，通过多元逻辑回归模块筛选出影响用户用电特性的关键家庭特征因素；Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块封装Levy飞行策略和蝴蝶耦合灰狼优化算法。

本发明针对用户用电数据集所形成的用户用电负荷曲线的特点，首先采用集成聚类的方式对用户用电数据集进行第一层聚类分析，接着通过回归分析提取影响家庭用电特性的关键因子，以第一层聚类分析结果为基础，对每个第一层聚类分析结果中包含的用户家庭特征问卷调查数据进行第二层聚类分析。最后将第二层聚类分析结果作为训练数据集输入Levy飞行策略和蝴蝶耦合灰狼优化算法优化的SVM模型进行训练，修正第二层聚类分析，使得最终的聚类分析结果是综合考虑用户用电数据和多维影响因素的结果，可以精准的区分不同用户的用电特性。

SVM模型的参数的选取对算法运行效果起着关键性作用，由于参与需求响应的用户用电特性存在差异性，故不能采用固定的参数值进行运算，引入Levy飞行策略和蝴蝶耦合灰狼优化算法对参数值进行寻优。

本发明引入Levy飞行策略和蝴蝶算法对灰狼算法的参数和搜索路径进行改进，有效帮助灰狼算法找到最优解。

附图说明

图1为本发明的方法流程图；

图2为本发明的装置模块组成图；

图3为电子设备的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参照图1，本实施例提供了一种考虑需求响应用户关键特征的双层聚类修正方法，用于解决在需求响应活动中由于无法客观全面地分析用户用电特征行为而造成资源浪费的问题。

步骤S1，获取用户用电数据集并进行降维处理：获取开展需求响应地区用户用电数据集和用户家庭特征问卷调查数据，通过长短期记忆神经网络对缺失值进行拟合，并采用PCA对用户用电数据集进行降维处理。对开展需求响应的用户开展问卷调查，问卷调查的问题包含家庭用电相关问题。针对采集的用户用电数据存在缺失值的问题，采用长短期记忆神经网络对缺失值进行拟合填补。以下步骤是对步骤S1的详细展开：

特别地是，PCA降维的详细流程如下：

步骤S1.2.1，将用户用电数据集X表示成列向量的形式；

其中主成分分析的方式为：计算主成分的综合得分Z；

步骤S1.2.4，得到降维后的数据集

：

其中，x _vb为降维后的数据集

中的第v行第b列的元素，其中1≤v≤m，1≤b≤e。

步骤S2，第一层聚类分析：针对用户用电数据集所形成的用户用电负荷曲线的特点，利用集成聚类算法整合各成员聚类算法的优势，对用户用电数据集进行第一层聚类分析。以步骤S1得到的降维后的数据集

为基础，选用粒子群优化k-means聚类，模糊C均值聚类，自组织映射神经网络SOM聚类和高斯模糊聚类作为集成聚类算法的4种成员聚类算法进行第一层聚类分析。所述步骤S2的具体实现方法如下：

步骤S2.1，通过聚类有效性指标确定最佳聚类数目。聚类有效性指标通常用于评价聚类分析结果的质量从而选择合适的聚类数目，采用聚类轮廓系数确定最佳聚类数目N _i:

式中，a _i代表第i类的类内不相似度，即同一类中的不同样本间的距离，类内不相似度计算方式如下：

式中，dis（x，y）代表了同一类中样本x与样本y的欧氏距离，a _i越小说明该类越紧密，聚类效果越好，n为降维后的数据集X’的样本容量。

代表第i类的类间不相似度，即类与类之间的区别程度，其计算方式与a _i相同，需要遍历其他类得到多个值从中选择最小的值作为终值代入计算公式。

式中，

是经过PCA降维后的用户用电数据集中的一个e维的样本，x _v为PCA降维后的样本x的第v个数据，

是经过PCA降维后的用户用电数据集中的另一个e维的样本，y _v为PCA降维后的样本y的第v个数据。

步骤S2.2，通过DB（Davies-Bouldin）指标评估聚类效果，进而确定基聚类算法。基准聚类算法的确定是集成聚类一致性函数设计的重要步骤，基准聚类算法的设定对于最终的聚类分析结果起着关键性的作用，通过DB（Davies-Bouldin）指标衡量聚类结论的有效性，进行基准聚类的选取。DB（Davies-Bouldin）指标是在DBI指标基础上进行改进的计算方法。DB（Davies-Bouldin）值越小代表类内各样本与聚类中心的距离越小，类与类之间的距离越大。

步骤S2.3，将各成员聚类算法的结果通过一致性函数进行统一。由于聚类是无监督学习，因此不同聚类算法结果中的类别之间往往是不匹配的，比如聚类算法1得到的类别1可能实际上与聚类算法2得到的类别2最为匹配，因此在进行集成聚类前要对所有聚类算法得到的结果进行统一。

首先选定一个聚类算法作为基准聚类算法，其余聚类算法与基准聚类算法作对比；假设基准聚类算法为C _ref，将数据集划分为k类，构建一个基准聚类算法C _ref和其他聚类算法的结果的统一矩阵Q _{ref_n}：

步骤S2.4，4种成员聚类算法通过步骤S2.1确定最佳聚类数目并独立运算得到4种聚类分析结果，按照步骤S2.2和S2.3统一聚类分析结果并输出第一层聚类分析结果。

步骤S3，获取关键家庭特征因素。因问卷调查的内容是由相关机构自主制定的，且问卷调查的结果也可能存在内容质量问题，需借助步骤S2得到的聚类分析结果对问卷信息进行筛选处理，选择最有价值，可以反映用户用电真实特性的问卷调查结果。将步骤S2中的第一层聚类分析结果作为回归分析的因变量输入多元逻辑回归模型，用户家庭特征问卷调查数据进行特征编码后作为自变量和协变量输入多元逻辑回归模型进行回归分析，通过显著性判别用户家庭特征问卷调查数据的质量，最后得到修正后的影响用户用电特性的关键家庭特征因素，对这些关键家庭特征因素进行字段方式的编码，将用户家庭特征问卷调查数据转换成可进行聚类分析的数值形式。

步骤S4，第二层聚类分析：以步骤S2得到的第一层聚类分析结果和步骤S3得到的关键家庭特征因素为基础对属于同一大类的用户群体进行第二层聚类分析。以下步骤是对步骤S4的详细流程解释。

θ=（θ₁，θ₂，⋯，θ_k），

其中，

考虑到用户用电数据的多变性和随机性，采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找SVM的c，g值，通过融合蝴蝶和Levy飞行策略的搜索方式控制灰狼（GWO）算法的α狼、β狼和ω狼的种群更新，以有效防止灰狼（GWO）算法早熟收敛。

所述Levy飞行策略和蝴蝶耦合灰狼优化算法公式如下：

其中

表示猎物的位置向量，

表示灰狼的位置向量，t是迭代次数；

代表个体与猎物的距离；

是系数向量，系数向量

灰狼的位置向量由下式计算：

和

代表u和v的取值分布的上限，

是标准Gamma函数，参数

的取值范围为（0，2）；

灰狼的等级的第一级为领导狼用α狼表示；第二等级称为β狼，也就是帮助领导狼做决定的下属狼；第三等级称为ω狼，ω狼只需要服从领导狼和下属狼的命令；然而，灰狼并不是必须属于上述三个类别中的任何一个，当灰狼不是α狼、β狼、ω狼时，灰狼就被称为δ狼；灰狼有能力识别猎物的位置并包围它们，狩猎活动由α狼引导，狼群中的β狼和ω狼也可能偶尔参与狩猎；从数学上模拟灰狼的狩猎行为，假设α狼、β狼和ω狼对猎物的潜在位置有了解，保存到目前为止获得的前三个最佳解决方案，并要求其他灰狼根据最佳搜索位置来更新α狼、β狼、ω狼的位置；

其中，

、

、

分别代表α狼、β狼和ω狼与其它个体间的距离，

、

、

分别代表α狼、β狼和ω狼的当前位置，

代表当前灰狼的位置向量，

、

、

分别是α狼、β 狼和ω狼系数向量；

引入

、

、

表示如下：

其中，

代表α狼的迁移轨迹，

代表β狼的迁移轨迹，

代表ω狼的迁移轨迹；

已知第t次的灰狼的位置，求取t+1次灰狼的迁移轨迹如下：

更新

、

和

为便于对本发明的理解，结合实例对本发明一种考虑需求响应用户庭关键特征的双层聚类方法进行较为详细的方法过程描述：

随机选取30个有效样本（参与需求响应的用户用电信息并进行序号标记）进行分析，通过降维得到6个相关用电指标。表1是降维后的数据集，单位为度。

表2是通过多元Logistic回归模型对用户家庭特征问卷调查数据进行回归分析得到的检验结果。

从表2中可以看出“家庭构成”和“我不想被告知我用了多少电”这两个问题对于该类用户用电特性影响不大。进行分析时可以选择性将这两个问题过滤掉。

表3是第二层聚类分析结果。

表4是通过Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型修正后的聚类分析结果，中间有横线的数字代表该用户从该类用户中去除，有下划线的数字代表该用户被修正到该类用户中。

表4 Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型修正后的聚类分析结果

如图2所示，一种考虑需求响应用户关键特征的双层聚类修正装置，包括缺失值填补模块210，降维模块220，集成聚类模块230，多元逻辑回归模块240和Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块250。

其中缺失值填补模块210封装长短期记忆神经网络算法，读取用户用电数据，基于长短期记忆神经网络算法填补用户用电缺失值。对目标台区的HPLC智能电表进行数据读取，获得用户用电数据。但由于技术条件和外在环境影响因素限制，读取的用户用电数据集会存在缺失值，本发明将长短期记忆神经网络算法封装到缺失值填补模块210中，实现缺失值填补。

降维模块220封装PCA降维算法，用于对高维度数据集进行降维处理，适用于一般数据编码格式和用户家庭特征问卷调查数据字段编码格式。因数据量过大或者维度过大会对分析的效果造成影响，故将PCA算法封装至降维模块220中，用于对数据进行处理。

集成聚类模块230封装4种聚类成员算法（粒子群优化k-means聚类，模糊C均值聚类，自组织映射神经网络SOM聚类和高斯模糊聚类）、轮廓系数算法、DB指标算法和聚类分析结果一致性函数，使用者可以根据具体实际情况自主选择其他成员算法进行封装。集成聚类是一种无监督的学习方法。其目的是利用某种组合方法将多个不同的聚类分析结果（称为基聚类分析结果）聚合为一个聚类分析结果。该方法旨在使用某种方法或根据某种关系使集成聚类获得各基聚类算法的优势，以此获得高效的聚类分析结果。采用一种投票表决的集成聚类算法，结合各成员聚类算法的优势，以一致性函数矩阵决策样本的聚类标签，实现用户用电数据集的有效分类。

多元逻辑回归模块240封装多元逻辑回归分析算法，可以精准建立因变量和自变量之间的关系，通过多元逻辑回归模块240可以筛选出影响用户用电特性的关键家庭特征因素，使用者可根据实际情况制作问卷调查问题，并不局限于家庭特征相关问题。多元逻辑回归是一种分析自变量和因变量之间的一种方法。因用户家庭特征问卷调查数据可能存在内容质量问题，需进一步对用户家庭特征问卷调查数据进行处理。将第一层聚类分析结果作为回归分析的因变量输入多元逻辑回归模型，用户家庭特征问卷调查数据相关问题特征进行编码后作为自变量和协变量输入多元逻辑回归模型进行回归分析，得到修正后的影响用户用电特性的关键家庭特征因素。

Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块250封装Levy飞行策略和蝴蝶耦合灰狼优化算法。引入Levy飞行策略和蝴蝶算法对传统灰狼算法的参数和搜索路径进行改进，帮助灰狼算法找到最优解。因不同区域用户或不同台区用户的用电特征区别很大，采用固定的参数值进行SVM修正计算并不科学合理。故针对不同用户群体的差异化因素，采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找最优参数值输入SVM模型，使修正效果达到最佳。

本实施例的一种考虑需求响应用户关键特征的双层聚类修正装置，以第一层聚类分析结果为基础，对属于同一类的用户群体的用户家庭特征问卷调查数据进行第二层聚类分析，得到考虑关键家庭特征因素的第二层聚类分析结果，并进行类别标记。将第二层聚类分析结果和用户家庭特征问卷调查数据作为Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型的训练数据集，进行训练，修正第二层聚类分析结果。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意实施例中的一种考虑需求响应用户关键特征的双层聚类修正方法。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述实施例的一种考虑需求响用户家庭关键特征的双层聚类方法。

图3是本发明实施例提供的电子设备的结构示意图，如图3所示，该设备包括：一个或多个处理器310以及存储器320，图3中以一个处理器310为例。电子设备还可以包括：输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接，图3中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述实施例所述的一种考虑需求响用户家庭关键特征的双层聚类修正方法。输入装置330可接收输入的数字或字符信息，以及产生与一种考虑需求响应用户家庭关键特征的双层聚类修正装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，步骤如下：

步骤S4，第二层聚类分析：以步骤S2得到的第一层聚类分析结果和步骤S3得到的关键家庭特征因素为基础对属于同一类的用户群体进行第二层聚类分析；

2.根据权利要求1所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，所述步骤S1中，

3.根据权利要求2所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，PCA降维的详细流程如下：

步骤S1.2.1，将用户用电数据集X表示成列向量的形式；

其中主成分分析的方式为：计算主成分的综合得分Z；

步骤S1.2.4，得到降维后的数据集

：

其中，x _vb为降维后的数据集

中的第v行第b列的元素，其中1≤v≤m，1≤b≤e。

4.根据权利要求3所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，步骤S2中，以步骤S1所得降维后的数据集

为基础，选用粒子群优化k-means聚类，模糊C均值聚类，自组织映射神经网络SOM聚类和高斯模糊聚类作为集成聚类算法的4种成员聚类算法进行聚类分析。

5.根据权利要求4所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，步骤S2的过程如下：

步骤S2.2，通过DB指标评估聚类效果，进而确定基聚类算法；

步骤S2.4，输出第一层聚类分析结果。

6.根据权利要求5所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，步骤S2.2所述DB指标计算方式如下：

7.根据权利要求6所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，所述步骤S2.3中，首先选定一个聚类算法作为基准聚类算法，其余聚类算法与基准聚类算法作对比；假设基准聚类算法为C _ref，将数据集划分为k类，构建一个基准聚类算法C _ref和其他聚类算法的结果的统一矩阵Q _{ref_n}：

式中， Q _{ref_n}是基准聚类算法C _ref和第n个聚类算法C _n的结果的统一矩阵，ref≠n；该统一矩阵 Q _{ref_n}中的元素S_ij表示基准聚类算法C _ref中第i类与C _n中第j类之间重叠的样本数量， 0<i<k，0<j<k，即

表示基准聚类算法C _ref中的第1类和第n个聚类算法C _n中的第1类重叠的样本的数量，统一矩阵 Q _{ref_n}中其他元素的含义以此类推；取统一矩阵每一行数据的最大值所对应的j作为i的匹配类别标签，即第n个聚类算法C _n中的j与基准聚类算法C _ref中的i为对应类别标签，通过这种方法将不同聚类算法的类别标签进行统一化。

8.根据权利要求7所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，步骤S4的过程为：

θ=（θ₁，θ₂，⋯，θ_k），

其中，

9.根据权利要求8所述的考虑需求响应用户关键特征的双层聚类修正方法，其特征在于，步骤S5中，采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找SVM模型的参数值，融合蝴蝶和Levy飞行策略的搜索方式控制灰狼算法的α狼、β狼和ω狼的种群更新，防止灰狼算法早熟收敛；

所述Levy飞行策略和蝴蝶耦合灰狼优化算法公式如下：

其中

表示猎物的位置向量，

表示灰狼的位置向量，t是迭代次数；

代表个体与猎物的距离；

是系数向量，系数向量

的随机产生可以有效避免算法陷入局部最优，r 是[0，1]中的随机向量；

灰狼的位置向量由下式计算：

和

代表u和v 的取值分布的上限，

是标准Gamma函数，参数

的取值范围为（0，2）；

其中，

、

、

分别代表α狼、β狼和ω狼与其它个体间的距离，

、

、

分别代表α狼、β狼和ω狼的当前位置，

代表当前灰狼的位置向量，

、

、

分别是α狼、β狼和 ω狼系数向量；

引入

、

、

表示如下：

其中，

代表α狼的迁移轨迹，

代表β狼的迁移轨迹，

代表ω狼的迁移轨迹；

已知第t次的灰狼的位置，求取t+1次灰狼的迁移轨迹如下：

更新

、

和

10.一种实现权利要求1-9任意一项所述方法的双层聚类修正装置，包括缺失值填补模块，降维模块，集成聚类模块，多元逻辑回归模块和Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块；所述缺失值填补模块封装长短期记忆神经网络算法，读取用户用电数据，基于长短期记忆神经网络算法特性填补用户用电缺失值；所述降维模块封装PCA降维算法，用于对高维度数据集进行降维处理；所述集成聚类模块封装聚类成员算法、改进轮廓系数算法、DB指标算法和聚类分析结果一致性函数；所述多元逻辑回归模块封装多元逻辑回归分析算法，精准建立因变量和自变量之间的关系，通过多元逻辑回归模块筛选出影响用户用电特性的关键家庭特征因素；Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块封装Levy飞行策略和蝴蝶耦合灰狼优化算法。