CN114897451A - 考虑需求响应用户关键特征的双层聚类修正方法及装置 - Google Patents

考虑需求响应用户关键特征的双层聚类修正方法及装置 Download PDF

Info

Publication number
CN114897451A
CN114897451A CN202210821750.XA CN202210821750A CN114897451A CN 114897451 A CN114897451 A CN 114897451A CN 202210821750 A CN202210821750 A CN 202210821750A CN 114897451 A CN114897451 A CN 114897451A
Authority
CN
China
Prior art keywords
clustering
wolf
user
algorithm
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210821750.XA
Other languages
English (en)
Other versions
CN114897451B (zh
Inventor
康兵
韩威
丁贵立
王宗耀
许志浩
张亚楠
朱卓航
习伯泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Institute of Technology
Original Assignee
Nanchang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Institute of Technology filed Critical Nanchang Institute of Technology
Priority to CN202210821750.XA priority Critical patent/CN114897451B/zh
Publication of CN114897451A publication Critical patent/CN114897451A/zh
Application granted granted Critical
Publication of CN114897451B publication Critical patent/CN114897451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于电力数据处理技术领域,涉及一种考虑需求响应用户关键特征的双层聚类修正方法及装置,该方法包括:获取用户用电数据集并进行降维处理;利用集成聚类算法整合各成员算法的优势,对用户用电数据集进行第一层聚类分析;获取关键家庭特征因素;以第一层聚类分析和关键家庭特征因素为基础对属于同一类的用户群体进行第二层聚类分析;采用Levy飞行策略和蝴蝶耦合灰狼优化算法进行训练,修正第二层聚类分析结果,得到考虑用户用电信息和多维影响因素的聚类分析结果。本发明可得到综合考虑用户用电数据和多维影响因素的聚类分析结果,可以精准区分不同用户用电特性。

Description

考虑需求响应用户关键特征的双层聚类修正方法及装置
技术领域
本发明属于电力数据处理技术领域,具体涉及一种考虑需求响应用户关键特征的双层聚类修正方法及装置。
背景技术
随着社会经济不断发展和电气化持续推进,全社会用电量不断增加,电网峰值负荷不断攀升,峰谷差的趋势越来越大。过去常用的应对措施是新建电源和线路,通过增加供给侧容量来满足增长的用电负荷和高峰用电需求,该方法会降低发输电设备年利用小时、增加发输电成本,造成社会资源的浪费。近年来,随着用户用电弹性不断增强,需求侧资源的潜力被不断挖掘,为电力系统供需平衡提供了新思路。通过采取一系列源、荷资源协调控制措施,可以有效改善负荷特性,削减尖峰负荷规模,延缓电源电网投资,以较小代价满足用电需求,此外还能带来节能减排等其他额外社会效益。因此,电力需求侧管理是未来电力高质量发展的重点方向。
目前,针对需求响应用户用电特性的聚类多为以用户的用电数据为基础进行的分析,未见有考虑用户多维影响因素的聚类分析,聚类分析结果对用户的用电特性区分模糊,难以精确的体现用户用电的差异性。针对以上现象,本发明提出一种综合考虑用户用电特性和用户关键特征的聚类方法,可以精准的区分不同用户的用电特性。
发明内容
针对现有需求响应活动中存在的用户用电特性区分模糊,无法全面客观准确地评价用户的用电特性,进而影响需求响应活动开展效率差的问题,本发明提供一种考虑需求响应用户关键特征的双层聚类修正方法及装置。
本发明的目的通过下述技术方案实现:一种考虑需求响应用户关键特征的双层聚类修正方法,步骤如下:
步骤S1,获取用户用电数据集并进行降维处理:获取开展需求响应地区用户用电数据集和用户家庭特征问卷调查数据,通过长短期记忆神经网络对缺失值进行拟合,并采用PCA对用户用电数据集进行降维处理;
步骤S2,第一层聚类分析:针对用户用电数据集所形成的用户用电负荷曲线的特点,利用集成聚类算法整合各成员算法的优势,对用户用电数据集进行第一层聚类分析;
步骤S3,获取关键家庭特征因素:将步骤S2中的第一层聚类分析结果作为回归分析的因变量输入多元逻辑回归模型,用户家庭特征问卷调查数据进行特征编码后作为自变量和协变量输入多元逻辑回归模型进行回归分析,通过显著性判别用户家庭特征问卷调查数据的质量,最后得到修正后的影响用户用电特性的关键家庭特征因素,对关键家庭特征因素进行字段方式的编码,将用户家庭特征问卷调查数据转换成可进行聚类分析的数值形式;
步骤S4,第二层聚类分析:以步骤S2得到的第一层聚类分析结果和步骤S3得到的关键家庭特征因素为基础对属于同一大类的用户群体进行第二层聚类分析;
步骤S5,训练并修正第二层聚类分析结果:将第二层聚类分析结果和用户家庭特征问卷调查数据作为Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型的训练数据集,进行训练,修正第二层聚类分析结果,得到考虑用户用电信息和多维影响因素的聚类分析结果。
进一步优选,所述步骤S1中,
步骤S1.1,通过长短期记忆神经网络对缺失值进行拟合填补;得到m个样本,f个维度的用户用电数据集X:
Figure 208505DEST_PATH_IMAGE001
式中,用户用电数据集X为m×f阶的矩阵,Xvb为用户用电数据集X中的第v行第b列的元素,其中1≤vm,1≤bf,m为用户用电数据集矩阵的行数,f为用户用电数据集矩阵的列数;
步骤S1.2,以步骤S1.1得到的用户用电数据集X为基础进行PCA降维。
进一步优选,PCA降维的详细流程如下:
步骤S1.2.1,将用户用电数据集X表示成列向量的形式;
步骤S1.2.2,计算用户用电数据集X的样本特征的协方差矩阵,并对协方差矩阵进行奇异值求解得到特征值λ和特征向量μ,将特征值λ按照从大到小的顺序排序;
步骤S1.2.3,将特征值λ投影到选取的特征向量μ上,得到降维后的e维特征;假设e为1到f之间的自然数,且λ 1>λ 2…>λ e ,第e个特征值λ e 对应的维的信息贡献值等于0.8,将前e个特征值和相对应的e个特征向量提取出来,得到一组特征向量组{(λ 1,μ 1), (λ 2,μ 2), (λ 3,μ 3), …, (λ e ,μ e )},其中λ 1,λ 2,λ 3,…,λ e 分别为第1,2,3,…, e个特征值,μ 1,μ 2,μ 3,…,μ e 分别为第1,2,3,…, e个特征向量;其中特征向量组中的特征向量是经过PCA主成分分析投影降维后得到,按照信息贡献值从大到小排序,剔除信息贡献值低的指标,留下信息贡献值高的指标,即重要的、对结果有主要影响的指标变量就是降维后留在特征向量组中的特征向量;
其中主成分分析的方式为:计算主成分的综合得分Z;
Figure 713304DEST_PATH_IMAGE002
其中,Uo为第o个指标的信息贡献值,o是该指标在所有指标中的次序;若主成分的综合得分Z的得分超过预定的阈值,说明此次降维的结果符合标准,若得分未超过阈值则重复上述降维步骤,直至主成分的综合得分Z的得分超过阈值,输出降维结果;
步骤S1.2.4,得到降维后的数据集
Figure 166282DEST_PATH_IMAGE003
Figure 574392DEST_PATH_IMAGE004
其中,x vb 为降维后的数据集
Figure 821834DEST_PATH_IMAGE003
中的第v行第b列的元素,其中1≤vm,1≤be
进一步优选,步骤S2中,以步骤S1得到的降维后的数据集
Figure 79509DEST_PATH_IMAGE003
为基础,选用粒子群 优化k-means聚类,模糊C均值聚类,自组织映射神经网络SOM聚类和高斯模糊聚类作为集成 聚类算法的4种成员算法进行第一层聚类分析。
进一步优选,步骤S2的过程如下:
步骤S2.1,通过聚类有效性指标确定最佳聚类数目;聚类有效性指标通常用于评价聚类分析结果的质量从而选择合适的聚类数目,采用聚类轮廓系数确定最佳聚类数目;
步骤S2.2,通过DB指标评估聚类效果,进而确定基聚类算法;
步骤S2.3,将各成员聚类算法的结果通过一致性函数进行统一;
步骤S2.4,输出第一层聚类分析结果。
进一步优选,步骤S2.2所述DB指标计算方式如下:
Figure 867336DEST_PATH_IMAGE005
Figure 379220DEST_PATH_IMAGE006
Figure 548295DEST_PATH_IMAGE007
式中,k代表聚类个数;d i 代表第i类中所有样本到聚类中心的均值;d ij 代表第i类和第j类的距离;g i 表示第i类的中心点;g j 表示第j类的中心点;c i 表示第i类中包含的样本容量,r ij 表示第i类的中心点与第j类的中心点的距离,x代表样本。
进一步优选,所述步骤S2.3中,首先选定一个聚类算法作为基准聚类算法,其余聚类算法与基准聚类算法作对比;假设基准聚类算法为C ref ,将数据集划分为k类,构建一个基准聚类算法C ref 和其他聚类算法的结果的统一矩阵Q ref_n
Figure 575157DEST_PATH_IMAGE008
式中, Q ref_n 是基准聚类算法C ref 和第n个聚类算法C n 的结果的统一矩阵,ref≠n; 该统一矩阵 Q ref_n 中的元素S ij 表示基准聚类算法C ref 中第i类与C n 中第j类之间重叠的样本 数量,0<i<k0<j<k,即
Figure 353626DEST_PATH_IMAGE009
表示基准聚类算法C ref 中的第1类和第n个聚类算法C n 中的第1类重 叠的样本的数量,统一矩阵 Q ref_n 中其他元素的含义以此类推;取统一矩阵每一行数据的最 大值所对应的j作为i的匹配类别标签,即第n个聚类算法C n 中的j与基准聚类算法C ref 中的i 为对应类别标签,通过这种方法可以将不同聚类算法的类别标签进行统一化。
进一步优选,步骤S4的过程为:
步骤S4.1,将步骤S3得到的关键家庭特征作为聚类维度指标,以第一层聚类分析结果中的每一大类中包含的样本构建第二层聚类分析的样本数据集θ:
θ=(θ1,θ2,⋯,θk),
其中,
Figure 985596DEST_PATH_IMAGE010
其中,样本数据集θ是一个用户家庭特征问卷调查数据的集合,θk是第一层聚类分析得到的第k个类中包含的用户家庭特征问卷调查数据样本矩阵;θ hl 代表第h行第l列的影响家庭用电的用户家庭特征问卷调查数据;
步骤S4.2,选择k-means算法对样本数据集θ中的每一个用户家庭特征问卷调查数据样本矩阵进行聚类分析,输出聚类分析结果,并进行标记。
进一步地,步骤S5中,采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找SVM模型的参数值,融合蝴蝶和Levy飞行策略的搜索方式控制灰狼算法的α狼、β狼和ω狼的种群更新,防止灰狼算法早熟收敛;
所述Levy飞行策略和蝴蝶耦合灰狼优化算法公式如下:
Figure 325573DEST_PATH_IMAGE011
Figure 105310DEST_PATH_IMAGE012
其中
Figure 438202DEST_PATH_IMAGE013
表示猎物的位置向量,
Figure 705104DEST_PATH_IMAGE014
表示灰狼的位置向量,t是迭代次数;
Figure 730829DEST_PATH_IMAGE015
代表 个体与猎物的距离;
Figure 674559DEST_PATH_IMAGE016
是系数向量,系数向量
Figure 545563DEST_PATH_IMAGE016
的随机产生可以有效避免算法陷入局部最 优,r是[0,1]中的随机向量;
灰狼的位置向量由下式计算:
Figure 135813DEST_PATH_IMAGE017
Figure 332440DEST_PATH_IMAGE018
Figure 821190DEST_PATH_IMAGE019
Figure 981038DEST_PATH_IMAGE020
其中:A是Levy飞行路径,即迭代步长,u和v是符合正态分布的随机数,
Figure 442106DEST_PATH_IMAGE021
Figure 855639DEST_PATH_IMAGE022
代表 u和v的取值分布的上限,
Figure 769368DEST_PATH_IMAGE023
是标准Gamma函数,参数
Figure 732907DEST_PATH_IMAGE024
的取值范围为(0,2);
灰狼的等级的第一级为领导狼用α狼表示;第二等级称为β狼,也就是帮助领导狼做决定的下属狼;第三等级称为ω狼,ω狼只需要服从领导狼和下属狼的命令;当灰狼不是α狼、β狼、ω狼时,灰狼就被称为δ狼;假设α狼、β狼和ω狼对猎物的潜在位置有了解,保存到目前为止获得的前三个最佳解决方案,并要求其他灰狼根据最佳搜索位置来更新α狼、β狼、ω狼的位置;
Figure 314061DEST_PATH_IMAGE025
Figure 383649DEST_PATH_IMAGE026
Figure 299521DEST_PATH_IMAGE027
其中,
Figure 50439DEST_PATH_IMAGE028
Figure 33570DEST_PATH_IMAGE029
Figure 211741DEST_PATH_IMAGE030
分别代表α狼、β狼和ω狼与其它个体间的距离,
Figure 880489DEST_PATH_IMAGE031
Figure 435098DEST_PATH_IMAGE032
Figure 475998DEST_PATH_IMAGE033
分 别代表α狼、β狼和ω狼的当前位置,
Figure 152967DEST_PATH_IMAGE034
代表当前灰狼的位置向量,
Figure 263005DEST_PATH_IMAGE035
Figure 667310DEST_PATH_IMAGE036
Figure 77563DEST_PATH_IMAGE037
分别是α狼、β 狼和ω狼系数向量;
引入
Figure 613849DEST_PATH_IMAGE038
Figure 211184DEST_PATH_IMAGE039
Figure 622442DEST_PATH_IMAGE040
表示如下:
Figure 683939DEST_PATH_IMAGE041
Figure 905973DEST_PATH_IMAGE042
Figure 741336DEST_PATH_IMAGE043
其中,
Figure 238177DEST_PATH_IMAGE038
代表α狼的迁移轨迹,
Figure 606710DEST_PATH_IMAGE044
代表β狼的迁移轨迹,
Figure 734066DEST_PATH_IMAGE045
代表ω狼的迁移轨迹;
已知第t次的灰狼的位置,求取t+1次灰狼的迁移轨迹如下:
Figure 322304DEST_PATH_IMAGE046
更新
Figure 622836DEST_PATH_IMAGE047
Figure 596608DEST_PATH_IMAGE048
Figure 144133DEST_PATH_IMAGE049
,并继续迭代更新α狼、β狼、ω狼的位置,直到达到终止条件即 可。
本发明还提供了一种考虑需求响应用户关键特征的双层聚类修正装置,包括缺失值填补模块,降维模块,集成聚类模块,多元逻辑回归模块和Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块;所述缺失值填补模块封装长短期记忆神经网络算法,读取用户用电数据,基于长短期记忆神经网络算法特性填补用户用电缺失值;所述降维模块封装PCA降维算法,用于对高维度数据集进行降维处理;所述集成聚类模块封装聚类成员算法、改进轮廓系数算法、DB指标算法和聚类分析结果一致性函数;所述多元逻辑回归模块封装多元逻辑回归分析算法,精准建立因变量和自变量之间的关系,通过多元逻辑回归模块筛选出影响用户用电特性的关键家庭特征因素;Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块封装Levy飞行策略和蝴蝶耦合灰狼优化算法。
本发明针对用户用电数据集所形成的用户用电负荷曲线的特点,首先采用集成聚类的方式对用户用电数据集进行第一层聚类分析,接着通过回归分析提取影响家庭用电特性的关键因子,以第一层聚类分析结果为基础,对每个第一层聚类分析结果中包含的用户家庭特征问卷调查数据进行第二层聚类分析。最后将第二层聚类分析结果作为训练数据集输入Levy飞行策略和蝴蝶耦合灰狼优化算法优化的SVM模型进行训练,修正第二层聚类分析,使得最终的聚类分析结果是综合考虑用户用电数据和多维影响因素的结果,可以精准的区分不同用户的用电特性。
SVM模型的参数的选取对算法运行效果起着关键性作用,由于参与需求响应的用户用电特性存在差异性,故不能采用固定的参数值进行运算,引入Levy飞行策略和蝴蝶耦合灰狼优化算法对参数值进行寻优。
本发明引入Levy飞行策略和蝴蝶算法对灰狼算法的参数和搜索路径进行改进,有效帮助灰狼算法找到最优解。
附图说明
图1为本发明的方法流程图;
图2为本发明的装置模块组成图;
图3为电子设备的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参照图1,本实施例提供了一种考虑需求响应用户关键特征的双层聚类修正方法,用于解决在需求响应活动中由于无法客观全面地分析用户用电特征行为而造成资源浪费的问题。
步骤S1,获取用户用电数据集并进行降维处理:获取开展需求响应地区用户用电数据集和用户家庭特征问卷调查数据,通过长短期记忆神经网络对缺失值进行拟合,并采用PCA对用户用电数据集进行降维处理。对开展需求响应的用户开展问卷调查,问卷调查的问题包含家庭用电相关问题。针对采集的用户用电数据存在缺失值的问题,采用长短期记忆神经网络对缺失值进行拟合填补。以下步骤是对步骤S1的详细展开:
步骤S1.1,通过长短期记忆神经网络对缺失值进行拟合填补;得到m个样本,f个维度的用户用电数据集X:
Figure 265673DEST_PATH_IMAGE050
式中,用户用电数据集X为m×f阶的矩阵,Xvb为用户用电数据集X中的第v行第b列的元素,其中1≤vm,1≤bf,m为用户用电数据集矩阵的行数,f为用户用电数据集矩阵的列数;
步骤S1.2,以步骤S1.1得到的用户用电数据集X为基础进行PCA降维。
特别地是,PCA降维的详细流程如下:
步骤S1.2.1,将用户用电数据集X表示成列向量的形式;
步骤S1.2.2,计算用户用电数据集X的样本特征的协方差矩阵,并对协方差矩阵进行奇异值求解得到特征值λ和特征向量μ,将特征值λ按照从大到小的顺序排序;
步骤S1.2.3,将特征值λ投影到选取的特征向量μ上,得到降维后的e维特征;假设e为1到f之间的自然数,且λ 1>λ 2…>λ e ,第e个特征值λ e 对应的维的信息贡献值等于0.8,将前e个特征值和相对应的e个特征向量提取出来,得到一组特征向量组{(λ 1,μ 1), (λ 2,μ 2), (λ 3,μ 3), …, (λ e ,μ e )},其中λ 1,λ 2,λ 3,…,λ e 分别为第1,2,3,…, e个特征值,μ 1,μ 2,μ 3,…,μ e 分别为第1,2,3,…, e个特征向量;其中特征向量组中的特征向量是经过PCA主成分分析投影降维后得到,按照信息贡献值从大到小排序,剔除信息贡献值低的指标,留下信息贡献值高的指标,即重要的、对结果有主要影响的指标变量就是降维后留在特征向量组中的特征向量;
其中主成分分析的方式为:计算主成分的综合得分Z;
Figure 882529DEST_PATH_IMAGE051
其中,Uo为第o个指标的信息贡献值,o是该指标在所有指标中的次序;若主成分的综合得分Z的得分超过预定的阈值,说明此次降维的结果符合标准,若得分未超过阈值则重复上述降维步骤,直至主成分的综合得分Z的得分超过阈值,输出降维结果;
步骤S1.2.4,得到降维后的数据集
Figure 976387DEST_PATH_IMAGE003
Figure 694813DEST_PATH_IMAGE004
其中,x vb 为降维后的数据集
Figure 241332DEST_PATH_IMAGE003
中的第v行第b列的元素,其中1≤vm,1≤be
步骤S2,第一层聚类分析:针对用户用电数据集所形成的用户用电负荷曲线的特 点,利用集成聚类算法整合各成员聚类算法的优势,对用户用电数据集进行第一层聚类分 析。以步骤S1得到的降维后的数据集
Figure 149245DEST_PATH_IMAGE003
为基础,选用粒子群优化k-means聚类,模糊C均值 聚类,自组织映射神经网络SOM聚类和高斯模糊聚类作为集成聚类算法的4种成员聚类算法 进行第一层聚类分析。所述步骤S2的具体实现方法如下:
步骤S2.1,通过聚类有效性指标确定最佳聚类数目。聚类有效性指标通常用于评价聚类分析结果的质量从而选择合适的聚类数目,采用聚类轮廓系数确定最佳聚类数目N i :
Figure 582763DEST_PATH_IMAGE052
式中,a i 代表第i类的类内不相似度,即同一类中的不同样本间的距离,类内不相似度计算方式如下:
Figure 488402DEST_PATH_IMAGE053
式中,dis(xy)代表了同一类中样本x与样本y的欧氏距离,a i 越小说明该类越紧密,聚类效果越好,n为降维后的数据集X’的样本容量。
Figure 568222DEST_PATH_IMAGE054
代表第i类的类间不相似度,即类与类之间的区别程度,其计算方式与a i 相同, 需要遍历其他类得到多个值从中选择最小的值作为终值代入计算公式。
Figure 951930DEST_PATH_IMAGE055
式中,
Figure 505534DEST_PATH_IMAGE056
是经过PCA降维后的用户用电数据集中的一个e维的 样本,x v 为PCA降维后的样本x的第v个数据,
Figure 582074DEST_PATH_IMAGE057
是经过PCA降维后的用 户用电数据集中的另一个e维的样本,y v 为PCA降维后的样本y的第v个数据。
步骤S2.2,通过DB(Davies-Bouldin)指标评估聚类效果,进而确定基聚类算法。基准聚类算法的确定是集成聚类一致性函数设计的重要步骤,基准聚类算法的设定对于最终的聚类分析结果起着关键性的作用,通过DB(Davies-Bouldin)指标衡量聚类结论的有效性,进行基准聚类的选取。DB(Davies-Bouldin)指标是在DBI指标基础上进行改进的计算方法。DB(Davies-Bouldin)值越小代表类内各样本与聚类中心的距离越小,类与类之间的距离越大。
Figure 899923DEST_PATH_IMAGE005
Figure 71010DEST_PATH_IMAGE006
Figure 993967DEST_PATH_IMAGE007
式中,k代表聚类个数;d i 代表第i类中所有样本到聚类中心的均值;d ij 代表第i类和第j类的距离;g i 表示第i类的中心点;g j 表示第j类的中心点;c i 表示第i类中包含的样本容量,r ij 表示第i类的中心点与第j类的中心点的距离,x代表样本。
步骤S2.3,将各成员聚类算法的结果通过一致性函数进行统一。由于聚类是无监督学习,因此不同聚类算法结果中的类别之间往往是不匹配的,比如聚类算法1得到的类别1可能实际上与聚类算法2得到的类别2最为匹配,因此在进行集成聚类前要对所有聚类算法得到的结果进行统一。
首先选定一个聚类算法作为基准聚类算法,其余聚类算法与基准聚类算法作对比;假设基准聚类算法为C ref ,将数据集划分为k类,构建一个基准聚类算法C ref 和其他聚类算法的结果的统一矩阵Q ref_n
Figure 788879DEST_PATH_IMAGE008
式中, Q ref_n 是基准聚类算法C ref 和第n个聚类算法C n 的结果的统一矩阵,ref≠n; 该统一矩阵 Q ref_n 中的元素S ij 表示基准聚类算法C ref 中第i类与C n 中第j类之间重叠的样本 数量,0<i<k0<j<k,即
Figure 531707DEST_PATH_IMAGE058
表示基准聚类算法C ref 中的第1类和第n个聚类算法C n 中的第1类重 叠的样本的数量,统一矩阵 Q ref_n 中其他元素的含义以此类推;取统一矩阵每一行数据的最 大值所对应的j作为i的匹配类别标签,即第n个聚类算法C n 中的j与基准聚类算法C ref 中的i 为对应类别标签,通过这种方法可以将不同聚类算法的类别标签进行统一化。
步骤S2.4,4种成员聚类算法通过步骤S2.1确定最佳聚类数目并独立运算得到4种聚类分析结果,按照步骤S2.2和S2.3统一聚类分析结果并输出第一层聚类分析结果。
步骤S3,获取关键家庭特征因素。因问卷调查的内容是由相关机构自主制定的,且问卷调查的结果也可能存在内容质量问题,需借助步骤S2得到的聚类分析结果对问卷信息进行筛选处理,选择最有价值,可以反映用户用电真实特性的问卷调查结果。将步骤S2中的第一层聚类分析结果作为回归分析的因变量输入多元逻辑回归模型,用户家庭特征问卷调查数据进行特征编码后作为自变量和协变量输入多元逻辑回归模型进行回归分析,通过显著性判别用户家庭特征问卷调查数据的质量,最后得到修正后的影响用户用电特性的关键家庭特征因素,对这些关键家庭特征因素进行字段方式的编码,将用户家庭特征问卷调查数据转换成可进行聚类分析的数值形式。
步骤S4,第二层聚类分析:以步骤S2得到的第一层聚类分析结果和步骤S3得到的关键家庭特征因素为基础对属于同一大类的用户群体进行第二层聚类分析。以下步骤是对步骤S4的详细流程解释。
步骤S4.1,将步骤S3得到的关键家庭特征作为聚类维度指标,以第一层聚类分析结果中的每一大类中包含的样本构建第二层聚类分析的样本数据集θ:
θ=(θ1,θ2,⋯,θk),
其中,
Figure 772064DEST_PATH_IMAGE010
其中,样本数据集θ是一个用户家庭特征问卷调查数据的集合,θk是第一层聚类分析得到的第k个类中包含的用户家庭特征问卷调查数据样本矩阵;θ hl 代表第h行第l列的影响家庭用电的用户家庭特征问卷调查数据;
步骤S4.2,选择k-means算法对样本数据集θ中的每一个用户家庭特征问卷调查数据样本矩阵进行聚类分析,输出聚类分析结果,并进行标记。
步骤S5,训练并修正第二层聚类分析结果:将第二层聚类分析结果和用户家庭特征问卷调查数据作为Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型的训练数据集,进行训练,修正第二层聚类分析结果,得到考虑用户用电信息和多维影响因素的聚类分析结果。
考虑到用户用电数据的多变性和随机性,采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找SVM的c,g值,通过融合蝴蝶和Levy飞行策略的搜索方式控制灰狼(GWO)算法的α狼、β狼和ω狼的种群更新,以有效防止灰狼(GWO)算法早熟收敛。
所述Levy飞行策略和蝴蝶耦合灰狼优化算法公式如下:
Figure 549527DEST_PATH_IMAGE059
Figure 764608DEST_PATH_IMAGE060
其中
Figure 745464DEST_PATH_IMAGE061
表示猎物的位置向量,
Figure 274666DEST_PATH_IMAGE062
表示灰狼的位置向量,t是迭代次数;
Figure 155903DEST_PATH_IMAGE063
代表个体与猎物的距离;
Figure 541885DEST_PATH_IMAGE064
是系数向量,系数向量
Figure 275617DEST_PATH_IMAGE065
的随机产生可以有效避免算法陷入局 部最优,r是[0,1]中的随机向量;
灰狼的位置向量由下式计算:
Figure 342930DEST_PATH_IMAGE017
Figure 78674DEST_PATH_IMAGE018
Figure 901136DEST_PATH_IMAGE019
Figure 840273DEST_PATH_IMAGE020
其中:A是Levy飞行路径,即迭代步长,u和v是符合正态分布的随机数,
Figure 462010DEST_PATH_IMAGE066
Figure 865309DEST_PATH_IMAGE067
代表u和v的取值分布的上限,
Figure 45624DEST_PATH_IMAGE068
是标准Gamma函数,参数
Figure 472057DEST_PATH_IMAGE069
的取值范围为(0,2);
灰狼的等级的第一级为领导狼用α狼表示;第二等级称为β狼,也就是帮助领导狼做决定的下属狼;第三等级称为ω狼,ω狼只需要服从领导狼和下属狼的命令;然而,灰狼并不是必须属于上述三个类别中的任何一个,当灰狼不是α狼、β狼、ω狼时,灰狼就被称为δ狼;灰狼有能力识别猎物的位置并包围它们,狩猎活动由α狼引导,狼群中的β狼和ω狼也可能偶尔参与狩猎;从数学上模拟灰狼的狩猎行为,假设α狼、β狼和ω狼对猎物的潜在位置有了解,保存到目前为止获得的前三个最佳解决方案,并要求其他灰狼根据最佳搜索位置来更新α狼、β狼、ω狼的位置;
Figure 209069DEST_PATH_IMAGE025
Figure 420870DEST_PATH_IMAGE026
Figure 257239DEST_PATH_IMAGE027
其中,
Figure 482553DEST_PATH_IMAGE028
Figure 695359DEST_PATH_IMAGE029
Figure 749948DEST_PATH_IMAGE030
分别代表α狼、β狼和ω狼与其它个体间的距离,
Figure 288376DEST_PATH_IMAGE031
Figure 486140DEST_PATH_IMAGE032
Figure 751905DEST_PATH_IMAGE033
分 别代表α狼、β狼和ω狼的当前位置,
Figure 984303DEST_PATH_IMAGE034
代表当前灰狼的位置向量,
Figure 178786DEST_PATH_IMAGE035
Figure 67108DEST_PATH_IMAGE036
Figure 684034DEST_PATH_IMAGE037
分别是α狼、β 狼和ω狼系数向量;
引入
Figure 223468DEST_PATH_IMAGE038
Figure 792115DEST_PATH_IMAGE039
Figure 167733DEST_PATH_IMAGE040
表示如下:
Figure 588350DEST_PATH_IMAGE041
Figure 982291DEST_PATH_IMAGE042
Figure 767845DEST_PATH_IMAGE043
其中,
Figure 178228DEST_PATH_IMAGE038
代表α狼的迁移轨迹,
Figure 74640DEST_PATH_IMAGE044
代表β狼的迁移轨迹,
Figure 588667DEST_PATH_IMAGE045
代表ω狼的迁移轨迹;
已知第t次的灰狼的位置,求取t+1次灰狼的迁移轨迹如下:
Figure 810701DEST_PATH_IMAGE046
更新
Figure 692069DEST_PATH_IMAGE070
Figure 408484DEST_PATH_IMAGE071
Figure 262170DEST_PATH_IMAGE072
,并继续迭代更新α狼、β狼、ω狼的位置,直到达到终止条件即 可。
为便于对本发明的理解,结合实例对本发明一种考虑需求响应用户庭关键特征的双层聚类方法进行较为详细的方法过程描述:
随机选取30个有效样本(参与需求响应的用户用电信息并进行序号标记)进行分析,通过降维得到6个相关用电指标。表1是降维后的数据集,单位为度。
Figure 904373DEST_PATH_IMAGE073
表2是通过多元Logistic回归模型对用户家庭特征问卷调查数据进行回归分析得到的检验结果。
Figure 538617DEST_PATH_IMAGE074
从表2中可以看出“家庭构成”和“我不想被告知我用了多少电”这两个问题对于该类用户用电特性影响不大。进行分析时可以选择性将这两个问题过滤掉。
表3是第二层聚类分析结果。
Figure 793143DEST_PATH_IMAGE075
表4是通过Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型修正后的聚类分析结果,中间有横线的数字代表该用户从该类用户中去除,有下划线的数字代表该用户被修正到该类用户中。
表4 Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型修正后的聚类分析结果
Figure 766915DEST_PATH_IMAGE076
如图2所示,一种考虑需求响应用户关键特征的双层聚类修正装置,包括缺失值填补模块210,降维模块220,集成聚类模块230,多元逻辑回归模块240和Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块250。
其中缺失值填补模块210封装长短期记忆神经网络算法,读取用户用电数据,基于长短期记忆神经网络算法填补用户用电缺失值。对目标台区的HPLC智能电表进行数据读取,获得用户用电数据。但由于技术条件和外在环境影响因素限制,读取的用户用电数据集会存在缺失值,本发明将长短期记忆神经网络算法封装到缺失值填补模块210中,实现缺失值填补。
降维模块220封装PCA降维算法,用于对高维度数据集进行降维处理,适用于一般数据编码格式和用户家庭特征问卷调查数据字段编码格式。因数据量过大或者维度过大会对分析的效果造成影响,故将PCA算法封装至降维模块220中,用于对数据进行处理。
集成聚类模块230封装4种聚类成员算法(粒子群优化k-means聚类,模糊C均值聚类,自组织映射神经网络SOM聚类和高斯模糊聚类)、轮廓系数算法、DB指标算法和聚类分析结果一致性函数,使用者可以根据具体实际情况自主选择其他成员算法进行封装。集成聚类是一种无监督的学习方法。其目的是利用某种组合方法将多个不同的聚类分析结果(称为基聚类分析结果)聚合为一个聚类分析结果。该方法旨在使用某种方法或根据某种关系使集成聚类获得各基聚类算法的优势,以此获得高效的聚类分析结果。采用一种投票表决的集成聚类算法,结合各成员聚类算法的优势,以一致性函数矩阵决策样本的聚类标签,实现用户用电数据集的有效分类。
多元逻辑回归模块240封装多元逻辑回归分析算法,可以精准建立因变量和自变量之间的关系,通过多元逻辑回归模块240可以筛选出影响用户用电特性的关键家庭特征因素,使用者可根据实际情况制作问卷调查问题,并不局限于家庭特征相关问题。多元逻辑回归是一种分析自变量和因变量之间的一种方法。因用户家庭特征问卷调查数据可能存在内容质量问题,需进一步对用户家庭特征问卷调查数据进行处理。将第一层聚类分析结果作为回归分析的因变量输入多元逻辑回归模型,用户家庭特征问卷调查数据相关问题特征进行编码后作为自变量和协变量输入多元逻辑回归模型进行回归分析,得到修正后的影响用户用电特性的关键家庭特征因素。
Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块250封装Levy飞行策略和蝴蝶耦合灰狼优化算法。引入Levy飞行策略和蝴蝶算法对传统灰狼算法的参数和搜索路径进行改进,帮助灰狼算法找到最优解。因不同区域用户或不同台区用户的用电特征区别很大,采用固定的参数值进行SVM修正计算并不科学合理。故针对不同用户群体的差异化因素,采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找最优参数值输入SVM模型,使修正效果达到最佳。
本实施例的一种考虑需求响应用户关键特征的双层聚类修正装置,以第一层聚类分析结果为基础,对属于同一类的用户群体的用户家庭特征问卷调查数据进行第二层聚类分析,得到考虑关键家庭特征因素的第二层聚类分析结果,并进行类别标记。将第二层聚类分析结果和用户家庭特征问卷调查数据作为Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型的训练数据集,进行训练,修正第二层聚类分析结果。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意实施例中的一种考虑需求响应用户关键特征的双层聚类修正方法。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述实施例的一种考虑需求响用户家庭关键特征的双层聚类方法。
图3是本发明实施例提供的电子设备的结构示意图,如图3所示,该设备包括:一个或多个处理器310以及存储器320,图3中以一个处理器310为例。电子设备还可以包括:输入装置330和输出装置340。处理器310、存储器320、输入装置330和输出装置340可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器320为上述的非易失性计算机可读存储介质。处理器310通过运行存储在存储器320中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述实施例所述的一种考虑需求响用户家庭关键特征的双层聚类修正方法。输入装置330可接收输入的数字或字符信息,以及产生与一种考虑需求响应用户家庭关键特征的双层聚类修正装置的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏等显示设备。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,步骤如下:
步骤S1,获取用户用电数据集并进行降维处理:获取开展需求响应地区用户用电数据集和用户家庭特征问卷调查数据,通过长短期记忆神经网络对缺失值进行拟合,并采用PCA对用户用电数据集进行降维处理;
步骤S2,第一层聚类分析:针对用户用电数据集所形成的用户用电负荷曲线的特点,利用集成聚类算法整合各成员算法的优势,对用户用电数据集进行第一层聚类分析;
步骤S3,获取关键家庭特征因素:将步骤S2中的第一层聚类分析结果作为回归分析的因变量输入多元逻辑回归模型,用户家庭特征问卷调查数据进行特征编码后作为自变量和协变量输入多元逻辑回归模型进行回归分析,通过显著性判别用户家庭特征问卷调查数据的质量,最后得到修正后的影响用户用电特性的关键家庭特征因素,对关键家庭特征因素进行字段方式的编码,将用户家庭特征问卷调查数据转换成可进行聚类分析的数值形式;
步骤S4,第二层聚类分析:以步骤S2得到的第一层聚类分析结果和步骤S3得到的关键家庭特征因素为基础对属于同一类的用户群体进行第二层聚类分析;
步骤S5,训练并修正第二层聚类分析结果:将第二层聚类分析结果和用户家庭特征问卷调查数据作为Levy飞行策略和蝴蝶耦合灰狼优化算法优化SVM模型的训练数据集,进行训练,修正第二层聚类分析结果,得到考虑用户用电信息和多维影响因素的聚类分析结果。
2.根据权利要求1所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,所述步骤S1中,
步骤S1.1,通过长短期记忆神经网络对缺失值进行拟合填补;得到m个样本,f个维度的用户用电数据集X:
Figure 527096DEST_PATH_IMAGE001
式中,用户用电数据集X为m×f阶的矩阵,Xvb为用户用电数据集X中的第v行第b列的元素,其中1≤vm,1≤bf,m为用户用电数据集矩阵的行数,f为用户用电数据集矩阵的列数;
步骤S1.2,以步骤S1.1得到的用户用电数据集X为基础进行PCA降维。
3.根据权利要求2所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,PCA降维的详细流程如下:
步骤S1.2.1,将用户用电数据集X表示成列向量的形式;
步骤S1.2.2,计算用户用电数据集X的样本特征的协方差矩阵,并对协方差矩阵进行奇异值求解得到特征值λ和特征向量μ,将特征值λ按照从大到小的顺序排序;
步骤S1.2.3,将特征值λ投影到选取的特征向量μ上,得到降维后的e维特征;假设e为1到f之间的自然数,且λ 1>λ 2…>λ e ,第e个特征值λ e 对应的维的信息贡献值等于0.8,将前e个特征值和相对应的e个特征向量提取出来,得到一组特征向量组{(λ 1,μ 1), (λ 2,μ 2), (λ 3,μ 3), …, (λ e ,μ e )},其中λ 1,λ 2,λ 3,…,λ e 分别为第1,2,3,…, e个特征值,μ 1,μ 2,μ 3,…,μ e 分别为第1,2,3,…, e个特征向量;其中特征向量组中的特征向量是经过PCA主成分分析投影降维后得到,按照信息贡献值从大到小排序,剔除信息贡献值低的指标,留下信息贡献值高的指标,即重要的、对结果有主要影响的指标变量就是降维后留在特征向量组中的特征向量;
其中主成分分析的方式为:计算主成分的综合得分Z;
Figure 116340DEST_PATH_IMAGE002
其中,Uo为第o个指标的信息贡献值,o是该指标在所有指标中的次序;若主成分的综合得分Z的得分超过预定的阈值,说明此次降维的结果符合标准,若得分未超过阈值则重复上述降维步骤,直至主成分的综合得分Z的得分超过阈值,输出降维结果;
步骤S1.2.4,得到降维后的数据集
Figure 83028DEST_PATH_IMAGE003
Figure 212658DEST_PATH_IMAGE004
其中,x vb 为降维后的数据集
Figure 449867DEST_PATH_IMAGE003
中的第v行第b列的元素,其中1≤vm,1≤be
4.根据权利要求3所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在 于,步骤S2中,以步骤S1所得降维后的数据集
Figure 6750DEST_PATH_IMAGE003
为基础,选用粒子群优化k-means聚类,模 糊C均值聚类,自组织映射神经网络SOM聚类和高斯模糊聚类作为集成聚类算法的4种成员 聚类算法进行聚类分析。
5.根据权利要求4所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,步骤S2的过程如下:
步骤S2.1,通过聚类有效性指标确定最佳聚类数目;聚类有效性指标通常用于评价聚类分析结果的质量从而选择合适的聚类数目,采用聚类轮廓系数确定最佳聚类数目;
步骤S2.2,通过DB指标评估聚类效果,进而确定基聚类算法;
步骤S2.3,将各成员聚类算法的结果通过一致性函数进行统一;
步骤S2.4,输出第一层聚类分析结果。
6.根据权利要求5所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,步骤S2.2所述DB指标计算方式如下:
Figure 663996DEST_PATH_IMAGE005
Figure 597317DEST_PATH_IMAGE006
Figure 203879DEST_PATH_IMAGE007
式中,k代表聚类个数;d i 代表第i类中所有样本到聚类中心的均值;d ij 代表第i类和第j类的距离;g i 表示第i类的中心点;g j 表示第j类的中心点;c i 表示第i类中包含的样本容量,r ij 表示第i类的中心点与第j类的中心点的距离,x代表样本。
7.根据权利要求6所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,所述步骤S2.3中,首先选定一个聚类算法作为基准聚类算法,其余聚类算法与基准聚类算法作对比;假设基准聚类算法为C ref ,将数据集划分为k类,构建一个基准聚类算法C ref 和其他聚类算法的结果的统一矩阵Q ref_n
Figure 885658DEST_PATH_IMAGE008
式中, Q ref_n 是基准聚类算法C ref 和第n个聚类算法C n 的结果的统一矩阵,ref≠n;该统 一矩阵 Q ref_n 中的元素S ij 表示基准聚类算法C ref 中第i类与C n 中第j类之间重叠的样本数量, 0<i<k0<j<k,即
Figure 312092DEST_PATH_IMAGE009
表示基准聚类算法C ref 中的第1类和第n个聚类算法C n 中的第1类重叠的 样本的数量,统一矩阵 Q ref_n 中其他元素的含义以此类推;取统一矩阵每一行数据的最大值 所对应的j作为i的匹配类别标签,即第n个聚类算法C n 中的j与基准聚类算法C ref 中的i为对 应类别标签,通过这种方法将不同聚类算法的类别标签进行统一化。
8.根据权利要求7所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,步骤S4的过程为:
步骤S4.1,将步骤S3得到的关键家庭特征作为聚类维度指标,以第一层聚类分析结果中的每一大类中包含的样本构建第二层聚类分析的样本数据集θ:
θ=(θ1,θ2,⋯,θk),
其中,
Figure 32792DEST_PATH_IMAGE010
其中,样本数据集θ是一个用户家庭特征问卷调查数据的集合,θk是第一层聚类分析得到的第k个类中包含的用户家庭特征问卷调查数据样本矩阵;θ hl 代表第h行第l列的影响家庭用电的用户家庭特征问卷调查数据;
步骤S4.2,选择k-means算法对样本数据集θ中的每一个用户家庭特征问卷调查数据样本矩阵进行聚类分析,输出聚类分析结果,并进行标记。
9.根据权利要求8所述的考虑需求响应用户关键特征的双层聚类修正方法,其特征在于,步骤S5中,采用Levy飞行策略和蝴蝶耦合灰狼优化算法寻找SVM模型的参数值,融合蝴蝶和Levy飞行策略的搜索方式控制灰狼算法的α狼、β狼和ω狼的种群更新,防止灰狼算法早熟收敛;
所述Levy飞行策略和蝴蝶耦合灰狼优化算法公式如下:
Figure 493860DEST_PATH_IMAGE011
Figure 612120DEST_PATH_IMAGE012
其中
Figure 525849DEST_PATH_IMAGE013
表示猎物的位置向量,
Figure 535394DEST_PATH_IMAGE014
表示灰狼的位置向量,t是迭代次数;
Figure 365815DEST_PATH_IMAGE015
代表个体 与猎物的距离;
Figure 373086DEST_PATH_IMAGE016
是系数向量,系数向量
Figure 790423DEST_PATH_IMAGE016
的随机产生可以有效避免算法陷入局部最优,r 是[0,1]中的随机向量;
灰狼的位置向量由下式计算:
Figure 806920DEST_PATH_IMAGE017
Figure 288586DEST_PATH_IMAGE018
Figure 732337DEST_PATH_IMAGE019
Figure 417396DEST_PATH_IMAGE020
其中:A是Levy飞行路径,即迭代步长,u和v是符合正态分布的随机数,
Figure 988317DEST_PATH_IMAGE021
Figure 12905DEST_PATH_IMAGE022
代表u和v 的取值分布的上限,
Figure 939141DEST_PATH_IMAGE023
是标准Gamma函数,参数
Figure 314759DEST_PATH_IMAGE024
的取值范围为(0,2);
灰狼的等级的第一级为领导狼用α狼表示;第二等级称为β狼,也就是帮助领导狼做决定的下属狼;第三等级称为ω狼,ω狼只需要服从领导狼和下属狼的命令;当灰狼不是α狼、β狼、ω狼时,灰狼就被称为δ狼;假设α狼、β狼和ω狼对猎物的潜在位置有了解,保存到目前为止获得的前三个最佳解决方案,并要求其他灰狼根据最佳搜索位置来更新α狼、β狼、ω狼的位置;
Figure 423792DEST_PATH_IMAGE025
Figure 834044DEST_PATH_IMAGE026
Figure 134445DEST_PATH_IMAGE027
其中,
Figure 731779DEST_PATH_IMAGE028
Figure 656221DEST_PATH_IMAGE029
Figure 452139DEST_PATH_IMAGE030
分别代表α狼、β狼和ω狼与其它个体间的距离,
Figure 408594DEST_PATH_IMAGE031
Figure 8071DEST_PATH_IMAGE032
Figure 770491DEST_PATH_IMAGE033
分别代 表α狼、β狼和ω狼的当前位置,
Figure 640489DEST_PATH_IMAGE034
代表当前灰狼的位置向量,
Figure 502266DEST_PATH_IMAGE035
Figure 136509DEST_PATH_IMAGE036
Figure 623991DEST_PATH_IMAGE037
分别是α狼、β狼和 ω狼系数向量;
引入
Figure 863343DEST_PATH_IMAGE038
Figure 912333DEST_PATH_IMAGE039
Figure 768293DEST_PATH_IMAGE040
表示如下:
Figure 325045DEST_PATH_IMAGE041
Figure 153324DEST_PATH_IMAGE042
Figure 684800DEST_PATH_IMAGE043
其中,
Figure 716472DEST_PATH_IMAGE038
代表α狼的迁移轨迹,
Figure 827647DEST_PATH_IMAGE044
代表β狼的迁移轨迹,
Figure 822017DEST_PATH_IMAGE045
代表ω狼的迁移轨迹;
已知第t次的灰狼的位置,求取t+1次灰狼的迁移轨迹如下:
Figure 462077DEST_PATH_IMAGE046
更新
Figure 246624DEST_PATH_IMAGE047
Figure 692649DEST_PATH_IMAGE048
Figure 229941DEST_PATH_IMAGE049
,并继续迭代更新α狼、β狼、ω狼的位置,直到达到终止条件即可。
10.一种实现权利要求1-9任意一项所述方法的双层聚类修正装置,包括缺失值填补模块,降维模块,集成聚类模块,多元逻辑回归模块和Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块;所述缺失值填补模块封装长短期记忆神经网络算法,读取用户用电数据,基于长短期记忆神经网络算法特性填补用户用电缺失值;所述降维模块封装PCA降维算法,用于对高维度数据集进行降维处理;所述集成聚类模块封装聚类成员算法、改进轮廓系数算法、DB指标算法和聚类分析结果一致性函数;所述多元逻辑回归模块封装多元逻辑回归分析算法,精准建立因变量和自变量之间的关系,通过多元逻辑回归模块筛选出影响用户用电特性的关键家庭特征因素;Levy飞行策略和蝴蝶耦合灰狼优化算法SVM修正模块封装Levy飞行策略和蝴蝶耦合灰狼优化算法。
CN202210821750.XA 2022-07-13 2022-07-13 考虑需求响应用户关键特征的双层聚类修正方法及装置 Active CN114897451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210821750.XA CN114897451B (zh) 2022-07-13 2022-07-13 考虑需求响应用户关键特征的双层聚类修正方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210821750.XA CN114897451B (zh) 2022-07-13 2022-07-13 考虑需求响应用户关键特征的双层聚类修正方法及装置

Publications (2)

Publication Number Publication Date
CN114897451A true CN114897451A (zh) 2022-08-12
CN114897451B CN114897451B (zh) 2022-09-13

Family

ID=82730139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210821750.XA Active CN114897451B (zh) 2022-07-13 2022-07-13 考虑需求响应用户关键特征的双层聚类修正方法及装置

Country Status (1)

Country Link
CN (1) CN114897451B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687955A (zh) * 2023-01-03 2023-02-03 南昌工程学院 基于投票表决的居民用户负荷曲线聚类方法及装置
CN117172831A (zh) * 2023-11-02 2023-12-05 国网经济技术研究院有限公司 基于用户行为与数量演变的动态分群方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659699A (zh) * 2019-09-30 2020-01-07 重庆大学 一种基于特征指标降维的分布式双层聚类分析方法
CN112507231A (zh) * 2020-12-17 2021-03-16 辽宁工程技术大学 一种基于gwo-fcm的个性化推荐方法
CN113239503A (zh) * 2021-05-10 2021-08-10 上海电气工程设计有限公司 基于改进k-means聚类算法的新能源出力场景分析方法及系统
CN113688960A (zh) * 2021-10-27 2021-11-23 南昌工程学院 基于灰狼优化ghfcm的居民电力数据聚类方法及装置
CN113837311A (zh) * 2021-09-30 2021-12-24 南昌工程学院 一种基于需求响应数据的居民客户聚类方法及装置
CN113837778A (zh) * 2021-10-28 2021-12-24 国网辽宁省电力有限公司阜新供电公司 基于改进狼群优化K-means的用户投诉聚类分析方法
CN114139650A (zh) * 2021-12-09 2022-03-04 青海大学 一种用户负荷双层聚类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659699A (zh) * 2019-09-30 2020-01-07 重庆大学 一种基于特征指标降维的分布式双层聚类分析方法
CN112507231A (zh) * 2020-12-17 2021-03-16 辽宁工程技术大学 一种基于gwo-fcm的个性化推荐方法
CN113239503A (zh) * 2021-05-10 2021-08-10 上海电气工程设计有限公司 基于改进k-means聚类算法的新能源出力场景分析方法及系统
CN113837311A (zh) * 2021-09-30 2021-12-24 南昌工程学院 一种基于需求响应数据的居民客户聚类方法及装置
CN113688960A (zh) * 2021-10-27 2021-11-23 南昌工程学院 基于灰狼优化ghfcm的居民电力数据聚类方法及装置
CN113837778A (zh) * 2021-10-28 2021-12-24 国网辽宁省电力有限公司阜新供电公司 基于改进狼群优化K-means的用户投诉聚类分析方法
CN114139650A (zh) * 2021-12-09 2022-03-04 青海大学 一种用户负荷双层聚类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHONG GAO等: "Daily Power Load Curves Analysis Based on Grey Wolf Optimization Clustering Algorithm", 《PROCEEDINGS OF PURPLE MOUNTAIN FORUM 2019-INTERNATIONAL FORUM ON SMART GRID PROTECTION AND CONTROL》 *
P. EDWIN DHAS等: "A novel clustering algorithm by clubbing GHFCM and GWO for microarray gene data", 《THE JOURNAL OF SUPERCOMPUTING》 *
吴亚雄等: "基于灰狼优化聚类算法的日负荷曲线聚类分析", 《电力系统保护与控制》 *
宁光涛等: "一种结合降维技术的负荷曲线双层聚类算法", 《自动化与仪器仪表》 *
李阳等: "基于莱维飞行和随机游动策略的灰狼算法", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115687955A (zh) * 2023-01-03 2023-02-03 南昌工程学院 基于投票表决的居民用户负荷曲线聚类方法及装置
CN117172831A (zh) * 2023-11-02 2023-12-05 国网经济技术研究院有限公司 基于用户行为与数量演变的动态分群方法和系统
CN117172831B (zh) * 2023-11-02 2024-01-23 国网经济技术研究院有限公司 基于用户行为与数量演变的动态分群方法和系统

Also Published As

Publication number Publication date
CN114897451B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN114897451B (zh) 考虑需求响应用户关键特征的双层聚类修正方法及装置
Sun et al. An objective-based scenario selection method for transmission network expansion planning with multivariate stochasticity in load and renewable energy sources
CN108108762B (zh) 一种用于冠心病数据的核极限学习机及随机森林分类方法
Xie et al. An efficient two-phase approach for reliable collaboration-aware service composition in cloud manufacturing
Cui et al. Modified Gbest-guided artificial bee colony algorithm with new probability model
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
CN109685277A (zh) 用电量预测方法及装置
Abdolrazzagh-Nezhad et al. Enhanced cultural algorithm to solve multi-objective attribute reduction based on rough set theory
Huang et al. A framework for scalable bilevel optimization: Identifying and utilizing the interactions between upper-level and lower-level variables
CN112800231B (zh) 电力数据校验方法、装置、计算机设备和存储介质
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
Hao et al. Manufacturing service supply-demand optimization with dual diversities for industrial internet platforms
CN109544029A (zh) 一种台区线损的分析方法、分析装置及终端
Martínez-Ballesteros et al. Improving a multi-objective evolutionary algorithm to discover quantitative association rules
Awad et al. Multiobjective optimization
CN109389517B (zh) 一种量化线路损耗影响因素的分析方法及装置
CN113255873A (zh) 一种聚类天牛群优化方法、系统、计算机设备和存储介质
CN113688960A (zh) 基于灰狼优化ghfcm的居民电力数据聚类方法及装置
Guo et al. Harris hawks optimization algorithm based on elite fractional mutation for data clustering
CN109146553A (zh) 基于多密度聚类与多核svm的实时电价预测系统及其方法
Long et al. A novel solver for multi-objective optimization: dynamic non-dominated sorting genetic algorithm (DNSGA)
Asilian Bidgoli et al. A novel binary many-objective feature selection algorithm for multi-label data classification
Hsieh et al. Adaptive structural co-regularization for unsupervised multi-view feature selection
Shen et al. Semi-supervised hierarchical ensemble clustering based on an innovative distance metric and constraint information
Han et al. An efficient genetic algorithm for optimization problems with time-consuming fitness evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant