CN115310888A - 基于多元数据处理的综合能源用户用能行为关联分析方法 - Google Patents

基于多元数据处理的综合能源用户用能行为关联分析方法 Download PDF

Info

Publication number
CN115310888A
CN115310888A CN202211250910.6A CN202211250910A CN115310888A CN 115310888 A CN115310888 A CN 115310888A CN 202211250910 A CN202211250910 A CN 202211250910A CN 115310888 A CN115310888 A CN 115310888A
Authority
CN
China
Prior art keywords
data
load
energy
correlation analysis
comprehensive energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211250910.6A
Other languages
English (en)
Inventor
魏然
邓欣宇
黄旭
王小璇
韩斌
李宇
李艳
刘延博
杨喆
高强伟
刘超
杨国朝
赵长伟
刘伟
刘扬
骈瑞珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Chengdong Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Tianjin Electric Power Co Ltd
Chengdong Power Supply Co of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Tianjin Electric Power Co Ltd, Chengdong Power Supply Co of State Grid Tianjin Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202211250910.6A priority Critical patent/CN115310888A/zh
Publication of CN115310888A publication Critical patent/CN115310888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明涉及基于多元数据处理的综合能源用户用能行为关联分析方法,获取考虑对综合能源系统冷、热、电负荷产生影响的影响因素特征,形成历史冷热电负荷特征库及影响因素特征库;构建基于k‑means算法和Calinski‑Harabasz(CH)指标的数据离散化模型,对冷、热、电负荷数据进行离散化得到多能负荷等级的划分方法;构建基于熵的气象数据离散化模型,对气象数据进行离散化;构建基于FP‑Growth的多能负荷关联分析模型,依据不同负荷等级的占比分布确定最小支持度和最小置信度,进行综合能源负荷等级关联分析,得到综合能源系统用户用能行为关联分析结果。本发明能够挖掘出综合能源用户用能行为之间及其与外部因素之间的关联性,为理解用户的多元用能行为提供了参考。

Description

基于多元数据处理的综合能源用户用能行为关联分析方法
技术领域
本发明属于综合能源技术领域,尤其是基于多元数据处理的综合能源用户用能行为关联分析方法。
背景技术
除能源供应源头方面的进展外,在能源供应、消费环节也有了新的解决方案。传统的供能系统,如电力、天然气、供热等功能系统,彼此运行独立,缺乏协调。因此能源利用率不高,能源供应的可靠性也不强。随着技术发展,能源供应消费环节逐渐朝着综合能源系统(Integrated Energy System, IES)、能源互联网等利用形式演进。一方面,多种能源形式之间存在互补效应,通过它们之间的相互协调能够显著提高能源的利用效率。另一方面,不同能源形式之间的动态转化、存储,例如冰蓄冷、水蓄热、电转气等先进技术的应用,使得能源供应环节的不确定性大大降低,能源供应平顺性提高,从而显著提高了整个系统的安全性。
能源系统的安全稳定运行离不开传感器的广泛应用。近年来随着工业物联网的发展,智能电表等智能量测终端得到了广泛应用。在智能电网领域,量测积累的海量数据逐渐形成了电力大数据这一典型问题。具体体现在电网数据已经达到PB级别,并且多元化、异构化、异质化趋势明显,这为用户用电行为分析提供了有利条件。
但目前已有研究多集中在用户用电行为的分析,这显然不能满足综合能源系统发展要求。多样化的用能数据不仅复杂性更高,相互之间也存在一定的关联性,因此在综合能源发展背景下,开展用户用能行为关联性分析很有必要。在此基础上,通过用户历史用能行为,结合气象、时间等外部因素,开展用户多能负荷预测对综合能源系统运行优化意义重大。一方面,依据用户用能预测结果,可以合理配置多种形式的储能,提高能源利用效率及系统运行的经济性。另一方面,还可通过需求响应计划实现能源供需平衡,提高系统运行的可靠性。
发明内容
本发明的目的在于克服现有技术的不足,提出基于多元数据处理的综合能源用户用能行为关联分析方法,通过聚类对多元负荷进行离散化,采用基于熵的离散化方法对气象数据进行离散化,进而开展综合能源用户用能行为关联分析,成功得到综合能源用户冷、热、电负荷等级间的关联规则,以及气象因素与负荷等级的关联规则。
本发明解决其技术问题是采取以下技术方案实现的:
基于多元数据处理的综合能源用户用能行为关联分析方法,包括以下步骤:
步骤1、获取考虑对综合能源系统冷、热及电负荷产生影响的影响因素特征,形成历史冷热电负荷特征库及影响因素特征库;
步骤2、根据形成的特征库构建基于k-means算法的数据离散化模型,采用Calinski-Harabasz得分确定最佳的聚类簇数k,对冷、热及电负荷数据进行离散化,得到多能负荷等级的划分方法;
步骤3、根据多能负荷等级的划分方法构建基于熵的气象数据离散化模型,将气象数据对应的综合能源总负荷等级标签作为气象数据的属性标签,对气象数据进行离散化;
步骤4、根据离散化气象数据构建基于FP-Growth的多能负荷关联分析模型,并依据不同负荷等级的占比分布确定最小支持度M和最小置信度N,进行综合能源负荷等级关联分析,得到综合能源系统用户用能行为关联分析结果。
而且,所述步骤1中影响因素特征包括:冷热电负荷有密切关联的气象因素特征和时间特征,其中气象因素特征通过皮尔逊相关系数进行分析,时间特征为待预测负荷对应的时间数据。
而且,所述步骤2中采用Calinski-Harabasz得分确定最佳的聚类簇数k的具体实现方法为:
Figure 100002_DEST_PATH_IMAGE001
其中,
Figure 55136DEST_PATH_IMAGE002
为聚类簇数;
Figure 100002_DEST_PATH_IMAGE003
为样本数;
Figure 71634DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
分别为簇间的协方差矩阵和簇内协方差矩阵;
Figure 756562DEST_PATH_IMAGE006
为矩阵的迹,通过在区间[2,5]内对
Figure 793788DEST_PATH_IMAGE002
进行迭代,最大CH得分对应的
Figure 744426DEST_PATH_IMAGE002
为最佳聚类簇数。
而且,所述步骤3包括以下步骤:
步骤3.1、对气象数据属性标签
Figure 100002_DEST_PATH_IMAGE007
由小到大进行排序,得到排序后的序列
Figure 485986DEST_PATH_IMAGE008
步骤3.2、依次计算两个相邻数据的均值:
Figure 100002_DEST_PATH_IMAGE009
Figure 776153DEST_PATH_IMAGE010
,并将
Figure 100002_DEST_PATH_IMAGE011
当作一个潜在分割点,将数据分为两部分
Figure 905652DEST_PATH_IMAGE012
Figure 100002_DEST_PATH_IMAGE013
,计算
Figure 281270DEST_PATH_IMAGE012
Figure 233045DEST_PATH_IMAGE013
的加权信息熵
Figure 361407DEST_PATH_IMAGE014
Figure 100002_DEST_PATH_IMAGE015
步骤3.3、以加权信息熵
Figure 146961DEST_PATH_IMAGE015
达到最小值时对应的
Figure 806612DEST_PATH_IMAGE016
为分割点将样本分为两部分,计算两部分的信息熵,将熵值小的区间标记为一个离散属性值;
步骤3.4、对熵值大的区间重复步骤3.1至3.4,直至离散属性数目满足要求或数据分割后两个子集的信息熵之差小于阈值
Figure 100002_DEST_PATH_IMAGE017
时结束。
而且,所述步骤3.2中加权信息熵
Figure 217871DEST_PATH_IMAGE014
Figure 76105DEST_PATH_IMAGE015
的具体计算方法为:
Figure 766981DEST_PATH_IMAGE018
Figure 100002_DEST_PATH_IMAGE019
其中,
Figure 366458DEST_PATH_IMAGE020
为以
Figure 100002_DEST_PATH_IMAGE021
为分割点的一个数据子集;
Figure 66561DEST_PATH_IMAGE022
Figure 100002_DEST_PATH_IMAGE023
中第
Figure 429235DEST_PATH_IMAGE024
类样本出现的概率;
Figure 100002_DEST_PATH_IMAGE025
为子集
Figure 822170DEST_PATH_IMAGE020
的信息熵;
Figure 253151DEST_PATH_IMAGE015
为以
Figure 475054DEST_PATH_IMAGE021
为分割点的两个子集的加权信息熵;
Figure 42302DEST_PATH_IMAGE026
Figure 100002_DEST_PATH_IMAGE027
的样本数目,对
Figure 606138DEST_PATH_IMAGE028
不断迭代,
Figure 649050DEST_PATH_IMAGE015
达到最小值时对应的
Figure 100002_DEST_PATH_IMAGE029
即为分割点。
而且,所述步骤4中根据离散化气象数据构建基于FP-Growth的多能负荷关联分析模型包括以下步骤:
步骤4.1、第一遍扫描离散化气象数据,记录每个项出现的次数并计算其支持度,通过设定的最小支持度进行筛选,删除小于最小支持度的项,将剩余的项按其支持度降序排列,得到频繁项列表;
步骤4.2、第二遍扫描离散化气象数据,过滤不频繁集合,按照频繁项列表中各项的顺序进行降序排列,然后在创建FP-tree根节点的基础上,通过合并共同前缀的方式把数据压缩并映射到 FP-tree中;
步骤4.3、按照自上而下的顺序挖掘FP-tree,以FP-tree的尾项为划分基准分别进行挖掘,得到有关项的频繁项集,对其取并集即可得到数据集的所有频繁项集。
而且,所述步骤4中最小置信度N为60%,最小支持度M为后项负荷等级占比的40%。
而且,所述步骤4中关联分析使用的关联规则为:得到FP-Growth的多能负荷关联分析模型的频繁项集后,对离散化气象数据中的每个频繁项集
Figure 956534DEST_PATH_IMAGE030
生成非空子集
Figure 100002_DEST_PATH_IMAGE031
,并判断是否满足
Figure 34080DEST_PATH_IMAGE032
,其中
Figure 100002_DEST_PATH_IMAGE033
为最小置信度,则
Figure 768818DEST_PATH_IMAGE034
为一条强关联规则。
本发明的优点和积极效果是:
1、本发明获取考虑对综合能源系统冷、热、电负荷产生影响的影响因素特征,形成历史冷热电负荷特征库及影响因素特征库;构建基于k-means算法和Calinski-Harabasz(CH)指标的数据离散化模型,对冷、热、电负荷数据进行离散化,得到多能负荷等级的划分方法;接着构建基于熵的气象数据离散化模型,将气象数据对应的综合能源总负荷等级标签作为气象数据的属性标签,对气象数据进行离散化;最后构建基于FP-Growth的多能负荷关联分析模型,并依据不同负荷等级的占比分布确定最小支持度和最小置信度,进行综合能源负荷等级关联分析,得到综合能源系统用户用能行为关联分析结果。本发明能够挖掘出综合能源用户用能行为之间及其与外部因素之间的关联性,为理解用户的多元用能行为提供了参考。
2、本发明步骤2基于k-means算法与Calinski-Harabasz(CH)指标的综合能源系统多能负荷数据离散化模型,离散化后的负荷数据分布均匀,能够克服等宽法数据分布不均和等频法数据误分的缺陷,有助于开展负荷等级关联分析;
3、本发明步骤3基于熵的气象数据离散化模型,该模型将气象数据对应的综合能源总负荷等级标签作为气象数据的属性标签,提升了气象数据离散化的准确性和合理性,有助于开展气象数据与负荷等级的关联分析;
4、本发明步骤4基于FP-Growth的多能负荷关联分析模型,并依据不同负荷等级的占比分布确定最小支持度和最小置信度进行综合能源负荷等级关联分析,相较于对原始数据直接统计分析的方法,本发明能够挖掘出用户用能行为之间及其与外部因素之间的关联性,为理解用户用能行为提供了参考。
附图说明
图1为本发明实施例提供的CH得分计算结果示意图;
图2为本发明实施例提供的冷负荷负荷等级划分结果示意图;
图3为本发明实施例提供的热负荷负荷等级划分结果示意图;
图4为本发明实施例提供的电负荷负荷等级划分结果示意图;
图5为本发明实施例提供的冷热电总负荷负荷等级划分结果示意图;
图6为本发明实施例提供的温度气象指标离散化结果示意图;
图7为本发明实施例提供的湿度气象指标离散化结果示意图;
图8为本发明实施例提供的气压气象指标离散化结果示意图;
图9为本发明实施例提供的露点气象指标离散化结果示意图;
图10为本发明实施例提供的云层覆盖率气象指标离散化结果示意图;
图11为本发明实施例提供的风速气象指标离散化结果示意图。
具体实施方式
以下结合附图对本发明做进一步详述。
基于多元数据处理的综合能源用户用能行为关联分析方法,包括以下步骤:
步骤1、获取考虑对综合能源系统冷、热及电负荷产生影响的影响因素特征,形成历史冷热电负荷特征库及影响因素特征库。
本步骤中影响因素特征包括:冷热电负荷有密切关联的气象因素特征和时间特征,其中气象因素特征通过皮尔逊相关系数进行分析,即分别计算温度、湿度、露点、气压等气象因素特征与冷、热、电负荷的皮尔逊相关系数,并取相关系数较高的气象因素作为影响因素特征;时间特征为待预测负荷对应的时间数据。
步骤2、根据形成的特征库构建基于k-means算法的数据离散化模型,采用Calinski-Harabasz(CH)得分确定最佳的聚类簇数k,对冷、热及电负荷数据进行离散化,得到多能负荷等级的划分方法。
连续数据的离散化是在不改变数据相对大小的前提下,将数据进行缩小的方法。常用的连续型数据离散化有等宽法、等频法和基于k-means的方法。其中,等宽法采用相等的数据间隔将数据进行区间划分,但该方法对离群点较为敏感,容易造成离散化后的数据分布不均匀;等频法则控制每个区间中的数据量相同,但可能将相同的数据划分到不同区间;基于k-means的方法通过对连续数据进行聚类得到若干个簇,实现区间划分,该方法能够克服等宽法和等频法的缺陷,因此本发明采用该方法进行多能负荷数据的离散化,从而得到负荷需求等级。
使用k-means前需要确定聚类簇数,即将负荷划分为多少个等级。若聚类簇数过多,不利于后续的关联规则挖掘;若聚类簇数过少,则降低了关联规则的有效性。本发明采用Calinski-Harabasz(CH)得分确定最佳的聚类簇数:
Figure 908813DEST_PATH_IMAGE001
其中,
Figure 738097DEST_PATH_IMAGE002
为聚类簇数;
Figure 279937DEST_PATH_IMAGE003
为样本数;
Figure 654418DEST_PATH_IMAGE004
Figure 281708DEST_PATH_IMAGE005
分别为簇间的协方差矩阵和簇内协方差矩阵;
Figure 383525DEST_PATH_IMAGE006
为矩阵的迹,簇内数据的协方差越小,簇间数据的协方差越大,聚类效果越好。本发明通过在区间[2,5]内对
Figure 45451DEST_PATH_IMAGE002
进行迭代,最大CH得分对应的
Figure 590833DEST_PATH_IMAGE002
为最佳聚类簇数。
本发明采用基于k-means的离散化方法,以天为单位对综合能源系统的冷、热、电负荷需求进行等级划分,数据使用亚利桑那州立大学Tempe校区,Barrett, The HonorsCollege at Arizona State University建筑2019年全年综合用能数据。原始数据中冷热电负荷的单位分别为kW、mBtu/h和ton-h,本发明按照Campus Metabolism项目网站提供的单位转换方法将冷热电负荷转换为相同的量纲(kW),转换公式为:
Figure DEST_PATH_IMAGE035
Figure 361211DEST_PATH_IMAGE036
首先对原始数据进行整理,计算冷、热、电的日平均负荷;然后在区间[2,5]中对聚类簇数进行迭代,计算CH得分如图1所示,由计算结果可知,冷、热、电负荷的最佳聚类簇数分别是5、4、5;最后基于k-means对冷、热、电负荷进行离散化,得到负荷等级的划分结果如图2、图3和图4所示,负荷等级占比分布见表1。由负荷等级划分结果可知,随着负荷等级的提升,负荷值逐渐增大;由负荷等级占比分布可知,冷、热负荷主要集中在等级1和2,负荷等级越大,数据占比越小;而电负荷主要集中在等级2、4,等级1、3、5分布较为均匀。
表1多能负荷等级占比
Figure 142086DEST_PATH_IMAGE038
步骤3、根据多能负荷等级的划分方法构建基于熵的气象数据离散化模型,将气象数据对应的综合能源总负荷等级标签作为气象数据的属性标签,对气象数据进行离散化。若连续数据本身具有属性标签,则可以利用属性标签信息提升离散化的准确性,该类方法称为有监督离散化。基于熵的离散化是有监督离散化的方法之一,它引入了信息论中熵的概念,基本思想是利用熵的大小判断划分后数据的纯度,纯度越大则离散化的效果越好。
本步骤包括以下步骤:
步骤3.1、对气象数据属性标签A由小到大进行排序,得到排序后的序列
Figure DEST_PATH_IMAGE039
步骤3.2、依次计算两个相邻数据的均值:
Figure 330621DEST_PATH_IMAGE009
Figure 296172DEST_PATH_IMAGE010
,并将
Figure 898055DEST_PATH_IMAGE011
当作一个潜在分割点,将数据分为两部分
Figure 357986DEST_PATH_IMAGE012
Figure 728925DEST_PATH_IMAGE013
,计算
Figure 871236DEST_PATH_IMAGE012
Figure 694836DEST_PATH_IMAGE013
的加权信息熵
Figure 958458DEST_PATH_IMAGE014
Figure 183903DEST_PATH_IMAGE015
Figure 491256DEST_PATH_IMAGE018
Figure 67731DEST_PATH_IMAGE019
其中,
Figure 869465DEST_PATH_IMAGE020
为以
Figure 949417DEST_PATH_IMAGE021
为分割点的一个数据子集;
Figure 693251DEST_PATH_IMAGE022
Figure 491442DEST_PATH_IMAGE023
中第
Figure 831288DEST_PATH_IMAGE024
类样本出现的概率;
Figure 31325DEST_PATH_IMAGE025
为子集
Figure 946060DEST_PATH_IMAGE020
的信息熵;
Figure 965969DEST_PATH_IMAGE015
为以
Figure 375085DEST_PATH_IMAGE021
为分割点的两个子集的加权信息熵;
Figure 429628DEST_PATH_IMAGE026
Figure 984106DEST_PATH_IMAGE027
的样本数目,对
Figure 22470DEST_PATH_IMAGE028
不断迭代,
Figure 969697DEST_PATH_IMAGE015
达到最小值时对应的
Figure 878747DEST_PATH_IMAGE029
即为分割点。
步骤3.3、以加权信息熵
Figure 135285DEST_PATH_IMAGE015
达到最小值时对应的
Figure 129786DEST_PATH_IMAGE029
为分割点将样本分为两部分,计算两部分的信息熵,将熵值小的区间标记为一个离散属性值。
步骤3.4、对熵值大的区间重复步骤3.1至3.4,直至离散属性数目满足要求或数据分割后两个子集的信息熵之差小于阈值
Figure 880704DEST_PATH_IMAGE017
时结束。
为了使离散化后的气象数据有利于后续与负荷等级的关联规则挖掘,本发明使用气象数据对应的综合能源总负荷等级标签作为气象数据的属性标签,并采用基于熵的离散化方法对气象数据进行离散化。其中,综合能源总负荷指冷、热、电负荷之和,综合能源总负荷等级划分方法与步骤2所述方法相同,通过CH得分确定最佳聚类簇数为5,总负荷等级划分结果如图5所示。本发明选用的气象指标包括温度、湿度、气压、露点、云层覆盖率和风速,计算各气象指标的日均值,将综合能源总负荷等级作为气象数据的属性标签,采用基于熵的离散化方法对各气象指标进行离散化。本实施例设置离散属性数目的最大值为5,离散化阈值为0.5,得到离散化后的气象数据如图6至图11所示。可见,气象指标并未严格随着离散标签的增大而增大,这是因为基于熵的离散化方法是依据综合能源总负荷等级进行气象数据的区间划分,而非仅依赖数据本身的特征。气象数据的离散标签能够充分体现与综合能源负荷间的关联性,更有助于后续的负荷等级关联分析。
步骤4、根据离散化气象数据构建基于FP-Growth的多能负荷关联分析模型,并依据不同负荷等级的占比分布确定最小支持度M和最小置信度N,进行综合能源负荷等级关联分析,得到综合能源系统用户用能行为关联分析结果。
关联规则挖掘是利用某些度量指标在海量数据中挖掘频繁项集以及数据间隐藏关联规则的方法。在关联规则挖掘中,频繁项集是频繁出现在项集
Figure 909840DEST_PATH_IMAGE040
中的1个或多个项,关联规则即为两个项集间形如
Figure DEST_PATH_IMAGE041
的规则式,
Figure 602858DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE043
分别为规则中的前项和后项。关联规则的度量包括支持度(support)和置信度(confidence),支持度是项集出现次数在数据集记录中的占比,代表规则的有用性;置信度是包含项集
Figure 756759DEST_PATH_IMAGE042
的记录中
Figure 29478DEST_PATH_IMAGE043
的占比,代表规则的可信度,其表达式为:
Figure 178699DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
关联规则挖掘主要包括挖掘频繁项集和生成关联规则两个阶段。
步骤4.1、第一遍扫描离散化气象数据,记录每个项出现的次数并计算其支持度,通过设定的最小支持度进行筛选,删除小于最小支持度的项,将剩余的项按其支持度降序排列,得到频繁项列表;
步骤4.2、第二遍扫描离散化气象数据,过滤不频繁集合,按照频繁项列表中各项的顺序进行降序排列,然后在创建FP-tree根节点的基础上,通过合并共同前缀的方式把数据压缩并映射到 FP-tree中;
步骤4.3、按照自上而下的顺序挖掘FP-tree,以FP-tree的尾项为划分基准分别进行挖掘,得到有关项的频繁项集,对其取并集即可得到数据集的所有频繁项集。
关联分析使用的关联规则为:得到FP-Growth的多能负荷关联分析模型的频繁项集后,对离散化气象数据中的每个频繁项集
Figure 793351DEST_PATH_IMAGE030
生成非空子集
Figure 639077DEST_PATH_IMAGE031
,并判断是否满足
Figure 122011DEST_PATH_IMAGE032
,其中
Figure 469947DEST_PATH_IMAGE033
为最小置信度,则
Figure 380134DEST_PATH_IMAGE034
为一条强关联规则。
根据上述基于多元数据处理的综合能源用户用能行为关联分析方法,通过一下两个具体实施例,说明本发明的效果。
实施例1:综合能源负荷等级关联分析
本实施例基于FP-growth算法进行综合能源负荷等级关联分析,数据选用亚利桑那州立大学Tempe校区,Barrett, The Honors College at Arizona State University建筑2019年全年综合用能数据。将用户每天的冷、热、电负荷等级作为1个条目,数据集中包含2019年全年的数据,因此共365个条目。控制关联规则的左项为一个或多个负荷等级,后项仅为单一负荷等级,从而建立冷、热、电负荷等级间一对一或多对一的关联规则。由于不同能源类型、不同负荷等级的数据占比不同,为了使得到的关联规则更加准确,最小支持度需要依据负荷等级占比进行设置。本发明设置最小支持度为后项负荷等级占比的40%,即至少有40%样本支持的规则被认为是强规则,依据此原则得到最小支持度如表2所示。同时,本发明设置最小置信度为60%,对负荷等级进行关联规则挖掘。得到关联规则后,对于多条重复规则仅保留置信度更高的规则,得到部分关联规则如表3所示。
表2最小支持度
Figure 961157DEST_PATH_IMAGE046
表3综合能源负荷等级关联规则
Figure DEST_PATH_IMAGE047
对于冷负荷,与[冷-2](冷负荷-2级)相关的是[热-2]和[热-3],分别对应规则1、2和3。其中,[热-3]→[冷-2]的置信度为100%,[热-2]→[冷-2]的置信度为64.0%,表明[冷-2]与[热-3]的关联性更强。此外,由规则2可知,在[热-2]的基础上增加条件[电-4],构成规则[热-2,电-4]→[冷-2],此时该条规则的置信度达到79.1%,较规则1提高了15.1%,说明在一条强规则的基础上,对前项附加条件可能得到置信度更高的规则。
对于热负荷,由规则4、5、7可知,[热-1]、[热-2]、[热-3]分别与[电-2]、[冷-2]、[冷-1]有关,规则6在规则5的基础上增加条件[电-4],使置信度由规则5的71.1%达到100%;规则8、9在规则7的基础上分别增加条件[电-3]、[电-4],规则的置信度也由60.6%提升至64.6%和73.2%。
对于电负荷得到4条规则,后项分别为[电-1]、[电-4]和[电-5]。规则10和13 的支持度为5.2%和6.3%,原因是[电-1]、[电-5]样本数量较少,事实上表3中列出的所有规则在后项负荷等级样本中的支持度均高于40%,因此均为强规则。规则12在11的基础上增加了条件[冷-2],使[热-2,冷-2]→[电-4]的置信度达到82.8%,提高15.8%。
实施例2:负荷等级与气象因素关联分析
本实施例在负荷等级的基础上加入离散化后的气象因素,得到前项为气象因素、后项为负荷等级的关联规则,删去置信度较低或重复的规则后,得到关联规则如表4所示。
表4负荷等级与气象因素关联规则
Figure 857569DEST_PATH_IMAGE048
由表4可见,在气象因素中与冷、热、电负荷关联性最强的是温度,但仅由温度作为前项的规则可能置信度偏低,当温度与某些气象因素共同作为前项时能够提高规则的置信度,例如规则5与6、7与8、9与10、16与17等。此外,也有与温度无关的规则,如3、4、13,但这些规则的置信度均低于由温度得到的规则,表明温度是影响冷、热负荷等级的重要因素。相比冷、热负荷分别得到11、6条规则,电负荷仅得到1条规则,表明气象因素对冷、热负荷等级的影响更大,对电负荷等级的影响相对较小。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

Claims (8)

1.基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:包括以下步骤:
步骤1、获取考虑对综合能源系统冷、热及电负荷产生影响的影响因素特征,形成历史冷热电负荷特征库及影响因素特征库;
步骤2、根据形成的特征库构建基于k-means算法的数据离散化模型,采用Calinski-Harabasz得分确定最佳的聚类簇数k,对冷、热及电负荷数据进行离散化,得到多能负荷等级的划分方法;
步骤3、根据多能负荷等级的划分方法构建基于熵的气象数据离散化模型,将气象数据对应的综合能源总负荷等级标签作为气象数据的属性标签,对气象数据进行离散化;
步骤4、根据离散化气象数据构建基于FP-Growth的多能负荷关联分析模型,并依据不同负荷等级的占比分布确定最小支持度M和最小置信度N,进行综合能源负荷等级关联分析,得到综合能源系统用户用能行为关联分析结果。
2.根据权利要求1所述的基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:所述步骤1中影响因素特征包括:冷热电负荷有密切关联的气象因素特征和时间特征,其中气象因素特征通过皮尔逊相关系数进行分析,时间特征为待预测负荷对应的时间数据。
3.根据权利要求1所述的基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:所述步骤2中采用Calinski-Harabasz得分确定最佳的聚类簇数k的具体实现方法为:
Figure DEST_PATH_IMAGE001
其中,
Figure 578716DEST_PATH_IMAGE002
为聚类簇数;
Figure DEST_PATH_IMAGE003
为样本数;
Figure 682808DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
分别为簇间的协方差矩阵和簇内协方差矩阵;
Figure 400228DEST_PATH_IMAGE006
为矩阵的迹,通过在区间[2,5]内对
Figure 326596DEST_PATH_IMAGE002
进行迭代,最大CH得分对应的
Figure 796760DEST_PATH_IMAGE002
为最佳聚类簇数。
4.根据权利要求1所述的基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1、对气象数据属性标签
Figure DEST_PATH_IMAGE007
由小到大进行排序,得到排序后的序列
Figure 556906DEST_PATH_IMAGE008
步骤3.2、依次计算两个相邻数据的均值:
Figure DEST_PATH_IMAGE009
Figure 5030DEST_PATH_IMAGE010
,并将
Figure DEST_PATH_IMAGE011
当作一个潜在分割点,将数据分为两部分
Figure 407193DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
,计算
Figure 263022DEST_PATH_IMAGE012
Figure 787544DEST_PATH_IMAGE013
的加权信息熵
Figure 948398DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
步骤3.3、以加权信息熵
Figure 950989DEST_PATH_IMAGE015
达到最小值时对应的
Figure 130167DEST_PATH_IMAGE016
为分割点将样本分为两部分,计算两部分的信息熵,将熵值小的区间标记为一个离散属性值;
步骤3.4、对熵值大的区间重复步骤3.1至3.4,直至离散属性数目满足要求或数据分割后两个子集的信息熵之差小于阈值
Figure DEST_PATH_IMAGE017
时结束。
5.根据权利要求4所述的基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:所述步骤3.2中加权信息熵
Figure 497694DEST_PATH_IMAGE014
Figure 270478DEST_PATH_IMAGE015
的具体计算方法为:
Figure 201394DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
其中,
Figure 782548DEST_PATH_IMAGE020
为以
Figure DEST_PATH_IMAGE021
为分割点的一个数据子集;
Figure 570244DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
中第
Figure 236849DEST_PATH_IMAGE024
类样本出现的概率;
Figure DEST_PATH_IMAGE025
为子集
Figure 502614DEST_PATH_IMAGE020
的信息熵;
Figure 531750DEST_PATH_IMAGE015
为以
Figure 709922DEST_PATH_IMAGE021
为分割点的两个子集的加权信息熵;
Figure 191719DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
的样本数目,对
Figure 464437DEST_PATH_IMAGE028
不断迭代,
Figure 348079DEST_PATH_IMAGE015
达到最小值时对应的
Figure DEST_PATH_IMAGE029
即为分割点。
6.根据权利要求1所述的基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:所述步骤4中根据离散化气象数据构建基于FP-Growth的多能负荷关联分析模型包括以下步骤:
步骤4.1、第一遍扫描离散化气象数据,记录每个项出现的次数并计算其支持度,通过设定的最小支持度进行筛选,删除小于最小支持度的项,将剩余的项按其支持度降序排列,得到频繁项列表;
步骤4.2、第二遍扫描离散化气象数据,过滤不频繁集合,按照频繁项列表中各项的顺序进行降序排列,然后在创建FP-tree根节点的基础上,通过合并共同前缀的方式把数据压缩并映射到 FP-tree中;
步骤4.3、按照自上而下的顺序挖掘FP-tree,以FP-tree的尾项为划分基准分别进行挖掘,得到有关项的频繁项集,对其取并集即可得到数据集的所有频繁项集。
7.根据权利要求1所述的基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:所述步骤4中最小置信度N为60%,最小支持度M为后项负荷等级占比的40%。
8.根据权利要求1所述的基于多元数据处理的综合能源用户用能行为关联分析方法,其特征在于:所述步骤4中关联分析使用的关联规则为:得到FP-Growth的多能负荷关联分析模型的频繁项集后,对离散化气象数据中的每个频繁项集
Figure 228311DEST_PATH_IMAGE030
生成非空子集
Figure DEST_PATH_IMAGE031
,并判断是否满足
Figure 853196DEST_PATH_IMAGE032
,其中
Figure DEST_PATH_IMAGE033
为最小置信度,则
Figure 211496DEST_PATH_IMAGE034
为一条强关联规则。
CN202211250910.6A 2022-10-13 2022-10-13 基于多元数据处理的综合能源用户用能行为关联分析方法 Pending CN115310888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211250910.6A CN115310888A (zh) 2022-10-13 2022-10-13 基于多元数据处理的综合能源用户用能行为关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211250910.6A CN115310888A (zh) 2022-10-13 2022-10-13 基于多元数据处理的综合能源用户用能行为关联分析方法

Publications (1)

Publication Number Publication Date
CN115310888A true CN115310888A (zh) 2022-11-08

Family

ID=83868459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211250910.6A Pending CN115310888A (zh) 2022-10-13 2022-10-13 基于多元数据处理的综合能源用户用能行为关联分析方法

Country Status (1)

Country Link
CN (1) CN115310888A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740826A (zh) * 2019-01-30 2019-05-10 广东工业大学 一种基于动态数据挖掘的冷热电联供系统负荷预测方法
CN110490385A (zh) * 2019-08-22 2019-11-22 广东电网有限责任公司 一种综合能源系统中电负荷和热负荷的联合预测方法
CN111340645A (zh) * 2018-12-18 2020-06-26 中国电力科学研究院有限公司 一种针对电力负荷的改进关联分析方法
CN113822481A (zh) * 2021-09-23 2021-12-21 国网天津市电力公司 基于多任务学习策略和深度学习的综合能源负荷预测方法
CN114219195A (zh) * 2021-09-22 2022-03-22 上海电机学院 一种区域综合能源容量优化控制方法
CN114358474A (zh) * 2021-11-23 2022-04-15 国网浙江省电力有限公司嘉兴供电公司 一种典型多能用户模型建立方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340645A (zh) * 2018-12-18 2020-06-26 中国电力科学研究院有限公司 一种针对电力负荷的改进关联分析方法
CN109740826A (zh) * 2019-01-30 2019-05-10 广东工业大学 一种基于动态数据挖掘的冷热电联供系统负荷预测方法
CN110490385A (zh) * 2019-08-22 2019-11-22 广东电网有限责任公司 一种综合能源系统中电负荷和热负荷的联合预测方法
CN114219195A (zh) * 2021-09-22 2022-03-22 上海电机学院 一种区域综合能源容量优化控制方法
CN113822481A (zh) * 2021-09-23 2021-12-21 国网天津市电力公司 基于多任务学习策略和深度学习的综合能源负荷预测方法
CN114358474A (zh) * 2021-11-23 2022-04-15 国网浙江省电力有限公司嘉兴供电公司 一种典型多能用户模型建立方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
聂寿康: "基于综合能源大数据的用能行为关联分析与负荷预测方法研究", 《万方数据知识服务平台》 *

Similar Documents

Publication Publication Date Title
CN109754113B (zh) 基于动态时间规整与长短时间记忆的负荷预测方法
CN113962364A (zh) 一种基于深度学习的多因素用电负荷预测方法
CN106251001A (zh) 一种基于改进模糊聚类算法的光伏功率预测方法
Tyralis et al. Boosting algorithms in energy research: A systematic review
Huang et al. Incorporating load fluctuation in feature importance profile clustering for day-ahead aggregated residential load forecasting
CN113065278B (zh) 一种基于频繁模式挖掘的富风期风电小发事件统计特性模型的预测方法
CN112149890A (zh) 基于用户用能标签的综合能源负荷预测方法及系统
Tian et al. Daily power demand prediction for buildings at a large scale using a hybrid of physics-based model and generative adversarial network
CN114328663A (zh) 一种基于数据挖掘的高维剧场数据降维可视化处理方法
CN117634678A (zh) 基于实际运行场景的低碳园区碳排放预测方法
CN111008725B (zh) 一种用于短期风电功率预测的气象因素波动特征提取方法
CN115310888A (zh) 基于多元数据处理的综合能源用户用能行为关联分析方法
Chen et al. Solar power station site selection: A model based on data analysis and MCGDM considering expert consensus
CN108694475B (zh) 基于混合模型的短时间尺度光伏电池发电量预测方法
Olu-Ajayi et al. Ensemble learning for energy performance prediction of residential buildings
KR102478684B1 (ko) 앙상블 학습을 이용한 에너지 소비 예측 방법 및 상기 방법을 수행하는 컴퓨팅 장치
Kumari et al. Machine learning techniques for hourly global horizontal irradiance prediction: A case study for smart cities of India
Oprea et al. Electricity load profile calculation using self-organizing maps
Gao et al. Daily power load curves analysis based on grey wolf optimization clustering algorithm
CN113627065A (zh) 一种考虑分布式新能源的分场景诺顿等效谐波源模型辨识方法
Liu et al. Spatio-temporal graph neural network and pattern prediction based ultra-short-term power forecasting of wind farm cluster
Guo et al. An advanced ensemble clustering approach for data partitioning and mining to optimize performance in variable refrigerant flow systems
Wang et al. A Power Load Association Rules Mining Method Based on Improved FP-Growth Algorithm
Gujjarlapudi et al. Data driven machine learning models for short‐term load forecasting considering electrical vehicle load
RongQi et al. Research of Power User Load Classification Method Based on K-means and FSVM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221108

RJ01 Rejection of invention patent application after publication