CN115659191A

CN115659191A - 基于集成聚类和频繁项集树的光-荷典型场景集生成方法

Info

Publication number: CN115659191A
Application number: CN202211289091.6A
Authority: CN
Inventors: 王星华; 吴泽霖; 周鹏; 全欢; 刘涵予; 钟富城
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-31

Abstract

本发明提出一种基于集成聚类和频繁项集树的光‑荷典型场景集生成方法，涉及配电网负荷、光伏出力场景分析的技术领域，首先获取历史原始负荷数据及光伏出力数据并进行预处理和分类，利用集成聚类法将多个数据集进行聚类，得到多个聚类场景集，然后筛选出光伏典型场景集及负荷典型场景集，考虑同一地区时刻中不同典型气象情况的影响，利用频繁项集树算法生成气象关联规则库，从而建立起光伏典型场景集和负荷典型场景集之间的相关性，最后基于气象关联规则库，生成光伏‑负荷典型关联场景集，在该场景集下进行含光伏的配网综合规划，全面性和科学性强，有效提升光伏就地消纳能力以及电力系统稳定性和可靠性。

Description

基于集成聚类和频繁项集树的光-荷典型场景集生成方法

技术领域

本发明涉及配电网负荷、光伏出力场景分析的技术领域，更具体地，涉及一种基于集成聚类和频繁项集树的光-荷典型场景集生成方法。

背景技术

随着越来越多的光伏电站不断接入配电网中，如何为配电网生成合理的光伏规划场景，从而提升光伏就地消纳能力与电力系统安全可靠运行能力，成为一个难题。

目前，规划运行场景与实际光伏场景偏差较大，主要原因有：(1)光伏的高渗透率正在逐渐改变配电网的结构及运行方式，使配网的功率分布与传统配网出现较大差异；(2)光伏发电受太阳辐射强度及气象条件等环境因素的巨大影响，造成其波动性、随机性远远大于传统能源的发电形式，从而使配网潮流分布的波动增大；(3)光伏波动性影响着配网负荷的情况，导致负荷曲线的一定波动，必须考虑光伏和负荷波动性叠加后对配电网的综合影响；(4)出于安全性的考虑，配网规划过于保守，将光伏出力等效为简单曲线，导致投资成本增大或光伏发电潜力挖掘不充分等问题。

为了充分考虑光伏与负荷综合影响下带来的不确定性，需要形成配网的典型综合运行场景，在该场景下进行含光伏的配网综合规划，提高整个规划的全面性和科学性。

目前，关于配电网规划场景生成考虑依然不够全面，在当前的光伏场景中，一方面只考虑了单个温度的影响，而忽略了光伏场景是由多个影响因素共同作用的结果。例如现有技术中公开了一种基于时序相关性反馈修正的温度与光伏场景生成方法，该方法根据蒙特卡洛法得到的光照场景生成相关的温度集合和相应的光伏场景，将光照强度场景值和温度预测值作为输入，利用卡尔曼滤波得到各场景下的温度输出，将其作为每个场景的基准值，生成不确定性场景集时着重考虑温度与光照强度之间互相关性和温度的时序自相关性。另一方面，侧重于场景应用，将光伏典型场景进行简单生成，没有从各个方面反映出典型场景的实际情况。例如现有技术中公开了一种基于光伏场景的协同多无功设备的电力系统电压控制方法，首先根据历史运行数据，生成初始场景，并进而获得典型场景和极端场景，然后基于生成的典型场景和极端场景，建立电压控制优化模型。在负荷场景中，利用生成对抗网络生成的方法越发普遍，该方法是分析历史数据的统计规律进行预测生成新场景，对真实数据的要求比较高，实际较难操作。

发明内容

为解决当前配电网光伏场景规划中，考虑影响因素单一，与负荷场景关联性差的问题，本发明提出一种基于集成聚类和频繁项集树的光-荷典型场景集生成方法，生成配网的典型综合运行场景，在该场景集下进行含光伏的配网综合规划，全面性和科学性强，提升光伏就地消纳能力与电力系统可靠性。

为了达到上述技术效果，本发明的技术方案如下：

一种基于集成聚类和频繁项集树的光-荷典型场景集生成方法，所述方法包括以下步骤：

S1.获取一定时间内待规划配电网的原始负荷数据及接入其的光伏出力数据，并对数据进行预处理及分类，得到多个数据集；

S2.利用集成聚类法依次将多个数据集聚类为不同的集群，从而生成多个聚类场景集；

S3.利用综合距离公式从每个聚类场景集中筛选出最具代表性的典型场景，将最具代表性的典型场景作为对应聚类场景集的标签，最终将所有聚类场景集转化为光伏典型场景集及负荷典型场景集；

S4.面向光伏典型场景集及负荷典型场景集，考虑同一地区时刻中不同气象影响因子，利用频繁项集树算法生成气象关联规则库，基于气象关联规则库，生成光伏-负荷典型关联场景集。

在本技术方案中，首先获取历史原始负荷数据及光伏出力数据并进行预处理和分类，利用集成聚类法将多个数据集进行聚类，得到多个聚类场景集，然后筛选光伏典型场景集及负荷典型场景集，考虑同一地区时刻中不同典型气象情况的影响，利用频繁项集树算法生成气象关联规则库，从而建立起光伏典型场景和负荷典型场景之间的相关性，最后基于气象关联规则库，生成光伏-负荷典型关联场景集，在该场景集下进行含光伏的配网综合规划，全面性和科学性强，有效提升光伏就地消纳能力以及电力系统稳定性和可靠性。

优选地，在步骤S1中，在对获取的原始负荷数据及光伏出力数据进行预处理时，对缺失少量原始负荷数据、光伏出力数据的时间日期，采用三次样条插值法填充，舍弃缺失大量数据的时间日期。

优选地，在分类时，将负荷数据分类为工作日、周末及除周末外的节假日对应的3个数据集，将光伏的出力数据按照四季分为春、夏、秋、冬对应的4个数据集，从而考虑了工作日、节假日等不同用电日的情况。

优选地，在分类后，将分类后的每日数据集进行特征提取，选取出光伏数据集的聚类特征向量及负荷数据集的聚类特征向量，其中，

光伏数据集的聚类特征向量表示为：

F_pv＝{P_{d_max} P_{d_sum} P_{d_mean} P_{d_std} P_{d_difmax} P_{d_difmin} P_{d_difmean}}

其中，P_{d_max}为每日光伏出力的最大值；P_{d_sum}为每日光伏出力全天总和；P_{d_mean}为每日光伏出力的平均值；P_{d_std}为光伏出力的标准差；P_{d_difmax}是一天内光伏出力序列的一阶差分最大值；P_{d_difmin}是一天内光伏出力序列的一阶差分最小值，P_{d_difmean}是一天内光伏出力序列的一阶差分平均值；

负荷数据集的聚类特征向量表示为：

F_load＝{L_{d_max} L_{d_min} L_{d_mean} L_{d_std} L_{d_difmax} L_{d_difmin} L_{d_difmean}}

其中，L_{d_max}为日最大负荷；L_{d_min}为日最小负荷；L_{d_mean}为日平均负荷；L_{d_std}为日负荷标准差；L_{d_difmax}为日负荷一介差分最大值；L_{d_difmin}为日负荷一介差分最小值；L_{d_difmean}为日负荷一介差分平均值，减少了初始聚类数据的维度。

优选地，步骤S2所述的集成聚类法为HDBSCAN算法，生成多个聚类场景集的过程为：

S21.利用相互可达距离衡量数据集中数据点间的距离，不重复地遍历计算数据集中两点数据的相互可达距离，得到所有数据的距离表格；

S22.将每一个数据集中任意两点作为顶点，顶点相连后得到边，将距离表格中对应的距离作为边的权重，整个数据集转化为数据距离加权图；

S23.利用Prim算法构建数据距离加权图的最小生成树，实现以最小距离连接所有的距离点；

S24.将最小生成树中的所有边按照距离大小递增排序，然后依次选取每条边，将边连接的两个子图包含的子数据集各归为一类，通过并查集归类后，得到每个边对应的一个新类别，构建为聚类层次结构；

S25.确定最小聚类数量，自上而下遍历聚类层次结构，在每个子图归类时，判断归类产生的两个子数据集的数量是否大于最小聚类数量，若是，归为一类，否则，将该归类类别标记为散点并删除，在遍历完整个聚类层次结构后，得到拥有少量类别的压缩聚类树；

S26.将压缩聚类树中每个压缩类别均打上一个类标签，自下而上遍历压缩聚类树，判断每个类别的父类别的稳定性是否大于该类子节点的稳定性总和，若是，则子节点均归属于该类，输出聚类结果；否则，将该类别的稳定性设置为其子节点的稳定性之和。

在此，HDBSCAN算法是将DBSCAN转换为层次聚类算法，然后用一种稳定的聚类技术提取出一个扁平的聚类来扩展DBSCAN。

优选地，在步骤S26中，将压缩聚类树中的所有叶节点声明为选定的簇，定义λ是一个衡量簇的持久性的值，对于给定的簇，定义λ_birth和λ_death分别为对应簇分裂并成为自己的簇时的λ，以及簇分裂成更小的簇时的λ值；对于簇中的每一个节点，将λ_p定义为该点离群的λ值，介于λ_birth和λ_death之间的值，对于每个簇，计算稳定性为：

优选地，在步骤S3中，设每个聚类场景集中共Q个场景，综合距离公式包括余弦距离和欧几里得距离，余弦距离为：

其中，a_i(t)表示t时刻场景i的方向向量，a_j(t)表示t时刻场景j的方向向量，t＝1,2,3,...,24，i,j∈Q，i≠j；

欧几里得距离为：

其中，b_i(t)表示t时刻场景i的数据值；b_j(t)表示t时刻场景j的数据值；

选取最具代表性的典型场景时，利用平均值来表示某个场景的距离指标，场景i的距离均值公式为：

利用归一化思想，评价场景典型情况，衡量出最具代表性的典型场景，表达式为：

其中，D为{D₁,D₂,...,D_Q}的集合，min(D)、max(D)分别为集合中的最小值和最大值，Cos为{Cos₁,Cos₂,...,Cos_Q}的集合，min(Cos)、max(Cos)分别为集合中的最小值和最大值。

在此，考虑每个场景都具有两个距离均值，余弦相似度越大越好，欧式距离越小越好，同时两个距离数值差距较大，难以用简单的算式选取生成出最典型的场景，基于归一化思想，衡量出最具代表性的典型场景。

优选地，在步骤S4中，所述频繁项集树算法为FP-growth算法，利用频繁项集树算法生成气象关联规则库，基于气象关联规则库，生成光伏-负荷典型关联场景集的过程为：

S41.将典型场景集对应时间的气象影响因子进行特征提取以及关联分析处理；

S42.根据光伏典型场景集的日期与气象数据监测日期的对应关系，使每个光伏典型场景均有对应的气象特征数据；

S43.将每个光伏典型场景的日期作为一个项集，包含所述光伏典型场景及其对应的气象特征，以1个光伏典型场景标签以及对应的n个气象特征数据作为项集，使得每个项集包含n+1个项目，采集若干个项集建立项集数据库；

S44.遍历项集数据库，统计项集数据库中全部项集的气象特征的频数，删除不满足最小支持度计数的项集，并按频数递减顺序对项集进行排序，得到频繁项列表；

S45.以空节点为根节点创建FP-tree，依序将频繁项列表的项集插在FP-tree上，若能分享路径则分享，并记录该节点数目，列表插完得到FP-tree；

S46.挖掘FP-tree上的频繁项集，从频繁项列表的底部项依次向上找到对应的条件模式基，利用条件模式基递归挖掘得到频繁项集，所得频繁项集满足最小支持度以及最小置信度要求，即为强关联规则；

S47.以强关联规则作为气象特征数据与光伏典型场景的关联规则库，完成气象特征数据与光伏典型场景的关联分析，利用负荷典型场景集对应日期的气象特征匹配关联规则库，得到对应的光伏典型场景集，最终得到光伏-负荷关联典型场景集。

在此，FP-growth算法是将事务数据表中的各个事务数据项按照支持度排序后，把每个事务中的数据项按降序依次插入到一棵以NULL为根结点的树中，同时在每个节点处记录该结点出现的支持度。同一时刻中气象因子皆会影响光伏出力情况和负荷出力情况，故考虑将气象因子作为关联因子，根据气象关联规则库进行光伏-负荷关联场景生成，构建出描述性强，代表性好的典型配网运行场景，可以为配网典型场景下的配网规划提供更充实的科学依据。

优选地，在步骤S41中，气象影响因子选取为每日对应时间的温度、光照、大气压值，气象特征F_w由以下公式提取：

其中，T_{d_max}为温度最大值，T_{d_min}为温度最小值，T_{d_mean}为温度平均值，T_{d_difmean}为温度的一阶差分平均值，S_{d_time}为太阳光照时间S_{d_mean}为光照时间内的平均太阳辐射量，S_{d_difmean}太阳辐射量的一阶差分平均值，B_{d_difmean}为大气压的一阶差分平均值，B_{d_difmax}为大气压的一阶差分最大值。

优选地，将气象影响因子进行关联分析处理时，利用分位数进行分析处理，将气象特征F_w所包含的所有特征都根据分位数，进行分级处理。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于集成聚类和频繁项集树的光-荷典型场景集生成方法，首先获取历史原始负荷数据及光伏出力数据并进行预处理和分类，利用集成聚类法将多个数据集进行聚类，得到多个聚类场景集，然后筛选光伏典型场景集及负荷典型场景集，考虑同一地区时刻中不同典型气象情况的影响，利用频繁项集树算法生成气象关联规则库，从而建立起光伏典型场景和负荷典型场景之间的相关性，最后基于气象关联规则库，生成光伏-负荷典型关联场景集，在该场景集下进行含光伏的配网综合规划，全面性和科学性强，有效提升光伏就地消纳能力以及电力系统稳定性和可靠性。

附图说明

图1表示本发明实施例1中提出的基于集成聚类和频繁项集树的光-荷典型场景集生成方法的流程示意图；

图2表示本发明实施例2中提出的集成聚类法依次将多个数据集聚类为不同的集群，从而生成多个聚类场景集的流程示意图；

图3表示本发明实施例2中提出的利用频繁项集树算法生成气象关联规则库，基于气象关联规则库，生成光伏-负荷典型关联场景集的流程示意图；

图4表示本发明实施例3中提出的利用HDBSDAN算法聚类春季的光伏数据集可得到聚类场景集后，将特征进行TSNE映射到两维后的示意图；

图5表示本发明实施例3中提出的调节HDBSDAN算法的超参数过程中，CHI指标和DBI指标变化示意图；

图6表示本发明实施例3中聚类出的5个场景示意图；

图7表示本发明实施例3中提出的部分关联规则库的示意图；

图8表示本发明实施例3中提出的光伏典型场景曲线示意图；

图9表示本发明实施例3中提出的关联图8的8个关联到的负荷典型场景曲线示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

实施例1

如图1所示的流程图，本实施例提出了一种基于集成聚类和频繁项集树的光-荷典型场景集生成方法，该方法包括以下步骤：

在本实施例中，对于步骤S1，在对获取的原始负荷数据及光伏出力数据进行预处理时，对缺失少量原始负荷数据、光伏出力数据的时间日期，采用三次样条插值法填充，舍弃缺失大量数据的时间日期。在分类时，将负荷数据分类为工作日、周末及除周末外的节假日对应的3个数据集，将光伏的出力数据按照四季分为春、夏、秋、冬对应的4个数据集，从而考虑了工作日、节假日等不同用电日的情况，且考虑不同日期对负荷以及光伏出力影响强弱，同时也能防止后续S2中聚类数量过多造成误差。

为减少初始初始聚类数据的维度，在分类后，将分类后的每日数据集进行特征提取，选取出光伏数据集的聚类特征向量及负荷数据集的聚类特征向量，在本实施例中，光伏数据集的聚类特征向量一共取7个变量，光伏数据集的聚类特征向量表示为：

其中，P_{d_max}为每日光伏出力的最大值；P_{d_sum}为每日光伏出力全天总和；P_{d_mean}为每日光伏出力的平均值；P_{d_std}为光伏出力的标准差；P_{d_difmax}是一天内光伏出力序列的一阶差分最大值；P_{d_difmin}是一天内光伏出力序列的一阶差分最小值，P_{d_difmean}是一天内光伏出力序列的一阶差分平均值，在此，光伏出力时间仅限于光照时间以内；

负荷数据集的聚类特征向量一共取6个变量，表示为：

其中，L_{d_max}为日最大负荷；L_{d_min}为日最小负荷；L_{d_mean}为日平均负荷；L_{d_std}为日负荷标准差；L_{d_difmax}为日负荷一介差分最大值；L_{d_difmin}为日负荷一介差分最小值；L_{d_difmean}为日负荷一介差分平均值，减少了初始聚类数据的维度，在此，负荷数据统计时间是全天。

实施例2

本实施例针对利用集成聚类法依次将多个数据集聚类为不同的集群，从而生成多个聚类场景集的过程进行说明，在本实施例中，步骤S2所述的集成聚类法为HDBSCAN算法，HDBSCAN是由Campello、Moulavi和Sander开发的聚类算法。它通过将DBSCAN转换为层次聚类算法，然后用一种稳定的聚类技术提取出一个扁平的聚类来扩展DBSCAN，和传统DBSCAN最大的不同之处在于，HDBSCAN可以处理密度不同的聚类问题。生成多个聚类场景集的过程可参见图2，具体为：

在步骤S26中，将压缩聚类树中的所有叶节点声明为选定的簇，定义λ是一个衡量簇的持久性的值，对于给定的簇，定义λ_birth和λ_death分别为对应簇分裂并成为自己的簇时的λ，以及簇分裂成更小的簇时的λ值；对于簇中的每一个节点，将λ_p定义为该点离群的λ值，介于λ_birth和λ_death之间的值，对于每个簇，计算稳定性为：

在步骤S3中，设每个聚类场景集中共Q个场景，综合距离公式包括余弦距离和欧几里得距离，余弦距离为：

欧几里得距离为：

假设一个聚类场景集合中一共有Q个场景，则某个场景经过(Q-1)*2次的场景比较计算，得到(Q-1)*2个距离值。由于需要选取最具代表性的典型场景，故利用平均值来表示某个场景的距离指标。

考虑每个场景都具有两个距离均值，余弦相似度越大越好，欧式距离越小越好，同时两个距离数值差距较大，难以用简单的算式选取生成出最典型的场景，基于归一化思想，衡量出最具代表性的典型场景。

在步骤S4中，所述频繁项集树算法为FP-growth算法，利用频繁项集树算法生成气象关联规则库，基于气象关联规则库，生成光伏-负荷典型关联场景集的过程参见图3，具体过程为：

S47.以强关联规则作为气象特征数据与光伏典型场景的关联规则库，完成气象特征数据与光伏典型场景的关联分析，利用负荷典型场景集对应日期的气象特征匹配关联规则库，得到对应的光伏典型场景，最终得到光伏-负荷关联典型场景。

在步骤S41中，选取的光伏时间和负荷时间几乎为当地同一时间一年的数据集合，同一时刻中气象因子皆会影响光伏出力情况和负荷出力情况，故考虑将气象因子作为关联因子，将光伏场景和负荷场景进行联立，从而获取更加贴近配网规划的现有场景。

气象影响因子选取为每日对应时间的温度、光照、大气压值，气象特征F_w由以下公式提取：

将气象影响因子进行关联分析处理时，利用分位数进行分析处理，将气象特征F_w所包含的所有特征都根据分位数，进行分级处理。

实施例3

本实施例结合具体应用，更具体地对本发明所提出的方法进行说明。设利用HDBSDAN算法聚类春季的光伏数据集可得到5个聚类场景集，将特征进行TSNE映射到两维后得到图4所示，不同颜色表示不同的聚类场景集，不同深浅代表场景距离聚类中心的程度。

为检验HDBSCAN算法超参数选取的有效性，提出一种综合CHI、DBI的聚类评价方式，聚类场景的有效性问题一直是聚类场景领域的研究热点，场景验证指标难点之一就在于难以有指标进行指导，但可以利用目前已经提出的很多聚类有效性指标:

(1)DBI指标

DBI指标的计算公式为:

其中，

d(X_k)和d(X_j)为矩阵内部距离；d(c_k,c_j)为向量间的距离。I_DBI越小表示聚类效果越好。

(2)CHI指标

CHI指标综合考虑类间的分散性(用B表示)和类内的紧凑性(用W表示)，其中：

其中，x为所有对象的均值；w_k,i表示第i个对象对第k个类簇的隶属关系，即：

则CHI指标的计算公式为

可见，I_CHI越大表示类簇间的分散性和类簇内的紧凑性越好。

(3)综合评价指标I_DC

I_DC＝I_CHI-I_DBI

当I_DC取得最大值时，聚类效果最好，超参数选取最准确；

参见图5，在具体实施例中，对各超参数进行调试，可以利用综合评价指标固定某一超参数，再调试另一参数得到结果。固定其它参数，当最小聚类数量参数值取7时，综合评价指标取得最高，聚类场景质量最好，其值为I_DC＝225.8-48.5＝177.3。

在接下来由场景典型指标解决从多个不同的聚类场景集合中选取出最具代表性的典型场景，本实施例指标基于余弦距离和欧几里得距离，能够衡量某个场景的典型程度，即与其它场景相比具有代表性的程度，通过典型场景指标即可衡量出最大典型值场景，可作为典型场景，在本实施例中，参见图6，图中一共有5个聚类场景集，其中，聚类场景集中深色线为选取的典型场景，处于聚类场景集中间位置且较为平滑，可作为集合代表性强的典型场景参与接下来的关联场景生成。

为便于利用FP-growth算法生成气象关联规则库，需要将气象特征进一步关联分析处理，本实施例利用分位数进行分级处理。分位数是指连续分布函数中的一个点，这个点对应概率p。若概率0<p<1，随机变量X或它的概率分布的分位数Za，是指满足条件p(X≤Za)＝α的实数。五分位数是统计学中分位数的一种，即把所有数值由小到大排列并分成四等份，处于四个分割点位置的数值就是四分位数。

将气象特征F_w所包含的所有特征都根据分位数，进行分级处理，以T_{d_max}为例：

1)第一五分位数T_Q1，等于该样本中所有数值由小到大排列后第20％的数字；

2)第二五分位数T_Q2，等于该样本中所有数值由小到大排列后第40％的数字；

3)第三五分位数T_Q3，等于该样本中所有数值由小到大排列后第60％的数字。

4)第四五分位数T_Q4，等于该样本中所有数值由小到大排列后第80％的数字。

FP-growth即利用FP-tree的关联模式挖掘就是产生支持数大于或等于设定的最小支持数的项集，进而依据最小置信度得出强关联规则库，关联规则挖掘的主要工作在于挖掘出全部频繁项集。

(1)支持度

若关联规则R：X＝>Y，其中，

并且

I为项集，X和Y为关联元素。如果项集数据库T中包含X、Y关联元素同时存在的项集比例是s，就称关联规则R在T中支持度为s，也可以表示为概率P(X U Y)，即是X和Y在T中出现的次数和总次数的比值，如下式所示：

(2)置信度

若关联规则R：X＝>Y，其中，

并且

I为项集，X和Y为关联元素。则规则R的置信度是指在项集数据库T中在含有X的项集中，含有Y的可能性，可以用条件概率P(Y|X)来表示，公式为同时包含X和Y的项集数与含X的项集数的比值，如下式表示：

在本实施例中，利用FP-growth挖掘气象特征和光伏典型场景集的关联关系，设定强关联规则，即最小支持度和最小置信度的关联规则，可得到光伏典型场景集各自对应的气象关联规则库。如图7所示，展示了部分关联规则库，负荷典型场景能够通过匹配基于气象特征的关联规则库从而关联到对应的光伏典型场景，从而生成光伏-负荷关联场景。图8所示为所取光伏典型场景曲线，图9所示为关联到的8个负荷典型场景曲线，即得到光伏典型场景下，对应的全部可能负荷场景，将它们统一关联使用，二者组成的关联场景，能够科学描述配网规划场景现状，有一定的典型场景归纳总结能力，能够为配网规划提供合理的科学依据。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，在步骤S1中，在对获取的原始负荷数据及光伏出力数据进行预处理时，对缺失少量原始负荷数据、光伏出力数据的时间日期，采用三次样条插值法填充，舍弃缺失大量数据的时间日期。

3.根据权利要求2所述的基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，在分类时，将负荷数据分类为工作日、周末及除周末外的节假日对应的3个数据集，将光伏的出力数据按照四季分为春、夏、秋、冬对应的4个数据集。

4.根据权利要求3所述的基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，在分类后，将分类后的每日数据集进行特征提取，选取出光伏数据集的聚类特征向量及负荷数据集的聚类特征向量，其中，

光伏数据集的聚类特征向量表示为：

负荷数据集的聚类特征向量表示为：

其中，L_{d_max}为日最大负荷；L_{d_min}为日最小负荷；L_{d_mean}为日平均负荷；L_{d_std}为日负荷标准差；L_{d_difmax}为日负荷一介差分最大值；L_{d_difmin}为日负荷一介差分最小值；L_{d_difmean}为日负荷一介差分平均值。

5.根据权利要求3所述的基于集成聚类和频繁项集树的光-荷典型场景集生产方法，其特征在于，步骤S2所述的集成聚类法为HDBSCAN算法即基于密度与层次的集成聚类算法，生成多个聚类场景集的过程为：

6.根据权利要求4所述的基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，在步骤S26中，将压缩聚类树中的所有压缩节点声明为选定的簇，定义λ是一个衡量簇的持久性的值，对于给定的簇，定义λ_birth和λ_death分别为对应簇分裂并成为该选定簇时的λ，以及簇分裂成更小的簇时的λ值；对于簇中的每一个节点，将λ_p定义为该点离群的λ值，介于λ_birth和λ_death之间的值，对于每个簇，计算稳定性为：

7.根据权利要求6所述的基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，在步骤S3中，设每个聚类场景集中共Q个场景，综合距离公式包括余弦距离和欧几里得距离，余弦距离为：

欧几里得距离为：

8.根据权利要求5所述的基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，在步骤S4中，所述频繁项集树算法为FP-growth算法，利用频繁项集树算法生成气象关联规则库，基于气象关联规则库，生成光伏-负荷典型关联场景集的过程为：

9.根据权利要求8所述的基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，在步骤S41中，气象影响因子选取为每日对应时间的温度、光照、大气压值，气象特征F_w由以下公式提取：

10.根据权利要求9所述基于集成聚类和频繁项集树的光-荷典型场景集生成方法，其特征在于，将气象影响因子进行关联分析处理时，利用分位数进行分析处理，将气象特征F_w所包含的所有特征都根据分位数，进行分级处理。