CN111709454A

CN111709454A - 一种基于最优copula模型的多风电场出力聚类评估方法

Info

Publication number: CN111709454A
Application number: CN202010440044.1A
Authority: CN
Inventors: 王玉荣; 杨若琳; 汤奕
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2020-09-25
Anticipated expiration: 2040-05-22
Also published as: CN111709454B

Abstract

本发明公开了一种基于最优copula模型的多风电场出力聚类评估方法，该方法包括以下步骤：(1)对采样的两风电场有功出力历史数据构建单一copula、混合copula模型；(2)对采样的两风电场有功出力历史数据进行变结构点诊断并构建变结构copula模型；(3)基于构建的单一copula、混合copula、变结构copula模型，评估模型精度并选择最优相关性拟合模型；(4)基于最优相关性拟合模型，利用模糊C均值聚类法对两风电场概率分布值组成的数据集聚类；(5)评估基于最优相关性拟合模型的聚类精度。本发明可准确描述两风电场出力的相关性，实现可靠的聚类分析，对电力系统规划具有重要意义，同时本专利提出的变结构点诊断方法和聚类精度评估方法也广泛适用于各种具有相关性的时间序列。

Description

一种基于最优copula模型的多风电场出力聚类评估方法

技术领域

本发明属于电力系统领域，具体涉及一种基于最优copula模型的多风电场出力聚类评估方法。

背景技术

近年来，世界范围风电场大规模接入电力系统成为主流，截至2019年，我国风电累计装机容量达到2.1亿千瓦，风电装机占全部发电装机的10.4％，风电发电量占全部发电量的5.5％。随着大规模风电场并网，由于风力发电的波动性及不确定性，导致电力系统的运行特性呈现出强随机性，系统稳定性降低，系统运行规划难度增加的问题。

对于同一区域内的多个距离相近的风电场，可以将它们的出力看作来自于同一风源或相关风源，那么它们的出力之间就具有特定的相关关系，其中尾部相关性尤为突出。合理刻画多风电场出力的相关性，并生成风电典型出力情况，对解决电力系统应对风电运行规划问题具有重要的意义。现有的分析多风电场出力相关性的方法大多需先确定随机变量间的相关性特征或者相关关系矩阵，且没有考虑尾部相关性，部分研究考虑了尾部相关性，但没有分析相关关系结构的变化。因此，为了准确描述多风电场出力之间的相关关系的特征规律，特别是尾部相关性的变化，且获得高拟合精度的聚类结果，对多风电场进行有效的相关性建模，并基于最优相关性模型进行聚类是最有效的解决方案。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于最优copula模型的多风电场出力聚类评估方法，该方法可以精准描述两风电场出力相关关系，获得高拟合精度的聚类结果，可以解决大规模风电并网影响电力系统运行规划的问题。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于最优copula模型的多风电场出力聚类评估方法，该方法包括以下步骤：

(1)对采样的两风电场有功出力历史数据构建单一copula、混合copula模型；

(2)对采样的两风电场有功出力历史数据进行变结构点诊断并构建变结构copula模型；

(3)基于构建的单一copula、混合copula、变结构copula模型，评估模型精度并选择最优相关性拟合模型；

(4)基于最优相关性拟合模型，利用模糊C均值聚类法对两风电场概率分布值组成的数据集聚类；

(5)评估基于最优相关性拟合模型的聚类精度。

步骤(1)中，所述构建单一copula、混合copula模型包括：

(1-1)确定两风电场出力历史数据的边缘概率分布函数F_t(·)和G_t(·)；

(1-2)基于两风电场出力的边缘概率分布函数，分别建立各基本copula模型：Gaussian-copula，t-copula，Clayton-copula，Gumbel-copula，Frank-copula，根据极大似然估计法，估计各copula函数参数；

(1-3)定义经验copula函数，根据评判指标对(1-2)中各模型进行评价；计算各模型的Kendall系数、Spearman系数、Akaike Information Criterion(AIC)指标、各基本copula模型与经验copula的欧式平方距离；

(1-4)计算(1-3)中模型各评判指标，比较各基本copula模型与经验copula模型的评判指标接近程度，与经验copula模型最接近则为最优评判指标，最优评判指标数最多的模型则为最佳模型，若最优评判指标数相同，则选择欧式平方距离小的为最佳模型；

(1-5)混合copula采用Clayton-copula，Gumbel-copula，Frank-copula构建，根据EM算法估计各函数权重并进行参数估计，构建混合copula模型。

步骤(2)中，所述变结构点诊断包括：

(2-1)基于步骤(1)中采样的两风电场出力历史数据的边缘概率分布函数F_t(·)和G_t(·)，将两风电场历史出力的时间序列

转化为序列

其中，t为序列点，T为时间序列总长度，u_t＝F_t(x_t)，v_t＝G_t(y_t)，Φ^-1(·)为标准正态分布的逆函数，并令

与

为样本，其中[i,j]为样本区间，并选择初始样本为[1,2n₀]，其中n₀为初始子样本数，并令n₀＝200；

(2-2)令k为样本区间[i,j]中可能的变结构点位置，其中，k＝i+n₀-1,...,j-n₀，形成[i,k]和[k,j]两个子样本区间，构造综合相关性指标

其中，ρ_p为Pearson相关系数，ρ_s为Spearman相关系数，并调用matlab中corrcoef函数计算子样本

与

的Pearson相关系数ρ_p和Spearman相关系数ρ_s并得到综合相关性指标ρ_F，并计算子样本

与

的Pearson相关系数ρ_p和Spearman相关系数ρ_s并得到综合相关性指标ρ_B，将ρ_F，ρ_B进行Fisher转换得到

计算得到k处Z检验统计量Z_k，重复(2-2)至计算得到k＝j-n₀处的Z检验统计量为止；

(2-3)令Z'＝max(|Z_k|)，记录Z'对应的位置为k'，进行关于综合相关性指标ρ的Z检验，并给定显著性水平α＝0.05，,得到标准分数z'_α/2＝Φ^-1(1-α/2)；

(2-4)若Z'≥z'_α/2，则k'为变结构点，并令i＝k'+1,j＝k'+2n₀，重复(2-2)-(2-3)；若Z'≤z'_α/2，则该样本区间不存在变结构点，并令j＝j+20，重复(2-2)-(2-3)至j＝T为止，找出所有变结构点位置。

所述构建变结构copula模型包括：

(2-5)根据变结构点位置将两风电场序列划分成不同阶段；

(2-6)分别构建各阶段的基本copula模型，计算Kendall系数、Spearman系数、各基本copula模型与经验copula的欧式平方距离、AIC评判指标，比较各基本copula模型与经验copula模型的评判指标接近程度，与经验copula模型最接近则为最优评判指标，最优评判指标数最多的模型则为该阶段最佳模型，若最优评判指标数相同，则选择欧式平方距离小的为该阶段最佳模型，并由各阶段最优copula模型构成两风电场出力相关性的变结构copula模型。

步骤(3)中，所述评估模型精度并选择最优相关性模型方法包括：

(3-1)基于构建的两风电场出力相关性的单一copula、混合copula、变结构copula模型，通过对边缘概率分布函数F_t(·)和G_t(·)求逆，分别得到三种相关性拟合模型各序列点的两风电场的出力，并计算各模型各序列点的两风电场总出力；

(3-2)与两风电场实际总出力历史数据对比，计算期望相对误差、标准差相对误差、偏度相对误差、峰度相对误差、Kullback-Leibler(KL)距离作为模型精度评价指标，评价指标数值最小则为最优评价指标，最优评判指标数最多的模型则为最优模型，若最优评判指标数相同，则选择KL距离小的为最优模型。

步骤(4)中，所述基于模糊C均值聚类对两风电场概率分布值组成的数据集聚类方法包括：

(4-1)基于最优相关性拟合模型的两风电场出力联合分布函数，利用蒙特卡罗法对两风电场出力数据抽样得到n个两风电场出力组成的数据集。分别计算得到两风电场边缘概率分布函数值，形成n个两风电场概率分布值组成的数据集，选择合适的聚类个数h，利用模糊C均值聚类，初始化隶属度矩阵，计算初始聚类中心，计算每个数据的隶属度函数值，更新聚类中心，至模糊C均值算法收敛为止，得到h个两风电场概率分布值的聚类中心，并得到各类所占个数及各类发生概率；

(4-2)通过对边缘概率分布函数F_t(·)和G_t(·)求逆，由h个两风电场概率分布值的聚类中心得到h个两风电场实际出力的聚类中心点。

步骤(5)中，所述评估聚类精度方法包括：

(5-1)基于各类所占个数及h个两风电场实际出力的聚类中心点，得到聚类后并按风电出力大小升序排列的序列x_s'，且得到聚类前并按风电出力大小升序排列的序列x_s，定义差异度C为聚类前后风电场出力累计概率分布曲线平均距离，公式如下：

其中，FN(x_s(n))为聚类之前风电场出力为x_s(n)时的累积概率分布函数值，Fn(x_s'(n))为聚类之后风电场出力为x_s'(n)时的累积概率分布函数值；

(5-2)基于最优相关性拟合模型，分别计算两风电场出力聚类前后的差异度C，并取平均值。基于两风电场实际出力，计算不考虑两风电场相关性下，两风电场出力聚类前后的差异度C，并取平均值。对比分析考虑两风电场相关性及不考虑相关性下的聚类精度。

有益效果：与现有技术相比，本发明的技术方案具有以下有益技术效果：

1、本发明针对具有不同相关性结构特征的多时间序列，构造的相关性模型能更好地描述时间序列间线性相关性、非线性相关性及尾部相关性特征，且不用提前确定随机变量间的相关关系矩阵；

2、本发明对具有变结构相关性特征的时间序列具有较强的适应性，能更灵活地捕捉到变量间相关结构的变动，提高相关性模型拟合精度；

3、基于最优相关性模型，使用模糊C均值聚类算法进行聚类生成包含相关性信息的两风电场典型出力情况，相比于通过数据几何特征直接聚类得到的典型出力情况，聚类精度更高。

附图说明

图1为一种基于最优copula模型的多风电场出力聚类评估方法流程图；

图2为风电场1核分布估计及经验分布图像；

图3为风电场2核分布估计及经验分布图像；

图4为两风电场经验copula分布函数图；

图5为变结构点诊断及相关性参数变化曲线；

图6为各相关性模型及实际风电场总出力概率密度曲线；

图7为模糊C均值聚类各聚类中心点；

图8为风电场1聚类前后的累积概率分布曲线；

图9为风电场2聚类前后的累积概率分布曲线。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

实施例

如图1，该方法分为如下步骤：

(1)步骤1，对采样的两风电场出力历史数据构建单一copula、混合copula模型。

其中，第一步，基于非参数估计法确定两风电场出力历史数据的边缘概率分布函数F_t(·)和G_t(·)；分别画出风电场1，风电场2核分布估计及经验分布图像，如图2，图3所示，经验分布函数可作为实际边缘概率分布函数的一个描述标准，通过对比曲线的差距，非参数估计的结果与经验分布函数基本重合，估计精度较高。

第二步，基于两风电场出力的边缘概率分布函数，分别建立各基本copula模型：Gaussian-copula，t-copula，Clayton-copula，Gumbel-copula，Frank-copula，根据极大似然估计法进行各模型参数估计。

第三步，定义经验copula函数，计算各基本模型Kendall系数、Spearman系数、各基本copula模型与经验copula的欧式平方距离、AIC指标，比较各基本copula模型与经验copula模型的评判指标接近程度并选择最优copula。

其中，经验copula函数，具体公式如下：

其中，x_t(t),y_t(t)分别为为风电场1出力与风电场2第t个出力值，F_e(x_t(t))、G_e(y_t(t))分别为x_t,y_t的经验分布函数在t处的取值，I_[·]为示性函数，u_t(t),v_t(t)分别代表风电场1和风电场2在t处的边缘概率分布函数值。经验copula分布函数如图4所示。

欧式平方距离：反映模型与经验copula模型的距离，公式如下：

其中C_n(u_t,v_t)是经验copula分布函数，C_x(u_t,v_t)为各类型的copula分布函数，且欧式平方距离越小表示模型越准确。

AIC指标：反映模型与给定数据集的统计模型之间的拟合优良性，通过加入模型参数个数的惩罚项来避免过拟合问题，AIC指标越小，表示拟合效果越好，公式如下：

其中，k是模型参数个数，L是模型极大似然函数的最大值。

第四步，综合各基本copula评判指标结果，选择最佳模型。两风电场单一copula模型参数估计及选择结果如表1所示：

表1两风电场单一copula模型选择结果

由表1可得，Gumbel-copula与经验copula模型在Kendall、Spearman、欧式平方距离评判指标上最接近，即Gumbel-copula的最优评判指标数最多，因此单一copula模型选择使用Gumbel-copula描述。

第五步，混合copula采用Clayton-copula，Gumbel-copula，Frank-copula构建，混合copula模型表达式为：

C_mix(u_t,v_t)＝ω_ClC_Cl(u_t,v_t,θ_Cl)+ω_GuC_Gu(u_t,v_t,θ_Gu)+ω_FrC_Fr(u_t,v_t,θ_Fr)

其中，ω_Cl、ω_Gu、ω_Fr分别为混合copula函数中Clayton-copula，Gumbel-copula，Frank-copula的权重系数，C_Cl、C_Gu、C_Fr分别为Clayton-copula，Gumbel-copula，Frank-copula函数，θ_Cl、θ_Gu、θ_Fr分别为Clayton-copula，Gumbel-copula，Frank-copula函数的参数。根据EM算法估计各函数权重并进行参数估计，得到参数估计结果如表2：

表2.两风电场混合copula参数估计结果

由表2可得，Gumbel-copula占比最大，即两风电场出力相关性具有较强的上尾部特性。

(2)步骤2，对采样的两风电场出力历史数据进行变结构点诊断并构建变结构copula模型，主要分为两步：

第一步，变结构点诊断：

转化为序列

与

与

与

计算得到k处Z检验统计量Z_k，公式如下：

其中，

为ρ_F，ρ_B经过Fisher转换得到，n₁、n₂分别为ρ_F，ρ_B相对应样本的个数。重复(2-2)至计算得到k＝j-n₀处的Z检验统计量为止；

第二步，构建变结构copula模型：

根据变结构点位置将两风电场序列划分成14个阶段；分别构建各阶段的基本copula模型，并进行参数估计，基于Kendall系数、Spearman系数、欧式平方距离、AIC评判指标选择各阶段最优copula，各时段最优copula选择结果见表3。

表3.各时段变结构copula模型选择结果和评判指标

(3)评估模型精度并选择最优相关性模型方法包括：

计算单一copula、混合copula、变结构copula相关性模型拟合后的两风电场总出力，与两风电场实际总出力对比，根据期望相对误差、标准差相对误差、偏度相对误差、峰度相对误差、KL距离D(P||Q)来评价模型精度，其中，KL距离衡量的是相同事件空间里的两个概率分布的差异情况，D(P||Q)表达式如下：

其中，X表示相同事件空间，即两风电场总出力，P(x)表示实际两风电总出力的概率密度，Q(x)表示各相关性模型的两风电总出力的概率密度。画出各模型及实际风电场总出力概率密度曲线如图6所示，得到各相关性模型评价指标计算结果见表4。

表4.三种相关性模型评价指标计算结果

可知，变结构copula模型的期望相对误差、标准差相对误差、偏度相对误差、峰度相对误差、KL距离都是最小的，因此变结构copula拟合精度最高，所生成的风电模拟出力样本与实际出力更符合。

(4)基于最优相关性变模型，利用模糊C均值聚类对两风电场概率分布值组成的数据集聚类方法包括：

基于最优相关性拟合模型的两风电场出力联合分布函数，利用蒙特卡罗法对两风电场出力数据抽样得到16000个两风电场出力组成的数据集。分别计算得到两风电场边缘概率分布函数值，形成16000×2维两风电场概率分布值的数据集，选择聚类个数h＝8，初始化各聚类中心，利用模糊C均值聚类，计算每个数据的隶属度函数值，更新聚类中心，至模糊C均值算法收敛为止，得到8个两风电场概率分布值的聚类中心，并得到各类发生概率；

由8个两风电场概率分布值的聚类中心得到8个两风电场实际出力的聚类中心点，通过对边缘概率分布函数F_t(·)和G_t(·)求逆，得到8个两风电场实际出力的聚类中心点，如表5所示。

表5.基于变结构copula聚类的各类概率及聚类中心

(5)评估聚类精度：

基于变结构copula的聚类结果，对比基于实际数据直接聚类的聚类结果，其中，基于实际数据聚类的各类概率及聚类中心如表6所示，得到基于变结构copula、基于实际数据的聚类方法的各类概率及聚类中心如图7所示，可知两种不同的聚类方法得到的聚类中心有较大的差异。

表6.基于实际数据聚类的各类概率及聚类中心

分别画出基于变结构copula和基于实际出力数据，风电场1、风电场2聚类后的累积概率分布曲线及实际累积概率分布曲线，如图8、图9所示，定义差异度C为聚类前后风电场出力累计概率分布曲线平均距离，公式如下：

其中，FN(x_s(n))为聚类之前风电场出力为x_s(n)时的累积概率分布函数值，Fn(x_s'(n))为聚类之后风电场出力为x_s'(n)时的累积概率分布函数值；计算基于最优相关性模型聚类后的差异度C，并对比分析直接基于两风电场实际出力聚类后的差异度C，差异度C对比结果见表7。

表7差异度对比结果

由表7分析可知，与基于实际数据的聚类结果相比，基于变结构copula的聚类结果拟合精度更高。

综上，针对具有不同相关性结构特征的时间序列，基于copula理论构造相关性模型能更好地描述时间序列间线性相关性、非线性相关性、尾部相关性特征并且针对具有变结构相关性特征的时间序列，变结构copula可以更灵活地捕捉到变量间相关结构的变动，提高相关性模型拟合精度。且基于最优相关性模型，进行聚类生成包含两风电场出力相关性信息的聚类中心，相比于通过数据几何特征直接聚类得到的聚类中心，拟合精度更高。

Claims

1.一种基于最优copula模型的多风电场出力聚类评估方法，其特征在于，该方法包括以下步骤：

(5)评估基于最优相关性拟合模型的聚类精度。

2.根据权利要求1所述的一种基于最优copula模型的多风电场出力聚类评估方法，其特征在于，步骤(1)中，所述构建单一copula、混合copula模型，包括下述步骤：

(1-1)分别确定两风电场有功出力历史数据的边缘概率分布函数F_t(·)和G_t(·)；

(1-2)基于两风电场出力的边缘概率分布函数，分别建立各基本copula模型，包括：Gaussian-copula，t-Copula，Clayton-copula，Gumbel-copula，Frank-copula，根据极大似然估计法，计算各copula函数参数；

(1-5)混合copula模型采用Clayton-copula，Gumbel-copula，Frank-copula函数以不同的权重组合，并根据EM算法估计各函数权重并进行参数估计，构建混合copula模型。

3.根据权利要求1所述的一种基于最优copula模型的多风电场出力聚类评估方法，其特征在于，步骤(2)中，所述变结构点诊断步骤如下：

转化为序列

其中，t为序列点，T为时间序列总长度，u_t＝F_t(x_t)，v_t＝G_t(yt)，Φ^-1(·)为标准正态分布的逆函数，并令

与

与

与

(2-3)令Z'＝max(|Z_k|)，记录Z'对应的位置为k'，进行关于综合相关性指标ρ的Z检验，并给定显著性水平α＝0.05，得到标准分数z'_α/2＝Φ^-1(1-α/2)；

(2-4)若Z'≥z'_α/2，则k'为变结构点，并令i＝k'+1,j＝k'+2n₀，重复(2-2)-(2-3)；若Z'≤z'_α/2，则该样本区间不存在变结构点，并令j＝j+20，重复(2-2)-(2-3)至j＝T为止，得出所有变结构点位置。

4.根据权利要求1或3所述的一种基于最优copula模型的多风电场出力聚类评估方法，其特征在于，步骤(2)中，所述构建变结构copula模型方法如下：

(2-5)根据诊断得到的变结构点位置将两风电场序列

划分成不同阶段；

5.根据权利要求1所述的一种基于最优copula模型的多风电场出力聚类评估方法，其特征在于，步骤(3)中，所述评估模型精度并选择最优相关性拟合模型方法如下：

6.根据权利要求1或5所述的一种基于最优copula模型的多风电场出力聚类评估方法，其特征在于，步骤(4)中，所述利用模糊C均值聚类法对两风电场概率分布值组成的数据集聚类方法如下：

(4-1)基于最优相关性拟合模型的两风电场出力联合分布函数，利用蒙特卡罗法对两风电场出力数据抽样得到n个两风电场出力组成的数据集，分别计算得到两风电场边缘概率分布函数值，形成n个两风电场概率分布值组成的数据集，选择预设的聚类个数h，利用模糊C均值聚类，初始化隶属度矩阵，计算初始聚类中心，计算每个数据的隶属度函数值，更新聚类中心，至模糊C均值算法收敛为止，得到h个两风电场概率分布值的聚类中心，并得到各类所占个数及各类发生概率；

7.根据权利要求6所述的一种基于最优copula模型的多风电场出力聚类评估方法，其特征在于，步骤(5)中，所述评估聚类精度方法如下：

(5-2)基于最优相关性拟合模型，分别计算两风电场出力聚类前后的差异度C，并取平均值，基于两风电场实际出力，计算不考虑两风电场相关性下，两风电场出力聚类前后的差异度C，并取平均值，对比分析考虑两风电场相关性及不考虑相关性下的聚类精度。