CN114036845A

CN114036845A - 一种风电场群模型构建方法

Info

Publication number: CN114036845A
Application number: CN202111335483.7A
Authority: CN
Inventors: 朱疆生; 袁少伟; 李宇翔; 李大立; 居来提·阿不力孜; 何峰; 缪刚; 彭建; 陈疆; 张怀德; 胡健民; 刁智伟; 朱正印; 张伟健
Original assignee: State Grid Xinjiang Electric Power Co Ltd Urumqi Power Supply Co; State Grid Corp of China SGCC
Current assignee: State Grid Xinjiang Electric Power Co Ltd Urumqi Power Supply Co; State Grid Corp of China SGCC
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-11
Anticipated expiration: 2041-11-11
Also published as: CN114036845B

Abstract

本发明公开了一种风电场群模型构建方法，其是基于聚类算法的风电场群多典型场景模型构建，剖析风电场群功率分布趋势，完善了大规模风电场群调度的技术基础。本发明公开了一种风电场群模型构建方法，包含如下步骤：S100：利用考虑风电功率的曲线形态特征和数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类，得到风电功率聚类子簇；S200：通过场景缩减技术对聚类子簇进行缩减，得到典型场景并建立与之匹配的概率分布函数；S300：通过逆变换抽样技术，抽取符合多典型场景概率分布的样本集；S400：最后，拟合得到风电场群持续功率曲线的数学模型。

Description

一种风电场群模型构建方法

技术领域

本发明涉及一种风电场群模型构建的方法，具体用于风电场群模型构建，预测风电场群功率分布趋势。

背景技术

随着我国风资源的深度开发，目前在风资源不那么丰富的内陆山区，也建立了数量庞大的分布式风电场群。因为这些风电场群大多位于山区，远离能源负荷中心，加剧了该地区负荷与电源的不均衡，降低了风电的消纳水平。为解决山区风电消纳难题，目前我国大力兴建超高压工程，将风电场群的风电功率进行统一打捆外送。大规模的风电功率外送，也给当地电网的调度运行带来了困难，而建立风电场群整体模型是解决电力调度困局的技术关键。因此，对大规模山区风电场群的整体建模研究具有重要技术价值。

我国山区风电场的风电机组大多沿山脊排布。在对风电机组排布与风电功率特性的研究中发现，同一区域不同山脉的风电功率特性都有可能存在较大差异。使用少数特定的风电功率数据，建立单一场景的风电场群模型，可能不具备显著代表性。

目前我国除三北(东北、华北北部和西北地区)、西南沿海、青藏高原地区以外的大型风电场，大多数都是沿山脉山脊建设，不同海拔、地貌、风机排布方式都会影响通过风电机组的风速，从而影响到实时风电功率。

当前风电场建模方法主要分为如下两大类：

一是风速-风电功率模型，根据风电场历史风电数据，建立风速对风电功率之间的函数映射关系，这种模型主要应用于风电功率预测研究。

二是风电场动态模型(本发明专利的方案属于该类别)，通过对历史数据统计分析得到相应概率分布，广泛应用于风速波动、电力系统动态稳定领域的研究。以上风电场建模方法涉及的几种现有技术包含如下缺点：

(1)关于风速-风电功率模型的现有技术的缺点：

文献[1-2]忽略了风电场内各个区域的风速差，认为所有风机具有相同的发电功率，最终利用一台风机的功率等比例放大代替整个风电场的功率。这种方法误差较大，因此不适用于大型风电场详细建模。文献[3]对比了单风机与风电场整体在风电功率和平均风速上的差异，发现相较于风电场整体，单风机的风电功率波动更大，若直接将单风机的风电功率按比例扩大代替风电场整体的风电功率，会导致整体风电功率波动增大与实际情况不符。因此提出，使用风电场平均风速作为单风机模型的输入，发现风机功率输出更贴合实际情况。

上述风速-风电功率模型的建立，是一种基于风电场实测功率的外特性统计建模。统计建模往往需要大量历史数据支撑，模型推导结果往往不具备一定的物理可解释性；总体来讲风速-风电功率模型精确度欠佳。

(2)关于风电场动态模型的现有技术的缺点：

随着电力系统的电源中风电装机的比例越来越大，其对电力系统电压稳定、频率稳定等动态特性的影响越来越明显。因此，建立与电力系统动态特性仿真相关的大规模风电场的动态数学模型极为重要。也是未来评估风电场相关动态指标的研究基础。目前风电场动态模型主要分为单机与多机等效法。其中，单机等效法是目前较为通用的一种方法，其将风电场内所有风机等效视为一台风机，将风电场内风机所受风速功率求和作为等效风机的风速输入。但相对多机等效法而言准确率较低。

文献[4]将风电场视为一个暗盒，将整体功率特性作为等值参数选取的参考依据，提出基于风电场功率特性的等值模型，并采用遗传算法对等值参数进行了优选。但由于遗传算法的结果容易产生局部最优解，同时计算迭代时间较长，不适用于大型风电场的动态建模。文献[5]使用双馈风机模型电磁仿真中的状态变量矩阵作为聚类指标，对风电机组进行聚类，但此方法得到的聚类结果不具有明确的物理含义。

上述风电场动态模型具有物理概念清晰，模型精确度高的特点。但是这种方法也存在一定自身局限性。单机等效法与多机等效法中典型机组的确定，依赖人为设定分群指标，不同分群指标下建立的动态模型也不尽相同。

因此，分群指标合理的设定与减少不同指标下模型的误差值亟需设计更可靠精准的技术方案，本申请基于上述现有技术的缺点在风机分类的思想上，根据风电功率特性将风电机组进行分类，对每个类别的风电机组分别建立模型，从而构建风电场群的多典型场景模型。

文献【1】余洋,刘永光,董胜元.基于运行数据的风电场等效建模方法比较[J]. 电网与清洁能源,2009,25(12):79-83.

文献【2】G.Tapia,A.Tapia and J.X.Ostolaza,Two alternative modelingapproaches for the evaluation of wind farm active and reactive powerperformances[J].IEEE Transactions on Energy Conversion,2006,21(4).909-920.

文献【3】胡雅娟.基于实测运行数据的风电场整体模型的研究[D]:[东北电力大学硕士学位论文].吉林:东北电力大学,2007.

文献【4】乔嘉赓,鲁宗相,闵勇,等.风电场并网的新型实用等效方法[J].电工技术学报,2009,24(04):209-213.

文献【5】陈树勇,王聪,申洪,等.基于聚类算法的风电场动态等值[J].中国电机工程学报,2012,32(04):11-19+24.

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种风电场群模型构建方法，其是基于聚类算法的风电场群多典型场景模型构建，剖析风电场群功率分布趋势，完善了大规模风电场群调度的技术基础。

本发明通过风电功率的曲线形态特征和曲线数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类，解决现有技术聚类结果物理含义不明确的问题的同时，利用聚类结果建立风电场群的多典型场景模型，有效提高精度，增加模型可信度。

为了达到上述目的，本发明采用以下技术方案予以实现：

一种风电场群模型构建方法，包含如下步骤：

S100：利用考虑风电功率的曲线形态特征和数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类，得到风电功率聚类子簇；

S200：通过场景缩减技术对聚类子簇进行缩减，得到典型场景并建立与之匹配的概率分布函数；

S300：通过逆变换抽样技术，抽取符合多典型场景概率分布的样本集；

S400：最后，拟合得到风电场群持续功率曲线的数学模型。

作为本发明的一种优选实施方式：

所述步骤S100为：利用考虑风电功率曲线形态特征与数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类；在聚类的第一级实现时间序列的形态划分与异常值处理，第二级实现时间序列数值特征的划分，依据聚类有效性指标DB最小原则，得到聚类子簇；

所述步骤S200为：通过场景缩减技术对子簇进行缩减，得到9个聚类子簇的典型场景并建立与之对应的概率分布模型；聚类结果具有明确的物理含义；

所述步骤S300为：通过逆变换抽样技术，构建符合多典型场景概率分布的样本集；通过单一典型场景与所提多典型场景的样本集，分别构建持续功率曲线，并与原始风电功率序列的持续功率曲线进行对比；发现单一典型场景建模精度误差较大，多典型场景能完美匹配实测数据，且能修正实测数据异常导致的误差，验证所提方法的有效性；

所述步骤S400为：拟合得到持续功率曲线的数学模型。

作为本发明的一种优选实施方式：

所述步骤S100中的原始风电功率时间序列的风电功率样本为：

对聚类研究的某风电场群，假设共有风电机组n台，每天等间隔采样风电功率数据t次，则可构成其风电功率样本矩阵X_k，见式(1)：

其中，X_k表示为第k天的该风电场群的风电功率样本矩阵；x_n＝[x_1n x_2n … x_tn]^T是X_k的列向量，也称为第n台风电机组的风电功率时间序列，表示在第k天全天的采样数据；

所述步骤S100中的两阶段分层聚类算法的框架为：

根据风电功率时间序列特征数据的分析，采用风电功率时间序列形态特征与数值特征的两阶段分层聚类算法；两阶段分层聚类算法保护的两个阶段为预聚类阶段与最终聚类阶段：

-预聚类阶段，根据序列形态特征将所有风电功率时间序列进行聚类；通过变换，减少风电功率时间序列的幅值、偏移对最终聚类结果的影响，得到第一阶段聚类子簇；并根据所得聚类树状图，删除总样本集中包含异常值、离群值的时间序列，作为第二阶段提升聚类准确性的基础；

-最终聚类阶段，将第一阶段所得子簇作为第二阶段聚类对象，进行数值特征的进一步聚类划分。

假设聚类数据样本集含有风电功率时间序列N条，则样本矩阵为 X_n＝[x₁ x₂ x₃… x_n]，定义预聚类阶段距离矩阵为L_pre，聚类阶段距离矩阵为L_end，且大小都为N×N。

作为本发明的一种优选实施方式：所述步骤S100中，在聚类分析之前，还包含对高维度的原始数据进行特征数据的提取，避免杂散随机值的影响的过程；该过程采用考虑风电功率数值特征与风电功率曲线形态特征的序列变换，作为风电功率时间序列的特征数据；

所述考虑曲线形态特征的序列变换的过程为：

利用原始时间序列的均值与方差两种特征量，将原始时间序列进行变换，减少异常值与离群值对欧氏距离的影响，其计算方法如下：

其中：M_n为原始时间序列x_n的均值，S_n为其方差；x_n ^*为经过变换之后的新时间序列；

将原时间序列采用宽度为L的间隔切分为r个子序列，此时序列被切分为 x_n ^*＝{u₁u₂ u₃ … u_r]；为减少时间序列在聚类过程中过拟合的问题，将切分后各段时间序列分别做归一化处理，压缩至区间(-1,1)之内；变换公式如下所示：

式中，u_rs是子序列u_r的第s个元素；u′_rs是经过变换后的u_rs；u_max、u_min分别为子序列u_r中的最大值与最小值；

由公式(2)、(3)可得规范变换后的新时间序列u_n＝[u₁′ u₂′ u₃′ …u_r′]；

所述考虑风电功率数值特征的序列变换的过程如下：

选用包含均值、方差特征的基本统计特征，将原始时间序列进行变换得到新时间序列v_n；时间序列变换公式如下所示：

时间序列数值特征的计算公式如下所示：

-均值，均值体现了一个地区风电功率的整体出力水平；

-方差，方差体现了风电功率波动情况；

-中位数，中位数体现了风电功率在数值上的总体分布区间；

中位数计算时，首先将原始序列进行递增排序，得到新时间序列X_N，下标N 表示在新序列中的序数；当N为奇数、偶数时中位数分别按照公式(7)、(8) 计算；

m_0.5＝X_(N+1)/2 (7)

-偏度，偏度可以用来度量风电功率概率分布的不对称性；

-峰度，峰度可以度量风电功率概率分布曲线的陡峭程度；

式中，μ、σ分别为风电功率时间序列的均值与方差；

由公式(4)可得利用数值特征变换后的新时间序列v_n；变换后的新时间序列v_n保留原始时间序列x_n在统计意义上的原始特征；

作为本发明的一种优选实施方式：

风电功率时间序列两阶段分层聚类算法描述如下：

所述预聚类阶段包含如下步骤：

A、根据所提规范变换方法，将样本矩阵X_n变换为U_n＝[u₁ u₂ u₃ … u_n]；

B、将样本u_n各自为簇C_n，计算各簇C_n的簇间距离，并得到预聚类阶段距离矩阵L_pre；

C、合并距离矩阵L_pre中簇间距离d(c_A，c_B)最小的两个簇；

D、重新计算合并后距离矩阵L_pre，此时L_pre大小为(N-1)×(N-1)；

E、计算有效性指标DB(k)；

F、重复C～E三步，直至合并为一个簇；

G、输出有效性指标DB(k)最小值时的k个聚类子簇，作为预聚类结果；

H、结束预聚类阶段；

所述最终聚类阶段包含如下步骤：

I、将k个聚类子簇所对应的原风电功率时间序列X_n，由式(4)变换为数值特征序列V_n＝[v₁ v₂ v₃ …v_n]；

J、类似于步骤B得到聚类阶段距离矩阵为L_end；

K、重复步骤C～G；

L、结束聚类阶段，输出最终聚类结果；

所述预聚类阶段的有效性指标DB(k)，根据聚类树状图的可解读性而定。

作为本发明的一种优选实施方式：

所述步骤S200中，首先是对风电场群聚类子簇的典型场景选取：

将聚类子簇进行场景缩减，去除重复场景，保留对逆变换抽样更有价值的典型场景，最终得到风电功率时间序列的典型场景；所述典型场景是原聚类子簇的典型代表，能最大限度的逼近原聚类子簇的数据特性；

风电功率聚类子簇场景缩减过程为：

场景缩减分为不确定性场景缩减与确定性场景缩减；不确定性场景缩减主要面向含有随机性的概率场景集，确定性场景缩减主要针对场景数值唯一确定的固定场景集；

本步骤中使用平均值场景缩减法，对上述第一步的步骤中聚类得到的聚类子簇分别进行场景缩减；

作为本发明的一种优选实施方式：针对风电功率时间序列，采样间隔为一小时的聚类子簇C_A，其共包含n条时间序列，见式(11)；平均值场景缩减法，将时间序列按照采样时刻划分，计算n条时间序列在同一采样时刻的平均值x_1A，作为典型场景该采样时刻的典型值，最终遍历整个采样时刻，得到平均值典型场景x_type，A，具体计算公式如下所示：

X_type，A＝[x_1A x_2A …x_tA]^T (13)

所述步骤S200中的多典型场景概率分布模型如下：

使用正态分布模型，建立风电场群多典型场景概率分布模型：

式(14)中，σ为风电功率时间序列的标准差；

为风电功率的期望，即平均值。

作为本发明的一种优选实施方式：

所述步骤S300中，由多典型场景概率分布逆变换抽样得到的大量风电功率数据，逆变换抽样技术为：

通过已知累积分布函数采集符合相应概率分布函数的随机样本集；

设X是一个连续随机变量，其概率密度函数是f(x)；由式(15)易得其累积分布函数F_X；

F_x＝∫f(x)dx (15)

求得与f(x)有着相同分布特性的反函数

再利用赋值Y以随机值，由式 (16)得到大量服从f(x)的随机样本，组成符合多典型场景概率分布的样本集；

作为本发明的一种优选实施方式：逆变换抽样具体步骤如下：

SA、在区间(0,1)取随机值R赋值予随机变量Y；

SB、求取反函数

SC、生成服从f(x)的随机样本X，

SD、重复上述步骤，直至生成足够多的随机样本X；

所述步骤A中，随机变量Y的随机值R生成过程为：

对随机值R的生成区间进行分层划分，然后从各个子区间内随机抽取样本，并赋值予随机变量Y；具体步骤如下：

AA、将随机值R生成区间(0,1)等分为m段，使每个区间具有相同的概率，即

BB、分别从m个区间内抽取随机值R，生成初始抽样向量R₁＝[R₁，R₂…R_m]；

CC、重复操作B，得到多个初始抽样向量R₁…R_n；

DD、构建初始抽样矩阵R_n×m；

EE、将初始抽样矩阵R_n×m所有元素进行随机排序，得到最终抽样矩阵

作为本发明的一种优选实施方式：

所述步骤S400的风电场群持续功率曲线的拟合过程如下：

首先，利用逆变换抽样，得到大量风电功率时间序列；然后，将各序列中同次序风电功率元素求和，得到风电场群功率时间序列；最后，把风电场群功率时间序列按元素数值从大到小排列，得到风电场群持续功率序列，绘制序列曲线。

本发明有益效果是：

本发明公开的一种基于聚类算法的风电场群多典型场景模型构建方法。剖析风电场群功率分布趋势，进一步完善了大规模风电场群调度的技术基础。其通过风电功率的曲线形态特征和曲线数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类，解决现有技术聚类结果物理含义不明确的问题。同时，利用聚类结果建立风电场群的多典型场景模型，有效提高精度，增加模型可信度。

附图说明

图1为本发明的风电场群多典型场景概率分布模型示意图；

图2为本发明的拉丁超立方抽样示意图；

图3为发明的风电场群持续功率曲线示意图；

图4为本发明的实施例1的风电功率时间序列数据集；

图5为本发明的实施例1的预聚类树状图；

图6-1为本发明的实施例1的最终聚类树状图Ⅰ；图6-2为本发明的实施例1的最终聚类树状图Ⅱ；图6-3为本发明的实施例1的最终聚类树状图Ⅲ；

图7为本发明的实施例1的风电场群多典型场景概率分布模型；

图8为本发明的实施例1的典型场景功率曲线；

图9为本发明的实施例1的1000组风电功率时间序列；

图10为本发明的实施例1的风电场群单-多场景持续功率曲线；

图11为本发明的实施例1的持续功率曲线拟合曲线。

附图标记说明：

1-第一簇；2-第二簇；3-第三簇；4-第四簇；5-第五簇；6-第六簇；7-第七簇；8-第八簇；9-第九簇。

具体实施方式

下面结合附图及实施例描述本发明具体实施方式：

如图所示，其示出了本发明的具体实施方式，如图所示，本发明所提的模型构建方法共分为四步分别是：

首先，利用考虑风电功率的曲线形态特征和数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类，得到风电功率聚类子簇。其次，通过场景缩减技术对聚类子簇进行缩减，得到典型场景并建立与之匹配的概率分布函数。然后，通过逆变换抽样技术，抽取符合多典型场景概率分布的样本集。最后，拟合得到风电场群持续功率曲线的数学方程。

具体的，本发明提出的基于聚类算法的风电场群多典型场景模型构建方法：

首先，利用考虑风电功率曲线形态特征与数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类。在聚类的第一级实现时间序列的形态划分与异常值处理，第二级实现时间序列数值特征的划分，依据聚类有效性指标DB 最小原则，得到聚类子簇。其次，通过场景缩减技术对子簇进行缩减，得到9 个聚类子簇的典型场景并建立与之对应的概率分布模型。聚类结果具有明确的物理含义。

然后，通过逆变换抽样技术，构建符合多典型场景概率分布的样本集。通过单一典型场景与所提多典型场景的样本集，分别构建持续功率曲线，并与原始风电功率序列的持续功率曲线进行对比。发现单一典型场景建模精度误差较大，多典型场景能完美匹配实测数据，且能修正实测数据异常导致的误差，验证所提方法的有效性。最终拟合得到持续功率曲线的数学方程。

具体的，本发明的具体实施方式中，其包含如下步骤：

第一步：利用考虑风电功率的曲线形态特征和数值特征的两阶段分层聚类算法，将原始风电功率时间序列进行聚类，得到风电功率聚类子簇。

该步骤中，本发明首先改进两阶段分层聚类算法：

本发明的风电功率样本如下：

其中，X_k表示为第k天的该风电场群的风电功率样本矩阵；x_n＝[x_1n x_2n…x_tn]^T是X_k的列向量，也称为第n台风电机组的风电功率时间序列，表示在第k天全天的采样数据。

本发明的第一步的步骤涉及的风电功率时间序列变换采用如下方法：

聚类算法的本质是通过计算数据样本集的特征数据之间的距离指标，将样本集进行划分的过程。因此，数据样本集不同特征数据的选取，会直接影响聚类算法的高效性与正确性。

风电功率时间序列通常表现为高维、离散、海量等特点。若直接对高维度的原始风电功率时间序列进行聚类，会显著降低聚类效率，并且高维数据中所包含的杂散随机值会降低聚类算法的准确性，造成不合理的分类。因此在聚类分析之前，需要对高维度的原始数据进行特征数据的提取，避免杂散随机值的影响。

基于上述考虑，本发明将采用考虑风电功率数值特征与风电功率曲线形态特征的序列变换，作为风电功率时间序列的特征数据。

(1)考虑曲线形态特征的序列变换：

数据挖掘中的正则化处理能很好的解决异常值的问题，其利用原始时间序列的均值与方差两种特征量，将原始时间序列进行变换，减少异常值与离群值对欧氏距离的影响，其计算方法如下：

其中：M_n为原始时间序列x_n的均值，S_n为其方差；x_n ^*为经过变换之后的新时间序列。

针对欧氏距离不能准确刻画高维度风电功率时间序列形态相似性的问题，Agrawl提出的规范变换能很好地解决这一问题。其核心思想是：将原时间序列采用宽度为L的间隔切分为r个子序列，此时序列被切分为x_n ^*＝[u₁ u₂ u₃…u_r]。为减少时间序列在聚类过程中过拟合的问题，将切分后各段时间序列分别做归一化处理，压缩至区间(-1,1)之内。变换公式如下所示：

式中，u_rs是子序列u_r的第s个元素；u′_rs是经过变换后的u_rs；u_max、u_min分别为子序列u_r中的最大值与最小值。

由公式(2)、(3)可得规范变换后的新时间序列u_n＝[u₁′ u₂′ u₃′ … u_r′]。变换后的新时间序列u_n保留原始时间序列x_n在曲线形态上的原始特征，且在计算欧式距离时充分考虑了时间序列的幅值、偏移、异常值等问题，更适用于高维度风电功率时间序列的聚类研究。

(2)考虑风电功率数值特征的序列变换：

风电功率在不同时间尺度的视角下，既有一定的短期随机性，又具有长期稳定的统计特征。利用数值特征将原始时间序列进行变换，可直观的体现时间序列在不同时间尺度上的统计规律。但数值特征一般需要结合时间序列所对应的物理含义进行人为选定，很难通过原始数据直观得出。本专利选用均值、方差等基本统计特征，将原始时间序列进行变换得到新时间序列v_n。时间序列变换公式如下所示：

时间序列数值特征的计算公式如下所示：

1)均值，均值体现了一个地区风电功率的整体出力水平。

2)方差，方差体现了风电功率波动情况。

3)中位数，中位数体现了风电功率在数值上的总体分布区间。

中位数计算时，首先将原始序列进行递增排序，得到新时间序列X_N，下标N 表示在新序列中的序数；当N为奇数、偶数时中位数分别按照公式(7)、(8) 计算。

m_0.5＝X_(N+1)/2 (7)

4)偏度，偏度可以用来度量风电功率概率分布的不对称性。

5)峰度，峰度可以度量风电功率概率分布曲线的陡峭程度。

式中，μ、σ分别为风电功率时间序列的均值与方差。

由公式(4)可得利用数值特征变换后的新时间序列v_n。变换后的新时间序列v_n保留原始时间序列x_n在统计意义上的原始特征，同时降低了原始时间序列的维度，进一步提升了聚类效率。

本发明改进后的两阶段分层聚类算法框架如下：

根据风电功率时间序列特征数据的分析，采用传统单阶段聚类算法，需要将数值特征与形态特征计算的距离指标，采用加权的方式得到一个综合距离指标进行聚类。但是因为两种特征的距离指标在数值上所表示的含义并不相同，所加权重会直接影响聚类结果。对此，本发明具体实施方式中提出一种考虑风电功率时间序列形态特征与数值特征的两阶段分层聚类算法。

本发明的两阶段分层聚类算法共分为两个阶段，预聚类阶段与最终聚类阶段：

1)预聚类阶段(pre-clustering)，根据序列形态特征将所有风电功率时间序列进行聚类。采用上述所提规范变换，减少风电功率时间序列的幅值、偏移对最终聚类结果的影响，得到第一阶段聚类子簇。并根据所得聚类树状图，删除总样本集中包含异常值、离群值的时间序列，作为第二阶段提升聚类准确性的基础。

2)最终聚类阶段(end-clustering)，将第一阶段所得子簇作为第二阶段聚类对象，进行数值特征的进一步聚类划分。

假设聚类数据样本集含有风电功率时间序列N条，则样本矩阵为 X_n＝[x₁ x₂ x₃… x_n]，定义预聚类阶段距离矩阵为L_pre，聚类阶段距离矩阵为L_end，且大小都为N×N。风电功率时间序列两阶段分层聚类算法描述如下：

上述预聚类阶段包含如下步骤：

A.根据所提规范变换方法，将样本矩阵X_n变换为U_n＝[u₁ u₂ u₃ … u_n]；

B.将样本u_n各自为簇C_n，计算各簇C_n的簇间距离，并得到预聚类阶段距离矩阵L_pre；

C.合并距离矩阵L_pre中簇间距离d(c_A，c_B)最小的两个簇；

D.重新计算合并后距离矩阵L_pre，此时L_pre大小为(N-1)×(N-1)；

E.计算有效性指标DB(k)；

F.重复C～E三步，直至合并为一个簇；

G.输出有效性指标DB(k)最小值时的k个聚类子簇，作为预聚类结果；

H.结束预聚类阶段。

最终聚类阶段：

I.将k个聚类子簇所对应的原风电功率时间序列X_n，由式(4)变换为数值特征序列V_n＝[v₁ v₂ v₃ … v_n]；

J.类似于步骤B得到聚类阶段距离矩阵为L_end；

K.重复步骤C～G；

L.结束聚类阶段，输出最终聚类结果。

为了避免过多的预聚类结果导致最终聚类阶段计算量的指数级增加，预聚类阶段的有效性指标DB(k)，往往根据聚类树状图的可解读性而定。

第二步：通过场景缩减技术对聚类子簇进行缩减，得到典型场景并建立与之匹配的概率分布函数。

本发明的第二步的步骤中，首先是对风电场群聚类子簇的典型场景选取：

实测风电功率时间序列的聚类子簇是一个数量庞大的相似场景集合。若对聚类子簇中所有时间序列的概率分布函数进行逆变换抽样，势必会让抽样计算时间指数级增加。在保证足够精确度的前提下，为了提高逆变换抽样阶段的计算效率。需要将聚类子簇进行场景缩减，去除重复场景，保留对逆变换抽样更有价值的典型场景，最终得到风电功率时间序列的典型场景。典型场景是原聚类子簇的典型代表，能最大限度的逼近原聚类子簇的数据特性。

本发明具体的风电功率聚类子簇场景缩减过程为：

根据被缩减的场景集数据类型的不同，场景缩减可分为不确定性场景缩减与确定性场景缩减。不确定性场景缩减主要面向含有随机性的概率场景集，确定性场景缩减主要针对场景数值唯一确定的固定场景集。

第二步的最终目的是利用实测风电功率时间序列，进行功率汇聚得到风电场群持续功率曲线。因此在进行场景缩减时要体现出“功率汇聚”这一思想。按照这一理念，并且考虑到风电功率时间序列在时间维度上的唯一确定性，本步骤中使用平均值场景缩减法，对上述第一步的步骤中聚类得到的聚类子簇分别进行场景缩减。

以某风电功率时间序列(采样间隔为一小时)的聚类子簇C_A为例，其共包含 n条时间序列，见式(11)。平均值场景缩减法，将时间序列按照采样时刻划分，计算n条时间序列在同一采样时刻的平均值x_1A，作为典型场景该采样时刻的典型值，最终遍历整个采样时刻，得到平均值典型场景X_type，A，具体计算公式如下所示：

X_type，A＝[x_1A x_2A … x_tA]^T (13)

平均值场景缩减法计算简单，平均值典型场景的选取过程与“汇聚”思想相一致。通过平均值场景缩减法，得到的平均值典型场景与原聚类子簇的汇聚场景的概率函数趋势一致，呈现线性关系。

第二步的步骤中涉及的多典型场景概率分布模型如下：

通过上述对风电功率典型场景的描述，用确定的风电功率典型场景能合理替代随机的风电功率场景。

大量风电功率历史数据分析可以得知，风电功率数据总体服从正态分布模型。但并不完全符合简单的正态分布，表现为多峰值、不对称，是一种不规则概率分布。为此，本本发明在构建风电功率确定性场景集的基础上，为解决风电功率不确定性问题，使用正态分布模型，建立风电场群多典型场景概率分布模型，如图1所示：

式(14)中，σ为风电功率时间序列的标准差；

为风电功率的期望，即平均值；

第三步：通过逆变换抽样技术，抽取符合多典型场景概率分布的样本集。

第三步的步骤中，本发明基于逆变换抽样的风电场群持续功率曲线中：在构建风电场群持续功率曲线时，需要大量符合风电场群风电功率概率分布的风电功率数据。由上述描述分析可知，风电场群功率概率分布可以认为是由多典型场景概率分布叠加而成。由多典型场景概率分布逆变换抽样得到的大量风电功率数据，从概率测度的角度上能更好的逼近原风电场群真实出力。

本发明的逆变换理论包含：

逆变换抽样是随机数采样法的一种，可通过已知累积分布函数采集符合相应概率分布函数的随机样本集。

设X是一个连续随机变量，其概率密度函数是f(x)；由式(15)易得其累积分布函数F_X。

F_X＝∫f(x)dx (15)

因为X是连续随机变量，因此构建随机变量Y＝F_X(X)在区间(0,1)上自然也服从均匀分布。由上节可知风电功率的概率密度函数总体服从正态分布，其累积分布函数单调递增一定存在反函数。逆变换的思想是将上述过程取反，求得与f(x)有着相同分布特性的反函数

再利用赋值Y以随机值，由式(16)得到大量服从f(x)的随机样本。

本发明的逆变换抽样具体步骤如下：

A.在区间(0,1)取随机值R赋值予随机变量Y；

B.求取反函数

C.生成服从f(x)的随机样本X，

D.重复上述步骤，直至生成足够多的随机样本X。

本发明采用的拉丁超立方抽样方法如下：

在逆变换抽样的方法中，首先需要考虑的问题是随机变量Y的随机值R如何生成。蒙特卡罗方法，从(0,1)整个区间内生成随机值R并赋值予随机变量 Y。蒙特卡罗算法重复模拟次数越多精度越高，但当模拟次数较少时容易产生抽样值聚集的现象，导致抽样不具备典型性。

因此本发明采用拉丁超立方抽样，属于分层抽样的一种，能够在抽样数较少时也能获得较高抽样精度，可以有效避免类似蒙特卡罗算法抽样值聚集的现象，如图2所示。其核心思想是对随机值R的生成区间进行分层划分，然后从各个子区间内随机抽取样本，并赋值予随机变量Y。算法具体步骤如下：

A.将随机值R生成区间(0,1)等分为m段，使每个区间具有相同的概率，即

B.分别从m个区间内抽取随机值R，生成初始抽样向量R₁＝[R₁，R₂…R_m]；

C.重复操作B，得到多个初始抽样向量R₁…R_n；

D.构建初始抽样矩阵R_n×m；

E.将初始抽样矩阵R_n×m所有元素进行随机排序，得到最终抽样矩阵

拉丁超立方抽样能够全覆盖整个抽样区间，避免低概率事件在抽样中的遗漏，从而保证了低概率事件的准确表达。拉丁超立方抽样相比于蒙特卡洛抽样在计算效率、运行时间上都有显著提升，更重要的是抽样数据稳健性更好。

第四步：拟合得到风电场群持续功率曲线的数学模型。

第四步的风电场群持续功率曲线的拟合过程如下：

风电场群功率汇聚，是一个针对地区风电功率整体与个体的概念。从个体的角度审视，风电功率是完全随机的很难做到中长期预测，仅与相邻机组存在一定相似性；但从整体的视角研究，一个较大片区的总风电功率又因为错峰效应相互削峰填谷，使得整体功率特性有迹可循。汇聚就是将整个地区的风电打包成捆，从整体的角度规划、调度。

建立描述风电场群功率趋势的数学函数，是未来研究风电场群与储能协同运行的必要前提。持续功率曲线能准确描述风电场群在各个出力区间的占比情况，因而可作为与储能协调调度优化的重要参考，曲线绘制步骤如下。

首先，利用上节中逆变换抽样，得到大量风电功率时间序列；将各序列中同次序风电功率元素求和，得到风电场群功率时间序列；最后，把风电场群功率时间序列按元素数值从大到小排列，得到风电场群持续功率序列，绘制序列曲线如图3所示。

为量化这种风电场群功率趋势与储能充放电策略的数量关系。本发明可以运用Matlab软件中最小二乘函数拟合方法，进行多项式拟合，得到风电场群持续功率曲线的拟合函数。

实施例1(基于北欧电力交易中心)：

本实施例以北欧电力交易中心Nord Pool中，某风电场群2017年实际日风电功率数据作为算例分析的基础。该风电场群共有9个风电场，总装机容量 405.5MW。筛选后数据集共包含风电功率时间序列108条，风电功率采样周期为 1h，每天共计24个采样点。

归一化预处理后的风电功率时间序列数据集，如图4所示。图中包含多种具有明显相似性的风电功率曲线。多表现为在低功率出力区间内占比较高，有大量零功率出力的情况；高功率出力区间内占比较低，全功率出力几乎没有；风电功率昼夜相差较大，昼小夜大等多种特异功率特性。

基于本发明的技术方案，本实施例首先进行聚类结果与聚类典型场景说明：

聚类树状图能形象的描述样本之间的聚类关系与聚类过程，树状图中同层级且相邻样本相似度更高，跨级相连的样本相似度就会相对较低。

在预聚类阶段，使用曲线形态特征的聚类指标，将108条风电功率时间序列进行聚类研究。根据聚类有效性指标DB最小原则，将108条样本聚类为三个聚类子簇，如图5中上、中、下三个方框所示。

在聚类刚开始阶段，聚类特征极其相似的样本会优先聚类成簇。例如上样本框内的样本因为差异性较小，经过3级汇聚就可完成聚类过程。随着聚类过程的继续，差异较大的样本需要更多级的汇聚才能完成聚类过程，例如中、下样本框内聚类的迭代次数明显增多。最后剩下的离群样本，往往出现在聚类的末尾阶段。因此可以根据聚类树状图的这一特征，将离群值可视化剔除。

根据预聚类树状图5，剔除2、12、30等7个离群值，将其余的101个风电功率时间序列按图中所示上、中、下三个子簇，分别进行最终聚类。在最终聚类阶段，使用数值特征的聚类指标，将聚类子簇进一步细分。最终聚类共得到9 个聚类子簇，子簇详细时间序列与概率见下表(风电功率时间序列聚类结果)，聚类树状图如图6-1～6-3所示：

风电功率时间序列的聚类子簇是一个数量庞大的相似场景集合，若不加以简化缩减，会使得与场景相关的计算变得极为复杂。根据平均值场景缩减法，将上节的9个聚类子簇进行场景缩减，得到各个子簇对应的典型场景功率曲线与概率分布如图7、8所示。

结合图7与8可知，风电功率时间序列典型场景的概率分布表现为多峰值的特点。其中，子簇1、3、4、8、9体现了风电功率时间序列中较为平稳的场景，只是在平均出力上存在差别，占总场景80％的比例，属于风电功率时间序列的平稳分量。子簇2、5、6、7是波动较大的场景，存在明显的时段效应，在每日10至20时段内存在明显功率下坡，从统计上量化了风电功率夜大昼小的特点，属于波动分量。

虽然子簇2、3与4、6有着相同的均值，但在形态上却体现了风电功率两种特性截然不同的分量，也直接证明了所提两阶段分层聚类对的风电功率时间序列的针对性。

然后，构建逆变换抽样样本集：

建立描述风电场群功率趋势的数学函数，是未来研究风电场群与储能协同运行的必要前提。通过上述的逆变换抽样，对多典型场景的9个子簇概率分布函数分别进行大量抽样，按照各个子簇对应场景概率的比例进行组合，得到1000 组风电功率时间序列如图9所示。

最后，持续功率曲线拟合：

风电场群持续功率曲线能从功率区间的视角上评价一个风电场群的整体出力水平。本实施例使用风电场群单一典型场景与上述多典型场景进行抽样对比，得到两种风电功率时间序列样本集，构建持续功率曲线，如图10所示。

图10的中、下和上方框的风电场群持续功率曲线，分别是通过多典型场景、单一典型场景和实测风电功率场景抽样构建的。由于单一典型场景认为功率分布是均匀的，忽略了实际风电功率中的低概率场景与极限场景对曲线的影响。其持续功率曲线虽然与真实场景具有相同的单调性，在形态上具有很大差异。

多典型场景中包含了多种低概率场景，通过剔除了少量明显的异常值，修正了实测风电功率场景的数据缺陷。在构建持续功率曲线时与实测风电功率场景的形态吻合，模型仅在高功率阶段有部分差距。

因此，通过拟合建立持续功率曲线的模型描述如图11所示。

图11为拟合方程与持续功率曲线的对比图。持续功率曲线呈现单调递减的趋势，因此采用奇数次多项式进行拟合。本实施例为满足拟合方程对曲线解释能力的精度需求，采用9次多项式进行拟合，最终确定系数R_s＝0.9989。持续功率曲线的数学方程如下式：

下表为持续功率曲线拟合参数表

P1	P2	P3	P4	P5
					-2.874e-33	1.182e-28	-2.06e-24	1.981e-20	-1.148e-16
P6	P7	P8	P9	P10
					4.109e-13	-8.964e-10	1.14e-06	-0.0008277	0.6977

本发明的技术方案中还需要说明的是：

(1)在聚类指标的选取中，曲线形态特征可以有多种指标，上述实施例只选取其中几种，若选取其他的曲线形态特征也属于本专利的替代方案。

(2)曲线形态特征和数值特征两阶段聚类算法的提出，其中数值特征可以有多种指标，上述实施例只选取其中几种，若选取其他的数值形态特征也属于本专利的替代方案。

(3)多典型场景的选取是基于曲线形态特征与数值特征的选取，形态特征与数值特征可以有很多种不同组合，上述实施例只选取其中几种，若选取其他的特征而得到多典型场景的相同方法也属于本专利的替代方案。

本发明的技术关键点包含：

(1)风电功率曲线的曲线形态特征、数值特征刻画方法。

(2)基于曲线形态特征和数值特征两阶段聚类方法的提出。

上面结合附图对本发明优选实施方式作了详细说明，但是本发明不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化，这些变化涉及本领域技术人员所熟知的相关技术，这些都落入本发明专利的保护范围。

不脱离本发明的构思和范围可以做出许多其他改变和改型。应当理解，本发明不限于特定的实施方式，本发明的范围由所附权利要求限定。

Claims

1.一种风电场群模型构建方法，其特征在于，包含如下步骤：

S400：最后，拟合得到风电场群持续功率曲线的数学模型。

2.如权利要求1所述的一种风电场群模型构建方法，其特征在于，

所述步骤S400为：拟合得到持续功率曲线的数学模型。

3.如权利要求2所述的一种风电场群模型构建方法，其特征在于，

所述步骤S100中的原始风电功率时间序列的风电功率样本为：

其中，X_k表示为第k天的该风电场群的风电功率样本矩阵；x_n＝[x_1n x_2n…x_tn]^T是X_k的列向量，也称为第n台风电机组的风电功率时间序列，表示在第k天全天的采样数据；

所述步骤S100中的两阶段分层聚类算法的框架为：

-最终聚类阶段，将第一阶段所得子簇作为第二阶段聚类对象，进行数值特征的进一步聚类划分；

假设聚类数据样本集含有风电功率时间序列N条，则样本矩阵为X_n＝[x₁ x₂ x₃…x_n]，定义预聚类阶段距离矩阵为L_pre，聚类阶段距离矩阵为L_end，且大小都为N×N。

4.如权利要求3所述的一种风电场群模型构建方法，其特征在于：所述步骤S100中，在聚类分析之前，还包含对高维度的原始数据进行特征数据的提取，避免杂散随机值的影响的过程；该过程采用考虑风电功率数值特征与风电功率曲线形态特征的序列变换，作为风电功率时间序列的特征数据；

所述考虑曲线形态特征的序列变换的过程为：

将原时间序列采用宽度为L的间隔切分为r个子序列，此时序列被切分为x_n ^*＝[u₁ u₂u₃…u_r]；为减少时间序列在聚类过程中过拟合的问题，将切分后各段时间序列分别做归一化处理，压缩至区间(-1，1)之内；变换公式如下所示：

由公式(2)、(3)可得规范变换后的新时间序列u_n＝[u₁′ u₂′ u₃′…u_r′]；

所述考虑风电功率数值特征的序列变换的过程如下：

时间序列数值特征的计算公式如下所示：

-均值，均值体现了一个地区风电功率的整体出力水平；

-方差，方差体现了风电功率波动情况；

-中位数，中位数体现了风电功率在数值上的总体分布区间；

中位数计算时，首先将原始序列进行递增排序，得到新时间序列X_N，下标N表示在新序列中的序数；当N为奇数、偶数时中位数分别按照公式(7)、(8)计算；

m_0.5＝X_(N+1)/2 (7)

-偏度，偏度可以用来度量风电功率概率分布的不对称性；

-峰度，峰度可以度量风电功率概率分布曲线的陡峭程度；

式中，μ、σ分别为风电功率时间序列的均值与方差；

由公式(4)可得利用数值特征变换后的新时间序列v_n；变换后的新时间序列v_n保留原始时间序列x_n在统计意义上的原始特征。

5.如权利要求4所述的一种风电场群模型构建方法，其特征在于：

风电功率时间序列两阶段分层聚类算法描述如下：

所述预聚类阶段包含如下步骤：

A、根据所提规范变换方法，将样本矩阵X_n变换为U_n＝[u₁ u₂ u₃…u_n]；

C、合并距离矩阵L_pre中簇间距离d(c_A，c_B)最小的两个簇；

E、计算有效性指标DB(k)；

F、重复C～E三步，直至合并为一个簇；

H、结束预聚类阶段；

所述最终聚类阶段包含如下步骤：

I、将k个聚类子簇所对应的原风电功率时间序列X_n，由式(4)变换为数值特征序列V_n＝[v₁ v₂ v₃…v_n]；

J、类似于步骤B得到聚类阶段距离矩阵为L_end；

K、重复步骤C～G；

L、结束聚类阶段，输出最终聚类结果；

6.如权利要求5所述的一种风电场群模型构建方法，其特征在于，

风电功率聚类子簇场景缩减过程为：

本步骤中使用平均值场景缩减法，对上述第一步的步骤中聚类得到的聚类子簇分别进行场景缩减。

7.如权利要求6所示的一种风电场群模型构建方法，其特征在于，针对风电功率时间序列，采样间隔为一小时的聚类子簇C_A，其共包含n条时间序列，见式(11)；平均值场景缩减法，将时间序列按照采样时刻划分，计算n条时间序列在同一采样时刻的平均值x_1A，作为典型场景该采样时刻的典型值，最终遍历整个采样时刻，得到平均值典型场景X_type，A，具体计算公式如下所示：