CN115495505A

CN115495505A - 一种基于新能源机场群数据关联分析方法

Info

Publication number: CN115495505A
Application number: CN202211239674.8A
Authority: CN
Inventors: 吕清泉; 赵龙; 周强; 张彦琪; 高鹏飞; 沈渭程; 张珍珍; 王定美; 张健美; 张睿骁; 李津; 袁琛; 张金平; 刘丽娟; 郑翔宇; 李文君; 朱宏毅; 陈柏旭; 王晟; 刘海伟
Original assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd
Current assignee: STATE GRID GASU ELECTRIC POWER RESEARCH INSTITUTE; State Grid Corp of China SGCC; State Grid Gansu Electric Power Co Ltd
Priority date: 2022-10-11
Filing date: 2022-10-11
Publication date: 2022-12-20

Abstract

本发明属于新能源机场群技术领域，具体涉及一种基于新能源机场群数据关联分析方法。利用输入输出数据集合进行关联规则搜索时，首先需要对数据集合进行预处理，通过预处理后，对新能源机场群数据进行关联规则机理分析、关联规则挖掘、关联规则函数分析，最终得到风电的期望功率与风速之间的关系、浮尘因素对光伏阵列出力特性的影响、新能源数据关联规则挖掘的Apriori辨识方法、光伏有功出力与光照强度之间的关联规则函数。本发明是一种能够完成补全缺失和不良数据的修复及机场群数据关联规则方法的挖掘，同时对新能源机场群数据进行合理降维处理，减少计算复杂度，提升关联规则搜索效率的基于新能源机场群数据关联分析方法。

Description

一种基于新能源机场群数据关联分析方法

技术领域

本发明属于新能源机场群技术领域，主要涉及机场群数据关联规则分析、机场群数据的补全缺失、不良数据的修复、机场群数据关联规则方法的挖掘和对新能源机场群数据进行合理降维处理。具体涉及一种基于新能源机场群数据关联分析方法。

背景技术

新能源机场群的输入输出数据按照采集端口的不同可分为机端文件、发电场文件与发电集群文件。

针对光伏与风电代表的新能源，机端文件主要包括光伏逆变器文件与风机文件，二者分别包含光伏单元处采集的逆变器有功无功，累计发电量与开机容量等数据，风机端口采集的风机有功无功、转速、桨距角与日发电量等数据。

发电场测文件主要包括风电场或光伏电站短期或超短期状态文件、包括实时开机容量与风电场或光伏电站的超短期/短期预测功率与开机容量等数据。

发电集群文件主要包括风电场或光伏电站群所处地域的气象站所测气候数据文件与测风塔所测区域风资源状态信息文件，前者主要包括对应光伏电站群的总辐射、直接辐射与气温环境温度等，对应风电集群的风速风向气压等气象信息数据；后者主要包括风电集群的风速风向等运行数据。

由于数据采集位置不同即采集端口不一，时间不同步，同时机场群数据叠加分析时存在数据维数较大的问题，其中部分数据存在测量误差或测量缺失问题，需要进行修复。因此在利用该输入输出数据集合进行关联规则搜索时需要首先对该数据集合进行预处理，预处理的主要目的是补全缺失的数据或修复不良数据，同时对新能源机场群数据进行合理降维处理，减少计算复杂度，提升关联规则搜索效率。最终得到风电的期望功率与风速之间的关系、浮尘因素对光伏阵列出力特性的影响、新能源数据关联规则挖掘的Apriori辨识方法、光伏有功出力与光照强度之间的关联规则函数。

发明内容

本发明的目的是提供一种基于新能源机场群数据关联分析方法，以解决现有技术中由于数据采集端口不一，时间不同步，同时机场群数据叠加分析时存在数据维数较大，以致其中部分数据存在测量误差或测量缺失以及需要进行修复的问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于新能源机场群数据关联分析方法，包括：

S1.新能源机场群的输入输出数据预处理；包括，基于改进模糊C均值聚类的新能源输入输出的不良数据辨识、聚类准确性分析、新能源关联规则的候选集分析、新能源输入输出数据的Kmeans降维；

S2.新能源机场群数据关联规则机理分析，包括，风力发电环境因素与风电出力间关联规则机理分析、光伏发电环境因素与光伏出力间关联规则机理分析；

S3.新能源机场群数据关联规则挖掘；包括，新能源关联规则的分析与建模、新能源数据关联规则挖掘的Apriori辨识方法；

S4.新能源机场群数据关联规则函数分析；包括，新能源机场群数据关联规则函数分析流程、新能源机场群数据关联规则参数辨识与插值模型，新能源机场群数据关联规则函数的建立和新能源机场群数据关联规则函数参数的动态修正。

且综上所述，由于采用了上述技术方案，发明的有益技术效果是：

一种基于新能源机场群数据关联分析方法，新能源机场群的输入输出数据按照采集端口的不同可分为机端文件、发电场文件与发电集群文件。由于数据采集位置不同即采集端口不一，时间不同步，同时机场群数据叠加分析时存在数据维数较大的问题，其中部分数据存在测量误差或测量缺失问题，需要进行修复。因此在利用该输入输出数据集合进行关联规则搜索时需要首先对该数据集合进行预处理，通过预处理后，对新能源机场群数据进行关联规则机理分析、关联规则挖掘、关联规则函数分析，最终得到风电的期望功率与风速之间的关系、浮尘因素对光伏阵列出力特性的影响、新能源数据关联规则挖掘的Apriori辨识方法、光伏有功出力与光照强度之间的关联规则函数。综上所述，一种基于新能源机场群数据关联分析方法不但完成补全缺失和不良数据的修复及机场群数据关联规则方法的挖掘，同时对新能源机场群数据进行合理降维处理，减少计算复杂度，提升关联规则搜索效率。

附图说明

图1为sigma原理图。

图2为FCM算法流程图。

图3为新能源输入输出的Kmeans聚类方法流程图。

图4为新能源机场群主要输入输出的Kmeans聚类结果

图5为光伏组件等效电路

图6为新能源机场群关联规则挖掘步骤

图7为Apriori算法主要流程图

图8为新能源发电单元-场站-场群数据关联规则分析与辨识方法技术路线

图9为新能源输入输出的待挖掘关联规则库

图10为新能源机场群关联规则与关联规则函数参数辨识思路

图11为部分原始数据曲线示意图

图12为关联规则曲线插值结果示意图

图13为样本点关联规则误差示意图

图14为样本点关联规则误差示意图

图15为关联规则辨识误差曲线

图16为关联规则函数参数动态修正过程

图17为关联规则函数辨识误差散点图

具体实施方式

为了使发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释发明，并不用于限定发明。

一种基于新能源机场群数据关联分析方法，包括：

进一步地，步骤S1中，基于改进模糊C均值聚类的新能源输入输出的不良数据辨识方法：

输入输出数据经过FCM处理后，分别计算各类别中任意两个数据点x_i和x_j之间的实际欧式距离D(i,j)和最大距离D_max，选取一个[0,1]内的数值作为分化度μ，对全部D(i,j)进行分化计算，即放大数据对象之间的距离，得到处理后x_i和x_j之间的分化距离为r(i,j)，其关系式：

比较分化度μ与D(i,j)与D_max的比值，若比值小于μ，则会缩小比值使得分化距离小于实际距离；反之，分化距离会被放大；其中比值和μ的差值与分化距离呈现斜率增大的反比趋势，即差值越大，其分化距离就会越小；差值越小，其分化距离反而越大；通过分化处理，聚类中关联性大的数据更加紧密，同时分离具有差异性的数据，使得离群点距离正常值更远，从而达到两极分化的目的；基于分化距离改进的FCM不良数据检测算法的基础是基于数据密度和距离的离群点检测算法；通过讨论数据对象邻居密度来判定其是不是不良数据点；假设数据集质心到所有数据点距离的平均距离为Adistance，定义R，代表数据对象周围的距离大；

则对象周围的邻居密度即该对象R范围内其他数据点的个数；当友邻居密度即邻居点个数小于设定数目K_num，则被认为是离群数据，即不良数据点；通过比较r(i,j)和R的关系，不用计算最大距离，即可判断对象邻居点的个数。

进一步地，所述基于改进模糊C均值聚类的新能源输入输出的不良数据辨识方法，包括：输入聚类所得数据集，分化度μ，最少邻居数K_num；计算聚类各类别中质心及A_distance；计算数据集距离R₁和数据对象x_i的分化距离r₁(i,j)；比较r₁(i,j)与R₁的关系，若r₁(i,j)＜R₁，则x_i的邻居点数目K加1，一旦K＞K_num，中断该数据对象进入下一个数据对象的K计算，否则遍历所有邻居点的数目；不满足K＞K_num的数据对象作为不良数据；

其中，

进一步地，步骤S1中，新能源输入输出数据的K_means降维方法：新能源输入输出数据的K_means降维方法上基于典型的K_means聚类，基于距离进行聚类并以样本点与聚类中心点的距离作为评价指标；其中指标进行分类处理，按照不同距离类型，划分为欧氏距离；包括：从数据集中随机选择k个样本作为初始聚类中心{λ₁,λ₂,…,λ_k}；计算其余样本到上述聚类中心的欧氏距离，并分配至最近的聚类中心；通过距离度量方法更新聚类中心，更新为隶属该簇的全部样本的均值；不断重复该步骤，直至样本点到形成的聚类中心的距离满足算法设定收敛范围。

进一步地，步骤S1中，聚类准确性分析为基于高密度区的最大化最小距离聚类中心选择方法，包括：设从n个对象中选择一个对象作为第一个聚类中心，则C_l＝X_l；在剩下的n-1个数据对象中选距离最长的X₂为第二个聚类中心，则C₂＝X₃；计算剩余每个数据对象到已有聚类中心的距离并求出距离最小数据对象；计算所有数据对象到聚类中心距离最小值中的最大值，以确定最终对应的对象；如果最大值大于所有对象的距离平均值之和，则取相应聚类中心点为选定的初始聚类中心，若不满足，则重复上述步骤直到筛选出对应的聚类中心点。

进一步地，步骤S1中，新能源关联规则的候选集分析包括：将聚类结果形成新能源关联规则函数的候选集，主要包括新能源关联规则函数输入数据类型降维后的不同集合，包括风电对应的风速风向等，光伏对应的光照强度与温度等条件作为主要判据，进行分析，同时，将关联规则函数参数的分析纳入最终的判断方法，将辨识步骤化为确定关联函数阶数，确定辨识参数；由K_means聚类生成的各簇中心点形成最终的新能源关联规则候选集，主要对风机单机有功功率、风机单机无功功率、风电场累计发电量、风速、风向、桨距角、环境温度与开机容量等不同类型的数据进行聚类分析降维处理。

进一步地，步骤S2中，所述风力发电环境因素与风电出力间关联规则机理分析方法为：风电的期望功率与风速之间的关系：

考虑通过尾流输入得到尾流效应影响下的风速结果：

式中C_T为风电机组推力系数；R为风电机组叶片半径；X为相邻风电机组间距离；K为尾流下降系数，对于陆上风电场取K＝0.075，各风电机组所处高度不同时，需要考虑地形对风电机组输入风速的影响，平坦地形风速下降系数转变为复杂地形风速下降系数d_C为：

式中V₀为高度为h₀处的风速；V_OX为高度h处的风速，可根据经验公式表示为V_OX＝V₀(h/h₀)α，α为经验指数，一般取0.1～0.4；

对于整个风电场，风电场的等值容量等于各风电机组出力之和，风电机组计算出力的表达式为：

式中V_ci为切入风速；V_r为额定风速；V_co为切出风速；P_r为风电机组最大出力；系数A，B，C如下式所示；

进一步地，步骤S2中，所述光伏发电环境因素与光伏出力间关联规则机理分析方法：光伏发电的主要影响因素如光照强度和温度与出力间关系可通过光伏发电模型用以呈现，虽无法准确描述光照强度和光伏任意功率点的关系，但可通过光照强度和温度等因素确定光伏的最大功率点；光伏电站中作为电源的光伏阵列，主要由若干个光伏组件通过串并联组成，在忽略等效结电容的瞬态响应时，可以得到光伏组件输出电流Ipv与电压Upv关系为

式中q表示电子电荷(1.6×10-19C)；n表示二极管理想因子；K表示玻尔兹曼常数(1.38×10-23J/K)；T表示绝对温度；I_ph为光生电流；其大小与入射光照强度及环境温度成正比；I_d为反相流过二极管的饱和电流，光伏组件正常工作时，二极管处于关断状态；R_s为等效串联电阻，一般小于10Ω，该电阻限制了光伏组件的最大输出功率和短路电流；R_sh为并联电阻，一般阻值较大，用来表示电池表面产生的损耗；C_f表示光伏组件内的等效结电容。

其中，光伏组件的工程化模型采用光伏组件的工程化模型[87]，该模型仅使用了光伏电池4个出厂电气参数：标准条件下的短路电流Is_cref、开路电压U_ocref、最大功率点电流I_mref和最大功率点电压U_mref，非标准条件下相应的短路电流I_sc、开路电压U_oc、最大功率点电流I_m和最大功率点电压U_m可以根据下式计算：

式中：T表示非标准条件下的换算温度；Tair表示环境实际温度；k为温度系数，一般取为0.03℃·m²/W；S表示环境实际光照强度；补偿系数a、b、c分别为0.0025℃、0.5m²/W、0.00288℃；

且光伏组件的工程化模型在任意条件下的输出特性可以写为：

其中参数C1和C2的表达式可以写作：

进行浮尘与出力之间的关联函数进行机理分析：

首先，浮尘因素对光伏阵列出力特性的影响主要集中在三个部分，主要体现在对光伏电池板的遮挡效应，光伏电池板表面温升效应和腐蚀效应，主要依次解释为：

对于遮挡效应，其主要通过影响光伏电池板表面的光照强度大小而影响光伏所能提供的功率大小，公式如下所示：

式中各量的含义依次解释为，I_L表示太阳能电池的输出电流，U_s为太阳能电池的输出电压，q为电荷常数，K为玻尔兹曼系数，A为PN结的理想因数，T为电池温度，I₀为反向饱和电流，R_s为电池的串联等效电阻，k为电池板的浮尘遮挡系数，取决于具体光伏电池板的积灰厚度，浮尘颗粒直径等因素，该式表示了浮尘主要通过直接影响光伏电池板伏安特性曲线，进一步影响光伏电池板的可提供最大出力大小；

对于表面温升效应，浮尘由于部分沉积在光伏电池板表面，将导致光伏电池板表面的热平衡特性较未积灰之前发生明显改变，这是由于积灰导致光伏表面散热能力下降，进而导致光伏表面温度升高，温度升高后将最终导致光伏自身的最大功率点发生偏移，公式如下所示：

式中，G为单位面积光伏板接收的原始太阳辐射强度，ρ_g为光伏板表面反射率，τ_g为光伏板的对阳光的透过率，λ为灰尘导热系数，Δ为积灰厚度，ξ为灰尘遮挡率，T_d和T_g分别为光伏板表面灰尘的温度，和光伏板被灰尘遮挡处的温度，T_f1为光伏板上表面空气温度，T_f2为光伏板下表面的空气温度，A为光伏板面积，q_r为光伏板与天空、地面和环境空气等其他介质之间的辐射量，该式表示了光伏板的浮尘通过影响原始热平衡关系进一步影响光伏板温度的原理特性，温度变化后，将造成最大出力变化；

对于表面腐蚀效应，积灰主要通过在太阳能电池板表面引发腐蚀，导致电池板表面光滑度下降，原始的太阳光线入射后将产生光路变化，此时，由于太阳能电池板表面粗糙不平，将进一步产生漫反射现象，使得实际光伏发电中光生伏打效应能量转换过程中的原始一次能量光能损失，光伏发电功率也相应损失，具体漫反射和能量守恒式如下所示：

l_d＝l_i·K_d·cos(θ)

l_i＝l_d+l_s+l_c+l_v (15)

式中，l_i为入射光强，l_d为漫反射光强，l_s为镜面反射光强，l_c为透射光强，l_v为物体吸收光强，θ为入射角，K_d为漫反射系数，取决于光伏电池板表面的粗糙度，当浮尘积累严重将导致粗糙度提升而使得相应漫反射系数K_d增大。

进一步地，步骤S3中，所述新能源关联规则的分析与建模，包括：为了判定部分关联规则挖掘算法所挖掘出来的频繁项集与关联规则是否具有实际意义及有否具有强关联性，引用了支持度、置信度、以及不平衡比这三条概念来辅助文中的数据挖掘工作，以项目集N为例，分析事物X与事物Y的关联规则：

支持度(support)：在全部事务中，项目集中{X,Y}同时出现的概率，如下式所示：

式中Σ(X,Y)表示的是X、Y项集在事务中同时出现的次数；N代表项目集的总数，该概念可以作为判断关联规则是否具有强关联性的条件之一，通过设定一个最小支持度阈值，删除一些低于其阈值的项目集，只保留那些相对出现更为频繁的项目集，筛选出全部事务的频繁项集；

置信度(Confidence)：在全部事务中，在关联规则先决事件X发生的条件下，另一关联事件Y发生的概率，即含有X项集的条件下，同时含有Y项集的概率，如下式所示：

式中Σ(X,Y)表示的是X,Y项集在事务中同时出现的次数，Σ(X)表示的是X项集在事务中出现的次数，该概念可以作为判断关联规则是否具有实际意义及有价值的条件之一；

不平衡比：此概念可以很好的判断项集之间关联规则的真实性，当不平衡比值无线趋近于零时，就可以证明项集之间的关联规则非常平衡，则可以表明在事件X发生的条件下，事件Y发生的可能性是极大的，反之亦然；当不平衡比值无限大于零时，则说明虽然事件X发生后事件Y很大可能发生，但反之却是不成立的，这就说明了项集之间的关联规则不是有意义的，如下式所示：

式中Sup表示前面所介绍的支持度；

采用FP-network关联规则数据挖掘算法对新能源并网运行的环节中产生的大量多维运行数据进行挖掘，进而得到既有意义又具有强关联性的频繁项集与关联规则，从而寻找出配电网中存在的薄弱环节，建模过程如图所示，首先对收集到的故障数据进行预处理(除噪、清洗、过滤等)，然后利用FP-network算法对配电网故障数据进行关联规则挖掘，再通过置信度以及不平衡比的验证，则可以得出既有意义又具有强关联性的关联规则。

进一步地，采用FP-network关联规则挖掘算法具体一下步骤：

a.设定一个最小支持度阈值S_min；

b.扫描数据库，若数据库中项目的节点频率f_j小于最小支持度阈值S_min，则从数据库中摘除该项目，形成新的关联矩阵A与新的判定矩阵I；

c.从判定矩阵I中寻找出满足条件节点负容量n_k≠0的节点k，数据库中频繁项集的挖掘则从该节点进行展开；

d.删除关联矩阵A中满足条件aik＝0的所有事务，剩下的节点k路径集合为B(B＝{b|aik＝1})，在所剩的节点k路径中删除节点k之后的节点信息，形成新的关联矩阵A与新的判定矩阵I；

e.提取步骤(d)中的判定矩阵I中节点负容量n_k的数值，若其绝对值大于等于最小支持度阈值S_min，则可以判定节点k是算法所需挖掘出的频繁项集中的项目，反之，则节点k不是频繁项集中的一员，从步骤(d)中的关联矩阵中剔除该节点的所有信息，再形成新的关联矩阵A与新的判定矩阵I，再重新进行步骤(e)，继续进行关联规则的数据挖掘，直至所有nk≠0的节点挖掘完为止。

进一步地，步骤S₃中，新能源数据关联规则挖掘的Apriori辨识方法：

结合现有技术中Apriori的缺陷，采用改进的Apriori辨识方法进行新能源数据关联规则挖掘，改进的Apriori辨识方法：

基于分片的并行方法：首先把数据库中的事务集分层互不相交的逻辑子集，每次单独考虑一个分片，对其生成所有的频繁项集，最后计算这些项集的支持度，分片大小的选择标准是使得每个分片可被放入主存，以提高算法的并行性。

基于哈希函数的方法：考虑到Apriori算法中频繁项集C₂通常计算量最大，因此，提出关于哈希函数产生项集的高效算法，把2-项集映射到不同的桶，并分别对桶中的项目计数，从而达到压缩项集的作用。

基于采样的方法：基本思路是对于给定数据库的事务集，选定其子集为频繁集的搜索子空间，得到空间频繁集作为整个数据库的频繁集。即通过采样的方式从数据库中抽样得到整个数据库中可能成立的关联规则，然后对数据库的剩余部分验证这个结果，该方式可显著减少I/O代价，提升算法的整体效率，使得算法总的扫描次数通常少于最大频繁集的个数。

减少交易的个数：基于事务集中单个事务不包含长度为k的频繁集，必然不包含长度为k+1的频繁大项集，通过减少该类型的事务，减少用于扫描的事务集的大小，从而逐个减少下一遍扫描中事务集的个数。

进一步地，步骤S4中，新能源机场群数据关联规则函数分析流程包括：建立关联规则的输入输出信息流图，包括风速、风向、辐射与温度等为关联规则主要输入信息，机场群有功无功、日发电量、实时开机容量与超短期预测功率等为关联规则主要输出信息；根据支持度阈值与置信度阈值分别找出所有风速、风向、辐射与温度、机场群有功无功、日发电量、实时开机容量与超短期预测功率等输入输出数据集中的频繁项集与频繁项集所对应的强关联规则；根据提升度阈值在上述强关联规则中筛选出有效的强关联规则；随后进行关联规则函数的参数辨识，基于三次样条插值法对该有效的强关联规则对应的关联规则函数的参数进行辨识，形成典型场景下的完整关联规则函数；根据频繁项集的查找方法，扫描其中含有的风速、风向、机场群有功无功、日发电量等输入输出数据以形成项集表，扫描其中数据规则查找满足最小支持度阈值的项集集合，逐次迭代搜索直到筛选出所有满足该阈值的项集集合，最后进行关联规则挖掘与参数辨识。

进一步地，步骤S4中，所述新能源机场群数据关联规则参数辨识与插值模型包括以下步骤：

关联规则输入输出数据预处理，将关联规则输入输出数据转化为布尔型数据：对任意类型的输入输出数据以该类型输入输出数据的平均值为阈值，大于阈值相应数据值置1，否则置0；

生成候选集，将原输入输出数据形成对应的集合并集，作为形成频繁项集的原始数据集合；

计算候选集的支持度，按照支持度的定义，统计候选集相应类型a的数据出现的频数m_a，设所有候选集类型数据出现的总数为m，类型a的支持度sup(a)可简单表示为：

确定频繁项集，根据计算候选集的支持度计算出的各候选集的支持度，判断该支持度是否大于评估者设置的阈值，若大于，即为频繁项集；

上述步骤中，需扫描所有项集，在计算出项集中各类型候选集的支持度的基础上求出置信度，扫描所有项集，逐次迭代搜索直到筛选出所有满足置信度阈值的关联规则，主要包括以下实施步骤：

计算所有项集的置信度，在已计算出各项集支持度的情况下，可根据条件概率的概念进一步得到b集合所对应事件发生情况下导致a事件与b事件同时发生的关联置信度con(a)，

式中m_ab为ab同时发生的频数，m_b为b发生的频数；

关联规则筛选，求出相应置信度的情况下，根据所设的置信度阈值，阈值处理过程参考式(4.2)，当关联规则输入输出数据预处理中项集内置信度大于该阈值，即该项集内的数据可以构成其中一个关联规则；

根据频繁项集查找与关联规则提取方法，进一步提取有效的强关联规则，分析计算提升度，并在设定提升度阈值的前提下判断关联规则是否是强关联规则；

进行关联规则函数的参数辨识，整合所有挖掘的关联规则，对于各关联规则所表征的输入输出数据构建二者间存在的函数性质关系及函数的具体参数；包括以下步骤：

确定关联规则函数阶数，利用F检验法，计算不同阶次n作用下辨识结果中的估计误差方差，从而按照估计误差方差最小的原则对关联规则函数的阶数进行确定，在定阶过程中，当选择置信度水平为0.05时，如果模型阶次从n₀增加到n₀₊₁时满足下式：

式(4.3)中t为引入的统计量，当t的计算方法如式(4.3)第一式所示，n₁与n₂为不同的模型阶次大小，依次增加关联规则函数阶数n₀，直到t满足第二第三式时，可选n为关联规则函数阶数；

辨识关联规则函数参数，对于关联规则函数参数的辨识，通过工程常用的三次样条插值方法，通过求解三弯矩方程组得到光滑曲线，该插值方法在新能源发电单元-场站-场群数据关联规则辨识方法的具体应用步骤为：

统计存在有效的强关联规则间的输入输出数据，如可能的光照强度与实际出力等形成插值点，根据三弯矩方程组，建立关于有效强关联规则间输入输出数据的关联规则函数，其中三次样条插值需满足插值点处的二阶导为0，即总体满足以下条件：

S(x_j)＝y_j,j＝(0,1,…,n)

S”(x₀)＝S”(x_n)＝0 (22)

式中插值多项式次数为三次，且满足插值区间始终点的二阶导为0，y_j与x_j分别为带辨识的强关联函数的输出与输入，如对于风机，可分别代表机场群有功出力与环境风速，采用三弯矩插值构建样条插值函数，每一插值区间[x_j,x_j+1]对应的插值函数二阶导均线性连续：

式中为Mj为三弯矩插值方程待求参数，h_j+1＝x_j+1-x_j，为区间长度，最终的每一区间[x_j,x_j+1]的关联规则函数为式(5)积分而得：

M_j可通过以下线性方程组求出：

式中各参数分别满足：

由此可求出关联函数参数取值，完成对新能源机场群数据关联规则函数的参数辨识。

进一步地，步骤S4中，新能源机场群数据关联规则函数的建立，通过关联规则挖掘对比所设置的关联规则支持度和置信度阈值可以得出风电的出力强相关因子主要包括风速、风向、转速、桨距角；光伏出力的影响因子主要包括光照、气压、湿度、温度和光照散射强度等，同样对比设定的支持度和置信度阈值，光伏出力的强相关因子主要为光照；随后，对风电和光伏出力的强相关因子进行灵敏度分析，得出各出力强相关因子的相关系数，然后再对筛选出的强相关因子建立关联规则函数；对于风电的强相关因子中，考虑到转速，桨距角和出力之间直接存在明显的机理函数关系，不需对二者进行额外的关联规则函数参数辨识；对于光伏的强相关因子中，主要针对光照进行关联规则函数参数辨识；考虑到风速、风向和风电出力间存在近似线性相关关系，光照与光伏最大功率点也存在近似的线性相关关系，根据皮尔森相关系数对其相关系数进行具体量化分析：

式中，cov(X,Y)表示变量X与变量Y之间的协方差，σX和σY分别为变量X和变量Y的标准差；分别选取输入输出变量即风速、风向和风电出力；光照和光伏出力进行计算；其中通过将风速从风向角投影到风机受风面正面，可以将风向和风速对风机出力的关联规则输入归为投影后的风速值，并进行后续关联规则函数建立；根据式17的计算方式，可以得出风速和风电出力，光照强度和光伏出力之间的皮尔森相关系数；最后，即按最后一条对关联规则函数的参数辨识要求对各关联规则进行逐一参数辨识，形成典型输出与输入之间的关联规则函数，实现表征发电能力参数的典型输出与输入之间的关联规则函数，为新能源发电能力的评估做基础；根据所述插值法内容，首先对风电的关联规则函数参数辨识采用三次样条插值法分别得到关联规则函数有功与转速、桨距角的具体函数，累计发电量与风速、风向的具体函数；在此基础上基于指数拟合得到以下两辨识结果：

y₁(k)＝(30e^0.1k-20e^-0.06k+17e^-0.1k)x₁(k) (28)

y₂(k)＝(7.8e^-0.49k-0.018e^-0.67k)x₂(k) (29)

上述两式分别对应风机有功与桨距角的关联函数，风机累计发电量与风速的关联函数关系；接下来针对关联规则所表达的主要关系进行分析，通过数据得出不同的关联规则曲线序列，首先采集采集原始数据散点图；根据风速-单机有功出力数据曲线，横轴为提取出的关联规则中的风速变量，纵轴为提取出的关联规则中的单机有功出力变量；以风速-单机有功出力数据曲线插值得出风速和单机有功之间的关系，插值所得到的曲线图：在曲线图的基础上，对图风速-单机有功出力数据曲线插值后各个点的误差进行计算，得到关联规则曲线各点的误差分布；

同时，除了风电的关联规则函数辨识之外，针对光伏的关联规则函数辨识，同样采集原始数据散点图并拟合用于关联规则函数的参数辨识，采集光伏电站日光照-出力数据散点图，各数据间采样时间间隔为15min；

获取光伏的原始输出有功功率曲线和光照强度关系后，同理根据三次样条插值，然后通过指数拟合可以给出光伏的输出功率和光照强度之间的关联规则函数，通过对比该关联规则函数曲线与原数据之间的插值误差曲线，以验证关联规则函数辨识的准确性；同理，对光伏的关联规则函数的建立过程，可采用样条插值法得到相应的关联规则函数，得到光伏有功出力与光照强度之间的关联规则函数，并对插值点进行指数拟合，结果如下所示：

y₁(k)＝(2.23e^0.03k-2.19e^0.06k+1.87e^-0.1k)x₁(k) (30)。

进一步地，步骤S4中，新能源机场群数据关联规则函数参数的动态修正，通过在线滚动辨识关联规则函数参数实现；当出力关联规则函数在环境因素强关联因子如风速、光照和温度等输入作用下的出力计算结果与实际出力实测值间误差大于阈值e时，说明此时关联规则函数参数可能存在误差，需要启动对原有关联规则函数参数的动态修正工作；在具体动态修正时，主要在超出误差范围时针对关联规则函数的参数进行重新辨识，具体辨识方法可以通过样条插值实现，即按照此时刻的真实样本数据刷新原有的关联规则输入输出数据集进行参数辨识；

具体过程为：假设关联规则函数的结构已知，即关联规则描述的输入输出间满足以下状态空间表达式：

其中u即为关联规则的输入，一般表示上述提取出的关联规则强相关因子如光照强度和风速等，y为关联规则的输出，一般对应表示未来的光伏或风电出力大小；

对于近似线性系统，使用经典最小二乘法估计。具体方法为定义和极小化的最小二乘准则函数：

J₂(θ)＝||Y(t)-H(t)θ||²＝[Y(t)-H(t)θ]^T[Y(t)-H(t)θ] (32)

式中，Y(t)为输出向量对应式(31)中的y，H(t)对应式(31)中的u，指相应输出，通过求取该式的极小值，确定关于估计向量的最小二乘算法，并进行在线滚动辨识；

通过关联规则函数建立结果对其进行动态修正，通过每15min启动一次对关联规则函数出力计算值的误差检测，并判断该范围是否超过所设置的阈值，如果超过，即开始按照式(32)求极值重新计算相应的关联规则函数参数，具体操作流程为：

设置阈值误差为0.05，即误差超过5％需要重新计算关联规则函数参数，在关联规则函数建立的基础上统计所有误差范围情况，得到以下结果：

关联规则动态修正过程以15min为分辨率进行滚动判断，在165min和195min时刻的误差分别为0.0544和0.0537，超过了规定的0.05阈值，因此在该时刻需要进行关联规则动态修正；因此，算例分别在165min和195min时刻对关联规则函数参数进行动态修正，修正方法采用最小二乘法；通过参数最小二乘辨识，可以提取出以下的参数

针对案例中挖掘出的光伏和风电的输入输出最小二乘关系，对其中的关联规则参数进行在线辨识，最终得到如下的关联规则函数参数动态修正结果：

y₁(k)＝(2.21e^0.036k-2.178e^0.056k+1.831e^-0.15k)x₁(k)

y₁(k)＝(2.15e^0.027k-2.195e^0.064k+1.890e^-0.18k)x₁(k) (33)

y₁(k)＝(30.68e^0.12k-20.15e^-0.066k+17.12e^-0.12k)x₁(k)

y₁(k)＝(30.43e^0.134k-20.115e^-0.075k+17.09e^-0.149k)x₁(k) (34)

式中，依次表示了光照和光伏出力之间的关联规则函数参数修正结果和风速与风电出力之间的关联规则函数参数修正结果。

检测两个子系统的实际输出功率，并将实际功率值反馈至功率协调控制器中；根据系统并网效益和输出功率平滑性构建目标函数，采用理想点法求解目标函数，将求得的解作为子系统功率的给定，两个子系统均为功率闭环控制；

继续根据检测当前的风速、光照强度和温度并计算各子系统的最大功率，将子系统实际输出功率反馈到功率协调控制器，功率协调控制器进一步对两个子系统的发电功率进行优化协调，通过上级与下级之间不断进行信息交换，最终使系统的运行状态达到理想目标，实现风光联合发电系统的协调控制。

以上所述为发明的较佳实施例，并不用以限制发明，凡在发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在发明的保护范围之内。

Claims

1.一种基于新能源机场群数据关联分析方法，其特征在于,包括：

2.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，步骤S1中，基于改进模糊C均值聚类的新能源输入输出的不良数据辨识方法：

则对象周围的邻居密度即该对象R范围内其他数据点的个数；当友邻居密度即邻居点个数小于设定数目Knum，则被认为是离群数据，即不良数据点；通过比较r(i,j)和R的关系，不用计算最大距离，即可判断对象邻居点的个数。

3.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，所述基于改进模糊C均值聚类的新能源输入输出的不良数据辨识方法，包括：输入聚类所得数据集，分化度μ，最少邻居数Knum；计算聚类各类别中质心及A_distance；计算数据集距离R₁和数据对象x_i的分化距离r₁(i,j)；比较r₁(i,j)与R₁的关系，若r₁(i,j)＜R1，则x_i的邻居点数目K加1，一旦K＞Knum，中断该数据对象进入下一个数据对象的K计算，否则遍历所有邻居点的数目；不满足K＞Knum的数据对象作为不良数据；

其中，

4.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，步骤S1中，新能源输入输出数据的Kmeans降维方法：新能源输入输出数据的Kmeans降维方法上基于典型的Kmeans聚类，基于距离进行聚类并以样本点与聚类中心点的距离作为评价指标；其中指标进行分类处理，按照不同距离类型，划分为欧氏距离；包括：从数据集中随机选择k个样本作为初始聚类中心{λ₁,λ₂,…,λ_k}；计算其余样本到上述聚类中心的欧氏距离，并分配至最近的聚类中心；通过距离度量方法更新聚类中心，更新为隶属该簇的全部样本的均值；不断重复该步骤，直至样本点到形成的聚类中心的距离满足算法设定收敛范围；

步骤S1中，聚类准确性分析为基于高密度区的最大化最小距离聚类中心选择方法，包括：设从n个对象中选择一个对象作为第一个聚类中心，则C_l＝X_l；在剩下的n-1个数据对象中选距离最长的X₂为第二个聚类中心，则C₂＝X₃；计算剩余每个数据对象到已有聚类中心的距离并求出距离最小数据对象；计算所有数据对象到聚类中心距离最小值中的最大值，以确定最终对应的对象；如果最大值大于所有对象的距离平均值之和，则取相应聚类中心点为选定的初始聚类中心，若不满足，则重复上述步骤直到筛选出对应的聚类中心点；

步骤S1中，新能源关联规则的候选集分析包括：将聚类结果形成新能源关联规则函数的候选集，主要包括新能源关联规则函数输入数据类型降维后的不同集合，包括风电对应的风速风向等，光伏对应的光照强度与温度等条件作为主要判据进行分析，同时，将关联规则函数参数的分析纳入最终的判断方法，将辨识步骤化为确定关联函数阶数，确定辨识参数；由Kmeans聚类生成的各簇中心点形成最终的新能源关联规则候选集，主要对风机单机有功功率、风机单机无功功率、风电场累计发电量、风速、风向、桨距角、环境温度与开机容量等不同类型的数据进行聚类分析降维处理。

5.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，步骤S2中，所述风力发电环境因素与风电出力间关联规则机理分析方法为：风电的期望功率与风速之间的关系：

考虑通过尾流输入得到尾流效应影响下的风速结果：

式中V_ci为切入风速；Vr为额定风速；V_co为切出风速；Pr为风电机组最大出力；系数A，B，C如下式所示；

步骤S2中，所述光伏发电环境因素与光伏出力间关联规则机理分析方法：光伏发电的主要影响因素如光照强度和温度与出力间关系可通过光伏发电模型用以呈现，虽无法准确描述光照强度和光伏任意功率点的关系，但可通过光照强度和温度等因素确定光伏的最大功率点；光伏电站中作为电源的光伏阵列，主要由若干个光伏组件通过串并联组成，在忽略等效结电容的瞬态响应时，可以得到光伏组件输出电流I_pv与电压U_pv关系为

式中：T表示非标准条件下的换算温度；T_air表示环境实际温度；k为温度系数，一般取为0.03℃·m²/W；S表示环境实际光照强度；补偿系数a、b、c分别为0.0025℃、0.5m²/W、0.00288℃；

其中参数C₁和C₂的表达式可以写作：

进行浮尘与出力之间的关联函数进行机理分析：

l_d＝l_i·K_d·cos(θ)

l_i＝l_d+l_s+l_c+l_v (15)

6.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，步骤S3中，所述新能源关联规则的分析与建模，包括：为了判定部分关联规则挖掘算法所挖掘出来的频繁项集与关联规则是否具有实际意义及有否具有强关联性，引用了支持度、置信度、以及不平衡比这三条概念来辅助文中的数据挖掘工作，以项目集N为例，分析事物X与事物Y的关联规则：

式中Sup表示前面所介绍的支持度；

7.根据权利要求6所述的一种基于新能源机场群数据关联分析方法，其特征在于，采用FP-network关联规则挖掘算法具体一下步骤：

a.设定一个最小支持度阈值Smin；

b.扫描数据库，若数据库中项目的节点频率fj小于最小支持度阈值Smin，则从数据库中摘除该项目，形成新的关联矩阵A与新的判定矩阵I；

c.从判定矩阵I中寻找出满足条件节点负容量nk≠0的节点k，数据库中频繁项集的挖掘则从该节点进行展开；

e.提取步骤(d)中的判定矩阵I中节点负容量nk的数值，若其绝对值大于等于最小支持度阈值Smin，则可以判定节点k是算法所需挖掘出的频繁项集中的项目，反之，则节点k不是频繁项集中的一员，从步骤(d)中的关联矩阵中剔除该节点的所有信息，再形成新的关联矩阵A与新的判定矩阵I，再重新进行步骤(e)，继续进行关联规则的数据挖掘，直至所有nk≠0的节点挖掘完为止。

8.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，步骤S3中，新能源数据关联规则挖掘的Apriori辨识方法：

基于哈希函数的方法：考虑到Apriori算法中频繁项集C2通常计算量最大，因此，提出关于哈希函数产生项集的高效算法，把2-项集映射到不同的桶，并分别对桶中的项目计数，从而达到压缩项集的作用。

9.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，步骤S4中，新能源机场群数据关联规则函数分析流程包括：建立关联规则的输入输出信息流图，包括风速、风向、辐射与温度等为关联规则主要输入信息，机场群有功无功、日发电量、实时开机容量与超短期预测功率等为关联规则主要输出信息；根据支持度阈值与置信度阈值分别找出所有风速、风向、辐射与温度、机场群有功无功、日发电量、实时开机容量与超短期预测功率等输入输出数据集中的频繁项集与频繁项集所对应的强关联规则；根据提升度阈值在上述强关联规则中筛选出有效的强关联规则；随后进行关联规则函数的参数辨识，基于三次样条插值法对该有效的强关联规则对应的关联规则函数的参数进行辨识，形成典型场景下的完整关联规则函数；根据频繁项集的查找方法，扫描其中含有的风速、风向、机场群有功无功、日发电量等输入输出数据以形成项集表，扫描其中数据规则查找满足最小支持度阈值的项集集合，逐次迭代搜索直到筛选出所有满足该阈值的项集集合，最后进行关联规则挖掘与参数辨识；

步骤S4中，所述新能源机场群数据关联规则参数辨识与插值模型包括以下步骤：

计算候选集的支持度，按照支持度的定义，统计候选集相应类型a的数据出现的频数ma，设所有候选集类型数据出现的总数为m，类型a的支持度sup(a)可简单表示为：

式中mab为ab同时发生的频数，mb为b发生的频数；

t(n₀-1,n₀)＞3,t(n₀,n₀+1)≤3 (21)

S(x_j)＝y_j,j＝(0,1,...,n)

S”(x₀)＝S”(x_n)＝0 (22)

式中插值多项式次数为三次，且满足插值区间始终点的二阶导为0，y_j与x_j分别为带辨识的强关联函数的输出与输入，如对于风机，可分别代表机场群有功出力与环境风速，采用三弯矩插值构建样条插值函数，每一插值区间[xj,xj+1]对应的插值函数二阶导均线性连续：

式中为Mj为三弯矩插值方程待求参数，h_j+1＝x_j+1-x_j，为区间长度，最终的每一区间[xj,xj+1]的关联规则函数为式(5)积分而得：

Mj可通过以下线性方程组求出：

式中各参数分别满足：

10.根据权利要求1所述的一种基于新能源机场群数据关联分析方法，其特征在于，步骤S4中，新能源机场群数据关联规则函数的建立，通过关联规则挖掘对比所设置的关联规则支持度和置信度阈值可以得出风电的出力强相关因子主要包括风速、风向、转速、桨距角；光伏出力的影响因子主要包括光照、气压、湿度、温度和光照散射强度等，同样对比设定的支持度和置信度阈值，光伏出力的强相关因子主要为光照；随后，对风电和光伏出力的强相关因子进行灵敏度分析，得出各出力强相关因子的相关系数，然后再对筛选出的强相关因子建立关联规则函数；对于风电的强相关因子中，考虑到转速，桨距角和出力之间直接存在明显的机理函数关系，不需对二者进行额外的关联规则函数参数辨识；对于光伏的强相关因子中，主要针对光照进行关联规则函数参数辨识；考虑到风速、风向和风电出力间存在近似线性相关关系，光照与光伏最大功率点也存在近似的线性相关关系，根据皮尔森相关系数对其相关系数进行具体量化分析：

式中，cov(X,Y)表示变量X与变量Y之间的协方差，σ_X和σ_Y分别为变量X和变量Y的标准差；分别选取输入输出变量即风速、风向和风电出力；光照和光伏出力进行计算；其中通过将风速从风向角投影到风机受风面正面，可以将风向和风速对风机出力的关联规则输入归为投影后的风速值，并进行后续关联规则函数建立；根据式17的计算方式，可以得出风速和风电出力，光照强度和光伏出力之间的皮尔森相关系数；最后，即按最后一条对关联规则函数的参数辨识要求对各关联规则进行逐一参数辨识，形成典型输出与输入之间的关联规则函数，实现表征发电能力参数的典型输出与输入之间的关联规则函数，为新能源发电能力的评估做基础；根据所述插值法内容，首先对风电的关联规则函数参数辨识采用三次样条插值法分别得到关联规则函数有功与转速、桨距角的具体函数，累计发电量与风速、风向的具体函数；在此基础上基于指数拟合得到以下两辨识结果：

y₁(k)＝(30e^0.1k-20e^-0.06k+17e^-0.1k)x₁(k) (28)

y₂(k)＝(7.8e^-0.49k-0.018e^-0.67k)x₂(k) (29)

y₁(k)＝(2.23e^0.03k-2.19e^0.06k+1.87e^-0.1k)x₁(k) (30)；

步骤S4中，新能源机场群数据关联规则函数参数的动态修正，通过在线滚动辨识关联规则函数参数实现；当出力关联规则函数在环境因素强关联因子如风速、光照和温度等输入作用下的出力计算结果与实际出力实测值间误差大于阈值e时，说明此时关联规则函数参数可能存在误差，需要启动对原有关联规则函数参数的动态修正工作；在具体动态修正时，主要在超出误差范围时针对关联规则函数的参数进行重新辨识，具体辨识方法可以通过样条插值实现，即按照此时刻的真实样本数据刷新原有的关联规则输入输出数据集进行参数辨识；

具体过程为：

假设关联规则函数的结构已知，即关联规则描述的输入输出间满足以下状态空间表达式：

y＝Cx+Du (31)

对于近似线性系统，使用经典最小二乘法估计；具体方法为定义和极小化的最小二乘准则函数：

J₂(θ)＝||Y(t)-H(t)θ||²＝[Y(t)-H(t)θ]^T[Y(t)-H(t)θ] (32)

通过关联规则函数建立结果对其进行动态修正，并判断该范围是否超过所设置的阈值，如果超过，即开始按照式(32)求极值重新计算相应的关联规则函数参数，修正方法采用最小二乘法；通过参数最小二乘辨识，挖掘出的光伏和风电的输入输出最小二乘关系，对其中的关联规则参数进行在线辨识，最终得到如下的关联规则函数参数动态修正结果：

y₁(k)＝(2.21e^0.036k-2.178e^0.056k+1.831e^-0.15k)x₁(k)

y₁(k)＝(2.15e^0.027k-2.195e^0.064k+1.890e^-0.18k)x₁(k) (33)

y₁(k)＝(30.68e^0.12k-20.15e^-0.066k+17.12e^-0.12k)x₁(k)

y₁(k)＝(30.43e^0.134k-20.115e^-0.075k+17.09e^-0.149k)x₁(k) (34)