CN114818925A

CN114818925A - 一种风电场出力数据缺失值填补方法及系统

Info

Publication number: CN114818925A
Application number: CN202210447059.XA
Authority: CN
Inventors: 孙艳; 陈雁; 莫东; 崔长江; 李秋文; 凌武能; 吴茵; 卓毅鑫
Original assignee: CSG Electric Power Research Institute; Guangxi Power Grid Co Ltd
Current assignee: CSG Electric Power Research Institute; Guangxi Power Grid Co Ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-07-29

Abstract

本申请一种风电场出力数据缺失值填补方法及系统，所述方法包括获取相同长度的待填补序列和历史序列，取序列中的非缺失序列值构成新的两个序列，比较两个序列的相似性，确定与待填补序列相似度最高的候选历史序列，利用候选历史序列中相同位置的序列值来填补缺失值，能够充分利用历史信息，提高风电场出力数据缺失值填补的准确性和便捷性。

Description

一种风电场出力数据缺失值填补方法及系统

技术领域

本发明属于风力发电数据处理领域，具体涉及一种风电场出力数据缺失值填补方法及系统。

背景技术

风力发电是实现我国碳达峰碳中和的重要推动力之一，截至2021年11月底，我国风电装机容量约3亿千瓦。由于风电功率所呈现的随机性、波动性和间歇性，风电大规模并网对电力系统的影响也越来越明显，研究风电对系统的影响并在此基础上提出相关技术解决措施已成为当前的研究热点和重要课题。风电场出力数据是最基本、最重要的风电运行数据之一，是研究风电功率随机特性、风电功率预测、风电功率对电网影响评估及控制策略的基础。

从风电场收集到的大量风电场出力数据中通常包含异常数据点和数据缺失，对这些异常点清洗后进一步增加数据缺失的程度，这直接影响到后续相关分析结果的准确性。因此，对风电场历史出力数据中的缺失数据进行还原具有重要的现实意义。目前对于风电场出力缺失数据的填补方法主要有插值法(如Hermite插值、三次样条插值、分段线性插值等)，预测策略(如神经网络方法、ARMA、EM、概率分布等)，这些方法没有利用现有的历史信息或者利用少量的历史信息，使得还原精度不高，尤其在连续缺失数据较多的情况下，或者方法复杂实现难度大。

因此，对现有的缺失值填补方法仍有改进的必要。

发明内容

基于此，本发明提出一种风电场出力数据缺失值填补方法及系统，以克服上述现有技术的缺陷，提高对缺失值填补的准确性和便捷性。

本发明一种风电场出力数据缺失值填补方法，包括：

获取长度相等的第一待填补序列和第一历史序列；

取第一待填补序列中的非缺失序列值构成第二待填补序列，根据非缺失序列值的位置在第一历史序列选择相同位置的序列值构成第二历史序列；

计算第二待填补序列和第二历史序列的相似度；

根据相似度确定与第二待填补序列相似度最高的至少一个候选序列；

利用候选序列对应的第一历史序列中与第一待填补序列中缺失值相同位置的序列值填补缺失值。

进一步地，计算第二待填补序列和第二历史序列的相似度包括：

利用DTW算法计算第一相似度；

根据第二待填补序列和第二历史序列的特征点求解两个序列的第二相似度；

根据第一相似度和第二相似度计算两个序列的第三相似度。

进一步地，第三相似度的求解如下：

T＝λ₁μ′₁+λ₂μ′₂，T表示第三相似度，μ₁和μ₂分别表示第一相似度和第二相似度，μ′₁和μ′₂分别是第一相似度和第二相似度归一化处理后的相似度，λ₁和λ₂分别表示第一相似度和第二相似度的权重系数。

进一步地，权重系数用熵值法求得。

进一步地，上述方法还包括：

对第一相似度和第二相似度归一化处理。

进一步地，对第一相似度的归一化处理如下：

μ′₁表示归一化后的第一相似度，μ₁表示第一相似度，表示

第一相似度阈值。

进一步地，对第二相似度的归一化处理如下：

μ′₂表示归一化后的第二相似度，μ₂表示第二相似度，表示

第二相似度阈值。

进一步地，根据第二待填补序列和第二历史序列的特征点求解两个序列的第二相似度包括：

分别计算两个序列的特征点形成的相邻线段的夹角，夹角值构成分别对应两个序列的两个夹角序列；

计算两个夹角序列的相似度。

进一步地，特征点包括序列的极值点x_l，所述极值点x_l满足以下条件：

极值点x_l的相邻极值点x_l-1和x_l+1满足

或

C表示设定值。

进一步地，有至少两个候选序列时，根据候选序列对应的第一历史序列中与第一待填补序列中缺失值相同位置的序列值填补缺失值包括：

计算至少两个第一历史序列与第一待填补序列中缺失值相同位置的序列值的均值，所述均值用于填补第一待填补序列的缺失值。

进一步地，计算第二待填补序列和第二历史序列的相似度之前还包括：

对第二待填补序列和第二历史序列进行归一化处理。

进一步地，对第二待填补序列和第二历史序列的归一化处理有如下

P'表示归一化处理后的序列值，P表示原序列值，P₀表示风电场的额定出力。

本发明还提供一种风电场出力数据缺失值填补系统，包括：

序列获取单元，用于获取长度相等的第一待填补序列和第一历史序列；

序列处理单元，用于取第一待填补序列中的非缺失序列值构成第二待填补序列，根据非缺失序列值的位置在第一历史序列选择相同位置的序列值构成第二历史序列；

相似度计算单元，用于计算第二待填补序列和第二历史序列的相似度；

序列处理单元还用于根据相似度确定与第二待填补序列相似度最高的至少一个候选序列；

缺失值填补单元，用于根据候选序列对应的第一历史序列中与第一待填补序列中缺失值相同位置的序列值填补缺失值。

本发明还提供一种风电场出力数据缺失值填补设备，包括存储有计算机可执行指令的存储器和处理器，当计算机可执行指令被处理器执行时使得该分析设备执行上述提供的风电场出力数据缺失值填补方法。

从以上技术方案可以看出，本发明具有如下有益效果：

本发明一种风电场出力数据缺失值填补方法及系统，通过比较待填补序列和历史序列的相似性，确定与待填补序列相似度最高的候选历史序列，利用候选历史序列中相同位置的序列值来填补缺失值，在进一步的方案中对于存在多个候选历史序列的情形，取多个候选历史序列相同位置序列值的均值作为填补值。本发明提出的填补方法能够充分利用历史信息，提高填补精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1本发明一种实施例提供的风电场出力数据缺失值填补方法流程图

图2本发明一种实施例提供的风电场出力数据缺失值填补系统结构图

图3本发明实施例提供的风电场出力数据缺失值填补设备硬件结构框图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例旨在提出一种风电场出力数据缺失值填补方法及系统，提高填补精度。

参见图1，本实施例提供一种风电场出力数据缺失值填补方法，包括：

获取长度相等的第一待填补序列和第一历史序列；

计算第二待填补序列和第二历史序列的相似度；

通过比较序列的相似性，确定与待填补序列相似度最高的历史序列，利用历史序列的序列值填补缺失值，达到充分利用历史信息的目的，提高缺失值填补的准确性和便捷性。

在进一步的实施例中，可以先对第二待填补序列和第二历史序列做如下归一化处理：

在进一步的实施例中，为了更严谨地比较序列的相似性，相似度的计算可以包括多个维度，这里以两个维度为例，一方面可以比较序列的整体相似性，另一方面比较序列变化趋势的相似性。

依照上述说明，容易理解的是，在进一步的比较两维度的相似性的实施例中，相似度包括了第一相似度和第二相似度。

本发明获取的序列与时间变量相关性高，可将其视为一种时间序列，因此比较时间序列的整体相似性可以采用常用的度量方法，例如闵可夫斯基距离、欧式距离、DTW算法等，当然其他如基于灰色关联度、基于压缩距离、基于数据模型等的度量方法也是可选的。

在进一步的实施例中，为了体现时间的动态性，利用DTW算法计算序列的第一相似度，根据序列的特征点计算序列的第二相似度，并对两次计算得到的相似度做综合计算得到第三相似度，第三相似度用于直接衡量序列的相似性。

第二相似度实质上反映了序列的变化趋势，因此可以基于序列的分段线性对序列进行表示，通过选择序列的特征点表示序列的多个分段，利用线性分段反映序列的波动情况，比较序列的分段波动则可以反映序列在变化趋势上的相似性。序列的特征点可以理解为时间序列变换中视觉上有相对重要影响的观测点，例如序列的始末点，还有反映序列线性变化的极值点，容易理解的是，选择的特征点越多，序列的线段化描述则越细。

在进一步的实施例中，特征点除了始末点，还可以包括一部分满足条件的极值点，选择极值点的过程可以如下：

极值点x_l的相邻极值点x_l-1和x_l+1满足

或

C表示设定值，则极值点x_l可以被选为序列的特征点。

容易理解的是，C值越小，被选中的极值点越多，则序列的线段化描述越细，通过选择C，可以在不同的精细程度上对序列进行数据挖掘。

在进一步的实施例中，第二相似度的计算包括如下过程：

分别计算两个序列的相邻特征点所形成的相邻线段的夹角，夹角值构成分别对应两个序列的两个夹角序列；

计算两个夹角序列的相似度。

在进一步的实施例中，第三相似度求解如下：

T＝λ₁μ′₁+λ₂μ′₂，T表示第三相似度，T越大表明相似性越好。μ₁和μ₂分别表示第一相似度和第二相似度，μ′₁和μ′₂分别是第一相似度和第二相似度归一化处理后的相似度，λ₁和λ₂分别表示第一相似度和第二相似度的权重系数。

在进一步的实施例中，权重系数可以用熵值法求得。

在进一步的实施例中，计算第三相似度之前还可以对第一相似度和第二相似度归一化处理。

对第一相似度的归一化处理如下：

第一相似度阈值。

对第二相似度的归一化处理如下：

第二相似度阈值。

在进一步的实施例中，有至少两个候选序列时，填补缺失值的过程可以如下：

以上比较序列相似性和缺失值填补的执行过程，多维度体现序列的动态变化，从序列的静态和动态两方面反映相似性，能够更全面地体现数据特征，并充分利用历史数据，提高数据填补精度。

下面的实施例将对本发明提出的风电场出力数据缺失值填补方法做进一步阐述。

按时间顺序获取待填补的原始风电出力序列，该待填补序列集合可以表示为

P＝{P₁,P₂,…,P_N1,P_N1+1,P_N1+2,…,P_N1+N2,P_N1+N2+1,P_N1+N2+2,…,P_N1+N2+N3}，集合中共N1+N2+N3个元素，其中P_N1+1,P_N1+2,…,P_N1+N2为缺失值，P₁,P₂,…,P_N1表示缺失值的前端历史值，P_N1+N2+1,P_N1+N2+2,…,P_N1+N2+N3表示缺失值的后端历史值。

容易理解的是，获取的待填补序列中的非缺失值也可以只有前端历史值或后端历史值的任一，与缺失值构成完整的待填补序列，相应地，只要历史序列和待填补序列长度相等即可，本发明不对此做进一步的限定，以下的实施例以前述给出的序列集合为基础进行说明。

获取M个与待填补序列长度相等的历史序列，历史序列集合可以表示为P_i＝{P_i,1,P_i,2,…,P_i,N1,P_i,N1+1,P_i,N1+2,…,P_i,N1+N2,P_i,N1+N2+1,P_i,N1+N2+2,…,P_i,N1+N2+N3}，i＝1,…,M。

取序列中的非缺失值，即原始待填补序列中的P₁,P₂,…,P_N1和P_N1+N2+1,P_N1+N2+2,…,P_N1+N2+N3共N1+N3个元素，组成新的待填补序列，并对序列做如下归一化处理

P'表示归一化处理后的序列值，P表示原序列值，P₀表示风电场的额定出力，得到新的待填补序列，这里用P'表示。

同理，对于历史序列，同样取序列中的P_i,1,P_i,2,…,P_i,N1和P_i,N1+N2+1,P_i,N1+N2+2,…,P_i,N1+N2+N3共N1+N3个元素组成新的历史序列，并做相同的归一化处理，得到新的历史序列，用P_i'表示。

下面计算序列P'和P_i'的相似性。

本实施例从两个维度衡量，利用时间动态规整(DTW)算法比较两个时间序列的整体相似性，基于分段线性化比较两个时间序列的变化趋势相似性，并对两个维度进行综合衡量，用于反映序列相似度。

利用DTW算法计算第一相似度的具体过程如下：

构造(N1+N3)×(N1+N3)的矩阵D_i如下：

矩阵元素D_i表示任意两个序列值的距离，可以如下计算D_i(k,t)＝(P′_i,t-P′_k)²，P′_k∈P'，P′_i,t∈P_i'，1≤k,t≤N1+N3：

寻找规整路径W_i＝w_i,1,w_i,2,...,w_i,K，w_i,K表示矩阵D_i的元素，路径W_i长度满足N1+N3≤K≤2×(N1+N3)-1，路径W_i满足以下特性：

(1)W_i始于D_i(1,1)，终于D_i(N1+N3,N1+N3)；

(2)路径上的任意两个相邻元素w_i,l(k,t)，w_i,l-1(k',t')满足0≤k-k'≤1，0≤t-t'≤1；

则序列P'和P_i'的第一相似度计算为

可以利用动态规划法求解μ_i,1。

基于分段线性化计算第二相似度的具体过程如下：

这里以序列P'为例，历史序列P_i'做同样处理，则不再赘述。

选择序列的特征点，包括序列的起始点、末点和满足下列条件的极值点，

极值点x_l的相邻极值点x_l-1和x_l+1满足

或

C表示设定值，则极值点x_l可以被选为序列的特征点。

假设序列P'共求得L+1个特征点，则相邻特征点共形成L条线段，计算相邻线段的夹角，依次记为α₁,…,α_L-1。

同理，对历史序列P_i'进行同样的特征点选取和线段夹角计算，历史序列P_i'的线段夹角记为α_i,1,…,α_i,L-1。

则序列P'和P_i'的第二相似度计算为

对μ_i,1，μ_i,2进行如下归一化处理

为预先设定的阈值，μ′_i,1、μ′_i,2表示归一化后的相似度值。

根据第一相似度和第二相似度计算第三相似度如下式T_i＝λ₁μ′_i,1+λ₂μ′_i,2，用于直接衡量序列的相似性。λ₁和λ₂分别表示归一化后的第一相似度和第二相似度的权重系数，利用熵值法求解λ₁和λ₂。求解过程如下：

对M个历史序列P_i'排序的归一化后的相似度指标进行标准化处理：

计算历史序列P_i'归一化后的相似度指标的熵值，熵值越小表明该指标在综合评价中起的作用越大:

规定0×ln0＝0，则λ₁和λ₂如下式所示：

按照上述的计算过程，会计算得M个历史序列P_i'与序列P'的相似度，根据相似度T_i的大小对M个历史序列P_i'排序，取相似度最高的V个序列，记为集合S_best。

对V个序列的原历史序列P_i中与缺失值相同位置的序列值求均值，即取序列P_i中的P_i,N1+1,P_i,N1+2,…,P_i,N1+N2，原待填补序列P中缺失值P_N1+1,P_N1+2,…,P_N1+N2用上述求得的均值填补，各缺失值通过下式求得：

参阅图2，为本发明实施例公开的一种风电场出力数据缺失值填补方法及系统，主要包括：序列获取单元201，序列处理单元202，相似度计算单元203，缺失值填补单元204。

序列获取单元201，用于获取长度相等的第一待填补序列和第一历史序列；

序列处理单元202，用于取第一待填补序列中的非缺失序列值构成第二待填补序列，根据非缺失序列值的位置在第一历史序列选择相同位置的序列值构成第二历史序列；

相似度计算单元203，用于计算第二待填补序列和第二历史序列的相似度；

序列处理单元202还用于根据相似度确定与第二待填补序列相似度最高的至少一个候选序列；

缺失值填补单元204，用于根据候选序列对应的第一历史序列中与第一待填补序列中缺失值相同位置的序列值填补缺失值。

针对序列处理单元202的执行过程，可参见上述本发明公开前述各实施例记载的求解新序列和确定候选序列的过程，这里不再赘述。

针对相似度计算单元203的执行过程，可参见上述本发明公开前述各实施例记载的求解多维度相似度的过程，这里不再赘述。

随着电网的智能化和绿色化，本申请实施例提供的风电场出力数据缺失值填补方法可应用于缺失值填补设备，填补设备可以是集成式的控制端或总控平台，也可以是集成有诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质等软件模块的控制电脑。

图3示出了风电场出力数据缺失值填补设备的硬件结构框图，参照图3，该设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：实现前述各实施例记载的风电场出力数据缺失值填补流程。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种风电场出力数据缺失值填补方法，其特征在于，包括：

获取长度相等的第一待填补序列和第一历史序列；

取所述第一待填补序列中的非缺失序列值构成第二待填补序列，根据所述非缺失序列值的位置在所述第一历史序列选择相同位置的序列值构成第二历史序列；

计算所述第二待填补序列和第二历史序列的相似度；

利用所述候选序列对应的第一历史序列中与第一待填补序列中缺失值相同位置的序列值填补所述缺失值。

2.根据权利要求1所述的风电场出力数据缺失值填补方法，其特征在于，所述计算第二待填补序列和第二历史序列的相似度包括：

利用DTW算法计算第一相似度；

根据所述第一相似度和第二相似度计算两个序列的第三相似度。

3.根据权利要求2所述的风电场出力数据缺失值填补方法，其特征在于，所述第三相似度的求解如下：

4.根据权利要求2所述的风电场出力数据缺失值填补方法，其特征在于，所述方法还包括：

对所述第一相似度和第二相似度归一化处理。

5.根据权利要求4所述的风电场出力数据缺失值填补方法，其特征在于，对所述第一相似度的归一化处理如下：

第一相似度阈值。

6.根据权利要求4所述的风电场出力数据缺失值填补方法，其特征在于，对所述第二相似度的归一化处理如下：

第二相似度阈值。

7.根据权利要求2所述的风电场出力数据缺失值填补方法，其特征在于，所述根据第二待填补序列和第二历史序列的特征点求解两个序列的第二相似度包括：

计算所述两个夹角序列的相似度。

8.根据权利要求2所述的风电场出力数据缺失值填补方法，其特征在于，所述特征点包括序列的极值点x_l，所述极值点x_l满足以下条件：

极值点x_l的相邻极值点x_l-1和x_l+1满足

或

C表示设定值。

9.根据权利要求1所述的风电场出力数据缺失值填补方法，其特征在于，有至少两个候选序列时，根据所述候选序列对应的第一历史序列中与第一待填补序列中缺失值相同位置的序列值填补所述缺失值，包括：

计算至少两个第一历史序列与第一待填补序列中缺失值相同位置的序列值的均值，所述均值用于填补所述第一待填补序列的缺失值。

10.一种风电场出力数据缺失值填补系统，其特征在于，包括：

序列处理单元，用于取所述第一待填补序列中的非缺失序列值构成第二待填补序列，根据所述非缺失序列值的位置在第一历史序列选择相同位置的序列值构成第二历史序列；

相似度计算单元，用于计算所述第二待填补序列和第二历史序列的相似度；

所述序列处理单元还用于根据所述相似度确定与第二待填补序列相似度最高的至少一个候选序列；

缺失值填补单元，用于根据所述候选序列对应的第一历史序列中与第一待填补序列中缺失值相同位置的序列值填补所述缺失值。