CN109726503B

CN109726503B - 缺失数据填补方法及装置

Info

Publication number: CN109726503B
Application number: CN201910029581.4A
Authority: CN
Inventors: 褚景春; 袁凌; 于天笑; 胡阳; 奚芸华; 丁亮
Original assignee: Guodian United Power Technology Co Ltd; North China Electric Power University
Current assignee: Guodian United Power Technology Co Ltd; North China Electric Power University
Priority date: 2019-01-12
Filing date: 2019-01-12
Publication date: 2020-12-18
Anticipated expiration: 2039-01-12
Also published as: CN109726503A

Abstract

本发明提供了一种缺失数据填补方法及装置，涉及数据处理的技术领域，该方法包括：获取待填补的风场运行数据；提取风场运行数据中的采样时间，建立待填补的风场运行数据的时间序列；基于时间序列，将待填补的风场运行数据划分成多个离散化状态；判断任意相邻的两个离散化状态的时间间隔是否大于预先设置的间隔阈值；如果是，按照预先建立的插值模型计算时间间隔内的填补值，以对待填补的风场运行数据的缺失数据进行填补。本发明提供的缺失数据填补方法及装置，能够对待填补的风场运行数据的缺失数据进行填补，不仅缓解了风场运行数据的缺失问题，同时，也有效提高了可用的有效数据的数据量。

Description

缺失数据填补方法及装置

技术领域

本发明涉及数据处理的技术领域，尤其是涉及一种缺失数据填补方法及装置。

背景技术

现代大型风电场是一个广域地理分布系统，大量风机暴露于恶劣的自然环境下，直接受到阵风、强湍流、极端天气等随机性因素影响，可视为风力发电数据采集与监视系统，即SCADA(Supervisory Control And Data Acquisition，数据采集与监视控制系统)系统数据的一个不可控外部干扰源，可能诱发并生成异常数据。

此外，大量风机通过远距离光纤、专用无线网络等与风电场或场群级中央集控室进行信息通讯；同时，现代风机、风电场存在若干基于分布式无线传输设备的信息采集系统；以上因素使得现有SCADA系统存在通信噪声干扰或偶发性的数据记录缺失，进而生成异常点。

从生产角度而言，现代大型风机均具有变速变桨等多自由度控制能力，由此引发不同运行控制策略跟随风速而切换，势必生成若干稀疏型异常数据点。此外，大量弃风限电现象的发生，使得风机、风电场生产了大量堆积型异常数据，这些数据点对应风电出力的限电工况，不能反映风电的最大出力工况，因而被视为异常数据。

基于历史数据，无论是进行风电出力特性分析，还是进行风功率预测，所用风速、功率数据至少需要满足两点要求：第一、数据样本有效数据占比较高并满足要求；第二、风电功率数据应当为相应风速下的最大出力工况。

为了满足以上要求，需要针对原始风速、功率数据进行合理的数据清洗，而清洗后势必存在大量的功率数据缺失问题。尤其是当由弃风限电引发的大量堆积型异常数据被清洗剔除后，将出现大量连续数据缺失的情况，并导致可用的有效数据量大大减少。

发明内容

有鉴于此，本发明的目的在于提供一种缺失数据填补方法及装置，以缓解上述可用的有效数据量减少的技术问题。

第一方面，本发明实施例提供了一种缺失数据填补方法，包括：获取待填补的风场运行数据，其中，风场运行数据包括清洗之后的风电功率数据；提取风场运行数据中的采样时间，建立待填补的风场运行数据的时间序列；基于时间序列，将待填补的风场运行数据划分成多个离散化状态；判断任意相邻的两个离散化状态的时间间隔是否大于预先设置的间隔阈值；如果是，按照预先建立的插值模型计算时间间隔内的填补值，以对待填补的风场运行数据的缺失数据进行填补。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述插值模型为双向马尔可夫链插值-回归加权模型；按照预先建立的插值模型计算时间间隔内的填补值的步骤包括：获取多个离散化状态，按照时间序列建立前向马尔可夫链和后向马尔可夫链；根据前向马尔可夫链计算时间间隔内的前向离散状态值，以及，根据后向马尔可夫链计算时间间隔内的后向离散状态值；基于前向离散状态值和后向离散状态值计算时间点对应的前向功率实际值和后向功率实际值；提取双向马尔可夫链插值-回归加权模型中的加权函数，对前向功率实际值和后向功率实际值进行加权，输出时间间隔内的填补值。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述基于时间序列，将待填补的风场运行数据划分成多个离散化状态的步骤包括：按照预先设定的时间间隔对待填补的风场运行数据进行划分，得到多个待填补的风场运行数据的离散化状态。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述方法还包括：获取预先建立的数据样本库，其中，数据样本库为指定时间段内风速和风电功率数据的样本库；提取数据样本库中的风电功率数据，建立数据样本库的前向正序时间序列和后向逆序时间序列；根据样本库包含的样本数量和预先设置的插值精度，选择指定的马尔可夫链阶数，以统计前向马尔可夫状态转移矩阵和后向马尔可夫状态转移矩阵，建立前向马尔可夫链和后向马尔可夫链；采用马尔可夫链滚动插值机制对建立的前向马尔可夫链和后向马尔可夫链进行训练。

结合第一方面的第三种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述回归加权模型为基于核极限学习机神经网络的回归加权模型，上述方法还包括：选取数据样本库中指定数量的训练数据和测试数据，对核极限学习机神经网络进行训练。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第五种可能的实施方式，其中，上述方法还包括：计算填补值的评价指标，其中，评价指标为填补值的误差值，误差值包括平均绝对误差和/或均方根误差；判断误差值是否满足预先设置的误差阈值；如果否，对双向马尔可夫链插值-回归加权模型的设定参数进行优化，其中，设定参数包括：时间间隔、马尔可夫链阶数、随机噪声幅值、样本数量和采样时间。

结合第一方面的第五种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，上述方法还包括：基于数据样本库，随机抽取指定数量的验证数据样本；根据双向马尔可夫链插值-回归加权模型的精度，以及随机抽取的验证数据样本的数据量对双向马尔可夫链插值-回归加权模型进行交叉验证；或者，根据评价指标对双向马尔可夫链插值-回归加权模型进行交叉验证。

结合第一方面的第五种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，上述方法还包括：采用时间驱动更新机制和/或事件驱动更新机制对数据样本库进行更新；其中，时间驱动更新机制为以预先设置的时间宽度为间隔，定期对数据样本库进行更新的机制；事件驱动更新机制为当评价指标的持续增量大于预设增量阈值时，触发的对数据样本库进行更新的机制。

第二方面，本发明实施例还提供一种缺失数据填补装置，包括：获取模块，用于获取待填补的风场运行数据，其中，风场运行数据包括清洗之后的风电功率数据；提取模块，用于提取风场运行数据中的采样时间，建立待填补的风场运行数据的时间序列；划分模块，用于基于时间序列，将待填补的风场运行数据划分成多个离散化状态；判断模块，用于判断任意相邻的两个离散化状态的时间间隔是否大于预先设置的间隔阈值；填补模块，用于当判断模块的判断结果为是时，按照预先建立的插值模型计算时间间隔内的填补值，以对待填补的风场运行数据的缺失数据进行填补。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述插值模型为双向马尔可夫链插值-回归加权模型；上述填补模块用于：获取多个离散化状态，按照时间序列建立前向马尔可夫链和后向马尔可夫链；根据前向马尔可夫链计算时间间隔内的前向离散状态值，以及，根据后向马尔可夫链计算时间间隔内的后向离散状态值；基于前向离散状态值和后向离散状态值计算时间点对应的前向功率实际值和后向功率实际值；提取双向马尔可夫链插值-回归加权模型中的加权函数，对前向功率实际值和后向功率实际值进行加权，输出时间间隔内的填补值。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种缺失数据填补方法及装置，能够根据风场运行数据的采样时间建立待填补的风场运行数据的时间序列，进而基于该时间序列将待填补的风场运行数据划分成多个离散化状态，并在任意相邻的两个离散化状态的时间间隔大于预先设置的间隔阈值时按照预先建立的插值模型计算时间间隔内的填补值，以对待填补的风场运行数据的缺失数据进行填补，不仅缓解了风场运行数据的缺失问题，同时，也有效提高了可用的有效数据的数据量。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种缺失数据填补方法的流程图；

图2为本发明实施例提供的一种风速-输出功率散点图；

图3为本发明实施例提供的一种建模执行流程示意图；

图4为本发明实施例提供的一种频次分布示意图；

图5为本发明实施例提供的一种缺失数据填补装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，针对原始风速、功率数据进行合理的数据清洗后，势必存在大量的功率数据缺失问题，导致可用的有效数据量大大减少。为了提高可用于分析处理的有效数据量，需要对缺失数据进行填补。当存在大量数据点连续缺失时，现有的插值、回归等方法，即使通过迭代滚动，同样会产生较大的累积误差。此外，插值(如牛顿插值、拉格朗日插值和三次样条插值等)、回归(如参数回归(含线性回归、多项式回归等)、非参数回归(含神经网络、支持向量机、高斯过程回归、随机森林、深度学习神经网络等)等方法大多需要基于连续时间序列进行训练、建模，而清洗后的数据大多为片段型不连续数据段，限制了插值、回归方法的应用潜力。

其它概率统计方法，诸如马尔科夫建模、概率拟合等，能够脱离对时间序列的时间连续性要求，在一定程度描述数据的宏观统计情况；然而，其插值效果同样局限于少量缺失点且仅能针对具体数据有效，难以应对大量数据连续缺失的情况并缺乏泛化能力。因而，针对上述问题，需要研究能够充分利用片段型不连续数据段、能够有效降低大量数据点连续缺失时数据填补误差的方法，以增强缺失数据填补性能，应对不同的运行数据预处理场合，进而大力提高有效数据的数量和质量。

基于此，本发明实施例提供的一种缺失数据填补方法及装置，可以有效对大量数据点连续缺失时的数据进行填补，以提高有效数据的数据量。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种缺失数据填补方法进行详细介绍。

实施例一：

本发明实施例提供了一种缺失数据填补方法，如图1所示的一种缺失数据填补方法的流程图，该方法包括以下步骤：

步骤S102，获取待填补的风场运行数据；

其中，上述风场运行数据包括清洗之后的风电功率数据；

在实际使用时根据现有电力系统的运行情况，限功率调度是并网风电的多发情形，这造成风电场SCADA系统的数据记录中包含大量限功率运行数据。这些限功率运行数据通常被视为异常数据，并被大量剔除；同时，与其它稀疏型异常数据剔除后的效果叠加，形成了大量片段不连续数据段及大量缺失数据段，这项大量缺失数据段通常可以视为本发明实施例中的待填补的风场运行数据。

步骤S104，提取上述风场运行数据中的采样时间，建立待填补的风场运行数据的时间序列；

具体地，由于风场运行数据是在风电场运行过程中采集的风速和功率等数据，因此，通常风场运行数据都具有一定的实效性，因此，对于每个风场运行数据，通常都对应关联有其对应的采样时间，以便于探索风电场生产运行的规律。

步骤S106，基于时间序列，将待填补的风场运行数据划分成多个离散化状态；

具体地，可以按照预先设定的时间间隔对上述待填补的风场运行数据进行划分，得到多个待填补的风场运行数据的离散化状态。

因此，该离散化状态通常都是某一时刻的状态。

步骤S108，判断任意相邻的两个离散化状态的时间间隔是否大于预先设置的间隔阈值；

步骤S110，如果是，按照预先建立的插值模型计算时间间隔内的填补值，以对待填补的风场运行数据的缺失数据进行填补。

在实际使用时，对于风电场生产运行的规律进行分析的模型或者算法通常都具有一定的泛化能力，因此，对于少量数据的缺失，并不影响分析的过程，但是如果缺失的数据较多，导致有效数据较为稀疏，或者形成了大量片段不连续数据段及大量缺失数据段时，就会大大降低了有效数据量，而缺失的数据，相当于在该时间点上没有有效的数据，导致两个相邻的有效数据之间的时间间隔较大，因此，在进行数据填补时，可以采取对时间间隔判断的方式来对缺失数据进行填补。

本发明实施例提供的一种缺失数据填补方法，能够根据风场运行数据的采样时间建立待填补的风场运行数据的时间序列，进而基于该时间序列将待填补的风场运行数据划分成多个离散化状态，并在任意相邻的两个离散化状态的时间间隔大于预先设置的间隔阈值时按照预先建立的插值模型计算时间间隔内的填补值，以对待填补的风场运行数据的缺失数据进行填补，不仅缓解了风场运行数据的缺失问题，同时，也有效提高了可用的有效数据的数据量。

在实际使用时，上述插值模型为双向马尔可夫链插值-回归加权模型；具体地，可以包括双向马尔可夫链插值模型和回归加权模型，其中，双向马尔可夫链插值模型为基于马尔可夫链的模型。

马尔可夫链以转移概率的方式对时间序列的跳转特性进行表征。由于马尔可夫链的无后效性，那么某一时间点的数值仅与该时间点前一时刻或某些时刻的数值有关，即前向马尔可夫链，而与其它历史数据无关。因而，如果设定马尔可夫链模型的阶数，则马尔可夫链可只关注时间序列若干相邻时刻的片段信息，能够良好适应数据清洗后剩余的片段型不连续数据段；同时，还可以根据时间序列的逆序列构建马尔可夫链，即后向马尔可夫链。

针对大量数据连续缺失，可对前向和后向马尔可夫链输出值进行合理加权，将大为降低大量数据点连续缺失时中间数据的累积填补误差。考虑到对不同数据的泛化能力及建模的易操作性，可选择合适的回归模型对双向马尔可夫链的输出进行加权。

因此，本发明实施例中的双向马尔可夫链插值-回归加权模型可以表示为：填补值＝回归加权模型(前向马尔可夫链输出值，后向马尔可夫链输出值)。其中，回归加权模型是对常见的线性权重加权结构的一种非线性化和泛化，可代表任意回归模型结构。回归模型的输入为二维，分别是前向、后向马尔可夫链输出值；回归模型的输出为一维，为填补数据。

因此，基于上述双向马尔可夫链插值-回归加权模型，上述步骤S110中计算填补值的步骤可以包括以下过程：

(1)获取多个上述离散化状态，按照时间序列建立前向马尔可夫链和后向马尔可夫链；

(2)根据前向马尔可夫链计算时间间隔内的前向离散状态值，以及，根据后向马尔可夫链计算时间间隔内的后向离散状态值；

(3)基于上述前向离散状态值和后向离散状态值计算时间点对应的前向功率实际值和后向功率实际值；

(4)提取双向马尔可夫链插值-回归加权模型中的加权函数，对前向功率实际值和后向功率实际值进行加权，输出时间间隔内的填补值。

为了便于理解，以上述待填补的风场运行数据为某风电场的SCADA运行数据为例，选取某型1.5兆瓦变速变桨双馈感应发电机组的实测运行数据进行缺失数据填补分析进行说明：

基于清洗后的时间序列，以间隔I进行划分，得到输出功率的离散化状态。根据时间序列顺序，建立的前向马尔可夫链可以表示为：

M_前向(P_k|P_k-1,P_k-2,...，P₀)＝M_前向(P_k|P_k-1,P_k-2,...，P_k-N) (1)

其中，P_k为k时刻的离散化状态；N为马尔可夫链的阶数；0、1、2…k…inf为前向时间序列号。

同理，后向马尔可夫链可以表示为：

M_后向(P_k|P_k+1,P_k+2,...，P_inf)＝M_后向(P_k|P_k+1,P_k+2,...，P_k+N) (2)

其中，inf…k…2、1、0为后向时间序列号。

根据上述(1)和(2)式可以得到基于前向、后向马尔可夫链恢复的前向离散状态值P_k ^前向和后向离散状态值P_k ^后向，但后基于该前向离散状态值和后向离散状态值并使用随机数生成器，得到基于第m个离散状态值恢复的功率实际值，表示为：

其中，

P_m ^low分别为第m个离散状态指所对应的上下界；κ_m为均匀分布在[0，1]上的随机数的幅值增益。基于(3)分别得到(1)、(2)恢复后的实际值，然后在根据双向马尔可夫链插值-回归加权模型中的加权函数进行加权，得到填补值，表示为：

其中，f(*)为回归加权模型中的加权函数，以上定义了通用的基于双向马尔可夫链插值-回归加权模型的连续缺失数据填补模型架构。

在实际使用时，上述基于双向马尔可夫链插值-回归加权模型进行数据填补的架构，能够适应片段型不连续数据段，并降低大量数据连续缺失时中间数据填补的误差。

考虑到上述架构中包含两种建模结构，即双向马尔可夫链结构和回归模型结构，由于其建模原理不同，因而，需要制定特殊的训练方法。因此，上述方法还包括对双向马尔可夫链插值-回归加权模型的训练过程，具体地，可以包括以下步骤：

(1)获取预先建立的数据样本库，其中，该数据样本库为指定时间段内风速和风电功率数据的样本库；

(2)提取该数据样本库中的风电功率数据，建立数据样本库的前向正序时间序列和后向逆序时间序列；

具体地，可以针对正常的风速、功率数据，综合考虑数据总量和时间周期，建立一定时间段下的风速、功率数据样本库。然后，采用数据样本库中的功率数据，分别生成前向正序时间序列、后向逆序时间序列。

(3)根据上述样本库包含的样本数量和预先设置的插值精度，选择指定的马尔可夫链阶数，以统计前向马尔可夫状态转移矩阵和后向马尔可夫状态转移矩阵，建立前向马尔可夫链和后向马尔可夫链；

(4)采用马尔可夫链滚动插值机制对建立的前向马尔可夫链和后向马尔可夫链进行训练。

在实际使用时，上述(3)和(4)的过程，可以综合考虑样本库的数据量和插值精度，选择合理的马尔可夫链阶数、离散状态划分间隔等，统计状态转移概率矩阵，进而建立前向、后向马尔可夫链，并选择离散状态至连续数值的数据恢复方法，完整构建前向、后向马尔可夫链插值通路。

其次，考虑大量连续数据填补的应用需求，还可以继续验证不同连续数据缺失量下前向、后向马尔可夫链的插值精度，保证最终结果满足一定要求。

具体地，以选取风速、功率测量数据的采样周期为10分钟/点，示例数据为2017年1月至4月的实测数据为例进行说明，此时，总样本量大于6000。图2为清洗前后的风速-输出功率散点图。可以看出，大量堆积型异常点被剔除，清洗前后样本总量分别为8558、6382，清洗比例为25.43％。

以上述数据样本库为例，设定I＝10作为离散化状态的时间间隔，在[0,1600]范围内得到160个功率离散状态，选择二阶马尔可夫链建模，分别统计前向、后向马尔可夫状态转移矩阵，建立前向、后向马尔可夫链。设定前述(3)中的随机数增益为1，进行前后向马尔可夫链插值恢复，经校验后平均模型精度达到0.25要求。设定数据缺失尺度为30，分别采用前向、后向马尔可夫链进行滚动插值。以上主要完成了双向马尔可夫链插值执行通路。

进一步，上述回归加权模型为基于核极限学习机神经网络的回归加权模型，因此，上述方法还包括：选取数据样本库中指定数量的训练数据和测试数据，对核极限学习机神经网络进行训练。

在实际使用时，选用核极限学习机神经网络作为加权回归模型的方式可以有效保证建模效率。具体实现时，上述核极限学习机的输出表达式可以表示为：

f_KELM＝K(x)β(C,Ω) (5)

其中，x为输入数据，K(x)为激活函数，β为权重系数，惩罚系数C和核矩阵Ω为设定参数。

基于上述训练方式，针对连续数据缺失段，其前一个马尔可夫插值结果将作为下一个马尔可夫插值的输入值，从而形成马尔可夫链滚动插值机制。在连续数据缺失段的同一位置，将分别得到前向、后向马尔可夫链滚动插值后的结果，在此基础上，将同一位置的前向、后向插值结果作为输入，实测数据作为输出，通过若干组连续数据缺失段形成一定量样本，进行回归建模训练。

其中，图3示出了一种建模执行流程示意图，具体地，为前向、后向马尔可夫链与核极限学习机神经网络模型的连接关系及建模执行流程示意图。为了便于说明，图3中仅仅示出了前向马尔可夫链、后向马尔可夫链和回归加权模型，以及后续的填补精度评价指标和智能优化的过程。

具体地，图3所示的填补精度评价指标和智能优化的过程指的是对上述双向马尔可夫链插值-回归加权模型的设定参数进行优化的过程。在实际使用时，为了提高建模效率和建模精度，需要对上述模型结构中的设定参数进行自动快速寻优。

具体优化过程可以包括：计算填补值的评价指标，其中，评价指标为填补值的误差值，误差值包括平均绝对误差和/或均方根误差；判断误差值是否满足预先设置的误差阈值；如果否，对双向马尔可夫链插值-回归加权模型的设定参数进行优化，其中，上述设定参数包括：时间间隔、马尔可夫链阶数、随机噪声幅值、样本数量和采样时间。

在实际使用时，需要结合双向马尔可夫链插值-回归加权模型训练过程中所涉及的设定参数制定相应的建模性能评价指标，完善约束条件，形成优化建模问题描述。对于马尔可夫链建模而言，主要设定参数有离散状态划分间隔、马尔可夫链阶数、离散值恢复为连续值时所采用的随机噪声幅值、样本数量、采样时间等。对于回归加权模型训练而言，设定参数主要与所采用的算法有关。对于插值结果的评价，主要采用基于填补数据误差统计所得的平均绝对误差、均方根误差等。由于马尔可夫链统计建模与回归加权建模为前后两个阶段，因此，对于模型结构的优化，既可以采用整体法直接优化，也可以分步优化。整体优化，是指将所有参数同时纳入优化过程，并对输出结果进行评价和优化。分步优化，是指对马尔可夫链模型(双向马尔可夫链插值对应的模型)、回归加权模型进行顺次评价和优化。考虑前后两种模型的异构性和对建模误差的可控性，分步优化具有更好的直观性和可操作性。

此外，马尔可夫链模型是基于样本的宏观统计情况得到，与样本量、采样时间关系较大，而离散化状态划分的时间间隔、马尔可夫链阶数、随机噪声幅值等具有较小的可变自由度，即输出对这些参数变化敏感度较小，通过试凑等经验法也可快速确定。因而，在满足精度要求的前提下，不强制要求对马尔可夫链建模进行参数寻优。除非对输出进行最优逼近或精细化寻优，可将其纳入全局优化过程。整体模型建立过程中，主要对回归模型参数进行优化，具体寻优过程由所采用的算法而定。优化算法主要采用遗传算法、差分进化算法、粒子群算法等具有全局寻优能力的智能进化优化算法，具体可以根据实际情况进行设置，本发明实施例对此不进行限制。

进一步，为了防止回归加权模型过拟合等问题，保障上述双向马尔可夫链插值-回归加权模型的稳定性及对未来新数据的有效性，需要采用与训练的历史数据独立的新的数据集对所建模型进行校验，以确定具有良好泛化能力的最终模型，确保所训练模型在新的数据集上依然能够满足要求。因此，本发明实施例所述的方法还包括：基于上述数据样本库，随机抽取指定数量的验证数据样本；根据双向马尔可夫链插值-回归加权模型的精度，以及随机抽取的验证数据样本的数据量对双向马尔可夫链插值-回归加权模型进行交叉验证；或者，根据评价指标对双向马尔可夫链插值-回归加权模型进行交叉验证。

具体地，根据新数据集形成方式的不同，常用的验证方法有简单交叉验证、k折交叉验证、留一法交叉验证等。根据建模精度的要求和数据量等，可以选用不同的交叉验证方法。针对回归加权模型的评价指标，需要注意的是，具体评价指标为被填补数据的误差统计，如平均绝对误差、均方根误差、相对误差中位数等。其中，基于误差计算的评价指标通常是非鲁棒的，如果回归加权模型对某个点的回归值偏差较大，那么会对评价指标影响较大，其高敏感性易于捕捉偏差较大的回归值变化情况。基于误差中位数的评价指标是鲁棒的，稀疏型大偏差值对评价指标影响不大，其不敏感性适用于实际数据中存在较多异常值的场合。可根据不同情况选用不同的评价指标类型，本发明实施例对此不进行限制。

其中，以k折交叉验证法进行验证为例，可以从独立数据集中随机抽取6000个样本，并随机分为200组，也即k＝200；任意选取199组进行建模，剩下的1组作为测试，重复进行200次。同样采用均方根误差进行填补精度评价，获得200组测试均方根误差，其频次分布如图4所示。通过频次统计和核密度估计可知，在置信度为0.9时，误差上下分位点分别为0、0.3616，200组均方根误差的中位值为0.12，均值为0.1966。通过k折交叉验证可知该方法的精度分布具有较高的置信水平，且均方误差总体较小，满足精度要求。同时，考虑到极限学习机并非最好的回归加权算法，通过改进回归加权算法，可以继续提升数据填补精度水平。

此外，考虑到双向马尔可夫链插值-回归加权模型，虽然其对新数据集具有一定泛化能力，但是受制于训练样本和校验样本的规模，随着数据样本的不断增加，前述模型的时效性日益明显。对风力发电过程而言，复杂天气因素、风机内部运行条件等随时间而不断变化，使得运行数据中蕴含的动态信息也不断变化，故基于历史数据构建的双向马尔可夫链插值-回归加权模型将逐渐不能够准确表征更新后的数据信息。因而，需要采用合理的模型更新机制，在适当时机进行高效的模型更新。

因此，本发明实施例提供的缺失数据填补方法还包括对数据样本库进行更新的过程，具体地，可以采用时间驱动更新机制和/或事件驱动更新机制对数据样本库进行更新；其中，时间驱动更新机制为以预先设置的时间宽度为间隔，定期对数据样本库进行更新的机制；事件驱动更新机制为当评价指标的持续增量大于预设增量阈值时，触发的对数据样本库进行更新的机制。

在实际使用时，考虑到实际物理过程变化的连续性，时间驱动的定期更新法，即时间驱动更新机制，是一种常用的模型更新方式，即采用滑动时间窗法，以时间窗宽为间隔增量更新数据库，补充对应窗宽下的新数据并去除旧数据，在此基础上重新训练、优化和校验数据填补模型，确定最适合表征当前数据蕴含特性的双向马尔可夫链插值-回归加权模型。除了定期更新，实际还可能受突发事件影响，原有模型还未等到下一个更新时间点，其时效性已无法满足插值精度要求。此种情形对应的更新机制称为事件驱动更新机制。在执行时，可监控划定时间间隔下数据填补模型填补评价指标的变化趋势对事件触发点进行判定，当偏差均值或中位数持续性增加并大于规定阈值时，可认为触发事件驱动机制并进行模型更新。综合以上两种更新机制，在实际使用时，通常采用时间驱动更新机制和事件驱动更新机制，即时间-事件驱动混合更新机制，保证数据填补模型的精度和时效性。

例如，可以选定滑动时间窗为4个月。按单月滚动向前增量更新数据库，并定期更新双向马尔可夫链插值-回归加权模型。例如，随机选取100组连续缺失30点的数据段，进行均方根误差趋势及均值评定。当其趋势值无持续大于20％且均值低于20％时，直到定期更新时间节点，进行定期时间更新，否则，当其趋势值无持续小于20％且均值大于20％时，则触发事件驱动更新机制，强制进行模型更新。

综上，本发明实施例提供的缺失数据填补方法具有以下有益效果：

(1)本发明实施例提供的缺失数据填补方法，针对风电场SCADA系统实测数据中稀疏型与堆积型异常点经清洗后产生的大量数据连续缺失和片段型剩余数据问题，提出了一种双向马尔可夫链插值-回归加权模型进行大量连续缺失数据的填补，以降低缺失数据段中部的填补误差。该数据填补模型结构能够有效利用数据清洗后产生的片段型不连续数据段和较少的剩余数据量，合理降低大量连续缺失数据填补时的累积误差，对多变的数据条件有较高的填补精度和良好的泛化能力。

(2)双向马尔可夫链插值-回归加权模型训练方法的提出，明确了该数据填补方法的获取途径，可有效指导不同连续数据缺失量下的模型训练执行方法，有助于针对清洗后历史数据中不连续段的分布情况快速制定建模方案。如针对不连续数据段的分布，可根据缺失数据量从小到大分布的累积频次确定缺失数据段训练尺度。

(3)双向马尔可夫链插值-回归加权模型性能评价及优化的提出，通过定义合理的评价指标和优化问题描述，可自动、高效地实现数据填补模型的建立，既能提高建模效率，又能保证建模精度，避免了可能的人为失误或耗时等情况。

(4)双向马尔可夫链插值-回归加权模型交叉验证方法的提出，可通过新数据集校验基于历史数据建立的数据填补模型，保证该模型面对其它独立数据集时具有良好的泛化能力以获得满足精度要求的数据填补效果。

(5)双向马尔可夫链插值-回归加权模型的增量更新机制，充分考虑了实际环境中多发因素影响下系统动态特性的变化，采用时间-事件驱动混合更新机制，采用样本数据库增量更新法，及时训练和更新双向马尔可夫链插值-回归加权模型，保障了模型的时效性，进而提高了应用时模型的可靠性和数据填补精度。

实施例二：

在上述实施例的基础上，本发明实施例还提供了一种缺失数据填补装置，如图5所示的一种缺失数据填补装置的结构示意图，该装置包括：

获取模块50，用于获取待填补的风场运行数据，其中，风场运行数据包括清洗之后的风电功率数据；

提取模块52，用于提取风场运行数据中的采样时间，建立待填补的风场运行数据的时间序列；

划分模块54，用于基于时间序列，将待填补的风场运行数据划分成多个离散化状态；

判断模块56，用于判断任意相邻的两个离散化状态的时间间隔是否大于预先设置的间隔阈值；

填补模块58，用于当判断模块的判断结果为是时，按照预先建立的插值模型计算时间间隔内的填补值，以对待填补的风场运行数据的缺失数据进行填补。

进一步，上述插值模型为双向马尔可夫链插值-回归加权模型；因此，上述填补模块用于：

获取多个离散化状态，按照时间序列建立前向马尔可夫链和后向马尔可夫链；根据前向马尔可夫链计算时间间隔内的前向离散状态值，以及，根据后向马尔可夫链计算时间间隔内的后向离散状态值；基于前向离散状态值和后向离散状态值计算时间点对应的前向功率实际值和后向功率实际值；提取双向马尔可夫链插值-回归加权模型中的加权函数，对前向功率实际值和后向功率实际值进行加权，输出时间间隔内的填补值。

本发明实施例提供的缺失数据填补装置，与上述实施例提供的缺失数据填补方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本发明实施例所提供的缺失数据填补方法及装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种缺失数据填补方法，其特征在于，包括：

获取待填补的风场运行数据，其中，所述风场运行数据包括清洗之后的风电功率数据；

提取所述风场运行数据中的采样时间，建立所述待填补的风场运行数据的时间序列；

基于所述时间序列，将所述待填补的风场运行数据划分成多个离散化状态；

判断任意相邻的两个所述离散化状态的时间间隔是否大于预先设置的间隔阈值；

如果是，按照预先建立的插值模型计算所述时间间隔内的填补值，以对所述待填补的风场运行数据的缺失数据进行填补；

其中，所述插值模型为双向马尔可夫链插值-回归加权模型；所述按照预先建立的插值模型计算所述时间间隔内的填补值的步骤包括：

获取多个所述离散化状态，按照所述时间序列建立前向马尔可夫链和后向马尔可夫链；

根据所述前向马尔可夫链计算所述时间间隔内的前向离散状态值，以及，根据所述后向马尔可夫链计算所述时间间隔内的后向离散状态值；

基于所述前向离散状态值和所述后向离散状态值计算所述时间间隔对应的前向功率实际值和后向功率实际值；

提取所述双向马尔可夫链插值-回归加权模型中的加权函数，对所述前向功率实际值和所述后向功率实际值进行加权，输出所述时间间隔内的填补值。

2.根据权利要求1所述的方法，其特征在于，基于所述时间序列，将所述待填补的风场运行数据划分成多个离散化状态的步骤包括：

按照预先设定的时间间隔对所述待填补的风场运行数据进行划分，得到多个所述待填补的风场运行数据的离散化状态。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取预先建立的数据样本库，其中，所述数据样本库为指定时间段内风速和风电功率数据的样本库；

提取所述数据样本库中的风电功率数据，建立所述数据样本库的前向正序时间序列和后向逆序时间序列；

根据所述样本库包含的样本数量和预先设置的插值精度，选择指定的马尔可夫链阶数，以统计前向马尔可夫状态转移矩阵和后向马尔可夫状态转移矩阵，建立所述前向马尔可夫链和所述后向马尔可夫链；

采用马尔可夫链滚动插值机制对建立的所述前向马尔可夫链和所述后向马尔可夫链进行训练。

4.根据权利要求3所述的方法，其特征在于，所述回归加权模型为基于核极限学习机神经网络的回归加权模型，所述方法还包括：

选取所述数据样本库中指定数量的训练数据和测试数据，对所述核极限学习机神经网络进行训练。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

计算所述填补值的评价指标，其中，所述评价指标为所述填补值的误差值，所述误差值包括平均绝对误差和/或均方根误差；

判断所述误差值是否满足预先设置的误差阈值；

如果否，对所述双向马尔可夫链插值-回归加权模型的设定参数进行优化，其中，所述设定参数包括：所述时间间隔、所述马尔可夫链阶数、随机噪声幅值、样本数量和采样时间。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

基于所述数据样本库，随机抽取指定数量的验证数据样本；

根据所述双向马尔可夫链插值-回归加权模型的精度，以及随机抽取的所述验证数据样本的数据量对所述双向马尔可夫链插值-回归加权模型进行交叉验证；或者，

根据所述评价指标对所述双向马尔可夫链插值-回归加权模型进行交叉验证。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

采用时间驱动更新机制和/或事件驱动更新机制对所述数据样本库进行更新；

其中，所述时间驱动更新机制为以预先设置的时间宽度为间隔，定期对所述数据样本库进行更新的机制；

所述事件驱动更新机制为当所述评价指标的持续增量大于预设增量阈值时，触发的对所述数据样本库进行更新的机制。

8.一种缺失数据填补装置，其特征在于，包括：

获取模块，用于获取待填补的风场运行数据，其中，所述风场运行数据包括清洗之后的风电功率数据；

提取模块，用于提取所述风场运行数据中的采样时间，建立所述待填补的风场运行数据的时间序列；

划分模块，用于基于所述时间序列，将所述待填补的风场运行数据划分成多个离散化状态；

判断模块，用于判断任意相邻的两个所述离散化状态的时间间隔是否大于预先设置的间隔阈值；

填补模块，用于当所述判断模块的判断结果为是时，按照预先建立的插值模型计算所述时间间隔内的填补值，以对所述待填补的风场运行数据的缺失数据进行填补；

其中，所述插值模型为双向马尔可夫链插值-回归加权模型；所述填补模块用于：