CN116452369B

CN116452369B - 一种光伏电站实时数据补齐方法、装置及相关设备

Info

Publication number: CN116452369B
Application number: CN202310722813.0A
Authority: CN
Inventors: 张东晓; 陈云天; 蒋春碧; 赵辛; 李哲
Original assignee: Ningbo Dongli Digital Energy Technology Co ltd; Shenzhen Fenghe Digital Intelligence Technology Co ltd
Current assignee: Ningbo Dongli Digital Energy Technology Co ltd; Shenzhen Fenghe Digital Intelligence Technology Co ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-08-29
Anticipated expiration: 2043-06-19
Also published as: CN116452369A

Abstract

本申请公开了一种光伏电站实时数据补齐方法、装置及相关设备，该方法包括：获取光伏电站在当前观测点采集到的站点数据，并判断是否存在数据缺失；若是，利用历史站点数据构建特征数据，并将其输入至训练后的模型，得到当前观测点的预估数据；利用预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据；该模型被配置为具备对时间序列及单点数据进行特征提取的能力，为以第二观测点以前的站点数据所构建的特征数据作为输入特征，以第一观测点的站点数据作为标注训练得到的。本申请利用结合了线性关系与循环神经网络的模型来对光伏电站实时数据进行预估及补齐，一定程度上提高了数据补齐的精度。

Description

一种光伏电站实时数据补齐方法、装置及相关设备

技术领域

本申请涉及数据补齐技术领域，更具体地说，是涉及一种光伏电站实时数据补齐方法、装置及相关设备。

背景技术

太阳能作为清洁能源，在保护生态环境、延缓全球变暖、推进可持续发展等方面具有重要积极的意义。然而，太阳能发电具有间歇性和难以调度的特征，为降低其对电能质量及电力系统稳定运行的消极影响，需要对光伏电站的发电功率进行预测。随着机器学习算法在各行各业的广泛应用，机器学习算法也被应用于光伏发电功率的预测，通常地，基于天气预报、光伏电站功率、气象监测等数据，预测光伏电站的发电功率。由于采集器出现异常或者其他原因，气象监测数据会存在缺失的情况，而很多机器学习算法不能接受输入数据存在缺失值。因此，在将数据输入到机器学习模型之前，需要对数据中的缺失值进行补齐。

根据预测范围，光伏发电功率预测可以分为短期光伏发电功率预测和超短期光伏发电功率预测。其中，对于超短期光伏发电功率预测，以15分钟的时间分辨率及4小时的预测跨度为例，系统需要每15 分钟运行一次超短期预测模型，给出电站未来4 小时的发电功率。为保证输入到超短期预测模型的数据没有缺失值，需要对实时数流的缺失数据进行相关的处理。

现有的数据补齐方法中，会利用上一个时刻的观测值替代当前时刻缺失值，但是这一方法存在一个弊端，即没有利用数据在时间上的相关性。有些观测量是会随时间波动的，如果缺失数据的时间跨度范围较长，用上一个时刻的数值替代当前时刻的数值得到的数据会失真。例如光伏发电功率数据随时间会有波动，基本保持上升，然后再下降的趋势，如果用上一个时刻的数值替代当前时刻的数值，缺失数据的时间跨度范围较长的时候，得到数据就会是一条直线。

发明内容

有鉴于此，本申请提供了一种光伏电站实时数据补齐方法、装置及相关设备，以实现在数据补齐中降低数据失真。

为实现上述目的，本申请第一方面提供了一种光伏电站实时数据补齐方法，包括：

获取光伏电站在当前观测点采集到的站点数据，并判断所述站点数据是否存在数据缺失；

若是，利用历史站点数据构建特征数据，并将所述特征数据输入至训练后的模型，得到当前观测点的预估数据；

利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据；

所述模型被配置为具备对时间序列及单点数据进行特征提取的能力，所述模型为以第二观测点以前的站点数据所构建的特征数据作为输入特征，以第一观测点的站点数据作为标注训练得到的，所述第二观测点为所述第一观测点的前一个观测点。

优选地，所述站点数据包括多个数据项；所述利用历史站点数据构建特征数据的过程，包括：

获取第五观测点、第六观测点、第七观测点以及第一时间段的站点数据，所述第五观测点为当前观测点的前一个观测点，所述第六观测点为当前观测点前24小时的观测点，所述第七观测点为所述第六观测点的前一个观测点，所述第一时间段包括所述第五观测点以前的连续多个观测点；

针对每一数据项，基于所述第五观测点、所述第六观测点以及所述第七观测点的站点数据，确定所述数据项的单点数据；

基于所述第一时间段内各观测点的站点数据，生成时间序列数据；

将各数据项的单点数据和所述时间序列数据确定为特征数据。

优选地，所述第一时间段的时间长度为2小时，各相邻观测点之间的时间间隔为1分钟。

优选地，所述各数据项包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率；

所述针对每一数据项，基于所述第五观测点、所述第六观测点以及所述第七观测点的站点数据，确定所述数据项的单点数据的过程，包括：

利用下述方程式计算得到第i个数据项的单点数据：

；

其中，表示第i个数据项的单点数据，/>表示站点数据的第i个数据项在第五观测点的值，/>表示站点数据的第i个数据项在第六观测点的值，/>表示站点数据的第i个数据项在第七观测点的值，k为预设的系数。

优选地，所述基于所述第一时间段内各观测点的站点数据，生成时间序列数据的过程，包括：

针对每一数据项，利用站点数据的所述数据项在所述第一时间段内各观测点的数值，生成所述数据项的时间序列；

由各数据项的时间序列构成时间序列数据。

优选地，所述特征数据包括第一时间段内的时间序列数据和多个数据项的单点数据，各数据项用于表征光伏电站的气象状况和发电功率状况；

所述模型包括1个循环神经网络单元和多个全连接层；

将所述特征数据输入至训练后的模型，得到当前观测点的预估数据的过程，包括：

将所述时间序列数据输入至所述循环神经网络单元，所述循环神经网络单元对所述时间序列数据进行特征提取，并将提取到的特征输入至1个全连接层，得到所述时间序列的中间输出；

将每一数据项的单点数据分别输入至1个全连接层，得到所述数据项的中间输出；

将所述时间序列的中间输出和各数据项的中间输出合并后输入至1个全连接层，得到当前观测点的预估数据，所述预估数据包括各数据项的预估数值。

全连接层的个数为8；

所述将每一数据项的单点数据分别输入至1个全连接层，得到所述数据项的中间输出的过程，包括：

将空气湿度的单点数据输入至第二全连接层，所述第二全连接层对空气湿度的单点数据进行线性拟合，得到空气湿度的中间输出；

将空气温度的单点数据输入至第三全连接层，所述第三全连接层对空气温度的单点数据进行线性拟合，得到空气温度的中间输出；

将面板温度的单点数据输入至第四全连接层，所述第四全连接层对面板温度的单点数据进行线性拟合，得到面板温度的中间输出；

将水平辐照强度的单点数据输入至第五全连接层，所述第五全连接层对水平辐照强度的单点数据进行线性拟合，得到水平辐照强度的中间输出；

将垂直辐照强度的单点数据输入至第六全连接层，所述第六全连接层对垂直辐照强度的单点数据进行线性拟合，得到垂直辐照强度的中间输出；

将发电功率的单点数据输入至第七全连接层，所述第七全连接层对发电功率的单点数据进行线性拟合，得到发电功率的中间输出。

优选地，对应于每一数据项的单点数据的全连接层的神经元个数大于或等于1；

对应于循环神经网络单元的全连接层的神经元个数大于或等于数据项的个数；

对应于输出层的全连接层的神经元个数等于数据项的个数。

优选地，所述模型的训练过程，包括：

获取所述光伏电站的历史站点数据集，所述历史站点数据集包括各数据项在各历史观测点上的数值；

基于所述历史站点数据集，构建多份特征数据以及对应于每一份特征数据的标注，得到训练集和验证集；

确定模型的参数以及模型训练中的超参数；

利用所述训练集对模型进行训练，并基于模型在所述验证集中的表现，确定训练后的模型。

优选地，所述站点数据包括多个数据项；利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据的过程，包括：

确定当前观测点采集到的站点数据中存在数据缺失的目标数据项；

将所述预估数据中目标数据项的预估数值填补到当前观测点采集到的站点数据对应的数据项中，得到当前观测点完整的站点数据。

本申请第二方面提供了一种光伏电站实时数据补齐装置，包括：

数据获取单元，用于获取光伏电站在当前观测点采集到的站点数据，并判断所述站点数据是否存在数据缺失；

数据预估单元，用于当所述数据获取单元判断出所述站点数据存在数据缺失时，利用历史站点数据构建特征数据，并将所述特征数据输入至训练后的模型，得到当前观测点的预估数据；

数据补齐单元，用于利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据；

本申请第三方面提供了一种光伏电站实时数据补齐设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述的光伏电站实时数据补齐方法的各个步骤。

本申请第四方面提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的光伏电站实时数据补齐方法的各个步骤。

经由上述的技术方案可知，本申请首先获取光伏电站在当前观测点采集到的站点数据，并判断所述站点数据是否存在数据缺失。若是，利用历史站点数据构建特征数据，并将所述特征数据输入至训练后的模型，得到当前观测点的预估数据。然后，利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据。可以理解的是，由于本方法会在每一观测点实时地读入采集到的站点数据，当发现当前观测点采集到的站点数据存在数据缺失后，会对缺失数据进行预估及补齐，因此，所述历史站点数据均为完整的站点数据。其中，所述模型被配置为具备对时间序列及单点数据进行特征提取的能力，通过对时间序列数据的特征提取，可以学习到站点数据在时间上的相关性；通过对单点数据的特征提取，可以学习到站点数据中单一数据项内部的线性关系。所述模型为以第二观测点以前的站点数据所构建的特征数据作为输入特征，以第一观测点的站点数据作为标注训练得到的，所述第二观测点为所述第一观测点的前一个观测点。本申请利用结合了线性关系与循环神经网络的模型来对光伏电站实时数据进行预估及补齐，避免了由于缺失数据时间跨度过长而导致的数据失真，一定程度上提高了数据补齐的精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示例了为本申请实施例公开的空气湿度的线性相关性；

图2示例了为本申请实施例公开的空气温度的线性相关性；

图3示例了为本申请实施例公开的面板温度的线性相关性；

图4示例了为本申请实施例公开的水平辐照强度的线性相关性；

图5示例了为本申请实施例公开的垂直辐照强度的线性相关性；

图6示例了为本申请实施例公开的发电功率的线性相关性；

图7为本申请实施例公开的光伏电站实时数据补齐方法的示意图；

图8示例了本申请实施例公开的第一时间段及各观测点的时间关系；

图9示例了本申请实施例公开的较为通用的模型架构；

图10示例了为本申请实施例公开的具体的模型架构；

图11示例了本申请实施例公开的第二时间段及各观测点的时间关系；

图12示例了本申请实施例公开的一个训练样本源数据；

图13为本申请实施例公开的光伏电站实时数据补齐装置的示意图；

图14为本申请实施例公开的光伏电站实时数据补齐设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

光伏电站日常需要检测的站点数据可以包括空气湿度（H）、空气温度（T_air）、面板温度（T_p）、水平辐照强度（IR_h）、垂直辐照强度（IR_v）和发电功率（PV）等，这些数据的时间分辨率通常为1分钟。本申请的发明人发现，如图1~6所示，相邻两天同一时刻的测量增量具有很强的线性相关性。

其中，图1中的H为观测点O ₁记录到的空气湿度，H_x为观测点O ₃记录到的空气湿度减去观测点O ₄记录到的空气湿度后，再跟观测点O ₂记录到的空气湿度求和而得到的值，其中观测点O ₁和观测点O ₂的时间间隔为1分钟，观测点O ₃和观测点O ₄的时间间隔为1 分钟，观测点O ₁和观测点O ₃的时间间隔为1天，观测点O ₂和观测点O ₄的时间间隔为1 天。示例性地，假设观测点O ₁为2023-05-04 12:01:00，那么，观测点O₂为2023-05-04 12:00:00，观测点O ₃为2023-05-03 12:01:00，观测点O₄为2023-05-03 12:00:00。从图1可知，观测点O ₁记录到的空气湿度可以从观测点O ₂、观测点O ₃以及观测点O ₄记录到的空气湿度计算得到，其中，确定系数（R²）为0.9981。图1中纵轴变量H和横轴变量H_x的计算方式同样适用于图2~6中的各纵轴变量及横轴变量，此处不再赘述。此外，对于一个观测变量来说，观测点O ₁之前的历史观测数据对于观测点O ₁的观测值也具有参考意义，而循环神经网络刚好可以捕捉数据在时间上的相关性。因此，本申请考虑将图1~图6的线性关系跟循环神经网络结合，用以基于历史数据实现缺失数据的预估及补齐。

下面介绍本申请实施例提供的光伏电站实时数据补齐方法。请参阅图7，本申请实施例提供的光伏电站实时数据补齐方法可以包括如下步骤：

步骤S101，获取光伏电站在当前观测点采集到的站点数据。

光伏电站会启动定时任务来采集相关数据，例如，每5分钟采集一次数据，或每1分钟采集一次数据，观测点即启动数据采集的时刻。根据实际应用需要，站点数据可以包括多个数据项，这些数据项可以划分为2大类：气象数据和发电数据。

步骤S102，判断该站点数据是否存在数据缺失。若是，执行步骤S103。

数据缺失是指所采集到的站点数据中，某些数据项的数值为空缺值。

步骤S103，利用历史站点数据构建特征数据，并将该特征数据输入至训练后的模型，得到当前观测点的预估数据。

其中，该模型被配置为具备对时间序列及单点数据进行特征提取的能力，这些能力体现在：一方面，通过对时间序列数据的特征提取，可以学习到站点数据在时间上的相关性。另一方面，通过对单点数据的特征提取，可以学习到站点数据中单一数据项内部的线性关系。

该模型为以第二观测点以前的站点数据所构建的特征数据作为输入特征，以第一观测点的站点数据作为标注训练得到的，其中，第二观测点为第一观测点的前一个观测点；对于第二观测点以前的站点数据，第二观测点的站点数据也包含在内。

可以理解，由于本方法会持续地读取当前观测点所采集到的数据，并对其中的缺失数据进行补齐，因此，当前观测点之前的历史站点数据为经过补齐处理后的数据，即，当前观测点之前的历史站点数据均为完整的站点数据。

步骤S104，利用该预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据。

本申请首先获取光伏电站在当前观测点采集到的站点数据，并判断所述站点数据是否存在数据缺失。若是，利用历史站点数据构建特征数据，并将所述特征数据输入至训练后的模型，得到当前观测点的预估数据。然后，利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据。可以理解的是，由于本方法会在每一观测点实时地读入采集到的站点数据，当发现当前观测点采集到的站点数据存在数据缺失后，会对缺失数据进行预估及补齐，因此，所述历史站点数据均为完整的站点数据。其中，所述模型被配置为具备对时间序列及单点数据进行特征提取的能力，通过对时间序列数据的特征提取，可以学习到站点数据在时间上的相关性；通过对单点数据的特征提取，可以学习到站点数据中单一数据项内部的线性关系。所述模型为以第二观测点以前的站点数据所构建的特征数据作为输入特征，以第一观测点的站点数据作为标注训练得到的，所述第二观测点为所述第一观测点的前一个观测点。本申请利用结合了线性关系和循环神经网络的模型来对光伏电站实时数据进行预估及补齐，避免了由于缺失数据时间跨度过长而导致的数据失真，一定程度上提高了数据补齐的精度。

在本申请的一些实施例中，站点数据可以包括多个数据项。步骤S103利用历史站点数据构建特征数据的过程，可以包括：

S1，获取第五观测点、第六观测点、第七观测点以及第一时间段的站点数据。

如图8所示，第五观测点O ₅为当前观测点O ₀的前一个观测点，即，O ₅与O ₀之间相差1个单位间隔，假设数据分辨率为1分钟，则O ₅与O ₀之间相差1分钟；第六观测点O ₆为当前观测点前24小时的观测点；第七观测点O ₇为第六观测点O ₆的前一个观测点；第一时间段包括第五观测点O ₅以前的连续多个观测点。

S2，针对每一数据项，基于第五观测点、第六观测点以及第七观测点的站点数据，确定该数据项的单点数据。

具体地，某一数据项的单点数据的数值与该数据项在第五观测点、第六观测点以及第七观测点的数值可以构成一次函数关系。

示例性地，对于数据项空气湿度H，其单点数据可以表示为：

；

其中，为一次函数，/>表示空气湿度在观测点/>处的数值，/>表示第i观测点。

S3，基于第一时间段内各观测点的站点数据，生成时间序列数据。

假设站点数据包含n个数据项，那么可以生成n个时间序列，由这n个时间序列构成该时间序列数据。

S4，将各数据项的单点数据和该时间序列数据确定为特征数据。

在本申请的一些实施例中，该第一时间段的时间长度为2小时，各相邻观测点之间的时间间隔为1分钟。那么，每一时间序列数据的长度为120。

在本申请的一些实施例中，各数据项可以包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率。

上述S2针对每一数据项，基于第五观测点、第六观测点以及第七观测点的站点数据，确定该数据项的单点数据的过程，可以包括：

利用下述方程式计算得到第i个数据项的单点数据：

；

示例性地，k可以取值为1，那么，对于空气湿度H，其单点数据的计算式为：

；

对于空气温度T_air，其单点数据的计算式为：

；

对于面板温度T_p，其单点数据的计算式为：

；

对于水平辐照强度IR_h，其单点数据的计算式为：

；

对于垂直辐照强度IR_v，其单点数据的计算式为：

；

对于发电功率PV，其单点数据的计算式为：

；

在本申请的一些实施例中，上述S3基于第一时间段内各观测点的站点数据，生成时间序列数据的过程，可以包括：

S31，针对每一数据项，利用站点数据的该数据项在第一时间段内各观测点的数值，生成该数据项的时间序列。

S32，由各数据项的时间序列构成时间序列数据。

示例性地，在各数据项包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率的情况下，基于第一时间段内各观测点的站点数据，可以生成关于空气湿度的时间序列、关于空气温度的时间序列、关于面板温度的时间序列、关于水平辐照强度的时间序列、关于垂直辐照强度的时间序列以及关于发电功率的时间序列，并由这些时间序列构成总的时间序列数据。

在本申请的一些实施例中，如图9所示，步骤S103中提及的模型可以包括1个循环神经网络单元GRU和多个全连接层，图9示例了n个全连接层的情况，分别为FC_1至FC_n。步骤S103将该特征数据输入至训练后的模型，得到当前观测点的预估数据的过程，可以包括：

S1，将该时间序列数据输入至循环神经网络单元，该循环神经网络单元对该时间序列数据进行特征提取，并将提取到的特征输入至全连接层FC_1，得到该时间序列的中间输出out_1。

假设站点数据总共包括h个数据项，那么，该时间序列数据的数据维度为，中间输出out_1的数据维度为/>，其中，bs为数据批量，T为时间序列数据的长度，d ₁为全连接层FC_1的神经元个数，且满足/>。

S2，将每一数据项的单点数据分别输入至1个全连接层，得到该数据项的中间输出out_i。

其中，每一数据项的单点数据的数据维度均为，中间输出out_i的数据维度为/>，其中，/>，d _i为每一数据项对应的全连接层的神经元个数，且满足。

S3，将时间序列的中间输出out_1和各数据项的中间输出out_i合并后输入至全连接层FC_n，得到当前观测点的预估数据，其中，该预估数据包括各数据项的预估数值。

中间输出out_1和各数据项的中间输出out_i合并后所得到的数据维度为，预估数据的数据维度为/>。

在本申请的一些实施例中，各数据项包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率，如图10所示，全连接层的个数为8。

上述S2将每一数据项的单点数据分别输入至1个全连接层，得到该数据项的中间输出的过程，可以包括：

S21，将空气湿度的单点数据输入至第二全连接层FC2，第二全连接层FC2对空气湿度的单点数据进行线性拟合，得到空气湿度的中间输出out_2。

S22，将空气温度的单点数据输入至第三全连接层FC3，第三全连接层FC3对空气温度的单点数据进行线性拟合，得到空气温度的中间输出out_3。

S23，将面板温度的单点数据输入至第四全连接层FC4，第四全连接层FC4对面板温度的单点数据进行线性拟合，得到面板温度的中间输出out_4。

S24，将水平辐照强度的单点数据输入至第五全连接层FC5，第五全连接层FC5对水平辐照强度的单点数据进行线性拟合，得到水平辐照强度的中间输出out_5。

S25，将垂直辐照强度的单点数据输入至第六全连接层FC6，第六全连接层FC6对垂直辐照强度的单点数据进行线性拟合，得到垂直辐照强度的中间输出out_6。

S26，将发电功率的单点数据输入至第七全连接层FC7，第七全连接层FC7对发电功率的单点数据进行线性拟合，得到发电功率的中间输出out_7。

在本申请的一些实施例中，对应于循环神经网络单元GRU的全连接层的神经元个数大于或等于站点数据中数据项的个数，对应于每一数据项的单点数据的全连接层的神经元个数大于或等于1，对应于输出层的全连接层的神经元个数等于站点数据中数据项的个数。

具体地，图9中，全连接层FC_2至全连接层FC_n-1的神经元个数大于或等于1，全连接层FC_1的神经元个数大于或等于6，全连接层FC_1至全连接层FC_n-1的神经元个数的具体值可以根据实际情况确定；全连接层FC_n的神经元个数等于站点数据中数据项的个数。

图10中，全连接层FC_2至全连接层FC_7的神经元个数大于或等于1，全连接层FC_1的神经元个数大于或等于6，全连接层FC_1至全连接层FC_7的神经元个数的具体值可以根据实际情况确定；全连接层FC_8的神经元个数等于6。

如图10所示，在各数据项包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率的情况下，并且假设：全连接层FC_2至全连接层FC_7的神经元个数为1，全连接层FC_1和全连接层FC_8的神经元个数为6。那么，输入到循环神经网络单元GRU的时间序列数据的数据维度为，其中，bs为数据批量，T为时间序列数据的长度，如果站点数据的时间分辨率为1分钟且第一时间段的时间长度为2 小时，则时间序列数据的长度为T=120。该时间序列数据经过循环神经网络单元GRU和全连接层FC_1后的中间输出out_1的数据维度为/>。输入到全连接层FC_2至FC_7的数据维度均为/>，且相应的中间输出out_2至out_7的数据维度均为/>。中间输出out_1至out_7合并以后得到的数据维度为/>，该合并后的数据输入至全连接层FC_8后得到的最终输出的数据维度为，即对应于各数据项的预估数值。

在本申请的一些实施例中，该模型的训练过程，可以包括：

S1，获取光伏电站的历史站点数据集。

其中，历史站点数据集包括各数据项在各历史观测点上的数值。可以理解，历史站点数据集是完整的，不存在数据缺失。

S2，基于该历史站点数据集，构建多份特征数据以及对应于每一份特征数据的标注，得到训练集和验证集。

其中，基于历史站点数据集构建特征数据的方法与步骤S103中利用历史站点数据构建特征数据的方法相仿。

如前所述，特征数据包括两部分数据，分别为时间序列数据和各数据项的单点数据。具体地，如图11所示，时间序列数据由第二时间段内各观测点的站点数据构成；每一数据项的单点数据D _i由该数据项在第二观测点O ₂、第三观测点O ₃以及第四观测点O ₄的数值确定：

；

对于该组特征数据，其标注为第一观测点O ₁的站点数据，即，各数据项在观测点O ₁的数值。

示例性地，如图12所示，2022-12-18 10:01:00这一观测点为第一观测点O ₁，该观测点的站点数据为标注数据。输入到第二全连接层FC_2至第七全连接层FC_7的H_x、T_air_x、T_p_x、IR_h_x、IR_v_x 以及PV_x分别由第二观测点O ₂、第三观测点O ₃以及第四观测点O ₄的H、T_air、T_p、IR_h、IR_v 以及PV计算得到，输入到循环神经网络单元GRU的时间序列数据覆盖的时间范围为2022-12-18 08:01:00至2022-12-18 10:00:00。第二观测点O ₂为2022-12-18 10:00:00，第三观测点O ₃为2022-12-17 10:01:00，第四观测点O ₄为2022-12-1710:00:00，并且第二观测点O ₂为时间序列数据覆盖的时间范围的最后一个时刻。

S3，确定模型的参数以及模型训练中的超参数。

其中，模型的参数可以包括循环神经网络单元的隐含单元个数、各全连接层的神经元个数等。模型训练中的超参数可以包括学习率、训练轮数、优化器等。

S4，利用训练集对模型进行训练，并基于模型在验证集中的表现，确定训练后的模型。

示例性地，可以采用MSE（Mean Square Error，均方误差）来评估模型的表现，训练后选定的模型为所有训练轮中在验证集表现得到最低MSE 分数的模型。

在本申请的一些实施例中，步骤S104利用该预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据的过程，可以包括：

S1，确定当前观测点采集到的站点数据中存在数据缺失的目标数据项。

S2，将该预估数据中目标数据项的预估数值填补到当前观测点采集到的站点数据对应的数据项中，得到当前观测点完整的站点数据。

下面对本申请实施例提供的光伏电站实时数据补齐装置进行描述，下文描述的光伏电站实时数据补齐装置与上文描述的光伏电站实时数据补齐方法可相互对应参照。

请参见图13，本申请实施例提供的光伏电站实时数据补齐装置，可以包括：

数据获取单元21，用于获取光伏电站在当前观测点采集到的站点数据，并判断所述站点数据是否存在数据缺失；

数据预估单元22，用于当所述数据获取单元判断出所述站点数据存在数据缺失时，利用历史站点数据构建特征数据，并将所述特征数据输入至训练后的模型，得到当前观测点的预估数据；

数据补齐单元23，用于利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据；

在本申请的一些实施例中，所述站点数据包括多个数据项；数据预估单元22利用历史站点数据构建特征数据的过程，可以包括：

在本申请的一些实施例中，所述第一时间段的时间长度为2小时，各相邻观测点之间的时间间隔为1分钟。

在本申请的一些实施例中，所述各数据项包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率；数据预估单元22针对每一数据项，基于所述第五观测点、所述第六观测点以及所述第七观测点的站点数据，确定所述数据项的单点数据的过程，可以包括：

利用下述方程式计算得到第i个数据项的单点数据：

；

在本申请的一些实施例中，数据预估单元22基于所述第一时间段内各观测点的站点数据，生成时间序列数据的过程，可以包括：

由各数据项的时间序列构成时间序列数据。

在本申请的一些实施例中，所述模型包括1个循环神经网络单元和多个全连接层；数据预估单元22将所述特征数据输入至训练后的模型，得到当前观测点的预估数据的过程，可以包括：

在本申请的一些实施例中，全连接层的个数为8；

数据预估单元22将每一数据项的单点数据分别输入至1个全连接层，得到所述数据项的中间输出的过程，可以包括：

在本申请的一些实施例中，对应于每一数据项的单点数据的全连接层的神经元个数大于或等于1；

对应于输出层的全连接层的神经元个数等于数据项的个数。

在本申请的一些实施例中，所述模型的训练过程，可以包括：

确定模型的参数以及模型训练中的超参数；

在本申请的一些实施例中，数据补齐单元23利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据的过程，可以包括：

本申请实施例提供的光伏电站实时数据补齐装置可应用于光伏电站实时数据补齐设备，如计算机等。可选的，图14示出了光伏电站实时数据补齐设备的硬件结构框图，参照图14，光伏电站实时数据补齐设备的硬件结构可以包括：至少一个处理器31，至少一个通信接口32，至少一个存储器33和至少一个通信总线34。

在本申请实施例中，处理器31、通信接口32、存储器33、通信总线34的数量为至少一个，且处理器31、通信接口32、存储器33通过通信总线34完成相互间的通信；

处理器31可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路等；

存储器33可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器33存储有程序，处理器31可调用存储器33存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

综上所述：

本申请首先获取光伏电站在当前观测点采集到的站点数据，并判断所述站点数据是否存在数据缺失。若是，利用历史站点数据构建特征数据，并将所述特征数据输入至训练后的模型，得到当前观测点的预估数据。然后，利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据。可以理解的是，由于本方法会在每一观测点实时地读入采集到的站点数据，当发现当前观测点采集到的站点数据存在数据缺失后，会对缺失数据进行预估及补齐，因此，所述历史站点数据均为完整的站点数据。其中，所述模型被配置为具备对时间序列及单点数据进行特征提取的能力，通过对时间序列数据的特征提取，可以学习到站点数据在时间上的相关性；通过对单点数据的特征提取，可以学习到站点数据中单一数据项内部的线性关系。所述模型为以第二观测点以前的站点数据所构建的特征数据作为输入特征，以第一观测点的站点数据作为标注训练得到的，所述第二观测点为所述第一观测点的前一个观测点。本申请利用结合了线性关系与循环神经网络的模型来对光伏电站实时数据进行预估及补齐，避免了由于缺失数据时间跨度过长而导致的数据失真，一定程度上提高了数据补齐的精度。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种光伏电站实时数据补齐方法，其特征在于，包括：

所述模型被配置为具备对时间序列及单点数据进行特征提取的能力，所述模型为以第二观测点以前的站点数据所构建的特征数据作为输入特征，以第一观测点的站点数据作为标注训练得到的，所述第二观测点为所述第一观测点的前一个观测点；

所述站点数据包括多个数据项；所述利用历史站点数据构建特征数据的过程，包括：

将各数据项的单点数据和所述时间序列数据确定为特征数据；

所述各数据项包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率；

利用下述方程式计算得到第i个数据项的单点数据：

；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一时间段内各观测点的站点数据，生成时间序列数据的过程，包括：

由各数据项的时间序列构成时间序列数据。

3.根据权利要求1所述的方法，其特征在于，所述特征数据包括第一时间段内的时间序列数据和多个数据项的单点数据，各数据项用于表征光伏电站的气象状况和发电功率状况；

所述模型包括1个循环神经网络单元和多个全连接层；

4.根据权利要求3所述的方法，其特征在于，所述各数据项包括空气湿度、空气温度、面板温度、水平辐照强度、垂直辐照强度和发电功率；

全连接层的个数为8；

5.根据权利要求3所述的方法，其特征在于，对应于每一数据项的单点数据的全连接层的神经元个数大于或等于1；

对应于输出层的全连接层的神经元个数等于数据项的个数。

6.根据权利要求3所述的方法，其特征在于，所述模型的训练过程，包括：

确定模型的参数以及模型训练中的超参数；

7.根据权利要求1所述的方法，其特征在于，所述站点数据包括多个数据项；利用所述预估数据对当前观测点采集到的站点数据进行数据补齐，得到当前观测点完整的站点数据的过程，包括：

8.一种光伏电站实时数据补齐装置，其特征在于，包括：

利用下述方程式计算得到第i个数据项的单点数据：

；

9.一种光伏电站实时数据补齐设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1~7中任一项所述的光伏电站实时数据补齐方法的各个步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1~7中任一项所述的光伏电站实时数据补齐方法的各个步骤。