CN118034999A

CN118034999A - 一种基于机器学习的时空数据修复与功率预测方法

Info

Publication number: CN118034999A
Application number: CN202410204285.4A
Authority: CN
Inventors: 陈少梁; 李慧; 刘常; 黎艺炜; 彭正阳; 温鑫; 郑茵; 黄力宇; 郭斌; 蔡妙妆
Original assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2024-02-23
Filing date: 2024-02-23
Publication date: 2024-05-14

Abstract

本发明提供了一种基于机器学习的时空数据修复与功率预测方法，该方法包括以下步骤：获取多时空的清洁能源数据，得到原始时空数据和相应的数据特征；其中，所述数据特征包括时间、地点和发电功率，通过使用机器学习对所述原始时空数据进行修复，并将修复后的时空数据输入至预设模型中，输出对应的预测功率值，其中，所述预设模型包括第一模型和第二模型，分别根据所述第一模型和所述第二模型对应的预测功率和权重值，从而计算得到最优预测结果。能够极大的提高预测精度，以及改善电力发电结构和减少发电成本。

Description

一种基于机器学习的时空数据修复与功率预测方法

技术领域

本发明属于预测技术领域，具体涉及基于机器学习的时空数据修复与功率预测方法。

背景技术

当前，我国能源消费结构性问题仍较突出，碳减排任务仍然艰巨。面对能源转型新目标和能源发展新趋势，需要在电源侧大规模开发清洁能源、增加低碳能源的供给，同时在需求侧大力实施电能替代，提升社会能效。发展清洁能源，对降低碳排放起着积极作用。我国正在加快构建清洁低碳、安全高效的能源体系，全国可再生能源开发利用规模快速扩大，水电、风电、光伏发电累计装机容量均居世界首位。能源绿色发展对碳排放强度下降起到重要作用。

清洁能源作为可再生的环保能源，包括太阳能、风能、地热能、波浪能、潮汐能、洋流能等。相对于常规能源石油、煤炭等能源，绿色能源更加清洁、来源更为广泛、发电成本更加低廉生产效率更高的特点被大力推广到电力生产活动中。

由于清洁能源依赖于气象水文等多重影响因素，清洁能源的发电并不如常规能源稳定可控，因此，对清洁能源发电量的测算需要结合多时空数据。

多时空数据由于其所在空间的空间实体和空间现象在时间、空间和属性三个方面的固有特性，呈现出多维、语义、时空动态关联的复杂性。时空数据往往呈现出数据噪音大，异常和缺失数据相对较多的特点，这对开展清洁能源发电功率预测提出了严峻考验。

随着清洁能源逐步发展应用，清洁能源发电厂的建立使清洁能源时空数据监测面临挑战。由于无法获取准确的时空数据，使得清洁能源发电功率仍然存在预测精度低的问题。

发明内容

为了克服现有技术的不足，本发明提供基于机器学习的清洁能源时空数据修复与功率预测方法，以解决现有技术中预测精度低的问题。

本发明其中一个实施例提供了一种基于机器学习的时空数据修复与功率预测方法，包括以下步骤：

获取多时空的清洁能源数据，得到原始时空数据和相应的数据特征；其中，所述数据特征包括时间、地点和发电功率；

使用机器学习对所述原始时空数据进行修复；

将修复后的时空数据输入至预设模型中，输出对应的预测功率值，其中，所述预设模型包括第一模型和第二模型；

分别根据所述第一模型和所述第二模型对应的预测功率和权重值，计算最优预测结果。

本发明提供的基于机器学习的时空数据修复与功率预测方法具有如下技术效果：通过获取多时空的清洁能源数据，运用机器学习对所述原始时空数据进行修复，将修复后的时空数据输入至预设模型中，从而得到准确的待测数据，并分别根据所述第一模型和所述第二模型对应的预测功率和权重值，从而计算得到最优预测结果，实现精确预测未来一定时间清洁能源发电状况，节约发电成本，提高预测精度。

可选地，所述使用机器学习对所述原始时空数据进行修复，包括：

使用异常检测算法对所述原始时空数据进行分析，确定所述原始时空数据中的异常点；

利用插值方法根据预设范围内的数据对所述异常点进行修复。

通过周期性地更新数据和进行异常检测与修复的操作，以保持数据的准确性、完整性和可靠性；从而提高预测精度。

可选地，使用异常检测算法对所述原始时空数据进行分析，包括：

使用DBSCAN算法对原始时空数据进行聚类分析，以判断原始时空数据中的核心点、边界点和/或噪声点；

输出分析结果，将被分类为噪声点的数据点视为所述原始时空数据中的异常点。

可选地，使用DBSCAN算法对原始时空数据进行聚类分析，包括：

确定DBSCAN算法的参数，包括邻域半径和最小样本数；

根据所述原始时空数据的数据特征，计算样本间的间距或相似度矩阵；

使用DBSCAN算法对距离矩阵中的样本进行聚类，将样本分为核心点、边界点和噪声点。

可选地，使用DBSCAN算法对距离矩阵中的样本进行聚类，包括：

将所有样本标记为未分类状态；

对于每个样本，检查其是否已被分类；若是，则转到下一个样本；

若否，则执行以下步骤：

计算当前样本的邻域，包括距离在邻域半径内的其他样本；

如果当前样本的邻域内至少有最小样本数数量的样本，则将当前样本标记为核心点，并创建一个新的簇；其中，所述最小样本数数量的样本中包括所述当前样本本身；

如果当前样本不是核心点但在某个核心点的邻域内，将当前样本标记为边界点，并将其分配给相应的核心点所属的簇；

如果当前样本既不是核心点也不位于任何核心点的邻域内，则将当前样本标记为噪声点。

可选地，将修复后的时空数据输入至预设模型中，包括：

基于历史标准数据分别对SVR模型和GBDT模型进行训练，得到所述第一模型和所述第二模型；其中，所述历史标准数据包括时空数据和对应的发电功率。

可选地，基于历史标准数据分别对SVR模型和GBDT模型进行训练，包括：

初始化SVR模型和GBDT模型的权重为0.5；

实时获取时空数据中，并将其传输给所述第一模型和所述第二模型进行预测；

根据预测结果和实际发电功率的差异，对所述第一模型和所述第二模型的权重进行修正。

可选地，对所述第一模型和所述第二模型的权重进行修正，包括：

使用预留的验证数据集或交叉验证方法，对所述第一模型和所述第二模型进行评估，计算所述第一模型和所述第二模型的准确度和可信度指标；

将所述第一模型和所述第二模型的准确度和可信度指标进行归一化处理；

根据归一化的准确度和可信度指标，为所述第一模型和所述第二模型重新分配权重。

通过根据归一化的准确度和可信度指标，为第一模型和第二模型分配权重。较准确和可信的模型将被赋予更高的权重，以提高其在融合结果中的影响力，从而提高最优预测结果的准确度。

可选地，根据所述第一模型和所述第二模型对应的预测功率和权重值，输出最优预测结果，包括：

根据所述第一模型的权重计算第一模型的预测结果的加权平均值；

根据所述第二模型的权重计算第二模型的预测结果的加权平均值；

对所述第一模型的预测结果的加权平均值和所述第二模型的预测结果的加权平均值进行融合，得到最优预测结果。

本发明其中一个实施例还提供了一种基于机器学习的时空数据修复与功率预测系统，包括：

获取模块，用于获取多时空的清洁能源数据，以得到原始时空数据和相应的数据特征；其中，所述数据特征包括时间、地点和发电功率；

修复模块，用于使用机器学习对所述原始时空数据进行修复；

预测模块，用于将修复后的时空数据输入至预设模型中，输出对应的预测功率值，其中，所述预设模型包括第一模型和第二模型；

计算模块，用于分别根据所述第一模型和所述第二模型对应的预测功率和权重值，计算最优预测结果。

通过获取模块获取多时空的清洁能源数据，运用修复模块使用机器学习对所述原始时空数据进行修复，通过预测模块将修复后的时空数据输入至预设模型中，从而得到准确的待测数据，并使用计算模块分别根据所述第一模型和所述第二模型对应的预测功率和权重值计算得到最优预测结果，从而实现精确预测未来一定时间清洁能源发电状况，节约发电成本，提高预测精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明其中一实施例提供的基于机器学习的时空数据修复与功率预测方法的工作流程示意图；

图2为图1中的S200步骤的子流程示意图；

图3为图1中的S400步骤的子流程示意图；

图4为的建立预设模型的流程示意图；

图5为图4中的预设模型的权重修正流程示意图；

图6为本发明其中一实施例提供的基于机器学习的时空数据修复与功率预测系统的工作原理示意图；

图7为本发明其中一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，若全文中出现的“和/或”或者“及/或”，其含义包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

请参阅图1-5，本发明其中一个实施例提供了一种基于机器学习的时空数据修复与功率预测方法，包括以下步骤：

S100、获取多时空的清洁能源数据，得到原始时空数据和相应的数据特征；其中，所述数据特征包括时间、地点和发电功率；

收集多时空的清洁能源数据，包括时间、地点和发电功率等信息，并确保数据完整性和质量是一个关键的任务。

具体的，通过选择数据源，确定可靠的数据源，例如清洁能源发电厂、能源公司、监测设备、传感器等。与相关机构、企业或研究团队合作。并根据实际情况，可以使用自动化系统、传感器、监测设备等进行数据采集；确保这些设备和系统的准确性和可靠性。对数据进行标准化以确保一致性；例如，统一时间戳格式、使用标准的地理坐标系统等。建立适当的数据库或数据仓库来存储和管理数据，确保数据的安全性、可靠性和易访问性。对采集到的原始数据进行清洗和预处理，包括去除异常值、填补缺失值、处理重复数据等；这有助于提高数据的质量和准确性。进行数据验证和验证以确保其准确性和完整性；可以与现场观测或其他可靠数据进行对比和校验。建立数据质量控制机制，包括监测数据采集设备的状态、定期进行数据质量评估和校准等。确保数据采集和存储过程符合相关的隐私保护法规和合规要求；鼓励数据共享和开放，与其他研究机构、学术界、产业界等分享数据，以促进更广泛的清洁能源研究和应用。

综上所述，收集多时空的清洁能源数据需要系统性的规划和管理。在数据采集、存储、清洗和验证过程中，确保数据完整性和质量是至关重要的，以提高后续分析和预测的准确性和可靠性。

请参阅图2，S200、使用机器学习对所述原始时空数据进行修复；其中，修复后的时空数据满足整体变化趋势，且与整体功率趋势相吻合；

具体的，使用机器学习对所述原始时空数据进行修复，包括：

S210、使用异常检测算法对所述原始时空数据进行分析，确定所述原始时空数据中的异常点；

在进行分析步骤之前，还可以对原始时空数据进行的预处理，预处理包括去除噪声、填补缺失值、平滑数据等；具体的：

去除噪声：首先需要确定数据中存在的噪声类型。常见的噪声类型包括随机噪声、周期性噪声、异常值等。根据噪声的类型和特点，选择适当的滤波方法进行去噪。常用的滤波方法包括移动平均滤波、中值滤波、高斯滤波等。将选择的滤波方法应用于数据，去除噪声，并得到平滑的数据序列。

填补缺失值：首先需要检测数据中的缺失值，确定缺失值的位置和数量。根据缺失值的分布和特点，选择适当的填补方法。常用的填补方法包括均值填补、插值填补、回归填补等。根据选择的填补方法，对缺失值进行填补，使得数据集完整。

平滑数据：根据数据的特点和平滑需求，选择适当的平滑方法。常见的平滑方法包括移动平均、指数平滑、Loess平滑等。使用选定的平滑方法对数据进行平滑处理，减少噪声和不规则波动，得到更加稳定的数据序列。

使用异常检测算法对所述原始时空数据进行分析，包括以下步骤：

S211、使用DBSCAN算法对原始时空数据进行聚类分析，以判断原始时空数据中的核心点、边界点和/或噪声点；

具体的，使用DBSCAN算法对原始时空数据进行聚类分析，包括：

S211-1、确定DBSCAN算法的参数，包括邻域半径和最小样本数；

由于算法参数的选择将影响聚类结果，通过根据数据的特点和领域知识进行调整和设置DBSCAN参数，确定预测使用的DBSCAN算法的参数，DBSCAN算法的参数主要包括邻域半径(ε)和最小样本数(MinPts)。

S211-2、根据所述原始时空数据的数据特征，计算样本间的间距或相似度矩阵；

根据原始时空数据的特征，计算样本间的距离或相似度，以便后续的聚类分析。可以使用欧氏距离、曼哈顿距离或其他合适的距离度量方法。具体的：

根据原始时空数据的属性和特点，选择适当的特征来描述每个样本。这些特征可能包括时间、地点、速度、方向等。

对所选特征进行标准化处理，以确保它们具有相似的数值范围。这可以使用标准化方法(例如Z-score标准化)或缩放方法(例如Min-Max缩放)来实现。

根据选择的特征和问题的要求，确定计算样本间距离或相似度的方法。常用的方法包括欧氏距离、曼哈顿距离、余弦相似度等。选择合适的方法需要考虑时空数据的特性和聚类目标。

使用所选的距离或相似度计算方法，计算每个样本对之间的距离或相似度。将这些计算结果组成一个距离或相似度矩阵。

使用得到的距离或相似度矩阵作为输入，应用DBSCAN或其他聚类算法来对样本进行聚类。聚类结果将提供关于样本之间的聚类结构和异常点的信息。

需要注意的是，在计算距离或相似度矩阵时，可能需要考虑时间和空间的权重或关联性。例如，对于时空数据，可以使用时间加权方法，使时间上更近的样本具有较大的权重，以反映时间上的依赖关系。此外，还可以使用空间加权方法，根据地理位置的距离来调整样本间的相似度。

S211-3、使用DBSCAN算法对距离矩阵中的样本进行聚类，将样本分为核心点、边界点和噪声点。

具体的，使用DBSCAN算法对距离矩阵中的样本进行聚类，包括：

S211-31、将所有样本标记为未分类状态；

S211-32、对于每个样本，检查其是否已被分类；(遍历所有样本)

S211-321、若是，则转到下一个样本；

S211-322、若否，则执行以下步骤：

S211-3221、计算当前样本的邻域，包括距离在邻域半径内的其他样本；

S211-3222、如果当前样本的邻域内至少有最小样本数数量的样本，则将当前样本标记为核心点，并创建一个新的簇；其中，所述最小样本数数量的样本中包括所述当前样本本身；(找到具有足够数量(大于等于最小样本数)且距离在邻域半径内的样本，将其标记为核心点。)

S211-3223、如果当前样本不是核心点但在某个核心点的邻域内，将当前样本标记为边界点，并将其分配给相应的核心点所属的簇；(对于没有足够数量的邻居但位于核心点邻域内的样本，将其标记为边界点)

S211-3224、如果当前样本既不是核心点也不位于任何核心点的邻域内，则将当前样本标记为噪声点或-1。(所有未被标记为核心点或边界点的样本都被视为噪声点)

S212、输出分析结果，将被分类为噪声点或-1类的数据点视为所述原始时空数据中的异常点。

具体的，使用DBSCAN算法对距离矩阵中的样本进行聚类。算法会根据邻域半径和最小样本数的设定，将样本分为核心点、边界点和噪声点。识别被模型标记为-1类或噪声点的样本，这些样本被视为异常的时空数据。

DBSCAN(密度聚类)算法基于样本之间的密度可达性来进行聚类。例如：

对于一个样本点p，其邻域包含所有距离p在邻域半径ε内的样本点，表示为N(p)。其中，ε(epsilon):邻域半径，用于定义样本点的领域范围。N(p):样本点p的邻域。

如果一个样本点p的邻域内至少有最小样本数MinPts个样本点(包括它自己)，则该样本点被认为是核心点。其中，MinPts:最小样本数，用于定义核心点的最小邻居数量。

如果存在一个核心点q，在ε-邻域内同时包含了样本点p和q，则称样本点p在密度上直达样本点q。其中，p,q:样本点。

对于样本点p和q，如果存在样本点序列p1,p2,...,pn，其中p1＝p，pn＝q，并且pi+1在ε-邻域内包含pi，则称样本点q在密度上可达样本点p。

如果存在一个核心点c，使得样本点p和q都在c的ε-邻域内，则称样本点p和q密度相连。

在本实施例中，通过DBSCAN密度聚类算法，识别出被标记为噪声点或-1类的样本，即可判定这些样本为异常的时空数据。这些数据可能具有与其他类别不同的特征或表现出较低的密度，因此被视为异常值。

S220、利用插值方法根据预设范围内的数据对所述异常点进行修复。

其中，预设范围内包括异常点前后预设时间内的数据，如异常点前后30分钟内的数据；具体的：

收集异常点前后30分钟的数据以及周围数据点的空间关系。确保数据的完整性和质量。

根据数据的特征和问题的要求，选择适当的变量(通常是与异常点相关的因素)和半变异函数，从而确定变量和半变异函数；半变异函数用于描述样本之间的空间自相关性。

根据所选的变量和数据，计算数据集内各样本之间的空间距离，并基于这些距离计算半变异函数。常用的半变异函数包括指数模型、高斯模型等。

根据计算得到的半变异函数，对半变异函数进行拟合，以确定最佳参数。可以使用最小二乘法或最大似然估计等方法来进行拟合。

根据异常点前后30分钟的数据以及周围数据点的空间关系，通过计算样本之间的空间距离和半变异函数，计算克里金权重。克里金权重表示了每个数据点对异常点的影响程度。

根据计算得到的克里金权重，对异常点进行插值计算。可以通过加权平均或基于样本之间的距离进行插值。

将插值计算得到的数值用于修复异常点。将异常点替换为插值结果，以恢复数据的完整性。

需要注意的是，Kriging插值方法在进行异常点修复时，依赖于周围数据点的空间关系和空间自相关性。因此，在选择变量、半变异函数和拟合参数时，根据实际情况需要和数据特点进行适当的调整和验证。

在本实施例中，通过周期性地更新数据和进行异常检测与修复的操作，以保持数据的准确性、完整性和可靠性；从而提高预测精度。

请参阅图4、5，S300、将修复后的时空数据输入至预设模型中，输出对应的预测功率值，其中，所述预设模型包括第一模型和第二模型；

在其中一个实施例中，将修复后的时空数据输入至预设模型中，包括：

S310、基于历史标准数据分别对SVR模型和GBDT模型进行训练，得到所述第一模型和所述第二模型；其中，所述历史标准数据包括时空数据和对应的发电功率。

具体的，基于历史标准数据分别对SVR模型和GBDT模型进行训练，包括：

S311、初始化SVR模型和GBDT模型的权重为0.5；

S312、实时获取时空数据中，并将其传输给所述第一模型和所述第二模型进行预测；

S313、根据预测结果和实际发电功率的差异，对所述第一模型和所述第二模型的权重进行修正。

具体的，对所述第一模型和所述第二模型的权重进行修正，包括：

S313-1、使用预留的验证数据集或交叉验证方法，对所述第一模型和所述第二模型进行评估，计算所述第一模型和所述第二模型的准确度和可信度指标；

其中，常用的评估指标包括均方误差(MSE)、平均绝对误差(MAE)等。

S313-2、将所述第一模型和所述第二模型的准确度和可信度指标进行归一化处理；

根据需要，通过将SVR和GBDT模型的准确度和可信度指标进行归一化处理，以便在后续步骤中进行权重分配。可以使用公式(x-min)/(max-min)将指标值缩放到0-1之间。其中，x：待归一化的指标值。min：该指标在数据集中的最小值。max：该指标在数据集中的最大值。通过这个公式，将每个指标值减去最小值，然后除以最大值与最小值之差，可以将指标值缩放到0-1之间的范围。这样做可以消除不同指标之间的量纲差异，并保留了归一化后的指标在原始数据中的相对位置关系。

S313-3、根据归一化的准确度和可信度指标，为所述第一模型和所述第二模型重新分配权重。

根据归一化的准确度和可信度指标，为SVR和GBDT模型分配权重。较准确和可信的模型将被赋予更高的权重，以提高其在融合结果中的影响力。权重可以根据经验设定，也可以通过优化算法或专家知识来确定。

在本实施例中，通过使用历史标准数据对SVR模型和GBDT模型进行训练，从而构建优化模型，以改善模型预测效果；构造SVR与GDBT模型初始权重均为0.5的自学习优化模型；经历史标准数据训练SVR及GBDT，通过实时时空数据传输修正，共同传入两个模型后得到两个预测功率，由于这两个预测功率并不能满足实际预测标准，对两个功率取不同的权重以得到一个更接近实际功率的预测结果，以此提高功率的预测准确率；通过两个模型的预测功率与实际功率的比较值R²设定权重调节规则，比较值R²越接近1，拟合度越高，该预测模型权重就越大，直到比较值R²调节至一个相对稳定值。模型则自我调节为最优模式；经优化模型测试，该优化模型预测功率与实际功率的比较值R²可以达到0.985以上，模型效果大大提高，满足电力生产预测的需要。

在本实施例中，通过根据归一化的准确度和可信度指标，为第一模型和第二模型分配权重。较准确和可信的模型将被赋予更高的权重，以提高其在融合结果中的影响力，从而提高最优预测结果的准确度。

请参阅图3，S400、分别根据所述第一模型和所述第二模型对应的预测功率和权重值，计算最优预测结果。

在其中一个实施例中，根据所述第一模型和所述第二模型对应的预测功率和权重值，输出最优预测结果，包括：

S410、根据所述第一模型的权重计算第一模型的预测结果的加权平均值；

S420、根据所述第二模型的权重计算第二模型的预测结果的加权平均值；

S430、对所述第一模型的预测结果的加权平均值和所述第二模型的预测结果的加权平均值进行融合，得到最优预测结果。

根据需要，通过将修复完成的时空数据传入SVR和GBDT模型，分别得到两个模型对应的预测功率值。根据权重，计算SVR和GBDT模型的预测功率值的加权平均。例如，假设SVR的权重为w1，GBDT的权重为w2，则最终的预测功率值可以通过如下公式计算：最终权重预测功率＝w1*SVR预测功率+w2*GBDT预测功率；加权平均融合可以根据模型准确度和可信度的不同，灵活地调整各自模型的贡献程度。最终融合的预测功率值即为最终权重预测功率。从而能够保证结果更接近实际功率，并综合了SVR和GBDT模型的优势。

需要注意的是，在确定权重时，还可以基于实际数据或使用领域专家的知识来进行权衡和决策。同时，为了保证预测结果的准确性和可靠性，进行适当的验证和测试，并根据实际情况进行调整和优化。

在本实施例中，通过获取多时空的清洁能源数据，运用机器学习对所述原始时空数据进行修复，将修复后的时空数据输入至预设模型中，从而得到准确的待测数据，并分别根据所述第一模型和所述第二模型对应的预测功率和权重值，从而计算得到最优预测结果，实现精确预测未来一定时间清洁能源发电状况，节约发电成本，提高预测精度。

清洁能源发电通常受到气象、地理、水文、引力等多重因素影响，由于这些时空因素不可控性较大。目前科研采集时空数据受测量设备及地理位置影响，采集数据可能存在较大误差。这对绿色能源预估发电量造成了较大的影响，因此，开展绿色能源时空数据异常实时监测和自动修复是开展绿色能源发电预测的前提和必要保证。只有时空数据准确，才能近似预测发电功率，为后续开展电力发电设备保护、电力输送和调度提供数据支持。

清洁能源发电功率预测是供电中一项非常重要的活动，这不仅关系到供电情况也关系到发电设备的安全。在保证发电设备安全的前提下，合理利用绿色能源进行发电，将电分配给需要补给的线路。由于绿色能源发电受时空影响巨大，因此，在得到准确的时空数据后，可以对绿色能源在一定时间内发电功率进行预测，预估发电量，通过电力生产调度，改善电力发电结构，减少发电成本。

能源清洁低碳转型要求紧迫。在可持续发展的社会背景下，清洁能源发电功率预测的价值日益凸显，作为平抑新能源发电随机性和波动性的重要信息支撑服务，功率预测为降低电网调度难度、增加新能源并网友好性作出了积极贡献。

通过对清洁能源时空数据的异常监测和修复以及发电功率预测，利用机器学习中DBSCAN密度聚类，将多时空数据及发电功率情况传入此模型中，监测时空数据中的异常点数据，将该异常点前后30分钟数据为样本数据传入kinging插值模型中进行修复，使修复后的时空数据满足整体数据变化趋势，且与功率趋势相吻合；在得到准确的时空数据后，可以对绿色能源在一定时间内发电功率进行预测，预估发电量，通过电力生产调度，改善电力发电结构，减少发电成本。

SVR模型、GDBT模型预测效果并没有达到良好的投入使用效果，通过本案构建SVR与GDBT模型初始权重均为0.5的自学习优化模型，经历史标准数据训练SVR及GBDT，通过实时时空数据传输修正，共同传入两个模型后得到两个预测功率，由于这两个预测功率并不能满足实际预测标准，对两个功率取不同的权重以得到一个更接近实际功率的预测结果，以此提高功率的预测准确率。

其中，多时空数据是指包含多个时间点和多个空间位置的数据集合。它们记录了在不同时间和不同空间位置上观测到的各种现象、事件或属性的数值或特征。例如，一组气象观测数据中，每个时间点都对应一个空间位置(如经纬度)，因此可以形成多时空数据。

时空数据是指在时间和空间维度上连续变化的数据。它们记录了某一现象、事件或属性随时间和空间位置的变化情况。例如，气温随着时间的推移在不同地点上的变化，形成了时空数据。

总体而言，多时空数据是一个广义概念，可包含时空数据，而时空数据则是一种具体形式的多时空数据。多时空数据更强调数据的多样性和丰富性，可以涉及多个时间点和多个空间位置。而时空数据更侧重于描述时间和空间维度上的连续变化和关联关系。

请参阅图6，本发明其中一个实施例还提供了一种基于机器学习的时空数据修复与功率预测系统，包括：

修复模块，用于使用机器学习对所述原始时空数据进行修复；其中，修复后的时空数据满足整体变化趋势，且与整体功率趋势相吻合；

在本实施例中，通过获取模块获取多时空的清洁能源数据，运用修复模块使用机器学习对所述原始时空数据进行修复，通过预测模块将修复后的时空数据输入至预设模型中，从而得到准确的待测数据，并使用计算模块分别根据所述第一模型和所述第二模型对应的预测功率和权重值计算得到最优预测结果，从而实现精确预测未来一定时间清洁能源发电状况，节约发电成本，提高预测精度。

本发明其中一个实施例还提供了一种电子设备，包括：处理器和存储器，存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当处理器执行所述计算机指令时，电子设备执行如上任意一种所述的基于机器学习的时空数据修复与功率预测方法的步骤。

本发明其中一个实施例还提供了一种存储介质，存储介质中存储有计算机程序，计算机程序包括程序指令，程序指令当被电子设备的处理器执行时，使处理器执行如上任意一种所述的基于机器学习的时空数据修复与功率预测方法的步骤。

请参阅图7，图7为本发明实施例提供的一种电子设备的硬件结构示意图。

该电子设备2包括处理器21，存储器22，输入装置23，输出装置24。该处理器21、存储器22、输入装置23和输出装置24通过连接器相耦合，该连接器包括各类接口、传输线或总线等等，本发明实施例对此不作限定。应当理解，本发明的各个实施例中，耦合是指通过特定方式的相互联系，包括直接相连或者通过其他设备间接相连，例如可以通过各类接口、传输线、总线等相连。

处理器21可以是一个或多个图形处理器(graphics processing unit，GPU)，在处理器21是一个GPU的情况下，该GPU可以是单核GPU，也可以是多核GPU。可选的，处理器21可以是多个GPU构成的处理器组，多个处理器之间通过一个或多个总线彼此耦合。可选的，该处理器还可以为其他类型的处理器等等，本发明实施例不作限定。

存储器22可用于存储计算机程序指令，以及用于执行本发明方案的程序代码在内的各类计算机程序代码。可选地，存储器包括但不限于是随机存储记忆体(random accessmemory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器用于相关指令及数据。

输入装置23用于输入数据和/或信号，以及输出装置24用于输出数据和/或信号。输出装置23和输入装置24可以是独立的器件，也可以是一个整体的器件。

可理解，本发明实施例中，存储器22不仅可用于存储相关指令，本发明实施例对于该存储器中具体所存储的数据不作限定。

可以理解的是，图7仅仅示出了一种电子设备的简化设计。在实际应用中，电子设备还可以分别包含必要的其他元件，包含但不限于任意数量的输入/输出装置、处理器、存储器等，而所有可以实现本发明实施例的视频解析装置都在本发明的保护范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。所属领域的技术人员还可以清楚地了解到，本发明各个实施例描述各有侧重，为描述的方便和简洁，相同或类似的部分在不同实施例中可能没有赘述，因此，在某一实施例未描述或未详细描述的部分可以参见其他实施例的记载。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序待封口件的形式实现。所述计算机程序待封口件包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机存储介质中，或者通过所述计算机存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digitalversatile disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：只读存储器(read-only memory，ROM)或随机存储存储器(random access memory，RAM)、磁碟或者光盘等各种可存储程序代码的介质。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于机器学习的时空数据修复与功率预测方法，其特征在于，包括以下步骤：

使用机器学习对所述原始时空数据进行修复；

2.如权利要求1所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，所述使用机器学习对所述原始时空数据进行修复，包括：

3.如权利要求2所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，使用异常检测算法对所述原始时空数据进行分析，包括：

4.如权利要求3所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，使用DBSCAN算法对原始时空数据进行聚类分析，包括：

确定DBSCAN算法的参数，包括邻域半径和最小样本数；

5.如权利要求4所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，使用DBSCAN算法对距离矩阵中的样本进行聚类，包括：

将所有样本标记为未分类状态；

若否，则执行以下步骤：

计算当前样本的邻域，包括距离在邻域半径内的其他样本；

6.如权利要求1所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，将修复后的时空数据输入至预设模型中，包括：

7.如权利要求6所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，基于历史标准数据分别对SVR模型和GBDT模型进行训练，包括：

初始化SVR模型和GBDT模型的权重为0.5；

8.如权利要求7所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，对所述第一模型和所述第二模型的权重进行修正，包括：

9.如权利要求1-8任意一项所述的基于机器学习的时空数据修复与功率预测方法，其特征在于，根据所述第一模型和所述第二模型对应的预测功率和权重值，输出最优预测结果，包括：

10.一种基于机器学习的时空数据修复与功率预测系统，其特征在于，包括：