CN117992758A

CN117992758A - 分布式光伏虚拟数据采集及特性分析方法、系统及设备

Info

Publication number: CN117992758A
Application number: CN202410399012.XA
Authority: CN
Inventors: 孟庆霖; 吴军民; 王剑晓; 赵亚清; 孙宝平; 郝波; 张郁颀; 李玮; 陈鹏; 夏勇; 王鑫; 王维洲; 马彦宏; 保承家; 郭子强; 宫及峰; 孟庆昱
Original assignee: Ninghe Power Supply Branch Of State Grid Tianjin Electric Power Co; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Current assignee: Ninghe Power Supply Branch Of State Grid Tianjin Electric Power Co; State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd
Priority date: 2024-04-03
Filing date: 2024-04-03
Publication date: 2024-05-07
Anticipated expiration: 2044-04-03
Also published as: CN117992758B

Abstract

本发明提出分布式光伏虚拟数据采集及特性分析方法、系统及设备，属于电力技术领域，方法包括基于目标采集区域信息的聚类分析结果划分子区域，对区域内的光伏电站信息进行评分，获得第一评分，根据评分结果确定子区域内的标杆电站；根据数据评分结果和所述第一评分结果确定数据传输顺序；根据所述数据评分结果、实时带宽以及通信延迟，调整采样频率；通过标杆电站的数据建立多种预测模型，对多个第一预测结果进行加权平均作为该预测目标的最终预测结果；定期将实际数据与预测结果对比；根据对比结果更新预测模型以及每种预测模型的权重，实现数据采集的效率和准确性，数据传输的高效性和稳定性以及提高预测模型的准确性和适应性。

Description

分布式光伏虚拟数据采集及特性分析方法、系统及设备

技术领域

本申请涉及电力技术领域，尤其涉及分布式光伏虚拟数据采集及特性分析方法、系统及设备。

背景技术

随着全球对可再生能源需求的持续增长，分布式光伏系统已成为一个关键领域，尤其是在电力行业中。这些系统通常涉及大量的光伏电站，它们分散在地理上不同的位置，每个电站的运行条件和性能特征各不相同。因此，对分布式光伏电站进行有效的数据采集和特性分析变得至关重要。

传统的数据采集方法通常依赖于人工巡查和现场数据采集设备，这种方法不仅成本高昂，而且效率低下，难以适应大规模分布式光伏电站的需求。随着物联网和传感器技术的发展，越来越多的光伏电站开始采用自动化数据采集系统，但这些系统通常只关注特定类型的数据，如性能数据或环境数据，而忽略了数据之间的关联性和整体性能分析。

此外，由于分布式光伏电站的地理位置分散，数据传输和通信成为一个挑战。传统的数据传输方法可能无法适应不同的通信条件和带宽限制，导致数据传输延迟或丢失，进一步影响数据分析和预测的准确性。

在特性分析方面，目前的方法通常只关注单一因素，如电站的装机容量或历史运行数据，而忽略了多种因素的综合影响。此外，预测模型的准确性和泛化能力也受限于训练数据的质量和数量。

因此，开发一种能够综合考虑多种因素、自适应不同通信条件、并具有高预测准确性的分布式光伏虚拟数据采集及特性分析方法，电站性能进行准确的预测和分析。

发明内容

本申请的目的在于提供分布式光伏虚拟数据采集及特性分析方法、系统及设备，实现数据采集的效率和准确性，数据传输的高效性和稳定性以及提高预测模型的准确性和适应性。

本申请的目的采用以下技术方案实现：

本申请提供分布式光伏虚拟数据采集及特性分析方法，所述方法包括：

S1、获取目标采集区域信息，基于目标采集区域信息的聚类分析结果划分子区域，对区域内的光伏电站信息进行评分，获得第一评分，根据评分结果确定子区域内的标杆电站；

S2、设置传感器采集标杆电站的数据，并将采集的数据传输至数据处理平台；根据数据评分结果和所述第一评分结果确定数据传输顺序；根据所述数据评分结果、实时带宽以及通信延迟，调整采样频率；

S3、通过标杆电站的数据建立多种预测模型，对区域内其它光伏电站的性能进行预测；针对每项预测目标，获得基于多种预测模型的第一预测结果；将多个第一预测结果进行加权平均作为该预测目标的最终预测结果；

S4、定期获取其它光伏电站的实际数据；将实际数据与预测结果对比；根据对比结果更新预测模型以及每种预测模型的权重。

进一步地，所述分布式光伏虚拟数据采集及特性分析方法，所述S1包括：

获取目标采集区域信息；其中，所述目标采集区域信息包括地形地貌、气候信息、年平均光照；

对目标采集区域信息进行聚类分析；根据聚类分析结果划分子区域；

获取区域内的光伏电站信息，所述光伏电站信息包括装机容量、设计参数以及历史运行数据；所述历史运行数据包括发电量、效率、电站故障率以及通信故障率；

根据光伏电站信息确定子区域内的标杆电站。

进一步地，所述分布式光伏虚拟数据采集及特性分析方法，所述根据光伏电站信息确定子区域内的标杆电站，包括：

基于所述装机容量和设计参数对子区域内光伏电站进行分类获得第一类别；

根据最近一段时间内的历史运行数据，对第一类别各光伏电站的评分；获得第一评分；

根据评分结果选取标杆电站；选择前N个评高的光伏电站为标杆电站；

为子区域内每个第一类别光伏电站总数，a为正整数；a</>；ceiling()为向上取整；

其中，评分结果为：

其中，为子区域内第一类别中第i个光伏电站最终评分，/>为子区域内第一类别中第i个光伏电站日均发电量归一化处理结果；/>为子区域内第一类别中第i个光伏电站日均发电效率归一化处理结果；/>为子区域内第一类别中第i个光伏电站的电站故障率归一化处理结果；/>为子区域内第一类别中第i个光伏电站通信故障率归一化处理结果，w1、w2、w3、w4为权重系数。

进一步地，所述分布式光伏虚拟数据采集及特性分析方法，所述S2包括：

根据数据的重要性对采样数据进行评分，获得第二评分；

将所述第一评分和所述第二评分进行加权平均，获得第三评分；

根据所述第三评分确定数据传输顺序；第三评分高的优先传输；

根据所述第二评分、实时带宽以及通信延迟，调整采样频率；

其中，为调整后的采样频率，/>为对应数据的第二评分；/>为预设采样频率；为预设带宽；/>为预设通信延迟；/>为当前带宽；/>为当前通信延迟。

进一步地，所述分布式光伏虚拟数据采集及特性分析方法， S3包括：

获取最近一段预设时间内标杆电站的历史数据；

对收集到的数据进行清洗和预处理，包括处理缺失值、异常值、数据格式转换；

基于光照条件，通过聚类分析结合时间序列识别并划分第一分组；

在同一第一分组下，使用标杆电站的数据，训练多种预测模型；所述多种预测模型包括线性回归、决策树、随机森林以及神经网络；

针对每项预测目标，基于每种训练模型，分别获得第一预测结果；

将多个第一预测结果进行加权平均，获得每项预测目标的最终预测结果。

进一步地，所述分布式光伏虚拟数据采集及特性分析方法，将多个第一预测结果进行加权平均，获得每项预测目标的最终预测结果，包括：

基于预测目标，将历史数据中实际数据与对应预测数据进行对比，获得对比结果；

根据对比结果获得对应预测模型的权重。

进一步地，所述分布式光伏虚拟数据采集及特性分析方法，所述根据对比结果获得对应预测模型的权重，包括：

获得最近一次采集的光伏电站的实际数据；

将实际数据分别与对应的多个第一预测结果对比，获得多个第一差值；

基于同一预测目标，将区域内多个站点基于同一预测模型获得的多个第一差值进行统计分析，获得基于对应预测模型的第一差值的第一均值以及第一最大值；

根据所述第一均值以及第一最大值，获得对应预测模型的权重。

进一步地，所述分布式光伏虚拟数据采集及特性分析方法，所述根据所述第一均值以及第一最大值，获得对应预测模型的权重，包括：

所述对应预测模型的权重通过如下公式获取：

其中，为基于第k个预测模型获取的第一均值；/>为基于第k个预测模型获取的第一最大值，/>、/>为系数，/>+/>=1。

本申请提供分布式光伏虚拟数据采集及特性分析系统，所述系统包括：

第一确定模块，用于获取目标采集区域信息，基于目标采集区域信息的聚类分析结果划分子区域，对区域内的光伏电站信息进行评分，获得第一评分，根据评分结果确定子区域内的标杆电站；

数据采集与传输模块，用于设置传感器采集标杆电站的数据，并将采集的数据传输至数据处理平台；根据数据评分结果和所述第一评分结果确定数据传输顺序；根据所述数据评分结果、实时带宽以及通信延迟，调整采样频率；

模型预测模块，用于通过标杆电站的数据建立多种预测模型，对区域内其它光伏电站的性能进行预测；针对每项预测目标，获得基于多种预测模型的第一预测结果；将多个第一预测结果进行加权平均作为该预测目标的最终预测结果；

优化更新模块，用于定期获取其它光伏电站的实际数据；将实际数据与预测结果对比；根据对比结果更新预测模型以及每种预测模型的权重。

本申请还提出一种电子设备，所述电子设备用于分布式光伏虚拟数据采集及特性分析，所述电子设备包括至少一个处理器和至少一个存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利本申请任一项所述方法的步骤。

本发明的有益效果包括：通过聚类分析将目标采集区域划分为子区域，并基于光伏电站信息的评分确定标杆电站，可以更加精准地采集数据，提高数据采集的效率和准确性。根据数据评分结果和电站评分结果确定数据传输顺序，以及根据实时带宽和通信延迟调整采样频率，可以确保数据传输的高效性和稳定性。有助于减少数据传输过程中的延迟和丢失，提高数据的可用性和可靠性。通过标杆电站的数据建立多种预测模型，并对区域内其他光伏电站的性能进行预测，可以更加全面地考虑各种影响因素，从而提高预测模型的准确性和泛化能力。同时，将多个预测结果进行加权平均作为最终预测结果，可以进一步减少预测误差，提高预测的稳定性。定期获取其他光伏电站的实际数据，并与预测结果进行对比，可以及时发现预测模型的不足和误差，从而进行必要的调整和优化，有助于提高预测模型的准确性和适应性，使其能够更好地适应不同环境和条件下的光伏电站性能预测。通过对光伏电站性能的预测和分析，为电站的运行和维护提供了有力支持。

附图说明

图1是本申请实施例提供的分布式光伏虚拟数据采集及特性分析方法示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本申请做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

参见图1，本申请的一些实施例提供分布式光伏虚拟数据采集及特性分析方法，所述方法包括：

上述技术方案的工作原理为：

首先，收集目标采集区域的信息，如地形地貌、气候信息等。然后，基于目标采集区域信息使用聚类分析方法将区域划分为若干个子区域。有助于针对不同子区域的光照条件、环境因素等进行更加精细化的管理。

在子区域内，收集各个光伏电站的信息，如装机容量、设计参数和历史运行数据等。根据光伏电站的信息，对电站进行评分，评分高的电站被选为标杆电站。标杆电站的选择为后续的数据采集和性能预测提供参考。

设置传感器在标杆电站进行数据采集，包括性能数据、环境数据等。这些数据随后被传输到数据处理平台。

根据数据的评分结果（基于数据的重要性和/或紧急性）和电站的评分结果，确定数据的传输顺序。同时，根据实时带宽和通信延迟的情况，动态调整采样频率，确保数据的高效、稳定传输。

使用标杆电站的历史数据建立多种预测模型，如线性回归、决策树、随机森林和神经网络等。模型用于预测区域内其他光伏电站的性能，如发电量、效率等。

针对每项预测目标，如发电量、功耗或健康状况，使用不同的预测模型得到多个预测结果。然后，将不同模型的预测结果进行加权平均，得到最终的预测结果。这种方法结合了不同模型的优点，提高了预测的准确性和稳定性。

定期获取区域内其他光伏电站的实际数据，并将这些数据与预测结果进行对比。通过对比，可以评估预测模型的准确性，并发现可能存在的误差或偏差。

根据对比结果，对预测模型进行必要的调整和优化，以提高其预测性能。同时，也会根据实际情况更新每种预测模型的权重，以反映不同模型在不同情况下的表现。

综上所述，该方法通过区域划分、标杆电站确定、数据采集与传输优化、性能预测与模型优化以及实际数据对比与模型更新等步骤，实现了对分布式光伏电站的高效数据采集、特性分析以及性能预测。不仅有助于提高光伏电站的运行效率和维护质量，还为电站的优化运行和决策提供了有力支持。

上述技术方案的效果为：通过聚类分析将目标采集区域划分为子区域，并基于光伏电站信息的评分确定标杆电站，可以更加精准地确定数据采集的重点和优先级，提高数据采集的效率和准确性。根据数据评分结果和电站评分结果确定数据传输顺序，以及根据实时带宽和通信延迟调整采样频率，可以确保数据传输的高效性和稳定性。有助于减少数据传输过程中的延迟和丢失，提高数据的可用性和可靠性。通过标杆电站的数据建立多种预测模型，并对区域内其他光伏电站的性能进行预测，可以更加全面地考虑各种影响因素，从而提高预测模型的准确性和泛化能力。同时，将多个预测结果进行加权平均作为最终预测结果，可以进一步减少预测误差，提高预测的稳定性。定期获取其他光伏电站的实际数据，并与预测结果进行对比，可以及时发现预测模型的不足和误差，从而进行必要的调整和优化，有助于提高预测模型的准确性和适应性，使其能够更好地适应不同环境和条件下的光伏电站性能预测。通过对光伏电站性能的预测和分析，为电站的运行和维护提供了有力支持。

综上所述，分布式光伏虚拟数据采集及特性分析方法能够提高数据采集效率、优化数据传输、提升预测模型的准确性、实现模型持续优化以及促进决策的科学性和效率等。

本申请的一些实施例分布式光伏虚拟数据采集及特性分析方法，所述S1包括：

根据光伏电站信息确定子区域内的标杆电站。

上述技术方案的工作原理为：

获取目标采集区域的相关信息，包括但不限于地形地貌、气候信息、光照强度等。

确保收集到的数据具有代表性，并且尽可能覆盖整个目标区域。

对收集到的数据进行清洗和格式化，以消除错误、异常值或缺失数据；

可能需要对数据进行标准化或归一化，以消除不同特征之间的量纲差异；

根据聚类分析的需要，选择能够代表目标区域特征的数据维度，如地形类型、年平均降雨量、年平均温度等。

特征选择有助于降低数据的维度，提高聚类的效率和准确性。

根据数据的特性和聚类的目的选择合适的聚类算法，如K-means聚类、层次聚类、DBSCAN等。

考虑算法的稳定性、可扩展性以及是否能够满足对聚类结果的特定要求。

应用选定的聚类算法对预处理后的数据进行聚类分析；

聚类过程中，算法会根据数据间的相似性或距离将目标区域划分为不同的簇（即子区域）。

评估聚类结果的有效性，可以使用如轮廓系数、Calinski-Harabasz指数、Davies-Bouldin指数等指标。

如果聚类结果不满足要求，可能需要调整聚类算法参数或尝试不同的聚类算法。

根据聚类分析的结果，将目标区域划分为不同的子区域。

每个子区域应包含具有相似特征的数据点，这些特征可以是地形地貌、气候条件或光照强度等。

在子区域划分完成后，需要收集每个子区域内的光伏电站信息。光伏电站信息包括装机容量、设计参数以及历史运行数据；装机容量和设计参数反映了电站的基本规模和性能，而历史运行数据则包含了电站在实际运行过程中的发电量、效率、电站故障率以及通信故障率等关键信息。性能数据包括发电量、效率、功率输出等，性能数据直接反映了光伏电站的运行状态和性能。定期检查和维修有助于评估设备的健康状况和预测未来的维护需求。任何与设备故障或系统异常相关的数据都是至关重要的，因为可以及时发现潜在问题并防止更大的损失。

基于收集到的光伏电站信息，需要对每个子区域内的电站进行评分。评分的依据可以是电站的历史发电量、效率、故障率等性能指标。通过评分，可以识别出每个子区域内表现优秀的电站，即标杆电站。

上述技术方案的效果为：通过获取目标采集区域信息，包括地形地貌、气候信息和年平均光照，可以对不同区域进行更为精细化的管理和优化。这种精细化管理能够考虑到不同地区的环境特点和光照资源，使光伏电站的运行更加符合当地条件，从而提高发电效率和运行稳定性。通过对目标采集区域进行聚类分析，可以将相似的地区划分为子区域，这样可以在数据采集和处理时减少冗余和重复工作。每个子区域可以根据其特点进行针对性的数据采集和处理，从而提高数据采集和处理的效率。根据光伏电站信息确定子区域内的标杆电站，可以为其他电站提供可借鉴和学习的对象。标杆电站的优秀表现可以激励其他电站进行改进和提升，促进整个区域内光伏电站的性能提升和运维水平的提高。通过对光伏电站信息的收集和分析，可以获得更加全面和准确的数据支持，为决策提供更加科学和准确的依据。

综上所述，分布式光伏虚拟数据采集及特性分析方法的好处和效果包括精细化管理和优化、提高数据采集和处理的效率、准确性，促进决策的科学性和准确性以及推动清洁能源的可持续发展。

本申请一些实施例，分布式光伏虚拟数据采集及特性分析方法，所述根据光伏电站信息确定子区域内的标杆电站，包括：

其中，评分结果为：

其中，为子区域内第一类别中第i个光伏电站最终评分，/>为子区域内第一类别中第i个光伏电站日均发电量归一化处理结果；/>为子区域内第一类别中第i个光伏电站日均发效率归一化处理结果；/>为子区域内第一类别中第i个光伏电站的电站故障率归一化处理结果；/>为子区域内第一类别中第i个光伏电站通信故障率归一化处理结果，w1、w2、w3、w4为权重系数。

上述技术方案的工作原理为：基于装机容量和设计参数分类：

首先，根据光伏电站的装机容量和设计参数，对子区域内的所有光伏电站进行分类。这些参数通常反映了电站的基本规模和技术水平，是评估电站性能的重要基础。分类的目的是将具有相似特征的光伏电站归为一类，便于后续的性能评估和标杆电站的选取。根据最近一段预设时间内的历史运行数据，对第一类别中的每个光伏电站进行评分。这段预设时间通常足够长，以反映电站的长期性能；可以是一年，也可以是两年、三年，这里不做具体限定；

评分体系综合考虑了日均发电量、日均发效率、电站故障率和通信故障率等多个指标，每个指标都经过归一化处理，以确保不同量纲的指标能够进行比较和加权。

每个光伏电站的最终评分是通过加权求和的方式计算得出的。具体地，将每个指标的归一化处理结果乘以相应的权重系数（w1、w2、w3、w4），然后将这些加权值相加，得到最终评分。

权重系数反映了不同指标在评估电站性能时的重要性。通常，权重系数可以根据实际需求和/或专家经验来确定的，以确保评估结果的准确性和合理性。

根据最终评分，选择前N个评分最高的光伏电站作为标杆电站。N的值是通过向上取整函数（ceiling）计算得出的，是子区域内每个第一类别光伏电站总数与一个正整数a的比值。确保了标杆电站具有优秀的性能表现，同时保证了标杆电站的数量在一个合理的范围内。也可以每隔一段时间评估性能，重新确定标杆电站。

综上所述，分布式光伏虚拟数据采集及特性分析方法在确定标杆电站时，通过基于装机容量和设计参数的分类、历史运行数据的评分、加权求和计算最终评分以及选择前N个高评分电站作为标杆电站等步骤，实现了对光伏电站性能的全面评估和标杆电站的科学选取。这一过程为后续的数据采集、传输和性能预测提供了重要的参考依据。

上述技术方案的效果为：通过对光伏电站进行分类，并基于装机容量和设计参数获得第一类别，可以实现对不同类型电站的精细化管理和优化。有助于识别出性能相似或具有特定特征的电站群体，从而为后续的标杆电站选取提供更为精准的范围。评分体系综合考虑了日均发电量、日均发电效率、电站故障率和通信故障率等多个指标，确保了电站性能的全面评估；评估方法不仅关注电站的发电能力，还考虑了电站的稳定性和可靠性，从而能够更全面地反映电站的整体性能。根据评分结果选择前N个评分最高的光伏电站作为标杆电站，确保了标杆电站具有优秀的性能表现。同时，通过向上取整函数确定标杆电站的数量，保证了标杆电站的数量在一个合理的范围内，为后续模型建立和预测奠定基础；提高模型预测准确性的同时减少计算量。

本申请一些实施例分布式光伏虚拟数据采集及特性分析方法，所述S2包括：

根据数据的重要性对采样数据进行评分，获得第二评分；

根据所述第三评分确定数据传输顺序；第三评分高的优选传输；

上述技术方案的工作原理为：首先，根据数据的重要性对采样数据进行评分，获得第二评分（P_j）。数据的重要性可以基于其对于光伏电站性能评估、故障诊断或优化决策的价值来评估。例如，关键性能指标、故障预警信号或异常事件数据可能具有更高的重要性评分。

将基于光伏电站性能评估的第一评分和基于数据重要性的第二评分进行加权平均，以获得第三评分。这一步骤旨在综合考虑电站性能和数据重要性两个方面的因素，以确定数据传输的优先级。加权平均的方法可以根据具体需求调整权重，以反映不同因素之间的相对重要性。

根据第三评分的高低来确定数据传输的顺序。评分高的数据将优先传输，以确保关键信息能够及时被接收和处理。动态调整数据传输顺序的机制有助于优化网络资源的利用，确保重要数据能够及时到达分析系统。

采样频率的调整是基于第二评分、实时带宽以及通信延迟来进行的。公式

用于计算调整后的采样频率。

其中，是对应数据的第二评分，反映了数据的重要性。较高的评分意味着数据更加关键，可能需要更高的采样频率来确保数据的准确性。

是预设采样频率，即在没有特殊需求时采用的基准采样频率。

和 /> 分别是预设带宽和预设通信延迟，作为参考基准用于计算调整因子。

和 /> 分别是当前的实时带宽和通信延迟，这些动态参数反映了网络的实际状况。

调整因子的计算考虑了带宽和通信延迟的变化情况。如果当前带宽高于预设带宽，或者当前通信延迟低于预设通信延迟，则调整因子会相应增加，导致采样频率上升。这意味着在网络条件较好的情况下，可以增加采样频率以获取更丰富的数据。如果网络条件较差，可以设置较低的采样频率，减少信息拥堵。

最终，通过应用调整因子到基准采样频率上，计算出调整后的采样频率。这个调整后的采样频率将用于指导实际的数据采集过程，确保数据采集与网络条件相匹配，既不过于频繁也不过于稀疏。

通过这种方法，分布式光伏虚拟数据采集及特性分析方法能够根据实际情况动态调整数据传输顺序和采样频率，以优化数据采集和传输的效率，同时确保关键数据的及时性和准确性。这有助于提升光伏电站的监控和管理水平，促进清洁能源的可持续发展。

其中，对于不同的数据类型，可以采用不同的评分方法来评估重要性。以下是一些可能的评分方法：

基于权重的评分：

为每种数据类型分配一个权重值，根据其在整体分析中的重要性来设定。

例如，性能数据可能被赋予更高的权重，而一些辅助数据（如气象数据）可能被赋予较低的权重。

基于业务目标的评分：

根据业务目标或需求来评估数据的重要性。

如果业务目标是最大化发电量，那么与性能相关的数据将被视为更重要。

基于历史数据的分析：

分析历史数据，找出那些对预测或决策有显著影响的数据类型。

为这些数据类型分配更高的评分。

基于专家知识的评分：

利用领域专家的知识和经验来评估数据的重要性。

专家可以根据他们的理解和判断来为每个数据类型分配一个评分。

综合评分法：

结合上述方法，使用加权平均或其他综合方法来为每个数据类型计算一个总评分。

评分示例

以下是一个简化的评分示例，为不同类型的数据分配了数据权重值：

性能数据（如发电量、效率）：数据权重为 0.7（最高）

故障和告警数据：数据权重为 0.6

环境数据（如温度、辐照度）：数据权重为 0.5

维护数据：数据权重为 0.4

这些数据权重值可以根据实际情况进行调整。在实际应用中，评分机制可能需要根据具体需求和数据特点进行细化和优化。

上述技术方案的效果为：通过根据数据的重要性和实时网络条件（带宽和通信延迟）来调整采样频率，可以更有效地利用网络资源。在带宽充足且通信延迟较低时增加采样频率，可以捕获更多的数据细节；而在网络拥堵或延迟较高时降低采样频率，可以避免数据丢失或过度占用网络资源。

根据第三评分（综合考虑光伏电站性能评估和数据重要性的评分）确定数据传输顺序，确保了关键数据的优先传输。这对于及时响应光伏电站的异常事件、性能下降或其他重要情况至关重要。通过优先传输关键数据，可以减少决策延迟，提高光伏电站的运行效率和可靠性。

动态调整采样频率有助于在不同网络条件下保持数据质量和分析的准确性。在高带宽和低延迟的条件下增加采样频率，可以获得更精确的数据，从而提高性能评估和故障诊断的准确性。而在网络条件较差时，适当降低采样频率可以平衡数据质量和网络负载，避免数据丢失或分析结果的偏差。

通过这种动态调整数据传输顺序和采样频率的方法，可以推动光伏电站的智能化运维和管理。通过实时监控网络条件和数据重要性，可以自动优化数据采集和传输策略，提高数据质量和减少传输拥堵。

综上所述，通过动态调整数据传输顺序和采样频率，分布式光伏虚拟数据采集及特性分析方法在优化网络资源利用、确保关键数据的及时传输、提高数据质量和分析准确性、促进智能化运维和管理以及增强系统的可扩展性和灵活性等方面带来了明显的效果。

本申请的一些实施例分布式光伏虚拟数据采集及特性分析方法，所述 S3包括：

获取最近一段预设时间内标杆电站的历史数据；这些数据包括性能数据（如发电量、效率等）、环境数据（如辐照度、温度、风速等）以及任何可能影响电站性能的其他因素；最近一段预设时间可以为三个月，半年，一年等；

针对每项预测目标，基于每种训练模型，分别获得第一预测结果；所述预测目标包括发电量、功耗或健康状况。

将多个第一预测结果进行加权平均，获得每项预测目标的最终预测结果；

其中，将多个第一预测结果进行加权平均，获得每项预测目标的最终预测结果，包括：

根据对比结果获得对应预测模型的权重。

上述技术方案的工作原理和效果为：首先，从标杆电站获取最近一段预设时间（如三个月、半年、一年等）内的历史数据。这些数据涵盖了性能数据（如发电量、效率等）、环境数据（如辐照度、温度、风速等）以及其他可能影响电站性能的因素。

接下来，对收集到的数据进行清洗和预处理，以消除数据中的缺失值、异常值，并进行数据格式转换，确保数据的质量和一致性。

使用聚类分析结合时间序列的方法，根据光照条件（如辐照度、日照时长等）将历史数据划分为不同的第一分组。这样做的目的是将具有相似光照条件的数据归为一类，以便在后续的模型训练中更好地捕捉光照对电站性能的影响。

在每个第一分组下，使用标杆电站的数据来训练多种预测模型。模型包括线性回归、决策树、随机森林以及神经网络等。每种模型都有其特定的优点和适用场景，通过训练多种模型可以提高预测的准确性和鲁棒性。

对于每项预测目标（如发电量、功耗或健康状况），基于每种训练好的模型，分别获得第一预测结果。这意味着每种模型都会生成一个预测值。

为了获得最终预测结果，需要将多个第一预测结果进行加权平均。这一步骤的关键在于确定每个预测模型的权重。

权重的确定是基于历史数据中实际数据与对应预测数据的对比结果。具体来说，可以通过计算预测误差（如均方误差、绝对误差等）来评估每个模型的预测性能。预测误差较小的模型将被赋予更高的权重，因为它们更可能提供准确的预测。

一旦确定了权重，就可以通过加权平均的方法将多个第一预测结果整合为最终预测结果。这种方法综合考虑了不同模型的预测能力，有助于提高预测的准确性和可靠性。

通过这一工作流程，分布式光伏虚拟数据采集及特性分析方法能够利用标杆电站的历史数据训练出多种预测模型，并通过整合不同模型的预测结果来生成最终的预测值。这种方法不仅提高了预测的准确性，还增强了模型对不同光照条件和电站性能的适应能力。

本申请一些实施例分布式光伏虚拟数据采集及特性分析方法，所述根据对比结果获得对应预测模型的权重，包括：

获得最近一次采集的光伏电站的实际数据；

将实际数据分别与对应的多个第一预测结果对比，获得多个第一差值；多个第一差值为预测结果与实际结果相减的并取绝对值；

例如，需要预测区域内5个光伏电站的日发电量，通过相同的3种预测模型预测；其中一种预测模型获得5个预测结果，根据5个实际结果，获得5个第一差值；另外两种预测模型也会分别获得5个第一差值；每种预测模型下，分别对对应的5个第一差值进行统计分析，获得对应的第一均值，以及第一最大值；

根据所述第一均值以及第一最大值，获得对应预测模型的权重；

其中，所述根据所述第一均值以及第一最大值，获得对应预测模型的权重，包括：

所述对应预测模型的权重通过如下公式获取：

上述技术方案的工作原理为：从光伏电站获取最近一次采集的实际数据。这些数据通常是电站的性能数据，如发电量、效率等。

将实际数据与每个预测模型生成的对应预测结果进行比较，通过相减并取绝对值来计算第一差值。这个差值代表了预测结果与实际结果之间的偏差。

对于同一预测目标（如发电量），将区域内多个站点基于同一预测模型获得的多个第一差值进行统计分析。统计分析包括计算第一差值的均值（第一均值）和最大值（第一最大值）。

通过公式：

来确定每个预测模型的权重。

公式将每个预测模型的权重与其第一均值和第一最大值的相对大小相关联。如果一个预测模型的第一均值较小（即预测结果更接近实际结果），并且其第一最大值也较小（即预测结果的波动性较小），那么它将获得更高的权重。

通过这个过程，分布式光伏虚拟数据采集及特性分析方法能够根据预测模型的性能动态地调整其权重；确保最终的预测结果更加准确和可靠，因为权重反映了每个预测模型在特定条件下的预测能力。

上述技术方案的效果为：通过对实际数据与预测结果的差值进行统计分析，可以确定每个预测模型在特定条件下的预测性能。将权重与预测性能相关联，可以确保性能更好的模型在最终预测结果中发挥更大的作用，从而提高预测的准确性。考虑了每个预测模型的第一最大值，即预测结果的最大偏差。这样做可以识别出那些即使在最坏情况下也能保持相对准确预测的模型。因此，通过这种方法确定的权重可以增强预测模型的鲁棒性，减少极端情况下的预测误差。权重确定过程提供了对预测模型性能的量化评估。这有助于模型开发者识别模型的不足之处，并进行针对性的优化和改进。通过不断改进模型，可以进一步提高预测的准确性和可靠性。由于权重是基于实际数据和预测结果的对比结果来确定的，因此这种方法可以适应不同的光伏电站场景和条件。无论是光照条件、环境温度还是其他影响电站性能的因素，都可以通过动态调整权重来反映模型在不同条件下的预测能力。

综上所述，通过对比实际数据与预测结果来确定预测模型的权重，分布式光伏虚拟数据采集及特性分析方法能够提高预测准确性、增强模型鲁棒性、促进模型优化与改进、适应不同场景和条件以及提高决策效率和可靠性。

本申请提出分布式光伏虚拟数据采集及特性分析系统，所述系统包括：

其中，第一确定模块包括：

采取区域信息获取单元，用于获取目标采集区域信息；其中，所述目标采集区域信息包括地形地貌、气候信息、年平均光照；

子区域划分单元，用于对目标采集区域信息进行聚类分析；根据聚类分析结果划分子区域；

电站信息获取单元，用于获取区域内的光伏电站信息，所述光伏电站信息包括装机容量、设计参数以及历史运行数据；所述历史运行数据包括发电量、效率、电站故障率以及通信故障率；

第一确定单元，用于根据光伏电站信息确定子区域内的标杆电站。

第一确定单元，包括：

第一类别确定子单元，用于基于所述装机容量和设计参数对子区域内光伏电站进行分类获得第一类别；

第一评分确定子单元，根据最近一段时间内的历史运行数据，对第一类别各光伏电站的评分；获得第一评分；

最终选取子单元，用于根据评分结果选取标杆电站；选择前N个评高的光伏电站为标杆电站；

其中，评分结果为：

数据采集与传输模块包括：

第二评分单元，用于根据数据的重要性对采样数据进行评分，获得第二评分；

第三评分单元，用于将所述第一评分和所述第二评分进行加权平均，获得第三评分；

传输单元，用于根据所述第三评分确定数据传输顺序；第三评分高的优先传输；

采样调整单元，用于根据所述第二评分、实时带宽以及通信延迟，调整采样频率；

模型预测模块包括：

历史数据获取单元，获取最近一段预设时间内标杆电站的历史数据；

预处理单元，用于对收集到的数据进行清洗和预处理，包括处理缺失值、异常值、数据格式转换；

第一分组单元，用于基于光照条件，通过聚类分析结合时间序列识别并划分第一分组；

模型训练单元，用于在同一第一分组下，使用标杆电站的数据，训练多种预测模型；所述多种预测模型包括线性回归、决策树、随机森林以及神经网络；

预测单元，用于针对每项预测目标，基于每种训练模型，分别获得第一预测结果；

综合预测单元，用于将多个第一预测结果进行加权平均，获得每项预测目标的最终预测结果。

其中，综合预测单元包括：

对比单元，基于预测目标，将历史数据中实际数据与对应预测数据进行对比，获得对比结果；

权重获取单元，用于根据对比结果获得对应预测模型的权重。

其中，权重获取单元包括：

实际数据确定单元，用于获得最近一次采集的光伏电站的实际数据；

第一差值单元，用于将实际数据分别与对应的多个第一预测结果对比，获得多个第一差值；

差值计算单元，用于基于同一预测目标，将区域内多个站点基于同一预测模型获得的多个第一差值进行统计分析，获得基于对应预测模型的第一差值的第一均值以及第一最大值；

权重确定单元，用于根据所述第一均值以及第一最大值，获得对应预测模型的权重；

所述对应预测模型的权重通过如下公式获取：

上述技术方案的工作原理与本申请所述分布式光伏虚拟数据采集及特性分析方法相同，在此不做赘述。

本申请提出一种电子设备，所述电子设备用于分布式光伏虚拟数据采集及特性分析，所述电子设备包括至少一个处理器和至少一个存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任一项所述分布式光伏虚拟数据采集及特性分析方法的步骤。

本申请从使用目的上，效能上，进步及新颖性等观点进行阐述，已符合专利法所强调的功能增进及使用要件，本申请以上的说明书及说明书附图，仅为本申请的较佳实施例而已，并非以此局限本申请，因此，凡一切与本申请构造，装置，特征等近似、雷同的，即凡依本申请专利申请范围所作的等同替换或修饰等，皆应属本申请的专利申请保护的范围之内。

Claims

1.分布式光伏虚拟数据采集及特性分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的分布式光伏虚拟数据采集及特性分析方法，其特征在于，所述S1包括：

根据光伏电站信息确定子区域内的标杆电站。

3.根据权利要求2所述的分布式光伏虚拟数据采集及特性分析方法，其特征在于，所述根据光伏电站信息确定子区域内的标杆电站，包括：

；

其中，评分结果为：

；

4.根据权利要求1所述的分布式光伏虚拟数据采集及特性分析方法，其特征在于，所述S2包括：

根据数据的重要性对采样数据进行评分，获得第二评分；

；

其中，为调整后的采样频率，/>为对应数据的第二评分；/>为预设采样频率；/>为预设带宽；/>为预设通信延迟；/>为当前带宽；/>为当前通信延迟。

5.根据权利要求1所述的分布式光伏虚拟数据采集及特性分析方法，其特征在于，所述S3包括：

获取最近一段预设时间内标杆电站的历史数据；

6.根据权利要求5所述的分布式光伏虚拟数据采集及特性分析方法，其特征在于，将多个第一预测结果进行加权平均，获得每项预测目标的最终预测结果，包括：

根据对比结果获得对应预测模型的权重。

7.根据权利要求6所述的分布式光伏虚拟数据采集及特性分析方法，其特征在于，所述根据对比结果获得对应预测模型的权重，包括：

获得最近一次采集的光伏电站的实际数据；

8.根据权利要求7所述的分布式光伏虚拟数据采集及特性分析方法，其特征在于，所述根据所述第一均值以及第一最大值，获得对应预测模型的权重，包括：

所述对应预测模型的权重通过如下公式获取：

；

9.分布式光伏虚拟数据采集及特性分析系统，其特征在于，所述系统包括：

10.一种电子设备，其特征在于，所述电子设备用于分布式光伏虚拟数据采集及特性分析，所述电子设备包括至少一个处理器和至少一个存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述方法的步骤。