CN116205508A

CN116205508A - 一种分布式光伏发电异常诊断方法和系统

Info

Publication number: CN116205508A
Application number: CN202211102247.5A
Authority: CN
Inventors: 林女贵; 徐鸣; 陈菲菲; 沈一民; 肖元正; 吕鹏; 谢方亮; 许华芳; 郑美春; 钱晓瑞; 余陆唯; 林燕; 罗秀华; 陈志�; 谢东源; 郑志钉
Original assignee: State Grid Fujian Electric Power Co Ltd; Marketing Service Center of State Grid Fujian Electric Power Co Ltd
Current assignee: State Grid Fujian Electric Power Co Ltd; Marketing Service Center of State Grid Fujian Electric Power Co Ltd
Priority date: 2022-07-21
Filing date: 2022-09-09
Publication date: 2023-06-02

Abstract

本发明为一种分布式光伏发电异常诊断方法和系统，方法包括：获取分布式光伏数据；根据所获取的分布式光伏数据选取特征；进行数据预处理；设置XGBoost集合模型的复杂度和模型参数，在模型中添加树使得模型的目标函数最优，以构建预测模型；根据所选取的特征，对预测模型进行训练和测试，迭代模型，调整模型的各项参数，获得调参后的预测模型；将待测的光伏发电数据输入调参后的预测模型，对分布式光伏发电进行异常诊断；本发明的系统与方法基于相同的构思，包括数据选取、特征选择、构建模型、模型优化、异常诊断五大模块，本发明能准确、快速筛选出发电量疑是异常的分布式光伏用户，提高光伏发电的运维效率。

Description

一种分布式光伏发电异常诊断方法和系统

技术领域

本发明涉及光伏发电技术，主要涉及一种分布式光伏发电异常诊断方法和系统。

背景技术

随着社会经济的发展，光伏发电技术日益成熟，分布式装机容量快速增长，分布式光伏发电在能源结构中的比例越来越重，建设规模越来越大。如何保证对分布式光伏的运行状态准确判断、及时发现异常情况，保证分布式光伏发电量、避免发电损失、提高运维效率、降低运维成本，成为分布式光伏建设完成后的关键。

CN108197774B《一种分布式光伏发电量异常诊断的方法及装置》中公开了“一种分布式光伏发电量异常诊断的方法及装置，通过获取目标用户的分布式光伏数据，得到目标用户的单位容量发电量，对某一目标用户的单位容量发电量与其他所有目标用户的单位容量发电量依次求差值的绝对值，并将所有的差值的绝对值求和，得到差值绝对值之和；然后将每个目标用户对应的差值绝对值之和按照矩阵排列，得到差值绝对值之和矩阵，矩阵中的元素个数为目标用户的个数；最后将差值绝对值之和矩阵中的元素从大到小进行排序，获取前n个元素对应的目标用户为发电量异常用户”，但该诊断方法存在一定不足，所述发明通过获取目标用户的分布式光伏数据。得到目标用户的单位容量发电量，但气象监测系统采集发电功率数据存在数据偏移和异常。例如，夜间光伏出力为零，受功率测量装置的零点漂移和测量精度的影响，历史记录中会出现负值，此种情况易导致异常诊断的结果准确性不高；且“对某一目标用户的单位容量发电量与其他所有目标用户的单位容量发电量依次求差值的绝对值，并将所有的差值的绝对值求和，得到差值绝对值之和；然后将每个目标用户对应的差值绝对值之和按照矩阵排列，得到差值绝对值之和矩阵，差值绝对值之和矩阵中的元素个数为目标用户的个数；最后将差值绝对值之和矩阵中的元素从大到小进行排序，获取前n个元素对应的目标用户为发电量异常用户”的诊断方法，数据量一旦过大，计算过程就会变得复杂，在该算法的稳定性不足的情况下，易降低异常诊断的效率。

发明内容

为了解决现有技术所存在的上述问题，本申请提供了一种分布式光伏发电异常诊断方法和系统。

本申请的技术方案如下：

一种分布式光伏发电异常诊断方法，包括以下步骤：

获取分布式光伏数据，包括分布式光伏信息台账、分布式光伏月发电数据及天气情况数据；

根据所获取的分布式光伏数据选取特征，包括光伏发电能力差异、发电量波动、理论发电量及气候因素；

对所述分布式光伏数据进行数据预处理；

构建预测模型：设置XGBoost集合模型的复杂度和模型参数，在模型中添加树使得模型的目标函数最优，将具有最优树结构的XGBoost集合模型构建为预测模型；

根据所选取的特征，对所构建的预测模型进行训练和测试，迭代模型，调整模型的各项参数，确定模型的最佳参数，获得调参后的预测模型；

将待测的光伏发电数据输入调参后的预测模型，对分布式光伏发电进行异常诊断。

优选的，构建预测模型时，利用数学语言描述XGBoost集合模型

为：

其中，t是树的数量，f_t是函数空间F里的一个函数，函数空间F是所有可能的分类回归树的集合，x_i为输入的各变量特征；

模型的目标函数为：

其中，

为模型的损失函数，Ω(f_t)为模型的复杂度；f_t为模型参数，用于控制树结构和节点上的得分；n为自然数，指添加n棵树。

优选的，构建预测模型时，添加树的策略为：

首先固定已经学习到的模型，再每次向模型里添加一棵树；并将第t次添加一棵树后得到的预测结果记为

预测结果的数学表达式为：

其中，

指添加第一棵树的预测值，/>

指在第一轮预测值的基础上再添加一棵树的预测值，/>

指在t－1轮预测值的基础上再添加一棵树的预测值；

添加树之后的目标函数Obj^(t)的数学表达式为：

其中，C为常数项，

为模型的损失函数，Ω(f_t)为模型的复杂度；f_t为模型参数，用于控制树结构和节点上的得分。

优选的，构建预测模型时，利用softmax作为模型的损失函数，目标函数的泰勒二阶展开式为：

其中，

为当前叶子节点i的一阶导数系数，l(y_i，y_i ^(t-1))是计算t-1棵树为止的预测结果的损失累加值；g_i为当前叶子节点i包含的样本的一阶导数，h_i为当前叶子节点i包含的样本的二阶导数。

优选的，模型参数f_t的定义为：

f_t(x)＝w_q(x)，w∈R^T，q：R^d→{1，2，，T}

f_t(x)＝w_q(x)，w∈R^T，q：R^d→{1，2，…，T}

其中，w是叶子上的分数矢量；q(x)为树结构，是将每个数据点分配给相应叶子的映射；R是实数，T是叶子的数量；

模型的复杂度Ω(f)定义为：

其中，γ和λ均为超参数，

为每个叶节点输出预测值的平方值；

加入第t棵树后的最终目标函数为：

I_j＝{i|q(x_i)＝j}

其中，I_j为在叶子节点j上的样本数据集，G_j为叶子节点j上的样本数据集的一阶导数总和，H_j为叶子节点j上的样本数据集的二阶导数总和；g_i为当前叶子节点i包含的样本的一阶导数，h_i为当前叶子节点i包含的样本的二阶导数。

优选的，最终目标函数的最优树结构的选择方式具体为：

每次优化树的一层，假设一个叶子分裂为两个叶子，则叶子的得分增益为：

其中，L表示叶子分裂后的左叶，R表示叶子分裂后的右叶，G_L为左叶节点包含的样本的一阶导数之和，H_L为左叶节点包含的样本的二阶导数之和，G_R为右叶节点包含的样本的一阶导数之和，H_R为右叶节点包含的样本的二阶导数之和；

如果叶子的得分增益小于预设的超参数γ，则不将该叶子分裂，从而得到最优的树结构，获得具有最优树结构的XGBoost集合模型。

优选的，所述数据预处理具体为对获取的分布式光伏数据中突增突减的数据进行异常值处理。

本申请技术方案还包括：

一种分布式光伏发电异常诊断系统，包括：

数据获取模块，用于获取分布式光伏数据并进行数据预处理，包括分布式光伏信息台账、分布式光伏月发电数据及天气情况数据；

特征选择模块，根据所获取的分布式光伏数据选取特征，包括光伏发电能力差异、发电量波动、理论发电量及气候因素；

构建模块，用于构建预测模型，设置XGBoost集合模型的复杂度和模型参数，在模型中添加树使得模型的目标函数最优，将具有最优树结构的XGBoost集合模型构建为预测模型；

模型优化模块，根据所选取的特征，对所构建的预测模型进行训练和测试，迭代模型，调整模型的各项参数，确定模型的最佳参数，获得调参后的预测模型；

异常诊断模块，将待测的光伏发电数据输入调参后的预测模型，对分布式光伏发电进行异常诊断。

优选的，构建模块在构建预测模型时，利用数学语言描述XGBoost集合模型

为：

模型的目标函数为：

其中，

为模型的损失函数，Ω(f_t)为模型的复杂度；f_t为模型参数，用于控制树结构和节点上的得分；n为自然数，指添加n棵树；

构建模块在构建预测模型时，添加树的策略为：

预测结果的数学表达式为：/>

其中，

指添加第一棵树的预测值，/>

指在第一轮预测值的基础上再添加一棵树的预测值，/>

指在t－1轮预测值的基础上再添加一棵树的预测值；

添加树之后的目标函数Obj^(t)的数学表达式为：

其中，C为常数项，

本申请技术方案还包括一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时可执行本发明实施例任一项所述分布式光伏发电异常诊断方法的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明提供了一种分布式光伏发电异常诊断方法和系统，通过对数据进行预处理，消除异常数据对模型的影响，提升模型预测能力准确度；

2、本发明提供了一种分布式光伏发电异常诊断方法和系统，通过构建基于XGBoost集合模型的预测模型，对分布式光伏发电是否异常进行诊断；其中，对XGBoost集合模型的复杂度和模型参数均进行了重新定义和设置，并在模型中添加树以优化目标函数，使模型具有最优的树结构，提高了模型的稳定性和泛化能力，有效避免模型过拟合或欠拟合的问题，科学、准确地筛选出发电量疑是异常的分布式光伏用户，提高光伏发电的运维效率。

附图说明

图1是本发明实施例中分布式光伏发电异常诊断方法的流程图；

图2是本发明实施例中分布式光伏发电异常诊断系统的结构框图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

本发明提供以下技术方案：一种分布式光伏发电异常诊断方法和系统。

实施例1

本实施例以分布式光伏信息台账、发电数据及气象数据为基础，考虑光伏发电能力差异度、发电量波动情况等分布式光伏发电特征，并结合分布式光伏发电所属季节、温度等气候因素，提出了一种分布式光伏发电异常诊断方法。该方法可以筛选出发电量疑是异常的分布式光伏用户，为运维人员现场排查、检修等提供数据支撑，提高了运维效率，从而保证分布式光伏高效规范运行。

如图1所示，本实施例为一种分布式光伏发电异常诊断方法，包括以下步骤：

S1、获取分布式光伏数据

本实施例所需要的分布式光伏数据主要采集于用电采集系统以及城市气象站，包括但不限于：分布式光伏信息台账、分布式光伏月发电数据、区县日天气情况数据。

S2、根据所获取的分布式光伏数据选取特征

(1)光伏发电能力差异

等效利用小时数是评估光伏发电能力的主要衡量指标，为分布式光伏发电量与光伏的装机容量的比值，其计算公式为：

其中，GEAH表示等效利用小时数(单位：h)，E_p表示分布式光伏月发电量(单位：kw·h)，PAZ表示分布式光伏的装机容量(单位：kw)。

正常情况下，在同一时段、同一区域范围内，分布式光伏的等效利用小时数应该在同一水平(天气等情况差异程度不大，可忽略不计)，不会有太大的偏差。如果出现偏差较大的，该分布式光伏发电可能存在异常。光伏发电能力差异计算公式为：

(2)发电量波动

发电量波动是指分布式光伏发电量相较于近半年的波动情况。计算公式为：

(3)理论发电量

基于分布式光伏历史发电量，利用经验条件Copula函数实现分布式光伏理论发电量的区间预测，得到理论发电量的上下限。当本月发电量偏离理论发电量越大，分布式光伏发电越可能出现异常。

本实施例中，基于经验条件Copula函数实现区间预测的主要过程包括：

计算边缘分布函数，将X域内的数据变化换为F域；

在F域内构建条件Copula函数；

计算给定置信度水平下F域内的Copula函数上限、下限；

将F域内Copula函数的上限、下限变换为在X域内的上限和下限。

其中，X域是指历史发电量X_T-t，X_T-t+1,…X_TF域是指边缘分布函数F_T-t(X_T-t)，F_T-t+1(X_T-t+1|，…F_T(X_T)，

(4)气候因素

气候因素是影响分布式光伏发电的重要因素之一，具体包含：气温、季节、天气类型等。其中，针对天气类型，气象部门对不同天气状态划分为33种天气类型，但现有的历史天气数据与气象部门划分的天气类型相对应的记录较少，不能满足要求；所以本实施例根据天气情况，将天气类型划分为多云、晴、阴雨、阴雨/多云及晴、多云/雨、多云/晴、雾、雾/晴等8种天气类型。

(5)其他因素

本实施例中，对发电量是否异常的诊断，需要考量的其他因素，包括：发电量是否为零、全额上网电量与发电量是否一致、上网电量与发电量差异、全额上网电量是否为零等。

S3、数据预处理

由于在实际运行过程中，发电量存在突增突减的情况，导致其涉及的指标计算也存在突增突减，这在模型训练过程中对模型的预测能力影响较大。因此，本实施例需要对这类突增突减的数据进行异常值处理。在本实施例中，根据相似性原则，对于异常数据，采用与其相似的样本数据的均值进行替代，以减少由于数据异常给模型预测效果带来的影响。

S4、构建预测模型。设置XGBoost集合模型的复杂度和模型参数，在模型中添加树使得模型的目标函数最优，将具有最优树结构的XGBoost集合模型构建为预测模型。

XGBoost是一组分类回归树(CART)的集成。通常，单棵树的强度不足以在实践中使用。实际使用的是集合模型，将多棵树的预测结合在一起，将每棵树的预测分数相加以得到最终分数。利用数学语言描述XGBoost集合模型

为：

其中，t是树的数量，f_t是函数空间F里的一个函数，函数空间F是所有可能的分类回归树CART的集合。上述集合模型的求和公式符号中为t＝1，指的是从第一轮到第t轮添加树；而x_i为输入的各变量特征。

本实施例中模型的目标函数由下式给出：

其中，

为模型的损失函数，Ω(f_t)为模型的复杂度；f_t为模型参数，该模型参数控制了树的结构和节点上的得分；n为自然数，指添加n棵树。而训练模型参数f_t的难度远远高于一般机器学习中参数的训练；为此，本实施例采用一种添加策略：首先固定已经学习到的模型，再每次向模型里添加一棵树。本实施例将第t次添加一棵树后得到的预测结果记为/>

于是有以下预测结果的数学表达式：/>

其中，

指添加第一棵树的预测值，/>

指在第一轮预测值的基础上再添加一棵树的预测值，依次类推，/>

指在t－1轮预测值的基础上再添加一棵树的预测值。

训练模型参数f_t的关键之处在于每一次应该添加怎样的树，本实施例添加树的原则为：所添加的树使得目标函数Obj^(t)最优。添加树之后的目标函数Obj^(t)的数学表达式为：

其中，C为常数项。若利用softmax作为模型的损失函数，那么上述目标函数的泰勒二阶展开式为：

该定义的一个重要优点是目标函数的值仅取决于g_i和h_i。其中，

为当前叶子节点i的一阶导数系数，l(y_i，y_i ^(t-1))是计算t-1棵树为止的预测结果的损失累加值；g_i为当前叶子节点i包含的样本的一阶导数，h_i为当前叶子节点i包含的样本的二阶导数，这两者都是常量。

本实施例对模型的复杂度Ω(f)进行了定义。在定义模型的复杂度在之前，首先完善模型参数f_t的定义：

f_t(x)＝w_q(x)，w∈R^T，q：R^d→{1，2，…，T}

其中w是叶子上的分数矢量；q(x)是一个将每个数据点分配给相应叶子的映射，即树结构；R是实数，T是叶子的数量。在XGBoost模型中，本实施例将模型的复杂度Ω(f)定义为：

其中,γ和λ均为超参数，

为每个叶节点输出预测值的平方值。

当然，定义模型复杂度的方法不止一种，但这种定义方法在实践中效果很好，定义了一个合适的模型复杂度，从而得到一个相对稳定且泛化能力较好的模型，能够有效避免模型过拟合或欠拟合的问题。

在重新定义了模型参数和模型复杂度之后，加入了第t棵树后的最终目标函数为：

其中，I_j为在叶子节点j上的样本数据集，G_j为叶子节点j上的样本数据集的一阶导数总和，H_j为叶子节点j上的样本数据集的二阶导数总和，数学表达式分别为：

I_j＝{i|q(x_i)＝j}

由此可知，最终目标函数是关于j、w的二次函数；这样，最终目标函数的极小值点

和极小值obj^*分别为：

其中，最终目标函数的极小值是衡量XGBoost模型中树结构q(x)优劣的标准，极小值越小代表树结构越好。

理论上，基于上述这个标准，尝试所有可能情况后，能够选择出最优的树结构，然而太费时。于是，本实施例每次优化树的一层，假设一个叶子分裂为两个叶子，则叶子的得分增益为：

其中，L表示叶子分裂后的左叶，R表示叶子分裂后的右叶，G_L为左叶节点包含的样本的一阶导数之和，H_L为左叶节点包含的样本的二阶导数之和，G_R为右叶节点包含的样本的一阶导数之和，H_R为右叶节点包含的样本的二阶导数之和。

S5、根据所选取的特征，对具有最优树结构的XGBoost集合模型(即所构建的预测模型)进行训练和测试，迭代模型，调整模型的各项参数，确定模型的最佳参数，获得调参后的预测模型。

将光伏发电能力差异、发电量波动情况、气温、气象类型等特征输入到Xgboost集合模型中，不断迭代模型，根据模型的分类准确率，调整模型的各项参数，如损失函数、惩罚系数等，最终确定模型的最佳参数。具体过程如下：

(1)划分训练集和测试集

为避免机器学习过程中出现过拟合现象，即将个别训练样本的特异性当作整个数据集的共性，表现在训练结果的准确度非常高，实际应用中对后期数据进行预测准确率显著低于训练结果。所以建模过程中需要对样本数据进行划分，通常将数据划分为训练集和测试集两个部分。其中训练集主要用于模型训练，测试集主要用于验证模型的准确率。依据大数定理在样本足够多的情况下不会改变训练集和测试集的数据分布，因此验证集上预测准确率能够更好的衡量整个模型的准确情况。

本实施例根据数据的实际情况，将所选取的光伏发电能力差异、发电量波动情况、气温、气象类型等特征数据中，2019年1月至2022年2月的数据作为模型的训练集，并将2022年3月的数据作为模型的测试集。

(2)评价指标

在模型搭建完成之后，需要对模型进行评估，针对不同的算法模型有不同的评估方法，比如：分类算法、回归算法、聚类算法等。本实施例分布式光伏发电异常诊断方法本质上是分类算法，采用的评价指标主要有准确率、查准率、查全率等。

准确率：预测正确的占比。计算公式为：

查准率：在真实值为正的样本中，预测正确的样本占比。计算公式为：

查全率：在预测值为正的样本中，预测为正的样本占比。计算公式为：

(3)模型训练与迭代优化

将训练集数据输入到XGBoost模型中进行训练，根据模型分类的准确率，不断迭代优化，最终确定模型的最佳参数，以期提升模型的准确率。

最终确定的模型参数如下：

1)learning_rate＝0.1；

学习率learning_rate也叫作eta，系统默认值为0.3，表征了每一步迭代的步长。学习率太大了运行准确率不高，太小了运行速度慢。本实施例的学习率使用比默认值小一点的值，优选为0.1。

2)n_estimator＝320；

n_estimatores也可称为num_boosting_rounds，是生成的最大树的数目，也是最大的迭代次数；本实施例将其设置为320。

3)colsample_bytree＝0.7；

colsample_bytree的系统默认值为1，用于控制每棵树随机采样的列数的占比(每一列是一个特征)，防止过拟合使用。典型的取值范围为0.5-1之间，在本实施例中取0.7。

4)subsample＝0.8；

Subsample的系统默认值为1，该参数用于控制每棵树的随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。这个参数的典型取值范围为0.5-1之间，0.5代表平均采样，防止过拟合；在本实施例取0.8。

5)alpha＝0.05；

Alpha的默认值为0，为权重的L1正则化项。可以应用在很高维度的情况下，使得算法的速度更快，本实施例取0.05。

6)lambda＝1；

Lambda的默认值为0，为权重的L2正则化项。这个参数用于控制XGBoost的正则化部分的，在减少模型过拟合上很有帮助；本实施例取1。

7)max_depth；

max_depth表征树的最大深度，系统默认值为6，常用3-10之间的数字。该参数用于控制过拟合，max_depth越大，越容易过拟合；max_depth越小，越容易欠拟合。设置为0代表没有限制，取值范围为[0，∞]。本实施例中采用默认值。

8)min_child_weight；

min_child_weight的系统默认值为1。值越大，越容易欠拟合；值越小，越容易过拟合。在本实施例中采用默认值。

9)gamma；

Gamma参数的系统默认值为0。在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值，这个参数的值越大，算法越保守。因为gamma值越大的时候，损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点。该参数的取值范围为[0，∞]，本实施例采用默认值。

10)slient；

Slient的系统默认值为0，用于表征是否有运行信息输出，该参数设置为1时则没有运行信息输出。本实施例中取默认值。

S6、异常研判

将待测的光伏发电数据输入调参后的预测模型，对分布式光伏发电进行异常诊断，得到分布式光伏发电异常诊断结果，诊断结果包括高异常、中异常、低异常、无异常。

在上述最优参数设置的情况下，本实施例中预测模型的分类准确率已达到业务应用标准，为87％。各类异常分类结果如下表一所示：

表一

异常程度	准确率	查全率	筛查率	累计准确率	累计查全率
						高	89％	18.7％	0.5％	89％	18.7％
中	86％	63.0％	2.7％	87％	81.7％
						低	36％	17.6％	20.3％	70％	99.3％
无	0％	0.7％	76.5％	70％	99.3％

根据模型异常诊断结果(高异常、中异常、低异常或无异常)，筛查2.7％，即选择异常程度为高异常、中异常的分布式光伏用户，结合历史异常核实情况、气象等辅助研判信息，为运维人员现场核实、检修等提供数据支撑，进一步保证了分布式光伏高效规范运行。

实施例2

与实施例1基于相同的发明构思，本实施例提出的是一种分布式光伏发电异常诊断系统，包括：

在本实施例中，上述各模块用于实现实施例1的各个步骤，例如构建模块在构建预测模型时，利用数学语言描述XGBoost集合模型

为：

其中，t是树的数量，f_t是函数空间F里的一个函数，函数空间F是所有可能的分类回归树的集合；x_i为输入的各变量特征；

模型的目标函数为：

其中，

构建模块在构建预测模型时，添加树的策略为：

预测结果的数学表达式为：

其中，

指添加第一棵树的预测值，/>

指在第一轮预测值的基础上再添加一棵树的预测值，/>

指在t－1轮预测值的基础上再添加一棵树的预测值；

添加树之后的目标函数Obj^(t)的数学表达式为：

其中，C为常数项，

本实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当处理器执行所述计算机程序时实现实施例1的分布式光伏发电异常诊断方法的各个步骤。

本实施例的光伏发电异常诊断系统和计算机设备，均与实施例1基于相同的发明构思，其余具体的技术手段请参见实施例1，不再赘述。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。