CN116205508A - 一种分布式光伏发电异常诊断方法和系统 - Google Patents

一种分布式光伏发电异常诊断方法和系统 Download PDF

Info

Publication number
CN116205508A
CN116205508A CN202211102247.5A CN202211102247A CN116205508A CN 116205508 A CN116205508 A CN 116205508A CN 202211102247 A CN202211102247 A CN 202211102247A CN 116205508 A CN116205508 A CN 116205508A
Authority
CN
China
Prior art keywords
model
power generation
distributed photovoltaic
tree
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211102247.5A
Other languages
English (en)
Inventor
林女贵
徐鸣
陈菲菲
沈一民
肖元正
吕鹏
谢方亮
许华芳
郑美春
钱晓瑞
余陆唯
林燕
罗秀华
陈志�
谢东源
郑志钉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Fujian Electric Power Co Ltd
Marketing Service Center of State Grid Fujian Electric Power Co Ltd
Original Assignee
State Grid Fujian Electric Power Co Ltd
Marketing Service Center of State Grid Fujian Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Fujian Electric Power Co Ltd, Marketing Service Center of State Grid Fujian Electric Power Co Ltd filed Critical State Grid Fujian Electric Power Co Ltd
Publication of CN116205508A publication Critical patent/CN116205508A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02SGENERATION OF ELECTRIC POWER BY CONVERSION OF INFRARED RADIATION, VISIBLE LIGHT OR ULTRAVIOLET LIGHT, e.g. USING PHOTOVOLTAIC [PV] MODULES
    • H02S50/00Monitoring or testing of PV systems, e.g. load balancing or fault identification
    • H02S50/10Testing of PV devices, e.g. of PV modules or single PV cells
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Photovoltaic Devices (AREA)

Abstract

本发明为一种分布式光伏发电异常诊断方法和系统,方法包括:获取分布式光伏数据;根据所获取的分布式光伏数据选取特征;进行数据预处理;设置XGBoost集合模型的复杂度和模型参数,在模型中添加树使得模型的目标函数最优,以构建预测模型;根据所选取的特征,对预测模型进行训练和测试,迭代模型,调整模型的各项参数,获得调参后的预测模型;将待测的光伏发电数据输入调参后的预测模型,对分布式光伏发电进行异常诊断;本发明的系统与方法基于相同的构思,包括数据选取、特征选择、构建模型、模型优化、异常诊断五大模块,本发明能准确、快速筛选出发电量疑是异常的分布式光伏用户,提高光伏发电的运维效率。

Description

一种分布式光伏发电异常诊断方法和系统
技术领域
本发明涉及光伏发电技术,主要涉及一种分布式光伏发电异常诊断方法和系统。
背景技术
随着社会经济的发展,光伏发电技术日益成熟,分布式装机容量快速增长,分布式光伏发电在能源结构中的比例越来越重,建设规模越来越大。如何保证对分布式光伏的运行状态准确判断、及时发现异常情况,保证分布式光伏发电量、避免发电损失、提高运维效率、降低运维成本,成为分布式光伏建设完成后的关键。
CN108197774B《一种分布式光伏发电量异常诊断的方法及装置》中公开了“一种分布式光伏发电量异常诊断的方法及装置,通过获取目标用户的分布式光伏数据,得到目标用户的单位容量发电量,对某一目标用户的单位容量发电量与其他所有目标用户的单位容量发电量依次求差值的绝对值,并将所有的差值的绝对值求和,得到差值绝对值之和;然后将每个目标用户对应的差值绝对值之和按照矩阵排列,得到差值绝对值之和矩阵,矩阵中的元素个数为目标用户的个数;最后将差值绝对值之和矩阵中的元素从大到小进行排序,获取前n个元素对应的目标用户为发电量异常用户”,但该诊断方法存在一定不足,所述发明通过获取目标用户的分布式光伏数据。得到目标用户的单位容量发电量,但气象监测系统采集发电功率数据存在数据偏移和异常。例如,夜间光伏出力为零,受功率测量装置的零点漂移和测量精度的影响,历史记录中会出现负值,此种情况易导致异常诊断的结果准确性不高;且“对某一目标用户的单位容量发电量与其他所有目标用户的单位容量发电量依次求差值的绝对值,并将所有的差值的绝对值求和,得到差值绝对值之和;然后将每个目标用户对应的差值绝对值之和按照矩阵排列,得到差值绝对值之和矩阵,差值绝对值之和矩阵中的元素个数为目标用户的个数;最后将差值绝对值之和矩阵中的元素从大到小进行排序,获取前n个元素对应的目标用户为发电量异常用户”的诊断方法,数据量一旦过大,计算过程就会变得复杂,在该算法的稳定性不足的情况下,易降低异常诊断的效率。
发明内容
为了解决现有技术所存在的上述问题,本申请提供了一种分布式光伏发电异常诊断方法和系统。
本申请的技术方案如下:
一种分布式光伏发电异常诊断方法,包括以下步骤:
获取分布式光伏数据,包括分布式光伏信息台账、分布式光伏月发电数据及天气情况数据;
根据所获取的分布式光伏数据选取特征,包括光伏发电能力差异、发电量波动、理论发电量及气候因素;
对所述分布式光伏数据进行数据预处理;
构建预测模型:设置XGBoost集合模型的复杂度和模型参数,在模型中添加树使得模型的目标函数最优,将具有最优树结构的XGBoost集合模型构建为预测模型;
根据所选取的特征,对所构建的预测模型进行训练和测试,迭代模型,调整模型的各项参数,确定模型的最佳参数,获得调参后的预测模型;
将待测的光伏发电数据输入调参后的预测模型,对分布式光伏发电进行异常诊断。
优选的,构建预测模型时,利用数学语言描述XGBoost集合模型
Figure BDA0003841064490000031
为:
Figure BDA0003841064490000032
其中,t是树的数量,ft是函数空间F里的一个函数,函数空间F是所有可能的分类回归树的集合,xi为输入的各变量特征;
模型的目标函数为:
Figure BDA0003841064490000033
其中,
Figure BDA0003841064490000034
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分;n为自然数,指添加n棵树。
优选的,构建预测模型时,添加树的策略为:
首先固定已经学习到的模型,再每次向模型里添加一棵树;并将第t次添加一棵树后得到的预测结果记为
Figure BDA0003841064490000035
预测结果的数学表达式为:
Figure BDA0003841064490000041
其中,
Figure BDA0003841064490000042
指添加第一棵树的预测值,/>
Figure BDA0003841064490000043
指在第一轮预测值的基础上再添加一棵树的预测值,/>
Figure BDA0003841064490000044
指在t-1轮预测值的基础上再添加一棵树的预测值;
添加树之后的目标函数Obj(t)的数学表达式为:
Figure BDA0003841064490000045
其中,C为常数项,
Figure BDA0003841064490000046
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分。
优选的,构建预测模型时,利用softmax作为模型的损失函数,目标函数的泰勒二阶展开式为:
Figure BDA0003841064490000051
其中,
Figure BDA0003841064490000052
为当前叶子节点i的一阶导数系数,l(yi,yi (t-1))是计算t-1棵树为止的预测结果的损失累加值;gi为当前叶子节点i包含的样本的一阶导数,hi为当前叶子节点i包含的样本的二阶导数。
优选的,模型参数ft的定义为:
ft(x)=wq(x),w∈RT,q:Rd→{1,2,,T}
ft(x)=wq(x),w∈RT,q:Rd→{1,2,…,T}
其中,w是叶子上的分数矢量;q(x)为树结构,是将每个数据点分配给相应叶子的映射;R是实数,T是叶子的数量;
模型的复杂度Ω(f)定义为:
Figure BDA0003841064490000053
其中,γ和λ均为超参数,
Figure BDA0003841064490000054
为每个叶节点输出预测值的平方值;
加入第t棵树后的最终目标函数为:
Figure BDA0003841064490000061
Ij={i|q(xi)=j}
Figure BDA0003841064490000062
Figure BDA0003841064490000063
其中,Ij为在叶子节点j上的样本数据集,Gj为叶子节点j上的样本数据集的一阶导数总和,Hj为叶子节点j上的样本数据集的二阶导数总和;gi为当前叶子节点i包含的样本的一阶导数,hi为当前叶子节点i包含的样本的二阶导数。
优选的,最终目标函数的最优树结构的选择方式具体为:
每次优化树的一层,假设一个叶子分裂为两个叶子,则叶子的得分增益为:
Figure BDA0003841064490000071
其中,L表示叶子分裂后的左叶,R表示叶子分裂后的右叶,GL为左叶节点包含的样本的一阶导数之和,HL为左叶节点包含的样本的二阶导数之和,GR为右叶节点包含的样本的一阶导数之和,HR为右叶节点包含的样本的二阶导数之和;
如果叶子的得分增益小于预设的超参数γ,则不将该叶子分裂,从而得到最优的树结构,获得具有最优树结构的XGBoost集合模型。
优选的,所述数据预处理具体为对获取的分布式光伏数据中突增突减的数据进行异常值处理。
本申请技术方案还包括:
一种分布式光伏发电异常诊断系统,包括:
数据获取模块,用于获取分布式光伏数据并进行数据预处理,包括分布式光伏信息台账、分布式光伏月发电数据及天气情况数据;
特征选择模块,根据所获取的分布式光伏数据选取特征,包括光伏发电能力差异、发电量波动、理论发电量及气候因素;
构建模块,用于构建预测模型,设置XGBoost集合模型的复杂度和模型参数,在模型中添加树使得模型的目标函数最优,将具有最优树结构的XGBoost集合模型构建为预测模型;
模型优化模块,根据所选取的特征,对所构建的预测模型进行训练和测试,迭代模型,调整模型的各项参数,确定模型的最佳参数,获得调参后的预测模型;
异常诊断模块,将待测的光伏发电数据输入调参后的预测模型,对分布式光伏发电进行异常诊断。
优选的,构建模块在构建预测模型时,利用数学语言描述XGBoost集合模型
Figure BDA0003841064490000081
为:
Figure BDA0003841064490000082
其中,t是树的数量,ft是函数空间F里的一个函数,函数空间F是所有可能的分类回归树的集合,xi为输入的各变量特征;
模型的目标函数为:
Figure BDA0003841064490000083
其中,
Figure BDA0003841064490000084
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分;n为自然数,指添加n棵树;
构建模块在构建预测模型时,添加树的策略为:
首先固定已经学习到的模型,再每次向模型里添加一棵树;并将第t次添加一棵树后得到的预测结果记为
Figure BDA0003841064490000085
预测结果的数学表达式为:/>
Figure BDA0003841064490000091
其中,
Figure BDA0003841064490000092
指添加第一棵树的预测值,/>
Figure BDA0003841064490000093
指在第一轮预测值的基础上再添加一棵树的预测值,/>
Figure BDA0003841064490000094
指在t-1轮预测值的基础上再添加一棵树的预测值;
添加树之后的目标函数Obj(t)的数学表达式为:
Figure BDA0003841064490000095
其中,C为常数项,
Figure BDA0003841064490000096
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分。
本申请技术方案还包括一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时可执行本发明实施例任一项所述分布式光伏发电异常诊断方法的步骤。
与现有技术相比,本发明的有益效果是:
1、本发明提供了一种分布式光伏发电异常诊断方法和系统,通过对数据进行预处理,消除异常数据对模型的影响,提升模型预测能力准确度;
2、本发明提供了一种分布式光伏发电异常诊断方法和系统,通过构建基于XGBoost集合模型的预测模型,对分布式光伏发电是否异常进行诊断;其中,对XGBoost集合模型的复杂度和模型参数均进行了重新定义和设置,并在模型中添加树以优化目标函数,使模型具有最优的树结构,提高了模型的稳定性和泛化能力,有效避免模型过拟合或欠拟合的问题,科学、准确地筛选出发电量疑是异常的分布式光伏用户,提高光伏发电的运维效率。
附图说明
图1是本发明实施例中分布式光伏发电异常诊断方法的流程图;
图2是本发明实施例中分布式光伏发电异常诊断系统的结构框图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
本发明提供以下技术方案:一种分布式光伏发电异常诊断方法和系统。
实施例1
本实施例以分布式光伏信息台账、发电数据及气象数据为基础,考虑光伏发电能力差异度、发电量波动情况等分布式光伏发电特征,并结合分布式光伏发电所属季节、温度等气候因素,提出了一种分布式光伏发电异常诊断方法。该方法可以筛选出发电量疑是异常的分布式光伏用户,为运维人员现场排查、检修等提供数据支撑,提高了运维效率,从而保证分布式光伏高效规范运行。
如图1所示,本实施例为一种分布式光伏发电异常诊断方法,包括以下步骤:
S1、获取分布式光伏数据
本实施例所需要的分布式光伏数据主要采集于用电采集系统以及城市气象站,包括但不限于:分布式光伏信息台账、分布式光伏月发电数据、区县日天气情况数据。
S2、根据所获取的分布式光伏数据选取特征
(1)光伏发电能力差异
等效利用小时数是评估光伏发电能力的主要衡量指标,为分布式光伏发电量与光伏的装机容量的比值,其计算公式为:
Figure BDA0003841064490000111
其中,GEAH表示等效利用小时数(单位:h),Ep表示分布式光伏月发电量(单位:kw·h),PAZ表示分布式光伏的装机容量(单位:kw)。
正常情况下,在同一时段、同一区域范围内,分布式光伏的等效利用小时数应该在同一水平(天气等情况差异程度不大,可忽略不计),不会有太大的偏差。如果出现偏差较大的,该分布式光伏发电可能存在异常。光伏发电能力差异计算公式为:
Figure BDA0003841064490000112
(2)发电量波动
发电量波动是指分布式光伏发电量相较于近半年的波动情况。计算公式为:
Figure BDA0003841064490000121
(3)理论发电量
基于分布式光伏历史发电量,利用经验条件Copula函数实现分布式光伏理论发电量的区间预测,得到理论发电量的上下限。当本月发电量偏离理论发电量越大,分布式光伏发电越可能出现异常。
本实施例中,基于经验条件Copula函数实现区间预测的主要过程包括:
计算边缘分布函数,将X域内的数据变化换为F域;
在F域内构建条件Copula函数;
计算给定置信度水平下F域内的Copula函数上限、下限;
将F域内Copula函数的上限、下限变换为在X域内的上限和下限。
其中,X域是指历史发电量XT-t,XT-t+1,…XTF域是指边缘分布函数FT-t(XT-t),FT-t+1(XT-t+1|,…FT(XT),
(4)气候因素
气候因素是影响分布式光伏发电的重要因素之一,具体包含:气温、季节、天气类型等。其中,针对天气类型,气象部门对不同天气状态划分为33种天气类型,但现有的历史天气数据与气象部门划分的天气类型相对应的记录较少,不能满足要求;所以本实施例根据天气情况,将天气类型划分为多云、晴、阴雨、阴雨/多云及晴、多云/雨、多云/晴、雾、雾/晴等8种天气类型。
(5)其他因素
本实施例中,对发电量是否异常的诊断,需要考量的其他因素,包括:发电量是否为零、全额上网电量与发电量是否一致、上网电量与发电量差异、全额上网电量是否为零等。
S3、数据预处理
由于在实际运行过程中,发电量存在突增突减的情况,导致其涉及的指标计算也存在突增突减,这在模型训练过程中对模型的预测能力影响较大。因此,本实施例需要对这类突增突减的数据进行异常值处理。在本实施例中,根据相似性原则,对于异常数据,采用与其相似的样本数据的均值进行替代,以减少由于数据异常给模型预测效果带来的影响。
S4、构建预测模型。设置XGBoost集合模型的复杂度和模型参数,在模型中添加树使得模型的目标函数最优,将具有最优树结构的XGBoost集合模型构建为预测模型。
XGBoost是一组分类回归树(CART)的集成。通常,单棵树的强度不足以在实践中使用。实际使用的是集合模型,将多棵树的预测结合在一起,将每棵树的预测分数相加以得到最终分数。利用数学语言描述XGBoost集合模型
Figure BDA0003841064490000131
为:
Figure BDA0003841064490000132
其中,t是树的数量,ft是函数空间F里的一个函数,函数空间F是所有可能的分类回归树CART的集合。上述集合模型的求和公式符号中为t=1,指的是从第一轮到第t轮添加树;而xi为输入的各变量特征。
本实施例中模型的目标函数由下式给出:
Figure BDA0003841064490000133
其中,
Figure BDA0003841064490000146
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,该模型参数控制了树的结构和节点上的得分;n为自然数,指添加n棵树。而训练模型参数ft的难度远远高于一般机器学习中参数的训练;为此,本实施例采用一种添加策略:首先固定已经学习到的模型,再每次向模型里添加一棵树。本实施例将第t次添加一棵树后得到的预测结果记为/>
Figure BDA0003841064490000141
于是有以下预测结果的数学表达式:/>
Figure BDA0003841064490000142
其中,
Figure BDA0003841064490000143
指添加第一棵树的预测值,/>
Figure BDA0003841064490000144
指在第一轮预测值的基础上再添加一棵树的预测值,依次类推,/>
Figure BDA0003841064490000145
指在t-1轮预测值的基础上再添加一棵树的预测值。
训练模型参数ft的关键之处在于每一次应该添加怎样的树,本实施例添加树的原则为:所添加的树使得目标函数Obj(t)最优。添加树之后的目标函数Obj(t)的数学表达式为:
Figure BDA0003841064490000151
其中,C为常数项。若利用softmax作为模型的损失函数,那么上述目标函数的泰勒二阶展开式为:
Figure BDA0003841064490000152
该定义的一个重要优点是目标函数的值仅取决于gi和hi。其中,
Figure BDA0003841064490000153
为当前叶子节点i的一阶导数系数,l(yi,yi (t-1))是计算t-1棵树为止的预测结果的损失累加值;gi为当前叶子节点i包含的样本的一阶导数,hi为当前叶子节点i包含的样本的二阶导数,这两者都是常量。
本实施例对模型的复杂度Ω(f)进行了定义。在定义模型的复杂度在之前,首先完善模型参数ft的定义:
ft(x)=wq(x),w∈RT,q:Rd→{1,2,…,T}
其中w是叶子上的分数矢量;q(x)是一个将每个数据点分配给相应叶子的映射,即树结构;R是实数,T是叶子的数量。在XGBoost模型中,本实施例将模型的复杂度Ω(f)定义为:
Figure BDA0003841064490000161
其中,γ和λ均为超参数,
Figure BDA0003841064490000162
为每个叶节点输出预测值的平方值。
当然,定义模型复杂度的方法不止一种,但这种定义方法在实践中效果很好,定义了一个合适的模型复杂度,从而得到一个相对稳定且泛化能力较好的模型,能够有效避免模型过拟合或欠拟合的问题。
在重新定义了模型参数和模型复杂度之后,加入了第t棵树后的最终目标函数为:
Figure BDA0003841064490000163
其中,Ij为在叶子节点j上的样本数据集,Gj为叶子节点j上的样本数据集的一阶导数总和,Hj为叶子节点j上的样本数据集的二阶导数总和,数学表达式分别为:
Ij={i|q(xi)=j}
Figure BDA0003841064490000171
Figure BDA0003841064490000172
由此可知,最终目标函数是关于j、w的二次函数;这样,最终目标函数的极小值点
Figure BDA0003841064490000173
和极小值obj*分别为:
Figure BDA0003841064490000174
Figure BDA0003841064490000175
其中,最终目标函数的极小值是衡量XGBoost模型中树结构q(x)优劣的标准,极小值越小代表树结构越好。
理论上,基于上述这个标准,尝试所有可能情况后,能够选择出最优的树结构,然而太费时。于是,本实施例每次优化树的一层,假设一个叶子分裂为两个叶子,则叶子的得分增益为:
Figure BDA0003841064490000176
其中,L表示叶子分裂后的左叶,R表示叶子分裂后的右叶,GL为左叶节点包含的样本的一阶导数之和,HL为左叶节点包含的样本的二阶导数之和,GR为右叶节点包含的样本的一阶导数之和,HR为右叶节点包含的样本的二阶导数之和。
如果叶子的得分增益小于预设的超参数γ,则不将该叶子分裂,从而得到最优的树结构,获得具有最优树结构的XGBoost集合模型。
S5、根据所选取的特征,对具有最优树结构的XGBoost集合模型(即所构建的预测模型)进行训练和测试,迭代模型,调整模型的各项参数,确定模型的最佳参数,获得调参后的预测模型。
将光伏发电能力差异、发电量波动情况、气温、气象类型等特征输入到Xgboost集合模型中,不断迭代模型,根据模型的分类准确率,调整模型的各项参数,如损失函数、惩罚系数等,最终确定模型的最佳参数。具体过程如下:
(1)划分训练集和测试集
为避免机器学习过程中出现过拟合现象,即将个别训练样本的特异性当作整个数据集的共性,表现在训练结果的准确度非常高,实际应用中对后期数据进行预测准确率显著低于训练结果。所以建模过程中需要对样本数据进行划分,通常将数据划分为训练集和测试集两个部分。其中训练集主要用于模型训练,测试集主要用于验证模型的准确率。依据大数定理在样本足够多的情况下不会改变训练集和测试集的数据分布,因此验证集上预测准确率能够更好的衡量整个模型的准确情况。
本实施例根据数据的实际情况,将所选取的光伏发电能力差异、发电量波动情况、气温、气象类型等特征数据中,2019年1月至2022年2月的数据作为模型的训练集,并将2022年3月的数据作为模型的测试集。
(2)评价指标
在模型搭建完成之后,需要对模型进行评估,针对不同的算法模型有不同的评估方法,比如:分类算法、回归算法、聚类算法等。本实施例分布式光伏发电异常诊断方法本质上是分类算法,采用的评价指标主要有准确率、查准率、查全率等。
准确率:预测正确的占比。计算公式为:
Figure BDA0003841064490000191
查准率:在真实值为正的样本中,预测正确的样本占比。计算公式为:
Figure BDA0003841064490000192
查全率:在预测值为正的样本中,预测为正的样本占比。计算公式为:
Figure BDA0003841064490000193
(3)模型训练与迭代优化
将训练集数据输入到XGBoost模型中进行训练,根据模型分类的准确率,不断迭代优化,最终确定模型的最佳参数,以期提升模型的准确率。
最终确定的模型参数如下:
1)learning_rate=0.1;
学习率learning_rate也叫作eta,系统默认值为0.3,表征了每一步迭代的步长。学习率太大了运行准确率不高,太小了运行速度慢。本实施例的学习率使用比默认值小一点的值,优选为0.1。
2)n_estimator=320;
n_estimatores也可称为num_boosting_rounds,是生成的最大树的数目,也是最大的迭代次数;本实施例将其设置为320。
3)colsample_bytree=0.7;
colsample_bytree的系统默认值为1,用于控制每棵树随机采样的列数的占比(每一列是一个特征),防止过拟合使用。典型的取值范围为0.5-1之间,在本实施例中取0.7。
4)subsample=0.8;
Subsample的系统默认值为1,该参数用于控制每棵树的随机采样的比例。减小这个参数的值,算法会更加保守,避免过拟合。但是,如果这个值设置得过小,它可能会导致欠拟合。这个参数的典型取值范围为0.5-1之间,0.5代表平均采样,防止过拟合;在本实施例取0.8。
5)alpha=0.05;
Alpha的默认值为0,为权重的L1正则化项。可以应用在很高维度的情况下,使得算法的速度更快,本实施例取0.05。
6)lambda=1;
Lambda的默认值为0,为权重的L2正则化项。这个参数用于控制XGBoost的正则化部分的,在减少模型过拟合上很有帮助;本实施例取1。
7)max_depth;
max_depth表征树的最大深度,系统默认值为6,常用3-10之间的数字。该参数用于控制过拟合,max_depth越大,越容易过拟合;max_depth越小,越容易欠拟合。设置为0代表没有限制,取值范围为[0,∞]。本实施例中采用默认值。
8)min_child_weight;
min_child_weight的系统默认值为1。值越大,越容易欠拟合;值越小,越容易过拟合。在本实施例中采用默认值。
9)gamma;
Gamma参数的系统默认值为0。在节点分裂时,只有分裂后损失函数的值下降了,才会分裂这个节点。gamma指定了节点分裂所需的最小损失函数下降值,这个参数的值越大,算法越保守。因为gamma值越大的时候,损失函数下降更多才可以分裂节点。所以树生成的时候更不容易分裂节点。该参数的取值范围为[0,∞],本实施例采用默认值。
10)slient;
Slient的系统默认值为0,用于表征是否有运行信息输出,该参数设置为1时则没有运行信息输出。本实施例中取默认值。
S6、异常研判
将待测的光伏发电数据输入调参后的预测模型,对分布式光伏发电进行异常诊断,得到分布式光伏发电异常诊断结果,诊断结果包括高异常、中异常、低异常、无异常。
在上述最优参数设置的情况下,本实施例中预测模型的分类准确率已达到业务应用标准,为87%。各类异常分类结果如下表一所示:
表一
异常程度 准确率 查全率 筛查率 累计准确率 累计查全率
89% 18.7% 0.5% 89% 18.7%
86% 63.0% 2.7% 87% 81.7%
36% 17.6% 20.3% 70% 99.3%
0% 0.7% 76.5% 70% 99.3%
根据模型异常诊断结果(高异常、中异常、低异常或无异常),筛查2.7%,即选择异常程度为高异常、中异常的分布式光伏用户,结合历史异常核实情况、气象等辅助研判信息,为运维人员现场核实、检修等提供数据支撑,进一步保证了分布式光伏高效规范运行。
实施例2
与实施例1基于相同的发明构思,本实施例提出的是一种分布式光伏发电异常诊断系统,包括:
数据获取模块,用于获取分布式光伏数据并进行数据预处理,包括分布式光伏信息台账、分布式光伏月发电数据及天气情况数据;
特征选择模块,根据所获取的分布式光伏数据选取特征,包括光伏发电能力差异、发电量波动、理论发电量及气候因素;
构建模块,用于构建预测模型,设置XGBoost集合模型的复杂度和模型参数,在模型中添加树使得模型的目标函数最优,将具有最优树结构的XGBoost集合模型构建为预测模型;
模型优化模块,根据所选取的特征,对所构建的预测模型进行训练和测试,迭代模型,调整模型的各项参数,确定模型的最佳参数,获得调参后的预测模型;
异常诊断模块,将待测的光伏发电数据输入调参后的预测模型,对分布式光伏发电进行异常诊断。
在本实施例中,上述各模块用于实现实施例1的各个步骤,例如构建模块在构建预测模型时,利用数学语言描述XGBoost集合模型
Figure BDA0003841064490000221
为:
Figure BDA0003841064490000222
其中,t是树的数量,ft是函数空间F里的一个函数,函数空间F是所有可能的分类回归树的集合;xi为输入的各变量特征;
模型的目标函数为:
Figure BDA0003841064490000231
其中,
Figure BDA0003841064490000232
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分;n为自然数,指添加n棵树;
构建模块在构建预测模型时,添加树的策略为:
首先固定已经学习到的模型,再每次向模型里添加一棵树;并将第t次添加一棵树后得到的预测结果记为
Figure BDA0003841064490000233
预测结果的数学表达式为:
Figure BDA0003841064490000234
其中,
Figure BDA0003841064490000235
指添加第一棵树的预测值,/>
Figure BDA0003841064490000236
指在第一轮预测值的基础上再添加一棵树的预测值,/>
Figure BDA0003841064490000237
指在t-1轮预测值的基础上再添加一棵树的预测值;
添加树之后的目标函数Obj(t)的数学表达式为:
Figure BDA0003841064490000241
其中,C为常数项,
Figure BDA0003841064490000242
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分。
本实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,当处理器执行所述计算机程序时实现实施例1的分布式光伏发电异常诊断方法的各个步骤。
本实施例的光伏发电异常诊断系统和计算机设备,均与实施例1基于相同的发明构思,其余具体的技术手段请参见实施例1,不再赘述。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种分布式光伏发电异常诊断方法,其特征在于,包括以下步骤:
获取分布式光伏数据,包括分布式光伏信息台账、分布式光伏月发电数据及天气情况数据;
根据所获取的分布式光伏数据选取特征,包括光伏发电能力差异、发电量波动、理论发电量及气候因素;
对所述分布式光伏数据进行数据预处理;
构建预测模型:设置XGBoost集合模型的复杂度和模型参数,在模型中添加树使得模型的目标函数最优,将具有最优树结构的XGBoost集合模型构建为预测模型;
根据所选取的特征,对所构建的预测模型进行训练和测试,迭代模型,调整模型的各项参数,确定模型的最佳参数,获得调参后的预测模型;
将待测的光伏发电数据输入调参后的预测模型,对分布式光伏发电进行异常诊断。
2.根据权利要求1所述的分布式光伏发电异常诊断方法,其特征在于,构建预测模型时,利用数学语言描述XGBoost集合模型
Figure FDA0003841064480000011
为:
Figure FDA0003841064480000012
其中,t是树的数量,ft是函数空间F里的一个函数,函数空间F是所有可能的分类回归树的集合,xi为输入的各变量特征;
模型的目标函数为:
Figure FDA0003841064480000021
其中,
Figure FDA0003841064480000022
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分;n为自然数,指添加n棵树。
3.根据权利要求1或2所述的分布式光伏发电异常诊断方法,其特征在于,构建预测模型时,添加树的策略为:
首先固定已经学习到的模型,再每次向模型里添加一棵树;并将第t次添加一棵树后得到的预测结果记为
Figure FDA0003841064480000023
预测结果的数学表达式为:
Figure FDA0003841064480000024
Figure FDA0003841064480000025
Figure FDA0003841064480000026
Figure FDA0003841064480000027
其中,
Figure FDA0003841064480000028
指添加第一棵树的预测值,/>
Figure FDA0003841064480000029
指在第一轮预测值的基础上再添加一棵树的预测值,/>
Figure FDA00038410644800000210
指在t-1轮预测值的基础上再添加一棵树的预测值;
添加树之后的目标函数Obj(t)的数学表达式为:
Figure FDA0003841064480000031
其中,C为常数项,
Figure FDA0003841064480000032
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分。
4.根据权利要求3所述的分布式光伏发电异常诊断方法,其特征在于,构建预测模型时,利用softmax作为模型的损失函数,目标函数的泰勒二阶展开式为:
Figure FDA0003841064480000033
其中,
Figure FDA0003841064480000034
为当前叶子节点i的一阶导数系数,l(yi,yi (t-1))是计算t-1棵树为止的预测结果的损失累加值;gi为当前叶子节点i包含的样本的一阶导数,hi为当前叶子节点i包含的样本的二阶导数。
5.根据权利要求3所述的分布式光伏发电异常诊断方法,其特征在于,模型参数ft的定义为:
ft(x)=wq(x),w∈RT,q:Rd→{1,2,…,T}
ft(x)=wq(x),w∈RT,q:Rd→{1,2,...,T}
其中,w是叶子上的分数矢量;q(x)为树结构,是将每个数据点分配给相应叶子的映射;R是实数,T是叶子的数量;
模型的复杂度Ω(f)定义为:
Figure FDA0003841064480000041
其中,γ和λ均为超参数,
Figure FDA0003841064480000042
为每个叶节点输出预测值的平方值;
加入第t棵树后的最终目标函数为:
Figure FDA0003841064480000051
Ij={i|q(xi)=j}
Figure FDA0003841064480000052
/>
Figure FDA0003841064480000053
其中,Ij为在叶子节点j上的样本数据集,Gj为叶子节点j上的样本数据集的一阶导数总和,Hj为叶子节点j上的样本数据集的二阶导数总和;gi为当前叶子节点i包含的样本的一阶导数,hi为当前叶子节点i包含的样本的二阶导数。
6.根据权利要求5所述的分布式光伏发电异常诊断方法,其特征在于,最终目标函数的最优树结构的选择方式具体为:
每次优化树的一层,假设一个叶子分裂为两个叶子,则叶子的得分增益为:
Figure FDA0003841064480000061
其中,L表示叶子分裂后的左叶,R表示叶子分裂后的右叶,GL为左叶节点包含的样本的一阶导数之和,HL为左叶节点包含的样本的二阶导数之和,GR为右叶节点包含的样本的一阶导数之和,HR为右叶节点包含的样本的二阶导数之和;
如果叶子的得分增益小于预设的超参数γ,则不将该叶子分裂,从而得到最优的树结构,获得具有最优树结构的XGBoost集合模型。
7.根据权利要求1所述的分布式光伏发电异常诊断方法,其特征在于,所述数据预处理具体为对获取的分布式光伏数据中突增突减的数据进行异常值处理。
8.一种分布式光伏发电异常诊断系统,其特征在于,包括:
数据获取模块,用于获取分布式光伏数据并进行数据预处理,包括分布式光伏信息台账、分布式光伏月发电数据及天气情况数据;
特征选择模块,根据所获取的分布式光伏数据选取特征,包括光伏发电能力差异、发电量波动、理论发电量及气候因素;
构建模块,用于构建预测模型,设置XGBoost集合模型的复杂度和模型参数,在模型中添加树使得模型的目标函数最优,将具有最优树结构的XGBoost集合模型构建为预测模型;
模型优化模块,根据所选取的特征,对所构建的预测模型进行训练和测试,迭代模型,调整模型的各项参数,确定模型的最佳参数,获得调参后的预测模型;
异常诊断模块,将待测的光伏发电数据输入调参后的预测模型,对分布式光伏发电进行异常诊断。
9.根据权利要求8所述的分布式光伏发电异常诊断系统,其特征在于,构建模块在构建预测模型时,利用数学语言描述XGBoost集合模型
Figure FDA0003841064480000071
为:
Figure FDA0003841064480000072
其中,t是树的数量,ft是函数空间F里的一个函数,函数空间F是所有可能的分类回归树的集合,xi为输入的各变量特征;
模型的目标函数为:
Figure FDA0003841064480000073
其中,
Figure FDA0003841064480000075
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分;n为自然数,指添加n棵树;
构建模块在构建预测模型时,添加树的策略为:
首先固定已经学习到的模型,再每次向模型里添加一棵树;并将第t次添加一棵树后得到的预测结果记为
Figure FDA0003841064480000074
预测结果的数学表达式为:
Figure FDA0003841064480000081
Figure FDA0003841064480000082
Figure FDA0003841064480000083
Figure FDA0003841064480000084
其中,
Figure FDA0003841064480000085
指添加第一棵树的预测值,/>
Figure FDA0003841064480000086
指在第一轮预测值的基础上再添加一棵树的预测值,/>
Figure FDA0003841064480000087
指在t-1轮预测值的基础上再添加一棵树的预测值;
添加树之后的目标函数obj(t)的数学表达式为:
Figure FDA0003841064480000088
其中,C为常数项,
Figure FDA0003841064480000089
为模型的损失函数,Ω(ft)为模型的复杂度;ft为模型参数,用于控制树结构和节点上的得分。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述分布式光伏发电异常诊断方法的步骤。
CN202211102247.5A 2022-07-21 2022-09-09 一种分布式光伏发电异常诊断方法和系统 Pending CN116205508A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210855786 2022-07-21
CN202210855786X 2022-07-21

Publications (1)

Publication Number Publication Date
CN116205508A true CN116205508A (zh) 2023-06-02

Family

ID=86513640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211102247.5A Pending CN116205508A (zh) 2022-07-21 2022-09-09 一种分布式光伏发电异常诊断方法和系统

Country Status (1)

Country Link
CN (1) CN116205508A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113243A (zh) * 2023-06-28 2023-11-24 武汉盈风能源科技有限公司 一种光伏设备异常检测方法
CN118040910A (zh) * 2024-04-12 2024-05-14 国网山东省电力公司菏泽供电公司 一种偏远地区的微电网储能异常状态在线监测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113243A (zh) * 2023-06-28 2023-11-24 武汉盈风能源科技有限公司 一种光伏设备异常检测方法
CN117113243B (zh) * 2023-06-28 2024-01-26 武汉盈风能源科技有限公司 一种光伏设备异常检测方法
CN118040910A (zh) * 2024-04-12 2024-05-14 国网山东省电力公司菏泽供电公司 一种偏远地区的微电网储能异常状态在线监测方法

Similar Documents

Publication Publication Date Title
CN113962364B (zh) 一种基于深度学习的多因素用电负荷预测方法
Qazi et al. The artificial neural network for solar radiation prediction and designing solar systems: a systematic literature review
CN112288164B (zh) 一种计及空间相关性和修正数值天气预报的风功率组合预测方法
CN112001439A (zh) 基于gbdt的商场建筑空调冷负荷预测方法、存储介质及设备
CN106951611A (zh) 一种基于使用者行为的严寒地区建筑节能设计优化方法
CN111612055B (zh) 天气形势的分型方法、空气污染状况的预测方法及装置
CN112818604A (zh) 一种基于风功率预测的风电机组风险度评估方法
CN106842914A (zh) 一种温度控制节能处理方法、装置及系统
CN113762387B (zh) 一种基于混合模型预测的数据中心站多元负荷预测方法
CN114811713B (zh) 基于混合深度学习的二级网户间均衡供热调控方法
CN116316599A (zh) 一种智能用电负荷预测方法
Park et al. Stacking deep transfer learning for short-term cross building energy prediction with different seasonality and occupant schedule
CN115879369A (zh) 一种基于优化LightGBM算法的磨煤机故障预警方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN115759336A (zh) 一种面向短期电力负荷预测的预测方法及存储介质
CN112288157A (zh) 一种基于模糊聚类与深度强化学习的风电场功率预测方法
CN116014724A (zh) 一种有源配电网网格化负荷预测方法
CN116205508A (zh) 一种分布式光伏发电异常诊断方法和系统
CN116345555A (zh) 一种基于cnn-isca-lstm模型的短期光伏发电功率预测方法
Kajbaf et al. Temporal downscaling of precipitation from climate model projections using machine learning
CN117408394B (zh) 电力系统的碳排放因子预测方法、装置及电子设备
CN113033910A (zh) 一种光伏发电功率的预测方法、存储介质及终端设备
CN116826745A (zh) 一种电力系统背景下的分层分区短期负荷预测方法及系统
CN117013520A (zh) 一种基于增量学习的柔性负荷可调功率评估方法
CN114881506A (zh) 一种基于室温和iba-lstm的供热需求负荷评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination