CN114153828A - 光伏发电系统智能数据清洗方法与装置 - Google Patents

光伏发电系统智能数据清洗方法与装置 Download PDF

Info

Publication number
CN114153828A
CN114153828A CN202111404181.0A CN202111404181A CN114153828A CN 114153828 A CN114153828 A CN 114153828A CN 202111404181 A CN202111404181 A CN 202111404181A CN 114153828 A CN114153828 A CN 114153828A
Authority
CN
China
Prior art keywords
data
power generation
operation data
cluster
photovoltaic power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111404181.0A
Other languages
English (en)
Inventor
曾凡春
崔源
李丹阳
王军
陈婷婷
李涛
陈岩磊
张澈
王传鑫
田长凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huaneng Xinrui Control Technology Co Ltd
Original Assignee
Beijing Huaneng Xinrui Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huaneng Xinrui Control Technology Co Ltd filed Critical Beijing Huaneng Xinrui Control Technology Co Ltd
Priority to CN202111404181.0A priority Critical patent/CN114153828A/zh
Publication of CN114153828A publication Critical patent/CN114153828A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Water Supply & Treatment (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Photovoltaic Devices (AREA)

Abstract

本发明提供一种光伏发电系统智能数据清洗方法与装置,属于光伏发电技术领域。其中,本发明的方法包括下述具体步骤:采集光伏发电系统的运行数据并对其进行变量选择;基于所述运行数据,对改进型灰狼算法(IGWO)算法进行原理分析;根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类;对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程。本发明结合IGWO智能优化算法提供了一种光伏发电系统的数据清洗方法,通过数据采样、变量选择、数据聚类、数据插值和修正有效提高了光伏系统运行数据的质量,为后续系统的建模和控制优化设计奠定了基础。

Description

光伏发电系统智能数据清洗方法与装置
技术领域
本发明属于光伏发电技术领域,具体涉及一种光伏发电系统智能数据清洗方法与装置。
背景技术
在世界范围内能源环境危机下,作为化石燃料的一大消耗产业,电力行业的能源转型迫在眉睫。需探究各可再生能源的特性和可用性,广泛发展基于可再生新能源的发电技术实现发电领域的化石能源替代。基于此,风能、太阳能、地热能、潮汐能等可再生新能源成为世界各国关注的焦点。其中,太阳能能量巨大,几乎堪称“取之不尽,用之不竭”,且基本不受地域的限制,在地球绝大部分地方都可实现太阳能的开发利用。除此之外,光伏发电也是产生最早,发展最为成熟的新能源发电技术之一。虽然作为一种易于获取的可再生新能源,太阳能具有极大的环境友好性,然而其易受环境影响也成为其进一步发展过程中的一大困难和挑战。因此,需综合考虑光伏系统的建模和控制优化问题以促进电网的安全稳定。
当今世界,大数据技术飞速发展,而光伏发电系统的控制优化与电网电力调度都离不开对数据间特征和联系的挖掘与分析。然而,实际的光伏发电过程往往受到外界环境变化和光伏阵列局部遮挡等的影响,其运行数据中往往受到噪声等的干扰出现数据无效或缺失的情况。与此同时,不同运行工况下的光伏系统的数据一般也具有不同的特性。因此,通过设计合理、性能优越的数据清洗技术实现光伏系统的数据处理和优化是实现其稳定并网的关键一步。
数据清洗技术涉及到数据聚类、数据插值以及数据模型辨识等内容。以往的数据清洗技术中需通过不同的算法解决上述问题。随着群智能优化算法的发展,其在建模和控制等多个领域均取得了成功的应用。因此,其具有同时实现上述功能的开发潜力,并且可以从极大程度上提高光伏发电系统数据清洗过程中的智能化和灵活性,对其余复杂工业系统的数据清洗技术也具有极大适用性。
因此,基于上述问题,本发明提出一种光伏发电系统智能数据清洗方法与装置。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提供一种光伏发电系统智能数据清洗方法与装置。
本发明的一方面,提供一种光伏发电系统智能数据清洗方法,包括下述具体步骤:
采集光伏发电系统的运行数据并对其进行变量选择;
基于所述运行数据,对IGWO算法进行原理分析;
根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类;
对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程。
可选的,所述采集光伏发电系统的运行数据并对其进行变量选择,包括:
以采样步长T采集光伏系统在不同季节、月份、天数和时间点下的N组运行数据{x(1),x(2),…,x(N)},每组运行数据的维度为M,代表光伏系统的M个数据变量,x(t)={x1(t),x2(t),…,xM(t)},t表示当前采样点;
从M个数据变量中选出m个最终选用的数据变量。
可选的,所述基于所述运行数据,对IGWO算法进行原理分析,包括:
对灰狼种群的混沌镜像进行初始化;
引入参数的余弦更新;
局部最优的判定及相应的变异操作。
可选的,所述对灰狼种群的混沌镜像进行初始化,包括:
在IGWO的混沌镜像初始化过程中引入混沌序列,通过正弦公式迭代生成混沌矢量:
Ch1=rand(0,1)
Chk+1=sin(πChk)(i=1,2,…,Np;j=1,2,…,D)
Figure RE-GDA0003491751770000031
其中:D是搜索维度,Chk代表第k时刻的混沌矢量且Ch1为混沌矢量的初值,dij指第i个灰狼在第j个搜索维度的位置向量, Chkj代表第k时刻的混沌矢量在第j个搜索维度的分量,
Figure RE-GDA0003491751770000032
Figure RE-GDA0003491751770000033
分别表示第j个搜索维度的上下界;
基于所得灰狼种群执行镜像操作,并获得镜像解位置向量
Figure RE-GDA0003491751770000034
计算初始种群向量di={di,1,di,2,…,di,D}和镜像种群的个体适应度并选择Np个具有最优适应度值的解最终形成初始种群向量
Figure RE-GDA0003491751770000035
其中d′i={d′i,1,d′i,2,…,d′i,D}(i=1,…,N)。
可选的,所述引入参数的余弦更新,包括:
引入下式所示的余弦公式更新a:
Figure RE-GDA0003491751770000036
可选的,所述局部最优的判定及相应的变异操作:
引入阈值θ并通过下式判断优化过程是否陷入局部最优:
Figure RE-GDA0003491751770000037
其中:Fit(d*(k))为当前最优解的适应度值;
当确认优化过程陷入早熟收敛后,通过如下变异操作扩大种群多样性,跳出当前的局部最优:
Figure RE-GDA0003491751770000038
Figure RE-GDA0003491751770000039
j=(1,2,…,D)
其中,
Figure RE-GDA00034917517700000310
是第j维的更新最优解,
Figure RE-GDA00034917517700000311
是第j维的原最优解,w是选自[0,1]的随机数,η是分布指数,参数β1和β2通过下式获得:
Figure RE-GDA0003491751770000041
Figure RE-GDA0003491751770000042
j=(1,2,…,D)。
可选的,所述IGWO算法是基于GWO算法进行改进得到的。
可选的,所述根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类,包括:
定义聚类个数为Nc,在数据对集合中随机选取Nc个数据向量作为初始聚类中心;
设置每个聚类中元素个数的阈值为th(th≥N/Nc),然后依次选取与聚类中心ci(i=1,2,…,Nc)距离最近的ni(i=1,2,…,Nc)个数据向量;
若ni≥th,则自动转入下一个聚类,直到确定每个聚类的元素;
以各聚类中心和本聚类中各元素间的平均距离最小为适应度函数f1,将聚类中心位置视为灰狼个体的位置,采用IGWO算法进行最优聚类中心
Figure RE-GDA0003491751770000043
的获取,并将最优聚类中心到各元素的最远距离作为聚类半径
Figure RE-GDA0003491751770000044
可选的,所述对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程,包括:
采用传递函数或状态空间模型的形式表示光伏系统每个聚类中数据变量间的关系模型,各聚类对应模型中的未知参数向量集合为
Figure RE-GDA0003491751770000045
其中代表第i(i=1,2,…,Nc)个模型所对应的未知参数向量
Figure RE-GDA0003491751770000046
且Nb为未知参数个数;
模型输出与实际输出的偏差作为适应度函数f2,将参数向量视为灰狼种群中个体的位置向量,通过改进型灰狼算法(IGWO)算法进行模型参数的优化;
重复模型参数的优化过程直到获取每个数据聚类所对应模型的最优参数向量;
采用预测模型的输出填补数据序列中的缺失值,查找数据空间中与模型输出偏差极大的无效值,并用模型输出对该无效值进行替换或修正以完成数据清洗过程。
本发明的另一方面,提供一种光伏发电系统智能数据清洗装置,包括采集模块、分析模块、聚类模块以及修正模块;其中,
所述采集模块,用于采集光伏发电系统的运行数据并对其进行变量选择;
所述分析模块,用于基于所述运行数据,对IGWO算法进行原理分析;
所述聚类模块,用于根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类;
所述修正模块,用于对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程。
本发明提供一种光伏发电系统智能数据清洗方法,包括下述具体步骤:采集光伏发电系统的运行数据并对其进行变量选择;基于所述运行数据,对IGWO算法进行原理分析;根据所述IGWO 算法对所述光伏发电系统的运行数据进行聚类;对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程。本发明结合IGWO智能优化算法提供了一种光伏发电系统的数据清洗方法,通过数据采样、变量选择、数据聚类、数据插值和修正有效提高了光伏系统运行数据的质量,为后续系统的建模和控制优化设计奠定了基础。
附图说明
图1为本发明一实施例的光伏发电系统智能数据清洗方法原理图;
图2为本发明另一实施例的光伏发电系统智能数据清洗方法流程框图;
图3为本发明另一实施例的改进型灰狼算法的流程图;
图4为本发明另一实施例的光伏发电系统智能数据清洗装置示意图。
具体实施方式
为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护范围。
如图1和图2所示,本发明的一方面,提供一种光伏发电系统智能数据清洗方法S100,包括下述具体步骤S110~S140。
S110、采集光伏发电系统的运行数据并对其进行变量选择。
需要说明的是,光伏系统是用于收集、利用和转换太阳能的主要系统,光伏阵列作为光伏系统中的太阳能捕获装置,由许多光伏组件串并联连接而成。除此之外,光伏系统还包括DC-DC电压转换器、功率跟踪控制器和负载等组成部分,基于此,本实施例的步骤S110可具体化为:
S1101、以采样步长T=15min采集光伏系统在不同季节、月份、天数和时间点下的N=10000组运行数据{x(1),x(2),…,x(N)},每组运行数据的维度为M=8,代表光伏系统的M个数据变量, x(t)={x1(t),x2(t),…,xM(t)},t表示当前采样点。
S1102、光伏系统的数据采样中一般涉及到时间因素、气象条件、外界环境变化、系统输出功率和内部其余运行变量,M的取值一般较大。而在光伏系统控制优化设计中为简便起见,往往仅会用到m个变量中与控制需求相关性较强的有限项。因此,通过主元分析等方法从M中选出m个最终选用的数据变量。
基于S1采集所得光伏系统运行数据,在步骤S120中对所采用的改进型灰狼算法IGWO原理做出具体说明。
S120、基于运行数据,对IGWO算法进行原理分析。
具体的,S1201、为进一步突出IGWO的优越性,首先对经典灰狼优化(GWO)算法进行介绍。
灰狼算法(GWO算法)源于灰狼种群社会等级和群体狩猎行为的启发。在GWO中,将整个种群按降序分为四个等级,并分别称之为α狼、β狼、δ狼和ω狼。其中α狼是种群所有重要事务的最高决策者,如狩猎行为、休息地点、活动时间等。β狼负责决策制定辅助、命令强化和信息反馈。处于种群第三级的δ狼则负责提交信息给α狼和β狼。δ狼群体由哨兵、年长者、猎人以及看护者组成。除α狼、β狼和δ狼之外,ω狼处于灰狼种群的最低级别,受到处于高级别的α狼、β狼和δ狼的驱使。因此,在狼群中低等级狼必须严格服从高等级狼。狼的捕猎过程包括跟踪阶段、包围阶段和攻击阶段,类似于优化问题求最优解的过程。
具体的,S1201-1、设置灰狼种群规模大小为Np=30,优化过程最大迭代次数为Nm=50,随机初始化种群为d(k),其中k是当前迭代时间。
S1201-2、定义最优解为α,次优解和再次优解分别为β和δ,根据实际需求定义适应度函数f,计算种群中每一个个体的适应度值,并根据适应度值选取α、β和δ。
S1201-3、设灰狼个体与猎物间的距离D(k)为:
Figure RE-GDA0003491751770000071
其中,dp(k)是猎物的位置,d(k)代表灰狼的位置,C是系数向量,r1是从[0,1]中随机选择的向量。
S1201-4、通过下式更新灰狼个体的位置向量:
Figure RE-GDA0003491751770000072
其中:A是系数向量,a是随着迭代次数的增加从2线性减少到0的收敛因子,r2也是从[0,1]中随机选择的向量。
S1201-5、考虑到α狼、β狼和δ狼带有更多与猎物位置有关的信息,则当前搜索代理的位置根据α狼、β狼和δ狼的位置进行更新:
Figure RE-GDA0003491751770000073
Figure RE-GDA0003491751770000074
其中:dα(k+1)、dβ(k+1)和dδ(k+1)分别代表更新后的α狼、β狼和δ狼位置,Aα、Aβ和Aδ分别为α狼、β狼和δ狼对应的系数向量。α狼、β狼和δ狼与猎物间的距离Dα、Dβ和Dδ由下式计算得到:
Figure RE-GDA0003491751770000081
S1201-6、计算灰狼个体位置更新后的适应度值,并根据贪婪选择选定新的α狼、β狼和δ狼。
S1201-7、令k=k+1,返回步骤S1201-3进行下一次迭代,直到满足终止条件,即k达到最大迭代次数或满足搜索精度的要求。
S1202、然后基于GWO的主要原理,结合以下几大改进点对 IGWO进行介绍,具体流程参见图3。
S1202-1、狼种群的混沌镜像初始化。考虑到混沌映射的确定性、遍历性和随机性,与单纯基于随机种群初始化的GWO相比,在IGWO的混沌镜像初始化过程中引入混沌序列可增加种群多样性。通过正弦公式迭代生成混沌矢量:
Ch1=rand(0,1)
Chk+1=sin(πChk) (i=1,2,…,Np;j=1,2,…,D)
Figure RE-GDA0003491751770000082
其中,D是搜索维度,Chk代表第k时刻的混沌矢量且Ch1为混沌矢量的初值,dij指第i个灰狼在第j个搜索维度的位置向量, Chkj代表第k时刻的混沌矢量在第j个搜索维度的分量,
Figure RE-GDA0003491751770000083
Figure RE-GDA0003491751770000084
分别表示第j个搜索维度的上下界。
然后,基于所得灰狼种群执行镜像操作,并获得镜像解位置向量
Figure RE-GDA0003491751770000085
如果镜像位置向量的任何维度超出上下界,则引入正则化和圆弧正则化操作更新向量。
计算初始种群向量di={di,1,di,2,…,di,D}和镜像种群的个体适应度并选择Np个具有最优适应度值的解最终形成初始种群向量
Figure RE-GDA0003491751770000086
其中d′i={d′i,1,d′i,2,…,d′i,D}(i=1,…,N)。
S1202-2、参数的余弦更新。参数更新策略是优化算法搜索过程中的一个重要因素。在GWO中的所有参数中,a的值决定了其他参数值的变化。a的值越大,算法的全局搜索能力越强,反之,算法的局部搜索能力越强。对于高维复杂函数的优化,传统GWO 的全局搜索能力会随着a从2到0的线性下降而下降,难以避免早熟问题的出现。因此,引入下式所示的余弦公式更新a。
Figure RE-GDA0003491751770000091
由上式可知,a的值在优化过程的早期阶段缓慢减小,以便进行充分的全局探索。在优化过程的后期,a的值会因局部开发而迅速降低。
S1202-3、局部最优的判定及相应的变异操作。陷入局部最优是大多数优化算法中不可避免的问题。此时,如何正确判断搜索过程是否陷入局部最优并采取相应的修正措施是需要考虑的重要问题。
先引入阈值θ(本实施例中取值为0.0001)并通过下式判断优化过程是否陷入局部最优:
Figure RE-GDA0003491751770000092
其中:Fit(d*(k))为当前最优解的适应度值。
根据式(8),如果连续n代的历史最优适应度的变化率小于某个阈值θ,则表明优化过程陷入局部最优。在这个判断过程中,阈值θ的选择会产生较大影响,如果θ的值非常大,则过早地判断搜索陷入局部最优。反之,若θ的值太小,则种群多样性将明显降低。
当确认优化过程陷入早熟收敛后,通过如下变异操作扩大种群多样性,跳出当前的局部最优。
Figure RE-GDA0003491751770000093
其中,
Figure RE-GDA0003491751770000096
是第j维的更新最优解,
Figure RE-GDA0003491751770000094
是第j维的原最优解,w是选自[0,1]的随机数。η是分布指数,β1和β2通过下式获得:
Figure RE-GDA0003491751770000095
根据S120构建的IGWO算法,在S130中实现光伏系统实际采样数据的聚类。
S130、根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类。
具体的,S1301、定义聚类个数为Nc,在数据对集合中随机选取Nc个数据向量作为初始聚类中心。
S1302、设置每个聚类中元素个数的阈值为th(th≥N/Nc),然后依次选取与聚类中心ci(i=1,2,…,Nc)距离最近的ni(i=1,2,…,Nc) 个数据向量。
S1303、若ni≥th,则自动转入下一个聚类,直到确定每个聚类的元素。
S1304、以各聚类中心和本聚类中各元素间的平均距离最小为适应度函数f1,将聚类中心位置视为灰狼个体的位置,采用IGWO 算法进行最优聚类中心
Figure RE-GDA0003491751770000101
的获取,进一步地,将最优聚类中心到各元素的最远距离作为聚类半径
Figure RE-GDA0003491751770000102
接下来在步骤S140中步骤S130中所得的每个聚类中的数据进行缺失值插补和无效值修正。主要通过IGWO算法建立数据变量间的关系模型实现。
S140、对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程。
具体的,S1401、采用传递函数或状态空间模型的形式表示光伏系统每个聚类中数据变量间的关系模型,各聚类对应模型中的未知参数向量集合为
Figure RE-GDA0003491751770000103
其中代表第i(i=1,2,…,Nc)个模型所对应的未知参数向量
Figure RE-GDA0003491751770000104
且Nb为未知参数个数。
S1402、以模型输出与实际输出的偏差作为适应度函数f2,将参数向量视为灰狼种群中个体的位置向量,通过IGWO算法进行模型参数的优化。
S1403、重复S1402直到获取每个数据聚类所对应模型的最优参数向量;
S1404、采用预测模型的输出填补数据序列中的缺失值,查找数据空间中与模型输出偏差极大的无效值,并用模型输出对该无效值进行替换或修正以完成数据清洗过程。
为挖掘光伏发电系统不同运行情况下的数据特征并对其运行数据中的数据缺失及数据异常等问题进行处理,本发明旨在提供一种基于改进灰狼算法的光伏发电系统智能数据清洗方法以去除光伏系统运行数据中的噪声及无效信息。该方法首先采集光伏系统季节、月份和天数等不同时间尺度和外界环境下的运行数据并对数据变量进行筛选,然后引入了一种改进的灰狼优化(IGWO)算法,通过基于混沌镜像的种群初始化、基于余弦变化的参数更新和局部最优判断有效平衡了算法的搜索和开发能力,使参数收敛速度和精度都有明显的提升。通过IGWO算法进行数据聚类和数据变量间的关系辨识,可同时实现数据空间的划分、数据插补和数据修正。有效提高了数据质量,为后续光伏发电系统的控制优化设计奠定了基础。
如图4所示,本发明的另一方面,提供一种光伏发电系统智能数据清洗装置200,包括采集模块210、分析模块220、聚类模块230以及修正模块240;其中,所述采集模块210,用于采集光伏发电系统的运行数据并对其进行变量选择;所述分析模块220,用于基于所述运行数据,对IGWO算法进行原理分析;所述聚类模块230,用于根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类;所述修正模块240,用于对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程。
需要说明的是,本实施例的数据清洗装置所采用的具体方法参考前文记载,在此不再赘述。
下面将以具体实施例进行说明光伏发电系统智能数据清洗方法,具体包括:
请参阅图1,图1为本发明所提供的基于改进灰狼算法的光伏发电系统智能数据清洗方法原理图。本实施例中算法的实现及仿真测试均依托Matlab软件平台,具体由以下4个步骤组成:
S1:光伏发电系统的运行数据采集和变量选择;
S2:IGWO的原理分析及描述;
S3:基于IGWO的光伏发电系统数据聚类;
S4:基于IGWO的光伏发电系统数据插值和修正。
光伏系统是用于收集、利用和转换太阳能的主要系统。光伏阵列作为光伏系统中的太阳能捕获装置,由许多光伏组件串并联连接而成。除此之外,光伏系统还包括DC-DC电压转换器、功率跟踪控制器和负载等组成部分。基于此,步骤S1可具体化为:
S1.1:以采样步长T=15min采集光伏系统在不同季节、月份、天数和时间点下的N=10000组运行数据{x(1),x(2),…,x(N)},每组运行数据的维度为M=8,代表光伏系统的M个数据变量,即 x(t)={x1(t),x2(t),…,xM(t)},t为当前采样点。
S1.2:光伏系统的数据采样中一般涉及到时间因素、气象条件、外界环境变化、系统输出功率和内部其余运行变量,M的取值一般较大。而在光伏系统控制优化设计中为简便起见,往往仅会用到m个变量中与控制需求相关性较强的有限项。因此,通过主元分析等方法从M中选出m=6个最终选用的数据变量。
基于S1采集所得光伏系统运行数据,在步骤S2中对所采用的IGWO原理做出具体说明。
S2.1:为进一步突出IGWO的优越性,首先对经典灰狼优化 (GWO)算法进行介绍。
GWO算法源于灰狼种群社会等级和群体狩猎行为的启发。在 GWO中,将整个种群按降序分为四个等级,并分别称之为α狼、β狼、δ狼和ω狼。其中α狼是种群所有重要事务的最高决策者,如狩猎行为、休息地点、活动时间等。β狼负责决策制定辅助、命令强化和信息反馈。处于种群第三级的δ狼则负责提交信息给α狼和β狼。δ狼群体由哨兵、年长者、猎人以及看护者组成。除α狼、β狼和δ狼之外,ω狼处于灰狼种群的最低级别,受到处于高级别的α狼、β狼和δ狼的驱使。因此,在狼群中低等级狼必须严格服从高等级狼。狼的捕猎过程包括跟踪阶段、包围阶段和攻击阶段,类似于优化问题求最优解的过程。
S2.1.1:设置灰狼种群规模大小为Np=30,优化过程最大迭代次数为Nm=50,随机初始化种群为d(k),其中k是当前迭代时间。
S2.1.2:记最优解为α,次优解和再次优解分别为β和δ,根据实际需求定义适应度函数f,计算种群中每一个个体的适应度值,并根据适应度值选取α、β和δ。
S2.1.3:设灰狼个体与猎物间的距离D(k)为:
Figure RE-GDA0003491751770000131
其中:dp(k)是猎物的位置,d(k)代表灰狼的位置,C是系数向量,r1是从[0,1]中随机选择的向量,即r1=rand[0,1]。
S2.1.4:通过下式更新灰狼个体的位置向量:
Figure RE-GDA0003491751770000132
其中:A是系数向量,a是随着迭代次数的增加从2线性减少到0的收敛因子,r2也是从[0,1]中随机选择的向量,即r2=rand[0,1]。
S2.1.5:考虑到α狼、β狼和δ狼带有更多与猎物位置有关的信息,则当前搜索代理的位置根据α狼、β狼和δ狼的位置进行更新:
Figure RE-GDA0003491751770000133
Figure RE-GDA0003491751770000134
其中:dα(k+1)、dβ(k+1)和dδ(k+1)分别代表更新后的α狼、β狼和δ狼位置,Aα、Aβ和Aδ分别为α狼、β狼和δ狼对应的系数向量。α狼、β狼和δ狼与猎物间的距离Dα、Dβ和Dδ由下式计算得到:
Figure RE-GDA0003491751770000135
S2.1.6:计算灰狼个体位置更新后的适应度值,并根据贪婪选择选定新的α狼、β狼和δ狼。
S2.1.7:令k=k+1,返回步骤S2.1.3进行下一次迭代,直到满足终止条件,即k达到最大迭代次数或满足搜索精度的要求。
S2.2:然后基于GWO的主要原理,结合以下几大改进点对 IGWO进行介绍,具体流程参见图3。
S2.2.1:灰狼种群的混沌镜像初始化。考虑到混沌映射的确定性、遍历性和随机性,与单纯基于随机种群初始化的GWO相比,在IGWO的混沌镜像初始化过程中引入混沌序列可增加种群多样性。通过正弦公式迭代生成混沌矢量:
Ch1=rand(0,1)
Chk+1=sin(πChk) (i=1,2,…,Np;j=1,2,…,D)
Figure RE-GDA0003491751770000141
其中:D是搜索维度,本实施例中D=m=6,
Figure RE-GDA0003491751770000142
Figure RE-GDA0003491751770000143
分别表示第j个搜索维度的上下界。
然后,基于所得灰狼种群执行镜像操作,并获得镜像解位置向量
Figure RE-GDA0003491751770000144
如果镜像位置向量的任何维度超出上下界,则引入正则化和圆弧正则化操作更新向量。
计算初始种群向量di={di,1,di,2,…,di,D}和镜像种群的个体适应度并选择Np个具有最优适应度值的解最终形成初始种群向量
Figure RE-GDA0003491751770000145
其中d′i={d′i,1,d′i,2,…,d′i,D}(i=1,…,N)。
S2.2.2:参数的余弦更新。参数更新策略是优化算法搜索过程中的一个重要因素。在GWO中的所有参数中,a的值决定了其他参数值的变化。a的值越大,算法的全局搜索能力越强,反之,算法的局部搜索能力越强。对于高维复杂函数的优化,传统GWO 的全局搜索能力会随着a从2到0的线性下降而下降,难以避免早熟问题的出现。因此,引入下式所示的余弦公式更新a。
Figure RE-GDA0003491751770000146
由上式可知,a的值在优化过程的早期阶段缓慢减小,以便进行充分的全局探索。在优化过程的后期,a的值会因局部开发而迅速降低。
S2.2.3:局部最优的判定及相应的变异操作。陷入局部最优是大多数优化算法中不可避免的问题。此时,如何正确判断搜索过程是否陷入局部最优并采取相应的修正措施是需要考虑的重要问题。
先引入阈值θ(本实施例中取值为0.0001)并通过下式判断优化过程是否陷入局部最优:
Figure RE-GDA0003491751770000151
其中:Fit(d*(k))为当前最优解的适应度值。
根据式(8),如果连续n=10代的历史最优适应度的变化率小于某个阈值θ,则表明优化过程陷入局部最优。
当确认优化过程陷入早熟收敛后,通过如下变异操作扩大种群多样性,跳出当前的局部最优。
Figure RE-GDA0003491751770000152
其中,
Figure RE-GDA0003491751770000153
是第j维的更新最优解,
Figure RE-GDA0003491751770000154
是第j维的原最优解,w是选自[0,1]的随机数,即w=rand[0,1]。η是分布指数,β1和β2通过下式获得:
Figure RE-GDA0003491751770000155
根据S2构建的IGWO算法,在S3中实现光伏系统实际采样数据的聚类。
S3.1:定义聚类个数为Nc=5,在数据对集合中随机选取Nc个数据向量作为初始聚类中心。
S3.2:设置每个聚类中元素个数的阈值为th=4000(th≥N/Nc),然后依次选取与聚类中心ci(i=1,2,…,Nc)距离最近的ni(i=1,2,…, Nc)个数据向量。
S3.3:若ni≥th,则自动转入下一个聚类,直到确定每个聚类的元素。
S3.4:以各聚类中心和本聚类中各元素间的平均距离最小为适应度函数f1,将聚类中心位置视为灰狼个体的位置,采用IGWO 算法进行最优聚类中心
Figure RE-GDA0003491751770000161
的获取,进一步地,将最优聚类中心到各元素的最远距离作为聚类半径
Figure RE-GDA0003491751770000162
接下来在步骤S4中步骤S3中所得的每个聚类中的数据进行缺失值插补和无效值修正。主要通过IGWO算法建立数据变量间的关系模型实现。
S4.1:用传递函数或状态空间模型的形式表示光伏系统每个聚类中数据变量间的关系模型,各聚类对应模型中的未知参数向量集合为
Figure RE-GDA0003491751770000163
其中代表第i(i=1,2,…,Nc)个模型所对应的未知参数向量
Figure RE-GDA0003491751770000164
且Nb为未知参数个数且本实施例中 Nb=27。
S4.2:以模型输出与实际输出的偏差为此时的适应度函数f2,将参数向量视为灰狼种群中个体的位置向量,然后通过IGWO进行模型参数的优化。
S4.3:重复S4.2直到获取每个数据聚类所对应模型的最优参数向量即完成不同数据变量间的关系表征过程。
S4.4:首先,用预测模型的输出填补数据序列中的缺失值。然后,查找数据空间中与模型输出偏差极大的无效值,并用模型输出对该无效值进行替换或修正以完成数据清洗过程。
本发明提供一种光伏发电系统智能数据清洗方法与装置,与现有技术相比具有以下有益效果:
第一、本发明结合IGWO智能优化算法提供了一种光伏发电系统的数据清洗方法,通过数据采样、变量选择、数据聚类、数据插值和修正有效提高了光伏系统运行数据的质量,为后续系统的建模和控制优化设计奠定了基础。
第二、本发明所用的IGWO算法通过基于混沌镜像的种群初始化、基于余弦变化的参数更新和局部最优判断有效平衡了算法的搜索和开发能力,使优化速度和精度都有明显的提升。
第三、本发明同时将IGWO算法用于数据聚类和数据变量间的关系辨识,可同时实现数据空间的划分、数据插补和数据修正。极大地体现了IGWO算法的可扩展性和应用灵活性。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种光伏发电系统智能数据清洗方法,其特征在于,包括下述具体步骤:
采集光伏发电系统的运行数据并对其进行变量选择;
基于所述运行数据,对IGWO算法进行原理分析;
根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类;
对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据的清洗过程。
2.根据权利要求1所述的方法,其特征在于,所述采集光伏发电系统的运行数据并对其进行变量选择,包括:
以采样步长T采集光伏系统在不同季节、月份、天数和时间点下的N组运行数据{x(1),x(2),…,x(N)},每组运行数据的维度为M,代表光伏系统的M个数据变量,x(t)={x1(t),x2(t),…,xM(t)},t表示当前采样点;
从M个数据变量中选出m个最终选用的数据变量。
3.根据权利要求1所述的方法,其特征在于,所述基于所述运行数据,对IGWO算法进行原理分析,包括:
对灰狼种群的混沌镜像进行初始化;
引入参数的余弦更新;
局部最优的判定及相应的变异操作。
4.根据权利要求3所述的方法,其特征在于,所述对灰狼种群的混沌镜像进行初始化,包括:
在IGWO的混沌镜像初始化过程中引入混沌序列,通过正弦公式迭代生成混沌矢量:
Ch1=rand(0,1)
Chk+1=sin(πChk)(i=1,2,…,Np;j=1,2,…,D)
Figure RE-FDA0003491751760000021
其中:D是搜索维度,Chk代表第k时刻的混沌矢量且Ch1为混沌矢量的初值,dij指第i个灰狼在第j个搜索维度的位置向量,Chkj代表第k时刻的混沌矢量在第j个搜索维度的分量,
Figure RE-FDA0003491751760000022
Figure RE-FDA0003491751760000023
分别表示第j个搜索维度的上下界;
基于所得灰狼种群执行镜像操作,并获得镜像解位置向量
Figure RE-FDA0003491751760000024
计算初始种群向量di={di,1,di,2,…,di,D}和镜像种群的个体适应度并选择Np个具有最优适应度值的解最终形成初始种群向量
Figure RE-FDA0003491751760000025
其中d′i={d′i,1,d′i,2,…,d′i,D}(i=1,…,N)。
5.根据权利要求3所述的方法,其特征在于,所述引入参数的余弦更新,包括:
引入下式所示的余弦公式更新a:
Figure RE-FDA0003491751760000026
6.根据权利要求3所述的方法,其特征在于,所述局部最优的判定及相应的变异操作:
引入阈值θ并通过下式判断优化过程是否陷入局部最优:
Figure RE-FDA0003491751760000027
其中:Fit(d*(k))为当前最优解的适应度值;
当确认优化过程陷入早熟收敛后,通过如下变异操作扩大种群多样性,跳出当前的局部最优:
Figure RE-FDA0003491751760000028
Figure RE-FDA0003491751760000029
j=(1,2,…,D)
其中,
Figure RE-FDA00034917517600000210
是第j维的更新最优解,
Figure RE-FDA00034917517600000211
是第j维的原最优解,w是选自[0,1]的随机数,η是分布指数,参数β1和β2通过下式获得:
Figure RE-FDA0003491751760000031
Figure RE-FDA0003491751760000032
(j=1,2,…,D)。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述IGWO算法是基于GWO算法进行改进得到的。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类,包括:
定义聚类个数为Nc,在数据对集合中随机选取Nc个数据向量作为初始聚类中心;
设置每个聚类中元素个数的阈值为th(th≥N/Nc),然后依次选取与聚类中心ci(i=1,2,…,Nc)距离最近的ni(i=1,2,…,Nc)个数据向量;
若ni≥th,则自动转入下一个聚类,直到确定每个聚类的元素;
以各聚类中心和本聚类中各元素间的平均距离最小为适应度函数f1,将聚类中心位置视为灰狼个体的位置,采用IGWO算法进行最优聚类中心
Figure RE-FDA0003491751760000033
的获取,并将最优聚类中心到各元素的最远距离作为聚类半径
Figure RE-FDA0003491751760000034
9.根据权利要求1至6任一项所述的方法,其特征在于,所述对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据清洗过程,包括:
采用传递函数或状态空间模型的形式表示光伏系统每个聚类中数据变量间的关系模型,各聚类对应模型中的未知参数向量集合为
Figure RE-FDA0003491751760000035
其中代表第i(i=1,2,…,Nc)个模型所对应的未知参数向量
Figure RE-FDA0003491751760000036
且Nb为未知参数个数;
模型输出与实际输出的偏差作为适应度函数f2,将参数向量视为灰狼种群中个体的位置向量,通过IGWO算法进行模型参数的优化;
重复模型参数的优化过程直到获取每个数据聚类所对应模型的最优参数向量;
采用预测模型的输出填补数据序列中的缺失值,查找数据空间中与模型输出偏差极大的无效值,并用模型输出对该无效值进行替换或修正以完成数据清洗过程。
10.一种光伏发电系统智能数据清洗装置,其特征在于,包括采集模块、分析模块、聚类模块以及修正模块;其中,
所述采集模块,用于采集光伏发电系统的运行数据并对其进行变量选择;
所述分析模块,用于基于所述运行数据,对IGWO算法进行原理分析;
所述聚类模块,用于根据所述IGWO算法对所述光伏发电系统的运行数据进行聚类;
所述修正模块,用于对所得的每个聚类中的运行数据进行缺失值插补和无效值修正,以完成对所述运行数据的清洗过程。
CN202111404181.0A 2021-11-24 2021-11-24 光伏发电系统智能数据清洗方法与装置 Pending CN114153828A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111404181.0A CN114153828A (zh) 2021-11-24 2021-11-24 光伏发电系统智能数据清洗方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111404181.0A CN114153828A (zh) 2021-11-24 2021-11-24 光伏发电系统智能数据清洗方法与装置

Publications (1)

Publication Number Publication Date
CN114153828A true CN114153828A (zh) 2022-03-08

Family

ID=80457634

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111404181.0A Pending CN114153828A (zh) 2021-11-24 2021-11-24 光伏发电系统智能数据清洗方法与装置

Country Status (1)

Country Link
CN (1) CN114153828A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063723A (zh) * 2022-06-20 2022-09-16 无锡慧眼人工智能科技有限公司 一种基于人体姿态估计的运动型障碍缺陷识别方法
CN115840740A (zh) * 2022-09-26 2023-03-24 中国电建集团贵阳勘测设计研究院有限公司 一种用于光伏电站的太阳能资源缺测数据插补方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063723A (zh) * 2022-06-20 2022-09-16 无锡慧眼人工智能科技有限公司 一种基于人体姿态估计的运动型障碍缺陷识别方法
CN115063723B (zh) * 2022-06-20 2023-10-24 无锡慧眼人工智能科技有限公司 一种基于人体姿态估计的运动型障碍缺陷识别方法
CN115840740A (zh) * 2022-09-26 2023-03-24 中国电建集团贵阳勘测设计研究院有限公司 一种用于光伏电站的太阳能资源缺测数据插补方法
CN115840740B (zh) * 2022-09-26 2023-11-24 中国电建集团贵阳勘测设计研究院有限公司 一种用于光伏电站的太阳能资源缺测数据插补方法

Similar Documents

Publication Publication Date Title
Abualigah et al. Salp swarm algorithm: a comprehensive survey
CN109002948B (zh) 基于cda-bp的微电网短期光伏发电功率预测方法
CN114153828A (zh) 光伏发电系统智能数据清洗方法与装置
CN111815035A (zh) 一种融合形态聚类及TCN-Attention的短期负荷预测方法
Ifaei et al. Sustainable energies and machine learning: An organized review of recent applications and challenges
CN110188919A (zh) 一种基于长短期记忆网络的负荷预测方法
CN107749638B (zh) 多微电网组合的虚拟发电厂分布式随机非重叠抽样的无中心优化方法
CN111401664A (zh) 一种综合能源系统鲁棒优化调度方法及装置
Abbasi et al. Recent developments of energy management strategies in microgrids: An updated and comprehensive review and classification
Makhadmeh et al. Recent advances in Grey Wolf Optimizer, its versions and applications
CN116316612B (zh) 自动机器学习的新能源功率云边协同预测方法及系统
CN109471049B (zh) 一种基于改进堆叠自编码器的卫星电源系统异常检测方法
Gude et al. A multiagent system based cuckoo search optimization for parameter identification of photovoltaic cell using Lambert W-function
Deepanraj et al. Intelligent wild geese algorithm with deep learning driven short term load forecasting for sustainable energy management in microgrids
Mugemanyi et al. Marine predators algorithm: A comprehensive review
Laith et al. Salp swarm algorithm: a comprehensive survey
Alharbi et al. Short-term solar irradiance forecasting model based on bidirectional long short-term memory deep learning
Díaz-Bedoya et al. Forecasting Univariate Solar Irradiance using Machine learning models: A case study of two Andean Cities
CN115021269B (zh) 基于数据驱动的两阶段最优潮流求解方法
CN115081940B (zh) 资源调度方法、电力资源分配方法以及装置
CN115395502A (zh) 一种光伏电站功率预测方法及系统
Xu et al. An Automated Few-Shot Learning for Time Series Forecasting in Smart Grid Under Data Scarcity
CN113421004A (zh) 输配协同的主动配电网分布式鲁棒扩展规划系统及方法
Liu et al. A novel photovoltaic power output forecasting method based on weather type clustering and wavelet support vector machines regression
Maldonato et al. Reinforcement Learning control strategies for Electric Vehicles and Renewable energy sources Virtual Power Plants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination