CN115935149A - 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 - Google Patents

一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 Download PDF

Info

Publication number
CN115935149A
CN115935149A CN202211552221.0A CN202211552221A CN115935149A CN 115935149 A CN115935149 A CN 115935149A CN 202211552221 A CN202211552221 A CN 202211552221A CN 115935149 A CN115935149 A CN 115935149A
Authority
CN
China
Prior art keywords
data
abnormal
anomaly
photovoltaic
data point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211552221.0A
Other languages
English (en)
Inventor
陈江雨
钟吴君
涂春鸣
李培强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202211552221.0A priority Critical patent/CN115935149A/zh
Publication of CN115935149A publication Critical patent/CN115935149A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Photovoltaic Devices (AREA)

Abstract

本发明提供的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,先采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据;再对获取的光伏发电功率数据进行预处理;接着利用双向四分位法清洗光伏发电功率数据中的分散型异常数据;最后利用集成异常检测法清洗光伏发电功率数据中的堆积型异常数据。本发明结合双向四分位法和集成异常检测方法,能同时有效地清洗分散型异常数据和堆积型异常数据,其中,集成异常检测方法结合了局部异常因子和最近邻集成隔离方法的优点,强化了对局部异常数据的清洗效果,且可以有效辨识与正常数据空间分布特征相似的异常运行数据和平行于坐标轴的异常运行数据,应用价值大。

Description

一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法
技术领域
本发明涉及新能源发电技术领域,尤其指一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法。
背景技术
为全面推进轨道交通系统能源结构向绿色低碳转型,《“十四五”现代综合交通运输体系发展规划》指出,鼓励在铁路沿线布局光伏发电及储能设施。我国88.5%的轨道交通里程分布在Ⅱ、Ⅲ类光资源区,光伏发电潜力显著,且在轨道交通的基础设施中,线路沿侧、车站站点院内、房顶等集中空间资源具有较大的可再生能源开发潜力,因此,可充分利用轨道交通侧的地理优势进行可再生能源的最大量开发。虽然太阳能具有资源量大、高效清洁等优势,但光伏发电具有间歇性、多变性、随机性的特点,使其可调度性和持续发电能力较差,从而影响轨道交通系统的运行和能量管控。精准而有效地预测光伏电站输出功率,对轨道交通系统安全稳定运行和轨道交通能量管控系统十分重要。光伏电站的功率预测精度高度依赖于其历史运行数据的质量,然而受测量误差、传感器故障及弃光等因素影响,在所采集到的光伏电站运行数据中存在着大量的异常数据。光伏电站内各个组件的运行状态数据有利于恢复异常数据,但此类通常数据较难获得,所采集到的数据大多仅为场站级辐照度和功率数据。如何在此种情况下准确识别光伏电站的异常运行数据具有重要意义。
目前现有光伏发电功率异常数据清洗算法基本分为两类,一类是全局概率统计方法,一类是智能聚类方法。第一类方法对于存在大量堆积型异常数据的数据集,无法做到准确识别;而第二种聚类方法通常针对数据样本的空间分布特征进行处理分析,但无法有效清洗与正常数据空间分布特征相似的异常运行数据,且专注于全局异常数据容易忽略局部异常数据,从而造成正常数据的错删和异常数据的漏删问题。
发明内容
为了解决目前处理光伏发电功率异常数据时,难以识别局部异常数据以及与正常数据分布类型相似、和平行于坐标轴的堆积型异常数据的技术问题,本发明提供一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法。
为了解决上述技术问题,本发明采用如下技术方法:一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法,包括:
步骤1:采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据,气象数据包括太阳辐照度;
步骤2:对获取的光伏发电功率数据进行预处理;
步骤3:利用双向四分位法清洗光伏发电功率数据中的分散型异常数据;
步骤4:利用集成异常检测法清洗光伏发电功率数据中的堆积型异常数据。
进一步地,所述步骤2中,对获取的光伏发电功率数据进行预处理时,包括:
步骤21:将步骤1中不符合光伏电站运行规律的原始数据剔除,包括当太阳光辐照度为0,光伏发电功率不为0的数据;当太阳光辐照度超过光伏电池板额定吸收辐照度时,光伏发电功率超过光伏电池额定输出功率的数据;当太阳光辐照度不为0,光伏发电功率小于等于0的数据;
步骤22:剔除后将原始数据中剩余的光伏发电功率数据组成数据集XT,XT=[x1…xi…xn],根据如下式(1)对数据集XT中的每一个数据点进行归一化处理;
Figure BDA0003981736230000021
式中,xi为数据集XT中的第i个数据点,i∈[1,…,n],数据点xi归一化后得到xi *,μ是数据集XT的平均值,σ是数据集XT的均方差,数据集XT归一化后得到
Figure BDA0003981736230000022
进一步地,所述步骤3中,利用双向四分位法清洗光伏发电功率分散型异常数据时,包括:
步骤31:使用纵向四分位法对各个辐照度区间内的分散型异常数据进行清洗:首先将辐照度以20W/m2的区间间隔划分为若干个辐照度区间,再计算各个辐照度区间光伏发电功率的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个辐照度区间内,光伏发电功率的异常数据上下边界的计算公式如下:
Figure BDA0003981736230000023
式中,Pli是第i个辐照度区间光伏发电功率的异常数据上边界;Pui是第i个辐照度区间光伏发电功率的异常数据下边界;
Figure BDA0003981736230000031
是第i个辐照度区间光伏发电功率的第一四分位数;
Figure BDA0003981736230000032
是第i个辐照度区间光伏发电功率的第三四分位数;
Figure BDA0003981736230000033
是第i个辐照度区间光伏发电功率的四分位间距,且有
Figure BDA0003981736230000034
步骤32:使用横向四分位法对各个功率区间内的分散型异常数据进行清洗:将光伏发电功率以额定装机容量的2%的区间间隔划分为若干个功率区间,再计算各个功率区间辐照度的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个功率区间内,辐照度的异常数据上下边界的计算公式如下:
Figure BDA0003981736230000035
式中,Rli是第i个功率区间辐照度的异常数据上边界;Rui是第i个功率区间辐照度的异常数据下边界;
Figure BDA0003981736230000036
是第i个功率区间辐照度的第一四分位数;
Figure BDA0003981736230000037
是第i个功率区间辐照度的第三四分位数;
Figure BDA0003981736230000038
是第i个功率区间辐照度的四分位间距,且有
Figure BDA0003981736230000039
再进一步地,所述步骤4中,利用集成异常检测法清洗光伏发电功率堆积型异常数据时,包括:
步骤41:训练t个基本异常检测器:假设
Figure BDA00039817362300000310
为实数集,
Figure BDA00039817362300000311
Xtrain为含有若干个数据点的训练集,采用超参数不同的局部异常因子检测器和最近邻集成隔离检测器两种基本异常检测器组成基本异常检测器池C={C1,...,Ct},t为基本异常检测器的个数,将训练集Xtrain输入到基本异常检测器池对所有基本异常检测器进行训练,完成各基本异常检测器的参数调试;
步骤42:使用K最邻近法获取数据集XT中所有数据点的局部最近邻区域:随机选择m组d/2维至d维的特征子空间,对于选出的每一组特征子空间,在训练集中找出在该特征子空间中与数据点xi欧式距离最近的k个邻近样本,将出现次数超过m/2的样本,作为该数据点xi的局部最近邻区域Ψi
Figure BDA0003981736230000046
式中,xj为局部最近邻区域包含的样本;
Figure BDA0003981736230000041
表示通过K最近邻法获取的k个近邻样本;
步骤43:计算每一数据点的局部最近邻区域的局部异常得分矩阵:将数据点xi的局部最近邻区域Ψi内的k个邻近样本分别通过t个基本异常检测器进行异常数据检测,得到t个局部异常得分向量,合并形成局部异常得分矩阵O(Ψi);
O(Ψi)=[C1i),...,Cti)]  (5)
式中,Cti)表示来自第t个基本异常检测器的局部异常得分向量;
步骤44:生成每一数据点的局部最近邻区域的局部伪异常标签:将步骤43得到的局部异常得分矩阵各个分向量进行归一化:
Figure BDA0003981736230000042
式中,均值
Figure BDA0003981736230000043
方差
Figure BDA0003981736230000044
再计算器对应局部伪异常标签φi(O(Ψi));
Figure BDA0003981736230000045
步骤45:通过皮尔逊相关系数检测各基本异常检测器在各数据点上的局部能力:计算由步骤43和步骤44所得局部异常得分矩阵O(Ψi)与局部伪异常标签φi(O(Ψi))的皮尔逊相关系数,从t个基本异常检测器中选取相关系数大的s个基本异常检测器;
步骤46:将选出的s个基本异常检测器的结果合并计算出该数据点的异常标签得分。
再进一步地,所述步骤43中,通过局部异常因子检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)计算数据点xi的k距离Dk(xi),假设XN表示数据点xi的k距离邻域中有N个样本点;
Figure BDA0003981736230000051
式中,
Figure BDA0003981736230000052
表示XN中的第t个样本点,
Figure BDA0003981736230000053
表示距离数据点xi第k远的数据样本;
2)计算样本
Figure BDA0003981736230000054
到数据点xi的可达距离
Figure BDA0003981736230000055
Figure BDA0003981736230000056
3)计算数据点xi的局部可达密度LRDk(xi);
Figure BDA0003981736230000057
4)计算数据点xi经过局部异常因子检测器检测后得到的异常评分LOFk(xi),如下式。
Figure BDA0003981736230000058
更进一步地,所述步骤43中,通过最近邻集成隔离检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)构建t组超球体集合:从数据集XT中随机选择数据点构成大小为Ψ的子样本集
Figure BDA0003981736230000059
Figure BDA00039817362300000510
中每个数据点进行最近邻搜索,即在剩下Ψ-1个样本点中寻找离自身最近的点,再以自己为中心,到该最近邻点的距离为半径,画出Ψ个超球体,其数学表示如公式(12),重复上述操作t次,得到t组超球体集合,如公式(13);
{x:||x-c||≤τ(c)}  (12)
Figure BDA00039817362300000511
式中,
Figure BDA00039817362300000512
x为
Figure BDA00039817362300000513
中的任意一个数据点,ηc为数据点x的最近邻,c为超球体B(c)的球心,τ(c)=||c-ηc||为超球体B(c)的半径,||x-c||表示x与c的欧式距离;
2)将数据集中每一个数据点都分别放进每组超球体集合中,计算所有数据点的孤立评分:如果数据点xi不被任何一个超球体包含,则该数据点xi的孤立评分为1;如果数据点xi被某组超球体集合中的超球体B1包含,再找到该组超球体集合中离超球体B1最近的超球体B2,分别记录超球体B1的半径τ(B1)、B2的半径τ(B2),则该数据点xi的孤立评分为
Figure BDA0003981736230000061
如下式;
Figure BDA0003981736230000062
3)计算数据集中每一个数据点放进不同超球体集合中得到的孤立评分的总和,再取平均值,得到每一个数据点对应的经过最近邻集成隔离检测器检测后得到的异常评分,如下式;
Figure BDA0003981736230000063
式中,Ij(xi)为数据点xi放进第j组超球体集合中得到的孤立评分;
4)将每一个数据点的异常评分与设定阈值进行迭代计算比较,若异常评分大于等于阈值,数据点被判断为异常点;若异常评分小于阈值,数据点被判定为正常点。
更进一步地,所述数据点的异常评分设定阈值为-0.01。
优选地,所述步骤46中,使用所选的s个基本异常检测器,分别计算数据点xi的异常标签得分,若s为1,则该基本异常检测器所得异常评分即为数据点xi的异常标签得分;若s大于1,则将s个基本异常检测器所得异常评分的最大值或平均值作为数据点xi的异常标签得分。
本发明的有益效果在于:结合双向四分位法和集成异常检测方法,能同时有效地清洗分散型异常数据和堆积型异常数据,相较于基于全局概率统计和基于距离聚类的方法,本发明采用集成异常检测方法结合了局部异常因子方法和最近邻集成隔离方法的优点,强化了对局部异常数据的清洗效果,且可以有效辨识与正常数据空间分布特征相似的异常运行数据和平行于坐标轴的异常运行数据,具有广泛的应用价值。
附图说明
图1是本发明提出的基于双向四分位和集成异常检测的光伏异常数据清洗的方法流程图。
图2是本发明中集成异常检测法的流程图。
图3是本发明实施例中使用双向四分位法清洗分散型异常数据的结果图。
图4是本发明实施例中使用集成异常检测法清洗堆积型异常数据的结果图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
如图1所示,一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法,包括:
步骤1:采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据,气象数据包括太阳辐照度,本实施方式使用了我国某光伏电厂2019年实际运行数据,共102905条数据,采样间隔为5min,表1展示其运行期间某日8:00-11:55共48条运行数据。
表1部分运行数据
Figure BDA0003981736230000071
Figure BDA0003981736230000081
步骤2:对获取的光伏发电功率数据进行预处理。
步骤21:将步骤1中不符合光伏电站运行规律的原始数据剔除,包括当太阳光辐照度为0,光伏发电功率不为0的数据;当太阳光辐照度超过光伏电池板额定吸收辐照度时,光伏发电功率超过光伏电池额定输出功率的数据;当太阳光辐照度不为0,光伏发电功率小于等于0的数据;
步骤22:剔除后将原始数据中剩余的光伏发电功率数据组成数据集XT,XT=[x1…xi…xn],根据如下式(1)对数据集XT中的每一个元素进行归一化处理;
Figure BDA0003981736230000082
式中,xi为数据集XT中的第i个元素,i∈[1,…,n],元素xi归一化后得到xi *,μ是数据集XT的平均值,σ是数据集XT的均方差,数据集XT归一化后得到
Figure BDA0003981736230000083
步骤3:利用双向四分位法清洗经过步骤2预处理后的数据集
Figure BDA0003981736230000084
中的分散型异常数据,清洗后的数据情况如图3所示。
步骤31:使用纵向四分位法对数据集
Figure BDA0003981736230000085
中各个辐照度区间内的分散型异常数据进行清洗:首先将辐照度以20W/m2的区间间隔划分为若干个辐照度区间,再计算各个辐照度区间光伏发电功率的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个辐照度区间内,光伏发电功率的异常数据上下边界的计算公式如下:
Figure BDA0003981736230000086
式中,Pli是第i个辐照度区间光伏发电功率的异常数据上边界;Pui是第i个辐照度区间光伏发电功率的异常数据下边界;
Figure BDA0003981736230000087
是第i个辐照度区间光伏发电功率的第一四分位数;
Figure BDA0003981736230000088
是第i个辐照度区间光伏发电功率的第三四分位数;
Figure BDA0003981736230000091
是第i个辐照度区间光伏发电功率的四分位间距,且有
Figure BDA0003981736230000092
步骤32:使用横向四分位法对数据集
Figure BDA0003981736230000093
中各个功率区间内的分散型异常数据进行清洗:将光伏发电功率以额定装机容量的2%的区间间隔划分为若干个功率区间,再计算各个功率区间辐照度的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个功率区间内,辐照度的异常数据上下边界的计算公式如下:
Figure BDA0003981736230000094
式中,Rli是第i个功率区间辐照度的异常数据上边界;Rui是第i个功率区间辐照度的异常数据下边界;
Figure BDA0003981736230000095
是第i个功率区间辐照度的第一四分位数;
Figure BDA0003981736230000096
是第i个功率区间辐照度的第三四分位数;
Figure BDA0003981736230000097
是第i个功率区间辐照度的四分位间距,且有
Figure BDA0003981736230000098
步骤4:利用集成异常检测法清洗经过步骤2预处理后的数据集XT中的堆积型异常数据,清洗后的数据如图4所示。具体的步骤参见图2,包括:
步骤41:训练t个基本异常检测器:假设
Figure BDA0003981736230000099
为实数集,
Figure BDA00039817362300000910
Xtrain为含有若干个数据点的训练集,采用超参数不同的局部异常因子检测器和最近邻集成隔离检测器两种基本异常检测器组成基本异常检测器池C={C1,...,Ct},t为基本异常检测器的个数,将训练集Xtrain输入到基本异常检测器池对所有基本异常检测器进行训练,完成各基本异常检测器的参数调试。
此处,值得一提的是,各基本异常检测器在同一数据集上进行异常数据检测时,所得的检测结果可合并得到异常得分矩阵O(Xtrain):
O(Xtrain)=[C1(Xtrain),…,Ct(Xtrain)](16)
式中,Ct(·)表示来自第t个基本异常检测器的异常得分向量。
步骤42:使用K最邻近法获取数据集中所有数据点的局部最近邻区域:随机选择m组d/2维至d维的特征子空间,对于选出的每一组特征子空间,在训练集中找出在该特征子空间中与数据点xi欧式距离最近的k个邻近样本,xi∈XT,将出现次数超过m/2的样本,作为该数据点xi的局部最近邻区域Ψi
Figure BDA0003981736230000101
式中,xj为局部最近邻区域包含的样本;
Figure BDA0003981736230000102
表示通过K最近邻法获取的k个近邻样本。
步骤43:计算每一数据点的局部最近邻区域的局部异常得分矩阵:将数据点xj的局部最近邻区域Ψi内的k个邻近样本分别通过t个基本异常检测器进行异常数据检测,得到t个局部异常得分向量,合并形成局部异常得分矩阵O(Ψi);
O(Ψi)=[C1i),...,Cti)] (5)
式中,Cti)表示来自第t个基本异常检测器的局部异常得分向量。
步骤44:生成每一数据点的局部最近邻区域的局部伪异常标签:将步骤43得到的局部异常得分矩阵各个分向量进行归一化:
Figure BDA0003981736230000103
式中,均值
Figure BDA0003981736230000104
方差
Figure BDA0003981736230000105
再根据伪异常标签取归一化后局部异常得分矩阵O(Ψi)的平均值或最大值的原则,计算器对应局部伪异常标签φi(O(Ψi)),如下式(7):
Figure BDA0003981736230000106
步骤45:通过皮尔逊相关系数检测各基本异常检测器在各数据点上的局部能力:计算由步骤43和步骤44所得局部异常得分矩阵O(Ψi)与局部伪异常标签φi(O(Ψi))的皮尔逊相关系数,从t个基本异常检测器中选取相关系数大的s个基本异常检测器。
步骤46:将选出的s个基本异常检测器的结果合并计算出数据点的异常标签得分。具体的,使用所选的s个基本异常检测器,分别计算数据点xi的异常标签得分,若s为1,则该基本异常检测器所得异常评分即为数据点xi的异常标签得分;若s大于1,则将s个基本异常检测器所得异常评分的最大值或平均值作为数据点xi的异常标签得分。
前述步骤43中,通过局部异常因子检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)计算数据点xi的k距离Dk(xi),假设XN表示数据点xi的k距离邻域中有N个样本点;
Figure BDA0003981736230000111
式中,
Figure BDA0003981736230000112
表示XN中的第t个样本点,
Figure BDA0003981736230000113
表示距离数据点xi第k远的数据样本;
2)计算样本xt N到数据点xi的可达距离
Figure BDA0003981736230000114
Figure BDA0003981736230000115
3)计算数据点xi的局部可达密度LRDk(xi);
Figure BDA0003981736230000116
4)计算数据点xi经过局部异常因子检测器检测后得到的异常评分LOFk(xi),如下式。
Figure BDA0003981736230000117
式中,LOFk(xi)的值接近1,则数据点xi越可能是正常数据,其值越大于1,数据点xi越可能是异常点。
前述步骤43中,通过最近邻集成隔离检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)构建t组超球体集合:从数据集XT中随机选择数据点构成大小为Ψ的子样本集
Figure BDA0003981736230000118
Figure BDA0003981736230000119
中每个数据点进行最近邻搜索,即在剩下Ψ-1个样本点中寻找离自身最近的点,再以自己为中心,到该最近邻点的距离为半径,画出Ψ个超球体,其数学表示如公式(12),重复上述操作t次,得到t组超球体集合,如公式(13);
{x:||x-c||≤τ(c)}  (12)
Figure BDA0003981736230000121
式中,
Figure BDA0003981736230000122
x为
Figure BDA0003981736230000123
中的任意一个数据点,ηc为数据点x的最近邻,c为超球体B(c)的球心,τ(c)=||c-ηc||为超球体B(c)的半径,||x-c||表示x与c的欧式距离;
2)将数据集中每一个数据点都分别放进每组超球体集合中,计算所有数据点的孤立评分:如果数据点xi不被任何一个超球体包含,则该数据点xi的孤立评分为1;如果数据点xi被某组超球体集合中的超球体B1包含,再找到该组超球体集合中离超球体B1最近的超球体B2,分别记录超球体B1的半径τ(B1)、B2的半径τ(B2),则该数据点xi的孤立评分为
Figure BDA0003981736230000124
如下式;
Figure BDA0003981736230000125
3)计算数据集中每一个数据点放进不同超球体集合中得到的孤立评分的总和,再取平均值,得到每一个数据点对应的经过最近邻集成隔离检测器检测后得到的异常评分,如下式;
Figure BDA0003981736230000126
式中,Ij(xi)为数据点xi放进第j组超球体集合中得到的孤立评分;
4)将每一个数据点的异常评分与设定阈值进行迭代计算比较,若异常评分大于等于阈值,数据点被判断为异常点;若异常评分小于阈值,数据点被判定为正常点。此处,优选地,数据点的异常评分设定阈值为-0.01。
综上所述,本发明提供的基于双向四分位和集成异常检测的异常数据清洗方法能够同时有效地清洗光伏发电功率数据中的分散型异常数据和堆积型异常数据,强化了对局部异常数据的清洗效果,且可以有效辨识与正常数据空间分布特征相似的异常运行数据和平行于坐标轴的异常运行数据,具有较强的通用性,适用于大多数光伏异常数据处理场合。
上述实施例为本发明较佳的实现方案,除此之外,本发明还可以其它方式实现,在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。
为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之处,本发明的一些附图和描述已经被简化,并且为了清楚起见,本申请文件还省略了一些其他元素,本领域普通技术人员应该意识到这些省略的元素也可构成本发明的内容。

Claims (8)

1.一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于,包括:
步骤1:采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据,气象数据包括太阳辐照度;
步骤2:对获取的光伏发电功率数据进行预处理;
步骤3:利用双向四分位法清洗光伏发电功率数据中的分散型异常数据;
步骤4:利用集成异常检测法清洗光伏发电功率数据中的堆积型异常数据。
2.根据权利要求1所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤2中,对获取的光伏发电功率数据进行预处理时,包括:
步骤21:将步骤1中不符合光伏电站运行规律的原始数据剔除,包括当太阳光辐照度为0,光伏发电功率不为0的数据;当太阳光辐照度超过光伏电池板额定吸收辐照度时,光伏发电功率超过光伏电池额定输出功率的数据;当太阳光辐照度不为0,光伏发电功率小于等于0的数据;
步骤22:剔除后将原始数据中剩余的光伏发电功率数据组成数据集XT,XT=[x1…xi…xn],根据如下式(1)对数据集XT中的每一个数据点进行归一化处理;
Figure FDA0003981736220000011
式中,xi为数据集XT中的第i个数据点,i∈[1,…,n],数据点xi归一化后得到xi *,μ是数据集XT的平均值,σ是数据集XT的均方差,数据集XT归一化后得到
Figure FDA0003981736220000012
3.根据权利要求2所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤3中,利用双向四分位法清洗光伏发电功率分散型异常数据时,包括:
步骤31:使用纵向四分位法对各个辐照度区间内的分散型异常数据进行清洗:首先将辐照度以20W/m2的区间间隔划分为若干个辐照度区间,再计算各个辐照度区间光伏发电功率的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个辐照度区间内,光伏发电功率的异常数据上下边界的计算公式如下:
Figure FDA0003981736220000021
式中,Pli是第i个辐照度区间光伏发电功率的异常数据上边界;Pui是第i个辐照度区间光伏发电功率的异常数据下边界;
Figure FDA0003981736220000022
是第i个辐照度区间光伏发电功率的第一四分位数;
Figure FDA0003981736220000023
是第i个辐照度区间光伏发电功率的第三四分位数;
Figure FDA0003981736220000024
是第i个辐照度区间光伏发电功率的四分位间距,且有
Figure FDA0003981736220000025
步骤32:使用横向四分位法对各个功率区间内的分散型异常数据进行清洗:将光伏发电功率以额定装机容量的2%的区间间隔划分为若干个功率区间,再计算各个功率区间辐照度的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个功率区间内,辐照度的异常数据上下边界的计算公式如下:
Figure FDA0003981736220000026
式中,Rli是第i个功率区间辐照度的异常数据上边界;Rui是第i个功率区间辐照度的异常数据下边界;
Figure FDA0003981736220000027
是第i个功率区间辐照度的第一四分位数;
Figure FDA0003981736220000028
是第i个功率区间辐照度的第三四分位数;
Figure FDA0003981736220000029
是第i个功率区间辐照度的四分位间距,且有
Figure FDA00039817362200000210
4.根据权利要求1或2或3所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤4中,利用集成异常检测法清洗光伏发电功率堆积型异常数据时,包括:
步骤41:训练t个基本异常检测器:假设
Figure FDA00039817362200000211
为实数集,
Figure FDA00039817362200000212
Xtrain为含有若干个数据点的训练集,采用超参数不同的局部异常因子检测器和最近邻集成隔离检测器两种基本异常检测器组成基本异常检测器池C={C1,...,Ct},t为基本异常检测器的个数,将训练集Xtrain输入到基本异常检测器池对所有基本异常检测器进行训练,完成各基本异常检测器的参数调试;
步骤42:使用K最邻近法获取数据集XT中所有数据点的局部最近邻区域:随机选择m组d/2维至d维的特征子空间,对于选出的每一组特征子空间,在训练集中找出在该特征子空间中与数据点xi欧式距离最近的k个邻近样本,将出现次数超过m/2的样本,作为该数据点xi的局部最近邻区域Ψi
Figure FDA0003981736220000031
式中,xj为局部最近邻区域包含的样本;
Figure FDA0003981736220000032
表示通过K最近邻法获取的k个近邻样本;
步骤43:计算每一数据点的局部最近邻区域的局部异常得分矩阵:将数据点xi的局部最近邻区域Ψi内的k个邻近样本分别通过t个基本异常检测器进行异常数据检测,得到t个局部异常得分向量,合并形成局部异常得分矩阵O(Ψi);
O(Ψi)=[C1i),...,Cti)](5)
式中,Cti)表示来自第t个基本异常检测器的局部异常得分向量;
步骤44:生成每一数据点的局部最近邻区域的局部伪异常标签:将步骤43得到的局部异常得分矩阵各个分向量进行归一化:
Figure FDA0003981736220000033
式中,均值
Figure FDA0003981736220000034
方差
Figure FDA0003981736220000035
再计算器对应局部伪异常标签φi(O(Ψi));
Figure FDA0003981736220000036
步骤45:通过皮尔逊相关系数检测各基本异常检测器在各数据点上的局部能力:计算由步骤43和步骤44所得局部异常得分矩阵O(Ψi)与局部伪异常标签φi(O(Ψi))的皮尔逊相关系数,从t个基本异常检测器中选取相关系数大的s个基本异常检测器;
步骤46:将选出的s个基本异常检测器的结果合并计算出该数据点的异常标签得分。
5.根据权利要求4所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤43中,通过局部异常因子检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)计算数据点xi的k距离Dk(xi),假设XN表示数据点xi的k距离邻域中有N个样本点;
Figure FDA0003981736220000041
式中,
Figure FDA0003981736220000042
表示XN中的第t个样本点,
Figure FDA0003981736220000043
表示距离数据点xi第k远的数据样本;
2)计算样本
Figure FDA0003981736220000044
到数据点xi的可达距离
Figure FDA0003981736220000045
Figure FDA0003981736220000046
3)计算数据点xi的局部可达密度LRDk(xi);
Figure FDA0003981736220000047
4)计算数据点xi经过局部异常因子检测器检测后得到的异常评分LOFk(xi),如下式。
Figure FDA0003981736220000048
6.根据权利要求5所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤43中,通过最近邻集成隔离检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)构建t组超球体集合:从数据集XT中随机选择数据点构成大小为Ψ的子样本集
Figure FDA0003981736220000049
Figure FDA00039817362200000410
中每个数据点进行最近邻搜索,即在剩下Ψ-1个样本点中寻找离自身最近的点,再以自己为中心,到该最近邻点的距离为半径,画出Ψ个超球体,其数学表示如公式(12),重复上述操作t次,得到t组超球体集合,如公式(13);
Figure FDA00039817362200000411
Figure FDA0003981736220000051
式中,c、
Figure FDA0003981736220000052
x为
Figure FDA0003981736220000053
中的任意一个数据点,ηc为数据点x的最近邻,c为超球体B(c)的球心,τ(c)=c-ηc为超球体B(c)的半径,x-c表示x与c的欧式距离;
2)将数据集中每一个数据点都分别放进每组超球体集合中,计算所有数据点的孤立评分:如果数据点xi不被任何一个超球体包含,则该数据点xi的孤立评分为1;如果数据点xi被某组超球体集合中的超球体B1包含,再找到该组超球体集合中离超球体B1最近的超球体B2,分别记录超球体B1的半径τ(B1)、B2的半径τ(B2),则该数据点xi的孤立评分为
Figure FDA0003981736220000054
如下式;
Figure FDA0003981736220000055
3)计算数据集中每一个数据点放进不同超球体集合中得到的孤立评分的总和,再取平均值,得到每一个数据点对应的经过最近邻集成隔离检测器检测后得到的异常评分,如下式;
Figure FDA0003981736220000056
式中,Ij(xi)为数据点xi放进第j组超球体集合中得到的孤立评分;
4)将每一个数据点的异常评分与设定阈值进行迭代计算比较,若异常评分大于等于阈值,数据点被判断为异常点;若异常评分小于阈值,数据点被判定为正常点。
7.根据权利要求6所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述数据点的异常评分设定阈值为-0.01。
8.根据权利要求7所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤46中,使用所选的s个基本异常检测器,分别计算数据点xi的异常标签得分,若s为1,则该基本异常检测器所得异常评分即为数据点xi的异常标签得分;若s大于1,则将s个基本异常检测器所得异常评分的最大值或平均值作为数据点xi的异常标签得分。
CN202211552221.0A 2022-12-05 2022-12-05 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 Pending CN115935149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211552221.0A CN115935149A (zh) 2022-12-05 2022-12-05 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211552221.0A CN115935149A (zh) 2022-12-05 2022-12-05 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法

Publications (1)

Publication Number Publication Date
CN115935149A true CN115935149A (zh) 2023-04-07

Family

ID=86653852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211552221.0A Pending CN115935149A (zh) 2022-12-05 2022-12-05 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法

Country Status (1)

Country Link
CN (1) CN115935149A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118115822A (zh) * 2024-04-29 2024-05-31 江西师范大学 一种基于图像块特征级联检索模型的异常检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118115822A (zh) * 2024-04-29 2024-05-31 江西师范大学 一种基于图像块特征级联检索模型的异常检测方法及系统

Similar Documents

Publication Publication Date Title
Huang et al. Hybrid deep neural model for hourly solar irradiance forecasting
Zheng et al. Composite quantile regression extreme learning machine with feature selection for short-term wind speed forecasting: A new approach
Zaini et al. A systematic literature review of deep learning neural network for time series air quality forecasting
Zhao et al. Hierarchical anomaly detection and multimodal classification in large-scale photovoltaic systems
Zhang et al. A novel hybrid approach based on variational heteroscedastic Gaussian process regression for multi-step ahead wind speed forecasting
Heinrich et al. Detection of cleaning interventions on photovoltaic modules with machine learning
Wang et al. Predicting wind-caused floater intrusion risk for overhead contact lines based on Bayesian neural network with spatiotemporal correlation analysis
Panapakidis et al. A missing data treatment method for photovoltaic installations
CN116027217A (zh) Ae-cfsfdp储能电站多源电池数据异常检测方法
Jain et al. A clustering framework for residential electric demand profiles
Tadayon et al. A clustering approach to time series forecasting using neural networks: a comparative study on distance-based vs. feature-based clustering methods
CN115935149A (zh) 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法
Qin et al. EDDNet: An efficient and accurate defect detection network for the industrial edge environment
Feng et al. Sundown: Model-driven per-panel solar anomaly detection for residential arrays
Ding et al. Feature extraction and fault diagnosis of photovoltaic array based on current–voltage conversion
Ma et al. Anomaly Detection of Mountain Photovoltaic Power Plant Based on Spectral Clustering
Qu et al. Remaining Useful Life Prediction of High-Speed Railroad Contact Network Based on Stacking Integrated Attention-LSTM-CNN Deep Learning
Chen et al. Electricity theft detection model for smart meter based on residual neural network
Liu et al. An abnormal detection of positive active total power based on local outlier factor
CN112682269A (zh) 一种基于oc-rkelm的风电机组状态监测方法
Liu et al. Review of outlier detection algorithms based on grain storage temperature data
Chiranjeevi et al. Preprocessing Techniques of Solar Irradiation Data
Wang et al. Data-Driven Outage Restoration Time Prediction via Transfer Learning With Cluster Ensembles
Wu et al. Overview of day-ahead solar power forecasts based on weather classifications
Nguyen et al. Finding needles in a haystack: Line event detection on smart grid pmu data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination