CN115935149A - 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 - Google Patents
一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 Download PDFInfo
- Publication number
- CN115935149A CN115935149A CN202211552221.0A CN202211552221A CN115935149A CN 115935149 A CN115935149 A CN 115935149A CN 202211552221 A CN202211552221 A CN 202211552221A CN 115935149 A CN115935149 A CN 115935149A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- anomaly
- photovoltaic
- data point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Photovoltaic Devices (AREA)
Abstract
本发明提供的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,先采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据;再对获取的光伏发电功率数据进行预处理;接着利用双向四分位法清洗光伏发电功率数据中的分散型异常数据;最后利用集成异常检测法清洗光伏发电功率数据中的堆积型异常数据。本发明结合双向四分位法和集成异常检测方法,能同时有效地清洗分散型异常数据和堆积型异常数据,其中,集成异常检测方法结合了局部异常因子和最近邻集成隔离方法的优点,强化了对局部异常数据的清洗效果,且可以有效辨识与正常数据空间分布特征相似的异常运行数据和平行于坐标轴的异常运行数据,应用价值大。
Description
技术领域
本发明涉及新能源发电技术领域,尤其指一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法。
背景技术
为全面推进轨道交通系统能源结构向绿色低碳转型,《“十四五”现代综合交通运输体系发展规划》指出,鼓励在铁路沿线布局光伏发电及储能设施。我国88.5%的轨道交通里程分布在Ⅱ、Ⅲ类光资源区,光伏发电潜力显著,且在轨道交通的基础设施中,线路沿侧、车站站点院内、房顶等集中空间资源具有较大的可再生能源开发潜力,因此,可充分利用轨道交通侧的地理优势进行可再生能源的最大量开发。虽然太阳能具有资源量大、高效清洁等优势,但光伏发电具有间歇性、多变性、随机性的特点,使其可调度性和持续发电能力较差,从而影响轨道交通系统的运行和能量管控。精准而有效地预测光伏电站输出功率,对轨道交通系统安全稳定运行和轨道交通能量管控系统十分重要。光伏电站的功率预测精度高度依赖于其历史运行数据的质量,然而受测量误差、传感器故障及弃光等因素影响,在所采集到的光伏电站运行数据中存在着大量的异常数据。光伏电站内各个组件的运行状态数据有利于恢复异常数据,但此类通常数据较难获得,所采集到的数据大多仅为场站级辐照度和功率数据。如何在此种情况下准确识别光伏电站的异常运行数据具有重要意义。
目前现有光伏发电功率异常数据清洗算法基本分为两类,一类是全局概率统计方法,一类是智能聚类方法。第一类方法对于存在大量堆积型异常数据的数据集,无法做到准确识别;而第二种聚类方法通常针对数据样本的空间分布特征进行处理分析,但无法有效清洗与正常数据空间分布特征相似的异常运行数据,且专注于全局异常数据容易忽略局部异常数据,从而造成正常数据的错删和异常数据的漏删问题。
发明内容
为了解决目前处理光伏发电功率异常数据时,难以识别局部异常数据以及与正常数据分布类型相似、和平行于坐标轴的堆积型异常数据的技术问题,本发明提供一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法。
为了解决上述技术问题,本发明采用如下技术方法:一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法,包括:
步骤1:采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据,气象数据包括太阳辐照度;
步骤2:对获取的光伏发电功率数据进行预处理;
步骤3:利用双向四分位法清洗光伏发电功率数据中的分散型异常数据;
步骤4:利用集成异常检测法清洗光伏发电功率数据中的堆积型异常数据。
进一步地,所述步骤2中,对获取的光伏发电功率数据进行预处理时,包括:
步骤21:将步骤1中不符合光伏电站运行规律的原始数据剔除,包括当太阳光辐照度为0,光伏发电功率不为0的数据;当太阳光辐照度超过光伏电池板额定吸收辐照度时,光伏发电功率超过光伏电池额定输出功率的数据;当太阳光辐照度不为0,光伏发电功率小于等于0的数据;
步骤22:剔除后将原始数据中剩余的光伏发电功率数据组成数据集XT,XT=[x1…xi…xn],根据如下式(1)对数据集XT中的每一个数据点进行归一化处理;
进一步地,所述步骤3中,利用双向四分位法清洗光伏发电功率分散型异常数据时,包括:
步骤31:使用纵向四分位法对各个辐照度区间内的分散型异常数据进行清洗:首先将辐照度以20W/m2的区间间隔划分为若干个辐照度区间,再计算各个辐照度区间光伏发电功率的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个辐照度区间内,光伏发电功率的异常数据上下边界的计算公式如下:
式中,Pli是第i个辐照度区间光伏发电功率的异常数据上边界;Pui是第i个辐照度区间光伏发电功率的异常数据下边界;是第i个辐照度区间光伏发电功率的第一四分位数;是第i个辐照度区间光伏发电功率的第三四分位数;是第i个辐照度区间光伏发电功率的四分位间距,且有
步骤32:使用横向四分位法对各个功率区间内的分散型异常数据进行清洗:将光伏发电功率以额定装机容量的2%的区间间隔划分为若干个功率区间,再计算各个功率区间辐照度的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个功率区间内,辐照度的异常数据上下边界的计算公式如下:
式中,Rli是第i个功率区间辐照度的异常数据上边界;Rui是第i个功率区间辐照度的异常数据下边界;是第i个功率区间辐照度的第一四分位数;是第i个功率区间辐照度的第三四分位数;是第i个功率区间辐照度的四分位间距,且有
再进一步地,所述步骤4中,利用集成异常检测法清洗光伏发电功率堆积型异常数据时,包括:
步骤41:训练t个基本异常检测器:假设为实数集,Xtrain为含有若干个数据点的训练集,采用超参数不同的局部异常因子检测器和最近邻集成隔离检测器两种基本异常检测器组成基本异常检测器池C={C1,...,Ct},t为基本异常检测器的个数,将训练集Xtrain输入到基本异常检测器池对所有基本异常检测器进行训练,完成各基本异常检测器的参数调试;
步骤42:使用K最邻近法获取数据集XT中所有数据点的局部最近邻区域:随机选择m组d/2维至d维的特征子空间,对于选出的每一组特征子空间,在训练集中找出在该特征子空间中与数据点xi欧式距离最近的k个邻近样本,将出现次数超过m/2的样本,作为该数据点xi的局部最近邻区域Ψi;
步骤43:计算每一数据点的局部最近邻区域的局部异常得分矩阵:将数据点xi的局部最近邻区域Ψi内的k个邻近样本分别通过t个基本异常检测器进行异常数据检测,得到t个局部异常得分向量,合并形成局部异常得分矩阵O(Ψi);
O(Ψi)=[C1(Ψi),...,Ct(Ψi)] (5)
式中,Ct(Ψi)表示来自第t个基本异常检测器的局部异常得分向量;
步骤44:生成每一数据点的局部最近邻区域的局部伪异常标签:将步骤43得到的局部异常得分矩阵各个分向量进行归一化:
再计算器对应局部伪异常标签φi(O(Ψi));
步骤45:通过皮尔逊相关系数检测各基本异常检测器在各数据点上的局部能力:计算由步骤43和步骤44所得局部异常得分矩阵O(Ψi)与局部伪异常标签φi(O(Ψi))的皮尔逊相关系数,从t个基本异常检测器中选取相关系数大的s个基本异常检测器;
步骤46:将选出的s个基本异常检测器的结果合并计算出该数据点的异常标签得分。
再进一步地,所述步骤43中,通过局部异常因子检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)计算数据点xi的k距离Dk(xi),假设XN表示数据点xi的k距离邻域中有N个样本点;
3)计算数据点xi的局部可达密度LRDk(xi);
4)计算数据点xi经过局部异常因子检测器检测后得到的异常评分LOFk(xi),如下式。
更进一步地,所述步骤43中,通过最近邻集成隔离检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)构建t组超球体集合:从数据集XT中随机选择数据点构成大小为Ψ的子样本集对中每个数据点进行最近邻搜索,即在剩下Ψ-1个样本点中寻找离自身最近的点,再以自己为中心,到该最近邻点的距离为半径,画出Ψ个超球体,其数学表示如公式(12),重复上述操作t次,得到t组超球体集合,如公式(13);
{x:||x-c||≤τ(c)} (12)
2)将数据集中每一个数据点都分别放进每组超球体集合中,计算所有数据点的孤立评分:如果数据点xi不被任何一个超球体包含,则该数据点xi的孤立评分为1;如果数据点xi被某组超球体集合中的超球体B1包含,再找到该组超球体集合中离超球体B1最近的超球体B2,分别记录超球体B1的半径τ(B1)、B2的半径τ(B2),则该数据点xi的孤立评分为如下式;
3)计算数据集中每一个数据点放进不同超球体集合中得到的孤立评分的总和,再取平均值,得到每一个数据点对应的经过最近邻集成隔离检测器检测后得到的异常评分,如下式;
式中,Ij(xi)为数据点xi放进第j组超球体集合中得到的孤立评分;
4)将每一个数据点的异常评分与设定阈值进行迭代计算比较,若异常评分大于等于阈值,数据点被判断为异常点;若异常评分小于阈值,数据点被判定为正常点。
更进一步地,所述数据点的异常评分设定阈值为-0.01。
优选地,所述步骤46中,使用所选的s个基本异常检测器,分别计算数据点xi的异常标签得分,若s为1,则该基本异常检测器所得异常评分即为数据点xi的异常标签得分;若s大于1,则将s个基本异常检测器所得异常评分的最大值或平均值作为数据点xi的异常标签得分。
本发明的有益效果在于:结合双向四分位法和集成异常检测方法,能同时有效地清洗分散型异常数据和堆积型异常数据,相较于基于全局概率统计和基于距离聚类的方法,本发明采用集成异常检测方法结合了局部异常因子方法和最近邻集成隔离方法的优点,强化了对局部异常数据的清洗效果,且可以有效辨识与正常数据空间分布特征相似的异常运行数据和平行于坐标轴的异常运行数据,具有广泛的应用价值。
附图说明
图1是本发明提出的基于双向四分位和集成异常检测的光伏异常数据清洗的方法流程图。
图2是本发明中集成异常检测法的流程图。
图3是本发明实施例中使用双向四分位法清洗分散型异常数据的结果图。
图4是本发明实施例中使用集成异常检测法清洗堆积型异常数据的结果图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
如图1所示,一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法,包括:
步骤1:采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据,气象数据包括太阳辐照度,本实施方式使用了我国某光伏电厂2019年实际运行数据,共102905条数据,采样间隔为5min,表1展示其运行期间某日8:00-11:55共48条运行数据。
表1部分运行数据
步骤2:对获取的光伏发电功率数据进行预处理。
步骤21:将步骤1中不符合光伏电站运行规律的原始数据剔除,包括当太阳光辐照度为0,光伏发电功率不为0的数据;当太阳光辐照度超过光伏电池板额定吸收辐照度时,光伏发电功率超过光伏电池额定输出功率的数据;当太阳光辐照度不为0,光伏发电功率小于等于0的数据;
步骤22:剔除后将原始数据中剩余的光伏发电功率数据组成数据集XT,XT=[x1…xi…xn],根据如下式(1)对数据集XT中的每一个元素进行归一化处理;
步骤31:使用纵向四分位法对数据集中各个辐照度区间内的分散型异常数据进行清洗:首先将辐照度以20W/m2的区间间隔划分为若干个辐照度区间,再计算各个辐照度区间光伏发电功率的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个辐照度区间内,光伏发电功率的异常数据上下边界的计算公式如下:
式中,Pli是第i个辐照度区间光伏发电功率的异常数据上边界;Pui是第i个辐照度区间光伏发电功率的异常数据下边界;是第i个辐照度区间光伏发电功率的第一四分位数;是第i个辐照度区间光伏发电功率的第三四分位数;是第i个辐照度区间光伏发电功率的四分位间距,且有
步骤32:使用横向四分位法对数据集中各个功率区间内的分散型异常数据进行清洗:将光伏发电功率以额定装机容量的2%的区间间隔划分为若干个功率区间,再计算各个功率区间辐照度的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个功率区间内,辐照度的异常数据上下边界的计算公式如下:
式中,Rli是第i个功率区间辐照度的异常数据上边界;Rui是第i个功率区间辐照度的异常数据下边界;是第i个功率区间辐照度的第一四分位数;是第i个功率区间辐照度的第三四分位数;是第i个功率区间辐照度的四分位间距,且有
步骤4:利用集成异常检测法清洗经过步骤2预处理后的数据集XT中的堆积型异常数据,清洗后的数据如图4所示。具体的步骤参见图2,包括:
步骤41:训练t个基本异常检测器:假设为实数集,Xtrain为含有若干个数据点的训练集,采用超参数不同的局部异常因子检测器和最近邻集成隔离检测器两种基本异常检测器组成基本异常检测器池C={C1,...,Ct},t为基本异常检测器的个数,将训练集Xtrain输入到基本异常检测器池对所有基本异常检测器进行训练,完成各基本异常检测器的参数调试。
此处,值得一提的是,各基本异常检测器在同一数据集上进行异常数据检测时,所得的检测结果可合并得到异常得分矩阵O(Xtrain):
O(Xtrain)=[C1(Xtrain),…,Ct(Xtrain)](16)
式中,Ct(·)表示来自第t个基本异常检测器的异常得分向量。
步骤42:使用K最邻近法获取数据集中所有数据点的局部最近邻区域:随机选择m组d/2维至d维的特征子空间,对于选出的每一组特征子空间,在训练集中找出在该特征子空间中与数据点xi欧式距离最近的k个邻近样本,xi∈XT,将出现次数超过m/2的样本,作为该数据点xi的局部最近邻区域Ψi;
步骤43:计算每一数据点的局部最近邻区域的局部异常得分矩阵:将数据点xj的局部最近邻区域Ψi内的k个邻近样本分别通过t个基本异常检测器进行异常数据检测,得到t个局部异常得分向量,合并形成局部异常得分矩阵O(Ψi);
O(Ψi)=[C1(Ψi),...,Ct(Ψi)] (5)
式中,Ct(Ψi)表示来自第t个基本异常检测器的局部异常得分向量。
步骤44:生成每一数据点的局部最近邻区域的局部伪异常标签:将步骤43得到的局部异常得分矩阵各个分向量进行归一化:
再根据伪异常标签取归一化后局部异常得分矩阵O(Ψi)的平均值或最大值的原则,计算器对应局部伪异常标签φi(O(Ψi)),如下式(7):
步骤45:通过皮尔逊相关系数检测各基本异常检测器在各数据点上的局部能力:计算由步骤43和步骤44所得局部异常得分矩阵O(Ψi)与局部伪异常标签φi(O(Ψi))的皮尔逊相关系数,从t个基本异常检测器中选取相关系数大的s个基本异常检测器。
步骤46:将选出的s个基本异常检测器的结果合并计算出数据点的异常标签得分。具体的,使用所选的s个基本异常检测器,分别计算数据点xi的异常标签得分,若s为1,则该基本异常检测器所得异常评分即为数据点xi的异常标签得分;若s大于1,则将s个基本异常检测器所得异常评分的最大值或平均值作为数据点xi的异常标签得分。
前述步骤43中,通过局部异常因子检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)计算数据点xi的k距离Dk(xi),假设XN表示数据点xi的k距离邻域中有N个样本点;
3)计算数据点xi的局部可达密度LRDk(xi);
4)计算数据点xi经过局部异常因子检测器检测后得到的异常评分LOFk(xi),如下式。
式中,LOFk(xi)的值接近1,则数据点xi越可能是正常数据,其值越大于1,数据点xi越可能是异常点。
前述步骤43中,通过最近邻集成隔离检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)构建t组超球体集合:从数据集XT中随机选择数据点构成大小为Ψ的子样本集对中每个数据点进行最近邻搜索,即在剩下Ψ-1个样本点中寻找离自身最近的点,再以自己为中心,到该最近邻点的距离为半径,画出Ψ个超球体,其数学表示如公式(12),重复上述操作t次,得到t组超球体集合,如公式(13);
{x:||x-c||≤τ(c)} (12)
2)将数据集中每一个数据点都分别放进每组超球体集合中,计算所有数据点的孤立评分:如果数据点xi不被任何一个超球体包含,则该数据点xi的孤立评分为1;如果数据点xi被某组超球体集合中的超球体B1包含,再找到该组超球体集合中离超球体B1最近的超球体B2,分别记录超球体B1的半径τ(B1)、B2的半径τ(B2),则该数据点xi的孤立评分为如下式;
3)计算数据集中每一个数据点放进不同超球体集合中得到的孤立评分的总和,再取平均值,得到每一个数据点对应的经过最近邻集成隔离检测器检测后得到的异常评分,如下式;
式中,Ij(xi)为数据点xi放进第j组超球体集合中得到的孤立评分;
4)将每一个数据点的异常评分与设定阈值进行迭代计算比较,若异常评分大于等于阈值,数据点被判断为异常点;若异常评分小于阈值,数据点被判定为正常点。此处,优选地,数据点的异常评分设定阈值为-0.01。
综上所述,本发明提供的基于双向四分位和集成异常检测的异常数据清洗方法能够同时有效地清洗光伏发电功率数据中的分散型异常数据和堆积型异常数据,强化了对局部异常数据的清洗效果,且可以有效辨识与正常数据空间分布特征相似的异常运行数据和平行于坐标轴的异常运行数据,具有较强的通用性,适用于大多数光伏异常数据处理场合。
上述实施例为本发明较佳的实现方案,除此之外,本发明还可以其它方式实现,在不脱离本技术方案构思的前提下任何显而易见的替换均在本发明的保护范围之内。
为了让本领域普通技术人员更方便地理解本发明相对于现有技术的改进之处,本发明的一些附图和描述已经被简化,并且为了清楚起见,本申请文件还省略了一些其他元素,本领域普通技术人员应该意识到这些省略的元素也可构成本发明的内容。
Claims (8)
1.一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于,包括:
步骤1:采集光伏电站场实际运行历史数据,包括光伏机组实际运行发电功率数据及对应气象数据,气象数据包括太阳辐照度;
步骤2:对获取的光伏发电功率数据进行预处理;
步骤3:利用双向四分位法清洗光伏发电功率数据中的分散型异常数据;
步骤4:利用集成异常检测法清洗光伏发电功率数据中的堆积型异常数据。
2.根据权利要求1所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤2中,对获取的光伏发电功率数据进行预处理时,包括:
步骤21:将步骤1中不符合光伏电站运行规律的原始数据剔除,包括当太阳光辐照度为0,光伏发电功率不为0的数据;当太阳光辐照度超过光伏电池板额定吸收辐照度时,光伏发电功率超过光伏电池额定输出功率的数据;当太阳光辐照度不为0,光伏发电功率小于等于0的数据;
步骤22:剔除后将原始数据中剩余的光伏发电功率数据组成数据集XT,XT=[x1…xi…xn],根据如下式(1)对数据集XT中的每一个数据点进行归一化处理;
3.根据权利要求2所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤3中,利用双向四分位法清洗光伏发电功率分散型异常数据时,包括:
步骤31:使用纵向四分位法对各个辐照度区间内的分散型异常数据进行清洗:首先将辐照度以20W/m2的区间间隔划分为若干个辐照度区间,再计算各个辐照度区间光伏发电功率的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个辐照度区间内,光伏发电功率的异常数据上下边界的计算公式如下:
式中,Pli是第i个辐照度区间光伏发电功率的异常数据上边界;Pui是第i个辐照度区间光伏发电功率的异常数据下边界;是第i个辐照度区间光伏发电功率的第一四分位数;是第i个辐照度区间光伏发电功率的第三四分位数;是第i个辐照度区间光伏发电功率的四分位间距,且有
步骤32:使用横向四分位法对各个功率区间内的分散型异常数据进行清洗:将光伏发电功率以额定装机容量的2%的区间间隔划分为若干个功率区间,再计算各个功率区间辐照度的四分位间距和异常数据上下边界,在两边界外的数据视为异常数据;其中,第i个功率区间内,辐照度的异常数据上下边界的计算公式如下:
4.根据权利要求1或2或3所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤4中,利用集成异常检测法清洗光伏发电功率堆积型异常数据时,包括:
步骤41:训练t个基本异常检测器:假设为实数集,Xtrain为含有若干个数据点的训练集,采用超参数不同的局部异常因子检测器和最近邻集成隔离检测器两种基本异常检测器组成基本异常检测器池C={C1,...,Ct},t为基本异常检测器的个数,将训练集Xtrain输入到基本异常检测器池对所有基本异常检测器进行训练,完成各基本异常检测器的参数调试;
步骤42:使用K最邻近法获取数据集XT中所有数据点的局部最近邻区域:随机选择m组d/2维至d维的特征子空间,对于选出的每一组特征子空间,在训练集中找出在该特征子空间中与数据点xi欧式距离最近的k个邻近样本,将出现次数超过m/2的样本,作为该数据点xi的局部最近邻区域Ψi;
步骤43:计算每一数据点的局部最近邻区域的局部异常得分矩阵:将数据点xi的局部最近邻区域Ψi内的k个邻近样本分别通过t个基本异常检测器进行异常数据检测,得到t个局部异常得分向量,合并形成局部异常得分矩阵O(Ψi);
O(Ψi)=[C1(Ψi),...,Ct(Ψi)](5)
式中,Ct(Ψi)表示来自第t个基本异常检测器的局部异常得分向量;
步骤44:生成每一数据点的局部最近邻区域的局部伪异常标签:将步骤43得到的局部异常得分矩阵各个分向量进行归一化:
再计算器对应局部伪异常标签φi(O(Ψi));
步骤45:通过皮尔逊相关系数检测各基本异常检测器在各数据点上的局部能力:计算由步骤43和步骤44所得局部异常得分矩阵O(Ψi)与局部伪异常标签φi(O(Ψi))的皮尔逊相关系数,从t个基本异常检测器中选取相关系数大的s个基本异常检测器;
步骤46:将选出的s个基本异常检测器的结果合并计算出该数据点的异常标签得分。
6.根据权利要求5所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤43中,通过最近邻集成隔离检测器对数据点xi的局部最近邻区域Ψi内的k个邻近样本进行异常数据检测的过程如下:
1)构建t组超球体集合:从数据集XT中随机选择数据点构成大小为Ψ的子样本集对中每个数据点进行最近邻搜索,即在剩下Ψ-1个样本点中寻找离自身最近的点,再以自己为中心,到该最近邻点的距离为半径,画出Ψ个超球体,其数学表示如公式(12),重复上述操作t次,得到t组超球体集合,如公式(13);
2)将数据集中每一个数据点都分别放进每组超球体集合中,计算所有数据点的孤立评分:如果数据点xi不被任何一个超球体包含,则该数据点xi的孤立评分为1;如果数据点xi被某组超球体集合中的超球体B1包含,再找到该组超球体集合中离超球体B1最近的超球体B2,分别记录超球体B1的半径τ(B1)、B2的半径τ(B2),则该数据点xi的孤立评分为如下式;
3)计算数据集中每一个数据点放进不同超球体集合中得到的孤立评分的总和,再取平均值,得到每一个数据点对应的经过最近邻集成隔离检测器检测后得到的异常评分,如下式;
式中,Ij(xi)为数据点xi放进第j组超球体集合中得到的孤立评分;
4)将每一个数据点的异常评分与设定阈值进行迭代计算比较,若异常评分大于等于阈值,数据点被判断为异常点;若异常评分小于阈值,数据点被判定为正常点。
7.根据权利要求6所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述数据点的异常评分设定阈值为-0.01。
8.根据权利要求7所述的基于双向四分位和集成异常检测的光伏异常数据清洗的方法,其特征在于:所述步骤46中,使用所选的s个基本异常检测器,分别计算数据点xi的异常标签得分,若s为1,则该基本异常检测器所得异常评分即为数据点xi的异常标签得分;若s大于1,则将s个基本异常检测器所得异常评分的最大值或平均值作为数据点xi的异常标签得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552221.0A CN115935149A (zh) | 2022-12-05 | 2022-12-05 | 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211552221.0A CN115935149A (zh) | 2022-12-05 | 2022-12-05 | 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115935149A true CN115935149A (zh) | 2023-04-07 |
Family
ID=86653852
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211552221.0A Pending CN115935149A (zh) | 2022-12-05 | 2022-12-05 | 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115935149A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115822A (zh) * | 2024-04-29 | 2024-05-31 | 江西师范大学 | 一种基于图像块特征级联检索模型的异常检测方法及系统 |
-
2022
- 2022-12-05 CN CN202211552221.0A patent/CN115935149A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118115822A (zh) * | 2024-04-29 | 2024-05-31 | 江西师范大学 | 一种基于图像块特征级联检索模型的异常检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Hybrid deep neural model for hourly solar irradiance forecasting | |
Zheng et al. | Composite quantile regression extreme learning machine with feature selection for short-term wind speed forecasting: A new approach | |
Zaini et al. | A systematic literature review of deep learning neural network for time series air quality forecasting | |
Zhao et al. | Hierarchical anomaly detection and multimodal classification in large-scale photovoltaic systems | |
Zhang et al. | A novel hybrid approach based on variational heteroscedastic Gaussian process regression for multi-step ahead wind speed forecasting | |
Heinrich et al. | Detection of cleaning interventions on photovoltaic modules with machine learning | |
Wang et al. | Predicting wind-caused floater intrusion risk for overhead contact lines based on Bayesian neural network with spatiotemporal correlation analysis | |
Panapakidis et al. | A missing data treatment method for photovoltaic installations | |
CN116027217A (zh) | Ae-cfsfdp储能电站多源电池数据异常检测方法 | |
Jain et al. | A clustering framework for residential electric demand profiles | |
Tadayon et al. | A clustering approach to time series forecasting using neural networks: a comparative study on distance-based vs. feature-based clustering methods | |
CN115935149A (zh) | 一种基于双向四分位和集成异常检测的光伏异常数据清洗的方法 | |
Qin et al. | EDDNet: An efficient and accurate defect detection network for the industrial edge environment | |
Feng et al. | Sundown: Model-driven per-panel solar anomaly detection for residential arrays | |
Ding et al. | Feature extraction and fault diagnosis of photovoltaic array based on current–voltage conversion | |
Ma et al. | Anomaly Detection of Mountain Photovoltaic Power Plant Based on Spectral Clustering | |
Qu et al. | Remaining Useful Life Prediction of High-Speed Railroad Contact Network Based on Stacking Integrated Attention-LSTM-CNN Deep Learning | |
Chen et al. | Electricity theft detection model for smart meter based on residual neural network | |
Liu et al. | An abnormal detection of positive active total power based on local outlier factor | |
CN112682269A (zh) | 一种基于oc-rkelm的风电机组状态监测方法 | |
Liu et al. | Review of outlier detection algorithms based on grain storage temperature data | |
Chiranjeevi et al. | Preprocessing Techniques of Solar Irradiation Data | |
Wang et al. | Data-Driven Outage Restoration Time Prediction via Transfer Learning With Cluster Ensembles | |
Wu et al. | Overview of day-ahead solar power forecasts based on weather classifications | |
Nguyen et al. | Finding needles in a haystack: Line event detection on smart grid pmu data streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |