CN112529061B - 一种光伏功率异常数据的识别方法、装置及终端设备 - Google Patents
一种光伏功率异常数据的识别方法、装置及终端设备 Download PDFInfo
- Publication number
- CN112529061B CN112529061B CN202011405020.9A CN202011405020A CN112529061B CN 112529061 B CN112529061 B CN 112529061B CN 202011405020 A CN202011405020 A CN 202011405020A CN 112529061 B CN112529061 B CN 112529061B
- Authority
- CN
- China
- Prior art keywords
- clustering
- data set
- data
- deviation
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 54
- 238000003064 k means clustering Methods 0.000 claims abstract description 29
- 238000004590 computer program Methods 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02E—REDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
- Y02E10/00—Energy generation through renewable energy sources
- Y02E10/50—Photovoltaic [PV] energy
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Photovoltaic Devices (AREA)
Abstract
本发明适用于计算机领域,提供了一种光伏功率异常数据的识别方法、装置及终端设备,其中,所述方法包括:获取不同时间下光伏电站的光伏功率,得到时序功率数据集;采用K‑means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集;基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值;基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集。本发明通过K‑means和DBSCAN二阶聚类算法对光伏功率异常数据识别,在全局维度利用数据特征提升了异常识别的灵活性和自适应性。
Description
技术领域
本发明属于计算机领域,尤其涉及一种光伏功率异常数据的识别方法、装置及终端设备。
背景技术
在光伏电站的实际运行过程中,通信、数据采集设备故障以及人为因素均会使测量数据发生异常,不同异常诱因引起的数据异常表现不同,同时太阳辐照度、环境温湿度等气象因素也会导致光伏功率呈现出一定的波动性,异常数据和正常波动极易混淆。高质量的光伏功率数据是进行光伏研究的基础,因此须对光伏功率异常数据进行识别。对于未能实时监控太阳辐照度的光伏电站,光伏功率异常数据很难通过人工方法进行识别和清洗,同时人工辨别工作量大,易疏漏出错。工程上大多采用概率统计中的离群数据辨识方法来识别异常数据。通常,光伏功率随机性分量数据存在一定的波动范围,并且绝大部分数据分布在该波动范围之内,当某一数据出现在该波动范围之外时,则认为该数据为异常数据。但工程方法往往阈值设置单一机械,如简单设置功率偏差上下限,该类方法无法准确区分功率正常波动和异常偏差,造成识别误差大。
发明内容
有鉴于此,本发明提供了一种光伏功率异常数据的识别方法、装置及终端设备,以解决现有技术中未能实时监控太阳辐照度的光伏电站中光伏功率异常数据识别误差大的问题。
本发明实施例的第一方面,提供了一种光伏功率异常数据的识别方法,包括:
获取不同时间下光伏电站的光伏功率,得到时序功率数据集;
采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,所述聚类数据集包括聚类中心和各聚类中心所对应的数据点;
基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;
采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值;
基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集。
在一些实施例中,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,具体包括:
基于二维时序图,X轴为时间,Y轴为光伏功率,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集。
在一些实施例中,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,还包括:
根据当前光伏电站的太阳辐照度设置聚类时长;
设置聚类簇数K为1;
采用K-means聚类算法对所述时序功率数据集进行聚类,标记各时段聚类中心,得到聚类数据集。
在一些实施例中,基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集,具体包括:
各数据点功率减去各数据点所对应的聚类中心功率,得到各数据点所对应的偏差;
整合各数据点所对应的偏差,得到偏差数据集。
在一些实施例中,采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值,具体包括:
设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts;
使用DBSCAN算法对所述偏差数据集进行聚类,得到聚类结果;
判断聚类结果是否符合预设条件;
若是,则确定所述聚类结果所对应的半径Eps为异常数据距离阈值;
若否,则返回步骤设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts。
在一些实施例中,判断聚类结果是否符合预设条件,具体包括:
根据所述聚类结果形成的簇数设置预设条件;
判断聚类结果是否符合预设条件。
在一些实施例中,基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集,具体包括:
判断偏差数据集中的各数据是否属于以异常数据距离阈值为半径,每一个聚类中心的领域内;
若否,则该数据为异常数据,使用距离聚类方式筛选异常数据后得到异常数据集。
本发明实施例的第二方面,提供了一种光伏功率异常数据的识别装置,包括:
时序功率数据集获取模块,被配置为获取不同时间下光伏电站的光伏功率,得到时序功率数据集;
聚类数据集获取模块,被配置为采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,所述聚类数据集包括聚类中心和各聚类中心所对应的数据点;
偏差数据集获取模块,被配置为基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;
异常距离阈值获取模块,被配置为采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值;
异常数据集获取模块,被配置为基于所述聚类中心和所述异常数据距离阈值,对所述时序功率数据集进行分类,得到异常数据集。
本发明实施例的第三方面,提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述光伏功率异常数据的识别方法的步骤。
本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述光伏功率异常数据的识别方法的步骤。
本发明实施例提供的一种光伏功率异常数据的识别方法的有益效果至少在于:本发明实施例首先通过获取不同时间下光伏电站的光伏功率,得到时序功率数据集;其次采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集;再次基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;然后采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值;最后基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集;从而解决了未能实时监控太阳辐照度的光伏电站中光伏功率异常数据识别误差大的问题。本发明通过采用K-means和DBSCAN二阶聚类算法对光伏功率异常数据进行识别,分阶利用两种聚类算法实现正常数据的自聚合和异常数据的标注,在全局维度利用数据特征提升识别的灵活性和自适应性,仅利用时序光伏功率数据完成了异常识别。本发明以串行方式连接K-means和DBSCAN两种聚类方法,完成了不同数据分布下聚类参数设置的自寻优,保证聚类参数的合理性,提升了聚类算法在光伏功率异常数据识别中的精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的光伏功率异常数据的识别方法的流程图;
图2是本发明实施例提供的采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集的流程实现图;
图3本发明实施例提供的基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集的流程实现图;
图4是本发明实施例提供的采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值的流程实现图;
图5是本发明实施例提供的基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集的流程实现图;
图6是本发明实施例提供的光伏功率异常数据的识别装置的流程图;
图7是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
第一实施例
图1是本发明在一实施例中提供的光伏功率异常数据的识别方法的流程图。
如图1所示,所述光伏功率异常数据的识别方法,包括步骤S110-S150:
S110,获取不同时间下光伏电站的光伏功率,得到时序功率数据集;
S120,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,所述聚类数据集包括聚类中心和各聚类中心所对应的数据点;
S130,基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;
S140,采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值;
S150,基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集。
本发明实施例提供了一种光伏功率异常数据的识别方法,该方法首先通过获取不同时间下光伏电站的光伏功率,得到时序功率数据集;其次采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集;再次基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;然后采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值;最后基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集;从而解决了未能实时监控太阳辐照度的光伏电站中光伏功率异常数据识别误差大的问题。该方法通过采用K-means和DBSCAN二阶聚类算法对光伏功率异常数据进行识别,分阶利用两种聚类算法实现正常数据的自聚合和异常数据的标注,在全局维度利用数据特征提升识别的灵活性和自适应性,仅利用时序光伏功率数据完成了异常识别。该方法以串行方式连接K-means和DBSCAN两种聚类方法,完成了不同数据分布下聚类参数设置的自寻优,保证聚类参数的合理性,提升了聚类算法在光伏功率异常数据识别中的精度。
具体地,可通过电流传感器和电压传感器采集不同时间下光伏电站的光伏电流和光伏电压,光伏电流和光伏电压相乘得到不同时间下光伏电站的光伏功率,从而得到时序功率数据集;也可直接获取设备内提供的功率数据。
具体地,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集的具体实现方法请参见图2,图2是本发明在一实施例中提供的采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集的流程实现图。
如图2所示,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集可以包括以下步骤S210-S230:
S210,根据当前光伏电站的太阳辐照度设置聚类时长;
S220,设置聚类簇数K为1;
S230,采用K-means聚类算法对所述时序功率数据集进行聚类,标记各时段聚类中心,得到聚类数据集。
具体地,K-means聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类。采用K-means聚类算法对所述时序功率数据集进行聚类,是基于二维时序图,其中X轴为时间,Y轴为光伏功率。特别地,通过K-means聚类算法对时序功率数据集进行聚类得到聚类数据集,所述聚类数据集包括聚类中心和各聚类中心所对应的数据点;同一个聚类有一个聚类中心和不同的数据点,各聚类中心所对应的数据点为与各聚类中心同属于一个聚类的所有数据点。
具体地,根据当前光伏电站的太阳辐照度设置聚类时长,特别地,一般0-4小时太阳辐照度会发生较大变化,可根据经验值确定聚类时长,例如可以取0.5-2小时为K-means聚类算法的聚类时长。设置聚类簇数K为1,可以将太阳辐照度类似下的光伏功率聚类到同一个簇。
在本实施例中,首先根据当前光伏电站的太阳辐照度设置聚类时长,然后设置聚类簇数K为1,最后采用K-means聚类算法对所述时序功率数据集进行聚类,并标记各时段聚类中心,得到聚类数据集。采用此方法对时序功率数据集进行聚类,可以获得一个包括聚类中心和各聚类中心所对应的数据点的聚类数据集,同一个簇所包括的数据点所对应的太阳辐照度。
具体地,对所述聚类数据集进行处理后,得到偏差数据集,具体实现方法请参见图3,图3是本发明在一实施例中提供的基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集的流程实现图。
如图3所示,基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集可以包括以下步骤S310-S320:
S310,各数据点功率减去各数据点功率所对应的聚类中心功率,得到各数据点所对应的偏差;
S320,整合各数据点所对应的偏差,得到偏差数据集。
具体地,利用聚类数据集的各数据点功率减去各数据点所对应的聚类中心功率,得到各数据点所对应的偏差,偏差值可为负数;例如如6月13日15:00光伏功率数据为60kW,聚类中心值为65kW,则偏差为60-65=-5kW。通过计算各数据点功率和聚类中心功率的差值,可以得到各数据点功率与其对应的聚类中心功率的偏差,从而得到偏差数据集。
具体地,采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值的具体实现方法请参见图4,图4是本发明在一实施例中提供的采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值的流程实现图。
如图4所示,采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值可以包括以下步骤S410-S450:
S410,设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts;
S420,使用DBSCAN算法对所述偏差数据集进行聚类,得到聚类结果;
S430,判断聚类结果是否符合预设条件;
S440,若是,则确定所述聚类结果所对应的半径Eps为异常数据距离阈值;
S450,若否,则返回步骤设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts。
具体地,DBSCAN算法为一种基于密度的聚类算法。DBSCNA从数据集中随机访问一个数据点开始聚类,在每个点的Eps邻域中找到邻居点,并识别出超过MinPts个邻居的核心点,在邻接图上找到核心点的连通分量,忽略所有非核心点,如果某个非核心点是某个簇的Eps邻域内的邻居点,则将该点划分至该簇,否则将该点置为噪声点。特别地,使用DBSCAN算法对所述偏差数据集进行聚类,以Eps为偏差数据集的半径、以MinPts为半径区域中能够聚成一类的最少偏差个数,得到聚类结果。
具体地,步骤S420,使用DBSCAN算法对所述偏差数据集进行聚类,所述偏差数据集为全局维度的偏差数据集;例如可以为光伏电站1-4个月的偏差数据集,或者更长时间的偏差数据集,前提是要满足DBSCAN的计算能力;在全局维度使用DBSCAN算法对所述偏差数据集进行聚类,提升了识别的灵活性和自适应性。
具体地,偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts初始值可随机设置。在步骤S430,判断聚类结果是否符合预设条件,还需要根据所述聚类结果形成的簇数设置预设条件。预设条件根据步骤S420中的聚类结果进行设定,具体根据聚类结果形成的簇数进行设定;特别地,聚类结果形成的簇数取值范围为2-4。特别地,对于一个光伏电站聚类结果形成的簇数为一个具体的数值,可根据经验确定。
在本实施例中,首先设定初始半径和初始最少偏差个数,使用DBSCAN算法对所述偏差数据集进行聚类,然后基于聚类结果形成的簇数,使用DBSCAN算法对所述偏差数据集进行聚类,最后当聚类结果形成的簇数符合预设条件,则得到此聚类结果所对应的半径Eps,确定此半径Eps为异常数据距离阈值。其中,偏差数据集为全局维度的偏差数据集,该方法在全局维度使用DBSCAN算法对所述偏差数据集进行聚类,提升了识别的灵活性和自适应性,将密度足够大的相邻区域连接,从而达到有效处理异常数据的效果。
具体地,基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集的具体实现方法请参见图5,图5是本发明在一实施例中提供的基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集的流程实现图。
如图5所示,基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集可以包括以下步骤S510-S520:
S510,判断偏差数据集中的各数据是否属于以异常数据距离阈值为半径,每一个聚类中心的领域内;
S520,若否,则该数据为异常数据,使用距离聚类方式筛选异常数据后得到异常数据集。
在本实施例中,首先采用K-means聚类算法对时序功率数据集进行聚类,得到了具有聚类中心的聚类数据集,所述聚类中心为时间的函数;其次对所述聚类数据集进行处理,得到偏差数据集,所述偏差数据集包括各数据点功率与其对应的聚类中心功率的偏差;再次通过采用DBSCAN算法对全局维度的偏差数据集,得到异常数据距离阈值;最后根据判断偏差数据集中的各数据是否属于以异常数据距离阈值为半径,每一个聚类中心的领域内,得到异常数据数据集。该方法通过采用K-means和DBSCAN二阶聚类算法对光伏功率异常数据进行识别,分阶利用两种聚类算法实现正常数据的自聚合和异常数据的标注,在全局维度利用数据特征提升识别的灵活性和自适应性,仅利用时序光伏功率数据完成了异常识别。该方法以串行方式连接K-means和DBSCAN两种聚类方法,完成了不同数据分布下聚类参数设置的自寻优,保证聚类参数的合理性,提升了聚类算法在光伏功率异常数据识别中的精度。
第二实施例
基于与第一实施例中方法相同的发明构思,相应的,本实施例还提供了一种光伏功率异常数据的识别装置。
图6为本发明提供的光伏功率异常数据的识别装置的流程图。
如图6所示,所示装置6包括:61时序功率数据集获取模块、62聚类数据集获取模块、63偏差数据集获取模块、64异常距离阈值获取模块以及65异常数据集获取模块。
其中,时序功率数据集获取模块,被配置为获取不同时间下光伏电站的光伏功率,得到时序功率数据集;
聚类数据集获取模块,被配置为采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,所述聚类数据集包括数据点和聚类中心;
偏差数据集获取模块,被配置为基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;
异常距离阈值获取模块,被配置为采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值;
异常数据集获取模块,被配置为基于所述聚类中心和所述异常数据距离阈值,对所述时序功率数据集进行分类,得到异常数据集。
在一些示例性实施例中,所述聚类数据集获取模块具体包括:
聚类时长设置单元,被配置为根据当前光伏电站的太阳辐照度设置聚类时长;
聚类簇数设置单元,被配置为设置聚类簇数K为1;
聚类数据集获取单元,被配置为采用K-means聚类算法对所述时序功率数据集进行聚类,标记各时段聚类中心,得到聚类数据集。
在一些示例性实施例中,所述偏差数据集获取模块具体包括:
偏差计算单元,被配置为各数据点功率减去各数据点所对应的聚类中心功率,得到各数据点所对应的偏差;
偏差数据集获取单元,被配置为整合各数据点所对应的偏差,得到偏差数据集。
在一些示例性实施例中,所述异常距离阈值获取模块具体包括:
半径和个数设置单元,被配置为设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts;
聚类结果获取单元,被配置为使用DBSCAN算法对所述偏差数据集进行聚类,得到聚类结果;
判断单元,被配置为判断聚类结果是否符合预设条件;
异常数据距离阈值获取单元,被配置为若是,则确定所述聚类结果所对应的半径Eps为异常数据距离阈值;
返回单元,被配置为若否,则返回步骤设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts。
在一些示例性实施例中,所述判断单元具体包括:
预设条件设置子单元,被配置为根据所述聚类结果形成的簇数设置预设条件;
判断子单元,被配置为判断聚类结果是否符合预设条件。
在一些示例性实施例中,所述异常数据集获取模块具体包括:
异常数据判断单元,被配置为判断偏差数据集中的各数据是否属于以异常数据距离阈值为半径,每一个聚类中心的领域内;
异常数据集获取单元,被配置为若否,则该数据为异常数据,使用距离聚类方式筛选异常数据后得到异常数据集。
第三实施例
上述方法和装置可以应用于例如桌上型计算机、笔记本、掌上电脑及云端服务器的终端设备中。
图7为本发明在一实施例中提供的可以应用上述方法和装置的终端设备的示意图,如图所示,所述设备7,包括存储器71、处理器70以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序72,所述处理器70执行所述计算机程序72时实现如所述光伏功率异常数据的识别方法的步骤。例如图6所示模块61至65的功能。
所述设备7可以是云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器70、所述存储器71。本领域技术人员可以理解,图7仅仅是设备7的示例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器70可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71可以是所述设备7的内部存储单元,例如设备7的硬盘或内存。所述存储器71也可以是设备7的外部存储设备,例如所述设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储所述计算机程序以及所述终端设备所需的其它程序和数据。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
具体可以如下,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端设备中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上计算机程序:
计算机可读存储介质,包括所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述光伏功率异常数据的识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种光伏功率异常数据的识别方法,其特征在于,包括:
获取不同时间下光伏电站的光伏功率,得到时序功率数据集;
采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,所述聚类数据集包括聚类中心和各聚类中心所对应的数据点;
基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;
采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值,所述偏差数据集为全局维度的偏差数据集;
基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集。
2.根据权利要求1所述的方法,其特征在于,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,具体包括:
基于二维时序图,X轴为时间,Y轴为光伏功率,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集。
3.根据权利要求2所述的方法,其特征在于,采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,还包括:
根据当前光伏电站的太阳辐照度设置聚类时长;
设置聚类簇数K为1;
采用K-means聚类算法对所述时序功率数据集进行聚类,标记各时段聚类中心,得到聚类数据集。
4.根据权利要求1所述的方法,其特征在于,基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集,具体包括:
各数据点功率减去各数据点所对应的聚类中心功率,得到各数据点所对应的偏差;
整合各数据点所对应的偏差,得到偏差数据集。
5.根据权利要求1所述的方法,其特征在于,采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值,具体包括:
设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts;
使用DBSCAN算法对所述偏差数据集进行聚类,得到聚类结果;
判断聚类结果是否符合预设条件;
若是,则确定所述聚类结果所对应的半径Eps为异常数据距离阈值;
若否,则返回步骤设置偏差数据集的半径Eps和半径区域中能够聚成一类的最少偏差个数MinPts。
6.根据权利要求5所述的方法,其特征在于,判断聚类结果是否符合预设条件,具体包括:
根据所述聚类结果形成的簇数设置预设条件;
判断聚类结果是否符合预设条件。
7.根据权利要求1所述的方法,其特征在于,基于所述聚类中心和所述异常数据距离阈值,对所述偏差数据集进行分类,得到异常数据集,具体包括:
判断偏差数据集中的各数据是否属于以异常数据距离阈值为半径,每一个聚类中心的领域内;
若否,则该数据为异常数据,使用距离聚类方式筛选异常数据后得到异常数据集。
8.一种光伏功率异常数据的识别装置,其特征在于,所述装置包括:
时序功率数据集获取模块,被配置为获取不同时间下光伏电站的光伏功率,得到时序功率数据集;
聚类数据集获取模块,被配置为采用K-means聚类算法对所述时序功率数据集进行聚类,得到聚类数据集,所述聚类数据集包括聚类中心和各聚类中心所对应的数据点;
偏差数据集获取模块,被配置为基于所述聚类数据集,计算所述数据点和所述数据点所对应的聚类中心的偏差,得到偏差数据集;
异常距离阈值获取模块,被配置为采用DBSCAN对所述偏差数据集进行聚类,得到异常数据距离阈值,所述偏差数据集为全局维度的偏差数据集;
异常数据集获取模块,被配置为基于所述聚类中心和所述异常数据距离阈值,对所述时序功率数据集进行分类,得到异常数据集。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011405020.9A CN112529061B (zh) | 2020-12-03 | 2020-12-03 | 一种光伏功率异常数据的识别方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011405020.9A CN112529061B (zh) | 2020-12-03 | 2020-12-03 | 一种光伏功率异常数据的识别方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112529061A CN112529061A (zh) | 2021-03-19 |
CN112529061B true CN112529061B (zh) | 2024-04-16 |
Family
ID=74998068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011405020.9A Active CN112529061B (zh) | 2020-12-03 | 2020-12-03 | 一种光伏功率异常数据的识别方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529061B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283504B (zh) * | 2021-05-24 | 2023-05-23 | 平安国际融资租赁有限公司 | 基于聚类的设备状态检测方法、装置、计算机设备和介质 |
CN113688166B (zh) * | 2021-08-16 | 2023-09-12 | 远景智能国际私人投资有限公司 | 电量获取系统和方法 |
CN114461594A (zh) * | 2021-12-31 | 2022-05-10 | 国网河北省电力有限公司营销服务中心 | 数据压缩方法、边缘设备及计算机存储介质 |
CN115292361A (zh) * | 2022-06-27 | 2022-11-04 | 山东华科信息技术有限公司 | 一种分布式能源异常数据的筛选方法及系统 |
CN115081552B (zh) * | 2022-07-28 | 2022-11-11 | 一道新能源科技(衢州)有限公司 | 基于云平台的太阳能电池数据异常处理方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006194458A (ja) * | 2005-01-11 | 2006-07-27 | Matsushita Electric Ind Co Ltd | 例外判定装置、および燃料電池システム |
CN102645580A (zh) * | 2012-03-16 | 2012-08-22 | 清华大学 | 用于电表正向有功电能增量数据智能检测方法 |
CN108805218A (zh) * | 2018-06-21 | 2018-11-13 | 中国人民解放军国防科技大学 | 一种基于偏差映射聚类的光学目标关联方法 |
CN109299201A (zh) * | 2018-11-05 | 2019-02-01 | 远光软件股份有限公司 | 基于两阶段聚类的电厂生产子系统异常监测方法及装置 |
CN109508754A (zh) * | 2015-08-06 | 2019-03-22 | 北京奇虎科技有限公司 | 数据聚类的方法及装置 |
CN109766393A (zh) * | 2018-12-06 | 2019-05-17 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
CN110988935A (zh) * | 2019-11-25 | 2020-04-10 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 基于接收机端偏差聚类优化的多系统组合精密定位方法 |
CN111046913A (zh) * | 2019-11-18 | 2020-04-21 | 杭州海兴电力科技股份有限公司 | 一种负荷异常值识别方法 |
WO2020147317A1 (zh) * | 2019-01-18 | 2020-07-23 | 郑州云海信息技术有限公司 | 一种网络异常行为确定方法、装置、设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4928532B2 (ja) * | 2008-12-10 | 2012-05-09 | 本田技研工業株式会社 | 車両の故障診断装置 |
-
2020
- 2020-12-03 CN CN202011405020.9A patent/CN112529061B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006194458A (ja) * | 2005-01-11 | 2006-07-27 | Matsushita Electric Ind Co Ltd | 例外判定装置、および燃料電池システム |
CN102645580A (zh) * | 2012-03-16 | 2012-08-22 | 清华大学 | 用于电表正向有功电能增量数据智能检测方法 |
CN109508754A (zh) * | 2015-08-06 | 2019-03-22 | 北京奇虎科技有限公司 | 数据聚类的方法及装置 |
CN108805218A (zh) * | 2018-06-21 | 2018-11-13 | 中国人民解放军国防科技大学 | 一种基于偏差映射聚类的光学目标关联方法 |
CN109299201A (zh) * | 2018-11-05 | 2019-02-01 | 远光软件股份有限公司 | 基于两阶段聚类的电厂生产子系统异常监测方法及装置 |
CN109766393A (zh) * | 2018-12-06 | 2019-05-17 | 中科恒运股份有限公司 | 异常数据检测方法及装置 |
WO2020147317A1 (zh) * | 2019-01-18 | 2020-07-23 | 郑州云海信息技术有限公司 | 一种网络异常行为确定方法、装置、设备及可读存储介质 |
CN111046913A (zh) * | 2019-11-18 | 2020-04-21 | 杭州海兴电力科技股份有限公司 | 一种负荷异常值识别方法 |
CN110988935A (zh) * | 2019-11-25 | 2020-04-10 | 重庆市地理信息和遥感应用中心(重庆市测绘产品质量检验测试中心) | 基于接收机端偏差聚类优化的多系统组合精密定位方法 |
Non-Patent Citations (3)
Title |
---|
基于信息熵的二次聚类推荐算法;李辉;石钊;易军凯;;计算机工程(第05期);正文全文 * |
基于分布式聚类模型的电力负荷特性分析;曾楠;许元斌;罗义旺;刘青;刘燕秋;张欢;;现代电力(第01期);正文全文 * |
模糊c均值在非技术损失检测中的应用;张玉振;冯晓蒲;丁巧林;;微型机与应用;20101025(第20期);正文全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112529061A (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112529061B (zh) | 一种光伏功率异常数据的识别方法、装置及终端设备 | |
CN112668661A (zh) | 一种光伏功率异常数据的识别方法及装置 | |
CN110647913B (zh) | 基于聚类算法的异常数据检测方法及装置 | |
CN114140713A (zh) | 一种图像识别系统、图像识别方法 | |
CN114581856B (zh) | 基于北斗系统的农业机组运动状态识别方法、系统及云平台 | |
CN113313280B (zh) | 云平台的巡检方法、电子设备及非易失性存储介质 | |
CN111626360A (zh) | 用于检测锅炉故障类型的方法、装置、设备和存储介质 | |
CN116593897A (zh) | 动力电池故障诊断方法、系统、车辆及存储介质 | |
CN114140712A (zh) | 一种自动图像识别分发系统及方法 | |
CN111064719B (zh) | 文件异常下载行为的检测方法及装置 | |
CN111352794A (zh) | 异常检测方法、装置、计算机装置及存储介质 | |
CN113656255A (zh) | 一种基于芯片运行数据的运行异常判断方法 | |
CN110142940B (zh) | 应用于注塑模具的良品检测方法及装置 | |
CN108182444A (zh) | 基于场景分类的视频质量诊断的方法及装置 | |
CN113705625A (zh) | 异常生活保障申请家庭的识别方法、装置及电子设备 | |
CN107977626B (zh) | 一种电子设备工作数据的分组方法 | |
CN113672782A (zh) | 一种基于数据查询的物联网设备重要性匹配方法 | |
CN112465104B (zh) | 身高发育评价方法及终端设备 | |
CN113448806B (zh) | 数据库集群异常检测方法、装置、终端设备及存储介质 | |
CN113936157A (zh) | 异常信息的处理方法及装置、存储介质、电子装置 | |
CN113051307A (zh) | 告警信号的分析方法、设备、存储介质及装置 | |
CN112668660B (zh) | 一种基于时间序列数据的异常点检测方法及装置 | |
CN112487250B (zh) | 识别养号账号群的方法及装置 | |
CN115001147B (zh) | 一种光伏发电数据采集方法、系统及云平台 | |
CN112531629B (zh) | 配电网保护定值自动整定方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |