CN113554079A - 一种基于二次检测法的电力负荷异常数据检测方法及系统 - Google Patents

一种基于二次检测法的电力负荷异常数据检测方法及系统 Download PDF

Info

Publication number
CN113554079A
CN113554079A CN202110794651.2A CN202110794651A CN113554079A CN 113554079 A CN113554079 A CN 113554079A CN 202110794651 A CN202110794651 A CN 202110794651A CN 113554079 A CN113554079 A CN 113554079A
Authority
CN
China
Prior art keywords
data
abnormal
cluster
value
power load
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110794651.2A
Other languages
English (en)
Other versions
CN113554079B (zh
Inventor
季晓慧
张丽薇
李晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences Beijing
Original Assignee
China University of Geosciences Beijing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences Beijing filed Critical China University of Geosciences Beijing
Priority to CN202110794651.2A priority Critical patent/CN113554079B/zh
Publication of CN113554079A publication Critical patent/CN113554079A/zh
Application granted granted Critical
Publication of CN113554079B publication Critical patent/CN113554079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例公开了一种基于二次检测法的电力负荷异常数据检测方法及系统,本发明的方法包括:获取某地区电力负荷历史数据;建立基于网格化搜索设置参数的DBSCAN异常检测模型对样本进行聚类并标注簇外异常点;对聚类出的各簇建立iForest‑MIE异常检测模型将各簇内不满足阈值的样本点标注为异常值;汇总两个模型所得的簇内外异常数据并修正以供后续负荷预测。本发明技术方案能够通过DBSCAN和iForest‑MIE异常检测模型进行两次检测分别识别簇外和簇内异常值,能够更加准确地识别出数据集中的所有异常值,修正后能在后续的负荷预测中得到更准确的结果。

Description

一种基于二次检测法的电力负荷异常数据检测方法及系统
技术领域
本发明实施例涉及电力负荷异常数据检测技术领域,具体涉及一种基于二次检测法的电力负荷异常数据检测方法及系统。
背景技术
根据检测原理的不同,异常检测模型可以分为基于统计的数学方法、基于距离的聚类算法以及基于机器学习的方法。传统的异常检测通常采用基于统计的数学方法,通过人为经验、状态估计和专家系统来进行。专家根据已有的调度经验对时间序列数据进行分析,判断是否存在数据异常,这种方式具有明显的主观性并且不具备规范性,无法形成系统科学的判别方法。基于状态估计的方法相对其它传统的异常检测方法应用较为普遍,其根据时序数据残差的概率分布来判定该数据是否为异常值。常见的状态估计方法主要包括估识检测、非二次准则检测和残差搜索检测等。但是这些方法存在计算复杂而且准确率较低的问题,容易造成数据遗漏和误判。随着云平台和优化算法的不断发展,机器学习理论因泛化性强、识别准确度高等优点在异常检测领域的应用逐渐推广,按照机器学习的模式不同主要可以分为以下几种:
(1)有监督学习,基于有监督学习的异常检测需要有标注的数据集,在模型训练前首先对电力负荷数据进行状态标记,即标注是否为异常,随后将标注好的数据输入到模型中进行训练。基于有监督学习的异常检测本质是机器学习中的一种分类任务,机器学习中常用的分类算法理论上都适用于异常检测。
(2)半监督学习,半监督学习是针对部分有标签的数据集进行的学习,是一种边学习边标注的模型。基于半监督学习的模型异常检测分为两个过程,首先在有标签的数据上进行训练,过程与有监督学习类似;随后模型应用在无标记的数据中进行检测,选择其中可信度高的数据参与训练和学习,直到数据集都已加入训练。但在异常检测任务中,数据的标签值的获取和正异数据数量分布不均匀导致半监督学习对数据的要求较高。
(3)无监督学习,基于无监督学习的时序异常检测模型一般通过基于距离计算或者密度分析进行聚类。无监督学习训练时不需要提前对数据进行标记,而是计算数据之间的距离或者密度从而形成簇,将不属于簇的数据标记为异常点。在缺乏足够的先验知识,无法对数据进行标记时使用无监督学习算法是较好的选择。
发明内容
本发明实施例提供一种基于二次检测法的电力负荷异常数据检测方法及系统,通过采用基于无监督学习的DBSCAN聚类和iForest-MIE模型对数据进行二次异常检测,能够避免单一无监督学习模型对异常值的漏检和误检,确保异常检测的全面性,将检测到的错误数据修正后,可更加准确地进行下一步的电力负荷预测工作。
根据本发明实施例的第一方面,提出了一种基于二次检测法的电力负荷异常数据检测方法,所述方法包括:
获取某地区电力负荷历史数据;
网格化搜索设置参数建立DBSCAN异常检测模型;
使用DBSCAN模型对数据进行聚类并标注簇外异常数据;
对DBSCAN聚类出的各簇建立iForest-MIE异常检测模型,并遍历簇内数据,得到簇内异常数据;
汇总簇内外异常数据并加以修正。
进一步地,所述通过设置点数阈值(MinPts)为3及网格化搜索结合CH分数设置参数邻域阈值(Eps)建立DBSCAN异常检测模型。其中MinPts参数的设置与待聚类数据的维度有关,当数据集的维度为d时,设置的MinPts值应大于d+1,电力负荷数据为1维,故设置MinPts为3。在确定MinPts后,采用网格化搜索结合CH分数评估寻找最佳Eps值,Eps的初始值随机设定。CH分数是一种通过衡量簇间协方差和簇内协方差对聚类效果进行评估的公式,如公式(3)所示。
Figure BDA0003162198640000031
Figure BDA0003162198640000032
Figure BDA0003162198640000033
公式(1)至(3)中,E为数据集,nE是E的大小,k是本次网格搜索聚类所得簇的个数,cq是簇q中的点集,cq是q的聚类中心,cE是E的中心,nq是q中点的个数。Wk描述的是簇内的协方差,Bk描述的是簇间的协方差,tr为矩阵的迹。当Wk越小,Bk越大时,CH分数越高,聚类的效果越好。网格化搜索结合CH分数得到最佳Eps值后,结合已经设定的MinPts得到DBSCAN异常检测模型进行异常检测。
异常检测时扫描整个数据集,随机选择一个未扫描过的对象p并得到p在Eps邻域内的数据数量,如果p的邻域内含有MinPts个以上的数据,则判定p为核心对象,否则标记p为异常值数据;若p点为核心对象,进行构造新簇C,随机选取p的Eps邻域内一点q,判断q在Eps邻域内是否含有至少MinPts个点,如果没有就将被q定义为异常值数据;若q在Eps邻域内含有至少MinPts个点则将q加入簇C,并继续遍历对象p的Eps邻域内其它数据,直至所有数据都已经被扫描;继续遍历数据集中的其它数据,直至所有点都已经被遍历。输出模型的最终结果,包括被标记为各簇的数据和簇外的异常值数据。
进一步地,所述对DBSCAN聚类出的各簇建立iForest-MIE异常检测模型,并检测簇内异常点,包括:
(1)随机设置异常值比例r并据此确定构建iTree树的阈值;
(2)随机选取n_samples个数据作为iTree树的根节点,n_samples默认设置为256,并将一维的时序数据复制扩展为max_depth维度,其中max_depth默认为数据量N的平方根;
(3)随机选择某个维度,在该维度上下界间随机选择一个值value,对数据根据value值的大小划分在左子树或右子树上。递归构造左右子树,直至深度达到max_depth或仅剩一条记录无法划分;
(4)重复(2)(3)构造t棵iTree树,t选为100;
(5)对数据x综合计算在t棵iTree中的路径值S,计算公式如下:
H(k)=ln(k)+δ,δ=0.5772156649
Figure BDA0003162198640000041
Figure BDA0003162198640000042
Figure BDA0003162198640000043
中E(h(x))表示x在t棵iTree上的平均高度。将所述公式
Figure BDA0003162198640000044
Figure BDA0003162198640000045
的结果经Eva(x)=0.5-S(x,n)计算后放缩至[-0.5,0.5]区间内,当Eva(x)为0时,数据无明显异常,Eva(x)的绝对值越小异常的概率越小。
(6)计算所有数据的Eva(x)值,根据步骤(1)设置的异常值比例r确定出的阈值搜索找到异常值和正常值的边界,并计算出边界间的间隔绝对值;
(7)重复步骤(1)-(6)10次,取10次中异常值和正常值的边界间隔最大时的iForest模型作为最终的iForest-MIE模型,并通过步骤(5)用于判断电力负荷数据中的簇内异常值。
进一步地,所述结合DBSCAN和iForest-MIE两个模型得到所有异常值数据并加以修正。假设电力负荷数据整体平稳,不存在突变和较大波动的情况下,可以用错误电力负荷数据前后的均值来近似代替修正错误数据。
根据本发明实施例的第二方面,提出了一种基于二次检测法的时序异常检测系统,所述系统包括:
数据获取模块,用于获取历史电力负荷数据;
数据处理模块,用于对所述历史电力负荷数据进行预处理获得时间序列数据集;
模型构建模块,用于构建DBSCAN异常检测模型和iForest-MIE异常检测模块;
数据检测模块,使用所述DBSACN模型对所述数据集进行第一次异常检测,得到簇外异常数据;
数据二次检测模块,使用所述iForest-MIE模型对所述数据集进行第二次异常检测,得到簇内异常数据;
数据修补模块,用于根据所述模型二次异常检测结果对簇内外异常数据进行均值修补。
本发明实施例具有如下优点:
本发明实施例提出的一种基于二次检测法的时序异常检测方法及系统,通过采用基于DBSCAN模型和iForest-MIE模型对数据进行二次异常检测。DBSCAN算法无需提前设置簇的种类数量,且簇的形状对异常检测的影响较小,因此DBSCAN模型在异常检测领域检测效果要优于K-means等聚类算法,K-means等聚类算法聚类效果高度依赖于簇的种类的设置,若簇的种类设置不恰当,直接导致算法产生错误的分类,而DBSCAN算法聚类的形状和大小非常灵活,能够识别和处理异常值(离群点)。iForest算法是基于无监督学习的算法,训练时不需要提前对数据集做标记,而是采用大量的二叉树进行特征划分,但iForest算法往往需要根据经验设置模型的重要参数异常值比例,并且在检测完成后缺少一种对模型检测效果的评价标准,基于最大间隔评估的iForest算法(iForest-MIE),通过计算正常点和异常点的权值间隔以评估异常值比例的选择是否恰当。采用二次异常检测法既能够检测出各簇外离群的异常值点,又可以检测出已经被划分为簇内的一系列连续的异常值点,通过两种异常检测算法的组合,避免了对异常数据的漏检和误检。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本发明实施例1提供的一种基于二次检测法的时序异常数据检测方法的流程示意图;
图2为本发明实施例1提供的一种基于二次检测法的时序异常数据检测方法的负荷数据分布图;
图3为本发明实施例1提供的一种基于二次检测法的电力负荷异常数据检测方法的DBSCAN模型中网格搜索化搜索Eps对应CH分数关系图;
图4为本发明实施例1提供的一种基于二次检测法的电力负荷异常数据检测方法的iForest-MIE算法切割过程;
图5为本发明实施例1提供的一种基于二次检测法的电力负荷异常数据检测方法的iForest-MIE算法异常点与正常点间隔图;
图6为本发明实施例1提供的一种基于二次检测法的电力负荷异常数据检测方法的iForest-MIE异常值比例对应的正常值与异常值间隔结果图;
图7为本发明实施例1提供的一种基于二次检测法的电力负荷异常数据检测方法的二次异常检测与单一异常检测效果对比图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本实施例提出了一种基于二次检测法的电力负荷异常数据检测方法,该方法包括:
S100、获取历史电力负荷时序数据集。
历史电力负荷数据可以为当地时间前一年、一个月或某些天的电力负荷数据,其中历史电力负荷数据中包括每天的电力负荷数据,可以对不同的时间间隔进行采样。本实施例以2016年电工数学建模竞赛提供的数据作为数据集,该竞赛数据集采集了某地区的数据集由电力负荷时序数据以及与负荷预测相关的各种气象因素数据组成,每15分钟一个采样点,每天96个数据。当然,历史电力负荷数据的选取也可以根据实际要求进行确定。
S200、网格化搜索设置参数构建DBSCAN模型。
根据DBSCAN算法原理,模型的检测效果主要取决于邻域阈值Eps和点数阈值MinPts两项参数。其中MinPts参数的设置与待聚类数据的维度有关,当数据集的维度为d时,设置的MinPts值应大于d+1。
电力负荷数据维度为1,故将MinPts设置为3。在确定MinPts参数后,采用网格化搜索结合CH分数寻找Eps的最佳值,Eps的初始值随机设定。CH分数是一种通过衡量簇间协方差和簇内协方差对聚类效果进行评估的公式,如公式(3)所示。
Figure BDA0003162198640000071
Figure BDA0003162198640000072
Figure BDA0003162198640000073
公式(1)至(3)中,E为数据集,nE是E的大小,k是本次网格搜索聚类所得簇的个数,cq是簇q中的点集,cq是q的聚类中心,cE是E的中心,nq是q中点的个数。Wk描述的是簇内的协方差,Bk描述的是簇间的协方差,tr为矩阵的迹。当Bk越小,Bk越大时,CH分数越高,聚类的效果越好。网格化搜索结合CH分数得到最佳Eps值后,结合已经设定的MinPts得到DBSCAN异常检测模型进行异常检测。
本实施例中,Minpts设置为3,根据网格化搜索结果确定最佳Eps为1.7。
S300、遍历数据集并生成聚类簇,并标注簇外异常点。
通过DBSCAN遍历历史电力负荷数据集,直到所有的数据都被标记为已遍历,得到遍历结果,即簇聚类和簇外异常数据,其步骤包括:
(1)扫描整个数据集,随机选择一个未扫描过的对象p并得到p在Eps邻域内的数据数量,如果p的邻域内含有MinPts个以上的点,则判定p为核心对象,否则标记p为异常值数据;
(2)若p点为核心对象,进行构造新簇C,随机选取p的Eps邻域内一点q,判断q的Eps邻域是否含有至少MinPts个点,如果没有就将q定义为异常值数据;若含有至少MinPts个点则将q加入簇C,并继续遍历对象p的Eps邻域内其它点,直至所有点都已经被扫描;
(3)继续遍历数据集中的其它数据,直至所有数据都已经被遍历;
(4)输出模型的最终结果,包括被标记为各簇的正常数据和簇外的异常值数据。
S400、对DBSCAN聚类出的各簇构建iForest-MIE模型,并检测簇内异常点。
iForest法是基于无监督学习的算法,训练时不需要提前对数据集做标记,而是采用大量的独立二叉树(isolation tree,iTree)进行特征划分,通过随机生成iTree来组成森林。包括:
(1)随机设置异常值比例r并据此确定构建iTree树的阈值;
(2)随机选取256个数据放入树的根节点,并将一维的电力负荷数据复制扩展为16维,其中16为构造当前iTree树的数据量256的平方根;
(3)随机选择某个维度,在该维度上下界间随机选择一个值value,对数据根据value值的大小划分在左子树或右子树上。递归构造左右子树,直至深度达到16或仅剩一条记录无法划分;
(4)重复(2)(3)构造100棵iTree树;
(5)对数据x综合计算在100棵iTree中的路径值S,计算公式如下:
H(k)=ln(k)+δ,δ=0.5772156649
Figure BDA0003162198640000081
Figure BDA0003162198640000082
Figure BDA0003162198640000083
中E(h(x))表示x在t棵iTree上的平均高度。将所述公式
Figure BDA0003162198640000084
Figure BDA0003162198640000091
的结果经Eva(x)=0.5-S(x,n)计算后放缩至[-0.5,0.5]区间内,当Eva(x)为0时,数据无明显异常,Eva(x)的绝对值越小异常的概率越小。
(6)计算所有数据的Eva(x)值,根据步骤(1)设置的异常值比例r确定出的阈值搜索找到异常值和正常值的边界,并计算出边界间的间隔绝对值;
(7)将异常值比例r的区间设定为(0,0.002],重复步骤(1)-(6)10次,10次中异常值和正常值的边界间隔最大为0.0009505,所对应的异常值比例r为0.0006,则iForest模型的阈值为0.7029,经缩放后的阈值为-0.2029,以此设置得到iForest-MIE模型进行异常检测,当通过步骤(5)所得的Eva(x)小于阈值-0.2029时判断为簇内异常值。
S500、将簇内外异常数据汇总并加以修正。
将通过DBSCAN算法得到的簇外异常数据和iForest-MIE算法得到的簇外异常数据汇总,并使用均值修补的方法对异常数据加以修正。因为电力负荷数据整体平稳,不存在突变和较大波动的情况,可以用错误数据前后的均值来近似代替。
Figure BDA0003162198640000092
上述公式中,xl和xr分别为待修正数据x前后的数据,Fix(x)为修正后的数据。
本实施例中,采用DBSCAN异常检测模型能够有效检测出各簇外异常数据76个,通过采用iForest-MIE异常检测模型获得132个簇内异常值,总计获得208个异常值,多于采用Local outlier factor及K-means方法所获得的异常值数量。采用二次异常检测法既能够检测出各簇外离群的异常值数据,又可以检测出已经被划分为簇内的异常值数据,通过两种异常检测算法的组合,避免了对电力负荷异常数据的漏检和误检。
实施例2
与上述实施例1相对应的,本实施例提出了一种基于二次检测法的电力负荷异常数据检测系统,该系统包括:
数据获取模块,用于获取历史电力负荷数据;
数据处理模块,用于对所述历史电力负荷数据进行预处理获得电力负荷数据集;
模型构建模块,用于构建DBSCAN异常检测模型和iForest-MIE异常检测模块;
数据检测模块,使用所述DBSACN模型对所述数据集进行第一次异常检测,得到簇外异常数据;
数据二次检测模块,使用所述iForest-MIE模型对所述数据集进行第二次异常检测,得到簇内异常数据;
数据修补模块,用于根据所述模型二次异常检测结果对簇内外异常数据进行均值修补。
本实施例提供的一种基于二次检测法的时序异常检测系统中各部件所执行的功能均已在上述实施例1中做了详细介绍,因此这里不做过多赘述。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (5)

1.一种基于二次检测法的电力负荷异常数据检测方法,其特征在于,所述方法包括:
获取某地区电力负荷历史数据;
网格化搜索设置参数建立DBSCAN异常检测模型;
使用DBSCAN模型对数据进行聚类并标注簇外异常数据;
对DBSCAN聚类出的各簇建立iForest-MIE异常检测模型,并遍历簇内数据,得到簇内异常数据;
汇总簇内外异常数据并加以修正。
2.根据权利要求1所述的一种基于二次检测法的电力负荷异常数据检测方法,其特征在于,对所述通过设置点数阈值(MinPts)为3及网格化搜索结合CH分数(Calinski-Harabasz Score)设置参数邻域阈值(Eps)建立DBSCAN异常检测模型。其中MinPts参数的设置与待聚类数据的维度有关,当数据集的维度为d时,设置的MinPts值应大于d+1,电力负荷数据为1维,故设置MinPts为3。在确定MinPts后,采用网格化搜索结合CH分数评估寻找最佳Eps值,Eps的初始值随机设定。CH分数是一种通过衡量簇间协方差和簇内协方差对聚类效果进行评估的公式,如公式(2-3)所示。
Figure FDA0003162198630000011
Figure FDA0003162198630000012
Figure FDA0003162198630000013
公式(2-1)至(2-3)中,E为数据集,nE是E的大小,k是本次网格搜索聚类所得簇的个数,cq是簇q中的点集,cq是q的聚类中心,cE是E的中心,nq是q中点的个数。Wk描述的是簇内的协方差,Bk描述的是簇间的协方差,tr为矩阵的迹。当Wk越小,Bk越大时,CH分数越高,聚类的效果越好。网格化搜索结合CH分数得到最佳Eps值后,结合已经设定的MinPts得到DBSCAN异常检测模型进行异常检测。
3.根据权利要求2所述的一种基于二次检测法的电力负荷异常数据检测方法,其特征在于,所述DBSCAN异常检测模型对获取的历史电力负荷数据集进行聚类,包括:
扫描整个数据集,随机选择一个未扫描过的对象p并得到p在Eps邻域内的数据量,如果p的邻域内含有MinPts个以上的数据,则判定p为核心对象,否则标记为异常值数据;
若p点为核心对象,进行构造新簇C,随机选取p的Eps邻域内一点q,判断q在Eps邻域内是否含有至少MinPts个点,如果没有就将q定义为异常值数据;若q含有至少MinPts个点则将去q加入簇C,并继续遍历对象p的Eps邻域内其它点,直至所有点都已经被扫描;
继续遍历数据集中的其它数据,直至所有点都已经被遍历;
输出模型的最终结果,包括被标记为各簇的正常数据和簇外的异常值数据。
4.根据权利要求1所述的一种基于二次检测法的电力负荷异常数据检测方法,其特征在于,对DBSCAN聚类出的各簇建立iForest-MIE异常检测模型,并检测簇内异常点,包括:
(1)随机设置异常值比例r并据此确定构建iTree树的阈值;
(2)随机选取n_samples个数作为iTree树的根节点,n_samples默认设置为256,并将一维的电力负荷数据复制扩展为max_depth维度,其中max_depth默认为数据量N的平方根;
(3)随机选择某个维度,在该维度上下界间随机选择一个值value,将各数据根据value值的大小划分在左子树或右子树上。递归构造左右子树,直至深度达到max_depth或仅剩一条记录无法划分;
(4)重复(2)(3)构造t棵iTree树,t选为100;
(5)对数据x综合计算在t棵iTree中的路径值S,计算公式如下:
h(k)=ln(k)+δ,δ=0.5772156649 (4-1)
Figure FDA0003162198630000021
Figure FDA0003162198630000022
公式(4-3)中E(h(x))表示x在t棵iTree上的平均高度
Eva(x)=0.5-S(x,n) (4-4)
将所述公式(4-3)的结果经(4-4)计算后放缩至[-0.5,0.5]区间内,当Eva(x)为0时,数据无明显异常,Eva(x)的绝对值越小异常的概率越小;
(6)根据(4-4)计算所有数据的Eva(x)值,根据步骤(1)设置的异常值比例r确定出的阈值搜索找到异常值和正常值的边界,并计算出边界间的间隔绝对值;
(7)重复步骤(1)-(6)10次,取10次中异常值和正常值的边界间隔最大时的iForest模型作为最终的iForest-MIE模型,并通过步骤(5)判断电力负荷数据中的簇内异常值。
5.根据权利要求1所述的一种基于二次检测法的电力负荷异常数据检测方法,其特征在于,所述结合DBSCAN和iForest-MIE两个模型得到簇内外异常数据并加以修正。假设电力负荷数据整体平稳,不存在突变和较大波动,用错误数据前后数据的均值来近似代替错误数据。
CN202110794651.2A 2021-07-14 2021-07-14 一种基于二次检测法的电力负荷异常数据检测方法及系统 Active CN113554079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110794651.2A CN113554079B (zh) 2021-07-14 2021-07-14 一种基于二次检测法的电力负荷异常数据检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110794651.2A CN113554079B (zh) 2021-07-14 2021-07-14 一种基于二次检测法的电力负荷异常数据检测方法及系统

Publications (2)

Publication Number Publication Date
CN113554079A true CN113554079A (zh) 2021-10-26
CN113554079B CN113554079B (zh) 2023-08-01

Family

ID=78131768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110794651.2A Active CN113554079B (zh) 2021-07-14 2021-07-14 一种基于二次检测法的电力负荷异常数据检测方法及系统

Country Status (1)

Country Link
CN (1) CN113554079B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451168A (zh) * 2023-06-15 2023-07-18 北京国电通网络技术有限公司 异常电力信息生成方法、装置、电子设备和可读介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005065471A (ja) * 2003-08-20 2005-03-10 Disco Abrasive Syst Ltd 瞬停・瞬時電圧低下対策装置,加工装置,および瞬停・瞬時電圧低下検出方法
JP2007183890A (ja) * 2006-01-10 2007-07-19 Chugoku Electric Power Co Inc:The 生活状況監視システム、装置、方法およびプログラム
WO2012102028A1 (ja) * 2011-01-27 2012-08-02 株式会社日立製作所 太陽光発電システム、異常検出方法、及び異常検出システム
WO2016079229A1 (en) * 2014-11-21 2016-05-26 Universite Libre De Bruxelles Improved non-intrusive appliance load monitoring method and device
CN110147871A (zh) * 2019-04-17 2019-08-20 中国电力科学研究院有限公司 一种基于som神经网络与k-均值聚类的窃电检测方法及系统
CA3094002A1 (en) * 2018-04-04 2019-10-10 Schneider Electric USA, Inc. Systems and methods for managing smart alarms
CN110334726A (zh) * 2019-04-24 2019-10-15 华北电力大学 一种基于密度聚类和lstm的电力负荷异常数据的识别与修复方法
US20190384757A1 (en) * 2018-06-18 2019-12-19 Analytics For Life Inc. Methods and systems to quantify and remove asynchronous noise in biophysical signals
CN111709548A (zh) * 2020-04-27 2020-09-25 深圳华工能源技术有限公司 基于支持向量机的电力用户负荷预测方法、装置、设备及存储介质
CN111949896A (zh) * 2020-07-30 2020-11-17 安徽师范大学 基于轨迹大数据的轨迹异常检测方法
WO2020234964A1 (ja) * 2019-05-20 2020-11-26 三菱電機株式会社 電源装置
CN112288561A (zh) * 2020-05-25 2021-01-29 百维金科(上海)信息科技有限公司 基于dbscan算法的互联网金融欺诈行为检测方法
CN112345261A (zh) * 2020-10-29 2021-02-09 南京航空航天大学 基于改进dbscan算法的航空发动机泵调系统异常检测方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005065471A (ja) * 2003-08-20 2005-03-10 Disco Abrasive Syst Ltd 瞬停・瞬時電圧低下対策装置,加工装置,および瞬停・瞬時電圧低下検出方法
JP2007183890A (ja) * 2006-01-10 2007-07-19 Chugoku Electric Power Co Inc:The 生活状況監視システム、装置、方法およびプログラム
WO2012102028A1 (ja) * 2011-01-27 2012-08-02 株式会社日立製作所 太陽光発電システム、異常検出方法、及び異常検出システム
WO2016079229A1 (en) * 2014-11-21 2016-05-26 Universite Libre De Bruxelles Improved non-intrusive appliance load monitoring method and device
CA3094002A1 (en) * 2018-04-04 2019-10-10 Schneider Electric USA, Inc. Systems and methods for managing smart alarms
US20190384757A1 (en) * 2018-06-18 2019-12-19 Analytics For Life Inc. Methods and systems to quantify and remove asynchronous noise in biophysical signals
CN110147871A (zh) * 2019-04-17 2019-08-20 中国电力科学研究院有限公司 一种基于som神经网络与k-均值聚类的窃电检测方法及系统
CN110334726A (zh) * 2019-04-24 2019-10-15 华北电力大学 一种基于密度聚类和lstm的电力负荷异常数据的识别与修复方法
WO2020234964A1 (ja) * 2019-05-20 2020-11-26 三菱電機株式会社 電源装置
CN111709548A (zh) * 2020-04-27 2020-09-25 深圳华工能源技术有限公司 基于支持向量机的电力用户负荷预测方法、装置、设备及存储介质
CN112288561A (zh) * 2020-05-25 2021-01-29 百维金科(上海)信息科技有限公司 基于dbscan算法的互联网金融欺诈行为检测方法
CN111949896A (zh) * 2020-07-30 2020-11-17 安徽师范大学 基于轨迹大数据的轨迹异常检测方法
CN112345261A (zh) * 2020-10-29 2021-02-09 南京航空航天大学 基于改进dbscan算法的航空发动机泵调系统异常检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
L. MENG\'AO等: "\"Research and Improvement of DBSCAN Cluster Algorithm\"", 《2015 7TH INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY IN MEDICINE AND EDUCATION (ITME)》 *
李晨: "\"基于机器学习的时序数据挖掘及其在电力调控中的应用\"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 2022, pages 042 - 854 *
王臻睿: ""基于数据挖掘的航运状态分布异常检测方法研究"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 2021, pages 2 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116451168A (zh) * 2023-06-15 2023-07-18 北京国电通网络技术有限公司 异常电力信息生成方法、装置、电子设备和可读介质
CN116451168B (zh) * 2023-06-15 2023-09-12 北京国电通网络技术有限公司 异常电力信息生成方法、装置、电子设备和可读介质

Also Published As

Publication number Publication date
CN113554079B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN111931868B (zh) 时间序列数据异常检测方法和装置
CN111833172A (zh) 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN116522268B (zh) 一种配电网的线损异常识别方法
CN110795690A (zh) 风电场运行异常数据检测方法
CN115021679B (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN108038211A (zh) 一种基于上下文的无监督关系数据异常检测方法
CN116186624A (zh) 一种基于人工智能的锅炉评估方法及系统
CN106935038B (zh) 一种停车检测系统及检测方法
CN113554079B (zh) 一种基于二次检测法的电力负荷异常数据检测方法及系统
CN114116829A (zh) 异常数据分析方法、异常数据分析系统和存储介质
CN108537249B (zh) 一种密度峰值聚类的工业过程数据聚类方法
CN112463852A (zh) 一种基于机器学习的单个指标异常点自动判断系统
KR20220073307A (ko) 데이터 경계 도출 시스템 및 방법
CN116804668A (zh) 一种食盐碘含量检测数据标识方法及系统
CN116206208A (zh) 一种基于人工智能的林业病虫害快速分析系统
Elgamal et al. Seamless Machine Learning Models to Detect Faulty Solar Panels
CN113127464B (zh) 农业大数据环境特征处理方法、装置及电子设备
CN114861858A (zh) 一种路面异常数据检测方法、装置、设备及可读存储介质
CN116365519B (zh) 一种电力负荷预测方法、系统、存储介质及设备
CN111783850A (zh) 一种基于Kd树与Canopy优化Bisecting K-means的负荷聚类方法
CN117541832B (zh) 异常检测方法、系统、电子设备及存储介质
CN115293379B (zh) 一种基于知识图谱的在轨航天器设备异常检测方法
CN115511106B (zh) 基于时序数据生成训练数据的方法、设备和可读存储介质
CN117453763A (zh) 一种大坝安全监测的数据处理方法、记录媒体及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant