CN107657288B - 一种基于孤立森林算法的电力调度流数据异常检测方法 - Google Patents

一种基于孤立森林算法的电力调度流数据异常检测方法 Download PDF

Info

Publication number
CN107657288B
CN107657288B CN201711016716.0A CN201711016716A CN107657288B CN 107657288 B CN107657288 B CN 107657288B CN 201711016716 A CN201711016716 A CN 201711016716A CN 107657288 B CN107657288 B CN 107657288B
Authority
CN
China
Prior art keywords
data
forest
abnormal
detector
sliding window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711016716.0A
Other languages
English (en)
Other versions
CN107657288A (zh
Inventor
宁文元
高欣
郭子明
贾庆轩
李新鹏
马龙
穆永铮
李军良
徐建航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Original Assignee
Beijing University of Posts and Telecommunications
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Beijing Kedong Electric Power Control System Co Ltd, State Grid Jibei Electric Power Co Ltd filed Critical Beijing University of Posts and Telecommunications
Priority to CN201711016716.0A priority Critical patent/CN107657288B/zh
Publication of CN107657288A publication Critical patent/CN107657288A/zh
Application granted granted Critical
Publication of CN107657288B publication Critical patent/CN107657288B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明实施例提出了一种基于孤立森林算法的电力调度流数据异常检测方法,包括:通过系统抽样方法对数据集进行抽样,构建子森林,并将其组成基森林异常检测器;通过基森林异常检测器判断进入滑动窗口数据的异常情况;对进入滑动窗口的数据进行伯努利抽样,判定其是否存入缓存区,当滑动窗口数据充满时,实时判断窗口数据异常率;根据缓存区数据量与滑动窗口数据异常率是否超过阈值,选择较小或者较大更新比例的模型更新策略;基于更新数据集计算每个子森林与基森林的异常率差值,去除差值较大的子森林,并构建多个子森林进行补充,组成新的基森林异常检测器,实现更新。本发明实施例提供的技术方案,能够提高电力流数据异常检测准确率。

Description

一种基于孤立森林算法的电力调度流数据异常检测方法
【技术领域】
本发明涉及电力调度数据异常检测方法,尤其涉及一种基于孤立森林算法的电力调度流数据异常检测方法。
【背景技术】
统一坚强智能电网是以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网,其包含发电、输电、变电、配电、用电和调度环节。在电力系统实际工作中,调度承担指挥、监督和管理电力生产运行的职能,是电力系统安全运行的重要保障。随着电网规模日益扩大,对电网安全稳定运行的要求也越来越高,调度电网数据的异常检测也愈显重要。当前调度数据的分析模式以静态离线数据分析为主,这种方式与生产运行系统结合不紧密,存在不能快速反映系统运行状态和及时发现异常现象等问题。而且,如今的调度信息数据采集量增多且随着时间推移数据不断到来,具有流数据顺序、大量、快速、连续到达的特点。因此,如何对实时到达的调度流数据进行同步处理并检测其是否存在异常,对于加强对电网状态监测、保障电网安全有重要意义。
【发明内容】
有鉴于此,本发明提出了一种基于孤立森林算法的电力调度流数据异常检测方法,以提高电力调度流数据异常检测的性能。
本发明提出一种基于孤立森林算法的电力调度流数据异常检测方法,具体包括:
通过系统抽样方法对数据集进行训练,运用训练得到的隔离树构建多个子森林异常检测器,将多个子森林异常检测器组成基森林异常检测器;
通过基森林异常检测器判断进入滑动窗口数据的异常情况;
对进入滑动窗口的流数据进行抽样,判断其是否存入缓冲区;当滑动窗口中数据充满时,实时判断此时滑动窗口数据异常率;
触发检测器更新的判断;
基于更新数据集计算每个子森林异常检测器和基森林异常检测器异常率差值,去除差值较大的子森林异常检测器,同时构建多个子森林异常检测器进行补充,以组成新的基森林异常检测器,实现更新。
上所述方法中,通过系统抽样方法对数据集进行训练,运用训练得到的隔离树构建多个子森林异常检测器,将多个子森林异常检测器组成基森林异常检测器的方法为:采集N条电力调度数据样本,组成原始电力调度数据集;构建一个隔离树时,从N条数据中均匀抽样(一般是无放回抽样)出ψ条数据样本,作为这个隔离树的训练样本;在每个隔离树样本中,随机选一个特征,并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值,对样本进行二叉划分,将样本中小于该值的数据样本划分到节点的左边,大于等于该值的数据样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集;分别在左右两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:
1)数据本身不可再分(只包括一个样本,或者全部样本相同);
2)树的高度达到log2(ψ);
运用系统抽样的方法将隔离树分为n组,构建n个子森林异常检测器,记为iForest(1)~iForest(n),其中组成iForest(i)的隔离树编号为:
iTree(i+k*L/n) k=0,1,2,...,(L-n)/n
n个子森林异常检测器中的隔离树共同组成了基森林异常检测器。
上述方法中,通过基森林异常检测器判断进入滑动窗口数据的异常情况的方法为:将基森林异常检测器应用于滑动窗口的流数据,即对每个到达滑动窗口的数据,通过基森林异常检测器判断其异常状况;基森林异常检测器的输入为进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数等与电力调度系统业务相关的进程实时资源占用数据;输出为(0,1)范围内的数值,表明流数据为正常状态的数值范围为(0,h],流数据为异常范围的数值范围为(h,1),h值在原始数据集训练初始基检测器之后,用训练得到的检测器计算历史数据的异常得分,按照历史数据异常比例取异常得分分位数得出:
h=-QUARTILE(-F(X),100*(1-c))
其中:y=QUARTILE(a,b)为分位数函数;z=F(x)为基森林检测器检测函数;X为隔离树的训练样本集;c为训练样本集中的异常样本比例。
上述方法中,对进入滑动窗口的流数据进行抽样,判断其是否存入缓冲区;当滑动窗口中数据充满时,实时判断此时滑动窗口数据异常率的方法为:对于新到达滑动窗口的数据,基于伯努利分布进行简单随机抽样判断该数据是否进入缓存区,来实现对缓存区的数据填充;如果滑动窗口数据已满,新到达的数据将取代最早进入滑动窗口的数据,同时实时计算此时刻滑动窗口中的数据异常率,记为u′:
Figure BDA0001446606120000031
其中,n为当前滑动窗口中异常数据个数,nall为当前滑动窗口中所有数据个数。
上述方法中,触发检测器更新的判断的方法为:当满足以下两个条件中的任意一个时,对异常检测器进行更新:
1)当前滑动窗口数据异常率u′大于异常率阈值u,此时用于更新基森林异常检测器的数据集X*为滑动窗口中的数据与缓存区中的数据的并集;
2)缓存区中数据已满,此时用于更新基森林检测器的数据集X*为缓存区中数据。
上述方法中,基于更新数据集计算每个子森林异常检测器和基森林异常检测器异常率差值,去除差值较大的子森林异常检测器,同时构建多个子森林异常检测器进行补充,以组成新的基森林异常检测器,实现更新的方法为:分别运用基森林检测器和子森林检测器,计算数据集X*的数据异常率,记为u_all和u(i),设ri为第i个子森林异常检测器iForest(i)的异常率偏差:
Figure BDA0001446606120000041
将n个子森林异常检测器的异常率偏差按从大到小的顺序排列,取前k(0<k<n)个作为待更新的子森林异常检测器;
运用当前滑动窗口中的数据构建k个子森林异常检测器,取代待更新子森林异常检测器,同时更新基森林检测器中的隔离树,完成对基森林检测器的更新,清空滑动窗口和缓存区的数据。
所述电力调度数据异常检测方法使得电力调度数据的异常检测准确率有提高。
由以上技术方案可以看出,本发明具有以下有益效果:
本发明实施的技术方案中,通过利用有监督增量学习的思想,建立多个子森林异常检测器,更新时比较子森林异常检测器异常率差异,丢弃性能较差的子森林异常检测器,保留性能较好的子森林异常检测器,使得基森林异常检测器模型能够在异常检测的过程中不断地的优化,提高电力调度系统流数据异常检测的性能。
【附图说明】
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明所提出的基于孤立森林算法的电力调度流数据异常检测方法框架流程示意图;
图2是流数据异常检测的流程示意图;
图3是本发明所提出的基于孤立森林算法的电力调度流数据异常检测方法示意图;
图4是本发明算法的输入数据和输出结果示意图;
图5是本发明实施例中使用基于孤立森林算法的电力调度流数据异常检测方法的ROC曲线。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明给出一种基于孤立森林算法的电力调度流数据异常检测方法。本发明为满足流数据下的异常检测,需要实时更新异常检测器以确保异常检测器的性能正常稳定。
图1是本发明所提出的基于孤立森林算法的电力调度流数据异常检测方法流程示意图,该方法包括以下步骤:
通过系统抽样方法对数据集进行抽样,构建子森林,并将其组成基森林异常检测器;
通过基森林异常检测器判断进入滑动窗口数据的异常情况;
对进入滑动窗口的数据进行伯努利抽样,判定其是否存入缓存区,当滑动窗口数据充满时,实时判断窗口数据异常率;
根据缓存区数据量与滑动窗口数据异常率是否超过阈值,选择较小或者较大更新比例的模型更新策略;
基于更新数据集计算每个子森林与基森林的异常率差值,去除差值较大的子森林,并构建多个子森林进行补充,组成新的基森林异常检测器,实现更新。
图2所示为流数据异常检测的流程示意图,该方法通过原始样本集构建异常检测器;通过异常检测器对流数据进行在线异常检测;根据流数据的在线异常检测结果对是否更新检测器进行判断;根据判断结果对检测器进行在线更新。
图3是本发明所提出的基于孤立森林算法的电力调度流数据异常检测方法示意图,提出的方法主要包括3个阶段:异常检测器构建阶段、流数据异常检测阶段和异常检测器更新阶段。在异常检测器构建阶段,通过对由原始样本构建的多个隔离树进行抽样,完成子森林异常检测器的构建,进而完成基森林异常检测器的构建。在流数据异常检测阶段,通过构建好的基森林异常检测器对进入滑动窗口的流数据进行异常检测。在异常检测器更新阶段,根据流数据的异常检测结果判断是否需要对异常检测器进行更新,如果需要,则通过滑动窗口和缓冲区中的数据构建子森林异常检测器,对原始异常检测器进行更新。
步骤1,通过系统抽样方法对数据集进行抽样,构建多个子森林异常检测器,将多个子森林异常检测器组成基森林异常检测器;
具体的,基于原始电力调度数据集,采用孤立森林算法构建K个隔离树,运用系统抽样的方法将隔离树分为n组,构建n个子森林异常检测器,所有的子森林异常检测器组成基森林异常检测器的方法为:采集N条电力调度数据样本,组成原始电力调度数据集;构建一个隔离树时,从N条数据中均匀抽样(一般是无放回抽样)出ψ条数据样本,作为这个隔离树的训练样本;在每个隔离树样本中,随机选一个特征,并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值,对样本进行二叉划分,将样本中小于该值的划分到节点的左边,大于等于该值的划分到节点的右边,得到了一个分裂条件和左、右两边的数据集;分别在左右两边的数据集上重复上面的过程,直接达到终止条件;终止条件有两个:
1)数据本身不可再分(只包括一个样本,或者全部样本相同);
2)树的高度达到log2(ψ);
上述方法中,运用系统抽样的方法将隔离树分为n组,构建n个子森林异常检测器,记为iForest(1)~iForest(n),其中组成iForest(i)的隔离树编号为:
iTree(i+k*L/n) k=0,1,2,...,(L-n)/n
n个子森林异常检测器中的隔离树共同组成了基森林异常检测器。
算法1为本发明中所使用的基森林异常检测器构建方法的伪代码:
Figure BDA0001446606120000071
步骤2,通过基森林异常检测器判断进入滑动窗口数据的异常情况;
具体的,将基森林异常检测器应用于滑动窗口的流数据,即对每个到达滑动窗口的数据,通过基森林异常检测器判断其异常状况;基森林异常检测器的输入为进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数等与电力调度系统业务相关的进程实时资源占用数据;输出为(0,1)范围内的数值,表明流数据为正常状态的数值范围为(0,h],流数据为异常范围的数值范围为(h,1),h值在原始数据集训练初始基检测器之后,用训练得到的检测器计算历史数据的异常得分,按照历史数据异常比例取异常得分分位数得出:
h=-QUARTILE(-F(X),100*(1-c))
其中:y=QUARTILE(a,b)为分位数函数;z=F(x)为基森林检测器检测函数;X为隔离树的训练样本集;c为训练样本集中的异常样本比例。
步骤3,对进入滑动窗口的流数据进行抽样,以一定概率判定其是否存入缓冲区;当滑动窗口中数据充满时,实时判断此时滑动窗口数据异常率;
具体的,对于新到达滑动窗口的数据,基于伯努利分布进行简单随机抽样判断该数据是否进入缓冲区,来实现对缓冲区的数据填充。如果滑动窗口数据已满,新到达的数据将取代最早进入滑动窗口的数据,同时实时计算此时刻滑动窗口中的数据异常率,记为u′:
Figure BDA0001446606120000081
其中,n为当前滑动窗口中异常数据个数,nall为当前滑动窗口中所有数据个数。
步骤4,当缓存区数据量超过阈值时,触发按较小更新比例更新模型策略,当滑动窗口数据异常率超过指定阈值时,触发按较大更新比例更新模型策略;
具体的,当满足以下两个条件中的任意一个时,对异常检测器进行更新:
1)当前滑动窗口数据异常率u′大于异常率阈值u,此时用于更新基森林异常检测器的数据集X*为滑动窗口中的数据与缓存区中的数据的并集;
2)缓存区中数据已满,此时用于更新基森林检测器的数据集X*为缓存区中数据。
步骤5,基于更新数据集计算每个子森林异常检测器和基森林异常检测器异常率差值,去除差值较大的子森林异常检测器,同时构建多个子森林异常检测器进行补充,以组成新的基森林异常检测器,实现更新;
具体的,分别运用基森林检测器和子森林检测器,计算数据集X*的数据异常率,记为u_all和u(i),设ri为第i个子森林异常检测器iForest(i)的异常率偏差:
Figure BDA0001446606120000091
将n个子森林异常检测器的异常率偏差按从大到小的顺序排列,取前k(0<k<n)个作为待更新的子森林异常检测器;
运用当前滑动窗口中的数据构建k个子森林异常检测器,取代待更新子森林异常检测器,同时更新基森林检测器中的隔离树,完成对基森林检测器的更新,清空滑动窗口和缓存区的数据。
算法2为本发明所提出的子森林渐进更新式增量学习算法的伪代码:
Figure BDA0001446606120000101
所述子森林渐进更新式增量学习算法得以优化。
用于具体实施例中,使用静态数据集进行测试,数据集为电脑运行进程的相关指标数据,并通过按次序输入数据以模拟流数据的时序特征。用于训练的数据集为1000条18维度无标签进程数据,用于测试的数据集有2472条,异常数据(如Python进程运行的数据量大于2G)有918条。
为验证所提算法的有效性,本发明实施例中对比算法是未使用子森林渐进更新式增量学习的流数据异常检测算法进行比较。
本发明实施例使用AUC值进行评定。通常ROC曲线下的面积(Area Under Curve,AUC)被用来评估异常检测算法的性能,ROC Area越接近于1,即AUC值越大,表示异常检测算法的性能越好。
集成规模、滑动采样窗口大小会影响该算法的AUC性能,通过测试,选定合适的组合以保证较优的模型AUC性能。集成规模选取的范围为{20,40,60,80,100,120},滑动采样窗口大小选取的范围为{64,128,256,512,1024}。两参数的实际选值与测试的数据有关,故在进行该选取时不进行数据树的更新,即不需要设定更新比例。
由于不进行模拟更新,对比算法与本发明实施例提出的子森林渐进更新式增量学习算法的测试结果一致,即两者的集成规模与滑动窗口采样大小数值相同。选用相同的集成规模与滑动窗口采样大小,本质是通过控制变量,探究更新比例变动时,两算法的不同性能,进而比较。
通过代入电脑进程指标数据,结果如表1所示,可得在此数据集下集成规模选取60,滑动采样窗口大小选取64时算法的AUC值较好。
表1集成规模、滑动采样窗口大小选定表
Figure BDA0001446606120000111
将集成规模设定60,滑动采样窗口大小设定64。对于更新比例参数的选定,须根据具体情形考虑。模型的更新共有两种情况:对于测试数据的异常率估定低于阈值时,即当缓存区满进行更新时,不需要进行较大的更新比率;对于测试数据的异常率估定高于阈值时,即滑动窗口的异常率超过设定值,发生该情况有多种原因:一种是数据为正常数据,但发生了概念偏移,需要尽可能更新;另一种是异常成群出现,为精确判断出异常,应尽可能减少更新。因此,在本发明实施例提出的子森林渐进更新式增量学习算法中,更新比例的取值设定小于0.5,且选取部分离散点进行模拟测试,更新比例集合为{0,0.1,0.2,0.3,0.4}。由于存在伯努利随机选定数据关系,同一更新比例下同一算法多次运行的AUC性能并不相同,故计算平均的AUC值作为测试结果记录。
表2算法法对比测试(一)
Figure BDA0001446606120000121
表3算法对比测试(二)
Figure BDA0001446606120000122
对于不同的更新比例,共进行两组对比测试,每组对比包含十次数据测试的AUC平均值。算法一为本发明实施例提出的子森林渐进更新式增量学习算法,算法二为未使用子森林渐进更新式增量学习的流数据异常检测算法。测试结果如表2,表3所示。测试组一与测试组二对应数据存在差异,但波动并不十分巨大,相互印证对比测试结果具有一定参考度。
借助数据分析,当进行模型更新时,同一更新比例下,本发明实施例提出的子森林渐进更新式增量学习算法与未使用子森林渐进更新式增量学习的流数据异常检测算法相比,AUC值相近,甚至在某更新比例下有较大的优化。当更新比例在集合{0,0.1,0.2,0.3,0.4}选取时,本发明实施例提出的算法的最优AUC值与对比算法相比,有5.1%至17.0%的提升。体现本发明实施例提出的基于孤立森林算法的电力调度流数据异常检测方法具有更好的准确度。
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,基于原始电力调度数据集,采用孤立森林算法构建k个隔离树,运用系统抽样的方法将隔离树分为n组,构建n个子森林异常检测器,所有的子森林异常检测器组成基森林异常检测器;对每个到达滑动窗口的数据,通过基森林异常检测器判断其异常状况,并且根据异常检测器更新判断条件,对异常检测器是否需要更新进行判断;基于子森林渐进更新算法确定待更新的子森林异常检测器并且对其进行更新。根据本发明实施例提供的技术方案,当面对电力调度流数据的异常检测时,与未使用子森林渐进更新式增量学习的流数据异常检测方法相比,该方法可获得更好的准确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (3)

1.一种基于孤立森林算法的电力调度流数据异常检测方法,其特征在于,所述方法步骤包括:
(1)通过系统抽样方法对数据集进行训练,运用训练得到的隔离树构建多个子森林异常检测器,将多个子森林异常检测器组成基森林异常检测器,具体为:采集N条电力调度数据样本,组成原始电力调度数据集;构建一个隔离树时,从N条数据中无放回抽样,得到ψ条数据样本,作为这个隔离树的训练样本;在每个隔离树样本中,随机选一个特征,并在这个特征的最小值与最大值之间随机选一个值,对样本进行二叉划分,将样本中小于该值的数据样本划分到节点的左边,大于等于该值的数据样本划分到节点的右边,得到了一个分裂条件和左、右两边的数据集;分别在左右两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:
1)数据集无法继续分裂,即该数据集只包含一条样本或者是所包含的样本相同;
2)树的高度达到log2(ψ);
运用系统抽样的方法将隔离树分为n组,构建n个子森林异常检测器,记为iForest(1)~iForest(n),n个子森林异常检测器中的隔离树共同组成了基森林异常检测器;
(2)通过基森林异常检测器判断进入滑动窗口数据的异常情况,具体为:将基森林异常检测器应用于滑动窗口的流数据,即对每个到达滑动窗口的数据,通过基森林异常检测器判断其异常状况;基森林异常检测器的输入为进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数与电力调度系统业务相关的进程实时资源占用数据;输出为(0,1)范围内的数值,表明流数据为正常状态的数值范围为(0,h],流数据为异常范围的数值范围为(h,1),h值在原始数据集训练初始基检测器之后,用训练得到的检测器计算历史数据的异常得分,按照历史数据异常比例取异常得分分位数得出:
h=-QUARTILE(-F(X),100*(1-c))
其中:y=QUARTILE(a,b)为分位数函数;z=F(x)为基森林检测器检测函数;X为隔离树的训练样本集;c为训练样本集中的异常样本比例;
(3)对进入滑动窗口的流数据进行抽样,判断其是否存入缓冲区;当滑动窗口中数据充满时,实时判断此时滑动窗口数据异常率;
(4)触发检测器更新的判断;
(5)基于更新数据集计算每个子森林异常检测器和基森林异常检测器异常率差值,去除差值大的子森林异常检测器,同时构建多个子森林异常检测器进行补充,以组成新的基森林异常检测器,实现更新,具体为:
分别运用基森林检测器和子森林检测器,计算数据集X*的数据异常率,记为u_all和u(i),设ri为第i个子森林异常检测器iForest(i)的异常率偏差:
Figure FDA0002488253960000021
将n个子森林异常检测器的异常率偏差按从大到小的顺序排列,取前k(0<k<n)个作为待更新的子森林异常检测器;
运用当前滑动窗口中的数据构建k个子森林异常检测器,取代待更新子森林异常检测器,同时更新基森林检测器中的隔离树,完成对基森林检测器的更新,清空滑动窗口和缓存区的数据。
2.根据权利要求1所述的方法,其特征在于,对进入滑动窗口的流数据进行抽样,判断其是否存入缓冲区;当滑动窗口中数据充满时,实时判断此时滑动窗口数据异常率,具体说明如下:对于新到达滑动窗口的数据,基于伯努利分布进行简单随机抽样判断该数据是否进入缓存区,来实现对缓存区的数据填充;如果滑动窗口数据已满,新到达的数据将取代最早进入滑动窗口的数据,同时实时计算此时刻滑动窗口中的数据异常率,记为u′:
Figure FDA0002488253960000031
其中,n为当前滑动窗口中异常数据个数,nall为当前滑动窗口中所有数据个数。
3.根据权利要求1所述的方法,其特征在于,触发检测器更新的判断,具体说明如下:
当满足以下两个条件中的任意一个时,对异常检测器进行更新:
1)当前滑动窗口数据异常率u′大于异常率阈值u,此时用于更新基森林异常检测器的数据集X*为滑动窗口中的数据与缓存区中的数据的并集;
2)缓存区中数据已满,此时用于更新基森林检测器的数据集X*为缓存区中数据。
CN201711016716.0A 2017-10-26 2017-10-26 一种基于孤立森林算法的电力调度流数据异常检测方法 Expired - Fee Related CN107657288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711016716.0A CN107657288B (zh) 2017-10-26 2017-10-26 一种基于孤立森林算法的电力调度流数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711016716.0A CN107657288B (zh) 2017-10-26 2017-10-26 一种基于孤立森林算法的电力调度流数据异常检测方法

Publications (2)

Publication Number Publication Date
CN107657288A CN107657288A (zh) 2018-02-02
CN107657288B true CN107657288B (zh) 2020-07-03

Family

ID=61094996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711016716.0A Expired - Fee Related CN107657288B (zh) 2017-10-26 2017-10-26 一种基于孤立森林算法的电力调度流数据异常检测方法

Country Status (1)

Country Link
CN (1) CN107657288B (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446349B (zh) * 2018-03-08 2022-03-25 国网四川省电力公司电力科学研究院 一种gis异常数据的检测方法
CN108777873B (zh) * 2018-06-04 2021-03-02 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN109168168B (zh) * 2018-07-09 2021-11-30 上海欣方智能系统有限公司 一种检测国际盗打的方法
CN108921440B (zh) * 2018-07-11 2022-08-05 平安科技(深圳)有限公司 污染物异常监测方法、系统、计算机设备和存储介质
CN108985632A (zh) * 2018-07-16 2018-12-11 国网上海市电力公司 一种基于孤立森林算法的用电数据异常检测模型
CN109145957B (zh) * 2018-07-26 2023-09-12 国网浙江省电力有限公司温州供电公司 基于大数据的配电网异常指标的识别与处理方法及装置
CN109543765A (zh) * 2018-08-23 2019-03-29 江苏海平面数据科技有限公司 一种基于改进IForest的工业数据去噪方法
CN109308306B (zh) * 2018-09-29 2021-07-06 重庆大学 一种基于孤立森林的用户用电异常行为检测方法
CN111046892A (zh) * 2018-10-12 2020-04-21 北京京东尚科信息技术有限公司 异常识别方法和装置
CN109345137A (zh) * 2018-10-22 2019-02-15 广东精点数据科技股份有限公司 一种基于农业大数据的异常值检测方法
CN109508733A (zh) * 2018-10-23 2019-03-22 北京邮电大学 一种基于分布概率相似度度量的异常检测方法
CN110135614A (zh) * 2019-03-26 2019-08-16 广东工业大学 一种基于异常值检测和抽样技术的10kV配变低压跳闸预测方法
CN109948738B (zh) * 2019-04-11 2021-03-09 合肥工业大学 涂装烘干室的能耗异常检测方法、装置
CN110414555B (zh) * 2019-06-20 2023-10-03 创新先进技术有限公司 检测异常样本的方法及装置
CN110334105B (zh) * 2019-07-12 2022-09-09 河海大学常州校区 一种基于Storm的流数据异常检测方法
CN110503570A (zh) * 2019-07-16 2019-11-26 国网江苏省电力有限公司滨海县供电分公司 一种异常用电数据检测方法、系统、设备、存储介质
CN110705635B (zh) * 2019-09-29 2020-11-03 京东城市(北京)数字科技有限公司 用于生成隔离森林的方法和装置
CN110806546B (zh) * 2019-10-28 2022-03-08 腾讯科技(深圳)有限公司 电池健康评估方法、装置、存储介质及电子设备
CN112906722A (zh) * 2019-11-19 2021-06-04 中国移动通信集团湖南有限公司 数据异常检测方法、装置及设备
CN110888850B (zh) * 2019-12-04 2023-07-21 国网山东省电力公司威海供电公司 一种基于电力物联网平台的数据质量检测方法
CN111092757B (zh) * 2019-12-06 2021-11-23 网宿科技股份有限公司 一种异常数据的检测方法、系统及设备
CN111428886B (zh) * 2020-04-10 2023-08-04 青岛聚好联科技有限公司 一种故障诊断的深度学习模型自适应更新的方法及装置
CN111343032B (zh) * 2020-05-18 2020-09-01 中国航空油料集团有限公司 一种工控网络异常会话检测方法,装置,电子设备以及存储介质
CN111931834B (zh) * 2020-07-31 2023-05-02 广东工业大学 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质
CN112000519B (zh) * 2020-08-17 2023-11-28 南京磐能电力科技股份有限公司 一种采样数据异常值修复方法及装置
CN112256732B (zh) * 2020-09-25 2023-10-24 北京五八信息技术有限公司 一种异常检测方法、装置、电子设备及存储介质
CN112181706B (zh) * 2020-10-23 2023-09-22 北京邮电大学 一种基于对数区间隔离的电力调度数据异常检测方法
CN112288021B (zh) * 2020-11-02 2022-04-29 广东柯内特环境科技有限公司 一种医疗废水监测数据质控方法、装置及系统
CN112765219B (zh) * 2021-02-01 2022-04-29 浙江大学 一种跳过平稳区域的流数据异常检测方法
CN113033084B (zh) * 2021-03-11 2022-04-05 哈尔滨工程大学 一种基于孤立森林和滑动时窗的核电站系统在线监测方法
CN112948145B (zh) * 2021-03-16 2023-06-20 河海大学 一种面向水文传感器流数据的异常检测方法
CN113128913B (zh) * 2021-05-14 2022-05-17 北京邮电大学 一种基于反转信息熵动态集成的电力调度监控数据异常检测方法
CN113112188B (zh) * 2021-05-14 2022-05-17 北京邮电大学 一种基于预筛选动态集成的电力调度监控数据异常检测方法
CN113657755A (zh) * 2021-08-17 2021-11-16 国网河北省电力有限公司 一种基于大数据分析的电力系统负荷调控系统
CN113608968B (zh) * 2021-08-23 2023-06-23 北京邮电大学 一种基于密度距离综合决策的电力调度监控数据异常检测方法
CN114143095B (zh) * 2021-12-01 2023-06-02 广东电网有限责任公司江门供电局 基于孤立森林的配电终端dtu入侵检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778470A (zh) * 2014-02-13 2014-05-07 上海交通大学 具有在线自学习能力的分布式发电孤岛检测方法
CN104915846A (zh) * 2015-06-18 2015-09-16 北京京东尚科信息技术有限公司 一种电子商务时间序列数据的异常检测方法及系统
CN106056134A (zh) * 2016-05-20 2016-10-26 重庆大学 一种基于Spark的半监督随机森林分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778470A (zh) * 2014-02-13 2014-05-07 上海交通大学 具有在线自学习能力的分布式发电孤岛检测方法
CN104915846A (zh) * 2015-06-18 2015-09-16 北京京东尚科信息技术有限公司 一种电子商务时间序列数据的异常检测方法及系统
CN106056134A (zh) * 2016-05-20 2016-10-26 重庆大学 一种基于Spark的半监督随机森林分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
An Anomaly Detection Approach Based on Isolation Forest Algorithm for Streaming Data using Sliding Window;Zhiguo Ding 等;《3rd IFAC International Conference on Intelligent Control》;20130904;第3节 *
Isolation-based Anomaly Detection;Fei Tony Liu等;《ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA》;20120331;第6卷(第1期);第1-44页 *
一种新的在线流数据异常检测方法;丁智国;《计算机科学》;20161015;第43卷(第10期);第3-4节 *
丁智国.流数据在线异常检测方法研究.《中国博士学位论文全文数据库(电子期刊)信息科技辑》.2016, *
流数据在线异常检测方法研究;丁智国;《中国博士学位论文全文数据库(电子期刊)信息科技辑》;20160615;参见第2.2、2.3、3.2、3.3节 *

Also Published As

Publication number Publication date
CN107657288A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN107657288B (zh) 一种基于孤立森林算法的电力调度流数据异常检测方法
CN109765447B (zh) 一种智能变电站继电保护自动测试方法
CN109145957B (zh) 基于大数据的配电网异常指标的识别与处理方法及装置
CN112181706A (zh) 一种基于对数区间隔离的电力调度数据异常检测方法
CN113298297B (zh) 一种基于孤立森林与wgan网络的风电输出功率预测方法
CN108663582A (zh) 一种变压器的故障诊断方法及系统
CN105846780A (zh) 一种基于决策树模型的光伏组件故障诊断方法
CN113516285B (zh) 自动化装配检测生产线在生产中产品质量分析预测方法
CN110874685A (zh) 基于神经网络的智能电能表运行状态判别方法及系统
CN116629458B (zh) 一种基于数据分析的储能设备运行优化方法及系统
CN110298369A (zh) 一种电力系统不良数据的辨识方法及系统
CN115204536A (zh) 楼宇设备故障预测方法、装置、设备及存储介质
CN113112188B (zh) 一种基于预筛选动态集成的电力调度监控数据异常检测方法
CN116432123A (zh) 一种基于cart决策树算法的电能表故障预警方法
CN112149750A (zh) 一种供水管网爆管识别数据驱动方法
CN115526258A (zh) 基于Spearman相关系数特征提取的电力系统暂稳评估方法
CN116862081A (zh) 一种污染治理设备运维方法及系统
CN117034149A (zh) 故障处理策略确定方法、装置、电子设备和存储介质
CN110543675A (zh) 一种输电线路故障识别方法
CN114399407A (zh) 一种基于动静态选择集成的电力调度监控数据异常检测方法
CN115422263A (zh) 一种电力现场多功能通用型故障分析方法及系统
CN114819248A (zh) 一种基于随机森林的风电发电量预测方法及设备
CN114765574B (zh) 一种网络异常定界定位方法及装置
CN113887932A (zh) 基于人工智能的运维管控方法、装置、计算机设备
CN113962158A (zh) 基于改进决策树的压路机施工工艺知识库构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200703

Termination date: 20211026

CF01 Termination of patent right due to non-payment of annual fee