CN112181706B - 一种基于对数区间隔离的电力调度数据异常检测方法 - Google Patents

一种基于对数区间隔离的电力调度数据异常检测方法 Download PDF

Info

Publication number
CN112181706B
CN112181706B CN202011148000.8A CN202011148000A CN112181706B CN 112181706 B CN112181706 B CN 112181706B CN 202011148000 A CN202011148000 A CN 202011148000A CN 112181706 B CN112181706 B CN 112181706B
Authority
CN
China
Prior art keywords
sample
data
samples
anomaly
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011148000.8A
Other languages
English (en)
Other versions
CN112181706A (zh
Inventor
高欣
王�锋
贾欣
李康生
查森
任昺
纪维佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202011148000.8A priority Critical patent/CN112181706B/zh
Publication of CN112181706A publication Critical patent/CN112181706A/zh
Application granted granted Critical
Publication of CN112181706B publication Critical patent/CN112181706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明实施例提出了一种基于对数区间隔离的电力调度数据异常检测方法,包括:通过Bagging技术生成大量训练数据集的子集;计算每个子集空间下每个子样本对于该空间的马氏距离,根据样本马氏距离对子集空间中每个样本进行对数区间隔离;根据区间内样本的数据分布对样本进行二叉划分,在左右子树节点的子集上重复上面的过程,直至达到终止条件;构建多个对数区间隔离子树,并将其组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;通过构建的对数区间隔离森林异常检测器判断电力数据的异常情况,提高数据异常检测准确率。

Description

一种基于对数区间隔离的电力调度数据异常检测方法
【技术领域】
本发明涉及电力调度数据异常检测方法,涉及一种自的基于对数区间隔离的电力调度数据异常检测方法。
【背景技术】
统一坚强智能电网是以物理电网为基础,将现代先进的传感测量技术、通讯技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网,其包含发电、输电、变电、配电、用电和调度环节。在电力系统实际工作中,调度承担指挥、监督和管理电力生产运行的职能,是电力系统安全运行的重要保障。随着电网规模日益扩大,对电网安全稳定运行的要求也越来越高,调度电网数据的异常检测也愈显重要。当前调度数据的分析模式以静态离线数据分析为主,利用离线缓存数据搭建异常检测模型对电网调度数据的健康度评价体系有着重大意义,这种方式是生产运行系统不可缺少的一部分,是数据异常检测体系里面的模型离线构建环节。而且,如今的调度信息数据采集量增多且随着时间推移数据不断到来,具有顺序、大量、快速、连续到达的特点。因此,如何在保证离线异常检测模型构建效率的同时,提高异常检测模型的检测性能,对实时到达的调度数据进行同步处理并检测其是否存在异常,对于加强对电网状态监测、保障电网安全有重要意义。
【发明内容】
有鉴于此,本发明提出了一种基于对数区间隔离的电力调度数据异常检测方法,以提高电力调度数据异常检测的性能。
本发明提出一种基于对数区间隔离的电力调度数据异常检测方法,具体包括:
通过Bagging技术获得正常样本数据的多个子集;
计算每个子集空间下每个子样本对于该子样本所属子集空间的马氏距离,然后根据样本马氏距离对子集空间中每个子样本进行对数区间隔离;
根据区间内样本数量对样本进行二叉划分,根据样本马氏距离所在区间均匀划分为log2N个子区间,把含有样本量最少的区间内的样本集划分到右子树节点,其余样本集划分至左子树节点,在左右子树节点的数据集上重复上面的过程,直接达到终止条件;
构建多个对数区间隔离子树,组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径长度并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;
通过构建好的对数区间隔离森林异常检测器离线模型判断数据的异常情况。
上述方法中,通过Bagging技术对数据集进行训练,运用训练得到的对数区间隔离子树构建多个子异常检测器,将多个子异常检测器组成对数区间隔离森林异常检测器的方法为:采集N条电力调度数据样本,组成原始电力调度数据集;构建一个对数区间隔离子树时,从N条数据中均匀抽样(一般是有放回抽样)出ψ条数据样本,作为这个隔离树的训练样本;在训练样本中,我们计算出样本的数据中心点和样本整体的协方差矩阵,在每个隔离树样本中,计算出样本对于样本集的马氏距离,并根据所得出的马氏距离对样本进行对数区间隔离操作,对样本进行二叉划分,在这些区间集中,将区间内样本数量最少的区间里的样本集合划分到节点的右边,其余样本集统一归到左子节点,得到了一个分裂条件和左、右两边的数据集;分别在左右两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:数据集身不可再分(只包括一个样本,或者全部样本相同);或者树的高度达到log2(ψ);
运用系统抽样的方法将隔离树分为t组,构建t个子森林异常检测器,记为LIITree(1)~LIITree(t),t个子森林异常检测器中的隔离树共同组成了对数区间隔离森林异常检测器。
上述方法中,通过对数区间隔离森林异常检测器判断数据的异常情况的方法为:将对数区间隔离森林异常检测器应用于离线数据,即对缓冲区的离线数据,通过对数区间隔离森林常检测器判断其异常状况;对数区间隔离森林常检测器的输入为进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数等与电力调度系统业务相关的进程实时资源占用数据;输出为(0,1)范围内的数值,表明数据为正常状态的数值范围为(0,h],数据为异常范围的数值范围为(h,1),h值在原始数据集训练初始基检测器之后,用训练得到的检测器计算历史数据的异常得分,按照历史数据异常比例取异常得分分位数得出:
h=-QUARTILE(-F(X),100*(1-c))
其中:y=QUARTILE(a,b)为分位数函数;z=F(x)为对数区间隔离森林检测器检测函数;X为隔离树的训练样本集;c为训练样本集中的异常样本比例阈值;基于异常率阈值c筛选出数据集中的异常样本,该阈值设定由系统历史数据异常比例决定。
上述方法中,使用了马氏距离度量方法,可以排除变量之间的相关性的干扰,用来计算样本之间相关于分布的距离。
所述电力调度数据异常检测方法使得电力调度数据的异常检测准确率有提高。
由以上技术方案可以看出,本发明具有以下有益效果:
本发明实施的技术方案中,通过利用马氏距离度量方法、无监督离群点隔离和集成的技术,建立多个对数区间隔离子树异常检测器,并根据隔离分数生成一个离群候选集,最后集成每个子样本中对应数据的路径长度并取平均值,计算每个子样本异常分数,根据异常率阈值筛选出数据集中的异常样本;使得对数区间隔离森林异常检测模型能够在异常检测过程中适应多种异常情况的检测,提高异常检测模型在数据的建模及检测性能,从而提高电力调度系统在线数据异常检测的性能。
【附图说明】
为了更清楚地说明本发明的技术方案,下面将对本发明中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是对数区间隔离森林异常检测的流程示意图;
图2是本发明所提出的基于对数区间隔离的电力调度数据异常检测方法建模示意图;
图3是本发明算法的输入数据和输出结果示意图;
图4是本发明实施例中使用基于对数区间隔离的电力调度数据异常检测方法的ROC曲线。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明进行详细描述。
应当明确,所描述的发明实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明给出一种基于对树区间隔离森林算法的电力调度数据异常检测方法。本发明为满足时间序列下的异常检测,需要实时更新异常检测器以确保异常检测器的性能正常稳定。
图1所示为数据异常检测的流程示意图,该方法通过原始样本集构建异常检测器;通过异常检测器对数据进行在线异常检测;根据数据的在线异常检测结果对是否更新检测器进行判断;根据判断结果对检测器进行在线更新。
图2是本发明所提出的基于对数区间隔离的电力调度数据异常检测方法示意图,提出的方法主要包括2个阶段:异常检测器建模阶段和数据异常检测结果输出阶段。在异常检测器建模阶段,对由原始样本进行抽样,获得正常样本数据的多个子集,通过训练子集完成子森林异常检测器的构建,进而完成对数区间隔离森林异常检测器的构建。在离线数据异常检测结果输出阶段,通过构建好的对数区间隔离森林异常检测器对缓存区的数据根据相应异常分数和给定的异常率阈值进行异常检测。
步骤1,通过Bagging技术获得正常样本数据的多个子集;
具体的,基于原始电力调度数据集,采集N条电力调度数据样本,组成原始电力调度数据集X;运用Bagging技术对原始数据集X进行t次均匀、有放回的抽样,每次抽出ψ条样本数据,产生t组子样本X'1~X't,其中,t∈[20,120],作为隔离树的训练样本集,其中,ψ∈[60,1024],t∈[20,120],每个子样本集X'i含有ψ个样本X'i={x1,x2,...,xψ},ψ为小于训练数据集X大小的正整数,可根据实际情况选择合适数值,每个样本点含有n个维度,即第i个样本
算法1为本发明中所使用的对数区间隔离森林异常检测器构建方法的伪代码,用于构建t个子森林异常检测器,记为LIITree(1)~LIITree(t),t个子森林异常检测器中的隔离树共同组成了对数区间隔离森林异常检测器:
步骤2,计算每个子集空间下每个子样本对于该子样本所属子集空间的马氏距离,根据样本马氏距离对子集空间中每个子样本进行对数区间隔离;
具体的,计算每个子集空间下每个子样本对于该空间的马氏距离DM(xi,X'):
其中,μ为该子集X'下的中心点,xi为X'下的第i个样本点,∑为子集X'的协方差矩阵;
根据每个样本的马氏距离排序,按照样本马氏距离的最大值max和最小值min界定区间[min,max],将区间平均分割为log2(|X'|)个子区间,其中|X'|为子集X'的样本个数;
步骤3,根据区间内样本数量对样本进行二叉划分,根据样本马氏距离所在区间均匀划分为log2N个子区间,把含有样本量最少的区间内的样本集划分到右子树节点,其余样本集划分至左子树节点,在左右子树节点的数据集上重复上面的过程,直接达到终止条件;
具体的,统计每个子区间里样本的数量,根据样本马氏距离所在区间均匀划分为log2N个子区间,将样本数量最少的子区间里的样本划分到右子树节点,其余样本划分到左子树节点,分别在左右子树节点两边的数据集上重复上面的过程,直接达到终止条件,终止条件有两个:
1)数据本身不可再分(只包括一个样本,或者全部样本相同);
2)树的高度达到log2(ψ);
算法4为本发明中所使用的对数区间隔离策略的伪代码:
步骤4,构建多个对数区间隔离子树,组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径长度并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;
具体的,对于每个对数区间隔离子树,记录每个样本xi所能达到的树的高度Hi,计算样本xi在子树的路径长度h(xi):
h(xi)=Hi+c(ψ)+Sizei
其中,Sizei为样本xi最后所在子树节点里的样本个数,ψ表示子样本集X'中的样本数量,函数c(ψ):
其中,函数H(i):
H(i)=ln(i)+0.577216649
结合t个对数区间隔离子树对应样本xi的路径长度h(xi)求算术平均E(h(xi)),计算样本xi的异常分数s(xi,ψ):
利用异常评分s,我们可以进行以下评估:如果样本的s(xi,ψ)非常接近1,那么它们很有可能是异常;如果样本的s(xi,ψ)远远小于0.5,则可以将它们视为正常的实例;如果所有样本返回s(xi,ψ)≈0.5,则整个样本实际上没有任何明显的异常;构建t个对数区间隔子树异常检测器,记为LIITree(1)~LIITree(t),t个对数区间隔离子树异常检测器中的隔离树共同组成了对数区间隔离森林异常检测器。
步骤5,通过构建好的对数区间隔离森林异常检测器离线模型判断数据的异常情况;
具体的,将对数区间隔离森林异常检测器应用于滑动窗口的数据,即对每个到达滑动窗口的数据,通过对数区间隔离森林异常检测器判断其异常状况;对数区间隔离森林异常检测器的输入为进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数等与电力调度系统业务相关的进程实时资源占用数据;输出为(0,1)范围内的数值,表明数据为正常状态的数值范围为(0,h],数据为异常范围的数值范围为(h,1),h值在原始数据集训练初始基检测器之后,用训练得到的检测器计算历史数据的异常得分,按照历史数据异常比例取异常得分分位数得出:
h=-QUARTILE(-F(X),100*(1-c))
其中,y=QUARTILE(a,b)为分位数函数;z=F(x)为对数区间隔离森林检测器检测函数;X为隔离树的训练样本集;c为训练样本集中的异常样本比例阈值;基于异常率阈值c筛选出数据集中的异常样本,该阈值设定由系统历史数据异常比例决定。
用于具体实施例中,使用静态数据集进行测试,数据集为电脑运行进程的相关指标数据,并通过按次序输入数据以模拟数据的时序特征。用于训练的数据集为1000条18维度无标签进程数据,用于测试的数据集有2472条,异常数据(如Python进程运行的数据量大于2G)有918条。
为验证所提算法的有效性,本发明实施例中对比算法是未使用子森林渐进更新式增量学习的数据异常检测算法进行比较。
本发明实施例使用AUC值进行评定。通常ROC曲线下的面积(Area Under Curve,AUC)被用来评估异常检测算法的性能,ROC Area越接近于1,即AUC值越大,表示异常检测算法的性能越好。
集成规模、滑动采样窗口大小会影响该算法的AUC性能,通过测试,选定合适的组合以保证较优的模型AUC性能。集成规模选取的范围为{20,40,60,80,100,120},滑动采样窗口大小选取的范围为{64,128,256,512,1024}。
对比算法与本发明实施例提出的对数区间隔离森林算法的参数一致,即两者的集成规模与滑动窗口采样大小数值相同。选用相同的集成规模与滑动窗口采样大小,本质是通过控制变量,探究更新比例变动时,两算法的不同性能,进而比较。
通过代入电脑进程指标数据,对比算法的结果如表1所示,可得在此数据集下集成规模选取60,滑动采样窗口大小选取64时算法的AUC值较好。
表1集成规模、滑动采样窗口大小选定表
将集成规模设定60,滑动采样窗口大小设定64。对于更新比例参数的选定,须根据具体情形考虑。模型的更新共有两种情况:对于测试数据的异常率估定低于阈值时,即当缓存区满进行更新时,不需要进行较大的更新比率,其中,异常率阈值根据历史数据异常率人为设定;对于测试数据的异常率估定高于阈值时,即滑动窗口的异常率超过设定值,发生该情况有多种原因:一种是数据为正常数据,但发生了概念偏移,需要尽可能更新;另一种是异常成群出现,为精确判断出异常,应尽可能减少更新。因此,在本发明实施例提出的对数区间隔离森林算法中,更新比例的取值设定小于0.5,且选取部分离散点进行模拟测试,更新比例集合为{0,0.1,0.2,0.3,0.4}。由于存在伯努利随机选定数据关系,同一更新比例下同一算法多次运行的AUC性能并不相同,故计算平均的AUC值作为测试结果记录。
表2数据集1下算法对比测试(一)
表3数据集2下算法对比测试(二)
对于不同的更新比例,共进行两组对比测试,每组对比包含十次数据测试的AUC平均值。算法一为未使用对数区间隔离森林的数据异常检测对比算法,算法二为本发明实施例提出的对数区间隔离森林异常检测算法。测试结果如表2,表3所示。测试组一与测试组二对应数据存在差异,相互印证对比测试结果具有一定参考度。
借助数据分析,当进行模型更新时,同一更新比例下,本发明实施例提出的对数区间隔离森林异常检测算法与对比算法相比,AUC值相近,甚至在某更新比例下有较大的优化。当更新比例在集合{0.1,0.2,0.3,0.4}选取时,本发明实施例提出的算法的最优AUC值与对比算法相比,有2.4%至34.5%的提升。体现本发明实施例提出的基于对数区间隔离森林异常检测算法的电力调度数据异常检测方法具有更好的准确度。
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,基于原始电力调度数据集,采用对数区间隔离森林异常检测算法构建t个隔离树,运用Bagging技术生成t个训练数据集的子集,构建t个对数区间隔离子树检测器,所有的对数区间隔离检测器组成对数区间隔离森林异常检测器;对每个到达滑动窗口的数据,通过对数区间隔离森林异常检测器判断其异常状况。根据本发明实施例提供的技术方案,当面对电力调度数据的异常检测时,与未使用对数区间隔离森林的对比算法相比,该方法可获得更好的准确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (6)

1.一种基于对数区间隔离的电力调度数据异常检测方法,其特征在于,所述方法步骤包括:
(1)通过Bagging技术获得正常样本数据的多个子集;
(2)计算每个子集空间下每个子样本对于该子样本所属子集空间的马氏距离,然后根据样本马氏距离对子集空间中每个子样本进行对数区间隔离;
(3)根据区间内样本数量对样本进行二叉划分,根据样本马氏距离所在区间均匀划分为log2N个子区间,把含有样本量最少的区间内的样本集划分到右子树节点,其余样本集划分至左子树节点,在左右子树节点的数据集上重复上面的过程,直接达到终止条件;
(4)构建多个对数区间隔离子树,组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径长度并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本;
(5)通过构建好的对数区间隔离森林异常检测器离线模型判断数据的异常情况。
2.根据权利要求1所述的方法,其特征在于,通过Bagging技术获得正常样本数据的多个子集,具体为:基于原始电力调度数据集,采集N条电力调度数据样本,组成原始电力调度数据集X;运用Bagging技术对原始数据集X进行t次均匀、有放回的抽样,其中t∈[20,120],每次抽出ψ条样本数据,产生t组子样本X'1~X't,作为隔离树的训练样本集,其中,ψ∈[60,1024],t∈[20,120],每个子样本集X'i含有ψ个样本X'i={x1,x2,...,xψ},ψ为小于训练数据集X大小的正整数,可根据实际情况选择合适数值,每个样本点含有n个维度,即第i个样本
3.根据权利要求1所述的方法,其特征在于,计算每个子集空间下每个子样本对于该子样本所属子集空间的马氏距离,然后根据样本马氏距离对子集空间中每个子样本进行对数区间隔离,具体为:计算每个子集空间下每个子样本对于该空间的马氏距离DM(xi,X'):
其中,μ为该子集X'下的中心点,xi为子集X'下的第i个样本点,∑为子集X'的协方差矩阵;
对每个样本的马氏距离排序,按照样本马氏距离的最大值max和最小值min界定区间[min,max],将区间平均分割为log2(|X'|)个子区间,其中|X'|为子集X'的样本个数。
4.根据权利要求1所述的方法,其特征在于,根据区间内样本数量对样本进行二叉划分,根据样本马氏距离所在区间均匀划分为log2N个子区间,把含有样本量最少的区间内的样本集划分到右子树节点,其余样本集划分至左子树节点,在左右子树节点的数据集上重复上面的过程,直接达到终止条件,具体为:统计每个子区间里样本的数量,基于数据分布,将样本数量最少的子区间里的样本划分到右子树节点,其余样本划分到左子树节点,分别在左右子树节点两边的数据集上重复上面的过程,直至达到终止条件,终止条件有两个:
1)数据集本身不可再分,即只包括一个样本,或者全部样本相同;
2)树的高度达到log2(ψ)。
5.根据权利要求1所述的方法,其特征在于,构建多个对数区间隔离子树,组成对数区间隔离森林异常检测器,求出每个样本在每个子树下的路径长度,集成每个子树中对应数据的路径长度并取平均值求得异常分数,根据异常率阈值筛选出数据集中的异常样本,具体为:对于每个对数区间隔离子树,记录每个样本xi在每个子树所能达到的树的高度Hi,计算样本xi在子树的路径长度h(xi):
h(xi)=Hi+c(ψ)+Sizei
其中,Sizei为样本xi最后所在子树节点里的样本个数,ψ表示子样本集X'中的样本数量,函数c(ψ):
其中,函数H(i):
H(i)=ln(i)+0.577216649
结合t个对数区间隔离子树对应样本xi的路径长度h(xi)求算术平均值E(h(xi)),计算样本xi的异常分数s(xi,ψ):
利用异常评分s(xi,ψ),可以进行以下评估:如果样本的s(xi,ψ)非常接近1,那么它们很有可能是异常;如果样本的s(xi,ψ)远远小于0.5,则可以将它们视为正常的实例;如果所有样本返回s(xi,ψ)≈0.5,则整个样本实际上没有任何明显的异常;构建t个对数区间隔子树异常检测器,记为LIITree(1)~LIITree(t),t个对数区间隔离子树异常检测器中的隔离树共同组成了对数区间隔离森林异常检测器。
6.根据权利要求1所述的方法,其特征在于,通过构建好的对数区间隔离森林异常检测器离线模型判断数据的异常情况,具体为:将对数区间隔离森林异常检测器应用于滑动窗口的数据,即对每个到达滑动窗口的数据,通过对数区间隔离森林异常检测器判断其异常状况;对数区间隔离森林异常检测器的输入为进程CPU占用率、内存占用率、磁盘IO、网络IO、线程个数、网络连接数与电力调度系统业务相关的进程实时资源占用数据;输出为(0,1)范围内的数值,表明数据为正常状态的数值范围为(0,h],数据为异常范围的数值范围为(h,1),h值在原始数据集训练初始基检测器之后,用训练得到的检测器计算历史数据的异常得分,按照历史数据异常比例取异常得分分位数得出:
h=-QUARTILE(-F(X),100*(1-c))
其中,y=QUARTILE(a,b)为分位数函数;z=F(x)为对数区间隔离森林检测器检测函数;X为隔离树的训练样本集;c为训练样本集中的异常样本比例阈值;基于异常率阈值c筛选出数据集中的异常样本,该阈值设定由系统历史数据异常比例决定。
CN202011148000.8A 2020-10-23 2020-10-23 一种基于对数区间隔离的电力调度数据异常检测方法 Active CN112181706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011148000.8A CN112181706B (zh) 2020-10-23 2020-10-23 一种基于对数区间隔离的电力调度数据异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011148000.8A CN112181706B (zh) 2020-10-23 2020-10-23 一种基于对数区间隔离的电力调度数据异常检测方法

Publications (2)

Publication Number Publication Date
CN112181706A CN112181706A (zh) 2021-01-05
CN112181706B true CN112181706B (zh) 2023-09-22

Family

ID=73923615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011148000.8A Active CN112181706B (zh) 2020-10-23 2020-10-23 一种基于对数区间隔离的电力调度数据异常检测方法

Country Status (1)

Country Link
CN (1) CN112181706B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128913B (zh) * 2021-05-14 2022-05-17 北京邮电大学 一种基于反转信息熵动态集成的电力调度监控数据异常检测方法
CN113112188B (zh) * 2021-05-14 2022-05-17 北京邮电大学 一种基于预筛选动态集成的电力调度监控数据异常检测方法
CN115577169A (zh) * 2022-09-02 2023-01-06 江苏安友软件有限公司 一种基于大数据可视化处理的内容推送方法及系统
CN117148117B (zh) * 2023-10-27 2023-12-29 中诚华隆计算机技术有限公司 一种Chiplet故障自动检测修复方法及系统
CN117411811B (zh) * 2023-12-15 2024-02-23 山西思极科技有限公司 一种电力通信设备的故障智能监测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN109508733A (zh) * 2018-10-23 2019-03-22 北京邮电大学 一种基于分布概率相似度度量的异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190166024A1 (en) * 2017-11-24 2019-05-30 Institute For Information Industry Network anomaly analysis apparatus, method, and non-transitory computer readable storage medium thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292350A (zh) * 2017-08-04 2017-10-24 电子科技大学 大规模数据的异常检测方法
CN107657288A (zh) * 2017-10-26 2018-02-02 国网冀北电力有限公司 一种基于孤立森林算法的电力调度流数据异常检测方法
CN108777873A (zh) * 2018-06-04 2018-11-09 江南大学 基于加权混合孤立森林的无线传感网络异常数据检测方法
CN109508733A (zh) * 2018-10-23 2019-03-22 北京邮电大学 一种基于分布概率相似度度量的异常检测方法

Also Published As

Publication number Publication date
CN112181706A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112181706B (zh) 一种基于对数区间隔离的电力调度数据异常检测方法
CN107657288B (zh) 一种基于孤立森林算法的电力调度流数据异常检测方法
CN112116058B (zh) 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法
CN111680820B (zh) 分布式光伏电站故障诊断方法和装置
CN105677791B (zh) 用于分析风力发电机组的运行数据的方法和系统
CN115276006A (zh) 一种用于电力集成系统的负荷预测的方法及系统
CN105335752A (zh) 一种基于主成分分析多变量决策树的接线方式识别方法
CN110335168B (zh) 基于gru优化用电信息采集终端故障预测模型的方法及系统
CN112987675A (zh) 一种异常检测的方法、装置、计算机设备和介质
CN111950585A (zh) 一种基于XGBoost的地下综合管廊安全状况评估方法
CN106649789A (zh) 一种基于集成半监督费舍尔判别的工业过程故障分类方法
CN108491991B (zh) 基于工业大数据产品工期的约束条件分析系统与方法
CN113298297A (zh) 一种基于孤立森林与wgan网络的风电输出功率预测方法
CN111860624A (zh) 一种基于决策树的电网故障信息分类方法
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN116432123A (zh) 一种基于cart决策树算法的电能表故障预警方法
CN115021679A (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN114169434A (zh) 一种负荷预测方法
CN116186624A (zh) 一种基于人工智能的锅炉评估方法及系统
CN113408659A (zh) 一种基于数据挖掘的建筑能耗集成分析方法
CN113112188B (zh) 一种基于预筛选动态集成的电力调度监控数据异常检测方法
CN115438897A (zh) 一种基于blstm神经网络的工业过程产品质量预测方法
CN111898673A (zh) 一种基于emd与lstm的溶解氧含量预测方法
Bo et al. Recognition of control chart patterns in auto-correlated process based on random forest
Kim et al. Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant