CN111030855B - 一种泛在电力物联网系统数据的智能基线确定及告警方法 - Google Patents

一种泛在电力物联网系统数据的智能基线确定及告警方法 Download PDF

Info

Publication number
CN111030855B
CN111030855B CN201911235946.5A CN201911235946A CN111030855B CN 111030855 B CN111030855 B CN 111030855B CN 201911235946 A CN201911235946 A CN 201911235946A CN 111030855 B CN111030855 B CN 111030855B
Authority
CN
China
Prior art keywords
baseline
assigning
itree
equal
system resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911235946.5A
Other languages
English (en)
Other versions
CN111030855A (zh
Inventor
张栋
安毅
禹宁
段敬
竹瑞博
万雪枫
刘海涛
牛娜娜
李昂
程周育
窦国贤
陆宏波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Shanxi Electric Power Co Ltd
Original Assignee
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Shanxi Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Information and Telecommunication Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Shanxi Electric Power Co Ltd filed Critical State Grid Information and Telecommunication Co Ltd
Priority to CN201911235946.5A priority Critical patent/CN111030855B/zh
Publication of CN111030855A publication Critical patent/CN111030855A/zh
Application granted granted Critical
Publication of CN111030855B publication Critical patent/CN111030855B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Abstract

本发明公开了一种泛在电力物联网系统数据智能基线确定及告警方法,其步骤包括:1、智能基线的确定,包括:访问量基线、时间基线和错误率基线;2、孤立森林的构建;3、智能告警,包括:基于智能基线的告警和基于孤立森林算法的告警。本发明能够高效的处理泛在电力物联网的系统数据,对故障有准确的预测能力,同时结合智能告警推送策略,使得运维人员能够及时检测修复故障,大大提高了系统的稳定性。

Description

一种泛在电力物联网系统数据的智能基线确定及告警方法
技术领域
本发明属于运维系统优化领域,具体地说是一种泛在电力物联网系统数据的智能基线确定及告警方法。
背景技术
当前,处于数据大爆炸的时代,不同的公司都有自己的运维系统,这些运维系统负责维护并确保整个服务的高可用性,同时不断优化系统架构提升部署效率、优化资源利用率提高整体ROI。由于系统数量众多,系统间关联关系复杂,接口状态不明及集成现状不清晰,传统运维系统往往力不从心;同时,由于系统间集成关系复杂,数据再多个系统间传输,再发生传输故障时难以快速定位具体式哪个接口发生故障,这就使得故障难以定位,给运维人员排查造成负担。这些因素导致了过去互联网的运维经验无法满足现今的需求,必须针对现在企业架构设计专有方法和技术。
现有的一些告警信息优化的方法,往往利用的传统的Apriori算法,不能够对日益复杂的传输链路,不断扩展的系统架构进行智能化处理,这对于大型企业显然是不适用的。
发明内容
本发明为了克服现有技术存在的不足之处,提出一种泛在电力物联网系统数据的智能基线确定及告警方法,以期能快速、有效、动态地发现故障、产生告警并智能推送,从而为运维人员高效排除系统故障提供可靠的技术支持。
本发明为解决技术问题采用如下技术方案:
本发明一种泛在电力物联网系统数据的智能基线确定及告警方法,所述泛在电力物联网系统数据包含n个设备的系统资源日志,记为D={D1,D2,...,Di,...,Dn},其中,Di表示第i个设备的系统资源日志,1≤i≤n;第i个设备的系统资源日志Di由m个条目构成,记为
Figure GDA0003457227690000011
其中,
Figure GDA0003457227690000012
表示第i个设备的系统资源日志Di的第k个条目,1≤k≤m;第i个设备的系统资源日志Di的第k个条目
Figure GDA0003457227690000013
共有8个属性,记为
Figure GDA0003457227690000014
其特点是,所述智能基线确定及告警方法是按如下步骤进行:
步骤一、对所述系统资源日志D进行智能基线分析,得到所有设备的出口访问流量基线集合OutBaseline,入口访问流量基线集合InBaseline,错误率基线集合ErrorRate,时间基线集合EasyError;
步骤二、对所述系统资源日志D构造孤立森林;
步骤三、根据所述步骤一得到各个基线集合和所述孤立森林,以及第i个设备当前产生的数据条目
Figure GDA0003457227690000021
判断当前第i个设备的工作状态,并根据不同的工作状态按照推送策略,智能推送告警信息给运维人员。
本发明所述的智能基线确定及告警方法的特点是,所述步骤一是按如下步骤进行:
步骤1.1、定义第i个设备的出口访问流量基线为OutBaselinei,入口访问流量基线为InBaselinei;初始化i=1;
步骤1.2、初始化k=1,OutBaselinei=0,InBaselinei=0;
步骤1.3、利用式(1)得到更新的出口访问流量基线OutBaseline′i后赋值给OutBaselinei
Figure GDA0003457227690000022
步骤1.4、利用式(2)得到更新的入口访问流量基线InBaseline′i后赋值给InBaselinei
Figure GDA0003457227690000023
步骤1.5、将k+1赋值给k后,判断k>m是否成立,若成立,则执行步骤1.6;否则,返回步骤1.3顺序执行;
步骤1.6、利用式(3)得到最终的出口访问流量基线OutBaseline″i后赋值给OutBaselinei
OutBaseline″i=OutBaselinei/m (3)
步骤1.7、利用式(4)得到最终的入口访问流量基线InBaseline″i后赋值给InBaselinei
InBaseline″i=InBaselinei/m (4)
步骤1.8、根据第i个设备的系统资源日志Di的第k个条目
Figure GDA0003457227690000024
的时间属性
Figure GDA0003457227690000025
将第i个设备的系统资源日志Di均分成a个时间段的系统资源日志,记为
Figure GDA0003457227690000026
其中,
Figure GDA0003457227690000027
表示第i个设备的系统资源日志Di中第h个时间段的系统资源日志,且
Figure GDA0003457227690000028
表示第i个设备的系统资源日志Di中第h个时间段的系统资源日志中第z个条目,1≤h≤a,1≤z≤s≤k;
定义第i个设备的系统资源日志Di的错误率基线集合为
Figure GDA0003457227690000029
其中,
Figure GDA0003457227690000031
表示第i个设备的系统资源日志Di中第h个时间段的错误率基线;
步骤1.9、初始化h=1;
步骤1.10、初始化z=1,定义并初始化临时变量Count=0;
步骤1.11、判断
Figure GDA0003457227690000032
是否成立,若成立,则执行步骤1.12;否则,将Count+1赋值给Count后,执行步骤1.13;其中,α表示所设定的流量基线的浮动阈值,且0.15≤α≤0.25;
步骤1.12、判断
Figure GDA0003457227690000033
是否成立,若成立,则执行步骤1.13;否则,将Count+1赋值给Count后,执行步骤1.13;
步骤1.13、将z+1赋值给z,判断z>s是否成立,若成立,则执行步骤1.14;否则,返回执行步骤1.11;
步骤1.14、利用式(5)得到第i个设备的系统资源日志Di中第h个时间段的错误率基线
Figure GDA0003457227690000034
Figure GDA0003457227690000035
步骤1.15、将h+1赋值给h,判断h>a是否成立,若成立,则执行步骤1.16;否则,返回执行步骤1.10,从而获得错误率基线集合ErrorRatei
步骤1.16、定义第i个设备易发生故障的时间段集合为
Figure GDA0003457227690000036
其中
Figure GDA0003457227690000037
由时间段集合ErrorRatei中值处于top3的值确定,1≤h1,h2,h3≤a;
步骤1.17、将i+1赋值给i,判断i>n是否成立,若成立,则表示得到所有n个设备的基线,包括:
出口访问流量基线:OutBaseline={OutBaseline1,...,OutBaselinei,...,OutBaselinen}
入口访问流量基线:InBaseline={InBaseline1,...,InBaselinei,...,InBaselinen}
错误率基线:ErrorRate={ErrorRate1,...,ErrorRatei,...,ErrorRaten}
时间基线:EasyError={EasyError1,...,EasyErrori,...,EasyErrorn};
否则,返回执行步骤1.2。
所述步骤二是按如下步骤进行:
步骤2.1、初始化q=1;
步骤2.2、根据随机采样方法,随机在系统资源日志D中采样r个样本,记作
Figure GDA0003457227690000038
1≤w≤r,其中,
Figure GDA0003457227690000039
表示第w个样本,
Figure GDA00034572276900000310
表示系统资源日志D中第j个条目;定义数组iTreeq[r×k]为第q个孤立树;定义iTreeq[g]为第q个孤立树的第g个元素,其中,iTreeq[g]包含两个属性type和Value,记为iTreeq[g][type]和iTreeq[g][Value],1≤g≤r×k;
步骤2.3、定义当前节点所含条目集合为CurrentNode,当前节点的左子树条目集合为lchirld,当前节点的右子树条目集合为rchirld,初始化
Figure GDA0003457227690000041
步骤2.4、定义并初始化高度变量height=1;
步骤2.5、初始化lchirld={},rchirld={};
步骤2.6、随机选择{cpu,硬盘,内存}中一个属性,并赋值给变量Choose;
步骤2.7、随机在当前节点所含条目集合CurrentNode中选择一个条目
Figure GDA0003457227690000042
其中
Figure GDA0003457227690000043
Figure GDA0003457227690000044
赋值给变量Mid,将Choose的值赋值给iTreeq[g][type],将Mid的值赋值给iTreeq[g][Value];
步骤2.8、初始化j=1;
步骤2.9、判断
Figure GDA0003457227690000045
是否成立,若成立,则将
Figure GDA0003457227690000046
添加到当前节点的左子树集合lchirld上;否则,将
Figure GDA0003457227690000047
添加到当前节点的右子树rchirld上;
步骤2.10、将j+1赋值给j,判断j>len(CurrentNode)是否成立,若成立,则执行步骤2.11;否则,返回执行步骤2.9;其中,len(·)表示集合的元素个数;
步骤2.11、判断len(lchirld)=0是否成立,若成立,则执行步骤2.12;否则,将当前节点的左子树集合lchirld赋值给CurrentNode,2×height赋值给height,返回执行步骤2.5;
步骤2.12、判断len(rchirld)=0是否成立,若成立,则执行步骤2.13;否则,将当前节点的右子树集合rchirld赋值给CurrentNode,2×height+1赋值给height,返回执行步骤2.5;
步骤2.13、将q+1赋值给q,判断q>β是否成立,若成立,则表示获得孤立森林iTree={iTree1[r×k],iTree2[r×k],...,iTreeb[r×k],...,iTreeβ[r×k]},1≤b≤β;否则,返回执行步骤2.2;其中,β表示所设定的孤立森林需要包含孤立树的数量,且
Figure GDA0003457227690000048
所述步骤三是按如下步骤进行:
步骤3.1、定义时间标志变量tag_time,入口访问流量标志变量tag_in,出口访问流量标志变量tag_out,错误率标志变量tag_error,孤立分数tag_itree,并将均初始化为0;
步骤3.2、根据式(6)确定时间标志变量tag_time:
Figure GDA0003457227690000051
步骤3.3、根据式(7)确定入口访问流量标志变量tag_in:
Figure GDA0003457227690000052
式(7)中,δ和ε表示所设定的流量判断阈值,且0.2≤ε<0.5≤δ≤0.9;
步骤3.4、根据式(8)确定出口访问流量标志变量tag_out:
Figure GDA0003457227690000053
步骤3.5、根据式(9)确定错误率标志变量tag_error:
Figure GDA0003457227690000054
步骤3.6、初始化q=1,变量v=0;
步骤3.7、初始化j=1,h=1;
步骤3.8、将iTreeq[j][type]的值赋值给变量Choose,判断
Figure GDA0003457227690000055
是否成立,若成立,则执行步骤3.9;否则,执行步骤3.10;
步骤3.9、将2j赋值给j,判断iTreeq[j]={}是否成立,若成立,则执行步骤3.11;否则,将h+1赋值给h,返回执行步骤3.8;
步骤3.10、将2j+1赋值给j,判断iTreeq[j]={}是否成立,若成立,则执行步骤3.11;否则,将h+1赋值给h,返回执行步骤3.8;
步骤3.11、将q+1赋值给q,判断q>β是否成立,若成立,则执行步骤3.12;否则,将v+h赋值给v,返回执行步骤3.7;
步骤3.12、根据式(10)确定孤立分数tag_itree:
Figure GDA0003457227690000061
步骤3.13、根据式(11)得到告警得分AlarmScore:
AlarmScore=tag_time×φ1+tag_in×φ2+tag_out×φ3+tag_error×φ4+tag_i tree×φ5 (11)
式(11)中,{φ12345}是一组权值集合,且每个权值的范围在0.2~0.9之间;
步骤3.14、根据式(12)得到紧急程度EmergencyLevel:
Figure GDA0003457227690000062
式(12)中,
Figure GDA0003457227690000063
是一组阈值集合,且
Figure GDA0003457227690000064
步骤3.15、根据紧急程度EmergencyLevel,通过不同方式推送告警信息给运维人员。
与已有技术相比,本发明有益效果体现在:
1、本发明利用历史系统运行数据,智能分析当前系统运行状态,保证了运维人员能够及时正确发现和处理故障,为系统的稳定运行提供了保证。
2、本发明所提出的方法不仅仅针对特定形式的系统数据或者运维日志,只要企业运维系统包含常规的cpu,硬盘,内存,流量等资源监控,就能智能分析系统当前是否处于异常状态,并推送告警给运维人员,应用广泛,使用方便。
3、本发明所提出的方法不要获得运维系统的全部信息,企业公司可以根据自身的隐私保护政策,只需提供本发明中所述的少量相关特征就可以实现本发明所述的方法,保护了企业公司的敏感信息,安全性强。
4、本发明所提出的方法不需要再企业系统架构上部署特殊构建,只要获得系统的运行数据进行分析,就可以完成告警的智能推送。具有很低的部署成本,为各企业的应用提供了便利。
具体实施方式
本实施例中,泛在电力物联网系统数据包含n个设备的系统资源日志,记为D={D1,D2,...,Di,...,Dn},假设现有国家泛在电力物联网2019-1-11当天的系统数据,包含n个设备的系统资源日志,例如设备包括{交换机,应用服务器,数据库服务器,负载均衡…},其中,Di表示第i个设备的系统资源日志,1≤i≤n;第i个设备的系统资源日志Di由m个条目构成,记为
Figure GDA0003457227690000065
其中,
Figure GDA0003457227690000066
表示第i个设备的系统资源日志Di的第k个条目,即每个设备的系统资源日志共有m个条目,每个条目的格式类似为:(2019-1-11
10:24:03,服务器,192.134.123.1,1MB/S,2MB/S,35%,40%,50%),分别对应属性{时间,设备类型,设备ip,入口流量,出口流量,cpu占用,硬盘占用,内存占用},1≤k≤m;第i个设备的系统资源日志Di的第k个条目
Figure GDA0003457227690000071
共有8个属性,记为,
Figure GDA0003457227690000072
一种泛在电力物联网系统数据的智能基线确定及告警方法是按如下步骤进行:
步骤1.1、定义第i个设备的出口访问流量基线为OutBaselinei,入口访问流量基线为InBaselinei;初始化i=1;
步骤1.2、初始化k=1,OutBaselinei=0,InBaselinei=0;
步骤1.3、利用式(1)得到更新的出口访问流量基线OutBaseline′i后赋值给OutBaselinei
Figure GDA0003457227690000073
步骤1.4、利用式(2)得到更新的入口访问流量基线InBaseline′i后赋值给InBaselinei
Figure GDA0003457227690000074
步骤1.5、将k+1赋值给k后,判断k>m是否成立,若成立,则执行步骤1.6;否则,返回步骤1.3顺序执行;
步骤1.6、利用式(3)得到最终的出口访问流量基线OutBaseline″i后赋值给OutBaselinei
OutBaseline″i=OutBaselinei/m (3)
步骤1.7、利用式(4)得到最终的入口访问流量基线InBaseline″i后赋值给InBaselinei
InBaseline″i=InBaselinei/m (4)
即获得第i个设备的的出口访问流量基线,入口访问流量基线,如数据库出口访问流量基线为1MB/S,入口访问流量基线为2MB/S;
步骤1.8、根据第i个设备的系统资源日志Di的第k个条目
Figure GDA0003457227690000075
的时间属性
Figure GDA0003457227690000076
将第i个设备的系统资源日志Di均分成a个时间段的系统资源日志,记为
Figure GDA0003457227690000077
如数据库的系统资源日志被分成6个时间段,每4个小时为一个时间段,其中,
Figure GDA0003457227690000078
表示第i个设备的系统资源日志Di中第h个时间段的系统资源日志,且
Figure GDA0003457227690000081
表示第i个设备的系统资源日志Di中第h个时间段的系统资源日志中第z个条目,1≤h≤a,1≤z≤s≤k;如对于数据库的系统资源日志均分后,12:00-16:00时间段中有100个条目;
定义第i个设备的系统资源日志Di的错误率基线集合为
Figure GDA0003457227690000082
其中,
Figure GDA0003457227690000083
表示第i个设备的系统资源日志Di中第h个时间段的错误率基线;例如,计算后数据库在12:00-16:00时间段的错误率基线可能是10%;
步骤1.9、初始化h=1;
步骤1.10、初始化z=1,定义并初始化临时变量Count=0;
步骤1.11、判断
Figure GDA0003457227690000084
是否成立,若成立,则执行步骤1.12;否则,将Count+1赋值给Count后,执行步骤1.13;其中,α表示用户定义的流量基线的浮动阈值,以判断出口流量是否属于正常水平,且0.15≤α≤0.25;例如,定义α为0.2,即判断第i个设备的第z个条目的出口流量是否在出口流量基线的一定范围内,范围为0.8~1.2;
步骤1.12、判断
Figure GDA0003457227690000085
是否成立,若成立,则执行步骤1.13;否则,将Count+1赋值给Count后,执行步骤1.13;
步骤1.13、将z+1赋值给z,判断z>s是否成立,若成立,则执行步骤1.14;否则,返回执行步骤1.11;即第i个设备的第h个时间段的数据条目已经计算完成;
步骤1.14、利用式(5)得到第i个设备的系统资源日志Di中第h个时间段的错误率基线
Figure GDA0003457227690000086
Figure GDA0003457227690000087
步骤1.15、将h+1赋值给h,判断h>a是否成立,若成立,则执行步骤1.16;否则,返回执行步骤1.10,从而获得错误率基线集合ErrorRatei;例如,当天的6个时间段的错误率分别为10%,12%,13%,11%,12%,14%;
步骤1.16、定义第i个设备易发生故障的时间段集合为
Figure GDA0003457227690000088
其中
Figure GDA0003457227690000089
由时间段集合ErrorRatei中值处于top3的值确定,1≤h1,h2,h3≤a;例如,本实施实例中,top3的值为14%,13%,12%,对应时间段分别为20:00-24:00,8:00-12:00,4:00-8:00;
步骤1.17、将i+1赋值给i,判断i>n是否成立,若成立,则表示得到所有n个设备的基线,包括:
出口访问流量基线:OutBaseline={OutBaseline1,...,OutBaselinei,...,OutBaselinen}
入口访问流量基线:InBaseline={InBaseline1,...,InBaselinei,...,InBaselinen}
错误率基线:ErrorRate={ErrorRate1,...,ErrorRatei,...,ErrorRaten}
时间基线:EasyError={EasyError1,...,EasyErrori,...,EasyErrorn};
否则,返回执行步骤1.2。
例如,本实施实例中,出口访问流量基线OutBaseline={1MB/S,2MB/S,…},入口访问流量基线InBaseline={2MB/S,0.5MB/s,…},错误率基线={5%,10%,…},时间基线={(20:00-24:00,8:00-12:00,0:00-4:00),…};
步骤2.1、初始化q=1;
步骤2.2、根据随机采样方法,随机在系统资源日志D中采样r个样本,记作
Figure GDA0003457227690000091
1≤w≤r,例如,采样3个样本,即{数据库,应用服务器,交换机}的系统资源日志,其中,
Figure GDA0003457227690000092
表示第w个样本,
Figure GDA0003457227690000093
表示系统资源日志D中第j个条目;定义数组iTreeq[r×k]为第q个孤立树;定义iTreeq[g]为第q个孤立树的第g个元素,其中,iTreeq[g]包含两个属性type和Value,记为iTreeq[g][type]和iTreeq[g][Value],1≤g≤r×k;
步骤2.3、定义当前节点所含条目集合为CurrentNode,当前节点的左子树条目集合为lchirld,当前节点的右子树条目集合为rchirld,初始化
Figure GDA0003457227690000094
即将{数据库,应用服务器,交换机}的系统资源日志的所有条目作为当前节点的条目集合;
步骤2.4、定义并初始化高度变量height=1;
步骤2.5、初始化lchirld={},rchirld={};
步骤2.6、随机选择{cpu,硬盘,内存}中一个属性,并赋值给变量Choose;例如,选择了cpu;
步骤2.7、随机在当前节点所含条目集合CurrentNode中选择一个条目
Figure GDA0003457227690000095
其中
Figure GDA0003457227690000096
Figure GDA0003457227690000097
赋值给变量Mid,将Choose的值赋值给iTreeq[height][type],将Mid的值赋值给iTreeq[height][Value];例如,选择了条目(2019-1-1110:24:03,服务器,192.134.123.1,1MB/S,2MB/S,35%,40%,50%),此时Mid值为35%,所以iTree1[1][type]=cpu,iTree1[1][Value]=35%;
步骤2.8、初始化j=1;
步骤2.9、判断
Figure GDA0003457227690000101
是否成立,若成立,则将
Figure GDA0003457227690000102
添加到当前节点的左子树集合lchirld上;否则,将
Figure GDA0003457227690000103
添加到当前节点的右子树rchirld上;即将cpu值小于35%的条目添加到当前节点左子树上,其余的添加到当前节点右子树上;
步骤2.10、将j+1赋值给j,判断j>len(CurrentNode)是否成立,若成立,则执行步骤2.11;否则,返回执行步骤2.9;其中,len(·)表示集合的元素个数;即当前节点的条目集合已经全部分配完成;
步骤2.11、判断len(lchirld)=0是否成立,若成立,则执行步骤2.12;否则,将当前节点的左子树集合lchirld赋值给CurrentNode,2×height赋值给height,返回执行步骤2.5;即迭代构造左子树;
步骤2.12、判断len(rchirld)=0是否成立,若成立,则执行步骤2.13;否则,将当前节点的右子树集合rchirld赋值给CurrentNode,2×height+1赋值给height,返回执行步骤2.5;即迭代构造右子树;
步骤2.13、将q+1赋值给q,判断q>β是否成立,若成立,则表示获得孤立森林iTree={iTree1[r×k],iTree2[r×k],...,iTreeb[r×k],...,iTreeβ[r×k]},1≤b≤β;否则,返回执行步骤2.2;其中,β表示用户定义的孤立森林需要包含孤立树的数量,且
Figure GDA0003457227690000104
β是用户需要构造树的数量,孤立森林中包含的树越多,效果理论上越好,但是会消耗更长的时间,所以需根据实际来确定,本实例中,β为3;
步骤3.1、定义时间标志变量tag_time,入口访问流量标志变量tag_in,出口访问流量标志变量tag_out,错误率标志变量tag_error,孤立分数tag_itree,并将均初始化为0;不同的变量作为最后告警分数的一项,确定最终的告警等级;
步骤3.2、根据式(6)确定时间标志变量tag_time:
Figure GDA0003457227690000105
例如,当前数据条目为(2019-1-1221:24:03,服务器,192.134.123.1,1MB/S,2MB/S,35%,40%,50%),因为时间点21:24:03属于{(20:00-24:00,8:00-12:00,0:00-4:00),所以将时间标志变量置1;
步骤3.3、根据式(7)确定入口访问流量标志变量tag_in:
Figure GDA0003457227690000111
式(7)中,δ和ε表示用户定义的流量判断阈值,以确定具体的赋值规则,其中,0.2≤ε<0.5≤δ≤0.9;
在本实例中,δ=0.5,ε=0.2;
步骤3.4、根据式(8)确定出口访问流量标志变量tag_out:
Figure GDA0003457227690000112
步骤3.5、根据式(9)确定错误率标志变量tag_error:
Figure GDA0003457227690000113
即判断当前时间点是所处时间段的错误率,例如处于时间点21:24:03的条目,tag_error=14%;
步骤3.6、初始化q=1,变量v=0;
步骤3.7、初始化j=1,h=1;
步骤3.8、将iTreeq[j][type]的值赋值给变量Choose,判断
Figure GDA0003457227690000114
是否成立,若成立,则执行步骤3.9;否则,执行步骤3.10;
步骤3.9、将2j赋值给j,判断iTreeq[j]={}是否成立,若成立,则执行步骤3.11;否则,将h+1赋值给h,返回执行步骤3.8;
步骤3.10、将2j+1赋值给j,判断iTreeq[j]={}是否成立,若成立,则执行步骤3.11;否则,将h+1赋值给h,返回执行步骤3.8;
步骤3.11、将q+1赋值给q,判断q>β是否成立,若成立,则执行步骤3.12;否则,将v+h赋值给v,返回执行步骤3.7;即得到当前数据条目分配到各个树的总的高度v,高度越高说明是异常点的概率越小;
步骤3.12、根据式(10)确定孤立分数tag_itree:
Figure GDA0003457227690000121
步骤3.13、根据式(11)得到告警得分AlarmScore:
AlarmScore=tag_time×φ1+tag_in×φ2+tag_out×φ3+tag_error×φ4+tag_i tree×φ5 (11)
式(11)中,{φ12345}是根据实际情况定义的一组权值,其中每个权值的范围在0.2~0.9之间。{φ12345}的值决定了上述各基线所得分数所占的权重,通常来说,认为tag_in和tag_out的权重最大,tag_itree其次,本实例{φ12345}={0.2,0.8,0.8,0.3,0.4};
步骤3.14、根据式(12)得到紧急程度EmergencyLevel:
Figure GDA0003457227690000122
式(12)中,
Figure GDA0003457227690000123
是根据实际情况定义的一组阈值,其中,
Figure GDA0003457227690000124
本实例中,
Figure GDA0003457227690000125
所以当前条目(2019-1-1221:24:03,服务器,192.134.123.1,1MB/S,2MB/S,35%,40%,50%)的EmergencyLevel为严重;
步骤3.15、根据紧急程度EmergencyLevel,通过不同方式推送告警信息给运维人员。不同紧急程度可以通过邮件,电话,短信等方式推送给运维人员,对于紧急程度不足以达到轻微的数据条目,应该保留日志,以供后续查询。

Claims (2)

1.一种泛在电力物联网系统数据的智能基线确定及告警方法,所述泛在电力物联网系统数据包含n个设备的系统资源日志,记为D={D1,D2,...,Di,...,Dn},其中,Di表示第i个设备的系统资源日志,1≤i≤n;第i个设备的系统资源日志Di由m个条目构成,记为
Figure FDA0003457227680000011
其中,
Figure FDA0003457227680000012
表示第i个设备的系统资源日志Di的第k个条目,1≤k≤m;第i个设备的系统资源日志Di的第k个条目
Figure FDA0003457227680000013
共有8个属性,记为
Figure FDA0003457227680000014
其特征是,所述智能基线确定及告警方法是按如下步骤进行:
步骤一、对所述系统资源日志D进行智能基线分析,得到所有设备的出口访问流量基线集合OutBaseline,入口访问流量基线集合InBaseline,错误率基线集合ErrorRate,时间基线集合EasyError;
步骤二、对所述系统资源日志D构造孤立森林;
步骤2.1、初始化q=1;
步骤2.2、根据随机采样方法,随机在系统资源日志D中采样r个样本,记作
Figure FDA0003457227680000015
其中,
Figure FDA0003457227680000016
表示第w个样本,
Figure FDA0003457227680000017
表示系统资源日志D中第j个条目;定义数组iTreeq[r×k]为第q个孤立树;定义iTreeq[g]为第q个孤立树的第g个元素,其中,iTreeq[g]包含两个属性type和Value,记为iTreeq[g][type]和iTreeq[g][Value],1≤g≤r×k;
步骤2.3、定义当前节点所含条目集合为CurrentNode,当前节点的左子树条目集合为lchirld,当前节点的右子树条目集合为rchirld,初始化
Figure FDA0003457227680000018
步骤2.4、定义并初始化高度变量height=1;
步骤2.5、初始化lchirld={},rchirld={};
步骤2.6、随机选择{cpu,硬盘,内存}中一个属性,并赋值给变量Choose;
步骤2.7、随机在当前节点所含条目集合CurrentNode中选择一个条目
Figure FDA0003457227680000019
其中
Figure FDA00034572276800000110
Figure FDA00034572276800000111
赋值给变量Mid,将Choose的值赋值给iTreeq[g][type],将Mid的值赋值给iTreeq[g][Value];
步骤2.8、初始化j=1;
步骤2.9、判断
Figure FDA00034572276800000112
是否成立,若成立,则将
Figure FDA00034572276800000113
添加到当前节点的左子树集合lchirld上;否则,将
Figure FDA0003457227680000021
添加到当前节点的右子树rchirld上;
步骤2.10、将j+1赋值给j,判断j>len(CurrentNode)是否成立,若成立,则执行步骤2.11;否则,返回执行步骤2.9;其中,len(·)表示集合的元素个数;
步骤2.11、判断len(lchirld)=0是否成立,若成立,则执行步骤2.12;否则,将当前节点的左子树集合lchirld赋值给CurrentNode,2×height赋值给height,返回执行步骤2.5;
步骤2.12、判断len(rchirld)=0是否成立,若成立,则执行步骤2.13;否则,将当前节点的右子树集合rchirld赋值给CurrentNode,2×height+1赋值给height,返回执行步骤2.5;
步骤2.13、将q+1赋值给q,判断q>β是否成立,若成立,则表示获得孤立森林iTree={iTree1[r×k],iTree2[r×k],...,iTreeb[r×k],...,iTreeβ[r×k]},1≤b≤β;否则,返回执行步骤2.2;其中,β表示所设定的孤立森林需要包含孤立树的数量,且
Figure FDA0003457227680000022
步骤三、根据所述步骤一得到各个基线集合和所述孤立森林,以及第i个设备当前产生的数据条目
Figure FDA0003457227680000023
判断当前第i个设备的工作状态,并根据不同的工作状态按照推送策略,智能推送告警信息给运维人员;
步骤3.1、定义时间标志变量tag_time,入口访问流量标志变量tag_in,出口访问流量标志变量tag_out,错误率标志变量tag_error,孤立分数tag_itree,并将均初始化为0;
步骤3.2、根据式(6)确定时间标志变量tag_time:
Figure FDA0003457227680000024
步骤3.3、根据式(7)确定入口访问流量标志变量tag_in:
Figure FDA0003457227680000025
式(7)中,δ和ε表示所设定的流量判断阈值,且0.2≤ε<0.5≤δ≤0.9;
步骤3.4、根据式(8)确定出口访问流量标志变量tag_out:
Figure FDA0003457227680000031
步骤3.5、根据式(9)确定错误率标志变量tag_error:
Figure FDA0003457227680000032
步骤3.6、初始化q=1,变量v=0;
步骤3.7、初始化j=1,h=1;
步骤3.8、将iTreeq[j][type]的值赋值给变量Choose,判断
Figure FDA0003457227680000033
是否成立,若成立,则执行步骤3.9;否则,执行步骤3.10;
步骤3.9、将2j赋值给j,判断iTreeq[j]={}是否成立,若成立,则执行步骤3.11;否则,将h+1赋值给h,返回执行步骤3.8;
步骤3.10、将2j+1赋值给j,判断iTreeq[j]={}是否成立,若成立,则执行步骤3.11;否则,将h+1赋值给h,返回执行步骤3.8;
步骤3.11、将q+1赋值给q,判断q>β是否成立,若成立,则执行步骤3.12;否则,将v+h赋值给v,返回执行步骤3.7;
步骤3.12、根据式(10)确定孤立分数tag_itree:
Figure FDA0003457227680000034
步骤3.13、根据式(11)得到告警得分AlarmScore:
AlarmScore=tag_time×φ1+tag_in×φ2+tag_out×φ3+tag_error×φ4+tag_itree×φ5 (11)
式(11)中,{φ12345}是一组权值集合,且每个权值的范围在0.2~0.9之间;
步骤3.14、根据式(12)得到紧急程度EmergencyLevel:
Figure FDA0003457227680000035
式(12)中,
Figure FDA0003457227680000036
是一组阈值集合,且
Figure FDA0003457227680000037
步骤3.15、根据紧急程度EmergencyLevel,通过不同方式推送告警信息给运维人员。
2.根据权利要求1所述的智能基线确定及告警方法,其特征是,所述步骤一是按如下步骤进行:
步骤1.1、定义第i个设备的出口访问流量基线为OutBaselinei,入口访问流量基线为InBaselinei;初始化i=1;
步骤1.2、初始化k=1,OutBaselinei=0,InBaselinei=0;
步骤1.3、利用式(1)得到更新的出口访问流量基线OutBaseline′i后赋值给OutBaselinei
OutBaseline′i=OutBaselinei+di k['出口流量'] (1)
步骤1.4、利用式(2)得到更新的入口访问流量基线InBaseline′i后赋值给InBaselinei
InBaseline′i=InBaselinei+di k['入口流量'] (2)
步骤1.5、将k+1赋值给k后,判断k>m是否成立,若成立,则执行步骤1.6;否则,返回步骤1.3顺序执行;
步骤1.6、利用式(3)得到最终的出口访问流量基线OutBaseline″i后赋值给OutBaselinei
OutBaseline″i=OutBaselinei/m (3)
步骤1.7、利用式(4)得到最终的入口访问流量基线InBaseline″i后赋值给InBaselinei
InBaseline″i=InBaselinei/m (4)
步骤1.8、根据第i个设备的系统资源日志Di的第k个条目
Figure FDA0003457227680000041
的时间属性
Figure FDA0003457227680000042
将第i个设备的系统资源日志Di均分成a个时间段的系统资源日志,记为
Figure FDA0003457227680000043
其中,
Figure FDA0003457227680000044
表示第i个设备的系统资源日志Di中第h个时间段的系统资源日志,且
Figure FDA0003457227680000045
Figure FDA0003457227680000046
表示第i个设备的系统资源日志Di中第h个时间段的系统资源日志中第z个条目,1≤h≤a,1≤z≤s≤k;
定义第i个设备的系统资源日志Di的错误率基线集合为
Figure FDA0003457227680000047
其中,
Figure FDA0003457227680000048
表示第i个设备的系统资源日志Di中第h个时间段的错误率基线;
步骤1.9、初始化h=1;
步骤1.10、初始化z=1,定义并初始化临时变量Count=0;
步骤1.11、判断
Figure FDA0003457227680000049
是否成立,若成立,则执行步骤1.12;否则,将Count+1赋值给Count后,执行步骤1.13;其中,α表示所设定的流量基线的浮动阈值,且0.15≤α≤0.25;
步骤1.12、判断
Figure FDA0003457227680000051
是否成立,若成立,则执行步骤1.13;否则,将Count+1赋值给Count后,执行步骤1.13;
步骤1.13、将z+1赋值给z,判断z>s是否成立,若成立,则执行步骤1.14;否则,返回执行步骤1.11;
步骤1.14、利用式(5)得到第i个设备的系统资源日志Di中第h个时间段的错误率基线
Figure FDA0003457227680000052
Figure FDA0003457227680000053
步骤1.15、将h+1赋值给h,判断h>a是否成立,若成立,则执行步骤1.16;否则,返回执行步骤1.10,从而获得错误率基线集合ErrorRatei
步骤1.16、定义第i个设备易发生故障的时间段集合为
Figure FDA0003457227680000054
其中
Figure FDA0003457227680000055
由时间段集合ErrorRatei中值处于top3的值确定,1≤h1,h2,h3≤a;
步骤1.17、将i+1赋值给i,判断i>n是否成立,若成立,则表示得到所有n个设备的基线,包括:
出口访问流量基线:OutBaseline={OutBaseline1,...,OutBaselinei,...,OutBaselinen}
入口访问流量基线:InBaseline={InBaseline1,...,InBaselinei,...,InBaselinen}
错误率基线:ErrorRate={ErrorRate1,...,ErrorRatei,...,ErrorRaten}
时间基线:EasyError={EasyError1,...,EasyErrori,...,EasyErrorn};
否则,返回执行步骤1.2。
CN201911235946.5A 2019-12-05 2019-12-05 一种泛在电力物联网系统数据的智能基线确定及告警方法 Active CN111030855B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911235946.5A CN111030855B (zh) 2019-12-05 2019-12-05 一种泛在电力物联网系统数据的智能基线确定及告警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911235946.5A CN111030855B (zh) 2019-12-05 2019-12-05 一种泛在电力物联网系统数据的智能基线确定及告警方法

Publications (2)

Publication Number Publication Date
CN111030855A CN111030855A (zh) 2020-04-17
CN111030855B true CN111030855B (zh) 2022-05-17

Family

ID=70204380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911235946.5A Active CN111030855B (zh) 2019-12-05 2019-12-05 一种泛在电力物联网系统数据的智能基线确定及告警方法

Country Status (1)

Country Link
CN (1) CN111030855B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108776683A (zh) * 2018-06-01 2018-11-09 广东电网有限责任公司 一种基于孤立森林算法和神经网络的电力运维数据清洗方法
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置
CN109976930A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 异常数据的检测方法、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976930A (zh) * 2017-12-28 2019-07-05 腾讯科技(深圳)有限公司 异常数据的检测方法、系统及存储介质
CN108776683A (zh) * 2018-06-01 2018-11-09 广东电网有限责任公司 一种基于孤立森林算法和神经网络的电力运维数据清洗方法
CN109948669A (zh) * 2019-03-04 2019-06-28 腾讯科技(深圳)有限公司 一种异常数据检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于大数据分析的电力系统状态实验仿真》;谢科军等;《价值工程》;20171231;正文第2-4页 *
Predicting failures in hard drivers based on isolation forest algorithm;Tinglei Zhang, Endong Wang and Dong;《Journal of Physics》;20190731;正文第2-4页 *
基于Visual C++的电力通信网管综合巡视平台的设计与开发;竹瑞博,王峰;《测试技术学报》;20151231;第29卷(第2期);正文第2-4页 *

Also Published As

Publication number Publication date
CN111030855A (zh) 2020-04-17

Similar Documents

Publication Publication Date Title
CN110784481A (zh) SDN网络中基于神经网络的DDoS检测方法及系统
Lichodzijewski et al. Dynamic intrusion detection using self-organizing maps
CN111475804A (zh) 一种告警预测方法及系统
CN111131304B (zh) 面向云平台大规模虚拟机细粒度异常行为检测方法和系统
US20140189436A1 (en) Fault detection and localization in data centers
US11595434B2 (en) Method and system for intrusion detection
CN109034580B (zh) 一种基于大数据分析的信息系统整体健康度评估方法
CN110474799B (zh) 故障定位方法及装置
Nakhodchi et al. Steeleye: An application-layer attack detection and attribution model in industrial control systems using semi-deep learning
Chandolikar et al. Efficient algorithm for intrusion attack classification by analyzing KDD Cup 99
CN110188015B (zh) 一种主机访问关系异常行为自适应检测装置及其监测方法
CN115237717A (zh) 一种微服务异常检测方法和系统
CN107104951A (zh) 网络攻击源的检测方法和装置
TWM622216U (zh) 用於服務異常偵測告警的設備
CN114785548B (zh) 流量智能监测平台
CN109150845A (zh) 监测终端流量的方法以及系统
El Mrabet et al. A performance comparison of data mining algorithms based intrusion detection system for smart grid
Xian et al. A novel intrusion detection method based on clonal selection clustering algorithm
Dedato et al. Demographic history and conservation genomics of caribou (Rangifer tarandus) in Québec
CN111030855B (zh) 一种泛在电力物联网系统数据的智能基线确定及告警方法
Xu et al. Comparisons of logistic regression and artificial neural network on power distribution systems fault cause identification
CN113612625A (zh) 一种网络故障定位方法及装置
CN117097026A (zh) 一种基于源网荷储新型电力系统运维监控平台的操作方法
CN116826961A (zh) 电网智能调度和运维系统、方法及存储介质
CN116628554A (zh) 一种工业互联网数据异常的检测方法、系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant