CN111813645A - 一种基于决策图的在线指标异常检测方法 - Google Patents

一种基于决策图的在线指标异常检测方法 Download PDF

Info

Publication number
CN111813645A
CN111813645A CN202010687223.5A CN202010687223A CN111813645A CN 111813645 A CN111813645 A CN 111813645A CN 202010687223 A CN202010687223 A CN 202010687223A CN 111813645 A CN111813645 A CN 111813645A
Authority
CN
China
Prior art keywords
node
kpi
layer
value
branch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010687223.5A
Other languages
English (en)
Other versions
CN111813645B (zh
Inventor
莫毓昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010687223.5A priority Critical patent/CN111813645B/zh
Publication of CN111813645A publication Critical patent/CN111813645A/zh
Application granted granted Critical
Publication of CN111813645B publication Critical patent/CN111813645B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于决策图的在线指标异常检测方法,包括:确定需要进行在线异常检测的m个KPI指标;每隔相同时间间隔,同时采样m个KPI指标I1,I2,...,Im的历史数据,形成对应的KPI历史数据集合;得到KPI样本序列集合;计算每个样本序列集合的均值和标准差;构造决策树模型;在线获取m个KPI指标I1,I2,...,Im的实时数据,得到异常判定分值;该异常判定分值反映了当前在线指标的异常程度。优点为:通过基于标准差的KPI指标区间划分,以及基于决策图的路径匹配,可一次性对所有KPI指标进行在线异常检测;通过KPI指标区间划分和决策图节点合并,明显提高了KPI指标在线异常检测的效率,具有检测实时性高的优点。

Description

一种基于决策图的在线指标异常检测方法
技术领域
本发明属于指标异常检测技术领域,具体涉及一种基于决策图的在线指标异常检测方法。
背景技术
随着云计算的快速发展,互联网企业通常选择将服务迁移到各种云平台上,如阿里云、华为云、亚马逊云、微软云等。由于云环境下系统架构与服务类型的种类与数量复杂且庞大,数据异常经常导致服务不稳定和不安全,从而为企业带来巨大的损失。例如,2017年亚马逊部分S3云存储服务异常中断,从而使得Airbnb、Slack、Spotify、雅虎网络邮箱等互联网服务受到明显影响。
为了保证云平台的稳定性、安全性与可靠性,运维人员从云环境的不同层面选择大量的KPI(Key Performance Indicator)指标,通过实时监控KPI指标形成历史数据集,通过KPI表征系统或服务的运行状态,并通过对KPI历史数据集分析进行异常检测,判断系统或服务的运行状态是否出现异常。
在云环境中良好的异常检测效果能够帮助系统监控模块准确的预估异常发生时期,如对服务器的基础性能参数,如CPU、内存利用率进行良好的异常检测,能够有效的降低云平台中虚拟机分配与再分配过程中的失败率。
然而,现有技术中,在对系统或服务的运行状态进行在线异常检测时,主要具有以下问题:
(1)目前,由于KPI指标在线异常检测效率有限,因此,当KPI指标数量较大时,无法通过穷举的方法逐个对所有KPI指标进行在线异常检测,而只能选择少量的KPI指标进行检测,因此,异常检测指标不全面,无法满足对所有KPI指标全面有效检测的需求;
(2)目前,对于某个KPI指标,仅能返回KPI指标是否异常的结果,是一种定性描述方式,无法实现定量描述KPI指标是否异常的效果,难以满足人们对KPI指标精细化描述的使用需求。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于决策图的在线指标异常检测方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于决策图的在线指标异常检测方法,包括以下步骤:
步骤1,确定需要进行在线异常检测的m个KPI指标,分别为I1,I2,...,Im,由此形成KPI指标集合为KPI={I1,I2,...,Im};
步骤2,每隔相同时间间隔,同时采样m个KPI指标I1,I2,...,Im的历史数据,形成对应的KPI历史数据集合;假设共进行t次采样,因此,第1次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I11,I21,...,Im1;第2次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I12,I22,...,Im2;依此类推,第t次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I1t,I2t,...,Imt;由此得到以下t个KPI历史数据集合:
KPI1={I11,I21,...,Im1}
KPI2={I12,I22,...,Im2}
......
KPIt={I1t,I2t,...,Imt}
其中:
KPI1代表第1次采样得到的KPI历史数据集合;
KPI2代表第2次采样得到的KPI历史数据集合;
依此类推
KPIt代表第t次采样得到的KPI历史数据集合;
步骤3,对t个KPI历史数据集合进行处理,对于每个KPI指标,按采样顺序,将其t个历史数据归入一个集合,由此共得到以下m个KPI样本序列集合:
D1={I11,I12,...,I1t}
D2={I21,I22,...,I2t}
......
Dm={Im1,Im2,...,Imt}
其中:
D1代表KPI指标I1的样本序列集合;
D2代表KPI指标I2的样本序列集合;
依此类推
Dm代表KPI指标Im的样本序列集合;
步骤4,计算每个样本序列集合的均值和标准差,具体为:
对样本序列集合D1中的t个历史数据分别求均值和标准差,均值为D1mean,标准差为D1sd
对样本序列集合D2中的t个历史数据分别求均值和标准差,均值为D2mean,标准差为D2sd
依此类推
对样本序列集合Dm中的t个历史数据分别求均值和标准差,均值为Dmmean,标准差为Dmsd
步骤5,构造决策树模型,具体为:
步骤5.1,决策树模型自上向下一共有m+1层,分别为第1层,第2层,…,第m+1层;
其中:
第1层一共有1个节点,第1层节点被赋值为KPI指标I1
第1层的节点具有五个子节点,由此组成第2层节点,因此,第2层一共有5个节点;其中,第2层每一个节点均被赋值为KPI指标I2
对于第2层每一个节点,均具有五个子节点,由此组成第3层节点,因此,第3层一共有25个节点;其中,第3层每一个节点均被赋值为KPI指标I3
依此类推
对于第m-1层的每一个节点,均具有五个子节点,由此组成第m层节点,因此,第m层一共有5m-1个节点;其中,第m层每一个节点均被赋值为KPI指标Im
对于第m层的每一个节点,均具有五个子节点,因此,第m+1层一共有5m个节点;对于第m+1层任意一个节点,为数值节点,表示为Vk,其中,k=1,2,...,5m,通过以下方式计算其数值:
1)对于第1层到第m层中的任意节点,表示为节点Gi,由于节点Gi均具有五个子节点,节点Gi与每一个子节点之间相连具有一条分支边,因此,节点Gi一共具有五条分支边,各条分支边通过以下方式赋值:
设节点Gi被赋值为KPI指标Ii;i=1,2,...,m;则KPI指标Ii对应的均值为Dimean,标准差为Disd
则:
第一条分支边的取值区间为L1=[Dimean-Disd,Dimean+Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L1的样本数量,为qi1;则qi1与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri1;Pri1为第一条分支边的概率值;
第二条分支边的取值区间为L2=[Dimean-2Disd,Dimean-Disd]∪[Dimean+Disd,Dimean+2Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L2的样本数量,为qi2;则qi2与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri2;Pri2为第二条分支边的概率值;
第三条分支边的取值区间为L3=[Dimean-3Disd,Dimean-2Disd]∪[Dimean+2Disd,Dimean+3Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L3的样本数量,为qi3;则qi3与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri3;Pri3为第三条分支边的概率值;
第四条分支边的取值区间为L4=[Dimean-4Disd,Dimean-3Disd]∪[Dimean+3Disd,Dimean+4Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L4的样本数量,为qi4;则qi4与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri4;Pri4为第四条分支边的概率值;
第五条分支边的取值区间为L5=[-∞,Dimean-4Disd]∪[Dimean+4Disd,+∞];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L5的样本数量,为qi5;则qi5与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri5;Pri5为第五条分支边的概率值;
2)因此,对于第1层到第m层中的任意节点,其均具有向下的五条分支边,每条分支边均具有取值区间和概率值;
对于第m+1层任意一个节点Vk,查找到节点Vk到第1层节点的路径通过的所有条分支边,共有m条分支边,将该m条分支边对应的概率值相乘,所得结果即为节点Vk被赋予的数值;
步骤5.2,对步骤5.1构造的决策树模型采用以下方式进行压缩处理,得到压缩处理后的决策图模型:
步骤5.2.1,对于第m+1层的5m个数值节点,设定小数点保留位数,然后,将5m个数值节点按设定的小数点保留位数进行四舍五入处理,得到处理后的5m个数值节点;
然后,对于处理后的5m个数值节点,将数值相同的数值节点合并为一个数值节点,由此得到第m+1层合并后的决策图模型;
其中,将数值相同的数值节点合并为一个数值节点,具体为:假设共有两个数值节点的数值相同,分别为:数值节点V1和数值节点V2;假设数值节点V1的父节点为节点GC1,数值节点V2的父节点为节点GC2;则将数值节点V2、数值节点V2和节点GC2之间相连的边删除,将节点GC2和数值节点V1相连,由此实现数值相同的数值节点合并的操作;
步骤5.2.2,对于第m+1层合并后的决策图模型,采用以下方法,按向上逐层方式进行节点合并,得到压缩处理后的决策图模型,并存储;
步骤5.2.2.1,在对第m+1层的数值节点进行数值节点合并的操作后,识别第m层中相同的节点,并采用节点合并规则,将相同的节点合并;
其中,对于任意两个相同的节点,节点合并规则为:
对于第m层的任意两个节点,假设分别为节点Gm1和节点Gm2,判断是否满足以下条件:
节点Gm1的第1个分支边,和节点Gm2的第1个分支边,指向第m+1层的同一个数值节点;节点Gm1的第2个分支边,和节点Gm2的第2个分支边,指向第m+1层的同一个数值节点;依此类推,节点Gm1的第5个分支边,和节点Gm2的第5个分支边,指向第m+1层的同一个数值节点;
如果满足,则节点Gm1和节点Gm2为相同的节点,将节点Gm2的五个分支边,以及节点Gm2与其父节点G(m-1)2之间相连的分支边均删除,将节点Gm2的父节点G(m-1)2和节点Gm1相连,由此实现节点Gm1和节点Gm2的合并操作;
步骤5.2.2.2,在对第m层的所有相同的节点进行合并操作后,识别第m-1层中相同的节点,并采用节点合并规则,将相同的节点进行节点合并;
步骤5.2.2.3,依此类推,向上逐层进行节点合并,直到对第2层进行相同节点合并操作,从而得到压缩处理后的决策图模型;
步骤5.3,因此,经过数值节点的合并和节点合并操作后,最终得到压缩处理后的决策图模型,并存储;
步骤6,在线获取m个KPI指标I1,I2,...,Im的实时数据,分别为I1',I2',...,Im';
在压缩处理后的决策图模型中,第1层节点I1具有若干个分支边,每个分支边具有取值区间和概率值;首先将实时数据I1'的数值与节点I1的各条分支边的取值区间进行匹配,将包含实时数据I1'的数值的分支边表示为分支边E1;分支边E1所连接的尾节点为第2层的节点I2(E1);
然后,将实时数据I2'的数值与节点I2(E1)的各条分支边的取值区间进行匹配,将包含实时数据I2'的数值的分支边表示为分支边E2;分支边E2所连接的尾节点为第3层的节点I3(E2);
依此类推
将实时数据Im'的数值与节点Im(Em-1)的各条分支边的取值区间进行匹配,将包含实时数据Im'的数值的分支边表示为分支边Em;分支边Em所连接的尾节点为第m+1层的数值节点Vm+1(Em);
数值节点Vm+1(Em)所对应的数值,即为I1',I2',...,Im'实时数据的异常判定分值;该异常判定分值反映了当前在线指标的异常程度。
优选的,步骤1中,KPI指标包括:
针对CPU的KPI指标,包括:CPU整体使用率、用户进程CPU使用率、内核进程CPU使用率、CPU的1分钟平均负载、CPU的5分钟平均负载和CPU的10分钟平均负载;
针对内存的KPI指标,包括:内存使用率、剩余可用内存空间大小、swap使用率和剩余swap空间大小;
针对IO的KPI指标,包括:设备IO读取速率、设备IO写入速率、设备平均IO队列长度、平均每次设备IO操作的等待时间和设备IO使用率;
针对温度的KPI指标,包括:CPU温度、CPU核心温度、硬盘温度和主板温度;
针对网络的KPI指标,包括:主动TCP连接的次数、被动TCP连接的次数、流入UDP流量、流出UDP流量、流入TCP流量、流出TCP流量和服务响应时延;
针对数据库的KPI指标,包括:当前数据库连接数量、数据库连接所需时间、单位时间执行查询总量和单位时间提交的修改总量。
优选的,步骤6中,该异常判定分值反映了当前在线指标的异常程度,具体是指:该异常判定分值越低,表明被检测设备的健康程度越低,异常的程度越大。
本发明提供的一种基于决策图的在线指标异常检测方法具有以下优点:
(1)对于需要进行在线异常检测的所有KPI指标,通过对所有KPI指标的历史数据进行分析,构建得到决策树模型;在对决策树模型进行压缩处理后,得到压缩处理后的决策图模型;然后,对于所有KPI指标的实时数据,只需要查找压缩处理后的决策图模型,就可以快速得到当前在线指标的异常程度。因此,可一次性对所有KPI指标进行在线异常检测,而不是逐个对每个KPI指标进行在线异常检测,本发明明显提高了KPI指标在线异常检测的效率,可以实现对数量众多的KPI指标的全面在线异常检测,具有检测实时性高的优点。
(2)已有的在线异常检测,均为定性检测结果,检测结果精度有限。而发明提供的基于决策图的在线指标异常检测方法,检测结果为异常判定分值,为一种定量检测结果,实现了在线指标异常检测的精细分析;通过异常判定分值,可以快速定位到将要发生异常的服务器,从而进行提前维护,避免服务器出现故障停机,大大提升服务器可用性。
附图说明
图1为本发明提供的一种基于决策图的在线指标异常检测方法的流程示意图;
图2为本发明提供的一种决策树模型的示意图;
图3为本发明第4层数值节点合并后的决策图模型;
图4为本发明第3层节点合并后的决策图模型。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明基于标准差为每个KPI指标构造5个比较区间,并通过决策节点压缩存储方式构造精简的决策图检测模型,能够完整的放入内存,并能够通过决策图路径匹配快速实现所有KPI指标快速分析,在保证实时性的基础上提升了异常检测的全面性。
参考图1,本发明提供一种基于决策图的在线指标异常检测方法,包括以下步骤:
步骤1,确定需要进行在线异常检测的m个KPI指标,分别为I1,I2,...,Im,由此形成KPI指标集合为KPI={I1,I2,...,Im};
KPI指标的具体类型,根据检测需求灵活设定,包括但不限于以下种类的KPI指标:
针对CPU的KPI指标,包括:CPU整体使用率、用户进程CPU使用率、内核进程CPU使用率、CPU的1分钟平均负载、CPU的5分钟平均负载和CPU的10分钟平均负载;
针对内存的KPI指标,包括:内存使用率、剩余可用内存空间大小、swap使用率和剩余swap空间大小;
针对IO的KPI指标,包括:设备IO读取速率、设备IO写入速率、设备平均IO队列长度、平均每次设备IO操作的等待时间和设备IO使用率;
针对温度的KPI指标,包括:CPU温度、CPU核心温度、硬盘温度和主板温度;
针对网络的KPI指标,包括:主动TCP连接的次数、被动TCP连接的次数、流入UDP流量、流出UDP流量、流入TCP流量、流出TCP流量和服务响应时延;
针对数据库的KPI指标,包括:当前数据库连接数量、数据库连接所需时间、单位时间执行查询总量和单位时间提交的修改总量。
步骤2,每隔相同时间间隔,同时采样m个KPI指标I1,I2,...,Im的历史数据,形成对应的KPI历史数据集合;假设共进行t次采样,因此,第1次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I11,I21,...,Im1;第2次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I12,I22,...,Im2;依此类推,第t次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I1t,I2t,...,Imt;由此得到以下t个KPI历史数据集合:
KPI1={I11,I21,...,Im1}
KPI2={I12,I22,...,Im2}
......
KPIt={I1t,I2t,...,Imt}
其中:
KPI1代表第1次采样得到的KPI历史数据集合;
KPI2代表第2次采样得到的KPI历史数据集合;
依此类推
KPIt代表第t次采样得到的KPI历史数据集合;
步骤3,对t个KPI历史数据集合进行处理,对于每个KPI指标,按采样顺序,将其t个历史数据归入一个集合,由此共得到以下m个KPI样本序列集合:
D1={I11,I12,...,I1t}
D2={I21,I22,...,I2t}
......
Dm={Im1,Im2,...,Imt}
其中:
D1代表KPI指标I1的样本序列集合;
D2代表KPI指标I2的样本序列集合;
依此类推
Dm代表KPI指标Im的样本序列集合;
具体的,随着云计算技术的普及,云基础设施的规模和复杂性在不断增长。对于这种大规模的系统,可靠性成为系统管理员管理更多服务器的主要问题。当前的数据中心管理上万的节点,虚拟机、容器以及应用服务更是数以万计。运维人员为了使数据中心能够满足不同模块的需求,需要了解不同模块的运行状态,因此运维人员利用云产品从各类系统框架的不同层面收集关键性的性能指标,形成KPI样本序列。
本发明所考虑的KPI指标为企业级的运维监控数据,数据通过Zabbix监控工具采集,可反映机器健康状况。
步骤4,计算每个样本序列集合的均值和标准差,具体为:
对样本序列集合D1中的t个历史数据分别求均值和标准差,均值为D1mean,标准差为D1sd
其中,均值是指t个历史数据相加,然后除以元素总数t。例如,以下面10个点的CPU使用率数据为例,分别为:14,31,16,19,26,14,14,14,11,13,其平均值为17.2。
标准差表示样本序列集合D1中的t个历史数据的离散程度;其在数学上定义为数据点与其平均数差的平方和的算术平均数的平方根。
对样本序列集合D2中的t个历史数据分别求均值和标准差,均值为D2mean,标准差为D2sd
依此类推
对样本序列集合Dm中的t个历史数据分别求均值和标准差,均值为Dmmean,标准差为Dmsd
步骤5,构造决策树模型,具体为:
步骤5.1,决策树模型自上向下一共有m+1层,分别为第1层,第2层,…,第m+1层;
其中:
第1层一共有1个节点,第1层节点被赋值为KPI指标I1
第1层的节点具有五个子节点,由此组成第2层节点,因此,第2层一共有5个节点;其中,第2层每一个节点均被赋值为KPI指标I2
对于第2层每一个节点,均具有五个子节点,由此组成第3层节点,因此,第3层一共有25个节点;其中,第3层每一个节点均被赋值为KPI指标I3
依此类推
对于第m-1层的每一个节点,均具有五个子节点,由此组成第m层节点,因此,第m层一共有5m-1个节点;其中,第m层每一个节点均被赋值为KPI指标Im
对于第m层的每一个节点,均具有五个子节点,因此,第m+1层一共有5m个节点;对于第m+1层任意一个节点,为数值节点,表示为Vk,其中,k=1,2,...,5m,通过以下方式计算其数值:
1)对于第1层到第m层中的任意节点,表示为节点Gi,由于节点Gi均具有五个子节点,节点Gi与每一个子节点之间相连具有一条分支边,因此,节点Gi一共具有五条分支边,各条分支边通过以下方式赋值:
设节点Gi被赋值为KPI指标Ii;i=1,2,...,m;则KPI指标Ii对应的均值为Dimean,标准差为Disd
则:
第一条分支边的取值区间为L1=[Dimean-Disd,Dimean+Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L1的样本数量,为qi1;则qi1与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri1;Pri1为第一条分支边的概率值;
第二条分支边的取值区间为L2=[Dimean-2Disd,Dimean-Disd]∪[Dimean+Disd,Dimean+2Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L2的样本数量,为qi2;则qi2与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri2;Pri2为第二条分支边的概率值;
第三条分支边的取值区间为L3=[Dimean-3Disd,Dimean-2Disd]∪[Dimean+2Disd,Dimean+3Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L3的样本数量,为qi3;则qi3与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri3;Pri3为第三条分支边的概率值;
第四条分支边的取值区间为L4=[Dimean-4Disd,Dimean-3Disd]∪[Dimean+3Disd,Dimean+4Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L4的样本数量,为qi4;则qi4与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri4;Pri4为第四条分支边的概率值;
第五条分支边的取值区间为L5=[-∞,Dimean-4Disd]∪[Dimean+4Disd,+∞];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L5的样本数量,为qi5;则qi5与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri5;Pri5为第五条分支边的概率值;
2)因此,对于第1层到第m层中的任意节点,其均具有向下的五条分支边,每条分支边均具有取值区间和概率值;
对于第m+1层任意一个节点Vk,查找到节点Vk到第1层节点的路径通过的所有条分支边,共有m条分支边,将该m条分支边对应的概率值相乘,所得结果即为节点Vk被赋予的数值;
为方便对决策树模型进行理解,以m=3,即一共有3个KPI指标为例,对决策树模型进行介绍:
如图2所示,当m=3时,决策树模型一共有四层:
第1层只有1个节点,被赋值为KPI指标I1
KPI指标I1向下具有五个分支边,分别为分支边P11、分支边P12、分支边P13、分支边P14和分支边P15;这五个分支边,各自具有对应的取值区间和概率值;每个分支边的尾节点均被赋值为KPI指标I2;因此,5个KPI指标I2构成第2层的五个节点;
因此,第2层一共有五个节点,均赋值为KPI指标I2;对于每个KPI指标I2,向下具有五个分支边,分别为分支边P21、分支边P22、分支边P23、分支边P24和分支边P25;这五个分支边,各自具有对应的取值区间和概率值;并且,第2层五个节点所具有的五个分支边的取值区间和概率值对应相等;即:第2层第1个节点的第1个分支边、第2层第2个节点的第1个分支边、第2层第3个节点的第1个分支边、第2层第4个节点的第1个分支边、第2层第5个节点的第1个分支边的取值区间和概率值相等;同样,各节点第2个分支边的取值区间和概率值相等;各节点第3个分支边的取值区间和概率值相等;依此类推,各节点第5个分支边的取值区间和概率值相等;
第2层每个节点的分支边的尾节点均被赋值为KPI指标I3;因此,25个KPI指标I3构成第3层的节点;附图中仅简化示意出10个KPI指标I3
对于每一个第3层的节点,向下具有五个分支边,分别为分支边P31、分支边P32、分支边P33、分支边P34和分支边P35;这五个分支边,各自具有对应的取值区间和概率值;并且,第3层各个节点所具有的五个分支边的取值区间和概率值对应相等;
对于第3层中某个节点I3,其五个分支边的尾节点依次表示为V1,V2,...,V5;每个尾节点为数值节点,以图2中示出的数值节点V1为例,通过以下方式计算数值节点V1的具体取值:
数值节点V1到第一层节点I1的路径,共经过三条分支边,分别为:分支边P11、分支边P21和分支边P31;因此,分支边P11的概率值*分支边P21的概率值*分支边P31的概率值,即等于数值节点V1的具体取值。
由此可计算出第四层所有数值节点的具体数值。至此构造形成决策树模型。
步骤5.2,对步骤5.1构造的决策树模型采用以下方式进行压缩处理,得到压缩处理后的决策图模型:
具体的,直接利用步骤5.1构造的决策树模型进行异常检测,存在的问题是:当KPI指标较多时,步骤5.1构造的决策树模型规模过于庞大,存储到内存中会占用大量的内存空间,从而使得在线异常检测速度变慢,无法达到实时性的需求。
因此,本发明从两个方面,对步骤5.1构造的决策树模型进行精简实现压缩存储。具体方式如下:
步骤5.2.1,对于第m+1层的5m个数值节点,设定小数点保留位数,然后,将5m个数值节点按设定的小数点保留位数进行四舍五入处理,得到处理后的5m个数值节点;
然后,对于处理后的5m个数值节点,将数值相同的数值节点合并为一个数值节点,由此得到第m+1层合并后的决策图模型;
具体的,因为数值节点中的数值是对m个浮点数相乘的结果,所以数值的精度很高,即科学计数法中小数点后面的位数很多。在异常检测中,通常只关注科学计数法中阶数和小数点后5位的数值。所以,设定小数点保留位数为5位,通过数值截断的方式,进行数值节点合并。
其中,将数值相同的数值节点合并为一个数值节点,具体为:假设共有两个数值节点的数值相同,分别为:数值节点V1和数值节点V2;假设数值节点V1的父节点为节点GC1,数值节点V2的父节点为节点GC2;则将数值节点V2、数值节点V2和节点GC2之间相连的边删除,将节点GC2和数值节点V1相连,由此实现数值相同的数值节点合并的操作;
例如:两个数值节点初始值为1.3567783546e-5和1.356776479575e-5。在决策树中两个节点的数值不相同。通过数值截断的方式,两个数值节点更新为1.35677e-5和1.35677e-5。此时这两个节点的数值是相同的。所以可以进行合并。
仍以图2为例,经过数值截断后,假设第三层第1个I3节点所连接的数值节点V1,与第三层第6个I3节点所连接的数值节点V1相等,则这两个数值节点V1进行合并,即:将第三层第6个I3节点所连接的数值节点V1、第三层第6个I3节点所连接的数值节点V1和第三层第6个I3节点之间相连的边删除,将第三层第6个I3节点和第三层第1个I3节点所连接的数值节点V1直接相连。
同理,在图2中,假如第三层第1个I3节点所连接的数值节点V2,与第三层第6个I3节点所连接的数值节点V2相等,则进行数值节点合并;假如第三层第1个I3节点所连接的数值节点V3,与第三层第6个I3节点所连接的数值节点V3相等,则进行数值节点合并;假如第三层第1个I3节点所连接的数值节点V4,与第三层第6个I3节点所连接的数值节点V4相等,则进行数值节点合并;假如第三层第1个I3节点所连接的数值节点V5,与第三层第6个I3节点所连接的数值节点V5相等,则进行数值节点合并;
在分别对五个数值节点进行合并后,得到第m+1层合并后的决策图模型如图3所示。
步骤5.2.2,对于第m+1层合并后的决策图模型,采用以下方法,按向上逐层方式进行节点合并,得到压缩处理后的决策图模型,并存储;
步骤5.2.2.1,在对第m+1层的数值节点进行数值节点合并的操作后,识别第m层中相同的节点,并采用节点合并规则,将相同的节点合并;
其中,对于任意两个相同的节点,节点合并规则为:
对于第m层的任意两个节点,假设分别为节点Gm1和节点Gm2,判断是否满足以下条件:
节点Gm1的第1个分支边,和节点Gm2的第1个分支边,指向第m+1层的同一个数值节点;节点Gm1的第2个分支边,和节点Gm2的第2个分支边,指向第m+1层的同一个数值节点;依此类推,节点Gm1的第5个分支边,和节点Gm2的第5个分支边,指向第m+1层的同一个数值节点;
如果满足,则节点Gm1和节点Gm2为相同的节点,将节点Gm2的五个分支边,以及节点Gm2与其父节点G(m-1)2之间相连的分支边均删除,将节点Gm2的父节点G(m-1)2和节点Gm1相连,由此实现节点Gm1和节点Gm2的合并操作;
因此,对于图2,当进行第m+1层合并后,得到图3所示决策图模型。对于图3,第三层第1个I3节点,与第三层第6个I3节点为相同的节点。因此,将第三层第1个I3节点和第三层第6个I3节点进行节点合并,得到图4所示的决策图模型。
步骤5.2.2.2,在对第m层的所有相同的节点进行合并操作后,识别第m-1层中相同的节点,并采用节点合并规则,将相同的节点进行节点合并;
步骤5.2.2.3,依此类推,向上逐层进行节点合并,直到对第2层进行相同节点合并操作,从而得到压缩处理后的决策图模型;
步骤5.3,因此,经过数值节点的合并和节点合并操作后,最终得到压缩处理后的决策图模型,并存储;
因此,通过逐层进行节点合并操作后,将决策树变成决策图,通过压缩决策树的节点数量,大大减少异常检测的计算量,加快异常检测速度,实现异常检测的实时性需求。
步骤6,在线获取m个KPI指标I1,I2,...,Im的实时数据,分别为I1',I2',...,Im';
实际应用中,通过Zabbix监控工具采集,在线获取当前服务器的健康状况指标数据。
在压缩处理后的决策图模型中,第1层节点I1具有若干个分支边,每个分支边具有取值区间和概率值;首先将实时数据I1'的数值与节点I1的各条分支边的取值区间进行匹配,将包含实时数据I1'的数值的分支边表示为分支边E1;分支边E1所连接的尾节点为第2层的节点I2(E1);
然后,将实时数据I2'的数值与节点I2(E1)的各条分支边的取值区间进行匹配,将包含实时数据I2'的数值的分支边表示为分支边E2;分支边E2所连接的尾节点为第3层的节点I3(E2);
依此类推
将实时数据Im'的数值与节点Im(Em-1)的各条分支边的取值区间进行匹配,将包含实时数据Im'的数值的分支边表示为分支边Em;分支边Em所连接的尾节点为第m+1层的数值节点Vm+1(Em);
数值节点Vm+1(Em)所对应的数值,即为I1',I2',...,Im'实时数据的异常判定分值;该异常判定分值反映了当前在线指标的异常程度。
具体的,该异常判定分值越低,表明被检测设备的健康程度越低,异常的程度越大。
仍以图2为例,实时数据分别为I1',I2',I3';
首先将实时数据I1'的数值与节点I1的五条分支边的取值区间进行匹配,假设包含实时数据I1'的数值的分支边为分支边P11;分支边P11的尾节点为第二层第1个节点I2
然后,将实时数据I2'的数值与第二层第1个节点I2的五条分支边的取值区间进行匹配,假设包含实时数据I2'的数值的分支边为分支边P21;分支边P21的尾节点为第三层第1个节点I3
然后,将实时数据I3'的数值与第三层第1个节点I3的五条分支边的取值区间进行匹配,假设包含实时数据I3'的数值的分支边为分支边P32;分支边P32的尾节点为第四层第2个数值节点V2
则数值节点V2的数值,就是实时数据I1',I2',I3'的异常判定分值。该异常判定分值是一个概率值,当概率值较高时,代表实时数据I1',I2',I3'的值是常见的,代表实时数据I1',I2',I3'不异常;否则,如果概率值较低时,代表实时数据I1',I2',I3'的值是稀少的,说明实时数据I1',I2',I3'的值是异常的。
本发明提供的一种基于决策图的在线指标异常检测方法,具有以下优点:
(1)对于需要进行在线异常检测的所有KPI指标,通过对所有KPI指标的历史数据进行分析,基于标准差的KPI指标区间划分构建得到决策树模型;在对决策树模型进行节点合并压缩处理后,得到压缩处理后的决策图模型;然后,对于所有KPI指标的实时数据,只需要查找压缩处理后的决策图模型,就可以快速得到当前在线指标的异常程度。因此,通过基于标准差的KI指标区间划分,以及基于决策图的路径匹配,可一次性对所有KPI指标进行在线异常检测,本发明通过KPI指标区间划分和决策图节点合并,明显提高了KPI指标在线异常检测的效率,可以实现对数量众多的KPI指标的全面在线异常检测,具有检测实时性高的优点。
(2)已有的在线异常检测,均为定性检测结果,检测结果精度有限。而发明提供的基于决策图的在线指标异常检测方法,检测结果为异常判定分值,为一种定量检测结果,实现了在线指标异常检测的精细分析;通过异常判定分值,可以快速定位到将要发生异常的服务器,从而进行提前维护,避免服务器出现故障停机,大大提升服务器可用性。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过与计算机程序指令相关的硬件来完成的,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(ROM:Read-Only Memory)或随机存储记忆体(RAM:RandomAccess Memory)等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (3)

1.一种基于决策图的在线指标异常检测方法,其特征在于,包括以下步骤:
步骤1,确定需要进行在线异常检测的m个KPI指标,分别为I1,I2,...,Im,由此形成KPI指标集合为KPI={I1,I2,...,Im};
步骤2,每隔相同时间间隔,同时采样m个KPI指标I1,I2,...,Im的历史数据,形成对应的KPI历史数据集合;假设共进行t次采样,因此,第1次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I11,I21,...,Im1;第2次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I12,I22,...,Im2;依此类推,第t次采样m个KPI指标I1,I2,...,Im,得到的历史数据对应为:I1t,I2t,...,Imt;由此得到以下t个KPI历史数据集合:
KPI1={I11,I21,...,Im1}
KPI2={I12,I22,...,Im2}
......
KPIt={I1t,I2t,...,Imt}
其中:
KPI1代表第1次采样得到的KPI历史数据集合;
KPI2代表第2次采样得到的KPI历史数据集合;
依此类推
KPIt代表第t次采样得到的KPI历史数据集合;
步骤3,对t个KPI历史数据集合进行处理,对于每个KPI指标,按采样顺序,将其t个历史数据归入一个集合,由此共得到以下m个KPI样本序列集合:
D1={I11,I12,...,I1t}
D2={I21,I22,...,I2t}
......
Dm={Im1,Im2,...,Imt}
其中:
D1代表KPI指标I1的样本序列集合;
D2代表KPI指标I2的样本序列集合;
依此类推
Dm代表KPI指标Im的样本序列集合;
步骤4,计算每个样本序列集合的均值和标准差,具体为:
对样本序列集合D1中的t个历史数据分别求均值和标准差,均值为D1mean,标准差为D1sd
对样本序列集合D2中的t个历史数据分别求均值和标准差,均值为D2mean,标准差为D2sd
依此类推
对样本序列集合Dm中的t个历史数据分别求均值和标准差,均值为Dmmean,标准差为Dmsd
步骤5,构造决策树模型,具体为:
步骤5.1,决策树模型自上向下一共有m+1层,分别为第1层,第2层,…,第m+1层;
其中:
第1层一共有1个节点,第1层节点被赋值为KPI指标I1
第1层的节点具有五个子节点,由此组成第2层节点,因此,第2层一共有5个节点;其中,第2层每一个节点均被赋值为KPI指标I2
对于第2层每一个节点,均具有五个子节点,由此组成第3层节点,因此,第3层一共有25个节点;其中,第3层每一个节点均被赋值为KPI指标I3
依此类推
对于第m-1层的每一个节点,均具有五个子节点,由此组成第m层节点,因此,第m层一共有5m-1个节点;其中,第m层每一个节点均被赋值为KPI指标Im
对于第m层的每一个节点,均具有五个子节点,因此,第m+1层一共有5m个节点;对于第m+1层任意一个节点,为数值节点,表示为Vk,其中,k=1,2,...,5m,通过以下方式计算其数值:
1)对于第1层到第m层中的任意节点,表示为节点Gi,由于节点Gi均具有五个子节点,节点Gi与每一个子节点之间相连具有一条分支边,因此,节点Gi一共具有五条分支边,各条分支边通过以下方式赋值:
设节点Gi被赋值为KPI指标Ii;i=1,2,...,m;则KPI指标Ii对应的均值为Dimean,标准差为Disd
则:
第一条分支边的取值区间为L1=[Dimean-Disd,Dimean+Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L1的样本数量,为qi1;则qi1与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri1;Pri1为第一条分支边的概率值;
第二条分支边的取值区间为L2=[Dimean-2Disd,Dimean-Disd]∪[Dimean+Disd,Dimean+2Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L2的样本数量,为qi2;则qi2与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri2;Pri2为第二条分支边的概率值;
第三条分支边的取值区间为L3=[Dimean-3Disd,Dimean-2Disd]∪[Dimean+2Disd,Dimean+3Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L3的样本数量,为qi3;则qi3与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri3;Pri3为第三条分支边的概率值;
第四条分支边的取值区间为L4=[Dimean-4Disd,Dimean-3Disd]∪[Dimean+3Disd,Dimean+4Disd];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L4的样本数量,为qi4;则qi4与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri4;Pri4为第四条分支边的概率值;
第五条分支边的取值区间为L5=[-∞,Dimean-4Disd]∪[Dimean+4Disd,+∞];统计KPI指标Ii的样本序列集合Di={Ii1,Ii2,...,Iit}中各历史样本落入区间L5的样本数量,为qi5;则qi5与样本序列集合Di={Ii1,Ii2,...,Iit}中总样本数量t的比值为Pri5;Pri5为第五条分支边的概率值;
2)因此,对于第1层到第m层中的任意节点,其均具有向下的五条分支边,每条分支边均具有取值区间和概率值;
对于第m+1层任意一个节点Vk,查找到节点Vk到第1层节点的路径通过的所有条分支边,共有m条分支边,将该m条分支边对应的概率值相乘,所得结果即为节点Vk被赋予的数值;
步骤5.2,对步骤5.1构造的决策树模型采用以下方式进行压缩处理,得到压缩处理后的决策图模型:
步骤5.2.1,对于第m+1层的5m个数值节点,设定小数点保留位数,然后,将5m个数值节点按设定的小数点保留位数进行四舍五入处理,得到处理后的5m个数值节点;
然后,对于处理后的5m个数值节点,将数值相同的数值节点合并为一个数值节点,由此得到第m+1层合并后的决策图模型;
其中,将数值相同的数值节点合并为一个数值节点,具体为:假设共有两个数值节点的数值相同,分别为:数值节点V1和数值节点V2;假设数值节点V1的父节点为节点GC1,数值节点V2的父节点为节点GC2;则将数值节点V2、数值节点V2和节点GC2之间相连的边删除,将节点GC2和数值节点V1相连,由此实现数值相同的数值节点合并的操作;
步骤5.2.2,对于第m+1层合并后的决策图模型,采用以下方法,按向上逐层方式进行节点合并,得到压缩处理后的决策图模型,并存储;
步骤5.2.2.1,在对第m+1层的数值节点进行数值节点合并的操作后,识别第m层中相同的节点,并采用节点合并规则,将相同的节点合并;
其中,对于任意两个相同的节点,节点合并规则为:
对于第m层的任意两个节点,假设分别为节点Gm1和节点Gm2,判断是否满足以下条件:
节点Gm1的第1个分支边,和节点Gm2的第1个分支边,指向第m+1层的同一个数值节点;节点Gm1的第2个分支边,和节点Gm2的第2个分支边,指向第m+1层的同一个数值节点;依此类推,节点Gm1的第5个分支边,和节点Gm2的第5个分支边,指向第m+1层的同一个数值节点;
如果满足,则节点Gm1和节点Gm2为相同的节点,将节点Gm2的五个分支边,以及节点Gm2与其父节点G(m-1)2之间相连的分支边均删除,将节点Gm2的父节点G(m-1)2和节点Gm1相连,由此实现节点Gm1和节点Gm2的合并操作;
步骤5.2.2.2,在对第m层的所有相同的节点进行合并操作后,识别第m-1层中相同的节点,并采用节点合并规则,将相同的节点进行节点合并;
步骤5.2.2.3,依此类推,向上逐层进行节点合并,直到对第2层进行相同节点合并操作,从而得到压缩处理后的决策图模型;
步骤5.3,因此,经过数值节点的合并和节点合并操作后,最终得到压缩处理后的决策图模型,并存储;
步骤6,在线获取m个KPI指标I1,I2,...,Im的实时数据,分别为I1,I2,...,Im
在压缩处理后的决策图模型中,第1层节点I1具有若干个分支边,每个分支边具有取值区间和概率值;首先将实时数据I1'的数值与节点I1的各条分支边的取值区间进行匹配,将包含实时数据I1'的数值的分支边表示为分支边E1;分支边E1所连接的尾节点为第2层的节点I2(E1);
然后,将实时数据I2'的数值与节点I2(E1)的各条分支边的取值区间进行匹配,将包含实时数据I2'的数值的分支边表示为分支边E2;分支边E2所连接的尾节点为第3层的节点I3(E2);
依此类推
将实时数据Im'的数值与节点Im(Em-1)的各条分支边的取值区间进行匹配,将包含实时数据Im'的数值的分支边表示为分支边Em;分支边Em所连接的尾节点为第m+1层的数值节点Vm+1(Em);
数值节点Vm+1(Em)所对应的数值,即为I1',I2',...,Im'实时数据的异常判定分值;该异常判定分值反映了当前在线指标的异常程度。
2.根据权利要求1所述的一种基于决策图的在线指标异常检测方法,其特征在于,步骤1中,KPI指标包括:
针对CPU的KPI指标,包括:CPU整体使用率、用户进程CPU使用率、内核进程CPU使用率、CPU的1分钟平均负载、CPU的5分钟平均负载和CPU的10分钟平均负载;
针对内存的KPI指标,包括:内存使用率、剩余可用内存空间大小、swap使用率和剩余swap空间大小;
针对IO的KPI指标,包括:设备IO读取速率、设备IO写入速率、设备平均IO队列长度、平均每次设备IO操作的等待时间和设备IO使用率;
针对温度的KPI指标,包括:CPU温度、CPU核心温度、硬盘温度和主板温度;
针对网络的KPI指标,包括:主动TCP连接的次数、被动TCP连接的次数、流入UDP流量、流出UDP流量、流入TCP流量、流出TCP流量和服务响应时延;
针对数据库的KPI指标,包括:当前数据库连接数量、数据库连接所需时间、单位时间执行查询总量和单位时间提交的修改总量。
3.根据权利要求1所述的一种基于决策图的在线指标异常检测方法,其特征在于,步骤6中,该异常判定分值反映了当前在线指标的异常程度,具体是指:该异常判定分值越低,表明被检测设备的健康程度越低,异常的程度越大。
CN202010687223.5A 2020-07-16 2020-07-16 一种基于决策图的在线指标异常检测方法 Active CN111813645B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010687223.5A CN111813645B (zh) 2020-07-16 2020-07-16 一种基于决策图的在线指标异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010687223.5A CN111813645B (zh) 2020-07-16 2020-07-16 一种基于决策图的在线指标异常检测方法

Publications (2)

Publication Number Publication Date
CN111813645A true CN111813645A (zh) 2020-10-23
CN111813645B CN111813645B (zh) 2022-04-12

Family

ID=72865265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010687223.5A Active CN111813645B (zh) 2020-07-16 2020-07-16 一种基于决策图的在线指标异常检测方法

Country Status (1)

Country Link
CN (1) CN111813645B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926872A (zh) * 2021-03-19 2021-06-08 深圳芯通互联科技有限公司 一种iso体系的系统管理方法
CN117213725A (zh) * 2023-09-12 2023-12-12 国能龙源环保有限公司 火电厂脱硫设备密封检测方法、系统、终端及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105242156A (zh) * 2015-11-18 2016-01-13 浙江师范大学 一种面向电力网络的性能可靠性评估方法
US20170361158A1 (en) * 2016-06-16 2017-12-21 International Business Machines Corporation Analyzing Team Game Play Interactions Using Gaze Data
CN111065106A (zh) * 2019-12-31 2020-04-24 重庆大学 移动通信网络中基于异常检测和核密度估计(kde)的指标突变小区检测方法
US20200177611A1 (en) * 2017-12-06 2020-06-04 Ribbon Communications Operating Company, Inc. Communications methods and apparatus for dynamic detection and/or mitigation of anomalies

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105242156A (zh) * 2015-11-18 2016-01-13 浙江师范大学 一种面向电力网络的性能可靠性评估方法
US20170361158A1 (en) * 2016-06-16 2017-12-21 International Business Machines Corporation Analyzing Team Game Play Interactions Using Gaze Data
US20200177611A1 (en) * 2017-12-06 2020-06-04 Ribbon Communications Operating Company, Inc. Communications methods and apparatus for dynamic detection and/or mitigation of anomalies
CN111065106A (zh) * 2019-12-31 2020-04-24 重庆大学 移动通信网络中基于异常检测和核密度估计(kde)的指标突变小区检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Y MO,L XING,F ZHONG,Z ZHAO: "Reliability Evaluation of Network Systems with Dependent Propagated Failures Using Decision Diagrams", 《IEEE TRANSACTIONS ON DEPENDABLE AND SECURE COMPUTING》 *
刘家军等: "基于ID3决策树算法接触网检修方案的研究", 《电气工程学报》 *
曾惟如等: "基于层级实时记忆算法的时间序列异常检测算法", 《电子学报》 *
莫毓昌等: "Efficient Fault Tree Analysis of Complex Fault Tolerant Multiple-Phased Systems", 《TSINGHUA SCIENCE AND TECHNOLOGY》 *
马超等: "大数据环境下离散制造车间异常事件发现方法", 《计算机应用与软件》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926872A (zh) * 2021-03-19 2021-06-08 深圳芯通互联科技有限公司 一种iso体系的系统管理方法
CN117213725A (zh) * 2023-09-12 2023-12-12 国能龙源环保有限公司 火电厂脱硫设备密封检测方法、系统、终端及存储介质
CN117213725B (zh) * 2023-09-12 2024-05-14 国能龙源环保有限公司 火电厂脱硫设备密封检测方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN111813645B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN104732276B (zh) 一种计量生产设施故障在线诊断方法
CN107943668A (zh) 计算机服务器集群日志监控方法及监控平台
US9917744B2 (en) Method and system for monitoring quality of data transmission in IDC network
CN111813645B (zh) 一种基于决策图的在线指标异常检测方法
CN109501834A (zh) 一种道岔转辙机故障预测方法及装置
CN113360358A (zh) 一种自适应计算it智能运维健康指数的方法及系统
CN107992415A (zh) 一种交易系统的故障定位和分析方法及相关服务器
CN106909492B (zh) 业务数据的追踪方法及装置
CN110309967A (zh) 客服会话评分等级的预测方法、系统、设备和存储介质
CN108133090A (zh) 一种可靠性敏感度驱动的高端复杂装备可靠性分析方法
CN105634781B (zh) 一种多故障数据解耦方法和装置
CN110413482B (zh) 检测方法和装置
CN116070963B (zh) 一种基于大数据的线上客户服务系统健康度检测方法
CN106156079A (zh) 日志数据处理方法和装置
CN112001622A (zh) 云虚拟网关的健康度评估方法、系统、设备和存储介质
CN113835947A (zh) 一种基于异常识别结果确定异常原因的方法和系统
CN111614504A (zh) 基于时间序列和故障树分析的电网调控数据中心业务特性故障定位方法及系统
CN115344627A (zh) 数据筛选方法、装置、电子设备及存储介质
CN114510405B (zh) 指标数据评估方法、装置、设备、存储介质及程序产品
CN115774648A (zh) 一种异常定位方法、装置、设备以及存储介质
CN115801589A (zh) 一种事件拓扑关系确定方法、装置、设备及存储介质
CN111654853B (zh) 一种基于用户信息的数据分析方法
CA3148075A1 (en) Real-time stream data processing method, device, computer apparatus, and storage medium
CN117880055B (zh) 基于传输层指标的网络故障诊断方法、装置、设备及介质
CN117743093B (zh) 一种调用链的数据质量评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant