CN112328425A - 一种基于机器学习的异常检测方法和系统 - Google Patents

一种基于机器学习的异常检测方法和系统 Download PDF

Info

Publication number
CN112328425A
CN112328425A CN202011408107.1A CN202011408107A CN112328425A CN 112328425 A CN112328425 A CN 112328425A CN 202011408107 A CN202011408107 A CN 202011408107A CN 112328425 A CN112328425 A CN 112328425A
Authority
CN
China
Prior art keywords
alarm
abnormity
abnormal
exception
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011408107.1A
Other languages
English (en)
Inventor
苌程
唐鹏森
王翱宇
才振功
丁轶群
陈雪儿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Harmonycloud Technology Co Ltd
Original Assignee
Hangzhou Harmonycloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Harmonycloud Technology Co Ltd filed Critical Hangzhou Harmonycloud Technology Co Ltd
Priority to CN202011408107.1A priority Critical patent/CN112328425A/zh
Publication of CN112328425A publication Critical patent/CN112328425A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种基于机器学习的异常检测方法和系统,所述方法包括:获取系统监控数据;基于至少两种机器学习方法分别构建异常检测模型;通过每个异常检测模型分别对监控数据进行检测,获取监控数据的异常情况;设置第一阈值;判断异常情况为异常的异常检测模型比例是否在第一阈值以上;若是,判定监控数据为最终异常。通过不同的机器学习方法构建多个异常检测模型,每个异常检测模型独立对监控数据进行处理,不同的机器学习方法检测原理和检测结果存在差异,当检测结果为异常的比例超过第一阈值时,为最终异常;避免了一种机器学习方法的误差,使判定更为准确,监控数据通过异常检测模型进行自动处理,利于降低误报率和漏报率。

Description

一种基于机器学习的异常检测方法和系统
技术领域
本发明涉及计算机技术领域,具体涉及一种基于机器学习的异常检测方法和系统。
背景技术
目前互联网的高速发展加速了各行各业企业的信息化转型,随着企业互联网业务的不断扩大,企业IT系统中诸如计算、存储、网络、服务、应用、数据等各类资源的数量也在与日俱增。与此同时,资源故障发生的频率也在增加,为保障企业业务持续稳定地运行,构建一套集中监控这些资源的企业运维体系变得越来越重要。
传统的运维方法主要通过设定固定阈值的方式进行资源关键性能指标的监控,但随着微服务、分布式等技术的兴起,面对监控数据量庞大、监控指标类别繁多的现代企业运维,传统的运维方式越来越难以适应新时代的需求,逐渐显现出许多弊端:
(1)阈值检测的方法需要运维人员根据经验来设置合理的指标阈值,存在主观因素,且只能对监控值进行简单检测,无法发现更复杂的异常情况,例如周性监控指标中不符合同期规律的异常波动,最终产生大量误报、漏报情况,准确率较低。当监控指标数量较多时,该检测方法需要投入大量人力对每个指标进行阈值配置,导致企业运维监控的成本增加。
(2)运维人员通过人工方式查看各项指标数据,需要耗费大量的人力,也易发生漏看指标数据的情况,难以进行大量数据的监控。
(3)系统每天都会产生大量的异常事件,而将真正需要关注的事件淹没,消耗运维人员精力的同时也容易造成严重的损失。此外,在大量事件处理的过程中,由于信息不同步、人员变更、运维资源紧缺等原因,难以合理安排运维人员的时间,时常会出现异常处理不及时的现象,导致运维效率低下。
发明内容
针对现有技术中存在的上述技术问题,本发明提供一种基于机器学习的异常检测方法和系统,通过机器学习的方式进行异常检测,利于降低误报率和漏报率。
本发明公开了一种基于机器学习的异常检测方法,所述方法包括:获取系统监控数据;基于至少两种机器学习方法分别构建异常检测模型;通过每个所述异常检测模型分别对所述监控数据进行检测,获取所述监控数据的异常情况,其中,所述异常情况包括正常和异常;设置第一阈值;判断所述异常情况为异常的异常检测模型比例是否在第一阈值以上;若是,判定所述监控数据为最终异常。
优选的,本发明的方法还包括预判定的方法:根据所述监控数据,设置第二阈值;将大于所述第二阈值的监控数据,判定为疑似异常;将所述疑似异常发送给所述异常检测模型进行异常检测。
优选的,本发明的方法还包括告警的方法:根据所述最终异常,生成告警信息。
优选的,本发明的方法还包括异常过滤的方法:设置关注指标;基于所述关注指标,筛选所述最终异常,获得第一异常。
优选的,本发明的方法还包括告警压缩的方法:设置压缩匹配规则;
基于所述压缩匹配规则,对所述第一异常进行匹配,并判断是否匹配成功;
若匹配成功,将所述第一异常标记为第二异常;
判断所述第二异常是否满足预设条件,所述预设条件为在一定时间之前,有同源或同因的第二异常生成告警;
若满足,将当前第二异常合并到所述告警中,其中,一个第二异常或第一异常仅可被合并到一个告警中;
若不满足,基于当前第二异常生成告警;
若匹配不成功,基于所述第一异常生成告警。
优选的,本发明的方法还包括告警推送的方法:将告警存入数据库中;根据所述告警推送告警通知。
优选的,将异常过滤规则、压缩匹配规则和告警推送规则保存在MySQL数据库中;根据异常过滤规则进行异常过滤,获得第一异常,所述异常过滤规则包括关注指标或不关注指标;根据压缩匹配规则,对第一异常进行告警压缩,获得告警;将所述第一异常、告警和告警推送规则中的告警对象保存在MongoDB数据库中;根据告警推送规则,将MongoDB数据库中的告警推送给告警对象。
优选的,所述机器学习方法包括以下算法的一种或多种的组合:局部异常因子算法、孤立森林算法、One-Class-SVM算法、COF算法、K-邻近算法和自编码器算法。
本发明还提供一种用于实现上述方法的系统,所述系统包括:数据采集模块和数据处理模块;所述数据采集模块用于采集系统监控数据;所述数据处理模块用于基于至少两种机器学习方法分别构建异常检测模型;通过异常检测模型对所述监控数据进行检测,获取所述监控数据的异常情况;设置第一阈值;判断所述异常情况为异常的异常检测模型比例是否在第一阈值以上;若是,判定所述监控数据为最终异常。
优选的,本发明的系统还包括事件展示模块,所述事件展示模块用于对所述最终异常及其相应的监控数据进行异常过滤和告警压缩后,将告警推送到前端,并进行展示;其中,异常过滤的方法包括:设置关注指标,基于所述关注指标,筛选所述最终异常,获得第一异常;其中,告警压缩的方法包括:设置压缩匹配规则;基于所述压缩匹配规则,对所述第一异常进行匹配,获得第二异常;判断一定时间之前,是否有同源或同因的第二异常生成告警;若是,将当前第二异常合并到所述告警中,其中,一个第二异常或第一异常仅可被合并到一个告警中;若否,基于当前第二异常生成告警。
与现有技术相比,本发明的有益效果为:通过不同的机器学习方法构建多个异常检测模型,所述异常检测模型独立对监控数据进行处理,其中不同的机器学习方法检测原理和检测结果存在差异,当检测结果为异常的异常检测模型比例超过第一阈值时,判定为最终异常;一方面避免了其中一种机器学习方法的误差,使最终异常的判断更为准确,另一方面,监控数据通过所述异常检测模型进行自动处理,利于降低误报率和漏报率。
附图说明
图1是本发明的异常检测方法流程图;
图2是生成告警的方法流程图;
图3是告警压缩的方法流程图;
图4是告警推送的方法流程图;
图5是本发明的系统逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
一种基于机器学习的异常检测方法,如图1所示,所述方法包括:
步骤101:获取系统监控数据。IT系统的监控指标包括基础设施资源、网络设备资源、主机系统资源、数据库和中间件多个维度,但不限于此。可以从Zabbix、Prometheus或Open-Falcon等监控系统中获取监控数据。
步骤102:基于至少两种机器学习方法分别构建异常检测模型。
所述机器学习方法包括以下算法中的一种或它们的组合:LOF算法、孤立森林算法、One-Class-SVM算法、COF算法、K-邻近(KNN)算法和自编码器(AutoEncoder)算法。其中,上述算法为现有技术,根据上述算法构建异常检测模型也为现有技术,本发明中不再赘述。例如,根据LOF算法,构建LOF异常检测模型,根据孤立森林算法构建孤立森林模型。
步骤104:通过每个所述异常检测模型对所述监控数据进行检测,获取所述监控数据的异常情况,其中所述异常情况包括正常和异常。
步骤105:设置第一阈值,判断所述异常情况为异常的异常检测模型比例是否在第一阈值以上。
若是,执行步骤106:判定所述监控数据为最终异常。在一个具体实施例,设置第一阈值为50%,即检测结果为异常的异常检测模型的数量在半数(50%)以上时,判断监控数据存在疑似异常,但不限于此,第一阈值的数值范围可以根据业务的需要,以及数据分析的判断进行调整。
若否,判定所述监控数据为正常数据。
本发明中,通过不同的机器学习方法构建多个异常检测模型,所述异常检测模型独立对监控数据进行处理,其中不同的机器学习方法检测原理和检测结果存在差异,当检测结果为异常的异常检测模型比例超过第一阈值时,判定为最终异常;一方面避免了其中一种机器学习方法的误差,使最终异常的判断更为准确,另一方面,监控数据通过所述异常检测模型进行自动处理,利于降低误报率和漏报率。
本发明还可以包括预判定的方法:
步骤103:根据所述监控数据,设置第二阈值;将大于所述第二阈值的监控数据,判定为疑似异常;将所述疑似异常发送给所述异常检测模型,进行异常检测。
通过预判定的方法,减少异常检测模型的检测数据,以节约计算资源。
本发明还提供生成告警的方法:
根据所述最终异常,生成告警信息。
一方面根据最终异常,生成告警信息,并发送给告警对象,即相关的负责人,利于对IT系统进行及时维护。
如图2所示,生成告警方法可以包括:
步骤201:异常过滤。
步骤202:告警压缩。通过告警压缩,以避免产生告警风暴。
步骤203:告警推送。
步骤201中,所述异常过滤的方法包括:
设置关注指标;
基于所述关注指标,筛选所述最终异常,获得第一异常。
检测监控数据中的维度多样,如计算能力、网络使用率、存储量、存储率、数据库写入量、IP地址、对象类型、告警对象、监控项、标签等,可以根据业务的需要,选择业务中涉及的主要指标作为关注指标,如云计算业务中,以计算能力、网络使用率作为关注指标,而对存储量等指标作为非关注指标,非关注指标的最终异常,可以不产生或不推送告警。通常,监控数据可以存储在数据库中,如MySQL或MongoDB。
但不限于此,如也可以通过关注指标,对监控数据进行筛选,通过异常检测模型对关注指标的监控数据或疑似异常进行检测。
如图3所示,步骤202中,告警压缩的方法包括:
步骤301:设置压缩匹配规则。压缩匹配规则用于筛选在一定时间内产生的,相同或相似的最终异常。
步骤302:基于所述压缩匹配规则,对所述第一异常进行匹配,并判断是否匹配成功。
其中,压缩匹配规则可以有多个,并且可以为所述压缩匹配规则设置优先级,根据优先级的顺序依次使用压缩匹配规则,对第一异常进行匹配,第一异常匹配到一个压缩匹配规则时,该第一异常不再被其余的压缩匹配规则所匹配,使一个第一异常仅被压缩到一个告警中。当第一异常没有匹配到相应的压缩匹配规则时,根据所述第一异常生成告警。
若匹配成功,执行步骤303:将所述第一异常作为第二异常,并执行步骤304。
步骤304:判断所述第二异常是否满足预设条件,所述预设条件为在一定时间之前,有同源或同因的第二异常生成告警。如10分钟分钟之前,是否基于同源或同因的第二异常生成告警。
若满足,执行步骤305:将当前第二异常合并到所述告警中,其中,一个第二异常或第一异常仅可被合并到一个告警中。其中,合并是指,将当前第二异常设置在所述告警的异常明细中。在已生成告警的情况下,在一定时间内,新产生的符合所述压缩匹配规则的第一异常合并到第二告警中,不再产生新的告警。应当指出的是,一个第一异常仅能计入一个告警中,即第一异常并入告警后,不再产生或并入其它告警。
若不满足,执行步骤306,基于当前第二异常生成告警。
例如10分钟内,相同内容的第一异常作为第二异常,并生成一条告警。再如5分钟内,同一维度(如计算能力)产生的第一异常作为第二异常,并生成一条告警。通过告警压缩,将多个相同或相似的告警合并为一条告警,避免在一个时间内产生大量相同或相似的告警信息,形成告警风暴。
若匹配不成功,执行步骤307,基于所述第一异常生成告警。
其中,压缩匹配规则可以根据业务需要进行设定。在一个具体实施例中,基于MongoDB中的配置进行告警压缩,MongoDB是一个基于分布式文件存储的数据库,性能是非常迅速,将热数据存储在物理内存中,使得热数据的读写变得十分快;以及基于Kafka消息系统进行告警推送,Kafka是一种高吞吐量的分布式发布订阅消息系统。
步骤203中,告警推送的方法包括:将告警存入数据库中;根据所述告警推送告警通知。
具体的,如图4所示,告警的方法包括:
步骤401:将异常过滤规则、压缩匹配规则和告警推送规则保存在MySQL数据库中。
步骤402:根据异常过滤规则进行异常过滤,获得第一异常,所述异常过滤规则包括关注指标或不关注指标。
步骤403:根据压缩匹配规则,对第一异常进行告警压缩,获得告警。
步骤404:将所述第一异常、告警和告警推送规则中的告警对象保存在MongoDB数据库中。
步骤405:根据告警推送规则,将MongoDB数据库中告警推送给告警对象。可以基于Kafka消息系统进行推送,推送的方式可以包括钉钉、微信、邮件、短信或系统通知。
本发明还可以包括对监控数据进行预处理的方法:将监控数据进行标准化处理,转换为标准格式,并对监控数据进行清洗,去除重复数据。
本发明还提供一种用于实现上述异常检测方法的系统,如图5所示,所述系统包括:数据采集模块1和数据处理模块2;
数据采集模块1用于获取系统监控数据;
数据处理模块2用于基于至少两种机器学习方法分别构建异常检测模型;并通过异常检测模型对所述监控数据进行检测,获取所述监控数据的异常情况;设置第一阈值,判断所述异常情况为异常的异常检测模型比例是否在第一阈值以上;若是,判定所述监控数据为最终异常。
本发明的系统,还可以包括事件展示模块3,
事件展示模块3用于对所述最终异常及其相应的监控数据进行异常过滤和告警压缩后,将告警推送到前端,并进行展示;
其中,异常过滤的方法包括:设置关注指标,基于所述关注指标,筛选所述最终异常,获得第一异常;
其中,告警压缩的方法包括:设置压缩匹配规则;
基于所述压缩匹配规则,对所述第一异常进行匹配,并判断是否匹配成功;
若匹配成功,将所述第一异常作为第二异常;
判断所述第二异常是否满足预设条件,所述预设条件为在一定时间之前,有同源或同因的第二异常生成告警;
若满足,将当前第二异常合并到所述告警中,其中,一个第二异常或第一异常仅可被合并到一个告警中;
若不满足,基于当前第二异常生成告警;
若匹配不成功,基于所述第一异常生成告警。
LOF算法是指局部异常因子算法(Local Outlier Factor),是一个典型的基于距离的异常检测算法,通过计算局部可达密度和局部离群因子来反映一个样本的异常程度,一个样本点的局部可达密度越大,这个点就越有可能是异常点。
检测点的局部可达密度高于其邻域点局部可达密度,判断检测点为密集点;检测点的局部可达密度小于其邻域点局部可达密度,检测点可能为异常点。
孤立森林算法(IsolationForest)是异常检测中应用广泛的一种无监督学习算法。一个孤立森林(iForest)由多个孤立树(iTree)构成,其中孤立树是一种树,这种的特点树中每非叶子点都拥两个子点。通过递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,异常点通常具有较短的路径。正常点需要更多次的分割才能被孤立,而异常点需要较少的分割次数就能被孤立。
One-Class-SVM算法是一种无监督学习的方法,寻找一个超平面将样本中的正例圈出来,预测就是用这个超平面做决策,在圈内的样本就认为是正样本,在圈外的样本认为是异常样本。
COF算法是指基于连接性的异常因子(connectivity-based outilier factor)算法,与LOF中计算欧式距离不同的是,COF的局部密度是根据最短路径方法求出的,也叫做链式距离。
kNN算法,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,一般使用欧氏距离或曼哈顿距离。
AutoEncoder算法是先用正常的数据集训练一个Auto Encoder模型,用训练出的Auto Encoder模型计算异常数据的重建误差,重建误差大于某个阀值α,则为异常,否则为正常。
在一个具体例中,异常检测方法包括:
从Zabbix系统中获取监控数据;
根据用户设置的指标,对监控数据进行筛选和预处理后,转换为规范化数据,指标可以包括CPU使用率、内存使用率、数据库读取次数和访问IP等;
根据所述指标,分别基于LOF算法、孤立森林算法及One-Class-SVM(OCS)算法训练异常检测模型,得到LOF模型、孤立森林模型和OCS模型;
根据历史监控数据,设置第二阈值,监控数据中的指标大于第二阈值时,判定为疑似异常数据,如以CPU使用率大于50%作为第二阈值;
分别通过LOF模型、孤立森林模型和OCS模型对疑似异常数据进行检测;
设置第一阈值为50%;
LOF模型、孤立森林模型和OCS模型独立对疑似异常数据进行检测,检测结果为异常的模型比例在50%以上时,判定疑似异常数据为最终异常;
根据用户关注的指标,如数据库读取次数作为关注指标,对最终异常进行过滤得到第一异常,基于压缩匹配规则对第一异常进行匹配得到第二异常,如将10分钟内同一指标的第一异常作为第二异常,生成告警信息;同时将该10分钟内后续生成的第二异常合并进该告警信息中;
最终异常存储到数据库中,用于查看或展示,同时将告警信息通过Kafka消息系统推送给系统负责人或告警对象。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习的异常检测方法,其特征在于,所述方法包括:
获取系统监控数据;
基于至少两种机器学习方法分别构建异常检测模型;
通过每个所述异常检测模型分别对所述监控数据进行检测,获取所述监控数据的异常情况,其中,所述异常情况包括正常和异常;
设置第一阈值;
判断所述异常情况为异常的异常检测模型比例是否在第一阈值以上;
若是,判定所述监控数据为最终异常。
2.根据权利要求1所述的异常检测方法,其特征在于,还包括预判定的方法:
根据所述监控数据,设置第二阈值;
将大于所述第二阈值的监控数据,判定为疑似异常;
将所述疑似异常发送给所述异常检测模型进行异常检测。
3.根据权利要求1所述的异常检测方法,其特征在于,还包括告警的方法:
根据所述最终异常,生成告警信息。
4.根据权利要求3所述的异常检测方法,其特征在于,还包括异常过滤的方法:
设置关注指标;
基于所述关注指标,筛选所述最终异常,获得第一异常。
5.根据权利要求4所述的异常检测方法,其特征在于,还包括告警压缩的方法:
设置压缩匹配规则;
基于所述压缩匹配规则,对所述第一异常进行匹配,并判断是否匹配成功;
若匹配成功,将所述第一异常作为第二异常;
判断所述第二异常是否满足预设条件,所述预设条件为在一定时间之前,有同源或同因的第二异常生成告警;
若满足,将当前第二异常合并到所述告警中,其中,一个第二异常或第一异常仅可被合并到一个告警中;
若不满足,基于当前第二异常生成告警;
若匹配不成功,基于所述第一异常生成告警。
6.根据权利要求5所述的异常检测方法,其特征在于,还包括告警推送的方法:
将告警存入数据库中;
根据所述告警推送告警通知。
7.根据权利要求6所述的异常检测方法,其特征在于,
将异常过滤规则、压缩匹配规则和告警推送规则保存在MySQL数据库中;
根据异常过滤规则进行异常过滤,获得第一异常,所述异常过滤规则包括关注指标或不关注指标;
根据压缩匹配规则,对第一异常进行告警压缩,获得告警;
将所述第一异常、告警和告警推送规则中的告警对象保存在MongoDB数据库中;
根据告警推送规则,将MongoDB数据库中的告警推送给告警对象。
8.根据权利要求1所述的异常检测方法,其特征在于,所述机器学习方法包括以下算法的一种或多种的组合:局部异常因子算法、孤立森林算法、One-Class-SVM算法、COF算法、K-邻近算法和自编码器算法。
9.一种用于实现权利要求1-8任一项所述异常检测方法的系统,其特征在于,所述系统包括:数据采集模块和数据处理模块;
所述数据采集模块用于采集系统监控数据;
所述数据处理模块用于基于至少两种机器学习方法分别构建异常检测模型;通过异常检测模型对所述监控数据进行检测,获取所述监控数据的异常情况;设置第一阈值;判断所述异常情况为异常的异常检测模型比例是否在第一阈值以上;若是,判定所述监控数据为最终异常。
10.根据权利要求9所述的系统,其特征在于,还包括事件展示模块,
所述事件展示模块用于对所述最终异常及其相应的监控数据进行异常过滤和告警压缩后,将告警推送到前端,并进行展示;
其中,异常过滤的方法包括:设置关注指标,基于所述关注指标,筛选所述最终异常,获得第一异常;
其中,告警压缩的方法包括:
设置压缩匹配规则;
基于所述压缩匹配规则,对所述第一异常进行匹配,并判断是否匹配成功;
若匹配成功,将所述第一异常作为第二异常;
判断所述第二异常是否满足预设条件,所述预设条件为在一定时间之前,有同源或同因的第二异常生成告警;
若满足,将当前第二异常合并到所述告警中,其中,一个第二异常或第一异常仅可被合并到一个告警中;
若不满足,基于当前第二异常生成告警;
若匹配不成功,基于所述第一异常生成告警。
CN202011408107.1A 2020-12-04 2020-12-04 一种基于机器学习的异常检测方法和系统 Pending CN112328425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011408107.1A CN112328425A (zh) 2020-12-04 2020-12-04 一种基于机器学习的异常检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011408107.1A CN112328425A (zh) 2020-12-04 2020-12-04 一种基于机器学习的异常检测方法和系统

Publications (1)

Publication Number Publication Date
CN112328425A true CN112328425A (zh) 2021-02-05

Family

ID=74301594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011408107.1A Pending CN112328425A (zh) 2020-12-04 2020-12-04 一种基于机器学习的异常检测方法和系统

Country Status (1)

Country Link
CN (1) CN112328425A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法
CN113191432A (zh) * 2021-05-06 2021-07-30 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN113411217A (zh) * 2021-06-21 2021-09-17 广州迷听科技有限公司 一种通话系统监控告警的方法及装置
WO2022196666A1 (ja) * 2021-03-16 2022-09-22 パナソニックIpマネジメント株式会社 情報処理装置及び情報処理方法
CN115203214A (zh) * 2022-09-16 2022-10-18 杭州谐云科技有限公司 一种报表数据的更新方法和系统
CN117391675A (zh) * 2023-11-16 2024-01-12 北京万联世纪科技有限公司 一种数据中心基础设施运维管理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109656793A (zh) * 2018-11-22 2019-04-19 安徽继远软件有限公司 一种基于多源异构数据融合的信息系统性能立体监测方法
CN109739904A (zh) * 2018-12-30 2019-05-10 北京城市网邻信息技术有限公司 一种时间序列的标记方法、装置、设备和存储介质
CN109936470A (zh) * 2017-12-18 2019-06-25 中国电子科技集团公司第十五研究所 一种异常检测方法
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109936470A (zh) * 2017-12-18 2019-06-25 中国电子科技集团公司第十五研究所 一种异常检测方法
CN109032829A (zh) * 2018-07-23 2018-12-18 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机设备及存储介质
CN109656793A (zh) * 2018-11-22 2019-04-19 安徽继远软件有限公司 一种基于多源异构数据融合的信息系统性能立体监测方法
CN109739904A (zh) * 2018-12-30 2019-05-10 北京城市网邻信息技术有限公司 一种时间序列的标记方法、装置、设备和存储介质
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837078A (zh) * 2021-03-03 2021-05-25 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法
CN112837078B (zh) * 2021-03-03 2023-11-03 万商云集(成都)科技股份有限公司 一种基于集群的用户异常行为检测方法
WO2022196666A1 (ja) * 2021-03-16 2022-09-22 パナソニックIpマネジメント株式会社 情報処理装置及び情報処理方法
CN113191432A (zh) * 2021-05-06 2021-07-30 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN113191432B (zh) * 2021-05-06 2023-07-07 中国联合网络通信集团有限公司 基于离群因子的虚拟机集群的异常检测方法、设备及介质
CN113411217A (zh) * 2021-06-21 2021-09-17 广州迷听科技有限公司 一种通话系统监控告警的方法及装置
CN115203214A (zh) * 2022-09-16 2022-10-18 杭州谐云科技有限公司 一种报表数据的更新方法和系统
CN115203214B (zh) * 2022-09-16 2023-01-03 杭州谐云科技有限公司 一种报表数据的更新方法和系统
CN117391675A (zh) * 2023-11-16 2024-01-12 北京万联世纪科技有限公司 一种数据中心基础设施运维管理方法
CN117391675B (zh) * 2023-11-16 2024-05-14 北京万联世纪科技有限公司 一种数据中心基础设施运维管理方法

Similar Documents

Publication Publication Date Title
CN112328425A (zh) 一种基于机器学习的异常检测方法和系统
CN111984499B (zh) 一种大数据集群的故障检测方法和装置
CN111475804B (zh) 一种告警预测方法及系统
CN108446184B (zh) 分析故障根原因的方法和系统
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN103513983B (zh) 用于预测性警报阈值确定工具的方法和系统
CN110851321A (zh) 一种业务告警方法、设备及存储介质
CN111949480B (zh) 一种基于组件感知的日志异常检测方法
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN113297042B (zh) 一种告警消息的处理方法、装置及设备
CN112769605A (zh) 一种异构多云的运维管理方法及混合云平台
CN113254255A (zh) 一种云平台日志的分析方法、系统、设备及介质
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN115514627A (zh) 一种故障根因定位方法、装置、电子设备及可读存储介质
CN111581056B (zh) 基于人工智能的软件工程数据库维护与预警系统
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN115865649A (zh) 一种智能运维管理控制方法、系统和存储介质
CN111258798A (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
CN115561546A (zh) 电力系统异常检测报警系统
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN117009181A (zh) 异常日志的处理方法、存储介质与设备
CN116795631A (zh) 业务系统监控告警方法、装置、设备和介质
CN108170825B (zh) 基于云平台的分布式能源数据监控清洗方法
CN115016976B (zh) 一种根因定位方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination