CN112187555B - 一种基于机器学习的实时kpi数据异常检测方法及装置 - Google Patents

一种基于机器学习的实时kpi数据异常检测方法及装置 Download PDF

Info

Publication number
CN112187555B
CN112187555B CN202011378297.7A CN202011378297A CN112187555B CN 112187555 B CN112187555 B CN 112187555B CN 202011378297 A CN202011378297 A CN 202011378297A CN 112187555 B CN112187555 B CN 112187555B
Authority
CN
China
Prior art keywords
data
kpi
detection model
abnormal
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011378297.7A
Other languages
English (en)
Other versions
CN112187555A (zh
Inventor
韩丹
东虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing mengpa Xinchuang Technology Co., Ltd
Shanghai mengpa Intelligent Technology Co.,Ltd.
Original Assignee
Beijing Mengpa Xinchuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mengpa Xinchuang Technology Co ltd filed Critical Beijing Mengpa Xinchuang Technology Co ltd
Priority to CN202011378297.7A priority Critical patent/CN112187555B/zh
Publication of CN112187555A publication Critical patent/CN112187555A/zh
Application granted granted Critical
Publication of CN112187555B publication Critical patent/CN112187555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明提出了一种基于机器学习的实时KPI数据异常检测方法及装置,其包括以下步骤:实时获取KPI数据;将所述KPI数据代入多个无监督模型进行筛选;将经过所有无监督模型筛选后的筛选结果为疑似异常的数据点置入第一数据集合;对所述第一数据集合的数据点代入第一检测模型判断;输出判断结果。本发明克服企业传统运维方式中人为设置大量阈值、需要用户高度参与的弊端,并且可以实现从海量的KPI数据中及时发现异常,帮助人工完成快速的异常筛查,提高检测系统的应急响应能力。

Description

一种基于机器学习的实时KPI数据异常检测方法及装置
技术领域
本发明涉及智能运维技术领域,尤其涉及一种基于机器学习的实时KPI数据异常检测方法及装置。
背景技术
伴随着互联网、移动互联网的发展,企业信息技术基础设施建设规模的不断扩大,对于如何保障线上产品的各个服务和系统的稳定、安全,以及如何高效地诊断问题和定位问题等将成为企业所面临的核心问题,而通过传统的技术架构和运维方式已经无法有效地对现有面临的问题进行解决。为了弥补传统的技术架构和运维方式的不足,开始提出AIOps(Artificial Intelligence for IT Operations,智能运维)的概念,其是指利用大数据分析、机器学习等人工智能技术来自动化管理运维事务。而基于KPI(Key PerformanceIndicators,关键性能指标)的异常检测是互联网智能运维的一个核心技术,对故障的快速发现和定位有着重要意义。对于实时监控的KPI数据中的异常点往往是通过传统的阈值设置来进行检测,但这种检测需要依赖运维人员丰富的经验进行支持,但是随着时间的推移,实际中的系统异常或软件Bug可能会非常多,而通过人工设置阈值进行检测,几乎是不可能完成的。因此,需要一种智能运维解决方法,可以及时发现KPI数据中的异常,并进行相应的异常处理,尽可能地减少故障所带来的损失,以提升用户满意度,以及提升企业信息化管理水平。
发明内容
为了克服企业传统运维方式中人为设置大量阈值、需要用户高度参与的弊端,本发明提供了一种基于机器学习的实时KPI数据异常检测方法,从而实现从海量的KPI数据中及时发现异常,帮助人工完成快速的异常筛查,提高检测系统的应急响应能力。
第一方面,本发明提出了一种基于机器学习的实时KPI数据异常检测方法,其包括以下步骤:
实时获取KPI数据;
将所述KPI数据代入多个无监督模型进行筛选;
将经过所有无监督模型筛选后的筛选结果为疑似异常的数据点置入第一数据集合;
对所述第一数据集合的数据点代入第一检测模型判断;
输出判断结果;
其中,所述第一检测模型是使用来自数据中心运维系统的历史KPI数据进行训练得到,其包括:
获取数据中心运维系统监控的历史KPI数据;
对所述历史KPI数据进行预处理;
对所述预处理后的KPI数据采用所述多个无监督模型进行筛选;
将筛选结果为正常的数据点置入第二数据集合;
基于第二数据集合构建第一检测模型。
其中,所述多个无监督模型包括:标准偏差模型、箱线图法模型、指数平滑法模型和差分自回归移动平均模型。
其中,所述将所有无监督模型诊断结果为异常的数据点置入第一数据集合包括:将所述多个无监督模型中任意一个无监督模型代入所述KPI数据后结果为异常的数据点作为疑似异常的数据点,并将疑似异常的数据点都置入第一数据集合。
其中,所述预处理包括:
将所述历史KPI数据进行结构化处理;
对结构化处理后的数据进行过滤、填充和去噪。
其中,所述对所述预处理后的KPI数据采用所述多个无监督模型进行筛选,包括:
根据多个无监督模型对预处理后的KPI数据进行异常检测,当所有无监督模型均判断当前数据点为正常点时,标记当前数据点为正常,否则标记为疑似异常。
其中,所述对所述预处理后的KPI数据采用所述多个无监督模型进行筛选,还包括:
将筛选结果为异常的数据点置入第三数据集合。
其中,所述第一检测模型是使用来自数据中心运维系统的历史KPI数据进行训练得到,还包括:
基于第三数据集合对所述第一检测模型进行评估,以调整模型中的参数。
其中,所述基于第三数据集合对所述第一检测模型进行评估包括:
将第三数据集合的数据点代入所述第一检测模型得到判断结果;
根据所述第一检测模型判断结果和第三数据集合的数据点的实际结果得到所述第一检测模型的精度、召回率和F值,以完成对第一检测模型的评估,所述精度、召回率和F值的公式分别如下所示:
Figure 649424DEST_PATH_IMAGE001
Figure 51587DEST_PATH_IMAGE002
Figure 189307DEST_PATH_IMAGE003
式中,precision为精度,recall为召回率,F为precision和recall的加权调和平均,TY为第一检测模型判断结果和实际结果均为异常的数据点的数量,FY为实际结果为正常但第一检测模型判断结果为异常的数据点的数量,FN为实际结果为异常但第一检测模型判断结果为正常的数据点的数量。
第二方面,本发明还提出了一种基于机器学习的实时KPI数据异常检测装置,其包括:
数据采集模块,其用于实时采集预设事件内的KPI数据;
数据筛选模块,其用于将所述KPI数据代入多个无监督模型进行筛选;
数据汇总模块,其用于将经过所有无监督模型筛选后的筛选结果为疑似异常的数据点置入第一数据集合;
数据判断模块,其用于对所述第一数据集合的数据点代入第一检测模型判断;
数据输出模块,其用于输出判断结果。
其中所述装置还包括:
数据获取模块,其用于获取数据中心运维系统监控的历史KPI数据;
数据预处理模块,其用于对所述历史KPI数据进行预处理;
第二数据筛选模块,其用于对所述预处理后的KPI数据采用所述多个无监督模型进行筛选,并将筛选结果为正常的数据点置入第二数据集合;
模型构建模块,其用于基于第二数据集合构建第一检测模型。
本发明根据互联网企业传统运维方式中存在过分依赖人工经验、不够灵活的缺点,提出一种基于机器学习的实时KPI数据异常检测方法,不需要设置固定阈值,同时还具有异常检测算法精度较高的特点,从而使其具有较好的通用性和实用性。本发明减轻了运维人员的工作量,可以实现高度自动化,从而提升IT部门的运维管理能力,对于保障大型互联网的服务质量具有重要意义。
附图说明
图1是示出根据本发明实施例的一种基于机器学习的KPI指标的实时数据异常检测方法的流程示意图;
图2是示出根据本发明实施例的一种基于机器学习的KPI指标的实时数据异常检测方法的第一检测模型建立的流程示意图;
图3是示出根据本发明某一实施例的基于机器学习的KPI指标的数据异常检测方法的流程示意图;
图4是示出根据本发明某一实施例的训练得到第一检测模型的流程示意图;
图5是示出根据本发明实施例的一种基于机器学习的KPI指标的实时数据异常检测装置的系统结构框图;
图6是示出根据本发明某一实施例的实时数据异常检测装置的结构框图;以及
图7是示出根据本发明实施例的一种电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面结合具体实施例,进一步阐述本发明。应理解,该实例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
本发明涉及一种基于KPI数据进行异常检测的方法及其装置,其主要应用于互联网企业运维管理系统及时检测异常的场景中。其基本思想是:通过对获取的KPI数据进行预处理,通过异常检测模型对其进行分析和诊断,实现在大规模KPI数据下的实时监控。
实施例一
图1是示出根据本发明实施例的一种基于机器学习的KPI指标的实时数据异常检测方法的流程示意图,参见图1所示,所述方法可以包括以下步骤:
在线实时监控获取KPI数据;
将所述KPI数据代入多个无监督模型进行筛选;
将经过所有无监督模型筛选后的筛选结果为疑似异常的数据点置入第一数据集合;
对所述第一数据集合的数据点代入第一检测模型判断,将所有无监督模型筛选结果为正常,以及第一检测模型判断结果为正常的KPI数据存入历史数据库;
输出判断异常结果。
实施例二
图2是示出根据本发明实施例的一种基于机器学习的KPI指标的实时数据异常检测方法的第一检测模型建立的流程示意图,在实施例一的基础上,本实施例还具有以下内容:
参见图2所示,所述方法中第一检测模型的建立可以包括以下步骤:
获取数据中心运维系统中的历史监控KPI数据;
对获取的KPI数据进行质量分析和预处理;
根据多个无监督模型对预处理后的KPI数据进行异常检测,当所有无监督模型均判断当前数据点为正常点时,标记当前数据点为正常,否则标记为疑似异常;
建立训练模型,将上述步骤的历史KPI数据中识别出的标记为正常的样本数据点进行构建独立森林异常检测模型(第一检测模型);
通过上述步骤的历史KPI数据中识别出的标记为疑似异常的样本数据点进行模型(独立森林异常检测模型)的评估;
输出最终的模型,并将其部署在线上模块对实时采集的KPI数据进行异常检测;
将散列在不同时间维度的异常信息进行展示,并且对于不同字段的信息采用不同颜色展示进行区分,以便于人工的观察和分析。
实施例三
图3是示出根据本发明某一实施例的基于机器学习的KPI指标的数据异常检测方法的流程示意图,参见图3所示,在实施例二的基础上,本实施例还包括以下内容:
KPI数据的获取,按照时间顺序,集中收集获取系统监控的KPI数据。
对KPI数据的质量分析和预处理属于数据的探索和准备阶段:探索收集到的KPI数据,更好地了解其数据特征,进行质量检查;然后对其进行预处理,即将其转换为结构化数据,过滤掉脏数据,填充缺失值和去除KPI数据中的噪声。
异常检测模型训练,根据多个无监督模型在上述预处理好的数据中筛选出正常数据点,用这些历史数据中的正常数据点来构建独立森林异常检测模型。
异常检测模型评估,对多个无监督模型判断出的疑似异常数据样本进行人为的标注,以使得确定该疑似异常数据样本的实际结果为正常或异常,然后利用训练的独立森林异常检测模型对疑似异常数据样本进行异常检测并得到对应的检测结果,最后根据精度,召回率,F值等来评判模型的效果,并调整独立森林异常检测模型的参数,以使其达到更好的检测效果。
模型上线,将通过验证或调整的最终评估模型(独立森林异常检测模型)部署在线上。在线上通过多个无监督模型对实时采集的KPI数据先进行诊断并标记出疑似异常的数据点,对疑似异常的数据点再利用该独立森林模型进行预测判断,并给出最终的分析结果。
显示输出,此步骤是用于集中体现异常检测成果的一步,其通过将诊断出的异常数据点进行可视化展示,以便运维人员及时进行处理。
实施例四
在实施例三的基础上,本实施例还可以包括以下内容:
本实施例中的几种传统无监督学习模型可以包括:
标准偏差模型,又称为N-sigma分布,一般N取3,标准偏差模型假设原始日志数据服从正态分布,则数据落在距均值3个标准差的区域之外的概率仅有0.27%,由于其概率低到几乎不可能发生,故将其判定为异常点;
箱线图法模型,可以用来观察数据整体的分布情况,主要是利用箱型图的四分位数和四分位距(IQR)对异常值进行检测;
指数平滑法模型,其原理为通过对历史的观察值加权平均,拟合出一个近似的模型来对未来数据值进行预测,通过这个预测值和实际的值进行比较,两者之间如果差距过大,就判定这个数据点是异常的;以及
差分自回归移动平均模型,即ARIMA(Autoregressive Integrated MovingAverage model)是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归建立的模型,然后将拟合值与真实值进行比较,将偏差大于阈值的数据点认为是异常点。
采用上述几种无监督异常模型方法,可以从海量的KPI数据中筛选出一批正常的数据集,将几种方法都认为是正常的样本标记为正常,其余的样本标记为疑似异常。
实施例五
在实施例四的基础上,本实施例还可以包括以下内容:
通过历史KPI数据中识别出的标记为正常的样本数据点进行构建独立森林异常检测模型,具体方法如下:
对用上述几种无监督模型标记为正常的数据点样本,进行训练独立森林异常检测模型。其中,独立森林主要是基于独立树的异常检测方法,预测的过程是随机采样一部分数据集来构造多棵iTree独立树,保证不同树之间的差异性,再将多棵iTree结合起来,形成iForest独立森林,并进行异常检测。
使用历史KPI数据进行学习,通过传统的无监督模型提取KPI数据的特征,然后将特征输入到独立森林机器学习建立异常检测模型中进行分类,将实时数据输入独立森林异常检测模型进行异常检测,并输出异常检测结果。
为了便于本领域技术人员更好的理解本实施例的技术方案,对其进行总结性描述。具体地,本发明实施例的检测模型为两轮检测,第一轮检测由几种传统无监督学习型进行判别,将几种传统无监督学习模型都认为是正常的样本标记为正常,其余标记为疑似异常样本;再利用该独立森林异常检测模型对疑似异常样本进行分类判别,标记出正常或者异常。
实施例六
在实施例五的基础上,本实施例还可以包括以下内容:
对于构建好的独立森林异常检测模型进行评估,其评估标准如下:
本实施例采用准确率,召回率以及F值(准确率和召回率的加权调和平均)等度量评估独立森林异常检测的能力。本实施例选择已标记为疑似异常样本作为测试集,对疑似异常的测试集样本进行标签化处理,然后将通过独立森林异常检测模型的测试结果与人工确认后的真实结果进行比较。
基于KPI指标并通过独立森林异常检测模型的异常检测将数据点的检测结果分为正常和异常两种类别,将标记为正常类别的元素而实际分类(人工进行确认为正常或异常并进行分类)也与之相同的比重定义为精度,精度(precision)和召回率(recall)公式如下:
Figure 651512DEST_PATH_IMAGE001
Figure 842060DEST_PATH_IMAGE002
精度与召回率为统一度量,其公式如下:
Figure 47913DEST_PATH_IMAGE003
其中,TY表示成功检测出数据点为异常点的数量,FY表示数据点为正常点(实际结果)但独立森林异常检测模型判断为异常点的数量,FN表示数据点为异常点但独立森林异常检测模型判断为正常点的数量。
实施例七
图4是示出根据本发明某一实施例的训练得到第一检测模型的流程示意图,参见图1至图4所示,在上述实施例的基础上,本实施例提供一种基于机器学习的实时KPI数据异常检测方法,其可以包括以下步骤:
实时获取KPI数据;
将所述KPI数据代入多个无监督模型进行筛选,优选地,所述多个无监督模型可以包括:标准偏差模型、箱线图法模型、指数平滑法模型和差分自回归移动平均模型;
将经过所有无监督模型筛选后的筛选结果为异常的数据点作为疑似异常的数据点,并将疑似异常的数据点置入第一数据集合,具体可以包括:在所述多个无监督模型中任意一个无监督模型代入所述KPI数据后结果为异常的数据点作为疑似异常的数据点,并将该疑似异常的数据点都置入第一数据集合;
对所述第一数据集合的数据点代入第一检测模型(独立森林异常检测模型)判断;
输出判断结果。
在一个实施例中,所述第一检测模型是使用来自数据中心运维系统的历史KPI数据进行训练得到,其具体可以包括:
获取数据中心运维系统监控的历史KPI数据;
对所述历史KPI数据进行预处理;
对所述预处理后的KPI数据采用所述多个无监督模型进行筛选;
将筛选结果为正常的数据点置入第二数据集合;
将筛选结果为疑似异常的数据点置入第三数据集合,第一数据集合和第三数据集合区别在于,第一数据集合为实时KPI数据中无监督模型筛选为异常的数据点,第三数据集合为历史KPI数据中无监督模型筛选为异常的数据点;
基于第二数据集合构建第一检测模型。
为了使得输入无监督模型的数据为结构化数据和保证数据的质量,可以在输入无监督模型时对历史KPI数据进行预处理,该预处理可以包括:
将所述历史KPI数据进行结构化处理;
对结构化处理后的数据进行过滤脏数据、填充缺失值和去除数据中的噪声。
在一个实施例中,所述第一检测模型是使用来自数据中心运维系统的历史KPI数据进行训练得到,还可以包括:
基于第三数据集合对所述第一检测模型进行评估,以调整模型中的参数。
为了保证第一检测模型输出结果准确性,需要对建立的第一检测模型进行评估调整,其中所述基于第三数据集合对所述第一检测模型进行评估可以包括:
将第三数据集合的数据点代入所述第一检测模型得到判断结果;
根据所述第一检测模型判断结果和第三数据集合的数据点的实际结果得到所述第一检测模型的精度、召回率和F值,以完成对第一检测模型的评估,所述精度、召回率和F值的公式分别如下所示:
Figure 40140DEST_PATH_IMAGE001
Figure 938826DEST_PATH_IMAGE002
Figure 914872DEST_PATH_IMAGE003
式中,precision为精度,recall为召回率,F为precision和recall的加权调和平均,TY为第一检测模型判断结果和实际结果均为异常的数据点的数量,FY为实际结果为正常但第一检测模型判断结果为异常的数据点的数量,FN为实际结果为异常但第一检测模型判断结果为正常的数据点的数量。
实施例八
图5是示出根据本发明实施例的一种基于机器学习的KPI指标的实时数据异常检测装置的结构框图,在上述实施例的基础上,本实施提供一种基于机器学习的实时KPI数据异常检测装置500,该装置可以用集成于互联网企业的终端或系统中,参见图5所示,其可以包括以下模块:
数据采集模块501,其用于实时采集预设事件内的KPI数据;
数据筛选模块502,其用于将所述KPI数据代入多个无监督模型进行筛选;
数据汇总模块503,其用于将经过所有无监督模型筛选后的筛选结果为疑似异常的数据点置入第一数据集合;
数据判断模块504,其用于对所述第一数据集合的数据点代入第一检测模型判断;
数据输出模块505,其用于输出判断结果。
该用集成于互联网企业的终端或系统中的该装置还可以包括:
显示输出模块506,其用以输出最终的实时KPI数据异常检测结果,并对将诊断出的异常数据点进行可视化展示。
实施例九
图6是示出根据本发明某一实施例的实时数据异常检测装置500的结构框图,在上述实施例的基础上,如图6所示,本发明实施例还包括以下内容:
实时数据异常检测装置500还可以包括:
数据获取模块601,其用于获取数据中心运维系统监控的历史KPI数据;
数据预处理模块602,其用于对所述历史KPI数据进行预处理;
第二数据筛选模块603,其用于对所述预处理后的KPI数据采用所述多个无监督模型进行筛选,并将筛选结果为正常的数据点置入第二数据集合;
模型构建模块604,其用于基于第二数据集合构建第一检测模型。
实施例十
图7是示出根据本发明实施例的一种电子设备的示意图,参见图7所示,本实施例还提供一种电子设备700,所述电子设备700可以包括:
至少一个处理器701;以及
与所述至少一个处理器701通信连接的存储器702;
其中,所述存储器702存储有可被所述一个处理器701执行的指令,所述指令被所述至少一个处理器701执行,以使所述至少一个处理器701能够执行如上实施例所述的方法步骤。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解的是,上述说明的电子设备中的处理器701通过执行计算机程序执行指令,处理器701执行计算机程序时,也可以实现上述对应的实施例中各单元的功能,此处不再赘述。示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器701执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在存储客户端一侧的读取位置获取装置中的执行过程。例如,计算机程序可以被分割成上述存储客户端一侧的读取位置获取装置中的各单元,各单元可以实现如上述相应读取位置获取装置说明的具体功能。
电子设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。电子设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解,处理器、存储器仅仅是计算机装置的示例,并不构成对计算机装置的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机装置还可以包括输入输出设备、网络接入设备、总线等。
处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在本公开内容中,所使用的“示例性的”一词意味着“用作示例、例证或说明”。本文中描述为“示例性”的任何实现或者方面不应被解释为比本公开内容的其它方面更优选或更具优势。同样,词语“方面”并不需要本公开内容的所有方面都包括所讨论的特征、优点或者操作模式。本文使用“耦合”一词来指代两个对象之间的直接耦合或者间接耦合。例如,如果对象A物理地接触对象B,并且对象B接触对象C,则对象A和C可以仍然被认为是彼此之间耦合的,即使它们彼此之间并没有直接地物理接触。例如,第一芯片可以耦合到第二芯片,即使第一芯片从未直接地与第二芯片物理地接触。广义地使用术语“电路”和“电子电路”,它们旨在包括电子设备和导体的硬件实现(其中当连接和配置这些电子设备和导体时,实现本公开内容中所描述的功能的执行,而不作为对电子电路的类型的限制)以及信息和指令的软件实现(其中当这些信息和指令由处理器执行时,实现本公开内容中所描述的功能的执行)。
可以对图中所示出的组件、步骤、特征和/或功能中的一个或多个进行重新排列和/或组合成单一组件、步骤、特征或者功能,或者体现在几个组件、步骤或者功能中。此外,还可以增加另外的元素、组件、步骤和/或功能,而不偏离本文所公开的新颖特征。图中所示出的装置、设备和/或组件可以被配置为执行本文所描述的方法、特征或步骤中的一个或多个。本文所描述的新颖算法也可以利用软件来高效地实现,和/或嵌入在硬件之中。
应当理解的是,本申请所公开方法中的特定顺序或步骤层次只是示例性处理的一个示例。应当理解的是,根据设计优先选择,可以重新排列这些方法中的特定顺序或步骤层次。所附的方法权利要求以示例顺序给出了各种步骤的元素,但并不意味着其受到给出的特定顺序或层次的限制,除非本申请进行了明确地说明。
为使本领域任何普通技术人员能够实现本文描述的各个方面,上面围绕各个方面进行了描述。对于本领域普通技术人员来说,对这些方面的各种修改都是显而易见的,并且本文定义的总体原理也可以适用于其它方面。因此,本发明并不限于本文示出的方面,而是与本发明公开的全部范围相一致,其中,除非特别说明,否则用单数形式修饰某一部件并不意味着“一个和仅仅一个”,而可以是“一个或多个”。除非另外特别说明,否则术语“一些”指代一个或多个。指代一个列表项“中的至少一个”的短语是指这些项的任意组合,其包括单一成员。举例而言,“a、b或c中的至少一个”旨在覆盖:a;b;c;a和b;a和c;b和c;a、b和c。贯穿本公开内容描述的各个方面的部件的所有结构和功能等价物以引用方式明确地并入本申请中,并且旨在由权利要求所涵盖,这些结构和功能等价物对于本领域普通技术人员来说是公知的或将要是公知的。此外,本申请中没有任何公开内容是想要奉献给公众的,不管这样的公开内容是否明确记载在权利要求书中。此外,不应依据美国专利法第112条第6款来解释任何权利要求的构成要素,除非该构成要素明确采用了“功能性模块”的措辞进行记载,或者在方法权利要求中,该构成要素是用“功能性步骤”的措辞来记载的。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (4)

1.一种基于机器学习的实时KPI数据异常检测方法,其特征在于,包括以下步骤:
实时获取KPI数据;
将所述KPI数据代入多个无监督模型进行筛选;
将经过所有无监督模型筛选后的筛选结果为疑似异常的数据点置入第一数据集合;
将所述第一数据集合的数据点代入第一检测模型判断;
输出判断结果;
将判断结果中散列在不同时间维度的异常信息进行展示,并且对于不同字段的信息采用不同颜色展示进行区分;
其中,所述第一检测模型是使用来自数据中心运维系统的历史KPI数据进行训练得到,其包括:
获取数据中心运维系统监控的历史KPI数据;
对所述历史KPI数据进行质量分析和预处理,所述预处理包括:
将所述历史KPI数据进行结构化处理;
对结构化处理后的数据进行过滤、填充和去噪;
对所述预处理后的KPI数据采用所述多个无监督模型进行筛选,包括:
根据多个无监督模型对预处理后的KPI数据进行异常检测,当所有无监督模型均判断当前数据点为正常点时,标记当前数据点为正常,否则标记为疑似异常,所述多个无监督模型包括:标准偏差模型、箱线图法模型、指数平滑法模型和差分自回归移动平均模型;
将筛选结果为疑似异常的数据点置入第三数据集合;
将筛选结果为正常的数据点置入第二数据集合;
基于第二数据集合构建第一检测模型,所述第一检测模型为独立森林异常检测模型;
基于第三数据集合对所述第一检测模型进行评估,以调整模型中的参数,包括:
将第三数据集合的数据点代入所述第一检测模型得到判断结果;
根据所述第一检测模型判断结果和第三数据集合的数据点的实际结果得到所述第一检测模型的精度、召回率和F值,以完成对第一检测模型的评估,所述精度、召回率和F值的公式分别如下所示:
Figure DEST_PATH_IMAGE001
Figure 273827DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
式中,precision为精度,recall为召回率,F为precision和recall的加权调和平均,TY为第一检测模型判断结果和实际结果均为异常的数据点的数量,FY为实际结果为正常但第一检测模型判断结果为异常的数据点的数量,FN为实际结果为异常但第一检测模型判断结果为正常的数据点的数量。
2.如权利要求1所述方法,其特征在于,所述将所有无监督模型诊断结果为异常的数据点置入第一数据集合包括:将所述多个无监督模型中任意一个无监督模型代入所述KPI数据后结果为异常的数据点作为疑似异常的数据点,并将疑似异常的数据点置入第一数据集合。
3.一种实施如权利要求1或2所述方法的实时KPI数据异常检测装置,其特征在于,包括:
数据采集模块,其用于实时采集预设事件内的KPI数据;
数据筛选模块,其用于将所述KPI数据代入多个无监督模型进行筛选;
数据汇总模块,其用于将经过所有无监督模型筛选后的筛选结果为疑似异常的数据点置入第一数据集合;
数据判断模块,其用于对所述第一数据集合的数据点代入第一检测模型判断,所述第一检测模型为独立森林异常检测模型;
数据输出模块,其用于输出判断结果。
4.如权利要求3所述装置,其特征在于,所述装置还包括:
数据获取模块,其用于获取数据中心运维系统监控的历史KPI数据;
数据预处理模块,其用于对所述历史KPI数据进行预处理;
第二数据筛选模块,其用于对所述预处理后的KPI数据采用所述多个无监督模型进行筛选,并将筛选结果为正常的数据点置入第二数据集合;
模型构建模块,其用于基于第二数据集合构建第一检测模型。
CN202011378297.7A 2020-12-01 2020-12-01 一种基于机器学习的实时kpi数据异常检测方法及装置 Active CN112187555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011378297.7A CN112187555B (zh) 2020-12-01 2020-12-01 一种基于机器学习的实时kpi数据异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011378297.7A CN112187555B (zh) 2020-12-01 2020-12-01 一种基于机器学习的实时kpi数据异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN112187555A CN112187555A (zh) 2021-01-05
CN112187555B true CN112187555B (zh) 2021-03-19

Family

ID=73918251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011378297.7A Active CN112187555B (zh) 2020-12-01 2020-12-01 一种基于机器学习的实时kpi数据异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN112187555B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN110278121A (zh) * 2018-03-15 2019-09-24 中兴通讯股份有限公司 一种检测网络性能异常的方法、装置、设备及存储介质
CN110995508A (zh) * 2019-12-23 2020-04-10 中国人民解放军国防科技大学 基于kpi突变的自适应无监督在线网络异常检测方法
CN111126824A (zh) * 2019-12-19 2020-05-08 中国移动通信集团江苏有限公司 多指标关联模型训练方法及多指标异常分析方法
CN111143102A (zh) * 2019-12-13 2020-05-12 东软集团股份有限公司 异常数据检测方法、装置、存储介质及电子设备
CN111949496A (zh) * 2019-05-15 2020-11-17 华为技术有限公司 一种数据检测方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9872188B2 (en) * 2015-07-28 2018-01-16 Futurewei Technologies, Inc. Adaptive filtering based network anomaly detection
CN110045209A (zh) * 2019-05-10 2019-07-23 广东电网有限责任公司 用电数据异常的检测方法、装置、设备及可读存储介质
CN111352971A (zh) * 2020-02-28 2020-06-30 中国工商银行股份有限公司 银行系统监控数据异常检测方法及系统
CN111507376B (zh) * 2020-03-20 2023-04-28 厦门大学 一种基于多种无监督方法融合的单指标异常检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110278121A (zh) * 2018-03-15 2019-09-24 中兴通讯股份有限公司 一种检测网络性能异常的方法、装置、设备及存储介质
CN109063886A (zh) * 2018-06-12 2018-12-21 阿里巴巴集团控股有限公司 一种异常检测方法、装置以及设备
CN111949496A (zh) * 2019-05-15 2020-11-17 华为技术有限公司 一种数据检测方法及装置
CN111143102A (zh) * 2019-12-13 2020-05-12 东软集团股份有限公司 异常数据检测方法、装置、存储介质及电子设备
CN111126824A (zh) * 2019-12-19 2020-05-08 中国移动通信集团江苏有限公司 多指标关联模型训练方法及多指标异常分析方法
CN110995508A (zh) * 2019-12-23 2020-04-10 中国人民解放军国防科技大学 基于kpi突变的自适应无监督在线网络异常检测方法

Also Published As

Publication number Publication date
CN112187555A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN110865929B (zh) 异常检测预警方法及系统
WO2023071217A1 (zh) 基于深度迁移学习的多工况流程工业故障检测诊断方法
CN107291911B (zh) 一种异常检测方法和装置
CN111459700B (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
JP6871877B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
Nair et al. Learning a hierarchical monitoring system for detecting and diagnosing service issues
CN115409131B (zh) 基于spc过程管控系统的生产线异常检测方法
CN113919540B (zh) 一种生产过程运行状态的监测方法及相关设备
CN115994327B (zh) 基于边缘计算的设备故障诊断方法及装置
US20210026719A1 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
CN113449703B (zh) 环境在线监测数据的质控方法、装置、存储介质及设备
CN115358155A (zh) 一种电力大数据异常预警方法、装置、设备及可读存储介质
CN111176872B (zh) 面向it运维的监控数据处理方法、系统、装置及存储介质
CN113343361A (zh) 车身尺寸智能监控方法、装置、设备及存储介质
CN115952081A (zh) 一种软件测试方法、装置、存储介质及设备
CN117194163A (zh) 一种计算机设备、故障检测系统、方法及可读存储介质
CN117149486B (zh) 告警和根因定位方法、模型训练方法、装置、设备及介质
CN111306051B (zh) 一种输油泵机组探针式状态监测预警方法、装置及系统
CN112187555B (zh) 一种基于机器学习的实时kpi数据异常检测方法及装置
JP7062505B2 (ja) 設備管理支援システム
CN113485901A (zh) 基于日志和指标的系统评价方法、装置、设备和介质
CN112579429A (zh) 一种问题定位方法和装置
CN109474445B (zh) 一种分布式系统根源故障定位方法及装置
CN117056209B (zh) 软件缺陷预测模型、解释方法以及量化评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211102

Address after: 200137 floor 1-5, building 14, No. 528, Yanggao North Road, Pudong New Area, Shanghai

Patentee after: Shanghai mengpa Information Technology Co.,Ltd.

Patentee after: Beijing mengpa Xinchuang Technology Co.,Ltd.

Address before: 1110, 1 / F, building a, 98 Guangqu Road, Chaoyang District, Beijing 100022

Patentee before: Beijing mengpa Xinchuang Technology Co.,Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 200137 room 108, block a, building 8, No. 1879, jiangxinsha Road, Pudong New Area, Shanghai

Patentee after: Shanghai mengpa Intelligent Technology Co.,Ltd.

Patentee after: Beijing mengpa Xinchuang Technology Co., Ltd

Address before: 200137 floor 1-5, building 14, No. 528, Yanggao North Road, Pudong New Area, Shanghai

Patentee before: Shanghai mengpa Information Technology Co.,Ltd.

Patentee before: Beijing mengpa Xinchuang Technology Co., Ltd

CP03 Change of name, title or address