CN111314173A - 监控信息异常的定位方法、装置、计算机设备及存储介质 - Google Patents

监控信息异常的定位方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111314173A
CN111314173A CN202010067104.XA CN202010067104A CN111314173A CN 111314173 A CN111314173 A CN 111314173A CN 202010067104 A CN202010067104 A CN 202010067104A CN 111314173 A CN111314173 A CN 111314173A
Authority
CN
China
Prior art keywords
abnormal
information
monitoring information
normal
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010067104.XA
Other languages
English (en)
Other versions
CN111314173B (zh
Inventor
张戎
姚华宁
张加浪
黄荣庚
高传泽
李雄政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010067104.XA priority Critical patent/CN111314173B/zh
Publication of CN111314173A publication Critical patent/CN111314173A/zh
Application granted granted Critical
Publication of CN111314173B publication Critical patent/CN111314173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及监控信息异常的定位方法、装置、计算机设备及存储介质,属于网络技术领域。该方法包括:若接收到指标异常信息,获取异常监控信息和正常监控信息;指标异常信息用于指示目标指标出现异常;目标指标对应有目标维度;异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在目标维度下的元素信息;异常时间段为发生异常的时间段;正常时间段根据异常时间段确定;将异常监控信息和正常监控信息进行比对,根据比对结果确定异常监控信息中出现异常的异常元素信息;根据异常元素信息输出异常定位信息。上述技术方案,解决了监控信息异常的定位效率低下的问题。能有效提高监控信息异常的定位效率。

Description

监控信息异常的定位方法、装置、计算机设备及存储介质
技术领域
本发明涉及网络技术领域,特别是涉及监控信息异常的定位方法、装置、计算机设备及存储介质。
背景技术
随着网络技术的发展,多维监控信息的异常定位(也称为智能下钻)已成为智能运维领域的一大热点。业务信息、机器指标或服务指标等多维信息被实时监控。当监控到异常时挖掘出最可能是异常发生根本原因的元素,以便进一步地修复止损。在进行异常定位时,常采用ARMA模型等来判定。
在实现本发明过程中,发明人发现传统方式中至少存在如下问题:传统方法针对不同指标、不同时间的信息需要不断调整自回归系数和移动平均系数,人工成本高,监控信息异常的定位效率低下。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
基于此,本发明实施例提供了监控信息异常的定位方法、装置、计算机设备及存储介质,能有效提高监控信息异常的定位效率。
本发明实施例的内容如下:
在一个实施例中,本发明实施例提供一种监控信息异常的定位方法,包括以下步骤:若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定;将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息;根据所述异常元素信息输出异常定位信息。
在一个实施例中,本发明实施例提供一种监控信息异常的定位装置,包括:监控信息获取模块,用于若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定;监控信息比对模块,用于将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息;定位信息输出模块,用于根据所述异常元素信息输出异常定位信息。
在一个实施例中,监控信息比对模块,包括:相似度计算子模块,用于计算所述异常监控信息和所述正常监控信息中各个元素信息的第一相似度;异常信息筛选子模块,用于根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
在一个实施例中,第一相似度计算子模块,包括:后验概率分布计算单元,用于计算所述正常监控信息各个元素信息的先验概率分布和所述异常监控信息各个元素信息的后验概率分布;先验概率分布计算单元,用于计算所述先验概率分布和所述后验概率分布的相对熵和/或交叉熵,作为所述第一相似度。
在一个实施例中,定位信息输出模块,包括:排序子模块,用于按照所述第一相似度对所述异常元素信息进行排序;定位信息输出子模块,用于按照排序结果输出所述异常定位信息。
在一个实施例中,监控信息比对模块,还用于按照时间序列异常检测算法,通过所述正常监控信息预测所述异常时间段的监控信息,得到预测监控信息,并将所述预测监控信息与所述异常监控信息进行比对。
在一个实施例中,监控信息异常的定位装置,还包括:时间信息确定模块,用于确定异常时间段和预先设定的历史时间窗口;所述历史时间窗口包含有过渡时间段,所述过渡时间段为正常信息结束到异常信息起始之间的时间段;时间段确定模块,用于从所述历史时间窗口中去除所述过渡时间段,得到所述正常时间段。
在一个实施例中,监控信息比对模块,还用于通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
在一个实施例中,所述监控信息比对模块,还用于将所述异常监控信息和所述正常监控信息输入到预先训练的第一机器学习模型的目标函数中;通过所述目标函数计算所述异常监控信息和所述正常监控信息的第一相似度,作为所述比对结果;根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
在一个实施例中,所述监控信息比对模块,还用于将所述正常监控信息输入到预先训练的第二机器学习模型中,通过所述第二机器学习模型预测所述异常时间段的监控信息,得到预测监控信息;将所述预测监控信息与所述异常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
在一个实施例中,所述目标指标包括率值指标和量值指标;其中,所述率值指标通过对应的量值指标运算得到;所述监控信息异常的定位装置,还包括:指标转换模块,用于若所述目标指标为率值指标,将所述目标指标转换为对应的量值指标;维度确定模块,用于根据经过量值指标转换的目标指标确定对应的目标维度;所述目标指标的元素信息由所述目标维度对应的元素信息经过运算得到。
在一个实施例中,所述指标转换模块,包括:相似度确定子模块,用于确定所述目标指标和所述量值指标的第二相似度;指标转换子模块,用于若所述第二相似度高于预设的相似度阈值,则将所述目标指标转换为对应的量值指标。
在一个实施例中,所述定位信息输出模块,还用于从所述目标指标中确定所述异常元素信息对应的指标,确定所述异常元素信息对应的指标在所述目标指标中的占比;按照所述占比的大小顺序输出所述异常定位信息。
在一个实施例中,所述定位信息输出模块,还用于确定所述异常元素信息相对于正常元素信息的变化量,作为异常变化量,以及,确定所述正常监控信息中的各个元素信息相对于所述正常元素信息的变化量,作为总变化量;所述正常元素信息为所述正常监控信息对应的元素信息;计算所述异常变化量相对于所述总变化量的变化量比例;按照所述变化量比例的大小顺序输出异常定位信息。
在一个实施例中,本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定;将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息;根据所述异常元素信息输出异常定位信息。
在一个实施例中,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定;将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息;根据所述异常元素信息输出异常定位信息。
本发明实施例提供的监控信息异常的定位方法,在目标指标出现异常时,确定正常监控信息和异常监控信息,并通过正常监控信息和异常监控信息的比对快速确定异常监控信息中的异常元素信息,在得到异常元素信息后输出对应的异常定位信息,能有效提高监控信息异常的定位效率。
附图说明
图1为一个实施例中监控信息异常的定位方法的应用环境图;
图2为一个实施例中监控信息异常的定位方法的流程示意图;
图3为一个实施例中维度与指标的关系示意图;
图4为一个实施例中正常时间段和异常时间段的关系示意图;
图5为一个实施例中率值指标和量值指标的比对示意图;
图6为一个实施例中异常元素信息的界面显示示意图;
图7为另一个实施例中监控信息异常的定位方法的流程示意图;
图8为一个实施例中监控信息异常的定位方法的整体框架;
图9为一个实施例中监控信息异常的定位装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供的监控信息异常的定位方法可以应用于如图1所示的计算机设备中。该计算机设备可以是服务器,也可以是终端设备,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置等。其中,处理器用于提供计算和控制能力;存储器包括非易失性存储介质、内存储器,该非易失性存储介质存储有操作系统、计算机程序(该计算机程序被处理器执行时实现一种监控信息异常的定位方法,可以是小程序、APP等)和信息库,该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境;信息库用于存储监控信息异常的定位方法执行过程中涉及到的信息,例如该信息库中可以存储异常监控信息、正常监控信息、异常元素信息、异常定位信息等信息;网络接口用于与外部的终端通过网络连接通信,例如:与某个客户端连接,用于接收该客户端发送的指标异常信息;显示屏可以是液晶显示屏或者电子墨水显示屏,输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。进一步的,终端设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供一种监控信息异常的定位方法、装置、计算机设备及存储介质。以下分别进行详细说明,以该方法应用于图1中的计算机设备(也可以称为监控端)为例进行说明。
在一个实施例中,如图2所示,提供了一种监控信息异常的定位方法,包括以下步骤:
S201、若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定。
在本发明实施例中,监控信息可以是在网络平台中的各种监控信息,可以是对网页、应用程序、小程序等的监控信息,例如:某用户在某网页中的访问时间、访问是否成功、该用户所在位置等等。网络平台在运行过程中会实时生成日志信息,在用户对网络平台进行操作时也会产生日志信息。计算机设备在获取到这些日志信息后,往往会通过多维时间序列来表征日志信息。其中多维时间序列指的是一组按照时间发生先后顺序进行排列的信息序列,每个时间点记录的信息包括多个维度下的信息记录,通常,一组时间序列的时间间隔为一恒定值(如1秒钟,1分钟,5分钟),每个维度下可能有一种或多种元素信息,例如下表1,每分钟记录一个网页访问量的监控日志,多维时间序列信息按照一定的格式上报,该下表所示的格式中包含的内容:有时间戳(TimeStamp)、维度(Dimension)、指标(KPI/Measure)、元素(Element)等,其中,表格中间部分的内容都可以理解为元素信息:
表1指标、维度以及元素的关系对照表
Figure BDA0002376304780000061
其中,为了更好地对监控信息进行分析,计算机设备在监控到各个维度的信息之后,往往会对信息进行整合得到指标信息,具体的,可以为SuccessCount(成功量)、TotalCount(访问总量)、SuccessRate(成功率)等,以成功量为例,可以根据是否登录成功这一维度下的元素信息叠加得到。
具体的,如下表2所示,日志信息可以涉及多个维度:用户位置(Region)、网络运营商(Network)、数据中心(Datacenter)等;各维度对应一系列可能的元素信息,用户位置:北京、上海、广州等;网络运营商:移动(China Mobile)、联通(China Unicom)、电信(ChinaTelecom)等;数据中心:DC1、DC2等。
表2指标、维度以及元素的示例性关系对照表
Time Network Region Datacenter SuccessCount TotalCount SuccessRate
10:01 China Mobile Shanghai DC1 100 100 100%
10:02 China Unicom Beijing DC2 79 110 71.8%
10:03 China Telecom Chengdu DC1 85 100 85%
12:00 China Unicom Chengdu DC1 89 100 89%
其中,目标指标指的是出现异常的指标,例如,发现上海移动用户对某个网页的登录成功率低于预设的阈值,则可以将“成功率”确定为出现异常的目标指标。而与“成功率”相关的维度,如:成功数、登录总数等(成功率为成功数与登录总数的比值),则为目标维度。进一步地,目标维度在不同时刻对应都不同的维度值(如上表中的成功数SuccessCount:100/79/85/…/89等)即为该目标维度所包含的元素信息。
进一步地,指标、维度和元素的示意如图3所示,其中,KPI表示指标,A、B、C代表不同维度,a1、b1、c1、a2、b2、c2表示对应维度下的元素信息,(A,B)表示与A和B相关的维度[(A,C)、(B,C)和(A,B,C)同理]。对于多维指标,智能下钻的目的就是在检测到指标异常之后,从所有维度中挖掘出最可能是异常发生根本原因的元素信息,异常信息定位也称为智能下钻或根因分析。
由于指标是根据维度确定的,因此,计算机设备在根据指标异常信息确定出目标指标后,就能根据指标和维度的对应关系确定出目标维度。
其中,指标异常信息指的是指标出现异常的指示信息,即在某个指标(目标指标)出现异常时,生成指标异常信息,该指标异常信息中可以包含有目标指标的描述信息、异常描述信息(例如:异常发生时间等)、相关联的元素信息(各个元素信息都对应有指标或维度)等与该异常相关的信息。进一步的,网络平台所在的客户端可以实时监控网络平台中的各个日志数据,根据日志数据得到上述多维时间序列,将多维时间序列发送给计算机设备。由计算机设备通过多维时间序列实时监控网络平台中各个指标的运行情况,在某个时刻A,某个或某些指标出现异常,则根据出现异常的目标指标生成与时刻A对应的指标异常信息,例如,生成的指标异常信息为“成功率出现异常”;进一步地,指标异常信息还可以包括与该异常相关的元素信息,例如“上海-移动-成功率出现异常”,其中,“上海”和“移动”都是与异常相关的元素信息。
在一些实施例中,指标异常信息可以作为指标发生异常时的触发信号,即用于触发监控信息异常的定位方法的执行:在获取到指标异常信息时获取异常监控信息和正常监控信息,即在发现有出现异常的指标(即目标指标)时,则针对性地获取异常监控信息和正常监控信息:获取异常时间段所述目标维度下的元素信息得到异常监控信息,获取正常时间段所述目标维度下的元素信息得到正常监控信息。
其中,网络平台发生异常可以指某个或某些指标的元素信息超过/低于预设阈值(也可以在持续一小段时间后才认为是超过/低于预设阈值),超过/低于预设阈值的时刻可以认为是异常时间段的起始时刻(也可以称为异常起始时间),若元素信息在持续一段时间后低于/超过预设阈值,则可以将低于/超对预设阈值的时刻认为是异常时间段的结束时刻(也可以称为异常结束时间)。进一步地,起始时刻和结束时刻之间的时间段可以认为是异常时间段。更进一步地,可以在异常时间段的基础上向前移动一定的时间窗口,得到对应的正常时间段。在正常时间段中,目标指标对应的元素信息是正常的,具体的,正常时间段可以为正常起始时间和正常结束时间之间的时间段。
由于监控信息往往会呈现一定的规律或者处于某个平稳状态,因此,可以依据正常时间段的正常监控信息来确定异常网络平台中出现异常的异常元素信息。具体确定过程如S202。
S202、将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
其中,将异常监控信息和正常监控信息进行比对可以是将同一时刻相对应的元素信息进行比对,如果不一致(或者差值大于某个阈值),则认为该时刻的元素信息为异常元素信息;也可以对异常监控信息和正常监控信息对应的元素信息进行一定的运算,将经过运算处理的元素信息进行一一比对,以确定其中的异常元素信息。
进一步地,还可以通过预先训练的机器学习模型来确定异常监控信息中的异常元素信息,该机器学习模型可以通过训练样本预先训练,在获取到异常监控信息和正常监控信息时,将异常监控信息和正常监控信息作为输入,由机器学习模型从异常监控信息中确定出异常元素信息。其中,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。其中,机器学习模型具体可以为统计机器学习模型。
S203、根据所述异常元素信息输出异常定位信息。
其中,异常定位信息可以指对出现异常的元素信息进行指示的信息,例如:异常元素信息S出现异常,其所在的时刻(可以理解为所对应的位置)为I指标的D维度的T时刻。计算机设备可以在确定出异常元素信息时根据异常元素信息所在的维度以及对应的时刻生成异常定位信息,并输出该异常定位信息,以提示管理人员出现异常的具体位置,即确定了异常发生根本原因的元素,实现了智能下钻。
进一步地,如果异常元素信息多于一个,则可以分别输出对应的异常定位信息,也可以输出一个整体的异常定位信息。
本实施例提供的监控信息异常的定位方法,在目标指标出现异常时,确定正常监控信息和异常监控信息,并通过正常监控信息和异常监控信息的比对快速确定异常监控信息中的异常元素信息,在得到异常元素信息后输出对应的异常定位信息,能快速定位到发生异常的具体元素信息,有效提高监控信息异常的定位效率,同时保证异常信息的深度定位。
在一些实施例中,计算机设备也可以直接监控各个维度,如果某个或某些维度出现异常时,生成维度异常信息,若接收到指标异常信息,获取异常监控信息和正常监控信息,按照前述同样的方法确定异常元素信息。
在一个实施例中,所述将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:计算所述异常监控信息和所述正常监控信息中各个元素信息的第一相似度;根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
其中,第一相似度可以指对应的元素信息的一致性或者相关性,可以通过对应元素信息的交叉熵、相对熵、熵信息等来表征。
进一步地,在一个实施例中,所述计算所述异常监控信息和所述正常监控信息各个元素信息的第一相似度的步骤,包括:计算所述正常监控信息的先验概率分布P和所述异常监控信息各个元素信息的后验概率分布Q;计算所述先验概率分布和所述后验概率分布的相对熵(Relative entropy)和/或交叉熵(Cross entropy),作为所述第一相似度。其中,相对熵也称KL散度(Kullback–Leibler divergence),交叉熵也称JS散度(Jensen-Shannondivergence)。其中,先验概率分布和后验概率分布可以根据贝叶斯公式计算得到。
其中,P和Q的相对熵和交叉熵可以按照以下方式来计算:
设先验概率分布P可以表示为离散随机变量x的概率分布p(x),后验概率分布Q可以表示为离散随机变量x的q(x)。
因此,P和Q的相对熵可以通过以下公式进行计算:
Figure BDA0002376304780000091
P和Q的交叉熵可以通过以下公式进行计算:
Figure BDA0002376304780000092
可以将相对熵或者交叉熵确定为第一相似度;也可以对相对熵和交叉熵进行一定的运算(例如:进行相加、相乘运算),将运算得到的信息作为第一相似度。
不同的相似度信息对应不同的信息异常程度,具体的,第一相似度越高,异常元素信息与正常元素信息的差别越大,可以认为异常程度越高。其中,正常元素信息为所述正常监控信息对应的元素信息。
在一个实施例中,所述根据所述异常元素信息输出异常定位信息的步骤,包括:按照所述第一相似度对所述异常元素信息进行排序;按照排序结果输出所述异常定位信息。具体的,可以对排序在前的异常元素信息进行优先输出,这样的处理方式能优先输出异常程度更高的异常元素信息,使其更快得到解决,防止对客户端的正常运行造成影响。在一些实施例中,也可以不对异常元素信息进行排序,而是直接将第一相似度高于预设阈值(可以根据实际情况确定,本发明实施例对预设阈值的具体大小不做限制)的元素信息选择出来,即确定异常元素信息。
在一个实施例中,所述将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:按照时间序列异常检测算法,通过所述正常监控信息预测所述异常时间段的监控信息,得到预测监控信息,并将所述预测监控信息与所述异常监控信息进行比对。
其中,时间序列异常检测算法原理为:对于每一维度下的元素信息,根据历史时刻的正常数据,预测出未来时间内本来应该为正常的预测值,通过将预测值与实际故障值进行对比,当两者的残差达到算法设定的阈值时,认为该元素为异常根因。通过对所有元素进行异常检测,进而筛选出异常时刻可能的异常根因(即确定出异常元素信息)。
进一步地,时间序列异常检测算法可以引入对时间序列的特征工程、熵特征等进行异常检测,也可以使用深度学习进行异常检测(例如,构建一个深度学习模型并对其进行训练,该深度学习模型对训练样本进行特征提取并根据所提取的特征完成对模型的构建,模型训练完成后,将正常监控信息输入到已训练的深度学习模型中,由该深度学习模型预测异常时间段对应的监控信息,即得到预测监控信息)。其中,时间序列的统计特征可以指最大值、最小值、均值、中位数、方差、标准差、偏度和峰度等;时间序列的熵特征,比如binned entropy、approximate entropy、sample entropy等等。进入特征工程的目的是针对时间序列提取出相应的特征,即对时间序列进行信息提取,尽可能充分地用数学的方式表达和反映时间序列。更进一步地,对特征工程通常还可以做归一化、二值化、离散化、特征降维等操作,根据经过这些处理之后的异常监控信息和正常监控信息确定出异常元素信息。可以使用的时间序列异常检测算法包括:ARIMA(Autoregressive Integrated MovingAverage Model,差分整合移动平均自回归模型),fbprophet(支持R语言和python语言等的时间序列预测框架),3-sigma(机器学习特征工程中常用的异常值检测算法),OneClassSVM(单分类支持向量机),EWMA(Exponentially Weighted Moving-Average,指数加权移动平均法),多项式等方法。进一步地,也可以使用决策树、Monte Carlo树等的搜索方法来实现异常根因分析。
上述实施例按照一定的算法根据正常监控信息预测得到预测监控信息,实现过程简单,能有效提高异常元素定位的效率。
在一个实施例中,在预测得到预测监控信息的步骤之前,还包括:对所述正常监控信息进行缺失值填充处理。根据经过缺失值处理的正常监控信息预测异常时间段的信息,得到预测监控信息。进行缺失值填充处理能使得得到的预测监控信息更为完整准确,进而可以确定出更为准确的异常元素信息。
正常时间段和异常时间段的关系示意图可以如图4所示,过渡时间内,对于缓变型的异常告警,KPI曲线从正常到异常有个缓慢过渡的阶段,该时间段内判定为正常和异常均不太合理,对于突变型异常告警,过5时间的设定作用较小。因此跳过过渡时间以设定正常时间段。
在一些实施例中,可以将正常时间段内的元素信息取平均值作为预测监控信息。这样的处理方式相比于传统的时间序列模型,采用历史正常时间取平均的方式计算正常预测值,在保证准确率较高的前提下更加简单高效,实际使用效率提高。
在一个实施例中,所述若接收到指标异常信息,获取异常监控信息和正常监控信息的步骤之前,还包括:确定异常时间段和预先设定的历史时间窗口;所述历史时间窗口包含有过渡时间段,所述过渡时间段为正常信息结束到异常信息起始(对应异常时间段的起始时刻)之间的时间段;从所述历史时间窗口中去除所述过渡时间段,得到所述正常时间段。
其中,正常信息和异常信息可以通过与异常阈值进行比较确定,如果信息小于/大于正常阈值,则认为对应的信息为正常信息,如果信息大于/小于异常阈值,则认为对应的信息为异常信息。进一步的,正常阈值和异常阈值可以相同也可以不同。
历史时间窗口的大小可以根据具体业务经验设定。
因为异常与正常是相对而言的,正常时间段的设定会导致KPI异常的判定不同,从而导致根因分析结果可能不同。因此,本发明实施例通过设定历史窗口可调节正常时间段的长短,确保正常时间段内的KPI是正常的。
在一个实施例中,所述将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
其中,机器学习模型可以是各种能够学习数据异常信息的模型。具体的,可以是基于时间序列的异常检测算法和基于熵的智能下钻(基于与熵相关的信息进行异常信息的定位)方法构建的机器学习模型。在通过机器学习模型确定异常元素之前可以对机器学习模型进行训练。
在一个实施例中,所述通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:将所述异常监控信息和所述正常监控信息输入到预先训练的第一机器学习模型的目标函数中;通过所述目标函数计算所述异常监控信息和所述正常监控信息的第一相似度,作为所述比对结果;根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
第一机器学习模型也可以称为是相似度比较模型。
进一步地,第一机器学习模型的目标函数可以通过相对熵和/或交叉熵实现。具体的,目标函数计算所述正常监控信息各个元素信息的先验概率分布P和所述异常监控信息各个元素信息的后验概率分布Q;计算所述先验概率分布和所述后验概率分布的相对熵和/或交叉熵,作为所述第一相似度。第一机器学习模型确定第一相似度中的最大值,可以将与最大值对应的元素信息确定为异常元素信息。
在一个实施例中,所述通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:将所述正常监控信息输入到预先训练的第二机器学习模型中,通过所述第二机器学习模型预测所述异常时间段的监控信息,得到预测监控信息;将所述预测监控信息与所述异常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
第二机器学习模型也可以称为是时间序列异常检测模型。
上述实施例将正常监控信息输入到已训练的第二机器学习模型中,由第二机器学习模型预测异常时间段对应的监控信息,即得到预测监控信息。其中,第二机器学习模型的训练过程可以是对正常监控信息进行时间段、特征提取,根据所提取的时间段、特征确定监控信息的规律,进而得到未来一段时间内的监控信息,完成模型的训练过程;在输入正常监控信息时,第二机器学习模型可以提取正常监控信息的正常时间段、特征,根据训练过程中所确定的规律得到与正常时间段对应的异常时间段的监控信息,即得到预测监控信息。
进一步地,可自主选择上述两种机器学习模型中的一种,或者当一种机器学习模型的根因结果不满足维度要求时,将另一种模型的输出作为最终结果。
前述实施例提供的监控信息异常的定位方法通过对告警数据的异常检测,利用机器学习算法提出基于时间序列的异常检测算法和基于熵的智能多维下钻分析等两种算法,异常定位准确率高。
多维时间序列中的各个可以指可以是率值指标也可以是量值指标。其中,量值指标在不同维度和元素之间具有可加性,如点击量、成功量、访问总量等,率值指标在不同维度和元素之间不具有可加性;率值指标由两个或者多个量值指标推导得到,亦称为推导性指标,如点击率、成功率。
在实现本发明的过程中,发明人发现:率值指标的计算方式比量值指标更为复杂。例如用户位置维度下,北京、上海和广州的访问成功量分别为70、90和10,访问总量均为100,成功率分别为70%、90%、100%;三者的访问成功量相加得到用户位置维度的访问成功量为260,但三者的成功率不能直接相加得到用户位置维度的成功率为260%。因此分析率值指标时需要提取出率值指标定义中的两个量值指标(比如成功率对应的两个量值指标是成功量和访问总量),对两个量值指标综合计算分析才能得出率值指标的异常根因,这就使得率值指标的计算方式更为复杂。
为简化对率值指标的运算过程,本发明实施例对率值指标进行转换。具体的,在一个实施例中,所述目标指标包括率值指标和量值指标;其中,所述率值指标通过对应的量值指标运算得到;所述获取异常监控信息和正常监控信息的步骤之前,还包括:若所述目标指标为率值指标,将所述目标指标转换为对应的量值指标;根据经过量值指标转换的目标指标确定对应的目标维度;所述目标指标的元素信息由所述目标维度对应的元素信息经过运算得到。本发明实施例提供的率值指标转换策略可以将根因分析(异常信息的定位方法)的时间缩短,经过实际操作,发明人发现可以将时间缩短一半左右。
进一步地,在一个实施例中,所述将所述目标指标转换为对应的量值指标的步骤,包括:确定所述目标指标和所述量值指标的第二相似度;若所述第二相似度高于预设的相似度阈值,则将所述目标指标转换为对应的量值指标。其中,相似度阈值可以根据实际情况确定,具体的,可以进一步结合业务应用场景进行确定,对于对定位准确性要求高的业务场景,相似度阈值可以为较高的值;还可以根据定位效果进行相似度阈值的调整,对于定位效果不满足要求的情况,可以将相似度阈值调整为更高的值。
具体的,对于率值指标执行率值指标转换策略,计算率值指标曲线和相应的量值指标曲线的相似度,若相似度较高,则将率值指标的智能下钻任务转换成相应量值指标的智能下钻,如图5所示,成功率和成功数/失败数的相似度满足要求,则成功率可以转换成成功数或者失败数的根因分析;反之若相似度较低,则直接对率值指标进行智能下钻。
在一个实施例中,所述根据所述异常元素信息输出异常定位信息的步骤,包括:从所述目标指标中确定所述异常元素信息对应的指标,确定所述异常元素信息对应的指标在所述目标指标中的占比;按照所述占比的大小顺序输出所述异常定位信息。其中,该占比可以认为是对应异常元素信息的影响范围面,即它对周围的指标的影响程度。进一步的,可以优先输出占比大的异常定位信息。
在一个实施例中,所述根据所述异常元素信息输出异常定位信息的步骤,包括:确定所述异常元素信息相对于正常元素信息的变化量,作为异常变化量,以及,确定所述正常监控信息中的各个元素信息相对于所述正常元素信息的变化量,作为总变化量;所述正常元素信息为所述正常监控信息对应的元素信息;计算所述异常变化量相对于所述总变化量的变化量比例(EP);按照所述变化量比例的大小顺序输出异常定位信息。其中,EP能够表征异常元素信息与正常元素信息的差别在所有指标变化总量中的比例,比例大可以认为对应的异常元素信息与正常元素信息的偏离较大,因此可以优先输出其对应的异常定位信息。其中,正常元素信息可以是正常监控信息中随机选择的元素信息,也可以是对正常监控信息中的各个元素信息进行运算(例如:计算各个元素信息的均值)得到的信息。变化量比例可以认为是异常元素信息的影响范围,如果某个异常元素信息的影响范围大,则可以认为其异常程度较高,相反,如果某个异常元素信息的影响范围小,则可以认为其异常程度较小。本发明实施例中,为了提高异常信息的输出效率,可以过滤异常元素信息中变化量比例小的元素信息。
其中,假设目标指标(成功数SuccessCount)对应的异常监控信息如下表3:
表3异常监控信息
Time SuccessCount
10:01 100
10:02 59
10:03 85
10:04 86
10:05 67
10:06 88
假设正常元素信息为85,则线确定出异常元素信息为10:02和10:05对应的元素信息。异常监控信息中各个元素信息相对于正常元素信息的变化量(分别计算各个元素信息与正常元素信息的差值)分别为:15、-26、0、1、-18、3(其中,10:02和10:05的异常变化量分别为-26和-18),总变化量可以是将这几个变化量求平均值,得到的总变化量为(-25/6)=-4.16,因此,10:02和10:05的异常变化量相对于所述总变化量的变化量比例分别为6.25和4.33,可见10:02的变化量比例高于10:05的变化量比例,因此,可以先输出10:02对应的异常定位信息。
在另一个实施例中,所述根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息的步骤之后,还包括:确定所述异常元素信息相对于正常元素信息的变化量,作为异常变化量,以及,确定所述正常监控信息中的各个元素信息相对于所述正常元素信息的变化量,作为总变化量;所述正常元素信息为所述正常监控信息对应的元素信息;计算所述异常变化量相对于所述总变化量的变化量比例(EP);从所述异常元素信息中过滤所述变化量比例小的元素信息,得到异常元素信息集合;根据所述异常元素信息集合输出异常定位信息。
具体的,对于异常KPI,计算异常时间段内所有维度下所有元素的后验概率分布Q,以及在正常时间段内所有维度下所有元素的先验概率分布P,通过KL散度KL(P||Q)或交叉熵JSD(P,Q)计算概率分布P、Q之间的相似度(S);对于每一维度,将元素信息依据S值大小降序排列,计算排序后的元素信息的变化在指标变化总量中的变化量比例(EP);过滤掉EP值较小的元素,剩下的所有元素作为该维度下的异常根因集合(即异常元素信息集合),对所有维度执行以上操作,从而得到所有维度下的异常根因。
具体的,针对不同业务,可选择两种方式中的一种对异常根因排序输出。方式一:计算所有元素的影响范围面,从大到小降序输出;方式二:根据所有元素的EP值大小降序输出。上述实施例针对不同业务可自定义选择根据元素影响范围或者异常占比的大小输出根因集合,具有更好的选择自由度和业务针对性,比如影响面大的元素更加引起客户的注意。
进一步地,在输出异常定位信息的同时,还可以输出其他相关的信息,例如:告警时间、与该异常元素信息对应的用户信息、与异常元素信息进行比对的正常元素信息等等。
更进一步地,计算机设备一旦出现了监控指标异常,就触发告警分析模块,定位到具体的产品维度或者用户维度,实现智能定位。以计算机设备为云服务平台部的云监控助手小程序为例,进行异常定位信息输出的方式可以如图6所示。首先,在界面中输出图6(a)所示的界面提示信息,该提示信息中显示异常定位信息的告警信息(包括告警名称、告警时间、告警描述等);运维人员在触发告警详细信息的查看指令后,可以显示如图6(b)右侧的界面信息,该界面信息可以包括两个功能模块:上方告警视图模块,对于检测出的异常告警给出异常时刻的和前一天的KPI曲线对比,高亮显示异常时间段;下方多维分析结果模块,经过多维智能下钻(通常是秒级)列出业务上主要关注维度下的异常元素,对于排序靠前的重要元素还可进行染色显示。
上述实施例,在快速分析出异常定位信息后,还能通过可视化的方式输出异常定位信息,使得运维人员能直观快速地获知到出现异常的具体元素信息,进而针对性地解决异常问题。
在一个实施例中,提供一种监控信息异常的定位方法,如图7所示,以该方法应用于云监控助手小程序为例,包括以下步骤:
S701、若接收到指标异常信息,确定异常时间段和预先设定的历史时间窗口;从历史时间窗口中去除过渡时间段,得到正常时间段;指标异常信息中包含有出现异常的目标指标;目标指标对应有目标维度。
S702、获取与正常时间段对应的正常监控信息,获取与异常时间段对应的异常监控信息,执行S703或S704。
S703、计算正常监控信息各个元素信息的先验概率分布和异常监控信息各个元素信息的后验概率分布;计算先验概率分布和后验概率分布的交叉熵,作为第一相似度;根据第一相似度从异常监控信息的元素信息中筛选出异常元素信息。
S704、按照时间序列异常检测算法,通过正常监控信息预测异常时间段的监控信息,得到预测监控信息,并将预测监控信息与异常监控信息进行比对,根据比对结果确定异常监控信息中出现异常的异常元素信息。
S705、确定所述异常元素信息相对于正常元素信息的变化量,作为异常变化量,以及,确定所述正常监控信息中的各个元素信息相对于所述正常元素信息的变化量,作为总变化量;计算异常变化量相对于总变化量的变化量比例。
S706、从异常元素信息中过滤变化量比例小的元素信息,得到异常元素信息集合。
S707、按照变化量比例的大小顺序输出异常定位信息集合。
本实施例提供的监控信息异常的定位方法,在目标指标出现异常时,确定正常监控信息和异常监控信息,并通过正常监控信息和异常监控信息的比对快速确定异常监控信息中的异常元素信息,在得到异常元素信息后输出对应的异常定位信息,能快速定位到发生异常的具体元素信息,有效提高监控信息异常的定位效率,同时保证异常信息的深度定位。
为了更好地理解上述方法,以下详细阐述一个本发明监控信息异常的定位方法的应用实例。
如图8所示,该方法通过业务层、数据层、粗选层、精选层和规则层来实现监控信息异常的定位,具体实现过程如下:
1、业务层
从业务的角度出发,记录监控指标的维度和指标,日志监控系统实时监控和采集多维时间序列信息,在发现某个指标(目标指标)出现异常时,将该目标指标对应的多维时间序列信息需要按照一定的格式上报到数据层。
若目标指标为率值指标,对于该指标执行率值指标转换策略。计算目标指标曲线和相应的量值指标曲线的第一相似度,若第一相似度较高,则判定目标指标为率值指标,将目标指标的智能下钻任务转换成相应量值指标的智能下钻。
2、数据层
由数据层进行格式解析及转换、数据预处理及加工存储等操作,得到以下内容:时间戳、维度、指标、元素等。
3、粗选层
利用统计分析或者机器学习算法统计目标指标在异常时间段内每个维度各个元素出现的频率,过滤掉每个维度下没有发生异常变化或出现频率极小的元素,通过对肯定不是异常根因的元素进行排查,完成初步的、简单的预处理操作。
4、精选层
利用机器学习算法,提供基于时间序列的异常检测算法和基于熵的智能下钻方法,这两种方法的实现过程可以如下:
1)基于时间序列的异常检测算法:采用多种时间序列异常检测方法判断该目标指标下的时间序列是否发生异常,通过多种方法判定元素是否为异常根因。具体的:对于每一维度下的元素,根据历史时刻的正常监控信息,预测出未来时间内本来应该为正常的预测值,通过将预测值与实际故障值进行对比,当两者的残差达到算法设定的阈值时,认为对应的元素为异常根因。通过对所有元素进行异常检测,进而筛选出异常时刻可能的异常根因。
2)基于熵的智能多维下钻分析:对于异常KPI,计算异常时间内所有维度下所有元素的后验概率分布Q以及在正常时间内的先验概率分布P,通过KL散度KL(P||Q)或交叉熵JSD(P,Q)计算概率分布P、Q之间的第一相似度,得到所有元素的交叉熵值(S);同时过滤掉S值较小的元素,从而筛选出可疑的元素即异常根因;对于筛选得到的异常根因的每一维度,将元素依据S值大小降序排列,从上到下依次对排序后的所有元素计算其变化在指标变化总量中的比例(EP);过滤掉EP值较小的元素,剩下的所有元素作为该维度下的异常根因集合。对所有维度执行以上操作,从而得到所有维度下的异常根因集合(也可以简称为异常根因)。
5、规则层
针对不同业务,可选择两种方式中的一种对异常根因排序输出。方式一:计算所有元素的影响范围面,从大到小降序输出;方式二:根据所有元素的EP值大小降序输出。
本实施例提供的监控信息异常的定位方法,至少具有以下有益效果:
1)准确率高:通过对告警信息的异常检测,提出基于时间序列的异常检测算法和基于熵的智能多维下钻分析等两种算法,异常定位准确率高;
2)预测效率高:率值指标转换策略可以将根因分析的时间缩短一半左右;
3)缩短人工定位时间:通常人工定位产生故障的时间大于10分钟,使用本发明实施例的方案之后,可以在1分钟内定位出异常根因;
4)定制化展示:针对不同业务可自定义选择根据元素影响范围或者异常占比的大小输出根因集合,具有更好的选择自由度和业务针对性。
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。
基于与上述实施例中的监控信息异常的定位方法相同的思想,本发明还提供监控信息异常的定位装置,该装置可用于执行上述监控信息异常的定位方法。为了便于说明,监控信息异常的定位装置实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
在一个实施例中,如图9所示,提供一种监控信息异常的定位装置包括监控信息获取模块901、监控信息比对模块902和定位信息输出模块903,详细说明如下:
监控信息获取模块901,用于若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定。
监控信息比对模块902,用于将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
定位信息输出模块903,用于根据所述异常元素信息输出异常定位信息。
本实施例提供的监控信息异常的定位装置,在目标指标出现异常时,确定正常监控信息和异常监控信息,并通过正常监控信息和异常监控信息的比对快速确定异常监控信息中的异常元素信息,在得到异常元素信息后输出对应的异常定位信息,能有效提高监控信息异常的定位效率。
在一个实施例中,监控信息比对模块,包括:相似度计算子模块,用于计算所述异常监控信息和所述正常监控信息中各个元素信息的第一相似度;异常信息筛选子模块,用于根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
在一个实施例中,第一相似度计算子模块,包括:后验概率分布计算单元,用于计算所述正常监控信息各个元素信息的先验概率分布和所述异常监控信息各个元素信息的后验概率分布;先验概率分布计算单元,用于计算所述先验概率分布和所述后验概率分布的相对熵和/或交叉熵,作为所述第一相似度。
在一个实施例中,定位信息输出模块,包括:排序子模块,用于按照所述第一相似度对所述异常元素信息进行排序;定位信息输出子模块,用于按照排序结果输出所述异常定位信息。
在一个实施例中,监控信息比对模块,还用于按照时间序列异常检测算法,通过所述正常监控信息预测所述异常时间段的监控信息,得到预测监控信息,并将所述预测监控信息与所述异常监控信息进行比对。
在一个实施例中,监控信息异常的定位装置,还包括:时间信息确定模块,用于确定异常时间段和预先设定的历史时间窗口;所述历史时间窗口包含有过渡时间段,所述过渡时间段为正常信息结束到异常信息起始之间的时间段;时间段确定模块,用于从所述历史时间窗口中去除所述过渡时间段,得到所述正常时间段。
在一个实施例中,监控信息比对模块,还用于通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
在一个实施例中,所述监控信息比对模块,还用于将所述异常监控信息和所述正常监控信息输入到预先训练的第一机器学习模型的目标函数中;通过所述目标函数计算所述异常监控信息和所述正常监控信息的第一相似度,作为所述比对结果;根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
在一个实施例中,所述监控信息比对模块,还用于将所述正常监控信息输入到预先训练的第二机器学习模型中,通过所述第二机器学习模型预测所述异常时间段的监控信息,得到预测监控信息;将所述预测监控信息与所述异常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
在一个实施例中,所述目标指标包括率值指标和量值指标;其中,所述率值指标通过对应的量值指标运算得到;所述监控信息异常的定位装置,还包括:指标转换模块,用于若所述目标指标为率值指标,将所述目标指标转换为对应的量值指标;维度确定模块,用于根据经过量值指标转换的目标指标确定对应的目标维度;所述目标指标的元素信息由所述目标维度对应的元素信息经过运算得到。
在一个实施例中,所述指标转换模块,包括:相似度确定子模块,用于确定所述目标指标和所述量值指标的第二相似度;指标转换子模块,用于若所述第二相似度高于预设的相似度阈值,则将所述目标指标转换为对应的量值指标。
在一个实施例中,所述定位信息输出模块,还用于从所述目标指标中确定所述异常元素信息对应的指标,确定所述异常元素信息对应的指标在所述目标指标中的占比;按照所述占比的大小顺序输出所述异常定位信息。
在一个实施例中,所述定位信息输出模块,还用于确定所述异常元素信息相对于正常元素信息的变化量,作为异常变化量,以及,确定所述正常监控信息中的各个元素信息相对于所述正常元素信息的变化量,作为总变化量;所述正常元素信息为所述正常监控信息对应的元素信息;计算所述异常变化量相对于所述总变化量的变化量比例;按照所述变化量比例的大小顺序输出异常定位信息。
需要说明的是,本发明的监控信息异常的定位装置与本发明的监控信息异常的定位方法一一对应,在上述监控信息异常的定位方法的实施例阐述的技术特征及其有益效果均适用于监控信息异常的定位装置的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
此外,上述示例的监控信息异常的定位装置的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述监控信息异常的定位装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
在一个实施例中,本申请提供的监控信息异常的定位装置可以实现为一种计算机程序的形式,计算机程序可在如图1所示的计算机设备上运行。计算机设备的存储器中可存储组成该监控信息异常的定位装置的各个程序模块,比如,图9所示的监控信息获取模块901、监控信息比对模块902和定位信息输出模块903。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的监控信息异常的定位方法中的步骤。
例如,图1所示的计算机设备可以通过如图9所示的监控信息异常的定位装置中的监控信息获取模块901执行S201,可通过监控信息比对模块902执行S202,可通过定位信息输出模块903执行S203。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述监控信息异常的定位方法的步骤。此处监控信息异常的定位方法的步骤可以是上述各个实施例的监控信息异常的定位方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述监控信息异常的定位方法的步骤。此处监控信息异常的定位方法的步骤可以是上述各个实施例的监控信息异常的定位方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、信息库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双信息率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (16)

1.一种监控信息异常的定位方法,其特征在于,包括:
若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定;
将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息;
根据所述异常元素信息输出异常定位信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:
计算所述异常监控信息和所述正常监控信息中各个元素信息的第一相似度;
根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
3.根据权利要求2所述的方法,其特征在于,所述计算所述异常监控信息和所述正常监控信息各个元素信息的第一相似度的步骤,包括:
计算所述正常监控信息各个元素信息的先验概率分布和所述异常监控信息各个元素信息的后验概率分布;
计算所述先验概率分布和所述后验概率分布的相对熵和/或交叉熵,作为所述第一相似度。
4.根据权利要求2所述的方法,其特征在于,所述根据所述异常元素信息输出异常定位信息的步骤,包括:
按照所述第一相似度对所述异常元素信息进行排序;
按照排序结果输出所述异常定位信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述异常监控信息和所述正常监控信息进行比对的步骤,包括:
按照时间序列异常检测算法,通过所述正常监控信息预测所述异常时间段的监控信息,得到预测监控信息,并将所述预测监控信息与所述异常监控信息进行比对。
6.根据权利要求1所述的方法,其特征在于,所述若接收到指标异常信息,获取异常监控信息和正常监控信息的步骤之前,还包括:
确定异常时间段和预先设定的历史时间窗口;所述历史时间窗口包含有过渡时间段,所述过渡时间段为正常信息结束到异常信息起始之间的时间段;
从所述历史时间窗口中去除所述过渡时间段,得到所述正常时间段。
7.根据权利要求1所述的方法,其特征在于,所述将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:
通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
8.根据权利要求7所述的方法,其特征在于,所述通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:
将所述异常监控信息和所述正常监控信息输入到预先训练的第一机器学习模型的目标函数中;通过所述目标函数计算所述异常监控信息和所述正常监控信息的第一相似度,作为所述比对结果;根据所述第一相似度从所述异常监控信息的元素信息中筛选出异常元素信息。
9.根据权利要求7所述的方法,其特征在于,所述通过预先训练的机器学习模型将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息的步骤,包括:
将所述正常监控信息输入到预先训练的第二机器学习模型中,通过所述第二机器学习模型预测所述异常时间段的监控信息,得到预测监控信息;将所述预测监控信息与所述异常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息。
10.根据权利要求1所述的方法,其特征在于,所述目标指标包括率值指标和量值指标;其中,所述率值指标通过对应的量值指标运算得到;
所述获取异常监控信息和正常监控信息的步骤之前,还包括:
若所述目标指标为率值指标,将所述目标指标转换为对应的量值指标;
根据经过量值指标转换的目标指标确定对应的目标维度;所述目标指标的元素信息由所述目标维度对应的元素信息经过运算得到。
11.根据权利要求10所述的方法,其特征在于,所述将所述目标指标转换为对应的量值指标的步骤,包括:
确定所述目标指标和所述量值指标的第二相似度;
若所述第二相似度高于预设的相似度阈值,则将所述目标指标转换为对应的量值指标。
12.根据权利要求1至11任一项所述的方法,其特征在于,所述根据所述异常元素信息输出异常定位信息的步骤,包括:
从所述目标指标中确定所述异常元素信息对应的指标,确定所述异常元素信息对应的指标在所述目标指标中的占比;
按照所述占比的大小顺序输出所述异常定位信息。
13.根据权利要求1至11任一项所述的方法,其特征在于,所述根据所述异常元素信息输出异常定位信息的步骤,包括:
确定所述异常元素信息相对于正常元素信息的变化量,作为异常变化量,以及,确定所述正常监控信息中的各个元素信息相对于所述正常元素信息的变化量,作为总变化量;所述正常元素信息为所述正常监控信息对应的元素信息;
计算所述异常变化量相对于所述总变化量的变化量比例;
按照所述变化量比例的大小顺序输出异常定位信息。
14.一种监控信息异常的定位装置,其特征在于,包括:
监控信息获取模块,用于若接收到指标异常信息,获取异常监控信息和正常监控信息;所述指标异常信息用于指示目标指标出现异常;所述目标指标对应有目标维度;所述目标维度中包含的元素信息用于表征监控信息;所述异常监控信息和正常监控信息中分别包含有异常时间段和正常时间段在所述目标维度下的元素信息;所述异常时间段为发生异常的时间段;所述正常时间段根据所述异常时间段确定;
监控信息比对模块,用于将所述异常监控信息和所述正常监控信息进行比对,根据比对结果确定所述异常监控信息中出现异常的异常元素信息;
定位信息输出模块,用于根据所述异常元素信息输出异常定位信息。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13任一项所述的方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13任一项所述的方法的步骤。
CN202010067104.XA 2020-01-20 2020-01-20 监控信息异常的定位方法、装置、计算机设备及存储介质 Active CN111314173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010067104.XA CN111314173B (zh) 2020-01-20 2020-01-20 监控信息异常的定位方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010067104.XA CN111314173B (zh) 2020-01-20 2020-01-20 监控信息异常的定位方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111314173A true CN111314173A (zh) 2020-06-19
CN111314173B CN111314173B (zh) 2022-04-08

Family

ID=71160801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010067104.XA Active CN111314173B (zh) 2020-01-20 2020-01-20 监控信息异常的定位方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111314173B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016050A (zh) * 2020-08-07 2020-12-01 汉威科技集团股份有限公司 一种基于流形学习的cems系统异常数据监控方法
CN112800828A (zh) * 2020-12-18 2021-05-14 零八一电子集团有限公司 地面栅格占有概率目标轨迹方法
CN113010805A (zh) * 2021-02-23 2021-06-22 腾讯科技(深圳)有限公司 指标数据的处理方法、装置、设备及存储介质
CN113128875A (zh) * 2021-04-22 2021-07-16 阳光保险集团股份有限公司 一种面向多维数据集的指标异常的根因定位方法及装置
CN113420422A (zh) * 2021-05-31 2021-09-21 济南浪潮数据技术有限公司 一种告警日志占比预测方法、系统、设备以及介质
CN113778836A (zh) * 2021-11-11 2021-12-10 深圳市明源云科技有限公司 云原生应用健康监测方法、装置、设备与可读存储介质
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN118118367A (zh) * 2024-04-30 2024-05-31 浪潮通用软件有限公司 一种物联网时序数据的凝时回放方法、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140096249A1 (en) * 2009-11-06 2014-04-03 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US9009825B1 (en) * 2013-06-21 2015-04-14 Trend Micro Incorporated Anomaly detector for computer networks
CN108683530A (zh) * 2018-04-28 2018-10-19 北京百度网讯科技有限公司 多维度数据的数据分析方法、装置及存储介质
CN108848515A (zh) * 2018-05-31 2018-11-20 武汉虹信技术服务有限责任公司 一种基于大数据的物联网业务质量监测平台及方法
CN109254865A (zh) * 2018-09-25 2019-01-22 江苏润和软件股份有限公司 一种基于统计分析的云数据中心服务异常根因定位方法
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备
CN110134566A (zh) * 2019-04-29 2019-08-16 国网上海市电力公司 一种基于标签技术的云环境下信息系统性能监测方法
CN110147945A (zh) * 2019-04-30 2019-08-20 阿里巴巴集团控股有限公司 一种数据波动的处理方法、装置及设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140096249A1 (en) * 2009-11-06 2014-04-03 Cataphora, Inc. Continuous anomaly detection based on behavior modeling and heterogeneous information analysis
US9009825B1 (en) * 2013-06-21 2015-04-14 Trend Micro Incorporated Anomaly detector for computer networks
CN108683530A (zh) * 2018-04-28 2018-10-19 北京百度网讯科技有限公司 多维度数据的数据分析方法、装置及存储介质
CN108848515A (zh) * 2018-05-31 2018-11-20 武汉虹信技术服务有限责任公司 一种基于大数据的物联网业务质量监测平台及方法
CN109254865A (zh) * 2018-09-25 2019-01-22 江苏润和软件股份有限公司 一种基于统计分析的云数据中心服务异常根因定位方法
CN109992479A (zh) * 2019-03-31 2019-07-09 西安电子科技大学 一种多维度kpi数据异常定位方法、装置及计算机设备
CN110134566A (zh) * 2019-04-29 2019-08-16 国网上海市电力公司 一种基于标签技术的云环境下信息系统性能监测方法
CN110147945A (zh) * 2019-04-30 2019-08-20 阿里巴巴集团控股有限公司 一种数据波动的处理方法、装置及设备

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016050A (zh) * 2020-08-07 2020-12-01 汉威科技集团股份有限公司 一种基于流形学习的cems系统异常数据监控方法
CN112016050B (zh) * 2020-08-07 2023-11-21 汉威科技集团股份有限公司 一种基于流形学习的cems系统异常数据监控方法
CN112800828A (zh) * 2020-12-18 2021-05-14 零八一电子集团有限公司 地面栅格占有概率目标轨迹方法
CN113010805A (zh) * 2021-02-23 2021-06-22 腾讯科技(深圳)有限公司 指标数据的处理方法、装置、设备及存储介质
CN113010805B (zh) * 2021-02-23 2023-09-01 腾讯科技(深圳)有限公司 指标数据的处理方法、装置、设备及存储介质
CN113128875A (zh) * 2021-04-22 2021-07-16 阳光保险集团股份有限公司 一种面向多维数据集的指标异常的根因定位方法及装置
CN113128875B (zh) * 2021-04-22 2024-02-27 阳光保险集团股份有限公司 一种面向多维数据集的指标异常的根因定位方法及装置
CN113420422A (zh) * 2021-05-31 2021-09-21 济南浪潮数据技术有限公司 一种告警日志占比预测方法、系统、设备以及介质
CN113778836A (zh) * 2021-11-11 2021-12-10 深圳市明源云科技有限公司 云原生应用健康监测方法、装置、设备与可读存储介质
CN116661426A (zh) * 2023-07-14 2023-08-29 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN116661426B (zh) * 2023-07-14 2023-09-22 创域智能(常熟)网联科技有限公司 传感器运行控制系统的异常ai诊断方法及系统
CN118118367A (zh) * 2024-04-30 2024-05-31 浪潮通用软件有限公司 一种物联网时序数据的凝时回放方法、设备及介质

Also Published As

Publication number Publication date
CN111314173B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN111314173B (zh) 监控信息异常的定位方法、装置、计算机设备及存储介质
US7437281B1 (en) System and method for monitoring and modeling system performance
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
US7082381B1 (en) Method for performance monitoring and modeling
US8065568B2 (en) Communication network failure detection system, and communication network failure detection method and failure detection program
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
US20140258187A1 (en) Generating database cluster health alerts using machine learning
CN109656918A (zh) 流行病发病指数的预测方法、装置、设备及可读存储介质
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
US7197428B1 (en) Method for performance monitoring and modeling
CN105677791A (zh) 用于分析风力发电机组的运行数据的方法和系统
CN111177714A (zh) 异常行为检测方法、装置、计算机设备和存储介质
CN111625516A (zh) 检测数据状态的方法、装置、计算机设备和存储介质
US7369967B1 (en) System and method for monitoring and modeling system performance
CN113760670A (zh) 电缆接头异常预警方法、装置、电子设备和存储介质
CN113822366A (zh) 业务指标异常检测方法及装置、电子设备、存储介质
CN112669188A (zh) 危机事件预警模型构建、危机事件预警方法和电子设备
CN111091276A (zh) 企业风险评分方法、装置、计算机设备和存储介质
CN111767193A (zh) 一种服务器数据异常检测方法、装置、存储介质及设备
CN111340287A (zh) 配电柜运行状态预测方法及装置
CN112699048B (zh) 基于人工智能的程序故障处理方法、装置、设备及存储介质
CN113642672A (zh) 医保数据的特征加工方法、装置、计算机设备及存储介质
CN116743637B (zh) 一种异常流量的检测方法、装置、电子设备及存储介质
CN113470799A (zh) 一种医院综合质量监督平台智能化编辑器
CN110995506B (zh) 告警量异常的定位方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024861

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant