CN108039971A - 一种告警方法及装置 - Google Patents

一种告警方法及装置 Download PDF

Info

Publication number
CN108039971A
CN108039971A CN201711364624.1A CN201711364624A CN108039971A CN 108039971 A CN108039971 A CN 108039971A CN 201711364624 A CN201711364624 A CN 201711364624A CN 108039971 A CN108039971 A CN 108039971A
Authority
CN
China
Prior art keywords
equipment
state
parameter
real
classification results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711364624.1A
Other languages
English (en)
Inventor
冯启东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201711364624.1A priority Critical patent/CN108039971A/zh
Publication of CN108039971A publication Critical patent/CN108039971A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种告警方法以及装置,获取设备的实时状态参数,将所述设备的实时状态参数输入预先训练的分类器,得到设备状态的分类结果,在所述分类结果为非正常的情况下,发出告警信息。使用预先训练的分类器识别设备的状态,而非仅依据固定的阈值,因此,具有更高的准确性和可靠性,在保证不遗漏故障告警的情况下,降低自动化告警的误报率。

Description

一种告警方法及装置
技术领域
本申请涉及电子信息领域,尤其涉及一种告警方法及装置。
背景技术
信息技术(Information Technology,IT)运维是指采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。
所谓IT运维自动化是指通过将日常IT运维中大量的重复性工作(小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。IT运维自动化从诞生发展至今,自动化作为其重要属性之一,已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。IT运维自动化是一组将静态的设备结构转化为根据IT服务需求动态弹性响应的策略,目的就是提高IT运维的质量,并降低维护成本。
自动化告警是自动化IT运维的重要功能之一,自动化告警指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。
现有的自动化告警系统,一般都是针对预先设定的固定条件是否被触发来判断是否告警。例如,设备的内存占用到一定的百分比,或者设备的中央处理器的当前温度达到了预设的温度阈值,则会发出告警。但是在现在的互联网环境下,一些偶尔的内存使用率高占比或者处理器高温是很容易发生的,这并不代表设备就发生了故障。可见,现有的自动化告警系统的误报率比较高。然而,如果条件设置的过低,则有可能遗漏真正的故障。
可见,如何在保证不遗漏故障告警的情况下,降低自动化告警的误报(将正常情况识别为故障而发出告警)率,成为目前亟待解决的问题。
发明内容
本申请提供了一种告警方法及装置,目的在于解决如何在保证不遗漏故障告警的情况下,降低自动化告警的误报率的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种告警方法,包括:
获取设备的实时状态参数;
将所述设备的实时状态参数输入预先训练的分类器,得到设备状态的分类结果;所述分类器使用历史运维数据训练得到,所述历史运维数据包括设备的历史状态、以及在历史状态下的设备的历史状态参数,所述历史状态参数与所述实时状态参数具有相同的参数项;
在所述分类结果为非正常的情况下,发出告警信息。
可选的,所述历史状态参数包括以下参数项中的至少一项:
中央处理器的负荷、内存的使用占比,磁盘的使用占比,网络状态参数、中央处理器的温度值和电源的温度值;
所述实时状态参数包括以下参数项中的至少一项:
所述中央处理器的负荷、所述内存的使用占比,所述磁盘的使用占比、所述网络状态参数、所述中央处理器的温度值和所述电源的温度值。
可选的,所述设备的历史状态包括以下任意一项:
网络异常、内存不足、宕机、磁盘空间满和正常;
所述设备状态的分类结果包括以下任意一项:
所述网络异常、所述内存不足、所述宕机、所述磁盘空间满和所述正常。
可选的,所述发出告警信息包括:
发出非正常的设备的各状态参数以及所述非正常的设备的状态的分类结果。
可选的,所述分类器包括:
k-最近邻算法分类器。
一种告警装置,包括:
获取模块,用于获取设备的实时状态参数;
分类模块,用于将所述设备的实时状态参数输入预先训练的分类器,得到设备状态的分类结果;所述分类器使用历史运维数据训练得到,所述历史运维数据包括设备的历史状态、以及在所述历史状态下的设备的历史状态参数,所述历史状态参数与所述实时状态参数具有相同的参数项;
告警模块,用于在所述分类结果为非正常的情况下,发出告警信息。
可选的,所述历史状态参数包括以下参数项中的至少一项:
中央处理器的负荷、内存的使用占比,磁盘的使用占比,网络状态参数、中央处理器的温度值和电源的温度值;
所述实时状态参数包括以下参数项中的至少一项:
所述中央处理器的负荷、所述内存的使用占比,所述磁盘的使用占比、所述网络状态参数、所述中央处理器的温度值和所述电源的温度值。
可选的,所述设备的历史状态包括以下任意一项:
网络异常、内存不足、宕机、磁盘空间满和正常;
所述设备状态的分类结果包括以下任意一项:
所述网络异常、所述内存不足、所述宕机、所述磁盘空间满和所述正常。
可选的,所述告警模块用于在所述分类结果为非正常的情况下,发出告警信息包括:
所述告警模块具体用于,发出非正常的设备的各状态参数以及所述非正常的设备的状态分类结果。
可选的,所述分类器包括:
k-最近邻算法分类器。
本申请所述的告警方法及装置,使用预先训练的分类器识别设备的状态,而非仅依据固定的阈值,因此,具有更高的准确性和可靠性,在保证不遗漏故障告警的情况下,降低自动化告警的误报率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的告警方法的流程图;
图2为本申请实施例公开的告警装置的结构示意图。
具体实施方式
本申请实施例公开的告警方法以及装置,可以用于监控网络中的设备,例如服务器的运行情况,使用人工智能技术训练识别模型,以多个状态参数识别设备的运行情况,提高故障识别的准确性,在识别出故障后进行告警。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种告警方法,包括以下步骤:
S101:获取历史运维数据。
其中,历史运维数据包括设备的历史状态、以及在历史状态下的设备的历史状态参数。
具体的,设备的历史状态包括但不限于:网络异常、内存不足、宕机、磁盘空间满和正常。
设备的历史状态参数包括但不限于设备的以下参数:中央处理器的负荷、内存的使用占比,磁盘的使用占比,网络状态参数(例如速率)、中央处理器的温度值和电源的温度值。
具体的,可以使用zabbix工具获取历史运维数据。zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。zabbix能监视各种网络设备的参数。
在获取到历史运维数据后,可以将历史运维数据存储在MySQL数据库中。在MySQL数据库中,每一个历史状态以及在该历史状态下的设备的历史状态参数对应存储。
S102:使用历史运维数据,训练k-最近邻算法(K-Nearest Neighbor,KNN)分类器。
KNN算法的核心思想为:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。k通常是不大于20的整数。
在KNN算法中,通过计算对象间的距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离:
欧式距离:曼哈顿距离:
同时,KNN通过依据k个对象中占优的类别进行决策,而不是单一的对象类别决策。
具体的,使用历史运维数据,训练KNN分类器的原理为:将设备的历史状态参数作为输入,将设备的历史状态参数对应的设备的历史状态作为输出的分类结果,训练KNN模型,得到KNN分类器,使得KNN分类器具有以下功能:输入的状态参数更接近哪个历史状态下的历史状态参数,则输入的状态参数对应的状态即为该历史状态。
使用历史运维数据,训练KNN分类器的具体过程(包括训练参数的设定以及训练算法),均可以参见现有技术,这里不再赘述。
S103:获取设备的实时状态参数。
为了保证故障识别的准确性,实时状态参数中包括的参数项,与训练KNN分类器的历史状态参数中包括的参数项一致。也就是说,训练KNN分类器的历史状态参数中包括哪些参数项,实时状态参数中也要包括这些参数项。两者中包括的参数项包括但不限于:设备的以下参数:中央处理器的负荷、内存的使用占比,磁盘的使用占比,网络状态参数(例如速率)、中央处理器的温度值和电源的温度值。
S104:将设备的实时状态参数输入KNN分类器,得到设备状态的分类结果。
分类结果包括但不限于:网络异常、内存不足、宕机、磁盘空间满和正常。
S105:在分类结果为非正常的情况下,发出告警信息。
具体的,告警信息可以通过邮件以及短信发给该设备的联系人,内容包括的非正常的设备的各状态参数以及非正常的设备的状态分类结果(即网络异常、内存不足、宕机、磁盘空间满中的哪种故障)。
从图1所示的过程可以看出,本实施例所述的告警方法,使用预先训练的分类器识别设备的状态,而非仅依据固定的阈值,因此,具有更高的准确性和可靠性,在保证不遗漏故障告警的情况下,降低自动化告警的误报率。
并且,随着分类器的使用,历史运维数据的规模越大,可以反复使用历史运维数据训练KNN分类器,使得KNN分类器具有更高的识别准确性。
图2为本申请实施例公开的一种告警装置,包括:获取模块、分类模块和告警模块。可选的,还可以包括训练模块。
其中,获取模块用于获取设备的实时状态参数。分类模块用于将所述设备的实时状态参数输入预先训练的分类器,得到设备状态的分类结果。所述分类器使用历史运维数据训练得到,所述历史运维数据包括设备的历史状态、以及在所述历史状态下的设备的历史状态参数,所述历史状态参数与所述实时状态参数具有相同的参数项。告警模块用于在所述分类结果为非正常的情况下,发出告警信息。训练模块用于使用历史运维数据训练分类模型,得到所述分类器。
各个模块的功能的具体实现方式可以参见上述方法实施例,这里不再赘述。
所述告警装置可以设置在IT运维自动化系统中,降低自动化告警的误报率。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种告警方法,其特征在于,包括:
获取设备的实时状态参数;
将所述设备的实时状态参数输入预先训练的分类器,得到设备状态的分类结果;所述分类器使用历史运维数据训练得到,所述历史运维数据包括设备的历史状态、以及在所述历史状态下的设备的历史状态参数,所述历史状态参数与所述实时状态参数具有相同的参数项;
在所述分类结果为非正常的情况下,发出告警信息。
2.根据权利要求1所述的方法,其特征在于,所述历史状态参数包括以下参数项中的至少一项:
中央处理器的负荷、内存的使用占比,磁盘的使用占比,网络状态参数、中央处理器的温度值和电源的温度值;
所述实时状态参数包括以下参数项中的至少一项:
所述中央处理器的负荷、所述内存的使用占比,所述磁盘的使用占比、所述网络状态参数、所述中央处理器的温度值和所述电源的温度值。
3.根据权利要求1所述的方法,其特征在于,所述设备的历史状态包括以下任意一项:
网络异常、内存不足、宕机、磁盘空间满和正常;
所述设备状态的分类结果包括以下任意一项:
所述网络异常、所述内存不足、所述宕机、所述磁盘空间满和所述正常。
4.根据权利要求1所述的方法,其特征在于,所述发出告警信息包括:
发出非正常的设备的各状态参数以及所述非正常的设备的状态的分类结果。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述分类器包括:
k-最近邻算法分类器。
6.一种告警装置,其特征在于,包括:
获取模块,用于获取设备的实时状态参数;
分类模块,用于将所述设备的实时状态参数输入预先训练的分类器,得到设备状态的分类结果;所述分类器使用历史运维数据训练得到,所述历史运维数据包括设备的历史状态、以及在所述历史状态下的设备的历史状态参数,所述历史状态参数与所述实时状态参数具有相同的参数项;
告警模块,用于在所述分类结果为非正常的情况下,发出告警信息。
7.根据权利要求6所述的装置,其特征在于,所述历史状态参数包括以下参数项中的至少一项:
中央处理器的负荷、内存的使用占比,磁盘的使用占比,网络状态参数、中央处理器的温度值和电源的温度值;
所述实时状态参数包括以下参数项中的至少一项:
所述中央处理器的负荷、所述内存的使用占比,所述磁盘的使用占比、所述网络状态参数、所述中央处理器的温度值和所述电源的温度值。
8.根据权利要求6所述的装置,其特征在于,所述设备的历史状态包括以下任意一项:
网络异常、内存不足、宕机、磁盘空间满和正常;
所述设备状态的分类结果包括以下任意一项:
所述网络异常、所述内存不足、所述宕机、所述磁盘空间满和所述正常。
9.根据权利要求6所述的装置,其特征在于,所述告警模块用于在所述分类结果为非正常的情况下,发出告警信息包括:
所述告警模块具体用于,发出非正常的设备的各状态参数以及所述非正常的设备的状态分类结果。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述分类器包括:
k-最近邻算法分类器。
CN201711364624.1A 2017-12-18 2017-12-18 一种告警方法及装置 Pending CN108039971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711364624.1A CN108039971A (zh) 2017-12-18 2017-12-18 一种告警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711364624.1A CN108039971A (zh) 2017-12-18 2017-12-18 一种告警方法及装置

Publications (1)

Publication Number Publication Date
CN108039971A true CN108039971A (zh) 2018-05-15

Family

ID=62099776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711364624.1A Pending CN108039971A (zh) 2017-12-18 2017-12-18 一种告警方法及装置

Country Status (1)

Country Link
CN (1) CN108039971A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086187A (zh) * 2018-07-26 2018-12-25 郑州云海信息技术有限公司 一种性能告警方法和装置
CN109474483A (zh) * 2019-01-08 2019-03-15 Oppo广东移动通信有限公司 一种设备异常情况的检测方法、检测装置及终端设备
CN110718022A (zh) * 2018-07-13 2020-01-21 中兴通讯股份有限公司 智能电表的告警方法、服务器及计算机可读存储介质
CN111078503A (zh) * 2019-12-23 2020-04-28 中国建设银行股份有限公司 一种异常监控方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020082886A1 (en) * 2000-09-06 2002-06-27 Stefanos Manganaris Method and system for detecting unusual events and application thereof in computer intrusion detection
CN103745229A (zh) * 2013-12-31 2014-04-23 北京泰乐德信息技术有限公司 一种基于svm的轨道交通故障诊断方法及系统
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式系统中的性能异常预测方法及系统
CN104091070A (zh) * 2014-07-07 2014-10-08 北京泰乐德信息技术有限公司 一种基于时间序列分析的轨道交通故障诊断方法和系统
CN105045256A (zh) * 2015-07-08 2015-11-11 北京泰乐德信息技术有限公司 基于数据对比分析的轨道交通实时故障诊断方法和系统
CN105721194A (zh) * 2016-01-13 2016-06-29 广州衡昊数据科技有限公司 移动网故障隐患智能定位系统
CN105966310A (zh) * 2016-06-29 2016-09-28 苏州大学 一种状态监测方法、终端设备、服务器及状态监测系统
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020082886A1 (en) * 2000-09-06 2002-06-27 Stefanos Manganaris Method and system for detecting unusual events and application thereof in computer intrusion detection
CN103745229A (zh) * 2013-12-31 2014-04-23 北京泰乐德信息技术有限公司 一种基于svm的轨道交通故障诊断方法及系统
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式系统中的性能异常预测方法及系统
CN104091070A (zh) * 2014-07-07 2014-10-08 北京泰乐德信息技术有限公司 一种基于时间序列分析的轨道交通故障诊断方法和系统
CN105045256A (zh) * 2015-07-08 2015-11-11 北京泰乐德信息技术有限公司 基于数据对比分析的轨道交通实时故障诊断方法和系统
CN105721194A (zh) * 2016-01-13 2016-06-29 广州衡昊数据科技有限公司 移动网故障隐患智能定位系统
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
CN105966310A (zh) * 2016-06-29 2016-09-28 苏州大学 一种状态监测方法、终端设备、服务器及状态监测系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110718022A (zh) * 2018-07-13 2020-01-21 中兴通讯股份有限公司 智能电表的告警方法、服务器及计算机可读存储介质
CN109086187A (zh) * 2018-07-26 2018-12-25 郑州云海信息技术有限公司 一种性能告警方法和装置
CN109474483A (zh) * 2019-01-08 2019-03-15 Oppo广东移动通信有限公司 一种设备异常情况的检测方法、检测装置及终端设备
CN111078503A (zh) * 2019-12-23 2020-04-28 中国建设银行股份有限公司 一种异常监控方法及系统

Similar Documents

Publication Publication Date Title
WO2020259421A1 (zh) 一种业务系统的监控方法及装置
CN110851321B (zh) 一种业务告警方法、设备及存储介质
US11348023B2 (en) Identifying locations and causes of network faults
CN105184084B (zh) 一种电力计量自动化终端故障类型预测方法和系统
CN108039971A (zh) 一种告警方法及装置
CN109491850A (zh) 一种磁盘故障预测方法及装置
CN111158977A (zh) 一种异常事件根因定位方法及装置
CN108092836A (zh) 一种服务器的监控方法及装置
CN110740061B (zh) 故障预警方法、装置及计算机存储介质
EP3663919B1 (en) System and method of automated fault correction in a network environment
CN104731664A (zh) 用于故障处理的方法和装置
CN111897705B (zh) 服务状态处理、模型训练方法、装置、设备和存储介质
CN106953766B (zh) 一种报警方法及装置
CN110830438A (zh) 一种异常日志告警方法、装置及电子设备
CN113313280B (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
US10733514B1 (en) Methods and apparatus for multi-site time series data analysis
CN110677304A (zh) 一种分布式问题追踪系统及设备
CN110347694A (zh) 一种基于物联网的设备监控方法、装置及系统
CN113342625A (zh) 一种数据监控方法及系统
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN116089218A (zh) 基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统
CN114356722A (zh) 用于服务器集群的监控告警方法、系统、设备及存储介质
CN115865611A (zh) 一种网络设备的故障处理方法、装置及电子设备
Rafique et al. TSDN-enabled network assurance: A cognitive fault detection architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515