CN106991033A - 通知告警消息的方法、装置、服务器及可读存储介质 - Google Patents

通知告警消息的方法、装置、服务器及可读存储介质 Download PDF

Info

Publication number
CN106991033A
CN106991033A CN201710212997.0A CN201710212997A CN106991033A CN 106991033 A CN106991033 A CN 106991033A CN 201710212997 A CN201710212997 A CN 201710212997A CN 106991033 A CN106991033 A CN 106991033A
Authority
CN
China
Prior art keywords
alarm information
alarm
type
assignment
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710212997.0A
Other languages
English (en)
Inventor
陈伯龙
孙洪龙
何晓阳
何冰清
黄东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Oneapm Communication Technology Co Ltd
Original Assignee
Beijing Oneapm Communication Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Oneapm Communication Technology Co Ltd filed Critical Beijing Oneapm Communication Technology Co Ltd
Priority to CN201710212997.0A priority Critical patent/CN106991033A/zh
Publication of CN106991033A publication Critical patent/CN106991033A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了通知告警消息的方法、装置、服务器及可读存储介质。其中,通知告警消息的方法包括下述步骤。获取告警消息。确定与该告警消息相关的分派类型集合。该集合中每个分派类型包括分派规则和按照优先级划分的多组通知对象。该分派规则包括至少一个特征项。根据该分派类型集合所包含的特征项,从告警消息中提取每个特征项对应的特征值。根据所提取每个特征项对应的特征值,判断该告警消息是否与分派类型集合中一个分派类型相匹配。在确定相匹配的分派类型时,发送该告警消息到所确定的分派类型的第一优先级的通知对象。

Description

通知告警消息的方法、装置、服务器及可读存储介质
技术领域
本发明涉及IT运维领域,尤其涉及通知告警消息的方法、装置、服务器及可读存储介质。
背景技术
随着互联网的发展,IT技术已应用到多个领域。ITOM(IT Operation Mangement,IT运营管理)已成为IT设备管理的重要环节。IT运营管理例如可以包括监控和告警。在面对大量的运维工作时,ITOM通常会采用诸如zabbix、nagios等监控工具。
现有的这些监控工具通常基于单次监控内容(服务或指标)而产生告警。例如,告警和通知之间基本上是1对1的关系。具体而言,监控工具基于阈值、门线等,在触发一个原始告警事件时进行一次通知。另外,现有的监控工具对告警时间的分派方式并没有进行太多考虑,而只是简单发送每一条原始告警时间。
为此,本发明提出了一种新的通知告警消息的技术方案。
发明内容
本发明提供一种新的通知告警消息的技术方案,有效地解决了上述至少一个问题。
根据本发明的一个方面,提供了一种通知告警消息的方法,适于在告警服务器中执行。该方法包括下述步骤。获取告警消息。确定与该告警消息相关的分派类型集合。该集合中每个分派类型包括分派规则和按照优先级划分的多组通知对象。该分派规则包括至少一个特征项。根据该分派类型集合所包含的特征项,从告警消息中提取每个特征项对应的特征值。根据所提取每个特征项对应的特征值,判断该告警消息是否与分派类型集合中一个分派类型相匹配。在确定相匹配的分派类型时,发送该告警消息到所确定的分派类型的第一优先级的通知对象。
可选地,根据本发明的通知告警消息的方法还包括:在发送告警消息后的预定时长内,等待接收的第一优先级的通知对象的响应消息。在未接收到响应消息时,发送该告警消息到下一优先级的通知对象。在接收到响应消息时,向该告警消息所匹配分派类型的多组通知对象发送对应该响应消息的通知消息。
可选地,在根据本发明的通知告警消息的方法中,所获取告警消息包括下述多个内容中至少一个:告警对象标识,告警时间,告警详情描述,异常等级,告警所属服务标识和告警业务标签。第一优先级的通知对象包括下述中至少一种:短信客户端、微信客户端和邮件客户端。
可选地,在根据本发明的通知告警消息的方法中,确定与该告警消息相关的分派类型集合的步骤包括:确定该告警消息的分派标识,选定与该分派标识相关的分派类型集合。
可选地,根据本发明的通知告警消息的方法还包括:接收分派标识对应的用户输入,以配置相应分派类型中分派规则。
可选地,在根据本发明的通知告警消息的方法中,获取告警消息的步骤包括下述子步骤。接收来自多个性能监控设备的多条原始事件消息。每条原始事件消息由其对应的性能监控设备监测至少一个计算设备而生成。对所接收的多条原始事件消息执行聚类操作,以便将满足相似度条件的原始事件消息聚合为一个告警类。选择告警类中发生时间最早的原始事件消息作为一条告警消息。
根据本发明又一个方面,提供一种通知告警消息的装置,适于驻留在告警服务器中。该装置包括接收单元、提取单元、匹配单元和分派单元。其中,接收单元适于获取告警消息。提取单元适于确定与该告警消息相关的分派类型集合。该集合中每个分派类型包括分派规则和按照优先级划分的多组通知对象。该分派规则包括至少一个特征项。根据该分派类型集合所包含的特征项,提取单元从告警消息中提取每个特征项对应的特征值。匹配单元根据所提取每个特征项对应的特征值,判断该告警消息是否与分派类型集合中一个分派类型相匹配。在匹配单元确定相匹配的分派类型时,分派单元发送该告警消息到所确定的分派类型的第一优先级的通知对象。
可选地,在根据本发明的通知告警消息的装置中,分派单元还适于在发送告警消息后的预定时长内,等待接收所述的第一优先级的通知对象的响应消息。在未接收到所述响应消息时,分派单元发送该告警消息到下一优先级的通知对象。在接收到所述响应消息时,分派单元向该告警消息所匹配分派类型的多组通知对象发送对应该响应消息的通知消息。
可选地,根据本发明的通知告警消息的装置还包括配置单元,适于接收分派标识对应的用户输入,以配置相应分派类型中分派规则。
根据本发明的又一个方面,提供一种服务器,包括一个或多个处理器,存储器,以及一个或多个程序。其中,所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行。所述一个或多个程序包括用于执行根据本发明的通知告警消息的方法中的任一方法的指令。
根据本发明的又一个方面,提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据本发明的通知告警消息的方法中的任一方法。
根据本发明的通知告警消息的技术方案,可以判断告警消息与分配类型是否匹配。在确定分配类型后,告警消息可以将告警消息发送到该分配类型对应的通知对象。由于分配类型可以被配置为各种条件表达式(例如包含多个特征项的正则表达式等),因此,本发明的技术方案可以精准通知告警消息,而不是简单将告警消息发送到运维相关的所有人员。另外,本发明的技术方案可以对每个分派类型对应的通知对象进行分级告警(首先通知高优先级的通知对象,在未收到响应的情况下再通知下一个优先级的通知对象),以便告警消息被分级认领。这样,本发明的方案可以极大节省运维人员的精力,提高解决故障的效率。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一些实施例的通知告警消息的系统100的示意图;
图2示出了根据本发明的一些实施例的聚合事件消息的应用200的示意图;
图3示出了根据本发明一些实施例的通知告警消息的方法300的流程图;
图4示出了根据本发明一个实施例的配置分派规则的界面示意图;
图5示出了根据本发明一些实施例的通知告警消息的方法500的流程图以及
图6示出了根据本发明一些实施例的通知告警消息的装置600的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一些实施例的通知告警消息的系统100的示意图。
如图1所示,系统100包括性能监控设备110-1、...、110-N、聚合服务器120和告警服务器130。每个性能监控设备(110-N)是指驻留有例如zabbix、nagios、阿里云或者solarwinds等监控工具的平台,但不限于此。通常,性能监控设备适于对计算设备进行性能监控。这里,计算设备可以是单个物理实体的计算装置,例如应用服务器、数据库服务器或者超算中心节点等。计算设备也可以是分布式集群。换言之,计算设备可以包括多个分布式布置的服务节点或者数据库节点等。取决于期望的配置,性能监控设备可以对计算设备中内存占用、CPU占用、磁盘占用、网络数据吞吐、业务应用等各种性能数据进行监控。
聚合服务器120既可以是单个物理实体,也可以是分布式应用,本发明对此不作过多限制。聚合服务器120可以与一个或者多个性能监控设备进行直接或间接通信,以从每个性能监控设备获取与监控相关的原始事件消息。通常原始事件消息可以是针对计算设备故障的告警事件消息,但不限于此。针对不同的性能监控设备,聚合服务器120可以采用多种方式来获取原始事件消息。
在根据本发明一个实施例中,性能监控设备可以驻留一个事件采集应用,例如采集探针(agent)。采集探针可以从性能监控设备中驻留的监控工具获取原始事件消息。具体而言,采集探针可以被配置为定时(例如,周期为1分钟,但不限于此)访问监控工具,通过监控工具的公开API、数据文件或者相关数据库来获取事件消息。另外,采集探针还可以被配置为监听监控工具的通知消息。采集探针可以通过SNMP Trap(简单网络协议捕获)等监听方式来获取事件消息。
在根据本发明又一个实施例中,性能监控设备的监控工具(例如Open-Falcon等)可以被配置为直接与告警服务器进行通信,并传输所生成的原始事件消息。又例如,性能监控设备可以将与其监控的计算设备相关的事件消息发布到一个消息队列(例如存储在一个分布式数据库)中。聚合服务器120可以从这个消息队列获取来自这个性能监控设备的原始事件消息。需要说明的是,除了上述对获取事件消息的示例性说明,根据本发明的实施例也可以采用其他公知的方式从一个或多个性能监控设备(也可以称为监控系统)获取原始事件消息,本发明对比不做过多限制。
如上所述,根据本发明的聚合服务器120可以获取一个或多个性能监控设备的原始事件消息。在此基础上,本发明的聚合服务器120可以进一步对来自同一个性能监控设备的多条原始事件消息或者来自不同性能监控设备的多条原始事件消息进行聚合。进一步,对于聚合服务器所生成的每个类(也可以称为一个告警类),其发生时间最早的原始事件消息可以作为一条告警消息。在此基础上,告警服务器130可以根据分派策略将这条告警消息通知到相应的客户端。这里,客户端例如是短信客户端、微信客户端和邮件客户端等,但不限于此。另外说明的是,告警服务器130既可以是独立的服务器,也可以与聚合服务器120部署在相同的硬件设备上,本发明对此不做限制。
下面将结合图2对聚合服务器120的聚合实现过程进行说明。
图2示出了根据本发明的一些实施例的聚合事件消息的应用200的示意图。应用200适于驻留在聚合服务器(120)中。应用200包括消息获取单元210、消息合并单元220和消息聚合单元230。
消息获取单元210适于获取由至少一个性能监控设备对至少一个计算设备进行监控而生成的多条原始事件消息。消息获取单元210获取原始事件消息的具体方式与图1说明中聚合服务器120的方式一致,这里不再赘述。每条原始事件消息可以包括所对应的性能监控设备的第一标识、标识触发该事件的计算设备的第二标识、标识该事件的第三标识和该事件所对应的触发时间点。但不限于此,原始事件消息还可以包括更多的信息内容。这里,第三标识可以是与事件内容(例如,故障类型标识和故障简述等)相关的标识。可选地,每条原始事件消息还包括标识所对应的计算设备所在的集群的第四标识。这里,计算设备所在的集群是该计算设备所在的网络分组。在根据本发明一个实施例中,原始事件消息的数据格式如下:
关于上述数据格式的参数项说明如下:
在采用上述数据格式的一个实施例中,第一标识为“app”,第二标识为“entityName”,第三标识为“eventId”,触发时间点(上述格式未示出)例如为性能监控设备监测到计算设备发生异常的时间点。
在根据本发明一个实施例中,消息合并单元220适于根据第二标识和第三标识对多条原始事件消息进行分组。消息合并单元220分别将每组第二标识和第三标识相同的原始事件消息合并为一条合并事件消息。每条合并事件消息还包括其所对应的一组原始事件消息的所有触发时间点所处的触发时间段。每条合并事件消息可以通过开始和结束时间来表示触发时间段。另外,每条合并事件消息还可以包括所合并的原始事件消息的数量。除了根据第二、第三标识进行合并以外,根据本发明的实施例也可以基于原始事件消息其他的属性值来分组并合并为一条合并事件消息,本发明对此不做过多限制。根据本发明一个实施例,所生成的合并事件消息的部分属性值的数据示例如下:
消息聚合单元230适于根据合并事件消息的相似度执行聚类操作,并分别将每类相似度超过阈值的合并事件消息聚合为一簇事件消息。具体而言,根据本发明一个实施例,消息聚合单元230首先计算所生成的合并事件消息两两之间的相似度。然后,消息聚合单元230将两两之间相似度的平均值超过阈值的合并事件消息聚合为一簇事件消息。这里,阈值例如为0.5。另外,消息聚合单元230也可以选择其他公知的聚类方式来实现对合并事件消息的聚类,本发明对此不做过多限制。
下面对任意两条合并事件消息之间相似性的方式进行示例性说明。消息聚合单元230可以选定合并事件消息的属性参数项,并根据所选定的属性参数项对合并事件消息进行相似度计算。在根据本发明一个实施例中,聚合单元230选定的属性参数项包括触发时间段、第二和第四标识。消息聚合单元230可以先计算各属性参数项的相似度,然后计算各个属性参数项的相似度平均值。这样,消息聚合单元230可以将该相似度权重平均值作为这两条合并事件消息之间的相似度。例如时间段相似度、第二标识的相似度和第四标识的相似度的权重相同。消息聚合单元230适于根据下述公式计算这两条合并事件消息的相似度:
其中,sim(X1,X2)为合并事件消息X1和X2之间的相似度,sim1(X1,X2)为X1和X2之间的时间段相似度,sim2(X1,X2)为X1和X2之间的第二标识的相似度,sim3(X1,X2)为X1和X2之间的第四标识的相似度。
下面对触发时间段、第二和第四标识中每一个属性参数项的相似度的计算过程进行示例性说明。
在根据本发明一个实施例中,计算触发时间段相似度的公式如下:
其中,sim1(X1,X2)为合并事件消息X1与X2的时间段相似度。ts(X1)表示X1的触发时间段的开始时间点。ts(X2)表示X2的触发时间段的开始时间点。te(X1)表示X1的触发时间段的结束时间点。te(X2)表示X2的触发时间段的结束时间点。T为时间阈值,可以表示时间点之间的相关度。相似度值在[0,1]的区间上。sim1(X1,X2)的分别在3种情况下有不同的相似度值。
消息聚合单元230计算第二标识相似度的方式如下:
sim2(X1,X2)=(SUM-LDIST)/SUM
其中,sim2(X1,X2)为合并消息X1和X2之间的第二标识的相似度,SUM为X1和X2的字符串的长度总和,LDIST为X1和X2之间的第二标识的莱文斯坦距离。
消息聚合单元230计算第四标识相似度的方式如下:
sim3(X1,X2)=len(X1∩X2)/max(len(X1),len(X2))
其中,sim3(X1,X2)为X1和X2之间的第四标识的相似度,len(X1∩X2)为X1和X2之间字符串交集的长度。
通过上述基于相似度的聚合过程,消息聚合单元230可以将多条合并事件消息聚合为多簇事件消息。下述的数据格式为前文所示的10条合并事件消息聚合为多簇事件消息后的数据示例:
0:[[1460344041,1460344281,'product,mysql','mysql1'],
[1460344061,1460344301,'product,mysql','mysql5'],
[1460344066,1460345866,'product,mysql','mysql3']],
1:[[1460344081,1460344141,'main,class','test1']],
2:[[1460344401,1460344521,'it,app','web1']],
3:[[1460345841,1460347041,'it,app,product','web2']],
4:[[1460350041,1460350641,'it,app,product','web3']],
5:[[1460354841,1460355561,'ct,nagiosmonitor','nagios1']],
6:[[1460347641,1460348541,'saas,zabbixmonitor','zabbix1']],
7:[[1460351241,1460352321,'paas,cluster','redis1']]
如上所示,10条合并事件消息聚合为8个簇:0、1、2、3、4、5、6和7。经验证,mysql1所在的合并事件消息和mysql5所在的合并事件消息的相似度为0.94,mysql1和mysql3相似度为0.65,mysql5和mysql3的相似度为0.65。由此可见,第0簇中每条合并事件消息的两两相似度均大于阈值(例如为0.5)。
另外,性能监控设备生成原始事件消息是一个持续的过程。相应地,消息获取单元210可以从性能监控设备持续获取新的原始事件消息。对于新获取的一条原始事件消息,消息聚合单元230适于计算这条原始事件消息与已有的每簇事件消息之间的相似度。消息聚合单元230适于将这条原始事件消息聚合到与其相似度最高且超过阈值的一簇事件消息中。具体而言,根据本发明一个实施例,消息聚合单元230在计算这条原始事件消息与一簇事件消息的相似度时,首先计算这条原始事件消息与这簇事件消息中每一个合并事件消息的相似度,然后将与每一个合并事件消息的相似度之间的平均值作为这条原始事件消息和该簇的相似度。这样,消息聚合单元230可以确定与这条原始事件消息相似度最高的一簇事件消息。如果最高相似度超过阈值,消息聚合单元230将这条原始事件消息聚合到该簇事件消息中。如果最高相似度未超过阈值,消息聚合单元230为这条原始事件消息创建一个新簇(类)。
综上,根据本发明的聚合事件消息的应用200可以将来自一个或多个性能监控设备的多条原始事件消息进行聚合,从而极大降低了原始事件消息的数据量,并且将不同的原始事件消息进行了准确关联。为了便于本领域技术人员更直观理解聚合事件消息的应用的技术效果,下面以计算设备是MySQL数据库集群的应用场景为例进行说明。数据库集群包括多个数据库节点。当某个节点发生查询慢的性能事件后,引发了其他节点出现性能、负载故障,甚至引发数据库集群性能负载高故障。而数据库集群故障,又会引发业务服务故障。这样,性能监控设备(110-N)会针对每个节点的每个指标项(对应一项故障)生成一条原始事件消息(这里主要是告警内容)。本发明的聚合事件消息的应用可以将这些大量的事件消息进行聚合,从而将异构的数据库集群的故障事件进行精准关联和压缩。这将极大节省运维人员的精力和提高运维效率。
另外说明的是,在根据本发明一些实施例中,除了发生时间最早的原始事件消息作为一条告警消息以外,每个告警类中后续的多个原始事件消息可以合并为一条告警消息。
下面结合图3对告警服务器300的工作过程进行示例性说明。图3示出了根据本发明一些实施例的通知告警消息的方法300的流程图。方法300适于在告警服务器300中执行。
如图3所示,方法300始于步骤S310,获取告警消息。在一个实施例中,告警消息是由聚合时间消息的应用(200)所提供。在又一个实施例中,告警消息还可以直接来自于性能监控设备。每条告警消息可以包括多个特征值。例如,告警消息可以包括告警对象标识(entityId),告警时间,告警详情描述(alarmContent),异常等级(priority),告警所属服务标识(service)和告警业务标签(tag),但不限于此。
在获取到告警消息后,方法300可以执行步骤S320。在步骤S320中,确定与该告警消息相关的分派类型集合。该集合中每个分派类型包括分派规则和按照优先级划分的多组通知对象。该分派规则包括至少一个特征项。根据本发明一个实施例,步骤S320可以确定告警消息的分派标识,然后选定与该分派标识相关的分派类型集合。在根据本发明一个实施例中,确定告警类型集合的代码示例如下:
List<Escalation>es=escalationDAO.query(owner);
这里,分派标识例如可以是根据告警对象标识而确定的用户标识。每个用户标识对应的用户可以对分派类型集合进行配置。相应地,方法300还可以执行接收分派标识对应的用户输入的操作,以配置相应分派类型中分派规则。每个分派类型的分派规则可以是针对告警消息中至少一部分特征项的各种条件表达式,本发明对此不做限制。图4示出了根据本发明一个实施例的配置分派规则的界面示意图。
如图4所示,界面示意图中包括①至⑥共6个视图对象。
①:该复选框当被选择Zabbix和Nagios之一。
②:该复选框可以选择OneAlert,告警级别,告警详情三个特征项之一。
③:该复选框可以选择等于,不等于,在列表中,不在列表中四个条件。在列表中指的是匹配④部分列表中含有的列表项,不在列表中刚好相反。
④:该复选框中的内容会随着②部分的改变而改变。例如,复选框②被配置为OneAlert应用时,复选框④会显示用户所添加的所有平台应用。如果复选框②被配置为告警级别,复选框④显示提醒,警告,严重三个等级选项。如果复选框②被配置为告警内容,复选框④会提示用户输入想要匹配的正则表达式。
⑤:该按钮可以点击添加筛选告警的条件,与之前的条件是and(&&)的关系。
⑥:该按钮也可以点击添加筛选告警的条件,与之前的条件是or(||)的关系。
步骤S320中所确定的分派类型集合可以包含一个或多个特征项。根据该分派类型集合所包含的特征项,方法300可以执行步骤S330。在步骤S330中,从告警消息中提取每个特征项对应的特征值。在根据本发明一个实施例中,提取特征值的代码示例如下:
JSONObject tagObj=new JSONObject();
tagObj.put("app",alarm.get("app"));
tagObj.put("priority",alarm.get("priority"));
tagObj.put("alarmContent",
(String)alarm.get("alarmName")+""+(String)alarm.get("alarmContent"));
tagObj.put("host",alarm.get("host"));
tagObj.put("service",alarm.get("service"));
tagObj.put("tags",alarm.get("tags"));
根据步骤S330中所提取每个特征项对应的特征值,方法300可以执行步骤S340。在步骤S340中,判断该告警消息是否与分派类型集合中一个分派类型相匹配。根据本发明一个实施例,在步骤S340中首先对获取的特征值进行分析,然后根据分析结果与每个分派类型的分派规则进行匹配判断。这里,对特征值进行分析的操作例如是将特征值代入到条件表达式的特征项中(即,利用特征值对条件表达式进行赋值)。相应地,分析结果为已赋值的条件表达式。在根据本发明一个实施例中,步骤S340对应的部分代码示例如下:
在步骤S340中确定相匹配的分派类型时,方法300可以执行步骤S350。在步骤S350中,发送该告警消息到所确定的分派类型的第一优先级的通知对象。这里,通知对象例如是短信客户端、微信客户端和邮件客户端等,但不限于此。
综上,根据本发明的通知告警消息的方法300,通过对告警消息与分派类型进行匹配,可以将告警消息按照类型进行精准通知,而不是将每条告警消息简单通知到所有的运维人员。在此基础上,方法300可以避免运维人员被未准确区分的告警消息的干扰。
图5示出了根据本发明一些实施例的通知告警消息的方法500的流程图。如图5所示,方法500包括步骤S510、S520、S530、S540和S550。这里,步骤S510-S550的实施方式与步骤S310-S350一致,这里不再赘述。
另外,在步骤S550发送告警消息后的预定时长内,方法500还可以执行步骤S560,等待接收第一优先级的通知对象的响应消息。这里,响应消息例如可以是通知对象所返回的认领消息或者表示已解决告警问题的消息,但不限于此。
在预定时长内未接收到所述响应消息时,方法500还可以执行步骤S570,发送该告警消息到下一优先级的通知对象。换言之,方法500在步骤S570中执行告警升级策略。类似地,方法500可以在步骤S570后继续在预定时长内执行步骤S560,以确定步骤S570中通知对象是否返回响应消息。在步骤S570中通知对象未响应时,方法500还可以继续向下一优先级的通知对象发送告警消息,直到所有优先级的通知对象被通知或者被一个优先级的通知对象所响应。
另外,在步骤S560中接收到响应消息时,方法500还可以执行步骤S580。在步骤S580中,向该告警消息所匹配分派类型的多组通知对象发送对应该响应消息的通知消息。
图6示出了根据本发明一些实施例的通知告警消息的装置600的示意图。装置600适于驻留在告警服务器(130)中,但不限于此。
如图6所示,装置600包括接收单元610、提取单元620、匹配单元630和分派单元640。
接收单元610适于获取告警消息。告警消息例如包括下述多个内容中至少一个:告警对象标识,告警时间,告警描述,异常等级,告警所属服务标识和告警业务标签。提取单元620适于确定与该告警消息相关的分派类型集合。该集合中每个分派类型包括分派规则和按照优先级划分的多组通知对象。该分派规则包括至少一个特征项。在一个实施例中,提取单元620确定该告警消息的分派标识,然后选定与该分派标识相关的分派类型集合。根据该分派类型集合所包含的特征项,提取单元620可以从告警消息中提取每个特征项对应的特征值。匹配单元630适于根据所提取每个特征项对应的特征值,判断该告警消息是否与分派类型集合中一个分派类型相匹配。在匹配单元630确定相匹配的分派类型时,分派单元640发送该告警消息到所确定的分派类型的第一优先级的通知对象。这里,第一优先级的通知对象例如可以包括下述中至少一种:短信客户端、微信客户端和邮件客户端。
可选地,在发送告警消息后的预定时长内,分派单元640还可以等待接收第一优先级的通知对象的响应消息。在未接收到响应消息时,分派单元640发送该告警消息到下一优先级的通知对象。反之,在接收到响应消息时,分派单元640向该告警消息所匹配分派类型的多组通知对象发送对应该响应消息的通知消息。
可选地,装置600还可以包括配置单元(未示出)。配置单元可以接收所述分派标识对应用户的输入,以配置相应分派类型中分派规则。
A8、如A1所述的方法,其中,所述获取告警消息的步骤包括:接收来自多个性能监控设备的多条原始事件消息,每条原始事件消息由其对应的性能监控设备监测至少一个计算设备而生成;对所接收的多条原始事件消息执行聚类操作,以便将满足相似度条件的原始事件消息聚合为一个告警类;选择告警类中发生时间最早的原始事件消息作为一条告警消息。
B10、如B9所述的装置,其中,所述分派单元还适于在发送告警消息后的预定时长内,等待接收所述的第一优先级的通知对象的响应消息,在未接收到所述响应消息时,发送该告警消息到下一优先级的通知对象。B11、如B10所述的装置,其中,所述分派单元还适于在接收到所述响应消息时,向该告警消息所匹配分派类型的多组通知对象发送对应该响应消息的通知消息。B12、如B9-B11中任一项所述的装置,其中,所获取告警消息包括下述多个内容中至少一个:告警对象标识,告警时间,告警描述,异常等级,告警所属服务标识和告警业务标签。B13、如B9-B12中任一项所述的装置,其中,所述第一优先级的通知对象包括下述中至少一种:短信客户端、微信客户端和邮件客户端。B14、如B9-B13中任一项所述的装置,其中,所述提取单元适于根据下述方式确定与该告警消息相关的分派类型集合:确定该告警消息的分派标识,选定与该分派标识相关的分派类型集合。B15、如B14所述的装置,还包括配置单元,适于接收所述分派标识对应的用户输入,以配置相应分派类型中分派规则。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种通知告警消息的方法,适于在告警服务器中执行,该方法包括:
获取告警消息;
确定与该告警消息相关的分派类型集合,该集合中每个分派类型包括分派规则和按照优先级划分的多组通知对象,该分派规则包括至少一个特征项;
根据该分派类型集合所包含的特征项,从告警消息中提取每个特征项对应的特征值;
根据所提取每个特征项对应的特征值,判断该告警消息是否与分派类型集合中一个分派类型相匹配;以及
在确定相匹配的分派类型时,发送该告警消息到所确定的分派类型的第一优先级的通知对象。
2.如权利要求1所述的方法,还包括:
在发送告警消息后的预定时长内,等待接收所述的第一优先级的通知对象的响应消息;
在未接收到所述响应消息时,发送该告警消息到下一优先级的通知对象。
3.如权利要求2所述的方法,还包括:
在接收到所述响应消息时,向该告警消息所匹配分派类型的多组通知对象发送对应该响应消息的通知消息。
4.如权利要求1-4中任一项所述的方法,其中,所获取告警消息包括下述多个内容中至少一个:
告警对象标识,告警时间,告警详情描述,异常等级,告警所属服务标识和告警业务标签。
5.如权利要求1-5中任一项所述的方法,其中,所述第一优先级的通知对象包括下述中至少一种:
短信客户端、微信客户端和邮件客户端。
6.如权利要求1-6中任一项所述的方法,其中,所述确定与该告警消息相关的分派类型集合的步骤包括:
确定该告警消息的分派标识,选定与该分派标识相关的分派类型集合。
7.如权利要求6所述的方法,还包括:接收所述分派标识对应的用户输入,以配置相应分派类型中分派规则。
8.一种通知告警消息的装置,适于驻留在告警服务器中,该装置包括:
接收单元,适于获取告警消息;
提取单元,适于确定与该告警消息相关的分派类型集合,该集合中每个分派类型包括分派规则和按照优先级划分的多组通知对象,该分派规则包括至少一个特征项,
根据该分派类型集合所包含的特征项,从告警消息中提取每个特征项对应的特征值;
匹配单元,根据所提取每个特征项对应的特征值,判断该告警消息是否与分派类型集合中一个分派类型相匹配;以及
分派单元,在匹配单元确定相匹配的分派类型时,发送该告警消息到所确定的分派类型的第一优先级的通知对象。
9.一种服务器,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1至7所述的方法中的任一方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至7所述的方法中的任一方法。
CN201710212997.0A 2017-04-01 2017-04-01 通知告警消息的方法、装置、服务器及可读存储介质 Pending CN106991033A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710212997.0A CN106991033A (zh) 2017-04-01 2017-04-01 通知告警消息的方法、装置、服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710212997.0A CN106991033A (zh) 2017-04-01 2017-04-01 通知告警消息的方法、装置、服务器及可读存储介质

Publications (1)

Publication Number Publication Date
CN106991033A true CN106991033A (zh) 2017-07-28

Family

ID=59415343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710212997.0A Pending CN106991033A (zh) 2017-04-01 2017-04-01 通知告警消息的方法、装置、服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN106991033A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统
CN107995030A (zh) * 2017-11-28 2018-05-04 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及系统
CN108055144A (zh) * 2017-10-23 2018-05-18 北京迈特力德信息技术有限公司 一种网络设备的监控方法及系统
CN108171265A (zh) * 2017-12-26 2018-06-15 北京奇艺世纪科技有限公司 一种标签获得方法、装置及电子设备
CN109284215A (zh) * 2018-09-20 2019-01-29 郑州云海信息技术有限公司 一种数据中心的监控平台的告警方法和装置
CN109584518A (zh) * 2018-12-05 2019-04-05 平安科技(深圳)有限公司 机房设备故障告警方法、装置及存储介质
CN110401567A (zh) * 2019-07-25 2019-11-01 中国工商银行股份有限公司 告警数据的处理方法、装置、计算设备、介质
CN110768828A (zh) * 2019-10-22 2020-02-07 北京宝兰德软件股份有限公司 告警处理方法及系统
CN110855648A (zh) * 2019-11-04 2020-02-28 腾讯科技(深圳)有限公司 一种网络攻击的预警控制方法及装置
CN110880982A (zh) * 2018-09-05 2020-03-13 千寻位置网络有限公司 分布式基站的数据监控方法及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680083A (zh) * 2012-09-21 2014-03-26 奥普林克通信公司 事件通知
CN104811327A (zh) * 2014-01-26 2015-07-29 中国移动通信集团江西有限公司 一种监控告警语音自动通知的方法和装置
US20150373564A1 (en) * 2013-02-21 2015-12-24 Zte Corporation Alarm Processing Method and Device, Alarm Associated Information Setting Method
CN105427545A (zh) * 2015-12-30 2016-03-23 山东中创软件商用中间件股份有限公司 基于drools的设备告警管理方法及装置
CN106021063A (zh) * 2016-05-09 2016-10-12 北京蓝海讯通科技股份有限公司 聚合事件消息的方法、应用及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680083A (zh) * 2012-09-21 2014-03-26 奥普林克通信公司 事件通知
US20150373564A1 (en) * 2013-02-21 2015-12-24 Zte Corporation Alarm Processing Method and Device, Alarm Associated Information Setting Method
CN104811327A (zh) * 2014-01-26 2015-07-29 中国移动通信集团江西有限公司 一种监控告警语音自动通知的方法和装置
CN105427545A (zh) * 2015-12-30 2016-03-23 山东中创软件商用中间件股份有限公司 基于drools的设备告警管理方法及装置
CN106021063A (zh) * 2016-05-09 2016-10-12 北京蓝海讯通科技股份有限公司 聚合事件消息的方法、应用及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055144A (zh) * 2017-10-23 2018-05-18 北京迈特力德信息技术有限公司 一种网络设备的监控方法及系统
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统
CN107995030A (zh) * 2017-11-28 2018-05-04 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及系统
CN107995030B (zh) * 2017-11-28 2021-09-14 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及系统
CN107835098B (zh) * 2017-11-28 2021-01-29 车智互联(北京)科技有限公司 一种网络故障检测方法及系统
CN108171265A (zh) * 2017-12-26 2018-06-15 北京奇艺世纪科技有限公司 一种标签获得方法、装置及电子设备
CN110880982A (zh) * 2018-09-05 2020-03-13 千寻位置网络有限公司 分布式基站的数据监控方法及终端
CN109284215A (zh) * 2018-09-20 2019-01-29 郑州云海信息技术有限公司 一种数据中心的监控平台的告警方法和装置
CN109584518A (zh) * 2018-12-05 2019-04-05 平安科技(深圳)有限公司 机房设备故障告警方法、装置及存储介质
CN110401567A (zh) * 2019-07-25 2019-11-01 中国工商银行股份有限公司 告警数据的处理方法、装置、计算设备、介质
CN110401567B (zh) * 2019-07-25 2022-04-26 中国工商银行股份有限公司 告警数据的处理方法、装置、计算设备、介质
CN110768828A (zh) * 2019-10-22 2020-02-07 北京宝兰德软件股份有限公司 告警处理方法及系统
CN110855648A (zh) * 2019-11-04 2020-02-28 腾讯科技(深圳)有限公司 一种网络攻击的预警控制方法及装置
CN110855648B (zh) * 2019-11-04 2021-11-19 腾讯科技(深圳)有限公司 一种网络攻击的预警控制方法及装置

Similar Documents

Publication Publication Date Title
CN106991033A (zh) 通知告警消息的方法、装置、服务器及可读存储介质
US11457029B2 (en) Log analysis based on user activity volume
CN106021063B (zh) 聚合事件消息的方法、应用及系统
CN106130786B (zh) 一种网络故障的检测方法及装置
JP5705307B2 (ja) 動的適応型プロセス発見及び遵守
CN104572401A (zh) 一种告警方法及告警系统
US8903757B2 (en) Proactive information technology infrastructure management
CN111585840B (zh) 服务资源监测方法、装置和设备
CN105407103A (zh) 一种基于多粒度异常检测的网络威胁评估方法
CN101997925A (zh) 具有预警功能的服务器监控方法及其系统
CN106815125A (zh) 一种日志审计方法及平台
CN109670690A (zh) 数据信息中心监控预警方法、系统及设备
EP3742700B1 (en) Method, product, and system for maintaining an ensemble of hierarchical machine learning models for detection of security risks and breaches in a network
CN109684052A (zh) 事务分析方法、装置、设备及存储介质
CN106708700A (zh) 一种应用于服务端的运维监控方法和装置
CN114358106A (zh) 系统异常检测方法、装置、计算机程序产品及电子设备
CN109800133A (zh) 一种统一监控告警的方法、一站式监控告警平台及系统
CN114553596A (zh) 适用于网络安全的多维度安全情况实时展现方法及系统
CN113504996A (zh) 一种负载均衡检测方法、装置、设备及存储介质
CN109634808A (zh) 一种基于关联分析的链式监控事件根因分析方法
CN106027306A (zh) 一种资源监控方法及装置
CN110493218B (zh) 一种态势感知虚拟化的方法和装置
US9929921B2 (en) Techniques for workload toxic mapping
CN108933689A (zh) 一种数据采集系统和方法
CN114238069A (zh) 一种Web应用防火墙测试方法、装置、电子设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170728

RJ01 Rejection of invention patent application after publication