CN106411612A - 一种分布式系统告警分析方法及装置 - Google Patents

一种分布式系统告警分析方法及装置 Download PDF

Info

Publication number
CN106411612A
CN106411612A CN201610996942.9A CN201610996942A CN106411612A CN 106411612 A CN106411612 A CN 106411612A CN 201610996942 A CN201610996942 A CN 201610996942A CN 106411612 A CN106411612 A CN 106411612A
Authority
CN
China
Prior art keywords
event
alarm
information
module
interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610996942.9A
Other languages
English (en)
Inventor
杨德华
邱友升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wireless Living (hangzhou) Mdt Infotech Ltd
Original Assignee
Wireless Living (hangzhou) Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wireless Living (hangzhou) Mdt Infotech Ltd filed Critical Wireless Living (hangzhou) Mdt Infotech Ltd
Priority to CN201610996942.9A priority Critical patent/CN106411612A/zh
Publication of CN106411612A publication Critical patent/CN106411612A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Abstract

本发明公开了一种分布式系统告警分析方法及装置。所述方法包括:通过事件接口接收各组件上报的事件,从事件中抽取出告警事件,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识,根据告警事件的事件信息确定引起告警的原因。本发明实施例的上述技术方案,可以有效提高告警定位原因的效率,全面了解分布式系统的各个组件是否正常,可以给业务的稳定性带来更好的帮助,提升用户体验满意度。

Description

一种分布式系统告警分析方法及装置
技术领域
本发明涉及分布式系统领域,特别涉及一种分布式系统告警分析方法及装置。
背景技术
一个分布式系统涉及了负载均衡设备,应用服务器集群,缓存服务器集群,数据库服务器集群,配置服务集群,分布式锁服务集群,网络通讯质量,操作系统,网络流量等几十种组成部分。分布式系统的组成部分很多,各个组成部分负责的人也有很多。目前普遍的解决方案都是各自监控自己的系统,信息孤岛的现状非常明显。当分布式系统出现告警或者不可用的时候,排查过程将会非常复杂和耗时。
发明内容
为了克服现有技术中存在的问题,本发明提供一种分布式系统告警分析方法及装置,用以提高告警定位原因的效率。
本发明提供一种分布式系统告警分析方法,其特征在于,包括:
通过事件接口接收各组件上报的事件;
从所述事件中抽取出告警事件;
获取所述告警事件的事件信息,所述事件信息包括发生所述告警事件的应用的标识;
根据所述告警事件的事件信息确定引起告警的原因。
在一个实施例中,所述根据所述告警事件的事件信息确定引起告警的原因,可包括:
计算发生所述告警事件的应用的各资源产生的异常事件;
将所述异常事件和所述告警事件进行匹配,确定引起告警的原因。
在一个实施例中,所述事件信息还可包括以下信息中的一项或多项:
事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。
在一个实施例中,所述从所述事件中抽取出告警事件,可包括:
获取通过事件接口接收的各组件上报的事件的事件信息;
根据所述事件信息从所述事件中确定出告警事件。
在一个实施例中,在所述通过事件接口接收各组件上报的事件之前,所述方法还可包括:
当有操作发生时,通过事件接口上报事件到事件数据库。
本发明还包括一种分布式系统告警分析装置,包括:
接收模块,用于通过事件接口接收各组件上报的事件;
抽取模块,用于从所述事件中抽取出告警事件;
获取模块,用于获取所述告警事件的事件信息,所述事件信息包括发生所述告警事件的应用的标识;
确定模块,用于根据所述告警事件的事件信息确定引起告警的原因。
在一个实施例中,所述确定模块可包括:
计算子模块,用于计算发生所述告警事件的应用的各资源产生的异常事件;
第一确定子模块,用于将所述异常事件和所述告警事件进行匹配,确定引起告警的原因。
在一个实施例中,所述事件信息还可包括以下信息中的一项或多项:
事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。
在一个实施例中,所述抽取模块,可包括:
获取子模块,用于获取通过事件接口接收的各组件上报的事件的事件信息;
第二确定子模块,用于根据所述事件信息从所述事件中确定出告警事件。
在一个实施例中,所述装置还可包括:
上报模块,用于当有操作发生时,通过事件接口上报事件到事件数据库。
本发明实施例的上述技术方案可以包括以下有益效果:
本发明实施例的上述技术方案,通过事件接口接收各组件上报的事件,从事件中抽取出告警事件,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识,根据告警事件的事件信息确定引起告警的原因。从而可以有效提高告警定位原因的效率,全面了解分布式系统的各个组件是否正常,可以给业务的稳定性带来更好的帮助,提升用户体验满意度。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种分布式系统告警分析方法的流程图;
图2为本发明实施例中一种分布式系统告警分析方法中步骤S14的流程图;
图3为本发明实施例中一种分布式系统告警分析方法中步骤S12的流程图;
图4为本发明实施例中一种分布式系统告警分析的另一个流程图;
图5为本发明实施例中一种分布式系统告警分析装置的框图;
图6为本发明实施例中一种分布式系统告警分析装置中确定模块54的框图;
图7为本发明实施例中一种分布式系统告警分析装置中抽取模块52的框图;
图8为本发明实施例中另一种分布式系统告警分析装置的框图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1所示为本发明实施例中一种分布式系统告警分析方法的流程图,如图1所示,包括以下步骤S11-S14:
步骤S11,通过事件接口接收各组件上报的事件。
步骤S12,从事件中抽取出告警事件。
步骤S13,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识。
步骤S14,根据告警事件的事件信息确定引起告警的原因。
本发明是提供一个事件上报的机制和系统,让分布式系统涉及的组件通过接口统一提交事件信息,中控系统通过分析事件来确定问题的原因。事件信息可包括应用的标识,机器ip,事件名称,事件发生时间等。当某个应用告警出现的时候,串联该应用下的事件信息,并建立规则自动识别导致告警的事件信息。
由于每一个事件都会有自己的应用的标识,一个分布式应用是依赖了很多组件,每个组件通过事件接口来上报事件。事件web系统通过系统应用名,当告警出现的时候自动识别导致告警的原因事件。
本发明实施例的上述方法,通过事件接口接收各组件上报的事件,从事件中抽取出告警事件,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识,根据告警事件的事件信息确定引起告警的原因。从而可以有效提高告警定位原因的效率,全面了解分布式系统的各个组件是否正常,可以给业务的稳定性带来更好的帮助,提升用户体验满意度。
在一个实施例中,如图2所示,步骤S14可以实施为如下步骤S141-S142:
步骤S141,计算发生告警事件的应用的各资源产生的异常事件。
步骤S142,将异常事件和告警事件进行匹配,确定引起告警的原因。
由于每个告警都会属于某一个应用程序,一个应用程序发生告警,可能是因为这个应用程序依赖的资源导致的,当发生告警的时候,需要计算各个资源是否产生了异常事件,再对异常事件和告警进行计算匹配,通过建立规则框架,把性能数据、操作日志、异常信息归类起来,按照规则来进行过滤,最终确定出引起告警的原因。
在一个实施例中,事件信息还可包括以下信息中的一项或多项:
事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。事件信息的格式例如表1所示:
表1事件信息格式
编号 列名 说明
1 Id 事件编号
2 Appname 应用名
3 Event_content 事件内容
4 Create_time 事件创建时间
5 Event_type 事件类型
在一个实施例中,如图3所示,步骤S12可以实施为如下步骤S121-S122:
步骤S121,获取通过事件接口接收的各组件上报的事件的事件信息。
步骤S122,根据事件信息从事件中确定出告警事件。
本发明提供一个接收事件的API(Application Programming Interface,应用程序编程接口),各个系统(数据库服务器、应用服务器、网络、硬件、Linux等)通过api,在有操作发生的时候发送事件到系统,根据事件信息从事件中确定出告警事件。
在一个实施例中,如图4所示,在步骤S11之前,上述方法还可包括以下步骤S15:
步骤S15,当有操作发生时,通过事件接口上报事件到事件数据库。
各个系统通过事件接口,在有操作发生的时候上报事件到事件数据库,事件程序抽取出告警,事件程序聚合和该告警有关的事件,计算出引起告警的原因。
基于同一发明构思,本发明实施例还提供了一种分布式系统告警分析装置,由于该装置所解决问题的原理与前述分布式系统告警分析方法相似,因此该装置的实施可以参见前述方法的实施,重复之处不再赘述。
图5所示为本发明实施例中一种分布式系统告警分析装置的框图,如图5所示,该装置包括:
接收模块51,用于通过事件接口接收各组件上报的事件;
抽取模块52,用于从事件中抽取出告警事件;
获取模块53,用于获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识;
确定模块54,用于根据告警事件的事件信息确定引起告警的原因。
在一个实施例中,如图6所示,确定模块54可包括:
计算子模块541,用于计算发生告警事件的应用的各资源产生的异常事件;
第一确定子模块542,用于将异常事件和告警事件进行匹配,确定引起告警的原因。
在一个实施例中,事件信息还可包括以下信息中的一项或多项:
事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。
在一个实施例中,如图7所示,抽取模块52,可包括:
获取子模块521,用于获取通过事件接口接收的各组件上报的事件的事件信息;
第二确定子模块522,用于根据事件信息从事件中确定出告警事件。
在一个实施例中,如图8所示,上述装置还可包括:
上报模块55,用于当有操作发生时,通过事件接口上报事件到事件数据库。
本发明实施例的上述装置,通过事件接口接收各组件上报的事件,从事件中抽取出告警事件,获取告警事件的事件信息,事件信息包括发生告警事件的应用的标识,根据告警事件的事件信息确定引起告警的原因。从而可以有效提高告警定位原因的效率,全面了解分布式系统的各个组件是否正常,可以给业务的稳定性带来更好的帮助,提升用户体验满意度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种分布式系统告警分析方法,其特征在于,包括:
通过事件接口接收各组件上报的事件;
从所述事件中抽取出告警事件;
获取所述告警事件的事件信息,所述事件信息包括发生所述告警事件的应用的标识;
根据所述告警事件的事件信息确定引起告警的原因。
2.如权利要求1所述的方法,其特征在于,所述根据所述告警事件的事件信息确定引起告警的原因,包括:
计算发生所述告警事件的应用的各资源产生的异常事件;
将所述异常事件和所述告警事件进行匹配,确定引起告警的原因。
3.如权利要求1所述的方法,其特征在于,所述事件信息还包括以下信息中的一项或多项:
事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。
4.如权利要求3所述的方法,其特征在于,所述从所述事件中抽取出告警事件,包括:
获取通过事件接口接收的各组件上报的事件的事件信息;
根据所述事件信息从所述事件中确定出告警事件。
5.如权利要求1-4中任一项所述的方法,其特征在于,在所述通过事件接口接收各组件上报的事件之前,所述方法还包括:
当有操作发生时,通过事件接口上报事件到事件数据库。
6.一种分布式系统告警分析装置,其特征在于,包括:
接收模块,用于通过事件接口接收各组件上报的事件;
抽取模块,用于从所述事件中抽取出告警事件;
获取模块,用于获取所述告警事件的事件信息,所述事件信息包括发生所述告警事件的应用的标识;
确定模块,用于根据所述告警事件的事件信息确定引起告警的原因。
7.如权利要求6所述的装置,其特征在于,所述确定模块包括:
计算子模块,用于计算发生所述告警事件的应用的各资源产生的异常事件;
第一确定子模块,用于将所述异常事件和所述告警事件进行匹配,确定引起告警的原因。
8.如权利要求6所述的装置,其特征在于,所述事件信息还包括以下信息中的一项或多项:
事件编号、机器IP、事件内容、事件名称、事件发生时间以及事件类型。
9.如权利要求8所述的装置,其特征在于,所述抽取模块,包括:
获取子模块,用于获取通过事件接口接收的各组件上报的事件的事件信息;
第二确定子模块,用于根据所述事件信息从所述事件中确定出告警事件。
10.如权利要求6-9中任一项所述的装置,其特征在于,所述装置还包括:
上报模块,用于当有操作发生时,通过事件接口上报事件到事件数据库。
CN201610996942.9A 2016-11-10 2016-11-10 一种分布式系统告警分析方法及装置 Pending CN106411612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610996942.9A CN106411612A (zh) 2016-11-10 2016-11-10 一种分布式系统告警分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610996942.9A CN106411612A (zh) 2016-11-10 2016-11-10 一种分布式系统告警分析方法及装置

Publications (1)

Publication Number Publication Date
CN106411612A true CN106411612A (zh) 2017-02-15

Family

ID=59230178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610996942.9A Pending CN106411612A (zh) 2016-11-10 2016-11-10 一种分布式系统告警分析方法及装置

Country Status (1)

Country Link
CN (1) CN106411612A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391284A (zh) * 2017-08-18 2017-11-24 郑州云海信息技术有限公司 一种事件处理方法及装置
CN110718022A (zh) * 2018-07-13 2020-01-21 中兴通讯股份有限公司 智能电表的告警方法、服务器及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388794A (zh) * 2008-10-10 2009-03-18 中兴通讯股份有限公司 一种定位网络管理系统异常事件的方法和系统
CN101562540A (zh) * 2009-05-08 2009-10-21 华为技术有限公司 业务监控方法及设备
CN103152219A (zh) * 2013-02-18 2013-06-12 中国工商银行股份有限公司 一种计算机网络系统的事件监控系统及事件监控方法
CN103326874A (zh) * 2012-03-22 2013-09-25 西门子公司 告警管理系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388794A (zh) * 2008-10-10 2009-03-18 中兴通讯股份有限公司 一种定位网络管理系统异常事件的方法和系统
CN101562540A (zh) * 2009-05-08 2009-10-21 华为技术有限公司 业务监控方法及设备
CN103326874A (zh) * 2012-03-22 2013-09-25 西门子公司 告警管理系统及方法
CN103152219A (zh) * 2013-02-18 2013-06-12 中国工商银行股份有限公司 一种计算机网络系统的事件监控系统及事件监控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391284A (zh) * 2017-08-18 2017-11-24 郑州云海信息技术有限公司 一种事件处理方法及装置
CN110718022A (zh) * 2018-07-13 2020-01-21 中兴通讯股份有限公司 智能电表的告警方法、服务器及计算机可读存储介质

Similar Documents

Publication Publication Date Title
WO2018113385A1 (zh) 对客户端的应用程序动态埋点的方法、系统、客户端及服务器
EP3231135B1 (en) Alarm correlation in network function virtualization environment
US9413597B2 (en) Method and system for providing aggregated network alarms
CN109274557B (zh) 一种云环境下的智能cmdb管理及云主机监控方法
CN107645562A (zh) 数据传输处理方法、装置、设备及系统
CN105095056A (zh) 一种数据仓库数据监控的方法
US20110208679A1 (en) Trouble pattern creating program and trouble pattern creating apparatus
WO2016112676A1 (zh) 告警处理方法及装置
US20230327941A1 (en) Alarm processing method and apparatus, device, and readable storage medium
EP3001606B1 (en) Fault processing method, device and system
CN105871581A (zh) 云计算中报警信息的处理方法及装置
CN111192130A (zh) 交易监控中确定故障根源的方法、系统、装置及存储介质
CN110442628A (zh) 一种数据监控方法、系统和计算机设备
CN106411612A (zh) 一种分布式系统告警分析方法及装置
US10282239B2 (en) Monitoring method
CN113656252B (zh) 故障定位方法、装置、电子设备以及存储介质
CN113411209A (zh) 一种分布式的密码服务全链路检测系统及方法
CN109714214A (zh) 一种服务器异常的处理方法及管理设备
GB2508499A (en) Determining related messages for filtering groups of error messages
CN106383914B (zh) 基于云呼叫平台实现多数据源配置的方法及其系统
CN110971463A (zh) 固网群障信息告警方法、装置及系统
CN108802764A (zh) 卫星地基增强系统的自检系统的构建方法和构建系统
CN109214189B (zh) 识别程序漏洞的方法、装置、存储介质和电子设备
US10447807B1 (en) Dynamic middleware source selection for optimizing data retrieval from network nodes
CN113778709B (zh) 接口调用方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170215