CN113139658A - 基于变更和告警事件流处理故障的管道理论方法 - Google Patents

基于变更和告警事件流处理故障的管道理论方法 Download PDF

Info

Publication number
CN113139658A
CN113139658A CN202110439379.6A CN202110439379A CN113139658A CN 113139658 A CN113139658 A CN 113139658A CN 202110439379 A CN202110439379 A CN 202110439379A CN 113139658 A CN113139658 A CN 113139658A
Authority
CN
China
Prior art keywords
event
fault
change
alarm
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110439379.6A
Other languages
English (en)
Inventor
张秀凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongtongji Network Technology Co Ltd
Original Assignee
Shanghai Zhongtongji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhongtongji Network Technology Co Ltd filed Critical Shanghai Zhongtongji Network Technology Co Ltd
Priority to CN202110439379.6A priority Critical patent/CN113139658A/zh
Publication of CN113139658A publication Critical patent/CN113139658A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Abstract

本发明涉及一种基于变更和告警事件流处理故障的管道理论方法,具体包括:获取变更事件流、告警事件流和故障事件流;基于所述变更事件流、告警事件流和故障事件流内的时间信息,关联所述变更事件流、告警事件流和故障事件流的变更事件、告警事件和故障事件;告警事件产生时,触发故障事件升级,进入故障事件发现阶段,在故障事件发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段;故障处理阶段通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件;实施第二变更事件以结束第一变更事件的影响;随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。

Description

基于变更和告警事件流处理故障的管道理论方法
技术领域
本发明涉及告警相关技术领域,具体涉及一种基于变更和告警事件流处理故障的管道理论方法。
背景技术
目前行业内关于故障处理的方法并没形成一套固有、通用的理论方法,帮助故障处理实施及改进,而是根据以往故障处理的经验,对发生的故障进行处理,没有理论方法的指导,往往故障处理自动化程度低、针对新型故障无法快速响应、特大故障处理缓慢、故障处理的覆盖维度不够全面等问题。
发明内容
有鉴于此,提供一种基于变更和告警事件流处理故障的管道理论方法,以解决相关技术中的问题。
本发明采用如下技术方案:
本发明实施例提供了一种基于变更和告警事件流处理故障的管道理论方法包括:
获取变更事件流、告警事件流和故障事件流;
基于所述变更事件流、告警事件流和故障事件流内的时间信息,关联所述变更事件流、告警事件流和故障事件流的变更事件、告警事件和故障事件;
告警事件产生时,触发故障事件升级,进入故障事件发现阶段,在故障事件发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段;
故障处理阶段通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件;
实施第二变更事件以结束第一变更事件的影响;
随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。
可选的,还包括:
汇总每一次告警事件产生时相关的第一变更事件、告警事件、故障事件、第二变更事件,为后续的故障事件的处理提供便利。
可选的,所述通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件,包括:
基于时间信息,展示告警事件产生前的变更事件,以辅助定位到导致故障的第一变更事件。
可选的,所述变更事件流,包含变更事件和各个变更事件对应的时间;所述告警事件流,包含告警事件和各个告警事件对应的时间;所述故障事件流,包含故障事件和各个故障事件对应的时间。
可选的,还包括:
对于故障进行分类汇总;
告警事件产生时,基于分类汇总的结果,自动实施对应的第二变更事件以结束第一变更事件的影响。
本发明采用以上技术方案,基于故障的本质,即:资源所产生的事件,其中资源包括但不限于主机、DB、中间件、网络、应用等,这些资源都是业务服务的基础,这些资源在运行过程中,产生各种事件,包括但不限于变更、告警、故障等,其中变更和告警事件与故障事件产生密切相关,如图1所示,变更可能是告警产生的原因,也可能是告警处理的实施;告警可能作为故障发现的方式,同样也可以作为故障恢复的验证手段;故障可能是变更的结果,即变更导致故障,故障的处理也可以通过实施变更恢复,因此变更、告警和故障是密不可分的。具体的,第一变更事件导致了告警事件和故障事件,故障事件处理定位可以追溯到第一变更事件的实施导致故障事件,为了消除故障事件,实施了第二变更事件,故障事件恢复同时告警事件也消除,这三条事件流管道各自在时间序列上是独立的,且通过人工/自动化手段,将三条管道中的事件关联起来:告警事件产生时,触发故障升级,进入故障发现阶段,在故障发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段,故障处理阶段通过人工或程序匹配历史变更定位到第一变更事件导致故障事件,本申请实施第二变更事件以结束第一变更事件的影响,随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种智基于变更和告警事件流处理故障的管道理论方法的流程图;
图2是本发明实施例提供的一种基于变更和告警事件流处理故障的管道理论逻辑流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
首先对本发明实施例的应用场景进行说明,目前行业内关于故障处理的方法并没形成一套固有、通用的理论方法,帮助故障处理实施及改进,而是根据以往故障处理的经验,对发生的故障进行处理,没有理论方法的指导,往往故障处理自动化程度低、针对新型故障无法快速响应、特大故障处理缓慢、故障处理的覆盖维度不够全面等,本发明基于故障的本质:事件的一种,关联变更和告警(同样为事件),提出管道方式对故障实施处理,是一种行之有效的、成体系的、快速的、全面的故障处理理论。当下公司大量的应用和丰富的业务场景,出现的故障类型也多种多样,根据以往的故障处理经验,难免会出现无法覆盖的情况,需要从新的角度去思考并进行故障处理。现有的技术方案,是根据以往故障的处理经验,针对不同故障类型,总结得到的具体的处理方法,局限性较高,缺乏普适性,并没有形成通用的理论方案。本申请针对这一问题提出了对应的解决方案。
实施例
图1为本发明实施例提供的一种基于变更和告警事件流处理故障的管道理论方法的流程图。参考图1,该方法具体可以包括如下步骤:
S101、获取变更事件流、告警事件流和故障事件流;
具体的,所述变更事件流,包含变更事件和各个变更事件对应的时间;所述告警事件流,包含告警事件和各个告警事件对应的时间;所述故障事件流,包含故障事件和各个故障事件对应的时间。
S102、基于所述变更事件流、告警事件流和故障事件流内的时间信息,关联所述变更事件流、告警事件流和故障事件流的变更事件、告警事件和故障事件;
S103、告警事件产生时,触发故障事件升级,进入故障事件发现阶段,在故障事件发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段;
S104、故障处理阶段通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件;
具体的,所述通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件,包括:
基于时间信息,展示告警事件产生前的变更事件,以辅助定位到导致故障的第一变更事件。
S105、实施第二变更事件以结束第一变更事件的影响;
S106、随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。
进一步的,本申请提供的基于变更和告警事件流处理故障的管道理论方法还包括:
汇总每一次告警事件产生时相关的第一变更事件、告警事件、故障事件、第二变更事件,为后续的故障事件的处理提供便利
进一步的,对于故障进行分类汇总;告警事件产生时,基于分类汇总的结果,自动实施对应的第二变更事件以结束第一变更事件的影响。
图2是本发明实施例提供的一种基于变更和告警事件流处理故障的管道理论逻辑流程图。参照图2,本申请提供的具体如下:
方案还包括:
本发明提供的基于变更和告警事件流处理故障的管道理论方法,是基于故障的本质提出的。资源所产生的事件,其中资源包括但不限于主机、DB、中间件、网络、应用等,这些资源都是业务服务的基础,这些资源在运行过程中,产生各种事件,包括但不限于变更、告警、故障等,其中变更和告警事件与故障事件产生密切相关。具体的,变更可能是告警产生的原因,也可能是告警处理的实施;告警可能作为故障发现的方式,同样也可以作为故障恢复的验证手段;故障可能是变更的结果,即变更导致故障,故障的处理也可以通过实施变更恢复,因此变更、告警和故障是密不可分的。
本发明涉及的逻辑流程如图2所示,资源运行过程中,会产生不同的事件:变更、告警和故障,这些事件是有时间顺序的,对应图中不同的管道,形成各自的事件流,当在某个时间点发生变更1时,若变更异常,会在后续时间点产生告警,如图所示告警1,随着时间推移,故障产生,进入故障生命周期:发现、处理、恢复,当故障通过变更2实施恢复时,告警1也同步消除恢复。
以上变更、告警和故障三条事件流管道,其中的事件存在密切的关系,变更1导致了告警1和故障,故障处理定位可以追溯到变更1的实施导致故障,为了消除故障,实施了变更2,故障恢复同时告警1也消除,这三条事件流管道各自在时间序列上是独立的,且通过人工/自动化手段,即图2中的ACTION,将三条管道中的事件关联起来:告警1产生时,触发故障升级,进入故障发现阶段,在故障发现阶段通过人工或程序发出故障通告给故障处理人员,故障处理阶段,故障处理阶段通过人工或程序匹配历史变更定位到变更1导致故障,申请实施变更2以结束变更1影响,随着变更2实施,故障恢复,并消除告警 1,从而使服务恢复稳定运行。进一步的,对上述这种事件进行汇总,多次汇总后,对于一些简单的没有太大危害性的故障,可以直接自动执行变更2,已进行故障的处理。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (5)

1.一种基于变更和告警事件流处理故障的管道理论方法,其特征在于,包括:
获取变更事件流、告警事件流和故障事件流;
基于所述变更事件流、告警事件流和故障事件流内的时间信息,关联所述变更事件流、告警事件流和故障事件流的变更事件、告警事件和故障事件;
告警事件产生时,触发故障事件升级,进入故障事件发现阶段,在故障事件发现阶段通过人工或程序发出故障通告给故障处理人员,进入故障处理阶段;
故障处理阶段通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件;
实施第二变更事件以结束第一变更事件的影响;
随着第二变更事件的实施,故障恢复,并消除告警事件,从而使服务恢复稳定运行。
2.根据权利要求1所述的基于变更和告警事件流处理故障的管道理论方法,其特征在于,还包括:
汇总每一次告警事件产生时相关的第一变更事件、告警事件、故障事件、第二变更事件,为后续的故障事件的处理提供便利。
3.根据权利要求1所述的基于变更和告警事件流处理故障的管道理论方法,其特征在于,所述通过人工或程序匹配历史变更事件定位到导致故障的第一变更事件,包括:
基于时间信息,展示告警事件产生前的变更事件,以辅助定位到导致故障的第一变更事件。
4.根据权利要求1所述的基于变更和告警事件流处理故障的管道理论方法,其特征在于,所述变更事件流,包含变更事件和各个变更事件对应的时间;所述告警事件流,包含告警事件和各个告警事件对应的时间;所述故障事件流,包含故障事件和各个故障事件对应的时间。
5.根据权利要求1所述的基于变更和告警事件流处理故障的管道理论方法,其特征在于,还包括:
对于故障进行分类汇总;
告警事件产生时,基于分类汇总的结果,自动实施对应的第二变更事件以结束第一变更事件的影响。
CN202110439379.6A 2021-04-23 2021-04-23 基于变更和告警事件流处理故障的管道理论方法 Pending CN113139658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110439379.6A CN113139658A (zh) 2021-04-23 2021-04-23 基于变更和告警事件流处理故障的管道理论方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110439379.6A CN113139658A (zh) 2021-04-23 2021-04-23 基于变更和告警事件流处理故障的管道理论方法

Publications (1)

Publication Number Publication Date
CN113139658A true CN113139658A (zh) 2021-07-20

Family

ID=76811770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110439379.6A Pending CN113139658A (zh) 2021-04-23 2021-04-23 基于变更和告警事件流处理故障的管道理论方法

Country Status (1)

Country Link
CN (1) CN113139658A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090183023A1 (en) * 2008-01-11 2009-07-16 Lucent Technologies Inc. Method and apparatus for time-based event correlation
CN103593804A (zh) * 2013-10-29 2014-02-19 国网辽宁省电力有限公司信息通信分公司 一种电力信息通信调度监控平台
CN107679713A (zh) * 2017-09-16 2018-02-09 广西电网有限责任公司电力科学研究院 一种输变电设备状态告警处理方法
CN109690517A (zh) * 2016-09-15 2019-04-26 甲骨文国际公司 利用微批处理管理快照和状态
CN110505102A (zh) * 2019-09-11 2019-11-26 国网湖北省电力有限公司鄂州供电公司 电力信息通信融合监控与服务标准化管理平台系统及方法
CN111162950A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 故障事件处理方法、装置及系统
CN112559376A (zh) * 2020-12-25 2021-03-26 中国建设银行股份有限公司 一种数据库故障的自动定位方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090183023A1 (en) * 2008-01-11 2009-07-16 Lucent Technologies Inc. Method and apparatus for time-based event correlation
CN103593804A (zh) * 2013-10-29 2014-02-19 国网辽宁省电力有限公司信息通信分公司 一种电力信息通信调度监控平台
CN109690517A (zh) * 2016-09-15 2019-04-26 甲骨文国际公司 利用微批处理管理快照和状态
CN107679713A (zh) * 2017-09-16 2018-02-09 广西电网有限责任公司电力科学研究院 一种输变电设备状态告警处理方法
CN110505102A (zh) * 2019-09-11 2019-11-26 国网湖北省电力有限公司鄂州供电公司 电力信息通信融合监控与服务标准化管理平台系统及方法
CN111162950A (zh) * 2019-12-31 2020-05-15 中国建设银行股份有限公司 故障事件处理方法、装置及系统
CN112559376A (zh) * 2020-12-25 2021-03-26 中国建设银行股份有限公司 一种数据库故障的自动定位方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫生超 等人: ""基于组合规则的电力通信网故障分析方法"", 《电力系统通信》, no. 2011, 31 March 2011 (2011-03-31), pages 34 - 38 *

Similar Documents

Publication Publication Date Title
US9098439B2 (en) Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs
CN112328456B (zh) 一种基于服务发现的集群资源监控系统
CN111814999B (zh) 一种故障工单生成方法、装置、设备
WO2006117833A1 (ja) 監視シミュレーション装置,方法およびそのプログラム
CN105573824A (zh) 分布式计算系统的监控方法及系统
CN110417586B (zh) 服务监控方法、服务节点、服务器及计算机可读存储介质
US20230244578A1 (en) Managing data center failure events
CN106301823A (zh) 一种关键组件的故障告警方法、装置及大数据管理系统
CN105471932A (zh) 一种前端应用的监控方法、设备和系统
CN112463440A (zh) 容灾切换方法、系统、存储介质及计算机设备
Miller et al. The guardian model and primitives for exception handling in distributed systems
CN103518192A (zh) 大规模服务的实时诊断流水线
CN113139658A (zh) 基于变更和告警事件流处理故障的管道理论方法
CN113726553A (zh) 一种节点故障恢复方法、装置、电子设备及可读存储介质
US9594622B2 (en) Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
CN111752962A (zh) 一种保证mha集群高可用及一致性的系统及方法
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
CN116264541A (zh) 一种基于多维度的数据库容灾方法及装置
CN112181780A (zh) 容器化平台核心组件的检测及告警方法、装置及设备
CN111970329A (zh) 一种集群服务的部署方法、系统、设备以及介质
CN110673793A (zh) 存储设备节点事件管理方法、系统及电子设备和存储介质
CN114528156A (zh) 异构容灾方案的数据库切换方法、电子设备和介质
CN111143475B (zh) 一种用于Storm的数据分析的状态管理的方法及装置
KR102214486B1 (ko) 자가 복구를 수행하는 nfv 장치
CN112162877B (zh) 一种基于自动化实现集中式日志管理系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination