CN117336155A - 故障处理方法、装置、设备及存储介质 - Google Patents

故障处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117336155A
CN117336155A CN202311177297.4A CN202311177297A CN117336155A CN 117336155 A CN117336155 A CN 117336155A CN 202311177297 A CN202311177297 A CN 202311177297A CN 117336155 A CN117336155 A CN 117336155A
Authority
CN
China
Prior art keywords
alarm
fault
alarm information
information
scenario
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311177297.4A
Other languages
English (en)
Inventor
王全
卜寅
支亚光
杨福理
王俊敏
张进
张笑
孙子琪
白丽霞
李亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202311177297.4A priority Critical patent/CN117336155A/zh
Publication of CN117336155A publication Critical patent/CN117336155A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提出一种故障处理方法、装置、设备及存储介质,涉及数据处理技术领域,用于提高故障的定位效率以及准确性;该方法包括:故障处理装置获取第一告警信息,告警信息包括告警设备名称;并根据第一告警信息包括的告警设备名称,确定第一故障场景,第一故障场景对应的告警匹配规则包括多个告警设备名称中包括第一告警信息包括的告警设备名称,并根据多个告警设备名称,获取多个第二告警信息。进一步的,故障处理装置确定第一告警信息以及多个第二告警信息,是否满足第一故障场景对应的告警匹配规则,并在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障。

Description

故障处理方法、装置、设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种故障处理方法、装置、设备及存储介质。
背景技术
目前,各类通信网络规模庞大,结构复杂,设备多种多样,各种硬件设备和软件每天产生海量的告警信息。这些告警信息覆盖话务网络、数据网络、传输网络、信令网、智能网、业务网等等。
当电信网络出现故障告警时,要求运维人员需要在最短的时间内,实时地、正确地判断出网络故障所在的位置、类型和引起故障的原因,然后及时地采取相应的解决措施。
然而,在实际的网络运行中,一个故障的产生往往会引发多个告警事件与故障相关的设备、相关的业务过程都会发出相关的告警信息,同时多个故障引发的众多告警信息会错综叠加,导致故障定位效率低下,业务恢复时长不可控,容易造成客户投诉。
发明内容
本申请提出一种故障处理方法、装置、设备及存储介质,用于提高故障的定位效率以及准确性。
为了达到上述目的,本申请采用如下技术方案:
第一方面,提供一种故障处理方法,该方法包括:故障处理装置获取第一告警信息,告警信息包括告警设备名称;并根据第一告警信息包括的告警设备名称,确定第一故障场景,第一故障场景对应的告警匹配规则包括多个告警设备名称,多个告警设备名称包括第一告警信息包括的告警设备名称。进一步的,故障处理装置根据多个告警设备名称,获取多个第二告警信息,第二告警信息包括的告警设备名称为多个告警设备名称中的告警设备名称。进一步的,故障处理装置确定第一告警信息以及多个第二告警信息,是否满足第一故障场景对应的告警匹配规则,并在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障。
在本申请提供的故障处理方法中,由于故障处理装置在出现第一告警信息后,确定相应的第一故障场景,并根据第一故障场景对应的告警匹配规则中包括的告警设备名称,获取海量告警信息中与第一告警信息存在关系的多个第二告警信息,实现基于第一告警信息与多个第二告警信息,综合确定是否发生了第一故障场景对应的故障,提高了故障定位的效率以及准确性。
一种可能的设计中,上述第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值、预设区域内的告警信息的数量大于第二阈值、预设网管平台的告警信息的数量大于第三阈值、告警标题为预设告警标题的告警信息的数量大于第四阈值,以及告警报文中包括预设报文字段的告警信息的数量大于第五阈值中的至少一个。
一种可能的设计中,上述方法还包括:故障处理装置从多个预设故障抢修方案中,确定与第一故障场景对应的故障抢修方案;并上报故障抢修方案。该设计中实现了在确定故障场景后,获取相对应的故障抢修方案,并上报至运维平台,助力运维人员快速对故障进行抢修。
一种可能的设计中,在第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则的情况下,上述方法还包括:故障处理装置确定当前发生的目标故障;并根据第一告警信息以及多个第二告警信息,确定第二故障场景。进一步的,故障处理装置建立第二故障场景与目标故障之间的映射关系。该设计中实现了建立第二故障场景与当前存在的目标故障之间的映射关系,以使得再次匹配到第二故障场景时,快速的确认网络中存在的故障情况,避免故障影响进一步扩大。
一种可能的设计中,第一故障场景对应多个告警匹配规则,上述在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障,还包括:故障处理装置确定第一告警信息以及多个第二告警信息,是否满足多个告警匹配规则中的每个告警匹配规则;并在第一告警信息以及多个第二告警信息,满足多个告警匹配规则中的每个告警匹配规则的情况下,确定存在第一故障场景对应的故障。
第二方面,提供一种故障处理装置,包括获取单元以及确定单元。获取单元,用于获取第一告警信息,告警信息包括告警设备名称。确定单元,用于根据第一告警信息包括的告警设备名称,确定第一故障场景,第一故障场景对应的告警匹配规则包括多个告警设备名称,多个告警设备名称包括第一告警信息包括的告警设备名称。获取单元,还用于根据多个告警设备名称,获取多个第二告警信息,第二告警信息包括的告警设备名称为多个告警设备名称中的告警设备名称。确定单元,还用于确定第一告警信息以及多个第二告警信息,是否满足第一故障场景对应的告警匹配规则。确定单元,还用于在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障。
一种可能的设计中,第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值、预设区域内的告警信息的数量大于第二阈值、预设网管平台的告警信息的数量大于第三阈值、告警标题为预设告警标题的告警信息的数量大于第四阈值,以及告警报文中包括预设报文字段的告警信息的数量大于第五阈值中的至少一个。
一种可能的设计中,上述故障处理装置还包括处理单元。确定单元,还用于从多个预设故障抢修方案中,确定与第一故障场景对应的故障抢修方案。处理单元,用于上报故障抢修方案。
一种可能的设计中,确定单元,还用于确定当前发生的目标故障。确定单元,还用于根据第一告警信息以及多个第二告警信息,确定第二故障场景。处理单元,用于建立第二故障场景与目标故障之间的映射关系。
一种可能的设计中,第一故障场景对应多个告警匹配规则。确定单元,还用于确定第一告警信息以及多个第二告警信息,是否满足多个告警匹配规则中的每个告警匹配规则。确定单元,还用于在第一告警信息以及多个第二告警信息,满足多个告警匹配规则中的每个告警匹配规则的情况下,确定存在第一故障场景对应的故障。
第三方面,提供了一种故障处理设备,该故障处理设备包括存储器和处理器;存储器和处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,当处理器执行该计算机指令时,该故障处理设备执行如第一方面或其任一种可能的设计提供的故障处理方法。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在故障处理设备上运行时,使得该故障处理设备执行如第一方面或其任一种可能的实现方式提供的故障处理方法。
附图说明
图1为本申请的实施例提供的一种故障处理系统结构示意图;
图2为本申请的实施例提供的一种故障处理方法流程示意图一;
图3为本申请的实施例提供的一种故障处理方法流程示意图二;
图4为本申请的实施例提供的一种故障场景示意图;
图5为本申请的实施例提供的一种故障场景特征与故障抢修方案之间的映射关系示意图;
图6为本申请的实施例提供的一种故障场景匹配示意图;
图7为本申请的实施例提供的一种故障处理装置结构示意图;
图8为本申请的实施例提供的一种故障处理设备结构示意图一;
图9为本申请的实施例提供的一种故障处理设备结构示意图二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请的描述中,除非另有说明,“/”表示“或”的意思,例如,A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。此外,“至少一个”“多个”是指两个或两个以上。“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
当电信网络出现故障告警时,要求运维人员需要在最短的时间内,实时地、正确地判断出网络故障所在的位置、类型和引起故障的原因,然后及时地采取相应的解决措施。然而,相关技术中,在实际的网络运行中,一个故障的产生往往会引发多个告警事件与故障相关的设备、相关的业务过程都会发出相关的告警信息,同时多个故障引发的众多告警信息会错综叠加,导致故障定位效率低下,业务恢复时长不可控,容易造成客户投诉。
为解决上述问题,本申请提出一种故障处理方法、装置、设备及存储介质,故障处理装置获取第一告警信息,告警信息包括告警设备名称;并根据第一告警信息包括的告警设备名称,确定第一故障场景,第一故障场景对应的告警匹配规则包括多个告警设备名称,多个告警设备名称包括第一告警信息包括的告警设备名称。进一步的,故障处理装置根据多个告警设备名称,获取多个第二告警信息,第二告警信息包括的告警设备名称为多个告警设备名称中的告警设备名称。进一步的,故障处理装置确定第一告警信息以及多个第二告警信息,是否满足第一故障场景对应的告警匹配规则,并在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障。
这样一来,由于故障处理装置在出现第一告警信息后,确定相应的第一故障场景,并根据第一故障场景对应的告警匹配规则中包括的告警设备名称,获取海量告警信息中与第一告警信息存在关系的多个第二告警信息,实现基于第一告警信息与多个第二告警信息,综合确定是否发生了第一故障场景对应的故障,提高了故障定位的效率以及准确性。
图1示出一种故障处理系统,本申请实施例提供的故障处理方法可以适用于如图1所示的故障处理系统,用于提高故障的定位效率以及准确性。如图1所示,故障处理系统10中包括故障处理装置11、服务器12以及运维平台13。
其中,故障处理装置11分别与服务器12以及运维平台13连接,上述连接关系中,可以采用有线方式连接,也可以采用无线方式连接,本申请实施例对此不作限定。
服务器12用于监听通信网络中产生的告警,并根据监听到的告警,向故障处理装置11发送告警信息。
故障处理装置11可以用于从服务器12获取第一告警信息。
其中,告警信息包括告警设备名称,还包括告警区域、告警来源、告警标题、告警发生时间、告警影响程度、告警机房、告警报文等。
故障处理装置11还可以用于根据第一告警信息包括的告警设备名称,确定第一故障场景。
其中,第一故障场景对应的告警匹配规则包括多个告警设备名称,多个告警设备名称包括第一告警信息包括的告警设备名称。
故障处理装置11还可以用于根据多个告警设备名称,从服务器12获取多个第二告警信息。
其中,第二告警信息包括的告警设备名称为多个告警设备名称中的告警设备名称。
故障处理装置11还可以用于确定第一告警信息以及多个第二告警信息,是否满足第一故障场景对应的告警匹配规则。
故障处理装置11还可以用于在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障。
故障处理装置11还可以用于确定第一故障场景对应的故障抢修方案,并向运维平台13上报确定到的故障抢修方案,以使得运维人员同运维平台13获取故障抢修方案,及时对通信网络中出现的故障进行维护。
图2是根据一些示例性实施例示出的一种故障处理方法的流程示意图。在一些实施例中,上述故障处理方法可以应用到如图1所示的故障处理系统10中的故障处理装置11。以下,本申请实施例以故障处理方法应用于故障处理装置11为例,对上述故障处理方法进行说明。
如图2所示,本申请实施例提供的故障处理方法,包括下述S201-S205。
S201、故障处理装置获取第一告警信息。
其中,告警消息包括告警设备名称。
作为一种可能的实现方式,负责监听通信网络中告警的服务器,实时监听通信网络中出现的告警,并根据监听到的告警,生成告警信息,向故障处理装置发送生成的告警信息。
相应的,故障处理装置接收服务器发送的第一告警信息。
需要说明的,第一告警信息为触发故障处理装置进行故障处理的告警信息。
S202、故障处理装置根据第一告警信息包括的告警设备名称,确定第一故障场景。
其中,第一故障场景对应的告警匹配规则包括多个告警设备名称,多个告警设备名称包括第一告警信息包括的告警设备名称。
作为一种可能的实现方式,故障处理装置基于上述步骤S201获取到的第一告警信息进行解析,得到第一告警信息包括的告警设备名称。进一步的,故障处理装置确定预先存储的多个故障场景中的每个故障场景对应的告警匹配规则包括的多个告警设备名称,将故障场景对应的告警匹配规则包括的多个告警设备名称中,包括第一告警信息包括的告警设备名称的故障场景确定为第一故障场景。
需要说明的,第一故障场景可以为故障处理装置存储的多个故障场景中的一个或多个故障场景。在第一故障场景为多个故障场景的情况下,故障处理装置针对每个第一故障场景,单独进行故障处理。
另外,故障处理装置中预先存储的多个故障场景,以及每个故障场景对应的告警匹配规则,可以由故障处理系统的运维人员,根据历史告警信息,以及历史告警信息对应的故障事件,预先在故障处理装置中设置。
示例性的,若故障处理装置预先存储的多个故障场景分别为故障场景A、故障场景B以及故障场景C,其中,故障场景A对应的告警匹配规则包括的多个告警设备名称为设备A、设备C、设备E;故障场景B对应的告警匹配规则包括的多个告警设备名称为设备A、设备B;故障场景C对应的告警匹配规则包括的多个告警设备名称为设备B、设备F、设备G。
若第一告警信息包括的告警设备名称为设备C,则故障处理装置确定第一故障场景为故障场景B;若第一告警信息包括的告警设备名称为设备A,则故障处理装置确定第一故障场景为故障场景A以及故障场景B。
S203、故障处理装置根据多个告警设备名称,获取多个第二告警信息。
其中,第二告警信息包括的告警设备名称为多个告警设备名称中的告警设备名称。
作为一种可能的实现方式,故障处理装置基于上述步骤S202中确定到的第一故障场景,确定第一故障场景对应的告警匹配规则中包括的多个告警设备名称。进一步的,故障处理装置在获取到服务器发送的告警信息后,确定告警信息中包括的告警设备名称,将告警设备名称为多个告警设备名称中的告警信息,确定为第二告警信息,得到多个第二告警信息。
可以理解的,由于在出现故障后,具有一定关联关系的设备都会产生相应的告警信息,这样一来,故障处理装置在接收到第一告警信息后,通过第一故障场景对应的告警匹配规则包括的多个告警设备名称,即可筛选得到与发出第一告警信息的告警设备关联的告警设备,发出的第二告警信息,以提高确定故障的准确性。
示例性的,基于上述步骤S202中的示例,若第一故障场景为故障场景A,故障场景A对应的告警匹配规则包括的多个告警设备名称为设备A、设备C、设备E。
则故障处理设备基于告警设备名称,设备A、设备C以及设备E,筛选服务器发送的告警信息,当告警信息中包括的告警设备名称为设备A、设备C或者设备E的情况下,将告警信息确定为第二告警信息。
S204、故障处理装置确定第一告警信息以及多个第二告警信息,是否满足第一故障场景对应的告警匹配规则。
其中,告警信息中还包括告警区域、告警来源、告警标题、告警发生时间、告警影响程度、告警机房、告警报文等,告警来源用于指示发出告警的网管平台。
需要说明的,第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值、预设区域内的告警信息的数量大于第二阈值、预设网管平台的告警信息的数量大于第三阈值、告警标题为预设告警标题的告警信息的数量大于第四阈值,以及告警报文中包括预设报文字段的告警信息的数量大于第五阈值中的至少一个。
作为一种可能的实现方式,故障处理装置基于上述步骤S201获取到的第一告警信息,以及基于上述步骤S203获取到的第二告警信息,根据告警匹配规则进行筛选。
其中,若第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值。则故障处理装置基于第一告警信息中包括的告警发生时间,以及多个第二告警信息中每个第二告警信息包括的告警发生时间,基于预设时间段进行筛选,得到第一告警信息以及多个第二告警信息中,在预设时间段内的多个告警信息。进一步的,故障处理装置确定多个告警信息的数量,在多个告警信息的数量大于第一阈值的情况下,确定第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则;否则,确定第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则。
若第一故障场景对应的告警匹配规则为预设区域内的告警信息的数量大于第二阈值。则故障处理装置基于第一告警信息中包括的告警区域,以及多个第二告警信息中每个第二告警信息包括的告警区域,基于预设区域进行筛选,得到第一告警信息以及多个第二告警信息中,在预设区域内的多个告警信息。进一步的,故障处理装置确定多个告警信息的数量,在多个告警信息的数量大于第二阈值的情况下,确定第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则;否则,确定第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则。
若第一故障场景对应的告警匹配规则为预设网管平台的告警信息的数量大于第三阈值。则故障处理装置基于第一告警信息中包括的告警来源,以及多个第二告警信息中每个第二告警信息包括的告警来源,基于预设网管平台进行筛选,得到第一告警信息以及多个第二告警信息中,由预设网管平台发出的多个告警信息。进一步的,故障处理装置确定多个告警信息的数量,在多个告警信息的数量大于第三阈值的情况下,确定第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则;否则,确定第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则。
若第一故障场景对应的告警匹配规则为告警标题为预设告警标题的告警信息的数量大于第四阈值。则故障处理装置基于第一告警信息中包括的告警标题,以及多个第二告警信息中每个第二告警信息包括的告警标题,基于预设告警标题进行筛选,得到第一告警信息以及多个第二告警信息中,告警标题为预设告警标题的多个告警信息。进一步的,故障处理装置确定多个告警信息的数量,在多个告警信息的数量大于第四阈值的情况下,确定第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则;否则,确定第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则。
若第一故障场景对应的告警匹配规则为告警报文中包括预设报文字段的告警信息的数量大于第五阈值。则故障处理装置基于第一告警信息中包括的告警报文,以及多个第二告警信息中每个第二告警信息包括的告警报文,基于预设报文字段进行筛选,得到第一告警信息以及多个第二告警信息中,告警报文包括预设报文字段的多个告警信息。进一步的,故障处理装置确定多个告警信息的数量,在多个告警信息的数量大于第五阈值的情况下,确定第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则;否则,确定第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则。
需要说明的,第一阈值、第二阈值、第三阈值、第四阈值以及第五阈值,可以由故障处理系统的运维人员,预先在故障处理装置中设置,本申请实施例对此不作具体限定。
在一些实施例中,第一故障场景对应的告警匹配规则可以为上述示出的告警匹配规则的组合,该情况下,当第一告警信息以及多个第二告警信息,在满足组合内的所有告警匹配规则的情况下,确定第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则;否则,确定第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则。
例如,若第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值、预设区域内的告警信息的数量大于第二阈值。则故障处理装置基于第一告警信息中包括的告警发生时间,以及多个第二告警信息中每个第二告警信息包括的告警发生时间,基于预设时间段进行筛选,得到第一告警信息以及多个第二告警信息中,在预设时间段内的多个告警信息,并确定多个告警信息的数量是否大于第一阈值。进一步的,故障处理装置基于第一告警信息中包括的告警区域,以及多个第二告警信息中每个第二告警信息包括的告警区域,基于预设区域进行筛选,得到第一告警信息以及多个第二告警信息中,在预设区域内的多个告警信息,并确定多个告警信息的数量是否大于第二阈值。
最后,故障处理装置在确定在预设时间段内的多个告警信息的数量大于第一阈值,且在预设区域内的多个告警信息的数量大于第二阈值的情况下,确定第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则;否则,确定第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则。
S205、故障处理装置在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障。
作为一种可能的实现方式,故障处理装置基于上述步骤S204中确定到的结果,若第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则,则确定存在第一故障场景对应的故障。
在一些实施例中,为了使得运维人员及时对故障进行响应,并解决故障,故障处理装置在确定存在第一故障场景对应的故障的情况下,从多个预设故障抢修方案中,确定与第一故障场景对应的故障抢修方案,并向运维平台上报确定到的故障抢修方案。
需要说明的,预设故障抢修方案,以及预设故障抢修方案与故障场景之间的映射关系,可以由故障处理系统的运维人员,预先在故障处理装置中设置,本申请实施例对此不作具体限定。
在一些实施例中,第一故障场景对应多个告警匹配规则。故障处理装置为确定是否存在第一故障场景对应的故障,需要首先确定第一告警信息以及多个第二告警信息,是否满足多个告警匹配规则中的每个告警匹配规则。并进一步在第一告警信息以及多个第二告警信息,满足多个告警匹配规则中的每个告警匹配规则的情况下,故障处理装置确定存在第一故障场景对应的故障。
可以理解的,在本申请实施例提供的故障处理方法中,故障处理装置在出现第一告警信息后,确定相应的第一故障场景,并根据第一故障场景对应的告警匹配规则中包括的告警设备名称,获取海量告警信息中与第一告警信息存在关系的多个第二告警信息,实现基于第一告警信息与多个第二告警信息,综合确定是否发生了第一故障场景对应的故障,提高了故障定位的效率以及准确性。
在一种设计中,在第一告警信息以及多个第二告警信息,不满足第一故障场景对应的告警匹配规则的情况下,且当前网络中存在故障,本申请实施例提供的故障处理方法,如图3所示,还包括S301-S303。
S301、故障处理装置确定当前发生的目标故障。
作为一种可能的实现方式,故障处理装置获取运维人员在运维平台输入的当前存在的故障,并将其确定为目标故障。
S302、故障处理装置根据第一告警信息以及多个第二告警信息,确定第二故障场景。
作为一种可能的实现方式,故障处理装置基于第一告警信息包括的告警设备名称以及多个第二告警信息包括的告警设备名称,确定告警设备名称列表。进一步的,分别基于第一告警信息以及多个第二告警信息包括的告警发生时间、告警区域、告警来源、告警标题以及告警报文进行聚类分析,确定第一告警信息以及多个第二告警信息中,在预设时间段内的告警信息的数量、在预设区域内的告警信息的数量、告警来源同一网管平台的告警信息数量、告警标题为预设告警标题的告警信息数量,以及告警报文中包括预设报文字段的告警信息数量,并基于各个聚类维度的告警信息数量,确定每个聚类维度对应的阈值。进一步的,故障处理装置根据告警设备名称列表以及每个聚类维度对应的阈值,生成第二故障场景对应的告警匹配规则,得到第二故障场景。
S303、故障处理装置建立第二故障场景与目标故障之间的映射关系。
作为一种可能的实现方式,故障处理装置基于上述步骤S301中确定到的目标故障,以及基于上述步骤S302中确定的第二故障场景,建立第二故障场景与目标故障之间的映射关系,以使得在故障处理装置在确定第一告警信息以及多个第二告警信息满足第二故障场景对应的告警匹配规则的情况下,确定存在目标故障。
可以理解的,在本申请上述实施例提供的故障处理方法中,故障处理装置在第一告警信息以及多个第二告警信息不满足第一故障场景对应的告警匹配规则,且当前存在目标故障的情况下,生成第二故障场景,并建立与当前存在的目标故障之间的映射关系,以使得再次匹配到第二故障场景时,快速的确认网络中存在的故障情况。
在一种设计中,本申请实施例提供的故障处理方法中,如图4所示,每个故障场景包括多个特征,每个特征对应有对象范围以及相应的告警匹配规则,例如,故障场景1包括的特征11,对应的对象范围为对象范围11,对应的告警匹配规则为告警匹配规则11。
图5示出了根据故障场景的不同特征以及特征组合与故障抢修方案之间的映射关系,其中,示例性的,特征11以及特征12均出现时,对应故障抢修方案11,若仅出现特征11,则对应故障抢修方案为10,若仅出现特征12,则对应故障抢修方案为20。
在一些实施例中,如图6所示,图6示出了一种告警匹配规则的匹配过程。
其中,分别示出了基于单个告警匹配规则的匹配过程,以及告警匹配规则组合的匹配过程。当经过告警匹配规则筛选过后的告警信息数量达到对应阈值的情况下,确定出现了与告警匹配规则对应的特征,或者出现了与告警规则匹配组合对应的特征,进一步的,根据确定到的特征,确定与特征对应的故障抢修方案,并上报,以实现及时处理网络中存在的故障,避免故障进一步恶化,降低故障的影响范围。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对用户设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图7为本申请实施例提供的一种故障处理装置的结构示意图。该故障处理装置用于执行上述故障处理方法。如图7所示,该故障处理装置40包括获取单元401以及确定单元402。
获取单元401,用于获取第一告警信息,告警信息包括告警设备名称。例如,如图2所示,获取单元401可以用于执行S201。
确定单元402,用于根据第一告警信息包括的告警设备名称,确定第一故障场景,第一故障场景对应的告警匹配规则包括多个告警设备名称,多个告警设备名称包括第一告警信息包括的告警设备名称。例如,如图2所示,确定单元402可以用于执行S202。
获取单元401,还用于根据多个告警设备名称,获取多个第二告警信息,第二告警信息包括的告警设备名称为多个告警设备名称中的告警设备名称。例如,如图2所示,获取单元401可以用于执行S203。
确定单元402,还用于确定第一告警信息以及多个第二告警信息,是否满足第一故障场景对应的告警匹配规则。例如,如图2所示,确定单元402可以用于执行S204。
确定单元402,还用于在第一告警信息以及多个第二告警信息,满足第一故障场景对应的告警匹配规则的情况下,确定存在第一故障场景对应的故障。例如,如图2所示,确定单元402可以用于执行S205。
可选的,如图7所示,本申请实施例提供的故障处理装置40中,第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值、预设区域内的告警信息的数量大于第二阈值、预设网管平台的告警信息的数量大于第三阈值、告警标题为预设告警标题的告警信息的数量大于第四阈值,以及告警报文中包括预设报文字段的告警信息的数量大于第五阈值中的至少一个。
可选的,如图7所示,本申请实施例提供的故障处理装置40还包括处理单元403。
确定单元402,还用于从多个预设故障抢修方案中,确定与第一故障场景对应的故障抢修方案。
处理单元403,用于上报故障抢修方案。
可选的,如图7所示,本申请实施例提供的故障处理装置40中,确定单元402,还用于确定当前发生的目标故障。
确定单元402,还用于根据第一告警信息以及多个第二告警信息,确定第二故障场景。
处理单元403,用于建立第二故障场景与目标故障之间的映射关系。
可选的,如图7所示,本申请实施例提供的故障处理装置40中,第一故障场景对应多个告警匹配规则。
确定单元402,还用于确定第一告警信息以及多个第二告警信息,是否满足多个告警匹配规则中的每个告警匹配规则。
确定单元402,还用于在第一告警信息以及多个第二告警信息,满足多个告警匹配规则中的每个告警匹配规则的情况下,确定存在第一故障场景对应的故障。
在采用硬件的形式实现上述集成的模块的功能的情况下,本申请实施例提供了一种故障处理设备的一种可能的结构示意图。该故障处理设备用于执行上述实施例中故障处理装置执行的故障处理方法。如图8所示,该故障处理设备50包括处理器501,存储器502以及总线503。处理器501与存储器502之间可以通过总线503连接。
处理器501是故障处理设备的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器501可以是一个通用中央处理单元(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为一种实施例,处理器501可以包括一个或多个CPU,例如图8中所示的CPU 0和CPU 1。
存储器502可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
作为一种可能的实现方式,存储器502可以独立于处理器501存在,存储器502可以通过总线503与处理器501相连接,用于存储指令或者程序代码。处理器501调用并执行存储器502中存储的指令或程序代码时,能够实现本申请实施例提供的故障处理方法。
另一种可能的实现方式中,存储器502也可以和处理器501集成在一起。
总线503,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外围设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
需要指出的是,图8示出的结构并不构成对该故障处理设备50的限定。除图8所示部件之外,该故障处理设备50可以包括比图8示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
作为一个示例,结合图7,故障处理装置40中的获取单元401、确定单元402以及处理单元403实现的功能与图8中的处理器501的功能相同。
可选的,如图8所示,本申请实施例提供的故障处理设备还可以包括通信接口504。
通信接口504,用于与其他设备通过通信网络连接。该通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。通信接口504可以包括用于接收数据的获取单元,以及用于发送数据的发送单元。
在一种设计中,本申请实施例提供的故障处理设备中,通信接口还可以集成在处理器中。
图9示出了本申请实施例中故障处理设备的另一种硬件结构。如图9所示,故障处理设备60可以包括处理器601以及通信接口602。处理器601与通信接口602耦合。
处理器601的功能可以参考上述处理器501的描述。此外,处理器601还具备存储功能,可以参考上述存储器502的功能。
通信接口602用于为处理器601提供数据。该通信接口602可以是故障处理设备的内部接口,也可以是故障处理设备对外的接口(相当于通信接口504)。
需要指出的是,图9中示出的结构并不构成对故障处理设备的限定,除图9所示部件之外,该故障处理设备60可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元的划分进行举例说明。在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当计算机执行该指令时,该计算机执行上述方法实施例所示的方法流程中的各个步骤。
本申请的实施例提供一种包含指令的计算机程序产品,当指令在计算机上运行时,使得计算机执行上述方法实施例中的故障处理方法。
其中,计算机可读存储介质,例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘。随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、寄存器、硬盘、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的人以合适的组合、或者本领域数值的任何其他形式的计算机可读存储介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于特定用途集成电路(Application Specific Integrated Circuit,ASIC)中。在本申请实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
由于本申请的实施例中的装置、设备计算机可读存储介质、计算机程序产品可以应用于上述方法,因此,其所能获得的技术效果也可参考上述方法实施例,本申请实施例在此不再赘述。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种故障处理方法,其特征在于,所述方法包括:
获取第一告警信息,告警信息包括告警设备名称;
根据所述第一告警信息包括的告警设备名称,确定第一故障场景,所述第一故障场景对应的告警匹配规则包括多个告警设备名称,所述多个告警设备名称包括所述第一告警信息包括的告警设备名称;
根据所述多个告警设备名称,获取多个第二告警信息,第二告警信息包括的告警设备名称为所述多个告警设备名称中的告警设备名称;
确定所述第一告警信息以及所述多个第二告警信息,是否满足所述第一故障场景对应的告警匹配规则;
在所述第一告警信息以及所述多个第二告警信息,满足所述第一故障场景对应的告警匹配规则的情况下,确定存在所述第一故障场景对应的故障。
2.根据权利要求1所述的故障处理方法,其特征在于,所述第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值、预设区域内的告警信息的数量大于第二阈值、预设网管平台的告警信息的数量大于第三阈值、告警标题为预设告警标题的告警信息的数量大于第四阈值,以及告警报文中包括预设报文字段的告警信息的数量大于第五阈值中的至少一个。
3.根据权利要求1或2所述的故障处理方法,其特征在于,所述方法还包括:
从多个预设故障抢修方案中,确定与所述第一故障场景对应的故障抢修方案;
上报所述故障抢修方案。
4.根据权利要求1或2所述的故障处理方法,其特征在于,在所述第一告警信息以及所述多个第二告警信息,不满足所述第一故障场景对应的告警匹配规则的情况下,所述方法还包括:
确定当前发生的目标故障;
根据所述第一告警信息以及多个第二告警信息,确定第二故障场景;
建立所述第二故障场景与所述目标故障之间的映射关系。
5.根据权利要求1或2所述的故障处理方法,其特征在于,所述第一故障场景对应多个告警匹配规则,所述在所述第一告警信息以及所述多个第二告警信息,满足所述第一故障场景对应的告警匹配规则的情况下,确定存在所述第一故障场景对应的故障,包括:
确定所述第一告警信息以及所述多个第二告警信息,是否满足所述多个告警匹配规则中的每个告警匹配规则;
在所述第一告警信息以及所述多个第二告警信息,满足所述多个告警匹配规则中的每个告警匹配规则的情况下,确定存在所述第一故障场景对应的故障。
6.一种故障处理装置,其特征在于,包括获取单元以及确定单元;
所述获取单元,用于获取第一告警信息,告警信息包括告警设备名称;
所述确定单元,用于根据所述第一告警信息包括的告警设备名称,确定第一故障场景,所述第一故障场景对应的告警匹配规则包括多个告警设备名称,所述多个告警设备名称包括所述第一告警信息包括的告警设备名称;
所述获取单元,还用于根据所述多个告警设备名称,获取多个第二告警信息,第二告警信息包括的告警设备名称为所述多个告警设备名称中的告警设备名称;
所述确定单元,还用于确定所述第一告警信息以及所述多个第二告警信息,是否满足所述第一故障场景对应的告警匹配规则;
所述确定单元,还用于在所述第一告警信息以及所述多个第二告警信息,满足所述第一故障场景对应的告警匹配规则的情况下,确定存在所述第一故障场景对应的故障。
7.根据权利要求6所述的故障处理装置,其特征在于,所述第一故障场景对应的告警匹配规则为预设时间段内的告警信息的数量大于第一阈值、预设区域内的告警信息的数量大于第二阈值、预设网管平台的告警信息的数量大于第三阈值、告警标题为预设告警标题的告警信息的数量大于第四阈值,以及告警报文中包括预设报文字段的告警信息的数量大于第五阈值中的至少一个。
8.根据权利要求6或7所述的故障处理装置,其特征在于,所述故障处理装置还包括处理单元;
所述确定单元,还用于从多个预设故障抢修方案中,确定与所述第一故障场景对应的故障抢修方案;
所述处理单元,用于上报所述故障抢修方案。
9.根据权利要求6或7所述的故障处理装置,其特征在于,所述故障处理装置还包括处理单元;
所述确定单元,还用于确定当前发生的目标故障;
所述确定单元,还用于根据所述第一告警信息以及多个第二告警信息,确定第二故障场景;
所述处理单元,用于建立所述第二故障场景与所述目标故障之间的映射关系。
10.根据权利要求6或7所述的故障处理装置,其特征在于,所述第一故障场景对应多个告警匹配规则,所述确定单元,还用于确定所述第一告警信息以及所述多个第二告警信息,是否满足所述多个告警匹配规则中的每个告警匹配规则;
所述确定单元,还用于在所述第一告警信息以及所述多个第二告警信息,满足所述多个告警匹配规则中的每个告警匹配规则的情况下,确定存在所述第一故障场景对应的故障。
11.一种故障处理设备,其特征在于,包括存储器和处理器;
所述存储器和所述处理器耦合;
所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;
当所述处理器执行所述计算机指令时,所述故障处理设备执行如权利要求1-5中任意一项所述的故障处理方法。
12.一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令在故障处理设备上运行时,使得所述故障处理设备执行如权利要求1-5中任意一项所述的故障处理方法。
CN202311177297.4A 2023-09-12 2023-09-12 故障处理方法、装置、设备及存储介质 Pending CN117336155A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311177297.4A CN117336155A (zh) 2023-09-12 2023-09-12 故障处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311177297.4A CN117336155A (zh) 2023-09-12 2023-09-12 故障处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117336155A true CN117336155A (zh) 2024-01-02

Family

ID=89289257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311177297.4A Pending CN117336155A (zh) 2023-09-12 2023-09-12 故障处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117336155A (zh)

Similar Documents

Publication Publication Date Title
US11700540B2 (en) Method and device for monitoring network data
CN111192130B (zh) 交易监控中确定故障根源的方法、系统、装置及存储介质
US20210226853A1 (en) Automated network monitoring and control
CN113760634A (zh) 一种数据处理方法和装置
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
US11252066B2 (en) Automated network monitoring and control
CN117336155A (zh) 故障处理方法、装置、设备及存储介质
CN113807697B (zh) 基于告警关联的派单方法及装置
CN109379211B (zh) 一种网络监控方法及装置、服务器和存储介质
CN109508356B (zh) 数据异常预警方法、装置、计算机设备及存储介质
CN107957915B (zh) 一种被调用方系统的心跳检测方法、存储介质和服务器
FI129101B (en) Automatic monitoring and control of networks
CN110796044A (zh) 一种目标区域安保监控方法和设备
CN111400156A (zh) 日志分析方法和装置
CN116684905A (zh) 一种信息处理方法、装置及设备
US20230292160A1 (en) Local 5g monitoring system and measurement data providing method thereof
CN114125906B (zh) 网络异常的诊断方法、装置、计算设备及计算机存储介质
JP6837091B2 (ja) 障害監視装置及びプログラム
CN116302161A (zh) 采集器管理方法、装置、设备、系统及存储介质
CN116248476A (zh) 跨层故障定位方法、装置、设备及存储介质
CN117614862A (zh) 设备运行数据的检测方法及装置、存储介质及电子设备
CN117596127A (zh) 数据处理方法、装置、设备及存储介质
CN115664921A (zh) 一种基于web的网络交换设备管理系统、方法及电子设备
CN116634024A (zh) 数据处理方法、装置、设备及存储介质
CN116743544A (zh) 流量异常告警方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination