CN115001946A - 一种错包闪断故障处理方法和系统、电子设备、存储介质 - Google Patents
一种错包闪断故障处理方法和系统、电子设备、存储介质 Download PDFInfo
- Publication number
- CN115001946A CN115001946A CN202210616866.XA CN202210616866A CN115001946A CN 115001946 A CN115001946 A CN 115001946A CN 202210616866 A CN202210616866 A CN 202210616866A CN 115001946 A CN115001946 A CN 115001946A
- Authority
- CN
- China
- Prior art keywords
- fault
- alarm information
- processing
- processing result
- isolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 115
- 238000002955 isolation Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 68
- 230000008439 repair process Effects 0.000 claims abstract description 36
- 238000012423 maintenance Methods 0.000 claims abstract description 30
- 230000009471 action Effects 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 description 10
- 230000002776 aggregation Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0659—Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种错包闪断故障处理方法和系统、电子设备、存储介质,该方法,包括:获取告警信息;对告警信息进行处理,得到处理结果;当处理结果为误告时,不执行隔离动作;当处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;当处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离;从而针对故障端口进行处置,波及范围小,业务影响可控;解决网络设备高频的端口错包、闪断故障误报、处置繁琐的问题。
Description
技术领域
本发明属于故障处理技术领域,更具体的说,尤其涉及一种错包闪断故障处理方法和系统、电子设备、存储介质。
背景技术
在日常运维中,网络端口会出现偶发的闪断和错包增长,这类故障有时是一次性的,偶然因素导致,有时则会反复发生;一旦错包、闪断故障出现,就需要人工确认,并判断处置,受限于人工判断与处置的速度,故障处理的时效性差,并且工作量大。
为了加快故障的处置速度,大部分运维平台均内置了连接网络设备自动化执行命令的能力。而在数据中心的设计中,存在大量的冗余设计,以确保部分端口关闭时,不会影响整体的业务。
目前,网络设备故障处置方法,通过CMDB等信息比对,在满足条件时通过多种方式直接隔离整个网络设备;但是,针对故障设备,直接隔离整台设备,对网络容量影响较大,容易造成业务质量下降。
发明内容
有鉴于此,本发明的目的在于提供一种错包闪断故障处理方法和系统、电子设备、存储介质,用于解决网络设备高频的端口错包、闪断故障误报、处置繁琐的问题,降低运维人员的压力。
本申请第一方面公开了一种错包闪断故障处理方法,其特征在于,包括:
获取告警信息;
对所述告警信息进行处理,得到处理结果;
当所述处理结果为误告时,不执行隔离动作;
当所述处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;
当所述处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离。
可选的,在上述错包闪断故障处理方法中,对所述告警信息进行处理,得到处理结果,包括:
从所述告警信息中提取告警设备的设备名、管理地址和端口号;
调用CMDB接口验证所述设备名与所述管理地址是否正确;
若所述设备名与所述管理地址均正确,则登陆所述告警设备,检查端口错包或闪断情况,得到所述端口号对应的解析结果;
若所述解析结果为当前状态正常,则所述处理结果为误告;
若所述解析结果为存在故障,则根据高可用规则判断所述告警信息能否自动处置;若所述告警信息能自动处置,则所述处理结果为高可用接口故障,否则所述处理结果为非高可用接口故障。
可选的,在上述错包闪断故障处理方法中,在从所述告警信息中提取告警设备的设备名、管理地址、端口号之前,还包括:
使用关键字对所述告警信息进行过滤。
可选的,在上述错包闪断故障处理方法中,所述根据高可用规则判断所述告警信息能否自动处置,包括:
判断是否同时满足,端口为网路设备互联端口、所述端口的影响有限,所述端口存在错包或闪断需处置;
若是,则判定所述告警信息能自动处置;否则判定所述告警信息不能自动处置。
可选的,在上述错包闪断故障处理方法中,在高可用接口进行自动隔离之后,还包括:
若隔离失败,则执行判定所述告警信息不能自动处置的步骤。
可选的,在上述错包闪断故障处理方法中,在判定所述告警信息不能自动处置之后,还包括:
依据自动检查执行规则对所述告警信息进行检查,并进行故障分析;
若分析结果为存在故障或无法判定,则判定所述处理结果为非高可用接口故障;
所述分析结果为正常,则判定所述处理结果为误告。
本申请第二方面公开了一种错包闪断故障处理系统,其特征在于,包括:
获取模块,用于获取告警信息;
处理模块,用于对所述告警信息进行处理,得到处理结果;
执行模块,用于当所述处理结果为误告时,不执行隔离动作;当所述处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;当所述处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离。
可选的,在上述错包闪断故障处理系统中,处理模块用于对所述告警信息进行处理,得到处理结果时,具体用于:
从所述告警信息中提取告警设备的设备名、管理地址和端口号;
调用CMDB接口验证所述设备名与所述管理地址是否正确;
若所述设备名与所述管理地址均正确,则登陆所述告警设备,检查端口错包或闪断情况,得到所述端口号对应的解析结果;
若所述解析结果为当前状态正常,则所述处理结果为误告;
若所述解析结果为存在故障,则根据高可用规则判断所述告警信息能否自动处置;若所述告警信息能自动处置,则所述处理结果为高可用接口故障,否则所述处理结果为非高可用接口故障。
本申请第三方面公开了一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如本申请第一方面中任一项所述的错包闪断故障处理方法。
本申请第四方面公开了一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如本申请第一方面中任一项所述的错包闪断故障处理方法。
从上述技术方案可知,本发明提供的一种错包闪断故障处理方法,包括:获取告警信息;对告警信息进行处理,得到处理结果;当处理结果为误告时,不执行隔离动作;当处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;当处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离;实现高可用接口的自动处置和非高可用接口的人工介入处置;从而针对故障端口进行处置,波及范围小,业务影响可控;解决网络设备高频的端口错包、闪断故障误报、处置繁琐的问题,降低运维人员的压力;通过自动与人工的结合,提高了端口故障处置速度,能够达成更高等级的服务质量保证。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种错包闪断故障处理方法的流程图;
图2是本发明实施例提供的另一种错包闪断故障处理方法的流程图;
图3是本发明实施例提供的另一种错包闪断故障处理方法的流程图;
图4是本发明实施例提供的一种错包闪断故障处理系统的示意图;
图5是本发明实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请提供了一种错包闪断故障处理方法,用于解决现有技术中网络设备故障处置方法,通过CMDB等信息比对,在满足条件时通过多种方式直接隔离整个网络设备;但是,针对故障设备,直接隔离整台设备,对网络容量影响较大,容易造成业务质量下降的问题。
参见图1,该错包闪断故障处理方法,包括:
S101、获取告警信息。
具体的,该告警信息的数量可以是一个,也可以是多个,此处不做具体限定,视实际情况而定即可,均在本申请的保护范围内。
需要说明的是,该告警信息可以是出现错包闪断的告警信息。
当然,该告警信息也可以是包括全部告警信息,然后再通过过滤技术,将其他告警信息过滤掉,仅保留错包闪断的告警信息。
该告警信息的具体选取,此处不再一一赘述,视实际情况而定即可,均在本申请的保护范围内。
S102、对告警信息进行处理,得到处理结果。
具体的,可以是对告警信息中的字段进行提取,再依据相应字段进行相应的处理,然后得到处理结果。
对告警信息的具体处理方式,此处不再一一赘述,视实际情况而定即可,均在本申请的保护范围内。
S103、当处理结果为误告时,不执行隔离动作。
也就是说,该告警信息为误告警,进而可以不执行隔离动作。
具体的,在处理结果为误告时,可以通过邮件、短信告知运维人员端口正常,无需进一步处理。
S104、当处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离。
也就是说,可以对高可用接口进行自动隔离。
其中,对隔离后的高可用接口进行故障修复,具体的修复过程,此处不做具体限定,视实际情况而定即可,均在本申请的保护范围内。
另外,在完成修复之后,取消隔离,以使该高可用接口投入使用。
S105、当处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离。
具体的,当处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给,由运维人员判断是否需要人工隔离,需要人工隔离时,执行人工隔离,之后由修理人员现场处置,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离。
也就是说,对非高可用接口故障需要进行人工隔离。
隔离之后可以是自动进行修复,也可以是进行人工修复,此处不再一一赘述,视实际情况而定即可,均在本申请的保护范围内。
用户操作内容为:用户可查看检查过程中的命令和返回结果,以及故障分析中提供的判定结论,然后选择是否进行隔离。
故障修复内容为:用户执行隔离后,需要负责机房环境、布线施工等人员到现场排除物理故障,之后才能进行后续操作。
取消隔离内容为:物理故障排除后,需要用户在系统中执行恢复操作,系统通过CLI方式将故障端口重新打开,从而恢复完成整个处置过程。
在本实施例中,获取告警信息;对告警信息进行处理,得到处理结果;当处理结果为误告时,不执行隔离动作;当处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;当处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离;实现高可用接口的自动处置和非高可用接口的人工介入处置;从而针对故障端口进行处置,波及范围小,业务影响可控;解决网络设备高频的端口错包、闪断故障误报、处置繁琐的问题,降低运维人员的压力;通过自动与人工的结合,提高了端口故障处置速度,能够达成更高等级的服务质量保证。
需要说明的是,现有技术通过设置接口的故障阈值,来实现接口发生故障时自动隔离;但是,在独立的端口下设置阈值来实现自动隔离,无法对高可用性进行判断,存在业务中断风险;现有技术依赖设备自身能力,受限于设备性能规格,无法实现较大时间跨度内的故障处理。
而本实施例中,将高可用接口和非高可用接口进行区分,实现高可用接口的自动处置和非高可用接口的人工介入处置,安全性高,不受限于设备性能规格,实现较大时间跨度内的故障处理。
在实际应用中,参见图2,上述步骤S102、对告警信息进行处理,得到处理结果,包括:
S201、从告警信息中提取告警设备的设备名、管理地址和端口号。
在实际应用中,从告警信息中提取告警设备的设备名、管理地址、端口号之前,还包括:
使用关键字对告警信息进行过滤。
系统接入告警监控平台,接收网络领域全部告警,并使用关键词(错包突发高阈值、一小时内发生三次闪断)过滤错包、闪断类告警,并从告警信息中提取设备名、IP地址、端口信息。
S202、调用CMDB接口验证设备名与管理地址是否正确。
具体的,系统接入告警监控平台,接收网络领域全部告警,并使用关键词(错包突发高阈值、一小时内发生三次闪断)过滤错包、闪断类告警,并从告警信息中提取设备名、IP地址、端口信息,查询CMDB(Configuration Management Database配置管理数据库),确定设备信息正确后执行后续处置,否则认为设备管理信息不准确,不进行处置。
若设备名与管理地址均正确,则执行步骤S203。
S203、登陆告警设备,检查端口错包或闪断情况,得到端口号对应的解析结果。
也就是说,对该告警设备进行处理,检测是否存在端口错包或闪断情况,如果该端口不存在存在端口错包或闪断情况,则解析结果为当前状态正常;如果端口存在端口错包或闪断情况,则该解析结果为存在故障。
S204、若解析结果为当前状态正常,则处理结果为误告。
S205、若解析结果为存在故障,则根据高可用规则判断告警信息能否自动处置;若告警信息能自动处置,则处理结果为高可用接口故障,否则处理结果为非高可用接口故障。
也就是说,收到告警消息后,从告警信息中提取设备的设备名、管理地址、端口号,之后调用CMDB接口验证设备名与设备管理地址是否正确,之后登陆相应设备,检查端口错包或闪断情况,读取并解析结果,之后进行逻辑判断,如果当前状态正常,则通过邮件、短信告知运维人员端口正常,无需进一步处理;如果存在故障,则根据高可用规则判断能否自动处置,如果能自动处置,则自动隔离,否则将检查结果反馈给用户,由用户决策,并且提供一键隔离与恢复的操作入口。
在实际应用中,根据高可用规则判断告警信息能否自动处置,包括:
(1)判断是否同时满足,端口为网路设备互联端口、端口的影响有限,端口存在错包或闪断需处置。
需要说明的是,采用网络互联端口判定规则来判断端口是否为网路设备互联端口,该网络互联端口判定规则具体如下:
方式一:设备名称格式+接口范围,适用于结构明确,拓扑简单的网络环境,设备名称和接口名称已从告警信息中获取;规则案例:设备名称中包含AZC或MS且接口号不包含Route-Aggregation、Bridge-Aggregation、Eth-Trunk。
方式二:设备名称格式+接口描述格式,适用于结构不固定,但拓扑简单的网络环境,接口描述通过CLI(Command-Line Interface命令行界面)查询接口配置中description获取。规则案例:通过“dispay current-configuration interface接口名称”,提取结果中“description To-对端设备名-端口号”,检查本端设备名称包含DSW,描述字段To后包含-ASW#或-AS#,#表示任意正整数。
方式三:设备名称格式+LLDP邻居名称格式规则,适用于绝大多数网络环境,LLDP邻居名称通过CLI查询邻居信息获取。规则案例:通过“display lldp neighbor-information interface接口名”,获取LLDP邻居名称,设备名称后缀为SW#,LLDP邻居名称后缀也是SW#,#表示正整数。
在实际应用中,采用业务影响判定规则来判断端口的影响是否有限;该业务影响判定规则具体如下:
方式一:聚合口高可用,检查告警端口是否属于聚合口,如果属于聚合口,则检查关闭告警端口后聚合口剩余带宽是否大于等于容忍阈值,如果大于则认为无业务影响,否则认为存在业务影响;规则案例:通过CLI查询物理口配置,从“eth-trunk数字”中提取所属聚合口,如果接口配置中未找到Eth-trunk,结束本次流程,如果存在,则通过CLI查询聚合口成员和各成员状态,如果(正常接口数-1)/正常接口数>=带宽容忍阈值,则认为无业务影响,否则退出流程。
方式二:等价路由高可用,通过CLI获取接口地址,使用本端地址计算得到对端地址,通过CLI执行路由查看命令检查预置的多个地址的路由,如果存在一条动态路由的下一跳包含计算到的对端地址,则计算下一跳数量,如果(现有数量-1)/现有数量>=容忍阈值,则认为隔离动作无业务影响;规则案例:通过CLI查询物理口配置,从“ip address地址子网掩码”中提取所属本端地址,与子网掩码联合计算对端地址,再依次通过CLI执行路由查看命令,直到遇到一个对端地址为下一跳的OSPF/BGP路由;计算该路由的下一跳数量,(现有数量-1)/现有数量>=带宽容忍阈值,则认为无业务影响;未找到对端地址作为下一跳或者小于容忍阈值,则认为有业务影响。
在实际应用中,采用自动处置必要性判断规则来判断端口是否存在错包或闪断需处置;该自动处置必要性判断规则具体如下:
闪断故障:通过CLI检查设备日志,如果发现一小时内告警的物理端口依次出现了三次以上up、down状态变化,则认为存在故障,并且需要自动处置;如果未出现状态变化,则认为是误告;如果出现次数少于三次,则认为存在故障,但不需要自动隔离;规则案例:执行CLI命令获取近一小时日志,逐行匹配包含ifName=接口号和OperStatus=DOWN/UP信息,30秒内出现三对up、down状态变化则认为是需要自动隔离的故障,未出现则认为是误告,出现但少于三对up、down状态变化则认为是不需要自动隔离的故障。
错包故障:通过CLI检查设备接口错包,按预定间隔连续执行三次,如果三次获取到的错包数据增长超出阈值,则认为是需要自动隔离的错包故障,如果错包数据未增长,则认为是误告,否则认为是不需要自动隔离的错包故障;规则案例:通过CLI执行“disinterface接口名”间隔5秒,共执行3次。连续两次的CRC的增长超过10个,则认为是需要自动隔离的错包故障。
(2)若是,则判定告警信息能自动处置;否则判定告警信息不能自动处置。
在实际应用中,在高可用接口进行自动隔离之后,还包括:
若隔离失败,则执行判定告警信息不能自动处置的步骤。
具体的,隔离结果判断规则为通过CLI命令检测接口状态,状态应该为Admindown,否则认为处置没有成功。
在实际应用中,在判定告警信息不能自动处置之后,还包括:
依据自动检查执行规则对告警信息进行检查,并进行故障分析。
若分析结果为存在故障或无法判定,则判定处理结果为非高可用接口故障。
分析结果为正常,则判定处理结果为误告。
自动检查执行规则为:自动处置必要性判定流程和业务影响判定流程,并将过程中的命令和返回结果传递到前端页面,供用户进一步处理。
故障分析规则为:对自动检查执行中判定为误告的故障,直接提示用户告警信息不需要处置;对自动检查执行中判定为不需要自动处置的故障,在页面中提供按钮供用户选择是否隔离。
参见图3,下面对具体的使用场景进行举例说明。
1、基础数据检验规则。
系统接入告警监控平台,接收网络领域全部告警,并使用关键词(错包突发高阈值、一小时内发生三次闪断)过滤错包、闪断类告警,并从告警信息中提取设备名、IP地址、端口信息,查询CMDB(Configuration Management Database配置管理数据库),确定设备信息正确后执行后续处置,否则认为设备管理信息不准确,不进行处置。
2、网络互联端口判定规则。
方式一:设备名称格式+接口范围,适用于结构明确,拓扑简单的网络环境,设备名称和接口名称已从告警信息中获取。
方式二:设备名称格式+接口描述格式,适用于结构不固定,但拓扑简单的网络环境,接口描述通过CLI(Command-Line Interface命令行界面)查询接口配置中description获取。
方式三:设备名称格式+LLDP邻居名称格式规则,适用于绝大多数网络环境,LLDP邻居名称通过CLI查询邻居信息获取。
3、业务影响判定规则。
方式一:聚合口高可用,检查告警端口是否属于聚合口,如果属于聚合口,则检查关闭告警端口后聚合口剩余带宽是否大于等于容忍阈值,如果大于则认为无业务影响,否则认为存在业务影响。
方式二:等价路由高可用,通过CLI获取接口地址,使用本端地址计算得到对端地址,通过CLI执行路由查看命令检查预置的多个地址的路由,如果存在一条动态路由的下一跳包含计算到的对端地址,则计算下一跳数量,如果(现有数量-1)/现有数量>=容忍阈值,则认为隔离动作无业务影响。
4、自动处置必要性判断规则。
闪断故障:通过CLI检查设备日志,如果发现一小时内告警的物理端口依次出现了三次以上up、down状态变化,则认为存在故障,并且需要自动处置;如果未出现状态变化,则认为是误告;如果出现次数少于三次,则认为存在故障,但不需要自动隔离。
错包故障:通过CLI检查设备接口错包,按预定间隔连续执行三次,如果三次获取到的错包数据增长超出阈值,则认为是需要自动隔离的错包故障,如果错包数据未增长,则认为是误告,否则认为是不需要自动隔离的错包故障。
5、隔离结果判断规则。
通过CLI命令检测接口状态,状态应该为Admin down,否则认为处置没有成功。
6、自动检查执行规则。
再次执行自动处置必要性判定流程和业务影响判定流程,并将过程中的命令和返回结果传递到前端页面,供用户进一步处理。
7、故障分析规则。
对自动检查执行中判定为误告的故障,直接提示用户告警信息不需要处置;对自动检查执行中判定为不需要自动处置的故障,在页面中提供按钮供用户选择是否隔离。
8、用户操作内容。
用户可查看检查过程中的命令和返回结果,以及故障分析中提供的判定结论,然后选择是否进行隔离。
9、故障修复内容。
用户执行隔离后,需要由负责机房环境、布线施工的人员到现场排除物理故障,之后才能进行后续操作。
10、取消隔离内容。
物理故障排除后,需要用户在系统中执行恢复操作,系统通过CLI方式将故障端口重新打开,从而恢复完成整个处置过程。
本申请另一实施例提供了一种错包闪断故障处理系统。
参见图4,该错包闪断故障处理系统,包括:
获取模块101,用于获取告警信息。
处理模块102,用于对告警信息进行处理,得到处理结果。
执行模块103,用于当处理结果为误告时,不执行隔离动作;当处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;当处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离。
上述各个模块的工作过程和原理,详情参见上述实施例提供的错包闪断故障处理方法,此处不再一一赘述,视实际情况而定即可,均在本申请的保护范围内。
在本实施例中,获取模块101获取告警信息;处理模块102对告警信息进行处理,得到处理结果;执行模块103当处理结果为误告时,不执行隔离动作;当处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;当处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离;实现高可用接口的自动处置和非高可用接口的人工介入处置;从而针对故障端口进行处置,波及范围小,业务影响可控;解决网络设备高频的端口错包、闪断故障误报、处置繁琐的问题,降低运维人员的压力;通过自动与人工的结合,提高了端口故障处置速度,能够达成更高等级的服务质量保证。
在实际应用中,处理模块102用于对告警信息进行处理,得到处理结果时,具体用于:
从告警信息中提取告警设备的设备名、管理地址和端口号。
调用CMDB接口验证设备名与管理地址是否正确。
若设备名与管理地址均正确,则登陆告警设备,检查端口错包或闪断情况,得到端口号对应的解析结果。
若解析结果为当前状态正常,则处理结果为误告。
若解析结果为存在故障,则根据高可用规则判断告警信息能否自动处置;若告警信息能自动处置,则处理结果为高可用接口故障,否则处理结果为非高可用接口故障。
本申请另一实施例提供了一种存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项的错包闪断故障处理方法。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本发明另一实施例提供了一种电子设备,如图5所示,包括:
一个或多个处理器601。
存储装置602,其上存储有一个或多个程序。
当一个或多个程序被一个或多个处理器601执行时,使得一个或多个处理器601实现如上述实施例中任意一项的错包闪断故障处理方法。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
本说明书中的各个实施例中记载的特征可以相互替换或者组合,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种错包闪断故障处理方法,其特征在于,包括:
获取告警信息;
对所述告警信息进行处理,得到处理结果;
当所述处理结果为误告时,不执行隔离动作;
当所述处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;
当所述处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离。
2.根据权利要求1所述的错包闪断故障处理方法,其特征在于,对所述告警信息进行处理,得到处理结果,包括:
从所述告警信息中提取告警设备的设备名、管理地址和端口号;
调用CMDB接口验证所述设备名与所述管理地址是否正确;
若所述设备名与所述管理地址均正确,则登陆所述告警设备,检查端口错包或闪断情况,得到所述端口号对应的解析结果;
若所述解析结果为当前状态正常,则所述处理结果为误告;
若所述解析结果为存在故障,则根据高可用规则判断所述告警信息能否自动处置;若所述告警信息能自动处置,则所述处理结果为高可用接口故障,否则所述处理结果为非高可用接口故障。
3.根据权利要求2所述的错包闪断故障处理方法,其特征在于,在从所述告警信息中提取告警设备的设备名、管理地址、端口号之前,还包括:
使用关键字对所述告警信息进行过滤。
4.根据权利要求2所述的错包闪断故障处理方法,其特征在于,所述根据高可用规则判断所述告警信息能否自动处置,包括:
判断是否同时满足,端口为网路设备互联端口、所述端口的影响有限,所述端口存在错包或闪断需处置;
若是,则判定所述告警信息能自动处置;否则判定所述告警信息不能自动处置。
5.根据权利要求4所述的错包闪断故障处理方法,其特征在于,在高可用接口进行自动隔离之后,还包括:
若隔离失败,则执行判定所述告警信息不能自动处置的步骤。
6.根据权利要求5所述的错包闪断故障处理方法,其特征在于,在判定所述告警信息不能自动处置之后,还包括:
依据自动检查执行规则对所述告警信息进行检查,并进行故障分析;
若分析结果为存在故障或无法判定,则判定所述处理结果为非高可用接口故障;
所述分析结果为正常,则判定所述处理结果为误告。
7.一种错包闪断故障处理系统,其特征在于,包括:
获取模块,用于获取告警信息;
处理模块,用于对所述告警信息进行处理,得到处理结果;
执行模块,用于当所述处理结果为误告时,不执行隔离动作;当所述处理结果为高可用接口故障时,对高可用接口进行自动隔离,对隔离后的高可用接口进行故障修复,直至完成修复后取消隔离;当所述处理结果为非高可用接口故障时,将非高可用接口的故障信息发送给二线运维人员,以使运维人员判断是否需要人工隔离,对隔离后的非高可用接口进行故障修复,直至完成修复后取消隔离。
8.根据权利要求7所述的错包闪断故障处理系统,其特征在于,处理模块用于对所述告警信息进行处理,得到处理结果时,具体用于:
从所述告警信息中提取告警设备的设备名、管理地址和端口号;
调用CMDB接口验证所述设备名与所述管理地址是否正确;
若所述设备名与所述管理地址均正确,则登陆所述告警设备,检查端口错包或闪断情况,得到所述端口号对应的解析结果;
若所述解析结果为当前状态正常,则所述处理结果为误告;
若所述解析结果为存在故障,则根据高可用规则判断所述告警信息能否自动处置;若所述告警信息能自动处置,则所述处理结果为高可用接口故障,否则所述处理结果为非高可用接口故障。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现如权利要求1-6中任一项所述的错包闪断故障处理方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如权利要求1-6中任一项所述的错包闪断故障处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210616866.XA CN115001946A (zh) | 2022-06-01 | 2022-06-01 | 一种错包闪断故障处理方法和系统、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210616866.XA CN115001946A (zh) | 2022-06-01 | 2022-06-01 | 一种错包闪断故障处理方法和系统、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115001946A true CN115001946A (zh) | 2022-09-02 |
Family
ID=83032159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210616866.XA Pending CN115001946A (zh) | 2022-06-01 | 2022-06-01 | 一种错包闪断故障处理方法和系统、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115001946A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6745347B1 (en) * | 2000-09-27 | 2004-06-01 | International Business Machines Corporation | System, method and program for determining the availability of interfaces to a device from information provided by the device |
CN111447328A (zh) * | 2020-03-25 | 2020-07-24 | 中国—东盟信息港股份有限公司 | 一种隐私号系统故障告警系统及方法 |
CN112463427A (zh) * | 2020-11-17 | 2021-03-09 | 中国建设银行股份有限公司 | 一种故障信息处理方法、装置、计算机设备及存储介质 |
CN112910669A (zh) * | 2019-12-03 | 2021-06-04 | 中盈优创资讯科技有限公司 | 故障智能化处理方法、装置及系统 |
CN113791928A (zh) * | 2021-09-22 | 2021-12-14 | 中国建设银行股份有限公司 | 一种端口故障处置方法、系统、存储介质和电子设备 |
CN114389940A (zh) * | 2020-10-20 | 2022-04-22 | 华为技术有限公司 | 故障恢复预案确定方法、装置及系统、计算机存储介质 |
-
2022
- 2022-06-01 CN CN202210616866.XA patent/CN115001946A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6745347B1 (en) * | 2000-09-27 | 2004-06-01 | International Business Machines Corporation | System, method and program for determining the availability of interfaces to a device from information provided by the device |
CN112910669A (zh) * | 2019-12-03 | 2021-06-04 | 中盈优创资讯科技有限公司 | 故障智能化处理方法、装置及系统 |
CN111447328A (zh) * | 2020-03-25 | 2020-07-24 | 中国—东盟信息港股份有限公司 | 一种隐私号系统故障告警系统及方法 |
CN114389940A (zh) * | 2020-10-20 | 2022-04-22 | 华为技术有限公司 | 故障恢复预案确定方法、装置及系统、计算机存储介质 |
CN112463427A (zh) * | 2020-11-17 | 2021-03-09 | 中国建设银行股份有限公司 | 一种故障信息处理方法、装置、计算机设备及存储介质 |
CN113791928A (zh) * | 2021-09-22 | 2021-12-14 | 中国建设银行股份有限公司 | 一种端口故障处置方法、系统、存储介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
尤龙;: "基于告警分析的故障智能预处理研究", 通信与信息技术, no. 04, 25 July 2016 (2016-07-25) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109787817B (zh) | 网络故障诊断方法、装置和计算机可读存储介质 | |
CN110716842B (zh) | 集群故障检测方法和装置 | |
CN112291075B (zh) | 网络故障定位方法、装置、计算机设备及存储介质 | |
CN113259183B (zh) | 一种网络继电器的控制方法、装置、电子设备及存储介质 | |
CN112751733A (zh) | 一种链路检测方法、装置、设备、系统及交换机 | |
CN113115351A (zh) | 一种网络异常的处理方法、处理装置、终端设备及介质 | |
CN112260922B (zh) | 网络环路问题快速定位方法与系统 | |
CN111988170B (zh) | 一种终端故障定位方法及装置 | |
CN114363151A (zh) | 故障检测方法和装置、电子设备和存储介质 | |
CN101924661B (zh) | 告警的处理方法及装置 | |
CN113285840B (zh) | 存储网络故障根因分析方法及计算机可读存储介质 | |
CN110708715A (zh) | 一种5g基站业务故障查找方法及装置 | |
CN101980478A (zh) | 设备故障的检测处理方法、装置和网络设备 | |
KR20190104759A (ko) | 지능형 장비 이상 증상 사전 탐지 시스템 및 방법 | |
CN115001946A (zh) | 一种错包闪断故障处理方法和系统、电子设备、存储介质 | |
CN111866921A (zh) | 一种5g基站业务故障查找方法、装置、设备及可存储介质 | |
CN116506340A (zh) | 流量链路的测试方法、装置、电子设备及存储介质 | |
CN110635954A (zh) | 一种数据中心网络故障的处理方法及系统 | |
CN115834365A (zh) | 一种基于新型网络的家宽业务诊断的方法、装置及设备 | |
CN114500236A (zh) | 基于交换机信息状态和日志的设备故障分析方法及装置 | |
CN111385157B (zh) | 一种服务器异常检测方法及装置 | |
CN107864057B (zh) | 一种基于联网状态的联机自动检查及告警方法 | |
CN110958145A (zh) | 一种管理自组网设备的方法、装置以及电子设备 | |
CN116488724B (zh) | 一种光纤通信测试方法、介质及应用其的系统 | |
CN106488489B (zh) | 一种恢复用户业务数据的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |