CN109787817B - 网络故障诊断方法、装置和计算机可读存储介质 - Google Patents

网络故障诊断方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN109787817B
CN109787817B CN201811628360.0A CN201811628360A CN109787817B CN 109787817 B CN109787817 B CN 109787817B CN 201811628360 A CN201811628360 A CN 201811628360A CN 109787817 B CN109787817 B CN 109787817B
Authority
CN
China
Prior art keywords
alarm
information
alarm information
root
troubleshooting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811628360.0A
Other languages
English (en)
Other versions
CN109787817A (zh
Inventor
范颖
陈昊
张勇
查巍巍
叶耀文
张亮
郑波
张伟龙
沈洁萍
杨博林
项勃
祁小龙
张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
722th Research Institute of CSIC
Original Assignee
722th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 722th Research Institute of CSIC filed Critical 722th Research Institute of CSIC
Priority to CN201811628360.0A priority Critical patent/CN109787817B/zh
Publication of CN109787817A publication Critical patent/CN109787817A/zh
Application granted granted Critical
Publication of CN109787817B publication Critical patent/CN109787817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络故障诊断方法、装置和计算机可读存储介质,属于通信技术领域。该方法包括:获取多个告警信息;确定所述多个告警信息中的根源告警信息;基于所述根源告警信息,输出网络故障诊断结果。通过根据多个告警信息中的根源告警信息来进行网络故障诊断,可以排除非根源告警信息的干扰,获得较为准确的故障诊断结果。

Description

网络故障诊断方法、装置和计算机可读存储介质
技术领域
本发明涉及通信技术领域,特别涉及一种网络故障诊断方法、装置和计算机可读存储介质。
背景技术
传统的网络故障管理模式中,网络故障诊断通常采用人工方式,依靠具有丰富经验的网络维护人员来完成。他们熟悉各种网络资源的症候及其它们之间的关联性,能够识别各种事件的优先级并对它们作出快速反应。但具有如此丰富经验的专家毕竟数量有限,一方面人工诊断往往费时,且不能在线进行,尤其对间歇性的故障,人工维护无法及时检测和排除,另一方面,行业内实践总结的成功的故障案例大多以文档和图片的形式保存,使得相关知识和经验积累难以被发掘、共享和重用,甚至随人员流失造成资源浪费。在这种情况下,人们开始迫切要求网络管理能够向自动化、智能化方向发展。
发明内容
本发明实施例提供了一种网络故障诊断方法、装置和计算机可读存储介质,能够根据告警信息对网络故障进行自动诊断。所述技术方案如下:
一方面,本发明实施例提供了一种网络故障诊断方法,所述方法包括:
获取多个告警信息;
确定所述多个告警信息中的根源告警信息;
基于所述根源告警信息,得到网络故障诊断结果。
在本发明实施例的一种实现方式中,所述确定所述多个告警信息中的根源告警信息,包括:
根据预先设置的根源告警和衍生告警的相关性规则,确定所述多个告警信息中的根源告警信息和衍生告警信息之间的根源衍生关系;
基于所述根源衍生关系确定根源告警信息。
可选地,所述方法还包括:
接收更新信息,所述更新信息包括标记信息和案例信息中的至少一种,所述标记信息用于标记所述网络故障诊断结果是否正确;
根据所述更新信息更新案例知识库,所述案例知识库用于描述根源告警信息和故障诊断结果的关系。
可选地,所述方法还包括:
接收输入的故障场景信息;
根据故障场景信息获取故障排查规则,所述故障排查规则用于限定多个排查对象以及所述多个排查对象的排查顺序;
按照所述故障排查规则进行故障排查。
可选地,所述按照所述故障排查规则进行故障排查,包括:
获取当前排查对象的状态信息,所述状态信息包括配置参数和状态参数中的至少一种;
根据获取到的所述状态信息确定当前排查对象是否存在故障;
当获取到的状态信息表示当前排查对象存在故障时,得到故障定位结果;
当获取到的状态信息表示当前排查对象不存在故障时,按照所述排查顺序获取下一排查对象的状态信息,并根据所述下一排查对象的状态信息确定下一排查对象是否存在故障,直至得到故障定位结果。
另一方面,本发明实施例还提供了一种网络故障诊断装置,所述装置包括:
获取模块,用于获取多个告警信息;
确定模块,用于确定所述多个告警信息中的根源告警信息;
诊断模块,用于基于所述根源告警信息,得到网络故障诊断结果。
可选地,所述确定模块可以包括:分析子模块,用于根据预先设置的根源告警和衍生告警的相关性规则,确定所述多个告警信息中的根源告警信息和衍生告警信息之间的根源衍生关系;确定子模块,用于基于所述根源衍生关系确定根源告警信息。
可选地,所述装置还包括:
更新信息获取模块,用于接收更新信息,所述更新信息包括标记信息和案例信息中的至少一种,所述标记信息用于标记所述网络故障诊断结果是否正确;
更新模块,用于根据所述更新信息更新案例知识库,所述案例知识库用于描述根源告警信息和故障诊断结果的关系。
可选地,所述装置还包括:
故障场景信息获取模块,用于接收输入的故障场景信息;
排查规则确定模块,用于根据故障场景信息获取故障排查规则,所述故障排查规则用于限定多个排查对象以及所述多个排查对象的排查顺序;
故障排查模块,用于按照所述故障排查规则进行故障排查。
可选地,所述故障排查模块,用于获取当前排查对象的状态信息,所述状态信息包括配置参数和状态参数中的至少一种;根据获取到的所述状态信息确定当前排查对象是否存在故障;当获取到的状态信息表示当前排查对象存在故障时,得到故障定位结果;当获取到的状态信息表示当前排查对象不存在故障时,按照所述排查顺序获取下一排查对象的状态信息,并根据所述下一排查对象的状态信息确定下一排查对象是否存在故障,直至得到故障定位结果。
另一方面,本发明实施例还提供了一种网络故障诊断装置,所述装置包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为用于执行存储于所述处理器中的可执行指令,以实现如前所述的网络故障诊断方法。
另一方面,本发明实施例还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由网络故障诊断装置的处理器执行时,使得所述网络故障诊断装置能够执行如前所述的网络故障诊断方法。
本发明实施例提供的技术方案带来的有益效果是:
通过根据多个告警信息中的根源告警信息来进行网络故障诊断,可以排除非根源告警信息的干扰,获得较为准确的故障诊断结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的应用场景示意图;
图2是本发明实施例提供的一种网络故障自动诊断方法的流程图;
图3是本发明实施例提供的一种网络故障自动诊断方法的流程图;
图4是本发明实施例提供的一种网络故障自动诊断方法的流程图;
图5是本发明实施例提供的一种网络故障手动诊断方法的流程图;
图6是本发明实施例提供的一种网络故障手动诊断方法的流程图;
图7是本发明实施例提供的一种故障场景下的手动诊断方法的流程图;
图8是本发明实施例提供的一种网络故障诊断装置的结构示意图;
图9示出了本发明一个示例性实施例提供的网络故障诊断装置的结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的应用场景示意图。参见图1,该应用场景包括网管设备10、多个网元设备20和网络故障诊断装置30。网管设备10分别与网元设备20和网络故障诊断装置30连接。
这多个网元设备20可以用于承载多种业务,例如数据业务、话音业务、视频业务等,即实现多种业务数据的传输,故该多个网元设备20构成的传输网络可以被称为综合信息传输网。该综合信息传输网可以实现为多种形式,例如局域网、园区网等。对于一个网元设备20,其可以是单独的交换设备(可以是路由器或交换机),也可以包括多个板卡(交换机和/或路由器板卡),每个网元设备能够独立完成一定的传输功能。
网管设备10用于配置各个网元设备20的工作参数、监测各个网元设备20的工作状态、监测链路状态等。当网络出现故障时,网管设备10会获取到网元设备上报的告警信息。
网络故障诊断装置30用于根据告警信息进行网络故障诊断。网络故障诊断装置30可以是计算机,例如服务器或者服务器集群。在图1中,网络故障诊断装置30为独立的设备,在其他实现方式中,网络故障诊断装置30也可以集成在网管设备10上。
在本发明实施例中,网络故障诊断装置30可以基于案例推理机制进行网络故障诊断。案例推理(CBR,Case-Based Reasoning)是一种类比推理方法,它提供了一种近似人类思维模型的建造专家系统的新的方法学,这与人对自然问题的求解相一致。人类在解决问题时,常常会回忆过去积累下来的类似情况,并通过对过去类似情况处理的适当修改来解决新的问题,过去的情况及其处理被称之为案例,案例可以辅助形成新问题的解决方案,亦可以对可能的错误进行预防。运用这一思想解决问题的过程被成为案例推理。
在基于案例推理机制进行网络故障诊断时,网络故障诊断装置30需要配置有推理机和案例知识库,通过推理机基于案例知识库中的信息和规则来进行网络故障诊断,下文中将对此进行详细介绍。
图2是本发明实施例提供的一种网络故障诊断方法的流程图。该网络故障诊断方法可以由图1中的网络故障诊断装置30执行。参见图2,该网络故障诊断方法包括:
步骤201:获取多个告警信息。
可以从网管设备获取该告警信息。示例性地,可以周期性从网管设备查询告警信息。例如,可以每60s查询一次告警信息。
步骤202:确定多个告警信息中的根源告警信息。
在本实施例中,告警信息分为根源告警信息和衍生告警信息。其中,衍生告警信息是由根源告警信息衍生出来的告警信息。例如,对于硬件设备故障,根源告警信息用于指示该硬件设备出现了硬件问题,而衍生告警信息可以是由该硬件问题所导致的传输层面或应用层面的告警。
步骤203:基于根源告警信息,得到网络故障诊断结果。
该网络故障诊断结果包括根源告警信息、根源告警信息产生的原因、根源告警信息的处理建议中的至少一种。其中,根源告警信息产生的原因可以包括故障定位信息,例如故障设备的标识等。处理建议用于指示可用于解决故障的处理措施,包括但不限于关闭网元设备的端口、修改配置信息等等。
在本实施例中,通过根据多个告警信息中的根源告警信息来进行网络故障诊断,可以排除非根源告警信息的干扰,获得较为准确的故障诊断结果。
图3是本发明实施例提供的一种网络故障诊断方法的流程图。该网络故障诊断方法可以由图1中的网络故障诊断装置30执行。参见图3,该网络故障诊断方法包括:
步骤301:获取多个告警信息。
可以从网管设备获取该告警信息。例如,可以以周期性从网管设备查询告警信息。例如,可以每60s查询一次告警信息。这里,告警信息的获取是一种主动模块,可以通过网页服务(WebService)接口从网管系统获取告警信息。
一条告警信息中可以包括告警时间、告警对象的标识、告警内容等。
步骤302:对多个告警信息进行预处理。
其中,预处理包括但不限于对告警信息进行等级划分以及排序。
对于网络而言,从底层到上层分为7层,分别为物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。越接近底层的告警信息的等级越高,越接近上层的告警信息的等级越低。比如,最底层表示硬件故障,那么最底层的告警信息的等级就最高,设备硬件出现问题,会导致上层逻辑传输层面或者业务层面都出现告警。而各个设备的硬件故障,比如风扇不转、单板异常等,均为同等级的告警信息。
示例性地,可以按照等级从高到低的顺序,对告警信息进行排序。对于同一等级的告警信息,可以任意排序,或者,根据设备的优先级来排序。
步骤303:根据预先设置的根源告警和衍生告警的相关性规则,确定多个告警信息中的根源告警信息和衍生告警信息之间的根源衍生关系。
在本实施例中,告警信息分为根源告警信息和衍生告警信息。其中,衍生告警信息是由根源告警信息衍生出来的告警信息。例如,对于硬件设备故障,根源告警信息用于指示该硬件设备出现了硬件问题,而衍生告警信息可以是由该硬件问题产生的传输层面或应用层面的告警信息。
案例知识库可以包括告警规则库,告警规则库中预先设置有根源告警和衍生告警的相关性规则,通过推理机将多个告警信息与相关性规则进行匹配分析,即可以得到这些告警信息中的根源告警信息和衍生告警信息之间的根源衍生关系。告警规则库中还可以包括传输网络中告警信息的定义和相关参数的定义。告警信息可以为标准类型的告警信息,也可以为自定义类型的告警信息。
实现时,告警规则库依托于专家对常见故障场景的处理经验而逐步积累起来的。告警的产生一般都是伴随着故障的发生,说明故障与告警之间存在比较密切的关系。根据常见的故障告警以及告警故障根源管理,可将告警信息形成树形结构,父节点为上游告警,子节点为根源告警,同一个子节点可存在于多个父节点中。告警可按照层次、类型进行分类,每一种告警值都有对应的告警说明与描述。
步骤304:基于根源衍生关系确定根源告警信息。
实现时,可以根据告警信息的等级划分和排序对各个告警信息进行逐一匹配和分析。对于每个告警信息,需要分析上游告警信息(即等级较低的告警信息)和同等级告警信息,以确定该告警信息是否为确定性告警,即与相关性规则完全匹配的告警,若是,则表示该告警信息为根源告警信息。若不是,则排除该告警信息,进行下一告警信息的分析。
通过该步骤303~304可以实现确定所述多个告警信息中的根源告警信息。
可选地,在该步骤304之后,该方法还可以包括存储根源告警信息。
可选地,该方法还可以包括:接收根源告警查询指令,根据根源告警查询指令查找对应的根源告警信息,并输出查找到的根源告警信息。
步骤305:基于根源告警信息,得到网络故障诊断结果。
该网络故障诊断结果包括根源告警信息、根源告警信息产生的原因、根源告警信息的处理建议中的至少一种。其中,根源告警信息产生的原因可以包括故障定位信息,例如故障设备的标识等。处理建议用于指示可用于解决故障的处理措施,包括但不限于关闭网络设备的端口、修改配置信息等等。
当该故障诊断结果包括根源告警信息产生的原因时,该步骤305还包括:采用推理机,基于案例知识库确定该根源告警信息产生的原因。这里,案例知识库可以包括案例配置库,案例配置库用于描述根源告警信息和产生原因的关系。实现时,案例配置库主要提供对历史案例文档、经验知识的存储及录入,并提供智能检索及查询功能,为推理机提供相关案例的解决方案,完成故障的定位及处理;支持根据各类告警故障生成新的解决方案,协助推理机完成故障的排查与处理。
一个根源告警信息的产生原因可以为一个或多个。当产生原因为至少两个时,案例配置库中还可以包括各个产生原因的置信值,该置信值用于表示故障由该原因导致的概率。例如,根源告警信息指示某设备故障无法连通,该根源告警产生的原因有两个,一个是电源故障,置信值为50%,另一个是网络故障,置信值为50%。
当该故障诊断结果包括根源告警信息产生的原因时,该步骤305还包括:
采用推理机,基于案例知识库确定该根源告警信息的处理建议。这里,案例知识库可以包括案例配置库,案例配置库用于描述根源告警信息和根源告警信息的处理建议的关系。
可选地,该方法还可以包括:保存根源告警信息产生的原因和根源告警信息的对应关系以及根源告警信息的处理建议和根源告警信息的对应关系中的至少一种。
可选地,该方法还可以包括:输出网络故障诊断结果。
在一种可能的实施方式中,输出的网络故障诊断结果可以仅包括根源告警信息,用户自行根据根源告警信息来进行故障定位等。由于滤除了衍生告警信息,所以可以减少告警信息维护工作量,提升维护效率。
在另一种可能的实施方式中,输出的网络故障诊断结果可以包括根源告警产生的原因、根源告警信息的处理建议中的至少一种。可选地,输出的网络故障诊断结果还可以包括根源告警产生的原因的置信值。
可选地,可以根据告警信息的等级,选择输出网络故障诊断结果的内容。示例性地,若告警信息的等级为最高等级,则输出根源告警信息、根源告警产生的原因、根源告警信息的处理建议,以提示用户尽快进行处理;若告警信息的等级较低,可以仅包括根源告警信息,用于提示用户存在一个告警。
通过上述步骤301至305,可以实现对网络故障的自动诊断。需要说明的是,在本实施例中,先对获取到的告警信息进行了预处理,然后再进行根源衍生关系的匹配,在其他实施例中,也可以直接采用推理机结合案例知识库确定根源衍生关系,而不预先进行预处理。
可选地,本发明实施例中的案例知识库可以更新。案例知识库的更新可以采用自动更新的方式,也可以采用人为主动更新的方式。
相应地,该方法还可以包括:
接收更新信息,所述更新信息包括标记信息和案例信息中的至少一种,所述标记信息用于标记所述网络故障诊断结果是否正确;
根据所述更新信息更新案例知识库,所述案例知识库用于描述根源告警信息和故障诊断结果的关系。
标记信息属于自动更新的方式,在该方式中,当确定出根源告警信息产生的原因后,可以人为对该故障诊断结果进行标记,然后基于标记信息和故障诊断结果更新案例知识库中的案例配置库,例如,更新案例配置库中已有案例的至少一个产生原因的置信值,或者,新增一个案例等。由于自动故障诊断分析得到的故障定位并不一定准确,所以需要运维人员根据自动故障诊断结果去确认,并将确认结果反馈到案例知识库。
输入案例信息属于人为主动的方式,可以通过直接输入案例知识库中的各种规则来更新案例知识库。
此外,该更新信息还可以包括告警规则更新信息,用于新增、删除、修改告警规则库中的规则。
示例性地,在网络配置好后,可以模拟网络故障,以更新该案例知识库。
模拟网络故障以及相应的诊断流程可以包括以下步骤:
第一步、任意模拟某网元设备单板不可达故障。
例如,将单板从网元设备中拔处等,单板即为交换机或路由器单板。
第二步、查看网管设备是否生成单板不可达相关告警。
第三步、打开网络故障诊断分析系统;
第四步、进入自动诊断功能界面并点击开始诊断;
第五步、系统开始执行自动诊断分析,得到网络故障诊断结果;
第六步、完成分析,并查看网络故障诊断结果。
实际应用中,上述流程可以重复执行多次。
图4显示了自动诊断分析的示例性流程。如图4所示,自动分析诊断流程可以包括:
41、获取告警信息;42、将告警信息存储到告警规则库;43、对告警信息进行预处理;44、利用告警规则库对告警信息进行相关性分析;45、告警信息筛选,得到根源告警信息;46、采用推理机查询案例知识库,进行案例检索,并结合检索到的案例进行故障定位,得到故障定位结果;47、对故障定位结果进行标记等处理;48、生成案例并保存到案例知识库;49、生成处理建议并保存到案例知识库。
可选地,本发明实施例还支持对网络故障的手动诊断。由于自动故障诊断的结果不一定准确,因此,可以在自动诊断结果的基础上进行手动诊断。当然,也可以根据用户指示直接进行手动诊断。图5为手动诊断过程的流程图。参见图5,手动诊断过程包括以下步骤:
步骤501:接收输入的故障场景信息。
故障场景信息是故障类型的描述信息。
在本实施例中,故障场景包括但不限于业务性能劣化和广播风暴。
示例性地,对于业务性能劣化而言,故障场景信息可以包括业务类型,业务两端端口等。
步骤502:根据故障场景信息获取故障排查规则。
该故障排查规则用于限定多个排查对象以及多个排查对象的排查顺序。
不同的场景对应的故障排查方式不同,因而对应不同的故障排查规则。例如,对于业务性能劣化诊断,其故障排查规则首先要获取出问题的业务实际传输路径,然后对该路径上相应的网元设备包括物理层面和逻辑层面进行检测,从而对故障原因进行分析。对于网络广播风暴而言,其又分为外部引入(比如病毒等)和网络设备内部配置错误成环两种情况,对于外部引入所导致的广播风暴,首先应确认网络配置,筛选出业务引入的端口,然后关闭该端口从而实现广播风暴隔离。对于内部成环所致的广播风暴,需要对整个网络配置进行匹配,同时需要依靠网络监测设备对成环所致的数据包进行剥离筛选,一步步确认成环原因。
在该步骤502中,可以通过推理机结合案例知识库(例如告警规则库)来确定该故障场景信息对应的故障排查规则。
步骤503:按照故障排查规则进行故障排查。
该步骤503可以包括:获取当前排查对象的状态信息,所述状态信息包括配置参数和状态参数中的至少一种;根据获取到的所述状态信息确定当前排查对象是否存在故障;当获取到的状态信息表示当前排查对象存在故障时,得到故障定位结果;当获取到的状态信息表示当前排查对象不存在故障时,按照所述排查顺序获取下一排查对象的状态信息,并根据所述下一排查对象的状态信息确定下一排查对象是否存在故障,直至得到故障定位结果。
其中,配置参数包括但不限于网元设备的网络配置参数、性能配置参数,是在网络建成时预先配置好的。状态参数包括网络状态参数、网元设备的性能状态参数等,是网络中的实时状态参数。
在本实施例中,案例规则库还可以包括性能规则库和配置规则库。
性能规则库主要是通过性能统计分析法,对单板的性能进行统计分析,通过当前性能和远程监控(RMON,Remote Monitoring)性能来分析单板、端口、链路等的性能统计数据是否正常,以此来判断是否存在故障。启用RMON功能可实现本站点和对端站点间的远程监控。通过查询本站点对应的以太网业务单板的RMON性能,即可了解对端站点以太网单板的业务性能和告警等信息,再结合其他故障定位手段,可定位业务中断或性能劣化的位置。性能规则库主要用于记录单板性能配置参数,合理值范围,当前性能与RMON性能差异允许范围来判定单板故障问题。
配置规则库为配置数据分析法提供标准的匹配配置数据,当设备出现故障时有可能其配置数据出现变化。配置数据分析法是通过系统调用网管上分析业务的配置数据,与规则库中的对比存在明显不合理的配置,从而定位故障。但同时需要考虑某些特殊情况下,如外界环境变化的突然改变,或由于误操作,可能会使设备的配置数据(网元数据和单板数据)遭到破坏或改变,导致业务中断等故障的发生。配置规则库按照设备约定的配置格式进行数据存储。
其中,根据获取到的所述状态信息确定当前排查对象是否存在故障,包括:采用推理机,基于性能规则库和配置规则库中的至少一种,确定当前排查对象是否存在故障。示例性地,可以比较状态信息中的配置参数与配置规则库中相应的配置参数;若两者一致,则表示排查对象无故障,若不一致,则表示排查对象故障。或者,根据状态信息中的状态参数与性能规则库中的对应的参数的差异值,若差异值超过设定范围,则表示排查对象故障;若差异值未超过设定范围,则表示排查对象无故障。
可选地,该方法还可以包括:接收更新信息,该更新信息用于更新性能规则库和配置规则库中的至少一个库中的规则。更新方式包括但不限于增加、删除、修改等。
图6显示了手动诊断分析的示例性流程。如图6所示,手动分析诊断流程可以包括:
61、获取故障场景信息;62、确定故障场景信息所对应的故障排查规则;63、利用配置规则库和性能规则库中的至少一个,按照排查规则中的排查顺序对各排查对象进行逐条推理,以确定排查对象是否故障,在逐条推理过程中,还需要获取排查对象的状态信息;64、采用推理机查询案例知识库,进行案例检索,并结合检索到的案例进行故障定位,得到故障定位结果;65、对故障定位结果进行处理(可选);66、生成案例并保存到案例知识库;67、生成处理建议并保存到案例知识库。
示例性地,在手动故障诊断过程中,需要获取的排查对象的状态信息,包括但不限于以下几种,可以为其中一种或多种:
a)当前网络拓扑中,所有的网元、槽位\板卡、端口及业务经过的网元信息。这些信息可以通过网管设备的数据库获取。
b)业务经过的网元板卡是否存在监测设备,(输出:是/否)。
c)监测设备对应业务状态是否存在异常(输出:是/否)。
d)检查诊断的业务本端和对端接入两个端口状态(输出:up/down),其中P表示设备端口正常连接,down表示设备端口连接异常。
e)业务经过的网元是否存在光信号丢失告警,根据(输出:是/否)。
f)业务经过的网元是否存在核心交换板与接入板卡内部接口异常(输出:up\down)。
g)监测设备是否存在业务性能劣化告警(输出:是/否)。
h)业务收发两端收发光功率是否正常(输出:收发光功率计算值及判断结果是/否)。
i)设备是否存在CRC错误包(输入:CRC错误包数量,判断是/否)。
这些信息可以部分从网管设备获取,部分采用监控设备获取。每次手动故障诊断对应个排查规则可以包括上述部分排查对象。
图7为一种故障场景下手动诊断流程的示意图。图7中以某网元设备某但业务性能劣化(或中断)为例,对手动诊断流程进行示例性说明。如图7所示,该流程包括:选择业务类型;选择业务两端端口;确定是否存在监测设备;若存在监测设备,则判断监测设备对应业务状态是否正常。
若监测设备对应业务状态正常;则检查业务经过网元的终端接入板连接端口状态;若端口状态为up,表示端口状态正常,则确定终端异常,提示人工排查;若端口状态为down,则确定终端未上电或线路异常。
若监测设备对应业务状态不正常,则查询业务经过的网元是否存在光信号丢失告警;若存在光信号丢失告警,则提示网元故障。若不存在光信号丢失告警,则查看分组板与交换板互联端口状态;若端口状态为down,确定该端口故障。若端口状态为up,则确定监测设备是否存在线路劣化的告警信息。
若监测设备存在线路劣化的告警信息,则查询收发光功率、确保核心链路是否有问题,若核心链路有问题,则提示人工排查骨干光缆。若核心链路没有问题,则查看整个cst端口是否异常和crc是否有错;若是,则表示端口异常或者crc错误;若否,则提示人工排查接入板或终端接入设备问题。
若监测设备不存在线路劣化的告警信息,则提示终端或终端与接入板之间的线路有劣化,需要人工排查。
需要说明的是,本发明实施例并不限定自动诊断流程中各步骤和手动诊断流程中各步骤之间的先后顺序。
在本实施例中,通过根据多个告警信息中的根源告警信息来进行网络故障诊断,可以排除非根源告警信息的干扰,获得较为准确的故障诊断结果。此外,该装置还支持手动诊断模式,可以用于在自动诊断结果不准确的情况下,或者,在用户所需其他情况下进行故障诊断。并且,针对不同的故障场景,采用对应的排查规则进行逐步排查,故障诊断结果准确。
图8是本发明实施例提供的一种网络故障诊断装置的结构示意图。参见图8,该网络故障诊断装置800包括:获取模块801、确定模块802和诊断模块803。获取模块801,用于获取多个告警信息;确定模块802,用于确定所述多个告警信息中的根源告警信息;诊断模块803,用于基于所述根源告警信息,得到网络故障诊断结果。
可选地,确定模块802可以包括:分析子模块,用于根据预先设置的根源告警和衍生告警的相关性规则,确定所述多个告警信息中的根源告警信息和衍生告警信息之间的根源衍生关系;确定子模块,用于基于所述根源衍生关系确定根源告警信息。
可选地,所述装置还包括:更新信息获取模块804和更新模块805。更新信息获取模块804用于接收更新信息,所述更新信息包括标记信息和案例信息中的至少一种,所述标记信息用于标记所述网络故障诊断结果是否正确;更新模块805用于根据所述更新信息更新案例知识库,所述案例知识库用于描述根源告警信息和故障诊断结果的关系。
可选地,所述装置还包括:故障场景信息获取模块806、排查规则确定模块807和故障排查模块808。故障场景信息获取模块806用于接收输入的故障场景信息;排查规则确定模块807用于根据故障场景信息获取故障排查规则,所述故障排查规则用于限定多个排查对象以及所述多个排查对象的排查顺序;故障排查模块808用于按照所述故障排查规则进行故障排查。
可选地,所述故障排查模块808用于获取当前排查对象的状态信息,所述状态信息包括配置参数和状态参数中的至少一种;根据获取到的所述状态信息确定当前排查对象是否存在故障;当获取到的状态信息表示当前排查对象存在故障时,得到故障定位结果;当获取到的状态信息表示当前排查对象不存在故障时,按照所述排查顺序获取下一排查对象的状态信息,并根据所述下一排查对象的状态信息确定下一排查对象是否存在故障,直至得到故障定位结果。
在本实施例中,通过根据多个告警信息中的根源告警信息来进行网络故障诊断,可以排除非根源告警信息的干扰,获得较为准确的故障诊断结果。此外,该装置还支持手动诊断模式,可以用于在自动诊断结果不准确的情况下,或者,在用户所需其他情况下进行故障诊断。并且,针对不同的故障场景,采用对应的排查规则进行逐步排查,故障诊断结果准确。
需要说明的是:上述实施例提供的网络故障诊断装置在进行网络故障诊断时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网络故障诊断装置与网络故障诊断方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本发明一个示例性实施例提供的网络故障诊断装置900的结构框图。该装置900可以是服务器。示例性地,装置900包括:中央处理单元(CPU)901、包括随机存取存储器(RAM)902和只读存储器(ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。所述服务器900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为服务器900提供非易失性存储。也就是说,所述大容量存储设备907可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本发明的各种实施例,所述服务器900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器901通过执行该一个或一个以上程序来实现图2或图4所示的表情图片推荐方法。
本领域技术人员可以理解,图9中示出的结构并不构成对装置900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本公开实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由计算系统的处理器执行时,使得计算系统能够执行图2至图8其中任一幅提供的网络故障诊断方法。
一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行进行图2至图8其中任一幅提供的网络故障诊断方法的指令。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种网络故障诊断方法,其特征在于,所述方法包括:
获取多个告警信息,所述告警信息包括告警时间、告警对象的标识、告警内容;
对所述多个告警信息进行预处理,所述预处理包括对所述告警信息进行等级划分以及排序,越接近底层的所述告警信息的等级越高,越接近上层的所述告警信息的等级越低,按照等级从高到低的顺序,对所述告警信息进行排序,所述告警信息按照物理层、数据链路层、网络层、传输层、会话层、表示层和应用层进行等级划分;
根据预先设置的根源告警和衍生告警的相关性规则,确定所述多个告警信息中的根源告警信息和衍生告警信息之间的根源衍生关系;所述根源衍生关系包括所述告警信息形成的树形结构,父节点为上游告警,子节点为根源告警;
基于所述根源衍生关系,根据所述告警信息的等级划分和排序对各个所述告警信息进行逐一匹配和分析,确定根源告警信息;对于每个告警信息,分析上游告警信息和同等级告警信息,以确定该告警信息是否为确定性告警,所述确定性告警是指与所述相关性规则完全匹配的告警,若是,则表示该告警信息为根源告警信息;若不是,则排除该告警信息,进行下一告警信息的分析;
基于所述根源告警信息,得到网络故障诊断结果,所述网络故障诊断结果包括根源告警信息、根源告警信息产生的原因、根源告警信息的处理建议;
根据所述告警信息的等级,选择输出所述网络故障诊断结果的内容;若所述告警信息的等级为最高等级,则输出所述根源告警信息、所述根源告警产生的原因、所述根源告警信息的处理建议,以提示用户尽快进行处理;若所述告警信息的等级较低,则仅输出所述根源告警信息,以提示用户存在一个告警;
接收输入的故障场景信息;
根据故障场景信息获取故障排查规则,所述故障排查规则用于限定多个排查对象以及所述多个排查对象的排查顺序;
按照所述故障排查规则进行故障排查;
在所述故障排查过程中,排查对象的状态信息包括以下至少一种:
a)当前网络拓扑中,所有的网元、槽位\板卡、端口及业务经过的网元信息;
b)业务经过的板卡是否存在监测设备;
c)监测设备对应业务状态是否存在异常;
d)检查诊断的业务本端和对端接入两个端口状态;
e)业务经过的网元是否存在光信号丢失告警;
f)业务经过的网元是否存在核心交换板与接入板卡内部接口异常;
g)监测设备是否存在业务性能劣化告警;
h)业务收发两端收发光功率是否正常;
i)设备是否存在CRC错误包。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收更新信息,所述更新信息包括标记信息和案例信息中的至少一种,所述标记信息用于标记所述网络故障诊断结果是否正确;
根据所述更新信息更新案例知识库,所述案例知识库用于描述根源告警信息和故障诊断结果的关系。
3.根据权利要求1所述的方法,其特征在于,所述按照所述故障排查规则进行故障排查,包括:
获取当前排查对象的状态信息,所述状态信息包括配置参数和状态参数中的至少一种;
根据获取到的所述状态信息确定当前排查对象是否存在故障;
当获取到的状态信息表示当前排查对象存在故障时,得到故障定位结果;
当获取到的状态信息表示当前排查对象不存在故障时,按照所述排查顺序获取下一排查对象的状态信息,并根据所述下一排查对象的状态信息确定下一排查对象是否存在故障,直至得到故障定位结果。
4.一种网络故障诊断装置,其特征在于,所述装置包括:
获取模块,用于获取多个告警信息,所述告警信息包括告警时间、告警对象的标识、告警内容;
确定模块,用于对所述多个告警信息进行预处理,所述预处理包括对所述告警信息进行等级划分以及排序,越接近底层的所述告警信息的等级越高,越接近上层的所述告警信息的等级越低,按照等级从高到低的顺序,对所述告警信息进行排序,所述告警信息按照物理层、数据链路层、网络层、传输层、会话层、表示层和应用层进行等级划分;根据预先设置的根源告警和衍生告警的相关性规则,确定所述多个告警信息中的根源告警信息和衍生告警信息之间的根源衍生关系;所述根源衍生关系包括所述告警信息形成的树形结构,父节点为上游告警,子节点为根源告警;基于所述根源衍生关系,根据所述告警信息的等级划分和排序对各个所述告警信息进行逐一匹配和分析,确定根源告警信息;对于每个告警信息,分析上游告警信息和同等级告警信息,以确定该告警信息是否为确定性告警,所述确定性告警是指与所述相关性规则完全匹配的告警,若是,则表示该告警信息为根源告警信息;若不是,则排除该告警信息,进行下一告警信息的分析;
诊断模块,用于基于所述根源告警信息,得到网络故障诊断结果,所述网络故障诊断结果包括根源告警信息、根源告警信息产生的原因、根源告警信息的处理建议;根据所述告警信息的等级,选择输出所述网络故障诊断结果的内容;若所述告警信息的等级为最高等级,则输出所述根源告警信息、所述根源告警产生的原因、所述根源告警信息的处理建议,以提示用户尽快进行处理;若所述告警信息的等级较低,则仅输出所述根源告警信息,以提示用户存在一个告警;
故障场景信息获取模块,用于接收输入的故障场景信息;
排查规则确定模块,用于根据故障场景信息获取故障排查规则,所述故障排查规则用于限定多个排查对象以及所述多个排查对象的排查顺序;
故障排查模块,用于按照所述故障排查规则进行故障排查;
在所述故障排查过程中,排查对象的状态信息包括以下至少一种:
a)当前网络拓扑中,所有的网元、槽位\板卡、端口及业务经过的网元信息;
b)业务经过的板卡是否存在监测设备;
c)监测设备对应业务状态是否存在异常;
d)检查诊断的业务本端和对端接入两个端口状态;
e)业务经过的网元是否存在光信号丢失告警;
f)业务经过的网元是否存在核心交换板与接入板卡内部接口异常;
g)监测设备是否存在业务性能劣化告警;
h)业务收发两端收发光功率是否正常;
i)设备是否存在CRC错误包。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
更新信息获取模块,用于接收更新信息,所述更新信息包括标记信息和案例信息中的至少一种,所述标记信息用于标记所述网络故障诊断结果是否正确;
更新模块,用于根据所述更新信息更新案例知识库,所述案例知识库用于描述根源告警信息和故障诊断结果的关系。
6.一种网络故障诊断装置,其特征在于,所述装置包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为用于执行存储于所述处理器中的可执行指令,以实现如权利要求1至3任一项所述的网络故障诊断方法。
7.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由计算系统的处理器执行时,使得所述计算系统能够执行权利要求1至3任一项所述的网络故障诊断方法。
CN201811628360.0A 2018-12-28 2018-12-28 网络故障诊断方法、装置和计算机可读存储介质 Active CN109787817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811628360.0A CN109787817B (zh) 2018-12-28 2018-12-28 网络故障诊断方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811628360.0A CN109787817B (zh) 2018-12-28 2018-12-28 网络故障诊断方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109787817A CN109787817A (zh) 2019-05-21
CN109787817B true CN109787817B (zh) 2022-10-04

Family

ID=66497891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811628360.0A Active CN109787817B (zh) 2018-12-28 2018-12-28 网络故障诊断方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109787817B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110351150B (zh) * 2019-07-26 2022-08-16 中国工商银行股份有限公司 故障根源确定方法及装置、电子设备和可读存储介质
CN110618890B (zh) * 2019-08-15 2022-07-22 平安普惠企业管理有限公司 故障处理方法、装置、电子设备及计算机可读存储介质
CN110474814B (zh) * 2019-08-29 2022-06-21 广东电网有限责任公司广州供电局 电力局域网故障诊断方法、装置
CN111147286B (zh) * 2019-12-10 2022-10-21 中盈优创资讯科技有限公司 Ipran网络环路监控方法及装置
CN111192130B (zh) * 2019-12-11 2023-11-17 中国建设银行股份有限公司 交易监控中确定故障根源的方法、系统、装置及存储介质
CN111130941B (zh) * 2019-12-26 2022-02-11 口碑(上海)信息技术有限公司 一种网络错误检测方法、装置以及计算机可读存储介质
CN111628888B (zh) * 2020-04-30 2022-08-12 中国移动通信集团江苏有限公司 一种故障诊断方法、装置、设备及计算机存储介质
CN111682960A (zh) * 2020-05-14 2020-09-18 深圳市有方科技股份有限公司 一种物联网网络及设备的故障诊断方法及装置
CN111865699A (zh) * 2020-07-31 2020-10-30 中国工商银行股份有限公司 故障识别方法、装置、计算设备和介质
CN114070709A (zh) * 2020-08-26 2022-02-18 北京市天元网络技术股份有限公司 告警关联分析方法及装置
CN112148463B (zh) * 2020-10-23 2023-07-21 新华三大数据技术有限公司 一种业务流程控制方法及装置
CN112380340B (zh) * 2020-11-06 2023-10-20 广东电网有限责任公司东莞供电局 一种主站与电厂、变电站之间的错误数据诊断方法及系统
CN112887164B (zh) * 2020-12-29 2023-10-31 中国船舶集团有限公司 广播风暴诊断方法、装置和计算机存储介质
CN113037564B (zh) * 2021-03-26 2022-07-22 新华三技术有限公司 一种网络故障诊断方法及装置
CN115913890A (zh) * 2021-09-30 2023-04-04 中兴通讯股份有限公司 网络故障诊断方法、装置、存储介质及电子装置
CN114448774B (zh) * 2021-12-16 2023-12-05 武汉光迅科技股份有限公司 告警处理方法、装置和存储介质
CN114363149B (zh) * 2021-12-23 2023-12-26 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114285726A (zh) * 2021-12-27 2022-04-05 中国联合网络通信集团有限公司 故障定位方法、装置及计算机存储介质
CN114338367A (zh) * 2021-12-27 2022-04-12 中国联合网络通信集团有限公司 故障定位方法、装置及计算机存储介质
CN114500229B (zh) * 2021-12-30 2024-02-02 国网河北省电力有限公司信息通信分公司 基于时空信息的网络告警定位及分析方法
CN114710396B (zh) * 2022-04-08 2023-06-23 中国联合网络通信集团有限公司 一种网络告警的处理方法和服务器
CN117640338A (zh) * 2022-08-18 2024-03-01 中兴通讯股份有限公司 故障处理方法及其装置、存储介质
CN116170296B (zh) * 2023-04-21 2023-08-08 北京智享嘉网络信息技术有限公司 一种网络自动运维管理系统以及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065501A (zh) * 2013-03-22 2014-09-24 中兴通讯股份有限公司 一种网管系统中网络故障定位的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102130783B (zh) * 2011-01-24 2014-07-02 浪潮通信信息系统有限公司 神经网络的智能化告警监控方法
CN107196780A (zh) * 2016-03-15 2017-09-22 伊姆西公司 用于管理设备的故障的方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104065501A (zh) * 2013-03-22 2014-09-24 中兴通讯股份有限公司 一种网管系统中网络故障定位的方法及装置

Also Published As

Publication number Publication date
CN109787817A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
CN110493042B (zh) 故障诊断方法、装置及服务器
US20220187815A1 (en) Systems and methods for detecting and predicting faults in an industrial process automation system
US9571334B2 (en) Systems and methods for correlating alarms in a network
US6363384B1 (en) Expert system process flow
US11348023B2 (en) Identifying locations and causes of network faults
US7275017B2 (en) Method and apparatus for generating diagnoses of network problems
US11252052B1 (en) Intelligent node failure prediction and ticket triage solution
CN107040413B (zh) 智能变电站过程层通讯链路故障定位的方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN112838944B (zh) 诊断及管理、规则确定及部署方法、分布式设备、介质
US20210359899A1 (en) Managing Event Data in a Network
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN114567538A (zh) 告警信息处理方法及装置
Cherrared et al. LUMEN: A global fault management framework for network virtualization environments
CN104950832B (zh) 钢铁厂控制系统
CN112182233A (zh) 用于存储设备故障记录的知识库、及利用其辅助定位设备故障的方法及系统
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
US20040158780A1 (en) Method and system for presenting neighbors of a device in a network via a graphical user interface
CN116506340A (zh) 流量链路的测试方法、装置、电子设备及存储介质
CN115166414A (zh) 一种电网故障监测方法及系统
CN115705259A (zh) 故障处理方法、相关设备及存储介质
CN112231523A (zh) 一种基于有向无环图的网络故障定位排查方法及系统
CN112948154A (zh) 一种系统异常诊断方法、装置及存储介质
EP4336883A1 (en) Modeling method, network element data processing method and apparatus, electronic device, and medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant