CN105391586B - 一种故障定位分析的方法及系统 - Google Patents
一种故障定位分析的方法及系统 Download PDFInfo
- Publication number
- CN105391586B CN105391586B CN201510906362.1A CN201510906362A CN105391586B CN 105391586 B CN105391586 B CN 105391586B CN 201510906362 A CN201510906362 A CN 201510906362A CN 105391586 B CN105391586 B CN 105391586B
- Authority
- CN
- China
- Prior art keywords
- network element
- snapshot
- network
- network management
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种故障定位分析的方法及系统,用以通过搭建的场景复现系统和快照网元系统对网管系统中的故障进行定位分析,从而减少了投入的设备和工作量,提高了故障定位分析的成功率。所述故障定位分析的方法,包括:根据网管系统运行中产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,其中所述快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;根据所述网元快照信息,所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互,根据所述快照网元系统反馈的报文信息确定所述故障。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种故障定位分析的方法及系统。
背景技术
在当前的通信系统中,网络管理系统(以下简称网管系统)起到越来越重要的作用,可以说已经是通信系统不可或缺的一部分。现在的厂商网管系统基本都遵循TMN的管理框架,提供对通信设备的故障、配置、计费、性能、安全(FCAPS)的管理能力,也是通信设备在运行过程中必须给予关注的五个方面。由于通信系统的复杂性,网管系统本身软件的复杂性,在工程运行中,不可避免会出现故障。
当然每个厂商的网管系统以及其通信系统,在出厂时都会进行严格的内部测试、完善的试验局测试等等验证,但现实的20%-80%原则决定了有20%的问题只能在用户场景暴露。这一方面是测试本身不到位导致,另一方面也是工程的复杂环境、通信系统本身的复杂度的客观因素决定。既然问题无可避免,那么出现问题后如何复现,以便定位解决,是我们需要思考的问题。
目前对于网管系统的工程故障复现的方法,主要是尽力营造工程环境进行复现,其中工程环境包括网管版本、发生问题的板卡、板卡软件、主控板卡、主控板卡软件、实际的业务配置等等。该方法在复现过程中,需要进行设备投入和复现效果二者的取舍,主要存在问题如下。
1)如完全营造工程场景,设备投入过高。现网的工程场景动辄成百上千的网元、板卡,造价不菲,后方研发的设备资源非常分散而且有限。如果完全营造工程场景,即便是耗费大量人力、物力,也几乎是不可能完成的任务。
2)尽力而为的复现方法可能会漏掉重要信息,导致无法复现。更为实际的做法是通过工程师的经验,提取工程的重要配置,搭建简单而有效的环境,称为尽力而为的方法。这对工程师的经验、技术要求很高。但即使是经验丰富的工程师、专家,也有可能在复杂的工程环境下漏掉重要信息,导致复现失败。
3)搭建实际复现环境,工作量投入太大。复现实际工程环境,除却准备设备之外,对工程环境的各板卡版本均需要升级,对有实际业务配置的还需要进行业务配置,前前后后人力投入太大。
综上所述,现有技术中针对网管系统中故障的复现方式以及分析方法,不仅设备投入量大,而且增大了操作人员的工作量,且将故障进行复现并定位的成功率较低。
发明内容
本发明提供了一种故障定位分析的方法及系统,用以通过搭建的场景复现系统和快照网元系统对网管系统中的故障进行定位分析,从而减少了投入的设备和工作量,提高了故障定位分析的成功率。
本发明实施例提供了一种故障定位分析的方法,包括:
根据网管系统运行中产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,其中所述快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;
根据所述网元快照信息,所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互,根据所述快照网元系统反馈的报文信息确定所述故障。
通过本发明实施例提供的故障定位分析方法,首先根据网管系统在产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,且快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;然后根据网管系统中备份的网元快照信息,使场景复现系统与快照网元系统产生相同的信息交互,最后根据快照网元系统反馈的报文信息确定网管系统的故障。因此,本发明中是在搭建的场景复现系统和快照网元系统中进行故障复现,并根据报文信息确定故障发生的位置,以及解决故障的方法,本发明实施例提供的故障定位分析的方法,不用投入大量的设备,操作人员仅在场景复现系统中对故障进行分析,减少了工作量的投入,且故障复现完全通过网管系统中备份的网元快照信息实现,提高了故障定位分析的成功率。
较佳地,所述根据网管系统运行中产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,包括:
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据搭建场景复现系统;
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据搭建快照网元系统;
其中,所述网管配置数据包括多个网元的设备类型、IP地址、板卡、端口、交叉配置以及业务配置的数据;所述通信报文数据包括网管系统发送给每个网元的查询或设置报文、每个网元返回给网管系统的应答报文的数据。
较佳地,根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据搭建快照网元系统,包括:
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据,形成快照网元系统中的代理网元。
较佳地,根据所述网元快照信息,所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互,包括:
根据所述网元快照信息中的操作日志数据,所述场景复现系统对所述快照网元系统中的代理网元进行操作,其中所述操作日志数据包括操作人员的操作时间、操作对象、操作类型和操作结果的数据。
较佳地,在所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互时,该方法还包括:
监控所述场景复现系统与所述快照网元系统之间的信息交互。
较佳地,根据所述快照网元系统反馈的报文信息确定所述故障,包括:
当所述快照网元系统中的代理网元接收到场景复现系统的查询或者设置请求时,获取该代理网元的报文命令码;
所述快照网元系统根据所述报文命令码,以及从所述场景复现系统中获取的通信报文数据,确定响应报文;
所述快照网元系统将所述响应报文反馈给所述场景复现系统;
所述场景复现系统根据所述响应报文定位所述故障。
本发明实施例提供的一种故障定位分析的系统,包括:
根据网管系统运行中产生故障时备份的网元快照信息搭建的场景复现系统;
和根据网管系统运行中产生故障时备份的网元快照信息搭建快照网元系统,其中,所述快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;
所述场景复现系统,用于根据所述网元快照信息,所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互,以及根据所述快照网元系统反馈的报文信息确定所述故障。
通过本发明实施例提供的故障定位分析系统,包括根据网管系统在产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,且快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;其中,场景复现系统用于根据网管系统中备份的网元快照信息,使场景复现系统与快照网元系统产生相同的信息交互,最后根据快照网元系统反馈的报文信息确定网管系统的故障。因此,本发明中是在搭建的场景复现系统和快照网元系统中进行故障复现,并根据报文信息确定故障发生的位置,以及解决故障的方法,本发明实施例提供的故障定位分析的方法,不用投入大量的设备,操作人员仅在场景复现系统中对故障进行分析,减少了工作量的投入,且故障复现完全通过网管系统中备份的网元快照信息实现,提高了故障定位分析的成功率。
较佳地,所述场景复现系统,包括:
配置恢复模块,用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据搭建场景复现系统;
所述快照网元系统具体用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据搭建快照网元系统;
其中,所述网管配置数据包括多个网元的设备类型、IP地址、板卡、端口、交叉配置以及业务配置的数据;所述通信报文数据包括网管系统发送给每个网元的查询或设置报文、每个网元返回给网管系统的应答报文的数据。
较佳地,所述快照网元系统,包括:
快照配置模块,用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据,形成快照网元系统中的代理网元。
较佳地,所述场景复现系统,还用于:
根据所述网元快照信息中的操作日志数据,所述场景复现系统对所述快照系统中的代理网元进行操作,其中所述操作日志数据包括操作人员的操作时间、操作对象、操作类型和操作结果的数据。
较佳地,所述快照网元系统还包括:
网络通信模块,用于监控所述场景复现系统与所述快照网元系统之间的信息交互。
较佳地,所述快照网元系统还包括报文处理模块,所述报文处理模块具有用于:
当所述快照网元系统中的代理网元接收到场景复现系统的查询或者设置请求时,获取该代理网元的报文命令码;
所述快照网元系统根据所述报文命令码,获取所述场景复现系统中的通信报文数据,并确定响应报文;
所述快照网元系统将所述响应报文反馈给所述场景复现系统;
所述场景复现系统根据所述响应报文定位所述故障。
附图说明
图1为本发明实施例提供的一种故障定位分析的方法的流程示意图;
图2为本发明实施例提供的一种网管系统存储备份网元快照信息的方法的流程示意图;
图3为本发明实施例提供的另一种故障定位分析的方法的流程示意图;
图4为本发明实施例提供的一种快照网元系统的操作流程的示意图;
图5为本发明实施例提供的一种故障定位分析的系统的结构示意图;
图6为本发明实施例提供的一种网管系统的结构示意图。
具体实施方式
本发明实施例提供了一种故障定位分析的方法及系统,用以通过搭建的场景复现系统和快照网元系统对网管系统中的故障进行定位分析,从而减少了投入的设备和工作量,提高了故障定位分析的成功率。
实施例1
参见图1,本发明实施例提供的一种故障定位分析的方法,包括:
S101、根据网管系统运行中产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,其中快照网元系统中包括与网管系统进行交互的网元一一对应的代理网元;
需要说明的是,本发明实施例中的网管系统是指用于管理外部真实网元通信的系统,且在运行中产生了故障,一般地把网管系统在正常运行的场景成为工程场景。本发明实施例中的场景复现系统和快照网元系统是根据在网管系统产生故障时备份的网元快照信息搭建的系统,且本发明的场景复现系统和快照网元系统可以理解是网管系统中增加的一部分,也可以理解为单独与网管系统存在的两个系统。例如场景复现系统和快照网元系统可以在是工程场景之外的是实验室模拟搭建,也可以在产生故障的网管系统中增加一部分存储空间用于搭建场景复现系统和快照网元系统,本发明实施例不做具体限定。
其中,快照网元系统中包括多个虚拟的代理网元,且每一代理网元和网管系统交互的真实网元一一对应。且代理网元的个数与真实网元相同,且每一代理网元的参数与真实网元相同。
本发明实施例中提供的网元快照信息包括网管配置数据、通信报文数据和操作日志数据。网管系统在运行中会将网元快照信息进行存储,用以为网管系统故障时提供参数。
S102、根据网元快照信息,场景复现系统与快照网元系统中的代理网元之间进行信息交互,根据快照网元系统反馈的报文信息确定故障。
需要说明的是,网元快照信息中存储了真实网元与网管系统的信息交互,以及操作人员的操作人员的操作日志,因此在场景复现系统与快照网元系统进行信息交互时,需要参照网元快照信息进行相同的交互,然后快照网元系统根据交互的条件进行相同的报文反馈,从而完成故障的复现,以及确定故障的位置。
通过本发明实施例提供的故障定位分析的方法,根据网管系统在故障时备份的网元快照信息搭建两个虚拟的系统场景复现系统和快照网元系统,其中场景复现系统是网管系统的一个虚拟系统,且作用和参数相同,快照网元系统是与网管系统产生交互的网元的一个虚拟系统,且作用和参数相同;通过网元快照信息,使得场景复现系统和快照网元系统产生相同的信息交互,根据快照网元系统反馈的报文信息确定网管系统的故障。因此,本发明提供的故障定位分析方法,通过利用网管系统中备份的网元快照信息在场景复现系统和快照网元系统重新复现,解决了当前网管系统故障复现时设备投入量大、复现成功率难以保证,以及工作量较大的问题。
需要说明的是,网管系统在工程场景运行时,首先需要现场操作人员开启故障监控模式,其中故障监控模式是指在网管系统运行中记录快照网元信息的模式。当然现场操作人员可以根据需要开启故障监控。例如,对于资源较为丰富的网管系统可以一直开启故障监控模式,且需要配置定期清理数据,防止硬盘占满的情况。对于资源比较有限或性能较差的网管系统在故障发生之后再开启故障监控模式,然后通过现场工作然人员进行网元快照信息的收集。然后将网元快照信息进行备份,以备网管系统产生故障时所需。
其中,在S101中根据网管系统运行中产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,包括:
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据搭建场景复现系统;
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据搭建快照网元系统;
其中,网管配置数据包括多个网元的设备类型、IP地址、板卡、端口、交叉配置以及业务配置的数据;所述通信报文数据包括网管系统发送给每个网元的查询或设置报文、每个网元返回给网管系统的应答报文的数据。
本发明实施例中的网元快照信息包括网管配置数据、通信报文数据和操作日志数据。其中,网管配置数据是指网管系统中各个网元的配置信息,例如包括每个网元的设备类型、IP地址、板卡、端口、交叉配置以及其他业务配置。通信报文数据是指网管系统与外界真实网元的通讯报文的记录,该通信报文数据包括网管系统发送给每个网元的查询或设置报文、以及每个网元返回给网管系统的应答报文的数据。操作日志数据是指网管系统操作人员对网元或者设备进行操作的记录,例如包括操作时间、操作对象、操作类型和操作结果。例如,操作对象包括网元、板卡或业务等等,操作类型包括增加、删除、修改等等,操作结果包括失败、成功等。
进一步,网元快照信息是网管系统在运行时实时记录更新的,为了防止网元快照信息占用较大的内存,需要定期清理,或者周期性地生成网元快照信息。其中,网管系统可以设定的文件个数阈值、或设定文件大小阈值、或文件时间阈值,用以将不需要的网元快照信息进行删除。例如,假设网元快照信息产生的文件个数超过3个时,将删除较早生成的网元快照信息;假设网元快照信息产生的文件大小超过100M,则将删除文件中较早生成的网元快照信息。
具体地,在根据网管配置数据搭建场景复现系统时,可以在网管系统中新增加一部分空间,用以根据网管配置数据中的参数进行配置,从而形成与产生故障时的网管系统相同,使得场景复现系统的配置恢复到网管系统在工程场景的水平。或者,在网管系统之外的软件中实现场景复现系统的搭建,且需要根据网管配置数据进行搭建。
其中,根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据搭建快照网元系统,包括:
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据,形成快照网元系统中的代理网元。
具体地,在根据网管配置数据和通信报文数据搭建快照网元系统时,根据网管配置数据中各个网元的类型,以及IP地址等信息形成与网管系统进行交互的网元完全相同的代理网元,根据通信报文数据确定每一网元与网管系统之间的交互。例如,与网管系统进行交互的网元包括N个,则形成的代理网元包括N个。
其中,S102中根据网元快照信息,场景复现系统与快照网元系统中的代理网元之间进行信息交互,包括:
根据网元快照信息中的操作日志数据,场景复现系统对快照网元系统中的代理网元进行操作,其中操作日志数据包括操作人员的操作时间、操作对象、操作类型和操作结果的数据。
具体地,操作日志数据包括操作人员在网管系统中对网元、或者业务进行了哪些操作,为了模拟网管系统的故障,需要代理网元接收与网元相同的操作。因此在场景复现系统与快照网元系统进行交互时,同样采用操作日志数据对代理网元进行设置。
其中,在场景复现系统与快照网元系统中的代理网元之间进行信息交互时,该方法还包括:
监控场景复现系统与快照网元系统之间的信息交互。
在场景复现系统与快照网元系统中的代理网元在进行信息交互时,快照网元系统需要监控每个代理网元与场景复现系统之间是进行了哪些操作,以及场景复现系统设置或者访问的是哪个网元,从而方便快照网元系统反馈相应的报文信息。
其中,S102中根据快照网元系统反馈的报文信息确定故障,包括:
当快照网元系统中的代理网元接收到场景复现系统的查询或者设置请求时,获取该代理网元的报文命令码;
快照网元系统根据报文命令码,以及从场景复现系统中获取的通信报文数据,确定响应报文;
快照网元系统将响应报文反馈给场景复现系统;
场景复现系统根据响应报文定位故障。
需要说明的是,响应报文包括报文的命令码和响应的内容。若快照网元系统接收到场景复现系统的查询或者设置请求,且查询或设置的网元是代理网元N,例如,记为Request-N,则快照网元系统通过查询场景复现系统中的网元快照信息得到代理网元N的报文命令码,记为Index-N-M,M代表报文N的命令码;且通过查询到的代理网元N的报文命令码获得响应报文,记为Response-N。其中响应报文中包括报文的命令码Index-N-M,和响应的内容Code-N-M。其中代理网元的响应报文可以为多片。最后快照网元系统将响应报文反馈给场景复现系统,场景复现系统根据响应报文的内容定位出故障出现的位置以及原因。
需要说明的是,若快照网元系统将响应报文反馈给场景复现系统后,场景复现系统没有出现网管系统出现的故障,则需要重新根据网元快照信息中的操作日志数据,使场景复现系统再次对快照网元系统中的代理网元进行设置或者查询的请求,并继续循环上述过程。
综上所述,本发明实施例提供的故障定位分析的方法,是利用网管系统在工程运行中产生故障时存储的网管配置数据、操作日志数据和通信报文数据来构建与网管系统相同的场景复现系统,以及与网管系统交互的网元相同的快照网元系统,得到网管系统在工程运行中的故障的再现,从而根据快照网元系统反馈的响应报文数据进一步确定故障的位置。因此,本发明通过软件对故障进行定位分析,减少了投入的设备;通过与网管系统产生故障时的网管配置数据、通信报文数据和操作日志数据进行故障的复现,从而提高了故障定位分析的成功率;通过场景复现系统和快照网元系统进行故障的复现,减少了工作量的投入。
为了更加进一步描述网管系统、场景复现系统和快照网元系统各自的工作过程,下面通过具体实施例进行详细描述。
实施例2
下面结合附图进行详细说明网管系统、场景复现系统和快照网元系统的实现步骤。
首先介绍一下网管系统在产生故障前或者故障时的工作场景。
参见图2,一种网管系统存储备份网元快照信息的方法,该方法包括:
S201、开启网管系统的故障监控模式;
其中,操作人员可以根据实际需要开启故障监控模式。例如对于资源丰富的网管系统可以一直开启故障监控模式,对于资源有有限或者比较网管系统的性能不够优越的网管系统,可以根据需要进行周期开启或者手动开启。
S202、网管系统备份网元快照信息;
其中,网元快照信息包括网管配置数据、通信报文数据和操作日志数据。具体包括将当前网管系统的网元配置信息,包括每个网元的设备类型、IP地址、板卡、端口、交叉配置以及其他业务配置参数进行备份。还包括操作人员对网管系统的任何操作情况的记录等。
S203、根据网元快照信息判断是否出现故障,若已经出现故障则结束备份网元快照信息的操作,若没有出现故障,则执行S204;
其中,判断故障是否出现是操作人员根据网元快照信息中的报文响应进行判断,具体判断原则与现有技术相同,此处不再赘述。
S204、操作人员重新操作网管配置数据,对网元重新进行数据的配置;
其中,操作人员通过操作网管系统的方式对网元进行操作,使得故障重新出现。一般地,对于必现的故障,操作人员可以重新操作并直接获取网元快照信息,对于偶发的故障,可以使网管系统开启故障监控模式的同时对网管系统进行正常操作,直到故障出现后结束备份网元快照信息的操作。
S205、记录操作日志数据;
其中,网管系统将操作人员对网管系统的操作均记录在日志中,包括操作日志、操作对象、操作类型和操作结构等信息。
S206、记录网元与网管之间的通信报文数据;
其中,操作人员通过网管系统对网元进行操作的步骤均记录在通信报文数据中,包括网管系统下发给设备的查询或设置报文、网元返回给网管系统的响应报文等信息,每个网元的一个操作形成一条记录。具体地,网管系统对网元的查询,可以定义为“GET”,网管系统对网元的设置可以定义为“SET”,以及网元返回给网管系统的响应报文包括报文命令码和响应内容,其中,报文命令码可以用“Index”标识,响应内容可以用“Code”标识。每个报文命令码Index加响应内容Code形成一条完整的报文。其中,若响应报文包括的内容较多,则可以分为多片进行回复,每片报文的内容即为一个报文的子内容。
需要说明的是,报文命令码和响应内容的标识均为较佳实施例,并不限于仅用该方式进行标识。
S207、判断是否需要对操作日志数据、通信报文数据以及网管配置数据的清理,若需要则执行步骤S208,否则执行步骤S203;
S208、清理操作日志数据、通信报文数据以及网管配置数据,并返回步骤S203。
其中,对数据的清理可以根据网管系统的实际存储空间或者性能设定预设条件,若满足该预设条件,则将删除较早存储的网元快照信息。另外,对数据的清理还可以通过设置手动删除,或者根据周期删除。例如,若操作人员看到网管系统的存储空间不足,或者性能变差,则删除较早存储的网元快照信息;若设置删除网元快照信息的周期为5S,则每经过5S将存储的网元快照信息进行删除;或者,若网元快照信息产生的文件个数超过预设阈值,则进行一次数据的清理;若网元快照信息产生的文件大小超过预设阈值,则进行一次数据的清理等等。
通过图2所示的网管系统的操作流程,在网管系统产生故障时,将网元快照信息进行存储并备份。
参见图3,一种故障定位分析的方法,该方法包括步骤:
S301、操作人员将网管系统产生故障时存储的网元快照信息复制到场景复现系统和快照网元系统;
其中,将网管配置数据和操作日志数据复制到场景复现系统,将网管配置数据和通信报文数据复制到快照网元系统中。
S302、操作人员根据网管配置数据和操作日志数据搭建场景复现系统,根据网管配置数据和通信报文数据搭建快照网元系统;
其中,操作人员根据网管配置数据搭建的场景复现系统与网管系统产生故障时的工程场景的水平相同,根据操作日志数据确定产生故障时操作人员对哪些设备或网元进行的操作的具体过程,使得场景复现系统与产生故障时的网管系统完全相同。
操作人员根据网管配置数据中包括的网元个数以及各个网元的类型和IP地址建立代理网元,且每一代理网元与网管系统交互的网元完全相同,根据通信报文数据确定哪些代理网元与场景复现系统产生信息的交互,以及返回的响应报文。
S303、复现场景系统根据通信报文数据对快照网元系统进行查询或者设置;
例如,若根据通信报文数据确定网管系统查询网元5,则复现场景系统发送查询指令给代理网元5。
S304、快照网元系统确定复现场景系统查询或设置的代理网元,获取该代理网元的报文命令码,并根据该报文命令码获取该代理网元的响应内容,并将响应报文反馈给复现场景系统;
S305、操作人员根据反馈的响应报文判断是否出现与网管系统相同的故障,若没有出现故障,则返回步骤S302;否则,确定故障的位置以及解决该故障。
通过图3所示的场景复现系统与快照网元系统之间的操作流程,确定了网管系统的故障的位置,从而有利于操作人员解决该故障,因为复现网管系统的故障是在场景复现系统和快照网元系统中进行实现的,且通过快照网元系统中的代理网元代替真实网元来定位故障,从而减少了设备的投入量,故障的复现的整个过程需要操作人员较少,减少了工作量的投入,同时场景复现系统和网管系统的网管配置数据和操作日志数据完全相同,快照网元系统中的代理网元与网管系统交互的网元完全相同,因此提高了复现故障的成功率。
下面通过附图详细描述快照网元系统的操作流程。
参见图4,快照网元系统的操作流程包括步骤:
S401、操作人员根据网管配置数据和通信报文数据搭建快照网元系统,并初始化快照网元系统;
其中,根据网管配置数据中包括的网元个数,以及通信报文数据建立代理网元。例如,网管配置数据中包括15个网元,则建立代理网元个数为15个。
S402、开启监听快照网元系统中各个代理网元与场景复现系统之间的信息交互;
其中,启动各个代理网元的监控模块,监听各个代理网元与复现场景系统之间的请求或者应答信息。
S403、当代理网元接收到场景复现系统的查询或者设置请求时,获取该请求中携带的报文命令码;
例如,代理网元5接收到场景复现系统的查询请求,记为Request-5,则从该查询请求中获取报文的命令码,记为Index-5-M,其中M代理命令码;
S404、通过该请求中携带的报文命令码,从通信报文数据中获取响应报文;
例如,根据报文命令码Index-5-M从通信报文数据中获取响应报文的内容Code-5-M。
S405、将获取的响应报文反馈给场景复现系统。
综上所述,本发明实施例提供的故障定位分析的方法,是利用网管系统在工程运行中产生故障时存储的网管配置数据、操作日志数据和通信报文数据来构建与网管系统相同的场景复现系统,以及与网管系统交互的网元相同的快照网元系统,得到网管系统在工程运行中的故障的再现,从而根据快照网元系统反馈的响应报文数据进一步确定故障的位置。相比与现有技术中,本发明有以下有益效果:
(1)、本发明通过软件对故障进行定位分析,减少了投入的设备。一般地,为了使故障再现,需要涉及到成百上千的网元、板卡等设备,且成本较高,而本发明仅通过网管配置数据、通信报文数据和操作日志数据搭建虚拟的代理网元以及快照网元系统,避免了大量设备的投入。
(2)、本发明通过与网管系统产生故障时的网管配置数据、通信报文数据和操作日志数据进行故障的复现,从而提高了故障定位分析的成功率。一般地,通过有经验的工程师提取网管配置中的重要参数实现故障的再现,可能会漏掉重要信息而故障复现失败。而本发明中网元快照数据中的通信报文数据和操作日志数据存储了网管系统与网元之间的任何交互的信息,可以极大地提高了网管系统中故障的再现。
(3)、本发明通过场景复现系统和快照网元系统进行故障的复现,减少了工作量的投入。一般地,通过网元进行故障的再现,需要对网元等设备进行准备,使得网元等设备处于的状态与产生故障时相同,例如硬件的搜集和准备、软件的升级、业务的开通等,使工作人员的工作量较大。而本发明中通过网管配置数据和通信报文数据可以建立与网元工作状态相同的代理网元,从而形成快照网元系统,且不需要准备任何硬件,避免了投入较大的工作量。
参见图5,本发明实施例提供的一种故障定位分析的系统,包括:
根据网管系统运行中产生故障时备份的网元快照信息搭建的场景复现系统51;
和根据网管系统运行中产生故障时备份的网元快照信息搭建快照网元系统52,其中,快照网元系统52中包括与网管系统进行交互的网元一一对应的代理网元521;
场景复现系统51,用于根据所述网元快照信息,所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互,以及根据所述快照网元系统反馈的报文信息确定所述故障。
较佳地,场景复现系统51,包括:
配置恢复模块511,用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据搭建场景复现系统;
所述快照网元系统具体用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据搭建快照网元系统;
其中,所述网管配置数据包括多个网元的设备类型、IP地址、板卡、端口、交叉配置以及业务配置的数据;所述通信报文数据包括网管系统发送给每个网元的查询或设置报文、每个网元返回给网管系统的应答报文的数据。
较佳地,快照网元系统52,包括:
快照配置模块522,用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据,形成快照网元系统中的代理网元。
较佳地,场景复现系统51,还用于:
根据所述网元快照信息中的操作日志数据,所述场景复现系统对所述快照系统中的代理网元进行操作,其中所述操作日志数据包括操作人员的操作时间、操作对象、操作类型和操作结果的数据。
较佳地,快照网元系统52还包括:
网络通信模块523,用于监控所述场景复现系统与所述快照网元系统之间的信息交互。
较佳地,快照网元系统52还包括:
报文处理模块524,用于:
当快照网元系统52中的代理网元接收到场景复现系统51的查询或者设置请求时,获取该代理网元的报文命令码;
快照网元系统52根据所述报文命令码,获取所述场景复现系统51中的通信报文数据,并确定响应报文;
快照网元系统52将所述响应报文反馈给场景复现系统51;
场景复现系统51根据所述响应报文定位所述故障。
其中,参见图6,网管系统53包括全局配置模块531,用于开启故障监控模式。其中故障监控模式是指在网管系统运行中记录快照网元信息的模式。当然现场操作人员可以根据需要开启故障监控;
配置备份模块532,用于对网管系统中网管配置数据进行记录,生成网管配置数据;
报文记录模块533,用于对网管系统与外部真实网元之间的通信报文的记录,生成通信报文数据;
日志记录模块534,用于记录操作人员对网管系统或网元操作的数据。生成操作日志数据;
数据清理模块535,用于对网管配置数据、通信报文数据和操作日志数据的清理。
需要说明的是,本发明实施例中网管系统是指在运行中产生故障的网管系统,场景复现系统和快照网元系统均为软件搭建的系统,可以作为网管系统的一部分,也可以单独设计。本发明不做具体限定。
通过本发明实施例提供的故障定位分析系统,包括根据网管系统在产生故障时备份的网元快照信息搭建场景复现系统和快照网元系统,且快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;其中,场景复现系统用于根据网管系统中备份的网元快照信息,使场景复现系统与快照网元系统产生相同的信息交互,最后根据快照网元系统反馈的报文信息确定网管系统的故障。因此,本发明中是在搭建的场景复现系统和快照网元系统中进行故障复现,并根据报文信息确定故障发生的位置,以及解决故障的方法,本发明实施例提供的故障定位分析的方法,不用投入大量的设备,操作人员仅在场景复现系统中对故障进行分析,减少了工作量的投入,且故障复现完全通过网管系统中备份的网元快照信息实现,提高了故障定位分析的成功率。
综上所述,本发明实施例提供的故障定位分析的方法及系统,是利用网管系统在工程运行中产生故障时存储的网管配置数据、操作日志数据和通信报文数据来构建与网管系统相同的场景复现系统,以及与网管系统交互的网元相同的快照网元系统,得到网管系统在工程运行中的故障的再现,从而根据快照网元系统反馈的响应报文数据进一步确定故障的位置。因此,本发明通过软件对故障进行定位分析,减少了投入的设备;通过与网管系统产生故障时的网管配置数据、通信报文数据和操作日志数据进行故障的复现,从而提高了故障定位分析的成功率;通过场景复现系统和快照网元系统进行故障的复现,减少了工作量的投入。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种故障定位分析的方法,其特征在于,该方法包括:
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据搭建场景复现系统;
根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据,形成快照网元系统中的代理网元,其中所述快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;
根据所述网元快照信息中的操作日志数据,所述场景复现系统对所述快照网元系统中的代理网元进行操作,根据所述快照网元系统反馈的报文信息确定所述故障。
2.根据权利要求1所述的方法,其特征在于,
所述网管配置数据包括多个网元的设备类型、IP地址、板卡、端口、交叉配置以及业务配置的数据;所述通信报文数据包括网管系统发送给每个网元的查询或设置报文、每个网元返回给网管系统的应答报文的数据。
3.根据权利要求1所述的方法,其特征在于,
所述操作日志数据包括操作人员的操作时间、操作对象、操作类型和操作结果的数据。
4.根据权利要求1所述的方法,其特征在于,在所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互时,该方法还包括:
监控所述场景复现系统与所述快照网元系统之间的信息交互。
5.据权利要求4所述的方法,其特征在于,根据所述快照网元系统反馈的报文信息确定所述故障,包括:
当所述快照网元系统中的代理网元接收到场景复现系统的查询或者设置请求时,获取该代理网元的报文命令码;
所述快照网元系统根据所述报文命令码,以及从所述场景复现系统中获取的通信报文数据,确定响应报文;
所述快照网元系统将所述响应报文反馈给所述场景复现系统;
所述场景复现系统根据所述响应报文定位所述故障。
6.一种故障定位分析的系统,其特征在于,该系统包括:
根据网管系统运行中产生故障时备份的网元快照信息搭建的场景复现系统;
和根据网管系统运行中产生故障时备份的网元快照信息搭建快照网元系统,其中,所述快照网元系统中包括与所述网管系统进行交互的网元一一对应的代理网元;
所述场景复现系统,用于根据所述网元快照信息,所述场景复现系统与所述快照网元系统中的代理网元之间进行信息交互,以及根据所述快照网元系统反馈的报文信息确定所述故障;
场景复现系统,包括:
配置恢复模块,用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据搭建场景复现系统;
所述快照网元系统具体用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据搭建快照网元系统;
所述快照网元系统,包括:
快照配置模块,用于根据网管系统运行中产生故障时备份的网元快照信息中的网管配置数据和通信报文数据,形成快照网元系统中的代理网元;
场景复现系统,具体用于:
根据所述网元快照信息中的操作日志数据,所述场景复现系统对所述快照网元系统中的代理网元进行操作。
7.根据权利要求6所述的系统,其特征在于,
其中,所述网管配置数据包括多个网元的设备类型、IP地址、板卡、端口、交叉配置以及业务配置的数据;所述通信报文数据包括网管系统发送给每个网元的查询或设置报文、每个网元返回给网管系统的应答报文的数据。
8.根据权利要求6所述的系统,其特征在于,其中所述操作日志数据包括操作人员的操作时间、操作对象、操作类型和操作结果的数据。
9.根据权利要求6所述的系统,其特征在于,所述快照网元系统还包括:
网络通信模块,用于监控所述场景复现系统与所述快照网元系统之间的信息交互。
10.据权利要求9所述的系统,其特征在于,所述快照网元系统还包括报文处理模块,所述报文处理模块具有用于:
当所述快照网元系统中的代理网元接收到场景复现系统的查询或者设置请求时,获取该代理网元的报文命令码;
所述快照网元系统根据所述报文命令码,获取所述场景复现系统中的通信报文数据,并确定响应报文;
所述快照网元系统将所述响应报文反馈给所述场景复现系统;
所述场景复现系统根据所述响应报文定位所述故障。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510906362.1A CN105391586B (zh) | 2015-12-09 | 2015-12-09 | 一种故障定位分析的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510906362.1A CN105391586B (zh) | 2015-12-09 | 2015-12-09 | 一种故障定位分析的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105391586A CN105391586A (zh) | 2016-03-09 |
CN105391586B true CN105391586B (zh) | 2018-12-21 |
Family
ID=55423438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510906362.1A Active CN105391586B (zh) | 2015-12-09 | 2015-12-09 | 一种故障定位分析的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105391586B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107509213B (zh) * | 2016-06-14 | 2020-11-17 | 中国联合网络通信集团有限公司 | 通讯网络故障网元定位的方法及系统 |
CN107438259B (zh) * | 2017-09-22 | 2020-06-23 | 武汉虹信通信技术有限责任公司 | 一种网管系统性能模块故障的定位方法 |
CN108833171A (zh) * | 2018-06-21 | 2018-11-16 | 国网福建省电力有限公司 | 一种基于Web的电力网络设备教学管理实现方法 |
CN109739680A (zh) * | 2019-02-02 | 2019-05-10 | 广州视源电子科技股份有限公司 | 应用系统的故障查找方法、装置、设备及介质 |
US11500737B2 (en) * | 2019-05-21 | 2022-11-15 | Mellanox Technologies, Ltd. | Coherent capturing of shared-buffer status |
CN112764408A (zh) * | 2019-10-21 | 2021-05-07 | 上海博泰悦臻电子设备制造有限公司 | 车载终端开机故障复现方法及系统、存储介质及控制终端 |
CN111884840B (zh) * | 2020-07-16 | 2022-09-06 | 中盈优创资讯科技有限公司 | Ipran网络设备故障告警归并分析处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6094660A (en) * | 1997-11-21 | 2000-07-25 | Telefonaktiebolaget Lm Ericsson | Customer administrative system management of redundant database network elements in a telecommunications system |
CN101197621A (zh) * | 2007-12-07 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对网管系统故障进行远程诊断定位的方法及其系统 |
CN101821990A (zh) * | 2007-10-09 | 2010-09-01 | Lm爱立信电话有限公司 | 处理网络中的故障的结构和方法 |
CN102045213A (zh) * | 2009-10-22 | 2011-05-04 | 华为技术有限公司 | 故障定位方法及装置 |
CN102394775A (zh) * | 2011-11-01 | 2012-03-28 | 中兴通讯股份有限公司 | 一种模拟网元的方法、装置和系统 |
-
2015
- 2015-12-09 CN CN201510906362.1A patent/CN105391586B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6094660A (en) * | 1997-11-21 | 2000-07-25 | Telefonaktiebolaget Lm Ericsson | Customer administrative system management of redundant database network elements in a telecommunications system |
CN101821990A (zh) * | 2007-10-09 | 2010-09-01 | Lm爱立信电话有限公司 | 处理网络中的故障的结构和方法 |
CN101197621A (zh) * | 2007-12-07 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对网管系统故障进行远程诊断定位的方法及其系统 |
CN102045213A (zh) * | 2009-10-22 | 2011-05-04 | 华为技术有限公司 | 故障定位方法及装置 |
CN102394775A (zh) * | 2011-11-01 | 2012-03-28 | 中兴通讯股份有限公司 | 一种模拟网元的方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105391586A (zh) | 2016-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105391586B (zh) | 一种故障定位分析的方法及系统 | |
CN113067728B (zh) | 一种网络安全攻防试验平台 | |
US9311160B2 (en) | Elastic cloud networking | |
US8473959B2 (en) | Methods and apparatus related to migration of customer resources to virtual resources within a data center environment | |
Nguyen et al. | Availability modeling and analysis of a data center for disaster tolerance | |
JP2022511242A (ja) | コンピュータシステムの自動動作管理 | |
WO2021203979A1 (zh) | 运维处理方法、装置及计算机设备 | |
CN103500475B (zh) | 一种办公楼宇门禁系统的调试方法、系统 | |
CN106911648B (zh) | 一种环境隔离方法及设备 | |
CN106134141A (zh) | 一种更新网络服务描述器nsd的方法及装置 | |
CN105005521A (zh) | 测试方法及装置 | |
CN109684032A (zh) | 防脑裂的OpenStack虚拟机高可用计算节点装置及管理方法 | |
CN110764871A (zh) | 一种基于云平台的拟态化应用封装与控制系统和方法 | |
CN104363122B (zh) | 一种网元的预配置方法和系统 | |
CN107544783A (zh) | 一种数据更新方法、装置及系统 | |
US10536518B1 (en) | Resource configuration discovery and replication system for applications deployed in a distributed computing environment | |
CN104125304A (zh) | 一种会话级应用审计方法及系统 | |
US20150071091A1 (en) | Apparatus And Method For Monitoring Network Performance | |
CN110730095B (zh) | 一种面向云计算平台的数据安全应急演练方法和系统 | |
CN114157718B (zh) | 一种sdn网络系统及sdn网络系统的控制方法 | |
Bouchenak et al. | From autonomic to self-self behaviors: The jade experience | |
CN109981377A (zh) | 一种分布式数据中心链路监控方法及系统 | |
CN110493210B (zh) | 一种基于sdn的可配置网络安全实验系统 | |
dos Santos et al. | A systematic review of fault tolerance solutions for communication errors in open source cloud computing | |
CN105468446A (zh) | 一种基于Linux的HPC作业调度实现高可用的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |