CN108322315A - 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 - Google Patents
一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 Download PDFInfo
- Publication number
- CN108322315A CN108322315A CN201710028295.7A CN201710028295A CN108322315A CN 108322315 A CN108322315 A CN 108322315A CN 201710028295 A CN201710028295 A CN 201710028295A CN 108322315 A CN108322315 A CN 108322315A
- Authority
- CN
- China
- Prior art keywords
- failure
- equipment
- network
- module
- exchange device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/16—Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
- H04L69/164—Adaptation or special uses of UDP protocol
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/28—Routing or path finding of packets in data switching networks using route fault recovery
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备。路由交换设备通过建立软件看门狗机制来监控任务运行情况,当出现软件故障时,能够采集并记录必要的异常信息到故障文件中,自动重启故障任务或设备使设备快速恢复正常。故障诊断设备自动发现全网所有的故障节点,搜集和保存故障信息,辅助网络管理人员快速的分析和定位故障。本发明有益技术效果是:提供了一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,当设备出现软件故障时,能够采集并记录下必要的异常信息,快速恢复正常,保证网络安全、稳定和可靠地运行。网络管理人员能够以最少的操作、最低的代价获得确切故障信息,排查网络故障的效率大大提高。
Description
技术领域
本发明属通信技术领域,尤其涉及一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备。
背景技术
在战术通信领域,基于VxWorks操作系统的路由交换设备得到广泛应用,提供话音、数据、图像、视频等上层应用服务。基于VxWorks的应用服务软件大多采用多任务方式运行,无法像没有操作系统的嵌入式系统那样通过硬件看门狗电路在软件运行出错时自动重启。一个任务出现软件故障时(该任务的状态一直处于SUSPEND挂起状态)往往不会引起操作系统重启,这会对整个通信网络的正常运行带来很大的影响(特别是当该任务为关键任务或故障设备位于网络的关键节点时),网络管理人员很难通过上层判断应用服务软件运行是否正常,无法远程获取发生异常时的相关信息,给解决问题带来很大难度。
随着网络规模的不断扩大,通信网络的运行维护变得更加复杂,如何保证网络安全、稳定和可靠地运行,以最少的操作、最低的代价获得确切故障的相关信息,通过诊断操作,最终准确定位故障,仍然是一个棘手的问题。
发明内容
本发明公开了一种通信网络中路由交换设备软件故障诊断方法、系统和设备。路由交换设备通过建立软件看门狗机制来监控任务运行情况,当发现任务出现故障时采集必要的异常信息记录到故障文件中,自动重启故障任务或者设备使其快速恢复正常;故障诊断设备自动发现全网所有的故障节点,搜集和保存故障文件信息,辅助网络管理人员快速分析和定位故障。
如图1所示,本发明中涉及两种设备:故障诊断设备、路由交换设备。其中:
故障诊断设备是负责故障诊断的计算机终端。路由交换设备是通信网络中的网络节点。路由交换设备之间按正常的网间链路互连;故障诊断设备与路由交换设备之间采用ETH链路互连。
如图2所示,本发明中涉及三种软件模块:故障检测诊断模块、故障搜集模块、故障监控模块。其中:
故障检测诊断模块运行在故障检测设备上。该模块能够发起故障搜集请求组播消息;接收通信网络中各节点的故障搜集响应单播消息,解析并保存故障搜集结果;向指定设备发出故障文件删除单播消息。
故障搜集模块运行在路由交换设备上。该模块能够接收故障搜集请求组播消息,并将该请求消息在网络中泛洪转播;查看设备内部是否存在故障文件,如果有则生成故障搜集响应单播消息回传给故障诊断设备;接收故障文件删除单播消息并删除故障文件。
故障监控模块运行在路由交换设备上。该模块能够监控设备内部多个任务的运行情况;发现任务出现故障时采集必要的异常信息记录到故障文件中;自动重启故障任务或者设备使设备尽快恢复正常。
故障检测诊断模块与故障搜集模块之间的消息采用UDP报文进行封装,故障搜集模块之间的消息采用UDP报文进行封装,UDP收发端口号均采用固定值。
本发明的有益技术效果是:提供了一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,当设备出现软件故障时,能够采集并记录下必要的异常信息,快速恢复正常,保证网络安全、稳定和可靠地运行。网络管理人员能够以最少的操作、最低的代价获得确切故障信息,排查网络故障的效率大大提高。
附图说明
图1、设备间的连接关系图;
图2、设备的功能模块组成及模块间的关系图。
具体实施方式
本发明提供一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,实现该方法包括故障检测诊断模块、故障搜集模块、故障监控模块。模块之间关系可参见图2。需要说明的是,为了更加清楚、简要的描述本发明的实现方式,图2中省略了节点的原有功能模块,仅仅示出与本发明相关的功能模块。具体实施方式如下:
故障检测诊断模块主要包括如下功能:
1) 故障检测诊断模块定期(2-5分钟一次,可配置)向路由交换设备发送故障搜集请求组播消息,消息内部需携带故障诊断设备的IP地址、UDP收端口号以及请求消息的序列号,序列号逐次递增;
2) 故障检测诊断模块接收路由交换设备的故障搜集响应单播消息,解析并保存故障搜集响应消息到数据库中,需要记录下接收时间、响应设备IP地址、故障具体信息等;
3) 故障检测诊断模块向指定路由交换设备发出故障文件删除单播消息;
4) 故障检测诊断模块向网络管理人员提供故障查询、统计、显示等功能,辅助网络管理人员进行故障分析和定位。
故障搜集模块主要包括如下功能:
1) 全网的故障搜集模块均采用固定的同一个UDP端口号接收发送报文;
2) 故障搜集模块接收故障诊断设备的故障搜集请求组播消息,并将该请求消息在网络中泛洪传输;
3) 故障搜集模块通过故障搜集请求组播消息中携带的序列号进行识别,同一个消息只处理一次,避免在泛洪时形成网络风暴;
4) 故障搜集模块记录下故障诊断设备的通信IP地址及UDP端口号便于回传响应报文使用;
5) 故障搜集模块检查设备内部是否存在故障文件,如果有则将故障文件中信息生成故障搜集响应单播消息回传给故障诊断设备;
6) 故障搜集模块接收故障文件删除单播消息并删除故障文件。
故障监控模块主要包括如下功能:
1) 故障监控模块是一个独立的任务,采用软件看门狗机制周期性的(2-5分钟一次)对设备内部的各个任务的运行状态进行检测;
2) 故障监控模块发现任务出现故障时,自动调用系统提供的调试接口采集必要的异常信息记录到故障文件中,如果之前没有故障文件则需创建故障文件,如果已经故障文件,则将异常信息以追加方式记录到故障文件中;
3) 在一个循环中如果发现有任务出现故障,自动调用故障任务的重启功能或者操作系统的重启功能使设备尽快恢复正常。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,其特征在于:涉及故障诊断设备和路由交换设备等两种设备,涉及故障检测诊断模块、故障搜集模块、故障监控模块等三个软件模块。
2.根据权利要求1所述,其特征在于:故障诊断设备是负责故障诊断的计算机终端。
3.根据权利要求1所述,其特征在于:路由交换设备是通信网络中的负责通信和交换的网络节点。
4.根据权利要求1所述,其特征在于:路由交换设备通过建立软件看门狗机制来监控任务运行情况,当发现任务出现故障时采集必要的异常信息记录到故障文件中,自动重启故障任务或设备使其快速恢复正常;故障诊断设备自动发现全网所有的故障节点,搜集和保存故障文件信息,辅助网络管理人员快速分析和定位故障。
5.根据权利要求1所述,其特征在于:故障检测诊断模块运行在故障检测设备上,该模块能够发起故障搜集请求组播消息;接收通信网络中各节点的故障搜集响应单播消息,解析并保存故障搜集结果;向指定设备发出故障文件删除单播消息。
6.根据权利要求1所述,其特征在于:故障搜集模块运行在路由交换设备上,该模块能够接收故障搜集请求组播消息,并将该请求消息在网络中泛洪转播;查看设备内部是否存在故障文件,如果有则生成故障搜集响应单播消息回传给故障诊断设备;接收故障文件删除单播消息并删除故障文件。
7.根据权利要求1所述,其特征在于:故障监控模块运行在路由交换设备上,该模块能够监控设备内部多个任务的运行情况;发现任务出现故障时采集必要的异常信息记录到故障文件中;自动重启故障任务或者设备使设备尽快恢复正常。
8.根据权利要求1所述,其特征在于:故障检测诊断模块与故障搜集模块之间的消息采用UDP报文进行封装,故障搜集模块之间的消息采用UDP报文进行封装,UDP收发端口号均采用固定值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710028295.7A CN108322315A (zh) | 2017-01-16 | 2017-01-16 | 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710028295.7A CN108322315A (zh) | 2017-01-16 | 2017-01-16 | 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108322315A true CN108322315A (zh) | 2018-07-24 |
Family
ID=62891633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710028295.7A Withdrawn CN108322315A (zh) | 2017-01-16 | 2017-01-16 | 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108322315A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111030851A (zh) * | 2019-11-29 | 2020-04-17 | 苏州浪潮智能科技有限公司 | 一种网络诊断恢复的管理方法、设备及可读介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101820359A (zh) * | 2010-03-09 | 2010-09-01 | 杭州华三通信技术有限公司 | 一种网络设备的故障处理方法和设备 |
CN103019908A (zh) * | 2012-12-07 | 2013-04-03 | 陕西千山航空电子有限责任公司 | 一种基于多总线下vxworks多任务监控技术的方法 |
US20140298399A1 (en) * | 2013-03-29 | 2014-10-02 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting anomality sign in controll system |
-
2017
- 2017-01-16 CN CN201710028295.7A patent/CN108322315A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101820359A (zh) * | 2010-03-09 | 2010-09-01 | 杭州华三通信技术有限公司 | 一种网络设备的故障处理方法和设备 |
CN103019908A (zh) * | 2012-12-07 | 2013-04-03 | 陕西千山航空电子有限责任公司 | 一种基于多总线下vxworks多任务监控技术的方法 |
US20140298399A1 (en) * | 2013-03-29 | 2014-10-02 | Electronics And Telecommunications Research Institute | Apparatus and method for detecting anomality sign in controll system |
Non-Patent Citations (2)
Title |
---|
王莉: "路由交换机故障诊断系统的检测驱动设计与实现", 《中国优秀硕士学位论文全文数据库•信息科技辑》 * |
陈翌: "《嵌入式软件开发技术》", 31 October 2003 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111030851A (zh) * | 2019-11-29 | 2020-04-17 | 苏州浪潮智能科技有限公司 | 一种网络诊断恢复的管理方法、设备及可读介质 |
CN111030851B (zh) * | 2019-11-29 | 2022-12-27 | 苏州浪潮智能科技有限公司 | 一种网络诊断恢复的管理方法、设备及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104798341B (zh) | 在电子网络上表征服务水平 | |
CN1761240B (zh) | 用于高度可实现性应用的智能集成网络安全设备 | |
CN102158360B (zh) | 一种基于时间因子因果关系定位的网络故障自诊断方法 | |
JP5033856B2 (ja) | ネットワーク構成の想定のための装置、システム | |
CN111800354B (zh) | 消息处理方法及装置、消息处理设备及存储介质 | |
CN103810076B (zh) | 数据复制的监控方法及装置 | |
CN103019866A (zh) | 基于消息队列的分布式方法和系统 | |
JP2004021549A (ja) | ネットワーク監視システムおよびプログラム | |
CN112468592B (zh) | 一种基于电力信息采集的终端在线状态侦测方法及系统 | |
CN107888455A (zh) | 一种数据检测方法、装置和系统 | |
CN113676723B (zh) | 一种基于物联网的非同源网络视频监控故障定位方法及装置 | |
CN114422386B (zh) | 一种微服务网关的监测方法及装置 | |
CN103634166A (zh) | 一种设备存活检测方法及装置 | |
JP3569827B2 (ja) | ネットワークシステムの状態診断・監視装置 | |
US7421493B1 (en) | Orphaned network resource recovery through targeted audit and reconciliation | |
CN108322315A (zh) | 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 | |
CN110969082B (zh) | 一种时钟同步测试巡检方法和系统 | |
CN101197714A (zh) | 一种移动数据业务状态集中采集的方法 | |
CN109951313A (zh) | 一种Hadoop云平台的监控装置及方法 | |
KR100887874B1 (ko) | 인터넷 망의 장애 관리 시스템 및 그 방법 | |
CN105391571A (zh) | 一种办税服务厅监控设备巡检方法 | |
CN115102865A (zh) | 一种网络安全设备拓扑管理方法及系统 | |
KR0173380B1 (ko) | 분산형 액세스 노드 시스템에서의 성능관리 방법 | |
JP6733923B1 (ja) | ネットワーク管理システム、ネットワーク管理方法およびネットワーク管理プログラム | |
JP2017034403A (ja) | サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180724 |