CN108322315A - 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 - Google Patents

一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 Download PDF

Info

Publication number
CN108322315A
CN108322315A CN201710028295.7A CN201710028295A CN108322315A CN 108322315 A CN108322315 A CN 108322315A CN 201710028295 A CN201710028295 A CN 201710028295A CN 108322315 A CN108322315 A CN 108322315A
Authority
CN
China
Prior art keywords
failure
equipment
network
module
exchange device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710028295.7A
Other languages
English (en)
Inventor
雷文虎
谭淇文
冯辉
邱权
吕鸿
苏凌旭
王凯
王波
陈量
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Jinmei Communication Co Ltd
Original Assignee
Chongqing Jinmei Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Jinmei Communication Co Ltd filed Critical Chongqing Jinmei Communication Co Ltd
Priority to CN201710028295.7A priority Critical patent/CN108322315A/zh
Publication of CN108322315A publication Critical patent/CN108322315A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/164Adaptation or special uses of UDP protocol
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备。路由交换设备通过建立软件看门狗机制来监控任务运行情况,当出现软件故障时,能够采集并记录必要的异常信息到故障文件中,自动重启故障任务或设备使设备快速恢复正常。故障诊断设备自动发现全网所有的故障节点,搜集和保存故障信息,辅助网络管理人员快速的分析和定位故障。本发明有益技术效果是:提供了一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,当设备出现软件故障时,能够采集并记录下必要的异常信息,快速恢复正常,保证网络安全、稳定和可靠地运行。网络管理人员能够以最少的操作、最低的代价获得确切故障信息,排查网络故障的效率大大提高。

Description

一种大规模通信网络路由交换设备软件故障诊断方法、系统 和设备
技术领域
本发明属通信技术领域,尤其涉及一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备。
背景技术
在战术通信领域,基于VxWorks操作系统的路由交换设备得到广泛应用,提供话音、数据、图像、视频等上层应用服务。基于VxWorks的应用服务软件大多采用多任务方式运行,无法像没有操作系统的嵌入式系统那样通过硬件看门狗电路在软件运行出错时自动重启。一个任务出现软件故障时(该任务的状态一直处于SUSPEND挂起状态)往往不会引起操作系统重启,这会对整个通信网络的正常运行带来很大的影响(特别是当该任务为关键任务或故障设备位于网络的关键节点时),网络管理人员很难通过上层判断应用服务软件运行是否正常,无法远程获取发生异常时的相关信息,给解决问题带来很大难度。
随着网络规模的不断扩大,通信网络的运行维护变得更加复杂,如何保证网络安全、稳定和可靠地运行,以最少的操作、最低的代价获得确切故障的相关信息,通过诊断操作,最终准确定位故障,仍然是一个棘手的问题。
发明内容
本发明公开了一种通信网络中路由交换设备软件故障诊断方法、系统和设备。路由交换设备通过建立软件看门狗机制来监控任务运行情况,当发现任务出现故障时采集必要的异常信息记录到故障文件中,自动重启故障任务或者设备使其快速恢复正常;故障诊断设备自动发现全网所有的故障节点,搜集和保存故障文件信息,辅助网络管理人员快速分析和定位故障。
如图1所示,本发明中涉及两种设备:故障诊断设备、路由交换设备。其中:
故障诊断设备是负责故障诊断的计算机终端。路由交换设备是通信网络中的网络节点。路由交换设备之间按正常的网间链路互连;故障诊断设备与路由交换设备之间采用ETH链路互连。
如图2所示,本发明中涉及三种软件模块:故障检测诊断模块、故障搜集模块、故障监控模块。其中:
故障检测诊断模块运行在故障检测设备上。该模块能够发起故障搜集请求组播消息;接收通信网络中各节点的故障搜集响应单播消息,解析并保存故障搜集结果;向指定设备发出故障文件删除单播消息。
故障搜集模块运行在路由交换设备上。该模块能够接收故障搜集请求组播消息,并将该请求消息在网络中泛洪转播;查看设备内部是否存在故障文件,如果有则生成故障搜集响应单播消息回传给故障诊断设备;接收故障文件删除单播消息并删除故障文件。
故障监控模块运行在路由交换设备上。该模块能够监控设备内部多个任务的运行情况;发现任务出现故障时采集必要的异常信息记录到故障文件中;自动重启故障任务或者设备使设备尽快恢复正常。
故障检测诊断模块与故障搜集模块之间的消息采用UDP报文进行封装,故障搜集模块之间的消息采用UDP报文进行封装,UDP收发端口号均采用固定值。
本发明的有益技术效果是:提供了一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,当设备出现软件故障时,能够采集并记录下必要的异常信息,快速恢复正常,保证网络安全、稳定和可靠地运行。网络管理人员能够以最少的操作、最低的代价获得确切故障信息,排查网络故障的效率大大提高。
附图说明
图1、设备间的连接关系图;
图2、设备的功能模块组成及模块间的关系图。
具体实施方式
本发明提供一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,实现该方法包括故障检测诊断模块、故障搜集模块、故障监控模块。模块之间关系可参见图2。需要说明的是,为了更加清楚、简要的描述本发明的实现方式,图2中省略了节点的原有功能模块,仅仅示出与本发明相关的功能模块。具体实施方式如下:
故障检测诊断模块主要包括如下功能:
1) 故障检测诊断模块定期(2-5分钟一次,可配置)向路由交换设备发送故障搜集请求组播消息,消息内部需携带故障诊断设备的IP地址、UDP收端口号以及请求消息的序列号,序列号逐次递增;
2) 故障检测诊断模块接收路由交换设备的故障搜集响应单播消息,解析并保存故障搜集响应消息到数据库中,需要记录下接收时间、响应设备IP地址、故障具体信息等;
3) 故障检测诊断模块向指定路由交换设备发出故障文件删除单播消息;
4) 故障检测诊断模块向网络管理人员提供故障查询、统计、显示等功能,辅助网络管理人员进行故障分析和定位。
故障搜集模块主要包括如下功能:
1) 全网的故障搜集模块均采用固定的同一个UDP端口号接收发送报文;
2) 故障搜集模块接收故障诊断设备的故障搜集请求组播消息,并将该请求消息在网络中泛洪传输;
3) 故障搜集模块通过故障搜集请求组播消息中携带的序列号进行识别,同一个消息只处理一次,避免在泛洪时形成网络风暴;
4) 故障搜集模块记录下故障诊断设备的通信IP地址及UDP端口号便于回传响应报文使用;
5) 故障搜集模块检查设备内部是否存在故障文件,如果有则将故障文件中信息生成故障搜集响应单播消息回传给故障诊断设备;
6) 故障搜集模块接收故障文件删除单播消息并删除故障文件。
故障监控模块主要包括如下功能:
1) 故障监控模块是一个独立的任务,采用软件看门狗机制周期性的(2-5分钟一次)对设备内部的各个任务的运行状态进行检测;
2) 故障监控模块发现任务出现故障时,自动调用系统提供的调试接口采集必要的异常信息记录到故障文件中,如果之前没有故障文件则需创建故障文件,如果已经故障文件,则将异常信息以追加方式记录到故障文件中;
3) 在一个循环中如果发现有任务出现故障,自动调用故障任务的重启功能或者操作系统的重启功能使设备尽快恢复正常。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备,其特征在于:涉及故障诊断设备和路由交换设备等两种设备,涉及故障检测诊断模块、故障搜集模块、故障监控模块等三个软件模块。
2.根据权利要求1所述,其特征在于:故障诊断设备是负责故障诊断的计算机终端。
3.根据权利要求1所述,其特征在于:路由交换设备是通信网络中的负责通信和交换的网络节点。
4.根据权利要求1所述,其特征在于:路由交换设备通过建立软件看门狗机制来监控任务运行情况,当发现任务出现故障时采集必要的异常信息记录到故障文件中,自动重启故障任务或设备使其快速恢复正常;故障诊断设备自动发现全网所有的故障节点,搜集和保存故障文件信息,辅助网络管理人员快速分析和定位故障。
5.根据权利要求1所述,其特征在于:故障检测诊断模块运行在故障检测设备上,该模块能够发起故障搜集请求组播消息;接收通信网络中各节点的故障搜集响应单播消息,解析并保存故障搜集结果;向指定设备发出故障文件删除单播消息。
6.根据权利要求1所述,其特征在于:故障搜集模块运行在路由交换设备上,该模块能够接收故障搜集请求组播消息,并将该请求消息在网络中泛洪转播;查看设备内部是否存在故障文件,如果有则生成故障搜集响应单播消息回传给故障诊断设备;接收故障文件删除单播消息并删除故障文件。
7.根据权利要求1所述,其特征在于:故障监控模块运行在路由交换设备上,该模块能够监控设备内部多个任务的运行情况;发现任务出现故障时采集必要的异常信息记录到故障文件中;自动重启故障任务或者设备使设备尽快恢复正常。
8.根据权利要求1所述,其特征在于:故障检测诊断模块与故障搜集模块之间的消息采用UDP报文进行封装,故障搜集模块之间的消息采用UDP报文进行封装,UDP收发端口号均采用固定值。
CN201710028295.7A 2017-01-16 2017-01-16 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备 Withdrawn CN108322315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710028295.7A CN108322315A (zh) 2017-01-16 2017-01-16 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710028295.7A CN108322315A (zh) 2017-01-16 2017-01-16 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备

Publications (1)

Publication Number Publication Date
CN108322315A true CN108322315A (zh) 2018-07-24

Family

ID=62891633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710028295.7A Withdrawn CN108322315A (zh) 2017-01-16 2017-01-16 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备

Country Status (1)

Country Link
CN (1) CN108322315A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111030851A (zh) * 2019-11-29 2020-04-17 苏州浪潮智能科技有限公司 一种网络诊断恢复的管理方法、设备及可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820359A (zh) * 2010-03-09 2010-09-01 杭州华三通信技术有限公司 一种网络设备的故障处理方法和设备
CN103019908A (zh) * 2012-12-07 2013-04-03 陕西千山航空电子有限责任公司 一种基于多总线下vxworks多任务监控技术的方法
US20140298399A1 (en) * 2013-03-29 2014-10-02 Electronics And Telecommunications Research Institute Apparatus and method for detecting anomality sign in controll system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820359A (zh) * 2010-03-09 2010-09-01 杭州华三通信技术有限公司 一种网络设备的故障处理方法和设备
CN103019908A (zh) * 2012-12-07 2013-04-03 陕西千山航空电子有限责任公司 一种基于多总线下vxworks多任务监控技术的方法
US20140298399A1 (en) * 2013-03-29 2014-10-02 Electronics And Telecommunications Research Institute Apparatus and method for detecting anomality sign in controll system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王莉: "路由交换机故障诊断系统的检测驱动设计与实现", 《中国优秀硕士学位论文全文数据库•信息科技辑》 *
陈翌: "《嵌入式软件开发技术》", 31 October 2003 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111030851A (zh) * 2019-11-29 2020-04-17 苏州浪潮智能科技有限公司 一种网络诊断恢复的管理方法、设备及可读介质
CN111030851B (zh) * 2019-11-29 2022-12-27 苏州浪潮智能科技有限公司 一种网络诊断恢复的管理方法、设备及可读介质

Similar Documents

Publication Publication Date Title
CN104798341B (zh) 在电子网络上表征服务水平
CN1761240B (zh) 用于高度可实现性应用的智能集成网络安全设备
CN102158360B (zh) 一种基于时间因子因果关系定位的网络故障自诊断方法
JP5033856B2 (ja) ネットワーク構成の想定のための装置、システム
CN111800354B (zh) 消息处理方法及装置、消息处理设备及存储介质
CN103810076B (zh) 数据复制的监控方法及装置
CN103019866A (zh) 基于消息队列的分布式方法和系统
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
CN112468592B (zh) 一种基于电力信息采集的终端在线状态侦测方法及系统
CN107888455A (zh) 一种数据检测方法、装置和系统
CN113676723B (zh) 一种基于物联网的非同源网络视频监控故障定位方法及装置
CN114422386B (zh) 一种微服务网关的监测方法及装置
CN103634166A (zh) 一种设备存活检测方法及装置
JP3569827B2 (ja) ネットワークシステムの状態診断・監視装置
US7421493B1 (en) Orphaned network resource recovery through targeted audit and reconciliation
CN108322315A (zh) 一种大规模通信网络路由交换设备软件故障诊断方法、系统和设备
CN110969082B (zh) 一种时钟同步测试巡检方法和系统
CN101197714A (zh) 一种移动数据业务状态集中采集的方法
CN109951313A (zh) 一种Hadoop云平台的监控装置及方法
KR100887874B1 (ko) 인터넷 망의 장애 관리 시스템 및 그 방법
CN105391571A (zh) 一种办税服务厅监控设备巡检方法
CN115102865A (zh) 一种网络安全设备拓扑管理方法及系统
KR0173380B1 (ko) 분산형 액세스 노드 시스템에서의 성능관리 방법
JP6733923B1 (ja) ネットワーク管理システム、ネットワーク管理方法およびネットワーク管理プログラム
JP2017034403A (ja) サービス影響原因推定装置、サービス影響原因推定プログラム、及びサービス影響原因推定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180724