CN109450712A - 一种通信设备的故障检测方法 - Google Patents

一种通信设备的故障检测方法 Download PDF

Info

Publication number
CN109450712A
CN109450712A CN201811577194.6A CN201811577194A CN109450712A CN 109450712 A CN109450712 A CN 109450712A CN 201811577194 A CN201811577194 A CN 201811577194A CN 109450712 A CN109450712 A CN 109450712A
Authority
CN
China
Prior art keywords
fault detection
failure
message
fault
detection module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811577194.6A
Other languages
English (en)
Inventor
徐欣婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201811577194.6A priority Critical patent/CN109450712A/zh
Publication of CN109450712A publication Critical patent/CN109450712A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种通信设备的故障检测方法,属于自动检测领域,其特征在于:操作系统起机后自动加载故障检测模块;通过消息管道与各组件内部接口建立消息管道;故障检测模块处于监听系统中组件的进程以及系统变量情况;故障检测模块同时监控多个组件,触发故障检测信息收集模块生效,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。能够实现快速的故障的定位,提高了问题定位效率,可靠性更强,极大的提高了故障定位与故障处理的效率。

Description

一种通信设备的故障检测方法
技术领域
本发明属于自动检测领域,尤其涉及一种通信设备的故障检测方法。
背景技术
随着计算机网路变化越来越快,为了促使网络管理变得更便捷,通信变得更顺利,使用成本更加经济,对于网络设备稳定性要求越来越高。但网络设备在运行的过程中都可能出现故障。目前常见的故障检测技术有,外部故障检测。利用网管软件通过SNMP 等协议来实现对监控设备的异常日志、CPU、内存、接口收发包等信息的收集,并将收集的信息定期的发给网管人员进行分析与处理。该方式基于外部软件来实现,通过调用系统的接口来获取相关信息,完全依赖于系统提供的日志记录、接口信息等功能。这种检测机制比较单一,只能检测比较简单的故障告警信息,网管人员收到告警信息后还需要进行问题协议层面的信息收集,无法对功能应用的运行态进行检测,且需要设备的网络通信功能正常情况下才能使用,而设备出现重大故障时,一般会导致系统不可用,此时该种检测方式就会失效。目前该方式属于本领域内技术人员惯用,但无法深入检测系统内部故障。内部故障检测。通过在程序中植入故障检测机制,在程序运行时生成相应的日志文件,定期定量的发送给网管进行处理,通过程序生成日志文件,由网管对日志文件进行故障分析来定位故障点,并进行故障的处理。该方式主要依赖于故障检测模块生成的日志信息,由于故障检测模块是系统程序的一部分,往往收集的信息不完整。若系统出现异常则无法进行故障监控,也就无法实现系统故障的检测以及故障恢复。
发明内容
本发明旨在解决上述问题,提供一种通信设备的故障检测方法。
本发明所述通信设备的故障检测方法,包括如下步骤:
步骤1:操作系统起机后自动加载故障检测模块,并完成故障检测所需环境变量的加载;
步骤2:用户在操作系统的控制台上执行tclsh后,用户在控制台上输入的命令参数,通过domain_socket消息管道,与各组件内部接口进行消息管道的建立;
步骤3:消息管道建立成功后,故障检测模块由主动模式转为静默模式;故障检测模块处于监听系统中组件的进程以及系统变量情况;
步骤4:故障检测模块同时监控多个组件,当故障检测模块收到故障消息时,触发故障检测信息收集模块生效,在不影响当前系统应用的前提下,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;
步骤5:完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。
本发明所述通信设备的故障检测方法,所述静默模式下,监控所有用户所有的操作都在Tclsh 的环境下完成。
本发明所述通信设备的故障检测方法,所述消息通道建立是由故障检测模块主动的完成消息管道的建立。
本发明所述通信设备的故障检测方法,所述故障检测模块同时监控多个组件的具体过程为:若没有发现故障时,系统则正常的运行;若当前CAPWAP 组件隧道异常中断,CAPWAP 组件通过内部的接口将中断的消息通过Socket,将消息打包后发到故障检测模块;当故障检测模块收到CAPWAP 组件的Socket 消息时,触发故障检测信息收集模块生效。
本发明所述通信设备的故障检测方法,所述报文收发情况包括对配置信息、DHCP表项、CAPWAP 隧道状态、以太网接口状态、底层CAPWAP 驱动信息,以及底层的报文收发情况。
本发明所述通信设备的故障检测方法,所述故障那个处理包括:若需要处理故障,当故障信息定位收集后,通过TCL 脚本对故障信息进行自动过滤,完成故障的定位;定位完成后,针对监控对象出现的故障问题进行动态变更;若不需要对故障进行动态变更,故障检测模块收集完故障信息后,直接返回给故障检测模块进行故障判断。
本发明所述通信设备的故障检测方法,在系统运行态的过程中完成,独立于原有系统,不需要对系统进行多余的配置和破坏,达到快速的定位、信息收集、故障处理的目标。实现更系统,更完整的故障信息收集,同时并发多个的故障组件的监控,无需借助网管软件,在系统故障时也仍然能够获取信息的信息,能够实现快速的故障的定位,提高了问题定位效率,可靠性更强,极大的提高了故障定位与故障处理的效率。
具体实施方式
下面通过实施例对本发明所述通信设备的故障检测方法进行详细说明。
本发明所述通信设备的故障检测方法,包括如下步骤:
步骤1:操作系统起机后自动加载故障检测模块,并完成故障检测所需环境变量的加载;
步骤2:用户在操作系统的控制台上执行tclsh后,用户在控制台上输入的命令参数,通过domain_socket消息管道,与各组件内部接口进行消息管道的建立;
步骤3:消息管道建立成功后,故障检测模块由主动模式转为静默模式;故障检测模块处于监听系统中组件的进程以及系统变量情况;
步骤4:故障检测模块同时监控多个组件,当故障检测模块收到故障消息时,触发故障检测信息收集模块生效,在不影响当前系统应用的前提下,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;
步骤5:完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。
本发明所述通信设备的故障检测方法,所述静默模式下,监控所有用户所有的操作都在Tclsh 的环境下完成。
本发明所述通信设备的故障检测方法,所述消息通道建立是由故障检测模块主动的完成消息管道的建立。
本发明所述通信设备的故障检测方法,所述故障检测模块同时监控多个组件的具体过程为:若没有发现故障时,系统则正常的运行;若当前CAPWAP 组件隧道异常中断,CAPWAP 组件通过内部的接口将中断的消息通过Socket,将消息打包后发到故障检测模块;当故障检测模块收到CAPWAP 组件的Socket 消息时,触发故障检测信息收集模块生效。
本发明所述通信设备的故障检测方法,所述报文收发情况包括对配置信息、DHCP表项、CAPWAP 隧道状态、以太网接口状态、底层CAPWAP 驱动信息,以及底层的报文收发情况。
本发明所述通信设备的故障检测方法,所述故障那个处理包括:若需要处理故障,当故障信息定位收集后,通过TCL 脚本对故障信息进行自动过滤,完成故障的定位;定位完成后,针对监控对象出现的故障问题进行动态变更;若不需要对故障进行动态变更,故障检测模块收集完故障信息后,直接返回给故障检测模块进行故障判断。
本发明所述通信设备的故障检测方法的故障检测流程,独立于原有系统,不需要对系统进行多余的配置和破坏。该系统实现对故障出现时系统进程的CPU、内存和系统变量等系统内部信息收集,完成组件功能面的协议层、底层的信息一键收集,从而达到快速的无线问题定位、信息收集、故障处理的目标。对比本领域常见的软件故障检测技术,实现更系统,更完整的故障信息收集,同时并发多个的故障组件的监控,无需借助外部的登录方式,即可完成故障检测和动态恢复。无需借助网管软件,在系统故障时也仍然能够获取信息的信息,能够实现快速的故障的定位,还可以考虑根据故障信息采取相应的故障恢复策略,提高了问题定位效率,可靠性更强,极大的提高了故障定位与故障处理的效率。

Claims (6)

1.一种通信设备的故障检测方法,其特征在于包括如下步骤:
步骤1:操作系统起机后自动加载故障检测模块,并完成故障检测所需环境变量的加载;
步骤2:用户在操作系统的控制台上执行tclsh后,用户在控制台上输入的命令参数,通过domain_socket消息管道,与各组件内部接口进行消息管道的建立;
步骤3:消息管道建立成功后,故障检测模块由主动模式转为静默模式;故障检测模块处于监听系统中组件的进程以及系统变量情况;
步骤4:故障检测模块同时监控多个组件,当故障检测模块收到故障消息时,触发故障检测信息收集模块生效,在不影响当前系统应用的前提下,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;
步骤5:完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。
2.根据权利要求1所述通信设备的故障检测方法,其特征在于:所述静默模式下,监控所有用户所有的操作都在Tclsh 的环境下完成。
3.根据权利要求2所述通信设备的故障检测方法,其特征在于:所述消息通道建立是由故障检测模块主动的完成消息管道的建立。
4.根据权利要求3所述通信设备的故障检测方法,其特征在于:所述故障检测模块同时监控多个组件的具体过程为:若没有发现故障时,系统则正常的运行;若当前CAPWAP 组件隧道异常中断,CAPWAP 组件通过内部的接口将中断的消息通过Socket,将消息打包后发到故障检测模块;当故障检测模块收到CAPWAP 组件的Socket 消息时,触发故障检测信息收集模块生效。
5.根据权利要求4所述通信设备的故障检测方法,其特征在于:所述报文收发情况包括对配置信息、DHCP 表项、CAPWAP 隧道状态、以太网接口状态、底层CAPWAP 驱动信息,以及底层的报文收发情况。
6.根据权利要求5所述通信设备的故障检测方法,其特征在于:所述故障那个处理包括:若需要处理故障,当故障信息定位收集后,通过TCL 脚本对故障信息进行自动过滤,完成故障的定位;定位完成后,针对监控对象出现的故障问题进行动态变更;若不需要对故障进行动态变更,故障检测模块收集完故障信息后,直接返回给故障检测模块进行故障判断。
CN201811577194.6A 2018-12-24 2018-12-24 一种通信设备的故障检测方法 Pending CN109450712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811577194.6A CN109450712A (zh) 2018-12-24 2018-12-24 一种通信设备的故障检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811577194.6A CN109450712A (zh) 2018-12-24 2018-12-24 一种通信设备的故障检测方法

Publications (1)

Publication Number Publication Date
CN109450712A true CN109450712A (zh) 2019-03-08

Family

ID=65535095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811577194.6A Pending CN109450712A (zh) 2018-12-24 2018-12-24 一种通信设备的故障检测方法

Country Status (1)

Country Link
CN (1) CN109450712A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597716A (zh) * 2019-08-29 2019-12-20 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597716A (zh) * 2019-08-29 2019-12-20 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法
CN110597716B (zh) * 2019-08-29 2023-06-30 云南昆钢电子信息科技有限公司 一种多业务触发的故障检测处理系统及方法

Similar Documents

Publication Publication Date Title
US7213179B2 (en) Automated and embedded software reliability measurement and classification in network elements
CN105323113B (zh) 一种基于可视化技术的系统故障应急处置方法
RU2471301C2 (ru) Функционирование сетевых субъектов в системе связи, содержащей сеть управления с уровнями агентов и управления
CN103607296A (zh) 一种虚拟机故障处理方法和设备
CN105165054A (zh) 网络服务故障处理方法,服务管理系统和系统管理模块
WO2016188100A1 (zh) 信息系统故障场景信息收集方法及系统
CN101404568A (zh) 双网卡热备冗余方法
CN103138988B (zh) 网络故障的定位处理方法及装置
CN112291075B (zh) 网络故障定位方法、装置、计算机设备及存储介质
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
WO2017193763A1 (zh) 一种检测方法、装置及系统
CN102143011B (zh) 一种实现网络保护的装置及方法
CN104283718A (zh) 网络设备及用于网络设备的硬件故障诊断方法
CN112003747A (zh) 云虚拟网关的故障定位方法
CN107528705B (zh) 故障处理方法及装置
JP2013206073A (ja) ネットワーク管理システム、ネットワーク管理方法、ネットワーク監視システム、及び、ネットワーク管理プログラム
CN112995042B (zh) 业务拓扑图的生成方法、装置、设备及存储介质
CN109450712A (zh) 一种通信设备的故障检测方法
JP6555721B2 (ja) 障害復旧システム及び方法
Gautam et al. A novel approach of fault management and restoration of network services in IoT cluster to ensure disaster readiness
CN113517994A (zh) 网络故障排除方法及系统
CN103248505B (zh) 基于视图的网络监控方法及装置
KR20200116784A (ko) 네트워크 오류 감지방법
JP4485344B2 (ja) サーバ装置、障害経路診断方法、および障害経路診断プログラム
Lee et al. Fault localization in NFV framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190308