CN109450712A - 一种通信设备的故障检测方法 - Google Patents
一种通信设备的故障检测方法 Download PDFInfo
- Publication number
- CN109450712A CN109450712A CN201811577194.6A CN201811577194A CN109450712A CN 109450712 A CN109450712 A CN 109450712A CN 201811577194 A CN201811577194 A CN 201811577194A CN 109450712 A CN109450712 A CN 109450712A
- Authority
- CN
- China
- Prior art keywords
- fault detection
- failure
- message
- fault
- detection module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0686—Additional information in the notification, e.g. enhancement of specific meta-data
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
一种通信设备的故障检测方法,属于自动检测领域,其特征在于:操作系统起机后自动加载故障检测模块;通过消息管道与各组件内部接口建立消息管道;故障检测模块处于监听系统中组件的进程以及系统变量情况;故障检测模块同时监控多个组件,触发故障检测信息收集模块生效,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。能够实现快速的故障的定位,提高了问题定位效率,可靠性更强,极大的提高了故障定位与故障处理的效率。
Description
技术领域
本发明属于自动检测领域,尤其涉及一种通信设备的故障检测方法。
背景技术
随着计算机网路变化越来越快,为了促使网络管理变得更便捷,通信变得更顺利,使用成本更加经济,对于网络设备稳定性要求越来越高。但网络设备在运行的过程中都可能出现故障。目前常见的故障检测技术有,外部故障检测。利用网管软件通过SNMP 等协议来实现对监控设备的异常日志、CPU、内存、接口收发包等信息的收集,并将收集的信息定期的发给网管人员进行分析与处理。该方式基于外部软件来实现,通过调用系统的接口来获取相关信息,完全依赖于系统提供的日志记录、接口信息等功能。这种检测机制比较单一,只能检测比较简单的故障告警信息,网管人员收到告警信息后还需要进行问题协议层面的信息收集,无法对功能应用的运行态进行检测,且需要设备的网络通信功能正常情况下才能使用,而设备出现重大故障时,一般会导致系统不可用,此时该种检测方式就会失效。目前该方式属于本领域内技术人员惯用,但无法深入检测系统内部故障。内部故障检测。通过在程序中植入故障检测机制,在程序运行时生成相应的日志文件,定期定量的发送给网管进行处理,通过程序生成日志文件,由网管对日志文件进行故障分析来定位故障点,并进行故障的处理。该方式主要依赖于故障检测模块生成的日志信息,由于故障检测模块是系统程序的一部分,往往收集的信息不完整。若系统出现异常则无法进行故障监控,也就无法实现系统故障的检测以及故障恢复。
发明内容
本发明旨在解决上述问题,提供一种通信设备的故障检测方法。
本发明所述通信设备的故障检测方法,包括如下步骤:
步骤1:操作系统起机后自动加载故障检测模块,并完成故障检测所需环境变量的加载;
步骤2:用户在操作系统的控制台上执行tclsh后,用户在控制台上输入的命令参数,通过domain_socket消息管道,与各组件内部接口进行消息管道的建立;
步骤3:消息管道建立成功后,故障检测模块由主动模式转为静默模式;故障检测模块处于监听系统中组件的进程以及系统变量情况;
步骤4:故障检测模块同时监控多个组件,当故障检测模块收到故障消息时,触发故障检测信息收集模块生效,在不影响当前系统应用的前提下,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;
步骤5:完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。
本发明所述通信设备的故障检测方法,所述静默模式下,监控所有用户所有的操作都在Tclsh 的环境下完成。
本发明所述通信设备的故障检测方法,所述消息通道建立是由故障检测模块主动的完成消息管道的建立。
本发明所述通信设备的故障检测方法,所述故障检测模块同时监控多个组件的具体过程为:若没有发现故障时,系统则正常的运行;若当前CAPWAP 组件隧道异常中断,CAPWAP 组件通过内部的接口将中断的消息通过Socket,将消息打包后发到故障检测模块;当故障检测模块收到CAPWAP 组件的Socket 消息时,触发故障检测信息收集模块生效。
本发明所述通信设备的故障检测方法,所述报文收发情况包括对配置信息、DHCP表项、CAPWAP 隧道状态、以太网接口状态、底层CAPWAP 驱动信息,以及底层的报文收发情况。
本发明所述通信设备的故障检测方法,所述故障那个处理包括:若需要处理故障,当故障信息定位收集后,通过TCL 脚本对故障信息进行自动过滤,完成故障的定位;定位完成后,针对监控对象出现的故障问题进行动态变更;若不需要对故障进行动态变更,故障检测模块收集完故障信息后,直接返回给故障检测模块进行故障判断。
本发明所述通信设备的故障检测方法,在系统运行态的过程中完成,独立于原有系统,不需要对系统进行多余的配置和破坏,达到快速的定位、信息收集、故障处理的目标。实现更系统,更完整的故障信息收集,同时并发多个的故障组件的监控,无需借助网管软件,在系统故障时也仍然能够获取信息的信息,能够实现快速的故障的定位,提高了问题定位效率,可靠性更强,极大的提高了故障定位与故障处理的效率。
具体实施方式
下面通过实施例对本发明所述通信设备的故障检测方法进行详细说明。
本发明所述通信设备的故障检测方法,包括如下步骤:
步骤1:操作系统起机后自动加载故障检测模块,并完成故障检测所需环境变量的加载;
步骤2:用户在操作系统的控制台上执行tclsh后,用户在控制台上输入的命令参数,通过domain_socket消息管道,与各组件内部接口进行消息管道的建立;
步骤3:消息管道建立成功后,故障检测模块由主动模式转为静默模式;故障检测模块处于监听系统中组件的进程以及系统变量情况;
步骤4:故障检测模块同时监控多个组件,当故障检测模块收到故障消息时,触发故障检测信息收集模块生效,在不影响当前系统应用的前提下,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;
步骤5:完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。
本发明所述通信设备的故障检测方法,所述静默模式下,监控所有用户所有的操作都在Tclsh 的环境下完成。
本发明所述通信设备的故障检测方法,所述消息通道建立是由故障检测模块主动的完成消息管道的建立。
本发明所述通信设备的故障检测方法,所述故障检测模块同时监控多个组件的具体过程为:若没有发现故障时,系统则正常的运行;若当前CAPWAP 组件隧道异常中断,CAPWAP 组件通过内部的接口将中断的消息通过Socket,将消息打包后发到故障检测模块;当故障检测模块收到CAPWAP 组件的Socket 消息时,触发故障检测信息收集模块生效。
本发明所述通信设备的故障检测方法,所述报文收发情况包括对配置信息、DHCP表项、CAPWAP 隧道状态、以太网接口状态、底层CAPWAP 驱动信息,以及底层的报文收发情况。
本发明所述通信设备的故障检测方法,所述故障那个处理包括:若需要处理故障,当故障信息定位收集后,通过TCL 脚本对故障信息进行自动过滤,完成故障的定位;定位完成后,针对监控对象出现的故障问题进行动态变更;若不需要对故障进行动态变更,故障检测模块收集完故障信息后,直接返回给故障检测模块进行故障判断。
本发明所述通信设备的故障检测方法的故障检测流程,独立于原有系统,不需要对系统进行多余的配置和破坏。该系统实现对故障出现时系统进程的CPU、内存和系统变量等系统内部信息收集,完成组件功能面的协议层、底层的信息一键收集,从而达到快速的无线问题定位、信息收集、故障处理的目标。对比本领域常见的软件故障检测技术,实现更系统,更完整的故障信息收集,同时并发多个的故障组件的监控,无需借助外部的登录方式,即可完成故障检测和动态恢复。无需借助网管软件,在系统故障时也仍然能够获取信息的信息,能够实现快速的故障的定位,还可以考虑根据故障信息采取相应的故障恢复策略,提高了问题定位效率,可靠性更强,极大的提高了故障定位与故障处理的效率。
Claims (6)
1.一种通信设备的故障检测方法,其特征在于包括如下步骤:
步骤1:操作系统起机后自动加载故障检测模块,并完成故障检测所需环境变量的加载;
步骤2:用户在操作系统的控制台上执行tclsh后,用户在控制台上输入的命令参数,通过domain_socket消息管道,与各组件内部接口进行消息管道的建立;
步骤3:消息管道建立成功后,故障检测模块由主动模式转为静默模式;故障检测模块处于监听系统中组件的进程以及系统变量情况;
步骤4:故障检测模块同时监控多个组件,当故障检测模块收到故障消息时,触发故障检测信息收集模块生效,在不影响当前系统应用的前提下,快速的收集系统相关的进程以及变量的信息,报文收发情况,整个流程遵循至上而下的顺序进行故障的定位收集;
步骤5:完成故障信息收集后,故障判断模块根据预期用户定义的操作,设置是否对故障行为进行动态的变更,也即对故障进行处理,完成故障检测。
2.根据权利要求1所述通信设备的故障检测方法,其特征在于:所述静默模式下,监控所有用户所有的操作都在Tclsh 的环境下完成。
3.根据权利要求2所述通信设备的故障检测方法,其特征在于:所述消息通道建立是由故障检测模块主动的完成消息管道的建立。
4.根据权利要求3所述通信设备的故障检测方法,其特征在于:所述故障检测模块同时监控多个组件的具体过程为:若没有发现故障时,系统则正常的运行;若当前CAPWAP 组件隧道异常中断,CAPWAP 组件通过内部的接口将中断的消息通过Socket,将消息打包后发到故障检测模块;当故障检测模块收到CAPWAP 组件的Socket 消息时,触发故障检测信息收集模块生效。
5.根据权利要求4所述通信设备的故障检测方法,其特征在于:所述报文收发情况包括对配置信息、DHCP 表项、CAPWAP 隧道状态、以太网接口状态、底层CAPWAP 驱动信息,以及底层的报文收发情况。
6.根据权利要求5所述通信设备的故障检测方法,其特征在于:所述故障那个处理包括:若需要处理故障,当故障信息定位收集后,通过TCL 脚本对故障信息进行自动过滤,完成故障的定位;定位完成后,针对监控对象出现的故障问题进行动态变更;若不需要对故障进行动态变更,故障检测模块收集完故障信息后,直接返回给故障检测模块进行故障判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577194.6A CN109450712A (zh) | 2018-12-24 | 2018-12-24 | 一种通信设备的故障检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811577194.6A CN109450712A (zh) | 2018-12-24 | 2018-12-24 | 一种通信设备的故障检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109450712A true CN109450712A (zh) | 2019-03-08 |
Family
ID=65535095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811577194.6A Pending CN109450712A (zh) | 2018-12-24 | 2018-12-24 | 一种通信设备的故障检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109450712A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597716A (zh) * | 2019-08-29 | 2019-12-20 | 云南昆钢电子信息科技有限公司 | 一种多业务触发的故障检测处理系统及方法 |
-
2018
- 2018-12-24 CN CN201811577194.6A patent/CN109450712A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597716A (zh) * | 2019-08-29 | 2019-12-20 | 云南昆钢电子信息科技有限公司 | 一种多业务触发的故障检测处理系统及方法 |
CN110597716B (zh) * | 2019-08-29 | 2023-06-30 | 云南昆钢电子信息科技有限公司 | 一种多业务触发的故障检测处理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7213179B2 (en) | Automated and embedded software reliability measurement and classification in network elements | |
CN105323113B (zh) | 一种基于可视化技术的系统故障应急处置方法 | |
RU2471301C2 (ru) | Функционирование сетевых субъектов в системе связи, содержащей сеть управления с уровнями агентов и управления | |
CN103607296A (zh) | 一种虚拟机故障处理方法和设备 | |
CN105165054A (zh) | 网络服务故障处理方法,服务管理系统和系统管理模块 | |
WO2016188100A1 (zh) | 信息系统故障场景信息收集方法及系统 | |
CN101404568A (zh) | 双网卡热备冗余方法 | |
CN103138988B (zh) | 网络故障的定位处理方法及装置 | |
CN112291075B (zh) | 网络故障定位方法、装置、计算机设备及存储介质 | |
JP2013130901A (ja) | 監視サーバおよびそれを用いたネットワーク機器復旧システム | |
WO2017193763A1 (zh) | 一种检测方法、装置及系统 | |
CN102143011B (zh) | 一种实现网络保护的装置及方法 | |
CN104283718A (zh) | 网络设备及用于网络设备的硬件故障诊断方法 | |
CN112003747A (zh) | 云虚拟网关的故障定位方法 | |
CN107528705B (zh) | 故障处理方法及装置 | |
JP2013206073A (ja) | ネットワーク管理システム、ネットワーク管理方法、ネットワーク監視システム、及び、ネットワーク管理プログラム | |
CN112995042B (zh) | 业务拓扑图的生成方法、装置、设备及存储介质 | |
CN109450712A (zh) | 一种通信设备的故障检测方法 | |
JP6555721B2 (ja) | 障害復旧システム及び方法 | |
Gautam et al. | A novel approach of fault management and restoration of network services in IoT cluster to ensure disaster readiness | |
CN113517994A (zh) | 网络故障排除方法及系统 | |
CN103248505B (zh) | 基于视图的网络监控方法及装置 | |
KR20200116784A (ko) | 네트워크 오류 감지방법 | |
JP4485344B2 (ja) | サーバ装置、障害経路診断方法、および障害経路診断プログラム | |
Lee et al. | Fault localization in NFV framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190308 |