CN103188113A - 一种通信设备的故障处理方法 - Google Patents

一种通信设备的故障处理方法 Download PDF

Info

Publication number
CN103188113A
CN103188113A CN2011104486655A CN201110448665A CN103188113A CN 103188113 A CN103188113 A CN 103188113A CN 2011104486655 A CN2011104486655 A CN 2011104486655A CN 201110448665 A CN201110448665 A CN 201110448665A CN 103188113 A CN103188113 A CN 103188113A
Authority
CN
China
Prior art keywords
fault
dsp
self
healing
unusual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011104486655A
Other languages
English (en)
Inventor
闫锐
曾奇志
阮茜
陈岚
刘刚
陈昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TD Tech Ltd
Original Assignee
TD Tech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TD Tech Ltd filed Critical TD Tech Ltd
Priority to CN2011104486655A priority Critical patent/CN103188113A/zh
Publication of CN103188113A publication Critical patent/CN103188113A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本发明提供了一种通信设备的故障处理方法,包括:检测到异常后进行故障的初步判断;若初步判断出现故障,则综合多个器件的状态对检测到的所述异常进行综合判决,确定故障类型和/或故障器件。通过本发明,能够提高故障检测的准确性。

Description

一种通信设备的故障处理方法
技术领域
本发明涉及故障处理技术,特别涉及一种通信设备的故障处理方法。
背景技术
现有的通信设备的故障处理框架如图1所示,具体包括:
1、检测到通信设备的异常;
2、将异常情况记录到故障日志中;
3、将故障上报给系统;
4、系统进行故障隔离;
5、将故障形成告警上报给用户。
在上述故障处理框架中,检测到异常后直接上报给用户,容易导致告警闪断或者告警不准确,不利于用户参照告警排障;故障上报后通常会做必要的故障隔离但缺乏自动的故障自愈处理,需要用户干预才能修复故障,故障修复不及时。
发明内容
本发明提供了一种通信设备的故障处理方法,能够提高故障判断的准确性。
为实现上述目的,本发明采用如下的技术方案:
一种通信设备的故障处理方法,包括:
检测到异常后进行故障的初步判断;
若初步判断出现故障,则综合多个器件的状态对检测到的所述异常进行综合判决,确定故障类型和/或故障器件。
较佳地,所述进行故障的初步判断为:若在预设周期内,所述异常检测到N次,则初步判断出现故障;所述N为预设的故障判定次数。
较佳地,对于一个公共器件与多个独立器件分别相连的硬件架构,所述综合判决为:若参与检测的所有独立器件均检测到相同的异常,确定所述公共器件出现故障,并确定故障类型;若参与检测的多个独立器件中仅部分独立器件检测到异常,确定检测出异常的独立器件出现故障,并确定故障类型。
较佳地,所述硬件架构为一个CPU和多个DSP相连,当其中任一DSP初步判断故障时,若其他参与本轮心跳检测的DSP最近一次心跳检测失败,则综合判决确定CPU出现故障;若其他参与本轮心跳检测的DSP未出现心跳检测失败,则综合判决确定所述任一DSP出现故障。
较佳地,所述硬件架构为一个FPGA和多个DSP相连,进行FGPA和DSP间数据通路的检测,当其中任一DSP检测出与所述FGPA的数据通路故障时,若其他参与本轮数据通路检测的DSP均出现数据通路故障,则综合判决确定SRIO Switch异常或FPGA的SRIO CORE异常;若其他参与本轮数据通路检测的DSP未出现数据通路故障,则综合判决确定FGGA所述任一DSP的SRIO异常。
较佳地,在进行所述综合判决后,该方法进一步包括:根据故障类型和/或故障器件触发执行预设的自愈操作,若故障恢复,则向用户上报自愈事件,不向用户上报告警。
较佳地,为所述自愈操作设定最大执行次数,若自愈操作执行的次数达到设定的所述最大执行次数,故障仍然未恢复,则停止自愈操作,并隔离故障,向用户上报告警。
较佳地,在包含DSP的通信设备中,当综合判决结果为DSP故障时,所述自愈操作为DSP复位。
较佳地,所述自愈处理为:信令处理模块触发不同单板间以及单板内部不同处理器模块间的资源核查,强制资源对齐。
由上述技术方案可见,本发明中,检测到异常后进行故障的初步判断;若初步判断出现故障,则综合多个器件的状态对检测到的所述异常进行综合判决,确定故障类型和/或故障器件。通过上述处理,一方面通过预设周期内多次异常检测的累积进行故障的初步判断,避免故障闪断和防止误报;另一方面综合多个器件综合判决具体的故障类型和/或故障器件,能够准确定位故障,提高故障判断的准确性。
同时,进一步地,还可以根据故障类型和/或故障器件触发执行预设的自愈操作,从而快速从故障状态恢复。
附图说明
图1为现有故障处理架构示意图;
图2为本发明中故障处理架构示意图;
图3a和图3b为FPGA和多个DSP之间的数据通路监测示意图。
具体实施方式
为使本发明的目的、技术手段和优点更加清楚明白,以下结合附图对本发明做进一步详细说明。
本发明中,引入故障初判和故障终判环节,跨器件甚至跨单板综合判定具体故障;进一步地,引入故障自愈操作,若自愈成功故障恢复,则不再向用户告警,仅上报自愈事件。
具体地,本发明中的故障处理架构如图2所示,其中,阴影部分的处理是相对于图1所示的架构增加的部分。
接下来,对该故障处理过程进行详细描述,如图2所示,本发明中的故障处理方法包括:
步骤201,异常检测。
对于不同的硬件系统,存在不同的异常检测方式。该步骤的处理与现有相同,这里就不再赘述。当出现异常后,进入步骤202。
步骤202,对检测出的异常进行故障的初步判断,即故障预判。
异常发生后,为了防止误报以及故障闪断问题的出现引入故障预判环节,故障预判的职责是确定特定故障的上报检测周期以及平滑策略,例如连续多次或者一段时间内累计多次异常,则确定出现故障。具体地,可以预设故障判断次数N,当在预设周期内相同的异常检测到N次,则初步判断出现故障。
举个例子,对于部署有CPU和多块DSP的单板,通常需要支持CPU和全部DSP的通信心跳握手检测。如果CPU发送给DSP的握手消息在预定时间内不能收到响应消息,认为出现了DSP心跳检测失败的异常;故障预判可以定义为:当某个DSP连续三次异常时,认定为一次DSP心跳检测故障。
一次CPU和DSP的之间的心跳丢失异常可能是因为DSP的实时操作系统正在处理高优先级任务导致低优先级心跳任务得不到及时调度,并非系统确实已经处于故障态,通过上述故障预判的定义,在一定时间内检测到多次异常才会判断为出现故障,从而使故障预判的引入有效防止了故障的误报。
步骤203,综合多个器件的检测结果进行故障终判。
异常通过预判后还需要进一步实施综合判决,确保问题定位的准确性,故障终判实现跨器件甚至跨板的故障联合判决,生成的故障可能和预判故障不同,一般生成的故障比预判故障更加准确。
为进行故障终判,需要根据实际的设备硬件结构,确定综合判决时需要分析的各个器件及其状态,预设各种不同状态所对应的具体故障。在实际进行故障终判时,根据检测到的异常,分析相关器件及其状态,根据预设的状态所对应的故障进行故障终判,确定故障类型和/或故障器件。
在通信设备中,很多系统或单板都存在如下结构:一个公共器件与多个独立器件分别连接,需要检测该公共器件分别与各个独立器件间的通信连接是否正常。在这类硬件结构中,进行故障终判时,若参与检测的所有独立器件均检测到相同的异常,确定该公共器件出现故障,并确定故障类型;若参与检测的多个独立器件中仅部分独立器件检测到异常,确定检测出异常的独立器件出现故障,并确定故障类型。
例如,在上述部署有CPU和多块DSP单板的例子中,故障终判定义为:当故障预判确定虚拟DSP出现故障时,检查其他参与本轮检测的虚拟DSP,如果此时其它参与本轮检测的虚拟DSP最近1次心跳检测全部失败,则判定为CPU故障;否则,对于故障预判结果为出现故障的DSP,综合判决该DSP出现故障。
一个DSP和CPU之间的心跳故障通常是DSP软件异常导致;通常出现多次心跳检测异常后,故障预判就会判决DSP出现故障;而事实上,也可能是CPU出现故障,通过上述故障终判的引入,在综合分析多个DSP与CPU间的心跳检测结果后,当所有参与检测的DSP与CPU间心跳检测都失败时,就能够确定确切的故障点应该是CPU而不是DSP,因此引入故障终判可以提高故障的准确性。
再举一个例子,对于如图3a和图3b所示的需要监控FPGA和多个DSP之间的数据通路的场景,DSP和FPGA的通路异常可能有两种原因:DSPSRIO异常,此时影响相关DSP与FPGA的SRIO通信;SRIO Switch异常或FPGA的SRIO CORE异常,此时全部DSP和FPGA的数据通路都异常。当某DSP1与FPGA间的通路出现故障时,可以在该轮检测中进一步检查其他DSP与FPGA之间的通路,若参与检测的所有DSP与FPGA的通路均出现故障,则故障终判结果为SRIO Switch异常或FPGA的SRIO CORE异常;否则,故障终判结果为DSP1SRIO出现故障。显然,引入多个DSP SRIO的终判可以有效区分这两种故障场景。
步骤204,将故障终判结果记录到故障日志中。
步骤205,判断是否定义故障自愈操作,若是,执行步骤206进行故障自愈,否则,执行步骤208进行故障上报。
步骤206,根据故障终判结果触发执行预设的自愈操作,若自愈成功,则执行步骤207,否则,执行步骤208。
为了恢复故障系统自动执行的操作定义为“自愈”,故障处理架构引入自愈处理后,对于自愈成功的故障不上报告警给用户,但需要发送自愈成功事件用于通知用户系统执行了自愈操作;对于有限次自愈操作后仍旧不能恢复的故障需要上报告警。为了防止多次自愈处理影响系统的正常工作,自愈次数在一定时间内设置次数上限,如果达到此上限不再进行自愈动作。
根据各类不同的故障以及出现故障的器件,可以预先定义相应的故障自愈操作,在故障终判出现某故障后,即触发执行相应的故障自愈操作。
对于上述部署有CPU和多块DSP单板的例子,如果没有自愈处理,检测到DSP故障时的处理措施是设置DSP的操作态不可用,此处理可以达到DSP故障隔离的目的,但是直到用户干预,故障DSP都不再能够提供服务。自愈加入后,这种场景软件可以自动触发自愈处理,即自动复位DSP,对于软件运行异常复位通常可以解决问题而无需用户干预。由此可见,有效的自愈可以缩短业务中断时间,提高客户满意度。
进一步的,有时即使执行自愈操作,也不一定能够恢复故障,这种情况下,为避免不断触发自愈操作对系统造成的不利影响,优选地,可以为自愈操作设定最大执行次数,若自愈操作执行的次数达到设定的最大执行次数,故障仍然未恢复,则停止自愈操作,并隔离故障,向用户上报告警。
例如,上述部署有CPU和多块DSP单板的例子中,如果在24小时范围内同一DSP已经执行3次自愈但是问题依旧不能解决(如DSP自身硬件问题),则不再触发自动自愈,上报告警给用户,避免不断触发复位对CPU的冲击。
再举一个例子,当检测发现如下故障时:不同软件模块对同一资源的状态管理不一致,可以进行如下的自愈操作:
信令处理模块会周期性触发板间以及板内不同处理器模块之间的资源核查,包括但不限于无线资源、传输资源、功率配置、载波数量以及时隙切换点。如果没有自愈处理,检测到不一致只能上报告警给用户,实现自动强制资源对齐的自愈操作后,通常系统可以继续正常工作,自愈完成后上报自愈事件给用户。减少了告警的同时还避免了可能的业务中断。
步骤207,向用户上报故障自愈事件。
通过自愈操作恢复故障后,将执行的自愈操作事件上报给用户,并结束本次故障处理流程。
步骤208,向用户上报故障终判结果。
步骤209,进行故障后处理。
步骤210,向用户上报告警信息。
步骤208-210的处理与现有故障处理流程中的相应处理相同,这里就不再赘述。
至此,本发明中的故障处理流程结束。由上述本发明的具体实现可见,本发明中,通过故障预判的引入,有效避免故障误报及故障闪断问题;通过故障终判的引入,准确定位故障,为进行故障处理打下良好基础;通过故障自愈的引入,使系统尽快从故障态恢复,保证系统正常工作,减少告警。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种通信设备的故障处理方法,其特征在于,该方法包括:
检测到异常后进行故障的初步判断;
若初步判断出现故障,则综合多个器件的状态对检测到的所述异常进行综合判决,确定故障类型和/或故障器件。
2.根据权利要求1所述的方法,其特征在于,所述进行故障的初步判断为:若在预设周期内,所述异常检测到N次,则初步判断出现故障;所述N为预设的故障判定次数。
3.根据权利要求1所述的方法,其特征在于,对于一个公共器件与多个独立器件分别相连的硬件架构,所述综合判决为:若参与检测的所有独立器件均检测到相同的异常,确定所述公共器件出现故障,并确定故障类型;若参与检测的多个独立器件中仅部分独立器件检测到异常,确定检测出异常的独立器件出现故障,并确定故障类型。
4.根据权利要求3所述的方法,其特征在于,所述硬件架构为一个CPU和多个DSP相连,当其中任一DSP初步判断故障时,若其他参与本轮心跳检测的DSP最近一次心跳检测失败,则综合判决确定CPU出现故障;若其他参与本轮心跳检测的DSP未出现心跳检测失败,则综合判决确定所述任一DSP出现故障。
5.根据权利要求3所述的方法,其特征在于,所述硬件架构为一个FPGA和多个DSP相连,进行FGPA和DSP间数据通路的检测,当其中任一DSP检测出与所述FGPA的数据通路故障时,若其他参与本轮数据通路检测的DSP均出现数据通路故障,则综合判决确定SRIO Switch异常或FPGA的SRIO CORE异常;若其他参与本轮数据通路检测的DSP未出现数据通路故障,则综合判决确定FGGA所述任一DSP的SRIO异常。
6.根据权利要求1所述的方法,其特征在于,在进行所述综合判决后,该方法进一步包括:根据故障类型和/或故障器件触发执行预设的自愈操作,若故障恢复,则向用户上报自愈事件,不向用户上报告警。
7.根据权利要求6所述的方法,其特征在于,为所述自愈操作设定最大执行次数,若自愈操作执行的次数达到设定的所述最大执行次数,故障仍然未恢复,则停止自愈操作,并隔离故障,向用户上报告警。
8.根据权利要求6或7所述的方法,其特征在于,在包含DSP的通信设备中,当综合判决结果为DSP故障时,所述自愈操作为DSP复位。
9.根据权利要求6或7所述的方法,其特征在于,所述自愈处理为:信令处理模块触发不同单板间以及单板内部不同处理器模块间的资源核查,强制资源对齐。
CN2011104486655A 2011-12-28 2011-12-28 一种通信设备的故障处理方法 Pending CN103188113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104486655A CN103188113A (zh) 2011-12-28 2011-12-28 一种通信设备的故障处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104486655A CN103188113A (zh) 2011-12-28 2011-12-28 一种通信设备的故障处理方法

Publications (1)

Publication Number Publication Date
CN103188113A true CN103188113A (zh) 2013-07-03

Family

ID=48679085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104486655A Pending CN103188113A (zh) 2011-12-28 2011-12-28 一种通信设备的故障处理方法

Country Status (1)

Country Link
CN (1) CN103188113A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745751A (zh) * 2013-12-23 2014-04-23 华为技术有限公司 一种故障告警方法与装置
CN105741442A (zh) * 2015-08-05 2016-07-06 深圳怡化电脑股份有限公司 一种自助交易设备的部件故障处理方法和装置
CN106845653A (zh) * 2017-01-22 2017-06-13 移康智能科技(上海)股份有限公司 一种租赁单车的故障检测方法与单车租赁系统服务器
CN107222256A (zh) * 2017-06-30 2017-09-29 中国航空工业集团公司雷华电子技术研究所 一种基于fpga的srio光纤链路在线重链接的实现方法
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及系统
CN109284215A (zh) * 2018-09-20 2019-01-29 郑州云海信息技术有限公司 一种数据中心的监控平台的告警方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992917A (zh) * 2005-12-27 2007-07-04 中兴通讯股份有限公司 一种数字电路交换设备排障方法
WO2011104848A1 (ja) * 2010-02-25 2011-09-01 三菱電機株式会社 電力変換装置
CN102288878A (zh) * 2011-09-13 2011-12-21 北京水木源华电气有限公司 架空配电线路故障监测系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1992917A (zh) * 2005-12-27 2007-07-04 中兴通讯股份有限公司 一种数字电路交换设备排障方法
WO2011104848A1 (ja) * 2010-02-25 2011-09-01 三菱電機株式会社 電力変換装置
CN102288878A (zh) * 2011-09-13 2011-12-21 北京水木源华电气有限公司 架空配电线路故障监测系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745751A (zh) * 2013-12-23 2014-04-23 华为技术有限公司 一种故障告警方法与装置
CN103745751B (zh) * 2013-12-23 2017-01-18 华为技术有限公司 一种故障告警方法与装置
CN105741442A (zh) * 2015-08-05 2016-07-06 深圳怡化电脑股份有限公司 一种自助交易设备的部件故障处理方法和装置
CN106845653A (zh) * 2017-01-22 2017-06-13 移康智能科技(上海)股份有限公司 一种租赁单车的故障检测方法与单车租赁系统服务器
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及系统
CN107222256A (zh) * 2017-06-30 2017-09-29 中国航空工业集团公司雷华电子技术研究所 一种基于fpga的srio光纤链路在线重链接的实现方法
CN107222256B (zh) * 2017-06-30 2019-12-17 中国航空工业集团公司雷华电子技术研究所 一种基于fpga的srio光纤链路在线重链接的实现方法
CN109284215A (zh) * 2018-09-20 2019-01-29 郑州云海信息技术有限公司 一种数据中心的监控平台的告警方法和装置

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN103188113A (zh) 一种通信设备的故障处理方法
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN105187249B (zh) 一种故障恢复方法及装置
CN110430071A (zh) 业务节点故障自愈方法、装置、计算机设备及存储介质
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
EP2882136A2 (en) Method and system for implementing remote disaster recovery switching of service delivery platform
CN101800675A (zh) 故障监控方法、监控设备及通信系统
CN104283718B (zh) 网络设备及用于网络设备的硬件故障诊断方法
CN104079454A (zh) 一种设备异常检测方法和设备
CN104104542B (zh) 一种基于rs485的实时智能排障方法
CN103810076A (zh) 数据复制的监控方法及装置
US20090222687A1 (en) Method and system for telecommunication apparatus fast fault notification
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
CN107688547A (zh) 一种控制器主备切换的方法及系统
CN105426263A (zh) 一种实现金库系统安全运行的方法及系统
CN103870349B (zh) 用于数据处理系统的配置管理装置及方法
CN110198224A (zh) 一种报警处理方法、装置及系统
CN114118991A (zh) 第三方系统监控系统、方法、装置、设备及存储介质
CN113407391A (zh) 故障处理的方法、计算机系统、基板管理控制器和系统
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN108563530A (zh) 看门狗及其实现方法
CN101820317A (zh) 实现保护组保护倒换的方法及系统
CN101964731B (zh) 一种数据链路监测方法及装置
CN105224426A (zh) 物理主机故障检测方法、装置及虚机管理方法、系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130703