CN101296135A - 故障信息的处理方法和装置 - Google Patents

故障信息的处理方法和装置 Download PDF

Info

Publication number
CN101296135A
CN101296135A CNA2008101275720A CN200810127572A CN101296135A CN 101296135 A CN101296135 A CN 101296135A CN A2008101275720 A CNA2008101275720 A CN A2008101275720A CN 200810127572 A CN200810127572 A CN 200810127572A CN 101296135 A CN101296135 A CN 101296135A
Authority
CN
China
Prior art keywords
fault
module
server
fault message
fault information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101275720A
Other languages
English (en)
Inventor
李新双
王延松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CNA2008101275720A priority Critical patent/CN101296135A/zh
Publication of CN101296135A publication Critical patent/CN101296135A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种故障信息的处理方法和装置,其中,上述方法包括:定时检测设备是否发生故障,在检测到设备发生故障的情况下,收集并保存故障信息;将保存的故障信息上报给服务器。上述装置包括:检测模块,用于定时检测设备是否发生故障;收集模块,用于在检测模块检测到设备发生故障的情况下,收集故障信息;保存模块,用于保存收集模块收集的故障信息;上报模块,用于将保存模块保存的故障信息上报给服务器。本发明实现了远程及时获取故障信息。

Description

故障信息的处理方法和装置
技术领域
本发明涉及通信领域,具体而言,涉及一种故障信息的处理方法和装置。
背景技术
随着因特网的高速发展,运行在因特网上的业务越来越丰富,承载这些业务的网络设备系统也越来越复杂。在实际的应用中,难免会出现设备异常或瘫痪等故障情况。当设备出现严重故障时,网络运营商的维护人员将会尽快恢复业务,然而,会忽视故障的排查。
例如,设备提供商A公司在B公司有一台设备,该设备由于在收到一些特殊报文的时候会导致某进程死循环,以至于CPU连续100%的工作,影响了业务的正常运行。当发生故障时,B公司的维护人员在收到使用该设备的用户上报故障之后,为了尽快消除故障,对该设备进行了手工复位;虽然在手工复位之后,业务恢复正常,但是,对于A公司的技术人员来说,从现场能够获得的信息只有用户业务异常,系统内部与故障相关的有用信息基本上无法获取。
从上述的例子可以看出,设备提供商的维护人员(或开发人员)定位故障的难度增大,不能够远程及时获取故障信息。
发明内容
本发明旨在提供一种故障信息的处理方法和装置,以解决设备提供商的维护人员(或开发人员)定位故障的难度增大,不能够远程及时获取故障信息的问题。
根据本发明的一个方面,提供了一种故障信息的处理方法。
根据本发明实施例的故障信息的处理方法包括:定时检测设备是否发生故障,在检测到设备发生故障的情况下,收集并保存故障信息;将保存的故障信息上报给服务器。
优选地,上述方法进一步包括:在设备启动时,判断是否有已经保存但未上报的故障信息;在判断结果为是的情况下,将已经保存但未上报的故障信息上报给服务器。
优选地,将故障信息上报给服务器具体为:在设备能够与服务器通信时,将故障信息上报给服务器。具体地,在保存故障相关信息后,尝试将故障信息上报给服务器,在上报失败的情况下,进行故障恢复操作,并在完成故障恢复后再次尝试将故障信息上报给服务器。
优选地,保存故障信息具体包括:将故障信息保存到文件中;将文件保存到非易失性介质中。
优选地,在将故障信息上报给服务器时,采用面向连接的方式进行上报。
优选地,上述方法还包括:预先设置优先级高于业务进程的故障处理进程,并通过故障处理进程实现故障检测、故障信息的收集及上报。
根据本发明的另一方面,提供了一种故障信息的处理装置。
根据本发明实施例的故障信息的处理装置包括:检测模块,用于定时检测设备是否发生故障;收集模块,用于在检测模块检测到设备发生故障的情况下,收集故障信息;保存模块,用于保存收集模块收集的故障信息;上报模块,用于将保存模块保存的故障信息上报给服务器。
优选地,上述装置进一步包括:判断模块,用于判断是否有已经保存但未上报的故障信息;恢复模块,用于进行故障恢复操作。
优选地,上述装置进一步包括:设置模块,用于预先设置优先级高于业务进程的故障处理进程。
以上实施例通过收集、保存、并上报故障信息的方法,克服了设备提供商的维护人员(或开发人员)定位故障的难度增大,不能够远程及时获取故障信息的问题,进而实现了远程及时获取故障信息。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是用于实施本发明实施例的设备与服务器之间的关系的示意图;
图2是根据本发明实施例的故障信息的收集方法的流程图;
图3是根据本发明实施例的故障信息的收集方法的详细流程图;
图4是根据本发明实施例的故障信息的收集装置的方框图。
具体实施方式
图1是用于实施本发明实施例的设备与服务器之间的关系的示意图,如图1所示,服务器(即,后台服务器)与网络节点设备(即,网络设备)之间通过网络(Internet)相连,在设备发生故障恢复之后,网络节点设备自身的信息收集进程通过互联网把有用的故障信息及时发送到后方服务器,后方服务器可以在第一时间为维护人员或者开发人员提供查看故障可能的信息。下面将参考附图并结合实施例,来详细说明本发明。
方法实施例
根据本发明的实施例,提供了一种故障信息的收集方法。
图2是根据本发明实施例的故障信息的收集方法的流程图,如图2所示,预先设置优先级高于业务进程的故障处理进程,并通过故障处理进程实现故障检测、故障信息的收集及上报,该方法具体包括:
步骤S202,定时检测设备是否发生故障,在检测到设备发生故障的情况下,收集并保存故障信息;保存故障信息的操作具体包括:将故障信息保存到文件中;将文件保存到非易失性介质中;
步骤S204,将保存的故障信息上报给服务器;在设备启动时,判断是否有已经保存但未上报的故障信息;在判断结果为是的情况下,将已经保存但未上报的故障信息上报给服务器;优选地,在将故障信息上报给服务器时,采用面向连接的方式进行上报。
其中,步骤S204具体为:在设备能够与服务器通信时,将故障信息上报给服务器。具体地,在保存故障相关信息后,尝试将故障信息上报给服务器,在上报失败的情况下,进行故障恢复操作,并在完成故障恢复后再次尝试将故障信息上报给服务器。
下面结合实例对本发明进行详细描述。图3是根据本发明实施例的远程故障信息的收集方法的详细流程图,如图3所示,该方法包括:
步骤S302,系统(或网络设备)成功启动,并进入工作状态;系统将自动创建一个优先级较高的故障收集进程,如上所述,一般情况下,该进程的优先级至少高于业务进程,由该进程负责故障信息收集工作;
具体地,当前运营商网络中的在网设备R(即,上述网络设备)与设备提供商的服务器S(即,后台服务器)通过互联网相连,创建sysctl进程,该进程的优先级必须高于protocol进程;
步骤S304,该进程首先检查故障信息收集列表(该列表设置在上述故障收集进程中)中是否有未发送出去的故障信息,在判断结果为是的情况下,进行到步骤S306,在判断结果为否的情况下,进行到步骤S310;
步骤S306,进一步判断系统是否可以发送信息到服务器,即,根据网络情况决定是否发送信息;在判断结果为是的情况下,进行到步骤S308;
步骤S308,发送故障信息,并标记该故障信息为已经发送状态;
重复进行步骤S304-步骤S308,直到把信息全部发送到服务器;
步骤S310,在发送完成信息后,该进程将进入定时监测系统故障阶段,当检测到系统发生故障时,进行步骤S312;
具体地,当设备R由于收到异常报文,导致R设备主业务进程(例如,protocol进程)挂起,即,该主业务进程不能执行,这时,在R设备系统中的sysctl进程(即,自检进程)检测到protocol进程已经挂起,则sysctl进程进入信息收集流程,即,进行到步骤S312;
步骤S312,该进程将立即启动收集功能,把收集预先设计好的需要收集的信息;
具体地,sysctl进程首先将当前操作系统的各个进程的运行现场保留下来(例如:进程函数栈、函数参数、当前系统CPU的占有情况、当前系统内存的使用情况等),把正在运行的进程的函数参数所指的内存区域信息保留下来,然后,再将底层硬件的相关寄存器状态信息收集下来(即,根据不同的底层芯片,收集不同的芯片状态寄存器、配置寄存器等),还可以收集软件系统自己定义的各类统计计数;
步骤S314,将所收集的信息全部保存到一个文件中,并将此文件保存到非易失性介质中;即,待所有上述信息收集全面后,将上述信息全部保存到非易失性介质中(例如,flash、硬盘、CF卡等);
步骤S316,该进程将尝试将收集到的信息发送到后方服务器去,需要说明的是,信息发送必须是可靠的(优选采用面向连接的方式发送信息);即,进一步判断系统是否可以发送信息到服务器,在判断结果为是的情况下,进行步骤S308,在判断结果为否的情况下,进行到步骤S318;
具体地,sysctl进程再通过network进程(即,负责网络通讯的进程)尝试发送信息;
步骤S318,该进程尝试自动恢复故障,若成功恢复故障,则发送上述收集到的信息;若未成功恢复,则复位相关器件(例如,复位单板、机架等)使得系统重新进入工作状态,重新回到系统启动阶段,循环上述流程。
具体地,在network进程无法发送的情况下,sysctl进程将复位系统,在系统重新启动并运行到work状态后,sysctl进程从非易失性介质中把前期保存的信息读出,通过network进程将这些信息发送给后方服务器S。后方开发人员通过查看服务器S上的信息可以轻松地得到进程挂起的信息,在通过挂起的位置和挂起函数参数的值即可进行故障复现和定位。
通过上述本发明的实施例,当系统发生故障时,系统自动收集故障信息,并尝试将其发送给后方服务器,可以解决在现网应用过程中经常遇到的因现场操作人员急于恢复故障对设备进行断电等操作而无法获取故障信息的问题,可以为网络设备提供商节省大量的相关费用,做到快速定位故障。
装置实施例
根据本发明的实施例,提供了一种故障信息的收集装置。
图4是根据本发明实施例的故障信息的收集装置的方框图,如图4所示,该装置包括:
检测模块42,用于定时检测设备是否发生故障;
收集模块44,连接至检测模块42,用于在检测模块检测到设备发生故障的情况下,收集故障信息;
保存模块46,连接至收集模块44,用于保存收集模块收集的故障信息;
上报模块48,连接至保存模块46,用于将保存模块保存的故障信息上报给服务器。
优选地,上述装置进一步包括:判断模块,用于判断是否有已经保存但未上报的故障信息;恢复模块,用于进行故障恢复操作;设置模块,用于预先设置优先级高于业务进程的故障处理进程。
具体地,设置模块,用于预先设置优先级高于业务进程的故障处理进程;检测模块42定时检测设备是否发生故障,在检测模块42检测到设备发生故障的情况下,收集模块44收集故障信息,以及保存模块46保存收集模块44收集的故障信息;保存模块46保存故障信息的操作具体包括:将故障信息保存到文件中;将文件保存到非易失性介质中;上报模块48将保存模块46保存的故障信息上报给服务器;在设备启动时,判断模块判断是否有已经保存但未上报的故障信息;在判断结果为是的情况下,将已经保存但未上报的故障信息上报给服务器,在判断结果为否的情况下,恢复模块进行故障恢复操作,并在完成故障恢复后上报模块48再次尝试将故障信息上报给服务器;优选地,在将故障信息上报给服务器时,采用面向连接的方式进行上报。
以上实施例通过收集、保存、并上报故障信息的方法,克服了设备提供商的维护人员(或开发人员)定位故障的难度增大,不能够远程及时获取故障信息的问题,进而实现了远程及时获取故障信息。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种故障信息的处理方法,其特征在于,包括:
定时检测设备是否发生故障,在检测到所述设备发生故障的情况下,收集并保存故障信息;
将保存的所述故障信息上报给服务器。
2.根据权利要求1所述的处理方法,其特征在于,进一步包括:
在所述设备启动时,判断是否有已经保存但未上报的故障信息;
在判断结果为是的情况下,将已经保存但未上报的所述故障信息上报给服务器。
3.根据权利要求1或2所述的处理方法,其特征在于,将所述故障信息上报给所述服务器具体为:
在所述设备能够与所述服务器通信时,将所述故障信息上报给所述服务器。
4.根据权利要求3所述的处理方法,其特征在于,具体包括:
在保存所述故障相关信息后,尝试将所述故障信息上报给所述服务器,在上报失败的情况下,进行故障恢复操作,并在完成故障恢复后再次尝试将所述故障信息上报给所述服务器。
5.根据权利要求1所述的处理方法,其特征在于,保存所述故障信息具体包括:
将所述故障信息保存到文件中;
将所述文件保存到非易失性介质中。
6.根据权利要求1所述的处理方法,其特征在于,在将所述故障信息上报给所述服务器时,采用面向连接的方式进行上报。
7.根据权利要求1或2、权利要求4至6中任一项所述的方法,其特征在于,还包括:
预先设置优先级高于业务进程的故障处理进程,并通过所述故障处理进程实现故障检测、所述故障信息的收集及上报。
8.一种故障信息的处理装置,其特征在于,包括:
检测模块,用于定时检测设备是否发生故障;
收集模块,用于在所述检测模块检测到所述设备发生故障的情况下,收集故障信息;
保存模块,用于保存所述收集模块收集的所述故障信息;
上报模块,用于将所述保存模块保存的所述故障信息上报给服务器。
9.根据权利要求8所述的处理装置,其特征在于,进一步包括:
判断模块,用于判断是否有已经保存但未上报的故障信息;
恢复模块,用于进行故障恢复操作。
10.根据权利要求8或9所述的处理装置,其特征在于,进一步包括:
设置模块,用于预先设置优先级高于业务进程的故障处理进程。
CNA2008101275720A 2008-06-27 2008-06-27 故障信息的处理方法和装置 Pending CN101296135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101275720A CN101296135A (zh) 2008-06-27 2008-06-27 故障信息的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101275720A CN101296135A (zh) 2008-06-27 2008-06-27 故障信息的处理方法和装置

Publications (1)

Publication Number Publication Date
CN101296135A true CN101296135A (zh) 2008-10-29

Family

ID=40066162

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101275720A Pending CN101296135A (zh) 2008-06-27 2008-06-27 故障信息的处理方法和装置

Country Status (1)

Country Link
CN (1) CN101296135A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102255768A (zh) * 2010-05-19 2011-11-23 大唐移动通信设备有限公司 一种检测端口的方法和设备
CN103473143A (zh) * 2012-06-07 2013-12-25 中兴通讯股份有限公司 故障修复的处理、故障的修复方法及装置
CN104378246A (zh) * 2014-12-09 2015-02-25 福建星网锐捷网络有限公司 一种网络设备故障定位系统、方法及装置
CN104408059A (zh) * 2014-10-29 2015-03-11 中国建设银行股份有限公司 一种故障处理的方法及装置
CN104915234A (zh) * 2015-06-10 2015-09-16 Tcl集团股份有限公司 一种Android移动终端升级上报方法及系统
CN105573867A (zh) * 2015-12-30 2016-05-11 浪潮(北京)电子信息产业有限公司 一种MySQL高可用性的实现方法及系统
CN105635266A (zh) * 2015-12-25 2016-06-01 小米科技有限责任公司 用于上报数据的方法、装置及终端
CN106293984A (zh) * 2016-08-11 2017-01-04 浪潮(北京)电子信息产业有限公司 一种计算机故障自动处理方式以及装置
CN106789306A (zh) * 2016-12-30 2017-05-31 深圳市风云实业有限公司 通信设备软件故障检测收集恢复方法和系统
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
WO2017173927A1 (zh) * 2016-04-07 2017-10-12 阿里巴巴集团控股有限公司 分布式存储系统硬盘挂住故障检测、处理方法及装置
CN107548089A (zh) * 2016-06-28 2018-01-05 中兴通讯股份有限公司 一种基站故障自动修复的方法及装置
CN107704333A (zh) * 2017-10-11 2018-02-16 郑州云海信息技术有限公司 San存储系统的故障保存方法、装置及可读存储介质
CN113542318A (zh) * 2020-04-15 2021-10-22 杭州海康威视数字技术股份有限公司 设备故障修复方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102255768A (zh) * 2010-05-19 2011-11-23 大唐移动通信设备有限公司 一种检测端口的方法和设备
CN103473143A (zh) * 2012-06-07 2013-12-25 中兴通讯股份有限公司 故障修复的处理、故障的修复方法及装置
CN104408059A (zh) * 2014-10-29 2015-03-11 中国建设银行股份有限公司 一种故障处理的方法及装置
CN104378246A (zh) * 2014-12-09 2015-02-25 福建星网锐捷网络有限公司 一种网络设备故障定位系统、方法及装置
CN104378246B (zh) * 2014-12-09 2018-04-06 福建星网锐捷网络有限公司 一种网络设备故障定位系统、方法及装置
CN104915234A (zh) * 2015-06-10 2015-09-16 Tcl集团股份有限公司 一种Android移动终端升级上报方法及系统
CN104915234B (zh) * 2015-06-10 2019-09-10 Tcl集团股份有限公司 一种Android移动终端升级上报方法及系统
CN105635266A (zh) * 2015-12-25 2016-06-01 小米科技有限责任公司 用于上报数据的方法、装置及终端
CN105635266B (zh) * 2015-12-25 2018-11-30 小米科技有限责任公司 用于上报数据的方法、装置及终端
CN105573867A (zh) * 2015-12-30 2016-05-11 浪潮(北京)电子信息产业有限公司 一种MySQL高可用性的实现方法及系统
WO2017173927A1 (zh) * 2016-04-07 2017-10-12 阿里巴巴集团控股有限公司 分布式存储系统硬盘挂住故障检测、处理方法及装置
CN107548089A (zh) * 2016-06-28 2018-01-05 中兴通讯股份有限公司 一种基站故障自动修复的方法及装置
CN106293984A (zh) * 2016-08-11 2017-01-04 浪潮(北京)电子信息产业有限公司 一种计算机故障自动处理方式以及装置
CN106844078A (zh) * 2016-12-27 2017-06-13 郑州云海信息技术有限公司 一种pcie故障的处理方法和装置
CN106789306A (zh) * 2016-12-30 2017-05-31 深圳市风云实业有限公司 通信设备软件故障检测收集恢复方法和系统
CN107704333A (zh) * 2017-10-11 2018-02-16 郑州云海信息技术有限公司 San存储系统的故障保存方法、装置及可读存储介质
CN113542318A (zh) * 2020-04-15 2021-10-22 杭州海康威视数字技术股份有限公司 设备故障修复方法

Similar Documents

Publication Publication Date Title
CN101296135A (zh) 故障信息的处理方法和装置
CN101800675B (zh) 故障监控方法、监控设备及通信系统
CN101197621B (zh) 一种对网管系统故障进行远程诊断定位的方法及其系统
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN101409640B (zh) Xml格式的事件问题报告包
CN105610648B (zh) 一种运维监控数据的采集方法及服务器
CN105159964A (zh) 一种日志监控方法及系统
US7430688B2 (en) Network monitoring method and apparatus
CN103138988B (zh) 网络故障的定位处理方法及装置
CN103166778A (zh) 一种故障自动化智能处理方法及其装置
CN104980524A (zh) 一种weblogic连接池失效监测方法
JP2008217735A (ja) 障害解析システム、方法、及び、プログラム
CN101022638A (zh) 一种告警上报方法和告警装置
CN103095488A (zh) 一种自助终端外设硬件状态监控系统及方法
CN112527484A (zh) 工作流断点续跑方法、装置、计算机设备及可读存储介质
CN101951622A (zh) 一种射频拉远单元断电告警处理方法和系统
CN111130821A (zh) 一种掉电告警的方法、处理方法及装置
CN109828945B (zh) 一种业务报文处理方法及系统
CN114615310A (zh) 一种维护tcp连接的方法、装置及电子设备
CN101854263B (zh) 网络拓扑的分析处理方法、系统和管理服务器
CN101741618A (zh) 一种数据通信设备进行业务处理的方法及数据通信设备
CN101677278A (zh) 网络信息系统可用性的监控方法及系统
CN101170754B (zh) 一种全球定位系统时钟丢失情况下的单板上电方法
JP2008244902A (ja) 障害復旧装置、障害復旧方法、及び障害復旧システム
CN104348676B (zh) 一种基于操作管理维护oam的链路检测方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20081029