CN102307115A - 一种故障实体的恢复方法和设备 - Google Patents

一种故障实体的恢复方法和设备 Download PDF

Info

Publication number
CN102307115A
CN102307115A CN201110281762A CN201110281762A CN102307115A CN 102307115 A CN102307115 A CN 102307115A CN 201110281762 A CN201110281762 A CN 201110281762A CN 201110281762 A CN201110281762 A CN 201110281762A CN 102307115 A CN102307115 A CN 102307115A
Authority
CN
China
Prior art keywords
daily record
faulty entity
entity
module
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201110281762A
Other languages
English (en)
Inventor
贾方锋
汤金辉
肖鲜贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datang Mobile Communications Equipment Co Ltd
Original Assignee
Datang Mobile Communications Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datang Mobile Communications Equipment Co Ltd filed Critical Datang Mobile Communications Equipment Co Ltd
Priority to CN201110281762A priority Critical patent/CN102307115A/zh
Publication of CN102307115A publication Critical patent/CN102307115A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障实体的恢复方法和设备,该设备包括:小区模块,用于当接收到故障实体的故障告警后,将所述故障实体的业务转移到其他实体上,并通知日志模块获取所述故障实体上的日志;当接收到来自所述日志模块的已获得所述故障实体上的日志的通知后,对所述故障实体进行恢复;日志模块,用于当接收到来自所述小区模块的获取所述故障实体上的日志的通知后,获取所述故障实体上的日志,保存获取的日志,并向所述小区模块通知已获得所述故障实体上的日志。本发明实施例中,能够及时恢复业务和故障处理器、故障单板,解决了故障恢复与保留故障现场之间的矛盾,为后续进行问题分析提供了依据,极大地减少了处理器和单板故障对业务的影响。

Description

一种故障实体的恢复方法和设备
技术领域
本发明涉及通信技术领域,尤其涉及一种故障实体的恢复方法和设备。
背景技术
现有技术中,处理器的恢复方法是:在处理器故障后,向管理站上报告警,通过载波互助将业务移到其他处理器上,然后重新加载处理器软件,使得处理器可以重新投入使用。
在实现本发明的过程中,发明人发现现有技术中至少存在以下问题:
重新加载处理器软件尽管可以使处理器重新投入使用,但破坏了故障现场,无法为后续定位、解决问题保留现场,如果导致处理器故障的问题得不到解决,则处理器运行一段时间后还会继续故障,会不断地影响业务,所以重新加载处理器软件只能是临时性地规避问题,不能从根本上解决问题,这样就会进入故障到加载、到再故障、到在加载的恶性循环。
发明内容
本发明实施例提供一种故障实体的恢复方法和设备,以减少处理器和/或单板故障时对业务的影响。
为了达到上述目的,本发明实施例提供一种故障实体的恢复设备,包括:
小区模块,用于当接收到故障实体的故障告警后,将所述故障实体的业务转移到其他实体上,并通知日志模块获取所述故障实体上的日志;
当接收到来自所述日志模块的已获得所述故障实体上的日志的通知后,对所述故障实体进行恢复;
日志模块,用于当接收到来自所述小区模块的获取所述故障实体上的日志的通知后,获取所述故障实体上的日志,保存获取的日志,并向所述小区模块通知已获得所述故障实体上的日志。
还包括:检测模块,用于在检测到所述故障实体发生故障后,向告警模块上报所述故障实体的故障告警;
告警模块,用于在接收到来自所述检测模块的故障告警后,向所述小区模块转发所述故障告警。
所述故障实体包括:故障处理器、故障单板;
所述日志模块,具体用于当所述故障实体为故障单板时,在获取所述故障单板上的日志时,获取所述故障单板上所有处理器的日志。
所述日志模块,具体用于在保存获取的日志时,将获取的日志存储为压缩文件,且压缩文件以如下之一或任意组合进行命名:机框、插槽、故障实体、年、月、日、时、分、秒。
所述日志模块,具体用于在保存获取的日志时,如果当前存储空间不小于待存储的日志的大小,则直接保存获取的日志;如果当前存储空间小于待存储的日志的大小,则删除当前保存时间最长的日志,一直到当前存储空间不小于待存储的日志的大小,之后保存获取的日志。
本发明实施例提供一种故障实体的恢复方法,应用于包括小区模块和日志模块的设备中,该方法包括:
当接收到故障实体的故障告警后,所述小区模块将所述故障实体的业务转移到其他实体上,并通知所述日志模块获取所述故障实体上的日志;
当接收到来自所述小区模块的获取所述故障实体上的日志的通知后,所述日志模块获取所述故障实体上的日志,保存获取的日志,并向所述小区模块通知已获得所述故障实体上的日志;
当接收到来自所述日志模块的已获得所述故障实体上的日志的通知后,所述小区模块对所述故障实体进行恢复。
所述设备中还包括检测模块和告警模块,所述接收到故障实体的故障告警,之前还包括:
在检测到所述故障实体发生故障后,所述检测模块向所述告警模块上报所述故障实体的故障告警;
在接收到来自所述检测模块的故障告警后,所述告警模块向所述小区模块转发所述故障告警。
所述故障实体包括:故障处理器、故障单板;
所述日志模块获取所述故障实体上的日志,包括:
当所述故障实体为故障单板时,所述日志模块获取所述故障单板上所有处理器的日志。
所述日志模块保存获取的日志,包括:
所述日志模块将获取的日志存储为压缩文件,且压缩文件以如下之一或任意组合进行命名:机框、插槽、故障实体、年、月、日、时、分、秒。
所述日志模块保存获取的日志,包括:
如果当前存储空间不小于待存储的日志的大小,所述日志模块直接保存获取的日志;如果当前存储空间小于待存储的日志的大小,所述日志模块删除当前保存时间最长的日志,一直到当前存储空间不小于待存储的日志的大小,之后保存获取的日志。
与现有技术相比,本发明实施例至少具有以下优点:通过日志模块保存故障实体上的日志,能够及时恢复业务和故障处理器、故障单板,解决了故障恢复与保留故障现场之间的矛盾,为后续进行问题分析提供了依据,极大地减少了处理器和单板故障对业务的影响。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种故障实体的恢复设备结构示意图;
图2是本发明实施例二提供的一种故障实体的恢复方法流程示意图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例一提供一种故障实体的恢复设备,该设备可以为基站设备,如图1所示,该设备可以包括:检测模块11、告警模块12、小区模块13和日志模块14;其中,本发明装置的各个模块可以集成于一体,也可以分离部署。上述模块可以合并为一个模块,也可以进一步拆分成多个子模块。
检测模块11,用于在检测到故障实体发生故障后,向告警模块12上报故障实体的故障告警;该故障实体包括但不限于:故障处理器、故障单板;其中,故障处理器和故障单板的处理相同。
告警模块12,用于在接收到来自检测模块11的故障告警后,向小区模块13转发故障告警。此外,告警模块12还需要向管理站上报故障告警。
小区模块13,用于当接收到故障实体的故障告警后,将故障实体的业务转移到其他实体上(通过载波互助将业务转移到其他实体上),并通知日志模块14获取故障实体上的日志。
日志模块14,用于当接收到来自小区模块13的获取故障实体上的日志的通知后,获取故障实体上的日志,保存获取的日志,并向小区模块13通知已获得故障实体上的日志。
进一步的,小区模块13在接收到来自日志模块14的已获得故障实体上的日志的通知后,对故障实体进行恢复(即重新加载故障实体的软件,且软件加载成功后可以继续使用该故障实体上的资源)。
需要注意的是,当故障实体为故障单板时,由于每个单板上包含有多个处理器,因此,日志模块14,具体用于在获取故障单板上的日志时,获取故障单板上所有处理器的日志。
本发明实施例中,运维人员获知故障实体的故障告警后,可远程提取保存的日志进行问题分析、解决以及修复。
本发明实施例中,在存储日志的过程中,每个故障实体的日志可存储为一个压缩文件,文件以机框、插槽、处理器号、以及年、月、日、时、分、秒命名。此外,由于基站存储日志的空间有限,所以日志存储采用循环存储的策略:如果存储空间大于待存储日志文件的大小,则将日志文件直接存储到基站上,否则将存储日期最老的日志文件删除,然后再保存日志文件。
基于此,日志模块14,具体用于在保存获取的日志时,将获取的日志存储为压缩文件,且压缩文件以如下之一或任意组合进行命名:机框、插槽、故障实体、年、月、日、时、分、秒。
日志模块14,具体用于在保存获取的日志时,如果当前存储空间不小于待存储的日志的大小,则直接保存获取的日志;如果当前存储空间小于待存储的日志的大小,则删除当前保存时间最长的日志,一直到当前存储空间不小于待存储的日志的大小,之后保存获取的日志。
综上所述,本发明实施例中,通过日志模块保存故障实体上的日志,能够及时恢复业务和故障处理器、故障单板,解决了故障恢复与保留故障现场之间的矛盾,为后续进行问题分析提供了依据,极大地减少了处理器和单板故障对业务的影响。
实施例二
基于上述设备同样的发明构思,本发明实施例中还提供一种故障实体的恢复方法,该方法应用于包括检测模块、告警模块、小区模块和日志模块的设备(如基站)中,如图2所示,该方法包括:
步骤201,在检测到故障实体发生故障后,检测模块向告警模块上报故障实体的故障告警;该故障实体包括但不限于:故障处理器、故障单板;其中,故障处理器和故障单板的处理相同。
步骤202,在接收到来自检测模块的故障告警后,告警模块向小区模块转发故障告警。此外,告警模块还需要向管理站上报故障告警。
步骤203,当接收到故障实体的故障告警后,小区模块将故障实体的业务转移到其他实体上(通过载波互助将业务转移到其他实体上),并通知日志模块获取故障实体上的日志。
步骤204,当接收到来自小区模块的获取故障实体上的日志的通知后,日志模块获取故障实体上的日志,保存获取的日志,并向小区模块通知已获得故障实体上的日志。
步骤205,当接收到来自日志模块的已获得故障实体上的日志的通知后,小区模块对故障实体进行恢复(即重新加载故障实体的软件,且软件加载成功后可以继续使用该故障实体上的资源)。
本发明实施例中,日志模块获取故障实体上的日志,包括:当故障实体为故障单板时,日志模块获取故障单板上所有处理器的日志。
本发明实施例中,运维人员获知故障实体的故障告警后,可远程提取保存的日志进行问题分析、解决以及修复。
本发明实施例中,在存储日志的过程中,每个故障实体的日志可存储为一个压缩文件,文件以机框、插槽、处理器号、以及年、月、日、时、分、秒命名。此外,由于基站存储日志的空间有限,所以日志存储采用循环存储的策略:如果存储空间大于待存储日志文件的大小,则将日志文件直接存储到基站上,否则将存储日期最老的日志文件删除,然后再保存日志文件。
基于此,日志模块保存获取的日志,包括:日志模块将获取的日志存储为压缩文件,且压缩文件以如下之一或任意组合进行命名:机框、插槽、故障实体、年、月、日、时、分、秒。
进一步的,日志模块保存获取的日志,包括:如果当前存储空间不小于待存储的日志的大小,日志模块直接保存获取的日志;如果当前存储空间小于待存储的日志的大小,日志模块删除当前保存时间最长的日志,一直到当前存储空间不小于待存储的日志的大小,之后保存获取的日志。
综上所述,本发明实施例中,通过日志模块保存故障实体上的日志,能够及时恢复业务和故障处理器、故障单板,解决了故障恢复与保留故障现场之间的矛盾,为后续进行问题分析提供了依据,极大地减少了处理器和单板故障对业务的影响。
实施例三
本发明实施例中还提供一种故障实体的恢复方法,该方法为处理器故障的自动恢复方法。
检测模块检测到处理器故障后,向告警模块上报处理器故障告警;告警模块收到故障告警后,向小区模块转发故障告警、并向管理站上报故障告警。
小区模块收到处理器的故障告警后,通过载波互助将业务转移到其他处理器上,并通知日志模块获取故障处理器的日志。
日志模块收到日志获取通知消息后,获取故障处理器的日志,并保存在基站上,然后向小区模块返回日志获取响应消息。
小区模块收到日志获取响应消息后,重新加载故障处理器的软件,软件加载成功后可以继续使用故障处理器上的资源。
基于上述处理,运维人员得到处理器故障告警后,可远程提取该基站保存的日志,进行问题分析、解决以及修复。
实施例四
本发明实施例中还提供一种故障实体的恢复方法,该方法为单板(或称板卡)故障的自动恢复方法。
检测模块检测到单板故障后,向告警模块上报单板故障告警;告警模块收到故障告警后,向小区模块转发故障告警、并向管理站上报故障告警。
小区模块收到单板的故障告警后,通过载波互助将业务转移到其他单板上,并通知日志模块获取故障单板的日志。
日志模块收到日志获取通知消息后,获取故障单板的日志(包括该故障单板上所有处理器的日志),并保存在基站上,然后向小区模块返回日志获取响应消息。
小区模块收到日志获取响应消息后,重新加载故障单板的软件,软件加载成功后可以继续使用故障单板上的资源。
基于上述处理,运维人员得到单板故障告警后,可远程提取该基站保存的日志,进行问题分析、解决以及修复。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (10)

1.一种故障实体的恢复设备,其特征在于,包括:
小区模块,用于当接收到故障实体的故障告警后,将所述故障实体的业务转移到其他实体上,并通知日志模块获取所述故障实体上的日志;
当接收到来自所述日志模块的已获得所述故障实体上的日志的通知后,对所述故障实体进行恢复;
日志模块,用于当接收到来自所述小区模块的获取所述故障实体上的日志的通知后,获取所述故障实体上的日志,保存获取的日志,并向所述小区模块通知已获得所述故障实体上的日志。
2.如权利要求1所述的设备,其特征在于,还包括:
检测模块,用于在检测到所述故障实体发生故障后,向告警模块上报所述故障实体的故障告警;
告警模块,用于在接收到来自所述检测模块的故障告警后,向所述小区模块转发所述故障告警。
3.如权利要求1或2所述的设备,其特征在于,所述故障实体包括:故障处理器、故障单板;
所述日志模块,具体用于当所述故障实体为故障单板时,在获取所述故障单板上的日志时,获取所述故障单板上所有处理器的日志。
4.如权利要求1或2所述的设备,其特征在于,
所述日志模块,具体用于在保存获取的日志时,将获取的日志存储为压缩文件,且压缩文件以如下之一或任意组合进行命名:机框、插槽、故障实体、年、月、日、时、分、秒。
5.如权利要求1或2所述的设备,其特征在于,
所述日志模块,具体用于在保存获取的日志时,如果当前存储空间不小于待存储的日志的大小,则直接保存获取的日志;如果当前存储空间小于待存储的日志的大小,则删除当前保存时间最长的日志,一直到当前存储空间不小于待存储的日志的大小,之后保存获取的日志。
6.一种故障实体的恢复方法,其特征在于,应用于包括小区模块和日志模块的设备中,该方法包括:
当接收到故障实体的故障告警后,所述小区模块将所述故障实体的业务转移到其他实体上,并通知所述日志模块获取所述故障实体上的日志;
当接收到来自所述小区模块的获取所述故障实体上的日志的通知后,所述日志模块获取所述故障实体上的日志,保存获取的日志,并向所述小区模块通知已获得所述故障实体上的日志;
当接收到来自所述日志模块的已获得所述故障实体上的日志的通知后,所述小区模块对所述故障实体进行恢复。
7.如权利要求6所述的方法,其特征在于,所述设备中还包括检测模块和告警模块,所述接收到故障实体的故障告警,之前还包括:
在检测到所述故障实体发生故障后,所述检测模块向所述告警模块上报所述故障实体的故障告警;
在接收到来自所述检测模块的故障告警后,所述告警模块向所述小区模块转发所述故障告警。
8.如权利要求6或7所述的方法,其特征在于,所述故障实体包括:故障处理器、故障单板;
所述日志模块获取所述故障实体上的日志,包括:
当所述故障实体为故障单板时,所述日志模块获取所述故障单板上所有处理器的日志。
9.如权利要求6或7所述的方法,其特征在于,所述日志模块保存获取的日志,包括:
所述日志模块将获取的日志存储为压缩文件,且压缩文件以如下之一或任意组合进行命名:机框、插槽、故障实体、年、月、日、时、分、秒。
10.如权利要求6或7所述的方法,其特征在于,所述日志模块保存获取的日志,包括:
如果当前存储空间不小于待存储的日志的大小,所述日志模块直接保存获取的日志;如果当前存储空间小于待存储的日志的大小,所述日志模块删除当前保存时间最长的日志,一直到当前存储空间不小于待存储的日志的大小,之后保存获取的日志。
CN201110281762A 2011-09-21 2011-09-21 一种故障实体的恢复方法和设备 Pending CN102307115A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110281762A CN102307115A (zh) 2011-09-21 2011-09-21 一种故障实体的恢复方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110281762A CN102307115A (zh) 2011-09-21 2011-09-21 一种故障实体的恢复方法和设备

Publications (1)

Publication Number Publication Date
CN102307115A true CN102307115A (zh) 2012-01-04

Family

ID=45380929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110281762A Pending CN102307115A (zh) 2011-09-21 2011-09-21 一种故障实体的恢复方法和设备

Country Status (1)

Country Link
CN (1) CN102307115A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105553743A (zh) * 2015-12-30 2016-05-04 北京神州绿盟信息安全科技股份有限公司 获得日志的方法、系统、第一网络设备及第三网络设备
CN105577445A (zh) * 2015-12-30 2016-05-11 北京京东尚科信息技术有限公司 一种日志收集和上报的方法和装置
CN108964952A (zh) * 2017-05-19 2018-12-07 中兴通讯股份有限公司 一种故障处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1791034A (zh) * 2004-12-13 2006-06-21 华为技术有限公司 一种检测方法
CN101136783A (zh) * 2007-10-15 2008-03-05 中兴通讯股份有限公司 一种网管系统配置数据的备份、恢复方法及装置
CN101540638A (zh) * 2009-05-06 2009-09-23 烽火通信科技股份有限公司 一种epon系统中tdm业务通道的板间保护倒换方法
CN101621818A (zh) * 2008-07-05 2010-01-06 中兴通讯股份有限公司 一种处理错误告警的处理方法和装置
CN101876924A (zh) * 2009-04-30 2010-11-03 升东网络科技发展(上海)有限公司 数据库故障自动检测及转移方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1791034A (zh) * 2004-12-13 2006-06-21 华为技术有限公司 一种检测方法
CN101136783A (zh) * 2007-10-15 2008-03-05 中兴通讯股份有限公司 一种网管系统配置数据的备份、恢复方法及装置
CN101621818A (zh) * 2008-07-05 2010-01-06 中兴通讯股份有限公司 一种处理错误告警的处理方法和装置
CN101876924A (zh) * 2009-04-30 2010-11-03 升东网络科技发展(上海)有限公司 数据库故障自动检测及转移方法
CN101540638A (zh) * 2009-05-06 2009-09-23 烽火通信科技股份有限公司 一种epon系统中tdm业务通道的板间保护倒换方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105553743A (zh) * 2015-12-30 2016-05-04 北京神州绿盟信息安全科技股份有限公司 获得日志的方法、系统、第一网络设备及第三网络设备
CN105577445A (zh) * 2015-12-30 2016-05-11 北京京东尚科信息技术有限公司 一种日志收集和上报的方法和装置
CN108964952A (zh) * 2017-05-19 2018-12-07 中兴通讯股份有限公司 一种故障处理方法及装置

Similar Documents

Publication Publication Date Title
CN108521339A (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN105871587A (zh) 日志上传方法及装置
CN103092712A (zh) 一种任务中断恢复方法和设备
CN107040406A (zh) 一种端云协同计算系统及其容错方法
CN104268061A (zh) 一种适用于虚拟机的存储状态监控机制
CN110392120B (zh) 一种消息推送过程中故障的恢复方法及装置
US10395426B2 (en) Augmented reality system and method
CN103986604A (zh) 网络故障定位方法和装置
CN101296135A (zh) 故障信息的处理方法和装置
CN102523137A (zh) 一种故障监测方法、装置及系统
CN111092752B (zh) 跨多个网络切片的故障定位方法及装置
CN105227347A (zh) 一种通用的运维监控方法及运维监控系统
CN104394194A (zh) 一种基于PaaS平台的云系统运维监控方法及系统
CN105978721A (zh) 一种集群系统中监控服务运行状态的方法、装置和系统
CN102609327A (zh) 提高多核处理器的可靠性的方法及装置
CN106572137A (zh) 一种分布式服务资源管理方法和装置
CN103905219A (zh) 一种业务平台中通信信息的监控存储系统及方法
CN102307115A (zh) 一种故障实体的恢复方法和设备
CN115269248B (zh) 双节点集群下防止脑裂方法和装置、电子设备和存储介质
CN104734895B (zh) 业务监控系统及业务监控方法
CN105354102A (zh) 一种文件系统维护和修复的方法和装置
CN113794597B (zh) 告警信息处理方法、系统、电子设备及存储介质
CN111782431A (zh) 一种异常的处理方法、装置、终端及存储介质
CN110535699B (zh) 基础设施确定方法、装置、电子设备及可读取存储介质
CN101404519B (zh) 一种业务板系统和业务处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120104