CN103207825A - 一种用于管理整机柜的故障的方法及装置 - Google Patents

一种用于管理整机柜的故障的方法及装置 Download PDF

Info

Publication number
CN103207825A
CN103207825A CN2012100115684A CN201210011568A CN103207825A CN 103207825 A CN103207825 A CN 103207825A CN 2012100115684 A CN2012100115684 A CN 2012100115684A CN 201210011568 A CN201210011568 A CN 201210011568A CN 103207825 A CN103207825 A CN 103207825A
Authority
CN
China
Prior art keywords
information
parts
pilot lamp
complete machine
machine cabinet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100115684A
Other languages
English (en)
Inventor
刘洪梅
陈国峰
张家军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2012100115684A priority Critical patent/CN103207825A/zh
Publication of CN103207825A publication Critical patent/CN103207825A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提出一种用于管理整机柜的故障的方法及装置。该方法包括以下步骤:收集所述整机柜的部件的信息;根据所述信息判断所述部件是否发生故障;如果是,则对所述信息进行处理和分析以获得故障信息;将所述故障信息分类;以及使用指示灯指示发生故障的所述部件。该方法能够提高故障管理的效率及正确率。

Description

一种用于管理整机柜的故障的方法及装置
技术领域
本发明涉及的是整机柜故障处理领域,具体涉及一种用于管理整机柜的故障的方法及装置。
背景技术
随着通信与网络技术的不断发展,人们的社会活动已经离不开信息技术支持,而信息技术支撑设备一般都部署在整机柜内,因此,对机柜的安全监控与运行维护也是信息技术支撑保障的重要一环。
整机柜是由复杂的部件组成,这些部件包含节点、风扇、电源等,其中节点还包含硬盘、中央处理器(CPU)、内存、网络等等。各个组件均有可能发生故障,因此故障的收集和处理对于保证整机柜稳定工作、不影响正常业务运行就显得尤为重要。
当前,整机柜的故障收集处理主要通过网络管理器收集各个整机柜的信息并通过分析这些信息来实现,这样的集中管理机制导致信息量大,信息来源多,集中分析机制不完善;同时故障信息的分析结果也不能直接反映到各故障点上并由此带来故障处理的效率不高。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明的一个目的在于提出一种用于管理整机柜的故障的方法,该方法可以高效定位整机柜的故障、反映故障并且解决故障。
本发明的另一个目的在于提出一种用于管理整机柜的故障的装置。
本发明的另一个目的在于提出一种整机柜。
为了实现上述目的,根据本发明第一方面的实施例的用于管理整机柜的故障的方法,包括以下步骤:收集所述整机柜的部件的信息;根据所述信息判断所述部件是否发生故障;如果是,则对所述信息进行处理和分析以获得故障信息;将所述故障信息分类;以及使用指示灯指示发生故障的所述部件。
根据本发明实施例的用于管理整机柜的故障的方法至少具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;可以准确体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在。
为了实现上述目的,根据本发明第二方面的实施例的用于管理整机柜的故障的装置包括:收集模块,所述收集模块用于收集所述整机柜的部件的信息;第一判断模块,所述第一判断模块用于根据所述信息判断所述部件是否发生故障;处理模块,当所述判断模块判断所述部件发生故障时,所述处理模块对所述信息进行处理和分析以获得故障信息并将所述故障信息分类;以及指示模块,所述指示模块用于使用指示灯指示发生故障的所述部件。
根据本发明实施例的用于管理整机柜的故障的装置至少具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;可以准确体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在。
为了实现上述目的,根据本发明第三方面的实施例的整机柜包括上述用于管理整机柜的故障的装置。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图;
图2示出了根据本发明实施例的内存GPIO触发框图;
图3是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图;
图4是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图;
图5是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图;
图6是根据本发明一个实施例的用于管理整机柜的故障的装置的结构框图;
图7是根据本发明一个实施例的用于管理整机柜的故障的装置的结构框图;以及
图8是根据本发明一个实施例的用于管理整机柜的故障的装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
下面参考附图描述根据本发明实施例的管理整机柜的故障的方法、装置及整机柜。
一种用于管理整机柜的故障的方法,其特征在于,包括以下步骤:收集整机柜的部件的信息;根据信息判断部件是否发生故障;如果是,则对信息进行处理和分析以获得故障信息;将故障信息分类;以及使用指示灯指示发生故障的部件。
图1是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图。
如图1所示,用于管理整机柜的故障的方法包括以下步骤。
步骤S101,收集整机柜的部件的信息。
在本发明的一个实施例中,整机柜的部件可以包括但不限于存储器、硬盘、处理器、主板、电源、风扇等。
在本发明的一个实施例中,部件的信息包括部件的日志信息或状态信息。对于存储器、硬盘、处理器和主板等,可以通过不同的方法获取这些部件的日志信息。对于电源和风扇等,可以收集电源和风扇的状态信息,例如电源的输出是否正常、电源是否断开或接通、风扇的转速、风扇是否停转等。
在本发明的一个实施例中,日志信息可以包括但不限于系统事件日志、存储控制器的事件日志、硬盘的智能信息和Linux操作系统的系统日志等。其中从系统事件日志中可以获得内存的日志信息,从存储控制器的事件日志中可以获得扇区的日志信息,从硬盘的智能信息中可以获得关于硬盘的温度等日志信息,从Linux操作系统的系统日志中可以获得介质错误等日志信息。
步骤S102,根据信息判断部件是否发生故障。在本发明的一个实施例中,通过收集的日志信息或者状态信息,可以判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件是否发生故障。
步骤S103,如果是,则对信息进行处理和分析以获得故障信息。在判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件发生故障的情况下,可以进一步对信息进行处理和分析以得到具体的故障信息,该故障信息可以是例如电源电压不稳,风扇转速低于预定阈值等。
步骤S104,将故障信息分类。将所收集到的故障信息按照各个部件进行分类。
例如,将所有属于存储器的故障信息分到存储器类,将所有属于硬盘的故障信息分到硬盘类。
步骤S105,使用指示灯指示发生故障的部件。使用指示灯对于故障部件进行指示,方便了维护人员快速发现故障部件并对该部件进行维修。
根据本发明实施例的用于管理整机柜的故障的方法具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;可以准确体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在。
在本发明的一个实施例中,在获取日志信息之后,然后通过Linux的批量处理程序对这些日志中的故障错误进行分析和输出,并且针对以上关注部件的故障进行指示灯状态输出和指示。指示灯的硬件实现通过通用输入输出(GPIO)来进行触发,固件层进行阀值或者条件编程,提供API接口供Linux下程序进行访问,同时进行状态查询。图2示出了根据本发明实施例的内存GPIO触发框图。如图2所示,基板管理控制器(BMC)固件从Linux日志处理程序获取内存的日志信息,在分析内存发生故障时,BMC控制串转并D型触发器触发内存指示灯亮。
图3是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图。
如图3所示,用于管理整机柜的故障的方法包括以下步骤。
步骤S301,收集整机柜的部件的信息。
在本发明的一个实施例中,整机柜的部件可以包括但不限于存储器、硬盘、处理器、主板、电源、风扇等。
在本发明的一个实施例中,部件的信息包括部件的日志信息或状态信息。对于存储器、硬盘、处理器和主板等,可以通过不同的方法获取这些部件的日志信息。对于电源和风扇等,可以收集电源和风扇的状态信息,例如电源的输出是否正常、电源是否断开或接通、风扇的转速、风扇是否停转等。
在本发明的一个实施例中,日志信息可以包括但不限于系统事件日志、存储控制器的事件日志、硬盘的智能信息和Linux操作系统的系统日志等。其中从系统事件日志中可以获得内存的日志信息,从存储控制器的事件日志中可以获得扇区的日志信息,从硬盘的智能信息中可以获得关于硬盘的温度等日志信息,从Linux操作系统的系统日志中可以获得介质错误等日志信息。
步骤S302,根据信息判断部件是否发生故障。在本发明的一个实施例中,通过收集的日志信息或者状态信息,可以判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件是否发生故障。
步骤S303,如果是,则对信息进行处理和分析以获得故障信息。在判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件发生故障的情况下,可以进一步对信息进行处理和分析以得到具体的故障信息,该故障信息可以是例如电源电压不稳,风扇转速低于预定阈值等。
步骤S304,将故障信息分类。将所收集到的故障信息按照各个部件进行分类。
例如,将所有属于存储器的故障信息分到存储器类,将所有属于硬盘的故障信息分到硬盘类。
步骤S305,判断所述故障信息是否指示严重故障。
故障分级的标准可以视具体应用情况而设立。下面列举一些故障的分级标准。在本发明的一个实施例中,按照如下标准对故障进行分级,故障为下述情况时判断为严重故障。
对于内存,如果内存出现超过一位的ECC错误,或者内存出现一位的可纠正ECC错误达到一定数量或者内存出现容量识别错误时,判断内存发生严重故障。
对于硬盘,如果发生不可纠正介质错误,则判断为严重硬盘故障。
对于处理器,如果发生QPI相关状态寄存器中的所有故障或者发生处理器L3缓存等相关的ECC故障,则判断为严重故障。
对于存储器,如果存储器的控制芯片出现系统错误,或者存储器的供电电压出现异常情况,包括电压值不在范围内,电压没有输出,或者发生致命固件故障或者闪存故障,或者初始化失败,则判断为严重故障。
对于主板,如果主板电压出现异常情况,包括电压值不在范围内,电压没有输出,或者在启动过程中检测到Post错误,则判断为严重错误。
步骤S306,如果故障信息不指示严重故障,则记录所述信息。如果不是严重故障,说明部件仍然能够工作,对于整机柜的性能不会有较大影响,在这种情况下,可以不对该部件进行维修,但是将该信息记录,可以用于对该部件进行观察,以防故障恶化。
步骤S307,如果故障信息指示严重故障,则使用指示灯指示部件。只有在严重故障时,才会启用指示灯,才会需要维护人员进行维护。使用指示灯对于故障部件进行指示,方便了维护人员快速发现故障部件并对该部件进行维修。
根据本发明实施例的用于管理整机柜的故障的方法具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;可以准确体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在;并且可以在仅发生严重故障时才启用指示灯,可以根据需要进行维护,降低了成本,提高了性能。
图4是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图。
如图4所示,用于管理整机柜的故障的方法包括以下步骤。
步骤S401,收集整机柜的部件的信息。
在本发明的一个实施例中,整机柜的部件可以包括但不限于存储器、硬盘、处理器、主板、电源、风扇等。
在本发明的一个实施例中,部件的信息包括部件的日志信息或状态信息。对于存储器、硬盘、处理器和主板等,可以通过不同的方法获取这些部件的日志信息。对于电源和风扇等,可以收集电源和风扇的状态信息,例如电源的输出是否正常、电源是否断开或接通、风扇的转速、风扇是否停转等。
在本发明的一个实施例中,日志信息可以包括但不限于系统事件日志、存储控制器的事件日志、硬盘的智能信息和Linux操作系统的系统日志等。其中从系统事件日志中可以获得内存的日志信息,从存储控制器的事件日志中可以获得扇区的日志信息,从硬盘的智能信息中可以获得关于硬盘的温度等日志信息,从Linux操作系统的系统日志中可以获得介质错误等日志信息。
步骤S402,根据信息判断部件是否发生故障。在本发明的一个实施例中,通过收集的日志信息或者状态信息,可以判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件是否发生故障。
步骤S403,如果是,则对信息进行处理和分析以获得故障信息。在判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件发生故障的情况下,可以进一步对信息进行处理和分析以得到具体的故障信息,该故障信息可以是例如电源电压不稳,风扇转速低于预定阈值等。
步骤S404,将故障信息分类。将所收集到的故障信息按照各个部件进行分类。
例如,将所有属于存储器的故障信息分到存储器类,将所有属于硬盘的故障信息分到硬盘类。
步骤S405,判断所述故障信息是否指示严重故障。
故障分级的标准可以视具体应用情况而设立。下面列举一些故障的分级标准。在本发明的一个实施例中,按照如下标准对故障进行分级,故障为下述情况时判断为严重故障。
对于内存,如果内存出现超过一位的ECC错误,或者内存出现一位的可纠正ECC错误达到一定数量或者内存出现容量识别错误时,判断内存发生严重故障。
对于硬盘,如果发生不可纠正介质错误,则判断为严重硬盘故障。
对于处理器,如果发生QPI相关状态寄存器中的所有故障或者发生处理器L3缓存等相关的ECC故障,则判断为严重故障。
对于存储器,如果存储器的控制芯片出现系统错误,或者存储器的供电电压出现异常情况,包括电压值不在范围内,电压没有输出,或者发生致命固件故障或者闪存故障,或者初始化失败,则判断为严重故障。
对于主板,如果主板电压出现异常情况,包括电压值不在范围内,电压没有输出,或者在启动过程中检测到Post错误,则判断为严重错误。
步骤S406,如果故障信息不指示严重故障,则记录所述信息。如果不是严重故障,说明部件仍然能够工作,对于整机柜的性能不会有较大影响,在这种情况下,可以不对该部件进行维修,但是将该信息记录,可以用于对该部件进行观察,以防故障恶化。
步骤S407,如果故障信息指示严重故障,则使用指示灯指示部件。只有在严重故障时,才会启用指示灯,才会需要维护人员进行维护。使用指示灯对于故障部件进行指示,方便了维护人员快速发现故障部件并对该部件进行维修。
步骤S408,将指示灯集成在每个部件上。通过将指示灯集成在各个部件上,方便了维护人员快速判断哪个部件发生故障,进一步提高了工作效率。
根据本发明实施例的用于管理整机柜的故障的方法具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;通过将指示灯与部件集成,可以准确和快速体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在;并且可以在仅发生严重故障时才启用指示灯,可以根据需要进行维护,降低了成本,提高了性能。
图5是根据本发明一个实施例的用于管理整机柜的故障的方法的流程图。
如图5所示,用于管理整机柜的故障的方法包括以下步骤。
步骤S501,收集整机柜的部件的信息。
在本发明的一个实施例中,整机柜的部件可以包括但不限于存储器、硬盘、处理器、主板、电源、风扇等。
在本发明的一个实施例中,部件的信息包括部件的日志信息或状态信息。对于存储器、硬盘、处理器和主板等,可以通过不同的方法获取这些部件的日志信息。对于电源和风扇等,可以收集电源和风扇的状态信息,例如电源的输出是否正常、电源是否断开或接通、风扇的转速、风扇是否停转等。
在本发明的一个实施例中,日志信息可以包括但不限于系统事件日志、存储控制器的事件日志、硬盘的智能信息和Linux操作系统的系统日志等。其中从系统事件日志中可以获得内存的日志信息,从存储控制器的事件日志中可以获得扇区的日志信息,从硬盘的智能信息中可以获得关于硬盘的温度等日志信息,从Linux操作系统的系统日志中可以获得介质错误等日志信息。
步骤S502,根据信息判断部件是否发生故障。在本发明的一个实施例中,通过收集的日志信息或者状态信息,可以判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件是否发生故障。
步骤S503,如果是,则对信息进行处理和分析以获得故障信息。在判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件发生故障的情况下,可以进一步对信息进行处理和分析以得到具体的故障信息,该故障信息可以是例如电源电压不稳,风扇转速低于预定阈值等。
步骤S504,将故障信息分类。将所收集到的故障信息按照各个部件进行分类。
例如,将所有属于存储器的故障信息分到存储器类,将所有属于硬盘的故障信息分到硬盘类。
步骤S505,判断所述故障信息是否指示严重故障。
故障分级的标准可以视具体应用情况而设立。下面列举一些故障的分级标准。在本发明的一个实施例中,按照如下标准对故障进行分级,故障为下述情况时判断为严重故障。
对于内存,如果内存出现超过一位的ECC错误,或者内存出现一位的可纠正ECC错误达到一定数量或者内存出现容量识别错误时,判断内存发生严重故障。
对于硬盘,如果发生不可纠正介质错误,则判断为严重硬盘故障。
对于处理器,如果发生QPI相关状态寄存器中的所有故障或者发生处理器L3缓存等相关的ECC故障,则判断为严重故障。
对于存储器,如果存储器的控制芯片出现系统错误,或者存储器的供电电压出现异常情况,包括电压值不在范围内,电压没有输出,或者发生致命固件故障或者闪存故障,或者初始化失败,则判断为严重故障。
对于主板,如果主板电压出现异常情况,包括电压值不在范围内,电压没有输出,或者在启动过程中检测到Post错误,则判断为严重错误。
步骤S506,如果故障信息不指示严重故障,则记录所述信息。如果不是严重故障,说明部件仍然能够工作,对于整机柜的性能不会有较大影响,在这种情况下,可以不对该部件进行维修,但是将该信息记录,可以用于对该部件进行观察,以防故障恶化。
步骤S507,如果故障信息指示严重故障,则使用指示灯指示部件。只有在严重故障时,才会启用指示灯,才会需要维护人员进行维护。使用指示灯对于故障部件进行指示,方便了维护人员快速发现故障部件并对该部件进行维修。
步骤S508,将指示灯集成在每个部件上。通过将指示灯集成在各个部件上,方便了维护人员快速判断哪个部件发生故障,进一步提高了工作效率。
步骤S509,在指示灯断电后,启用备用电池对指示灯进行供电。在实际操作中,有可能发生这样的情况:当将节点从整机柜中拔出以查看具体节点的哪个部件发生故障时,节点会断电,在这种情况下,无法通过指示灯判断故障部件,因而需要有备用电池对指示灯供电。
步骤S510,用指示灯指示发生故障的部件。在指示灯由备用电池供电之后,对于发生故障的部件,指示灯再次亮起,从而指示发生故障的部件。
根据本发明实施例的用于管理整机柜的故障的方法具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;通过将指示灯与部件集成,可以准确和快速体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在;并且可以在仅发生严重故障时才启用指示灯,可以根据需要进行维护,降低了成本,提高了性能;在指示灯断电之后可以通过备用电池供电,从而再现发生故障的部件。
另外,本发明还提出一种管理整机柜的故障的装置。该装置包括:收集模块,收集模块用于收集整机柜的部件的信息;第一判断模块,第一判断模块用于根据信息判断部件是否发生故障;处理模块,当判断模块判断部件发生故障时,处理模块对信息进行处理和分析以获得故障信息并将故障信息分类;以及指示模块,指示模块用于使用指示灯指示发生故障的部件。
图6是根据本发明一个实施例的用于管理整机柜的故障的装置的结构框图。
如图6所示,用于管理整机柜的故障的装置1包括收集模块10,第一判断模块20,处理模块30和指示模块40。
具体地,收集模块10用于收集整机柜的部件的信息。
在本发明的一个实施例中,整机柜的部件可以包括但不限于存储器、硬盘、处理器、主板、电源、风扇等。
在本发明的一个实施例中,部件的信息包括部件的日志信息或状态信息。对于存储器、硬盘、处理器和主板等,可以通过不同的方法获取这些部件的日志信息。对于电源和风扇等,可以收集电源和风扇的状态信息,例如电源的输出是否正常、电源是否断开或接通、风扇的转速、风扇是否停转等。
在本发明的一个实施例中,日志信息可以包括但不限于系统事件日志、存储控制器的事件日志、硬盘的智能信息和Linux操作系统的系统日志等。其中从系统事件日志中可以获得内存的日志信息,从存储控制器的事件日志中可以获得扇区的日志信息,从硬盘的智能信息中可以获得关于硬盘的温度等日志信息,从Linux操作系统的系统日志中可以获得介质错误等日志信息。
第一判断模块20用于根据信息判断部件是否发生故障。
在本发明的一个实施例中,第一判断模块20可以通过收集的日志信息或者状态信息,可以判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件是否发生故障。
处理模块30用于当第一判断模块20判断部件发生故障时,对信息进行处理和分析以获得故障信息并将故障信息分类。处理模块30将所收集到的故障信息按照各个部件进行分类。
指示模块40用于使用指示灯指示发生故障的部件。使用指示灯对于故障部件进行指示,方便了维护人员快速发现故障部件并对该部件进行维修。
在本发明的一个实施例中,指示灯集成在每个部件上。通过将指示灯集成在各个部件上,方便了维护人员快速判断哪个部件发生故障,进一步提高了工作效率。
根据本发明实施例的用于管理整机柜的故障的装置具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;可以准确体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在。
图7是根据本发明一个实施例的用于管理整机柜的故障的装置的结构框图。
如图7所示,用于管理整机柜的故障的装置2包括收集模块10,第一判断模块20,处理模块30、指示模块40、第二判断模块50和记录模块60。
具体地,收集模块10用于收集整机柜的部件的信息。
在本发明的一个实施例中,整机柜的部件可以包括但不限于存储器、硬盘、处理器、主板、电源、风扇等。
在本发明的一个实施例中,部件的信息包括部件的日志信息或状态信息。对于存储器、硬盘、处理器和主板等,可以通过不同的方法获取这些部件的日志信息。对于电源和风扇等,可以收集电源和风扇的状态信息,例如电源的输出是否正常、电源是否断开或接通、风扇的转速、风扇是否停转等。
在本发明的一个实施例中,日志信息可以包括但不限于系统事件日志、存储控制器的事件日志、硬盘的智能信息和Linux操作系统的系统日志等。其中从系统事件日志中可以获得内存的日志信息,从存储控制器的事件日志中可以获得扇区的日志信息,从硬盘的智能信息中可以获得关于硬盘的温度等日志信息,从Linux操作系统的系统日志中可以获得介质错误等日志信息。
第一判断模块20用于根据信息判断部件是否发生故障。
在本发明的一个实施例中,第一判断模块20可以通过收集的日志信息或者状态信息,可以判断例如存储器、硬盘、处理器、内存、主板、电源、风扇等的部件是否发生故障。
处理模块30用于当第一判断模块20判断部件发生故障时,对信息进行处理和分析以获得故障信息并将故障信息分类。处理模块30将所收集到的故障信息按照各个部件进行分类。
第二判断模块50用于判断故障信息是否指示严重故障。
故障分级的标准可以视具体应用情况而设立。下面列举一些故障的分级标准。在本发明的一个实施例中,按照如下标准对故障进行分级,故障为下述情况时判断为严重故障。
对于内存,如果内存出现超过一位的ECC错误,或者内存出现一位的可纠正ECC错误达到一定数量或者内存出现容量识别错误时,判断内存发生严重故障。
对于硬盘,如果发生不可纠正介质错误,则判断为严重硬盘故障。
对于处理器,如果发生QPI相关状态寄存器中的所有故障或者发生处理器L3缓存等相关的ECC故障,则判断为严重故障。
对于存储器,如果存储器的控制芯片出现系统错误,或者存储器的供电电压出现异常情况,包括电压值不在范围内,电压没有输出,或者发生致命固件故障或者闪存故障,或者初始化失败,则判断为严重故障。
对于主板,如果主板电压出现异常情况,包括电压值不在范围内,电压没有输出,或者在启动过程中检测到Post错误,则判断为严重错误。
记录模块60用于在所述故障信息不指示严重故障时记录信息。如果不是严重故障,说明部件仍然能够工作,对于整机柜的性能不会有较大影响,在这种情况下,可以不对该部件进行维修,但是将该信息记录,可以用于对该部件进行观察,以防故障恶化。
如果故障信息指示严重故障,则指示模块40使用指示灯指示发生所述严重故障的部件。只有在严重故障时,才会启用指示灯,才会需要维护人员进行维护。使用指示灯对于故障部件进行指示,方便了维护人员快速发现故障部件并对该部件进行维修。
在本发明的一个实施例中,指示灯集成在每个部件上。通过将指示灯集成在各个部件上,方便了维护人员快速判断哪个部件发生故障,进一步提高了工作效率。
根据本发明实施例的用于管理整机柜的故障的装置具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;可以准确体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在;并且可以在仅发生严重故障时才启用指示灯,可以根据需要进行维护,降低了成本,提高了性能。
图8是根据本发明一个实施例的用于管理整机柜的故障的装置的结构框图。
如图8所示,用于管理整机柜的故障的装置3包括收集模块10,第一判断模块20,处理模块30、指示模块40、第二判断模块50、记录模块60和备用电池70。图8的实施例和图7的实施例的不同之处在于进一步包括了一个备用电池70,下面将描述该备用电池70的功能,与图7相同或相似之处不再详细描述。
备用电池70用于在所述指示灯断电后对指示灯进行供电。在实际操作中,有可能发生这样的情况:当将节点从整机柜中拔出以查看具体节点的哪个部件发生故障时,节点会断电,在这种情况下,无法通过指示灯判断故障部件,因而需要有备用电池对指示灯供电。在指示灯由备用电池供电之后,对于发生故障的部件,指示灯再次亮起,从而指示发生故障的部件。
根据本发明实施例的用于管理整机柜的故障的方法具有如下优点:可以高效快速收集故障信息;可以高效定位故障,能够从大量信息中筛选出有效信息,提高分析效率以及分析正确性;通过将指示灯与部件集成,可以准确和快速体现故障所在部件,使得运维过程中,工作人员能够迅速查出故障所在;并且可以在仅发生严重故障时才启用指示灯,可以根据需要进行维护,降低了成本,提高了性能;在指示灯断电之后可以通过备用电池供电,从而再现发生故障的部件。
另外,本发明还提出一种整机柜。该整机柜包括上述实施例中的用于管理整机柜的故障的装置。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (15)

1.一种用于管理整机柜的故障的方法,其特征在于,包括以下步骤:
收集所述整机柜的部件的信息;
根据所述信息判断所述部件是否发生故障;
如果是,则对所述信息进行处理和分析以获得故障信息;
将所述故障信息分类;以及
使用指示灯指示发生故障的所述部件。
2.根据权利要求1所述的方法,其特征在于,进一步包括步骤:
判断所述故障信息是否指示严重故障;
如果所述故障信息不指示严重故障,则记录所述信息,其中
如果所述故障信息指示严重故障,则使用指示灯指示发生故障的部件。
3.根据权利要求1或2所述的方法,其特征在于,
所述部件包括存储器、硬盘、处理器、主板、电源、风扇。
4.根据权利要求3所述的方法,其特征在于,
所述信息包括所述部件的日志信息或状态信息。
5.根据权利要求3所述的方法,其特征在于,进一步包括步骤:
将所述指示灯集成在每个部件上。
6.根据权利要求4所述的方法,其特征在于,所述日志信息包括:
系统事件日志;
存储控制器的事件日志;
硬盘的智能信息;和
Linux操作系统的系统日志。
7.根据权利要求1或2所述的方法,其特征在于,进一步包括步骤:
在所述指示灯断电后,启用备用电池对所述指示灯进行供电;以及
用所述指示灯指示发生故障的部件。
8.一种用于管理整机柜的故障的装置,其特征在于,包括:
收集模块,所述收集模块用于收集所述整机柜的部件的信息;
第一判断模块,所述第一判断模块用于根据所述信息判断所述部件是否发生故障;
处理模块,当所述判断模块判断所述部件发生故障时,所述处理模块对所述信息进行处理和分析以获得故障信息并将所述故障信息分类;以及
指示模块,所述指示模块用于使用指示灯指示发生故障的所述部件。
9.根据权利要求8所述的装置,其特征在于,进一步包括:
第二判断模块,所述第二判断模块用于判断所述故障信息是否指示严重故障;以及
记录模块,所述记录模块用于在所述故障信息不指示严重故障时记录所述信息;
其中,如果所述故障信息指示严重故障,则所述指示模块使用指示灯指示发生所述严重故障的部件。
10.根据权利要求8或9所述的装置,其特征在于,
所述部件包括存储器、硬盘、处理器、主板、电源、风扇。
11.根据权利要求10所述的装置,其特征在于,
所述信息包括所述部件的日志信息或状态信息。
12.根据权利要求10所述的装置,其特征在于,所述指示灯集成在每个部件上。
13.根据权利要求11所述的装置,其特征在于,所述日志信息包括:
系统事件日志;
存储控制器的事件日志;
硬盘的智能信息;和
Linux操作系统的系统日志。
14.根据权利要求8或9所述的装置,其特征在于,进一步包括:
备用电池,所述备用电池用于在所述指示灯断电后对所述指示灯进行供电。
15.一种整机柜,所述整机柜包括根据权利要求8至14中任一项所述的用于管理整机柜的故障的装置。
CN2012100115684A 2012-01-13 2012-01-13 一种用于管理整机柜的故障的方法及装置 Pending CN103207825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100115684A CN103207825A (zh) 2012-01-13 2012-01-13 一种用于管理整机柜的故障的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100115684A CN103207825A (zh) 2012-01-13 2012-01-13 一种用于管理整机柜的故障的方法及装置

Publications (1)

Publication Number Publication Date
CN103207825A true CN103207825A (zh) 2013-07-17

Family

ID=48755054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100115684A Pending CN103207825A (zh) 2012-01-13 2012-01-13 一种用于管理整机柜的故障的方法及装置

Country Status (1)

Country Link
CN (1) CN103207825A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745751A (zh) * 2013-12-23 2014-04-23 华为技术有限公司 一种故障告警方法与装置
CN104267797A (zh) * 2014-09-28 2015-01-07 浪潮电子信息产业股份有限公司 一种保障主板中故障指示灯断电后常亮的可控的上电系统
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105425785A (zh) * 2016-01-15 2016-03-23 株洲南车时代电气股份有限公司 平台故障记录的方法和系统
CN106445757A (zh) * 2016-09-29 2017-02-22 郑州云海信息技术有限公司 一种中央处理器故障定位的方法及装置
CN106844173A (zh) * 2016-12-29 2017-06-13 四川九洲电器集团有限责任公司 一种信息处理方法及电子设备
CN108121632A (zh) * 2016-11-30 2018-06-05 中兴通讯股份有限公司 一种单板电源的保护方法及装置
CN108153618A (zh) * 2017-12-22 2018-06-12 国网浙江杭州市萧山区供电有限公司 硬盘数据恢复方法、装置及硬盘数据恢复设备
CN109343985A (zh) * 2018-08-03 2019-02-15 联想(北京)有限公司 一种数据处理方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1391174A (zh) * 2001-06-07 2003-01-15 戴尔产品有限公司 用于显示计算机系统状态信息的系统和方法
CN1466095A (zh) * 2002-06-10 2004-01-07 联想(北京)有限公司 采集机群中节点的软件和硬件信息的方法与系统
CN1655415A (zh) * 2005-01-14 2005-08-17 山东鲁维电子技术有限公司 分布式可视智能用电控制管理系统
US20060097886A1 (en) * 2004-10-27 2006-05-11 International Business Machines Corporation Battery backed service indicator aids for field maintenance

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1391174A (zh) * 2001-06-07 2003-01-15 戴尔产品有限公司 用于显示计算机系统状态信息的系统和方法
CN1466095A (zh) * 2002-06-10 2004-01-07 联想(北京)有限公司 采集机群中节点的软件和硬件信息的方法与系统
US20060097886A1 (en) * 2004-10-27 2006-05-11 International Business Machines Corporation Battery backed service indicator aids for field maintenance
CN1655415A (zh) * 2005-01-14 2005-08-17 山东鲁维电子技术有限公司 分布式可视智能用电控制管理系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103745751A (zh) * 2013-12-23 2014-04-23 华为技术有限公司 一种故障告警方法与装置
CN103745751B (zh) * 2013-12-23 2017-01-18 华为技术有限公司 一种故障告警方法与装置
CN104267797A (zh) * 2014-09-28 2015-01-07 浪潮电子信息产业股份有限公司 一种保障主板中故障指示灯断电后常亮的可控的上电系统
CN105373465A (zh) * 2015-12-04 2016-03-02 英业达科技有限公司 一种系统状态的检测方法、系统及服务器
CN105425785A (zh) * 2016-01-15 2016-03-23 株洲南车时代电气股份有限公司 平台故障记录的方法和系统
CN106445757A (zh) * 2016-09-29 2017-02-22 郑州云海信息技术有限公司 一种中央处理器故障定位的方法及装置
CN108121632A (zh) * 2016-11-30 2018-06-05 中兴通讯股份有限公司 一种单板电源的保护方法及装置
CN106844173A (zh) * 2016-12-29 2017-06-13 四川九洲电器集团有限责任公司 一种信息处理方法及电子设备
CN108153618A (zh) * 2017-12-22 2018-06-12 国网浙江杭州市萧山区供电有限公司 硬盘数据恢复方法、装置及硬盘数据恢复设备
CN108153618B (zh) * 2017-12-22 2021-12-03 国网浙江杭州市萧山区供电有限公司 硬盘数据恢复方法、装置及硬盘数据恢复设备
CN109343985A (zh) * 2018-08-03 2019-02-15 联想(北京)有限公司 一种数据处理方法、装置及存储介质
CN109343985B (zh) * 2018-08-03 2021-10-22 联想(北京)有限公司 一种数据处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN103207825A (zh) 一种用于管理整机柜的故障的方法及装置
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
US9760468B2 (en) Methods and arrangements to collect data
CN103455395B (zh) 一种硬盘故障的检测方法及装置
US8108179B2 (en) End of life prediction of flash memory
US20190004507A1 (en) Equipment management apparatus, equipment management system, computer readable medium, and equipment management method
CN100495990C (zh) 用于动态调整存储区域网络组件的性能监视的装置、系统和方法
CN106294084A (zh) 一种硬盘状态监测系统
CN106201804A (zh) 一种测试计算机主板的装置、方法及系统
CN109165138A (zh) 一种监控设备故障的方法和装置
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN108287780A (zh) 一种监控服务器cpld状态的装置及方法
CN112987696A (zh) 一种区域配电网设备管理平台及其运行方法
JP2014021577A (ja) 故障予測装置、故障予測システム、故障予測方法、及び、故障予測プログラム
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
CN106776728A (zh) 基于日志文件分析的代码检查方法、系统及开发平台
CN110687851A (zh) 一种终端运行监控系统及方法
CN109992477A (zh) 用于电子设备的信息处理方法、系统以及电子设备
CN108399116A (zh) 一种服务器上电状态监测系统及方法
CN103995759A (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN110851316B (zh) 异常预警方法及装置、系统、电子设备、存储介质
CN116843314A (zh) 监控终端运维管理方法、系统、设备及存储介质
Taherin et al. Examining failures and repairs on supercomputers with multi-GPU compute nodes
CN113608959B (zh) 故障硬盘定位方法、系统、终端及存储介质
CN114218001A (zh) 故障修复方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130717