CN104320308A - 一种服务器异常检测的方法及装置 - Google Patents

一种服务器异常检测的方法及装置 Download PDF

Info

Publication number
CN104320308A
CN104320308A CN201410645857.9A CN201410645857A CN104320308A CN 104320308 A CN104320308 A CN 104320308A CN 201410645857 A CN201410645857 A CN 201410645857A CN 104320308 A CN104320308 A CN 104320308A
Authority
CN
China
Prior art keywords
abnormality
signal
server
mcu
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410645857.9A
Other languages
English (en)
Other versions
CN104320308B (zh
Inventor
王勇
娄山林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410645857.9A priority Critical patent/CN104320308B/zh
Publication of CN104320308A publication Critical patent/CN104320308A/zh
Application granted granted Critical
Publication of CN104320308B publication Critical patent/CN104320308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器异常检测的方法及装置,在服务器中内置一个嵌入式微控制器MCU,包括:当MCU监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息;MCU将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡进行存储;根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。本发明技术方案通过检测服务器发出异常状态的信号并获取异常状态的信号以及异常状态的信号的信息,从而实现了快速的异常态的定位。

Description

一种服务器异常检测的方法及装置
技术领域
本发明涉及计算机应用技术,尤指一种服务器异常检测的方法及装置。
背景技术
在服务器产品中,系统的稳定可靠是每个厂家共同追求的目标。随着服务器功能的增强,硬件部件也要随之增加,对系统的可靠性造成了一定的影响。
服务器系统通常拥有较多的处理器、内存、存储、IO等资源,每个组成部分的异常均有可能对服务器造成严重的不良影响。一方面,目前的服务器监控管理方法都是通过基本管理控制器(BMC)完成的。存在以下问题:BMC监控的信息主要是一些传感信息包括温度、CPU电压、风扇等,没有涉及到对服务器系统造成异常(比如重启、关机、死机等)的信息,一个服务器系统中造成系统异常状态的信号约有二三十个,BMC的外部引脚无法预留来满足这么多的异常信号的接入。第二方面,在服务器出厂之前,服务器生产商需要对服务器进行全面的检测,由于服务器的设计线路复杂,造成服务器异常的信号很多,没有厂家将这些造成异常状态的信号接到外面调试,况且这些信号的发生都是随机的,有时候几天甚至几周偶尔出现一次,不易复现。大多情况下的检测不能定位到由服务器系统的哪个部分的异常信号造成,并不能分析造成异常的真正原因。
发明内容
为了解决上述技术问题,本发明提供了一种服务器异常检测的方法及装置,能够检测到异常状态的信号,从而实现快速的异常态的定位。
为了达到本发明目的,本发明提供了一种服务器异常检测的方法,在服务器中内置一个嵌入式微控制器(MCU),包括:
当MCU监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息;
MCU将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡进行存储;
根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。
进一步地,该方法之前还包括:MCU实时监测服务器是否发出异常状态的信号;具体包括:
MCU采用与服务器的异常状态的接口数量相同的通用输入/输出(GPIO)引脚与服务器中的各个异常状态的接口连接;
当某个异常状态的接口发出异常状态的信号时,与该异常状态的接口相连的GPIO引脚的中断被触发;
当GPIO引脚的中断被触发时,为监测到服务器发出异常状态的信号。
进一步地,MCU为:单片机或者精简指令集(RISC)处理器架构(ARM),或者现场可编程逻辑门阵列(FPGA)。
进一步地,异常状态的信号的信息包括:被监测到的时间、发生异常的序号和发生异常的次数。
进一步地,异常状态包括:正常状态下的重启或关机或死机。
进一步地,服务器发出异常状态的信号包括:CPU发出的error信号或者开关机线路发出的信号。
本发明还提供了一种服务器异常检测的装置,包括:内置于服务器中的一个嵌入式微控制器(MCU)、一个SD卡和定位模块;其中,
MCU,用于当监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息;将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡;
SD卡,用于接收MCU发送的异常状态的信号以及预先记录的异常状态的信号的信息并进行存储;
定位模块,用于根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。
进一步地,MCU,还用于实时监测服务器是否发出异常状态的信号;具体包括:
MCU采用与服务器的异常状态的接口数量相同的通用输入/输出(GPIO)引脚与服务器中的各个异常状态的接口连接;
当某个异常状态的接口发出异常状态的信号时,与该异常状态的接口相连的GPIO引脚的中断被触发;
当GPIO引脚的中断被触发时,为监测到服务器发出异常状态的信号。
进一步地,MCU为:单片机或者精简指令集(RISC)处理器架构(ARM),或者现场可编程逻辑门阵列(FPGA)。
进一步地,异常状态的信号的信息包括:被监测到的时间、发生异常的序号和发生异常的次数。
进一步地,异常状态包括:正常状态下的重启或关机或死机。
进一步地,服务器发出异常状态的信号包括:CPU发出的error信号或者开关机线路发出的信号。
本发明技术方案包括:在服务器中内置一个嵌入式微控制器(MCU),包括:当MCU监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息;MCU将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡进行存储;根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。本发明技术方案通过检测服务器发出异常状态的信号并获取异常状态的信号以及异常状态的信号的信息,从而实现了快速的异常态的定位。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明服务器异常检测的方法的流程图;
图2为本发明服务器异常检测的装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1为本发明服务器异常检测的方法的流程图,在服务器中内置一个嵌入式微控制器(MCU),如图1所示,包括:
步骤101:当MCU监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息。
进一步地,该方法之前还包括:MCU实时监测服务器是否发出异常状态的信号;具体包括:
MCU采用与服务器的异常状态的接口数量相同的通用输入/输出(GPIO)引脚与服务器中的各个异常状态的接口连接;
当某个异常状态的接口发出异常状态的信号时,与该异常状态的接口相连的GPIO引脚的中断被触发;
当GPIO引脚的中断被触发时,为监测到服务器发出异常状态的信号。
其中,异常状态包括:正常状态下的重启或关机或死机。
服务器发出异常状态的信号包括:CPU发出的error信号或者开关机线路发出的信号。
其中,MCU可以采用:单片机或者精简指令集(RISC)处理器架构(ARM),或者现场可编程逻辑门阵列(FPGA)等来实现。
其中,异常状态的信号的信息包括:被监测到的时间、发生异常的序号和发生异常的次数。
其中,被监测到的时间是指GPIO引脚的中断被触发时,由服务器系统的实时时钟芯片(RTC)产生的时间。发生异常的序号,是指依照被监测到的时间的先后给定的依次递增的序号。发生异常的次数,是指某一个异常状态的信号总共出现的次数,该异常状态的信号出现一次,就对发生异常的次数进行递增处理。
步骤102:MCU将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡进行存储。
步骤103:根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。
需要说明的是,通过将异常状态的信号的信息以及异常状态的信号存储在SD卡或其他有存储功能的装置中,以便系统管理员或者是调试人员快速的获取各个异常状态的信号的信息,最终为后续的故障定位提供了便利。这样,不但提高了系统监控的准确性,更提高了整个系统的稳定性。
图2为本发明服务器异常检测的装置的结构示意图,如图2所示,包括:内置于服务器中的一个嵌入式微控制器(MCU)、一个SD卡和定位模块。其中,
MCU,用于当监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息;将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡。
进一步地,MCU还用于实时监测服务器是否发出异常状态的信号;具体用于:
MCU采用与服务器的异常状态的接口数量相同的通用输入/输出(GPIO)引脚与服务器中的各个异常状态的接口连接;
当某个异常状态的接口发出异常状态的信号时,与该异常状态的接口相连的GPIO引脚的中断被触发;
当GPIO引脚的中断被触发时,为监测到服务器发出异常状态的信号。
其中,异常状态包括:正常状态下的重启或关机或死机。
服务器发出异常状态的信号包括:CPU发出的error信号或者开关机线路发出的信号。
进一步地,MCU可以采用:单片机或者精简指令集(RISC)处理器架构(ARM)或者现场可编程逻辑门阵列(FPGA)。
其中,异常状态的信号的信息包括:被监测到的时间、发生异常的序号和发生异常的次数。
SD卡,用于接收MCU发送的异常状态的信号以及预先记录的异常状态的信号的信息并进行存储。
定位模块,用于根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。
举个例子来看,假设在服务器计算板上增加一个嵌入式微控制器(MCU)和一个与具有存储功能的SD卡作为本发明服务器异常检测的装置来进行阐述。
具体地,通过MCU外部的多个GPIO引脚将整台服务器上的所有异常状态的接口与MCU连接,在有某个异常状态的接口发出异常状态的信号的时候,MCU的GPIO引脚的中断被触发,MCU获取该异常状态的信号,MCU记录下该异常状态的信号的序号和次数,同时MCU记录下异常状态的信号触发MCU的GPIO引脚时由RTC产生的时间;并通过信号转换将所有的异常状态的信号转换成数字信号;MCU将异常状态的信号的序号和次数以及异常状态的信号触发中断的时间存储到SD卡内。SD卡内记录了异常状态的信号产生的序号和次数,同时记录了MCU获取异常状态的信号时由RTC产生的时间。用户可以将SD卡取出后通过外部电脑将这些故障信息以记事本的形式查看,根据SD卡内的异常状态的信号的序号、次序以及时间判断定位是哪一个信号在哪一时间造成了服务器系统异常。MCU获取该故障信号并将该信号存储到片外SD卡内,由RTC记录故障信号出现的时间并与故障信号一起存储,系统管理员或调试人员想要获取故障定位时,可以通过读取SD卡内的故障信息。
其中,MCU可以采用:单片机或者精简指令集(RISC)处理器架构(ARM,Advanced RISC Machine)或者现场可编程逻辑门阵列(FPGA)。MCU有支持扩展SD卡功能的接口,将SD卡插入设计的该控制器的SD插槽即可使用,从而进行对数据的存储。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (12)

1.一种服务器异常检测的方法,在服务器中内置一个嵌入式微控制器MCU,其特征在于,包括:
当MCU监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息;
MCU将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡进行存储;
根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。
2.根据权利要求1所述的方法,其特征在于,该方法之前还包括:所述MCU实时监测服务器是否发出异常状态的信号;具体包括:
所述MCU采用与服务器的异常状态的接口数量相同的通用输入/输出GPIO引脚与服务器中的各个异常状态的接口连接;
当某个异常状态的接口发出异常状态的信号时,与该异常状态的接口相连的GPIO引脚的中断被触发;
当GPIO引脚的中断被触发时,为监测到服务器发出异常状态的信号。
3.根据权利要求1或2所述的方法,其特征在于,所述MCU为:单片机或者精简指令集RISC处理器架构ARM,或者现场可编程逻辑门阵列FPGA。
4.根据权利要求1或2所述的方法,其特征在于,所述异常状态的信号的信息包括:被监测到的时间、发生异常的序号和发生异常的次数。
5.根据权利要求1或2所述的方法,其特征在于,所述异常状态包括:正常状态下的重启或关机或死机。
6.根据权利要求1或2所述的方法,其特征在于,所述服务器发出异常状态的信号包括:CPU发出的error信号或者开关机线路发出的信号。
7.一种服务器异常检测的装置,其特征在于,包括:内置于服务器中的一个嵌入式微控制器MCU、一个SD卡和定位模块;其中,
MCU,用于当监测到服务器发出异常状态的信号时,获取该异常状态的信号并记录该异常状态的信号的信息;将获得的异常状态的信号以及记录的异常状态的信号的信息发送给与MCU相连的SD卡;
SD卡,用于接收所述MCU发送的异常状态的信号以及预先记录的异常状态的信号的信息并进行存储;
定位模块,用于根据SD卡中存储的各个异常状态的信号的信息以及各个异常状态的信号,进行故障定位。
8.根据权利要求7所述的装置,其特征在于,所述MCU,还用于实时监测服务器是否发出异常状态的信号;具体包括:
所述MCU采用与服务器的异常状态的接口数量相同的通用输入/输出GPIO引脚与服务器中的各个异常状态的接口连接;
当某个异常状态的接口发出异常状态的信号时,与该异常状态的接口相连的GPIO引脚的中断被触发;
当GPIO引脚的中断被触发时,为监测到服务器发出异常状态的信号。
9.根据权利要求7或8所述的装置,其特征在于,所述MCU为:单片机或者精简指令集RISC处理器架构ARM,或者现场可编程逻辑门阵列FPGA。
10.根据权利要求7或8所述的装置,其特征在于,所述异常状态的信号的信息包括:被监测到的时间、发生异常的序号和发生异常的次数。
11.根据权利要求7或8所述的装置,其特征在于,所述异常状态包括:正常状态下的重启或关机或死机。
12.根据权利要求7或8所述的装置,其特征在于,所述服务器发出异常状态的信号包括:CPU发出的error信号或者开关机线路发出的信号。
CN201410645857.9A 2014-11-12 2014-11-12 一种服务器异常检测的方法及装置 Active CN104320308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410645857.9A CN104320308B (zh) 2014-11-12 2014-11-12 一种服务器异常检测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410645857.9A CN104320308B (zh) 2014-11-12 2014-11-12 一种服务器异常检测的方法及装置

Publications (2)

Publication Number Publication Date
CN104320308A true CN104320308A (zh) 2015-01-28
CN104320308B CN104320308B (zh) 2018-02-02

Family

ID=52375483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410645857.9A Active CN104320308B (zh) 2014-11-12 2014-11-12 一种服务器异常检测的方法及装置

Country Status (1)

Country Link
CN (1) CN104320308B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893196A (zh) * 2016-04-05 2016-08-24 浪潮电子信息产业股份有限公司 一种服务器调试辅助工具及系统
CN106021066A (zh) * 2016-05-23 2016-10-12 联想(北京)有限公司 一种故障信息检测方法及电子设备
CN106533819A (zh) * 2015-09-11 2017-03-22 北京奇虎科技有限公司 线上服务的错误监控方法、装置和系统
CN106921539A (zh) * 2017-02-06 2017-07-04 上海斐讯数据通信技术有限公司 一种基于云ac的关键业务模块监听方法及系统
CN107643965A (zh) * 2017-09-29 2018-01-30 郑州云海信息技术有限公司 一种服务器诊断方法、系统、设备及计算机存储机介质
CN107809349A (zh) * 2017-09-29 2018-03-16 郑州云海信息技术有限公司 一种监测服务器信号波形的装置及方法
CN108132861A (zh) * 2017-12-21 2018-06-08 郑州云海信息技术有限公司 一种基于服务器实现快速Debug的方法及装置
CN108153644A (zh) * 2017-12-22 2018-06-12 联想(北京)有限公司 一种数据处理方法及电子设备
CN109710495A (zh) * 2018-12-28 2019-05-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN111324516A (zh) * 2018-11-29 2020-06-23 北京京东尚科信息技术有限公司 自动记录异常事件的方法及装置、存储介质、电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102621979A (zh) * 2012-04-09 2012-08-01 天津一汽夏利汽车股份有限公司 车辆数据采集及故障诊断终端
CN202383661U (zh) * 2011-10-28 2012-08-15 武汉供电公司变电检修中心 计算机硬件及软件故障诊断修复系统
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法
US20130162692A1 (en) * 2011-12-27 2013-06-27 Hon Hai Precision Industry Co., Ltd. Luminance test system and method for light emitting diodes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202383661U (zh) * 2011-10-28 2012-08-15 武汉供电公司变电检修中心 计算机硬件及软件故障诊断修复系统
US20130162692A1 (en) * 2011-12-27 2013-06-27 Hon Hai Precision Industry Co., Ltd. Luminance test system and method for light emitting diodes
CN102621979A (zh) * 2012-04-09 2012-08-01 天津一汽夏利汽车股份有限公司 车辆数据采集及故障诊断终端
CN103077103A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种服务器故障的离线诊断方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106533819A (zh) * 2015-09-11 2017-03-22 北京奇虎科技有限公司 线上服务的错误监控方法、装置和系统
CN105893196A (zh) * 2016-04-05 2016-08-24 浪潮电子信息产业股份有限公司 一种服务器调试辅助工具及系统
CN106021066A (zh) * 2016-05-23 2016-10-12 联想(北京)有限公司 一种故障信息检测方法及电子设备
CN106921539A (zh) * 2017-02-06 2017-07-04 上海斐讯数据通信技术有限公司 一种基于云ac的关键业务模块监听方法及系统
CN107643965A (zh) * 2017-09-29 2018-01-30 郑州云海信息技术有限公司 一种服务器诊断方法、系统、设备及计算机存储机介质
CN107809349A (zh) * 2017-09-29 2018-03-16 郑州云海信息技术有限公司 一种监测服务器信号波形的装置及方法
CN107809349B (zh) * 2017-09-29 2021-06-29 郑州云海信息技术有限公司 一种监测服务器信号波形的装置及方法
CN108132861A (zh) * 2017-12-21 2018-06-08 郑州云海信息技术有限公司 一种基于服务器实现快速Debug的方法及装置
CN108153644A (zh) * 2017-12-22 2018-06-12 联想(北京)有限公司 一种数据处理方法及电子设备
CN111324516A (zh) * 2018-11-29 2020-06-23 北京京东尚科信息技术有限公司 自动记录异常事件的方法及装置、存储介质、电子设备
CN109710495A (zh) * 2018-12-28 2019-05-03 联想(北京)有限公司 一种信息处理方法及电子设备

Also Published As

Publication number Publication date
CN104320308B (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN104320308A (zh) 一种服务器异常检测的方法及装置
WO2021169260A1 (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US11163623B2 (en) Serializing machine check exceptions for predictive failure analysis
JP6333410B2 (ja) 障害処理方法、関連装置、およびコンピュータ
CN103500133A (zh) 故障定位方法及装置
US20140068350A1 (en) Self-checking system and method using same
US20080270827A1 (en) Recovering diagnostic data after out-of-band data capture failure
US10528110B2 (en) Method for diagnosing power supply failure in a wireless communication device
CN112596568B (zh) 一种读取电压调节器报错信息的方法、系统、设备及介质
CN110445638B (zh) 一种交换机系统故障保护方法及装置
US8984333B2 (en) Automatic computer storage medium diagnostics
CN112650612A (zh) 一种内存故障定位方法及装置
CN110704228B (zh) 一种固态硬盘异常处理方法及系统
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN104239174A (zh) Bmc远程调试系统及方法
CN114816022A (zh) 一种服务器电源异常监控方法、系统及存储介质
US9158646B2 (en) Abnormal information output system for a computer system
CN117707884A (zh) 一种监控电源管理芯片的方法、系统、设备和介质
CN115658373B (zh) 基于服务器的内存处理方法和装置、处理器及电子设备
JP2018180982A (ja) 情報処理装置、およびログ記録方法
CN104239201A (zh) 一种软单步系统中内存读写监控方法
CN110058979A (zh) 一种温度读取失败故障的监控方法、bmc及存储介质
CN113742166B (zh) 一种服务器系统器件日志记录方法、装置及系统
CN107179911A (zh) 一种重启管理引擎的方法和设备
TW202242655A (zh) 儲存有限狀態機之狀態資料的方法、電腦系統、及電腦程式產品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant