CN104679623A - 一种服务器硬盘的维护方法、系统及服务器监控设备 - Google Patents

一种服务器硬盘的维护方法、系统及服务器监控设备 Download PDF

Info

Publication number
CN104679623A
CN104679623A CN201310629347.8A CN201310629347A CN104679623A CN 104679623 A CN104679623 A CN 104679623A CN 201310629347 A CN201310629347 A CN 201310629347A CN 104679623 A CN104679623 A CN 104679623A
Authority
CN
China
Prior art keywords
server
hard disk
faulty
faulty hard
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310629347.8A
Other languages
English (en)
Inventor
唐华斌
邓超
郁志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201310629347.8A priority Critical patent/CN104679623A/zh
Publication of CN104679623A publication Critical patent/CN104679623A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Remote Monitoring And Control Of Power-Distribution Networks (AREA)

Abstract

本发明公开了一种服务器硬盘的维护方法、系统及服务器监控设备,主要内容包括:针对服务器集群中各服务器的硬盘使用状态来对服务器的硬盘进行计划内的维护,即:通过采集服务器集群中各服务器的硬盘状态信息,对服务器的硬盘状态进行监控,不论当前服务器集群中硬盘的整体状态如何,都可以在出现硬盘状态较差的服务器时,根据预设的下电维护条件,对该服务器进行硬盘维护。从而避免了当某一服务器的故障硬盘较多但服务器集群的故障硬盘数不满足批量更换条件时,不对该服务器进行硬盘维护而导致该服务器的容量吃紧的问题;同时,还将服务器的维护过程变得分散,相较于批量更换硬盘时,避免大量的数据重构操作对服务器集群和通信网络造成冲击,有利于服务器集群和通信网络的稳定性。

Description

一种服务器硬盘的维护方法、系统及服务器监控设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种服务器硬盘的维护方法、系统及服务器监控设备。
背景技术
硬盘是服务器中相对故障率较高的部件,需要对服务器集群中的硬盘进行维护,一般来说,对硬盘的维护包括两方面内容:
一方面是对硬盘中存储的数据的维护。
为了避免出现硬盘故障导致数据丢失的情况,可通过诸如多副本存储的方式,将相同内容的数据分别存储在多个服务器的硬盘中,即使某一个硬盘出现故障,导致故障硬盘中存储的数据丢失,但是丢失的数据在其他硬盘中的存储仍然能够保证数据的完整性和可用性;同时,当服务器集群中的管理设备检测出故障硬盘(即管理设备将无法读写的硬盘作为故障硬盘)时,可在其他可用的硬盘中重构故障硬盘中丢失的数据,确保服务器集群中该数据始终有多副本的存储,保证数据存储的安全性。
另一方面是硬盘的硬件维护。
当服务器集群中出现故障的硬盘累计到一定数量后,服务器集群的管理人员将对故障的硬盘进行批量更换。此时,可能出现在服务器集群中故障硬盘的总量并不多,无需进行批量更换,但某一服务器中却有若干个故障硬盘,导致该服务器由于故障硬盘数量多出现了存储容量吃紧的问题。
由于支持热插拔的服务器的硬盘密度较低,因此,一般采用不支持热插拔的服务器,所谓不支持热插拔,就是当更换服务器中故障硬盘时,需要将故障硬盘所在的服务器下电,同时,需对下电的服务器中原本正常运行的硬盘中的数据进行异地重构。按照批量更换故障硬盘的方式对硬盘进行维护时,如果一次性有多台服务器下电,就需要在短时间内对大量的原本正常运行的硬盘中的数据进行异地重构,这会对整个服务器集群和通信网络造成强烈冲击,不利于服务器集群和通信网络的稳定性。
发明内容
本发明实施例提供一种服务器硬盘的维护方法、系统及服务器监控设备,用以解决现有技术中存在的服务器由于故障硬盘数量多出现了存储容量吃紧,以及短时间内进行大量异地重构而对整个服务器集群和通信网络造成强烈冲击的问题。
本发明实施例采用以下技术方案:
一种服务器硬盘的维护方法,所述方法包括:
获取服务器集群中各服务器的硬盘状态信息,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态;
根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器;
向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护。
在本发明实施例中,避免了当某一服务器的故障硬盘较多但服务器集群的故障硬盘数不满足批量更换条件的情况下,不对该服务器进行硬盘维护导致该服务器的容量吃紧的问题;同时,还将服务器的维护过程变得分散,相较于批量更换硬盘时,避免大量的数据重构操作对服务器集群和通信网络造成的冲击,有利于服务器集群和通信网络的稳定性。
优选地,根据服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器,具体包括:
在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
在本发明实施例中,通过预设的下电维护条件来确定需要进行下电维护的服务器,可以根据实际需要灵活设定下电维护条件。
优选地,根据服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器,具体包括:
判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护;
若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
在本发明实施例中,通过第一设定阈值和第二设定阈值来确定需要进行下电维护的服务器,从而可以保证确定需要进行下电维护的服务器的灵活性。
优选地,所述服务器硬盘的维护方法还包括:
接收所述服务器返回的响应消息,所述响应消息是服务器将本地的未故障硬盘标记为故障后返回的;
通过所述服务器的智能平台管理接口,控制所述服务器下电。
在本发明实施例中,在接收到响应消息后才对服务器进行下电处理,可以确保服务器下电前已做好相应准备,避免出现突然下电所带来的不可预见性。
优选地,所述服务器硬盘的维护方法还包括:
在所述服务器在下电前,服务器中未故障硬盘中的数据进行异地重构;或者在所述服务器下电后,服务器中未故障硬盘中的数据进行异地重构。
在本发明实施例中,对服务器未故障硬盘进行异地重构,保证未故障硬盘中数据的完整性和可用性。
一种服务器硬盘的维护系统,所述系统包括:
服务器监控设备,用于获取服务器集群中各服务器的硬盘状态信息,并根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器,以及向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态;
服务器,用于在接收到的下电指示消息后下电。
在本发明实施例中,针对服务器集群中各服务器的硬盘使用状态来对服务器的硬盘进行维护,即:通过采集服务器集群中各服务器的硬盘状态信息,对服务器的硬盘状态进行监控,不论当前服务器集群中硬盘的整体状态如何,只要出现硬盘状态较差的服务器时,就对该服务器进行硬盘维护。从而避免了当某一服务器的故障硬盘较多但服务器集群的故障硬盘数不满足批量更换条件的情况下,不对该服务器进行硬盘维护导致该服务器的容量吃紧的问题;同时,还将服务器的维护过程变得分散,相较于批量更换硬盘时,避免大量的数据重构操作对服务器集群和通信网络造成的冲击,有利于服务器集群和通信网络的稳定性。
优选地,所述服务器监控设备,具体用于在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
所述服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
在本发明实施例中,通过预设的下电维护条件来确定需要进行下电维护的服务器,可以根据实际需要灵活设定下电维护条件。
优选地,所述服务器监控设备,具体用于判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护;
若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
在本发明实施例中,通过第一设定阈值和第二设定阈值来确定需要进行下电维护的服务器,从而可以保证确定需要进行下电维护的服务器的灵活性。
优选地,所述服务器,还用于将本地的未故障硬盘标记为故障后,向所述服务器监控设备返回响应消息;
所述服务器监控设备,还用于在接收到所述服务器返回的响应消息时,通过所述服务器的智能平台管理接口,控制所述服务器下电。
在本发明实施例中,在接收到响应消息后才对服务器进行下电处理,可以确保服务器下电前已做好相应准备,避免出现突然下电所带来的不可预见性。
优选地,所述服务器硬盘的维护系统还包括:
服务器管理设备,用于在所述服务器下电前,针对服务器中未故障硬盘中的数据进行异地重构;或者在所述服务器下电后,针对服务器中未故障硬盘中的数据进行异地重构。
在本发明实施例中,对服务器未故障硬盘进行异地重构,保证未故障硬盘中数据的完整性和可用性。
一种服务器监控设备,所述设备包括:
信息获取单元,用于获取服务器集群中各服务器的硬盘状态信息,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态;
确定单元,用于根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器;
发送单元,用于向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护。
在本发明实施例中,针对服务器集群中各服务器的硬盘使用状态来对服务器的硬盘进行维护,即:通过采集服务器集群中各服务器的硬盘状态信息,对服务器的硬盘状态进行监控,不论当前服务器集群中硬盘的整体状态如何,只要出现硬盘状态较差的服务器时,就对该服务器进行硬盘维护。从而避免了当某一服务器的故障硬盘较多但服务器集群的故障硬盘数不满足批量更换条件的情况下,不对该服务器进行硬盘维护导致该服务器的容量吃紧的问题;同时,还将服务器的维护过程变得分散,相较于批量更换硬盘时,避免大量的数据重构操作对服务器集群和通信网络造成的冲击,有利于服务器集群和通信网络的稳定性。
优选地,所述确定单元,具体用于在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
所述服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
在本发明实施例中,通过预设的下电维护条件来确定需要进行下电维护的服务器,可以根据实际需要灵活设定下电维护条件。
优选地,所述确定单元,具体用于判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护,若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
在本发明实施例中,通过第一设定阈值和第二设定阈值来确定需要进行下电维护的服务器,从而可以保证确定需要进行下电维护的服务器的灵活性。
优选地,所述服务器硬盘的维护设备还包括:
接收单元,用于接收所述服务器返回的响应消息,所述响应消息是服务器将本地的未故障硬盘标记为故障后返回的;
控制单元,用于通过所述服务器的智能平台管理接口,控制所述服务器下电。
在本发明实施例中,在接收到响应消息后才对服务器进行下电处理,可以确保服务器下电前已做好相应准备,避免出现突然下电所带来的不可预见性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一中的服务器硬盘的维护方法的步骤流程图;
图2为本发明实施例二中的服务器硬盘的维护系统的结构示意图;
图3为本发明实施例三中的服务器监控设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中,针对服务器集群中各服务器的硬盘使用状态来对服务器的硬盘进行维护,即:通过采集服务器集群中各服务器的硬盘状态信息,对服务器的硬盘状态进行监控,不论当前服务器集群中硬盘的整体状态如何,只要出现硬盘状态较差的服务器时,就对该服务器进行硬盘维护。从而避免了当某一服务器的故障硬盘较多但服务器集群的故障硬盘数不满足批量更换条件的情况下,不对该服务器进行硬盘维护导致该服务器的容量吃紧的问题;同时,还将服务器的维护过程变得分散,相较于批量更换硬盘时,避免大量的数据重构操作对服务器集群和通信网络造成的冲击,有利于服务器集群和通信网络的稳定性。
在本发明实施例中所使用的服务器硬盘可以为非热插拔式硬盘,对服务器硬盘的维护是指:服务器下电后,更换故障硬盘,以及对可能出现故障的硬盘进行维护,如对温度过高的硬盘进行降温处理。
以下通过具体的实施例对本发明进行详细描述,但本发明并不局限于以下实施例。
实施例一:
如图1所示,为本发明实施例中服务器硬盘的维护方法的步骤流程图,具体包括:
步骤101:服务器监控设备获取服务器集群中各服务器的硬盘状态信息,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态。
在本步骤101中,服务器监控设备可获取所监控的服务器集群中各服务器的硬盘状态信息,获取方式包括但不限于:
方式一:服务器监控设备周期性地向各服务器发起信息采集请求,接收到所述信息采集请求的服务器将本地的硬盘状态信息上报给所述服务器监控设备。当然,所述服务器监控设备也在接收到管理员的触发信息时,向服务器发起所述信息采集请求,本发明实施例一并不对服务器监控设备发起信息采集请求的触发条件做限定。
方式二:服务器集群中的各服务器周期性地(或其他触发条件)主动向服务器监控设备上报本地的硬盘状态信息,服务器监控设备通过接收各服务器上报的硬盘状态信息来获取所监控的服务器集群中各服务器的硬盘状态信息。
所述服务器可通过硬盘所支持的SMART接口,来获取本地未故障硬盘的运行状态,所述未故障硬盘的运行状态是反映未故障硬盘在运行过程中的参数信息,包括但不限于:运行时间、硬盘温度、寻址错误率、读写错误率、故障扇区数量。
步骤102:服务器监控设备根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器。
本发明实施例一中可采用多种下电维护条件来确定需要进行下电维护的服务器,包括但不限于以下两种方式:
方式一:
所述下电维护条件为:服务器的硬盘可用率未达到设定门限值。
针对上述下电维护条件,确定需要进行下电维护的服务器的方式为:
第一步:确定各服务器的硬盘可用率。
服务器的硬盘可用率通过以下公式(1)确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M - - - ( 1 )
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;M为服务器的硬盘总数;N为故障硬盘的数量。
公式(1)中未故障硬盘出现故障的概率是根据未故障硬盘的运行状态来确定的,未故障硬盘的运行状态越差,出现故障的概率越高;反之,出现故障的概率越低。例如:硬盘运行时间越长,出现故障的概率越大;硬盘温度越高,出现故障的概率越大;故障扇区数量越多,表示出现故障的概率越大。在计算未故障硬盘出现故障的概率时,可以根据硬盘的至少一种运行状态(运行时间、硬盘温度、寻址错误率、读写错误率、故障扇区数量),根据硬盘运行状态的历史数据,确定硬盘出现故障的概率。
例如,根据硬盘运行状态的历史数据可知:故障扇区多、硬盘温度高和运行时间长这三个运行状态中,故障扇区多最可能导致硬盘故障,其次是硬盘温度高也容易导致硬盘故障,运行时间长相对于故障扇区和硬盘温度高的运行状态,最不容易导致硬盘故障,因此,可为上述三个运行状态分别设置权重值,如故障扇区、硬盘温度和运行时间分别设置:0.2、0.3、0.5。若根据历史数据得到运行时间、硬盘温度、故障扇区数量分别对应的概率为A、B、C,那么,该硬盘的出现故障的概率为0.2A+0.3B+0.5C。
第二步:将硬盘可用率未达到设定门限值的服务器确定为需要进行下电维护的服务器。
所述设定门限值可根据实际需求来设定,例如,如果服务器对硬盘可用容量的容忍度较低,则所述设定门限值可设定为较大的值;如果服务器对硬盘可用容量的容忍度较高,则所述设定门限值可设定为较小的值。
所述设定门限值可以是针对服务器集群中所有服务器所设定的门限值,也可以分别为各服务器设定其各自的设定门限值,确定需要进行下电维护的服务器时,按照为各服务器分别设定的门限值来判定。
方式二:
所述下电维护条件为:服务器中故障硬盘的数量和未故障硬盘出现故障的概率平均值。
针对上述下电维护条件,确定需要进行下电维护的服务器的方式为:
第一步:判断服务器包含的故障硬盘的数量是否达到第一设定阈值(该第一设定阈值为服务器所能容忍的最大故障硬盘的数量)。
若达到,则确定该服务器需要进行下电维护;若未达到,则执行第二步。
第二步:判断服务器包含的未故障硬盘出现故障的概率平均值是否达到第二设定阈值(该第二设定阈值为服务器所能承受的最大未故障硬盘出现故障的概率的平均值);
若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
方式二中确定未故障硬盘出现故障的概率与方式一相同,此处不再赘述。
步骤103:服务器监控设备向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护。
服务器接收到下电指示消息后,将本地所有未故障硬盘全部标记为“故障”(可一次性标记全部未故障硬盘为“故障”,也可逐一标记未故障硬盘为“故障”),并向服务器监控设备返回响应消息。服务器监控设备在接收到该响应消息后,确定该服务器已停止对外提供数据读写服务,则通过服务器的智能平台管理接口,控制服务器关机下电。同时,服务器监控设备还可以以短信、触发报警器等方式通知维修人员,对下电的服务器进行硬盘维护。
服务器下电时,原本处于正常工作状态的硬盘也无法在继续运行,为了保证数据的完整性和可用性,需对服务器中原本处于正常工作状态的硬盘中的数据进行异地重构处理,具体的处理方式为:
服务器集群中包含有服务器管理设备,所述服务器管理设备可对服务器中各硬盘进行读、写操作。当服务器将未故障硬盘标记为“故障”时,所述服务器管理设备将无法对标记为“故障”的硬盘进行读写操作,此时,所述服务器管理设备认为该硬盘中存储的数据需要进行异地重构,将以副本方式存储的数据在其他服务器中的可用硬盘中重构。
优选地,服务器可在接收到下电指示消息后,不论本地未故障硬盘中的数据是否是否重构,直接向服务器监控设备返回响应消息,并下电;也可以等待本地未故障硬盘中的数据全部重构完毕后,再向服务器监控设备返回响应消息,并下电。
基于以上实施例一提供的服务器硬盘的维护方法,本发明实施例二还提供了一种服务器硬盘的维护系统。
实施例二:
下面结合图2详细介绍所述服务器硬盘的维护系统,主要包括以下功能单元:
服务器监控设备201,用于获取服务器集群中各服务器的硬盘状态信息,并根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器,以及向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态。
服务器202,用于在接收到的下电指示消息后下电。
优选地,所述服务器监控设备201,具体用于在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
所述服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
优选地,所述服务器监控设备201,具体用于判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护;
若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
优选地,所述服务器202,还用于将本地的未故障硬盘标记为故障后,向所述服务器监控设备返回响应消息。
优选地,所述服务器监控设备201,还用于在接收到所述服务器返回的响应消息时,通过所述服务器的智能平台管理接口,控制所述服务器下电。
优选地,所述系统还包括:服务器管理设备203,用于在所述服务器下电前,针对服务器中未故障硬盘中的数据进行异地重构;或者在所述服务器下电后,针对服务器中未故障硬盘中的数据进行异地重构。
基于本发明实施例一提供的服务器硬盘的维护方法,本发明实施例三还提供了一种服务器监控设备。
实施例三:
如图3所示,为本发明实施例三提供的一种服务器监控设备,具体包括:
信息获取单元301,用于获取服务器集群中各服务器的硬盘状态信息,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态。
确定单元302,用于根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器。
发送单元303,用于向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护。
优选地,所述确定单元302,具体用于在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
所述服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
优选地,所述确定单元302,具体用于判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护,若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
优选地,所述服务器监控设备还包括:
接收单元304,用于接收所述服务器返回的响应消息,所述响应消息是服务器将本地的未故障硬盘标记为故障后返回的。
控制单元305,用于通过所述服务器的智能平台管理接口,控制所述服务器下电。
在图3中,信息获取单元301可以获取服务器集群中服务器1、服务器2、服务器3的硬盘状态信息,然后由确定单元302根据获取的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器为服务器3,并由发送单元303向服务器3发送下电指示消息。之后由服务器3对该指示消息进行响应,接收单元304接收服务器3返回的响应消息,从而,使得控制单元305可以通过服务器的智能平台管理接口控制服务器下电。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种服务器硬盘的维护方法,其特征在于,所述方法包括:
获取服务器集群中各服务器的硬盘状态信息,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态;
根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器;
向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护。
2.如权利要求1所述的方法,其特征在于,根据服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器,具体包括:
在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
3.如权利要求1所述的方法,其特征在于,根据服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器,具体包括:
判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护;
若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
4.如权利要求1~3任一所述的方法,其特征在于,所述方法还包括:
接收所述服务器返回的响应消息,所述响应消息是服务器将本地的未故障硬盘标记为故障后返回的;
通过所述服务器的智能平台管理接口,控制所述服务器下电。
5.如权利要求1~3任一所述的方法,其特征在于,所述方法还包括:
在所述服务器在下电前,服务器中未故障硬盘中的数据进行异地重构;或者在所述服务器下电后,服务器中未故障硬盘中的数据进行异地重构。
6.一种服务器硬盘的维护系统,其特征在于,所述系统包括:
服务器监控设备,用于获取服务器集群中各服务器的硬盘状态信息,并根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器,以及向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态;
服务器,用于在接收到的下电指示消息后下电。
7.如权利要求6所述的系统,其特征在于,
所述服务器监控设备,具体用于在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
所述服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
8.如权利要求6所述的系统,其特征在于,
所述服务器监控设备,具体用于判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护;
若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
9.如权利要求6~8任一所述的系统,其特征在于,
所述服务器,还用于将本地的未故障硬盘标记为故障后,向所述服务器监控设备返回响应消息;
所述服务器监控设备,还用于在接收到所述服务器返回的响应消息时,通过所述服务器的智能平台管理接口,控制所述服务器下电。
10.如权利要求6~8任一所述的系统,其特征在于,所述系统还包括:
服务器管理设备,用于在所述服务器下电前,针对服务器中未故障硬盘中的数据进行异地重构;或者在所述服务器下电后,针对服务器中未故障硬盘中的数据进行异地重构。
11.一种服务器监控设备,其特征在于,所述设备包括:
信息获取单元,用于获取服务器集群中各服务器的硬盘状态信息,所述硬盘状态信息包括服务器中故障硬盘的数量和未故障硬盘的运行状态;
确定单元,用于根据各服务器的硬盘状态信息和预设的下电维护条件,确定需要进行下电维护的服务器;
发送单元,用于向确定的服务器发送下电指示消息,使接收到下电指示消息的服务器进行下电维护。
12.如权利要求11所述的设备,其特征在于,
所述确定单元,具体用于在所述下电维护条件为服务器的硬盘可用率未达到设定门限值时,将可用率未达到所述设定门限值的服务器确定为需要进行下电维护的服务器;
所述服务器的硬盘可用率通过以下公式确定:
AR = Σ i = 1 M - N ( 1 - p i % ) / M
其中,AR为服务器的硬盘可用率;pi%为第i个未故障硬盘出现故障的概率;所述未故障硬盘出现故障的概率是根据未故障硬盘的运行状态确定的;M为服务器的硬盘总数;N为故障硬盘的数量。
13.如权利要求11所述的设备,其特征在于,
所述确定单元,具体用于判断服务器中故障硬盘的数量是否达到第一设定阈值,若到达,则确定该服务器需要进行下电维护,若未达到,则根据未故障硬盘的运行状态确定未故障硬盘出现故障的概率,判断未故障硬盘出现故障的概率平均值是否达到第二设定阈值,若达到第二设定阈值,则确定该服务器需要进行下电维护,若未达到第二设定阈值,则确定该服务器无需进行下电维护。
14.如权利要求11~13任一所述的设备,其特征在于,所述设备还包括:
接收单元,用于接收所述服务器返回的响应消息,所述响应消息是服务器将本地的未故障硬盘标记为故障后返回的;
控制单元,用于通过所述服务器的智能平台管理接口,控制所述服务器下电。
CN201310629347.8A 2013-11-29 2013-11-29 一种服务器硬盘的维护方法、系统及服务器监控设备 Pending CN104679623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310629347.8A CN104679623A (zh) 2013-11-29 2013-11-29 一种服务器硬盘的维护方法、系统及服务器监控设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310629347.8A CN104679623A (zh) 2013-11-29 2013-11-29 一种服务器硬盘的维护方法、系统及服务器监控设备

Publications (1)

Publication Number Publication Date
CN104679623A true CN104679623A (zh) 2015-06-03

Family

ID=53314709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310629347.8A Pending CN104679623A (zh) 2013-11-29 2013-11-29 一种服务器硬盘的维护方法、系统及服务器监控设备

Country Status (1)

Country Link
CN (1) CN104679623A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105867848A (zh) * 2016-03-28 2016-08-17 联想(北京)有限公司 一种信息处理方法及硬盘模组
CN106407090A (zh) * 2016-09-23 2017-02-15 郑州云海信息技术有限公司 一种光路诊断服务器状态显示面板
CN108173672A (zh) * 2017-12-04 2018-06-15 华为技术有限公司 检测故障的方法和装置
CN109945968A (zh) * 2019-03-19 2019-06-28 苏州浪潮智能科技有限公司 一种检测硬盘多部位受噪音冲击大小的装置、方法及系统
CN110908824A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 一种故障识别方法、装置及设备
CN112882908A (zh) * 2019-11-29 2021-06-01 北京百度网讯科技有限公司 用于生成信息的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060075283A1 (en) * 2004-09-30 2006-04-06 Copan Systems, Inc. Method and apparatus for just in time RAID spare drive pool management
CN102591591A (zh) * 2011-12-19 2012-07-18 杭州瑞网广通信息技术有限公司 磁盘检测系统、磁盘检测方法以及网络存储系统
CN102662787A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种保护系统盘raid的方法
CN103049400A (zh) * 2012-12-27 2013-04-17 华为技术有限公司 一种磁盘重构方法及其装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060075283A1 (en) * 2004-09-30 2006-04-06 Copan Systems, Inc. Method and apparatus for just in time RAID spare drive pool management
CN102591591A (zh) * 2011-12-19 2012-07-18 杭州瑞网广通信息技术有限公司 磁盘检测系统、磁盘检测方法以及网络存储系统
CN102662787A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种保护系统盘raid的方法
CN103049400A (zh) * 2012-12-27 2013-04-17 华为技术有限公司 一种磁盘重构方法及其装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105867848A (zh) * 2016-03-28 2016-08-17 联想(北京)有限公司 一种信息处理方法及硬盘模组
CN105867848B (zh) * 2016-03-28 2019-09-13 深圳忆联信息系统有限公司 一种信息处理方法及硬盘模组
CN106407090A (zh) * 2016-09-23 2017-02-15 郑州云海信息技术有限公司 一种光路诊断服务器状态显示面板
CN108173672A (zh) * 2017-12-04 2018-06-15 华为技术有限公司 检测故障的方法和装置
CN109945968A (zh) * 2019-03-19 2019-06-28 苏州浪潮智能科技有限公司 一种检测硬盘多部位受噪音冲击大小的装置、方法及系统
CN112882908A (zh) * 2019-11-29 2021-06-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN112882908B (zh) * 2019-11-29 2023-08-01 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110908824A (zh) * 2019-12-04 2020-03-24 支付宝(杭州)信息技术有限公司 一种故障识别方法、装置及设备

Similar Documents

Publication Publication Date Title
CN104679623A (zh) 一种服务器硬盘的维护方法、系统及服务器监控设备
US10013325B1 (en) Providing resiliency to a raid group of storage devices
CN106802854B (zh) 一种多控制器系统的故障监控系统
EP2672387B1 (en) A distributed object storage system
CN103354503A (zh) 一种可自动检测及替换故障节点的云存储系统及其方法
CN108153622B (zh) 一种故障处理的方法、装置和设备
CN103812699A (zh) 基于云计算的监控管理系统
CN111796959B (zh) 宿主机容器自愈方法、装置及系统
CN105430327A (zh) 一种nvr集群备份方法及装置
CN102981939B (zh) 磁盘监控方法
CN103024786B (zh) 一种资源管理方法和系统
CN114064374A (zh) 一种基于分布式块存储的故障检测方法和系统
CN105573872A (zh) 数据存储系统的硬盘维护方法和装置
CN101854263B (zh) 网络拓扑的分析处理方法、系统和管理服务器
CN203289491U (zh) 一种故障节点可自动修复的集群存储系统
CN108519940A (zh) 一种存储设备告警方法、系统及计算机可读存储介质
CN111880992B (zh) 一种存储设备中控制器状态的监测及维护方法
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN111930719A (zh) 一种数据库访问方法、装置及系统
WO2023125702A1 (zh) 换电站的云管理方法、系统、服务器及存储介质
CN109104314B (zh) 一种修改日志配置文件的方法及装置
CN114595092B (zh) 分布式存储系统、数据重构方法、设备及存储介质
CN102521388B (zh) 一种用于电力信息检索的低耦合高可用装置
CN105550065A (zh) 一种进行数据库服务器通信管理的方法和装置
CN112905410B (zh) 设备状态监控系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20180601