CN109408328A

CN109408328A - 一种硬盘健康状态的监测方法、装置以及设备

Info

Publication number: CN109408328A
Application number: CN201811169034.8A
Authority: CN
Inventors: 亓浩; 赵帅; 肖占慧
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-03-01

Abstract

本申请提供了一种硬盘健康状态的监测方法，该监测方法通过自动获取与硬盘健康状态相关的属性信息，以根据该属性信息和预设高危条件判断出该硬盘当前是否处于高危状态，一旦发现该硬盘处于高危状态，就生成告警信息，并通过系统通知方式向用户发送该告警信息，以提示用户及时维护该硬盘，可见，利用该监测方法能够自动且及时发现硬盘即将出现故障，从而能够在硬盘还未出现故障之前，及时发出告警，以提示维护人员对该硬盘进行维护，从而能够有效地避免硬盘故障造成的数据丢失以及数据恢复耗费大量的I\O资源，从而保证存储系统的稳定性。另外，本申请还提供了对应的装置和设备。

Description

一种硬盘健康状态的监测方法、装置以及设备

技术领域

本申请涉及数据存储技术领域，尤其涉及一种硬盘健康状态的监测方法、装置以及设备。

背景技术

随着大数据和云计算技术的不断发展，存储系统的存储压力越来越大，为了应对海量数据存储和读取，存储系统会部署大量的硬盘，同时，为了保证存储系统的稳定性和可靠性，通常需要监控存储系统中硬盘的健康情况。

目前，通常是由专业技术人员通过主机端手动输入命令，以查询存储系统中的硬盘的相关信息，进而根据这些信息人工判断硬盘的健康情况，以在发现硬盘故障和损伤之后再去人工干预；这种人工监控硬盘的方式，无法提前获知硬盘的健康状况，常常滞后发现硬盘故障，在此之后才去修复数据，而这就会浪费大量的计算和I/O资源，并且，在这一期间，由于负载突增会引发另一硬盘故障，造成双盘失效丢数据的问题

基于此，在存储系统应用中，亟需提供一种方案能够智能预测硬盘的健康状态，以使存储系统的维护人员根据预测情况提早发现问题及时维护，以降低对计算和I/O资源的消耗，降低双盘失效丢数据的风险，提高存储系统的稳定性。

发明内容

本申请实施例提供了一种硬盘健康状态的监测方法，该方法提出了根据硬盘工作时的属性信息自动监测硬盘的健康状态以及时预测出硬盘是否会出故障，并通过告警信息提示维护人员及时维护，从而避免硬盘故障造成的数据丢失以及数据恢复耗费大量的I\O资源，从而保证存储系统的稳定性。

在本申请第一方面提供了一种硬盘健康状态的监测方法，该监测方法包括：

获取与硬盘健康状态相关的属性信息；

根据所述属性信息和预设高危条件，判断所述硬盘是否处于高危状态；

若是，则生成告警信息，并通过系统通知方式向用户发送所述告警信息，所述告警信息用于提示用户及时维护处于高危状态的所述硬盘。

可选的，所述获取与硬盘健康状态相关的属性信息，包括：

执行信息读取命令，以轮询方式针对存储设备中配置的各个硬盘，分别获取与硬盘健康状态相关的属性信息，所述属性信息包括颗粒平均擦写次数和/或者使用中新增坏块数。

可选的，所述属性信息包括颗粒平均擦写次数；

则所述根据所述属性信息和预设高危条件，判断所述硬盘是否处于高危状态，包括：

针对每个硬盘，计算与该硬盘相关的颗粒平均擦写次数与该硬盘使用的闪存颗粒寿命的比值，作为该硬盘的已使用寿命；

针对每个硬盘，根据该硬盘的已使用寿命判断该硬盘是否满足预设高危条件，若是，则确定该硬盘处于高危状态；

其中，所述预设高危条件包括第一条件，所述第一条件用于表征硬盘已使用寿命大于第一阈值时硬盘处于高危状态，或者硬盘剩余使用寿命小于第二阈值时硬盘处于高危状态；所述第一阈值大于所述第二阈值。

可选的，所述属性信息包括使用中新增坏块数；

则所述根据所述属性信息和预设高危条件，判断所述硬盘当前是否处于高危状态，包括：

针对每个硬盘，根据该硬盘的使用中新增坏块数，判断该硬盘是否满足预设高危条件，若是，则确定该硬盘处于高危状态；所述预设高危条件包括第二条件，所述第二条件用于表征硬盘的使用中新增坏块数大于第三阈值时硬盘处于高危状态。

可选的，所述属性信息包括颗粒平均擦写次数和使用中新增坏块数；

根据该硬盘的已使用寿命判断该硬盘是否满足预设高危条件中的第一条件得到第一判断结果，并且，根据该硬盘的使用中新增坏块数，判断该硬盘是否满足预设高危条件中的第二条件得到第二判断结果；

若所述第一判断结果和所述第二判断结果中至少一个为是，则确定该硬盘处于高危状态；

其中，所述第一条件用于表征硬盘已使用寿命大于第一阈值时硬盘处于高危状态，或者硬盘剩余使用寿命小于第二阈值时硬盘处于高危状态；所述第一阈值大于所述第二阈值；且，所述第二条件用于表征硬盘的使用中新增坏块数大于第三阈值时硬盘处于高危状态。

可选的，在确定所述硬盘处于高危状态时，所述方法还包括：

控制与所述硬盘关联的告警灯，以通过所述告警灯的亮灭状态表征所述硬盘处于需要维护的状态。

可选的，所述通过系统通知方式向用户发送所述告警信息，包括：

向指定邮箱发送所述告警信息，所述告警信息包括与所述硬盘相关的硬件标识信息和用于描述所述硬盘处于高危状态的文字和/或图形，所述硬件标识信息能够唯一标识出所述硬盘。

可选的，在确定所述硬盘处于高危状态之后，包括：

将所述硬盘中存储的数据拷贝至另一硬盘中，所述另一硬盘不处于高危状态；

控制数据读写路径，以停止对所述硬盘的读写操作。

本申请第二方面提供了一种硬盘健康状态的监测装置，该监测装置包括：

获取模块，用于获取与硬盘健康状态相关的属性信息；

判断模块，用于根据所述属性信息和预设高危条件，判断所述硬盘是否处于高危状态；若是，则触发告警模块；

告警模块，用于生成告警信息，并通过系统通知方式向用户发送所述告警信息，所述告警信息用于提示用户及时维护处于高危状态的所述硬盘。

在本申请第三方面提供了一种存储设备，该存储设备包括：

控制器和硬盘；

所述硬盘插入插槽，并通过通信总线与所述控制器进行通信；

所述控制器用于控制对所述硬盘的读写操作；

所述控制器包括处理器和存储器，所述存储器中存储有可执行指令；所述处理器用于从所述存储器中读取所述可执行指令，并在运行所述可执行指令时实现上述本申请第一方面所提供的硬盘健康状态的监测方法。

可选的，所述通信总线为基于高速串行计算机扩展总线标准PCIe的PCIe总线。

可选的，所述存储设备包括多个硬盘，所述多个硬盘中每个硬盘通过插入一个插槽，并通过所述PCIe总线与所述控制器进行通信。

在本申请第四方面提供了一种计算机存储介质，其上存储有程序，所述程序在被处理器执行时实现上述本申请第一方面所提供的硬盘健康状态的监测方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种硬盘健康状态的监测方法，该监测方法通过自动获取与硬盘健康状态相关的属性信息，以根据该属性信息和预设高危条件判断出该硬盘当前是否处于高危状态，一旦发现该硬盘处于高危状态，就生成告警信息，并通过系统通知方式向用户发送该告警信息，以提示用户及时维护该硬盘，可见，利用该监测方法能够自动且及时发现硬盘即将出现故障，从而能够在硬盘还未出现故障之前，及时发出告警，以提示维护人员对该硬盘进行维护，从而能够有效地避免硬盘故障造成的数据丢失以及数据恢复耗费大量的I\O资源，从而保证存储系统的稳定性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种硬盘健康状态的监测方法的应用场景示例图；

图2为本申请实施例提供的一种硬盘健康状态的监测方法的流程图；

图3为本申请实施例提供的一种硬盘健康状态的监测装置的结构图；

图4为本申请实施例提供的一种存储设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的硬盘健康状态的监测方法应用于具有硬盘的设备，以实现对该设备中的硬盘的健康状态进行监控，及时发现即将出现故障的硬盘，即处于高危状态的硬盘，并向维护人员发出告警信息，以提示维护人员及时维护处于高危状态的硬盘，从而有效避免硬盘故障造成的数据丢失以及数据恢复耗费大量的I\O资源，从而保证该设备的存储性能的稳定性。

当然，一般的存储系统会包括多个设备，由多个设备共同提供数据存储与读取服务，而每个设备中都至少部署一个硬盘，而本申请提供的硬盘健康的监测方法能够应用于该存储系统以监控该每个设备中的硬盘的健康状态，从而能够及时发现该存储系统中即将出现故障的硬盘，即处于高危状态的硬盘，并向维护人员发出告警信息，以提示维护人员及时维护该存储系统，从而保证该存储系统的稳定性。

应理解的是，该设备也被称为存储设备，该设备可以是云端存储设备如云端部署的服务器，也可以是普通服务器，当然也可以是其他硬件形态，本申请对所适用的设备的具体形态不做限定，只要设备中配置有硬盘，且需要监控硬盘状态维护硬盘，即可采用本申请提供的方法实现对硬盘健康状态的监测方法以解决问题。

应理解的是，所谓硬盘健康状态一般可以包括状态良好，或者警告状态也即高危状态，所谓状态良好是指硬盘当前能够正常工作，所谓高危状态是指硬盘当前已经不能再继续工作即将出现故障。因此，本申请提供的硬盘健康状态的监测方法主要是为了及时发现硬盘的高危状态，以尽早解决问题，避免硬盘故障造成更大的数据存储事故。

另外，另理解的是，在本申请中提及的硬盘是指支持闪存技术的硬盘，例如固态硬盘。当然，也可以是其他形式的硬盘，只要其支持闪存技术就可以通过本申请提供的监测方法进行监测。

为了便于理解，下面先介绍本申请提供的一种硬盘健康状态的监测方法在实际应用中的应用情况，参见图1，如图1所示，本申请提供的该监测方法应用于具有硬盘的设备，如服务器100中，该服务器100通过硬盘实现数据存储与读取，在该服务器100中，硬盘插入插槽，并通过通信总线如基于高速串行计算机扩展总线标准PCIe的PCIe总线与该服务器100中的控制器101进行通信，从而由控制器101实现对数据的存储读取的控制。其中，该控制器101包括处理器1011和存储器1012，该存储器1012中存储有可执行指令，该处理器1011用于从该存储器中读取该可执行控制，以运行该可执行指令实现本申请提供的该硬盘健康状态的检测方法，获取与硬盘健康状态相关的属性信息；根据所述属性信息和预设高危条件，判断所述硬盘是否处于高危状态；若是，则生成告警信息，并通过系统通知方式向用户发送所述告警信息，所述告警信息用于提示用户及时维护处于高危状态的所述硬盘。如图1所示，服务器100向终端200发送该告警信息，这样，维护人员就能够通过终端200及时获得该稿件信息，并根据该告警信息对服务器100中的硬件进行故障排查，对服务器100进行维护，以保证其工作性能的稳定性。

需要说明的是，在实际应用中，一般情况下，一个设备中会配置有多个硬盘，如图1中的服务器100中所包括的多个硬盘，其中，每个硬盘各自插入一个插槽，以通过通信总线与控制器通信，由该控制器监控每个硬盘的健康状态，以及时发现问题并给出告警信息以使设备的维护人员根据告警信息提早发现问题及时维护，以降低对计算和I/O资源的消耗，降低双盘失效丢数据的风险，提高存储系统的稳定性

当然，也有些情况下，一个设备中也可能仅仅配置一个硬盘，则该硬盘插入一个插槽，并通过通信总线与控制器通信，由该控制监控该硬盘的健康状态，以及时发现问题，避免硬盘故障导致数据丢失无法恢复的问题。

以上是对本申请提供的硬盘健康状态的监测方法的应用场景进行了示例说明。

参见图2，图2为本申请提供的一种硬盘健康状态的监测方法，该方法应用于配置有硬盘的设备中，如图2所示，该方法包括以下步骤201至203；

S201:获取与硬盘健康状态相关的属性信息；

在具体实现时，该设备可以在启动之后就开始执行S201，以实时获取与硬盘健康状态相关的属性信息，及时监控硬盘的健康状态，以尽早发现问题。这里需要说明的是，该属性信息是硬盘在工作时用于表征其工作状态的属性参数，其能够反映硬盘的真实状态情况。例如，若该设备中配置有多个硬盘，则在具体实现时，该设备可以执行信息读取命令，以轮询方式针对存储设备中配置的各个硬盘，分别获取与硬盘健康状态相关的属性信息，所述属性信息包括颗粒平均擦写次数(Wear Levelling Count)和/或者使用中新增坏块数(Grown Failing Block Count)。

具体的，该设备中配置有计时器，从而按照预设的时间周期，周期性地执行S201，以周期性轮询地获取到每个硬盘各自相关的属性信息，从而实现对设备中硬盘进行实时性以及全局性监控，避免出现监控遗漏。

当然，如该设备中仅配置有一个硬盘，同样也可以通过执行信息读取命令的方式，获取与该硬盘健康状态相关的属性信息。

在具体实现时，与硬盘相关的属性信息可以包括颗粒平均擦写次数和/或者使用中新增坏块数；

为了便于理解下面通过示例对如何获取与硬盘健康状态相关的属性信息进行举例说明。

例如，在设备使用Centos等Linux系统时可以通过执行smartctl命令来取得某一固态硬盘(Solid State Drives，SSD)的详细信息。命令具体如下：

#smartctl-a-d megaraid,28/dev/sda1-s on

通过执行该smartctl命令就可得到与SSD相关的如下详细信息：

01 SMART Attributes Data Structure revision number:16

02 Vendor Specific SMART Attributes with Thresholds:

03 ID#ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILEDRAW_VALUE

04 1Raw_Read_Error_Rate 0x002f 100 100 000Pre-fail Always-0

05 5Reallocated_Sector_Ct 0x0033 100 100 000Pre-fail Always-0

06 9Power_On_Hours 0x0032 100 100 000Old_age Always-5572

07 12Power_Cycle_Count 0x0032 100 100 000Old_age Always-3

08 170Grown_Failing_Block_Ct 0x0033 100 100 000Pre-fail Always-0

09 171Program_Fail_Count 0x0032 100 100 000Old_age Always-0

10 172Erase_Fail_Count 0x0032 100 100 000Old_age Always-0

11 173Wear_Levelling_Count 0x0033 090 090 000Pre-fail Always-536

12 174Unexpect_Power_Loss_Ct 0x0032 100 100 000Old_age Always-1

但，在本申请实现时仅需要从这些详细信息中获取与这块SSD的健康状态相关的参数，即Wear Leveling Count(颗粒平均擦写次数)和/或者Grown Failling Block Ct(使用中新增坏块数)这两个参数。具体如上述详细信息中的如下两行信息：

08 170Grown_Failing_Block_Ct 0x0033 100 100 000Pre-fail Always-0

11 173Wear_Levelling_Count 0x0033 090 090 000Pre-fail Always-536

其中，08行：Grown Failing Block Count(使用中新增坏块数):此项代表SSD的闪存颗粒在使用时出现的坏块(类似于HDD的坏道)数量，此处数据为0，即尚未有出现坏块，如果SSD在正常使用时，很短的时间内这个数据产生较大变化，那代表盘可能有问题。

11行：Wear Levelling Count(颗粒平均擦写次数)：这个硬盘是使用了一年的SSD硬盘，显示的数据为536，即这块128G的硬盘的全盘写入/擦除(P/E)536次，这里显示090000，即还有90％的寿命。所以大约这个硬盘使用的闪存颗粒的寿命为5000多次，536约为5000的10％，所以此项值为90(CA)。当然，有的SSD详细信息中并没有这个剩余寿命，我们也可以通过现在的全盘写入/擦除(P/E)次数除上厂商指导的闪存颗粒的寿命，也可以得到这个值。

这里需要说明的是，上述命令、详细信息等都仅仅是示例，不同的设备所支持的命令形式不同，其相关的详细信息的表现形式也可能不同，因此，本申请的实现对命令的具体形式和详细信息的具体形式不做限定，只要能够获得与SSD健康状态相关的属性信息即可。

需要说明的是，针对不同的属性信息需要预先设置不同的高危条件，即预设高危条件以实现对硬盘健康状态的精准监测。

S202:根据所述属性信息和预设高危条件，判断所述硬盘是否处于高危状态；

在具体实现时，针对不同的属性信息对应有不同的预设高危条件，下面对几种可能的实现方式依次进行说明。

第一种实现方式：

在第一种实现方式中仅考虑与硬盘相关的颗粒平均擦写次数来评估硬盘的健康状态，即所述属性信息包括颗粒平均擦写次数；

则S202具体包括：

举例说明：假设该第一阈值为95％，则该第一条件具体为硬盘已使用寿命大于95％；若某个硬盘的已使用寿命为98％，则确定该硬盘此时已处于高危状态。若硬盘的已使用寿命为80％，则确定该硬盘此时不处于高危状态。

再举例说明：假设第二阈值为5％，则该第一条件具体为硬盘剩余使用寿命小于5％；应理解的是，一个硬盘的剩余使用寿命等于1与该硬盘的已使用寿命的差值。基于此，若某个硬盘的已使用寿命为98％，则其剩余使用寿命就是“1-98％”即2％，其小于5％，则确定该硬盘此时已处于高危状态。若硬盘的已使用寿命为80％，则其剩余使用寿命就是“1-80％”即20％，其不小于5％，则确定该硬盘此时不处于高危状态。

第二种实现方式：

在第二种实现方式中仅考虑与硬盘相关的使用中新增坏块数来评估硬盘的健康状态，即所述属性信息包括使用中新增坏块数；

则S202具体包括：

举例说明：假设该第三阈值为100，则该第二条件具体为硬盘的使用中新增坏块数大于100；若某个硬盘的使用中新增坏块数为105块，其大于第三阈值，则确定该硬盘此时已处于高危状态。若硬盘的使用中新增坏块数为95块，其不大于第三阈值，则确定该硬盘此时不处于高危状态。

第三种实现方式：

在第三中实现方式中既考虑与硬盘相关的颗粒平均擦写次数又考虑使用中新增坏块数，综合考虑这两个参数来评估硬盘的健康状态。即所述属性信息包括颗粒平均擦写次数和使用中新增坏块数；

则S202具体包括：

关于第三种方式中涉及颗粒平均擦写次数和使用中新增坏块数这两个参数与预设高危条件的匹配过程是独立进行的，可以参见上述第一种实现方式和第二种实现方式中的具体描述，此处不再赘述。

但需要说明的是，在第三种实现方式中，由于综合考虑了颗粒平均擦写次数和使用中新增坏块数这两个参数，则在最终评估硬盘是否处于高危状态时是以这两个参数的评估结果为依据进行处理的，具体的，是在任意一个参数的评估结果表明硬盘处于高危状态，则就确定该硬盘确实处于高危状态。

该设备在执行S202时，一旦判断出硬盘处于高危状态，此时立即执行S203。S203:若是，则生成告警信息，并通过系统通知方式向用户发送所述告警信息，所述告警信息用于提示用户及时维护处于高危状态的所述硬盘。

在具体实现时，该设备针对所判断出的某个设备处于高危状态的结果生成对应的告警信息，并通过系统通知方式向用户发送该告警信息，以提示用户及时维护处于高危状态的该硬盘，避免硬盘故障造成更大的数据存储事故。

在具体实现时，系统通知方式有多种多样，例如通过短信通知、通过铃声通知、通过邮件通知等等。本申请对采用哪种系统通知方式不做具体限定，此处也不再一一列举，应理解的是，本申请的实现可以兼容任意一种系统通知方式。

考虑到维护人员的工作习惯，在具体实现时，可以优先采用通过邮件通知方式，例如，向指定邮箱发送所述告警信息，所述告警信息包括与所述硬盘相关的硬件标识信息和用于描述所述硬盘处于高危状态的文字和/或图形，所述硬件标识信息能够唯一标识出所述硬盘。

另外，为了方便维护人员在对硬盘进行故障排查时，能够快速准确地定位出硬盘所在位置，则在上述图2所示方法的基础上，还可以通过控制与所述硬盘关联的告警灯，以通过所述告警灯的亮灭状态表征所述硬盘处于需要维护的状态。

例如，当该设备通过执行S201-S203监测出某个硬盘处于高危状态时，则该设备同时控制与该硬盘关联的告警灯闪亮，这样，当维护人员排查设备中硬盘故障时，能够通过告警灯闪亮与否快速定位出处于高危状态的硬盘，以对其进行故障排查。

需要说明的是，不同设备对于告警灯的亮灭控制策略不同，有的设备是以告警灯亮表征硬盘处于告警状态，有的设备是以告警灯灭表征硬盘处于告警状态，而有的设备是以告警灯闪亮表征硬盘处于告警状态。当然，也可以会其他控制策略，本申请对具体控制策略不做限定。

另外，考虑到在实际应用中一旦一个硬盘处于高危状态，则在后续使用中随时都有可能崩溃，为了防止硬盘崩溃导致数据丢失，本申请还提供了具体的解决方案，具体是在上述图2所示方法的基础上还可以增加如下步骤：

在确定硬盘处于高危状态之后，先将所述硬盘中存储的数据拷贝至另一硬盘中，所述另一硬盘不处于高危状态，然后控制数据读写路径，以停止对所述硬盘的读写操作，即通过系统干预存储路径，以避开故障发生率较高的硬盘。

这样就能够防止持续使用处于高危状态的硬盘导致硬盘崩溃数据难恢复的问题，通过及时发现即将故障的硬盘，及时停止使用且将数据转移，以保证数据的可靠性。

应理解的是，设备在监测出某个硬盘处于高危状态时，为了防止数据丢失，在发出告警信息的同时，设备会自动先进行数据备份，将处于高危状态的硬盘中所存储的数据拷贝至另一状态良好的硬盘中，并且还会通过系统干预存储路径，以停止对该处于高危状态的硬盘的访问，以避开该处于高危状态的硬盘。

通过上述实施例可知，本申请提供的硬盘健康状态的监控方法，能够智能预测硬盘的健康状态，并在监控出硬盘处于高危状态时及时发出告警信息，以使维护人员根据预测情况提早发现问题及时维护，以降低对计算和I/O资源的消耗，降低双盘失效丢数据的风险，提高存储系统的稳定性。

与上述方法相对应的，本申请还提供了对应的监控装置。下面对该监控装置进行解释说明。

参见图3，图3为本申请实施例提供的一种硬盘健康状态的监测装置，该监测装置包括：

获取模块301，用于获取与硬盘健康状态相关的属性信息；

判断模块302，用于根据所述属性信息和预设高危条件，判断所述硬盘是否处于高危状态；若是，则触发告警模块；

告警模块302，用于生成告警信息，并通过系统通知方式向用户发送所述告警信息，所述告警信息用于提示用户及时维护处于高危状态的所述硬盘。

可选的，所述获取模块301，具体用于执行信息读取命令，以轮询方式针对存储设备中配置的各个硬盘，分别获取与硬盘健康状态相关的属性信息，所述属性信息包括颗粒平均擦写次数和/或者使用中新增坏块数。

可选的，所述属性信息包括颗粒平均擦写次数；则所述判断模块，具体用于针对每个硬盘，计算与该硬盘相关的颗粒平均擦写次数与该硬盘使用的闪存颗粒寿命的比值，作为该硬盘的已使用寿命；针对每个硬盘，根据该硬盘的已使用寿命判断该硬盘是否满足预设高危条件，若是，则确定该硬盘处于高危状态；其中，所述预设高危条件包括第一条件，所述第一条件用于表征硬盘已使用寿命大于第一阈值时硬盘处于高危状态，或者硬盘剩余使用寿命小于第二阈值时硬盘处于高危状态；所述第一阈值大于所述第二阈值。

可选的，所述属性信息包括使用中新增坏块数；则所述判断模块，具体用于：针对每个硬盘，根据该硬盘的使用中新增坏块数，判断该硬盘是否满足预设高危条件，若是，则确定该硬盘处于高危状态；所述预设高危条件包括第二条件，所述第二条件用于表征硬盘的使用中新增坏块数大于第三阈值时硬盘处于高危状态。

可选的，所述属性信息包括颗粒平均擦写次数和使用中新增坏块数；则所述判断模块，具体用于：针对每个硬盘，计算与该硬盘相关的颗粒平均擦写次数与该硬盘使用的闪存颗粒寿命的比值，作为该硬盘的已使用寿命；根据该硬盘的已使用寿命判断该硬盘是否满足预设高危条件中的第一条件得到第一判断结果，并且，根据该硬盘的使用中新增坏块数，判断该硬盘是否满足预设高危条件中的第二条件得到第二判断结果；若所述第一判断结果和所述第二判断结果中至少一个为是，则确定该硬盘处于高危状态；其中，所述第一条件用于表征硬盘已使用寿命大于第一阈值时硬盘处于高危状态，或者硬盘剩余使用寿命小于第二阈值时硬盘处于高危状态；所述第一阈值大于所述第二阈值；且，所述第二条件用于表征硬盘的使用中新增坏块数大于第三阈值时硬盘处于高危状态。

可选的，所述装置还包括：第一控制模块，用于在确定所述硬盘处于高危状态时，控制与所述硬盘关联的告警灯，以通过所述告警灯的亮灭状态表征所述硬盘处于需要维护的状态。

可选的，所述告警模块具体用于：生成告警信息，并向指定邮箱发送所述告警信息，所述告警信息包括与所述硬盘相关的硬件标识信息和用于描述所述硬盘处于高危状态的文字和/或图形，所述硬件标识信息能够唯一标识出所述硬盘。

可选的，所述装置还包括：第二控制模块，用于将所述硬盘中存储的数据拷贝至另一硬盘中，所述另一硬盘不处于高危状态，并控制数据读写路径，以停止对所述硬盘的读写操作。

另外，本申请还提供了一种存储设备，下面结合图4对该存储设备进行解释说明。

参见图4，图4是本申请实施例提供的一种存储设备的结构图，如图4所示，该存储设备400包括：

控制器401和硬盘402；

所述硬盘402插入插槽403，并通过通信总线404与所述控制器401进行通信；

所述控制器401用于控制对所述硬盘的读写操作；

所述控制器401包括处理器和存储器，所述存储器中存储有可执行指令；所述处理器用于从所述存储器中读取所述可执行指令，并在运行所述可执行指令时实现上述本申请实施例提供的硬盘健康状态的监测方法。

另外，本申请实施例还提供了一种计算机存储介质，其上存储有程序，所述程序在被处理器执行时实现如本申请实施例提供的硬盘健康状态的监测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种硬盘健康状态的监测方法，其特征在于，包括：

获取与硬盘健康状态相关的属性信息；

2.根据权利要求1所述的硬盘健康状态的监测方法，其特征在于，所述获取与硬盘健康状态相关的属性信息，包括：

3.根据权利要求1所述的硬盘健康状态的监测方法，其特征在于，所述属性信息包括颗粒平均擦写次数；

4.根据权利要求1所述的硬盘健康状态的监测方法，其特征在于，所述属性信息包括使用中新增坏块数；

5.根据权利要求1所述的硬盘健康状态的监测方法，其特征在于，所述属性信息包括颗粒平均擦写次数和使用中新增坏块数；

6.根据权利要求1所述的硬盘健康状态的监测方法，其特征在于，在确定所述硬盘处于高危状态时，所述方法还包括：

7.根据权利要求1所述的硬盘健康状态的监测方法，其特征在于，所述通过系统通知方式向用户发送所述告警信息，包括：

8.根据权利要求1所述的硬盘健康状态的监测方法，其特征在于，在确定所述硬盘处于高危状态之后，所述方法还包括：

控制数据读写路径，以停止对所述硬盘的读写操作。

9.一种硬盘健康状态的监测装置，其特征在于，包括：

获取模块，用于获取与硬盘健康状态相关的属性信息；

10.一种存储设备，其特征在于，包括：

控制器和硬盘；

所述控制器用于控制对所述硬盘的读写操作；

所述控制器包括处理器和存储器，所述存储器中存储有可执行指令；所述处理器用于从所述存储器中读取所述可执行指令，并在运行所述可执行指令时实现上述权利要求1至8任一项所述的硬盘健康状态的监测方法。

11.根据权利要求10所述的存储设备，其特征在于，所述通信总线为基于高速串行计算机扩展总线标准PCIe的PCIe总线。

12.根据权利要求11所述的存储设备，其特征在于，所述存储设备包括多个硬盘，所述多个硬盘中每个硬盘通过插入一个插槽，并通过所述PCIe总线与所述控制器进行通信。

13.一种计算机存储介质，其特征在于，其上存储有程序，所述程序在被处理器执行时实现如权利要求1至8任一项所述的硬盘健康状态的监测方法。