CN110750213A

CN110750213A - 一种硬盘管理方法及装置

Info

Publication number: CN110750213A
Application number: CN201910849290.XA
Authority: CN
Inventors: 倪小珂
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2020-02-04
Also published as: WO2021047234A1

Abstract

一种硬盘管理方法及装置，涉及存储技术领域，解决了现有技术中业务系统与存储系统独立进行管理，存储系统的硬盘管理无法匹配不同业务对存储需求的差异，造成的存储资源浪费或者存储访问效率不高的问题。该方法包括：业务系统根据I/O访问状态，告知存储系统发生了故障的硬盘输入/输出I/O；存储系统根据该故障信息确定存在故障的硬盘范围；在这个硬盘范围之内，存储系统进一步定位发生故障的硬盘。

Description

一种硬盘管理方法及装置

技术领域

本申请涉及存储技术领域，尤其涉及一种硬盘管理方法及装置。

背景技术

存储系统与业务系统通常是相对独立的两个管理系统，业务系统管理业务设备的控制、调度和运行；业务系统可以通过标准的存储访问接口访问存储系统，以进行数据输入输出(Input/Output，I/O)访问的操作；存储系统管理硬盘存储空间、硬盘故障判断及硬盘修复替换等。

但在实际的使用过程中，不同的业务对存储的需求差异比较明显，例如，对于视频监控业务，电子设备通过摄像头实时获取到连续的视频数据，数据存储主要是较大数据的I/O顺序读写；而数据库业务，例如，电子设备进行文本编辑和查看时，主要进行较小数据的I/O随机读写。可见，不同的业务对存储的压力不同，而存储系统的硬盘管理是一致的，判断硬盘故障的标准也是一致的，由于业务系统与存储系统的管理的独立性，存储系统的硬盘管理无法匹配不同业务对存储需求的差异。当硬盘管理中的硬盘故障阈值设置的比较高，会导致部分业务已经不能正常进行读写访问，而硬盘管理中并未上报相应的硬盘故障信息，也未进行相应的硬盘故障恢复，导致业务系统访问存储系统的故障问题无法恢复；当硬盘管理中的硬盘故障阈值设置的比较低，会导致业务能够正常进行读写访问，而硬盘管理中部分硬盘被标记为故障状态，造成存储资源的浪费。

发明内容

本申请提供一种硬盘管理方法及装置，解决了现有技术中业务系统与存储系统独立进行管理，存储系统的硬盘管理无法匹配不同业务对存储需求的差异，造成的存储资源浪费或者存储访问效率不高的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种硬盘管理方法，应用于存储系统，该存储系统用于存储业务系统的数据，该方法包括：存储系统接收业务系统发送的故障信息，故障信息指示存储系统中的硬盘发生故障，故障信息是业务系统根据对存储系统进行输入/输出I/O访问状态确定的；存储系统根据故障信息确定存在故障的硬盘范围；存储系统确定硬盘范围内存在故障的硬盘；存储系统对存在故障的硬盘进行标记。

上述技术方案中，存储系统根据业务系统发送的、可以指示业务系统的输入/输出I/O访问异常的故障信息，确定存储系统中存在故障的硬盘范围，并进一步确定存在故障的硬盘，从而进行标记和修复。实现了从业务系统的不同业务对存储需求的差异，匹配存储系统的硬盘故障的判断标准，从而提高硬盘利用率，提高判断硬盘故障的准确性和及时性。

在一种可能的设计方式中，该故障信息是业务系统根据对存储系统进行输入/输出I/O访问状态确定的，具体包括以下至少一种：故障信息是业务系统根据I/O访问的缓冲区数据超过预设的第一阈值时确定的；故障信息是业务系统根据I/O访问时间超过预设的第二阈值时确定的；以及，故障信息是业务系统根据I/O访问队列长度超过预设的第三阈值时确定的。上述可能的实现方式中，业务系统根据对存储系统进行I/O访问状态确定故障信息，主要根据I/O访问的缓冲区数据、I/O访问时间或者I/O访问队列长度是否超过预设阈值来确定，从而从业务系统的不同I/O访问情况进行判断，实现了不同业务对存储需求的差异，从而提高判断硬盘故障的准确性和及时性。

在一种可能的设计方式中，该故障信息包括：存储系统进行I/O访问时I/O对应的文件名称；存储系统根据故障信息确定存在故障的硬盘范围包括：存储系统根据文件名称确定文件名称在存储系统中对应的独立硬盘冗余阵列RAID组或者纠删码EC组；RAID组或者EC组为存在故障的硬盘范围。上述可能的实现方式中，根据故障信息中包括的文件名称确定存在故障的RAID组或者EC组，提高了判断硬盘故障的准确性。

在一种可能的设计方式中，该故障信息包括：存储系统进行I/O访问时I/O对应的逻辑单元号LUN信息；则存储系统根据故障信息确定存在故障的硬盘范围包括：存储系统根据LUN信息确定存储系统中与LUN信息对应的RAID组或者EC组；RAID组或者EC组为存在故障的硬盘范围。上述可能的实现方式中，根据故障信息中包括的LUN信息确定存在故障的RAID组或者EC组，提高了判断硬盘故障的准确性。

在一种可能的设计方式中，存储系统确定硬盘范围内存在故障的硬盘，具体包括：存储系统获取预设时间内，硬盘范围内的各个硬盘的异常记录；其中，对于每个硬盘，异常记录包括硬盘的异常次数是否超过硬盘对应的异常类型下的预设阈值的记录；存储系统根据各个硬盘对应的异常记录得到存在故障的硬盘。上述可能的实现方式中，根据硬盘的异常次数确定存在故障的硬盘，能够提高判断硬盘故障的准确性，及时修复故障硬盘。

在一种可能的设计方式中，存储系统确定硬盘范围内存在故障的硬盘，具体包括：存储系统根据预设时间内异常类型的优先级从高到低的顺序，将硬盘范围内第一个超过异常类型对应的预设阈值的硬盘，确定为存在故障的硬盘。上述可能的实现方式中，根据硬盘异常类型的优先级从高到低中第一个超过对应的预设阈值的硬盘确定存在故障的硬盘，能够提高判断硬盘故障的准确性，及时修复故障硬盘。

第二方面，提供一种硬盘管理方法，应用于业务系统，该方法包括：业务系统根据存储系统进行输入/输出I/O的访问状态确定故障信息，故障信息指示存储系统中的硬盘发生故障；业务系统向存储系统发送故障信息，故障信息用于确定存储系统存在故障的硬盘范围。

在一种可能的设计方式中，业务系统根据存储系统进行输入/输出I/O的访问状态确定故障信息，具体包括以下至少一种：业务系统检测到I/O访问的缓冲区数据超过预设的第一阈值时，确定I/O访问对应的故障信息；业务系统检测到I/O的访问时间超过预设的第二阈值时，确定I/O访问对应的故障信息；以及，业务系统检测到I/O的访问队列长度超过预设的第三阈值时，确定I/O访问对应的故障信息。

在一种可能的设计方式中，故障信息包括：存储系统进行I/O访问时I/O对应的文件名称或者逻辑单元号LUN信息。

第三方面，提供一种存储系统，存储系统包括控制器和硬盘，其中，硬盘用于存储业务系统的数据，控制器用于：接收业务系统发送的故障信息，故障信息指示存储系统中的硬盘发生故障，故障信息是业务系统根据对存储系统进行输入/输出I/O访问状态确定的；根据故障信息确定存在故障的硬盘范围；确定硬盘范围内存在故障的硬盘；对存在故障的硬盘进行标记。

在一种可能的设计方式中，故障信息是业务系统根据对存储系统进行输入/输出I/O访问状态确定的，具体包括以下至少一种：故障信息是业务系统根据I/O访问的缓冲区数据超过预设的第一阈值时确定的；故障信息是业务系统根据I/O访问时间超过预设的第二阈值时确定的；以及，故障信息是业务系统根据I/O访问队列长度超过预设的第三阈值时确定的。

在一种可能的设计方式中，故障信息包括：存储系统进行I/O访问时I/O对应的文件名称；则装置具体用于：根据文件名称确定文件名称在存储系统中对应的独立硬盘冗余阵列RAID组或者纠删码EC组；RAID组或者EC组为存在故障的硬盘范围。

在一种可能的设计方式中，故障信息包括：存储系统进行I/O访问时I/O对应的逻辑单元号LUN信息；则装置具体用于：根据LUN信息确定存储系统中与LUN信息对应的RAID组或者EC组；RAID组或者EC组为存在故障的硬盘范围。

在一种可能的设计方式中，该控制器具体用于：获取预设时间内，硬盘范围内的各个硬盘的异常记录；其中，对于每个硬盘，异常记录包括硬盘的异常次数是否超过硬盘对应的异常类型下的预设阈值的记录；存储系统根据各个硬盘对应的异常记录得到存在故障的硬盘。

在一种可能的设计方式中，该控制器具体用于：根据预设时间内异常类型的优先级从高到低的顺序，将硬盘范围内第一个超过异常类型对应的预设阈值的硬盘，确定为存在故障的硬盘。

第四方面，提供一种硬盘管理装置，应用于业务系统，该装置用于：根据存储系统进行输入/输出I/O的访问状态确定故障信息，故障信息指示存储系统中的硬盘发生故障；向存储系统发送故障信息，故障信息用于确定存储系统存在故障的硬盘范围。

在一种可能的设计方式中，该装置具体用于：确定I/O访问的缓冲区数据超过预设的第一阈值时，确定I/O访问对应的故障信息；确定I/O的访问时间超过预设的第二阈值时，确定I/O访问对应的故障信息；以及，确定I/O的访问队列长度超过预设的第三阈值时，确定I/O访问对应的故障信息。

第五方面，提供一种可读存储介质，可读存储介质中存储有指令，当可读存储介质在电子设备上运行时，使得电子设备执行上述第一方面任一项可能的设计方式中的硬盘管理方法。

第六方面，提供一种可读存储介质，可读存储介质中存储有指令，当可读存储介质在电子设备上运行时，使得电子设备执行上述第二方面任一项可能的设计方式中的硬盘管理方法。

第七方面，提供一种计算机程序产品，其特征在于，当计算机程序产品在计算机上运行时，使得计算机执行上述第一方面任一项可能的设计方式中的硬盘管理方法。

第八方面，提供一种计算机程序产品，其特征在于，当计算机程序产品在计算机上运行时，使得所述计算机执行上述第二方面任一项可能的设计方式中的硬盘管理方法。

第九方面，提供一种通信系统，该通信系统包括存储系统和业务系统，所述存储系统可以为上述第三方面任一项可能的设计方式中的装置，所述业务系统可以为上述第四方面任一项可能的设计方式中的装置。

第十方面，提供一种硬盘管理装置，应用于存储系统，该装置包括：接收模块，用于接收业务系统发送的故障信息，故障信息指示存储系统中的硬盘发生故障，故障信息是业务系统根据对存储系统进行业务输入/输出I/O访问状态确定的；故障确定模块，用于根据故障信息确定存在故障的硬盘范围；故障确定模块，还用于确定硬盘范围内存在故障的硬盘；标记模块，用于对存在故障的硬盘进行标记。

可以理解地，上述提供的任一种硬盘管理的方法、装置、系统、计算机存储介质和计算机程序产品，均可以由上文所提供的对应的方法来实现，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种硬盘管理方法的系统架构图；

图2为本申请实施例提供的一种硬盘管理方法的原理示意图；

图3为本申请实施例提供的一种硬盘管理方法的流程示意图；

图4为本申请实施例提供的另一种硬盘管理方法的流程示意图；

图5为本申请实施例提供的一种硬盘管理装置结构示意图；

图6为本申请实施例提供的另一种硬盘管理装置结构示意图。

具体实施方式

本申请的说明书和权利要求书及附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于限定特定顺序。在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

存储设备是指用于储存信息的设备，通常是将信息进行数字化后，再利用电、磁或光学等方式的媒体加以存储。硬盘是目前计算机主要的存储介质，可以存储大量的二进制数据，并且断电后也能保持数据不丢失。其中，硬盘可以是磁盘或者固态硬盘，或者其他可以持久性存储数据的介质。磁盘是指利用磁记录技术存储数据的存储设备。固态硬盘以闪存进行记录。

本申请实施例提供的硬盘管理方法及装置可以应用于采用独立磁盘冗余阵列(Redundant Array ofIndependent Disks，RAID)技术的存储阵列。独立磁盘冗余阵列简称磁盘阵列RAID，通过把多块独立的硬盘(物理硬盘)按不同方式组合起来形成一个硬盘组(逻辑硬盘)，从而提供比单个硬盘更高的存储性能和提供数据冗余的技术。RAID在整个阵列中对数据进行分区，并通过硬盘奇偶校验数据提供数据恢复功能。当一个硬盘由于产生坏道而发生故障时，可以根据奇偶校验数据及阵列中其它硬盘上的数据计算出故障硬盘坏道中所丢失的数据，从而进行坏道修复。本申请的实施例可以应用于各种RAID组合方式，用RAID级别标识，例如RAID-0，RAID-1，RAID-1E，RAID-5，RAID-6，RAID-7，RAID-10或RAID-50等。不同的RAID级别可以满足性能和安全的多种需要。各种RAID级别所需硬盘的数目和存储方式为公众所知，此处不再赘述。

通常来讲，存储系统和业务系统分别是相对独立的系统，如图1所示的硬件架构，业务系统可以通过处理器管理和调度业务设备的运行，例如，业务系统可以通过处理器上运行的视频处理模块以控制摄像头进行实时视频数据的生成。业务系统可以对存储系统中的数据进行读/写。存储系统和业务系统在物理上可以是分离的。在另外一种实现方式中，业务系统和存储系统可以在物理上位于同一个设备中，这种物理设备可以被称为“一体机”。

如图1所示，存储系统可以通过标准的存储访问接口对上层的业务系统提供数据读写服务，还用于管理硬盘存储空间、硬盘故障判断及硬盘修复替换。例如，业务系统上的视频处理模块可以通过存储访问接口将生成的视频数据发送到存储系统，存储系统通过存储访问接口接收业务系统的视频数据，将该视频数据写入存储系统的硬盘中。

存储系统内部自行管理硬盘，运行RAID或者纠删码(Erasure Code，EC)等硬盘管理算法。其中，EC是一种数据保护算法，它将数据分割成片段，将冗余数据块进行扩展、编码，并将其存储在不同的位置，比如硬盘、存储节点或者其它地理位置。例如可以将n份原始数据，增加m份数据，并能通过n+m份中的任意n份数据，还原为原始数据。即如果有任意小于等于m份的数据失效，仍然能通过剩下的数据还原出来。

另外，存储系统内的硬盘故障管理也是独立的，存储系统可以通过存储系统的管理器独立判断硬盘是否正常工作或硬盘故障，然后基于RAID或者EC等算法来进行硬盘的替换或者修复工作。不同厂商的硬盘对故障管理的具体实现方式有差别，本申请对此不做具体限定。

本申请实施例提供一种硬盘管理方法，应用于存储系统和业务系统，所述存储系统和业务系统可以应用于同一台电子设备上，也可以分别应用于不同的电子设备上。所述电子设备可以包括服务器，大型存储器，存储设备，存储服务器，云服务器，计算机或者个人电脑等。

通常来讲，业务系统向存储系统发起某一业务的I/O访问，具体可以为进行数据写入的存储请求或者数据读出的请求。存储系统进行I/O访问操作后，会向业务系统返回该I/O访问成功或失败的响应信息。上述的业务系统和存储系统之间的通信交互可以是现有的标准流程，可以通过标准的访问接口，按照协议规范进行数据通信。

但是在实际的运行过程中，存储系统向业务系统返回了I/O访问成功的响应信息，但是从业务系统来讲，当前的I/O访问实际上可能已经出现了问题，比如I/O访问的响应很慢但能够成功响应的情况，实际已经影响了业务的连续性，需要存储系统进行故障处理。而存储系统基于自身的硬盘管理标准，判断当前的I/O访问认为是正常的，因此存储系统内部并未处理。

因此，本申请的实施例针对上述在业务系统收到存储系统的访问成功的响应信息情况下提出，基于原有的存储系统和业务系统的通信基础上，通过自定义的通信方式，业务系统向存储系统通知I/O访问存在的故障问题，以便存储系统及时作出故障修复处理，从而提高存储访问的准确性和及时性。

本申请实施例通过建立业务系统与存储系统之间的通信联系，如图2所示，业务系统通过业务的I/O访问状态，从业务的角度发现可能的存储异常，(1)通知存储系统业务的I/O访问有异常，以实现业务联动，为存储系统判断硬盘故障的标准提供判断依据。(2)存储系统基于每个硬盘维护硬盘信息表。(3)存储系统可以根据业务的I/O的访问状态和硬盘信息表确定发生故障的硬盘，进行标记并修复，从而可以根据业务反馈，针对性的找到发生故障的硬盘，并进行修复和硬盘重建，可以提高存储资源的利用率和存储访问的准确性和及时性。

需要说明的是，现有技术中仅依靠存储系统本身来判断硬盘是否发生故障。因此可能存在这种情况：由于硬盘已经发生了一定程度的故障，导致其性能已经不能满足业务系统的需求，但是存储系统仍然不认为硬盘发生了故障，以至于业务系统不得不继续使用无法满足需求的硬盘。而使用了本发明的实施例所提供的方案后，可以允许业务系统和存储系统对于“故障”的认定标准不一致。

现有技术还可能存在这种情况：不同业务对硬盘性能要求不一样，有的业务在运行时对硬盘的要求比较高，只能容许硬盘发生轻微的故障；有的业务在运行时对硬盘的要求偏低，可以容忍硬盘发送略微严重的故障后继续使用，但是不管业务的需求是什么，存储系统仍然使用唯一的“故障”认定标准。在使用了本发明的实施例所提供的方案后，可以由业务系统根据不同业务的需求，自行制定不同的“故障”认定标准，因此更加灵活。

此外，本发明实施例所提供的硬盘管理方法可以单独使用，也可以和现有存储系统的故障检测结合使用。当并行使用时，相当于存储系统并存两套故障检测方法，一套是原有的、由存储系统自身触发的故障检测方法，另外一套是由业务系统所触发的故障检测方法。

本申请实施例提供一种硬盘管理方法，如图3所示，该方法包括：

301：业务系统根据存储系统进行I/O的访问状态确定故障信息。

其中，I/O的访问状态主要包括I/O访问异常的状态，也就是业务对存储系统进行读/写功能有异常的状态下，确定对应的故障信息。

确定I/O访问异常的故障信息具体可以根据：当业务系统确定I/O访问的缓冲区数据超过预设的第一阈值时，确定该I/O访问对应的故障信息；其中，第一阈值可以用于表示业务的数据缓冲区数据溢出或者数据缓冲饱和的预设阈值。例如，可以将该第一阈值设置为80％，当缓冲区的数据缓存大于80％，则业务系统后续可能会丢失部分数据，此时，业务系统可以判断为I/O访问状态异常，可以根据I/O访问状态异常所对应的业务确定故障信息。

或者，确定I/O访问异常的故障信息具体可以根据：当业务系统确定I/O的访问时间超过预设的第二阈值时，确定该I/O访问对应的故障信息。即业务系统向存储系统下发I/O访问后，可以开启计时功能，如果超时未返回响应信息，说明下游的存储系统的硬盘可能存在故障，以致未能及时处理I/O访问。其中，第二阈值可以用于表示I/O访问时间的门限设置，例如，可以将该第二阈值设置为2秒，当某一业务的I/O访问时间超过2秒都没有收到响应信息，则可以判断该业务的I/O访问异常，可以根据I/O访问状态异常所对应的业务确定故障信息。

或者，确定I/O访问异常的故障信息具体可以根据：当业务系统确定I/O的访问队列长度超过预设的第三阈值时，确定该I/O访问对应的故障信息。其中，I/O的访问队列是指业务系统对多个业务的I/O访问请求的调度可以采用队列排序的方式，例如，采用队列先入先出的方式。第三阈值可以用于表示I/O的访问队列长度的门限值。当某一业务的I/O访问队列长度超过预设的第三阈值时，则可以判断该业务的I/O访问异常，可以根据I/O访问状态异常所对应的业务确定所述的故障信息。

示例性的，以视频监控业务为例，业务系统上的视频处理模块会实时处理多路摄像头的数据存储，由于摄像头的数据信息源是持续的，I/O访问队列阻塞过久时，就会导致摄像头的数据在缓冲区溢出，从而丢失摄像头的数据。业务系统可以根据该视频处理模块的上述I/O访问状况来进行判断，确定当前的I/O访问是否异常。例如，I/O访问的缓冲区的数据超过预设阈值80％，或者I/O访问时间超过预设的访问时间2秒，则判断当前的视频监控I/O访问异常，则业务系统可以触发业务联动。

进一步的，当业务系统第一次判断满足上述的任意一种情况，则认为业务的I/O访问异常，则可以触发业务联动，也就是业务系统与存储系统之间的联动，业务系统向存储系统发送故障信息。后续满足上述的任意一种情况则计数1，累计计数N次，例如可以将N配置为1000，即累积计数1000次后，再次触发业务联动，业务系统向存储系统发送故障信息。如此可以避免在实际运行过程中，同一个业务在较短时间内频繁触发业务联动的现象，避免反复上报故障信息，造成系统运行缓慢甚至发生故障的现象。

在一些实施例中，业务系统向存储系统发送的故障信息可以包括：存储系统进行I/O访问时的文件名称或者逻辑单元号(Logical Unit Number，LUN)信息。上述的故障信息也可以称为私有信息。

当所述存储系统的存储类型为文件级存储时，也称为文件存储，故障信息可以为文件名称；当所述存储系统的存储类型为块存储时，故障信息可以为LUN信息。其中，文件存储和块存储的底层物理实现都是块存储，只是在对外接口上表现不一致，两者分别可以应用于不同的业务场景。

在一些实施例中，存储系统根据故障信息中的文件名称可以确定该业务数据存储对应的硬盘RAID组或者EC组；或者，存储系统根据故障信息中的LUN信息，可以确定该业务数据存储对应的硬盘RAID组或者EC组。

302：业务系统向存储系统发送故障信息，该故障信息可以用于确定存储系统存在故障的硬盘范围。

存储系统根据故障信息中包括的文件名称，可以确定存储系统中文件名称对应的存储的RAID组或者EC组；或者，存储系统根据故障信息中包括的LUN信息，可以确定存储系统中与所述LUN信息对应的RAID组或者EC组。从而，存储系统可以根据RAID组或者EC组信息确定可能的硬盘故障范围。

其中，存储系统与业务系统之间的通信是基于标准的存储访问接口的，例如，可以通过小型计算机系统接口(Small Computer System Interface，SCSI)进行通信，或者通过文件访问接口，网络附属存储(Network Attached Storage，NAS)的网络文件接口等，具体可以包括业务系统向存储系统发送数据存储请求信息或者存储的数据，存储系统向业务系统发送存储成功或失败的响应信息等。

而本申请的实施例中，可以通过在标准协议之上，自定义私有协议和增加该私有协议对应的接口，实现业务系统向存储系统发送上述故障信息的通信传输。

本申请的实施例对该私有协议的形式不做具体限定，可以基于业务系统和存储系统的实现方式的不同选择不同的协议类型。例如，通过API调用进行通信，或者通过TCP/IP的网络传输协议发送网络报文进行通信等。只要能通过业务系统向存储系统发送故障信息，实现业务联动的通信方式，都在本申请的保护范围。

303：存储系统根据故障信息确定存在故障的硬盘范围。

存储系统可以根据故障信息中包括的文件名称确定该文件名称在存储系统中对应的RAID组或者EC组；则该RAID组或者EC组为存在故障的硬盘范围。

或者，存储系统根据故障信息中包括的LUN信息确定存储系统中与该LUN信息对应的RAID组或者EC组；则该RAID组或者EC组为存在故障的硬盘范围。

304：存储系统根据存在故障的硬盘范围确定存在故障的硬盘。

在一些实施例中，存储系统可以实时对每个硬盘建立硬盘信息表，并维护硬盘信息表中的内容。需要说明的是，存储系统根据每个硬盘的状态建立和维护硬盘信息表的过程，相对上述实施例中的步骤是相对独立的，并不是在触发业务联动之后，而是存储系统根据硬盘状态持续进行维护的。

存储系统可以按照下表1所示的硬盘信息表收集RAID组中每个硬盘的信息，并基于每个硬盘的信息实时维护该硬盘信息表。如图4所示，如业务1，例如为视频监控业务，对应的存储硬盘为RAID1组；业务2对应的存储硬盘为RAID2组。根据上述的步骤301中，业务系统根据存储系统进行业务1和业务2的I/O访问状态，确定故障信息，如确定业务1当前的I/O访问状态超过预设阈值，则将业务1对应的故障信息发送给存储系统，例如该故障信息可以包括RAID1组的硬盘范围。

示例性的，导致硬盘故障的错误大类可以分为慢盘错误、超时错误、硬盘Smart信息、host byte的错误、status byte的错误和status byte错误中check condition等等。每一种错误大类下可以细分为多种不同的异常类型，每种异常类型下可以预先设置对应的预设阈值，记录每个硬盘超过这些预设阈值的异常次数。

其中，慢盘错误是指硬盘的I/O访问是正常的，但是I/O访问的时间比正常的长，但又没有达到超时错误的预设阈值。发生慢盘错误的硬盘I/O访问时间通常比超时错误的时间要短，但是经常的慢盘会影响业务的正常运行，比如摄像头获取视频数据的存储，因此，可以通过记录硬盘发生慢盘错误的次数，判断可能发生故障的硬盘。

需要说明的是，在现有的存储系统判断硬盘故障的基础上，可以适当降低各个异常类型对应的预设阈值，记录硬盘超过这些预设阈值的异常次数。而当硬盘超过某一预设阈值的时候，存储系统并不会直接判断该硬盘发生故障，而是根据业务系统提供的I/O访问有异常的存在故障的硬盘范围内，结合硬盘信息表中记录的这些信息，整体来判断该硬盘是否发生故障。

进一步的，上述每种异常类型对应的预设阈值，可以配置为在线可进行修改的方式，便于后续根据业务需求对预设阈值进行调整。

具体可以为，每个异常类型下超过预设阈值的异常纪录为1，没有超过预设阈值的异常纪录为0，每一个错误大类下的各种异常类型的异常纪录之间取“逻辑或”运算后，得到该错误大类的合计故障分值。其中，“逻辑或”运算的原理是，输入一个或多个操作数为1，则逻辑或运算符返回值为1，因此，每一个错误大类的合计故障分值可能为1或0。

示例性的，错误大类为status byte错误中check condition，可以包括的异常类型有：medium错误，unit attention错误，abort command错误等，上述每种异常类型对应的预设阈值可以设置为：m分钟内发生该异常类型的异常次数大于或者等于n个。则当硬盘disk1在预设时间内，发生unit attention错误的频率超过了该预设阈值，示例性的，可以将m设置为10，n设置为3，则硬盘disk 1在10分钟内发生unit attention错误次数为4个，则如表1所示，该disk 1对应的unit attention错误的异常纪录为1。同一个错误大类下的不同异常类型的异常纪录之间进行逻辑或运算，则得到该硬盘在该错误大类对应的故障分值合计。示例性的，硬盘信息表可以为如下的表1所示。

表1

当存储系统确定存在故障的硬盘范围后，可以调用该硬盘范围对应的硬盘信息表的内容，存储系统根据硬盘信息表的内容确定所述硬盘范围内存在故障的硬盘。

具体的，存储系统可以根据上述步骤303得到的存在故障的硬盘范围和上述的硬盘信息表，确定存储系统中存在故障的硬盘。示例性的，具体的实现方式可以为如下两种：

第一种：

存储系统根据硬盘信息表，获取预设时间内，硬盘范围内的各个硬盘的异常纪录；其中，对于每个硬盘，异常纪录包括：硬盘的异常次数是否超过硬盘对应的异常类型下的预设阈值的记录，以及异常的类型；则存储系统根据各个硬盘对应的异常次数和异常类型对应的权重，计算得到存在故障的硬盘。此外，也可以仅根据异常次数确定硬盘是否发生故障，即当异常次数在阈值范围之内时，认为发生了故障。

在一些实施例中，可以根据上述建立的硬盘信息表中，每个错误大类的故障分值和该错误大类对应的权重进行加权求和运算，即可以得到该硬盘对应的故障总分，存储系统可以将上述确定的硬盘范围内，故障总分最高的硬盘标记为故障硬盘。

示例性的，如下表2所示，存储系统根据故障信息确定存在故障的硬盘范围为disk0～disk3，硬盘信息表如下表2所示。

表2

则根据上述第一种确定故障硬盘的计算方法，找到存在故障的硬盘范围内故障总分中最高的值对应的硬盘，则将其确定为故障硬盘，也就是确定上表2中存在故障的硬盘范围disk0～disk3中，故障总分X1、X2、X3和X4中最高的硬盘确定为故障硬盘。

其中，disk0的故障总分X1的计算可以根据：X1＝1*W1％+0*W2％+1*W3％+......

第二种：

存储系统根据预设时间内异常类型的优先级从高到低的顺序，将上述存在故障的硬盘范围内第一个超过异常类型对应的预设阈值的硬盘，确定为存在故障的硬盘。

在一些实施例中，可以根据上述建立的硬盘信息表中，按照异常的错误大类或者异常类型的优先级从高到低的顺序进行排查，将上述存在故障的硬盘范围内第一个超过异常类型对应的预设阈值的硬盘标记为故障硬盘。示例性的，硬盘信息表可以为如下表3所示。

表3

存储系统判断在预设时间内，优先级由高到低的顺序对上述存在故障的硬盘范围内的硬盘进行排查，如上表3中所示，没有硬盘发生优先级为1的异常类型，优先级为2的错误大类-慢盘错误这一类异常类型中，有一个硬盘disk1标记为1，则表示disk1发生慢盘故障并超过预设的慢盘标准，则确定第一个超过预设阈值的硬盘为disk1，存储系统确定硬盘disk1为故障硬盘。

305：存储系统对存在故障的硬盘进行标记，以便对标记的硬盘进行修复。

将上述步骤304中得到的存在故障的硬盘进行标记，并对所述存在故障的硬盘尝试进行硬盘修复。具体可以为对存在故障的硬盘关闭该硬盘在物理层的端口，一段时间后再开启；或者，对硬盘进行切断电源一段时间后再重新通电等快速恢复操作。

对于不能修复的硬盘，则进行标记后，将该硬盘从RAID组或EC组中移除，导致RAID组或EC组降级或失效，也可称为踢盘处理。踢盘处理后，可以对其余的硬盘根据RAID或EC算法进行重建，例如，重新建立RAID分组。

通过上述方式，存储系统可以找到最合适的判断硬盘故障的标准，从而避免少踢盘引起的I/O访问异常，也避免多踢盘导致的硬盘资源浪费。

由于不同的业务可能对故障的定义不同。因此，在另外一种实现方式中，业务系统可以对故障的标准进行修改，例如把故障定义的更加严格(把原本不被业务系统认为是故障的情况判断为故障)或者更加宽松(把原本被业务系统认为是故障的情况判断为不是故障)。在执行完上面的步骤305之后，在新的故障标准下，业务系统再次发出故障信息给所述存储系统，存储系统收到故障信息之后，再次执行上述的步骤301-305。例如，对于业务系统先后发出的两次故障信息，可以把前一次的故障信息命名为第一故障信息；后一次发出的故障信息命名为第二故障信息；第一故障信息和第二故障信息对故障的定义不同。

本申请的上述实施例，通过建立业务系统通知存储系统的业务联动机制，由业务系统根据业务进行I/O访问的状态判断当前是否存在访问异常，从而触发业务联动，向存储系统发送指示可能存在故障的硬盘范围的故障信息；存储系统根据该故障信息和硬盘记录表，综合判断发生故障的硬盘，从而进行硬盘修复或者重建，以保证业务访问的连续性，解决了现有技术中业务系统与存储系统独立进行管理，存储系统的硬盘管理无法匹配不同业务对存储需求的差异，提高了硬盘资源的利用率，同时可以提高存储访问的准确性和及时性。

需要说明的是，如果业务系统并没有触发业务联动，则存储系统根据其原有的一套故障管理的判断标准，确定在预设时间内，超过异常类型对应的故障阈值的硬盘确定为存在故障的硬盘。所述故障阈值可以为专业技术人员根据业务需求或者该存储系统的硬盘故障率等参数进行设定，与本申请上述实施例中提到的预设阈值不是同一个阈值，整体上，本申请上述实施例中的同一个异常类型的预设阈值可以比现有技术的故障阈值设置的低。本申请上述实施例中的业务联动的判断硬盘故障标准，与存储系统原有的硬盘故障判断标准，可以合一，也可以各自部署，可以根据实施的实际情况进行选择。

本申请实施例还提供一种硬盘管理装置，可以应用于存储系统，如图5所示，该装置500可以包括：接收模块501，故障确定模块502和标记模块503。

其中，接收模块501用于接收业务系统发送的故障信息，该故障信息用于指示存储系统中的硬盘发生故障，是业务系统根据对存储系统进行输入/输出I/O访问状态确定的。

故障确定模块502，用于根据故障信息确定存在故障的硬盘范围；还用于确定硬盘范围内存在故障的硬盘。具体可以用于执行上述方法实施例中的步骤303-304。

标记模块503，用于对存在故障的硬盘进行标记。具体可以用于执行上述方法实施例中的步骤305。

本申请实施例还提供一种硬盘管理装置，可以应用于业务系统，如图6所示，该装置600可以包括：确定模块601和发送模块602。

其中，确定模块601用于根据存储系统进行输入/输出I/O的访问状态确定故障信息，具体可以用于执行上述方法实施例中的步骤301。

发送模块602用于向存储系统发送故障信息，具体可以用于执行上述方法实施例中的步骤302。

所述装置具体的实施方式和可能的示例性描述请参看上述方法实施例的相关内容，此处不再赘述。

本申请实施例还提供一种存储系统，所述存储系统包括控制器和硬盘，其中：硬盘用于存储业务系统的数据；控制器可以用于执行上述方法实施例中的步骤303-306。

本申请实施例还提供一种业务系统，所述业务系统和存储系统通信，所述业务系统包括接口和处理器，处理器可以用于执行上述方法实施例中的步骤301-302，接口用于与存储系统通信，步骤302中，业务系统可以通过该接口向存储系统发送故障信息。具体的实施方式和可能的示例性描述请参看上述方法实施例的相关内容，此处不再赘述。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种硬盘管理方法，应用于存储系统，其特征在于，所述存储系统用于存储业务系统的数据，所述方法包括：

所述存储系统接收所述业务系统发送的故障信息，所述故障信息指示所述存储系统中的硬盘发生故障，所述故障信息是所述业务系统根据对所述存储系统进行输入/输出I/O访问状态确定的；

所述存储系统根据所述故障信息确定存在故障的硬盘范围；

所述存储系统确定所述硬盘范围内存在故障的硬盘；

所述存储系统对所述存在故障的硬盘进行标记。

2.根据权利要求1所述的方法，其特征在于，所述故障信息是所述业务系统根据对所述存储系统进行输入/输出I/O访问状态确定的，具体包括以下至少一种：

所述故障信息是所述业务系统根据I/O访问的缓冲区数据超过预设的第一阈值时确定的；所述故障信息是所述业务系统根据I/O访问时间超过预设的第二阈值时确定的；以及，所述故障信息是所述业务系统根据I/O访问队列长度超过预设的第三阈值时确定的。

3.根据权利要求1或2所述的方法，其特征在于，所述故障信息包括：所述存储系统进行I/O访问时所述I/O对应的文件名称；

所述存储系统根据所述故障信息确定存在故障的硬盘范围包括：

所述存储系统根据所述文件名称确定所述文件名称在所述存储系统中对应的独立硬盘冗余阵列RAID组或者纠删码EC组；被确定的所述RAID组或者所述EC组为所述存在故障的硬盘范围。

4.根据权利要求1或2所述的方法，其特征在于，所述故障信息包括：所述存储系统进行I/O访问时所述I/O对应的逻辑单元号LUN信息；

则所述存储系统根据所述故障信息确定存在故障的硬盘范围包括：

所述存储系统根据所述LUN信息确定所述存储系统中与所述LUN信息对应的RAID组或者EC组；所述RAID组或者所述EC组为所述存在故障的硬盘范围。

5.根据权利要求1所述的方法，其特征在于，所述存储系统确定所述硬盘范围内存在故障的硬盘，具体包括：

所述存储系统获取预设时间内，所述硬盘范围内的各个硬盘的异常记录；其中，对于每个硬盘，所述异常记录包括硬盘的异常次数是否超过硬盘对应的异常类型下的预设阈值的记录；

所述存储系统根据所述各个硬盘对应的所述异常记录确定所述存在故障的硬盘。

6.根据权利要求1所述的方法，其特征在于，所述存储系统确定所述硬盘范围内存在故障的硬盘，具体包括：

所述存储系统根据预设时间内异常类型的优先级从高到低的顺序，将所述硬盘范围内第一个超过所述异常类型对应的预设阈值的硬盘，确定为所述存在故障的硬盘。

7.一种硬盘管理方法，应用于业务系统，其特征在于，所述方法包括：

所述业务系统根据存储系统进行输入/输出I/O的访问状态确定故障信息，所述故障信息指示所述存储系统中的硬盘发生故障；

所述业务系统向所述存储系统发送所述故障信息，所述故障信息用于确定所述存储系统存在故障的硬盘范围。

8.根据权利要求7所述的方法，其特征在于，所述业务系统根据所述存储系统进行输入/输出I/O的访问状态确定故障信息，具体包括以下至少一种：

所述业务系统检测到I/O访问的缓冲区数据超过预设的第一阈值时，确定所述I/O访问对应的所述故障信息；所述业务系统检测到I/O的访问时间超过预设的第二阈值时，确定所述I/O访问对应的所述故障信息；

以及，所述业务系统检测到I/O的访问队列长度超过预设的第三阈值时，确定所述I/O访问对应的所述故障信息。

9.根据权利要求7或8所述的方法，其特征在于，所述故障信息包括：所述存储系统进行I/O访问时所述I/O对应的文件名称或者逻辑单元号LUN信息。

10.一种存储系统，其特征在于，所述存储系统包括控制器和硬盘，其中：

所述硬盘用于存储业务系统的数据；

所述控制器用于：

接收所述业务系统发送的故障信息，所述故障信息指示所述存储系统中的硬盘发生故障，所述故障信息是所述业务系统根据对所述存储系统进行输入/输出I/O访问状态确定的；

根据所述故障信息确定存在故障的硬盘范围；

确定所述硬盘范围内存在故障的硬盘；

对所述存在故障的硬盘进行标记。

11.根据权利要求10所述的存储系统，其特征在于，所述故障信息是所述业务系统根据对所述存储系统进行输入/输出I/O访问状态确定的，具体包括以下至少一种：

12.根据权利要求10或11所述的存储系统，其特征在于，所述故障信息包括：所述存储系统进行I/O访问时所述I/O对应的文件名称；

则所述控制器具体用于：

根据所述文件名称确定所述文件名称在所述存储系统中对应的独立硬盘冗余阵列RAID组或者纠删码EC组；所述RAID组或者所述EC组为所述存在故障的硬盘范围。

13.根据权利要求10或11所述的存储系统，其特征在于，所述故障信息包括：所述存储系统进行I/O访问时所述I/O对应的逻辑单元号LUN信息；

则所述控制器具体用于：

根据所述LUN信息确定所述存储系统中与所述LUN信息对应的RAID组或者EC组；所述RAID组或者所述EC组为所述存在故障的硬盘范围。

14.根据权利要求10所述的存储系统，其特征在于，所述控制器具体用于：

获取预设时间内，所述硬盘范围内的各个硬盘的异常记录；其中，对于每个硬盘，所述异常记录包括硬盘的异常次数是否超过硬盘对应的异常类型下的预设阈值的记录；

所述存储系统根据所述各个硬盘对应的所述异常纪录确定所述存在故障的硬盘。

15.根据权利要求10所述的存储系统，其特征在于，所述控制器具体用于：

根据预设时间内异常类型的优先级从高到低的顺序，将所述硬盘范围内第一个超过所述异常类型对应的预设阈值的硬盘，确定为所述存在故障的硬盘。

16.一种业务系统，所述业务系统和存储系统通信，其特征在于，所述业务系统包括接口和处理器，所述接口用于与所述存储系统通信，所述处理器用于：

根据所述存储系统进行输入/输出I/O的访问状态确定故障信息，所述故障信息指示所述存储系统中的硬盘发生故障；

向所述存储系统发送所述故障信息，所述故障信息用于确定所述存储系统存在故障的硬盘范围。

17.根据权利要求16所述的业务系统，其特征在于，所述处理器具体用于：

检测到I/O访问的缓冲区数据超过预设的第一阈值时，确定所述I/O访问对应的所述故障信息；

检测到I/O的访问时间超过预设的第二阈值时，确定所述I/O访问对应的所述故障信息；

以及，检测到I/O的访问队列长度超过预设的第三阈值时，确定所述I/O访问对应的所述故障信息。

18.根据权利要求16或17所述的业务系统，其特征在于，所述故障信息包括：所述存储系统进行I/O访问时所述I/O对应的文件名称或者逻辑单元号LUN信息。

19.一种计算机程序产品，其特征在于，当所述计算机程序产品在计算机上运行时，使得所述计算机执行权利要求1-9任一项所述的硬盘管理方法。

20.一种可读存储介质，其特征在于，所述可读存储介质中存储有指令，当所述可读存储介质在电子设备上运行时，使得所述电子设备执行权利要求1-9任一项所述的硬盘管理方法。

21.一种通信系统，其特征在于，所述通信系统包括存储系统和业务系统，所述存储系统为权利要求10-15任一项所述的存储系统，所述业务系统为权利要求16-18任一项所述的业务系统。

22.一种硬盘管理装置，应用于存储系统，其特征在于，所述装置包括：

接收模块，用于接收业务系统发送的故障信息，所述故障信息指示所述存储系统中的硬盘发生故障，所述故障信息是所述业务系统根据对所述存储系统进行业务输入/输出I/O访问状态确定的；

故障确定模块，用于根据所述故障信息确定存在故障的硬盘范围；

所述故障确定模块，还用于确定所述硬盘范围内存在故障的硬盘；

标记模块，用于对所述存在故障的硬盘进行标记。