CN107731262A

CN107731262A - 一种存储磁盘坏块管理方法、装置、设备及可读存储介质

Info

Publication number: CN107731262A
Application number: CN201710912253.XA
Authority: CN
Inventors: 刘树亮
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-02-23

Abstract

本发明实施例公开了一种存储磁盘坏块管理方法、装置、设备及计算机可读存储介质。其中，方法包括利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测；当检测到目标磁盘出现坏块时，将目标磁盘的坏块信息记录在链表中；利用预先创建的raid线程从链表中获取坏块，并对坏块进行恢复；判断坏块是否完成恢复；若是，则重新校验坏块对应的LBA，并恢复LBA上的用户数据。本申请的技术方案允许磁盘坏块的出现，当检测到坏块时，raid线程及时进行重建恢复坏块和相应的数据，有效的解决了现有技术中出现一次坏块便将磁盘踢出的问题，有利于提升存储环境的可用性和稳定性，降低系统的维护成本。

Description

一种存储磁盘坏块管理方法、装置、设备及可读存储介质

技术领域

本发明实施例涉及存储技术领域，特别是涉及一种存储磁盘坏块管理方法、装置、设备及计算可读机存储介质。

背景技术

磁盘为计算机的外部存储器中类似磁带的装置，作为一种信息载体，可反复进行数据读写，一般将圆形的磁性盘片装在一个方的密封盒子里，以防止磁盘表面划伤而导致数据丢失。磁盘在使用过程中，可能会由于各种因素导致某个扇区不可用，对上层表现为不可读。

在linux操作系统中，linux内核对磁盘的管理较为严苛，一般磁盘出现一次坏块便将该磁盘踢出，从而导致RAID(Redundant Arrays of Independent Disks，磁盘阵列)降级或离线，严重时，甚至会造成用户数据不能访问，维护成本较高。

以raid5为例来说，单块磁盘由于坏块导致离线，raid通过热备盘进行重建，重建过程中如果一块磁盘出现坏块导致磁盘离线，raid就会离线，以此raid创建的存储池就会离线，进一步导致从存储池中创建并映射到主机的逻辑卷离线，进而导致用户数据不可访问。

发明内容

本发明实施例的目的是提供一种存储磁盘坏块管理方法、装置、设备及计算可读机存储介质，提高存储环境的可用性和稳定性，降低维护成本。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种存储磁盘坏块管理方法，包括：

利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测；

当检测到目标磁盘出现坏块时，将所述目标磁盘的坏块信息记录在链表中；

利用预先创建的raid线程从所述链表中获取所述坏块，并对所述坏块进行恢复；

判断所述坏块是否完成恢复；

若是，则重新校验所述坏块对应的LBA，并恢复所述LBA上的用户数据。

可选的，所述利用预先创建的监测线程发送verify命令，以对各硬盘进行坏块的检测包括：

利用预先创建的监测线程，根据预设的监测频率，在到达预设时间时，发送verify命令对各磁盘进行坏块的检测。

可选的，所述对所述坏块进行恢复包括：

对所述坏块对应的LBA执行第一预设次数的写0清除，并接收返回结果；

当接收到的返回结果均为写0出错时，利用reassign blocks命令将所述LBA映射到备用扇区。

可选的，还包括：

统计所述目标磁盘出现介质错误的次数及时间；

判断所述目标磁盘在预设时间段内出现的介质错误的次数是否超过第二预设次数；

若是，则判断raid是否存在冗余；

当判定所述raid存在冗余时，将所述目标磁盘踢出，并提醒用户进行换盘；当判定所述raid不存在冗余时，通过WEB页面发出警告，并提示用户备份数据。

可选的，所述判断所述目标磁盘在预设时间段内出现的介质错误的次数是否超过第二预设次数包括：

判断所述目标磁盘在24h内出现的介质错误的次数是否超过6次；或

判断所述目标磁盘在7*24h内出现的介质错误的次数是否超过20次。

可选的，所述将坏块信息记录在链表中包括：

将出现坏块的时间、所述坏块对应目标磁盘的信息、所述坏块对应的LBA及所属raid信息记录在所述链表中。

可选的，所述利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测包括：

判断各磁盘的容量是否大于预设容量阈值；

若是，则利用预先创建的监测线程发送verify16命令，以对磁盘进行坏块的检测；若否，则利用预先创建的监测线程发送verify10命令，以对磁盘进行坏块的检测。

本发明实施例另一方面提供了一种存储磁盘坏块管理装置，包括：

坏块监测模块，用于利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测；

信息记录模块，用于当检测到目标磁盘出现坏块时，将所述目标磁盘的坏块信息记录在链表中；

坏块恢复模块，用于利用预先创建的raid线程从所述链表中获取所述坏块，并对所述坏块进行恢复；

判断模块，用于判断所述坏块是否完成恢复；

数据恢复模块，用于所述坏块完成恢复时，重新校验所述坏块对应的LBA，并恢复所述LBA上的用户数据。

本发明实施例还提供了一种存储磁盘坏块管理设备，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如前任一项所述存储磁盘坏块管理方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有存储磁盘坏块管理程序，所述存储磁盘坏块管理程序被处理器执行时实现如前任一项所述存储磁盘坏块管理方法的步骤。

本发明实施例提供了一种存储磁盘坏块管理方法，利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测；当检测到目标磁盘出现坏块时，将目标磁盘的坏块信息记录在链表中；利用预先创建的raid线程从链表中获取坏块，并对坏块进行恢复；判断坏块是否完成恢复；若是，则重新校验坏块对应的LBA，并恢复LBA上的用户数据。

本申请提供的技术方案的优点在于，通过监测线程对磁盘的坏块进行检测，允许磁盘坏块的出现，当检测到坏块时，raid线程及时进行重建恢复坏块和相应的数据，有效的解决了现有技术中出现一次坏块便将磁盘踢出的问题，有利于提升存储环境的可用性和稳定性，降低系统的维护成本。

此外，本发明实施例还针对存储磁盘坏块管理方法提供了相应的实现装置、设备及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置、设备及计算机可读存储介质具有相应的优点。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种存储磁盘坏块管理方法的流程示意图；

图2为本发明实施例提供的另一种存储磁盘坏块管理方法的流程示意图；

图3为本发明实施例提供的存储磁盘坏块管理装置的一种具体实施方式结构图；

图4为本发明实施例提供的存储磁盘坏块管理装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种存储磁盘坏块管理方法的流程示意图，本发明实施例可包括以下内容：

S101：利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测。

监测线程为预先创建的，根据预设的监测频率，在到达预设时间时，发送verify命令对各磁盘进行坏块的检测。例如，每隔5s发送一次verify命令，第一次发送verify命令的时间为18点11分30s，那么在18点11分35s，会再一次发送verify命令。

SCSI标准中定义了检测磁盘坏块的命令为verify，用于检测某个LBA范围内是否存在磁盘坏块，根据检测LBA范围大小、磁盘容量、使用功能方面定义了verify10、verify12、verify16、verify32，在此不再做进一步区分。另外，磁盘在出厂时，预留了一部分扇区作为备用，当出现磁盘坏块时，就可以通过scsi命令reassign blocks将磁盘坏块重新映射到备用扇区中，原坏块记录到glist列表中，glist列表用于记录磁盘在后期使用时产生的坏块。

对不同容量的磁盘，采用不同的命令进行监控，具体可为：

判断各磁盘的容量是否大于预设容量阈值；

S102：判断目标磁盘是否出现坏块，当判定到目标磁盘出现坏块时，将目标磁盘的坏块信息记录在链表中。

即当当检测到目标磁盘出现坏块时，将目标磁盘的坏块信息记录在链表中。

Verify命令中定义的verification length设置为1，即1个block size，LBA从0开始每次增加1。当磁盘针对verify命令返回的scsi status为check condition，sense key为03h时，表明检测磁盘存在坏块。

当检测磁盘存在坏块时，可将出现坏块的时间、坏块对应目标磁盘的信息、坏块对应的LBA及所属raid信息记录在链表中，例如可将出现的坏块记录链表BB_list中，链表节点记录出现坏块的时间，出现坏块的磁盘，坏块的LBA地址，所属raid等信息。LBA(logicalblock address，逻辑地址)，定义磁盘扇区的逻辑块地址。

S103：利用预先创建的raid线程从链表中获取坏块，并对坏块进行恢复。

raid(Redundant Arrays of Independent Disks，磁盘冗余阵列)，不仅并发加速磁盘的访问速度，还可以允许一块或多块磁盘坏掉而不丢失数据，并且利用热备盘重新校验恢复数据。

当检测到存在坏块时，调用预先创建的raid线程，从链表中将坏块信息取出，对坏块进行恢复，具体过程可为：

对坏块对应的LBA执行第一预设次数的写0清除，并接收返回结果；

当接收到的返回结果均为写0出错时，利用reassign blocks命令将LBA映射到备用扇区。

Reassign blocks为SCSI标准中定义的一种命令，用于将某LBA指定的块进行重新映射，重新映射之后，原坏块加入到glist中。

第一预设次数可为2次，当然也可为其他数值的次数，本申请对此不做任何限定。

举例来说，raid线程从BB_list中将坏块取出，并写入坏块对应的LBA全0，以恢复坏块，如果尝试2次写0返回出错，可使用reassignblocks命令将磁盘对应的LBA重新映射到备用扇区。

S104：判断坏块是否完成恢复，若是，则执行S105。

S105：重新校验坏块对应的LBA，并恢复LBA上的用户数据。

恢复坏块完成之后，raid线程重新校验此LBA恢复上面的用户数据。

如果坏块无法完成恢复，则直接将目标磁盘踢出，并提醒用户及时进行换盘。

在本发明实施例提供的技术方案中，通过监测线程对磁盘的坏块进行检测，允许磁盘坏块的出现，当检测到坏块时，raid线程及时进行重建恢复坏块和相应的数据，有效的解决了现有技术中出现一次坏块便将磁盘踢出的问题，有利于提升存储环境的可用性和稳定性，降低系统的维护成本。

对单块磁盘来说，如果磁盘出现的坏块次数较多，导致无法进行恢复，鉴于此，可对单块磁盘进行检测，具体可为：

统计目标磁盘出现介质错误的次数及时间；

判断目标磁盘在预设时间段内出现的介质错误的次数是否超过第二预设次数；

预设时间段与第二预设次数，用户可根据具体的情况进行选取，本申请对此不做任何限定。

举例来说，可为判断目标磁盘在24h内出现的介质错误的次数是否超过6次；或判断目标磁盘在7*24h内出现的介质错误的次数是否超过20次。

若是，则判断raid是否存在冗余；

当判定raid存在冗余时，将目标磁盘踢出，并提醒用户进行换盘；当判定raid不存在冗余时，通过WEB页面发出警告，并提示用户备份数据。

每块磁盘有一个长度为20的结构体数组，用于记录出现mediumerror(介质错误)的时间，medium error的LBA等信息。

举例来说，当检测到目标磁盘24小时之内出现超过6次或者7*24小时内出现20次medium error时，并且raid此时存在冗余，可将此块磁盘踢出，以提醒用户及时进行换盘，防止数据丢失；如果raid没有冗余，可通过web界面发出警告，提醒用户提早备份数据。

为了本领域技术人员更加清楚明白理解本申请提供的技术方案，本申请提供了一个具体的实例，请参阅图2，具体可为：

预先创建监测线程和raid线程，开启监测线程每60s发送verify命令，对各磁盘进行坏块的检测，当检测的磁盘的容量大于2T时，利用verify16命令对磁盘进行检测；当检测的磁盘的容量不大于2T时，利用verify10命令对磁盘进行检测，当返回的scsi status为checkcondition，sense key为03h时，表明当前检测磁盘存在坏块，可将该坏块信息记录在BB_list中，然后调用raid线程从链表中获取坏块，对相应的LBA尝试多次写0，当接收到的返回结果均为写0出错时，利用reassign blocks命令将LBA映射到备用扇区，对实现对坏块进行恢复；当坏块完成恢复后，raid线程重新校验坏块对应的LBA，并恢复LBA上的用户数据。而对于单块目标磁盘，当检测到目标磁盘24小时之内出现超过6次或者7*24小时内出现20次medium error时，并且raid此时存在冗余，将该目标磁盘踢出。

本发明实施例还针对存储磁盘坏块管理方法提供了相应的实现装置，进一步使得所述方法更具有实用性。下面对本发明实施例提供的存储磁盘坏块管理装置进行介绍，下文描述的存储磁盘坏块管理装置与上文描述的存储磁盘坏块管理方法可相互对应参照。

参见图3，图3为本发明实施例提供的存储磁盘坏块管理装置在一种具体实施方式下的结构图，该装置可包括：

坏块监测模块301，用于利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测。

信息记录模块302，用于当检测到目标磁盘出现坏块时，将目标磁盘的坏块信息记录在链表中。

坏块恢复模块303，用于利用预先创建的raid线程从链表中获取坏块，并对坏块进行恢复。

判断模块304，用于判断坏块是否完成恢复。

数据恢复模块305，用于坏块完成恢复时，重新校验坏块对应的LBA，并恢复LBA上的用户数据。

可选的，在本实施例的一些实施方式中，请参阅图4，所述装置还可以包括单块磁盘检测模块306，所述单块磁盘检测模块306具体可包括：

统计单元，用于统计目标磁盘出现介质错误的次数及时间；

判断单元，用于判断目标磁盘在预设时间段内出现的介质错误的次数是否超过第二预设次数；

判断执行单元，用于当判定raid存在冗余时，将目标磁盘踢出，并提醒用户进行换盘；当判定raid不存在冗余时，通过WEB页面发出警告，并提示用户备份数据。

在一种具体的实施方式中，所述单块磁盘检测模块306可为判断目标磁盘在24h内出现的介质错误的次数是否超过6次的模块；还可为判断目标磁盘在7*24h内出现的介质错误的次数是否超过20次的模块。

可选的，在本实施例的另一些实施方式中，所述坏块监测模块301可为利用预先创建的监测线程，根据预设的监测频率，在到达预设时间时，发送verify命令对各磁盘进行坏块的检测的模块。

此外，在本申请的其他一些实施方式中，所述坏块恢复模块303可以包括：

写0恢复单元，用于对坏块对应的LBA执行第一预设次数的写0清除，并接收返回结果；

映射单元，用于当接收到的返回结果均为写0出错时，利用reassign blocks命令将LBA映射到备用扇区。

在另外一些实施方式中，所述信息记录模块302可为将出现坏块的时间、坏块对应目标磁盘的信息、坏块对应的LBA及所属raid信息记录在链表中的模块。

具体的，所述坏块监测模块301还可包括：

判断单元，用于判断各磁盘的容量是否大于预设容量阈值；

判断执行单元，用于磁盘的容量大于预设容量阈值时，利用预先创建的监测线程发送verify16命令，以对磁盘进行坏块的检测；磁盘的容量小于预设容量阈值时，则利用预先创建的监测线程发送verify10命令，以对磁盘进行坏块的检测。

本发明实施例所述存储磁盘坏块管理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

由上可知，本发明实施例通过监测线程对磁盘的坏块进行检测，允许磁盘坏块的出现，当检测到坏块时，raid线程及时进行重建恢复坏块和相应的数据，有效的解决了现有技术中出现一次坏块便将磁盘踢出的问题，有利于提升存储环境的可用性和稳定性，降低系统的维护成本。

本发明实施例还提供了一种存储磁盘坏块管理设备，可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上任意一实施例所述存储磁盘坏块管理方法的步骤。

本发明实施例所述存储磁盘坏块管理设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例有效的解决了现有技术中出现一次坏块便将磁盘踢出的问题，有利于提升存储环境的可用性和稳定性，降低系统的维护成本。

本发明实施例还提供了一种计算机可读存储介质，存储有存储磁盘坏块管理程序，所述存储磁盘坏块管理程序被处理器执行时如上任意一实施例所述存储磁盘坏块管理方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种存储磁盘坏块管理方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种存储磁盘坏块管理方法，其特征在于，包括：

判断所述坏块是否完成恢复；

2.根据权利要求1所述的存储磁盘坏块管理方法，其特征在于，所述利用预先创建的监测线程发送verify命令，以对各硬盘进行坏块的检测包括：

3.根据权利要求1所述的存储磁盘坏块管理方法，其特征在于，所述对所述坏块进行恢复包括：

4.根据权利要求1至3任意一项所述的存储磁盘坏块管理方法，其特征在于，还包括：

统计所述目标磁盘出现介质错误的次数及时间；

若是，则判断raid是否存在冗余；

5.根据权利要求4所述的存储磁盘坏块管理方法，其特征在于，所述判断所述目标磁盘在预设时间段内出现的介质错误的次数是否超过第二预设次数包括：

6.根据权利要求4所述的存储磁盘坏块管理方法，其特征在于，所述将坏块信息记录在链表中包括：

7.根据权利要求4所述的存储磁盘坏块管理方法，其特征在于，所述利用预先创建的监测线程发送verify命令，以对各磁盘进行坏块的检测包括：

判断各磁盘的容量是否大于预设容量阈值；

8.一种存储磁盘坏块管理装置，其特征在于，包括：

判断模块，用于判断所述坏块是否完成恢复；

9.一种存储磁盘坏块管理设备，其特征在于，包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7任一项所述存储磁盘坏块管理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有存储磁盘坏块管理程序，所述存储磁盘坏块管理程序被处理器执行时实现如权利要求1至7任一项所述存储磁盘坏块管理方法的步骤。