CN112466382A

CN112466382A - 一种raid阵列的巡检方法和装置

Info

Publication number: CN112466382A
Application number: CN202011113571.8A
Authority: CN
Inventors: 苏涛
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-10-17
Filing date: 2020-10-17
Publication date: 2021-03-09

Abstract

本发明公开了一种RAID阵列的巡检方法和装置，方法包括通过基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个区块构建热度记录对象，并周期性地依次执行以下步骤：在预先确定的阈值时间段内，响应于RAID阵列每次处理输入输出请求而将热度记录对象增加一个操作次数；在阈值时间段结束后，将多个区块按照热度记录对象的操作次数由高到低的顺序排成队列，以在队列中确定操作次数最高的区块作为待巡检区块；巡检待巡检区块以生成巡检结果并更新待巡检区块的热度记录对象，同时将待巡检区块的热度记录对象重置为零操作次数。本发明能够优先检测高频读写位置，及时发现媒介错误，提高RAID性能和稳定性。

Description

一种RAID阵列的巡检方法和装置

技术领域

本发明涉及存储领域，更具体地，特别是指一种RAID阵列的巡检方法和装置。

背景技术

RAID(独立磁盘冗余阵列)是一种虚拟化技术，它将多个物理磁盘虚拟成一个大容量的逻辑磁盘提供给外部主机。为了保证逻辑磁盘的高性能和可靠性，RAID在发展过程中，采用了镜像冗余、数据条带、数据校验等关键技术。而RAID巡检也是保证可靠性的一种方法。

RAID巡检的目的是为了检查磁盘上的媒介错误。若巡检操作发现了媒介错误，则会通过数据重构操作来尝试修复，不能被重构修复的将会被当作坏块处理。这样可以保证在后续读写前，尽可能提前发现媒介错误并修复，提高RAID的稳定性和准确性。

现有RAID巡检，是独立巡检，每七天完成一个RAID逻辑盘巡检一遍。在没有其他后台任务时运行，通过读RAID数据来检查驱动器LBA是否可读，校验数据是否一致。系统间隔五分钟启动一次巡检任务，每次巡检足够数量的数据条带，保障实现七天巡检完整个RAID的目标。然而RAID巡检顺序是固定的，都是从阵列的头部向尾部逐次巡检。这种方式有个很大的问题，就是巡检方向固定。如果当前正在逻辑磁盘的前半部分巡检，而读写的操作都在逻辑磁盘的后半部分，这就导致不能及时的发现媒介错误。

针对现有技术中RAID巡检不能及时发现媒介错误的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种RAID阵列的巡检方法和装置，能够优先检测高频读写位置，及时发现媒介错误，提高RAID性能和稳定性。

基于上述目的，本发明实施例的第一方面提供了一种RAID阵列的巡检方法，包括基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个区块构建热度记录对象，并周期性地依次执行以下步骤：

在预先确定的阈值时间段内，响应于RAID阵列每次处理输入输出请求而将输入输出请求所对应的区块的热度记录对象增加一个操作次数；

在阈值时间段结束后，将多个区块按照热度记录对象的操作次数由高到低的顺序排成队列，将队列的未完成巡检的区块中热度记录对象的操作次数最高的区块确定为待巡检区块；

巡检待巡检区块以生成针对待巡检区块的巡检结果并更新待巡检区块的热度记录对象，同时将待巡检区块的热度记录对象重置为零操作次数。

在一些实施方式中，每个区块均包括多个条带；未完成巡检的区块包括未完成巡检的条带；巡检待巡检区块包括巡检待巡检区块中未完成巡检的条带。

在一些实施方式中，巡检待巡检区块包括：响应于待巡检区块中未完成巡检的条带数量小于单次巡检条带数量阈值，而巡检待巡检区块中所有未完成巡检的条带；响应于待巡检区块中未完成巡检的条带数量大于等于单次巡检条带数量阈值，而巡检待巡检区块中数量等于单次巡检条带数量阈值的部分未完成巡检的条带。

在一些实施方式中，单次巡检条带数量阈值大于RAID阵列的总条带数量除以巡检总周期再乘以阈值时间段。

在一些实施方式中，热度记录对象包括操作次数、区块巡检状态、区块中条带巡检状态；

方法还包括：在巡检待巡检区块之前，先根据待巡检区块的热度记录对象的区块中条带巡检状态确定待巡检区块中未完成巡检的条带数量。

在一些实施方式中，更新待巡检区块的热度记录对象包括：将待巡检区块中在本周期内巡检的条带所对应的热度记录对象的区块中条带巡检状态更新为已巡检；将热度记录对象的所有的区块中条带巡检状态均为已巡检的待巡检区块的区块巡检状态更新为已巡检。

在一些实施方式中，生成针对待巡检区块的巡检结果包括：

定位并尝试重构修复待巡检区块上的媒介错误；

响应于针对媒介错误的重构修复失败，而将与媒介错误相关的条带确定为坏块并写入巡检结果。

本发明实施例的第二方面提供了一种RAID阵列的巡检装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个区块构建热度记录对象，并周期性地依次执行以下步骤：

在一些实施方式中，每个区块均包括多个条带；未完成巡检的区块包括未完成巡检的条带；

巡检待巡检区块包括：响应于待巡检区块中未完成巡检的条带数量小于单次巡检条带数量阈值，而巡检待巡检区块中所有未完成巡检的条带；响应于待巡检区块中未完成巡检的条带数量大于等于单次巡检条带数量阈值，而巡检待巡检区块中数量等于单次巡检条带数量阈值的部分未完成巡检的条带。

步骤还包括：在巡检待巡检区块之前，先根据待巡检区块的热度记录对象的区块中条带巡检状态确定待巡检区块中未完成巡检的条带数量；

更新待巡检区块的热度记录对象包括：将待巡检区块中在本周期内巡检的条带所对应的热度记录对象的区块中条带巡检状态更新为已巡检；将热度记录对象的所有的区块中条带巡检状态均为已巡检的待巡检区块的区块巡检状态更新为已巡检。

本发明具有以下有益技术效果：本发明实施例提供的RAID阵列的巡检方法和装置，通过基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个区块构建热度记录对象，并周期性地依次执行以下步骤：在预先确定的阈值时间段内，响应于RAID阵列每次处理输入输出请求而将输入输出请求所对应的区块的热度记录对象增加一个操作次数；在阈值时间段结束后，将多个区块按照热度记录对象的操作次数由高到低的顺序排成队列，将队列的未完成巡检的区块中热度记录对象的操作次数最高的区块确定为待巡检区块；巡检待巡检区块以生成针对待巡检区块的巡检结果并更新待巡检区块的热度记录对象，同时将待巡检区块的热度记录对象重置为零操作次数的技术方案，能够优先检测高频读写位置，及时发现媒介错误，提高RAID性能和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的RAID阵列的巡检方法的流程示意图；

图2为本发明提供的RAID阵列的巡检方法的循环执行流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种及时发现媒介错误的RAID阵列的巡检方法的一个实施例。图1示出的是本发明提供的RAID阵列的巡检方法的流程示意图。

所述的RAID阵列的巡检方法，如图1所示，包括基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个区块构建热度记录对象，并周期性地依次执行以下步骤：

步骤S101，在预先确定的阈值时间段内，响应于RAID阵列每次处理输入输出请求而将输入输出请求所对应的区块的热度记录对象增加一个操作次数；

步骤S103，在阈值时间段结束后，将多个区块按照热度记录对象的操作次数由高到低的顺序排成队列，将队列的未完成巡检的区块中热度记录对象的操作次数最高的区块确定为待巡检区块；

步骤S105，巡检待巡检区块以生成针对待巡检区块的巡检结果并更新待巡检区块的热度记录对象，同时将待巡检区块的热度记录对象重置为零操作次数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

在一些实施方式中，热度记录对象包括操作次数、区块巡检状态、区块中条带巡检状态。方法还包括：在巡检待巡检区块之前，先根据待巡检区块的热度记录对象的区块中条带巡检状态确定待巡检区块中未完成巡检的条带数量。

在一些实施方式中，生成针对待巡检区块的巡检结果包括：

定位并尝试重构修复待巡检区块上的媒介错误；

下面根据图2所示的具体实施例进一步阐述本发明的具体实施方式。

本发明在RAID巡检间隔的五分钟周期内，统计各个区块IO(输入输出)的操作次数。巡检任务启动时，会按区块IO操作热度由高到低的顺序，选择没检测的条带位置进行检测，如此达到提前检查后续IO可能操作位置的目的。

初始化时，在RAID创建并初始化完成后开始区块分割，将RAID按LBA(逻辑区块地址)均分成指定数量的区块；并且为每个区块创建IO热度记录对象，并完成记录对象的初始化。IO热度记录对象中会包括IO操作次数、区块巡检状态，区块中条带巡检状态等参数。

在时间周期中，RAID收到IO操作请求后，进行相应的处理操作，处理完成发送IO操作结果。在RAID处理IO操作请求过程中，热度统计模块会按照IO请求的LBA地址，寻址到对应的区块，将其对应的IO热度记录对象中的IO操作次数加1。

时间周期结束后启动巡检。参见图2，RAID巡检每隔五分钟启动一次，启动后先按照IO热度记录对象中的IO操作次数，将所有区块由高到低进行排序。根据区块排序，逐次检测区块是否巡检完成，直至找到没有检测完成的区块。获取确定区块中需要检测的条带，开始巡检。巡检完成后，更新条带的检测状态。如果区块中所有条带检测完成，更新区块状态为完成检测。本次巡检任务完成后，将所有区块IO热度记录对象中的IO操作次数重置为零，重新统计五分钟内IO操作热度。

从上述实施例可以看出，本发明实施例提供的RAID阵列的巡检方法，通过基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个区块构建热度记录对象，并周期性地依次执行以下步骤：在预先确定的阈值时间段内，响应于RAID阵列每次处理输入输出请求而将输入输出请求所对应的区块的热度记录对象增加一个操作次数；在阈值时间段结束后，将多个区块按照热度记录对象的操作次数由高到低的顺序排成队列，将队列的未完成巡检的区块中热度记录对象的操作次数最高的区块确定为待巡检区块；巡检待巡检区块以生成针对待巡检区块的巡检结果并更新待巡检区块的热度记录对象，同时将待巡检区块的热度记录对象重置为零操作次数的技术方案，能够优先检测高频读写位置，及时发现媒介错误，提高RAID性能和稳定性。

需要特别指出的是，上述RAID阵列的巡检方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于RAID阵列的巡检方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种及时发现媒介错误的RAID阵列的巡检装置的一个实施例。RAID阵列的巡检装置包括：

处理器；和

从上述实施例可以看出，本发明实施例提供的RAID阵列的巡检装置，通过基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个区块构建热度记录对象，并周期性地依次执行以下步骤：在预先确定的阈值时间段内，响应于RAID阵列每次处理输入输出请求而将输入输出请求所对应的区块的热度记录对象增加一个操作次数；在阈值时间段结束后，将多个区块按照热度记录对象的操作次数由高到低的顺序排成队列，将队列的未完成巡检的区块中热度记录对象的操作次数最高的区块确定为待巡检区块；巡检待巡检区块以生成针对待巡检区块的巡检结果并更新待巡检区块的热度记录对象，同时将待巡检区块的热度记录对象重置为零操作次数的技术方案，能够优先检测高频读写位置，及时发现媒介错误，提高RAID性能和稳定性。

需要特别指出的是，上述RAID阵列的巡检装置的实施例采用了所述RAID阵列的巡检方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述RAID阵列的巡检方法的其他实施例中。当然，由于所述RAID阵列的巡检方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述RAID阵列的巡检装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种RAID阵列的巡检方法，其特征在于，包括基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个所述区块构建热度记录对象，并周期性地依次执行以下步骤：

在预先确定的阈值时间段内，响应于RAID阵列每次处理输入输出请求而将所述输入输出请求所对应的所述区块的所述热度记录对象增加一个操作次数；

在所述阈值时间段结束后，将多个所述区块按照所述热度记录对象的操作次数由高到低的顺序排成队列，将所述队列的未完成巡检的区块中所述热度记录对象的操作次数最高的区块确定为待巡检区块；

巡检所述待巡检区块以生成针对所述待巡检区块的巡检结果并更新所述待巡检区块的所述热度记录对象，同时将所述待巡检区块的所述热度记录对象重置为零操作次数。

2.根据权利要求1所述的方法，其特征在于，每个所述区块均包括多个条带；未完成巡检的区块包括未完成巡检的条带；巡检所述待巡检区块包括巡检所述待巡检区块中未完成巡检的条带。

3.根据权利要求2所述的方法，其特征在于，巡检所述待巡检区块包括：

响应于所述待巡检区块中未完成巡检的条带数量小于单次巡检条带数量阈值，而巡检所述待巡检区块中所有未完成巡检的条带；响应于所述待巡检区块中未完成巡检的条带数量大于等于单次巡检条带数量阈值，而巡检所述待巡检区块中数量等于单次巡检条带数量阈值的部分未完成巡检的条带。

4.根据权利要求3所述的方法，所述单次巡检条带数量阈值大于RAID阵列的总条带数量除以巡检总周期再乘以所述阈值时间段。

5.根据权利要求2所述的方法，其特征在于，所述热度记录对象包括操作次数、区块巡检状态、区块中条带巡检状态；

所述方法还包括：在巡检所述待巡检区块之前，先根据所述待巡检区块的所述热度记录对象的区块中条带巡检状态确定所述待巡检区块中未完成巡检的条带数量。

6.根据权利要求5所述的方法，其特征在于，更新所述待巡检区块的所述热度记录对象包括：

将所述待巡检区块中在本周期内巡检的条带所对应的所述热度记录对象的区块中条带巡检状态更新为已巡检；将所述热度记录对象的所有的区块中条带巡检状态均为已巡检的所述待巡检区块的区块巡检状态更新为已巡检。

7.根据权利要求2所述的方法，其特征在于，生成针对所述待巡检区块的巡检结果包括：

定位并尝试重构修复所述待巡检区块上的媒介错误；

响应于针对所述媒介错误的重构修复失败，而将与所述媒介错误相关的条带确定为坏块并写入所述巡检结果。

8.一种RAID阵列的巡检装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时基于逻辑区块地址将经过初始化的RAID阵列分割为多个区块，为每个所述区块构建热度记录对象，并周期性地依次执行以下步骤：

9.根据权利要求8所述的装置，其特征在于，每个所述区块均包括多个条带；未完成巡检的区块包括未完成巡检的条带；

巡检所述待巡检区块包括：响应于所述待巡检区块中未完成巡检的条带数量小于单次巡检条带数量阈值，而巡检所述待巡检区块中所有未完成巡检的条带；响应于所述待巡检区块中未完成巡检的条带数量大于等于单次巡检条带数量阈值，而巡检所述待巡检区块中数量等于单次巡检条带数量阈值的部分未完成巡检的条带。

10.根据权利要求9所述的装置，其特征在于，所述热度记录对象包括操作次数、区块巡检状态、区块中条带巡检状态；

所述步骤还包括：在巡检所述待巡检区块之前，先根据所述待巡检区块的所述热度记录对象的区块中条带巡检状态确定所述待巡检区块中未完成巡检的条带数量；

更新所述待巡检区块的所述热度记录对象包括：将所述待巡检区块中在本周期内巡检的条带所对应的所述热度记录对象的区块中条带巡检状态更新为已巡检；将所述热度记录对象的所有的区块中条带巡检状态均为已巡检的所述待巡检区块的区块巡检状态更新为已巡检。