CN115206406A - 管理独立磁盘冗余阵列的方法和装置 - Google Patents

管理独立磁盘冗余阵列的方法和装置 Download PDF

Info

Publication number
CN115206406A
CN115206406A CN202110389768.2A CN202110389768A CN115206406A CN 115206406 A CN115206406 A CN 115206406A CN 202110389768 A CN202110389768 A CN 202110389768A CN 115206406 A CN115206406 A CN 115206406A
Authority
CN
China
Prior art keywords
raid
storage device
storage
preset time
degraded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110389768.2A
Other languages
English (en)
Inventor
康剑斌
刘友生
徐鑫磊
高健
葛平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202110389768.2A priority Critical patent/CN115206406A/zh
Priority to US17/516,766 priority patent/US11747990B2/en
Publication of CN115206406A publication Critical patent/CN115206406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0617Improving the reliability of storage systems in relation to availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1084Degraded mode, e.g. caused by single or multiple storage removals or disk failures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0632Configuration or reconfiguration of storage systems by initialisation or re-initialisation of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/70Masking faults in memories by using spares or by reconfiguring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开的实施例涉及管理独立磁盘冗余阵列的方法和装置。方法包括检测RAID中的存储设备的异常。方法还包括响应于检测到异常而重置存储设备。方法还包括存储预设时间段内针对RAID的写操作的地址,以用于在存储设备在预设时间段内恢复的情况下重建RAID。根据本公开的实施例,能够高效地处理RAID的临时错误,减少由存储设备或后端引起的RAID的宕机的次数,并且可以显著减少重建RAID所需的计算资源和时间。

Description

管理独立磁盘冗余阵列的方法和装置
技术领域
本公开的实施例涉及计算机领域,并且更具体地,涉及管理独立 磁盘冗余阵列(RAID)的方法、装置、电子设备、计算机可读存储 介质和计算机程序产品。
背景技术
独立磁盘冗余阵列是将多个物理存储设备(例如,硬盘驱动盘或 固态硬盘)合并成单个逻辑单元的数据存储虚拟化技术,用于数据冗 余、性能改进或这两者的目的。根据所需的冗余和性能的水平,数据 以被称为RAID级别的若干方式之一(例如,RAID 0、RAID1、RAID 5等)跨物理存储设备而分布。在针对RAID的I/O读写操作中,数 据将按照对应的RAID级别被分为数据块并分别存储在相应的存储设 备。
在一些情况下,RAID的后端(例如某个存储设备)可能在I/O 操作期间进入临时错误状态(例如,由掉电、固件升级、打嗝(hiccup) 等造成的闪断(glitch)),这将可能返回重试错误。然而,RAID可 能一直通过重试来处理该错误,直到该I/O操作超时,最终导致系统降级、甚至宕机或数据不可用。因此,期望提供改进的方案来改善或 优化这种情况下的RAID性能。
发明内容
根据本公开的第一方面,提供了一种管理独立磁盘冗余阵列 RAID的方法,包括:检测所述RAID中的存储设备的异常;响应于 检测到所述异常,重置所述存储设备;以及存储预设时间段内针对所 述RAID的写操作的地址,以用于在所述存储设备在所述预设时间段 内恢复的情况下重建所述RAID。
根据本公开的第二方面,提供了一种管理RAID的装置,包括: 异常检测单元,被配置为检测所述RAID中的存储设备的异常;以及 异常处理单元,被配置为响应于检测到所述异常,重置所述存储设备; 其中所述异常处理单元还被配置为存储预设时间段内针对所述RAID 的写操作的地址,以用于在所述存储设备在所述预设时间段内恢复的 情况下重建所述RAID。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个 处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少 一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所 述指令当由所述至少一个处理单元执行时,使得所述设备执行根据本 公开的第一方面所述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,包括 机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执 行根据本公开的第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括机器 可执行指令,所述机器可执行指令在由设备执行时使所述设备执行根 据本公开的第一方面所述的方法。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它 们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识 本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开 的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开 示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本公开的实施例的存储系统的示意架构图;
图2示出了根据本公开的实施例的RAID的示例性布局的示意 图;
图3示出了根据本公开的实施例的用于管理RAID的方法的示意 流程图;
图4示出了根据本公开的实施例的RAID的状态图;
图5示出了根据本公开的实施例的用于处理RAID异常的方法的 示意流程图;
图6示出了根据本公开的实施例的用于处理针对RAID的写操作 的方法的示意流程图;
图7示出了根据本公开的实施例的用于重建RAID的方法的示意 流程图;
图8示出了根据本公开的实施例的用于管理RAID的装置的示意 框图;以及
图9示出了可以用来实施本公开内容的实施例的示例设备的示意 性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中 显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本 公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为 了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给 本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包 括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基 于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实 施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至 少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同 的或相同的对象。下文还可能包括其他明确的和隐含的定义。
传统上,存储系统中的一些临时错误可能导致RAID降级甚至宕 机,并且在错误消除后为重建RAID需要较多的计算资源和时间。这 些将使得RAID的性能下降。
发明人注意到这种临时错误很可能仅持续很短的时间(几秒到几 十秒),并且存储设备可以通过简单的重置从临时错误中恢复并重新 上线。至少基于上述认识,本公开提供了一种在基于RAID的存储系 统中改进的存储管理方案。根据该方案,当发生存储设备的I/O错误 或异常时,RAID可以进入临时降级状态并重置存储设备。在临时降 级状态下,针对RAID的写操作的地址可以被存储,以便当存储设备 恢复时,使用所存储的写操作的地址来重建RAID,而不必扫描整个 RAID来确定降级的地址。由此,可以更高效地处理RAID的I/O错 误和异常,减少由设备故障或后端引起的RAID的宕机的次数,并且 可以显著减少重建RAID所需的计算资源和时间。
以下参考图1至9详细描述本公开的实现细节。首先介绍基于 RAID的存储系统的示例基本架构和示例的数据布局。
图1示出了根据本公开的实施例的存储系统100的示意架构图。 如图1所示,存储系统100包括硬件存储池140,其包括多个存储设 备142-1、142-2、142-3、……、142-N(N是大于1的整数)等等, 以用于提供存储系统100的物理存储空间。为便于讨论,这些存储设备有时被统称为或分别称为存储设备142或存储盘142(本公开中可 互换地使用)。存储设备142可以包括各种类型的具有存储功能的设 备,包括但不限于,硬盘(HDD)、固态盘(SSD)、可移除盘、紧 致盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光 盘、串行附接小型计算机系统接口(SCSI)存储盘(SAS)、串行高 级技术附接(SATA)存储盘、任何其他磁性存储设备和任何其他光 学存储设备、或它们的任何组合。
存储系统100中的RAID控制器130建立在多个存储设备142之 上,以利用RAID算法组织存储盘142的物理存储空间。RAID控制 器130可以具有映射功能,用于管理存储系统100的物理地址与逻辑 地址之间的映射。RAID控制器130向上层的处理单元110提供扁平线性逻辑地址空间。
处理单元110利用RAID控制器130提供的逻辑地址空间来对存 储系统100执行I/O操作。具体地,处理单元110可以向RAID控制 器130发送包括逻辑地址的I/O请求,RAID控制器130通过映射功 能查找I/O请求所针对的数据的物理地址(数据被写入的地址或读取 数据的地址),向后端的存储盘142进行实际I/O操作。
存储系统100还包括存储器120(也可以称为内存或主存储器)。 存储器120用于存储被处理单元110以较小延时访问的数据。存储器 120中的数据通常可以是非持久性的,其在存储系统100掉电时消除。
应当理解,图1仅示意性地示出了存储系统100中的与本公开的 实施例相关的单元、模块或组件。图1中示出的各个组件仅是一种示 例存储系统管理架构,在其他基于RAID的存储系统中,可能存在其 他架构划分方式,用于其他功能的其他单元、模块或组件,等等。因 此,本公开的实施例不限于图1所描绘的具体设备、单元、模块或组 件,而是一般性地适用于任何基于RAID技术的存储系统。图1中示 出的各个组件(除硬件存储盘142之外)可以被实现在单个或多个计 算设备中。
以下参照图2描述在RAID中存储数据的方式。在图2以及下文 中,出于解释说明的目的,以RAID 5类型来讨论本公开的示例实施 例。然而,应当理解,本公开的示例实施例可以类似地应用于任何其 他类型的RAID。
图2示出了根据本公开的实施例的RAID的示例性布局200的示 意图。图2中,每个存储盘142按照预设大小被分为若干个存储块202, 并且跨多个存储盘的对应的多个数据块形成若干个条带242-0、 242-1、242-2、242-3、242-3、242-3、242-4、242-5、242-6……242-M (统称为条带242)。因此,RAID物理存储空间被划分成多个条带。 条带有时也可以被称为物理大型块(PLB)。每个条带可以具有相同 大小,例如2MB。
每个条带242的多个存储块202分别被分配用于存储数据和通过 某种编码算法计算得到的校验信息。条带242中的一个或多个存储块 的数据可以由该条带中的其他存储块的数据计算得到。在图2中,每 个条带242中被分配用于存储数据的存储块用“D”标记(条带中存 储数据的存储块还被相应编号),而被分配用于存储校验信息的存储 块用“P”标记。每个条带242中存储数据的存储块和存储校验信息 的存储块的数目取决于RAID类型。在图2所示的基于RAID 5类型 的条带242中,四个存储块202被用于存储数据,而另一个存储块202 被用于存储校验信息。在这种情况下,对于条带大小为2MB的RAID, 每个存储块的大小为512KB。
通过使用校验信息,基于RAID的存储系统允许在某个或某些存 储盘发生故障的情况下,使用其他存储盘的存储块来恢复发生故障的 存储盘上的内容。例如,如果存储盘0发生故障导致其上的存储块不 可访问,则可以使用存储盘1至存储盘4来恢复其上的存储块中的内 容。具体地,对于条带242-0,通过存储块D3、D2、D1和D0可以 计算出P;对于条带242-1,通过存储块P、D7、D6和D5可以计算 出D4,等等。
在一些实施例中,不同条带242中用于存储校验信息的存储块 202的位置可以在不同存储盘142之间循环旋转。例如,在图2中, 条带242-0中用于存储校验信息的存储块202位于存储盘0,条带 242-1中用于存储校验信息的存储块202位于另一存储盘1,条带242-2中用于存储校验信息的存储块202位于不同的存储盘2,以此 类推。随着数据的写入,条带242中的存储块以类似布局方式被用于 存储数据和相应的校验信息。
应当理解,图2仅是基于RAID 5类型的条带的布局方式。其他 类型的RAID的条带可能具有其他方式的布局。在一些实施例中,在 基于其他RAID类型建立的RAID中,每个条带中还可以具有两个或 更多存储块用于存储校验信息。例如,在基于RAID 6类型的RAID中,每个条带包括六个存储块,其中四个存储块用于存储数据,两个 存储块用于存储校验信息。
在存储系统100的操作期间,如果某个存储盘142由于诸如闪断、 故障或者被拔出而变为离线,该存储盘142的所有存储块202被标记 为故障,并且存储系统100将进入降级状态。在这种状态下,由于存 在故障存储盘,每个条带242的I/O访问(读和写)将受到影响。当 存储系统100处于降级状态时,仍然能够对存储系统100进行I/O读 写操作,但是需要避开访问故障存储盘。对于读操作,如果故障盘的 存储块是数据块(D),则需要使用其他良好存储盘的存储块来恢复 要读取的数据;对于写操作,则该写操作将被标记为降级的写操作, 并且相应的地址也被标记为降级。在存储系统100的故障被消除之后, 将针对降级的写操作的地址来重建RAID。
为此,如图2所示,每个存储盘142还包括用于存储元数据的存 储块,这些存储块跨多个存储盘形成条带242-M。存储元数据的存储 块可以位于各个存储盘142的指定区域,并且受保护而不被用于存储 用户数据(例如,如条带0至条带6所示)。元数据可以记录关于RAID中的存储设备的状态信息和条带状态的信息,例如,存在故障 或异常的存储设备的标识符、条带的状态(正常状态还是降级状态)、 条带的校验数据所在的存储设备的标识符等。
图3示出了根据本公开的实施例的用于管理RAID的方法300的 示意流程图。在一些实施例中,方法300可以被实现在存储系统100 处,特别是实现在RAID控制器130处。因此,方法300例如由实现 存储系统100或是实现RAID控制器130的计算设备来实现。
在框310,检测RAID中的存储设备的异常。通常,响应于检测 到异常,RAID可以进入降级状态。传统的存储系统在接收到来自存 储设备的故障事件(例如超时)时,使RAID进入降级状态。但是, 存储系统可能已经在较长的时间内处于性能下降,且未得到处理。在一些实施例中,当位于后端的存储设备(某一存储盘)持续返回可重 试错误时,认为存在异常。例如,当针对某个存储设备的I/O操作(读 或写操作)产生了超过阈值数目的可重试错误时,例如,该I/O操作 产生了3次、5次或者更多次的可重试错误时,确定检测到该存储设备的异常。为此,可以为RAID中的I/O操作设置用于记录可重试错 误的计数器,当计数器的数值设置的阈值时,上报异常。由此,可以 不必等到产生超时错误,从而可以尽早进入异常处理过程。
在一些实施例中,响应于接收到后端存储设备产生的I/O操作的 超时错误,确定该存储设备存在异常。应理解,超时错误显式地指示 了存储设备的异常。
在一些实施例中,当RAID检测到存储设备上的I/O操作的速度 变慢时,确定该存储设备存在异常。可以收集针对后端的存储设备的 I/O操作在最近一段时间内(例如,1分钟、5分钟、10分钟,半小 时等)的完成时间,并计算平均完成时间。例如,如果读操作的平均完成时间大于预设的阈值时间,则确定存在异常,或者如果写操作的 平均完成时间大于预设的另一阈值时间,则确定存在异常。再例如, 可以计算所有存储设备的在最近一段时间内的读操作或写操作的平 均完成时间,并相互比较;当存储设备的I/O操作的平均完成时间显 著慢于其他存储设备时,确定该存储设备存在异常。再例如,可以计 算单个存储设备的在最近一段时间内的读操作或写操作的平均完成 时间,并将其与该存储设备的历史平均完成时间比较;当显著慢于历 史平均时间时,确定该存储设备存在异常。
如图3所示,在框320,响应于检测到异常,重置存储设备。根 据本公开的实施例,存储设备被重置后有可能从错误或异常恢复,从 而重新上线。因此,RAID能够更快地从临时错误恢复,而不必等到 发生超时错误。以下将参照图4至图8来详细描述根据本公开的实施 例的异常处理过程。首先描述RAID的因异常导致的状态转变。
图4示出了根据本公开的实施例的RAID的状态图400。假设在 初始时RAID处于正常状态410,例如,作为如图1至图2所描述的 示例性的RAID 5类型进行I/O操作。响应于检测到RAID中的存储 设备的异常,RAID在其元数据中将标记该存储设备,并且从正常状 态410转变为降级状态,首先进入临时降级状态420。
在进入临时降级状态420并且经过一个预设时间段T1(例如,30 秒至60秒,不限于此)之后,RAID可以进入正式降级状态430。如 果发生异常的存储设备在临时降级状态420是预设时间段T1内、或 者在正式降级状态430的备用时间T2内(例如,5分钟至10分钟, 不限于此)重新上线,则RAID进入重建状态440。或者,如果RAID 在经过备用时间段T2之后仍然未能重新上线,则RAID可以切换为 使用备用存储设备或备用盘以替换发生异常的存储设备,同样也进入 重建状态440。
此外,如图4所示,在临时降级状态420下,可以存储针对降级 状态下的RAID的写操作的地址,例如,在存储器120中的一个存储 区域450中存储降级的写操作的地址。在描述了根据本公开的实施例 的RAID的各个状态及其转变之后,参照图5至8进一步描述与RAID 的状态有关的动作。
图5示出了根据本公开的实施例的用于处理RAID异常的方法 500的示意流程图。在框510,确定是否检测到存储设备的异常。如 上所述,基于针对存储设备的I/O操作产生的可重试错误的次数、存 储设备产生超时错误、存储设备的I/O操作的完成时间等中个一个或 多个,确定检测到异常。
在框520,使RAID降级,以阻止针对存储设备的I/O操作。在 一些实施例中,RAID首先标记存在异常的存储设备,并从正常状态 410转变为临时降级状态420。在临时降级状态420下,针对RAID 的I/O操作均被标记为降级的I/O操作,使得不访问存在异常或错误 的存储设备,例如,不生成针对该存储设备的I/O操作。但是,在临 时降级状态420下,针对RAID的I/O操作仍然可以继续。
为实现临时降级状态420,可以在存储器(例如存储器120)中 设置指示符(例如,一个位)用于指示RAID是否处于临时降级420 状态。在临时降级状态420时,该指示符被置位(例如,设置为值1) 并且,对于分布式RAID的情况,可以在RAID内的多个节点之间同 步该指示符。如上所述,临时降级状态420可以持续一段时间T1(例 如,30秒至1分钟),并且在经过T1后可以清除该指示符(例如, 设置为值0),即,指示RAID不再处于临时降级状态420。
在框530,一旦进入了临时降级状态420,重置存储设备。例如, 可以通过RAID控制器130向存储设备的控制平台发送控制码,以重 置该存储设备。重置存储设备可以例如是重新启动该存储设备,通常, 需要数秒的时间。在重置后,存储设备可能从异常恢复,并再次上线, 因而RAID可以进入到重建状态440,如图4所示。
在此期间,虽然RAID处于临时降级状态420,RAID仍可以接收 I/O操作。对于I/O读操作,RAID可以不生成被标记的异常存储设备 的I/O,从其他存储设备读取数据。当被标记的存储设备的数据存储 校验数据时,可以直接从其他设备获取完整数据,否则,可以使用其 他存储设备的数据通过编码算法计算被标记的存储设备上的数据,由 此获取完整数据。
传统上,为了保持数据一致性,降级期间的写操作的条带被标记 为“降级”,例如在元数据中设置指示相应的降级信息。然后,在存 储设备或替换的存储设备重新上线并重建RAID时,通过扫描RAID 的所有元数据来确定降级的条带,由此恢复相应的数据块,实现条带 数据的一致性。这种方式的问题在于,在降级时间很短的情况下(例 如,发生打嗝),虽然降级状态下的写操作较少,但是每次重建都必 须扫描所有条带,需要较多的计算资源和时间,导致RAID的性能受 到影响。为此,根据本公开的实施例,存储临时降级期间的写操作的 地址,以便在后续重建阶段直接使用。
如图3,在框330,存储预设时间段内针对RAID的写操作的地 址,以用于在存储设备在预设时间段内恢复的情况下重建RAID。以 下参照图6详细描述有关写操作的处理。
图6示出了根据本公开的实施例的用于处理针对RAID的写操作 的方法600的示意流程图。在框610,接收写操作。在一些实施例中, RAID控制器可以从处理单元110接收针对RAID的写操作,写操作 可以包括RAID的物理地址,例如条带的物理地址。如上所述,RAID物理存储空间被划分成多个条带(也称为物理大型块PLB)。替代地, 写操作中的地址也可以是逻辑地址,逻辑地址可以由RAID控制器映 射到RAID的物理地址。
在框620,确定RAID是否处于临时降级状态。在一些实施例中, 通过查询所设置的指示符,可以确定RAID是否处于临时降级状态 420。该指示符在RAID从正常状态转变为临时降级状态420时被设 置。如上所述,临时降级状态420可以持续一段时间T1(例如,30 秒至1分钟)。
如果确定RAID处于临时降级状态420,则在框630,存储写操 作的地址。在一些实施例中,可以在存储器的一块存储区域中存储写 操作的地址,例如,该写操作所针对的条带或PLB的地址。该存储 区域的大小可以取决于所配置的临时降级状态的预设时间段T1。例 如,对于约30秒至1分钟的T1,可以设置约2至4MB的存储区域 来存储写操作的地址。根据本公开的实施例,当存储设备在预设时间 段内重新恢复时,所存储的写操作的地址将被用于重建RAID。
如果确定RAID不处于临时降级状态420,则在框640,执行降 级的写操作。这时,不对存在异常或错误的存储设备执行写操作,例 如,不生成针对该存储设备的I/O操作。
在经过时间段T1之后,临时降级420结束,进入正式降级430。 这时,可以清除在存储器中的指示临时降级状态的指示符,例如设置 为值0。在一些实施例中,可以清空所存储的地址。也就是说,当从 临时降级状态420转变为重建状态时,使用所存储的写操作的地址来 重建RAID,但是当从正式降级状态430转变为重建状态440时,通 过扫描RAID来确定要重建的条带。
需要说明的是,因为不知道存在异常的存储设备是否能够在重置 后快速重新上线,所以在RAID处于降级状态时(无论是临时降级还 是正式降级),与写操作相关的条带均被标记为降级,例如,该条带 的元数据指示该条带是降级的。
根据本公开的实施例,可以通过执行RAID的重建过程来使RAID 从降级状态420、430回到正常状态410。具体地,为了RAID的一致 性,针对降级状态下的写操作来执行重建,可以使用所存储的写操作 的地址来执行重建。以下参照图7描述重建过程。
图7示出了根据本公开的实施例的用于重建RAID的方法700的 示意流程图。
在框710,获取重建指令。在一些实施例中,存储设备可以通过 重置在临时降级时间内恢复,并向RAID控制器发出准备就绪的信号。 替代地,存储设备可能在经过临时降级时间T1后、在正式降级期间 恢复,这时也可以向RAID控制器发出准备就绪的信号。此外,在进 入正式降级状态、经过了正式降级时间T2之后,存储设备仍然未能 恢复上线,并使用备用存储设备的情况下,也可以向RAID控制器发 出备用设备准备就绪的信号。在上述任一种情况下,RAID控制器获 取重建指令,以开始重建过程。
在框720,确定RAID是否处于临时降级状态。具体地,可以通 过查询存储器中的指示符来确定RAID是否处于临时降级状态。如上 所述,在临时降级时间T1内,该标识符被置位(例如,设置为值1); 在经过时间T1之后,该指示符被重置(例如,设置为值0),即离 开临时降级状态。
如果RAID处于临时降级状态,则在框730,使用所存储的地址 来重建RAID。在一些实施例中,可以以迭代的方式获取临时降级期 间的写操作的地址。例如,首先获取最小的条带地址,并根据该条带 地址来重建对应的条带;然后,再获取下一个条带地址,直到所有地 址都已经被重建。
如果RAID不处于临时降级状态,则在框740,扫描RAID以确 定降级的地址。在一些实施例中,可以通过查询RAID的元数据来确 定RAID中的处于降级的条带。相比于简单地使用所存储的写操作的 地址,这将花费更多的时间。
在框750,使用所确定的降级的地址来重建。根据本公开的实施 例,使用存储器中的地址和使用通过扫描RAID确定的地址来重建的 过程是类似的。具体地,使用编码算法,通过条带上的其他存储设备 的存储块来恢复重新上线的存储设备的存储块。
可以看出,如果存储设备从临时降级状态恢复上线,则重建仅需 要处理被降级写操作过的条带,而不必访问所有条带,因此能够更快 地重建RAID。
以上参照图3至图7描述了根据本公开的实施例的管理RAID的 方法。相比于现有的方案,其能够高效地处理RAID的这类临时错误, 减少由存储设备或后端引起的RAID的宕机的次数,并且可以显著减 少重建RAID所需的计算资源和时间。
图8示出了根据本公开的实施例的用于管理RAID的装置800的 示意框图。装置800可以被布置在在存储系统100处,特别是实现在 RAID控制器130处。因此,装置800例如由实现存储系统100或是 实现RAID控制器130的计算设备来实现。
如图所示,装置800包括异常检测单元810、异常处理单元820 和重建单元830。异常检测单元810被配置为检测RAID中的存储设 备的异常。在一些实施例中,异常检测单元810可以基于检查存储设 备的I/O操作产生的可重试错误的次数来检测异常。例如,I/O操作 产生的可重试错误达到阈值次数,例如,3次、5次或更多次。在一 些实施例中,异常检测单元810可以基于存储设备产生的超时错误来 检测异常。应理解,超时错误显式地指示了存储设备的异常。此外, 异常检测单元810还可以基于针对RAID的I/O操作的完成时间来检测异常。I/O操作的完成时间可以最近一段时间内的I/O操作的平均 完成时间。例如,当存储设备的完成时间大于某个阈值,或者相比于 其他存储设备或与历史完成时间明显更慢时,确定该存储设备存在异 常。
异常处理单元820被配置为响应于检测到异常,存储针对所述 RAID的写操作的地址。在一些实施例中,异常处理单元820可以被 配置为响应于检测到所述异常来重置存储设备。例如,异常处理单元 820可以向控制平台发送控制码,使得存储设备重新启动。
异常处理单元820还被配置为存储预设时间段内针对RAID的写 操作的地址,以用于在存储设备在预设时间段内恢复的情况下重建 RAID。在一些实施例中,预设时间段是上述的临时降级状态的持续 时间。当存储设备通过重置而在临时降级状态下恢复时,所存储的写 操作的地址可以被用来重建RAID。写操作的地址可以是例如RAID 的条带或PLB的物理地址,也可以是能够被映射为物理地址的逻辑 地址。
此外,异常处理单元820还可以被配置使RAID进入降级,以阻 止对该存储设备的I/O操作。根据本公开的实施例,RAID首先转变 为临时降级状态,具体地,例如,异常处理单元820可以设置指示符, 当RAID进入临时降级状态时,将该指示符设置为值1,并且在RAID离开临时降级状态进入到正式降级状态时,将该指示符设置为值0。
在一些实施例中,异常处理单元820还可以被配置为将针对降级 (无论临时降级还是正式降级)的RAID的写操作的地址标记为降级。 例如,可以更新该地址的元数据,以指示该地址是降级的。
重建单元830可以被配置为在存储设备从异常恢复的情况下,基 于所存储的地址来重建RAID。在一些实施例中,重建单元830在存 储设备在预设时间段T1(例如,约30秒至1分钟)内恢复的情况下, 例如,当RAID仍然处于临时降级状态时,基于所存储的地址来重建所述RAID。替代地,在经过预设时间T1之后存储设备没有恢复的情 况下,例如,临时降级已经结束后的正式降级期间内恢复,甚至进入 正式降级后一段时间T2(例如,约5至10分钟)也没有恢复,则重 建单元830基于RAID的降级的地址来重建RAID。
类似地,相比于现有的方案,本公开的装置800能够高效地处理 RAID的这类临时错误,减少由存储设备或后端引起的RAID的宕机 的次数,并且可以显著减少重建RAID所需的计算资源和时间。
图9示出了可以用来实施本公开内容的实施例的示例设备900的 示意性框图。例如,根据本公开实施例的备份系统和/或恢复系统可以 由设备900来实施。如图所示,设备900包括中央处理单元(CPU) 901,其可以根据存储在只读存储器(ROM)902中的计算机程序指 令或者从存储单元908加载到随机访问存储器(RAM)903中的计算 机程序指令,来执行各种适当的动作和处理。在RAM 903中,还可 存储设备900操作所需的各种程序和数据。CPU901、ROM 902以及 RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接 至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906, 例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器 等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网 卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/ 数据。
上文所描述的各个过程和处理,例如方法200和/或方法700,可 由处理单元901执行。例如,在一些实施例中,方法200和/或方法 700可被实现为计算机软件程序,其被有形地包含于机器可读介质, 例如存储单元908。在一些实施例中,计算机程序的部分或者全部可 以经由ROM 902和/或通信单元909而被载入和/或安装到设备900 上。当计算机程序被加载到RAM 903并由CPU 901执行时,可以执 行上文描述的方法200和/或方法700的一个或多个动作。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程 序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各 个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使 用的指令的有形设备。计算机可读存储介质例如可以是――但不限于 ――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体 存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体 的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存 储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储 器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的 任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时 信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其 他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通 过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质 下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广 域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜 传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计 算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络 接口从网络接收计算机可读程序指令,并转发该计算机可读程序指 令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集 架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、 状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码 或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类 似的编程语言。计算机可读程序指令可以完全地在用户计算机上执 行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分 在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或 服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任 意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算 机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通 过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的 状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程 门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行 计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序 产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图 和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以 由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或 其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这 些指令在通过计算机或其它可编程数据处理装置的处理单元执行时, 产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作 的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介 质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特 定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品, 其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作 的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处 理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或 其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使 得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实 现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点 上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的 一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现 规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所 标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连 续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序 执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的 每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的 功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与 计算机指令的组合来实现。
以上已经描述了本公开的各实施方式,上述说明是示例性的,并 非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的 各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员 来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在 最好地解释各实施方式的原理、实际应用或对市场中的技术的改进, 或者使本技术领域的其他普通技术人员能理解本文披露的各实施方 式。

Claims (13)

1.一种管理独立磁盘冗余阵列RAID的方法,包括:
检测所述RAID中的存储设备的异常;
响应于检测到所述异常,重置所述存储设备;以及
存储预设时间段内针对所述RAID的写操作的地址,以用于在所述存储设备在所述预设时间段内恢复的情况下重建所述RAID。
2.根据权利要求1所述的方法,其中检测所述RAID中的存储设备的异常包括检测以下至少一项:
针对所述存储设备的输入输出I/O操作产生的可重试错误的次数,
所述存储设备产生的超时错误,以及
针对所述存储设备的I/O操作的完成时间。
3.根据权利要求1所述的方法,还包括:
在经过所述预设时间段之后,清除所存储的所述地址。
4.根据权利要求1所述的方法,还包括:
响应于检测到所述异常,使所述RAID降级以阻止针对所述存储设备的I/O操作。
5.根据权利要求4所述的方法,还包括:
将针对降级的所述RAID的写操作的地址标记为降级,以用于在所述存储设备没有在所述预设时间内恢复的情况下重建所述RAID。
6.一种管理独立磁盘冗余阵列RAID的装置,包括:
异常检测单元,被配置为检测所述RAID中的存储设备的异常;以及
异常处理单元,被配置为响应于检测到所述异常,重置所述存储设备;
其中所述异常处理单元还被配置为存储预设时间段内针对所述RAID的写操作的地址,以用于在所述存储设备在所述预设时间段内恢复的情况下重建所述RAID。
7.根据权利要求6所述的装置,其中所述异常检测单元还被配置为检测以下至少一项:
针对所述存储设备的I/O操作产生的可重试错误的次数,
所述存储设备产生的超时错误,以及
针对所述存储设备的I/O操作的完成时间。
8.根据权利要求6所述的装置,其中所述异常处理单元还被配置为在经过所述预设时间段之后,清除所存储的所述地址。
9.根据权利要求6所述的装置,其中所述异常处理单元还被配置为
响应于检测到所述异常,使所述RAID降级以阻止针对所述存储设备的I/O操作。
10.根据权利要求10所述的装置,其中所述异常处理单元还被配置为:
将针对降级的所述RAID的写操作的地址标记为降级,以用于在所述存储设备没有在所述预设时间内恢复的情况下重建所述RAID。
11.一种电子设备,包括:
至少一个处理单元;
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行根据权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至5中的任一项所述的方法。
13.一种计算机程序产品,包括机器可执行指令,所述机器可执行指令在由设备执行时使所述设备执行根据权利要求1至5中的任一项所述的方法。
CN202110389768.2A 2021-04-12 2021-04-12 管理独立磁盘冗余阵列的方法和装置 Pending CN115206406A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110389768.2A CN115206406A (zh) 2021-04-12 2021-04-12 管理独立磁盘冗余阵列的方法和装置
US17/516,766 US11747990B2 (en) 2021-04-12 2021-11-02 Methods and apparatuses for management of raid

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110389768.2A CN115206406A (zh) 2021-04-12 2021-04-12 管理独立磁盘冗余阵列的方法和装置

Publications (1)

Publication Number Publication Date
CN115206406A true CN115206406A (zh) 2022-10-18

Family

ID=83510755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110389768.2A Pending CN115206406A (zh) 2021-04-12 2021-04-12 管理独立磁盘冗余阵列的方法和装置

Country Status (2)

Country Link
US (1) US11747990B2 (zh)
CN (1) CN115206406A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116185311A (zh) * 2023-04-27 2023-05-30 苏州浪潮智能科技有限公司 独立磁盘冗余阵列的升级迁移方法、降级迁移方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126878A (ja) * 2002-10-01 2004-04-22 Nec Corp データ書込み、データ書込み読出し装置、データ書込み、データ書込み読出し方法
JP4303187B2 (ja) * 2004-11-10 2009-07-29 富士通株式会社 プログラム、記憶制御方法及び記憶装置
JP2007299213A (ja) 2006-04-28 2007-11-15 Fujitsu Ltd Raid制御装置および障害監視方法
US9135096B2 (en) 2012-12-06 2015-09-15 Compellent Technologies RAID surveyor
US10664193B2 (en) * 2016-09-16 2020-05-26 Hitachi, Ltd. Storage system for improved efficiency of parity generation and minimized processor load
KR20180045220A (ko) * 2016-10-25 2018-05-04 삼성전자주식회사 읽기 요청 횟수를 줄이는 데이터 복원 동작을 수행하는 데이터 스토리지 시스템
CN108228396B (zh) 2016-12-21 2021-03-23 伊姆西Ip控股有限责任公司 用于处理驱动器的错误的方法和设备
US10346247B1 (en) 2017-04-27 2019-07-09 EMC IP Holding Company LLC Adjustable error sensitivity for taking disks offline in a mapped RAID storage array
KR20190048132A (ko) * 2017-10-30 2019-05-09 삼성전자주식회사 페일 어드레스의 중복 프로그램을 방지하기 위한 메모리 장치 및 그것의 동작 방법
US10698779B2 (en) * 2017-11-13 2020-06-30 Infinidat Ltd. Clustered disk error recovery
CN110413216B (zh) 2018-04-28 2023-07-18 伊姆西Ip控股有限责任公司 用于管理存储系统的方法、设备和计算机程序产品
US10725862B2 (en) * 2018-07-06 2020-07-28 Macronix International Co., Ltd. Data recovery method to error correction code in memory

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116185311A (zh) * 2023-04-27 2023-05-30 苏州浪潮智能科技有限公司 独立磁盘冗余阵列的升级迁移方法、降级迁移方法及装置
CN116185311B (zh) * 2023-04-27 2023-08-08 苏州浪潮智能科技有限公司 独立磁盘冗余阵列的升级迁移方法、降级迁移方法及装置

Also Published As

Publication number Publication date
US11747990B2 (en) 2023-09-05
US20220326857A1 (en) 2022-10-13

Similar Documents

Publication Publication Date Title
US10613934B2 (en) Managing RAID parity stripe contention
US7549084B2 (en) Storage control apparatus and failure recovery method for storage control apparatus
US9189311B2 (en) Rebuilding a storage array
US9880903B2 (en) Intelligent stress testing and raid rebuild to prevent data loss
US9047219B2 (en) Storage system, storage control device, and storage control method
EP2703991B1 (en) Scalable storage protection
US7434097B2 (en) Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US10013321B1 (en) Early raid rebuild to improve reliability
US10635537B2 (en) Raid data loss prevention
US11321202B2 (en) Recovering storage devices in a storage array having errors
US9104604B2 (en) Preventing unrecoverable errors during a disk regeneration in a disk array
US20130339784A1 (en) Error recovery in redundant storage systems
US9081697B2 (en) Storage control apparatus and storage control method
US11074146B2 (en) Method, device and computer program product for managing redundant arrays of independent drives
CN111104051B (zh) 用于管理存储系统的方法、设备和计算机程序产品
US8782465B1 (en) Managing drive problems in data storage systems by tracking overall retry time
US9378092B2 (en) Storage control apparatus and storage control method
US8370688B2 (en) Identifying a storage device as faulty for a first storage volume without identifying the storage device as faulty for a second storage volume
CN115206406A (zh) 管理独立磁盘冗余阵列的方法和装置
US11080136B2 (en) Dropped write error detection
US20200286577A1 (en) Storage area retirement in a storage device
CN113868000B (zh) 一种链路故障修复方法、系统及相关组件
US11461050B2 (en) Managing data lifecycles through decay
CN115809011A (zh) 一种存储系统中数据重构方法及装置
CN116954479A (zh) 用于raid的数据访问方法、电子设备和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination