CN108733518A

CN108733518A - 用于管理存储系统的方法、设备和计算机可读介质

Info

Publication number: CN108733518A
Application number: CN201710250538.1A
Authority: CN
Inventors: 杨利锋; 徐鑫磊; 高健; 董继炳; 韩耕
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2018-11-02
Anticipated expiration: 2037-04-17
Also published as: US20200349039A1; CN108733518B; US11163658B2; US10705931B2; US20180300211A1

Abstract

本公开的实施例涉及用于管理存储系统的方法、设备和计算机可读介质。该存储系统包括盘阵列，并且该盘阵列包括至少一个盘阵列组。一种方法包括响应于接收到指示该盘阵列中的盘发生故障的第一消息，确定与故障盘所属的盘阵列组有关的第一信息。该方法还包括获取该盘阵列组中用于重建故障盘的尚未完成的输入/输出(I/O)操作的第一数目。该方法还包括基于第一信息和第一数目，确定能够用于该盘阵列组的I/O操作的阈值数目。此外，该方法还包括基于该阈值数目，控制向该盘阵列组发出的I/O操作的数目。

Description

用于管理存储系统的方法、设备和计算机可读介质

技术领域

本公开的实施例总体涉及数据存储领域，具体涉及用于管理存储系统的方法、设备和计算机可读介质。

背景技术

存储系统通常具有多种存储组件，以针对来自上层应用的输入/输出(I/O)请求提供具有不同响应时间的响应。例如，存储系统通常具有高速缓存和多个存储盘，并且多个存储盘可以被组织在盘阵列中。高速缓存可以用于在诸如动态随机访问存储器(DRAM)中缓存数据，以提供针对I/O请求的更快速的响应。盘阵列则用于响应针对未被缓存在高速缓存中的数据的I/O请求，并且这样的响应通常具有较长的响应时间。

当盘阵列中的盘发生故障时，通常需要利用该故障盘所属的盘阵列组中的备用盘来重建该故障盘(即，将故障盘中的数据恢复到备用盘中)。在该重建过程中，存储系统仍然可能接收到来自上层应用的针对发生故障的盘阵列组的随机I/O请求。大量的这种随机I/O请求可能导致重建过程变慢甚至中断。在此情况下，如果该盘阵列组中的另一盘也发生故障，则有可能导致数据丢失。

发明内容

本公开的实施例提供了用于管理存储系统的方法、设备和计算机可读介质。

在本公开的第一方面，提供了一种用于管理存储系统的方法。该存储系统包括盘阵列，并且该盘阵列包括至少一个盘阵列组。该方法包括：响应于接收到指示盘阵列中的盘发生故障的第一消息，确定与故障盘所属的盘阵列组有关的第一信息；获取该盘阵列组中用于重建故障盘的尚未完成的输入/输出(I/O)操作的第一数目；基于第一信息和第一数目，确定能够用于该盘阵列组的I/O操作的阈值数目；以及基于该阈值数目，控制向该盘阵列组发出的I/O操作的数目。

在本公开的第二方面，提供了一种用于管理存储系统的方法。该存储系统包括盘阵列和高速缓存，并且该盘阵列至少包括第一盘阵列组和第二盘阵列组。该方法包括：响应于接收到指示第一盘阵列组发生故障的消息，从高速缓存中的多个列表中选择要向盘阵列写入的第一数据条目，该多个列表至少包括第一列表和第二列表，其中第一列表用于缓存针对盘阵列中的故障盘阵列组的数据条目；响应于确定第一数据条目来自第一列表，将第一数据条目写入到盘阵列中；响应于确定第一数据条目来自第二列表并且第一数据条目要被写入到第一盘阵列组中，将第一数据条目从第二列表移动到第一列表中；以及响应于确定第一数据条目要被写入到第二盘阵列组中，将第一数据条目写入到该第二盘阵列组中。

在本公开的第三方面，提供了一种用于管理存储系统的设备。该存储系统包括盘阵列，并且该盘阵列包括至少一个盘阵列组。该设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得设备执行动作，该动作包括：响应于接收到指示盘阵列中的盘发生故障的第一消息，确定与故障盘所属的盘阵列组有关的第一信息；获取该盘阵列组中用于重建故障盘的尚未完成的输入/输出(I/O)操作的第一数目；基于第一信息和第一数目，确定能够用于该盘阵列组的I/O操作的阈值数目；以及基于该阈值数目，控制向该盘阵列组发出的I/O操作的数目。

在本公开的第四方面，提供了一种用于管理存储系统的设备。该存储系统包括盘阵列和高速缓存，并且该盘阵列至少包括第一盘阵列组和第二盘阵列组。该设备包括至少一个处理单元和至少一个存储器。至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。该指令当由至少一个处理单元执行时使得设备执行动作，该动作包括：响应于接收到指示第一盘阵列组发生故障的消息，从高速缓存中的多个列表中选择要向盘阵列写入的第一数据条目，该多个列表至少包括第一列表和第二列表，其中第一列表用于缓存针对盘阵列中的故障盘阵列组的数据条目；响应于确定第一数据条目来自第一列表，将第一数据条目写入到盘阵列中；响应于确定第一数据条目来自第二列表并且第一数据条目要被写入到第一盘阵列组中，将第一数据条目从第二列表移动到第一列表中；以及响应于确定第一数据条目要被写入到第二盘阵列组中，将第一数据条目写入到该第二盘阵列组中。

在本公开的第五方面，提供了一种计算机可读存储介质。该计算机可读存储介质具有存储在其上的计算机可读程序指令，计算机可读程序指令在被处理单元执行时使得所述处理单元实现根据本公开的第一方面所描述的方法的任意步骤。

在本公开的第六方面，提供了一种计算机可读存储介质。该计算机可读存储介质具有存储在其上的计算机可读程序指令，计算机可读程序指令在被处理单元执行时使得所述处理单元实现根据本公开的第二方面所描述的方法的任意步骤。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了根据本公开的实施例的存储系统100的架构图；

图2示出了根据本公开的实施例的用于管理存储系统的方法200的流程图；

图3示出了根据本公开的实施例的用于控制向盘阵列组发出的I/O操作的数目的方法300的流程图；

图4示出了根据本公开的实施例的用于管理存储系统的方法400的流程图；

图5示出了根据本公开的实施例的高速缓存中用于组织缓存页面的多个列表的示意图；

图6图示了根据本公开的实施例的用于管理存储系统的装置600的框图；

图7图示了根据本公开的实施例的用于管理存储系统的装置700的框图；以及

图8示出了可以用来实施本公开内容的实施例的示例设备800的示意性框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

图1示出了根据本公开的实施例的存储系统100的架构图。如图1所示，存储系统100可以包括高速缓存110以及管理一个或多个存储设备的存储设备管理器120。应当理解，如图1所示的存储系统100的结构和功能仅用于示例的目的，而不暗示对于本公开的范围的任何限制。本公开的实施例可以被体现在不同的结构和/或功能中。

高速缓存110可以用于将经常访问的数据临时存储在诸如动态随机访问存储器(DRAM)的存储介质中，以更快地响应(例如，响应时间可以大约为60微秒)针对这些数据的I/O请求。在一些实施例中，高速缓存110可以将数据缓存在一个或多个缓存页面中，并且这些缓存页面可以被组织成一个或多个列表。

存储设备管理器120可以用于管理一个或多个存储设备(图1中未示出)。在此所述的“存储设备”可以指代任何目前已知或者将来开发的非易失性存储介质，例如磁盘、光盘或固态盘(SSD)等等。在以下描述中，将以磁盘作为存储设备的示例。然而，应当理解，这仅仅是出于便于描述的目的，而不暗示对本公开的范围的任何限制。

如图1所示，存储设备管理器120例如可以将一个或多个磁盘组织成磁盘阵列130，并且该磁盘阵列可以被划分为一个或多个磁盘阵列组(例如，磁盘阵列组131、132和133)。存储设备管理器120可以向上层(例如，高速缓存110)提供与这些磁盘阵列组相对应的逻辑存储单元(例如，逻辑单元号，LUN)以供操作。出于示例的目的，在图1中仅示出3个磁盘阵列组。然而，应当理解，本公开的实施例可以被体现在不同数目的磁盘阵列组中。

磁盘阵列130例如可以是独立磁盘冗余阵列(RAID)，其是一种数据存储虚拟化技术，用于为了数据冗余备份和/或性能改进的目的而将多个物理磁盘组合成逻辑存储单元。根据所要求的冗余度和性能的级别，RAID可以具有不同的级别，诸如RAID 0、RAID 1……RAID 5等。

当存储系统100接收到来自上层应用的I/O请求时，该I/O请求可以首先被发送至高速缓存110，以确定所请求的数据是否已经被缓存在高速缓存110中。当所请求的数据(也被称为“缓存命中”)已被缓存时，存储系统100可以从高速缓存110中获取所请求的数据，以作为针对该I/O请求的响应。当所请求的数据未被缓存(也被称为“缓存未命中”)时，该I/O请求可以经由高速缓存110被发送至磁盘阵列130，以从磁盘阵列130中获取所请求的数据。

此外，为了保证数据一致性，被缓存在高速缓存110中的数据可以在适当的时间(例如，当高速缓存110中的数据量超过预定阈值时)被写入到磁盘阵列130中。在以下描述中，被缓存在高速缓存110中并且尚未被提交到磁盘阵列130中的数据也被称为“脏数据”。

当磁盘阵列组(例如，磁盘阵列组131)中的磁盘发生故障时，存储设备管理器120可以向高速缓存110发送第一消息，以向高速缓存110通知磁盘阵列组131中的磁盘发生故障。响应于接收到第一消息，高速缓存110可以标识与磁盘阵列组131相关联的LUN，并且将这些LUN的状态设置为降级状态。同时，存储设备管理器120可以开始利用磁盘阵列组131中的备用磁盘来重建该故障磁盘。当该重建过程完成之后，存储设备管理器120可以向高速缓存110发送第二消息，以向高速缓存110通知磁盘阵列组131中的故障恢复。响应于接收到第二消息，高速缓存110可以将相关联的LUN的状态恢复到正常状态。

磁盘阵列组131的重建过程例如可以包括利用磁盘阵列组131中的非故障磁盘上所存储的数据来计算故障盘上所存储的数据，并且将所计算的数据写入到备用磁盘中。因此，该重建过程将导致一定数量的I/O操作(以下也被称为“内部I/O操作”)。此外，在该重建过程中，存储系统100仍然可能接收到来自上层应用的针对磁盘阵列组131的随机I/O请求(例如，在高速缓存110未命中的情况下)。大量的这种随机I/O请求可能导致磁盘阵列组131的重建过程变慢甚至中断。此时，如果磁盘阵列组131中的另一磁盘也发生故障，则有可能导致数据丢失。因此，减少重建过程的时间对于降低数据丢失的风险非常重要。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个，本公开的示例实施例提出了一种用于管理存储系统的方案。该方案通过减少针对发生故障的磁盘阵列组的I/O操作的数量和/或通过针对发生故障的磁盘阵列组缓存更多数据以提高缓存命中率，来加速该磁盘阵列组的重建过程，以降低数据丢失的风险。此外，当磁盘阵列利用多个SSD来实现时，本方案能够均衡多个SSD的磨损度，从而延长多个SSD的生命周期。

图2示出了根据本公开的实施例的用于管理存储系统的方法200的流程图。以下结合如图1所示的存储系统100来描述方法200中所涉及的动作。在一些实施例中，方法200可以由例如高速缓存110来执行。应当理解，方法200还可以包括未示出的附加动作和/或可以省略所示出的动作，并且本公开的范围在此方面不受限制。

在框201，高速缓存110响应于接收到指示磁盘阵列130中的磁盘发生故障的第一消息，确定与故障磁盘所属的磁盘阵列组有关的第一信息。在以下描述中，假设故障磁盘所属的磁盘阵列组为磁盘阵列组131。应当理解，这仅仅是出于便于描述的目的，而不暗示对本公开的范围的任何限制。

在一些实施例中，高速缓存110可以从存储设备管理器120接收指示磁盘阵列组131中的磁盘发生故障的第一消息。响应于接收到第一消息，高速缓存110可以标识与磁盘阵列组131相对应的逻辑存储单元(例如，LUN)，并且将所标识的逻辑存储单元的状态设置为降级状态。以此方式，当高速缓存110确定来自上层应用的I/O请求所请求的数据未被缓存时，高速缓存110可以进一步确定该I/O请求所请求的数据是否针对发生故障的磁盘阵列组131，以执行相应的控制。

在一些实施例中，高速缓存110还可以从存储设备管理器120(例如，经由第一消息、或者除第一消息以外的其他消息)获取至少以下信息：磁盘阵列组131中的磁盘的总数目、磁盘阵列组131中用于重建故障盘的备用磁盘的数目、以及磁盘阵列组131中的每个磁盘最多能够承受的I/O操作的数目(在以下描述中该数目与“第二数目”可互换地使用)等。备选地，在一些实施例中，磁盘阵列组131中用于重建故障盘的备用磁盘的数目也可以基于磁盘阵列130的类型来被确定。例如，当磁盘阵列130为RAID5时，磁盘阵列组131中的备用磁盘数目可以为1；当磁盘阵列130为RAID6时，磁盘阵列组131中的备用磁盘数目可以为2等。

在框202，高速缓存110获取磁盘阵列组131用于重建故障盘的尚未完成的I/O操作的数目(在以下描述中该数目与“第一数目”可互换地使用)。在一些实施例中，如上所述，磁盘阵列组131的重建过程可以包括利用磁盘阵列组131中的非故障磁盘上所存储的数据来计算故障盘上所存储的数据，并且将所计算的数据写入到备用磁盘中。因此，高速缓存110可以从存储设备管理器120(例如，经由第一消息、或者除第一消息以外的其他消息)获取由该重建过程所导致的内部I/O操作的第一数目。

在框203，高速缓存110基于关于磁盘阵列组131的第一信息和用于重建过程的内部I/O操作的第一数目，确定能够用于磁盘阵列组131的I/O操作的阈值数目。

在一些实施例中，高速缓存110可以基于磁盘阵列组131中的磁盘的总数目、磁盘阵列组131中的备用磁盘的数目、磁盘阵列组131中的每个磁盘最多能够承受的I/O操作的第二数目和内部I/O操作的第一数目，来确定能够用于磁盘阵列组131的I/O操作的阈值数目。例如，假设磁盘阵列组131中的磁盘的总数目为n，磁盘阵列组131中用于重建故障盘的备用磁盘的数目为t，磁盘阵列组131中的每个磁盘最多能够承受的I/O操作的第二数目为k，并且内部I/O操作的第一数目为m，则能够用于磁盘阵列组131的I/O操作的阈值数目c可以被确定为：c＝k*(n-t)-m。

在框204，高速缓存110基于阈值数目，控制向磁盘阵列组131发出的I/O操作的数目。如上所述，在一些实施例中，当高速缓存110确定来自上层应用的I/O请求所请求的数据未被缓存时，高速缓存110可以确定该I/O请求所请求的数据是否针对发生故障的磁盘阵列组131。当高速缓存110确定该I/O请求针对发生故障的磁盘阵列组131，其可以基于在框203处确定的阈值数目来控制向磁盘阵列组131发出的I/O操作。

在此方面，图3示出了根据本公开的实施例的用于控制向盘阵列组发出的I/O操作的数目的方法300的流程图。在一些实施例中，方法300可以作为如图2所示的方法200中的框204被执行。例如，方法300可以由如图1所示的高速缓存110来执行。应当理解，方法300还可以包括未示出的附加动作和/或可以省略所示出的动作，并且本公开的范围在此方面不受限制。

在框301，高速缓存110响应于接收到针对磁盘阵列组131的第一I/O操作的请求，确定已向磁盘阵列组131发出并且尚未完成的I/O操作的数目(在以下描述中该数目可以与“第三数目”可互换地使用)。

在框302，高速缓存110响应于阈值数目(例如，在如图2所示的框203处确定的)大于第三数目，向磁盘阵列组131发出第一I/O操作中的至少部分I/O操作(例如，经由存储设备管理器120)。

在一些实施例中，例如，假设针对磁盘阵列组131的阈值数目c为100，高速缓存110已向磁盘阵列组131发出并且尚未完成的I/O操作的第三数目s为50，并且所接收到的针对磁盘阵列组131的第一I/O操作的数目为60，则高速缓存110可以仅向磁盘阵列组131发出60个I/O操作中的50个I/O操作(即，100-50＝50)。高速缓存110可以不发出60个I/O操作中的另外10个I/O操作，直到已向磁盘阵列组131发出的I/O操作被完成。以此方式，本公开的实施例能够通过减缓向可能正在重建的磁盘阵列组发出I/O操作来加速重建过程。

在框303，高速缓存110响应于发出至少部分I/O操作，更新阈值数目。在一些实施例中，所发出的至少部分I/O操作可以包括读操作，并且阈值数目c可以因此被减少第一预定数目。例如，第一预定数目可以为1。在一些实施例中，所发出的至少部分I/O操作还可以包括写操作，并且阈值数目c可以因此被减少第二预定数目。在一些实施例中，第二预定数目可以等于第一预定数目，例如为1。备选地，在一些实施例中，第二预定数目也可以与第一预定数目不同。

在一些实施例中，当向正在重建的磁盘阵列组131发起一次写操作时，其实际发生的I/O操作的数目(也即，第二预定数目)可能大于1。例如，为了保证处于降级状态的磁盘阵列组131的数据一致性(因为此时磁盘阵列组131中可能不存在用于数据冗余的其他磁盘以验证所写入的数据是否正确)，当针对磁盘阵列组131的写操作到来时，存储设备管理器120可能需要独立空间以用作日志(journal)。例如，存储设备管理器120可以首先将数据写入到日志中，并且然后将数据写入到其逻辑块地址中。接着，存储设备管理器120可以验证所写入的数据是否正确，并且然后将日志空间中的相应数据删除。在此情况下，针对处于降级状态的磁盘阵列组131的一次写操作所导致的I/O操作的实际数目(也即，第二预定数目)为3，并且因此阈值数目c需要针对该写操作而被减少3。

在一些实施例，第一预定数目和/或第二预定数目还可以根据具体实现被确定为除上述示例之外的其他数目。此外，方法300可以被执行多于一次，直到高速缓存110发出针对磁盘阵列组131的全部I/O操作。

返回到图2，方法200还可以包括未示出的动作。例如，在一些实施例中，当磁盘阵列组131的重建过程完成之后，高速缓存110可以接收到来自存储设备管理器120的第二消息，以向高速缓存110通知磁盘阵列组131中的故障恢复。响应于接收到第二消息，高速缓存110可以将相关联的LUN的状态恢复到正常状态。

从以上描述可以看出，本公开的实施例能够通过减少针对发生故障的磁盘阵列组的I/O操作的数量，加速该磁盘阵列组的重建过程，以降低数据丢失的风险。此外，当磁盘阵列利用多个SSD来实现时，本公开的实施例能够均衡多个SSD的磨损度，从而延长多个SSD的生命周期。

附加地或者备选地，本公开的实施例还可以通过针对发生故障的磁盘阵列组缓存更多数据来进一步加速该磁盘阵列组的重建过程并降低数据丢失的风险。在一些实施例中，为了保证数据一致性，被缓存在高速缓存110中的脏数据可以在适当的时间(例如，当高速缓存110中的数据量超过预定阈值时)被置换到磁盘阵列130中。在此情况下，高速缓存110可以尽可能久地缓存针对发生故障的磁盘阵列组131的脏数据，以提高缓存命中率从而加速磁盘阵列组131的重建过程。

图4示出了根据本公开的实施例的用于管理存储系统的方法400的流程图。以下结合如图1所示的存储系统100来描述方法400中所涉及的动作。在一些实施例中，方法400可以由高速缓存110来执行。应当理解，方法400还可以包括未示出的附加动作和/或可以省略所示出的动作，并且本公开的范围在此方面不受限制。

在框401，高速缓存110响应于接收到指示磁盘阵列130中的磁盘阵列组131(以下也称为“第一磁盘阵列组”)发生故障的消息，从高速缓存110中的多个列表中选择要向磁盘阵列130写入的第一数据条目。在此所述的“数据条目”指代被缓存在高速缓存110中的数据的存储单元。例如，在虚拟页式存储中，缓存和磁盘间的数据替换以页面为单位进行。在此情况下，所要选择的“第一数据条目”可以指代相应的缓存页面。

在一些实施例中，如上所述，高速缓存110可以将数据缓存在一个或多个缓存页面中，并且将这些缓存页面组织在多个列表中。例如，图5示出了根据本公开的实施例的高速缓存中用于组织缓存页面的多个列表的示意图。如图5所示，多个列表可以包括列表510、520和530。其中，例如列表510(以下也被称为“第一列表”)可以用于缓存针对磁盘阵列130中的故障磁盘阵列组的数据条目，而列表520和530为普通列表(以下也被称为“第二列表”)。出于示例的目的，在图5中仅示出3个列表。然而，应当理解，本公开的实施例可以被体现在不同数目的列表中。以下结合图5来描述方法400中所涉及的动作。

在一些实施例中，为了选择第一数据条目，高速缓存110首先可以从列表510、520和530中生成候选数据条目集合。例如，高速缓存110可以将列表510、520和530中的每个列表中被缓存最长时间的数据条目选入候选数据条目集合中。在一些实施例中，列表510、520和530可以被实现为最近最少使用(LRU)列表。在此情况下，高速缓存110可以将在列表510、520和530中的每个列表的尾部的数据条目选入候选数据条目集合中。

然后，在一些实施例中，高速缓存110可以从生成的候选数据条目集合中选择第一数据条目。在一些实施例中，列表510、520和530中的每个列表可以具有相应的权重，并且高速缓存110可以基于相应权重来从候选数据条目集合中选择第一数据条目。

例如，列表510、520和530的权重分别可以为w₁、w₂和w₃。在一些实施例中，用于缓存针对磁盘阵列130中的故障磁盘的数据条目的列表510可以具有最高权重。例如，列表510、520和530的权重可以具有如下关系：w₁>w₂>w₃。假设候选数据条目集合中包括来自列表510的数据条目i₁、来自列表520的数据条目i₂和来自列表530的数据条目i₃。此外，假设数据条目i₁被缓存在列表510中长达第一时间t₁，第一时间t₁例如可以通过当前时间减去数据条目i₁最后被访问的时间来获得。类似地，假设数据条目i₂被缓存在列表520中长达第一时间t₂，并且数据条目i₃被缓存在列表530中长达第一时间t₃。高速缓存110可以首先分别确定第一时间t₁与列表510的权重w₁的比值r₁(也即，r₁＝t₁/w₁)、第二时间t₂与列表520的权重w₂的比值r₂(也即，r₂＝t₂/w₂)以及第三时间t₃与列表530的权重w₃的比值r₃(也即，r₃＝t₃/w₃)。高速缓存110可以将与比值r₁、r₂和r₃中的最大比值相对应的数据条目选择作为第一数据条目。以此方式，由于列表510具有最大的权重，因此其中的数据条目最不可能被选择以被置换出高速缓存110，以使得针对故障磁盘阵列组的数据被尽可能久地缓存在高速缓存110中。

在框402，高速缓存110确定第一数据条目是否来自列表510。如果高速缓存110确定第一数据来自列表510，则高速缓存110可以将第一数据条目从列表510中移除，并且将其置换到磁盘阵列130中。

在框403，如果高速缓存110确定第一数据条目并非来自列表510(也即，来自列表520或530)，则高速缓存110可以进一步确定第一数据条目是否针对处于降级状态的第一磁盘阵列组131。如果高速缓存110确定第一数据条目要被写入到处于降级状态的第一磁盘阵列组131中，则高速缓存110可以将第一数据条目从列表520或530中移除，并且添加到列表510中。

在框404，如果高速缓存110确定第一数据条目要被写入到磁盘阵列130中的非故障磁盘阵列组(例如，磁盘阵列组132或133，也被称为“第二磁盘阵列组”)中，则将第一数据条目写入到该非故障磁盘阵列组中。

以此方式，本公开的实施例能够将尽可能久地缓存针对发生故障的磁盘阵列组的脏数据，以提高缓存命中率从而加速故障磁盘阵列组的重建过程。此外，当磁盘阵列利用多个SSD来实现时，本公开的实施例能够均衡多个SSD的磨损度，从而延长多个SSD的生命周期。

图6图示了根据本公开的实施例的用于管理存储系统100的装置600的框图。例如，如图1所示的高速缓存110可以由装置600实现。如图6所示，装置600可以包括第一确定模块610，被配置为响应于接收到指示盘阵列130中的盘发生故障的第一消息，确定与故障盘所属的盘阵列组(例如，盘阵列组131)有关的第一信息。装置600还可以包括获取模块620，被配置为获取该盘阵列组中用于重建故障盘的尚未完成的输入/输出(I/O)操作的第一数目。装置600还可以包括第二确定模块630，被配置为基于第一信息和第一数目，确定能够用于该盘阵列组的I/O操作的阈值数目。此外，装置600还可以包括控制模块640，被配置为基于该阈值数目，控制向该盘阵列组发出的I/O操作的数目。

图7图示了根据本公开的实施例的用于管理存储系统100的装置700的框图。例如，如图1所示的高速缓存110可以由装置700实现。如图7所示，装置700可以包括选择模块710，被配置为响应于接收到指示第一盘阵列组(例如，盘阵列组131)发生故障的消息，从高速缓存中的多个列表中选择要向盘阵列130写入的第一数据条目，该多个列表至少包括第一列表和第二列表，其中第一列表用于缓存针对盘阵列130中的故障盘阵列组的数据条目。装置700还可以包括第一写入模块720，被配置为响应于确定第一数据条目来自第一列表，将第一数据条目写入到盘阵列130中。装置700还可以包括第二写入模块730，被配置为响应于确定第一数据条目来自第二列表并且第一数据条目要被写入到第一盘阵列组中，将第一数据条目从第二列表移动到第一列表中。此外，装置700还可以包括第三写入模块740，被配置为响应于确定第一数据条目要被写入到第二盘阵列组(例如，盘阵列组132或133)中，将第一数据条目写入到该第二盘阵列组中。

出于清楚的目的，在图6和/或图7中没有示出装置600和/或700的某些可选模块。然而，应当理解，上文参考图1-3所描述的各个特征同样适用于装置600，并且上文参考图1和4-5所描述的各个特征同样适用于装置700。而且，装置600和/或700的各个模块可以是硬件模块，也可以是软件模块。例如，在某些实施例中，装置600和/或700可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，装置600和/或700可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本公开的范围在此方面不受限制。

图8示出了可以用来实施本公开内容的实施例的示例设备800的示意性框图。例如，如图1所示的高速缓存110可以由设备800实施。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200、300和/或400，可由处理单元801执行。例如，在一些实施例中，方法200、300和/或400可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到RAM 803并由CPU 801执行时，可以执行上文描述的方法200、300和/或400的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于管理存储系统的方法，所述存储系统包括盘阵列并且所述盘阵列包括至少一个盘阵列组，所述方法包括：

响应于接收到指示所述盘阵列中的盘发生故障的第一消息，确定与故障盘所属的盘阵列组有关的第一信息；

获取所述盘阵列组中用于重建所述故障盘的尚未完成的输入/输出(I/O)操作的第一数目；

基于所述第一信息和所述第一数目，确定能够用于所述盘阵列组的I/O操作的阈值数目；以及

基于所述阈值数目，控制向所述盘阵列组发出的I/O操作的数目。

2.根据权利要求1所述的方法，其中确定与故障盘所属的盘阵列组有关的第一信息包括：

标识与所述盘阵列组相对应的逻辑存储单元；以及

将标识的所述逻辑存储单元的状态设置为降级状态。

3.根据权利要求2所述的方法，还包括：

响应于接收到指示所述盘阵列组中的所述故障恢复的第二消息，将所述逻辑存储单元的所述状态恢复到正常状态。

4.根据权利要求1所述的方法，其中确定与故障盘所属的盘阵列组有关的第一信息包括获取至少以下信息：

所述盘阵列组中的盘的总数目；

所述盘阵列组中用于重建所述故障盘的备用盘的数目；以及

所述盘阵列组中的每个盘最多能够承受的I/O操作的第二数目。

5.根据权利要求4所述的方法，其中确定能够用于所述盘阵列组的I/O操作的阈值数目包括：

基于所述盘的总数目、所述备用盘的数目、所述第一数目和所述第二数目，确定所述阈值数目。

6.根据权利要求1所述的方法，其中控制向所述盘阵列组发出的I/O操作的数目包括：

响应于接收到针对所述盘阵列组的第一I/O操作的请求，确定已向所述盘阵列组发出并且尚未完成的I/O操作的第三数目；

响应于所述阈值数目大于所述第三数目，向所述盘阵列组发出所述第一I/O操作中的至少部分I/O操作；以及

响应于发出所述至少部分I/O操作，更新所述阈值数目。

7.根据权利要求6所述的方法，其中所述至少部分I/O操作包括读操作，并且更新所述阈值数目包括：

响应于发出所述读操作，将所述阈值数目减少第一预定数目。

8.根据权利要求6所述的方法，其中所述至少部分I/O操作包括写操作，并且更新所述阈值数目还包括：

响应于发出所述写操作，将所述阈值数目减少第二预定数目。

9.一种用于管理存储系统的方法，所述存储系统包括盘阵列和高速缓存，所述盘阵列至少包括第一盘阵列组和第二盘阵列组，所述方法包括：

响应于接收到指示所述第一盘阵列组发生故障的消息，从所述高速缓存中的多个列表中选择要向所述盘阵列写入的第一数据条目，所述多个列表至少包括第一列表和第二列表，其中所述第一列表用于缓存针对所述盘阵列中的故障盘阵列组的数据条目；

响应于确定所述第一数据条目来自所述第一列表，将所述第一数据条目写入到所述盘阵列中；

响应于确定所述第一数据条目来自所述第二列表并且所述第一数据条目要被写入到所述第一盘阵列组中，将所述第一数据条目从所述第二列表移动到所述第一列表中；以及

响应于确定所述第一数据条目要被写入到所述第二盘阵列组中，将所述第一数据条目写入到所述第二盘阵列组中。

10.根据权利要求9所述的方法，其中从所述高速缓存中的多个列表中选择要向所述盘阵列写入的第一数据条目包括：

从所述多个列表生成候选数据条目集合；以及

从生成的所述候选数据条目集合中选择所述第一数据条目。

11.根据权利要求10所述的方法，其中从所述多个列表生成候选数据条目集合包括：

将所述多个列表中的每个列表中被缓存最长时间的数据条目选入所述候选数据条目集合。

12.根据权利要求10所述的方法，其中所述多个列表中的每个列表具有相应权重，并且从生成的所述候选数据条目集合中选择所述第一数据条目包括：

基于所述相应权重，从所述候选数据条目集合中选择所述第一数据条目。

13.根据权利要求12所述的方法，其中所述候选数据条目集合包括来自所述第一列表的第二数据条目和来自所述第二列表的第三数据条目，所述第二数据条目被缓存在所述第一列表中长达第一时间，所述第三数据条目被缓存在所述第二列表中长达第二时间，所述第一列表具有第一权重，所述第二列表具有小于所述第一权重的第二权重，并且从所述候选数据条目集合中选择所述第一数据条目包括：

确定所述第一时间与所述第一权重的第一比值以及所述第二时间与所述第二权重的第二比值；

响应于所述第一比值超过所述第二比值，将所述第二数据条目选择作为所述第一数据条目；以及

响应于所述第一比值不超过所述第二比值，将所述第三数据条目选择作为所述第一数据条目。

14.一种用于管理存储系统的设备，所述存储系统包括盘阵列并且所述盘阵列包括至少一个盘阵列组，所述设备包括：

至少一个处理单元；

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令当由所述至少一个处理单元执行时，使得所述设备执行动作，所述动作包括：

15.根据权利要求14所述的设备，其中确定与故障盘所属的盘阵列组有关的第一信息包括：

标识与所述盘阵列组相对应的逻辑存储单元；以及

将标识的所述逻辑存储单元的状态设置为降级状态。

16.根据权利要求15所述的设备，其中所述动作还包括：

17.根据权利要求14所述的设备，其中确定与故障盘所属的盘阵列组有关的第一信息包括获取至少以下信息：

所述盘阵列组中的盘的总数目；

所述盘阵列组中用于重建所述故障盘的备用盘的数目；以及

18.根据权利要求17所述的设备，其中确定能够用于所述盘阵列组的I/O操作的阈值数目包括：

19.根据权利要求14所述的设备，其中控制向所述盘阵列组发出的I/O操作的数目包括：

响应于发出所述至少部分I/O操作，更新所述阈值数目。

20.根据权利要求19所述的设备，其中所述至少部分I/O操作包括读操作，并且更新所述阈值数目包括：

21.根据权利要求19所述的设备，其中所述至少部分I/O操作包括写操作，并且更新所述阈值数目还包括：

22.一种用于管理存储系统的设备，所述存储系统包括盘阵列和高速缓存，所述盘阵列至少包括第一盘阵列组和第二盘阵列组，所述设备包括：

至少一个处理单元；

23.根据权利要求22所述的设备，其中从所述高速缓存中的多个列表中选择要向所述盘阵列写入的第一数据条目包括：

从所述多个列表生成候选数据条目集合；以及

从生成的所述候选数据条目集合中选择所述第一数据条目。

24.根据权利要求23所述的设备，其中从所述多个列表生成候选数据条目集合包括：

25.根据权利要求23所述的设备，其中所述多个列表中的每个列表具有相应权重，并且从生成的所述候选数据条目集合中选择所述第一数据条目包括：

26.根据权利要求25所述的设备，其中所述候选数据条目集合包括来自所述第一列表的第二数据条目和来自所述第二列表的第三数据条目，所述第二数据条目被缓存在所述第一列表中长达第一时间，所述第三数据条目被缓存在所述第二列表中长达第二时间，所述第一列表具有第一权重，所述第二列表具有小于所述第一权重的第二权重，并且从所述候选数据条目集合中选择所述第一数据条目包括：

27.一种计算机可读存储介质，所述计算机可读存储介质具有存储在其上的计算机可读程序指令，所述计算机可读程序指令在被处理单元执行时使得所述处理单元实现根据权利要求1-8中的任一项所述的方法。

28.一种计算机可读存储介质，所述计算机可读存储介质具有存储在其上的计算机可读程序指令，所述计算机可读程序指令在被处理单元执行时使得所述处理单元实现根据权利要求9-13中的任一项所述的方法。