CN114579357A - 服务数据存储阵列中的数据存储设备 - Google Patents

服务数据存储阵列中的数据存储设备 Download PDF

Info

Publication number
CN114579357A
CN114579357A CN202111373120.2A CN202111373120A CN114579357A CN 114579357 A CN114579357 A CN 114579357A CN 202111373120 A CN202111373120 A CN 202111373120A CN 114579357 A CN114579357 A CN 114579357A
Authority
CN
China
Prior art keywords
dsa
dsd
failed
replacement
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111373120.2A
Other languages
English (en)
Inventor
R·洛佩茨
S·M·蒂
胡志宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114579357A publication Critical patent/CN114579357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1088Reconstruction on already foreseen single or plurality of spare disks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2268Logging of test results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3034Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0635Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本申请涉及服务数据存储阵列中的数据存储设备。公开了用于替换和测试数据存储设备的系统和方法。在所公开的实施例中,一种系统包括数据存储阵列(DSA),数据存储阵列包括在外壳中的多个数据存储设备(DSD)。系统进一步包括I/O服务器,I/O服务器将DSA耦合到客户端节点并且被配置成用于在客户端节点与DSA之间提供数据接入。所述系统还包括管理服务器,所述管理服务器耦合到所述DSA,被配置成:检测所述DSA中的故障DSD,检测所述外壳中替换所述故障DSD的替换DSD,以及将替换DSD添加到DSA的逻辑路径。管理服务器被进一步配置成基于比较显示DSA的状态的指示。

Description

服务数据存储阵列中的数据存储设备
技术领域
本发明涉及数据存储阵列,并且更具体地涉及数据存储阵列的管理。
背景技术
随着数据存储系统变得越来越大和复杂,对用于扩展操作员能力的稳健维护工具的需要是软件定义的数据中心管理的重要方面。
企业RAID系统尝试提供用于服务诸如硬盘存储设备之类的数据存储设备(DSD)的所需功能。常规方法需要大的资源来服务这样的系统,使得随着数据存储系统增长而难以扩展以适应数据存储的不断增长的需求。
发明内容
根据本发明的一个实施例,公开了一种系统,该系统包括数据存储阵列(DSA),该数据存储阵列包括在外壳中的多个数据存储设备(DSD),以及DSA被配置成在DSA的逻辑路径上的多个DSD之间分发数据的冗余副本。系统进一步包括I/O服务器,I/O服务器将DSA耦合到客户端节点并且被配置成在客户端节点与DSA之间提供数据接入。系统进一步包括耦合到DSA的管理服务器。在实施例中,管理服务器被配置成检测DSA中的故障DSD。管理服务器被进一步配置成存储包括DSA和I/O服务器的第一状态的第一日志。管理服务器还被配置成从DSA的逻辑路径移除故障DSD。管理服务器被进一步配置成在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。管理服务器被进一步配置成检测外壳中替换故障DSD的替换DSD。管理服务器被进一步配置成将替换DSD添加到DSA的逻辑路径。管理服务器被进一步配置成存储包括DSA和I/O服务器的第二状态的第二日志。管理服务器被进一步配置成比较第一日志和第二日志,以及基于比较显示DSA的状态的指示。
在某些实施例中,公开了一种用于数据存储设备替换和测试的计算机程序产品,计算机程序产品具有计算机可读存储介质,计算机可读存储介质具有随其一起体现的计算机可读程序代码。在某些实施例中,计算机可读程序代码可由一个或多个计算机处理器执行以检测数据存储阵列(DSA)中的故障数据存储设备(DSD)。计算机可读程序代码进一步可执行以存储包括DSA和I/O服务器的第一状态的第一日志。计算机可读程序代码进一步可执行以从DSA的逻辑路径中移除故障DSD。计算机可读程序代码进一步可执行以在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。计算机可读程序代码进一步可执行以检测外壳中替换故障DSD的替换DSD。计算机可读程序代码进一步可执行以将替换DSD添加到DSA的逻辑路径。计算机可读程序代码进一步可执行以存储包括DSA和I/O服务器的第二状态的第二日志。计算机可读程序代码进一步可执行以比较第一日志和第二日志并且基于比较显示DSA的状态的指示。
在进一步的实施例中,公开了一种用于数据存储设备替换和测试的方法,包括:检测数据存储阵列(DSA)中的故障数据存储设备(DSD)。方法进一步包括存储包括DSA和I/O服务器的第一状态的第一日志。方法进一步包括从DSA的逻辑路径中移除故障DSD。方法进一步包括在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。方法进一步包括检测外壳中替换故障DSD的替换DSD。方法进一步包括将替换DSD添加到DSA的逻辑路径。方法进一步包括存储包括DSA和I/O服务器的第二状态的第二日志。方法进一步包括比较第一日志和第二日志,以及基于比较显示DSA的状态的指示。
附图说明
图1示出根据某些实施例的用于盘替换和测试的系统。
图2描绘了根据某些实施例的用于检测和替换数据存储设备(DSD)的流程图。
图3描绘了根据所公开的实施例的示出通过成功的DSD替换来检测替换DSD的执行过程的流程图。
图4描绘了根据所公开的实施例的用于DSD替换和测试的方法。
具体实施方式
在下文中,参考本公开中呈现的实施方式。然而,本公开的范围不限于具体描述的实施例。相反,以下特征和元件的任意组合,无论是否与不同的实施例相关,都被预期来实现和实践所预期的实施例。此外,尽管在此公开的实施例可以实现优于其他可能的解决方案或优于现有技术的优点,但给定实施例是否实现特定优点并不限制本公开的范围。因此,以下方面、特征、实施例和优点仅是说明性的,并且不被认为是所附权利要求的元素或限制,除非在权利要求中明确叙述。同样,对“本发明”的引用不应被解释为在此公开的任何发明主题的概括,并且不应被认为是所附权利要求的元素或限制,除非在一个或多个权利要求中明确叙述。
图1示出根据某些实施例的用于盘替换和测试的系统100。系统100包括用于保持诸如DSD110、DSD 115至DSD N之类的一个或多个数据存储设备(DSD)的外壳105。外壳105可以是能够保持DSD的任何类型的物理外壳,例如机柜、抽屉、滚筒、塔或其他物理结构。DSD可以是能够存储计算机可读数据的任何类型的设备,诸如硬盘驱动器、固态驱动器、非易失性存储器、易失性存储器或能够存储数据的其他设备。诸如DSD 110至DSD N的DSD组可以被配置成诸如DSA120的数据存储阵列(DSA)。数据存储阵列120可以是RAID类型阵列、去簇阵列,或者被配置成基于能够在DSD上实现的冗余数据存储策略来存储数据。DSA可以包括与由IBM销售的IBM Spectrum Scale Native GPFS RAID类似的系统,以及利用RAID和去簇存储技术的其他可商购的数据存储阵列系统。在一些实施例中,可以虚拟地配置DSA 120,而在其他实施例中,DSA 120可以包括管理耦合到DSA 120的每个DSD的冗余存储策略的物理架构。
系统100还包括管理服务器125,管理服务器125管理系统100的组件中的一个或多个。管理服务器125包括DSA维护模块130,DSA维护模块用于执行结合图2和图3更详细地讨论的用于替换和测试DSA 120的DSD的计算机可读指令。管理服务器125可以包括一个或多个处理器和存储器,其可以本地地位于单个计算机系统中,而在一些实施例中,管理服务器的一个或多个组件可以远程地定位并且经由网络来访问。管理服务器125管理一个或多个I/O服务器和客户端节点之间的交互(即,数据存储和检索)。
系统100进一步包括多个I/O服务器,诸如I/O服务器135和140,到I/O服务器N,这些I/O服务器被配置成基于从一个或多个客户端节点(诸如客户端节点145)接收的指令向DSA 120提供和接收数据。在此上下文中,客户端节点145可以是单计算机、多计算机、或利用经由一个或多个I/O服务器对容纳在DSA 120上的数据的接入的计算机网络。
图2描绘了根据某些实施例的用于检测和替换DSD的流程图200。基于从图1的DSA维护模块130接收的计算机可读指令执行流程图200的动作。
在205,DSA维护模块130检测DSD的故障模式,而在210,识别包含具有故障模式的DSD的外壳,诸如外壳105。在215,DSA维护模块130接收针对包括故障DSA的恢复组的选择,恢复组是包含故障DSD的DSA的一部分,诸如DSA120。
在225,DSA维护模块130确认在DSA中存在至少一个故障DSD,获得DSA中的每个DSD的状态。如果没有故障DSD,则流程图200退出。如果在DSA中存在故障DSD,DSA维护模块130在230接收对故障DSD的选择。
一旦确定了故障DSD,DSA维护模块130发布一系列命令用于DSA以在235处未选择的DSD之间重新平衡其存储的数据,并且存储DSA(诸如DSA120)、耦合到DSA的一个或多个I/O服务器(诸如I/O服务器135和I/O服务器140)和管理服务器(诸如管理服务器125)中的一个或多个的日志。
一旦在240处备份了日志,则在245处逻辑地释放故障DSD。在此上下文中,“逻辑释放”意指从托管故障DSD的DSA的逻辑路径中移除,并且从与系统(诸如图1的系统100)的另一个组件的进一步通信中移除DSD。在250处,替换故障DSD,并且DSA维护模块130在255处检测到已经发生DSD的替换。
图3描绘了根据所公开的实施例的示出通过成功的DSD替换来检测替换DSD的执行过程的流程图300。在305处,图1的DSA维护模块130检测DSA(诸如图1的DSA 120)中的替换DSD。当替换DSD时,情况可能是替换DSD先前已被使用并且不是新的。为了检测是否使用DSD,DSA维护模块130读取一个或多个DSD元数据扇区以查看是否已经写入任何数据。如果在替换DSD元数据扇区中已经写入数据,则在310,DSA维护模块130向替换DSD递送擦除其所有元数据内容的命令。
一旦被清理(如果需要的话),在315处,替换DSD被放置在DSA的逻辑路径中,从而使得其可以作为DSA的一部分被接入。此外,一旦替换DSD在DSA的逻辑路径中,DSA在320处跨其逻辑路径上的所有DSD重新平衡其数据,在325处向用户显示成功的DSD替换。
图4描绘了根据所公开的实施例的用于DSD替换和测试的方法400。在某些实施例中,方法400由DSA维护模块(诸如图1的DSA维护模块130)执行为计算机可读指令。
在405,方法400检测数据存储阵列(DSA)中的故障数据存储设备(DSD),并且在410,存储包括DSA和I/O服务器的第一状态的第一日志。在某些实施例中,检测DSA中的故障DSD包括检测DSA已经从DSA的逻辑定义中移除故障磁盘。在某些实施例中,DSA是分簇阵列和RAID阵列中的一个。在某些实施例中,检测DSA中的故障DSD包括将多个DSD中的好的DSD置于故障状态。
在415,方法400从DSA的逻辑路径中移除故障DSD,并且在420,在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。
在425,方法400检测外壳中替换故障DSD的替换DSD,并且在430,将替换DSD添加到DSA的逻辑路径。在某些实施例中,检测外壳中的替换DSD包括在故障DSD上显示移除故障DSD的指示符。
在435,方法400存储包括DSA和I/O服务器的第二状态的第二日志,在440比较第一日志和第二日志,并且在445基于比较显示DSA的状态的指示。
方法400的实施例可以进一步包括:在将替换DSD放置在DSA的逻辑路径中之后,在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。某些进一步的实施例可以包括读取替换DSD的元数据扇区中的数据和擦除元数据扇区中的数据。
在上文中,参考本公开中呈现的实施例。然而,本公开的范围不限于具体描述的实施例。相反,特征与元件的任意组合,无论是否与不同的实施例相关,都被预期来实现和实践所预期的实施例。此外,尽管在此公开的实施例可以实现优于其他可能的解决方案或优于现有技术的优点,但给定实施例是否实现特定优点并不限制本公开的范围。由此,本文所讨论的方面、特征、实施例和优点仅是说明性的,并且不被认为是所附权利要求的元素或限制,除非在权利要求中明确叙述。同样,对“本发明”的引用不应被解释为在此公开的任何发明主题的概括,并且不应被认为是所附权利要求的元素或限制,除非在一个或多个权利要求中明确叙述。
本发明的各个方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件和硬件方面的实施例的形式,这些实施例在此可以全部统称为“电路”、“模块”或“系统。”
本发明可以是任何可能的集成技术细节水平的系统、方法和/或计算机程序产品。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质(或媒体),所述计算机可读程序指令用于致使处理器执行本发明的各方面。
计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的凹槽中的凸起结构的机械编码设备、以及前述的任意合适组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。
本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码,这些编程语言包括面向对象的编程语言(如Smalltalk、C++等)和过程式编程语言(如“C”编程语言或类似的编程语言)。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的各方面。
本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,这样使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,所述计算机可读存储介质可以指引计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得具有存储在其中的指令的计算机可读存储介质包括制品,所述制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得一系列操作步骤在计算机、其他可编程装置或其他设备上执行以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图图示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表模块、段或指令的一部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实施例中,框中所标注的功能可以不以图中所标注的次序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以作为一个步骤完成、同时执行、基本同时地、以部分或全部时间上重叠的方式执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。
本发明的实施例可以通过云计算基础设施提供给终端用户。云计算通常指在网络上提供作为服务的可缩放计算资源。更正式地,云计算可以被定义为在计算资源与其底层技术架构(例如,服务器、存储装置、网络)之间提供抽象的计算能力,使得能够方便地、按需地访问可配置计算资源的共享池,所述可配置计算资源可以用最小的管理努力或服务提供商交互来快速配置和释放。因此,云计算允许用户访问“云”中的虚拟计算资源(例如,存储、数据、应用、以及甚至完整的虚拟化计算系统),而不考虑用于提供计算资源的底层物理系统(或那些系统的位置)。
通常,基于按使用付费向用户提供云计算资源,其中仅针对实际使用的计算资源(例如,用户消耗的存储空间量或用户实例化的虚拟化系统的数量)向用户收费。用户可在任何时间和从互联网上的任何地方访问驻留在云中的任何资源。在本发明的上下文中,用户可访问云中可用的应用(例如,经由诸如客户端节点145的客户端节点)或相关数据。例如,本文公开的系统和方法可以在云中的计算系统上执行,并且在云计算环境的上下文中执行DSD替换和测试的方法。在这样的情况下,本文公开的系统和方法可以监视包括云环境的DSD和DSA的正在进行的操作,存储与这样的监视有关的信息,以使得数据对其他应用可用于检查和分析。这样做允许用户从附接到连接到云的网络(例如,互联网)的任何计算系统访问信息。
虽然前述内容针对本发明的实施例,但可在不脱离本发明的基本范围的情况下设计本发明的其他及进一步实施例,且其范围由所附权利要求书确定。

Claims (20)

1.一种系统,包括:
数据存储阵列DSA,所述数据存储阵列DSA包括在外壳中的多个数据存储设备DSD,所述DSA被配置成在所述DSA的逻辑路径上的所述多个DSD之间分发数据的冗余副本;
I/O服务器,所述I/O服务器将DSA耦合到客户端节点并且被配置成在客户端节点与DSA之间提供数据接入;以及
管理服务器,所述管理服务器耦合到所述DSA,所述管理服务器被配置成:
检测所述DSA中的故障DSD;
存储包括DSA和I/O服务器的第一状态的第一日志;
从所述DSA的逻辑路径中移除故障DSD;
在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本;
检测所述外壳中替换所述故障DSD的替换DSD;
将替换DSD添加到所述DSA的逻辑路径;
存储包括DSA和I/O服务器的第二状态的第二日志;
比较第一日志和第二日志;以及
基于所述比较显示所述DSA的状态的指示。
2.根据权利要求1所述的系统,所述管理服务器进一步被配置成:在将所述替换DSD放置在所述DSA的逻辑路径中之后,在所述DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。
3.根据权利要求1所述的系统,其中,检测所述DSA中的故障DSD包括:检测所述DSA已经从所述DSA的逻辑定义中移除所述故障DSD。
4.根据权利要求1所述的系统,所述管理服务器进一步被配置成:读取所述替换DSD的元数据扇区中的数据并且擦除所述元数据扇区中的数据。
5.根据权利要求1所述的系统,其中,所述DSA是分簇阵列和RAID阵列中的一个。
6.根据权利要求1所述的系统,其中,检测所述DSA中的故障DSD包括将所述多个DSD中的好的DSD置于故障状态。
7.根据权利要求1所述的系统,其中,检测所述外壳中的替换DSD包括在所述故障DSD上显示移除所述故障DSD的指示符。
8.一种用于数据存储设备替换和测试的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质,具有随其一起体现的计算机可读程序代码,所述计算机可读程序代码可由一个或多个计算机处理器执行以:
检测数据存储阵列DSA中的故障数据存储设备DSD;
存储包括DSA和I/O服务器的第一状态的第一日志;
从所述DSA的逻辑路径中移除故障DSD;
在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本;
检测外壳中替换所述故障DSD的替换DSD;
将替换DSD添加到所述DSA的逻辑路径;
存储包括DSA和I/O服务器的第二状态的第二日志;
比较第一日志和第二日志;以及
基于所述比较显示所述DSA的状态的指示。
9.根据权利要求8所述的计算机程序产品,所述计算机可读程序代码进一步被配置成:在将所述替换DSD放置在所述DSA的逻辑路径中之后,在所述DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。
10.根据权利要求8所述的计算机程序产品,其中,检测所述DSA中的故障DSD包括:检测所述DSA已经从所述DSA的逻辑定义中移除所述故障DSD。
11.根据权利要求8所述的计算机程序产品,所述计算机可读程序代码进一步被配置成:读取所述替换DSD的元数据扇区中的数据并且擦除所述元数据扇区中的数据。
12.根据权利要求8所述的计算机程序产品,其中,所述DSA是分簇阵列和RAID阵列中的一个。
13.根据权利要求8所述的计算机程序产品,其中,检测所述DSA中的故障DSD包括将所述多个DSD中的好的DSD置于故障状态。
14.根据权利要求8所述的计算机程序产品,其中,检测所述外壳中的替换DSD包括在所述故障DSD上显示移除所述故障DSD的指示符。
15.一种用于数据存储设备替换和测试的方法,包括:
检测数据存储阵列DSA中的故障数据存储设备DSD;
存储包括DSA和I/O服务器的第一状态的第一日志;
从所述DSA的逻辑路径中移除故障DSD;
在DSA的逻辑路径中的多个DSD之间分发数据的冗余副本;
检测外壳中替换所述故障DSD的替换DSD;
将替换DSD添加到所述DSA的逻辑路径;
存储包括DSA和I/O服务器的第二状态的第二日志;
比较第一日志和第二日志;以及
基于所述比较显示所述DSA的状态的指示。
16.根据权利要求15所述的方法,所述方法进一步包括:在将所述替换DSD放置在所述DSA的逻辑路径中之后,在所述DSA的逻辑路径中的多个DSD之间分发数据的冗余副本。
17.根据权利要求15所述的方法,其中检测所述DSA中的故障DSD包括:检测所述DSA已经从所述DSA的逻辑定义中移除所述故障DSD。
18.根据权利要求15所述的方法,所述方法进一步包括:读取所述替换DSD的元数据扇区中的数据并且擦除所述元数据扇区中的数据。
19.根据权利要求15所述的方法,其中,所述DSA是分簇阵列和RAID阵列中的一个。
20.根据权利要求15所述的方法,其中,检测所述DSA中的故障DSD包括将所述多个DSD中的好的DSD置于故障状态。
CN202111373120.2A 2020-12-02 2021-11-19 服务数据存储阵列中的数据存储设备 Pending CN114579357A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/110,042 2020-12-02
US17/110,042 US11593205B2 (en) 2020-12-02 2020-12-02 Servicing data storage devices in a data storage array

Publications (1)

Publication Number Publication Date
CN114579357A true CN114579357A (zh) 2022-06-03

Family

ID=79163612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111373120.2A Pending CN114579357A (zh) 2020-12-02 2021-11-19 服务数据存储阵列中的数据存储设备

Country Status (5)

Country Link
US (1) US11593205B2 (zh)
JP (1) JP2022088335A (zh)
CN (1) CN114579357A (zh)
DE (1) DE102021128520A1 (zh)
GB (1) GB2604694B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593205B2 (en) * 2020-12-02 2023-02-28 International Business Machines Corporation Servicing data storage devices in a data storage array

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5522031A (en) 1993-06-29 1996-05-28 Digital Equipment Corporation Method and apparatus for the on-line restoration of a disk in a RAID-4 or RAID-5 array with concurrent access by applications
US6388437B1 (en) 2000-06-20 2002-05-14 Robert S. Wolski Ergonomic test apparatus for the operator-assisted testing of electronic devices
JP4426333B2 (ja) * 2004-02-18 2010-03-03 株式会社日立製作所 ディスクアレイ装置
US10938418B2 (en) 2005-09-30 2021-03-02 Pure Storage, Inc. Online disk replacement/removal
CN103970481B (zh) 2013-01-29 2017-03-01 国际商业机器公司 重建存储器阵列的方法和装置
US9519556B2 (en) 2014-09-09 2016-12-13 Dell Products, Lp Member replacement in an array of information storage devices
US9747177B2 (en) * 2014-12-30 2017-08-29 International Business Machines Corporation Data storage system employing a hot spare to store and service accesses to data having lower associated wear
US11132256B2 (en) * 2018-08-03 2021-09-28 Western Digital Technologies, Inc. RAID storage system with logical data group rebuild
US11593205B2 (en) * 2020-12-02 2023-02-28 International Business Machines Corporation Servicing data storage devices in a data storage array

Also Published As

Publication number Publication date
US20220171677A1 (en) 2022-06-02
JP2022088335A (ja) 2022-06-14
GB202116547D0 (en) 2021-12-29
DE102021128520A1 (de) 2022-06-02
GB2604694A (en) 2022-09-14
GB2604694B (en) 2023-05-17
US11593205B2 (en) 2023-02-28

Similar Documents

Publication Publication Date Title
US10216607B2 (en) Dynamic tracing using ranking and rating
US10430284B2 (en) Creating a full backup image from incremental backups
US11132356B2 (en) Optimizing data entries in a log
US10255140B2 (en) Fully distributed intelligent rebuild
US10983822B2 (en) Volume management by virtual machine affiliation auto-detection
US20160342502A1 (en) How to track operator behavior via metadata
US20150074472A1 (en) Checkpointing For Delayed Alert Creation
US20200250019A1 (en) Method, device and computer program product for monitoring access request
US8707107B1 (en) Systems and methods for proactively facilitating restoration of potential data failures
US10581668B2 (en) Identifying performance-degrading hardware components in computer storage systems
US11947413B2 (en) Dynamic system log preprocessing
CN112748856B (zh) 管理盘的方法、电子设备和计算机程序产品
US9697112B2 (en) Partial release management
CN114579357A (zh) 服务数据存储阵列中的数据存储设备
CN108647284B (zh) 记录用户行为的方法及装置、介质和计算设备
CN112306744B (zh) 一种日志存储备份方法、装置、服务器和介质
US10637722B2 (en) Automated remote message management
US10970152B2 (en) Notification of network connection errors between connected software systems
US9952773B2 (en) Determining a cause for low disk space with respect to a logical disk
JP2023547830A (ja) 分散ファイル・システムからのイベント通知の配信
US20200026596A1 (en) I/o recovery and diagnostics
US11061725B2 (en) Managing a set of computing resources
US20200026631A1 (en) Dynamic i/o monitoring and tuning
US8935494B2 (en) Backing up an image in a computing system
US10878603B1 (en) Fan out visualization for data copies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination