CN111562881B - 多存储节点系统和多存储节点系统的容量管理方法 - Google Patents

多存储节点系统和多存储节点系统的容量管理方法 Download PDF

Info

Publication number
CN111562881B
CN111562881B CN201910777265.5A CN201910777265A CN111562881B CN 111562881 B CN111562881 B CN 111562881B CN 201910777265 A CN201910777265 A CN 201910777265A CN 111562881 B CN111562881 B CN 111562881B
Authority
CN
China
Prior art keywords
allocated
physical blocks
physical
storage
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910777265.5A
Other languages
English (en)
Other versions
CN111562881A (zh
Inventor
菊地章浩
深谷崇元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN111562881A publication Critical patent/CN111562881A/zh
Application granted granted Critical
Publication of CN111562881B publication Critical patent/CN111562881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0644Management of space entities, e.g. partitions, extents, pools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/062Securing storage systems
    • G06F3/0623Securing storage systems in relation to content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种多存储节点系统和多存储节点系统的容量管理方法。在多存储节点系统中,为了确保数据的冗余性而确保用于数据重建的容量。在由多个存储节点构成的多存储节点系统中,多个存储节点具有用于存储数据的多个驱动器和控制对多个驱动器写入数据的控制部。控制部通过将多个驱动器的存储区域分割为多个物理块并将分割出的物理块分配给逻辑块来保存数据。多个存储节点被分为因单个故障而受到影响的故障集。管理多存储节点系统的、多个存储节点中的一个主节点的控制部包括数据库,该数据库按每个驱动器、每个存储节点、每个故障集管理多个存储节点的物理块对逻辑块的分配。

Description

多存储节点系统和多存储节点系统的容量管理方法
技术领域
本发明涉及多存储节点系统和多存储节点系统的容量管理方法。
背景技术
近年来,用软件管理在多个节点中分布的存储装置而将整体定义为大的存储装置、提高使用效率的技术即软件定义存储(Software Defined Storage(SDS))正在普及。
在这样的存储区域分布在多个节点中的系统中,系统整体的空闲容量的管理非常重要。作为管理在多个节点中分布的系统的空闲容量的技术,有专利文献1。
专利文献1中,公开了将在多个节点中分布的存储区域连结来作为一个存储区域供主机计算机访问的技术。
现有技术文献
专利文献
专利文献1:日本特开2005-165702号公报
发明内容
发明要解决的课题
SDS这样的由多个节点构成的多存储系统中,通过应用在多个节点的驱动器中保存数据的Mirroring和Erasure-Coding技术,而使数据冗余化。
一般的SDS中,在节点或节点中搭载的驱动器故障时、节点或驱动器减少设置时、检测到驱动器故障的征兆时,为了恢复保存的数据的冗余性而进行数据的重建(rebuild)。例如,通过在驱动器故障时使发生了故障的驱动器中保存的数据在多存储系统的其他驱动器中重建,而在多存储系统中确保数据的冗余性。
为了进行恢复数据冗余性的数据重建,在发生了驱动器或节点故障的情况、和进行节点或驱动器减少设置的情况下,冗余数据需要存在于由多个节点构成的系统中,需要用冗余数据将数据重建并保存的物理容量。
但是,专利文献1中,虽然公开了将在多个节点中分布的存储区域连结来作为1个存储区域管理空闲区域的技术,但这是为了对于逻辑设备,在分配物理设备时判断存储适配器(SA)内是否存在空闲区域的,关于得知用于数据重建的空闲容量并未提及。
另外,关于在SDS环境中为了数据重建而按节点中搭载的驱动器单位、节点单位、将多个节点定义为故障集的故障集单位管理容量并未提及。
于是,本发明的目的在于提供一种在多存储节点系统中,为了确保数据的冗余性,而确保用于数据重建的容量的多存储节点系统、多存储节点系统的容量管理方法。
用于解决课题的技术方案
为了达成上述目的,本发明的多存储节点系统的一个方式由多个存储节点构成。多个存储节点具有用于存储数据的多个驱动器和控制对多个驱动器写入数据的控制部。控制部通过将多个驱动器的存储区域分割为多个物理块并将分割出的物理块分配给逻辑块来保存数据。多个存储节点被分为因单个故障而受到影响的故障集,管理多存储节点系统的、多个存储节点中的一个主节点的控制部包括数据库,该数据库按每个驱动器、每个存储节点、每个故障集管理多个存储节点的物理块对逻辑块的分配。
发明效果
根据本发明,在多存储节点系统中,即使在驱动器或节点故障、驱动器或节点减少设置时,也能够按驱动器、节点、故障集单位管理为了确保数据冗余性而进行数据重建用的容量管理。
附图说明
图1是表示本实施例的系统结构图的一例的图。
图2是表示本实施例的存储节点的硬件结构图的一例的图。
图3是表示本实施例的控制部与存储节点之间的卷的定位的一例的系统框图。
图4是表示本实施例的各种管理表的一例的图。
图5是表示本实施例的存储节点管理表的一例的图。
图6是表示本实施例的驱动器管理表的一例的图。
图7是表示本实施例的物理块管理表的一例的图。
图8是表示本实施例的逻辑块管理表的一例的图。
图9是表示本实施例的已分配物理块(节点)管理表的一例的图。
图10是表示本实施例的空闲物理块(节点)管理表的一例的图。
图11是表示本实施例的已分配物理块(故障集)管理表的一例的图。
图12是表示本实施例的空闲物理块(故障集)管理表的一例的图。
图13是表示本实施例的集群控制的处理流程的流程图。
图14是表示本实施例的通知条件(1)的确认处理流程的流程图。
图15是表示本实施例的通知条件(2)的确认处理流程的流程图。
图16是表示本实施例的通知条件(3)的确认处理流程的流程图。
图17A是表示本实施例的基于通知条件(1)的警报(1)的一例的图。
图17B是表示本实施例的基于通知条件(2)的警报(2)的一例的图。
图17C是表示本实施例的基于通知条件(3)的警报(3)的一例的图。
图18是表示本实施例的节点内优先分配处理的流程图。
图19是表示本实施例的对DP池的物理块分配处理的流程图。
具体实施方式
对于实施方式,参考附图进行说明。另外,以下说明的实施方式并不限定与权利要求书相关的发明,并且实施方式中说明的各要素及其组合的全部对于发明的解决方案并不一定是必需的。
以下说明中,有时用[AAA表]的表达说明信息,但信息可以用任意的数据结构表达。即,为了表示信息不依赖于数据结构,能够将[AAA表]改为[AAA信息]。
另外,以下说明中,[CPU]是包括1个以上处理器的Central Processing Unit(中央处理器)。处理器可以包括进行处理的一部分或全部的硬件电路。
另外,以下说明中,有时以[程序]为动作主体说明处理,但程序通过由CPU执行而适当使用存储资源(例如存储器)等进行规定的处理,所以实际的处理主体是CPU。从而,以程序为动作主体说明的处理也可以视为处理器进行处理。另外,也可以包括进行处理器进行的处理的一部分或全部的硬件电路。计算机程序可以从程序源安装在装置中。程序源例如可以是程序发布服务器、或者计算机可读取的存储介质。
<概要>
本技术中,在多存储节点系统中,即使在发生了将多个节点作为单位的故障集、节点、各节点中搭载的驱动器单位的故障、和节点或驱动器的减少设置的情况下,在SoftwareDefined Storage(SDS)中,也必须预先在适当场所(故障集、节点)中确保用于数据重建的容量。另外,SDS需要减小数据重建时对I/O性能的影响。此处,故障集例如指的是将从同一电源系统接受电源供给的节点合并而成的组或将用同一交换机与网络连接的节点合并而成的组,是因单个故障而受到影响的节点的组。即,故障集是以即使在电源故障或交换机故障时、冗余数据也能够存在于多存储节点系统中的方式将节点分组而成的。
这样,在多个节点被按故障集这一概念分组的多存储节点系统中,管理者非常难以判断用于将数据重建的适当场所(故障集、节点),即在何处确保用于保存重建数据的物理容量。
本技术涉及在多存储节点系统中,对于为了即使在驱动器或节点故障、驱动器或节点减少设置时也确保数据冗余性而进行数据重建用的容量管理,按驱动器、节点、故障集单位进行管理,能够按驱动器、节点、故障集得知重建数据的保存位置的多存储节点系统、多存储节点系统的容量管理方法。
<用语的说明>
SC(Storage Cluster):存储集群相当于多存储节点系统整体。
FS(Fault Set):故障集是存储集群的子集,是因单个故障而受到影响的存储节点的组。例如,是共享电源系统或网络交换机的节点的组,是因电源故障或网络交换机的故障而受到影响的节点的组。为了在这些单个的电源故障时等也确保数据的冗余性,存储集群中冗余数据需要存在于其他故障集中。
SN(Storage Node):存储节点。
CM(P)(Cluster Master(Primary)):集群主(首要)是管理多存储节点系统整体的存储节点,在多存储节点系统中存在一个。称为主节点。
CM(S)(Cluster Master(Secondary)):集群主(次要)是集群主(首要)的待机系统节点,在集群主(首要)中发生了故障的情况下,晋升为集群主(首要)。
CW(Cluster Worker):集群工作节点,集群主(首要、次要)以外的存储节点。
CN(Compute Node):计算节点。运行对存储节点中保存的数据进行访问的应用程序的计算节点。
MN(Management Node):管理节点。管理存储集群的节点。
<系统结构>
首先,对于本发明的一个实施方式的多存储节点系统进行说明。
图1是一个实施方式的系统结构图。
多个存储节点(SN)101a、101b、101c具有保存数据的驱动器,经由存储节点间网络104彼此连接。
一个以上的计算节点(CN)107运行应用程序,经由计算网络105与多个存储节点101连接。多个存储节点101从计算节点107接收IO请求,在驱动器中保存数据或者读取数据并对计算节点发送。
多个存储节点101与管理多个存储节点101的管理节点(MN)108经由管理网络106连接。
多个存储节点101构成存储集群(SC)103,存储集群103相当于多存储节点系统,将共享电源系统或网络交换机的存储节点的组即故障集102构成为子集。
故障集在存储集群103中能够构成2个以上,本实施例中设想为3个程度。各故障集中,存储节点能够由1个以上构成。本实施例中,设想为最大16个程度。另外,各节点101中搭载的驱动器的数量是2个以上,本实施例中,设想为最大26个程度。这些个数的数量不限于举例示出的,可以在不脱离本发明的主旨的范围内设想为适当的数量。
多个存储节点101包括管理存储集群、存在于存储集群中的一个集群主(首要)(CM(P))101a、作为集群主(首要)的待机系统的集群主(次要)(CM(S))101b、除此以外的集群工作节点(CW)101c。
图2是表示一个实施方式的存储节点的硬件结构图的一例的图。
存储节点101相当于图1的存储节点101a、1011b等,对来自服务器等计算机的I/O请求进行处理,进行在驱动器119中保存数据、或者从驱动器119读取数据并对计算节点107发送的处理。驱动器119由NVMe驱动器119a、SAS驱动器119b、SATA驱动器119c等各种驱动器构成。
存储节点101具有用于与存储节点间网络104、计算网络105、管理网络106连接的网络接口203、一个以上的中央处理部(CPU)201、存储器202、将它们连接的总线205。存储器202由SRAM、DRAM等易失性存储器构成。
在存储器202中,保存用于由多个存储节点构成集群的集群控制程序111、进行存储节点的控制的节点控制程序112、对来自计算节点107的IO请求进行处理并控制对驱动器119的数据写入且从驱动器119的数据读取的IO控制活动程序113。另外,存储器202保存其它存储节点是集群主(首要)、与该节点的IO控制活动程序对应的待机系统的IO控制待机程序114,以及图4所示的各种表的SODB(Scale Out Data Base)112。
CPU201通过执行存储器202中保存的程序来作为控制部实现各种功能。
在存储器202中,在图示的程序之外,也保存快照和远程功能等的各种程序,实现存储节点的功能。另外,存储器202中,具有作为暂时性地存储关于IO请求的数据的缓存存储器的缓存区域。
集群控制程序111、节点控制程序112、IO控制活动程序113、IO控制待机程序114也可以是被保存在驱动器119中,由CPU201读取至存储器202并运行的方式。有时将执行该各种程序而实现的功能称为集群控制部111、节点控制部112、IO控制部活动113、IO控制部待机114。
网络接口NW I/F303为了方便而图示为一个接口,但可以用不同的2个以上接口构成与用于连接其他存储节点的存储节点间网络104、用于连接计算节点107的计算网络105、用于连接管理节点107的管理网络106的连接用的接口。
存储节点的结构在集群主(首要)(CM(P))101a、集群主(次要)(CM(S))101b、和除此以外的集群工作节点(CW)101c中是共通的。
图3是表示一个实施方式的用CPU201实现的控制部与存储节点之间的卷的定位的一例的系统框图。
存储节点101a是作为集群首要主节点(主节点)工作的节点,存储节点101b是作为集群次要主节点工作的节点,存储节点101c是作为集群工作节点工作的节点。各存储节点101保存了如图2所示的程序,但图3中仅图示在动作的说明上必要的程序进行说明。另外,图3为了使说明简化,而示出了各故障集中、存储节点由1台构成的例子,但1个故障集中有时包括多台存储节点。
各存储节点以驱动器119的一定大小的存储区域为管理单位,管理多个物理块(Physical chunk)118a、118b。主节点101a从各存储节点将多个物理块118、118b分配至逻辑块LC1(Logical Chunk,LC)117a。主节点的控制部构成包括多个逻辑块LC117的存储池120。
主节点的控制部201通过将存储池120的包括逻辑块117a的多个逻辑块分配至DP池116,而构成DP池。控制部201对于计算节点107,提供一个以上DP卷115作为存储区域。控制部201对于DP卷115从DP池116进行存储区域的分配。
图3示意性地示出了驱动器119与物理块118的关系、物理块118与逻辑块117的关系、逻辑块117与存储池120的关系、逻辑块、存储池120、DP池116的关系、DP池116与DP卷115的关系。
另外,图3中,主节点101a的IO控制活动113和集群次要主节点101b的IO控制待机对于某一DP卷构成当前使用系统和待机系统。另一方面,示出了对于其他DP卷,存储节点101b是IO控制活动,对于存储节点101c是IO控制待机的关系。
<各种表>
图4是表示本实施例的各种管理表的一例的图。
在SODB110中,保存存储节点管理表401、驱动器管理表402、物理块管理表403、逻辑块管理表404、已分配物理块(节点)管理表405、空闲物理块(节点)管理表406、已分配物理块(故障集)管理表407、空闲物理块(故障集)管理表408等各种表。
在图5中示出存储节点管理表401的详情,在图6中示出驱动器管理表402的详情,在图7中示出物理块管理表403的详情,在图8中示出逻辑块管理表404的详情,在图9中示出已分配物理块(节点)管理表405的详情,在图10中示出空闲物理块(节点)管理表406的详情,在图11中示出已分配物理块(故障集)管理表407的详情,在图12中示出空闲物理块(故障集)管理表408的详情。
另外,为了便于说明而使用表这一表达进行说明,但不限于表,也能够用指针或关系数据库等其他数据结构实现。
图5是表示本实施例的存储节点管理表的一例的图。
存储节点管理表401被保存在SODB110中。存储节点管理表401的节点编号501是用于在存储集群内唯一确定各存储节点的识别符。故障集编号是用于在存储集群内唯一确定各故障集的识别符。例如,示出了用节点编号501“1”确定的存储节点(以下有时也简称为节点)是属于故障集编号502“1”的节点。同样地,示出了节点编号501“3”的节点属于故障集编号“2”。
图6是表示本实施例的驱动器管理表的一例的图。
驱动器管理表402被保存在SODB110中。驱动器编号601是用于在存储集群内唯一确定各驱动器119的识别符。节点编号602是用于在存储集群内唯一确定各存储节点的识别符,相当于图5的节点编号501。物理块数(合计值)603表示用驱动器编号确定的驱动器中包括的物理块的数量。物理块数(已分配)604表示用驱动器编号确定的驱动器中包括的物理块中的、已对逻辑块分配的已分配的块数。物理块数(空闲)605表示用驱动器编号确定的驱动器中包括的物理块中的、尚未对逻辑块分配的块数。介质类型606是表示用驱动器编号确定的驱动器的种类的信息。
例如,示出了驱动器编号601“2”属于节点编号602“1”,物理块数(合计值)603是“20”,物理块数(已分配)604是“5”,物理块数(空闲)605是“15”,介质类型606是“SAS”。介质类型用作在数据重建时、用于将与数据保存在的介质同一类型的介质选择为重建的数据的保存位置的信息。
图7是表示本实施例的物理块管理表的一例的图。
物理块管理表403被保存在SODB110中。物理块管理表403的物理块编号701是用于在存储集群102内唯一确定各物理块118的识别符。驱动器编号702是用于在存储集群102内唯一确定各驱动器119的识别符,相当于图6的驱动器编号601。驱动器内偏移量703表示用各物理块编号确定的物理块的、用驱动器编号确定的驱动器内的地址。状态704表示用物理块编号701确定的物理块是否已对逻辑设备分配。另外,状态704在对逻辑设备分配之外,有时也保存表示处于预约状态(Reserved)或表示该物理块处于不可使用的状态的(Blockade)的状态的信息。
例如,示出了物理块编号701“2”的物理块属于驱动器编号702“1”的驱动器,从“0x10000”的位置开始,处于已分配的“已分配(Allocated)”状态。
图8是表示本实施例的逻辑块管理表的一例的图。
逻辑块管理表404被保存在SODB110中。逻辑块管理表404的逻辑块编号801是用于在存储集群102内唯一确定各逻辑块117的识别符。DP池编号802是用于识别逻辑块分配至的DP池的识别符。物理块编号(正本)803是识别对逻辑块分配的物理块中的、作为正本的物理块的识别符,物理块编号(镜像)804是识别对逻辑块分配的物理块中的、作为镜像的物理块的识别符。
例如,示出了逻辑块编号801“2”被分配至DP池编号802“1”,分别在物理块编号803“2”中保存正本数据、在物理块编号804“6”中保存镜像数据。
图8示出了对于一个逻辑块、分配正本和镜像这两个物理块的基于镜像的冗余化,但在应用Erasure-Coding的冗余化的情况下,需要与数据块对应地示出多个物理块编号作为物理块编号803的列,另外也需要表示保存奇偶校验的物理块的物理块编号的列。
图9是表示本实施例的已分配物理块(节点)管理表的一例的图。物理块(节点)管理表405被保存在SODB110中。物理块(节点)管理表405的节点编号901是用于在存储集群102内唯一确定各存储节点101的识别符,相当于图5的节点编号501、图6的节点编号602。配对目标故障集编号902是确定与各节点构成配对的节点所属的故障集的识别符。故障集是以在电源故障时、冗余数据也能够存在于多存储节点系统中的方式将节点分组而成的,将在电源故障时等保存冗余数据的故障集作为配对目标故障集编号902保存。
已分配块数(合计值)903表示该节点中已分配的物理块数的合计值。已分配块数(SSD)904表示该节点的SSD驱动器中已分配的物理块数。已分配块数(SAS)905表示该节点的SAS驱动器中已分配的物理块数。已分配块数(SATA)906表示该节点的SATA驱动器中已分配的物理块数。从而,已分配块数(合计值)903的值是将各驱动器的已分配块数904、905、906合计得到的值。
例如,示出了节点编号901“1”的配对目标故障集编号902是“2”和“3”,在配对目标故障集编号902是“2”的情况下,已分配块数(合计值)903是“20”,已分配块数(SSD)904是“10”,已分配块数(SAS)905是“5”,已分配块数(SATA)906是“5”。
图10是表示本实施例的空闲物理块(节点)管理表的一例的图。
空闲物理块(节点)管理表406被保存在SODB110中。空闲物理块(节点)管理表406的节点编号1001是用于在存储集群102内唯一确定各存储节点101的识别符,相当于图5的节点编号501、图6的节点编号602、图9的节点编号901。
空闲物理块数(合计值)1002表示用节点编号确定的节点中包括的物理块中的、尚未分配的物理块数的合计值。空闲物理块数(SSD)1003表示该节点的SSD驱动器中尚未用于分配的物理块数。空闲物理块数(SAS)1004表示该节点的SAS驱动器中尚未用于分配的物理块数。空闲物理块数(SATA)1005表示该节点的SATA驱动器中尚未用于分配的物理块数。从而,空闲物理块数(合计值)1002的值是将各驱动器的空闲物理块数1003、1004、1005合计得到的值。
例如,示出了节点编号1001“1”中,空闲物理块数(合计值)1002是“30”,空闲物理块数(SSD)1003是“10”,空闲物理块数(SAS)1004是“10”,空闲物理块数(SATA)1005是“10”。
图11是表示本实施例的已分配物理块(故障集)管理表的一例的图。已分配物理块(故障集)管理表407被保存在SODB110中。
已分配物理块(故障集)管理表407的故障集编号1101是用于在存储集群102内唯一确定各故障集102的识别符。配对目标故障集编号1102是确定与用故障集编号1101表示的故障集成为配对、保存冗余数据的故障集的识别符。
已分配块数(合计值)1103表示故障集内已分配的物理块数的合计值。已分配块数(SSD)1104表示该故障集内的SSD驱动器中已分配的物理块数。已分配块数(SAS)1105表示该故障集内的SAS驱动器中已分配的物理块数。已分配块数(SATA)1106表示该故障集内的SATA驱动器中已分配的物理块数。从而,已分配块数(合计值)1103的值是将各驱动器的已分配块数1104、1105、1106合计得到的值。
例如,示出了故障集编号1101“1”的配对目标故障集编号1102是“2”和“3”。配对目标故障集编号1102是“2”的情况下,已分配块数(合计值)1103是“20”,已分配块数(SSD)1104是“10”,已分配块数(SAS)1105是“5”,已分配块数(SATA)1106是“5”。
图12是表示本实施例的空闲物理块(故障集)管理表的一例的图。空闲物理块(故障集)管理表408被保存在SODB110中。
空闲物理块(故障集)管理表408的故障集编号1201是用于在存储集群102内唯一确定各故障集102的识别符,相当于图11的故障集编号1101。
空闲物理块数(合计值)1202表示用故障集编号1201确定的故障集中包括的物理块中的、尚未分配的物理块数的合计值。空闲物理块数(SSD)1203表示该故障集内的SSD驱动器中尚未用于分配的物理块数。空闲物理块数(SAS)1204表示该故障集内的SAS驱动器中尚未用于分配的物理块数。空闲物理块数(SATA)1205表示该故障集内的SATA驱动器中尚未用于分配的物理块数。从而,空闲物理块数(合计值)1202的值是将各驱动器的空闲物理块数1203、1204、1205合计得到的值。
例如,示出了故障集编号1201“1”中,空闲物理块数(合计值)1202是“30”,空闲物理块数(SSD)1203是“10”,空闲物理块数(SAS)1204是“10”,空闲物理块数(SATA)1205是“10”。
用图5至图12所示的节点编号等编号表示的识别符不限于数字,也可以是符号或字符等其他信息。
此处,使用图19,用SODB110中保存的各种管理表说明图3中说明的物理块118、逻辑块117、DP池116的分配的处理。
图19是表示由控制部201执行的、对DP池的物理块分配处理的流程图。在步骤S1901中,检测DP池116的容量的耗尽。例如,已对DP卷115分配了DP池的容量的80%的情况下,判断为耗尽状态。但是,80%只是例子,也可以设定除此以外的值。
在步骤S1902中更新SODB。具体而言,将物理块管理表403的未分配(Nonallocated)的物理块的状态704从未分配(Non Allocated)变更为保留(Reserved)。
在步骤S1903中,节点控制部112在SODB110的逻辑块管理表404中,将状态被变更为保留(Reserved)的物理块分配至逻辑块。将被分配了物理块的逻辑块分配至DP池。
在步骤S1904中,节点控制部接收到进程的完成通知时,将SODB更新。也可以由集群控制部111进行SODB的管理和更新。该情况下,从节点控制部接收了进程的完成通知的集群控制部111将SODB更新。
例如,使驱动器管理表402的物理块数(已分配)604的数量增加,使物理块数(空闲)605的值减少。空闲物理块(节点)管理表406、已分配物理块(节点)管理表405、空闲物理块(故障集)管理表408、已分配物理块(故障集)管理表407也同样地更新。
即,本实施例中,物理块的分配指的是对于对应的逻辑块的分配、或对DP池的分配、或其双方。
<控制流程>
图13是表示本实施例的集群控制部的处理流程的流程图。存储集群的结构中发生了变更的情况下,SODB110中的各种管理表被更新(步骤S1301)。
SODB110中的各种管理表被更新的情况中,包括因DP池使用量增加或重新平衡而新分配物理块的情况、检测出故障集的故障、节点的故障、设备的故障、物理块变得不可用的情况、从各存储节点减设驱动器、或从存储集群减设存储节点的情况。
控制部201(例如用集群控制程序实现的功能)以进行图14所示的通知条件(1)的确认(步骤S1302),进行图15所示的通知条件(2)的确认(步骤S1303),进行图16所示的通知条件(3)的确认(步骤S1303),满足各通知条件的情况下通知警报(1)-(3)的方式进行控制。虽然详细流程中并未示出,但集群控制部111在因管理者的应对(物理空闲容量的增强)等而不再满足条件的情况下,通知警报解除。另外,虽然详细流程中并未示出,但考虑驱动器的Tier、即SSD、SAS、SATA等驱动器种类的情况下,在条件中追加“介质类型一致”。
图14是表示本实施例的通知条件(1)的确认处理流程的流程图。图14所示的处理由集群控制部111执行,是在各驱动器的已分配物理容量超过同一节点内的其他驱动器的空闲物理容量的合计值的情况下、满足通知条件(1)、用于发出警报(1)的处理。
SODB110中各种管理信息被更新时,开始处理。在步骤S1401中,设节点编号n=1,对于步骤S1401至步骤1408进行相当于存储节点数的循环处理。
在步骤S1402中,从空闲物理块(节点)管理表406取得节点编号n的空闲物理块数(合计值)a。即,节点编号是1的情况下,从物理块数(合计值)1002取得物理块数(合计值)a“30”。
在步骤S1403中,从驱动器管理表402取得与节点编号n连接的驱动器编号d。即,根据驱动器管理表402的节点编号“1”,取得驱动器编号“1,2,3”。进行使步骤S1403至步骤S1407的处理与驱动器相应地反复的循环处理。
在步骤S1404中,从驱动器管理表402取得驱动器d的物理块数(已分配)b、物理块数(空闲)c。例如,对步骤S1403中取得的驱动器编号“1,2,3”中的驱动器编号“1”的处理进行说明,对于驱动器编号“1”的物理块数(已分配)b从驱动器管理表402的列604取得“5”,对于物理块数(空闲)c从驱动器管理表402的列605取得“5”。
在步骤S1405中,判断a-c<b。即,判断从步骤S1402中取得的节点编号n的空闲物理块数(合计值)a中减去步骤S1404中取得的驱动器的物理块数(空闲)c得到的值是否小于步骤S1404中取得的驱动器的物理块数(已分配)。这表示判断各驱动器的已分配物理容量是否超过同一节点内的其他驱动器的空闲物理容量的合计值。即,判断属于多个存储节点中的特定的存储节点的特定的驱动器的已分配物理块的数量(物理容量)是否超过该特定的存储节点的其他驱动器的尚未对逻辑块分配的空闲物理块的数量(物理容量)的合计值。因为物理块是规定的大小,所以物理块的数量能够置换为物理容量。
步骤S1405的判断的结果如果是否定的则前进至步骤S1407,如果是肯定的则前进至步骤S1406。在步骤S1406中,发出警报(1)。关于警报(1)的内容,在图17A中详细说明,但如果简单说明,则包括表示对于系统的管理者、因为该节点的物理块不足、所以提示追加驱动器的警告的内容。
该驱动器的处理结束时,选择下一个驱动器,反复从步骤S1403起的处理。此处,驱动器编号“1,2,3”中、驱动器编号“1”的处理结束时,选择驱动器编号“2”,反复进行直到驱动器编号“3”的处理。对于全部驱动器处理结束时,前进至步骤S1408,选择下一个节点,反复从步骤S1401起的处理。
图15是表示本实施例的通知条件(2)的确认处理流程的流程图。图15所示的处理由集群控制部111执行,是在各节点的已分配物理容量超过其他节点的空闲物理容量的合计值的情况下、满足通知条件(2)、用于发出警报(2)的处理。
在步骤S1501中,设节点编号n=1,开始与存储节点数相应地反复步骤S1501至步骤S1512的处理的循环。
在步骤S1502中,从存储节点管理表401取得节点编号n的故障集编号f。例如,节点编号n=1的情况下,从存储节点管理表401的故障集编号502取得故障集编号“1”。
在步骤S1503中,从已分配物理块(节点)管理表405取得节点编号n的已分配物理块数(合计值)的合计值a。节点编号n=1的情况下,从物理块(节点)管理表405的已分配物理块数(合计值)903取得。
在步骤S1504中,从空闲物理块(节点)管理表406取得节点编号n的空闲物理块数(合计值)的合计值b。节点编号n=1的情况下,从空闲物理块(节点)管理表406的空闲物理块数(合计值)1002取得作为空闲物理块数(合计值)的合计值b。
在步骤S1505中,从空闲物理块(故障集)管理表408取得故障集编号f的空闲物理块数(合计值)的合计值c。例如,故障集编号是“1”的情况下,从空闲物理块(故障集)管理表408的空闲物理块合计值1202取得空闲物理块数(合计值)的合计值c。
在步骤S1506中,根据步骤S1503中取得的a、步骤S1504中取得的b、和步骤S1505中取得的c判断是否满足a>c-b的条件。这是判断属于某一故障集的节点的已分配物理容量是否超过其他节点的空闲物理容量的合计值。即,判断属于某一故障集的第一存储节点的已分配物理块的数量是否超过属于某一故障集、第一存储节点以外的存储节点中的、尚未分配给逻辑块的物理块的数量(空闲物理容量)的合计值。因为物理块是规定的大小,所以物理块的数量能够置换为物理容量。
对于步骤S1506的条件是否定的情况下,前进至步骤S1512,选择下一个节点并反复从步骤S1501起的处理。对于步骤S1506的条件是肯定的情况下,前进至步骤S1507。
在步骤S1507中,从已分配物理块(节点)管理表405取得节点编号n的配对目标故障集编号p和已分配块数合计值d。配对目标故障集编号p从已分配物理块(节点)管理表405的配对目标故障集编号902取得,已分配块数合计值d从已分配块数合计值903取得。开始相当于对应的配对目标故障集的循环(步骤S1507至步骤S1511)。
在步骤S1508中,从空闲物理块(故障集)管理表408取得故障集编号f、p以外的故障集编号的空闲物理块数(合计值)的合计值e。
在步骤S1509中,根据步骤S1507中取得的已分配块数合计值d、和步骤S1508中取得的故障集编号的空闲物理块数(合计值)的合计值e,判断是否满足d>e的条件。即,在步骤S1509中,判断配对目标故障集的各节点的已分配物理容量是否超过了其他节点的空闲物理容量的合计值。因为物理块是规定的大小,所以物理块的数量能够置换为物理容量。此处,其他节点中,除去了属于处理中的故障集和配对目标故障集的节点。
不满足步骤S1509的条件的情况下,前进至步骤S1511,对于节点编号n的下一个配对目标故障集,反复从步骤S1507起的处理。
满足步骤S1509的条件的情况下,前进至步骤S1510,进行警报(2)的发出。警报(2)的详情用图17B说明,但如果简单说明,则对于系统的管理者,通知因为该故障集的物理块不足所以提示增加物理容量的警告、和提示在与故障集组成配对的故障集以外的故障集中追加物理容量的警告。另外,物理容量的追加通过追加驱动器或节点而进行。进而,也通知应当追加的物理容量的最低容量。
接着,在步骤S1511中,对于步骤S1507中取得的、节点编号n的配对目标故障集编号p,处理结束时,选择下一个故障集(步骤S1508),反复循环处理。
节点编号n的全部配对目标故障集编号的处理结束时,在步骤S1512中选择下一个节点,反复循环处理。
图16是表示本实施例的通知条件(3)的确认处理流程的流程图。图16所示的处理由集群控制部111执行,是各故障集的已分配物理容量超过其他故障集的空闲物理容量的合计值的情况下满足通知条件(3)、用于发出警报(3)的处理。此处,其他故障集中,除去了处理中的故障集和配对目标故障集双方。
在步骤S1601中,选择故障集编号f=1,开始直到步骤S1607的相当于故障集数的循环处理。
在步骤S1602中,从已分配物理块(故障集)管理表407取得故障集编号f的配对目标故障集编号p和已分配块数合计值a。配对目标故障集编号p使用已分配物理块(故障集)管理表407的配对目标故障集编号1102的值,已分配块数合计值a使用已分配块数合计值1103的值。与对应的配对目标故障集相应地执行步骤S1602至步骤S1606的循环。
在步骤S1603中,从空闲物理块(故障集)管理表408取得故障集编号f、p以外的故障集编号的空闲物理块数(合计值)的合计值b。b的值使用空闲物理块(故障集)管理表408的1202的值。
在步骤S1604中,判断a>b。即,判断步骤S1602中取得的已分配块数合计值a是否比步骤S1603中取得的故障集编号f、p以外的故障集编号的空闲物理块数(合计值)的合计值b更多。该处理判断故障集的已分配物理容量是否超过了除数据的配对目标故障集以外的其他故障集的空闲物理容量的合计值。即,判断属于第二故障集的存储节点的已分配物理块的数量是否超过属于第二故障集和与第二故障集配对的故障集以外的故障集的存储节点下属的、尚未分配给逻辑块的物理块的数量(空闲物理容量)的合计值。此处,因为物理块是规定的大小,所以物理块的数量能够置换为物理容量。
步骤S1604的判断是否定的情况下,前进至步骤S1606,使配对目标故障集编号p增加,选择下一个配对目标故障集编号,执行循环处理。
步骤S1604的判断是肯定的情况下,前进至步骤S1605,进行警报(3)的发出。警报(3)的详情用图17C说明,但如果简单说明,则包括表示对于系统的管理者、因为其他故障集的物理块不足、所以提示追加驱动器的警告的内容。
图17A是表示本实施例的基于通知条件(1)的警报(1)的一例的图。
在各驱动器的已分配物理容量超过了同一节点内的其他驱动器的空闲物理容量的合计值的情况即满足通知条件(1)的情况下,对系统管理者通知如图17A所示的警报(1)。
警报(1)的内容是:
“·请在节点编号n的节点中增加设置物理容量的合计值在”b-(a-c)”以上的驱动器。
·节点编号n的节点中存在因驱动器的减少设置/检测到故障征兆而重建数据时I/O性能与通常时相比劣化的可能性。”
即,能够通知对于进行了通知条件的判断的节点追加物理容量、以及节点中保存的数据的重建所需的必要最低限度的物理容量。另外,实际追加的物理容量可以是比必要最低限度的物理容量更多的值,例如可以追加1.5倍程度的物理容量。追加比必要最低限度的物理容量多何种程度的物理容量,由管理者适当设定。
图17A中,也对管理者通知在节点编号n中执行的数据的重建对I/O性能的影响。
图17B是表示本实施例的基于通知条件(2)的警报(2)的一例的图。
在属于某一故障集的第一存储节点的已分配物理块的数量超过属于某一故障集、第一存储节点以外的存储节点中的、尚未分配给逻辑块的物理块的数量(空闲物理容量)的合计值的情况下,配对目标故障集的各节点的已分配物理容量超过了其他节点的空闲物理容量的合计值的情况即满足通知条件(2)的情况下,对系统管理者通知如图17B所示的警报(2)。
警报(2)的内容是:
“·请在故障集编号f的故障集中增加设置物理容量的合计值在“a-(c-b)”以上的节点或驱动器。
·或者请在故障集编号f、p以外的故障集编号的故障集中增加设置物理容量的合计值在”d-e”以上的节点或驱动器。
·节点编号n的节点闭塞的情况下,存在节点的数据不能重建的可能性。”
即,能够通知对于进行了通知条件的判断的故障集追加物理容量、和追加节点中保存的数据的重建所需的必要最低限度的物理容量。也通知该物理容量的追加能够通过追加具有必要的物理容量的节点或驱动器而达成。
另外,通知对于与故障集组成配对的故障集以外的故障集追加物理容量和重建所需的物理容量。也通知该物理容量的追加能够通过追加具有必要的物理容量的节点或驱动器而达成。
另外,实际追加的物理容量可以是比必要最低限度的物理容量更多的值,例如可以追加1.5倍程度的物理容量。追加比必要最低限度的物理容量多何种程度的物理容量,由管理者适当设定。
图17B中,也一同通知在节点编号n的节点闭塞的情况下、存在节点的数据的重建不能进行的可能性的警告。
图17C是表示本实施例的基于通知条件(3)的警报(3)的一例的图。
在各节点的已分配物理容量超过了除属于数据的配对目标故障集的节点以外的其他节点的空闲物理容量的合计值的情况即满足通知条件(3)的情况下,对系统管理者通知如图17C所示的警报(3)。
警报(3)的内容是:
“·请在故障集编号f、p以外的故障集编号的故障集中增设物理容量的合计值在“a-b”以上的节点或驱动器。
·故障集编号f的故障集闭塞的情况下,存在故障集的数据不能重建的可能性。”
即,能够通知对于进行了通知条件的判断的故障集、作为配对的故障集以外的故障集追加物理容量、和追加故障集中保存的数据的重建所需的必要最低限度的物理容量。也通知该物理容量的追加能够通过追加具有必要的物理容量的节点或驱动器而达成。
另外,实际追加的物理容量可以是比必要最低限度的物理容量更多的值,例如可以追加1.5倍程度的物理容量。追加比必要最低限度的物理容量多何种程度的物理容量,由管理者适当设定。
如上所述,通过警报(1)至(3),系统的管理者能够得知在用于重建的物理容量不足的情况下、在何处追加多少物理容量即可。
即,通过警报(1)至(3),系统的管理者能够得知是(i)在同一节点中追加物理容量、还是(ii)在属于同一故障集的节点中追加物理容量、或者在同一故障集中追加节点、还是(iii)在属于不保存冗余数据的其他故障集的节点中追加物理容量、或者追加节点这样应当追加物理容量的场所。
另外,能够得知应当在上述应当追加物理容量的场所中追加多少物理容量。
图18是表示本实施例的节点内优先分配处理的流程图。
在步骤S1801中,接受驱动器d的数据的重建请求。
在步骤S1802中,从物理块管理表403取得从驱动器编号d中分割出的物理块编号p。步骤S1803至步骤S1810是用于与对应的物理块编号相应地反复处理的循环。
在步骤S1803中,从物理块管理表403取得物理块编号p的状态s。
在步骤S1804中,步骤S1803中取得的物理块编号的状态是分配(Allocated)的情况下,前进至步骤S1805,是闭塞(Blockade)的情况下前进至步骤S1812。
在步骤S1805中,从驱动器管理表402取得与驱动器编号d同一节点编号的节点上连接的、并且物理块数(空闲)在1以上的驱动器编号e。
在步骤S1805中驱动器编号e的取得成功时,前进至步骤S1806,取得失败时前进至步骤S1811。
在步骤S1806中,从物理块管理表403取得从驱动器编号e的驱动器分割出的、并且状态是“未分配(Non_allocated)”的物理块编号q。
在步骤S1807中,将物理块编号p的物理块作为重建源数据指示节点内的数据的重建。
在步骤S1805中驱动器编号e的取得失败的情况下,在步骤S1811中,将物理块编号p的物理块作为重建源数据指示节点间的数据的重建。
在步骤S1804中判断为闭塞(Blockade),前进至步骤S1812时,从逻辑块管理表取得与物理块编号p组成配对的物理块编号q。
接着,在步骤S1813中,将物理块编号q的物理块作为重建源数据指示节点间的数据的重建。
在步骤S1808中,接受数据的重建的完成通知时,为了反映数据重建后的内容而将各种表信息更新(步骤S1810)。
通过图18的处理,因为优先地进行将驱动器d中保存的数据的重建数据保存在同一节点的驱动器中,所以能够防止节点之间发生的用于数据重建的数据传输,达成数据重建的高速化和系统的IO性能劣化。
以上,根据本实施方式,在多存储节点系统中,即使在驱动器或节点故障、驱动器或节点减少设置时,也能够按驱动器、节点、故障集单位管理为了确保数据冗余性而进行数据重建用的容量管理。
另外,系统管理者能够得知重建后的数据的保存位置的物理容量的不足,简单地得知在何处追加多少物理容量即可。
附图标记说明
101:存储节点(SN)
101a:集群主(首要)(主节点)
101b:集群主(次要)
101c:集群工作节点
102:故障集(FS)
103:存储集群(SC)
104:存储节点间网络
105:计算网络
106:管理网络
107:计算节点(CN)
108:管理节点(MN)
110:SODB
111:集群控制程序
112:节点控制程序
113:IO控制活动程序
114:IO控制待机程序
115:DP卷
116:DP池
117:逻辑块
118:物理块
119:驱动器
301:CPU
302:存储器。

Claims (13)

1.一种由多个存储节点构成的多存储节点系统,其特征在于:
所述多个存储节点具有用于存储数据的多个驱动器和控制对所述多个驱动器写入数据的控制部,
所述控制部通过将所述多个驱动器的存储区域分割为多个物理块并将分割出的物理块分配给逻辑块来保存数据,
所述多个存储节点被分为因单个故障而受到影响的故障集,
管理所述多存储节点系统的、所述多个存储节点中的一个主节点的控制部包括数据库,该数据库按每个所述驱动器、每个所述存储节点、每个所述故障集管理所述多个存储节点的物理块对逻辑块的分配,
所述主节点的控制部,
判断所述多个存储节点中的第一存储节点的第一驱动器中的已分配物理块的数量是否超过所述第一存储节点中的所述第一驱动器以外的驱动器中的尚未分配的空闲物理块的数量的合计值,
在超过的情况下,通知对所述第一存储节点追加空闲物理块的数量的警告。
2.如权利要求1所述的多存储节点系统,其特征在于:
所述数据库包括驱动器管理表,该驱动器管理表按每个所述驱动器管理物理块的数量、已分配给逻辑块的物理块的数量和尚未分配给逻辑块的物理块的数量。
3.如权利要求2所述的多存储节点系统,其特征在于:
所述数据库包括:
节点的已分配物理块管理表,其按每个所述存储节点将已分配给逻辑块的物理块的数量作为已分配块的数量来管理;和
节点的空闲物理块管理表,其按每个所述存储节点将尚未分配给逻辑块的物理块的数量作为空闲物理块的数量来管理。
4.如权利要求3所述的多存储节点系统,其特征在于:
所述数据库包括:
故障集的已分配物理块管理表,其按每个所述故障集将已分配给逻辑块的物理块的数量作为已分配块的数量来管理;和
故障集的空闲物理块管理表,其按每个所述故障集将尚未分配给逻辑块的物理块的数量作为空闲物理块的数量来管理。
5.如权利要求4所述的多存储节点系统,其特征在于:
所述节点的已分配物理块管理表和所述故障集的已分配物理块管理表按所述驱动器的每个种类管理已分配物理块的数量,
所述节点的空闲物理块管理表和所述故障集的空闲物理块管理表按所述驱动器的每个种类管理尚未分配给逻辑块的物理块的数量。
6.如权利要求1所述的多存储节点系统,其特征在于:
所述主节点的控制部,
判断属于所述多个存储节点中的第一故障集的第一存储节点的已分配物理块的数量是否超过属于所述第一故障集的所述第一存储节点以外的存储节点的尚未分配给逻辑块的物理块的数量的合计值,
在超过的情况下,通知对所述第一故障集追加空闲物理块的数量的警告。
7.如权利要求6所述的多存储节点系统,其特征在于:
所述主节点的控制部,
判断属于所述多个存储节点中的第二故障集的存储节点的已分配物理块的数量是否超过属于所述第二故障集以外的故障集的存储节点的尚未分配给逻辑块的物理块的数量的合计值,
在超过的情况下,通知对所述第二故障集以外的故障集追加空闲物理块的数量的警告。
8.一种由多个存储节点构成的多存储节点系统的容量管理方法,其特征在于:
所述多个存储节点具有用于存储数据的多个驱动器和控制对所述多个驱动器写入数据的控制部,
所述控制部通过将所述多个驱动器的存储区域分割为多个物理块并将分割出的物理块分配给逻辑块来保存数据,
所述多个存储节点被分为因单个故障而受到影响的故障集,
管理所述多存储节点系统的、所述多个存储节点中的一个主节点的控制部用数据库,按每个所述驱动器、每个所述存储节点、每个所述故障集管理所述多个存储节点的物理块对逻辑块的分配,
所述主节点的控制部,
判断所述多个存储节点中的第一存储节点的第一驱动器中的已分配物理块的数量是否超过所述第一存储节点中的所述第一驱动器以外的驱动器的尚未分配的空闲物理块的数量的合计值,
在超过的情况下,通知对所述第一存储节点追加空闲物理块的数量的警告。
9.如权利要求8所述的多存储节点系统的容量管理方法,其特征在于:
所述数据库包括驱动器管理表,该驱动器管理表按每个所述驱动器管理物理块的数量、已分配给逻辑块的物理块的数量和尚未分配给逻辑块的物理块的数量。
10.如权利要求9所述的多存储节点系统的容量管理方法,其特征在于:
所述数据库包括:
节点的已分配物理块管理表,其按每个所述存储节点将已分配给逻辑块的物理块的数量作为已分配块的数量来管理;和
节点的空闲物理块管理表,其按每个所述存储节点将尚未分配给逻辑块的物理块的数量作为空闲物理块的数量来管理。
11.如权利要求10所述的多存储节点系统的容量管理方法,其特征在于:
所述数据库包括:
故障集的已分配物理块管理表,其按每个所述故障集将已分配给逻辑块的物理块的数量作为已分配块的数量来管理;和
故障集的空闲物理块管理表,其按每个所述故障集将尚未分配给逻辑块的物理块的数量作为空闲物理块的数量来管理。
12.如权利要求8所述的多存储节点系统的容量管理方法,其特征在于:
所述主节点的控制部,
判断属于所述多个存储节点中的第一故障集的第一存储节点的已分配物理块的数量是否超过属于所述第一故障集的所述第一存储节点以外的存储节点的尚未分配给逻辑块的物理块的数量的合计值,
在超过的情况下,通知对所述第一故障集追加空闲物理块的数量的警告。
13.如权利要求12所述的多存储节点系统的容量管理方法,其特征在于:
所述主节点的控制部,
判断属于所述多个存储节点中的第二故障集的存储节点的已分配物理块的数量是否超过属于所述第二故障集以外的故障集的存储节点的尚未分配给逻辑块的物理块的数量的合计值,
在超过的情况下,通知对所述第二故障集以外的故障集追加空闲物理块的数量的警告。
CN201910777265.5A 2019-02-14 2019-08-22 多存储节点系统和多存储节点系统的容量管理方法 Active CN111562881B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019024772A JP6857673B2 (ja) 2019-02-14 2019-02-14 マルチストレージノードシステム、マルチストレージノードシステムの容量管理方法
JP2019-024772 2019-02-14

Publications (2)

Publication Number Publication Date
CN111562881A CN111562881A (zh) 2020-08-21
CN111562881B true CN111562881B (zh) 2024-06-07

Family

ID=72042084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910777265.5A Active CN111562881B (zh) 2019-02-14 2019-08-22 多存储节点系统和多存储节点系统的容量管理方法

Country Status (3)

Country Link
US (1) US10990313B2 (zh)
JP (1) JP6857673B2 (zh)
CN (1) CN111562881B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312328B (zh) * 2021-07-28 2022-01-25 阿里云计算有限公司 控制方法、数据处理方法、数据访问方法及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013200741A (ja) * 2012-03-26 2013-10-03 Toshiba Corp 半導体記憶装置、その制御方法及び情報処理装置
US9442671B1 (en) * 2010-12-23 2016-09-13 Emc Corporation Distributed consumer cloud storage system
CN107209714A (zh) * 2015-03-16 2017-09-26 株式会社日立制作所 分布式存储系统及分布式存储系统的控制方法
CN108701002A (zh) * 2016-02-29 2018-10-23 株式会社日立制作所 虚拟存储系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7010553B2 (en) * 2002-03-19 2006-03-07 Network Appliance, Inc. System and method for redirecting access to a remote mirrored snapshot
JP2005165702A (ja) 2003-12-03 2005-06-23 Hitachi Ltd クラスタストレージのデバイス連結方法
US8484414B2 (en) * 2009-08-31 2013-07-09 Hitachi, Ltd. Storage system having plurality of flash packages
WO2011042939A1 (en) * 2009-10-09 2011-04-14 Hitachi, Ltd. Storage control device building a logical unit based on storage devices coupled with different switches
US20150363422A1 (en) * 2013-01-10 2015-12-17 Hitachi, Ltd. Resource management system and resource management method
JP6222227B2 (ja) * 2013-05-20 2017-11-01 日本電気株式会社 ストレージノード、ストレージノード管理装置、ストレージノード論理容量設定方法、プログラム、記録媒体および分散データストレージシステム
US9626245B2 (en) * 2015-02-20 2017-04-18 Netapp, Inc. Policy based hierarchical data protection
US10067696B2 (en) * 2015-12-18 2018-09-04 Emc Corporation Capacity exhaustion prevention for distributed storage
US10353602B2 (en) * 2016-11-30 2019-07-16 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Selection of fabric-attached storage drives on which to provision drive volumes for realizing logical volume on client computing device within storage area network
WO2018131127A1 (ja) * 2017-01-12 2018-07-19 株式会社日立製作所 ストレージ装置及び分散ストレージシステム
JP6668309B2 (ja) * 2017-11-30 2020-03-18 株式会社日立製作所 記憶システム及びその制御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9442671B1 (en) * 2010-12-23 2016-09-13 Emc Corporation Distributed consumer cloud storage system
JP2013200741A (ja) * 2012-03-26 2013-10-03 Toshiba Corp 半導体記憶装置、その制御方法及び情報処理装置
CN107209714A (zh) * 2015-03-16 2017-09-26 株式会社日立制作所 分布式存储系统及分布式存储系统的控制方法
CN108701002A (zh) * 2016-02-29 2018-10-23 株式会社日立制作所 虚拟存储系统

Also Published As

Publication number Publication date
CN111562881A (zh) 2020-08-21
JP2020135137A (ja) 2020-08-31
US20200264794A1 (en) 2020-08-20
US10990313B2 (en) 2021-04-27
JP6857673B2 (ja) 2021-04-14

Similar Documents

Publication Publication Date Title
US11487619B2 (en) Distributed storage system
US11144415B2 (en) Storage system and control software deployment method
US9946460B2 (en) Storage subsystem and storage system architecture performing storage virtualization and method thereof
US10817478B2 (en) System and method for supporting persistent store versioning and integrity in a distributed data grid
CN111158587B (zh) 基于存储池虚拟化管理的分布式存储系统及数据读写方法
KR101677418B1 (ko) 분산형 스토리지 시스템에서 데이터 재구성의 우선순위화
US8805902B2 (en) Managing snapshot storage pools
US11150846B2 (en) Storage system, computer-readable recording medium, and control method for system that reconstructs and distributes data
US20040128587A1 (en) Distributed storage system capable of restoring data in case of a storage failure
CN111858189B (zh) 对存储盘离线的处理
CN111124264A (zh) 用于重建数据的方法、设备和计算机程序产品
JP6974281B2 (ja) ストレージシステム及びストレージ制御方法
CN111562881B (zh) 多存储节点系统和多存储节点系统的容量管理方法
CN112256204A (zh) 存储资源分配方法、装置、存储节点及存储介质
JP7179947B2 (ja) ストレージシステム及びストレージ制御方法
CN116974462A (zh) 存储系统以及障碍应对方法
JP2020154626A (ja) 分散ストレージシステム、データ管理方法、及びデータ管理プログラム
CN105068896A (zh) 基于raid备份的数据处理方法及装置
US20150169236A1 (en) System and method for supporting memory allocation control with push-back in a distributed data grid
CN108932176B (zh) 数据降级存储方法及装置
JP7057408B2 (ja) 記憶システム及びその制御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant