CN116483263A - 一种存储系统的存储设备、存储系统 - Google Patents
一种存储系统的存储设备、存储系统 Download PDFInfo
- Publication number
- CN116483263A CN116483263A CN202310265740.7A CN202310265740A CN116483263A CN 116483263 A CN116483263 A CN 116483263A CN 202310265740 A CN202310265740 A CN 202310265740A CN 116483263 A CN116483263 A CN 116483263A
- Authority
- CN
- China
- Prior art keywords
- controllers
- storage system
- write
- controller
- storage device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 151
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 14
- 238000012005 ligant binding assay Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 abstract description 29
- 230000004044 response Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 10
- 230000009977 dual effect Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005056 compaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
- G06F3/0619—Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/062—Securing storage systems
- G06F3/0622—Securing storage systems in relation to access
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/065—Replication mechanisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
- G06F3/0658—Controller construction arrangements
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
本申请公开了一种存储系统的存储设备、存储系统,应用于存储软件领域。本申请所提供的一种存储系统的存储设备包括至少三个控制器。多个控制器通过循环镜像的方式组成多个镜像对,每个镜像对由两个控制器组成。若多个控制器中出现存在故障的控制器,则除开存在故障的控制器以外正常工作的控制器通过循环镜像的方式继续组成多个镜像对。因为单卷是在三个控制器上处理,所以可以提高卷的处理性能。在控制器挂掉的时候,只要存在两个以上控制器,则依然可以保持回写模式,因此会在故障场景下提高主机的响应速度。例如四个控制器掉两个控制器则依然可以保持回写模式,四个控制器掉三个控制器依然可以提供主机业务,提高了存储系统的可靠性和稳定性。
Description
技术领域
本申请涉及存储软件领域,特别是涉及一种存储系统的存储设备、存储系统。
背景技术
为了适用当前的客户需要,当前很多存储系统都提供了自精简卷的,即空间在写时分配,数据都是以追加写的方式进行空间分配。这样就引入了元数据的概念,当进行数据插入的时候会有一个L->P的元数据,当数据进行读取的时候,先根据逻辑区块地址(Logical Block Address,LBA)读取到物理区块地址(Physics Block Address,PBA),才能进一步拿着PBA进行读盘得到真正的数据。当前大部分存储系统的存储设备的实现方式是基于单控或者是基于双控。基于单控为了保证数据的安全性一般是采用透写的模式。基于双控的实现方式一般采用AB的方式,即一个控制器提供读写服务,另一个控制器作为被控。
但是,单控的透写模式会导致性能较差。而双控的方式不能有效利用缓存,且双控开启回写的情况下如果单个控制器挂掉会切换为透写模式,性能无法保证,即当前的存储系统的可靠性和稳定性低。
由此可见,如何提高存储系统的可靠性和稳定性,是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种存储系统的存储设备、存储系统,以提高存储系统的可靠性和稳定性。
为解决上述技术问题,本申请提供一种存储系统的存储设备,包括:至少三个控制器;
多个所述控制器通过循环镜像的方式组成多个镜像对,每个所述镜像对由两个所述控制器组成;
若多个所述控制器中出现存在故障的所述控制器,则除开存在故障的所述控制器以外正常工作的所述控制器通过循环镜像的方式继续组成多个所述镜像对。
优选地,若多个所述控制器均挂掉只剩一个正常工作的所述控制器,则切换正常工作的所述控制器为透写模式,以对主机提供访问服务。
优选地,所述若多个所述控制器均挂掉只剩一个正常工作的所述控制器,则切换正常工作的所述控制器为透写模式,以对主机提供访问服务之后,还包括:
当挂掉的所述控制器恢复时,通过循环镜像的方式恢复各所述控制器的镜像关系,以提供回写服务。
优选地,还包括:多路径插件;
主机的数据通过所述多路径插件下发至所述控制器。
优选地,主机的数据以相等大小进行切块以分到不同的所述控制器中。
优选地,数据按照LBA进行切块。
优选地,所述控制器上的精简卷模块根据预先分配的控制器信息做两个所述控制器之间的缓存镜像。
优选地,存储系统统计并记录挂掉的所述控制器。
优选地,若全部的所述控制器均出现故障,则主机暂停数据下发。
为解决上述技术问题,本申请还提供了一种存储系统,包括存储系统的存储设备。
本申请所提供的一种存储系统的存储设备包括至少三个控制器。多个控制器通过循环镜像的方式组成多个镜像对,每个镜像对由两个控制器组成。若多个控制器中出现存在故障的控制器,则除开存在故障的控制器以外正常工作的控制器通过循环镜像的方式继续组成多个镜像对。通过本申请的存储系统的存储设备实现方式的引入,因为单卷是在三个控制器上处理,所以可以提高卷的处理性能。在控制器挂掉的时候,只要存在两个以上控制器,则依然可以保持回写模式,因此会在故障场景下提高主机的响应速度。例如四个控制器掉两个控制器则依然可以保持回写模式,四个控制器掉三个控制器依然可以提供主机业务,提高了存储系统的可靠性和稳定性。且多个控制器增加了冗余,通过循环镜像可以将一个控制器的数据备份到其他控制器中。
此外,本申请所提供的存储系统包括上述提到的存储系统的存储设备,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种存储系统四控精简卷的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种存储系统的存储设备、存储系统,以提高存储系统的可靠性和稳定性。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
基于单控为了保证数据的安全性一般是采用透写的模式。基于双控的实现方式一般采用AB的方式,即一个控制器提供读写服务,另一个控制器作为被控。但是,单控的透写模式会导致性能较差。而双控的方式不能有效利用缓存,且双控开启回写的情况下如果单个控制器挂掉会切换为透写模式,性能无法保证,即当前的存储系统的可靠性和稳定性低。
基于以上问题,本申请实施例提供了一种存储系统的存储设备,本实施例的存储系统的存储设备包括至少三个控制器。多个控制器通过循环镜像的方式组成多个镜像对,每个镜像对由两个控制器组成。若多个控制器中出现存在故障的控制器,则除开存在故障的控制器以外正常工作的控制器通过循环镜像的方式继续组成多个镜像对。
需要注意的是,本申请实施例并不限定存储系统的存储设备中控制器的数量,但至少需要三个以上控制器,这些控制器通过循环镜像的方式组成多个镜像对,每个镜像对由两个控制器组成。在实际应用中,难免出现控制器故障的情况,若出现存在故障的控制器,则可将故障的控制器排除,将剩余的正常工作的控制器再通过循环镜像的方式继续组成多个镜像对。例如,当镜像对中一个节点(即控制器)发生故障时,镜像对中存活的另外一个节点会与剩余活着的节点再次组成镜像对关系,保持回写。这种方式只要在大于两节点在线的时候均可以持续提供回写服务,提高了存储系统的可靠性。例如,若控制器的数量为八个时,在挂掉三个控制器之后,剩余五个正常工作的控制器仍可以组成镜像对。若挂掉了七个控制器,则剩下的一个控制器会进入透写模式,依然能提供主机的服务。
这里提出了一种基于四控的存储设备的实现方法,即存储系统的存储设备包括四个控制器。图1为本申请实施例提供的一种存储系统四控精简卷的结构示意图,如图1所示,四个控制器即四个节点,分别为Node0、Node1、Node2、Node3。四个控制器分别处理映射卷的一部分数据,按照LBA进行切块(即切Segment,比如0-32M属于segmentGroup0,32-64M属于segmentGroup1…96-128M属于segmentGroup3)的方式拆分到不同的控制器上,这样可以最大化的利用多个控制器来处理单卷的数据。每两个控制器组成一个镜像对,控制器两两镜像从而形成了循环镜像的模式,如图1,Node0和Node1两个控制器组成了一个镜像对,Node1和Node2两个控制器组成了一个镜像对,Node2和Node3两个控制器组成了一个镜像对,Node3和Node0两个控制器组成了一个镜像对,从而实现了循环镜像。当一个控制器发生故障的时候,发生故障的控制器会与剩下的控制器进行组对,保持回写模式,当四个控制器坏掉三个控制器的时候才启动透写模式,即使四个控制器坏掉三个控制器,依然可以提供主机的服务。四个控制器不管是否一直都在,四控集群一直维持四个镜像对的方式,即分四个空间分配对象,分别分配segmentGroup的空间。本实施例的四控精简卷实现方式的引入,因为单卷是在四个控制器上处理所以可以提高卷的处理性能。分segmentGroup进行空间分配所以会提升池的空间利用率。在掉两个控制器的时候依然可以保持回写所以会在故障场景下提高主机的响应速度。四个控制器掉三个控制器依然可以提供主机业务所以提高了存储系统的可靠性。
下面说明本申请实施例提供的存储系统四控精简卷的实现方法的具体实施过程,即数据写入的实际场景,具体的实施可以按照以下步骤进行:
前置条件:在进行主机IO写入(即数据写入)的时候,主机的多路径插件可以将主机的下发IO差分到不同的控制器上进行下发。
第一步,创建集群,四个控制器上的精简卷模块会根据集群分配的节点信息,做两两缓存镜像。
第二步,写入IO,根据前置条件归属不同segmentGroup的数据会写入到对应的控制器上,在写入的控制器上进行对应归属镜像对的空间分配。
第三步,当发生故障的时候,存活镜像对的节点会与剩余活着的节点再次组成镜像对关系,保持回写。
第四步,当四控中三个控制器都挂掉的情况下,单控切换为透写模式,对主机提供访问服务。
第五步,当机框内控制器恢复的时候,会按照两两镜像的方式恢复镜像关系,提供回写服务。
这种存储系统四控精简卷的实现方法可以有效提高存储系统的处理效率,提高存储系统的可靠性。上文中的空间分配指的是针对自精简卷的空间分配,自精简卷的空间是写时分配的,IO只会在对应的控制器上进行下发,在对应的控制器上进行地址分配。上述节点信息即控制器信息,集群会根据控制器的信息做两两镜像的负载均衡。
本申请的关键点是提出了一种存储系统的存储设备的实现方法,可以有效提高存储系统的处理效率,提高存储系统的可靠性。例如,本申请实施例提出的存储系统四控精简卷的实现方法,充分利用四个控制器的处理能力,提高卷的处理效率,同时基于四控缓存循环镜像,提高存储系统的稳定性。四控自精简卷的分布在四个控制器上进行处理,大大提高处理效率。四个控制器分别进行空间分配,提高了存储池的空间利用率;存活的控制器大于两个的时候可以持续提供回写服务,提高了存储系统的故障处理性能。四控制器掉三个控制器的情况下依然可以提供主机服务,提高了存储系统的可靠性。
上述的segmentGrouptX即数据段集合,在上述实施例的具体方案中的segtmentGroupX是指segmentGroup0-segmentGroup3,具体指的是所有LBA对32M取余(LBA%32M)等于0的话,那么这些LBA属于segmentGroup0。所有LBA对32M取余(LBA%32M)等于1的话,那么这些LBA属于segmentGroup1。所有LBA对32M取余(LBA%32M)等于2的话,那么这些LBA属于segmentGroup2。所有LBA对32M取余(LBA%32M)等于3的话,那么这些LBA属于segmentGroup3。
主机下发数据在无主机多路径插件的情况下,对于单卷的数据输入/输出(Input/Output,IO)请求可能只会下发到四个控制器中的其中一个控制器上,需要在单个控制器上转发到不同的控制器上进行处理。而在具备主机多路径插件的情况下,主机下发的请求会通过主机多路径插件直接进行LBA的拆分,比如该发到控制器0上的0-32M数据(segmentGroup0),直接下发到对应的控制器上,避免了不必要的数据转发。
单个卷在四控上效率更高的原因是,在传统的双控上只有一个节点是真正的进行数据处理,另一个节点只作为备份使用,在本申请实施例提到的四个控制器方案上,主机会把LBA根据segmengGroup分发到四个控制器上,四个控制器会并发处理单卷的请求,所以本申请实施例所提到的至少三个控制器的方案比原方案中的单控方案或双控方案的处理效率更高。
以上对本申请实施例所提供的存储系统的存储设备方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
本申请实施例所提供的一种存储系统的存储设备包括至少三个控制器。多个控制器通过循环镜像的方式组成多个镜像对,每个镜像对由两个控制器组成。若多个控制器中出现存在故障的控制器,则除开存在故障的控制器以外正常工作的控制器通过循环镜像的方式继续组成多个镜像对。通过本申请实施例的存储系统的存储设备实现方式的引入,因为单卷是在三个控制器上处理,所以可以提高卷的处理性能。在控制器挂掉的时候,只要存在两个以上控制器,则依然可以保持回写模式,因此会在故障场景下提高主机的响应速度。例如四个控制器掉两个控制器则依然可以保持回写模式,四个控制器掉三个控制器依然可以提供主机业务,提高了存储系统的可靠性和稳定性。且多个控制器增加了冗余,通过循环镜像可以将一个控制器的数据备份到其他控制器中。
以图1中的四个控制器为例,四个控制器即四个节点,分别为Node0、Node1、Node2、Node3。四个控制器分别处理映射卷的一部分数据,按照LBA进行切块,其中,0-32M属于segmentGroup0,32-64M属于segmentGroup1,64-96M属于segmentGroup2,96-128M属于segmentGroup3)的方式拆分到不同的控制器上,这样可以最大化的利用多个控制器来处理单卷的数据。每两个控制器组成一个镜像对,控制器两两镜像从而形成了循环镜像的模式,如图1,Node0和Node1两个控制器组成了一个镜像对,Node1和Node2两个控制器组成了一个镜像对,Node2和Node3两个控制器组成了一个镜像对,Node3和Node4两个控制器组成了一个镜像对,从而实现了循环镜像。但在实际应用中,镜像对的组成方式并不限于上述方案,这里为了便于说明采用了Node0、Node1、Node2、Node3四个控制器按顺序组成镜像对的方案,而实际应用时可以根据需求进行设置,其他数量的控制器时,同样可采取上述方案。
当一个控制器发生故障的时候,发生故障的控制器会与剩下的控制器进行组对,保持回写模式。如图1中,当四个控制器坏掉三个控制器的时候才启动透写模式,即使四个控制器坏掉三个控制器,依然可以提供主机的服务。若原有的控制器为其他数量时,效果同上。例如,若一共存在六个控制器,则六个控制器坏掉五个控制器时启动透写模式,且依然可以提供主机的服务。
本实施例的多个控制器的存储设备实现方式的引入,因为单卷是在至少三个控制器上处理所以可以提高卷的处理性能。若多个控制器均挂掉只剩一个正常工作的控制器,则切换正常工作的控制器为透写模式,以对主机提供访问服务。在挂掉的控制器恢复时,则可通过循环镜像的方式恢复各控制器的镜像关系,以提供回写服务。本申请实施例通过分segmentGroup进行空间分配所以会提升池的空间利用率。在存活两个控制器以上的时候依然可以保持回写所以会在故障场景下提高主机的响应速度。在多个控制器挂掉时,只要剩余一个存活的控制器,依然可以提供主机业务,从而提高了存储系统的可靠性。
主机下发数据在无主机多路径插件的情况下,对于单卷的IO请求可能只会下发到四个控制器中的其中一个控制器上,需要在单个控制器上转发到不同的控制器上进行处理。而在具备主机多路径插件的情况下,主机下发的请求会通过主机多路径插件直接进行LBA的拆分,比如该发到控制器0上的0-32M数据(segmentGroup0),直接下发到对应的控制器上,避免了不必要的数据转发。因此,本实施例所提供的存储系统的存储设备还包括多路径插件,主机的数据通过多路径插件下发至控制器。
如上述实施例所提供的具体方案中,主机的数据可以按相等大小进行切块以分到不同的控制器中。数据具体可以按照LBA进行切块。比如以0-128M的空间为例,存储系统的存储设备包括四个控制器,则0-32M属于segmentGroup0,32-64M属于segmentGroup1…96-128M属于segmentGroup3。segmentGrouptX即数据段集合,在本申请实施例中,segtmentGroupX是指segmentGroup0-segmentGroup3,具体指的是所有LBA对32M取余(LBA%32M)等于0的话,那么这些LBA属于segmentGroup0。所有LBA对32M取余(LBA%32M)等于1的话,那么这些LBA属于segmentGroup1。所有LBA对32M取余(LBA%32M)等于2的话,那么这些LBA属于segmentGroup2。所有LBA对32M取余(LBA%32M)等于3的话,那么这些LBA属于segmentGroup3。需要注意的是,本申请实施例所提供的数据切块方案仅仅是本申请的其中一种示例,并不对本申请的其他方案造成限定。
在实际应用时,存储系统可以统计并记录挂掉的控制器。若全部的控制器均出现故障,则主机需要暂停数据下发,在控制器恢复之后,再进行数据下发。
在传统的双控上只有一个节点是真正的进行数据处理,另一个节点只作为备份使用,在本申请实施例提到的至少三个控制器方案上,主机会把LBA根据segmengGroup分发到多个控制器上。以四个控制器为例,四个控制器会并发处理单卷的请求,所以本申请实施例所提到的至少三个控制器的方案比原方案中的单控方案或双控方案的处理效率更高。
本申请的关键点是提出了一种存储系统的存储设备的实现方法,可以有效提高存储系统的处理效率,提高存储系统的可靠性。例如,上述的四控精简卷的方案充分利用四个控制器的处理能力来提高卷的处理效率。同时基于四控缓存循环镜像,提高存储系统的稳定性。四个控制器分别进行空间分配,提高了存储池的空间利用率;存活的控制器大于两个的时候可以持续提供回写服务,提高了存储系统的故障处理性能。四控制器掉三个控制器的情况下依然可以提供主机服务,提高了存储系统的可靠性。四控自精简卷分布在四个控制器上进行处理,大大提高处理效率。
数据写入的实际场景可以参考以下步骤:在进行数据写入时需要满足前置条件,前置条件是在进行主机IO写入(即数据写入)的时候,主机的多路径插件可以将主机的下发IO差分到不同的控制器上进行下发。上述实施例中提到,主机下发数据在无主机多路径插件的情况下,对于单卷的IO请求可能只会下发到四个控制器中的其中一个控制器上,需要在单个控制器上转发到不同的控制器上进行处理。而在具备主机多路径插件的情况下,主机下发的请求会通过主机多路径插件直接进行LBA的拆分,直接下发到对应的控制器上,避免了不必要的数据转发。满足前置条件之后,就可以创建集群,其中,四个控制器上的精简卷模块会根据集群分配的节点信息,做两两缓存镜像。进而写入IO,根据前置条件归属不同segmentGroup的数据会写入到对应的控制器上,在写入的控制器上进行对应归属镜像对的空间分配。当发生故障的时候,存活镜像对的节点会与剩余活着的节点再次组成镜像对关系,保持回写。且当四控中三个控制器都挂掉的情况下,单控切换为透写模式,对主机提供访问服务。另外,当机框内控制器恢复的时候,会按照两两镜像的方式恢复镜像关系,提供回写服务。通过上述方案,可以有效提高存储系统的处理效率,提高存储系统的可靠性。
以上实施例对本申请所提供的存储系统的存储设备方案进行了详细介绍,本申请各个实施例中应用了具体个例对本申请的原理及实施方式进行了阐述,对于存储系统的存储设备中控制器的数量提供了具体的方案。但是,值得注意的是,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想,例如,上述方案中举例说明的控制器的数量并不对本申请造成限制。同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制,且在本申请所提供方案的基础上,未付出创造性劳动的改进,均在本申请的保护范围内。
自精简卷即空间在写时分配,数据都是以追加写的方式进行空间分配。这样就引入了元数据的概念,当进行数据插入的时候会有一个L->P的元数据,当数据进行读取的时候,先根据LBA读取到PBA,才能进一步拿着PBA进行读盘得到真正的数据。精简卷按需使用空间,即只有将数据写入卷时才占用存储池空间。精简卷可确保高效利用存储空间,最适合创建多个卷。
LBA是描述计算机存储设备上数据所在区块的通用机制,一般用在像硬盘这样的辅助记忆设备。LBA可以意指某个数据区块的地址或是某个地址所指向的数据区块。PBA是物理区块地址,根据存储设备的硬件特点来指定地址规则,不同的物理存储设备,其物理地址的编码是不同且唯一的。它是硬盘出厂时最原始的寻址机制,因此是固定的。而在数据转换存储的过程中,LBA是跟PBA进行换算出来的,有序的寻址方式。现今计算机上所谓一个逻辑区块通常是512或1024位组。ISO-9660格式的标准CD则以2048位组为一个逻辑区块大小。LBA是非常单纯的一种定址模式,从0开始编号来定位区块,第一区块LBA=0,第二区块LBA=1,依此类推。这种定址模式取代了原先操作系统必须面对存储设备硬件构造的方式。最具代表性的首推磁柱-磁头-扇区定址模式,区块必须以硬盘上某个磁柱、磁头、扇区的硬件位置所合成的地址来指定。在混合硬盘(Hybrid Hard Drive,HHD)上,由于HDD的数据可以直接覆盖,所以LBA和PBA的关系是1:1对应,不会变更,即LBA=PBA。但在固态硬盘(SolidState Drive,SSD)上,这种关系就变得复杂了,原因是SSD使用的存储介质NAND闪存有需要先擦除才能再写入,和读写以页为单位,擦除以块(多个页组成)为单位的特性,导致LBA和PBA的关系不再是固定不变的。
存储系统逐年扩展,为了安全起见,确保存储容量足够使用,用户往往会部署多于实际需求的物理存储空间。但在实际使用过程中,部署容量通常未受到充分利用。行业研究组织发现在某些项目中,实际使用容量仅占部署容量的20%-30%。因此,自动精简配置技术应运而生,旨在实现更高的存储容量利用率,并带来更大的投资回报。自动精简配置是一种卷的容量虚拟化技术。自动精简配置的核心是写前分配。传统卷在创建的时候就分配了所有的物理空间,若用户创建了卷,实际写入的数据量较少或者实际写入的数据量是缓慢增长的,已经分配的空间还是会被全部被占用,不能和其它的卷进行空间的共享。和传统卷不同,精简卷是一个虚拟的卷,在创建精简卷的时候并不会为用户分配所有的物理容量,仅当用户对卷进行写操作的时候才会写前分配,为要写入的地址分配实际的物理空间。如此,自动精简配置可以减少早期物理存储部署,可最大限度提升存储空间利用率。可见,本申请所提供的方案需要使用精简卷,若采用普通卷,则会导致创建卷的时间就分配空间,无法完成本申请的方案。
使用自动精简配置,所有真实的用户容量通常都存放于存储池进行统一管理,在精简卷发生写I/O时根据实际使用情况进行分配物理容量,当容量利用率达到预定义的阈值(通常由用户配置),需要添加额外物理磁盘时,发出警告,以避免容量短缺。目前,业界各厂商通常都有剩余容量不足(达到用户配置门限)时进行告警的设计。存储系统缓存写机制通常有写回和写穿两种模式。写回是指将数据写到缓存中,等系统空闲时再将数据写到硬盘中;写穿是指将数据直接写入到硬盘中,每次操作都要访问硬盘。相对于写穿,写回可以显著提高系统的写性能。在精简卷配置为写回模式时,主机下发数据后会认为数据写入成功,实际上数据还在系统缓存中,没有真正写入硬盘。如果此时精简卷所在存储池的物理空间不足,而管理员又没有及时的根据系统告警对存储池进行扩容操作,会导致缓存中的数据无法实际写到硬盘上。这样,不仅数据一直积累在缓存中,缓存写满后还会影响其他不需要新分配空间的I/O,而且可能导致数据丢失。
存储系统是指计算机中由存放程序和数据的各种存储设备、控制部件及管理信息调度的设备(硬件)和算法(软件)所组成的系统。存储系统是计算机的重要组成部分之一。存储系统提供写入和读出计算机工作需要的信息(程序和数据)的能力,实现计算机的信息记忆功能。现代计算机系统中常采用寄存器、高速缓存、主存、外存的多级存储体系结构。计算机存储系统的核心是存储器,存储器是计算机中必不可少、用来存储程序和数据的记忆设备。内部存储器(简称内存)主要存储计算机当前工作需要的程序和数据,包括高速缓冲存储器(Cache,简称缓存)和主存储器。目前构成内存的主要是半导体存储器。外部存储器(简称外存)主要有磁性存储器、光存储器和半导体存储器三种实现方式,存储介质有硬磁盘、光盘、磁带和移动存储器等。
Write Through和Write Back是阵列卡Cache的两种使用方式,也称为透写和回写。Write Through也是磁盘阵列(Redundant Arrays of Independent Disks,RAID)阵列卡的默认模式。当选用透写方式时,系统的写磁盘操作并不利用阵列卡的Cache,而是直接与磁盘进行数据的交互。而回写方式则利用阵列Cache作为系统与磁盘间的二传手,系统先将数据交给Cache,然后再由Cache将数据传给磁盘。缓存系统中,当有新的写请求,且目标块在缓存中时,回写操作只写入缓存,并将其标记位置位,待这个缓存块要被换出的时候,才把它写回到后端的存储设备上。透写操作则是在有新的写请求且目标块在缓存中时,同时向Cache和后端存储写数据,保证二者在任何时候一致。可见回写的执行效率更高,但是中央处理器(Central Processing Unit,CPU)的硬件实现更为复杂。透写效率较低,但是实现起来较为简单。因此,本申请的部分实施例中,当发生故障的时候,存活镜像对的节点会与剩余活着的节点再次组成镜像对关系,保持回写。只有在只剩一个存活的控制器时才切换为透写模式,对主机提供访问服务。且当机框内控制器恢复的时候,会按照两两镜像的方式恢复镜像关系,提供回写服务。例如,若一共存在六个控制器,则六个控制器坏掉五个控制器时才启动透写模式,当坏掉的五个控制器中有恢复的控制器,则会按照两两镜像的方式恢复镜像关系,提供回写服务。即优先保证效率更高的回写模式,当控制器的数量不支持回写模式时,才启动透写模式。
为解决上述技术问题,本申请实施例提供一种存储系统,包括上述实施例中的存储系统的存储设备。
由于存储系统部分的实施例与存储系统的存储设备部分的实施例相互对应,因此存储系统部分的实施例请参见存储系统的存储设备部分的实施例的描述,这里暂不赘述。
本申请实施例提供了一种存储系统,存储系统的的存储设备包括至少三个控制器。多个控制器通过循环镜像的方式组成多个镜像对,每个镜像对由两个控制器组成。若多个控制器中出现存在故障的控制器,则除开存在故障的控制器以外正常工作的控制器通过循环镜像的方式继续组成多个镜像对。通过本申请实施例的存储系统的存储设备实现方式的引入,因为单卷是在三个控制器上处理,所以可以提高卷的处理性能。在控制器挂掉的时候,只要存在两个以上控制器,则依然可以保持回写模式,因此会在故障场景下提高主机的响应速度。例如四个控制器掉两个控制器则依然可以保持回写模式,四个控制器掉三个控制器依然可以提供主机业务,提高了存储系统的可靠性和稳定性。且多个控制器增加了冗余,通过循环镜像可以将一个控制器的数据备份到其他控制器中。
以上对本申请所提供的一种存储系统的存储设备、存储系统进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种存储系统的存储设备,其特征在于,包括:至少三个控制器;
多个所述控制器通过循环镜像的方式组成多个镜像对,每个所述镜像对由两个所述控制器组成;
若多个所述控制器中出现存在故障的所述控制器,则除开存在故障的所述控制器以外正常工作的所述控制器通过循环镜像的方式继续组成多个所述镜像对。
2.根据权利要求1所述的存储系统的存储设备,其特征在于,若多个所述控制器均挂掉只剩一个正常工作的所述控制器,则切换正常工作的所述控制器为透写模式,以对主机提供访问服务。
3.根据权利要求2所述的存储系统的存储设备,其特征在于,所述若多个所述控制器均挂掉只剩一个正常工作的所述控制器,则切换正常工作的所述控制器为透写模式,以对主机提供访问服务之后,还包括:
当挂掉的所述控制器恢复时,通过循环镜像的方式恢复各所述控制器的镜像关系,以提供回写服务。
4.根据权利要求3所述的存储系统的存储设备,其特征在于,还包括:多路径插件;
主机的数据通过所述多路径插件下发至所述控制器。
5.根据权利要求1所述的存储系统的存储设备,其特征在于,主机的数据以相等大小进行切块以分到不同的所述控制器中。
6.根据权利要求1所述的存储系统的存储设备,其特征在于,数据按照LBA进行切块。
7.根据权利要求1所述的存储系统的存储设备,其特征在于,所述控制器上的精简卷模块根据预先分配的控制器信息做两个所述控制器之间的缓存镜像。
8.根据权利要求1所述的存储系统的存储设备,其特征在于,存储系统统计并记录挂掉的所述控制器。
9.根据权利要求1所述的存储系统的存储设备,其特征在于,若全部的所述控制器均出现故障,则主机暂停数据下发。
10.一种存储系统,其特征在于,包括权利要求1至9任意一项所述的存储系统的存储设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310265740.7A CN116483263A (zh) | 2023-03-17 | 2023-03-17 | 一种存储系统的存储设备、存储系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310265740.7A CN116483263A (zh) | 2023-03-17 | 2023-03-17 | 一种存储系统的存储设备、存储系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116483263A true CN116483263A (zh) | 2023-07-25 |
Family
ID=87224112
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310265740.7A Pending CN116483263A (zh) | 2023-03-17 | 2023-03-17 | 一种存储系统的存储设备、存储系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116483263A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632808A (zh) * | 2024-01-24 | 2024-03-01 | 苏州元脑智能科技有限公司 | 多控存储阵列、存储系统、数据处理方法以及存储介质 |
-
2023
- 2023-03-17 CN CN202310265740.7A patent/CN116483263A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117632808A (zh) * | 2024-01-24 | 2024-03-01 | 苏州元脑智能科技有限公司 | 多控存储阵列、存储系统、数据处理方法以及存储介质 |
CN117632808B (zh) * | 2024-01-24 | 2024-04-26 | 苏州元脑智能科技有限公司 | 多控存储阵列、存储系统、数据处理方法以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8037244B2 (en) | Storage apparatus and data storage method using the same | |
US8719520B1 (en) | System and method for data migration between high-performance computing architectures and data storage devices with increased data reliability and integrity | |
US8762768B2 (en) | Storage system for restoring data stored in failed storage device | |
US7032070B2 (en) | Method for partial data reallocation in a storage system | |
US7949847B2 (en) | Storage extent allocation method for thin provisioning storage | |
EP3617867B1 (en) | Fragment management method and fragment management apparatus | |
CN111158587B (zh) | 基于存储池虚拟化管理的分布式存储系统及数据读写方法 | |
US8930745B2 (en) | Storage subsystem and data management method of storage subsystem | |
US20080177947A1 (en) | Storage system and storage migration method | |
JP2009043030A (ja) | ストレージシステム | |
KR20100077156A (ko) | 씬 프로비저닝 이송 및 스크러빙 방법 | |
US10564865B2 (en) | Lockless parity management in a distributed data storage system | |
CN116483263A (zh) | 一种存储系统的存储设备、存储系统 | |
JP2003131818A (ja) | クラスタ構成ストレージにおけるクラスタ間raid構成 | |
WO2023065654A1 (zh) | 一种数据写入方法以及相关设备 | |
JP5597266B2 (ja) | ストレージシステム | |
US6934803B2 (en) | Methods and structure for multi-drive mirroring in a resource constrained raid controller | |
US11625183B1 (en) | Techniques for data layout on rotating disk drives | |
US20180307427A1 (en) | Storage control apparatus and storage control method | |
CN113342258B (zh) | 用以进行全快闪存储器阵列伺服器的数据存取管理的方法与设备 | |
US11449237B2 (en) | Targetless snapshot system replication data pointer table | |
CN116069266B (zh) | 磁盘漫游控制方法、装置、设备及计算机可读存储介质 | |
US11561695B1 (en) | Using drive compression in uncompressed tier | |
US20220318108A1 (en) | Compound storage system and control method for compound storage system | |
US11544005B2 (en) | Storage system and processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |