CN117909312A - 处理访问请求和更新存储系统的方法、设备和程序产品 - Google Patents

处理访问请求和更新存储系统的方法、设备和程序产品 Download PDF

Info

Publication number
CN117909312A
CN117909312A CN202410083012.9A CN202410083012A CN117909312A CN 117909312 A CN117909312 A CN 117909312A CN 202410083012 A CN202410083012 A CN 202410083012A CN 117909312 A CN117909312 A CN 117909312A
Authority
CN
China
Prior art keywords
virtual units
storage system
virtual
physical
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410083012.9A
Other languages
English (en)
Inventor
雷璐
孙骜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN202410083012.9A priority Critical patent/CN117909312A/zh
Publication of CN117909312A publication Critical patent/CN117909312A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0664Virtualisation aspects at device level, e.g. emulation of a storage device or system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5013Request control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例涉及用于处理访问请求和更新存储系统的方法、设备和计算机程序产品。该方法包括:接收针对与存储系统相关联的对象的访问请求,所述存储系统包括多个物理节点,所述多个物理节点中的每个物理节点包括至少一个虚拟单元集合,每个虚拟单元集合包括至少一个虚拟单元;从由所述存储系统的所述多个物理节点包括的至少一个虚拟单元集合确定与所述对象相关联的目标虚拟单元集合;以及从所述目标虚拟单元集合确定与所述对象对应的目标虚拟单元。使用本公开的技术方案,不仅可以使得物理节点上的虚拟单元集合易于拆分与合并,也可以节省需要分配的大量计算资源,从而可以更经济地带来更好的用户体验。

Description

处理访问请求和更新存储系统的方法、设备和程序产品
分案申请说明
本申请是申请日为2019年2月1日、申请号为201910105354.5、名称为“处理访问请求和更新存储系统的方法、设备和程序产品”的中国发明专利申请的分案申请。
技术领域
本公开的实施例总体上涉及数据存储领域,具体地涉及用于处理访问请求和更新存储系统的方法、设备和计算机程序产品。
背景技术
弹性云存储(ECS)是用于分布式存储系统的一种对象存储技术。传统的存储技术通常是块存储,即文件被分块。分布式存储系统中的对象包括用户的文件,图片、视频等,并且对象存储技术将每个文件单独作为一个对象,并且分配唯一的键或文件ID,实际上是将文件整体存储。在分布式存储系统中,每个对象被表示为<键,值>对,并且使用分布式哈希表(DHT,例如,一致性哈希(consistent hashing))来管理键空间。弹性云存储使用一致性哈希的一个好处在于,当给定P个虚拟单元(也可以被称为虚拟节点或者分区)和N个物理节点时,只要P远大于N,分布式存储系统的向外扩展/向内扩展就将不涉及任何数据移动。
然而,在传统的弹性云存储中,分布式存储系统中的每个虚拟单元不仅用于存储数据,也用于数据的处理(包括数据的计算等),并且因此都将被分配计算资源。这种广泛分配计算资源的方式给物理节点带来和很大的计算负载压力。同时,当分布式存储系统中出现了N大于P的情况时,则需要对现有的虚拟单元进行分割以形成新的虚拟单元,此时需要对表示对象的<键,值>对重新进行计算并且重新存储。由于分布式存储系统中的数据量可能高达数PB,并且其中的<键,值>对可能有数百万个,因此对它们进行重新计算和存储会带来很大的开销。此外,如果分布式存储系统中的虚拟单元过多,则物理节点需要分配的计算资源会非常大,从而给物理节点带来了很大的计算资源负担。
发明内容
本公开的实施例提供了用于处理访问请求和更新存储系统的方法、设备和计算机程序产品。
在本公开的第一方面中,提供了一种用于处理访问请求的方法。该方法包括:接收针对与存储系统相关联的对象的访问请求,所述存储系统包括多个物理节点,所述多个物理节点中的每个物理节点包括至少一个虚拟单元集合,每个虚拟单元集合包括至少一个虚拟单元;从由所述存储系统的所述多个物理节点包括的多个虚拟单元集合确定与所述对象相关联的目标虚拟单元集合;以及从所述目标虚拟单元集合确定与所述对象对应的目标虚拟单元。
在本公开的第二方面中,提供了一种用于更新存储系统的方法。该方法包括:响应于检测到与所述存储系统相关联的更新事件,获取由所述存储系统包括的多个物理节点中的虚拟单元集合的信息,每个虚拟单元集合包括至少一个虚拟单元;以及基于获取的所述信息来更新所述存储系统。。
在本公开的第三方面中,提供了一种用于处理访问请求的设备。该设备包括:至少一个处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:接收针对与存储系统相关联的对象的访问请求,所述存储系统包括多个物理节点,所述多个物理节点中的每个物理节点包括至少一个虚拟单元集合,每个虚拟单元集合包括至少一个虚拟单元;从由所述存储系统的所述多个物理节点包括的多个虚拟单元集合确定与所述对象相关联的目标虚拟单元集合;以及从所述目标虚拟单元集合确定与所述对象对应的目标虚拟单元。
在本公开的第四方面中,提供了一种用于更新存储系统的设备。该设备包括:至少一个处理单元;至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:响应于检测到与所述存储系统相关联的更新事件,获取由所述存储系统包括的多个物理节点中的虚拟单元集合的信息,每个虚拟单元集合包括至少一个虚拟单元;以及基于获取的所述信息来更新所述存储系统。
在本公开的第五方面中,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行使得机器执行根据本公开的第一方面或第二方面所描述的方法的任意步骤。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了传统方案中的存储系统100的示意图;
图2示出了传统方案中的存储系统方案200的示意图;
图3示出了传统方案中的存储系统方案300的示意图;
图4示出了根据本公开的实施例的用于处理访问请求的方法400的流程图;
图5示出了根据本公开的实施例的存储系统方案500的示意图;
图6示出了根据本公开的实施例的用于更新存储系统的方法600的流程图;
图7示出了根据本公开的实施例的存储系统方案700的示意图;
图8示出了根据本公开的实施例的存储系统方案800的示意图;
图9A和图9B分别示出了根据本公开的实施例的虚拟单元集合的B+树实现900和950的示意图;
图10示出了根据本公开的实施例的虚拟单元集合拆分的B+树实现1000的示意图;
图11示出了可以用来实施本公开内容的实施例的示例设备1100的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以按照各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如以上在背景技术中所描述的,传统的弹性云存储不仅会给物理节点带来和很大的计算负载压力,也可能由于对虚拟单元进行分割而带来庞大的系统开销。
图1示出了传统方案中的存储系统100的示意图,其中存储系统100例如是分布式存储系统。同时,图1中所示的存储系统100同样也适用于于本公开的实施例。
如图1中所示的存储系统100包括:控制器110;以及N个物理节点120-1、120-2、120-3……120-N(被统称为物理节点120)。控制器110可以表示运行在存储系统100中物理节点120的操作系统上的控制功能,其用于对存储系统100中的各种操作进行控制。物理节点120可以是物理机或者虚拟机,其用于承载存储系统100的虚拟节点以用于存储对象。同时,物理节点120的操作系统可以用来运行各种弹性云存储组件。
图2示出了传统方案中的存储系统方案200的示意图,存储系统方案200中包括4个物理节点和8个虚拟单元。在如图2中所示的存储系统方案200中包括4个物理节点220-1、220-2、220-3和220-4(被统称为物理节点220)。存储系统方案200中的每个物理节点包括两个虚拟单元,其中物理节点220-4包括虚拟单元230-1和230-2。如果每个虚拟单元的计算需要例如100个线程,则每个物理节点在初始化时会被分配200个计算线程,因为每个物理节点中包括两个虚拟单元。
在传统方案中,当向使用弹性云存储技术的存储系统放入(PUT)对象时,弹性云存储技术将会针对每个对象生成唯一的64位对象ID作为键,将对象用户数据保留到具有分布式保护的物理磁盘中并且为用户数据生成用于记录用户数据的存储位置的用户数据持久性信息,将用户元数据与用户数据持久性信息一起构造为值,以及将对象的<键,值>对持久保存到分布式哈希表中。由此可见,存储系统中的所有对象的元数据都被存储为分布式哈希表中的<键,值>对,它们构成针对存储系统的对象键空间的分布式哈希表。
尽管图2示出了包括4个物理节点和8个虚拟单元的存储系统方案200,但是通常,弹性云存储技术将针对分布式哈希表配置128个虚拟单元,其中每个虚拟单元管理对象键空间的一部分。对于每个对象,通过对这一对象的键进行一致性哈希来确定它属于存储系统中的哪个虚拟单元。
继续参照图2。当需要把图2中的对象210放入虚拟单元时,首先对对象210的键进行一致性哈希(例如,取模)。在图2中所示的示例中,假设对象210的键通过一致性哈希所得到的结果为6,则表明对象210对应于虚拟单元“6”。在图2中所示的示例中,假设虚拟单元230-1即为虚拟单元“6”,则对象210(对象210的<键,值>对)将被定位到物理节点220-4中的虚拟单元“6”,并且被存储在其中。需要指出的是,针对对象210的键空间计算同样在虚拟单元“6”中并且利用被分配给虚拟单元“6”的100个计算线程来完成。
有时,需要对存储系统进行更新,其中更新可以包括向存储系统中添加物理节点或者从存储系统去除物理节点。例如,在向图2中所示的存储系统方案200添加物理节点时,添加后的物理节点的数目可以变为6个,8个或者多于8个,其中添加后的物理节点的数目为8个的示例在图3中被示出。
图3示出了传统方案中的存储系统方案300的示意图,其中存储系统方案300包括8个物理节点和8个虚拟单元。在如图3中所示的存储系统方案300中包括8个物理节点220-1、220-2、220-3、220-4(这4个物理节点同样存在于图2中所示的存储系统方案200中)、320-5、320-6、320-7和320-8。存储系统方案300中的每个物理节点包括一个虚拟单元,其中物理节点220-4包括虚拟单元230-1,而原本在图2中所示的存储系统方案200中由物理节点220-4包括虚拟单元230-2现在被包括在物理节点320-8中。
应当理解,针对图3中所示的包括8个物理节点和8个虚拟单元的存储系统方案300,当需要从存储系统去除物理节点以使得其变回图2中所示的存储系统方案200时,可以很容易地将图3中所示的虚拟单元中的一半虚拟单元(4个)再次重新映射到剩余的4个物理节点中。然而,当试图向图3中所示的存储系统方案300添加更多的物理单元时,则会产生开销方面的问题,这是因为之前的内容都是基于P大于N的假设,其中P也可以被理解成存储系统方案中的可扩展性的上限。如果N大于P并且未对任何虚拟单元进行拆分,则会导致只有N个节点中的P个节点拥有分区,而剩下的(N-P)个节点将是空闲的。
以图3中所示的存储系统方案300为例,如果进一步将物理节点的数目扩展为8个以上并且未对任何虚拟单元进行拆分,则会导致一些物理节点中不包括虚拟单元,从而导致这些物理节点的空转。目前在利用弹性云存储技术时,已经存在了在每个存储系统中部署160物理节点的大客户。此时,如果假设每个物理节点最多能处理T个客户请求,那么160物理节点理论上可以处理160T个请求。然而,由于传统方案中默认只有128个虚拟单元,则意味着160个物理节点中只有最多128个物理节点具有虚拟单元,从而使得有32个物理节点永远不会接收到关于对象的访问请求,从而导致这些物理节点的空转,并且使得整个存储系统只能处理128T个请求,进而使得虚拟单元吞吐量成为了存储系统的瓶颈。因此,默认128个虚拟单元的传统方案无法满足客户的需要。
此时,如前所述,传统方案将会重新计算哈希,将存储系统中的所有虚拟单元中的键空间重新对16取模,得到新的结果,再重新进行存储。即,需要对所有存储的<键,值>对重新进行计算并且重新存储(数据可能达到数PB,几百万的对象账户),这涉及键空间扫描以及数据移动,其中开销很大(数据量很大)。同时,在虚拟单元正在进行拆分时进入存储系统的数据难以确保正确性。因此,在传统方案中,针对虚拟单元的拆分比较困难。
此外,当用户对存储系统的空间要求较小时,如果此时仍然使用128个虚拟单元,则需要向每个虚拟单元分配线程。如果只采用4个物理节点,并且每个虚拟单元需要100个线程,则每个物理节点需要分配128*100/4=3200个线程,这对于虚拟机而言将会是非常大的计算资源负担。
以上参照图1至图3对传统的存储系统的概况了描述,以下参照图4至图10来详细描述根据本公开的实施例的用于处理访问请求的方法400和用于更新存储系统的方法600的流程图的具体流程和操作。
为了至少部分地克服传统方案中存在的上述问题,本公开的实施例提出了一种用于处理访问请求的方法和用于更新存储系统的方法。利用这些方法能够通过两级哈希来实现针对一致性哈希的动态划分。在这些方法中,利用了虚拟单元集合。虚拟单元集合的数目(S)是动态的而不是固定的数目。当群集扩展到N>S时,虚拟单元集合可以拆分自身以生成更多的虚拟单元集合以进一步避免数据移动。另一方面,当存储系统向内扩展时,虚拟单元集合将合并自身以节省针对每个物理节点的计算资源使用,这是因为在根据本公开的实施例中,计算资源被分配给虚拟单元集合以由该集合中的所有虚拟单元共享。采用本公开的技术方案,不仅可以使得物理节点上的虚拟单元集合易于拆分与合并,也可以节省需要分配的大量计算资源,从而可以更经济地带来更好的用户体验。
图4示出了根据本公开的实施例的用于处理访问请求的方法400的流程图。具体而言,方法400可以由存储系统100或者其他适当的设备来执行。应当理解的是,方法400还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。
在框402,存储系统接收针对与存储系统相关联的对象的访问请求。根据本公开的实施例,访问请求可以是对象写入请求或者对象读取请求,并且存储系统包括多个物理节点,每个物理节点包括至少一个虚拟单元集合,每个虚拟单元集合包括至少一个虚拟单元,其中物理节点的数目、每个物理节点包括的虚拟单元集合的数目以及每个虚拟单元集合包括的虚拟单元的数目均可以由管理员设置或者由系统自动生成。
参照图5,其示出了根据本公开的实施例的存储系统方案500的示意图,其中存储系统方案500包括4个物理节点和8个虚拟单元集合,并且可适用于在图4中所示出的用于处理访问请求的方法400。在如图5中所示的存储系统方案500中包括4个物理节点520-1、520-2、520-3、520-4。存储系统方案500中的每个物理节点包括两个虚拟单元集合,其中物理节点520-4包括虚拟单元集合530-6和530-7。存储系统方案500中的每个虚拟单元集合包括16个虚拟单元,虚拟单元集合530-6包括虚拟单元540-96、540-97至540-111。因此,如图5中所示的存储系统方案500中包括共计128个虚拟单元。此外,图5中所示的对象510即为框402中所示的与存储系统相关联的对象。
在框404,存储系统从由存储系统的多个物理节点包括的多个虚拟单元集合确定与对象相关联的目标虚拟单元集合。根据本公开的实施例,可以例如参照图5、按照以下步骤来实现框404中所记载的步骤。
当如图5中所示要把图5中的对象510放入虚拟单元时,存储系统首先要确定对象510的第一标识符。根据本公开的实施例,确定对象510的第一标识符可以例如通过获得对象510的键(例如,ID)并且对该键进行一致性哈希(例如,取模)来完成。在图5中所示的示例中,假设对象510的键通过一致性哈希所得到的结果为6,则也可以认为对象510的第一标识符为“6”。
而后,存储系统确定其中的多个虚拟单元集合的多个集合标识符。根据本公开的实施例,存储系统可以确定其中的每个虚拟单元集合的集合标识符,这些集合标识符可以是从0开始增加的整数。
而后,存储系统从多个集合标识符确定与对象510的第一标识符相关联的集合标识符。在图5中所示的示例中,假设虚拟单元集合530-6的第一标识符是“6”,则这一虚拟单元集合也可以被称为虚拟单元集合“6”。此时,对象510的第一标识符“6”与虚拟单元集合530-6的集合标识符“6”相关联(例如,相同)。
最后,存储系统将由相关联的集合标识符“6”标识的虚拟单元集合(即,虚拟单元集合530-6)确定为目标虚拟单元集合。根据本公开的实施例,从对象510或者用户的角度,将认为虚拟单元集合“6”(目标虚拟单元集合)与参照图2而被描述的虚拟单元“6”是相同的或者相当的。
由于上述步骤是通过一致性哈希进行的,其结果是找到与对象510相关联的目标虚拟单元集合但不是最终的目标虚拟单元,因此其可以被称为是方法400中的第一级哈希。
在框406,存储系统从目标虚拟单元集合确定与对象510对应的目标虚拟单元。根据本公开的实施例,可以进一步例如参照图5、按照以下步骤来实现框406中所记载的步骤。
继续以假设对象510的键通过一致性哈希所得到的结果为6并且也可以认为对象510的第一标识符为“6”为例。由于存储系统已经将由相关联的集合标识符“6”标识的虚拟单元集合(即,虚拟单元集合530-6)确定为目标虚拟单元集合,此时,存储系统首先将基于第一标识符“6”来确定对象510的第二标识符。根据本公开的实施例,确定对象510的第二标识符可以例如通过获得对象510的键(例如,ID)并且对该键和对象510和第一标识符“6”进行一致性哈希(例如,取模)来完成。在图5中所示的示例中,假设对象510的键和第一标识符“6”通过一致性哈希所得到的结果为97,则也可以认为对象510的第二标识符为“97”。
而后,存储系统确定其中的确定虚拟单元530-6中的每个虚拟单元的虚拟单元标识符。根据本公开的实施例,存储系统可以确定虚拟单元集合530-6中的每个虚拟单元的虚拟单元标识符,这些虚拟单元标识符可以例如是从96-111的整数。
而后,存储系统从多个虚拟单元标识符确定与对象510的标识符对应的虚拟单元标识符。在图5中所示的示例中,假设虚拟单元集合530-6中的虚拟单元540-97的虚拟单元标识符是“97”,则这一虚拟单元也可以被称为虚拟单元“97”。此时,对象510的第二标识符“97”与虚拟单元540-97的虚拟单元标识符“97”对应(例如,相同)。
最后,存储系统将由对应的虚拟单元标识符“97”标识的虚拟单元(即,虚拟单元540-97)确定为目标虚拟单元。
由于上述步骤也是通过一致性哈希进行的,其结果是找到与对象510对应的最终的目标虚拟单元,因此其可以被称为是方法400中的第二级哈希。根据本公开的实施例,第二级哈希可以在分布式哈希表内部被处理,并且对存储系统的用户而言不可见。
结合上述描述可知,第一级哈希可以被用于计算虚拟单元集合和物理节点之间的映射关系,第二级哈希可以被用于计算虚拟单元和虚拟单元集合之间的映射关系。
用于处理访问请求的方法400还可以包括由存储系统向目标虚拟单元集合分配计算资源以处理访问请求的步骤。根据本公开的实施例,存储系统向目标虚拟单元集合而不是目标虚拟单元分配计算资源,该计算资源由目标虚拟单元集合中的全部虚拟单元共享。根据本公开的实施例,存储系统可以在系统构建过程中向其中的所有虚拟单元集合分配计算资源,其中存储系统可以按照每个物理节点支持的最大计算资源来向由每个物理节点包括的所有虚拟单元集合平均地分配该最大计算资源。由此可见,尽管对象510(对象510的<键,值>对)将被定位到物理节点520-4中的虚拟单元集合530-6中的虚拟单元540-97,并且被存储在其中,但是针对对象510的键空间计算在虚拟单元集合530-6中并且利用被分配给虚拟单元集合530-6的计算线程(例如,100个)来完成。
此外,响应于访问请求是写入请求或者是读取请求,用于处理访问请求的方法400还可以包括由存储系统向目标虚拟单元写入对象(与该对象相关联的<键,值>对)或者从目标虚拟单元读取对象的步骤。
采用上述用于处理访问请求的方法400的一个优点在于,虽然<键,值>对也会在虚拟单元中被持久保持,但是计算资源使用在虚拟单元集合上被计算。因此,在相同计算资源的限制下,可以保持相同的虚拟单元集合,但是这些虚拟单元集合会包括数目更多的虚拟单元(持久性单元)。在图5中,虚拟单元集合的数目仍为8,但是包括的虚拟单元的数目增加到128。尽管虚拟单元的数目128可以仍然是存储系统中的可扩展性的上限,但它不再受计算资源限制,并且可以更经济且容易地布置远大于原始数目的虚拟单元。
图6示出了根据本公开的实施例的用于更新存储系统的方法600的流程图。具体而言,方法600可以由存储系统100或者其他适当的设备来执行。应当理解的是,方法600还可以包括未示出的附加步骤和/或可以省略所示出的步骤,本公开的范围在此方面不受限制。
在框602,存储系统响应于检测到与存储系统相关联的更新事件,获取由所述存储系统包括的多个物理节点中的虚拟单元集合的信息。如前所述,存储系统包括多个物理节点,每个物理节点包括至少一个虚拟单元集合,每个虚拟单元集合包括至少一个虚拟单元,其中物理节点的数目、每个物理节点包括的虚拟单元集合的数目以及每个虚拟单元集合包括的虚拟单元的数目均可以由管理员设置或者由系统自动生成。根据本公开的实施例,前述信息可以包括关于虚拟单元集合所在的物理节点以及该虚拟单元集合所包括的虚拟单元的信息。
在框604,存储系统基于获取的信息来更新存储系统。根据本公开的实施例,响应于更新事件内容的不同,框604中所记载的步骤的实现不同。
响应于更新事件是向存储系统添加附加物理节点,存在以下两种实现。
在第一种实现中,首先,存储系统基于信息来将多个物理节点中的至少一个虚拟单元集合分配给添加的附加物理节点,以使得多个物理节点与附加物理节点中的每个物理节点包括至少一个虚拟单元集合。
而后,存储系统配置多个物理节点与附加物理节点中的虚拟单元集合,以使得与存储系统相关联的对象与多个物理节点和附加物理节点中的一个虚拟单元集合唯一地相关联。
根据本公开的实施例,可以在图5的基础上实现第一实现。经过上述步骤而实现的更新后的存储系统可以如图7中所示。参照图7,其示出了根据本公开的实施例的存储系统方案700的示意图,其中存储系统方案700包括8个物理节点和8个虚拟单元集合,并且可适用于在图6中所示出的用于更新存储系统的方法600。在如图7中所示的存储系统方案700中包括8个物理节点520-1、520-2、520-3、520-4(这4个物理节点同样存在于图5中所示的存储系统方案500中)、720-5、720-6、720-7和720-8。存储系统方案700中的每个物理节点包括一个虚拟单元集合,其中物理节点520-4包括虚拟单元集合530-6,物理节点720-8包括虚拟节点集合530-7(在图5中所示的存储系统方案500中,虚拟节点集合530-7被包括在物理节点520-4中)。存储系统方案700中的每个虚拟单元集合同样包括16个虚拟单元,与存储系统方案500相同,其中虚拟单元集合530-6包括虚拟单元540-96、540-97至540-111。因此,如图7中所示的存储系统方案700中同样包括共计128个虚拟单元。此外,图7中所示的对象510即为框602中所示的与存储系统相关联的对象。
应当理解,根据本公开的实施例的上述第一实现仅需要改变第一级哈希的算法就可以被容易地实现。
在第二实现中,首先,存储系统基于信息来将将多个物理节点中的一个虚拟单元集合拆分为多个新虚拟单元集合。
而后,存储系统向附加物理节点分配至少一个新虚拟单元集合,以使得多个物理节点与附加物理节点中的每个物理节点包括未拆分虚拟单元集合与新虚拟单元集合中的至少一个。
最后,存储系统配置多个物理节点与附加物理节点中的未拆分虚拟单元集合与多个新虚拟单元集合,以使得与存储系统相关联的对象与多个物理节点和附加物理节点中的一个未拆分虚拟单元集合或一个新虚拟单元集合唯一地相关联。
根据本公开的实施例,可以在图7的基础上实现第二实现。经过上述步骤而实现的更新后的存储系统可以如图8中所示。参照图8,其示出了根据本公开的实施例的存储系统方案800的示意图,其中存储系统方案800包括16个物理节点和16个虚拟单元集合,并且可适用于在图6中所示出的用于更新存储系统的方法600。在如图8中所示的存储系统方案800中包括16个物理节点520-1、520-2、520-3、520-4、720-5、720-6、720-7、720-8(这8个物理节点同样存在于图7中所示的存储系统方案700中)、820-9、820-10、820-11、820-12、820-13、820-14、820-15和820-16。存储系统方案800中的每个物理节点包括一个虚拟单元集合,其中物理节点520-4包括虚拟单元集合530-6,物理节点820-12包括虚拟节点集合530-7(在图5中所示的存储系统方案500中,虚拟节点集合530-7被包括在物理节点520-4中,在图7中所示的存储系统方案700中,虚拟节点集合530-7被包括在720-8中)。存储系统方案800中的每个虚拟单元集合包括8个虚拟单元,这是因为存储系统方案700中的每个虚拟单元集合均被拆分为两个新虚拟单元集合。由于并未对虚拟单元进行拆分,因此如图8中所示的存储系统方案800中同样包括共计128个虚拟单元。此外,图8中所示的对象510即为框602中所示的与存储系统相关联的对象。
应当理解,传统方案无法实现上述第二实现中的扩展,而是必须对虚拟单元进行拆分。相比之下,根据本公开的实施例的上述第二实现仅需要改变两级哈希的算法就可以被容易地实现。
针对框604,响应于更新事件是要从存储系统去除物理节点,同样存在以下两种实现。
在第一种实现中,首先,存储系统基于信息来将待去除的物理节点中的虚拟单元集合分配给多个物理节点中的其他物理节点。
而后,存储系统配置其他物理节点中的虚拟单元集合,以使得与存储系统相关联的对象与其他物理节点中的一个虚拟单元集合唯一地相关联。
应当理解,针对图7中所示的根据本公开的实施例的存储系统方案700,当需要从存储系统去除物理节点以使得其变回图5中所示的存储系统方案500时,可以很容易地将图7中所示的虚拟单元集合中的一半虚拟单元集合(4个)再次重新映射到剩余的4个物理节点中。
在第二种实现中,首先,存储系统基于信息来将待去除的物理节点中的虚拟单元集合分配给多个物理节点中的其他物理节点中的至少一个物理节点,以与至少一个物理节点中的虚拟单元集合组合,以形成组合后的虚拟单元集合。
而后,存储系统配置其他物理节点中的虚拟单元集合与组合后的虚拟单元集合,以使得与存储系统相关联的对象与其他物理节点中的一个虚拟单元集合或者一个组合后的虚拟单元集合唯一地相关联。
应当理解,针对图8中所示的根据本公开的实施例的存储系统方案800,当需要从存储系统去除物理节点以使得其变回图7中所示的存储系统方案700时,可以很容易地将图8中所示的虚拟单元集合两两组合并未再次重新映射到剩余的8个物理节点。
应当理解,当存储系统如框604中所记载的基于获取的信息来更新存储系统,会涉及向新虚拟单元集合分配计算资源以及从被合并的虚拟单元集合回收计算资源。本领域技术人员结合以上描述可以明确地了解上述内容的过程,在此不再详述。
根据被公开的实施例,虚拟单元集合(分布式哈希表)可以利用B+树而被实现。图9A和图9B分别示出了根据本公开的实施例的虚拟单元集合的B+树实现900和950的示意图。然而,应当理解,根据本公开的实施例的虚拟单元集合并不必须由B+树实现,而是可以由所有能够遵循和实现两级哈希的存储方式实现。
在图9A和图9B所示的实施例中,以物理节点包括4个虚拟单元集合为例进行说明。例如,图9A示出了物理节点中所包括的第一个虚拟单元集合901,其中虚拟单元集合901包括64个虚拟单元,即910-1、910-2至910-64。图9B示出了该物理节点中所包括的第四个虚拟单元集合904。为了简洁的目的,该物理节点包括的第二个和第三个虚拟单元集合并未示出。虚拟单元集合904同样包括64个虚拟单元,即910-193、910-194至910-256。
在图9A和图9B所示的实施例中,物理节点例如包括256个虚拟单元。上述B+树的特别之处在于,第一级的索引虚拟单元集合实际上是真正的每个虚拟单元的根节点,而根是要从索引找到第一级的节点,而不是每层的排序关系。如图9A和图9B中所示,虚拟单元是B+树结构,并且每个虚拟单元集合是由其子代的虚拟单元组成的B+树,其中一级索引页面由二级哈希而不是键分类索引,并且低于一级的页面是实际的B+树。根据本公开的实施例,B+树中一个节点的子树可以达到300个,也就是说,一个虚拟单元集合下面可以具有300个虚拟单元。
根据被公开的实施例,当虚拟单元集合(分布式哈希表)利用B+树而被实现时,同样可以很容易地实现虚拟单元集合的拆分。图10示出了根据本公开的实施例的虚拟单元集合拆分的B+树实现1000的示意图。
在图10中示出了例如将图9A中所示的将虚拟单元集合901拆分为4个新的虚拟单元集合1001、1002、1003和1004之后的B+树结构。如图10中所示,由于虚拟单元集合901包括64个虚拟单元,因此新的虚拟单元集合1001、1002、1003和1004各自包括16个虚拟单元,其中新的虚拟单元集合1001包括虚拟单元1010-1、1010-2至1010-16,并且新的虚拟单元集合1004包括虚拟单元1010-49、1010-50至1010-64。由此可见,拆分之后的虚拟单元集合901中的新的虚拟单元集合1001、1002、1003和1004同样是B+树的形式。
应当理解,采用上述B+树的形式,同样可以容易地实现虚拟单元集合的合并。
应当理解,以上各个附图中所采用的物理节点、虚拟单元以及虚拟单元集合的数目仅为举例,而并不是对本公开的保护范围的限制。上述数目可以根据需要而被任意设置,并且在在同一存储系统中,并不要求每个物理节点包括同样数目的虚拟单元集合,也并不要求每个虚拟单元集合包括同样数目的虚拟单元。
以上参考图4至图10描述了用于处理访问请求的方法400和用于更新存储系统的方法600的流程。应当理解,上述描述是为了更好地展示本公开中所记载的内容,而不是以任何方式进行限制。
通过以上参考图1至图10的描述,可以看出,根据本公开的实施例的技术方案相对于传统方案具有诸多优点。首先,根据本公开的实施例的技术方案在存储系统的构建时可以只具有少量的虚拟单元集合,由于计算资源仅被分配给虚拟单元集合,因此只需要向物理节点分配少得多的计算资源就可以完成存储系统的构建。此外,在根据本公开的实施例的技术方案中,包括多个虚拟单元的虚拟单元集合可以被容易地拆分和合并,并且只需要通过调整两级哈希算法中的一级或者两级就可以实现,而无需进行全盘数据扫描和存储。再者,根据本公开的实施例的技术方案可以利用B+树而被实现,其不仅实现起来非常容易,也可以利用更少的资源来在存储系统中包括更多的虚拟单元集合以及虚拟单元。
图11图示出了可以用来实施本公开内容的实施例的示例设备1100的示意性框图。如图所示,设备1100包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序指令或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序指令,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理(例如,方法400和600),可由处理单元1101执行。例如,在一些实施例中,方法400和600可以被实现为计算机软件程序,其被有形地包含于机器可读介质(例如,存储单元1108)中。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序被加载到RAM 1103并由CPU 1101执行时,可以执行上文描述的方法400和600的一个或多个动作。
本公开可以是方法、设备、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是、但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (20)

1.一种系统,包括:
处理器;以及
存储器,所述存储器存储可执行指令,所述可执行指令当由所述处理器执行时,促进操作的执行,所述操作包括:
在包括多个物理节点的存储系统中存储对象,其中所述多个物理节点存储虚拟单元的相应分组;
从所述对象的第一标识符确定第一哈希,所述第一哈希标识虚拟单元的所述相应分组中的、与所述对象相关联的虚拟单元的目标分组;
从所述对象的所述第一标识符和虚拟单元的所述目标分组的第二标识符确定第二哈希,所述第二哈希标识虚拟单元的所述目标分组中的目标虚拟单元;以及
响应于检测到与所述存储系统相关联的更新事件,确定更新后的第一哈希,所述更新后的第一哈希标识虚拟单元的所述目标分组,其中所述第二哈希不可改变并且被用于标识虚拟单元的所述目标分组中的所述目标虚拟单元。
2.根据权利要求1所述的系统,其中所述操作还包括:
响应于所述更新事件包括向所述存储系统添加附加物理节点,
向所述附加物理节点分配虚拟单元的所述相应分组中的虚拟单元的至少一个分组;以及
将所述对象与虚拟单元的所述至少一个分组中的虚拟单元的分组唯一地相关联。
3.根据权利要求1所述的系统,其中所述操作还包括:
响应于所述更新事件包括向所述存储系统添加附加物理节点,
将所述多个物理节点中的虚拟单元的所述相应分组中的虚拟单元的分组拆分成虚拟单元的第一新分组和虚拟单元的第二新分组;
向所述附加物理节点分配虚拟单元的所述第一新分组;以及
将所述对象与虚拟单元的所述相应分组中的虚拟单元的所述分组、虚拟单元的所述第一新分组或者虚拟单元的所述第二新分组唯一地相关联。
4.根据权利要求3所述的系统,其中所述操作还包括:
基于确定向所述存储系统添加所述附加物理节点导致所述存储系统的物理节点的第一数目大于所述存储系统的虚拟单元的分组的第二数目来执行所述拆分。
5.根据权利要求1所述的系统,其中所述操作还包括:
响应于所述更新事件包括从所述存储系统移除物理节点,
将所述物理节点中的、将被移除的虚拟单元的第一分组分配给所述多个物理节点中的、除了所述物理节点之外的其他物理节点;以及
将所述对象与所述其他物理节点中的虚拟单元的第二分组唯一地相关联。
6.根据权利要求1所述的系统,其中所述操作还包括:
响应于所述更新事件包括从所述存储系统移除物理节点,
将所述物理节点中的、将被移除的虚拟单元的第一分组分配给所述多个物理节点中的其他物理节点中的、除了所述物理节点之外的至少一个物理节点,以便与所述至少一个物理节点中的虚拟单元的第二分组组合,以形成虚拟单元的组合的分组;以及
将所述对象与所述其他物理节点中的虚拟单元的分组或者虚拟单元的所述组合的分组唯一地相关联。
7.根据权利要求6所述的系统,其中所述操作还包括:
基于确定从所述存储系统移除所述物理节点导致所述存储系统的物理节点的第一数目小于或等于所述存储系统的虚拟单元的分组的第二数目来形成虚拟单元的所述组合的分组。
8.一种方法,包括:
由包括处理器的系统在包括多个物理节点的存储系统中存储对象,其中所述多个物理节点存储虚拟单元的分组中的虚拟单元的相应分组,其中虚拟单元的所述相应分组中的、与所述对象相关联的虚拟单元的目标分组基于对所述对象的第一标识符执行第一哈希而被确定,并且其中所述虚拟单元的所述目标分组中的、与所述对象相关联的目标虚拟单元基于对所述对象的所述第一标识符和虚拟单元的所述目标分组的第二标识符执行第二哈希而被确定;以及
响应于检测到与所述存储系统相关联的更新事件,由所述系统确定更新后的第一哈希,所述更新后的第一哈希标识虚拟单元的所述目标分组,其中所述第二哈希不可改变并且被用于标识虚拟单元的所述目标分组中的所述目标虚拟单元。
9.根据权利要求8所述的方法,还包括:
响应于所述更新事件为向所述存储系统添加附加物理节点,
由所述系统向所述附加物理节点分配所述多个物理节点中的虚拟单元的至少一个分组,以使得所述多个物理节点和所述附加物理节点中的每个物理节点包括虚拟单元的所述至少一个分组;以及
由所述系统配置所述多个物理节点和所述附加物理节点中的虚拟单元的所述相应分组,以使得所述对象与所述多个物理节点或者所述附加物理节点中的虚拟单元的一个分组唯一地相关联。
10.根据权利要求8所述的方法,还包括:
响应于所述更新事件为向所述存储系统添加附加物理节点,
由所述系统将所述多个物理节点中的虚拟单元的一个分组拆分成虚拟单元的多个新分组;
由所述系统向所述附加物理节点分配虚拟单元的至少一个新分组,以使得所述多个物理节点或者所述附加物理节点中的每个物理节点包括虚拟单元的未拆分分组和虚拟单元的新分组中的至少一个分组;以及
由所述系统配置所述多个物理节点和所述附加物理节点中的虚拟单元的所述未拆分分组和虚拟单元的所述新分组,以使得所述对象与所述多个物理节点和所述附加物理节点中的虚拟单元的一个未拆分分组或者虚拟单元的一个新分组唯一地相关联。
11.根据权利要求10所述的方法,还包括:
基于由所述系统确定向所述存储系统添加导致所述存储系统的物理节点的第一数目大于所述存储系统的虚拟单元的分组的第二数目来执行所述多个物理节点中的虚拟单元的一个分组向虚拟单元的所述多个新分组的所述拆分。
12.根据权利要求8所述的方法,还包括:
响应于所述更新事件为从所述存储系统移除物理节点,
由所述系统将所述物理节点中的、将被移除的虚拟单元的分组分配给所述多个物理节点中的其他物理节点;以及
由所述系统配置所述其他物理节点,以使得所述对象与所述其他物理节点中的虚拟单元的一个分组唯一地相关联。
13.根据权利要求8所述的方法,还包括:
响应于所述更新事件为从所述存储系统移除物理节点,
由所述系统将所述物理节点中的、将被移除的虚拟单元的第一分组分配给所述多个物理节点中的其他物理节点中的至少一个物理节点,以便与所述至少一个物理节点中的虚拟单元的第二分组组合,以形成虚拟单元的组合的分组;以及
由所述系统配置所述其他物理节点和虚拟单元的所述组合的分组,以使得所述对象与所述其他物理节点中的虚拟单元的一个分组或者虚拟单元的所述组合的分组唯一地相关联。
14.根据权利要求13所述的方法,还包括:
由所述系统基于确定从所述存储系统移除所述物理节点导致所述存储系统的物理节点的第一数目小于或等于所述存储系统的虚拟单元的分组的第二数目来形成虚拟单元的所述组合的分组。
15.一种非瞬态计算机可读介质,包括指令,所述指令响应于执行,使包括处理器的系统执行操作,所述操作包括:
在包括物理节点的分组的存储系统中存储对象,其中物理节点的所述分组的中的相应物理节点存储虚拟单元的分组中的虚拟单元的相应分组,其中来自所述对象的第一标识符的第一哈希标识虚拟单元的所述相应分组中的与所述对象相关联的虚拟单元的目标分组,并且其中来自所述对象的所述第一标识符和虚拟单元的所述目标分组的第二标识符的第二哈希标识虚拟单元的所述目标分组中的目标虚拟单元;以及
响应于检测到与所述存储系统相关联的更新事件,确定更新后的第一哈希,所述更新后的第一哈希标识虚拟单元的所述目标分组,其中所述第二哈希不可改变并且被用于标识虚拟单元的所述目标分组中的所述目标虚拟单元。
16.根据权利要求15所述的非瞬态计算机可读介质,其中所述更新事件包括向所述存储系统添加附加物理节点,并且其中所述操作还包括:
向所述附加物理节点分配虚拟单元的至少一个分组;以及
将所述对象与虚拟单元的一个分组唯一地相关联。
17.根据权利要求15所述的非瞬态计算机可读介质,其中所述更新事件包括向所述存储系统添加附加物理节点,并且其中所述操作还包括:
将物理节点的所述分组中的虚拟单元的一个分组拆分成虚拟单元的第一新分组和虚拟单元的第二新分组;
向所述附加物理节点分配虚拟单元的所述第一新分组;以及
将所述对象与虚拟单元的所述相应分组中的虚拟单元的一个分组、虚拟单元的所述第一新分组或者虚拟单元的所述第二新分组唯一地相关联。
18.根据权利要求17所述的非瞬态计算机可读介质,其中所述操作还包括:
基于确定向所述存储系统添加所述附加物理节点导致所述存储系统的物理节点的第一数目大于所述存储系统的虚拟单元的分组的第二数目来执行所述拆分。
19.根据权利要求15所述的非瞬态计算机可读介质,其中所述更新事件包括从所述存储系统移除物理节点,并且其中所述操作还包括:
将所述物理节点中的、将被移除的虚拟单元的分组分配给物理节点的所述分组中的其他物理节点;以及
将所述对象与所述其他物理节点中的虚拟单元的一个分组唯一地相关联。
20.根据权利要求15所述的非瞬态计算机可读介质,其中所述更新事件包括从所述存储系统移除物理节点,并且其中所述操作还包括:
将所述物理节点中的、将被移除的虚拟单元的第一分组分配给物理节点的所述分组中的其他物理节点中的至少一个物理节点,以便与所述至少一个物理节点中的虚拟单元的第二分组组合,以形成虚拟单元的组合的分组;以及
将所述对象与所述其他物理节点中的虚拟单元的一个分组或者虚拟单元的所述组合的分组唯一地相关联。
CN202410083012.9A 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备和程序产品 Pending CN117909312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410083012.9A CN117909312A (zh) 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备和程序产品

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202410083012.9A CN117909312A (zh) 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备和程序产品
CN201910105354.5A CN111522788B (zh) 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201910105354.5A Division CN111522788B (zh) 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备

Publications (1)

Publication Number Publication Date
CN117909312A true CN117909312A (zh) 2024-04-19

Family

ID=71837437

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910105354.5A Active CN111522788B (zh) 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备
CN202410083012.9A Pending CN117909312A (zh) 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备和程序产品

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910105354.5A Active CN111522788B (zh) 2019-02-01 2019-02-01 处理访问请求和更新存储系统的方法、设备

Country Status (2)

Country Link
US (2) US11269548B2 (zh)
CN (2) CN111522788B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113867642B (zh) * 2021-09-29 2023-08-04 杭州海康存储科技有限公司 数据处理方法、装置及存储设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9038065B2 (en) * 2012-01-30 2015-05-19 International Business Machines Corporation Integrated virtual infrastructure system
US8589659B1 (en) * 2012-11-08 2013-11-19 DSSD, Inc. Method and system for global namespace with consistent hashing
US9904627B2 (en) * 2015-03-13 2018-02-27 International Business Machines Corporation Controller and method for migrating RDMA memory mappings of a virtual machine

Also Published As

Publication number Publication date
US20200249871A1 (en) 2020-08-06
CN111522788B (zh) 2024-02-06
US20220156013A1 (en) 2022-05-19
US11681475B2 (en) 2023-06-20
US11269548B2 (en) 2022-03-08
CN111522788A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
US11354039B2 (en) Tenant-level sharding of disks with tenant-specific storage modules to enable policies per tenant in a distributed storage system
US10691373B2 (en) Object headers facilitating storage of data in a write buffer of a storage system
KR102486243B1 (ko) 데이터 저장소를 파티셔닝하고 리밸런싱하는 기법
JP6542909B2 (ja) ファイル操作方法及び装置
US20200042394A1 (en) Managing journaling resources with copies stored in multiple locations
US20150039849A1 (en) Multi-Layer Data Storage Virtualization Using a Consistent Data Reference Model
JP2021500649A (ja) シャード・データベースのシャード・テーブルにレコードを記憶するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびシステム、シャード・データベースのシャード・テーブルからレコードを検索するためのコンピュータ実装方法、コンピュータ・プログラム製品、およびシステム、ならびにシャード・データベースを記憶するためのシステム
US10356150B1 (en) Automated repartitioning of streaming data
US20180225048A1 (en) Data Processing Method and Apparatus
CN111857539B (zh) 用于管理存储系统的方法、设备和计算机可读介质
US10909001B1 (en) Storage system with snapshot group split functionality
CN111522788B (zh) 处理访问请求和更新存储系统的方法、设备
US9684668B1 (en) Systems and methods for performing lookups on distributed deduplicated data systems
CN109992196B (zh) 索引数据的存储方法及装置、存储系统
US11086689B2 (en) Method for automatically and dynamically assigning the responsibility for tasks to the available computing components in a highly distributed data-processing system
US11429493B2 (en) Remote rollback of snapshots for asynchronous replication
KR101654969B1 (ko) 가상화 클러스터 환경에서 네임 노드를 할당하는 방법 및 장치
US10712959B2 (en) Method, device and computer program product for storing data
CN113126891B (zh) 存储管理的方法、设备和计算机程序产品
CN110955733A (zh) 分布式系统的数据均衡方法及系统
CN106325777A (zh) 一种逻辑单元管理方法及系统
JP2018159987A (ja) データノード管理装置、ストレージシステム、データノード管理方法、及びプログラム
JP2014191478A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination