CN114647388B - 一种分布式块存储系统和管理方法 - Google Patents

一种分布式块存储系统和管理方法 Download PDF

Info

Publication number
CN114647388B
CN114647388B CN202210565854.9A CN202210565854A CN114647388B CN 114647388 B CN114647388 B CN 114647388B CN 202210565854 A CN202210565854 A CN 202210565854A CN 114647388 B CN114647388 B CN 114647388B
Authority
CN
China
Prior art keywords
index table
data
virtual disk
disk
client node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210565854.9A
Other languages
English (en)
Other versions
CN114647388A (zh
Inventor
张吉祥
梁世龙
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Youyun Technology Co ltd
Original Assignee
Hangzhou Youyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Youyun Technology Co ltd filed Critical Hangzhou Youyun Technology Co ltd
Priority to CN202210565854.9A priority Critical patent/CN114647388B/zh
Publication of CN114647388A publication Critical patent/CN114647388A/zh
Application granted granted Critical
Publication of CN114647388B publication Critical patent/CN114647388B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/062Securing storage systems
    • G06F3/0622Securing storage systems in relation to access
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0664Virtualisation aspects at device level, e.g. emulation of a storage device or system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • G06F3/0676Magnetic disk device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式块存储系统和管理方法,采用线性索引表的方式进行的数据寻址与管理,数据存储节点包括用于存储虚拟磁盘信息和第一类索引表,第一类索引表用于存储虚拟磁盘的逻辑块对应数据区的存储位置;虚拟磁盘被客户端打开的时候从各个数据存储节点的磁盘中读出第一类索引表发送给客户端进行汇总得到第二类索引表,客户端在I/O寻址的时候只需要在内存中进行一次线性寻址即能索引到数据的具体位置;本发明提出的分布式块存储系统和管理方法,在物理磁盘上共用元数据降低了元数据的数量,采用线性索引的方式降低了虚拟磁盘的寻址时间,使用一致性哈希算法把虚拟磁盘的数据均衡的分配到每一个磁盘,避免了数据过热。

Description

一种分布式块存储系统和管理方法
技术领域
本发明涉及分布式存储领域,尤其是一种分布式块存储系统和管理方法。
背景技术
目前有很多开源的分布式存储软件,比如GlusterFS、Sheepdog,这些存储软件绝大部分都采用Linux自带的文件系统作为数据存储的后端,比如xfs、ext4这样的文件系统。也有像Ceph的BlueStore重新写了一套存储后端,绕开了文件系统直接读写物理磁盘。然而它们都是采用把一个大的虚拟磁盘拆分固定大小的对象,然后把对象分布式的存放到存储集群的各个物理磁盘中。它们都不是为块存储专门设计的,所以在块存储的场景下都有一些缺陷导致无法提供更高的性能:
1、两次寻址:如图1所示,在读写虚拟磁盘的时候要进行两次寻址。首先是在客户端使用Crush算法或者查表的方式找出对象存放的主机磁盘,第二次是在数据存储端使用对象名称与偏移来寻址出对象数据具体存放在磁盘的哪一个位置。
2、元数据量过大:为了兼顾对象存储Bluestore或者是其他的文件系统都会把存储单元拆分的很小(文件系统一般是4KB),导致有大量的用于记录数据存储位置的元数据。
3、系统复杂度高:因为元数据量过大,在Bluestore中把元数据存放在Rockdb数据库中进行加速查询,因此在每次I/O寻址的时候需要查询数据库才能获得数据的位置,这无疑加大了系统的复杂度。
4、I/O性能低:在文件系统中使用内存缓存元数据用于加速I/O寻址,但是由于元数据量太大(每4KB对应一个位置元数据),所以很多元数据无法得到缓存,只能在I/O寻址的时候临时地从磁盘中读出位置元数据,这大大的降低了整个I/O的速度。在Bluestore中使用查询数据库来进行寻址,其性能也不高。
发明内容
本发明为了克服以上技术的不足,根据集群中块存储体积大、数量少的特点,专门为块存储服务提供了一种分布式块存储系统和管理方法,采用线性索引表的方式进行数据寻址与数据管理。本发明中采用三级线性索引表的方式进行寻址,并且在虚拟磁盘被客户端打开的时候从各个数据节点的磁盘中读出索引表发送给客户端进行汇总,客户端在I/O寻址的时候只需要在内存中进行一次线性寻址即能索引到数据的详细位置,极大的降低了虚拟磁盘的寻址时间。
本发明克服其技术问题所采用的技术方案是:本发明提出的一种分
布式块存储系统,至少包括一个客户端节点和若干与客户端节点耦接的数据存储节点,所述数据存储节点用于存储一个或多个虚拟磁盘的逻辑块,每个数据存储节点至少包括虚拟磁盘元数据区和用于存储数据的数据区,所述虚拟磁盘元数据区至少用于存储虚拟磁盘信息和第一类索引表,所述第一类索引表用于存储虚拟磁盘的逻辑块对应数据区的存储位置;所述客户端节点至少配置有基于汇总第一类索引表得到对应某一虚拟磁盘的第二类索引表,所述第二类索引表还包括与之对应的虚拟磁盘的逻辑块对应的数据存储节点,磁盘编号,以及,逻辑块在磁盘中的地址。
进一步的,所述数据存储节点还包括用于保存数据区的数据块分配情况的磁盘分配表,以及,用于保存存储系统参数信息的磁盘格式信息区。
无需每个对象对应一个元数据,而是一个虚拟块存储在一个物理磁盘上共用元数据。同时增大存储单元分配的单位,每次至少分配4MB的存储空间。
进一步的,所述第一类索引表和第二类索引表分别包括若干级索引表,第一级索引表存储基于预设分配块大小分配的索引地址,上一级索引表存储下一级索引表起始地址,最后一级索引表用于存储的逻辑块的存储位置。
本发明提出的一种分布式块存储系统管理方法,应用于上述
分布式块存储系统,包括客户端节点基于第二类索引表进行数据寻址,具体包括,通过客户端节点请求打开某一虚拟磁盘,则对应某一虚拟磁盘的所有数据存储节点发送第一类索引表至客户端节点;所述客户端节点基于接收到的所有第一类索引表汇总得到第二类索引表;客户端节点基于第二类索引表进行虚拟磁盘I/O寻址。
进一步的,还包括,客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而写虚拟磁盘,具体包括:客户端节点请求写入数据至某一虚拟磁盘,则客户端节点遍历第二类索引表;若查找第二类索引表的结果有效,则确定写入数据第一地址,并发送写请求至数据存储节点,其中,第一地址包括数据存储节点和磁盘编号,以及数据在磁盘中的位置;所述数据存储节点基于写请求和第一地址进行写入数据。
客户端I/O的时候可以根据第二类索引表一次性在内存中寻址到数据存储的主机、磁盘以及在磁盘中的位置。
进一步的,所述客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而写虚拟磁盘,还包括:若查找第二类索引表的结果无效,则客户端节点基于一致性哈希得到待写入数据的数据存储节点和磁盘编号,并发送写请求至对应的数据存储节点,其中写请求中至少标识了未分配;所述数据存储节点为待写入数据在数据区分配空间后写入数据,并将第二地址返回至客户端节点,其中,第二地址为数据在磁盘中的位置;所述客户端节点基于接收的第二地址更新第二类索引表。
采用一致性哈希算法把虚拟磁盘的数据均衡的分配到每一个磁盘,所以不需要额外的磁盘区段规划器等装置,同时避免了数据不均衡导致I/O全部落到少数的几个磁盘。
进一步的,所述客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而写虚拟磁盘,还包括数据存储节点进行写请求校验,具体包括:所述数据存储节点比较待写入的第一地址对应的虚拟磁盘的名称和写请求中的虚拟磁盘的名称是否一致,若一致,则数据存储节点进行I/O写入,否则,数据存储节点不进行I/O写入。
在数据存储节点进行写入数据的防护。
进一步的,还包括客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而读虚拟磁盘,具体包括:客户端节点查找第二类索引表得到逻辑块对应的第一地址;若查找第二类索引表的结果无效,则逻辑块未曾写入过数据;若查找第二类索引表的结果有效,则客户端节点则基于第一地址发送读请求,数据存储节点基于第一地址和读请求,将读取的数据返回至客户端节点。
本发明的有益效果是:
1、减少元数据的数量与体积:为后端存储设备提出一种新的数据存储格式,无需每个对象对应一个元数据,而是一个虚拟块存储在一个物理磁盘上共用元数据。同时增大存储单元分配的单位,每次至少分配4MB的存储空间,相较于普通文件系统的4KB分配单元,这极大的降低了元数据的数量。
2、在物理硬盘上存储其承载的虚拟磁盘的数据索引信息,在客户端打开虚拟磁盘的时候发给客户端,在客户端的内存中汇总成一个三级线性的索引表。客户端I/O的时候可以根据该索引表一次性寻址到数据存储的主机、磁盘以及在磁盘中的位置,其速度比从磁盘中读取位置信息或者是从数据库中读取位置信息快很多。
3、在客户端采用一致性哈希算法把虚拟磁盘的数据均衡的分配到每一个磁盘,所以不需要额外的磁盘区段规划器等装置,同时避免了数据不均衡导致I/O全部落到少数的几个磁盘。
4、本发明适用于分布式架构,避免了集中式存储的不可靠性。
附图说明
图1为现有技术进行读写虚拟磁盘进行两次寻址的示意图;
图2为本发明实施例的数据存储节点的存储系统磁盘格式示意图;
图3为本发明实施例的打开虚拟磁盘时根据第一类索引表汇总得到的第二类索引表示意图;
图4为本发明实施例的客户端节点的三级索引表示意图;
图5为本发明实施例的分布式管理方法的流程图。
具体实施方式
为了进一步理解本发明,首先对本发明提到的部分术语进行解释:
块存储:块设备中所有数据按照固定的大小分块,每一块赋予一个用于寻址的编号。块存储可以非连续的访问存储的数据,典型的块存储是硬盘;
分布式块存储:单机块存储受限于自身的容量,无法实现无限扩容,而且容易出现单机故障。所以云计算中一般采用分布式存储技术,也就是把数据存多份,每一份存在不同的主机节点上,以提高其可靠性与扩容能力;
逻辑块:把虚拟磁盘逻辑地址按照固定大小的块拆分为很多很多小块,每一个小块简称为逻辑块。
虚拟块设备:提供给虚拟机使用的虚拟出来的块存储设备,把一个固定大小的虚拟块存储设备按照逻辑地址拆分为大小固定的逻辑块,每一个逻辑块存储在分布式存储系统的某一个或多个节点上;典型的虚拟块设备就是虚拟磁盘,用于给虚拟机提供块存储。
元数据:描述一个文件属性以及数据存储位置信息的所有数据,比如文件名称、大小、数据存放的位置信息等,其中,数据存放的位置信息通常称为索引。
一致性哈希算法:一致性哈希算法是分布式存储中最为常见的算法,它通过哈希算法的随机性,可以把数据随机、均匀的存放在存储集群的各个节点上。
为了便于本领域人员更好的理解本发明,下面结合附图和具体实施例对本发明做进一步详细说明,下述仅是示例性的不限定本发明的保护范围。
本发明所述的一种分布式块存储系统,至少包括一个客户端节点和
若干与客户端节点耦接的数据存储节点,数据存储节点用于存储一个或多个虚拟磁盘的逻辑块,每个数据存储节点至少包括虚拟磁盘元数据区和用于存储数据的数据区。其中虚拟磁盘元数据区用于存储虚拟磁盘对信息和第一类索引表,第一类索引表用于存储虚拟磁盘的逻辑块对应数据区的存储位置。客户端节点至少配置有基于汇总第一类索引表得到对应某一虚拟磁盘的第二类索引表,第二类索引表还包括虚拟磁盘的逻辑块对应的数据存储节点,磁盘编号以及逻辑块在磁盘的位置。
如图2所示,为本发明实施例中的数据存储节点的存储系统的格式示意图。将硬盘划分为4个区,分别为数据区、虚拟磁盘元数据区、磁盘分配表区和磁盘格式信息区:
数据区:数据区把硬盘空间按照一定的大小分为很多块,在大部分实施方式中,每一个块为4MB,所以每一个块在硬盘中的地址都是确定的。
虚拟磁盘元数据区:虚拟磁盘元数据区保存着一个个虚拟磁盘存储在数据区存储位置的索引。
磁盘分配表:保存着数据区每一个块是否分配的信息。
磁盘格式信息区:该区保存该物理磁盘的格式信息,例如,数据区每一个块的大小,磁盘分配表区的大小,虚拟磁盘元数据区大小,数据区大小等。其中,虚拟磁盘元数据区保存着虚拟磁盘的第一类索引表,以第一类索引表为三级索引表对第一类索引表进行详细说明。
在本发明的一个实施例中,第一级索引表被配置为数组,数组中的每个元素用于记录第二级索引表的起始位置。第二级索引表被配置为数组,数组中的每个元素用于记录第三级索引表的起始位置。第三级索引表配置为数组,数组中每个元素用于记录其虚拟磁盘的逻辑块存放在该物理磁盘的哪个块中。
第一级索引表每一个数组元素记录着一个64GB存储空间的第二级索引表的位置;以此类推,第二级索引表每一个数组元素指向第三级索引表的位置,每一个元素对应着512MB的存储空间;第三级索引表每个元素存放着一个个4MB的逻辑块存放在集群中真实的地址。
在本发明的一个实施例中,每一级索引表都分配了固定字节的空间。该空间大小为磁盘的最小读写单位,从而减少额外的I/O。机械硬盘每次最小的读写、分配单位是一个扇区,也就是512字节;SSD最小的读写、分配单位一般是4096字节。以下以机械硬盘为例继续说明。
在本发明的一个实施例中,第一级索引表为大小为512字节的数组。每个索引表中的元素大小为4字节,记录着第二级索引表位于虚拟磁盘元数据区的哪一个分配单元中。同样第二级的每一张索引表也是512字节的数组,每个索引表中的元素大小也是4字节,记录着第三级索引表位于虚拟磁盘元数据区的哪一个分配单元中。第三级索引表也是一个512字节的数组,每个索引表中的元素大小为4字节,记录着该虚拟磁盘的一个4MB数据存放在物理磁盘的位置。
如图3所示,以一个64GB大小的虚拟磁盘为例说明了客户端节点上在打开虚拟磁盘时根据第一类索引表汇总得到的第二类索引表,在本发明的一个实施例中,第二类索引表为三级索引表。第二类索引表的第一级索引表中的每个元素代表一个64GB单元,第二级索引表的每个元素对应一个512MB空间,第三级索引表的每个元素代表一个4MB单元,存放着一个个4MB的逻辑块存放在集群中真实的地址,包括主机地址、磁盘编号以及数据块地址。
客户端节点通过在内存中查线性表的方法即在内存中查找第二类索引表的方法,可以快速的确定虚拟磁盘数据对应的真实的地址。
在本发明的一个实施例中,第三级索引表为一个数组,数组的下标为虚拟磁盘块的索引,数组中的每个元素的值即为对应块的真实物理偏移。
为了减小索引表占用内存的大小,因此将第一类索引表和第二类索引表均设置为三层结构。
需要说明的是,为了实现更好的I/O均衡,对于新分配的存储空间客户端节点使用一致性哈希算法来计算虚拟硬盘的块应该存放在哪个物理磁盘上。
本发明另外还提出了一种基于上述分布式块存储系统分布式块存储管理方法,包括客户端节点基于第二类索引表进行数据寻址,流程图如图4所示,
S11,通过客户端节点请求打开某一虚拟磁盘,则对应某一虚拟磁盘的所有数据存储节点发送第一类索引表至客户端节点;
因为数据是分布式的存储在整个存储集群,所以每个数据存储节点上的第一类索引表都均不完整的,它只记录了自身数据存储节点上的数据索引关系,所以在打开使用的时候发送给客户端进行汇总。
S12,客户端节点基于接收的所有第一类索引表汇总得到第二类索引表;
第二类索引表汇总得到了所有的第一类索引表的信息,第二类索引表完整了记录了某一虚拟磁盘的数据索引关系。
S13,客户端节点基于第二类索引表进行虚拟磁盘I/O寻址。
通过此种方式,在客户端的线性的第二类索引表寻址,几乎是不耗时间的,直接根据第二类索引表数组的下标就可以找到,大大提高了I/O寻址速度,极大的加速了I/O性能。
以如图5所示,如果要找一个偏移为516MB的数据,那么先查第二类索引表的第一级索引表找出第二级索引表的位置,然后在找出的第二级索引表中读出第二个元素,这个元素就是第三级索引表的位置。然后在找出的第三级索引表中读出第二个元素的值便是该虚拟磁盘偏移为516MB的数据的真实位置。
通过此种方式,大大提高了I/O寻址速度,寻址在客户端的内存中的线性表中完成,极大的加速了I/O性能。
在本发明的一些实施方式中,客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而写虚拟磁盘,具体包括如下过程,
通过客户端节点请求写入某一虚拟磁盘,客户端节点逐级遍历第二类索引表。
客户端节点首先逐级遍历第二类索引表的三级索引表,如果本次I/O写入的逻辑块已经分配过,那么在第二类索引表的三级索引表中就能检索到该数据块对应的具体地址,其中包括主机地址、磁盘编号以及数据在磁盘中的地址。然后发送给数据存储节点,从而进行I/O。
如果本次I/O写入的地址尚未分配,那么客户端节点先通过一致性哈希计算得到逻辑块应该被分配到哪一个数据存储节点的哪一个磁盘,然后把写入请求发送给对应的节点;存储节点接收到写入请求后会重新分配存储空间,在I/O写入后把新分配的空间地址返回给客户端;然后客户端使用该地址更新三级索引表,这样在下次I/O的时候就可以查询到该逻辑块的具体地址。
另外,在一些实施方式中,数据存储节点在进行I/O写入的时候需要进行防护,防止客户端传递错误的地址导致篡改了其他虚拟磁盘的数据。因此数据存储节点在写入的时候需要比较该地址隶属的虚拟磁盘名称是否与请求中的虚拟磁盘名称是否一致。
需要说明的是,在本发明的一个实施例中,在内存中查找线性索引表,一次性找出数据存储的主机、磁盘编号以及数据在磁盘中的位置。几乎不耗费时间,相对于采用Bluestore查询RocksDB来索引,不仅索引速度更快,而且更加稳定。
在一些实施方式中,还包括客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而读虚拟磁盘,客户端节点查找第二类索引表得到逻辑块对应的第一地址;若查找第二类索引表的结果无效,则逻辑块未曾写入过数据;若查找第二类索引表的结果有效,则客户端节点则基于第一地址发送读请求,数据存储节点基于第一地址和读请求,将读取的数据返回至客户端节点。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

Claims (8)

1.一种分布式块存储系统,至少包括一个客户端节点和若干与客户端节点耦接的数据存储节点,所述数据存储节点用于存储一个或多个虚拟磁盘的逻辑块,其特征在于:
每个数据存储节点至少包括虚拟磁盘元数据区和用于存储数据的数据区,
所述虚拟磁盘元数据区至少用于存储虚拟磁盘信息和第一类索引表,所述第一类索引表用于存储虚拟磁盘的逻辑块对应数据区的存储位置;
所述客户端节点至少配置有基于汇总第一类索引表得到的对应某一虚拟磁盘的第二类索引表,所述第二类索引表还包括与之对应的虚拟磁盘的逻辑块对应的数据存储节点,磁盘编号,以及,逻辑块在磁盘中的地址。
2.根据权利要求1所述的分布式块存储系统,其特征在于,所述数据存储节点还包括用于保存数据区的数据块分配情况的磁盘分配表,以及,用于保存存储系统参数信息的磁盘格式信息区。
3.根据权利要求1所述的分布式块存储系统,其特征在于,所述第一类索引表和第二类索引表分别包括若干级索引表,第一级索引表存储基于预设分配块大小分配的索引地址,上一级索引表存储下一级索引表起始地址,最后一级索引表用于存储逻辑块的存储位置。
4.一种分布式块存储管理方法,应用于权利要求1-3任一项所述的分布式块存储系统,其特征在于,包括客户端节点基于第二类索引表进行数据寻址,具体包括,
通过客户端节点请求打开某一虚拟磁盘,则对应某一虚拟磁盘的所有数据存储节点发送第一类索引表至客户端节点;
所述客户端节点基于接收到的所有第一类索引表汇总得到第二类索引表;
客户端节点基于第二类索引表进行虚拟磁盘I/O寻址。
5.根据权利要求4所述的分布式块存储管理方法,其特征在于,还包括,客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而写虚拟磁盘,具体包括:
客户端节点请求写入数据至某一虚拟磁盘,则客户端节点遍历第二类索引表;
若查找第二类索引表的结果有效 ,则确定写入数据第一地址,并发送写请求至数据存储节点,其中,第一地址包括数据存储节点和磁盘编号,以及数据在磁盘中的位置;
所述数据存储节点基于写请求和第一地址进行写入数据。
6.根据权利要求5所述的分布式块存储管理方法,其特征在于,所述客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而写虚拟磁盘,还包括:
若查找第二类索引表的结果无效,则客户端节点基于一致性哈希得到待写入数据的数据存储节点和磁盘编号,并发送写请求至对应的数据存储节点,其中写请求中至少标识了未分配;
所述数据存储节点为待写入数据在数据区分配空间后写入数据,并将第二地址返回至客户端节点,其中,第二地址为数据在磁盘中的位置;
所述客户端节点基于接收的第二地址更新第二类索引表。
7.根据权利要求5或6任一项所述的分布式块存储管理方法,其特征在于,所述客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而写虚拟磁盘,还包括数据存储节点进行写请求校验,具体包括:
所述数据存储节点比较待写入的第一地址对应的虚拟磁盘的名称和写请求中的虚拟磁盘的名称是否一致,
若一致,则数据存储节点进行I/O写入,否则,数据存储节点不进行I/O写入。
8.根据权利要求4所述的分布式块存储管理方法,其特征在于,还包括客户端节点基于第二类索引表进行虚拟磁盘I/O寻址从而读虚拟磁盘,具体包括:
客户端节点查找第二类索引表得到逻辑块对应的第一地址;若查找第二类索引表的结果无效,则逻辑块未曾写入过数据;
若查找第二类索引表的结果有效,则客户端节点则基于第一地址发送读请求,数据存储节点基于第一地址和读请求,将读取的数据返回至客户端节点。
CN202210565854.9A 2022-05-24 2022-05-24 一种分布式块存储系统和管理方法 Active CN114647388B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210565854.9A CN114647388B (zh) 2022-05-24 2022-05-24 一种分布式块存储系统和管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210565854.9A CN114647388B (zh) 2022-05-24 2022-05-24 一种分布式块存储系统和管理方法

Publications (2)

Publication Number Publication Date
CN114647388A CN114647388A (zh) 2022-06-21
CN114647388B true CN114647388B (zh) 2022-08-12

Family

ID=81997098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210565854.9A Active CN114647388B (zh) 2022-05-24 2022-05-24 一种分布式块存储系统和管理方法

Country Status (1)

Country Link
CN (1) CN114647388B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929500A (zh) * 2014-05-06 2014-07-16 刘跃 一种分布式存储系统的数据分片方法
CN109271361A (zh) * 2018-08-13 2019-01-25 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 海量小文件的分布式存储方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086585B1 (en) * 2008-09-30 2011-12-27 Emc Corporation Access control to block storage devices for a shared disk based file system
CN102890714B (zh) * 2012-09-24 2015-04-15 华为技术有限公司 数据索引方法及装置
CN108008913B (zh) * 2016-10-27 2020-12-18 杭州海康威视数字技术股份有限公司 一种基于管理节点的扩容方法、装置及存储系统
CN111142780A (zh) * 2018-11-06 2020-05-12 深圳市茁壮网络股份有限公司 一种大文件存储文件系统以及大文件处理方法
US11126364B2 (en) * 2019-07-18 2021-09-21 Pure Storage, Inc. Virtual storage system architecture
CN114153374B (zh) * 2021-08-04 2022-06-28 北京天德科技有限公司 一种元数据与数据共同存储的分布式存储系统
CN113641467B (zh) * 2021-10-19 2022-02-11 杭州优云科技有限公司 一种虚拟机的分布式块存储实现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103929500A (zh) * 2014-05-06 2014-07-16 刘跃 一种分布式存储系统的数据分片方法
CN109271361A (zh) * 2018-08-13 2019-01-25 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 海量小文件的分布式存储方法和系统

Also Published As

Publication number Publication date
CN114647388A (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
US9891858B1 (en) Deduplication of regions with a storage system
US8051050B2 (en) Block-level data de-duplication using thinly provisioned data storage volumes
US7941632B2 (en) Storage virtualization system with dynamic allocation of physical storage space
US10254964B1 (en) Managing mapping information in a storage system
US20040107314A1 (en) Apparatus and method for file-level striping
US8621134B2 (en) Storage tiering with minimal use of DRAM memory for header overhead
US9355121B1 (en) Segregating data and metadata in a file system
CN107003814A (zh) 存储系统中的有效元数据
CN111324305B (zh) 一种分布式存储系统中数据写入/读取方法
EP3531666B1 (en) Method for managing storage devices in a storage system, and storage system
US11144224B2 (en) Locality-aware, memory-efficient, time-efficient hot data identification using count-min-sketch for flash or streaming applications
CN112860186A (zh) 一种千亿级别的对象存储桶的扩容方法
US11226769B2 (en) Large-scale storage system and data placement method in large-scale storage system
US11366609B2 (en) Technique for encoding deferred reference count increments and decrements
CN111274259A (zh) 一种分布式存储系统中存储节点的数据更新方法
CN114647388B (zh) 一种分布式块存储系统和管理方法
CN111338569A (zh) 一种基于直接映射的对象存储后端优化方法
US10929032B1 (en) Host hinting for smart disk allocation to improve sequential access performance
US11449237B2 (en) Targetless snapshot system replication data pointer table
US10169250B2 (en) Method and apparatus method and apparatus for controlling access to a hash-based disk
US11144445B1 (en) Use of compression domains that are more granular than storage allocation units
US11327664B1 (en) Fast small write forwarding with non-temporal cache memory
US20090327640A1 (en) Method for expanding logical volume storage space
US11803527B2 (en) Techniques for efficient data deduplication
US11561695B1 (en) Using drive compression in uncompressed tier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 310000 room 611-612, Zhuoxin building, No. 3820, South Ring Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Youyun Technology Co.,Ltd.

Country or region after: China

Address before: 310000 room 611-612, Zhuoxin building, No. 3820, South Ring Road, Puyan street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: Hangzhou Youyun Technology Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address