CN107798130B - 一种分布式存储快照的方法 - Google Patents
一种分布式存储快照的方法 Download PDFInfo
- Publication number
- CN107798130B CN107798130B CN201711148727.4A CN201711148727A CN107798130B CN 107798130 B CN107798130 B CN 107798130B CN 201711148727 A CN201711148727 A CN 201711148727A CN 107798130 B CN107798130 B CN 107798130B
- Authority
- CN
- China
- Prior art keywords
- vdi
- snapshot
- virtual disk
- data
- write
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/128—Details of file system snapshots on the file-level, e.g. snapshot creation, administration, deletion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/065—Replication mechanisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0662—Virtualisation aspects
- G06F3/0665—Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种分布式存储快照的方法,面向分布式存储系统,采用独立虚拟视图对象描述原始卷和快照卷,快照卷具有完整的物理副本,解除了快照卷对原始卷的存在性依赖关系。所有虚拟视图对象VDI及其快照共享整个分布式存储资源池,快照卷不再需要独立的预留存储空间,解除快照卷对原始卷的依赖。在写时复制COW和写入重定向ROW快照机制基础上,引入Log日志模式,解决了快照引起原始卷读写性能大幅下降和性能一致性问题,同时突破了快照数量限制的瓶颈。本发明分布式存储系统中的快照效率和可用性显著提高,从而增强了系统可用性。
Description
技术领域
本发明属于快照技术领域,特别涉及一种分布式存储快照的方法。
背景技术
快照(Snapshot)是某个数据集在某一特定时刻的镜像,也称为即时拷贝,它是这个数据集的一个完整可用的副本。存储网络行业协会SNIA对快照的定义是:关于指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点的映像。快照可以是其所表示的数据的一个副本,也可以是数据的一个复制品。
在存储系统层次上,快照通常以逻辑单元为快照实体,以数据块(Block)的粒度进行副本数据复制。在分布式存储中,快照以逻辑卷为快照实体,逻辑单元为粒度进行数据复制。快照生成的是原存储系统的逻辑副本,使用时需要借助原存储系统,虚拟视图技术是其典型代表。生成快照时,只需要产生一系列指向原存储系统的指针,因而创建时间极短;若在使用快照的过程中发生对原存储系统的写操作,将对应数据单元的原有数据存入快照,该数据单元分为快照中的某个时间点数据和当前数据,其他未发生更新的数据在快照和原存储系统中共享。虚拟视图的灵活性及使用存储空间的高效性,使得它成为快照技术的主流。
通常而言,快照都要经过初始化、数据拷贝和终止几个处理阶段,其中数据拷贝是快照的技术核心。当前数据拷贝有主要有两种技术,一种是写时复制(COW,Copy OnWrite)。另一种技术是写入重定向(ROW,Redirect On Write)。
(1)写时复制COW
COW快照需要消耗一些存储空间--建立快照卷。当为一个数据卷创建一个快照之后,这些预留的空间用来存放被变化数据更新的旧数据。COW快照在初始化的过程中仅仅创建用来描述源数据块位置的指针信息(元数据),而不是完整的将源数据块拷贝过来。因此初始化的过程几乎可以在瞬间完成,对系统的影响也很小。
COW快照会跟踪数据卷的写操作和数据块变化。当某个数据块发生改变时,在将旧的数据覆盖之前,首先将该块的旧数据复制到预留的快照卷,该步骤仅在数据卷相应数据块位置发生第一次写操作请求时进行。这个处理过程确保快照出来的数据与发起快照的那个精确时间点保持完全一致。这个过程也描述了“Copy On Write”这个名字的含义。
如果需要访问某个时间点的快照数据,对没有改变过的块直接从数据卷读取;对已经改变并被复制的块则从快照空间读取。从快照被创建那一刻开始,每个快照都会跟踪记录描述块改变的元数据信息。
COW快照的主要优势在于空间的高效利用,因为快照卷只需要保留发生过变化的数据块,与数据卷相比要小得多。但是COW快照有个明显缺点,它会引起数据卷性能的下降,这是因为创建快照之后,对数据卷的写操作会增加一个等待的过程,即旧数据块复制到快照卷的过程。另外一个关键问题是每个快照卷必须依赖一个完整的数据卷。
传统存储快照技术是基于时间点的复制,能够在一个存储单元中建立数据的完全卷拷贝。如果生产系统此时对某一个数据集合进行频繁的修改,在这种情况下产生一个时间点一致拷贝是比较困难的。当进行快照时,快照的源卷将会被冻结几秒钟;当快照拷贝的位图建立之后,源卷才可以继续进行I/O操作。当位图建立后,后台拷贝需要进行一段时间,但是在目标卷上看来,拷贝已经完成了。
(2)写入重定向ROW
快照实现技术中的另一种技术是I/O重定向(I/O Redirect)。即将读写操作重新定向到另一个存储空间中。在一个快照生成期间,所有的写操作将被重定向到另一个介质,而读操作是否需要读重定向,则需要根据读取的位置是否有过自上次快照以来的写重定向,必须对有过写重定向的位置进行读重定向,否则不需要进行读定向。当要创建一个快照时,则将自上次快照以来所有的重定向写数据所对应在源介质中的数据复制出来生成这个时间点的快照,然后再将这些重定向写数据写回到源介质中的相应位置上,从而完成一个快照生成过程。
从ROW快照过程来看,关键的性能影响在于快照生成时的四次I/O操作(一次读源介质,一次写快照数据,一次读快照介质,一次写源介质),另一个则是重定向的计算工作。这种方式虽然看起来最后生成快照时的I/O操作较多,但是考虑到这个操作是在生成快照时才会发生,特别是快照生成时可以对I/O操作进行排序,可以使得对介质的读写得到较好的优化,因此使影响很小。而对于重定向的计算操作对于当下的计算能力来说,不会成为一个性能的瓶颈问题。因此这种快照实现方式在非快照执行期间的影响甚小。因此这种方式比较适合Write-Intensive(写密集)类型的存储系统。
写时复制COW和写入重定向ROW两种快照机制,创建快照时都是仅仅复制了原始数据物理位置的元数据,因此快照创建非常快,可以瞬间完成快照操作。然而,一旦快照创建完成后,则每个快照副本需要跟踪原始卷的数据变化(即原始卷写操作),原始卷数据块发生首次更新则需要复杂的操作并产生副作用。主要有三个不足之处:
(1)严重影响原始卷性能
COW和ROW快照,对原始卷的后续读写会产生较大的额外系统开销,造成性能大幅下降,实际中最大降幅甚至达到50-80%。COW快照对写性能影响大,原始卷数据的首次变化需要复制数据,多一次读写的数据块迁移过程,I/O需要等待时间比较长;但原卷数据的布局没有任何改变,对读性能没有影响。ROW快照对读性能影响大,多次读写后,原始卷的数据变得非常分散,对于连续读写性能下降很大,尤其是机械式硬盘存储系统;ROW快照对原始卷的写性能基本没有损耗,只是修改数据块映射指针,实现效率很高。
(2)快照无法独立于原始卷
目前主要的COW/ROW快照实现方式,需要预留存储空间(通常是30%),并创建快照卷用于存储写操作时引起的变化数据。快照卷仅存储了原始卷更新的数据,无法得到完整的物理副本。如果需要完整物理副本,则必须依赖原始卷的数据,快照卷也无法独立于原始卷存在。
(3)快照数量存在限制
传统存储或者分布式存储通常都会对快照数量进行限制,主要是出于两方面的原因。一是性能影响,快照数量越多,COW/ROW处理开销越大,导致原始卷性能降低到无法正常应用的状态。比如,限制单卷快照数量不要超过128。二是存储容量,快照卷需要预留一定比例的存储空间,对于频繁读写的原始卷,如果快照数量太多,更新数据量必然很大,从而可能导致预留存储空间不足引起快照失效。
发明内容
本发明要解决的技术问题是提供一种快照前后原始卷性能一致性好、提高快照读写性、能解除快照卷对原始卷的存在性依赖关系、不需要专门为快照预留存储空间、不限制快照数量的分布式存储快照的方法及其系统。
本发明以如下技术方案解决上述技术问题:
一种分布式存储快照的方法,采用分布式对象存储系统HiperSAN分层存储,所述对象包括数据对象和虚拟磁盘VDI对象,每个对象有一个64bit的全局唯一标识符,HiperSAN分层存储对外提供服务的是虚拟磁盘VDI,每个虚拟磁盘VDI对应一个VDI对象使得该虚拟磁盘VDI的逻辑空间和实际存储的物理空间一一对应起来;所述虚拟磁盘VDI和及其快照采用相同的虚拟视图对象,共享存储资源池;创建快照时采用写入重定向ROW方法,将当前工作虚拟磁盘VDI保存为快照,创建一个新的VDI虚拟视图对象并复制原虚拟磁盘VDI的虚拟视图信息,新的虚拟磁盘VDI成为了当前工作VDI;创造快照后的原始虚拟磁盘VDI的写操作,则采用COW写时复制方法。
所述创建快照的具体步骤为:
(1)更新当前工作虚拟磁盘VDI为快照
a)读取当前工作VDI的虚拟视图对象,修改快照创建时间;
b)为虚拟磁盘VDI每个数据对象的引用计数加1;
c)将虚拟磁盘VDI虚拟视图对象进行持久化存储;
(2)新建虚拟磁盘VDI作为当前工作VDI
a)新建一个虚拟磁盘VDI虚拟视图对象,复制原虚拟磁盘VDI的虚拟视图信息;
b)设置新建虚拟磁盘VDI中的快照标识ID为原始VDI的快照标识ID加1,成为工作虚拟磁盘VDI;
c)将新建虚拟磁盘VDI的引用计数加1;
d)将新建虚拟磁盘VDI虚拟视图对象进行持久化存储。
所述COW写时复制方法中采用Log日志,
(1)基于对象级别的Log日志,按时间顺序记录COW对象复制到当前虚拟磁盘VDI之前的所有的写操作;
(2)请求写入日志成功,则返回;存储单元定期合并这些请求,然后再与COW对象合并,生成更新过的当前虚拟磁盘VDI中的对象;
(3)以COW标志作为对象是否触发Log读写流程的判断依据;
(4)读取数据时需要进行判断,未更新的数据直接从COW对象读取,更新过的读Log日志;
(5)Log日志文件与数据对象,通过hash分布在与对象相同的存储单元上,对象与相应Log文件具有相同的hash值,副本数也相同;
(6)Merge操作优先一切对象操作。
所述Log日志的写入流程如下:
(1)判断请求有无COW标识,有则进入Log写入流程;
(2)Log写入流程直接在存储单元处理,读写请求正常分发;
(3)存储单元查找数据对象和Log日志文件,没有则创建并初始化对应Log日志文件;
(4)若存在Log日志文件,判断是否存在Merge线程,不存在则以追加形式将写请求添加到Log日志文件,更新偏移量offset范围,增加写入总次数,累加Log日志文件总长度,生成Log日志文件的校验值;
(5)若存在Merge线程,将请求添加到Master的Merge线程队列中,直接合并成功后,更新虚拟磁盘VDI虚拟视图中的索引,添加对象到对象列表缓存中,删除Log文件。
所述Log日志的Log读取流程如下:
(1)判断请求有无COW标识,进入Log读取流程;
(2)存储单元收到请求后,查询是否存在Log日志文件,不存在则对COW对象直接读取,然后返回;
(3)若存在Log日志文件,判断读取范围是否在Log日志范围内;
(4)若不在Log日志范围内,直接读取COW对象,然后返回;
(5)若在Log日志范围内,判断Merge操作是否正在执行,若是则将请求加入Merge线程队列,读取合并后的数据;
(6)若没有执行Merge,则触发Merge操作生成对象,成功后执行读取操作。
所述Log日志的合并流程如下:
(1)同一个对象的Merge操作可能有多个,选出Master执行Merge操作;
(2)Merge线程连接zookeeper,提交对象id和Log文件长度,Log文件最大的为标准对象大小,时间最早的选为Master;
(3)Master上Merge线程处理Log日志文件中记录的写入请求和随后到来的读写请求;
(4)将Log日志文件头部读出,根据Log日志头部中的cow_vid和idx读取COW对象数据到缓存;
(5)按照Log文件记录的总次数,逐次读取写请求,按照偏移量和长度将数据合并到COW对象缓存中,然后将队列中请求按顺序处理,直接读取缓存,然后返回,写合并到缓存;
(6)完成后,生成校验值,将新数据写入对象;
(7)通知zookeeper其他节点,操作成功,注销Log缓存,删除Log日志文件本发明的优点:
(1)综合了COW和ROW快照机制的优势,创建快照采用ROW机制,写时采用COW机制,并采用Log日志机制消除快照引起的原始卷读写性能大幅下降和快照前后原始卷性能一致性问题。Log日志对I/O请求进行合并,快照后的读写性能还能高于快照前的读写性能。
(2)采用独立的虚拟视图对象统一表示原始卷和快照卷,快照卷具有完整的物理副本,解除了快照卷对原始卷的存在性依赖关系。
(3)原始卷和快照卷共享整个分布式存储资源池,不需要专门为快照预留存储空间,因此,只要分布式存储资源池足够,创建的快照数量就不受限制,突破了快照数量限制的瓶颈。
附图说明
图1是本发明HiperSAN分布式存储中虚拟磁盘与数据对象的映射关系图。
图2是本发明方法Log日志的写入流程图。
图3是本发明方法Log日志的读取流程图。
图4是本发明方法Log日志的合并流程图。
具体实施方式
以下结合附图对本发明的具体实施方式作详细说明,但不构成对本发明权利要求保护范围的限制。
一种分布式存储快照的方法,采用分布式对象存储系统HiperSAN分层存储,HiperSAN分层存储是分布式块存储系统,利用多个X86服务器的计算和存储能力,结合高性能、低延迟网络,构建分布式的存储系统,并能与云计算、虚拟化等应用系统实现超融合部署。HiperSAN提供多种企业级数据服务功能,例如QoS、自动精简配置和快照,可实现大规模、高可靠、高性能、超融合的存储应用,非常适合对可扩展性和存储性能要求不断提升的应用场景,如数据库、虚拟化、云计算等。其中,快照是核心数据服务功能之一。
HiperSAN分层存储核心是分布式对象存储,所有的数据包括元数据,均以对象方式组织并存储在底层存储设备上,其中又以64bit的ObjectID作为对象的全局唯一标识符。HiperSAN对外提供服务的虚拟磁盘VDI(Virtural Disk Image,或LUN),是基于对象的卷级(Volume)抽象,由一组特定对象所组成的集合。HiperSAN是无中心的集群存储架构,采用一致性哈希DHT和虚拟节点确定对象存储位置。
HiperSAN分层存储的对象存储中,每个数据对象存储固定大小的数据,具有唯一的标识符64bit的ObjectID,客户端不用关心对象存储位置。对于一个虚拟磁盘VDI,整个逻辑存储空间缺省被切分为多个4MB固定大小的数据对象,一个虚拟磁盘VDI最大可以具有2^20个对象,因此一个虚拟磁盘VDI最大可达4TB。通过调整对象大小,单个虚拟磁盘VDI可以突破4TB限制,达到512TB甚至更大。每个虚拟磁盘VDI对应一个VDI对象VDI Object,其中包含对象分配表和映射关系,如图1所示,这样虚拟磁盘VDI逻辑空间就和对象的物理空间一一对应起来。
描述虚拟磁盘VDI的元数据,即为虚拟视图对象。HiperSAN分层存储中对原始虚拟磁盘VDI和快照采用相同的虚拟视图对象,区别在于快照是只读视图,对应的对象不允许修改。对于一个虚拟磁盘VDI,可以创建快照,每一个快照对应一个虚拟视图对象,快照是一个完整的虚拟磁盘VDI,能够访问整个虚拟磁盘数据集合,摆脱了对原始虚拟磁盘VDI的依赖束缚。所有虚拟磁盘VDI及其快照共享整个分布式存储资源池,不需要为快照预先保留存储空间,因此只要存储空间足够,创建的快照数量不受限制。简单地讲,虚拟磁盘VDI快照创建过程实际就是对虚拟视图对象的复制克隆,类似COW快照机制,由于这个对象很小,快照可以瞬间完成。
HiperSAN创建快照时,只是简单地将原始VDI冻结,不再允许修改,并创建新的虚拟磁盘VDI,并将视图索引指向快照中的虚拟视图对象,因为此时新VDI没有经过修改,数据与快照相同。虚拟视图对每一个数据对象进行索引,通过vid和index计算数据对象名字,当指向数据对象的vid与当前虚拟视图不同时,说明当前虚拟视图的index指向其他虚拟视图的对象文件,属于引用,此时如果需要修改该对象中数据,需要在引用的数据基础上创建自己的对象文件。
本发明的快照方法,综合了COW和ROW快照机制的优势。创建时,它创建了一个新的VDI虚拟视图对象,新的VDI成为了当前工作VDI,而老的VDI成为了快照VDI,此后I/O读写都工作在新的VDI上面。这个过程和ROW快照相似,新建的快照卷用于存储变化的新数据。但创造快照后的原始VDI写操作,则采用COW写时复制机制,并采用Log日志机制优化性能下降问题。快照创建过程分为两个部分:
(1)更新当前工作虚拟磁盘VDI为快照
a)读取当前工作VDI的虚拟视图对象,修改快照创建时间;
b)为虚拟磁盘VDI每个数据对象的引用计数加1;
c)将虚拟磁盘VDI虚拟视图对象进行持久化存储;
(2)新建虚拟磁盘VDI作为当前工作VDI
a)新建一个虚拟磁盘VDI虚拟视图对象,复制原虚拟磁盘VDI的虚拟视图信息;
b)设置新建虚拟磁盘VDI中的快照标识ID为原始VDI的快照标识ID加1,成为工作虚拟磁盘VDI;
c)将新建虚拟磁盘VDI的引用计数加1;
d)将新建虚拟磁盘VDI虚拟视图对象进行持久化存储。
快照的创建是将当前工作VDI保存为快照,在VDI虚拟视图对象基础上创建新的VDI虚拟视图对象作为工作VDI。因为两者拥有相同的数据对象,新建工作VDI只需复制快照VDI中的数据索引,指向快照数据对象,通过COW机制,修改数据对象时,使用快照的对象数据创建自己的数据对象,然后修改工作VDI的数据索引。
HiperSAN以4M大小作为数据对象的默认大小,读写请求在4M范围内,以偏移量和长度执行I/O读写。虚拟磁盘VDI支持自动精简配置,第一次执行写请求时,创建相应数据对象,此过程伴随着对象初始化,用零和待写入数据填充4M空间。除非写入4M数据,初始化过程必然存在写放大问题,写入的块越小,写放大越严重,性能越低。对数据卷做快照后,当前卷相当于自动精简配置的新卷,因为COW机制的存在,需要初始化对象并执行读取4M然后写入4M的操作,需要的时间是原来VDI对象写入的2倍以上。对此,引入Log日志机制优化COW带来的写性能损耗和写放大问题。
(1)基于对象级别的Log日志,按时间顺序记录COW对象复制到当前VDI之前的所有的写操作;
(2)请求写入日志成功,则返回。存储单元定期合并这些请求,然后再与COW对象合并,生成更新过的当前VDI中的对象;
(3)以COW标志作为对象是否触发Log读写流程的判断依据;
(4)读取数据时需要进行判断,未更新的数据直接从COW对象读取,更新过的数据从Log日志读取;
(5)Log日志文件与数据对象,通过hash分布在与对象相同的存储单元上,对象与相应Log日志文件具有相同的hash值,副本数也相同;
(6)日志文件Merge操作优先一切对象操作(创建,加载,修复,冻结等)。
在COW机制基础上引入Log日志机制,虚拟磁盘VDI的读写流程发生根本的变化,对象数据写操作先写入Log即返回,然后在后台在合适的时机以异步方式进行合并成正常的对象。Log机制消除了COW带来的写性能损耗,保证了原始卷在有无快照的情况下的性能一致性。同时Log机制还能将随机写转化为顺序写,从而大幅提升随机写性能。Log写入、读取和合并详细工作流程如下:
Log写入流程:
(1)判断有无COW标识,进入Log流程;
(2)Log流程直接在存储单元处理,读写请求正常分发;
(3)存储单元查找对象和Log文件,没有则创建并初始化对应Log;
(4)若存在Log文件,判断是否存在Merge线程,不存在则以追加形式将写请求添加到Log文件,更新偏移量offset范围,增加写入总次数,累加Log文件总长度,生成Log文件的校验值;
(5)若存在Merge线程,将请求添加到Master的Merge线程队列中,直接合并,成功后,更新VDI虚拟视图中的索引,添加对象到对象列表缓存中,删除Log文件。
Log读取流程:
(1)判断有无COW标识,进入Log流程;
(2)存储单元收到请求后,查询是否存在Log文件,不存在则对COW对象直接读取,然后返回;
(3)若存在Log文件,判断读取范围是否在Log范围内;
(4)若不在Log范围内,直接读取COW对象,然后返回;
(5)若在Log范围内,判断Merge操作是否正在执行,若是则将请求加入队列,读取合并后的数据;
(6)若没有执行Merge,则触发Merge操作生成对象,成功后执行读取操作。
Log合并流程:
(1)同一个对象的Merge操作可能有多个,选出Master执行Merge操作;
(2)Merge线程连接zookeeper,提交对象id和Log文件长度,Log文件最大的为标准对象大小(典型的为4MB),时间最早的选为Master;
(3)Master上Merge线程处理Log文件中记录的写入请求和随后到来的读写请求;
(4)将Log文件头部读出(Log文件可能很大),根据Log头部中的cow_vid和idx读取COW对象数据到缓存;
(5)按照Log文件记录的总次数,逐次读取写请求,按照偏移量和长度将数据合并到COW对象缓存中,然后将队列中请求按顺序处理,直接读取缓存,然后返回,写合并到缓存;
(6)完成后,生成校验值,将新数据写入对象;
(7)通知zookeeper其他节点,操作成功,注销Log缓存,删除Log文件。
快照具有很广泛的应用,例如作为数据备份源、作为数据分析的源、作为测试环境,或者数据复制的一种手段等。快照不能对生产环境产生较大的影响,尤其是性能的一致性。本发明方法通过独立的虚拟视图对象、共享存储资源池、COW/ROW机制优化、引入Log日志机制等方法,有效解决了分布式存储系统中快照导致原始卷性能大幅下降、快照卷独立性和快照数量限制等一系列相关问题,有效拓宽了数据应用负载的适用范围,尤其是快照使用较多的应用场景,比如数据库、虚拟化、备份容灾等。
本发明的方法,关键在于:
(1)采用虚拟视图对象统一表示原始卷和快照卷,共享存储资源池。
原始卷和快照卷采用相同的虚拟视图对象,区别在于快照是只读视图,每一个虚拟视图对象均表示一个完整的VDI,能够访问整个虚拟磁盘数据集合,摆脱了对原始VDI的依赖束缚。所有VDI及其快照共享整个分布式存储资源池,不需要为快照预先保留存储空间,因此只要存储空间足够,创建的快照数量不受限制。VDI快照创建过程实际就是对虚拟视图对象的复制克隆,类似COW快照机制,由于这个对象很小,快照可以瞬间完成。
(2)综合COW和ROW快照机制的优势,创建快照采用ROW机制,写时采用COW机制。
本发明方法综合了COW和ROW快照机制的优势。创建快照时采用ROW机制,它创建了一个新的VDI虚拟视图对象(表示一个完整的VDI),新的VDI成为了当前工作VDI,而老的VDI成为了快照VDI,此后I/O读写都工作在新的VDI上面,新建的快照卷用于存储变化的新数据。后面的原始VDI写操作,则采用COW写时复制机制,并采用Log日志机制优化性能下降问题。
(3)引入Log日志机制消除快照引起的原始卷性能大幅下降。
在COW机制基础上引入Log日志机制,虚拟磁盘VDI的读写流程发生根本的变化,对象数据写操作先写入Log即返回,然后在后台在合适的时机以异步方式进行合并成正常的对象。Log机制消除了COW带来的写性能损耗,保证了原始卷在有无快照的情况下的性能一致性。同时Log机制还能将随机写转化为顺序写,从而大幅提升随机写性能。
Claims (6)
1.一种分布式存储快照的方法,其特征在于:采用分布式对象存储系统HiperSAN分层存储,所述对象包括数据对象和虚拟磁盘VDI对象,每个对象有一个64bit的全局唯一标识符,HiperSAN分层存储对外提供服务的是虚拟磁盘VDI,每个虚拟磁盘VDI对应一个VDI对象使得该虚拟磁盘VDI的逻辑空间和实际存储的物理空间一一对应起来;所述虚拟磁盘VDI及其快照采用相同的虚拟视图对象,共享存储资源池;创建快照时采用写入重定向ROW方法,将当前工作虚拟磁盘VDI保存为快照,创建一个新的VDI虚拟视图对象并复制原虚拟磁盘VDI的虚拟视图信息,新的虚拟磁盘VDI成为了当前工作VDI;创造快照后的原始虚拟磁盘VDI的写操作,则采用COW写时复制方法。
2.如权利要求1所述的一种分布式存储快照的方法,其特征在于:所述创建快照的具体步骤为:(1)更新当前工作虚拟磁盘VDI为快照
a)读取当前工作VDI的虚拟视图对象,修改快照创建时间;
b)为虚拟磁盘VDI每个数据对象的引用计数加1;
c)将虚拟磁盘VDI虚拟视图对象进行持久化存储;
(2)新建虚拟磁盘VDI作为当前工作VDI
a)新建一个虚拟磁盘VDI虚拟视图对象,复制原虚拟磁盘VDI的虚拟视图信息;
b)设置新建虚拟磁盘VDI中的快照标识ID为原始VDI的快照标识ID加1,成为工作虚拟磁盘VDI;
c)将新建虚拟磁盘VDI的引用计数加1;
d)将新建虚拟磁盘VDI虚拟视图对象进行持久化存储。
3.如权利要求1所述的一种分布式存储快照的方法,其特征在于:所述COW写时复制方法中采用Log日志,(1)基于对象级别的Log日志,按时间顺序记录COW对象复制到当前虚拟磁盘VDI之前的所有的写操作;
(2)请求写入日志成功,则返回;存储单元定期合并这些请求,然后再与COW对象合并,生成更新过的当前虚拟磁盘VDI中的对象;
(3)以COW标志作为对象是否触发Log读写流程的判断依据;
(4)读取数据时需要进行判断,未更新的数据直接从COW对象读取,更新过的读Log日志;
(5)Log日志文件与数据对象,通过hash分布在与对象相同的存储单元上,对象与相应Log文件具有相同的hash值,副本数也相同;
(6)Merge操作优先一切对象操作。
4.如权利要求3所述的一种分布式存储快照的方法,其特征在于:所述Log日志的写入流程如下:
(1)判断请求有无COW标识,有则进入Log写入流程;
(2)Log写入流程直接在存储单元处理,读写请求正常分发;
(3)存储单元查找数据对象和Log日志文件,没有则创建并初始化对应Log日志文件;
(4)若存在Log日志文件,判断是否存在Merge线程,不存在则以追加形式将写请求添加到Log日志文件,更新偏移量offset范围,增加写入总次数,累加Log日志文件总长度,生成Log日志文件的校验值;
(5)若存在Merge线程,将请求添加到Master的Merge线程队列中,直接合并成功后,更新虚拟磁盘VDI虚拟视图中的索引,添加对象到对象列表缓存中,删除Log文件。
5.如权利要求3所述的一种分布式存储快照的方法,其特征在于:所述Log日志的Log读取流程如下:
(1)判断请求有无COW标识,进入Log读取流程;
(2)存储单元收到请求后,查询是否存在Log日志文件,不存在则对COW对象直接读取,然后返回;
(3)若存在Log日志文件,判断读取范围是否在Log日志范围内;
(4)若不在Log日志范围内,直接读取COW对象,然后返回;
(5)若在Log日志范围内,判断Merge操作是否正在执行,若是则将请求加入Merge线程队列,读取合并后的数据;
(6)若没有执行Merge,则触发Merge操作生成对象,成功后执行读取操作。
6.如权利要求3所述的一种分布式存储快照的方法,其特征在于:所述Log日志的合并流程如下:(1)同一个对象的Merge操作可能有多个,选出Master执行Merge操作;
(2)Merge线程连接zookeeper,提交对象id和Log文件长度,Log文件最大的为标准对象大小,时间最早的选为Master;
(3)Master上Merge线程处理Log日志文件中记录的写入请求和随后到来的读写请求;
(4)将Log日志文件头部读出,根据Log日志头部中的cow_vid和idx读取COW对象数据到缓存;
(5)按照Log文件记录的总次数,逐次读取写请求,按照偏移量和长度将数据合并到COW对象缓存中,然后将队列中请求按顺序处理,直接读取缓存,然后返回,写合并到缓存;
(6)完成后,生成校验值,将新数据写入对象;
(7)通知zookeeper其他节点,操作成功,注销Log缓存,删除Log日志文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711148727.4A CN107798130B (zh) | 2017-11-17 | 2017-11-17 | 一种分布式存储快照的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711148727.4A CN107798130B (zh) | 2017-11-17 | 2017-11-17 | 一种分布式存储快照的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107798130A CN107798130A (zh) | 2018-03-13 |
CN107798130B true CN107798130B (zh) | 2020-08-07 |
Family
ID=61536141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711148727.4A Active CN107798130B (zh) | 2017-11-17 | 2017-11-17 | 一种分布式存储快照的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798130B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573049B (zh) * | 2018-04-20 | 2022-03-25 | 联想(北京)有限公司 | 数据处理方法和分布式存储装置 |
CN109814946B (zh) * | 2018-12-29 | 2022-03-25 | 深圳创新科技术有限公司 | 一种在XenServer中实现分布式存储的方法和装置 |
CN110209351B (zh) * | 2019-05-10 | 2021-02-19 | 星辰天合(北京)数据科技有限公司 | 分布式存储数据处理方法和装置 |
CN110227265B (zh) * | 2019-06-18 | 2020-06-26 | 贵阳动视云科技有限公司 | 一种计算机图形资源共享方法及装置 |
CN110781133B (zh) * | 2019-10-25 | 2023-03-21 | 深信服科技股份有限公司 | 一种row快照方法、系统、设备及计算机可读存储介质 |
CN110795389B (zh) * | 2019-10-28 | 2022-09-30 | 深信服科技股份有限公司 | 基于存储快照的拷贝方法、用户设备、存储介质及装置 |
CN110968645B (zh) * | 2019-12-03 | 2023-05-12 | 携程旅游网络技术(上海)有限公司 | 分布式系统的数据读写方法、系统、设备和存储介质 |
CN111399774B (zh) * | 2020-03-09 | 2021-09-14 | 星辰天合(北京)数据科技有限公司 | 分布式存储系统下基于快照的数据处理方法和装置 |
CN111552437B (zh) * | 2020-04-22 | 2024-03-15 | 上海天玑科技股份有限公司 | 一种应用于分布式存储系统的快照方法及快照装置 |
CN111722800A (zh) * | 2020-05-29 | 2020-09-29 | 浪潮电子信息产业股份有限公司 | 一种分布式存储系统row快照实现方法及相关组件 |
CN112000431B (zh) * | 2020-08-11 | 2022-11-29 | 苏州浪潮智能科技有限公司 | 一种分布式存储系统的对象存储和读写方法和装置 |
CN113138722B (zh) * | 2021-04-30 | 2024-01-12 | 北京百度网讯科技有限公司 | 用于分布式块存储系统的复制快照方法、系统和介质 |
CN114116312B (zh) * | 2021-11-25 | 2022-08-09 | 北京大道云行科技有限公司 | 基于分布式块存储的row快照设计方法及系统 |
CN114880277B (zh) * | 2022-04-07 | 2023-06-09 | 中科驭数(北京)科技有限公司 | 块设备快照方法、系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102239480A (zh) * | 2008-12-17 | 2011-11-09 | Lsi公司 | Ssd技术协助的存储系统快照 |
CN102722449A (zh) * | 2012-05-24 | 2012-10-10 | 中国科学院计算技术研究所 | 基于SSD的Key-Value型本地存储方法及系统 |
WO2014010011A1 (ja) * | 2012-07-09 | 2014-01-16 | 富士通株式会社 | プログラム、データ管理方法、および情報処理装置 |
CN105446826A (zh) * | 2014-06-30 | 2016-03-30 | 国际商业机器公司 | 虚拟机备份、恢复的方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9116737B2 (en) * | 2013-04-30 | 2015-08-25 | Vmware, Inc. | Conversion of virtual disk snapshots between redo and copy-on-write technologies |
-
2017
- 2017-11-17 CN CN201711148727.4A patent/CN107798130B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102239480A (zh) * | 2008-12-17 | 2011-11-09 | Lsi公司 | Ssd技术协助的存储系统快照 |
CN102722449A (zh) * | 2012-05-24 | 2012-10-10 | 中国科学院计算技术研究所 | 基于SSD的Key-Value型本地存储方法及系统 |
WO2014010011A1 (ja) * | 2012-07-09 | 2014-01-16 | 富士通株式会社 | プログラム、データ管理方法、および情報処理装置 |
CN105446826A (zh) * | 2014-06-30 | 2016-03-30 | 国际商业机器公司 | 虚拟机备份、恢复的方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107798130A (zh) | 2018-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107798130B (zh) | 一种分布式存储快照的方法 | |
US10152381B1 (en) | Using storage defragmentation function to facilitate system checkpoint | |
KR101827239B1 (ko) | 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피 | |
KR101833114B1 (ko) | 분산 데이터베이스 시스템들을 위한 고속 장애 복구 | |
US8880787B1 (en) | Extent metadata update logging and checkpointing | |
CN103502926B (zh) | 基于扩展区的存储架构 | |
US10831613B2 (en) | Replicating a source data set to a target data store | |
US9959074B1 (en) | Asynchronous in-memory data backup system | |
US10872017B2 (en) | Restoring a file system object | |
US20060047926A1 (en) | Managing multiple snapshot copies of data | |
JP2006505069A (ja) | ハードウェアベースのファイルシステムのための装置および方法 | |
CN109313538A (zh) | 内联去重 | |
EP2979187B1 (en) | Data flush of group table | |
US10585613B2 (en) | Small storage volume management | |
CN114281762B (zh) | 一种日志存储加速方法、装置、设备及介质 | |
CN115427941A (zh) | 数据管理系统和控制的方法 | |
US20200183596A1 (en) | Restorable memory allocator | |
US11875060B2 (en) | Replication techniques using a replication log | |
US10885061B2 (en) | Bandwidth management in a data storage system | |
US11620062B1 (en) | Resource allocation techniques using a metadata log | |
US9063656B2 (en) | System and methods for digest-based storage | |
JP6770244B2 (ja) | ストレージシステム | |
KR102005727B1 (ko) | 파일 시스템의 변경 연산 가로채기 기법을 기반으로 한 다중 스냅샷 방법 | |
US20230409530A1 (en) | Grouping data to conserve storage capacity | |
US10235098B1 (en) | Writable clones with minimal overhead |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211220 Address after: 530000 floor 1, block a, new media center, No. 691, Wuxiang Avenue, China (Guangxi) pilot Free Trade Zone, Nanning, Guangxi Zhuang Autonomous Region Patentee after: GUANGXI RADIO & TV NETWORK Corp. Patentee after: Zhuzhou Dayan Software Technology Co., Ltd Address before: 530028 No. 8, Jinghui lane, Yunjing Road, Qingxiu District, Nanning City, Guangxi Zhuang Autonomous Region Patentee before: GUANGXI RADIO & TV NETWORK Corp. |