CN113721849A - 一种基于分布式存储的数据复制卸载方法及终端设备 - Google Patents

一种基于分布式存储的数据复制卸载方法及终端设备 Download PDF

Info

Publication number
CN113721849A
CN113721849A CN202110968861.9A CN202110968861A CN113721849A CN 113721849 A CN113721849 A CN 113721849A CN 202110968861 A CN202110968861 A CN 202110968861A CN 113721849 A CN113721849 A CN 113721849A
Authority
CN
China
Prior art keywords
data
volume
source
main storage
gateway
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110968861.9A
Other languages
English (en)
Other versions
CN113721849B (zh
Inventor
文刘飞
刘亮奇
陈坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sandstone Data Technology Co ltd
Original Assignee
Shenzhen Sandstone Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sandstone Data Technology Co ltd filed Critical Shenzhen Sandstone Data Technology Co ltd
Priority to CN202110968861.9A priority Critical patent/CN113721849B/zh
Publication of CN113721849A publication Critical patent/CN113721849A/zh
Application granted granted Critical
Publication of CN113721849B publication Critical patent/CN113721849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/065Replication mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0662Virtualisation aspects
    • G06F3/0665Virtualisation aspects at area level, e.g. provisioning of virtual or logical volumes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于分布式存储的数据复制卸载方法及终端设备,该方法包括:存储网关收到数据复制指令,获取指令对应源、目的卷元数据信息,解析出相应对象信息和对象主存储节点信息,把数据复制信息发给源对象主存储节点;源对象主存储节点从本地磁盘读取复制数据,封装成写请求发给目的对象主存储节点;目的对象主存储节点完成写入操作,回复响应给源对象主存储节点;源对象主存储节点收到响应后给存储网关回复完成响应;存储网关完成所有数据复制后给客户端回复完成响应。本发明把数据复制操作从客户端和网关侧下移到分布式存储集群,能减少客户端和网关侧带宽压力,提高数据复制并发度和性能;减少虚拟化软件管理程序资源消耗和复制时延。

Description

一种基于分布式存储的数据复制卸载方法及终端设备
技术领域
本发明涉及分布式存储领域,特别是涉及一种基于分布式存储的数据复制卸载方法、终端设备及计算机可读存储介质。
背景技术
分布式存储系统(Ceph)将上层业务数据切割成一个个独立的对象,保存在一个由若干服务器组成的集群中;分布式存储系统同时支持对象存储、块存储和文件系统。其中主要组件有:(1)RBD:RADOS Block Device,对外提供的块设备服务(类似于提供一块硬盘,即卷);RBD会按固定大小(默认4MB)将卷进行切块,并根据块偏移、卷名等元数据对块进行命名,即对象(每一小块就是一个对象),存储到分布式集群中,实现从卷操作到对象操作的转换。(2)RADOS:Reliable Autonomic Distributed Object Store,可靠自主的分布式对象存储,是集群的统一抽象层,所有接口的数据经过这层处理后就以对象的形式存储在集群中。(3)OSD:Object Storage Device,对象存储设备,负责处理客户端读写请求的守护进程/程序,一个OSD进程通常管理一块磁盘。(4)librados:提供上层访问可靠自主的分布式对象存储集群的各种库函数接口,封装了与可靠自主的分布式对象存储层交互的接口。
分布式存储系统的读写流程概述如下,以写流程为例,假设为保证数据安全和一致性,采用传统的三副本策略对数据进行保护:参考图1。(1)用户直接读写存储网关映射出来的卷,读写请求中包含操作的偏移和长度;(2)存储网关RBD层根据RBD元数据,结合对卷写请求的偏移和长度,解析出相应对象信息;(3)Librados将相应对象操作封装为RADOS的对象操作请求;(4)根据对象名称和RADOS寻址算法找得到保存对象数据的三个OSD;(5)将对象的写请求发送给主OSD进行处理,主OSD进行数据封装后再发送给从OSD;(6)主OSD根据对象名称和OSD元数据找到对象在硬盘上的位置,并将对象数据写入硬盘;(7)根据RADOS的副本策略和RADOS的寻址算法,主OSD2将副本分别发送给从OSD1和OSD3;(8)从OSD将数据写入本地磁盘后,给主OSD回复响应;(9)当所有OSD写处理完成时,依次逆序回复完成确认消息给上级。
主要根据功能,将Ceph RBD分层架构(layering)划分为librbd(Ceph块设备接口库)、cache(缓存层)、objecter(对象接口层)和librados(RADOS接口库)四个层次。参考图2,librbd对上层用户封装符合Linux块设备标准的卷接口,供用户操作,快照和克隆卷也是在librbd抽象的;cache层主要是为了提高读写性能,负责数据缓存;objecter负责将数据操作封装成符合分布式存储Ceph集群的对象操作;librados负责真正与分布式存储集群进行业务交互。基于RBD的分层架构,RBD创建克隆卷时,采用写时复制机制(COW,copy onwrite);以实现快速创建卷。限制条件是只能基于快照创建克隆卷,形成快照和克隆卷的父子关系,共享相同的对象数据。
指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的镜像,只能读取。参考图3,快照(snapshot)可以是其所表示的数据的一个副本,也可以是数据的一个复制品。
在RBD层基于快照和写时复制技术克隆出一个可读写的卷,称为克隆卷。参考图4,此时克隆卷与父快照只是增加了映射关系的元数据(共用数据)。(一)flatten操作(拍扁操作),基于快照的克隆卷保留着对父快照的映射关系。当需要解除这种父快照与子克隆卷的映射关系,及将克隆卷修改成非克隆卷,就需要使用flatten操作;flatten操作是将父快照的信息拷贝一份保存到克隆卷,所以flatten操作会增加与父快照相同的空间使用量;当要删除的快照有克隆卷时,必须先进行flatten操作来解除克隆卷和父快照之间的映射关系。(二)克隆卷初次写,基于rbd的layering机制,由于快照是只读的,客户端要修改快照时,必须基于快照复制出克隆卷,对克隆卷进行写操作;克隆卷第一次写时,根据COW原理,需要先从快照parent中读出操作区域的原始数据,与客户端修改的数据进行合并,最终将合并数据写入克隆卷,如下图5所示;(1)客户端第一次写克隆卷,将要修改的数据的偏移及长度发送给存储网关;(2)存储网关RBD检测克隆卷对应区域的对象是否存在的;(3)分布式存储集群返回对象不存在的错误码给RBD;(4)rbd根据克隆关系中找到父快照;(5)RBD向父快照发起对目标域对象读请求;(6)分布式存储集群返回父快照对应区域的数据给RBD;(7)RBD将父快照数据与用户数据合并;(8)RBD将合并后的数据向分布式存储集群写入数据;(9)分布式存储集群返回写完成确认;(10)RBD向客户端返回写完成确认。(三)未flatten克隆卷读(克隆卷本身无相应数据),(1)客户端将要读取的数据的偏移及长度发送给存储网关;(2)存储网关RBD检测克隆卷对应区域的对象是否存在的;(3)分布式存储集群返回对象不存在的错误码给RBD;(4)RBD根据克隆关系中找到父快照;(5)RBD向父快照发起对目标域对象读请求;(6)分布式存储集群返回父快照对应区域的数据给RBD;(7)存储网关RBD将父快照数据返回给客户端。
VMware XCOPY原理(虚拟化软件VMware的数据复制(xcopy)原理),传统存储的数据复制(复制)是客户资源管理器将数据从源卷中读取出来,再写如到目标卷中,即首先通过源服务器从存储读取,然后跨网络传输到目标服务器,最后通过目标服务器写回存储。由于受制于这样的数据操作机制,当超过一定数量的虚拟机同时进行诸如迁移、克隆、备份、zeroing等操作的时候,往往会导致出现网络带宽资源消耗严重、CPU和内存资源被大量占用的问题。针对上述虚拟机迁移及克隆问题,VMware推出了VAAI(Vstorage APIs forArray Integration也被称为硬件加速或硬件减负API),VAAI的目的是将传统虚拟机文件搬移过程(从主机侧)卸载到共享存储阵列(通过减少冗余的IO路径,使得据移动将消耗更少的CPU资源,更少的storage fabric带宽),这样不仅可以大大减轻主机侧CPU和内存的压力,同时还极大的降低了对网络资源的要求。数据复制是VAAI基本类型之一,用于将复制任务卸载到存储。例如,可以使用数据复制将诸如虚拟机迁移、克隆等操作卸载到存储阵列或分布式存储集群,从而减少使用vSphere管理客户端资源来执行这些任务。参考图6(1)客户端给存储网关下发数据复制数据复制命令,包含了待迁移数据(源卷数据的偏移和长度)和数据迁入区域(目标卷的偏移,长度是源卷读取的长度);(2)存储网关从源卷中读取数据复制命令指定数据;(3)存储集群返回指定区域数据给存储网关;(4)存储网关将待迁移数据写入存储集群数据复制指定区域;(5)存储集群写入完成后给存储网关返回确认信息;(6)存储网关收到所有数据都完成的确认信息后给客户端回复响应。
SCSI target框架(tgt,存储网关),参考图7,tgt是一个scsi网关,主要是解析对块设备操作的scsi命令,如将对卷指定区域读写的scsi命令解析为对对外提供的块设备服务的卷的读写命令。
Ceph现有基于对象的数据复制技术。分布式存储系统支持基于对象级别的复制卸载操作;用户需要将源对象和目标对象的信息封装成可靠自主的分布式对象存储的请求,发送给源对象所在主对象存储设备进行数据复制的操作。参考图8,源对象所在主对象存储设备接收到对象数据复制指令后,将源对象从存储介质中读取出来后,封装成对象存储设备间的写请求,发送给目标对象所在主对象存储设备;目标对象所在主对象存储设备将对象数据写入存储介质并保证事务性后,给源对象所在主对象存储设备回复完成确认;源对象所在主对象存储设备收到完成确认后给接口库客户端回复完成确认;结束基于对象的数据复制操作。现有技术的缺点在于,分布式存储系统基于对象的数据复制是在可靠自主的分布式对象存储层的接口,接口库只支持整个对象的数据复制,不支持卷级别的数据复制,数据复制的并发度和性能差。
发明内容
为了弥补上述现有技术的数据复制并发度和性能的不足,本发明提出一种基于分布式存储的数据复制卸载方法、终端设备及计算机可读存储介质。
本发明的技术问题通过以下的技术方案予以解决:
本发明提出一种基于分布式存储的数据复制卸载方法,包括如下步骤:S1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;S2:根据对象信息解析出源对象主存储节点信息,存储网关把需要复制的数据位置、长度信息、目的对象的拷贝位置信息发送给源对象主存储节点;S3:根据源对象主存储节点收到的信息,获取目的对象对应的主存储节点信息,并从源对象主存储节点本地对应的存储介质读取数据,封装成写请求发送给目的对象主存储节点;S4:指使目的对象主存储节点根据收到所述写请求,完成相应对象写入操作后,给源对象主存储节点回复写入成功的响应;S5:指使源对象主存储节点收到所述目的对象主存储节点回复的响应,给网关节点回复数据复制处理成功的响应;S6:指使网关节点收到所有上述源对象主存储节点所回复的响应后,给客户端回复数据复制请求完成的响应。
在一些实施例,根据源卷、目的卷在网关侧是否有数据缓存、是否为克隆卷,存在四种场景,按照场景1-4优先级进行匹配处理:场景1:源卷数据复制请求区域命中缓存数据;场景2:源卷为克隆卷;场景3:目的卷为克隆卷;场景4:源卷、目的卷都为非克隆卷。
在一些实施例,所述场景1中,其处理流程包括:A1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;A2:所述数据复制请求指令的数据命中网关缓存数据,从网关缓存层中读取数据,,封装成写请求发送给目的对象主存储节点;A3:指使目的对象主存储节点接收写请求,把数据持久化到磁盘并回复响应。
在一些实施例,所述场景2中,其处理流程包括:B1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;B2:指示网关结合数据迁移请求中的源克隆卷对象名,探测源克隆卷对象;B3:如源克隆卷对象不存在,则根据该卷元数据信息,从克隆卷对应的父卷中找到相应对象,给父卷对象主存储节点发送数据读请求;如源克隆卷对象存在,对源克隆卷对象主存储节点发送读请求;B4:所述对象主存储节点接收到读请求,读取对象数据后给网关返回响应;B5:所述网关接收到读响应后构造写请求,发送给目的对象主存储节点;B6:指使目的对象主存储节点接收写请求,把数据持久化到磁盘后给网关回复响应。
在一些实施例,所述场景3中,其处理流程包括:C1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;C2:所述网关结合数据复制请求中的源卷对象信息,向源卷对象主存储节点发送读请求;C3:指示源卷对象主存储节点读取源卷对象数据后,给网关回复响应信息;C4:所述网关结合数据迁移请求中的目的克隆卷对象名,探测目的克隆卷对象;如目的克隆卷对象存在,则将源卷对象数据封装成写请求发送给目的克隆卷对象主存储节点;C5:如目的克隆卷对象不存在,则根据该卷元数据信息,解析出克隆卷对应的父卷对应对象,给父卷对象主存储节点发送读取对象数据请求;C6:所述网关将源卷对象数据和目的克隆卷父卷对象数据合并封装成写请求发送给目的克隆卷对象主存储节点;C7:目的克隆卷对象主存储节点接收写请求,把数据持久化到磁盘后给网关回复响应。
在一些实施例,所述场景4中,其处理流程包括:
D1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;
D2:根据对象信息解析出源对象主存储节点信息,存储网关把需要复制的数据位置、长度信息、目的对象的拷贝位置信息发送给源对象主存储节点;
D3:根据源对象主存储节点收到的信息,获取目的对象对应的主存储节点信息,并从源对象主存储节点本地对应的存储介质读取数据,封装成写请求发送给目的对象主存储节点;
D4:指使目的对象主存储节点根据收到所述写请求,完成相应对象写入操作后,给源对象主存储节点回复写入成功的响应;
D5:指使源对象主存储节点收到所述目的对象主存储节点回复的响应,给网关节点回复数据复制处理成功的响应;
D6:指使网关节点收到所有上述源对象主存储节点所回复的响应后,给客户端回复数据复制请求完成的响应。
本发明还提出一种基于分布式存储的数据复制卸载的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以上任一所述方法的步骤。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以上任一所述方法的步骤。
本发明与现有技术对比的有益效果包括:现有的分布式存储通常是在客户端或网关侧进行数据读写来实现数据复制指令,不能充分发挥分布式存储的优势,本发明通过把数据复制相关的操作卸载到各分布式存储节点进行,基于卷迁移请求中的数据拷贝偏移和长度,计算源卷、目的卷数据信息所归属的对象信息,把需要复制的拷贝位置信息发送给源对象主存储节点,再给目的对象主存储节点发送写请求,目的对象主存储节点回复写入成功响应;能够减少客户端或网关侧的带宽压力,提高数据复制的并发度和性能;
在一些实施例,本发明与现有技术对比的有益效果包括:本发明将数据复制指令下沉到网关侧或存储集群;如缺少数据复制卸载的支持,虚拟化软件就需要自行将迁移数据读取出来,再写回存储;本发明的分布式存储系统支持虚拟化软件的数据复制指令,减少虚拟化软件管理程序的资源消耗,减少网络资源消耗和复制时延。
附图说明
图1是现有技术中的分布式存储系统的读写流程图;
图2是现有技术中的分布式存储系统的块设备服务分层架构图;
图3是现有技术中的快照示意图;
图4是现有技术中的克隆卷示意图;
图5是现有技术中的克隆卷初次写流程图;
图6是现有技术中的传统存储的数据复制示意图;
图7是现有技术中的分布式存储框架示意图;
图8是现有技术中的支持基于对象级别的复制卸载操作示意图;
图9是本发明实施例的对象状态解析示意图;
图10是本发明实施例的数据复制命中缓存场景数据复制处理流程示意图;
图11是本发明实施例的目的卷为克隆卷场景的数据复制处理流程示意图;
图12是本发明实施例的源卷为克隆卷且源对象不存在场景的数据复制处理流程示意图;
图13是本发明实施例的数据复制卸载到分布式存储存储处理流程示意图。
具体实施方式
下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本实施例中的左、右、上、下、顶、底等方位用语,仅是互为相对概念,或是以产品的正常使用状态为参考的,而不应该认为是具有限制性的。
现有的分布式存储通常在网关测的数据读写来实现数据复制指令,不能充分发挥分布式存储的优势,本发明通过把数据复制相关的操作从网关侧下移到各分布式存储节点进行,能够减少网关测的带宽压力,提高数据复制的并发度和性能。
本发明实施例的一种基于分布式存储的数据复制卸载方法,包括如下步骤:S1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;S2:根据对象信息解析出源对象主存储节点信息,存储网关把需要复制的数据位置、长度信息、目的对象的拷贝位置信息发送给源对象主存储节点;S3:根据源对象主存储节点收到的信息,获取目的对象对应的主存储节点信息,并从源对象主存储节点本地对应的存储介质读取数据,封装成写请求发送给目的对象主存储节点;S4:指使目的对象主存储节点根据收到所述写请求,完成相应对象写入操作后,给源对象主存储节点回复写入成功的响应;S5:指使源对象主存储节点收到所述目的对象主存储节点回复的响应,给网关节点回复数据复制处理成功的响应;S6:指使网关节点收到所有上述源对象主存储节点所回复的响应后,给客户端回复数据复制请求完成的响应。
分布式存储系统的卷image由对外提供的块设备服务RBD实现的,相应卷image的元数据也是由对外提供的块设备服务RBD进行管理;在对外提供的块设备服务RBD的对象接口层objecter增加对卷级数据复制指令的支持。在对外提供的块设备服务RBD对象接口层objecter处增加一个状态机,根据源卷和目标卷状态,解析出源卷对应对象和目标卷对应对象的状态,再根据对象状态进入相应状态机的处理流程,如下图9所示。
根据源卷、目的卷在网关侧是否有缓存层、是否为克隆卷、克隆卷是否拍扁操作,存在四种场景,按照场景1-4优先级进行匹配处理:场景1:源卷数据复制请求区域命中缓存数据;场景2:源卷为克隆卷;场景3:目的卷为克隆卷;场景4:源卷、目的卷都为非克隆卷。
对于场景1,其IO处理流程如下图10所示,其处理流程包括:A1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;A2:所述数据复制请求指令的数据命中网关缓存数据,从网关缓存层中读取数据,封装成写请求发送给目的对象主存储节点;A3:指使目的对象主存储节点接收写请求,把数据持久化到磁盘并回复响应。
对于场景2,由于源卷为克隆卷,对于源对象不存在的情况,其主要处理流程如下图12所示,其处理流程包括:B1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;B2:指示网关结合数据迁移请求中的源克隆卷对象名,探测源克隆卷对象;B3:如源克隆卷对象不存在,则根据该卷元数据信息,从克隆卷对应的父卷中找到相应对象,给父卷对象主存储节点发送数据读请求;如源克隆卷对象存在,对源克隆卷对象主存储节点发送读请求;B4:所述对象主存储节点接收到读请求,读取对象数据后给网关返回响应;B5:所述网关接收到读响应后构造写请求,发送给目的对象主存储节点;B6:指使目的对象主存储节点接收写请求,把数据持久化到磁盘后给网关回复响应。
对于场景3,由于目的卷为克隆卷,有可能对应目的对象不存在,需要做拷贝处理,因此需要把数据复制请求转成正常的读写请求(写请求包含了对拷贝的处理流程),其处理流程如下图11所示,其处理流程包括:C1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;C2:所述网关结合数据复制请求中的源卷对象信息,向源卷对象主存储节点发送读请求;C3:指示源卷对象主存储节点读取源卷对象数据后,给网关回复响应信息;C4:所述网关结合数据迁移请求中的目的克隆卷对象名,探测目的克隆卷对象;如目的克隆卷对象存在,则将源卷对象数据封装成写请求发送给目的克隆卷对象主存储节点;C5:如目的克隆卷对象不存在,则根据该卷元数据信息,解析出克隆卷对应的父卷对应对象,给父卷对象主存储节点发送读取对象数据请求;C6:所述网关将源卷对象数据和目的克隆卷父卷对象数据合并封装成写请求发送给目的克隆卷对象主存储节点;C7:目的克隆卷对象主存储节点接收写请求,把数据持久化到磁盘后给网关回复响应。
对于场景4,如果源对象存在(源卷进行过flatten操作或覆盖写过),其处理流程和场景3是一致的,把数据复制请求(包含相关快照信息)卸载给源对象所在主对象存储设备来处理,流程如下图13所示。场景4中,源对象和目标对象都存在。场景4中,其处理流程包括:D1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;D2:根据对象信息解析出源对象主存储节点信息,存储网关把需要复制的数据位置、长度信息、目的对象的拷贝位置信息发送给源对象主存储节点;D3:根据源对象主存储节点收到的信息,获取目的对象对应的主存储节点信息,并从源对象主存储节点本地对应的存储介质读取数据,封装成写请求发送给目的对象主存储节点;D4:指使目的对象主存储节点根据收到所述写请求,完成相应对象写入操作后,给源对象主存储节点回复写入成功的响应;D5:指使源对象主存储节点收到所述目的对象主存储节点回复的响应,给网关节点回复数据复制处理成功的响应;D6:指使网关节点收到所有上述源对象主存储节点所回复的响应后,给客户端回复数据复制请求完成的响应。
本发明实施例的分布式存储系统支持虚拟化软件VMware数据复制指令,减少虚拟化软件VMware管理程序的资源消耗,减少网络资源消耗和复制时延。
本发明实施例的一种基于分布式存储的数据复制卸载的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以上任一所述方法的步骤。
本发明实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以上任一所述方法的步骤。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于分布式存储的数据复制卸载方法,其特征在于,包括如下步骤:
S1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;
S2:根据对象信息解析出源对象主存储节点信息,存储网关把需要复制的数据位置、长度信息、目的对象的拷贝位置信息发送给源对象主存储节点;
S3:根据源对象主存储节点收到的信息,获取目的对象对应的主存储节点信息,并从源对象主存储节点本地对应的存储介质读取数据,封装成写请求发送给目的对象主存储节点;
S4:指使目的对象主存储节点根据收到所述写请求,完成相应对象写入操作后,给源对象主存储节点回复写入成功的响应;
S5:指使源对象主存储节点收到所述目的对象主存储节点回复的响应,给网关节点回复数据复制处理成功的响应;
S6:指使网关节点收到所有上述源对象主存储节点所回复的响应后,给客户端回复数据复制请求完成的响应。
2.如权利要求1所述的基于分布式存储的数据复制卸载方法,其特征在于:
根据源卷、目的卷在网关侧是否有数据缓存、是否为克隆卷,存在四种场景,按照场景1-4优先级进行匹配处理:
场景1:源卷数据复制请求区域命中缓存数据;
场景2:源卷为克隆卷;
场景3:目的卷为克隆卷;
场景4:源卷、目的卷都为非克隆卷。
3.如权利要求2所述的基于分布式存储的数据复制卸载方法,其特征在于:
所述场景1中,其处理流程包括:
A1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;
A2:所述数据复制请求指令的数据命中网关缓存数据,从网关缓存层中读取数据,封装成写请求发送给目的对象主存储节点;
A3:指使目的对象主存储节点接收写请求,把数据持久化到磁盘并回复响应。
4.如权利要求2所述的基于分布式存储的数据复制卸载方法,其特征在于:
所述场景2中,其处理流程包括:
B1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;
B2:指示网关结合数据迁移请求中的源克隆卷对象名,探测源克隆卷对象;
B3:如源克隆卷对象不存在,则根据该卷元数据信息,从克隆卷对应的父卷中找到相应对象,给父卷对象主存储节点发送数据读请求;如源克隆卷对象存在,对源克隆卷对象主存储节点发送读请求;
B4:所述对象主存储节点接收到读请求,读取对象数据后给网关返回响应;
B5:所述网关接收到读响应后构造写请求,发送给目的对象主存储节点;
B6:指使目的对象主存储节点接收写请求,把数据持久化到磁盘后给网关回复响应。
5.如权利要求2所述的基于分布式存储的数据复制卸载方法,其特征在于:
所述场景3中,其处理流程包括:
C1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;
C2:所述网关结合数据复制请求中的源卷对象信息,向源卷对象主存储节点发送读请求;
C3:指示源卷对象主存储节点读取源卷对象数据后,给网关回复响应信息;
C4:所述网关结合数据迁移请求中的目的克隆卷对象名,探测目的克隆卷对象;如目的克隆卷对象存在,则将源卷对象数据封装成写请求发送给目的克隆卷对象主存储节点;
C5:如目的克隆卷对象不存在,则根据该卷元数据信息,解析出克隆卷对应的父卷对应对象,给父卷对象主存储节点发送读取对象数据请求;
C6:所述网关将源卷对象数据和目的克隆卷父卷对象数据合并封装成写请求发送给目的克隆卷对象主存储节点;
C7:目的克隆卷对象主存储节点接收写请求,把数据持久化到磁盘后给网关回复响应。
6.如权利要求2所述的基于分布式存储的数据复制卸载方法,其特征在于:
所述场景4中,其处理流程包括:
D1:客户端向存储网关发送的数据复制请求指令,指示存储网关根据对应源卷、目的卷元数据信息;及数据复制请求中的数据拷贝偏移和长度,解析出所述源卷、目的卷所映射的对象信息;
D2:根据对象信息解析出源对象主存储节点信息,存储网关把需要复制的数据位置、长度信息、目的对象的拷贝位置信息发送给源对象主存储节点;
D3:根据源对象主存储节点收到的信息,获取目的对象对应的主存储节点信息,并从源对象主存储节点本地对应的存储介质读取数据,封装成写请求发送给目的对象主存储节点;
D4:指使目的对象主存储节点根据收到所述写请求,完成相应对象写入操作后,给源对象主存储节点回复写入成功的响应;
D5:指使源对象主存储节点收到所述目的对象主存储节点回复的响应,给网关节点回复数据复制处理成功的响应;
D6:指使网关节点收到所有上述源对象主存储节点所回复的响应后,给客户端回复数据复制请求完成的响应。
7.一种基于分布式存储的数据复制卸载的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-6任一所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6任一所述方法的步骤。
CN202110968861.9A 2021-08-23 2021-08-23 一种基于分布式存储的数据复制卸载方法及终端设备 Active CN113721849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110968861.9A CN113721849B (zh) 2021-08-23 2021-08-23 一种基于分布式存储的数据复制卸载方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110968861.9A CN113721849B (zh) 2021-08-23 2021-08-23 一种基于分布式存储的数据复制卸载方法及终端设备

Publications (2)

Publication Number Publication Date
CN113721849A true CN113721849A (zh) 2021-11-30
CN113721849B CN113721849B (zh) 2024-04-12

Family

ID=78677356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110968861.9A Active CN113721849B (zh) 2021-08-23 2021-08-23 一种基于分布式存储的数据复制卸载方法及终端设备

Country Status (1)

Country Link
CN (1) CN113721849B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356239A (zh) * 2021-12-30 2022-04-15 苏州浪潮智能科技有限公司 一种分布式存储io卸载方法、系统、设备和存储介质
CN115037759A (zh) * 2022-08-10 2022-09-09 云上人和物联科技有限公司 一种基于异构指令集的虚拟化存储方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793291A (zh) * 2012-11-01 2014-05-14 华为技术有限公司 分布式数据复制方法和装置
CN104182184A (zh) * 2014-08-27 2014-12-03 浪潮电子信息产业股份有限公司 一种分布式块存储克隆方法
CN106406758A (zh) * 2016-09-05 2017-02-15 华为技术有限公司 一种基于分布式存储系统的数据处理方法及存储设备
WO2017113276A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 分布式存储系统中的数据重建的方法、装置和系统
CN107291391A (zh) * 2017-06-21 2017-10-24 郑州云海信息技术有限公司 一种用于分布式存储系统的数据处理方法和系统
CN111552437A (zh) * 2020-04-22 2020-08-18 上海天玑科技股份有限公司 一种应用于分布式存储系统的快照方法及快照装置
CN112395264A (zh) * 2020-11-26 2021-02-23 深圳市杉岩数据技术有限公司 分布式存储系统中逻辑目标与卷之间映射的处理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793291A (zh) * 2012-11-01 2014-05-14 华为技术有限公司 分布式数据复制方法和装置
CN104182184A (zh) * 2014-08-27 2014-12-03 浪潮电子信息产业股份有限公司 一种分布式块存储克隆方法
WO2017113276A1 (zh) * 2015-12-31 2017-07-06 华为技术有限公司 分布式存储系统中的数据重建的方法、装置和系统
CN106406758A (zh) * 2016-09-05 2017-02-15 华为技术有限公司 一种基于分布式存储系统的数据处理方法及存储设备
CN107291391A (zh) * 2017-06-21 2017-10-24 郑州云海信息技术有限公司 一种用于分布式存储系统的数据处理方法和系统
CN111552437A (zh) * 2020-04-22 2020-08-18 上海天玑科技股份有限公司 一种应用于分布式存储系统的快照方法及快照装置
CN112395264A (zh) * 2020-11-26 2021-02-23 深圳市杉岩数据技术有限公司 分布式存储系统中逻辑目标与卷之间映射的处理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356239A (zh) * 2021-12-30 2022-04-15 苏州浪潮智能科技有限公司 一种分布式存储io卸载方法、系统、设备和存储介质
CN114356239B (zh) * 2021-12-30 2023-08-29 苏州浪潮智能科技有限公司 一种分布式存储io卸载方法、系统、设备和存储介质
CN115037759A (zh) * 2022-08-10 2022-09-09 云上人和物联科技有限公司 一种基于异构指令集的虚拟化存储方法

Also Published As

Publication number Publication date
CN113721849B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
US11809753B2 (en) Virtual disk blueprints for a virtualized storage area network utilizing physical storage devices located in host computers
US10642526B2 (en) Seamless fault tolerance via block remapping and efficient reconciliation
US11249956B2 (en) Scalable distributed storage architecture
CN107408070B (zh) 分布式存储系统中的多事务日志
US10769036B2 (en) Distributed transaction log
US8707305B2 (en) Failure management for a virtualized computing environment
AU2014311869B2 (en) Partition tolerance in cluster membership management
US10540119B2 (en) Distributed shared log storage system having an adapter for heterogenous big data workloads
US8930313B2 (en) System and method for managing replication in an object storage system
US10803086B2 (en) Reducing data amplification when resynchronizing components of an object replicated across different sites
WO2019061352A1 (zh) 数据加载方法及装置
US9378218B2 (en) Apparatus and method for enabling clients to participate in data storage in distributed file system
US9940293B1 (en) Method for efficient storage and backup of data via SCSI transport
CN113721849B (zh) 一种基于分布式存储的数据复制卸载方法及终端设备
US11579983B2 (en) Snapshot performance optimizations
CN113703672A (zh) 一种超融合系统及其io请求下发方法、物理服务器
CN114564339A (zh) 一种磁盘镜像文件跨平台迁移方法及系统
US8001347B1 (en) Coherently sharing any form of instant snapshots separately from base volumes
CN111104252B (zh) 用于混合磁盘环境中的数据备份的系统和方法
US11675665B2 (en) System and method for backup generation using composed systems
US11768612B2 (en) System and method for distributed deduplication in a composed system
WO2023231572A1 (zh) 一种容器的创建方法、装置及存储介质
CN116490847A (zh) 支持分布式文件系统中的垃圾收集的虚拟数据复制
CN118626432A (zh) 数据处理方法、存储系统、网络接口设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant