CN113050891B - 重删数据保护方法及装置 - Google Patents

重删数据保护方法及装置 Download PDF

Info

Publication number
CN113050891B
CN113050891B CN202110327005.5A CN202110327005A CN113050891B CN 113050891 B CN113050891 B CN 113050891B CN 202110327005 A CN202110327005 A CN 202110327005A CN 113050891 B CN113050891 B CN 113050891B
Authority
CN
China
Prior art keywords
deduplication
block
data
pool
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110327005.5A
Other languages
English (en)
Other versions
CN113050891A (zh
Inventor
上官应兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Macrosan Technologies Co Ltd
Original Assignee
Macrosan Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Macrosan Technologies Co Ltd filed Critical Macrosan Technologies Co Ltd
Priority to CN202110327005.5A priority Critical patent/CN113050891B/zh
Publication of CN113050891A publication Critical patent/CN113050891A/zh
Application granted granted Critical
Publication of CN113050891B publication Critical patent/CN113050891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种重删数据保护方法及装置,应用于存储设备。本申请实施例中,为同一重删LUN配置至少两个重删池,并在同一重删处理流程中,将数据同时写入该至少两个重删池,即,同步完成数据写入和数据备份,因此,可有效提升数据保护效率,同时,由于基于重删机制备份数据,因此,可兼顾提升存储设备的空间利用率。

Description

重删数据保护方法及装置
技术领域
本申请涉及存储技术领域,尤其涉及一种重删数据保护方法及装置。
背景技术
为了提升存储设备的资源利用率,通常采用重删(全称:重复数据删除)机制消除存储设备中的重复数据,以使相同数据仅保存一份。
存储设备中支持重删功能的逻辑单元号(英文:Logical Unit Number,缩写:LUN)称为重删LUN。写入重删LUN的数据同样存在数据保护需求,比如,将重删LUN(记为第一重删LUN)的数据复制到目标LUN,以得到重删LUN的备份数据。
如果该目标LUN同样为支持重删功能的LUN(记为第二重删LUN),则向该第二重删LUN复制(写入)第一重删LUN的数据时,需要执行重删流程。由于重删流程涉及指纹计算、指纹库维护以及重复数据比较等操作,因此,其计算量大、访问路径长,导致数据保护效率较低。
如果目标LUN不为重删LUN,不执行重删流程,则所有数据(包括重复数据)均写入存储设备的存储空间,导致存储空间利用率较低。
可以看出,针对重删LUN的数据保护,目前还没有可同时兼顾保护效率和空间利用率的技术方案。
发明内容
有鉴于此,本申请提出一种重删数据保护方法及装置,用以提升重删数据保护效率并兼顾存储设备的存储空间利用率。
为实现上述申请目的,本申请提供了如下技术方案:
第一方面,本申请提供一种重删数据保护方法,应用于存储设备,所述存储设备包括至少一个重删LUN和至少一个磁盘阵列(英文:Redundant Arrays of IndependentDisks,缩写:RAID),所述至少一个重删LUN中的目标重删LUN对应至少两个重删池,每一个重删池按照预设重删块大小划分为多个重删块,所述目标重删LUN按照所述预设重删块大小划分为多个逻辑块,所述重删池由虚拟地址连续的至少一个虚拟地址段组成,每一个虚拟地址段对应RAID中的一段物理空间,所述目标重删LUN还对应有基于RAID创建的指纹库,所述指纹库用于记录数据的指纹信息与存储该数据的重删块的虚拟地址之间的对应关系,所述目标重删LUN还对应有逻辑空间映射表,所述逻辑空间映射表用于记录已映射逻辑块的逻辑地址与重删块的虚拟地址之间的映射关系,所述方法包括:
确定待写入第一逻辑块的第一数据,所述第一逻辑块为所述目标重删LUN中待写入数据的任一逻辑块;
如果所述指纹库中不存在所述第一数据的指纹信息,分别从所述至少两个重删池中为所述第一逻辑块分配对应的目标重删块,所述第一逻辑块在各重删池中对应的目标重删块的虚拟地址相同;
分别向各目标重删块写入所述第一数据;
在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系;
在所述指纹库中,记录所述第一数据的指纹信息与所述目标重删块的虚拟地址之间的对应关系。
可选的,所述方法还包括:
如果所述指纹库中存在所述第一数据的指纹信息,获取与所述第一数据的指纹信息对应的目标重删块的虚拟地址;
在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系。
可选的,所述至少两个重删池来源于不同RAID。
可选的,每一个重删池对应各自的数据有效性标识以及写入结果位图,所述分别向各目标重删块写入所述第一数据之后,所述方法还包括:
如果所述各目标重删块中同时存在写入成功的第一目标重删块和写入失败的第二目标重删块,修改所述第二目标重删块所属重删池的数据有效性标识为第一有效值,所述第一有效值用于表示对应重删池中部分数据有效;
针对所述第一目标重删块所属重删池对应的写入结果位图,将该写入结果位图中第一目标重删块对应位的值修改为第一结果值,所述第一结果值用于表示本重删池中目标重删块写入成功,其它重删池中对应目标重删块写入失败。
可选的,所述方法还包括:
当需要读取第二逻辑块中的第二数据时,查询所述逻辑空间映射表,确定与所述第二逻辑块对应的待读取重删块;
如果所述至少两个重删池中存在数据有效性标识为第二有效值的第一重删池,所述第二有效值用于表示重删池中所有数据均有效,则从所述第一重删池读取待读取重删块中的第二数据;
如果所述至少两个重删池的数据有效性标识均为所述第一有效值,且所述待读取重删块在各重删池对应写入结果位图中对应位的值存在第一结果值,则从该值为第一结果值的位所属写入结果位图对应的第二重删池,读取待读取重删块中的第二数据;否则,从任一重删池读取待读取重删块中的第二数据。
可选的,所述方法还包括:
针对数据有效性标识为第一有效值的第三重删池,获取第四重删池对应写入结果位图,所述第四重删池为所述至少两个重删池中除当前第三重删池之外的重删池;
从所述第四重删池对应写入结果位图中,查找值为所述第一结果值的各目标位;
针对每一个目标位,将所述第四重删池中该目标位对应重删块的数据同步到所述第三重删池中对应重删块。
第二方面,本申请提供一种重删数据保护装置,应用于存储设备,所述存储设备包括至少一个重删LUN和至少一个RAID,所述至少一个重删LUN中的目标重删LUN对应至少两个重删池,每一个重删池按照预设重删块大小划分为多个重删块,所述目标重删LUN按照所述预设重删块大小划分为多个逻辑块,所述重删池由虚拟地址连续的至少一个虚拟地址段组成,每一个虚拟地址段对应RAID中的一段物理空间,所述目标重删LUN还对应有基于RAID创建的指纹库,所述指纹库用于记录数据的指纹信息与存储该数据的重删块的虚拟地址之间的对应关系,所述目标重删LUN还对应有逻辑空间映射表,所述逻辑空间映射表用于记录已映射逻辑块的逻辑地址与重删块的虚拟地址之间的映射关系,所述装置包括:
确定单元,用于确定待写入第一逻辑块的第一数据,所述第一逻辑块为所述目标重删LUN中待写入数据的任一逻辑块;
分配单元,用于所述指纹库中不存在所述第一数据的指纹信息,分别从所述至少两个重删池中为所述第一逻辑块分配对应的目标重删块,所述第一逻辑块在各重删池中对应的目标重删块的虚拟地址相同;
写入单元,用于分别向各目标重删块写入所述第一数据;
第一记录单元,用于在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系;
第二记录单元,用于在所述指纹库中,记录所述第一数据的指纹信息与所述目标重删块的虚拟地址之间的对应关系。
可选的,所述装置还包括:
获取单元,用于如果所述指纹库中存在所述第一数据的指纹信息,获取与所述第一数据的指纹信息对应的目标重删块的虚拟地址;
所述第一记录单元,用于在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系。
可选的,所述至少两个重删池来源于不同RAID。
可选的,每一个重删池对应各自的数据有效性标识以及写入结果位图,所述装置还包括:
第一修改单元,用于如果所述各目标重删块中同时存在写入成功的第一目标重删块和写入失败的第二目标重删块,修改所述第二目标重删块所属重删池的数据有效性标识为第一有效值,所述第一有效值用于表示对应重删池中部分数据有效;
第二修改单元,用于针对所述第一目标重删块所属重删池对应的写入结果位图,将该写入结果位图中第一目标重删块对应位的值修改为第一结果值,所述第一结果值用于表示本重删池中目标重删块写入成功,其它重删池中对应目标重删块写入失败。
可选的,所述装置还包括:
确定单元,用于当需要读取第二逻辑块中的第二数据时,查询所述逻辑空间映射表,确定与所述第二逻辑块对应的待读取重删块;
读取单元,用于如果所述至少两个重删池中存在数据有效性标识为第二有效值的第一重删池,所述第二有效值用于表示重删池中所有数据均有效,则从所述第一重删池读取待读取重删块中的第二数据;
所述读取单元,还用于如果所述至少两个重删池的数据有效性标识均为所述第一有效值,且所述待读取重删块在各重删池对应写入结果位图中对应位的值存在第一结果值,则从该值为第一结果值的位所属写入结果位图对应的第二重删池,读取待读取重删块中的第二数据;否则,从任一重删池读取待读取重删块中的第二数据。
可选的,所述装置还包括:
获取单元,用于针对数据有效性标识为第一有效值的第三重删池,获取第四重删池对应写入结果位图,所述第四重删池为所述至少两个重删池中除当前第三重删池之外的重删池;
查找单元,用于从所述第四重删池对应写入结果位图中,查找值为所述第一结果值的各目标位;
同步单元,用于针对每一个目标位,将所述第四重删池中该目标位对应重删块的数据同步到所述第三重删池中对应重删块。
由以上描述可以看出,本申请实施例中,为同一重删LUN配置至少两个重删池,并在同一重删处理流程中,将数据同步写入该至少两个重删池,即,同步完成数据写入和数据备份,因此,可有效提升数据保护效率,同时,由于基于重删机制备份数据,因此,可兼顾提升存储设备的空间利用率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例示出的一种重删数据保护方法流程图;
图2是本申请实施例示出的一种重删数据读取流程;
图3是本申请实施例示出的一种重删数据同步流程;
图4是本申请实施例示出的一种重删数据保护装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请实施例范围的情况下,协商信息也可以被称为第二信息,类似地,第二信息也可以被称为协商信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本申请实施例的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本申请实施例执行详细描述:
参见图1,为本申请实施例示出的一种重删数据保护方法的流程图。该流程应用于存储设备。
该存储设备包括至少一个重删LUN和至少一个RAID。该至少一个重删LUN中的目标重删LUN对应至少两个重删池。
这里,需要说明的是,目标重删LUN可以为至少一个重删LUN中的任一重删LUN。之所以称为目标重删LUN,只是为了便于区分而进行的命名,并非用于限定。
本申请实施例中,重删池由虚拟地址连续的至少一个虚拟地址段组成,每一个虚拟地址段对应RAID中的一段物理空间。
比如,容量为100GB的重删池由两个虚拟地址段组成,分别为前50GB虚拟地址段和后50GB虚拟地址段。其中,前50GB虚拟地址段来源于RAID_1的起始地址为LBA_1的50GB物理空间;后50GB虚拟地址段来源于RAID_2起始地址为LBA_2的50GB物理空间。
每一个重删池按照预设重删块大小(比如,8KB)划分为多个重删块。目标重删LUN按照预设重删块大小划分为多个逻辑块。
目标重删LUN对应有逻辑空间映射表,该逻辑空间映射表用于记录已映射逻辑块的逻辑地址与重删块的虚拟地址之间的映射关系。
目标重删LUN还对应有基于RAID创建的指纹库,该指纹库用于记录数据的指纹信息与存储该数据的重删块的虚拟地址之间的对应关系。
这里,需要说明的是,上述逻辑空间映射表和指纹库中均记录的是重删块的虚拟地址,而不是重删块的实际物理地址(包括来源于哪个RAID以及在该RAID中的位置信息),从而避免逻辑空间映射表和指纹库中出现大量重复的RAID信息,因此,可有效节约存储设备维护以及使用逻辑空间映射表和指纹库时所需消耗的资源。
如图1所示,重删数据保护流程可包括以下步骤:
步骤101,确定待写入第一逻辑块的第一数据,该第一逻辑块为目标重删LUN中待写入数据的任一逻辑块。
用户通过上层应用向存储设备下发针对目标重删LUN的写请求,该写请求包括待写入数据以及待写入数据在目标重删LUN中对应的待写入地址范围。比如,待写入数据大小为64KB,待写入起始地址为256MB,则待写入地址范围为【256MB,256MB+64KB】。
根据该待写入地址范围,可确定该待写入地址范围在目标重删LUN中对应的待写入逻辑块。以逻辑块大小为8KB、待写入地址范围为【256MB,256MB+64KB】为例,该待写入地址范围在目标重删LUN中对应从256MB到256MB+64KB之间的8个待写入逻辑块。
然后,对写请求携带的待写入数据按照逻辑块大小划分,确定待写入各待写入逻辑块的数据,并对待写入各待写入逻辑块的数据分别计算指纹信息。计算指纹的方法可采用重删的通用实现方案,本发明中不再展开阐述。
这里,将待写入逻辑块称为第一逻辑块,待写入该第一逻辑块的数据称为第一数据。可以理解的是,之所以称为第一逻辑块、第一数据只是为了便于描述而进行的命名,并非用于限定。
针对每一个第一逻辑块执行后续处理。
步骤102,如果指纹库中不存在第一数据的指纹信息,分别从至少两个重删池中为第一逻辑块分配对应的目标重删块,该第一逻辑块在各重删池中对应的目标重删块的虚拟地址相同。
指纹库用于记录重删池中已存储数据的指纹信息。当确定指纹库中不存在第一数据的指纹信息时,说明该第一数据为未存储过的新数据(非重复数据),则需要将该非重复数据存储到重删池中。
为此,本申请实施例从目标重删LUN对应的至少两个重删池中,分别为第一数据所属第一逻辑块分配对应的目标重删块,即,为同一第一逻辑块分配位于不同重删池中的至少两个目标重删块。可以理解的是,之所以称为目标重删块,只是为了便于区分而进行的命名,并非用于限定。
作为一个实施例,该第一逻辑块对应的至少两个目标重删块的虚拟地址相同。
步骤103,分别向各目标重删块写入第一数据。
由于各目标重删块位于不同重删池,因此,相当于将第一数据写入多个重删池,从而起到数据备份(保护)作用。
为了进一步保证数据的安全性,目标重删LUN对应的至少两个重删池可来源于不同RAID,以避免单个RAID故障导致来源于该RAID的多个重删池均无法使用。
步骤104,在逻辑空间映射表中,记录第一逻辑块的逻辑地址与目标重删块的虚拟地址之间的映射关系。
在数据写入后,需要记录已映射逻辑块与为该逻辑块分配的重删块之间的映射关系,因此,本步骤将第一逻辑块的逻辑地址与目标重删块的虚拟地址之间的映射关系,添加到逻辑空间映射表中。
需要说明的是,虽然第一逻辑块对应至少两个目标重删块,但由于该至少两个目标重删块的虚拟地址相同,因此,只需记录第一逻辑地址的逻辑地址与一个目标重删块的虚拟地址的映射关系即可,可有效节约设备资源。
步骤105,在指纹库中,记录第一数据的指纹信息与目标重删块的虚拟地址之间的对应关系。
对于已存储的数据,需要记录数据的指纹信息与存储该数据的重删块的对应关系,因此,本步骤将第一数据的指纹信息与存储该第一数据的目标重删块的虚拟地址之间的对应关系,添加到指纹库中。
至此,完成图1所示流程。
通过图1所示流程可以看出,本申请实施例中,为同一重删LUN配置至少两个重删池,并在同一重删处理流程中,将数据同步写入该至少两个重删池,即,同步完成数据写入和数据备份,因此,可有效提升数据保护效率,同时,由于基于重删机制备份数据,因此,可兼顾提升存储设备的空间利用率。
作为一个实施例,在执行步骤101之后,如果确定指纹库中存在第一数据的指纹信息,说明重删池中已存在相同数据,该第一数据为已有数据的重复数据,因此,基于重删机制,该第一数据无需写入重删池,但需要在逻辑空间映射表中记录该第一数据所属第一逻辑块与重删池存储有相同数据的目标重删块的虚拟地址之间的映射关系。
为此,本申请实施例从指纹库中,查询与该第一数据的指纹信息对应的目标重删块的虚拟地址,然后,在逻辑空间映射表中,记录第一逻辑块的逻辑地址与该目标重删块的虚拟地址之间的映射关系,以便后续可从该第一逻辑块对应的目标重删块中读取到第一数据。
作为一个实施例,本申请还维护各重删池对应的数据有效性标识以及写入结果位图。其中,数据有效性标识用于标识重删池中数据是否全部有效;写入结果位图用于标识重删池中各重删块是否写入成功。
在通过步骤103分别向各目标重删块写入第一数据后,可根据写入结果(成功或失败)更新各重删池对应的数据有效性标识以及写入结果位图。
具体为,如果写入的多个目标重删块中同时存在写入成功的第一目标重删块和写入失败的第二目标重删块,则修改第二目标重删块所属重删池的数据有效性标识为第一有效值,该第一有效值用于表示重删池中部分数据有效,即,该重删池中存在写入失败的无效数据。
这里,第一目标重删块、第二目标重删块、第一有效值均只是为了便于区分而进行的命名,并非用于限定。
此外,针对写入成功的第一目标重删块,需要修改该第一目标重删块所属重删池对应的写入结果位图。将该写入结果位图中第一目标重删块对应位的值修改为第一结果值,该第一结果值用于表示本重删池中目标重删块写入成功,而其它重删池中对应目标重删块写入失败。
举例说明:比如,重删LUN1对应两个重删池(重删池1和重删池2),将数据1分别写入重删池1的重删块11和重删池2的重删块21。如果重删块11写入成功、重删块21写入失败,则修改重删块21所在重删池2的数据有效性标识为第一有效值(比如,1),以标识重删池2中存在写入失败的无效数据。
同时,更新重删块11所在重删池1的写入结果位图(bitmap)。这里,为了简化说明,以重删池1包括8个重删块(分别为重删块10~重删块17)为例,在数据1写入之前,重删块1的写入结果位图为{00000000};在数据1成功写入重删块11但写入重删块21失败后,更新重删池1的写入结果位图为{01000000},即,将重删池1中第二个重删块(重删块11)对应位的值更新为第一结果值(1),以表示该数据1在重删池1中对应重删块写入成功,但在重删池2中对应重删块写入失败。
这里,需要说明的是,当第一数据在各目标重删块中均写入成功时,可禁止更新各重删池对应的数据有效性标识以及写入结果位图。
参见图2,为本申请实施例示出的一种重删数据读取流程。如图2所示,该流程可包括以下步骤:
步骤201,当需要读取第二逻辑块中的第二数据时,查询逻辑空间映射表,确定与第二逻辑块对应的待读取重删块。
如前所述,逻辑空间映射表用于记录已映射逻辑块的逻辑地址与重删块的虚拟地址之间的映射关系,因此,通过逻辑空间映射表可确定所要读取数据在重删池中的存储位置(待读取重删块)。
这里,第二逻辑块、第二数据均只是为了便于区分而进行的命名,并非用于限定。
步骤202,如果至少两个重删池中存在数据有效性标识为第二有效值的第一重删池,该第二有效值用于表示重删池中所有数据均有效,则从第一重删池读取待读取重删块中的第二数据。
如前所述,目标重删LUN对应至少两个重删池,且每一个重删池对应有用于标识重删池中数据是否全部有效的数据有效性标识,因此,在通过数据有效性标识(第二有效值)确定第一重删池中数据全部有效(存储有目标重删LUN中的全部数据)时,直接从该第一重删池中读取待读取重删块中的数据(第二数据)。
这里,第二有效值、第一重删池只是为了便于区分而进行的命名,并非用于限定。
步骤203,如果至少两个重删池的数据有效性标识均为第一有效值,且待读取重删块在各重删池对应写入结果位图中对应位的值存在第一结果值,则从该值为第一结果值的位所属写入结果位图对应的第二重删池,读取待读取重删块中的第二数据;否则,从任一重删池读取待读取重删块中的第二数据。
各重删池对应的数据有效性标识均为第一有效值,说明各重删池均未成功存储目标重删LUN中的全部数据,因此,需要进一步确定哪一个重删池成功存储了待读取的第二数据。
为此,可查询各重删池对应的写入结果位图。
如果当前重删池对应写入结果位图中待读取重删块对应的位的值为第一结果值,说明该重删池(第二重删池)中待读取重删块存储的数据(第二数据)有效(写入成功),其它重删池中待读取重删块存储的数据无效(写入失败),因此,从第二重删池读取待读取重删块中的第二数据。
这里,第二重删池只是为便于区分而进行的命名,并非用于限定。
如果各重删池对应写入结果位图中待读取重删块对应的位的值均不为第一结果值,说明各重删池中待读取重删块的数据有效性相同(比如,均写入成功),则可从任一重删池读取待读取重删块中的第二数据。
至此,完成图2所示流程。
通过图2所示流程实现对重删数据的读取。
参见图3,为本申请实施例示出的一种重删数据同步流程。如图3所示,该流程可包括如下步骤:
步骤301,针对数据有效性标识为第一有效值的第三重删池,获取第四重删池对应写入结果位图,该第四重删池为至少两个重删池中除当前第三重删池之外的重删池。
当重删池的数据有效性标识为第一有效值时,说明该重删池(第三重删池)中存在写入失败的重删块,此时,可获取其它重删池(第四重删池)的写入结果位图。
这里,第三重删池、第四重删池只是为便于区分而进行的命名,并非用于限定。
步骤302,从第四重删池对应写入结果位图中,查找值为第一结果值的各目标位。
如前所述,第一结果值用于表示本重删池中重删块写入成功,而其它重删池中对应重删块写入失败,因此,本步骤通过查找第四重删池对应写入位图中值为第一结果值的位(简称目标位),可确定第四重删池中写入成功而第三重删池中写入失败的重删块。
这里,可以理解的是,之所以称为目标位,只是为便于区分而进行的命名,并非用于限定。
步骤303,针对每一个目标位,将第四重删池中该目标位对应重删块的数据同步到第三重删池中对应重删块。
即,将第四重删池中写入成功的重删块的数据,同步到第三重删池中对应重删块,以尽量使各重删块均存储有效数据,起到数据备份作用。
至此,完成图3所示流程。
通过图3所示流程可实现对写入失败的重删块的修复,从而提升存储设备的备份性能。
以上对本申请实施例提供的方法进行了描述,下面对本申请实施例提供的装置进行描述:
参见图4,为本申请实施例提供的装置的结构示意图。该装置应用于存储设备,所述存储设备包括至少一个重删LUN和至少一个RAID,所述至少一个重删LUN中的目标重删LUN对应至少两个重删池,每一个重删池按照预设重删块大小划分为多个重删块,所述目标重删LUN按照所述预设重删块大小划分为多个逻辑块,所述重删池由虚拟地址连续的至少一个虚拟地址段组成,每一个虚拟地址段对应RAID中的一段物理空间,所述目标重删LUN还对应有基于RAID创建的指纹库,所述指纹库用于记录数据的指纹信息与存储该数据的重删块的虚拟地址之间的对应关系,所述目标重删LUN还对应有逻辑空间映射表,所述逻辑空间映射表用于记录已映射逻辑块的逻辑地址与重删块的虚拟地址之间的映射关系,所述装置包括:其中:
确定单元401,用于确定待写入第一逻辑块的第一数据,所述第一逻辑块为所述目标重删LUN中待写入数据的任一逻辑块;
分配单元402,用于所述指纹库中不存在所述第一数据的指纹信息,分别从所述至少两个重删池中为所述第一逻辑块分配对应的目标重删块,所述第一逻辑块在各重删池中对应的目标重删块的虚拟地址相同;
写入单元403,用于分别向各目标重删块写入所述第一数据;
第一记录单元404,用于在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系;
第二记录单元405,用于在所述指纹库中,记录所述第一数据的指纹信息与所述目标重删块的虚拟地址之间的对应关系。
作为一个实施例,所述装置还包括:
获取单元,用于如果所述指纹库中存在所述第一数据的指纹信息,获取与所述第一数据的指纹信息对应的目标重删块的虚拟地址;
所述第一记录单元404,用于在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系。
作为一个实施例,所述至少两个重删池来源于不同RAID。
作为一个实施例,每一个重删池对应各自的数据有效性标识以及写入结果位图,所述装置还包括:
第一修改单元,用于如果所述各目标重删块中同时存在写入成功的第一目标重删块和写入失败的第二目标重删块,修改所述第二目标重删块所属重删池的数据有效性标识为第一有效值,所述第一有效值用于表示对应重删池中部分数据有效;
第二修改单元,用于针对所述第一目标重删块所属重删池对应的写入结果位图,将该写入结果位图中第一目标重删块对应位的值修改为第一结果值,所述第一结果值用于表示本重删池中目标重删块写入成功,其它重删池中对应目标重删块写入失败。
作为一个实施例,所述装置还包括:
确定单元,用于当需要读取第二逻辑块中的第二数据时,查询所述逻辑空间映射表,确定与所述第二逻辑块对应的待读取重删块;
读取单元,用于如果所述至少两个重删池中存在数据有效性标识为第二有效值的第一重删池,所述第二有效值用于表示重删池中所有数据均有效,则从所述第一重删池读取待读取重删块中的第二数据;
所述读取单元,还用于如果所述至少两个重删池的数据有效性标识均为所述第一有效值,且所述待读取重删块在各重删池对应写入结果位图中对应位的值存在第一结果值,则从该值为第一结果值的位所属写入结果位图对应的第二重删池,读取待读取重删块中的第二数据;否则,从任一重删池读取待读取重删块中的第二数据。
作为一个实施例,所述装置还包括:
获取单元,用于针对数据有效性标识为第一有效值的第三重删池,获取第四重删池对应写入结果位图,所述第四重删池为所述至少两个重删池中除当前第三重删池之外的重删池;
查找单元,用于从所述第四重删池对应写入结果位图中,查找值为所述第一结果值的各目标位;
同步单元,用于针对每一个目标位,将所述第四重删池中该目标位对应重删块的数据同步到所述第三重删池中对应重删块。
由以上描述可以看出,本申请实施例中,为同一重删LUN配置至少两个重删池,并在同一重删处理流程中,将数据同步写入该至少两个重删池,即,同步完成数据写入和数据备份,因此,可有效提升数据保护效率,同时,由于基于重删机制备份数据,因此,可兼顾提升存储设备的空间利用率。
以上所述仅为本申请实施例的较佳实施例而已,并不用以限制本申请,凡在本申请实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种重删数据保护方法,其特征在于,应用于存储设备,所述存储设备包括至少一个重删LUN和至少一个RAID,所述至少一个重删LUN中的目标重删LUN对应至少两个重删池,每一个重删池按照预设重删块大小划分为多个重删块,所述目标重删LUN按照所述预设重删块大小划分为多个逻辑块,所述重删池由虚拟地址连续的至少一个虚拟地址段组成,每一个虚拟地址段对应RAID中的一段物理空间,所述目标重删LUN还对应有基于RAID创建的指纹库,所述指纹库用于记录数据的指纹信息与存储该数据的重删块的虚拟地址之间的对应关系,所述目标重删LUN还对应有逻辑空间映射表,所述逻辑空间映射表用于记录已映射逻辑块的逻辑地址与重删块的虚拟地址之间的映射关系,所述方法包括:
确定待写入第一逻辑块的第一数据,所述第一逻辑块为所述目标重删LUN中待写入数据的任一逻辑块;
如果所述指纹库中不存在所述第一数据的指纹信息,分别从所述至少两个重删池中为所述第一逻辑块分配对应的目标重删块,所述第一逻辑块在各重删池中对应的目标重删块的虚拟地址相同;
分别向各目标重删块写入所述第一数据;
在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系;
在所述指纹库中,记录所述第一数据的指纹信息与所述目标重删块的虚拟地址之间的对应关系。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
如果所述指纹库中存在所述第一数据的指纹信息,获取与所述第一数据的指纹信息对应的目标重删块的虚拟地址;
在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系。
3.如权利要求1所述的方法,其特征在于,所述至少两个重删池来源于不同RAID。
4.如权利要求1所述的方法,其特征在于,每一个重删池对应各自的数据有效性标识以及写入结果位图,所述分别向各目标重删块写入所述第一数据之后,所述方法还包括:
如果所述各目标重删块中同时存在写入成功的第一目标重删块和写入失败的第二目标重删块,修改所述第二目标重删块所属重删池的数据有效性标识为第一有效值,所述第一有效值用于表示对应重删池中部分数据有效;
针对所述第一目标重删块所属重删池对应的写入结果位图,将该写入结果位图中第一目标重删块对应位的值修改为第一结果值,所述第一结果值用于表示本重删池中目标重删块写入成功,其它重删池中对应目标重删块写入失败。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
当需要读取第二逻辑块中的第二数据时,查询所述逻辑空间映射表,确定与所述第二逻辑块对应的待读取重删块;
如果所述至少两个重删池中存在数据有效性标识为第二有效值的第一重删池,所述第二有效值用于表示重删池中所有数据均有效,则从所述第一重删池读取待读取重删块中的第二数据;
如果所述至少两个重删池的数据有效性标识均为所述第一有效值,且所述待读取重删块在各重删池对应写入结果位图中对应位的值存在第一结果值,则从该值为第一结果值的位所属写入结果位图对应的第二重删池,读取待读取重删块中的第二数据;否则,从任一重删池读取待读取重删块中的第二数据。
6.如权利要求4所述的方法,其特征在于,所述方法还包括:
针对数据有效性标识为第一有效值的第三重删池,获取第四重删池对应写入结果位图,所述第四重删池为所述至少两个重删池中除当前第三重删池之外的重删池;
从所述第四重删池对应写入结果位图中,查找值为所述第一结果值的各目标位;
针对每一个目标位,将所述第四重删池中该目标位对应重删块的数据同步到所述第三重删池中对应重删块。
7.一种重删数据保护装置,其特征在于,应用于存储设备,所述存储设备包括至少一个重删LUN和至少一个RAID,所述至少一个重删LUN中的目标重删LUN对应至少两个重删池,每一个重删池按照预设重删块大小划分为多个重删块,所述目标重删LUN按照所述预设重删块大小划分为多个逻辑块,所述重删池由虚拟地址连续的至少一个虚拟地址段组成,每一个虚拟地址段对应RAID中的一段物理空间,所述目标重删LUN还对应有基于RAID创建的指纹库,所述指纹库用于记录数据的指纹信息与存储该数据的重删块的虚拟地址之间的对应关系,所述目标重删LUN还对应有逻辑空间映射表,所述逻辑空间映射表用于记录已映射逻辑块的逻辑地址与重删块的虚拟地址之间的映射关系,所述装置包括:
确定单元,用于确定待写入第一逻辑块的第一数据,所述第一逻辑块为所述目标重删LUN中待写入数据的任一逻辑块;
分配单元,用于如果所述指纹库中不存在所述第一数据的指纹信息,分别从所述至少两个重删池中为所述第一逻辑块分配对应的目标重删块,所述第一逻辑块在各重删池中对应的目标重删块的虚拟地址相同;
写入单元,用于分别向各目标重删块写入所述第一数据;
第一记录单元,用于在所述逻辑空间映射表中,记录所述第一逻辑块的逻辑地址与所述目标重删块的虚拟地址之间的映射关系;
第二记录单元,用于在所述指纹库中,记录所述第一数据的指纹信息与所述目标重删块的虚拟地址之间的对应关系。
8.如权利要求7所述的装置,其特征在于,每一个重删池对应各自的数据有效性标识以及写入结果位图,所述装置还包括:
第一修改单元,用于如果所述各目标重删块中同时存在写入成功的第一目标重删块和写入失败的第二目标重删块,修改所述第二目标重删块所属重删池的数据有效性标识为第一有效值,所述第一有效值用于表示对应重删池中部分数据有效;
第二修改单元,用于针对所述第一目标重删块所属重删池对应的写入结果位图,将该写入结果位图中第一目标重删块对应位的值修改为第一结果值,所述第一结果值用于表示本重删池中目标重删块写入成功,其它重删池中对应目标重删块写入失败。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
确定单元,用于当需要读取第二逻辑块中的第二数据时,查询所述逻辑空间映射表,确定与所述第二逻辑块对应的待读取重删块;
读取单元,用于如果所述至少两个重删池中存在数据有效性标识为第二有效值的第一重删池,所述第二有效值用于表示重删池中所有数据均有效,则从所述第一重删池读取待读取重删块中的第二数据;
所述读取单元,还用于如果所述至少两个重删池的数据有效性标识均为所述第一有效值,且所述待读取重删块在各重删池对应写入结果位图中对应位的值存在第一结果值,则从该值为第一结果值的位所属写入结果位图对应的第二重删池,读取待读取重删块中的第二数据;否则,从任一重删池读取待读取重删块中的第二数据。
10.如权利要求8所述的装置,其特征在于,所述装置还包括:
获取单元,用于针对数据有效性标识为第一有效值的第三重删池,获取第四重删池对应写入结果位图,所述第四重删池为所述至少两个重删池中除当前第三重删池之外的重删池;
查找单元,用于从所述第四重删池对应写入结果位图中,查找值为所述第一结果值的各目标位;
同步单元,用于针对每一个目标位,将所述第四重删池中该目标位对应重删块的数据同步到所述第三重删池中对应重删块。
CN202110327005.5A 2021-03-26 2021-03-26 重删数据保护方法及装置 Active CN113050891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110327005.5A CN113050891B (zh) 2021-03-26 2021-03-26 重删数据保护方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110327005.5A CN113050891B (zh) 2021-03-26 2021-03-26 重删数据保护方法及装置

Publications (2)

Publication Number Publication Date
CN113050891A CN113050891A (zh) 2021-06-29
CN113050891B true CN113050891B (zh) 2022-02-25

Family

ID=76515668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110327005.5A Active CN113050891B (zh) 2021-03-26 2021-03-26 重删数据保护方法及装置

Country Status (1)

Country Link
CN (1) CN113050891B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099571B1 (en) * 2008-08-06 2012-01-17 Netapp, Inc. Logical block replication with deduplication
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN107632786A (zh) * 2017-09-20 2018-01-26 杭州宏杉科技股份有限公司 一种数据重删的管理方法及装置
CN107766179A (zh) * 2017-11-06 2018-03-06 郑州云海信息技术有限公司 一种基于源数据重删的备份方法、装置、及存储介质
CN107885619A (zh) * 2017-11-16 2018-04-06 郑州云海信息技术有限公司 一种数据精简去重和镜像异地备份保护的方法及系统
CN110187834A (zh) * 2019-05-24 2019-08-30 杭州宏杉科技股份有限公司 重删副本的数据处理方法、装置、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8099571B1 (en) * 2008-08-06 2012-01-17 Netapp, Inc. Logical block replication with deduplication
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN107632786A (zh) * 2017-09-20 2018-01-26 杭州宏杉科技股份有限公司 一种数据重删的管理方法及装置
CN107766179A (zh) * 2017-11-06 2018-03-06 郑州云海信息技术有限公司 一种基于源数据重删的备份方法、装置、及存储介质
CN107885619A (zh) * 2017-11-16 2018-04-06 郑州云海信息技术有限公司 一种数据精简去重和镜像异地备份保护的方法及系统
CN110187834A (zh) * 2019-05-24 2019-08-30 杭州宏杉科技股份有限公司 重删副本的数据处理方法、装置、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
备份重复数据删除基础;匆匆那年S;《CSDN》;20201219;全文 *

Also Published As

Publication number Publication date
CN113050891A (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN102779180B (zh) 数据存储系统的操作处理方法,数据存储系统
US9146877B2 (en) Storage system capable of managing a plurality of snapshot families and method of snapshot family based read
CN113868192B (zh) 一种数据存储设备、方法与分布式数据存储系统
US9727245B2 (en) Method and apparatus for de-duplication for solid state disks (SSDs)
US6636941B1 (en) Enhanced stable disk storage
CN107329692B (zh) 一种数据重删的方法及存储设备
EP1815340A2 (en) Dynamically upgradeable fault-tolerant storage system permitting variously sized storage devices and method
CN107423233B (zh) 一种可写快照实现方法和装置
CN109407985B (zh) 一种数据管理的方法以及相关装置
CN114356246B (zh) Ssd内部数据的存储管理方法、装置、存储介质及ssd设备
CN112181299B (zh) 数据修复方法及分布式存储集群
US11288006B2 (en) Storage system and volume copying method where changes to address conversion table is rolled back
CN109582235B (zh) 管理元数据存储方法及装置
CN113050891B (zh) 重删数据保护方法及装置
CN112052218A (zh) 快照实现方法及分布式存储集群
US11079956B2 (en) Storage system and storage control method
US20230236759A1 (en) Scanning pages of shared memory
CN111913664B (zh) 一种数据写入方法及装置
CN113050892B (zh) 重删数据保护方法及装置
CN113568583B (zh) 重删数据保护方法及装置
CN113568584B (zh) 重删数据保护方法及装置
CN112052217B (zh) 快照实现方法及装置
CN117519612B (zh) 基于索引在线拼接的海量小文件存储系统与方法
CN112162703B (zh) 缓存实现方法及缓存管理模块
CN112052124B (zh) 数据冗余方法及分布式存储集群

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant