CN107357687A - 一种容灾备份新型重复数据删除实现方法 - Google Patents

一种容灾备份新型重复数据删除实现方法 Download PDF

Info

Publication number
CN107357687A
CN107357687A CN201710598484.8A CN201710598484A CN107357687A CN 107357687 A CN107357687 A CN 107357687A CN 201710598484 A CN201710598484 A CN 201710598484A CN 107357687 A CN107357687 A CN 107357687A
Authority
CN
China
Prior art keywords
band
physical
data
physical volume
disaster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710598484.8A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Shu Tong Mdt Infotech Ltd
Original Assignee
Changsha Shu Tong Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Shu Tong Mdt Infotech Ltd filed Critical Changsha Shu Tong Mdt Infotech Ltd
Priority to CN201710598484.8A priority Critical patent/CN107357687A/zh
Publication of CN107357687A publication Critical patent/CN107357687A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种容灾备份新型重复数据删除实现方法,该方法通过容灾备份一体机的RAID机制,将多个物理盘按指定条带大小组成一个大的物理卷,该方法采用针对指定的条带为重复数据删除的去重粒度建立哈希值,写入的数据通过比对整条带的哈希值进行重复数据删除。该方法物理卷的指定条带大小有16KB、32KB、64KB、128KB、256KB和512KB等六种,每个指定条带限定为单个数据请求写入,未写入数据块则以“0”值填充。

Description

一种容灾备份新型重复数据删除实现方法
技术领域
本发明专利涉及计算机容灾备份领域。
背景技术
备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。就在几年前,D2D备份似乎还好得令人难以置信。受价格低廉的 ATA(以及稍后的SATA)硬盘的影响,很多人会选择用D2D取代虚拟磁带库或做备份到磁盘的工作,使备份速度变得更快,不必再担心在磁带驱动器和磁带库上产生的机械故障,并且使文件恢复变得更加轻松。
但是今天,我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。重复数据删除技术支持在已有的磁盘设备上存储更多的备份数据。因此采用“重复数据删除”技术可以增加您保存备份数据的时间,减少数据中心的消耗,降低成本。如果您删除重复数据后再通过WAN发送,那么您就能够节省大量的带宽,并且可以取代磁带实现网上离线备份。
重复数据删除按基于去重粒度的分类分为全文件层次的重复数据删除、文件块消冗和字节级消冗。全文件层次的重复数据删除以整个文件为单位来检测和删除重复数据,计算整个文件的哈希值,然后根据文件哈希值查找存储系统中是否存在相同的文件。这种方法的好处是在普通硬件条件下计算速度非常快;这种方法的缺点是即使不同文件存在很多相同的数据,也无法删除文件中的重复数据;文件块消冗将一个文件按不同的方式划分成数据块,以数据块为单位进行检测,该方法的优点是计算速度快、对数据变化较敏感;字节级消冗从字节层次查找和删除重复的内容,一般通过差异压缩策略生成差异部分内容。该方法的优点是去重率比较高,缺点就是去重速度比较慢。
善于抓住机会赚钱的厂商们声称他们的新一代“删除重复数据”产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量,然而当我们只关注了重复数据删除比的时,却忽略了重复数据删除技术唯一的缺点是备份速度变慢。
发明专利内容
本发明专利涉及一种容灾备份新型重复数据删除实现方法,该方法通过容灾备份一体机的RAID机制,将多个物理盘按指定条带大小组成一个大的物理卷,该方法采用针对指定的条带为重复数据删除的去重粒度建立哈希值,写入的数据通过比对整条带的哈希值进行重复数据删除。
该方法物理卷的指定条带大小有16KB、32KB、64KB、128KB、256KB和512KB等六种,每个指定条带限定为单个数据请求写入,未写入数据块则以“0”值填充。
附图说明
图1为本发明专利的一种容灾备份新型重复数据删除实现方法结构示意图。
具体实施方式
为了使本发明专利的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明专利进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明专利,并不用于限定本发明专利。
请参阅图1,图1为本发明专利的一种容灾备份新型重复数据删除实现方法结构示意图。
一种容灾备份新型重复数据删除实现方法,其特征在于,所述方法包含物理卷指定条带1(10)、物理卷指定条带1数据块(11)、物理卷指定条带2(12)、物理卷指定条带2数据块(13)、容灾备份一体机(14)、物理盘a(15a)、物理盘b(15b)、物理盘c(15c)、物理盘d(15d)、物理卷(16)、应用主机(17)、应用写入数据(18),该方法将容灾备份一体机(14)的物理盘a(15a)、物理盘b(15b)、物理盘c(15c)和物理盘d(15d)组建成物理卷(16),物理卷(16)按指定条带大小划分为物理卷指定条带1(10)、物理卷指定条带2(12)等多个条带,应用主机(17)每次的应用写入数据(18)到物理卷(16)前,都会按条带大小补充“0”值为整条带(19),整条带(19)会比对哈希值,如是重复数据则仅进行标记,如不是重复数据则整条带(19)写入。
一种容灾备份新型重复数据删除实现方法,其特征在于,该方法物理卷(16)中物理卷指定条带1(10)的条带大小分为16KB、32KB、64KB、128KB、256KB和512KB等六种。
一种容灾备份新型重复数据删除实现方法,其特征在于,该方法重复数据删除的粒度以物理卷(16)中物理卷指定条带1(10)的条带大小为固定粒度计算哈希值。
一种容灾备份新型重复数据删除实现方法,其特征在于,该方法物理卷(16)的物理卷指定条带1(10)和物理卷指定条带2(12)等条带,仅允许单个数据写入请求进行写入,即写入数据(18)如需写入物理卷(16)前,会补充“0”值为整条带(19)再写入指定位置条带。
一种容灾备份新型重复数据删除实现方法,其特征在于,该方法物理卷(16)由物理盘a(15a)、物理盘b(15b)、物理盘c(15c)和物理盘d(15d),同时物理卷(16)可由大于等于2块、小于等于32块的物理盘组成即可。
以上所述仅为本发明专利的较佳实施例而已,并不用以限制本发明专利,凡在本发明专利的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明专利的保护范围之内。

Claims (5)

1.一种容灾备份新型重复数据删除实现方法,其特征在于,所述方法包含物理卷指定条带1(10)、物理卷指定条带1数据块(11)、物理卷指定条带2(12)、物理卷指定条带2数据块(13)、容灾备份一体机(14)、物理盘a(15a)、物理盘b(15b)、物理盘c(15c)、物理盘d(15d)、物理卷(16)、应用主机(17)、应用写入数据(18),该方法将容灾备份一体机(14)的物理盘a(15a)、物理盘b(15b)、物理盘c(15c)和物理盘d(15d)组建成物理卷(16),物理卷(16)按指定条带大小划分为物理卷指定条带1(10)、物理卷指定条带2(12)等多个条带,应用主机(17)每次的应用写入数据(18)到物理卷(16)前,都会按条带大小补充“0”值为整条带(19),整条带(19)会比对哈希值,如是重复数据则仅进行标记,如不是重复数据则整条带(19)写入。
2.根据权利要求1所述的一种容灾备份新型重复数据删除实现方法,其特征在于,该方法物理卷(16)中物理卷指定条带1(10)的条带大小分为16KB、32KB、64KB、128KB、256KB和512KB等六种。
3.根据权利要求1所述的一种容灾备份新型重复数据删除实现方法,其特征在于,该方法重复数据删除的粒度以物理卷(16)中物理卷指定条带1(10)的条带大小为固定粒度计算哈希值。
4.根据权利要求1所述的一种容灾备份新型重复数据删除实现方法,其特征在于,该方法物理卷(16)的物理卷指定条带1(10)和物理卷指定条带2(12)等条带,仅允许单个数据写入请求进行写入,即写入数据(18)如需写入物理卷(16)前,会补充“0”值为整条带(19)再写入指定位置条带。
5.根据权利要求1所述的一种容灾备份新型重复数据删除实现方法,其特征在于,该方法物理卷(16)由物理盘a(15a)、物理盘b(15b)、物理盘c(15c)和物理盘d(15d),同时物理卷(16)可由大于等于2块、小于等于32块的物理盘组成即可。
CN201710598484.8A 2017-07-21 2017-07-21 一种容灾备份新型重复数据删除实现方法 Pending CN107357687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710598484.8A CN107357687A (zh) 2017-07-21 2017-07-21 一种容灾备份新型重复数据删除实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710598484.8A CN107357687A (zh) 2017-07-21 2017-07-21 一种容灾备份新型重复数据删除实现方法

Publications (1)

Publication Number Publication Date
CN107357687A true CN107357687A (zh) 2017-11-17

Family

ID=60286427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710598484.8A Pending CN107357687A (zh) 2017-07-21 2017-07-21 一种容灾备份新型重复数据删除实现方法

Country Status (1)

Country Link
CN (1) CN107357687A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667153A (zh) * 2020-12-22 2021-04-16 军事科学院系统工程研究院网络信息研究所 一种基于分布式raid切片的多站点容灾备份方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102549554A (zh) * 2009-09-29 2012-07-04 美光科技公司 基于条带的存储器操作
US20130007339A1 (en) * 2011-06-28 2013-01-03 Hitachi, Ltd. Storage apparatus and its control method
CN103733175A (zh) * 2013-08-09 2014-04-16 华为技术有限公司 一种文件处理方法、装置及存储设备
CN104871155A (zh) * 2012-10-01 2015-08-26 西部数据技术公司 优化用于去重的数据块大小
CN104978151A (zh) * 2015-06-19 2015-10-14 浪潮电子信息产业股份有限公司 基于应用感知的重复数据删除存储系统中的数据重构方法
WO2017068904A1 (ja) * 2015-10-19 2017-04-27 株式会社日立製作所 ストレージシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102549554A (zh) * 2009-09-29 2012-07-04 美光科技公司 基于条带的存储器操作
US20130007339A1 (en) * 2011-06-28 2013-01-03 Hitachi, Ltd. Storage apparatus and its control method
CN104871155A (zh) * 2012-10-01 2015-08-26 西部数据技术公司 优化用于去重的数据块大小
CN103733175A (zh) * 2013-08-09 2014-04-16 华为技术有限公司 一种文件处理方法、装置及存储设备
CN104978151A (zh) * 2015-06-19 2015-10-14 浪潮电子信息产业股份有限公司 基于应用感知的重复数据删除存储系统中的数据重构方法
WO2017068904A1 (ja) * 2015-10-19 2017-04-27 株式会社日立製作所 ストレージシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667153A (zh) * 2020-12-22 2021-04-16 军事科学院系统工程研究院网络信息研究所 一种基于分布式raid切片的多站点容灾备份方法

Similar Documents

Publication Publication Date Title
Ng et al. Revdedup: A reverse deduplication storage system optimized for reads to latest backups
JP5965541B2 (ja) ストレージ装置及びストレージ装置の制御方法
US7567188B1 (en) Policy based tiered data deduplication strategy
Nam et al. Chunk fragmentation level: An effective indicator for read performance degradation in deduplication storage
CN103761053B (zh) 一种数据处理方法和装置
US9870176B2 (en) Storage appliance and method of segment deduplication
US10936228B2 (en) Providing data deduplication in a data storage system with parallelized computation of crypto-digests for blocks of host I/O data
CN102323958A (zh) 重复数据删除方法
CN103577336B (zh) 一种存储数据处理方法及装置
CN103761059B (zh) 一种用于海量数据管理的多盘位存储方法及系统
WO2012126317A1 (zh) 文件存储方法和装置
CN103514247A (zh) 将去除了重复的数据打包到有限大小容器中的方法和系统
JP2013514561A (ja) ストレージシステム
Zou et al. The dilemma between deduplication and locality: Can both be achieved?
CN102722340A (zh) 数据处理方法、装置及系统
CN104462388B (zh) 一种基于级联式存储介质的冗余数据清理方法
WO2021082422A1 (zh) 一种存储系统空间回收的兼容处理方法、系统及设备
CN103049508B (zh) 一种数据处理方法及装置
CN106020722A (zh) 一种云存储系统的重复数据去重方法、装置及系统
Yan et al. An Effective RAID Data Layout for Object‐Based De‐duplication Backup System
CN105493080A (zh) 基于上下文感知的重复数据删除的方法和装置
CN106528703A (zh) 一种重复删除的模式切换方法及装置
CN107357687A (zh) 一种容灾备份新型重复数据删除实现方法
Kaczmarczyk et al. Reducing fragmentation impact with forward knowledge in backup systems with deduplication
US11513702B2 (en) Placement of metadata on data storage drives in a first storage enclosure of a data storage system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171117

WD01 Invention patent application deemed withdrawn after publication