CN105095027A - 一种数据备份方法及装置 - Google Patents

一种数据备份方法及装置 Download PDF

Info

Publication number
CN105095027A
CN105095027A CN201510578142.0A CN201510578142A CN105095027A CN 105095027 A CN105095027 A CN 105095027A CN 201510578142 A CN201510578142 A CN 201510578142A CN 105095027 A CN105095027 A CN 105095027A
Authority
CN
China
Prior art keywords
data
storage pool
data block
stored
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510578142.0A
Other languages
English (en)
Inventor
付丽莉
于建彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510578142.0A priority Critical patent/CN105095027A/zh
Publication of CN105095027A publication Critical patent/CN105095027A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种数据备份方法,包括:将数据文件分割成一组数据块,为所述数据块计算数据指纹;通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块;如果是,则将标识所述重复数据块存储位置的指针信息进行存储;如果否,则将所述数据块存储于第一数据存储池中;将存储于所述第一数据存储池中的数据备份至第二数据存储池中,所述第二数据存储池与所述第一数据存储池互为镜像。在一方故障后,可以直接切换到另外一方,从而保护了数据的安全性。可见,本发明能够有效提高重复数据删除应用中对重复删除之后的数据的保护。

Description

一种数据备份方法及装置
技术领域
本发明涉及数据存储技术领域,特别是涉及一种数据备份方法及装置。
背景技术
近年来,磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据。在这种情况下,当希望将备份数据保存一个月时,却只能保存两到三天。
我们发现备份设备中总是充斥着大量的冗余数据,因此为了节省更多空间,重复删除技术便顺理成章成为人们所关注的焦点。通过对备份数据中的重复数据进行删除,能够大比例缩减需要存储的数据量,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,减少了数据中心的消耗,降低了成本,而且还可以节约离线存储时所需的大量的带宽。
存在于数据重复删除中较大的风险是来自硬件故障的灾难性的数据损失,这是由于任何特定的备份工作的数据被切成块,分散在整个重复数据删除设备中。如果在重复删除设备中损失了一个RAID设置,就会损失很多数据。
因此,提供一种数据备份方法及装置,来对唯一数据进行保护是非常有必要的。
发明内容
本发明的目的是提供一种数据备份方法及装置,目的在于提高重复数据删除应用中对唯一数据的保护。
为解决上述技术问题,本发明提供一种数据备份方法,包括:
将数据文件分割成一组数据块,为所述数据块计算数据指纹;
通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块;
如果是,则将标识所述重复数据块存储位置的指针信息进行存储;如果否,则将所述数据块存储于第一数据存储池中;
将存储于所述第一数据存储池中的数据备份至第二数据存储池中,所述第二数据存储池与所述第一数据存储池互为镜像。
可选地,所述将数据文件分割成一组数据块包括:
按照定长分块算法或者滑动块切分的方法将所述数据文件分割成一组数据块。
可选地,所述为所述数据块计算数据指纹包括:
通过MD5或HASH算法为所述数据块计算数据指纹。
可选地,所述通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块包括:
根据预先建立的哈希表,以所述数据指纹为关键字进行哈希查找,判断所述数据块是否为与已存储的数据块所重复的重复数据块。
可选地,所述将存储于所述第一数据存储池中的数据备份至第二数据存储池中包括:
将存储于所述第一数据存储池中的数据同步或按照预定周期异步备份至所述第二数据存储池中。
可选地,所述将存储于所述第一数据存储池中的数据备份至所述第二数据存储池中包括:
当前备份在上一次备份的时间戳上进行。
本发明还提供了一种数据备份装置,包括:
计算模块,用于将数据文件分割成一组数据块,为所述数据块计算数据指纹;
判断模块,用于通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块;
存储模块,用于当所述数据块是重复数据块时,则将标识所述重复数据块存储位置的指针信息进行存储;当所述数据块不是重复数据块时,则将所述数据块存储于第一数据存储池中;
备份模块,用于将存储于所述第一数据存储池中的数据备份至第二数据存储池中,所述第二数据存储池与所述第一数据存储池互为镜像。
可选地,所述计算模块通过MD5或HASH算法为所述数据块计算数据指纹。
可选地,所述判断模块具体用于根据预先建立的哈希表,以所述数据指纹为关键字进行哈希查找,判断所述数据块是否为与已存储的数据块所重复的重复数据块。
可选地,所述备份模块具体用于将存储于所述第一数据存储池中的数据同步或按照预定周期异步备份至第二数据存储池中。
本发明所提供的数据备份方法及装置,通过将数据文件分割成一组数据块,计算出该数据块的数据指纹。根据该数据指纹判断其是否为重复数据块;如果是,则仅存储数据块的指针信息,如果否,则将该数据块存储在第一数据存储池上;并在另外一个物理隔离的第二数据存储池上,对该数据块进行备份。其中,第二数据存储池与第一数据存储池互为镜像,在一方故障后,可以直接切换到另外一方,从而保护了数据的安全性。可见,本发明能够有效提高重复数据删除应用中对重复删除之后的数据的保护。
附图说明
图1为本发明所提供的数据备份方法的一种具体实施方法的流程图;
图2为本发明所提供的数据备份方法的另一种具体实施方法的流程图;
图3为本发明所提供的数据备份装置的一种具体实施方法的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所提供的数据备份方法的一种具体实施方式的流程图如图1所示,该方法包括:
步骤S101:将数据文件分割成一组数据块,为所述数据块计算数据指纹;
步骤S102:通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块;
步骤S103:如果是,则将标识所述重复数据块存储位置的指针信息进行存储;如果否,则将所述数据块存储于第一数据存储池中;
步骤S104:将存储于所述第一数据存储池中的数据备份至第二数据存储池中,所述第二数据存储池与所述第一数据存储池互为镜像。
本发明所提供的数据备份方法,通过将数据文件分割成一组数据块,计算出该数据块的数据指纹。根据该数据指纹判断其是否为重复数据块;如果是,则仅存储数据块的指针信息,如果否,则将该数据块存储在第一数据存储池上;并在另外一个物理隔离的第二数据存储池上,对该数据块进行备份。其中,第二数据存储池与第一数据存储池互为镜像,在一方故障后,可以直接切换到另外一方,从而保护了数据的安全性。可见,本发明所提供的数据备份方法,能够有效提高重复数据删除应用中对重复删除之后的数据的保护。
本发明所提供的数据备份方法的另一种具体实施方法的流程图如图2所示,该方法包括:
步骤S201:按照定长分块算法或者滑动块切分的方法将所述数据文件分割成一组数据块;
Dedupe按照消重的粒度可以分为文件级和数据块级。其中,主流的dedupe产品都是数据块级的。
在本实施例中,具体采用定长分块算法或者滑动块切分的方法将数据文件进行分割。其中,定长分块算法的优点是简单、性能高,但其对数据插入和删除非常敏感,处理十分低效,不能根据内容变化作调整和优化。滑动块切分的优点是重删的力度增强,可以发现更多的重删数据块,但也增加了计算量。当然,对文件进行分割还可以采用其他方法,这均不影响本发明的实现。
步骤S202:通过MD5或HASH算法为所述数据块计算数据指纹;
数据指纹是数据块的本质特征,理想状态是每个唯一数据块具有唯一的数据指纹,不同的数据块具有不同的数据指纹。数据块本身往往较大,因此数据指纹的目标是期望以较小的数据表示(如16、32、64、128字节)来区别不同数据块。数据指纹通常是对数据块内容进行相关数学运算获得,MD5和SHA系列HASH函数具有非常低的碰撞发生概率,因此通常被采用作为指纹计算方法,还可以同时使用多种Hash算法来为数据块计算指纹。
需要指出的是,本发明并不限于上述提到的计算数据指纹的方法,其他能够计算得到数据指纹的方法均可。
步骤S203:根据预先建立的哈希表,以所述数据指纹为关键字进行哈希查找,判断所述数据块是否为与已存储的数据块所重复的重复数据块;
哈希表,即散列表,是根据关键码值(Keyvalue)而直接进行访问的数据结构。通过把关键码值映射到表中一个位置来访问记录,能够加快查找的速度。为每个数据块计算指纹,然后以指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块。
步骤S204:如果是,则将标识所述重复数据块存储位置的指针信息进行存储;如果否,则将所述数据块存储于第一数据存储池中;
当数据块为重复数据块时,仅存储数据块的索引号,否则表示该数据块是一个新的唯一块,将对比后的唯一数据保存在第一数据存储池中并创建相关元信息。该存储池中除了保存了唯一性的实体数据外,还有大量的原数据和指针。
步骤S205:将存储于所述第一数据存储池中的数据同步或按照预定周期异步备份至第二数据存储池中。
正常情况下,备份数据直接保存到第一数据存储池,当然也可以同步在第二数据存储池中,或者选取备份任务在空闲时段,再从第一数据存储池拷贝到第二数据存储池。
第二数据存储池作为第一数据存储池的互备存储池,当第一数据存储池发生故障时,可以自动切换到第二数据存储池中,先进行备份数据的保存,再备份到第一数据存储池中。
在本实施例中,通过指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块,仅存储数据块的索引号,否则表示该数据块是一个新的唯一块,对数据块进行存储并创建相关元信息。这样,一个物理文件在存储系统就对应一个逻辑表示,由一组FP(指纹点)组成的元数据。当进行读取文件时,先读取逻辑文件,然后根据FP序列,从存储系统中取出相应数据块,还原物理文件副本。在完成数据备份到唯一数据的第一数据存储池后,再将该存储池作依次到第二数据存储池的备份,这个备份会在上一次备份的时间戳上进行,可人工选择进行差分数据同步,或全盘拷贝两种方式。
重删的目的是节约存储空间,而本发明准备了两个存储池,在一定意义上反而增大了存储成本,但这种观点是相当狭隘的。随着切块技术的发展,切块越精细,重复数据块会越多,这样重删比就越大。特别对于重复数据文件特别多的用户,增加一倍的存储空间而有力的进行了重删并保证了重删的安全性,是十分必要的。
重复数据删除是目前主流且非常热门的存储技术,可对存储容量进行有效优化。通过删除重复的数据只保留其中一份,从而消除冗余数据,这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。而本发明通过互备存储池的设计,增加了对唯一数据的保护,增强了数据的安全性,可以有效保护唯一数据存储池因硬件或软件错误导致的数据丢失,适合中小企业内部的备份,能够有效地减少重复数据传输所占用的带宽及存储空间,降低存储成本,具有广泛的实际应用性。
本发明所提供的数据备份装置的一种具体实施方式的结构框图如图3所示,该装置包括:
计算模块100,用于将数据文件分割成一组数据块,为所述数据块计算数据指纹;
判断模块200,用于通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块;
存储模块300,用于当所述数据块是重复数据块时,则将标识所述重复数据块存储位置的指针信息进行存储;当所述数据块不是重复数据块时,则将所述数据块存储于第一数据存储池中;
备份模块400,用于将存储于所述第一数据存储池中的数据备份至第二数据存储池中,所述第二数据存储池与所述第一数据存储池互为镜像。
本发明所提供的数据备份装置,通过将数据文件分割成一组数据块,计算出该数据块的数据指纹。根据该数据指纹判断其是否为重复数据块;如果是,则仅存储数据块的指针信息,如果否,则将该数据块存储在第一数据存储池上;并在另外一个物理隔离的第二数据存储池上,对该数据块进行备份。其中,第二数据存储池与第一数据存储池互为镜像,在一方故障后,可以直接切换到另外一方,从而保护了数据的安全性。可见,本发明能够有效提高重复数据删除应用中对重复删除之后的数据的保护。
本发明所提供的数据备份装置与上述方法相对应,在此不再赘述。
综上所示,本发明所提供的数据备份方法及装置,能够有效保护唯一数据,为存储数据提供双重保护锁;同时有效控制了数据的急剧增长;减少了存储空间,提高了存储效率;还能够节省存储总成本和管理成本;节省数据传输的网络带宽。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据备份方法,其特征在于,包括:
将数据文件分割成一组数据块,为所述数据块计算数据指纹;
通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块;
如果是,则将标识所述重复数据块存储位置的指针信息进行存储;如果否,则将所述数据块存储于第一数据存储池中;
将存储于所述第一数据存储池中的数据备份至第二数据存储池中,所述第二数据存储池与所述第一数据存储池互为镜像。
2.如权利要求1所述的数据备份方法,其特征在于,所述将数据文件分割成一组数据块包括:
按照定长分块算法或者滑动块切分的方法将所述数据文件分割成一组数据块。
3.如权利要求2所述的数据备份方法,其特征在于,所述为所述数据块计算数据指纹包括:
通过MD5或HASH算法为所述数据块计算数据指纹。
4.如权利要求3所述的数据备份方法,其特征在于,所述通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块包括:
根据预先建立的哈希表,以所述数据指纹为关键字进行哈希查找,判断所述数据块是否为与已存储的数据块所重复的重复数据块。
5.如权利要求1至4任一项所述的数据备份方法,其特征在于,所述将存储于所述第一数据存储池中的数据备份至第二数据存储池中包括:
将存储于所述第一数据存储池中的数据同步或按照预定周期异步备份至所述第二数据存储池中。
6.如权利要求5所述的数据备份方法,其特征在于,所述将存储于所述第一数据存储池中的数据备份至所述第二数据存储池中包括:
当前备份在上一次备份的时间戳上进行。
7.一种数据备份装置,其特征在于,包括:
计算模块,用于将数据文件分割成一组数据块,为所述数据块计算数据指纹;
判断模块,用于通过所述数据指纹判断所述数据块是否为与已存储的数据块所重复的重复数据块;
存储模块,用于当所述数据块是重复数据块时,则将标识所述重复数据块存储位置的指针信息进行存储;当所述数据块不是重复数据块时,则将所述数据块存储于第一数据存储池中;
备份模块,用于将存储于所述第一数据存储池中的数据备份至第二数据存储池中,所述第二数据存储池与所述第一数据存储池互为镜像。
8.如权利要求7所述的数据备份装置,其特征在于,所述计算模块通过MD5或HASH算法为所述数据块计算数据指纹。
9.如权利要求8所述的数据备份装置,其特征在于,所述判断模块具体用于根据预先建立的哈希表,以所述数据指纹为关键字进行哈希查找,判断所述数据块是否为与已存储的数据块所重复的重复数据块。
10.如权利要求7至9任一项所述的数据备份装置,其特征在于,所述备份模块具体用于将存储于所述第一数据存储池中的数据同步或按照预定周期异步备份至第二数据存储池中。
CN201510578142.0A 2015-09-11 2015-09-11 一种数据备份方法及装置 Pending CN105095027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510578142.0A CN105095027A (zh) 2015-09-11 2015-09-11 一种数据备份方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510578142.0A CN105095027A (zh) 2015-09-11 2015-09-11 一种数据备份方法及装置

Publications (1)

Publication Number Publication Date
CN105095027A true CN105095027A (zh) 2015-11-25

Family

ID=54575525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510578142.0A Pending CN105095027A (zh) 2015-09-11 2015-09-11 一种数据备份方法及装置

Country Status (1)

Country Link
CN (1) CN105095027A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775449A (zh) * 2016-11-16 2017-05-31 无锡港湾网络科技有限公司 防灾系统数据分布式存储方法
CN107037978A (zh) * 2016-10-31 2017-08-11 福建亿榕信息技术有限公司 数据迁移校正方法及系统
CN107766179A (zh) * 2017-11-06 2018-03-06 郑州云海信息技术有限公司 一种基于源数据重删的备份方法、装置、及存储介质
CN107885619A (zh) * 2017-11-16 2018-04-06 郑州云海信息技术有限公司 一种数据精简去重和镜像异地备份保护的方法及系统
CN108108120A (zh) * 2016-11-25 2018-06-01 捷鼎国际股份有限公司 数据储存系统及其数据储存方法
CN109074295A (zh) * 2016-07-29 2018-12-21 惠普发展公司,有限责任合伙企业 具有真实性的数据恢复
CN110019052A (zh) * 2017-07-26 2019-07-16 先智云端数据股份有限公司 分布式重复数据删除的方法及储存系统
CN111026327A (zh) * 2019-10-22 2020-04-17 苏州浪潮智能科技有限公司 一种基于重删的磁带归档系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120102280A1 (en) * 2010-08-31 2012-04-26 Hiroshi Nasu Management server and data migration method
CN103970852A (zh) * 2014-05-06 2014-08-06 浪潮电子信息产业股份有限公司 一种备份服务器的数据重删方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120102280A1 (en) * 2010-08-31 2012-04-26 Hiroshi Nasu Management server and data migration method
CN103970852A (zh) * 2014-05-06 2014-08-06 浪潮电子信息产业股份有限公司 一种备份服务器的数据重删方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
付印金等: "重复数据删除关键技术研究进展", 《计算机研究与发展》 *
佚名: "XXXX数据库系统双机双柜解决方案", 《百度文库》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109074295A (zh) * 2016-07-29 2018-12-21 惠普发展公司,有限责任合伙企业 具有真实性的数据恢复
CN109074295B (zh) * 2016-07-29 2022-07-05 惠普发展公司,有限责任合伙企业 具有真实性的数据恢复
CN107037978A (zh) * 2016-10-31 2017-08-11 福建亿榕信息技术有限公司 数据迁移校正方法及系统
CN107037978B (zh) * 2016-10-31 2019-11-05 福建亿榕信息技术有限公司 数据迁移校正方法及系统
CN106775449A (zh) * 2016-11-16 2017-05-31 无锡港湾网络科技有限公司 防灾系统数据分布式存储方法
CN108108120A (zh) * 2016-11-25 2018-06-01 捷鼎国际股份有限公司 数据储存系统及其数据储存方法
CN110019052A (zh) * 2017-07-26 2019-07-16 先智云端数据股份有限公司 分布式重复数据删除的方法及储存系统
CN107766179A (zh) * 2017-11-06 2018-03-06 郑州云海信息技术有限公司 一种基于源数据重删的备份方法、装置、及存储介质
CN107885619A (zh) * 2017-11-16 2018-04-06 郑州云海信息技术有限公司 一种数据精简去重和镜像异地备份保护的方法及系统
CN111026327A (zh) * 2019-10-22 2020-04-17 苏州浪潮智能科技有限公司 一种基于重删的磁带归档系统及方法
CN111026327B (zh) * 2019-10-22 2022-12-23 苏州浪潮智能科技有限公司 一种基于重删的磁带归档系统及方法

Similar Documents

Publication Publication Date Title
CN105095027A (zh) 一种数据备份方法及装置
US10031675B1 (en) Method and system for tiering data
CN101989929B (zh) 容灾数据备份的方法及系统
US9223660B2 (en) Storage device to backup content based on a deduplication system
US9141633B1 (en) Special markers to optimize access control list (ACL) data for deduplication
US8165221B2 (en) System and method for sampling based elimination of duplicate data
US11086519B2 (en) System and method for granular deduplication
US8782005B2 (en) Pruning previously-allocated free blocks from a synthetic backup
CN106201771B (zh) 数据存储系统和数据读写方法
CN102323958A (zh) 重复数据删除方法
US10936228B2 (en) Providing data deduplication in a data storage system with parallelized computation of crypto-digests for blocks of host I/O data
CN104932841A (zh) 一种云存储系统中节约型重复数据删除方法
CN107885619A (zh) 一种数据精简去重和镜像异地备份保护的方法及系统
CN102200936A (zh) 适用于云存储的智能配置存储备份方法
CN103959256A (zh) 基于指纹的数据重复删除
EP3785120B1 (en) Fast and optimized restore using delta information
CN102156727A (zh) 一种采用双指纹哈希校验的重复数据删除方法
CN112463077B (zh) 数据块处理方法、装置、设备及存储介质
CN105487942A (zh) 一种基于重复数据删除的备份与远程复制方法
CN107391761B (zh) 一种基于重复数据删除技术的数据管理方法及装置
CN112052121B (zh) 一种硬盘数据的恢复方法及系统
CN104750432A (zh) 一种数据存储方法及装置
CN103049508A (zh) 一种数据处理方法及装置
CN105493080A (zh) 基于上下文感知的重复数据删除的方法和装置
CN109426587B (zh) 一种数据恢复方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151125

RJ01 Rejection of invention patent application after publication