CN111026327A - 一种基于重删的磁带归档系统及方法 - Google Patents

一种基于重删的磁带归档系统及方法 Download PDF

Info

Publication number
CN111026327A
CN111026327A CN201911006490.5A CN201911006490A CN111026327A CN 111026327 A CN111026327 A CN 111026327A CN 201911006490 A CN201911006490 A CN 201911006490A CN 111026327 A CN111026327 A CN 111026327A
Authority
CN
China
Prior art keywords
data
unique
backup
repeated
storage pool
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911006490.5A
Other languages
English (en)
Other versions
CN111026327B (zh
Inventor
付丽莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911006490.5A priority Critical patent/CN111026327B/zh
Publication of CN111026327A publication Critical patent/CN111026327A/zh
Application granted granted Critical
Publication of CN111026327B publication Critical patent/CN111026327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于重删的磁带归档系统及方法,系统包括业务数据生成模块、备份服务器和物理带库;备份服务器上设置有磁盘、重复数据删除模块、唯一数据存储池以及重复数据计算模块;唯一数据存储池设置在磁盘上;重复数据删除模块,用于接收业务数据模块生成的备份数据文件,并删除其中已在唯一数据存储池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池;重复数据计算模块,用于计算唯一数据存储池中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库,释放唯一存储池的磁盘空间。

Description

一种基于重删的磁带归档系统及方法
技术领域
本发明属于存储系统技术领域,具体涉及一种基于重删的磁带归档系统及方法。
背景技术
备份设备中总是充斥着大量的冗余数据,通常采用的备份设备为磁盘,但备份磁盘的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天,而且磁盘的价格也太高。若采用大容量的备份设备,如磁带,虽然容量能够保证,价格也比较低,但是数据读写速率较低,无法满足大容量的数据备份需求。如何能将客户有用的数据快速备份又节约成本是本发明将要解决的问题。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种基于重删的磁带归档系统及方法,是非常有必要的。
发明内容
针对现有技术的上述数据存储中,缺少数据备份快速又节约成本技术方案的缺陷,本发明提供一种基于重删的磁带归档系统及方法,以解决上述技术问题。
第一方面,本发明提供一种基于重删的磁带归档系统,包括业务数据生成模块、备份服务器和物理带库;
备份服务器上设置有磁盘、重复数据删除模块、唯一数据存储池以及重复数据计算模块;
唯一数据存储池设置在磁盘上;
重复数据删除模块,用于接收业务数据模块生成的备份数据文件,并删除其中已在唯一数据存储池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池;
重复数据计算模块,用于计算唯一数据存储池中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库,释放唯一存储池的磁盘空间。业务数据生成模块为产生应用数据的服务器,支持目前主流的操作系统包括Windows NT/2000/2003,HP-UX,Solaris,AIX,True64,Mac OS,Irix,Red Hat/SuSE/Turbo/Miracle/Red FlagLinux。
进一步地,还包括光纤交换机;
重复数据计算模块将备份重复率低于阈值的唯一数据通过光纤交换机转发迁移至物理带库。
进一步地,重复数据删除模块包括:
备份数据接收单元,用于接收业务数据模块生成的备份数据文件;
数据块划分单元,用于将备份数据文件划分成若干数据块;
重复数据判断单元,用于依次判断每个数据块是否为已在唯一数据存储池中存在的重复数据块;
唯一数据存储单元,用于当数据块不是已在唯一数据存储池中存在的重复数据块时,存储该数据块到唯一数据存储池,并在唯一数据存储池为该数据块创建目录号;
重复数据删除单元,用于当数据块是已在唯一数据存储池中存在的重复数据块时,删除该重复数据块;
逻辑文件生成单元,用于根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件,并将逻辑文件存储到唯一数据存储池。
进一步地,重复数据计算模块包括:
统计时间段设定单元,用于设定统计时间段;
重复率阈值设定单元,用于设定重复率阈值;
使用重复率计算单元,用于计算唯一数据池中每个数据块在统计时间段内的备份重复率;
低重复率数据查找单元,用于查找备份重复率低于重复率阈值的数据块,并将其迁移至物理带库,释放唯一数据存储池的磁盘空间。
第二方面,本发明提供一种基于重删的磁带归档方法,包括如下步骤:
S1.重复数据删除模块接收业务数据模块生成的备份数据文件,并删除其中已在唯一数据池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池;
S2.重复数据计算模块计算唯一数据存储池中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库,是否唯一数据存储池的磁盘空间。
进一步地,步骤S1具体步骤如下:
S11.重复数据删除模块接收业务数据模块生成的备份数据文件;
S12.重复数据删除模块将磁盘中数据文件划分成若干数据块;
S13.依次判断每个数据块是否为已在唯一数据池中存在的重复数据块;
若否,则重复数据删除模块存储该数据块到唯一数据存储池,并在唯一数据存储池为该数据块创建目录号;
若是,则重复数据删除模块获取该重复数据块在唯一数据存储池的目录号,同时删除该重复数据块;
S14.重复数据删除模块根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件,并将逻辑文件存储到唯一数据存储池。重复数据删除可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据复制大量节省网络带宽。用户使用数据块时,先读取逻辑文件,根据逻辑文件找到对应数据块的目录号,再根据目录号对数据块进行读取。
进一步地,步骤S13具体步骤如下:
S131.重复数据删除模块计算每个数据块的指纹;
S132.重复数据删除模块以每个数据块的指纹为关键字进行hash查找,判断在唯一数据存储池中是否有对应指纹匹配;
若否,则该数据块不是已在唯一数据池中存在的重复数据块;
若是,则该数据块为已在唯一数据池中存在的重复数据块。数据块的指纹通常采用具有非常低的碰撞发生概率的MD5和SHA系列HASH函数进行计算,也可采用多种算法结合进行指纹计算。
进一步地,步骤S2具体步骤如下:
S21.重复数据计算模块设定统计时间段;
S22.重复数据计算模块设定重复率阈值;
S23.重复数据计算模块计算唯一数据池中每个数据块在统计时间段内的备份重复率;
S24.重复数据计算模块查找备份重复率低于重复率阈值的数据块,并将其迁移至物理带库,释放唯一数据存储池的磁盘空间。定期对唯一数据中低重复备份率数据块作识别并归档到作为磁带的物理带库,从而减少唯一数据占用的磁盘空间,降低备份成本。
进一步地,步骤S24具体步骤如下:
S241.重复数据计算模块通过查找获取备份重复率低于重复率阈值的数据块;
S242.重复数据计算模块将备份重复率低于重复率阈值的数据块迁移至物理带库,并在物理带库中为其生成目录号;
S243.重复数据计算模块在唯一数据存储池中记录被迁移数据块的目录号,同时更新逻辑文件中对应的目录号。客户需要恢复数据时,对于高重复备份率的数据块根据逻辑文件找到对应数据块在唯一数据存储池的目录号,直接从磁盘读取即可,对于低重复备份率的数据块根据逻辑文件找到对应数据块在物理带库的目录号,再根据目录号从物理带库读取数据。
进一步地,步骤S24中,在客户业务空闲时段,重复数据计算模块将备份重复率低于重复率阈值的数据块迁移至物理带库,释放唯一数据存储池的磁盘空间。在空闲时间段再将低重复备份率的备份数据迁移到物理带库上,进行长期保存,节省数据传输的网络带宽。
本发明的有益效果在于,
本发明提供的基于重删的磁带归档系统及方法,通过磁盘存储经过重复删除的唯一数据,并将低备份重复率的唯一数据转存到物理带库,有效避免了备份文件需要无限多磁盘空间,在保证存储效率的前提下,节约了存储总成本和管理成本。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的系统连接示意图一;
图2是本发明的系统连接示意图二;
图3是本发明的方法流程示意图一;
图4是本发明的方法流程示意图二;
图5是本发明的方法流程示意图三;
图中,1-业务数据生成模块;2-备份服务器;3-物理带库;4-重复数据删除模块;4.1-备份数据接收单元;4.2-数据块划分单元;4.3-重复数据判断单元;4.4-唯一数据存储单元;4.5-重复数据删除单元;5-唯一数据存储池;6-重复数据计算模块;6.1-统计时间段设定单元;6.2-重复率阈值设定单元;6.3-使用重复率计算单元;6.4-低重复率数据查找单元;7-光纤交换机。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
用户对备份数据文件备份时,针对大容量的冗余数据,首先采用重复数据删除,将存储的数据缩减为原来的1/20,甚至1/300,从而节省出更多的备份空间,不仅可以使磁盘上的备份数据文件保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。但是去重后的唯一数据随着备份时间推移容量不断扩大,需要定期归档。采用磁盘存储好处是读写速度快,但磁盘价格较高,若采用磁盘归档,则成本太高,所以我们采用价格较低,且容量大的作为物理带库的磁带进行归档。我们将最近一个月或数个月的数据备份文件存储于磁盘中的唯一数据,根据数据块重复性的高低,选取出低重复性的唯一数据,定期归档到磁带中,以释放磁盘空间。
实施例1:
如图1所示,本发明提供一种基于重删的磁带归档系统,包括业务数据生成模块1、备份服务器2和物理带库3;
备份服务器2上设置有磁盘、重复数据删除模块4、唯一数据存储池5以及重复数据计算模块6;
唯一数据存储池5设置在磁盘上;
重复数据删除模块4,用于接收业务数据模块1生成的备份数据文件,并删除其中已在唯一数据存储池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池5;
重复数据计算模块6,用于计算唯一数据存储池5中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库3,释放唯一存储池5的磁盘空间。业务数据生成模块为产生应用数据的服务器,支持目前主流的操作系统包括Windows NT/2000/2003,HP-UX,Solaris,AIX,True64,Mac OS,Irix,Red Hat/SuSE/Turbo/Miracle/Red FlagLinux。
实施例2:
如图2所示,本发明提供一种基于重删的磁带归档系统,包括业务数据生成模块1、备份服务器2、物理带库3和光纤交换机7;
备份服务器2上设置有磁盘、重复数据删除模块4、唯一数据存储池5以及重复数据计算模块6;
唯一数据存储池5设置在磁盘上;
重复数据删除模块4,用于接收业务数据模块1生成的备份数据文件,并删除其中已在唯一数据存储池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池5,释放唯一存储池5的磁盘空间;重复数据删除模块4包括:
备份数据接收单元4.1,用于接收业务数据模块生成的备份数据文件;
数据块划分单元4.2,用于将备份数据文件划分成若干数据块;
重复数据判断单元4.3,用于依次判断每个数据块是否为已在唯一数据存储池中存在的重复数据块;
唯一数据存储单元4.4,用于当数据块不是已在唯一数据存储池中存在的重复数据块时,存储该数据块到唯一数据存储池,并在唯一数据存储池为该数据块创建目录号;
重复数据删除单元4.5,用于当数据块是已在唯一数据存储池中存在的重复数据时,获取该重复数据块在唯一数据存储池中的目录号,同时删除该重复数据块;
逻辑文件生成单元4.6,用于根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件,并将逻辑文件存储到唯一数据存储池;
重复数据计算模块6,用于计算唯一数据存储池5中唯一数据的使用重复率,并将使用重复率低于阈值的唯一数据通过光纤交换机7迁移至物理带库3;重复数据计算模块6包括:
统计时间段设定单元6.1,用于设定统计时间段;
重复率阈值设定单元6.2,用于设定重复率阈值;
使用重复率计算单元6.3,用于计算唯一数据池中每个数据块在统计时间段内的备份重复率;
低重复率数据查找单元6.4,用于查找备份重复率低于重复率阈值的数据块,并将其迁移至物理带库,释放唯一数据存储池的磁盘空间。
实施例3:
如图3所示,本发明提供一种基于重删的磁带归档方法,包括如下步骤:
S1.重复数据删除模块接收业务数据模块生成的备份数据文件,并删除其中已在唯一数据池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池;
S2.重复数据计算模块计算唯一数据存储池中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库,释放唯一数据存储池的磁盘空间。客户的业务应用随着时间的推移必定产生重复的内容,对于这些重复的数据,通过重复数据删除得到唯一数据,我们可以备份到基于磁盘的一级存储区,因为磁盘的高速读写速度,能够缩短用户的备份时间提高备份效率。再根据用户需要设置归档策略,长期存在的唯一数据按照用户定义的策略定期迁入物理磁带库中,定期对唯一数据中低重复性数据块作识别,并归档到磁带,从而减少唯一数据磁盘空间,降低备份成本。
实施例4:
如图4所示,本发明提供一种基于重删的磁带归档方法,包括如下步骤:
S1.重复数据删除模块接收业务数据模块生成的备份数据文件,并删除其中已在唯一数据池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池;步骤S1具体步骤如下:
S11.重复数据删除模块接收业务数据模块生成的备份数据文件;
S12.重复数据删除模块将备份数据文件划分成若干数据块;
S13.重复数据删除模块依次判断每个数据块是否为已在唯一数据池中存在的重复数据块;
若否,则重复数据删除模块存储该数据块到唯一数据存储池,并在唯一数据存储池为该数据块创建目录号;
若是,则重复数据删除模块获取该重复数据块在唯一数据存储池的目录号,同时删除该重复数据块;
S14.重复数据删除模块根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件,并将逻辑文件存储到唯一数据存储池;重复数据删除可以减少在网络中传输的数据量,进而降低能量消耗和网络成本,并为数据复制大量节省网络带宽;用户使用数据块时,先读取逻辑文件,根据逻辑文件找到对应数据块的目录号,再根据目录号对数据块进行读取;
S2.重复数据计算模块计算唯一数据存储池中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库,释放唯一数据存储池的磁盘空间;步骤S2具体步骤如下:
S21.重复数据计算模块设定统计时间段;
S22.重复数据计算模块设定重复率阈值;
S23.重复数据计算模块计算唯一数据池中每个数据块在统计时间段内的备份重复率;
S24.重复数据计算模块查找备份重复率低于重复率阈值的数据块,并将其迁移至物理带库,释放唯一数据存储池的磁盘空间;定期对唯一数据中低重复备份率数据块作识别并归档到作为磁带的物理带库,从而减少唯一数据占用的磁盘空间,降低备份成本。
上述实施例4的步骤S24中,在客户业务空闲时段,将备份重复率低于重复率阈值的数据块迁移至物理带库,释放唯一数据存储池的磁盘空间;在空闲时间段再将低重复备份率的备份数据迁移到物理带库上,进行长期保存,节省数据传输的网络带宽。
重复数据删除首先将备份数据文件分割成一组数据块,为每个数据块计算指纹,然后以指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块,仅存储数据块作为目录的索引号,否则表示该数据块是一个新的唯一块,对数据块进行存储并创建相关元信息。这样,一个物理文件在存储系统就对应一个逻辑表示,由一组FP(指纹点)组成的元数据。当进行读取文件时,先读取逻辑文件,然后根据FP序列,从存储系统中取出相应数据块,还原物理文件副本。而基于块级别的重复数据删除,备份发起后只传输变化的数据块,对于重复数据只传输指针,指向存储池中已经写入的原始数据位置。
实施例5:
如图5所示,本发明提供一种基于重删的磁带归档方法,包括如下步骤:
S1.重复数据删除模块接收业务数据模块生成的备份数据文件,并删除其中已在唯一数据池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池;步骤S1具体步骤如下:
S11.重复数据删除模块接收业务数据模块生成的备份数据文件;
S12.重复数据删除模块将磁盘中数据文件划分成若干数据块;
S13.重复数据删除模块依次判断每个数据块是否为重复数据;
若否,则重复数据删除模块存储该数据块到唯一数据存储池,并在唯一数据存储池为该数据块创建目录号;
若是,则重复数据删除模块获取该重复数据块在唯一数据存储池的目录号,同时删除该重复数据块;步骤S13具体步骤如下:
S131.重复数据删除模块计算每个数据块的指纹;数据指纹是数据块的本质特征,理想状态是每个唯一数据块具有唯一的数据指纹,不同的数据块具有不同的数据指纹;数据块本身往往较大,因此数据指纹的目标是期望以较小的数据表示(如16、32、64、128字节)来区别不同数据块;数据块的指纹通常采用具有非常低的碰撞发生概率的MD5和SHA系列HASH函数进行计算,也可采用多种算法结合进行指纹计算;
S132.重复数据删除模块以每个数据块的指纹为关键字进行hash查找,判断在唯一数据存储池中是否有对应指纹匹配;散列表也叫哈希表,是根据关键码值(Key value)而直接进行访问的数据结构;通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度;为每个数据块计算指纹,然后以指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块,仅存储作为数据块目录的索引号,否则表示该数据块是一个新的唯一块,对数据块进行存储并创建相关元信息;
若否,该数据块不是已在唯一数据池中存在的重复数据块;
若是,则该数据块为已在唯一数据池中存在的重复数据块;
S14.重复数据删除模块根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件,并将逻辑文件存储到唯一数据存储池;
S2.重复数据计算模块计算唯一数据存储池中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库,释放唯一数据存储池的磁盘空间;步骤S2具体步骤如下:
S21.重复数据计算模块设定统计时间段;
S22.重复数据计算模块设定重复率阈值;
S23.重复数据计算模块计算唯一数据池中每个数据块在统计时间段内的备份重复率;
S24.重复数据计算模块查找备份重复率低于重复率阈值的数据块,并将其迁移至物理带库,释放唯一数据存储池的磁盘空间;步骤S24具体步骤如下:
S241.重复数据计算模块通过查找获取备份重复率低于重复率阈值的数据块;重复数据删除模块根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件的同时,在逻辑文件中记录时间节点;重复数据计算模块对时间节点在统计时间段内的逻辑文件进行统计,对各数据块的目录号出现次数求和,得到各数据块的备份重复率,再将计算得到的各数据块的备份重复率与重复率阈值进行对比;
S242.重复数据计算模块将备份重复率低于重复率阈值的数据块迁移至物理带库,并在物理带库中为其生成目录号;
S243.重复数据计算模块在唯一数据存储池中记录被迁移数据块的目录号,同时更新逻辑文件中对应的目录号;客户需要恢复数据时,对于高重复备份率的数据块根据逻辑文件找到对应数据块在唯一数据存储池的目录号,直接从磁盘读取即可,对于低重复备份率的数据块根据逻辑文件找到对应数据块在物理带库的目录号,再根据目录号从物理带库读取数据。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于重删的磁带归档系统,其特征在于,包括业务数据生成模块(1)、备份服务器(2)和物理带库(3);
备份服务器(2)上设置有磁盘、重复数据删除模块(4)、唯一数据存储池(5)以及重复数据计算模块(6);
唯一数据存储池(5)设置在磁盘上;
重复数据删除模块(4),用于接收业务数据模块(1)生成的备份数据文件,并删除其中已在唯一数据存储池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池(5);
重复数据计算模块(6),用于计算唯一数据存储池(5)中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库(3),释放唯一存储池(5)的磁盘空间。
2.如权利要求1所述的基于重删的磁带归档系统,其特征在于,还包括光纤交换机(7);
重复数据计算模块(6)将备份重复率低于阈值的唯一数据通过光纤交换机(7)转发迁移至物理带库(3)。
3.如权利要求1所述的基于重删的磁带归档系统,其特征在于,重复数据删除模块(4)包括:
备份数据接收单元(4.1),用于接收业务数据模块生成的备份数据文件;
数据块划分单元(4.2),用于将备份数据文件划分成若干数据块;
重复数据判断单元(4.3),用于依次判断每个数据块是否为已在唯一数据存储池中存在的重复数据块;
唯一数据存储单元(4.4),用于当数据块不是已在唯一数据存储池中存在的重复数据块时,存储该数据块到唯一数据存储池,并在唯一数据存储池为该数据块创建目录号;
重复数据删除单元(4.5),用于当数据块是已在唯一数据存储池中存在的重复数据块时,获取该重复数据块在唯一数据存储池中的目录号,同时删除该重复数据块;
逻辑文件生成单元(4.6),用于根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件,并将逻辑文件存储到唯一数据存储池。
4.如权利要求1所述的基于重删的磁带归档系统,其特征在于,重复数据计算模块(6)包括:
统计时间段设定单元(6.1),用于设定统计时间段;
重复率阈值设定单元(6.2),用于设定重复率阈值;
使用重复率计算单元(6.3),用于计算唯一数据池中每个数据块在统计时间段内的备份重复率;
低重复率数据查找单元(6.4),用于查找备份重复率低于重复率阈值的数据块,并将其迁移至物理带库,释放唯一数据存储池的磁盘空间。
5.一种基于重删的磁带归档方法,其特征在于,包括如下步骤:
S1.重复数据删除模块接收业务数据模块生成的备份数据文件,并删除其中已在唯一数据池中存在的重复数据,得到唯一数据,再将唯一数据存储到唯一数据存储池;
S2.重复数据计算模块计算唯一数据存储池中唯一数据的备份重复率,并将备份重复率低于阈值的唯一数据迁移至物理带库,释放唯一数据存储池的磁盘空间。
6.如权利要求5所述的基于重删的磁带归档方法,其特征在于,步骤S1具体步骤如下:
S11.重复数据删除模块接收业务数据模块生成的备份数据文件;
S12.重复数据删除模块将备份数据文件划分成若干数据块;
S13.重复数据删除模块依次判断每个数据块是否为已在唯一数据池中存在的重复数据块;
若否,则重复数据删除模块存储该数据块到唯一数据存储池,并在唯一数据存储池为该数据块创建目录号;
若是,则重复数据删除模块获取该重复数据块在唯一数据存储池的目录号,同时删除该重复数据块;
S14.重复数据删除模块根据备份数据文件对应每个数据块的目录号,生成备份数据文件的逻辑文件,并将逻辑文件存储到唯一数据存储池。
7.如权利要求6所述的基于重删的磁带归档方法,其特征在于,步骤S13具体步骤如下:
S131.重复数据删除模块计算每个数据块的指纹;
S132.重复数据删除模块以每个数据块的指纹为关键字进行hash查找,判断在唯一数据存储池中是否有对应指纹匹配;
若否,则该数据块不是已在唯一数据池中存在的重复数据块;
若是,则该数据块为已在唯一数据池中存在的重复数据块。
8.如权利要求6所述的基于重删的磁带归档方法,其特征在于,步骤S2具体步骤如下:
S21.重复数据计算模块设定统计时间段;
S22.重复数据计算模块设定重复率阈值;
S23.重复数据计算模块计算唯一数据池中每个数据块在统计时间段内的备份重复率;
S24.重复数据计算模块查找备份重复率低于重复率阈值的数据块,并将其迁移至物理带库,释放唯一数据存储池的磁盘空间。
9.如权利要求8所述的基于重删的磁带归档方法,其特征在于,步骤S24具体步骤如下:
S241.重复数据计算模块通过查找获取备份重复率低于重复率阈值的数据块;
S242.重复数据计算模块将备份重复率低于重复率阈值的数据块迁移至物理带库,并在物理带库中为其生成目录号;
S243.重复数据计算模块在唯一数据存储池中记录被迁移数据块的目录号,同时更新逻辑文件中对应的目录号。
10.如权利要求8所述的基于重删的磁带归档方法,其特征在于,步骤S24中,在客户业务空闲时段,重复数据计算模块将备份重复率低于重复率阈值的数据块迁移至物理带库,释放唯一数据存储池的磁盘空间。
CN201911006490.5A 2019-10-22 2019-10-22 一种基于重删的磁带归档系统及方法 Active CN111026327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911006490.5A CN111026327B (zh) 2019-10-22 2019-10-22 一种基于重删的磁带归档系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911006490.5A CN111026327B (zh) 2019-10-22 2019-10-22 一种基于重删的磁带归档系统及方法

Publications (2)

Publication Number Publication Date
CN111026327A true CN111026327A (zh) 2020-04-17
CN111026327B CN111026327B (zh) 2022-12-23

Family

ID=70201597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911006490.5A Active CN111026327B (zh) 2019-10-22 2019-10-22 一种基于重删的磁带归档系统及方法

Country Status (1)

Country Link
CN (1) CN111026327B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064556A (zh) * 2021-04-29 2021-07-02 山东英信计算机技术有限公司 一种bios的数据存储方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN104298614A (zh) * 2014-09-30 2015-01-21 华为技术有限公司 数据块在存储设备中存储方法和存储设备
CN105095027A (zh) * 2015-09-11 2015-11-25 浪潮(北京)电子信息产业有限公司 一种数据备份方法及装置
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN107885619A (zh) * 2017-11-16 2018-04-06 郑州云海信息技术有限公司 一种数据精简去重和镜像异地备份保护的方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN104298614A (zh) * 2014-09-30 2015-01-21 华为技术有限公司 数据块在存储设备中存储方法和存储设备
CN105095027A (zh) * 2015-09-11 2015-11-25 浪潮(北京)电子信息产业有限公司 一种数据备份方法及装置
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN107885619A (zh) * 2017-11-16 2018-04-06 郑州云海信息技术有限公司 一种数据精简去重和镜像异地备份保护的方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113064556A (zh) * 2021-04-29 2021-07-02 山东英信计算机技术有限公司 一种bios的数据存储方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111026327B (zh) 2022-12-23

Similar Documents

Publication Publication Date Title
JP4972158B2 (ja) サンプリングを利用して重複データを無くすシステム、及び方法
US8838923B2 (en) Continuous data protection over intermittent connections, such as continuous data backup for laptops or wireless devices
JP5975473B2 (ja) バックアップ方法、リストア方法、ストレージ・システムおよびプログラム
US10810161B1 (en) System and method for determining physical storage space of a deduplicated storage system
CN106201771B (zh) 数据存储系统和数据读写方法
US8578112B2 (en) Data management system and data management method
US11093387B1 (en) Garbage collection based on transmission object models
US20130232119A1 (en) Creation of synthetic backups within deduplication storage system
US20110145207A1 (en) Scalable de-duplication for storage systems
CN104932841A (zh) 一种云存储系统中节约型重复数据删除方法
CN109522283B (zh) 一种重复数据删除方法及系统
CN104932956A (zh) 一种面向大数据的云容灾备份方法
JP6841024B2 (ja) データ処理装置,データ処理プログラムおよびデータ処理方法
CN103917962A (zh) 读取存储在存储系统上的文件
CN107544873A (zh) 一种存放备份数据的备份系统和方法
US10628298B1 (en) Resumable garbage collection
US11436102B2 (en) Log-structured formats for managing archived storage of objects
US9195692B2 (en) Information processing system
CN108415671B (zh) 一种面向绿色云计算的重复数据删除方法及系统
CN108399047A (zh) 一种闪存文件系统及其数据管理方法
CN111026327B (zh) 一种基于重删的磁带归档系统及方法
US20220398220A1 (en) Systems and methods for physical capacity estimation of logical space units
CN112698990A (zh) 一种备份数据时在线删除重复数据的方法
CN112416879A (zh) 一种基于ntfs文件系统的块级数据去重方法
EP3819754A1 (en) Information processing apparatus and recording medium storing information processing program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant