CN102467528A - 重复数据删除操作系统 - Google Patents

重复数据删除操作系统 Download PDF

Info

Publication number
CN102467528A
CN102467528A CN2010105400337A CN201010540033A CN102467528A CN 102467528 A CN102467528 A CN 102467528A CN 2010105400337 A CN2010105400337 A CN 2010105400337A CN 201010540033 A CN201010540033 A CN 201010540033A CN 102467528 A CN102467528 A CN 102467528A
Authority
CN
China
Prior art keywords
file
data
module
duplication
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105400337A
Other languages
English (en)
Inventor
王辉
陈志丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Corp
Original Assignee
Inventec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Corp filed Critical Inventec Corp
Priority to CN2010105400337A priority Critical patent/CN102467528A/zh
Publication of CN102467528A publication Critical patent/CN102467528A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种重复数据删除操作系统,应用于客户端所运行的文件备份程序之中。重复数据删除操作系统包括:客户端的一文件过滤模块用以设定对待备份文件相应的过滤策略;重定向读写模块接收来自于文件备份程序所发出的存取请求,重定向读写模块用以发送存取请求的数据信息;索引文件读写模块用以对重复文件产生索引文件,在索引文件中包括至少一组特征码与存储信息;当待备份文件为重复文件,属性控制模块将待备份文件的大小修改为索引文件的大小,并同时修改存取请求中待备份文件的大小,再将存取请求发送至文件存储系统。上述本发明提供系统,当客户端接收待备份文件且待备份文件与客户端的储存文件有重复时,则对待备份文件进行储存位置的重新定向设定。

Description

重复数据删除操作系统
技术领域
本发明涉及一种数据备份系统,特别涉及一种重复数据删除操作系统。
背景技术
重复数据删除是一种数据缩减技术,通常用于基于磁盘的备份系统,主要目的在于减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块。重复的数据块用指示符取代。由于存储系统中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,“重复删除”技术便顺理成章地成了人们关注的焦点。采用“重复删除”技术可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使存储系统上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
但是在一般文件存储程序中并非都有支持重复数据删除的相关应用。若是重新对现有的文件存储程序进行开发,对于软体开发商而言,不止为一项重大的负担。
发明内容
鉴于以上的问题,本发明所要解决的技术问题在于提供一种重复数据删除操作系统,应用于客户端所运行的文件备份程序(Windows Server Backup)中,当客户端接收待备份文件且待备份文件与客户端的储存文件有重复时,则对待备份文件进行储存位置的重新定向设定。
为了达到上述目的,本发明所揭露的重复数据删除操作系统包括:文件过滤模块、重定向读写模块、索引文件读写模块与属性控制模块。文件过滤模块用以设定对待备份文件相应的过滤策略;重定向读写模块接收来自于文件备份程序所发出的存取请求,重定向读写模块用以发送存取请求的数据信息;索引文件读写模块用以对重复文件产生索引文件,在索引文件中包括至少一组特征码与存储信息;当待备份文件为重复文件,属性控制模块将待备份文件的大小修改为索引文件的大小,并同时修改存取请求中待备份文件的大小,再将存取请求发送至文件存储系统。
本发明提供一种不需修改文件备份程序的内核,也可以使得客户端中的文件备份程序提供重复数据删除的功能。如此一来,除了可以减缩文件的存储空间与降低软件开发商的开发成本外,还可以降低客户端对服务端的流量传输。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为本发明的架构示意图;
图2为本发明的架构示意图;
图3为本发明的运作流程示意图。
其中,附图标记
110 重复数据删除操作系统
111 文件过滤模块
112 重定向读写模块
113 索引文件读写模块
114 属性控制模块
120 客户端服务模块
130 文件存储系统
140 重复数据删除服务模块
141 处理线程子模块
142 数据存储子模块
143 哈希查找子模块
144 通信子模块
具体实施方式
下面结合附图对本发明的结构原理和工作原理作具体的描述:
在本发明中所述的客户端是用于运行重复数据删除操作系统与文件存储系统的计算机装置,而服务端则是用以储存经过重复数据删除操作系统处理后的存储装置。因此,客户端与服务端可以同时为同一台计算机,或是不同一台的计算机装置所实现。请参考图1所示,其是为本发明的架构示意图。图1的客户端是通过连接网际网路连接于服务端,或是通过内网(intranet)连接于服务端。
客户端欲通过文件存储系统130对待备份文件进行备份时,重复数据删除操作系统110会从中拦截待备份文件,并对待备份文件进行重复数据删除的处理。
客户端通过客户端服务模块120(client service module)连接于重复数据操作系统111。本发明的重复数据删除操作系统110包括文件过滤模块111、重定向读写模块112、索引文件读写模块113与属性控制模块114。文件过滤模块111用以设定对待备份文件相应的过滤策略。例如:根据待备份文件的路径名称、待备份文件的文件案名称(文件名或副文件名)或待备份文件的建立时间等条件作为重复数据删除的判断依据。
索引文件读写模块113用以对重复文件产生索引文件,在索引文件中包括至少一组特征码与存储信息。在进行重复数据删除的处理过程中,为能保证重复数据被删除时还可以确保数据的关连性。例如:数据区块的容量大小、数据区块在待备份文件中的偏移量、在重复数据删除服务模块140中的存储位置。所以在重复数据删除的处理过程中,索引文件读写模块113产生相应的索引文件。
例如对于视窗备份软件(windows backup)的特定文件案名过滤判断。视窗备份软件的存储文件有两种,分别是压缩文件(尾码名为zip)和virtual hard disk格式文件(尾码名为vhd)。所以针对文件存储系统130,把待备份文件的尾码名为zip和vhd作为过滤判断的标准。
若是以支持视窗作业系统中的文件存储系统130为例,索引文件读写模块113中则会产生如下述数据结构的索引文件信息:
typedef struct_DDD_DESC_FILE_ELEMENT
{
  ULONG64 offset;//数据块在原始文件案中的偏移量
  ULONG32 length;//数据块的长度
  ULONG32 cmplen;//若数据块进行了压缩,其压缩后的长度
  ULONG32 tankid ;//数据块在server端的位置信息
  USHORT chunkid;  //数据块在server端的位置信息
  USHORT rsv1;     //保留
  ULONG64 rsv2;    //保留
}
DDD_DESC_FILE_ELEMENT,*PDDD_DESC_FILE_ELEMENT;
重定向读写模块112接收来自于文件备份程序所发出的存取请求,重定向读写模块112用以发送存取请求的数据信息。以视窗作业系统为例,重定向读写模块112主要是对Write/Read I/O命令的过滤操作。文件存储系统130下达命令操作码为IRP_MJ_READ以及IRP_MJ_WRITE的命令,但这些命令还未到达文件存储系统130之前,重复数据删除操作系统110会先截获到这些命令。重复数据删除操作系统110根据这些读写要求获取待备份文件,并对待备份文件进行重复数据删除的处理。最后,重复数据删除操作系统110不再把命令继续下发到文件存储系统130,直接把操作结果返回给文件存储系统130。
属性控制模块114用以设置和查询文件属性的相关处理。当待备份文件为重复文件,属性控制模块114将待备份文件的大小修改为索引文件的大小,并同时修改存取请求中待备份文件的大小,再将存取请求发送至文件存储系统130。
当文件存储系统130欲进行备份,所以需要在文件存储系统130中设置待备份文件的大小。但是设置的命令在未达到文件存储系统130之前,重复数据删除操作系统110会先截获到此命令。重复数据删除操作系统110保存此命令中待备份文件实际大小的信息。然后把此命令中文件大小信息修改为索引文件的大小(此值一般会远小于文件实际大小)。重复数据删除操作系统110把命令继续下发到文件存储系统130。
若欲查询存储的文件的大小,则需向文件存储系统130发出查询命令。查询命令在经过文件存储系统130之后,重复数据删除操作系统110截获到此命令。重复数据删除操作系统110取出先前保存的索引文件实际大小的信息,然后把此命令中索引文件大小信息修改为实际文件的大小。重复数据删除操作系统110把命令执行结果继续返回给文件存储系统130。换言之,在经过重复数据删除的处理后的数据将被存储在相应的存储设备中(例如:硬盘、磁带或光盘等)。
本发明还设置重复数据删除服务模块140(dedup server module)。客户端服务模块120分别连接于重复数据删除操作系统110与重复数据删除服务模块140,并且客户端服务模块120用以对所接收到的待备份文件进行重复数据删除程序、压缩/解压缩程序或加密/解密程序的各项处理。请参考图2与图3所示,其分别为客户端服务模块120的关系示意图与重复数据删除服务模块架构示意图。
在重复数据删除服务模块140中还包括:处理线程子模块141、数据存储子模块142、哈希查找子模块143与通信子模块144。处理线程子模块141根据所接收的数据区块的特征码,用以确定该数据区块是否已存在或为新数据区块。数据存储子模块142用以将欲存储的数据区块保存到实际的硬盘。哈希查找子模块143用以将数据区块的特征值进行哈希散列,并将散列后的位置保存在一个地址列表中。如果在散列的过程中出现重复时,则将重复的位置保存在另一个冲突列表中。通信子模块144用以负责和客户端服务模块120进行传递数据。
本发明提供一种不需修改文件备份程序的内核,也可以使得客户端中的文件备份程序提供重复数据删除的功能。如此一来,除了可以减缩文件的存储空间与降低软件开发商的开发成本外,还可以降低客户端对服务端的流量传输。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (6)

1.一种重复数据删除操作系统,应用于一客户端所运行的一文件备份程序之中,当该客户端接收一待备份文件且该待备份文件与该客户端的一储存文件有部分重复时,则对该待备份文件进行储存位置的重新定向,其特征在于,该重复数据删除操作系统包括:
一文件过滤模块,设定对该待备份文件相应的一过滤策略;
一重定向读写模块,其接收来自于该文件备份程序所发出的一存取请求,该重定向读写模块用以发送该存取请求的一数据信息;
一索引文件读写模块,对一重复文件产生一索引文件,该索引文件中包括至少一组特征码与一存储信息;以及
一属性控制模块,当该待备份文件为该重复文件,该属性控制模块将该待备份文件的大小修改为该索引文件的大小,并同时修改该存取请求中该待备份文件的大小,再将该存取请求发送至一服务端的一文件存储系统。
2.根据权利要求1所述的重复数据删除操作系统,其特征在于,还包括一客户端服务模块,用以接收该数据信息,该客户端服务模块用以对该待备份文件进行一重复数据删除程序、一压缩/解压缩程序或一加密/解密程序。
3.根据权利要求1所述的重复数据删除操作系统,其特征在于,该数据信息为该存取请求的一请求偏移量、一请求长度与一数据内容。
4.根据权利要求1所述的重复数据删除操作系统,其特征在于,该存储信息包括一文件容量与一文件偏移量。
5.根据权利要求1所述的重复数据删除操作系统,其特征在于,还包括一重复数据删除服务模块,其连接于该属性控制模块与该索引文件读写模块。
6.根据权利要求5所述的重复数据删除操作系统,其特征在于,该重复数据删除服务模块还包括一处理线程子模块、一数据存储子模块、一哈希查找子模块与一通信子模块。
CN2010105400337A 2010-11-02 2010-11-02 重复数据删除操作系统 Pending CN102467528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010105400337A CN102467528A (zh) 2010-11-02 2010-11-02 重复数据删除操作系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010105400337A CN102467528A (zh) 2010-11-02 2010-11-02 重复数据删除操作系统

Publications (1)

Publication Number Publication Date
CN102467528A true CN102467528A (zh) 2012-05-23

Family

ID=46071171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105400337A Pending CN102467528A (zh) 2010-11-02 2010-11-02 重复数据删除操作系统

Country Status (1)

Country Link
CN (1) CN102467528A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616680A (zh) * 2014-12-25 2015-05-13 武汉光忆科技有限公司 基于光盘存储的重复数据删除系统及数据操作方法、装置
CN104881492A (zh) * 2015-06-12 2015-09-02 北京京东尚科信息技术有限公司 基于缓存分片技术的数据过滤方法和装置
WO2021033072A1 (en) * 2019-08-19 2021-02-25 International Business Machines Corporation Opaque encryption for data deduplication
CN112506880A (zh) * 2020-12-18 2021-03-16 深圳智慧林网络科技有限公司 数据处理方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法
CN101814045A (zh) * 2010-04-22 2010-08-25 华中科技大学 一种用于备份服务的数据组织方法
CN101917396A (zh) * 2010-06-25 2010-12-15 清华大学 一种网络文件系统中数据的实时去重和传输方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582076A (zh) * 2009-06-24 2009-11-18 浪潮电子信息产业股份有限公司 一种基于数据库的重复数据删除方法
CN101814045A (zh) * 2010-04-22 2010-08-25 华中科技大学 一种用于备份服务的数据组织方法
CN101917396A (zh) * 2010-06-25 2010-12-15 清华大学 一种网络文件系统中数据的实时去重和传输方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104616680A (zh) * 2014-12-25 2015-05-13 武汉光忆科技有限公司 基于光盘存储的重复数据删除系统及数据操作方法、装置
CN104616680B (zh) * 2014-12-25 2017-05-24 武汉光忆科技有限公司 基于光盘存储的重复数据删除系统及数据操作方法、装置
CN104881492A (zh) * 2015-06-12 2015-09-02 北京京东尚科信息技术有限公司 基于缓存分片技术的数据过滤方法和装置
CN104881492B (zh) * 2015-06-12 2018-11-30 北京京东尚科信息技术有限公司 基于缓存分片技术的数据过滤方法和装置
WO2021033072A1 (en) * 2019-08-19 2021-02-25 International Business Machines Corporation Opaque encryption for data deduplication
GB2602216A (en) * 2019-08-19 2022-06-22 Ibm Opaque encryption for data deduplication
GB2602216B (en) * 2019-08-19 2022-11-02 Ibm Opaque encryption for data deduplication
US11836267B2 (en) 2019-08-19 2023-12-05 International Business Machines Corporation Opaque encryption for data deduplication
CN112506880A (zh) * 2020-12-18 2021-03-16 深圳智慧林网络科技有限公司 数据处理方法及相关设备

Similar Documents

Publication Publication Date Title
US9235580B2 (en) Techniques for virtual archiving
CN100504873C (zh) 管理归档文件系统的方法和装置
US11586359B1 (en) Tracking storage consumption in a storage array
US8850142B2 (en) Enhanced virtual storage replication
US7802134B1 (en) Restoration of backed up data by restoring incremental backup(s) in reverse chronological order
US9996421B2 (en) Data storage method, data storage apparatus, and storage device
US8401998B2 (en) Mirroring file data
US8095510B2 (en) Data restoration in a storage system using multiple restore points
CN101939737A (zh) 可扩展的重复数据删除机构
CN106933747B (zh) 基于多流的数据存储系统和数据存储方法
CN102467528A (zh) 重复数据删除操作系统
EP1933236A1 (en) Branch Office and remote server smart archiving based on mirroring and replication software
CN103197987A (zh) 一种数据备份的方法、数据恢复的方法及系统
CN105512239A (zh) 一种数据库数据推送方法和装置
US8195612B1 (en) Method and apparatus for providing a catalog to optimize stream-based data restoration
US9032169B2 (en) Method for high performance dump data set creation
CN112199329B (zh) 基于堡垒机的双机运维数据归档清理方法与设备
CN114047976A (zh) 插件加载方法、装置、电子设备、存储介质
US11645333B1 (en) Garbage collection integrated with physical file verification
US8275743B1 (en) Method and apparatus for securing data volumes to a remote computer using journal volumes
US8615482B1 (en) Method and apparatus for improving the utilization of snapshots of server data storage volumes
WO2016119910A1 (en) Creating backup

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120523