CN101582076A - 一种基于数据库的重复数据删除方法 - Google Patents

一种基于数据库的重复数据删除方法 Download PDF

Info

Publication number
CN101582076A
CN101582076A CNA2009100160762A CN200910016076A CN101582076A CN 101582076 A CN101582076 A CN 101582076A CN A2009100160762 A CNA2009100160762 A CN A2009100160762A CN 200910016076 A CN200910016076 A CN 200910016076A CN 101582076 A CN101582076 A CN 101582076A
Authority
CN
China
Prior art keywords
file
hash
database
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2009100160762A
Other languages
English (en)
Inventor
刘正伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Langchao Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Langchao Electronic Information Industry Co Ltd filed Critical Langchao Electronic Information Industry Co Ltd
Priority to CNA2009100160762A priority Critical patent/CN101582076A/zh
Publication of CN101582076A publication Critical patent/CN101582076A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种基于数据库的重复数据删除方法,实现该方法的系统结构包括:界面管理模块(1)、文件管理模块(2)、链接转移模块(3)、文件比较模块(4)、指纹模块(5)、数据管理模块(6)和数据库(7),该方法为每一个文件生成唯一标示的HASH散列(9),并且将此散列信息和文件信息一起保存到数据库中。

Description

一种基于数据库的重复数据删除方法
1、方法领域
本发明是一种数据缩减方法,通常用于基于磁盘的备份系统,旨在减少存储系统中使用的存储容量。采用“冗余数据删除”方法可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。
2、方法背景
存储空间不足不只是要添购存储设备,更要面临调整存储架构后接踵而至的种种设定工作。这些工作的复杂繁琐就不用说了,在扩充存储容量的过程中,更可能需要停机,这会严重影响到企业的正常营运。企业为了保护数据必须定期执行数据备份,这是数据快速累积的原因之一。尤其现今有些企业开始先备份到速度较快的磁盘,再逐次备份至磁带等设备,对于必须赶在当日下班至隔日上班前完成大量备份的企业而言,磁盘备份是个好方法,备份快、回复也快,但磁盘备份无疑会加速磁盘空间的消耗。
重复数据删除方法如字义所言,就是不存储重复的部分,以减少空间耗用。以重复性最高的数据备份来说,如果每个备份档的差异只有30%,也就代表有70%的空间白白浪费。重复数据删除方法就是要想办法找出相同的部分,相同的只存储一份,以索引方法来记录,需要还原时就能回溯计算出原来文件的组成型式。
重复数据删除方法支持在已有的磁盘设备上存储更多的备份数据。因此采用“重复数据删除”方法可以增加保存备份数据的时间,减少数据中心的消耗,降低成本。如果删除重复数据后再通过WAN发送,那么就能够节省大量的带宽,并且可以取代磁带实现网上离线备份。
因此如何提供一种方法,使其应用在数据备份系统中,能够增加磁盘备份利用率,节约备份空间是目前数据急剧增加面临的挑战。
3、发明内容
一种基于数据库的重复数据删除方法,该系统将文件比较方法和数据库方法有机的应用在一起,采用“冗余数据删除”方法可以将存储的数据缩减为原来的1/20,从而让出更多的备份空间,不仅可以使磁盘上的备份数据保存更长的时间,而且还可以节约离线存储时所需的大量的带宽。该系统体系结构包括:界面管理模块(1)、文件管理模块(2)、链接转移模块(3)、文件比较模块(4)、指纹模块(5)、数据管理模块(6)和数据库(7),其中:
界面管理模块(1)为用户提供管理界面,方便用户交互,提供文件查询、浏览,读取文件等功能。
文件管理模块(2)主要负责文件管理,比如文件的新建、删除、修改,负责文件的读写,另外在文件变化时负责将新文件与旧文件进行比较,将文件信息记录到数据库中。另外在文件显示时负责从数据库中读出文件和目录信息按照文件目录树的形式进行显示。
链接转移模块(3)在一个新文件被写入时,首先会调研指纹模块(5)为这个文件生成唯一的HASH散列,然后根据这个HASH散列从数据库中查找是否存在,如果已经存在,则在数据库中将此文件的链接与已存在的文件,链接配置。
文件比较模块(4)文件两文件是否相同。
指纹模块(5)读取文件属性为每一个文件生成一个指纹标示,此标示为一个HASH散列,不同的文件其HASH散列是不一样的,唯一的。如果两个文件的HASH散列是一样的,则说明这两个文件是相同的,只需要备份一份即可。
数据管理模块(6)为数据库操作管理模块,主要负责和数据库(7)交互,写入记录到数据库(7),从数据库中查收文件信息等功能。
数据库(7)主要用于数据存储和查询功能,一般可以为SQLite、mysql、sqlserver等数据库。
在一个典型的配置环境里,如果是写入文件,文件写入到磁盘之后,指纹模块(5)根据文件的内容生成一个指纹标示HASH散列(9),不同的文件其HASH散列是不一样的,唯一的。将生成的HASH散列通过数据管理模块(6)到数据库(7)中去查询是否有同样HASH散列(9)的文件存在,如果没有就保存到磁盘上,同时将文件信息,包括文件名、源文件路径、写入时间、HASH散列值作为一条记录保存到数据库中。如果已经存在此文件,则文件不需要保存,只是通过链接转移模块(3)将文件信息链接到已有的文件路径上,并且作为一条新记录插入到数据库中。
如果是读文件则先从数据库中将文件和目录信息读取出来,并且以文件树的形式显示。如果有多个文件的HASH散列(9)相同,则这多个文件同时指向一个具体的文件。当需要读取或者拷贝时,就直接从文件路径读取真实的文件。
本发明的基于数据库的重复数据删除方法,支持在已有的磁盘设备上存储更多的备份数据。因此采用这种“基于数据库的重复数据删除方法”方法可以增加保存备份数据的时间,减少数据中心的消耗,降低成本。比如同样一份10M的邮件附件,如果发给100个人,只需要备份一份10M的空间,而不是100M*10=1000M的空间。
因此采用这种方法,使其应用在数据备份系统中,能够增加磁盘备份利用率,节约备份空间从而应对数据急剧增加面临的挑战。
3、附图说明
附图1为基于数据库重复数据删除系统组成模块图
附图2为基于数据库重复数据删除系统流程
附图3为基于数据库重复数据读取系统流程
附图4为数据库表项说明
4、实施方式
下面参照附图,对本发明的一种基于数据库的重复数据删除方法,以一个具体实例来描述实现这一体系结构的过程。
正如发明内容中所描述的,本发明体系结构主要包括:界面管理模块(1)、文件管理模块(2)、链接转移模块(3)、文件比较模块(4)、指纹模块(5)、数据管理模块(6)和数据库(7)。
在一个典型的配置环境里,如果是写入文件,文件写入到磁盘之后,指纹模块(5)根据文件的内容生成一个指纹标示,此标示为一个HASH散列(9),不同的文件其HASH散列是不一样的,唯一的。将生成的HASH散列(9)通过数据管理模块(6)到数据库(7)中去查询是否有同样HASH散列的文件存在,如果没有就保存到磁盘上,同时将文件信息,包括文件名、源文件路径、写入时间、HASH散列(9)值作为一条记录保存到数据库中。如果已经存在此文件,则文件不需要保存,只是通过链接转移模块(3)将文件信息链接到已有的文件路径上,并且作为一条新记录插入到数据库中。如果是读文件则先从数据库中将文件和目录信息读取出来,并且以文件树的形式显示。如果有多个文件的HASH散列(9)相同,则这多个文件同时指向一个具体的文件。当需要读取或者拷贝是,就直接从文件路径读取真实的文件。
至此,已经完整实现了整个基于数据库重复删除方法的过程,这种方法与传统的重复数据删除方法不一样之处在于引入了数据库作为文件检索,并且为每个文件生成唯一的HASH散列作为标记。
因此采用这种方法,使其应用在数据备份系统中,能够增加磁盘备份利用率,节约备份空间从而应对数据急剧增加面临的挑战。

Claims (3)

1、一种基于数据库的重复数据删除方法,实现该方法的系统结构包括:界面管理模块(1)、文件管理模块(2)、链接转移模块(3)、文件比较模块(4)、指纹模块(5)、数据管理模块(6)和数据库(7),其特征在于该方法为每一个文件生成唯一标示的HASH散列(9),并且将此散列信息和文件信息一起保存到数据库中。
2、根据权利要求1所述得方法,其特征在于在一个新文件被写入时,首先会调研指纹模块(5)为这个文件生成唯一的HASH散列(9),然后根据这个HASH散列(9)从数据库中查找是否存在,如果已经存在,则在数据库中将此文件的链接与已存在的文件,链接配置。
3、根据权利要求1所述得方法,其特征在于不同的文件其HASH散列(9)是不一样的,是唯一的,将生成的HASH散列通过数据管理模块(6)到数据库(7)中去查询是否有同样HASH散列(9)的文件存在,如果没有就保存到磁盘上,同时将文件信息,包括文件名、源文件路径、写入时间、HASH散列值作为一条记录保存到数据库中,如果已经存在此文件,则文件不需要保存,只是通过链接转移模块(3)将文件信息链接到已有的文件路径上,并且作为一条新记录插入到数据库中。
CNA2009100160762A 2009-06-24 2009-06-24 一种基于数据库的重复数据删除方法 Pending CN101582076A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2009100160762A CN101582076A (zh) 2009-06-24 2009-06-24 一种基于数据库的重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2009100160762A CN101582076A (zh) 2009-06-24 2009-06-24 一种基于数据库的重复数据删除方法

Publications (1)

Publication Number Publication Date
CN101582076A true CN101582076A (zh) 2009-11-18

Family

ID=41364223

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2009100160762A Pending CN101582076A (zh) 2009-06-24 2009-06-24 一种基于数据库的重复数据删除方法

Country Status (1)

Country Link
CN (1) CN101582076A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908073A (zh) * 2010-08-13 2010-12-08 清华大学 一种文件系统中实时删除重复数据的方法
CN101917426A (zh) * 2010-08-05 2010-12-15 中兴通讯股份有限公司 Rss订阅方法及其客户端
CN102082686A (zh) * 2009-11-30 2011-06-01 中国移动通信集团河北有限公司 局数据核查控制方法及装置
CN102456059A (zh) * 2010-10-21 2012-05-16 英业达股份有限公司 重复数据删除的处理系统
CN102467528A (zh) * 2010-11-02 2012-05-23 英业达股份有限公司 重复数据删除操作系统
CN102523290A (zh) * 2011-12-19 2012-06-27 成都市华为赛门铁克科技有限公司 数据的处理方法、设备和系统
CN102799604A (zh) * 2012-04-26 2012-11-28 新奥特(北京)视频技术有限公司 一种资讯播出系统数据库中保存历史数据的方法和系统
WO2012171244A1 (zh) * 2011-06-13 2012-12-20 北京卓微天成科技咨询有限公司 块级虚拟化存储设备上实现重复数据删除的方法及系统
CN102902762A (zh) * 2012-09-25 2013-01-30 华为技术有限公司 一种删除重复数据的方法、装置和系统
CN102947815A (zh) * 2010-06-18 2013-02-27 微软公司 数据的存储与发送的优化
CN102945241A (zh) * 2011-10-28 2013-02-27 新游游戏株式会社 用于文件比较的散列数据结构以及散列比较系统和方法
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置
CN103064764A (zh) * 2012-12-28 2013-04-24 盘石软件(上海)有限公司 一种快速恢复安卓手机删除信息的取证方法
WO2013080084A1 (en) * 2011-12-02 2013-06-06 International Business Machines Corporation Removal of data remanence in deduplicated storage clouds
CN103853754A (zh) * 2012-11-30 2014-06-11 英业达科技有限公司 在备份时计算散列值以删除重复数据的系统及其方法
CN103975300A (zh) * 2011-12-08 2014-08-06 英派尔科技开发有限公司 用于允许跨用户的重复数据删除的存储折扣
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN104424348A (zh) * 2013-09-05 2015-03-18 株式会社东芝 服务分析装置及方法
CN104573089A (zh) * 2015-01-29 2015-04-29 西安交通大学 一种NewSQL数据库中的增量式快照方法
CN105607867A (zh) * 2014-11-14 2016-05-25 爱思开海力士有限公司 使用主装置和从装置的重复删除
CN107103426A (zh) * 2017-04-26 2017-08-29 郑州云海信息技术有限公司 批量删除序列号与多个订单号绑定关系的方法及装置
US9785666B2 (en) 2010-12-28 2017-10-10 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication
CN108052291A (zh) * 2017-12-14 2018-05-18 郑州云海信息技术有限公司 一种云服务器的存储方法、系统、装置及可读存储介质
WO2018113209A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化医疗文件冗余清除系统及方法
WO2018113212A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 增强服务器访问速度的医疗信息化文件处理系统及方法
WO2018113211A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 基于哈希值的医疗文件冗余处理系统及方法
CN110109883A (zh) * 2018-01-25 2019-08-09 卓望数码技术(深圳)有限公司 一种文件滤重储存方法和装置
CN114661527A (zh) * 2022-05-23 2022-06-24 武汉四通信息服务有限公司 数据备份方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
CN101382885A (zh) * 2007-09-06 2009-03-11 联想(北京)有限公司 一种数据文件的多版本控制方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382885A (zh) * 2007-09-06 2009-03-11 联想(北京)有限公司 一种数据文件的多版本控制方法及装置
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
崔兴华等: "《重复数据检测在多版本数据备份中的应用》", 《计算机应用研究》 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082686A (zh) * 2009-11-30 2011-06-01 中国移动通信集团河北有限公司 局数据核查控制方法及装置
CN102947815B (zh) * 2010-06-18 2016-01-20 微软技术许可有限责任公司 数据的存储与发送的优化
CN102947815A (zh) * 2010-06-18 2013-02-27 微软公司 数据的存储与发送的优化
CN101917426A (zh) * 2010-08-05 2010-12-15 中兴通讯股份有限公司 Rss订阅方法及其客户端
CN101908073A (zh) * 2010-08-13 2010-12-08 清华大学 一种文件系统中实时删除重复数据的方法
CN102456059A (zh) * 2010-10-21 2012-05-16 英业达股份有限公司 重复数据删除的处理系统
CN102467528A (zh) * 2010-11-02 2012-05-23 英业达股份有限公司 重复数据删除操作系统
US9785666B2 (en) 2010-12-28 2017-10-10 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication
WO2012171244A1 (zh) * 2011-06-13 2012-12-20 北京卓微天成科技咨询有限公司 块级虚拟化存储设备上实现重复数据删除的方法及系统
CN102945241A (zh) * 2011-10-28 2013-02-27 新游游戏株式会社 用于文件比较的散列数据结构以及散列比较系统和方法
CN103988199A (zh) * 2011-12-02 2014-08-13 国际商业机器公司 已去重存储云中的数据残留的去除
WO2013080084A1 (en) * 2011-12-02 2013-06-06 International Business Machines Corporation Removal of data remanence in deduplicated storage clouds
US8682868B2 (en) 2011-12-02 2014-03-25 International Business Machines Corporation Removal of data remanence in deduplicated storage clouds
CN103975300A (zh) * 2011-12-08 2014-08-06 英派尔科技开发有限公司 用于允许跨用户的重复数据删除的存储折扣
CN102523290B (zh) * 2011-12-19 2015-04-08 华为数字技术(成都)有限公司 数据的处理方法、设备和系统
CN102523290A (zh) * 2011-12-19 2012-06-27 成都市华为赛门铁克科技有限公司 数据的处理方法、设备和系统
CN102799604A (zh) * 2012-04-26 2012-11-28 新奥特(北京)视频技术有限公司 一种资讯播出系统数据库中保存历史数据的方法和系统
CN102799604B (zh) * 2012-04-26 2018-05-04 新奥特(北京)视频技术有限公司 一种资讯播出系统数据库中保存历史数据的方法和系统
CN102902762B (zh) * 2012-09-25 2015-08-19 华为技术有限公司 一种删除重复数据的方法、装置和系统
CN102902762A (zh) * 2012-09-25 2013-01-30 华为技术有限公司 一种删除重复数据的方法、装置和系统
CN102999605A (zh) * 2012-11-21 2013-03-27 重庆大学 一种通过优化数据放置来减少数据碎片的方法和装置
CN103853754A (zh) * 2012-11-30 2014-06-11 英业达科技有限公司 在备份时计算散列值以删除重复数据的系统及其方法
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
CN102982180B (zh) * 2012-12-18 2016-08-03 华为技术有限公司 数据存储方法及设备
CN103064764A (zh) * 2012-12-28 2013-04-24 盘石软件(上海)有限公司 一种快速恢复安卓手机删除信息的取证方法
CN104424348A (zh) * 2013-09-05 2015-03-18 株式会社东芝 服务分析装置及方法
CN104424348B (zh) * 2013-09-05 2017-11-10 株式会社东芝 服务分析装置及方法
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN105607867A (zh) * 2014-11-14 2016-05-25 爱思开海力士有限公司 使用主装置和从装置的重复删除
CN105607867B (zh) * 2014-11-14 2020-03-03 爱思开海力士有限公司 主-从重复删除储存系统及其方法和计算机可读储存介质
CN104573089A (zh) * 2015-01-29 2015-04-29 西安交通大学 一种NewSQL数据库中的增量式快照方法
WO2018113209A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 医疗信息化医疗文件冗余清除系统及方法
WO2018113212A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 增强服务器访问速度的医疗信息化文件处理系统及方法
WO2018113211A1 (zh) * 2016-12-21 2018-06-28 深圳市易特科信息技术有限公司 基于哈希值的医疗文件冗余处理系统及方法
CN107103426A (zh) * 2017-04-26 2017-08-29 郑州云海信息技术有限公司 批量删除序列号与多个订单号绑定关系的方法及装置
CN108052291A (zh) * 2017-12-14 2018-05-18 郑州云海信息技术有限公司 一种云服务器的存储方法、系统、装置及可读存储介质
CN110109883A (zh) * 2018-01-25 2019-08-09 卓望数码技术(深圳)有限公司 一种文件滤重储存方法和装置
CN110109883B (zh) * 2018-01-25 2023-06-27 卓望数码技术(深圳)有限公司 一种文件滤重储存方法和装置
CN114661527A (zh) * 2022-05-23 2022-06-24 武汉四通信息服务有限公司 数据备份方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN101582076A (zh) 一种基于数据库的重复数据删除方法
US10031675B1 (en) Method and system for tiering data
CN101814045B (zh) 一种用于备份服务的数据组织方法
CN106201771B (zh) 数据存储系统和数据读写方法
CN101777017B (zh) 一种连续数据保护系统的快速恢复方法
CN106484906B (zh) 一种分布式对象存储系统闪回方法及装置
CN102722536B (zh) 基于分布式文件系统的快照实现方法及装置
US20070005669A1 (en) Method and system for automated disk i/o optimization of restored databases
CN104301360A (zh) 一种日志数据记录的方法、日志服务器及系统
CN103257830A (zh) 存储单元的访问方法和存储单元
WO2012083754A1 (zh) 处理脏数据的方法及装置
CN107391544B (zh) 列式存储数据的处理方法、装置、设备及计算机储存介质
CN104360914A (zh) 增量快照方法和装置
WO2018171296A1 (zh) 一种文件合并方法及控制器
CN102402622A (zh) 嵌入式内存数据库的内存页面管理调度方法
CN103019891A (zh) 一种还原被删除文件的方法及系统
CN106570163A (zh) 一种面向不可靠环境的审计日志读写管理方法以及系统
CN103473258A (zh) 云存储文件系统
CN107205024A (zh) 一种云存储系统中数据去重方法及系统
CN104281717A (zh) 一种建立海量id映射关系的方法
CN103279489A (zh) 一种元数据的存储方法、装置
CN106951456B (zh) 一种内存数据库系统及数据处理系统
CN103942301A (zh) 一种面向多数据类型访问应用的分布式文件系统
CN103176867A (zh) 一种快速文件差异备份方法
CN102955787A (zh) 一种文件目录表的使用方法、文件写入方法及应用的主电路板、cpu和外部存储器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20091118