CN102880671A - 一种面向分布式文件系统的主动重复数据删除方法 - Google Patents

一种面向分布式文件系统的主动重复数据删除方法 Download PDF

Info

Publication number
CN102880671A
CN102880671A CN2012103289599A CN201210328959A CN102880671A CN 102880671 A CN102880671 A CN 102880671A CN 2012103289599 A CN2012103289599 A CN 2012103289599A CN 201210328959 A CN201210328959 A CN 201210328959A CN 102880671 A CN102880671 A CN 102880671A
Authority
CN
China
Prior art keywords
data
block
client
storage
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103289599A
Other languages
English (en)
Inventor
颜秉珩
张明富
张俊
张现忠
崔赢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2012103289599A priority Critical patent/CN102880671A/zh
Publication of CN102880671A publication Critical patent/CN102880671A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种面向分布式文件系统的主动重复数据删除方法,该方法基于分布式文件系统的I/O读写特点可以简化重复数据查找,将重复数据删除技术从后台移到前台,在将重复数据写入存储之前消除重复数据,其技术方案如下:在写入数据之前,首先通过数据位图校验当前数据是否已经存在,如果存在则修改数据目标指针,否则写入数据并更新数据目标指针,以此完成避免数据重复写入。该方法与现有技术相比,最大限度的节省存储空间,显著提高分布式文件系统的I/O速度。

Description

一种面向分布式文件系统的主动重复数据删除方法
技术领域
本发明涉及分布式存储系统领域,具体涉及一种面向分布式文件系统的主动重复数据删除方法。
背景技术
分布式存储系统一般采用客户端/服务器架构,数据保存在服务器上,而客户端的应用程序能够像访问本地文件系统一样访问位于远程服务器上的文件。传统存储厂商的研发重点都在向云存储技术方面迁移,分布式文件系统构建云存储是当前云计算发展的一个重要方向。
重复数据删除技术是一种数据缩减技术,通常用于磁盘备份系统,旨在减少存储系统中使用的存储容量,它的工作方式是在某个时间周期内查找不同文件不同位置的重复数据,并将重复数据采用指针地址表示,达到减少存储用量的目的。
重复数据删除技术的核心理念是在存储数据时检查和比较已存在的数据,如果它们是相同的,那么就过滤掉这部分数据的备份,然后通过指针引用已经存在的数据。重复数据删除是当前存储领域一个比较热门的研究课题,因为它能给整个存储系统甚至是整个企业带来很多明显的好处。传统的重复数据删除技术是一种被动的数据删除技术,主要用于备份阶段和数据传输阶段,但该方法需进行大量重复数据查找大大增加了工作量,影响工作效率。
发明内容
 本发明针对目前重复数据删除技术存在的不足之处,提供一种面向分布式文件系统的主动重复数据删除方法。
本发明所述方法基于分布式文件系统的I/O读写特点可以简化重复数据查找,将重复数据删除技术从后台移到前台,在将重复数据写入存储之前消除重复数据。
本方法解决所述技术问题采用的技术方案如下:在写入数据之前,首先通过数据位图校验当前数据是否已经存在,如果存在则修改数据目标指针,否则写入数据并更新数据目标指针,以此完成避免数据重复写入。
分布式文件系统基于数据块实现数据存储的负载均衡,对于常见的分布式文件系统,文件存储被分为若干chunk,每个chunk具有固定的大小(一般为64MiB,但最后一个chunk例外),它又分为固定数目的block(一般为1024个),且block的大小也固定(一般为64MiB)。Block摘要位图表示为数据块摘要值(例如CRC32)与数据块地址对,给定一个block摘要值,通过Block摘要位图可以迅速判断具有相同数据的block是否已经存在,并获取地址。
本发明所述方法的系统构成包括:客户端、元数据、存储服务器、Block摘要位图和文件,其中客户端通过查询元数据获取文件的物理存储位置,客户端与存储服务器直接交互进行数据传输,存储服务器通过查询block摘要位图确定输入数据是否已在文件中存在。该方法的具体实现步骤如下:
(1)客户端通过查询元数据服务器获取文件的物理存储位置;
(2)客户端与存储服务器直接交互进行数据传输;
客户端缓存数据,构造若干block,同时计算每个block的数据块摘要值CRC32值,以block为单位进行数据传输,同时传输相应block的CRC32值;
存储服务器接收到block以后,计算block的CRC32值,并验证与传输过来的CRC32值是否相同,完成数据传输校验;
(3)存储服务器通过CRC32值查询block摘要位图,确定当前block是否已经存在系统之中:
如果block已经存在,则修改chunk中的地址指向已经存在的block地址
否则将block写入本地存储,并将这个block的地址写入chunk。
本发明的有益效果是:该方法将传统上运行于后台的重复数据删除技术移到数据I/O操作之前,在写入重复数据之前消除重复数据的存在,从而节省存储空间和存储I/O操作时间,对于提高分布式文件系统的I/O读写速度和缩减存储系统的使用,具有明显的效果。
附图说明
图1是数据写入处理流程图。
具体实施方式
下面结合附图对本发明的方法作进一步说明。
本发明所述方法是鉴于分布式文件系统的I/O读写特点,在数据写入存储之前就已主动完成重复数据的查询和删除工作的方法。该方法的系统构成包括:客户端、元数据、存储服务器、Block摘要位图和文件,其中客户端通过查询元数据获取文件的物理存储位置,客户端与存储服务器直接交互进行数据传输,存储服务器通过查询block摘要位图确定输入数据是否已在文件中存在。该方法的具体实现步骤如下:
(1)客户端通过查询元数据服务器获取文件的物理存储位置;
(2)客户端与存储服务器直接交互进行数据传输;
客户端缓存数据,构造若干block,同时计算每个block的数据块摘要值CRC32值,以block为单位进行数据传输,同时传输相应block的CRC32值;
存储服务器接收到block以后,计算block的CRC32值,并验证与传输过来的CRC32值是否相同,完成数据传输校验;
(3)存储服务器通过CRC32值查询block摘要位图,确定当前block是否已经存在系统之中:
如果block已经存在,则修改chunk中的地址指向已经存在的block地址,否则将block写入本地存储,并将这个block的地址写入chunk。
通过以上步骤,本方法将重复数据删除技术从后台移到前台,在数据写入存储之前就已经主动完成了重复数据的查询和删除工作,因此,可以最大限度的节省存储空间,显著提高分布式文件系统的I/O速度。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种面向分布式文件系统的主动重复数据删除方法,其特征在于基于分布式文件系统的I/O读写特点,将重复数据删除技术从后台移到前台,在将重复数据写入存储之前主动完成重复数据的查询和删除工作,在写入数据之前,首先通过数据位图校验当前数据是否已经存在,如果存在则修改数据目标指针,否则写入数据并更新数据目标指针,以此完成避免数据重复写入,系统构成包括:客户端、元数据、存储服务器、Block摘要位图和文件,其中客户端通过查询元数据获取文件的物理存储位置,客户端与存储服务器直接交互进行数据传输,存储服务器通过查询block摘要位图确定输入数据是否已在文件中存在,具体实现步骤如下:
(1)客户端通过查询元数据服务器获取文件的物理存储位置;
(2)客户端与存储服务器直接交互进行数据传输;
客户端缓存数据,构造若干block,同时计算每个block的数据块摘要值CRC32值,以block为单位进行数据传输,同时传输相应block的CRC32值;
存储服务器接收到block以后,计算block的CRC32值,并验证与传输过来的CRC32值是否相同,完成数据传输校验;
(3)存储服务器通过CRC32值查询block摘要位图,确定当前block是否已经存在系统之中:
如果block已经存在,则修改chunk中的地址指向已经存在的block地址;
否则将block写入本地存储,并将这个block的地址写入chunk。
CN2012103289599A 2012-09-07 2012-09-07 一种面向分布式文件系统的主动重复数据删除方法 Pending CN102880671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103289599A CN102880671A (zh) 2012-09-07 2012-09-07 一种面向分布式文件系统的主动重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103289599A CN102880671A (zh) 2012-09-07 2012-09-07 一种面向分布式文件系统的主动重复数据删除方法

Publications (1)

Publication Number Publication Date
CN102880671A true CN102880671A (zh) 2013-01-16

Family

ID=47481997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103289599A Pending CN102880671A (zh) 2012-09-07 2012-09-07 一种面向分布式文件系统的主动重复数据删除方法

Country Status (1)

Country Link
CN (1) CN102880671A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104184545A (zh) * 2013-05-27 2014-12-03 华为技术有限公司 一种传输数据的方法及解码端、编码端
CN104199815A (zh) * 2013-03-15 2014-12-10 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN104615504A (zh) * 2015-02-06 2015-05-13 浪潮(北京)电子信息产业有限公司 一种实现数据保护的方法及装置
CN105607867A (zh) * 2014-11-14 2016-05-25 爱思开海力士有限公司 使用主装置和从装置的重复删除
CN105653209A (zh) * 2015-12-31 2016-06-08 浪潮(北京)电子信息产业有限公司 一种对象存储数据传输方法及装置
CN105912268A (zh) * 2016-04-12 2016-08-31 韶关学院 一种基于自匹配特征的分布式重复数据删除方法及其装置
US9678975B2 (en) 2013-03-15 2017-06-13 International Business Machines Corporation Reducing digest storage consumption in a data deduplication system
CN108234465A (zh) * 2017-12-26 2018-06-29 创新科存储技术有限公司 一种分布式文件系统中应对异常的冗余方法和装置
CN108255429A (zh) * 2018-01-10 2018-07-06 郑州云海信息技术有限公司 一种写操作控制方法、系统、装置及计算机可读存储介质
CN109725849A (zh) * 2017-10-27 2019-05-07 株式会社日立制作所 存储系统和存储系统的控制方法
CN111506268A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 代码文件存储方法、装置和电子设备
CN112380811A (zh) * 2020-11-20 2021-02-19 广州欢网科技有限责任公司 word文本素材分级目录生成方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102301377A (zh) * 2008-12-18 2011-12-28 科普恩股份有限公司 用于内容感知的数据分区和数据去重复的方法和设备
CN102419766A (zh) * 2011-11-01 2012-04-18 西安电子科技大学 基于hdfs分布式文件系统的数据冗余及文件操作方法
US8200923B1 (en) * 2008-12-31 2012-06-12 Emc Corporation Method and apparatus for block level data de-duplication

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102301377A (zh) * 2008-12-18 2011-12-28 科普恩股份有限公司 用于内容感知的数据分区和数据去重复的方法和设备
US8200923B1 (en) * 2008-12-31 2012-06-12 Emc Corporation Method and apparatus for block level data de-duplication
CN102419766A (zh) * 2011-11-01 2012-04-18 西安电子科技大学 基于hdfs分布式文件系统的数据冗余及文件操作方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
付印金等: "重复数据删除关键技术研究进展", 《计算机研究与发展》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199815A (zh) * 2013-03-15 2014-12-10 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
US9665610B2 (en) 2013-03-15 2017-05-30 International Business Machines Corporation Reducing digest storage consumption by tracking similarity elements in a data deduplication system
US9678975B2 (en) 2013-03-15 2017-06-13 International Business Machines Corporation Reducing digest storage consumption in a data deduplication system
CN104199815B (zh) * 2013-03-15 2017-12-12 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN104184545B (zh) * 2013-05-27 2018-01-02 华为技术有限公司 一种传输数据的方法及解码端、编码端
CN104184545A (zh) * 2013-05-27 2014-12-03 华为技术有限公司 一种传输数据的方法及解码端、编码端
CN105607867A (zh) * 2014-11-14 2016-05-25 爱思开海力士有限公司 使用主装置和从装置的重复删除
CN105607867B (zh) * 2014-11-14 2020-03-03 爱思开海力士有限公司 主-从重复删除储存系统及其方法和计算机可读储存介质
CN104615504A (zh) * 2015-02-06 2015-05-13 浪潮(北京)电子信息产业有限公司 一种实现数据保护的方法及装置
CN105653209A (zh) * 2015-12-31 2016-06-08 浪潮(北京)电子信息产业有限公司 一种对象存储数据传输方法及装置
CN105912268A (zh) * 2016-04-12 2016-08-31 韶关学院 一种基于自匹配特征的分布式重复数据删除方法及其装置
CN105912268B (zh) * 2016-04-12 2020-08-28 韶关学院 一种基于自匹配特征的分布式重复数据删除方法及其装置
CN109725849A (zh) * 2017-10-27 2019-05-07 株式会社日立制作所 存储系统和存储系统的控制方法
CN108234465A (zh) * 2017-12-26 2018-06-29 创新科存储技术有限公司 一种分布式文件系统中应对异常的冗余方法和装置
CN108255429A (zh) * 2018-01-10 2018-07-06 郑州云海信息技术有限公司 一种写操作控制方法、系统、装置及计算机可读存储介质
CN111506268A (zh) * 2020-04-17 2020-08-07 北京百度网讯科技有限公司 代码文件存储方法、装置和电子设备
CN112380811A (zh) * 2020-11-20 2021-02-19 广州欢网科技有限责任公司 word文本素材分级目录生成方法、装置及设备

Similar Documents

Publication Publication Date Title
CN102880671A (zh) 一种面向分布式文件系统的主动重复数据删除方法
US9678969B2 (en) Metadata updating method and apparatus based on columnar storage in distributed file system, and host
CN110799960B (zh) 数据库租户迁移的系统和方法
US9672235B2 (en) Method and system for dynamically partitioning very large database indices on write-once tables
US9672245B2 (en) Memory storage apparatus, method of supporting transaction function for database, and memory system
CN104580437A (zh) 一种云存储客户端及其高效数据访问方法
CN104301360A (zh) 一种日志数据记录的方法、日志服务器及系统
US20200334292A1 (en) Key value append
CN105117417A (zh) 一种读优化的内存数据库Trie树索引方法
CN104462224A (zh) 一种云盘文件在线编辑方法
CN107247624B (zh) 一种面向Key-Value系统的协同优化方法及系统
US11216412B2 (en) Intelligent merging for efficient updates in columnar databases
CN103268343A (zh) 将关系数据库和缓存透明结合的系统和方法
CN102355502B (zh) 存储系统远程接入桌面操作系统的远程接入方法
CN101236564A (zh) 一种海量数据高性能读取显示方法
CN103631972A (zh) 一种列访问感知的数据缓存方法及系统
EP2701077A1 (en) Method and system for storing tabular data in a memory-efficient manner
CN102024051A (zh) 分布式内存数据库数据更新方法
CN103377292A (zh) 数据库结果集缓存方法及设备
CN109189994A (zh) 一种面向图计算应用的cam结构存储系统
CN105426119A (zh) 一种存储设备及数据处理方法
CN103823634A (zh) 一种支持无随机写模式的数据处理方法及系统
WO2016175880A1 (en) Merging incoming data in a database
CN110110034A (zh) 一种基于图的rdf数据管理方法、装置及存储介质
CN103353891A (zh) 数据库管理系统及其数据处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130116

WD01 Invention patent application deemed withdrawn after publication