CN103051671A - 一种集群文件系统重复数据删除方法 - Google Patents

一种集群文件系统重复数据删除方法 Download PDF

Info

Publication number
CN103051671A
CN103051671A CN2012104758476A CN201210475847A CN103051671A CN 103051671 A CN103051671 A CN 103051671A CN 2012104758476 A CN2012104758476 A CN 2012104758476A CN 201210475847 A CN201210475847 A CN 201210475847A CN 103051671 A CN103051671 A CN 103051671A
Authority
CN
China
Prior art keywords
data
client
file system
cluster file
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104758476A
Other languages
English (en)
Inventor
张延良
胡振
孟圣智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2012104758476A priority Critical patent/CN103051671A/zh
Publication of CN103051671A publication Critical patent/CN103051671A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的一种集群文件系统重复数据删除方法,涉及到计算机集群存储领域。该方法是在集群文件系统所有客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,保证在集群文件系统上只存储一份数据,被重复删除的数据在其所属的文件中提供了指向该数据块的索引,保证了文件的可读和可用,其体系结构包括:集群文件系统模块、接口节点模块及客户端模块。本发明所述方法的有益效果是:通过在接口节点部署重复数据删除软件,使得写入到集群文件系统数据只存储一份数据,大大节省了集群文件系统的存储空间,提高存储磁盘的使用率,减少存储成本。

Description

一种集群文件系统重复数据删除方法
技术领域
本发明涉及到计算机集群存储领域,具体的说是一种集群文件系统重复数据删除方法。
背景技术
目前,大规模的集群文件系统能提供PB级甚至是EB级数据存储,存储空间不再是存储技术的瓶颈。但是,数以EB级的物理存储介质会使得集群文件系统在外观上很庞大,这就给集群文件系统部署、维护和使用带来不便。而企业存储的数据如果按数据块去划分,就会有很多重复的、冗余的数据,这些数据是没有必要存储在集群上的。如果能只保存一份数据又能看到存储数据的完整性,这样就能大大节省存储空间,减少存储成本。
发明内容
本发明针对现有集群文件系统的数据存储方面存在的不足之处,提出一种集群文件系统重复数据删除方法。
该方法适用于多客户端、大容量的分布式或并行集群文件系统,是按如下方式解决所述技术问题的:该方法是在集群文件系统的客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,使得在集群文件系统上只存储一份数据,并在被重复删除的数据所属的文件中提供指向该数据块的索引,保证了文件的可读和可用;其体系结构包括:集群文件系统模块、接口节点模块及客户端模块。
下面对该方法体系结构的各个组成模块进行说明:
集群文件模块是客户端数据存储的载体,写入到客户端的数据经过接口节点最终存储到该模块,同时负责存储数据的高可用性、高可靠性,确保数据安全和可恢复性;
客户端模块负责提供外部数据写入集群文件系统存储空间的接口,客户端支持windows和Linux两种客户端;
接口节点模块负责将集群文件系统的存储空间提供给客户端使用,在客户端的接口节点上部署重复数据删除技术,并提供windows客户端访问集群文件系统的接口。
所述Linux客户端,在其上部署基于数据块级的重复数据删除技术,配置samba服务,并直接将集群文件系统挂载到Linux客户端目录上;所述数据块级支持4K到512K之间的不同数据块。
所述windows客户端,在其接口节点上配置samba服务,windows客户端不需要部署重复数据技术;当用户需要用到windows客户端时,通过samba服务将具有重复数据删除功能的Linux客户端目录映射到windows客户端上;当用户不使用windows客户端时,接口节点的角色则变成集群文件系统的Linux客户端。
本发明的一种集群文件系统重复数据删除方法的有益效果是:使用该方法,用户可根据需求选择相应重复删除数据块的大小,通过在接口节点部署重复数据删除软件,使得写入到集群文件系统数据只存储一份数据,大大节省了集群文件系统的存储空间,提高存储磁盘的使用率,减少存储成本。
附图说明
附图1为本发明所述方法的体系结构示意图。
具体实施方式
为了使本发明的目的、技术方案更加清晰,下面结合附图对本发明作进一步详细说明。
该方法体系结构包括:集群文件系统模块、接口节点模块及客户端模块,是在集群文件系统的客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,保证在集群文件系统上只存储一份数据,被重复删除的数据在其所属的文件中提供了指向该数据块的索引,保证了文件的可读和可用。该方法适用于大规模、多客户端的分布式、并行文件系统,通过在集群文件系统的客户端部署重复数据删除技术,使得数据在写入时就删除冗余、重复的数据,大大节省了集群文件系统的存储空间,提高存储磁盘的使用率,减少存储成本。
对本方法体系结构的各个组成模块进行详细说明:
集群文件模块是客户端数据存储的载体,写入到客户端的数据经过接口节点最终存储到该模块;同时还负责存储数据的高可用性、高可靠性,确保数据安全和可恢复性。
客户端模块负责提供外部数据写入集群文件系统存储空间的接口,也就是用户与文件系统的接口,客户端支持windows和Linux两种客户端。由于Linux客户端容易配置,所以直接将文件系统挂载到客户端目录上,在windows客户端的接口节点上配置samba服务,将部署有重复删除软件的卷(卷容量是使用集群文件系统空间)映射给windows客户端,这样用户在windows客户端上写入重删卷的数据,经过重删技术后最终也是存到集群文件系统上。
接口节点模块负责将集群文件系统的存储空间提供给windows客户端使用,也能做Linux客户端使用。另外,重复数据删除技术部署在接口节点上,使得保存到集群存储的数据只保存一份。实际上是在集群文件系统的Linux客户端上部署基于数据块级的重复数据删除技术,实现重复数据在线删除,并提供windows客户端访问集群文件系统的接口。当用户不需要使用windows客户端时,接口节点的角色就变成集群文件系统的Linux客户端。
本发明所述方法的整体系统结构如图1所示。
该集群文件系统重复数据删除方法的具体操作过程如下:
(1)在若干台服务器上搭建具有高可靠性、高可用性的集群文件系统;
(2)用服务器或PC机作为集群文件系统客户端,在该客户端上挂载集群文件系统;
(3)在集群文件系统客户端挂载目录上部署重复数据删除软件,该节点就能作为集群文件系统的Linux客户端使用;
(4)若用户需要用到windows客户端,则在Linux客户端上配置samba服务,将具有重复数据删除功能的Linux客户端目录映射到windows客户端上;
(5)具有重复数据删除的集群文件系统部署完毕,用户能在Linux客户端或windows客户端上写数据。
除说明书所述技术特征之外,均为本专业技术人员的已知技术。

Claims (4)

1.一种集群文件系统重复数据删除方法,其特征在于,在集群文件系统的客户端上部署重复数据删除技术,当数据写入客户端时就进行重复数据删除,使得在集群文件系统上只存储一份数据,并在被重复删除的数据所属的文件中提供指向该数据块的索引,保证了文件的可读和可用;其体系结构包括:集群文件系统模块、接口节点模块及客户端模块;
其中,集群文件模块是客户端数据存储的载体,写入到客户端的数据经过接口节点最终存储到该模块;
客户端模块负责提供外部数据写入集群文件系统存储空间的接口,客户端支持windows和Linux两种客户端;
接口节点模块负责将集群文件系统的存储空间提供给客户端使用,在客户端的接口节点上部署重复数据删除技术,并提供windows客户端访问集群文件系统的接口。
2.根据权利要求1所述的方法,其特征在于,所述Linux客户端,在其上部署基于数据块级的重复数据删除技术,配置samba服务,并直接将集群文件系统挂载到Linux客户端目录上。
3. 根据权利要求1所述的方法,其特征在于,所述windows客户端,在其接口节点上配置samba服务,不需要部署重复数据删除技术,当用户需要用到windows客户端时,通过samba服务将具有重复数据删除功能的Linux客户端目录映射到windows客户端上;当用户不使用windows客户端时,接口节点则变成集群文件系统的Linux客户端。
4.根据权利要求2所述的方法,其特征在于,所述数据块级支持4K到512K之间的不同数据块。
CN2012104758476A 2012-11-22 2012-11-22 一种集群文件系统重复数据删除方法 Pending CN103051671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104758476A CN103051671A (zh) 2012-11-22 2012-11-22 一种集群文件系统重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104758476A CN103051671A (zh) 2012-11-22 2012-11-22 一种集群文件系统重复数据删除方法

Publications (1)

Publication Number Publication Date
CN103051671A true CN103051671A (zh) 2013-04-17

Family

ID=48064166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104758476A Pending CN103051671A (zh) 2012-11-22 2012-11-22 一种集群文件系统重复数据删除方法

Country Status (1)

Country Link
CN (1) CN103051671A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279502A (zh) * 2013-05-06 2013-09-04 北京赛思信安技术有限公司 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法
CN103617177A (zh) * 2013-11-05 2014-03-05 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件系统
CN103731423A (zh) * 2013-12-25 2014-04-16 北京安码科技有限公司 一种安全的重复数据删除方法
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN104021181A (zh) * 2014-06-10 2014-09-03 浪潮电子信息产业股份有限公司 一种集群存储系统下文件快速对比方法
CN104754048A (zh) * 2015-03-30 2015-07-01 中国人民解放军信息工程大学 服务器集群的一种拟态组织结构
CN105493080A (zh) * 2013-12-23 2016-04-13 华为技术有限公司 基于上下文感知的重复数据删除的方法和装置
CN105549912A (zh) * 2015-12-21 2016-05-04 浪潮电子信息产业股份有限公司 同时包含多种类操作系统的服务器集群的存储方法
CN110188076A (zh) * 2019-05-28 2019-08-30 厦门市数证科技有限公司 一种Hadoop文件系统并发高速数据完全删除的方法
CN111522791A (zh) * 2020-04-30 2020-08-11 电子科技大学 一种分布式文件重复数据删除系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7281032B2 (en) * 2000-06-30 2007-10-09 Hitachi, Ltd. File sharing system with data mirroring by storage systems
CN101290584A (zh) * 2007-04-17 2008-10-22 焦秀琴 基于系统调用包裹技术的可迁移软件使用模式
CN102629247A (zh) * 2011-12-31 2012-08-08 成都市华为赛门铁克科技有限公司 一种数据处理方法、装置和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7281032B2 (en) * 2000-06-30 2007-10-09 Hitachi, Ltd. File sharing system with data mirroring by storage systems
CN101290584A (zh) * 2007-04-17 2008-10-22 焦秀琴 基于系统调用包裹技术的可迁移软件使用模式
CN102629247A (zh) * 2011-12-31 2012-08-08 成都市华为赛门铁克科技有限公司 一种数据处理方法、装置和系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279502A (zh) * 2013-05-06 2013-09-04 北京赛思信安技术有限公司 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法
CN103279502B (zh) * 2013-05-06 2016-01-20 北京赛思信安技术有限公司 一种具有与并行文件系统结合的重复数据删除文件系统的架构及方法
CN103617177A (zh) * 2013-11-05 2014-03-05 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件系统
WO2015067128A1 (zh) * 2013-11-05 2015-05-14 浪潮(北京)电子信息产业有限公司 一种堆叠式重复数据删除文件系统
CN105493080B (zh) * 2013-12-23 2019-08-16 华为技术有限公司 基于上下文感知的重复数据删除的方法和装置
CN105493080A (zh) * 2013-12-23 2016-04-13 华为技术有限公司 基于上下文感知的重复数据删除的方法和装置
CN103731423A (zh) * 2013-12-25 2014-04-16 北京安码科技有限公司 一种安全的重复数据删除方法
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN104021181A (zh) * 2014-06-10 2014-09-03 浪潮电子信息产业股份有限公司 一种集群存储系统下文件快速对比方法
CN104754048A (zh) * 2015-03-30 2015-07-01 中国人民解放军信息工程大学 服务器集群的一种拟态组织结构
CN104754048B (zh) * 2015-03-30 2018-05-22 中国人民解放军信息工程大学 服务器集群的一种拟态组织结构
CN105549912A (zh) * 2015-12-21 2016-05-04 浪潮电子信息产业股份有限公司 同时包含多种类操作系统的服务器集群的存储方法
CN110188076A (zh) * 2019-05-28 2019-08-30 厦门市数证科技有限公司 一种Hadoop文件系统并发高速数据完全删除的方法
CN110188076B (zh) * 2019-05-28 2021-04-30 厦门市数证科技有限公司 一种Hadoop文件系统并发高速数据完全删除的方法
CN111522791A (zh) * 2020-04-30 2020-08-11 电子科技大学 一种分布式文件重复数据删除系统及方法

Similar Documents

Publication Publication Date Title
CN103051671A (zh) 一种集群文件系统重复数据删除方法
CN106708427A (zh) 一种适用于键值对数据的存储方法
CN103020315A (zh) 一种基于主从分布式文件系统的海量小文件存储方法
CN103268336A (zh) 一种快数据和大数据结合的数据处理方法及其系统
CN104679665A (zh) 一种实现分布式文件系统块存储的方法及系统
CN110750372B (zh) 基于共享内存的日志系统及日志管理方法
CN103699557A (zh) 报表处理方法及系统
CN104111994A (zh) 一种基于混合数据源的标签数据筛选方法及装置
CN102820998B (zh) 实现面向办公应用的双机容错服务系统及其数据存储方法
CN109862090A (zh) 一种高安全度分布式云存储系统
CN102779138A (zh) 实时数据的硬盘存取方法
CN102404411A (zh) 云存储系统的数据同步方法
CN103294413A (zh) 支持海量采集终端的分布式内存实时存储装置及方法
CN103473258A (zh) 云存储文件系统
CN105516313A (zh) 一种用于大数据的分布式存储系统
CN104216908A (zh) 互联网数据管理系统及其读写方法
CN104899161A (zh) 一种基于云存储环境的连续数据保护的缓存方法
CN106161637A (zh) 一种云备份方法及装置
CN107766355B (zh) 层级数据管理方法、层级数据管理系统及即时通信系统
CN104156395A (zh) 数据存储系统
CN102883143B (zh) 一种调整raid阵列缓存的方法
CN103543959B (zh) 海量数据高速缓存的方法及装置
CN110427347A (zh) 重复数据删除的方法、装置、存储节点及存储介质
CN102769642A (zh) 移动云存储系统及移动云存储实现方法
CN105095502A (zh) 一种集群存储系统的日志收集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130417