CN103761268B - 一种分布式文件系统数据存储布局的方法 - Google Patents

一种分布式文件系统数据存储布局的方法 Download PDF

Info

Publication number
CN103761268B
CN103761268B CN201410004748.9A CN201410004748A CN103761268B CN 103761268 B CN103761268 B CN 103761268B CN 201410004748 A CN201410004748 A CN 201410004748A CN 103761268 B CN103761268 B CN 103761268B
Authority
CN
China
Prior art keywords
file
data storage
raid
section
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410004748.9A
Other languages
English (en)
Other versions
CN103761268A (zh
Inventor
郭照斌
马振杰
姜国梁
季旻
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Original Assignee
WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUXI CITY CLOUD COMPUTER CENTER CO Ltd filed Critical WUXI CITY CLOUD COMPUTER CENTER CO Ltd
Priority to CN201410004748.9A priority Critical patent/CN103761268B/zh
Publication of CN103761268A publication Critical patent/CN103761268A/zh
Application granted granted Critical
Publication of CN103761268B publication Critical patent/CN103761268B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种分布式文件系统的数据存储布局的方法,该方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间。本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。

Description

一种分布式文件系统数据存储布局的方法
技术领域
本发明涉及计算机领域,具体涉及一种分布式文件系统数据存储布局的方法。
背景技术
分布式文件系统一般包含客户端,元数据服务器和数据服务器,客户端负责文件数据的访问接口制定,元数据服务器处理文件的布局及属性,数据服务器存储文件的数据内容。
对于分布式文件系统,如何组织文件数据的存储形式,直接决定了系统的磁盘利用率和整系统的性能,目前主流的两种存储形式是副本和节点间raid的方式,但是这两种方式对于不同的文件各有利弊,副本方式对于大文件磁盘利用率太低,节点间raid对于小文件,由于需要额外的计算,因此性能比副本的低。针对以上的弊端,传统的方式是建立大文件和小文件的命名空间,对小文件的命名空间用副本方式,对大文件的命名空间用节点间raid方式,让应用根据自身的需求选择不同的命名空间,但由于大多数应用在写入文件前是不知道其会有多大的,因此选择命名合适空间本身就不容易做到。
发明内容
针对现有技术的不足,本发明的目的是提供一种分布式文件系统数据存储布局的方法,本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
本发明的目的是采用下述技术方案实现的:
本发明提供一种分布式文件系统数据存储布局的方法,其改进之处在于,所述方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一个段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一个段内,超过1M的部分需要先向元数据服务器发起第二个段的创建请求;
(3)元数据服务器发现非第一个段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中。
进一步地,文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。
进一步地,所述小文件为小于1M的文件,所述大文件为大于1M的文件。
与现有技术比,本发明达到的有益效果是:
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
附图说明
图1是本发明提供的将文件按长度区间分为不同的段的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,将文件按长度区间分为不同的段的示意图如图1所示。
本发明提供的分布式文件系统数据存储布局的方法包括:
(1)客户端创建文件时,元数据先创建出第一个段的副本数据布局及相关的元数据信息。
(2)当客户端写入的文件大小超过第一个段时,向元数据服务器发起第二个段的创建请求,
(3)元数据发现是非第一个段的创建,则创建一个节点间raid的数据布局模式,返回成功
(4)客户端继续写入的数据写入节点间raid的布局对象中。
文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。所述小文件为小于1M的文件,所述大文件为大于1M的文件。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种分布式文件系统数据存储布局的方法,其特征在于,所述方法包括:将文件按长度区间分为不同的段,第一段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一段内,超过1M的部分需要先向元数据服务器发起第二段的创建请求;
(3)元数据服务器发现非第一段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中;
文件按长度区间分为不同的段,每段的大小,根据文件系统应用对小文件的长度定义来确定;
所述小文件为小于1M的文件,所述大文件为大于1M的文件。
CN201410004748.9A 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法 Active CN103761268B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410004748.9A CN103761268B (zh) 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410004748.9A CN103761268B (zh) 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法

Publications (2)

Publication Number Publication Date
CN103761268A CN103761268A (zh) 2014-04-30
CN103761268B true CN103761268B (zh) 2017-12-01

Family

ID=50528505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410004748.9A Active CN103761268B (zh) 2014-01-06 2014-01-06 一种分布式文件系统数据存储布局的方法

Country Status (1)

Country Link
CN (1) CN103761268B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125032B (zh) * 2019-12-24 2023-09-19 天地伟业技术有限公司 一种流式存储和文件存储并存的实现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110154A (zh) * 2011-02-21 2011-06-29 中国科学院计算技术研究所 一种集群文件系统中文件冗余存储方法
CN102567443A (zh) * 2011-10-25 2012-07-11 无锡城市云计算中心有限公司 一种分布式文件系统数据分片换段的方法
CN103164490A (zh) * 2011-12-19 2013-06-19 北京新媒传信科技有限公司 一种不固定长度数据的高效存储实现方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120278553A1 (en) * 2011-04-28 2012-11-01 Mudhiganti Devender R System and method for migration of data clones

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110154A (zh) * 2011-02-21 2011-06-29 中国科学院计算技术研究所 一种集群文件系统中文件冗余存储方法
CN102567443A (zh) * 2011-10-25 2012-07-11 无锡城市云计算中心有限公司 一种分布式文件系统数据分片换段的方法
CN103164490A (zh) * 2011-12-19 2013-06-19 北京新媒传信科技有限公司 一种不固定长度数据的高效存储实现方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Erasure Code的分布式文件存储系统;潘利伟等;《计算机工程》;20100930;第36卷(第17期);第45-47页 *

Also Published As

Publication number Publication date
CN103761268A (zh) 2014-04-30

Similar Documents

Publication Publication Date Title
US9052938B1 (en) Correlation and associated display of virtual machine data and storage performance data
JP5656563B2 (ja) 文書管理システム、文書管理システムの制御方法、プログラム
CN103714123B (zh) 企业云存储分块对象重复数据删除和重组版本控制方法
US10852966B1 (en) System and method for creating mapped RAID group during expansion of extent pool
US10908833B2 (en) Data migration method for a storage system after expansion and storage system
CN106446001B (zh) 一种在计算机存储介质上存储文件的方法及系统
CN102821138A (zh) 一种适用于云存储系统的元数据分布式存储方法
CN104133882A (zh) 一种基于hdfs的小文件处理方法
US8364641B2 (en) Method and system for deduplicating data
CN103793475B (zh) 一种分布式文件系统数据迁移的方法
TW201220197A (en) for improving the safety and reliability of data storage in a virtual machine based on cloud calculation and distributed storage environment
CN102272751B (zh) 在数据库环境通过背景同步的数据完整性
CN105095247B (zh) 符号数据分析方法和系统
CN105630810B (zh) 一种对于海量小文件在分布式存储系统中上载的方法
CN104519103B (zh) 网络数据的同步处理方法、服务器及相关系统
CN103176754A (zh) 一种海量小文件读取存储方法
CN104899161B (zh) 一种基于云存储环境的连续数据保护的缓存方法
CN107967122A (zh) 一种块设备的数据写入方法、装置及介质
CN104536908B (zh) 一种面向单机的海量小记录高效存储管理方法
CN104572505A (zh) 一种保证海量数据缓存最终一致性的系统及方法
CN107562882A (zh) 一种基于日志分析的数据同步方法及装置
CN103412929A (zh) 一种海量数据的存储方法
WO2015062113A1 (zh) 一种事务处理方法与装置
CN108897822A (zh) 一种数据更新方法、装置、设备及可读存储介质
CN103761268B (zh) 一种分布式文件系统数据存储布局的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant