CN103761268B - 一种分布式文件系统数据存储布局的方法 - Google Patents
一种分布式文件系统数据存储布局的方法 Download PDFInfo
- Publication number
- CN103761268B CN103761268B CN201410004748.9A CN201410004748A CN103761268B CN 103761268 B CN103761268 B CN 103761268B CN 201410004748 A CN201410004748 A CN 201410004748A CN 103761268 B CN103761268 B CN 103761268B
- Authority
- CN
- China
- Prior art keywords
- file
- data storage
- raid
- section
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种分布式文件系统的数据存储布局的方法,该方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间。本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
Description
技术领域
本发明涉及计算机领域,具体涉及一种分布式文件系统数据存储布局的方法。
背景技术
分布式文件系统一般包含客户端,元数据服务器和数据服务器,客户端负责文件数据的访问接口制定,元数据服务器处理文件的布局及属性,数据服务器存储文件的数据内容。
对于分布式文件系统,如何组织文件数据的存储形式,直接决定了系统的磁盘利用率和整系统的性能,目前主流的两种存储形式是副本和节点间raid的方式,但是这两种方式对于不同的文件各有利弊,副本方式对于大文件磁盘利用率太低,节点间raid对于小文件,由于需要额外的计算,因此性能比副本的低。针对以上的弊端,传统的方式是建立大文件和小文件的命名空间,对小文件的命名空间用副本方式,对大文件的命名空间用节点间raid方式,让应用根据自身的需求选择不同的命名空间,但由于大多数应用在写入文件前是不知道其会有多大的,因此选择命名合适空间本身就不容易做到。
发明内容
针对现有技术的不足,本发明的目的是提供一种分布式文件系统数据存储布局的方法,本发明通过对文件不同长度的区间按不同方式存储数据,在未知文件大小的情况下,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
本发明的目的是采用下述技术方案实现的:
本发明提供一种分布式文件系统数据存储布局的方法,其改进之处在于,所述方法包括:将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一个段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一个段内,超过1M的部分需要先向元数据服务器发起第二个段的创建请求;
(3)元数据服务器发现非第一个段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中。
进一步地,文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。
进一步地,所述小文件为小于1M的文件,所述大文件为大于1M的文件。
与现有技术比,本发明达到的有益效果是:
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,解决了不同大小文件对文件系统的不同要求,既满足了小文件的高性能,又满足了大文件的高空间利用率。
附图说明
图1是本发明提供的将文件按长度区间分为不同的段的示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
本发明提供的分布式文件系统数据存储布局的方法,将文件按长度区间分为不同的段,第一个段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,这样做之后对于小文件其均不超过第一段的大小,用副本方式即省空间又可以减少计算量,可以做到小文件的快速存储,而对于大文件,之后的段均为节点间raid的方式存储,可以节省大量的存储空间,将文件按长度区间分为不同的段的示意图如图1所示。
本发明提供的分布式文件系统数据存储布局的方法包括:
(1)客户端创建文件时,元数据先创建出第一个段的副本数据布局及相关的元数据信息。
(2)当客户端写入的文件大小超过第一个段时,向元数据服务器发起第二个段的创建请求,
(3)元数据发现是非第一个段的创建,则创建一个节点间raid的数据布局模式,返回成功
(4)客户端继续写入的数据写入节点间raid的布局对象中。
文件按长度区间分为不同的段,每个段的大小,根据文件系统应用对小文件的长度定义来确定。所述小文件为小于1M的文件,所述大文件为大于1M的文件。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种分布式文件系统数据存储布局的方法,其特征在于,所述方法包括:将文件按长度区间分为不同的段,第一段选用副本方式存储数据内容,之后的段选用节点间raid的方式存储数据内容,对于小文件的大小均不超过第一段的大小,对于大文件,除第一段之后的段均为节点间raid的方式存储;
所述方法包括下述步骤:
(1)客户端创建文件时,元数据服务器先创建出第一段的副本数据布局及元数据信息;
(2)当客户端写入的文件大小小于1M时数据存储到第一段内,超过1M的部分需要先向元数据服务器发起第二段的创建请求;
(3)元数据服务器发现非第一段的创建,则创建一个节点间raid的副本数据布局模式,返回给客户端成功;
(4)客户端继续将数据写入节点间raid的布局对象中;
文件按长度区间分为不同的段,每段的大小,根据文件系统应用对小文件的长度定义来确定;
所述小文件为小于1M的文件,所述大文件为大于1M的文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410004748.9A CN103761268B (zh) | 2014-01-06 | 2014-01-06 | 一种分布式文件系统数据存储布局的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410004748.9A CN103761268B (zh) | 2014-01-06 | 2014-01-06 | 一种分布式文件系统数据存储布局的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103761268A CN103761268A (zh) | 2014-04-30 |
CN103761268B true CN103761268B (zh) | 2017-12-01 |
Family
ID=50528505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410004748.9A Active CN103761268B (zh) | 2014-01-06 | 2014-01-06 | 一种分布式文件系统数据存储布局的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761268B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111125032B (zh) * | 2019-12-24 | 2023-09-19 | 天地伟业技术有限公司 | 一种流式存储和文件存储并存的实现方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110154A (zh) * | 2011-02-21 | 2011-06-29 | 中国科学院计算技术研究所 | 一种集群文件系统中文件冗余存储方法 |
CN102567443A (zh) * | 2011-10-25 | 2012-07-11 | 无锡城市云计算中心有限公司 | 一种分布式文件系统数据分片换段的方法 |
CN103164490A (zh) * | 2011-12-19 | 2013-06-19 | 北京新媒传信科技有限公司 | 一种不固定长度数据的高效存储实现方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120278553A1 (en) * | 2011-04-28 | 2012-11-01 | Mudhiganti Devender R | System and method for migration of data clones |
-
2014
- 2014-01-06 CN CN201410004748.9A patent/CN103761268B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102110154A (zh) * | 2011-02-21 | 2011-06-29 | 中国科学院计算技术研究所 | 一种集群文件系统中文件冗余存储方法 |
CN102567443A (zh) * | 2011-10-25 | 2012-07-11 | 无锡城市云计算中心有限公司 | 一种分布式文件系统数据分片换段的方法 |
CN103164490A (zh) * | 2011-12-19 | 2013-06-19 | 北京新媒传信科技有限公司 | 一种不固定长度数据的高效存储实现方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于Erasure Code的分布式文件存储系统;潘利伟等;《计算机工程》;20100930;第36卷(第17期);第45-47页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103761268A (zh) | 2014-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9052938B1 (en) | Correlation and associated display of virtual machine data and storage performance data | |
JP5656563B2 (ja) | 文書管理システム、文書管理システムの制御方法、プログラム | |
CN103714123B (zh) | 企业云存储分块对象重复数据删除和重组版本控制方法 | |
US10852966B1 (en) | System and method for creating mapped RAID group during expansion of extent pool | |
US10908833B2 (en) | Data migration method for a storage system after expansion and storage system | |
CN106446001B (zh) | 一种在计算机存储介质上存储文件的方法及系统 | |
CN102821138A (zh) | 一种适用于云存储系统的元数据分布式存储方法 | |
CN104133882A (zh) | 一种基于hdfs的小文件处理方法 | |
US8364641B2 (en) | Method and system for deduplicating data | |
CN103793475B (zh) | 一种分布式文件系统数据迁移的方法 | |
TW201220197A (en) | for improving the safety and reliability of data storage in a virtual machine based on cloud calculation and distributed storage environment | |
CN102272751B (zh) | 在数据库环境通过背景同步的数据完整性 | |
CN105095247B (zh) | 符号数据分析方法和系统 | |
CN105630810B (zh) | 一种对于海量小文件在分布式存储系统中上载的方法 | |
CN104519103B (zh) | 网络数据的同步处理方法、服务器及相关系统 | |
CN103176754A (zh) | 一种海量小文件读取存储方法 | |
CN104899161B (zh) | 一种基于云存储环境的连续数据保护的缓存方法 | |
CN107967122A (zh) | 一种块设备的数据写入方法、装置及介质 | |
CN104536908B (zh) | 一种面向单机的海量小记录高效存储管理方法 | |
CN104572505A (zh) | 一种保证海量数据缓存最终一致性的系统及方法 | |
CN107562882A (zh) | 一种基于日志分析的数据同步方法及装置 | |
CN103412929A (zh) | 一种海量数据的存储方法 | |
WO2015062113A1 (zh) | 一种事务处理方法与装置 | |
CN108897822A (zh) | 一种数据更新方法、装置、设备及可读存储介质 | |
CN103761268B (zh) | 一种分布式文件系统数据存储布局的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |