CN113835615A - 一种基于分布式文件存储的智能分层方法和系统 - Google Patents
一种基于分布式文件存储的智能分层方法和系统 Download PDFInfo
- Publication number
- CN113835615A CN113835615A CN202010981514.5A CN202010981514A CN113835615A CN 113835615 A CN113835615 A CN 113835615A CN 202010981514 A CN202010981514 A CN 202010981514A CN 113835615 A CN113835615 A CN 113835615A
- Authority
- CN
- China
- Prior art keywords
- data
- file
- data layer
- hot
- cold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 238000013508 migration Methods 0.000 claims description 25
- 230000005012 migration Effects 0.000 claims description 25
- 230000010076 replication Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0646—Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
- G06F3/0647—Migration mechanisms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于分布式文件存储的智能分层方法和系统,系统包括热数据层和冷数据层,热数据层包括元数据模块、数据存储模块、协调器、代理模块;元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;数据存储模块包含文件系统中实际存储的文件数据;协调器管理定时扫描任务,及冷热数据定义策略;代理模块存储符合策略的待迁移文件的记录;冷数据层包括对象桶模块,对象桶用于存放冷数据;热数据层与冷数据层之间设置有复制工具模块,复制工具模块执行冷热数据之间的复制。本发明根据时间及冷热数据策略,进行数据扫描,把冷数据迁移至价格相对便宜,性能低的对象存储。冷数据得以在低成本的对象存储中有效保存。
Description
技术领域
本发明涉及数据信息处理技术领域,特别涉及一种基于分布式文件存储的智能分层方法和系统。
背景技术
当前,越来越多的用户面临非结构化数据(文件、图片、视频等)快速增长的压力,根据Gartner和IDC的报告,非结构化数据的年复合增长率超过 40%。在用户的大多数应用中,非结构化数据的访问存在冷热数据的明显区别,对热数据的访问性能要求较高,经过一定时间周期之后(不同应用中,数据的生命周期也有所区别),热数据逐渐变冷,数据变冷后,应用访问这些冷数据的频率会变得很低。如何解决海量非结构化数据存储及访问,以及冷热数据的分层,可以帮助解决企业用户使用更低的成本,即满足应用高性能访问,又满足大容量数据更经济地存储的需求。
当前,为了实现非结构化数据冷热分层的功能,通常采取的方案:
热数据层和冷数据层使用不同访问性能、存储密度的存储设备,再通过归档软件对数据进行归档,实现冷热数据分离,例如,将高性能的NAS设备作为热数据层,通过在归档软件中定义策略,将冷数据归档到磁带库或蓝光机柜中。如果上层应用需要访问冷数据,应用首先要知道数据处在冷数据层中,然后修改访问方式,无法做到对应用的透明无感知。
使用不同的存储设备的方案中,由于两种设备的访问空间和访问方式不同,当数据归档至磁带库等冷数据空间后,如果上层应用需要访问这些冷数据,应用首先要知道数据处在冷数据层中,然后修改访问方式,这意味着应用无法做到透明无感知地访问所有数据。
发明内容
为了至少解决或部分解决上述问题,提供一种基于分布式文件存储的智能分层方法和系统,冷数据迁移至更廉价的存储介质上,是的存储在保证性能的前提下,尽可能的降低成本。
在实现数据冷热分层的基础上,保证上层应用对分层完全透明无感知,应用开发者无需关心待访问的数据处于哪一层中,数据的声明周期管理,完全通过存储系统内部自主、高效地完成。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于分布式文件存储的智能分层方法,包括以下步骤:根据最后访问时间和最后修改时间定义数据是否为经常使用的数据;并定期对数据进行扫描和迁移,把经常要用的数据留在热数据层,把不经常用的数据迁移至冷数据层。
作为本发明的一种优选技术方案,所述数据从热数据层到冷数据层的步骤如下:
1、协调器定期扫描数据;
2、文件是否符合数据迁移策略,不符合文件不做迁移;
3、符合数据迁移策略的文件,则将数据记录至代理,排队等候迁移;
4、在排队、及迁移过程中,是否有对该文件的读写;
5、有读写则取消迁移;
6、过程中没有读写,则完成热数据层至冷数据层的迁移;
7、迁移完成之后,删除原热数据层该文件。
作为本发明的一种优选技术方案,所述数据迁移策略指的是根据定义数据执行从热数据层拷贝数据至冷数据层的策略。
作为本发明的一种优选技术方案,所述数据从冷数据层到热数据层的步骤如下:
1、当有数据请求时,判断是读请求还是写请求;
2、若为读请求,则文件是否在热数据层,在热数据层,则直接读取;文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,直接读取;
3、若为写请求,判断写文件是否为新建文件,是新文件则直接在写入数据在热数据层;写文件为老文件,则判断该数据是否在热数据层;如该在热数据层,则直接写;如文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,则直接写。
本发明一种基于分布式文件存储的智能分层系统,包括热数据层和冷数据层,所述热数据层包括元数据模块、数据存储模块、协调器、代理模块;
所述元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;
所述数据存储模块包含文件系统中实际存储的文件数据;
所述协调器管理定时扫描任务,及冷热数据定义策略;
所述代理模块存储符合策略的待迁移文件的记录;
所述冷数据层包括对象桶模块,所述对象桶用于存放冷数据;
所述热数据层与冷数据层之间设置有复制工具模块,所述复制工具模块执行冷热数据之间的复制。
与现有技术相比,本发明的有益效果如下:
本发明根据应用数据类型,使冷热数据策略定义准确,保证大部分应用需要访问的数据,都在热数据层,那么存储能够提供的性能,几乎没有损失;另一方面使冷数据都保留在对象存储中,冷数据占用绝大多数的存储容量,从而最大程度上,降低存储使用成本。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的数据从热数据层到冷数据层的流程图;
图2是本发明的数据从冷数据层到热数据层的流程图;
图3是本发明的系统结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
此外,如果已知技术的详细描述对于示出本发明的特征是不必要的,则将其省略。
实施例1
本发明提供一种基于分布式文件存储的智能分层方法,包括两个部分:冷热数据策略(根据最后访问时间和最后修改时间定义数据是否为经常使用的热数据)、时间策略(扫描并迁移冷热数据的周期性策略)。
冷热数据策略,可根据自己的应用类型,定义更符合应用类型的冷热数据策略,把经常要用的数据留在热数据层,把不经常用的数据迁移至冷数据层。
时间策略,可以定制冷热数据扫描和迁移的周期。用户可以据自己的应用类型来定制,规避应用的繁忙时间段,避免系统压力。
根据时间及冷热数据策略,在规定的时间,进行数据扫描,把冷数据迁移至价格相对便宜,性能低的对象存储。冷数据得以在低成本的对象存储中有效保存。
如图1所示,所述数据从热数据层到冷数据层的步骤如下:
1、协调器定期扫描数据;
2、文件是否符合数据迁移策略,不符合文件不做迁移;
3、符合数据迁移策略的文件,则将数据记录至代理,排队等候迁移;
4、在排队、及迁移过程中,是否有对该文件的读写;
5、有读写则取消迁移;
6、过程中没有读写,则完成热数据层至冷数据层的迁移;
7、迁移完成之后,删除原热数据层该文件。
如图2所示,所述数据从冷数据层到热数据层的步骤如下:
1、当有数据请求时,判断是读请求还是写请求;
2、若为读请求,则文件是否在热数据层,在热数据层,则直接读取;文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,直接读取;
3、若为写请求,判断写文件是否为新建文件,是新文件则直接在写入数据在热数据层;写文件为老文件,则判断该数据是否在热数据层;如该在热数据层,则直接写;如文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,则直接写。
如图3所示,本发明一种基于分布式文件存储的智能分层系统,包括热数据层和冷数据层,所述热数据层包括元数据模块、数据存储模块、协调器、代理模块;
所述元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;
所述数据存储模块包含文件系统中实际存储的文件数据;
所述协调器管理定时扫描任务,及冷热数据定义策略;
所述代理模块存储符合策略的待迁移文件的记录;
所述冷数据层包括对象桶模块,所述对象桶用于存放冷数据;
所述热数据层与冷数据层之间设置有复制工具模块,所述复制工具模块执行冷热数据之间的复制。
上述系统与方法步骤中,数据智能分层时数据请求类型包括以下四种:
1、分层迁移策略:从热数据层拷贝数据至冷数据层;
2、分层恢复策略:从冷数据层考回数据至热数据层;
3、删除策略:从冷数据层移除数据;
4、取消策略:取消进行中或等待中的请求;
分布式文件存储,通过标准POSIX接口,提供完整的文件目录访问结构,内部数据的双向移动(数据在热数据层与冷数据层之间移动),是有分层策略来定义,是分布式存储内部的机制,对于应用访问无感知,从而来提供高性能、低成本的存储服务。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于分布式文件存储的智能分层方法,其特征在于,包括以下步骤:根据最后访问时间和最后修改时间定义数据是否为经常使用的数据;并定期对数据进行扫描和迁移,把经常要用的数据留在热数据层,把不经常用的数据迁移至冷数据层。
2.根据权利要求1所述的一种基于分布式文件存储的智能分层方法,其特征在于,所述数据从热数据层到冷数据层的步骤如下:
1、协调器定期扫描数据;
2、文件是否符合数据迁移策略,不符合文件不做迁移;
3、符合数据迁移策略的文件,则将数据记录至代理,排队等候迁移;
4、在排队、及迁移过程中,是否有对该文件的读写;
5、有读写则取消迁移;
6、过程中没有读写,则完成热数据层至冷数据层的迁移;
7、迁移完成之后,删除原热数据层该文件。
3.根据权利要求2所述的一种基于分布式文件存储的智能分层方法,其特征在于,所述数据迁移策略指的是根据定义数据执行从热数据层拷贝数据至冷数据层的策略。
4.根据权利要求1所述的一种基于分布式文件存储的智能分层方法,其特征在于,所述数据从冷数据层到热数据层的步骤如下:
1、当有数据请求时,判断是读请求还是写请求;
2、若为读请求,则文件是否在热数据层,在热数据层,则直接读取;文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,直接读取;
3、若为写请求,判断写文件是否为新建文件,是新文件则直接在写入数据在热数据层;写文件为老文件,则判断该数据是否在热数据层;如该在热数据层,则直接写;如文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,则直接写。
5.一种基于分布式文件存储的智能分层系统,其特征在于,包括热数据层和冷数据层,所述热数据层包括元数据模块、数据存储模块、协调器、代理模块;
所述元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;
所述数据存储模块包含文件系统中实际存储的文件数据;
所述协调器管理定时扫描任务,及冷热数据定义策略;
所述代理模块存储符合策略的待迁移文件的记录;
所述冷数据层包括对象桶模块,所述对象桶用于存放冷数据;
所述热数据层与冷数据层之间设置有复制工具模块,所述复制工具模块执行冷热数据之间的复制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010981514.5A CN113835615A (zh) | 2020-09-17 | 2020-09-17 | 一种基于分布式文件存储的智能分层方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010981514.5A CN113835615A (zh) | 2020-09-17 | 2020-09-17 | 一种基于分布式文件存储的智能分层方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113835615A true CN113835615A (zh) | 2021-12-24 |
Family
ID=78962371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010981514.5A Pending CN113835615A (zh) | 2020-09-17 | 2020-09-17 | 一种基于分布式文件存储的智能分层方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113835615A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115857831A (zh) * | 2022-12-30 | 2023-03-28 | 福建省电子政务建设运营有限公司 | 一种基于光电磁混合分级存储的医疗影像管理系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106047A (zh) * | 2013-01-29 | 2013-05-15 | 浪潮(北京)电子信息产业有限公司 | 一种基于对象的存储系统及其存储方法 |
CN104793901A (zh) * | 2015-04-09 | 2015-07-22 | 北京鲸鲨软件科技有限公司 | 一种存储装置及存储方法 |
CN105677581A (zh) * | 2016-01-05 | 2016-06-15 | 上海斐讯数据通信技术有限公司 | 一种内存访问装置和方法 |
CN107315540A (zh) * | 2017-06-13 | 2017-11-03 | 深圳神州数码云科数据技术有限公司 | 一种自动分层存储方法及系统 |
CN108829341A (zh) * | 2018-05-03 | 2018-11-16 | 上海科技大学 | 一种基于混合存储系统的数据管理方法 |
CN109491618A (zh) * | 2018-11-20 | 2019-03-19 | 上海科技大学 | 基于混合存储的数据管理系统、方法、终端及介质 |
CN110531938A (zh) * | 2019-09-02 | 2019-12-03 | 广东紫晶信息存储技术股份有限公司 | 一种基于多维度的冷热数据迁移方法及系统 |
CN111427844A (zh) * | 2020-04-15 | 2020-07-17 | 成都信息工程大学 | 一种面向文件分级存储的数据迁移系统及方法 |
-
2020
- 2020-09-17 CN CN202010981514.5A patent/CN113835615A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106047A (zh) * | 2013-01-29 | 2013-05-15 | 浪潮(北京)电子信息产业有限公司 | 一种基于对象的存储系统及其存储方法 |
CN104793901A (zh) * | 2015-04-09 | 2015-07-22 | 北京鲸鲨软件科技有限公司 | 一种存储装置及存储方法 |
CN105677581A (zh) * | 2016-01-05 | 2016-06-15 | 上海斐讯数据通信技术有限公司 | 一种内存访问装置和方法 |
CN107315540A (zh) * | 2017-06-13 | 2017-11-03 | 深圳神州数码云科数据技术有限公司 | 一种自动分层存储方法及系统 |
CN108829341A (zh) * | 2018-05-03 | 2018-11-16 | 上海科技大学 | 一种基于混合存储系统的数据管理方法 |
CN109491618A (zh) * | 2018-11-20 | 2019-03-19 | 上海科技大学 | 基于混合存储的数据管理系统、方法、终端及介质 |
CN110531938A (zh) * | 2019-09-02 | 2019-12-03 | 广东紫晶信息存储技术股份有限公司 | 一种基于多维度的冷热数据迁移方法及系统 |
CN111427844A (zh) * | 2020-04-15 | 2020-07-17 | 成都信息工程大学 | 一种面向文件分级存储的数据迁移系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115857831A (zh) * | 2022-12-30 | 2023-03-28 | 福建省电子政务建设运营有限公司 | 一种基于光电磁混合分级存储的医疗影像管理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8392685B2 (en) | Arrangements for managing metadata of an integrated logical unit including differing types of storage media | |
US7293133B1 (en) | Performing operations without requiring split mirrors in a multi-class file system | |
US7395389B2 (en) | Extending non-volatile storage at a computer system | |
US8229897B2 (en) | Restoring a file to its proper storage tier in an information lifecycle management environment | |
US8015157B2 (en) | File sharing system, file server, and method for managing files | |
US10852981B2 (en) | System for migrating virtual tape volumes between filesystems | |
US7103740B1 (en) | Backup mechanism for a multi-class file system | |
US8127095B1 (en) | Restore mechanism for a multi-class file system | |
US9557933B1 (en) | Selective migration of physical data | |
US20060004890A1 (en) | Methods and systems for providing directory services for file systems | |
US20020091902A1 (en) | File system and data caching method thereof | |
CN108829341B (zh) | 一种基于混合存储系统的数据管理方法 | |
US20120239896A1 (en) | Optimized Shrinking of Virtual Disks | |
KR100790991B1 (ko) | 데이터베이스 관리 시스템을 이용하여 파일시스템의메타데이터를 관리하는 방법 | |
TW201211800A (en) | Migration of metadata and storage management of data in a first storage environment to a second storage environment | |
KR20130083356A (ko) | 메타데이터 지속성을 위한 방법 | |
CN111581175A (zh) | 一种文件存储网关系统及其数据迁移方法 | |
CN114048185B (zh) | 一种分布式文件系统中海量小文件透明打包存储与访问的方法 | |
US10055139B1 (en) | Optimized layout in a two tier storage | |
CN113835615A (zh) | 一种基于分布式文件存储的智能分层方法和系统 | |
JP2021022357A (ja) | Fuse技術に基づくハイブリッドファイル構築方法及びそのシステム | |
US20170286442A1 (en) | File system support for file-level ghosting | |
JP4390618B2 (ja) | データベース再編成プログラム、データベース再編成方法、及びデータベース再編成装置 | |
US7308533B2 (en) | Method for reorganizing additional writing format storage media volume | |
JP3725375B2 (ja) | 記憶媒体ライブラリにおけるデータ再編成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |