CN113835615A - 一种基于分布式文件存储的智能分层方法和系统 - Google Patents

一种基于分布式文件存储的智能分层方法和系统 Download PDF

Info

Publication number
CN113835615A
CN113835615A CN202010981514.5A CN202010981514A CN113835615A CN 113835615 A CN113835615 A CN 113835615A CN 202010981514 A CN202010981514 A CN 202010981514A CN 113835615 A CN113835615 A CN 113835615A
Authority
CN
China
Prior art keywords
data
file
data layer
hot
cold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010981514.5A
Other languages
English (en)
Inventor
李文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yanrong Technology Co ltd
Original Assignee
Beijing Yanrong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yanrong Technology Co ltd filed Critical Beijing Yanrong Technology Co ltd
Priority to CN202010981514.5A priority Critical patent/CN113835615A/zh
Publication of CN113835615A publication Critical patent/CN113835615A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式文件存储的智能分层方法和系统,系统包括热数据层和冷数据层,热数据层包括元数据模块、数据存储模块、协调器、代理模块;元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;数据存储模块包含文件系统中实际存储的文件数据;协调器管理定时扫描任务,及冷热数据定义策略;代理模块存储符合策略的待迁移文件的记录;冷数据层包括对象桶模块,对象桶用于存放冷数据;热数据层与冷数据层之间设置有复制工具模块,复制工具模块执行冷热数据之间的复制。本发明根据时间及冷热数据策略,进行数据扫描,把冷数据迁移至价格相对便宜,性能低的对象存储。冷数据得以在低成本的对象存储中有效保存。

Description

一种基于分布式文件存储的智能分层方法和系统
技术领域
本发明涉及数据信息处理技术领域,特别涉及一种基于分布式文件存储的智能分层方法和系统。
背景技术
当前,越来越多的用户面临非结构化数据(文件、图片、视频等)快速增长的压力,根据Gartner和IDC的报告,非结构化数据的年复合增长率超过 40%。在用户的大多数应用中,非结构化数据的访问存在冷热数据的明显区别,对热数据的访问性能要求较高,经过一定时间周期之后(不同应用中,数据的生命周期也有所区别),热数据逐渐变冷,数据变冷后,应用访问这些冷数据的频率会变得很低。如何解决海量非结构化数据存储及访问,以及冷热数据的分层,可以帮助解决企业用户使用更低的成本,即满足应用高性能访问,又满足大容量数据更经济地存储的需求。
当前,为了实现非结构化数据冷热分层的功能,通常采取的方案:
热数据层和冷数据层使用不同访问性能、存储密度的存储设备,再通过归档软件对数据进行归档,实现冷热数据分离,例如,将高性能的NAS设备作为热数据层,通过在归档软件中定义策略,将冷数据归档到磁带库或蓝光机柜中。如果上层应用需要访问冷数据,应用首先要知道数据处在冷数据层中,然后修改访问方式,无法做到对应用的透明无感知。
使用不同的存储设备的方案中,由于两种设备的访问空间和访问方式不同,当数据归档至磁带库等冷数据空间后,如果上层应用需要访问这些冷数据,应用首先要知道数据处在冷数据层中,然后修改访问方式,这意味着应用无法做到透明无感知地访问所有数据。
发明内容
为了至少解决或部分解决上述问题,提供一种基于分布式文件存储的智能分层方法和系统,冷数据迁移至更廉价的存储介质上,是的存储在保证性能的前提下,尽可能的降低成本。
在实现数据冷热分层的基础上,保证上层应用对分层完全透明无感知,应用开发者无需关心待访问的数据处于哪一层中,数据的声明周期管理,完全通过存储系统内部自主、高效地完成。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于分布式文件存储的智能分层方法,包括以下步骤:根据最后访问时间和最后修改时间定义数据是否为经常使用的数据;并定期对数据进行扫描和迁移,把经常要用的数据留在热数据层,把不经常用的数据迁移至冷数据层。
作为本发明的一种优选技术方案,所述数据从热数据层到冷数据层的步骤如下:
1、协调器定期扫描数据;
2、文件是否符合数据迁移策略,不符合文件不做迁移;
3、符合数据迁移策略的文件,则将数据记录至代理,排队等候迁移;
4、在排队、及迁移过程中,是否有对该文件的读写;
5、有读写则取消迁移;
6、过程中没有读写,则完成热数据层至冷数据层的迁移;
7、迁移完成之后,删除原热数据层该文件。
作为本发明的一种优选技术方案,所述数据迁移策略指的是根据定义数据执行从热数据层拷贝数据至冷数据层的策略。
作为本发明的一种优选技术方案,所述数据从冷数据层到热数据层的步骤如下:
1、当有数据请求时,判断是读请求还是写请求;
2、若为读请求,则文件是否在热数据层,在热数据层,则直接读取;文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,直接读取;
3、若为写请求,判断写文件是否为新建文件,是新文件则直接在写入数据在热数据层;写文件为老文件,则判断该数据是否在热数据层;如该在热数据层,则直接写;如文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,则直接写。
本发明一种基于分布式文件存储的智能分层系统,包括热数据层和冷数据层,所述热数据层包括元数据模块、数据存储模块、协调器、代理模块;
所述元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;
所述数据存储模块包含文件系统中实际存储的文件数据;
所述协调器管理定时扫描任务,及冷热数据定义策略;
所述代理模块存储符合策略的待迁移文件的记录;
所述冷数据层包括对象桶模块,所述对象桶用于存放冷数据;
所述热数据层与冷数据层之间设置有复制工具模块,所述复制工具模块执行冷热数据之间的复制。
与现有技术相比,本发明的有益效果如下:
本发明根据应用数据类型,使冷热数据策略定义准确,保证大部分应用需要访问的数据,都在热数据层,那么存储能够提供的性能,几乎没有损失;另一方面使冷数据都保留在对象存储中,冷数据占用绝大多数的存储容量,从而最大程度上,降低存储使用成本。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的数据从热数据层到冷数据层的流程图;
图2是本发明的数据从冷数据层到热数据层的流程图;
图3是本发明的系统结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
此外,如果已知技术的详细描述对于示出本发明的特征是不必要的,则将其省略。
实施例1
本发明提供一种基于分布式文件存储的智能分层方法,包括两个部分:冷热数据策略(根据最后访问时间和最后修改时间定义数据是否为经常使用的热数据)、时间策略(扫描并迁移冷热数据的周期性策略)。
冷热数据策略,可根据自己的应用类型,定义更符合应用类型的冷热数据策略,把经常要用的数据留在热数据层,把不经常用的数据迁移至冷数据层。
时间策略,可以定制冷热数据扫描和迁移的周期。用户可以据自己的应用类型来定制,规避应用的繁忙时间段,避免系统压力。
根据时间及冷热数据策略,在规定的时间,进行数据扫描,把冷数据迁移至价格相对便宜,性能低的对象存储。冷数据得以在低成本的对象存储中有效保存。
如图1所示,所述数据从热数据层到冷数据层的步骤如下:
1、协调器定期扫描数据;
2、文件是否符合数据迁移策略,不符合文件不做迁移;
3、符合数据迁移策略的文件,则将数据记录至代理,排队等候迁移;
4、在排队、及迁移过程中,是否有对该文件的读写;
5、有读写则取消迁移;
6、过程中没有读写,则完成热数据层至冷数据层的迁移;
7、迁移完成之后,删除原热数据层该文件。
如图2所示,所述数据从冷数据层到热数据层的步骤如下:
1、当有数据请求时,判断是读请求还是写请求;
2、若为读请求,则文件是否在热数据层,在热数据层,则直接读取;文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,直接读取;
3、若为写请求,判断写文件是否为新建文件,是新文件则直接在写入数据在热数据层;写文件为老文件,则判断该数据是否在热数据层;如该在热数据层,则直接写;如文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,则直接写。
如图3所示,本发明一种基于分布式文件存储的智能分层系统,包括热数据层和冷数据层,所述热数据层包括元数据模块、数据存储模块、协调器、代理模块;
所述元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;
所述数据存储模块包含文件系统中实际存储的文件数据;
所述协调器管理定时扫描任务,及冷热数据定义策略;
所述代理模块存储符合策略的待迁移文件的记录;
所述冷数据层包括对象桶模块,所述对象桶用于存放冷数据;
所述热数据层与冷数据层之间设置有复制工具模块,所述复制工具模块执行冷热数据之间的复制。
上述系统与方法步骤中,数据智能分层时数据请求类型包括以下四种:
1、分层迁移策略:从热数据层拷贝数据至冷数据层;
2、分层恢复策略:从冷数据层考回数据至热数据层;
3、删除策略:从冷数据层移除数据;
4、取消策略:取消进行中或等待中的请求;
分布式文件存储,通过标准POSIX接口,提供完整的文件目录访问结构,内部数据的双向移动(数据在热数据层与冷数据层之间移动),是有分层策略来定义,是分布式存储内部的机制,对于应用访问无感知,从而来提供高性能、低成本的存储服务。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于分布式文件存储的智能分层方法,其特征在于,包括以下步骤:根据最后访问时间和最后修改时间定义数据是否为经常使用的数据;并定期对数据进行扫描和迁移,把经常要用的数据留在热数据层,把不经常用的数据迁移至冷数据层。
2.根据权利要求1所述的一种基于分布式文件存储的智能分层方法,其特征在于,所述数据从热数据层到冷数据层的步骤如下:
1、协调器定期扫描数据;
2、文件是否符合数据迁移策略,不符合文件不做迁移;
3、符合数据迁移策略的文件,则将数据记录至代理,排队等候迁移;
4、在排队、及迁移过程中,是否有对该文件的读写;
5、有读写则取消迁移;
6、过程中没有读写,则完成热数据层至冷数据层的迁移;
7、迁移完成之后,删除原热数据层该文件。
3.根据权利要求2所述的一种基于分布式文件存储的智能分层方法,其特征在于,所述数据迁移策略指的是根据定义数据执行从热数据层拷贝数据至冷数据层的策略。
4.根据权利要求1所述的一种基于分布式文件存储的智能分层方法,其特征在于,所述数据从冷数据层到热数据层的步骤如下:
1、当有数据请求时,判断是读请求还是写请求;
2、若为读请求,则文件是否在热数据层,在热数据层,则直接读取;文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,直接读取;
3、若为写请求,判断写文件是否为新建文件,是新文件则直接在写入数据在热数据层;写文件为老文件,则判断该数据是否在热数据层;如该在热数据层,则直接写;如文件不在热数据层,则协调器通知代理,将该文件从冷数据层迁移至热数据层;文件迁移至热数据层完成,删除冷数据中原文件;文件已经在热数据层,则直接写。
5.一种基于分布式文件存储的智能分层系统,其特征在于,包括热数据层和冷数据层,所述热数据层包括元数据模块、数据存储模块、协调器、代理模块;
所述元数据模块用来描述一个文件的特征的系统数据,包含文件的元数据信息;
所述数据存储模块包含文件系统中实际存储的文件数据;
所述协调器管理定时扫描任务,及冷热数据定义策略;
所述代理模块存储符合策略的待迁移文件的记录;
所述冷数据层包括对象桶模块,所述对象桶用于存放冷数据;
所述热数据层与冷数据层之间设置有复制工具模块,所述复制工具模块执行冷热数据之间的复制。
CN202010981514.5A 2020-09-17 2020-09-17 一种基于分布式文件存储的智能分层方法和系统 Pending CN113835615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010981514.5A CN113835615A (zh) 2020-09-17 2020-09-17 一种基于分布式文件存储的智能分层方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010981514.5A CN113835615A (zh) 2020-09-17 2020-09-17 一种基于分布式文件存储的智能分层方法和系统

Publications (1)

Publication Number Publication Date
CN113835615A true CN113835615A (zh) 2021-12-24

Family

ID=78962371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010981514.5A Pending CN113835615A (zh) 2020-09-17 2020-09-17 一种基于分布式文件存储的智能分层方法和系统

Country Status (1)

Country Link
CN (1) CN113835615A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106047A (zh) * 2013-01-29 2013-05-15 浪潮(北京)电子信息产业有限公司 一种基于对象的存储系统及其存储方法
CN104793901A (zh) * 2015-04-09 2015-07-22 北京鲸鲨软件科技有限公司 一种存储装置及存储方法
CN105677581A (zh) * 2016-01-05 2016-06-15 上海斐讯数据通信技术有限公司 一种内存访问装置和方法
CN107315540A (zh) * 2017-06-13 2017-11-03 深圳神州数码云科数据技术有限公司 一种自动分层存储方法及系统
CN108829341A (zh) * 2018-05-03 2018-11-16 上海科技大学 一种基于混合存储系统的数据管理方法
CN109491618A (zh) * 2018-11-20 2019-03-19 上海科技大学 基于混合存储的数据管理系统、方法、终端及介质
CN110531938A (zh) * 2019-09-02 2019-12-03 广东紫晶信息存储技术股份有限公司 一种基于多维度的冷热数据迁移方法及系统
CN111427844A (zh) * 2020-04-15 2020-07-17 成都信息工程大学 一种面向文件分级存储的数据迁移系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106047A (zh) * 2013-01-29 2013-05-15 浪潮(北京)电子信息产业有限公司 一种基于对象的存储系统及其存储方法
CN104793901A (zh) * 2015-04-09 2015-07-22 北京鲸鲨软件科技有限公司 一种存储装置及存储方法
CN105677581A (zh) * 2016-01-05 2016-06-15 上海斐讯数据通信技术有限公司 一种内存访问装置和方法
CN107315540A (zh) * 2017-06-13 2017-11-03 深圳神州数码云科数据技术有限公司 一种自动分层存储方法及系统
CN108829341A (zh) * 2018-05-03 2018-11-16 上海科技大学 一种基于混合存储系统的数据管理方法
CN109491618A (zh) * 2018-11-20 2019-03-19 上海科技大学 基于混合存储的数据管理系统、方法、终端及介质
CN110531938A (zh) * 2019-09-02 2019-12-03 广东紫晶信息存储技术股份有限公司 一种基于多维度的冷热数据迁移方法及系统
CN111427844A (zh) * 2020-04-15 2020-07-17 成都信息工程大学 一种面向文件分级存储的数据迁移系统及方法

Similar Documents

Publication Publication Date Title
US8392685B2 (en) Arrangements for managing metadata of an integrated logical unit including differing types of storage media
US7293133B1 (en) Performing operations without requiring split mirrors in a multi-class file system
US7395389B2 (en) Extending non-volatile storage at a computer system
US8229897B2 (en) Restoring a file to its proper storage tier in an information lifecycle management environment
US8423739B2 (en) Apparatus, system, and method for relocating logical array hot spots
US7103740B1 (en) Backup mechanism for a multi-class file system
US8127095B1 (en) Restore mechanism for a multi-class file system
US10852981B2 (en) System for migrating virtual tape volumes between filesystems
US9557933B1 (en) Selective migration of physical data
US20100211547A1 (en) File sharing system, file server, and method for managing files
US20060004890A1 (en) Methods and systems for providing directory services for file systems
US20050119994A1 (en) Storage device
US20020091902A1 (en) File system and data caching method thereof
CN108829341B (zh) 一种基于混合存储系统的数据管理方法
US20120239896A1 (en) Optimized Shrinking of Virtual Disks
KR100790991B1 (ko) 데이터베이스 관리 시스템을 이용하여 파일시스템의메타데이터를 관리하는 방법
TW201211800A (en) Migration of metadata and storage management of data in a first storage environment to a second storage environment
CN114048185B (zh) 一种分布式文件系统中海量小文件透明打包存储与访问的方法
CN110704431A (zh) 一种海量数据的分级存储管理方法
US10055139B1 (en) Optimized layout in a two tier storage
JP2021022357A (ja) Fuse技術に基づくハイブリッドファイル構築方法及びそのシステム
CN111581175A (zh) 一种文件存储网关系统及其数据迁移方法
US20170286442A1 (en) File system support for file-level ghosting
CN113835615A (zh) 一种基于分布式文件存储的智能分层方法和系统
JP4390618B2 (ja) データベース再編成プログラム、データベース再編成方法、及びデータベース再編成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination