CN104978362B - 分布式文件系统的数据迁移方法、装置及元数据服务器 - Google Patents

分布式文件系统的数据迁移方法、装置及元数据服务器 Download PDF

Info

Publication number
CN104978362B
CN104978362B CN201410146780.0A CN201410146780A CN104978362B CN 104978362 B CN104978362 B CN 104978362B CN 201410146780 A CN201410146780 A CN 201410146780A CN 104978362 B CN104978362 B CN 104978362B
Authority
CN
China
Prior art keywords
file
file fragmentation
storage equipment
fragmentation
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410146780.0A
Other languages
English (en)
Other versions
CN104978362A (zh
Inventor
胡剑华
韩盛中
朱鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing ZTE New Software Co Ltd
Original Assignee
Nanjing ZTE New Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing ZTE New Software Co Ltd filed Critical Nanjing ZTE New Software Co Ltd
Priority to CN201410146780.0A priority Critical patent/CN104978362B/zh
Priority to PCT/CN2014/083751 priority patent/WO2015154352A1/zh
Publication of CN104978362A publication Critical patent/CN104978362A/zh
Application granted granted Critical
Publication of CN104978362B publication Critical patent/CN104978362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式文件系统的数据迁移方法、装置及元数据服务器,其中分布式文件系统的数据迁移方法包括:根据文件分片被访问的字节数和文件分片大小统计文件分片的访问热度;根据文件分片的访问热度在不同性能的存储设备上迁移文件分片。通过本发明,提高了分布式文件系统的存储设备的空间和性能利用率。

Description

分布式文件系统的数据迁移方法、装置及元数据服务器
技术领域
本发明涉及通信领域,具体而言,涉及一种分布式文件系统的数据迁移方法、装置及元数据服务器。
背景技术
分布式文件系统通过将数据分布保存在多个服务器的多个磁盘上来实现数据的海量存储和快速部署。随着存储设备的类型更新,新的存储设备不断地加入到磁盘集群中,不同的存储设备性能存在差异。
在分布式文件系统中,存储的文件中只有少量的文件是经常访问的,即文件访问呈现局部性。另外,文件访问局部性还体现在文件本身只有部分内容被经常访问。
经常访问的文件需要较高的性能,而相关技术中没有有效的机制兼顾存储设备的空间和性能。因此,存储设备的空间和性能利用率不高,针对该问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中存储设备的空间和性能利用率不高的问题,本发明提供了一种分布式文件系统的数据迁移方法、装置及元数据服务器,以至少解决上述问题。
根据本发明的一个方面,提供了一种分布式文件系统的数据迁移方法,包括:根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度;以及根据所述文件分片的访问热度在不同性能的存储设备上迁移所述文件分片。
优选地,根据所述文件分片的访问热度在不同的存储设备上迁移所述文件分片包括:如果所述文件分片的访问热度大于第一阈值,将所述文件分片从性能低的存储设备迁移到性能高的存储设备;和/或如果所述文件分片的访问热度小于第二阈值,将所述文件分片从高性能的存储设备迁移到性能低的存储设备。
优选地,根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度包括:根据所述文件分片被访问的字节数、所述文件分片大小以及预设的热度系数统计所述文件的访问热度。
优选地,所述文件分片被访问的字节数越大且所述文件分片大小越小,统计得到的所述文件分片的访问热度越大。
根据本发明的另一个方面,提供了一种分布式文件系统的数据迁移装置,包括:统计模块,用于根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度;以及,迁移模块,用于根据所述文件分片的访问热度在不同性能的存储设备上迁移所述文件分片。
优选地,所述迁移模块包括:第一迁移单元,用于在所述文件分片的访问热度大于第一阈值的情况下,将所述文件分片从性能低的存储设备迁移到性能高的存储设备;和/或,第二迁移单元,用于在所述文件分片的访问热度小于第二阈值的情况下,将所述文件分片从高性能的存储设备迁移到性能低的存储设备。
优选地,所述文件分片被访问的字节数越大且所述文件分片大小越小,统计得到的所述文件分片的访问热度越大。
根据本发明的再一个方面,提供了一种元数据服务器,包括:处理器;统计模块,用于根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度;以及,迁移模块,用于根据所述文件分片的访问热度在不同性能的存储设备上迁移所述文件分片。
优选地,所述迁移模块,用于根据所述文件分片的访问热度向文件访问服务器发送迁移通知消息,通知所述文件访问服务器迁移所述文件分片。
优选地,所述文件分片被访问的字节数越大且所述文件分片大小越小,统计得到的所述文件分片的访问热度越大。
通过本发明,根据文件被访问的字节数和文件分片大小统计文件分片的访问热度,并根据文件分片的访问热度在不同性能的存储设备上迁移文件分片,提高了分布式文件系统的存储设备的空间和性能利用率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的分布式文件系统的数据迁移方法的流程图;
图2是根据本发明实施例的分布式文件系统的数据迁移装置的结构框图;
图3是相关技术中的分布式文件系统的示意图;
图4是根据本发明实施例的元数据服务器的结构框图;以及
图5是根据本发明实施例优选的分布式文件系统的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
根据本发明实施例,提供了一种分布式文件系统的数据迁移方法。
图1是根据本发明实施例的分布式文件系统的数据迁移方法的流程图,如图1所示,该方法包括步骤S102至步骤S104。
步骤S102,根据文件分片大小和文件分片被访问的字节数统计文件分片的访问热度。
优选地,文件分片被访问的字节数越大且文件分片大小越小,统计得到的文件分片的访问热度越大。
步骤S104,根据文件分片的访问热度在不同性能的存储设备上迁移上述文件分片。
优选地,本发明实施例中的性能可以通过读写速度、效率等因素来衡量。
通过本发明实施例,根据文件分片大小和文件分片被访问的字节数统计文件的访问热度,能够更为准确的确定文件的访问热度。根据文件分片的访问热度在不同性能的存储设备上迁移文件分片,从而提高分布式文件系统的存储设备的空间和性能利用率。
具体地,相关技术中基于文件的打开次数来统计文件的访问热度,其访问热度的精度不高。例如,文件A打开一次,在不停的循环读取后关闭,文件B打开一次,只读取了一次,然后关闭,根据相关技术中的访问热度统计方法,文件A和B的访问热度是相同的,这显然是不准确的。而在本发明实施例中,根据文件分片被访问的字节数和文件分片大小来统计文件分片的访问热度,可以有效提高访问热度的精度。
在本发明实施例的一个优选实施方式中,根据文件分片的访问热度在不同的存储设备上迁移该文件分片可以包括:如果文件分片的访问热度大于第一阈值,将文件分片从性能低的存储设备迁移到性能高的存储设备。通过本优选实施方式,将访问热度大的文件分片从性能低的存储设备迁移到性能高的存储设备,可以提高分布式文件系统的文件访问响应效率,提高分布式文件系统的利用率。
在本发明实施例的另一个优选实施方式中,根据文件分片的访问热度在不同的存储设备上迁移该文件可以包括:如果文件分片的访问热度小于第二阈值,将文件分片从高性能的存储设备迁移到性能低的存储设备。通过本优选实施方式,将访问热度低的文件分片从高性能的存储设备迁移到性能低的存储设备,可以提高高性能存储设备的利用率,从而提高分布式文件系统的系统性能。
进一步的,在本发明实施例的再一个优选实施方式中,可以结合上述两个优选实施方式,将访问热度大的文件分片从性能低的存储设备迁移到性能高的存储设备,将访问热度低的文件分片从高性能的存储设备迁移到性能低的存储设备,从而可以根据文件分片的访问热度动态调整文件分片的存储位置,提高分布式文件系统的性能。
针对一些大文件来说,在读取的是文件的部分文件分片的情况下,在确定文件的访问热度时,如果按照文件被访问的字节数和文件大小来统计文件的访问热度,其准确度相对而言可能不高。例如,一个1024MB的文件,其包含1024个文件分片,访问其文件分片a的字节数是200MB,对于整个文件而言,其字节数相对于文件大小而言很小,但是对于文件分片a而言非常大,而实际上文件某部分的访问热度是很大的。
另外,对于一些大文件来说,有时候读取的是文件的部分数据,比如文件结尾处被访问最多,然后将整个文件都迁移到高性能的存储设备上去,然而文件开头部分不被访问或者很少被访问,这样使迁移工作量变大,耗费系统资源。因此,在本发明实施例中,可以根据文件分片的访问热度在不同的存储设备上迁移文件分片。
在本发明实施例的一个优选实施方式中,可以根据文件分片被访问的字节数、文件分片大小以及预设的热度系数统计文件分片的访问热度,热度系数可以根据实际需要进行设置,也可以按照预定的算法动态调整其大小。
本发明实施例中,以文件或文件分片被访问(例如读取)的字节数来统计访问热度,例如,文件或文件分片的字节数为20MB,一次打开中被读取了20次,那么这一次的字节数可以记为400(即20*20),多次打开多次读取时可以进行累加计算。
根据本发明实施例,还提供了一种分布式文件系统的数据迁移装置,用以实现本发明上述实施实例的方法,该装置可以是存储在存储介质中供处理器执行的软件功能模块。
图2是根据本发明实施例的分布式文件系统的数据迁移装置的结构框图,如图2所示,该装置可以包括:统计模块202和迁移模块204,其中,统计模块202,用于根据文件分片大小和文件分片被访问的字节数统计所述文件分片的访问热度;迁移模块204,与统计模块202相连接,用于根据文件分片的访问热度在不同性能的存储设备上迁移文件分片。
在本发明实施例的一个优选实施方式中,迁移模块204可以包括:第一迁移单元,用于在文件分片的访问热度大于第一阈值的情况下,将文件分片从性能低的存储设备迁移到性能高的存储设备;和/或,第二迁移单元,用于在文件分片的访问热度小于第二阈值的情况下,将文件分片从高性能的存储设备迁移到性能低的存储设备。
在本发明实施例的一个优选实施方式中,迁移模块204,用于如果文件分片的访问热度大于第一阈值,将文件分片从性能低的存储设备迁移到性能高的存储设备。通过本优选实施方式,将访问热度大的文件分片从性能低的存储设备迁移到性能高的存储设备,可以提高分布式文件系统的文件访问响应效率,提高分布式文件系统的利用率。
在本发明实施例的另一个优选实施方式中,迁移模块204,用于如果文件分片的访问热度小于第二阈值,将文件分片从高性能的存储设备迁移到性能低的存储设备。通过本优选实施方式,将访问热度低的文件分片从高性能的存储设备迁移到性能低的存储设备,可以提高高性能存储设备的利用率,从而提高分布式文件系统的系统性能。
进一步的,在本发明实施例的再一个优选实施方式中,可以结合上述两个优选实施方式,将访问热度大的文件分片从性能低的存储设备迁移到性能高的存储设备,将访问热度低的文件分片从高性能的存储设备迁移到性能低的存储设备,从而可以根据文件分片的访问热度动态调整文件的存储位置,提高分布式文件系统的性能。
下面以相关技术中的一种分布式文件系统架构为例,对本发明实施例进行说明。
图3是相关技术中的分布式文件系统的示意图,如图3所示,该系统包括:元数据服务器、文件访问客户端、文件访问服务器以及存储媒介。其中,
元数据服务器(1至n):负责管理本文件系统内所有文件的文件名、分片等元数据信息;并面向文件访问客户端提供元数据写入和查询等操作。
文件访问客户端(1至n):负责为本文件系统面向的应用程序提供类似于标准文件系统的接口调用服务;发起访问请求,获取数据后返回给应用程序。用户通过文件访问客户端访问分布式系统中的文件。
文件访问服务器(1至n):负责与本文件系统内的存储媒介进行交互,进行实际分片的读写操作;响应文件访问客户端的数据读写请求,从存储媒介上读取数据并返回给文件访问客户端;从文件访问客户端读取数据并写入存储媒介。
存储媒介:包括低性能的电子集成驱动器(Integrated Drive Electronics,简称IDE)、磁盘或串行高级技术附件(Serial Advanced Technology Attachment,简称为SATA)磁盘或高性能的固态硬盘(Solid State Disk,简称SSD)、串行连接SCSI接口(SerialAttached SCSI,简称SAS)、串行高级技术附件(Serial Advanced TechnologyAttachment,简称SATA)等存储设备。
根据本发明实施例,还提供了一种元数据服务器,可以应用在如图3所示的系统中,用以实现上述方法。
图4是根据本发明实施例的元数据服务器的结构框图,如图4所示,该元数据服务器可以包括:处理器402;统计模块404,与处理器402相连接,用于根据文件分片大小和文件分片被访问的字节数统计文件分片的访问热度;以及,迁移模块406,与统计模块404相连接,用于根据文件分片的访问热度在不同性能的存储设备上迁移文件分片。
在本发明实施例的一个优选实施方式中,迁移模块406可以根据文件分片的访问热度向文件访问服务器发送迁移通知消息,通知文件访问服务器迁移文件分片。
在本发明实施例的一个优选实施方式中,迁移模块406,用于如果文件分片的访问热度大于第一阈值,将文件从性能低的存储设备迁移到性能高的存储设备。通过本优选实施方式,将访问热度大的文件分片从性能低的存储设备迁移到性能高的存储设备,可以提高分布式文件系统的文件访问响应效率,提高分布式文件系统的利用率。
在本发明实施例的另一个优选实施方式中,迁移模块406,用于如果文件分片的访问热度小于第二阈值,将文件分片从高性能的存储设备迁移到性能低的存储设备。通过本优选实施方式,将访问热度低的文件分片从高性能的存储设备迁移到性能低的存储设备,可以提高高性能存储设备的利用率,从而提高分布式文件系统的系统性能。
进一步的,在本发明实施例的再一个优选实施方式中,可以结合上述两个优选实施方式,将访问热度大的文件分片从性能低的存储设备迁移到性能高的存储设备,将访问热度低的文件分片从高性能的存储设备迁移到性能低的存储设备,从而可以根据文件分片的访问热度动态调整文件的存储位置,提高分布式文件系统的性能。
本发明实施例的各个模块的功能与本发明实施例的上述方法对应,可以对照本发明上述实施例的描述,在此不再赘述。
为了便于理解本发明实施例,下面结合一个具体应用实例对本发明实施例进行描述。根据本发明实施例,提出一种分布式文件系统的动态分级存储的实现方案。通过该方案,可以实现分布式文件系统中的文件分片实行按其访问热度的动态分级存储,根据文件分片的访问热度,自动将文件分片在高性能与低性能存储设备之间动态迁移,始终保持将热度高的文件分片存储在高性能存储设备上,热度低的文件分片放在低性能存储设备上。最大程度的利用存储设备的空间和性能,不让低性能的存储设备成为分布式存储系统的短板,提高整个系统的存储效率和降低系统的存储成本。
图5是根据本发明实施例优选的分布式文件系统的示意图,如图5所示,该系统中的主要模块包括:分片访问统计模块502,分片访问统计管理模块504,分片冷热调度模块506,分片迁移模块508。其中,
分片访问统计模块502,可以位于文件访问客户端中,用于在读文件结束、关闭文件时,将对文件指定文件分片的访问统计信息上报给分片访问统计管理模块504。其中,分片的访问统计信息可以包括:分片标识符(id)、访问的字节数。对于访问的字节数,如果访问多次则累加每次访问的字节数。
分片访问统计管理模块504,可以位于元数据服务器中,用于收集对文件分片的访问统计信息,计算在统计周期内对文件分片的访问热度,存储每个文件分片的访问热度数据,并根据统计周期内文件分片访问热度,结合历史访问热度,重新计算文件分片的访问热度。将达到热度阀值的分片,按照高低顺序放到分片热度表中。
分片冷热调度模块506,可以位于元数据服务器中,用于在设定的迁移周期内,收集文件访问服务器上报的迁移队列的长度,以及磁盘读写访问的队列长度(称为IO负载上报),并且在分片热度表中取热度最高的分片,如果其存储在SATA硬盘中,并且IO负载在阀值之内的,将该分片放入分片升级队列中,并通知文件访问服务器将分片从SATA硬盘迁移到SSD硬盘。同时,扫描分片表中分片在SSD硬盘中,但不在分片热度表中,并且IO负载在阀值之内的,将该分片放入分片降级队列中,并通知文件访问服务器将分片从SATA硬盘迁移到SSD硬盘中。
分片迁移模块508,可以位于文件访问服务器中,用于接收分片冷热调度模块506的消息,将具体的文件分片在SATA硬盘和SSD硬盘之间进行动态迁移,执行文件分片的升级与降级。
下面根据文件分片的升级降级过程来具体阐述动态分级存储的实现,分布式系统中文件a,文件a有三个文件分片,分别为分片1,分片2,分片3。文件分片大小都为64MB,假设动态分级存储的设置有如下一些:热度统计周期为一个小时,热度阀值为1000,热度系数为1000等。
分片的升级:
1、文件a被频繁读取,其中分片2被访问的最多,在一个小时内访问累计达到了640MB,分片1和分片3没有访问量,文件访问统计模块502在文件a关闭的时候将所有分片的访问统计上报给文件访问统计管理模块504。
2、文件访问统计管理模块504根据上报的分片访问字节数计算分片的访问热度,分为当前热度和历史热度,当前热度由热度系数、分片大小、以及一个访问周期内的分片访问字节数决定,可以计算得到分片2的当前热度为2000,记录到分片表中分片2的当前热度字段中,历史热度由当前热度和前一个访问统计周期内的历史热度决定,假设前一个访问统计周期内分片2的历史热度为0,计算得到分片2的历史热度为2000,并且记录到分片表中分片2的历史热度字段中。
3、分片冷热调度模块506中的热度遍历线程,主要负责定时的遍历分片表,比较历史热度和设定的热度阀值,发现分片2的历史热度2000超过了热度阀值1000,将其放到热度表中,并按照热度由高到低排序。
4、分片冷热调度模块506中的升级扫描线程,主要负责扫描分片热度表,从队首取热度最高值,假设取到分片2,并且不在SSD硬盘中,判断分片2所在磁盘的读写队列长度,以及分片2所在文件访问服务器的迁移队列长度,如果都在阀值以内的话,将分片2放到升级队列中,如果有一个不在阀值以内的话,继续取下一个分片,分片2只能等待IO负载符合要求后才能升级了,假设此时IO负载在阀值以内,分片2被放到升级队列中。
5、分片冷热调度模块506中的升级线程扫描升级队列,找到分片2,并且将分片2的迁移消息发送给分片迁移模块508,消息中包括分片2所在的源SATA硬盘,需要迁往的目的SSD硬盘,大小等内容。
6、分片迁移模块508收到分片2的迁移消息,读取源SATA硬盘上分片2的数据,写入目的SSD硬盘中,并发迁移成功消息给分片冷热调度模块506,如果迁移失败,一样发迁移失败的消息回去。
7、分片冷热调度模块506收到分片2迁移成功消息,修改分片表中分片2的存储位置信息,从升级队列中删除,发送删除分片2源分片消息给文件访问服务器。如果收到失败的消息,那就什么也不做,等待升级线程下次扫描。
8、文件访问服务器,收到删除分片2的源分片的消息的话,删除在SATA硬盘上的分片2的源分片数据。如果没有收到,那么在SSD硬盘上的新写入的分片2的数据将成为垃圾,分布式文件系统通过扫垃圾机制来清扫垃圾,不会占用资源。
以上为一个分片的升级过程,包括了分片访问统计上报,分片热度管理,升级调度,分片迁移,IO负载上报等主要流程,以及一些异常的流程:如IO负载超出阀值,迁移失败等。
分片降级过程是相对于已经升级的分片来说的,假设分片2升级成功,下面介绍分片的降级:
1、分片2处于SSD硬盘中,但是分片2的访问量在接下来几个访问统计周期内为0,计算得到当前热度为0,历史热度不断减少,到第四个周期的时候,计算得到分片2的历史热度已经少于设定的阀值1000了,热度遍历线程会将分片2从热度表中删除。
2、分片冷热调度模块506中的降级扫描线程,扫描分片表,找到分片2目前在SSD硬盘中,但是不在热度表中,同升级一样,需要判断分片2所在磁盘的读写队列长度,以及分片2所在文件访问服务器的迁移队列长度,如果都在阀值以内的话,将分片2放到降级队列中,如果有一个不在阀值以内的话,继续找下一个符合要求的分片。
3、分片冷热调度模块506中的降级线程扫描降级队列,将分片2的迁移消息发送给分片迁移模块508,消息中包括分片2所在的源SSD硬盘,需要迁往的目的SATA硬盘,大小等内容。
4、分片迁移模块508收到分片2的迁移消息,读取源SSD硬盘上分片2的数据,写入目的SATA硬盘中,并发迁移成功消息给分片冷热调度模块506,如果迁移失败,一样发迁移失败的消息回去。
5、分片冷热调度模块506收到分片2迁移成功消息,修改分片表中分片2的存储位置信息,从降级队列中删除,发送删除分片2源分片消息给文件访问服务器。如果收到失败的消息,同样什么也不做,等待降级线程下次扫描。
6、文件访问服务器,收到删除分片2的源分片的消息的话,删除在SSD硬盘上的分片2的源分片数据。如果没有收到,那么在SATA硬盘上的新写入的分片2的数据将成为垃圾,同样可以通过扫垃圾机制扫除掉。
以上为一个分片的降级过程,同样包括了一些主要流程,如分片访问统计上报,分片热度管理,降级调度,分片迁移,IO负载上报等,以及一些异常的流程:如IO负载超出阀值,迁移失败等。
从以上的描述中,可以看出,本发明实现了如下技术效果:
1、分片热度计算,相关技术中的分级存储只是基于文件热度的,只是通过打开文件的次数来计算热度,这显示比较简单并且不准确,举例说明,文件a打开一次,在不停的循环读取,然后关闭,文件b打开一次,只读取了一次,然后关闭,计算热度是一样的,显然是不准确的。另外,对于一些大文件来说,有时候读取的是部分数据,比如文件结尾处被访问最多,然后将整个文件都迁移到高性能的存储设备上去,然而文件开头部分不被访问或者很少被访问,这样使迁移工作量变大,耗费系统资源。本发明实施例,通过访问文件分片的字节数、分片大小以及热度系数计算得到热度的方案,更能反应文件被访问的实际情况,使高性能存储设备得到最大化利用。
2、动态分级存储,相关技术中的分级存储方案是静态的分级存储,将访问热度高的文件放到了高性能的存储设备上,当这些文件访问热度降低了,系统并不能察觉出来,将其从高性能的存储设备中转移到低性能存储设备中,这样同样也会浪费大量的高性能的存储空间,提高存储成本。本发明实施例感知文件分片热度的变化,并且能将热度低于阀值的存储在高性能存储设备上的文件分片迁移到低性能存储设备上,使高性能存储设备得到最大化利用。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式文件系统的数据迁移方法,其特征在于,包括:
根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度,其中,将所述文件分片的大小与所述文件分片被访问的次数的乘积确定为所述被访问的字节数;以及
根据所述文件分片的访问热度在不同读写速度与效率的存储设备上迁移所述文件分片。
2.根据权利要求1所述的方法,其特征在于,根据所述文件分片的访问热度在不同的存储设备上迁移所述文件分片包括:
如果所述文件分片的访问热度大于第一阈值,将所述文件分片从性能低的存储设备迁移到性能高的存储设备;和/或
如果所述文件分片的访问热度小于第二阈值,将所述文件分片从高性能的存储设备迁移到性能低的存储设备。
3.根据权利要求1所述的方法,其特征在于,根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度包括:
根据所述文件分片被访问的字节数、所述文件分片大小以及预设的热度系数统计所述文件的访问热度。
4.根据权利要求1所述的方法,其特征在于,所述文件分片被访问的字节数越大且所述文件分片大小越小,统计得到的所述文件分片的访问热度越大。
5.一种分布式文件系统的数据迁移装置,其特征在于,包括:
统计模块,用于根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度,其中,将所述文件分片的大小与所述文件分片被访问的次数的乘积确定为所述被访问的字节数;以及
迁移模块,用于根据所述文件分片的访问热度在不同读写速度与效率的存储设备上迁移所述文件分片。
6.根据权利要求5所述的装置,其特征在于,所述迁移模块包括:
第一迁移单元,用于在所述文件分片的访问热度大于第一阈值的情况下,将所述文件分片从性能低的存储设备迁移到性能高的存储设备;和/或
第二迁移单元,用于在所述文件分片的访问热度小于第二阈值的情况下,将所述文件分片从高性能的存储设备迁移到性能低的存储设备。
7.根据权利要求5或6所述的装置,其特征在于,所述文件分片被访问的字节数越大且所述文件分片大小越小,统计得到的所述文件分片的访问热度越大。
8.一种元数据服务器,其特征在于,包括:
处理器;
统计模块,用于根据文件分片大小和所述文件分片被访问的字节数统计所述文件分片的访问热度,其中,将所述文件分片的大小与所述文件分片被访问的次数的乘积确定为所述被访问的字节数;以及
迁移模块,用于根据所述文件分片的访问热度在不同读写速度与效率的存储设备上迁移所述文件分片。
9.根据权利要求8所述的元数据服务器,其特征在于,所述迁移模块,用于根据所述文件分片的访问热度向文件访问服务器发送迁移通知消息,通知所述文件访问服务器迁移所述文件分片。
10.根据权利要求8或9所述的元数据服务器,其特征在于,所述文件分片被访问的字节数越大且所述文件分片大小越小,统计得到的所述文件分片的访问热度越大。
CN201410146780.0A 2014-04-11 2014-04-11 分布式文件系统的数据迁移方法、装置及元数据服务器 Active CN104978362B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410146780.0A CN104978362B (zh) 2014-04-11 2014-04-11 分布式文件系统的数据迁移方法、装置及元数据服务器
PCT/CN2014/083751 WO2015154352A1 (zh) 2014-04-11 2014-08-05 分布式文件系统的数据迁移方法、装置及元数据服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410146780.0A CN104978362B (zh) 2014-04-11 2014-04-11 分布式文件系统的数据迁移方法、装置及元数据服务器

Publications (2)

Publication Number Publication Date
CN104978362A CN104978362A (zh) 2015-10-14
CN104978362B true CN104978362B (zh) 2019-11-29

Family

ID=54274876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410146780.0A Active CN104978362B (zh) 2014-04-11 2014-04-11 分布式文件系统的数据迁移方法、装置及元数据服务器

Country Status (2)

Country Link
CN (1) CN104978362B (zh)
WO (1) WO2015154352A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574153A (zh) * 2015-12-16 2016-05-11 南京信息工程大学 一种基于文件热度分析和K-means的副本放置方法
CN106909472B (zh) * 2015-12-22 2020-09-11 中国移动通信集团河北有限公司 一种分布式文件系统的输入/输出负载调整方法及装置
CN105653642A (zh) * 2015-12-25 2016-06-08 曙光信息产业股份有限公司 分布式文件系统的数据管理方法和装置
CN105760114B (zh) * 2016-02-05 2020-07-03 浪潮(北京)电子信息产业有限公司 一种并行文件系统资源管理方法、装置和系统
CN107229657A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 数据迁移方法及装置
US10031675B1 (en) * 2016-03-31 2018-07-24 Emc Corporation Method and system for tiering data
CN106227466B (zh) * 2016-07-15 2019-03-15 浪潮(北京)电子信息产业有限公司 一种数据段迁移方法及系统
CN107329700A (zh) * 2017-06-29 2017-11-07 郑州云海信息技术有限公司 一种分布式集群数据存储方法及系统
CN110019529B (zh) * 2017-12-29 2024-01-30 华为技术有限公司 数据节点的管理方法、系统以及相关设备
CN109002543A (zh) * 2018-07-24 2018-12-14 北京京东尚科信息技术有限公司 一种文件存储的方法和装置
CN109246198B (zh) * 2018-08-16 2022-01-07 杭州数梦工场科技有限公司 一种基于分布式存储集群的云主机启动控制方法和系统
CN110162273A (zh) * 2019-05-28 2019-08-23 北京计算机技术及应用研究所 一种基于分布式存储系统的衰减式分层存储系统及方法
CN110688360A (zh) * 2019-09-17 2020-01-14 济南浪潮数据技术有限公司 分布式文件系统存储管理方法、装置、设备及存储介质
CN111475108B (zh) * 2020-03-20 2023-11-28 深圳赛安特技术服务有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN111158613B (zh) * 2020-04-07 2020-07-31 上海飞旗网络技术股份有限公司 基于访问热度的数据块存储方法、装置及存储设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102364474A (zh) * 2011-11-17 2012-02-29 中国科学院计算技术研究所 用于机群文件系统的元数据存储系统和管理方法
CN102487456A (zh) * 2009-11-30 2012-06-06 国际商业机器公司 用于提供网络视频访问热度的方法和装置
CN102841931A (zh) * 2012-08-03 2012-12-26 中兴通讯股份有限公司 分布式文件系统的存储方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060112155A1 (en) * 2004-11-24 2006-05-25 Agami Systems, Inc. System and method for managing quality of service for a storage system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102487456A (zh) * 2009-11-30 2012-06-06 国际商业机器公司 用于提供网络视频访问热度的方法和装置
CN102364474A (zh) * 2011-11-17 2012-02-29 中国科学院计算技术研究所 用于机群文件系统的元数据存储系统和管理方法
CN102841931A (zh) * 2012-08-03 2012-12-26 中兴通讯股份有限公司 分布式文件系统的存储方法及装置

Also Published As

Publication number Publication date
WO2015154352A1 (zh) 2015-10-15
CN104978362A (zh) 2015-10-14

Similar Documents

Publication Publication Date Title
CN104978362B (zh) 分布式文件系统的数据迁移方法、装置及元数据服务器
US10346081B2 (en) Handling data block migration to efficiently utilize higher performance tiers in a multi-tier storage environment
US20210081383A1 (en) Lifecycle support for storage objects
US10642654B2 (en) Storage lifecycle pipeline architecture
US9792344B2 (en) Asynchronous namespace maintenance
US20160328176A1 (en) Providing access information to a storage controller to determine a storage tier for storing data
US8578096B2 (en) Policy for storing data objects in a multi-tier storage system
US8352429B1 (en) Systems and methods for managing portions of files in multi-tier storage systems
CN109947668B (zh) 存储数据的方法和装置
US9355060B1 (en) Storage service lifecycle policy transition management
US8566550B2 (en) Application and tier configuration management in dynamic page reallocation storage system
US11537584B2 (en) Pre-caching of relational database management system based on data retrieval patterns
US9348517B2 (en) Using a migration threshold and a candidate list for cache management of sequential write storage
US20150106578A1 (en) Systems, methods and devices for implementing data management in a distributed data storage system
US9213731B2 (en) Determining whether to relocate data to a different tier in a multi-tier storage system
US20140324920A1 (en) Object storage using multiple dimensions of object information
US10318176B2 (en) Real-time, self-learning automated object classification and storage tier assignment
US10540095B1 (en) Efficient garbage collection for stable data
US20180181319A1 (en) Systems, methods, and computer program products providing read access in a storage system
Puttaswamy et al. Frugal storage for cloud file systems
US10223270B1 (en) Predicting future access requests by inverting historic access requests in an object storage system
CN104462389A (zh) 基于分级存储的分布式文件系统实现方法
US11914894B2 (en) Using scheduling tags in host compute commands to manage host compute task execution by a storage device in a storage system
CN109508140A (zh) 存储资源管理方法、装置、电子设备及电子设备、系统
US11693580B2 (en) Method to provide recommendations for cloud storage providers and storage classes based on backup server's usage patterns for lowering overall cloud costs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190929

Address after: 210012 Nanjing, Yuhuatai District, South Street, Bauhinia Road, No. 68

Applicant after: Nanjing Zhongxing New Software Co., Ltd.

Address before: 518057 Nanshan District science and technology, Guangdong Province, South Road, No. 55, No.

Applicant before: ZTE Communications Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant