CN107844590B - 小文件迁移方法、装置、设备及计算机可读存储介质 - Google Patents

小文件迁移方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN107844590B
CN107844590B CN201711147164.7A CN201711147164A CN107844590B CN 107844590 B CN107844590 B CN 107844590B CN 201711147164 A CN201711147164 A CN 201711147164A CN 107844590 B CN107844590 B CN 107844590B
Authority
CN
China
Prior art keywords
migrated
migration
small
files
small files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711147164.7A
Other languages
English (en)
Other versions
CN107844590A (zh
Inventor
孔军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201711147164.7A priority Critical patent/CN107844590B/zh
Publication of CN107844590A publication Critical patent/CN107844590A/zh
Application granted granted Critical
Publication of CN107844590B publication Critical patent/CN107844590B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种小文件迁移方法、装置、设备及计算机可读存储介质,包括:加载待迁移的小文件;根据预设迁移策略迁移待迁移的小文件并判断正在迁移的小文件是否达到迁移上限,若是,则停止加载待迁移的小文件,当达到预设恢复条件时,恢复加载待迁移的小文件;若否,则继续加载待迁移的小文件。利用本发明,在加载待迁移的小文件达到迁移上限时,停止加载待迁移的小文件,避免了无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高了分布式存储能力的利用率和海量小文件的迁移效率。

Description

小文件迁移方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及分布式存储技术领域,特别是涉及一种小文件迁移方法。本发明还涉及一种小文件迁移装置、设备及计算机可读存储介质。
背景技术
在互联网大数据时代,海量大文件传输需要占用超大的带宽,海量小文件传输需要占用超大的IOPS(Input Output Operations Per Second,每秒进行读写操作的次数),海量小文件传输带来的超大的IOPS会给分布式存储系统带来前所未有的挑战,尤其是海量小文件在不同的分布式存储系统间迁移,能不能充分发挥分布式存储能力显得尤为重要。
现有技术中海量小文件的迁移方法在迁移小文件的时候会无限制的加载待迁移的小文件,当加载的小文件数量超出分布式存储系统单次迁移小文件的最大数量时,会导致分布式存储阻塞瘫痪,降低了迁移效率。
因此,如何提供一种能够提高迁移效率的海量小文件迁移方法、装置、设备及计算机可读存储介质是本领域技术人员需要解决的问题。
发明内容
本发明的目的是提供一种小文件迁移方法,其能够避免无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高分布式存储能力的利用率和海量小文件的迁移效率;本发明的另一目的是提供一种包括上述方法的小文件迁移装置、设备及计算机可读存储介质,其也能够避免无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高分布式存储能力的利用率和海量小文件的迁移效率。
为解决上述技术问题,本发明提供了一种小文件迁移方法,包括:
加载待迁移的小文件;
根据预设迁移策略迁移所述待迁移的小文件并判断正在迁移的小文件是否达到迁移上限,若是,则停止加载所述待迁移的小文件,当达到预设恢复条件时,恢复加载所述待迁移的小文件;若否,则继续加载所述待迁移的小文件。
优选地,所述预设恢复条件为所述正在迁移的小文件的数量降低到预设阈值。
优选地,所述预设阈值为所述迁移上限的90%。
优选地,生成所述预设迁移策略的过程具体包括:
根据所述待迁移的小文件的起始地址和终止地址生成迁移路径;
根据单个元数据服务MDS的处理能力获取分布式存储系统的存储能力;
获取所述待迁移的小文件所在目录的目录结构树以及所述待迁移的小文件的个数;
根据所述迁移路径、所述分布式存储系统的存储能力、所述目录结构树以及单个目录的文件个数,生成迁移策略。
优选地,所述迁移所述待迁移的小文件之后还包括:
记录已经完成迁移的小文件,并生成迁移记录表。
优选地,所述根据预设迁移策略迁移所述待迁移的小文件的过程中,还包括:
显示迁移的进度。
为解决上述技术问题,本发明还提供了一种小文件迁移装置,包括:
加载单元,用于加载待迁移的小文件;
迁移单元,用于根据预设迁移策略迁移所述待迁移的小文件;
判断单元,用于判断正在迁移的小文件是否达到迁移上限,若是,则触发所述加载单元停止加载所述待迁移的小文件,当达到预设恢复条件时,触发所述加载单元恢复加载所述待迁移的小文件;若否,则触发所述加载单元继续加载所述待迁移的小文件。
优选地,所述迁移单元包括:
第一生成子单元,用于根据所述待迁移的小文件的起始地址和终止地址生成迁移路径;
获取子单元,用于根据单个元数据服务MDS的处理能力获取分布式存储系统的存储能力;
分析子单元,用于分析所述待迁移的小文件所在目录的目录结构树以及所述待迁移的小文件的个数;
第二生成子单元,用于根据所述迁移路径、所述分布式存储系统的存储能力、所述目录结构树以及单个目录的文件个数,生成迁移策略。
为解决上述技术问题,本发明提供了一种小文件迁移设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述的小文件迁移方法的步骤。
为解决上述技术问题,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的小文件迁移方法的步骤。
本发明提供了一种小文件迁移方法、装置、设备及计算机可读存储介质,包括:加载待迁移的小文件;根据预设迁移策略迁移待迁移的小文件并判断正在迁移的小文件是否达到迁移上限,若是,则停止加载待迁移的小文件,当达到预设恢复条件时,恢复加载待迁移的小文件;若否,则继续加载待迁移的小文件。利用本发明,在加载待迁移的小文件达到迁移上限时,停止加载待迁移的小文件,避免了无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高了分布式存储能力的利用率和海量小文件的迁移效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种小文件迁移方法的流程图;
图2为本发明提供的一种小文件迁移装置的结构示意图。
具体实施方式
本发明的核心是提供一种小文件迁移方法,其能够避免无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高分布式存储能力的利用率和海量小文件的迁移效率;本发明的另一核心是提供一种包括上述方法的小文件迁移装置、设备及计算机可读存储介质,其也能够避免无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高分布式存储能力的利用率和海量小文件的迁移效率。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种小文件迁移方法,如图1所示,图1为本发明提供的一种小文件迁移方法的流程图,该方法包括以下步骤:
步骤S1:加载待迁移的小文件。
需要说明的是,待迁移的小文件一般都需要加载至迁移工具里,然后再通过迁移工具迁移至目的地址,本发明的迁移工具是基于ceph分布式存储系统开发出来的。
步骤S2:根据预设迁移策略迁移待迁移的小文件并判断正在迁移的小文件是否达到迁移上限,若是,则进入步骤S3;若否,则进入步骤S4。
需要说明的是,为迁移工具配置好一系列的参数后,迁移工具会自动生成最终的预设迁移策略,根据预设迁移策略迁移小文件,能够充分发挥分布式存储系统的能力。
步骤S3:停止加载待迁移的小文件,当达到预设恢复条件时,恢复加载待迁移的小文件。
需要说明的是,预设恢复条件是技术人员人为设定的,当达到预设恢复条件时,迁移工具可以自动恢复迁移,或者在迁移工具因为待迁移小文件达到迁移上限而停止加载时,技术人员可根据实际情况手动恢复加载待迁移的小文件。
步骤S4:继续加载待迁移的小文件。
作为优选的,预设恢复条件为正在迁移的小文件的数量降低到预设阈值,预设阈值为迁移上限的90%。
需要说明的是,本发明不限定预设阈值具体数值,技术人员可根据实际情况自行设置。
作为优选的,生成预设迁移策略的过程具体包括以下步骤:
步骤101:根据待迁移的小文件的起始地址和终止地址生成迁移路径。
需要说明的是,待迁移的小文件可以是在不同的集群里迁移,也可以在相同的集群里迁移,例如,当待迁移的小文件是从A集群迁移到B集群,则该待迁移小文件的起始地址就是A集群里的某个文件夹,终止地址就是B集群里的某个文件夹;当待迁移的小文件是在A集群里迁移,则该小文件的起始地址就是A集群里的某个文件夹,而终止地址就是A集群里的另一个文件夹。迁移路径由迁移工具生成。
步骤102:根据单个元数据服务MDS的处理能力获取分布式存储系统的存储能力。
需要说明的是,在迁移工具上配置单个元数据服务MDS(Metadata DaemonServer,元数据服务)的处理能力的参数,迁移工具为根据该参数可获知分布式存储系统的存储能力。
步骤103:获取待迁移的小文件所在目录的目录结构树以及待迁移的小文件的个数。
步骤104:根据迁移路径、分布式存储系统的存储能力、目录结构树以及单个目录的文件个数,生成迁移策略。
需要说明的是,通过迁移路径,分布式存储系统的存储能力、目录结构树及单个目录的文件个数,迁移工具会生成最终的迁移策略,充分发挥分布式存储的能力,提高分布式存储系统能力利用率和海量小文件的迁移效率。
作为优选的,迁移待迁移的小文件之后还包括:
记录已经完成迁移的小文件,并生成迁移记录表。
需要说明的是,记录完成迁移的小文件并生成迁移记录表是为了方便技术人员以后可对完成迁移的小文件进行查看,并检查是否有文件迁移错误,如有迁移错误的小文件,技术人员可以及时作出应对措施。
作为优选的,根据预设迁移策略迁移待迁移的小文件的过程中,还包括:
显示迁移的进度。
需要说明的是,在迁移的过程中显示迁移进度,让用户能根据迁移进度作出相应的决定。例如:如果显示出的迁移进度变慢,用户可以通过暂停其他应用,挪出一定的CPU资源用于小文件的迁移,可以加快迁移速度。
本发明提供了一种小文件迁移方法,包括:加载待迁移的小文件;根据预设迁移策略迁移待迁移的小文件并判断正在迁移的小文件是否达到迁移上限,若是,则停止加载待迁移的小文件,当达到预设恢复条件时,恢复加载待迁移的小文件;若否,则继续加载待迁移的小文件。利用本发明,在加载待迁移的小文件达到迁移上限时,停止加载待迁移的小文件,避免了无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高了分布式存储能力的利用率和海量小文件的迁移效率。
本发明还提供了一种小文件迁移装置,如图2所示,图2为本发明提供的一种小文件迁移装置的结构示意图,该装置包括:
加载单元1,用于加载待迁移的小文件;
迁移单元2,用于根据预设迁移策略迁移待迁移的小文件;
判断单元3,用于判断正在迁移的小文件是否达到迁移上限,若是,则触发加载单元停止加载待迁移的小文件,当达到预设恢复条件时,触发加载单元恢复加载待迁移的小文件;若否,则触发加载单元继续加载待迁移的小文件。
作为优选的,迁移单元2包括:
第一生成子单元,用于根据待迁移的小文件的起始地址和终止地址生成迁移路径;
获取子单元,用于根据单个元数据服务MDS的处理能力获取分布式存储系统的存储能力;
分析子单元,用于分析待迁移的小文件所在目录的目录结构树以及待迁移的小文件的个数;
第二生成子单元,用于根据迁移路径、分布式存储系统的存储能力、目录结构树以及单个目录的文件个数,生成迁移策略。
本发明提供了一种小文件迁移装置,包括:加载单元,用于加载待迁移的小文件;迁移单元,用于根据预设迁移策略迁移待迁移的小文件;判断单元,用于判断正在迁移的小文件是否达到迁移上限,若是,则触发加载单元停止加载待迁移的小文件,当达到预设恢复条件时,触发加载单元恢复加载待迁移的小文件;若否,则触发加载单元继续加载待迁移的小文件。利用本发明,在加载待迁移的小文件达到迁移上限时,停止加载待迁移的小文件,避免了无限制加载待迁移的小文件导致的分布式存储系统阻塞瘫痪的问题,提高了分布式存储能力的利用率和海量小文件的迁移效率。
本发明提供了一种小文件迁移设备,该设备包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上述任一项的小文件迁移方法的步骤。
本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任一项的小文件迁移方法的步骤。
对于本发明提供的一种小文件迁移设备及计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不在赘述。
以上对本发明所提供一种小文件迁移方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种小文件迁移方法,其特征在于,包括:
加载待迁移的小文件;
根据预设迁移策略迁移所述待迁移的小文件并判断正在迁移的小文件是否达到迁移上限,若是,则停止加载所述待迁移的小文件,当达到预设恢复条件时,恢复加载所述待迁移的小文件;若否,则继续加载所述待迁移的小文件;
生成所述预设迁移策略的过程具体包括:
根据所述待迁移的小文件的起始地址和终止地址生成迁移路径;
根据单个元数据服务MDS的处理能力获取分布式存储系统的存储能力;
获取所述待迁移的小文件所在目录的目录结构树以及所述待迁移的小文件的个数;
根据所述迁移路径、所述分布式存储系统的存储能力、所述目录结构树以及单个目录的文件个数,生成迁移策略。
2.根据权利要求1所述的方法,其特征在于,所述预设恢复条件为所述正在迁移的小文件的数量降低到预设阈值。
3.根据权利要求2所述的方法,其特征在于,所述预设阈值为所述迁移上限的90%。
4.根据权利要求1所述的方法,其特征在于,所述迁移所述待迁移的小文件之后还包括:
记录已经完成迁移的小文件,并生成迁移记录表。
5.根据权利要求1所述的方法,其特征在于,所述根据预设迁移策略迁移所述待迁移的小文件的过程中,还包括:
显示迁移的进度。
6.一种小文件迁移装置,其特征在于,包括:
加载单元,用于加载待迁移的小文件;
迁移单元,用于根据预设迁移策略迁移所述待迁移的小文件;
判断单元,用于判断正在迁移的小文件是否达到迁移上限,若是,则触发所述加载单元停止加载所述待迁移的小文件,当达到预设恢复条件时,触发所述加载单元恢复加载所述待迁移的小文件;若否,则触发所述加载单元继续加载所述待迁移的小文件;
所述迁移单元包括:
第一生成子单元,用于根据所述待迁移的小文件的起始地址和终止地址生成迁移路径;
获取子单元,用于根据单个元数据服务MDS的处理能力获取分布式存储系统的存储能力;
分析子单元,用于分析所述待迁移的小文件所在目录的目录结构树以及所述待迁移的小文件的个数;
第二生成子单元,用于根据所述迁移路径、所述分布式存储系统的存储能力、所述目录结构树以及单个目录的文件个数,生成迁移策略。
7.一种小文件迁移设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的小文件迁移方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的小文件迁移方法的步骤。
CN201711147164.7A 2017-11-17 2017-11-17 小文件迁移方法、装置、设备及计算机可读存储介质 Active CN107844590B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711147164.7A CN107844590B (zh) 2017-11-17 2017-11-17 小文件迁移方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711147164.7A CN107844590B (zh) 2017-11-17 2017-11-17 小文件迁移方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN107844590A CN107844590A (zh) 2018-03-27
CN107844590B true CN107844590B (zh) 2020-05-29

Family

ID=61679804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711147164.7A Active CN107844590B (zh) 2017-11-17 2017-11-17 小文件迁移方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107844590B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111142788B (zh) * 2019-11-29 2021-10-15 浪潮电子信息产业股份有限公司 一种数据迁移方法、装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1249581C (zh) * 2002-11-18 2006-04-05 华为技术有限公司 一种热备盘数据迁移方法
CN106294526A (zh) * 2015-06-26 2017-01-04 华中科技大学 一种分级存储系统中的海量小文件迁移方法
CN106354788A (zh) * 2016-08-23 2017-01-25 无锡天脉聚源传媒科技有限公司 一种文件读取方法及装置
CN107341227A (zh) * 2017-07-01 2017-11-10 中国科学院计算机网络信息中心 文件处理方法、服务器及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10169346B2 (en) * 2015-08-10 2019-01-01 International Business Machines Corporation File migration in a hierarchical storage system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1249581C (zh) * 2002-11-18 2006-04-05 华为技术有限公司 一种热备盘数据迁移方法
CN106294526A (zh) * 2015-06-26 2017-01-04 华中科技大学 一种分级存储系统中的海量小文件迁移方法
CN106354788A (zh) * 2016-08-23 2017-01-25 无锡天脉聚源传媒科技有限公司 一种文件读取方法及装置
CN107341227A (zh) * 2017-07-01 2017-11-10 中国科学院计算机网络信息中心 文件处理方法、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
CN107844590A (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
WO2017028697A1 (zh) 计算机集群的扩容和缩容方法及设备
WO2017096968A1 (zh) 日志上传方法及装置
CN106126731B (zh) 一种获取Elasticsearch分页数据的方法及装置
US12001289B2 (en) Data recovery method, apparatus and device, and readable storage medium
CN110908837B (zh) 应用程序异常处理方法、装置、电子设备及存储介质
US20140090062A1 (en) Method and apparatus for virus scanning
CN105446653A (zh) 一种数据合并方法和设备
KR20210156243A (ko) 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체
US20170168843A1 (en) Thread-agile execution of dynamic programming language programs
CN112527879A (zh) 基于Kafka的实时数据抽取方法及相关设备
CN111666266A (zh) 一种数据迁移方法及相关设备
US11194623B2 (en) Resource scheduling method and related apparatus
CN107844590B (zh) 小文件迁移方法、装置、设备及计算机可读存储介质
CN105373452A (zh) 一种数据备份方法
US20140237340A1 (en) Dynamic loading of tabular data
US20150220517A1 (en) Efficient conflict resolution among stateless processes
CN111294377B (zh) 一种依赖关系的网络请求发送方法、终端装置及存储介质
CN105068875A (zh) 一种智能数据处理方法及装置
CN109947712A (zh) 计算框架内自动合并文件的方法、系统、设备及介质
WO2022037016A1 (zh) 一种树结构数据的存储方法、系统及相关装置
CN113220650A (zh) 数据存储方法、装置、设备、存储介质及程序
CN108121514B (zh) 元信息更新方法、装置、计算设备及计算机存储介质
US8984336B1 (en) Systems and methods for performing first failure data captures
CN109117277B (zh) 异步环境中模拟同步阻塞的方法及装置、存储介质、服务器、终端
US20180309702A1 (en) Method and device for processing data after restart of node

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant