CN116303248A - 一种分布式文件系统的数据迁移方法及相关组件 - Google Patents

一种分布式文件系统的数据迁移方法及相关组件 Download PDF

Info

Publication number
CN116303248A
CN116303248A CN202310314855.0A CN202310314855A CN116303248A CN 116303248 A CN116303248 A CN 116303248A CN 202310314855 A CN202310314855 A CN 202310314855A CN 116303248 A CN116303248 A CN 116303248A
Authority
CN
China
Prior art keywords
file
migration
migrated
pool
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310314855.0A
Other languages
English (en)
Inventor
王传义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202310314855.0A priority Critical patent/CN116303248A/zh
Publication of CN116303248A publication Critical patent/CN116303248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式文件系统的数据迁移方法及相关组件,涉及分布式文件系统领域,包括获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将属性信息以数据表的形式存储在数据库中以便通过数据表确定符合预设迁移条件的目标迁移文件,通过对比目标迁移文件与上次得到的历史目标迁移文件确定最终的待迁移文件,最后将快池中的待迁移文件迁移至分布式文件系统的慢池中,并且通过对比数据表确定目标迁移文件的速度比较快,因此能够加快将待迁移文件从快池迁移到慢池的速度。

Description

一种分布式文件系统的数据迁移方法及相关组件
技术领域
本发明涉及分布式文件系统领域,特别是涉及一种分布式文件系统的数据迁移方法及相关组件。
背景技术
数字化转型背景下,服务器中存储的数据不断增加,为了增加磁盘可用的空间,目前常采用分布式文件系统构建一个高性能、大容量且低价格的存储系统。分布式文件系统通常利用NVME SSD(Non-Volatile Memory Express Solid State Disk,非易失性内存存储器标准固态硬盘驱动器)访问速度快的特点将其作为分布式文件系统的中的快池以存储用户经常使用的热数据,利用普通机械硬盘访问速度慢但是容量大的特点将其作为慢池以存储不经常被访问的冷数据。在使用分布式文件系统时,随着快池中存储的数据逐渐增加,需要将快池中的部分数据迁移到慢池中,因此如何加快数据从快池迁移到慢池以满足用户高速持续向快池写入数据的需求是非常重要的。
发明内容
本发明的目的是提供一种分布式文件系统的数据迁移方法及相关组件,能够加快将待迁移文件从快池迁移到慢池的速度。
为解决上述技术问题,本发明提供了一种分布式文件系统的数据迁移方法,包括:
获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将所述属性信息以数据表的形式存储在数据库中;
通过所述数据表确定符合预设迁移条件的目标迁移文件;
通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件;
将所述待迁移文件迁移至所述分布式文件系统的慢池中。
优选的,在通过所述数据表确定符合预设迁移条件的目标迁移文件之后,还包括:
判断本次得到的所述数据表的表结构信息与上次得到的历史数据表的表结构信息是否一致;
若是,则进入通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件的步骤;
若否,则进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤。
优选的,通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件,包括:
对比所述目标迁移文件的列偏移量与所述历史目标迁移文件的列偏移量,以及所述本次目标迁移文件的行信息与所述历史目标迁移文件的行信息确定所述目标迁移文件中相较于所述历史目标迁移文件发生修改和增加的文件;
将所述目标迁移文件中相较于所述历史目标迁移文件发生修改和增加的文件作为所述待迁移文件。
优选的,将所述待迁移文件迁移至所述分布式文件系统的慢池包括:
创建用于存储所述待迁移文件的临时文件;
将所述待迁移文件迁移至所述临时文件,并在迁移完成后检测所述临时文件中的内容与所述待迁移文件的内容是否一致;
若不一致,则判定迁移失败,并进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤;
若一致,则将所述临时文件更改为正式文件。
优选的,在将所述待迁移文件迁移至所述分布式文件系统的慢池中时,还包括:
确定用户向所述快池写入数据的写入速度;
若所述写入速度大于将所述待迁移文件从所述快池迁移到所述慢池的速度,则将所述用户写入的数据直接存储在所述慢池中。
优选的,将所述待迁移文件迁移至所述分布式文件系统的慢池中,包括:
将所述待迁移文件按照预设分发规则由主节点分发至多个从节点以便各个所述从节点同时将被分发至自身的待迁移文件由所述快池迁移到所述慢池。
本申请还提供了一种分布式文件系统的数据迁移系统,包括:
数据表存储单元,用于获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将所述属性信息以数据表的形式存储在数据库中;
目标迁移文件确定单元,用于通过所述数据表确定符合预设迁移条件的目标迁移文件;
待迁移文件确定单元,用于通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件;
迁移单元,用于将所述待迁移文件迁移至所述分布式文件系统的慢池中。
本申请还提供了一种分布式文件系统的数据迁移装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述分布式文件系统的数据迁移方法的步骤。
本申请还提供了一种分布式文件系统,包括上述的分布式文件系统的数据迁移装置,还包括用于存储数据的快池和慢池。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述分布式文件系统的数据迁移方法的步骤。
综上,本发明提供了一种分布式文件系统的数据迁移方法及相关组件,包括获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将属性信息以数据表的形式存储在数据库中以便通过数据表确定符合预设迁移条件的目标迁移文件,通过对比目标迁移文件与上次得到的历史目标迁移文件确定最终的待迁移文件,最后将快池中的待迁移文件迁移至分布式文件系统的慢池中,并且通过对比数据表确定目标迁移文件的速度比较快,因此能够加快将待迁移文件从快池迁移到慢池的速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种分布式文件系统的数据迁移方法的流程示意图;
图2为本发明提供的一种分布式文件系统的数据迁移系统的结构示意图;
图3为本发明提供的一种分布式文件系统的数据迁移装置的结构示意图;
图4为本发明提供的一种计算机可读存储介质的结构示意图。
具体实施方式
本发明的核心是提供一种分布式文件系统的数据迁移方法及相关组件,能够加快将待迁移文件从快池迁移到慢池的速度。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中在使用分布式文件系统时通常不会提供将数据从快池迁移到慢池的工具,即使将数据从快池迁移到慢池也是单个文件进行迁移,并且需要使用额外的服务器进行迁移操作,可见,在面临快池中存储的数据逐渐增加的问题时,如何快速将快池中的数据迁移到慢池以满足用户高速且持续的向快池写入数据是当前亟需解决的问题。
请参照图,图1为本发明提供的一种分布式文件系统的数据迁移方法的流程示意图,该方法包括:
S1:获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将属性信息以数据表的形式存储在数据库中;
在本申请中首先获取分布式文件系统的快池中的每个文件的属性信息,以便基于文件的属性信息确定文件是否需要从快池迁移到慢池中,文件的属性信息包括文件的名称、文件的大小、文件的权限、文件的创建时间以及创建用户等信息,本申请对此不作特别限定。并且,考虑到通过直接对比文件内容或者文件属性是否发生改变从而确定待迁移文件的方式所需的工作量过于繁多,在本申请中将文件的属性信息转换为结构化关系数据也即以数据表的形式存储在数据库中,通过读取数据表确定待迁移文件。
并且,本申请可以利用多个线程同时获取分布式文件系统中的各个文件的属性信息,从而加快数据迁移的效率。本申请对数据表的具体形式不做特别限定,例如在Entries表下存储分布式文件系统下的各个目录下的每个文件的属性信息,tree表记录分布式文件系统的目录、子目录以及文件之间的关系。本申请对存储数据表的数据库的类型不做特别限定,例如可以为sqlite3数据库。
S2:通过数据表确定符合预设迁移条件的目标迁移文件;
在将文件的属性信息转换成数据表之后,通过读取数据表的表结构信息解析数据库文件,并利用预设迁移条件确定目标迁移文件,也即确定分布式文件系统中包括的所有符合预设迁移条件的文件,其中,目标迁移文件中可能包括在上次进行数据迁移时就已经被迁移到慢池中的符合预设迁移条件的文件。其中,表结构信息包括数据表的列名、列类型以及是否包含主键等。
本申请对预设迁移条件不做具体限定,例如文件的创建时间是否早于预设创建时间,文件的最新一次被修改的时间是否早于预设时间节点以及文件的大小是否大于预设阈值等。
S3:通过对比目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件;
考虑到分布式文件系统中符合预设迁移条件的文件既包括已经在历史迁移过程中由快池迁移到慢池的目标迁移文件,还包括用户新增的或新修改的未被从快池迁移到慢池的目标迁移文件。为了提高文件迁移的速度,在本申请中将文件由快池迁移到慢池之前先对比本次得到的目标迁移文件与上次得到的历史目标迁移文件,将目标迁移文件中去除历史目标迁移文件后的文件作为最终的待迁移文件,从而减少文件迁移所需的工作量,进一步提高文件迁移的速度。
S4:将待迁移文件迁移至分布式文件系统的慢池中。
在确定待迁移文件之后,将待迁移文件由快池迁移到慢池中,并且迁移时可以使用多个线程同时将待迁移文件从快池迁移到慢池中,从而进一步提高文件迁移的速度。综上,本发明提供了一种分布式文件系统的数据迁移方法,包括获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将属性信息以数据表的形式存储在数据库中以便通过数据表确定符合预设迁移条件的目标迁移文件,通过对比目标迁移文件与上次得到的历史目标迁移文件确定最终的待迁移文件,最后将快池中的待迁移文件迁移至分布式文件系统的慢池中,并且通过对比数据表确定目标迁移文件的速度比较快,因此能够加快将待迁移文件从快池迁移到慢池的速度。
在上述实施例的基础上:
作为一种优选的实施例,在通过数据表确定符合预设迁移条件的目标迁移文件之后,还包括:
判断本次得到的数据表的表结构信息与上次得到的历史数据表的表结构信息是否一致;
若是,则进入通过对比目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件的步骤;
若否,则进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤。
在本实施例中,为了保证文件迁移的准确性,在通过数据表确定符合预设迁移条件的目标迁移文件之后进一步对数据表自身的正确性进行判断,也即判断本次得到的数据表的表结构信息与上次得到的历史数据表的表结构信息是否一致,若本次得到的数据表的表结构信息与上次得到的历史数据表的表结构信息一致则判断本次得到的数据表正确。具体的,可以通过对比本次得到的数据表的列名、列类型以及是否主键的信息,本申请对此不作特别限定。在确定本次得到的数据表的表结构信息与上次得到的历史数据表的表结构信息一致时,判定本次得到的数据表为正确的,因此进行文件迁移的下一个步骤也即通过对比目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件;在确定本次得到的数据表的表结构信息与上次得到的历史数据表的表结构信息不一致时,认为本次得到的数据表为不正确的,因此需要再次重新生成数据表也即进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,需要说明的是,可以立即进入重新生成数据表的步骤,也可以先结束本次文件迁移,在接收到下一次进行文件迁移的指令后再进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤。
综上,本实施例通过对数据表的正确性进行进一步校验,保证了文件迁移的准确性。
作为一种优选的实施例,通过对比目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件,包括:
对比目标迁移文件的列偏移量与历史目标迁移文件的列偏移量,以及本次目标迁移文件的行信息与历史目标迁移文件的行信息确定目标迁移文件中相较于历史目标迁移文件发生修改和增加的文件;
将目标迁移文件中相较于历史目标迁移文件发生修改和增加的文件作为待迁移文件。
在本实施例中基于本次得到的目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件具体是通过对比目标迁移文件与历史目标迁移文件的列偏移量以及对比目标迁移文件与历史目标迁移文件的行信息实现,数据表中的信息是以二进制的形式进行存储,通过读取偏移量便能获得数据表中每个列的具体内容,进一步结合数据表的行信息的对比结果确定分布式文件系统中的各个目标迁移文件相对历史目标迁移文件是被新增还是修改还是删除等,本实施例将目标迁移文件中相较于历史目标迁移文件发生修改和新增加的文件作为最终的待迁移文件,从而更加精准的实现将文件从快池迁移到慢池的过程。
作为一种优选的实施例,将待迁移文件迁移至分布式文件系统的慢池包括:
创建用于存储待迁移文件的临时文件;
将待迁移文件迁移至临时文件,并在迁移完成后检测临时文件中的内容与待迁移文件的内容是否一致;
若不一致,则判定迁移失败,并进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤;
若一致,则将临时文件更改为正式文件。
在本实施例中,进一步对迁移慢池中的待迁移文件的内容是否正确进行了判断,再次保证了文件迁移的正确性。具体的,将待迁移文件由快池迁移到慢池的具体过程为首先在慢池中创建临时文件,然后按照一定的顺序将各个待迁移文件由快池迁移到慢池的临时文件中,再迁移结束后检测临时文件的内容与待迁移文件的内容是否一致,待迁移文件为快池中存储的原始文件,若在迁移过程中用户继续向待迁移文件写入新的内容或进行其他修改操作则会导致慢池中的临时文件中的内容与快池中的待迁移文件的内容不一致,因此判定迁移失败,重新进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤,开始下一次文件迁移;若在迁移过程中用户没有向快池中的待迁移文件写入新的内容或进行其他修改操作则慢池中的临时文件的内容与快池中的待迁移文件的内容保持,此时判定迁移成功,并将临时文件修改为正式文件,完成文件迁移的过程。
作为一种优选的实施例,在将待迁移文件迁移至分布式文件系统的慢池中时,还包括:
确定用户向快池写入数据的写入速度;
若写入速度大于将待迁移文件从快池迁移到慢池的速度,则将用户写入的数据直接存储在慢池中。
考虑到将待迁移文件从快池迁移到慢池需要一定的迁移时间,在迁移期间如果用户向快池写入数据的速度大于将待迁移文件从快池迁移到慢池的速度则会导致快池中的文件堆积,使得快池的存储空间不能够满足用户的需求。为解决上述技术问题,在本实施例,在将待迁移文件由快池迁移到慢池的过程中还获取用户向快池写入数据的写入速度,具体可以为实时获取写入速度或者按照一定的周期进行获取,本申请对此不作特别限定。在确定写入速度之后,判断写入速度是否大于将待迁移文件从快池迁移到慢池的速度,若是则为了避免快池中剩余的存储空间无法满足用户的写入需求进而导致写入失败的问题的出现,直接将用户写入的数据存储在慢池中。
此外,当用户高速向快池写入文件时,可以将预设迁移条件修改为文件的大小是否大于预设阈值,优先将大文件从快池迁移到慢池,将大文件迁移完成后再迁移小文件,进而为快池清除出更多的可用空间以满足用户的写入需求。
作为一种优选的实施例,将待迁移文件迁移至分布式文件系统的慢池中,包括:
将待迁移文件按照预设分发规则由主节点分发至多个从节点以便各个从节点同时将被分发至自身的待迁移文件由快池迁移到慢池。
在本实施例中为了进一步提高文件迁移速度,在将待迁移文件由分布式文件系统的快池迁移到慢池时采用多线程同时迁移的方式,具体的,主节点按照预设分发规则将待迁移文件分发给多个从节点,每个从节点将自身对应的待迁移文件由快池迁移到慢池,各个从节点并发执行文件迁移操作,本申请对于预设分发规则不做具体限定,例如平均分配等。
请参照图2,图2为本发明提供的一种分布式文件系统的数据迁移系统的结构示意图,该系统包括:
数据表存储单元11,用于获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将属性信息以数据表的形式存储在数据库中;
目标迁移文件确定单元12,用于通过数据表确定符合预设迁移条件的目标迁移文件;
待迁移文件确定单元13,用于通过对比目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件;
迁移单元14,用于将待迁移文件迁移至分布式文件系统的慢池中。
本发明提供了一种分布式文件系统的数据迁移系统,包括获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将属性信息以数据表的形式存储在数据库中以便通过数据表确定符合预设迁移条件的目标迁移文件,通过对比目标迁移文件与上次得到的历史目标迁移文件确定最终的待迁移文件,最后将快池中的待迁移文件迁移至分布式文件系统的慢池中,并且通过对比数据表确定目标迁移文件的速度比较快,因此能够加快将待迁移文件从快池迁移到慢池的速度。
对于本申请提供的一种分布式文件系统的数据迁移系统的详细介绍请参照上述分布式文件系统的数据迁移方法的实施例,本申请在此不做赘述。
在上述实施例的基础上:
作为一种优选的实施例,还包括:
判断单元,用于在通过数据表确定符合预设迁移条件的目标迁移文件之后,判断本次得到的数据表的表结构信息与上次得到的历史数据表的表结构信息是否一致;若是,则触发待迁移文件确定单元13;若否,则触发数据表存储单元11。
作为一种优选的实施例,待迁移文件确定单元13包括:
对比确定单元,用于对比目标迁移文件的列偏移量与历史目标迁移文件的列偏移量,以及本次目标迁移文件的行信息与历史目标迁移文件的行信息确定目标迁移文件中相较于历史目标迁移文件发生修改和增加的文件;
待迁移文件确定子单元,用于将目标迁移文件中相较于历史目标迁移文件发生修改和增加的文件作为待迁移文件。
作为一种优选的实施例,迁移单元14包括:
临时文件创建单元,用于创建用于存储待迁移文件的临时文件;
检测单元,用于将待迁移文件迁移至临时文件,并在迁移完成后检测临时文件中的内容与待迁移文件的内容是否一致;若不一致,则触发数据表存储单元11;若一致,则触发正式文件更改单元;
正式文件更改单元,用于将临时文件更改为正式文件。
作为一种优选的实施例,还包括:
写入速度确定单元,用于在将待迁移文件迁移至分布式文件系统的慢池中时,确定用户向快池写入数据的写入速度;
慢池存储单元,用于在写入速度大于将待迁移文件从快池迁移到慢池的速度时,将用户写入的数据直接存储在慢池中。
作为一种优选的实施例,迁移单元14具体用于将待迁移文件按照预设分发规则由主节点分发至多个从节点以便各个从节点同时将被分发至自身的待迁移文件由快池迁移到慢池。
请参照图3,图3为本发明提供的一种分布式文件系统的数据迁移装置的结构示意图,分布式文件系统的数据迁移装置包括:
存储器21,用于存储计算机程序;
处理器22,用于执行计算机程序时实现上述分布式文件系统的数据迁移方法的步骤。
本发明提供了一种分布式文件系统的数据迁移装置,处理器中的计算机程序被执行时能够获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将属性信息以数据表的形式存储在数据库中以便通过数据表确定符合预设迁移条件的目标迁移文件,通过对比目标迁移文件与上次得到的历史目标迁移文件确定最终的待迁移文件,最后将快池中的待迁移文件迁移至分布式文件系统的慢池中,并且通过对比数据表确定目标迁移文件的速度比较快,因此能够加快将待迁移文件从快池迁移到慢池的速度。
对于本申请提供的一种分布式文件系统的数据迁移装置的详细介绍请参照上述分布式文件系统的数据迁移方法的实施例,本申请在此不做赘述。
本申请还提供了一种分布式文件系统,包括上述的分布式文件系统的数据迁移装置,还包括用于存储数据的快池和慢池。
对于本申请提供的一种分布式文件系统的详细介绍请参照上述分布式文件系统的数据迁移方法的实施例,本申请在此不做赘述。
请参照图4,图4为本发明提供的一种计算机可读存储介质的结构示意图,计算机可读存储介质31上存储有计算机程序,计算机程序被处理器执行时实现上述分布式文件系统的数据迁移方法的步骤。
对于本申请提供的一种计算机可读存储介质的详细介绍请参照上述分布式文件系统的数据迁移方法的实施例,本申请在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本说明书中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式文件系统的数据迁移方法,其特征在于,包括:
获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将所述属性信息以数据表的形式存储在数据库中;
通过所述数据表确定符合预设迁移条件的目标迁移文件;
通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件;
将所述待迁移文件迁移至所述分布式文件系统的慢池中。
2.如权利要求1所述的分布式文件系统的数据迁移方法,其特征在于,在通过所述数据表确定符合预设迁移条件的目标迁移文件之后,还包括:
判断本次得到的所述数据表的表结构信息与上次得到的历史数据表的表结构信息是否一致;
若是,则进入通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件的步骤;
若否,则进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤。
3.如权利要求1所述的分布式文件系统的数据迁移方法,其特征在于,通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件,包括:
对比所述目标迁移文件的列偏移量与所述历史目标迁移文件的列偏移量,以及所述本次目标迁移文件的行信息与所述历史目标迁移文件的行信息确定所述目标迁移文件中相较于所述历史目标迁移文件发生修改和增加的文件;
将所述目标迁移文件中相较于所述历史目标迁移文件发生修改和增加的文件作为所述待迁移文件。
4.如权利要求1所述的分布式文件系统的数据迁移方法,其特征在于,将所述待迁移文件迁移至所述分布式文件系统的慢池包括:
创建用于存储所述待迁移文件的临时文件;
将所述待迁移文件迁移至所述临时文件,并在迁移完成后检测所述临时文件中的内容与所述待迁移文件的内容是否一致;
若不一致,则判定迁移失败,并进入获取分布式文件系统的快池中的每个目录下的每个文件的属性信息的步骤;
若一致,则将所述临时文件更改为正式文件。
5.如权利要求1所述的分布式文件系统的数据迁移方法,其特征在于,在将所述待迁移文件迁移至所述分布式文件系统的慢池中时,还包括:
确定用户向所述快池写入数据的写入速度;
若所述写入速度大于将所述待迁移文件从所述快池迁移到所述慢池的速度,则将所述用户写入的数据直接存储在所述慢池中。
6.如权利要求1至5任一项所述的分布式文件系统的数据迁移方法,其特征在于,将所述待迁移文件迁移至所述分布式文件系统的慢池中,包括:
将所述待迁移文件按照预设分发规则由主节点分发至多个从节点以便各个所述从节点同时将被分发至自身的待迁移文件由所述快池迁移到所述慢池。
7.一种分布式文件系统的数据迁移系统,其特征在于,包括:
数据表存储单元,用于获取分布式文件系统的快池中的每个目录下的每个文件的属性信息,并将所述属性信息以数据表的形式存储在数据库中;
目标迁移文件确定单元,用于通过所述数据表确定符合预设迁移条件的目标迁移文件;
待迁移文件确定单元,用于通过对比所述目标迁移文件与上次得到的历史目标迁移文件确定待迁移文件;
迁移单元,用于将所述待迁移文件迁移至所述分布式文件系统的慢池中。
8.一种分布式文件系统的数据迁移装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述分布式文件系统的数据迁移方法的步骤。
9.一种分布式文件系统,其特征在于,包括如权利要求8所述的分布式文件系统的数据迁移装置,还包括用于存储数据的快池和慢池。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述分布式文件系统的数据迁移方法的步骤。
CN202310314855.0A 2023-03-24 2023-03-24 一种分布式文件系统的数据迁移方法及相关组件 Pending CN116303248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310314855.0A CN116303248A (zh) 2023-03-24 2023-03-24 一种分布式文件系统的数据迁移方法及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310314855.0A CN116303248A (zh) 2023-03-24 2023-03-24 一种分布式文件系统的数据迁移方法及相关组件

Publications (1)

Publication Number Publication Date
CN116303248A true CN116303248A (zh) 2023-06-23

Family

ID=86828591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310314855.0A Pending CN116303248A (zh) 2023-03-24 2023-03-24 一种分布式文件系统的数据迁移方法及相关组件

Country Status (1)

Country Link
CN (1) CN116303248A (zh)

Similar Documents

Publication Publication Date Title
CN107391628B (zh) 数据同步方法及装置
CN107643880B (zh) 基于分布式文件系统的文件数据迁移的方法及装置
CN107729558B (zh) 文件系统碎片整理的方法、系统、装置及计算机存储介质
CN107665219B (zh) 一种日志管理方法及装置
CN107357920B (zh) 一种增量式的多副本数据同步方法及系统
CN108573019B (zh) 一种数据迁移方法、装置、电子设备及可读存储介质
CN109033365B (zh) 一种数据处理方法及相关设备
CN111930716A (zh) 一种数据库扩容方法、装置及系统
CN111638995A (zh) 元数据备份方法、装置及设备、存储介质
CN106874343B (zh) 一种时序数据库的数据删除方法及系统
CN108572888B (zh) 磁盘快照创建方法和磁盘快照创建装置
CN111078719A (zh) 数据的恢复方法及装置、存储介质和处理器
CN102902770A (zh) 一种镜像文件拼装方法及系统
CN112000971B (zh) 一种文件权限记录方法、系统及相关装置
CN112965939A (zh) 一种文件合并方法、装置和设备
CN106557383B (zh) 一种数据恢复的方法及装置
CN117216031A (zh) 一种基于分布式数据库的数据回溯方法、装置及介质
CN116303248A (zh) 一种分布式文件系统的数据迁移方法及相关组件
CN107422990B (zh) 一种动态迁移方法及装置
CN110704573A (zh) 目录存储方法、装置、计算机设备及存储介质
CN109508140B (zh) 存储资源管理方法、装置、电子设备及电子设备、系统
CN113792026B (zh) 数据库脚本的部署方法、装置及计算机可读存储介质
US20190108104A1 (en) System and method for managing storage transaction requests
US10922277B1 (en) Logging file system metadata changes using a single log hold per cached block of metadata
CN109241011B (zh) 一种虚拟机文件处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination