CN111339037B - 一种高效的并行分布式文件系统并行复制方法 - Google Patents

一种高效的并行分布式文件系统并行复制方法 Download PDF

Info

Publication number
CN111339037B
CN111339037B CN202010093820.5A CN202010093820A CN111339037B CN 111339037 B CN111339037 B CN 111339037B CN 202010093820 A CN202010093820 A CN 202010093820A CN 111339037 B CN111339037 B CN 111339037B
Authority
CN
China
Prior art keywords
file
file system
directory
copying
parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010093820.5A
Other languages
English (en)
Other versions
CN111339037A (zh
Inventor
宋江波
吴军疆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orca Data Technology Xian Co Ltd
Original Assignee
Orca Data Technology Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orca Data Technology Xian Co Ltd filed Critical Orca Data Technology Xian Co Ltd
Priority to CN202010093820.5A priority Critical patent/CN111339037B/zh
Publication of CN111339037A publication Critical patent/CN111339037A/zh
Application granted granted Critical
Publication of CN111339037B publication Critical patent/CN111339037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高效的并行分布式文件系统并行复制方法,包括分布式文件系统1与分布式文件系统2的复制过程,其中分布式文件系统1有N个目录每个目录下有N个文件和N个目录,所述分布式文件系统1至分布式文件系统2的复制过程包括JobDirWorker、JobFileWorker以及JobWorker的并行复制步骤,JobDirWorker:进行复制目录的具体工作者,同时可以处理多个JobDir,包括以下步骤:S1:扫描源目录(只扫描一级目录)记录文件和目录;本发明的目的在于提供一种高效的并行分布式文件系统并行复制方法,在分布式文件系统中充分利用并行文件系统的并行读写特性,充分利用所有计算节点和存储节点的计算和存储能力,大大提高文件系统的复制效率。

Description

一种高效的并行分布式文件系统并行复制方法
技术领域
本发明涉及分布式文件系统并行复制技术领域,更具体地说,涉及一种高效的并行分布式文件系统并行复制方法。
背景技术
计算机通过文件系统管理、存储数据,而信息爆炸时代中人们可以获取的数据成指数倍的增长,单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,在容量大小、容量增长速度、数据备份、数据安全等方面的表现都差强人意。分布式文件系统可以有效解决数据的存储和管理难题:将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统,众多的节点组成一个文件系统网络。每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输。人们在使用分布式文件系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据;
分布式文件系统能够存放海量数据,此时文件的复制就变得非常空难;
为此,提出一种高效的并行分布式文件系统并行复制方法。
本发明内容
1.要解决的技术问题
针对现有技术中存在的问题,本发明的目的在于提供一种高效的并行分布式文件系统并行复制方法,在分布式文件系统中充分利用并行文件系统的并行读写特性,充分利用所有计算节点和存储节点的计算和存储能力,大大提高文件系统的复制效率。
2.技术方案
为解决上述问题,本发明采用如下的技术方案。
一种高效的并行分布式文件系统并行复制方法,包括分布式文件系统1与分布式文件系统2的复制过程,其中分布式文件系统1有N个目录每个目录下有N个文件和N个目录;
所述分布式文件系统1至分布式文件系统2的复制过程包括JobDirWorker、JobFileWorker以及JobWorker的并行复制步骤;
JobDirWorker:进行复制目录的具体工作者,同时可以处理多个JobDir,包括以下步骤:
S1:扫描源目录(只扫描一级目录)记录文件和目录;
S2:在目标目录中创建源目录并保存扫描出来的文件和目录信息;
S3:是目录则创建JobDir分配给不同的节点的JobDirWorker进行S1、S2、S3、S4操作;
S4:是文件则创建JobFile分配给不同节点的JobFileWorker进行处理;
S5:所有目录和文件复制完成后标记复制完成;
S6:清理目录复制过程文件。
JobFileWorker:进行复制文件的具体工作者,同时可以处理多个JobFile,包括以下步骤:
S1:将文件分块,并将分块信息记录到的文件中;
S2:在目标目录中也保存一份相应的信息;
S3:创建Job分发给其他节点JobWorker进行处理;
S4:所有的Job完成后合并文件块为一个文件;
S5:给目录复制信息中标记复制文件完成;
S6:清理文件复制过程文件。
JobWorker:进行复制任务,同时可以处理多个Job,包括以下步骤:
S1:将Job中的复制任务进行复制到目标文件中,并标记复制完成。
进一步的,还包括文件系统拷贝以及文件系统拷贝断点续存,两者每个节点上都有JobDirWorker,JobFileWorker,JobWorker。
进一步的,所述文件系统拷贝步骤如下:
S1:指定源目录和目标目录,指定所有计算节点进行拷贝;
S2:构建JobDir给JobDirWorker处理;
S3:JobDirWorker均匀分发JobFile和JobDir给其他节点进行处理;
S4:JobFileWorker收到JobFile后进行均匀的分发Job给其他节点进行处理;
S5:JobWorker完成Job后,标记成功;
S6:JobFileWorker的Job全部完成后,在目标目录合并文件块并标记完成,清理过程文件;
S7:JobDirWorker的Jobfile和JobDir全部完成后标记完成,清理过程文件;
S8:源目录的JobWorker的所有JobFile和JobDir全部完成后标记成功清理,过程文件;
S9:任务结束。
进一步的,所述文件系统拷贝断点续存步骤如下:
S1:指定源目录和目标目录,指定所有计算节点进行拷贝;
S2:读取JobDirWorker的过程文件,将没有完成的文件和目录创建JobFIle和JobDir;
S3:如果是JobDir则再次执行S2至S9;
S4:如果是JobFile则JobFileWorker会读取JobFile的过程文件将没有完成job分发到其他节点的Jobworker上执行;
S5:JobWorker完成Job后,标记成功;
S6:JobFileWorker的Job全部完成后,在目标目录合并文件块并标记完成,清理过程文件;
S7:JobDirWorker的Jobfile和JobDir全部完成后标记完成,清理过程文件;
S8:源目录的JobWorker的所有JobFile和JobDir全部完成后标记成功清理,过程文件;
S9:任务结束。
进一步的,分布式文件系统,有N个计算节点,两个分布式文件系统集群,都挂在计算节点上,每个集群有N个对象存储节点和N个元数据存储节点,在每个计算节点都能看到两个文件系统,在所有节点上看同一个文件系统的内容完全相同。
3.有益效果
相比于现有技术,本发明的优点在于:
本发明的目的在于提供一种高效的并行分布式文件系统并行复制方法,在分布式文件系统中充分利用并行文件系统的并行读写特性,充分利用所有计算节点和存储节点的计算和存储能力,大大提高文件系统的复制效率。
附图说明
图1为本发明的分布式文件系统分布示意图;
图2为本发明的分布式文件系统的目录树分布图;
图3为本发明的复制任务分解示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
请参阅图1至图3,一种高效的并行分布式文件系统并行复制方法,包括分布式文件系统1与分布式文件系统2的复制过程,其中分布式文件系统1有N个目录每个目录下有N个文件和N个目录;
所述分布式文件系统1至分布式文件系统2的复制过程包括JobDirWorker、JobFileWorker以及JobWorker的并行复制步骤;
JobDirWorker:进行复制目录的具体工作者,同时可以处理多个JobDir,包括以下步骤:
S1:扫描源目录(只扫描一级目录)记录文件和目录;
S2:在目标目录中创建源目录并保存扫描出来的文件和目录信息;
S3:是目录则创建JobDir分配给不同的节点的JobDirWorker进行S1、S2、S3、S4操作;
S4:是文件则创建JobFile分配给不同节点的JobFileWorker进行处理;
S5:所有目录和文件复制完成后标记复制完成;
S6:清理目录复制过程文件。
JobFileWorker:进行复制文件的具体工作者,同时可以处理多个JobFile,包括以下步骤:
S1:将文件分块,并将分块信息记录到的文件中;
S2:在目标目录中也保存一份相应的信息;
S3:创建Job分发给其他节点JobWorker进行处理;
S4:所有的Job完成后合并文件块为一个文件;
S5:给目录复制信息中标记复制文件完成;
S6:清理文件复制过程文件。
JobWorker:进行复制任务,同时可以处理多个Job,包括以下步骤:
S1:将Job中的复制任务进行复制到目标文件中,并标记复制完成。
分布式文件系统还包括文件系统拷贝以及文件系统拷贝断点续存,两者每个节点上都有JobDirWorker,JobFileWorker,JobWorker。
所述文件系统拷贝步骤如下:
S1:指定源目录和目标目录,指定所有计算节点进行拷贝;
S2:构建JobDir给JobDirWorker处理;
S3:JobDirWorker均匀分发JobFile和JobDir给其他节点进行处理;
S4:JobFileWorker收到JobFile后进行均匀的分发Job给其他节点进行处理;
S5:JobWorker完成Job后,标记成功;
S6:JobFileWorker的Job全部完成后,在目标目录合并文件块并标记完成,清理过程文件;
S7:JobDirWorker的Jobfile和JobDir全部完成后标记完成,清理过程文件;
S8:源目录的JobWorker的所有JobFile和JobDir全部完成后标记成功清理,过程文件;
S9:任务结束。
所述文件系统拷贝断点续存步骤如下:
S1:指定源目录和目标目录,指定所有计算节点进行拷贝;
S2:读取JobDirWorker的过程文件,将没有完成的文件和目录创建JobFIle和JobDir;
S3:如果是JobDir则再次执行S2至S9;
S4:如果是JobFile则JobFileWorker会读取JobFile的过程文件将没有完成job分发到其他节点的Jobworker上执行;
S5:JobWorker完成Job后,标记成功;
S6:JobFileWorker的Job全部完成后,在目标目录合并文件块并标记完成,清理过程文件;
S7:JobDirWorker的Jobfile和JobDir全部完成后标记完成,清理过程文件;
S8:源目录的JobWorker的所有JobFile和JobDir全部完成后标记成功清理,过程文件;
S9:任务结束。
分布式文件系统,有N个计算节点,两个分布式文件系统集群,都挂在计算节点上,每个集群有N个对象存储节点和N个元数据存储节点,在每个计算节点都能看到两个文件系统,在所有节点上看同一个文件系统的内容完全相同。
本发明的目的在于提供一种高效的并行分布式文件系统并行复制方法,在分布式文件系统中充分利用并行文件系统的并行读写特性,充分利用所有计算节点和存储节点的计算和存储能力,大大提高文件系统的复制效率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种高效的并行分布式文件系统并行复制方法,其特征在于,包括分布式文件系统1与分布式文件系统2的复制过程,其中分布式文件系统1有N个目录每个目录下有N个文件和N个目录;
所述分布式文件系统1至分布式文件系统2的复制过程包括JobDirWorker、JobFileWorker以及JobWorker的并行复制步骤;
JobDirWorker:进行复制目录的具体工作者,同时处理多个JobDir,包括以下步骤:
S1:扫描源目录,只扫描一级目录,记录文件和目录;
S2:在目标目录中创建源目录并保存扫描出来的文件和目录信息;
S3:是目录则创建JobDir分配给不同的节点的JobDirWorker进行S1、S2、S3、S4操作;
S4:是文件则创建JobFile分配给不同节点的JobFileWorker进行处理;
S5:所有目录和文件复制完成后标记复制完成;
S6:清理目录复制过程文件;
JobFileWorker:进行复制文件的具体工作者,同时处理多个JobFile,包括以下步骤:
S1:将文件分块,并将分块信息记录到的文件中;
S2:在目标目录中也保存一份相应的信息;
S3:创建Job分发给其他节点JobWorker进行处理;
S4:所有的Job完成后合并文件块为一个文件;
S5:给目录复制信息中标记复制文件完成;
S6:清理文件复制过程文件;
JobWorker:进行复制任务,同时处理多个Job,包括以下步骤:
S1:将Job中的复制任务进行复制到目标文件中,并标记复制完成。
2.根据权利要求1所述的一种高效的并行分布式文件系统并行复制方法,其特征在于:还包括文件系统拷贝以及文件系统拷贝断点续存,所述文件系统拷贝和文件系统拷贝断点续存每个节点上都有JobDirWorker,JobFileWorker,JobWorker。
3.根据权利要求2所述的一种高效的并行分布式文件系统并行复制方法,其特征在于:所述文件系统拷贝步骤如下:
S1:指定源目录和目标目录,指定所有计算节点进行拷贝;
S2:构建JobDir给JobDirWorker处理;
S3:JobDirWorker均匀分发JobFile和JobDir给其他节点进行处理;
S4:JobFileWorker收到JobFile后进行均匀的分发Job给其他节点进行处理;
S5:JobWorker完成Job后,标记成功;
S6:JobFileWorker的Job全部完成后,在目标目录合并文件块并标记完成,清理过程文件;
S7:JobDirWorker的Jobfile和JobDir全部完成后标记完成,清理过程文件;
S8:源目录的JobWorker的所有JobFile和JobDir全部完成后标记成功清理,过程文件;
S9:任务结束。
4.根据权利要求2所述的一种高效的并行分布式文件系统并行复制方法,其特征在于:所述文件系统拷贝断点续存步骤如下:
S1:指定源目录和目标目录,指定所有计算节点进行拷贝;
S2:读取JobDirWorker的过程文件,将没有完成的文件和目录创建JobFIle和JobDir;
S3:如果是JobDir则再次执行S2至S9;
S4:如果是JobFile则JobFileWorker会读取JobFile的过程文件将没有完成job分发到其他节点的Jobworker上执行;
S5:JobWorker完成Job后,标记成功;
S6:JobFileWorker的Job全部完成后,在目标目录合并文件块并标记完成,清理过程文件;
S7:JobDirWorker的Jobfile和JobDir全部完成后标记完成,清理过程文件;
S8:源目录的JobWorker的所有JobFile和JobDir全部完成后标记成功清理,过程文件;
S9:任务结束。
5.根据权利要求1所述的一种高效的并行分布式文件系统并行复制方法,其特征在于:分布式文件系统,有N个计算节点,两个分布式文件系统集群,都挂在计算节点上,每个集群有N个对象存储节点和N个元数据存储节点,在每个计算节点都能看到两个文件系统,在所有节点上看同一个文件系统的内容完全相同。
CN202010093820.5A 2020-02-14 2020-02-14 一种高效的并行分布式文件系统并行复制方法 Active CN111339037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010093820.5A CN111339037B (zh) 2020-02-14 2020-02-14 一种高效的并行分布式文件系统并行复制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010093820.5A CN111339037B (zh) 2020-02-14 2020-02-14 一种高效的并行分布式文件系统并行复制方法

Publications (2)

Publication Number Publication Date
CN111339037A CN111339037A (zh) 2020-06-26
CN111339037B true CN111339037B (zh) 2023-06-09

Family

ID=71183411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010093820.5A Active CN111339037B (zh) 2020-02-14 2020-02-14 一种高效的并行分布式文件系统并行复制方法

Country Status (1)

Country Link
CN (1) CN111339037B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360382A (zh) * 2011-10-13 2012-02-22 中国人民解放军国防科学技术大学 一种高速对象并行存储系统目录复制方法
CN106250270A (zh) * 2016-07-28 2016-12-21 四川新环佳科技发展有限公司 一种云计算平台下的数据备份方法
CN108804253A (zh) * 2017-05-02 2018-11-13 中国科学院高能物理研究所 一种用于海量数据备份的并行作业备份方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8712960B2 (en) * 2011-05-19 2014-04-29 Vmware, Inc. Method and system for parallelizing data copy in a distributed file system
KR102137217B1 (ko) * 2013-07-18 2020-07-23 한국전자통신연구원 비대칭 파일 시스템의 데이터 복제 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360382A (zh) * 2011-10-13 2012-02-22 中国人民解放军国防科学技术大学 一种高速对象并行存储系统目录复制方法
CN106250270A (zh) * 2016-07-28 2016-12-21 四川新环佳科技发展有限公司 一种云计算平台下的数据备份方法
CN108804253A (zh) * 2017-05-02 2018-11-13 中国科学院高能物理研究所 一种用于海量数据备份的并行作业备份方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
对象存储系统的镜像快速复制研究;祝晓东等;《计算机工程与设计》;20110716(第07期);第2365-2369页 *
面向分布式文件系统的可扩展数据快照技术;刘佩等;《电子技术》;20150630;第97-102页 *

Also Published As

Publication number Publication date
CN111339037A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
US12067256B2 (en) Storage space optimization in a system with varying data redundancy schemes
US7257690B1 (en) Log-structured temporal shadow store
US8214334B2 (en) Systems and methods for distributed system scanning
CN101676855B (zh) 可变动的辅助存储系统和方法
CN101814044B (zh) 元数据处理方法及装置
CN102629247B (zh) 一种数据处理方法、装置和系统
CN103761053B (zh) 一种数据处理方法和装置
EP3818450A1 (en) Using a storage system to optimize and maintain the metadata associated with a plurality of small files
CN102495894A (zh) 重复数据查找方法、装置及系统
CN105493080B (zh) 基于上下文感知的重复数据删除的方法和装置
CN103324533A (zh) 分布式数据处理方法、装置及系统
CN106528338B (zh) 一种远程数据复制方法、存储设备及存储系统
CN107885616A (zh) 一种基于文件系统解析的海量小文件备份恢复方法
CN106446044A (zh) 存储空间回收方法及装置
US20230394010A1 (en) File system metadata deduplication
US7200625B2 (en) System and method to enhance availability of a relational database
CN107506466B (zh) 一种小文件存储方法及系统
CN103842954A (zh) 一种存储系统中的数据处理方法、装置和系统
CN108984343B (zh) 一种基于内容分析的虚拟机备份及存储管理方法
CN106528703A (zh) 一种重复删除的模式切换方法及装置
US7685186B2 (en) Optimized and robust in-place data transformation
CN111339037B (zh) 一种高效的并行分布式文件系统并行复制方法
CN102831240B (zh) 扩展元数据文件的存储方法和存储结构
CN110008178B (zh) 分布式文件系统元数据的组织方法及装置
CN115328864A (zh) 被删除文件的管理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant