CN110851417B - 一种分布式文件系统文件的拷贝方法及装置 - Google Patents

一种分布式文件系统文件的拷贝方法及装置 Download PDF

Info

Publication number
CN110851417B
CN110851417B CN201910966568.1A CN201910966568A CN110851417B CN 110851417 B CN110851417 B CN 110851417B CN 201910966568 A CN201910966568 A CN 201910966568A CN 110851417 B CN110851417 B CN 110851417B
Authority
CN
China
Prior art keywords
file
task
copied
copying
copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910966568.1A
Other languages
English (en)
Other versions
CN110851417A (zh
Inventor
王振振
徐伟
李成
孙迁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Suning Cloud Computing Co ltd
SuningCom Co ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN201910966568.1A priority Critical patent/CN110851417B/zh
Publication of CN110851417A publication Critical patent/CN110851417A/zh
Application granted granted Critical
Publication of CN110851417B publication Critical patent/CN110851417B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/184Distributed file systems implemented as replicated file system
    • G06F16/1844Management specifically adapted to replicated file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式文件系统文件的拷贝方法及装置,该方法包括:根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并记录至拷贝任务表,文件拷贝请求包括待拷贝文件信息、待拷贝文件所在的原集群信息以及目标集群信息,任务表包括拷贝任务对应的任务完成状态;根据拷贝任务表采用多线程方式将原集群中任务完成状态为未读取的待拷贝文件读进中间服务器;根据拷贝任务表采用异步方式将中间服务器上任务完成状态为未完成的待拷贝文件复制到目标集群,并更新拷贝任务表中任务完成状态。本发明通过采用中间服务器将跨网络的原集群与目标集群打通,自动将待拷贝文件从原集群拷贝到目标集群,减少开发人员的工作量,并且提升了文件拷贝的效率。

Description

一种分布式文件系统文件的拷贝方法及装置
技术领域
本发明涉及大数据技术领域,特别涉及一种分布式文件系统文件的拷贝方法及装置。
背景技术
传统的大数据集群之间文件拷贝工具,存在以下几个问题:
1、跨环境拷贝,不能直接用hdfs(指分布式文件系统)的拷贝命令直接将集群a的文件拷贝到另外一个集群b,而是需要先手动将集群a的文件先下载到指定的可以上传到集群b的服务器上,然后再从服务器将文件复制到集群b。此种方案既增加了开发人员的工作量,又降低了文件拷贝效率;
2、传统的拷贝基本是全覆盖文件模式拷贝,即无论原来文件存在与否,直接覆盖,这样会导致用户原来不想复制的文件也会被覆盖;
3、如果拷贝期间出现集群宕机,剩余还未拷贝的文件不会重新拉起拷贝。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种分布式文件系统文件的拷贝方法及装置,以克服现有技术中文件不能自动地从原集群复制到跨网络的目标集群中、文件只能采用全部覆盖的方式进行复制以及服务器宕机时文件不能续传等问题。
为解决上述一个或多个技术问题,本发明采用的技术方案是:
一方面,提供了一种分布式文件系统文件的拷贝方法,该方法包括如下步骤:
根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并记录至拷贝任务表中,所述文件拷贝请求包括待拷贝文件信息、所述待拷贝文件所在的原集群信息以及目标集群信息,所述任务表包括所述拷贝任务对应的任务完成状态;
根据所述拷贝任务表采用多线程方式将所述原集群中所述任务完成状态为未读取的待拷贝文件读进中间服务器;
根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群,并更新所述拷贝任务表中任务完成状态。
进一步的,根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务前,所述方法还包括对所述文件拷贝请求进行校验的过程,包括:
对所述文件拷贝请求进行解析,获取所述文件拷贝请求中的所述待拷贝文件所在的原集群信息以及目标集群信息;
根据所述原集群信息校验所述原集群是否在预先生成的网络白名单上,以及根据所述目标集群信息校验所述目标集群是否在所述网络白名单上。
进一步的,所述根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群包括:
获取所述待拷贝文件的覆盖方式,采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件按照所述覆盖方式复制到所述目标集群。
进一步的,所述方法还包括:
按照设定时间定时查询所述拷贝任务表中所述拷贝任务对应的任务完成状态,若所述任务完成状态为未完成,则继续将所述拷贝任务对应的待拷贝文件从所述中间服务器上复制到所述目标集群。
进一步的,根据所述拷贝任务表采用多线程方式将所述原集群中的所述待拷贝文件读进中间服务器前,所述方法还包括:
根据所述待拷贝文件的数量设置线程的数量以及设置单个线程最大文件拷贝数。
另一方面,提供了一种分布式文件系统文件的拷贝装置,所述装置包括:
任务生成模块,用于根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并记录至拷贝任务表中,所述文件拷贝请求包括待拷贝文件信息、所述待拷贝文件所在的原集群信息以及目标集群信息,所述任务表包括所述拷贝任务对应的任务完成状态;
文件读取模块,用于根据所述拷贝任务表采用多线程方式将所述原集群中所述任务完成状态为未读取的待拷贝文件读进中间服务器;
文件复制模块,用于根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群;
状态更新模块,用于更新所述拷贝任务表中的任务完成状态。
进一步的,所述装置还包括:
数据校验模块,用于对所述文件拷贝请求进行校验;
所述数据校验模块包括:
数据解析单元,用于对所述文件拷贝请求进行解析,获取所述文件拷贝请求中的所述待拷贝文件所在的原集群信息以及目标集群信息;
信息校验单元,用于根据所述原集群信息校验所述原集群是否在预先生成的网络白名单上,以及根据所述目标集群信息校验所述目标集群是否在所述网络白名单上。
进一步的,所述文件复制模块包括:
覆盖方式获取单元,用于获取所述待拷贝文件的覆盖方式;
文件复制单元,用于采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件按照所述覆盖方式复制到所述目标集群。
进一步的,所述装置还包括:
定时查询模块,用于按照设定时间定时查询所述拷贝任务表中任务对应的任务完成状态;
所述文件复制模块还用于若所述任务完成状态为未完成,则继续将所述任务对应的所述中间服务器上的所述待拷贝文件复制到所述目标集群。
进一步的,所述装置还包括:
线程设置模块,用于根据所述待拷贝文件的数量设置线程的数量以及设置单个线程最大文件拷贝数。
本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的分布式文件系统文件的拷贝方法及装置,通过采用中间服务器将跨网络的原集群与目标集群打通,自动将待拷贝文件从原集群拷贝到目标集群,既省去了开发人员手动下载文件的工作量,同时又大大提升了文件拷贝的效率;
2、本发明实施例提供的分布式文件系统文件的拷贝方法及装置,通过设置每个待拷贝文件的覆盖方式,支持在文件拷贝过程中,根据覆盖方式进行文件拷贝,使得拷贝方式更加灵活;
3、本发明实施例提供的分布式文件系统文件的拷贝方法及装置,通过按照设定时间定时查询所述拷贝任务表中所述拷贝任务对应的任务完成状态,对还没有完成的文件拷贝任务,会继续进行拷贝,解决了服务器宕机出现的不能续传等问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的分布式文件系统文件的拷贝方法的流程图;
图2是根据一示例性实施例示出的对所述文件拷贝请求进行校验的过程的流程图;
图3是根据一示例性实施例示出的分布式文件系统文件的拷贝装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据一示例性实施例示出的分布式文件系统文件的拷贝方法的流程图,参照图1所示,该方法包括如下步骤:
S1:根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并记录至拷贝任务表中,所述文件拷贝请求包括待拷贝文件信息、所述待拷贝文件所在的原集群信息以及目标集群信息,所述任务表包括所述拷贝任务对应的任务完成状态。
具体的,跨网络是指集群分布于不同的网络中,集群之间不能直接进行文件传输。传统的文件拷贝方式,在涉及跨网络的集群间的文件拷贝问题时,通常只能通过手动的方式将原集群上的待拷贝文件先拷贝至能够将文件上传至目标集群的服务器,然后在从服务器上将文件复制到目标集群,这样操作大大增加了用户的工作量。本发明实施例中,通过采用中间服务器将跨网络的原集群与目标集群打通,自动将待拷贝文件从原集群拷贝到目标集群,既省去了开发人员手动下载文件的工作量,同时又大大提升了文件拷贝的效率。这里需要说明的是,原集群指待拷贝文件所在的集群,目标集群至待拷贝文件将要拷贝至的集群,并且原集群与目标集群分布于不同的网络中。
具体实施时,首先根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并将拷贝任务均记录至拷贝任务表中。其中文件拷贝请求包括待拷贝文件信息、待拷贝文件所在的原集群信息以及目标集群信息等。作为一种较优的实施方式,本发明实施例中,待拷贝文件信息包括文件的通用唯一识别码(即uuid),后续步骤中可以根据该通用唯一识别码(即uuid)来查询或复制待拷贝文件。另外,本发明实施例中,设置任务表中包括拷贝任务对应的任务完成状态,其中任务完成状态包括但不限于以下几种:
未读取,表示该任务对应的待拷贝文件还未被读取进中间服务器;
未完成,表示该任务对应的待拷贝文件还未被从中间服务器拷贝至目标集群;
已完成,表示该任务对应的待拷贝文件已经被从中间服务器拷贝至目标集群。
S2:根据所述拷贝任务表采用多线程方式将所述原集群信息中所述任务完成状态为未读取的待拷贝文件读进中间服务器。
具体的,启动线程查询拷贝任务表,先查询拷贝任务表中拷贝任务对应的任务完成状态信息,查询出任务完成状态为未读取的拷贝任务,然后在任务表中查询任务完成状态为未读取的拷贝任务对应的待拷贝文件信息(如文件的通用唯一识别码),最后采用多线程方式执行查询到的任务完成状态为未读取的拷贝任务,将原集群查询到的与待拷贝文件信息对应的待拷贝文件读进中间服务器。这里需要说明的是,作为一种较优的实施方式,待拷贝文件读进中间服务器后,可以将任务表中该待拷贝文件对应的拷贝任务的任务完成状态更新为未完成状态,表示该任务对应的待拷贝文件已经被读取进中间服务器,但是还未被拷贝至目标集群中。
S3:根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群,并更新所述拷贝任务表中任务完成状态。
具体的,本发明实施例中,采用异步的方式将中间服务器上的待拷贝文件复制到目标集群。具体实施时,同样需要先查询拷贝任务表中拷贝任务对应的任务完成状态信息,查询出任务完成状态为未完成的拷贝任务,然后将任务完成状态为未完成的拷贝任务对应的待拷贝文件复制到目标集群中。复制完成后,还需要将任务表中该待拷贝文件对应的拷贝任务的任务完成状态更新为已完成状态,表示该任务对应的待拷贝文件已经被复制至目标服务器,防止拷贝任务被重复执行等问题。
图2是根据一示例性实施例示出的对所述文件拷贝请求进行校验的过程的流程图,参照图2所示,作为一种较优的实施方式,本发明实施例中,根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务前,所述方法还包括对所述文件拷贝请求进行校验的过程,包括:
S101:对所述文件拷贝请求进行解析,获取所述文件拷贝请求中的所述待拷贝文件所在的原集群信息以及目标集群信息。
具体的,本发明实施例中,可以预先生成一个网络白名单,该网络白名单上记录有能够与中间服务器互通的读集群以及写集群,读集群是指中间服务器可以从其中读取文件的集群,写集群是指中间服务器可以将自身文件复制到其上的集群。接收到跨网络的文件拷贝请求后,会首先对文件拷贝请求进行解析,获取待拷贝文件所在的原集群信息以及目标集群信息等。
S102:根据所述原集群信息校验所述原集群是否在预先生成的网络白名单上,以及根据所述目标集群信息校验所述目标集群是否在所述网络白名单上。
具体的,根据原集群信息校验原集群是否在预先生成的网络白名单上,以及根据目标集群信息校验目标集群是否在网络白名单上,若原集群以及目标集群均在网络白名单上,则继续执行下一步骤,即根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,否则,结束流程。这样设置,可以保证跨网络文件拷贝的安全性,防止用户随意上传或拷贝文件。
作为一种较优的实施方式,本发明实施例中,所述根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群包括:
获取所述待拷贝文件的覆盖方式,采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件按照所述覆盖方式复制到所述目标集群。
具体的,本发明实施例中,预先设置有是否覆盖开关,根据是否覆盖开关,用户可以选择各个待拷贝文件的覆盖方式。获取用户选择的待拷贝文件的覆盖方式,采用异步方式将中间服务器上任务完成状态为未完成的待拷贝文件按照该覆盖方式复制到目标集群。
具体的,如果选择不覆盖方式,那么目标集群中原来存在的与待拷贝文件的文件名相同的文件将不予拷贝覆盖,目标集群中原来不存在与待拷贝文件的文件名相同的文件,则将该文件拷贝至目标集群。若选择覆盖方式,则无论目标集群是否存在与待拷贝文件的文件名相同的文件,待拷贝文件都会被拷贝至目标集群。
作为一种较优的实施方式,本发明实施例中,所述方法还包括:
按照设定时间定时查询所述拷贝任务表中所述拷贝任务对应的任务完成状态,若所述任务完成状态为未完成,则继续将所述拷贝任务对应的待拷贝文件从所述中间服务器上复制到所述目标集群。
具体的,为了防止出现待拷贝文件被重复拷贝的情况,本发明实施例中,在任务表中设置有拷贝任务对应的任务完成状态,并且会根据拷贝任务的完成情况对任务完成状态不断进行更新。
本发明实施例中,设置按照设定时间定时查询所述拷贝任务表中所述拷贝任务对应的任务完成状态,根据查询出的任务完成状态执行不同的操作。例如,若是查询出任务完成状态为未完成,则继续将拷贝任务对应的待拷贝文件从中间服务器上复制到目标集群,若是查询出任务完成状态为未读取,则继续将拷贝任务对应的待拷贝文件从原集群镀金中间服务器,若是查询出任务完成状态为已完成,则不对该拷贝任务做任何操作。
作为一种较优的实施方式,本发明实施例中,根据所述拷贝任务表采用多线程方式将所述原集群中的所述待拷贝文件读进中间服务器前,所述方法还包括:
根据所述待拷贝文件的数量设置线程的数量以及设置单个线程最大文件拷贝数。
具体的,本发明实施例中,从原集群中将待拷贝文件读进中间服务器采用的是多线程方式,因此,还需要设置线程的相关参数。具体实施时,可以根据待拷贝文件的数量来设置线程的数量以及设置单个线程最大文件拷贝数。
例如,作为一种较优的实施方式,本发明实施例中,可以设置默认线程的数量为32个,单个线程最大文件拷贝数为100个文件,即默认最多可以处理3200个拷贝文件。这里需要说明的是,如果待拷贝文件数量超过3200,即线程的数量超过默认线程的数量,设置本发明实施例中会自动扩容线程的数量。
这里还需要说明的是,本发明实施例中,内部使用的是线程安全的阻塞队列,因此在运行过程中很少会出现OOM异常。
图3是根据一示例性实施例示出的分布式文件系统文件的拷贝装置的结构示意图,参照图3所示,该装置包括:
任务生成模块,用于根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并记录至拷贝任务表中,所述文件拷贝请求包括待拷贝文件信息、所述待拷贝文件所在的原集群信息以及目标集群信息,所述任务表包括所述拷贝任务对应的任务完成状态;
文件读取模块,用于根据所述拷贝任务表采用多线程方式将所述原集群信息中所述任务完成状态为未读取的待拷贝文件读进中间服务器;
文件复制模块,用于根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群;
状态更新模块,用于更新所述拷贝任务表中的任务完成状态。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
数据校验模块,用于对所述文件拷贝请求进行校验;
所述数据校验模块包括:
数据解析单元,用于对所述文件拷贝请求进行解析,获取所述文件拷贝请求中的所述待拷贝文件所在的原集群信息以及目标集群信息;
信息校验单元,用于根据所述原集群信息校验所述原集群是否在预先生成的网络白名单上,以及根据所述目标集群信息校验所述目标集群是否在所述网络白名单上。
作为一种较优的实施方式,本发明实施例中,所述文件复制模块包括:
覆盖方式获取单元,用于获取所述待拷贝文件的覆盖方式;
文件复制单元,用于采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件按照所述覆盖方式复制到所述目标集群。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
定时查询模块,用于按照设定时间定时查询所述拷贝任务表中任务对应的任务完成状态;
所述文件复制模块还用于若所述任务完成状态为未完成,则继续将所述任务对应的所述中间服务器上的所述待拷贝文件复制到所述目标集群。
作为一种较优的实施方式,本发明实施例中,所述装置还包括:
线程设置模块,用于根据所述待拷贝文件的数量设置线程的数量以及设置单个线程最大文件拷贝数。
综上所述,本发明实施例提供的技术方案带来的有益效果是:
1、本发明实施例提供的分布式文件系统文件的拷贝方法及装置,通过采用中间服务器将跨网络的原集群与目标集群打通,自动将待拷贝文件从原集群拷贝到目标集群,既省去了开发人员手动下载文件的工作量,同时又大大提升了文件拷贝的效率;
2、本发明实施例提供的分布式文件系统文件的拷贝方法及装置,通过设置每个待拷贝文件的覆盖方式,支持在文件拷贝过程中,根据覆盖方式进行文件拷贝,使得拷贝方式更加灵活;
3、本发明实施例提供的分布式文件系统文件的拷贝方法及装置,通过按照设定时间定时查询所述拷贝任务表中所述拷贝任务对应的任务完成状态,对还没有完成的文件拷贝任务,会继续进行拷贝,解决了服务器宕机出现的不能续传等问题。
需要说明的是:上述实施例提供的分布式文件系统文件的拷贝装置在触发文件拷贝业务时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分布式文件系统文件的拷贝装置与分布式文件系统文件的拷贝方法实施例属于同一构思,即该装置是基于该分布式文件系统文件的拷贝方法的,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种分布式文件系统文件的拷贝方法,其特征在于,所述方法包括如下步骤:
根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并记录至拷贝任务表中,所述文件拷贝请求包括待拷贝文件信息、所述待拷贝文件所在的原集群信息以及目标集群信息,所述任务表包括所述拷贝任务对应的任务完成状态;
根据所述拷贝任务表采用多线程方式将所述原集群中所述任务完成状态为未读取的待拷贝文件读进中间服务器;
根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群,并更新所述拷贝任务表中任务完成状态。
2.根据权利要求1所述的分布式文件系统文件的拷贝方法,其特征在于,根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务前,所述方法还包括对所述文件拷贝请求进行校验的过程,包括:
对所述文件拷贝请求进行解析,获取所述文件拷贝请求中的所述待拷贝文件所在的原集群信息以及目标集群信息;
根据所述原集群信息校验所述原集群是否在预先生成的网络白名单上,以及根据所述目标集群信息校验所述目标集群是否在所述网络白名单上。
3.根据权利要求1或2所述的分布式文件系统文件的拷贝方法,其特征在于,所述根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群包括:
获取所述待拷贝文件的覆盖方式,采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件按照所述覆盖方式复制到所述目标集群。
4.根据权利要求1或2所述的分布式文件系统文件的拷贝方法,其特征在于,所述方法还包括:
按照设定时间定时查询所述拷贝任务表中所述拷贝任务对应的任务完成状态,若所述任务完成状态为未完成,则继续将所述拷贝任务对应的待拷贝文件从所述中间服务器上复制到所述目标集群。
5.根据权利要求1或2所述的分布式文件系统文件的拷贝方法,其特征在于,根据所述拷贝任务表采用多线程方式将所述原集群中的所述待拷贝文件读进中间服务器前,所述方法还包括:
根据所述待拷贝文件的数量设置线程的数量以及设置单个线程最大文件拷贝数。
6.一种分布式文件系统文件的拷贝装置,其特征在于,所述装置包括:
任务生成模块,用于根据接收到的跨网络的文件拷贝请求生成对应的拷贝任务,并记录至拷贝任务表中,所述文件拷贝请求包括待拷贝文件信息、所述待拷贝文件所在的原集群信息以及目标集群信息,所述任务表包括所述拷贝任务对应的任务完成状态;
文件读取模块,用于根据所述拷贝任务表采用多线程方式将所述原集群中所述任务完成状态为未读取的待拷贝文件读进中间服务器;
文件复制模块,用于根据所述拷贝任务表采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件复制到所述目标集群;
状态更新模块,用于更新所述拷贝任务表中的任务完成状态。
7.根据权利要求6所述的分布式文件系统文件的拷贝装置,其特征在于,所述装置还包括:
数据校验模块,用于对所述文件拷贝请求进行校验;
所述数据校验模块包括:
数据解析单元,用于对所述文件拷贝请求进行解析,获取所述文件拷贝请求中的所述待拷贝文件所在的原集群信息以及目标集群信息;
信息校验单元,用于根据所述原集群信息校验所述原集群是否在预先生成的网络白名单上,以及根据所述目标集群信息校验所述目标集群是否在所述网络白名单上。
8.根据权利要求6或7所述的分布式文件系统文件的拷贝装置,其特征在于,所述文件复制模块包括:
覆盖方式获取单元,用于获取所述待拷贝文件的覆盖方式;
文件复制单元,用于采用异步方式将所述中间服务器上所述任务完成状态为未完成的待拷贝文件按照所述覆盖方式复制到所述目标集群。
9.根据权利要求6或7所述的分布式文件系统文件的拷贝装置,其特征在于,所述装置还包括:
定时查询模块,用于按照设定时间定时查询所述拷贝任务表中任务对应的任务完成状态;
所述文件复制模块还用于若所述任务完成状态为未完成,则继续将所述任务对应的所述中间服务器上的所述待拷贝文件复制到所述目标集群。
10.根据权利要求6或7所述的分布式文件系统文件的拷贝装置,其特征在于,所述装置还包括:
线程设置模块,用于根据所述待拷贝文件的数量设置线程的数量以及设置单个线程最大文件拷贝数。
CN201910966568.1A 2019-10-11 2019-10-11 一种分布式文件系统文件的拷贝方法及装置 Active CN110851417B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910966568.1A CN110851417B (zh) 2019-10-11 2019-10-11 一种分布式文件系统文件的拷贝方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910966568.1A CN110851417B (zh) 2019-10-11 2019-10-11 一种分布式文件系统文件的拷贝方法及装置

Publications (2)

Publication Number Publication Date
CN110851417A CN110851417A (zh) 2020-02-28
CN110851417B true CN110851417B (zh) 2022-11-29

Family

ID=69597071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910966568.1A Active CN110851417B (zh) 2019-10-11 2019-10-11 一种分布式文件系统文件的拷贝方法及装置

Country Status (1)

Country Link
CN (1) CN110851417B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
US20170315968A1 (en) * 2016-04-27 2017-11-02 Melissa Boucher Unified document surface

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103761162A (zh) * 2014-01-11 2014-04-30 深圳清华大学研究院 分布式文件系统的数据备份方法
US20170315968A1 (en) * 2016-04-27 2017-11-02 Melissa Boucher Unified document surface

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Distribution System of Document Medium with Copyright Protection;Kazuya Odagiri等;《2009 10th ACIS International Conference on Software Engineering, Artificial Intelligences, Networking and Parallel/Distributed Computing》;20091013;第207-212页 *
面向大数据分析的分布式文件系统关键技术;周江;《计算机研究与发展》;20140215;第382-394页 *

Also Published As

Publication number Publication date
CN110851417A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
EP3127018B1 (en) Geographically-distributed file system using coordinated namespace replication
CN110825420B (zh) 分布式集群的配置参数更新方法、装置、设备及存储介质
US20140129624A1 (en) Bt offline data download system and method, and computer storage medium
CN105700939A (zh) 一种分布式系统中多线程同步的方法和系统
WO2019237797A1 (zh) 数据备份的方法和装置
CN112654978B (zh) 分布式异构存储系统中数据一致性实时检查的方法、设备和系统
IL134681A (en) External job scheduling within a distributed processing system having a local job control system
CN109144785B (zh) 用于备份数据的方法和装置
CN109032796B (zh) 一种数据处理方法和装置
US20120066287A1 (en) Mobile application deployment for distributed computing environments
CN110569085A (zh) 配置文件加载方法及系统
CN110099084B (zh) 一种保证存储服务可用性的方法、系统及计算机可读介质
CN110022338B (zh) 文件读取方法、系统、元数据服务器和用户设备
CN111104387A (zh) 在服务器上获取数据集的方法和装置
KR20100067976A (ko) 분산 저장된 컨텐츠 파일의 동기화 방법
CN112910937B (zh) 容器集群中的对象调度方法、装置、服务器和容器集群
EP2513786A1 (en) A method of updating versioned software using a shared cache
US20240054054A1 (en) Data Backup Method and System, and Related Device
CN110851417B (zh) 一种分布式文件系统文件的拷贝方法及装置
EP4162649B1 (en) Stable references for network function life cycle management automation
CN113596087A (zh) 应用升级方法、装置及计算机可读存储介质
CN111147226A (zh) 数据存储方法、装置及存储介质
CN105760215A (zh) 基于映射规约模型分布式文件系统作业的运行方法
CN114564211A (zh) 集群部署方法、集群部署装置、设备及介质
CN111522688B (zh) 分布式系统的数据备份方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee after: Jiangsu Suning cloud computing Co.,Ltd.

Country or region after: China

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee before: Suning Cloud Computing Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240417

Address after: 210000, 1-5 story, Jinshan building, 8 Shanxi Road, Nanjing, Jiangsu.

Patentee after: SUNING.COM Co.,Ltd.

Country or region after: China

Address before: No.1-1 Suning Avenue, Xuzhuang Software Park, Xuanwu District, Nanjing, Jiangsu Province, 210000

Patentee before: Jiangsu Suning cloud computing Co.,Ltd.

Country or region before: China