CN107682399B - 一种基于大数据的文件夹断点续传方法 - Google Patents

一种基于大数据的文件夹断点续传方法 Download PDF

Info

Publication number
CN107682399B
CN107682399B CN201710753611.7A CN201710753611A CN107682399B CN 107682399 B CN107682399 B CN 107682399B CN 201710753611 A CN201710753611 A CN 201710753611A CN 107682399 B CN107682399 B CN 107682399B
Authority
CN
China
Prior art keywords
folder
uploaded
file
namenode server
uploading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710753611.7A
Other languages
English (en)
Other versions
CN107682399A (zh
Inventor
孟祥杰
田斌
张利
易锦
刘照辉
胡卫华
梁杰
姚原岗
偰赓
刘遥
张鹏
罗鹰
侯勇军
钟峰
田红伟
陈伟清
刘智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Colasoft Co ltd
China Information Technology Security Evaluation Center
Original Assignee
Colasoft Co ltd
China Information Technology Security Evaluation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Colasoft Co ltd, China Information Technology Security Evaluation Center filed Critical Colasoft Co ltd
Priority to CN201710753611.7A priority Critical patent/CN107682399B/zh
Publication of CN107682399A publication Critical patent/CN107682399A/zh
Application granted granted Critical
Publication of CN107682399B publication Critical patent/CN107682399B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于大数据的文件夹断点续传方法,其特征在于,包括以下步骤:步骤1:客服端选择待上传文件夹,并向NameNode服务器发送文件上传请求;步骤2:NameNode服务器解析并获取待上传文件夹的协议头信息,同时根据获取的协议头信息生成该待上传文件夹的数据信息等步骤。本发明将生成的待上传文件夹的数据信息存入NameNode服务器的内存数据库中,从而对NameNode服务器进行改造,使服务器支持文件夹的断点续传;当文件夹在上传的过程中其内部的文件出现上传失败时,下一次上传则可以从断点位置开始将剩余未上传的文件进行上传,而无需从头开始重新上传文件夹,因此其极大的提高了文件夹的上传效率。

Description

一种基于大数据的文件夹断点续传方法
技术领域
本发明涉及计算机网络技术领域,具体涉及一种基于大数据的文件夹断点续传方法。
背景技术
在当今大数据时代下,各行各业都在使用大数据技术,每天可能有大量的文件夹或文件需要上传到大数据平台,所以大数据文件夹或文件的上传技术也成为大数据不可或缺的技术。大数据是一种以集群模式的方式运作,集群之间数据交互都是通过网络传输,所以网络的稳定性直接影响大数据可用性。随着上传的文件夹或文件越来越多,数据量越来越大,上传花费的时间也越来越多,文件夹上传的效率也显得越来越重要。为了提高大数据文件夹的上传效率,提供一种基于大数据的文件夹断点续传方法则显得尤为重要。
发明内容
本发明的目的在于克服文件夹在上传失败后,需从头开始重新上传文件夹,严重影响上传效率的缺陷,提供一种基于大数据的文件夹断点续传方法。
本发明的目的通过下述技术方案现实:一种基于大数据的文件夹断点续传方法,包括以下步骤:
步骤1:客服端选择待上传文件夹,并向NameNode服务器发送文件上传请求;
步骤2:NameNode服务器解析并获取待上传文件夹的协议头信息,同时根据获取的协议头信息生成该待上传文件夹的数据信息;
步骤3:NameNode服务器根据生成的数据信息,查询内存数据库中是否存在相同的信息记录;是,NameNode服务器从内存数据库中获取该待上传文件夹上一次传输的记录信息,并执行步骤5;否,执行步骤4;
步骤4:NameNode服务器将步骤2中生成的该待上传文件夹的数据信息存入内存数据库中,并且返回上传指令给客服端,客服端开始将文件夹中的文件上传到NameNode服务器的临时目录中,执行步骤6;
步骤5:NameNode服务器根据该待上传文件夹上一次传输的记录信息返回上传指令给客服端,客服端根据上传指令将文件夹中剩余未上传的文件上传到NameNode服务器的临时目录中,执行步骤6;
步骤6:文件成功上传到NameNode服务器的临时目录后,NameNode服务器再将该文件上传到大数据平台,同时删除内存数据库里的相应文件记录数据和临时目录中相应的文件,结束上传;当文件没有成功上传到NameNode服务器的临时目录时,则返回步骤1。
进一步的,所述步骤2中NameNode服务器生成的数据信息包括:文件夹dir_id、文件夹名称、文件id、文件名称、文件路径path、文件上传的断点位置offset、是否成功上传的标识以及文件长度的数据信息。
所述步骤3中NameNode服务器根据生成的文件夹dir_id,查询内存数据库中是否存在该文件夹dir_id的信息记录。
所述步骤3中NameNode服务器获取该待上传文件夹上一次传输的记录信息包括:文件夹dir_id、文件id、文件上传的断点位置offset、是否成功上传的标识以及文件长度。
所述步骤6中NameNode服务器通过大数据DFSOutputStream接口将成功上传到临时目录上的文件上传到大数据平台。
本发明与现有技术相比具有以下优点及有益效果:本发明将生成的待上传文件夹的数据信息存入NameNode服务器的内存数据库中,从而对NameNode服务器进行改造,使服务器支持文件夹的断点续传;当文件夹在上传的过程中其内部的文件出现上传失败时,下一次上传则可以从断点位置开始将剩余未上传的文件进行上传,而无需从头开始重新上传文件夹,因此其极大的提高了文件夹的上传效率。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式并不限于此。
实施例
本发明公开的基于大数据的文件夹断点续传方法,包括以下步骤:
首先,用户从客服端选择需要上传到大数据平台的文件夹,并向NameNode服务器发送文件上传请求。NameNode服务器响应客服端的上传请求,且解析并获取待上传文件夹的协议头信息,同时,NameNode服务器根据获取的协议头信息生成该待上传文件夹的文件夹dir_id、文件夹名称、文件id、文件名称、文件路径path、文件上传的断点位置offset、是否成功上传的标识以及文件长度的数据信息;该文件夹dir_id不文件夹id,是文件夹的唯一身份。
其次,NameNode服务器根据生成的文件夹dir_id,查询其内存数据库中是否存在该文件夹dir_id的信息记录。
如果内存数据库中存在该文件夹dir_id的信息记录,则说明该待上传文件夹在之前已被上传过,并且在上传的过程中被中断,即上传失败;此时NameNode服务器从其内存数据库中获取该待上传文件夹上一次传输失败时的文件夹dir_id、文件id、文件上传的断点位置offset、是否成功上传的标识以及文件长度的数据信息,并根据获取到的数据信息向客服端返回相应的上传指令,而客服端则根据返回的上传指令从断点位置开始,将文件夹中剩余未上传的文件上传到NameNode服务器的临时目录中。因此,本发明无需从头开始重新上传文件夹,从而极大的提高了文件夹的上传效率。
如果内存数据库中不存在该文件夹dir_id的信息记录,则说明该待上传文件夹是首次上传;此时NameNode服务器则将生成的该待上传文件夹的文件夹dir_id、文件夹名称、文件id、文件名称、文件路径path、文件上传的断点位置offset、是否成功上传的标识以及文件长度的数据信息存入其内存数据库中,并且返回上传指令给客服端,客服端根据上传指令将该待上传文件夹中的文件重头开始上传到NameNode服务器的临时目录中。
最后,当文件成功上传到NameNode服务器的临时目录后,即NameNode服务器检测到文件成功上传到其临时目录后,该NameNode服务器将其内存数据库中相应文件的上传状态更新为上传成功,并且NameNode服务器通过大数据DFSOutputStream接口将成功上传到临时目录上的文件上传到大数据平台,同时删除内存数据库中该文件的记录数据和临时目录中相应的文件,结束上传。
当文件没有成功上传到NameNode服务器的临时目录时,即NameNode服务器检测到文件没有成功上传到其临时目录时,NameNode服务器将其内存数据库中该没有上传成功的文件的上传状态更新为上传失败,而内存数据库里的相应文件记录数据和临时目录中相应的文件则不会删除,此时客服端则重新向NameNode服务器发送文件上传请求,对剩余未上传成功的文件进行重新上传,即返回上述步骤。
如上所述,便可很好的实现本发明。

Claims (5)

1.一种基于大数据的文件夹断点续传方法,其特征在于,包括以下步骤:
步骤1:客服端选择待上传文件夹,并向NameNode服务器发送文件上传请求;
步骤2:NameNode服务器解析并获取待上传文件夹的协议头信息,同时根据获取的协议头信息生成该待上传文件夹的数据信息;
步骤3:NameNode服务器根据生成的数据信息,查询内存数据库中是否存在相同的信息记录;是,NameNode服务器从内存数据库中获取该待上传文件夹上一次传输的记录信息,并执行步骤5;否,执行步骤4;
步骤4:NameNode服务器将步骤2中生成的该待上传文件夹的数据信息存入内存数据库中,并且返回上传指令给客服端,客服端开始将文件夹中的文件上传到NameNode服务器的临时目录中,执行步骤6;
步骤5:NameNode服务器根据该待上传文件夹上一次传输的记录信息返回上传指令给客服端,客服端根据上传指令将文件夹中剩余未上传的文件上传到NameNode服务器的临时目录中,执行步骤6;
步骤6:文件成功上传到NameNode服务器的临时目录后,NameNode服务器再将该文件上传到大数据平台,同时删除内存数据库里的相应文件记录数据和临时目录中相应的文件,结束上传;当文件没有成功上传到NameNode服务器的临时目录时,则返回步骤1。
2.根据权利要求1所述的一种基于大数据的文件夹断点续传方法,其特征在于,所述步骤2中NameNode服务器生成的数据信息包括:文件夹dir_id、文件夹名称、文件id、文件名称、文件路径path、文件上传的断点位置offset、是否成功上传的标识以及文件长度的数据信息。
3.根据权利要求2所述的一种基于大数据的文件夹断点续传方法,其特征在于,所述步骤3中NameNode服务器根据生成的文件夹dir_id,查询内存数据库中是否存在该文件夹dir_id的信息记录。
4.根据权利要求3所述的一种基于大数据的文件夹断点续传方法,其特征在于,所述步骤3中NameNode服务器获取该待上传文件夹上一次传输的记录信息包括:文件夹dir_id、文件id、文件上传的断点位置offset、是否成功上传的标识以及文件长度。
5.根据权利要求1所述的一种基于大数据的文件夹断点续传方法,其特征在于,所述步骤6中NameNode服务器通过大数据DFSOutputStream接口将成功上传到临时目录上的文件上传到大数据平台。
CN201710753611.7A 2017-08-29 2017-08-29 一种基于大数据的文件夹断点续传方法 Active CN107682399B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710753611.7A CN107682399B (zh) 2017-08-29 2017-08-29 一种基于大数据的文件夹断点续传方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710753611.7A CN107682399B (zh) 2017-08-29 2017-08-29 一种基于大数据的文件夹断点续传方法

Publications (2)

Publication Number Publication Date
CN107682399A CN107682399A (zh) 2018-02-09
CN107682399B true CN107682399B (zh) 2020-07-14

Family

ID=61135292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710753611.7A Active CN107682399B (zh) 2017-08-29 2017-08-29 一种基于大数据的文件夹断点续传方法

Country Status (1)

Country Link
CN (1) CN107682399B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920487B (zh) * 2018-05-04 2022-04-26 天津猎鹰网络技术有限公司 数据上传的方法和装置
CN114647620A (zh) * 2018-09-10 2022-06-21 创新先进技术有限公司 文件上传方法、装置、设备、程序产品及存储介质
CN110046189A (zh) * 2019-03-28 2019-07-23 阿里巴巴集团控股有限公司 数据传输方法及其装置
CN112769906A (zh) * 2020-12-25 2021-05-07 三盟科技股份有限公司 一种文件断点上传方法、系统、计算机设备及存储介质
CN113515573B (zh) * 2021-05-08 2023-01-17 上海英方软件股份有限公司 一种oracle数据库一对多协商复制断点的方法及系统
CN113179326A (zh) * 2021-05-12 2021-07-27 山东志盈医学科技有限公司 会诊平台中数字切片的动态分片上传方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102137031A (zh) * 2010-01-21 2011-07-27 腾讯科技(深圳)有限公司 一种传输文件夹的方法和设备
CN103401914A (zh) * 2013-07-26 2013-11-20 浪潮电子信息产业股份有限公司 一种文件上传断点续传的方法
CN103530387A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种hdfs针对小文件的改进方法
CN105338090A (zh) * 2015-11-12 2016-02-17 浪潮软件集团有限公司 一种基于WebSocket的断点续传方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102137031A (zh) * 2010-01-21 2011-07-27 腾讯科技(深圳)有限公司 一种传输文件夹的方法和设备
CN103401914A (zh) * 2013-07-26 2013-11-20 浪潮电子信息产业股份有限公司 一种文件上传断点续传的方法
CN103530387A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种hdfs针对小文件的改进方法
CN105338090A (zh) * 2015-11-12 2016-02-17 浪潮软件集团有限公司 一种基于WebSocket的断点续传方法及装置

Also Published As

Publication number Publication date
CN107682399A (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN107682399B (zh) 一种基于大数据的文件夹断点续传方法
CN110532247B (zh) 数据迁移方法和数据迁移系统
CN104951474B (zh) 一种用于获取MySQL binlog增量日志的方法和装置
WO2017162032A1 (zh) 执行数据恢复操作的方法及装置
CN105718484A (zh) 写文件、读文件、删除文件、查询文件的方法及客户端
CN101217571A (zh) 用于多副本数据网格系统中的写/读文件操作的方法
BR112014000597B1 (pt) Método e sistema para download de arquivo multimídia
CN102546836A (zh) 一种上传文件的方法、终端、服务器及系统
CN109446160A (zh) 一种文件读取方法、系统、装置及计算机可读存储介质
CN109145163B (zh) 区块链数据缩容方法、装置及存储介质
CN103152423A (zh) 一种云存储系统及其数据存取方法
CN104935668A (zh) 分布式文件系统及其数据同步的方法
CN107689976B (zh) 一种文件传输方法及装置
CN110311953B (zh) 一种媒体资料上传与存储系统及方法
CN102664950B (zh) 一种焊接电源与计算机之间进行数据通信的方法
WO2015157904A1 (zh) 一种文件同步方法、服务器及终端
CA3131954C (en) Information synchronization method, system, apparatus, computer device and storage medium
CN104144150A (zh) 利用元数据访问信息的方法、装置和系统
CN103731507A (zh) 一种分布式数据存储设备处理数据的方法及装置
CN109189992A (zh) 一种用于云监控系统中的视频时间检索方法
CN105450682A (zh) 一种用于数据同步保存、向客户端同步数据的方法、装置和系统
CN102594874B (zh) 一种同步处理方法和装置
CN111523151A (zh) 一种基于区块链技术来保存电子数据的方法及其系统
CN108900337B (zh) 一种元数据服务的故障恢复方法、服务器、客户端及系统
CN107105037B (zh) 一种基于文件校验的分布式视频cdn资源管理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant