CN105357280B - 一种基于hdfs的文件溯源ftp系统 - Google Patents

一种基于hdfs的文件溯源ftp系统 Download PDF

Info

Publication number
CN105357280B
CN105357280B CN201510678714.2A CN201510678714A CN105357280B CN 105357280 B CN105357280 B CN 105357280B CN 201510678714 A CN201510678714 A CN 201510678714A CN 105357280 B CN105357280 B CN 105357280B
Authority
CN
China
Prior art keywords
file
hdfs
upload
history
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510678714.2A
Other languages
English (en)
Other versions
CN105357280A (zh
Inventor
张强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FUJIAN NEW LAND SOFTWARE ENGINEERING Co Ltd
Original Assignee
FUJIAN NEW LAND SOFTWARE ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FUJIAN NEW LAND SOFTWARE ENGINEERING Co Ltd filed Critical FUJIAN NEW LAND SOFTWARE ENGINEERING Co Ltd
Priority to CN201510678714.2A priority Critical patent/CN105357280B/zh
Publication of CN105357280A publication Critical patent/CN105357280A/zh
Application granted granted Critical
Publication of CN105357280B publication Critical patent/CN105357280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于HDFS的文件溯源FTP系统,包括FTP服务端从客户端接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块上传客户端发送的文件,每一线程对应一文件;上传文件模块上传文件到HDFS文件系统,所述上传文件模块确定文件已上传到HDFS文件系统后将调用历史记录模块;历史记录模块从文件流池中获取空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;文件流池,存储多个文件流的介质,每一文件流管理一个历史记录文件;HDFS文件系统,存储被上传文件的文件系统。应用FTP服务端往HDFS文件系统上传文件时可以在所述的历史记录文件中记录文件上传信息,便于后期维护时查看、溯源。

Description

一种基于HDFS的文件溯源FTP系统
技术领域
本发明涉及分布式文件系统,尤其涉及一种基于HDFS的文件溯源FTP系统。
背景技术
移动互联网时代,移动通信行业的用户行为数据量激增,数据分析领域采用先进的大数据技术进行数据分析和数据访问工作。
Hadoop分布式文件系统被设计成适合运行在通用硬件上的分布式文件系统,它和现有的分布式文件系统有很多共同点。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
HDFS-OVER-FTP是一个开源的,简单易用的实现了对HDFS文件系统的上传和下载的FTP服务器。但是现有技术中对上传文件没有历史记录,不便于后期维护查看。
发明内容
本发明要解决的技术问题,在于提供一种基于HDFS的文件溯源FTP系统,解决了现有技术中往HDFS文件系统上传文件后,后期无法维护和查看,无法进行溯源的问题。
本发明是这样实现的:一种基于HDFS的文件溯源FTP系统,包括FTP服务端、上传文件模块、历史记录模块、HDFS文件系统以及文件流池;FTP服务端从客户端接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块上传客户端发送的文件,每一线程对应一文件;上传文件模块上传文件到HDFS文件系统,所述上传文件模块确定文件已上传到HDFS文件系统后将调用历史记录模块;历史记录模块从文件流池中获取空闲的文件流,如果暂时没有空闲的文件流,则等待一段时间再去获取,直至获得空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;文件流池,存储多个文件流的介质,所述每一文件流管理一个历史记录文件;所述历史记录文件的文件名可配置,通过在配置文件hdfs-over-ftp.properties中提供log_prefix-record_operations_put配置项来让用户自定义历史记录文件的文件名主体部分;HDFS文件系统,存储被上传文件的文件系统。
其中,若所述上传文件模块上传文件到HDFS文件系统失败,则返回错误信息至客户端,客户端重新发起上传文件请求。
其中,若所述上传文件模块上传文件到HDFS文件系统成功,则返回成功信息至客户系统。
其中,所述的上传信息包括所上传文件的文件名、开始上传时间、结束上传时间、上传成功与否标识。
其中,所述历史记录文件中所记录的各上传信息之间用符号间隔。
其中,所述文件流池为物理硬盘。
其中,所述文件流池的文件流数量可配置。
本发明的优点在于:
其一、应用所述的FTP服务端,往HDFS文件系统上传文件时可以在所述的历史记录文件中记录文件上传信息,便于后期维护时查看、溯源。
其二、所述的基于HDFS的文件溯源FTP系统实现并发的文件上传、下载功能,并发的记录上传信息,工作效率高,实时性好。
附图说明
图1为本发明的一种基于HDFS的文件溯源FTP系统的结构示意图。
标号说明:
客户端-100 FTP服务端-200 上传文件模块-300
历史记录模块-400 文件流池-500
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
HDFS-OVER-FTP是一个开源的,简单易用的实现了对HDFS文件系统的上传和下载的FTP服务端200。本发明应用所述的FTP服务端200实现文件的上传、下载和溯源等功能,本发明公开一种基于HDFS的文件溯源FTP系统,具体的包括:FTP服务端200、上传文件模块300、历史记录模块400、HDFS文件系统以及文件流池500;FTP服务端200从客户端100接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块300上传客户端100发送的文件,每一线程对应一文件;上传文件模块300上传文件到HDFS文件系统,所述上传文件模块300确定文件已上传到HDFS文件系统后将调用历史记录模块;历史记录模块从文件流池500中获取空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;文件流池500,存储多个文件流的介质,所述每一文件流管理一个历史记录文件;HDFS文件系统,存储被上传文件的文件系统。
参阅图1所示,多个客户端100同时上传文件,FTP服务端200接收到多个上传文件的请求,然后发起多个线程并发的处理,每个线程对应一个文件,每个线程通过调用上传文件模块300来上传文件,上传文件模块300负责把文件上传到HDFS文件系统中。若上传文件成功,则此线程会调用历史记录模块,历史记录模块从文件流池500里去获得一个空闲的文件流,如果暂时没有空闲的文件流,则等待一段时间再去获取,直至获得空闲的文件流,通过这个文件流向对应的历史记录文件中写入上传信息,所述的文件流池500中的文件流主要用于解决多线程高并发的上传文件时历史记录模块可能会带来的性能问题,以此通过所述的文件流管理历史记录文件保障系统稳定运行。在各种实施方式中,所述的上传信息包括所上传文件的文件名、开始上传时间、结束上传时间、上传成功与否标识等,调用所述的上传信息即可对所述的文件进行溯源,所述上传信息不仅仅局限于本例所列的类型,所述上传信息可依据使用者的需求设定类别。在又一优选的实施方式中,为了能够清楚的区分各个上传信息,所述的上传信息之间用符号间隔,所述的符号可以为分隔符、逗号、加号、斜线等各种能够表征区别的符号。
上述实施方式的一种改进方式中,若所述上传文件模块300上传文件到HDFS文件系统失败,则返回错误信息至客户端100,客户端100重新发起上传文件请求。通过该方式能够保证所有文件都上传至所述的HDFS文件系统。
上述实施方式的一种改进方式中,若所述上传文件模块300上传文件到HDFS文件系统成功,则返回成功信息至客户端100。该方式便于客户端100能够对上传成功的文件进行统计,并可应用于后期的跟踪、溯源。
上述实施方式中,所述的文件流池500优选的采用物理硬盘,文件流池里面存储了多个文件流,文件流连接到物理硬盘上的一个物理文件,文件流可以对这个物理文件进行读写操作,即每个文件流对应到物理硬盘上的一个历史记录文件通过文件流可以读写所述的历史记录文件,所述历史记录文件的文件名可配置,本发明可以通过在配置文件hdfs-over-ftp.properties中提供log_prefix-record_operations_put配置项来让用户自定义历史记录文件的文件名主体部分,文件名主体部分+当前日期+.log构成完整的文件名。在又一优选的实施方式中,在配置文件hdfs-over-ftp.properties中提供了log_max_os配置项来让用户自定义文件流池500中缓存的文件流的数量,达到文件流池500中的文件流数量可配置的目的,并且文件流可以根据自定制的时间来切换到新的物理文件。
上所述仅为本发明一种基于HDFS的文件溯源FTP系统的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于HDFS的文件溯源FTP系统,其特征在于:包括FTP服务端、上传文件模块、历史记录模块、HDFS文件系统以及文件流池;
FTP服务端从客户端接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块上传客户端发送的文件,每一线程对应一文件;
上传文件模块上传文件到HDFS文件系统,所述上传文件模块确定文件已上传到HDFS文件系统后将调用历史记录模块;
历史记录模块从文件流池中获取空闲的文件流,如果暂时没有空闲的文件流,则等待一段时间再去获取,直至获得空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;
文件流池,存储多个文件流的介质,每一文件流管理一个历史记录文件;
所述历史记录文件的文件名可配置,通过在配置文件hdfs-over-ftp.properties中提供log_prefix-record_operations_put配置项来让用户自定义历史记录文件的文件名主体部分;
HDFS文件系统,存储被上传文件的文件系统。
2.根据权利要求1所述的一种基于HDFS的文件溯源FTP系统,其特征在于:若所述上传文件模块上传文件到HDFS文件系统失败,则返回错误信息至客户端,客户端重新发起上传文件请求。
3.根据权利要求2所述的一种基于HDFS的文件溯源FTP系统,其特征在于:若所述上传文件模块上传文件到HDFS文件系统成功,则返回成功信息至客户系统。
4.根据权利要求3所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述的上传信息包括所上传文件的文件名、开始上传时间、结束上传时间、上传成功与否标识。
5.根据权利要求4所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述历史记录文件中所记录的各上传信息之间用符号间隔。
6.根据权利要求1所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述文件流池为物理硬盘。
7.根据权利要求6所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述文件流池的文件流数量可配置。
CN201510678714.2A 2015-10-19 2015-10-19 一种基于hdfs的文件溯源ftp系统 Active CN105357280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510678714.2A CN105357280B (zh) 2015-10-19 2015-10-19 一种基于hdfs的文件溯源ftp系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510678714.2A CN105357280B (zh) 2015-10-19 2015-10-19 一种基于hdfs的文件溯源ftp系统

Publications (2)

Publication Number Publication Date
CN105357280A CN105357280A (zh) 2016-02-24
CN105357280B true CN105357280B (zh) 2019-02-19

Family

ID=55333139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510678714.2A Active CN105357280B (zh) 2015-10-19 2015-10-19 一种基于hdfs的文件溯源ftp系统

Country Status (1)

Country Link
CN (1) CN105357280B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912677A (zh) * 2016-04-13 2016-08-31 北京思特奇信息技术股份有限公司 一种基于oozie实现ftp与hdfs互传文件的方法和系统
CN106789324B (zh) * 2017-01-09 2024-03-22 上海轻维软件有限公司 基于MapReduce的FTP分布式采集方法
CN108023953B (zh) * 2017-12-04 2021-07-09 北京星选科技有限公司 Ftp服务的高可用实现方法和装置
CN110309257B (zh) * 2018-03-14 2021-04-16 杭州海康威视数字技术股份有限公司 一种文件读写打开方法及装置
CN110597764B (zh) * 2019-10-10 2024-05-07 深圳前海微众银行股份有限公司 一种文件下载、版本管理方法及装置
CN113722084A (zh) * 2020-05-25 2021-11-30 中移(苏州)软件技术有限公司 数据处理方法、装置、电子设备和计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
CN104408047A (zh) * 2014-10-28 2015-03-11 浪潮电子信息产业股份有限公司 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
CN104408047A (zh) * 2014-10-28 2015-03-11 浪潮电子信息产业股份有限公司 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法

Also Published As

Publication number Publication date
CN105357280A (zh) 2016-02-24

Similar Documents

Publication Publication Date Title
CN105357280B (zh) 一种基于hdfs的文件溯源ftp系统
US10803016B2 (en) Predictive models of file access patterns by application and file type
US11941017B2 (en) Event driven extract, transform, load (ETL) processing
US10069916B2 (en) System and method for transparent context aware filtering of data requests
US10122783B2 (en) Dynamic data-ingestion pipeline
CN111737127B (zh) 用于测试地图服务的方法和装置
US20150120648A1 (en) Context-aware augmented media
CN103118138B (zh) 一种基于云服务的消息队列流处理方法
Guazzelli et al. PMML in action: unleashing the power of open standards for data mining and predictive analytics
CN104036025A (zh) 一种基于分布式的海量日志采集系统
CN110019267A (zh) 一种元数据更新方法、装置、系统、电子设备及存储介质
CN102184177A (zh) 一种预览文件的方法与系统
CN103648019A (zh) 一种基于hls协议的视频下载方法及其装置
CN104699723A (zh) 数据交换适配器、异构系统之间数据同步系统和方法
CN108228322B (zh) 一种分布式链路跟踪、分析方法及服务器、全局调度器
CN105447146A (zh) 一种海量数据的收集与交换系统及方法
CN104021088A (zh) 日志存储方法和装置
CN104504010A (zh) 一种多对多的数据采集系统及其采集方法
CN105426125B (zh) 一种数据存储方法及装置
US10909205B2 (en) System and method for web-session recording
Li et al. Characterizing service providers traffic of mobile internet services in cellular data network
JP5490325B2 (ja) 自律的なインテリジェント・コンテンツ項目
CN101901273B (zh) 一种基于内存磁盘的高性能存储方法及其装置
CN109040640A (zh) 一种分布式视频存储回放系统
CN105897566A (zh) 网络课程的用户获取方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant