CN105357280A - 一种基于hdfs的文件溯源ftp系统 - Google Patents
一种基于hdfs的文件溯源ftp系统 Download PDFInfo
- Publication number
- CN105357280A CN105357280A CN201510678714.2A CN201510678714A CN105357280A CN 105357280 A CN105357280 A CN 105357280A CN 201510678714 A CN201510678714 A CN 201510678714A CN 105357280 A CN105357280 A CN 105357280A
- Authority
- CN
- China
- Prior art keywords
- file
- hdfs
- upload
- module
- document flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种基于HDFS的文件溯源FTP系统,包括FTP服务端从客户端接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块上传客户端发送的文件,每一线程对应一文件;上传文件模块上传文件到HDFS文件系统,所述上传文件模块确定文件已上传到HDFS文件系统后将调用历史记录模块;历史记录模块从文件流池中获取空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;文件流池,存储多个文件流的介质,每一文件流管理一个历史记录文件;HDFS文件系统,存储被上传文件的文件系统。应用FTP服务端往HDFS文件系统上传文件时可以在所述的历史记录文件中记录文件上传信息,便于后期维护时查看、溯源。
Description
技术领域
本发明涉及分布式文件系统,尤其涉及一种基于HDFS的文件溯源FTP系统。
背景技术
移动互联网时代,移动通信行业的用户行为数据量激增,数据分析领域采用先进的大数据技术进行数据分析和数据访问工作。
Hadoop分布式文件系统被设计成适合运行在通用硬件上的分布式文件系统,它和现有的分布式文件系统有很多共同点。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
HDFS-OVER-FTP是一个开源的,简单易用的实现了对HDFS文件系统的上传和下载的FTP服务器。但是现有技术中对上传文件没有历史记录,不便于后期维护查看。
发明内容
本发明要解决的技术问题,在于提供一种基于HDFS的文件溯源FTP系统,解决了现有技术中往HDFS文件系统上传文件后,后期无法维护和查看,无法进行溯源的问题。
本发明是这样实现的:一种基于HDFS的文件溯源FTP系统,包括FTP服务端、上传文件模块、历史记录模块、HDFS文件系统以及文件流池;FTP服务端从客户端接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块上传客户端发送的文件,每一线程对应一文件;上传文件模块上传文件到HDFS文件系统,所述上传文件模块确定文件已上传到HDFS文件系统后将调用历史记录模块;历史记录模块从文件流池中获取空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;文件流池,存储多个文件流的介质,所述每一文件流管理一个历史记录文件;HDFS文件系统,存储被上传文件的文件系统。
其中,若所述上传文件模块上传文件到HDFS文件系统失败,则返回错误信息至客户端,客户端重新发起上传文件请求。
其中,若所述上传文件模块上传文件到HDFS文件系统成功,则返回成功信息至客户系统。
其中,所述的上传信息包括所上传文件的文件名、开始上传时间、结束上传时间、上传成功与否标识。
其中,所述历史记录文件中所记录的各上传信息之间用符号间隔。
其中,所述文件流池为物理硬盘。
其中,所述文件流池的文件流数量可配置。
本发明的优点在于:
其一、应用所述的FTP服务端,往HDFS文件系统上传文件时可以在所述的历史记录文件中记录文件上传信息,便于后期维护时查看、溯源。
其二、所述的基于HDFS的文件溯源FTP系统实现并发的文件上传、下载功能,并发的记录上传信息,工作效率高,实时性好。
附图说明
图1为本发明的一种基于HDFS的文件溯源FTP系统的结构示意图。
标号说明:
客户端-100FTP服务端-200上传文件模块-300
历史记录模块-400文件流池-500
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
HDFS-OVER-FTP是一个开源的,简单易用的实现了对HDFS文件系统的上传和下载的FTP服务端200。本发明应用所述的FTP服务端200实现文件的上传、下载和溯源等功能,本发明公开一种基于HDFS的文件溯源FTP系统,具体的包括:FTP服务端200、上传文件模块300、历史记录模块400、HDFS文件系统以及文件流池500;FTP服务端200从客户端100接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块300上传客户端100发送的文件,每一线程对应一文件;上传文件模块300上传文件到HDFS文件系统,所述上传文件模块300确定文件已上传到HDFS文件系统后将调用历史记录模块;历史记录模块从文件流池500中获取空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;文件流池500,存储多个文件流的介质,所述每一文件流管理一个历史记录文件;HDFS文件系统,存储被上传文件的文件系统。
参阅图1所示,多个客户端100同时上传文件,FTP服务端200接收到多个上传文件的请求,然后发起多个线程并发的处理,每个线程对应一个文件,每个线程通过调用上传文件模块300来上传文件,上传文件模块300负责把文件上传到HDFS文件系统中。若上传文件成功,则此线程会调用历史记录模块,历史记录模块从文件流池500里去获得一个空闲的文件流,如果暂时没有空闲的文件流,则等待一段时间再去获取,直至获得空闲的文件流,通过这个文件流向对应的历史记录文件中写入上传信息,所述的文件流池500中的文件流主要用于解决多线程高并发的上传文件时历史记录模块可能会带来的性能问题,以此通过所述的文件流管理历史记录文件保障系统稳定运行。在各种实施方式中,所述的上传信息包括所上传文件的文件名、开始上传时间、结束上传时间、上传成功与否标识等,调用所述的上传信息即可对所述的文件进行溯源,所述上传信息不仅仅局限于本例所列的类型,所述上传信息可依据使用者的需求设定类别。在又一优选的实施方式中,为了能够清楚的区分各个上传信息,所述的上传信息之间用符号间隔,所述的符号可以为分隔符、逗号、加号、斜线等各种能够表征区别的符号。
上述实施方式的一种改进方式中,若所述上传文件模块300上传文件到HDFS文件系统失败,则返回错误信息至客户端100,客户端100重新发起上传文件请求。通过该方式能够保证所有文件都上传至所述的HDFS文件系统。
上述实施方式的一种改进方式中,若所述上传文件模块300上传文件到HDFS文件系统成功,则返回成功信息至客户端100。该方式便于客户端100能够对上传成功的文件进行统计,并可应用于后期的跟踪、溯源。
上述实施方式中,所述的文件流池500优选的采用物理硬盘,文件流池里面存储了多个文件流,文件流连接到物理硬盘上的一个物理文件,文件流可以对这个物理文件进行读写操作,即每个文件流对应到物理硬盘上的一个历史记录文件通过文件流可以读写所述的历史记录文件,所述历史记录文件的文件名可配置,本发明可以通过在配置文件hdfs-over-ftp.properties中提供log_prefix-record_operations_put配置项来让用户自定义历史记录文件的文件名主体部分,文件名主体部分+当前日期+.log构成完整的文件名。在又一优选的实施方式中,在配置文件hdfs-over-ftp.properties中提供了log_max_os配置项来让用户自定义文件流池500中缓存的文件流的数量,达到文件流池500中的文件流数量可配置的目的,并且文件流可以根据自定制的时间来切换到新的物理文件。
上所述仅为本发明一种基于HDFS的文件溯源FTP系统的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种基于HDFS的文件溯源FTP系统,其特征在于:包括FTP服务端、上传文件模块、历史记录模块、HDFS文件系统以及文件流池;
FTP服务端从客户端接收N个上传文件请求后发起N个并发线程,每一线程调用上传文件模块上传客户端发送的文件,每一线程对应一文件;
上传文件模块上传文件到HDFS文件系统,所述上传文件模块确定文件已上传到HDFS文件系统后将调用历史记录模块;
历史记录模块从文件流池中获取空闲的文件流,应用所述文件流将文件的上传信息写入历史记录文件中,所述上传信息用于文件溯源;
文件流池,存储多个文件流的介质,每一文件流管理一个历史记录文件;
HDFS文件系统,存储被上传文件的文件系统。
2.根据权利要求1所述的一种基于HDFS的文件溯源FTP系统,其特征在于:若所述上传文件模块上传文件到HDFS文件系统失败,则返回错误信息至客户端,客户端重新发起上传文件请求。
3.根据权利要求2所述的一种基于HDFS的文件溯源FTP系统,其特征在于:若所述上传文件模块上传文件到HDFS文件系统成功,则返回成功信息至客户系统。
4.根据权利要求3所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述的上传信息包括所上传文件的文件名、开始上传时间、结束上传时间、上传成功与否标识。
5.根据权利要求4所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述历史记录文件中所记录的各上传信息之间用符号间隔。
6.根据权利要求1所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述文件流池为物理硬盘。
7.根据权利要求6所述的一种基于HDFS的文件溯源FTP系统,其特征在于:所述文件流池的文件流数量可配置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510678714.2A CN105357280B (zh) | 2015-10-19 | 2015-10-19 | 一种基于hdfs的文件溯源ftp系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510678714.2A CN105357280B (zh) | 2015-10-19 | 2015-10-19 | 一种基于hdfs的文件溯源ftp系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105357280A true CN105357280A (zh) | 2016-02-24 |
CN105357280B CN105357280B (zh) | 2019-02-19 |
Family
ID=55333139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510678714.2A Active CN105357280B (zh) | 2015-10-19 | 2015-10-19 | 一种基于hdfs的文件溯源ftp系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105357280B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912677A (zh) * | 2016-04-13 | 2016-08-31 | 北京思特奇信息技术股份有限公司 | 一种基于oozie实现ftp与hdfs互传文件的方法和系统 |
CN106789324A (zh) * | 2017-01-09 | 2017-05-31 | 上海轻维软件有限公司 | 基于MapReduce的FTP分布式采集方法 |
CN108023953A (zh) * | 2017-12-04 | 2018-05-11 | 北京小度信息科技有限公司 | Ftp服务的高可用实现方法和装置 |
CN110309257A (zh) * | 2018-03-14 | 2019-10-08 | 杭州海康威视数字技术股份有限公司 | 一种文件读写打开方法及装置 |
CN110597764A (zh) * | 2019-10-10 | 2019-12-20 | 深圳前海微众银行股份有限公司 | 一种文件管理方法及装置 |
CN113722084A (zh) * | 2020-05-25 | 2021-11-30 | 中移(苏州)软件技术有限公司 | 数据处理方法、装置、电子设备和计算机存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902716A (zh) * | 2012-08-27 | 2013-01-30 | 苏州两江科技有限公司 | 基于Hadoop分布式计算平台的存储系统 |
CN104408047A (zh) * | 2014-10-28 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法 |
-
2015
- 2015-10-19 CN CN201510678714.2A patent/CN105357280B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102902716A (zh) * | 2012-08-27 | 2013-01-30 | 苏州两江科技有限公司 | 基于Hadoop分布式计算平台的存储系统 |
CN104408047A (zh) * | 2014-10-28 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912677A (zh) * | 2016-04-13 | 2016-08-31 | 北京思特奇信息技术股份有限公司 | 一种基于oozie实现ftp与hdfs互传文件的方法和系统 |
CN106789324A (zh) * | 2017-01-09 | 2017-05-31 | 上海轻维软件有限公司 | 基于MapReduce的FTP分布式采集方法 |
CN106789324B (zh) * | 2017-01-09 | 2024-03-22 | 上海轻维软件有限公司 | 基于MapReduce的FTP分布式采集方法 |
CN108023953A (zh) * | 2017-12-04 | 2018-05-11 | 北京小度信息科技有限公司 | Ftp服务的高可用实现方法和装置 |
CN108023953B (zh) * | 2017-12-04 | 2021-07-09 | 北京星选科技有限公司 | Ftp服务的高可用实现方法和装置 |
CN110309257A (zh) * | 2018-03-14 | 2019-10-08 | 杭州海康威视数字技术股份有限公司 | 一种文件读写打开方法及装置 |
CN110309257B (zh) * | 2018-03-14 | 2021-04-16 | 杭州海康威视数字技术股份有限公司 | 一种文件读写打开方法及装置 |
CN110597764A (zh) * | 2019-10-10 | 2019-12-20 | 深圳前海微众银行股份有限公司 | 一种文件管理方法及装置 |
CN110597764B (zh) * | 2019-10-10 | 2024-05-07 | 深圳前海微众银行股份有限公司 | 一种文件下载、版本管理方法及装置 |
CN113722084A (zh) * | 2020-05-25 | 2021-11-30 | 中移(苏州)软件技术有限公司 | 数据处理方法、装置、电子设备和计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105357280B (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105357280A (zh) | 一种基于hdfs的文件溯源ftp系统 | |
US9313133B2 (en) | Anticipatory warm-up of cluster resources for jobs processed on multiple cluster nodes | |
Pham et al. | Scrum in action | |
US9143562B2 (en) | Managing transfer of data from a source to a destination machine cluster | |
CN102741843B (zh) | 从数据库中读取数据的方法及装置 | |
US8924353B1 (en) | Systems and methods for copying database files | |
WO2020182232A3 (en) | Managing transactions on blockchain networks | |
WO2016048599A1 (en) | Caching technologies employing data compression | |
CN103049533A (zh) | 一种快速向数据库加载数据的方法 | |
WO2017028690A1 (zh) | 一种基于etl的文件处理方法及系统 | |
US9798761B2 (en) | Apparatus and method for fsync system call processing using ordered mode journaling with file unit | |
CN104965835B (zh) | 一种分布式文件系统的文件读写方法及装置 | |
CN103076993A (zh) | 一种密集型系统中的存储系统及方法 | |
CN104079600A (zh) | 文件存储方法、装置、访问客户端及元数据服务器系统 | |
US10789087B2 (en) | Insight usage across computing nodes running containerized analytics | |
CN103150268A (zh) | 一种cdp中的块级数据捕获方法 | |
CN105574008A (zh) | 应用于分布式文件系统的任务调度方法和设备 | |
CN102467419A (zh) | 文件备份方法 | |
US10514988B2 (en) | Method and system of migrating applications to a cloud-computing environment | |
US20140310454A1 (en) | Data set management | |
GB2525613A (en) | Reduction of processing duplicates of queued requests | |
US8688643B1 (en) | Systems and methods for adaptively preferring mirrors for read operations | |
Gu et al. | Lessons learned from a year's worth of benchmarks of large data clouds | |
US20180307684A1 (en) | Method and Device for Reading and Writing Video Data in NAS Device | |
Kaseb et al. | Redundant independent files (RIF): a technique for reducing storage and resources in big data replication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |