CN104778229A - 基于Hadoop的电信业务小文件存储系统及方法 - Google Patents

基于Hadoop的电信业务小文件存储系统及方法 Download PDF

Info

Publication number
CN104778229A
CN104778229A CN201510145487.7A CN201510145487A CN104778229A CN 104778229 A CN104778229 A CN 104778229A CN 201510145487 A CN201510145487 A CN 201510145487A CN 104778229 A CN104778229 A CN 104778229A
Authority
CN
China
Prior art keywords
file
small documents
processing server
hdfs
distributed parallel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510145487.7A
Other languages
English (en)
Inventor
孟庆民
闫怀礼
朱卫平
曾桂根
吴晓富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510145487.7A priority Critical patent/CN104778229A/zh
Publication of CN104778229A publication Critical patent/CN104778229A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于Hadoop的电信业务小文件存储系统及方法,包括数据采集单元、数据传输单元和HDFS,数据传输单元和HDFS之间设有文件预处理单元,包括主服务器和分布式并行小文件处理服务器,分布式并行小文件处理服务器根据文件类型的不同存储相应的小文件。当用户文件通过数据传输单元上传至文件预处理单元时,主服务器判断该文件的大小,将小文件存至分布式并行小文件处理服务器,利用SequenceFile 容器对小文件进行合并和建立索引。本发明算法简单,存储和读取文件方便快捷,速度快,效率高。

Description

基于Hadoop的电信业务小文件存储系统及方法
技术领域
本发明涉及电信大数据存储领域,具体是基于Hadoop的电信业务小文件存储系统及方法。
背景技术
随着通信技术的不断发展,电信业务所产生的数据量在以爆炸性的速度持续增长。以中国移动为例,2014年其日均产生10TB的话单数据量、100TB的信令数据量,而且随着4G的大规模建设,未来的电信业务数据量增长将更加迅猛。此外,随着电信行业业务的多元化,数据种类也越来越丰富,各种业务每天都会产生大量的结构化数据(上网记录、话单、系统日志)、半结构化数据(HTML 文件、XML文件)、非结构化数据(图片、音频、视频),这些海量异构数据对于存储系统的兼容性、容量及性能均提出了极高的要求,传统的IOE架构(由IBM的小型机、Oracle的数据库、EMC的存储设备组成)已难以满足。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可利用Hadoop集群的优势开发分布式程序来进行高速运算和存储。HDFS为海量数据提供了访问和存储方法,Hadoop的出现很好的解决了大数据的存储问题。目前,中国移动、中国电信、中国联通均相继部署了基于Hadoop的分布式数据处理系统。然而通过实际应用我们发现,电信业务所产生的上网记录、图片等文件大小仅为几十到上百字节,海量小文件(文件尺寸小于HDFS规定的块大小)对于Hadoop的性能带来严重影响。具体来讲,HDFS将每个文件、块(block)或目录的元数据信息均以对象的形式存储在NameNode的内存中,每个元数据对象约占150个字节的内存空间,如果存储一亿个小文件,则NameNode大约需要14GB的内存空间,这些海量的元数据信息将会对NameNode的内存空间造成极大的消耗。其次,系统在访问大量小文件时,HDFS不仅需要频繁访问NameNode以获取DataNode的定位信息,还需要不断地在不同DataNode间跳转,这些都严重影响HDFS的整体性能。
随着电信业务范围的不断扩展,HDFS在电信业的应用面临瓶颈。虽然HDFS在大文件读写时具有很高的性能,但当有海量小文件频繁写入时,系统的性能较低。业界目前及下一步的研究重点是对现有的分布式文件存储系统进行改进,以提升系统对海量小文件的存取性能。解决HDFS对海量小文件的存储问题已成为业界共识。
发明内容
针对HDFS在处理电信业海量小文件所遇到的瓶颈和问题,本发明提出一种基于Hadoop的电信业务小文件存储系统及方法。
基于Hadoop的电信业务小文件存储系统,包括依次相连的数据采集单元、数据传输单元和HDFS,所述数据传输单元和HDFS之间还设有文件预处理单元,包括主服务器和分布式并行小文件处理服务器,分布式并行小文件处理服务器根据处理文件的类型分为非结构化小文件处理服务器、半结构化小文件处理服务器和结构化小文件处理服务器;所述主服务器用来判断要存储的文件的大小,分布式并行小文件处理服务器用于对小文件进行存储和合并。
一种基于Hadoop的电信业务小文件存储方法,包括以下步骤:
当用户文件通过数据传输单元上传至文件预处理单元时,主服务器判断该文件的大小,若文件大于128M,则直接写入HDFS,否则,主服务器将包含非结构化数据的文件转发至非结构化小文件处理服务器,将包含结构化数据的文件转发至结构化小文件处理服务器,将包含半结构化数据的文件转发至半结构化小文件处理服务器;
分布式并行小文件处理服务器利用SequenceFile 容器对非结构化小文件、半结构化小文件和结构化小文件分别进行合并和建立索引;
分布式并行小文件处理服务器判断合并后的文件大小,若文件大于128M,则将该文件以文件名做key,相应的文件内容为value写入HDFS文件系统,并删除分布式并行小文件处理服务器内已处理的文件。
每个经小文件合并后超过128M的文件直接存入HDFS文件系统。
本发明可以很好的解决目前电信业海量异构小文件存储与读取所面临的问题,并具有以下优点:
1)利用SequenceFile容器对小文件进行合并,实施便捷。
2)分布式并行小文件处理服务器不仅可以解决电信业海量异构小文件的分类合并问题,还可以根据具体业务类型对小文件处理服务器数量进行扩展,系统适应性强,存储效率高。
    3)数据读取过程中,首先对分布式并行小文件处理服务器进行数据扫描和读取,再对HDFS文件系统进行扫描和文件分离,小文件读取效率高。
附图说明
图1为基于Hadoop的电信业务小文件存储系统的整体架构示意图;
图2为利用图1的系统进行小文件存储的流程图;
图3为用户查询数据的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
传统的电信文件存储系统包括数据采集单元,数据传输单元(FTP服务器)、文件预处理单元(服务器)和HDFS文件系统(Hadoop集群),数据存储时,电信用户所上传的文件经过数据采集单元、数据传输单元、服务器存储至HDFS文件系统中;数据查询时,电信用户通过WEB服务器对服务器、HDFS文件系统进行扫描以获取查询信息。
本发明在以上传统文件存储系统的基础上,将文件预处理系统分为主服务器和分布式并行小文件处理服务器,如图1所示。其中分布式并行小文件处理服务器包括非结构化小文件处理服务器、半结构化小文件处理服务器和结构化小文件处理服务器。
利用本发明基于Hadoop的电信业务小文件存储系统进行数据存储的过程如图2:
步骤1、用户上传文件至文件预处理单元时,主服务器对所上传文件的大小进行判断,如果是大文件(文件尺寸大于128M),则发送到HDFS文件系统,完成写操作;否则,执行步骤2。
步骤2、主服务器根据小文件的数据类型将文件转发至对应的分布式并行小文件处理器,即将包含非结构化数据的文件转发至非结构化小文件处理服务器,将结构化数据的文件转发至结构化小文件处理服务器,将半结构化数据的文件转发至半结构化小文件处理服务器,并执行步骤3。
步骤3、三种类型的小文件处理服务器在接收到小文件以后,分别利用SequenceFile 容器对小文件进行合并和建立索引,并执行步骤4。
步骤4、三种类型的小文件处理服务器分别判断合并后的文件大小,若文件大于128M时,则以文件名做key,相应的文件内容为value写入HDFS文件系统,并删除小文件处理服务器内已处理的文件。
用户进行数据查询的过程如图3:
1)用户通过WEB服务器进行上网记录查询、账单查询等读操作时,主服务器根据所需读取的数据类型将读请求发送到相应的小文件处理服务器,并对小文件处理服务器内的合并文件进行扫描,若有,则将结果反馈给用户,完成读取操作;否则,执行2)。
2)根据索引,对HDFS文件系统进行扫描和小文件分离,并将读取结果反馈给用户,完成读取操作。
分布式并行小文件处理服务器可以根据要存储文件的类型扩展,不仅仅限于以上三种类型。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。

Claims (3)

1.基于Hadoop的电信业务小文件存储系统,包括依次相连的数据采集单元、数据传输单元和HDFS,其特征在于,所述数据传输单元和HDFS之间还设有文件预处理单元,包括主服务器和分布式并行小文件处理服务器,分布式并行小文件处理服务器根据处理文件的类型分为非结构化小文件处理服务器、半结构化小文件处理服务器和结构化小文件处理服务器;所述主服务器用来判断要存储的文件的大小,分布式并行小文件处理服务器用于对小文件进行存储和合并。
2.一种基于Hadoop的电信业务小文件存储方法,其特征在于:
    当用户文件通过数据传输单元上传至文件预处理单元时,主服务器判断该文件的大小,若文件大于128M,则直接写入HDFS,否则,主服务器将包含非结构化数据的文件转发至非结构化小文件处理服务器,将包含结构化数据的文件转发至结构化小文件处理服务器,将包含半结构化数据的文件转发至半结构化小文件处理服务器;
    分布式并行小文件处理服务器利用SequenceFile 容器对非结构化小文件、半结构化小文件和结构化小文件分别进行合并和建立索引;
    分布式并行小文件处理服务器判断合并后的文件大小,若文件大于128M,则将该文件以文件名做key,相应的文件内容为value,将这些文件写入HDFS文件系统,并删除分布式并行小文件处理服务器内已处理的文件。
3.按照权利要求2所述的基于Hadoop的电信业务小文件存储方法,其特征在于,每个经小文件合并后超过128M的文件直接存入HDFS文件系统。
CN201510145487.7A 2015-03-31 2015-03-31 基于Hadoop的电信业务小文件存储系统及方法 Pending CN104778229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510145487.7A CN104778229A (zh) 2015-03-31 2015-03-31 基于Hadoop的电信业务小文件存储系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510145487.7A CN104778229A (zh) 2015-03-31 2015-03-31 基于Hadoop的电信业务小文件存储系统及方法

Publications (1)

Publication Number Publication Date
CN104778229A true CN104778229A (zh) 2015-07-15

Family

ID=53619693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510145487.7A Pending CN104778229A (zh) 2015-03-31 2015-03-31 基于Hadoop的电信业务小文件存储系统及方法

Country Status (1)

Country Link
CN (1) CN104778229A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183861A (zh) * 2015-09-11 2015-12-23 上海斐讯数据通信技术有限公司 Hadoop分布式文件系统及其存储优化方法
CN106855861A (zh) * 2015-12-09 2017-06-16 北京金山安全软件有限公司 一种文件合并方法、装置及电子设备
WO2017133216A1 (zh) * 2016-02-06 2017-08-10 华为技术有限公司 分布式存储方法和设备
CN107092604A (zh) * 2016-02-18 2017-08-25 中国移动通信集团河北有限公司 一种文件处理方法和装置
CN108174136A (zh) * 2018-03-14 2018-06-15 成都创信特电子技术有限公司 云盘视频编码存储方法
CN109960687A (zh) * 2019-03-28 2019-07-02 北京百分点信息科技有限公司 一种文件处理系统及方法
CN110019985A (zh) * 2017-12-29 2019-07-16 上海全土豆文化传播有限公司 索引文件的建立、查询方法及装置
CN112860641A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 基于hadoop的小文件存储方法及其装置
CN113741823A (zh) * 2021-11-08 2021-12-03 杭州雅观科技有限公司 一种云端的混合分布式文件存储方法
CN113849508A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 一种数据存储方法、装置、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116643A (zh) * 2013-02-25 2013-05-22 江苏物联网研究发展中心 基于Hadoop的智慧医疗数据管理方法
CN103279505A (zh) * 2013-05-10 2013-09-04 中国南方电网有限责任公司超高压输电公司 一种基于语义的海量数据处理方法
US20130325812A1 (en) * 2012-05-30 2013-12-05 Spectra Logic Corporation System and method for archive in a distributed file system
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130325812A1 (en) * 2012-05-30 2013-12-05 Spectra Logic Corporation System and method for archive in a distributed file system
CN103116643A (zh) * 2013-02-25 2013-05-22 江苏物联网研究发展中心 基于Hadoop的智慧医疗数据管理方法
CN103279505A (zh) * 2013-05-10 2013-09-04 中国南方电网有限责任公司超高压输电公司 一种基于语义的海量数据处理方法
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨志达: "《宁波市第八届学术大会论文集》", 31 October 2014 *
沐连顺: "《云计算在大型企业中的应用》", 1 May 2014 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183861A (zh) * 2015-09-11 2015-12-23 上海斐讯数据通信技术有限公司 Hadoop分布式文件系统及其存储优化方法
CN106855861A (zh) * 2015-12-09 2017-06-16 北京金山安全软件有限公司 一种文件合并方法、装置及电子设备
US11301154B2 (en) 2016-02-06 2022-04-12 Huawei Technologies Co., Ltd. Distributed storage method and device
WO2017133216A1 (zh) * 2016-02-06 2017-08-10 华为技术有限公司 分布式存储方法和设备
CN107045422A (zh) * 2016-02-06 2017-08-15 华为技术有限公司 分布式存储方法和设备
US11809726B2 (en) 2016-02-06 2023-11-07 Huawei Technologies Co., Ltd. Distributed storage method and device
CN107092604A (zh) * 2016-02-18 2017-08-25 中国移动通信集团河北有限公司 一种文件处理方法和装置
CN107092604B (zh) * 2016-02-18 2020-03-20 中国移动通信集团河北有限公司 一种文件处理方法和装置
CN110019985A (zh) * 2017-12-29 2019-07-16 上海全土豆文化传播有限公司 索引文件的建立、查询方法及装置
CN110019985B (zh) * 2017-12-29 2021-09-24 阿里巴巴(中国)有限公司 索引文件的建立、查询方法及装置
CN108174136A (zh) * 2018-03-14 2018-06-15 成都创信特电子技术有限公司 云盘视频编码存储方法
CN109960687A (zh) * 2019-03-28 2019-07-02 北京百分点信息科技有限公司 一种文件处理系统及方法
CN112860641A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 基于hadoop的小文件存储方法及其装置
CN113849508A (zh) * 2021-09-22 2021-12-28 广东电网有限责任公司 一种数据存储方法、装置、设备和介质
CN113741823A (zh) * 2021-11-08 2021-12-03 杭州雅观科技有限公司 一种云端的混合分布式文件存储方法

Similar Documents

Publication Publication Date Title
CN104778229A (zh) 基于Hadoop的电信业务小文件存储系统及方法
CN102436513B (zh) 分布式检索方法和系统
CN104252536B (zh) 一种基于hbase的上网日志数据查询方法及装置
CN104516979B (zh) 一种基于二次检索的数据查询方法及系统
CN109947668B (zh) 存储数据的方法和装置
CN105183912B (zh) 异常日志确定方法和装置
CN102906751A (zh) 一种数据存储、数据查询的方法及装置
CN106294798A (zh) 一种基于缩略图的图像分享方法和终端
CN104778270A (zh) 一种用于多文件的存储方法
CN104133882A (zh) 一种基于hdfs的小文件处理方法
US20130219050A1 (en) Cloud service access apparatus, cloud service access method, and cloud service access system
CN106294695A (zh) 一种面向实时大数据搜索引擎的实现方法
CN103678694A (zh) 视频资源的倒排索引文件建立方法及其系统
CN102184177A (zh) 一种预览文件的方法与系统
CN103778202A (zh) 一种企业电子文档管理服务端及系统
CN104794190A (zh) 一种大数据有效存储的方法和装置
CN103279474A (zh) 一种视频文件索引方法及系统
CN104850546A (zh) 移动媒介信息的展示方法和系统
CN104750855A (zh) 一种大数据存储优化方法和装置
CN104281414A (zh) 分布式文件系统及其小文件访问方法
CN110515920A (zh) 一种基于Hadoop的海量小文件存取方法和系统
CN103744913A (zh) 一种基于搜索引擎技术的数据库检索方法
CN107463606B (zh) 一种用于大数据存储系统的数据压缩引擎及方法
CN113609374A (zh) 基于内容推送的数据处理方法、装置、设备及存储介质
CN109284262A (zh) 一种企业电子文档管理服务端及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150715