CN105404652A - 一种基于hdfs的海量小文件处理方法 - Google Patents

一种基于hdfs的海量小文件处理方法 Download PDF

Info

Publication number
CN105404652A
CN105404652A CN201510724658.1A CN201510724658A CN105404652A CN 105404652 A CN105404652 A CN 105404652A CN 201510724658 A CN201510724658 A CN 201510724658A CN 105404652 A CN105404652 A CN 105404652A
Authority
CN
China
Prior art keywords
file
hdfs
small documents
status
zone bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510724658.1A
Other languages
English (en)
Inventor
陈洁
王龙宝
张雪洁
孙泽群
安纪存
马鹏举
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201510724658.1A priority Critical patent/CN105404652A/zh
Publication of CN105404652A publication Critical patent/CN105404652A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1724Details of de-fragmentation performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于HDFS的海量小文件处理方法,通过对小文件过滤、元数据读取、生成文件ID完成对文件的预处理,并开辟内存缓冲区,建立文件上传队列,对文件进行延时存储;在缓冲区将小文件合并为<key,value>结构的Mapfile文件进行存储;将文件元数据存储在分布式数据库Hbase,Hbase持久化在HDFS中;利用Status标志位表示文件状态,以完成缓冲区小文件快速读取,Mapfile碎片合并等操作,从而支持HDFS对小文件的即时增删改。本发明提高了HDFS对小文件的读取效率,使系统支持对小文件的即时更新操作,提升了系统的整体性能。

Description

一种基于HDFS的海量小文件处理方法
技术领域
本发明涉及一种基于HDFS的海量小文件处理方法,属于分布式数据优化存储领域。
背景技术
随着互联网web2.0的兴起,网络数据量呈指数级增长,在大数据时代,传统的数据存储技术已经不能满足技术发展的需求。HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。目前,在以HDFS为代表的分布式文件存储技术领域中,广泛使用HDFS高效处理各类大文件。
HDFS对高数据吞吐量的应用场景进行了优化,换句话说是为访问大文件开发的,如果访问大量小文件,需要不断的从一个Datanode(HDFS的数据节点,为HDFS提供存储块)跳到另一个Datanode,严重影响性能。最后,处理大量小文件速度远远高于处理同等大小的大文件的速度。每一个小文件要占用一个Slot(HDFS的资源单位),而Job(HDFS的任务单位)启动将耗费大量时间甚至大部分时间都耗费在启动Job和释放Job上。所以,当存储海量小文件时,元数据在Namenode(HDFS的控制节点,在HDFS内部提供元数据服务),中所占用的内存大量增加,从而导致HDFS对海量小文件存储性能较差。
对于小文件问题,已有一些解决方法。Hadoop自身提供一种解决方案:HadoopArchive,其是Hadoop档案格式(以下简称HAR),通过HAR来读取一个文件,实际上会比直接从HDFS中读取文件效率低;苏州两江科技有限公司在其专利中采用SequenceFile(Hadoop的一种键值型文件格式)序列对文件进行打包处理,由于SequenceFile没有直接的索引,每次读取都需要检索整个文件效率较低;Mapfile(Hadoop的一种键值型格式)是带索引的SequenceFile,但需要花费额外的内存来保存索引文件Metadata(元数据)。
此外,Hadoop提供的几种合并文件解决方案均必须为一次性打包上传,这样,文件上传之后不能对文件进行删除和修改,也不能对文件进行追加。北京航空航天大学的专利中,改进了HDFS读取文件的接口,以MapReduce(Hadoop的编程模型)模型进行处理,但该方法不适用于在线进行即时存储修改的环境,无法做到高并发下的图片上传请求处理。这使得在许多应用领域HDFS的性能得不到真正的发挥。
发明内容
本发明所要解决的技术问题是提供一种基于HDFS的海量小文件处理方法,提高HDFS对小文件的读取效率,使系统支持对小文件的即时更新操作,提升了系统的整体性能,在提高效率的同时,实现用户对上传文件的增删改等维护功能。
本发明为解决上述技术问题采用以下技术方案:
本发明提供一种基于HDFS的海量小文件处理方法,具体步骤如下:
步骤1,根据设定的第一阈值,对服务器接收的上传文件进行筛选过滤;
步骤2,获取筛选过滤得到的小文件的文件名、文件长度及文件上传时间戳,通过安全散列算法SHA-1生成文件存储ID;
步骤3,利用Status标志位表示文件存储状态,其中,Status标志位共有0、1、2三种状态,分别表示缓冲区文件、HDFS中已同步文件和已删除文件;
步骤4,采用分布式无关系型数据库Hbase存储小文件的元数据,并将Hbase数据持久化在HDFS中;
步骤5,根据服务器内存大小,申请一定内存的缓冲区,建立上传队列,将文件缓存至缓冲区,若缓冲区中的文件大小已超过设定的第二阈值或将要上传的小文件大小超过剩余缓冲区,则将缓冲区中的小文件合并并且清空缓冲区;其中,小文件合并为:将缓冲区中的小文件合并成结构为<key,value>键值集合形式的Mapfile,即将每个小文件的文件名作为key值、文件内容字节流作为value值进行拼接;
步骤6,将步骤5中合并后的文件通过异步线程延时上传至HDFS。
作为本发明的进一步优化方案,步骤1中筛选过滤得到的大文件通过Namenode分配文件存储块并存入HDFS,所述大文件的大小大于设定的第一阈值。
作为本发明的进一步优化方案,步骤2中通过安全散列算法SHA-1生成文件存储ID,具体为:利用小文件文件名与上传时间戳进行字符串拼接,再对拼接得到的字符串使用安全散列算法SHA-1,从而生成小文件的存储ID。
作为本发明的进一步优化方案,步骤4中采用分布式无关系型数据库Hbase存储小文件的元数据,具体为:以文件存储ID作为行键,建立Attr与Var两个列族,其中,列族Attr包括文件名、文件长度、文件存储ID、文件存储块四个列;列族Var包括文件状态标志位、文件更新时间两个列。
作为本发明的进一步优化方案,步骤3中根据Status标志位的不同状态,对文件采用不同的读取方法,具体为:对标志位为0的文件直接进行本地IO,对标志位为1的文件通过Mapfile读取接口进行读取,对该标志位为2的文件不予以读取。
作为本发明的进一步优化方案,利用Status标志位,实现文件的即时增删改,具体为:增加文件时将该文件的标志位置为0;删除文件时将该文件的标志位置为2;更新文件时,将旧文件标志位置为2,并将新文件标志位置为0。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明提高HDFS对小文件的写入和读取效率,实现了对小文件即时更新的支持,提升系统的整体性能;通过对小文件筛选,元数据预读取,合并文件且延迟写入的方法解决了HDFS小文件存储效率低下问题;通过标志位处理,碎片合并的方法实现了高效的文件即时更新处理;同时通过异步线程处理方式使得系统对于用户而言响应速度快,整体性能提升。
附图说明
图1是本发明实施例的总体框架图。
图2是本发明实施例中的上传文件流程图。
图3是本发明实施例中的合并后文件结构示意图。
图4是本发明实施例中的读取文件流程图。
图5是本发明实施例中的删除文件流程图。
图6是本发明实施例中的更新文件流程图。
具体实施方式
下面结合附图以及实施例对本发明的技术方案作进一步阐述:
本发明一种基于HDFS的海量小文件处理方法如图1所示,具体内容这里不再赘述。
采用本发明一种基于HDFS的海量小文件处理方法的文件上传,如图2所示,其工作过程如下:
1)根据设定的第一阈值对服务器接收的上传文件进行筛选过滤,设定第一阈值为1M,若上传文件的大小大于1M则为大文件,该上传文件直接使用HDFS文件存储接口,即通过Namenode分配文件存储块(BlockID)并存入HDFS;否则为小文件,则转到2);
2)获取小文件的文件名Name,文件长度Length,上传时间戳CreateTime后,利用小文件文件名Name与上传时间戳CreateTime进行字符串拼接,再对拼接得到的字符串使用SHA-1(安全散列算法),生成小文件的存储ID;
3)利用Status标志位表示小文件存储状态,Status标志位的含义如下表所示;将该小文件的Status标志位置为0;
表Status标志位含义表
Flag Status
0 Local Temp File(缓冲区文件)
1 HDFS Mapfile(HDFS中已同步文件)
2 Deleted File(已删除文件)
4)用Hbase存储小文件的元数据:采用分布式无关系型数据库Hbase存储小文件的元数据,并将Hbase数据持久化在HDFS中;采用分布式无关系型数据库Hbase存储小文件的元数据,具体为:以文件存储ID作为行键,建立Attr与Var两个列族,其中,列族Attr包括文件名(Name)、文件长度(Length)、文件存储ID(MapfileID)、文件存储块(BlockID)四个列;列族Var包括文件状态标志位(Status)、文件更新时间(UpdateTime)两个列;
5)根据服务器内存大小,申请一定内存的缓冲区,建立上传队列,利用本地IO将小文件存入缓冲区上传队列;
6)若缓冲区中的文件大小已超过设定的第二阈值或将要上传的小文件大小超过剩余缓冲区,则将缓冲区中的小文件合并并且清空缓冲区。所述小文件合并为:将缓冲区中的小文件合并为结构为<key,value>键值集合形式的Mapfile,即,将每个小文件的文件名作为key值、文件内容字节流作为value值进行拼接,如图3所示;
7)将合并后的文件通过异步线程延时上传至HDFS。
本发明实施例中的读取文件,如图4所示,具体为:读取文件名,若为小文件,则查询Hbase获取该文件的元数据,并读取标志位Status值,若该标志位为0则可以直接进行本地IO,若该标志位为1的文件则通过Mapfile读取接口进行读取,若该标志位为2的文件不予以读取,返回文件不存在信息;若为大文件,则直接从Namenode读取。
本实施例中增加文件,具体为:将文件加入缓冲区上传队列,将Status标志位置0。
本发明实施例中的删除文件,如图5所示,具体为:读取文件名,若为小文件,则查询Hbase,将该文件Status标志位置2,表示Mapfile中的该区域文件失效成为碎片,并建立检查线程判断碎片个数,当碎片个数到达一定时启动异步维护线程对Mapfile进行延时维护,合并Mapfile以清除碎片,删除Hbase记录;若为大文件,则直接从Namenode删除。
其中,合并Mapfile以清除碎片,具体为:
6.1)建立新的Mapfile文件;
6.2)顺序读取旧Mapfile,读取当前Record的key值,查询Hbase得到其Status标志位;
6.6)若Status为2,则继续读取下一个Record;否则读取当前Record的value值,将<key,value>写入新的Mapfile,更新Hbase中该key对应记录的MapfileID列。
6.7)返回6.2),直至读至旧Mapfile末尾。
本发明实施例中的更新文件,如图6所示,具体为:读取文件名,若为小文件,则查询Hbase,将该文件Status置为2,启动异步维护线程进行延时维护,上传新文件至缓冲区;若为大文件,则从Namenode上传新文件直接覆盖旧文件。
根据以上实施例可知,针对HDFS分布式文件系统对海量小文件数据存储资源利用低,文件访问效率低且无法即时对文件进行更新的问题,本发明的方法,提高HDFS对小文件的写入和读取效率,实现了对小文件即时更新的支持,提升系统的整体性能。在此发明中,通过对小文件筛选,元数据预读取,合并文件且延迟写入的方法解决了HDFS小文件存储效率低下问题;通过标志位处理,碎片合并的方法实现了高效的文件即时更新处理;同时通过异步线程处理方式使得系统对于用户而言响应速度快,整体性能提升。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于HDFS的海量小文件处理方法,其特征在于,具体步骤如下:
步骤1,根据设定的第一阈值,对服务器接收的上传文件进行筛选过滤;
步骤2,获取筛选过滤得到的小文件的文件名、文件长度及文件上传时间戳,通过安全散列算法SHA-1生成文件存储ID;
步骤3,利用Status标志位表示文件存储状态,其中,Status标志位共有0、1、2三种状态,分别表示缓冲区文件、HDFS中已同步文件和已删除文件;
步骤4,采用分布式无关系型数据库Hbase存储小文件的元数据,并将Hbase数据持久化在HDFS中;
步骤5,根据服务器内存大小,申请一定内存的缓冲区,建立上传队列,将文件缓存至缓冲区,若缓冲区中的文件大小已超过设定的第二阈值或将要上传的小文件大小超过剩余缓冲区,则将缓冲区中的小文件合并并且清空缓冲区;其中,小文件合并为:将缓冲区中的小文件合并成结构为<key,value>键值集合形式的Mapfile,即将每个小文件的文件名作为key值、文件内容字节流作为value值进行拼接;
步骤6,将步骤5中合并后的文件通过异步线程延时上传至HDFS。
2.根据权利要求1所述的一种基于HDFS的海量小文件处理方法,其特征在于,步骤1中筛选过滤得到的大文件通过Namenode分配文件存储块并存入HDFS,所述大文件的大小大于设定的第一阈值。
3.根据权利要求1所述的一种基于HDFS的海量小文件处理方法,其特征在于,步骤2中通过安全散列算法SHA-1生成文件存储ID,具体为:利用小文件文件名与上传时间戳进行字符串拼接,再对拼接得到的字符串使用安全散列算法SHA-1,从而生成小文件的存储ID。
4.根据权利要求1所述的一种基于HDFS的海量小文件处理方法,其特征在于,步骤4中采用分布式无关系型数据库Hbase存储小文件的元数据,具体为:以文件存储ID作为行键,建立Attr与Var两个列族,其中,列族Attr包括文件名、文件长度、文件存储ID、文件存储块四个列;列族Var包括文件状态标志位、文件更新时间两个列。
5.根据权利要求1所述的一种基于HDFS的海量小文件处理方法,其特征在于,步骤3中根据Status标志位的不同状态,对文件采用不同的读取方法,具体为:对标志位为0的文件直接进行本地IO,对标志位为1的文件通过Mapfile读取接口进行读取,对该标志位为2的文件不予以读取。
6.根据权利要求1所述的一种基于HDFS的海量小文件处理方法,其特征在于,利用Status标志位,实现文件的即时增删改,具体为:增加文件时将该文件的标志位置为0;删除文件时将该文件的标志位置为2;更新文件时,将旧文件标志位置为2,并将新文件标志位置为0。
CN201510724658.1A 2015-10-29 2015-10-29 一种基于hdfs的海量小文件处理方法 Pending CN105404652A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510724658.1A CN105404652A (zh) 2015-10-29 2015-10-29 一种基于hdfs的海量小文件处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510724658.1A CN105404652A (zh) 2015-10-29 2015-10-29 一种基于hdfs的海量小文件处理方法

Publications (1)

Publication Number Publication Date
CN105404652A true CN105404652A (zh) 2016-03-16

Family

ID=55470142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510724658.1A Pending CN105404652A (zh) 2015-10-29 2015-10-29 一种基于hdfs的海量小文件处理方法

Country Status (1)

Country Link
CN (1) CN105404652A (zh)

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868286A (zh) * 2016-03-23 2016-08-17 中国科学院计算技术研究所 基于分布式文件系统小文件合并的并行追加方法及系统
CN105956183A (zh) * 2016-05-30 2016-09-21 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及系统
CN106021360A (zh) * 2016-05-10 2016-10-12 深圳前海信息技术有限公司 自主学习优化MapReduce处理数据的方法和装置
CN106021491A (zh) * 2016-05-20 2016-10-12 天津海量信息技术股份有限公司 基于hdfs的准实时数据存储方法
CN106055588A (zh) * 2016-05-20 2016-10-26 青岛海信电器股份有限公司 离线资源处理方法及装置
CN106055678A (zh) * 2016-06-07 2016-10-26 国网河南省电力公司电力科学研究院 一种基于hadoop的全景大数据分布式存储方法
CN106686148A (zh) * 2017-03-20 2017-05-17 郑州云海信息技术有限公司 一种用于提高对象存储系统中对象上传速度的方法和系统
CN106709025A (zh) * 2016-12-28 2017-05-24 郑州云海信息技术有限公司 更新聚合对象的方法及装置
CN106709010A (zh) * 2016-12-26 2017-05-24 上海斐讯数据通信技术有限公司 一种基于海量小文件高效上传hdfs的方法及系统
CN106776759A (zh) * 2016-11-17 2017-05-31 郑州云海信息技术有限公司 分布式文件系统的小文件预读方法及系统
CN107197050A (zh) * 2017-07-27 2017-09-22 郑州云海信息技术有限公司 一种分布式存储系统中文件写入的方法及系统
CN107291915A (zh) * 2017-06-27 2017-10-24 北京奇艺世纪科技有限公司 一种小文件存储方法、小文件读取方法及系统
CN107590191A (zh) * 2017-08-11 2018-01-16 郑州云海信息技术有限公司 一种hdfs海量小文件处理方法及系统
CN107679177A (zh) * 2017-09-29 2018-02-09 郑州云海信息技术有限公司 一种基于hdfs的小文件存储优化方法、装置、设备
CN107704203A (zh) * 2017-09-27 2018-02-16 郑州云海信息技术有限公司 聚合大文件的删除方法、装置、设备及计算机存储介质
CN107729432A (zh) * 2017-09-29 2018-02-23 浪潮软件股份有限公司 一种分布式小文件的存储、读取方法、装置及存取系统
CN107832423A (zh) * 2017-11-13 2018-03-23 中山大学 一种用于分布式文件系统的文件读写方法
CN107861686A (zh) * 2017-09-26 2018-03-30 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN107885735A (zh) * 2017-11-21 2018-04-06 语联网(武汉)信息技术有限公司 一种格式无关的文档翻译方法及系统
CN108076109A (zh) * 2016-11-14 2018-05-25 阿里巴巴集团控股有限公司 一种获取传输文件的方法与设备
CN108256115A (zh) * 2017-09-05 2018-07-06 国家计算机网络与信息安全管理中心 一种面向SparkSql的HDFS小文件实时合并实现方法
CN108520016A (zh) * 2018-03-21 2018-09-11 四川斐讯信息技术有限公司 基于时钟定时器和多台上传服务器的数据入库方法及系统
CN108932287A (zh) * 2018-05-22 2018-12-04 广东技术师范学院 一种基于Hadoop的海量小文件写入方法
CN109063192A (zh) * 2018-08-29 2018-12-21 广州洪荒智能科技有限公司 一种高性能海量文件存储系统工作方法
CN109299059A (zh) * 2018-11-16 2019-02-01 北京锐安科技有限公司 文件存储、检索方法、装置、存储介质及服务器
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN109726178A (zh) * 2018-12-25 2019-05-07 中国南方电网有限责任公司 非结构化文件的交互应用方法、装置、计算机设备和存储介质
CN109902067A (zh) * 2019-02-15 2019-06-18 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备
CN110245121A (zh) * 2019-05-08 2019-09-17 深圳市战音科技有限公司 文件管理方法、系统以及电子设备
CN110825694A (zh) * 2019-11-01 2020-02-21 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN111552695A (zh) * 2020-06-04 2020-08-18 支付宝(杭州)信息技术有限公司 数据存储和查询的方法、装置以及机器可读存储介质
CN112905557A (zh) * 2021-03-03 2021-06-04 山东兆物网络技术股份有限公司 支持异步提交的海量文件整合存储方法及系统
CN113051221A (zh) * 2021-03-31 2021-06-29 网易(杭州)网络有限公司 数据存储方法、装置、介质、设备及分布式文件系统
CN114048185A (zh) * 2021-11-18 2022-02-15 北京聚存科技有限公司 一种分布式文件系统中海量小文件透明打包存储与访问的方法
CN115630021A (zh) * 2022-12-13 2023-01-20 中国华能集团清洁能源技术研究院有限公司 大数据环境下对象存储中小文件合并方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
US20130346444A1 (en) * 2009-12-08 2013-12-26 Netapp, Inc. Metadata subsystem for a distributed object store in a network storage system
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN104133882A (zh) * 2014-07-28 2014-11-05 四川大学 一种基于hdfs的小文件处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130346444A1 (en) * 2009-12-08 2013-12-26 Netapp, Inc. Metadata subsystem for a distributed object store in a network storage system
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
CN104133882A (zh) * 2014-07-28 2014-11-05 四川大学 一种基于hdfs的小文件处理方法

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868286A (zh) * 2016-03-23 2016-08-17 中国科学院计算技术研究所 基于分布式文件系统小文件合并的并行追加方法及系统
CN105868286B (zh) * 2016-03-23 2019-03-12 中国科学院计算技术研究所 基于分布式文件系统小文件合并的并行追加方法及系统
CN106021360A (zh) * 2016-05-10 2016-10-12 深圳前海信息技术有限公司 自主学习优化MapReduce处理数据的方法和装置
CN106021491A (zh) * 2016-05-20 2016-10-12 天津海量信息技术股份有限公司 基于hdfs的准实时数据存储方法
CN106055588A (zh) * 2016-05-20 2016-10-26 青岛海信电器股份有限公司 离线资源处理方法及装置
CN105956183B (zh) * 2016-05-30 2019-04-30 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及系统
CN105956183A (zh) * 2016-05-30 2016-09-21 广东电网有限责任公司电力调度控制中心 一种分布式数据库中海量小文件的多级优化存储方法及系统
CN106055678A (zh) * 2016-06-07 2016-10-26 国网河南省电力公司电力科学研究院 一种基于hadoop的全景大数据分布式存储方法
CN108076109A (zh) * 2016-11-14 2018-05-25 阿里巴巴集团控股有限公司 一种获取传输文件的方法与设备
CN106776759A (zh) * 2016-11-17 2017-05-31 郑州云海信息技术有限公司 分布式文件系统的小文件预读方法及系统
CN106709010A (zh) * 2016-12-26 2017-05-24 上海斐讯数据通信技术有限公司 一种基于海量小文件高效上传hdfs的方法及系统
CN106709025A (zh) * 2016-12-28 2017-05-24 郑州云海信息技术有限公司 更新聚合对象的方法及装置
CN106686148A (zh) * 2017-03-20 2017-05-17 郑州云海信息技术有限公司 一种用于提高对象存储系统中对象上传速度的方法和系统
CN107291915A (zh) * 2017-06-27 2017-10-24 北京奇艺世纪科技有限公司 一种小文件存储方法、小文件读取方法及系统
CN107197050A (zh) * 2017-07-27 2017-09-22 郑州云海信息技术有限公司 一种分布式存储系统中文件写入的方法及系统
CN107590191A (zh) * 2017-08-11 2018-01-16 郑州云海信息技术有限公司 一种hdfs海量小文件处理方法及系统
CN108256115A (zh) * 2017-09-05 2018-07-06 国家计算机网络与信息安全管理中心 一种面向SparkSql的HDFS小文件实时合并实现方法
CN108256115B (zh) * 2017-09-05 2022-02-25 国家计算机网络与信息安全管理中心 一种面向SparkSql的HDFS小文件实时合并实现方法
CN107861686A (zh) * 2017-09-26 2018-03-30 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN107861686B (zh) * 2017-09-26 2021-01-05 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN107704203A (zh) * 2017-09-27 2018-02-16 郑州云海信息技术有限公司 聚合大文件的删除方法、装置、设备及计算机存储介质
CN107729432A (zh) * 2017-09-29 2018-02-23 浪潮软件股份有限公司 一种分布式小文件的存储、读取方法、装置及存取系统
CN107679177A (zh) * 2017-09-29 2018-02-09 郑州云海信息技术有限公司 一种基于hdfs的小文件存储优化方法、装置、设备
CN107832423A (zh) * 2017-11-13 2018-03-23 中山大学 一种用于分布式文件系统的文件读写方法
CN107832423B (zh) * 2017-11-13 2020-05-15 中山大学 一种用于分布式文件系统的文件读写方法
CN107885735A (zh) * 2017-11-21 2018-04-06 语联网(武汉)信息技术有限公司 一种格式无关的文档翻译方法及系统
CN108520016A (zh) * 2018-03-21 2018-09-11 四川斐讯信息技术有限公司 基于时钟定时器和多台上传服务器的数据入库方法及系统
CN108932287B (zh) * 2018-05-22 2019-11-29 广东技术师范大学 一种基于Hadoop的海量小文件写入方法
CN108932287A (zh) * 2018-05-22 2018-12-04 广东技术师范学院 一种基于Hadoop的海量小文件写入方法
CN109063192A (zh) * 2018-08-29 2018-12-21 广州洪荒智能科技有限公司 一种高性能海量文件存储系统工作方法
CN109063192B (zh) * 2018-08-29 2021-01-29 江苏云从曦和人工智能有限公司 一种高性能海量文件存储系统工作方法
CN109299059A (zh) * 2018-11-16 2019-02-01 北京锐安科技有限公司 文件存储、检索方法、装置、存储介质及服务器
CN109726178A (zh) * 2018-12-25 2019-05-07 中国南方电网有限责任公司 非结构化文件的交互应用方法、装置、计算机设备和存储介质
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN109902067A (zh) * 2019-02-15 2019-06-18 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备
CN110245121A (zh) * 2019-05-08 2019-09-17 深圳市战音科技有限公司 文件管理方法、系统以及电子设备
CN110825694A (zh) * 2019-11-01 2020-02-21 北京锐安科技有限公司 数据处理方法、装置、设备和存储介质
CN111552695A (zh) * 2020-06-04 2020-08-18 支付宝(杭州)信息技术有限公司 数据存储和查询的方法、装置以及机器可读存储介质
CN112905557A (zh) * 2021-03-03 2021-06-04 山东兆物网络技术股份有限公司 支持异步提交的海量文件整合存储方法及系统
CN113051221A (zh) * 2021-03-31 2021-06-29 网易(杭州)网络有限公司 数据存储方法、装置、介质、设备及分布式文件系统
CN114048185A (zh) * 2021-11-18 2022-02-15 北京聚存科技有限公司 一种分布式文件系统中海量小文件透明打包存储与访问的方法
CN115630021A (zh) * 2022-12-13 2023-01-20 中国华能集团清洁能源技术研究院有限公司 大数据环境下对象存储中小文件合并方法和装置

Similar Documents

Publication Publication Date Title
CN105404652A (zh) 一种基于hdfs的海量小文件处理方法
RU2500023C2 (ru) Синхронизация документа по протоколу, не использующему информацию о состоянии
CN103116618B (zh) 基于客户端持久缓存的远程文件系统镜像方法及系统
KR101584828B1 (ko) 웹-기반 다중사용자 협업
CN102169507B (zh) 一种分布式实时搜索引擎的实现方法
US20180260114A1 (en) Predictive models of file access patterns by application and file type
CN103002027B (zh) 基于键值对系统实现树形目录结构的数据存储系统及方法
CN104133882A (zh) 一种基于hdfs的小文件处理方法
CN107045422A (zh) 分布式存储方法和设备
CN105183839A (zh) 一种基于Hadoop的小文件分级索引的存储优化方法
US20190205056A1 (en) Transparent data movement between a private cloud and storage ecosystem and another storage system
WO2011121746A1 (ja) ファイルサーバ装置、及びストレージシステムの管理方法、並びにプログラム
CN104348859B (zh) 文件同步方法、装置、服务器、终端及系统
CN104765840A (zh) 一种大数据分布式存储的方法和装置
CN105868286A (zh) 基于分布式文件系统小文件合并的并行追加方法及系统
WO2018141304A1 (zh) 一种闪存文件系统及其数据管理方法
CN111177159B (zh) 一种数据处理的系统、方法和数据更新设备
CN110347651A (zh) 基于云存储的数据同步方法、装置、设备及存储介质
CN103500120A (zh) 基于多线程异步双写的分布式缓存高可用处理方法及系统
WO2017028690A1 (zh) 一种基于etl的文件处理方法及系统
CN104794190A (zh) 一种大数据有效存储的方法和装置
CN103501319A (zh) 一种低延迟的面向小文件的分布式存储系统
CN104750855A (zh) 一种大数据存储优化方法和装置
CN109241004A (zh) 元数据文件大小恢复方法、系统、装置及可读存储介质
CN102299960A (zh) 基于p2p技术的网络文件系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160316