CN107436736A - 一种hdfs中文件的存储方法及装置 - Google Patents

一种hdfs中文件的存储方法及装置 Download PDF

Info

Publication number
CN107436736A
CN107436736A CN201710671359.5A CN201710671359A CN107436736A CN 107436736 A CN107436736 A CN 107436736A CN 201710671359 A CN201710671359 A CN 201710671359A CN 107436736 A CN107436736 A CN 107436736A
Authority
CN
China
Prior art keywords
index
file
stored
host node
hdfs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710671359.5A
Other languages
English (en)
Inventor
王朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710671359.5A priority Critical patent/CN107436736A/zh
Publication of CN107436736A publication Critical patent/CN107436736A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种HDFS中文件的存储方法及装置,该方法的步骤包括:将文件存储至数据节点的数据块中;按照预设方式将文件的相关信息记录在第一索引中,并将第一索引存储于数据节点中;将第一索引记录在第二索引中,并将第二索引存储于主节点中。可见,通过将聚合所得的第一层索引存储在数据节点分担了主节点的存储压力,主节点只需要存储由第一层索引进一步聚合所得的索引信息即可获得所有小文件的相关信息,因此主节点记录相关信息的频率能够相对降低,并且能够记录更多的相关信息。可见,本发明更加节省主节点的存储空间,并且能够减轻主节点工作压力并且提高HDFS存储效率。此外,HDFS中文件的存储装置同样具有上述效果。

Description

一种HDFS中文件的存储方法及装置
技术领域
本发明涉及HDFS文件系统领域,特别是涉及一种HDFS中文件的存储方法及装置。
背景技术
Hadoop是近几年发展的比较成熟的大数据计算平台之一,凭借其可靠、高效、可伸缩的特性在互联网领域得到了广泛的应用,同时也得到了学术界的普遍关注。HDFS作为Hadoop的分布式文件系统,已经成为海量存储集群上部署的主流文件系统。
HDFS由一个NameNode和若干个DataNode组成,其中DataNode是文件系统的数据节点,用于存储数据;NameNode是文件系统的主节点,负责记录和管理DataNode中所存的文件。HDFS通过分布式的方式存储数据,因此能够存储的数据量较大,并且由于数据节点中的数据存在定时的冗余备份以及数据节点之间的数据定时流动,因此使数据更加安全可靠。由于数据节点中的数据的信息均记录在主节点中,所以主节点的存储空间影响着数据节点中能够实际存储的数据量,并且存储小文件与存储大文件一样都会在主节点中占用同样的空间,所以HDFS对于海量的小文件存储往往会大量占用的主节点中数据信息的记录空间。可见,上述情况在加剧了主节点的工作压力的同时,还造成数据节点中存储空间的浪费,降低了HDFS整体的存储效率。
由此可见,提供一种HDFS中文件的存储方法,以减轻主节点工作压力并且提高HDFS存储效率,是本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种HDFS中文件的存储方法及装置,节省了主节点的存储空间,并且减轻了主节点工作压力并且提高了HDFS存储效率。
为解决上述技术问题,本发明提供一种HDFS中文件的存储方法,包括:
将文件存储至数据节点的数据块中;
按照预设方式将文件的相关信息记录在第一索引中,并将第一索引存储于数据节点中;
将第一索引记录在第二索引中,并将第二索引存储于主节点中。
优选的,按照预设方式将文件的相关信息记录在第一索引中具体为:
按照同类型的相关信息记录在相同索引的方式将相关信息记录在第一索引中。
优选的,第一索引的内容包括:
文件的长度、文件的偏移量以及文件的文件名。
优选的,第二索引的内容包括:
第一索引的索引名、文件在第一索引中的位置以及文件所占用的数据块个数。
优选的,当获取到查找文件的指令时,该方法进一步包括:
在第二索引中根据文件的文件名查找相应的第一索引;
根据第一索引中记录的文件在数据块中的位置,获得文件。
优选的,在获得文件后,该方法进一步包括:
预先读取与文件相关的文件。
此外,本发明还提供一种HDFS中文件的存储装置,包括:
存储模块,用于将文件存储至数据节点的数据块中;
第一索引处理模块,用于按照预设方式将文件的相关信息记录在第一索引中,并将第一索引存储于数据节点中;
第二索引处理模块,用于将第一索引记录在第二索引中,并将第二索引存储于主节点中。
优选的,该装置进一步包括:
文件获取模块,用于在第二索引中根据文件的文件名查找相应的第一索引,并根据第一索引中记录的文件在数据块中的位置,获得文件。
优选的,该装置进一步包括:
预先读取模块,用于预先读取与文件相关的文件。
本发明所提供的HDFS中文件的存储方法,通过采用两层索引的方式,对文件进行了聚合。因此即使是海量的小文件,也可以将小文件的信息先进行聚合,并将初步聚合所获得的第一层索引存储在数据节点,进而再对第一层索引进行聚合成为第二层索引,并存储在主节点中。可见,通过将聚合所得的第一层索引存储在数据节点分担了主节点的存储压力,主节点只需要存储由第一层索引进一步聚合所得的索引信息即可获得所有小文件的相关信息,因此主节点记录相关信息的频率能够相对降低,并且能够记录更多的相关信息。可见,本发明更加节省主节点的存储空间,并且能够减轻主节点工作压力并且提高HDFS存储效率。此外,本发明还提供一种HDFS中文件的存储装置,与上述的方法对应,有益效果如上所述。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种HDFS中文件的存储方法的流程图;
图2为本发明实施例提供的另一种HDFS中文件的存储方法的流程图;
图3为本发明实施例提供的一种HDFS中文件的存储装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
本发明的核心是提供一种HDFS中文件的存储方法及装置,节省了主节点的存储空间,并且减轻了主节点工作压力并且提高了HDFS存储效率。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
实施例一
图1为本发明实施例提供的一种HDFS中文件的存储方法的流程图。请参考图1,HDFS中文件的存储方法的具体步骤包括:
步骤S10:将文件存储至数据节点的数据块中。
可以理解的是,本步骤中存储于数据节点的文件的相关信息将在后续步骤中通过索引的形式进行记录。
步骤S11:按照预设方式将文件的相关信息记录在第一索引中,并将第一索引存储于数据节点中。
本步骤的目的在于,将文件的相关信息先汇总为第一层的索引,并将索引存储于数据节点以减轻主节点的压力。需要说明的是,本发明中的索引指的是一列值或若干列值的集合以及相应指向表中物理标识这些值的数据页的逻辑指针清单,索引相当于图书的目录,根据目录页码可以快速找到所需的内容。另外,预设的方式可以根据用户的需要而定,可以是将同类型的文件记录在同一索引,当然也可以是预先规定每一个索引的大小,将获取到的文件按照顺序依次记录在索引中,在此不做具体限定。
步骤S12:将第一索引记录在第二索引中,并将第二索引存储于主节点中。
需要说明的是,本步骤是将第一索引聚合为第二索引,相当于再次将文件的相关信息进行了汇总,并且将汇总得到的结果存储在主节点中,进而在保证主节点所存储的索引信息较少的同时能够根据第二索引的内容找到第一索引中所记录的任意文件。
本发明所提供的HDFS中文件的存储方法,通过采用两层索引的方式,对文件进行了聚合。因此即使是海量的小文件,也可以将小文件的信息先进行聚合,并将初步聚合所获得的第一层索引存储在数据节点,进而再对第一层索引进行聚合成为第二层索引,并存储在主节点中。可见,通过将聚合所得的第一层索引存储在数据节点分担了主节点的存储压力,主节点只需要存储由第一层索引进一步聚合所得的索引信息即可获得所有小文件的相关信息,因此主节点记录相关信息的频率能够相对降低,并且能够记录更多的相关信息。可见,本发明更加节省主节点的存储空间,并且能够减轻主节点工作压力并且提高HDFS存储效率。
实施例二
图2为本发明实施例提供的另一种HDFS中文件的存储方法的流程图。图2中步骤S10-S12与图1相同,在此不再赘述。
在上述实施例的基础上,作为一种优选的实施方式,按照预设方式将文件的相关信息记录在第一索引中具体为:
按照同类型的相关信息记录在相同索引的方式将相关信息记录在第一索引中。
可以理解的是,将同类型文件的相关信息归为同一索引的目的在于,每一个索引中记录的内容类别更加明确,当用户获取某一文件以及与该文件相类似或相关联文件时能够在同一索引中进行查找,因此更加快捷,提高使用索引时的整体效率。
在上述实施例的基础上,作为一种优选的实施方式,第一索引的内容包括:
文件的长度、文件的偏移量以及文件的文件名。
第一索引中的文件长度length用于标示文件的长度;文件的偏移量offset用于标示文件在数据块中的位置;文件的文件名key用于唯一标示文件的名称,便于对于文件的查找。另外,第一索引的内容还可以包括文件名称的长度keylen等,用户可以根据需要进行设定,在此不做限定。
在上述实施例的基础上,作为一种优选的实施方式,第二索引的内容包括:
第一索引的索引名、文件在第一索引中的位置以及文件所占用的数据块个数。
第一索引的索引名key可以由第二索引与第一索引名组成,用于标示唯一的第一索引;文件在第一索引中的位置inblockId用于标示索引名key对应的文件所在的数据块;文件所占用的数据块的个数pagelen用于标示文件横跨的数据块个数。另外,第二索引内容还可以包括用于标示索引名长度的keylen等,用户可以根据需要进行设定,在此不做限定。
如图2所示,作为一种优选的实施方式,当获取到查找文件的指令时,该方法进一步包括:
步骤S20:在第二索引中根据文件的文件名查找相应的第一索引。
步骤S21:根据第一索引中记录的文件在数据块中的位置,获得文件。
可以理解的是,在查找某个文件时,需要先在主节点存储的第二索引中找到记录了该文件名的第一索引,进而在数据节点中根据在第一索引所记录的文件的相关信息进一步在数据块中找到对应的文件。
如图2所示,作为一种优选的实施方式,在获得文件后,该方法进一步包括:
步骤S22:预先读取与文件相关的文件。
由于考虑到用户在获取到某一文件后往往还需要继续获取与该文件有关联的文件进行查看,因此预先读取与文件相关的文件的好处在于,当用户获取相关文件时能够直接在预先读取到的文件中找到相应的文件进行提供。可见,这种方法减少在此根据索引查找相关文件的时间开销,进而增加了文件查询的效率。需要说明的是,预先读取的文件可以是与首次获取的文件物理位置相邻的相关文件,也可以是与首次获取的文件逻辑上相关的文件,另外,获取的相关文件的数量可以根据系统的性能或用户的需要进行具体设定,在此均不做限定。
为了对上述实施方式更清楚的了解,下面以“中华书库”工程作为真实场景进行进一步说明:
“中华书库”分为章节与章节下的页,因此使用本方法对“中华书库”进行存储的方法为,将页存入数据块,并且将相同章节的页的信息均记录在同一个第一索引中,进而由于章节不同存在多个第一索引,并且第一索引被存储在数据节点中。第二索引用于记录所有第一索引的信息并存储在主节点中。相应的,在用户获取某一页内容时,先在主节点中根据页所在的章节获取到对应的第二索引信息,再根据第二索引信息中记录的该页的信息找到对应的页,进而得到页中内容。由于考虑到用户在看完某一页的同时往往会看后续页的内容,因此采用预先获取的方法获取与获取也相邻的页的内容,进而更加迅速的为用户提供页的内容,提高用户的查找效率。
实施例三
在上文中对于HDFS中文件的存储方法的实施例进行了详细的描述,本发明还提供一种与该方法对应的于HDFS中文件的存储装置,由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图3为本发明实施例提供的一种HDFS中文件的存储装置结构图。本发明实施例提供的HDFS中文件的存储装置,具体包括:
存储模块10,用于将文件存储至数据节点的数据块中。
第一索引处理模块11,用于按照预设方式将文件的相关信息记录在第一索引中,并将第一索引存储于数据节点中。
第二索引处理模块12,用于将第一索引记录在第二索引中,并将第二索引存储于主节点中。
本发明所提供的HDFS中文件的存储装置,通过采用两层索引的方式,对文件进行了聚合。因此即使是海量的小文件,也可以将小文件的信息先进行聚合,并将初步聚合所获得的第一层索引存储在数据节点,进而再对第一层索引进行聚合成为第二层索引,并存储在主节点中。可见,通过将聚合所得的第一层索引存储在数据节点分担了主节点的存储压力,主节点只需要存储由第一层索引进一步聚合所得的索引信息即可获得所有小文件的相关信息,因此主节点记录相关信息的频率能够相对降低,并且能够记录更多的相关信息。可见,本发明更加节省主节点的存储空间,并且能够减轻主节点工作压力并且提高HDFS存储效率。
在实施例三的基础上,该装置还包括:
文件获取模块,用于在第二索引中根据文件的文件名查找相应的第一索引,并根据第一索引中记录的文件在数据块中的位置,获得文件。
在实施例三的基础上,该装置还包括:
预先读取模块,用于预先读取与文件相关的文件。
以上对本发明所提供的一种HDFS中文件的存储方法及装置进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种HDFS中文件的存储方法,其特征在于,包括:
将文件存储至数据节点的数据块中;
按照预设方式将所述文件的相关信息记录在第一索引中,并将所述第一索引存储于所述数据节点中;
将所述第一索引记录在第二索引中,并将所述第二索引存储于主节点中。
2.根据权利要求1所述的方法,其特征在于,所述按照预设方式将所述文件的相关信息记录在第一索引中具体为:
按照同类型的所述相关信息记录在相同索引的方式将所述相关信息记录在第一索引中。
3.根据权利要求1或2所述的方法,其特征在于,所述第一索引的内容包括:
所述文件的长度、所述文件的偏移量以及所述文件的文件名。
4.根据权利要求1或2所述的方法,其特征在于,所述第二索引的内容包括:
所述第一索引的索引名、所述文件在所述第一索引中的位置以及所述文件所占用的所述数据块个数。
5.根据权利要求2所述的方法,其特征在于,当获取到查找所述文件的指令时,该方法进一步包括:
在所述第二索引中根据所述文件的文件名查找相应的所述第一索引;
根据所述第一索引中记录的所述文件在所述数据块中的位置,获得所述文件。
6.根据权利要求5所述的方法,其特征在于,在获得所述文件后,该方法进一步包括:
预先读取与所述文件相关的文件。
7.一种HDFS中文件的存储装置,其特征在于,包括:
存储模块,用于将文件存储至数据节点的数据块中;
第一索引处理模块,用于按照预设方式将所述文件的相关信息记录在第一索引中,并将所述第一索引存储于所述数据节点中;
第二索引处理模块,用于将所述第一索引记录在第二索引中,并将所述第二索引存储于主节点中。
8.根据权利要求7所述的装置,其特征在于,该装置进一步包括:
文件获取模块,用于在所述第二索引中根据所述文件的文件名查找相应的所述第一索引,并根据所述第一索引中记录的所述文件在所述数据块中的位置,获得所述文件。
9.根据权利要求8所述的装置,其特征在于,该装置进一步包括:
预先读取模块,用于预先读取与所述文件相关的文件。
CN201710671359.5A 2017-08-08 2017-08-08 一种hdfs中文件的存储方法及装置 Pending CN107436736A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710671359.5A CN107436736A (zh) 2017-08-08 2017-08-08 一种hdfs中文件的存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710671359.5A CN107436736A (zh) 2017-08-08 2017-08-08 一种hdfs中文件的存储方法及装置

Publications (1)

Publication Number Publication Date
CN107436736A true CN107436736A (zh) 2017-12-05

Family

ID=60460482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710671359.5A Pending CN107436736A (zh) 2017-08-08 2017-08-08 一种hdfs中文件的存储方法及装置

Country Status (1)

Country Link
CN (1) CN107436736A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977074A (zh) * 2019-03-11 2019-07-05 北京东方国信科技股份有限公司 一种基于hdfs的lob数据处理方法及装置
CN110968272A (zh) * 2019-12-16 2020-04-07 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及系统
CN113553300A (zh) * 2021-07-27 2021-10-26 北京字跳网络技术有限公司 文件的处理方法、装置、可读介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法
CN104778259A (zh) * 2015-04-21 2015-07-15 成都博元时代软件有限公司 一种高效的数据分析处理方法
CN105630847A (zh) * 2014-11-21 2016-06-01 深圳市腾讯计算机系统有限公司 数据存储方法、数据查询方法、装置及系统
CN106599040A (zh) * 2016-11-07 2017-04-26 中国科学院软件研究所 一种面向云存储的分层索引方法与检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856567A (zh) * 2014-03-26 2014-06-11 西安电子科技大学 基于Hadoop分布式文件系统的小文件存储方法
CN105630847A (zh) * 2014-11-21 2016-06-01 深圳市腾讯计算机系统有限公司 数据存储方法、数据查询方法、装置及系统
CN104778259A (zh) * 2015-04-21 2015-07-15 成都博元时代软件有限公司 一种高效的数据分析处理方法
CN106599040A (zh) * 2016-11-07 2017-04-26 中国科学院软件研究所 一种面向云存储的分层索引方法与检索方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977074A (zh) * 2019-03-11 2019-07-05 北京东方国信科技股份有限公司 一种基于hdfs的lob数据处理方法及装置
CN109977074B (zh) * 2019-03-11 2021-04-27 北京东方国信科技股份有限公司 一种基于hdfs的lob数据处理方法及装置
CN110968272A (zh) * 2019-12-16 2020-04-07 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及系统
CN110968272B (zh) * 2019-12-16 2021-01-01 华中科技大学 基于时间序列预测的海量小文件存储性能优化方法及系统
CN113553300A (zh) * 2021-07-27 2021-10-26 北京字跳网络技术有限公司 文件的处理方法、装置、可读介质和电子设备
CN113553300B (zh) * 2021-07-27 2024-05-24 北京字跳网络技术有限公司 文件的处理方法、装置、可读介质和电子设备

Similar Documents

Publication Publication Date Title
CN103282899B (zh) 文件系统中数据的存储方法、访问方法及装置
CN105574093B (zh) 一种在基于HDFS的spark-sql大数据处理系统上建立索引的方法
US8402071B2 (en) Catalog that stores file system metadata in an optimized manner
EP2344959B1 (en) Index compression in databases
CN104199888B (zh) 弹性文件系统的数据恢复方法和装置
CN102819547B (zh) 配置字段属性的方法和装置
CN106874481B (zh) 一种分布式文件系统元数据信息读取方法及系统
US20140059313A1 (en) Apparatus and method for recovering partition using backup boot record information
CN102930060B (zh) 一种数据库快速索引的方法及装置
CN107436736A (zh) 一种hdfs中文件的存储方法及装置
CN107958079A (zh) 聚合文件删除方法、系统、装置及可读存储介质
CN104537116A (zh) 一种基于标签的图书搜索方法
CN101446984A (zh) 一种文件存储方法、装置及文件删除方法和装置
US8214403B2 (en) Structured document management device and method
CN105701091B (zh) 一种基于语义的pdf文档的处理方法及处理装置
CN104035993A (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
CN102999637B (zh) 根据文件特征码为文件自动添加文件标签的方法及系统
CN102446184A (zh) 一种基于时间序列的工业数据存储及索引方法
CN107357920A (zh) 一种增量式的多副本数据同步方法及系统
JP4233564B2 (ja) データ処理装置、データ処理用のプログラムおよび記録媒体
CN103299297A (zh) 文件目录存储方法、检索方法和设备
EP1955209A2 (en) An architecture and method for efficient bulk loading of a patricia trie
CN102890719A (zh) 一种对车牌号进行模糊搜索的方法及装置
CN112597345A (zh) 一种实验室数据自动采集与匹配方法
CN105787090A (zh) 一种电力数据的olap系统的索引建立方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171205