CN112860641A - 基于hadoop的小文件存储方法及其装置 - Google Patents

基于hadoop的小文件存储方法及其装置 Download PDF

Info

Publication number
CN112860641A
CN112860641A CN202110129271.7A CN202110129271A CN112860641A CN 112860641 A CN112860641 A CN 112860641A CN 202110129271 A CN202110129271 A CN 202110129271A CN 112860641 A CN112860641 A CN 112860641A
Authority
CN
China
Prior art keywords
file
small
small file
hadoop
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110129271.7A
Other languages
English (en)
Inventor
洪金磊
扈晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tibet Ningsuan Technology Group Co ltd
Original Assignee
Tibet Ningsuan Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tibet Ningsuan Technology Group Co ltd filed Critical Tibet Ningsuan Technology Group Co ltd
Priority to CN202110129271.7A priority Critical patent/CN112860641A/zh
Publication of CN112860641A publication Critical patent/CN112860641A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于HADOOP的小文件存储方法及其装置,包括以下步骤:步骤S100:分析待上传文件的类型和字节数;步骤S200:在服务器上设置临时存储区,判断临时存储区内小文件队列的总字节数是否大于128MB;步骤S300:通过NameNode在Hadoop系统各数据块中根据文件类型命名多个文件目录,通过NameNode在Hadoop系统数据块中获取分配空间位置,上传合并的多个小文件队列时根据各小文件类型,分别归并到预设分类文件目录下。该方法通过在一个hdfs文件中按一定的规则放入多个小文件,改善了小文件存储的读写效率慢和空间占用大的问题。

Description

基于HADOOP的小文件存储方法及其装置
技术领域
本申请涉及一种基于HADOOP的小文件存储方法及其装置,属于文件存储技术领域。
背景技术
Hadoop分布式文件系统(HDFS)属于在通用硬件(commodity hardware)上运行的分布式文件系统。它和现有的分布式文件系统有很多共同点。HDFS具有高度容错性,能提供高吞吐量的数据访问。同时HDFS放宽了一部分POSIX约束,以实现流式读取文件系统数据的目的。
Hadoop分布式文件系统的基本存储单元是数据块(Block),当设置一个数据块容量为128MB时,如果上传文件大小小于该值时,由于HDFS系统现有存储模式,导致该文件依然会占用一个Block的命名空间(NameNodeMetadata),但物理存储上则不会占用128MB的全部空间。
当需要存储大量小文件时,整个文件系统可存储文件数量受限于NameNode的内存大小,导致HDFS系统无法高效存储大量字节数小于10MB的小文件。
发明内容
本申请提供了一种基于HADOOP的小文件存储方法及其装置,用于解决现有HDFS系统中每个数据块仅能存储一个文件,该文件会同时占据该数据块命名空间导致无法大量有效存储小文件的技术问题。
本申请提供了一种基于HADOOP的小文件存储方法,包括以下步骤:
步骤S100:分析待上传文件的类型和字节数,判断待上传文件的字节数是否大于10MB,如果是,则预存入小文件队列中,如果否,则判断待上传文件字节数是否大于128MB,如果是,则标记为超大文件;
步骤S200:在服务器上设置临时存储区,判断临时存储区内小文件队列的总字节数是否大于128MB,如果是,则对临时存储区内多个小文件队列进行合并;
步骤S300:通过NameNode在Hadoop系统各数据块中根据文件类型命名多个文件目录,通过NameNode在Hadoop系统数据块中获取分配空间位置,上传合并的多个小文件队列时根据各小文件类型,分别归并到预设分类文件目录下。
优选的,还包括:步骤S400:用户读取小文件时,通过文件类型经过NameNode获得小文件存储位置,并进行小文件读取。
优选的,步骤S400中用户读取小文件步骤包括:用户输入文件信息后,对小文件中包含信息进行搜索,输出结果按包含用户输入信息量由多到少进行依序排列检索文件,并将包含用户输入信息最多的检索文件排列在文件队列前端,对所得多个检索文件进行预加载,输出小文件检索队列。
优选的,步骤S100中包括:对小文件队列中的小文件分别进行序列化处理后,得到小文件队列。
优选的,步骤S200中包括:如果判断临时存储区内小文件队列的总字节数是否大于128MB时所得结果为否,则判断临时存储区内各小文件队列存储时间是否达到存储时限,如果是,则对对临时存储区内多个小文件队列进行合并。
优选的,步骤S100中包括:对判断为非小文件的文件按照Hadoop的常规方式存储到对应文件分类数据块中。
本申请的另一方面还提供了一种如上述的方法所用装置,包括:
文件处理器,用于分析待上传文件的类型和字节数,判断待上传文件的字节数是否大于10MB,如果是,则预存入小文件队列中,如果否,则判断待上传文件字节数是否大于128MB,如果是,则标记为超大文件;
合并机,用于在服务器上设置临时存储区,判断临时存储区内小文件队列的总字节数是否大于128MB,如果是,则对临时存储区内多个小文件队列进行合并;
文件读取模块,用于通过NameNode在Hadoop系统各数据块中根据文件类型命名多个文件目录,通过NameNode在Hadoop系统数据块中获取分配空间位置,上传合并的多个小文件队列时根据各小文件类型,分别归并到预设分类文件目录下。
优选的,包括:文件检索模块,文件检索模块用于用户输入文件信息后,对小文件中包含信息进行搜索,输出结果按包含用户输入信息量由多到少进行依序排列检索文件,并将包含用户输入信息最多的检索文件排列在文件队列前端,对所得多个检索文件进行预加载,输出小文件检索队列。
优选的,文件处理器包括:序列化模块,序列化模块,用于对小文件队列中的小文件分别进行序列化处理后,得到小文件队列。
优选的,包括:存储时限模块,存储时限模块,用于如果判断临时存储区内小文件队列的总字节数是否大于128MB时所得结果为否,则判断临时存储区内各小文件队列存储时间是否达到存储时限,如果是,则对对临时存储区内多个小文件队列进行合并。
本申请能产生的有益效果包括:
1)本申请所提供的基于HADOOP的小文件存储方法,通过在一个hdfs文件中按一定的规则放入多个小文件,改善了小文件存储的读写效率慢和空间占用大的问题。
2)本申请所提供的基于HADOOP的小文件存储方法,通过对待存入文件字节数进行分类,并对文件类型进行分类后,对于字节数小于10MB的小文件进行临时存储后分类型上次,能减少对服务器的访问次数,减少分别存储小文件对系统资源的占用。
3)本申请所提供的基于HADOOP的小文件存储方法,通过NameNode在Hadoop系统数据块中获取分配空间位置,并根据小文件类型上传合并的多个小文件队列能提高小文件存储准确性,便于用户获取文件时检索效率提高和访问准确率提高。
4)本申请所提供的基于HADOOP的小文件存储方法,通过在检索时对小文件中所含用户信息量进行排序,提高用户准确检索得到小文件的准确率,进而减少用户对系统的访问次数,减少大量存储小文件导致的系统资源消耗过大的问题。
附图说明
图1为本申请提供的基于HADOOP的小文件存储方法的流程示意图;
图2为本申请提供的基于HADOOP的小文件存储装置模块连接示意图。
具体实施方式
下面结合实施例详述本申请,但本申请并不局限于这些实施例。
参见图1,本申请提供的基于HADOOP的小文件存储方法,包括以下步骤:
步骤S100:分析待上传文件的类型和字节数,判断待上传文件的字节数是否大于10MB,如果是,则预存入小文件队列中,如果否,则判断待上传文件字节数是否大于128MB,如果是,则标记为超大文件;
采用该步骤能实现对不同字节数的文件进行分类存储,提高文件存储效率和处理效率。
步骤S200:在服务器上设置临时存储区,判断临时存储区内小文件队列的总字节数是否大于128MB,如果是,则对临时存储区内多个小文件队列进行合并;
采用上述步骤进行小文件存储能减少多次存储对系统资源的占用,通过将多个小文件合并后再在系统处于闲时的情况下一次性将文件写入的文件系统中,这样可以使文件的写操作对系统影响最小,使查询数据时间得到节约,达到减少系统写入小文件队列的次数。主要依据有两个,一个是命名节点的目录个数,另一个是上传文件合并时间。临时存储区用于存储多个小文件队列。
步骤S300:通过NameNode在Hadoop系统各数据块中根据文件类型命名多个文件目录,通过NameNode在Hadoop系统数据块中获取分配空间位置,上传合并的多个小文件队列时根据各小文件类型,分别归并到预设分类文件目录下。
优选的,还包括:步骤S400:用户读取小文件时,通过文件类型经过NameNode获得小文件存储位置,并进行小文件读取。
该方法通过在存储时进行文件特性分类,当读取文件时,通过有效分类查找,更能得到查询效率的提升及准确命中率。
优选的,步骤S400中用户读取小文件步骤包括:用户输入文件信息后,对小文件中包含信息进行搜索,输出结果按包含用户输入信息量由多到少进行依序排列检索文件,并将包含用户输入信息最多的检索文件排列在文件队列前端,对所得多个检索文件进行预加载,输出小文件检索队列;
采用上述步骤进行文件读取,能根据用户输入信息,选取包含较多用户信息的结果,并将所得检索文件按包含用户信息的数量进行排列后,预加载后进行文件输出,系统通过实现预加载,减少用户与名字节点的交互以及名字节点与数据节点的访问,减少文件的访问次数并提供更好的用户体验,同时优化了文件的加载时间。
优选的,步骤S100中包括:对小文件队列中的小文件分别进行序列化处理后,得到小文件队列。
优选的,步骤S200中包括:如果判断临时存储区内小文件队列的总字节数是否大于128MB时所得结果为否,则判断临时存储区内各小文件队列存储时间是否达到存储时限,如果是,则对对临时存储区内多个小文件队列进行合并。
优选的,步骤S100中包括:对判断为非小文件的文件按照Hadoop的常规方式存储到对应文件分类数据块中。
实现对不同大小的文件分类存储,充分利用Hadoop系统对大文件的高效存储。
在一具体实施例中,该方法包括以下步骤:
1.1文件处理器
文件处理器主要用于分析上传文件的类型和大小。根据文件大小在系统中有处理超大文件和小文件两种处理方式。经过文件判断后,超大文件按照Hadoop的常规方式存储到对应的分类中,小文件预存到小文件队列中,等待进行文件序列化。
1.2合并机
合并机主要用于存放需要合并的小文件。序列化文件要减少系统写入文件的次数,在系统处于闲时的情况下一次性将文件写入的文件系统中,这样可以使文件的写操作对系统影响最小,而且使查询节约时间。主要依据有两个,一个是命名节点的目录个数,另一个是上传文件合并时间。在进行文件上传时,在服务器上为文件合并队列设立一个临时的存储区,当文件达到时限时或者一个Block大小时进行合并。
1.3文件读取
通过在存储时进行文件特性分类,当读取文件时,通过有效分类查找,更能得到查询效率的提升及准确命中率。文件结果的输出形式满足含有效信息的排列在前端,根据搜索到的相似度最高的文件是含有用户需要信息最多的文件,系统通过实现预加载,减少用户与名字节点的交互以及名字节点与数据节点的访问,减少文件的访问次数并提供更好的用户体验,同时优化了文件的加载时间。
用户存储文件时,首先经过文件处理器的判断,如果是小文件则需要进入到合并机的文件缓存队列等待系统合并,在系统合并时通过NameNode获得分配空间的位置并归并到规定好的分类下。用户读取文件时通过文件的类型经过NameNode获得文件存储位置。
参见图2,本申请的另一方面还提供了一种如上述方法的装置,包括:
文件处理器10,用于分析待上传文件的类型和字节数,判断待上传文件的字节数是否大于10MB,如果是,则预存入小文件队列中,如果否,则判断待上传文件字节数是否大于128MB,如果是,则标记为超大文件;
合并机20,用于在服务器上设置临时存储区,判断临时存储区内小文件队列的总字节数是否大于128MB,如果是,则对临时存储区内多个小文件队列进行合并;
文件读取模块30,用于通过NameNode在Hadoop系统各数据块中根据文件类型命名多个文件目录,通过NameNode在Hadoop系统数据块中获取分配空间位置,上传合并的多个小文件队列时根据各小文件类型,分别归并到预设分类文件目录下。
优选的,包括:文件检索模块,用于用户输入文件信息后,对小文件中包含信息进行搜索,输出结果按包含用户输入信息量由多到少进行依序排列检索文件,并将包含用户输入信息最多的检索文件排列在文件队列前端,对所得多个检索文件进行预加载,输出小文件检索队列。
优选的,文件处理器10包括:序列化模块,用于对小文件队列中的小文件分别进行序列化处理后,得到小文件队列。
优选的,存储时限模块,用于如果判断临时存储区内小文件队列的总字节数是否大于128MB时所得结果为否,则判断临时存储区内各小文件队列存储时间是否达到存储时限,如果是,则对对临时存储区内多个小文件队列进行合并。
优选的,超大文件存储模块,用于对判断为非小文件的文件按照Hadoop的常规方式存储到对应文件分类数据块中。
在本说明书中所谈到的“一个实施例”、“另一个实施例”、“实施例”、“优选实施例”等,指的是结合该实施例描述的具体特征、结构或者特点包括在本申请概括性描述的至少一个实施例中。在说明书中多个地方出现同种表述不是一定指的是同一个实施例。进一步来说,结合任一实施例描述一个具体特征、结构或者特点时,所要主张的是结合其他实施例来实现这种特征、结构或者特点也落在本申请的范围内。
尽管这里参照本申请的多个解释性实施例对本申请进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开说明书和权利要求的范围内,可以对主题组合布局的组成部件和/或布局进行多种变型和改进。除了对组成部件和/或布局进行的变形和改进外,对于本领域技术人员来说,其他的用途也将是明显的。

Claims (10)

1.一种基于HADOOP的小文件存储方法,其特征在于,包括以下步骤:
步骤S100:分析待上传文件的类型和字节数,判断待上传文件的字节数是否大于10MB,如果是,则预存入小文件队列中,如果否,则判断待上传文件字节数是否大于128MB,如果是,则标记为超大文件;
步骤S200:在服务器上设置临时存储区,判断临时存储区内小文件队列的总字节数是否大于128MB,如果是,则对临时存储区内多个小文件队列进行合并;
步骤S300:通过NameNode在Hadoop系统各数据块中根据文件类型命名多个文件目录,通过NameNode在Hadoop系统数据块中获取分配空间位置,上传合并的多个小文件队列时根据各小文件类型,分别归并到预设分类文件目录下。
2.根据权利要求1所述的基于HADOOP的小文件存储方法,其特征在于,还包括:步骤S400:用户读取小文件时,通过文件类型经过NameNode获得小文件存储位置,并进行小文件读取。
3.根据权利要求2所述的基于HADOOP的小文件存储方法,其特征在于,所述步骤S400中用户读取小文件步骤包括:用户输入文件信息后,对小文件中包含信息进行搜索,输出结果按包含用户输入信息量由多到少进行依序排列检索文件,并将包含用户输入信息最多的检索文件排列在文件队列前端,对所得多个检索文件进行预加载,输出小文件检索队列。
4.根据权利要求1所述的基于HADOOP的小文件存储方法,其特征在于,所述步骤S100中包括:对小文件队列中的小文件分别进行序列化处理后,得到小文件队列。
5.根据权利要求1所述的基于HADOOP的小文件存储方法,其特征在于,所述步骤S200中包括:如果判断临时存储区内小文件队列的总字节数是否大于128MB时所得结果为否,则判断临时存储区内各小文件队列存储时间是否达到存储时限,如果是,则对对临时存储区内多个小文件队列进行合并。
6.根据权利要求1所述的基于HADOOP的小文件存储方法,其特征在于,所述步骤S100中包括:对判断为非小文件的文件按照Hadoop的常规方式存储到对应文件分类数据块中。
7.一种如权利要求1~6中任一项所述的方法所用装置,其特征在于,包括:
文件处理器(10),用于分析待上传文件的类型和字节数,判断待上传文件的字节数是否大于10MB,如果是,则预存入小文件队列中,如果否,则判断待上传文件字节数是否大于128MB,如果是,则标记为超大文件;
合并机(20),用于在服务器上设置临时存储区,判断临时存储区内小文件队列的总字节数是否大于128MB,如果是,则对临时存储区内多个小文件队列进行合并;
文件读取模块(30),用于通过NameNode在Hadoop系统各数据块中根据文件类型命名多个文件目录,通过NameNode在Hadoop系统数据块中获取分配空间位置,上传合并的多个小文件队列时根据各小文件类型,分别归并到预设分类文件目录下。
8.根据权利要求7所述的基于HADOOP的小文件存储装置,其特征在于,包括:文件检索模块,所述文件检索模块用于用户输入文件信息后,对小文件中包含信息进行搜索,输出结果按包含用户输入信息量由多到少进行依序排列检索文件,并将包含用户输入信息最多的检索文件排列在文件队列前端,对所得多个检索文件进行预加载,输出小文件检索队列。
9.根据权利要求7所述的基于HADOOP的小文件存储装置,其特征在于,所述文件处理器(10)包括:序列化模块,序列化模块,用于对小文件队列中的小文件分别进行序列化处理后,得到小文件队列。
10.根据权利要求7所述的基于HADOOP的小文件存储装置,其特征在于,包括:存储时限模块,所述存储时限模块,用于如果判断临时存储区内小文件队列的总字节数是否大于128MB时所得结果为否,则判断临时存储区内各小文件队列存储时间是否达到存储时限,如果是,则对对临时存储区内多个小文件队列进行合并。
CN202110129271.7A 2021-01-29 2021-01-29 基于hadoop的小文件存储方法及其装置 Pending CN112860641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110129271.7A CN112860641A (zh) 2021-01-29 2021-01-29 基于hadoop的小文件存储方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110129271.7A CN112860641A (zh) 2021-01-29 2021-01-29 基于hadoop的小文件存储方法及其装置

Publications (1)

Publication Number Publication Date
CN112860641A true CN112860641A (zh) 2021-05-28

Family

ID=75987074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110129271.7A Pending CN112860641A (zh) 2021-01-29 2021-01-29 基于hadoop的小文件存储方法及其装置

Country Status (1)

Country Link
CN (1) CN112860641A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168084A (zh) * 2021-12-10 2022-03-11 中国电信股份有限公司 文件合并方法、文件合并装置、电子设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902695A (zh) * 2011-07-29 2013-01-30 上海博泰悦臻电子设备制造有限公司 导航系统及兴趣点搜索方法和装置
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
CN103678579A (zh) * 2013-12-12 2014-03-26 浪潮电子信息产业股份有限公司 一种小文件存储效率的优化方法
CN104281414A (zh) * 2013-07-10 2015-01-14 中兴通讯股份有限公司 分布式文件系统及其小文件访问方法
CN104778229A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于Hadoop的电信业务小文件存储系统及方法
CN107045531A (zh) * 2017-01-20 2017-08-15 郑州云海信息技术有限公司 一种优化hdfs小文件存取的系统及方法
CN109284273A (zh) * 2018-09-27 2019-01-29 中山大学 一种采用后缀数组索引的海量小文件查询方法及系统
CN110647497A (zh) * 2019-07-19 2020-01-03 广东工业大学 一种基于hdfs的高性能文件存储与管理系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902695A (zh) * 2011-07-29 2013-01-30 上海博泰悦臻电子设备制造有限公司 导航系统及兴趣点搜索方法和装置
CN102902716A (zh) * 2012-08-27 2013-01-30 苏州两江科技有限公司 基于Hadoop分布式计算平台的存储系统
CN104281414A (zh) * 2013-07-10 2015-01-14 中兴通讯股份有限公司 分布式文件系统及其小文件访问方法
CN103678579A (zh) * 2013-12-12 2014-03-26 浪潮电子信息产业股份有限公司 一种小文件存储效率的优化方法
CN104778229A (zh) * 2015-03-31 2015-07-15 南京邮电大学 基于Hadoop的电信业务小文件存储系统及方法
CN107045531A (zh) * 2017-01-20 2017-08-15 郑州云海信息技术有限公司 一种优化hdfs小文件存取的系统及方法
CN109284273A (zh) * 2018-09-27 2019-01-29 中山大学 一种采用后缀数组索引的海量小文件查询方法及系统
CN110647497A (zh) * 2019-07-19 2020-01-03 广东工业大学 一种基于hdfs的高性能文件存储与管理系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114168084A (zh) * 2021-12-10 2022-03-11 中国电信股份有限公司 文件合并方法、文件合并装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
US7853770B2 (en) Storage system, data relocation method thereof, and recording medium that records data relocation program
CN105117351B (zh) 向缓存写入数据的方法及装置
US20100281077A1 (en) Batching requests for accessing differential data stores
CN108804031A (zh) 最佳记录查找
CN111913955A (zh) 数据的排序处理装置、方法和存储介质
US20140258596A1 (en) Memory controller and memory system
CN111324427B (zh) 一种基于dsp的任务调度方法及装置
US11625187B2 (en) Method and system for intercepting a discarded page for a memory swap
CN108710639A (zh) 一种基于Ceph的海量小文件存取优化方法
US20210011634A1 (en) Methods and systems for managing key-value solid state drives (kv ssds)
CN109766318A (zh) 文件读取方法及装置
US20070180001A1 (en) Method and Data Processing System For Managing A Mass Storage System
CN109460406A (zh) 一种数据处理方法及装置
CN112860641A (zh) 基于hadoop的小文件存储方法及其装置
CN114816240A (zh) 一种数据写入方法及一种数据读取方法
US7502778B2 (en) Apparatus, system, and method for efficient adaptive parallel data clustering for loading data into a table
US11487731B2 (en) Read iterator for pre-fetching nodes of a B-tree into memory
CN104484136B (zh) 一种可支撑高并发内存数据的方法
CN116089364B (zh) 一种存储文件管理方法、装置、ai平台和存储介质
CN114168084B (zh) 文件合并方法、文件合并装置、电子设备以及存储介质
CN114077690A (zh) 向量数据处理方法、装置、设备及存储介质
CN113590566B (zh) 基于堆结构的SequenceFile存储优化方法、装置、设备及存储介质
CN111723266B (zh) 海量数据处理方法和装置
CN109634914B (zh) 一种对讲语音小文件整存散分和分叉检索的优化方法
CN113297106A (zh) 基于混合存储的数据置换方法、相关方法及装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528