CN107368608A - 基于arc替换算法的hdfs小文件缓存管理方法 - Google Patents

基于arc替换算法的hdfs小文件缓存管理方法 Download PDF

Info

Publication number
CN107368608A
CN107368608A CN201710664858.1A CN201710664858A CN107368608A CN 107368608 A CN107368608 A CN 107368608A CN 201710664858 A CN201710664858 A CN 201710664858A CN 107368608 A CN107368608 A CN 107368608A
Authority
CN
China
Prior art keywords
file
cache
small documents
arc
caching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710664858.1A
Other languages
English (en)
Inventor
姚英彪
陈功
许晓荣
刘兆霆
冯维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Hangzhou Electronic Science and Technology University
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201710664858.1A priority Critical patent/CN107368608A/zh
Publication of CN107368608A publication Critical patent/CN107368608A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0813Multiuser, multiprocessor or multiprocessing cache systems with a network or matrix configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于ARC替换算法的HDFS小文件缓存管理方法,首先在数据节点上使用tmpfs构建数据缓存区,其中,tmpfs是Linux/Unix系统上的一种基于内存的文件系统。在Namenode端集成两个模块:判断模块和决策模块,在Datanode集成一个执行模块。其次,将判断模块、决策模块和执行模块作为三个阶段对小文件进行缓存替换操作。最后,当需要缓存小文件数据块时,Namenode将与数据块存储的Datanode进行通信,并发出指令将数据块缓存在数据节点的高速缓存中。本发明提出的缓存替换管理方法解决了HDFS中小文件被各应用频繁访问时效率低下的问题,应用前景广阔,适合当HDFS系统中小文件较多且小文件经常被频繁访问的场景,本发明能大大减少HDFS反复读取硬盘所带来的时间消耗,提高任务的运行效率。

Description

基于ARC替换算法的HDFS小文件缓存管理方法
技术领域
本发明涉及计算机HDFS分布式文件系统技术领域,特别涉及HDFS中一种小文件的缓存管理方法。
背景技术
伴随着移动互联网技术的高速发展以及电子商务的蓬勃发展,以微博、微信为代表的自媒体应用、以及淘宝为代表的电商网站等,迅速成为Web应用的排头兵。这些自媒体应用、社交分享平台的用户从原来的信息接收者转变成为了信息的提供者,他们随时随地都在向平台上传图片等各种文件信息。由此造成的一个情况便是:网络上产生了大量的小文件,并且这些小文件迅速充斥了整个互联网。在海量小文件产生的科学计算和互联网应用场景中,如何高效访问小文件成为HDFS面临的一个巨大挑战。
HDFS是Hadoop的主要存储框架,它采用主从结构,由名字节点(Namenode)和数据节点(Datanode)组成。名字节点管理文件系统的命名空间,数据节点负责实际数据块的存储。HDFS的数据节点在配置存储目录时通常将数据配置在硬盘中,客户端通过访问硬盘获取数据。然而,在海量的小文件中存在着大量的“热点数据”,这些数据会被各应用频繁地访问,因此,如果能够对这类“热点数据”进行缓存处理,将大大减少HDFS反复读取硬盘所带来的巨大时间消耗。针对缓存替换算法主要有两种:基于时间局部性的缓存管理算法和基于访问频率的缓存管理算法。基于时间局部性的LRU类算法重点关注访问数据的近期特性,每次置换的都是最久未访问的数据块。而基于访问频率的LFU类算法则重点关注访问数据的频率特性,每次置换的都是频率最小的数据块,保存了很多高频数据项。但是,对于LRU类算法,当顺序读取大量的数据时,这些数据会充满整个缓存空间,当缓存被存满后,若想放入新的缓存数据,则需要淘汰最近最少使用的数据,在这种情况下,缓存中存放的永远是新读入的数据,而不是真正需要缓存的数据。同时,在LFU类算法中,新的数据只要不被频繁读取就会被淘汰,在实际应用中也存在很大的不足。为了吸收两种算法中的有益想法,很多算法在时间局部性和访问频率两个特性之间寻求平衡点,ARC(Adjustable ReplacementCache)替换算法是其中的佼佼者,它也可以用于HDFS的小文件管理。因此,本发明公布了一种基于ARC替换算法的HDFS小文件管理方法,ARC能够利用LRU和LFU的优点,避免它们的缺点,具体的ARC实现过程可以参见文献《ARC:a self-tuning,low overhead replacementcache》。
发明内容
本发明解决HDFS分布式文件系统以流式的方式访问大文件时效率很高,但是当海量小文件的访问特别是频繁访问重复的小文件时效率比较低的问题。
为了解决上述技术问题,本发明采用如下技术方案:
基于ARC替换算法的HDFS小文件缓存管理方法,首先在数据节点上使用tmpfs构建数据缓存区,其中,tmpfs是Linux/Unix系统上的一种基于内存的文件系统。在Namenode端集成两个模块:判断模块和决策模块,在Datanode集成一个执行模块。其次,将判断模块、决策模块和执行模块作为三个阶段对小文件进行缓存替换操作。最后,当需要缓存小文件数据块时,Namenode将与数据块存储的Datanode进行通信,并发出指令将数据块缓存在数据节点的高速缓存中。
所述判断模块首先判断请求信息类型,如果是访问请求,再判断访问文件大小是否小于阈值Tf,如果是,则将该文件视为小文件,并使用决策模块的ARC缓存替换算法进行处理,否则不做缓存处理;如果是创建、删除信息,将直接交给执行模块处理。
在文件的访问过程中,所请求小文件如果存储在缓存中,即为缓存命中,否则未能命中,然后根据访问情况及缓存空间使用情况按照ARC算法进行文件的缓存替换操作。
所述决策模块使用一个缓存列表来管理缓存区的文件,并根据缓存列表来选择要替换的缓存文件对象,再由执行模块按照决策模块的指令进行文件缓存替换操作。
缓存管理方法可分为客户端、名字节点和数据节点三个部分,客户端通过RPC协议分别与名字节点和数据节点进行通信,完成对数据的访问操作。
当客户端向集群提交I/O请求后,Namenode可将请求分为三种类型:访问请求、创建请求和删除请求。
当客户端向集群中的名字节点申请访问数据时,包括以下3个步骤:
1)名字节点获得待访问的数据文件信息,判断该文件是否位于缓存中;
2)若该文件已缓存,那么直接读取数据节点上缓存的文件数据,并使用ARC算法更新缓存管理,此时为一次缓存命中,缓存中的数据将提供访问请求服务;
3)若该文件不在缓存列表中,此时缓存未能命中,读取数据节点磁盘上的文件数据;然后判断是否可以缓存该文件,其中缓存条件为访问文件大小小于阈值Tf;当缓存存储空间不足时使用ARC缓存替换算法将访问频率低的文件数据块从缓存中移除,确保新访问的文件数据块存储在缓存中。
当客户端向集群中的名字节点申请创建文件时,判断创建的文件是否已经存在HDFS中,是继续判断该文件是否存在于数据节点的缓存中,是则将新创建的文件数据块替换位于缓存和磁盘中旧的文件数据块,否则替换磁盘上的文件数据块;如果创建的文件不存在HDFS中,则将文件数据块放置在磁盘上。
当客户端向集群中的名字节点申请删除文件时,判断删除的文件是否存在数据节点的缓存中时,是则删除缓存和磁盘中的文件数据块;否则,删除位于磁盘上的文件数据块。
客户端与名字节点进行Hadoop默认的RPC(Remote Procedure Call Protocol)通信,通过将客户端维护的缓存列表与名字节点记录的缓存数据项进行比较,如果不一致,则删除多余的缓存数据项。
本发明的目标是在数据节点上缓存一部分高热度小文件数据块在内存中,避免频繁访问小文件时与磁盘交互而造成巨额开销,提高HDFS系统访问小文件的性能。本发明提出的缓存管理方法能针对HDFS中小文件的访问、创建、删除任务进行不同的处理操作。为了提高客户端在文件访问时的性能,本发明将可能被频繁访问的小文件数据块存储在数据节点的缓存中,因此,缓存对象会根据实际的访问情况动态替换。本发明使用ARC缓存替换算法,该算法结合了LRU和LFU的优点,能尽可能准确的缓存高热度小文件数据块。本发明提出的缓存替换管理方法解决了HDFS中小文件被各应用频繁访问时效率低下的问题,应用前景广阔,适合当HDFS系统中小文件较多且小文件经常被频繁访问的场景,本发明能大大减少HDFS反复读取硬盘所带来的时间消耗,提高任务的运行效率。
附图说明
图1是本发明的整个系统所包含的模块及模块间的关系
图2是本发明对文件I/O请求处理过程
图3验证了ARC算法相对其他缓存替换算法在缓存命中率上的优越性
具体实施方式
为了更好的阐述本发明方案设计,下面结合附图和具体实施方式对本发明做进一步的详细说明。首先在数据节点上将tmpfs挂载到Linux系统上,并将tmpfs挂载的目录设置为小文件缓存存储目录。
当需要缓存小文件数据块时,Namenode将与数据块存储的Datanode进行通信,并发出指令将数据块缓存在数据节点的高速缓存中。如图1所示,在Namenode端集成两个模块,分别是:判断模块和决策模块。在Datanode集成一个执行模块。判断模块首先判断请求信息类型,如果是访问请求,然后判断访问文件大小是否小于阈值Tf,如果是,则将该文件视为小文件,并使用决策模块的ARC缓存替换算法进行处理,否则不做缓存处理;如果是创建、删除请求,将直接交给执行模块处理。决策模块实现了ARC缓存替换算法,在文件的访问过程中,所请求小文件如果存储在缓存中,即为缓存命中,否则未能命中。然后根据访问情况及缓存空间使用情况按照ARC算法进行文件的缓存替换操作。当文件需要进行缓存替换时通知执行模块,决策模块不直接添加或移除缓存文件对象。执行模块管理缓存对象的添加与删除。它负责根据判断模块和决策模块的指令,向缓存空间中添加和移除缓存对象。
在决策模块中,使用一个缓存列表来管理缓存区的文件,根据缓存列表来选择要替换的缓存文件对象,然后执行模块按照决策模块的指令进行文件缓存替换操作。决策模块只保存存储在缓存中的文件信息,并没有保存文件数据。因此,决策模块每次从缓存列表中添加或移除缓存对象,数据并没有真正的在缓存区添加或删除,当执行模块触发时才进行文件替换操作。
对于缓存数据的请求方案可分为客户端、名字节点、数据节点三个部分。在缓存优化方法中,数据节点负责缓存文件数据块,名字节点负责向数据节点发送缓存文件数据块指令,同时,名字节点和数据节点对客户端用户来说是透明的,且为客户端用户提供一系列的数据服务。客户端通过RPC协议分别与名字节点和数据节点进行通信,完成对文件的I/O请求操作。图2是本发明对文件I/O请求处理过程,当客户端向集群提交I/O请求后,Namenode可将请求分为三种类型:访问请求、创建请求和删除请求。当客户端向集群中的名字节点申请访问数据时,总体可以概括为以下三个步骤:1.客户端获得待访问的数据文件信息,判断该文件是否位于缓存中。2.若该文件已缓存,那么直接读取数据节点上缓存的文件数据,并使用ARC算法更新缓存管理,此时为一次缓存命中。3.若该文件不在缓存列表中,此时缓存未能命中,读取数据节点磁盘上的文件数据。然后判断是否可以缓存该文件,其中缓存条件为访问文件大小小于阈值Tf。当缓存存储空间不足时使用ARC缓存替换算法将访问频率低的文件数据块从缓存中移除,确保新访问的文件数据块存储在缓存中。当客户端向集群中的名字节点申请创建文件时,判断创建的文件是否已经存在HDFS中,是继续判断该文件是否存在于数据节点的缓存中,是则将新创建的文件数据块替换位于缓存和磁盘中旧的文件数据块,否则替换磁盘上的文件数据块。如果创建的文件不存在HDFS中,则将文件数据块放置在磁盘上。当客户端向集群中的名字节点申请删除文件时,判断创建的文件是否已经存在于数据节点的缓存中时,是则删除缓存和磁盘中的文件数据块。否则删除位于磁盘上的文件数据块。
缓存中的数据可能会因为用户的操作而出现与低速实体数据不一致的情况,因HDFS系统本身具有数据一致性和数据持久化的特性,所以在本发明所提出的方案中,数据一致性只需要考虑客户端用户维护的缓存列表与名字节点中记录的缓存数据项是否一致即可。本文提出的策略是客户端与名字节点进行RPC通信,并将客户端维护的缓存列表与名字节点记录的缓存数据项进行比较,如果不一致,则删除多余的缓存数据项。
ARC算法能够很好地结合LRU和LFU算法。即使是在访问模型经常发生变化的文件系统中,ARC也能够同时捕获访问序列的时间局部性和访问频率两个特性,因此,ARC算法能够拥有较高的缓存命中率。在小文件访问过程中,能尽可能使得访问的文件数据块位于数据节点的缓存中。图3验证了ARC算法相对于其他缓存替换算法在缓存命中率的优越性,实验使用500个1MB大小规模的文件进行测试,测试从这500个文件中随机读取5000次。相关研究表明互联网上的文件访问符合Zipf分布,因此实验随机读取文件采用的随机函数是Zipf函数。从图3可以看出,ARC缓存替换有着更高的访问命中率。而缓存命中率是提高小文件访问效率一个重要指标,缓存命中率越高,说明访问更多的发生在缓存区,访问效率也就越高。同时,缓存命中率越高,那么在缓存系统中文件变化也就小,从而在替换时所进行的写操作也就越少,读取时间也就越少。总体来说,缓存命中率越高HDFS的访问效率也就越高。因此,ARC算法将很好的适应HDFS中小文件缓存替换操作。
本发明解决HDFS分布式文件系统以流式的方式访问大文件时效率很高,但是当海量小文件的访问特别是频繁访问重复的小文件时效率比较低的问题。本发明的技术方法为:一种基于ARC替换算法的HDFS小文件缓存管理方法,包括一个集群,集群包括一个Namenode(名字节点)和多个Datanode(数据节点),Namenode能被多个客户端访问。本发明通过判断文件大小和访问热度将高热度小文件数据块缓存数据节点上,缓存区使用tmpfs构建。在文件访问过程中,根据ARC缓存替换算法不断调整文件数据块存储的位置,使得缓存区能处理绝大多数小文件的访问请求,提高HDFS任务的运行效率。
首先,缓存管理需要在数据节点上构建缓存区,本发明基于tmpfs作为数据缓存区,tmpfs是Linux/Unix系统上的一种基于内存的文件系统。tmpfs刚开始挂载到Linux系统并不占内存存储空间,随着小文件在缓存区的缓存或移除,内存占用将会相应的增加或减少,因此,tmpfs的内存占用存储空间是动态变化的。
其次,当需要缓存小文件数据块时,Namenode将与数据块存储的Datanode进行通信,并发出指令将数据块缓存在数据节点的高速缓存中。在Namenode端集成两个模块,分别是:判断模块和决策模块。在Datanode集成一个执行模块。判断模块首先判断请求信息类型,如果是访问请求,再判断访问文件大小是否小于阈值Tf,如果是,则将该文件视为小文件,并使用决策模块的ARC缓存替换算法进行处理,否则不做缓存处理;如果是创建、删除信息,将直接交给执行模块处理。决策模块实现了ARC缓存替换算法,在文件的访问过程中,所请求小文件如果存储在缓存中,即为缓存命中,否则未能命中。然后根据访问情况及缓存空间使用情况按照ARC算法进行文件的缓存替换操作。当文件需要进行缓存替换时通知执行模块,决策模块不直接添加或移除缓存文件对象。执行模块管理缓存对象的添加与删除,它负责根据判断模块和决策模块的指令,向缓存空间中添加和移除缓存对象。
在决策模块中,使用一个缓存列表来管理缓存区的文件,并根据缓存列表来选择要替换的缓存文件对象,再由执行模块按照决策模块的指令进行文件缓存替换操作。决策模块只保存存储在缓存中的文件信息,并没有保存文件数据。因此,决策模块每次从缓存列表中添加或移除缓存对象,数据并没有真正的在缓存区添加或删除,当执行模块触发时才进行文件替换操作。
再次,缓存管理方法可分为客户端、名字节点和数据节点三个部分,在缓存优化方法中,名字节点和数据节点对客户端用户来说是透明的,且为客户端用户提供一系列的数据服务。客户端通过RPC(Remote Procedure Call Protocol)协议分别与名字节点和数据节点进行通信,完成对数据的访问操作。当客户端向集群提交I/O请求后,Namenode可将请求分为三种类型:访问请求、创建请求和删除请求。
①.当客户端向集群中的名字节点申请访问数据时,总体可以概括为以下3个步骤:
1.名字节点获得待访问的数据文件信息,判断该文件是否位于缓存中。
2.若该文件已缓存,那么直接读取数据节点上缓存的文件数据,并使用ARC算法更新缓存管理,此时为一次缓存命中,缓存中的数据将提供访问请求服务。
3.若该文件不在缓存列表中,此时缓存未能命中,读取数据节点磁盘上的文件数据。然后判断是否可以缓存该文件,其中缓存条件为访问文件大小小于阈值Tf。当缓存存储空间不足时使用ARC缓存替换算法将访问频率低的文件数据块从缓存中移除,确保新访问的文件数据块存储在缓存中。
②.当客户端向集群中的名字节点申请创建文件时,判断创建的文件是否已经存在HDFS中,是继续判断该文件是否存在于数据节点的缓存中,是则将新创建的文件数据块替换位于缓存和磁盘中旧的文件数据块,否则替换磁盘上的文件数据块。如果创建的文件不存在HDFS中,则将文件数据块放置在磁盘上。
③.当客户端向集群中的名字节点申请删除文件时,判断删除的文件是否存在数据节点的缓存中时,是则删除缓存和磁盘中的文件数据块。否则,删除位于磁盘上的文件数据块。
最后,缓存中的数据可能会因为用户的操作而出现与低速实体数据不一致的情况,因HDFS系统本身具有数据一致性和数据持久化的特性,所以在本发明所提出的方案中,数据一致性只需要考虑客户端用户维护的缓存列表与名字节点中记录的缓存数据项是否一致即可。本文提出的策略是客户端与名字节点进行RPC通信,并将客户端维护的缓存列表与名字节点记录的缓存数据项进行比较,如果不一致,则删除多余的缓存数据项。
通常认为文件大小在5MB以内的文件称为小文件,因此本文将缓存文件的阈值Tf设置为5MB。

Claims (10)

1.基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:首先在数据节点上使用tmpfs构建数据缓存区,在Namenode端集成两个模块:判断模块和决策模块,在Datanode集成一个执行模块,当需要缓存小文件数据块时,Namenode将与数据块存储的Datanode进行通信,并发出指令将数据块缓存在数据节点的高速缓存中,将判断模块、决策模块和执行模块作为三个阶段对小文件进行缓存替换操作。
2.根据权利要求1所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:所述判断模块首先判断请求信息类型,如果是访问请求,再判断访问文件大小是否小于阈值Tf,如果是,则将该文件视为小文件,并使用决策模块的ARC缓存替换算法进行处理,否则不做缓存处理;如果是创建、删除信息,将直接交给执行模块处理。
3.根据权利要求1所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:在文件的访问过程中,所请求小文件如果存储在缓存中,即为缓存命中,否则未能命中,然后根据访问情况及缓存空间使用情况按照ARC算法进行文件的缓存替换操作。
4.根据权利要求2或3所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:所述决策模块使用一个缓存列表来管理缓存区的文件,并根据缓存列表来选择要替换的缓存文件对象,再由执行模块按照决策模块的指令进行文件缓存替换操作。
5.根据权利要求1所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:缓存管理方法可分为客户端、名字节点和数据节点三个部分,客户端通过RPC协议分别与名字节点和数据节点进行通信,完成对数据的访问操作。
6.根据权利要求5所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:当客户端向集群提交I/O请求后,Namenode可将请求分为三种类型:访问请求、创建请求和删除请求。
7.根据权利要求6所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:当客户端向集群中的名字节点申请访问数据时,包括以下3个步骤:
1)名字节点获得待访问的数据文件信息,判断该文件是否位于缓存中;
2)若该文件已缓存,那么直接读取数据节点上缓存的文件数据,并使用ARC算法更新缓存管理,此时为一次缓存命中,缓存中的数据将提供访问请求服务;
3)若该文件不在缓存列表中,此时缓存未能命中,读取数据节点磁盘上的文件数据;然后判断是否可以缓存该文件,其中缓存条件为访问文件大小小于阈值Tf;当缓存存储空间不足时使用ARC缓存替换算法将访问频率低的文件数据块从缓存中移除,确保新访问的文件数据块存储在缓存中。
8.根据权利要求6所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:当客户端向集群中的名字节点申请创建文件时,判断创建的文件是否已经存在HDFS中,是继续判断该文件是否存在于数据节点的缓存中,是则将新创建的文件数据块替换位于缓存和磁盘中旧的文件数据块,否则替换磁盘上的文件数据块;如果创建的文件不存在HDFS中,则将文件数据块放置在磁盘上。
9.根据权利要求6所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:当客户端向集群中的名字节点申请删除文件时,判断删除的文件是否存在数据节点的缓存中时,是则删除缓存和磁盘中的文件数据块;否则,删除位于磁盘上的文件数据块。
10.根据权利要求6所述的基于ARC替换算法的HDFS小文件缓存管理方法,其特征在于:客户端与名字节点进行RPC通信,并将客户端维护的缓存列表与名字节点记录的缓存数据项进行比较,如果不一致,则删除多余的缓存数据项。
CN201710664858.1A 2017-08-07 2017-08-07 基于arc替换算法的hdfs小文件缓存管理方法 Pending CN107368608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710664858.1A CN107368608A (zh) 2017-08-07 2017-08-07 基于arc替换算法的hdfs小文件缓存管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710664858.1A CN107368608A (zh) 2017-08-07 2017-08-07 基于arc替换算法的hdfs小文件缓存管理方法

Publications (1)

Publication Number Publication Date
CN107368608A true CN107368608A (zh) 2017-11-21

Family

ID=60309493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710664858.1A Pending CN107368608A (zh) 2017-08-07 2017-08-07 基于arc替换算法的hdfs小文件缓存管理方法

Country Status (1)

Country Link
CN (1) CN107368608A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108089998A (zh) * 2017-12-13 2018-05-29 郑州云海信息技术有限公司 一种Linux分页替换方法及系统
CN108932288A (zh) * 2018-05-22 2018-12-04 广东技术师范学院 一种基于Hadoop的海量小文件缓存方法
CN110008190A (zh) * 2019-03-21 2019-07-12 武汉理工大学 一种周期性的小文件缓存置换方法
CN110502487A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种缓存管理方法与装置
CN110908965A (zh) * 2019-11-07 2020-03-24 北京浪潮数据技术有限公司 一种对象存储管理方法、装置、设备及存储介质
CN112948286A (zh) * 2019-12-10 2021-06-11 阿里巴巴集团控股有限公司 数据缓存方法、装置、电子设备及计算机可读介质
CN114025019A (zh) * 2022-01-05 2022-02-08 深圳市名竹科技有限公司 基于arc算法的cdn缓存实现方法、装置和计算机设备
CN114356230A (zh) * 2021-12-22 2022-04-15 天津南大通用数据技术股份有限公司 一种提高列存储引擎读性能的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366016A (zh) * 2013-08-01 2013-10-23 南京大学 基于hdfs的电子文件集中存储及优化方法
CN103530387A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种hdfs针对小文件的改进方法
CN104270412A (zh) * 2014-06-24 2015-01-07 南京邮电大学 一种基于Hadoop分布式文件系统的三级缓存方法
CN105872040A (zh) * 2016-03-30 2016-08-17 华中科技大学 一种利用网关节点缓存优化分布式块存储写性能的方法
CN105912675A (zh) * 2016-04-13 2016-08-31 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置
KR101672901B1 (ko) * 2014-12-03 2016-11-07 충북대학교 산학협력단 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366016A (zh) * 2013-08-01 2013-10-23 南京大学 基于hdfs的电子文件集中存储及优化方法
CN103530387A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种hdfs针对小文件的改进方法
CN104270412A (zh) * 2014-06-24 2015-01-07 南京邮电大学 一种基于Hadoop分布式文件系统的三级缓存方法
KR101672901B1 (ko) * 2014-12-03 2016-11-07 충북대학교 산학협력단 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템
CN105872040A (zh) * 2016-03-30 2016-08-17 华中科技大学 一种利用网关节点缓存优化分布式块存储写性能的方法
CN105912675A (zh) * 2016-04-13 2016-08-31 中国科学院计算技术研究所 一种针对小文件合并的批量删除/查询方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈旭: "基于Hadoop的海量小文件处理技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑 2006年》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108089998A (zh) * 2017-12-13 2018-05-29 郑州云海信息技术有限公司 一种Linux分页替换方法及系统
CN108932288A (zh) * 2018-05-22 2018-12-04 广东技术师范学院 一种基于Hadoop的海量小文件缓存方法
CN108932288B (zh) * 2018-05-22 2022-04-12 广东技术师范大学 一种基于Hadoop的海量小文件缓存方法
CN110008190A (zh) * 2019-03-21 2019-07-12 武汉理工大学 一种周期性的小文件缓存置换方法
CN110502487A (zh) * 2019-08-09 2019-11-26 苏州浪潮智能科技有限公司 一种缓存管理方法与装置
CN110502487B (zh) * 2019-08-09 2022-11-22 苏州浪潮智能科技有限公司 一种缓存管理方法与装置
CN110908965A (zh) * 2019-11-07 2020-03-24 北京浪潮数据技术有限公司 一种对象存储管理方法、装置、设备及存储介质
CN112948286A (zh) * 2019-12-10 2021-06-11 阿里巴巴集团控股有限公司 数据缓存方法、装置、电子设备及计算机可读介质
CN114356230A (zh) * 2021-12-22 2022-04-15 天津南大通用数据技术股份有限公司 一种提高列存储引擎读性能的方法及系统
CN114356230B (zh) * 2021-12-22 2024-04-23 天津南大通用数据技术股份有限公司 一种提高列存储引擎读性能的方法及系统
CN114025019A (zh) * 2022-01-05 2022-02-08 深圳市名竹科技有限公司 基于arc算法的cdn缓存实现方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN107368608A (zh) 基于arc替换算法的hdfs小文件缓存管理方法
CN102523279B (zh) 一种分布式文件系统及其热点文件存取方法
CN102523285B (zh) 一种基于对象分布式文件系统的存储缓存方法
CN102014158B (zh) 一种云存储服务客户端高效细粒度数据缓存系统与方法
CN103067433B (zh) 一种分布式存储系统的数据迁移方法、设备和系统
CN106775446B (zh) 基于固态硬盘加速的分布式文件系统小文件访问方法
CN110188080A (zh) 基于客户端高效缓存的远程文件数据访问性能优化方法
CN102164160B (zh) 支持大并发量文件下载的方法、装置及系统
CN103338242B (zh) 一种基于多级缓存的混合云存储系统和方法
WO2012090549A1 (ja) 情報管理方法、及び情報提供用計算機
CN113672175A (zh) 分布式对象存储方法、装置和设备及计算机存储介质
CN102439580A (zh) 用于网络加速以及对高速缓存文件系统进行高效索引编制的系统及方法
CN109656956B (zh) 一种实现业务系统数据集中式缓存的方法及装置
CN106528451B (zh) 针对小文件的二级缓存预取的云存储框架及构建方法
CN105159845A (zh) 存储器读取方法
CN105701219A (zh) 一种分布式缓存的实现方法
CN111159176A (zh) 一种海量流数据的存储和读取的方法和系统
CN112764948B (zh) 数据发送方法、数据发送装置、计算机设备及存储介质
CN106155934A (zh) 一种云环境下基于重复数据的缓存方法
CN113918857A (zh) 一种提高分布式web应用系统性能的三级缓存加速方法
CN114817195A (zh) 一种分布式存储缓存管理的方法、系统、存储介质及设备
CN109002260A (zh) 一种缓存数据的处理方法和处理系统
CN105915619A (zh) 顾及访问热度的网络空间信息服务高性能内存缓存方法
CN117539915B (zh) 一种数据处理方法及相关装置
WO2022148306A1 (zh) 一种淘汰数据的方法、装置、缓存节点以及缓存系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171121