CN103678579A - 一种小文件存储效率的优化方法 - Google Patents

一种小文件存储效率的优化方法 Download PDF

Info

Publication number
CN103678579A
CN103678579A CN201310672912.9A CN201310672912A CN103678579A CN 103678579 A CN103678579 A CN 103678579A CN 201310672912 A CN201310672912 A CN 201310672912A CN 103678579 A CN103678579 A CN 103678579A
Authority
CN
China
Prior art keywords
small documents
file
signal
load
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310672912.9A
Other languages
English (en)
Inventor
张立雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310672912.9A priority Critical patent/CN103678579A/zh
Publication of CN103678579A publication Critical patent/CN103678579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种小文件存储效率的优化方法,采用序列文件技术将小文件合并为大文件,结合多属性决策理论和实验得出合并文件的最优方式,通过基于层次分析法的系统负载预测算法实现系统的负载均衡。该一种小文件存储效率的优化方法和现有技术相比,实现了节省名称节点所占内存空间的目的,同时也实现了对合并之后的小文件的透明操作;实用性强,适用范围广泛,易于推广。

Description

一种小文件存储效率的优化方法
技术领域
本发明涉及计算机应用技术领域,具体的说是一种小文件存储效率的优化方法。
背景技术
HDFS采用主从式架构设计模式(master/slavearchitec时间到re),一个名称节点(NameNode)和若干数据节点(DataNode)构成HDFS集群。HDFS的这种单名称节点的设计极大地简化了文件系统的结构,然而也因此引发了HDFS的小文件存储效率低的问题。因为HDFS中的每个目录和文件的元数据信息都存放在名称节点的内存中,如果系统中存在大量的小文件(指那些比HDFS数据块(默认为64MB)小得多的文件),则无疑会降低整个存储系统的存储效率和存储能力。
在各种存储系统中,存在大量这样的小文件。美国西北太平洋国家实验室2007年的一份研究报告表明,他们系统中有1 200万个文件,其中94%的文件小于64 MB,58%的小于64 kB。在一些具体的科研计算环境中,也存在大量的小文件,例如,在某些生物学计算中可能会产生3 000万个文件,而其平均大小只有190 kB。
解决基于HDFS的存储系统中小文件存储效率问题的主流思想是将小文件合并或组合为大文件,目前主要的方法分为2种,一种是利用Hadoop归档(Hadoop archive,HAR)等技术实现小文件合并的方法,另一种则是针对具体的应用而提出的文件组合方法。
利用HAR技术实现小文件的合并,从而提高了HDFS中元数据的存储效率。结合WebGIS应用,以Hadoop为存储平台开发了HDWebGIS原型系统;结合WebGIS访问模式的特点,将小文件组合为大文件并为其建立全局索引,从而提高了小文件存储效率。将小文件合并到大文件中并结合预取机制来提高系统存储和访问小文件的效率的方法。对分布式存储系统中小文件的并发访问进行了优化。
以上的研究工作都是基于文件的合并或组合来解决小文件存储效率不高的问题,然而还存在以下2个问题:第一,作为一个完整的系统,在提高小文件存储效率的同时,也应该考虑到系统的负载状况,因为不管是文件合并还是文件组合,对HDFS而言都是一个额外的操作;第二,未对小文件合并规模进行研究,即尚未确定多少个小文件合并为一个大文件可以使系统性能达到最优。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种小文件存储效率的优化方法。
本发明的技术方案是按以下方式实现的,该一种小文件存储效率的优化方法,其具体优化步骤为:
一、序列文件合并:所述序列文件是HDFS提供的一种二进制文件,在存储系统中,对二进制文件由小文件合并为大文件,以小文件的索引号为key、内容为value的形式进行合并,合并的同时实现基于数据块的压缩;
二、对小文件存储效率优化:
1)由存储系统为每个用户建立三种队列:第一种为序列文件队列SFQ,用于小文件的合并;第二种为序列文件操作队列SFOQ,用于对合并后小文件的操作;第三种为备用队列BQ,用于操作的小文件数超过第一种或第二种长度的情况;
2)用户将本地的文件上传至云存储服务器;
3)服务器开始对该文件的类型进行判断;
4)如果是小文件,将该文件的索引号放入SFQ中;
5)当SFQ满时,将发送“队列满”信号给控制器,而当定时器到定时点时,将发送“时间到”信号给控制器;
6)接收到“队列满”或者“时间到”信号后,控制器开始读取SFQ的相关信息;
7)对系统负载进行计算,并据此决定是否进行小文件的合并;
8)文件合并后完成小文件与大文件之间的映射。
所述存储系统中采用多叉树的结构来构建文件索引,当用户将文件上传到存储系统后,系统会自动根据用户文件的组织形式建立对应的多叉树索引。
所述步骤5)~步骤8)中的控制器的具体处理逻辑为:
当控制器接收到信号时,首先判断信号类型,如果是“队列满”信号,则调用系统负载预测算法计算系统负载:
如果得到的系统负载低于系统设定的阈值,则开始合并文件,并取消系统中的“时间到”信号;如果系统负载大于系统设定的阈值,则进一步判断BQ的数量:若BQ数量小于某个值,则新建BQ,将SFQ转移到BQ中并推迟合并操作,设定“时间到”信号,若BQ数量大于该某个值,则将BQ中的小文件进行合并,取消系统中的“时间到”信号;
如果接收到的是“时间到”信号,计算系统负载并判断是否大于系统设定的阈值:
若负载大于阈值,则推迟合并操作并设定“时间到”信号;若负载小于阈值,则合并BQ中的小文件,取消系统中的其他“时间到”信号。
所述系统负载预测算法是指基于层次分析法的算法:通过获取系统属性的历史信息,经过2次层次分析法分析,最终得到系统负载的预测值。
所述系统负载预测算法的详细过程为:算法依据系统属性的重要性,将每个时刻的系统负载属性值经过层次分析法分析融合为单一的决策属性值,然后依据决策属性值的时间重要性,经过第二次层次分析法分析最终得到下一时刻的系统负载值。
本发明与现有技术相比所产生的有益效果是:
本发明的一种小文件存储效率的优化方法采用SequenceFile技术将小文件以队列的形式合并为大文件,从而实现了节省名称节点所占内存空间的目的,同时也实现了对合并之后的小文件的透明操作;在确定影响队列长度的指标之后,通过实验获取指标值,采用数据标准化方法和三标度层次分析法确定队列长度的最优值,使得小文件的合并能在合并时间、文件操作时间和节省内存空间之间达到一种平衡;实用性强,适用范围广泛,易于推广。
附图说明
附图1是本发明的小文件存储效率优化框图。
附图2是本发明的控制器控制逻辑流程图。
附图3是本发明实施例合并文件的平均时间示意图。
附图4是本发明实施例读取小文件的平均时间示意图。
附图5是本发明实施例节省的内存空间示意图。
附图6是本发明实施例Min-Max法的标准化数据示意图。
附图7是本发明实施例Z-Score法的标准化数据示意图。
附图8是本发明实施例分析结果示意图。
具体实施方式
下面结合附图对本发明的一种小文件存储效率的优化方法作以下详细说明。
如附图1、图2所示,本发明提供一种小文件存储效率的优化方法,基于HDFS的存储系统,采用序列文件技术将小文件合并为大文件,结合多属性决策理论和实验得出合并文件的最优方式,通过基于层次分析法(analytic hierarchy process,AHP)的系统负载预测算法实现系统的负载均衡。其具体优化步骤为:
一、序列文件合并:序列文件(SequenceFile)是HDFS提供的一种二进制文件技术,这种二进制文件直接将对序列化到文件,文件序列化时可实现基于记录或数据块的压缩。在存储系统中,对二进制文件采用SequenceFile技术将小文件合并为大文件,以小文件的索引号为key、内容为value的形式进行合并,合并的同时实现基于数据块的压缩,这样,在节省名称节点内存空间的同时也节省了数据节点的磁盘空间。
二、对小文件存储效率优化:
为提高对小文件的处理效率,系统为每个用户建立了3种队列:第1种为序列文件队列(SequenceFile queue,SFQ),第2种为序列文件操作队列(SequenceFile operation queue,SFOQ),第3种为备用队列(Backup queue,BQ)。其中,SFQ用于小文件的合并,SFOQ用于对合并后小文件的操作,BQ用于操作的小文件数超过SFQ或SFOQ长度的情况。3种队列的长度一致,可通过实验得出队列长度的最优值。
如图1所示,用户将本地的文件上传至云存储服务器,即附图中的过程1;然后服务器开始对该文件的类型进行判断,即附图中的过程2;如果是小文件,将该文件的索引号放入SFQ中,即附图中的过程3;当SFQ满时,将发送“队列满”信号QF给控制器,如图中虚线口所示,而当定时器到定时点时,将发送“时间到”信号TU给控制器,如虚线b所示。接收到QF或者TU信号后,控制器开始读取SFQ的相关信息,即附图中的过程4.1;对系统负载进行计算,即附图中的过程4.2;并据此决定是否进行小文件的合并,即附图中的过程5。文件合并后完成小文件与大文件之间的映射,即附图中的过程6。
控制器的具体处理逻辑如图2所示:当控制器接收到信号时,首先判断信号类型,如果是QF,则调用基于AHP的系统负载预测算法计算系统负载。如果得到的系统负载低于系统设定的阈值,则开始合并文件,包括SFQ和BQ,并取消系统中的TU信号;如果系统负载大于系统设定的阈值,则进一步判断BQ的数量,若BQ数量小于某个值,例如3,则新建BQ,将SFQ转移到BQ中并推迟合并操作,系统中设定推迟的时间为30 min,设定TU信号,若BQ数量大于3,则将BQ中的小文件进行合并,取消系统中的TU信号。
如果接收到的是TU信号,计算系统负载并判断是否大于系统设定的阈值。若负载大于阈值,则推迟合并操作并设定TU信号;若负载小于阈值,则合并BQ中的小文件,取消系统中的其他TU信号。
所述存储系统中采用多叉树的结构来构建文件索引,当用户将文件上传到存储系统后,系统会自动根据用户文件的组织形式建立对应的多叉树索引。
所述系统负载预测算法是指基于层次分析法的算法:
系统负载预测通常定义为基于CPU利用率、内存利用率、带宽利用率和系统平均吞吐量等系统属性对系统运行状态进行的多属性决策。
层次分析法(AHP)是美国运筹学家托马斯萨迪提出的一种层次权重决策分析方法,是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。
负载计算得到的是一个即时值或历史值,即只能够得到当前或以前时刻的系统负载,然而对小文件的操作是在系统负载计算之后,因此需要根据系统负载的历史信息来推测下一时刻的系统负载。基于此,本文设计了基于AHP的系统负载预测算法。该算法通过获取系统属性的历史信息,经过2次AHP分析,最终可得到系统负载的预测值。
算法依据系统属性的重要性,将每个时刻的系统负载属性值经过AHP分析融合为单一的决策属性值,然后依据决策属性值的时间重要性,经过第二次AHP分析最终得到下一时刻的系统负载值。
通过本发明提出的这一算法,可以实现对系统负载的预测,从而将对小文件的操作控制在某个能够均衡系统负载的时刻进行。
为提高小文件的操作效率,系统为每个用户建立了SFQ和SFOQ,并如附图3、图4、图5所示的实施例所示,通过实验研究SFQ长度对存储系统的影响,选取读取文件时间、合并文件时间和节省的内存空间作为参考指标,以得到小文件合并的最优方式。
在基于HDFS的云存储系统中,对文件的操作主要有上传、下载、读取等。合并操作对上传没有影响,下载的核心操作也是读取,因此选取读取文件时间作为参考指标。提高名称节点内存利用率是本文的主要工作,因此将通过合并文件节省的内存空间作为参考指标之一。合并文件的效率是影响存储系统性能的一个重要因素,故也将合并文件时间作为参考指标。
实验方案与实验结果。
我们将通过3个实验分别获取在SequenceFile中读取小文件的平均时间、合并文件的平均时间以及合并所能节省的内存空间等指标值,并通过AHP分析数据,得出SFQ长度与系统性能的关系。6台浪潮服务器构成存储环境,服务器的配置均为CPU 8 Intel Xeon 2。13 GHz,内存8 GB,硬盘500 GB,操作系统均为CentOS  6。04,Hadoop版本为1.20.0。
实验1统计合并文件的平均时间t1。按照SFQ长度分别为100、200、300、400、500、600、700、800、900、1 000合并小文件50次,并且在不同的时段重复这样的实验10次。统计这10种情况下合并文件所需时间的平均值,最终得到合并文件的时间,结果如图3所示。
实验2统计读取小文件的平均时间t2。小文件合并为SequenceFile之后,读取小文件的时间主要分为在SequenceFile中查找小文件的时间和获取小文件内容的时间两部分,因此,小文件合并之后读取文件的时间与该文件在SequenceFile中所处的位置有关。HDFS提供的API中采用顺序查找算法进行文件查找,因此读取的文件在SequenceFile中位置越靠后所需的时间越长。在实验l中得到的10个大文件中以10为步长读取小文件,获取其平均时间作为读取该大文件中小文件的平均时间,实验结果如图4所示。
实验3统计合并10000个小文件节省的内存空间。将10000个小文件上传到云存储系统,统计其占用名称节点的内存空间,然后分别按照SFQ长度为100、200、300、400、500、600、700、800、900、1 000进行合并,获取合并后占用名称节点的内存空间,两者之差即为合并操作所节省的内存空间,实验结果如图5所示。
实验结果分析:
数据标准化将实验指标转化为逆指标(越小越好的指标),分别利用Min-Max方法和Z-Score方法对转化为逆指标的实验数据进行标准化睁9I,结果如图6、图7所示。
系统性能决策值计算利用AHP进行权重计算。由于读取文件是最频繁的操作,因此认定读取文件时间为3个指标中最重要的,节省的内存空间其次。据此,计算3个指标的权重如下表所示。
指标 读取文件时间 节省内存空间 合并文件时间
权重 0.6370 0.2853 0.1047
将标准化的数据与相应的权重相乘之后相加,得到系统性能决策值,如图8所示。
结果分析从图8可以看到,两种数据标准化方法都反映出一个规律,即在本发明的实验环境中,性能决策值随着SFQ长度的增大呈现一种类似开口向上的抛物线状变化,并且在SFQ长度为400时取得最小值。由于采用了逆指标进行计算,因此当性能决策值最小时,表示系统性能达到了最优。由此可以得出结论:在本发明的存储环境中,SFQ长度取400是小文件合并的最优方式;根据基于AHP的系统负载预测算法对系统运行状况监控的结果,可以得到小文件合并的最佳时间。
通过实验可知,小文件合并的规模越大,名称节点消耗的内存空间将越少,与此同时,对小文件的操作(读取、删除等)以及合并文件所花费的时间代价也将越大。在其他基于HDFS的存储系统中采用本文的方案进行分析和部署,都可在时间消耗和内存利用率之间实现一种最优平衡,实现在小文件存储效率提高的同时不影响系统性能的目标。
基于上述内容,本发明针对基于HDFS的云存储系统中小文件存储效率不高的问题,提出了一套完整的解决方案。在该发明中,采用SequenceFile技术将小文件以队列的形式合并为大文件,从而实现了节省名称节点所占内存空间的目的,同时也实现了对合并之后的小文件的透明操作。在确定影响队列长度的指标之后,通过实验获取指标值,采用数据标准化方法和三标度层次分析法确定队列长度的最优值,使得小文件的合并能在合并时间、文件操作时间和节省内存空间之间达到一种平衡。基于负载均衡的目的,本发明设计了基于AHP的负载预测算法对系统负载进行预测。
针对基于HDFS的存储系统中小文件存储效率不高的问题,采用序列文件技术设计了一个存储系统中小文件的处理方法。该方法利用多维属性决策理论,综合读文件时间、合并文件时间及节省内存空间大小等指标,得出合并小文件的最优方式,能够在消耗的时间和节省的内存空间之间取得平衡;设计基于层次分析法的系统负载预测算法对系统负载进行预测,从而实现负载均衡的目的;利用序列文件技术对小文件进行合并。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种小文件存储效率的优化方法,其特征在于其具体优化步骤为:
一、序列文件合并:所述序列文件是HDFS提供的一种二进制文件,在存储系统中,对二进制文件由小文件合并为大文件,以小文件的索引号为key、内容为value的形式进行合并,合并的同时实现基于数据块的压缩;
二、对小文件存储效率优化:
1)由存储系统为每个用户建立三种队列:第一种为序列文件队列SFQ,用于小文件的合并;第二种为序列文件操作队列SFOQ,用于对合并后小文件的操作;第三种为备用队列BQ,用于操作的小文件数超过第一种或第二种长度的情况;
2)用户将本地的文件上传至云存储服务器;
3)服务器开始对该文件的类型进行判断;
4)如果是小文件,将该文件的索引号放入SFQ中;
5)当SFQ满时,将发送“队列满”信号给控制器,而当定时器到定时点时,将发送“时间到”信号给控制器;
6)接收到“队列满”或者“时间到”信号后,控制器开始读取SFQ的相关信息;
7)对系统负载进行计算,并据此决定是否进行小文件的合并;
8)文件合并后完成小文件与大文件之间的映射。
2.根据权利要求1所述的一种小文件存储效率的优化方法,其特征在于:所述存储系统中采用多叉树的结构来构建文件索引,当用户将文件上传到存储系统后,系统会自动根据用户文件的组织形式建立对应的多叉树索引。
3.根据权利要求2所述的一种小文件存储效率的优化方法,其特征在于:所述步骤5)~步骤8)中的控制器的具体处理逻辑为:
当控制器接收到信号时,首先判断信号类型,如果是“队列满”信号,则调用系统负载预测算法计算系统负载:
如果得到的系统负载低于系统设定的阈值,则开始合并文件,并取消系统中的“时间到”信号;如果系统负载大于系统设定的阈值,则进一步判断BQ的数量:若BQ数量小于某个值,则新建BQ,将SFQ转移到BQ中并推迟合并操作,设定“时间到”信号,若BQ数量大于该某个值,则将BQ中的小文件进行合并,取消系统中的“时间到”信号;
如果接收到的是“时间到”信号,计算系统负载并判断是否大于系统设定的阈值:
若负载大于阈值,则推迟合并操作并设定“时间到”信号;若负载小于阈值,则合并BQ中的小文件,取消系统中的其他“时间到”信号。
4.根据权利要求1~3中任一所述的一种小文件存储效率的优化方法,其特征在于:所述系统负载预测算法是指基于层次分析法的算法:通过获取系统属性的历史信息,经过2次层次分析法分析,最终得到系统负载的预测值。
5.根据权利要求4所述的一种小文件存储效率的优化方法,其特征在于:所述系统负载预测算法的详细过程为:算法依据系统属性的重要性,将每个时刻的系统负载属性值经过层次分析法分析融合为单一的决策属性值,然后依据决策属性值的时间重要性,经过第二次层次分析法分析最终得到下一时刻的系统负载值。
CN201310672912.9A 2013-12-12 2013-12-12 一种小文件存储效率的优化方法 Pending CN103678579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310672912.9A CN103678579A (zh) 2013-12-12 2013-12-12 一种小文件存储效率的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310672912.9A CN103678579A (zh) 2013-12-12 2013-12-12 一种小文件存储效率的优化方法

Publications (1)

Publication Number Publication Date
CN103678579A true CN103678579A (zh) 2014-03-26

Family

ID=50316124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310672912.9A Pending CN103678579A (zh) 2013-12-12 2013-12-12 一种小文件存储效率的优化方法

Country Status (1)

Country Link
CN (1) CN103678579A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916479A (zh) * 2014-04-15 2014-07-09 大连理工大学 一种基于工作组文件的云同步局域网加速系统
CN104636209A (zh) * 2015-02-15 2015-05-20 大连云动力科技有限公司 基于大数据和云存储系统定向性能优化的资源调度系统和方法
CN104978236A (zh) * 2015-07-07 2015-10-14 四川大学 一种基于多衡量指标的hdfs负载源宿节点选取方法
CN105141685A (zh) * 2015-08-18 2015-12-09 浪潮(北京)电子信息产业有限公司 文件读写系统及其元数据存储器和文件读写方法和装置
CN105160013A (zh) * 2015-09-24 2015-12-16 珠海许继芝电网自动化有限公司 一种数据采集系统的通信报文保存方法
CN105608162A (zh) * 2015-12-17 2016-05-25 网易(杭州)网络有限公司 文件处理方法和装置
CN105653592A (zh) * 2016-01-28 2016-06-08 浪潮软件集团有限公司 一种基于hdfs的小文件合并工具和方法
CN107168802A (zh) * 2017-05-18 2017-09-15 郑州云海信息技术有限公司 一种云存储中小文件的合并方法及装置
CN107463606A (zh) * 2017-06-22 2017-12-12 浙江力石科技股份有限公司 一种用于大数据存储系统的数据压缩引擎及方法
CN107547605A (zh) * 2016-06-29 2018-01-05 华为技术有限公司 一种基于节点队列的消息读写方法及节点设备
CN107679177A (zh) * 2017-09-29 2018-02-09 郑州云海信息技术有限公司 一种基于hdfs的小文件存储优化方法、装置、设备
CN108595567A (zh) * 2018-04-13 2018-09-28 郑州云海信息技术有限公司 一种小文件的合并方法、装置、设备及可读存储介质
CN110147203A (zh) * 2019-05-16 2019-08-20 北京金山云网络技术有限公司 一种文件管理方法、装置、电子设备及存储介质
CN110275865A (zh) * 2019-06-20 2019-09-24 珠海天燕科技有限公司 文件存储优化方法和装置
CN112860641A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 基于hadoop的小文件存储方法及其装置
CN117519608A (zh) * 2023-12-27 2024-02-06 泰安北航科技园信息科技有限公司 一种以Hadoop为核心的大数据服务器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130232176A1 (en) * 2012-03-05 2013-09-05 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh Online Reorganization of Hybrid In-Memory Databases
CN103366016A (zh) * 2013-08-01 2013-10-23 南京大学 基于hdfs的电子文件集中存储及优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130232176A1 (en) * 2012-03-05 2013-09-05 Hasso-Plattner-Institut Fur Softwaresystemtechnik Gmbh Online Reorganization of Hybrid In-Memory Databases
CN103366016A (zh) * 2013-08-01 2013-10-23 南京大学 基于hdfs的电子文件集中存储及优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余思 等: "一种提高云存储中小文件存储效率的方案", 《西安交通大学学报》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103916479A (zh) * 2014-04-15 2014-07-09 大连理工大学 一种基于工作组文件的云同步局域网加速系统
CN103916479B (zh) * 2014-04-15 2017-05-03 大连理工大学 一种基于工作组文件的云同步局域网加速系统
CN104636209B (zh) * 2015-02-15 2018-08-24 大连云动力科技有限公司 基于大数据和云存储系统定向性能优化的资源调度系统和方法
CN104636209A (zh) * 2015-02-15 2015-05-20 大连云动力科技有限公司 基于大数据和云存储系统定向性能优化的资源调度系统和方法
CN104978236A (zh) * 2015-07-07 2015-10-14 四川大学 一种基于多衡量指标的hdfs负载源宿节点选取方法
CN104978236B (zh) * 2015-07-07 2018-11-06 四川大学 基于多衡量指标的hdfs负载源宿节点选取方法
CN105141685A (zh) * 2015-08-18 2015-12-09 浪潮(北京)电子信息产业有限公司 文件读写系统及其元数据存储器和文件读写方法和装置
CN105160013A (zh) * 2015-09-24 2015-12-16 珠海许继芝电网自动化有限公司 一种数据采集系统的通信报文保存方法
CN105608162A (zh) * 2015-12-17 2016-05-25 网易(杭州)网络有限公司 文件处理方法和装置
CN105608162B (zh) * 2015-12-17 2019-03-19 网易(杭州)网络有限公司 文件处理方法和装置
CN105653592A (zh) * 2016-01-28 2016-06-08 浪潮软件集团有限公司 一种基于hdfs的小文件合并工具和方法
CN107547605A (zh) * 2016-06-29 2018-01-05 华为技术有限公司 一种基于节点队列的消息读写方法及节点设备
CN107547605B (zh) * 2016-06-29 2020-01-31 华为技术有限公司 一种基于节点队列的消息读写方法及节点设备
CN107168802A (zh) * 2017-05-18 2017-09-15 郑州云海信息技术有限公司 一种云存储中小文件的合并方法及装置
CN107463606B (zh) * 2017-06-22 2020-11-13 浙江力石科技股份有限公司 一种用于大数据存储系统的数据压缩引擎及方法
CN107463606A (zh) * 2017-06-22 2017-12-12 浙江力石科技股份有限公司 一种用于大数据存储系统的数据压缩引擎及方法
CN107679177A (zh) * 2017-09-29 2018-02-09 郑州云海信息技术有限公司 一种基于hdfs的小文件存储优化方法、装置、设备
CN108595567A (zh) * 2018-04-13 2018-09-28 郑州云海信息技术有限公司 一种小文件的合并方法、装置、设备及可读存储介质
CN110147203A (zh) * 2019-05-16 2019-08-20 北京金山云网络技术有限公司 一种文件管理方法、装置、电子设备及存储介质
CN110275865A (zh) * 2019-06-20 2019-09-24 珠海天燕科技有限公司 文件存储优化方法和装置
CN110275865B (zh) * 2019-06-20 2021-08-27 珠海天燕科技有限公司 文件存储优化方法和装置
CN112860641A (zh) * 2021-01-29 2021-05-28 西藏宁算科技集团有限公司 基于hadoop的小文件存储方法及其装置
CN117519608A (zh) * 2023-12-27 2024-02-06 泰安北航科技园信息科技有限公司 一种以Hadoop为核心的大数据服务器
CN117519608B (zh) * 2023-12-27 2024-03-22 泰安北航科技园信息科技有限公司 一种以Hadoop为核心的大数据服务器

Similar Documents

Publication Publication Date Title
CN103678579A (zh) 一种小文件存储效率的优化方法
CN101866359B (zh) 一种机群文件系统中的小文件存储和访问方法
US20230004436A1 (en) Container scheduling method and apparatus, and non-volatile computer-readable storage medium
Samadi et al. Comparative study between Hadoop and Spark based on Hibench benchmarks
CN107291539B (zh) 基于资源重要程度的集群程序调度方法
CN105139281A (zh) 一种电力营销大数据的处理方法及系统
US20160292608A1 (en) Multi-cluster management method and device
US10042885B2 (en) Index table based routing for query resource optimization
Herodotou et al. Automating distributed tiered storage management in cluster computing
Agrahari et al. A review paper on Big Data: technologies, tools and trends
CN104657286A (zh) 一种分级存储方法及装置
Yang et al. Improving Spark performance with MPTE in heterogeneous environments
Jing et al. An optimized method of HDFS for massive small files storage
CN117078048A (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN111966293A (zh) 一种冷热数据分析方法及系统
CN103685544A (zh) 一种基于性能预估的客户端缓存分配方法和系统
CN108595251B (zh) 动态图更新方法、装置、存储引擎接口和程序介质
AU2017288044A1 (en) Method and system for flexible, high performance structured data processing
CN112000703B (zh) 数据入库处理方法、装置、计算机设备和存储介质
Guan et al. HDFS optimization strategy based on hierarchical storage of hot and cold data
CN103246539B (zh) 基于用户使用习惯的gis系统模块加载方法
Selvi et al. Popularity (hit rate) based replica creation for enhancing the availability in cloud storage
Lee et al. A big data management system for energy consumption prediction models
CN116450053A (zh) 数据存储方法、装置、系统、电子设备和存储介质
Yang et al. On construction of the air pollution monitoring service with a hybrid database converter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140326

WD01 Invention patent application deemed withdrawn after publication