CN110019082A - 文件数据的分布式多副本存储方法 - Google Patents

文件数据的分布式多副本存储方法 Download PDF

Info

Publication number
CN110019082A
CN110019082A CN201710636934.8A CN201710636934A CN110019082A CN 110019082 A CN110019082 A CN 110019082A CN 201710636934 A CN201710636934 A CN 201710636934A CN 110019082 A CN110019082 A CN 110019082A
Authority
CN
China
Prior art keywords
file
access frequency
copies
copy
rank
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710636934.8A
Other languages
English (en)
Inventor
刘哲
胡伦良
张海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Potevio Information Technology Co Ltd
Putian Information Technology Co Ltd
Original Assignee
Putian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian Information Technology Co Ltd filed Critical Putian Information Technology Co Ltd
Priority to CN201710636934.8A priority Critical patent/CN110019082A/zh
Publication of CN110019082A publication Critical patent/CN110019082A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出文件数据的分布式多副本存储方法。方法包括:预设多个文件访问频率级别以及每个文件访问频率级别对应的文件副本数,其中,文件访问频率级别越高对应的文件副本数越多;接收新上传的文件,设置文件的文件访问频率级别为最高级别;利用分布式文件系统客户端对文件进行分片,以及按照最高级别的文件访问频率对应的文件副本数,对文件的分片执行多副本存储处理;维护文件的文件访问频率;当发现文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定文件需删除的副本数,根据该需删除的副本数,对文件的所有分片的副本进行与该需删除的副本数相符的删除处理。本申请降低了文件数据的分布式多副本存储成本。

Description

文件数据的分布式多副本存储方法
技术领域
本发明涉及分布式文件存储技术领域,尤其涉及文件数据的分布式多副本存储方法。
背景技术
Hadoop是一个并行处理海量数据的工具。HDFS(the Hadoop Distributed FileSystem,Hadoop分布式文件系统)主要用于大数据文件的分析。其特点是将一个超大文件分解成多个小文件,部署到多台低配置机器上进行存储和分析。
分布式多副本策略指的是,对于由超大文件分解成的多个小文件中的每个小文件,分别创建多个副本,该多个副本分别存储在不同的机器上。
分布式多副本策略的缺陷主要体现在:
一、HDFS整体存储成本较高。以常用的3副本策略为例,实际所需存储空间为存储数据容量的3倍,直接增加了存储硬件成本。
二、HDFS处理效率降低。多副本策略增加了文件索引的建立时间,并且增加了NameNode(文件记录节点)的内存消耗。其中,NameNode用于创建并存储每个副本的描述信息。
三、负载均衡能力不足。多副本策略对系统中的数据均维持相同数目的副本数量而不是区别对待,导致系统无法根据需求动态调整副本数目。
发明内容
本发明提供文件数据的分布式多副本存储方法,以降低文件数据的分布式多副本存储成本。
本发明的技术方案是这样实现的:
一种文件数据的分布式多副本存储方法,预先设置多个文件访问频率级别,设置每个文件访问频率级别对应的文件副本数,其中,文件访问频率级别越高对应的文件副本数越多,该方法包括:
接收到新上传的文件,设置所述文件的文件访问频率级别为最高级别;
利用分布式文件系统客户端对所述文件进行分片,以及按照最高级别的文件访问频率对应的文件副本数,对所述文件的分片执行多副本存储处理;
维护所述文件的文件访问频率;
当发现所述文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定所述文件需删除的副本数,根据该需删除的副本数,对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理。
预先为每个级别设置一个文件描述队列;
所述设置所述文件的文件访问频率级别为最高级别进一步包括:
将所述文件的文件描述信息放入最高级别的文件访问频率对应的文件描述队列中,所述文件描述信息包括:文件名和文件的接收时间;
所述对所述文件的分片执行多副本存储处理包括:
为所述文件的每个分片分配存储该分片的每个副本的数据节点,将每个分片的每个副本分别存储到对应的数据节点上。
所述方法进一步包括:
接收到用户输入的读文件指令,该指令携带时间段,根据该时间段,在文件描述队列中查找对应的文件名;
利用分布式文件系统客户端查询到该文件的每个分片的每个副本所在的数据节点,并在确定的每个分片的所有副本所在的数据节点中选择一个数据节点,从所选择的数据节点上读取该分片的一个副本;
将分布式文件系统客户端读取到的该文件的所有分片的副本合并成一个完整的文件提供给用户。
所述根据该需删除的副本数,对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理包括:
根据所述文件的文件名,确定该文件的每个分片的每个副本所在的数据节点,在确定的每个分片的所有副本所在的数据节点中选择与需删除的副本数相符的数据节点,将所选择的数据节点上的副本删除。
所述确定所述文件需删除的副本数包括:
根据所述文件的文件名查找到所述文件的文件描述信息,将查找到的文件描述信息所在文件描述队列的访问频率级别作为所述文件的当前访问频率级别,计算所述文件的当前访问频率级别对应的副本数与降低后的级别对应的副本数的差值,该差值即为所述文件需删除的副本数。
预先设置访问频率维护周期,
所述维护所述文件的访问频率包括:
在每个访问频率维护周期开始时,将所有文件的访问次数及访问频率重置为0,当接收到针对一个文件的读文件指令时,将该文件的访问次数加1,在当前访问频率维护周期结束时,计算每个文件的访问频率=当前访问频率维护周期内该文件的访问次数/访问频率维护周期的长度。
所述预先设置多个文件访问频率级别,设置每个文件访问频率级别对应的文件副本数为:文件管理器预先设置多个文件访问频率级别,并设置每个文件访问频率级别对应的文件副本数;
所述接收到新上传的文件,设置所述文件的文件访问频率级别为最高级别包括:
文件管理器接收到新上传的文件,设置所述文件的文件访问频率级别为最高级别,确定所述文件的副本数为最高级别的文件访问频率对应的文件副本数,将所述文件及所述文件的副本数发送给分布式文件系统客户端;
所述对所述文件进行分片为:分布式文件系统客户端对所述文件进行分片;
且所述按照最高级别的文件访问频率对应的文件副本数,对所述文件的分片执行多副本存储处理包括:
分布式文件系统客户端将所述文件的所有分片标识和副本数发送给文件记录节点,并按照文件记录节点返回的为每个分片分配的所有数据节点标识,将每个分片的每个副本分别存储到对应的数据节点上;
所述维护所述文件的访问频率为:文件管理器维护所述文件的访问频率;
所述发现所述文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定所述文件需删除的副本数包括:
文件管理器发现所述文件的文件访问频率级别降低,根据降低后的级别对应的文件副本数,确定所述文件需删除的副本数,将所述文件的文件名和需删除的副本数发送给分布式文件系统客户端;
所述根据该需删除的副本数,对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理包括:
分布式文件系统客户端确定所述文件的所有分片标识,将所述文件的所有分片标识和需删除的副本数发送给文件记录节点,按照文件记录节点返回的为每个分片选择的需删除的副本所在的数据节点标识,删除对应数据节点上的副本。
所述分布式文件系统为Hadoop分布式文件系统HDFS。
本发明通过维护文件的访问频率,并根据文件的访问频率的动态变化,动态删除文件的副本,降低了文件数据的分布式多副本存储成本,提高了分布式文件系统的处理效率及负载均衡能力。
附图说明
图1为本申请实施例提供的文件数据的分布式多副本存储方法流程图;
图2为本申请实施例提供的文件数据的分布式多副本存储的写文件的方法流程图;
图3为本申请实施例提供的文件数据的分布式多副本存储的读文件的方法流程图;
图4为本申请实施例提供的文件数据的分布式多副本存储的动态维护副本的方法流程图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图1为本申请实施例提供的文件数据的分布式多副本存储方法流程图,其具体步骤如下:
步骤100:预先设置多个文件访问频率级别,设置每个文件访问频率级别对应的文件副本数,其中,级别越高对应的文件副本数越多。
例如:可以设置三个文件访问频率级别,分别称为:高频、中频和低频。
步骤101:接收到新上传的文件,设置该文件的文件访问频率级别为最高级别。
步骤102:利用分布式文件系统客户端对该文件进行分片,以及按照最高文件访问频率级别对应的文件副本数,对该文件的分片执行多副本存储处理。
步骤103:维护该文件的访问频率。
步骤104:当发现该文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定该文件需删除的副本数,根据该需删除的文件副本数,对该文件的所有分片的副本进行与该需删除的文件副本数相符的删除处理。
图2为本申请实施例提供的文件数据的分布式多副本存储的写文件的方法流程图,其具体步骤如下:
步骤200:预先在文件管理器上设置多个级别的文件访问频率,并设置每个文件访问频率级别的文件访问频率的范围,并设置每个文件访问频率级别对应的文件副本数,且,预先在文件管理器上为每个文件访问频率级别分别创建一个文件描述队列。
例如:可以设置三个文件访问频率级别,分别称为高频、中频和低频,并设置文件访问频率级别分别为高、中、低频时对应的频率范围,设置文件访问频率级别分别为高、中、低频时对应的文件副本数。
显然,文件访问频率级别越高,其对应的访问频率越高,其对应的文件副本数越多。即文件访问频率越高,文件的副本数越多。
步骤201:文件管理器接收到新上传的文件,为该文件打上时间戳,确定该文件的访问频率级别为最高级别,将该文件的文件描述信息放入最高访问频率级别对应的文件描述队列。
这里的时间戳对应的是接收文件的时间。
这里的文件描述信息包括:文件名、时间戳等。
步骤202:文件管理器将该文件以及该文件对应的副本数(即最高级别的文件访问频率对应的副本数)发送给HDFS Client(客户端)。
步骤203:HDFS Client向NameNode发送文件记录创建指令,该指令携带该文件的文件名、时间戳等。
步骤204:NameNode接收该文件记录创建指令,根据该指令携带的文件名、时间戳等创建一条文件记录,并向HDFS Client返回指示创建成功的文件记录创建结果消息。
步骤205:HDFS Client接收该文件记录创建结果指令,将该文件分成多个分片,并将每个分片的描述信息以及该文件对应的副本数携带在DataNode(数据节点)分配指令中发送给NameNode。
每个分片的描述信息包括:分片标识、分片大小等。
步骤206:NameNode接收该DataNode分配指令,根据该指令携带的分片描述信息以及副本数,为每个分片分配存储该分片的每个副本的DataNode,将DataNode分配结果返回给HDFS Client,并保存该DataNode分配结果。
DataNode分配结果包含了:为每个分片的每个副本分配的DataNode信息,即包含了:每个分片的分片标识与为该分片的所有副本分配的DataNode标识之间的对应关系。
步骤207:HDFS Client接收该DataNode分配结果,根据该DataNode分配结果指示的为该文件的每个分片的每个副本分配的DataNode的标识,将每个分片的每个副本分别存储到对应的DataNode上。
步骤208:HDFS Client保存该文件的分片描述信息。
这里,文件的分片描述信息至少包括该文件的文件名以及该文件的所有分片的分片标识。
图3为本申请实施例提供的文件数据的分布式多副本存储的读文件的方法流程图,其具体步骤如下:
步骤301:文件管理器接收到用户输入的读文件指令,该指令携带时间段。
步骤302:文件管理器根据该读文件指令携带的时间段,在各文件描述队列中查找该时间段对应的文件描述信息。
步骤303:文件管理器根据查找到的文件描述信息中的文件名,向HDFSClient发送读文件指令,该指令携带该文件名。
步骤304:HDFS Client根据该文件名,在自身保存的各文件的分片描述信息中,查找该文件名对应的所有分片标识,向NameNode发送读副本获取消息,该消息携带该文件的所有分片标识。
步骤305:NameNode接收该读副本获取消息,对于该消息携带的每个分片标识,在自身保存的DataNode分配结果中查找该分片标识对应的所有DataNode标识,按照预设读副本选择原则,在该查找到的所有DataNode标识中选择一个DataNode标识;当为该消息携带的所有分片标识都选择了一个DataNode标识后,将为所有分片标识选择的DataNode标识携带在读副本获取响应消息中返回给HDFS Client。
由于文件的每个分片可能存在多个副本,而每个副本分别存储在一个DataNode上,因此,NameNode在查找到每个分片标识对应了多个DataNode标识后,需要在其中选择一个,选择原则(即上述的读副本选择原则)可以是最短路由,即:所选择的DataNode标识对应的DataNode与HDFS Client之间的路由最短,以方便HDFS Client在最短时间内读取到该副本,当然选择原则也可以是其它原则,预先定义即可。
步骤306:HDFS Client接收该读副本获取响应消息,根据该消息携带的为该文件的所有分片标识选择的DataNode标识,分别从对应的DataNode上读取每个分片的副本,读取完毕,将所有分片的副本合并成一个完整的文件返回给文件管理器。
步骤307:文件管理器将HDFS Client返回的文件提供给用户。
图4为本申请实施例提供的文件数据的分布式多副本存储的动态维护副本的方法流程图,其具体步骤如下:
步骤401:文件管理器预先设置访问频率维护周期,在每个访问频率维护周期开始时,将所有文件的访问次数及访问频率重置为0。
步骤402:当接收到针对一个文件的读文件指令时,文件管理器将该文件的访问次数加1。
步骤403:文件管理器在当前访问频率维护周期结束时,计算每个文件的访问频率=当前访问频率维护周期内该文件的访问次数/访问频率维护周期的长度。
步骤404:对于任一文件,若文件管理器在当前访问频率维护周期结束时,根据计算出的该文件的文件访问频率所在的频率范围,确认该文件的访问频率级别降低,则计算该文件当前的访问频率级别对应的副本数与需降低到的访问频率级别对应的副本数之间的差值,将该差值作为该文件需删除的副本数。
可根据该文件的文件名查找到对应的文件描述队列,将该文件描述队列的访问频率级别作为该文件的当前访问频率级别。
步骤405:文件管理器向HDFS Client发出副本删除指令,该指令携带该文件的文件名以及需删除副本数。
步骤406:HDFS Client接收该副本删除指令,根据该指令携带的文件名,在自身保存的各文件的分片描述信息中,查找该文件对应的所有分片标识,向NameNode发送删除副本获取消息,该消息携带该文件对应的所有分片标识以及需删除副本数。
步骤407:NameNode接收该删除副本获取指令,对于该指令携带的每个分片标识,在自身保存的DataNode分配结果中,查找该分片标识对应的所有DataNode标识,根据预设的删除副本选择原则,在查找到的所有DataNode标识中,选择与需删除副本数相同数目的DataNode标识;当为所有分片标识都选择完DataNode标识后,将为所有分片标识选择的DataNode标识携带在删除副本获取响应消息中返回给HDFS Client,同时,更新自身保存的该文件的所有分片标识对应的DataNode分配结果。
即,若需删除副本数为m,则NameNode需要为每个分片标识选择m个DataNode标识,选择原则(即上述的删除副本选择原则)可以是:最长路由原则,即所选择的DataNode标识对应的DataNode节点与HDFS Client之间的路由最长,即若m>1,则NameNode按照最长路由原则,在分片标识对应的多个DataNode标识中,依次选择对应的DataNode节点与HDFSClient之间的路由最长的NodeNode标识,直到选择完m个DataNode节点为止。
步骤408:HDFS Client接收该删除副本获取指令,根据该指令携带的为所有分片标识选择的DataNode标识,分别向各DataNode发送删除副本指令。
步骤409:HDFS Client接收到所有DataNode发来的副本删除完成消息后,向文件管理器发送携带文件名的副本删除完成消息。
步骤410:文件管理器接收该副本删除完成消息,根据该文件的文件名在对应访问频率级别的文件描述队列中查找到该文件的文件描述信息,将该文件描述信息移动到该文件降低到的访问频率级别的文件描述队列中。
本申请的有益效果如下:
通过初始设置并维护文件的访问频率,并根据文件的访问频率的动态变化,动态删除文件的副本,降低了文件数据的分布式多副本存储成本,提高了分布式文件系统的处理效率及负载均衡能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种文件数据的分布式多副本存储方法,其特征在于,预先设置多个文件访问频率级别,设置每个文件访问频率级别对应的文件副本数,其中,文件访问频率级别越高对应的文件副本数越多,该方法包括:
接收到新上传的文件,设置所述文件的文件访问频率级别为最高级别;
利用分布式文件系统客户端对所述文件进行分片,以及按照最高级别的文件访问频率对应的文件副本数,对所述文件的分片执行多副本存储处理;
维护所述文件的文件访问频率;
当发现所述文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定所述文件需删除的副本数,根据该需删除的副本数,对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理。
2.根据权利要求1所述的方法,其特征在于,预先为每个级别设置一个文件描述队列;
所述设置所述文件的文件访问频率级别为最高级别进一步包括:
将所述文件的文件描述信息放入最高级别的文件访问频率对应的文件描述队列中,所述文件描述信息包括:文件名和文件的接收时间;
所述对所述文件的分片执行多副本存储处理包括:
为所述文件的每个分片分配存储该分片的每个副本的数据节点,将每个分片的每个副本分别存储到对应的数据节点上。
3.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:
接收到用户输入的读文件指令,该指令携带时间段,根据该时间段,在文件描述队列中查找对应的文件名;
利用分布式文件系统客户端查询到该文件的每个分片的每个副本所在的数据节点,并在确定的每个分片的所有副本所在的数据节点中选择一个数据节点,从所选择的数据节点上读取该分片的一个副本;
将分布式文件系统客户端读取到的该文件的所有分片的副本合并成一个完整的文件提供给用户。
4.根据权利要求2所述的方法,其特征在于,所述根据该需删除的副本数,对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理包括:
根据所述文件的文件名,确定该文件的每个分片的每个副本所在的数据节点,在确定的每个分片的所有副本所在的数据节点中选择与需删除的副本数相符的数据节点,将所选择的数据节点上的副本删除。
5.根据权利要求2所述的方法,其特征在于,所述确定所述文件需删除的副本数包括:
根据所述文件的文件名查找到所述文件的文件描述信息,将查找到的文件描述信息所在文件描述队列的访问频率级别作为所述文件的当前访问频率级别,计算所述文件的当前访问频率级别对应的副本数与降低后的级别对应的副本数的差值,该差值即为所述文件需删除的副本数。
6.根据权利要求1所述的方法,其特征在于,预先设置访问频率维护周期,
所述维护所述文件的访问频率包括:
在每个访问频率维护周期开始时,将所有文件的访问次数及访问频率重置为0,当接收到针对一个文件的读文件指令时,将该文件的访问次数加1,在当前访问频率维护周期结束时,计算每个文件的访问频率=当前访问频率维护周期内该文件的访问次数/访问频率维护周期的长度。
7.根据权利要求1所述的方法,其特征在于,所述预先设置多个文件访问频率级别,设置每个文件访问频率级别对应的文件副本数为:文件管理器预先设置多个文件访问频率级别,并设置每个文件访问频率级别对应的文件副本数;
所述接收到新上传的文件,设置所述文件的文件访问频率级别为最高级别包括:
文件管理器接收到新上传的文件,设置所述文件的文件访问频率级别为最高级别,确定所述文件的副本数为最高级别的文件访问频率对应的文件副本数,将所述文件及所述文件的副本数发送给分布式文件系统客户端;
所述对所述文件进行分片为:分布式文件系统客户端对所述文件进行分片;
且所述按照最高级别的文件访问频率对应的文件副本数,对所述文件的分片执行多副本存储处理包括:
分布式文件系统客户端将所述文件的所有分片标识和副本数发送给文件记录节点,并按照文件记录节点返回的为每个分片分配的所有数据节点标识,将每个分片的每个副本分别存储到对应的数据节点上;
所述维护所述文件的访问频率为:文件管理器维护所述文件的访问频率;
所述发现所述文件的文件访问频率级别降低时,根据降低后的级别对应的文件副本数,确定所述文件需删除的副本数包括:
文件管理器发现所述文件的文件访问频率级别降低,根据降低后的级别对应的文件副本数,确定所述文件需删除的副本数,将所述文件的文件名和需删除的副本数发送给分布式文件系统客户端;
所述根据该需删除的副本数,对所述文件的所有分片的副本进行与该需删除的副本数相符的删除处理包括:
分布式文件系统客户端确定所述文件的所有分片标识,将所述文件的所有分片标识和需删除的副本数发送给文件记录节点,按照文件记录节点返回的为每个分片选择的需删除的副本所在的数据节点标识,删除对应数据节点上的副本。
8.根据权利要求7所述的方法,其特征在于,所述分布式文件系统为Hadoop分布式文件系统HDFS。
CN201710636934.8A 2017-07-31 2017-07-31 文件数据的分布式多副本存储方法 Pending CN110019082A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710636934.8A CN110019082A (zh) 2017-07-31 2017-07-31 文件数据的分布式多副本存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710636934.8A CN110019082A (zh) 2017-07-31 2017-07-31 文件数据的分布式多副本存储方法

Publications (1)

Publication Number Publication Date
CN110019082A true CN110019082A (zh) 2019-07-16

Family

ID=67186020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710636934.8A Pending CN110019082A (zh) 2017-07-31 2017-07-31 文件数据的分布式多副本存储方法

Country Status (1)

Country Link
CN (1) CN110019082A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825704A (zh) * 2019-09-27 2020-02-21 华为技术有限公司 一种读数据方法、写数据方法及服务器
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118133A (zh) * 2013-02-28 2013-05-22 浙江大学 基于文件访问频次的混合云存储方法
US9262323B1 (en) * 2012-11-26 2016-02-16 Amazon Technologies, Inc. Replication in distributed caching cluster
CN106933868A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种调整数据分片分布的方法及数据服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262323B1 (en) * 2012-11-26 2016-02-16 Amazon Technologies, Inc. Replication in distributed caching cluster
CN103118133A (zh) * 2013-02-28 2013-05-22 浙江大学 基于文件访问频次的混合云存储方法
CN106933868A (zh) * 2015-12-30 2017-07-07 阿里巴巴集团控股有限公司 一种调整数据分片分布的方法及数据服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张倩: "HDFS副本管理策略研究与实现", 《万方学位论文》 *
蒋浩: "分布式文件存储系统副本管理方法", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825704A (zh) * 2019-09-27 2020-02-21 华为技术有限公司 一种读数据方法、写数据方法及服务器
CN110825704B (zh) * 2019-09-27 2023-09-01 华为云计算技术有限公司 一种读数据方法、写数据方法及服务器
US12038879B2 (en) 2019-09-27 2024-07-16 Huawei Cloud Computing Technologies Co., Ltd. Read and write access to data replicas stored in multiple data centers
CN111475108A (zh) * 2020-03-20 2020-07-31 平安国际智慧城市科技股份有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质
CN111475108B (zh) * 2020-03-20 2023-11-28 深圳赛安特技术服务有限公司 一种分布式存储方法、计算机设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110268394A (zh) Kvs树
CN102999519B (zh) 一种数据库的读写方法及系统
CN102629247B (zh) 一种数据处理方法、装置和系统
CN100583832C (zh) 数据管理方法及系统
KR102564170B1 (ko) 데이터 객체 저장 방법, 장치, 및 이를 이용한 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능한 저장 매체
CN110383261A (zh) 用于多流存储装置的流选择
JP6281225B2 (ja) 情報処理装置
WO2016149552A1 (en) Compaction policy
CN107707600B (zh) 一种数据存储方法及装置
CN103226556A (zh) 文件列表生成方法及系统、文件列表生成装置及程序
CN103514210B (zh) 小文件处理方法及装置
CN110321325A (zh) 文件索引节点查找方法、终端、服务器、系统及存储介质
CN102739622A (zh) 一种可扩展的数据存储系统
KR101744892B1 (ko) 시계열 계층 인덱싱을 이용한 데이터 검색 시스템 및 데이터 검색 방법
CN105787037B (zh) 一种重复数据的删除方法及装置
CN104660643A (zh) 请求响应方法、装置及分布式文件系统
CN108009408A (zh) 一种权限管理方法、装置、可读介质及存储控制器
CN110245129B (zh) 一种分布式全局数据去重方法和装置
CN108563743A (zh) 一种文件读写方法、系统及设备和存储介质
CN104516974A (zh) 一种文件系统目录项的管理方法及装置
CN103186622A (zh) 一种全文检索系统中索引信息的更新方法以及装置
CN111045988B (zh) 文件查找方法、设备和计算机程序产品
CN106155934A (zh) 一种云环境下基于重复数据的缓存方法
CN110109866A (zh) 一种文件系统目录的管理方法及设备
CN109344650A (zh) 一种文件系统的文件权限管理方法、系统及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716

RJ01 Rejection of invention patent application after publication