CN104516945A - 一种基于关系数据库的hdfs元数据存储方法 - Google Patents

一种基于关系数据库的hdfs元数据存储方法 Download PDF

Info

Publication number
CN104516945A
CN104516945A CN201410659149.0A CN201410659149A CN104516945A CN 104516945 A CN104516945 A CN 104516945A CN 201410659149 A CN201410659149 A CN 201410659149A CN 104516945 A CN104516945 A CN 104516945A
Authority
CN
China
Prior art keywords
metadata
data
memory
linked list
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410659149.0A
Other languages
English (en)
Inventor
江樱
王志强
戴波
刘鸿宁
裴旭斌
谭潇
纪德良
石佳
解林超
姜震
于亚丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201410659149.0A priority Critical patent/CN104516945A/zh
Publication of CN104516945A publication Critical patent/CN104516945A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的目的在于解决现有技术所存在的问题,找到一种数据读取快,又能存储更多元数据的基于关系数据库的HDFS元数据存储方法。包括:建立关系数据库的步骤,建立内存存储的步骤,元数据写入的步骤,元数据读取的步骤。通过实施本发明可以取得以下有益技术效果:采用关系数据库存储元数据信息,并且将使用频繁的数据保存到内存中,读取数据时优先查询内存中的数据,即保证了数据读取的快速,又能解决内存不足引起的存储量不足的问题;同时第一次写入的数据放入内存后,其存放的地址不是双链表表头所指向的内存地址,而是双链表表中指向的内存地址,这样降低了备份数据在内存中的持续时间,提高了内存的利用率。

Description

一种基于关系数据库的HDFS元数据存储方法
技术领域
本发明涉及一种数据存储方法,具体设计一种基于关系数据库的HDFS元数据存储方法。
背景技术
HDFS被设计成适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上,HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。由于HDFS中的Namenode把文件系统的元数据放置在内存中,相对数据读取较快,但是文件系统所能容纳的文件数目是由Namenode的内存大小来决定。一般来说,每一个文件、文件夹和Block需要占据150字节左右的空间,所以,如果你有100万个文件,每一个占据一个Block,你就至少需要300MB内存。当前来说,数百万的文件还是可行的,当扩展到数十亿或更多时,对于当前的硬件水平来说就没法实现了。
至少有两种情况下会产生大量的小文件
1.这些小文件都是一个大的逻辑文件的碎片文件。
2.文件本身就是很小。例如许许多多的图片文件。每一个图片都是一个独立的文件。并且没有一种很有效的方法来将这些文件合并为一个大的文件。
所以急需设计一种数据读取快,又能存储更多元数据的存储方法。
发明内容
本发明的目的在于解决现有技术所存在的问题,找到一种数据读取快,又能存储更多元数据的存储方法。
为了实现所述目的,本发明一种基于关系数据库的HDFS元数据存储方法,包括:
建立关系数据库的步骤:建立关系数据库,通过关系数据库存储元数据,关系数据库中包括用于记录文件目录元数据的最新状态信息的镜像表,用于记录文件信息和目录信息的文件/目录信息表,用于记录文件块信息的文件块信息表;
建立内存存储的步骤:建立内存存储,创建双链表,并将双链表的指向与内存中用于存储数据的地址一一对应连接;
元数据写入的步骤:客户端写入元数据时,通过添加修改元数据库中相应数据进行元数据写入,同时将写入的元数据放入内存中,代替原双链表表尾指向的内存地址中所存放的数据,并将双链表表尾指向的内存地址调整到双链表表中指向;
元数据读取的步骤:客户端读取元数据时,根据客户端请求路径,首先从内存中检查是否存在请求的数据,如果存在请求的数据,则获取内存中的数据并返回客户端,同时调整双链表的指向,将所请求的数据的内存地址调整到双链表表头指向;如果不存在请求的数据,则查询关系数据库,查询到数据后返回客户端,同时将对应查询到的数据放入内存中,代替原双链表表尾指向的内存地址中所存放的数据,并将双链表表尾指向的内存地址调整到双链表表头指向。
进一步的,还包括:
集群格式化的步骤:首先产生新的一个版本号、一个id,一个创建时的时间戳,然后遍历每一个存储目录进行格式化,对于每一个存储目录,首先删除已有的文件目录记录,创建新的文件记录。
进一步的,客户端进行文件/目录创建、更改、删除时,通过数据库的insert、update对客户端进行创建、更改操作;通过数据库的delete对客户端进行删除操作,所述元数据库中每组数据前设有skipTrash标志,通过skipTrash标志识别判定是进行更新数据库删除标识还是删除记录。
一种基于关系数据库的HDFS元数据存储方法,通过内存存储和关系数据库共同实现对元数据的存储,采用HDFS原有的内存存储方式存储所有元数据中的文件名信息、路径信息和对应数据库识别id,采用关系数据库数据库存储所有元数据信息和与数据库识别id对应的识别id,所述元数据中文件名信息通过数据库识别id与关系数据库数连接。
进一步的,通过原数据名称检索数据时,首先通过检索HDFS原有存储方式中存储的元数据,检索到数据后,调出相应路径信息,当不需要元数据中除路径信息外的其他信息时,结束步骤;当需要元数据中除路径信息外的其他信息时,通过关系数据库识别id,查询对应的关系数据库中的其他数据。
进一步的,所述关系数据库识别id根据创建时间按顺序正整数编排,检索到元数据后,通过对应的关系数据库识别id,采用二分搜索法查找关系数据库中对应的元数据。
通过实施本发明可以取得以下有益技术效果:采用关系数据库存储元数据信息,并且将使用频繁的数据保存到内存中,读取数据时优先查询内存中的数据,即保证了数据读取的快速,又能解决内存不足引起的存储量不足的问题;同时第一次写入的数据放入内存后,其存放的地址不是双链表表头所指向的内存地址,而是双链表表中指向的内存地址,这样降低了备份数据在内存中的持续时间,提高了内存的利用率。
附图说明
图1为本发明实施例中双链表、内存地址、内存数据的初始对应关系;
图2为本发明实施例中客户端读取c后的双链表、内存地址、内存数据的对应关系;
图3为本发明实施例中客户端读取x后的双链表、内存地址、内存数据的对应关系;
图4为本发明实施例中写入数据y的双链表、内存地址、内存数据的对应关系。
具体实施方式
为了便于本领域技术人员的理解,下面结合具体实施例对本发明作进一步的说明:本发明包括
建立关系数据库的步骤:建立关系数据库,通过关系数据库存储元数据,关系数据库中包括用于记录文件目录元数据的最新状态信息的镜像表,用于记录文件信息和目录信息的文件/目录信息表,用于记录文件块信息的文件块信息表;
建立内存存储的步骤:建立内存存储,创建双链表,并将双链表的指向与内存中用于存储数据的地址一一对应连接;
元数据写入的步骤:客户端写入元数据时,通过添加修改元数据库中相应数据进行元数据写入,同时将写入的元数据放入内存中,代替原双链表表尾指向的内存地址中所存放的数据,并将双链表表尾指向的内存地址调整到双链表表中指向;
元数据读取的步骤:客户端读取元数据时,根据客户端请求路径,首先从内存中检查是否存在请求的数据,如果存在请求的数据,则获取内存中的数据并返回客户端,同时调整双链表的指向,将所请求的数据的内存地址调整到双链表表头指向;如果不存在请求的数据,则查询关系数据库,查询到数据后返回客户端,同时将对应查询到的数据放入内存中,代替原双链表表尾指向的内存地址中所存放的数据,并将双链表表尾指向的内存地址调整到双链表表头指向。
集群格式化时,首先产生新的一个版本号、一个id,一个创建时的时间戳,然后遍历每一个存储目录进行格式化,对于每一个存储目录,首先删除已有的文件目录记录,创建新的文件记录;文件/目录创建、更改、删除时,通过数据库的insert、update对客户端进行创建、更改操作;通过数据库的delete对客户端进行删除操作,元数据库中每组数据前设有skipTrash标志,通过skipTrash标志识别判定是进行更新数据库删除标识还是删除记录。
如图1所示,假设双链表节点分别包括节点1、节点2、节点3、节点4、节点5、节点6、节点7,与之对应的内存地址的地址分别是001、002、003、004、005、006、007,与之对应的内存数据分别是a、b、c、d、e、f、g。
如果客户端要读取c,从内存中可以检查到c,此时将c返回客户端,同时将所请求的数据的内存地址调整到双链表表头指向,将节点3指向内存地址003,节点2指向内存地址002、节点3指向内存地址003,其他指向不变(如图2)。
如果客户端要读取x,由于内存中没有数据x,则从元数据库中获取数据x并将数据返回客户端,同时将数据x替代节点7对应的数据g,并将双链表表尾指向的内存地址调整到双链表表头指向,即双链表节点001指向内存地址007、节点002指向内存地址001、节点003指向内存地址002、节点004指向内存地址003、节点005指向内存地址004、节点006指向内存地址005、节点007指向内存地址006(如图3)。
如果客户端要写入数据y,将数据y添加到元数据库中,同时将数据y替代节点7对应的数据g,并将双链表表尾指向的内存地址调整到双链表表中指向,此处的表中为节点4,即节点4指向内存地址007,节点5指向内存地址004、节点6指向内存地址005、节点7指向内存地址006(如图4)。
本发明中所述的双链表表中指的是双链表表头与双链表表尾之间的中部位置,比如:假设双链表表头是1,双链表表尾是n,双链表表头与双链表表尾之间分别是2、3….、n-1,如果n为奇数,则双链表表中即为(n-1)/2,如果n为偶数,则双链表表中即为n/2。
关系数据库存储元数据信息替换hadoophdfs原有的以文件存储元数据时,需要增加hadoop配置属性,在core-site.xml中及Configuration类中增加关系数据库连接属性,包括数据库驱动类名、数据库连接串、数据库访问用户名、密码等连接数据库必需的属性信息,需要将hdfs集群启动时加载逻辑,由原先的加载磁盘文件改为加载数据库数据。
同时设计关系数据库的元数据表结构,其元数据表包括:
a)镜像表:镜像(FSImage)就是文件目录元数据的最新状态信息,信息如下:
1、imgVersion(int):当前image的版本信息
2、namespaceID(int):用来确保别的HDFS instance中的datanode不会误连上当前NN。
3、numFiles(long):整个文件系统中包含有多少文件和目录
4、genStamp(long):生成该image时的时间戳信息。
b)文件/目录信息表:文件和目录是HDFS基本元素,HDFS将这些元素抽象成INode,每一个文件或目录都对应一个唯一的INode。
如果是目录,包含以下信息:
1、path(String):该目录的路径,如”/user/build/build-index”
2、replications(short):副本数(目录虽然没有副本,但这里记录的目录副本数也为3)
3、mtime(long):该目录的修改时间的时间戳信息
4、atime(long):该目录的访问时间的时间戳信息
5、blocksize(long):目录的blocksize都为0
6、numBlocks(int):实际有多少个文件块,目录的该值都为-1,表示该item为目录
7、nsQuota(long):namespace Quota值,若没加Quota限制则为-1
8、dsQuota(long):disk Quota值,若没加限制则也为-1
9、username(String):该目录的所属用户名
10、group(String):该目录的所属组
11、permission(short):该目录的permission信息,如644等,有一个short来记录。
如果是文件,则还会额外包含如下信息:
1、blockid(long):属于该文件的block的blockid,
2、numBytes(long):该block的大小
3、genStamp(long):该block的时间戳
c)文件块信息表:文件块(Block)是对于文件内容组织而言的,我们假设一个文件的长度大小为size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块就称之为一个Block,包含以下信息,
1、blockid,块ID。
2、块大小。
3、块的修改时间戳。
4、块对应的文件。
5、块对应的机器列表信息。
本发明采用关系数据库存储元数据信息,并且将使用频繁的数据保存到内存中,读取数据时优先查询内存中的数据,即保证了数据读取的快速,又能解决内存不足引起的存储量不足的问题;同时第一次写入的数据放入内存后,其存放的地址不是双链表表头所指向的内存地址,而是双链表表中指向的内存地址,这样降低了备份数据在内存中的持续时间,提高了内存的利用率,对于需要经常备份的运用,大大提高了其数据读取效率。
另一种基于关系数据库的HDFS元数据存储方法,通过内存存储和关系数据库共同实现对元数据的存储,采用HDFS原有的内存存储方式存储所有元数据中的文件名信息、路径信息和对应数据库识别id,采用关系数据库数据库存储所有元数据信息和与数据库识别id对应的识别id,元数据中文件名信息通过数据库识别id与关系数据库数连接。通过原数据名称检索数据时,首先通过检索HDFS原有存储方式中存储的元数据,检索到数据后,调出相应路径信息,当不需要元数据中除路径信息外的其他信息时,结束步骤;当需要元数据中除路径信息外的其他信息时,通过关系数据库识别id,查询对应的关系数据库中的其他数据。关系数据库识别id根据创建时间按顺序正整数编排,检索到元数据后,通过对应的关系数据库识别id,采用二分搜索法查找关系数据库中对应的元数据。
通过将关系数据库存储与内存存储相结合,将使关键的元数据信息保存到内存中,读取数据时查询内存中的数据,保证了数据读取的快速,当查出元数据后,通过对应的数据库识别id,可以通过分搜索法快速的查询到ID对应的其他元数据信息,大大增大了数据容量,同时基本不影响存储速度。
以上所述仅为本发明的具体实施例,但本发明的技术特征并不局限于此,任何本领域的技术人员在本发明的领域内,所作的变化或修饰皆涵盖在本发明的专利范围之中。

Claims (6)

1.一种基于关系数据库的HDFS元数据存储方法,其特征在于:包括:
建立关系数据库的步骤:建立关系数据库,通过关系数据库存储元数据,关系数据库中包括用于记录文件目录元数据的最新状态信息的镜像表,用于记录文件信息和目录信息的文件/目录信息表,用于记录文件块信息的文件块信息表;
建立内存存储的步骤:建立内存存储,创建双链表,并将双链表的指向与内存中用于存储数据的地址一一对应连接;
元数据写入的步骤:客户端写入元数据时,通过添加修改元数据库中相应数据进行元数据写入,同时将写入的元数据放入内存中,代替原双链表表尾指向的内存地址中所存放的数据,并将双链表表尾指向的内存地址调整到双链表表中指向;
元数据读取的步骤:客户端读取元数据时,根据客户端请求路径,首先从内存中检查是否存在请求的数据,如果存在请求的数据,则获取内存中的数据并返回客户端,同时调整双链表的指向,将所请求的数据的内存地址调整到双链表表头指向;如果不存在请求的数据,则查询关系数据库,查询到数据后返回客户端,同时将对应查询到的数据放入内存中,代替原双链表表尾指向的内存地址中所存放的数据,并将双链表表尾指向的内存地址调整到双链表表头指向。
2.如权利要求1所述的一种基于关系数据库的HDFS元数据存储方法,其特征在于:还包括:
集群格式化的步骤:首先产生新的一个版本号、一个id,一个创建时的时间戳,然后遍历每一个存储目录进行格式化,对于每一个存储目录,首先删除已有的文件目录记录,创建新的文件记录。
3.如权利要求1所述的一种基于关系数据库的HDFS元数据存储方法,其特征在于:客户端进行文件/目录创建、更改、删除时,通过数据库的insert、update对客户端进行创建、更改操作;通过数据库的delete对客户端进行删除操作,所述元数据库中每组数据前设有skipTrash标志,通过skipTrash标志识别判定是进行更新数据库删除标识还是删除记录。
4.一种基于关系数据库的HDFS元数据存储方法,其特征在于:通过内存存储和关系数据库共同实现对元数据的存储,采用HDFS原有的内存存储方式存储所有元数据中的文件名信息、路径信息和对应数据库识别id,采用关系数据库数据库存储所有元数据信息和与数据库识别id对应的识别id,所述元数据中文件名信息通过数据库识别id与关系数据库数连接。
5.如权利要求4所述的一种基于关系数据库的HDFS元数据存储方法,其特征在于:通过原数据名称检索数据时,首先通过检索HDFS原有存储方式中存储的元数据,检索到数据后,调出相应路径信息,当不需要元数据中除路径信息外的其他信息时,结束步骤;当需要元数据中除路径信息外的其他信息时,通过关系数据库识别id,查询对应的关系数据库中的其他数据。
6.如权利要求4所述的一种基于关系数据库的HDFS元数据存储方法,其特征在于:所述关系数据库识别id根据创建时间按顺序正整数编排,检索到元数据后,通过对应的关系数据库识别id,采用二分搜索法查找关系数据库中对应的元数据。
CN201410659149.0A 2014-11-18 2014-11-18 一种基于关系数据库的hdfs元数据存储方法 Pending CN104516945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410659149.0A CN104516945A (zh) 2014-11-18 2014-11-18 一种基于关系数据库的hdfs元数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410659149.0A CN104516945A (zh) 2014-11-18 2014-11-18 一种基于关系数据库的hdfs元数据存储方法

Publications (1)

Publication Number Publication Date
CN104516945A true CN104516945A (zh) 2015-04-15

Family

ID=52792244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410659149.0A Pending CN104516945A (zh) 2014-11-18 2014-11-18 一种基于关系数据库的hdfs元数据存储方法

Country Status (1)

Country Link
CN (1) CN104516945A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273368A (zh) * 2016-04-06 2017-10-20 中兴通讯股份有限公司 海量数据存储管理方法、装置及数据存储系统
CN109831540A (zh) * 2019-04-12 2019-05-31 成都四方伟业软件股份有限公司 分布式存储方法、装置、电子设备及存储介质
CN110321392A (zh) * 2019-06-25 2019-10-11 北京海量数据技术股份有限公司 基于传感器监测数据文件的数据库管理系统
CN111492354A (zh) * 2017-11-14 2020-08-04 斯诺弗雷克公司 不可变存储装置中的数据库元数据
CN112783927A (zh) * 2021-01-27 2021-05-11 浪潮云信息技术股份公司 一种数据库查询方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187901A (zh) * 2007-12-20 2008-05-28 康佳集团股份有限公司 一种实现文件访问的高速缓存系统和方法
CN102638566A (zh) * 2012-02-28 2012-08-15 山东大学 一种基于云存储的blog系统运行方法
CN103036956A (zh) * 2012-11-30 2013-04-10 航天恒星科技有限公司 一种分布式组态化海量数据归档系统及实现方法
CN103246696A (zh) * 2013-03-21 2013-08-14 宁波公众信息产业有限公司 高并发数据库的访问方法及应用于多服务器系统的方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法
US20140108335A1 (en) * 2012-10-02 2014-04-17 Nextbit Systems Inc. Cloud based file system surpassing device storage limits

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101187901A (zh) * 2007-12-20 2008-05-28 康佳集团股份有限公司 一种实现文件访问的高速缓存系统和方法
CN102638566A (zh) * 2012-02-28 2012-08-15 山东大学 一种基于云存储的blog系统运行方法
US20140108335A1 (en) * 2012-10-02 2014-04-17 Nextbit Systems Inc. Cloud based file system surpassing device storage limits
CN103036956A (zh) * 2012-11-30 2013-04-10 航天恒星科技有限公司 一种分布式组态化海量数据归档系统及实现方法
CN103246696A (zh) * 2013-03-21 2013-08-14 宁波公众信息产业有限公司 高并发数据库的访问方法及应用于多服务器系统的方法
CN103577123A (zh) * 2013-11-12 2014-02-12 河海大学 一种基于hdfs的小文件优化存储方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张兴: "基于Hadoop的云存储平台的研究与实现", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *
王永洲: "基于HDFS的存储技术的研究", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273368A (zh) * 2016-04-06 2017-10-20 中兴通讯股份有限公司 海量数据存储管理方法、装置及数据存储系统
CN111492354A (zh) * 2017-11-14 2020-08-04 斯诺弗雷克公司 不可变存储装置中的数据库元数据
CN109831540A (zh) * 2019-04-12 2019-05-31 成都四方伟业软件股份有限公司 分布式存储方法、装置、电子设备及存储介质
CN109831540B (zh) * 2019-04-12 2022-02-11 成都四方伟业软件股份有限公司 分布式存储方法、装置、电子设备及存储介质
CN110321392A (zh) * 2019-06-25 2019-10-11 北京海量数据技术股份有限公司 基于传感器监测数据文件的数据库管理系统
CN112783927A (zh) * 2021-01-27 2021-05-11 浪潮云信息技术股份公司 一种数据库查询方法及系统

Similar Documents

Publication Publication Date Title
US11030185B2 (en) Schema-agnostic indexing of distributed databases
US8468291B2 (en) Asynchronous distributed object uploading for replicated content addressable storage clusters
US8849759B2 (en) Unified local storage supporting file and cloud object access
US7752226B1 (en) Reverse pathname lookup by inode identifier
US7228299B1 (en) System and method for performing file lookups based on tags
CN102184211B (zh) 文件系统和检索、写入、修改或删除文件的方法与装置
CN106484906B (zh) 一种分布式对象存储系统闪回方法及装置
CN106201771B (zh) 数据存储系统和数据读写方法
Khan et al. SQL support over MongoDB using metadata
CN109522283B (zh) 一种重复数据删除方法及系统
CN105677826A (zh) 一种针对海量非结构化数据的资源管理方法
CN104077423A (zh) 一种基于一致性散列的结构化数据存储、查询和迁移方法
CN103595797B (zh) 一种分布式存储系统中的缓存方法
CN104657459A (zh) 一种基于文件粒度的海量数据存储方法
CN109284273B (zh) 一种采用后缀数组索引的海量小文件查询方法及系统
CN104516945A (zh) 一种基于关系数据库的hdfs元数据存储方法
CN104408111A (zh) 一种删除重复数据的方法及装置
WO2014008856A1 (en) Method and apparatus for file storage
CN105912687A (zh) 海量分布式数据库存储单元
US10949385B2 (en) Hybrid metadata and folder based file access
CN103473337A (zh) 一种分布式存储系统中处理面向海量目录和文件的方法
US20150169623A1 (en) Distributed File System, File Access Method and Client Device
CN114116612B (zh) 一种基于b+树索引归档文件的存取方法
CN105404653A (zh) 一种全分布式文件索引及协作编辑机制的实现方法
CN116955278A (zh) 分布式文件系统快照的聚合访问方法、装置及计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150415

RJ01 Rejection of invention patent application after publication