CN102955808A - 一种数据获取方法和分布式文件系统 - Google Patents
一种数据获取方法和分布式文件系统 Download PDFInfo
- Publication number
- CN102955808A CN102955808A CN 201110248594 CN201110248594A CN102955808A CN 102955808 A CN102955808 A CN 102955808A CN 201110248594 CN201110248594 CN 201110248594 CN 201110248594 A CN201110248594 A CN 201110248594A CN 102955808 A CN102955808 A CN 102955808A
- Authority
- CN
- China
- Prior art keywords
- file
- nodal
- block
- value
- root node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据获取方法和分布式文件系统,所述方法包括:获取待访问文件的文件目录,并获取预定义的根节点的节点值;根据所述根节点的节点值的散列值获取所述根节点的区块信息;当所述根节点的节点值对应所述区块中的文件时,根据所述区块中存储的块列表和块列表位置信息获取数据文件;当所述根节点的节点值对应所述区块中的文件夹时,根据所述文件目录从所述区块中存储的文件列表和所述文件列表中的文件对应的节点值中获取下一级节点的节点值,再根据所述下一级节点的节点值获取所述下一级节点的区块信息,直至最终获取数据文件。采用本发明,可解决HDFS中的单点问题,提高HDFS集群任务的并发处理能力。
Description
技术领域
本发明涉及一种分布式数据处理领域,尤其涉及一种数据获取方法和分布式文件系统。
背景技术
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。HDFS的架构是基于一组特定的节点构建的,这些节点包括NameNode(仅一个),其在HDFS 内部提供元数据服务;DataNode,其为 HDFS 提供存储块。
其中,NameNode 是一个通常在HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。 NameNode在一个文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件将存储在 NameNode 的本地文件系统上。
由于仅存在一个 NameNode,在基于C/S(客户/服务器)架构的设计中只有一台Namenode机器就造成了Namenode的单点问题,这成为了HDFS 的一个缺点。
发明内容
本发明实施例所要解决的技术问题在于,提供一种数据获取方法和分布式文件系统。可解决HDFS中的单点问题,提高HDFS集群任务的并发处理能力。
为了解决上述技术问题,本发明实施例提供了一种分布式文件系统中的数据获取方法,所述方法包括:
获取待访问文件的文件目录,并获取预定义的根节点的节点值;
根据所述根节点的节点值的散列值获取所述根节点的区块信息,所述区块中存储有文件,或/和文件夹中的文件列表及所述文件列表中的文件对应的节点值;
当所述根节点的节点值对应所述区块中的文件时,根据所述区块中存储的块列表和块列表位置信息获取数据文件;
当所述根节点的节点值对应所述区块中的文件夹时,根据所述文件目录从所述区块中存储的文件列表和所述文件列表中的文件对应的节点值中获取下一级节点的节点值,再根据所述下一级节点的节点值获取所述下一级节点的区块信息,直至最终获取数据文件。
其中,所述根据所述根节点的节点值的散列值获取所述根节点的区块信息包括:
根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器;
根据所述根节点的节点值在所述服务器中获取所述节点值对应的节点信息;
根据所述节点值对应的节点信息获取所述根节点的区块信息。
所述根节点或其他节点的区块信息中包括多个区块的信息。
所述方法还包括:在所述分布式系统中划分多个数据区域,节点值通过散列算法与所述数据区域对应;
所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器相应为,所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的数据区域所在的服务器。
所述方法还包括:缓存所述数据文件的各级节点值。
相应的,本发明实施例还提供了一种分布式文件系统,包括:
目录获取单元,用于获取待访问文件的文件目录,并获取预定义的根节点的节点值;
区块获取单元,用于根据所述根节点的节点值的散列值获取所述根节点的区块信息,所述区块中存储有文件,或/和文件夹中的文件列表及所述文件列表中的文件对应的节点值;
文件获取单元,用于当所述根节点的节点值对应所述区块中的文件时,根据所述区块中存储的块列表和块列表位置信息获取数据文件;当所述根节点的节点值对应所述区块中的文件夹时,根据所述文件目录从所述区块中存储的文件列表和所述文件列表中的文件对应的节点值中获取下一级节点的节点值,再根据所述下一级节点的节点值获取所述下一级节点的区块信息,直至最终获取数据文件。
其中,所述区块获取单元包括:
服务器定位子单元,用于根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器;
节点信息获取子单元,用于根据所述根节点的节点值在所述服务器中获取所述节点值对应的节点信息;
区块信息获取子单元,用于根据所述节点值对应的节点信息获取所述根节点的区块信息。
所述区块获取单元获取的根节点或其他节点的区块信息中包括多个区块的信息。
所述系统还包括划分单元,用于在所述分布式系统中划分多个数据区域,节点值通过散列算法与所述数据区域对应;
所述服务器定位子单元还用于所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的数据区域所在的服务器。
所述系统还包括缓存单元,用于缓存所述数据文件的各级节点值。
实施本发明实施例,具有如下有益效果:由于将整个目录树分布式的存储在不同的区块,并利用节点值来指向这些区块,实现了目录树结构的分散存储,利用散列算法有效的解决了namenode单点故障和瓶颈问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例中的目录树的一个组成示意图;
图2是本发明实施例中的分布式文件系统中的数据获取方法的一个具体流程示意图;
图3是本发明实施例中的分布式文件系统中的数据获取方法的另一个具体流程示意图;
图4是本发明实施例中的分布式文件系统的一个具体组成示意图;
图5是图4中的区块获取单元的一个具体组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中定义两个概念,节点值(inodenum)和区块(block),只要知道inodenum就可以迅速定位节点(inode)信息(即inode数据信息),继而通过inode定位到block以读取文件或文件夹内容。block的文件中存储数据块信息,文件夹做为特殊文件,在其中存储了其子目录的所有文件列表和文件列表中的文件的inodenum,这样就可以通过文件目录逐级找到需要访问的数据文件,也可以迅速在内存中还原构建出个目录树,如图1所示。
一般,根目录是需要做特殊处理的,其inodenum可以在全局配置信息中进行指定,或者预定义inodenum=0的文件存储的就是根目录数据。即,在本发明的解决方案中定义,1)inodenum,作为定位文件的索引;2)block(为文件或文件夹),存储有目录列表、数据块信息(在每台机器内存中存储block);3)数据块(datablock)为存储文件数据的载体。对于block,当inodenum指向的为文件夹时,block存储的数据格式如下:文件名,文件类型,inodenum;当inodenum指向的数据为文件时,block存储的数据格式如下:数据DataBlock的blockID列表和位置信息。以下从数据获取的角度进一步说明本发明的上述架构。
如图2所示,为本发明实施例中的分布式文件系统中的数据获取方法的一个具体流程示意图,所述方法包括如下步骤。
201、获取待访问文件的文件目录,并获取预定义的根节点的节点值。所述存储文件目录至少包括根目录,当然除了根目录还可进一步包括一级目录、二级目录等等。
202、根据所述根节点的节点值的散列值获取所述根节点的区块(block)信息,所述区块中存储有文件,或/和文件夹中的文件列表及所述文件列表中的文件对应的节点值。其中,可以先根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器;再根据所述根节点的节点值在所述服务器中获取所述节点值对应的节点信息;最后根据所述节点值对应的节点信息获取所述根节点的区块信息。
同时,所述根节点(或还包括其他各级节点)的区块信息中可包括多个区块的信息。即如图1所示,一个节点处可以有多个区块。
在分布式文件系统中可以预先在所述分布式系统中划分多个数据区域,节点值通过散列算法与所述数据区域对应,相应的上述的根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器则为,所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的数据区域所在的服务器。
203、当所述根节点的节点值对应所述区块中的文件时,根据所述区块中存储的块列表和块列表位置信息获取数据文件;当所述根节点的节点值对应所述区块中的文件夹时,根据所述文件目录从所述区块中存储的文件列表和所述文件列表中的文件对应的节点值中获取下一级节点的节点值,再根据所述下一级节点的节点值获取所述下一级节点的区块信息,直至最终获取数据文件。
如前所述,根节点或其他各级节点的节点值指向区块,若区块中包括的是文件,则表明文件目录中所指定的文件就在区块的文件中指明的数据块中。此时只要从区块的文件中对应去获取数据文件就可以了;若区块中包括的是文件夹,则表明此时还未查找到文件目录的最后一级,还需要根据文件夹及文件目录当前的目录级获取节点值,再到下一区块去查找文件。该过程可以反复的执行,直到最终查找到文件。通常来说,根节点一般对应的是文件夹,因而在本发明实施例中,在查找到根节点后还需要获得对应文件的节点值来去下一个block获取文件或文件夹,后续会有具体的实施例进行描述。
如图3所示,表明了上述的循环查找并获取的过程。该过程包括如下步骤。
301、获取待访问文件的文件目录和该文件目录中的根节点的预定义inodenum值。
302、根据此inodenum值的散列值确定inode信息位于所述分布式文件系统中的服务器。
303、找到存储该inode信息所在的服务器后,在该服务器通过此inodenum定位到inode信息,读取这个inode节点对应的block信息,该inode节点对应的block可能有多个。
304、如果该inodenum对应的是普通文件,那这些block中存储的就是文件内容,转步骤305;如果该inodenum对应的是目录(即文件夹),那这些block中存储该文件夹下的文件列表以及各文件列表中的文件对应的inodenum,转步骤306
305、如果该inodenum对应的是文件而且是用户需要访问的文件,则根据所述block的文件中的存储块列表和存储块存储的位置信息获取所述数据文件。
306、如果该inodenum对应的是文件夹,通过读取block内容得到该inodenum对应文件夹下的所有文件的文件名以及每个文件的inodenum。
307、从文件夹中找到文件目录中的下一级目录(即下一级节点)的inodenum值。重复302~307过程,直到找到需要访问的文件为止。
若在上述方法中还可以进一步包括预先的数据区域划分和其与节点值之间的索引对应,则可按下述方式进行分区:首先将数据分区,采用的是一致性hash的办法,即将inodenum通过散列算法,散列到0~2^32的空间中,假如有A,B,C,D,E共5台机器作为master。则定义A机存储0~2^32/5范围的数据;B机存储2^32/5 ~ 2^32/5 *2 的数据;C机存储2^32/5 *2 ~ 2^32/5 *3的数据;D机存储2^32/5 *3 ~ 2^32/5 *4的数据;E机存储2^32/5 *4 ~ 2^32的数据。
同时,可在获取所述数据文件时,缓存所述数据文件的存储文件目录中的各级目录对应的节点值。这样对于一些比较深的文件夹,可以大大提高效率。
实施本发明实施例,由于将整个目录树分布式的存储在不同的存储位置,并利用节点值来指向这些存储位置,实现了目录树结构的分散存储,利用散列算法有效的解决了namenode单点故障和瓶颈问题。
以下以两个具体的存储文件目录还说明如何进行数据文件的获取。如,目录分别为/testdata2,/test1/data1,/test1/data2。其中,目录/testdata2中的第一个“/”代表根目录,“/testdata2”代表下一级目录,由于/testdata2即为文件的整个目录,可知目录/testdata2对应为文件,目录/test1/data1中的第一个“/”代表根目录,/test1/代表下一目录,/test1/data1则是下下级目录,由于/test1/data1为文件的整个目录,可知目录/test1/data1对应为文件。
1、对于读取/testdata2文件数据的情况描述如下。
a)获取inodenum=0(即根目录可以直接规定inodenum=0),假设0经过hash后找到根目录所在机器为B。
b)将查询inodenum=0的请求发送到B机,B机通过该inodenum迅速定位到根文件夹的block,对应图2的流程即找到了根目录的区块。
c)由于inodenum=0指向根目录“/”,本例中根目录的block存储有根目录文件列表(此时列表中有test1、testdata2,其中,test1为目录,testdata2为文件),则说明本例中inodenum=0指向的为文件夹,因此,需要获得下一级目录/testdata2的inodenum,假设本例中根目录的block中存储了下一级目录/testdata2对应的inodenum=4。
d)通过inodenum=4进行hash得到/testdata2的存储位置为E机。
e)将查询inodenum=4的请求发送到E机,E机通过该inodenum迅速定位到block,该block中存储有文件/testdata2,由于/testdata2对应的是文件,因而此时可从其对应的文件中获得存储的datablockID列表和位置(location)信息。
f)通过datablockID列表和location信息,依次到相应的机器读取datablock数据。
2、对于较深目录文件/test1/data1文件的读取。
a)获取inodenum=0(即根目录可以直接规定inodenum=0),假设0经过hash后找到根目录所在机器为B。
b)将查询inodenum=0的请求发送到B机,B机通过inodenum迅速定位到根文件夹的block。
c)从block中可以读取根目录文件列表,其中存储有文件夹/test1/及其对应的inodenum,假设/test1/这个文件夹的inodenum=8。
d)根据inodenum=8进行hash得到存储位置为C机,将inodenum=8的请求发送到C机,从C机通过inodenum=8迅速定位到/test1/的文件夹的block。
e)从该block中可以读取/test1/的目录文件列表(此时列表中有两个文件,即data1和data2),此时,找到data1对应的inodenum=10。
f)根据inodenum=10进行hash得到存储位置为D机,将inodenum=10的请求发送到D机,从D机通过inodenum=10迅速定位到/test1/data1的block,该block中存储有文件data1,由于data1对应的是文件,因而此时可从其对应的文件中获得存储的datablockID列表和位置location信息。
g)通过datablockID列表和location信息,依次到相应的机器读取datablock数据。
同理可以根据目录/test1/data2获得文件data2的数据。
至于在HDFS文件上传流程中一个datablock上传完成后,datanode需要将这个datablock的ID上报给某台namenode机器,用以通知namenode在不同的datanode上分别存储哪些datablock,这样我们就需要在datablock中加入inodenum信息,一方面表示这个datablock数据块属于哪个文件,另一方面可以通过这个inodenum,经过hash和路由选择就知道这个datablockid该上报给哪台namenode机器。
相应的,本发明实施例中还提供了一种分布式文件系统,如图4所示,所述系统包括:目录获取单元40,用于获取待访问文件的文件目录,并获取预定义的根节点的节点值;区块获取单元42,用于根据所述根节点的节点值的散列值获取所述根节点的区块信息,所述区块中存储有文件,或/和文件夹中的文件列表及所述文件列表中的文件对应的节点值;文件获取单元44,用于当所述根节点的节点值对应所述区块中的文件时,根据所述区块中存储的块列表和块列表位置信息获取数据文件;当所述根节点的节点值对应所述区块中的文件夹时,根据所述文件目录从所述区块中存储的文件列表和所述文件列表中的文件对应的节点值中获取下一级节点的节点值,再根据所述下一级节点的节点值获取所述下一级节点的区块信息,直至最终获取数据文件。
其中,如图5所示,区块获取单元42可包括:服务器定位子单元420,用于根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器;节点信息获取子单元422,用于根据所述根节点的节点值在所述服务器中获取所述节点值对应的节点信息;区块信息获取子单元424,用于根据所述节点值对应的节点信息获取所述根节点的区块信息。
其中,在一些具体实施例中,区块获取单元42获取的根节点或其他节点的区块信息中包括多个区块的信息。
同时,类似前述方法中记载的方案,若将整个分布式系统进行划分,则所述系统还包括划分单元(图中未示),用于在所述分布式系统中划分多个数据区域,节点值通过散列算法与所述数据区域对应;相应的,所述服务器定位子单元420还用于所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的数据区域所在的服务器。同时,为了提高系统的处理消息,所述系统还包括缓存单元(图中未示),用于缓存所述数据文件的各级节点值。
在本系统实施例中的相关术语和具体功能与前述方法实施例中的一致,其具体细节不做一一赘述。
实施本发明实施例,由于将整个目录树分布式的存储在不同的存储位置,并利用节点值来指向这些存储位置,实现了目录树结构的分散存储,利用散列算法有效的解决了namenode单点故障和瓶颈问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种分布式文件系统中的数据获取方法,其特征在于,所述方法包括:
获取待访问文件的文件目录,并获取预定义的根节点的节点值;
根据所述根节点的节点值的散列值获取所述根节点的区块信息,所述区块中存储有文件,或/和文件夹中的文件列表及所述文件列表中的文件对应的节点值;
当所述根节点的节点值对应所述区块中的文件时,根据所述区块中存储的块列表和块列表位置信息获取数据文件;
当所述根节点的节点值对应所述区块中的文件夹时,根据所述文件目录从所述区块中存储的文件列表和所述文件列表中的文件对应的节点值中获取下一级节点的节点值,再根据所述下一级节点的节点值获取所述下一级节点的区块信息,直至最终获取数据文件。
2.如权利要求1所述的方法,其特征在于,所述根据所述根节点的节点值的散列值获取所述根节点的区块信息包括:
根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器;
根据所述根节点的节点值在所述服务器中获取所述节点值对应的节点信息;
根据所述节点值对应的节点信息获取所述根节点的区块信息。
3.如权利要求2所述的方法,其特征在于,所述根节点或其他节点的区块信息中包括多个区块的信息。
4.如权利要求1至3中任一项所述的方法,其特征在于,
所述方法还包括:在所述分布式系统中划分多个数据区域,节点值通过散列算法与所述数据区域对应;
所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器相应为,所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的数据区域所在的服务器。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:缓存所述数据文件的各级节点值。
6.一种分布式文件系统,其特征在于,所述系统包括:
目录获取单元,用于获取待访问文件的文件目录,并获取预定义的根节点的节点值;
区块获取单元,用于根据所述根节点的节点值的散列值获取所述根节点的区块信息,所述区块中存储有文件,或/和文件夹中的文件列表及所述文件列表中的文件对应的节点值;
文件获取单元,用于当所述根节点的节点值对应所述区块中的文件时,根据所述区块中存储的块列表和块列表位置信息获取数据文件;当所述根节点的节点值对应所述区块中的文件夹时,根据所述文件目录从所述区块中存储的文件列表和所述文件列表中的文件对应的节点值中获取下一级节点的节点值,再根据所述下一级节点的节点值获取所述下一级节点的区块信息,直至最终获取数据文件。
7.如权利要求6所述的系统,其特征在于,所述区块获取单元包括:
服务器定位子单元,用于根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的服务器;
节点信息获取子单元,用于根据所述根节点的节点值在所述服务器中获取所述节点值对应的节点信息;
区块信息获取子单元,用于根据所述节点值对应的节点信息获取所述根节点的区块信息。
8.如权利要求7所述的系统,其特征在于,所述区块获取单元获取的根节点或其他节点的区块信息中包括多个区块的信息。
9.如权利要求7至8中任一项所述的系统,其特征在于,
所述系统还包括划分单元,用于在所述分布式系统中划分多个数据区域,节点值通过散列算法与所述数据区域对应;
所述服务器定位子单元还用于所述根据所述根节点的节点值的散列值确定存储所述节点值对应的节点信息的数据区域所在的服务器。
10.如权利要求6至8中任一项所述的方法,其特征在于,所述系统还包括缓存单元,用于缓存所述数据文件的各级节点值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110248594 CN102955808A (zh) | 2011-08-26 | 2011-08-26 | 一种数据获取方法和分布式文件系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110248594 CN102955808A (zh) | 2011-08-26 | 2011-08-26 | 一种数据获取方法和分布式文件系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102955808A true CN102955808A (zh) | 2013-03-06 |
Family
ID=47764620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110248594 Pending CN102955808A (zh) | 2011-08-26 | 2011-08-26 | 一种数据获取方法和分布式文件系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102955808A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105204832A (zh) * | 2014-06-24 | 2015-12-30 | 腾讯科技(深圳)有限公司 | 一种实现脚本引擎的系统及方法 |
CN108319634A (zh) * | 2017-12-15 | 2018-07-24 | 创新科存储技术(深圳)有限公司 | 分布式文件系统的目录访问方法和装置 |
CN108491478A (zh) * | 2018-03-09 | 2018-09-04 | 深圳市瑞驰信息技术有限公司 | 一种改进型的分布式存储系统的数据分布方法及系统 |
WO2019091085A1 (zh) * | 2017-11-13 | 2019-05-16 | 华为技术有限公司 | 一种快照比对的方法和装置 |
CN110023944A (zh) * | 2017-01-03 | 2019-07-16 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
-
2011
- 2011-08-26 CN CN 201110248594 patent/CN102955808A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105204832A (zh) * | 2014-06-24 | 2015-12-30 | 腾讯科技(深圳)有限公司 | 一种实现脚本引擎的系统及方法 |
CN105204832B (zh) * | 2014-06-24 | 2019-07-05 | 腾讯科技(深圳)有限公司 | 一种实现脚本引擎的系统及方法 |
CN110023944A (zh) * | 2017-01-03 | 2019-07-16 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
WO2019091085A1 (zh) * | 2017-11-13 | 2019-05-16 | 华为技术有限公司 | 一种快照比对的方法和装置 |
CN108319634A (zh) * | 2017-12-15 | 2018-07-24 | 创新科存储技术(深圳)有限公司 | 分布式文件系统的目录访问方法和装置 |
CN108491478A (zh) * | 2018-03-09 | 2018-09-04 | 深圳市瑞驰信息技术有限公司 | 一种改进型的分布式存储系统的数据分布方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9805053B1 (en) | Pluggable storage system for parallel query engines | |
CN100399327C (zh) | 管理文件系统的逻辑版本的方法和数据存储系统 | |
CN102890722B (zh) | 应用于时序历史数据库的索引方法 | |
CN107491487B (zh) | 一种全文数据库架构及位图索引创建、数据查询方法、服务器及介质 | |
CN102725755B (zh) | 文件访问方法及系统 | |
CN105677826A (zh) | 一种针对海量非结构化数据的资源管理方法 | |
CN102169507A (zh) | 一种分布式实时搜索引擎 | |
CN109284273B (zh) | 一种采用后缀数组索引的海量小文件查询方法及系统 | |
CN106471501B (zh) | 数据查询的方法、数据对象的存储方法和数据系统 | |
CN105183839A (zh) | 一种基于Hadoop的小文件分级索引的存储优化方法 | |
CN111427847B (zh) | 面向用户自定义元数据的索引与查询方法和系统 | |
CN104133867A (zh) | 分布式顺序表片内二级索引方法及系统 | |
CN103530387A (zh) | 一种hdfs针对小文件的改进方法 | |
CN105160039A (zh) | 一种基于大数据的查询方法 | |
CN105956123A (zh) | 基于局部更新软件的数据处理方法及装置 | |
CN105868286A (zh) | 基于分布式文件系统小文件合并的并行追加方法及系统 | |
CN104239377A (zh) | 跨平台的数据检索方法及装置 | |
CN109739828B (zh) | 一种数据处理方法、设备及计算机可读存储介质 | |
CN103795811A (zh) | 一种基于元数据保存存储信息及统计管理数据的方法 | |
CN103514210A (zh) | 小文件处理方法及装置 | |
CN104834650A (zh) | 一种有效查询任务生成方法及系统 | |
CN103473337A (zh) | 一种分布式存储系统中处理面向海量目录和文件的方法 | |
CN102955808A (zh) | 一种数据获取方法和分布式文件系统 | |
CN106055678A (zh) | 一种基于hadoop的全景大数据分布式存储方法 | |
US20150169623A1 (en) | Distributed File System, File Access Method and Client Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130306 |
|
RJ01 | Rejection of invention patent application after publication |