CN103647797A - 一种分布式文件系统及其数据访问方法 - Google Patents

一种分布式文件系统及其数据访问方法 Download PDF

Info

Publication number
CN103647797A
CN103647797A CN201310574272.8A CN201310574272A CN103647797A CN 103647797 A CN103647797 A CN 103647797A CN 201310574272 A CN201310574272 A CN 201310574272A CN 103647797 A CN103647797 A CN 103647797A
Authority
CN
China
Prior art keywords
file
sub
cluster
back end
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310574272.8A
Other languages
English (en)
Inventor
林昭文
陈立南
赵彬
郑楠
马严
吴军
黄小红
赵钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201310574272.8A priority Critical patent/CN103647797A/zh
Publication of CN103647797A publication Critical patent/CN103647797A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种分布式文件系统及其数据访问方法。该系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点。核心控制节点,用于从客户端接收包含文件名的文件访问请求,解析文件名以判定文件所属的子集群,并将文件访问请求下发到该子集群中的子集群控制节点;子集群控制节点,用于调度其所属子集群中的数据节点的存储资源分配,建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系,并基于由核心控制节点下发的文件访问请求和对应关系确定与文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端。

Description

一种分布式文件系统及其数据访问方法
技术领域
本发明属于分布式存储技术领域,特别是一种分布式文件系统及其数据访问方法。
背景技术
分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。现有的分布式文件系统主要采用客户机/服务器模式,文件系统的管理者及所存储的数据分散在不同的节点上,通过网络互连。分布式文件系统可以为多个客户端提供服务,允许跨多个存储服务器共同使用一个全局命名空间,并实现了I/O和数据的智能分散以提高系统性能。目前应用较为广泛的分布式文件系统主要有GFS和Hadoop分布式文件系统(HDFS)。
GFS是由Google开发的可扩展的分布式文件系统,用于大型、分布式、对大量数据进行访问的应用,它运行于廉价的普通硬件之上,可以提供容错功能,可为大量的用户提供总体性能较高的服务。HDFS在系统架构上与GFS与类似,解决问题所采用的解决思路也基本一致。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。它能提供高吞吐量的数据访问,非常适合TB级以上的大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
HDFS的设计概念首先就是面向大文件,最初是作为搜索引擎的底层文件系统来为搜索引擎服务的。因为目前的搜索引擎蜘蛛所抓取的网页数目已经达到亿级,所以HDFS的存储数据量达到了上百TB级,甚至是PB级的规模。由于HDFS是部署在廉价的计算机上的系统,因此硬件不够稳定;另外,由于存储的文件数据量和集群规模的不断加大,因此要求HDFS能够及时处理硬件的失效。为了保证系统的可靠性,HDFS为数据块创建多个副本,并放置在群的不同数据块服务器中,MapReduce就在数据副本存放的地方进行处理。
HDFS支持一次写入多次读取的I/O模式。在任何情况下,只允许有一个写入的客户端,数据写入之后不允许修改。但允许多个客户端并发地读取一个文件。这是由于HDFS面向的应用场景所决定的,在搜索引擎中客户端会经常读取文件但不会去修改这个文件。HDFS将大文件切割成多个大小为64M的块,块以普通文件的形式存储在各个节点上。默认情况下,每个块都会有3个副本。通过此种方式,来达到数据安全及高可靠性的目的。一台机器出现故障,系统能够通过检测,自动选择一个新的节点复制一份。
在HDFS中,有一个元数据服务器(NameNode)和多个数据块服务器(DataNode),可以为一个或多个客户端提供服务。简单来说,客户端对文件进行读写操作,只需与NameNode交互,获得到文件的元数据信息,然后再与DataNode通信,进行实际数据的读取或写入。HDFS提供了一个类似于树结构的文件系统,结构树存在于NameNode的内存中,有利于提高文件的操作效率。
在分布式文件系统中,虽然一个文件的元数据的大小相对于NameNode的磁盘容量来说,是非常小的,但整个分布式文件系统处理量的50%到80%都是对元数据的处理,整个分布式文件系统性能核心也在于元数据的服务性能,因此,元数据管理必须具有极高的稳定性和扩展性,为分布式文件系统提供高速可扩展的元数据组织和查询服务。
通过对HDFS的架构分析可以得知,在HDFS中为整个系统提供元数据服务的只有一个NameNode服务器,整个HDFS的性能、可靠性以及扩展性就取决于NameNode服务器。在HDFS的大多数应用场景中,轻量级的NameNode节点还足以满足文件系统的需要。但在大规模的应用中,随着数据量的不断增长,存储规模的扩大,系统不断增加数据块节点DataNode,元数据的量也就相应地增加,特别是在图片、视频、文档、语音等各种应用场景中,NameNode需管理着大量的小文件的元数据,NameNode节点将变得不堪重负,成为整个系统的瓶颈所在,主要表现为:
(1)单点性能瓶颈问题。HDFS虽然对NameNode的性能做了许多优化,尽可能使NameNode轻量级,只保存了文件系统少量的元数据信息,对于数据节点和数据块的映射都没有永久的保存在磁盘上。但不断增加的MapReduce任务和其它应用,也会加重NameNode节点的负担,成为制约HDFS整体性能的瓶颈所在。客户端的所有操作都要经过NameNode节点,假如同时有多个客户端向HDFS发出请求,则NameNode节点可能就不能在用户感知满意的时间内及时地反馈给客户端对应的元数据信息。在大规模应用中,可能会同时有成千上万个请求,处理所有这些请求必然花费很长的时间,势必造成NameNode非常重的负担。同时,单个NameNode的集群在任务请求数量很大时,无法及时响应负载均衡的请求,由于要进行任务分配等相关工作,也会影响分布式文件系统的性能。
(2)扩展性能问题。单一的NameNode结构势必造成HDFS系统扩展的瓶颈。因为元数据在HDFS启动时需要加载到内存中,以此来提供系统的访问效率,这样它的存储量取决于NameNode的内存,在NameNode内存不是足够大的情况下,内存的大小直接影响着HDFS存储的文件数量的大小以及所存储的数据规模的扩张。
发明内容
本发明实施方式提出一种分布式文件系统,以增强分布式文件系统的稳定性。
本发明实施方式提出一种分布式文件系统的访问方法,以增强分布式文件系统的稳定性。
本发明实施方式的技术方案如下:
一种分布式文件系统,该系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点,其中:
核心控制节点,用于从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;
子集群控制节点,用于调度其所属子集群中的数据节点的存储资源分配,建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系,并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端;
数据节点,用于存储文件,并根据客户端或者所属子集群的子集群控制节点的调度访问文件。
数据节点,还用于接收根据客户端所缓存的数据节点标识所确定的直接文件访问请求,并基于所述直接文件访问请求该向客户端提供直接文件访问。
所述文件访问请求包括:文件读取请求、文件删除请求或文件写入请求。
核心控制节点,用于根据美国信息交换标准码(ASCII)码表逐个将文件名中的单个字符转换成对应的数字,求和所有对应的数字,并将求和结果除以子集群总数,得到的取余结果为所述文件所属子集群的标识。
一种分布式文件系统的数据访问方法,该系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点;子集群控制节点调度其所属子集群中的数据节点的存储资源分配,并建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系;数据节点存储文件;
该方法包括:
核心控制节点从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;
子集群控制节点基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端;
数据节点根据客户端或者所属子集群的子集群控制节点的调度访问文件。
所述解析所述文件名以判定文件所属的子集群包括:
根据美国信息交换标准码ASCII码表逐个将文件名中的单个字符转换成对应的数字,求和所有对应的数字,并将求和结果除以子集群总数,得到的取余结果为文件所属子集群的标识。
该方法进一步包括:
在客户端缓存所确定的数据节点标识与在所述文件访问请求中包含的文件名的对应关系;
当客户端后续再有针对该文件名所对应文件的文件访问请求时,直接连接对应于该数据节点标识的数据节点以访问所述文件。
该方法进一步包括:
在直接访问对应于该数据节点标识的数据节点以访问所述文件之后,根据验证码判断该文件数据是否有效,如果有效则确认访问有效,如果无效,则向该数据节点的子集群控制节点发出文件数据请求,由该子集群控制节点控制到备份数据节点中访问备份文件数据,并由所述备份数据节点提供的备份文件数据同步到所述数据节点。
所述文件访问请求包括:文件读取请求、文件删除请求或文件写入请求。
本发明提出的系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点,其中:核心控制节点,用于从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;子集群控制节点,用于调度其所属子集群中的数据节点的存储资源分配,建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系,并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端;数据节点,用于存储文件,并根据客户端或者所属子集群的子集群控制节点的调度访问文件。由此可见,本发明针对HDFS中存在的上述问题进行优化,增强分布式文件系统的稳定性,并且使得系统性能得到了较大的提高,另外使得整个系统具有了更加良好的可扩展性,更加有利于分布式文件系统的部署和应用。
本发明的技术方案中,以HDFS作为基础进行改进,将原来单一的Master节点(NameNode节点)功能进行拆分,部分功能被上移至新的系统控制节点,部分功能被下发到从属的数据节点。对于那些要求低延时访问的应用程序,原来的HDFS是不适合的,因为HDFS的设计主要是为了用于大吞吐量数据,这是以一定的时延为代价的。HDFS单一Master的设计,所有的对文件的请求都要经过它,当请求多时,必然会产生较大的延时。在对HDFS进行本发明中的改进后,通过减轻各个功能节点的压力,加快访问文件的速度,从而有效地降低时延。
另外,由于控制节点的性能有限,使得整个分布式文件系统的规模受到限制,经过本发明中的改进后,各层次的控制节点(核心控制节点和子集群控制节点)压力变小,使得整个系统可以以子集群的方式进行扩展。而且扩展方式也十分简便,对于原系统部分影响并不大,只需要将新的子系统信息配置在核心控制节点中即可。
附图说明
图1为本发明分布式文件系统的结构图。
图2为根据本发明分布式文件系统的数据读取流程图。
图3为根据本发明分布式文件系统的数据写入流程图。
图4为根据本发明分布式文件系统的数据删除流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
本发明针对HDFS中存在的上述问题进行优化,增强分布式文件系统的稳定性,并且使得系统性能得到了较大的提高,另外使得整个系统具有了更加良好的可扩展性,更加有利于分布式文件系统的部署和应用。
图1为本发明分布式文件系统的结构图。
如图1所示,该系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点,其中:
核心控制节点,用于从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;
子集群控制节点,用于调度其所属子集群中的数据节点的存储资源分配,建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系,并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端。
数据节点,用于存储文件,并根据客户端或者所属子集群的子集群控制节点的调度访问文件。
数据节点,还用于接收根据客户端所缓存的数据节点标识所确定的直接文件访问请求,并基于所述直接文件访问请求该向客户端提供直接文件访问。
在一个实施方式中:
所述文件访问请求包括:文件读取请求、文件删除请求或文件写入请求,等等。
在一个实施方式中:
核心控制节点,用于根据美国信息交换标准码(ASCII)码表逐个将文件名中的单个字符转换成对应的数字,求和所有对应的数字,并将求和结果除以子集群总数,得到的取余结果为所述文件所属子集群的标识。
具体地,核心控制节点可以由一台具有海量数据处理能力的计算机或服务器组成,用于整个分布式文件系统的任务调度工作,负责判断请求文件所在的子集群,根据判断结果与其相连子集群控制节点进行信息交换,完成从客户端信息向具体子集群中控制节点的信息转发。
每个子集群中的子集群控制节点,可以由一台具有海量数据处理能力的计算机或服务器组成,负责调度其管理的所有数据节点的资源分配,并建立索引记录所存储文件名称与所在数据节点的对应关系。
每个子集群中的数据节点,可以由具有数据处理能力的计算机或者服务器组成,用于存储系统中具体的数据文件,它们根据客户端或者是所在集群的控制节点的调度存储和检索数据,并且定期向子集群控制节点发送它们所存储的块(block)的列表。
进一步,可以在客户端缓存所确定的数据节点标识与在所述文件访问请求中包含的文件名的对应关系;当客户端后续再有针对该文件名所对应文件的文件访问请求时,直接连接对应于该数据节点标识的数据节点以访问所述文件。
进一步地,在直接访问对应于该数据节点标识的数据节点以访问所述文件之后,根据验证码判断该文件数据是否有效,如果有效则确认访问有效,如果无效,则向该数据节点的子集群控制节点发出文件数据请求,由该子集群控制节点控制到备份数据节点中访问备份文件数据,并由所述备份数据节点提供的备份文件数据同步到所述数据节点。
可见,本发明主要采用了一种小集群的轻量级系统的解决方案。
本发明的出发点就是控制数据节点的不断增加,采用子集群的方式就不会造成控制节点的内存紧张及I/O的单点瓶颈问题。即将现有的HDFS结构视为本发明的一个子集群,在每一个子集群中存在唯一的子集群控制节点和与之相关联的所有数据节点。这样在整个系统中会存在许多子集群,而对于不同的子集群之间的协调控制,本发明引入一个更高层次的核心控制节点。
当客户端对分布式文件系统进行访问时,由核心控制节点负责任务的调度,通过对所访问文件名的分析处理,判断文件所在的子集群,然后将任务下发到该子集群中的控制节点上。当该子集群中数据节点完成该任务后,将通过子集群控制节点返回结果给核心控制节点,然后由核心控制节点对客户端进行反馈。
核心控制节点可以通过多种分析处理方式确定文件所在的子集群。比如,当客户端需要在分布式文件存储系统中写入一个新文件时,则向核心控制节点请求分配写入的子集群,核心控制节点先将文件名的字符串转换成数字,然后根据除留余数法选取特定的子集群,再向该特定的子集群的子集群控制节点请求创建新的数据块。
举例,假如期望写入的文件的完整名称是/home/admin/demo.c,则根据ASCII码表逐个将单个字符转换成对应的数字,即:47(/)+104(h)+111(o)+109(m)+101(e)+47(/)+97(a)+100(d)+109(m)+105(i)+110(n)+47(/)+100(d)+101(e)+109(m)+111(o)+46(.)+99(c)=1653
如果集群中总共有20个子集群,则取余的结果是1653/20=13,即文件存放的位置是13号子集群。
在确定文件存放的子集群之后,可以基于各种现有方式在子集群中确定具体存放数据的数据节点,对此本发明并不赘述。
当基于上述方式存入数据之后,可以基于上述类似方式取出数据。
通过上述分析可见,现有的分布式文件系统主要由Google的GFS和Hadoop的HDFS,二者在系统架构方面采用了类似的技术,而设计思路也基本相同。两者Master端都采用了单节点的方式,这样使得系统性能很大程度上由Master节点决定,在大多数的场景中单一控制节点的设计还是能够满足系统的需求的,但在大规模的应用中,随着数据量的不断增长,存储规模的扩大,系统不断增加数据块节点,元数据的量也就相应地增加,特别是在图片、视频、文档、语音等各种应用场景中,Master节点需管理着大量的小文件的元数据,使得它将变得不堪重负,成为整个系统的瓶颈所在。
本发明的设计中,以HDFS作为基础进行改进,将原来单一的Master节点(NameNode节点)功能进行拆分,部分功能被上移至新的系统控制节点,部分功能被下发到从属的数据节点。
对于那些要求低延时访问的应用程序,原来的HDFS是不适合的,因为HDFS的设计主要是为了用于大吞吐量数据,这是以一定的时延为代价的。HDFS具有单一Master的设计,所有对文件的请求都要经过该单一Master。当请求多时,必然会产生较大的延时。在对HDFS进行本发明中的改进后,通过减轻各个功能节点的压力,加快访问文件的速度,从而有效地降低时延。
另外,由于控制节点的性能有限,使得整个分布式文件系统的规模受到限制,经过本发明中的改进后,各层次的控制节点(核心控制节点和子集群控制节点)压力变小,使得整个系统可以以子集群的方式进行扩展。而且扩展方式也十分简便,对于原系统部分影响并不大,只需要将新的子系统信息配置在核心控制节点中即可。
基于上述详细分析,本发明还提出了一种分布式文件系统的数据访问方法。该系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点;子集群控制节点调度其所属子集群中的数据节点的存储资源分配,并建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系;数据节点存储文件;
该方法包括:
核心控制节点从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;
子集群控制节点基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端;
数据节点根据客户端或者所属子集群的子集群控制节点的调度访问文件。
在一个实施方式中:
所述解析所述文件名以判定文件所属的子集群包括:
根据美国信息交换标准码(ASCII)码表逐个将文件名中的单个字符转换成对应的数字,求和所有对应的数字,并将求和结果除以子集群总数,得到的取余结果为文件所属子集群的标识。
在一个实施方式中,该方法进一步包括:
在客户端缓存所确定的数据节点标识与在所述文件访问请求中包含的文件名的对应关系;
当客户端后续再有针对该文件名所对应文件的文件访问请求时,直接连接对应于该数据节点标识的数据节点以访问所述文件。
在一个实施方式中,该方法进一步包括:
在直接访问对应于该数据节点标识的数据节点以访问所述文件之后,根据验证码判断该文件数据是否有效,如果有效则确认访问有效,如果无效,则向该数据节点的子集群控制节点发出文件数据请求,由该子集群控制节点控制到备份数据节点中访问备份文件数据,并由所述备份数据节点提供的备份文件数据同步到所述数据节点。
图2为根据本发明分布式文件系统的数据读取流程图。
当客户端读取文件时,首先向核心控制节点发出包含文件名的读文件请求,核心控制节点将文件名的字符串转换成相对应的数字,然后根据除留余数法定位到文件所在的子集群,并将子集群标识返回给客户端,客户端可以向该子集群标识所对应的子集群控制节点请求该文件。
然后,客户端建立与子集群控制节点服务器的连接,子集群控制节点服务器在磁盘中查找到对应的数据节点,并返回元数据信息给客户端。
接着,客户端向相应的数据节点服务器请求数据,文件被分为大小一致的分片,进程为客户端并发地返回文件的所有分片。与原HDFS操作一样,当读到一个块的结尾时,就会断开到数据节点的链接,然后继续选择下一个数据节点来获取下一个数据块。
或者,当客户端读取文件时,首先向核心控制节点发出包含文件名的读文件请求,核心控制节点将文件名的字符串转换成相对应的数字,然后根据除留余数法定位到文件所在的子集群,并由该子集群控制节点确定具体的数据节点,然后将数据节点标识返回给客户端。然后,客户端直接访问该数据节点标识所对应的数据节点,以访问具体文件。
假如客户端已经知道子集群标识(在链接或客户端缓存中),则不必通过核心控制节点,可以直接到指定的集群中向控制节点服务器发出读文件请求,以减少一次I/O操作。
当客户端直接连接到数据节点中找到相应的块进行文件的读取时,首先会验证校验码,检测所读取的数据是否有效,如果有效则直接进行读取,如果无效,则需向子集群控制节点发出请求,到备份的数据节点服务器中读取数据,然后由备份数据节点将有效数据同步到主数据节点中。
图3为根据本发明分布式文件系统的数据写入流程图。
如图3所示,当客户端需要在分布式文件存储系统中写入一个文件时,则向核心控制节点请求分配写入的小集群,核心控制节点先将文件名的字符串转换成数字,然后根据除留余数法选取特定的子集群,并向子集群控制节点请求创建新的数据块;
然后,子集群控制节点完成一系列验证工作,确认允许客户端写文件后,向数据节点发出数据块创建指令,返回给客户端数据节点的块地址。
接着,客户端与数据节点建立连接,请求写入文件到子集群控制节点所分配的数据块中,数据节点分配块中实际可写入的物理地址,设置偏移ID,将文件分成大小一致的分片,并发上传到数据节点的上传缓冲中。
当完成上传后,客户端即可认为写入完成,即可断开与数据节点的连接,后续的操作将对客户端透明。
当数据节点接收到客户端的文件缓存后,在相对空闲的时候,将文件按顺序异步写入热备份数据节点的数据块中,数据节点与其热备份数据节点连接,以同样的方式写入备份数据节点中。主备数据节点写入均完成后,主数据节点通知子集群控制节点写入成功并更新元数据,数据节点删除该文件占据的上传缓存空间。
数据节点与索引服务器联系,将文件索引写入索引系统中。假如主数据节点或者备份数据节点中有一个从上传缓存空间中写入到磁盘中失败,主数据节点将会向子集群控制节点请求分配另一个数据块进行写入。
图4为根据本发明分布式文件系统的数据删除流程图。
如图4所示,当客户端请求删除分布式文件存储系统的一个文件时,会向核心控制节点发出请求,核心控制节点将文件名转换成数字并使用除留余数法确定文件所在的子集群,建立于集群控制节点的连接。之后的操作与原HDFS删除文件的步骤相同,这里就不再赘述。
综上所述,本发明提出的系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点,其中:核心控制节点,用于从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;子集群控制节点,用于调度其所属子集群中的数据节点的存储资源分配,建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系,并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端;数据节点,用于存储文件,并根据客户端或者所属子集群的子集群控制节点的调度访问文件。由此可见,本发明针对HDFS中存在的上述问题进行优化,增强分布式文件系统的稳定性,并且使得系统性能得到了较大的提高,另外使得整个系统具有了更加良好的可扩展性,更加有利于分布式文件系统的部署和应用。
本发明的技术方案中,以HDFS作为基础进行改进,将原来单一的Master节点(NameNode节点)功能进行拆分,部分功能被上移至新的系统控制节点,部分功能被下发到从属的数据节点。对于那些要求低延时访问的应用程序,原来的HDFS是不适合的,因为HDFS的设计主要是为了用于大吞吐量数据,这是以一定的时延为代价的。HDFS单一Master的设计,所有的对文件的请求都要经过它,当请求多时,必然会产生较大的延时。在对HDFS进行本发明中的改进后,通过减轻各个功能节点的压力,加快访问文件的速度,从而有效地降低时延。
另外,由于控制节点的性能有限,使得整个分布式文件系统的规模受到限制,经过本发明中的改进后,各层次的控制节点(核心控制节点和子集群控制节点)压力变小,使得整个系统可以以子集群的方式进行扩展。而且扩展方式也十分简便,对于原系统部分影响并不大,只需要将新的子系统信息配置在核心控制节点中即可。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种分布式文件系统,其特征在于,该系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点,其中:
核心控制节点,用于从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;
子集群控制节点,用于调度其所属子集群中的数据节点的存储资源分配,建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系,并基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端;
数据节点,用于存储文件,并根据客户端或者所属子集群的子集群控制节点的调度访问文件。
2.根据权利要求1所述的分布式文件系统,其特征在于,
数据节点,还用于接收根据客户端所缓存的数据节点标识所确定的直接文件访问请求,并基于所述直接文件访问请求该向客户端提供直接文件访问。
3.根据权利要求1所述的分布式文件系统,其特征在于,所述文件访问请求包括:文件读取请求、文件删除请求或文件写入请求。
4.根据权利要求1所述的分布式文件系统,其特征在于,
核心控制节点,用于根据美国信息交换标准码ASCII码表逐个将文件名中的单个字符转换成对应的数字,求和所有对应的数字,并将求和结果除以子集群总数,得到的取余结果为所述文件所属子集群的标识。
5.一种分布式文件系统的数据访问方法,其特征在于,该系统包括核心控制节点和多个子集群,每个子集群包括子集群控制节点以及多个数据节点;子集群控制节点调度其所属子集群中的数据节点的存储资源分配,并建立索引以记录在所属子集群的数据节点中所存储文件的文件名与该文件所在数据节点的对应关系;数据节点存储文件;
该方法包括:
核心控制节点从客户端接收包含文件名的文件访问请求,解析所述文件名以判定文件所属的子集群,并将所述文件访问请求下发到该子集群中的子集群控制节点;
子集群控制节点基于由核心控制节点下发的文件访问请求和所述对应关系确定与所述文件访问请求相关的数据节点,并通过核心控制节点的转发将所确定的数据节点标识告知客户端;
数据节点根据客户端或者所属子集群的子集群控制节点的调度访问文件。
6.根据权利要求5所述的分布式文件系统的数据访问方法,其特征在于,所述解析所述文件名以判定文件所属的子集群包括:
根据美国信息交换标准码ASCII码表逐个将文件名中的单个字符转换成对应的数字,求和所有对应的数字,并将求和结果除以子集群总数,得到的取余结果为文件所属子集群的标识。
7.根据权利要求5所述的分布式文件系统的数据访问方法,其特征在于,该方法进一步包括:
在客户端缓存所确定的数据节点标识与在所述文件访问请求中包含的文件名的对应关系;
当客户端后续再有针对该文件名所对应文件的文件访问请求时,直接连接对应于该数据节点标识的数据节点以访问所述文件。
8.根据权利要求7所述的分布式文件系统的数据访问方法,其特征在于,该方法进一步包括:
在直接访问对应于该数据节点标识的数据节点以访问所述文件之后,根据验证码判断该文件数据是否有效,如果有效则确认访问有效,如果无效,则向该数据节点的子集群控制节点发出文件数据请求,由该子集群控制节点控制到备份数据节点中访问备份文件数据,并由所述备份数据节点提供的备份文件数据同步到所述数据节点。
9.根据权利要求5所述的分布式文件系统的数据访问方法,其特征在于,所述文件访问请求包括:文件读取请求、文件删除请求或文件写入请求。
CN201310574272.8A 2013-11-15 2013-11-15 一种分布式文件系统及其数据访问方法 Pending CN103647797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310574272.8A CN103647797A (zh) 2013-11-15 2013-11-15 一种分布式文件系统及其数据访问方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310574272.8A CN103647797A (zh) 2013-11-15 2013-11-15 一种分布式文件系统及其数据访问方法

Publications (1)

Publication Number Publication Date
CN103647797A true CN103647797A (zh) 2014-03-19

Family

ID=50252952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310574272.8A Pending CN103647797A (zh) 2013-11-15 2013-11-15 一种分布式文件系统及其数据访问方法

Country Status (1)

Country Link
CN (1) CN103647797A (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123182A (zh) * 2014-07-18 2014-10-29 西安交通大学 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN104270437A (zh) * 2014-09-25 2015-01-07 中国科学院大学 分布式混合架构的海量数据处理和可视化系统及方法
CN104320401A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式文件系统的大数据存储访问系统及方法
CN104333585A (zh) * 2014-10-30 2015-02-04 中南大学 一种分布式环境下依赖性程序文件集的传输优化调度方法
CN104636472A (zh) * 2015-02-13 2015-05-20 烟台智慧云谷云计算有限公司 一种四层架构的tb级数据库存储系统及存储算法
CN104735155A (zh) * 2015-03-30 2015-06-24 北京瑞星信息技术有限公司 多个终端网络定址、数据传输的管理方法及系统
CN104965840A (zh) * 2014-09-26 2015-10-07 浙江大华技术股份有限公司 一种数据节点的随机分配方法及系统
CN105224244A (zh) * 2015-09-07 2016-01-06 浙江宇视科技有限公司 一种文件存储的方法和装置
CN105357300A (zh) * 2015-11-09 2016-02-24 重庆金鑫智慧科技有限公司 应用于智慧校园的后台管理平台
CN105827678A (zh) * 2015-01-07 2016-08-03 中国移动通信集团山东有限公司 一种基于高可用架构下的通信方法和节点
WO2016146023A1 (zh) * 2015-03-19 2016-09-22 阿里巴巴集团控股有限公司 分布式计算系统和方法
CN106294842A (zh) * 2016-08-19 2017-01-04 浪潮(北京)电子信息产业有限公司 一种数据交互方法、平台及分布式文件系统
CN106502795A (zh) * 2016-11-03 2017-03-15 郑州云海信息技术有限公司 分布式集群上实现科学计算应用部署的方法及系统
CN106547837A (zh) * 2016-10-13 2017-03-29 广西电网有限责任公司电力科学研究院 一种分布式文件系统及其数据文件处理方法
CN106681840A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种云操作系统的任务调度方法及装置
CN106991121A (zh) * 2017-02-23 2017-07-28 深圳市中博睿存信息技术有限公司 超融合数据存储方法及系统
CN107153662A (zh) * 2016-03-04 2017-09-12 华为技术有限公司 一种数据处理方法及装置
CN107302444A (zh) * 2016-04-15 2017-10-27 中兴通讯股份有限公司 企业级搜索应用服务器集群自动扩容方法及装置
CN107463577A (zh) * 2016-06-06 2017-12-12 华为软件技术有限公司 一种数据存储系统以及数据查找方法
CN107566477A (zh) * 2017-08-28 2018-01-09 北京奇艺世纪科技有限公司 一种在分布式文件系统集群中获取文件的方法和装置
CN107612910A (zh) * 2017-09-19 2018-01-19 北京邮电大学 一种分布式文件数据访问方法及系统
CN107613026A (zh) * 2017-10-31 2018-01-19 四川仕虹腾飞信息技术有限公司 基于云存储系统的分布式文件管理系统
CN107992491A (zh) * 2016-10-26 2018-05-04 中国移动通信有限公司研究院 一种分布式文件系统、数据访问和数据存储的方法及装置
WO2018090674A1 (en) * 2016-11-16 2018-05-24 Huawei Technologies Co., Ltd. Management of multiple clusters of distributed file systems
CN108566431A (zh) * 2018-04-20 2018-09-21 郑州云海信息技术有限公司 一种分布式存储系统及构建方法
CN109074227A (zh) * 2016-11-25 2018-12-21 华为技术有限公司 一种数据校验的方法及存储系统
CN109756573A (zh) * 2019-01-15 2019-05-14 苏州链读文化传媒有限公司 一种基于区块链的文件系统
CN109857719A (zh) * 2019-01-23 2019-06-07 平安科技(深圳)有限公司 分布式文件处理方法、装置、计算机设备以及存储介质
CN109992575A (zh) * 2019-02-12 2019-07-09 哈尔滨学院 大数据的分布式存储系统
CN110022338A (zh) * 2018-01-09 2019-07-16 阿里巴巴集团控股有限公司 文件读取方法、系统、元数据服务器和用户设备
CN110048896A (zh) * 2019-04-29 2019-07-23 广州华多网络科技有限公司 一种集群数据获取方法、装置及设备
CN111404924A (zh) * 2020-03-12 2020-07-10 腾讯云计算(北京)有限责任公司 集群系统的安全管控方法、装置、设备及存储介质
CN111538703A (zh) * 2020-03-27 2020-08-14 中科边缘智慧信息科技(苏州)有限公司 一种分布式存储系统
CN111694791A (zh) * 2020-04-01 2020-09-22 新华三大数据技术有限公司 一种分布式基础框架中的数据存取方法及装置
CN112100129A (zh) * 2020-09-14 2020-12-18 北京金山云网络技术有限公司 数据访问方法、数据存储方法、装置和文件存储系统
CN112395354A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 基于hdfs元数据服务器的分布式关系数据库及构建方法
US11080244B2 (en) 2014-05-28 2021-08-03 Hewlett Packard Enterprise Development Lp Inter-version mapping of distributed file systems
CN113986135A (zh) * 2021-10-27 2022-01-28 北京百度网讯科技有限公司 处理请求的方法、装置、设备以及存储介质
CN115941786A (zh) * 2022-11-23 2023-04-07 金篆信科有限责任公司 数据库中的数据包传输方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101188569A (zh) * 2006-11-16 2008-05-28 饶大平 在网络上构建数据量子空间的方法及分布式文件存储系统
CN102006330A (zh) * 2010-12-01 2011-04-06 北京瑞信在线系统技术有限公司 分布式缓存系统、数据的缓存方法及缓存数据的查询方法
CN102347969A (zh) * 2010-08-03 2012-02-08 李祥宇 云端资料储存系统
CN102833294A (zh) * 2011-06-17 2012-12-19 阿里巴巴集团控股有限公司 基于云存储的文件处理方法、系统及服务器集群系统
CN102855284A (zh) * 2012-08-03 2013-01-02 北京联创信安科技有限公司 一种集群存储系统的数据管理方法及系统
CN102904948A (zh) * 2012-09-29 2013-01-30 南京云创存储科技有限公司 一种超大规模低成本存储系统
CN103106207A (zh) * 2011-11-10 2013-05-15 中国移动通信集团公司 一种对象存储系统中元数据分布的方法和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101188569A (zh) * 2006-11-16 2008-05-28 饶大平 在网络上构建数据量子空间的方法及分布式文件存储系统
CN102347969A (zh) * 2010-08-03 2012-02-08 李祥宇 云端资料储存系统
CN102006330A (zh) * 2010-12-01 2011-04-06 北京瑞信在线系统技术有限公司 分布式缓存系统、数据的缓存方法及缓存数据的查询方法
CN102833294A (zh) * 2011-06-17 2012-12-19 阿里巴巴集团控股有限公司 基于云存储的文件处理方法、系统及服务器集群系统
CN103106207A (zh) * 2011-11-10 2013-05-15 中国移动通信集团公司 一种对象存储系统中元数据分布的方法和设备
CN102855284A (zh) * 2012-08-03 2013-01-02 北京联创信安科技有限公司 一种集群存储系统的数据管理方法及系统
CN102904948A (zh) * 2012-09-29 2013-01-30 南京云创存储科技有限公司 一种超大规模低成本存储系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
付东华: "基于HDFS的海量分布式文件系统的研究与优化", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
姚林: "NoSQL的分布式存储与扩展解决方法", 《计算机工程》 *
廖赤球: "DLT算法在决策支持系统中的应用", 《华南理工大学学报(自然科学版)》 *
张敏杰等: "大并发访问下的企业J2EE信息系统集群架构研究", 《2009电力行业信息化年会论文集》 *
齐雪生: "并行地震数据处理支撑系统研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11080244B2 (en) 2014-05-28 2021-08-03 Hewlett Packard Enterprise Development Lp Inter-version mapping of distributed file systems
CN104123182A (zh) * 2014-07-18 2014-10-29 西安交通大学 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN104123182B (zh) * 2014-07-18 2015-09-30 西安交通大学 基于主从架构的MapReduce任务跨数据中心调度系统及方法
CN104270437A (zh) * 2014-09-25 2015-01-07 中国科学院大学 分布式混合架构的海量数据处理和可视化系统及方法
CN104270437B (zh) * 2014-09-25 2017-08-25 中国科学院大学 分布式混合架构的海量数据处理和可视化系统及方法
CN104965840A (zh) * 2014-09-26 2015-10-07 浙江大华技术股份有限公司 一种数据节点的随机分配方法及系统
CN104333585A (zh) * 2014-10-30 2015-02-04 中南大学 一种分布式环境下依赖性程序文件集的传输优化调度方法
CN104333585B (zh) * 2014-10-30 2016-06-22 中南大学 一种分布式环境下依赖性程序文件集的传输优化调度方法
CN104320401A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式文件系统的大数据存储访问系统及方法
CN104320401B (zh) * 2014-10-31 2018-06-22 北京思特奇信息技术股份有限公司 一种基于分布式文件系统的大数据存储访问系统及方法
CN105827678B (zh) * 2015-01-07 2019-03-05 中国移动通信集团山东有限公司 一种基于高可用架构下的通信方法和节点
CN105827678A (zh) * 2015-01-07 2016-08-03 中国移动通信集团山东有限公司 一种基于高可用架构下的通信方法和节点
CN104636472A (zh) * 2015-02-13 2015-05-20 烟台智慧云谷云计算有限公司 一种四层架构的tb级数据库存储系统及存储算法
CN106034160A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 分布式计算系统和方法
WO2016146023A1 (zh) * 2015-03-19 2016-09-22 阿里巴巴集团控股有限公司 分布式计算系统和方法
CN106034160B (zh) * 2015-03-19 2019-06-11 阿里巴巴集团控股有限公司 分布式计算系统和方法
CN104735155A (zh) * 2015-03-30 2015-06-24 北京瑞星信息技术有限公司 多个终端网络定址、数据传输的管理方法及系统
CN104735155B (zh) * 2015-03-30 2018-05-08 北京瑞星网安技术股份有限公司 多个终端网络定址、数据传输的管理方法及系统
CN105224244B (zh) * 2015-09-07 2018-09-18 浙江宇视科技有限公司 一种文件存储的方法和装置
CN105224244A (zh) * 2015-09-07 2016-01-06 浙江宇视科技有限公司 一种文件存储的方法和装置
CN105357300A (zh) * 2015-11-09 2016-02-24 重庆金鑫智慧科技有限公司 应用于智慧校园的后台管理平台
CN107153662A (zh) * 2016-03-04 2017-09-12 华为技术有限公司 一种数据处理方法及装置
CN107153662B (zh) * 2016-03-04 2020-04-28 华为技术有限公司 一种数据处理方法及装置
CN107302444A (zh) * 2016-04-15 2017-10-27 中兴通讯股份有限公司 企业级搜索应用服务器集群自动扩容方法及装置
CN107302444B (zh) * 2016-04-15 2022-03-25 中兴通讯股份有限公司 企业级搜索应用服务器集群自动扩容方法及装置
CN107463577A (zh) * 2016-06-06 2017-12-12 华为软件技术有限公司 一种数据存储系统以及数据查找方法
CN107463577B (zh) * 2016-06-06 2021-01-29 华为技术有限公司 一种数据存储系统以及数据查找方法
CN106294842A (zh) * 2016-08-19 2017-01-04 浪潮(北京)电子信息产业有限公司 一种数据交互方法、平台及分布式文件系统
CN106547837A (zh) * 2016-10-13 2017-03-29 广西电网有限责任公司电力科学研究院 一种分布式文件系统及其数据文件处理方法
CN107992491A (zh) * 2016-10-26 2018-05-04 中国移动通信有限公司研究院 一种分布式文件系统、数据访问和数据存储的方法及装置
CN106502795A (zh) * 2016-11-03 2017-03-15 郑州云海信息技术有限公司 分布式集群上实现科学计算应用部署的方法及系统
WO2018090674A1 (en) * 2016-11-16 2018-05-24 Huawei Technologies Co., Ltd. Management of multiple clusters of distributed file systems
CN109074227A (zh) * 2016-11-25 2018-12-21 华为技术有限公司 一种数据校验的方法及存储系统
CN109074227B (zh) * 2016-11-25 2020-06-16 华为技术有限公司 一种数据校验的方法及存储系统
CN106681840A (zh) * 2016-12-30 2017-05-17 郑州云海信息技术有限公司 一种云操作系统的任务调度方法及装置
CN106991121A (zh) * 2017-02-23 2017-07-28 深圳市中博睿存信息技术有限公司 超融合数据存储方法及系统
CN107566477A (zh) * 2017-08-28 2018-01-09 北京奇艺世纪科技有限公司 一种在分布式文件系统集群中获取文件的方法和装置
CN107566477B (zh) * 2017-08-28 2021-06-22 北京奇艺世纪科技有限公司 一种在分布式文件系统集群中获取文件的方法和装置
CN107612910A (zh) * 2017-09-19 2018-01-19 北京邮电大学 一种分布式文件数据访问方法及系统
CN107613026A (zh) * 2017-10-31 2018-01-19 四川仕虹腾飞信息技术有限公司 基于云存储系统的分布式文件管理系统
CN110022338A (zh) * 2018-01-09 2019-07-16 阿里巴巴集团控股有限公司 文件读取方法、系统、元数据服务器和用户设备
CN108566431A (zh) * 2018-04-20 2018-09-21 郑州云海信息技术有限公司 一种分布式存储系统及构建方法
CN109756573A (zh) * 2019-01-15 2019-05-14 苏州链读文化传媒有限公司 一种基于区块链的文件系统
CN109756573B (zh) * 2019-01-15 2022-02-08 苏州链读文化传媒有限公司 一种基于区块链的文件系统
CN109857719B (zh) * 2019-01-23 2024-03-01 平安科技(深圳)有限公司 分布式文件处理方法、装置、计算机设备以及存储介质
CN109857719A (zh) * 2019-01-23 2019-06-07 平安科技(深圳)有限公司 分布式文件处理方法、装置、计算机设备以及存储介质
WO2020151337A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 分布式文件处理方法、装置、计算机设备以及存储介质
CN109992575A (zh) * 2019-02-12 2019-07-09 哈尔滨学院 大数据的分布式存储系统
CN109992575B (zh) * 2019-02-12 2020-02-14 哈尔滨学院 大数据的分布式存储系统
CN110048896A (zh) * 2019-04-29 2019-07-23 广州华多网络科技有限公司 一种集群数据获取方法、装置及设备
CN111404924A (zh) * 2020-03-12 2020-07-10 腾讯云计算(北京)有限责任公司 集群系统的安全管控方法、装置、设备及存储介质
CN111404924B (zh) * 2020-03-12 2022-09-30 腾讯云计算(北京)有限责任公司 集群系统的安全管控方法、装置、设备及存储介质
CN111538703A (zh) * 2020-03-27 2020-08-14 中科边缘智慧信息科技(苏州)有限公司 一种分布式存储系统
CN111538703B (zh) * 2020-03-27 2024-01-26 中科边缘智慧信息科技(苏州)有限公司 一种分布式存储系统
CN111694791A (zh) * 2020-04-01 2020-09-22 新华三大数据技术有限公司 一种分布式基础框架中的数据存取方法及装置
CN112100129A (zh) * 2020-09-14 2020-12-18 北京金山云网络技术有限公司 数据访问方法、数据存储方法、装置和文件存储系统
CN112395354B (zh) * 2020-11-05 2022-08-02 深圳市中博科创信息技术有限公司 基于hdfs元数据服务器的分布式关系数据库及构建方法
CN112395354A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 基于hdfs元数据服务器的分布式关系数据库及构建方法
CN113986135A (zh) * 2021-10-27 2022-01-28 北京百度网讯科技有限公司 处理请求的方法、装置、设备以及存储介质
CN113986135B (zh) * 2021-10-27 2023-08-15 北京百度网讯科技有限公司 处理请求的方法、装置、设备以及存储介质
CN115941786A (zh) * 2022-11-23 2023-04-07 金篆信科有限责任公司 数据库中的数据包传输方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN103647797A (zh) 一种分布式文件系统及其数据访问方法
CN107547653B (zh) 一种分布式文件存储系统
JP6044539B2 (ja) 分散ストレージシステムおよび方法
JP5765416B2 (ja) 分散ストレージシステムおよび方法
JP5411250B2 (ja) 冗長データ記憶システムへの指示に従ってのデータ配置
CN102855239B (zh) 一种分布式地理文件系统
CN101576915B (zh) 一种分布式b+树索引系统及构建方法
CN110213352B (zh) 名字空间统一的分散自治存储资源聚合方法
CN103310000B (zh) 元数据管理方法
US20110153570A1 (en) Data replication and recovery method in asymmetric clustered distributed file system
US20140082301A1 (en) Massively scalable object storage for storing object replicas
US8930364B1 (en) Intelligent data integration
CN104184812B (zh) 一种基于私有云的多点数据传输方法
JP2016062609A (ja) コンピュータ実装された動的シャーディング方法
US9165006B2 (en) Method and system for managing data storage and access on a client device
CN102713901A (zh) 存储复制系统和方法
CN103002027A (zh) 基于键值对系统实现树形目录结构的数据存储系统及方法
CN104133882A (zh) 一种基于hdfs的小文件处理方法
CN102664914A (zh) 一种IS/DFS-Image分布式文件存储查询系统
KR20100070895A (ko) 메타데이터 서버 및 메타데이터 관리 방법
JP5375972B2 (ja) 分散ファイルシステム、そのデータ選択方法およびプログラム
CN104408111A (zh) 一种删除重复数据的方法及装置
CN106775446A (zh) 基于固态硬盘加速的分布式文件系统小文件访问方法
CN102937964B (zh) 基于分布式系统的智能数据服务方法
US20130031221A1 (en) Distributed data storage system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140319