CN103152395B - 一种分布式文件系统的存储方法及装置 - Google Patents

一种分布式文件系统的存储方法及装置 Download PDF

Info

Publication number
CN103152395B
CN103152395B CN201310046645.4A CN201310046645A CN103152395B CN 103152395 B CN103152395 B CN 103152395B CN 201310046645 A CN201310046645 A CN 201310046645A CN 103152395 B CN103152395 B CN 103152395B
Authority
CN
China
Prior art keywords
memory node
data block
cluster
node
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310046645.4A
Other languages
English (en)
Other versions
CN103152395A (zh
Inventor
郭东东
赵彦荣
赵健博
洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310046645.4A priority Critical patent/CN103152395B/zh
Publication of CN103152395A publication Critical patent/CN103152395A/zh
Application granted granted Critical
Publication of CN103152395B publication Critical patent/CN103152395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式文件系统的存储方法及装置,其中所述方法包括:接收客户端发送的文件信息;确定每个数据块的目标存储节点,所述目标存储节点包括第一存储节点、第二存储节点、第三存储节点,其中,所述第一存储节点为客户端所在的存储节点或集群内随机选取的存储节点;所述第二存储节点为所述数据块所在条带上的其他数据块没有分配到的存储节点或集群内随机选取的存储节点;所述第三存储节点为在集群内随机选取的存储节点;将所述数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中。本发明可以在考虑后续使用Raid技术实现文件存储可靠性的需求的情况下使得集群中每个节点的容量更加均衡,提高集群的稳定性。

Description

一种分布式文件系统的存储方法及装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种分布式文件系统的存储方法,以及,一种分布式文件系统的存储装置。
背景技术
随着信息系统的快速发展,海量的信息需要可靠存储的同时,还能被大量的使用者快速地访问。传统的存储方案已经从构架上越来越难以适应近几年来的信息系统业务的飞速发展,成为了业务发展的瓶颈和障碍。HDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统)通过一个高效的分布式算法,将数据的访问和存储分布在大量服务器之中,在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上,是传统存储构架的一个颠覆性的发展。
HDFS作为Hadoop中的一个分布式文件系统,而且是专门为它的MapReduce(一种编程模型,用于大规模数据集(大于1TB)的并行运算)设计,所以HDFS除了必须满足自己作为分布式文件系统的高可靠性外,还必须为MapReduce提供高效的读写性能,那么HDFS是如何做到这些的呢?首先,HDFS将每一个文件的数据进行分块存储,同时每一个数据块(Block)又保存有多个副本,一般是3副本。每个副本存储在独立的存储节点上。这样,每个文件的内容都被存储在了多个不同存储节点(DataNode)上,一旦个别节点宕机,整个文件的数据仍然可以从存储该文件的其他副本的存储节点上获取。传统的Block分配策略如下:
第一份副本:如果Writer不是集群内节点,则在全局范围内随机选择一个DataNode;如果节点是集群内存节点,优先选择该节点,否则随机选择。
第二份副本:第一存储节点所在的不同机架上,随机选择一个存储节点;如果选择失败,则全局随机选择DataNode。
第三份副本:第二个副本所在存储节点所在的机架上随机选择一个DataNode;第一个副本所在存储节点所在的不同机架上,随机选择一个存储节点。
其他副本位置的选择:全集群范围内随机选择存储节点。
然而,上述的Block分配策略只是考虑了数据的可靠性方面及数据副本节省网络带宽方面的效果,很难满足后续使用Raid技术实现文件存储可靠性的需求。
因此,目前需要本领域技术人员迫切解决的一个技术问题是:提出一种分布式文件系统的存储机制,用以在考虑后续使用Raid技术实现文件存储可靠性的需求的情况下使得集群中每个节点的容量更加均衡,提高集群的稳定性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种分布式文件系统的存储方法,相应的一种分布式文件系统的存储装置。
依据本发明的一个方面,提供了一种分布式文件系统的存储方法,包括:
接收客户端发送的文件信息,所述文件信息包括组成文件的至少一个条带,所述条带包括多个数据块;
确定每个数据块的目标存储节点,所述目标存储节点包括第一存储节点、第二存储节点、第三存储节点,其中,所述第一存储节点为客户端所在的存储节点或集群内随机选取的存储节点;所述第二存储节点为所述数据块所在条带上的其他数据块没有分配到的存储节点或集群内随机选取的存储节点;所述第三存储节点为在集群内随机选取的存储节点;
将所述数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中。
可选地,所述确定每个数据块的目标存储节点的步骤包括:
获取客户端所在的存储节点;若所述客户端所在的存储节点为集群内的节点,则将所述客户端所在的存储节点作为第一存储节点;若所述客户端所在的存储节点不为集群内的节点,则在集群内随机选取一个存储节点作为第一存储节点;
获取条带中数据块的个数,以及已经写入的各数据块的存储地址信息;依据所述条带中数据块的个数以及各数据块的存储地址信息查找集群中所述条带的数据块没有分配到的存储节点作为候选存储节点,随机选取一个候选存储节点作为第二存储节点;若所述候选存储节点的剩余存储空间小于所述数据块的大小,则在集群内随机选择一个存储节点作为第二存储节点;
获取集群中的各个存储节点的剩余存储空间,依据所述各个存储节点的剩余存储空间计算各个存储节点在集群中的剩余空间百分比,依据所述各个存储节点在集群中的剩余空间百分比在集群内随机选取一个存储节点作为第三存储节点。
可选地,所述将数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中的步骤包括:
将所述目标存储节点发送至客户端;
第一存储节点接收客户端发送的数据块,将所述数据块写入本地数据库,同时将所述数据块复制至第二存储节点中;
所述第二存储节点将接收的数据块写入本地数据库,同时将所述数据块复制至第三存储节点中;
所述第三存储节点将接收的数据块写入本地数据库中。
可选地,所述第一存储节点中写入的数据块为所述数据块的第一副本,所述第二存储节点中写入的数据块为所述数据块的第二副本,所述第三存储节点中写入的数据块为所述数据块的第三副本,所述方法还包括:
当数据块配置的副本数大于3时,从第4副本开始在集群内随机选择的存储节点中进行存储。
可选地,所述第二存储节点与所述第一存储节点位于不同的机架上。
依据本发明的另一个方面,提供了一种分布式文件系统的存储装置,包括:
文件信息接收模块,适于接收客户端发送的文件信息,所述文件信息包括组成文件的至少一个条带,所述条带包括多个数据块;
目标存储节点确定模块,适于确定每个数据块的目标存储节点,所述目标存储节点包括第一存储节点、第二存储节点、第三存储节点,其中,所述第一存储节点为客户端所在的存储节点或集群内随机选取的存储节点;所述第二存储节点为所述数据块所在条带上的其他数据块没有分配到的存储节点或集群内随机选取的存储节点;所述第三存储节点为在集群内随机选取的存储节点;
第一写入模块,适于将所述数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中。
可选地,所述目标存储节点确定模块包括:
第一存储节点选取子模块,适于获取客户端所在的存储节点;若所述客户端所在的存储节点为集群内的节点,则将所述客户端所在的存储节点作为第一存储节点;若所述客户端所在的存储节点不为集群内的节点,则在集群内随机选取一个存储节点作为第一存储节点;
第二存储节点选取子模块,适于获取条带中数据块的个数,以及已经写入的各数据块的存储地址信息;依据所述条带中数据块的个数以及各数据块的存储地址信息查找集群中所述条带的数据块没有分配到的存储节点作为候选存储节点,随机选取一个候选存储节点作为第二存储节点;若所述候选存储节点的剩余存储空间小于所述数据块的大小,则在集群内随机选择一个存储节点作为第二存储节点;
第三存储节点选取子模块,适于获取集群中的各个存储节点的剩余存储空间,依据所述各个存储节点的剩余存储空间计算各个存储节点在集群中的剩余空间百分比,依据所述各个存储节点在集群中的剩余空间百分比在集群内随机选取一个存储节点作为第三存储节点。
可选地,所述第一写入模块包括:
目标存储节点发送子模块,适于将所述目标存储节点发送至客户端;
位于第一存储节点的写入子模块,适于接收客户端发送的数据块,将所述数据块写入本地数据库,同时将所述数据块复制至第二存储节点中;
位于第二存储节点的写入子模块,适于将接收的数据块写入本地数据库,同时将所述数据块复制至第三存储节点中;
位于第三存储节点的写入子模块,适于将接收的数据块写入本地数据库中。
可选地,所述第一存储节点中写入的数据块为所述数据块的第一副本,所述第二存储节点中写入的数据块为所述数据块的第二副本,所述第三存储节点中写入的数据块为所述数据块的第三副本,所述系统还包括:
第二写入模块,适于在数据块配置的副本数大于3时,从第4副本开始在集群内随机选择的存储节点中进行存储。
可选地,所述第二存储节点与所述第一存储节点位于不同的机架上。
根据本发明的一种分布式文件系统的存储方法及装置,可以在选择存储节点存储当前要写入的数据块副本时,既考虑存储本地性的特点,又考虑条带对数据块副本分配策略的影响,使得同一条带内的数据块不在同一机架上,并且,本发明考虑了集群中每个存储节点的容量负载情况,可以使得集群中每个存储节点的容量更加均衡,由此解决了背景技术中传统的数据块分配策略中没有考虑文件后续执行Raid技术的需求的问题取得了大力优化RaidNode的效果,减少RaidNode数据搬迁率,保证整个集群的负载均衡、增加集群稳定性的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的HDFS系统架构图;
图2示出了根据本发明一个实施例的HDFS集群规模示意图;
图3示出了根据本发明一个实施例的一种分布式文件系统的存储方法实施例的步骤流程图;
图4示出了根据本发明一个实施例的一种分布式文件系统的存储装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的实施例描述的是Hadoop分布式文件系统HDFS写入数据块的过程。分布式文件系统(DistributedFileSystem,简称DFS)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,分布式文件系统的设计基于客户机/服务器模式。Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统,它和现有的分布式文件系统有很多共同点,但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上;HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
参考图1所示的HDFS系统架构图。大型HDFS实例一般运行在跨越多个机架的计算机组成的集群上,一个HDFS集群是由一个元数据节点NameNode和一定数目的存储节点DataNode组成。NameNode是一个中心服务器,负责管理文件系统的命名空间namespace和客户端Client对文件的访问。集群中的DataNode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些数据块存储在一组DataNode上。NameNode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体DataNode节点的映射;DataNode负责处理文件系统客户端的读写请求,在NameNode的统一调度下进行数据块的创建、删除和复制。
另外,HDFS还包括元数据节点备机SecondaryNameNode,其主要功能就是周期性将元数据节点NameNode的命名空间镜像文件和修改日志合并,以防日志文件过大,合并过后的命名空间镜像文件也在SecondaryNameNode中保存了一份,以防元数据节点NameNode失败的时候,可以恢复。
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的。为了容错,文件的所有数据块都会有副本,每个文件的数据块大小和副本系数(文件副本的数目称为文件的副本系数)都是可配置的,应用程序可以指定某个文件的副本数目(一般是3副本),副本系数可以在文件创建的时候指定,也可以在之后改变。HDFS中的文件都是一次性写入的,并且严格要求在任何时候只能有一个写入者。NameNode全权管理数据块的复制,它周期性地从集群中的每个DataNode接收心跳信号和块状态报告(Blockreport),接收到心跳信号意味着该DataNode节点工作正常;块状态报告包含了一个该DataNode上所有数据块的列表。
副本的存放是HDFS可靠性和性能的关键,优化的副本存放策略是HDFS区分于其他大部分分布式文件系统的重要特性。每个副本存储在独立的存储节点DataNode上,这样,每个文件的内容都被存储在了多个不同存储节点上,一旦个别节点宕机,整个文件的数据仍然可以从存储该文件的其他副本的存储节点上获取。但是,这样的方式会造成空间较大的浪费,随着HDFS集群的不断扩大,需要更多的磁盘来存储这些文件块Block的副本,导致存储压力大。参考图2的HDFS集群规模示意图,如果一个HDFS集群达到图2所示的HDFS集群规模,可能要考虑一下降低文件副本数来弥补多副本造成的空间浪费。
一般而言,Raid技术能够通过纠错编解码来实现文件存储的可靠性。一个磁盘的数据发生损坏,可以通过纠错编解码来恢复该数据。虽然它也会产生多余的校验码parity,但是原数据本身并不会存成多份。作为另外一种提高可靠性的理念,Raid技术也被引入到了分布式文件系统中。Google新一代文件系统Colossus便采用了Raid技术(Reed-Solomon纠错编解码)实现了更经济的可靠性,FaceBook也开源了自己基于HadoopHDFS的Raid实现。其中,应用了RAID方案后的HDFS也可以称为DRFS,DRFS将文件划分成多个条带Stripe,每个Stripe包含一或多个数据块Block(Stripelength可配置),DRFS以文件为单位计算校验数据块(可用XOR、RS等纠删码算法计算,本发明在此不作限制,Stripelength越小,计算出的校验数据块的量越小,数据恢复时的成本越高;反之,Stripelength越大,存储空间成本越高,但当Block丢失,恢复时的计算和传输成本越低),并将计算出来的校验数据块存储为一个HDFS文件。当校验数据块计算完成且存储到HDFS后,HDFS将降低文件的副本数,以节省存储空间。
由于HDFSRaidNode(HDFS-RAID中除NameNode外的另一主节点)构建在Hadoop分布式文件系统HDFS之上,因此RaidNode要保证同一个条带内的数据块不在同一台机机器上。然而,背景技术中传统的Block分配策略并没有考虑条带Stripe的影响,很难满足RaidNode对Block存储位置的需求。本发明的实施例通过调整Block分配策略来解决传统的Block分配策略,为后续文件raid化(可以通过配置文件判断哪些文件/目录需要raid化)更方便,使得集群能够高效合理运行时,RaidNode数据更加可靠。需要说明的是,本发明所述的Block分配策略只需在NameNode启动时调整。
参照图3,其示出了本发明的一种分布式文件系统的存储方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101:接收客户端发送的文件信息,所述文件信息包括组成文件的至少一个条带,所述条带包括多个数据块;
具体而言,数据块是一组按顺序连续排列在一起的几组记录,是主存储器与输入、输出设备或外存储器之间进行传输的一个数据单位,是数据的物理记录与数据的逻辑记录(逻辑上有联系,在存储器上占有一组邻接单元的数据单位)之间的对应关系,可以有3种方式:①一个数据块即为一个记录;②一个数据块包含若干个逻辑记录;③一个逻辑记录占有几个块。数据块的大小是预先设置的,可以是固定的或是可变的,块与块之间有间隙。在HDFS中,HDFS将每个文件存储成一系列的数据块,除了最后一个,所有的数据块都是同样大小的。每N个数据块可以组成一个条带,其中N为条带的stripelength。
步骤102:确定每个数据块的目标存储节点,所述目标存储节点包括第一存储节点、第二存储节点、第三存储节点;
其中,所述第一存储节点为客户端所在的存储节点或集群内随机选取的存储节点;所述第二存储节点为所述数据块所在条带上的其他数据块没有分配到的存储节点或集群内随机选取的存储节点;所述第三存储节点为在集群内随机选取的存储节点;
在具体实现中,当客户端向HDFS系统写入数据的时候,一开始是写到本地临时文件中,当所述本地临时文件累积到一个数据块的大小时,客户端会从NameNode获取一个DataNode列表用于存放数据块副本。
在本发明的一种优选实施例中,NameNode确定数据块的DataNode列表的过程具体可以包括如下子步骤:
子步骤S11:获取客户端所在的存储节点;若所述客户端所在的存储节点为集群内的节点,则将所述客户端所在的存储节点作为第一存储节点;若所述客户端所在的存储节点不为集群内的节点,则在集群内随机选取一个存储节点作为第一存储节点;
具体而言,所述第一存储节点用于存储当前写入数据块的第一副本,也称本地存储节点,所述子步骤S11的实现过程与传统的Block分配策略中的第一副本分配策略是相同的,也是本地化策略的过程:第一个数据块副本优先存储在与客户端Client所在的存储节点中(如果客户端Client所在的存储节点不在集群范围内,则所述第一存储节点是随机选取的,当然系统会尝试不选择哪些太满或者太忙的存储节点)。
子步骤S12:获取条带中数据块的个数,以及已经写入的各数据块的存储地址信息;依据所述条带中数据块的个数以及各数据块的存储地址信息查找集群中所述条带的数据块没有分配到的存储节点作为候选存储节点,随机选取一个候选存储节点作为第二存储节点;若所述候选存储节点的剩余存储空间小于所述数据块的大小,则在集群内随机选择一个存储节点作为第二存储节点;
在本发明实施例中,所述子步骤S12相对于传统的分配策略做了进一步的优化,引入了“条带”对系统的影响,考虑后续使用Raid技术实现文件存储可靠性的需求的情况下使得集群中每个节点的容量更加均衡,提高集群的稳定性。其中,条带化(Striping)是把连续的数据分割成相同大小的数据块,把每段数据分别写入到阵列中不同磁盘上的方法。此技术非常有用,它比单个磁盘所能提供的读写速度要快的多,当数据从第一个磁盘上传输完后,第二个磁盘就能确定下一段数据。数据条带化正在一些现代数据库和某些Raid硬件设备中得到广泛应用。
因此,本发明可以针对后续需要用到Raid技术的文件进行优化,系统通过配置文件获取预设的后续做Raid的文件或目录,获取所述文件的条带大小(条带中数据块个数)以及已经写入的各数据块的存储地址信息。在具体实现中,所述条带的大小可以从配置文件得到,由于条带内已经写入(已经分配副本)的数据块的存储位置会记录在NameNode内存中,因此可以通过读取NameNode来获取已经写入的各数据块的存储地址信息。
分析所述已经写入的各数据块的存储地址信息,查找集群中没有所述条带的数据块没有分配到的存储节点作为候选存储节点,随机选取一个候选存储节点作为第二存储节点;所述第二存储节点用于存储当前写入数据块的第二副本。由子步骤S12可以看出,存储当前写入数据块的第二副本的第二存储节点在写入第二副本之前在节点中是不存在条带中的数据块的,由于每个存储节点处于不同的机架上,因此本发明实施例可以做到同一条带内的数据块在不同机架上,也可以使得数据块的第一副本以及第二副本在不同机架上,从而可以大大优化RaidNode的效果,减少RaidNode的数据搬迁率(为了保证数据存储的可靠性,需要同一条带内的Block,不可以在同一台机器上,因此RaidNode的数据搬迁一般是搬迁同一条带上的处于同一机架中数据块,本发明实施例可以尽量避免上述情况的发生,因此减少了数据搬迁率,从实际工程环境情况来看,RaidNode的数据块搬移率从35%下降到15%),集群的稳定得到了很大提升。
当然,如果所述选择的第二存储节点剩余空间不足或者是当前负载过重,则可以全集群随机选择存储节点存储所述第二副本。
子步骤S13:获取集群中的各个存储节点的剩余存储空间,依据所述各个存储节点的剩余存储空间计算各个存储节点在集群中的剩余空间百分比,依据所述各个存储节点在集群中的剩余空间百分比在集群内随机选取一个存储节点作为第三存储节点。
具体而言,所述第三存储节点用于存储当前写入数据块的第三副本,第三副本也是在集群内随机选择的。但是,对于每个存储节点可以按照其容量大小获取其剩余存储空间score,通过所述score计算各存储节点相对于集群总空间的剩余空间百分比作为随机选取的概率值,该随机选取的概率值越大,剩余存储空间越大,对应的存储节点越容易选取到。本发明实施例在副本分配时考虑了集群中每个存储节点的容量负载情况,可以使得集群中每个节点的容量更加均衡。
例如,集群中有三个存储节点A、B、C,假设A的剩余存储空间是50,B的剩余存储空间是30,C的剩余存储空间是20,则集群内的剩余存储空间总数为100,A的剩余空间百分比为50%,B的剩余空间百分比为30%,C的剩余空间百分比为20%,则A被选择的概率更大。
步骤103:将所述数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中。
在本发明的一种优选实施例中,所述步骤103具体可以包括如下子步骤:
子步骤S21:将所述目标存储节点发送至客户端;
子步骤S22:第一存储节点接收客户端发送的数据块,将所述数据块写入本地数据库,同时将所述数据块复制至第二存储节点中;
子步骤S23:所述第二存储节点将接收的数据块写入本地数据库,同时将所述数据块复制至第三存储节点中;
子步骤S24:所述第三存储节点将接收的数据块写入本地数据库中。
需要说明的是,当数据块配置的副本数大于3时,从第4副本开始可以在集群内随机选择的存储节点中进行存储。
具体而言,客户端从NameNode获取一个DataNode列表用于存放副本后,客户端开始向第一存储节点传输数据,第一存储节点一小部分一小部分(4KB)地接收数据,将每一部分写入本地数据库,并同时传输该部分到列表中第二存储节点。所述第二存储节点也是这样,一小部分一小部分地接收数据,写入本地数据库,并同时传给第三存储节点。最后,第三存储节点接收数据并存储在本地数据库。因此,DataNode能流水线式地从前一个节点接收数据,并在同时转发给下一个节点,数据以流水线的方式从前一个DataNode复制到下一个。
为了使本领域技术人员更好地理解本发明,下面通过两个例子加以说明:
例一:
假如集群中有4个存储节点DataNode,分别是A1、A2、B、C,其中,A1、A2处于同一机架上,B、C是独立的机架,A2上面已经有同一条带的Block存在;
客户端A1触发写请求分配块,第一个副本分配在本地存储节点A1上,第二个副本可以优先考虑A2,但是A2上面已经有条带内的Block存在,所以可以在全集群内随机选择B,最后一个副本可以在全集群内随机选择C。
例二:
假如集群内有10个DataNode:A、B、C、D、E、F、G、H、I、J、K、L;写如一个文件包括两个Block,条带长度是2;Client机器是A
选择第一个Block的三个副本:
第一份副本:本地化策略,选择A
第二份副本:条带内A已经被选择,随机选择除A以外的机器,假设选择了B;
第三份副本:随机选择,选择了C;
选择第二个Block的三个副本:
第一份副本:本地化策略,选择A
第二份副本:条带内(A,B,C)已经被选择,随机选择这些机器以外的机器,假设选择了D
第三份副本:随机选择,选择了B
当然,上述例子仅仅用作示例,本领域技术人员根据实际情况执行所述方法也是可行的,本发明对此无需加以限制。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
参照图4,示出了根据本发明一个实施例的一种分布式文件系统的存储装置实施例的结构框图,具体可以包括以下模块:
文件信息接收模块201,适于接收客户端发送的文件信息,所述文件信息包括组成文件的至少一个条带,所述条带包括多个数据块;
目标存储节点确定模块202,适于确定每个数据块的目标存储节点,所述目标存储节点包括第一存储节点、第二存储节点、第三存储节点,其中,所述第一存储节点为客户端所在的存储节点或集群内随机选取的存储节点;所述第二存储节点为所述数据块所在条带上的其他数据块没有分配到的存储节点或集群内随机选取的存储节点;所述第三存储节点为在集群内随机选取的存储节点;
在本发明的一种优选实施例中,所述目标存储节点确定模块202可以包括如下子模块:
第一存储节点选取子模块,适于获取客户端所在的存储节点;若所述客户端所在的存储节点为集群内的节点,则将所述客户端所在的存储节点作为第一存储节点;若所述客户端所在的存储节点不为集群内的节点,则在集群内随机选取一个存储节点作为第一存储节点;
第二存储节点选取子模块,适于获取条带中数据块的个数,以及已经写入的各数据块的存储地址信息;依据所述条带中数据块的个数以及各数据块的存储地址信息查找集群中所述条带的数据块没有分配到的存储节点作为候选存储节点,随机选取一个候选存储节点作为第二存储节点;若所述候选存储节点的剩余存储空间小于所述数据块的大小,则在集群内随机选择一个存储节点作为第二存储节点;
其中,所述第二存储节点与所述第一存储节点位于不同的机架上。
第三存储节点选取子模块,适于获取集群中的各个存储节点的剩余存储空间,依据所述各个存储节点的剩余存储空间计算各个存储节点在集群中的剩余空间百分比,集群内随机选取一个存储节点作为第三存储节点。
其中,存储节点的剩余空间百分比越大在随机选取中被选到的概率越大。
第一写入模块203,适于将所述数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中。
在本发明的一种优选实施例中,所述第一写入模块203可以包括如下子模块:
目标存储节点发送子模块,适于将所述目标存储节点发送至客户端;
位于第一存储节点的写入子模块,适于接收客户端发送的数据块,将所述数据块写入本地数据库,同时将所述数据块复制至第二存储节点中;
位于第二存储节点的写入子模块,适于将接收的数据块写入本地数据库,同时将所述数据块复制至第三存储节点中;
位于第三存储节点的写入子模块,适于将接收的数据块写入本地数据库中。
在具体实现中,所述第一存储节点中写入的数据块为所述数据块的第一副本,所述第二存储节点中写入的数据块为所述数据块的第二副本,所述第三存储节点中写入的数据块为所述数据块的第三副本。
在数据块配置的副本数大于3时,所述系统还包括:
第二写入模块,适于从第4副本开始在集群内随机选择的存储节点中进行存储。
对于图4的装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的分布式文件系统的存储设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种分布式文件系统的存储方法,包括:
接收客户端发送的文件信息,所述文件信息包括组成文件的至少一个条带,所述条带包括多个数据块;
确定每个数据块的目标存储节点,所述目标存储节点包括第一存储节点、第二存储节点、第三存储节点,其中,所述第一存储节点为客户端所在的存储节点或集群内随机选取的存储节点;所述第二存储节点为所述数据块所在条带上的其他数据块没有分配到的存储节点或集群内随机选取的存储节点;所述第三存储节点为在集群内随机选取的存储节点;
将所述数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中;
其中,所述第二存储节点与所述第一存储节点位于不同的机架上。
2.如权利要求1所述的方法,所述确定每个数据块的目标存储节点的步骤包括:
获取客户端所在的存储节点;若所述客户端所在的存储节点为集群内的节点,则将所述客户端所在的存储节点作为第一存储节点;若所述客户端所在的存储节点不为集群内的节点,则在集群内随机选取一个存储节点作为第一存储节点;
获取条带中数据块的个数,以及已经写入的各数据块的存储地址信息;依据所述条带中数据块的个数以及各数据块的存储地址信息查找集群中所述条带的数据块没有分配到的存储节点作为候选存储节点,随机选取一个候选存储节点作为第二存储节点;若所述候选存储节点的剩余存储空间小于所述数据块的大小,则在集群内随机选择一个存储节点作为第二存储节点;
获取集群中的各个存储节点的剩余存储空间,依据所述各个存储节点的剩余存储空间计算各个存储节点在集群中的剩余空间百分比,依据所述各个存储节点在集群中的剩余空间百分比在集群内随机选取一个存储节点作为第三存储节点。
3.如权利要求1或2所述的方法,所述将数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中的步骤包括:
将所述目标存储节点发送至客户端;
第一存储节点接收客户端发送的数据块,将所述数据块写入本地数据库,同时将所述数据块复制至第二存储节点中;
所述第二存储节点将接收的数据块写入本地数据库,同时将所述数据块复制至第三存储节点中;
所述第三存储节点将接收的数据块写入本地数据库中。
4.如权利要求3所述的方法,所述第一存储节点中写入的数据块为所述数据块的第一副本,所述第二存储节点中写入的数据块为所述数据块的第二副本,所述第三存储节点中写入的数据块为所述数据块的第三副本,所述方法还包括:
当数据块配置的副本数大于3时,从第4副本开始在集群内随机选择的存储节点中进行存储。
5.一种分布式文件系统的存储装置,包括:
文件信息接收模块,适于接收客户端发送的文件信息,所述文件信息包括组成文件的至少一个条带,所述条带包括多个数据块;
目标存储节点确定模块,适于确定每个数据块的目标存储节点,所述目标存储节点包括第一存储节点、第二存储节点、第三存储节点,其中,所述第一存储节点为客户端所在的存储节点或集群内随机选取的存储节点;所述第二存储节点为所述数据块所在条带上的其他数据块没有分配到的存储节点或集群内随机选取的存储节点;所述第三存储节点为在集群内随机选取的存储节点;
第一写入模块,适于将所述数据块依次写入所述第一存储节点、第二存储节点、第三存储节点中;
其中,所述第二存储节点与所述第一存储节点位于不同的机架上。
6.如权利要求5所述的装置,所述目标存储节点确定模块包括:
第一存储节点选取子模块,适于获取客户端所在的存储节点;若所述客户端所在的存储节点为集群内的节点,则将所述客户端所在的存储节点作为第一存储节点;若所述客户端所在的存储节点不为集群内的节点,则在集群内随机选取一个存储节点作为第一存储节点;
第二存储节点选取子模块,适于获取条带中数据块的个数,以及已经写入的各数据块的存储地址信息;依据所述条带中数据块的个数以及各数据块的存储地址信息查找集群中所述条带的数据块没有分配到的存储节点作为候选存储节点,随机选取一个候选存储节点作为第二存储节点;若所述候选存储节点的剩余存储空间小于所述数据块的大小,则在集群内随机选择一个存储节点作为第二存储节点;
第三存储节点选取子模块,适于获取集群中的各个存储节点的剩余存储空间,依据所述各个存储节点的剩余存储空间计算各个存储节点在集群中的剩余空间百分比,依据所述各个存储节点在集群中的剩余空间百分比在集群内随机选取一个存储节点作为第三存储节点。
7.如权利要求5或6所述的装置,所述第一写入模块包括:
目标存储节点发送子模块,适于将所述目标存储节点发送至客户端;
位于第一存储节点的写入子模块,适于接收客户端发送的数据块,将所述数据块写入本地数据库,同时将所述数据块复制至第二存储节点中;
位于第二存储节点的写入子模块,适于将接收的数据块写入本地数据库,同时将所述数据块复制至第三存储节点中;
位于第三存储节点的写入子模块,适于将接收的数据块写入本地数据库中。
8.如权利要求7所述的装置,所述第一存储节点中写入的数据块为所述数据块的第一副本,所述第二存储节点中写入的数据块为所述数据块的第二副本,所述第三存储节点中写入的数据块为所述数据块的第三副本,所述系统还包括:
第二写入模块,适于在数据块配置的副本数大于3时,从第4副本开始在集群内随机选择的存储节点中进行存储。
CN201310046645.4A 2013-02-05 2013-02-05 一种分布式文件系统的存储方法及装置 Active CN103152395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310046645.4A CN103152395B (zh) 2013-02-05 2013-02-05 一种分布式文件系统的存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310046645.4A CN103152395B (zh) 2013-02-05 2013-02-05 一种分布式文件系统的存储方法及装置

Publications (2)

Publication Number Publication Date
CN103152395A CN103152395A (zh) 2013-06-12
CN103152395B true CN103152395B (zh) 2015-12-09

Family

ID=48550254

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310046645.4A Active CN103152395B (zh) 2013-02-05 2013-02-05 一种分布式文件系统的存储方法及装置

Country Status (1)

Country Link
CN (1) CN103152395B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104424316B (zh) * 2013-09-06 2018-06-05 华为技术有限公司 一种数据存储方法、数据查询方法、相关装置和系统
CN103473365B (zh) * 2013-09-25 2017-06-06 北京奇虎科技有限公司 一种基于hdfs的文件存储方法、装置及分布式文件系统
CN103761059B (zh) * 2014-01-24 2017-02-08 中国科学院信息工程研究所 一种用于海量数据管理的多盘位存储方法及系统
CN104023083B (zh) * 2014-06-23 2017-12-12 广东睿江云计算股份有限公司 日志收集集群负载均衡的方法及装置
CN104468793B (zh) * 2014-12-10 2017-11-03 北京奇虎科技有限公司 分布式数据存储方法及分布式数据集群系统
CN104537050B (zh) * 2014-12-25 2017-12-15 华中科技大学 一种批量快速创建文件系统元数据和数据的方法
CN104580439B (zh) * 2014-12-30 2020-01-03 深圳创新科技术有限公司 一种云存储系统中使数据均匀分布的方法
CN104765871A (zh) * 2015-04-26 2015-07-08 成都创行信息科技有限公司 从互联网中抽取大数据的存储方法
CN104765869A (zh) * 2015-04-26 2015-07-08 成都创行信息科技有限公司 影片大数据转存方法
CN107844268B (zh) * 2015-06-04 2021-09-14 华为技术有限公司 一种数据分发方法、数据存储方法、相关装置以及系统
CN105635252B (zh) * 2015-12-23 2019-06-25 浪潮集团有限公司 一种Hadoop分布式文件系统HDFS纠删码冗余备份方法
WO2017107095A1 (en) * 2015-12-23 2017-06-29 Intel Corporation Technologies for adaptive erasure code
CN105677249B (zh) * 2016-01-04 2019-01-15 浙江宇视科技有限公司 数据块的划分方法、装置及系统
CN105847392A (zh) * 2016-04-25 2016-08-10 乐视控股(北京)有限公司 Hdfs写入方法及装置
CN106027638B (zh) * 2016-05-18 2019-04-12 华中科技大学 一种基于混合编码的hadoop数据分发方法
CN107423301B (zh) * 2016-05-24 2021-02-23 华为技术有限公司 一种数据处理的方法、相关设备及存储系统
CN106598729A (zh) * 2016-11-18 2017-04-26 深圳市证通电子股份有限公司 分布式并行计算系统的数据分配方法及系统
CN108241557A (zh) * 2016-12-26 2018-07-03 航天信息股份有限公司 Hdfs中数据备份的方法
CN107562380A (zh) * 2017-08-28 2018-01-09 郑州云海信息技术有限公司 一种raid2.0的数据块分配方法及装置
CN107707619B (zh) * 2017-08-28 2020-12-04 北京小米移动软件有限公司 分布式存储方法及装置
CN107832138B (zh) * 2017-09-21 2021-09-14 南京邮电大学 一种扁平化的高可用namenode模型的实现方法
CN107657027B (zh) * 2017-09-27 2021-09-21 北京小米移动软件有限公司 数据存储方法及装置
CN107908372B (zh) * 2017-12-14 2021-09-10 南京云创大数据科技股份有限公司 一种异地异构的多融合存储方法
CN110058784B (zh) * 2018-01-18 2020-08-04 杭州海康威视系统技术有限公司 存储数据的方法和装置
CN109376122A (zh) * 2018-09-25 2019-02-22 深圳市元征科技股份有限公司 一种文件管理方法、系统及区块链节点设备和存储介质
CN112394876B (zh) * 2019-08-14 2024-02-23 深圳市特思威尔科技有限公司 大文件存储/读取方法、存储/读取装置和计算机设备
CN111913927A (zh) * 2020-07-16 2020-11-10 珠海大横琴科技发展有限公司 一种数据写入方法、装置及计算机设备
CN112083888A (zh) * 2020-09-10 2020-12-15 北京金山云网络技术有限公司 文件存储方法、装置和电子设备
CN112416888B (zh) * 2020-10-16 2024-03-12 上海哔哩哔哩科技有限公司 用于分布式文件系统的动态负载均衡方法及系统
CN113778973B (zh) * 2021-01-21 2024-04-05 北京沃东天骏信息技术有限公司 数据存储方法和装置
CN113253924A (zh) * 2021-04-28 2021-08-13 百果园技术(新加坡)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306157A (zh) * 2011-07-12 2012-01-04 中国人民解放军国防科学技术大学 数据中心环境下一种面向节能的高可靠数据存储方法
CN102546782A (zh) * 2011-12-28 2012-07-04 北京奇虎科技有限公司 一种分布式系统及其数据操作方法
CN102750195A (zh) * 2012-06-07 2012-10-24 浪潮电子信息产业股份有限公司 一种集群文件系统数据容错的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100490723B1 (ko) * 2002-11-29 2005-05-24 한국전자통신연구원 파일 레벨 스트라이핑 장치 및 방법
US7428691B2 (en) * 2003-11-12 2008-09-23 Norman Ken Ouchi Data recovery from multiple failed data blocks and storage units

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306157A (zh) * 2011-07-12 2012-01-04 中国人民解放军国防科学技术大学 数据中心环境下一种面向节能的高可靠数据存储方法
CN102546782A (zh) * 2011-12-28 2012-07-04 北京奇虎科技有限公司 一种分布式系统及其数据操作方法
CN102750195A (zh) * 2012-06-07 2012-10-24 浪潮电子信息产业股份有限公司 一种集群文件系统数据容错的方法

Also Published As

Publication number Publication date
CN103152395A (zh) 2013-06-12

Similar Documents

Publication Publication Date Title
CN103152395B (zh) 一种分布式文件系统的存储方法及装置
US11500852B2 (en) Database system with database engine and separate distributed storage service
JP6778795B2 (ja) データを記憶するための方法、装置及びシステム
US10198356B2 (en) Distributed cache nodes to send redo log records and receive acknowledgments to satisfy a write quorum requirement
US10387673B2 (en) Fully managed account level blob data encryption in a distributed storage environment
US10229011B2 (en) Log-structured distributed storage using a single log sequence number space
US9507843B1 (en) Efficient replication of distributed storage changes for read-only nodes of a distributed database
CN103502926B (zh) 基于扩展区的存储架构
CN101888405B (zh) 一种云计算的文件系统和数据处理方法
KR101771246B1 (ko) 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피
US10216949B1 (en) Dynamic quorum membership changes
US10659225B2 (en) Encrypting existing live unencrypted data using age-based garbage collection
CN103098015B (zh) 存储系统
CN110262922B (zh) 基于副本数据日志的纠删码更新方法及系统
US11093387B1 (en) Garbage collection based on transmission object models
US10725666B2 (en) Memory-based on-demand data page generation
CN104813276A (zh) 从备份系统流式恢复数据库
CN105447075A (zh) 用于动态划分的计算机实现方法
CN103246616A (zh) 一种长短周期访问频度的全局共享缓存替换方法
CN103942112A (zh) 磁盘容错方法、装置及系统
CN104519103A (zh) 网络数据的同步处理方法、服务器及相关系统
CN106027638A (zh) 一种基于混合编码的hadoop数据分发方法
US9891992B2 (en) Information processing apparatus, information processing method, storage system and non-transitory computer readable storage media
KR101254179B1 (ko) 분산 파일 시스템에서 효율적인 자료 복구 방법
US10223184B1 (en) Individual write quorums for a log-structured distributed storage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220801

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.