CN104202428A - 分布式文件存储系统及文件存储方法 - Google Patents

分布式文件存储系统及文件存储方法 Download PDF

Info

Publication number
CN104202428A
CN104202428A CN201410497559.XA CN201410497559A CN104202428A CN 104202428 A CN104202428 A CN 104202428A CN 201410497559 A CN201410497559 A CN 201410497559A CN 104202428 A CN104202428 A CN 104202428A
Authority
CN
China
Prior art keywords
memory cell
memory
priority
capacity
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410497559.XA
Other languages
English (en)
Inventor
郑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Netqin Technology Co Ltd
Original Assignee
Beijing Netqin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Netqin Technology Co Ltd filed Critical Beijing Netqin Technology Co Ltd
Priority to CN201410497559.XA priority Critical patent/CN104202428A/zh
Publication of CN104202428A publication Critical patent/CN104202428A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分布式文件存储系统以及文件存储方法。其中存储的文件的文件名为文件的SHA1值。该系统包括:多个存储节点;管理节点,其与所述多个存储节点通信耦合,并且管理所述多个存储节点;其中,所述存储节点以一级目录表达最小存储管理单元,所述存储节点的存储容量按最小存储管理单元划分为一个或多个存储单元并将其按优先级顺序编号,以及所述存储节点的次级目录的名称以其存储的文件的文件名中的预定位置的一个或多个字母来表示。根据本发明的存储系统可以加快文件的检索定位。

Description

分布式文件存储系统及文件存储方法
技术领域
本发明涉及文件存储领域,更具体地,涉及一种分布式文件存储系统及用于所述分布式文件存储系统的文件存储方法。
背景技术
随着数字技术的发展,需要存储的文件量越来越大。对于多年积累的海量的样本文件,如果使用单台存储设备,则该单台存储设备一方面很难具备足够大的存储容量,另一方面还会成为整个数据存取的单点瓶颈。
一种有效的存储海量样本文件的方式是将样本文件存储到分布式存储系统中。在分布式存储系统中,一方面可以通过增加计算机来加大系统的总存储容量,满足对大容量存储的需求;另一方面网络中的各台计算机可以分别处理存储在当前计算机上的文件,使得在满足存储需求的同时,具有最大化的计算能力。
但是网络中的不同计算机的存储容量有大有小,通常存在较大的差别,此时需要一种有效机制能够统一利用网络中所有计算机上的存储容量。这种机制还需要具备可扩展性,对于新加入到网络中的计算机,可以平滑的将此计算机上的存储容量纳入到整个存储系统中。
发明内容
为了实现上述目的,本发明提出了一种分布式文件存储系统以及用于所述分布式文件存储系统的文件存储方法。本发明提出可以根据网络中的存储容量最小的计算机来确定最小存储管理单元。于是,网络中的每台计算机的存储容量可以统一按最小存储管理单元划分为一个或多个存储单元,并且每个存储单元可被指定对应的优先级。本发明还提出,以目录表达最小存储管理单元。于是网络中的每台计算机至少包括一个一级目录,其中每个一级目录可以表示一个存储单元。本发明还提出在一级目录下可以增设二级甚至三级或更多的次级目录,这些目录的名称可以与其中存储的文件名相关联。这样可以加快文件的检索定位。
根据本发明的一方面,提供了一种分布式文件存储系统,其中存储的文件的文件名为文件的SHA1值,所述系统包括:多个存储节点;管理节点,其与所述多个存储节点通信耦合,并且管理所述多个存储节点;其中,所述存储节点以一级目录表达最小存储管理单元,所述存储节点的存储容量按最小存储管理单元划分为一个或多个存储单元并将其按优先级顺序编号,以及所述存储节点的次级目录的名称以其存储的文件的文件名中的预定位置的一个或多个字母来表示。
在本发明的一些实施例中,次级目录可以包括二级目录和三级目录,所述二级目录和三级目录的名称分别以存储的文件的文件名的前m个和次m个字母表示,所述m是大于或等于1的正整数。
在本发明的一些实施例中,所述分布式文件存储系统还包括存储单元选择模块,配置为:针对要存储的或要移动的文件,选择具有指定的优先级的存储单元中的与其文件名相符的目录作为目标存储位置。
在本发明的一些实施例中,所述分布式文件存储系统还包括存储容量均衡模块,配置为:在特定存储节点的特定优先级的存储单元的容量占用率超过第一预定阈值时,触发数据均衡进行数据下移或上移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元或上移到上一优先级的存储单元,直到所述特定存储节点的所述特定优先级的存储单元的容量占用率降到第二预设阈值。
在本发明的一些实施例中,所述存储容量均衡模块进一步配置为:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且无上一优先级或上一优先级的存储单元的容量占用率大于第三预设阈值时,触发数据均衡进行数据下移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元。
优选地,所述存储容量均衡模块进一步配置为:当数据下移过程中,所述次一优先级的存储单元中的容量占用率达到第五预设阈值的存储单元不再参与数据均衡。
在本发明的一些实施例中,所述存储容量均衡模块进一步配置为:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且上一优先级的存储单元的容量占用率小于第四预设阈值时,触发数据均衡进行数据上移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件上移到上一优先级的存储单元。
优选地,所述存储容量均衡模块还配置为:当在数据上移过程中,所述上一优先级的存储单元中的容量占用率达到第六预设阈值的存储单元不再参与数据均衡。
在本发明的一些实施例中,所述管理节点以数据库的形式来维护各个存储节点的配置信息、存储容量信息等,并且负责发布调度指令。
根据本发明的另一方面,提供了一种在上述分布式文件存储系统中存储文件的方法,包括:选择具有足够空闲容量的第一优先级的存储单元;在所选择的存储单元中选择或创建与要存储的文件的文件名相符的目录作为目标存储位置;以及,在所述目标存储位置存储文件,并且更新管理节点的数据库中的对应记录。
在本发明的一些实施例中,所述方法还包括:在特定的存储节点的容量占用率超过第一预定阈值时,触发数据均衡进行数据下移或下移以将所述特定优先级的存储单元中的部分文件转移到次一优先级或上移优先级的存储单元,直到所述特定优先级的存储单元的容量占用率降到第二预设阈值。
在本发明的一些实施例中,所述触发数据均衡的步骤包括:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且无上一优先级或上一优先级的存储单元的容量占用率大于第三预设阈值时,触发数据均衡进行数据下移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元。优选地,当数据下移过程中,所述次一优先级的存储单元中的容量占用率达到第五预设阈值的存储单元不再参与数据均衡。
在本发明的一些实施例中,所述触发数据均衡的步骤包括:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且上一优先级的存储单元的容量占用率小于第四预设阈值时,触发数据均衡进行数据上移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件上移到上一优先级的存储单元。优选地,当在数据上移过程中,所述上一优先级的存储单元中的容量占用率达到第六预设阈值的存储单元不再参与数据均衡。
根据本发明实施例的分布式存储系统能够以统一的方式利用网络中所有计算机上的存储容量,并且通过均衡策略实现了各节点的存储均衡。根据本发明的分布式存储系统还具备良好的可扩展性,可以平滑地将新加入到网络中的计算机上的存储容量纳入到整个存储系统中。此外,本发明实施例通过将存储节点的目录名称与所述目录下存储的文件名相关联,可以加快文件的检索定位。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1示意性地示出了根据本发明实施例的分布式存储系统的示意图;
图2示意性地示出了根据本发明实施例的管理节点的框图;
图3示意性地示出了根据本发明实施例的存储文件的方法的流程图。
在本发明的所有附图中,相同或相似的结构均以相同或相似的附图标记进行标识。
具体实施方式
现在将参考附图来详细描述本发明,附图中示出了本发明的说明性实施例,以使得本领域技术人员能够实现本发明。应该注意:以下附图和示例不意味着将本发明的范围限制为单一实施例,相反通过互换和组合不同实施例的一些或全部所述或所示元素形成其他实施例也是可能的。此外,在可以使用已知组件来部分或完全实现本发明的特定元素的情况下,将仅描述这些已知组件中为了理解本发明所必需的那部分组件,且将省略对这些已知组件中其他部分的详细描述,以使得本发明更突出。除非本文中另行指出,否则本领域技术人员应该理解:尽管本发明的一些实施例描述为用软件实形式现,但是本发明不受限于此,而是也可以用硬件、软件和硬件的组合来实现,且反之亦然。除非本文中另行明确声明,否则在本说明书中,不应将示出了单一组件的实施例视为是限制性的,而是本发明意在包含包括多个相同组件在内的其他实施例,且反之亦然。此外,本发明包含本文中作为示意所引用的已知组件的当前和将来开发的等价物。
图1示意性地示出了根据本发明实施例的分布式存储系统100的示意图。如图1所示,分布式存储系统100可以包括管理节点110和一组计算机。各台计算机均提供一定的存储容量,也称为存储节点。如图所示,各台计算机可以分别标记为节点120-1、节点120-2、…、节点120-N。为了便于说明,在下文中这些计算机可以统称为120。应该理解,尽管图中仅示出了三个存储节点,但是系统100可以包括更多或更少的存储节点。这些存储节点可以通过网络设备来相互连接。管理节点110负责保存各存储节点的配置信息、存储容量信息,并且还负责发布调度指令等。管理节点110也通过网络设备130与各个存储节点相互通信。应该理解,此处的网络设备可以包括各种有线的或者无线的联网设备,如局域网设备、互联网设备等等。本发明在这方面不受限制。
在每个存储节点120上,可以按预定的最小存储管理单元(例如1000G)来划分整个可用存储容量。为了充分利用网络中的计算机上的,可以根据存储容量最小的计算机来决定最小存储管理单元。例如,如果容量最小的计算机提供1T的存储容量,则最小存储单元可以规定为1T。应该理解,最小存储单元也可以小于容量最小的计算机提供的存储容量,例如在上述例子中最小存储单元也可以规定为500G。根据上述最小存储管理单元的规定,具有最小存储容量的计算机也至少包含一个存储单元(每个存储单元对应一个最小存储管理单元),而提供较大存储容量的计算机可以包含多个存储单元。
在本发明中,最小存储管理单元可以以一级目录来表达。于是,各个存储节点上的各个存储单元可以例如标示为T1,T2,……Tn等等。在一些示例实现中,这些目录是在各自的存储节点上唯一标示的。于是,可以根据存储节点的节点标识和目录标识一起来在系统100中唯一地标示每个存储单元。备选地,这些目录也可以是在整个系统100中唯一标示的。目录与物理存储设备上的存储容量的关联可以通过各种现有的或者将来开发的技术来实现。例如,对于使用Linux文件系统的计算机,针对专用磁盘,可以直接通过mount向目录提供存储容量,而对于共用磁盘,可以利用软链接来关联目录和存储容量。
每个存储节点的本地目录结构可以设计如下:
1、存储节点包含的一个或多个存储单元可以按一级目录顺序标示(如T1,T2,…,Tn);
2、样本文件的文件名为文件的SHA1值,该SHA1值是16进制字符串;3、一级目录(如T1,T2,…,Tn)下可以增设次级目录,并且次级目录的名称以其存储的文件的文件名中的预定位置的一个或多个字母来表示。在一个实施例中,一级目录下可以增设二级、三级子目录以加快样本文件的检索定位。二级子目录和三级子目录的名称可以分别以存储的文件的文件名的前m个和次m个字母表示,所述m可以是大于或等于1的正整数。例如,样本文件的定位方法可以如下:取文件名(SHA1值)的前2个字母来表示二级目录的名称,取文件名的次2个字母来表示三级目录的名称。于是二级目录最多可分为256个子目录(00~FF),三级目录也最多可分为256个子目录(00~FF)。
在本发明的一些实施例中,每个存储单元还划分优先级。如果一个存储节点只包含一个存储单元,则该存储单元具有第一优先级(即最高优先级)。如果一个存储节点包含多个存储单元,则可以对这些存储单元从高到低指定优先级。优选地,可以规定每个存储单元具有不同的优先级,一个节点的多个存储单元可以编号并且按编号分为1级、2级、…、n级,其中n是该存储节点的存储单元的数目。
图2示意性地示出了根据本发明实施例的管理节点110的框图。管理节点110负责保存各存储节点的配置信息、存储容量信息,并且还负责发布调度指令等。如果所示,管理节点110可以包括数据库112、存储单元选择模块114和存储容量均衡模块116。
存储单元选择模块114配置为:针对要存储的或要移动的文件,选择具有指定的优先级的存储单元中的与其文件名相符的目录作为目标存储位置。
下面通过样本文件的存储单元选择算法的示例来介绍存储单元选择模块114的操作。该示例既适用于要存储的样本文件,也适用于数据均衡中的要移动的样本文件。
在该示例中,如前所述,各个存储节点的存储单元可以按优先级分级。如果存储节点只有唯一存储单元时,此存储单元设为1级。如果存储节点拥有多个存储单元,则各存储单元可以进行编号,并且按编号分为1级、2级、…、n级。
任意给定一个样本文件,指定要求的存储单元优先级级别,则最终的目标存储位置按可以按照如下规则进行选定:
1)选定目标存储节点和存储单元:
查询管理节点数据库112中各存储单元的信息。如果存在具有所要求的优先级且未使用的存储单元,则优先选择该存储单元作为目标存储单元。如果存在多个上述未使用的存储单元,则可以随机选择其中之一作为目标存储节点。如果具有所要求的优先级的存储单元都已经被使用,则可以选择剩余存储空间较大的存储单元作为目标存储单元。显然,在目标存储单元确定的情况下,其所在的存储节点即目标存储节点。于是,可以选定目标存储位置中的目标存储节点和目标一级目录(对应于目标存储单元)。
在该实施例中,如果样本文件是要存储的文件,则所要求的存储单元的优先级总是第一级。而在数据均衡中,在执行数据上移时,所要求的存储单元优先级是文件当前所在存储单元的优先级的上一优先级,而在执行数据下移时,所要求的存储单元优先级则是文件当前所在存储单元的优先级的次一优先级。
2)选定目标存储子目录:
可以按照上文所述的次级目录生成规则,根据样本文件的文件名生成次级目录名称。如果在目标存储节点的目标一级目录之下已经存在该次级目录名称,则选择该次级目录作为目标存储子目录,否则可以在该目标一级目录之下创建所生成的次级目录以作为目标存储子目录。应该理解,此处的次级目录可以是单级目录,也可以是多级目录,例如包括二级目录和三级目录,甚至更多级目录。
3)存储样本文件,并更新数据库中的对应记录:
可以在选定的目标存储位置下存储该样本文件。该样本文件的存储(或移动)将改变文件的存储位置,并且使得存储单元的存储容量信息发生变化。于是,可以在数据库(或者具体地,数据库中的文件存储位置表以及存储节点存储单元信息表)中添加或更新对应的记录。
存储容量均衡模块116可以配置为:在特定存储节点的特定优先级的存储单元的容量占用率超过第一预定阈值时,触发数据均衡进行数据下移或上移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元或上移到上一优先级的存储单元,直到所述特定存储节点的所述特定优先级的存储单元的容量占用率降到第二预设阈值。
具体地,存储容量均衡模块可以包括下移模块和上移模块。下移模块可以配置为:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且无上一优先级或上一优先级的存储单元的容量占用率大于第三预设阈值时,触发数据均衡进行数据下移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元。优选地,当数据下移过程中,所述次一优先级的存储单元中的容量占用率达到第五预设阈值的存储单元不再参与数据均衡。
上移模块可以配置为:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且上一优先级的存储单元的容量占用率小于第四预设阈值时,触发数据均衡进行数据上移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件上移到上一优先级的存储单元。优选地,当在数据上移过程中,所述上一优先级的存储单元中的容量占用率达到第六预设阈值的存储单元不再参与数据均衡。
下面将通过示例详述存储容量均衡模块执行的存储单元数据均衡策略:
1)下移策略:
当某个存储节点的1级存储单元容量占用率超过预设容量阈值Th1(如60%)时,触发存储容量均衡程序进行数据下移,即把此1级存储单元中的样本文件转移到其他2级存储单元中。
被转移的样本文件可以在此1级存储单元中随机选择。
当此1级存储单元中的容量占用率降低到预设容量阈值Th2(如30%)时,结束均衡操作。
在均衡过程中,当某个2级存储单元容量占用率超过预设容量阈值Th3(如90%)时,可以标记为下移存储单元容量满,于是此2级存储单元不再参与数据下移均衡。
2级存储单元数据下移到3级存储单元时,下移策略与上面所述的1级存储单元的数据下移到2级存储单元时的情形相同。
各级存储单元数据下移策略可以依次类推。
2)上移策略
当2级存储单元容量占用超预设容量阈值Th4(如90%)同时1级存储单元容量小于预设容量阈值Th5(如30%)时,可以触发容量均衡程序进行数据上移。
当2级存储单元容量占用降低到预设容量阈值Th6(如60%)时,可以结束均衡操作。
当某个1级存储单元容量占用率超预设容量阈值Th7(如60%)时,可以标记为上移存储单元满,于是此存储单元不再参与数据上移均衡。
3级存储单元数据上移到2级存储单元时,上移策略与上面所述的2级存储单元的数据上移到1级存储单元时的情形相同。
各级存储单元数据上移策略可以依次类推。
3)容量均衡检查的触发
容量均衡的执行频率可以根据数据增速来设定。例如,可以设定固定时间间隔(如每周/每月)执行一次均衡。
此外,还可以根据系统100中的存储节点的数量来改变均衡周期。例如,随着机器数量增大,可以适当增大均衡周期。
4)均衡文件的选择:
在数据均衡中,要移动的文件可以在本地文件中随机选择
要移动的文件的目标存储位置可以根据上述的存储单元选择算法来确定。
在文件移动成功完成后,可以删除本地文件,从而降低本地的容量占用率。
5)为了提高均衡效率,还可以考虑存储单元之间的定向均衡。
数据库112可以存储各存储节点的配置信息、存储容量信息等等。例如,数据库112可以包括节点基本存储单元信息表,文件存储位置表等等。下面的表1和表2示出了根据本发明的数据库的示例。
表1节点基本存储单元信息表的示例
表2样本文件存储位置表的示例
文件SHA1 所在节点 绝对路径
00c8ce88c68f786b724ed8ef071e9330e25d6d5a 192.168.6.74 /T1/00/c8/
在上文中介绍了管理节点110的各个模块,但是应该明白管理节点可以包括更多或者更少的模块。例如,管理节点110中的单个模块可以分为多个模块来执行,或者管理节点110中的多个模块可以合并在单个模块中执行。本领域技术人员根据所示实施例的教导可以进行许多变化和修改。本领域技术人员还应该理解,尽管文中示出管理节点110为单个物理设备,但是管理节点110的功能也可以分布式实现在多个物理设备上。
图3示意性地示出了根据本发明实施例的存储文件的方法300的流程图。方法300可以用于图1所示的分布式存储系统。如图所示,当有文件要存储到分布式存储系统100时,方法300开始。
在步骤310中,针对要存储的文件,选择具有足够空闲容量的第一优先级的存储单元。
在步骤S320中,在所选择的存储单元中选择或创建与要存储的文件的文件名相符的目录作为目标存储位置。
在步骤S330中,在所述目标存储位置存储文件,并且更新管理节点的数据库中的对应记录。
步骤S310、320和S330可以由参考图2介绍的存储单元选择模块114来执行。在此不再详述。
在本发明的一些实施例中,所述方法300还可以包括均衡步骤。在该均衡步骤中,在特定的存储节点的容量占用率超过第一预定阈值时,触发数据均衡进行数据下移或下移以将所述特定优先级的存储单元中的部分文件转移到次一优先级或上移优先级的存储单元,直到所述特定优先级的存储单元的容量占用率降到第二预设阈值。
具体地,该均衡步骤可以分为下移步骤和上移步骤。在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且无上一优先级或上一优先级的存储单元的容量占用率大于第三预设阈值时,触发数据均衡的下移步骤,以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元。优选地,当数据下移过程中,所述次一优先级的存储单元中的容量占用率达到第五预设阈值的存储单元不再参与数据均衡。
在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且上一优先级的存储单元的容量占用率小于第四预设阈值时,触发数据均衡的上移步骤,以将所述特定存储节点的所述特定优先级的存储单元中的部分文件上移到上一优先级的存储单元。优选地,当在数据上移过程中,所述上一优先级的存储单元中的容量占用率达到第六预设阈值的存储单元不再参与数据均衡。
根据本发明实施例的均衡步骤可以由参考图2介绍的存储容量均衡模块116来执行。在此不再详述。
上文已经结合优选实施例对本发明的方法进行了描述。本领域技术人员可以理解,上面示出的方法仅是示例性的。本发明的方法并不局限于上面示出的步骤和顺序。本领域技术人员根据所示实施例的教导可以进行许多变化和修改。
根据本发明实施例的分布式样本文件存储系统可以通过统一管理网络中各计算机上的存储资源来满足大容量存储的需求。特别地,当各台计算机具有不同存储容量时,本发明的分布式样本文件存储系统的优势更为明显。该分布式样本文件存储系统充分考虑了在满足存储的同时,通过均衡策略保持各节点的计算能力,从而消除了整个数据存取中的单点瓶颈。本发明还通过将目录名称与存储的文件名相关联,可以加快文件的检索定位。
本领域技术人员应该理解,尽管通过具体实施例描述了本发明,但是本发明的范围不限于这些具体实施例。本发明的范围由所附权利要求及其任何等同含义限定。

Claims (10)

1.一种分布式文件存储系统,其中存储的文件的文件名为文件的SHA1值,所述系统包括:
多个存储节点;
管理节点,其与所述多个存储节点通信耦合,并且管理所述多个存储节点;
其中,所述存储节点以一级目录表达最小存储管理单元,所述存储节点的存储容量按最小存储管理单元划分为一个或多个存储单元并将其按优先级顺序编号,以及所述存储节点的次级目录的名称以其存储的文件的文件名中的预定位置的一个或多个字母来表示。
2.根据权利要求1所述的系统,其中所述次级目录包括二级目录和三级目录,所述二级目录和三级目录的名称分别以存储的文件的文件名的前m个和次m个字母表示,所述m是大于或等于1的正整数。
3.根据权利要求1所述的系统,还包括存储单元选择模块,配置为:针对要存储的或要移动的文件,选择具有指定的优先级的存储单元中的与其文件名相符的目录作为目标存储位置。
4.根据权利要求1所述的系统,还包括存储容量均衡模块,配置为:在特定存储节点的特定优先级的存储单元的容量占用率超过第一预定阈值时,触发数据均衡进行数据下移或上移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元或上移到上一优先级的存储单元,直到所述特定存储节点的所述特定优先级的存储单元的容量占用率降到第二预设阈值。
5.根据权利要求4所述的系统,其中所述存储容量均衡模块进一步配置为:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且无上一优先级或上一优先级的存储单元的容量占用率大于第三预设阈值时,触发数据均衡进行数据下移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件下移到次一优先级的存储单元。
6.根据权利要求5所述的系统,其中所述存储容量均衡模块进一步配置为:当数据下移过程中,所述次一优先级的存储单元中的容量占用率达到第五预设阈值的存储单元不再参与数据均衡。
7.根据权利要求4所述的系统,其中所述存储容量均衡模块进一步配置为:在所述特定存储节点的特定优先级的存储单元的容量占用率超过第一预设阈值并且上一优先级的存储单元的容量占用率小于第四预设阈值时,触发数据均衡进行数据上移以将所述特定存储节点的所述特定优先级的存储单元中的部分文件上移到上一优先级的存储单元。
8.根据权利要求6所述的系统,其中所述存储容量均衡模块还配置为:当在数据上移过程中,所述上一优先级的存储单元中的容量占用率达到第六预设阈值的存储单元不再参与数据均衡。
9.一种在如权利要求1所述的分布式文件存储系统中存储文件的方法,包括:
选择具有足够空闲容量的第一优先级的存储单元;
在所选择的存储单元中选择或创建与要存储的文件的文件名相符的目录作为目标存储位置;以及
在所述目标存储位置存储文件,并且更新管理节点的数据库中的对应记录。
10.根据权利要求9所述的方法,还包括:在特定的存储节点的容量占用率超过第一预定阈值时,触发数据均衡进行数据下移或下移以将所述特定优先级的存储单元中的部分文件转移到次一优先级或上移优先级的存储单元,直到所述特定优先级的存储单元的容量占用率降到第二预设阈值。
CN201410497559.XA 2014-09-25 2014-09-25 分布式文件存储系统及文件存储方法 Pending CN104202428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410497559.XA CN104202428A (zh) 2014-09-25 2014-09-25 分布式文件存储系统及文件存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410497559.XA CN104202428A (zh) 2014-09-25 2014-09-25 分布式文件存储系统及文件存储方法

Publications (1)

Publication Number Publication Date
CN104202428A true CN104202428A (zh) 2014-12-10

Family

ID=52087653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410497559.XA Pending CN104202428A (zh) 2014-09-25 2014-09-25 分布式文件存储系统及文件存储方法

Country Status (1)

Country Link
CN (1) CN104202428A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778016A (zh) * 2015-04-23 2015-07-15 深圳市美贝壳科技有限公司 一种多存储设备环境下的自动存储控制方法
CN105224244A (zh) * 2015-09-07 2016-01-06 浙江宇视科技有限公司 一种文件存储的方法和装置
CN107239522A (zh) * 2017-05-26 2017-10-10 努比亚技术有限公司 图片存储方法、设备和计算机存储介质
CN107547641A (zh) * 2017-08-28 2018-01-05 郑州云海信息技术有限公司 一种基于带宽负载的后端存储选择方法及装置
CN108513197A (zh) * 2018-04-11 2018-09-07 四川斐讯信息技术有限公司 一种智能耳机的数据存储系统及数据存储方法
CN113010812A (zh) * 2021-03-10 2021-06-22 北京百度网讯科技有限公司 信息采集方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120166611A1 (en) * 2010-12-24 2012-06-28 Kim Mi-Jeom Distributed storage system including a plurality of proxy servers and method for managing objects
CN102629934A (zh) * 2012-02-28 2012-08-08 北京搜狐新媒体信息技术有限公司 基于分布式存储系统的数据存储方法及装置
CN103095805A (zh) * 2012-12-20 2013-05-08 江苏辰云信息科技有限公司 一种对数据进行智能分层管理的云存储系统
CN103327094A (zh) * 2013-06-19 2013-09-25 成都市欧冠信息技术有限责任公司 数据分布式存储方法与系统
CN103384256A (zh) * 2012-05-02 2013-11-06 天津书生投资有限公司 一种云存储方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120166611A1 (en) * 2010-12-24 2012-06-28 Kim Mi-Jeom Distributed storage system including a plurality of proxy servers and method for managing objects
CN102629934A (zh) * 2012-02-28 2012-08-08 北京搜狐新媒体信息技术有限公司 基于分布式存储系统的数据存储方法及装置
CN103384256A (zh) * 2012-05-02 2013-11-06 天津书生投资有限公司 一种云存储方法及装置
CN103095805A (zh) * 2012-12-20 2013-05-08 江苏辰云信息科技有限公司 一种对数据进行智能分层管理的云存储系统
CN103327094A (zh) * 2013-06-19 2013-09-25 成都市欧冠信息技术有限责任公司 数据分布式存储方法与系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778016A (zh) * 2015-04-23 2015-07-15 深圳市美贝壳科技有限公司 一种多存储设备环境下的自动存储控制方法
CN104778016B (zh) * 2015-04-23 2018-06-22 深圳市美贝壳科技有限公司 一种多存储设备环境下的自动存储控制方法
CN105224244A (zh) * 2015-09-07 2016-01-06 浙江宇视科技有限公司 一种文件存储的方法和装置
CN105224244B (zh) * 2015-09-07 2018-09-18 浙江宇视科技有限公司 一种文件存储的方法和装置
CN107239522A (zh) * 2017-05-26 2017-10-10 努比亚技术有限公司 图片存储方法、设备和计算机存储介质
CN107547641A (zh) * 2017-08-28 2018-01-05 郑州云海信息技术有限公司 一种基于带宽负载的后端存储选择方法及装置
CN108513197A (zh) * 2018-04-11 2018-09-07 四川斐讯信息技术有限公司 一种智能耳机的数据存储系统及数据存储方法
CN113010812A (zh) * 2021-03-10 2021-06-22 北京百度网讯科技有限公司 信息采集方法、装置、电子设备和存储介质
CN113010812B (zh) * 2021-03-10 2023-07-25 北京百度网讯科技有限公司 信息采集方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN104202428A (zh) 分布式文件存储系统及文件存储方法
US8704687B2 (en) Code set conversion management optimization
CN109416694A (zh) 包括资源有效索引的键值存储系统
CN104111936B (zh) 数据查询方法和系统
CN102609446B (zh) 一种分布式Bloom过滤系统及其使用方法
US8386287B2 (en) Resource management using constraint programming with efficient ordering of variables
CN103765381B (zh) 对b+树的并行操作
US9317518B2 (en) Data synchronization
US10664460B2 (en) Index B-tree maintenance for linear sequential insertion
CN106095871A (zh) 一种建立数据库目录结构的方法及装置
CN102739622A (zh) 一种可扩展的数据存储系统
US20130138686A1 (en) Device and method for arranging query
CN103647850A (zh) 一种分布式版本控制系统的数据处理方法、设备及系统
CN102799617B (zh) 多层Bloom Filter的构建及查询优化方法
CN103246549A (zh) 一种数据转存的方法及系统
US9971793B2 (en) Database management system and database management method
CN101551814B (zh) 一种数据管理和数据搜索方法
CN106383826A (zh) 数据库查询方法和装置
CN106156049A (zh) 一种数据读取的方法和系统
US11422998B2 (en) Data management system, data management device, data management method, and storage medium
CN110221778A (zh) 酒店数据的处理方法、系统、存储介质以及电子设备
CN104537016A (zh) 一种确定文件所在分区的方法及装置
CN102968467A (zh) 一种多层Bloom Filter的优化方法及查询方法
US10178681B2 (en) Systematic approach to power throttling for equipment protection in data centers or other locations
CN111258955B (zh) 一种文件读取方法和系统、存储介质、计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141210

WD01 Invention patent application deemed withdrawn after publication