CN101909068A - 一种文件副本管理方法及装置、系统 - Google Patents

一种文件副本管理方法及装置、系统 Download PDF

Info

Publication number
CN101909068A
CN101909068A CN2009100859669A CN200910085966A CN101909068A CN 101909068 A CN101909068 A CN 101909068A CN 2009100859669 A CN2009100859669 A CN 2009100859669A CN 200910085966 A CN200910085966 A CN 200910085966A CN 101909068 A CN101909068 A CN 101909068A
Authority
CN
China
Prior art keywords
node
document
duplicate
burst
network bandwidth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009100859669A
Other languages
English (en)
Inventor
段翰聪
侯孟书
任立勇
戴芬
王铁英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2009100859669A priority Critical patent/CN101909068A/zh
Publication of CN101909068A publication Critical patent/CN101909068A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种文件副本管理方法及装置、系统,方法具体包括:在分布式存储网络中,根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;所述源节点根据相关节点的空闲资源选择用于接收所述文件副本的目的节点。因此,本发明实施例可以根据网络中当前的资源使用情况,选择资源空闲率较高的节点来进行副本的迁移、扩散,从而大大降低了迁移、扩散副本的代价,并分散网络的负载压力,能够节约副本管理开销,均衡网络负载,较大提高网络的服务性能。

Description

一种文件副本管理方法及装置、系统
技术领域
本发明涉及计算机网络技术领域,尤其涉及计算机网络中的文件副本管理方法及装置、系统。
背景技术
在分布式存储系统中,存储服务器用于提供对文件的服务。基于可靠性和便利用户访问的要求,存储在系统中的文件通常不止一个副本,这些副本从上传到删除的整个周期中,数量不是静止不变的。随着文件被访问的热度变化,可能需要对文件副本进行扩散、迁移或者删除操作。
由于用户对分布式存储系统中的每个文件的访问次数是不均匀的,因此存在相对较热(被访问频率高)的文件和相对较冷(被访问频率低)的文件。如果某个存储服务器存储的热点文件数量较多,难免会造成该存储服务器的压力过大;而另外一些存储服务器存储的热点文件较少或甚至没有热点文件,这些存储服务器的压力就较小。这就导致存储服务器资源的利用不均衡,使得某些压力较大的存储服务器可能因过载而无法进行有效服务,而压力较小的存储服务器也没有得到充分利用。
基于上述情况,对系统中的文件副本有必要进行系统内的扩散、迁移或者删除,以使存储服务器负载相对均衡,文件副本数量相对合理。其中,文件副本扩散是指在指定域中新增加一个文件副本,以增加冗余度和系统的服务能力。文件副本迁移是指某存储服务器由于负载过重,运行缓慢,导致其上存储的文件无法被及时读取,满足不了用户的访问需求,这时就将该存储服务器的文件副本迁入另一个负载较少的存储服务器,以提高服务性能。文件副本删除是指在指定域中减少一个文件副本,减少冗余度,释放存储空间。
目前,对文件副本进行扩散、迁移或者删除的方案中,定义了存储服务器的温度,即存储服务器当前热度相对于自身能够承受负载的比例。同时根据硬件和网络状态,将存储服务器自身能承受的最大负载上限温度和可以接受其他负载的上限温度分别称为沸点和冰点。该方案在进行副本迁移时,是通过沸点服务器和冰点服务器配对的方式进行文件副本迁移,即将沸点服务器上最热的文件副本迁移到冰点服务器。但是这种迁移方式会使沸点服务器在文件副本迁移过程中的负载更重,使得迁移代价较高。并且,该技术通过一个逻辑中心来对所有的沸点服务器和冰点服务器的降温或升温请求进行平衡协调,因此系统中所有的存储服务器的迁移都必须依靠该逻辑中心的处理。但是当系统中需要处理的请求很多以致超出了逻辑中心的处理能力时,会出现逻辑中心瘫痪的问题。
发明内容
本发明的实施例提供了一种文件副本管理方法及装置、系统,能够使得在文件副本扩散、迁移和删除过程中对涉及的节点的选择更加合理。
一种文件副本管理方法,包括:
在分布式存储网络中,根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;
所述源节点根据相关节点的空闲资源选择用于接收所述文件副本的目的节点。
一种分布式存储网络节点,包括:文件副本管理装置,所述装置包括:
选择单元,用于根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;或根据相关节点的空闲资源选择用于接收文件副本的目的节点;
处理单元,用于与所述选择单元选择的节点进行通信,对所述文件副本进行扩散或迁移处理。
一种文件副本管理系统,由多个节点构成分布式存储网络,包括:
文件根节点,用于根据节点的空闲资源选择用于对文件副本进行扩散处理的源节点;
副本迁出节点,用于根据节点的空闲资源选择用于对文件副本进行迁移处理的源节点;
所述源节点,用于存储文件副本,并根据相关节点的空闲资源选择目的节点;
所述目的节点,用于接收所述源节点传递的所述文件副本。
由上述本发明的实施例提供的技术方案可以看出,由于在对文件副本进行迁移或扩散时,可以根据节点的空闲资源选择用于对文件副本进行迁移或扩散处理的源节点,以及接收所述文件副本的目的节点,这就实现了在具体应用中根据网络中当前的资源使用情况,选择资源空闲率较高的节点来进行副本的迁移、扩散,从而大大降低了迁移、扩散副本的代价,因此可以节约副本管理开销,均衡网络负载,较大提高网络的服务性能。
附图说明
图1为本发明实施例提供的一种实现方法的流程示意图;
图2为本发明实施例提供的一种处理过程示意图;
图3为本发明实施例提供的网络应用环境示意图;
图4为本发明实施例提供的文件副本的迁移、扩散过程示意图;
图5为本发明实施例提供的删除文件副本处理过程示意图;
图6为本发明实施例提供的文件副本管理装置结构示意图;
图7为本发明实施例提供的文件副本管理系统结构示意图。
具体实施方式
由于在进行文件副本的扩散,迁移时,需要将文件副本从源节点复制到目的节点,复制操作对源节点和目的节点的资源都有消耗,因此,从复制操作的资源消耗角度来说,需要考虑如何选择源和目的节点才更合理。
在本发明实施例中,为使文件副本在扩散、迁移和删除过程中对涉及的网络节点的选择更加合理,提供一种文件副本管理方法,具体可以包括:在分布式存储网络中,根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;所述源节点根据相关节点的空闲资源选择用于接收所述文件副本的目的节点。
为便于对本发明实施例的理解,下面将结合附图对本发明实施例的方法流程进行描述。
图1是本发明实施例提供的一种实现方法的流程示意图。如图1所示,方法流程包括:
11:在分布式存储网络中,根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;
12:所述源节点根据相关节点的空闲资源选择用于接收所述文件副本的目的节点。
通过上述描述可以看出,本发明实施例在对文件副本进行迁移或扩散时,可以根据其它节点的空闲资源选择源节点和目的节点,就可以在具体应用中根据网络中当前的资源使用情况,选择资源空闲率较高的节点来进行副本的迁移、扩散,从而大大降低了迁移、扩散副本的代价,因此,本发明实施例可以节约副本管理开销,均衡网络负载,较大提高网络的服务性能。
为便于对本发明实施例的理解,下面将结合附图对本发明实施例的具体实施例进行详细的描述。
图2是本发明实施例提供的一种处理过程示意图。如图2所示,处理过程包括:
21:在分布式存储网络中,当需要对文件副本进行迁移或扩散时,需要扩散文件副本的根节点根据节点的空闲资源选择存储有所述文件副本并用于传递所述文件副本的源节点;或者,需要迁出文件副本的节点,根据节点的可用网络带宽选择所述存储有所述文件副本并用于对所述文件副本进行迁移处理的源节点;
在分布式存储网络中,若一个节点存储了一个文件的元数据信息,并记录了存储有该文件的副本的节点的列表,则该节点就是该文件的根节点;具体的,在网络中选择存储文件的根节点时,可以通过对文件名进行哈希运算,将得到的ID对应的节点作为该文件的根节点,因此各文件对应的根节点可能不同;
具体的,当需要对文件副本进行扩散时,若文件副本完整存储在至少一个节点中,则根节点根据存储该文件副本的所有节点的列表,将其中各节点的可用网络带宽按降序排列,按照需要的个数依次选取可用网络带宽最大的节点作为源节点;或者,若该文件副本被分片存储在多个节点中,则根节点根据存储该文件副本各分片的节点的列表,将存储同一分片的节点的可用网络带宽按降序排列,选取可用网络带宽最大的节点作为该分片的源节点;依次类推,直至找到该文件副本所有分片的源节点;
当需要对文件副本进行迁移时,需要迁出副本的节点根据所述根节点存储的所述文件分布状况,获取存储了所述文件副本的节点的列表,对列表中各节点进行性能查询后,将列表中各节点的可用网络带宽按降序排列,按照需要的个数依次选取可用网络带宽最大的节点作为源节点;或者,需要迁出副本的节点根据所述根节点存储的所述文件分布状况,获取存储所述文件副本各分片的节点的列表,将存储同一分片的节点的可用网络带宽按降序排列,选取可用网络带宽最大的节点作为该分片的源节点;依次类推,直至找到所述文件副本所有分片的源节点;
22:所述源节点根据相关节点的可用存储空间和可用网络带宽选择目的节点;其中,源节点存储了待迁移或待扩散文件副本的节点;目的节点是接收文件副本的节点;当源节点确定了目的节点后,源节点将待迁移的文件副本复制至目的节点,或将待扩散的文件副本复制至目的节点;
具体的,上述源节点可以根据存储的邻居列表,查询邻居节点的可用存储空间和可用网络带宽,将可用存储空间和可用网络带宽均超过阀值的邻居节点作为目的节点;或者按照需要的个数依次选择邻居节点中可用存储空间和可用网络带宽最大的邻居节点作为目的节点。
通过上述处理过程描述可以看出,本发明实施例中各文件对应的根节点可能不同,因此就分散了网络的负载压力;并且文件的根节点或者需要迁出文件副本的节点在存有文件副本的多个节点中尽量选择可用网络带宽较大的节点作为源节点,源节点也选择可用存储空间和可用网络带宽均较大的节点作为目的节点,这就实现了根据网络中当前的资源使用情况,选择资源空闲率较高的节点来进行文件副本的迁移、扩散,从而大大降低了迁移、扩散文件副本的代价,节约了文件副本管理开销,均衡了网络负载,较大提高了网络的服务性能。
图3是本发明实施例提供的一种实现方案的网络示意图,图3所示网络中的每个服务器即视为一个节点,多个服务器ChunkServer构成了分布式哈希(DHT)网络。该网络中,每个文件由特定的服务器ChunkServer(即根节点ChunkServer)管理其元数据,包括该文件版本号、文件大小、分片信息,每个分片的副本所在的服务器的列表,以及下载或拥有该文件的用户列表。用户Client通过接入服务器ChunkServer,在系统中进行发布、查询、更新和删除文件及其副本等操作。在该网络中,每个ChunkServer都可能兼顾存储、控制文件等多重功能。例如,一个ChunkServer承担某些文件的根节点工作,管理这些文件的元数据信息,以及记录这些文件的各分片在网络中ChunkServer和Peer节点的分布情况;另外,ChunkServer还可以对文件副本的分片进行存储。
具体的,在该网络中选择存储文件的ChunkServer时,可以通过对文件名进行哈希运算,将得到的ID对应的ChunkServer作为该文件的根节点ChunkServer,因此各文件对应的根节点ChunkServer可能不同,从而分散网络的负载压力。
进一步的,可以根据服务器ChunkServer和用户所在地理位置和运营商的不同将网络划分为多个域,对服务器ChunkServer进行分域管理。每个ChunkServer都维持一个邻居列表,随时与列表中的邻居(一般是同域)ChunkServer交换信息,感知邻居的状态和资源情况。
当用户Client需要对某一个文件进行下载时,先访问该文件的根节点ChunkServer,当获知该文件完整的存储在某一ChunkServer时,即从该ChunkServer下载该文件;或者当该文件副本被分片存储在多个ChunkServer中时,从根节点ChunkServer获取该文件各分片在网络中的分布情况,然后优先访问其中的邻居ChunkServer,当下载需求得不到满足时,再访问同一域中的其它ChunkServer。
此外,系统中还存在一个Port服务器,它主要是用作用户登录验证。首次登陆,用户从该Port获取接入ChunkServer信息,后续用户登陆可直接从已知ChunkServer进行登陆,但是遇到服务器失效掉线等情况时,用户从Port获取一个当前有效的ChunkServer作为接入。
上面介绍了分布式哈希(DHT)网络的结构和组成,下面结合该网络对文件副本的迁移、扩散、删除处理流程进行具体的描述。
图4是本发明实施例的文件副本的迁移、扩散处理过程示意图,其中每一个服务器即为一个节点,如图4所示,具体处理包括:
401:当网络内的文件副本达不到为了保证网络可靠性而要求的冗余度时,就会触发文件副本的扩散操作;或者,当网络现有的文件副本数量太少,已不足以满足用户的访问需求时,也会触发文件副本的扩散操作;具体的,对文件副本的扩散操作,可以是将整个文件副本进行分片,然后选择一系列服务器(ChunkServer)存储该文件的所有分片;
当网络中某一服务器由于网络带宽不足,或可用存储空间(例如硬盘空间)过少,或CPU压力过大等原因造成资源告急而报警时,触发从该服务器迁移文件至其它服务器的操作,以减少该服务器的负载;具体的,一个服务器报警以后,根据情况从该服务器上选取一些文件进行迁移,所选取的文件可以是最热门的文件,这些文件的迁移能最大程度改善服务器的忙碌状况。由于不一定在该服务器上存在完整的文件副本,因此迁移对象可以是该文件的部分分片,当然有些情况下,也可能是该文件的全部(如果该文件在服务器上保存完整);
402:文件副本扩散时,对应的文件根节点服务器根据上述触发,查询需要增加副本数量的域内是否存储有该文件的副本,若有,则进行403;若没有,则进行404;文件副本迁移时,资源报警的服务器根据从文件根节点服务器获取的文件存储分布状况,确定要迁往的目的域是否存储有该文件副本,若有,则进行403;若没有,则进行404;
403:在该域内找到存储了上述文件各分片的服务器的列表,进行405;
404:在邻近域内找到存储了上述文件各分片的服务器的列表,进行405;
405:将上述列表中的服务器按资源空闲率进行排序,选择资源空闲最大的服务器作为源服务器;或者当该域内只有一份文件副本,则对应的服务器即为源服务器;
具体的,若文件副本完整存储在该域至少一个服务器中,则获取该域内存储该文件副本的所有服务器的列表,文件根节点服务器或者副本迁出服务器,向列表中各服务器进行性能查询后,将各服务器的可用网络带宽按降序排列,按照需要的个数依次选取可用网络带宽最大的节点作为源服务器;
或者,若该文件副本被分片存储在该域多个服务器中,则获取该域内存储了该文件副本各分片的服务器的列表,文件根节点服务器或者副本迁出服务器,向列表中的各服务器发出性能查询后,将存储同一分片的服务器的可用网络带宽按降序排列,选取可用网络带宽最大的服务器作为该分片的源服务器;依次类推,直至找到该文件副本所有分片的源服务器;
由于在进行文件副本的迁移或扩散过程中,复制操作对服务器的开销和影响是存在的,所以选取比较空闲的、资源占用少的服务器是必要的;因此,在存储了该文件分片的多个服务器中,尽量选取存储空间较大和可用网络带宽较大的服务器作为复制操作时的源服务器;
406:每一个源服务器,还需要查询邻居列表,以确定复制文件副本操作时的目的服务器;具体的,源服务器查询邻居列表,从中选择待复制目的域内的服务器并发送性能查询请求,查询项包括:邻居服务器的可用存储空间和可用网络带宽等;
407:源服务器收到邻居服务器的回复后,判断是否有符合条件的服务器;即判断是否有可用存储空间和可用网络带宽均超过阀值的邻居服务器;若没有,则进行408;若有,则进行409;
408:若从邻居列表中选择不到合适的服务器存储分片,那么可以从路由表或者通过其他查询方法选择其它服务器增加到邻居列表中,或者替换部分原有邻居服务器,更新列表;再次执行406;
409:将可用存储空间和可用网络带宽均超过阀值的邻居服务器作为目的服务器;当然,在一些情况下,还可以选择邻居服务其中可用存储空间和可用网络带宽最大的邻居服务器作为目的服务器;
开始复制文件副本操作,源服务器将相应的文件副本分片(或完整文件副本)复制到目的服务器中;
410:复制操作完成后,向文件根节点服务器汇报复制相关信息,若是迁移文件操作,还需要在源服务器将文件副本复制到目的服务器后将触发迁移的服务器中的对应文件删除;将用户请求定向到新的文件副本,达到负载均衡。
由上述描述可知,本发明实施例中各文件对应的根节点服务器可能不同,因此就分散了网络的负载压力;并且文件的根节点服务器或副本迁出服务器在存有文件副本的多个服务器中选择可用网络带宽最大的服务器作为源服务器,源服务器也选择可用存储空间和可用网络带宽均较大的服务器作为目的服务器,这就实现了根据网络中当前的资源使用情况,选择资源空闲率较高的节点来进行副本的迁移、扩散,从而大大降低了迁移、扩散副本的代价,节约了副本管理开销,均衡了网络负载,较大提高了网络的服务性能。
需要说明的是,实际应用中,还可能需要对网络中的文件副本进行删除,本发明实施例中,对文件副本进行删除时,文件的根节点服务器找到存储该文件副本各分片的服务器列表,将存储同一分片的服务器的被访问次数按升序排列,选取被访问次数最少的服务器作为待删除该分片的服务器,并删除该服务器上的该分片;依次类推,直至删除所述文件副本所有的分片。具体过程如图5所示,包括:
51:当需要降低文件的副本冗余度时,触发文件副本删除操作;
52:文件的根节点服务器若在当前域内只找到一份该文件副本,则对应的存储服务器为相应待删除分片的服务器;若不止一份该文件副本,则在域内找到存储文件各分片的服务器的列表;
53:将存储文件各分片的服务器按访问人数的升序排序,选择存储同一分片的多个服务器中访问人数最少的服务器作为待删除分片服务器;
54:将待删除分片服务器上的该文件分片删除,依次类推,直到删除了文件的所有分片;
55:待删除分片服务器完成删除操作后,向文件根节点服务器汇报。
上述删除过程中,必须注意到用户的体验,使删除操作尽量不影响已连接的用户访问。确定删除副本后,不应再将用户访问定向到上述待删除分片服务器;对已经连接的用户继续访问,直到所有用户都结束访问,才将文件分片相应删除。
通过上述描述可以看出,本发明实施例提供了一种副本整个生存周期的管理方法,包括扩散、迁移和删除。通过这种管理方法,在涉及以上三种操作时,能有效对基于分片存储的文件进行管理,让空闲的网络节点承担操作开销,最大化操作后的服务性能和均衡负载的作用。并且,在扩散和迁移过程中涉及副本复制,复制中服务器的选择过程充分考虑了复制的开销和操作过后对服务能力的提高;对目的服务器的选择采取了去中心化的方法,由源服务器各自选取,避免了现有技术中将所有处理都集中在逻辑中心而造成的单点瓶颈问题。
本发明实施例还提供了一种分布式存储网络节点,包括:文件副本管理装置,所述装置具体结构如图6所示,包括:
选择单元61,用于根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;或根据相关节点的空闲资源选择用于接收文件副本的目的节点;例如,在需要对文件副本进行扩散时,根据节点的可用网络带宽选择存储有所述文件副本并用于传递所述文件副本的源节点;或者在需要迁出副本时根据节点的可用网络带宽选择存储有所述文件副本并用于传递所述文件副本的源节点;或者,若所述选择单元61自身处于源节点中时,根据相关节点的可用存储空间和可用网络带宽选择目的节点;
处理单元62,用于与所述选择单元61选择的所述节点进行通信,对所述文件副本进行扩散或迁移处理;
存储单元63,用于存储所述文件的元数据信息,以及存储了所述文件副本的节点的列表;或用于存储所述文件副本和邻居节点列表。
其中,所述选择单元61,是根据所述存储单元63存储的信息,按照可用网络带宽选择存储有所述文件副本并用于传递所述文件副本的源节点,或者,按照可用网络带宽和可用存储空间选择接收所述文件副本的目的节点。
实际应用中,上述副本管理装置可以设置于服务器,或其它网络设备中。
本发明实施例还提供了一种文件副本管理系统,包括多个节点,该系统结构如图7所示,包括:
文件根节点71,用于根据节点的空闲资源选择用于对文件副本进行扩散处理的源节点;具体的,文件根节点71记录存储有文件副本的节点列表;并在需要对文件副本进行扩散时,根据所述节点列表中各节点的空闲资源选择存储有文件副本并用于对文件副本进行扩散处理的源节点;例如,文件根节点71根据存储所述文件副本的节点的列表,将其中各节点的可用网络带宽按降序排列,按照需要的个数依次选取可用网络带宽最大的节点作为源节点;或者,所述文件根节点根据存储所述文件副本各分片的节点的列表,将存储同一分片的节点的可用网络带宽按降序排列,选取可用网络带宽最大的节点作为该分片的源节点;依次类推,直至找到所述文件副本所有分片的源节点;
副本迁出节点72,用于根据节点的空闲资源选择用于对文件副本进行迁移处理的源节点;具体的,副本迁出节点72存储待迁移文件副本,并在需要迁出副本时根据节点的空闲资源选择存储有所述文件副本并用于传递所述文件副本的源节点;并在源节点将文件副本复制到目的节点后将副本迁出节点72中的对应文件删除;具体实现时可以根据文件根节点71存储的所述文件分布状况,获取存储了所述文件副本或其分片的节点的列表,对列表中各节点进行性能查询后,将列表中各节点的可用网络带宽按降序排列,按照需要的个数依次选取可用网络带宽最大的节点作为源节点;
源节点73,用于存储文件副本,并根据相关节点的空闲资源选择目的节点;具体的,源节点73存储待迁移或待扩散文件副本,并用于传递所述文件副本至目的节点;具体实现时,所述源节点73根据存储的邻居列表,查询邻居节点的可用存储空间和可用网络带宽,将可用存储空间和可用网络带宽均超过阀值的邻居节点作为目的节点74;或者按照需要的个数选择邻居节点中可用存储空间和可用网络带宽最大的邻居节点作为目的节点74;
目的节点74,用于接收源节点73传递的文件副本。
进一步的,所述文件根节点71还用于:在需要对文件副本进行删除时,找到存储该文件副本各分片的节点的列表,将存储同一分片的节点的被访问次数按升序排列,选取被访问次数最少的节点作为待删除该分片的节点,并通知待删除该分片的节点删除该节点上的该分片;依次类推,直至删除所述文件副本所有的分片。
本发明实施例中的副本管理系统可以设置于各种网络中。
综上所述,本发明各实施例和现有技术中相比,由于本发明实施例提供了一种副本整个生存周期的管理方法,包括扩散、迁移和删除。通过这种管理方法,在涉及以上三种操作时,能有效对基于分片存储的文件进行管理,让空闲的网络节点承担操作开销,最大化操作后的服务性能和均衡负载的作用。并且,在扩散和迁移过程中涉及的复制文件副本过程中节点的选择充分考虑了复制的开销和操作过后对服务能力的提高;对目的节点的选择采取了去中心化的方法,由源节点各自选取,避免了现有技术中将所有处理都集中在逻辑中心而造成的单点瓶颈问题。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (14)

1.一种文件副本管理方法,其特征在于,包括:
在分布式存储网络中,根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;
所述源节点根据相关节点的空闲资源选择用于接收所述文件副本的目的节点。
2.根据权利要求1所述的方法,其特征在于,所述根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点,包括:
需要扩散文件副本的根节点,根据节点的可用网络带宽选择存储有所述文件副本并用于对所述文件副本进行扩散处理的源节点;或者,需要迁出文件副本的节点,根据节点的可用网络带宽选择存储有所述文件副本并用于对所述文件副本进行迁移处理的源节点。
3.根据权利要求2所述的方法,其特征在于,所述根节点存储所述文件的元数据信息,以及存储有所述文件副本的节点的列表;
所述文件副本完整存储在至少一个节点中,或者,所述文件副本被分片存储在多个节点中。
4.根据权利要求3所述的方法,其特征在于,所述需要扩散文件副本的根节点,根据节点的可用网络带宽选择存储有所述文件副本并用于对所述文件副本进行扩散处理的源节点,包括:
所述根节点根据存储有所述文件副本的节点的列表,将其中各节点的可用网络带宽按降序排列,按照需要的个数依次选取可用网络带宽最大的节点作为源节点;
或者,所述根节点根据存储所述文件副本各分片的节点的列表,将存储同一分片的节点的可用网络带宽按降序排列,选取可用网络带宽最大的节点作为该分片的源节点;依次类推,直至找到所述文件副本所有分片的源节点。
5.根据权利要求3所述的方法,其特征在于,所述需要迁出文件副本的节点,根据节点的可用网络带宽选择存储有所述文件副本并用于对所述文件副本进行迁移处理的源节点,包括:
需要迁出副本的节点根据所述根节点存储的所述文件分布状况,获取存储有所述文件副本的节点的列表,对列表中各节点进行性能查询后,将列表中各节点的可用网络带宽按降序排列,按照需要的个数依次选取可用网络带宽最大的节点作为源节点;
或者,需要迁出副本的节点根据所述根节点存储的所述文件分布状况,获取存储所述文件副本各分片的节点列表,将存储同一分片的节点的可用网络带宽按降序排列,选取可用网络带宽最大的节点作为该分片的源节点;依次类推,直至找到所述文件副本所有分片的源节点。
6.根据权利要求4或5所述的方法,其特征在于,所述源节点根据相关节点的空闲资源选择用于接收所述文件副本的目的节点,包括:
所述源节点根据存储的邻居节点列表,查询邻居节点的存储空间和可用网络带宽,将可用存储空间和可用网络带宽均超过阀值的邻居节点作为目的节点;或者按照需要的个数依次选取邻居节点中可用存储空间和可用网络带宽最大的邻居节点作为目的节点。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
源节点将待迁移的文件副本复制至目的节点后,所述需要迁出文件副本的节点将存储的该文件副本删除;
所述文件副本的根节点,还记录文件副本迁移或扩散后的分片存储信息。
8.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当需要对文件副本进行删除时,所述文件副本的根节点找到存储该文件副本各分片的节点列表,将存储同一分片的节点的被访问次数按升序排列,选取被访问次数最少的节点作为待删除该分片的节点,并删除该节点上的该分片;依次类推,直至删除所述文件副本所有的分片;并且所述文件的根节点,还记录文件副本被删除的信息。
9.一种分布式存储网络节点,其特征在于,包括:文件副本管理装置,所述装置包括:
选择单元,用于根据节点的空闲资源选择用于对文件副本进行扩散或迁移处理的源节点;或根据相关节点的空闲资源选择用于接收文件副本的目的节点;
处理单元,用于与所述选择单元选择的节点进行通信,对所述文件副本进行扩散或迁移处理。
10.根据权利要求9所述的节点,其特征在于,所述装置还包括:
存储单元,用于存储所述文件的元数据信息,以及存储有所述文件副本的节点的列表;或用于存储所述文件副本和邻居节点列表。
11.根据权利要求9或10所述的节点,其特征在于,所述选择单元,根据所述存储单元存储的信息,按照节点的可用网络带宽选择存储有所述文件副本并对所述文件副本进行迁移或扩散处理的源节点,或者,按照可用网络带宽和可用存储空间选择接收所述文件副本的目的节点。
12.一种文件副本管理系统,其特征在于,由多个节点构成分布式存储网络,包括:
文件根节点,用于根据节点的空闲资源选择用于对文件副本进行扩散处理的源节点;
副本迁出节点,用于根据节点的空闲资源选择用于对文件副本进行迁移处理的源节点;
所述源节点,用于存储文件副本,并根据相关节点的空闲资源选择目的节点;
所述目的节点,用于接收所述源节点传递的所述文件副本。
13.根据权利要求12所述的系统,其特征在于,所述文件根节点,还用于存储所述文件的元数据信息,记录存储有文件副本的节点的列表;并根据列表中各节点的空闲资源,选择存储有文件副本并用于对文件副本进行扩散处理的所述源节点;
所述副本迁出节点,还用于存储文件副本。
14.根据权利要求12所述的系统,其特征在于,所述文件根节点还用于:在需要对文件副本进行删除时,找到存储该文件副本各分片的节点列表,将存储同一分片的节点的被访问次数按升序排列,选取被访问次数最少的节点作为待删除该分片的节点,并通知待删除该分片的节点删除该节点上的该分片;依次类推,直至删除所述文件副本所有的分片。
CN2009100859669A 2009-06-02 2009-06-02 一种文件副本管理方法及装置、系统 Pending CN101909068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100859669A CN101909068A (zh) 2009-06-02 2009-06-02 一种文件副本管理方法及装置、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100859669A CN101909068A (zh) 2009-06-02 2009-06-02 一种文件副本管理方法及装置、系统

Publications (1)

Publication Number Publication Date
CN101909068A true CN101909068A (zh) 2010-12-08

Family

ID=43264386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100859669A Pending CN101909068A (zh) 2009-06-02 2009-06-02 一种文件副本管理方法及装置、系统

Country Status (1)

Country Link
CN (1) CN101909068A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156730A (zh) * 2011-04-07 2011-08-17 江苏省电力公司 基于文件存储动态聚合的优化方法
CN102694863A (zh) * 2012-05-30 2012-09-26 电子科技大学 基于负载调整和系统容错的分布式存储系统的实现方法
CN103294675A (zh) * 2012-02-23 2013-09-11 上海盛霄云计算技术有限公司 一种分布式存储系统中的数据更新方法及装置
CN103729352A (zh) * 2012-10-10 2014-04-16 腾讯科技(深圳)有限公司 分布式文件系统对多个副本数据进行处理的方法及该系统
CN104202435A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 数据拖取的方法和装置
CN104199992A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 数据拖取的方法和装置
CN106294191A (zh) * 2015-05-26 2017-01-04 华为技术有限公司 处理表的方法、访问表的方法和装置
WO2017041650A1 (zh) * 2015-09-09 2017-03-16 阿里巴巴集团控股有限公司 用于扩展分布式一致性服务的方法和设备
CN106850708A (zh) * 2015-12-03 2017-06-13 山大鲁能信息科技有限公司 具有gps定位跟踪功能的家校通系统及其方法
WO2018006587A1 (zh) * 2016-07-07 2018-01-11 中兴通讯股份有限公司 一种文件存储方法、终端及存储介质
CN108170372A (zh) * 2017-12-08 2018-06-15 厦门集微科技有限公司 基于云硬盘的数据处理方法和装置
CN108804465A (zh) * 2017-05-04 2018-11-13 中兴通讯股份有限公司 一种分布式缓存数据库数据迁移的方法及系统
CN110188007A (zh) * 2019-06-05 2019-08-30 深圳市网心科技有限公司 分布式数据修复方法、装置、网络节点及存储介质
CN110457167A (zh) * 2019-08-20 2019-11-15 北京博睿宏远数据科技股份有限公司 副本处理方法、装置、设备和介质
CN110489279A (zh) * 2019-08-27 2019-11-22 深圳市网心科技有限公司 一种文件副本维护方法及相关装置
CN111831674A (zh) * 2020-06-29 2020-10-27 山大地纬软件股份有限公司 一种区块链节点、系统及数字资料副本分配方法
CN112130931A (zh) * 2020-09-27 2020-12-25 联想(北京)有限公司 一种应用部署方法、节点、系统及存储介质

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156730B (zh) * 2011-04-07 2013-03-20 江苏省电力公司 基于文件存储动态聚合的优化方法
CN102156730A (zh) * 2011-04-07 2011-08-17 江苏省电力公司 基于文件存储动态聚合的优化方法
CN103294675A (zh) * 2012-02-23 2013-09-11 上海盛霄云计算技术有限公司 一种分布式存储系统中的数据更新方法及装置
CN103294675B (zh) * 2012-02-23 2018-08-03 上海盛大网络发展有限公司 一种分布式存储系统中的数据更新方法及装置
CN102694863A (zh) * 2012-05-30 2012-09-26 电子科技大学 基于负载调整和系统容错的分布式存储系统的实现方法
CN102694863B (zh) * 2012-05-30 2015-08-26 电子科技大学 基于负载调整和系统容错的分布式存储系统的实现方法
CN103729352B (zh) * 2012-10-10 2017-07-28 腾讯科技(深圳)有限公司 分布式文件系统对多个副本数据进行处理的方法及该系统
CN103729352A (zh) * 2012-10-10 2014-04-16 腾讯科技(深圳)有限公司 分布式文件系统对多个副本数据进行处理的方法及该系统
CN104202435B (zh) * 2014-09-28 2017-10-31 北京奇虎科技有限公司 数据拖取的方法和装置
CN104202435A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 数据拖取的方法和装置
CN104199992A (zh) * 2014-09-28 2014-12-10 北京奇虎科技有限公司 数据拖取的方法和装置
CN106294191A (zh) * 2015-05-26 2017-01-04 华为技术有限公司 处理表的方法、访问表的方法和装置
CN106294191B (zh) * 2015-05-26 2019-07-09 华为技术有限公司 处理表的方法、访问表的方法和装置
WO2017041650A1 (zh) * 2015-09-09 2017-03-16 阿里巴巴集团控股有限公司 用于扩展分布式一致性服务的方法和设备
CN106850708A (zh) * 2015-12-03 2017-06-13 山大鲁能信息科技有限公司 具有gps定位跟踪功能的家校通系统及其方法
WO2018006587A1 (zh) * 2016-07-07 2018-01-11 中兴通讯股份有限公司 一种文件存储方法、终端及存储介质
CN108804465B (zh) * 2017-05-04 2023-06-30 中兴通讯股份有限公司 一种分布式缓存数据库数据迁移的方法及系统
CN108804465A (zh) * 2017-05-04 2018-11-13 中兴通讯股份有限公司 一种分布式缓存数据库数据迁移的方法及系统
CN108170372A (zh) * 2017-12-08 2018-06-15 厦门集微科技有限公司 基于云硬盘的数据处理方法和装置
CN110188007A (zh) * 2019-06-05 2019-08-30 深圳市网心科技有限公司 分布式数据修复方法、装置、网络节点及存储介质
CN110457167A (zh) * 2019-08-20 2019-11-15 北京博睿宏远数据科技股份有限公司 副本处理方法、装置、设备和介质
CN110489279A (zh) * 2019-08-27 2019-11-22 深圳市网心科技有限公司 一种文件副本维护方法及相关装置
CN111831674A (zh) * 2020-06-29 2020-10-27 山大地纬软件股份有限公司 一种区块链节点、系统及数字资料副本分配方法
CN112130931A (zh) * 2020-09-27 2020-12-25 联想(北京)有限公司 一种应用部署方法、节点、系统及存储介质

Similar Documents

Publication Publication Date Title
CN101909068A (zh) 一种文件副本管理方法及装置、系统
Wei et al. CDRM: A cost-effective dynamic replication management scheme for cloud storage cluster
US9882975B2 (en) Method and apparatus for buffering and obtaining resources, resource buffering system
CN106790324B (zh) 内容分发方法、虚拟服务器管理方法、云平台和系统
JP4538454B2 (ja) コンピュータ・ネットワークにおける電子文書のレプリカの検索
CN103150347B (zh) 基于文件热度的动态副本管理方法
CN102984280B (zh) 针对社交类云存储网络应用的数据备份系统和方法
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
CN102523279A (zh) 一种分布式文件系统及其热点文件存取方法
KR20120072907A (ko) 오브젝트를 복수 개의 데이터 노드들의 위치에 기반하여 분산 저장하는 분산 저장 시스템 및 그 위치 기반 분산 저장 방법 및 컴퓨터에 의하여 독출 가능한 저장 매체
CN103902735B (zh) 面向大规模集群消重的应用感知数据路由方法及系统
WO2009029783A2 (en) Load based file allocation among a plurality of storage devices
US20190155922A1 (en) Server for torus network-based distributed file system and method using the same
Honnutagi The Hadoop distributed file system
CN102664914A (zh) 一种IS/DFS-Image分布式文件存储查询系统
CN105068755A (zh) 一种面向云计算内容分发网络的数据副本存储方法
Singh et al. Scalable metadata management techniques for ultra-large distributed storage systems--A systematic review
Rajalakshmi et al. An improved dynamic data replica selection and placement in cloud
CN105978981A (zh) 基于公有云存储账户的数据备份的线性扩容方法及系统
Xu et al. Adaptive and scalable load balancing for metadata server cluster in cloud-scale file systems
Makris et al. Load balancing for minimizing the average response time of get operations in distributed key-value stores
CN113688115A (zh) 一种基于Hadoop的档案大数据分布式存储系统
CN105187489A (zh) 可集群并支持多用户同时上传的文件传输方法和系统
Nguyen et al. A dynamic-clustering backup scheme for high-availability distributed File sharing Systems
Wei et al. Dynamic replication management for object-based storage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20101208