CN107678688A

CN107678688A - 一种基于云存储系统中的管理冗余副本的方法、装置和存储介质

Info

Publication number: CN107678688A
Application number: CN201710891791.5A
Authority: CN
Inventors: 张烨; 缪烨
Original assignee: Bo Domain Information Technology (shanghai) Co Ltd
Current assignee: Bo Domain Information Technology (shanghai) Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2018-02-09

Abstract

本发明公开了一种基于云存储系统中的管理冗余副本的方法、装置、节点设备和存储介质，在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i‑1和直接后继存储簇N i+1；由存储簇N i‑1和N i+1中的管理节点M i‑1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器；将存储簇N i中存储的用户文件F a的数据块复制到N i‑1和Ni+1存储簇中分配的数据块服务器中；从而在所设计的基于存储簇对等的云存储模型中，通过将高频访问的元数据和路由信息集中到高性能的存储簇管理节点上，以实现更好的提高系统的访问性能。

Description

一种基于云存储系统中的管理冗余副本的方法、装置和存储介质

技术领域

本发明涉及计算机的技术领域，尤其涉及一种基于云存储系统中的管理冗余副本的方法、装置和存储介质。

背景技术

P2P是Peer-to-Peer的简写，又被称为对等技术。P2P不依赖于集中的那一个服务器，而是依赖于参与到P2P网络中的所有机器。从系统的结构来看，P2P系统是分布式的结构，它不同于集中式的结构或者基于服务器的结构。因为它不依靠与某个网络中的中心服务器节点来提供索引服务，网络中的任何两台机器之间都能够直接建立连接共享资源，并能够发现P2P系统中的各种服务。与客户端服务器架构相比，P2P的关键优势是它把整个系统提供的服务分散到系统中的每个对等节点上了，如此一来整个P2P系统就不存在单点故障的风险。

P2P网络体系结构包括集中目录式结构、纯P2P网络结构、混合式网络结构等三种：(1)集中目录式结构；集中目录式结构的系统中存在一个中央目录服务，该目录服务器负责保存各个节点的索引信息，比如节点的地址、存储的资源等元数据。(2)纯P2P网络结构；纯P2P网络，去除了集中的中央目录服务器，网络中的每个节点都完全对等，任何一个用户都是随机地接入到P2P网络中，而且利用端到端的连接与自己相邻的一组邻居节点在逻辑上组成一个覆盖网络。(3)混合式网络结构；混合式网络结构是将集中式P2P与纯P2P网络两者结合的混合式网络结构。混合式网络结构系统中的节点都是以簇的形态存在，一个簇由一个索引节点和在它附近的多个普通节点组成，在每个簇内，索引节点作为簇的中央目录服务器，其他普通节点负责资源的存储。

随着移动互联网等技术的不断快速发展，尤其是Web2.0时代的开启，全球众多互联网用户生产的各种数据呈现爆炸式地增长。互联网数据中心统计2015年全球的数据量就达到8ZB，到2020年更将达到35ZB。全球社会生产的海量数据对存储产生了巨大的需求，为解决海量数据的高性能、低成本以及高安全可靠性的存储需求，云存储技术应运而生，相比于传统的存储技术，不仅仅能够低成本的存储海量数据，并且能够更简单、高效地存储与管理数据。云存储非常有效地解决了传统存储技术的瓶颈。

目前主流的云存储系统(含谷歌GFS、亚马逊S3以及开源的HDFS)使用了主从式的系统架构，即系统由一个中心的主节点和多个从节点构成。其中最典型就是GFS，它的系统由一个主节点GFS主服务器和多个从节点GFS数据块服务器。而通常GFS主服务器只有一个，一旦云存储系统中的主节点GFS主服务器出现故障，将导致整个系统的瘫痪。即使系统中可能采用多机热备份技术，但是其依然没有从根本上解决系统里元数据高度集中的中心节点的单点故障隐患。

发明内容

本发明实施例提供一种基于云存储系统中的管理冗余副本的方法、装置和存储介质，旨在解决云存储系统中的单点隐患的问题。

第一方面，一种基于云存储系统中的管理冗余副本的方法，所述方法包括：

在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇Ni-1和直接后继存储簇N i+1；

由存储簇N i-1和N i+1中的管理节点M i-1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器；

将存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中。

可选地，所述直接前继存储簇N i-1为：以顺时针为正方向，每个节点N都有排列在其之前或者之后的节点，其中排在前面的节点称为节点N的前继，第一个前继称为节点的直接前继N i-1。

可选地，所述直接后继存储簇N i+1为：排在其后面的节点称为节点N的后继，第一个后继称为节点N的直接后继。

可选地，所述将存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中之后，还包括：

在所述M i-1和所述M i+1上保存文件文件名、文件创建时间、文件File ID和版本号的元数据。

可选地，所述在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1之前，还包括：

通过预设算法获取待存储文件Fa在Chord环中的位置L a，并查找所述Fa存放的存储簇；

分块所述Fa，并获取存储分块后的文件Fa的存储位置；

存储数据块，并创建所述数据块的元数据。

可选地，所述查找所述Fa存放的存储簇，包括：

根据所述La在由存储簇的管理节点构成的Chord环上，顺时针找到第一个管理节点Mi，所述M i为所述Fa存放在所述存储簇的管理节点。

可选地，所述分块所述Fa，包括：

将所述Fa顺序分割为每个为64MB固定大小的数据块Bi，并对数据块进行编号；

所述获取存储分块后的文件Fa的存储位置，包括：

接收向所述Mi发送的存储数据的请求，所述Mi根据所在存储簇中的数据块服务器节点的负载情况，返回存储所述Fa的数据块服务器节点的信息。

可选地，所述存储数据块，包括：

将分块文件B1～BN存入到对应的数据块服务器节点；

所述创建所述数据块的元数据，包括：

当存储所述Fa后，存储簇的管理节点Mi保存所述Fa的资源标识File ID、文件名称、文件大小、拥护者、数据块Bi与存储位置之间的映射以及所述Fa的版本号。

第二方面，一种基于云存储系统中的管理冗余副本的装置，所述装置包括：

选择模块，用于在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1；

分配模块，用于由存储簇N i-1和N i+1中的管理节点M i-1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器；

复制模块，用于将存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中。

第三方面，一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于云存储系统中的管理冗余副本的方法。

本发明实施例提供了一种基于云存储系统中的管理冗余副本的方法、装置、节点设备和存储介质，在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1；由存储簇N i-1和N i+1中的管理节点M i-1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器；将存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中；从而在所设计的基于存储簇对等的云存储模型中，通过将高频访问的元数据和路由信息集中到高性能的存储簇管理节点上，以实现更好的提高系统的访问性能。

附图说明

图1是本发明实施例一中的一种P2P的结构示意图；

图2是本发明实施例二中的基于云存储系统中的管理冗余副本的方法的流程示意图；

图3是本发明实施例二中的基于云存储系统中的管理冗余副本的方法的示意图；

图4是本发明实施例三中的基于云存储系统中的管理冗余副本的方法的流程示意图；

图5为本发明实施例四提供的一种基于云存储系统中的管理冗余副本的装置的结构示意图；

图6为本发明实施例五提供的一种节点设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

如图1所示，在P2P网络拓扑中对等结构，根据对等的基本单元特性，主要分为所有结点的完全对等结构和基于存储簇为单元的对等结构。

基于完全对等的云存储模型中的完全对等，即是云存储中的所有用于存储的服务器结点形成一个环形结构，各个结点间都是平等的，没有层次关系。在该环形结构中存储服务器结点上，既负责存储文件数据以及这些文件数据的元数据，同时又存储着相关的路由数据，它的系统结构是一个分布式哈希表(DHT)网络，其使用一致性哈希算法，将所有构成云存储网络的服务器设备通过哈希函数映射到一个哈希空间上，该哈希空间首尾相连抽象为环。在基于完全对等的云存储模型中，构成云存储系统的每个存储服务器都是会被映射为Chord环(Chord是最简单，最精确的环形P2P模型，是DHT(Distributed Hash Table)的一种经典实现)上的一个节点，每个存储服务器都是一个能够小范围路由的独立自治节点，这样的结构使得映射到Chord环上的节点过多，不利于管理及路由。而且，在云存储系统的一般访问过程中，用户对于文件元数据和路由数据的访问频度要远远大于对于文件内容的访问频度。每个节点同时维护低频访问的本地数据块及提供高频访问的路由功能，节点任务复杂，将两者放置在一起不利于提高系统的性能。

基于存储簇为单元的对等结构，是在完全对等结构基础的优化。在这种结构中，将负责管理高频访问的文件元数据以及维护用于路由信息数据的功能，集中由更高性能的存储簇的管理节点提供；而普通性能的数据块服务器将扮演维护相对低频访问的副本数据。基于存储簇对等结构模型中的服务器分为两种大的类型：高性能的存储簇的管理服务器和普通性能的数据块存储服务器。在每个存储簇中，它的管理节点的主要功能为用户信息的认证、维护存储簇的目录以及文件与数据块服务器之间的映射等元数据，而数据块服务器是用于存储用户文件数据。根据云存储系统中数据访问的特点，将用于路由的数据、文件的元数据等热点数据集中，交由更高性能服务器处理，有利于更好的提高系统的性能，存储簇之间采用结构化P2P网络的拓扑结构，形成一个DHT网络。

另外，对于数据块服务器，按照可靠程度，又分为可信的数据块服务器节点(Reliable Chunk Server Node,简称RCSN、RN)和不可信的数据块服务器节点(UnreliableChunk Server Node,简称UCSN、UN)。可信的数据块服务器节点(Reliable Chunk ServerNode,简称RCSN)主要由云存储服务商提供的高可靠性的服务器构成。RCSN负责系统中用户数据的存储，每个RCSN由存储簇的管理节点管理。因为RCSN可靠性高，存储在RCSN中的数据相对可靠性、可用性就更高，所以把用户基于云存储系统中的管理冗余副本在RCSN上是云存储系统中可靠性和可用性的重要保证之一。不可信的数据块服务器节点(UnreliableChunk Server Node,简称UCSN)主要是用户的机器构成。由于用户机器一般可靠性不能得到保证，所以云存储模型中假设存储在UCSN中的数据不保证其可靠性和可用性。

实施例二

参考图2，本方法可以由本发明实施例提供的装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可继承在任何实现存储簇的管理节点。本实施例的方法包括：

步骤210，在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1；

其中，所述直接前继存储簇N i-1为：以顺时针为正方向，每个节点N都有排列在其之前或者之后的节点，其中排在前面的节点称为节点N的前继，第一个前继称为节点的直接前继N i-1。

所述直接后继存储簇N i+1为：排在其后面的节点称为节点N的后继，第一个后继称为节点N的直接后继。

步骤220，由存储簇N i-1和N i+1中的管理节点M i-1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器；

步骤230，将存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中。

示例性的，在副本放置策略中，冗余副本存放存储簇的选择是其中重要的内容之一。保存在不同的存储簇中的优势是，如果某一个存储簇出现故障，在其它存储簇中仍然有多份副本可用，可以通过这多份副本来恢复副本数量，确保系统的可靠性、可用性。以三份副本存储为例，前文中已经阐述了第一份副本存储簇位置的抉择。另外两份冗余副本需要再选择两个不同的存储簇。决策冗余副本存放的位置，在该模型中主要是选择存储簇，最后存入存储簇中的具体数据块服务器节点是由该存储簇中的管理节点决定，所以重点就是如何选择存放的存储簇。

冗余副本存放的存储簇选择应充分利用Chord算法的特点。在Chord算法形成的Chord环中，以顺时针为正方向，每个节点N都有排列在其之前或者之后的节点，其中排在前面的节点称为节点N的前继，第一个前继称为节点的直接前继，而排在其后面的节点称为节点N的后继，第一个后继称为节点N的直接后继。由于Chord算法中每个节点都会存储其前继节点和后继节点位置信息，那么为了快速方便的找到冗余副本，冗余副本可以存放在副本存放节点的直接前继和直接后继上。本发明中冗余副本存放的存储簇选择为直接前继存储簇和直接后继存储簇。

假设文件F a使用资源标识File ID通过SHA-1算法计算得出L a，通过Chord算法找出文件应存放于N i存储簇，那么文件将保存在N i存储簇、及其直接前继Ni-1存储簇和直接后继存储簇Ni+1上，。这里称存储在N i的副本为原副本，称存储在N i-1和N i+1的副本为冗余副本，它们之间互为冗余。

如图3所示，存储簇存放冗余副本的过程和存放副本过程一样，先由存储簇N i-1和N i+1中的管理节点M i-1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器。然后把存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中。最后，在M i-1和M i+1上保存文件文件名、文件创建时间、文件File ID和版本号等相关的元数据。采用上述放置策略后，每个用户文件都会存放三份副本，分别存放在由Chord算法定位的存储簇，以及该存储簇的直接前继和直接后继存储簇。因此每个存储簇存放的用户数据包括三种类型，它们是直接前继的冗余副本、直接后继的冗余副本以及通过Chord算法得出应该存放在该存储簇的原副本。

实施例三

参考图4，实施例三是在实施例二上的进一步优化，即包括存储文件，具体如下：

步骤410，通过预设算法获取待存储文件Fa在Chord环中的位置L a，并查找所述Fa存放的存储簇；

其中，所述查找所述Fa存放的存储簇，包括：

步骤420，分块所述Fa，并获取存储分块后的文件Fa的存储位置；

其中，所述分块所述Fa，包括：

所述获取存储分块后的文件Fa的存储位置，包括：

步骤430，存储数据块，并创建所述数据块的元数据；

其中，将分块文件B1～BN存入到对应的数据块服务器节点；

所述创建所述数据块的元数据，包括：

示例性的，在基于存储簇对等的云存储系统中，用户进行文件存储操作的一般处理过程如下：

(1)假设要存入系统的文件为Fa；

(2)系统给文件Fa分配系统唯一资源标识，然后由SHA-1算法获得Fa的在Chord环中的位置L a；

(3)查找文件Fa应放置的存储簇。根据文件Fa的La，在由存储簇的管理节点构成的Chord环上，顺时针找到第一个管理节点Mi。M i即为文件Fa应存放存储簇的管理节点；

(4)文件Fa分块。将文件Fa顺序分割为每个为64MB固定大小的数据块Bi，并对数据块进行编号。假设文件Fa共分为N块，则把分割下来的数据块编号为B1～BN；

(5)获取具体存储位置。向Mi发出存储数据的请求，Mi根据所在存储簇中的数据块服务器节点的负载情况，返回文件最终存放的数据块服务器节点；

(6)存储数据块。用户客户端将分块文件B1～BN存入到分配的对应数据块服务器节点；

(7)创建用户数据的元数据。当用户文件存储成功后，存储簇的管理节点Mi需要保存文件Fa的资源标识File ID、文件名称、文件大小、拥护者、数据块Bi与存储位置之间的映射以及文件的版本号等一系列信息；

(8)存储另外两份冗余副本。根据副本放置策略，选择存储簇并存储用户文件的冗余副本；

(9)返回存储结果。

步骤440，在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1；

步骤450，由存储簇N i-1和N i+1中的管理节点M i-1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器；

步骤460，将存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中。

实施例四

图5为本发明实施例四提供的一种基于云存储系统中的管理冗余副本的装置的结构示意图。该装置可采用软件和/或硬件的方式实现，该装置可集成在存储簇的管理节点，该装置包括：

选择模块510，用于在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1；

分配模块520，用于由存储簇N i-1和N i+1中的管理节点M i-1和M i+1根据各自存储簇中各数据块服务器的负载情况分配数据块服务器；

复制模块530，用于将存储簇N i中存储的用户文件F a的数据块复制到N i-1和Ni+1存储簇中分配的数据块服务器中。

实施例五

图6为本发明实施例五提供的一种节点设备的硬件结构示意图，如图6所示，本发明实施例五提供的节点设备，包括一个或多个处理器62；

存储装置63，用于存储一个或多个程序。该节点设备与其它节点设备通过射频天线61实现互相通信，射频天线61分别与处理器62和存储装置63连接，且处理器62和存储装置通过总线或其它方式连接。在图6中，射频天线61和处理器62的个数均为1个。

该节点设备中的存储装置63作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块。处理器62通过运行存储在存储装置63中的软件程序、指令以及模块，从而执行节点设备的各种功能应用以及数据处理，即实现上述方法实施例中的基于云存储系统中的管理冗余副本的方法。

存储装置63可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储装置63可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置63可进一步包括相对于处理器62远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

并且，当上述节点设备所包括一个或者多个程序被所述一个或者多个处理器62执行时，程序进行如下操作：

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于云存储系统中的管理冗余副本的方法，其特征在于，所述方法包括：

在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1；

2.根据权利要求1所述的方法，其特征在于，所述直接前继存储簇N i-1为：以顺时针为正方向，每个节点N都有排列在其之前或者之后的节点，其中排在前面的节点称为节点N的前继，第一个前继称为节点的直接前继N i-1。

3.根据权利要求2所述的方法，其特征在于，所述直接后继存储簇N i+1为：排在其后面的节点称为节点N的后继，第一个后继称为节点N的直接后继。

4.根据权利要求1所述的方法，其特征在于，所述将存储簇N i中存储的用户文件F a的数据块复制到N i-1和N i+1存储簇中分配的数据块服务器中之后，还包括：

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述在预设算法形成的Chord环中，将冗余副本存放的存储簇选择为直接前继存储簇N i-1和直接后继存储簇N i+1之前，还包括：

分块所述Fa，并获取存储分块后的文件Fa的存储位置；

存储数据块，并创建所述数据块的元数据。

6.根据权利要求5所述的方法，其特征在于，所述查找所述Fa存放的存储簇，包括：

7.根据权利要求5所述的方法，其特征在于，所述分块所述Fa，包括：

所述获取存储分块后的文件Fa的存储位置，包括：

8.根据权利要求5所述的方法，其特征在于，所述存储数据块，包括：

将分块文件B1～BN存入到对应的数据块服务器节点；

所述创建所述数据块的元数据，包括：

9.一种基于云存储系统中的管理冗余副本的装置，其特征在于，所述装置包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该计算机程序被处理器执行时实现权利要求1-8中任一项所述的基于云存储系统中的管理冗余副本的方法。