CN111414271A

CN111414271A - 一种基于自适应存储冗余策略的存储方法

Info

Publication number: CN111414271A
Application number: CN202010187685.0A
Authority: CN
Inventors: 刘浪
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-14
Anticipated expiration: 2040-03-17
Also published as: CN111414271B

Abstract

本发明涉及一种基于自适应存储冗余策略的存储方法，该存储方法包括以下步骤：部署步骤：分别设置条带化存储方式中第一个分块和后续分块的最大容量；部署存储冗余策略配置信息，分别设定第一个分块和后续分块的存储冗余策略；数据写入步骤：通过条带化存储方式，并根据部署的存储冗余策略，分别将数据的第一个分块和后续分块写入对应存储池中；数据读取步骤：通过条带化存储方式，并根据部署的存储冗余策略，分别将数据的第一个分块和后续分块从对应存储池中读取，与现有技术相比，本发明具有无需花费大量时间迁移原先已经写入的副本数据，且保证原先副本数据的可用性等优点。

Description

一种基于自适应存储冗余策略的存储方法

技术领域

本发明涉及存储领域的数据冗余策略，尤其是涉及一种基于自适应存储冗余策略的存储方法。

背景技术

近年来，非结构化数据呈爆炸式、火箭式增长。传统存储在面对非结构化数据的时候，是心有余而力不足的。越来越多的企业级业务系统，在架构时，选择分布式存储系统用来存储它们的非结构化数据。

企业级业务系统在规划它们的存储系统时，会从扩展性、性价比、高可靠性等多方面进行考量。在初期时，往往会部署较小规模的存储集群满足企业近期存储的需求，通常三节点的集群可以满足高可用，高可扩展性的要求。但是三节点的集群存储冗余策略基本都是副本冗余策略的，很少可以采用纠删码(EC)冗余策略的。随着数据量的膨胀式增长，后续的存储集群规模越扩越大，采用副本冗余策略成本太高，逐步地会考虑采用纠删码冗余策略。

以副本冗余策略中三副本和纠删码冗余策略中EC 4+2(4个数据块，2个校验块)为例进行对比，三副本的存储利用率为三分之一，而EC 4+2的存储利用率为三分之二，纠删码的存储利用率为三副本的两倍。但是，如果一开始企业就选择纠删码的冗余策略，通常需要部署6个节点，而部署三副本，通常只需要部署3个节点，那么初期的规划成本就要高出一倍。

针对这种企业级业务的需求，初期成本投入成本低一些，部署副本冗余策略，后期逐步扩展到可支持纠删码的规模时，能够部署纠删码策略。这时存在一个问题是：原先大量的副本冗余策略的数据怎么处理？大多情况下采用数据迁移的方法，将副本数据重新上传一遍。这种方法周期长，且需要停止业务，等全部迁移完成后才能恢复业务。数据规模较大时，可能需要几十天的时间进行数据迁移，业务停止时间周期太长，恐怕难以接受。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种无需花费大量时间迁移原先已经写入的副本数据，且保证原先副本数据的可用性的基于自适应存储冗余策略的存储方法。

本发明的目的可以通过以下技术方案来实现：

一种基于自适应存储冗余策略的存储方法，该存储方法包括以下步骤：

部署步骤：分别设置条带化存储方式中第一个分块和后续分块的最大容量；部署存储冗余策略配置信息，分别设定第一个分块和后续分块的存储冗余策略；

数据写入步骤：通过条带化存储方式，并根据部署的存储冗余策略，分别将数据的第一个分块和后续分块写入对应存储池中；

数据读取步骤：通过条带化存储方式，并根据部署的存储冗余策略，分别将数据的第一个分块和后续分块从对应存储池中读取。

该自适应存储冗余策略包括存储策略转变自适应和大小对象自适应；

所述的存储策略转变自适应具体包括：

S101：执行部署步骤，设置第一个分块和后续分块的最大容量，并设定第一个分块和后续分块的存储冗余策略采用相同的存储策略；

S102：执行数据写入步骤和/或数据读取步骤；

S103：集群规模扩展，再次执行部署步骤，改变后续分块采用的存储冗余策略；

S104：执行数据写入步骤和/或数据读取步骤；

所述的大小对象自适应具体包括：

S201：执行部署步骤，设置第一个分块和后续分块的最大容量，并设定第一个分块采用副本冗余策略，后续分块采用纠删码冗余策略；

S202：执行数据写入步骤和/或数据读取步骤。

所述的存储冗余策略配置信息包括第一存储池(head pool)和第二存储池(tailpool)，所述的第一存储池(head pool)指向第一个分块对应存储策略的存储池，所述的第一个分块存放于第一存储池(head pool)指向的存储池中，所述的第二存储池(tail pool)指向后续分块对应存储策略的存储池，所述的后续分块存放于第二存储池(tail pool)指向的存储池中。

所述的条带化存储方式具体包括以下步骤：

S11：判断待处理数据的大小是否小于等于第一个分块的最大容量，若是，则设置第一个分块的大小为该数据的大小，结束，否则设置第一个分块的大小为其最大容量，并执行步骤S12；

S12：计算剩余容量rest，所述的剩余容量rest计算式为：rest＝n-h，其中n为数据的大小，h为第一个分块的最大容量；

S13判断剩余容量rest是否小于等于后续分块的最大容量，若是，则设置最后一个后续分块的大小为剩余容量rest，结束；否则执行步骤S14；

S14：设置后续分块大小为其最大容量，将当前剩余容量rest减去后续分块的最大容量，得到新的剩余容量rest，并返回执行步骤S13。

所述的第一个分块的元数据信息中包含后续分块的存储冗余策略信息。

所述的数据写入步骤具体包括：

S21：读取存储冗余策略配置信息，分别确定第一存储池和第二存储池指向的存储池；

S22：往第一存储池指向的存储池中写入第一个分块，同时在第一个分块的元数据中记录第二存储池指向的存储池；

S23：判断是否有后续分块，若是，则执行步骤S24，否则完成数据写入；

S24：往第二存储池指向的存储池中写入一个后续分块，并返回执行步骤S23；

所述的数据读取步骤具体包括：

S31：读取存储冗余策略配置信息，确定第一存储池指向的存储池；

S32：从第一存储池指向的存储池中读取第一个分块，同时读取第一个分块的元数据，确定该数据写入时第二存储池指向的存储池；

S33：判断是否有后续分块，若是，则执行步骤S34，否则完成数据读取；

S34：从数据写入时第二存储池指向的存储池中读取一个后续分块，并返回执行步骤S33。

在存储策略转变自适应中，当存储策略为初始部署时，第一个分块和后续分块均写入同一个存储池中；后续集群规模扩展后，改变第二存储池指向的存储池，对于新写入的数据，除了第一个分块写入原来的存储池中，所有的后续分块都写入更改后第二存储池指向的存储池，完成存储策略的自适应转化。对于原先写入的数据，在读取第一个块元数据信息时，可以获得该数据写入时后续分块所在的存储池，那么也可以读出原先写入的数据的完整内容。

在大小对象自适应中，第一分块和后续分块分别匹配不同的存储策略，对于小于第一个分块最大容量的数据(可称为小对象)，自动匹配副本策略，对于大于第一个分块最大容量的数据(可称为大对象)，其超出第一个分块最大容量的数据自动匹配到纠删码策略，既能提升小对象的读写性能，又能提升大对象的存储利用率。

所述的步骤S101具体包括：执行部署步骤，设置第一个分块和后续分块的最大容量，并设定第一个分块和后续分块均采用副本冗余策略，所述的步骤S103具体包括：集群规模扩展，再次执行部署步骤，设定后续分块采用纠删码冗余策略。对于新写入的数据，除了第一个分块写入副本存储池中，所有的后续分块都写入纠删码存储池中，极大的提升了存储效率。

所述的步骤S103中，还包括将第一个分块的最大容量设置为0，进一步提升在集群规模扩展之后的存储利用率。

所述的步骤S201中，将第一个分块的最大容量设置为512KB，将后续分块的最大容量设置为4MB，可以自适应地将小对象写入到副本存储池中，大对象的后续分块写入到纠删码存储池中，提升小对象的访问性能，同时提升大对象的存储利用率。

当第一个分块和后续分块采用的存储策略相同时，所述的第一存储池(headpool)和第二存储池(tail pool)指向同一个存储池，所述的第一个分块和后续分块存放于同一个存储池中；当第一个分块和后续分块采用的存储策略不同时，所述的第一存储池(head pool)和第二存储池(tail pool)指向不同的存储池，所述的第一个分块和后续分块存放于不同的存储池中。

与现有技术相比，本发明具有以下优点：

1)本发明通过将数据以条带化方式存储，同时在第一个分块元数据中记录后续分块的存储冗余策略，使得第一个分块和后续分块可以采用相同或不同的存储策略，并且能够自适应匹配和调整；

2)本发明通过对存储策略的不同部署，支持将副本存储策略变更为纠删码存储策略，这种方法保证原有副本策略的数据的可用性，无需长时间的数据迁移，可以做到无缝变更；新写入的数据为纠删码存储策略，大大地提高了存储利用率；

3)本发明通过对存储策略的不同部署，将副本冗余策略和纠删码冗余策略混合的方式，这种自适应冗余策略可以将小对象存储到副本规则的存储池中，将大对象存储到纠删码规则的存储池中，这种方法可以提升小对象性能，同时提升大对象的存储利用率。

附图说明

图1为条带化存储方式示意图；

图2为数据读写流程图，其中图(2a)为数据写入流程图，图(2b)为数据读取流程图；

图3为新老数据的条带化分布图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

本发明提供一种基于自适应存储冗余策略的存储方法，包括以下步骤：

其中，该存储冗余策略自适应的方法包括两个方面：

(1)存储策略转变自适应：

S102：执行数据写入步骤和/或数据读取步骤；

S104：执行数据写入步骤和/或数据读取步骤；

(2)大小对象自适应具体包括：

S201：执行部署步骤，设置第一个分块和后续分块的最大容量，并设定第一个分块和后续分块的存储冗余策略采用不同的存储策略；

S202：执行数据写入步骤和/或数据读取步骤。

本发明在副本冗余策略的基础上，提供新的纠删码冗余策略，原先已经写入的副本数据继续以副本形式存储，新写入的数据以纠删码形式存储，无需迁移原先副本数据，并保证原先副本数据的可用性。

本发明方法中的数据以条带化方式存储，其第一个分块的大小和后续的块的大小不一致，且第一个分块和后续分块可以采用相同或不同的存储策略，同时在第一个分块元数据中包含后续分块的存储冗余策略。

如图1所示，为条带化存储方式的流程示意图，以存储一个n字节大小的数据为例，设置第一个分块的大小最大为h字节，后续分块的大小最大为t字节，其具体步骤包括：

11)判断n<＝h是否成立，若是，则设置第一个分块的大小为n字节，结束，否则设置第一个分块的大小为h字节，并执行步骤12)；

12)设置剩余容量rest＝n-h字节；

13)判断rest<＝t是否成立，若是，则设置最后一个后续分块的大小为rest字节，结束；否则执行步骤14)；

14)设置后续分块大小为t字节，设置剩余容量rest＝rest-t字节，并返回执行步骤13)。

本发明中，我们将采用同一种存储策略的块放置在同一个存储池(pool)中。同一个数据的存储冗余策略配置信息包含两个存储池：第一存储池(head pool)和第二存储池(tail pool)。

其中，第一存储池反应第一个分块对应的存储策略，例如，当第一个分块采用副本冗余策略时，第一存储池指向副本存储池(replica pool)，当第一个分块采用纠删码冗余策略时，第一存储池指向纠删码存储池(ec pool)；第二存储池反应后续分块对应的存储策略，例如，当后续分块采用副本冗余策略时，第二存储池指向副本存储池，当后续分块采用纠删码冗余策略时，第二存储池指向纠删码存储池。根据条带化存储方式，对于同一个数据可以分别采用两种存储冗余策略，同时，这两种存储冗余策略可以相同，也可以不同。当第一个分块和后续分块存储冗余策略相同时，第一个分块和后续分块存放于同一个存储池中，当第一个分块和后续分块存储冗余策略配置信息不同时，第一个分块和后续分块存放于不同的存储池中。

如图(2a)所示，为本发明方法的数据写入流程示意图，具体包括：

21)读取存储冗余策略配置信息，分别确定head pool和tail pool指向的存储池；

22)往head pool指向的存储池中写入第一个分块，同时在第一个分块的元数据中记录tail pool指向的存储池；

23)判断是否有后续分块，若是，则执行步骤24)，否则结束完成数据写入；

24)往tail pool指向的存储池中写入一个后续分块，并返回执行步骤23)。

如图(2b)所示，为本发明方法的数据读取流程示意图，具体包括：

31)读取存储冗余策略配置信息，确定head pool指向的存储池；

32)从head pool指向的存储池中读取第一个分块，同时读取第一个分块的元数据，确定该数据写入时tail pool指向的存储池，记为tail pool2；

33)判断是否有后续分块，若是，则执行步骤34)，否则结束完成数据读取；

34)从tail pool2指向的存储池中读取一个后续分块，并返回执行步骤33)。

其中，步骤32)中，将该数据写入时tail pool指向的存储池记为tail pool2，是为了与当前的tail pool区分，因为其可能与当前tail pool所指向的存储池不同，而与曾经tail pool所指向的存储池相同。

当存储策略为仅采用副本冗余策略时，head pool和tail pool同时指向副本存储池(replica pool)，后续集群规模扩展后，若需要将存储策略改为纠删码冗余策略，则新建一个纠删码存储池(ec pool)，然后将tail pool由原先指向replica pool改为指向ecpool。此时，对于新写入的数据，除了第一个分块写入了replica pool中，所有的后续分块都将写入ec pool中，极大的提升了存储效率。而对于原先已写入的数据，在读取第一个分块元数据信息时，可以获得数据写入时后续分块存储的存储池，即replica pool，于是可以读出原先写入的数据的完整内容。

另外，当设定head pool指向replica pool，tail pool指向ec pool时，可以实现自适应匹配存储冗余策略。对于小于第一个分块的容量的数据(称为小对象)，将自动匹配副本冗余策略，对于大于第一个分块的容量的数据(称为大对象)，其大于第一个分块的数据将自动匹配到纠删码冗余策略。这种自适应的存储冗余既能提升小对象的读写性能，又能提升大对象的存储利用率。

实施例1

本实施例中，以第一个分块大小为512KB，后续分块大小为4MB为例，初始部署时存储冗余策略配置信息的head pool指向3副本存储池(rep3_pool)，tail pool也指向rep3_pool。

当写入一个大小为10MB、名称为a.rep3.log的数据时，具体步骤如下：

1、读取存储冗余策略配置信息，确定head pool指向rep3_pool，tail pool指向rep3_pool；

2、往rep3_pool写入第一个分块，其内容为数据的第0-512KB；

3、在第一个分块的元数据信息中记录tail pool为rep3_pool；

4、往rep3_pool写入第二个块，其内容为数据的第512KB-4.5MB；

5、往rep3_pool写入第三个块，其内容为数据的第4.5MB-8.5MB；

6、往rep3_pool写入第四个块，其内容为数据的第8.5MB-10MB。

集群规模扩展后，创建4+2的纠删码存储池(ec42_pool)，将tail pool由指向rep3_pool改为指向ec42_pool，head pool仍指向rep3_pool。

读取a.rep3.log的具体步骤如下：

1、读取存储冗余策略配置信息，确定head pool指向rep3_pool)；

2、从rep3_pool读取第一个分块，块的大小为512KB；

3、从第一个分块的元数据信息中读取记录的tail pool，确定tail pool指向rep3_pool，此处为写入时存储冗余配置信息的tail pool，而非当前存储冗余配置信息的tail pool；

4、从rep3_pool中读取第二个块，块的大小为4MB；

5、从rep3_pool中读取第三个块，块的大小为4MB；

6、从rep3_pool读取第四个块，块的大小为1.5MB。

此时写入一个大小为10MB、名称为b.ec42.log的数据，具体步骤如下：

1、读取存储冗余策略配置信息，确定head pool指向rep3_pool，tail pool指向ec42_pool；

2、往rep3_pool写入第一个分块，块的内容为数据的第0-512KB；

3、在第一个分块的元数据信息中记录tail pool指向ec42_pool；

4、往ec42_pool写入第二个块，块的内容为数据的第512KB-4.5MB；

5、往ec42_pool写入第三个块，块的内容为数据的第4.5MB-8.5MB；

6、往ec42_pool写入第四个块，块的内容为数据的第8.5MB-10MB。

读取修改为纠删码之后写入的数据b.ec42.log时，具体步骤如下：

1、读取存储冗余策略配置信息，确定head pool指向rep3_pool；

2、从rep3_pool读取第一个分块，块的大小为512KB；

3、从第一个分块中的元数据信息中读取tail pool，确定tail pool指向ec42_pool，此处为当前存储冗余策略配置信息的tail pool；

4、从ec42_pool中读取第二个块，块的大小为4MB；

5、从ec42_pool中读取第三个块，块的大小为4MB；

6、从ec42_pool写入第四个块，块的大小为1.5MB。

如图3所示，可以清晰的看到数据a.rep3.log和数据b.ec42.log的条带分布，通过在第一个分块的元数据信息中记录tail pool，从而可以达到变更tail pool的存储策略的目的。

实施例2

为了进一步提升在集群规模扩展之后修改为纠删码的第一个分块的存储利用率，在实施例1的基础上，可以将第一个分块的大小设置为0KB，那么新写入数据的全部内容都位于ec42_pool中，在rep3_pool中只写入一个大小为0的空数据。

实施例3

初始部署时，设置存储冗余策略配置信息的head pool指向副本存储池，tailpool指向纠删码存储池，且设置第一个分块大小为512KB，后续分块大小为4MB，实现自适应冗余策略。这种自适应冗余策略可以自适应地将小对象写入到副本存储池中，大对象的后续分块写入到纠删码存储池中，提升小对象的访问性能，同时提升大对象的存储利用率。

实施例4

本发明所说的存储领域包括但不限于：对象存储和文件存储领域。例如在统一的分布式存储系统Ceph的对象存储中，可以将bucket的存储冗余策略中的head pool对应本发明中的head pool，tail pool对应本发明中的tail pool。

实施例5

本发明中数据冗余策略的自适应变化包含但不限于：副本冗余策略变化为纠删码冗余策略、纠删码冗余策略变化为副本冗余策略、一种纠删码冗余策略变化为另一种纠删码冗余策略、一种副本冗余策略变化为另一种副本冗余策略。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自适应存储冗余策略的存储方法，其特征在于，该存储方法包括以下步骤：

2.根据权利要求1所述的一种基于自适应存储冗余策略的存储方法，其特征在于，自适应存储冗余策略包括存储策略转变自适应和大小对象自适应；

所述的存储策略转变自适应具体包括：

S102：执行数据写入步骤和/或数据读取步骤；

S104：执行数据写入步骤和/或数据读取步骤；

所述的大小对象自适应具体包括：

S202：执行数据写入步骤和/或数据读取步骤。

3.根据权利要求2所述的一种基于自适应存储冗余策略的存储方法，其特征在于，所述的存储冗余策略配置信息包括第一存储池和第二存储池，所述的第一存储池指向第一个分块对应存储策略的存储池，所述的第一个分块存放于第一存储池指向的存储池中，所述的第二存储池指向后续分块对应存储策略的存储池，所述的后续分块存放于第二存储池指向的存储池中。

4.根据权利要求3所述的一种基于自适应存储冗余策略的存储方法，其特征在于，所述的条带化存储方式具体包括以下步骤：

5.根据权利要求4所述的一种基于自适应存储冗余策略的存储方法，其特征在于，所述的第一个分块的元数据信息中包含后续分块的存储冗余策略信息。

6.根据权利要求5所述的一种基于自适应存储冗余策略的存储方法，其特征在于，所述的数据写入步骤具体包括：

所述的数据读取步骤具体包括：

7.根据权利要求2所述的一种基于自适应存储冗余策略的存储方法，其特征在于，所述的步骤S101具体包括：执行部署步骤，设置第一个分块和后续分块的最大容量，并设定第一个分块和后续分块均采用副本冗余策略，所述的步骤S103具体包括：集群规模扩展，再次执行部署步骤，设定后续分块采用纠删码冗余策略。

8.根据权利要求7所述的一种基于自适应存储冗余策略的存储方法，其特征在于，所述的步骤S103中，还包括将第一个分块的最大容量设置为0。

9.根据权利要求2所述的一种基于自适应存储冗余策略的存储方法，其特征在于，所述的步骤S201中，将第一个分块的最大容量设置为512KB，将后续分块的最大容量设置为4MB。

10.根据权利要求3所述的一种基于自适应存储冗余策略的存储方法，其特征在于，当第一个分块和后续分块采用的存储策略相同时，所述的第一存储池和第二存储池指向同一个存储池，所述的第一个分块和后续分块存放于同一个存储池中；当第一个分块和后续分块采用的存储策略不同时，所述的第一存储池和第二存储池指向不同的存储池，所述的第一个分块和后续分块存放于不同的存储池中。