CN107450855A

CN107450855A - 一种用于分布式存储的模型可变的数据分布方法及系统

Info

Publication number: CN107450855A
Application number: CN201710670838.5A
Authority: CN
Inventors: 窦伟平
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2017-08-08
Filing date: 2017-08-08
Publication date: 2017-12-08
Anticipated expiration: 2037-08-08
Also published as: CN107450855B

Abstract

本发明公开了一种用于分布式存储的模型可变的数据分布方法及系统，其实现过程为：首先在集群中建立若干虚拟节点，每个虚拟节点均有对应的数据副本；构建数学模型，产生虚拟节点到实际硬盘的映射集合；建立评价函数，通过该评价函数评价虚拟节点到实际硬盘的映射集合在数据平衡性和数据迁移量的情况，并输出一个评价值；根据评价值，获取所有映射集合中的最优集合，将待存储数据存储在该映射集合中虚拟节点对应的硬盘中。该用于分布式存储的模型可变的数据分布方法及系统与现有技术相比，应用到分布式存储系统中，增加了数据分布均衡性；降低了分布式存储结构改变时数据迁移的网络和硬盘压力；支持复杂的故障域约束，降低数据丢失概率。

Description

一种用于分布式存储的模型可变的数据分布方法及系统

技术领域

本发明涉及服务器集群技术领域，具体地说是一种实用性强、用于分布式存储的模型可变的数据分布方法及系统。

背景技术

随着过去几十年互联网技术的发展，越来越多的互联网应用需要存储海量数据，比如搜索引擎和互联网视频网站，这些需求催生了一系列优秀的大规模分布式存储技术。最近几年，在云计算，大数据的情境下，对数据的存储量，存储持久性，可用性，及存储横向扩展能力都有了新的要求，使用分布式存储技术来满足云计算和大数据的存储需要成为业界的趋势。无疑，对分布式存储系统的研究和改进在当今是十分重要的。

分布式存储系统数据存储在不同的节点中，并且同一份数据按照重要程度一般会存多份副本。这就要求有一个良好的算法可以将数据及其副本分配到合理的节点中。数据分配过程中，比较重要的3个考虑因素为：

数据的均衡性，即单个节点所存储的数据量与节点能力成正比；

节点变化时数据的迁移量；

副本的故障域隔离。

目前业界经典的分配算法是一致性hash环和CRUSH算法均无法同时满足上述3点。基于此，亟需一种能够同时满足数据分布的上述3点要求，又有模型可变，可不断优化和改进算法逻辑的技术。

发明内容

本发明的技术任务是针对以上不足之处，提供一种实用性强、用于分布式存储的模型可变的数据分布方法及系统。

一种用于分布式存储的模型可变的数据分布方法，其实现过程为：

首先在集群中建立若干虚拟节点，每个虚拟节点均有对应的数据副本；

构建数学模型，产生虚拟节点到实际硬盘的映射集合；

建立评价函数，通过该评价函数评价虚拟节点到实际硬盘的映射集合在数据平衡性和数据迁移量的情况，并输出一个评价值；

根据评价值，获取所有映射集合中的最优集合，将其作为真正的映射集合，将待存储数据存储在该映射集合中虚拟节点对应的硬盘中。

构建数学模型的过程为：首先对待存储数据对象名称的hash值对虚拟节点数取模，并将数据映射到一个虚拟节点上，所述取模是指取余数操作，即将待存储数据对象名称hash过后，得到一个定长数字，该数字除以虚拟节点总数，得到一个余数，该余数用于确定对应的虚拟节点，且每个虚拟节点依据本身的副本数映射到对应数量的实际硬盘上。

虚拟节点到实际硬盘的映射依据约束条件随机生成后，所述约束条件是指副本存放位置的约束限定。

在集群中还建立有任务调度器，该任务调度器用于将运行数学模型的计算任务分发到集群中的不同服务器上，并设立一个返回时间或者是目标评价值。

当任务调度器分发带有返回时间的任务时，各个服务器在返回时间内运行计算数学模型的任务，产生映射集合并运行评价函数，保留评价值最高的映射集合，并在返回时间到达时返回给任务调度器最优映射集合，由任务调度器选择所有返回集合中的最优集合作为最终结果。

当任务调度器分发带有返回目标评价值的任务时，各个服务器在IO请求低于设定阈值的情况下，运行计算数学模型的任务，产生映射集合并运行评价函数，保留评价值最高的映射集合，并在产生了比目标评价值高的集合时，返回该集合，由任务调度器选择所有返回集合中的最优集合作为最终结果。

一种用于分布式存储的模型可变的数据分布系统，基于由若干服务器节点组成的服务器集群，在集群中还配置有任务调度器、评价模块和存储模块，其中：

任务调度器用于将计算任务分发到服务器节点中；

评价模块用于完成任务调度器安排的计算任务，并针对计算任务输出对应的评价值；

存储模块用于根据评价值，存储获取所有映射集合中的最优集合。

所述任务调度器配置有奇数个且该任务调度器采用系统监控进程实现，并负责维护所有服务器节点和硬盘的状态信息，该状态信息包括容量、是否在线；该任务调度器用于将计算任务分发到集群中的不同服务器节点上，在计算任务完成后，汇总结果并通过评价模块输出评价值。

所述评价模块中配置有worker进程和调度函数，其中：

worker进程用于根据任务调度器安排的任务，实际计算分布映射集合；对所受到的任务进行优先级排序；运行评价函数；

调度函数在服务器节点收到计算任务并计算相应任务时，评价虚拟节点到实际硬盘的映射集合在数据平衡性和数据迁移量的情况，并输出一个评价值。

所述存储模块采用存储进程实现，每个服务器节点上的一个硬盘对应一个存储进程，该存储进程还可处理数据的io请求，且该存储进程为storage进程。

本发明的一种用于分布式存储的模型可变的数据分布方法及系统，具有以下优点：

本发明的一种用于分布式存储的模型可变的数据分布方法及系统，应用到分布式存储系统中，增加了数据分布均衡性；降低了分布式存储结构改变时数据迁移的网络和硬盘压力；支持复杂的故障域约束，降低数据丢失概率，实用性强，适用范围广泛，易于推广。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1为本发明数据分布映射集合生成系统具体实施框架图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

构建数学模型，产生虚拟节点到实际硬盘的映射集合；

虚拟节点到实际节点的映射，本方案并不采用固定的算法生成，而是采用依据约束条件随机生成后，再进行评价取优的方式来决定。将所有的虚拟节点与实际硬盘的映射关系称作一个映射集合，每次计算都大概率产生不同的映射集合。生成映射集合的过程可随时跟进需求调整，即计算模型是可变的。将产生映射集合的计算任务分配到分布式集群不同节点，进行并行计算，最后求出所有映射集合中的最优集合作为真正的映射集合并分发到集群所有节点执行。

详细技术方案如下：

1)设集群中实际硬盘数为H，实际服务器数为N，虚拟节点数为V，数据副本数为R，并且副本存放位置有约束条件，比如不同副本必须放在不同的rack中。

2)建立一个数学模型M（含有副本约束条件，即产生的结果符合副本约束条件）：首先对待存储数据对象名称的hash值对虚拟节点数取模，并将数据映射到一个虚拟节点上，所述取模是指取余数操作，即将待存储数据对象名称hash过后，得到一个定长（数字不固定，位数固定，比如都有10个数字）的数字，该数字除以虚拟节点总数，得到一个余数，该余数用于确定对应的虚拟节点，且每个虚拟节点依据本身的副本数映射到对应数量的实际硬盘上。

根据目前集群的在线节点和硬盘的情况，产生虚拟节点到实际硬盘的映射集合:就是获得虚拟节点到实际硬盘映射关系的计算，比如虚拟节点1对应的硬盘为1号，10号，20号硬盘，虚拟节点2对应的硬盘为3号11号19号硬盘……每个虚拟节点都会有它的对应的硬盘，将所有虚拟节点与硬盘的对应关系看做一个集合，即映射集合（每个元素是一个对应关系）。具体的计算过程，可以根据实际情况进行替换，实际操作时只需根据自己的需要任意填一个算法进去，通过所述方法搭建起来的集群，数据分布的方式可以随实际需要不断的进行优化。现今通常的方法，是集群的数据分布方式被固定了，虽然也可以根据情况进行一定范围调整，但是可调整的程度远远不够。

3)建立一个评价函数P，评价虚拟节点到实际硬盘的映射集合在数据平衡性和数据迁移量的情况，并输出一个评价值，评价值越高越好。

评价函数是不限定的、可变的。评价的因素有很多个，比如平衡性，数据迁移量怎么样，也可以加上实际使用者认为重要的评价指标。实际中可以这样构建，平衡性计算：每个硬盘上的数据量减去完全平均时的数据量，求绝对值，再求和。数据迁移量就是本次分布跟上次分布相比，数据的迁移总量。然后规定一个平衡性和迁移量的上限，高于上限直接丢弃。所有低于上限的映射集合，将平衡性和数据迁移量相加，得到的数小的映射集合胜出。

4)建立一个任务调度器，将运行数学模型M的计算任务分发到集群中的不同服务器上，并设立一个返回时间或者是目标评价值。

5)如果是带有返回时间的任务，各个服务器在返回时间内，保留存储IO所需要的CPU能力的前提下，尽量多的运行计算模型M的任务，产生映射集合并运行评价函数P，保留评价值最高的映射集合，并在返回时间到达时返回给任务调度器最优映射集合，由任务调度器选择所有返回集合中的最优集合作为最终结果。

上述尽量多的运行，是指在不影响本机存储任务的情况下的尽量多的运行。这主要是消耗一些cpu资源，比如本机存储任务大概消耗6个核的计算资源。本机有12个核，那么另外6个核就可以满载运行任务。但是实际中也不必达到上限，留点余量，比如分配3个核的资源。同时监控本机状态，如果有特殊情况导致其他任务cpu占用量变多，此计算任务可暂停。此时的评价函数同上面的评价函数。评价函数，在集群初始化时，只考虑平衡性。后面都要考虑平衡性和迁移量。

6) 如果是带有目标评价值得任务，各个服务器在IO请求低于设定阈值的情况下，保留IO处理所需要的CPU资源，尽量多的运行计算模型M的任务，产生映射集合并运行评价函数P，保留评价值最高的映射集合，并在产生了比目标评价值高的集合时，返回该集合。由任务调度器选择所有返回集合中的最优集合作为最终结果。

7)集群初始化时，任务调度器可以下发带时间或者带评价值的计算任务，由实际情况人为决定。

8)集群有计划的扩容或减配时，任务调度器可以下发带时间或者带评价值的计算任务，由实际情况人为决定。

9) 集群出现意外变动，比如节点掉线，硬盘损坏，任务调度器下发带时间的求最优集合任务。若在此时间内，损坏可以修复，则位置原映射不变。超过时间按照5）中所述情况处理。

10)集群无任何变动时，可以进行模拟变动的预案计算，将集群最容易出现的情况，如一个硬盘坏，一个节点掉线等情况，提前进行准备，计算一旦出现此种情况，映射集合的改变并保存备用。

11)映射集合的按照虚拟节点的线性编号存储在地址连续的内存区域内，数据存取时，只需要根据hash取模后得到的虚拟节点编号，再加上一个固定的常数偏移，就可以得到虚拟节点到实际节点的映射信息的位置，速度很快。并且经估算，一个1000个服务器，每个服务器上10到20个硬盘的集群，映射集合所需要的内存量与服务器上的总内存量相比可以忽略不计。

12)目前正在用的映射集合和对应的集群节点和硬盘的在线状态，在每个节点落盘保存，以防意外丢失而无法找到数据间的对应关系。

本发明所用方法，进行数据分布时利用的是存储好的映射关系集合，对如何产生这个集合并不关心。相比已有的方法，对产生映射集合的算法的时间复杂度要求大大降低，可以使用更复杂的算法来保证映射集合的良好特性。在此宽松的条件下，若在生成集合时考虑到每个硬盘上的已经映射的虚拟节点数，作者已经设计出一个简单的随机模型M，同时保证数据分布均衡，数据迁移量可达到理论最低值，并满足复杂的副本约束条件。同时，产生映射集合的算法是可变的，这就给此方法的优化提供了很大的空间。

任务调度器用于将计算任务分发到服务器节点中；

所述评价模块中配置有worker进程和调度函数，其中：

如图1，本发明中数据分布映射集合生成系统的架构描述如下：

设立奇数个系统监控进程MON(Monitor)，负责维护所有节点和硬盘的状态信息（容量，是否在线等）。通过Paxos算法交换信息。并由MON进程充当前文所述的任务调度器角色，负责：

在系统初始化，系统增减配置，系统因故障等原因时，向worker下发计算任务。

生成常见集群变动场景，生成变动预案计算任务，下发给worker。

汇总结果，运行评价函数，优选出最佳映射集合。并将此集合的id扩散给存储节点。

每个服务器上有一个worker进程，负责：

完成调度器安排的任务，实际计算分布映射集合。

运行评价函数，求出局部最优映射并返回给调度器。

对所受到的任务进行优先级排序。

监视本服务器上的剩余计算资源，选用合适的资源执行任务。

每个服务器上的一个硬盘对应一个storage进程，负责：

1)处理数据的io请求。

2)按照一定的规则压缩并传递最优映射集合的实体。

本发明提供的系统用存储好的映射关系集合代替固定的预设算法，可同时保证数据分布均衡，数据迁移量可达到理论最低值，并满足复杂的副本约束条件。并且，产生映射集合的算法是可变的，使得此方法后续可以根据场景不同进一步优化。采用这种系统，与目前常用方式相比，可提高分布式存储系统的性能，降低数据丢失概率。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种用于分布式存储的模型可变的数据分布方法及系统的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种用于分布式存储的模型可变的数据分布方法，其特征在于，其实现过程为：

构建数学模型，产生虚拟节点到实际硬盘的映射集合；

2.根据权利要求1所述的一种用于分布式存储的模型可变的数据分布方法，其特征在于，构建数学模型的过程为：首先对待存储数据对象名称的hash值对虚拟节点数取模，并将数据映射到一个虚拟节点上，所述取模是指取余数操作，即将待存储数据对象名称hash过后，得到一个定长数字，该数字除以虚拟节点总数，得到一个余数，该余数用于确定对应的虚拟节点，且每个虚拟节点依据本身的副本数映射到对应数量的实际硬盘上。

3.根据权利要求1所述的一种用于分布式存储的模型可变的数据分布方法，其特征在于，虚拟节点到实际硬盘的映射依据约束条件随机生成后，所述约束条件是指副本存放位置的约束限定。

4.根据权利要求1所述的一种用于分布式存储的模型可变的数据分布方法，其特征在于，在集群中还建立有任务调度器，该任务调度器用于将运行数学模型的计算任务分发到集群中的不同服务器上，并设立一个返回时间或者是目标评价值。

5.根据权利要求4所述的一种用于分布式存储的模型可变的数据分布方法，其特征在于，当任务调度器分发带有返回时间的任务时，各个服务器在返回时间内运行计算数学模型的任务，产生映射集合并运行评价函数，保留评价值最高的映射集合，并在返回时间到达时返回给任务调度器最优映射集合，由任务调度器选择所有返回集合中的最优集合作为最终结果。

6.根据权利要求4所述的一种用于分布式存储的模型可变的数据分布方法，其特征在于，当任务调度器分发带有返回目标评价值的任务时，各个服务器在IO请求低于设定阈值的情况下，运行计算数学模型的任务，产生映射集合并运行评价函数，保留评价值最高的映射集合，并在产生了比目标评价值高的集合时，返回该集合，由任务调度器选择所有返回集合中的最优集合作为最终结果。

7.一种用于分布式存储的模型可变的数据分布系统，其特征在于，基于由若干服务器节点组成的服务器集群，在集群中还配置有任务调度器、评价模块和存储模块，其中：

任务调度器用于将计算任务分发到服务器节点中；

8.根据权利要求7所述的一种用于分布式存储的模型可变的数据分布系统，其特征在于，所述任务调度器配置有奇数个且该任务调度器采用系统监控进程实现，并负责维护所有服务器节点和硬盘的状态信息，该状态信息包括容量、是否在线；该任务调度器用于将计算任务分发到集群中的不同服务器节点上，在计算任务完成后，汇总结果并通过评价模块输出评价值。

9.根据权利要求7所述的一种用于分布式存储的模型可变的数据分布系统，其特征在于，所述评价模块中配置有worker进程和调度函数，其中：

10.根据权利要求7所述的一种用于分布式存储的模型可变的数据分布系统，其特征在于，所述存储模块采用存储进程实现，每个服务器节点上的一个硬盘对应一个存储进程，该存储进程还可处理数据的io请求，且该存储进程为storage进程。