CN111930685A

CN111930685A - 基于ceph的元素选择方法、装置、服务器及存储介质

Info

Publication number: CN111930685A
Application number: CN202010992416.1A
Authority: CN
Inventors: 胡玉晟; 龚立义
Original assignee: Baike Data Technology Shenzhen Co ltd
Current assignee: Baike Data Technology Shenzhen Co ltd
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-11-13
Anticipated expiration: 2040-09-21
Also published as: CN111930685B

Abstract

本发明实施例公开了一种基于CEPH的元素选择方法、装置、设备及存储介质，其中，所述方法包括：计算CRUSH_HASH输入参数的乘积结果，所述CRUSH_HASH输入参数，包括：bucket的x、bucket的id和选择的次数r；将所述乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand；计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。

Description

基于CEPH的元素选择方法、装置、服务器及存储介质

技术领域

本发明涉及分布式数据库技术领域，尤其涉及一种基于CEPH的元素选择方法、装置、设备及存储介质。

背景技术

Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。ceph摒弃了传统的集中式存储元数据寻址的方案，采用CRUSH算法，数据分布均衡，并行度高。并考虑了容灾域的隔离，能够实现各类负载的副本放置规则，例如跨机房、机架感知等。能够支持上千个存储节点的规模，支持TB到PB级的数据。

传统的分布式存储系统ceph将数据切割为固定大小的对象，Ceph使用Bucket将系统的存储资源按照层级结构组织完成两个目标：映射算法的高效性和可扩展性，以及当集群状态发生变化时（比如设备的增加或者删除）数据的迁移量要尽可能的少。

CEPH采用Crush（Controlled Replication Under Scalable Hashing）算法,使得数据的存储位置都是计算出来的而不是去查询专门的元数据服务器得来的。CRUSH共定义了四种bucket类型（Uniform Bucket、List Bucket、Tree Bucket、Straw Bucket）。其中，uniform，tree和list拥有较快的计算速度，但面对集群资源的变动时，使用这三种算法会带来较多非必要的数据迁移。因此，通常采用Straw类型来实现数据存储分布。当CRUSH在执行规则时，依据集群的CRUSH map，利用bucket节点所设定的伪随机算法选出一个该bucket下的item。示例性的，其将bucket算法的输入值x与该item编号一起输入rjenkins1哈希算法得到输出值,选取最大数值对应的item作为选中的项目。

在实现本发明的过程中，发明人发现如下技术问题：上述straw算法在数据迁移问题上的表现虽然更优秀，但其计算过程复杂，致使时间复杂度较高，在对集群性能有较高要求时很难达到相应的需求。

发明内容

本发明实施例提供了一种基于CEPH的元素选择方法、装置、服务器备及存储介质，以解决现有技术中无法针对特定存储池对OSD进行均衡分布item的技术问题。

第一方面，本发明实施例提供了一种基于CEPH的元素选择方法，包括：

计算CRUSH_HASH输入参数的乘积结果，所述CRUSH_HASH输入参数，包括：bucket的x、bucket的id和选择的次数r；

将所述乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand；

计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。

第二方面，本发明实施例还提供了一种基于CEPH的多存储池的数据分布装置，包括：

计算模块，用于计算CRUSH_HASH输入参数的乘积结果，所述CRUSH_HASH输入参数，包括：bucket的x、bucket的id和选择的次数r；

伪随机数生成模块，用于将所述乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand；

选择模块，用于计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。

第三方面，本发明实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述实施例提供的基于CEPH的元素选择方法方法。

第四方面，本发明实施例还提供了包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于CEPH的元素选择方法。

本发明实施例提供的基于CEPH的元素选择方法、装置、服务器及存储介质，通过计算CRUSH_HASH输入参数的乘积结果，并将乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand；计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。利用MT19937算法可以有效减少计算的时间复杂度，并且考虑到所对应的item的权重比值的乘积，可以在原有方式的基础上，实现对应bucket中所有item中的负载均衡。在数据迁移上表现更加优秀。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例一提供的基于CEPH的元素选择方法的流程示意图；

图2是本发明实施例二提供的基于CEPH的元素选择方法的流程示意图；

图3是本发明实施例三提供的基于CEPH的多存储池的数据分布装置的结构示意图；

图4是本发明实施例四提供的服务器的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的基于CEPH的元素选择方法的流程图，本实施例可适用于对CEPH分布式数据库中的元素进行选择的情况，该方法可以由基于CEPH的多存储池的数据分布装置来执行，并可集成于ceph服务器中，具体包括如下步骤：

S110，计算CRUSH_HASH输入参数的乘积结果，所述CRUSH_HASH输入参数，包括：bucket的x、bucket的id和选择的次数r。

在ceph分布式数据库中，bucket用来表示层级结构的中间节点，叶子节点就是对应的OSD。每一种类型的bucket使用不同的数据结构来组织它包含的内容，可以是其他Bucket或者OSD。

在ceph分布式数据库中，osd相当于PG的实体存储单元，根据CRUSH算法实现对item对应的OSD或者对应的OSD集合的选中。

在常规的Straw算法中，其具体可以通过如下公式体现：

c(r，x)=MAX((Wi)*hash(x，r，i))，其中Wi是item i的权重，i是item的id号，x为输入值，r为选择的次数。

由上述可以看出，x、r和i是重要的三个参数。在本实施例中所提供的基于CEPH的元素选择方法仍然需要上述三个参数来进行运算。

但在传统的Straw算法中，其采用对应的哈希算法得到相应的结果。由于哈希运算对应三个参数，其时间复杂度较高。因此，在本实施例中，首先计算CRUSH_HASH输入参数的乘积结果，所述CRUSH_HASH输入参数，包括：bucket的x、bucket的id和选择的次数r。

S120，将所述乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item相对应的32位的伪随机数rand。

在CRUSH算法中，直接利用哈希算法对上述x、r和i三个参数进行哈希变换。通常采用rjenkins1 hash算法，以实现随机效果。但rjenkins1 hash算法是一种较为复杂，且运算量极大的一种哈希变换算法。因此，在本实施例中，可以将上述x、r和i乘积运算的结果作为输入，即随机数的种子。并利用MT19937算法生成与所述乘积运算结果对应的32位的伪随机数rand。MT19937算法利用线性反馈移位寄存器(LFSR)产生随机数。其具有随机性好，在计算机上容易实现，占用内存较少(mt19937的C程式码执行仅需624个字的工作区域)，与其它已使用的伪随机数发生器相比，产生随机数的速度快、周期长，可达到2^19937-1，且具有623维均匀分布的优点。利用mt19937的上述优点，可以快速准确地生成伪随机数。

在本实施例中，由于需要从所述bucket中所有的item中选中其中一个进行数据分布，因此，对该述bucket包括的所有的每个item生成一个32位的伪随机数rand。

S130，计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。

在CEPH分布式数据库中，所述item对应设有权重，该权重值可以由下层的所有OSD或者其他叶子节点的权重加和生成。所述权重值可以用于体现所述item对应的实体存储部件的可存储空间。

与传统的CRUSH算法不同，在本实施例中，并不直接采用所述item的权重值，而是采用item的权重比值与上述步骤中得到的伪随机数相乘。示例性的，可以采用如下方式计算得到：

其中，i表示item的编号，weight表示对应item在CRUSH map中的权重，weight_sum表示所述bucket下item的总权重。

与权重值相比，权重比值放大了表征不同item之间的可使用的存储空间的能力的差异程度，使得权重值较大的item更容易被选中，以使得所述bucket对应的数据在item中实现负载均衡。

本实施例通过计算CRUSH_HASH输入参数的乘积结果，并将乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand；计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。利用MT19937算法可以有效减少计算的时间复杂度，并且考虑到所对应的item的权重比值的乘积，可以在原有方式的基础上，实现对应bucket中所有item中的负载均衡。在数据迁移上表现更加优秀。

实施例二

图2为本发明实施例二提供的基于CEPH的元素选择方法的流程示意图。本实施例以上述实施例为基础进行优化，在本实施例中，所述方法还可增加如下步骤：缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。

相应的，本实施例所提供的基于CEPH的元素选择方法，具体包括：

S210，计算CRUSH_HASH输入参数的乘积结果，所述CRUSH_HASH输入参数，包括：bucket的x、bucket的id和选择的次数r。

S220，将所述乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand。

S230，计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。

S240，缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。

在本实施例中，可以缓存每次计算的x，r以及结果。采用上述步骤的目的是因为在之后的计算中，如果缓存中有与所述x值和r值相同的条目，不再重新计算，可以直接复用之前的计算结果。以进一步减少后续item选中过程的计算量。采用该种方式并不会让内存中存在大量的缓存数据，原因在于CRUSH是以pgp的编号作为输入bucket算法的x值，而对于存储池来说，pgp的数量是固定的，所以我们需要缓存的数据量也是固定的，可以为每个bucket预先分配一段连续的内存空间。通过每个bucket对应的存储空间存储，便于后续进行查找。

后续在接收CRUSH_HASH输入参数时，首先查找是否存在与所述CRUSH_HASH输入参数一致的缓存条目；在存在一致的缓存条目时，直接读取与所述CRUSH_HASH输入参数对应的选中结果作为本次的选中结果。在不存在一致的缓存条目下，再采用上述实施例提供的item分布方法进行计算。

示例性的，所述缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果，可以包括：

确定所述CRUSH_HASH输入参数的成绩结果对应的选中item的编号；

将所述CRUSH_HASH输入参数和与所述选中item的编号，以二维数组的形式保存在连续的内存中，所述x和r分别作为所述二维数组的下标，所述选中的item编号保存在下标对应的地址中。利用二维数组方式进行存储，形成矩阵，便于在已知x和r的情况下，存取缓存数据时按偏移寻址，效率高，便于快速查找到选中结果。二维数组的所有元素在初始化时被赋值为0xffffffff，表示没有缓存此条目。

此外，由于ceph数据库中，可能存在item被删除的情况，因此，在本实施例中，所述方法还可增加如下步骤：在所述bucket中的item被删除时，对所述item的编号进行保留，并对所述编号标记为空出。相应的，在所述bucket加入新的item时，将所述编号分配给新的item。采用上述方式的目的在于：是在之前计算L值的步骤中，其他item计算的L值不会变，在挑选L值最大的item时，只有本该选中被删除item的x和r，挑选的结果会发生变化。在CRUSH中，x即pgp编号，因此，只有原来分布在被删除item中的pgp需要被迁移；在添加item时，只会存在新增item上pgp的移入，几乎不会出现其他item之间pgp的移动，数据的迁移量被最小化。

此外，在集群资源发生变动时，即在CRUSH map中，有item被添加，删除，或有item的weight发生变化时，在上述缓存中删除对应的条目时，即将上述二维数组的所有元素赋初值0xffffffff。

在清空bucket的计算缓存时，将上述该bucket对应的二维数组的所有元素全部重新赋值为0xffffffff。

本实施例通过增加如下步骤：缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。可以在缓存中有与所述x值和r值相同的条目，不再重新计算，直接复用之前的计算结果。减少了item分布的运算量，进而进一步减少item分布的运算时长，进一步提升了ceph分布式数据库的效率。

实施例三

图3是本发明实施例三提供的基于CEPH的多存储池的数据分布装置的结构示意图，如图3所示，所述装置包括：

计算模块310，用于计算CRUSH_HASH输入参数的乘积结果，所述CRUSH_HASH输入参数，包括：bucket的x、bucket的id和选择的次数r；

伪随机数生成模块320，用于将所述乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand；

选择模块330，用于计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。

本实施例提供的基于CEPH的多存储池的数据分布装置，通过计算CRUSH_HASH输入参数的乘积结果，并将乘积结果作为随机数种子，利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand；计算所述伪随机数与其所对应的item的权重比值的乘积，根据所述乘积结果确定选中的item。利用MT19937算法可以有效减少计算的时间复杂度，并且考虑到所对应的item的权重比值的乘积，可以在原有方式的基础上，实现对应bucket中所有item中的负载均衡。在数据迁移上表现更加优秀。

在上述各实施例的基础上，所述选择模块，包括：

计算单元，所述计算单元用于计算所述伪随机数与其所对应的item的权重比值的乘积，采用如下方式计算：

在上述各实施例的基础上，所述装置还包括：

缓存模块，用于缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。

在上述各实施例的基础上，所述装置还包括：

接收模块，用于接收CRUSH_HASH输入参数，查找是否存在与所述CRUSH_HASH输入参数一致的缓存条目；

缓存模块，用于在存在一致的缓存条目时，直接读取与所述CRUSH_HASH输入参数对应的选中结果作为本次的选中结果。

在上述各实施例的基础上，所述装置还包括：

保留模块，用于在所述bucket中的item被删除时，对所述item的编号进行保留，并对所述编号标记为空出。

在上述各实施例的基础上，所述装置还包括：

分配模块，用于在所述bucket加入新的item时，将所述编号分配给新的item。

在上述各实施例的基础上，所述缓存模块用于：

所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的选中结果，以二维数组的形式保存在连续的内存中，所述x和r分别作为所述二维数组的下标，所述选中的item编号保存在下标对应的地址中。

在上述各实施例的基础上，所述装置还包括:

重新赋值模块，用于在清空bucket的计算缓存时，将上述该bucket对应的二维数组的所有元素全部重新赋值为0xffffffff。

本发明实施例所提供的基于CEPH的多存储池的数据分布装置可执行本发明任意实施例所提供的基于CEPH的元素选择方法，具备执行方法相应的功能模块和有益效果。

实施例四

图4为本发明实施例七提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器12的框图。图4显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图4未显示，通常称为“硬盘驱动器”）。尽管图4中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM，DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的基于CEPH的元素选择方法。

实施例五

本发明实施例五还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于CEPH的元素选择方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种基于CEPH的元素选择方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述计算所述伪随机数与其所对应的item的权重比值的乘积，采用如下方式计算：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

接收CRUSH_HASH输入参数，查找是否存在与所述CRUSH_HASH输入参数一致的缓存条目；

在存在一致的缓存条目时，直接读取与所述CRUSH_HASH输入参数对应的选中结果作为本次的选中结果。

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

在所述bucket中的item被删除时，对所述item的编号进行保留，并对所述编号标记为空出。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述bucket加入新的item时，将所述编号分配给新的item。

7.根据权利要求4所述的方法，其特征在于，所述缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果，包括：

将所述CRUSH_HASH输入参数和与所述选中item的编号，以二维数组的形式保存在连续的内存中，所述x和r分别作为所述二维数组的下标，所述选中的item的编号保存在下标对应的地址中。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

在清空bucket的计算缓存时，将所述bucket对应的二维数组的所有元素全部重新赋值为0xffffffff。

9.一种基于CEPH的元素选择装置，其特征在于，包括：

10.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的基于CEPH的元素选择方法。

11.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的基于CEPH的元素选择方法。