CN111930685A - 基于ceph的元素选择方法、装置、服务器及存储介质 - Google Patents

基于ceph的元素选择方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111930685A
CN111930685A CN202010992416.1A CN202010992416A CN111930685A CN 111930685 A CN111930685 A CN 111930685A CN 202010992416 A CN202010992416 A CN 202010992416A CN 111930685 A CN111930685 A CN 111930685A
Authority
CN
China
Prior art keywords
crush
item
bucket
random number
hash input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010992416.1A
Other languages
English (en)
Other versions
CN111930685B (zh
Inventor
胡玉晟
龚立义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baike Data Technology Shenzhen Co ltd
Original Assignee
Baike Data Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baike Data Technology Shenzhen Co ltd filed Critical Baike Data Technology Shenzhen Co ltd
Priority to CN202010992416.1A priority Critical patent/CN111930685B/zh
Publication of CN111930685A publication Critical patent/CN111930685A/zh
Application granted granted Critical
Publication of CN111930685B publication Critical patent/CN111930685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/58Random or pseudo-random number generators
    • G06F7/582Pseudo-random number generators

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于CEPH的元素选择方法、装置、设备及存储介质,其中,所述方法包括:计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r;将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。

Description

基于CEPH的元素选择方法、装置、服务器及存储介质
技术领域
本发明涉及分布式数据库技术领域,尤其涉及一种基于CEPH的元素选择方法、装置、设备及存储介质。
背景技术
Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。ceph摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。并考虑了容灾域的隔离,能够实现各类负载的副本放置规则,例如跨机房、机架感知等。能够支持上千个存储节点的规模,支持TB到PB级的数据。
传统的分布式存储系统ceph将数据切割为固定大小的对象,Ceph使用Bucket将系统的存储资源按照层级结构组织完成两个目标:映射算法的高效性和可扩展性,以及当集群状态发生变化时(比如设备的增加或者删除)数据的迁移量要尽可能的少。
CEPH采用Crush(Controlled Replication Under Scalable Hashing)算法,使得数据的存储位置都是计算出来的而不是去查询专门的元数据服务器得来的。CRUSH共定义了四种bucket类型(Uniform Bucket、List Bucket、Tree Bucket、Straw Bucket)。其中,uniform,tree和list拥有较快的计算速度,但面对集群资源的变动时,使用这三种算法会带来较多非必要的数据迁移。因此,通常采用Straw类型来实现数据存储分布。当CRUSH在执行规则时,依据集群的CRUSH map,利用bucket节点所设定的伪随机算法选出一个该bucket下的item。示例性的,其将bucket算法的输入值x与该item编号一起输入rjenkins1哈希算法得到输出值,选取最大数值对应的item作为选中的项目。
在实现本发明的过程中,发明人发现如下技术问题:上述straw算法在数据迁移问题上的表现虽然更优秀,但其计算过程复杂,致使时间复杂度较高,在对集群性能有较高要求时很难达到相应的需求。
发明内容
本发明实施例提供了一种基于CEPH的元素选择方法、装置、服务器备及存储介质,以解决现有技术中无法针对特定存储池对OSD进行均衡分布item的技术问题。
第一方面,本发明实施例提供了一种基于CEPH的元素选择方法,包括:
计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r;
将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;
计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。
第二方面,本发明实施例还提供了一种基于CEPH的多存储池的数据分布装置,包括:
计算模块,用于计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r;
伪随机数生成模块,用于将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;
选择模块,用于计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例提供的基于CEPH的元素选择方法方法。
第四方面,本发明实施例还提供了包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于CEPH的元素选择方法。
本发明实施例提供的基于CEPH的元素选择方法、装置、服务器及存储介质,通过计算CRUSH_HASH输入参数的乘积结果,并将乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。利用MT19937算法可以有效减少计算的时间复杂度,并且考虑到所对应的item的权重比值的乘积,可以在原有方式的基础上,实现对应bucket中所有item中的负载均衡。在数据迁移上表现更加优秀。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的基于CEPH的元素选择方法的流程示意图;
图2是本发明实施例二提供的基于CEPH的元素选择方法的流程示意图;
图3是本发明实施例三提供的基于CEPH的多存储池的数据分布装置的结构示意图;
图4是本发明实施例四提供的服务器的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的基于CEPH的元素选择方法的流程图,本实施例可适用于对CEPH分布式数据库中的元素进行选择的情况,该方法可以由基于CEPH的多存储池的数据分布装置来执行,并可集成于ceph服务器中,具体包括如下步骤:
S110,计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r。
在ceph分布式数据库中,bucket用来表示层级结构的中间节点,叶子节点就是对应的OSD。每一种类型的bucket使用不同的数据结构来组织它包含的内容,可以是其他Bucket或者OSD。
在ceph分布式数据库中,osd相当于PG的实体存储单元,根据CRUSH算法实现对item对应的OSD或者对应的OSD集合的选中。
在常规的Straw算法中,其具体可以通过如下公式体现:
c(r,x)=MAX((Wi)*hash(x,r,i)),其中Wi是item i的权重,i是item的id号,x为输入值,r为选择的次数。
由上述可以看出,x、r和i是重要的三个参数。在本实施例中所提供的基于CEPH的元素选择方法仍然需要上述三个参数来进行运算。
但在传统的Straw算法中,其采用对应的哈希算法得到相应的结果。由于哈希运算对应三个参数,其时间复杂度较高。因此,在本实施例中,首先计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r。
S120,将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item相对应的32位的伪随机数rand。
在CRUSH算法中,直接利用哈希算法对上述x、r和i三个参数进行哈希变换。通常采用rjenkins1 hash算法,以实现随机效果。但rjenkins1 hash算法是一种较为复杂,且运算量极大的一种哈希变换算法。因此,在本实施例中,可以将上述x、r和i乘积运算的结果作为输入,即随机数的种子。并利用MT19937算法生成与所述乘积运算结果对应的32位的伪随机数rand。MT19937算法利用线性反馈移位寄存器(LFSR)产生随机数。其具有随机性好,在计算机上容易实现,占用内存较少(mt19937的C程式码执行仅需624个字的工作区域),与其它已使用的伪随机数发生器相比,产生随机数的速度快、周期长,可达到2^19937-1,且具有623维均匀分布的优点。利用mt19937的上述优点,可以快速准确地生成伪随机数。
在本实施例中,由于需要从所述bucket中所有的item中选中其中一个进行数据分布,因此,对该述bucket包括的所有的每个item生成一个32位的伪随机数rand。
S130,计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。
在CEPH分布式数据库中,所述item对应设有权重,该权重值可以由下层的所有OSD或者其他叶子节点的权重加和生成。所述权重值可以用于体现所述item对应的实体存储部件的可存储空间。
与传统的CRUSH算法不同,在本实施例中,并不直接采用所述item的权重值,而是采用item的权重比值与上述步骤中得到的伪随机数相乘。示例性的,可以采用如下方式计算得到:
Figure 655950DEST_PATH_IMAGE002
其中,i表示item的编号,weight表示对应item在CRUSH map中的权重,weight_sum表示所述bucket下item的总权重。
与权重值相比,权重比值放大了表征不同item之间的可使用的存储空间的能力的差异程度,使得权重值较大的item更容易被选中,以使得所述bucket对应的数据在item中实现负载均衡。
本实施例通过计算CRUSH_HASH输入参数的乘积结果,并将乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。利用MT19937算法可以有效减少计算的时间复杂度,并且考虑到所对应的item的权重比值的乘积,可以在原有方式的基础上,实现对应bucket中所有item中的负载均衡。在数据迁移上表现更加优秀。
实施例二
图2为本发明实施例二提供的基于CEPH的元素选择方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,所述方法还可增加如下步骤:缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。
相应的,本实施例所提供的基于CEPH的元素选择方法,具体包括:
S210,计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r。
S220,将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand。
S230,计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。
S240,缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。
在本实施例中,可以缓存每次计算的x,r以及结果。采用上述步骤的目的是因为在之后的计算中,如果缓存中有与所述x值和r值相同的条目,不再重新计算,可以直接复用之前的计算结果。以进一步减少后续item选中过程的计算量。采用该种方式并不会让内存中存在大量的缓存数据,原因在于CRUSH是以pgp的编号作为输入bucket算法的x值,而对于存储池来说,pgp的数量是固定的,所以我们需要缓存的数据量也是固定的,可以为每个bucket预先分配一段连续的内存空间。通过每个bucket对应的存储空间存储,便于后续进行查找。
后续在接收CRUSH_HASH输入参数时,首先查找是否存在与所述CRUSH_HASH输入参数一致的缓存条目;在存在一致的缓存条目时,直接读取与所述CRUSH_HASH输入参数对应的选中结果作为本次的选中结果。在不存在一致的缓存条目下,再采用上述实施例提供的item分布方法进行计算。
示例性的,所述缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果,可以包括:
确定所述CRUSH_HASH输入参数的成绩结果对应的选中item的编号;
将所述CRUSH_HASH输入参数和与所述选中item的编号,以二维数组的形式保存在连续的内存中,所述x和r分别作为所述二维数组的下标,所述选中的item编号保存在下标对应的地址中。利用二维数组方式进行存储,形成矩阵,便于在已知x和r的情况下,存取缓存数据时按偏移寻址,效率高,便于快速查找到选中结果。二维数组的所有元素在初始化时被赋值为0xffffffff,表示没有缓存此条目。
此外,由于ceph数据库中,可能存在item被删除的情况,因此,在本实施例中,所述方法还可增加如下步骤:在所述bucket中的item被删除时,对所述item的编号进行保留,并对所述编号标记为空出。相应的,在所述bucket加入新的item时,将所述编号分配给新的item。采用上述方式的目的在于:是在之前计算L值的步骤中,其他item计算的L值不会变,在挑选L值最大的item时,只有本该选中被删除item的x和r,挑选的结果会发生变化。在CRUSH中,x即pgp编号,因此,只有原来分布在被删除item中的pgp需要被迁移;在添加item时,只会存在新增item上pgp的移入,几乎不会出现其他item之间pgp的移动,数据的迁移量被最小化。
此外,在集群资源发生变动时,即在CRUSH map中,有item被添加,删除,或有item的weight发生变化时,在上述缓存中删除对应的条目时,即将上述二维数组的所有元素赋初值0xffffffff。
在清空bucket的计算缓存时,将上述该bucket对应的二维数组的所有元素全部重新赋值为0xffffffff。
本实施例通过增加如下步骤:缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。可以在缓存中有与所述x值和r值相同的条目,不再重新计算,直接复用之前的计算结果。减少了item分布的运算量,进而进一步减少item分布的运算时长,进一步提升了ceph分布式数据库的效率。
实施例三
图3是本发明实施例三提供的基于CEPH的多存储池的数据分布装置的结构示意图,如图3所示,所述装置包括:
计算模块310,用于计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r;
伪随机数生成模块320,用于将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;
选择模块330,用于计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。
本实施例提供的基于CEPH的多存储池的数据分布装置,通过计算CRUSH_HASH输入参数的乘积结果,并将乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。利用MT19937算法可以有效减少计算的时间复杂度,并且考虑到所对应的item的权重比值的乘积,可以在原有方式的基础上,实现对应bucket中所有item中的负载均衡。在数据迁移上表现更加优秀。
在上述各实施例的基础上,所述选择模块,包括:
计算单元,所述计算单元用于计算所述伪随机数与其所对应的item的权重比值的乘积,采用如下方式计算:
Figure 956219DEST_PATH_IMAGE002
其中,i表示item的编号,weight表示对应item在CRUSH map中的权重,weight_sum表示所述bucket下item的总权重。
在上述各实施例的基础上,所述装置还包括:
缓存模块,用于缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。
在上述各实施例的基础上,所述装置还包括:
接收模块,用于接收CRUSH_HASH输入参数,查找是否存在与所述CRUSH_HASH输入参数一致的缓存条目;
缓存模块,用于在存在一致的缓存条目时,直接读取与所述CRUSH_HASH输入参数对应的选中结果作为本次的选中结果。
在上述各实施例的基础上,所述装置还包括:
保留模块,用于在所述bucket中的item被删除时,对所述item的编号进行保留,并对所述编号标记为空出。
在上述各实施例的基础上,所述装置还包括:
分配模块,用于在所述bucket加入新的item时,将所述编号分配给新的item。
在上述各实施例的基础上,所述缓存模块用于:
所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的选中结果,以二维数组的形式保存在连续的内存中,所述x和r分别作为所述二维数组的下标,所述选中的item编号保存在下标对应的地址中。
在上述各实施例的基础上,所述装置还包括:
重新赋值模块,用于在清空bucket的计算缓存时,将上述该bucket对应的二维数组的所有元素全部重新赋值为0xffffffff。
本发明实施例所提供的基于CEPH的多存储池的数据分布装置可执行本发明任意实施例所提供的基于CEPH的元素选择方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例七提供的一种服务器的结构示意图。图4示出了适于用来实现本发明实施方式的示例性服务器12的框图。图4显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于CEPH的元素选择方法。
实施例五
本发明实施例五还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的基于CEPH的元素选择方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种基于CEPH的元素选择方法,其特征在于,包括:
计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r;
将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;
计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。
2.根据权利要求1所述的方法,其特征在于,所述计算所述伪随机数与其所对应的item的权重比值的乘积,采用如下方式计算:
Figure 718269DEST_PATH_IMAGE001
其中,i表示item的编号,weight表示对应item在CRUSH map中的权重,weight_sum表示所述bucket下item的总权重。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
接收CRUSH_HASH输入参数,查找是否存在与所述CRUSH_HASH输入参数一致的缓存条目;
在存在一致的缓存条目时,直接读取与所述CRUSH_HASH输入参数对应的选中结果作为本次的选中结果。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在所述bucket中的item被删除时,对所述item的编号进行保留,并对所述编号标记为空出。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在所述bucket加入新的item时,将所述编号分配给新的item。
7.根据权利要求4所述的方法,其特征在于,所述缓存所述CRUSH_HASH输入参数和与所述CRUSH_HASH输入参数对应的乘积结果,包括:
确定所述CRUSH_HASH输入参数的成绩结果对应的选中item的编号;
将所述CRUSH_HASH输入参数和与所述选中item的编号,以二维数组的形式保存在连续的内存中,所述x和r分别作为所述二维数组的下标,所述选中的item的编号保存在下标对应的地址中。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
在清空bucket的计算缓存时,将所述bucket对应的二维数组的所有元素全部重新赋值为0xffffffff。
9.一种基于CEPH的元素选择装置,其特征在于,包括:
计算模块,用于计算CRUSH_HASH输入参数的乘积结果,所述CRUSH_HASH输入参数,包括:bucket的x、bucket的id和选择的次数r;
伪随机数生成模块,用于将所述乘积结果作为随机数种子,利用MT19937算法生成与所述bucket包括的item数量相对应的32位的伪随机数rand;
选择模块,用于计算所述伪随机数与其所对应的item的权重比值的乘积,根据所述乘积结果确定选中的item。
10.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的基于CEPH的元素选择方法。
11.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8任一所述的基于CEPH的元素选择方法。
CN202010992416.1A 2020-09-21 2020-09-21 基于ceph的元素选择方法、装置、服务器及存储介质 Active CN111930685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010992416.1A CN111930685B (zh) 2020-09-21 2020-09-21 基于ceph的元素选择方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010992416.1A CN111930685B (zh) 2020-09-21 2020-09-21 基于ceph的元素选择方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111930685A true CN111930685A (zh) 2020-11-13
CN111930685B CN111930685B (zh) 2021-02-26

Family

ID=73333956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010992416.1A Active CN111930685B (zh) 2020-09-21 2020-09-21 基于ceph的元素选择方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111930685B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296706A (zh) * 2021-05-27 2021-08-24 上海仪电(集团)有限公司中央研究院 一种Ceph系统数据清洗方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160330281A1 (en) * 2015-05-07 2016-11-10 Dell Products L.P. Systems and methods to improve read/write performance in object storage applications
CN106503237A (zh) * 2016-11-04 2017-03-15 郑州云海信息技术有限公司 一种pg成员选择方法、装置、存储池和分布式文件系统
CN107506437A (zh) * 2017-08-23 2017-12-22 郑州云海信息技术有限公司 一种基于crushmap结构的OSD选取方法及装置
CN107688625A (zh) * 2017-08-18 2018-02-13 郑州云海信息技术有限公司 一种基于分布式存储系统的存储小文件的方法及系统
CN111176894A (zh) * 2019-12-27 2020-05-19 柏科数据技术(深圳)股份有限公司 一种用于数据存储及数据灾备的存储分层技术
US10664169B2 (en) * 2016-06-24 2020-05-26 Cisco Technology, Inc. Performance of object storage system by reconfiguring storage devices based on latency that includes identifying a number of fragments that has a particular storage device as its primary storage device and another number of fragments that has said particular storage device as its replica storage device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160330281A1 (en) * 2015-05-07 2016-11-10 Dell Products L.P. Systems and methods to improve read/write performance in object storage applications
US10664169B2 (en) * 2016-06-24 2020-05-26 Cisco Technology, Inc. Performance of object storage system by reconfiguring storage devices based on latency that includes identifying a number of fragments that has a particular storage device as its primary storage device and another number of fragments that has said particular storage device as its replica storage device
CN106503237A (zh) * 2016-11-04 2017-03-15 郑州云海信息技术有限公司 一种pg成员选择方法、装置、存储池和分布式文件系统
CN107688625A (zh) * 2017-08-18 2018-02-13 郑州云海信息技术有限公司 一种基于分布式存储系统的存储小文件的方法及系统
CN107506437A (zh) * 2017-08-23 2017-12-22 郑州云海信息技术有限公司 一种基于crushmap结构的OSD选取方法及装置
CN111176894A (zh) * 2019-12-27 2020-05-19 柏科数据技术(深圳)股份有限公司 一种用于数据存储及数据灾备的存储分层技术

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SAMVEBN_7: "C++:rand()随机数和MT9937随机数", 《HTTPS://BLOG.CSDN.NET/QQ_42780289/ARTICLE/DETAILS/91348748》 *
TWEET: "Buckets, Capacity, and Load Factor", 《HTTPS://WWW.MODERNESCPP.COM/INDEX.PHP/BUCKETS-CAPACITY-AND-LOAD-FACTOR》 *
穆彦良: "Ceph存储技术中CRUSH算法的研究与改进", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296706A (zh) * 2021-05-27 2021-08-24 上海仪电(集团)有限公司中央研究院 一种Ceph系统数据清洗方法、装置、设备及介质
CN113296706B (zh) * 2021-05-27 2024-04-09 上海仪电(集团)有限公司中央研究院 一种Ceph系统数据清洗方法、装置、设备及介质

Also Published As

Publication number Publication date
CN111930685B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
US9052824B2 (en) Content addressable stores based on sibling groups
US8543782B2 (en) Content-based, compression-enhancing routing in distributed, differential electronic-data storage systems
US10592532B2 (en) Database sharding
CN111930317B (zh) 基于ceph数据分布方法、装置、服务器及存储介质
US9110917B2 (en) Creating a file descriptor independent of an open operation
CN106570113B (zh) 一种海量矢量切片数据云存储方法及系统
Dehne et al. Efficient external memory algorithms by simulating coarse-grained parallel algorithms
CN111930713B (zh) Ceph放置组的分配方法、装置、服务器及存储介质
US11222258B2 (en) Load balancing for memory channel controllers
US7788201B2 (en) Method, system, and program product for dispatching an event to a rule using key-value pair
CN111930685B (zh) 基于ceph的元素选择方法、装置、服务器及存储介质
US7505997B1 (en) Methods and apparatus for identifying cached objects with random numbers
US11375013B2 (en) Deterministic mapping and uniform routing of items to physical resources using hash values
US20100011038A1 (en) Distributed storage managing apparatus, distributed storage managing method, and computer product
CN113574518A (zh) 用于减少高速缓存内存占用的高速缓存对象的内存式规范化
Nimako et al. Chunked extendible dense arrays for scientific data storage
CN112084141A (zh) 一种全文检索系统扩容方法、装置、设备及介质
KR102338756B1 (ko) 블록 데이터를 공유하는 블록체인 네트워크의 시뮬레이션 방법 및 이를 이용하는 시스템
US11797564B2 (en) System and method for data registration
Li et al. Distributed nosql storage for extreme-scale system services
Patra et al. Efficient parallel adaptive finite element methods using self-scheduling data and computations
Sahin Memory optimizations for distributed executors in big data clouds
Subero et al. Linear Data Structures
Volikas et al. An Experimental Evaluation of Distributed Push Relabel in Giraph
Sheng et al. Research on the parallel frequent data mining strategy under the cloud computing environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant