CN111930713B - Ceph放置组的分配方法、装置、服务器及存储介质 - Google Patents

Ceph放置组的分配方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111930713B
CN111930713B CN202010992111.0A CN202010992111A CN111930713B CN 111930713 B CN111930713 B CN 111930713B CN 202010992111 A CN202010992111 A CN 202010992111A CN 111930713 B CN111930713 B CN 111930713B
Authority
CN
China
Prior art keywords
osd
affinity
placement group
storage
affinity value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010992111.0A
Other languages
English (en)
Other versions
CN111930713A (zh
Inventor
黄汝林
孟军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baike Data Technology Shenzhen Co ltd
Original Assignee
Baike Data Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baike Data Technology Shenzhen Co ltd filed Critical Baike Data Technology Shenzhen Co ltd
Priority to CN202010992111.0A priority Critical patent/CN111930713B/zh
Publication of CN111930713A publication Critical patent/CN111930713A/zh
Application granted granted Critical
Publication of CN111930713B publication Critical patent/CN111930713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种CEPH放置组的分配方法、装置、服务器及存储介质,其中,所述方法包括:读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应的存储能力;根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组。可以根据OSD实际的存储能力对放置组PG进行合理的分配。可以使现有的硬件资源按预期的方式被利用,能够满足不同用户在各自使用场景不同需求。

Description

CEPH放置组的分配方法、装置、服务器及存储介质
技术领域
本发明涉及分布式数据库技术领域,尤其涉及一种CEPH放置组的分配方法、装置、设备及存储介质。
背景技术
CEPH是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。CEPH摒弃了传统的集中式存储元数据寻址的方案,采用CRUSH算法,数据分布均衡,并行度高。并考虑了容灾域的隔离,能够实现各类负载的副本放置规则,例如跨机房、机架感知等。能够支持上千个存储节点的规模,支持TB到PB级的数据。
传统的分布式存储系统CEPH将数据切割为固定大小的对象,并引入PG(PlacementGroup)这一概念,PG是对象和OSD(Object Storage Device )之间的逻辑层,对象会根据其objectid映射到不同的PG,因此PG的分布方式也决定了数据的分布方式。
传统的分布式存储系统CEPH将数据切割为固定大小的对象,并引入PG(PlacementGroup)这一概念,PG是对象和OSD(Object Storage Device )之间的逻辑层,对象会根据其objectid映射到不同的PG,因此PG的分布方式也决定了数据的分布方式。现有的PG到OSD之间映射关系往往通过CRUSH MAP方式来确定,并进而确定数据的分布方式。
在实现本发明的过程中,发明人发现如下技术问题:CRUSH MAP通常只能按照OSD设备的数量根据一致性哈希分布原则进行分布,并未充分考虑到各个OSD的实际存储情况。无法满足不同用户在各自使用场景不同需求。
发明内容
有鉴于此,本发明实施例提供一种CEPH放置组的分配方法、装置、服务器和存储介质,以解决现有技术中CEPH分布式存储系统中放置组分配未考虑到各个OSD的实际存储情况,进而影响性能的技术问题。
第一方面,本发明实施例提供了一种CEPH放置组的分配方法,包括:
读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应的存储能力;
根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组。
第二方面,本发明实施例还提供了一种CEPH放置组的分配装置,包括:
读取模块,用于读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应的存储能力;
分配模块,用于根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例提供的CEPH放置组的分配方法方法。
第四方面,本发明实施例还提供了包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的CEPH放置组的分配方法。
本发明实施例提供的CEPH放置组的分配方法、装置、服务器和存储介质,通过读取每个OSD与待分配放置组对应的存储池的用于表示存储能力的亲和度值,根据亲和度值计算确定映射OSD,并将映射OSD分配至对应的放置组。可以根据OSD实际的存储能力对放置组PG进行合理的分配。可以使现有的硬件资源按预期的方式被利用,能够满足不同用户在各自使用场景不同需求。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的CEPH放置组的分配方法的流程示意图;
图2是本发明实施例二提供的CEPH放置组的分配方法的流程示意图;
图3是本发明实施例三提供的CEPH放置组的分配方法的流程示意图;
图4是本发明实施例四提供的CEPH放置组的分配装置的结构示意图;
图5是本发明实施例五提供的服务器的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的CEPH放置组的分配方法的流程示意图,本实施例可适用于在CEPH分布式系统中对放置组PG进行分配情况,该方法可以由CEPH放置组的分配装置来执行,并可集成于CEPH分布式数据库服务器中,具体包括如下步骤:
S110,读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应存储池的存储能力。
为了方便管理数据分布,系统首先会创建存储池,然后存储池都会划分成多个PG。
PG全称Placement Groups,中文译为放置组,是用于放置object的一个载体,PG的创建是在创建CEPH存储池的时候指定的,同时跟指定的副本数也有关系,比如是3副本的则会有3个相同的PG存在于3个不同的OSD上,PG其实在OSD的存在形式就是一个目录,在架构层次上,PG位于RADOS层的中间。引入PG这一层其实是为了更好的分配数据和定位数据。
OSD的英文全称是Object Storage Device,它的主要功能是存储数据、复制数据、平衡数据、恢复数据等,与其它OSD间进行心跳检查等,并将一些变化情况上报给CEPHMonitor。一般情况下一块硬盘对应一个OSD,由OSD来对硬盘存储进行管理,当然一个分区也可以成为一个OSD。
在本实施例中,预先设定每个OSD与每一个存储池的亲和度值,所述亲和度值用于表征所述OSD对应该存储池的存储能力。每个OSD的元数据中维护记录各存储池id到affinity值映射表。
可选的,所述亲和度可以用affinity表示。affinity值是0.0到1.0之间的浮点数,默认为1.0,当OSD状态异常时,其对应到所有存储池的affinity值将被设置为0.0,以避免PG被分配到非健康状态的OSD上。
在存储池进行PG分配时,先从上述表中读取该存储池对应到各OSD的affinity值,值越大的OSD越容易被分配到更多的PG。
示例性的,所述存储能力可以包括:针对该存储池的存储空间大小以及读写数据的速度。
S120,根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组。
在本实施例中,在读取到相应的亲和度值后,可以根据所述亲和度值、待分配PG的编号,以及所述待分配PG对应的存储池的PGP来确定对应分配的OSD。
在本实施例中,所述根据所述亲和度值确定映射OSD,可以包括:
将待分配放置组的编号和所述存储池的PGP进行按位与运算,并将运算的结果和存储池的编号作为哈希算法的输入值,计算得到PGP的编号;计算集群的每个OSD,将所述PGP编号分别与计算集群的每个OSD编号一起进行哈希计算得到一个32位的伪随机数,并将所述伪随机数与待分配放置组对应的存储池的亲和度值相乘,相乘结果值最大的对应的OSD作为所述待分配放置组的映射目标。
PGp相当于是PG存放OSD的一种排列组合。通过PG与PGP进行按位与运算,并将运算结果和存储池的编号作为哈希算法的输入值,通过哈希变换得到PGP的编号。所述哈希变换可以为RJENKINS1哈希算法。
在得到PGP的编号后,可以所述PGP编号分别与计算集群的每个OSD编号一起进行哈希计算得到一个32位的伪随机数。以保证PG分布能够满足一致性的分布要求。OSD
与CRUSH算法相比,在确定得到32位的伪随机数后,并不按照伪随机数的大小来确定对应的OSD,而是将伪随机数与待分配放置组对应的存储池的亲和度值相乘,选取相乘结果值最大值对应的OSD作为待分配放置组的映射目标。充分考虑到一致性分布和OSD性能的两方面因素,在保证一致性哈希分布的前提下,充分考虑到不同OSD的存储性能,能够根据适用场景的不同需求灵活进行配置。增强了CEPH分布式存储系统PG分配的灵活性。
本实施例通过读取每个OSD与待分配放置组对应的存储池的用于表示存储能力的亲和度值,根据亲和度值计算确定映射OSD,并将映射OSD分配至对应的放置组。可以根据OSD实际的存储能力对放置组PG进行合理的分配。可以使现有的硬件资源按预期的方式被利用,能够满足不同用户在各自使用场景不同需求。
实施例二
图2是本发明实施例二提供的CEPH放置组的分配方法的流程示意图,在本实施例中,所述方法还可增加如下步骤:调整所述OSD的亲和度。
相应的,本发明实施例提供的CEPH放置组的分配方法,包括:
S210,读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应存储池的存储能力。
S220,根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组。
S230,调整OSD的亲和度。
在完成PG对应的OSD分配存储后,映射OSD的存储能力相应的发生变化。明显的,在PG映射到OSD后,所述OSD的部分存储空间用于存储所述PG对应的数据,其实际可用存储空间已经减少。因此,需要对所述映射的OSD的亲和度进行调整。以使得所述映射的OSD的在完成PG运算后,其亲和度与实际的存储能力相对应,方便在下次PG分配时,根据每次PG映射OSD后的调整后的亲和度再次对PG进行分配。
可选的,可以预先设定亲和度调整值,并且在每次PG分配结束后,对对应的映射OSD的亲和度按照亲和度调整值进行调整。示例性的,调整后的亲和度可以为原有亲和度与所述亲和度调整值的差值。
本实施例通过增加如下步骤:调整映射OSD的亲和度。可以使得OSD对应存储池的的亲和度根据实际对应的存储情况进行随时调整,可以使得每个OSD的亲和度反映当前的存储情况,便于后续再次进行PG分配。
实施例三
图3是本发明实施例三提供的CEPH放置组的分配方法的流程示意图,本实施例以上述实施例为基础进行优化,将根据分配后的PG调整所述OSD的亲和度,具体优化为:计算整个池分配给单位容量的平均PG数avg_sum;计算OSD的单位容量的平均PG数avg_self;对avg_self大于avg_sum的OSD,对其对应的亲和度进行向下调整。
S310,读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应存储池的存储能力。
S320,根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组。
S330,计算整个存储池分配给单位容量的平均PG数avg_sum。
虽然通过可以上述实施例提供的各种方法对映射OSD的亲和度进行调整。但利用上述方法并不能够准确确定需要调整亲和度的OSD。但在本实施例中,所述亲和度不仅是自身存储能力的表征,更重要的是相应存储池对应存储的其它OSD之间的比较结果。因此,上述调整方式并未完全考虑与该存储池其它OSD,对存储池中PG的存储对应能力的比较结果。尤其是在后期进行迁移等过程中,会使得在后续PG分配过程中,存在着分配不合理的可能性。因此,在本实施例中,利用单位容量对应的PG数量来确定需要调整亲和度的OSD。
示例性的,所述avg_sum可以通过如下方式计算:将所有OSD对应的存储设备的总容量相加,得到容量总和,用对应存储池的PG数除以容量总和,计算得到整个池分配给单位容量的平均PG数avg_sum。
S340,计算OSD的单位容量的平均PG数avg_self。
可选的,可以通过如下方式计算OSD的单位容量的平均PG数,计算方式为对应存储池在该OSD上实际分配的PG数除以该OSD的容量。
S350,对avg_self大于avg_sum的OSD,对其对应的亲和度进行向下调整。
对于,avg_self大于avg_sum的OSD,其表明对该OSD而言,其单位容量对应的PG数大于该存储池中所有OSD单位存储容量对应的PG数,其对应该存储池的存储能力已经低于平均水平。因此,需要该OSD的亲和度向下调整,以降低作为PG映射OSD的可能性。
在本实施例中,可以按照如下方式对avg_self大于avg_sum的OSD的亲和度进行调整。
Figure 400153DEST_PATH_IMAGE001
即相当于新的affinity值等于avg_sum除以avg_self的商再乘以旧的affinity值。
通过上述方式可以avg_self高于avg_sum的OSD,被映射到的PG数量将会减少,从而使PG的分配更加平衡。
本实施例通过将根据分配后的PG调整所述OSD的亲和度,具体优化为:计算整个存储池分配给单位容量的平均PG数avg_sum;算OSD的单位容量的平均PG数avg_self;对avg_self大于avg_sum的OSD,对其对应的亲和度进行向下调整。可以根据上述方式选取PG分布后需要调整亲和度的OSD,并对所述OSD的权重值进行灵活调整。以实现针对OSD相对于指定的存储池根据存储能力的变化灵活进行分布的调整,以使得指定的存储池对应OSD的存储能力实现PG的灵活分布,使得指定存储池根据存储能力均衡分布PG。
实施例四
图4是本发明实施例四提供的CEPH放置组的分配装置的结构示意图,如图4所示,所述装置包括:
读取模块410,用于读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应的存储能力;
分配模块420,用于根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组。
本实施例提供的CEPH放置组的分配装置,通过读取每个OSD与待分配放置组对应的存储池的用于表示存储能力的亲和度值,根据亲和度值计算确定映射OSD,并将映射OSD分配至对应的放置组。可以根据OSD实际的存储能力对放置组PG进行合理的分配。可以使现有的硬件资源按预期的方式被利用,能够满足不同用户在各自使用场景不同需求。
在上述各实施例的基础上,所述装置还包括:
调整模块,用于调整所述映射OSD的亲和度。
在上述各实施例的基础上,所述分配模块,包括:
计算单元,用于将待分配放置组的编号和所述存储池的PGP进行按位与运算,并将运算的结果和存储池的编号作为哈希算法的输入值,计算得到PGP的编号;
映射目标作为单元,用于计算集群的每个OSD,将所述PGP编号分别与计算集群的每个OSD编号一起进行哈希计算得到一个32位的伪随机数,并将所述伪随机数与待分配放置组对应的存储池的亲和度值相乘,相乘结果值最大的对应的OSD作为所述待分配放置组的映射目标
在上述各实施例的基础上,所述调整模块,包括:
第一计算单元,用于计算整个池分配给单位容量的平均PG数avg_sum;
第二计算单元,用于计算OSD的单位容量的平均PG数avg_self;
调整单元,用于对avg_self大于avg_sum的OSD,对其对应的亲和度进行向下调整。
在上述各实施例的基础上,所述调整单元,用于:
利用如下方式调整亲和度:
Figure 469216DEST_PATH_IMAGE002
在上述各实施例的基础上,所述装置还包括:
初始化模块,用于在初始状态时,将每个OSD对应于指定存储池的affinity值初始化为相同值。
在上述各实施例的基础上,所述初始化模块,包括:
数值初始化单元,用于将同一类型的每个OSD对应于指定存储池的affinity值初始化为相同值;
调整单元,用于根据读写性能调整不同类型的每个OSD对应于指定存储池的affinity值。
在上述各实施例的基础上,所述读取模块,包括:
读取单元,用于读取每个OSD的元数据中维护记录各存储池id到affinity值映射表。
本发明实施例所提供的CEPH放置组的分配装置可执行本发明任意实施例所提供的CEPH放置组的分配方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器12的框图。图5显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的CEPH放置组的分配方法。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的CEPH放置组的分配方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种CEPH放置组的分配方法,其特征在于,包括:
读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应的存储能力;
根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组;
所述根据所述亲和度值确定映射OSD,包括:将待分配放置组的编号和所述存储池的PGP进行按位与运算,并将运算的结果和存储池的编号作为哈希算法的输入值,计算得到PGP的编号;
计算集群的每个OSD,将所述PGP编号分别与计算集群的每个OSD编号一起进行哈希计算得到一个32位的伪随机数,并将所述伪随机数与待分配放置组对应的存储池的亲和度值相乘,相乘结果值最大的对应的OSD作为所述待分配放置组的映射目标。
2.根据权利要求1所述的方法,其特征在于,在根据所述亲和度值确定映射OSD之后,所述方法还包括:
调整所述映射OSD的亲和度。
3.根据权利要求2所述的方法,其特征在于,所述调整所述OSD的亲和度,包括:
计算整个池分配给单位容量的平均PG数avg_sum;
计算OSD的单位容量的平均PG数avg_self;
对avg_self大于avg_sum的OSD,对其对应的亲和度进行向下调整。
4.根据权利要求3所述的方法,其特征在于,对avg_self大于avg_sum的OSD,对其对应的亲和度进行向下调整,包括:
Figure FDA0002827185020000021
所述affinity为亲和度。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在初始状态时,将每个OSD对应于指定存储池的affinity值初始化为相同值。
6.根据权利要求5所述的方法,其特征在于,所述将每个OSD对应于指定存储池的affinity值初始化为相同值,包括:
将同一类型的每个OSD对应于指定存储池的affinity值初始化为相同值;
根据读写性能调整不同类型的每个OSD对应于指定存储池的affinity值。
7.根据权利要求5所述的方法,其特征在于,所述读取每个OSD与待分配放置组对应的存储池的亲和度值,包括:
读取每个OSD的元数据中维护记录各存储池id到affinity值映射表。
8.一种CEPH放置组的分配装置,其特征在于,包括:
读取模块,用于读取每个OSD与待分配放置组对应的存储池的亲和度值,所述亲和度值用于表征所述OSD对应的存储能力;
分配模块,用于根据所述亲和度值确定映射OSD,将所述映射OSD对应分配至所述放置组;
所述分配模块,包括:
计算单元,用于将待分配放置组的编号和所述存储池的PGP进行按位与运算,并将运算的结果和存储池的编号作为哈希算法的输入值,计算得到PGP的编号;
映射目标作为单元,用于计算集群的每个OSD,将所述PGP编号分别与计算集群的每个OSD编号一起进行哈希计算得到一个32位的伪随机数,并将所述伪随机数与待分配放置组对应的存储池的亲和度值相乘,相乘结果值最大的对应的OSD作为所述待分配放置组的映射目标。
9.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的CEPH放置组的分配方法。
10.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的CEPH放置组的分配方法。
CN202010992111.0A 2020-09-21 2020-09-21 Ceph放置组的分配方法、装置、服务器及存储介质 Active CN111930713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010992111.0A CN111930713B (zh) 2020-09-21 2020-09-21 Ceph放置组的分配方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010992111.0A CN111930713B (zh) 2020-09-21 2020-09-21 Ceph放置组的分配方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN111930713A CN111930713A (zh) 2020-11-13
CN111930713B true CN111930713B (zh) 2021-02-02

Family

ID=73333874

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010992111.0A Active CN111930713B (zh) 2020-09-21 2020-09-21 Ceph放置组的分配方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111930713B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112817535B (zh) * 2021-02-03 2021-11-02 柏科数据技术(深圳)股份有限公司 一种归置组分配方法、装置以及分布式存储系统
CN114253482A (zh) * 2021-12-23 2022-03-29 深圳市名竹科技有限公司 数据储存方法、装置、计算机设备、存储介质
CN115080532B (zh) * 2022-07-22 2022-11-11 平安银行股份有限公司 Ceph系统的管理方法及基于ceph系统的终端
CN117119058B (zh) * 2023-10-23 2024-01-19 武汉吧哒科技股份有限公司 Ceph分布式存储集群中存储节点优化方法及相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991170A (zh) * 2017-04-01 2017-07-28 广东浪潮大数据研究有限公司 一种分布式文件容量均衡的方法与装置
CN109343798A (zh) * 2018-09-25 2019-02-15 郑州云海信息技术有限公司 对分布式存储系统的主pg均衡调整的方法、装置及介质
CN109799954A (zh) * 2018-12-19 2019-05-24 创新科存储技术(深圳)有限公司 实现ceph集群缓存的方法和osd
CN110231913A (zh) * 2018-03-05 2019-09-13 中兴通讯股份有限公司 数据处理方法、装置及设备、计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103905540A (zh) * 2014-03-25 2014-07-02 浪潮电子信息产业股份有限公司 基于两级哈希的对象存储数据分布机制
US10503587B2 (en) * 2017-06-30 2019-12-10 Intel Corporation Scrubbing disaggregated storage

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991170A (zh) * 2017-04-01 2017-07-28 广东浪潮大数据研究有限公司 一种分布式文件容量均衡的方法与装置
CN110231913A (zh) * 2018-03-05 2019-09-13 中兴通讯股份有限公司 数据处理方法、装置及设备、计算机可读存储介质
CN109343798A (zh) * 2018-09-25 2019-02-15 郑州云海信息技术有限公司 对分布式存储系统的主pg均衡调整的方法、装置及介质
CN109799954A (zh) * 2018-12-19 2019-05-24 创新科存储技术(深圳)有限公司 实现ceph集群缓存的方法和osd

Also Published As

Publication number Publication date
CN111930713A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN111930713B (zh) Ceph放置组的分配方法、装置、服务器及存储介质
CN111078147B (zh) 一种缓存数据的处理方法、装置、设备及存储介质
CN110737541B (zh) 分布式存储系统中分发数据的方法和系统
US10222985B2 (en) Autonomous dynamic optimization of platform resources
US9569457B2 (en) Data processing method and apparatus for distributed systems
CN111930317B (zh) 基于ceph数据分布方法、装置、服务器及存储介质
CN112346647B (zh) 数据存储方法、装置、设备和介质
US9389997B2 (en) Heap management using dynamic memory allocation
US20180335975A1 (en) Translating a host data storage command into multiple disk commands
US9823948B2 (en) Efficient resource utilization in data centers
US6574705B1 (en) Data processing system and method including a logical volume manager for storing logical volume data
US11704160B2 (en) Redistribution of processing groups between server nodes based on hardware resource utilization
US20180143773A1 (en) Maintaining quorum of storage objects in nested levels of a distributed storage system
CN111857559A (zh) 用于管理元数据的方法、装置和计算机程序产品
US8751739B1 (en) Data device spares
CN111104347B (zh) 堆内存块查找方法、装置、设备及存储介质
CN110780821A (zh) 分布式存储系统的优化方法、装置、服务器和存储介质
CN112748849A (zh) 用于存储数据的方法、设备和计算机程序产品
US10152234B1 (en) Virtual volume virtual desktop infrastructure implementation using a primary storage array lacking data deduplication capability
US20200167092A1 (en) Computer system and volume arrangement method in computer system
JP7431490B2 (ja) 階層型ストレージ管理システムにおけるデータ・マイグレーション
US10585622B2 (en) Data writing device and method
CN111414422A (zh) 一种数据分布方法、装置、设备和存储介质
US8966133B2 (en) Determining a mapping mode for a DMA data transfer
CN116324738A (zh) 管理和排序存储器资源

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant