CN109284220A - 集群故障恢复时长估算方法、装置、设备及存储介质 - Google Patents

集群故障恢复时长估算方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109284220A
CN109284220A CN201811193572.0A CN201811193572A CN109284220A CN 109284220 A CN109284220 A CN 109284220A CN 201811193572 A CN201811193572 A CN 201811193572A CN 109284220 A CN109284220 A CN 109284220A
Authority
CN
China
Prior art keywords
osd
cluster
duration
data
clustering fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811193572.0A
Other languages
English (en)
Other versions
CN109284220B (zh
Inventor
张立新
文静
张晓伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201811193572.0A priority Critical patent/CN109284220B/zh
Publication of CN109284220A publication Critical patent/CN109284220A/zh
Application granted granted Critical
Publication of CN109284220B publication Critical patent/CN109284220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种集群故障恢复时长估算方法,包括以下步骤:分别获取分布式存储集群发生故障前后的集群信息;基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;基于发生数据迁移的OSD与PG,估算集群故障恢复时长。本发明还公开了一种集群故障恢复时长估算装置、设备及计算机可读存储介质。本发明能够估算集群故障恢复时长,进而便于客户了解故障恢复情况。

Description

集群故障恢复时长估算方法、装置、设备及存储介质
技术领域
本发明涉及存储集群技术领域,尤其涉及一种集群故障恢复时长估算方法、装置、设备及计算机可读存储介质。
背景技术
现有分布式存储集群通常都具有非常大的容量,磁盘是集群数据的最终载体,当集群出现磁盘情况变化时(比如添加、删除磁盘),集群原有的数据都会触发数据的迁移,进而导致集群不健康,特别是当集群已经存储的数据较多时,数据迁移需要花费一定时间,并且在数据迁移过程中还要占用集群性能,这就会对客户端的IO造成性能影响。
现有技术比较难以判断集群存在磁盘变化情况下进行数据迁移所需要花费的时间,因而也就无法估量对客户端IO性能影响的时间长短,进而无法对客户端用户提供指导建议。
发明内容
本发明的主要目的在于提供一种集群故障恢复时长估算方法、装置、设备及计算机可读存储介质,旨在解决如何确定集群故障恢复时长的技术问题。
为实现上述目的,本发明提供一种集群故障恢复时长估算方法,所述集群故障恢复时长估算方法包括以下步骤:
分别获取分布式存储集群发生故障前后的集群信息;
基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;
将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;
基于发生数据迁移的OSD与PG,估算集群故障恢复时长。
可选地,所述集群信息包括:集群的故障域级别、OSD信息以及PG信息,其中,集群的故障域级别包括主机级别、OSD级别,所述OSD信息包括OSD标识,PG信息包括PG标识。
可选地,所述基于发生数据迁移的OSD与PG,估算集群故障恢复时长包括:
基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;
计算迁移所述数据量的时间,以估算集群故障恢复时长。
可选地,所述集群信息还包括:集群当前的总数据量;所述基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量包括:
基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;
根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;
根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。
可选地,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之前,所述集群故障恢复时长估算方法还包括:
对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;
计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;
所述计算迁移所述数据量的时间,以估算集群故障恢复时长包括:
根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。
可选地,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之后,所述集群故障恢复时长估算方法还包括:
基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢复时间。
进一步地,为实现上述目的,本发明还提供一种集群故障恢复时长估算装置,所述集群故障恢复时长估算装置包括:
信息获取模块,用于分别获取分布式存储集群发生故障前后的集群信息;
Crush算法模块,用于基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;
结构比对模块,用于将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;
时长估算模块,用于基于发生数据迁移的OSD与PG,估算集群故障恢复时长。
可选地,所述集群信息包括:集群的故障域级别、OSD信息以及PG信息,其中,集群的故障域级别包括主机级别、OSD级别,所述OSD信息包括OSD标识,PG信息包括PG标识。
可选地,所述时长估算模块包括:
数据量计算单元,用于基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;
时长估算单元,用于计算迁移所述数据量的时间,以估算集群故障恢复时长。
可选地,所述集群信息还包括:集群当前的总数据量;
所述数据量计算单元具体用于:
基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;
根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;
根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。
可选地,所述集群故障恢复时长估算装置还包括:性能计算模块;
所述性能计算模块用于:对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;
所述时长估算单元具体用于:根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。
进一步地,为实现上述目的,本发明还提供一种集群故障恢复时长估算设备,所述集群故障恢复时长估算设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的集群故障恢复时长估算程序,所述集群故障恢复时长估算程序被所述处理器执行时实现如上述任一项所述的集群故障恢复时长估算方法的步骤。
进一步地,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有集群故障恢复时长估算程序,所述集群故障恢复时长估算程序被处理器执行时实现如上述任一项所述的集群故障恢复时长估算方法的步骤。
本发明根据分布式存储集群的自身状态参数,采用Crush算法构建集群发生故障前后OSD与PG之间的拓扑结构变化,进而确定集群中发生数据迁移的OSD与PG,最后再基于集群中发生数据迁移的OSD与PG,估算出集群故障恢复时间,进而可对客户提供指导建议。
附图说明
图1为本发明集群故障恢复时长估算设备实施例方案涉及的设备硬件运行环境的结构示意图;
图2为本发明集群故障恢复时长估算方法一实施例的流程示意图;
图3为本发明集群故障恢复时长估算装置第一实施例的功能模块示意图;
图4为图3中时长估算模块一实施例的功能模块示意图;
图5为本发明集群故障恢复时长估算装置第二实施例的功能模块示意图;
图6为本发明集群故障恢复时长估算装置第三实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种集群故障恢复时长估算设备。
参照图1,图1为本发明集群故障恢复时长估算设备实施例方案涉及的设备硬件运行环境的结构示意图。
如图1所示,该集群故障恢复时长估算设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图1中示出的集群故障恢复时长估算设备的硬件结构并不构成对集群故障恢复时长估算设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及集群故障恢复时长估算程序。其中,操作系统是管理和控制集群故障恢复时长估算设备与软件资源的程序,支持网络通信模块、用户接口模块、集群故障恢复时长估算程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
在图1所示的集群故障恢复时长估算设备硬件结构中,网络接口1004主要用于连接系统后台,与系统后台进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;集群故障恢复时长估算设备通过处理器1001调用存储器1005中存储的集群故障恢复时长估算程序,并执行以下操作:
分别获取分布式存储集群发生故障前后的集群信息;
基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;
将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;
基于发生数据迁移的OSD与PG,估算集群故障恢复时长。
进一步地,集群故障恢复时长估算设备通过处理器1001调用存储器1005中存储的集群故障恢复时长估算程序还执行以下操作:
基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;
计算迁移所述数据量的时间,以估算集群故障恢复时长。
进一步地,集群故障恢复时长估算设备通过处理器1001调用存储器1005中存储的集群故障恢复时长估算程序还执行以下操作:
基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;
根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;
根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。
进一步地,集群故障恢复时长估算设备通过处理器1001调用存储器1005中存储的集群故障恢复时长估算程序还执行以下操作:
对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;
计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;
根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。
进一步地,集群故障恢复时长估算设备通过处理器1001调用存储器1005中存储的集群故障恢复时长估算程序还执行以下操作:
基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢复时间。
本发明集群故障恢复时长估算设备可根据分布式存储集群的自身状态参数,采用Crush算法构建集群发生故障前后OSD与PG之间的拓扑结构变化,进而确定集群中发生数据迁移的OSD与PG,最后再基于集群中发生数据迁移的OSD与PG,估算出集群故障恢复时间,进而可对客户提供指导建议。
本发明还提供一种集群故障恢复时长估算方法。
本发明的集群故障恢复时长估算方法具体应用于分布式存储集群,例如Ceph分布式文件系统,其不仅仅是一个文件系统,还是一个有企业级功能的对象存储生态环境。本发明存储集群中的数据优选采用对象存储类型进行数据存储。
参照图2,图2为本发明集群故障恢复时长估算方法一实施例的流程示意图。本实施例中,所述集群故障恢复时长估算方法包括以下步骤:
步骤S10,分别获取分布式存储集群发生故障前后的集群信息;
本实施例中,集群故障恢复时长既可以是预先估算得到并保存,以作为后续实际发生故障时集群故障恢复的参考时长,也可以是在实际发生故障时估算得到。
本实施例中,在集群运行正常时,获取集群发生故障前的集群信息,而在集群发生磁盘变动情况时,比如添加磁盘或删除磁盘,获取集群发生故障后的集群信息。需要说明的是,可以通过模拟磁盘变动情况,进而获得集群发生故障后的集群信息。需要说明的是,集群信息可通过在集群后台读取配置文件或执行命令的方式获得。
本步骤中获取的集群信息主要用于构造OSD与PG的拓扑结构,因此,可选的,集群信息包括:
(1)集群的故障域级别
故障域级别用于对集群中故障所处的设备层级进行划分,包括主机级别、OSD级别;
(2)集群的OSD信息
OSD,Object Storage Device,对象存储设备,比如磁盘,用于提供存储资源,其功能是存储数据,处理数据的复制、恢复、回填、再均衡,并通过检查其他OSD守护进程的心跳来向Ceph系统提供一些监控信息。
OSD信息包括OSD标识,可在集群中唯一区别一个OSD。
(3)集群的PG信息
PG,Placement Group,归置组,用于对存储中的对象进行组织和位置映射,这是一个逻辑的概念,一个PG会被映射到n个OSD上,而每个OSD上都会承载大量的PG,即PG和OSD之间是“多对多”的映射关系。
PG信息包括PG标识,可在集群中唯一区别一个PG。
此外需要进一步说明的是,为估算集群故障恢复时长,还可以获取集群的其他信息,比如集群的总数据量、集群中单个OSD的读写性能等。
步骤S20,基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;
步骤S30,将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;
Crush算法是一种受控复制的分布式Hash算法,是用于控制数据分布的一种方法,能够高效稳定的将数据分布在普通的结构化的集群中。它是一种伪随机的算法,在相同的环境下,相似的输入得到的结果之间没有相关性,相同的输入得到的结果是确定的。它只需要一个集群的描述地图和一些规则就可以根据一个整型的输入得到存放数据的一个设备列表。
本实施例中,基于Crush算法的特性,以集群发生故障前的集群信息为输入参数,可获得集群正常状态下的PG与OSD之间的拓扑结构;而以集群发生故障后的集群信息为输入参数,则可获得集群中磁盘变动后的PG与OSD之间的拓扑结构。
在分布式存储集群中,数据迁移会导致OSD与PG相互之间的映射关系发生改变,因此,通过比对集群发生故障前后对应的OSD与PG的拓扑结构,即可确定发生数据迁移的OSD与PG。
本实施例中,通过步骤S10获得构建集群发生故障前后对应的OSD与PG的拓扑结构的集群信息,而通过步骤S20完成集群发生故障前后对应的OSD与PG的拓扑结构的构建,最后通过步骤S30对集群发生故障前后对应的OSD与PG的拓扑结构进行比对,从而确定发生数据迁移的OSD与PG。
步骤S40,基于发生数据迁移的OSD与PG,估算集群故障恢复时长。
本实施例中,若集群中数据迁移结束,则集群故障恢复,因此,集群故障恢复时长等于集群中数据迁移所花费的时长,而集群中数据迁移所花费的时长主要与以下因素相关:一是集群中磁盘的读写性能,二是需要迁移的数据量。因此,在集群中磁盘的读写性能可确定的情况下,估算集群故障恢复时长可等价于计算集群发生迁移的数据量。本实施例具体基于发生数据迁移的OSD与PG来估算集群故障恢复时长。
可选的,在一实施例中,具体通过以下方式估算集群故障恢复时长:
首先,基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;然后再计算迁移所述数据量的时间,以估算集群故障恢复时长。
本实施例中具体基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量,并在获得集群中发生迁移的数据量后,通过计算迁移该数据量的花费时间,即可估算出集群故障恢复时长。需要说明的是,由于本发明采用统计学方法计算集群发生迁移的数据量,因此计算得到的集群故障恢复时长为估算值。
可选的,为在集群发生故障后能够给到客户端用户的指导建议,因此,在一实施例中,可基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢复时间,从而省却用户长时间等待,用户只需要在告警给出的恢复时间内查看集群状态即可。
本实施例根据分布式存储集群的自身状态参数,采用Crush算法构建集群发生故障前后OSD与PG之间的拓扑结构变化,进而确定集群中发生数据迁移的OSD与PG,最后再基于集群中发生数据迁移的OSD与PG,估算出集群故障恢复时间,进而可对客户提供指导建议。
进一步可选的,在本发明集群故障恢复时长估算方法一实施例中,具体通过以下处理流程计算集群发生迁移的数据量,具体处理流程如下:
1、基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;
2、根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;
3、根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。
本实施例中,数据迁移具体发生在OSD上,而PG用于对存储中的对象进行组织和位置映射,因此,需要确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数。
例如,OSD1上存在5个PG发生了数据迁移,OSD2上存在10个PG发生了数据迁移,OSD3上存在20个PG发生了数据迁移。由于分布式存储集群支持并发进行数据迁移,因此,只需确定一个OSD发生迁移的数据量即可。
本实施例中具体根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量,也即将集群中平均每个OSD发生迁移的数据量对应的迁移时间作为集群故障恢复时长的估算值。
其中,对发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数进行方差运算,从而得出平均每个OSD发生数据迁移的PG数。
另外,由于分布式集群的数据存储比较均衡,也即各PG管理的数据量相差不大,因此,可根据集群当前的总数据量,计算出平均每个PG所管理的数据量。其中,集群中的总PG数可由步骤S10中获得的集群的PG信息确定,而集群当前的总数据量既可以由步骤S10中与其他集群信息一起获得,也可以单独获得。
进一步可选的,在本发明集群故障恢复时长估算方法另一实施例中,具体通过以下处理流程计算平均每个OSD发生迁移的数据量所需的迁移时间,从而估算出集群故障恢复时长,具体处理流程如下:
1、对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;
2、计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;
3、根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。
本实施例对于磁盘的读写性能的评价指标不限,例如磁盘的IOPS,也就是在一秒内磁盘进行多少次I/O读写;也可以是磁盘的吞吐量,也就是每秒磁盘I/O的流量,即磁盘写入加上读出的数据的大小。
通过对各抽样数据求算数平均数,得到集群中OSD的平均读写性能,进而可用于计算迁移一个OSD上一定数据量所花费的时间(即使用OSD上待迁移的数据量除以OSD的平均读写性能,得到迁移数据的花费时间),从而可估算出集群故障的恢复时长。
本发明还提供一种集群故障恢复时长估算装置。
参照图3,图3为本发明集群故障恢复时长估算装置第一实施例的功能模块示意图。本实施例中,所述集群故障恢复时长估算装置包括:
信息获取模块10,用于分别获取分布式存储集群发生故障前后的集群信息;
本实施例中,集群故障恢复时长既可以是预先估算得到并保存,以作为后续实际发生故障时集群故障恢复的参考时长,也可以是在实际发生故障时估算得到。
本实施例中,在集群运行正常时,获取集群发生故障前的集群信息,而在集群发生磁盘变动情况时,比如添加磁盘或删除磁盘,获取集群发生故障后的集群信息。需要说明的是,可以通过模拟磁盘变动情况,进而获得集群发生故障后的集群信息。需要说明的是,集群信息可通过在集群后台读取配置文件或执行命令的方式获得。
本模块中获取的集群信息主要用于构造OSD与PG的拓扑结构,因此,可选的,集群信息包括:
(1)集群的故障域级别
故障域级别用于对集群中故障所处的设备层级进行划分,包括主机级别、OSD级别;
(2)集群的OSD信息
OSD,Object Storage Device,对象存储设备,比如磁盘,用于提供存储资源,其功能是存储数据,处理数据的复制、恢复、回填、再均衡,并通过检查其他OSD守护进程的心跳来向Ceph系统提供一些监控信息。
OSD信息包括OSD标识,可在集群中唯一区别一个OSD。
(3)集群的PG信息
PG,Placement Group,归置组,用于对存储中的对象进行组织和位置映射,这是一个逻辑的概念,一个PG会被映射到n个OSD上,而每个OSD上都会承载大量的PG,即PG和OSD之间是“多对多”的映射关系。
PG信息包括PG标识,可在集群中唯一区别一个PG。
此外需要进一步说明的是,为估算集群故障恢复时长,还可以获取集群的其他信息,比如集群的总数据量、集群中单个OSD的读写性能等。
Crush算法模块20,用于基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;
结构比对模块30,用于将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;
Crush算法是一种受控复制的分布式Hash算法,是用于控制数据分布的一种方法,能够高效稳定的将数据分布在普通的结构化的集群中。它是一种伪随机的算法,在相同的环境下,相似的输入得到的结果之间没有相关性,相同的输入得到的结果是确定的。它只需要一个集群的描述地图和一些规则就可以根据一个整型的输入得到存放数据的一个设备列表。
本实施例中,基于Crush算法的特性,以集群发生故障前的集群信息为输入参数,可获得集群正常状态下的PG与OSD之间的拓扑结构;而以集群发生故障后的集群信息为输入参数,则可获得集群中磁盘变动后的PG与OSD之间的拓扑结构。
在分布式存储集群中,数据迁移会导致OSD与PG相互之间的映射关系发生改变,因此,通过比对集群发生故障前后对应的OSD与PG的拓扑结构,即可确定发生数据迁移的OSD与PG。
时长估算模块40,用于基于发生数据迁移的OSD与PG,估算集群故障恢复时长。
本实施例中,若集群中数据迁移结束,则集群故障恢复,因此,集群故障恢复时长等于集群中数据迁移所花费的时长,而集群中数据迁移所花费的时长主要与以下因素相关:一是集群中磁盘的读写性能,二是需要迁移的数据量。因此,在集群中磁盘的读写性能可确定的情况下,估算集群故障恢复时长可等价于计算集群发生迁移的数据量。本实施例具体基于发生数据迁移的OSD与PG来估算集群故障恢复时长。
本实施例根据分布式存储集群的自身状态参数,采用Crush算法构建集群发生故障前后OSD与PG之间的拓扑结构变化,进而确定集群中发生数据迁移的OSD与PG,最后再基于集群中发生数据迁移的OSD与PG,估算出集群故障恢复时间,进而可对客户提供指导建议。
参照图4,图4为图3中时长估算模块一实施例的功能模块示意图。基于上述实施例,本实施例中,时长估算模块40包括:
数据量计算单元401,用于基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;
时长估算单元402,用于计算迁移所述数据量的时间,以估算集群故障恢复时长。
通常,在集群中磁盘的读写性能可确定的情况下,估算集群故障恢复时长可等价于计算集群发生迁移的数据量,因此,本实施例中具体基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量,并在获得集群发生迁移的数据量后,通过计算迁移该数据量的花费时间,即可估算出集群故障恢复时长。需要说明的是,由于本发明采用统计学方法计算集群发生迁移的数据量,因此计算得到的集群故障恢复时长为估算值。
本实施例将估算集群故障恢复时长等价于集群中平均每个OSD发生迁移的数据量对应的迁移时间,而集群中平均每个OSD发生迁移的数据量对应的迁移时间可通过量化计算得到,因而实现了对集群故障恢复时长的科学估算,进而可对客户提供指导建议。
进一步可选的,在本发明集群故障恢复时长估算装置一实施例中,数据量计算单元401具体通过执行以下处理流程计算集群发生迁移的数据量:
1、基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;
2、根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;
3、根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。
本实施例中,数据迁移具体发生在OSD上,而PG用于对存储中的对象进行组织和位置映射,因此,需要确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数。
例如,OSD1上存在5个PG发生了数据迁移,OSD2上存在10个PG发生了数据迁移,OSD3上存在20个PG发生了数据迁移。由于分布式存储集群支持并发进行数据迁移,因此,只需确定一个OSD发生迁移的数据量即可。
本实施例中具体根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量,也即将集群中平均每个OSD发生迁移的数据量对应的迁移时间作为集群故障恢复时长的估算值。
其中,对发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数进行方差运算,从而得出平均每个OSD发生数据迁移的PG数。
另外,由于分布式集群的数据存储比较均衡,也即各PG管理的数据量相差不大,因此,可根据集群当前的总数据量,计算出平均每个PG所管理的数据量。其中,集群中的总PG数可由步骤S10中获得的集群的PG信息确定,而集群当前的总数据量既可以由步骤S10中与其他集群信息一起获得,也可以单独获得。
参照图5,图5为本发明集群故障恢复时长估算装置第二实施例的功能模块示意图。基于上述实施例,本实施例中,所述集群故障恢复时长估算装置还包括:性能计算模块50;
本实施例中,性能计算模块50用于:对集群中OSD所在磁盘的读写性能进行抽样;计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;
本实施例中,时长估算单元402具体用于:根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。
本实施例对于磁盘的读写性能的评价指标不限,例如磁盘的IOPS,也就是在一秒内磁盘进行多少次I/O读写;也可以是磁盘的吞吐量,也就是每秒磁盘I/O的流量,即磁盘写入加上读出的数据的大小。
通过对各抽样数据求算数平均数,得到集群中OSD的平均读写性能,进而可用于计算迁移一个OSD上一定数据量所花费的时间(即使用OSD上待迁移的数据量除以OSD的平均读写性能,得到迁移数据的花费时间),从而可估算出集群故障的恢复时长。
参照图6,图6为本发明集群故障恢复时长估算装置第三实施例的功能模块示意图。基于上述实施例,本实施例中,所述集群故障恢复时长估算装置还包括:
告警模块60,用于基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢复时间。
为在集群发生故障后能够给到客户端用户的指导建议,因此,本实施例中,可基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢复时间,从而省却用户长时间等待,用户只需要在告警给出的恢复时间内查看集群状态即可。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有集群故障恢复时长估算程序,所述集群故障恢复时长估算程序被处理器执行时实现如上述任一项实施例中所述的集群故障恢复时长估算方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (12)

1.一种集群故障恢复时长估算方法,其特征在于,所述集群故障恢复时长估算方法包括以下步骤:
分别获取分布式存储集群发生故障前后的集群信息;
基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;
将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;
基于发生数据迁移的OSD与PG,估算集群故障恢复时长。
2.如权利要求1所述的集群故障恢复时长估算方法,其特征在于,所述集群信息包括:集群的故障域级别、OSD信息以及PG信息,其中,集群的故障域级别包括主机级别、OSD级别,所述OSD信息包括OSD标识,PG信息包括PG标识。
3.如权利要求2所述的集群故障恢复时长估算方法,其特征在于,所述基于发生数据迁移的OSD与PG,估算集群故障恢复时长包括:
基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;
计算迁移所述数据量的时间,以估算集群故障恢复时长。
4.如权利要求3所述的集群故障恢复时长估算方法,其特征在于,所述集群信息还包括:集群当前的总数据量;所述基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量包括:
基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;
根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;
根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。
5.如权利要求4所述的集群故障恢复时长估算方法,其特征在于,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之前,所述集群故障恢复时长估算方法还包括:
对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;
计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;
所述计算迁移所述数据量的时间,以估算集群故障恢复时长包括:
根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。
6.如权利要求1所述的集群故障恢复时长估算方法,其特征在于,在所述计算迁移所述数据量的时间,以估算集群故障恢复时长的步骤之后,所述集群故障恢复时长估算方法还包括:
基于估算的集群故障恢复时长进行告警,以告知集群发生故障后的预计恢复时间。
7.一种集群故障恢复时长估算装置,其特征在于,所述集群故障恢复时长估算装置包括:
信息获取模块,用于分别获取分布式存储集群发生故障前后的集群信息;
Crush算法模块,用于基于所述集群信息,分别采用Crush算法构建集群发生故障前后对应的对象存储设备OSD与归置组PG的拓扑结构;
结构比对模块,用于将集群发生故障前后对应的OSD与PG的拓扑结构进行比对,确定发生数据迁移的OSD与PG;
时长估算模块,用于基于发生数据迁移的OSD与PG,估算集群故障恢复时长。
8.如权利要求7所述的集群故障恢复时长估算装置,其特征在于,所述时长估算模块包括:
数据量计算单元,用于基于发生数据迁移的OSD与PG,计算集群中平均每个OSD发生迁移的数据量;
时长估算单元,用于计算迁移所述数据量的时间,以估算集群故障恢复时长。
9.如权利要求8所述的集群故障恢复时长估算装置,其特征在于,所述集群信息还包括:集群当前的总数据量;
所述数据量计算单元具体用于:
基于发生数据迁移的OSD与PG,确定发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数;
根据发生数据迁移的OSD数以及每个发生数据迁移的OSD对应的PG数,计算发生数据迁移的OSD中平均每个OSD发生数据迁移的PG数,以及根据集群当前的总数据量计算平均每个PG所管理的数据量;
根据平均每个OSD发生数据迁移的PG数、平均每个PG所管理的数据量,计算集群中平均每个OSD发生迁移的数据量。
10.如权利要求9所述的集群故障恢复时长估算装置,其特征在于,所述集群故障恢复时长估算装置还包括:性能计算模块;
所述性能计算模块用于:对集群中OSD所在磁盘的读写性能进行抽样得到抽样数据;计算各抽样数据的算术平均数,并将计算结果作为集群中OSD的平均读写性能;
所述时长估算单元具体用于:根据集群中平均每个OSD发生迁移的数据量、集群中OSD的平均读写性能,计算迁移所述数据量的时间,以估算集群故障恢复时长。
11.一种集群故障恢复时长估算设备,其特征在于,所述集群故障恢复时长估算设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的集群故障恢复时长估算程序,所述集群故障恢复时长估算程序被所述处理器执行时实现如权利要求1-6中任一项所述的集群故障恢复时长估算方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有集群故障恢复时长估算程序,所述集群故障恢复时长估算程序被处理器执行时实现如权利要求1-6中任一项所述的集群故障恢复时长估算方法的步骤。
CN201811193572.0A 2018-10-12 2018-10-12 集群故障恢复时长估算方法、装置、设备及存储介质 Active CN109284220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811193572.0A CN109284220B (zh) 2018-10-12 2018-10-12 集群故障恢复时长估算方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811193572.0A CN109284220B (zh) 2018-10-12 2018-10-12 集群故障恢复时长估算方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109284220A true CN109284220A (zh) 2019-01-29
CN109284220B CN109284220B (zh) 2022-06-21

Family

ID=65176361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811193572.0A Active CN109284220B (zh) 2018-10-12 2018-10-12 集群故障恢复时长估算方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109284220B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515724A (zh) * 2019-08-13 2019-11-29 新华三大数据技术有限公司 资源配置方法、装置、监视器及机器可读存储介质
CN111240894A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 用于对基于Ceph的对象存储系统进行故障分析的系统和介质
CN112100273A (zh) * 2020-08-12 2020-12-18 福建天泉教育科技有限公司 集群数据扩容的方法、存储介质
CN112286571A (zh) * 2020-09-25 2021-01-29 长沙市到家悠享网络科技有限公司 漏洞修复方法、装置及存储介质
CN113126931A (zh) * 2021-04-29 2021-07-16 山东英信计算机技术有限公司 分布式存储集群的磁盘选择方法、装置及可读存储介质
WO2021238250A1 (zh) * 2020-05-28 2021-12-02 苏州浪潮智能科技有限公司 一种存储集群中存储介质变更减少重构数据的方法及系统
CN113821377A (zh) * 2021-08-27 2021-12-21 济南浪潮数据技术有限公司 一种分布式存储集群的数据恢复方法、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153866A1 (en) * 2002-11-15 2004-08-05 Microsoft Corporation Markov model of availability for clustered systems
US8935500B1 (en) * 2009-09-24 2015-01-13 Vmware, Inc. Distributed storage resource scheduler and load balancer
WO2015057240A1 (en) * 2013-10-18 2015-04-23 Hitachi Data Systems Engineering UK Limited Target-driven independent data integrity and redundancy recovery in a shared-nothing distributed storage system
CN104573121A (zh) * 2015-02-09 2015-04-29 浪潮电子信息产业股份有限公司 一种从aix平台向k-ux平台迁移的db2数据库迁移工具
US20160349993A1 (en) * 2015-05-29 2016-12-01 Cisco Technology, Inc. Data-driven ceph performance optimizations
CN107391317A (zh) * 2017-09-14 2017-11-24 郑州云海信息技术有限公司 一种数据恢复的方法、装置、设备及计算机可读存储介质
CN108287669A (zh) * 2018-01-26 2018-07-17 平安科技(深圳)有限公司 数据存储方法、装置及存储介质
CN108509153A (zh) * 2018-03-23 2018-09-07 新华三技术有限公司 Osd选择方法、数据写入和读取方法、监控器和服务器集群

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153866A1 (en) * 2002-11-15 2004-08-05 Microsoft Corporation Markov model of availability for clustered systems
US8935500B1 (en) * 2009-09-24 2015-01-13 Vmware, Inc. Distributed storage resource scheduler and load balancer
WO2015057240A1 (en) * 2013-10-18 2015-04-23 Hitachi Data Systems Engineering UK Limited Target-driven independent data integrity and redundancy recovery in a shared-nothing distributed storage system
CN104573121A (zh) * 2015-02-09 2015-04-29 浪潮电子信息产业股份有限公司 一种从aix平台向k-ux平台迁移的db2数据库迁移工具
US20160349993A1 (en) * 2015-05-29 2016-12-01 Cisco Technology, Inc. Data-driven ceph performance optimizations
CN107391317A (zh) * 2017-09-14 2017-11-24 郑州云海信息技术有限公司 一种数据恢复的方法、装置、设备及计算机可读存储介质
CN108287669A (zh) * 2018-01-26 2018-07-17 平安科技(深圳)有限公司 数据存储方法、装置及存储介质
CN108509153A (zh) * 2018-03-23 2018-09-07 新华三技术有限公司 Osd选择方法、数据写入和读取方法、监控器和服务器集群

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
武汉-磨渣: "预估ceph的迁移数据量", 《博客园网址:HTTPS://WWW.CNBLOGS.COM/ZPHJ1987/P/13575408.HTML》 *
武汉-磨渣: "预估Ceph集群恢复时间", 《博客园网址:HTTPS://WWW.CNBLOGS.COM/ZPHJ1987/P/13575385.HTML》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515724A (zh) * 2019-08-13 2019-11-29 新华三大数据技术有限公司 资源配置方法、装置、监视器及机器可读存储介质
CN110515724B (zh) * 2019-08-13 2022-05-10 新华三大数据技术有限公司 资源配置方法、装置、监视器及机器可读存储介质
CN111240894A (zh) * 2019-12-31 2020-06-05 中国建设银行股份有限公司 用于对基于Ceph的对象存储系统进行故障分析的系统和介质
CN111240894B (zh) * 2019-12-31 2023-11-14 中国建设银行股份有限公司 用于对基于Ceph的对象存储系统进行故障分析的系统和介质
WO2021238250A1 (zh) * 2020-05-28 2021-12-02 苏州浪潮智能科技有限公司 一种存储集群中存储介质变更减少重构数据的方法及系统
CN112100273A (zh) * 2020-08-12 2020-12-18 福建天泉教育科技有限公司 集群数据扩容的方法、存储介质
CN112100273B (zh) * 2020-08-12 2022-10-21 福建天泉教育科技有限公司 集群数据扩容的方法、存储介质
CN112286571A (zh) * 2020-09-25 2021-01-29 长沙市到家悠享网络科技有限公司 漏洞修复方法、装置及存储介质
CN113126931A (zh) * 2021-04-29 2021-07-16 山东英信计算机技术有限公司 分布式存储集群的磁盘选择方法、装置及可读存储介质
CN113126931B (zh) * 2021-04-29 2022-05-10 山东英信计算机技术有限公司 分布式存储集群的磁盘选择方法、装置及可读存储介质
CN113821377A (zh) * 2021-08-27 2021-12-21 济南浪潮数据技术有限公司 一种分布式存储集群的数据恢复方法、系统及存储介质
CN113821377B (zh) * 2021-08-27 2023-12-22 济南浪潮数据技术有限公司 一种分布式存储集群的数据恢复方法、系统及存储介质

Also Published As

Publication number Publication date
CN109284220B (zh) 2022-06-21

Similar Documents

Publication Publication Date Title
CN109284220A (zh) 集群故障恢复时长估算方法、装置、设备及存储介质
US10007626B1 (en) Storage performance testing to evaluate moving data among arrays
KR101702321B1 (ko) 칼럼형 데이터베이스의 히스토그램을 이용한 효율적인 질의 처리
US7475217B2 (en) Method of managing storage capacity in storage system, a storage device and a computer system
JP4782100B2 (ja) ストレージシステムの性能を監視する管理計算機、その管理計算機を含む計算機システム、及び、その制御方法
US10235055B1 (en) Storage performance testing to evaluate moving data among arrays
US9971664B2 (en) Disaster recovery protection based on resource consumption patterns
KR20120102664A (ko) 미래 사용 추정에 기반한 저장 메모리 할당
US9154366B1 (en) Server maintenance modeling in cloud computing
JP2011175357A5 (ja) 管理装置及び管理プログラム
CN108287669A (zh) 数据存储方法、装置及存储介质
US8527238B2 (en) Storage input/output utilization associated with a software application
CN103699474A (zh) 存储设备监控系统及方法
JP5222876B2 (ja) 計算機システムにおけるシステム管理方法、及び管理システム
CN102833281B (zh) 一种分布式自增计数的实现方法、装置及系统
CN106878388B (zh) 对分布式存储系统中慢节点的检测
CN113867644A (zh) 磁盘阵列优化方法、装置、计算机设备及存储介质
CN112035314A (zh) 内存泄漏的监控方法、装置及电子设备
CN110019372A (zh) 数据监控方法、装置、服务器及存储介质
CN111104301B (zh) 一种在网页中判断障碍用户的方法和系统
JP4445750B2 (ja) 因果関係推定プログラム及び因果関係推定方法
US20180285168A1 (en) Information processing apparatus and information processing system
CN111857545A (zh) 一种读写锁冲突判断方法、系统、设备及计算机介质
CN109933566A (zh) 文件读写方法、装置、设备及计算机可读存储介质
CN114090212A (zh) 一种分布式定时任务的管理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant