CN115454342A - 基于SDN的Ceph异构分布式存储系统及其读写优化方法 - Google Patents

基于SDN的Ceph异构分布式存储系统及其读写优化方法 Download PDF

Info

Publication number
CN115454342A
CN115454342A CN202211119726.8A CN202211119726A CN115454342A CN 115454342 A CN115454342 A CN 115454342A CN 202211119726 A CN202211119726 A CN 202211119726A CN 115454342 A CN115454342 A CN 115454342A
Authority
CN
China
Prior art keywords
read
ceph
object storage
write
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211119726.8A
Other languages
English (en)
Inventor
王勇
李志珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202211119726.8A priority Critical patent/CN115454342A/zh
Publication of CN115454342A publication Critical patent/CN115454342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于SDN的Ceph异构分布式存储系统及其读写优化方法,首先设计了一个基于SDN技术的云存储系统模型;然后基于节点异构资源分类策略将OSD进行分类;随后利用SDN技术实时获取网络和负载情况,并建立基于随机森林的OSD性能预测模型,从而获得性能影响因子的影响权重;最后结合OSD状态和影响权重,利用多属性决策TOPSIS模型计算OSD的读写贴合度,进而自适应地优化集群读写性能。这样做既考虑了集群节点网络状态,又考虑了节点上OSD的负载均衡,其可以自适应地将读写负载集中在不同性能类型的OSD上,并保证异构OSD设备的负载均衡,从而增加了集群的可靠性。

Description

基于SDN的Ceph异构分布式存储系统及其读写优化方法
技术领域
本发明涉及分布式存储技术领域,具体涉及一种基于SDN的Ceph异构分布式存储系统及其读写优化方法。
背景技术
Ceph是一个基于对象的分布式存储系统,其在广泛应用的同时,如何高效地存储和管理海量数据的问题受到了工业界和学术界的关注。经典的Ceph云存储系统只将节点的存储容量作为数据选择存储节点的唯一依据,并没有考虑到网络状态、节点的异构性和负载状况,这种节点选择方法影响了系统在网络性能差和异构节点负载不均衡情况下的读写性能,而要在传统的网络构架中获取网络状态和节点负载信息需要繁琐的配置和大量的测量开销。
发明内容
本发明所要解决的是Ceph分布式云存储系统在网络性能差和异构节点负载不均衡情况下的读写性能问题,提供一种基于SDN的Ceph异构分布式存储系统及其读写优化方法。
为解决上述问题,本发明是通过以下技术方案实现的:
一种基于SDN的Ceph异构分布式存储系统的读写优化方法,包括步骤如下:
步骤1、Ceph存储节点采集自身异构节点信息,并上传给SDN控制器进行整合;SDN控制器将整合后的系统异构节点信息下发给Ceph监控节点;Ceph监控节点基于节点异构资源分类策略对系统中的对象存储设备进行分类,得到最终的对象存储设备最小分类集;
步骤2、Ceph监控节点以设定的权重变化步长依次改变最终的对象存储设备最小分类集中的每个对象存储设备及其同类对象存储设备的CRUSH权重值;在此过程中,系统中的各Ceph存储节点周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器;SDN控制器周期性采集系统中的各Ceph存储节点的网络消耗带宽;
步骤3、SDN控制器利用周期性采样所得到的网络消耗带宽、CPU利用率、内存利用率、占有PG比例、读I/O请求数据量和写I/O请求数据量构建读性能训练数据样本集和写性能训练数据样本集,并下发给Ceph监控节点;
对于读性能训练数据样本集的一条读性能训练数据样本,其输入参数矩阵为一次周期性采样所得到的所有对象存储设备的网络消耗带宽、CPU利用率、内存利用率、占有PG比例和写I/O请求数据量所构成的矩阵,其输出参数向量为一次周期性采样所得到的所有对象存储设备的读I/O请求数据量所构成的向量;
对于写性能训练数据样本集的一条写性能训练数据样本,其输入参数矩阵为一次周期性采样所得到的所有对象存储设备的网络消耗带宽、CPU利用率、内存利用率、占有PG比例和读I/O请求数据量所构成的矩阵,其输出参数向量为一次周期性采样所得到的所有对象存储设备的写I/O请求数据量所构成的向量;
步骤4、Ceph监控节点利用读性能训练数据样本集和写性能训练数据样本集分别对随机森林模型进行训练,并分别基于训练好的随机森林模型对读性能训练数据样本和写性能训练数据样本的输入参数矩阵中的各参数的重要性进行分析,得到读影响权重向量和写影响权重向量;
步骤5、当用户需要进行读和/或写优化时:
在读优化过程中,Ceph存储节点采集当前时刻下系统中的各个对象存储设备的CPU利用率、内存利用率、占有PG比例和写I/O请求数据量,并上传给SDN控制器;SDN控制器采集当前时刻下系统中的各个对象存储设备的网络剩余带宽,并将网络剩余带宽、CPU利用率、内存利用率、占有PG比例和写I/O请求数据量整合为当前时刻的读负载信息下发给Ceph监控节点;Ceph监控节点先对当前时刻的读负载信息进行归一化处理后构建读决策矩阵,再将读决策矩阵和读影响权重向量送入到多属性决策TOPSIS模型中得到读贴合度向量,后基于该读贴合度向量,将读贴合度低的对象存储设备中的读数据量转到读贴合度高的对象存储设备中执行;
在写优化过程中,Ceph存储节点采集当前时刻下系统中的各个对象存储设备的CPU利用率、内存利用率、占有PG比例和读I/O请求数据量,并上传给SDN控制器;SDN控制器采集当前时刻下系统中的各个对象存储设备的网络剩余带宽,并将网络剩余带宽、CPU利用率、内存利用率、占有PG比例和读I/O请求数据量整合为当前时刻的写负载信息下发给Ceph监控节点;Ceph监控节点先对当前时刻的写负载信息进行归一化处理后构建读决策矩阵,再将读决策矩阵和读影响权重向量送入到多属性决策TOPSIS模型中得到读贴合度向量,后基于该读贴合度向量,将读贴合度低的对象存储设备中的读数据量转到读贴合度高的对象存储设备中执行。
上述步骤1中节点异构资源分类策略的具体过程如下:
步骤1.1、基于系统中的每一个对象存储设备的异构性能,构建该对象存储设备osdj的异构性能集αj={e1,e2,...,eI};其中ei表示第i个异构性能影响因子,1≤i≤I,I表示异构性能影响因子的个数;
步骤1.2、先令初始的对象存储设备最简性能集β={α1},并令初始的对象存储设备最小分类集δ={};再从第2个对象存储设备开始遍历剩余的对象存储设备αj′的异构性能集αj′,其中2≤j′≤J:若当前对象存储设备最简性能集与对象存储设备osdj′的异构性能集αj′的并集不等于当前对象存储设备最简性能集,则将对象存储设备osdj′的异构性能集αj′合并至当前对象存储设备最简性能集中,并将对象存储设备osdj′合并至当前对象存储设备最小分类集中;否则,当前对象存储设备最简性能集和当前对象存储设备最小分类集不变;遍历完成后得到最终的对象存储设备最小分类集。
上述异构性能影响因子包括节点带宽上限、CPU大小、内存大小和对象存储设备类型。
上述步骤2的具体过程如下:
步骤2.1、令系统中的每一个对象存储设备的CRUSH权重值均为1;
系统中的各Ceph存储节点以设定的时间间隔t和采集次数N,周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器;与此同时,SDN控制器以设定的时间间隔t和采集次数N,周期性采集系统中各Ceph存储节点的网络消耗带宽;
N次采样完成后,SDN控制器得到N次采集过程中的集群读性能的平均值
Figure BDA0003845232480000031
和集群写性能平均值
Figure BDA0003845232480000032
步骤2.2、循环选中最终的对象存储设备最小分类集中的每个对象存储设备;
步骤2.3、令当前选中的对象存储设备及其同类对象存储设备的CRUSH权重值为1+is,其余对象存储设备的CRUSH权重值为1;其中i为步长增加次数,i=1,2,…;s为设定的权重变化步长;
系统中的各Ceph存储节点以设定的时间间隔t和采集次数N,周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器;与此同时,SDN控制器以设定的时间间隔t和采集次数N,周期性采集系统中各Ceph存储节点的网络消耗带宽;
N次采样完成后,SDN控制器得到N次采集过程中的集群读性能的平均值
Figure BDA0003845232480000033
和集群写性能平均值
Figure BDA0003845232480000034
步骤2.4、SDN控制器判断本次集群读性能的平均值
Figure BDA0003845232480000035
是否大于上次集群读性能的平均值
Figure BDA0003845232480000036
且本次集群写性能的平均值
Figure BDA0003845232480000037
是否大于上次集群写性能的平均值
Figure BDA0003845232480000038
如果同时满足,即
Figure BDA0003845232480000039
Figure BDA00038452324800000310
则转至步骤2.2;
否则,令i=i+1,并返回步骤2.3。
上述步骤5中,在读决策矩阵中,网络剩余带宽和占有PG比例为正值,CPU利用率、内存利用率和写I/O请求数据量为负值;在写决策矩阵中,网络剩余带宽和占有PG比例为正值,CPU利用率、内存利用率和读I/O请求数据量为负值。
实现上述读写优化方法的基于SDN的Ceph异构分布式存储系统,由Ceph节点、OpenFlow交换机和SDN控制器组成。Ceph节点位于系统架构的底层;Ceph节点包括至少一个Ceph存储节点和至少一个Ceph监控节点,Ceph存储节点与Ceph监控节点相互之间实现拓扑连接;每个Ceph存储节点中包含至少一个对象存储设备;Ceph监控节点维护集群所有Ceph节点的全局配置信息。OpenFlow交换机位于系统架构的中间层;OpenFlow交换机连接SDN控制器和Ceph节点,负责数据之间的传送。SDN控制器位于系统架构的顶层;SDN控制器监测需要的对象存储设备信息,Ceph监控节点远程调用SDN控制器收集到的信息,为选择Ceph存储节点上的对象存储设备做出决策参考。
与现有技术相比,本发明首先设计了一个基于SDN(Software Defined Network,软件定义网络)技术的云存储系统模型;然后基于节点异构资源分类策略将OSD(ObjectStorage Device,对象存储设备)进行分类;随后利用SDN技术实时获取网络和负载情况,并建立基于随机森林获得性能影响因子的影响权重;最后结合OSD状态和影响权重,利用多属性决策TOPSIS模型计算OSD的读写贴合度,进而自适应地优化集群读写性能。这样做既考虑了集群节点网络状态,又考虑了节点上OSD的负载均衡,其可以自适应地将读写负载集中在不同性能类型的OSD上,并保证异构OSD设备的负载均衡,从而增加了集群的可靠性。
附图说明
图1为基于SDN的Ceph异构分布式存储系统架构。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实例,对本发明进一步详细说明。
软件定义网络作为一种新的网络模式,主要思想是控制平面和数据平面相分离,打破封闭的垂直体系,并引入对网络编程的能力,通过全局的视角增强对整体系统的管控,显著提升了大规模集群存储中数据的传输、控制和管理效率。由于在传统的网络架构中获取分布式存储系统监控节点和存储节点的网络状态和负载信息需要繁琐的配置和大量的测量开销,因此如果将基于SDN(Software Defined Network,软件定义网络)的网络测量技术运用到分布式存储系统的网络状态信息测量中,可以用更小的硬件配置和测量开销获取存储节点的消耗带宽和剩余带宽,并且可以方便地与底层存储节点通过UDP数据包进行信息交互,这样的网络模型方便我们监控系统全局的网络状况和负载信息,从而达到利用这些信息优化Ceph云存储系统的读写性能的目的。为此,本发明设计了如图1所示基于SDN的Ceph异构分布式存储系统,由Ceph节点、OpenFlow交换机和SDN控制器组成。
系统架构的底层为2个以上拓扑连接的Ceph节点。Ceph节点包括至少一个Ceph存储节点和至少一个Ceph监控节点,Ceph存储节点与Ceph监控节点相互之间实现拓扑连接。每个Ceph存储节点可以包含至少一个OSD(Object Storage Device,对象存储设备)。Ceph监控节点维护集群所有节点的全局配置信息。在图1所示的实例中,Ceph节点1、3和4既是Ceph存储节点,又是Ceph监控节点,Ceph节点2、5和6仅是Ceph存储节点。
系统架构的中间层为至少一个OpenFlow交换机。当OpenFlow交换机为2个以上时,这些OpenFlow交换机相互之间实现拓扑连接。OpenFlow交换机向上连接SDN控制器,向下连接Ceph节点,负责数据之间的传送。
系统架构的顶层为至少一个SDN控制器。当SDN控制器为2个以上时,这些SDN控制器相互之间实现拓扑连接。SDN控制器利用负载均衡监测模块监测需要的OSD信息,Ceph监控节点远程调用SDN控制器收集到的信息,为选择Ceph存储节点上的OSD做出决策参考。这种系统架构利用控制平面和数据平面相分离的网络模式方便我们对底层网络和负载情况进行监测。
基于上述系统,本发明所提出的一种基于SDN的Ceph异构分布式存储系统的读写优化方法,其包括步骤如下:
(1)读写优化准备阶段:
步骤1、首先系统底层Ceph存储节点采集自身异构节点信息,并上传给SDN控制器进行整合。然后SDN控制器将整合后的系统异构节点信息下发给Ceph监控节点。最后Ceph监控节点基于节点异构资源分类策略对系统中的对象存储设备进行分类,得到最终的对象存储设备最小分类集。
上述节点异构资源分类策略具体过程如下:
步骤1.1、基于系统中的每一个对象存储设备的异构性能,构建该对象存储设备osdj的异构性能集αj={e1,e2,...,eI};其中ei表示第i个异构性能影响因子,1≤i≤I,I表示异构性能影响因子的个数。异构性能影响因子的个数根据性能需求选取,在本实施例中,异构性能影响因子包括带宽上限(GB/s)、CPU和内存大小、以及OSD类型(HDD类型或SSD类型)。由此得到系统中所有对象存储设备的异构性能集α={α12,...,αJ},1≤j≤J,J表示基于SDN的Ceph异构分布式存储系统中OSD的总数。
步骤1.2、先令初始的对象存储设备最简性能集β={α1},并令初始的对象存储设备最小分类集δ={};再从第2个对象存储设备开始遍历剩余的对象存储设备αj′的异构性能集αj′,其中2≤j′≤J:若当前对象存储设备最简性能集与对象存储设备osdj′的异构性能集αj′的并集不等于当前对象存储设备最简性能集,即β∪αj′≠β,则将对象存储设备osdj′的异构性能集αj′合并至当前对象存储设备最简性能集中,即β=β∪αj′,并将对象存储设备osdj′合并至当前对象存储设备最小分类集中,即δ=δ∪osdj′;否则,当前对象存储设备最简性能集β和当前对象存储设备最小分类集δ不变。遍历完成后,得到最终的对象存储设备最简性能集β={α12,...,αl}和最终的对象存储设备最小分类集δ={osd1,osd2,...,osdl},其中l≤J,osdl是OSD异构性能集αl对应的OSD的编号。
Ceph社区在设计之初,并没有考虑到节点异构的混合存储环境中如何充分挖掘异构存储节点的性能问题,需要领域专家手工编辑将系统中异构资源分类,从而适应不同的存储性能需求,费时费力。然而,基于本发明提出的异构资源分类策略可以自动化地将系统中的OSD进行分类,得到不同性能类别的OSD,即得到最简性能集和最小分类集,就能减少人工编辑的成本。此外,这样后续只需要对最小分类集中的OSD进行网络状况和负载的采集,而不需要对系统中所有的OSD进行网络状况和负载的采集,就能减少对OSD负载监测的开销。最后,通过将云存储系统的存储资源池进行了细粒度的划分,保证了每种资源池中OSD的读写性能几乎一致,这样做的好处是可以按性能需求将指定的存储池分配给相应的客户端,从而减少异构系统中的资源浪费。
步骤2、Ceph监控节点以设定的权重变化步长依次改变最终的对象存储设备最小分类集中的每个对象存储设备及其同类对象存储设备的CRUSH权重值;在此过程中,系统中的各Ceph存储节点周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器;SDN控制器周期性采集系统中的各Ceph存储节点的网络消耗带宽。
步骤2.1、令系统中的每一个对象存储设备的CRUSH权重值均为1。
系统中的各Ceph存储节点以设定的时间间隔t和采集次数N,周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器。与此同时,SDN控制器以设定的时间间隔t和采集次数N,周期性采集系统中各Ceph存储节点的网络消耗带宽。
N次采样完成后,SDN控制器得到N次采集过程中的集群读性能的平均值
Figure BDA0003845232480000061
和集群写性能平均值
Figure BDA0003845232480000062
步骤2.2、循环选中最终的对象存储设备最小分类集中的每个对象存储设备;
步骤2.3、令当前选中的对象存储设备及其同类对象存储设备的CRUSH权重值为1+is,其余对象存储设备的CRUSH权重值为1。其中i为步长增加次数,i=1,2,…;s为设定的权重变化步长,在本发明中,N的取值范围为[1,10]。
系统中的各Ceph存储节点以设定的时间间隔t和采集次数N,周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器。与此同时,SDN控制器以设定的时间间隔t和采集次数N,周期性采集系统中各Ceph存储节点的网络消耗带宽。
N次采样完成后,SDN控制器得到N次采集过程中的集群读性能的平均值
Figure BDA0003845232480000063
和集群写性能平均值
Figure BDA0003845232480000064
步骤2.4、SDN控制器判断本次集群读性能的平均值
Figure BDA0003845232480000071
是否大于上次集群读性能的平均值
Figure BDA0003845232480000072
且本次集群写性能的平均值
Figure BDA0003845232480000073
是否大于上次集群写性能的平均值
Figure BDA0003845232480000074
如果同时满足,即
Figure BDA0003845232480000075
Figure BDA0003845232480000076
则表明继续增加当前选中的对象存储设备及其同类对象存储设备的CRUSH权重值时集群的读写性能将不再增加,转至步骤2.2,选中最终的对象存储设备最小分类集中的下一个对象存储设备,直到遍历完最终的对象存储设备最小分类集中的每个对象存储设备;
否则,令i=i+1,并返回步骤2.3,直到当前选中的对象存储设备及其同类对象存储设备的集群的读写性能将不再增加。
Ceph云存储系统利用CRUSH算法(Controlled Replication Under ScalableHashing,一种基于哈希的伪随机数据分布算法)计算数据存储的位置。OSD原始的CRUSH权重值仅仅与其磁盘容量正相关换算而来,PG(Placement Group,一组数据对象的集合)按照OSD的CRUSH权重值分布在OSD上,即OSD的CRUSH权重值越大,则其上分布的PG数量越多。
集群读性能的平均值和集群写性能的平均值通过一种主流的基准测试工具Fio(版本3.7)获取。Ceph监控节点首先利用内置命令将云存储空间映射出一块磁盘挂载在Ceph存储节点上;然后在设定的测试时间段内,Ceph存储节点利用Fio工具持续测试映射出的磁盘的读写性能并得到平均值,即为集群的读写性能的平均值;最后Ceph存储节点将集群读写性能信息上传给SDN控制器,SDN控制器再将集群读写性能的变化作为选中的OSD信息采集的终止判断条件。
步骤3、SDN控制器利用周期性采样所得到的网络消耗带宽、CPU利用率、内存利用率、占有PG比例、读I/O请求数据量和写I/O请求数据量构建读性能训练数据样本集和写性能训练数据样本集,并下发给Ceph监控节点。
网络消耗带宽、CPU利用率和内存利用率属于Ceph存储节点的负载信息,每个对象存储设备的网络消耗带宽、CPU利用率和内存利用率即为该对象存储设备所属Ceph存储节点的网络消耗带宽、CPU利用率和内存利用率。占有PG比例、读I/O请求数据量和写I/O请求数据量属于对象存储设备的负载信息。SDN控制器将每一次周期性采样所得到的所有对象存储设备的消耗带宽bw、CPU利用率cpu、内存利用率mem、占有PG比例pgs和写I/O请求数据量w_io所构成的矩阵作为读性能训练数据样本集中一条读性能训练数据样本的输入参数矩阵,对应地将每一次周期性采样所得到的所有对象存储设备的读I/O请求数据量r_io所构成的向量作为读性能训练数据样本集中一条读性能训练数据样本的输出参数向量。其中读性能训练数据样本集Sr为:
Sr={{consumer1,r_ior1};{consumer2,r_ior2};...;{consumerP,r_iorP}}
consumerp={bwrp,cpurp,memrp,pgsrp,w_iorp},p∈[1,Pr]
SDN控制器将每一次周期性采样所得到的所有对象存储设备的消耗带宽bw、CPU利用率cpu、内存利用率mem、占有PG比例pgs和读I/O请求数据量r_io所构成的矩阵作为写性能训练数据样本集中一条写性能训练数据样本的输入参数矩阵,对应地将每一次周期性采样所得到的所有对象存储设备的写I/O请求数据量w_io所构成的向量作为写性能训练数据样本集中一条写性能训练数据样本的输出参数向量。其中写性能训练数据样本集Sw为:
Sw={{consumew1,w_iow1};{consumew2,w_iow2};...;{consumewP,w_iowP}}
consumewp={bwwp,cpuwp,memwp,pgswp,r_iowp},p∈[1,Pw]
由于本发明采集OSD负载信息是以建立OSD性能预测模型获取性能因子的影响权重为目的,所以系统以OSD资源消耗集consumerp和consumewp建立性能预测模型,并用OSD资源剩余集优化优化决策,这样做有两个好处:Ⅰ.将多个客户端对同一个OSD的资源消耗归一化成总的资源消耗,比如读写请求数据量归一化成总读请求数据量和总写请求数据量,单位为kb/s,这种方法获取的性能因子影响权重具有更好的自适应性,屏蔽了不同数量的客户端资源消耗带来的性能预测模型的差异;Ⅱ.用OSD资源剩余集做决策更有利于集群的负载均衡。
步骤4、Ceph监控节点利用读性能训练数据样本集和写性能训练数据样本集分别对随机森林模型进行训练,并分别基于训练好的随机森林模型对读性能训练数据样本和写性能训练数据样本的输入参数矩阵中的各参数的重要性进行分析,得到读影响权重向量和写影响权重向量。
利用读性能训练数据样本集对随机森林模型进行训练,并利用此时训练好的随机森林模型(基于读的OSD预测模型)对读性能训练数据样本的输入参数矩阵中的各参数,即消耗带宽、CPU利用率、内存利用率、占有PG比例和写I/O请求数据量的重要性进行分析,得到消耗带宽、CPU利用率、内存利用率、占有PG比例和写I/O请求数据量的影响权重所组成的读影响权重向量。
利用写性能训练数据样本集对随机森林模型进行训练,并利用此时训练好的随机森林模型(基于写的OSD预测模型)对写性能训练数据样本的输入参数矩阵中的各参数,即消耗带宽、CPU利用率、内存利用率、占有PG比例和读I/O请求数据量的重要性进行分析,得到消耗带宽、CPU利用率、内存利用率、占有PG比例和读I/O请求数据量的影响权重所组成的写影响权重向量。
根据随机森林预测模型训练得到的OSD预测模型rf_reg,可以利用随机森林模型的内置函数rf_reg.feature_importances_对其模型输入数据中的各项OSD性能影响因子参数的重要性进行特征重要性分析,继而得到各个性能因子的影响权重。对于读影响权重向量Wr由剩余带宽的影响权重WBr、CPU利用率的影响权重WCr、内存利用率的影响权重WMr、占有PG比例的影响权重WPr和写I/O请求数据量的影响权重WLr所组成,即Wr=[WBrWCrWMrWPrWLr]。对于写影响权重向量Ww由剩余带宽的影响权重WBw、CPU利用率的影响权重WCw、内存利用率的影响权重WMw、占有PG比例的影响权重WPw和写I/O请求数据量的影响权重WLw所组成,即Ww=[WBwWCwWMwWPwWLw]。
本发明首先将OSD的资源消耗集分为读性能训练集和写性能训练集,方便分析系统读性能因子和写性能因子非线性的影响权重关系,从而做出适当的系统读和写优化决策目标。当优化系统读性能时,OSD消耗的不同资源影响权重是不同的,比如HDD类型的OSD执行读操作时,消耗的带宽资源较大,大约是SSD类型的OSD的3倍。当优化系统写性能时,OSD消耗的不同资源影响权重也是不同的,比如SSD类型的OSD执行写操作时,消耗的带宽资源较大,大约是HDD类型的OSD的2倍。这样的权重关系有益于在实际的生产环境中定向定量的增加特定类型对象存储设备的资源,增加集群的可靠性。
(2)实际读和/或写优化阶段:
步骤5、当用户需要进行读和/或写优化时,向Ceph监控节点发送读和/或写优化指令,Ceph监控节点基于优化指令触发Ceph存储节点和SDN控制器采集采集负载信息。比如当用户对系统读性能时延敏感时,需要进行读优化,当用户对系统写性能时延敏感时,需要进行写优化。读优化和写优化可以分开进行,也可以同时进行,其可以通过指针flag来实现:比如flag为0,优化读;flag为1,优化写;flag为2,优化读写同时。
在读优化过程中,Ceph存储节点采集当前时刻下系统中的各个对象存储设备的CPU利用率、内存利用率、占有PG比例和写I/O请求数据量,并上传给SDN控制器;SDN控制器采集当前时刻下系统中的各个对象存储设备的网络剩余带宽Br,并将网络剩余带宽信息Br、CPU利用率Cr、内存利用率Mr、占有PG比例Pr和写I/O请求数据量Lr整合为当前时刻的读负载信息下发给Ceph监控节点;Ceph监控节点先对当前时刻的读负载信息进行归一化处理后构建读决策矩阵Xr,再将读决策矩阵和读影响权重向量送入到多属性决策TOPSIS模型中得到读贴合度向量,后基于该读贴合度向量,将读贴合度低的对象存储设备中的读数据量转到读贴合度高的对象存储设备中执行;
读决策矩阵Xr为:
Figure BDA0003845232480000091
读影响权重向量Wr为:
Wr=[WBrWCrWMrWPrWLr]
本发明在步骤2收集对象存储设备的消耗带宽作为影响其性能的训练参数,而在读优化决策时却利用对象存储设备剩余带宽作为读决策矩阵Xr的输入参数。这是因为在获取对象存储设备读请求的带宽性能因子的影响权重时,随机森林模型需要输入实际消耗的带宽资源作为训练集输出相应的性能因子影响权重,然后利用对象存储设备的剩余带宽资源和带宽性能因子影响权重做出读优化决策。
读加权决策矩阵Zr为:
Zr=Wr×Xr
读加权决策矩阵的正理想解Zr +为:
Zr +=max{Zr_ij|i=1,2,...,n;j=1,2,...,5}
读加权决策矩阵的正理想解Zr -为:
Zr +=min{Zr_ij|i=1,2,...,n;j=1,2,...,5}
每个对象存储设备到读正理想解的距离
Figure BDA0003845232480000101
为:
Figure BDA0003845232480000102
每个对象存储设备到读负理想解的距离
Figure BDA0003845232480000103
为:
Figure BDA0003845232480000104
每个对象存储设备的读贴近度
Figure BDA0003845232480000105
为:
Figure BDA0003845232480000106
其中n为系统中对象存储设备的个数。
在写优化过程中,Ceph存储节点采集当前时刻下系统中的各个对象存储设备的CPU利用率、内存利用率Cr、占有PG比例和读I/O请求数据量,并上传给SDN控制器;SDN控制器采集当前时刻下系统中的各个对象存储设备的网络剩余带宽Br,并将网络剩余带宽Br、CPU利用率Cr、内存利用率Mr、占有PG比例Pr和读I/O请求数据量Lw整合为当前时刻的写负载信息下发给Ceph监控节点;Ceph监控节点先对当前时刻的写负载信息进行归一化处理后构建读决策矩阵Xw,再将读决策矩阵和读影响权重向量送入到多属性决策TOPSIS模型中得到读贴合度向量,后基于该读贴合度向量,将读贴合度低的对象存储设备中的读数据量转到读贴合度高的对象存储设备中执行。
写决策矩阵Xw为:
Figure BDA0003845232480000111
写影响权重向量Ww为:
Ww=[WBwWCwWMwWPwWLw]
本发明在步骤2收集对象存储设备的消耗带宽作为影响其性能的训练参数,而在写优化决策时却利用对象存储设备剩余带宽作为写决策矩阵Xw的输入参数。这是因为在获取对象存储设备写请求的带宽性能因子的影响权重时,随机森林模型需要输入实际消耗的带宽资源作为训练集输出相应的性能因子影响权重,然后利用对象存储设备的剩余带宽资源和带宽性能因子影响权重做出写优化决策。
写加权决策矩阵Zw为:
Zw=Ww×Xw
写加权决策矩阵的正理想解Zw +为:
Zw +=max{Zw_ij|i=1,2,...,n;j=1,2,...,5}
写加权决策矩阵的正理想解Zr -为:
Zw +=min{Zw_ij|i=1,2,...,n;j=1,2,...,5}
每个对象存储设备到写正理想解的距离
Figure BDA0003845232480000112
为:
Figure BDA0003845232480000113
每个对象存储设备到写负理想解的距离
Figure BDA0003845232480000114
为:
Figure BDA0003845232480000115
每个对象存储设备的写贴近度Cw_i +为:
Figure BDA0003845232480000116
其中n为系统中对象存储设备的个数。
TOPSIS模型中加入了性能影响因子的预测影响权重,负责为正在提供服务的OSD打分,然后选出一个或一组OSD优化Ceph集群的读写性能,这样做可以更好地避免局部优化“热点”瓶颈问题,考虑的是集群全局的负载均衡,包括同种性能类型和不同性能类型的对象存储设备的负载均衡,增加了系统的可靠性。这样在系统原有的OSD选择算法的基础上考虑了对象存储设备网络性能和负载的5个指标,以此作为OSD权重因子的约束条件,然后通过建立和求解多属性决策模型就可以确定一个或一组OSD的选择。更进一步,当系统根据实时的网络和负载状态将对象存储设备打分后,用户可以根据实际需求定时定量的选择优化对象存储设备的范围,并决定执行哪种性能优化,使得整个优化决策过程可控性更强。
贴合度(读贴近度和写贴近度)的大小本身表达了转移负载(读负载和写负载)的比例,读贴近度和写贴近度的值都为[0,1]。贴合度的值越大,表明OSD的负载越小,系统可以将更多的负载集中在贴合度值大的OSD上优化系统的读和写性能;贴合度的值越小,表明OSD的负载越大,系统可以减少集中在贴合度值小的OSD上的负载优化系统的读和写性能。基于贴合度,读数据量和写数据量的转移量的多少由OSD实时网络和负载状态决定,即OSD的性能越差,则OSD的读数据量和写数据量要相应的减少;OSD的性能越好,则可以考虑增加OSD的读数据量和写数据量。
需要说明的是,尽管以上本发明所述的实施例是说明性的,但这并非是对本发明的限制,因此本发明并不局限于上述具体实施方式中。在不脱离本发明原理的情况下,凡是本领域技术人员在本发明的启示下获得的其它实施方式,均视为在本发明的保护之内。

Claims (6)

1.一种基于SDN的Ceph异构分布式存储系统的读写优化方法,其特征是,包括步骤如下:
步骤1、Ceph存储节点采集自身异构节点信息,并上传给SDN控制器进行整合;SDN控制器将整合后的系统异构节点信息下发给Ceph监控节点;Ceph监控节点基于节点异构资源分类策略对系统中的对象存储设备进行分类,得到最终的对象存储设备最小分类集;
步骤2、Ceph监控节点以设定的权重变化步长依次改变最终的对象存储设备最小分类集中的每个对象存储设备及其同类对象存储设备的CRUSH权重值;在此过程中,系统中的各Ceph存储节点周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器;SDN控制器周期性采集系统中的各Ceph存储节点的网络消耗带宽;
步骤3、SDN控制器利用周期性采样所得到的网络消耗带宽、CPU利用率、内存利用率、占有PG比例、读I/O请求数据量和写I/O请求数据量构建读性能训练数据样本集和写性能训练数据样本集,并下发给Ceph监控节点;
对于读性能训练数据样本集的一条读性能训练数据样本,其输入参数矩阵为一次周期性采样所得到的所有对象存储设备的网络消耗带宽、CPU利用率、内存利用率、占有PG比例和写I/O请求数据量所构成的矩阵,其输出参数向量为一次周期性采样所得到的所有对象存储设备的读I/O请求数据量所构成的向量;
对于写性能训练数据样本集的一条写性能训练数据样本,其输入参数矩阵为一次周期性采样所得到的所有对象存储设备的网络消耗带宽、CPU利用率、内存利用率、占有PG比例和读I/O请求数据量所构成的矩阵,其输出参数向量为一次周期性采样所得到的所有对象存储设备的写I/O请求数据量所构成的向量;
步骤4、Ceph监控节点利用读性能训练数据样本集和写性能训练数据样本集分别对随机森林模型进行训练,并分别基于训练好的随机森林模型对读性能训练数据样本和写性能训练数据样本的输入参数矩阵中的各参数的重要性进行分析,得到读影响权重向量和写影响权重向量;
步骤5、当用户需要进行读和/或写优化时:
在读优化过程中,Ceph存储节点采集当前时刻下系统中的各个对象存储设备的CPU利用率、内存利用率、占有PG比例和写I/O请求数据量,并上传给SDN控制器;SDN控制器采集当前时刻下系统中的各个对象存储设备的网络剩余带宽,并将网络剩余带宽、CPU利用率、内存利用率、占有PG比例和写I/O请求数据量整合为当前时刻的读负载信息下发给Ceph监控节点;Ceph监控节点先对当前时刻的读负载信息进行归一化处理后构建读决策矩阵,再将读决策矩阵和读影响权重向量送入到多属性决策TOPSIS模型中得到读贴合度向量,后基于该读贴合度向量,将读贴合度低的对象存储设备中的读数据量转到读贴合度高的对象存储设备中执行;
在写优化过程中,Ceph存储节点采集当前时刻下系统中的各个对象存储设备的CPU利用率、内存利用率、占有PG比例和读I/O请求数据量,并上传给SDN控制器;SDN控制器采集当前时刻下系统中的各个对象存储设备的网络剩余带宽,并将网络剩余带宽、CPU利用率、内存利用率、占有PG比例和读I/O请求数据量整合为当前时刻的写负载信息下发给Ceph监控节点;Ceph监控节点先对当前时刻的写负载信息进行归一化处理后构建读决策矩阵,再将读决策矩阵和读影响权重向量送入到多属性决策TOPSIS模型中得到读贴合度向量,后基于该读贴合度向量,将读贴合度低的对象存储设备中的读数据量转到读贴合度高的对象存储设备中执行。
2.根据权利要求1所述基于SDN的Ceph异构分布式存储系统的读写优化方法,其特征是,步骤1中节点异构资源分类策略的具体过程如下:
步骤1.1、基于系统中的每一个对象存储设备的异构性能,构建该对象存储设备osdj的异构性能集αj={e1,e2,...,eI};其中ei表示第i个异构性能影响因子,1≤i≤I,I表示异构性能影响因子的个数;
步骤1.2、先令初始的对象存储设备最简性能集β={α1},并令初始的对象存储设备最小分类集δ={};再从第2个对象存储设备开始遍历剩余的对象存储设备αj′的异构性能集αj′,其中2≤j′≤J:若当前对象存储设备最简性能集与对象存储设备osdj′的异构性能集αj′的并集不等于当前对象存储设备最简性能集,则将对象存储设备osdj′的异构性能集αj′合并至当前对象存储设备最简性能集中,并将对象存储设备osdj′合并至当前对象存储设备最小分类集中;否则,当前对象存储设备最简性能集和当前对象存储设备最小分类集不变;遍历完成后得到最终的对象存储设备最小分类集。
3.根据权利要求2所述基于SDN的Ceph异构分布式存储系统的读写优化方法,其特征是,异构性能影响因子包括节点带宽上限、CPU大小、内存大小和对象存储设备类型。
4.根据权利要求1所述基于SDN的Ceph异构分布式存储系统的读写优化方法,其特征是,步骤2的具体过程如下:
步骤2.1、令系统中的每一个对象存储设备的CRUSH权重值均为1;
系统中的各Ceph存储节点以设定的时间间隔t和采集次数N,周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器;与此同时,SDN控制器以设定的时间间隔t和采集次数N,周期性采集系统中各Ceph存储节点的网络消耗带宽;
N次采样完成后,SDN控制器得到N次采集过程中的集群读性能的平均值
Figure FDA0003845232470000031
和集群写性能平均值
Figure FDA0003845232470000032
步骤2.2、循环选中最终的对象存储设备最小分类集中的每个对象存储设备;
步骤2.3、令当前选中的对象存储设备及其同类对象存储设备的CRUSH权重值为1+is,其余对象存储设备的CRUSH权重值为1;其中i为步长增加次数,i=1,2,…;s为设定的权重变化步长;
系统中的各Ceph存储节点以设定的时间间隔t和采集次数N,周期性采集自身的CPU利用率和内存利用率、以及所含各对象存储设备的占有PG比例、读I/O请求数据量和写I/O请求数据量,并上传给SDN控制器;与此同时,SDN控制器以设定的时间间隔t和采集次数N,周期性采集系统中各Ceph存储节点的网络消耗带宽;
N次采样完成后,SDN控制器得到N次采集过程中的集群读性能的平均值
Figure FDA0003845232470000033
和集群写性能平均值
Figure FDA0003845232470000034
步骤2.4、SDN控制器判断本次集群读性能的平均值
Figure FDA0003845232470000035
是否大于上次集群读性能的平均值
Figure FDA0003845232470000036
且本次集群写性能的平均值
Figure FDA0003845232470000037
是否大于上次集群写性能的平均值
Figure FDA0003845232470000038
如果同时满足,即
Figure FDA0003845232470000039
Figure FDA00038452324700000310
则转至步骤2.2;
否则,令i=i+1,并返回步骤2.3。
5.根据权利要求1所述基于SDN的Ceph异构分布式存储系统的读写优化方法,其特征是,步骤5中,在读决策矩阵中,网络剩余带宽和占有PG比例为正值,CPU利用率、内存利用率和写I/O请求数据量为负值;在写决策矩阵中,网络剩余带宽和占有PG比例为正值,CPU利用率、内存利用率和读I/O请求数据量为负值。
6.实现权利要求1所述读写优化方法的基于SDN的Ceph异构分布式存储系统,其特征是,由Ceph节点、OpenFlow交换机和SDN控制器组成;
Ceph节点位于系统架构的底层;Ceph节点包括至少一个Ceph存储节点和至少一个Ceph监控节点,Ceph存储节点与Ceph监控节点相互之间实现拓扑连接;每个Ceph存储节点中包含至少一个对象存储设备;Ceph监控节点维护集群所有Ceph节点的全局配置信息;
OpenFlow交换机位于系统架构的中间层;OpenFlow交换机连接SDN控制器和Ceph节点,负责数据之间的传送;
SDN控制器位于系统架构的顶层;SDN控制器监测需要的对象存储设备信息,Ceph监控节点远程调用SDN控制器收集到的信息,为选择Ceph存储节点上的对象存储设备做出决策参考。
CN202211119726.8A 2022-09-14 2022-09-14 基于SDN的Ceph异构分布式存储系统及其读写优化方法 Pending CN115454342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211119726.8A CN115454342A (zh) 2022-09-14 2022-09-14 基于SDN的Ceph异构分布式存储系统及其读写优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211119726.8A CN115454342A (zh) 2022-09-14 2022-09-14 基于SDN的Ceph异构分布式存储系统及其读写优化方法

Publications (1)

Publication Number Publication Date
CN115454342A true CN115454342A (zh) 2022-12-09

Family

ID=84303781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211119726.8A Pending CN115454342A (zh) 2022-09-14 2022-09-14 基于SDN的Ceph异构分布式存储系统及其读写优化方法

Country Status (1)

Country Link
CN (1) CN115454342A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117119058A (zh) * 2023-10-23 2023-11-24 武汉吧哒科技股份有限公司 Ceph分布式存储集群中存储节点优化方法及相关设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117119058A (zh) * 2023-10-23 2023-11-24 武汉吧哒科技股份有限公司 Ceph分布式存储集群中存储节点优化方法及相关设备
CN117119058B (zh) * 2023-10-23 2024-01-19 武汉吧哒科技股份有限公司 Ceph分布式存储集群中存储节点优化方法及相关设备

Similar Documents

Publication Publication Date Title
CN110096349B (zh) 一种基于集群节点负载状态预测的作业调度方法
CN109271015B (zh) 一种降低大规模分布式机器学习系统能耗的方法
CN109918198B (zh) 一种基于用户特征预测的仿真云平台负载调度系统及方法
CN109120715A (zh) 一种云环境下动态负载均衡方法
CN110389838A (zh) 一种适用于虚拟资源的实时调度和在线迁移管控方法
WO2023125493A1 (zh) 资源管理方法、装置及资源管理平台
CN103699433B (zh) 一种于Hadoop平台中动态调整任务数目的方法及系统
CN111813502A (zh) 面向工业边缘节点的计算资源管理调度方法
CN110740079B (zh) 一种面向分布式调度系统的全链路基准测试系统
CN111752708A (zh) 一种基于深度学习的存储系统自适应参数调优方法
CN113821332B (zh) 自动机器学习系统效能调优方法、装置、设备及介质
CN113037877A (zh) 云边端架构下时空数据及资源调度的优化方法
CN115454342A (zh) 基于SDN的Ceph异构分布式存储系统及其读写优化方法
CN113467944B (zh) 面向复杂软件系统的资源部署装置及方法
CN116662010B (zh) 基于分布式系统环境下的动态资源分配方法及系统
WO2022111398A1 (zh) 数据模型训练方法及装置
CN112020098A (zh) 负荷均衡方法、装置、计算设备及计算机存储介质
CN113553160A (zh) 用于人工智能物联网的边缘计算节点任务调度方法及系统
CN115718644A (zh) 一种面向云数据中心的计算任务跨区迁移方法及系统
US20230176905A1 (en) Automatic driving simulation task scheduling method and apparatus, device, and readable medium
CN113010296B (zh) 基于形式化模型的任务解析与资源分配方法及系统
WO2021238508A1 (zh) 一种数据处理的方法、装置和设备
US11321142B2 (en) NOSQL database capacity configuration optimization system for cloud computing
CN117097026A (zh) 一种基于源网荷储新型电力系统运维监控平台的操作方法
CN116389591A (zh) 一种基于跨域分布式处理系统及调度优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination