CN113608677A - 一种分布式存储系统的参数调优方法、系统及装置 - Google Patents

一种分布式存储系统的参数调优方法、系统及装置 Download PDF

Info

Publication number
CN113608677A
CN113608677A CN202110722265.2A CN202110722265A CN113608677A CN 113608677 A CN113608677 A CN 113608677A CN 202110722265 A CN202110722265 A CN 202110722265A CN 113608677 A CN113608677 A CN 113608677A
Authority
CN
China
Prior art keywords
storage system
distributed storage
parameter
value
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110722265.2A
Other languages
English (en)
Other versions
CN113608677B (zh
Inventor
王团结
梁鑫辉
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Mass Institute Of Information Technology
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Shandong Mass Institute Of Information Technology
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Mass Institute Of Information Technology, Zhengzhou Yunhai Information Technology Co Ltd filed Critical Shandong Mass Institute Of Information Technology
Priority to CN202110722265.2A priority Critical patent/CN113608677B/zh
Publication of CN113608677A publication Critical patent/CN113608677A/zh
Application granted granted Critical
Publication of CN113608677B publication Critical patent/CN113608677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0605Improving or facilitating administration, e.g. storage management by facilitating the interaction with a user or administrator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0634Configuration or reconfiguration of storage systems by changing the state or mode of one or more devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种分布式存储系统的参数调优方法、系统及装置,构建并训练好用于根据分布式存储系统的各状态参数推荐分布式存储系统的各可调参数的第一全连接神经网络;采集分布式存储系统的各状态参数值,并将各状态参数值输入至第一全连接神经网络,得到分布式存储系统的各可调参数的推荐值;根据推荐值相应调整分布式存储系统的各可调参数。可见,本申请可通过全连接神经网络推荐出分布式存储系统的各可调参数值,相比于人工参数调优方式,基于全连接神经网络的参数调优方式更适用于大规模的分布式存储系统。

Description

一种分布式存储系统的参数调优方法、系统及装置
技术领域
本发明涉及分布式存储领域,特别是涉及一种分布式存储系统的参数调优方法、系统及装置。
背景技术
目前,分布式存储系统中具有较多的可调参数,将这些参数修改为不同值往往会对分布式存储系统的性能产生不同的影响。在分布式存储系统出厂时,都是采用默认的参数配置,但这些默认参数值的组合一般都不是最优的参数组合。研究表明,即使调整分布式存储系统中一小部分的参数值,也可以将分布式存储系统的性能提升数倍以上,现有技术通常由系统管理员依据自身的专业知识和经验调整分布式存储系统的参数值,以提升分布式存储系统的性能。但是,随着分布式存储系统的规模及复杂性不断提升,人工参数调优方式的难度较大,不适用于大规模的分布式存储系统。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种分布式存储系统的参数调优方法、系统及装置,可通过全连接神经网络推荐出分布式存储系统的各可调参数值,相比于人工参数调优方式,基于全连接神经网络的参数调优方式更适用于大规模的分布式存储系统。
为解决上述技术问题,本发明提供了一种分布式存储系统的参数调优方法,包括:
构建并训练好用于根据分布式存储系统的各状态参数推荐所述分布式存储系统的各可调参数的第一全连接神经网络;
采集所述分布式存储系统的各状态参数值,并将所述各状态参数值输入至所述第一全连接神经网络,得到所述分布式存储系统的各可调参数的推荐值;
根据所述推荐值相应调整所述分布式存储系统的各可调参数。
优选地,所述第一全连接神经网络输出的各可调参数的推荐值均位于0-1之间;
则所述分布式存储系统的参数调优方法还包括:
分别为所述分布式存储系统的各可调参数设定各自对应的最小值和最大值;
在得到所述分布式存储系统的各可调参数的推荐值之后,在根据所述推荐值相应调整所述分布式存储系统的各可调参数之前,根据所述各可调参数各自对应的最小值和最大值,将所述各可调参数的推荐值映射到各自对应的最小值和最大值之间,以根据所述各可调参数映射后的值相应调整所述分布式存储系统的各可调参数。
优选地,采集所述分布式存储系统的各状态参数值的过程,包括:
在所述分布式存储系统与客户端交互过程中,采集所述分布式存储系统在写操作下的性能指标参数值;
采集所述分布式存储系统的各存储节点的CPU、磁盘及网卡的性能指标参数值。
优选地,所述分布式存储系统的参数调优方法还包括:
在将所述各状态参数值输入至所述第一全连接神经网络之前,将采集的各状态参数值进行归一化处理,以将归一化处理后的各状态参数值输入至所述第一全连接神经网络。
优选地,所述分布式存储系统的参数调优方法还包括:
构建并训练好用于根据所述分布式存储系统的各状态参数及各可调参数预测所述分布式存储系统的IO性能参数的第二全连接神经网络;
将所述分布式存储系统的各状态参数值及各可调参数值输入至所述第二全连接神经网络,得到所述分布式存储系统的IO性能参数的预测值;其中,所述预测值越大,所述分布式存储系统的IO性能越好。
优选地,所述分布式存储系统的参数调优方法还包括:
获取向所述分布式存储系统下发IO读写请求的客户端的带宽;
根据预设奖励函数
Figure BDA0003136902630000031
得到所述分布式存储系统对应的奖励值r;其中,
Figure BDA0003136902630000032
为所述客户端的初始带宽;BWt为所述客户端的当前带宽;BWt-1为所述客户端的上一次带宽;奖励值r越大,所述分布式存储系统的IO性能越好。
优选地,所述分布式存储系统的参数调优方法还包括:
构建由所述分布式存储系统的各可调参数组成的动作向量at,并构建由所述分布式存储系统的各状态参数组成的状态向量St
则构建用于根据分布式存储系统的各状态参数推荐所述分布式存储系统的各可调参数的第一全连接神经网络的过程,包括:
构建用于根据所述状态向量St推荐所述动作向量at的第一全连接神经网络;
采集所述分布式存储系统的各状态参数值,并将所述各状态参数值输入至所述第一全连接神经网络,得到所述分布式存储系统的各可调参数的推荐值的过程,包括:
采集所述分布式存储系统的各状态参数值,得到由所述各状态参数值组成的状态向量St
将所述状态向量St输入至所述第一全连接神经网络,得到由所述各可调参数的推荐值组成的动作向量at
优选地,所述第一全连接神经网络和所述第二全连接神经网络的训练过程,包括:
将所述分布式存储系统的各可调参数重置至默认参数,并当所述客户端在预设时间内持续下发IO读写请求时,采集状态向量St,且在所述客户端下发所述IO读写请求结束后,采集所述客户端的带宽;
将本次采集的状态向量输入至所述第一全连接神经网络,得到其内各可调参数的推荐值均位于0-1之间的动作向量at,并根据所述各可调参数各自实际对应的最小值和最大值,将所述各可调参数的推荐值映射到各自对应的最小值和最大值之间,得到动作向量at实际对应的参数向量;
根据所述参数向量相应调整所述分布式存储系统的各可调参数,并重启所述分布式存储系统使所述各可调参数生效;
当所述客户端重新在预设时间内持续下发IO读写请求时,采集所述分布式存储系统在新配置下的状态向量St+1,且在所述客户端重新下发所述IO读写请求结束后,采集所述客户端的带宽,并根据所述预设奖励函数计算所述分布式存储系统在新配置下的奖励值rt
将四元组(st at rt st+1)加入经验回放池,并返回执行将本次采集的状态向量输入至所述第一全连接神经网络的步骤,并在返回执行的次数达到预设第一次数时停止返回操作,并根据所述经验回放池内的数据及DDPG算法更新所述第一全连接神经网络和所述第二全连接神经网络的网络参数值;
在第一/第二全连接神经网络的网络参数值更新后,重新执行将所述分布式存储系统的各可调参数重置至默认参数的步骤,直至重新执行的次数到达预设第二次数时,第一/第二全连接神经网络的训练结束。
为解决上述技术问题,本发明还提供了一种分布式存储系统的参数调优系统,包括:
构建模块,用于构建并训练好用于根据分布式存储系统的各状态参数推荐所述分布式存储系统的各可调参数的第一全连接神经网络;
推荐模块,用于采集所述分布式存储系统的各状态参数值,并将所述各状态参数值输入至所述第一全连接神经网络,得到所述分布式存储系统的各可调参数的推荐值;
调整模块,用于根据所述推荐值相应调整所述分布式存储系统的各可调参数。
为解决上述技术问题,本发明还提供了一种分布式存储系统的参数调优装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现上述任一种分布式存储系统的参数调优方法的步骤。
本发明提供了一种分布式存储系统的参数调优方法,构建并训练好用于根据分布式存储系统的各状态参数推荐分布式存储系统的各可调参数的第一全连接神经网络;采集分布式存储系统的各状态参数值,并将各状态参数值输入至第一全连接神经网络,得到分布式存储系统的各可调参数的推荐值;根据推荐值相应调整分布式存储系统的各可调参数。可见,本申请可通过全连接神经网络推荐出分布式存储系统的各可调参数值,相比于人工参数调优方式,基于全连接神经网络的参数调优方式更适用于大规模的分布式存储系统。
本发明还提供了一种分布式存储系统的参数调优系统及装置,与上述参数调优方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式存储系统的参数调优方法的流程图;
图2为本发明实施例提供的一种分布式存储系统的参数调优系统的结构示意图。
具体实施方式
本发明的核心是提供一种分布式存储系统的参数调优方法、系统及装置,可通过全连接神经网络推荐出分布式存储系统的各可调参数值,相比于人工参数调优方式,基于全连接神经网络的参数调优方式更适用于大规模的分布式存储系统。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种分布式存储系统的参数调优方法的流程图。
该分布式存储系统的参数调优方法包括:
步骤S1:构建并训练好用于根据分布式存储系统的各状态参数推荐分布式存储系统的各可调参数的第一全连接神经网络。
具体地,本申请可提前构建用于根据分布式存储系统的各状态参数推荐分布式存储系统的各可调参数的第一全连接神经网络,即第一全连接神经网络的输入为分布式存储系统的各状态参数、输出为分布式存储系统的各可调参数。而且,本申请还对第一全连接神经网络进行训练,以使第一全连接神经网络根据分布式存储系统的各状态参数推荐的分布式存储系统的各可调参数更优。
步骤S2:采集分布式存储系统的各状态参数值,并将各状态参数值输入至第一全连接神经网络,得到分布式存储系统的各可调参数的推荐值。
具体地,本申请采集分布式存储系统的各状态参数值,然后将采集的各状态参数值输入至第一全连接神经网络,以利用第一全连接神经网络得到分布式存储系统的各可调参数的推荐值,供后续调整分布式存储系统的各可调参数使用。
步骤S3:根据推荐值相应调整分布式存储系统的各可调参数。
具体地,本申请在得到分布式存储系统的各可调参数的推荐值之后,根据得到的各可调参数的推荐值相应调整分布式存储系统的各可调参数即可,从而优化分布式存储系统的性能。
本发明提供了一种分布式存储系统的参数调优方法,构建并训练好用于根据分布式存储系统的各状态参数推荐分布式存储系统的各可调参数的第一全连接神经网络;采集分布式存储系统的各状态参数值,并将各状态参数值输入至第一全连接神经网络,得到分布式存储系统的各可调参数的推荐值;根据推荐值相应调整分布式存储系统的各可调参数。可见,本申请可通过全连接神经网络推荐出分布式存储系统的各可调参数值,相比于人工参数调优方式,基于全连接神经网络的参数调优方式更适用于大规模的分布式存储系统。
在上述实施例的基础上:
作为一种可选的实施例,第一全连接神经网络输出的各可调参数的推荐值均位于0-1之间;
则分布式存储系统的参数调优方法还包括:
分别为分布式存储系统的各可调参数设定各自对应的最小值和最大值;
在得到分布式存储系统的各可调参数的推荐值之后,在根据推荐值相应调整分布式存储系统的各可调参数之前,根据各可调参数各自对应的最小值和最大值,将各可调参数的推荐值映射到各自对应的最小值和最大值之间,以根据各可调参数映射后的值相应调整分布式存储系统的各可调参数。
进一步地,本申请在设计第一全连接神经网络时,可使第一全连接神经网络输出的各可调参数的推荐值均位于0-1之间。则本申请需分别为分布式存储系统的各可调参数设定各自对应的最小值和最大值,目的是在得到第一全连接神经网络输出的各可调参数的推荐值之后,根据各可调参数各自对应的最小值和最大值,将各可调参数的推荐值映射到各自对应的最小值和最大值之间,从而根据各可调参数映射后的值(实际推荐的值)相应调整分布式存储系统的各可调参数。
比如,某一可调参数对应的最小值为50、最大值为100,第一全连接神经网络输出的此可调参数的推荐值为0.5,则此可调参数的推荐值映射到[50,100]的实际参数值为75。
作为一种可选的实施例,采集分布式存储系统的各状态参数值的过程,包括:
在分布式存储系统与客户端交互过程中,采集分布式存储系统在写操作下的性能指标参数值;
采集分布式存储系统的各存储节点的CPU、磁盘及网卡的性能指标参数值。
具体地,本申请采集的分布式存储系统的各状态参数值包括:在分布式存储系统与客户端(如Vdbench(文件系统I/O工作负载生成器)客户端)交互过程中,分布式存储系统在写操作下的性能指标参数值、分布式存储系统的各存储节点的CPU(中央处理器)的性能指标参数值、各存储节点的磁盘的性能指标参数值及各存储节点的网卡的性能指标参数值。
作为一种可选的实施例,分布式存储系统的参数调优方法还包括:
在将各状态参数值输入至第一全连接神经网络之前,将采集的各状态参数值进行归一化处理,以将归一化处理后的各状态参数值输入至第一全连接神经网络。
进一步地,本申请还可在将采集的分布式存储系统的各状态参数值输入至第一全连接神经网络之前,将采集的分布式存储系统的各状态参数值进行归一化处理,目的是将归一化处理后的各状态参数值输入至第一全连接神经网络。
更具体地,在分布式存储系统与客户端(模拟高带宽IO(Input/Output,输入/输出)负载)交互过程中,采集分布式存储系统在写操作下的KPI(Key PerformanceIndicator,关键性能指标):1)分布式存储系统接收的客户端下发的总请求个数;2)分布式存储系统处理单个请求的平均时延;3)分布式存储系统处理请求时,相邻请求之间的平均等待时延。对各个KPI归一化到0-1之间,详细如下表1(TB为计算机存储单位):
表1
KPI 含义 归一化方法
receive_requests 接收到的总请求个数 receive_requests/1000000,归一化到TB
handle_req_avg_t 平均时延 handle_req_avg_t/1000000,归一化到秒
Queue_wait_avg_t 平均等待时延 Queue_wait_avg_t/1000000,归一化到秒
分布式存储系统由多个模块组成,NFS(Network File System,网络文件系统)ganesha就是其中一个模块,客户端下发的请求都是通过NFS ganesha模块传向其它模块的,所以通过NFS ganesha模块可统计分布式存储系统在写操作下的KPI。则分布式存储系统在写操作下的KPI的具体采集过程包括:在IO负载运行开始前,使用ganesha_stat_toolreset_nfs_ops命令将NFS ganesha模块的接口时延统计信息清零;在IO负载运行结束时,使用ganesha_stat_tool show_nfs_ops命令采集NFS ganesha模块的接口时延统计信息,NFS ganesha模块的接口时延统计信息中就包含分布式存储系统在写操作下的KPI。
在IO负载运行过程中,使用mpstat命令采集分布式存储系统的各个存储节点的CPU的KPI:1)用户进程消耗的CPU时间百分比;2)内核进程消耗的CPU时间百分比;3)IO等待消耗的CPU时间百分比;4)系统服务于软中断的时间百分比;5)CPU处于空闲状态时间百分比。具体地,采样频率为10秒,采样10次计算均值,对各个KPI归一化到0-1之间,详细如下表2:
表2
KPI 含义 归一化方法
%usr 用户进程消耗的CPU时间百分比 %usr/100,归一化到百分比
%sys 内核进程消耗的CPU时间百分比 %sys/100,归一化到百分比
%iowait IO等待消耗的CPU时间百分比 %iowait/100,归一化到百分比
%soft 系统服务于软中断的时间百分比 %soft/100,归一化到百分比
%idle CPU处于空闲状态时间百分比 %idle/100,归一化到百分比
在IO负载运行过程中,使用iostat命令采集分布式存储系统的各个存储节点的磁盘的KPI:1)写IOPS(Input/Output Operations Per Second,每秒的输入输出量);2)写带宽;3)平均请求大小(单个请求对应的写入数据长度);
4)平均请求队列的长度(待处理请求的个数);5)每一个IO请求的处理的平均时间;6)平均每次I/O操作的服务时间;7)设备的繁忙程度。具体地,采样频率为10秒,采样10次计算均值,对各个KPI归一化到0-1之间,详细如下表3:
表3
KPI 含义 归一化方法
w/s 写IOPS w/s/100,归一化到0-1
wMB/s 写带宽 wMB/s/100,归一化到0-1
avgrq-sz 平均请求大小 avgrq-sz/1000,归一化到0-1
avgqu-sz 平均请求队列的长度 avgqu-sz/10,归一化到0-1
await 每一个IO请求的处理的平均时间 await/100,归一化到0.1秒
svctm 平均每次I/O操作的服务时间 svctm/10,归一化到0.01秒
%util 设备的繁忙程度 %util/100,归一化到百分比
在IO负载运行过程中,使用sar命令采集分布式存储系统的各个存储节点的网卡的KPI:1)每秒钟接收的字节数;2)每秒钟发送的字节数。具体地,采样频率为10秒,采样10次计算均值,对各个KPI归一化到0-1之间,详细如下表4:
表4
KPI 含义 归一化方法
rxkB/s 每秒钟接收的字节数 rxkB/s*8/(10000*1000),归一化到万兆
txkB/s 每秒钟发送的字节数 txkB/s*8/(10000*1000),归一化到万兆
若分布式存储系统有3个存储节点,以上共采集关键性能指标45(3+15+21+6)个,将归一化后的值依次拼接,可得到45维的状态向量:
st=[receive_requests,handle_req_avg_t,...,txkB/s]。
作为一种可选的实施例,分布式存储系统的参数调优方法还包括:
构建并训练好用于根据分布式存储系统的各状态参数及各可调参数预测分布式存储系统的IO性能参数的第二全连接神经网络;
将分布式存储系统的各状态参数值及各可调参数值输入至第二全连接神经网络,得到分布式存储系统的IO性能参数的预测值;其中,预测值越大,分布式存储系统的IO性能越好。
进一步地,本申请还可提前构建用于根据分布式存储系统的各状态参数及各可调参数预测分布式存储系统的IO性能参数的第二全连接神经网络,即第二全连接神经网络的输入为分布式存储系统的各状态参数及各可调参数、输出为分布式存储系统的IO性能参数(IO性能参数值越大,分布式存储系统的IO性能提升越大)。而且,本申请还对第二全连接神经网络进行训练,以使第二全连接神经网络根据分布式存储系统的各状态参数及各可调参数预测的分布式存储系统的IO性能参数更准确。
作为一种可选的实施例,分布式存储系统的参数调优方法还包括:
获取向分布式存储系统下发IO读写请求的客户端的带宽;
根据预设奖励函数
Figure BDA0003136902630000111
得到分布式存储系统对应的奖励值r;其中,
Figure BDA0003136902630000112
为客户端的初始带宽;BWt为客户端的当前带宽;BWt-1为客户端的上一次带宽;奖励值r越大,分布式存储系统的IO性能越好。
具体地,本申请通过监控客户端的带宽来衡量分布式存储系统的IO性能提升效果,带宽越高,说明分布式存储系统的IO性能越好。奖励函数的设计原则是以分布式存储系统初始IO性能为奖惩基线并鼓励不断超越,奖励函数如下:
Figure BDA0003136902630000113
其中,
Figure BDA0003136902630000114
Δt→0表示相比初始带宽,当前带宽提升的百分比;
Figure BDA0003136902630000115
Δt→t-1表示相比上一次带宽,当前带宽提升的百分比。
当Δt→0大于0,即当前带宽比初始带宽高时,奖励值总体为正,当Δt→t-1大于0,即当前带宽比上一次带宽高时,奖励值乘以一个大于1的因子,奖励值再增大一点;当前带宽比上一次带宽低时,则乘以一个小于1的因子,奖励值相对减小一点。
当Δt→0小于0,即当前带宽比初始带宽低时,奖励值总体为负,当Δt→t-1大于0,即当前带宽比上一次带宽高时,奖励值乘以一个小于1的因子,奖励值相对增大一点;当前带宽比上一次带宽低时,则乘以一个大于1的因子,奖励值再减小一点。
作为一种可选的实施例,分布式存储系统的参数调优方法还包括:
构建由分布式存储系统的各可调参数组成的动作向量at,并构建由分布式存储系统的各状态参数组成的状态向量St
则构建用于根据分布式存储系统的各状态参数推荐分布式存储系统的各可调参数的第一全连接神经网络的过程,包括:
构建用于根据状态向量St推荐动作向量at的第一全连接神经网络;
采集分布式存储系统的各状态参数值,并将各状态参数值输入至第一全连接神经网络,得到分布式存储系统的各可调参数的推荐值的过程,包括:
采集分布式存储系统的各状态参数值,得到由各状态参数值组成的状态向量St
将状态向量St输入至第一全连接神经网络,得到由各可调参数的推荐值组成的动作向量at
进一步地,本申请还构建由分布式存储系统的各可调参数组成的动作向量at,并构建由分布式存储系统的各状态参数组成的状态向量St(上述实施例已详细叙述,本申请不再赘述)。其中,本申请可选择分布式存储系统的核心可调参数构建动作向量at,如选择NFS ganesha模块的15个核心可调参数(参照下表5),基于专家经验设定核心可调参数各自对应的最小值和最大值,将15个核心可调参数拼接起来,可得到15维的动作向量:
at=[Nb_Worker,Nb_Worker_Queue,...,Multi_Num]
表5
Figure BDA0003136902630000121
Figure BDA0003136902630000131
则第一全连接神经网络(如Actor神经网络)的构建原理具体为:构建一个四层的第一全连接神经网络,包括输入层、第一隐藏层、第二隐藏层及输出层。其中,输入层对应分布式存储系统的状态向量St,共45维(则输入层包含45个神经元);第一隐藏层包含M(设定400)个神经元,激活函数为Relu(Rectified Linear Unit,线性整流函数);第二隐藏层包含N(设定300)个神经元,激活函数为Relu;输出层对应分布式存储系统的动作向量at,共15维(则输出层包含15个神经元),激活函数为Sigmoid(S型函数)。这样通过将状态向量St输入至第一全连接神经网络,即可得到推荐的动作向量at,此时动作向量at的值均位于0-1之间。
同样地,第二全连接神经网络(如Critic神经网络)的构建原理具体为:构建一个四层的第二全连接神经网络,包括输入层、第一隐藏层、第二隐藏层及输出层。其中,输入层对应分布式存储系统的动作向量at和状态向量St,拼接起来,共60(15+45)维(则输入层包含60个神经元);第一隐藏层包含M(设定400)个神经元,激活函数为Relu;第二隐藏层包含N(设定300)个神经元,激活函数为Relu;输出层对应分布式存储系统的IO性能参数,包含1个神经元。
作为一种可选的实施例,第一全连接神经网络和第二全连接神经网络的训练过程,包括:
将分布式存储系统的各可调参数重置至默认参数,并当客户端在预设时间内持续下发IO读写请求时,采集状态向量St,且在客户端下发IO读写请求结束后,采集客户端的带宽;
将本次采集的状态向量输入至第一全连接神经网络,得到其内各可调参数的推荐值均位于0-1之间的动作向量at,并根据各可调参数各自实际对应的最小值和最大值,将各可调参数的推荐值映射到各自对应的最小值和最大值之间,得到动作向量at实际对应的参数向量;
根据参数向量相应调整分布式存储系统的各可调参数,并重启分布式存储系统使各可调参数生效;
当客户端重新在预设时间内持续下发IO读写请求时,采集分布式存储系统在新配置下的状态向量St+1,且在客户端重新下发IO读写请求结束后,采集客户端的带宽,并根据预设奖励函数计算分布式存储系统在新配置下的奖励值rt
将四元组(st at rt st+1)加入经验回放池,并返回执行将本次采集的状态向量输入至第一全连接神经网络的步骤,并在返回执行的次数达到预设第一次数时停止返回操作,并根据经验回放池内的数据及DDPG算法更新第一全连接神经网络和第二全连接神经网络的网络参数值;
在第一/第二全连接神经网络的网络参数值更新后,重新执行将分布式存储系统的各可调参数重置至默认参数的步骤,直至重新执行的次数到达预设第二次数时,第一/第二全连接神经网络的训练结束。
具体地,第一全连接神经网络和第二全连接神经网络的训练过程为(离线学习过程):
1)将分布式存储系统的各可调参数重置至默认参数,客户端在预设时间(如100秒)内持续下发IO读写请求,当客户端在预设时间内持续下发IO读写请求时,采集分布式存储系统的状态向量St(此时得到的是系统默认状态),并在客户端下发IO读写请求结束后,采集客户端的带宽(此时可得到系统默认IO性能,也供后续奖励函数使用)。
2)将本次采集的状态向量输入至第一全连接神经网络,得到其内各可调参数的推荐值均位于0-1之间的动作向量at,并根据各可调参数各自实际对应的最小值和最大值,将各可调参数的推荐值映射到各自对应的最小值和最大值之间,得到动作向量at实际对应的参数向量。
3)根据参数向量相应调整分布式存储系统的各可调参数,并重启分布式存储系统使各可调参数生效。
4)客户端重新在预设时间内持续下发IO读写请求。
5)当客户端重新在预设时间内持续下发IO读写请求时,采集分布式存储系统在新配置下的状态向量St+1
6)在客户端重新下发IO读写请求结束后,采集客户端的带宽,并根据预设奖励函数计算分布式存储系统在新配置下的奖励值rt
7)将四元组(st at rt st+1)加入经验回放池。
8)步骤2-8为1步,每30步为一个回合,每回合开始执行步骤1,即将分布式存储系统的各可调参数重置至默认参数。
9)每回合结束,均根据经验回放池内的数据及DDPG(deep deterministic policygradient,深度确定性策略梯度算法)算法更新第一全连接神经网络和第二全连接神经网络的网络参数值(目的是根据分布式存储系统的反馈迭代更新第一全连接神经网络和第二全连接神经网络,直到神经网络模型收敛)。
在第一全连接神经网络和第二全连接神经网络训练结束后,便可将第一全连接神经网络和第二全连接神经网络应用至实际的分布式存储系统中(在线调优过程):
1)当客户端下发IO读写请求时,采集分布式存储系统的状态向量St
2)将本次采集的状态向量输入至第一全连接神经网络,得到其内各可调参数的推荐值均位于0-1之间的动作向量at,并根据各可调参数各自实际对应的最小值和最大值,将各可调参数的推荐值映射到各自对应的最小值和最大值之间,得到动作向量at实际对应的参数向量。
3)根据参数向量相应调整分布式存储系统的各可调参数,并重启分布式存储系统使各可调参数生效。
4)客户端重新下发IO读写请求。
5)当客户端重新下发IO读写请求时,采集分布式存储系统在新配置下的状态向量St+1
6)在客户端重新下发IO读写请求结束后,采集客户端的带宽,并根据预设奖励函数计算分布式存储系统在新配置下的奖励值rt
7)将四元组(st at rt st+1)加入经验回放池,以备进一步微调第一全连接神经网络和第二全连接神经网络。
8)根据客户端的性能提升情况进行多步调优。
请参照图2,图2为本发明实施例提供的一种分布式存储系统的参数调优系统的结构示意图。
该分布式存储系统的参数调优系统包括:
构建模块1,用于构建并训练好用于根据分布式存储系统的各状态参数推荐分布式存储系统的各可调参数的第一全连接神经网络;
推荐模块2,用于采集分布式存储系统的各状态参数值,并将各状态参数值输入至第一全连接神经网络,得到分布式存储系统的各可调参数的推荐值;
调整模块3,用于根据推荐值相应调整分布式存储系统的各可调参数。
本申请提供的参数调优系统的介绍请参考上述参数调优方法的实施例,本申请在此不再赘述。
本申请还提供了一种分布式存储系统的参数调优装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序时实现上述任一种分布式存储系统的参数调优方法的步骤。
本申请提供的参数调优装置的介绍请参考上述参数调优方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式存储系统的参数调优方法,其特征在于,包括:
构建并训练好用于根据分布式存储系统的各状态参数推荐所述分布式存储系统的各可调参数的第一全连接神经网络;
采集所述分布式存储系统的各状态参数值,并将所述各状态参数值输入至所述第一全连接神经网络,得到所述分布式存储系统的各可调参数的推荐值;
根据所述推荐值相应调整所述分布式存储系统的各可调参数。
2.如权利要求1所述的分布式存储系统的参数调优方法,其特征在于,所述第一全连接神经网络输出的各可调参数的推荐值均位于0-1之间;
则所述分布式存储系统的参数调优方法还包括:
分别为所述分布式存储系统的各可调参数设定各自对应的最小值和最大值;
在得到所述分布式存储系统的各可调参数的推荐值之后,在根据所述推荐值相应调整所述分布式存储系统的各可调参数之前,根据所述各可调参数各自对应的最小值和最大值,将所述各可调参数的推荐值映射到各自对应的最小值和最大值之间,以根据所述各可调参数映射后的值相应调整所述分布式存储系统的各可调参数。
3.如权利要求1所述的分布式存储系统的参数调优方法,其特征在于,采集所述分布式存储系统的各状态参数值的过程,包括:
在所述分布式存储系统与客户端交互过程中,采集所述分布式存储系统在写操作下的性能指标参数值;
采集所述分布式存储系统的各存储节点的CPU、磁盘及网卡的性能指标参数值。
4.如权利要求3所述的分布式存储系统的参数调优方法,其特征在于,所述分布式存储系统的参数调优方法还包括:
在将所述各状态参数值输入至所述第一全连接神经网络之前,将采集的各状态参数值进行归一化处理,以将归一化处理后的各状态参数值输入至所述第一全连接神经网络。
5.如权利要求1-4任一项所述的分布式存储系统的参数调优方法,其特征在于,所述分布式存储系统的参数调优方法还包括:
构建并训练好用于根据所述分布式存储系统的各状态参数及各可调参数预测所述分布式存储系统的IO性能参数的第二全连接神经网络;
将所述分布式存储系统的各状态参数值及各可调参数值输入至所述第二全连接神经网络,得到所述分布式存储系统的IO性能参数的预测值;其中,所述预测值越大,所述分布式存储系统的IO性能越好。
6.如权利要求5所述的分布式存储系统的参数调优方法,其特征在于,所述分布式存储系统的参数调优方法还包括:
获取向所述分布式存储系统下发IO读写请求的客户端的带宽;
根据预设奖励函数
Figure FDA0003136902620000021
得到所述分布式存储系统对应的奖励值r;其中,
Figure FDA0003136902620000022
BW0为所述客户端的初始带宽;BWt为所述客户端的当前带宽;BWt-1为所述客户端的上一次带宽;奖励值r越大,所述分布式存储系统的IO性能越好。
7.如权利要求6所述的分布式存储系统的参数调优方法,其特征在于,所述分布式存储系统的参数调优方法还包括:
构建由所述分布式存储系统的各可调参数组成的动作向量at,并构建由所述分布式存储系统的各状态参数组成的状态向量St
则构建用于根据分布式存储系统的各状态参数推荐所述分布式存储系统的各可调参数的第一全连接神经网络的过程,包括:
构建用于根据所述状态向量St推荐所述动作向量at的第一全连接神经网络;
采集所述分布式存储系统的各状态参数值,并将所述各状态参数值输入至所述第一全连接神经网络,得到所述分布式存储系统的各可调参数的推荐值的过程,包括:
采集所述分布式存储系统的各状态参数值,得到由所述各状态参数值组成的状态向量st
将所述状态向量st输入至所述第一全连接神经网络,得到由所述各可调参数的推荐值组成的动作向量at
8.如权利要求7所述的分布式存储系统的参数调优方法,其特征在于,所述第一全连接神经网络和所述第二全连接神经网络的训练过程,包括:
将所述分布式存储系统的各可调参数重置至默认参数,并当所述客户端在预设时间内持续下发IO读写请求时,采集状态向量st,且在所述客户端下发所述IO读写请求结束后,采集所述客户端的带宽;
将本次采集的状态向量输入至所述第一全连接神经网络,得到其内各可调参数的推荐值均位于0-1之间的动作向量at,并根据所述各可调参数各自实际对应的最小值和最大值,将所述各可调参数的推荐值映射到各自对应的最小值和最大值之间,得到动作向量at实际对应的参数向量;
根据所述参数向量相应调整所述分布式存储系统的各可调参数,并重启所述分布式存储系统使所述各可调参数生效;
当所述客户端重新在预设时间内持续下发IO读写请求时,采集所述分布式存储系统在新配置下的状态向量st+1,且在所述客户端重新下发所述IO读写请求结束后,采集所述客户端的带宽,并根据所述预设奖励函数计算所述分布式存储系统在新配置下的奖励值rt
将四元组(st at rt st+1)加入经验回放池,并返回执行将本次采集的状态向量输入至所述第一全连接神经网络的步骤,并在返回执行的次数达到预设第一次数时停止返回操作,并根据所述经验回放池内的数据及DDPG算法更新所述第一全连接神经网络和所述第二全连接神经网络的网络参数值;
在第一/第二全连接神经网络的网络参数值更新后,重新执行将所述分布式存储系统的各可调参数重置至默认参数的步骤,直至重新执行的次数到达预设第二次数时,第一/第二全连接神经网络的训练结束。
9.一种分布式存储系统的参数调优系统,其特征在于,包括:
构建模块,用于构建并训练好用于根据分布式存储系统的各状态参数推荐所述分布式存储系统的各可调参数的第一全连接神经网络;
推荐模块,用于采集所述分布式存储系统的各状态参数值,并将所述各状态参数值输入至所述第一全连接神经网络,得到所述分布式存储系统的各可调参数的推荐值;
调整模块,用于根据所述推荐值相应调整所述分布式存储系统的各可调参数。
10.一种分布式存储系统的参数调优装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1-8任一项所述的分布式存储系统的参数调优方法的步骤。
CN202110722265.2A 2021-06-28 2021-06-28 一种分布式存储系统的参数调优方法、系统及装置 Active CN113608677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110722265.2A CN113608677B (zh) 2021-06-28 2021-06-28 一种分布式存储系统的参数调优方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110722265.2A CN113608677B (zh) 2021-06-28 2021-06-28 一种分布式存储系统的参数调优方法、系统及装置

Publications (2)

Publication Number Publication Date
CN113608677A true CN113608677A (zh) 2021-11-05
CN113608677B CN113608677B (zh) 2024-08-27

Family

ID=78336883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110722265.2A Active CN113608677B (zh) 2021-06-28 2021-06-28 一种分布式存储系统的参数调优方法、系统及装置

Country Status (1)

Country Link
CN (1) CN113608677B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610234A (zh) * 2022-02-28 2022-06-10 浪潮电子信息产业股份有限公司 一种存储系统参数推荐方法及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289312A1 (en) * 2004-06-23 2005-12-29 Sugata Ghosal Methods, apparatus and computer programs for scheduling storage requests
CN106126407A (zh) * 2016-06-22 2016-11-16 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
US20170242729A1 (en) * 2016-02-24 2017-08-24 Prophetstor Data Services, Inc. Method for deploying storage system resources with learning of workloads applied thereto
CN112131206A (zh) * 2020-09-24 2020-12-25 北京计算机技术及应用研究所 一种多模型数据库OrientDB参数配置自动调优方法
CN112162966A (zh) * 2020-09-11 2021-01-01 北京浪潮数据技术有限公司 分布式存储系统参数调节方法、装置及电子设备和介质
CN112732444A (zh) * 2021-01-12 2021-04-30 北京工业大学 一种面向分布式机器学习的数据划分方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050289312A1 (en) * 2004-06-23 2005-12-29 Sugata Ghosal Methods, apparatus and computer programs for scheduling storage requests
US20170242729A1 (en) * 2016-02-24 2017-08-24 Prophetstor Data Services, Inc. Method for deploying storage system resources with learning of workloads applied thereto
CN106126407A (zh) * 2016-06-22 2016-11-16 西安交通大学 一种针对分布式存储系统的性能监控调优系统及方法
CN112162966A (zh) * 2020-09-11 2021-01-01 北京浪潮数据技术有限公司 分布式存储系统参数调节方法、装置及电子设备和介质
CN112131206A (zh) * 2020-09-24 2020-12-25 北京计算机技术及应用研究所 一种多模型数据库OrientDB参数配置自动调优方法
CN112732444A (zh) * 2021-01-12 2021-04-30 北京工业大学 一种面向分布式机器学习的数据划分方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陆承涛: "一种基于统计分析的存储系统性能调优方法", 计算机科学, vol. 37, no. 11, 30 November 2010 (2010-11-30), pages 289 - 294 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114610234A (zh) * 2022-02-28 2022-06-10 浪潮电子信息产业股份有限公司 一种存储系统参数推荐方法及相关装置
CN114610234B (zh) * 2022-02-28 2024-02-20 浪潮电子信息产业股份有限公司 一种存储系统参数推荐方法及相关装置

Also Published As

Publication number Publication date
CN113608677B (zh) 2024-08-27

Similar Documents

Publication Publication Date Title
CN109660367B (zh) 基于改进Raft算法的共识达成方法、装置与电子设备
Schuster et al. Consistent accelerated inference via confident adaptive transformers
US10761897B2 (en) Predictive model-based intelligent system for automatically scaling and managing provisioned computing resources
WO2020207268A1 (zh) 数据库性能调整方法、装置、设备、系统及存储介质
JPH05346915A (ja) 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
WO2010078060A1 (en) Systems and methods for making recommendations using model-based collaborative filtering with user communities and items collections
CN108156204B (zh) 一种目标对象推送系统和方法
CN109101624A (zh) 对话处理方法、装置、电子设备及存储介质
CN111260255B (zh) 一种配电网运行参数关键因素分析方法、系统以及设备
CN112764936A (zh) 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN106875211A (zh) 一种云计算环境中基于用户感知价值的最优服务定价方法
WO2023109025A1 (zh) 投放信息处理方法、资源预测模型训练方法及装置
CN109934301A (zh) 一种电力负荷聚类分析方法、装置和设备
CN116561542B (zh) 模型的优化训练系统、方法以及相关装置
WO2024037368A1 (zh) 调度装置的调度优化方法、调度装置和存储介质
CN113608677B (zh) 一种分布式存储系统的参数调优方法、系统及装置
WO2020107264A1 (zh) 神经网络架构搜索的方法与装置
CN114358257A (zh) 神经网络剪枝方法及装置、可读介质和电子设备
US11467872B1 (en) Resource capacity management
Verma et al. Resource demand prediction in multi-tenant service clouds
CN117390540A (zh) 目标操作的执行方法和装置、存储介质及电子设备
CN112561351A (zh) 用于评估卫星系统中的任务申请的方法及装置
US12120182B2 (en) Systems and methods for modulating data objects to effect state changes
Qiu et al. On the promise and challenges of foundation models for learning-based cloud systems management
Okanlawon et al. Feature selection for learning to predict outcomes of compute cluster jobs with application to decision support

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant