CN113760188A - 一种分布式存储系统的调参选择方法、系统及装置 - Google Patents

一种分布式存储系统的调参选择方法、系统及装置 Download PDF

Info

Publication number
CN113760188A
CN113760188A CN202110873232.8A CN202110873232A CN113760188A CN 113760188 A CN113760188 A CN 113760188A CN 202110873232 A CN202110873232 A CN 202110873232A CN 113760188 A CN113760188 A CN 113760188A
Authority
CN
China
Prior art keywords
adjustable
value
parameter
distributed storage
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110873232.8A
Other languages
English (en)
Inventor
王团结
梁鑫辉
李强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202110873232.8A priority Critical patent/CN113760188A/zh
Publication of CN113760188A publication Critical patent/CN113760188A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • G06F3/0607Improving or facilitating administration, e.g. storage management by facilitating the process of upgrading existing storage systems, e.g. for improving compatibility between host and storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分布式存储系统的调参选择方法、系统及装置,将分布式存储系统的各可调参数拼接起来,得到配置向量;对配置向量内各可调参数进行多次采样,得到配置向量集;基于配置向量集及预设分数求取关系式求取各可调参数对应的重要性分数;将各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。可见,本申请可计算分布式存储系统的各可调参数的重要性分数,可调参数的重要性分数越高,说明此可调参数对系统性能影响越大,从而便于识别出对系统性能影响较大的可调参数进行系统调优,进而有利于分布式存储系统的性能优化。

Description

一种分布式存储系统的调参选择方法、系统及装置
技术领域
本发明涉及存储系统优化领域,特别是涉及一种分布式存储系统的调参选择方法、系统及装置。
背景技术
目前,分布式存储系统中具有大量的可调参数,将这些参数修改为不同值往往会对分布式存储系统的性能产生不同的影响。在分布式存储系统出厂时,都是采用默认的参数配置,但这些默认参数值的组合一般都不是最优的参数组合。研究表明,即使调整分布式存储系统中一小部分的参数值,也可以将分布式存储系统的性能提升数倍以上。
现有技术中,通常由系统管理员依据自身的专业知识和经验,从分布式存储系统的众多可调参数中选择一部分参数进行调整,以提升分布式存储系统的性能。可以理解的是,选择对分布式存储系统的性能影响越大的参数进行调整,越有助于提升分布式存储系统的性能。但是,随着分布式存储系统的规模及复杂性不断提升,参数与系统IO(Input/Outpu,输入/输出)性能间的关系及参数之间的关系多为非线性关系,导致系统管理员从众多可调参数中识别出对系统性能影响较大的参数的难度较大,不利于分布式存储系统的性能优化。
因此,如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。
发明内容
本发明的目的是提供一种分布式存储系统的调参选择方法、系统及装置,可计算分布式存储系统的各可调参数的重要性分数,可调参数的重要性分数越高,说明此可调参数对系统性能影响越大,从而便于识别出对系统性能影响较大的可调参数进行系统调优,进而有利于分布式存储系统的性能优化。
为解决上述技术问题,本发明提供了一种分布式存储系统的调参选择方法,包括:
将分布式存储系统的各可调参数拼接起来,得到配置向量;
对所述配置向量内各可调参数进行多次采样,得到配置向量集C=[c1,c2.....cn];其中,cn为第n次采样对应的配置向量;
将目标可调参数的取值范围划分为N组取值范围P1,P2.....PN,并基于预设分数求取关系式
Figure BDA0003189450530000021
求取所述目标可调参数对应的重要性分数p_score;其中,所述目标可调参数为任一所述可调参数;N为大于1的整数;
Figure BDA0003189450530000022
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的个数;|C|为所述配置向量集C中配置向量个数;
Figure BDA0003189450530000023
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差;
将所述各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。
优选地,将分布式存储系统的各可调参数拼接起来,得到配置向量的过程,包括:
对所述分布式存储系统的全局配置文件进行解析,得到所述分布式存储系统的可调参数全集;其中,每一个可调参数均包括名称、类型及其默认值;
将所述分布式存储系统的各可调参数拼接起来,得到配置向量。
优选地,对所述配置向量内各可调参数进行多次采样,得到配置向量集的过程,包括:
根据所述各可调参数的类型相应确定所述各可调参数的取值范围;
采用均匀随机算法,将所述各可调参数均从0到1之间采样,并将所述各可调参数的采样值相应映射到所述各可调参数的取值范围,得到采样映射后的配置向量;
根据所述各可调参数的类型及其采样粒度大小,对所述各可调参数进行多次采样,得到配置向量集。
优选地,所述各可调参数的类型包括浮点型、整型、布尔型及枚举型;
根据所述各可调参数的类型相应确定所述各可调参数的取值范围的过程,包括:
将所述浮点型和所述整型的可调参数的最小值设定为其默认值的一半、最大值设定为其默认值的两倍;
将所述布尔型的可调参数的最小值设定为0、最大值设定为1;
将所述枚举型的可调参数对应的取值列表中最大最小值,相应作为所述枚举型的可调参数的最大最小值。
优选地,将目标可调参数的取值范围划分为N组取值范围的过程,包括:
将所述浮点型和所述整型的可调参数的取值范围平均分成多组;
将所述布尔型的可调参数的取值范围分成2组;
将所述枚举型的可调参数的取值范围分成与其对应的取值列表长度相同的分组。
优选地,所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差的求取过程,包括:
将所述配置向量集C中任一配置向量配置到所述分布式存储系统中,并重启系统生效,且运行所述分布式存储系统的客户端进行预设时长的IO读写操作,以在运行结束后统计所述客户端的带宽;
基于预设相对标准差求取关系式
Figure BDA0003189450530000031
求取所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差
Figure BDA0003189450530000032
其中,bwi为第i个配置向量对应的带宽,μ是所述配置向量集C中所有配置向量对应的带宽的均值。
为解决上述技术问题,本发明还提供了一种分布式存储系统的调参选择系统,包括:
参数拼接模块,用于将分布式存储系统的各可调参数拼接起来,得到配置向量;
参数采样模块,用于对所述配置向量内各可调参数进行多次采样,得到配置向量集C=[c1,c2.....cn];其中,cn为第n次采样对应的配置向量;
分数求取模块,用于将目标可调参数的取值范围划分为N组取值范围P1,P2.....PN,并基于预设分数求取关系式
Figure BDA0003189450530000041
求取所述目标可调参数对应的重要性分数p_score;其中,所述目标可调参数为任一所述可调参数;N为大于1的整数;
Figure BDA0003189450530000042
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的个数;|C|为所述配置向量集C中配置向量个数;
Figure BDA0003189450530000043
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差;
分数排序模块,用于将所述各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。
优选地,所述参数拼接模块具体用于:
对所述分布式存储系统的全局配置文件进行解析,得到所述分布式存储系统的可调参数全集;其中,每一个可调参数均包括名称、类型及其默认值;
将所述分布式存储系统的各可调参数拼接起来,得到配置向量。
优选地,所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差的求取过程,包括:
将所述配置向量集C中任一配置向量配置到所述分布式存储系统中,并重启系统生效,且运行所述分布式存储系统的客户端进行预设时长的IO读写操作,以在运行结束后统计所述客户端的带宽;
基于预设相对标准差求取关系式
Figure BDA0003189450530000044
求取所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差
Figure BDA0003189450530000051
其中,bwi为第i个配置向量对应的带宽,μ是所述配置向量集C中所有配置向量对应的带宽的均值。
为解决上述技术问题,本发明还提供了一种分布式存储系统的调参选择装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现上述任一种分布式存储系统的调参选择方法的步骤。
本发明提供了一种分布式存储系统的调参选择方法,将分布式存储系统的各可调参数拼接起来,得到配置向量;对配置向量内各可调参数进行多次采样,得到配置向量集;基于配置向量集及预设分数求取关系式求取各可调参数对应的重要性分数;将各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。可见,本申请可计算分布式存储系统的各可调参数的重要性分数,可调参数的重要性分数越高,说明此可调参数对系统性能影响越大,从而便于识别出对系统性能影响较大的可调参数进行系统调优,进而有利于分布式存储系统的性能优化。
本发明还提供了一种分布式存储系统的调参选择系统及装置,与上述调参选择方法具有相同的有益效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分布式存储系统的调参选择方法的流程图。
图2为本发明实施例提供的一种分布式存储系统的调参选择系统的结构示意图。
具体实施方式
本发明的核心是提供一种分布式存储系统的调参选择方法、系统及装置,可计算分布式存储系统的各可调参数的重要性分数,可调参数的重要性分数越高,说明此可调参数对系统性能影响越大,从而便于识别出对系统性能影响较大的可调参数进行系统调优,进而有利于分布式存储系统的性能优化。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,图1为本发明实施例提供的一种分布式存储系统的调参选择方法的流程图。
该分布式存储系统的调参选择方法包括:
步骤S1:将分布式存储系统的各可调参数拼接起来,得到配置向量。
具体地,本申请首先获取分布式存储系统的各可调参数p1,p2.....pm,如client_oc_size(maximum size of object cache,对象缓存大小)、osd_max_object_size(OSD'smaximum object size,OSD最大对象数)、mds_early_reply(additional reply toclients that metadata requests are complete but not yet durable,MDS元数据操作提前返回)等参数,其中,OSD:Object Storage Device,对象存储设备;MDS:MetaDataServer,文件系统元数据服务器。然后,本申请将分布式存储系统的各可调参数拼接起来,得到配置向量c=[p1,p2.....pm]。
步骤S2:对配置向量内各可调参数进行多次采样,得到配置向量集C=[c1,c2.....cn]。
具体地,本申请对配置向量内各可调参数进行多次采样(即对配置向量内各可调参数进行多次赋值),每次采样都得到一个配置向量,多次采样得到的多个配置向量构成配置向量集C=[c1,c2.....cn],其中,cn为第n次采样对应的配置向量。
步骤S3:将目标可调参数的取值范围划分为N组取值范围P1,P2.....PN,并基于预设分数求取关系式
Figure BDA0003189450530000071
求取目标可调参数对应的重要性分数。
具体地,对于分布式存储系统的任一可调参数(称为目标可调参数),本申请均进行如下操作:将目标可调参数的取值范围划分为N组取值范围P1,P2.....PN,如目标可调参数的取值范围为A~B,将目标可调参数的取值范围划分为3组取值范围:A~A1、A1~A2、A2~B(A<A1<A2<B),然后基于预设分数求取关系式
Figure BDA0003189450530000072
求取目标可调参数对应的重要性分数p_score,其中,PN为第N组取值范围;
Figure BDA0003189450530000073
为配置向量集C中目标可调参数p取值落在第i组取值范围Pi的个数;|C|为配置向量集C中配置向量个数;
Figure BDA0003189450530000074
为配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差。
需要说明的是,可调参数的重要性分数越高,此可调参数对系统性能影响越大。
步骤S4:将各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。
具体地,本申请将分布式存储系统的各可调参数对应的重要性分数进行排序,具体可从大到小进行排序,即越靠前排列的可调参数对应的重要性分数越高,对系统性能影响越大。可以理解的是,选择对分布式存储系统的性能影响越大的参数进行调整,越有助于提升分布式存储系统的性能。本申请在将分布式存储系统的各可调参数对应的重要性分数进行排序之后,便可方便识别出对系统性能影响较大的可调参数,以便有针对性的进行人工调优或者自动调优,对分布式存储系统的性能优化具有重要意义。
可见,本申请可计算分布式存储系统的各可调参数的重要性分数,可调参数的重要性分数越高,说明此可调参数对系统性能影响越大,从而便于识别出对系统性能影响较大的可调参数进行系统调优,进而有利于分布式存储系统的性能优化。
在上述实施例的基础上:
作为一种可选的实施例,将分布式存储系统的各可调参数拼接起来,得到配置向量的过程,包括:
对分布式存储系统的全局配置文件进行解析,得到分布式存储系统的可调参数全集;其中,每一个可调参数均包括名称、类型及其默认值;
将分布式存储系统的各可调参数拼接起来,得到配置向量。
具体地,分布式存储系统的全局配置文件中包含可调参数全集,具体每一个可调参数均包括名称、类型及其默认值,则本申请对分布式存储系统的全局配置文件进行解析,便可得到分布式存储系统的可调参数全集,然后将分布式存储系统的各可调参数拼接起来,得到配置向量。
作为一种可选的实施例,对配置向量内各可调参数进行多次采样,得到配置向量集的过程,包括:
根据各可调参数的类型相应确定各可调参数的取值范围;
采用均匀随机算法,将各可调参数均从0到1之间采样,并将各可调参数的采样值相应映射到各可调参数的取值范围,得到采样映射后的配置向量;
根据各可调参数的类型及其采样粒度大小,对各可调参数进行多次采样,得到配置向量集。
具体地,本申请对配置向量内任一可调参数(称为目标可调参数)均进行如下采样过程:根据目标可调参数的类型确定目标可调参数的取值范围,然后采用均匀随机算法,将目标可调参数从0到1之间采样,并将目标可调参数的采样值映射到目标可调参数的取值范围,得到目标可调参数的实际参数值。比如,目标可调参数的取值范围为[50,100],即目标可调参数对应的最小值为50、最大值为100,目标可调参数的采样值为0.5,则目标可调参数的采样值映射到[50,100]的实际参数值为75。
按照上述采样过程,对配置向量内各可调参数进行单次采样后,可得到单次采样映射后的配置向量。同理,按照上述采样过程,对配置向量内各可调参数进行多次采样,可得到多个配置向量,从而构成配置向量集。
需要说明的是,可调参数的类型不同,对可调参数可以采样的次数可能有所不同,比如,布尔型参数只要真(1)和假(0)两种取值,所以布尔型参数最多只能采样两次,因此,需要根据各可调参数的类型及其采样粒度大小,对各可调参数进行多次采样,得到配置向量集。
作为一种可选的实施例,各可调参数的类型包括浮点型、整型、布尔型及枚举型;
根据各可调参数的类型相应确定各可调参数的取值范围的过程,包括:
将浮点型和整型的可调参数的最小值设定为其默认值的一半、最大值设定为其默认值的两倍;
将布尔型的可调参数的最小值设定为0、最大值设定为1;
将枚举型的可调参数对应的取值列表中最大最小值,相应作为枚举型的可调参数的最大最小值。
具体地,分布式存储系统的各可调参数的类型包括浮点型、整型、布尔型及枚举型,其中,对于浮点型和整型的可调参数,设定其最小值为默认值的一半,最大值为默认值的两倍;对于布尔型的可调参数,设定其最小值为假(0),最大值为真(1);对于枚举型的可调参数,确定其取值列表,并从小到大排序,设定其最小值为列表的第一个值,设定其最大值为列表的最后一个值,比如,星期是一个枚举型的可调参数,其取值列表为星期一(1)、星期二(2)、星期三(3)、星期四(4)、星期五(5)、星期六(6)、星期日(7),则设定其最小值为星期一(1),设定其最大值为星期日(7)。
作为一种可选的实施例,将目标可调参数的取值范围划分为N组取值范围的过程,包括:
将浮点型和整型的可调参数的取值范围平均分成多组;
将布尔型的可调参数的取值范围分成2组;
将枚举型的可调参数的取值范围分成与其对应的取值列表长度相同的分组。
具体地,本申请根据分布式存储系统的各可调参数的类型,相应确定各可调参数的取值范围的分组,具体是将浮点型和整型的可调参数的取值范围平均分成多组;将布尔型的可调参数的取值范围分成2组(真、假各一组);将枚举型的可调参数的取值范围分成与其对应的取值列表长度相同的分组(如星期分为七组,星期一(1)、星期二(2)、星期三(3)、星期四(4)、星期五(5)、星期六(6)、星期日(7)各为一组)。随着配置采样次数的增多,参数采样值会落在不同的分组里。
作为一种可选的实施例,配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差的求取过程,包括:
将配置向量集C中任一配置向量配置到分布式存储系统中,并重启系统生效,且运行分布式存储系统的客户端进行预设时长的IO读写操作,以在运行结束后统计客户端的带宽;
基于预设相对标准差求取关系式
Figure BDA0003189450530000101
求取配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差
Figure BDA0003189450530000102
其中,bwi为第i个配置向量对应的带宽,μ是配置向量集C中所有配置向量对应的带宽的均值。
具体地,对于配置向量集C中任一配置向量(称为目标配置向量),本申请均进行如下操作:将目标配置向量配置到分布式存储系统中,并重启系统生效,然后运行分布式存储系统的客户端进行预设时长(如100秒)的IO读写操作,并在运行结束后统计客户端的带宽bw。则配置向量集C中每个配置向量依次配置到分布式存储系统中,可得到每个配置向量对应的带宽bw。
然后,基于预设相对标准差求取关系式
Figure BDA0003189450530000103
便可求取配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差:
Figure BDA0003189450530000111
其中,bwi为配置向量集C中第i个配置向量对应的带宽,μ是配置向量集C中所有配置向量对应的带宽的均值。
需要说明的是,将越重要的参数的取值固定,客户端的带宽波动就会越小,遍历参数分组并计算相对标准差,加和取反,这样当参数越重要的时候,p_score就会越大。
请参照图2,图2为本发明实施例提供的一种分布式存储系统的调参选择系统的结构示意图。
该分布式存储系统的调参选择系统包括:
参数拼接模块1,用于将分布式存储系统的各可调参数拼接起来,得到配置向量;
参数采样模块2,用于对配置向量内各可调参数进行多次采样,得到配置向量集C=[c1,c2.....cn];其中,cn为第n次采样对应的配置向量;
分数求取模块3,用于将目标可调参数的取值范围划分为N组取值范围P1,P2.....PN,并基于预设分数求取关系式
Figure BDA0003189450530000112
求取目标可调参数对应的重要性分数p_score;其中,目标可调参数为任一可调参数;N为大于1的整数;
Figure BDA0003189450530000113
为配置向量集C中目标可调参数p取值落在第i组取值范围Pi的个数;|C|为配置向量集C中配置向量个数;
Figure BDA0003189450530000114
为配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差;
分数排序模块4,用于将各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。
作为一种可选的实施例,参数拼接模块1具体用于:
对分布式存储系统的全局配置文件进行解析,得到分布式存储系统的可调参数全集;其中,每一个可调参数均包括名称、类型及其默认值;
将分布式存储系统的各可调参数拼接起来,得到配置向量。
作为一种可选的实施例,配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差的求取过程,包括:
将配置向量集C中任一配置向量配置到分布式存储系统中,并重启系统生效,且运行分布式存储系统的客户端进行预设时长的IO读写操作,以在运行结束后统计客户端的带宽;
基于预设相对标准差求取关系式
Figure BDA0003189450530000121
求取配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差
Figure BDA0003189450530000122
其中,bwi为第i个配置向量对应的带宽,μ是配置向量集C中所有配置向量对应的带宽的均值。
本申请提供的调参选择系统的介绍请参考上述调参选择方法的实施例,本申请在此不再赘述。
本申请还提供了一种分布式存储系统的调参选择装置,包括:
存储器,用于存储计算机程序;
处理器,用于在执行计算机程序时实现上述任一种分布式存储系统的调参选择方法的步骤。
本申请提供的调参选择装置的介绍请参考上述调参选择方法的实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种分布式存储系统的调参选择方法,其特征在于,包括:
将分布式存储系统的各可调参数拼接起来,得到配置向量;
对所述配置向量内各可调参数进行多次采样,得到配置向量集C=[c1,c2.....cn];其中,cn为第n次采样对应的配置向量;
将目标可调参数的取值范围划分为N组取值范围P1,P2.....PN,并基于预设分数求取关系式
Figure FDA0003189450520000011
求取所述目标可调参数对应的重要性分数p_score;其中,所述目标可调参数为任一所述可调参数;N为大于1的整数;
Figure FDA0003189450520000012
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的个数;|C|为所述配置向量集C中配置向量个数;
Figure FDA0003189450520000013
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差;
将所述各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。
2.如权利要求1所述的分布式存储系统的调参选择方法,其特征在于,将分布式存储系统的各可调参数拼接起来,得到配置向量的过程,包括:
对所述分布式存储系统的全局配置文件进行解析,得到所述分布式存储系统的可调参数全集;其中,每一个可调参数均包括名称、类型及其默认值;
将所述分布式存储系统的各可调参数拼接起来,得到配置向量。
3.如权利要求2所述的分布式存储系统的调参选择方法,其特征在于,对所述配置向量内各可调参数进行多次采样,得到配置向量集的过程,包括:
根据所述各可调参数的类型相应确定所述各可调参数的取值范围;
采用均匀随机算法,将所述各可调参数均从0到1之间采样,并将所述各可调参数的采样值相应映射到所述各可调参数的取值范围,得到采样映射后的配置向量;
根据所述各可调参数的类型及其采样粒度大小,对所述各可调参数进行多次采样,得到配置向量集。
4.如权利要求3所述的分布式存储系统的调参选择方法,其特征在于,所述各可调参数的类型包括浮点型、整型、布尔型及枚举型;
根据所述各可调参数的类型相应确定所述各可调参数的取值范围的过程,包括:
将所述浮点型和所述整型的可调参数的最小值设定为其默认值的一半、最大值设定为其默认值的两倍;
将所述布尔型的可调参数的最小值设定为0、最大值设定为1;
将所述枚举型的可调参数对应的取值列表中最大最小值,相应作为所述枚举型的可调参数的最大最小值。
5.如权利要求4所述的分布式存储系统的调参选择方法,其特征在于,将目标可调参数的取值范围划分为N组取值范围的过程,包括:
将所述浮点型和所述整型的可调参数的取值范围平均分成多组;
将所述布尔型的可调参数的取值范围分成2组;
将所述枚举型的可调参数的取值范围分成与其对应的取值列表长度相同的分组。
6.如权利要求1-5任一项所述的分布式存储系统的调参选择方法,其特征在于,所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差的求取过程,包括:
将所述配置向量集C中任一配置向量配置到所述分布式存储系统中,并重启系统生效,且运行所述分布式存储系统的客户端进行预设时长的IO读写操作,以在运行结束后统计所述客户端的带宽;
基于预设相对标准差求取关系式
Figure FDA0003189450520000021
求取所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差
Figure FDA0003189450520000022
其中,bwi为第i个配置向量对应的带宽,μ是所述配置向量集C中所有配置向量对应的带宽的均值。
7.一种分布式存储系统的调参选择系统,其特征在于,包括:
参数拼接模块,用于将分布式存储系统的各可调参数拼接起来,得到配置向量;
参数采样模块,用于对所述配置向量内各可调参数进行多次采样,得到配置向量集C=[c1,c2.....cn];其中,cn为第n次采样对应的配置向量;
分数求取模块,用于将目标可调参数的取值范围划分为N组取值范围P1,P2.....PN,并基于预设分数求取关系式
Figure FDA0003189450520000031
求取所述目标可调参数对应的重要性分数p_score;其中,所述目标可调参数为任一所述可调参数;N为大于1的整数;
Figure FDA0003189450520000032
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的个数;|C|为所述配置向量集C中配置向量个数;
Figure FDA0003189450520000033
为所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差;
分数排序模块,用于将所述各可调参数对应的重要性分数进行排序,以从重要性分数大于预设分数阈值的可调参数中选择参数进行系统调优。
8.如权利要求7所述的分布式存储系统的调参选择系统,其特征在于,所述参数拼接模块具体用于:
对所述分布式存储系统的全局配置文件进行解析,得到所述分布式存储系统的可调参数全集;其中,每一个可调参数均包括名称、类型及其默认值;
将所述分布式存储系统的各可调参数拼接起来,得到配置向量。
9.如权利要求7-8任一项所述的分布式存储系统的调参选择系统,其特征在于,所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差的求取过程,包括:
将所述配置向量集C中任一配置向量配置到所述分布式存储系统中,并重启系统生效,且运行所述分布式存储系统的客户端进行预设时长的IO读写操作,以在运行结束后统计所述客户端的带宽;
基于预设相对标准差求取关系式
Figure FDA0003189450520000041
求取所述配置向量集C中目标可调参数p取值落在第i组取值范围Pi的相对标准差
Figure FDA0003189450520000042
其中,bwi为第i个配置向量对应的带宽,μ是所述配置向量集C中所有配置向量对应的带宽的均值。
10.一种分布式存储系统的调参选择装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在执行所述计算机程序时实现如权利要求1-6任一项所述的分布式存储系统的调参选择方法的步骤。
CN202110873232.8A 2021-07-30 2021-07-30 一种分布式存储系统的调参选择方法、系统及装置 Pending CN113760188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110873232.8A CN113760188A (zh) 2021-07-30 2021-07-30 一种分布式存储系统的调参选择方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110873232.8A CN113760188A (zh) 2021-07-30 2021-07-30 一种分布式存储系统的调参选择方法、系统及装置

Publications (1)

Publication Number Publication Date
CN113760188A true CN113760188A (zh) 2021-12-07

Family

ID=78788260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110873232.8A Pending CN113760188A (zh) 2021-07-30 2021-07-30 一种分布式存储系统的调参选择方法、系统及装置

Country Status (1)

Country Link
CN (1) CN113760188A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180136839A1 (en) * 2016-11-14 2018-05-17 Open Drives LLC Storage Optimization Based I/O Pattern Modeling
CN108446741A (zh) * 2018-03-29 2018-08-24 中国石油大学(华东) 机器学习超参数重要性评估方法、系统及存储介质
US20200057558A1 (en) * 2018-08-16 2020-02-20 Acronis International Gmbh Systems and methods for modifying storage system configuration using artificial intelligence
CN111045599A (zh) * 2019-10-31 2020-04-21 平安科技(深圳)有限公司 分布式存储系统的参数配置方法、装置及计算机设备
CN113010312A (zh) * 2021-03-11 2021-06-22 山东英信计算机技术有限公司 一种超参数调优方法、装置及存储介质
CN113064879A (zh) * 2021-03-12 2021-07-02 腾讯科技(深圳)有限公司 数据库参数调整方法、装置及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180136839A1 (en) * 2016-11-14 2018-05-17 Open Drives LLC Storage Optimization Based I/O Pattern Modeling
CN108446741A (zh) * 2018-03-29 2018-08-24 中国石油大学(华东) 机器学习超参数重要性评估方法、系统及存储介质
US20200057558A1 (en) * 2018-08-16 2020-02-20 Acronis International Gmbh Systems and methods for modifying storage system configuration using artificial intelligence
CN111045599A (zh) * 2019-10-31 2020-04-21 平安科技(深圳)有限公司 分布式存储系统的参数配置方法、装置及计算机设备
CN113010312A (zh) * 2021-03-11 2021-06-22 山东英信计算机技术有限公司 一种超参数调优方法、装置及存储介质
CN113064879A (zh) * 2021-03-12 2021-07-02 腾讯科技(深圳)有限公司 数据库参数调整方法、装置及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHEN CAO: "Carver: Finding Important Parameters for Storage System Tuning", PROCEEDINGS OF THE 18TH USENIX CONFERENCE ON FILE AND STORAGE TECHNOLOGIES, pages 43 - 57 *

Similar Documents

Publication Publication Date Title
US9129004B2 (en) Multi-interval quicksort algorithm for complex objects
CN110096345B (zh) 智能任务调度方法、装置、设备及存储介质
JP3817541B2 (ja) プログラムに基づいた応答時間ベースの作業負荷分配技法
WO2020108371A1 (en) Partitioning of deep learning inference with dynamic offloading
US20180341851A1 (en) Tuning of a machine learning system
CN110619423A (zh) 多任务预测方法、装置、电子设备及存储介质
US20060149695A1 (en) Management of database statistics
CN107103009B (zh) 一种数据处理方法及装置
US20150046478A1 (en) Hardware implementation of a tournament tree sort algorithm
EP3293641B1 (en) Data processing method and system
US11226972B2 (en) Ranking collections of document passages associated with an entity name by relevance to a query
CN110781145A (zh) 一种文件系统任务调度方法、装置、设备及可读存储介质
JP2022541370A (ja) データ強化ポリシーの更新方法、装置、デバイス及び記憶媒体
US20090288096A1 (en) Load balancing for image processing using multiple processors
CN113010312A (zh) 一种超参数调优方法、装置及存储介质
CN113177050A (zh) 一种数据均衡的方法、装置、查询系统及存储介质
CN113760188A (zh) 一种分布式存储系统的调参选择方法、系统及装置
US7797129B2 (en) Processing data to maintain an estimate of a running median
US9317335B2 (en) Reducing internal retention time of processing requests on a web system having different types of data processing structures
US8396875B2 (en) Online stratified sampling for classifier evaluation
CN112365333B (zh) 实时动态流量分配方法、系统、电子设备及存储介质
JP6203313B2 (ja) 特徴選択装置、特徴選択方法およびプログラム
JP7013569B2 (ja) コンテンツ要求に応答する際のコンピューティングリソースの効率的な使用
CN114398287A (zh) 一种测试方案生成方法及装置
CN112527482A (zh) 基于移动边缘云平台的任务管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination