CN112256209B - 一种云存储系统的参数配置优化方法及优化系统 - Google Patents
一种云存储系统的参数配置优化方法及优化系统 Download PDFInfo
- Publication number
- CN112256209B CN112256209B CN202011208429.1A CN202011208429A CN112256209B CN 112256209 B CN112256209 B CN 112256209B CN 202011208429 A CN202011208429 A CN 202011208429A CN 112256209 B CN112256209 B CN 112256209B
- Authority
- CN
- China
- Prior art keywords
- performance
- parameter
- parameter configuration
- value
- cloud storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003860 storage Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000005457 optimization Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 230000002068 genetic effect Effects 0.000 claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims description 37
- 238000007637 random forest analysis Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 10
- 238000000513 principal component analysis Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000035772 mutation Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/12—Computing arrangements based on biological models using genetic models
- G06N3/126—Evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Pure & Applied Mathematics (AREA)
- Molecular Biology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Genetics & Genomics (AREA)
- Physiology (AREA)
- Algebra (AREA)
Abstract
本发明提出了一种云存储系统的参数配置优化方法及优化系统,通过对参数进行降维,选取其中对系统影响度最大的参数,确保参数采样的高效性;通过gibbs采样算法有效挖掘参数之间的关联性,确保数据集的有效性;通过遗传算法来搜寻最优参数配置列表,最后针对当前系统安全态下利用推荐算法进行有效的参数配置推荐,能够有效解决现有云存储平台参数配置综合性能提升不明显的问题;本发明方法通过建立综合性能指标,综合考虑了系统的读写和延迟性能。
Description
技术领域
本发明属于智能电网技术领域,具体涉及一种云存储系统的参数配置优化方法及优化系统。
背景技术
智能电网的信息系统是保障电力行业正常运行的基础,而智能电网中各种数据的高效存储是电力系统的数据命脉。云存储系统平台已经成为当前主流的系统架构之一,大量的企业开始大规模运用云存储平台部署自己的应用。但是大量的问题也随之而来,Ceph云存储系统性能受Ceph配置参数的显著影响问题就是其中之一。在优化云存储系统性能时,并不是优化所有的参数,而是根据专家的经验选取影响度大的参数进行优化。在构建系统参数优化体系时,由于系统的配置参数种类繁多、含义复杂,导致容易遗失关键参数,难以实现快速准确的调整优化参数。如何快速准确的调整系统的参数配置就成为云存储环境下的性能优化的重要组成部分。
传统的存储参数优化方法,在一定程度上解决存储系统繁琐的参数配置调整问题,但未能考虑存储系统参数之间的空间关联性,不能很好地解决Ceph系统的参数配置优化问题。
发明内容
发明目的:为解决现有云存储平台参数配置综合性能提升不明显的问题,本发明提出了一种云存储系统的参数配置优化方法及优化系统。
技术方案:本发明公开了一种云存储系统的参数配置优化方法,包括以下步骤:
步骤1:采用主成分分析算法对云存储系统进行有效特征提取;
步骤2:对有效特征进行高维采样,得到参数样本,获取参数样本对应的性能值,基于参数样本和其对应的性能值构建样本集;
步骤3:构建预测性能模型;
步骤4:采用预测性能模型,对参数样本的性能值进行预测,将参数样本及其对应的性能预测值作为步骤5的参数配置及其对应的性能预测值的参与计算;
步骤5:将参数配置作为遗传算法的输入值,将参数配置的性能预测值作为适应度值,执行交叉、变异操作,生成新的参数配置,将新的参数配置作为预测性能模型的输入,得到与其对应的性能预测值;重复执行步骤5,直至达到设定迭代次数,得到最优参数配置;
步骤6:将当前电网运行的有效负载所用的参数与步骤5得到的最优参数配置进行相似度计算,选出相似度符合预设条件的参数配置进行推荐。
进一步的,所述步骤1具体包括:
S102:根据式(1)计算各个特征的均值;
S103:将原始数据矩阵X中的元素减去其所在行的均值,并用相减得到的数据替换原先元素;
S104:根据式(2)对经过S103替换后的矩阵中的元素进行缩放;
式中,max_xj表示位于第j行的数据的最大值,min_xj表示位于第j行的数据的最小值;
S105:基于S104的结果,根据式(3)计算经数据缩放后的矩阵的协方差矩阵,并求解协方差矩阵的特征值及其对应的特征向量;
S106:将S105求解得到的特征向量按大小从上到下排列,取前K行构成变换矩阵P;
S107:根据式(4)得到有效数据矩阵Y,有效数据矩阵Y中各列即为有效特征:
Y=PX (4)。
进一步的,所述步骤2具体包括:
对有效特征进行高维采样,得到参数样本x=(x1,x2,...,xK);
将参数x=(x1,x2,...,xK)分别输入至云存储系统中,获取各自对应的读写性能值IOPS和延迟性能值latency;
根据下式得到参数样本对应的综合性能指标:
式中,w1表示读写性能值IOPS的权重,w2表示延迟性能的权重;
采用参数x=(x1,x2,...,xK)及其对应的综合性能指标,构建样本集S,所述样本集S中的每个样本表示为si={xi,perfi}。
进一步的,所述步骤3包括:
采用样本集对随机森林模型进行训练和测试,得到预测性能模型。
进一步的,所述步骤6中的相似度根据下式计算得到:
式中,Iu和Iv表示系统性能特征对参数u和v评分结果的项目集合,Iu,v表示共同评分项目集合,表示参数u和v评分的均值,ru,i,rv,i表示参数u和v对在性能特征i下的评分,Wi数值越高表示越越贴合当前用户的需求,w3,w4分别表示权重。
本发明还公开了一种云存储系统的参数配置优化系统,包括:
特征提取模块,用于采用主成分分析算法对云存储系统进行有效特征提取;
样本集构建模块,用于对特征提取模块输出的有效特征进行高维采样,得到参数样本,获取参数样本对应的性能值,基于参数样本和其对应的性能值构建样本集;
预测性能模块,用于进行性能预测;
参数配置寻优模块,用于利用遗传算法和预测性能模块,以样本集构建模块输出的参数样本为初始输入,以其对应的性能预测值作为初始适应度值进行寻优,得到最优参数配置;
参数配置推荐模块,用于将当前电网运行的有效负载所用的参数与参数配置寻优模块输出的最优参数配置进行相似度计算,选出相似度符合预设条件的参数配置进行推荐。
进一步的,所述性能值为综合性能指标,所述综合性能指标根据下式得到:
式中,w1表示读写性能值IOPS的权重,w2表示延迟性能的权重。
进一步的,所述预测性能模块采用样本集构建模块输出的样本集对随机森林模型进行训练和测试得到。
进一步的,相似度根据下式计算得到:
式中,Iu和Iv表示系统性能特征对参数u和v评分结果的项目集合,Iu,v表示共同评分项目集合,表示参数u和v评分的均值,ru,i,rv,i表示参数u和v对在性能特征i下的评分,Wi数值越高表示越越贴合当前用户的需求,w3,w4分别表示权重。
有益效果:本发明与现有技术相比,具有以下优点:
(1)本发明方法通过对参数进行降维,选取其中对系统影响度最大的参数,确保参数采样的高效性;通过gibbs采样算法有效挖掘参数之间的关联性,确保数据集的有效性;通过遗传算法来搜寻最优参数配置列表,最后针对当前系统安全态下利用推荐算法进行有效的参数配置推荐,能够有效解决现有云存储平台参数配置综合性能提升不明显的问题;
(2)本发明方法通过建立综合性能指标,综合考虑了系统的读写和延迟性能;
(3)本发明方法根据Ceph配置参数以复杂的非线性关系相互作用,通过选取随机森林来为Ceph文件系统构建性能预测模型;
(4)实验结果表明,本发明方法可以很好的进行ceph的参数配置优化,在保障系统稳定运行的情况下,使得Ceph文件系统综合性能平均提升1.5-3倍。
附图说明
图1为本发明的流程图。
具体实施方式
现进一步阐述本发明的技术方案。
如图1所示的一种云存储系统的参数配置优化方法,具体包括以下步骤:
步骤1:云存储系统的参数众多,种类复杂,本发明仅选取对系统影响较大的特征,进而可降低需要优化的特征的维度,有效保障系统配置优化的效率;具体的,收集云存储系统的一系列特征集合列表(参数名称parameter name,参数最大值max_value,参数最小值min_value,性能值performance),通过主成分分析算法(PCA算法)进行特征选择,选出对云存储系统性能影响较大的特征;
现对通过主成分分析算法(PCA算法)进行特征选择,说明如下:
S102:根据式(1)计算各个特征的均值;
S104:根据式(2)对经过S103替换后的矩阵中的元素进行缩放;
式中,max_xj表示位于第j行的数据的最大值,min_xj表示位于第j行的数据的最小值;
S105:基于S140的结果,根据式(3)计算经缩放后的矩阵的协方差矩阵,并求解协方差矩阵的特征值及其对应的特征向量;
S106:将S105求解得到的特征向量按大小从上到下排列,取前K行构成变换矩阵P;
S107:根据式(4)得到有效数据矩阵Y:
Y=PX (4)。
步骤2:对有效数据矩阵Y进行分布拟合和通过吉布斯采样算法(gibbs)进行高维采样,得到参数x=(x1,x2,...,xK),将参数x=(x1,x2,...,xK)分别输入至云存储系统中,获取各自对应的读写性能值IOPS和延迟性能值latency,在本发明中,通过建立综合性能指标perf来表征各参数所对应的性能值:
式中,w1表示读写性能值IOPS的权重,w2表示延迟性能的权重,在一些实施例中,w1=0.5,w2=0.5。
采用参数x=(x1,x2,...,xK)及其对应的综合性能指标(perf),构建样本集S,样本集S中的每个样本表示为si={xi,perfi}。
现对通过吉布斯采样算法(gibbs)进行高维采样,得到参数样本x=(x1,x2,...,xK),说明如下:
输入拟合参数的平稳分布π(x1,x2,...,xK),设定状态转移次数阈值n1,需要的样本个数n2;
for t=0 to n1+n2-1:
...
步骤3:本发明采用随机森林构建性能预测模型,随机森林是一种强大的集成模型,是bagging算法的一种扩展,对过度拟合具有很强的鲁棒性,并且它没有对预测变量做出任何假设;将样本集S经过交叉取样后,分成训练集Str和测试集Ste,最终目标是采用经过训练和测试后的随机森林模型进行综合指标性能预测。
现对随机森林建模过程说明如下:
输入训练集Str,从训练集Str全部样本中选取大小为B的bootstrap样本,对B个bootstrap样本选择k个特征,用建立决策树的方式获得最佳分割点,重复m次,产生m棵决策树,通过聚合B个bootstrap样本树来预测新数据。
现对上述过程提供如下伪代码:
输入:训练集Str;训练样本B
输出:预测性能perfi
步骤4:现通过伪代码进行说明。
输入:初始种群p(0),迭代计数器t,交叉发生的概率pc,变异发生的概率pm,种群规模M,终止进化的代数T;
根据上述伪代码可知,本步骤是将步骤2得到的参数x=(x1,x2,...,xK)作为性能预测模型的输入,得到其对应的性能预测值,将参数x=(x1,x2,...,xK)作为遗传算法的输入,其对应的性能预测值作为遗传算法的适应度值,通过采用遗传算法,将参数x=(x1,x2,...,xK)进行交叉、变异,得到一组新的参数配置,新的参数配置经过性能预测模型预测,得到其对应的性能预测值,再将该新的参数配置作为遗传算法的输入,其对应的性能预测值作为遗传算法的适应度值,通过采用遗传算法,将该新的参数配置进行交叉、变异,得到另一组新的参数配置,重复上述过程,直至找到最优参数配置。
将一组参数配置x=(x1,x2,...,xK)作为遗传算法中的一条染色体,其中的每一个参数值代表一个基因,性能值作为遗传算法的适应度值。变异概率pm变异实质上是对参数配置取值空间的深度搜索,变异概率取值太大则会使遗传算法成为随机搜索算法,并且由于随机性太大,遗传算法在搜索上会花费会更多的时间,故pm取值为0.01;交叉概率pc交叉概率影响了配置方案的交替速度,选取较高的交叉概率使算法效率更高,这里pc取0.8;种群规模M与迭代次数T越大,可以增加搜索规模,提高搜索精度,但是太大会增加时间开销,降低搜索的效率,本发明将M和T均设置为150。
步骤5:针对当前的电网运行有效负载,将负载所用参数与步骤4得到的最优参数配置根据式(6)进行相似度计算,如果仅仅考虑系统参数之间的相似性情况,容易导致系统性能误差大,同时会造成严重的性能瓶颈,故而将负载运行的安全性能情况考虑进相似度计算中,可以在保证系统安全稳定性的前提下,有效提高系统的性能最后选择出系统安全稳定状态下的参数配置进行推荐,在一些实施例中,通过提供5组参数配置供用户选择。
式中,Iu和Iv表示系统性能特征对参数u和v评分结果的项目集合,Iu,v表示共同评分项目集合,表示参数u和v评分的均值,ru,i,rv,i表示参数u和v对在性能特征i下的评分,Wi数值越高表示越越贴合当前用户的需求,w3,w4分别表示权重。
在上述方法的基础上,本发明还提出了一种云存储系统的参数配置优化系统,包括:
特征提取模块,用于采用主成分分析算法对云存储系统进行有效特征提取;
样本集构建模块,用于对特征提取模块输出的有效特征进行高维采样,得到参数样本,获取参数样本对应的性能值,基于参数样本和其对应的性能值构建样本集;
预测性能模块,用于进行性能预测;
参数配置寻优模块,用于利用遗传算法和预测性能模块,以样本集构建模块输出的参数样本为初始输入,以其对应的性能预测值作为初始适应度值进行寻优,得到最优参数配置;
参数配置推荐模块,用于将当前电网运行的有效负载所用的参数与参数配置寻优模块输出的最优参数配置进行相似度计算,选出相似度符合预设条件的参数配置进行推荐。
上述提及的性能值为综合性能指标,该综合性能指标根据下式得到:
式中,w1表示读写性能值IOPS的权重,w2表示延迟性能的权重。
上述提及的预测性能模块采用样本集构建模块输出的样本集对随机森林模型进行训练和测试得到。
上述提及的相似度根据下式计算得到:
式中,Iu和Iv表示系统性能特征对参数u和v评分结果的项目集合,Iu,v表示共同评分项目集合,表示参数u和v评分的均值,ru,i,rv,i表示参数u和v对在性能特征i下的评分,Wi数值越高表示越越贴合当前用户的需求,w3,w4分别表示权重。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种云存储系统的参数配置优化方法,其特征在于:包括以下步骤:
步骤1:采用主成分分析算法对云存储系统进行有效特征提取;
步骤2:对有效特征进行高维采样,得到参数样本,获取参数样本对应的性能值,基于参数样本和其对应的性能值构建样本集;
步骤3:构建预测性能模型;
步骤4:采用预测性能模型,对参数样本的性能值进行预测,将参数样本及其对应的性能预测值作为步骤5的参数配置及其对应的性能预测值的参与计算;
步骤5:将参数配置作为遗传算法的输入值,将参数配置的性能预测值作为适应度值,执行交叉、变异操作,生成新的参数配置,将新的参数配置作为预测性能模型的输入,得到与其对应的性能预测值;重复执行步骤5,直至达到设定迭代次数,得到最优参数配置;
步骤6:将当前电网运行的有效负载所用的参数与步骤5得到的最优参数配置进行相似度计算,选出相似度符合预设条件的参数配置进行推荐。
2.根据权利要求1所述的一种云存储系统的参数配置优化方法,其特征在于:所述步骤1具体包括:
S102:根据式(1)计算各个特征的均值;
S103:将原始数据矩阵X中的元素减去其所在行的均值,并用相减得到的数据替换原先元素;
S104:根据式(2)对经过S103替换后的矩阵中的元素进行缩放;
式中,max_xj表示位于第j行的数据的最大值,min_xj表示位于第j行的数据的最小值;
S105:基于S104的结果,根据式(3)计算经数据缩放后的矩阵的协方差矩阵,并求解协方差矩阵的特征值及其对应的特征向量;
S106:将S105求解得到的特征向量按大小从上到下排列,取前K行构成变换矩阵P;
S107:根据式(4)得到有效数据矩阵Y,有效数据矩阵Y中各列即为有效特征:
Y=PX (4)。
4.根据权利要求1所述的一种云存储系统的参数配置优化方法,其特征在于:所述步骤3包括:
采用样本集对随机森林模型进行训练和测试,得到预测性能模型。
6.一种云存储系统的参数配置优化系统,其特征在于:包括:
特征提取模块,用于采用主成分分析算法对云存储系统进行有效特征提取;
样本集构建模块,用于对特征提取模块输出的有效特征进行高维采样,得到参数样本,获取参数样本对应的性能值,基于参数样本和其对应的性能值构建样本集;
预测性能模块,用于进行性能预测;
参数配置寻优模块,用于利用遗传算法和预测性能模块,以样本集构建模块输出的参数样本为初始输入,以其对应的性能预测值作为初始适应度值进行寻优,得到最优参数配置;
参数配置推荐模块,用于将当前电网运行的有效负载所用的参数与参数配置寻优模块输出的最优参数配置进行相似度计算,选出相似度符合预设条件的参数配置进行推荐。
8.根据权利要求6所述的一种云存储系统的参数配置优化系统,其特征在于:所述预测性能模块采用样本集构建模块输出的样本集对随机森林模型进行训练和测试得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208429.1A CN112256209B (zh) | 2020-11-03 | 2020-11-03 | 一种云存储系统的参数配置优化方法及优化系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011208429.1A CN112256209B (zh) | 2020-11-03 | 2020-11-03 | 一种云存储系统的参数配置优化方法及优化系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112256209A CN112256209A (zh) | 2021-01-22 |
CN112256209B true CN112256209B (zh) | 2022-09-09 |
Family
ID=74267928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011208429.1A Active CN112256209B (zh) | 2020-11-03 | 2020-11-03 | 一种云存储系统的参数配置优化方法及优化系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256209B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114415945A (zh) * | 2021-12-28 | 2022-04-29 | 航天科工网络信息发展有限公司 | 一种分布式存储系统的参数调优方法、系统、设备、介质 |
CN115185805B (zh) * | 2022-09-13 | 2023-01-24 | 浪潮电子信息产业股份有限公司 | 一种存储系统的性能预测方法、系统、设备及存储介质 |
CN115392592B (zh) * | 2022-10-25 | 2023-03-24 | 浪潮电子信息产业股份有限公司 | 一种存储产品参数配置推荐方法、装置、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214605A (zh) * | 2018-11-12 | 2019-01-15 | 国网山东省电力公司电力科学研究院 | 电力系统短期负荷概率预测方法、装置及系统 |
-
2020
- 2020-11-03 CN CN202011208429.1A patent/CN112256209B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214605A (zh) * | 2018-11-12 | 2019-01-15 | 国网山东省电力公司电力科学研究院 | 电力系统短期负荷概率预测方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
"一种新的基于NGA/PCA 和SVM 的特征提取方法";孙见青等;《系统仿真学报》;20071031;全文 * |
"基于随机森林和遗传算法的Ceph 参数自动调优";陈禹等;《计算机应用》;20200210;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112256209A (zh) | 2021-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112256209B (zh) | 一种云存储系统的参数配置优化方法及优化系统 | |
Xia et al. | A boosted decision tree approach using Bayesian hyper-parameter optimization for credit scoring | |
Kulkarni et al. | Pruning of random forest classifiers: A survey and future directions | |
US20060230018A1 (en) | Mahalanobis distance genetic algorithm (MDGA) method and system | |
JP2008538429A (ja) | ゼータ統計を用いるモデル最適化方法及びシステム | |
CN114328048A (zh) | 一种磁盘故障预测方法及装置 | |
CN111460316B (zh) | 一种面向知识系统的个性化推荐方法及计算机存储介质 | |
Pandey et al. | Gold and diamond price prediction using enhanced ensemble learning | |
Idris et al. | Ensemble based efficient churn prediction model for telecom | |
Rostami et al. | A clustering based genetic algorithm for feature selection | |
CN104732067A (zh) | 一种面向流程对象的工业过程建模预测方法 | |
Huang et al. | Harnessing deep learning for population genetic inference | |
Hsu et al. | Dynamically optimizing parameters in support vector regression: An application of electricity load forecasting | |
Fu et al. | Quasi-Newton Hamiltonian Monte Carlo. | |
Lorena et al. | Evaluation of noise reduction techniques in the splice junction recognition problem | |
CN110955702A (zh) | 一种基于改进遗传算法的模式数据挖掘方法 | |
CN112070200A (zh) | 一种谐波群优化方法及其应用 | |
Sanchez | Reconstructing our past˸ deep learning for population genetics | |
US20230334360A1 (en) | Model-independent feature selection | |
CN113837474A (zh) | 区域土壤重金属污染指数预测方法及装置 | |
Fowler et al. | A Comparison of Machine Learning Models for Predicting CRISPR/Cas On-target Efficacy | |
Nangi et al. | Autosumm: Automatic model creation for text summarization | |
Ansary | Machine Learning for Predicting the Stock Price Direction with Trading Indicators | |
CN117435580B (zh) | 一种数据库参数筛选方法及相关设备 | |
Ding et al. | Evolutionary computing optimization for parameter determination and feature selection of support vector machines |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |