CN114610234B

CN114610234B - 一种存储系统参数推荐方法及相关装置

Info

Publication number: CN114610234B
Application number: CN202210191495.5A
Authority: CN
Inventors: 王团结; 曹琪; 李强
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2024-02-20
Anticipated expiration: 2042-02-28
Also published as: CN114610234A

Abstract

本申请公开了一种存储系统参数推荐方法，包括：基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据；基于所述主成分数据确定聚类数量；基于所述聚类数量对所述主成分数据进行聚类操作，得到聚类结果；基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统。通过基于主成分分析方式对性能数据进行数据降维处理，以便剔除数据中的冗余数据和无关数据，然后基于确定的聚类数量对主成分数据进行聚类，最后基于聚类结果进行参数推荐，而不是人工调参，实现对存储系统进行自动调优，提高性能利用率。本申请还公开了一种存储系统参数推荐装置、服务器以及计算机可读存储介质，具有以上有益效果。

Description

一种存储系统参数推荐方法及相关装置

技术领域

本申请涉及计算机技术领域，特别涉及一种存储系统参数推荐方法、存储系统参数推荐装置、服务器以及计算机可读存储介质。

背景技术

随着信息技术不断发展，出现了AIOps，即Artificial Intelligence for ITOperations，智能运维，将人工智能应用于运维领域，基于已有的运维数据(日志、监控信息、应用信息等)，通过机器学习的方式来进一步解决自动化运维没办法解决的问题。

相关技术中，分布式存储系统中具有大量的可调参数，通常默认的参数配置由供应商提供，这些参数值的组合一般都不是最优的参数集合。一般的参数调整是由系统管理员依据自身的专业知识和经验完成的，由于存储系统的复杂性不断提升，手动的调参将无法适应大规模的存储系统，并且人工调参具有无法全天候的监控以及高额的人力成本等缺点。

因此，如何实现对存储系统进行自动调优，提高性能利用率是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种存储系统参数推荐方法、存储系统参数推荐装置、服务器以及计算机可读存储介质，实现对存储系统进行自动调优，提高性能利用率。

为解决上述技术问题，本申请提供一种存储系统参数推荐方法，包括：

基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据；

基于所述主成分数据确定聚类数量；

基于所述聚类数量对所述主成分数据进行聚类操作，得到聚类结果；

基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统。

可选的，基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据，包括：

从数据源进行关键性能指标获取，得到所述性能数据；

将所述性能数据进行归一化处理，得到归一化数据；

基于主成分分析方式对所述归一化数据进行数据降维处理，得到主成分数据。

可选的，从数据源进行关键性能指标获取，得到所述性能数据，包括：

基于数据获取指令进行数据获取，得到原始性能数据；

将所述原始性能数据进行矩阵化处理，得到所述性能数据。

可选的，将所述性能数据进行归一化处理，得到归一化数据，包括：

将所述性能数据的三维性能矩阵中的每个观测值都进行归一化处理，得到所述归一化数据。

可选的，基于所述主成分数据确定聚类数量，包括：

计算所述主成分数据中所有性能切片数据之间的距离均值；

基于所述距离均值从所述所有性能切片数据中确定所述聚类数量。

可选的，基于所述聚类数量对所述主成分数据进行聚类操作，得到聚类结果，包括：

从所述主成分数据中获取所述聚类数量个初始质心；

基于所有所述初始质心进行迭代，当迭代结束时得到所述聚类结果。

可选的，基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统，包括：

基于所述聚类结果将所述待推荐性能数据进行分类，得到目标聚类；

从所述目标聚类中确定性能值最大的目标存储系统；

将所述目标存储系统的参数进行推荐。

本申请还提供一种存储系统参数推荐装置，包括：

数据降维模块，用于基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据；

聚类数据确定模块，用于基于所述主成分数据确定聚类数量；

数据聚类模块，用于基于所述聚类数量对所述主成分数据进行聚类操作，得到聚类结果；

参数推荐模块，用于基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统。

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的存储系统参数推荐方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的存储系统参数推荐方法的步骤。

本申请所提供的一种存储系统参数推荐方法，包括：基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据；基于所述主成分数据确定聚类数量；基于所述聚类数量对所述主成分数据进行聚类操作，得到聚类结果；基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统。

通过基于主成分分析方式对性能数据进行数据降维处理，以便剔除数据中的冗余数据和无关数据，然后基于确定的聚类数量对主成分数据进行聚类，最后基于聚类结果进行参数推荐，而不是人工调参，实现对存储系统进行自动调优，提高性能利用率。

本申请还提供一种存储系统参数推荐装置、服务器以及计算机可读存储介质，具有以上有益效果，在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种存储系统参数推荐方法的流程图；

图2为本申请实施例所提供的一种存储系统参数推荐装置的结构示意图。

具体实施方式

本申请的核心是提供一种存储系统参数推荐方法、存储系统参数推荐装置、服务器以及计算机可读存储介质，实现对存储系统进行自动调优，提高性能利用率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

因此，本申请提供一种存储系统参数推荐方法，通过基于主成分分析方式对性能数据进行数据降维处理，以便剔除数据中的冗余数据和无关数据，然后基于确定的聚类数量对主成分数据进行聚类，最后基于聚类结果进行参数推荐，而不是人工调参，实现对存储系统进行自动调优，提高性能利用率。

以下通过一个实施例，对本申请提供的一种存储系统参数推荐方法进行说明。

请参考图1，图1为本申请实施例所提供的一种存储系统参数推荐方法的流程图。

本实施例中，该方法可以包括：

S101，基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据；

可见，本步骤旨在基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据。其中，

其中，主成分分析(PCA，principal components analysis)方式，又称主分量分析。主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。因此，通过主成分分析可以将存在一定冗余的性能数据进行降维处理，实现对性能数据中冗余数据和次要指标进行剔除，以便留下主要的性能数据，即主成分数据。

进一步的，本步骤可以包括：

步骤1，从数据源进行关键性能指标获取，得到性能数据；

步骤2，将性能数据进行归一化处理，得到归一化数据；

步骤3，基于主成分分析方式对归一化数据进行数据降维处理，得到主成分数据。

可见，本可选方案中主要是说明如何进行数据降维处理并得到主成分分析后的数据。本可选方案中，从数据源进行关键性能指标获取，得到性能数据，将性能数据进行归一化处理，得到归一化数据，基于主成分分析方式对归一化数据进行数据降维处理，得到主成分数据。

进一步的，上一可选方案中步骤1可以包括：

步骤11，基于数据获取指令进行数据获取，得到原始性能数据；

步骤12，将原始性能数据进行矩阵化处理，得到性能数据。

可见，本可选方案中主要是说明如何获取到性能数据。本可选方案中，基于数据获取指令进行数据获取，得到原始性能数据，将原始性能数据进行矩阵化处理，得到性能数据。

进一步的，上一可选方案中步骤2可以包括：

将性能数据的三维性能矩阵中的每个观测值都进行归一化处理，得到归一化数据。

可见，本可选方案中主要是说明如何进行归一化处理。本可选方案中，将性能数据的三维性能矩阵中的每个观测值都进行归一化处理，得到归一化数据。

S102，基于主成分数据确定聚类数量；

在S101的基础上，本步骤旨在基于主成分数据确定聚类数量。也就是确定在主成分数据中可以聚类出几个质心。其中，确定聚类数量的方式可以采用现有技术提供的任意一种计算方式，在此不做具体限定。

进一步的，本步骤可以包括：

步骤1，计算主成分数据中所有性能切片数据之间的距离均值；

步骤2，基于距离均值从所有性能切片数据中确定聚类数量。

可见，本可选方案中主要是说明如何确定聚类数量。本可选方案中，计算主成分数据中所有性能切片数据之间的距离均值，基于距离均值从所有性能切片数据中确定聚类数量。

S103，基于聚类数量对主成分数据进行聚类操作，得到聚类结果；

在S102的基础上，本步骤旨在基于聚类数量对主成分数据进行聚类操作，得到聚类结果。也就是，聚类算法将应用IO模型聚合成簇，在每个簇中存在该簇对应的最优的参数，可以保持存储设备的高效运行。

其中，进行的聚类操作可以采用现有技术提供的任意一种聚类操作，在此不做具体限定。

进一步的，本步骤可以包括：

步骤1，从主成分数据中获取聚类数量个初始质心；

步骤2，基于所有初始质心进行迭代，当迭代结束时得到聚类结果。

可见，本可选方案中主要是说明如何进行聚类。本可选方案中，从主成分数据中获取聚类数量个初始质心，基于所有初始质心进行迭代，当迭代结束时得到聚类结果。

S104，基于聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统。

在S103的基础上，本步骤旨在基于聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统。也就是，通过IO负载映射锁定目标聚类，再将目标聚类中的最优配置实时推荐给新部署或需要性能优化的存储系统，达到存储性能优化的目标。

进一步的，本步骤可以包括：

步骤1，基于聚类结果将待推荐性能数据进行分类，得到目标聚类；

步骤2，从目标聚类中确定性能值最大的目标存储系统；

步骤3，将目标存储系统的参数进行推荐。

可加，本可选方案中主要是说明如何基于聚类结果进行参数推荐。本可选方案中，基于聚类结果将待推荐性能数据进行分类，得到目标聚类，从目标聚类中确定性能值最大的目标存储系统，将目标存储系统的参数进行推荐。

综上，本实施例通过基于主成分分析方式对性能数据进行数据降维处理，以便剔除数据中的冗余数据和无关数据，然后基于确定的聚类数量对主成分数据进行聚类，最后基于聚类结果进行参数推荐，而不是人工调参，实现对存储系统进行自动调优，提高性能利用率。

以下通过一个具体的实施例，对本申请提供一种存储系统参数推荐方法做进一步说明。

本实施例中，以分布式文件系统为例，执行命令ganesha_stat_tool show_nfs_ops采集分布式存储系统NFS(Network File System，网络文件系统)-Ganesha(NFS-Ganesha是一个用户空间NFS文件服务器)关键性能指标，返回结果如下图所示，其中每列含义分别为：IO(Input/Output，输入/输出)请求名称、接收到的请求个数、处理的请求个数、处理平均时延、处理最大时延、处理最小时延、请求等待平均时延、等待最大时延、等待最小时延。

NFS-Ganesha性能切片从侧面反映了当前正在运行的应用的IO模型，如从中可计算前端应用各种IO请求的比例关系、时延的分布规律以及当前的并发压力。

去除性能切片第一列IO请求，去除最后一行TOTAL加和，得到23*8二维性能切片矩阵，将所有存储系统采样的性能切片矩阵堆叠起来，形成n*23*8的三维性能矩阵P_raw，其中n是采样总次数。

然后，对P_raw进行归一化，将其不同量级的KPI统一转换到0-1之间。公式如下：

其中，kpi是KPI(Key Performance Indicator，关键性能指标)的观测值，TOTAL是KPI的加和。

处理后得到三维性能矩阵P_norm，消除了不同KPI之间及不同存储系统之间的量级差异。

接下来，执行PCA方法，即主成分分析方式，通过线性投影将高维的P_norm映射到低维的空间，PCA逆序输出每个主成分的解释方差比，解释方差比表示数据集的方差落在该主成分的百分比，选择累积解释方差比为80％时的维度数作为最终的压缩维度。

再次执行PCA方法，指定主成分数为最终的压缩维度数，对P_norm进行数据压缩，消除冗余信息，得到P_pca。

然后，自动确定聚类数量。确定聚类数量的过程可以包括：

步骤1，复制一份P_pca，从P_pca取出第i个性能切片，计算该性能切片与其他性能切片之间的欧式距离的均值μ_i，然后计算总体均值μ，计算公式如下：

步骤2，从P_pca中随机取出一个性能切片，将该性能切片作为一个聚类中心；

步骤3，将该性能切片从P_pca中删除；

步骤4，从P_pca中取出下一个性能切片，计算与聚类中心之间的距离，如果距离小于μ，则把该点加入到该聚类中心的成员列表，同时从P_pca中将该性能切片删除；

步骤5，遍历P_pca，执行步骤4；

步骤6，保存聚类中心及其成员列表；

步骤7，反复执行步骤2-6直到P_pca为空；

步骤8，输出K个聚类中心。

然后在确定聚类数量的基础上，进行聚类操作。

步骤1，复制一份P_pca，从P_pca随机选取K个初始质心；

步骤2，计算所有性能切片与质心的距离，将每个性能切片划分到最近的质心中形成聚类；

步骤3，计算每个聚类的平均值，作为新的质心；

步骤4，重复2-3，直到这K个质心收敛或达到最大迭代次数；

步骤5，输出K个质心。

最后基于聚类得到的多个质心进行参数推荐，过程可以包括：

步骤1，对于一个新部署或者待优化的分布式存储系统，采集其性能切片；

步骤2，对性能切片归一化；

步骤3，执行PCA将高维的性能切片压缩到低维；

步骤4，计算降维后的性能切片与K个质心之间的距离，找到所属聚类；

步骤5，从所属聚类中找到性能最优的存储系统；

步骤6，将性能最优存储系统的配置参数值推荐给新部署或者待优化的分布式存储系统。

可见，本实施例通过基于主成分分析方式对性能数据进行数据降维处理，以便剔除数据中的冗余数据和无关数据，然后基于确定的聚类数量对主成分数据进行聚类，最后基于聚类结果进行参数推荐，而不是人工调参，实现对存储系统进行自动调优，提高性能利用率。

下面对本申请实施例提供的存储系统参数推荐装置进行介绍，下文描述的存储系统参数推荐装置与上文描述的存储系统参数推荐方法可相互对应参照。

请参考图2，图2为本申请实施例所提供的一种存储系统参数推荐装置的结构示意图。

本实施例中，该装置可以包括：

数据降维模块100，用于基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据；

聚类数据确定模块200，用于基于主成分数据确定聚类数量；

数据聚类模块300，用于基于聚类数量对主成分数据进行聚类操作，得到聚类结果；

参数推荐模块400，用于基于聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统。

可选的，该数据降维模块100，包括：

数据获取单元，用于从数据源进行关键性能指标获取，得到性能数据；

数据处理单元，用于将性能数据进行归一化处理，得到归一化数据；

主成分分析单元，用于基于主成分分析方式对归一化数据进行数据降维处理，得到主成分数据。

可选的，该数据获取单元，具体用于基于数据获取指令进行数据获取，得到原始性能数据；将原始性能数据进行矩阵化处理，得到性能数据。

可选的，该数据处理单元，具体用于将性能数据的三维性能矩阵中的每个观测值都进行归一化处理，得到归一化数据。

可选的，该聚类数据确定模块200，具体用于计算主成分数据中所有性能切片数据之间的距离均值；基于距离均值从所有性能切片数据中确定聚类数量。

可选的，该数据聚类模块300，具体用于从主成分数据中获取聚类数量个初始质心；基于所有初始质心进行迭代，当迭代结束时得到聚类结果。

可选的，该参数推荐模块400，具体用于基于聚类结果将待推荐性能数据进行分类，得到目标聚类；从目标聚类中确定性能值最大的目标存储系统；将目标存储系统的参数进行推荐。

本申请实施例还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上实施例所述的存储系统参数推荐方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的存储系统参数推荐方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种存储系统参数推荐方法、存储系统参数推荐装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种存储系统参数推荐方法，其特征在于，包括：

基于所述主成分数据确定聚类数量；

基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统；

其中，所述基于主成分分析方式对获取到的性能数据进行数据降维处理，得到主成分数据，包括：从数据源进行关键性能指标获取，得到所述性能数据；将所述性能数据进行归一化处理，得到归一化数据；基于主成分分析方式对所述归一化数据进行数据降维处理，得到主成分数据；

所述从数据源进行关键性能指标获取，得到所述性能数据，包括：基于数据获取指令进行数据获取，得到原始性能数据；将所述原始性能数据进行矩阵化处理，得到所述性能数据；

所述将所述性能数据进行归一化处理，得到归一化数据，包括：将所述性能数据的三维性能矩阵中的每个观测值都进行归一化处理，得到所述归一化数据；

所述基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统，包括：基于所述聚类结果将所述待推荐性能数据进行分类，得到目标聚类；从所述目标聚类中确定性能值最大的目标存储系统；将所述目标存储系统的参数进行推荐。

2.根据权利要求1所述的存储系统参数推荐方法，其特征在于，基于所述主成分数据确定聚类数量，包括：

计算所述主成分数据中所有性能切片数据之间的距离均值；

3.根据权利要求1所述的存储系统参数推荐方法，其特征在于，基于所述聚类数量对所述主成分数据进行聚类操作，得到聚类结果，包括：

从所述主成分数据中获取所述聚类数量个初始质心；

4.一种存储系统参数推荐装置，其特征在于，包括：

参数推荐模块，用于基于所述聚类结果中与待推荐性能数据最近的聚类将参数推荐至存储系统；

其中，所述数据降维模块，具体用于从数据源进行关键性能指标获取，得到所述性能数据；将所述性能数据进行归一化处理，得到归一化数据；基于主成分分析方式对所述归一化数据进行数据降维处理，得到主成分数据；

所述装置，还用于基于数据获取指令进行数据获取，得到原始性能数据；将所述原始性能数据进行矩阵化处理，得到所述性能数据；

所述装置，还用于将所述性能数据的三维性能矩阵中的每个观测值都进行归一化处理，得到所述归一化数据；

所述参数推荐模块，具体用于基于所述聚类结果将所述待推荐性能数据进行分类，得到目标聚类；从所述目标聚类中确定性能值最大的目标存储系统；将所述目标存储系统的参数进行推荐。

5.一种服务器，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述的存储系统参数推荐方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的存储系统参数推荐方法的步骤。