CN115185805B

CN115185805B - 一种存储系统的性能预测方法、系统、设备及存储介质

Info

Publication number: CN115185805B
Application number: CN202211107244.0A
Authority: CN
Inventors: 李辉; 黄朔
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2023-01-24
Anticipated expiration: 2042-09-13
Also published as: CN115185805A

Abstract

本申请公开了一种存储系统的性能预测方法、系统、设备及存储介质，应用于存储技术领域，包括：设定用于作为输入量的存储系统的各项数据特征以及用于作为标签的各项性能指标，得到带有标签的训练数据；通过自编码降维模型对训练数据进行降维，并将降维后的数据输入至性能预测模型中，对自编码降维模型和性能预测模型进行训练；当性能预测模型的预测准确度高于第一阈值时，确定自编码降维模型和性能预测模型训练完毕；确定出存储系统当前的各项数据特征，并输入至训练完毕的自编码降维模型，得到由训练完毕的性能预测模型输出的性能预测结果。应用本申请的方案，可以得到准确的存储系统性能预测结果，且训练难度低，节约了人力物力。

Description

一种存储系统的性能预测方法、系统、设备及存储介质

技术领域

本发明涉及存储技术领域，特别是涉及一种存储系统的性能预测方法、系统、设备及存储介质。

背景技术

目前，大数据时代所产生的数据规模呈几何增长，存储平台作为其底层支撑，也随之迅速发展，对于各类存储平台的性能要求也在不断提高。

性能作为统一存储平台优劣的重要指标，在产品研发阶段，需要进行大量的测试以验证性能的变化以及稳定程度，为了模拟复杂的现实场景而产生的大量新IO模型，更是加大了测试的数量和时间。此外，影响性能的因素较多，不仅需要考虑硬件配置，还需要考虑软件设计等多种因素，大量的数据进一步加大了模型训练和实际部署的难度，人力物力成本很高。

综上所述，如何方便、有效地进行存储系统的性能预测，得到准确的预测结果，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种存储系统的性能预测方法、系统、设备及存储介质，以方便、有效地进行存储系统的性能预测，得到准确的预测结果。

为解决上述技术问题，本发明提供如下技术方案：

一种存储系统的性能预测方法，包括：

设定用于作为输入量的存储系统的各项数据特征以及用于作为标签的各项性能指标，得到带有标签的训练数据；

通过自编码降维模型对所述训练数据进行降维，并将降维之后的数据输入至预设的性能预测模型中，对所述自编码降维模型和所述性能预测模型进行训练；

当所述性能预测模型的预测准确度高于第一阈值时，确定所述自编码降维模型和所述性能预测模型训练完毕；

确定出存储系统当前的各项数据特征，并输入至训练完毕的所述自编码降维模型，得到由训练完毕的所述性能预测模型输出的对应于所述存储系统的性能预测结果。

优选的，设定的用于作为输入量的存储系统的各项数据特征包括：

存储系统的各项硬件数据特征，以及存储系统的各项软件数据特征。

优选的，设定的用于作为输入量的存储系统的硬件数据特征包括：CPU型号、numa架构、内存大小、存储器型号和数量、FC-HBA卡型号以及单口带宽、FC线数量以及单口带宽、SAS-HBA卡型号、服务器型号以及数量、盘型号和数量、接线方式中的任意1项或多项；

设定的用于作为输入量的存储系统的软件数据特征包括：超线程、占用CPU数、CPU分配策略、多路径策略、卷缓存状态、Raid类型、卷类型、压缩状态中的任意1项或多项。

优选的，设定的用于作为输入量的存储系统的各项数据特征还包括：存储系统所处的各项环境数据特征。

优选的，设定的用于作为输入量的存储系统所处的环境数据特征包括：运行温度和运行湿度。

优选的，在得到带有标签的训练数据之后，还包括：

对所述训练数据进行归一化；

相应的，所述通过自编码降维模型对所述训练数据进行降维，包括：

通过自编码降维模型对进行了归一化之后的所述训练数据进行降维。

优选的，对所述训练数据进行归一化，包括：

通过z-score 标准化预处理方法，对所述训练数据进行归一化。

优选的，所述性能预测模型为基于深度神经网络的性能预测模型，且所述性能预测模型设置有K层隐藏层，K为正整数。

优选的，所述自编码降维模型和所述性能预测模型均通过欧氏距离作为各自的损失函数基准。

优选的，所述自编码降维模型和所述性能预测模型均通过 Adam 优化器进行梯度下降优化。

优选的，所述自编码降维模型和所述性能预测模型均采用sigmoid作为激活函数。

优选的，所述自编码降维模型和所述性能预测模型的正向传输过程中均设置了批标准化层，用于配合激活函数的梯度传播。

一种存储系统的性能预测系统，包括：

训练数据构建模块，用于设定用于作为输入量的存储系统的各项数据特征以及用于作为标签的各项性能指标，得到带有标签的训练数据；

训练模块，用于通过自编码降维模型对所述训练数据进行降维，并将降维之后的数据输入至预设的性能预测模型中，对所述自编码降维模型和所述性能预测模型进行训练；

训练完毕确认模块，用于当所述性能预测模型的预测准确度高于第一阈值时，确定所述自编码降维模型和所述性能预测模型训练完毕；

性能预测执行模块，用于确定出存储系统当前的各项数据特征，并输入至训练完毕的所述自编码降维模型，得到由训练完毕的所述性能预测模型输出的对应于所述存储系统的性能预测结果。

一种存储系统的性能预测设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上述所述的存储系统的性能预测方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的存储系统的性能预测方法的步骤。

应用本发明实施例所提供的技术方案，基于自编码降维模型及性能预测模型，实现了针对存储系统的性能预测。具体的，本申请考虑到，影响存储系统性能的因素较多，不仅需要考虑硬件配置，还需要考虑软件设计等多种因素，即本申请需要设定的用于作为输入量的存储系统的数据特征的种类很多，而本申请设置了自编码降维模型可以对训练数据进行降维，在不影响用于作为输入量的存储系统的各项数据特征所包含信息量的同时，可以降低模型的训练成本和硬件要求，降低训练时间。而考虑到神经网络出色的非线性模拟能力，本申请可以利用性能预测模型对存储系统进行性能预测，有利于得到准确的预测结果，且预测方便有效，起到了节省人力物力的效果。当性能预测模型的预测准确度高于第一阈值时，说明自编码降维模型和性能预测模型训练完毕。训练完毕之后，确定出存储系统当前的各项数据特征，即实时检测当前的各项数据特征，并输入至训练完毕的自编码降维模型，便可以得到由训练完毕的性能预测模型输出的对应于存储系统的性能预测结果。

综上所述，本申请的方案中，可以方便、有效地进行存储系统的性能预测，减少了性能预测模型的训练难度，降低了性能预测模型的网络复杂度，可以得到准确的预测结果，节约了人力物力。并且本申请的方案对于不同平台、不同配置、不同场景下，均可以有效地实现存储系统的性能预测的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种存储系统的性能预测方法的实施流程图；

图2为本发明一种具体实施方式中的性能预测模型以及自编码降维模型的框架示意图；

图3为本发明中一种存储系统的性能预测系统的结构示意图；

图4为本发明中一种存储系统的性能预测设备的结构示意图。

具体实施方式

本发明的核心是提供一种存储系统的性能预测方法，可以方便、有效地进行存储系统的性能预测，并且可以得到准确的预测结果，节约了人力物力。并且，本申请的方案对于不同平台、不同配置、不同场景下，均可以有效地实现存储系统的性能预测的需求，通用性较强。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明中一种存储系统的性能预测方法的实施流程图，该存储系统的性能预测方法可以包括以下步骤：

步骤S101：设定用于作为输入量的存储系统的各项数据特征以及用于作为标签的各项性能指标，得到带有标签的训练数据。

具体的，在设定用于作为输入量的存储系统的各项数据特征时，可以根据实际情况进行各项数据特征的设定，但可以理解的是，由于本申请的目的是进行存储系统的性能预测，因此，在设定用于作为输入量的存储系统的各项数据特征时，应当选取那些会对存储系统的性能产生影响的数据特征作为输入量。此外可理解的是，所选取的数据特征的种类越多，即用于作为输入量的存储系统的数据特征的维度越高，越有利于进行准确的存储系统的性能预测，但与此同时，所带来的训练成本也在不断增加，相关模型也会越复杂，需要越多的计算资源。

本申请描述的存储系统通常可以是统一存储系统，也可以称为网络统一存储，是一个能在单一设备上运行，管理文件和应用程序的存储系统。统一存储系统可以在一个单一存储平台上整合基于文件和基于块的访问，支持基于光纤通道的SAN（Storage AreaNetwork，存储区域网络）、基于IP（Internet Protocol，网络协议）的SAN和NAS（NetworkAttached Storage，网络附加存储）。由于统一存储系统支持不同的存储协议为主机系统提供数据存储，因此也被称为多协议存储。

当然，在其他具体实施方式中，可以是其他形式的存储系统，并不影响本发明的实施。

除了设定用于作为输入量的存储系统的各项数据特征之外，还需要设定用于作为标签的各项性能指标，可以理解的是，这些性能指标要能够有效地反映出存储系统的性能。例如在本发明的一种具体实施方式中，所设定的用于作为标签的各项性能指标可以包括IOPS（Input/Output Operations Per Second，每秒读写操作数），RT（Response Time，响应延时）等可以有效反映出存储系统性能的指标。

在本发明的一种具体实施方式中，考虑到存储系统性能的影响因素较多，而硬件配置和软件设计是影响存储系统的性能的主要因素，因此，在本发明的一种具体实施方式中，步骤S101中设定的用于作为输入量的存储系统的各项数据特征可以具体包括：存储系统的各项硬件数据特征，以及存储系统的各项软件数据特征。

当然，具体的硬件数据特征种类以及软件数据特征的种类可以根据实际情况进行设定，例如在本发明的一种具体实施方式中，设定的用于作为输入量的存储系统的硬件数据特征可以包括：CPU型号、numa架构、内存大小、存储器型号和数量、FC-HBA卡型号以及单口带宽、FC线数量以及单口带宽、SAS-HBA卡型号、服务器型号以及数量、盘型号和数量、接线方式中的任意1项或多项；

设定的用于作为输入量的存储系统的软件数据特征可以包括：超线程、占用CPU数、CPU分配策略、多路径策略、卷缓存状态、Raid类型、卷类型、压缩状态中的任意1项或多项。

该种实施方式中列出了较为全面的影响存储系统性能的硬件数据特征以及软件数据特征，在此基础上，可以根据实际需要选取其中的任意1项或多项，有利于后续能够进行较为准确的存储系统的性能预测。

此外需要说明的是，由于本申请的方案后续的操作中可以进行降维，因此，在实际应用中，对于上述实施方式中的各项硬件数据特征以及各项软件数据特征，可以均设定为用于作为输入量的存储系统的数据特征项，而不必过于担心训练成本增加的问题。

进一步的，在本发明的一种具体实施方式中，设定的用于作为输入量的存储系统的各项数据特征还可以包括：存储系统所处的各项环境数据特征。该种实施方式考虑到，虽然硬件配置和软件设计是影响存储系统的性能的主要因素，但是存储系统所处的环境在部分场合中也会影响存储系统的性能，特别是在极端天气下，例如持续的高温天气下，存储系统的环境容易过温，进而影响存储系统中的相关设备的运行状态，也就会影响响存储系统的性能。因此，该种实施方式中，为了进一步地提高本申请方案的存储性能预测的准确性，所设定的用于作为输入量的存储系统的各项数据特征还包括存储系统所处环境的各项环境数据特征。

当然，具体的环境数据特征的种类可以有多种，例如，考虑到温度和湿度是较为重要的环境数据特征，其他的环境数据特征则对于存储系统的性能影响较小，因此，设定的用于作为输入量的存储系统所处环境的环境数据特征可以包括：运行温度和运行湿度。

在设定了用于作为输入量的存储系统的各项数据特征以及用于作为标签的各项性能指标之后，便可以据此得到所需要的训练数据，当然，得到所需要的训练数据的具体方式可以有多种。例如，可以在存储系统的运行过程中，进行相应数据的采集，得到所需要的带标签的训练数据。又如，可以进行存储系统的性能试验，并采集相应数据，以得到所需要的带标签的训练数据。

步骤S102：通过自编码降维模型对训练数据进行降维，并将降维之后的数据输入至预设的性能预测模型中，对自编码降维模型和性能预测模型进行训练。

由上述步骤S101的描述可知，影响存储系统性能的因素较多，即所设定的用于作为输入量的存储系统的数据特征的种类较多，也即数据特征的维度较大，因此，本申请的方案中，通过自编码降维模型对训练数据进行降维。

进一步的，在本发明的一种具体实施方式中，考虑到影响存储系统性能的因素较多，即数据特征的维度较大，并且量纲不统一，数值范围也不同，例如作为输入量的数据特征中的带宽数据可高达几千，设备数量仅为个位数，如果直接进行训练，不同数据特征会对模型的参数更新产生不同程度的影响，特别是部分数据特征的影响可能非常大，此外也不利于提高模型训练的收敛速度。

因此，在本发明的一种具体实施方式中，在得到带有标签的训练数据之后，还可以包括：对训练数据进行归一化。相应的，由于对训练数据进行了归一化，因此，步骤S102中描述的通过自编码降维模型对训练数据进行降维，可以具体为：通过自编码降维模型对进行了归一化之后的训练数据进行降维。

进行归一化的具体方式也有多种，例如简单的方式便是直接将不同数值范围的数据特征均归一化至0至1的区间。在本发明的一种具体实施方式中，考虑到本申请的数据特征不仅维度较大，量纲也不统一，因此，在对训练数据进行归一化时，可以具体包括：通过z-score 标准化预处理方法，对训练数据进行归一化。

z-score 标准化预处理方法是一种较为方便的数据处理方法，可以将不同量级的数据转化为统一量度的z-score分值进行比较，且去除数据量纲和数值影响，使所有数据全部转换为数值，并维持在0至1的区间中，优化了数据分布，且有利于提高模型训练的收敛速度。

本申请针对用于存储系统性能预测的训练数据的维度较多的特点，采用自编码降维模型对训练数据进行降维，自编码降维模型可以包含编码器（Encoder）和解码器（Decoder），可以是前馈结构或递归结构的神经网络。

需要说明的是，相较于通过过滤筛选的方式进行降维，本申请的方案是通过自编码降维模型进行数据降维处理，在保证了数据信息完整的同时，可以减少性能预测模型的训练难度，降低性能预测模型的网络复杂度，增强性能预测模型的可实施性和部署灵活性。

需要说明的是，通过自编码降维模型对训练数据进行降维时，降维之后的维度可以预先设定，例如一种具体场合中，自编码降维模型采用的是M-128-64-32-Z(16)-32-64-128-M的结构，此处的M表示的是输入至自编码降维模型的数据特征的维度数，即训练数据中的数据特征的种类，中间隐藏层Z则是降维后的数据维度数，也就是性能预测模型的输入数据。该例子中，Z选择为16，即降维之后的数据维度为16。

通过自编码降维模型对训练数据进行降维之后，需要将降维之后的数据输入至预设的性能预测模型中，从而对自编码降维模型和性能预测模型进行训练。

性能预测模型的具体算法选择也可以有多种，例如在本发明的一种具体实施方式中，性能预测模型可以采用基于深度神经网络的性能预测模型，且性能预测模型设置有K层隐藏层，K为正整数。采用设置有K层隐藏层的基于深度神经网络的性能预测模型，可以保证其非线性模拟能力，来应对本申请的存储系统性能预测方案中数据特征种类多，输入数据与输出数据之间的逻辑关系复杂的特点，即输入的数据特征与输出的存储系统性能指标之间的逻辑关系复杂。

本申请的图2为一种具体实施方式中的性能预测模型以及自编码降维模型的框架示意图，图2的实施方式中，性能预测模型便采用的是基于深度神经网络的性能预测模型。

K的取值可以根据需要进行设定，例如在本发明的一种具体实施方式中，性能预测模型为基于DNN（Deep Neural Networks，深度神经网络）的性能预测模型，且采用N—256—512—1024—512—256—128—64—32—1 的8隐藏层结构，即K=8，来应对本申请方案中数据特征种类多，输入数据与输出数据之间之间的逻辑关系复杂的特点。该例子中的N表示的是性能预测模型的输入数据的特征数，上述例子中降维后的特征维度为16，即Z选择为16，则该种实施方式中的N也需要设置为16，即性能预测模型的输入数据，需要与自编码降维模型的网络结构统一。

步骤S103：当性能预测模型的预测准确度高于第一阈值时，确定自编码降维模型和性能预测模型训练完毕。

对自编码降维模型和性能预测模型不断地进行训练，便会逐渐优化自编码降维模型和性能预测模型的相关参数，当性能预测模型的预测准确度高于预设的第一阈值时，例如预设的第一阈值为80%，则可以确定自编码降维模型和性能预测模型训练完毕。

在实际应用中，采集了存储系统的相关数据之后，可以按照设定的比例，将其中一部分用作为训练数据，剩余部分则用作为测试数据，例如一种具体场合中，是按照4：1的比例划分训练数据集与测试数据集，以50条数据为一组（batch size）进行多次迭代训练和测试。在执行步骤S103时，便是利用测试数据集来验证是否满足性能预测模型的预测准确度高于第一阈值这一终止训练的条件。

第一阈值的具体取值可以根据需要进行设定和调整，但可以理解的是，如果第一阈值设置地过低，训练可能过早结束，出现欠拟合的情况，使得对于存储系统的性能预测的准确度较低。而如果第一阈值设置地过高，便容易出现过拟合的情况，使得对于训练数据之外的数据集无法很好地拟合数据。因此，上述实施例中设置第一阈值为80%是实际应用中一种较为合适的数值。

步骤S104：确定出存储系统当前的各项数据特征，并输入至训练完毕的自编码降维模型，得到由训练完毕的性能预测模型输出的对应于存储系统的性能预测结果。

在确定自编码降维模型和性能预测模型训练完毕之后，便可以利用训练完毕的自编码降维模型和性能预测模型进行存储系统的性能预测。具体的，可以实时采集存储系统当前的各项数据特征，进而输入至训练完毕的自编码降维模型，自编码降维模型的输出则作为性能预测模型的输入，性能预测模型可以输出其预测的各项性能指标，即性能预测模型输出是的对应于该存储系统的性能预测结果。例如上述例子中，所设定的用于作为标签的各项性能指标可以包括IOPS，RT等可以有效反映出存储系统性能的指标，则此时，训练完毕的性能预测模型输出的性能预测结果中便包括这些可以有效反映出存储系统性能的指标。

在实际应用中，对于训练完毕的自编码降维模型和性能预测模型，可以嵌入可执行程序，在 Linux 或者 Windows 等操作系统下，都可以在命令行模式下以参数形式传入数据，以返回值形式输出性能指标，即输出存储系统的性能预测结果。

在本发明的一种具体实施方式中，自编码降维模型和性能预测模型均通过欧氏距离作为各自的损失函数基准。

该种实施方式考虑到，本申请需要对存储系统进行性能预测，数据特征的种类多，数据量大，因此，为了避免过大的计算量影响训练速度，本申请的该种实施方式中，自编码降维模型和性能预测模型均采用简单的欧氏距离作为各自的损失函数基准，以保证训练速度较低。

进一步的，在本发明的一种具体实施方式中，自编码降维模型和性能预测模型还均可以通过 Adam 优化器进行梯度下降优化（gradient descent optimization），从而减少梯度下降时的横向震荡，有利于保证较快的收敛速度。

更新参数的算法可以称为优化器，即通过算法去优化网络模型的参数。常用的优化器是梯度下降。优化器或者称为优化算法，是通过训练优化参数，来最小化/最大化损失函数，损失函数可以用来计算测试集中目标值Y的真实值和预测值的偏差程度。Adam优化器是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络的权重。Adam优化算法应用在非凸优化问题中时，具有实现简单，计算高效，对内存需求少，参数的更新不受梯度的伸缩变换影响，超参数具有很好的解释性，更新的步长能够被限制在大致的范围内，能自然地实现步长退火过程，很适合应用于大规模的数据及参数的场景，适用于不稳定目标函数等诸多优点。

在本发明的一种具体实施方式中，自编码降维模型和性能预测模型均采用sigmoid作为激活函数。sigmoid激活函数为S型函数，也可以称为S型生长曲线，由于其单增以及反函数单增等性质，可以被有效地应用在神经网络作为激活函数使用，将变量映射到0，1之间，即该种实施方式中，自编码降维模型和性能预测模型可以均采用sigmoid作为激活函数，实施时较为简单方便。

进一步的，在本发明的一种具体实施方式中，自编码降维模型和性能预测模型的正向传输过程中均设置了批标准化层，用于配合激活函数的梯度传播。

该种实施方式进一步的考虑到，本申请需要对存储系统进行性能预测，数据特征的种类多样化，在训练过程中不排除会产生数据分布的变化，并且，采用sigmoid作为激活函数时，sigmoid函数会有梯度消失风险，因此，本申请的该种实施方式中，在框架设计时加入批标准化层（Batch Normalization），二者配合以保证梯度传播有效性，避免梯度消失，保证训练稳定和收敛速度。

即自编码降维模型和性能预测模型的正向传输过程中均设置了批标准化层，具体是在相应的隐藏层之前设置批标准化层，以配合激活函数的梯度传播，保证梯度传播有效性。

应用本发明实施例所提供的存储系统的性能预测方法，基于自编码降维模型及性能预测模型，实现了针对存储系统的性能预测。具体的，本申请考虑到，影响存储系统性能的因素较多，不仅需要考虑硬件配置，还需要考虑软件设计等多种因素，即本申请需要设定的用于作为输入量的存储系统的数据特征的种类很多，而本申请设置了自编码降维模型可以对训练数据进行降维，在不影响用于作为输入量的存储系统的各项数据特征所包含信息量的同时，可以降低模型的训练成本和硬件要求，降低训练时间。而考虑到神经网络出色的非线性模拟能力，本申请可以利用性能预测模型对存储系统进行性能预测，有利于得到准确的预测结果，且预测方便有效，起到了节省人力物力的效果。当性能预测模型的预测准确度高于第一阈值时，说明自编码降维模型和性能预测模型训练完毕。训练完毕之后，确定出存储系统当前的各项数据特征，即实时检测当前的各项数据特征，并输入至训练完毕的自编码降维模型，便可以得到由训练完毕的性能预测模型输出的对应于存储系统的性能预测结果。

综上所述，本申请的方案中，可以方便、有效地进行存储系统的性能预测，减少了性能预测模型的训练难度，降低了性能预测模型的网络复杂度，可以得到准确的预测结果，节约了人力物力。

此外需要说明的是，由上文的描述可知，本申请的方案是设计了基于自编码降维模型及性能预测模型实现存储系统的性能预测的方案，可以灵活地适用于不同平台、不同集群、不同场景中，即本申请对于不同平台、不同配置、不同场景下，均可以有效地实现存储系统的性能预测的需求。

相应于上面的方法实施例，本发明实施例还提供了一种存储系统的性能预测系统，可与上文相互对应参照。

参见图3所示，为本发明中一种存储系统的性能预测系统的结构示意图，该存储系统的性能预测系统可以包括以下模块：

训练数据构建模块301，用于设定用于作为输入量的存储系统的各项数据特征以及用于作为标签的各项性能指标，得到带有标签的训练数据；

训练模块302，用于通过自编码降维模型对训练数据进行降维，并将降维之后的数据输入至预设的性能预测模型中，对自编码降维模型和性能预测模型进行训练；

训练完毕确认模块303，用于当性能预测模型的预测准确度高于第一阈值时，确定自编码降维模型和性能预测模型训练完毕；

性能预测执行模块304，用于确定出存储系统当前的各项数据特征，并输入至训练完毕的自编码降维模型，得到由训练完毕的性能预测模型输出的对应于存储系统的性能预测结果。

在本发明的一种具体实施方式中，训练数据构建模块301设定的用于作为输入量的存储系统的各项数据特征包括：

在本发明的一种具体实施方式中，训练数据构建模块301设定的用于作为输入量的存储系统的硬件数据特征包括：CPU型号、numa架构、内存大小、存储器型号和数量、FC-HBA卡型号以及单口带宽、FC线数量以及单口带宽、SAS-HBA卡型号、服务器型号以及数量、盘型号和数量、接线方式中的任意1项或多项；

训练数据构建模块301设定的用于作为输入量的存储系统的软件数据特征包括：超线程、占用CPU数、CPU分配策略、多路径策略、卷缓存状态、Raid类型、卷类型、压缩状态中的任意1项或多项。

在本发明的一种具体实施方式中，训练数据构建模块301设定的用于作为输入量的存储系统的各项数据特征还包括：存储系统所处环境的各项环境数据特征。

在本发明的一种具体实施方式中，训练数据构建模块301设定的用于作为输入量的存储系统所处环境的环境数据特征包括：运行温度和运行湿度。

在本发明的一种具体实施方式中，在训练数据构建模块301得到带有标签的训练数据之后，还包括预处理模块，用于：

对训练数据进行归一化；

相应的，训练模块302通过自编码降维模型对训练数据进行降维，具体包括：

训练模块302通过自编码降维模型对预处理模块进行了归一化之后的训练数据进行降维。

在本发明的一种具体实施方式中，预处理模块具体用于：

通过z-score 标准化预处理方法，对训练数据进行归一化。

在本发明的一种具体实施方式中，性能预测模型为基于深度神经网络的性能预测模型，且性能预测模型设置有K层隐藏层，K为正整数。

在本发明的一种具体实施方式中，自编码降维模型和性能预测模型均通过 Adam优化器进行梯度下降优化。

在本发明的一种具体实施方式中，自编码降维模型和性能预测模型均采用sigmoid作为激活函数。

在本发明的一种具体实施方式中，自编码降维模型和性能预测模型的正向传输过程中均设置了批标准化层，用于配合激活函数的梯度传播。

应用本发明实施例所提供的存储系统的性能预测系统，基于自编码降维模型及性能预测模型，实现了针对存储系统的性能预测。具体的，本申请考虑到，影响存储系统性能的因素较多，不仅需要考虑硬件配置，还需要考虑软件设计等多种因素，即本申请需要设定的用于作为输入量的存储系统的数据特征的种类很多，而本申请设置了自编码降维模型可以对训练数据进行降维，在不影响用于作为输入量的存储系统的各项数据特征所包含信息量的同时，可以降低模型的训练成本和硬件要求，降低训练时间。而考虑到神经网络出色的非线性模拟能力，本申请可以利用性能预测模型对存储系统进行性能预测，有利于得到准确的预测结果，且预测方便有效，起到了节省人力物力的效果。当性能预测模型的预测准确度高于第一阈值时，说明自编码降维模型和性能预测模型训练完毕。训练完毕之后，确定出存储系统当前的各项数据特征，即实时检测当前的各项数据特征，并输入至训练完毕的自编码降维模型，便可以得到由训练完毕的性能预测模型输出的对应于存储系统的性能预测结果。

综上所述，本申请的方案中，可以方便、有效地进行存储系统的性能预测，减少了性能预测模型的训练难度，降低了性能预测模型的网络复杂度，可以得到准确的预测结果，节约了人力物力。并且本申请的方案是设计了基于自编码降维模型及性能预测模型实现存储系统的性能预测的方案，可以灵活地适用于不同平台、不同集群、不同场景中，即本申请对于不同平台、不同配置、不同场景下，均可以有效地实现存储系统的性能预测的需求。

相应于上面的方法和系统实施例，本发明实施例还提供了一种存储系统的性能预测设备以及一种计算机可读存储介质，可与上文相互对应参照。该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述任一实施例中的存储系统的性能预测方法的步骤。这里所说的计算机可读存储介质包括随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

可参阅图4，为本发明中一种存储系统的性能预测设备的结构示意图，该存储系统的性能预测设备可以包括：

存储器401，用于存储计算机程序；

处理器402，用于执行计算机程序以实现如上述任一实施例中的存储系统的性能预测方法的步骤。

应用本发明实施例所提供的存储系统的性能预测设备以及计算机可读存储介质，可以方便、有效地进行存储系统的性能预测，减少了性能预测模型的训练难度，降低了性能预测模型的网络复杂度，可以得到准确的预测结果，节约了人力物力。并且本申请的方案是设计了基于自编码降维模型及性能预测模型实现存储系统的性能预测的方案，可以灵活地适用于不同平台、不同集群、不同场景中，即本申请对于不同平台、不同配置、不同场景下，均可以有效地实现存储系统的性能预测的需求。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的系统、设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明的保护范围内。

Claims

1.一种存储系统的性能预测方法，其特征在于，包括：

确定出存储系统当前的各项数据特征，并输入至训练完毕的所述自编码降维模型，得到由训练完毕的所述性能预测模型输出的对应于所述存储系统的性能预测结果；

设定的用于作为输入量的存储系统的各项数据特征包括：

存储系统的各项硬件数据特征，以及存储系统的各项软件数据特征；

设定的用于作为输入量的存储系统的各项数据特征还包括：存储系统所处环境的各项环境数据特征。

2.根据权利要求1所述的存储系统的性能预测方法，其特征在于，设定的用于作为输入量的存储系统的硬件数据特征包括：CPU型号、numa架构、内存大小、存储器型号和数量、FC-HBA卡型号以及单口带宽、FC线数量以及单口带宽、SAS-HBA卡型号、服务器型号以及数量、盘型号和数量、接线方式中的任意1项或多项；

3.根据权利要求1所述的存储系统的性能预测方法，其特征在于，设定的用于作为输入量的存储系统所处环境的环境数据特征包括：运行温度和运行湿度。

4.根据权利要求1所述的存储系统的性能预测方法，其特征在于，在得到带有标签的训练数据之后，还包括：

对所述训练数据进行归一化；

5.根据权利要求4所述的存储系统的性能预测方法，其特征在于，对所述训练数据进行归一化，包括：

6.根据权利要求1至5任一项所述的存储系统的性能预测方法，其特征在于，所述性能预测模型为基于深度神经网络的性能预测模型，且所述性能预测模型设置有K层隐藏层，K为正整数。

7.根据权利要求6所述的存储系统的性能预测方法，其特征在于，所述自编码降维模型和所述性能预测模型均通过欧氏距离作为各自的损失函数基准。

8.根据权利要求6所述的存储系统的性能预测方法，其特征在于，所述自编码降维模型和所述性能预测模型均通过 Adam 优化器进行梯度下降优化。

9.根据权利要求6所述的存储系统的性能预测方法，其特征在于，所述自编码降维模型和所述性能预测模型均采用sigmoid作为激活函数。

10.根据权利要求9所述的存储系统的性能预测方法，其特征在于，所述自编码降维模型和所述性能预测模型的正向传输过程中均设置了批标准化层，用于配合激活函数的梯度传播。

11.一种存储系统的性能预测系统，其特征在于，包括：

性能预测执行模块，用于确定出存储系统当前的各项数据特征，并输入至训练完毕的所述自编码降维模型，得到由训练完毕的所述性能预测模型输出的对应于所述存储系统的性能预测结果；

设定的用于作为输入量的存储系统的各项数据特征包括：

12.一种存储系统的性能预测设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至10任一项所述的存储系统的性能预测方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的存储系统的性能预测方法的步骤。