CN111221479B

CN111221479B - 一种判断存储容量变化量异常的方法、系统及存储介质

Info

Publication number: CN111221479B
Application number: CN202010063254.3A
Authority: CN
Inventors: 李鹏; 胡汉顶
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2022-08-05
Anticipated expiration: 2040-01-19
Also published as: CN111221479A

Abstract

本发明涉及一种判断存储容量变化量异常的方法、系统及存储介质，所述的方法包括以下步骤：S1：数据采集与预处理的步骤；S2：搭建模型的步骤：S2.1：模型输入层的搭建步骤是，选取文本窗口，本文选择窗口长度为j，输入时，每次选择j个数据点作为输入序列，即输入节点是j；S2.2：模型隐藏层的搭建步骤是，采用单层循环神经网络，节点数是5或10或15或20或25，通过LSTM细胞交互结构，接收输入层的一组时序数据，对该组时序数据进行神经网络训练；输出层是对应于输入序列的下一个时间点的预测结果，同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构；S3：数据预测的步骤：S4：结果异常的判断步骤。

Description

一种判断存储容量变化量异常的方法、系统及存储介质

技术领域

本发明属于计算机技术领域，具体涉及一种判断存储容量变化量异常的方法、系统及存储介质。

背景技术

存储系统容量变化量预测主要用于预测未来一段时间内的存储容量的变化情况，使运维人员能够及时了解目前及未来一段时间的存储系统的存储容量变化情况，保证存储系统能够安全正常运行。

准确的存储容量变化预测能够及时发现存储系统的潜在风险，确保存储数据中心能够长期安全稳定运行。若存储容量增加过快则可以及时制定合理的扩容计划，有效控制存储中心的成本；当存储容量变化量的增速过低，处于异常情况时，能够及时提醒运维人员进行存储系统的性能检测，以防止是数据存储失败的原因导致的。

目前存储系统的存储量变化情况多数依靠设定存储空间已使用比率阈值的方式，当存储空间占用率超出设定的阈值大小时，向系统管理员发送警报，不能进行存储容量变化情况的预测，往往是容量异常变化发生时才会察觉，不利于系统风险的预判。此为现有技术中存在的缺陷。

有鉴于此，本发明提供一种判断存储容量变化量异常的方法、系统及存储介质；以解决现有技术中存在的缺陷，是非常有必要的。

发明内容

针对现有技术的上述不足，本发明提供一种判断存储容量变化量异常的方法、系统及存储介质，以解决上述技术问题。

为实现上述目的，本发明给出以下技术方案：

第一方面，本发明提供一种判断存储容量变化量异常的方法，包括以下步骤：

S1：数据采集与预处理的步骤；

S1.1：从客户数据中心每隔一定时间（选择两个小时作为一个时间段）提取存储容量数据，对提取后的存储容量数据进行预处理，预处理操作为清洗存储容量数据中的无效数据和重复数据，以保证所获取数据的有效性和可靠性；

S1.2：针对预处理后的存储容量数据，使用ni表示i时刻存储容量的大小，单位是GB，采集一个月的数量进行方法实验，得到30*12个时间点的数据；用 QUOTE

表示i时刻相比较i-1时刻的存储容量变化量的大小，即 QUOTE

=n_i-n_i-1，共得到30*12-1=359变化量值。

S2：搭建模型的步骤：

S2.1：模型输入层的搭建步骤是，

选取文本窗口，本文选择窗口长度为j，输入时，每次选择j个数据点作为输入序列，即输入节点是j；

S2.2：模型隐藏层的搭建步骤是，

采用单层循环神经网络，节点数是5或10或15或20或25，通过LSTM细胞交互结构，接收输入层的一组时序数据，对该组时序数据进行神经网络训练；输出层是对应于输入序列的下一个时间点的预测结果，即输出节点是1，同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构；

神经网络模型的训练目的就是能够找到最恰当的全局最优解和权重，能够将神经网络的训练看作是求解损失函数最小值的问题。本发明选择反向传播算法（BackPropagation Through Time，BPTT）进行训练，首先通过前向计算得出隐藏层和输出层的输出，然后将此输出与训练集中的数据进行对比，然后计算权重的梯度，随后本算法中选择使用Adam对梯度进行优化。本发明中训练预测模型主要有以下几个步骤：

设置获取计算得到的存储系统容量变化量的数据集 QUOTE

,数据集中共有L个数据，设置一个滑动窗口，长度设置为j，每个窗口内的序列数据的前（j-1）维作为一个输入序列，前后相邻的两个数据组相当于向后滑动了一个距离，则数据序列为 QUOTE

，每个序列的数据 QUOTE

，即每一个滑动窗口即可得到一个j维的序列数据；

在神经网络LSTM中，有L-1个输入数据相当于有L-1个神经元细胞，每个输入数据为 QUOTE

的前（j-1）维数据，经过网络中隐藏层的前向计算后输出为 QUOTE

。上一个神经元的输出和细胞的状态使用 QUOTE

和 QUOTE

表示，则当前输出为：

计算损失函数：本发明中选择使用均方误差（MSE）计算误差，因此在训练过程中损失函数可表示为：

求解损失函数的最小值或通过Loss的梯度下降更新权重参数。训练LSTM神经网络的过程就是不断计算找到Loss的最小值的过程。本发明选择使用Adam优化器优化网络，Adam是一种基于一阶梯度来优化随机目标函数的算法，使用该方法能够不断更新权重求取到最优解。

S3：数据预测的步骤：

在预测集中适用于训练集同样的窗口大小获取输入序列数据，即窗口长度为l，第一次输入一组窗口内的数据后一次向后滑动窗口，每一滑动距离是1，直至滑动结束；将每一个滑窗得到的存储量变化序列数据 QUOTE

中的前（l-1）维数据送入训练好的预测模型，即可得到预测出下一个时间点的数据，然后统计各个序列数据预测的结果与真实结果的差值，找出其中的最大值和最小值作为，然后再使用数理统计学的3Sigma原则，计算最终的允许合理误差范围；

S4：结果异常的判断步骤，

选择三个月的历史数据，每天固定间隔采取12次数据，则共有90*12个时间点的数据；经过上述几步的处理后，选取的窗口长度l=10，则得到序列数据900组，选取前面180组作为训练数据进行模型训练，使用训练好的模型预测训练集计算误差范围。测试时，使用后面180组数据送入预测模型，然后将得到的结果与实际值计算误差，对比误差是否在合理范围内，若不在合理范围内则提醒运维人员出现异常。

第二方面，本发明提供一种判断存储容量变化量异常的系统，包括：

数据采集与预处理模块，该模块中，

首先，从客户数据中心每隔一定时间（选择两个小时作为一个时间段）提取存储容量数据，对提取后的存储容量数据进行预处理，预处理操作为清洗存储容量数据中的无效数据和重复数据，以保证所获取数据的有效性和可靠性；

其次，针对预处理后的存储容量数据，使用ni表示i时刻存储容量的大小，单位是GB，采集一个月的数量进行方法实验，得到30*12个时间点的数据；用 QUOTE

表示i时刻相比较i-1时刻的存储容量变化量的大小，即 QUOTE

=n_i-n_i-1，共得到30*12-1=359变化量值。

搭建模型模块，该模块中，

首先，搭建模型输入层，选取文本窗口，本文选择窗口长度为j，输入时，每次选择j个数据点作为输入序列，即输入节点是j；

其次，搭建模型隐藏层，采用单层循环神经网络，节点数是5或10或15或20或25，通过LSTM细胞交互结构，接收输入层的一组时序数据，对该组时序数据进行神经网络训练；输出层是对应于输入序列的下一个时间点的预测结果，即输出节点是1，同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构；

设置获取计算得到的存储系统容量变化量的数据集 QUOTE

，每个序列的数据 QUOTE

，即每一个滑动窗口即可得到一个j维的序列数据；

。上一个神经元的输出和细胞的状态使用 QUOTE

和 QUOTE

表示，则当前输出为：

数据预测模块，该模块中，在预测集中适用于训练集同样的窗口大小获取输入序列数据，即窗口长度为l，第一次输入一组窗口内的数据后一次向后滑动窗口，每一滑动距离是1，直至滑动结束；将每一个滑窗得到的存储量变化序列数据 QUOTE

结果异常的判断模块，该模块中，选择三个月的历史数据，每天固定间隔采取12次数据，则共有90*12个时间点的数据；经过上述几步的处理后，选取的窗口长度l=10，则得到序列数据900组，选取前面180组作为训练数据进行模型训练，使用训练好的模型预测训练集计算误差范围。测试时，使用后面180组数据送入预测模型，然后将得到的结果与实际值计算误差，对比误差是否在合理范围内，若不在合理范围内则提醒运维人员出现异常。

第三方面，提供一种计算机存储介质，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

本发明的有益效果在于，选择使用历史数据训练LSTM神经网络模型，然后使用过去几个时间点的数据能够预测出下一个时间点的数据，与下一个时间点采集计算得到的存储容量变化量进行误差计算，判断是否在合理范围内，以进行存储容量变化量异常情况的判断。这样能够实时检测每一个时间点采集到存储容量变化量是否出现异常情况，能够帮助运维人员根据报警情况的不同进行对应的检查和维护，保证存储服务器的平稳正常运行。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种判断存储容量变化量异常的方法的流程图。

图2是本发明提供的一种判断存储容量变化量异常的系统的原理框图。

其中，1-数据采集与预处理模块，2-搭建模型模块，3-数据预测模块，4-结果异常的判断模块。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供的一种判断存储容量变化量异常的方法，包括以下步骤：

S1：数据采集与预处理的步骤；

表示i时刻相比较i-1时刻的存储容量变化量的大小，即 QUOTE

=n_i-n_i-1，共得到30*12-1=359变化量值。

S2：搭建模型的步骤：

S2.1：模型输入层的搭建步骤是，

S2.2：模型隐藏层的搭建步骤是，

设置获取计算得到的存储系统容量变化量的数据集 QUOTE

，每个序列的数据 QUOTE

，即每一个滑动窗口即可得到一个j维的序列数据；

。上一个神经元的输出和细胞的状态使用 QUOTE

和 QUOTE

表示，则当前输出为：

S3：数据预测的步骤：

S4：结果异常的判断步骤，

实施例2：

如图2所示，本实施例提供的一种判断存储容量变化量异常的系统，包括：

数据采集与预处理模块1，该模块中，

表示i时刻相比较i-1时刻的存储容量变化量的大小，即 QUOTE

=n_i-n_i-1，共得到30*12-1=359变化量值。

搭建模型模块2，该模块中，

设置获取计算得到的存储系统容量变化量的数据集 QUOTE

，每个序列的数据 QUOTE

，即每一个滑动窗口即可得到一个j维的序列数据；

。上一个神经元的输出和细胞的状态使用 QUOTE

和 QUOTE

表示，则当前输出为：

数据预测模块3，该模块中，在预测集中适用于训练集同样的窗口大小获取输入序列数据，即窗口长度为l，第一次输入一组窗口内的数据后一次向后滑动窗口，每一滑动距离是1，直至滑动结束；将每一个滑窗得到的存储量变化序列数据 QUOTE

结果异常的判断模块4，该模块中，选择三个月的历史数据，每天固定间隔采取12次数据，则共有90*12个时间点的数据；经过上述几步的处理后，选取的窗口长度l=10，则得到序列数据900组，选取前面180组作为训练数据进行模型训练，使用训练好的模型预测训练集计算误差范围。测试时，使用后面180组数据送入预测模型，然后将得到的结果与实际值计算误差，对比误差是否在合理范围内，若不在合理范围内则提醒运维人员出现异常。

实施例3：

本实施例提供一种计算机存储介质，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例1所述的方法。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种判断存储容量变化量异常的方法，其特征在于，包括以下步骤：

S1：数据采集与预处理的步骤；

S1.1：从客户数据中心每隔一定时间提取存储容量数据，对提取后的存储容量数据进行预处理，预处理操作为清洗存储容量数据中的无效数据和重复数据；

S1.2：针对预处理后的存储容量数据，使用ni表示i时刻存储容量的大小，单位是GB；用

表示i时刻相比较i-1时刻的存储容量变化量的大小，即

=n_i-n_i-1，得到变化量值；

S2：搭建模型的步骤：

S2.1：模型输入层的搭建步骤是，

S2.2：模型隐藏层的搭建步骤是，

采用单层循环神经网络，通过LSTM细胞交互结构，接收输入层的一组时序数据，对该组时序数据进行神经网络训练；输出层是对应于输入序列的下一个时间点的预测结果，即输出节点是1，同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构；

S3：数据预测的步骤：

在预测集中适用于训练集同样的窗口大小获取输入序列数据，即窗口长度为l，第一次输入一组窗口内的数据后一次向后滑动窗口，每一滑动距离是1，直至滑动结束；将每一个滑窗得到的存储量变化序列数据

中的前维数据送入训练好的预测模型，可得到预测出下一个时间点的数据，然后统计各个序列数据预测的结果与真实结果的差值，找出其中的最大值和最小值，计算最终的允许合理误差范围；

S4：结果异常的判断步骤，

选择历史数据，每天固定间隔采取数据，选取窗口长度之外的数据进行模型训练，使用训练好的模型预测训练集计算误差范围；测试时，窗口长度之内的数据送入预测模型，然后将得到的结果与实际值计算误差，对比误差是否在合理范围内，若不在合理范围内则提醒运维人员出现异常。

2.根据权利要求1所述的一种判断存储容量变化量异常的方法，其特征在于，所述步骤S1.2中，采集一个月的数量进行方法实验，得到30*12个时间点的数据；用

表示i时刻相比较i-1时刻的存储容量变化量的大小，即

=n_i-n_i-1，共得到30*12-1=359变化量值。

3.根据权利要求2所述的一种判断存储容量变化量异常的方法，其特征在于，所述步骤S2.2中，节点数是5或10或15或20或25。

4.一种判断存储容量变化量异常的系统，其特征在于，包括：

数据采集与预处理模块，该模块中，

首先，从客户数据中心每隔一定时间提取存储容量数据，对提取后的存储容量数据进行预处理，预处理操作为清洗存储容量数据中的无效数据和重复数据；

其次，针对预处理后的存储容量数据，使用ni表示i时刻存储容量的大小，单位是GB；用

表示i时刻相比较i-1时刻的存储容量变化量的大小，即

=n_i-n_i-1，得到变化量值；

搭建模型模块，该模块中，

其次，搭建模型隐藏层，采用单层循环神经网络，通过LSTM细胞交互结构，接收输入层的一组时序数据，对该组时序数据进行神经网络训练；输出层是对应于输入序列的下一个时间点的预测结果，即输出节点是1，同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构；

数据预测模块，该模块中，在预测集中适用于训练集同样的窗口大小获取输入序列数据，即窗口长度为l，第一次输入一组窗口内的数据后一次向后滑动窗口，每一滑动距离是1，直至滑动结束；将每一个滑窗得到的存储量变化序列数据

结果异常的判断模块，该模块中，选择历史数据，每天固定间隔采取数据，选取窗口长度之外的数据进行模型训练，使用训练好的模型预测训练集计算误差范围；测试时，窗口长度之内的数据送入预测模型，然后将得到的结果与实际值计算误差，对比误差是否在合理范围内，若不在合理范围内则提醒运维人员出现异常。

5.根据权利要求4所述的一种判断存储容量变化量异常的系统，其特征在于，所述数据采集与预处理模块中，采集一个月的数量进行方法实验，得到30*12个时间点的数据；用

表示i时刻相比较i-1时刻的存储容量变化量的大小，即

=n_i-n_i-1，共得到30*12-1=359变化量值。

6.根据权利要求5所述的一种判断存储容量变化量异常的系统，其特征在于，所述搭建模型模块中，节点数是5或10或15或20或25。

7.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，当其在计算机上运行时，使得计算机执行权利要求1-3中任一权利要求所述的方法。