CN111221479B - 一种判断存储容量变化量异常的方法、系统及存储介质 - Google Patents

一种判断存储容量变化量异常的方法、系统及存储介质 Download PDF

Info

Publication number
CN111221479B
CN111221479B CN202010063254.3A CN202010063254A CN111221479B CN 111221479 B CN111221479 B CN 111221479B CN 202010063254 A CN202010063254 A CN 202010063254A CN 111221479 B CN111221479 B CN 111221479B
Authority
CN
China
Prior art keywords
data
storage capacity
time
input
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010063254.3A
Other languages
English (en)
Other versions
CN111221479A (zh
Inventor
李鹏
胡汉顶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010063254.3A priority Critical patent/CN111221479B/zh
Publication of CN111221479A publication Critical patent/CN111221479A/zh
Application granted granted Critical
Publication of CN111221479B publication Critical patent/CN111221479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/062Securing storage systems
    • G06F3/0623Securing storage systems in relation to content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种判断存储容量变化量异常的方法、系统及存储介质,所述的方法包括以下步骤:S1:数据采集与预处理的步骤;S2:搭建模型的步骤:S2.1:模型输入层的搭建步骤是,选取文本窗口,本文选择窗口长度为j,输入时,每次选择j个数据点作为输入序列,即输入节点是j;S2.2:模型隐藏层的搭建步骤是,采用单层循环神经网络,节点数是5或10或15或20或25,通过LSTM细胞交互结构,接收输入层的一组时序数据,对该组时序数据进行神经网络训练;输出层是对应于输入序列的下一个时间点的预测结果,同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构;S3:数据预测的步骤:S4:结果异常的判断步骤。

Description

一种判断存储容量变化量异常的方法、系统及存储介质
技术领域
本发明属于计算机技术领域,具体涉及一种判断存储容量变化量异常的方法、系统及存储介质。
背景技术
存储系统容量变化量预测主要用于预测未来一段时间内的存储容量的变化情况,使运维人员能够及时了解目前及未来一段时间的存储系统的存储容量变化情况,保证存储系统能够安全正常运行。
准确的存储容量变化预测能够及时发现存储系统的潜在风险,确保存储数据中心能够长期安全稳定运行。若存储容量增加过快则可以及时制定合理的扩容计划,有效控制存储中心的成本;当存储容量变化量的增速过低,处于异常情况时,能够及时提醒运维人员进行存储系统的性能检测,以防止是数据存储失败的原因导致的。
目前存储系统的存储量变化情况多数依靠设定存储空间已使用比率阈值的方式,当存储空间占用率超出设定的阈值大小时,向系统管理员发送警报,不能进行存储容量变化情况的预测,往往是容量异常变化发生时才会察觉,不利于系统风险的预判。此为现有技术中存在的缺陷。
有鉴于此,本发明提供一种判断存储容量变化量异常的方法、系统及存储介质;以解决现有技术中存在的缺陷,是非常有必要的。
发明内容
针对现有技术的上述不足,本发明提供一种判断存储容量变化量异常的方法、系统及存储介质,以解决上述技术问题。
为实现上述目的,本发明给出以下技术方案:
第一方面,本发明提供一种判断存储容量变化量异常的方法,包括以下步骤:
S1:数据采集与预处理的步骤;
S1.1:从客户数据中心每隔一定时间(选择两个小时作为一个时间段)提取存储容量数据,对提取后的存储容量数据进行预处理,预处理操作为清洗存储容量数据中的无效数据和重复数据,以保证所获取数据的有效性和可靠性;
S1.2:针对预处理后的存储容量数据,使用ni表示i时刻存储容量的大小,单位是GB,采集一个月的数量进行方法实验,得到30*12个时间点的数据;用 QUOTE
Figure 203271DEST_PATH_IMAGE002
Figure 463351DEST_PATH_IMAGE002
表示i时刻相比较i-1时刻的存储容量变化量的大小,即 QUOTE
Figure 276586DEST_PATH_IMAGE002
Figure 571301DEST_PATH_IMAGE002
=ni-ni-1,共得到30*12-1=359变化量值。
S2:搭建模型的步骤:
S2.1:模型输入层的搭建步骤是,
选取文本窗口,本文选择窗口长度为j,输入时,每次选择j个数据点作为输入序列,即输入节点是j;
S2.2:模型隐藏层的搭建步骤是,
采用单层循环神经网络,节点数是5或10或15或20或25,通过LSTM细胞交互结构,接收输入层的一组时序数据,对该组时序数据进行神经网络训练;输出层是对应于输入序列的下一个时间点的预测结果,即输出节点是1,同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构;
神经网络模型的训练目的就是能够找到最恰当的全局最优解和权重,能够将神经网络的训练看作是求解损失函数最小值的问题。本发明选择反向传播算法(BackPropagation Through Time,BPTT)进行训练,首先通过前向计算得出隐藏层和输出层的输出,然后将此输出与训练集中的数据进行对比,然后计算权重的梯度,随后本算法中选择使用Adam对梯度进行优化。本发明中训练预测模型主要有以下几个步骤:
设置获取计算得到的存储系统容量变化量的数据集 QUOTE
Figure 874106DEST_PATH_IMAGE004
Figure 559166DEST_PATH_IMAGE004
,数据集中共有L个数据,设置一个滑动窗口,长度设置为j,每个窗口内的序列数据的前(j-1)维作为一个输入序列,前后相邻的两个数据组相当于向后滑动了一个距离,则数据序列为 QUOTE
Figure 238409DEST_PATH_IMAGE006
Figure 325313DEST_PATH_IMAGE006
,每个序列的数据 QUOTE
Figure 64599DEST_PATH_IMAGE008
Figure 33692DEST_PATH_IMAGE008
,即每一个滑动窗口即可得到一个j维的序列数据;
在神经网络LSTM中,有L-1个输入数据相当于有L-1个神经元细胞,每个输入数据为 QUOTE
Figure 188730DEST_PATH_IMAGE010
Figure 458037DEST_PATH_IMAGE010
的前(j-1)维数据,经过网络中隐藏层的前向计算后输出为 QUOTE
Figure 305908DEST_PATH_IMAGE012
Figure 762297DEST_PATH_IMAGE012
。上一个神经元的输出和细胞的状态使用 QUOTE
Figure 783342DEST_PATH_IMAGE014
Figure 579260DEST_PATH_IMAGE014
和 QUOTE
Figure 394769DEST_PATH_IMAGE016
Figure 601104DEST_PATH_IMAGE016
表示,则当前输出为:
Figure 363524DEST_PATH_IMAGE018
计算损失函数:本发明中选择使用均方误差(MSE)计算误差,因此在训练过程中损失函数可表示为:
Figure 341844DEST_PATH_IMAGE020
求解损失函数的最小值或通过Loss的梯度下降更新权重参数。训练LSTM神经网络的过程就是不断计算找到Loss的最小值的过程。本发明选择使用Adam优化器优化网络,Adam是一种基于一阶梯度来优化随机目标函数的算法,使用该方法能够不断更新权重求取到最优解。
S3:数据预测的步骤:
在预测集中适用于训练集同样的窗口大小获取输入序列数据,即窗口长度为l,第一次输入一组窗口内的数据后一次向后滑动窗口,每一滑动距离是1,直至滑动结束;将每一个滑窗得到的存储量变化序列数据 QUOTE
Figure 62675DEST_PATH_IMAGE010
Figure 696919DEST_PATH_IMAGE010
中的前(l-1)维数据送入训练好的预测模型,即可得到预测出下一个时间点的数据,然后统计各个序列数据预测的结果与真实结果的差值,找出其中的最大值和最小值作为,然后再使用数理统计学的3Sigma原则,计算最终的允许合理误差范围;
S4:结果异常的判断步骤,
选择三个月的历史数据,每天固定间隔采取12次数据,则共有90*12个时间点的数据;经过上述几步的处理后,选取的窗口长度l=10,则得到序列数据900组,选取前面180组作为训练数据进行模型训练,使用训练好的模型预测训练集计算误差范围。测试时,使用后面180组数据送入预测模型,然后将得到的结果与实际值计算误差,对比误差是否在合理范围内,若不在合理范围内则提醒运维人员出现异常。
第二方面,本发明提供一种判断存储容量变化量异常的系统,包括:
数据采集与预处理模块,该模块中,
首先,从客户数据中心每隔一定时间(选择两个小时作为一个时间段)提取存储容量数据,对提取后的存储容量数据进行预处理,预处理操作为清洗存储容量数据中的无效数据和重复数据,以保证所获取数据的有效性和可靠性;
其次,针对预处理后的存储容量数据,使用ni表示i时刻存储容量的大小,单位是GB,采集一个月的数量进行方法实验,得到30*12个时间点的数据;用 QUOTE
Figure 59767DEST_PATH_IMAGE002
Figure 95856DEST_PATH_IMAGE002
表示i时刻相比较i-1时刻的存储容量变化量的大小,即 QUOTE
Figure 253168DEST_PATH_IMAGE002
Figure 171446DEST_PATH_IMAGE002
=ni-ni-1,共得到30*12-1=359变化量值。
搭建模型模块,该模块中,
首先,搭建模型输入层,选取文本窗口,本文选择窗口长度为j,输入时,每次选择j个数据点作为输入序列,即输入节点是j;
其次,搭建模型隐藏层,采用单层循环神经网络,节点数是5或10或15或20或25,通过LSTM细胞交互结构,接收输入层的一组时序数据,对该组时序数据进行神经网络训练;输出层是对应于输入序列的下一个时间点的预测结果,即输出节点是1,同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构;
神经网络模型的训练目的就是能够找到最恰当的全局最优解和权重,能够将神经网络的训练看作是求解损失函数最小值的问题。本发明选择反向传播算法(BackPropagation Through Time,BPTT)进行训练,首先通过前向计算得出隐藏层和输出层的输出,然后将此输出与训练集中的数据进行对比,然后计算权重的梯度,随后本算法中选择使用Adam对梯度进行优化。本发明中训练预测模型主要有以下几个步骤:
设置获取计算得到的存储系统容量变化量的数据集 QUOTE
Figure DEST_PATH_IMAGE021
Figure 72406DEST_PATH_IMAGE021
,数据集中共有L个数据,设置一个滑动窗口,长度设置为j,每个窗口内的序列数据的前(j-1)维作为一个输入序列,前后相邻的两个数据组相当于向后滑动了一个距离,则数据序列为 QUOTE
Figure DEST_PATH_IMAGE022
Figure 228580DEST_PATH_IMAGE022
,每个序列的数据 QUOTE
Figure 822373DEST_PATH_IMAGE008
Figure 165629DEST_PATH_IMAGE008
,即每一个滑动窗口即可得到一个j维的序列数据;
在神经网络LSTM中,有L-1个输入数据相当于有L-1个神经元细胞,每个输入数据为 QUOTE
Figure DEST_PATH_IMAGE023
Figure 667018DEST_PATH_IMAGE023
的前(j-1)维数据,经过网络中隐藏层的前向计算后输出为 QUOTE
Figure DEST_PATH_IMAGE024
Figure 208858DEST_PATH_IMAGE024
。上一个神经元的输出和细胞的状态使用 QUOTE
Figure 911234DEST_PATH_IMAGE014
Figure 538525DEST_PATH_IMAGE014
和 QUOTE
Figure 46867DEST_PATH_IMAGE016
Figure 646475DEST_PATH_IMAGE016
表示,则当前输出为:
Figure 582070DEST_PATH_IMAGE018
计算损失函数:本发明中选择使用均方误差(MSE)计算误差,因此在训练过程中损失函数可表示为:
Figure DEST_PATH_IMAGE025
求解损失函数的最小值或通过Loss的梯度下降更新权重参数。训练LSTM神经网络的过程就是不断计算找到Loss的最小值的过程。本发明选择使用Adam优化器优化网络,Adam是一种基于一阶梯度来优化随机目标函数的算法,使用该方法能够不断更新权重求取到最优解。
数据预测模块,该模块中,在预测集中适用于训练集同样的窗口大小获取输入序列数据,即窗口长度为l,第一次输入一组窗口内的数据后一次向后滑动窗口,每一滑动距离是1,直至滑动结束;将每一个滑窗得到的存储量变化序列数据 QUOTE
Figure 431078DEST_PATH_IMAGE010
Figure 480461DEST_PATH_IMAGE010
中的前(l-1)维数据送入训练好的预测模型,即可得到预测出下一个时间点的数据,然后统计各个序列数据预测的结果与真实结果的差值,找出其中的最大值和最小值作为,然后再使用数理统计学的3Sigma原则,计算最终的允许合理误差范围;
结果异常的判断模块,该模块中,选择三个月的历史数据,每天固定间隔采取12次数据,则共有90*12个时间点的数据;经过上述几步的处理后,选取的窗口长度l=10,则得到序列数据900组,选取前面180组作为训练数据进行模型训练,使用训练好的模型预测训练集计算误差范围。测试时,使用后面180组数据送入预测模型,然后将得到的结果与实际值计算误差,对比误差是否在合理范围内,若不在合理范围内则提醒运维人员出现异常。
第三方面,提供一种计算机存储介质,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明的有益效果在于,选择使用历史数据训练LSTM神经网络模型,然后使用过去几个时间点的数据能够预测出下一个时间点的数据,与下一个时间点采集计算得到的存储容量变化量进行误差计算,判断是否在合理范围内,以进行存储容量变化量异常情况的判断。这样能够实时检测每一个时间点采集到存储容量变化量是否出现异常情况,能够帮助运维人员根据报警情况的不同进行对应的检查和维护,保证存储服务器的平稳正常运行。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种判断存储容量变化量异常的方法的流程图。
图2是本发明提供的一种判断存储容量变化量异常的系统的原理框图。
其中,1-数据采集与预处理模块,2-搭建模型模块,3-数据预测模块,4-结果异常的判断模块。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:
如图1所示,本实施例提供的一种判断存储容量变化量异常的方法,包括以下步骤:
S1:数据采集与预处理的步骤;
S1.1:从客户数据中心每隔一定时间(选择两个小时作为一个时间段)提取存储容量数据,对提取后的存储容量数据进行预处理,预处理操作为清洗存储容量数据中的无效数据和重复数据,以保证所获取数据的有效性和可靠性;
S1.2:针对预处理后的存储容量数据,使用ni表示i时刻存储容量的大小,单位是GB,采集一个月的数量进行方法实验,得到30*12个时间点的数据;用 QUOTE
Figure 200155DEST_PATH_IMAGE002
Figure 41072DEST_PATH_IMAGE002
表示i时刻相比较i-1时刻的存储容量变化量的大小,即 QUOTE
Figure 908534DEST_PATH_IMAGE002
Figure 696361DEST_PATH_IMAGE002
=ni-ni-1,共得到30*12-1=359变化量值。
S2:搭建模型的步骤:
S2.1:模型输入层的搭建步骤是,
选取文本窗口,本文选择窗口长度为j,输入时,每次选择j个数据点作为输入序列,即输入节点是j;
S2.2:模型隐藏层的搭建步骤是,
采用单层循环神经网络,节点数是5或10或15或20或25,通过LSTM细胞交互结构,接收输入层的一组时序数据,对该组时序数据进行神经网络训练;输出层是对应于输入序列的下一个时间点的预测结果,即输出节点是1,同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构;
神经网络模型的训练目的就是能够找到最恰当的全局最优解和权重,能够将神经网络的训练看作是求解损失函数最小值的问题。本发明选择反向传播算法(BackPropagation Through Time,BPTT)进行训练,首先通过前向计算得出隐藏层和输出层的输出,然后将此输出与训练集中的数据进行对比,然后计算权重的梯度,随后本算法中选择使用Adam对梯度进行优化。本发明中训练预测模型主要有以下几个步骤:
设置获取计算得到的存储系统容量变化量的数据集 QUOTE
Figure 67300DEST_PATH_IMAGE004
Figure 344697DEST_PATH_IMAGE004
,数据集中共有L个数据,设置一个滑动窗口,长度设置为j,每个窗口内的序列数据的前(j-1)维作为一个输入序列,前后相邻的两个数据组相当于向后滑动了一个距离,则数据序列为 QUOTE
Figure 371559DEST_PATH_IMAGE006
Figure 25394DEST_PATH_IMAGE006
,每个序列的数据 QUOTE
Figure 250839DEST_PATH_IMAGE008
Figure 636821DEST_PATH_IMAGE008
,即每一个滑动窗口即可得到一个j维的序列数据;
在神经网络LSTM中,有L-1个输入数据相当于有L-1个神经元细胞,每个输入数据为 QUOTE
Figure 478875DEST_PATH_IMAGE010
Figure 608505DEST_PATH_IMAGE010
的前(j-1)维数据,经过网络中隐藏层的前向计算后输出为 QUOTE
Figure 688457DEST_PATH_IMAGE012
Figure 573236DEST_PATH_IMAGE012
。上一个神经元的输出和细胞的状态使用 QUOTE
Figure 574690DEST_PATH_IMAGE014
Figure 570328DEST_PATH_IMAGE014
和 QUOTE
Figure 504786DEST_PATH_IMAGE016
Figure 498150DEST_PATH_IMAGE016
表示,则当前输出为:
Figure 49217DEST_PATH_IMAGE018
计算损失函数:本发明中选择使用均方误差(MSE)计算误差,因此在训练过程中损失函数可表示为:
Figure 317387DEST_PATH_IMAGE020
求解损失函数的最小值或通过Loss的梯度下降更新权重参数。训练LSTM神经网络的过程就是不断计算找到Loss的最小值的过程。本发明选择使用Adam优化器优化网络,Adam是一种基于一阶梯度来优化随机目标函数的算法,使用该方法能够不断更新权重求取到最优解。
S3:数据预测的步骤:
在预测集中适用于训练集同样的窗口大小获取输入序列数据,即窗口长度为l,第一次输入一组窗口内的数据后一次向后滑动窗口,每一滑动距离是1,直至滑动结束;将每一个滑窗得到的存储量变化序列数据 QUOTE
Figure 840773DEST_PATH_IMAGE010
Figure 801775DEST_PATH_IMAGE010
中的前(l-1)维数据送入训练好的预测模型,即可得到预测出下一个时间点的数据,然后统计各个序列数据预测的结果与真实结果的差值,找出其中的最大值和最小值作为,然后再使用数理统计学的3Sigma原则,计算最终的允许合理误差范围;
S4:结果异常的判断步骤,
选择三个月的历史数据,每天固定间隔采取12次数据,则共有90*12个时间点的数据;经过上述几步的处理后,选取的窗口长度l=10,则得到序列数据900组,选取前面180组作为训练数据进行模型训练,使用训练好的模型预测训练集计算误差范围。测试时,使用后面180组数据送入预测模型,然后将得到的结果与实际值计算误差,对比误差是否在合理范围内,若不在合理范围内则提醒运维人员出现异常。
实施例2:
如图2所示,本实施例提供的一种判断存储容量变化量异常的系统,包括:
数据采集与预处理模块1,该模块中,
首先,从客户数据中心每隔一定时间(选择两个小时作为一个时间段)提取存储容量数据,对提取后的存储容量数据进行预处理,预处理操作为清洗存储容量数据中的无效数据和重复数据,以保证所获取数据的有效性和可靠性;
其次,针对预处理后的存储容量数据,使用ni表示i时刻存储容量的大小,单位是GB,采集一个月的数量进行方法实验,得到30*12个时间点的数据;用 QUOTE
Figure 512242DEST_PATH_IMAGE002
Figure 849683DEST_PATH_IMAGE002
表示i时刻相比较i-1时刻的存储容量变化量的大小,即 QUOTE
Figure 44820DEST_PATH_IMAGE002
Figure 114407DEST_PATH_IMAGE002
=ni-ni-1,共得到30*12-1=359变化量值。
搭建模型模块2,该模块中,
首先,搭建模型输入层,选取文本窗口,本文选择窗口长度为j,输入时,每次选择j个数据点作为输入序列,即输入节点是j;
其次,搭建模型隐藏层,采用单层循环神经网络,节点数是5或10或15或20或25,通过LSTM细胞交互结构,接收输入层的一组时序数据,对该组时序数据进行神经网络训练;输出层是对应于输入序列的下一个时间点的预测结果,即输出节点是1,同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构;
神经网络模型的训练目的就是能够找到最恰当的全局最优解和权重,能够将神经网络的训练看作是求解损失函数最小值的问题。本发明选择反向传播算法(BackPropagation Through Time,BPTT)进行训练,首先通过前向计算得出隐藏层和输出层的输出,然后将此输出与训练集中的数据进行对比,然后计算权重的梯度,随后本算法中选择使用Adam对梯度进行优化。本发明中训练预测模型主要有以下几个步骤:
设置获取计算得到的存储系统容量变化量的数据集 QUOTE
Figure 374487DEST_PATH_IMAGE021
Figure 250039DEST_PATH_IMAGE021
,数据集中共有L个数据,设置一个滑动窗口,长度设置为j,每个窗口内的序列数据的前(j-1)维作为一个输入序列,前后相邻的两个数据组相当于向后滑动了一个距离,则数据序列为 QUOTE
Figure 482438DEST_PATH_IMAGE022
Figure 785243DEST_PATH_IMAGE022
,每个序列的数据 QUOTE
Figure DEST_PATH_IMAGE026
Figure 532619DEST_PATH_IMAGE026
,即每一个滑动窗口即可得到一个j维的序列数据;
在神经网络LSTM中,有L-1个输入数据相当于有L-1个神经元细胞,每个输入数据为 QUOTE
Figure 946283DEST_PATH_IMAGE010
Figure 33188DEST_PATH_IMAGE010
的前(j-1)维数据,经过网络中隐藏层的前向计算后输出为 QUOTE
Figure 506894DEST_PATH_IMAGE012
Figure 741566DEST_PATH_IMAGE012
。上一个神经元的输出和细胞的状态使用 QUOTE
Figure 896604DEST_PATH_IMAGE014
Figure 165912DEST_PATH_IMAGE014
和 QUOTE
Figure 748203DEST_PATH_IMAGE016
Figure 470171DEST_PATH_IMAGE016
表示,则当前输出为:
Figure 225637DEST_PATH_IMAGE018
计算损失函数:本发明中选择使用均方误差(MSE)计算误差,因此在训练过程中损失函数可表示为:
Figure 287134DEST_PATH_IMAGE020
求解损失函数的最小值或通过Loss的梯度下降更新权重参数。训练LSTM神经网络的过程就是不断计算找到Loss的最小值的过程。本发明选择使用Adam优化器优化网络,Adam是一种基于一阶梯度来优化随机目标函数的算法,使用该方法能够不断更新权重求取到最优解。
数据预测模块3,该模块中,在预测集中适用于训练集同样的窗口大小获取输入序列数据,即窗口长度为l,第一次输入一组窗口内的数据后一次向后滑动窗口,每一滑动距离是1,直至滑动结束;将每一个滑窗得到的存储量变化序列数据 QUOTE
Figure 102644DEST_PATH_IMAGE010
Figure 311908DEST_PATH_IMAGE010
中的前(l-1)维数据送入训练好的预测模型,即可得到预测出下一个时间点的数据,然后统计各个序列数据预测的结果与真实结果的差值,找出其中的最大值和最小值作为,然后再使用数理统计学的3Sigma原则,计算最终的允许合理误差范围;
结果异常的判断模块4,该模块中,选择三个月的历史数据,每天固定间隔采取12次数据,则共有90*12个时间点的数据;经过上述几步的处理后,选取的窗口长度l=10,则得到序列数据900组,选取前面180组作为训练数据进行模型训练,使用训练好的模型预测训练集计算误差范围。测试时,使用后面180组数据送入预测模型,然后将得到的结果与实际值计算误差,对比误差是否在合理范围内,若不在合理范围内则提醒运维人员出现异常。
实施例3:
本实施例提供一种计算机存储介质,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例1所述的方法。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种判断存储容量变化量异常的方法,其特征在于,包括以下步骤:
S1:数据采集与预处理的步骤;
S1.1:从客户数据中心每隔一定时间提取存储容量数据,对提取后的存储容量数据进行预处理,预处理操作为清洗存储容量数据中的无效数据和重复数据;
S1.2:针对预处理后的存储容量数据,使用ni表示i时刻存储容量的大小,单位是GB;用
Figure DEST_PATH_IMAGE001
表示i时刻相比较i-1时刻的存储容量变化量的大小,即
Figure 407782DEST_PATH_IMAGE001
=ni-ni-1,得到变化量值;
S2:搭建模型的步骤:
S2.1:模型输入层的搭建步骤是,
选取文本窗口,本文选择窗口长度为j,输入时,每次选择j个数据点作为输入序列,即输入节点是j;
S2.2:模型隐藏层的搭建步骤是,
采用单层循环神经网络,通过LSTM细胞交互结构,接收输入层的一组时序数据,对该组时序数据进行神经网络训练;输出层是对应于输入序列的下一个时间点的预测结果,即输出节点是1,同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构;
S3:数据预测的步骤:
在预测集中适用于训练集同样的窗口大小获取输入序列数据,即窗口长度为l,第一次输入一组窗口内的数据后一次向后滑动窗口,每一滑动距离是1,直至滑动结束;将每一个滑窗得到的存储量变化序列数据
Figure 994621DEST_PATH_IMAGE002
中的前维数据送入训练好的预测模型,可得到预测出下一个时间点的数据,然后统计各个序列数据预测的结果与真实结果的差值,找出其中的最大值和最小值,计算最终的允许合理误差范围;
S4:结果异常的判断步骤,
选择历史数据,每天固定间隔采取数据,选取窗口长度之外的数据进行模型训练,使用训练好的模型预测训练集计算误差范围;测试时,窗口长度之内的数据送入预测模型,然后将得到的结果与实际值计算误差,对比误差是否在合理范围内,若不在合理范围内则提醒运维人员出现异常。
2.根据权利要求1所述的一种判断存储容量变化量异常的方法,其特征在于,所述步骤S1.2中,采集一个月的数量进行方法实验,得到30*12个时间点的数据;用
Figure 217792DEST_PATH_IMAGE001
表示i时刻相比较i-1时刻的存储容量变化量的大小,即
Figure 49744DEST_PATH_IMAGE001
=ni-ni-1,共得到30*12-1=359变化量值。
3.根据权利要求2所述的一种判断存储容量变化量异常的方法,其特征在于,所述步骤S2.2中,节点数是5或10或15或20或25。
4.一种判断存储容量变化量异常的系统,其特征在于,包括:
数据采集与预处理模块,该模块中,
首先,从客户数据中心每隔一定时间提取存储容量数据,对提取后的存储容量数据进行预处理,预处理操作为清洗存储容量数据中的无效数据和重复数据;
其次,针对预处理后的存储容量数据,使用ni表示i时刻存储容量的大小,单位是GB;用
Figure 41971DEST_PATH_IMAGE001
表示i时刻相比较i-1时刻的存储容量变化量的大小,即
Figure 330870DEST_PATH_IMAGE001
=ni-ni-1,得到变化量值;
搭建模型模块,该模块中,
首先,搭建模型输入层,选取文本窗口,本文选择窗口长度为j,输入时,每次选择j个数据点作为输入序列,即输入节点是j;
其次,搭建模型隐藏层,采用单层循环神经网络,通过LSTM细胞交互结构,接收输入层的一组时序数据,对该组时序数据进行神经网络训练;输出层是对应于输入序列的下一个时间点的预测结果,即输出节点是1,同时将结果再次反馈给隐藏层使其不断地进行训练以优化结构;
数据预测模块,该模块中,在预测集中适用于训练集同样的窗口大小获取输入序列数据,即窗口长度为l,第一次输入一组窗口内的数据后一次向后滑动窗口,每一滑动距离是1,直至滑动结束;将每一个滑窗得到的存储量变化序列数据
Figure 41337DEST_PATH_IMAGE002
中的前维数据送入训练好的预测模型,可得到预测出下一个时间点的数据,然后统计各个序列数据预测的结果与真实结果的差值,找出其中的最大值和最小值,计算最终的允许合理误差范围;
结果异常的判断模块,该模块中,选择历史数据,每天固定间隔采取数据,选取窗口长度之外的数据进行模型训练,使用训练好的模型预测训练集计算误差范围;测试时,窗口长度之内的数据送入预测模型,然后将得到的结果与实际值计算误差,对比误差是否在合理范围内,若不在合理范围内则提醒运维人员出现异常。
5.根据权利要求4所述的一种判断存储容量变化量异常的系统,其特征在于,所述数据采集与预处理模块中,采集一个月的数量进行方法实验,得到30*12个时间点的数据;用
Figure 909936DEST_PATH_IMAGE001
表示i时刻相比较i-1时刻的存储容量变化量的大小,即
Figure 22248DEST_PATH_IMAGE001
=ni-ni-1,共得到30*12-1=359变化量值。
6.根据权利要求5所述的一种判断存储容量变化量异常的系统,其特征在于,所述搭建模型模块中,节点数是5或10或15或20或25。
7.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,当其在计算机上运行时,使得计算机执行权利要求1-3中任一权利要求所述的方法。
CN202010063254.3A 2020-01-19 2020-01-19 一种判断存储容量变化量异常的方法、系统及存储介质 Active CN111221479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010063254.3A CN111221479B (zh) 2020-01-19 2020-01-19 一种判断存储容量变化量异常的方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010063254.3A CN111221479B (zh) 2020-01-19 2020-01-19 一种判断存储容量变化量异常的方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111221479A CN111221479A (zh) 2020-06-02
CN111221479B true CN111221479B (zh) 2022-08-05

Family

ID=70827128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010063254.3A Active CN111221479B (zh) 2020-01-19 2020-01-19 一种判断存储容量变化量异常的方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111221479B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239614A (zh) * 2021-04-22 2021-08-10 西北工业大学 一种大气湍流相位时空预估算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608715A (zh) * 2017-07-20 2018-01-19 上海寒武纪信息科技有限公司 用于执行人工神经网络正向运算的装置及方法
CN108595228A (zh) * 2018-05-10 2018-09-28 Oppo广东移动通信有限公司 应用程序预测模型建立方法、装置、存储介质及移动终端
CN109799533A (zh) * 2018-12-28 2019-05-24 中国石油化工股份有限公司 一种基于双向循环神经网络的储层预测方法
CN109931678A (zh) * 2019-03-13 2019-06-25 中国计量大学 基于深度学习lstm的空调故障诊断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608715A (zh) * 2017-07-20 2018-01-19 上海寒武纪信息科技有限公司 用于执行人工神经网络正向运算的装置及方法
CN108595228A (zh) * 2018-05-10 2018-09-28 Oppo广东移动通信有限公司 应用程序预测模型建立方法、装置、存储介质及移动终端
CN109799533A (zh) * 2018-12-28 2019-05-24 中国石油化工股份有限公司 一种基于双向循环神经网络的储层预测方法
CN109931678A (zh) * 2019-03-13 2019-06-25 中国计量大学 基于深度学习lstm的空调故障诊断方法

Also Published As

Publication number Publication date
CN111221479A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN109902801B (zh) 一种基于变分推理贝叶斯神经网络的洪水集合预报方法
CN109726503B (zh) 缺失数据填补方法及装置
CN108197845A (zh) 一种基于深度学习模型lstm的交易指标异常的监测方法
CN108584592A (zh) 一种基于时间序列预测模型的电梯轿厢振动异常预警方法
CN110535159B (zh) 一种规模化储能电站运行单元故障预警的方法及系统
CN111414703B (zh) 一种滚动轴承剩余寿命预测方法及装置
CN105550943A (zh) 一种基于模糊综合评判的风电机组状态参数异常辨识方法
Niu et al. Lebesgue sampling based deep belief network for lithium-ion battery diagnosis and prognosis
CN109471698B (zh) 云环境下虚拟机异常行为检测系统和方法
CN112434390B (zh) 基于多层网格搜索的pca-lstm轴承剩余寿命预测方法
CN102013148A (zh) 多信息融合火灾探测方法
CN115809405A (zh) 基于多特征融合的风机主轴齿轮箱温度异常检测方法
CN110737948A (zh) 一种基于深度fnn-lstm混合网络的航空发动机剩余寿命预测方法
CN116204779B (zh) 一种判断储能盐穴运行状态的方法、系统及可读存储介质
CN114357670A (zh) 一种基于bls和自编码器的配电网用电数据异常预警方法
CN114580260A (zh) 一种基于机器学习和概率理论的滑坡区间预测方法
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
CN115470850A (zh) 一种基于管网水质时空数据的水质异常事件识别预警方法
CN111221479B (zh) 一种判断存储容量变化量异常的方法、系统及存储介质
CN115577637A (zh) 一种知识和数据融合的电源系统剩余寿命预计方法
CN108459991B (zh) 一种获得设备可靠性数据的方法
CN111080484A (zh) 一种配电网异常数据监测方法及装置
CN117312972A (zh) 一种刮板输送机减速器健康状态识别方法
CN117113202A (zh) 基于联合误差堆叠模型的电力回路能耗检测方法及设备
CN117827593A (zh) 一种基于异常识别结果确定异常原因的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant