CN110825597A - 一种磁盘空间占有率预测方法、装置及存储介质 - Google Patents
一种磁盘空间占有率预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110825597A CN110825597A CN201910771259.9A CN201910771259A CN110825597A CN 110825597 A CN110825597 A CN 110825597A CN 201910771259 A CN201910771259 A CN 201910771259A CN 110825597 A CN110825597 A CN 110825597A
- Authority
- CN
- China
- Prior art keywords
- occupancy
- training
- disk space
- data set
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 118
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 238000013100 final test Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 7
- 230000003213 activating effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 206010033799 Paralysis Diseases 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种磁盘空间占有率预测方法,包括:对磁盘空间占有率历史数据进行预处理得到第一占有率数据集;将第一占有率数据集的格式转换为LSTM网络适用的输入格式;根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据磁盘空间占有率预测模型对训练集进行训练,得到训练结果;根据训练结果对预测模型进行调整,重复对训练集进行训练,直至训练结果达到预设的阈值,得到最终预测模型;根据测试集对最终模型进行测试,验证最终测试模型的泛化性能,得到最佳预测模型。本发明提供的一种磁盘空间占有率预测方法,能够有效地减少预测过程中人工的干预,能够有效地提高预测结果的准确性和可靠性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种磁盘空间占有率预测方法、装置及存储介质。
背景技术
应用系统在日常运行时,会对底层的软、硬件造成负荷,显著影响应用系统性能。底层任何一种资源负载过大,都可能会造成应用系统性能下降甚至瘫痪。因此需要关注服务器、数据库、中间件和存储设备的运行状态,及时了解当前应用系统的负载情况,以便提前预防,确保系统安全稳定运行。对于磁盘占用情况的数据,由于存储空间随时间变化存在很强的关联性,且历史数据对未来的发展存在一定的影响,可以采用拟合时间与占用情况函数模型,也可以采用时间序列分析方法。
使用现有的技术进行磁盘空间的占用情况进行预测,存在以下问题:
(1)数据要求严格或者需要人工预处理:
传统的统计学模型,例如ARMA模型,通常只能很好拟合线性、平稳的时间序列,所以通常需要人工对数据进行预处理,以消除非平稳性得到平稳的序列。
(2)模型过于简单,模型适应性差,学习能力弱:
由于影响磁盘空间占用历史数据受业务类型等众多因素的影响,而且影响因快速难以分析,因此随机性很强,一般简单的数学模型难以解释,很难达到较好的预测效果。
发明内容
本发明实施例的目的是提供一种磁盘空间占有率预测方法,能够有效地减少预测过程中人工的干预,且能够有效地提高预测结果的准确性和可靠性。
为实现上述目的,一方面,本发明的一个实施例提供了一种磁盘空间占有率预测方法,包括:
对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集;
将所述第一占有率数据集的格式转换为LSTM网络适用的输入格式,得到第二占有率数据集,并将所述第二占有数据集根据需要分割预设比例的训练集和验证集;
根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据所述磁盘空间占有率预测模型对所述训练集进行训练,得到训练结果;
根据所述训练结果对所述预测模型进行调整,重复对所述训练集进行训练,直至训练结果达到预设的阈值,得到最终预测模型;
根据测试集对所述最终模型进行测试,验证所述最终测试模型的泛化性能,得到最佳预测模型。
进一步地,所述对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集,具体为:
根据磁盘空间占有率历史数据构造时间轴,所述时间轴为N个连续的以时间戳为元素的序列;
根据滑动窗口技术构建所述时间轴的第一时间戳数据集;
对所述第一时间戳数据集进行缺失值处理,得到第二时间戳数据集;
以所述第二时间戳数据集作为索引,生成第一占有率数据集。
进一步地,所述对所述时间戳数据集进行缺失值处理,得到完备时间戳数据集,具体为:根据直接删除法对所述时间戳数据集进行缺失值处理,得到第二时间戳数据集。
进一步地,所述预设的LSTM网络架构包括输入层、隐藏层和输出层,所述根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据所述磁盘空间占有率预测模型对所述训练集进行训练,得到训练结果,具体为:通过输入层输入过去到现在k个连续时间点的占用率,通过隐藏层输入超参数对所述预测模型进行超参调整,通过输出层输出k个连续时间点中每一个时间点的预测占有率,所述预测占有率为训练结果。
进一步地,所述根据所述训练结果对所述预测模型进行调整,直至训练结果达到预设的阈值,得到最终预测模型,具体为:
计算所述训练结果与所述第一占有率对应的占有率的差值,得到训练损失值和验证损失值,判断所述训练损失值和所述验证损失值是否均收敛于预设的值,若否,则调整所述预测模型的学习速率及批处理大小;若是,则所述预测模型为最终预测模型。
进一步地,所述将所述第二占有数据集根据需要分割预设比例的训练集和验证集,具体为:分割所述训练集与所述验证集的比例为7:3。
另一方面,本发明的另一实施例提供了一种磁盘空间占有率预测方装置,包括预处理模块、分割模块、第一训练模块、第二训练模块和验证模块;
所述预处理模块,用于对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集;
所述分割模块,用于将所述第一占有率数据集的格式转换为LSTM网络适用的输入格式,得到第二占有率数据集,并将所述第二占有数据集根据需要分割预设比例的训练集和验证集;
所述第一训练模块,用于根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据所述磁盘空间占有率预测模型对所述训练集进行训练,得到训练结果;
所述第二训练模块,用于根据所述训练结果对所述预测模型进行调整,重复对所述训练集进行训练,直至训练结果达到预设的阈值,得到最终预测模型;
所述验证模块,用于根据测试集对所述最终模型进行测试,验证所述最终测试模型的泛化性能,得到最佳预测模型。
进一步地,所述预处理模块,具体用于:根据磁盘空间占有率历史数据构造时间轴,所述时间轴为N个连续的以时间戳为元素的序列;根据滑动窗口技术构建所述时间轴的第一时间戳数据集;对所述第一时间戳数据集进行缺失值处理,得到第二时间戳数据集;以所述第二时间戳数据集作为索引,生成第一占有率数据集。
进一步地,所述第一训练模块,具体用于:通过输入层输入过去到现在k个连续时间点的占用率,通过隐藏层输入超参数对所述预测模型进行超参调整,通过输出层输出k个连续时间点中每一个时间点的预测占有率,所述预测占有率为训练结果。
又一方面,本发明的又一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的磁盘空间占有率预测方法。
本发明实施例的目的是提供一种磁盘空间占有率预测方法,通过采用LSTM 网络建立磁盘空间占有率的预测模型对磁盘空间的占有率进行预测,能够有效提高对磁盘空间占有率预测的准确性和可靠性;且在预测过程中能够有效地减少人工的干预,有利于进一步提高预测结果的准确性和可靠性。
附图说明
图1是本发明提供的一种磁盘空间占有率预测方法的流程示意图;
图2是本发明提供的一种磁盘空间占有率预测方法S1的具体流程示意图;
图3是本发明提供的一种磁盘空间占有率预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的第一实施例:
请参阅图1-2。
本发明的实施例提供了一种磁盘空间占有率预测方法,包括:
S1、对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集;
S2、将第一占有率数据集的格式转换为LSTM网络适用的输入格式,得到第二占有率数据集,并将第二占有数据集根据需要分割预设比例的训练集和验证集;
S3、根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据磁盘空间占有率预测模型对训练集进行训练,得到训练结果;
S4、根据训练结果对预测模型进行调整,重复对训练集进行训练,直至训练结果达到预设的阈值,得到最终预测模型;
S5、根据测试集对最终模型进行测试,验证最终测试模型的泛化性能,得到最佳预测模型。
在本发明实施例中,设磁盘空间占用情况历史数据中占用率非空对应的时刻为序列real_ST:……,T-K+1,T-K+2,……,T-1,T0,T1……,Tl-1,Tl,且每一时刻对应的占有率为序列real_DT:……,D-K+1,D-K+2,……,D-1,D0,D1……,Dl-1, Dl;对序列real_DT中的数据进行正则化处理,降低拟合度。设开始时刻为T0,预测将来第l个时刻的磁盘占用情况。若过去到此时的k个连续时间点对应的占用率会对第l个时刻的磁盘占用情况有显著影响,则k为窗口长度。根据所选取的磁盘空间占用情况历史数据的起始时间为T1,截至时间为TN,构造时间轴,为 T1,T2,T3,……TN-1,TN,得到N个连续的以时间戳为元素的序列ST。
若序列ST没有缺失值,则序列ST为序列real_ST,根据滑动窗口技术构造时间戳数据集:根据序列ST,构造列表listTX与列表listTY。ListTX为过去k 个连续时间点的占用率,ListTY为将来第l个时间点的占用率,且listTX与 listTY的每一行一一对应。
若序列ST存在缺失值,则根据直接删除法对序列ST进行缺失值处理得到时间戳数据集:以ST中时间戳为索引在历史数据中匹配对应的占用率。若找不到对应的占用率数据或者找到的占用率一项为空的,记为确缺失项,把所有的缺失项中的时间戳记录下来,称为缺失时间列表,miss_TS,同时检查listTX或者 listTY中是否存在miss_TS的数据,如果存在,同时在listTX和listTY上删除该行,得到进行缺失值处理后的时间戳数据集,并根据时间戳数据集生成第一占有率数据集,第一占有率数据集包括listDX,listDY。记第一占有率数据集中 listDX,listDY中的列表长度为samples,得到数据集listDX的维度为[samples, k],转换成适用LSTM网络的输入格式[samples,1,k],得到第二占有率数据集。通过将第二占有率数据集按照预设的比例分割为训练集和验证集,在本发明实施例中,通过分割模块102对第二占有率数据集进行,得到训练集与验证集的比例为7:3。本发明实施例通过构建预设的LSTM网络构架建立预测模型并对第二占有率数据集进行训练和优化,得到最佳预测模型。
本发明实施例通过对磁盘空间占有率历史数据进行预处理并将预处理后得到的第一占有率数据集转换成适用于LSTM网络的第二占有率数据集,并通过预设的LSTM网络构架建立预测模型进行训练和优化,从而得到最佳预测模型,能够有效提高对磁盘空间占用情况进行预测的普适性,且鲁棒性更强;使用LSTM 网络对输入源不持有任何假设,预处理操作广泛适用,可以避免对数据源的人工操作,能有利于降低人为操作造成的预测误差,从而能够提高预测的准确性和可靠习性,同时减少人工干预有利于节约成本。
作为本发明实施例的一种具体实施方式,对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集,具体为:
S101、根据磁盘空间占有率历史数据构造时间轴,时间轴为N个连续的以时间戳为元素的序列;
S102、根据滑动窗口技术构建时间轴的第一时间戳数据集;
S103、对第一时间戳数据集进行缺失值处理,得到第二时间戳数据集;
S104、以第二时间戳数据集作为索引,生成第一占有率数据集。
在本发明实施例中,通过对磁盘空间占有率历史数据生成用于转换为适用于LSTM网络的第二占有率数据集的第一占有率数据集,且第一占有率数据集为完备完时间戳数据集,保证了数据的完整性和可靠性,从而有利于提高对磁盘空间占有率预测的准确性和可靠性。
作为本发明实施例的一种具体实施方式,对第一时间戳数据集进行缺失值处理,得到第二时间戳数据集,具体为:根据直接删除法对时间戳数据集进行缺失值处理,得到第二时间戳数据集。
在本发明实施例中,通过对第一时间戳数据集进行缺失值处理,得到的第二时间戳数据集为完备时间数据集,能够保证数据集的完整性,有利于提高预测的准确性和可靠性。
作为本发明实施例的一种具体实施方式,预设的LSTM网络架构包括输入层、隐藏层和输出层,根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据磁盘空间占有率预测模型对训练集进行训练,得到训练结果,具体为:通过输入层输入过去到现在k个连续时间点的占用率,通过隐藏层输入超参数对预测模型进行超参调整,通过输出层输出k个连续时间点中每一个时间点的预测占有率,预测占有率为训练结果。
在本发明实施例中,可以理解的是,在预测模型进行训练时,通过激活函数使得输出的训练结果数值在0-1之间,在本实施例中激活函数选用sigmoid函数。
作为本发明实施例的一种具体实施方式,根据训练结果对预测模型进行调整,直至训练结果达到预设的阈值,得到最终预测模型,具体为:
计算训练结果与第一占有率数据集对应的占有率的差值,得到训练损失值和验证损失值,判断训练损失值和验证损失值是否均收敛于预设的值,若否,则调整预测模型的学习速率及批处理大小;若是,则预测模型为最终预测模型。
在本发明实施例中,通过调整预测模型的学习速率及批处理大小,提高预测模型的拟合效果,从而使得训练损失值和验证损失值减少到预设的值,得到最佳预测模型。其中,本发明实施例中预设的值为通过不同的数据需要以及不同的场景进行设定。本发明实施例通过不断调整预测模型直至得到最佳预测模型,能够有效提高对磁盘空间占有率预测的准确性。
作为本发明实施例的一种具体实施方式,将第二占有数据集根据需要分割预设比例的训练集和验证集,具体为:分割训练集与验证集的比例为7:3。
在本发明实施例中,分割训练集与验证集的比例为7:3,为本方法较佳的一个比例分配关系,在实际应用时,可以根据需要对训练集以及验证集的比例关系进行调整。
实施本发明实施例,具有如下有益效果:
本发明实施例通过对磁盘空间占有率历史数据进行预处理并将预处理后得到的第一占有率数据集转换成适用于LSTM网络的第二占有率数据集,并通过预设的LSTM网络构架建立预测模型进行训练和优化,从而得到最佳预测模型,能够有效提高对磁盘空间占用情况进行预测的普适性,且鲁棒性更强;使用LSTM 网络对输入源不持有任何假设,预处理操作广泛适用,可以避免对数据源的人工操作,能有利于降低人为操作造成的预测误差,从而能够提高预测的准确性和可靠习性,同时减少人工干预有利于节约成本;对于海量的磁盘监控数据,通过LSTM 网络能够提供更复杂的模型,从数据中学习到更多更好的规律模式,能够玉箫提高对磁盘空间占用情况预测的准确性和可靠性,给运维人员提供可靠的预测服务,为应用系统的稳定保驾护航。
本发明的第二实施例:
请参阅图3。
本发明实施例提供了一种磁盘空间占有率预测方装置,包括预处理模块、分割模块102、第一训练模块103、第二训练模块104和验证模块105;
预处理模块,用于对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集;
分割模块102,用于将第一占有率数据集的格式转换为LSTM网络适用的输入格式,得到第二占有率数据集,并将第二占有数据集根据需要分割预设比例的训练集和验证集;
第一训练模块103,用于根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据磁盘空间占有率预测模型对训练集进行训练,得到训练结果;
第二训练模块104,用于根据训练结果对预测模型进行调整,重复对训练集进行训练,直至训练结果达到预设的阈值,得到最终预测模型;
验证模块105,用于根据测试集对最终模型进行测试,验证最终测试模型的泛化性能,得到最佳预测模型。
在本发明实施例中,设磁盘空间占用情况历史数据中占用率非空对应的时刻为序列real_ST:……,T-K+1,T-K+2,……,T-1,T0,T1……,Tl-1,Tl,且每一时刻对应的占有率为序列real_DT:……,D-K+1,D-K+2,……,D-1,D0,D1……,Dl-1, Dl;对序列real_DT中的数据进行正则化处理,降低拟合度。设开始时刻为T0,预测将来第l个时刻的磁盘占用情况。若过去到此时的k个连续时间点对应的占用率会对第l个时刻的磁盘占用情况有显著影响,则k为窗口长度。根据所选取的磁盘空间占用情况历史数据的起始时间为T1,截至时间为TN,构造时间轴,为 T1,T2,T3,……TN-1,TN,得到N个连续的以时间戳为元素的序列ST。
若序列ST没有缺失值,则序列ST为序列real_ST,根据滑动窗口技术构造时间戳数据集:根据序列ST,构造列表listTX与列表listTY。ListTX为过去k 个连续时间点的占用率,ListTY为将来第l个时间点的占用率,且listTX与 listTY的每一行一一对应。
若序列ST存在缺失值,则根据直接删除法对序列ST进行缺失值处理得到时间戳数据集:以ST中时间戳为索引在历史数据中匹配对应的占用率。若找不到对应的占用率数据或者找到的占用率一项为空的,记为确缺失项,把所有的缺失项中的时间戳记录下来,称为缺失时间列表,miss_TS,同时检查listTX或者 listTY中是否存在miss_TS的数据,如果存在,同时在listTX和listTY上删除该行,得到进行缺失值处理后的时间戳数据集,并根据时间戳数据集生成第一占有率数据集,第一占有率数据集包括listDX,listDY。记第一占有率数据集中 listDX,listDY中的列表长度为samples,得到数据集listDX的维度为[samples, k],转换成适用LSTM网络的输入格式[samples,1,k],得到第二占有率数据集。通过将第二占有率数据集按照预设的比例分割为训练集和验证集,在本发明实施例中,训练集与验证集的比例为7:3。本发明实施例通过构建预设的LSTM网络构架建立预测模型并对第二占有率数据集进行训练和优化,得到最佳预测模型。
本发明实施例通过预处理模块对磁盘空间占有率历史数据进行预处理并将预处理后得到的第一占有率数据集转换成适用于LSTM网络的第二占有率数据集,并通过第一训练模块103根据预设的LSTM网络构架建立预测模型进行训练和优化,从而得到最佳预测模型,能够有效提高对磁盘空间占用情况进行预测的普适性,且鲁棒性更强;使用LSTM网络对输入源不持有任何假设,预处理操作广泛适用,可以避免对数据源的人工操作,能有利于降低人为操作造成的预测误差,从而能够提高预测的准确性和可靠习性,同时减少人工干预有利于节约成本。
作为本发明实施例的一种具体实施方式,预处理模块,具体用于:根据磁盘空间占有率历史数据构造时间轴,时间轴为N个连续的以时间戳为元素的序列;根据滑动窗口技术构建时间轴的第一时间戳数据集;对第一时间戳数据集进行缺失值处理,得到第二时间戳数据集;以第二时间戳数据集作为索引,生成第一占有率数据集。
在本发明实施例中,通过预处理模块对磁盘空间占有率历史数据生成用于转换为适用于LSTM网络的第二占有率数据集的第一占有率数据集,且第一占有率数据集为完备完时间戳数据集,保证了数据的完整性和可靠性,从而有利于提高对磁盘空间占有率预测的准确性和可靠性。
作为本发明实施例的一种具体实施方式,第一训练模块103,具体用于:通过输入层输入过去到现在k个连续时间点的占用率,通过隐藏层输入超参数对预测模型进行超参调整,通过输出层输出k个连续时间点中每一个时间点的预测占有率,预测占有率为训练结果;其中,k为大于等于1的正整数。
在本发明实施例中,可以理解的是,在预测模型进行训练时,通过激活函数使得输出的训练结果数值在0-1之间,在本实施例中,激活函数选用sigmoid函数。
本发明实施例通过对预处理模块磁盘空间占有率历史数据进行预处理并将预处理后得到的第一占有率数据集转换成适用于LSTM网络的第二占有率数据集,并通过预设的LSTM网络构架建立预测模型进行训练和优化,从而得到最佳预测模型,能够有效提高对磁盘空间占用情况进行预测的普适性,且鲁棒性更强;使用LSTM网络对输入源不持有任何假设,预处理操作广泛适用,可以避免对数据源的人工操作,能有利于降低人为操作造成的预测误差,从而能够提高预测的准确性和可靠习性,同时减少人工干预有利于节约成本;对于海量的磁盘监控数据,通过LSTM网络能够提供更复杂的模型,从数据中学习到更多更好的规律模式,能够玉箫提高对磁盘空间占用情况预测的准确性和可靠性,给运维人员提供可靠的预测服务,为应用系统的稳定保驾护航。
本发明的又一实施例提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行如上述的磁盘空间占有率预测方法。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种磁盘空间占有率预测方法,其特征在于,包括:
对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集;
将所述第一占有率数据集的格式转换为LSTM网络适用的输入格式,得到第二占有率数据集,并将所述第二占有数据集根据需要分割预设比例的训练集和验证集;
根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据所述磁盘空间占有率预测模型对所述训练集进行训练,得到训练结果;
根据所述训练结果对所述预测模型进行调整,重复对所述训练集进行训练,直至训练结果达到预设的阈值,得到最终预测模型;
根据测试集对所述最终模型进行测试,验证所述最终测试模型的泛化性能,得到最佳预测模型。
2.如权利要求1所述的磁盘空间占有率预测方法,其特征在于,所述对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集,具体为:
根据磁盘空间占有率历史数据构造时间轴,所述时间轴为N个连续的以时间戳为元素的序列;其中,N为大于等于1的正整数;
根据滑动窗口技术构建所述时间轴的第一时间戳数据集;
对所述第一时间戳数据集进行缺失值处理,得到第二时间戳数据集;
以所述第二时间戳数据集作为索引,生成第一占有率数据集。
3.如权利要求2所述的磁盘空间占有率预测方法,其特征在于,所述对所述时间戳数据集进行缺失值处理,得到完备时间戳数据集,具体为:根据直接删除法对所述时间戳数据集进行缺失值处理,得到第二时间戳数据集。
4.如权利要求1所述的磁盘空间占有率预测方法,其特征在于,所述预设的LSTM网络架构包括输入层、隐藏层和输出层,所述根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据所述磁盘空间占有率预测模型对所述训练集进行训练,得到训练结果,具体为:通过输入层输入过去到现在k个连续时间点的占用率,通过隐藏层输入超参数对所述预测模型进行超参调整,通过输出层输出k个连续时间点中每一个时间点的预测占有率,所述预测占有率为训练结果。
5.如权利要求1所述的磁盘空间占有率预测方法,其特征在于,所述根据所述训练结果对所述预测模型进行调整,直至训练结果达到预设的阈值,得到最终预测模型,具体为:
计算所述训练结果与所述第一占有率对应的占有率的差值,得到训练损失值和验证损失值,判断所述训练损失值和所述验证损失值是否均收敛于预设的值,若否,则调整所述预测模型的学习速率及批处理大小;若是,则所述预测模型为最终预测模型。
6.如权利要求1所述的磁盘空间占有率预测方法,其特征在于,所述将所述第二占有数据集根据需要分割预设比例的训练集和验证集,具体为:分割所述训练集与所述验证集的比例为7:3。
7.一种磁盘空间占有率预测方装置,其特征在于,包括预处理模块、分割模块、第一训练模块、第二训练模块和验证模块;
所述预处理模块,用于对磁盘空间占有率历史数据进行预处理得到磁盘空间的第一占有率数据集;
所述分割模块,用于将所述第一占有率数据集的格式转换为LSTM网络适用的输入格式,得到第二占有率数据集,并将所述第二占有数据集根据需要分割预设比例的训练集和验证集;
所述第一训练模块,用于根据预设的LSTM网络架构构建磁盘空间占有率预测模型,并根据所述磁盘空间占有率预测模型对所述训练集进行训练,得到训练结果;
所述第二训练模块,用于根据所述训练结果对所述预测模型进行调整,重复对所述训练集进行训练,直至训练结果达到预设的阈值,得到最终预测模型;
所述验证模块,用于根据测试集对所述最终模型进行测试,验证所述最终测试模型的泛化性能,得到最佳预测模型。
8.如权利要求7所述的磁盘空间占有率预测装置,其特征在于,所述预处理模块,具体用于:根据磁盘空间占有率历史数据构造时间轴,所述时间轴为N个连续的以时间戳为元素的序列;根据滑动窗口技术构建所述时间轴的第一时间戳数据集;对所述第一时间戳数据集进行缺失值处理,得到第二时间戳数据集;以所述第二时间戳数据集作为索引,生成第一占有率数据集。
9.如权利要求7所述的磁盘空间占有率预测装置,其特征在于,所述第一训练模块,具体用于:通过输入层输入过去到现在k个连续时间点的占用率,通过隐藏层输入超参数对所述预测模型进行超参调整,通过输出层输出k个连续时间点中每一个时间点的预测占有率,所述预测占有率为训练结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至6中任意一项所述的磁盘空间占有率预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910771259.9A CN110825597A (zh) | 2019-08-21 | 2019-08-21 | 一种磁盘空间占有率预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910771259.9A CN110825597A (zh) | 2019-08-21 | 2019-08-21 | 一种磁盘空间占有率预测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110825597A true CN110825597A (zh) | 2020-02-21 |
Family
ID=69547948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910771259.9A Pending CN110825597A (zh) | 2019-08-21 | 2019-08-21 | 一种磁盘空间占有率预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110825597A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701127A (zh) * | 2023-08-09 | 2023-09-05 | 睿至科技集团有限公司 | 一种基于大数据的应用性能监控方法及平台 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014021803A (ja) * | 2012-07-20 | 2014-02-03 | Mitsubishi Electric Corp | コンピュータ装置及びリソース使用量予測方法及びプログラム |
US20170090774A1 (en) * | 2015-09-25 | 2017-03-30 | International Business Machines Corporation | Smart Volume Manager for Storage Space Usage Optimization |
CN108053401A (zh) * | 2017-12-27 | 2018-05-18 | 广州市申迪计算机系统有限公司 | 一种b超图像处理方法及装置 |
CN109376905A (zh) * | 2018-09-20 | 2019-02-22 | 广东亿迅科技有限公司 | 磁盘空间预测方法、装置、计算机设备和存储介质 |
CN109508812A (zh) * | 2018-10-09 | 2019-03-22 | 南京航空航天大学 | 一种基于深度记忆网络的航空器航迹预测方法 |
CN109859469A (zh) * | 2019-02-15 | 2019-06-07 | 重庆邮电大学 | 一种基于集成lstm神经网络的车流量预测方法 |
CN109976975A (zh) * | 2019-03-26 | 2019-07-05 | 北京大道云行科技有限公司 | 一种磁盘容量预测方法、装置、电子设备及存储介质 |
-
2019
- 2019-08-21 CN CN201910771259.9A patent/CN110825597A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014021803A (ja) * | 2012-07-20 | 2014-02-03 | Mitsubishi Electric Corp | コンピュータ装置及びリソース使用量予測方法及びプログラム |
US20170090774A1 (en) * | 2015-09-25 | 2017-03-30 | International Business Machines Corporation | Smart Volume Manager for Storage Space Usage Optimization |
CN108053401A (zh) * | 2017-12-27 | 2018-05-18 | 广州市申迪计算机系统有限公司 | 一种b超图像处理方法及装置 |
CN109376905A (zh) * | 2018-09-20 | 2019-02-22 | 广东亿迅科技有限公司 | 磁盘空间预测方法、装置、计算机设备和存储介质 |
CN109508812A (zh) * | 2018-10-09 | 2019-03-22 | 南京航空航天大学 | 一种基于深度记忆网络的航空器航迹预测方法 |
CN109859469A (zh) * | 2019-02-15 | 2019-06-07 | 重庆邮电大学 | 一种基于集成lstm神经网络的车流量预测方法 |
CN109976975A (zh) * | 2019-03-26 | 2019-07-05 | 北京大道云行科技有限公司 | 一种磁盘容量预测方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘经纬: "《创新创业思维与MCV.net互联网+实现》" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701127A (zh) * | 2023-08-09 | 2023-09-05 | 睿至科技集团有限公司 | 一种基于大数据的应用性能监控方法及平台 |
CN116701127B (zh) * | 2023-08-09 | 2023-12-19 | 睿至科技集团有限公司 | 一种基于大数据的应用性能监控方法及平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220358528A1 (en) | Methods and apparatus for self-adaptive time series forecasting engine | |
US11288577B2 (en) | Deep long short term memory network for estimation of remaining useful life of the components | |
CN110232483B (zh) | 深度学习负荷预测方法、装置及终端设备 | |
CN111045894B (zh) | 数据库异常检测方法、装置、计算机设备和存储介质 | |
CN114285728B (zh) | 一种预测模型训练方法、流量预测方法、装置及存储介质 | |
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN110852476A (zh) | 客流预测方法、装置、计算机设备和存储介质 | |
JP7401677B2 (ja) | モデル更新システム、モデル更新方法及び関連装置 | |
KR20220058626A (ko) | 시계열 데이터에 대한 다중 수평 예보 처리 | |
CN117041017B (zh) | 数据中心的智能运维管理方法及系统 | |
CN113205223A (zh) | 一种电量预测系统及其预测方法 | |
CN116028315A (zh) | 作业运行预警方法、装置、介质及电子设备 | |
CN115562940A (zh) | 负载能耗监控方法、装置、介质及电子设备 | |
EP3981077A1 (en) | Method and device for facilitating storage of data from an industrial automation control system or power system | |
CN110825597A (zh) | 一种磁盘空间占有率预测方法、装置及存储介质 | |
CN112819260A (zh) | 预测航班延时状态的数据处理系统 | |
CN117150237A (zh) | 时序数据预测方法、装置、设备及计算机可读存储介质 | |
Kirschenmann et al. | Decision dependent stochastic processes | |
CN117689321A (zh) | 业务数据处理方法及装置 | |
CN113821419A (zh) | 一种基于svr和高斯函数的云服务器老化预测方法 | |
WO2021186706A1 (ja) | 修理支援システムおよび修理支援方法 | |
US7200580B1 (en) | System and method for run-time data reduction | |
CN113240098A (zh) | 基于混合门控神经网络的故障预测方法、装置和存储介质 | |
CN111724048A (zh) | 基于特征工程对成品库调度系统性能数据的特征抽取方法 | |
CN117236666B (zh) | 应急物资需求分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200221 |