存储容量预测方法及存储容量预测系统
技术领域
本发明涉及存储容量的规划领域,特别涉及一种针对企业IT资源的存储容量预测方法及存储容量预测系统。
背景技术
随着信息化的飞速发展、业务需求的变化、信息系统建设的不断提出以及数据量的高速增长,对于数据统计与预测分析的需求日益增加,对网络、软硬件平台和应用软件的性能要求越来越高。为保证系统稳定性和高性能,通常是在硬件配置、持续的程序版本改造等方面投入大量资金,以保证信息系统最大访问量时的需要。然而信息系统的运行就如电力系统,有峰谷值之分,如果都按访问量或计算量峰值时来分配IT资源(包括网络、软硬件平台和应用软件资源),将会造成极大的浪费。因此,如何提高IT资源的可伸缩性、扩展性和灵活性、合理规划和预测资源,成为IT系统建设上水平必须要解决的问题。
传统的“竖井式”的项目建设方式缺乏统一的规划,各项目资源形成孤岛,资源利用率不足或非常紧张,对运维造成了越来越重的压力。存储资源作为承载企业生产运行数据的载体,如何在不浪费投资的前提下合理预测一定时间范围内的资源需求,从而动态调整资源配置非常必要。
而目前企业一般采取根据业务系统的需求,对整个数据中心的存储容量进行统一规划,业务需求提出方为保障业务运行质量,通常提出较大的冗余资源需求。对于前期规划的容量,往往存在过度冗余,也无法充分利用现有的存储容量使用情况,有效进行下一个阶段的容量规划,从而及时对资源进行调整,最大化资源利用率,提前预判可能因为存储容量不足引起的故障,提前做好资源规划。另一方面,业务系统由于其业务特性,存储容量体现的趋势也具有多样性和复杂性,缺乏能覆盖存储容量多样化特性的有效预测方法和手段,预测准确度不高。
发明内容
本发明所要解决的技术问题是由于缺乏对IT资源的存储容量的预测手段导致的资源浪费以及高故障率问题。
为此目的,本发明提出了一种存储容量预测方法,包括以下步骤:
S1、获取待选公式集:设定用以对存储容量的趋势进行预测的方法所对应的公式的集合作为待选公式集;
S2、获取原始数据样本:获取存储容量信息数据作为原始数据样本;
S3、获取数据样本:剔除所述步骤S2中的噪点并将所述原始数据样本中剔除噪点后的数据作为数据样本;
S4、划分所述数据样本:将骤S3中的数据样本划分为用以从所述待选公式集中选取用以预测的预测公式的训练集以及用以对所述预测公式进行参数求解的预测集;
S5、划分所述训练集:将所述训练集划分为用以对所述待选公式集中的各公式进行参数求解的参数学习子集以及用以对代入求得参数后的所述待选公式集中的各公式以选取所述预测公式的公式选取子集;
S6、选取预测公式:将所述参数学习子集中的数据代入所述待选公式集中的各公式中进行参数求解,将所述公式选取子集中的数据代入求得参数的所述待选公式集中的各公式中并取计算结果与真实值方差最小的公式作为预测公式;
S7、对所述预测公式进行参数求解:将所述预测集内的数据代入步骤S6中选取得到的所述预测公式进行参数求解;
S8、利用所述预测公式预测:将步骤S6求得的参数代入所述预测公式并用该预测公式预测存储容量的趋势。
优选的,步骤S1中用以对存储容量的趋势进行预测的方法包括一次移动平均、二次移动平均、一次指数平滑、二次指数平滑、一元一次线性回归,带log的线性回归、带虚变量的线性回归中的至少一种。
优选的,步骤S2中所述存储容量信息数据包括存储设备、资源容量及网络资源信息的数据。
优选的,步骤S4中训练集以及预测集分别为所述数据样本的前1/2部分与后1/2部分。
优选的,步骤S5中所述参数学习子集以及公式选取子集分别为所述训练集中的前2/3部分及后1/3部分。
优选的,步骤S3中的数据样本的数据不少于30个。
本发明还公开了一种存储容量预测系统,包括:
系统管理模块,用以设定对存储容量的趋势进行预测的方法所对应的公式的集合并将该集合作为待选公式集;
存储资源实时监控模块,用以获取存储容量信息数据作为原始数据样本,为下一步数据挖掘提供充足、准确的数据样点,该存储容量信息数据包括存储设备、资源容量及网络资源信息等;
存储数据处理模块,用以将所述存储资源实时监控模块获取的原始数据样本中的噪点剔除并取该原始数据样本中剔除噪点后的数据作为数据样本,并将所述数据样本划分为用以从所述待选公式集中选取用以预测的预测公式的训练集以及用以对所述预测公式进行参数求解的预测集,进一步将所述训练集划分为用以对所述待选公式集中的各公式进行参数求解的参数学习子集以及用以对代入求得参数后的所述待选公式集中的各公式以选取所述预测公式的公式选取子集;
预测模型学习模块,用以从所述系统管理模块设定的待选公式集中选取预测公式;
未来趋势预测模块,用以对所述预测模型学习模块选取的预测公式进行参数求解并用该求得参数后的预测公式预测系统存储容量的增长趋势。
优选的,所述存储资源实时监控模块包括:
存储设备管理子模块,用以管理硬件设备的硬盘大小、硬盘块数、RAID划分、具体位置以及扩容操作;
资源容量监控子模块,用以监控存储容量总容量、已用容量、剩余容量以及涉及系统;
存储网络监控子模块,用以监控存储网络情况。
优选的,本发明的存储容量预测系统还包括存储特征数据挖掘模块,用以根据资源容量监控子模块积累的历史数据挖掘具有系统存储特征的数据,进而所述存储数据处理模块根据所述存储特征数据挖掘模块所提供的这些具有系统存储特征的数据进行剔除噪点操作,该具有系统存储特征的数据包括每天系统高峰期数据、低峰期数据、平均数据。
优选的,所述未来趋势预测模块包括:
视图展示子模块,用以通过曲线的形式显示预测得出的存储容量增长趋势;
扩容建议子模块,用以根据所述视图展示子模块中的存储容量增长趋势结合客户自定义的容量扩容基准,输出扩容建议,并给出具体扩容存储设备的具体位置、硬盘插槽空位等信息;
报警提示子模块,用以将所述扩容建议子模块的扩容建议发送给系统管理员。
采用本发明的存储容量预测方法将剔除噪点后得到的数据样本进行划分并进行不同操作,能够实现IT资源的存储容量的准确预测,从而提升资源利用率,减少故障率,提升运维质量。
同时,采用本发明所公开的存储容量预测系统通过存储资源实时监控模块保证设备和网络稳定的情况下,实时监控存储资源使用情况,保证了数据的真实准确性;通过存储特征数据挖掘模块保证模型输入数据是具有系统业务代表性的;通过预测模型学习模块多公式预测,并取误差最小的公式作为未来预测模型,保证了预测误差率最低;未来趋势预测模块通过曲线视图展示,提供扩容建议,以及友好的提示提醒功能,使得用户能更加准确、真实的了解存储容量预测的结果。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明存储容量预测方法的流程图。
图2示出了本发明存储容量预测系统的示意图。
图3为实施例1中的数据对比折线图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
如图1所示,为本发明的存储容量预测方法的流程图,具体包括以下步骤:
S1、获取待选公式集:设定用以对存储容量的趋势进行预测的方法所对应的公式的集合作为待选公式集;
S2、获取原始数据样本:获取存储容量信息数据作为原始数据样本;
S3、获取数据样本:剔除所述步骤S2中的噪点并将所述原始数据样本中剔除噪点后的数据作为数据样本;
S4、划分所述数据样本:将骤S3中的数据样本划分为用以从所述待选公式集中选取用以预测的预测公式的训练集以及用以对所述预测公式进行参数求解的预测集;
S5、划分所述训练集:将所述训练集划分为用以对所述待选公式集中的各公式进行参数求解的参数学习子集以及用以对代入求得参数后的所述待选公式集中的各公式以选取所述预测公式的公式选取子集;
S6、选取预测公式:将所述参数学习子集中的数据代入所述待选公式集中的各公式中进行参数求解,将所述公式选取子集中的数据代入求得参数的所述待选公式集中的各公式中并取计算结果与真实值方差最小的公式作为预测公式;
S7、对所述预测公式进行参数求解:将所述预测集内的数据代入步骤S6中选取得到的所述预测公式进行参数求解;
S8、利用所述预测公式预测:将步骤S6求得的参数代入所述预测公式并用该预测公式预测存储容量的趋势。
作为一种优选的实施方式,本发明提供一具体实施例如下:
实施例1:
S1、获取待选公式集:
选取移动平均、曲线平滑和线性回归三种预测公式作为待选公式集。
S2、获取原始数据样本:
经过存储资源实时监控、存储特征数据挖掘,获取到系统半年的数据库数据量信息,如下表1中日期和各日期对应的数据量大小(GB):
表1
S3、获取数据样本:剔除所述步骤S2中的噪点并将原始数据样本中剔除噪点后的数据作为数据样本。
S4、划分数据样本:将骤S3中的数据样本划分为用以从待选公式集中选取用以预测的预测公式的训练集以及用以对预测公式进行参数求解的预测集。
S5、划分训练集:将训练集划分为用以对待选公式集中的各公式进行参数求解的参数学习子集以及用以对代入求得参数后的待选公式集中的各公式以选取预测公式的公式选取子集。
S6、选取预测公式:将参数学习子集中的数据代入待选公式集中的各公式中进行参数求解,将公式选取子集中的数据代入求得参数的待选公式集中的各公式中并取计算结果与真实值方差最小的公式作为预测公式。
选取2012年8月30日至2012年9月26日的数据库存储信息作为选择预测公式的对比数据,如下表2所示,并根据待选公式集中的移动平均、曲线平滑和线性回归三种预测公式分别计算出预测结果,通过与真实值的对比和分析,确定适合该系统的预测公式。
表2
数据的对比折线图如图3所示:
从以上的对比结果可以看出,该系统在使用指数平滑作为预测公式时,与真实数据的差距最小,误差平方和的计算结果约为67。故该系统应选择“指数平滑”作为预测公式。
S7、对预测公式进行参数求解:将预测集内的数据代入步骤S6中选取得到的预测公式进行参数求解;
选定预测公式之后,选择2012年11月28日至2012年12月11日之间的数据来进行对比和分析,进行参数求解同时验证预算的精度,如下表3所示。
表3
S8、利用预测公式预测:将步骤S6求得的参数代入预测公式并用该预测公式预测存储容量的趋势。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现,基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
如图2所示,为本发明的存储容量预测系统,包括:
系统管理模块106,用以设定对存储容量的趋势进行预测的方法所对应的公式的集合并将该集合作为待选公式集。
存储资源实时监控模块101,用以获取存储容量信息数据作为原始数据样本,为下一步数据挖掘提供充足、准确的数据样点,该存储容量信息数据包括存储设备、资源容量及网络资源信息等。
且该存储资源实时监控模块101又包括:
存储设备管理子模块1011,用以管理硬件设备的硬盘大小、硬盘块数、RAID划分、具体位置以及扩容操作;
资源容量监控子模块1012,用以监控存储容量总容量、已用容量、剩余容量以及涉及系统;
存储网络监控子模块1013,用以监控存储网络情况。
存储特征数据挖掘模块102,用以根据资源容量监控子模块1012积累的历史数据挖掘具有系统存储特征的数据,进而存储数据处理模块103根据存储特征数据挖掘模块102所提供的这些具有系统存储特征的数据进行剔除噪点操作,该具有系统存储特征的数据包括每天系统高峰期数据、低峰期数据、平均数据。
存储数据处理模块103,用以将存储资源实时监控模块101获取的原始数据样本中的噪点剔除并取该原始数据样本中剔除噪点后的数据作为数据样本,并将数据样本划分为用以从待选公式集中选取用以预测的预测公式的训练集以及用以对预测公式进行参数求解的预测集,进一步的,该存储数据处理模块103将训练集划分为用以对待选公式集中的各公式进行参数求解的参数学习子集以及用以对代入求得参数后的所述待选公式集中的各公式以选取所述预测公式的公式选取子集。
预测模型学习模块104,用以从系统管理模块106设定的待选公式集中选取预测公式。
未来趋势预测模块105,用以对预测模型学习模块104选取的预测公式进行参数求解并用该求得参数后的预测公式预测系统存储容量的增长趋势。
该未来趋势预测模块105又包括:
视图展示子模块1051,用以通过曲线的形式显示预测得出的存储容量增长趋势;
扩容建议子模块1052,用以根据所述视图展示子模块1051中的存储容量增长趋势结合客户自定义的容量扩容基准,输出扩容建议,并给出具体扩容存储设备的具体位置、硬盘插槽空位等信息;
报警提示子模块1053,用以将所述扩容建议子模块1052的扩容建议通过电子邮件、短信、微信等形式发送给相关的系统管理员。
在整个系统的工作过程中,系统管理模块106管理待预测模型学习模块104确定的公式集,可以对公式集中公式进行增、删、改。同时,系统管理模块106管理存储资源实时监控模块101、存储特征数据挖掘模块102、存储数据处理模块103、预测模型学习模块104以及未来趋势预测模块105以保证上述各模块的正常工作。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。