CN114036029A

CN114036029A - 一种服务器的磁盘空间使用预测方法及装置

Info

Publication number: CN114036029A
Application number: CN202111376118.0A
Authority: CN
Inventors: 王绍科; 罗云; 秦正才; 倪鹏
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-11

Abstract

本发明提供一种服务器的磁盘空间使用预测方法及装置，可用于金融领域或其他技术领域。所述方法包括：将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为预测集和验证集；根据预测集与空间使用预测模型，获得每个文件系统的第一预测结果；根据验证集与各个文件系统的第一预测结果，获得每个预测模型的评价指标；根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得目标文件系统的使用空间预测结果。所述装置用于执行上述方法。本发明实施例提供的服务器的磁盘空间使用预测方法及装置，提高了文件系统的磁盘空间使用预测的准确性。

Description

一种服务器的磁盘空间使用预测方法及装置

技术领域

本发明涉及计算机系统运维技术领域，具体涉及一种服务器的磁盘空间使用预测方法及装置。

背景技术

目前，在生产环境会对各类服务器的磁盘空间使用情况进行监控，以便于在磁盘空间将要耗尽时，进行清理和扩容，保证生产服务器的稳定运行。

现有技术中，通过集中监控系统对服务器的磁盘空间使用情况进行实时监控，并设置预警阈值。当磁盘空间的使用空间超过预警阈值，会触发监控系统报警，提示人工进行处理。在监控系统报警后，需要及时对磁盘空间进行清理或者扩容，如果处理不及时，很容易导致服务器出现故障，甚至导致生产系统瘫痪。

发明内容

针对现有技术中的问题，本发明实施例提供一种服务器的磁盘空间使用预测方法及装置，能够至少部分地解决现有技术中存在的问题。

一方面，本发明提出一种服务器的磁盘空间使用预测方法，包括：

获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集；其中，所述文件系统是服务器的磁盘的一个磁盘分区；

根据所述每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果；其中，所述空间使用预测模型包括N个不同的预测模型，每个文件系统的第一预测结果包括每个预测模型对应的预测结果；所述空间使用预测模型是基于文件系统使用空间训练数据预先训练获得的；N为大于等于2的正整数；

根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标；

根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；

根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得所述目标文件系统的使用空间预测结果。

另一方面，本发明提供一种服务器的磁盘空间使用预测装置，包括：

第一获取模块，用于获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集；其中，所述文件系统是服务器的磁盘的一个磁盘分区；

第一预测模块，用于根据所述每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果；其中，所述空间使用预测模型包括N个不同的预测模型，每个文件系统的第一预测结果包括每个预测模型对应的预测结果；所述空间使用预测模型是基于文件系统使用空间训练数据预先训练获得的；N为大于等于2的正整数；

评价模块，用于根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标；

优选模块，用于根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；

第二预测模块，用于根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得所述目标文件系统的使用空间预测结果。

再一方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述服务器的磁盘空间使用预测方法的步骤。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述服务器的磁盘空间使用预测方法的步骤。

本发明实施例提供的服务器的磁盘空间使用预测方法及装置，获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集，根据每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果，根据各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标，根据各个预测模型对应的评价指标，获得评价指标最优的预测模型，根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得目标文件系统的使用空间预测结果，通过从多个预测模型中筛选出预测效果更好的预测模型进行磁盘使用空间的预测，提高了文件系统的磁盘空间使用预测的准确性和可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明第一实施例提供的服务器的磁盘空间使用预测方法的流程示意图。

图2是本发明第二实施例提供的服务器的磁盘空间使用预测方法的流程示意图。

图3是本发明第三实施例提供的服务器的磁盘空间使用预测方法的流程示意图。

图4是本发明第四实施例提供的服务器的磁盘空间使用预测方法的流程示意图。

图5是本发明第五实施例提供的服务器的磁盘空间使用预测装置的结构示意图。

图6是本发明第六实施例提供的服务器的磁盘空间使用预测装置的结构示意图。

图7是本发明第七实施例提供的服务器的磁盘空间使用预测装置的结构示意图。

图8是本发明第八实施例提供的服务器的磁盘空间使用预测装置的结构示意图。

图9是本发明第九实施例提供的服务器的磁盘空间使用预测装置的结构示意图。

图10是本发明第十实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1是本发明第一实施例提供的服务器的磁盘空间使用预测方法的流程示意图，如图1所示，本发明实施例提供的服务器的磁盘空间使用预测方法，包括：

S101、获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集；其中，所述文件系统是服务器的磁盘的一个磁盘分区；

具体地，服务器的磁盘空间使用预测装置(以下简称预测装置)可以获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，然后将每个服务器的每个文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集。其中，每个服务器配置至少一块硬盘，每块硬盘可以划分为至少一个磁盘分区，每个磁盘分区称为服务器的一个文件系统。每个文件系统在第一预设时间段的磁盘使用空间序列是时序数据，包括时间与对应的使用空间值。所述第一预设时间段根据实际需要进行设置，比如设置为预测起始时间之前150天，本发明实施例不做限定。所述预测装置可以采用服务器。

例如，在各个服务器部署采集脚本，采集脚本每5分钟将采集到的所在服务器的各个文件系统的磁盘空间使用信息存储到文本文件中，并将所述文本文件上传到数据采集服务器，然后可以通过Kafka调度程序将各个文本文件包括的磁盘空间使用信息进行整理加工，获得各个服务器的文件系统在150天的磁盘使用空间序列，存入到数据库中，所述预测装置可以访问上述数据库，获取各个服务器的文件系统在150天的磁盘使用空间序列，磁盘使用空间序列包括按照150天顺序排列的每天对应的使用空间值，并将150天分为前120天和后30天，将每个文件系统在前120天的磁盘使用空间序列作为预测集和将后30天的磁盘使用空间序列作为验证集。其中，所述磁盘空间使用信息包括但不限于IP地址、主机名、用途、采样时间、文件系统、文件系统的磁盘空间大小、文件系统的已使用磁盘空间、文件系统的剩余磁盘空间、文件系统的磁盘空间使用率等信息。

其中，文件系统的每天对应的使用空间值是文件系统的每天最大已使用磁盘空间，可以从采集的文件系统每天的各个已使用磁盘空间中获得。对于新增的服务器或者服务器新增的文件系统，获得的文件系统在150天的磁盘使用空间序列会存在缺失值的情况，如果缺失值的比例大于等于缺失阈值，那么新增的服务器或者文件系统的历史数据参考价值较低，不适合用于预测，会舍弃缺失值的比例大于缺失阈值的新增的服务器或者文件系统。对于缺失值的比例大于等于缺失阈值的文件系统，可以对缺失值进行填充。比如文件系统的在150天的磁盘使用空间序列为v_p,v_p+1,…,v_p+q，假设其中存在一段时间的数值缺失，缺失的磁盘使用空间序列为v_p,v_p+1,…,v_p+q，那么可以采用相邻的v_p-1和v_p+q+1，使用等间距递进的方法对的磁盘使用空间序列进行补充，计算公式如下：

v_p+i＝v_p-1+(i+1)(v_p+q-v_p)/(q+1)

其中，0≤i≤q-1。可理解的是，当缺失的磁盘使用空间序列的右侧无有效值时，说明该文件系统缺失最近期的数据，可以暂时不对其进行使用空间的预测。

S102、根据所述每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果；其中，所述空间使用预测模型包括N个不同的预测模型，每个文件系统的第一预测结果包括每个预测模型对应的预测结果；所述空间使用预测模型是基于文件系统使用空间训练数据预先训练获得的；N为大于等于2的正整数；

具体地，所述预测装置将每个文件系统的预测集分别输入到空间使用预测模型包括的N个不同的预测模型中，经过每个预测模型的处理，可以输出每个文件系统的每个预测模型对应的预测结果。所述文件系统的所述预测模型对应的预测结果是通过所述预测模型预测的所述文件系统在预测时间点以后设定时间内的磁盘使用空间序列。其中，设定时间根据实际需要进行设置，例如为30天，本发明实施例不做限定。所述空间使用预测模型中的每个预测模型都是基于文件系统使用空间训练数据预先训练获得的，所述空间使用预测模型包括至少两个预测模型。其中，N为大于等于2的正整数。

S103、根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标；

具体地，所述预测装置根据各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，可以获得每个预测模型的评价指标，每个预测模型的评价指标用于从N个预测模型中筛选出最优的预测模型。其中，所述评价指标包括但不限于预测模型的均方根误差、预测模型的预测误差比率等，根据实际需要进行设置，本发明实施例不做限定。

S104、根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；

具体地，所述预测装置在获得各个预测模型对应的评价指标之后，会根据各个预测模型对应的评价指标从N个预测模型中筛选出一个预测效果最好的预测模型，作为评价指标最优的预测模型。

S105、根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得所述目标文件系统的使用空间预测结果。

具体地，所述预测装置在获得评价指标最优的预测模型之后，获取目标文件系统在第二预设时间段的磁盘使用空间序列，然后将目标文件系统在第二预设时间段的磁盘使用空间序列输入到评价指标最优的预测模型中，可以获得所述目标文件系统的使用空间预测结果，上述使用空间预测结果会包括预测时间点之后的设定时间内磁盘使用空间序列。其中，所述目标文件系统为各个服务器中任何一个文件系统。所述第二预设时间段小于所述第一预设时间段。所述目标文件系统的第二预设时间段的磁盘使用空间序列可以从目标文件系统在第一预设时间段的磁盘使用空间序列中获得。

例如，已经获取了服务器A的文件系统a在150天的磁盘使用空间序列，第二预设时间段为120天，从文件系统a在150天的磁盘使用空间序列中获取后120天的磁盘使用空间序列作为文件系统a在120天的磁盘使用空间序列，基于文件系统a在120天的磁盘使用空间序列，对文件系统a在以后30天的磁盘使用情况进行预测。

本发明实施例提供的服务器的磁盘空间使用预测方法，获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集，根据每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果，根据各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标，根据各个预测模型对应的评价指标，获得评价指标最优的预测模型，根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得目标文件系统的使用空间预测结果，通过从多个预测模型中筛选出预测效果更好的预测模型进行磁盘使用空间的预测，提高了文件系统的磁盘空间使用预测的准确性和可靠性。此外，由于能够提前预测出磁盘的使用空间，有充分的时间对磁盘空间进行清理或者扩容。

在上述各实施例的基础上，进一步地，所述预测模型的评价指标为所述预测模型的均方根误差和/或所述预测模型的预测误差比率。

具体地，所述预测模型的评价指标为所述预测模型的均方根误差，所述预测装置在获得各个预测模型的均方根误差之后，比较各个预测模型的均方根误差，获取均方根误差最小的预测模型，作为所述评价指标最优的预测模型。

所述预测模型的评价指标为所述预测模型的预测误差比率，所述预测装置在获得各个预测模型的预测误差比率之后，比较各个预测模型的预测误差比率，获取预测误差比率最小的预测模型，作为所述评价指标最优的预测模型。

所述预测模型的评价指标为所述预测模型的均方根误差和所述预测模型的预测误差比率，那么分别比较各个预测模型的均方根误差和各个预测模型的预测误差比率，获取均方根误差最小的预测模型和预测误差比率最小的预测模型，如果均方根误差最小的预测模型和预测误差比率最小的预测模型为同一个预测模型，那么将该预测模型作为评价指标最优的预测模型。如果均方根误差最小的预测模型和预测误差比率最小的预测模型不是同一个预测模型，那么可以选择将预测误差比率最小的预测模型作为评价指标最优的预测模型。

图2是本发明第二实施例提供的服务器的磁盘空间使用预测方法的流程示意图，如图2所示，在上述各实施例的基础上，进一步地，所述根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标包括：

S201、根据每个文件系统的验证集以及每个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个文件系统在每个预测模型下的最大预测误差率；

具体地，每个文件系统的验证集包括各个实际使用空间值以及每个实际使用空间值对应的时间。每个文件系统的每个预测模型对应的预测结果包括各个预测使用空间值以及每个预测使用空间值对应的时间。所述预测装置根据每个文件系统的验证集和每个预测模型对应的预测结果，计算相同时间对应的实际使用空间值和预测使用空间值的误差的绝对值，通过对比各个误差的绝对值的大小，可以获得每个文件系统在每个预测模型下的误差的绝对值的最大值，然后用每个文件系统在每个预测模型下的误差的绝对值的最大值除以每个文件系统的磁盘空间大小，获得每个文件系统在每个预测模型下的最大预测误差率。

例如，文件系统a的验证集的第i个实际使用空间值为real_i，文件系统a的第一预测结果包括的预测模型H对应的预测结果的第i个预测使用空间值为pred_i，那么计算第i个实际使用空间值为real_i与对应的预测使用空间值为pred_i的误差的绝对值AE_i＝|real_i-pred_i|。文件系统a在预测模型H下的最大预测误差率MAER_aH＝AE_max/Vol_a，其中，AE_max为文件系统a在预测模型H下的误差的绝对值的最大值，Vol_a为文件系统a的磁盘空间大小。

S202、根据各个文件系统在每个预测模型下的最大预测误差率，获得每个预测模型的均方根误差。

具体地，所述预测装置在获得各个文件系统在每个预测模型下的最大预测误差率之后，可以计算各个文件系统在每个预测模型下的最大预测误差率的均方根，获得每个预测模型的均方根误差。每个预测模型的均方根误差用于考量模型的泛化能力。

例如，可以根据公式

计算获得第j个预测模型的均方根误差RMSE_j，其中，MAER_k表示第k个文件系统在第j个预测模型下的最大预测误差率，M表示文件系统的总数量，k为正整数且k小于等于M。

图3是本发明第三实施例提供的服务器的磁盘空间使用预测方法的流程示意图，如图3所示，在上述各实施例的基础上，进一步地，所述根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标包括：

S301、根据每个文件系统的验证集以及每个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个文件系统在每个预测模型下的最大预测误差率；

S202、统计各个文件系统在每个预测模型下的最大预测误差率小于等于误差率阈值的文件系统的数量，获得每个预测模型对应的第一数量，并统计各个文件系统总数量，获得第二数量；

具体地，所述预测装置将每个文件系统在每个预测模型下的最大预测误差率与误差率阈值进行比较，判断每个文件系统在每个预测模型下的最大预测误差率是否小于等于误差率阈值，并统计获得其中小于等于误差率阈值的最大预测误差率的总数量，作为每个预测模型对应的第一数量。所述预测装置可以统计出通过空间使用预测模型进行预测的各个文件系统总数量，作为第二数量。其中，所述误差率阈值根据实际需要进行设置，比如设置为5％，本发明实施例不做限定。

S203、计算每个预测模型对应的第一数量与所述第二数量的比值，获得每个预测模型的预测误差比率。

具体地，所述预测装置计算每个预测模型对应的第一数量与所述第二预设数量的比值，将计算获得的比值作为每个预测模型的预测误差比率。预测模型的预测误差比率用于验证模型的预测性能，预测误差比率越小，说明模型的预测越准确。

例如，预测模型H对应的第一数量为Q_H，所述第二预设数量为M，则预测模型H的预测误差比率R_H＝Q_H/M。

图4是本发明第四实施例提供的服务器的磁盘空间使用预测方法的流程示意图，如图4所示，在上述各实施例的基础上，进一步地，基于文件系统使用空间训练数据训练获得所述空间使用预测模型包括：

S401、获取所述文件系统使用空间训练数据，并将所述文件系统使用空间训练数据划分为训练集和测试集；

具体地，所述预测装置可以获取各个服务器的磁盘空间的历史使用情况数据，从各个服务器的磁盘空间的历史使用情况数据中获得所述文件系统使用空间训练数据，所述文件系统使用空间训练数据包括设定数量的文件系统在第三预设时间段的磁盘使用空间序列。所述预测装置将所述文件系统使用空间训练数据划分为训练集和测试集，训练集用于进行模型训练，测试集用于进行模型筛选。其中，所述设定数量根据实际需要进行设置，本发明实施例不做限定。所述第三预设时间段根据实际需要进行设置，本发明实施例不做限定。所述第三预设时间段的时间长度大于等于第一预设时间段的时间长度。

例如，可以在各个服务器部署采集脚本，采集脚本每5分钟将采集到的所在服务器的各个文件系统的磁盘空间使用信息存储到文本文件中，并将所述文本文件上传到数据采集服务器，然后可以通过Kafka调度程序将各个文本文件包括的磁盘空间使用信息进行整理加工，获得各个服务器的文件系统在第三预设时间段的磁盘使用空间序列，存入到数据库中。所述预测装置可以从数据库中获取设定数量的文件系统在第三预设时间段的磁盘使用空间序列作为文件系统使用空间训练数据。

S402、根据所述训练集以及M个原始模型，训练获得M个待筛选模型；其中，M大于N；

具体地，所述预测装置将所述训练集分别输入到每个原始模型中，对每个原始模型进行模型训练，可以训练获得每个原始模型对应的待筛选模型。选定了原始模型有M，那么可以训练获得M待筛选模型。其中，M大于N。原始模型根据实际需要进行选择，本发明实施例不做限定。模型的具体训练过程为现有技术，此处不进行赘述。

例如，可以选择趋势移动平均模型、霍尔特-温特(Holt-Winters)模型，整合移动平均自回归模型(Autoregressive Integrated Moving Average mode，简称ARIMA)，极端梯度提升(eXtreme Gradient Boosting，简称XGBoost)模型和长短期记忆人工神经网络(Long Short Term Memory networks，简称LSTM)模型这个5个模型作为原始模型。

S403、根据历史预测集和每个待筛选模型，获得每个训练文件系统在每个待筛选模型下的预测结果；其中，所述历史预测集是从所述训练集中获得的；

具体地，所述预测装置可以从所述训练集中获取历史预测集，然后将所述历史预测集输入到每个待筛选模型中，可以输出每个旋律文件系统在每个待筛选模型向的预测结果。其中，为了避免混淆，将文件系统使用空间训练数据中的文件系统称为训练文件系统。

例如，所述文件系统使用空间训练数据第一时间点和第二时间点之间的时间序列数据，所述训练集为第一时间点到第三时间点之间的时间序列数据，所述测试集为第三时间点到第二时间点之间的时间序列数据，所述历史预测集为第四时间点到第二时间点之间的时间序列数据。其中，第三时间点和第四时间点在第一时间点和第二时间点之间。比如，第一时间点和第二时间点之间相差150天，第一时间点与第三时间点之间相差120天，第三时间点与第二时间点之间相差30天，第四时间点与第二时间点之间相差120天。上述各个时间序列数据为训练文件系统的使用空间值以及对应的时间。

S404、根据所述测试集和各个训练文件系统在每个待筛选模型下的预测结果，获得每个待筛选模型的评价指标；

具体地，所述预测装置根据所述测试集以及各个训练文件系统在每个待筛选模型下的预测结果，可以每个待筛选模型的评价指标。其中，所述测试集包括各个训练文件系统在测试时间段的真实磁盘使用空间序列，各个训练文件系统在每个待筛选模型下的预测结果包括各个训练文件系统在测试时间段的预测磁盘使用空间序列。其中，所述待筛选模型的评价指标包括但不限于预测模型的均方根误差、预测模型的预测误差比率等，根据实际需要进行设置，本发明实施例不做限定。

例如，待筛选模型的评价指标可以为待筛选模型的均方根误差和/或待筛选模型预测误差比率。

根据所述测试集以及在每个待筛选模型下的预测结果，获得每个训练文件系统在每个待筛选模型下的最大预测误差率；根据各个训练文件系统在每个待筛选模型下的最大预测误差率，获得每个待筛选模型的均方根误差。待筛选模型的均方根误差的具体获得过程与步骤S201和S202预测模型的均方根误差的具体获得过程类似，此处不进行赘述。

根据所述测试集以及在每个待筛选模型下的预测结果，获得每个训练文件系统在每个待筛选模型下的最大预测误差率；统计各个训练文件系统在每个待筛选模型下的最大预测误差率小于等于误差率阈值的文件系统的数量，获得每个待筛选模型对应的第三数量，并统计各个训练文件系统总数量，获得第四数量；计算每个待筛选模型对应的第三数量与所述第四数量的比值，获得每个待筛选模型的预测误差比率。待筛选模型的预测误差比率的具体获得过程与步骤S301、S302和S303中预测模型的预测误差比率的具体获得过程类似，此处不进行赘述。

S405、根据M个待筛选模型的评价指标筛选出N个预测模型。

具体地，所述预测装置获得各个待筛选模型的评价指标之后，可以根据各个待筛选模型的评价指标从M个待筛选模型中筛选出N个预测模型。

例如，所述待筛选模型的评价指标为所述待筛选模型的均方根误差，所述预测装置在获得各个待筛选模型的均方根误差之后，比较各个待筛选模型的均方根误差，获取均方根误差最小的N个预测模型，作为所述空间使用预测模型。

例如，所述待筛选模型的评价指标为所述待筛选模型的预测误差比率，所述预测装置在获得各个待筛选模型的预测误差比率之后，比较各个待筛选模型的预测误差比率，获取预测误差比率最小的N个待筛选模型，作为所述空间使用预测模型。

例如，所述待筛选模型的评价指标为所述待筛选模型的均方根误差和所述待筛选模型的预测误差比率。所述预测装置将每个待筛选模型的均方根误差分别与误差阈值进行比较，并将每个待筛选模型的预测误差比率与比率阈值进行比较，如果待筛选模型的均方根误差小于误差阈值，并且待筛选模型的预测误差比率大于比率阈值，那么将该待筛选模型作为空间使用预测模型中的一个预测模型，直到获得N个预测模型。其中，误差阈值和比率阈值根据实际经验进行设置，本发明实施例不做限定。

如表1所示，基于趋势移动平均模型训练获得的待筛选模型的均方根误差为0.0421，预测误差比率为0.97，误差阈值为0.08，比率阈值为0.85，由于0.0421小于0.08且0.97大于0.85，所以将基于趋势移动平均模型训练获得的待筛选模型作为空间使用预测模型中的一个预测模型。同理，可以将基于Holt-winters模型训练获得的待筛选模型作为一个预测模型和将基于XGBoost模型训练获得的待筛选模型作为一个预测模型。最终获得的空间使用预测模型中包括三个预测模型。

表1待筛选模型的评价指标

模型名称	均方根误差	预测误差比率
			趋势移动平均	0.0421	0.97
Holt-winters	0.0503	0,97
			ARIMA	0.2516	0.58
XGBoost	0.0714	0.88
			LSTM	0.3074	0.45

在上述各实施例的基础上，进一步地，本发明实施例提供的服务器的磁盘空间使用预测方法还包括：

根据所述目标文件系统的使用空间预测结果以及预警等级分类规则，获得所述目标文件系统的预警等级。

具体地，所述预测装置在获得所述目标文件系统的使用空间预测结果之后，可以根据所述目标文件系统的使用空间预测结果以及预警等级分类规则，获得所述目标文件系统的预警等级。其中，所述预警等级分类规则是预设的。

例如，目标文件系统的使用空间预测结果包括预测时间点之后30天中每天的预测使用空间值，所述预测装置计算上述每天的预测使用空间值与目标文件系统的磁盘空间大小的比值，获得目标文件系统每天的预测磁盘使用率。所述预警等级分类规则包括不同的预警等级，一级预警：文件系统的磁盘使用率大于等于90％，二级预警：文件系统的磁盘使用率大于等于85％且小于90％，三级预警：文件系统的磁盘使用率大于等于80％且小于85％，四级预警：文件系统的磁盘使用率大于等于75％且小于80％，五级预警：文件系统的磁盘使用率大于等于70％且小于75％，无预警：文件系统的磁盘使用率小于70％。

所述预测装置根据目标文件系统30天的预测磁盘使用率以及上述预警等级分类规则，判断目标文件系统每天的预测磁盘使用率属于哪个预警等级，可以获得目标文件系统30天的预警等级。目标文件系统30天的预警等级可以进行可视化的展示。

所述预测装置可以分别统计不同预警等级的文件系统占比饼图，展示预测时间段内每个预测时间点磁盘空间使用率TOP30的文件系统，磁盘空间使用量增长TOP10的文件系统等信息。所述预测装置可以通过预测报警信息邮件或者短信等方式将不同文件系统的预警等级发送给运维人员，以帮助运维人员及时准确的掌握服务器未来磁盘空间使用情况，及时对服务器的磁盘空间进行清理和扩容。

图5是本发明第五实施例提供的服务器的磁盘空间使用预测装置的结构示意图，如图5所示，本发明实施例提供的服务器的磁盘空间使用预测装置包括第一获取模块501、第一预测模块502、评价模块503、优选模块504和第二预测模块505，其中：

第一获取模块501用于获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集；其中，所述文件系统是服务器的磁盘的一个磁盘分区；第一预测模块502用于根据所述每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果；其中，所述空间使用预测模型包括N个不同的预测模型，每个文件系统的第一预测结果包括每个预测模型对应的预测结果；所述空间使用预测模型是基于文件系统使用空间训练数据预先训练获得的；N为大于等于2的正整数；评价模块503用于根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标；优选模块504用于根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；第二预测模块505用于根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得所述目标文件系统的使用空间预测结果。

具体地，第一获取模块501可以获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，然后将每个服务器的每个文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集。其中，每个服务器配置至少一块硬盘，每块硬盘可以划分为至少一个磁盘分区，每个磁盘分区称为服务器的一个文件系统。每个文件系统在第一预设时间段的磁盘使用空间序列是时序数据，包括时间与对应的使用空间值。所述第一预设时间段根据实际需要进行设置，比如设置为预测起始时间之前150天，本发明实施例不做限定。

第一预测模块502将每个文件系统的预测集分别输入到空间使用预测模型包括的N个不同的预测模型中，经过每个预测模型的处理，可以输出每个文件系统的每个预测模型对应的预测结果。所述文件系统的所述预测模型对应的预测结果是通过所述预测模型预测的所述文件系统在预测时间点以后设定时间内的磁盘使用空间序列。其中，设定时间根据实际需要进行设置，例如为30天，本发明实施例不做限定。所述空间使用预测模型中的每个预测模型都是基于文件系统使用空间训练数据预先训练获得的，所述空间使用预测模型包括至少两个预测模型。其中，N为大于等于2的正整数。

评价模块503根据各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，可以获得每个预测模型的评价指标，每个预测模型的评价指标用于从N个预测模型中筛选出最优的预测模型。其中，所述评价指标包括但不限于预测模型的均方根误差、预测模型的预测误差比率等，根据实际需要进行设置，本发明实施例不做限定。

在获得各个预测模型对应的评价指标之后，优选模块504会根据各个预测模型对应的评价指标从N个预测模型中筛选出一个预测效果最好的预测模型，作为评价指标最优的预测模型。

在获得评价指标最优的预测模型之后，第二预测模块505获取目标文件系统在第二预设时间段的磁盘使用空间序列，然后将目标文件系统在第二预设时间段的磁盘使用空间序列输入到评价指标最优的预测模型中，可以获得所述目标文件系统的使用空间预测结果，上述使用空间预测结果会包括预测时间点之后的设定时间内磁盘使用空间序列。其中，所述目标文件系统为各个服务器中任何一个文件系统。所述第二预设时间段小于所述第一预设时间段。所述目标文件系统的第二预设时间段的磁盘使用空间序列可以从目标文件系统在第一预设时间段的磁盘使用空间序列中获得。

本发明实施例提供的服务器的磁盘空间使用预测装置，获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集，根据每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果，根据各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标，根据各个预测模型对应的评价指标，获得评价指标最优的预测模型，根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得目标文件系统的使用空间预测结果，通过从多个预测模型中筛选出预测效果更好的预测模型进行磁盘使用空间的预测，提高了文件系统的磁盘空间使用预测的准确性和可靠性。

图6是本发明第六实施例提供的服务器的磁盘空间使用预测装置的结构示意图，如图6所示，在上述各实施例的基础上，进一步地，本发明实施例提供的服务器的磁盘空间使用预测装置还包括第二获取模块506、训练模块507、第三预测模块508、获得模块509和筛选模块510，其中：

第二获取模块506用于获取所述文件系统使用空间训练数据，并将所述文件系统使用空间训练数据划分为训练集和测试集；训练模块507用于根据所述训练集以及M个原始模型，训练获得M个待筛选模型；其中，M大于N；第三预测模块508用于根据历史预测集和每个待筛选模型，获得每个训练文件系统在每个待筛选模型下的预测结果；其中，所述历史预测集是从所述训练集中获得的；获得模块509用于根据所述测试集和各个训练文件系统在每个待筛选模型下的预测结果，获得每个待筛选模型的评价指标；筛选模块510用于根据M个待筛选模型的评价指标筛选出N个预测模型。

图7是本发明第七实施例提供的服务器的磁盘空间使用预测装置的结构示意图，如图7所示，在上述各实施例的基础上，进一步地，评价模块503包括第一获得单元5031和第二获得单元5032，其中：

第一获得单元5031用于根据每个文件系统的验证集以及每个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个文件系统在每个预测模型下的最大预测误差率；第二获得单元5032用于根据各个文件系统在每个预测模型下的最大预测误差率，获得每个预测模型的均方根误差。

图8是本发明第八实施例提供的服务器的磁盘空间使用预测装置的结构示意图，如图8所示，在上述各实施例的基础上，进一步地，评价模块503包括第三获得单元5033、统计单元5034和计算单元5035，其中：

第三获得单元5033用于根据每个文件系统的验证集以及每个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个文件系统在每个预测模型下的最大预测误差率；统计单元5034用于统计各个文件系统在每个预测模型下的最大预测误差率小于等于误差率阈值的文件系统的数量，获得每个预测模型对应的第一数量，并统计各个文件系统总数量，获得第二数量；计算单元5035用于计算每个预测模型对应的第一数量与所述第二数量的比值，获得每个预测模型的预测误差比率。

图9是本发明第九实施例提供的服务器的磁盘空间使用预测装置的结构示意图，如图9所示，在上述各实施例的基础上，进一步地，本发明实施例提供的服务器的磁盘空间使用预测装置还包括：

预警分类模块511用于根据所述目标文件系统的使用空间预测结果以及预警等级分类规则，获得所述目标文件系统的预警等级。

本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

需要说明的是，本发明实施例提供的服务器的磁盘空间使用预测方法及装置可用于金融领域，也可用于除金融领域之外的任意技术领域，本发明实施例对服务器的磁盘空间使用预测方法及装置的应用领域不做限定。

图10是本发明第十实施例提供的电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令，以执行如下方法：获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集；其中，所述文件系统是服务器的磁盘的一个磁盘分区；根据所述每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果；其中，所述空间使用预测模型包括N个不同的预测模型，每个文件系统的第一预测结果包括每个预测模型对应的预测结果；所述空间使用预测模型是基于文件系统使用空间训练数据预先训练获得的；N为大于等于2的正整数；根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标；根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得所述目标文件系统的使用空间预测结果。

此外，上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集；其中，所述文件系统是服务器的磁盘的一个磁盘分区；根据所述每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果；其中，所述空间使用预测模型包括N个不同的预测模型，每个文件系统的第一预测结果包括每个预测模型对应的预测结果；所述空间使用预测模型是基于文件系统使用空间训练数据预先训练获得的；N为大于等于2的正整数；根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标；根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得所述目标文件系统的使用空间预测结果。

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取各个服务器的文件系统在第一预设时间段的磁盘使用空间序列，并将各个服务器的文件系统在第一预设时间段的磁盘使用空间序列划分为每个文件系统的预测集和验证集；其中，所述文件系统是服务器的磁盘的一个磁盘分区；根据所述每个文件系统的预测集以及空间使用预测模型，获得每个文件系统的第一预测结果；其中，所述空间使用预测模型包括N个不同的预测模型，每个文件系统的第一预测结果包括每个预测模型对应的预测结果；所述空间使用预测模型是基于文件系统使用空间训练数据预先训练获得的；N为大于等于2的正整数；根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标；根据各个预测模型对应的评价指标，获得评价指标最优的预测模型；根据目标文件系统在第二预设时间段的磁盘使用空间序列以及评价指标最优的预测模型，获得所述目标文件系统的使用空间预测结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种服务器的磁盘空间使用预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于文件系统使用空间训练数据训练获得所述空间使用预测模型包括：

获取所述文件系统使用空间训练数据，并将所述文件系统使用空间训练数据划分为训练集和测试集；

根据所述训练集以及M个原始模型，训练获得M个待筛选模型；其中，M大于N；

根据历史预测集和每个待筛选模型，获得每个训练文件系统在每个待筛选模型下的预测结果；其中，所述历史预测集是从所述训练集中获得的；

根据所述测试集和各个训练文件系统在每个待筛选模型下的预测结果，获得每个待筛选模型的评价指标；

根据M个待筛选模型的评价指标筛选出N个预测模型。

3.根据权利要求1所述的方法，其特征在于，所述预测模型的评价指标为所述预测模型的均方根误差和/或所述预测模型的预测误差比率。

4.根据权利要求3所述的方法，其特征在于，所述根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标包括：

根据每个文件系统的验证集以及每个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个文件系统在每个预测模型下的最大预测误差率；

根据各个文件系统在每个预测模型下的最大预测误差率，获得每个预测模型的均方根误差。

5.根据权利要求3所述的方法，其特征在于，所述根据所述各个文件系统的验证集以及各个文件系统的第一预测结果包括的每个预测模型对应的预测结果，获得每个预测模型的评价指标包括：

统计各个文件系统在每个预测模型下的最大预测误差率小于等于误差率阈值的文件系统的数量，获得每个预测模型对应的第一数量，并统计各个文件系统总数量，获得第二数量；

计算每个预测模型对应的第一数量与所述第二数量的比值，获得每个预测模型的预测误差比率。

6.根据权利要求1至5任一项所述的方法，其特征在于，还包括：

7.一种服务器的磁盘空间使用预测装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

第二获取模块，用于获取所述文件系统使用空间训练数据，并将所述文件系统使用空间训练数据划分为训练集和测试集；

训练模块，用于根据所述训练集以及M个原始模型，训练获得M个待筛选模型；其中，M大于N；

第三预测模块，用于根据历史预测集和每个待筛选模型，获得每个训练文件系统在每个待筛选模型下的预测结果；其中，所述历史预测集是从所述训练集中获得的；

获得模块，用于根据所述测试集和各个训练文件系统在每个待筛选模型下的预测结果，获得每个待筛选模型的评价指标；

筛选模块，用于根据M个待筛选模型的评价指标筛选出N个预测模型。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。