CN114840402A

CN114840402A - 一种云主机故障预测方法、装置及介质

Info

Publication number: CN114840402A
Application number: CN202210469712.2A
Authority: CN
Inventors: 雷跃辉; 马豹
Original assignee: Jinan Inspur Data Technology Co Ltd
Current assignee: Jinan Inspur Data Technology Co Ltd
Priority date: 2022-04-30
Filing date: 2022-04-30
Publication date: 2022-08-02

Abstract

本申请公开了一种云主机故障预测方法、装置及介质，涉及计算机技术领域。通过采集云主机的性能指标的数据；性能指标包括CPU使用率、内存利用率和磁盘空间利用率；将数据进行标准化处理并输入至LSTM模型中，以用于获取云主机的故障概率；其中，LSTM模型为通过云主机的性能指标的数据训练得到的模型；判断故障概率是否大于阈值；若是，则确认即将发生故障。上述方案不需要对每一台云主机设置预警装置，只需通过对云主机的性能指标数据进行采集，并对数据进行标准化处理，能够在后续训练加速收敛；利用LSTM算法具有长短时记忆属性的优势实现了云主机故障的预测，节省了云服务器的资源消耗，提高了故障预测效率，具有更高的体验感。

Description

一种云主机故障预测方法、装置及介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种云主机故障预测方法、装置及介质。

背景技术

随着计算机软件技术和网络通信技术的飞速发展，计算模式经历了不同的变化。目前，人们提出了许多新的计算模型，比如透明计算、自主计算和云计算等。其中云计算是一种共享基础架构的新方法，云计算通过互联网实现了超级计算机之间的通信，属于信息技术发展的产物，可以有效的进行资源共享。近年来，许多传统的软件系统已经迁移到了云平台，并为广大云用户提供在线服务。云服务系统通常包含大量计算节点，而每个计算节点上又会包含很多虚拟机，虚拟机对于服务质量非常重要，因为虚拟机发生故障可能会严重影响虚拟机上运行的业务和用户体验。由于云环境运行时负载的动态性和故障的多样性，在云环境中准确的进行负载预测十分具有挑战。

云平台是一个大规模的分布式集群，通常有上万个云主机，每个云主机安装的软件不同，如果要对云主机进行故障预警，那么需要布置很多预警装置，不仅会大量消耗云服务器的资源，还会造成云服务质量降低，影响用户体验。

鉴于上述问题，设计一种云主机故障预测方法，是该领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种云主机故障预测方法、装置及介质，实现节省云服务器资源消耗下的云主机故障预测。

为解决上述技术问题，本申请提供一种云主机故障预测方法，包括：

采集云主机的性能指标的数据；其中，所述性能指标包括CPU使用率、内存利用率和磁盘空间利用率；

将所述数据进行标准化处理；

将标准化处理后的所述数据输入至LSTM模型中，以用于获取所述云主机的故障概率；其中，所述LSTM模型为通过所述云主机的所述性能指标的所述数据训练得到的模型；

判断所述故障概率是否大于阈值；

若是，则确认即将发生故障。

优选地，所述采集云主机的性能指标的数据包括：

以第一预设周期采集所述CPU使用率和所述内存利用率；

以第二预设周期采集所述磁盘空间利用率；

其中，所述第一预设周期小于所述第二预设周期。

优选地，在所述将所述数据进行标准化处理之后，还包括：

通过Spark SQL存储标准化处理后的所述数据，进入到所述将标准化处理后的所述数据输入至LSTM模型中的步骤。

优选地，所述将所述数据进行标准化处理包括：

通过极值标准化分别获取所述数据中各属性的最大值和最小值；

根据所述数据、所述最大值和所述最小值对所述数据进行标准化处理。

优选地，所述获取所述云主机的故障概率的具体步骤包括：

通过所述LSTM模型获取所述云主机的故障类型；

根据所述故障类型获取所述故障概率。

优选地，在所述确认即将发生故障之后，还包括：

输出故障预警信息。

优选地，若判断所述故障概率小于所述阈值，还包括：

在判断所述故障概率小于所述阈值开始的预设时间之后，输出云主机维护信息。

为解决上述技术问题，本申请还提供一种云主机故障预测装置，包括：

采集模块，用于采集云主机的性能指标的数据；其中，所述性能指标包括CPU使用率、内存利用率和磁盘空间利用率；

数据处理模块，用于将所述数据进行标准化处理；

输入模块，用于将标准化处理后的所述数据输入至LSTM模型中，以用于获取所述云主机的故障概率；其中，所述LSTM模型为通过所述云主机的所述性能指标的所述数据训练得到的模型；

判断模块，用于判断所述故障概率是否大于阈值；若是，触发确认模块；

所述确认模块，用于确认即将发生故障。

优选地，还包括：

存储模块，用于通过Spark SQL存储标准化处理后的所述数据。

优选地，还包括：

第一输出模块，用于输出故障预警信息。

优选地，还包括：

第二输出模块，用于在判断所述故障概率小于所述阈值开始的预设时间之后，输出云主机维护信息。

为解决上述技术问题，本申请还提供另一种云主机故障预测装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述所述的云主机故障预测方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的云主机故障预测方法的步骤。

本申请所提供的云主机故障预测方法，通过采集云主机的性能指标的数据；其中，性能指标包括CPU使用率、内存利用率和磁盘空间利用率；将数据进行标准化处理；将标准化处理后的数据输入至LSTM模型中，以用于获取云主机的故障概率；其中，LSTM模型为通过云主机的性能指标的数据训练得到的模型；判断故障概率是否大于阈值；若是，则确认即将发生故障。由此可知，上述方案不需要对每一台云主机设置预警装置，只需通过对云主机的性能指标数据进行采集，并对数据进行标准化处理，能够在后续训练加速收敛；利用LSTM算法具有长短时记忆属性的优势实现了云主机故障的预测，节省了云服务器的资源消耗，提高了故障预测效率，具有更高的体验感。

此外，本申请实施例还提供了一种云主机故障预测装置及计算机可读存储介质，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种云主机故障预测方法的流程图；

图2为本申请实施例提供的一种LSTM网络数据的流程图；

图3为本申请实施例提供的另一种云主机故障预测方法的流程图；

图4为本申请实施例提供的一种云主机故障预测装置的结构示意图；

图5为本申请实施例提供的另一种云主机故障预测装置的结构示意图；

图6为本申请实施例提供的云主机故障预测方法在应用场景中的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种云主机故障预测方法、装置及介质，实现节省云服务器资源消耗下的云主机故障预测。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

云主机是云计算在基础设施应用上的重要组成部分，位于云计算产业链金字塔底层，产品源自云计算平台。该平台整合了互联网应用三大核心要素：计算、存储、网络，面向用户提供公用化的互联网基础设施服务。资源开销大。云平台是一个大规模的分布式集群，通常有上万个云主机，每个云主机安装的软件不同，如果要对云主机进行故障预警，那么很多机器都需要布置预警装置，不仅会大量消耗云服务器的资源，还会造成云服务质量降低，影响用户体验。因此本申请实施例提供了一种云主机故障预测方法。图1为本申请实施例提供的一种云主机故障预测方法的流程图。如图1所示，方法包括：

S10：采集云主机的性能指标的数据；其中，性能指标包括CPU使用率、内存利用率和磁盘空间利用率。

S11：将数据进行标准化处理。

S12：将标准化处理后的数据输入至LSTM模型中，以用于获取云主机的故障概率；其中，LSTM模型为通过云主机的性能指标的数据训练得到的模型。

S13：判断故障概率是否大于阈值；若是，则进入步骤S14。

S14：确认即将发生故障。

可以理解的是，云主机实际上是虚拟机(Virtual Machine)，即通过软件模拟的具有完整硬件系统功能的计算机系统。在实体计算机中能够完成的工作在虚拟机中都能够实现。每个虚拟机都有独立的CMOS、硬盘和操作系统，可以像使用实体机一样对虚拟机进行操作。因此如果对云主机的故障进行预测，就需要对云主机的在一段时间内的性能指标进行采集。具体地，在本实施例中采集的云主机的性能指标主要包括中央处理器(CentralProcessing Unit，CPU)使用率、内存利用率和磁盘空间利用率，通过上述性能指标能够准确获取云主机的状态。而在具体实施中，可以通过一定的采集周期采集云主机的性能指标的数据，或者对不同的性能指标采取不同的采集方式，对于性能指标的具体采集过程在本实施例中不做限制，根据具体的实施情况而定。

进一步地，在采集完成云主机的性能指标的数据之后，由于得到的数据并不是归一化的，直接使用这些数据会在数据处理中出现处理时间过长或增加处理复杂度的问题，因此还需要对数据进行标准化处理。对数据的标准化处理可以通过正则化或标准差的处理方式对数据进行标准化处理，还可以通过极值标准化的方式对数据进行标准化处理。对于数据的标准化处理的具体过程在本实施例中不做限制，根据具体的实施情况而定。

在得到标准化的数据之后，将标准化处理后的数据输入长短期记忆网络(LongShort-Term Memory，LSTM)模型中。LSTM是一种时间循环神经网络，是为了解决一般的循环神经网络(Recurrent Neural Network，RNN)存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。适合处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM认为递归神经网络对于权重可以有长时间的记忆，并且在训练过程中，权重可以缓慢的变化。在具有时间序列的数据训练中具有较高的预测性能。图2为本申请实施例提供的一种LSTM网络数据的流程图。如图2所示，本实施例中选择LSTM模型，是因为其在时间维度上有长短记忆的功能，符合云主机的性能指标的数据按时间采集的逻辑。将云主机性能指标数据作为训练样本，每个样本的嵌入维度为12；LSTM模型中的神经元个数选择为128，LSTM模型最后一个cell输出的维度也为128；由于在LSTM上存在两层全连接层，最终结果输出为3维向量。可以与初始的3维label向量做多分类的交叉熵损失函数计算；再通过梯度下降算法，优化损失函数，依据准确率和召回率的指标，来终止模型的训练，并最终确定LSTM模型。因此将得到标准化的数据输入至LSTM模型，初始向量经过循环递归LSTM网络后，维度由初始的12维向量，转化为输出的3维向量，最终能够通过3维向量获得云主机在一段时间内故障出现的概率。本实施例中对于通过3维向量获取故障概率的具体方式不做限制，根据具体的实施情况而定。

在得到云主机在一段时间内的故障概率后，判断故障概率是否大于阈值。本实施例中对于阈值大小不做限制，根据具体的实施情况而定。若故障概率大于阈值，确认即将发生故障，最终实现了云主机的故障预测。

本实施例中，通过采集云主机的性能指标的数据；其中，性能指标包括CPU使用率、内存利用率和磁盘空间利用率；将数据进行标准化处理；将标准化处理后的数据输入至LSTM模型中，以用于获取云主机的故障概率；其中，LSTM模型为通过云主机的性能指标的数据训练得到的模型；判断故障概率是否大于阈值；若是，则确认即将发生故障。由此可知，上述方案不需要对每一台云主机设置预警装置，只需通过对云主机的性能指标数据进行采集，并对数据进行标准化处理，能够在后续训练加速收敛；利用LSTM算法具有长短时记忆属性的优势实现了云主机故障的预测，节省了云服务器的资源消耗，提高了故障预测效率，具有更高的体验感。

在上述实施例的基础上：

作为一种优选的实施例，采集云主机的性能指标的数据包括：

以第一预设周期采集CPU使用率和内存利用率；

以第二预设周期采集磁盘空间利用率；

其中，第一预设周期小于第二预设周期。

在上述实施例中，对于性能指标的具体采集过程不做限制，根据具体的实施情况而定。作为一种优选的实施例，以第一预设周期采集CPU使用率和内存利用率；以第二预设周期采集磁盘空间利用率；其中，第一预设周期小于第二预设周期。

可以理解的是，在云主机的运行过程中，由于需要CPU进行实时运算，并需要内存暂时存放CPU中的运算数据，因此CPU使用率和内存利用率的实时性较高，且变化频率较大；但是磁盘空间的利用率不一定有显著的变化。因此为了提高云主机性能指标数据的采集效率，并且在一定程度上节省系统功耗，在本实施例中以第一预设周期采集CPU使用率和内存利用率，以第二预设周期采集磁盘空间利用率，第一预设周期小于第二预设周期，能够使对CPU使用率和内存利用率的采集更加频繁。例如，对CPU使用率和内存利用率的采集为1秒钟采集一次，对磁盘空间利用率的采集为5秒钟采集一次，这样既能够满足对云主机性能指标的数据的完整采集，还能够在一定程度上节省功耗，提高采集效率。需要注意的是，在具体实施中还可以选择其他的预设周期组合，只需保证第一预设周期小于第二预设周期即可，在本实施例中不做限制，根据具体的实施情况而定。

本实施例中，通过以第一预设周期采集CPU使用率和内存利用率，以第二预设周期采集磁盘空间利用率，其中，第一预设周期小于第二预设周期，实现了云主机性能指标的数据的完整采集，并一定程度上节省功耗，提高了采集效率。

图3为本申请实施例提供的另一种云主机故障预测方法的流程图。由于需要对采集的云主机的性能指标的数据进行存储，以便于后续输入至LSTM模型中进行训练，因此如图3所示，在将数据进行标准化处理之后，还包括：

S15：通过Spark SQL存储标准化处理后的数据，进入到步骤S12。

作为一种优选的实施例，在本实施例中，对标准化处理之后的数据采用Spark SQL技术进行存储。Spark SQL是Spark(一种为大规模数据处理而设计的快速通用的计算引擎)的其中一个模块，用于结构化数据处理；它提供了两个编程抽象分别叫做数据框(DataFrame)和数据集(Data Set)，它们用于作为分布式SQL查询引擎。其内存列存储可以大大优化内存的使用率，减少内存消耗，避免垃圾回收(Garbage Collection，GC)对大量数据性能的开销。因此在本实施例中的云主机性能指标数据存储，采用Spark SQL技术能够提高数据集的读取效率，不再使用原始的虚拟机对象进行存储，而是将数据存储在表结构中，并且使用内存列进行存储，可以大大减少空间的占用量，同时提高读取数据的吞吐量，适用于处理数据。

本实施例中，通过Spark SQL存储标准化处理后的数据，减少空间的占用量，同时提高读取数据的吞吐量，适用于处理数据。

在上述实施例的基础上：

作为一种优选的实施例，将数据进行标准化处理包括：

通过极值标准化分别获取数据中各属性的最大值和最小值；

根据数据、最大值和最小值对数据进行标准化处理。

在上述实施例中，对于数据的标准化处理的具体过程不做限制，根据具体的实施情况而定。作为一种优选的实施例，在本实施例中，首先通过极值标准化分别获取数据中各属性的最大值和最小值。极值标准化法即min-max标准化法，是通过将属性数据按照比例缩放，使之落入一个小的特定区间，如[-1，1]、[0，1]等，以进一步分析数据的属性。具体地，通过极值标准化法原始数据进行线性变换，设min A和max A分别为属性A的最小值和最大值，将A的一个原始值X通过min-max标准化映射成在区间[0，1]中的值X'，从而根据数据、最大值和最小值得到标准化处理后的数据，具体为：新数据＝(原数据-最小值)/(最大值-最小值)，最终通过上述方式得到标准化处理的云计算平台的性能指标数据。

本实施例中，通过极值标准化分别获取数据中各属性的最大值和最小值；根据数据、最大值和最小值对数据进行标准化处理，能够使数据加速收敛并且方便梯度的计算。

在上述实施例的基础上：

作为一种优选的实施例，获取云主机的故障概率的具体步骤包括：

通过LSTM模型获取云主机的故障类型；

根据故障类型获取故障概率。

在上述实施例中，对于通过3维向量获取故障概率的具体方式不做限制，根据具体的实施情况而定。作为一种优选的实施例，在本实施例中，由于上述实施例中，初始向量经过循环递归LSTM网络后，维度由初始的12维向量，转化为输出的3维向量，因此可以通过输出向量得到云主机的三种故障分类，例如严重故障、轻微故障、正常状态。而根据这三种故障类型可以得到故障概率。例如，假设故障概率的阈值为0.5，则可以设置正常状态的故障概率为0，轻微故障的故障概率在0至0.5之间，而严重故障的故障概率在0.5以上。对于故障概率超过阈值的严重故障，需要发出故障警告。

本实施例中，通过LSTM模型获取云主机的故障类型，根据故障类型获取故障概率，实现了故障概率的获取，以便于根据故障概率对云主机故障进行预测。

如图3所示，在确认即将发生故障之后，还包括：

S16：输出故障预警信息。

作为一种优选的实施例，在本实施例中，为了提示云主机发生故障，以便于后续用户对云主机故障进行排除，在确认即将发生云主机故障之后，输出故障预警信息，以提示用户对云主机故障进行处理。

如图3所示，若判断故障概率小于阈值，还包括：

S17：在判断故障概率小于阈值开始的预设时间之后，输出云主机维护信息。

作为一种优选的实施例，在本实施例中，如果判断故障概率小于阈值，则确认云主机在一段时间内不会发生故障。但是为了提醒用户对云主机的状态进行检测，在判断故障概率小于阈值开始的预设时间之后，输出云主机维护信息，以提示用户对云主机进行维护。在本实施例中对于预设时间不做限制，根据具体的实施情况而定。

本实施例中，若判断故障概率小于阈值，在判断故障概率小于阈值开始的预设时间之后输出云主机维护信息，实现了对云主机维护的提醒，以便于云主机正常运行。

在上述实施例中，对于云主机故障预测方法进行了详细描述，本申请还提供云主机故障预测装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件结构的角度。

图4为本申请实施例提供的一种云主机故障预测装置的结构示意图。如图4所示，云主机故障预测装置包括：

采集模块10，用于采集云主机的性能指标的数据；其中，性能指标包括CPU使用率、内存利用率和磁盘空间利用率；

数据处理模块11，用于将数据进行标准化处理；

输入模块12，用于将标准化处理后的数据输入至LSTM模型中，以用于获取云主机的故障概率；其中，LSTM模型为通过云主机的性能指标的数据训练得到的模型；

判断模块13，用于判断故障概率是否大于阈值；若是，触发确认模块；

确认模块14，用于确认即将发生故障。

作为一种优选的实施例，云主机故障预测装置还包括：

存储模块，用于通过Spark SQL存储标准化处理后的所述数据。

第一输出模块，用于输出故障预警信息。

本实施例中，云主机故障预测装置包括采集模块、数据处理模块、输入模块、判断模块和确认模块。通过采集云主机的性能指标的数据；其中，性能指标包括CPU使用率、内存利用率和磁盘空间利用率；将数据进行标准化处理；将标准化处理后的数据输入至LSTM模型中，以用于获取云主机的故障概率；其中，LSTM模型为通过云主机的性能指标的数据训练得到的模型；判断故障概率是否大于阈值；若是，则确认即将发生故障。由此可知，上述方案不需要对每一台云主机设置预警装置，只需通过对云主机的性能指标数据进行采集，并对数据进行标准化处理，能够在后续训练加速收敛；利用LSTM算法具有长短时记忆属性的优势实现了云主机故障的预测，节省了云服务器的资源消耗，提高了故障预测效率，具有更高的体验感。

图5为本申请实施例提供的另一种云主机故障预测装置的结构示意图。

如图5所示，云主机故障预测装置包括：

存储器20，用于存储计算机程序。

处理器21，用于执行计算机程序时实现如上述实施例中所提到的云主机故障预测方法的步骤。

本实施例提供的云主机故障预测装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有图形处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的云主机故障预测方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于云主机故障预测方法涉及到的数据。

在一些实施例中，云主机故障预测装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图5中示出的结构并不构成对云主机故障预测装置的限定，可以包括比图示更多或更少的组件。

本实施例中，云主机故障预测装置包括存储器和处理器。其中处理器用于执行计算机程序时实现如上述实施例中所提到的云主机故障预测方法的步骤。通过采集云主机的性能指标的数据；其中，性能指标包括CPU使用率、内存利用率和磁盘空间利用率；将数据进行标准化处理；将标准化处理后的数据输入至LSTM模型中，以用于获取云主机的故障概率；其中，LSTM模型为通过云主机的性能指标的数据训练得到的模型；判断故障概率是否大于阈值；若是，则确认即将发生故障。由此可知，上述方案不需要对每一台云主机设置预警装置，只需通过对云主机的性能指标数据进行采集，并对数据进行标准化处理，能够在后续训练加速收敛；利用LSTM算法具有长短时记忆属性的优势实现了云主机故障的预测，节省了云服务器的资源消耗，提高了故障预测效率，具有更高的体验感。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

为了使本领域的技术人员更好的理解本申请的技术方案，下面结合附图6对上述本申请作进一步的详细说明。图6为本申请实施例提供的云主机故障预测方法在应用场景中的流程图。如图6所示，包括：

S18：采集云主机的性能指标数据；

S19：性能指标数据的标准化处理；

S20：标准化数据存储；

S21：LSTM模型训练；

S22：云主机故障预测。

该应用场景具体为：对云主机的性能指标进行采集。将采集到的性能指标数据进行标准化处理，有利于在后续的训练中加速收敛。对标准化处理后的数据进行存储，以便于后续对数据的读取。通过云主机性能指标数据训练得到LSTM模型，从而能够实现将数据输入LSTM模型后得到云主机的故障概率。将故障概率与阈值进行比对，确认在一段时间后云主机是否会发生故障，从而实现了云主机的故障预测。

例如，首先对云主机的性能指标进行采集，主要采集云主机的CPU使用率、内存利用率和磁盘空间利用率。将采集到的性能指标数据通过机制标准化进行标准化处理，有利于在后续的训练中加速收敛。对标准化处理后的数据通过Spark SQL计算进行存储，以便于后续对数据的高效读取。通过云主机性能指标数据训练得到LSTM模型，从而能够实现将数据输入LSTM模型后得到云主机的故障概率。将故障概率与阈值进行比对，确认在一段时间后云主机是否会发生故障，从而实现了云主机的故障预测。

以上对本申请所提供的一种云主机故障预测方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种云主机故障预测方法，其特征在于，包括：

将所述数据进行标准化处理；

判断所述故障概率是否大于阈值；

若是，则确认即将发生故障。

2.根据权利要求1所述的云主机故障预测方法，其特征在于，所述采集云主机的性能指标的数据包括：

以第一预设周期采集所述CPU使用率和所述内存利用率；

以第二预设周期采集所述磁盘空间利用率；

其中，所述第一预设周期小于所述第二预设周期。

3.根据权利要求1所述的云主机故障预测方法，其特征在于，在所述将所述数据进行标准化处理之后，还包括：

4.根据权利要求3所述的云主机故障预测方法，其特征在于，所述将所述数据进行标准化处理包括：

5.根据权利要求1所述的云主机故障预测方法，其特征在于，所述获取所述云主机的故障概率的具体步骤包括：

通过所述LSTM模型获取所述云主机的故障类型；

根据所述故障类型获取所述故障概率。

6.根据权利要求1所述的云主机故障预测方法，其特征在于，在所述确认即将发生故障之后，还包括：

输出故障预警信息。

7.根据权利要求1所述的云主机故障预测方法，其特征在于，若判断所述故障概率小于所述阈值，还包括：

8.一种云主机故障预测装置，其特征在于，包括：

数据处理模块，用于将所述数据进行标准化处理；

所述确认模块，用于确认即将发生故障。

9.一种云主机故障预测装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的云主机故障预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的云主机故障预测方法的步骤。