CN116723083B

CN116723083B - 一种云服务器在线故障诊断方法及装置

Info

Publication number: CN116723083B
Application number: CN202311000042.0A
Authority: CN
Inventors: 刘明辉; 高立勇
Original assignee: Shandong Zhituo Big Data Co ltd
Current assignee: Shandong Zhituo Big Data Co ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2024-01-26
Anticipated expiration: 2043-08-10
Also published as: CN116723083A

Abstract

本申请涉及云服务器管理技术领域，涉及一种云服务器在线故障诊断方法及装置；所述方法包括：基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据，并基于多个所述基本运行特征数据与预设阈值进行比较得到异常结果；当初始判断不具有异常时，基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据，并将多个所述监控数据进行归一化处理得到待诊断特征数据；将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型。本申请实施例提供的技术方案中，通过设置初始诊断方案和最终诊断方案，并且在最终诊断方案中通过布置有双向GRU模块，提高了现有技术中针对于云服务器故障诊断的准确性。

Description

一种云服务器在线故障诊断方法及装置

技术领域

本申请涉及云服务器管理技术领域，为一种云服务器管理技术，具体涉及一种云服务器在线故障诊断方法及装置。

背景技术

随着计算机技术的进步，需要处理的数据量不断增加，迫使计算能力不断提升，单机存储和运算已经无法达到处理大数据的要求，因而并行计算（Parallel Computing）与分布式计算（Distributed Computing）相续出现，之后网格计算（Grid Computing）也随之出现。

随着虚拟化技术、存储技术的迅速发展及互联网的成功，计算资源比以往任何时候都更便宜、更强大、更普及，云计算（Cloud Computing）也随之产生。在这种模式中，资源（例如 CPU 和存储）被提供为一般的实用程序，用户可以按需通过 Internet 租用和释放它们。在云计算中，服务供应商的传统角色定义为两种，分别是基于云计算平台的基础设施供应商和基于使用定价模型的租赁资源以及服务供应商，他们从一个或多个基础设施供应商那里租赁资源，为最终客户服务。云计算的出现，对信息技术产生了极大的影响。

云计算系统采用并行的数据处理方式，可以将一个大数据划分多个子数据，采用多个节点并行进行执行，加快了数据处理的速度，成为当前海量数据处理的主要技术。在云计算系统中，服务器是最核心的部件，云环境下服务由于种类多样、结构复杂，一旦出现故障情况，导致的后果不堪设想。

发明内容

为了解决现有技术中存在的云服务器故障的技术问题，本申请提供一种云服务器在线故障诊断方法及装置，能够对云服务器在运行过程中存在的潜在故障进行识别，并确定对应的故障类型，实现了对于云服务器故障的预测与确定。

为了达到上述目的，本申请实施例采用的技术方案如下：

第一方面，提供一种云服务器在线故障诊断方法，所述方法包括：基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据，并基于多个所述基本运行特征数据与预设阈值进行比较，基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型；当初始判断不具有异常时，基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据，将多个所述监控数据进行归一化处理得到待诊断特征数据；将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型，所述第一时间间隔小于所述第二时间间隔。

进一步的，所述基本运行特征数据包括CPU使用率、内存使用率和磁盘使用率中的任意一种或多种，所述监控数据包括服务在用户空间占用CPU百分比数据、服务在内核空间占用CPU百分比数据、服务在IO等待占用CPU百分比数据、服务占用内存百分比数据、服务接收数据量、服务发送数据量、服务占用磁盘总量百分比数据和进程响应时间数据。

进一步的，所述将多个所述监控数据进行归一化处理得到待诊断特征数据，包括：将任意一个所述监控数据以单位时间为维度构建时间序列数据，并获取所述时间序列数据中各维度的均值和方差；基于所述均值和所述方差得到归一化处理后的待诊断特征数据；将多个所述待诊断特征数据进行矩阵构建，得到待诊断特征数据矩阵。

进一步的，所述待诊断特征数据基于下式进行表示：，其中/>为待诊断特征数据，/>为监控数据，/>为第i行数据的各维度的方差，/>为是第i行数据的各维度的均值；所述均值基于下式确定：/>；所述方差基于下式确定：；其中n为特征值总值。

进一步的，所述故障诊断模型包括依次连接的输入层、CNN层、隐藏层、自注意力模型和分类层，所述CNN层包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层，所述隐藏层包括反向叠加的双层GRU模块，所述双层GRU模块包括多个GRU单元，所述GRU单元包括重置门和更新门，所述分类层采用softmax层。

进一步的，所述输入层用于提取所述待诊断特征数据的词嵌入向量，所述CNN层用于提取所述词嵌入向量的词向量特征，所述隐藏层用于计算BiGRU层输出的词向量、每个所述词向量分配的概率权重以及隐藏层的状态向量；所述自注意力模型用于对不同概率权重所对应的词向量与各个状态的乘积的累加和，并使用softmax函数做归一化操作得到输出；所述分类层用于计算输出在多个故障上的概率。

进一步的，所述隐藏层的计算基于下式进行确定：

；其中，/>，/>分别表示接受d维向量在i时刻的输入门与重置门，/>表示权重矩阵，表示偏置向量，/>表示矩阵点乘。

进一步的，所述分类层为5个神经元组成的softmax层，用于计算输入输出在5类故障上的概率。

进一步的，在进行所述初始故障类型确定之前还包括对所述基本运行特征数据进行小波降噪处理。

第二方面，提供一种云服务器在线故障诊断装置，所述装置包括：初始诊断模块，基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据，并基于多个所述基本运行特征数据与预设阈值进行比较，基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型；数据处理模块，当初始判断不具有异常时，基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据，将多个所述监控数据进行归一化处理得到待诊断特征数据；最终诊断模块，将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型；所述第一时间间隔小于所述第二时间间隔。

第三方面，提供一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述的方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述的方法。

本申请实施例提供的技术方案中，通过设置初始诊断方案和最终诊断方案，并且在最终诊断方案中通过布置有双向GRU模块的神经网络实现对于云服务器运行过程中的显性故障以及隐性故障进行识别与预测，提高了现有技术中针对于云服务器故障诊断的准确性。并且在进行诊断过程中通过对数据进行肩高和归一化处理，提高了针对于云服务器故障诊断的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图中的方法、系统和/或程序将根据示例性实施例进一步描述。这些示例性实施例将参照图纸进行详细描述。这些示例性实施例是非限制的示例性实施例，其中示例数字在附图的各个视图中代表相似的机构。

图1是本申请实施例提供的云服务器在线故障诊断方法流程示意图。

图2是本申请实施例提供的云服务器在线故障诊断装置结构图。

图3是本申请实施例提供的云服务器在线故障诊断设备结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本申请技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

在下面的详细描述中，通过实例阐述了许多具体细节，以便提供对相关指导的全面了解。然而，对于本领域的技术人员来说，显然可以在没有这些细节的情况下实施本申请。在其他情况下，公知的方法、程序、系统、组成和/或电路已经在一个相对较高水平上被描述，没有细节，以避免不必要的模糊本申请的方面。

本申请中使用流程图说明根据本申请的实施例的系统所执行的执行过程。应当明确理解的是，流程图的执行过程可以不按顺序执行。相反，这些执行过程可以以相反的顺序或同时执行。另外，可以将至少一个其他执行过程添加到流程图。一个或多个执行过程可以从流程图中删除。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

（1）响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

（2）基于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

随着云计算技术逐渐成熟，云计算的应用正在各个领域广泛开展，主要应用领域如下：

（1）制造领域：制造云是云计算向制造业信息化、智能化领域的延伸与发展，是云制造系统框架的核心。现在越来越多的制造企业将云计算应用到企业信息化、智能化方面，通过不断整合企业的各类业务系统，打造制造企业供应链信息云平台，加速制造企业传统业务的一体化进程，大大提升制造企业竞争力。（2）医疗领域：医疗云是将物联网技术、云计算技术、多媒体以及大数据等技术应用在医疗卫生领域，并结合医疗技术搭建服务云。医疗云的目的是将整个医疗资源形成一个资源池，医疗资源在统一调度后分给各个部门及用户。（3）金融领域：金融云是将云计算相关技术应用到金融行业，金融企业将公司的产品、数据、金融服务等分散到云计算网络中，金融企业的各个下属机构都可以获得云计算网络中的资源。这样可以大大提升金融企业识别问题和解决问题的能力。在我国，很多金融企业已经将企业信息化建设已经逐步迁移到“云”上（4）教育领域：教育云是将教育资源信息化与云计算相结合，并在教育领域使用，包括了一些必须的云计算资源设备，在虚拟化这些资源设备后，将向学校、学生等提供一个云学习平台，解决教育资源不平衡的问题。目前，云计算已初步应用于科研单位与高校，并且获得了良好的应用效果。（5）政务领域：政务云是政府机关采用云计算技术搭建的公共服务平台。政务云是的政府机关的政务透明化，可以对政府起到监督作用。政府内部的资源共享也提升了政府机关的办事效率。

在云计算服务逐渐影响着人们的生活的同时，人们对云计算服务的可用性要求也越来越高。一旦云计算发生故障，对社会企业、个人等将造成的巨大的损失。

随着云计算服务的部署模式趋于成熟，应用领域越来越广泛，人们对云计算服务的可用性有了较高的要求，希望获得不间断地云计算服务。但是目前没有一种方法可以彻底消除故障，因而只能以减少故障出现的频率及故障影响范围为目的。这些年，故障检测方法已经普遍地引起企业和学术界的关注。目前云环境下故障检测方法主要从两个方面进行：第一方面，主要是基于心跳策略的故障检测方法，通过对云计算系统节点及节点间的链路间通信出现的故障进行检测；第二方面，主要是基于性能数据的故障检测方法，通过分析云计算系统运行时产生故障数据（CPU、内存、硬盘、日志等）对云计算进行故障检测。

针对于心跳策略的故障检测方法主要通过周期性发送心跳信息来检测对方的状态（是\否发生故障），此种方法主要用于对云服务器的连接状态进行检测，而针对于复杂情况下的云服务器的深层次故障并不能尽心检测和识别。

相对与基于心跳策略的故障检测方法，基于性能数据的故障检测具有数据容易获得、系统资源占用较少和故障检测更全面的特点。基于性能数据的故障检测实质上是一种模式识别问题，通过已有的故障数据建立故障检测模型，并以此对未知的故障数据进行识别。将机器学习方法运用在云环境下故障检测方面，能使故障检测方法具有更强的鲁棒性、自学习性、适应性，成为热门的研究领域。机器学习方法用于故障检测主要包括以下几种：（1）基于神经网络的故障检测方法，使用神经网络的故障检测方法分两步操作。首先，对正常性能数据训练神经网络以学习不同的正常类别。其次，每个待检测数据都作为神经网络的输入。如果神经网络接受待检测数据的输入，则该待检测数据为正常类别，如果神经网络拒绝待检测数据的输入，则它是故障数据。（2）基于贝叶斯网络的故障检测方法，在给定的待检测数据实例，使用贝叶斯网络估计类标签的后验概率。选择后验最大的类别标签作为给定待检测数据实例的预测类别。从训练数据集中估计给定类别的待检测数据实例的可能性以及类别概率的先验概率。使用拉普拉斯平滑对零概率进行平滑处理，特别是异常类的零概率。通过为每个待检测数据聚合每个属性的后验概率并使用聚合值为待检测数据实例。（3）基于支持向量机的故障检测方法，使用支持向量机故障检测方法，首先训练一个包含训练数据实例的区域。对于复杂区域可以使用内核，如径向基函数内核，进行边界区域的确定。对于每个待检测数据实例，支持向量机待检测数据实例是否落在学习区域内，如果待检测数据实例属于学习区域，则将其声明为正常，否则将声明为故障。（4）基于规则的故障检测方法，基于规则的故障检测方法，首先使用规则学习算法（如RIPPER，决策树等）从训练数据中学习规则。每个规则具有相关的置信度值，该置信度值与按规则正确分类的训练实例数量与规则覆盖的训练实例总数之间的比例成正比。然后是为每个待检测实例找出最能捕获测试实例的规则。与最佳规则相关的置信度的倒数是待检测实例的故障分数。（5）基于最近邻的故障检测方法，基于最近邻故障检测方法是通过待检测数据实例的故障概率被定义为其在给定数据集中与其第 k 个最近邻居的距离。

故障检测方法存在三个主要问题：

（1）未对训练样本做处理，忽略了训练样本中噪声数据对检测准确性的影响，由于云计算故障数据通常是监测系统采集或者人工标注，这种状况下，不可避免的会出现噪声数据，如果不对噪声数据进行处理，将会影响检测准确性；（2）训练样本得不到更新，没有识别未知类型故障的能力，由于云计算系统是动态多变的，训练集并不能完全的体现每个云计算故障类型的特点，这就需要不断的完善每个类别的训练样本，否则也会影响检测的准确性，进而影响云计算的可用性。（3）检测时间并没被考虑，由于云环境是由大规模的集群组成，导致存在大量的数据信息，分析这些数据信息将会花费一定的时间，只有及时准确得故障检测才能满足云计算的可用性。

针对于以上的背景信息，本申请实施例提供一种基于机器学习的云服务器在线故障诊断方法，具体包括以下方法：

步骤S110.基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据，并基于多个所述基本运行特征数据与预设阈值进行比较，基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型。

在本申请实施例中，针对于所述基本运行特征数据包括基本运行特征数据包括CPU使用率、内存使用率和磁盘使用率中的任意一种。即在云服务器在运行过程中获取上述运行数据，并将以上运行数据与预设置的对应的阈值数据进行比对，当以上运行数据超出预设值的阈值数据时，则说明其具有异常。因为此过程在对异常判断中通过阈值手段，阈值手段具有简单的技术效果，但是针对于阈值的设置则仅能够对超出正常运行数据较大的情况下进行判断，这种情况会造成因为阈值设置不精确所造成对于故障诊断不准确的问题。

所以，针对于本申请实施例中阈值比较方案仅适用于初步诊断，当基本运行特征数据在超出预设置的阈值时则说明云服务器具有显性的故障，并根据产生故障的数据确定对应的故障类型。

例如，当CPU使用率超出预设置阈值时，则说明CPU具有运行过载的故障。

在本申请实施例中，在针对于云服务器的多个基本运行特征数据进行采集时，因为采集设备以及数据传输设备的原因有可能在基本运行特征数据中引入噪音数据，而引入的噪音数据会对基本运行特征数据产生较大的变化，而这种变化会对后续的故障诊断产生影响。所以，为了降低因为噪音数据加入产生的后续影响，在针对于故障诊断之前还包括对基本运行特征数据进行降噪处理。

具体的，针对于降噪处理采用小波降噪实现。

针对于小波降噪的方法具体包括以下步骤：将采集到的基本运行特征数据进行多个尺度的分解，然后对每一个尺度的数据进行小波分析，最后将小波分析后的数据进行融合，得到更高质量的数据。

其中针对于基本运行特征数据以下式进行表示：

，其中/>为噪音数据，/>为噪声系数的标准偏差，/>为有用数据。

引入小波分析对进行适当尺度的分解得到不同大小的变换域，其中噪声/>的小波系数相对较大，采用阈值消除噪声/>对应的小波系数，去噪阈值可以描述为：

，其中/>为噪声的小波系数。

针对于此步骤主要通过阈值比较的方法实现对于故障诊断，但因为此方法中对于阈值的要求较高，并且单一阈值无法精确进行故障的识别。所以，针对于步骤S110进行阈值判断后确定不具有异常即不存在故障时，需要对云服务器中的故障进行深入识别。

步骤S120.当初始判断不具有异常时，基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据，并将多个所述监控数据进行归一化处理得到待诊断特征数据。

在本申请实施例，通过步骤S110确定不具有故障时，需要进行深度故障识别。而针对于深入故障识别采用的基础数据基于第二时间间隔进行采集。

其中，针对于第一时间间隔以及第二时间间隔为包含与被包含的关系，其中针对于第一时间间隔为阈值比较中进行数据采集的时间段，因为阈值比较对于时间具有及时性的要求，所以针对于第一时间间隔小于第二时间间隔。

而针对于第二时间间隔中采集到的数据为监控数据，其中监控数据相对于基本运行特征数据因为处理过程和处理要求不同，相对于基本运行特征数据，监控数据用于在进行深度处理，则监控数据的数据类型以及数据量要大于基本特征数据。其中，具体的针对于监控数据包括服务在用户空间占用CPU百分比数据、服务在内核空间占用CPU百分比数据、服务在IO等待占用CPU百分比数据、服务占用内存百分比数据、服务接收数据量、服务发送数据量、服务占用磁盘总量百分比数据和进程响应时间数据。

而针对以上数据为多维数据若未经处理直接输入模型，会影响识别的速度和分类效果，为了解决以上问题，需要对多维数据进行归一化处理并得到待诊断特征数据，其处理过程包括以下过程：

基于时间将任意一个所述监控数据以单位时间为维度构建时间序列数据，并获取时间序列数据中各维度的均值和方差，其中针对于均值基于下式确定：

，方差基于下式确定：/>，其中n为特征值总值。

基于所述均值和所述方差基于下式得到归一化处理后的待诊断特征数据，通过以下公式进行表示：

，其中/>为待诊断特征数据，/>为监控数据，/>为第i行数据的各维度的方差。

将多个所述待诊断特征数据进行矩阵构建，得到待诊断特征数据矩阵，矩阵表示如下：

。

在本申请实施例，经过归一化后的数据具有均值为0，方差为1的标准正态分布的特性，这样的数据在反向传播寻求最优权重和偏置参数时，过程更加平稳。

步骤S130.将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型，所述第一时间间隔小于所述第二时间间隔。

在本申请实施例中，故障诊断模型包括依次连接的输入层、CNN层、隐藏层、自注意力模型和分类层，所述CNN层包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层，所述隐藏层包括反向叠加的双层GRU模块，所述双层GRU模块包括多个GRU单元，所述GRU单元包括重置门和更新门，所述分类层采用softmax层。

其中，针对于所述输入层用于提取所述特征待诊断特征数据的词嵌入向量，所述CNN层用于提取所述词嵌入向量的词向量特征，所述隐藏层用于计算BiGRU层输出的词向量、每个所述词向量分配的概率权重以及隐藏层的状态向量；所述自注意力模型用于对不同概率权重所对应的词向量与各个状态的乘积的累加和，并使用softmax函数做归一化操作得到输出；所述分类层用于计算输出在多个故障上的概率。

在本申请实施例中，隐藏层的计算基于下式进行确定：

；

其中，，/>分别表示接受d维向量在i时刻的输入门与重置门，表示权重矩阵，/>表示偏置向量，/>表示矩阵点乘。

所述分类层为5个神经元组成的softmax层，用于计算输入输出在5类故障上的概率。

本申请实施例提供的故障诊断模型通过双向GRU网络，相比传统的 LSTM 提高了训练速度, 并且双向机制的结合进一步提高了模型的检测准确度。

参阅图2，提供一种云服务器在线故障诊断装置200，其中装置包括：

初始诊断模块210，基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据，并基于多个所述基本运行特征数据与预设阈值进行比较，基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型；

数据处理模块220，当初始判断不具有异常时，基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据，并将多个所述监控数据进行归一化处理得到待诊断特征数据；

最终诊断模块230，将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型，所述第一时间间隔小于所述第二时间间隔。

参阅图3，还可以将上述方法集成于提供的云服务器在线故障诊断设备300中，针对于设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器301和存储器302，存储器302中可以存储有一个或一个以上存储应用程序或数据。其中，存储器302可以是短暂存储或持久存储。存储在存储器302的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括云服务器在线故障诊断设备中的一系列计算机可执行指令。更进一步地，处理器301可以设置为与存储器302通信，云服务器在线故障诊断设备上执行存储器302中的一系列计算机可执行指令。云服务器在线故障诊断设备还可以包括一个或一个以上电源303，一个或一个以上有线或无线网络接口304，一个或一个以上输入/输出接口305，一个或一个以上键盘306等。

在一个具体的实施例中，云服务器在线故障诊断设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对云服务器在线故障诊断设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据，并基于多个所述基本运行特征数据与预设阈值进行比较，基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型；

当初始判断不具有异常时，基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据，并将多个所述监控数据进行归一化处理得到待诊断特征数据；

将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型；所述第一时间间隔小于所述第二时间间隔。

下面对处理器的各个构成部件进行具体的介绍：

其中，在本实施例中，处理器是特定集成电路（application specificintegrated circuit，ASIC），或者是被配置成实施本申请实施例的一个或多个集成电路，例如：一个或多个微处理器（digital signal processor，DSP），或，一个或者多个现场可编程门阵列（field programmable gate array，FPGA）。

可选地，处理器可以通过运行或执行存储在存储器内的软件程序，以及调用存储在存储器内的数据，执行各种功能，例如执行上述图1所示的方法。

在具体的实现中，作为一种实施例，处理器可以包括一个或多个微处理器。

其中，所述存储器用于存储执行本申请方案的软件程序，并由处理器来控制执行，具体实现方式可以参考上述方法实施例，此处不再赘述。

可选地，存储器可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compactdisc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以和处理器集成在一起，也可以独立存在，并通过处理器的接口电路与处理单元进行耦合，本申请实施例对此不作具体限定。

需要说明的是，在本实施例中示出的处理器的结构并不构成对该装置的限定，实际的装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，处理器的技术效果可以参考上述方法实施例所述的方法的技术效果，此处不再赘述。

应理解，在本申请实施例中的处理器可以是其他通用处理器、数字信号处理器（digital signal processor，DSP）、专用集成电路（application specific integratedcircuit，ASIC）、现成可编程门阵列（field programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read-only memory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器（random accessmemory，RAM）可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，DR RAM）。

上述实施例，可以全部或部分地通过软件、硬件（如电路）、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种云服务器在线故障诊断方法，其特征在于，所述方法包括：

基于第一时间间隔采集云服务器对应组件的多个基本运行特征数据，并基于多个所述基本运行特征数据与预设阈值进行比较，基于比较结果确定所述基本运行特征数据是否具有异常并根据异常结果确定初始故障类型，所述基本运行特征数据包括CPU使用率、内存使用率和磁盘使用率中的任意一种或多种；

当初始判断不具有异常时，基于第二时间间隔采集所述云服务器在第二时间间隔周期内的多个监控数据，将多个所述监控数据进行归一化处理得到待诊断特征数据，所述监控数据包括服务在用户空间占用cpu百分比数据、服务在内核空间占用cpu百分比数据、服务在IO等待占用cpu百分比数据、服务占用内存百分比数据、服务接收数据量、服务发送数据量、服务占用磁盘总量百分比数据和进程响应时间数据；

将所述待诊断特征数据输入至故障诊断模型中确定是否具有异常以及异常所对应的故障类型；所述第一时间间隔小于所述第二时间间隔；所述故障诊断模型包括依次连接的输入层、CNN层、隐藏层、自注意力模型和分类层，所述CNN层包括依次连接的第一卷积层、第一池化层、第二卷积层、第二池化层和全连接层，所述隐藏层包括反向叠加的双层GRU模块，所述双层GRU模块包括多个GRU单元，所述GRU单元包括重置门和更新门，所述分类层采用softmax层。

2.根据权利要求1所述的云服务器在线故障诊断方法，其特征在于，所述将多个所述监控数据进行归一化处理得到待诊断特征数据，包括：

将任意一个所述监控数据以单位时间为维度构建时间序列数据，并获取所述时间序列数据中各维度的均值和方差；

基于所述均值和所述方差得到归一化处理后的待诊断特征数据；

将多个所述待诊断特征数据进行矩阵构建，得到待诊断特征数据矩阵。

3.根据权利要求2所述的云服务器在线故障诊断方法，其特征在于，所述待诊断特征数据基于下式进行表示：

，其中/>为待诊断特征数据，/>为监控数据，其中/>为第i行数据各维度的方差，/>为是第i行数据的各维度的均值；

所述均值基于下式确定：

；

所述方差基于下式确定：

，其中n为特征值总值。

4.根据权利要求1所述的云服务器在线故障诊断方法，其特征在于，所述输入层用于提取所述待诊断特征数据的词嵌入向量，所述CNN层用于提取所述词嵌入向量的词向量特征，所述隐藏层用于计算BiGRU层输出的词向量、每个所述词向量分配的概率权重以及隐藏层的状态向量；所述自注意力模型用于对不同概率权重所对应的词向量与各个状态的乘积的累加和，并使用softmax函数做归一化操作得到输出；所述分类层用于计算输出在多个故障上的概率。

5.根据权利要求4所述的云服务器在线故障诊断方法，其特征在于，所述隐藏层的计算基于下式进行确定：

；

6.根据权利要求1所述的云服务器在线故障诊断方法，其特征在于，所述分类层为5个神经元组成的Softmax层，用于计算输入输出在5类故障上的概率。

7.根据权利要求1所述的云服务器在线故障诊断方法，其特征在于，在进行所述初始故障类型确定之前还包括对所述基本运行特征数据进行小波降噪处理。