CN107247651A

CN107247651A - 云计算平台监测预警方法和系统

Info

Publication number: CN107247651A
Application number: CN201710321485.8A
Authority: CN
Inventors: 杨春晖; 高岩; 李冬; 熊婧; 林军
Original assignee: China Electronic Product Reliability and Environmental Testing Research Institute
Current assignee: China Electronic Product Reliability and Environmental Testing Research Institute
Priority date: 2017-05-09
Filing date: 2017-05-09
Publication date: 2017-10-13
Anticipated expiration: 2037-05-09
Also published as: CN107247651B

Abstract

本发明涉及一种云计算平台监测预警方法和系统，其中，云计算平台监测预警方法，包括以下步骤：在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据；基于各网络负载历史数据，通过预测模型遍历各虚拟机，得到各虚拟机在下一个监测周期内的网络负载预测数据；获取各虚拟机的系统配置信息；根据各系统配置信息和各网络负载预测数据，得到各虚拟机的系统空闲概率，并基于各系统空闲概率获取各虚拟机的系统使用度；在虚拟机的系统使用度大于预设故障阈值时，标记虚拟机并进行异常告警。本发明为主动故障预测系统，可以提前感知下一个时刻故障的概率，能有效的防止云计算平台故障，提高云计算平台的服务质量，减少人工的干涉和维护。

Description

云计算平台监测预警方法和系统

技术领域

本发明涉及互联网IT技术领域，特别是涉及一种云计算平台监测预警方法和系统。

背景技术

随着云计算技术的日益发展，多种云计算平台应运而生。云计算描述了一种基于互联网的新的IT服务增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。作为一种新兴的计算模型，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。云计算的基础设施即服务(IaaS：Infrastructure as a Service)的计算资源作为一种基础云计算平台设施，是云服务的必要架构和基础，该设施的故障将直接导致云服务的异常。服务可用性保障是云计算平台所面临最大技术挑战之一，作为服务可用性保障的资源性能和负载监测则是其中一个重要的研究点。

在实际应用中，云平台会由于资源的调度和负载的压力出现各种各样故障的问题，甚至会出现系统崩溃现象，因此，监测告警是云计算服务可用性保障的一个重要部分。目前，云计算平台基础设施服务监测与告警处理多为异常预测和异常容错两种模式。前者是在异常发生之前，通过已有的数据预测出将可能发生的异常，并做相应的预防措施；后者则是在异常发生之后，将其检测出来，并做相应的异常处理。目前对云计算监测与异常预测模式的研究，常见的方案是：面向云计算平台的异构分布计算环境，根据异构分布计算系统运行环境和系统资源负载的变化，适应性地发布获取系统的负载信息。并采集到的云平台大量数据进行数学分析，经过数学建模进行统计分析来预测异常，并进行告警。

在实现过程中，发明人发现传统技术中至少存在如下问题：由于云计算平台属于分布式系统，常规的检测方法，如分布式的数据监控，即将每台物理机的数据进行监控和被动的获取，属于被动方式的处理，缺乏对故障的导致方式、过载资源调度的应对处理，不能有效防止云计算平台故障。

发明内容

基于此，有必要针对传统云计算资源监测方法不能有效防止云计算平台故障的问题，提供一种云计算平台监测预警方法和系统。

为了实现上述目的，本发明技术方案的实施例为：

一方面，提供了一种云计算平台监测预警方法，包括以下步骤：

在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据；网络负载历史数据为根据监测周期采集的预设数据长度的网络负载数据；

基于各网络负载历史数据，通过预测模型遍历各虚拟机，得到各虚拟机在下一个监测周期内的网络负载预测数据；

获取各虚拟机的系统配置信息；

根据各系统配置信息和各网络负载预测数据，得到各虚拟机的系统空闲概率，并基于各系统空闲概率获取各虚拟机的系统使用度；

在虚拟机的系统使用度大于预设故障阈值时，标记虚拟机并进行异常告警。

另一方面，提供了一种云计算平台监测预警系统，包括：

监控数据单元，用于在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据；网络负载历史数据为根据监测周期采集的预设数据长度的网络负载数据；

预测模型回归单元，用于基于各网络负载历史数据，通过预测模型遍历各虚拟机，得到各虚拟机在下一个监测周期内的网络负载预测数据；

获取配置信息单元，用于获取各虚拟机的系统配置信息；

数据处理单元，用于根据各系统配置信息和各网络负载预测数据，得到各虚拟机的系统空闲概率，并基于各系统空闲概率获取各虚拟机的系统使用度；

阈值决策单元，用于在虚拟机的系统使用度大于预设故障阈值时，标记虚拟机并进行异常告警。

上述技术方案具有如下有益效果：

本发明云计算平台监测预警方法和系统，利用各虚拟机的网络负载历史数据，通过预测模型进行回归预测获得云计算平台下一个时刻预测负载情况，得到网络负载预测数据；通过获取虚拟机的系统配置信息，结合网络负载预测数据得到各虚拟机的系统空闲概率，并估计出下一个时刻的系统使用度的概率分布。如果该概率分布超过一定阈值，说明系统在一个小时内会工作在一个不稳定的状态下，出现故障，依据此判断体现向系统报警，使得系统可以提前对网络的负载和资源的分配进行重新计算和评估，避免云计算服务的瘫痪。本发明为主动故障预测系统，具备预测的特点，可以提前感知下一个时刻故障的概率，能有效的防止云计算平台故障，提高云计算平台的服务质量，减少人工的干涉和维护。

附图说明

图1为本发明云计算平台监测预警方法和系统的应用场景总体框架示意图；

图2为本发明云计算平台监测预警方法实施例1的流程示意图；

图3为本发明云计算平台监测预警方法实施例2的流程示意图；

图4为本发明云计算平台监测预警方法一具体实施例中各组件的数据流向示意图；

图5为本发明云计算平台监测预警系统实施例1的结构示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明云计算平台监测预警方法和系统的应用场景说明：

传统云监测技术系统庞大，实现复杂且被动式处理；具体而言，传统的故障处理方式是发现故障后再进行处理，所以是被动式的；同时传统方法需要持续记录监控信息，因此会出现系统庞大的问题；

图1为本发明云计算平台监测预警方法和系统的应用场景总体框架示意图；如图1所示，本发明中各实施例的总体框架包括常规云计算平台的资源调度管理以及云计算虚拟机资源层，这两个云计算平台的组件可以采用现有技术实现，例如Openstack的Nova和KVM(Kernel-based Virtual Machine：开源的系统虚拟化模块)软件等；本发明各实施例总体框架中的监控数据库可由非关系数据库进行实现(例如MongoDB和HBase等)，本发明各实施例总体框架还可以包括ARIMA回归模型、排队模型和阈值决策等核心模块，这三个模块可以依据实际的平台的部署方式独立进行软件设计，独立为一个子系统实现本发明的流程和方法，并通过对应的云平台接口进行整合。

可以明确，本发明采取主动式的预警方式，在出现故障前就进行预警。同时，本发明选取先进先出的截段机制记录网络负载数据，保证数据不会无限扩大。本发明不限制于特殊的云计算平台，只要是有虚拟机资源的云计算平台，都可以采用本发明的方法进行监控和预警；本发明可用于目前通用的云计算平台架构，任务符合基础即服务(IaaS)的云计算平台都可以使用本发明作为故障的预测和报警，本发明具有较高的适用度。

本发明云计算平台监测预警方法实施例1：

为了解决传统云计算资源监测方法不能有效防止云计算平台故障的问题，本发明提供了一种云计算平台监测预警方法实施例1；图2为本发明云计算平台监测预警方法实施例1的流程示意图；如图2所示，可以包括以下步骤：

步骤S210：在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据；网络负载历史数据为根据监测周期采集的预设数据长度的网络负载数据；

步骤S220：基于各网络负载历史数据，通过预测模型遍历各虚拟机，得到各虚拟机在下一个监测周期内的网络负载预测数据；

步骤S230：获取各虚拟机的系统配置信息；

步骤S240：根据各系统配置信息和各网络负载预测数据，得到各虚拟机的系统空闲概率，并基于各系统空闲概率获取各虚拟机的系统使用度；

步骤S250：在虚拟机的系统使用度大于预设故障阈值时，标记虚拟机并进行异常告警。

具体而言，本发明提供了一种基于通用云平台架构的云平台监测与异常告警流程，通过本发明可以独立实现一套预测的子系统与常规的云平台进行整合，同时本发明在已获得负载的基础上对当前的资源调度进行评估，提前预警，可以减少系统维护的人工参与度。

其中，本发明不限制于特殊的平台，可用于目前通用的云计算平台架构，任务符合基础即服务的云计算平台都可以使用本发明作为故障的预测和报警，具有较高的适用度。

进一步的，本发明通过系统的配置信息(例如计算能力和CPU的计算内核资源数)，结合排队模型估计出下一个时刻系统的使用度的概率分布。如果该概率分布超过一定阈值，说明系统在一个小时内会工作在一个不稳定的状态下，出现故障，依据此判断体现向系统报警，使得系统可以提前对网络的负载和资源的分配进行重新计算和评估，避免云计算服务的瘫痪。

在一个具体的实施例中，在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据的步骤之前包括步骤：

根据监测周期采集虚拟机的网络负载数据；

在得到预设数据长度的网络负载数据时，将预设数据长度的网络负载数据按先进先出顺序记录，得到列向量形式的网络负载历史数据。

具体而言，本发明以先进先出的方式(即FIFO机制：First Input First Output：先入先出队列)采集云计算平台中各虚拟机预设数据长度的网络负载数据；传统技术需要持续记录监控信息，因而会造成系统庞大的问题；本发明选取先进先出的截段机制，保证数据不会无限扩大而采用先进先出机制对数据记录上限进行约束，限制了数据存储的长度，防止了数据库的容量爆炸性问题。

进一步的，本发明将采集的网络负载数据记录在监控数据库中作为网络负载历史数据；依据数据库中网络负载历史数据，采用预测模型进行下一个时间点网络负载的回归与预测；依据虚拟机的配置信息建立排队模型，并计算出系统的空闲概率；依据系统的空闲概率对虚拟机使用度的概率分布进行阈值判断并得出预测的对策决定。

图3为本发明云计算平台监测预警方法实施例2的流程示意图；本发明云计算平台监测预警方法实施例2与实施例1相比，详细叙述了获取网络负载预测数据以及系统空闲概率的过程；如图3所示，在一个具体的实施例中，预测模型为ARIMA模型(AutoregressiveIntegrated Moving Average Model)；

基于各网络负载历史数据，通过预测模型遍历各虚拟机，得到各虚拟机在下一个监测周期内的网络负载预测数据的步骤包括：

根据列向量形式的网络负载历史数据，通过ARIMA模型得到各虚拟机在下一个监测周期中t+1时刻的网络负载预测数据λ(t+1)；

其中，t为预设数据长度中的某一个时间点；λ为列向量形式的网络负载历史数据中t时刻对应的网络负载数据。

具体而言，利用各虚拟机的网络负载历史数据，通过ARIMA模型进行回归预测获得云计算平台下一个时刻预测负载情况，得到网络负载预测数据。

进一步的，基于ARIMA模型，根据监测周期采集的预设数据长度的网络负载数据(即网络负载历史数据)可以看作是随着时间的推移而形成的一个随机时间序列，通过对该时间序列上网络负载数据的随机性以及平稳性等因素的分析，将网络负载数据之间所具有的相关性或依存关系用数学模型描述出来，从而达到利用网络负载历史数据来预测各虚拟机未来网络负载的目的(即得到网络负载预测数据)。

其中，监测周期和预设数据长度可以根据网络用户的作息周期设定，例如记录360分钟的数据，每分钟上报一次；优选的，记录24小时的监控数据进行分析，1小时上报一次数据，即监测周期可以为1小时，预设数据长度可以为记录的24小时的网络负载数据。

本发明采集网络负载的数据信息的步骤可以包括：

构建数据库(监控数据库)记录每个云计算虚拟机的网络负载历史数据，采用先进先出(FIFO)的机制，通过网络用户的作息周期，本实施例定义的数据长度为24小时的历史数据。

其中，每个虚拟机的负载历史数据记录形式为一个24整数型的向量。具体而言，即监控数据库每个小时获取一个监控量值，24个监控量值按顺序组合成一个列向量。

同时，为了保证数据增长的限制，24小时历史数据采用先进先出(FIFO)顺序，即仅保留过去24个小时的负载数据，当新采集一个数据时，系统丢弃最早时刻的历史数据信息。

进一步的，采用自回归积分滑动平均模型(ARIMA：Autoregressive IntegratedMoving Average Model)进行下个时间点t+1时刻的网络业务负载回归预测数值λ(t+1)。每次预测都依据过去24个小时的数据重新预测并回归计算出新的预测数据。预测模型也可以采用其它模型，在本实施例中，采用ARIMA模型预测的效果较好。

需要说明的是，在图3中，过去时间指的是从当前时刻往前的一段时间，过去时间的网络负载数据即当前时刻之前采集的网络负载数据，与本发明中定义的网络负载历史数据的含义相同。

在一个具体的实施例中，系统配置信息包括CPU内核资源数；

根据系统配置信息和网络负载预测数据，得到虚拟机的系统空闲概率，并基于各系统空闲概率获取各虚拟机的系统使用度的步骤包括：

获取虚拟机的单个网络负载任务的执行时间，并基于以下公式根据系统配置信息，得到虚拟机的处理效率：

其中，μ为虚拟机的处理效率；T_task为虚拟机的单个网络负载任务的执行时间。

而在另一个具体示例中，系统配置信息包括CPU内核资源数和单字长定点指令平均执行速度；

同时还可以通过以下步骤得到虚拟机的处理效率：

获取虚拟机的网络负载任务的反编译代码长度，并基于以下公式根据系统配置信息，得到虚拟机的处理效率：

其中，μ为虚拟机的处理效率；MIPS为单字长定点指令平均执行速度；L_ength为虚拟机的网络负载任务的反编译代码长度；

具体而言，既可以通过人工进行测试后，获得虚拟机单个网络压力负载任务的执行时间T_task，也可以从CPU的信息和网络负载任务的反编译代码长度获得。

而在实际应用中，本发明云平台监测信息估算方法可以包括以下步骤：

计算云平台CPU计算能力等参数，从云计算平台的数据系统中获取该虚拟机的获得CPU内核资源数n，基于以下公式计算CPU处理效率μ：

其中，μ为虚拟机的处理效率；MIPS为单字长定点指令平均执行速度；L_ength为虚拟机的网络负载任务的反编译代码长度；T_task为虚拟机的单个网络负载任务的执行时间。

进一步的，在一个具体的实施例中，根据虚拟机的处理效率和网络负载预测数据，基于以下公式得到虚拟机的系统处理强度：

其中，ρ为虚拟机的系统处理强度；n为CPU内核资源数；λ(t+1)为网络负载预测数据；t为预设数据长度中的某一个时间点；λ为网络负载历史数据中t时刻对应的网络负载数据；

根据网络负载预测数据、虚拟机的系统处理强度和CPU内核资源数，基于以下公式得到虚拟机的系统空闲概率：

其中，P0为虚拟机的系统空闲概率；m为虚拟机内存中网络负载任务队列最大长度；k为虚拟机CPU内核的序号，k的取值为从0到n-1；

需要说明的是，当n＝1时，虚拟机为单核虚拟机，采用n＝1条件下公式获得系统的空闲概率P0；当n≠1即n＞1时，虚拟机为多核虚拟机，采用n≠1条件下公式获得系统的空闲概率P0。

基于以下公式，根据系统空闲概率获取虚拟机的系统使用度：

U0＝1-P0

其中，U0为虚拟机的系统使用度；

在虚拟机的系统使用度大于预设故障阈值时，标记虚拟机并进行异常告警的步骤包括：

在U0＞0.9时，标记虚拟机并进行异常告警。

即本发明还预设了异常报警规则，根据云计算平台的监控特点，设置为一个小时上报一次负载的数据，因此在本发明中所提及的空闲概率P0并不是具体的数值，而是在当前的负载预测数值、虚拟机的配置下系统的空闲概率，是一个可能的随机分布度量。系统的使用度的概率分布U0＝1-P0。

一般系统使用度高于90％算作满负荷运行，如果一个小时内，满负荷运行的概率超过了90％，认为系统故障的概率超过的阈值，认为系统发生故障的概率也为90％。因此，对U0进行阈值判断，该阈值一般为经验数值取0.9，当(1-P0)＞0.9时，定义为异常报警。

在一个具体的实施例中，根据各系统配置信息和各网络负载预测数据，得到各虚拟机的系统空闲概率的步骤包括：

根据各系统配置信息和预设的排队规则，构建各虚拟机的排队模型；

基于排队模型和各网络负载预测数据，获取各虚拟机的系统空闲概率。

具体而言，本发明获取的系统配置信息可以包括虚拟机的CPU内核资源数；通过对CPU内核编号，基于预设的排队规则(可以包括静态排队规则，如先到者先服务；或动态排队规则，如最短运行时间法则以及最高优先权法则)为各虚拟机建立排队模型，然后根据排队模型遍历各虚拟机，基于各网络负载预测数据得到各虚拟机的系统空闲概率。通过排队模型，可以保证本发明能够高效准确的遍历云计算平台中的虚拟机，从而提高云计算平台的服务质量，减少人工的干涉和维护。

本发明云计算平台监测预警方法一具体实施例：

为了进一步阐述本发明的技术方案，同时为了解决传统云计算资源监测方法不能有效防止云计算平台故障的问题，本发明以Openstack架构为例说明云计算平台监测预警方法的具体实现流程；图4为本发明云计算平台监测预警方法一具体实施例中各组件的数据流向示意图；如图4所示，Openstack云计算平台基础设施即服务主要由Nova组件提供，数据的监控由Ceilometer组件提供，监控一般一个小时更新一次数据。可以包括以下步骤：

(1)数据的采集服务：

在Ceilometer服务的基础上增加一个表单，用来记录每个虚拟机一个小时内网络负载压力数量，长度为24个小时，每次上报的数据都会替代最前面时刻的数据；

(2)负载预测服务：

在Nova的服务中附加一个新的组件，采用ARIMA模型，在每个小时数据更新的时间上开始遍历Ceilometer内的负载数据表单，为每个虚拟机回归和预测下一个小时的网络负载数量。

(3)获取当前虚拟机的计算配置信息：

该配置信息可由两个方面获取：1)通过人工进行测试后，获得单个网络压力负载任务的执行时间T_task，2)从CPU的信息和网络负载任务的代码长度获得；

根据上述配置信息得到CPU处理效率μ，进一步求出系统处理强度ρ。

(4)通过该虚拟机CPU核的数量求得系统的空闲概率P0；

(5)将该虚拟机的系统空闲概率转化为系统使用度(1-P0),判断该使用度是否大于0.9。如果大于0.9，则向Nova组件进行告警，对该虚拟机在Nova组件的数据库进行标示；如果使用度小于0.9，则忽略，进行下一个虚拟机的计算。

(6)全部虚拟机遍历完成后，等待下一个小时数据的采集时间点重复执行。

本发明云计算平台监测预警方法各实施例，利用各虚拟机的网络负载历史数据，通过预测模型进行回归预测获得云计算平台下一个时刻预测负载情况，得到网络负载预测数据；通过获取虚拟机的系统配置信息，结合网络负载预测数据得到各虚拟机的系统空闲概率，并估计出下一个时刻的系统使用度的概率分布。如果该概率分布超过一定阈值，说明系统在一个小时内会工作在一个不稳定的状态下，出现故障，依据此判断体现向系统报警，使得系统可以提前对网络的负载和资源的分配进行重新计算和评估，避免云计算服务的瘫痪。

本发明不限制于特殊的平台，可用于目前通用的云计算平台架构，任务符合基础即服务的云计算平台都可以使用本发明作为故障的预测和报警，具有较高的适用度。本发明不需要记录大量的虚拟机的信息，采用先进先出(FIFO)机制对数据记录上限进行约束，限制了数据存储的长度，防止了数据库的容量爆炸性问题。同时，本发明为主动故障预测系统，具备预测的特点，可以提前感知下一个时刻故障的概率，能有效的防止云计算平台故障，提高云计算平台的服务质量，减少人工的干涉和维护。

本发明云计算平台监测预警系统实施例1：

基于以上云计算平台监测预警方法各实施例的技术方案，同时为了解决传统云计算资源监测方法不能有效防止云计算平台故障的问题，本发明还提供了一种云计算平台监测预警系统实施例1；图5为本发明云计算平台监测预警系统实施例1的结构示意图，如图5所示，可以包括：

监控数据单元510，用于在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据；网络负载历史数据为根据监测周期采集的预设数据长度的网络负载数据；

预测模型回归单元520，用于基于各网络负载历史数据，通过预测模型遍历各虚拟机，得到各虚拟机在下一个监测周期内的网络负载预测数据；

获取配置信息单元530，用于获取各虚拟机的系统配置信息；

数据处理单元540，用于根据各系统配置信息和各网络负载预测数据，得到各虚拟机的系统空闲概率，并基于各系统空闲概率获取各虚拟机的系统使用度；

阈值决策单元550，用于在虚拟机的系统使用度大于预设故障阈值时，标记虚拟机并进行异常告警。

在一个具体的实施例中，数据处理单元540包括：

排队模型模块542，用于根据各系统配置信息和预设的排队规则，构建各虚拟机的排队模型；

处理模块544，用于基于排队模型和各网络负载预测数据，获取各虚拟机的系统空闲概率。

在一个具体的实施例中，还包括：

网络负载数据采集单元560，用于根据监测周期采集虚拟机的网络负载数据；

记录单元570，用于在得到预设数据长度的网络负载数据时，将预设数据长度的网络负载数据按先进先出顺序记录，得到列向量形式的网络负载历史数据；

其中，预测模型为ARIMA模型；

预测模型回归单元520，用于根据列向量形式的网络负载历史数据，通过ARIMA模型得到各虚拟机在下一个监测周期中(t+1)时刻的网络负载预测数据λ(t+1)；其中，t为预设数据长度中的某一个时间点；λ为列向量形式的网络负载历史数据中t时刻对应的网络负载数据。

在一个具体的实施例中，系统配置信息包括CPU内核资源数；预设故障阈值为0.9；

数据处理单元540，用于获取虚拟机的单个网络负载任务的执行时间，并基于以下公式根据系统配置信息，得到虚拟机的处理效率：

其中，μ为虚拟机的处理效率；T_task为虚拟机的单个网络负载任务的执行时间；

根据虚拟机的处理效率和网络负载预测数据，基于以下公式得到虚拟机的系统处理强度：

U0＝1-P0

其中，U0为虚拟机的系统使用度；

阈值决策单元，用于在U0＞0.9时，标记虚拟机并进行异常告警。

在一个具体的实施例中，系统配置信息包括CPU内核资源数和单字长定点指令平均执行速度；预设故障阈值为0.9；

数据处理单元540，用于获取虚拟机的网络负载任务的反编译代码长度，并基于以下公式根据系统配置信息，得到虚拟机的处理效率：

U0＝1-P0

其中，U0为虚拟机的系统使用度；

需要说明的是，上述云计算平台监测预警系统实施例1可以对应实现本发明云计算平台监测预警方法各实施例中的方法步骤，此处不再重复赘述。

本发明云计算平台监测预警系统各实施例，利用各虚拟机的网络负载历史数据，通过预测模型进行回归预测获得云计算平台下一个时刻预测负载情况，得到网络负载预测数据；通过获取虚拟机的系统配置信息，结合网络负载预测数据得到各虚拟机的系统空闲概率，并估计出下一个时刻的系统使用度的概率分布。如果该概率分布超过一定阈值，说明系统在一个小时内会工作在一个不稳定的状态下，出现故障，依据此判断体现向系统报警，使得系统可以提前对网络的负载和资源的分配进行重新计算和评估，避免云计算服务的瘫痪。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种云计算平台监测预警方法，其特征在于，包括以下步骤：

在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据；所述网络负载历史数据为根据所述监测周期采集的预设数据长度的网络负载数据；

基于各所述网络负载历史数据，通过预测模型遍历各所述虚拟机，得到各所述虚拟机在下一个监测周期内的网络负载预测数据；

获取各所述虚拟机的系统配置信息；

根据各所述系统配置信息和各所述网络负载预测数据，得到各所述虚拟机的系统空闲概率，并基于各所述系统空闲概率获取各所述虚拟机的系统使用度；

在所述虚拟机的系统使用度大于预设故障阈值时，标记所述虚拟机并进行异常告警。

2.根据权利要求1所述的云计算平台监测预警方法，其特征在于，

在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据的步骤之前包括步骤：

根据所述监测周期采集所述虚拟机的网络负载数据；

在得到所述预设数据长度的网络负载数据时，将所述预设数据长度的网络负载数据按先进先出顺序记录，得到列向量形式的网络负载历史数据。

3.根据权利要求2所述的云计算平台监测预警方法，其特征在于，所述预测模型为ARIMA模型；

基于各所述网络负载历史数据，通过预测模型遍历各所述虚拟机，得到各所述虚拟机在下一个监测周期内的网络负载预测数据的步骤包括：

根据所述列向量形式的网络负载历史数据，通过所述ARIMA模型得到各所述虚拟机在下一个监测周期中t+1时刻的网络负载预测数据λ(t+1)；

其中，t为所述预设数据长度中的某一个时间点；λ为所述列向量形式的网络负载历史数据中t时刻对应的网络负载数据。

4.根据权利要求3所述的云计算平台监测预警方法，其特征在于，所述系统配置信息包括CPU内核资源数；

根据所述系统配置信息和所述网络负载预测数据，得到所述虚拟机的系统空闲概率的步骤包括：

获取所述虚拟机的单个网络负载任务的执行时间，并基于以下公式根据所述系统配置信息，得到所述虚拟机的处理效率：

其中，μ为所述虚拟机的处理效率；T_task为所述虚拟机的单个网络负载任务的执行时间；

根据所述虚拟机的处理效率和所述网络负载预测数据，基于以下公式得到所述虚拟机的系统处理强度：

<mrow> <mi>&rho;</mi> <mo>=</mo> <mfrac> <mrow> <mi>&lambda;</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <mrow> <mi>n</mi> <mi>&mu;</mi> </mrow> </mfrac> </mrow>

其中，ρ为所述虚拟机的系统处理强度；n为所述CPU内核资源数；λ(t+1)为所述网络负载预测数据；

根据所述网络负载预测数据、所述虚拟机的系统处理强度和所述CPU内核资源数，基于以下公式得到所述虚拟机的系统空闲概率：

<mrow> <mi>P</mi> <mn>0</mn> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mrow> <mo>&lsqb;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mfrac> <msup> <mrow> <mo>(</mo> <mi>n</mi> <mi>&rho;</mi> <mo>)</mo> </mrow> <mi>k</mi> </msup> <mrow> <mi>k</mi> <mo>!</mo> </mrow> </mfrac> <mo>+</mo> <mfrac> <msup> <mrow> <mo>(</mo> <mi>n</mi> <mi>&rho;</mi> <mo>)</mo> </mrow> <mi>n</mi> </msup> <mrow> <mi>n</mi> <mo>!</mo> </mrow> </mfrac> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mi>&rho;</mi> <mrow> <mi>m</mi> <mo>-</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> </mfrac> <mo>&rsqb;</mo> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>n</mi> <mo>&NotEqual;</mo> <mn>1</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>&rho;</mi> </mrow> <mrow> <mn>1</mn> <mo>-</mo> <msup> <mi>&rho;</mi> <mrow> <mi>m</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> </mrow> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

其中，P0为所述虚拟机的系统空闲概率；m为所述虚拟机内存中网络负载任务队列最大长度；k为所述虚拟机CPU内核的序号，k的取值为从0到n-1。

5.根据权利要求3所述的云计算平台监测预警方法，其特征在于，所述系统配置信息包括CPU内核资源数和单字长定点指令平均执行速度；

获取所述虚拟机的网络负载任务的反编译代码长度，并基于以下公式根据所述系统配置信息，得到所述虚拟机的处理效率：

其中，μ为所述虚拟机的处理效率；MIPS为所述单字长定点指令平均执行速度；L_ength为所述虚拟机的网络负载任务的反编译代码长度；

6.根据权利要求4或5所述的云计算平台监测预警方法，其特征在于，所述预设故障阈值为0.9；

基于以下公式，根据所述系统空闲概率获取所述虚拟机的系统使用度：

U0＝1-P0

其中，U0为所述虚拟机的系统使用度；

在所述虚拟机的系统使用度大于预设故障阈值时，标记所述虚拟机并进行异常告警的步骤包括：

在U0＞0.9时，标记所述虚拟机并进行异常告警。

7.根据权利要求1至5任意一项所述的云计算平台监测预警方法，其特征在于，根据各所述系统配置信息和各所述网络负载预测数据，得到各所述虚拟机的系统空闲概率的步骤包括：

根据各所述系统配置信息和预设的排队规则，构建各所述虚拟机的排队模型；

基于所述排队模型和各所述网络负载预测数据，获取各所述虚拟机的系统空闲概率。

8.一种云计算平台监测预警系统，其特征在于，包括：

监控数据单元，用于在监测周期到来时，获取云计算平台中各虚拟机的网络负载历史数据；所述网络负载历史数据为根据所述监测周期采集的预设数据长度的网络负载数据；

预测模型回归单元，用于基于各所述网络负载历史数据，通过预测模型遍历各所述虚拟机，得到各所述虚拟机在下一个监测周期内的网络负载预测数据；

获取配置信息单元，用于获取各所述虚拟机的系统配置信息；

数据处理单元，用于根据各所述系统配置信息和各所述网络负载预测数据，得到各所述虚拟机的系统空闲概率，并基于各所述系统空闲概率获取各所述虚拟机的系统使用度；

阈值决策单元，用于在所述虚拟机的系统使用度大于预设故障阈值时，标记所述虚拟机并进行异常告警。

9.根据权利要求8所述的云计算平台监测预警系统，其特征在于，还包括：

网络负载数据采集单元，用于根据所述监测周期采集所述虚拟机的网络负载数据；

记录单元，用于在得到所述预设数据长度的网络负载数据时，将所述预设数据长度的网络负载数据按先进先出顺序记录，得到列向量形式的网络负载历史数据。

10.根据权利要求8或9所述的云计算平台监测预警系统，其特征在于，所述数据处理单元包括：

排队模型模块，用于根据各所述系统配置信息和预设的排队规则，构建各所述虚拟机的排队模型；

处理模块，用于基于所述排队模型和各所述网络负载预测数据，获取各所述虚拟机的系统空闲概率。