CN106095639A

CN106095639A - 一种集群亚健康预警方法及系统

Info

Publication number: CN106095639A
Application number: CN201610371512.8A
Authority: CN
Inventors: 杨亚军; 陈宏晓
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank of China
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-11-09

Abstract

本发明公开了一种集群亚健康预警方法及系统，该方法包括：获取集群历史运行数据；根据集群历史运行数据进行训练建模，生成预测模型；获取集群实时运行数据；将实时数据作为输入，输入至预测模型中计算生成预测结果；判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警。本发明通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生预测模型，将实时运行数据作为模型输入，预测集群的健康状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

Description

一种集群亚健康预警方法及系统

技术领域

本发明涉及互联网及云计算技术领域，更具体的，涉及一种集群亚健康预警方法及系统。

背景技术

随着互联网和云计算技术的不断发展，越来越多的服务需要使用集群服务来更好的满足用户的需求。一方面，服务集群化使用户可以得到更好的用户体验，例如访问速度快，同时，服务集群化可以在同一时间为更多的用户提供服务；另一方面，服务集群化可以提高系统的可用性，减少系统故障对业务造成的危害。

对于农行大数据平台建设的不断推进，在数据量爆炸式增长的同时，集群数量和规模也在急剧增加，随之而来的软硬件故障也有所上升。自搭建大数据平台以来，相关数据库发生多次漏洞和事故，造成宕机和数据错误等；另外，硬件上也发生故障，例如：操作系统莫名重启，内存耗尽，磁盘耗尽以及内存故障等。这些问题都已经严重影响了大数据平台的建设进度。

目前，大部分集群监控工具是简单采集和展示软硬件资源，通常包括磁盘利用率、内存利用率、IO、网络和系统进程、作业执行情况等；另外，也有一些功能相对完善的监控工具会对某些指标设定一个阈值，例如内存利用率、磁盘利用率等，超过阈值则报警，这种集群监控工具可以有效的发现已经出现的异常，但是无法提前进行故障预测，避免造成重大损失。

发明内容

本发明的目的在于提出一种集群亚健康预警方法及系统，以解决现有技术中只能事后发现异常或者简单设置报警阈值，无法对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而造成重大损失的问题。

为达到上述目的，本发明提供了以下技术方案：

本发明公开了一种集群亚健康预警方法，包括：

获取集群历史运行数据；

根据所述集群历史运行数据进行训练建模，生成预测模型；

获取集群实时运行数据；

将所述实时数据作为输入，输入至所述预测模型中计算生成预测结果；

判断所述预测结果是否处于亚健康状态，当所述预测结果处于亚健康状态时，则生成预警信号进行报警。

其中，所述预测模型为正态分布模型和KNN分类模型。

优选的，当所述预测模型为正态分布模型时，该方法还包括：

判断所述实时数据是否存储到历史数据库中；

当所述实时数据需要存储到所述历史数据库中时，则将所述实时数据存储至所述历史数据库。

优选的，当所述预测模型为KNN分类模型时，该方法还包括：

将所述实时数据存储到历史数据库中。

优选的，该方法包括：

判断所述预测模型是否达到重新训练建模的训练间隔；

当所述预测模型达到重新训练建模的训练间隔时，则重新获取集群历史运行数据进行训练建模；

当所述预测模型未达到重新训练建模的训练间隔时，则循环读取实时数据进行预测结果的计算。

本发明还公开了一种集群亚健康预警系统，包括：

历史数据获取单元，用于获取集群历史运行数据；

模型生成单元，用于根据所述集群历史运行数据进行训练建模，生成预测模型；

实时数据获取单元，用于获取集群运行的实时数据；

计算单元，用于将所述实时数据作为输入，输入至所述预测模型中计算生成预测结果；

判断单元，用于判断所述预测结果是否处于亚健康状态，当所述预测结果处于亚健康状态时，则生成预警信号进行报警。

其中，所述预测模型为正态分布模型和KNN分类模型。

优选的，当所述预测模型为正态分布模型时，该系统还包括：

第一判断单元，用于判断所述实时数据是否存储到历史数据库中；

第一存储单元，用于当所述实时数据需要存储到所述历史数据库中时，则将所述实时数据存储至所述历史数据库。

优选的，当所述预测模型为KNN分类模型时，该系统还包括：

第二存储单元，用于当所述实时数据需要存储到所述历史数据库中时，则将所述实时数据存储至所述历史数据库。

优选的，该系统还包括：

第二判断单元，用于判断所述预测模型是否达到重新训练建模的训练间隔；

重新建模单元，用于当所述预测模型达到重新训练建模的训练间隔，则重新获取集群历史运行数据进行训练建模；

重新读取单元，用于当所述预测模型未达到重新训练建模的训练间隔，则循环读取实时数据进行预测结果的计算。

经由上述的技术方案可知，与现有技术相比，本发明公开了一种集群亚健康预警方法，包括：获取集群历史运行数据；根据集群历史运行数据进行训练建模，生成预测模型；获取集群实时运行数据；将实时数据作为输入，输入至预测模型中计算生成预测结果；判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警。本发明通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生预测模型，将实时运行数据作为模型输入，预测集群的健康状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。另外，本发明还公开了一种集群亚健康预警系统，通过该系统实现集群亚健康预警方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一公开的一种集群亚健康预警方法的流程示意图；

图2为本发明实施例二公开的一种集群亚健康预警方法的流程示意图；

图3为本发明中公开的预测模型为正态分布概率密度曲线图；

图4为本发明实施例三公开的一种集群亚健康预警方法的流程示意图；

图5为本发明实施例四公开的一种集群亚健康预警系统的结构示意图；

图6为本发明实施例五公开的一种集群亚健康预警系统的结构示意图；

图7为本发明实施例六公开的一种集群亚健康预警系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关术语解释：

作业：大数据平台调度系统中的批量作业，一个作业是由输入数据和一个ETL脚本组成。

KNN算法：k最邻近邻居(k nearest neighbor)算法，是数据挖掘中常见的分类算法之一，如果一个样本在特征空间中的k个最相邻的样本中大多数属于某一类别，则该样本也属于这个类，并具有这个类别上样本的特性。

请参阅附图1，图1为本发明实施例一公开的一种集群亚健康预警方法的流程示意图。如图1所示，本发明公开了一种集群亚健康预警方法，具体的，该方法可以包括如下步骤：

S101、获取集群历史运行数据。

在系统运行过程中，将集群运行日志存储在集群存储器中，作为集群历史运行数据，本发明需要先获取内部存储器中的集群历史运行数据。

S102、根据集群历史运行数据进行训练建模，生成预测模型。

通过对集群历史运行数据训练建模，上述提及的预测模型可以采用数据挖掘的分类模型或者正态分布模型进行训练。

S103、获取集群实时运行数据。

在系统运行过程中，从集群中获取集群运行的实时日志数据。

S104、将实时数据作为输入，输入至预测模型中计算生成预测结果。

获取集群运行产生的实时日志数据，利用预先建立好的模型分析实时日志数据，产生预测结果。

S105、判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，进入步骤106。

S106、生成预警信号进行报警。

根据上述预测结果判断集群是否会发生异常，当预测会发生异常时，生成预警信号进行报警，具体可以利用短信和邮件向订阅人员报警。

上述实施例公开一种集群亚健康预警方法，包括：获取集群历史运行数据；根据集群历史运行数据进行训练建模，生成预测模型；获取集群实时运行数据；将实时数据作为输入，输入至预测模型中计算生成预测结果；判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警。本发明通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生预测模型，将实时运行数据作为模型输入，预测集群的健康状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

请参阅附图2，图2为本发明实施例二公开的一种集群亚健康预警方法的流程示意图。如图2所示，本实施例公开了一种集群亚健康预警方法，具体的，该方法可以包括如下步骤：

S201、获取集群历史运行数据。

S202、根据集群历史运行数据进行训练建模，生成正态分析模型。

通过对集群历史运行数据训练建模，本实施例中的预测模型采用正态分布模型进行训练，通过正态分析，生成所分析运行指标的正常区间，使得所分析运行指标的取值落入正常区间的概率大于用户设定的阈值，一般至少为95％以上。

S203、获取集群实时运行数据。

在系统运行的过程中，获取集群运行的实时日志数据。

S204、将实时数据作为输入，输入至正态分布模型中计算生成预测结果。

获取集群运行产生的实时日志数据，利用预先建立好的模型分析实时日志数据，产生预测结果，具体是将实时获取的运行日志数据与该运行指标的正常区间进行比较，若在区间外，则该值异常。

S205、判断预测结果是否处于亚健康状态，具体为当S204计算得到的异常值数目或者异常率大于用户设定的阈值，则系统处于亚健康，否则系统正常。当预测结果处于亚健康状态时，进入步骤S206，当预测结果处于非亚健康状态时，则进入步骤S207。

S206、生成预警信号进行报警。

S207、判断实时数据是否存储到历史数据库中，当实时数据需要存储到历史数据库中时进入步骤S208。

S208、将实时数据存储至历史数据库。

S209、判断预测模型是否达到重新训练建模的训练间隔，当预测模型达到重新训练建模的训练间隔时，则反回步骤S201重新获取集群历史运行数据进行训练建模，当预测模型未达到重新训练建模的训练间隔时，则进入步骤S203循环读取实时数据进行预测结果的计算。

具体的，在预测模型为正态分布模型时，具体的过程如下描述：

正态分布又名高斯分布，是一种十分重要的概率分布，在统计学中有着广泛的应用，记为N(μ，σ2)，其概率密度函数如公式所示，μ为期望，σ为标准差，其概率密度曲线请参阅附图3所示，因形状似钟形，又叫钟形分布。

正态分布具有集中性、对称性和均匀变动性的特征，即随机变量X的取值落在均值附近的概率最大，并且从均值向两侧概率均匀降低，且随机变量落在(μ-1.96σ，μ+1.96σ)外的概率小于5％，称为小概率事件，即认为在一次试验中该事件是几乎不可能发生的。

生活中有许多现象可以认为是服从正态分布或者近似服从正态分布，例如一次实验中的随机误差，同龄人的身高，平均气温，平均降雨量等等。一般来说如果一个量是由许多微小的相互独立的随机因素影响的结果，那么可以认为这个量服从正态分布(见中心极限定理)。

正态分布模型被广泛应用于生活中的各个领域，例如医学中的参考值范围，就是通过研究一批数量足够大的“正常人”，设定适当的百分界值，如95％、99％，根据实际应用确定单侧或者双侧界值，若患者的指标不在正常范围内，根据小概率事件原理，即可认为该患者的健康状况可能存在问题。

集群也如人一样，也有反映健康状况的运行指标，这些指标中也有部分服从正态分布，当小概率事件发生时，预示着系统处于亚健康状态，需要及时“治疗”。例如表的每日增量大小，作业的运行时间，集群的负载方差，SQL语句的执行时间等。通过对历史数据的分析，选取合适的概率值，为这些指标计算正常值区间，若运行数据不在正常值内，则可认为系统处于亚健康状态。更进一步，可以通过分析异常数据的比例和数目来提高预测的准确性。目前，亚健康预警已经实现了作业超时率、长SQL数目和集群负载异常预警。

作业超时率：作业是指大数据平台调度系统中的批量作业，每个作业包括脚本及输入数据。大数据平台每日的运行脚本是一致的，并且源数据文件大小近似服从正态分布，因此每个作业的运行时间近似服从正态分布。值得注意的是，月末的源数据多为全量文件，与月中大小相差较大，因此月中和月末需要分开处理。作业超时率预警可以综合预测系统多方面的故障，例如输入文件大小异常，网络和磁盘阻塞等。具体流程如下：

作业超时率预测算法：

1、选取调度近1年的作业运行数据作为训练集，按<作业标识，是否月末>两个维度对数据进行划分；

2、对划分后的数据进行正态建模，以μ±3σ为上下边界，建立每个作业运行时间的正常区间；

3、以5分钟为间隔循环读取调度实时运行数据，选取该时间间隔内已完成的和正在运行的作业进行分析，对于已完成作业，用完成时间-开始时间作为作业执行时间，对于正在运行作业，用采集时间-开始时间作为作业执行时间；

4、对于已完成作业，将作业执行时间与正常区间的上下界比较，若不在该区间内则表示该作业异常，对于正在运行作业，若作业执行时间大于正常区间上界，则该作业超时；

5、异常和超时的作业的比例大于用户设定的阈值，则报警。

长SQL数目：主要采集大数据平台GBase数据库SQL执行时间，对于每个SQL语句按月中和月末生成(μ±3σ)参考值区间，由于GBase数据库只能采集到当前运行的SQL的执行时间，因此对于SQL执行时间若大于上界，则认为SQL超时，若超时SQL的数目大于用户设定的阈值，则报警。其原理和处理方式与作业超时率类似。SQL超时可以有效发现异常SQL和集群阻塞。

集群负载均衡异常：负载均衡对于充分利用机器的存储和计算能力是十分关键的，因此设计优良的集群系统都会将负载均衡作为软件的一个必须的功能模块，一旦节点间负载差异较大，往往预示着软件或者硬件故障。负载均衡主要考虑内存、磁盘、IO等负载。

综上，由于不同时间段的集群整体负载会存在差异，因此为了避免数量级不正确导致的预测不准确，需要先对内存、磁盘和IO数据进行标准化。标准化公式如公式所示，其中x为当前数值，max为该序列中的最大值。

标准化之后利用公式计算负载偏差，其中xi为标准化后的内存、磁盘或者IO值，n表示集群节点数目，m为标准化之后数值序列的中位数，此处选择中位数而不是均值，是因为一个集群中大部分节点的资源利用率比较接近，中位数更能反映这些资源利用率的平均情况，避免了个别极值对均值的影响。对偏差值求正态分布和相应的正常值范围，若有一个指标超过正常值，则进行1级报警，若两个指标异常，则进行2级报警，以此类推。

上述实施例公开一种集群亚健康预警方法，包括：获取集群历史运行数据；根据集群历史运行数据进行训练建模，生成预测模型；获取集群实时运行数据，将实时数据作为输入，输入至预测模型中计算生成预测结果；判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警。本发明通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生预测模型，该预测模型为正态分布模型，将实时运行数据作为模型输入，预测集群的健康状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

请参阅附图4，图4为本发明实施例三公开的一种集群亚健康预警方法的流程示意图。如图4所示，本实施例公开了一种集群亚健康预警方法，具体的，该方法可以包括如下步骤：

S401、获取集群历史运行数据。

S402、根据集群历史运行数据进行训练建模，生成KNN分类模型。

对集群历史运行数据训练建模，具体为根据集群历史运行情况，对历史数据进行标记，标记为正常或者异常。本实施例中的预测模型采用KNN分类模型进行训练。

S403、获取集群实时运行数据

在系统运行过程中，获取集群实时运行数据。

S404、将实时数据作为输入，输入至KNN分类模型中计算生成预测结果。

将获取集群运行产生的实时日志数据，利用预先建立好的模型分析实时日志数据，计算实时运行数据在训练集中的K个最邻近邻居，根据K个最邻近邻居的类别投票产生实时运行数据的类别，具体的若大于K/2个邻居为异常，则该值异常，否则该值正常。产生预测结果。

S405、判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，进入步骤S406，当预测结果处于非亚健康状态时，则进入步骤S407。

S406、生成预警信号进行报警。

S407、将实时数据存储至所述历史数据库。

S408、判断预测模型是否达到重新训练建模的训练间隔，当预测模型达到重新训练建模的训练间隔时，则反回步骤S401重新获取集群历史运行数据进行训练建模，当预测模型未达到重新训练建模的训练间隔时，则进入步骤S403循环读取实时数据进行预测结果的计算。

具体的，在预测模型为KNN分类模型时，具体的过程如下描述：

MPP数据库有个常用操作，即进行多表关联时，若关联字段为非哈希字段，则有可能拉表，即在多个节点之间传输大量的表副本，对于单个节点，可能需要将与该节点连接字段匹配的记录都传输到本地，这会造成大量的IO和内存消耗，极端情况，如果是两张大表做笛卡尔积，很有可能将内存耗尽，从而造成死机、重启等故障。在使用GBase的过程中，曾发生多次由于笛卡尔积导致内存耗尽死机的情况，因此，能否在内存即将耗尽之前，提前预测，将导致异常的SQL及时停止是十分关键的。

经分析，此类问题有个共同点，即拉表操作会在短时间内造成内存的急剧上升，内存利用率曲线的斜率会比较高，因此可以通过分析内存利用率趋势，预测这种情况的发生。对于两个采集时点，内存利用率的变化即为一条线段，可以通过线段的斜率表示内存的增长趋势，那么问题转换为一个分类问题，即对于某个给定的斜率，判断是否属于异常类。在分类问题中，最简单有效的方法就是KNN算法，即计算k个最邻近邻居，通过k个邻近邻居的投票，确定该值所属的类别。算法如下所示：

KNN分类模型预测内存增长趋势算法：

1、选取近三个月的内存利用率数据，以一定的时间间隔，对内存利用率曲线进行划分，计算每个划分的斜率；

2、手工对异常斜率进行标记，其余标记为正常，以此作为模型库；

3、以相同的时间间隔采集集群内存利用率指标，计算斜率；

4、计算该斜率与训练库中数据的欧几里得距离，并选出最近的k个邻居；

5、若大于k/2个邻居为正常，则该点正常，否则，该点异常，并报警。

利用KNN分类算法进行内存利用趋势预测，可以有效的预知拉表造成的内存快速消耗，若伴随内存利用率上限阈值，效果会更加明显。此算法比较关键的一点是采集间隔的选取，若间隔过短，则无法反映出内存增长趋势的差异，若采集间隔过长，可能会错过中间增长峰值，而误认为系统正常，采集间隔的选取需要分析历史内存利用率曲线确定。

上述实施例公开一种集群亚健康预警方法，包括：获取集群历史运行数据；根据集群历史运行数据进行训练建模，生成预测模型；获取集群实时运行数据；将实时数据作为输入，输入至预测模型中计算生成预测结果；判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警；将检测的实时数据存入历史数据库中。本发明通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生预测模型，该预测模型为KNN分类模型，将实时运行数据作为模型输入，预测集群的健康状况，且将实时数据存储为集群历史运行数据，将发生异常的数据实时记录，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

请参阅附图5，图5为本发明实施例四公开的一种集群亚健康预警系统的结构示意图。如图5所示，本发明在上述公开的方法的基础上，还公开了一种集群亚健康预警系统，具体该系统包括：

历史数据获取单元501，用于获取集群历史运行数据；模型生成单元502，用于根据集群历史运行数据进行训练建模，生成预测模型；实时数据获取单元503，用于获取集群实时运行数据；计算单元504，用于将实时数据作为输入，输入至预测模型中计算生成预测结果；判断单元505，用于判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警。

具体的，上述预测模型可以采用正态分布模型和KNN分类模型。

由于本实施例中的各单元能够执行图1所示的方法，本实施例未详细描述的部分，可参考对图1的相关说明。

上述实施例公开一种集群亚健康预警系统，通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生预测模型，将实时运行数据作为模型输入，预测集群的监控状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

请参阅附图6，图6为本发明实施例五公开的一种集群亚健康预警系统的结构示意图。如图6所示，本发明在上述公开的方法的基础上，还公开了一种集群亚健康预警系统，具体该系统包括：

历史数据获取单元601，用于获取集群历史运行数据；模型生成单元602，用于根据集群历史运行数据进行训练建模，生成正态分布模型；实时数据获取单元603，用户获取集群运行的实时日志数据；计算单元604，用于将实时数据作为输入，输入至正态分布模型中计算生成预测结果；判断单元605，用于判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警；第一判断单元606，用于判断实时数据是否存储到历史数据库中；第一存储单元607，用于当实时数据需要存储到历史数据库中时，则将实时数据存储至历史数据库；第二判断单元608，用于判断预测模型是否达到重新训练建模的训练间隔；重新建模单元609，用于当预测模型达到重新训练建模的训练间隔，则重新获取集群历史运行数据进行训练建模；重新读取单元610，用于循环读取实时数据进行预测结果的计算。

由于本实施例中的各单元能够执行图2所示的方法，本实施例未详细描述的部分，可参考对图2的相关说明。

上述实施例公开一种集群亚健康预警系统，通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生正态分布模型，将实时运行数据作为模型输入，预测集群的监控状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

请参阅附图7，图7为本发明实施例六公开的一种集群亚健康预警系统的结构示意图。如图7所示，本发明在上述公开的方法的基础上，还公开了一种集群亚健康预警系统，具体该系统包括：

历史数据获取单元701，用于获取集群历史运行数据；模型生成单元702，用于根据集群历史运行数据进行训练建模，生成KNN分类模型；实时数据获取单元703，用于获取集群实时运行数据；计算单元704，用于将实时数据作为输入，输入至KNN分类模型中计算生成预测结果；判断单元705，用于判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警；第二存储单元706，用于则将实时数据存储至所述历史数据库；第二判断单元707，用于判断预测模型是否达到重新训练建模的训练间隔；重新建模单元708，用于当预测模型达到重新训练建模的训练间隔，则重新获取集群历史运行数据进行训练建模；重新读取单元709，用于循环读取实时数据进行预测结果的计算。

由于本实施例中的各单元能够执行图4所示的方法，本实施例未详细描述的部分，可参考对图4的相关说明。

上述实施例公开一种集群亚健康预警系统，通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生KNN分类模型，将实时运行数据作为模型输入，预测集群的监控状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

综上所述：本发明公开了一种集群亚健康预警方法及系统，该方法包括：获取集群历史运行数据；根据集群历史运行数据进行训练建模，生成预测模型；获取集群实时运行数据；将实时数据作为输入，输入至预测模型中计算生成预测结果；判断预测结果是否处于亚健康状态，当预测结果处于亚健康状态时，则生成预警信号进行报警。本发明通过训练建模，将数据挖掘算法运用到集群运行日志分析中，通过对历史数据训练建模，产生预测模型，将实时运行数据作为模型输入，预测集群的健康状况，可以对集群潜在风险进行预测且在异常发生之前，及时通知运维人员进行相关处理，进而降低集群发生异常带来的重大损失。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种集群亚健康预警方法，其特征在于，包括：

获取集群历史运行数据；

根据所述集群历史运行数据进行训练建模，生成预测模型；

获取集群实时运行数据；

2.根据权利要求1所述的方法，其特征在于，所述预测模型为正态分布模型和KNN分类模型。

3.根据权利要求2所述的方法，其特征在于，当所述预测模型为正态分布模型时，该方法还包括：

判断所述实时数据是否存储到历史数据库中；

4.根据权利要求2所述的方法，其特征在于，当所述预测模型为KNN分类模型时，该方法还包括：

将所述实时数据存储到历史数据库中。

5.根据权利要求3或4所述的方法，其特征在于，该方法还包括：

判断所述预测模型是否达到重新训练建模的训练间隔；

6.一种集群亚健康预警系统，其特征在于，包括：

历史数据获取单元，用于获取集群历史运行数据；

实时数据获取单元，用于获取集群运行的实时数据；

7.根据权利要求6所述的系统，其特征在于，所述预测模型为正态分布模型和KNN分类模型。

8.根据权利要求7所述的系统，其特征在于，当所述预测模型为正态分布模型时，该系统还包括：

9.根据权利要求7所述的系统，其特征在于，当所述预测模型为KNN分类模型时，该系统还包括：

10.根据权利要求8或9所述的系统，其特征在于，该系统还包括：