CN106095639A - 一种集群亚健康预警方法及系统 - Google Patents

一种集群亚健康预警方法及系统 Download PDF

Info

Publication number
CN106095639A
CN106095639A CN201610371512.8A CN201610371512A CN106095639A CN 106095639 A CN106095639 A CN 106095639A CN 201610371512 A CN201610371512 A CN 201610371512A CN 106095639 A CN106095639 A CN 106095639A
Authority
CN
China
Prior art keywords
cluster
data
forecast
training
modeling
Prior art date
Application number
CN201610371512.8A
Other languages
English (en)
Inventor
杨亚军
陈宏晓
Original Assignee
中国农业银行股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中国农业银行股份有限公司 filed Critical 中国农业银行股份有限公司
Priority to CN201610371512.8A priority Critical patent/CN106095639A/zh
Publication of CN106095639A publication Critical patent/CN106095639A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling

Abstract

本发明公开了一种集群亚健康预警方法及系统,该方法包括:获取集群历史运行数据;根据集群历史运行数据进行训练建模,生成预测模型;获取集群实时运行数据;将实时数据作为输入,输入至预测模型中计算生成预测结果;判断预测结果是否处于亚健康状态,当预测结果处于亚健康状态时,则生成预警信号进行报警。本发明通过训练建模,将数据挖掘算法运用到集群运行日志分析中,通过对历史数据训练建模,产生预测模型,将实时运行数据作为模型输入,预测集群的健康状况,可以对集群潜在风险进行预测且在异常发生之前,及时通知运维人员进行相关处理,进而降低集群发生异常带来的重大损失。

Description

一种集群亚健康预警方法及系统

技术领域

[0001] 本发明涉及互联网及云计算技术领域,更具体的,涉及一种集群亚健康预警方法 及系统。

背景技术

[0002] 随着互联网和云计算技术的不断发展,越来越多的服务需要使用集群服务来更好 的满足用户的需求。一方面,服务集群化使用户可以得到更好的用户体验,例如访问速度 快,同时,服务集群化可以在同一时间为更多的用户提供服务;另一方面,服务集群化可以 提高系统的可用性,减少系统故障对业务造成的危害。

[0003]对于农行大数据平台建设的不断推进,在数据量爆炸式增长的同时,集群数量和 规模也在急剧增加,随之而来的软硬件故障也有所上升。自搭建大数据平台以来,相关数据 库发生多次漏洞和事故,造成宕机和数据错误等;另外,硬件上也发生故障,例如:操作系统 莫名重启,内存耗尽,磁盘耗尽以及内存故障等。这些问题都已经严重影响了大数据平台的 建设进度。

[0004] 目前,大部分集群监控工具是简单采集和展示软硬件资源,通常包括磁盘利用率、 内存利用率、10、网络和系统进程、作业执行情况等;另外,也有一些功能相对完善的监控工 具会对某些指标设定一个阈值,例如内存利用率、磁盘利用率等,超过阈值则报警,这种集 群监控工具可以有效的发现已经出现的异常,但是无法提前进行故障预测,避免造成重大 损失。

发明内容

[0005] 本发明的目的在于提出一种集群亚健康预警方法及系统,以解决现有技术中只能 事后发现异常或者简单设置报警阈值,无法对集群潜在风险进行预测且在异常发生之前, 及时通知运维人员进行相关处理,进而造成重大损失的问题。

[0006] 为达到上述目的,本发明提供了以下技术方案:

[0007] 本发明公开了一种集群亚健康预警方法,包括:

[0008] 获取集群历史运行数据;

[0009] 根据所述集群历史运行数据进行训练建模,生成预测模型;

[0010]获取集群实时运行数据;

[0011] 将所述实时数据作为输入,输入至所述预测模型中计算生成预测结果;

[0012] 判断所述预测结果是否处于亚健康状态,当所述预测结果处于亚健康状态时,则 生成预警信号进行报警。

[0013] 其中,所述预须彳模型为正态分布模型和KNN分类模型。

[0014]优选的,当所述预测模型为正态分布模型时,该方法还包括:

[0015] 判断所述实时数据是否存储到历史数据库中;

[0016] 当所述实时数据需要存储到所述历史数据库中时,则将所述实时数据存储至所述 历史数据库。

[0017] 优选的,当所述预测模型为KNN分类模型时,该方法还包括:

[0018] 将所述实时数据存储到历史数据库中。

[0019] 优选的,该方法包括:

[0020] 判断所述预测模型是否达到重新训练建模的训练间隔;

[0021] 当所述预测模型达到重新训练建模的训练间隔时,则重新获取集群历史运行数据 进行训练建模;

[0022] 当所述预测模型未达到重新训练建模的训练间隔时,则循环读取实时数据进行预 测结果的计算。

[0023]本发明还公开了一种集群亚健康预警系统,包括:

[0024] 历史数据获取单元,用于获取集群历史运行数据;

[0025] 模型生成单元,用于根据所述集群历史运行数据进行训练建模,生成预测模型;

[0026] 实时数据获取单元,用于获取集群运行的实时数据;

[0027] 计算单元,用于将所述实时数据作为输入,输入至所述预测模型中计算生成预测 结果;

[0028]判断单元,用于判断所述预测结果是否处于亚健康状态,当所述预测结果处于亚 健康状态时,则生成预警信号进行报警。

[0029]其中,所述预测模型为正态分布模型和KNN分类模型。

[0030]优选的,当所述预测模型为正态分布模型时,该系统还包括:

[0031]第一判断单元,用于判断所述实时数据是否存储到历史数据库中;

[0032]第一存储单元,用于当所述实时数据需要存储到所述历史数据库中时,则将所述 实时数据存储至所述历史数据库。

[0033]优选的,当所述预测模型为KNN分类模型时,该系统还包括:

[0034]第二存储单元,用于当所述实时数据需要存储到所述历史数据库中时,则将所述 实时数据存储至所述历史数据库。

[0035]优选的,该系统还包括:

[0036] 第二判断单元,用于判断所述预测模型是否达到重新训练建模的训练间隔;

[0037] 重新建模单元,用于当所述预测模型达到重新训练建模的训练间隔,则重新获取 集群历史运行数据进行训练建模;

[0038] 重新读取单元,用于当所述预测模型未达到重新训练建模的训练间隔,则循环读 取实时数据进行预测结果的计算。

[0039] 经由上述的技术方案可知,与现有技术相比,本发明公开了一种集群亚健康预警 方法,包括:获取集群历史运行数据;根据集群历史运行数据进行训练建模,生成预测模型; 获取集群实时运行数据;将实时数据作为输入,输入至预测模型中计算生成预测结果;判断 预测结果是否处于亚健康状态,当预测结果处于亚健康状态时,则生成预警信号进行报警。 本发明通过训练建模,将数据挖掘算法运用到集群运行日志分析中,通过对历史数据训练 建模,产生预测模型,将实时运行数据作为模型输入,预测集群的健康状况,可以对集群潜 在风险进行预测且在异常发生之前,及时通知运维人员进行相关处理,进而降低集群发生 异常带来的重大损失。另外,本发明还公开了一种集群亚健康预警系统,通过该系统实现集 群亚健康预警方法。

附图说明

[0040] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。

[0041] 图1为本发明实施例一公开的一种集群亚健康预警方法的流程示意图;

[0042]图2为本发明实施例二公开的一种集群亚健康预警方法的流程示意图;

[0043]图3为本发明中公开的预测模型为正态分布概率密度曲线图;

[0044]图4为本发明实施例三公开的一种集群亚健康预警方法的流程示意图;

[0045] 图5为本发明实施例四公开的一种集群亚健康预警系统的结构示意图;

[0046] 图6为本发明实施例五公开的一种集群亚健康预警系统的结构示意图;

[0047] 图7为本发明实施例六公开的一种集群亚健康预警系统的结构示意图。

具体实施方式

[0048] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。

[0049] 相关术语解释:

[0050] 作业:大数据平台调度系统中的批量作业,一个作业是由输入数据和一个ETL脚本 组成。

[0051] KNN算法:k最邻近邻居(k nearest neighbor)算法,是数据挖掘中常见的分类算 法之一,如果一个样本在特征空间中的k个最相邻的样本中大多数属于某一类别,则该样本 也属于这个类,并具有这个类别上样本的特性。

[0052]请参阅附图1,图1为本发明实施例一公开的一种集群亚健康预警方法的流程示意 图。如图1所示,本发明公开了一种集群亚健康预警方法,具体的,该方法可以包括如下步 骤:

[0053] S101、获取集群历史运行数据。

[0054] 在系统运行过程中,将集群运行日志存储在集群存储器中,作为集群历史运行数 据,本发明需要先获取内部存储器中的集群历史运行数据。

[0055] S102、根据集群历史运行数据进行训练建模,生成预测模型。

[0056] 通过对集群历史运行数据训练建模,上述提及的预测模型可以采用数据挖掘的分 类模型或者正态分布模型进行训练。

[0057] S103、获取集群实时运行数据。

[0058]在系统运行过程中,从集群中获取集群运行的实时日志数据。

[0059] S104、将实时数据作为输入,输入至预测模型中计算生成预测结果。

[0060] 获取集群运行产生的实时日志数据,利用预先建立好的模型分析实时日志数据, 产生预测结果。

[0061] S105、判断预测结果是否处于亚健康状态,当预测结果处于亚健康状态时,进入步 骤 106〇

[0062] S106、生成预警信号进行报警。

[0063]根据上述预测结果判断集群是否会发生异常,当预测会发生异常时,生成预警信 号进行报警,具体可以利用短信和邮件向订阅人员报警。

[0064]上述实施例公开一种集群亚健康预警方法,包括:获取集群历史运行数据;根据集 群历史运行数据进行训练建模,生成预测模型;获取集群实时运行数据;将实时数据作为输 入,输入至预测模型中计算生成预测结果;判断预测结果是否处于亚健康状态,当预测结果 处于亚健康状态时,则生成预警信号进行报警。本发明通过训练建模,将数据挖掘算法运用 到集群运行日志分析中,通过对历史数据训练建模,产生预测模型,将实时运行数据作为模 型输入,预测集群的健康状况,可以对集群潜在风险进行预测且在异常发生之前,及时通知 运维人员进行相关处理,进而降低集群发生异常带来的重大损失。

[0065]请参阅附图2,图2为本发明实施例二公开的一种集群亚健康预警方法的流程示意 图。如图2所示,本实施例公开了一种集群亚健康预警方法,具体的,该方法可以包括如下步 骤:

[0066] S201、获取集群历史运行数据。

[0067]在系统运行过程中,将集群运行日志存储在集群存储器中,作为集群历史运行数 据,本发明需要先获取内部存储器中的集群历史运行数据。

[0068] S202、根据集群历史运行数据进行训练建模,生成正态分析模型。

[0069] 通过对集群历史运行数据训练建模,本实施例中的预测模型采用正态分布模型进 行训练,通过正态分析,生成所分析运行指标的正常区间,使得所分析运行指标的取值落入 正常区间的概率大于用户设定的阈值,一般至少为95%以上。

[0070] S203、获取集群实时运行数据。

[0071 ]在系统运行的过程中,获取集群运行的实时日志数据。

[0072] S204、将实时数据作为输入,输入至正态分布模型中计算生成预测结果。

[0073] 获取集群运行产生的实时日志数据,利用预先建立好的模型分析实时日志数据, 产生预测结果,具体是将实时获取的运行日志数据与该运行指标的正常区间进行比较,若 在区间外,则该值异常。

[0074] S205、判断预测结果是否处于亚健康状态,具体为当S204计算得到的异常值数目 或者异常率大于用户设定的阈值,则系统处于亚健康,否则系统正常。当预测结果处于亚健 康状态时,进入步骤S206,当预测结果处于非亚健康状态时,则进入步骤S207。

[0075] S206、生成预警信号进行报警。

[0076] S207、判断实时数据是否存储到历史数据库中,当实时数据需要存储到历史数据 库中时进入步骤S208。

[0077] S208、将实时数据存储至历史数据库。

[0078] S209、判断预测模型是否达到重新训练建模的训练间隔,当预测模型达到重新训 练建模的训练间隔时,则反回步骤S201重新获取集群历史运行数据进行训练建模,当预测 模型未达到重新训练建模的训练间隔时,则进入步骤S203循环读取实时数据进行预测结果 的计算。

[0079] 根据上述预测结果判断集群是否会发生异常,当预测会发生异常时,生成预警信 号进行报警,具体可以利用短信和邮件向订阅人员报警。

[0080] 具体的,在预测模型为正态分布模型时,具体的过程如下描述:

[0081 ]正态分布又名高斯分布,是一种十分重要的概率分布,在统计学中有着广泛的应 用,记为Ν(μ,σ2),其概率密度函数如公式

Figure CN106095639AD00081

4为期望,σ为标 准差,其概率密度曲线请参阅附图3所示,因形状似钟形,又叫钟形分布。

[0082]正态分布具有集中性、对称性和均匀变动性的特征,即随机变量X的取值落在均值 附近的概率最大,并且从均值向两侧概率均匀降低,且随机变量落在(μ_1.96σ,μ+1.96〇)外 的概率小于5%,称为小概率事件,即认为在一次试验中该事件是几乎不可能发生的。

[0083] 生活中有许多现象可以认为是服从正态分布或者近似服从正态分布,例如一次实 验中的随机误差,同龄人的身高,平均气温,平均降雨量等等。一般来说如果一个量是由许 多微小的相互独立的随机因素影响的结果,那么可以认为这个量服从正态分布(见中心极 限定理)。

[0084]正态分布模型被广泛应用于生活中的各个领域,例如医学中的参考值范围,就是 通过研究一批数量足够大的"正常人",设定适当的百分界值,如95%、99%,根据实际应用 确定单侧或者双侧界值,若患者的指标不在正常范围内,根据小概率事件原理,即可认为该 患者的健康状况可能存在问题。

[0085]集群也如人一样,也有反映健康状况的运行指标,这些指标中也有部分服从正态 分布,当小概率事件发生时,预示着系统处于亚健康状态,需要及时"治疗"。例如表的每日 增量大小,作业的运行时间,集群的负载方差,SQL语句的执行时间等。通过对历史数据的分 析,选取合适的概率值,为这些指标计算正常值区间,若运行数据不在正常值内,则可认为 系统处于亚健康状态。更进一步,可以通过分析异常数据的比例和数目来提高预测的准确 性。目前,亚健康预警已经实现了作业超时率、长SQL数目和集群负载异常预警。

[0086]作业超时率:作业是指大数据平台调度系统中的批量作业,每个作业包括脚本及 输入数据。大数据平台每日的运行脚本是一致的,并且源数据文件大小近似服从正态分布, 因此每个作业的运行时间近似服从正态分布。值得注意的是,月末的源数据多为全量文件, 与月中大小相差较大,因此月中和月末需要分开处理。作业超时率预警可以综合预测系统 多方面的故障,例如输入文件大小异常,网络和磁盘阻塞等。具体流程如下:

[0087] 作业超时率预测算法:

[0088] 1、选取调度近1年的作业运行数据作为训练集,按〈作业标识,是否月末〉两个维度 对数据进行划分;

[0089] 2、对划分后的数据进行正态建模,以μ±3σ为上下边界,建立每个作业运行时间的 正常区间;

[0090] 3、以5分钟为间隔循环读取调度实时运行数据,选取该时间间隔内已完成的和正 在运行的作业进行分析,对于已完成作业,用完成时间-开始时间作为作业执行时间,对于 正在运行作业,用采集时间-开始时间作为作业执行时间;

[0091] 4、对于已完成作业,将作业执行时间与正常区间的上下界比较,若不在该区间内 则表示该作业异常,对于正在运行作业,若作业执行时间大于正常区间上界,则该作业超 时;

[0092] 5、异常和超时的作业的比例大于用户设定的阈值,则报警。

[0093]长SQL数目:主要采集大数据平台GBase数据库SQL执行时间,对于每个SQL语句按 月中和月末生成(μ±3〇)参考值区间,由于GBase数据库只能采集到当前运行的SQL的执行 时间,因此对于SQL执行时间若大于上界,则认为SQL超时,若超时SQL的数目大于用户设定 的阈值,则报警。其原理和处理方式与作业超时率类似。SQL超时可以有效发现异常SQL和集 群阻塞。

[0094] 集群负载均衡异常:负载均衡对于充分利用机器的存储和计算能力是十分关键 的,因此设计优良的集群系统都会将负载均衡作为软件的一个必须的功能模块,一旦节点 间负载差异较大,往往预示着软件或者硬件故障。负载均衡主要考虑内存、磁盘、10等负载。

[0095] 综上,由于不同时间段的集群整体负载会存在差异,因此为了避免数量级不正确 导致的预测不准确,需要先对内存、磁盘和10数据进行标准化。标准化公式如公式

Figure CN106095639AD00091

,其中X为当前数值,max为该序列中的最大值。

Figure CN106095639AD00092

[0096] 标准化之后利用公式 计算负载偏 差,其中xi为标准化后的内存、磁盘或者10值,η表示集群节点数目,m为标准化之后数值序 列的中位数,此处选择中位数而不是均值,是因为一个集群中大部分节点的资源利用率比 较接近,中位数更能反映这些资源利用率的平均情况,避免了个别极值对均值的影响。对偏 差值求正态分布和相应的正常值范围,若有一个指标超过正常值,则进行1级报警,若两个 指标异常,则进行2级报警,以此类推。

[0097]上述实施例公开一种集群亚健康预警方法,包括:获取集群历史运行数据;根据集 群历史运行数据进行训练建模,生成预测模型;获取集群实时运行数据,将实时数据作为输 入,输入至预测模型中计算生成预测结果;判断预测结果是否处于亚健康状态,当预测结果 处于亚健康状态时,则生成预警信号进行报警。本发明通过训练建模,将数据挖掘算法运用 到集群运行日志分析中,通过对历史数据训练建模,产生预测模型,该预测模型为正态分布 模型,将实时运行数据作为模型输入,预测集群的健康状况,可以对集群潜在风险进行预测 且在异常发生之前,及时通知运维人员进行相关处理,进而降低集群发生异常带来的重大 损失。

[0098]请参阅附图4,图4为本发明实施例三公开的一种集群亚健康预警方法的流程示意 图。如图4所示,本实施例公开了一种集群亚健康预警方法,具体的,该方法可以包括如下步 骤:

[0099] S401、获取集群历史运行数据。

[0100] 在系统运行过程中,将集群运行日志存储在集群存储器中,作为集群历史运行数 据,本发明需要先获取内部存储器中的集群历史运行数据。

[0101] S402、根据集群历史运行数据进行训练建模,生成KNN分类模型。

[0102] 对集群历史运行数据训练建模,具体为根据集群历史运行情况,对历史数据进行 标记,标记为正常或者异常。本实施例中的预测模型采用KNN分类模型进行训练。

[0103] S403、获取集群实时运行数据

[0104] 在系统运行过程中,获取集群实时运行数据。

[0105] S404、将实时数据作为输入,输入至KNN分类模型中计算生成预测结果。

[0106] 将获取集群运行产生的实时日志数据,利用预先建立好的模型分析实时日志数 据,计算实时运行数据在训练集中的K个最邻近邻居,根据K个最邻近邻居的类别投票产生 实时运行数据的类别,具体的若大于K/2个邻居为异常,则该值异常,否则该值正常。产生预 测结果。

[0107] S405、判断预测结果是否处于亚健康状态,当预测结果处于亚健康状态时,进入步 骤S406,当预测结果处于非亚健康状态时,则进入步骤S407。

[0108] S406、生成预警信号进行报警。

[0109] S407、将实时数据存储至所述历史数据库。

[0110] S408、判断预测模型是否达到重新训练建模的训练间隔,当预测模型达到重新训 练建模的训练间隔时,则反回步骤S401重新获取集群历史运行数据进行训练建模,当预测 模型未达到重新训练建模的训练间隔时,则进入步骤S403循环读取实时数据进行预测结果 的计算。

[0111] 具体的,在预测模型为KNN分类模型时,具体的过程如下描述:

[0112] MPP数据库有个常用操作,即进行多表关联时,若关联字段为非哈希字段,则有可 能拉表,即在多个节点之间传输大量的表副本,对于单个节点,可能需要将与该节点连接字 段匹配的记录都传输到本地,这会造成大量的10和内存消耗,极端情况,如果是两张大表做 笛卡尔积,很有可能将内存耗尽,从而造成死机、重启等故障。在使用GBase的过程中,曾发 生多次由于笛卡尔积导致内存耗尽死机的情况,因此,能否在内存即将耗尽之前,提前预 测,将导致异常的SQL及时停止是十分关键的。

[0113]经分析,此类问题有个共同点,即拉表操作会在短时间内造成内存的急剧上升,内 存利用率曲线的斜率会比较高,因此可以通过分析内存利用率趋势,预测这种情况的发生。 对于两个采集时点,内存利用率的变化即为一条线段,可以通过线段的斜率表示内存的增 长趋势,那么问题转换为一个分类问题,即对于某个给定的斜率,判断是否属于异常类。在 分类问题中,最简单有效的方法就是KNN算法,即计算k个最邻近邻居,通过k个邻近邻居的 投票,确定该值所属的类别。算法如下所示:

[0114] KNN分类模型预测内存增长趋势算法:

[0115] 1、选取近三个月的内存利用率数据,以一定的时间间隔,对内存利用率曲线进行 划分,计算每个划分的斜率;

[0116] 2、手工对异常斜率进行标记,其余标记为正常,以此作为模型库;

[0117] 3、以相同的时间间隔采集集群内存利用率指标,计算斜率;

[0118] 4、计算该斜率与训练库中数据的欧几里得距离,并选出最近的k个邻居;

[0119] 5、若大于k/2个邻居为正常,则该点正常,否则,该点异常,并报警。

[0120]利用KNN分类算法进行内存利用趋势预测,可以有效的预知拉表造成的内存快速 消耗,若伴随内存利用率上限阈值,效果会更加明显。此算法比较关键的一点是采集间隔的 选取,若间隔过短,则无法反映出内存增长趋势的差异,若采集间隔过长,可能会错过中间 增长峰值,而误认为系统正常,采集间隔的选取需要分析历史内存利用率曲线确定。

[0121 ]上述实施例公开一种集群亚健康预警方法,包括:获取集群历史运行数据;根据集 群历史运行数据进行训练建模,生成预测模型;获取集群实时运行数据;将实时数据作为输 入,输入至预测模型中计算生成预测结果;判断预测结果是否处于亚健康状态,当预测结果 处于亚健康状态时,则生成预警信号进行报警;将检测的实时数据存入历史数据库中。本发 明通过训练建模,将数据挖掘算法运用到集群运行日志分析中,通过对历史数据训练建模, 产生预测模型,该预测模型为KNN分类模型,将实时运行数据作为模型输入,预测集群的健 康状况,且将实时数据存储为集群历史运行数据,将发生异常的数据实时记录,可以对集群 潜在风险进行预测且在异常发生之前,及时通知运维人员进行相关处理,进而降低集群发 生异常带来的重大损失。

[0122] 请参阅附图5,图5为本发明实施例四公开的一种集群亚健康预警系统的结构示意 图。如图5所示,本发明在上述公开的方法的基础上,还公开了一种集群亚健康预警系统,具 体该系统包括:

[0123] 历史数据获取单元501,用于获取集群历史运行数据;模型生成单元502,用于根据 集群历史运行数据进行训练建模,生成预测模型;实时数据获取单元503,用于获取集群实 时运行数据;计算单元504,用于将实时数据作为输入,输入至预测模型中计算生成预测结 果;判断单元505,用于判断预测结果是否处于亚健康状态,当预测结果处于亚健康状态时, 则生成预警信号进行报警。

[0124] 具体的,上述预测模型可以采用正态分布模型和KNN分类模型。

[0125] 由于本实施例中的各单元能够执行图1所示的方法,本实施例未详细描述的部分, 可参考对图1的相关说明。

[0126] 上述实施例公开一种集群亚健康预警系统,通过训练建模,将数据挖掘算法运用 到集群运行日志分析中,通过对历史数据训练建模,产生预测模型,将实时运行数据作为模 型输入,预测集群的监控状况,可以对集群潜在风险进行预测且在异常发生之前,及时通知 运维人员进行相关处理,进而降低集群发生异常带来的重大损失。

[0127] 请参阅附图6,图6为本发明实施例五公开的一种集群亚健康预警系统的结构示意 图。如图6所示,本发明在上述公开的方法的基础上,还公开了一种集群亚健康预警系统,具 体该系统包括:

[0128] 历史数据获取单元601,用于获取集群历史运行数据;模型生成单元602,用于根据 集群历史运行数据进行训练建模,生成正态分布模型;实时数据获取单元603,用户获取集 群运行的实时日志数据;计算单元604,用于将实时数据作为输入,输入至正态分布模型中 计算生成预测结果;判断单元605,用于判断预测结果是否处于亚健康状态,当预测结果处 于亚健康状态时,则生成预警信号进行报警;第一判断单元606,用于判断实时数据是否存 储到历史数据库中;第一存储单元607,用于当实时数据需要存储到历史数据库中时,则将 实时数据存储至历史数据库;第二判断单元608,用于判断预测模型是否达到重新训练建模 的训练间隔;重新建模单元609,用于当预测模型达到重新训练建模的训练间隔,则重新获 取集群历史运行数据进行训练建模;重新读取单元610,用于循环读取实时数据进行预测结 果的计算。

[0129] 由于本实施例中的各单元能够执行图2所示的方法,本实施例未详细描述的部分, 可参考对图2的相关说明。

[0130] 上述实施例公开一种集群亚健康预警系统,通过训练建模,将数据挖掘算法运用 到集群运行日志分析中,通过对历史数据训练建模,产生正态分布模型,将实时运行数据作 为模型输入,预测集群的监控状况,可以对集群潜在风险进行预测且在异常发生之前,及时 通知运维人员进行相关处理,进而降低集群发生异常带来的重大损失。

[0131] 请参阅附图7,图7为本发明实施例六公开的一种集群亚健康预警系统的结构示意 图。如图7所示,本发明在上述公开的方法的基础上,还公开了一种集群亚健康预警系统,具 体该系统包括:

[0132] 历史数据获取单元701,用于获取集群历史运行数据;模型生成单元702,用于根据 集群历史运行数据进行训练建模,生成KNN分类模型;实时数据获取单元703,用于获取集群 实时运行数据;计算单元704,用于将实时数据作为输入,输入至KNN分类模型中计算生成预 测结果;判断单元705,用于判断预测结果是否处于亚健康状态,当预测结果处于亚健康状 态时,则生成预警信号进行报警;第二存储单元706,用于则将实时数据存储至所述历史数 据库;第二判断单元707,用于判断预测模型是否达到重新训练建模的训练间隔;重新建模 单元708,用于当预测模型达到重新训练建模的训练间隔,则重新获取集群历史运行数据进 行训练建模;重新读取单元709,用于循环读取实时数据进行预测结果的计算。

[0133] 由于本实施例中的各单元能够执行图4所示的方法,本实施例未详细描述的部分, 可参考对图4的相关说明。

[0134] 上述实施例公开一种集群亚健康预警系统,通过训练建模,将数据挖掘算法运用 到集群运行日志分析中,通过对历史数据训练建模,产生KNN分类模型,将实时运行数据作 为模型输入,预测集群的监控状况,可以对集群潜在风险进行预测且在异常发生之前,及时 通知运维人员进行相关处理,进而降低集群发生异常带来的重大损失。

[0135] 综上所述:本发明公开了一种集群亚健康预警方法及系统,该方法包括:获取集群 历史运行数据;根据集群历史运行数据进行训练建模,生成预测模型;获取集群实时运行数 据;将实时数据作为输入,输入至预测模型中计算生成预测结果;判断预测结果是否处于亚 健康状态,当预测结果处于亚健康状态时,则生成预警信号进行报警。本发明通过训练建 模,将数据挖掘算法运用到集群运行日志分析中,通过对历史数据训练建模,产生预测模 型,将实时运行数据作为模型输入,预测集群的健康状况,可以对集群潜在风险进行预测且 在异常发生之前,及时通知运维人员进行相关处理,进而降低集群发生异常带来的重大损 失。

[0136] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

[0137] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。 对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的 一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明 将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一 致的最宽的范围。

Claims (10)

1. 一种集群亚健康预警方法,其特征在于,包括: 获取集群历史运行数据; 根据所述集群历史运行数据进行训练建模,生成预测模型; 获取集群实时运行数据; 将所述实时数据作为输入,输入至所述预测模型中计算生成预测结果; 判断所述预测结果是否处于亚健康状态,当所述预测结果处于亚健康状态时,则生成 预警信号进行报警。
2. 根据权利要求1所述的方法,其特征在于,所述预测模型为正态分布模型和KNN分类 模型。
3. 根据权利要求2所述的方法,其特征在于,当所述预测模型为正态分布模型时,该方 法还包括: 判断所述实时数据是否存储到历史数据库中; 当所述实时数据需要存储到所述历史数据库中时,则将所述实时数据存储至所述历史 数据库。
4. 根据权利要求2所述的方法,其特征在于,当所述预测模型为KNN分类模型时,该方法 还包括: 将所述实时数据存储到历史数据库中。
5. 根据权利要求3或4所述的方法,其特征在于,该方法还包括: 判断所述预测模型是否达到重新训练建模的训练间隔; 当所述预测模型达到重新训练建模的训练间隔时,则重新获取集群历史运行数据进行 训练建模; 当所述预测模型未达到重新训练建模的训练间隔时,则循环读取实时数据进行预测结 果的计算。
6. -种集群亚健康预警系统,其特征在于,包括: 历史数据获取单元,用于获取集群历史运行数据; 模型生成单元,用于根据所述集群历史运行数据进行训练建模,生成预测模型; 实时数据获取单元,用于获取集群运行的实时数据; 计算单元,用于将所述实时数据作为输入,输入至所述预测模型中计算生成预测结果; 判断单元,用于判断所述预测结果是否处于亚健康状态,当所述预测结果处于亚健康 状态时,则生成预警信号进行报警。
7. 根据权利要求6所述的系统,其特征在于,所述预测模型为正态分布模型和KNN分类 模型。
8. 根据权利要求7所述的系统,其特征在于,当所述预测模型为正态分布模型时,该系 统还包括: 第一判断单元,用于判断所述实时数据是否存储到历史数据库中; 第一存储单元,用于当所述实时数据需要存储到所述历史数据库中时,则将所述实时 数据存储至所述历史数据库。
9. 根据权利要求7所述的系统,其特征在于,当所述预测模型为KNN分类模型时,该系统 还包括: 第二存储单元,用于当所述实时数据需要存储到所述历史数据库中时,则将所述实时 数据存储至所述历史数据库。
10.根据权利要求8或9所述的系统,其特征在于,该系统还包括: 第二判断单元,用于判断所述预测模型是否达到重新训练建模的训练间隔; 重新建模单元,用于当所述预测模型达到重新训练建模的训练间隔,则重新获取集群 历史运行数据进行训练建模; 重新读取单元,用于当所述预测模型未达到重新训练建模的训练间隔,则循环读取实 时数据进行预测结果的计算。
CN201610371512.8A 2016-05-30 2016-05-30 一种集群亚健康预警方法及系统 CN106095639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610371512.8A CN106095639A (zh) 2016-05-30 2016-05-30 一种集群亚健康预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610371512.8A CN106095639A (zh) 2016-05-30 2016-05-30 一种集群亚健康预警方法及系统

Publications (1)

Publication Number Publication Date
CN106095639A true CN106095639A (zh) 2016-11-09

Family

ID=57230451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610371512.8A CN106095639A (zh) 2016-05-30 2016-05-30 一种集群亚健康预警方法及系统

Country Status (1)

Country Link
CN (1) CN106095639A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886481A (zh) * 2017-02-28 2017-06-23 深圳市华傲数据技术有限公司 一种系统健康度静态分析预测方法及装置
CN106951359A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度检测分析方法及装置
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
CN107423205A (zh) * 2017-07-11 2017-12-01 北京明朝万达科技股份有限公司 一种用于数据防泄漏系统的系统故障预警方法及系统
CN107526666A (zh) * 2017-07-17 2017-12-29 阿里巴巴集团控股有限公司 基于深度学习的报警方法、系统、装置以及电子设备
CN107766204A (zh) * 2017-10-10 2018-03-06 曙光信息产业(北京)有限公司 一种检查集群健康状态的方法和系统
CN108039971A (zh) * 2017-12-18 2018-05-15 北京搜狐新媒体信息技术有限公司 一种告警方法及装置
CN108111363A (zh) * 2016-11-25 2018-06-01 厦门雅迅网络股份有限公司 一种分析车联网系统中通信链接是否异常的方法及装置
CN108388503A (zh) * 2018-02-13 2018-08-10 中体彩科技发展有限公司 数据库性能监控方法、系统、设备及计算机可读存储介质
CN109872509A (zh) * 2019-04-02 2019-06-11 西安邮电大学 基于数字孪生驱动的山体地质灾害监测与预警系统及方法
CN110572297A (zh) * 2019-08-09 2019-12-13 网宿科技股份有限公司 网络性能的评估方法、服务器及存储介质
US10810069B2 (en) * 2018-07-17 2020-10-20 Accenture Global Solutions Limited Data processing for component failure determination

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103178990A (zh) * 2011-12-20 2013-06-26 中国移动通信集团青海有限公司 一种网络设备性能监控方法及网络管理系统
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式系统中的性能异常预测方法及系统
CN105204971A (zh) * 2015-08-28 2015-12-30 浙江大学 一种基于朴素贝叶斯分类技术的动态监控间隔调整方法
US9336484B1 (en) * 2011-09-26 2016-05-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System and method for outlier detection via estimating clusters

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9336484B1 (en) * 2011-09-26 2016-05-10 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) System and method for outlier detection via estimating clusters
CN103178990A (zh) * 2011-12-20 2013-06-26 中国移动通信集团青海有限公司 一种网络设备性能监控方法及网络管理系统
CN104063747A (zh) * 2014-06-26 2014-09-24 上海交通大学 一种分布式系统中的性能异常预测方法及系统
CN105204971A (zh) * 2015-08-28 2015-12-30 浙江大学 一种基于朴素贝叶斯分类技术的动态监控间隔调整方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜占玮 杨永健 肖敏 白媛: "一种基于自适应高斯过程的基线计算算法", 《计算机科学》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108111363A (zh) * 2016-11-25 2018-06-01 厦门雅迅网络股份有限公司 一种分析车联网系统中通信链接是否异常的方法及装置
CN106886481A (zh) * 2017-02-28 2017-06-23 深圳市华傲数据技术有限公司 一种系统健康度静态分析预测方法及装置
CN106951984A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度动态分析预测方法及装置
CN106951359A (zh) * 2017-02-28 2017-07-14 深圳市华傲数据技术有限公司 一种系统健康度检测分析方法及装置
CN107423205A (zh) * 2017-07-11 2017-12-01 北京明朝万达科技股份有限公司 一种用于数据防泄漏系统的系统故障预警方法及系统
CN107526666A (zh) * 2017-07-17 2017-12-29 阿里巴巴集团控股有限公司 基于深度学习的报警方法、系统、装置以及电子设备
CN107766204A (zh) * 2017-10-10 2018-03-06 曙光信息产业(北京)有限公司 一种检查集群健康状态的方法和系统
CN108039971A (zh) * 2017-12-18 2018-05-15 北京搜狐新媒体信息技术有限公司 一种告警方法及装置
CN108388503A (zh) * 2018-02-13 2018-08-10 中体彩科技发展有限公司 数据库性能监控方法、系统、设备及计算机可读存储介质
US10810069B2 (en) * 2018-07-17 2020-10-20 Accenture Global Solutions Limited Data processing for component failure determination
CN109872509A (zh) * 2019-04-02 2019-06-11 西安邮电大学 基于数字孪生驱动的山体地质灾害监测与预警系统及方法
CN110572297A (zh) * 2019-08-09 2019-12-13 网宿科技股份有限公司 网络性能的评估方法、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN106054104B (zh) 一种基于决策树的智能电表故障实时预测方法
Zhao et al. Failure mode and effect analysis using MULTIMOORA method with continuous weighted entropy under interval-valued intuitionistic fuzzy environment
Böhm et al. Correlates of extinction risk in squamate reptiles: the relative importance of biology, geography, threat and range size
Angelos et al. Detection and identification of abnormalities in customer consumptions in power distribution systems
Openshaw Learning to live with errors in spatial databases
Harman et al. A theoretical and empirical study of search-based testing: Local, global, and hybrid search
US6622221B1 (en) Workload analyzer and optimizer integration
Sheu Dynamic relief-demand management for emergency logistics operations under large-scale disasters
CN103853106B (zh) 一种建筑能源供应设备的能耗预测参数优化方法
CN106897918A (zh) 一种混合式机器学习信用评分模型构建方法
CN100428142C (zh) 使用实时分区处理能力分析优化制造过程的系统和方法
CN104881783A (zh) 电子银行账户欺诈行为及风险检测方法与系统
Fragkias et al. Modeling urban growth in data-sparse environments: a new approach
Kocaguneli et al. How to find relevant data for effort estimation?
Carmona et al. Overview on evolutionary subgroup discovery: analysis of the suitability and potential of the search performed by evolutionary algorithms
CN103135009B (zh) 基于使用者回馈信息的电器侦测方法与系统
JP2013538543A (ja) Machine learning for power grids
Noon et al. Conceptual basis for designing an effectiveness monitoring program.
CN102130783B (zh) 神经网络的智能化告警监控方法
CN103176974B (zh) 优化数据库中访问路径的方法和装置
CN103745229A (zh) 一种基于svm的轨道交通故障诊断方法及系统
CN104699606A (zh) 一种基于隐马尔科夫模型的软件系统状态预测方法
WO2012164469A1 (en) A method for determining rules by providing data records in columnar data structures
CN101872441A (zh) 离散资源管理
CN102257520A (zh) 应用的性能分析

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109