CN104954154A

CN104954154A - 运维管理平台的监控及故障维护方法和系统

Info

Publication number: CN104954154A
Application number: CN201410112878.4A
Authority: CN
Inventors: 孟艳青
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: Beijing Shenzhou Taiyue Software Co Ltd
Priority date: 2014-03-24
Filing date: 2014-03-24
Publication date: 2015-09-30
Anticipated expiration: 2034-03-24
Also published as: CN104954154B

Abstract

本发明公开了一种运维管理平台的监控及故障维护方法和系统，按预置采样频率获取监控指标数据；监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据；对获取的监控指标数据进行实时处理生成针对各监控指标随时间实时变动的动态趋势线；对动态趋势线进行实时监控，根据动态趋势线与参考区间的关系确定运维管理平台处于正常状态或面向用户或业务视角系统异常状态；根据实时监控的结果进行系统故障管理和维护。可见，本发明实施例提供了一种简单高效的面向用户和业务视角的系统异常的鲁棒判断，充分弥补了基于基础架构之上的面向用户和业务视角的监控方案，大大提升了对运维系统提供全面有效的监控及故障管理能力。

Description

运维管理平台的监控及故障维护方法和系统

技术领域

本发明涉及运维管理技术领域，特别涉及一种运维管理平台的监控及故障维护方法和系统。

背景技术

各行各业对IT信息系统的应用广泛性和规模性越来越大，为了有效管理这些IT系统，都会根据自己的实际情况建立系统运维管理平台，以便系统在出现异常时，帮助运维管理人员快速、准确的定位系统存在的故障。

现有的运维管理平台在面向网络、主机、存储、操作系统、中间件、应用等基础架构方面的监控管理内容和方法已经比较完善，但基于基础架构之上的面向用户和业务视角的监控内容和手段还十分有限。具体而言，类似于系统业务交易量、接口请求状况等该类基于基础架构之上的面向用户和业务视角的内容，目前还缺乏较为有效的监控方案。

而所谓运维管理平台，最核心的内容是基于用户、管理人员、运维人员等多方共同参与，对其网络系统功能进行应用及运维管理。可见，基于基础架构之上的面向用户和业务视角内容，与用户使用及用户体验关系最为密切，也是非常重要，需要密切监控的。但是，由于目前没有较为有效的监控手段，不能很好的在该类内容出现故障时及时响应，或者由于不能及时在故障消除时进行有效恢复，往往会造成运维事故，尤其对于一些大的网络产品，影响较为严重。因此，迫切需要一种针对运维管理平台基于基础架构之上的面向用户和业务视角方面的监控解决方案，以对运维系统提供全面有效的监控能力。

发明内容

鉴于上述存在的弊端，本发明实施例提供一种运维管理平台的监控及故障维护方法和系统，以实现面向用户和业务视角的系统异常或异常恢复的鲁棒判断方案。

本发明实施例采用了如下技术方案：

本发明一个实施例提供了一种运维管理平台的监控及故障维护方法，所述方法包括：

按预置采样频率获取所述运维管理平台的监控指标数据；所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据；

对获取的所述监控指标数据进行实时处理，生成针对各监控指标随时间实时变动的动态趋势线；

对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态；所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到；

根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。

根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间的方法包括：

按预置采样频率获取所述运维管理平台的历史监控指标数据，并添加到监控指标数据集中；

对所述监控指标数据集中的历史监控指标数据进行分析统计，将各监控指标数据按同一采样点进行统计，并计算同一采样点的平均值，根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线；

以所述动态趋势基线为基础，上浮第一比例得到参考区间动态趋势上限，下浮第二比例得到参考区间动态趋势下限，所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。

对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态包括：

将所述动态趋势线与参考区间进行比对监控，若所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值，则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态；若所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值，则确定该部分为面向用户或业务视角的系统正常状态。

所述根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护还包括：

根据动态趋势线与参考区间的关系，确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。

所述根据动态趋势线与参考区间的关系，确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态包括：

将所述动态趋势线与参考区间进行比对监控，若面向用户或业务视角的系统异常状态之后，所述动态趋势线恢复至所述参考区间内连续包含的采样点大于或等于第二门限值，则确定处于面向用户或业务视角的系统异常恢复状态。

另外，本发明实施例还提供了一种运维管理平台的监控及故障维护系统，所述系统包括：

监控数据采集模块，用于按预置采样频率获取所述运维管理平台的监控指标数据；所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据；

实时处理模块，用于对获取的所述监控指标数据进行实时处理，生成针对各监控指标随时间实时变动的动态趋势线；

异常监控模块，用于对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态；所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到；

故障管理模块，用于根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。

所述系统还包括参考区间计算模块，用于根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间；

所述参考区间计算模块包括：

历史数据采集单元，用于按预置采样频率获取所述运维管理平台的历史监控指标数据，并添加到监控指标数据集中；

统计处理单元，用于对所述监控指标数据集中的历史监控指标数据进行分析统计，将各监控指标数据按同一采样点进行统计，并计算同一采样点的平均值，根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线；

参考区间确定单元，用于以所述动态趋势基线为基础，上浮第一比例得到参考区间动态趋势上限，下浮第二比例得到参考区间动态趋势下限，所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。

所述异常监控模块包括：

对比单元，用于将所述动态趋势线与参考区间进行比对监控；

异常判断单元，用于当所述对比单元的比对结果为所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值，则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态；

正常判断单元，用于当所述对比单元的比对结果为所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值，则确定该部分为面向用户或业务视角的系统正常状态。

所述故障管理模块还包括：

异常恢复判断单元，用于根据动态趋势线与参考区间的关系，确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。

所述异常恢复判断单元具体用于：

本发明实施例提供的一种运维管理平台的监控及故障维护方法和系统，按预置采样频率获取所述运维管理平台的监控指标数据；所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据；对获取的所述监控指标数据进行实时处理，生成针对各监控指标随时间实时变动的动态趋势线；对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态；所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到；根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。可见，本发明实施例的运维管理平台的监控及故障维护方法和系统，提供了一种简单、高效的面向用户和业务视角的系统异常的鲁棒判断，充分弥补了基于基础架构之上的面向用户和业务视角的监控方案，大大提升了对运维系统提供全面有效的监控及故障管理能力。

附图说明

图1为本发明实施例提供的一种运维管理平台的监控及故障维护方法流程图；

图2为本发明实施例提供的一种IT信息系统异常或异常恢复的鲁棒判断方法流程图；

图3为本发明实施例提供的通过系统异常或异常恢复的鲁棒判断方法绘制的效果视图；

图4为本发明实施例还提供了一种运维管理平台的监控及故障维护系统结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

基于基础架构之上的面向用户和业务视角内容，与用户使用及用户体验关系最为密切，也是非常重要，需要密切监控的。但是，由于目前没有较为有效的监控手段，不能很好的在该类内容出现故障时及时响应，或者由于不能及时在故障消除时进行有效恢复，往往会造成运维事故，尤其对于一些大的网络产品，影响较为严重。因此，迫切需要一种针对运维管理平台基于基础架构之上的面向用户和业务视角方面的监控解决方案，以对运维系统提供全面有效的监控能力。基于此，本发明实施例为系统(尤其是IT系统)的运维管理领域面向用户或业务视角提供一种系统异常的鲁棒判断解决方案，作为对运维管理领域面向用户和业务层面管理内容的内容与手段的一个补充。

整体思路：站在用户角度，分析并设定影响系统稳定运行的关键指标集，针对指标集中的每个关键指标按照某种计算规则，生成随时间变化的实时动态趋势线，接着以对应指标的历史数据作为样本空间，根据某种计算规则设定参考基线，然后根据经验设定上、下浮动比例，计算并绘制出关键指标数据上、下正常变化的区间，依此区间为参考，通过设定系统异常规则，来判断系统是否处于异常或者从异常状态恢复到正常状态。

参见图1，本发明实施例提供一种运维管理平台的监控及故障维护方法，具体包括如下步骤：

S101：按预置采样频率获取所述运维管理平台的监控指标数据；所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据。

实际应用中，影响运维管理平台稳定运行的面向用户或业务视角的指标数据，比如可以是系统的业务交易量、接口请求量等等。

预置采样频率比如可以是每3分钟采样一次，等等。可以根据所要监控的监控指标数据以及实际业务情况确定。

S102：对获取的所述监控指标数据进行实时处理，生成针对各监控指标随时间实时变动的动态趋势线。

具体的，对获取的监控指标数据进行实时处理，根据时间顺序生成各监控指标数据各采样点数值构成的随时间实时变动的动态趋势线。

S103：对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态；所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到。

其中，根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间的方法包括：

作为一个优选实施例，对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态包括：

S104：根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。

优选的，本发明实施例中，所述根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护还包括：

本发明实施例提供的一种运维管理平台的监控及故障维护方法，按预置采样频率获取所述运维管理平台的监控指标数据；所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据；对获取的所述监控指标数据进行实时处理，生成针对各监控指标随时间实时变动的动态趋势线；对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态；所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到；根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。可见，本发明实施例的运维管理平台的监控及故障维护方法和系统，提供了一种简单、高效的面向用户和业务视角的系统异常的鲁棒判断，充分弥补了基于基础架构之上的面向用户和业务视角的监控方案，大大提升了对运维系统提供全面有效的监控及故障管理能力。

需要说明的是，此方案之所以称系统的异常或异常恢复的判断方法为“鲁棒”，是因为这种判断方法在通常情况下存在一定的参考价值，但现实也不排除特例，比如业务交易量，也许在某个时间段内，相比历史平均值确实发生了突变，导致很少或者很多或者没有，但实际上系统处于正常运行状态。从实际情况来看，这种鲁棒判断是最有实际应用价值的，因为考虑到面向用户或业务视角的实际情况，在绝大部分情况下都是处于一种规律的状态，而上述提到的特例仅仅为极少数情况，而为了极少数情况而增加算法的复杂度就牺牲太大了，而本发明实施例提供的鲁棒算法，简单高效，在绝大部分情况下都是有参考价值的。

参见图2，本发明实施例提供的一种IT信息系统异常或异常恢复的鲁棒判断方法，具体包括：

步骤1：站在用户角度，分析并设定影响IT信息系统稳定运行的关键指标集合，如系统的业务交易量、接口请求量等。

这里关键指标即为上述监控指标数据。

步骤2：针对每一个影响系统稳定运行的关键指标设定某种计算规则，如按照3分钟一个采样点的频率统计每3分钟接口请求总量。

步骤3：基于步骤2设定的计算规则，将采集的指标数据进行存储、处理，并生成随时间实时变化的动态趋势线。

步骤4：基于步骤3所存储的关键指标历史数据作为计算的样本空间，依据某种计算规则，如接口请求量同比历史10天同一采集点的平均值，生成参考比对基线。

步骤5：根据经验，针对每一个关键指标设定可上、下浮动的比例参考值，如接口请求量上浮比例为50%、下浮比例为30%等。

步骤6：在步骤4和步骤5的基础上，可绘制出每一个关键指标上、下可浮动的变化区间。

步骤7：以步骤6所绘制的指标变化浮动区间为参考，可设定规则，作为系统异常或异常恢复的鲁棒判断方法，如某个指标的实时变化动态趋势线超越上浮区间连续9分钟（或连续3个采样点）或低于下浮区间连续9分钟（或连续3个采样点），则认为系统处于异常状态；如某个指标的实时变化动态趋势线恢复到上浮区间内连续15分钟（或连续5个采样点）或下浮区间内连续15分钟（或连续5个采样点），则认为系统从异常状态恢复。

参见图3，示出了通过系统异常或异常恢复的鲁棒判断方法绘制的效果视图，通过该效果视图，我们可以清晰的展示系统异常区间和系统从异常恢复正常的区间。

具体说明如下：

（1）选择影响IT信息系统稳定运行的关键指标集合中的某一个指标，按照设定的计算规则动态生成类似图3中的该指标实时变化趋势线。

（2）以该指标的历史数据作为计算样本空间，依据某种计算规则，生成类似图3中的参考比对基线。

（3）基于参考比对基线，设定上、下浮动比例值X%、Y%，绘制类似图3中的上浮临界线、下浮临界线。

（4）这样参考比对基线与上浮临界线形成上浮区间，参考比对基线与下浮临界线形成下浮区间。

（5）以上浮区间和下浮区间为参考，设定系统异常判断规则，如该指标实时变化趋势线（即D与E之间的趋势线）超越类似图3中的上浮区间连续9分钟（或连续3个采样点）或实时变化趋势线（即A与B之间的趋势线）低于类似图3中的下浮区间连续9分钟（或连续3个采样点），则认为系统处于异常状态；如该指标的实时变化趋势线（即E与F之间的趋势线）恢复到上浮区间内连续15分钟（或连续5个采样点）或实时变化趋势线（即B与C之间的趋势线）恢复到下浮区间内连续15分钟（或连续5个采样点），则认为系统从异常状态恢复。

本技术方案通过这种站在用户角度，分析并设定影响系统稳定运行的关键指标集，针对指标集中的每个关键指标按照某种计算规则，生成随时间变化的实时动态趋势线，接着以对应指标的历史数据作为样本空间，根据某种计算规则设定参考基线，然后根据经验设定上、下浮动比例，计算并绘制出关键指标数据上、下正常变化的区间，依此区间为参考，设定系统异常规则，来判断系统是否处于异常或者从异常状态恢复到正常状态的方法，可以作为对运维管理领域面向用户和业务层面管理内容与手段的一个补充。

参见图4，本发明实施例还提供了一种运维管理平台的监控及故障维护系统，所述系统包括：

监控数据采集模块401，用于按预置采样频率获取所述运维管理平台的监控指标数据；所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据。

实时处理模块402，用于对获取的所述监控指标数据进行实时处理，生成针对各监控指标随时间实时变动的动态趋势线。

异常监控模块403，用于对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态；所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到。

故障管理模块404，用于根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。

其中，所述系统还包括参考区间计算模块，用于根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间。

具体的，所述参考区间计算模块包括：

和，参考区间确定单元，用于以所述动态趋势基线为基础，上浮第一比例得到参考区间动态趋势上限，下浮第二比例得到参考区间动态趋势下限，所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。

优选的，所述异常监控模块包括：

和，正常判断单元，用于当所述对比单元的比对结果为所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值，则确定该部分为面向用户或业务视角的系统正常状态。

进一步的，所述故障管理模块还包括：

具体的，所述异常恢复判断单元具体用于：

需要说明的是，本发明系统实施例中的各个模块或者单元的工作原理和处理过程可以参见上述图1-图3所述方法实施例中的相关描述，此处不再赘述。

本发明实施例提供的一种运维管理平台的监控及故障维护系统，按预置采样频率获取所述运维管理平台的监控指标数据；所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据；对获取的所述监控指标数据进行实时处理，生成针对各监控指标随时间实时变动的动态趋势线；对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态；所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到；根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。可见，本发明实施例的运维管理平台的监控及故障维护方法和系统，提供了一种简单、高效的面向用户和业务视角的系统异常的鲁棒判断，充分弥补了基于基础架构之上的面向用户和业务视角的监控方案，大大提升了对运维系统提供全面有效的监控及故障管理能力。

为了便于清楚描述本发明实施例的技术方案，在发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，包括如下步骤：（方法的步骤），所述的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种运维管理平台的监控及故障维护方法，其特征在于，所述方法包括：

2.根据权利要求1所述的运维管理平台的监控及故障维护方法，其特征在于，根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间的方法包括：

3.根据权利要求1所述的运维管理平台的监控及故障维护方法，其特征在于，对所述动态趋势线进行实时监控，根据动态趋势线与参考区间的关系，确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态包括：

4.根据权利要求1所述的运维管理平台的监控及故障维护方法，其特征在于，所述根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护还包括：

5.根据权利要求4所述的运维管理平台的监控及故障维护方法，其特征在于，所述根据动态趋势线与参考区间的关系，确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态包括：

6.一种运维管理平台的监控及故障维护系统，其特征在于，所述系统包括：

7.根据权利要求6所述的运维管理平台的监控及故障维护系统，其特征在于，所述系统还包括参考区间计算模块，用于根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间；

所述参考区间计算模块包括：

8.根据权利要求6所述的运维管理平台的监控及故障维护系统，其特征在于，所述异常监控模块包括：

9.根据权利要求6所述的运维管理平台的监控及故障维护系统，其特征在于，所述故障管理模块还包括：

10.根据权利要求9所述的运维管理平台的监控及故障维护系统，其特征在于，所述异常恢复判断单元具体用于：