CN104954154A - 运维管理平台的监控及故障维护方法和系统 - Google Patents

运维管理平台的监控及故障维护方法和系统 Download PDF

Info

Publication number
CN104954154A
CN104954154A CN201410112878.4A CN201410112878A CN104954154A CN 104954154 A CN104954154 A CN 104954154A CN 201410112878 A CN201410112878 A CN 201410112878A CN 104954154 A CN104954154 A CN 104954154A
Authority
CN
China
Prior art keywords
reference interval
dynamic trend
management platform
operation management
index data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410112878.4A
Other languages
English (en)
Other versions
CN104954154B (zh
Inventor
孟艳青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenzhou Taiyue Software Co Ltd
Original Assignee
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Taiyue Software Co Ltd filed Critical Beijing Shenzhou Taiyue Software Co Ltd
Priority to CN201410112878.4A priority Critical patent/CN104954154B/zh
Publication of CN104954154A publication Critical patent/CN104954154A/zh
Application granted granted Critical
Publication of CN104954154B publication Critical patent/CN104954154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种运维管理平台的监控及故障维护方法和系统,按预置采样频率获取监控指标数据;监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;对获取的监控指标数据进行实时处理生成针对各监控指标随时间实时变动的动态趋势线;对动态趋势线进行实时监控,根据动态趋势线与参考区间的关系确定运维管理平台处于正常状态或面向用户或业务视角系统异常状态;根据实时监控的结果进行系统故障管理和维护。可见,本发明实施例提供了一种简单高效的面向用户和业务视角的系统异常的鲁棒判断,充分弥补了基于基础架构之上的面向用户和业务视角的监控方案,大大提升了对运维系统提供全面有效的监控及故障管理能力。

Description

运维管理平台的监控及故障维护方法和系统
技术领域
本发明涉及运维管理技术领域,特别涉及一种运维管理平台的监控及故障维护方法和系统。
背景技术
各行各业对IT信息系统的应用广泛性和规模性越来越大,为了有效管理这些IT系统,都会根据自己的实际情况建立系统运维管理平台,以便系统在出现异常时,帮助运维管理人员快速、准确的定位系统存在的故障。
现有的运维管理平台在面向网络、主机、存储、操作系统、中间件、应用等基础架构方面的监控管理内容和方法已经比较完善,但基于基础架构之上的面向用户和业务视角的监控内容和手段还十分有限。具体而言,类似于系统业务交易量、接口请求状况等该类基于基础架构之上的面向用户和业务视角的内容,目前还缺乏较为有效的监控方案。
而所谓运维管理平台,最核心的内容是基于用户、管理人员、运维人员等多方共同参与,对其网络系统功能进行应用及运维管理。可见,基于基础架构之上的面向用户和业务视角内容,与用户使用及用户体验关系最为密切,也是非常重要,需要密切监控的。但是,由于目前没有较为有效的监控手段,不能很好的在该类内容出现故障时及时响应,或者由于不能及时在故障消除时进行有效恢复,往往会造成运维事故,尤其对于一些大的网络产品,影响较为严重。因此,迫切需要一种针对运维管理平台基于基础架构之上的面向用户和业务视角方面的监控解决方案,以对运维系统提供全面有效的监控能力。
发明内容
鉴于上述存在的弊端,本发明实施例提供一种运维管理平台的监控及故障维护方法和系统,以实现面向用户和业务视角的系统异常或异常恢复的鲁棒判断方案。
本发明实施例采用了如下技术方案:
本发明一个实施例提供了一种运维管理平台的监控及故障维护方法,所述方法包括:
按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;
对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线;
对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到;
根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。
根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间的方法包括:
按预置采样频率获取所述运维管理平台的历史监控指标数据,并添加到监控指标数据集中;
对所述监控指标数据集中的历史监控指标数据进行分析统计,将各监控指标数据按同一采样点进行统计,并计算同一采样点的平均值,根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线;
以所述动态趋势基线为基础,上浮第一比例得到参考区间动态趋势上限,下浮第二比例得到参考区间动态趋势下限,所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。
对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态包括:
将所述动态趋势线与参考区间进行比对监控,若所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值,则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态;若所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值,则确定该部分为面向用户或业务视角的系统正常状态。
所述根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护还包括:
根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。
所述根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态包括:
将所述动态趋势线与参考区间进行比对监控,若面向用户或业务视角的系统异常状态之后,所述动态趋势线恢复至所述参考区间内连续包含的采样点大于或等于第二门限值,则确定处于面向用户或业务视角的系统异常恢复状态。
另外,本发明实施例还提供了一种运维管理平台的监控及故障维护系统,所述系统包括:
监控数据采集模块,用于按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;
实时处理模块,用于对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线;
异常监控模块,用于对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到;
故障管理模块,用于根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。
所述系统还包括参考区间计算模块,用于根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间;
所述参考区间计算模块包括:
历史数据采集单元,用于按预置采样频率获取所述运维管理平台的历史监控指标数据,并添加到监控指标数据集中;
统计处理单元,用于对所述监控指标数据集中的历史监控指标数据进行分析统计,将各监控指标数据按同一采样点进行统计,并计算同一采样点的平均值,根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线;
参考区间确定单元,用于以所述动态趋势基线为基础,上浮第一比例得到参考区间动态趋势上限,下浮第二比例得到参考区间动态趋势下限,所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。
所述异常监控模块包括:
对比单元,用于将所述动态趋势线与参考区间进行比对监控;
异常判断单元,用于当所述对比单元的比对结果为所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值,则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态;
正常判断单元,用于当所述对比单元的比对结果为所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值,则确定该部分为面向用户或业务视角的系统正常状态。
所述故障管理模块还包括:
异常恢复判断单元,用于根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。
所述异常恢复判断单元具体用于:
将所述动态趋势线与参考区间进行比对监控,若面向用户或业务视角的系统异常状态之后,所述动态趋势线恢复至所述参考区间内连续包含的采样点大于或等于第二门限值,则确定处于面向用户或业务视角的系统异常恢复状态。
本发明实施例提供的一种运维管理平台的监控及故障维护方法和系统,按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线;对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到;根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。可见,本发明实施例的运维管理平台的监控及故障维护方法和系统,提供了一种简单、高效的面向用户和业务视角的系统异常的鲁棒判断,充分弥补了基于基础架构之上的面向用户和业务视角的监控方案,大大提升了对运维系统提供全面有效的监控及故障管理能力。
附图说明
图1为本发明实施例提供的一种运维管理平台的监控及故障维护方法流程图;
图2为本发明实施例提供的一种IT信息系统异常或异常恢复的鲁棒判断方法流程图;
图3为本发明实施例提供的通过系统异常或异常恢复的鲁棒判断方法绘制的效果视图;
图4为本发明实施例还提供了一种运维管理平台的监控及故障维护系统结构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
基于基础架构之上的面向用户和业务视角内容,与用户使用及用户体验关系最为密切,也是非常重要,需要密切监控的。但是,由于目前没有较为有效的监控手段,不能很好的在该类内容出现故障时及时响应,或者由于不能及时在故障消除时进行有效恢复,往往会造成运维事故,尤其对于一些大的网络产品,影响较为严重。因此,迫切需要一种针对运维管理平台基于基础架构之上的面向用户和业务视角方面的监控解决方案,以对运维系统提供全面有效的监控能力。基于此,本发明实施例为系统(尤其是IT系统)的运维管理领域面向用户或业务视角提供一种系统异常的鲁棒判断解决方案,作为对运维管理领域面向用户和业务层面管理内容的内容与手段的一个补充。
整体思路:站在用户角度,分析并设定影响系统稳定运行的关键指标集,针对指标集中的每个关键指标按照某种计算规则,生成随时间变化的实时动态趋势线,接着以对应指标的历史数据作为样本空间,根据某种计算规则设定参考基线,然后根据经验设定上、下浮动比例,计算并绘制出关键指标数据上、下正常变化的区间,依此区间为参考,通过设定系统异常规则,来判断系统是否处于异常或者从异常状态恢复到正常状态。
参见图1,本发明实施例提供一种运维管理平台的监控及故障维护方法,具体包括如下步骤:
S101:按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据。
实际应用中,影响运维管理平台稳定运行的面向用户或业务视角的指标数据,比如可以是系统的业务交易量、接口请求量等等。
预置采样频率比如可以是每3分钟采样一次,等等。可以根据所要监控的监控指标数据以及实际业务情况确定。
S102:对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线。
具体的,对获取的监控指标数据进行实时处理,根据时间顺序生成各监控指标数据各采样点数值构成的随时间实时变动的动态趋势线。
S103:对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到。
其中,根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间的方法包括:
按预置采样频率获取所述运维管理平台的历史监控指标数据,并添加到监控指标数据集中;
对所述监控指标数据集中的历史监控指标数据进行分析统计,将各监控指标数据按同一采样点进行统计,并计算同一采样点的平均值,根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线;
以所述动态趋势基线为基础,上浮第一比例得到参考区间动态趋势上限,下浮第二比例得到参考区间动态趋势下限,所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。
作为一个优选实施例,对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态包括:
将所述动态趋势线与参考区间进行比对监控,若所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值,则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态;若所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值,则确定该部分为面向用户或业务视角的系统正常状态。
S104:根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。
优选的,本发明实施例中,所述根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护还包括:
根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。
所述根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态包括:
将所述动态趋势线与参考区间进行比对监控,若面向用户或业务视角的系统异常状态之后,所述动态趋势线恢复至所述参考区间内连续包含的采样点大于或等于第二门限值,则确定处于面向用户或业务视角的系统异常恢复状态。
本发明实施例提供的一种运维管理平台的监控及故障维护方法,按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线;对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到;根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。可见,本发明实施例的运维管理平台的监控及故障维护方法和系统,提供了一种简单、高效的面向用户和业务视角的系统异常的鲁棒判断,充分弥补了基于基础架构之上的面向用户和业务视角的监控方案,大大提升了对运维系统提供全面有效的监控及故障管理能力。
需要说明的是,此方案之所以称系统的异常或异常恢复的判断方法为“鲁棒”,是因为这种判断方法在通常情况下存在一定的参考价值,但现实也不排除特例,比如业务交易量,也许在某个时间段内,相比历史平均值确实发生了突变,导致很少或者很多或者没有,但实际上系统处于正常运行状态。从实际情况来看,这种鲁棒判断是最有实际应用价值的,因为考虑到面向用户或业务视角的实际情况,在绝大部分情况下都是处于一种规律的状态,而上述提到的特例仅仅为极少数情况,而为了极少数情况而增加算法的复杂度就牺牲太大了,而本发明实施例提供的鲁棒算法,简单高效,在绝大部分情况下都是有参考价值的。
参见图2,本发明实施例提供的一种IT信息系统异常或异常恢复的鲁棒判断方法,具体包括:
步骤1:站在用户角度,分析并设定影响IT信息系统稳定运行的关键指标集合,如系统的业务交易量、接口请求量等。
这里关键指标即为上述监控指标数据。
步骤2:针对每一个影响系统稳定运行的关键指标设定某种计算规则,如按照3分钟一个采样点的频率统计每3分钟接口请求总量。
步骤3:基于步骤2设定的计算规则,将采集的指标数据进行存储、处理,并生成随时间实时变化的动态趋势线。
步骤4:基于步骤3所存储的关键指标历史数据作为计算的样本空间,依据某种计算规则,如接口请求量同比历史10天同一采集点的平均值,生成参考比对基线。
步骤5:根据经验,针对每一个关键指标设定可上、下浮动的比例参考值,如接口请求量上浮比例为50%、下浮比例为30%等。
步骤6:在步骤4和步骤5的基础上,可绘制出每一个关键指标上、下可浮动的变化区间。
步骤7:以步骤6所绘制的指标变化浮动区间为参考,可设定规则,作为系统异常或异常恢复的鲁棒判断方法,如某个指标的实时变化动态趋势线超越上浮区间连续9分钟(或连续3个采样点)或低于下浮区间连续9分钟(或连续3个采样点),则认为系统处于异常状态;如某个指标的实时变化动态趋势线恢复到上浮区间内连续15分钟(或连续5个采样点)或下浮区间内连续15分钟(或连续5个采样点),则认为系统从异常状态恢复。
参见图3,示出了通过系统异常或异常恢复的鲁棒判断方法绘制的效果视图,通过该效果视图,我们可以清晰的展示系统异常区间和系统从异常恢复正常的区间。
具体说明如下:
(1)选择影响IT信息系统稳定运行的关键指标集合中的某一个指标,按照设定的计算规则动态生成类似图3中的该指标实时变化趋势线。
(2)以该指标的历史数据作为计算样本空间,依据某种计算规则,生成类似图3中的参考比对基线。
(3)基于参考比对基线,设定上、下浮动比例值X%、Y%,绘制类似图3中的上浮临界线、下浮临界线。
(4)这样参考比对基线与上浮临界线形成上浮区间,参考比对基线与下浮临界线形成下浮区间。
(5)以上浮区间和下浮区间为参考,设定系统异常判断规则,如该指标实时变化趋势线(即D与E之间的趋势线)超越类似图3中的上浮区间连续9分钟(或连续3个采样点)或实时变化趋势线(即A与B之间的趋势线)低于类似图3中的下浮区间连续9分钟(或连续3个采样点),则认为系统处于异常状态;如该指标的实时变化趋势线(即E与F之间的趋势线)恢复到上浮区间内连续15分钟(或连续5个采样点)或实时变化趋势线(即B与C之间的趋势线)恢复到下浮区间内连续15分钟(或连续5个采样点),则认为系统从异常状态恢复。
本技术方案通过这种站在用户角度,分析并设定影响系统稳定运行的关键指标集,针对指标集中的每个关键指标按照某种计算规则,生成随时间变化的实时动态趋势线,接着以对应指标的历史数据作为样本空间,根据某种计算规则设定参考基线,然后根据经验设定上、下浮动比例,计算并绘制出关键指标数据上、下正常变化的区间,依此区间为参考,设定系统异常规则,来判断系统是否处于异常或者从异常状态恢复到正常状态的方法,可以作为对运维管理领域面向用户和业务层面管理内容与手段的一个补充。
参见图4,本发明实施例还提供了一种运维管理平台的监控及故障维护系统,所述系统包括:
监控数据采集模块401,用于按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据。
实时处理模块402,用于对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线。
异常监控模块403,用于对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到。
故障管理模块404,用于根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。
其中,所述系统还包括参考区间计算模块,用于根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间。
具体的,所述参考区间计算模块包括:
历史数据采集单元,用于按预置采样频率获取所述运维管理平台的历史监控指标数据,并添加到监控指标数据集中;
统计处理单元,用于对所述监控指标数据集中的历史监控指标数据进行分析统计,将各监控指标数据按同一采样点进行统计,并计算同一采样点的平均值,根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线;
和,参考区间确定单元,用于以所述动态趋势基线为基础,上浮第一比例得到参考区间动态趋势上限,下浮第二比例得到参考区间动态趋势下限,所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。
优选的,所述异常监控模块包括:
对比单元,用于将所述动态趋势线与参考区间进行比对监控;
异常判断单元,用于当所述对比单元的比对结果为所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值,则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态;
和,正常判断单元,用于当所述对比单元的比对结果为所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值,则确定该部分为面向用户或业务视角的系统正常状态。
进一步的,所述故障管理模块还包括:
异常恢复判断单元,用于根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。
具体的,所述异常恢复判断单元具体用于:
将所述动态趋势线与参考区间进行比对监控,若面向用户或业务视角的系统异常状态之后,所述动态趋势线恢复至所述参考区间内连续包含的采样点大于或等于第二门限值,则确定处于面向用户或业务视角的系统异常恢复状态。
需要说明的是,本发明系统实施例中的各个模块或者单元的工作原理和处理过程可以参见上述图1-图3所述方法实施例中的相关描述,此处不再赘述。
本发明实施例提供的一种运维管理平台的监控及故障维护系统,按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线;对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到;根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。可见,本发明实施例的运维管理平台的监控及故障维护方法和系统,提供了一种简单、高效的面向用户和业务视角的系统异常的鲁棒判断,充分弥补了基于基础架构之上的面向用户和业务视角的监控方案,大大提升了对运维系统提供全面有效的监控及故障管理能力。
为了便于清楚描述本发明实施例的技术方案,在发明的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:(方法的步骤),所述的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种运维管理平台的监控及故障维护方法,其特征在于,所述方法包括:
按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;
对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线;
对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到;
根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。
2.根据权利要求1所述的运维管理平台的监控及故障维护方法,其特征在于,根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间的方法包括:
按预置采样频率获取所述运维管理平台的历史监控指标数据,并添加到监控指标数据集中;
对所述监控指标数据集中的历史监控指标数据进行分析统计,将各监控指标数据按同一采样点进行统计,并计算同一采样点的平均值,根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线;
以所述动态趋势基线为基础,上浮第一比例得到参考区间动态趋势上限,下浮第二比例得到参考区间动态趋势下限,所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。
3.根据权利要求1所述的运维管理平台的监控及故障维护方法,其特征在于,对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态包括:
将所述动态趋势线与参考区间进行比对监控,若所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值,则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态;若所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值,则确定该部分为面向用户或业务视角的系统正常状态。
4.根据权利要求1所述的运维管理平台的监控及故障维护方法,其特征在于,所述根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护还包括:
根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。
5.根据权利要求4所述的运维管理平台的监控及故障维护方法,其特征在于,所述根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态包括:
将所述动态趋势线与参考区间进行比对监控,若面向用户或业务视角的系统异常状态之后,所述动态趋势线恢复至所述参考区间内连续包含的采样点大于或等于第二门限值,则确定处于面向用户或业务视角的系统异常恢复状态。
6.一种运维管理平台的监控及故障维护系统,其特征在于,所述系统包括:
监控数据采集模块,用于按预置采样频率获取所述运维管理平台的监控指标数据;所述监控指标数据为影响所述运维管理平台稳定运行的面向用户或业务视角的指标数据;
实时处理模块,用于对获取的所述监控指标数据进行实时处理,生成针对各监控指标随时间实时变动的动态趋势线;
异常监控模块,用于对所述动态趋势线进行实时监控,根据动态趋势线与参考区间的关系,确定所述运维管理平台处于正常状态或面向用户或业务视角系统异常状态;所述参考区间为根据按预置采样频率获取所述运维管理平台的历史监控指标数据计算得到;
故障管理模块,用于根据对所述动态趋势线进行实时监控的结果进行系统故障管理和维护。
7.根据权利要求6所述的运维管理平台的监控及故障维护系统,其特征在于,所述系统还包括参考区间计算模块,用于根据按预置采样频率获取所述运维管理平台中的历史监控指标数据计算得到参考区间;
所述参考区间计算模块包括:
历史数据采集单元,用于按预置采样频率获取所述运维管理平台的历史监控指标数据,并添加到监控指标数据集中;
统计处理单元,用于对所述监控指标数据集中的历史监控指标数据进行分析统计,将各监控指标数据按同一采样点进行统计,并计算同一采样点的平均值,根据时间顺序生成各监控指标数据各采样点平均值构成的随时间实时变动的动态趋势基线;
参考区间确定单元,用于以所述动态趋势基线为基础,上浮第一比例得到参考区间动态趋势上限,下浮第二比例得到参考区间动态趋势下限,所述参考区间动态趋势上限与参考区间动态趋势下限之间的区间确定为参考区间。
8.根据权利要求6所述的运维管理平台的监控及故障维护系统,其特征在于,所述异常监控模块包括:
对比单元,用于将所述动态趋势线与参考区间进行比对监控;
异常判断单元,用于当所述对比单元的比对结果为所述动态趋势线超出所述参考区间的部分中所包含的采样点大于或等于第一门限值,则确定上述超出参考区间的部分为面向用户或业务视角的系统异常状态;
正常判断单元,用于当所述对比单元的比对结果为所述动态趋势线未超出所述参考区间或超出所述参考区间的部分中所包含的采样点小于所述第一门限值,则确定该部分为面向用户或业务视角的系统正常状态。
9.根据权利要求6所述的运维管理平台的监控及故障维护系统,其特征在于,所述故障管理模块还包括:
异常恢复判断单元,用于根据动态趋势线与参考区间的关系,确定所述运维管理平台是否处于面向用户或业务视角系统异常恢复状态。
10.根据权利要求9所述的运维管理平台的监控及故障维护系统,其特征在于,所述异常恢复判断单元具体用于:
将所述动态趋势线与参考区间进行比对监控,若面向用户或业务视角的系统异常状态之后,所述动态趋势线恢复至所述参考区间内连续包含的采样点大于或等于第二门限值,则确定处于面向用户或业务视角的系统异常恢复状态。
CN201410112878.4A 2014-03-24 2014-03-24 运维管理平台的监控及故障维护方法和系统 Active CN104954154B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410112878.4A CN104954154B (zh) 2014-03-24 2014-03-24 运维管理平台的监控及故障维护方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410112878.4A CN104954154B (zh) 2014-03-24 2014-03-24 运维管理平台的监控及故障维护方法和系统

Publications (2)

Publication Number Publication Date
CN104954154A true CN104954154A (zh) 2015-09-30
CN104954154B CN104954154B (zh) 2018-09-28

Family

ID=54168531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410112878.4A Active CN104954154B (zh) 2014-03-24 2014-03-24 运维管理平台的监控及故障维护方法和系统

Country Status (1)

Country Link
CN (1) CN104954154B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589785A (zh) * 2015-12-08 2016-05-18 中国银联股份有限公司 监控存储设备的io性能的装置和方法
CN105610647A (zh) * 2015-12-30 2016-05-25 华为技术有限公司 一种探测业务异常的方法和服务器
CN105678388A (zh) * 2016-01-08 2016-06-15 上海北塔软件股份有限公司 一种基于基线的运维管理健康分析方法
CN106547848A (zh) * 2016-10-18 2017-03-29 广州酷狗计算机科技有限公司 数据存储方法及装置
CN109376176A (zh) * 2018-08-22 2019-02-22 阿里巴巴集团控股有限公司 一种数据配置方法及装置、一种计算设备及存储介质
CN109901553A (zh) * 2019-03-13 2019-06-18 东北大学 基于多视角的异构工业大数据协同建模过程故障监测方法
CN110120893A (zh) * 2019-05-13 2019-08-13 恒安嘉新(北京)科技股份公司 一种定位网络系统安全问题的方法及装置
CN110290023A (zh) * 2019-06-26 2019-09-27 四川金星清洁能源装备股份有限公司 一种场外设备远程维护监控平台系统及监控方法
CN111737094A (zh) * 2020-07-02 2020-10-02 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
CN112948187A (zh) * 2021-01-04 2021-06-11 杭州恒朴电子科技有限公司 一种卷包生产环节多指标波动关联分析方法
CN113064794A (zh) * 2021-04-01 2021-07-02 银清科技有限公司 一种数据监测方法、装置及设备
CN113157526A (zh) * 2021-04-25 2021-07-23 珠海市鸿瑞信息技术股份有限公司 一种基于电力监控系统的日志审计系统
CN114186798A (zh) * 2021-11-19 2022-03-15 国网浙江省电力有限公司 一种提高电力用户需求响应有效性的信息处理方法及系统
CN114546754A (zh) * 2020-11-26 2022-05-27 北京四维图新科技股份有限公司 自动化智能监控方法、系统及地图数据云平台
CN115061839A (zh) * 2022-04-12 2022-09-16 南京信易达计算技术有限公司 高性能平台监控运维系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070025389A1 (en) * 2005-07-29 2007-02-01 Proactivenet, Inc. Abnormality indicator of a desired group of resource elements
US20070036132A1 (en) * 2005-07-19 2007-02-15 Sbc Knowledge Ventures, L.P. Method and system for remotely detecting parasite software
CN101764893A (zh) * 2009-10-12 2010-06-30 南京联创科技集团股份有限公司 基于数据中间层的通信话务波动监控方法
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070036132A1 (en) * 2005-07-19 2007-02-15 Sbc Knowledge Ventures, L.P. Method and system for remotely detecting parasite software
US20070025389A1 (en) * 2005-07-29 2007-02-01 Proactivenet, Inc. Abnormality indicator of a desired group of resource elements
CN101764893A (zh) * 2009-10-12 2010-06-30 南京联创科技集团股份有限公司 基于数据中间层的通信话务波动监控方法
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘松波: "《中国优秀硕士学位论文全文数据库 信息科技辑》", 15 July 2013 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589785A (zh) * 2015-12-08 2016-05-18 中国银联股份有限公司 监控存储设备的io性能的装置和方法
CN105610647A (zh) * 2015-12-30 2016-05-25 华为技术有限公司 一种探测业务异常的方法和服务器
CN105678388A (zh) * 2016-01-08 2016-06-15 上海北塔软件股份有限公司 一种基于基线的运维管理健康分析方法
CN106547848A (zh) * 2016-10-18 2017-03-29 广州酷狗计算机科技有限公司 数据存储方法及装置
CN109376176A (zh) * 2018-08-22 2019-02-22 阿里巴巴集团控股有限公司 一种数据配置方法及装置、一种计算设备及存储介质
CN109901553A (zh) * 2019-03-13 2019-06-18 东北大学 基于多视角的异构工业大数据协同建模过程故障监测方法
CN110120893A (zh) * 2019-05-13 2019-08-13 恒安嘉新(北京)科技股份公司 一种定位网络系统安全问题的方法及装置
CN110120893B (zh) * 2019-05-13 2022-12-13 恒安嘉新(北京)科技股份公司 一种定位网络系统安全问题的方法及装置
CN110290023B (zh) * 2019-06-26 2022-08-26 四川金星清洁能源装备股份有限公司 一种场外设备远程维护监控平台系统及监控方法
CN110290023A (zh) * 2019-06-26 2019-09-27 四川金星清洁能源装备股份有限公司 一种场外设备远程维护监控平台系统及监控方法
CN111737094A (zh) * 2020-07-02 2020-10-02 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
CN111737094B (zh) * 2020-07-02 2024-02-02 中国工商银行股份有限公司 信息处理方法、装置、电子设备和介质
CN114546754A (zh) * 2020-11-26 2022-05-27 北京四维图新科技股份有限公司 自动化智能监控方法、系统及地图数据云平台
CN112948187A (zh) * 2021-01-04 2021-06-11 杭州恒朴电子科技有限公司 一种卷包生产环节多指标波动关联分析方法
CN113064794A (zh) * 2021-04-01 2021-07-02 银清科技有限公司 一种数据监测方法、装置及设备
CN113064794B (zh) * 2021-04-01 2024-05-03 银清科技有限公司 一种数据监测方法、装置及设备
CN113157526A (zh) * 2021-04-25 2021-07-23 珠海市鸿瑞信息技术股份有限公司 一种基于电力监控系统的日志审计系统
CN114186798A (zh) * 2021-11-19 2022-03-15 国网浙江省电力有限公司 一种提高电力用户需求响应有效性的信息处理方法及系统
CN115061839A (zh) * 2022-04-12 2022-09-16 南京信易达计算技术有限公司 高性能平台监控运维系统及方法

Also Published As

Publication number Publication date
CN104954154B (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
CN104954154A (zh) 运维管理平台的监控及故障维护方法和系统
CN112712113B (zh) 一种基于指标的告警方法、装置及计算机系统
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
CA3059937A1 (en) User credit evaluation method and device, electronic device, storage medium
CN108053087A (zh) 反洗钱监测方法、设备及计算机可读存储介质
CN110348718B (zh) 业务指标监控方法、装置及电子设备
US11055382B2 (en) Methods and systems that estimate a degree of abnormality of a complex system
CN109034580A (zh) 一种基于大数据分析的信息系统整体健康度评估方法
CN112650608B (zh) 异常根因定位方法以及相关装置、设备
CN107464185A (zh) 风险监控方法、装置、存储介质以及计算机设备
CN108761568A (zh) 环境监控方法、装置、系统及服务器
JP2021508096A (ja) 複数のシステムインジケータの監視
JP6052177B2 (ja) 監視装置、監視方法およびプログラム
CN111930603A (zh) 服务器性能检测方法、装置、系统及介质
JP2012018604A (ja) 災害危機管理装置、被害レベル計算方法、およびプログラム
CN110677271A (zh) 基于elk的大数据告警方法、装置、设备及存储介质
CN117235760B (zh) 企业数据的加密存储方法、装置、计算机设备及存储介质
CN106649034B (zh) 一种可视化智能运维方法及平台
Li et al. Unraveling fundamental properties of power system resilience curves using unsupervised machine learning
CN116843395A (zh) 一种业务系统的告警分级方法、装置、设备及存储介质
CN111666191A (zh) 数据质量监控方法、装置、电子设备及存储介质
CN111950623A (zh) 数据稳定性监控方法、装置、计算机设备及介质
CN110795306A (zh) 一种基于实时监控的网络安全管控系统
CN115659351A (zh) 一种基于大数据办公的信息安全分析方法、系统及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: Room 818, 8 / F, 34 Haidian Street, Haidian District, Beijing 100080

Patentee after: BEIJING ULTRAPOWER SOFTWARE Co.,Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building 6 storey block A Room 601

Patentee before: BEIJING ULTRAPOWER SOFTWARE Co.,Ltd.

CP02 Change in the address of a patent holder