CN107104848A - 信息技术系统监控方法及装置 - Google Patents

信息技术系统监控方法及装置 Download PDF

Info

Publication number
CN107104848A
CN107104848A CN201610093642.XA CN201610093642A CN107104848A CN 107104848 A CN107104848 A CN 107104848A CN 201610093642 A CN201610093642 A CN 201610093642A CN 107104848 A CN107104848 A CN 107104848A
Authority
CN
China
Prior art keywords
performance
baseline
monitoring
data
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610093642.XA
Other languages
English (en)
Other versions
CN107104848B (zh
Inventor
郭岳
张式勤
于祥兵
戴伟
陈波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Zhejiang Co Ltd
Original Assignee
SHANGHAI NEW CENTURY NETWORK Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI NEW CENTURY NETWORK Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical SHANGHAI NEW CENTURY NETWORK Co Ltd
Priority to CN201610093642.XA priority Critical patent/CN107104848B/zh
Publication of CN107104848A publication Critical patent/CN107104848A/zh
Application granted granted Critical
Publication of CN107104848B publication Critical patent/CN107104848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Alarm Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例公开了一种信息技术系统监控方法及装置,所述方法包括:收集N个监控周期的性能数据;所述N为不小于1的整数;根据所述性能数据形成性能基线;采集监控数据并确定所述监控数据对应的监控时间;从所述性能基线中提取对应于所述监控时间的基线值;比对所述监控数据和所述基线值,形成监控结果。

Description

信息技术系统监控方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种信息技术系统监控方法及装置。
背景技术
随着信息化的不断发展和深入,信息技术(Information Technology,IT)系统功能日益强大,涉及的信息种类也日益增多,这导致现有IT系统也逐渐复杂。为及时发现IT系统故障、识别潜在风险及安全隐患,企业内部通常设定专门的运维部门和运维人员监管企业的IT系统,维护企业IT系统正常、稳定运行,保障企业业务正常开展和运营。同时,为了提高发现系统故障的及时性、系统维护的专业性,企业还会建立IT监控系统实现监控手段平台化、自动化。
现有的IT系统监控方法通常为:信息技术部门提出系统运行目标,运维部门将系统运行目标转化为系统监控指标,并在IT监控系统中通过定义监控指标、设定监控数据源、配置监控校验规则、部署监控调度作业实现系统监控,其中监控校验规则配置采用最小值、最大值的值域配置或采用百分比的波动配置等方式。当系统的某个部件运行状况超出预设阈值时,监控系统识别告警并发送相关的告警通知。这种告警识别机制通常不分系统运行时段,或者只能设置某几个特定时段内的系统监控。
上述IT监控系统的监控方法,存在以下问题:
第一:监控阈值单一、监控时段粗放,告警误报多、处理成本高:同一个监控指标通常只设置一个监控阈值、且监控阈值在所有时段都有效,如果监控阈值设置过低会导致正常业务高峰期时段频繁触发系统告警、增加运维人员对异常告警识别复杂度和告警处理成本。
第二:系统性能波动趋势识别低,系统性能风险预警能力不足:如果监控阈值设置过高则不能及时获知非业务高峰期时段系统性能的异常波动、无法准确及时识别和预警系统中存在的潜在问题。IT系统的性能峰谷随着企业业务发展会呈现一定的变化,现有的监控方法缺少一种系统峰谷波动的趋势跟踪。
发明内容
有鉴于此,本发明实施例期望提供一种信息技术系统监控方法及装置,至少部分解决监控结果不够精确的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种信息技术系统监控方法,所述方法包括:
收集N个监控周期的性能数据;所述N为不小于1的整数;
根据所述性能数据形成性能基线;
采集监控数据并确定所述监控数据对应的监控时间;
从所述性能基线中提取对应于所述监控时间的基线值;
比对所述监控数据和所述基线值,形成监控结果。
基于上述方案,所述采集监控数据之后,还包括:
根据所述监控数据动态校准所述性能基线。
基于上述方案,所述采集监控数据之后,还包括:
基于所述监控数据,判断指定时长内的所述性能数据的变化率是否满足校准条件;
若所述性能数据的变化率满足所述校准条件,根据所述监控数据校准所述性能基线。
基于上述方案,所述根据所述监控数据校准所述性能基线,包括:
基于所述监控数据输出修正建议曲线;
接收基于所述修正建议曲线形成的操作指示;
根据所述操作指示,调整所述性能基线。
基于上述方案,所述方法还包括:
在获得校准后的性能基线后,存储历史版本的性能基线;
所述历史版本的性能基线用于在预设条件下取代当前版本的性能基线提供所述基线值。
基于上述方案,所述形成监控结果之后,还包括:
若所述监控结果表示性能参数异常,则按照预设告警发送模板生成告警信息;
通过预设方式处理所述告警信息。
本发明实施例第二方面提供一种信息技术系统监控装置,所述装置包括:
收集单元,用于收集N个监控周期的性能数据;所述N为不小于1的整数;
形成单元,用于根据所述性能数据形成性能基线;
监控单元,用于采集监控数据并确定所述监控数据对应的监控时间;从所述性能基线中提取对应于所述监控时间的基线值;比对所述监控数据和所述基线值,形成监控结果。
基于上述方案,所述装置还包括:
校准单元,用于在所述采集监控数据之后,根据所述监控数据校准所述性能基线。
基于上述方案,所述校准单元,具体用于基于所述监控数据,判断指定时长内的所述性能数据的变化率是否满足校准条件;若所述性能数据的变化率满足所述校准条件,基于所述监控数据校准所述性能基线。
基于上述方案,所述校准单元,还具体用于基于所述监控数据输出修正建议曲线;接收基于所述修正建议曲线形成的操作指示;根据所述操作指示,调整所述性能基线。
基于上述方案,所述装置还包括:
存储单元,用于在获得校准后的性能基线后,存储历史版本的性能基线;
所述历史版本的性能基线用于在预设条件下取代当前版本的性能基线提供所述基线值。
基于上述方案,所述装置还包括:
告警单元,用于在所述形成监控结果之后,若所述监控结果表示性能参数异常,则按照预设告警发送模板生成告警信息;通过预设方式处理所述告警信息。
本发明实施例提供的信息技术系统监控方法及装置,通过收集N个监控周期的性能参数,可以绘制出对应于整个监控周期内各个时间点的性能基线,在进行IT系统的监控时,可以根据监控时间提取性能基线上对应时间的基线值进行比对分析,显然这相对于单一阈值的监控,能够提升监控的精确度。
附图说明
图1为本发明实施例提供的第一种信息技术IT系统监控方法的流程示意图;
图2为本发明实施例提供的第二种信息技术IT系统监控方法的流程示意图;
图3为本发明实施例提供的一种IT系统监控装置的结构示意图;
图4本发明实施例提供第三种IT系统监控方法的流程示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
如图1所示,本实施例提供一种信息技术IT系统监控方法,所述方法包括:
步骤S110:收集N个监控周期的性能数据;所述N为不小于1的整数;
步骤S120:根据所述性能数据形成性能基线;
步骤S130:采集监控数据并确定所述监控数据对应的监控时间;
步骤S140:从所述性能基线中提取对应于所述监控时间的基线值;
步骤S150:比对所述监控数据和所述基线值,形成监控结果。
本发明实施例IT系统,可为能够进行各种会进行信息处理的系统,例如,购物系统、企业运维系统、流水线操作系统等各种信息技术系统。
本实施例所述的IT系统监控方法可应用于各种IT系统的监控设备中,例如监控服务器。所述步骤S110将收集N个监控周期的性能数据。这里的性能数据为能够表征IT系统某一方面性能参数的数据。例如,能够表征IT系统的可用资源的闲置资源百分比值等性能参数。本实施例所述的监控周期可为预先设定的监控时长,例如,可为一周、一天。在本实施例中所述监控周期具体可以根据被监控的IT系统的变化周期而确定。通常一个监控周期可等于一个IT系统的一个变化周期。
在步骤S120中将分析这些性能数据,确定出性能参数在监控周期内的变化规律,从而确定出性能基线。本实施例中的性能基线可包括上基线和/或下基线,通常这里的上基线对应的性能数据的取值通常大于下基线对应的性能数据的取值。在本实施例中所述性能基线可为一个监控周期内各个时间点的性能数据的连线。故通过该性能基线能够获得监控周期内每一个时间点对应的性能数据的取值,该取值在本实施例中称之为基线值。当然在所述步骤S130中采集的监控参数可为所述性能数据表征IT系统的同一性能参数的数据。
在步骤S130中,将采集监控数据并确定监控数据对应的监控时间。根据该监控时间可确定出对应于监控周期内的对应时间,解析所述性能基线,读取该对应时间对应的基线值。
在步骤S150中将比对监控数据和基线值,通过比对可以知道当前监控得到的性能数据的取值是大于基线值,还是小于基线值,这样就根据与基线值的比对,确定出IT系统的当前状态是否正常。
具体地如,在本实施中所述性能基线可分为上基线和下基线,所述基线值可包括根据上基线确定的上基线值,和根据下基线确定的下基线值。
若上基线和下基线之间的取值为正常取值,则根据所述监控数据得到的当前性能数据的取值小于所述下基线可认为是出现异常,及当前性能数据的取值大于所述上基线值,也可以认为是出现异常。若上基线以上的取值和下基线以下的取值为正常取值,则根据所述监控数据得到的当前性能数据的取值大于所述下基线且小于所述上基线值,则可认为出现异常。
在本实施例中由于性能基线能够给出一个监控周期内所有时间点的基线值,这样的话,相当于给出了多个应用于不同时间点的阈值,显然相对于单一阈值,考虑不同时间点IT系统各个性能参数的波动变化,不会因为导致单一阈值造成的异常监测不够精确的问题。同时,在步骤S150中将基于监控给数据获得的当前性能数据的取值与下基线值的比较,可实现对IT系统的性能波谷的监控,从而能够更好的、更全面的监控所述IT系统。
进一步地,如图2所示,所述采集监控数据之后,还包括:
步骤S121:根据所述监控数据动态校准所述性能基线。
在本实施例中还会动态的校准所述性能基线,以期望所述性能基线能够更加精确的反馈IT系统正常时的特点。
在本实施例中,可周期性的校准所述步骤S121。进行周期性校准时的校准周期可为时长可为监控周期的整数倍。在进行所述采集的监控数据进行校准时,可以排除IT系统确定为出现异常状态时的监控数据,以获得更能反映IT系统正常运行的性能基线。通常,发现当前监控周期内性能数据都普遍偏高时,根据基线生成算法或基线校准算法,形成的校准后的性能基线的上基线可能会向取值大的方向偏移。
在本实施例中,所述步骤S121可包括:
基于所述监控数据,判断指定时长内的所述性能数据的变化率是否满足校准条件;
若所述性能数据的变化率满足所述校准条件,根据所述监控数据校准所述性能基线。
这里的指定时长可为预先设定的时长,可以比监控周期对应的时长短、也可以等于所述监控周期对应的时长,或大于监控周期对应的时长。
例如,若所述指定时长为两个监控周期,发现在最近两个监控周期内,某一个性能参数波动巨大,导致连续两个周期的变化率都大于校准阈值,或,最近两个监控周期内的整体变化率都大于校准阈值,则认为在指定时长内的所述性能数据的变化率满足所述校准条件。
当满足了校准条件,就将根据监控数据调整性能基线。在本实施例中所述校准性能基线可包括重新根据监控数据重新形成新的性能基线,也包括在原来版本的性能基线的基础上,根据当前得到的监控数据,基于校准算法调整原来的性能基线,从而得到校准后的性能基线。
在本实施例中通过条件的校准条件是否满足的触发条件,动态触发性能基线的校准,避免在IT系统的正常运行的性能参数变化很小,因频繁校准导致的校准消耗,也可以避免在IT系统的正常运行的性能参数变化剧烈的情况下,因校准频次低导致的未来的及校准造成的异常监控不精确的问题。
在本实施例中,所述若所述性能数据的变化率满足所述校准条件,基于所述监控数据校准所述性能基线,包括:基于所述监控数据输出修正建议曲线;接收基于所述修正建议曲线形成的操作指示;根据所述操作指示,调整所述性能基线。在有些情况下,例如IT系统基于用户操作,在进行性能极限的测试,此时,监控到变化率达到校准条件,基于监控给数据获得的修正建议曲线,若直接投入运行,反而会影响IT系统的正常监控。故在本实施例中,在得到修正建议曲线之后,将会输出所述修正建议曲线。这里的输出可包括显示输出等输出方式。在输出所述修正建议曲线之后,可从人际交互接口或通信接口,接收工作人员输出的操作指示。这里的操作指示可包括指示应用该修正建议曲线,或不应用该修正建议曲线,还可包括调整所述修正建议曲线的操作指示等。总之,最后将根据所述操作指示调整所述性能基线。例如,在本实施例中的操作指示为指示应用给修正建议曲线的指示,则可能直接利用当前的修正建议曲线取代正在运用的性能基线。
在本实施例中根据接收的操作指示来校准性能基线,能够确保性能基线在一些特殊状况下的校准,导致的异常。
在本实施例中,所述方法还包括:
在获得校准后的性能基线后,存储历史版本的性能基线;
所述历史版本的性能基线用于在预设条件下取代当前版本的性能基线提供所述基线值。
在本实施例中存储历史版本的性能基线,若发现校准后的性能基线在运行过程中出现异常时,可以方便恢复到原来的版本的性能基线对IT系统进行监控。
在具体实现时,可以根据需要将性能基线的应用分为试用期和正式应用期,所述历史版本的性能基线至少在所述试用期需要保存好。若在试用期出现监控异常,根据出现监控异常的次数或频率信息,确定对应的试用的性能基线是否在正式应用期投入使用。
在本实施例中存储的所述历史版本的性能基线可包括前一个版本的性能基线,也可以是前多个历史版本的性能基线。
在具体的实现过程中,所述方法还可包括:在一条性能基线被应用的过程中,还可统计形成异常监控效果。例如,当利用性能基线监控到IT系统异常时,工作人员或核查设备会核查IT系统是否真的出现异常,异常点是否监控准确等信息,这些信息将可作为形成异常监测效果。存储这些异常监控效果,可方便后续利用历史版本的性能基线进行监控时,为选择历史版本的性能基线提供依据。
进一步地,所述形成监控结果之后,所述方法还包括:若所述监控结果表示性能参数异常,则按照预设告警发送模板生成告警信息。
通过预设方式处理所述告警信息。
在本实施例中所述预设方式可包括灯光警报、语音警报、消息警报。灯光警报根据告警信息发送相应颜色或相应闪烁频率的灯光。所述语音报警可以通过广播等方式发送告警信息。所述消息报警,包括向工作人员指定的设备,例如工作人员的手机、平板电脑等携带的终端设备,或向工作人员的工作电脑发送所述告警信息。这样工作人员就可以及时的获知告警,进行相应的异常处理。在本实施例中还可包括:向异常处理设备发送所述告警信息,方便所述异常处理设备根据告警信息进行异常核查和处理。
如图3所示,本实施例还提供一种,所述装置包括:
收集单元110,用于收集N个监控周期的性能数据;所述N为不小于1的整数;
形成单元120,用于根据所述性能数据形成性能基线;
监控单元130,用于采集监控数据并确定所述监控数据对应的监控时间;从所述性能基线中提取对应于所述监控时间的基线值;比对所述监控数据和所述基线值,形成监控结果。
本实施例所述的信息技术系统监控装置可为各种应用于监控设备的装置,例如应用监控服务器中的装置。
所述收集单元110可对应于通信接口,能够从各种采集设备或传感设备中接收所述性能数据,也可以对应于采集器或传感器,自身采集和/或检测所述性能数据。
形成单元120及所述监控单元130可对应于设备中的处理器或处理电路。所述处理器可对应于中央处理器、微处理器、数字处理器或可编程阵列等。所述处理电路可包括专用集成电路等。所述处理器或处理电路能够通过执行预定指令,实现上述形成单元120和监控单元130对应的功能。
本实施例中所述性能基线、监控周期等相关描述可以参见前述实施例中的对应部分,在此就不重复了。
总之,本实施例提供了一种信息技术系统监控装置,可为实现上述信息技术系统监控方法的实现结构,通过性能基线的确定,能够对监控周期内各个时间段的IT系统进行精确的监控,避免单一监控阈值造成的异常误报等问题,且能够设置下基线对性能系统的性能波谷时间段进行很好的监控。
进一步地,所述装置还包括:
校准单元,用于在所述采集监控数据之后,根据所述监控数据校准所述性能基线。
本实施例所述的校准单元同样可对应于处理器或处理电路,这里的处理器或处理电路的结构可参见前述部分,同样处理器或处理电路能够通过存储在存储介质中的预设指令的执行,能够对性能基线进行校准。
所述校准单元,具体用于基于所述监控数据,判断指定时长内的所述性能数据的变化率是否满足校准条件;若所述性能数据的变化率满足所述校准条件,根据所述监控数据校准所述性能基线。在本实施例中所述校准单元,仅有在指定时长内所述性能数据的变化率满足校准条件,才开始对性能基线进行校准,这样可以避免不要的校准,减少冗余校准导致的能耗和资源的消耗;同时也会在性能数据的变化率足够大的时候,及时的调整性能基线,以获得更能反映IT系统的正常工作的性能基线,以进一步提升监控结果。
所述校准单元,还具体用于基于所述监控数据输出修正建议曲线;接收基于所述修正建议曲线形成的操作指示;根据所述操作指示,调整所述性能基线。为了避免一些特殊情况下,自动校准导致的校准故障,在本实施例中将基于监控数据输出形成的修正建议曲线。在接收工作人员或有权限的用户输入的操作指令,最终根据操作指示调整性能基线,避免某些特定情况导致的不必要的校准。
此外,所述装置还包括:
存储单元,用于在获得校准后的性能基线后,存储历史版本的性能基线;
所述历史版本的性能基线用于在预设条件下取代当前版本的性能基线提供所述基线值。
所述存储单元可对应于各种类型的存储介质,该存储介质将会存储当前版本以前的历史版本的性能基线,以备当前版本的性能基线不适用时的使用。
所述装置还包括:
告警单元,用于在所述形成监控结果之后,若所述监控结果表示性能参数异常,则按照预设告警发送模板生成告警信息;通过预设方式处理所述告警信息。
本实施例所述的告警单元可对应于中告警设备,例如灯光告警设备、声音告警设备,还可对应于通信接口,通过向其他电子设备发送所述告警信息,这样能够方便工作人员或异常处理设备,能够及时获得该告警信息,启动对应的异常处理流程。
以下结合上述实施例提供几个示例:
示例一:
本示例提出一种基于全时段监控指标配置的系统监控方法,通过一种性能基线建立和基线校正机制实现IT系统性能监控的全时段覆盖和监控差异化,采用自动化性能基线采集、可视化局部基线校正和智能化性能基线演进,实现系统监控的高精度、可预测、易管理,从而全面掌控系统的运行状态。
本示例IT系统监控方法是:收集至少一个监控周期内的系统性能数据,建立系统的性能基线版本,通过若干个监控周期的性能数据、迭代分析系统性能的波动规律,根据性能基线版本和波动规律、自动校正性能基线并完成全域全时段的系统性能监控配置,持续分析系统性能波动规律、保持系统监控的智能演进。
如图4所示,本示例的IT系统监控方法包括以下主要操作:
数据采集:定义采集指标、采集数据源、采集引擎,数据采集与监控校验分离,可以通过简化数据采集方法降低对监控源系统的影响、并增强原始采集数据的完整性。
数据加工:对原始采集数据进行适当加工,作为后续系统监控的数据源;数据加工可以实现原始采集数据的信息过滤和聚合汇总,提高系统监控的性能和数据参考维度。
监控定义:定义监控指标、监控源、监控类型、监控周期;监控定义中通过不同监控策略、多维度定义实现系统监控的全面覆盖。
性能基线确定:定义系统性能的基线数据范围、自动化分析和建立系统的性能基线,根据若干个周期性系统性能数据的自动化分析,运维人员可以快速、准确校正性能基线。
作业调度:定义数据采集、数据加工、系统监控等作业任务,并完成作业任务的执行调度。
告警发送:定义告警发送模板,在系统监控中触发告警时自动调度告警发送中的模板、生成告警信息,并通过短信、邮件、语音、SNS等不同发送途径完成告警发送。
数据分析:定义数据分析模板,设置监控指标的数据分析属性,自动化分析和生成数据分析结果。
基线校正:根据数据分析分析结果,自动提示系统运行过程中出现的性能基线偏差,生成性能基线的校正预判数据,运维人员分析基线校正,确认或修正校正数据后性能基线校正即可生效、若校正后出现系统监控不符合预期则可以支持基线回退,通过校正预判、确认或修正、生效或回退实现性能基线的迭代演进。
基于全时段的系统监控方法总体上是为了减少系统监控运维复杂度、提高系统监控准确性、增强系统监控的智能化,对源系统性能影响小,监控采集数据接口简单、避免因性能监控引起源系统性能问题和退化。性能基线配置简单,通过设置性能基线的周期范围,由系统自动分析和预生成系统的性能基线,后续通过分析确认完成性能基线生成。性能基线智能校正,系统周期性自动分析性能数据,根据历史数据和近期数据获取系统性能趋势,预判性能基线的合理性、并提示性能基线偏差,进行自动修正基线。
示例二:
本示例提供一种对应于前述IT系统监控装置的监控系统,该系统可采用面向对象的设计思路,将功能模块化、元素对象化设计,模块间通过接口访问确保系统功能域间的松耦合、提高系统扩展性。
功能模块主要包括:
数据采集模块,用于从监控源系统通过数据引擎获取原始数据并保存到监控系统中;本实施例所述数据采集模块可对应于收集单元和监控单元收集和采集数据的部分。
数据加工模块,用于在监控系统中完成原始数据的过滤、转换和聚合;
数据分析模块,用于周期性分析历史指标数据和当前性能数据生成分析结果数据;
指标管理模块,用于定义系统的监控指标,指定指标的检查方法、公式和检查阈值等,构建完整的指标体系;
事件管理模块,用于定义监控执行的事件触发条件;
监控管理模块,用于按不同的监控维度,构建系统监控视图;
基线管理模块,用于定义性能基线的数据范围和性能基线生成,定义性能基线校正时间范围以及校正条件;
作业调度模块,用于对数据采集、数据加工、数据分析、监控管理和基线校正等设置事件条件,生成详细的作业调度;
告警发送模块,用于从告警队列中读取告警信息并以多种方式发送;
基线校正模块,用于基于系统性能数据自动化分析系统基线偏差,进行自动校正、并记录校正结果。告警发送模块可对应于前述实施例中告警单元。此处的基线校正模块可对应于前述校准单元。
该系统中用于进行数据分析、数据加工、监控管理和指标管理的模块都可对应于前述的监控单元。
利用上述模块进行IT系统的性能监控,包括:
作业调度模块定时触发数据采集进行设备网元运行数据采集,数据采集模块从指标管理模块中读取需要采集的网元地址以及监控采集项,其中监控项不仅可以定义系统运行的性能数据,还可以定义业务调用接口、模块等等指标。
待数据采集模块完成后,作业调度模块触发数据加工模块对数据采集模块采集的原始数据按照监控管理模块中定义的监控维度进行过滤、转换和聚合。待数据加工模块完成后,作业调度模块触发数据分析模块,数据分析模块根据指标管理模块中定义的检查方法、公式和检查阈值与基线管理模块中定义的基线值进行对比,并且记录当前系统性能指标为正常或者异常、记录与基线偏差值,其中数据加工模块还会对业务调用接口、模块记录按照指标管理模块中定义的方法进行整合。待数据加工模块完成后,作业调度模块根据数据分析模块的结果触发事件管理与告警发送模块。
1)当数据分析模块分析结果为正常时,作业调度模块进入休眠,等待下一个时间周期自动触发。
2)当性能分析结果为异常时,作业调度模块触发事件管理模块,对相应性能指标出现的问题自动执行应急预案,执行成功后,作业调度模块再次调用数据采集、数据加工、数据分析模块,对当前性能与基线值进行比对,如果性能问题被修复则作业调度模块进入休眠,如果问题仍然存在作业调度模块调用告警发送模块触发告警。每天凌晨1点作业调度模块触发性能基线校正模块,对基线管理模块中定义的各个性能基线针对校准条件与校准范围进行基线校正,基线校正模块首先读取基线管理模块中定义的时间范围内的业务接口、模块调用趋势数据,并计算增长率;同时基线校正模块读取基线管理模块中定义的时间范围内的性能趋势数据,计算增长率。
当业务趋势增长率>0,不论性能趋势增长率大于0或者小于0都将启动基线校正,系统自动将性能基线上调为定义天数内去掉若干个最高、最低值的性能均值且不超过业务趋势增长率的数值;
当业务趋势增长率<0且性能趋势增长率<0时启动基线校正,系统自动将性能基线下调为定义天数内去掉若干个最高、最低值的性能均值且不超过业务趋势增长率的数值;
当业务趋势增长率<0且性能趋势增长率>0时不启动基线校正。
本示例提供的监控系统中的几个主要的对象类设计如下:
数据引擎类:包含数据引擎编号、数据引擎名称、数据引擎类型、数据引擎定义,支持Oracle、DB2、Sybase、MySQL等多种关系数据库、文件系统数据采集,并支持插件式的数据引擎部署。
数据采集类:包含数据采集源列表、数据采集内容列表、数据引擎列表、数据存储格式,其中采集内容依据数据引擎方法而定,例如关系数据库引擎通常采用SQL内容。
数据加工类:包含数据分析方法编号、数据加工方法、数据加工结果定义,数据加工方法支持流程化设计、通过流程化数据加工满足复杂数据加工场景。
数据分析类:包含数据分析方法编号、数据分析方法定义,数据分析方法包括同比分析、环比分析、定比分析、波动分析、关联分析、平衡分析等。
系统指标类:包含系统指标编号、系统指标名称、系统指标类型、系统指标公式定义列表、系统指标公式应用条件列表、系统指标阈值列表,其中同一个系统指标支持多个指标公式定义、每个系统指标公式定义支持设定不同的应用条件和指标阈值。
系统监控类:包含系统监控编号、系统监控名称、系统监控类型、系统指标编号、系统监控应用条件列表,其中系统监控应用条件定义会自动匹配对应系统指标定义中的指标公式和指标阈值。
基线定义类:包含系统基线编号、系统名称、基线周期类型、基线周期定义、基线校正编号等,其中基线周期类型和定义说明基线的分析数据范围,同一个系统可以支持多个系统基线。基线定义生成时自动根据系统指标定义列表生成对应指标在不同监控时间点的指标公式和指标阈值、并根据实际数据计算出一个指标阈值修正值供后续手工校验参考。
基线校正类:包含系统校正编号、基线校正名称、基线校正类型、基线校正定义、基线校正提示模板等,其中基线校正定义根据
作业调度类:包含作业调度编号、作业名称、作业类型、作业内容、作业编号、调度类型、调度时间定义列表、调度事件列表,其中调度事件列表定义了触发作业调度的条件。
总之,本示例提供的监控方法具有以下特点;
降低监控管理复杂度:通过自动化的性能基线分析和生成,在此基础上只需少量的基线校验操作即可完成系统监控指标阈值域的设定,可以大幅度减少全时段系统监控的监控配置。
减少源系统性能影响:现有系统监控通常直接从源系统获取监控结果数据,将数据采集、数据加工和系统监控分离,可以简化数据采集的采集复杂度,数据采集只采集源系统中无需加工处理的原始数据、数据加工完成数据过滤、转换和聚合,系统监控只做加工后的数据进行轻量级数据处理和阈值判定。这种数据采集和处理、使用方式可以有效减少对源系统的性能影响。
提高系统监控精准度:建立全时段的系统监控方式,避免传统只设置单一监控时段、单一监控指标、单一监控阈值、单一监控策略的局限性,通过统一监控指标不同时段、不同监控策略和细粒度的监控点,扩大系统监控的监控深度和广度、实现精细化系统监控。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种信息技术系统监控方法,其特征在于,所述方法包括:
收集N个监控周期的性能数据;所述N为不小于1的整数;
根据所述性能数据形成性能基线;
采集监控数据并确定所述监控数据对应的监控时间;
从所述性能基线中提取对应于所述监控时间的基线值;
比对所述监控数据和所述基线值,形成监控结果。
2.根据权利要求1所述的方法,其特征在于,所述采集监控数据之后,还包括:
根据所述监控数据校准所述性能基线。
3.根据权利要求1所述的方法,其特征在于,所述采集监控数据之后,还包括:
基于所述监控数据,判断指定时长内的所述性能数据的变化率是否满足校准条件;
若所述性能数据的变化率满足所述校准条件,根据所述监控数据校准所述性能基线。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述监控数据校准所述性能基线,包括:
基于所述监控数据输出修正建议曲线;
接收基于所述修正建议曲线形成的操作指示;
根据所述操作指示,调整所述性能基线。
5.根据权利要求2至4任一项所述的方法,其特征在于,
所述方法还包括:
在获得校准后的性能基线后,存储历史版本的性能基线;
所述历史版本的性能基线用于在预设条件下取代当前版本的性能基线提供所述基线值。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述形成监控结果之后,还包括:
若所述监控结果表示性能参数异常,则按照预设告警发送模板生成告警信息;
通过预设方式处理所述告警信息。
7.一种信息技术系统监控装置,其特征在于,所述装置包括:
收集单元,用于收集N个监控周期的性能数据;所述N为不小于1的整数;
形成单元,用于根据所述性能数据形成性能基线;
监控单元,用于采集监控数据并确定所述监控数据对应的监控时间;从所述性能基线中提取对应于所述监控时间的基线值;比对所述监控数据和所述基线值,形成监控结果。
8.根据权利要求7所述的装置,其特征在于,
所述装置还包括:
校准单元,用于在所述采集监控数据之后,根据所述监控数据校准所述性能基线。
9.根据权利要求7所述的装置,其特征在于,
所述校准单元,具体用于基于所述监控数据,判断指定时长内的所述性能数据的变化率是否满足校准条件;若所述性能数据的变化率满足所述校准条件,根据所述监控数据校准所述性能基线。
10.根据权利要求7或8所述的装置,其特征在于,
所述校准单元,还具体用于基于所述监控数据输出修正建议曲线;接收基于所述修正建议曲线形成的操作指示;根据所述操作指示,调整所述性能基线。
11.根据权利要求10任一项所述的装置,其特征在于,
所述装置还包括:
存储单元,用于在获得校准后的性能基线后,存储历史版本的性能基线;
所述历史版本的性能基线用于在预设条件下取代当前版本的性能基线提供所述基线值。
12.根据权利要求7至10任一项所述的装置,其特征在于,
所述装置还包括:
告警单元,用于在所述形成监控结果之后,若所述监控结果表示性能参数异常,则按照预设告警发送模板生成告警信息;通过预设方式处理所述告警信息。
CN201610093642.XA 2016-02-19 2016-02-19 信息技术系统监控方法及装置 Active CN107104848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610093642.XA CN107104848B (zh) 2016-02-19 2016-02-19 信息技术系统监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610093642.XA CN107104848B (zh) 2016-02-19 2016-02-19 信息技术系统监控方法及装置

Publications (2)

Publication Number Publication Date
CN107104848A true CN107104848A (zh) 2017-08-29
CN107104848B CN107104848B (zh) 2020-06-09

Family

ID=59658643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610093642.XA Active CN107104848B (zh) 2016-02-19 2016-02-19 信息技术系统监控方法及装置

Country Status (1)

Country Link
CN (1) CN107104848B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705149A (zh) * 2017-09-22 2018-02-16 平安科技(深圳)有限公司 数据实时监控方法、装置、终端设备及存储介质
CN110287078A (zh) * 2019-04-12 2019-09-27 上海新炬网络技术有限公司 基于zabbix性能基线的异常检测和告警方法
CN110879774A (zh) * 2019-11-27 2020-03-13 北京天元创新科技有限公司 一种网元性能数据告警方法及装置
CN111131290A (zh) * 2019-12-30 2020-05-08 山石网科通信技术股份有限公司 流量数据处理方法和装置
WO2020103735A1 (zh) * 2018-11-23 2020-05-28 华为技术有限公司 一种网络质量监控方法及装置
WO2021008073A1 (zh) * 2019-07-15 2021-01-21 南京医科大学 一种实验小鼠饮水监测方法、系统及装置
CN112667463A (zh) * 2020-12-22 2021-04-16 中国银联股份有限公司 一种应用系统基线状态监控方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150949A1 (en) * 2005-12-28 2007-06-28 At&T Corp. Anomaly detection methods for a computer network
CN101964997A (zh) * 2009-07-21 2011-02-02 中国移动通信集团黑龙江有限公司 网络性能预警方法及装置
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置
CN104348747A (zh) * 2014-05-22 2015-02-11 国网山西省电力公司信息通信分公司 Mpls-vpn网络中流量监控的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150949A1 (en) * 2005-12-28 2007-06-28 At&T Corp. Anomaly detection methods for a computer network
CN101964997A (zh) * 2009-07-21 2011-02-02 中国移动通信集团黑龙江有限公司 网络性能预警方法及装置
CN102111307A (zh) * 2009-12-29 2011-06-29 亿阳信通股份有限公司 网络风险监控方法和装置
CN104348747A (zh) * 2014-05-22 2015-02-11 国网山西省电力公司信息通信分公司 Mpls-vpn网络中流量监控的方法和系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705149A (zh) * 2017-09-22 2018-02-16 平安科技(深圳)有限公司 数据实时监控方法、装置、终端设备及存储介质
WO2020103735A1 (zh) * 2018-11-23 2020-05-28 华为技术有限公司 一种网络质量监控方法及装置
CN111225404A (zh) * 2018-11-23 2020-06-02 华为技术有限公司 一种网络质量监控方法及装置
CN111225404B (zh) * 2018-11-23 2021-08-31 华为技术有限公司 一种网络质量监控方法及装置
US11800386B2 (en) 2018-11-23 2023-10-24 Huawei Technologies Co., Ltd. Network quality monitoring method and apparatus
CN110287078A (zh) * 2019-04-12 2019-09-27 上海新炬网络技术有限公司 基于zabbix性能基线的异常检测和告警方法
CN110287078B (zh) * 2019-04-12 2024-01-23 上海新炬网络技术有限公司 基于zabbix性能基线的异常检测和告警方法
WO2021008073A1 (zh) * 2019-07-15 2021-01-21 南京医科大学 一种实验小鼠饮水监测方法、系统及装置
CN110879774A (zh) * 2019-11-27 2020-03-13 北京天元创新科技有限公司 一种网元性能数据告警方法及装置
CN110879774B (zh) * 2019-11-27 2024-03-29 北京天元创新科技有限公司 一种网元性能数据告警方法及装置
CN111131290A (zh) * 2019-12-30 2020-05-08 山石网科通信技术股份有限公司 流量数据处理方法和装置
CN112667463A (zh) * 2020-12-22 2021-04-16 中国银联股份有限公司 一种应用系统基线状态监控方法及装置

Also Published As

Publication number Publication date
CN107104848B (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN107104848A (zh) 信息技术系统监控方法及装置
CN104699807B (zh) 一种oracle数据表空间的自动监控扩容方法
CN111324639B (zh) 数据监测方法、装置及计算机可读存储介质
CN107239388A (zh) 一种监测告警方法及系统
CN107612779B (zh) 调度数据网二次安全防护网络设备及业务运行监视系统
KR100982034B1 (ko) 데이터베이스 성능 모니터링 방법 및 시스템
CN106649040A (zh) 一种Weblogic中间件性能自动监控方法及装置
CN113051147A (zh) 一种数据库集群的监控方法、装置、系统、以及设备
CN105467953A (zh) 一种面向工业大数据的知识表示及其自动化应用方法
CN105871634A (zh) 检测集群异常的方法及应用、管理集群的系统
US20220188280A1 (en) Machine learning based process and quality monitoring system
CN109783315A (zh) 一种数据库平台自动化巡检方法及系统
CN104243184A (zh) 一种告警信息的处理方法及装置
CN105512788A (zh) 一种智能运维管理方法及系统
CN105743595A (zh) 中短波发射机故障预警方法及装置
US20180239341A1 (en) System and method for automatic configuration of a data collection system and schedule for control system monitoring
CN113762914A (zh) 预警审计方法及相关设备
CN110400052A (zh) 关键性能指标的监控方法和装置
CN106951351A (zh) 一种数据库负载趋势性监控方法
CN113743892A (zh) 电网基建问题的跟踪处理方法、装置、计算机设备及介质
US20220230476A1 (en) Systems and methods for analyzing machine performance
CN114172921A (zh) 一种调度录音系统的日志审计方法及装置
CN106871963B (zh) 一种水库供水实时监测管理系统
CN114116391A (zh) Redis实例的健康检测方法、装置、设备及存储介质
US20100023887A1 (en) Systems and methods for collecting and processing diagnostics and statistics for a fleet of turbines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210628

Address after: No. 19, Jiefang East Road, Hangzhou, Zhejiang Province, 310016

Patentee after: China Mobile Group Zhejiang Co.,Ltd.

Address before: No. 19, Jiefang East Road, Hangzhou, Zhejiang Province, 310016

Patentee before: China Mobile Group Zhejiang Co.,Ltd.

Patentee before: SHANGHAI NEW CENTURY NETWORK Co.,Ltd.

TR01 Transfer of patent right