CN105071969A - 基于jmx的定制化实时监控及自动化异常处理的系统及方法 - Google Patents

基于jmx的定制化实时监控及自动化异常处理的系统及方法 Download PDF

Info

Publication number
CN105071969A
CN105071969A CN201510510641.6A CN201510510641A CN105071969A CN 105071969 A CN105071969 A CN 105071969A CN 201510510641 A CN201510510641 A CN 201510510641A CN 105071969 A CN105071969 A CN 105071969A
Authority
CN
China
Prior art keywords
data
monitored
abnormality processing
monitoring
monitored system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510510641.6A
Other languages
English (en)
Other versions
CN105071969B (zh
Inventor
王炜
陈涛
张丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Focus Technology Co Ltd
Original Assignee
Focus Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Focus Technology Co Ltd filed Critical Focus Technology Co Ltd
Priority to CN201510510641.6A priority Critical patent/CN105071969B/zh
Publication of CN105071969A publication Critical patent/CN105071969A/zh
Application granted granted Critical
Publication of CN105071969B publication Critical patent/CN105071969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

一种基于JMX的定制化实时监控及自动化异常处理的系统,包括数据采样信息库、监控模型库、异常处理库、网络通信模块、数据收集模块、数据异常处理分析模块、页面展示模块,监控数据库;被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连接;所述数据采样信息库,用于存放数据样本信息的仓库,所述监控模型库,用于存放所有被监控系统所对应的监控模型的仓库;所述异常处理库,用于存放异常处理方法及流程的仓库;所述网络通信模块,构建并管理监控系统和各个被监控系统间的网络数据传输,维护监控系统和所有被监控系统间的正常网络通信;监控数据库,用于存储实时数据收集模块监控采集的数据。

Description

基于JMX的定制化实时监控及自动化异常处理的系统及方法
技术领域
本发明属于计算机系统数据监控领域,特别是实时监控及异常动态配置的方法,具体涉及基于JMX(JavaManagementExtensions,即Java管理扩展)的定制化实时监控及自动化异常处理的系统及方法。
背景技术
信息化的日益深入促使现代IT系统业务规模的不断扩大,相应地,系统数量也随之在不断增加。系统运行过程中所产生的异常监控报警信息对系统运维人员及时定位异常,挖掘系统运行规律,起到至关重要的作用。然而,传统的系统运维方式只有在发生故障或影响业务连续性时才可能被发现,被动救火式的维护不仅会因异常数据采集不及时导致异常发生处无法被准确定位,而且更严重地则会导致故障的恶性连锁反应持续发生。同时,为保证系统的稳定运行和业务的正常流转,也将耗费大量的人力和物力进行监控。
针对一些常见异常,开发人员可直接在系统程序编写中实现风险的自动规避,但仍有一些异常仍需要系统运维人员参与实时监控并做及时处理,比如系统运行中的部分参数会根据当前运行状况进行动态调整,通常的实现方式是将这些配置参数置于配置文件中进行管理,一旦有调整的需求,系统运维人员首先修改配置文件,再重新发布系统,如若调整不及时很可能导致运行环境报错。
JMX在Java编程语言中定义了应用程序以及网络管理和监控的体系结构、设计模式、应用程序接口以及服务。通常使用JMX来监控系统的运行状态或管理系统的某些方面,比如清空缓存、重新加载配置文件等优点可以非常容易的使应用程序具有被管理伸缩性的架构每个JMXAgent服务可以很容易的放入到Agent中。如专利“基于JMX的网管系统中服务生命周期管理监控方法”(专利公开号:CN102904745A)提供一种基于JMX的网管系统中服务生命周期管理监控方法,该方法包括服务生命周期的管理、服务的配置和服务生命周期的监控,所述的服务生命周期的管理是指对生命周期的阶段及状态进行管理;所述的服务的配置是指服务器获取相应的配置文件对服务模块进行监听配置、异常事件处理方式配置和服务启动方式配置;所述的服务生命周期的监控是指服务器利用JMX对生命周期进行监控;此监控方法能有效实现对服务模块进行生命周期的监控及管理,并能灵活动态地对服务进行配置。然而,这种监控方法仅是通过配置文件控制监控、异常事件处理及服务启动,因而针对不同的服务应用,需要重复更改配置文件实现监控及异常处理,这不仅导致效率低,而且通用性也不高;再者,该监控方法仅仅是关注服务在生命周期内的状态是否正常,监控流程较为简单,不能全面覆盖多样化的应用系统运行中。
专利“一种基于Java的异常处理装置及其异常处理方法”(专利公开号:CN101853189A)提供一种基于Java的异常处理装置及异常处理方法,其中异常装置主要包括异常管理器、XML解析器、类反射器、异常处理器、异常处理结果信息封装器及日志记录器,并提供异常处理框架接口、异常处理器接口和日志记录器接口,将异常处理封装在一个框架中,并为用户提供了统一的调用接口和格式化的配置文件。基于Java的异常处理方法,通过提供异常处理框架接口与异常处理器接口,使传入的异常封装在一个框架内处理。该方法利用XML配置文件定义异常和异常处理之间的对应关系,虽然保证异常处理的灵活性和自动化,但XML配置文件编写较为复杂,需要专业的技术人员参与异常分析和编写工作,配置化程度不高。
如何转变传统的人工更新、检测和故障排除的模式,实现定制化监控、自动化部署、诊断和管理,提高监控的工作效率,加速定位异常的速度和缩短故障恢复时间,对计算机系统数据监控来说是一件非常重要和有意义的工作。
发明内容
为解决现有技术的局限性,本发明提供一种基于JMX的定制化实时监控及自动化异常处理的系统及方法,通过采用JMX远程方法调用RMI,构建集监控系统和多被监控系统的分布式网络连接,各个被监控系统根据各自需求自行限定运行过程中需监控的关键数据及异常发生条件,实现监控细节的定制化,满足不同系统的数据监控需求;监控系统依据被监控系统的选择及异常处理设置,实时收集、校验监控数据,并对出现的异常直接调用适合的异常处理方式进行自动化处理,减少人工参与,提高异常处理的准确率,也缩短了异常周期。
本发明的技术方案是:一种基于JMX的定制化实时监控及自动化异常处理的系统,监控系统具体包括数据采样信息库、监控模型库、异常处理库、网络通信模块、数据收集模块、数据异常处理分析模块、页面展示模块,监控数据库;被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连接;
所述数据采样信息库,用于存放数据样本信息的仓库,被监控系统根据自身所需从采样信息库中选择需要被监控的数据,如若数据采样信息库无法满足被监控系统的数据需求,则由被监控系统向数据采样信息库中添加新的数据样本,数据采样信息库会实时对新的数据样本进行保存;
所述监控模型库,用于存放所有被监控系统所对应的监控模型的仓库;经从采样信息库中采集到监控数据后,被监控系统会根据这些数据间的结构,在监控模型库中搜索相应的数据监控模型;如存在基于采样数据的数据监控模型,被监控系统直接调用;如若没有,被监控系统需要自行构建新监控模型,同时将其存入监控模型库中;
所述异常处理库,用于存放异常处理方法及流程的仓库;针对一些监控数据,被监控系统会设定异常阀值,超出阀值的监控数据则被视为异常,不同的异常对应不同的异常处理方式,因而阀值和异常处理方式相互绑定;当被监控系统的监控数据超出预定的异常阀值时,被监控系统根据阀值直接从异常处理库中调用相应的异常处理方式,在无需人工参与的情况下,自动进入异常处理流程;
所述网络通信模块,构建并管理监控系统和各个被监控系统间的网络数据传输,维护监控系统和所有被监控系统间的正常网络通信;
所述数据收集模块,用于对监控数据的实时和定时采集;监控系统的数据采集模块根据被监控系统所选的监控数据实施数据采集,采集范围包括被监控系统的链路层、网络层、设备层及系统层;数据采集方式分为变频采集、主动探测、链路管理,其中变频采集是指根据被监控系统设定的采集频率进行数据采集;主动探测是指监控系统主动对关键数据实时采集;链路管理是对监控系统和各被监控系统间的链路数据进行采集;
所述数据异常分析模块,用于对存在异常的监控数据进行定制化处理和记录;数据异常分析模块对每一次采集模块输出的数据进行阀值校验,针对那些触发阀值条件的数据,被监控系统根据阀值从异常处理库中调用相应的异常处理方式,自动进入异常处理流程;
所述页面展示模块,用于实时统计、分析数据采集模块获取的数据、发生异常的数据、被监控系统正常运行的数据及异常运行的数据,同时提供报表展示界面,助于被监控系统的负责人员评估系统运行健康状况;
所述监控数据库,用于存储实时数据收集模块监控采集的数据、数据异常分析模块采集的异常发生现场数据及数据异常分析处理的数据,是定期的监控统计报表的数据源。
最初运行的数据采样信息库、监控模型库及异常处理库中不存在任何数据;随着系统持续运行,数据采样信息库会不断积累不同的数据样本,监控模型库会不断积累不同的监控模型,异常处理库也会不断积累不同的异常处理方式,具有相同数据需求、模型需求、异常处理需求的被监控系统可直接从相应的库中调用。
一种基于JMX的定制化实时监控及自动化异常处理的方法,包括定制化数据采集监控的方法和异常识别及自动化处理的方法;
所述定制化数据采集监控的方法,是指被监控系统根据自己需要自行选择在运行过程中需要被特别关注的数据,监控系统会实时观测被监控系统的运行状况,并根据设定的数据采集频率及时收集、校验监控数据,具体步骤为:
步骤1:通过为被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连接;根据被监控系统的访问频率及其所承担的任务量,为不同的被监控系统设置不同的数据采集频率;
其中,数据采集频率规定了监控系统每次应间隔多长时间对被监控系统的运行数据进行采集;
监控系统通过记录被监控系统的IP地址实现对被监控系统的识别,进而形成两者间的连接;连接方式分为主动连接和配置连接,主动连接是指监控系统定期轮询连接到自己的IP,当发现有新的IP连接时,监控系统则认定该IP为新的监控对象,同时添加到监控队列当中;配置连接是指通过将所有被监控系统的IP地址写入监控系统的配置文件实现连接;
步骤2:由于不同的被监控系统对需要监控数据存在不同的需求,因而被监控系统可根据监控需要从监控系统的数据采样信息库中检索并选择需要监控的数据,数据定制的具体步骤包括:
步骤2-1:被监控系统确定需要监控的数据,并在数据采样信息库中搜索这些数据;
步骤2-2:监控系统判断数据采样信息库中是否存在相应的监控数据;
步骤2-3:如果数据采样信息库中存在所需的监控数据,调用这些数据;如果数据采样信息库中没有所需的数据,则继续执行步骤2-4;
步骤2-4:针对那些没有存储于数据采样信息库中的监控数据,监控系统向数据采样信息库中添加缺失的数据,再从步骤2-1开始执行;
步骤3:不同的被监控系统会定制不同的监控数据,为梳理这些监控数据间的层次结构,体现监控数据之间的关系,构建相应的数据监控模型;所有被监控系统所构建对应的监控模型存放监控模型库;
定制化数据采集监控的方法的步骤3具体包括:
步骤3-1:根据监控数据及数据之间的结构和关系,在监控模型库搜索相应的监控模型;
步骤3-2:监控系统判断监控模型库中是否存在被监控系统所需的监控模型;
步骤3-3:如果监控模型库中存在相应的监控模型,被监控系统调用该模型直接作为自己的监控模型,继续执行步骤3-5;如果监控模型库中不存在相应的监控模型,则执行步骤3-4;
步骤3-4:针对那些监控模型库中没有相匹配模型的被监控系统,监控系统根据被监控系统的模型需求,重新构建监控模型,并将该新模型存储于监控模型库中,然后再从步骤3-1开始执行;
步骤3-5:将被监控系统和监控模型进行绑定;
步骤4:针对监控模型中所涉及的所有数据,为对监控起关键作用的重要数据设定异常阀值,同时设置针对异常阀值的异常处理方式,并将该异常处理方式存储于异常处理库中;
步骤5:按照监控数据所隶属的范围,依次从链路层、网络层、设备层、系统层上获取并保存被监控系统在实际运行过程中的实时数据;
采集方式分为主动勘测和变频采集,其中主动勘测是指数据收集模块实时获取被监控系统运行数据,变频采集是指数据收集模块按照设定的采集频率收集定制的监控数据;
步骤6:针对每一个被监控系统,监控系统将每一次采集得到的监控数据与异常阀值进行校验比对,用以确认被监控系统的运行是否处于正常状态;
当监控数据未达到异常阀值时,将当前运行数据直接记录入库;
当监控数据达到异常阀值时,监控系统记录阀值的发生时间、主机信息及应用信息;同时根据异常的监控数据隶属的监控模型,定位异常发生处;
所述异常识别及自动化处理的方法,是指当被监控系统在运行过程中出现异常时,监控系统无需将所有异常问题都发送给运维人员,等待人工处理;而是经异常分析确认异常原因及异常严重性,并自动调用监控系统内的异常处理方式,直接对异常做出相应处理,具体步骤为:
步骤6-1:针对监控数据达到异常阀值的被监控系统,异常分析模块通过计算被监控系统运行时在监控数据上的数值超出阀值的范围判断异常的严重性,通过依据监控数据隶属监控模型的维度判定异常产生起因,同时记录本次异常的发生时间、所属的应用系统、发生的主机;
步骤6-2:根据阀值、阀值超出范围在异常处理库中搜索对之对应的异常处理方式;
步骤6-3:针对在监控系统内能搜寻到异常处理方式的异常,直接从异常处理库中调用异常处理方式,作用于异常对象;针对在监控系统内不能搜寻到异常处理方式的异常,监控系统应及时告知被监控系统,待被监控系统向异常处理库中添加异常处理方式后再对异常进行处理;
步骤6-4:状态入库:异常对象处理完毕后,监控系统需要将异常的现场数据和异常处理的结果信息记录入监控系统的数据库中,用以后期对被监控系统的整体运行状态做异常评估;
所述异常的现场数据,指包括异常发生的时间、异常发生的应用、异常发生的主机、异常名称、异常处理方式、异常处理用时;
步骤6-5:监控系统实时更新数据库内各个被监控系统的正常运行数据、异常运行及处理数据,并对监控数据、异常处理做不同维度的统计展现。
监控系统监控的数据范围分布在系统层、设备层、网络层、链路层;其中系统层涵盖被监控系统的运行数据;设备层涵盖被监控系统所在主机的硬件配置数据;网络层涵盖被监控系统当前网络运行状况的数据;链路层涵盖监控系统和被监控系统之间链路连接状况的数据;
具体地,监控模型是一种多维的数据结构,每一层维度都是对上一层维度的细化,下一层维度的数据隶属于上一层维度的数据,监控模型方便于异常发生时准确定位异常来源;
所述异常阀值,是判定被监控系统是否出现异常的条件;当监控数据达到指定的异常阀值时,被监控系统被视为出现异常,一方面可根据监控数据超出阀值的范围判断异常的严重性;另一方面可根据监控数据定位异常发生处及异常发生原因;
特别地,异常阀值的设定是可选择的,并且相同的异常处理方式不进行二次存储;每一个异常阀值及阀值超出范围均与异常处理库中的异常处理方式相互对应。
本发明与现有技术相比,其有益效果:
(1)本发明提供被监控系统对监控数据的自主选择,被监控系统能根据自身的运行需要自行定义监控的数据对象和监控细节,通过区分运行过程中的关键数据和非关键数据,重点对关键数据进行关注,有利于提高监控的工作效率;
(2)本发明通过构建数据采样信息库、监控模型库,被监控系统能直接从库中调用数据对象和模型对象,减少通过修改配置文件创建监控对象带来的重复工作,实现被监控系统对监控数据及模型的管理和复用;通过构建异常处理库,被监控系统能直接从库中调用异常处理方式匹配异常问题,减少为应对不同系统的同一异常处理需要而进行的重复工作,实现被监控系统对异常处理方式的管理和复用,提高异常处理的可复用性及可配置性;
(3)本发明提供自定义异常阀值与异常处理方式之间的对应关系,方便被监控系统根据实际异常处理情况,通过设定或修改阀值控制异常处理方式在异常发生时的自动化调用,减少异常处理过程中的人工参与,将原始的被动处理转变为主动处理,提高异常处理的灵活性,加速定位异常的速度,缩短故障恢复时间,确保系统运行的稳定性。
附图说明
图1为本发明实施例的基于JMX的定制化实时监控及自动化异常处理的系统结构图;
图2为本发明实施例中定制化数据采集监控的方法实现流程图;
图3为本发明实施例中监控模型构建流程图;
图4为本发明实施例中异常识别及自动化处理的方法。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,为本发明实施例中一种基于JMX的可订阅化实时监控及异常自动化处理的系统,包括以下几个部分:数据采样信息库101、监控模型库102、异常处理库103、网络通信模块104、数据收集模块105、数据异常处理分析模块106、页面展示模块107。
所述数据采样信息库101,指用于存放数据样本信息的仓库,被监控系统根据自身所需从采样信息库中选择需要被监控的数据,如若采样信息库无法满足被监控系统的数据需求,则由被监控系统向采样信息库中添加新的数据样本,采样信息库会实时对新的数据样本进行保存;
最初数据采样信息库中不存在任何数据,伴随着系统持续运行,数据采样信息库中会不断积累数据样本,以避免具有相同数据采集需求的被监控系统重复新建数据样本;
所述监控模型库102,指用于存放所有被监控系统所对应的监控模型的仓库;经从采样信息库中采集到监控数据后,被监控系统会根据这些数据间的结构,在监控模型库中搜索相应的数据监控模型,如存在基于采样数据的数据监控模型,被监控系统直接调用;如若没有,被监控系统需要自行构建新监控模型,同时将其存入监控模型库中;
所述异常处理库103,指用于存放异常处理方法及流程的仓库;针对一些关键的监控数据,被监控系统会设定异常阀值,超出阀值的监控数据则被视为异常,不同的异常对应不同的异常处理方式,因而阀值和异常处理方式相互绑定;当被监控系统的监控数据超出预定的异常阀值时,被监控系统根据阀值直接从异常处理库中调用相应的异常处理方式,在无需人工参与的情况下,自动进入异常处理流程;
最初的异常处理库中不存在任何异常处理的方法,随着系统持续运行,异常处理库会不断积累异常处理方式供被监控系统选择,而无需再由被监控系统重新建立;
所述网络通信模块104,指用构建并管理监控系统和各个被监控系统间的网络数据传输,维护监控系统和所有被监控系统间的正常网络通信;实时监控和异常处理的实现都建立于监控系统和被监控系统的正常通信情景下;
所述数据收集模块105,用于负责对监控数据的实时和定时采集;监控系统的数据采集模块根据被监控系统所选的监控数据实施数据采集,采集范围包括被监控系统的链路层、网络层、设备层及系统层;数据采集方式分为变频采集、主动探测、链路管理,其中变频采集是指根据被监控系统设定的采集频率进行数据采集;主动探测是指监控系统主动对关键数据实时采集;链路管理是对监控系统和各被监控系统间的链路数据进行采集;
所述数据异常分析模块106,用于负责对存在异常的监控数据进行定制化处理和记录;数据异常分析模块对每一次采集模块输出的数据进行阀值校验,针对那些触发阀值条件的数据,被监控系统根据阀值从异常处理库中调用相应的异常处理方式,自动进入异常处理流程;
所述页面展示模块107,用于实时统计、分析数据采集模块获取的数据、发生异常的数据、被监控系统正常运行的数据及异常运行的数据,同时提供可视化报表展示界面,助于被监控系统的负责人员评估系统运行健康状况。
所述监控数据库108,用于存储实时监控采集的数据、异常发生现场数据及异常处理数据,是定期的监控统计报表的数据源。
本发明实施例中还涉及一种基于JMX的定制化实时监控及自动化异常处理的方法,包括定制化数据采集监控的方法和异常识别及自动化处理的方法;
如图2所示,为本发明实施例中定制化数据采集监控的方法,它是指被监控系统可根据自己需要自行选择在运行过程中需要被特别关注的数据,监控系统会实时观测被监控系统的运行状况,并根据设定的数据采集频率及时收集、校验监控数据,具体步骤为:
通过为被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连接;根据被监控系统的访问频率及其所承担的任务量,为不同的被监控系统设置不同的数据采集频率;其中,数据采集频率规定了监控系统每次应间隔多长时间对被监控系统的运行数据进行采集;
监控系统通过记录被监控系统的IP地址实现对被监控系统的识别,进而形成两者间的连接;连接方式分为主动连接和配置连接,主动连接是指监控系统定期轮询连接到自己的IP,当发现有新的IP连接时,监控系统则认定该IP为新的监控对象,同时添加到监控队列当中;配置连接是指通过将所有被监控系统的IP地址写入监控系统的配置文件实现连接;
步骤202:由于不同的被监控系统对需要监控数据存在不同的需求,因而被监控系统可根据监控需要从数据采样信息库中检索并选择需要监控的数据,数据定制的具体步骤包括:
步骤202-1:被监控系统确定需要监控的数据,并在数据采样信息库中搜索这些数据;
步骤202-2:监控系统判断数据采样信息库中是否存在相应的监控数据;
步骤202-3:如果数据采样信息库中存在所需的监控数据,调用这些数据;如果数据采样信息库中没有所需的数据,则继续执行步骤2-4;
步骤202-4:针对那些没有存储于数据采样信息库中的监控数据,监控系统向数据采样信息库中添加缺失的数据,再从步骤202-1开始执行;
监控系统监控的数据范围分布在系统层、设备层、网络层、链路层;其中系统层涵盖被监控系统的运行数据;设备层涵盖被监控系统所在主机的硬件配置数据;网络层涵盖被监控系统当前网络运行状况的数据;链路层涵盖监控系统和被监控系统之间链路连接状况的数据;
特别地,监控系统初次使用时,数据采样信息库内不存在任何数据样本,随着监控系统长期运行,不断积累监控过程中需要的关键数据,以避免不同监控系统具有相同监控数据需要时,无需再重新创建数据;
步骤203:不同的被监控系统会定制不同的监控数据,为梳理这些监控数据间的层次结构,体现监控数据之间的关系,应构建相应的数据监控模型’
具体地,监控模型是一种多维的数据结构,每一层维度都是对上一层维度的细化,下一层维度的数据隶属于上一层维度的数据,监控模型方便于异常发生时准确定位异常来源;
比如:某一个监控模型Y如下所示:
具体的模型构建流程参阅图3所示:
现有被监控系统X,需要定制的监控数据分别是数据A、B、B’、C和数据A’,其中数据A、B、B’、C已存储于数据采样信息库中,相应地,基于数据A、B、B’、C之间结构关系的监控模型也已存储于监控模型库中,即监控模型X={A,B{B’},C},当前被监控系统X构建基于数据A、B、B’、C和A’之间结构关系的监控模型涉及如下步骤:
步骤301:被监控系统从数据采样信息库中调用数据A、B、B’、C、A’,识别数据之间的结构关系,即数据A、数据B和数据C相互独立,数据B’属于数据B,数据A’属于数据A;
步骤302:根据数据间的结构关系,确定需要构建的数据监控模型X,即监控模型X={A{A’},B{B’},C};
步骤303:搜索监控模型库,判断监控模型库中是否存在与监控模型X一致的模型;
步骤304:经搜索发现,监控模型库中不存在与监控模型X一致的模型,被监控系统按照自己的模型需求,新建监控模型X’={A{A’},B{B’},C};
步骤305:被监控系统将新建的监控模型X’存入监控模型库中;
步骤306:再次搜索监控模型库,找到新建的监控模型X’,对其进行调用;
步骤307:将被监控系统X和监控模型X’进行绑定;
步骤204:针对监控模型中所涉及的所有数据,为对监控起关键作用的重要数据设定异常阀值,同时设置针对异常阀值的异常处理方式,并将该异常处理方式存储于异常处理库中;
所述异常阀值,是判定被监控系统是否出现异常的条件;当监控数据达到指定的异常阀值时,被监控系统被视为出现异常,一方面可根据监控数据超出阀值的范围判断异常的严重性;另一方面可根据监控数据定位异常发生处及异常发生原因;
特别地,异常阀值的设定是可选择的,并且相同的异常处理方式不进行二次存储;
步骤205:按照监控数据所隶属的范围,依次从链路层、网络层、设备层、系统层上获取并保存被监控系统在实际运行过程中的实时数据;
具体流程包括:
步骤205-1:数据收集模块获取有关被监控系统与监控系统连接管理情况的数据;
步骤205-2:数据收集模块实时主动获取被监控系统运行状态的数据;
步骤205-3:数据收集模块按照数据采集频率收集在某个时间点上被监控系统运行数据;
步骤206:针对每一个被监控系统,监控系统将每一次采集得到的监控数据与异常阀值进行校验比对,用以确认被监控系统的运行是否处于正常状态;
当监控数据未达到异常阀值时,将当前运行数据直接记录入库;
当监控数据达到异常阀值时,监控系统记录阀值的发生时间、主机信息及应用信息;同时根据异常的监控数据隶属的监控模型,定位异常发生处。
如图4所示,为本发明实施例中异常识别及自动化处理的方法,它是指当被监控系统在运行过程中出现异常时,监控系统无需将所有异常问题都发送给运维人员,等待人工处理;而是经异常分析确认异常原因及异常严重性,并自动调用监控系统内的异常处理方式,直接对异常做出相应处理,具体步骤为:
步骤401:针对监控数据达到异常阀值的被监控系统,异常分析模块通过计算被监控系统运行时在监控数据上的数值超出阀值的范围判断异常的严重性,通过依据监控数据隶属监控模型的维度判定异常产生起因,同时记录本次异常的发生时间、所属的应用系统、发生的主机;
步骤402:根据阀值、阀值超出范围在异常处理库中搜索对之对应的异常处理方式;
步骤403:针对在监控系统内能搜寻到异常处理方式的异常,直接从异常处理库中调用异常处理方式,作用于异常对象;针对在监控系统内不能搜寻到异常处理方式的异常,监控系统应及时告知被监控系统,待被监控系统向异常处理库中添加异常处理方式后再对异常进行处理;
步骤404:状态入库:异常对象处理完毕后,监控系统需要将异常的现场数据和异常处理的结果信息记录入监控系统的数据库中,用以后期对被监控系统的整体运行状态做异常评估;
所述异常的现场数据,指包括异常发生的时间、异常发生的应用、异常发生的主机、异常名称、异常处理方式、异常处理用时;
步骤405:监控系统实时更新数据库内各个被监控系统的正常运行数据、异常运行及处理数据,并对监控数据、异常处理做不同维度的统计及可视化展现,本发明实施例中监控数据运行曲线图中也明显给出了这种统计及可视化展现。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于JMX的定制化实时监控及自动化异常处理的系统,其特征在于,包括数据采样信息库、监控模型库、异常处理库、网络通信模块、数据收集模块、数据异常处理分析模块、页面展示模块,监控数据库;被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连接;
所述数据采样信息库,用于存放数据样本信息的仓库,被监控系统根据自身所需从采样信息库中选择需要被监控的数据,如若数据采样信息库无法满足被监控系统的数据需求,则由被监控系统向数据采样信息库中添加新的数据样本,数据采样信息库会实时对新的数据样本进行保存;
所述监控模型库,用于存放所有被监控系统所对应的监控模型的仓库;经从采样信息库中采集到监控数据后,被监控系统会根据这些数据间的结构,在监控模型库中搜索相应的数据监控模型;如存在基于采样数据的数据监控模型,被监控系统直接调用;如若没有,被监控系统需要自行构建新监控模型,同时将其存入监控模型库中;
所述异常处理库,用于存放异常处理方法及流程的仓库;针对一些监控数据,被监控系统会设定异常阀值,超出阀值的监控数据则被视为异常,不同的异常对应不同的异常处理方式,因而阀值和异常处理方式相互绑定;当被监控系统的监控数据超出预定的异常阀值时,被监控系统根据阀值直接从异常处理库中调用相应的异常处理方式,在无需人工参与的情况下,自动进入异常处理流程;
所述网络通信模块,构建并管理监控系统和各个被监控系统间的网络数据传输,维护监控系统和所有被监控系统间的正常网络通信;
所述数据收集模块,用于对监控数据的实时和定时采集;监控系统的数据采集模块根据被监控系统所选的监控数据实施数据采集,采集范围包括被监控系统的链路层、网络层、设备层及系统层;数据采集方式分为变频采集、主动探测、链路管理,其中变频采集是指根据被监控系统设定的采集频率进行数据采集;主动探测是指监控系统主动对关键数据实时采集;链路管理是对监控系统和各被监控系统间的链路数据进行采集;
所述数据异常分析模块,用于对存在异常的监控数据进行定制化处理和记录;数据异常分析模块对每一次采集模块输出的数据进行阀值校验,针对那些触发阀值条件的数据,被监控系统根据阀值从异常处理库中调用相应的异常处理方式,自动进入异常处理流程;
所述页面展示模块,用于实时统计、分析数据采集模块获取的数据、发生异常的数据、被监控系统正常运行的数据及异常运行的数据,同时提供报表展示界面,助于被监控系统的负责人员评估系统运行健康状况;
所述监控数据库,用于存储实时数据收集模块监控采集的数据、数据异常分析模块采集的异常发生现场数据及数据异常分析处理的数据,是定期的监控统计报表的数据源。
2.根据权利要求1所述的一种基于JMX的定制化实时监控及自动化异常处理的系统,其特征在于,最初运行的数据采样信息库、监控模型库及异常处理库中不存在任何数据;随着系统持续运行,数据采样信息库会不断积累不同的数据样本,监控模型库会不断积累不同的监控模型,异常处理库也会不断积累不同的异常处理方式,具有相同数据需求、模型需求、异常处理需求的被监控系统可直接从相应的库中调用。
3.一种基于JMX的定制化实时监控及自动化异常处理的方法,其特征在于,包括定制化数据采集监控的方法和异常识别及自动化处理的方法;
所述定制化数据采集监控的方法,是指被监控系统根据自己需要自行选择在运行过程中需要被特别关注的数据,监控系统会实时观测被监控系统的运行状况,并根据设定的数据采集频率及时收集、校验监控数据,具体步骤为:
步骤1:通过为被监控系统开启JMX访问端口,建立监控系统与被监控系统之间的远程访问连接;根据被监控系统的访问频率及其所承担的任务量,为不同的被监控系统设置不同的数据采集频率;
步骤2:由于不同的被监控系统对需要监控数据存在不同的需求,因而被监控系统可根据监控需要从监控系统的数据采样信息库中检索并选择需要监控的数据;
步骤3:不同的被监控系统会定制不同的监控数据,为梳理这些监控数据间的层次结构,体现监控数据之间的关系,构建相应的数据监控模型;所有被监控系统所构建对应的监控模型存放监控模型库;
步骤4:针对监控模型中所涉及的所有数据,为对监控起关键作用的重要数据设定异常阀值,同时设置针对异常阀值的异常处理方式,并将该异常处理方式存储于异常处理库中;
步骤5:按照监控数据所隶属的范围,依次从链路层、网络层、设备层、系统层上获取并保存被监控系统在实际运行过程中的实时数据;
采集方式分为主动勘测和变频采集,其中主动勘测是指数据收集模块实时获取被监控系统运行数据,变频采集是指数据收集模块按照设定的采集频率收集定制的监控数据;
步骤6:针对每一个被监控系统,监控系统将每一次采集得到的监控数据与异常阀值进行校验比对,用以确认被监控系统的运行是否处于正常状态;
当监控数据未达到异常阀值时,将当前运行数据直接记录入库;
当监控数据达到异常阀值时,监控系统记录阀值的发生时间、主机信息及应用信息;同时根据异常的监控数据隶属的监控模型,定位异常发生处;
所述异常识别及自动化处理的方法,是指当被监控系统在运行过程中出现异常时,监控系统无需将所有异常问题都发送给运维人员,等待人工处理;而是经异常分析确认异常原因及异常严重性,并自动调用监控系统内的异常处理方式,直接对异常做出相应处理,具体步骤为:
步骤6-1:针对监控数据达到异常阀值的被监控系统,异常分析模块通过计算被监控系统运行时在监控数据上的数值超出阀值的范围判断异常的严重性,通过依据监控数据隶属监控模型的维度判定异常产生起因,同时记录本次异常的发生时间、所属的应用系统、发生的主机;
步骤6-2:根据阀值、阀值超出范围在异常处理库中搜索对之对应的异常处理方式;
步骤6-3:针对在监控系统内能搜寻到异常处理方式的异常,直接从异常处理库中调用异常处理方式,作用于异常对象;针对在监控系统内不能搜寻到异常处理方式的异常,监控系统应及时告知被监控系统,待被监控系统向异常处理库中添加异常处理方式后再对异常进行处理;
步骤6-4:状态入库:异常对象处理完毕后,监控系统需要将异常的现场数据和异常处理的结果信息记录入监控系统的数据库中,用以后期对被监控系统的整体运行状态做异常评估;
所述异常的现场数据,指包括异常发生的时间、异常发生的应用、异常发生的主机、异常名称、异常处理方式、异常处理用时;
步骤6-5:监控系统实时更新数据库内各个被监控系统的正常运行数据、异常运行及处理数据,并对监控数据、异常处理做不同维度的统计展现。
4.根据权利要求3所述的一种基于JMX的定制化实时监控及自动化异常处理的方法,其特征在于,定制化数据采集监控的方法的步骤2包括:
步骤2-1:被监控系统确定需要监控的数据,并在数据采样信息库中搜索这些数据;
步骤2-2:监控系统判断数据采样信息库中是否存在相应的监控数据;
步骤2-3:如果数据采样信息库中存在所需的监控数据,调用这些数据;如果数据采样信息库中没有所需的数据,则继续执行步骤2-4;
步骤2-4:针对那些没有存储于数据采样信息库中的监控数据,监控系统向数据采样信息库中添加缺失的数据,再从步骤2-1开始执行。
5.根据权利要求4所述的一种基于JMX的定制化实时监控及自动化异常处理的方法,其特征在于,定制化数据采集监控的方法的步骤3:
步骤3-1:根据监控数据及数据之间的结构和关系,在监控模型库搜索相应的监控模型;
步骤3-2:监控系统判断监控模型库中是否存在被监控系统所需的监控模型;
步骤3-3:如果监控模型库中存在相应的监控模型,被监控系统调用该模型直接作为自己的监控模型,继续执行步骤3-5;如果监控模型库中不存在相应的监控模型,则执行步骤3-4;
步骤3-4:针对那些监控模型库中没有相匹配模型的被监控系统,监控系统根据被监控系统的模型需求,重新构建监控模型,并将该新模型存储于监控模型库中,然后再从步骤3-1开始执行;
步骤3-5:将被监控系统和监控模型进行绑定。
6.根据权利要求5所述的一种基于JMX的定制化实时监控及自动化异常处理的方法,其特征在于,监控系统监控的数据范围分布在系统层、设备层、网络层、链路层;其中系统层涵盖被监控系统的运行数据;设备层涵盖被监控系统所在主机的硬件配置数据;网络层涵盖被监控系统当前网络运行状况的数据;链路层涵盖监控系统和被监控系统之间链路连接状况的数据。
7.根据权利要求6所述的一种基于JMX的定制化实时监控及自动化的方法,其特征在于,所述异常阀值,是判定被监控系统是否出现异常的条件;当监控数据达到指定的异常阀值时,被监控系统被视为出现异常,一方面可根据监控数据超出阀值的范围判断异常的严重性;另一方面可根据监控数据定位异常发生处及异常发生原因;
异常阀值的设定是可选择的,每一个异常阀值及阀值超出范围均与异常处理库中的异常处理方式相互对应。
CN201510510641.6A 2015-08-19 2015-08-19 基于jmx的定制化实时监控及自动化异常处理的系统及方法 Active CN105071969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510510641.6A CN105071969B (zh) 2015-08-19 2015-08-19 基于jmx的定制化实时监控及自动化异常处理的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510510641.6A CN105071969B (zh) 2015-08-19 2015-08-19 基于jmx的定制化实时监控及自动化异常处理的系统及方法

Publications (2)

Publication Number Publication Date
CN105071969A true CN105071969A (zh) 2015-11-18
CN105071969B CN105071969B (zh) 2017-03-08

Family

ID=54501256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510510641.6A Active CN105071969B (zh) 2015-08-19 2015-08-19 基于jmx的定制化实时监控及自动化异常处理的系统及方法

Country Status (1)

Country Link
CN (1) CN105071969B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404224A (zh) * 2015-12-16 2016-03-16 北京煜邦电力技术股份有限公司 一种处理机房故障的方法及装置
CN105843728A (zh) * 2016-03-28 2016-08-10 山东超越数控电子有限公司 一种利用wmi插件实现云计算环境下远程控制服务器的方法
CN105897474A (zh) * 2016-04-08 2016-08-24 浪潮集团有限公司 一种利用wmi插件实现云计算环境下远程控制服务器的方法
CN106250305A (zh) * 2016-08-17 2016-12-21 浪潮电子信息产业股份有限公司 云计算环境下监控系统数据采集周期的自适应控制方法
CN106506262A (zh) * 2016-10-19 2017-03-15 中国铁道科学研究院电子计算技术研究所 It设备监控指标扩展方法及it综合监控系统
CN107291585A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 容灾方法及装置、服务器
CN107332681A (zh) * 2016-04-28 2017-11-07 中国移动通信集团福建有限公司 一种故障维度分析方法及网络设备
CN107465575A (zh) * 2017-08-17 2017-12-12 郑州云海信息技术有限公司 一种集群的监控方法及系统
CN107612755A (zh) * 2017-10-31 2018-01-19 郑州云海信息技术有限公司 一种云资源的管理方法及其装置
CN107992392A (zh) * 2017-11-21 2018-05-04 国家超级计算深圳中心(深圳云计算中心) 一种用于云渲染系统的自动监控修复系统和方法
CN108234176A (zh) * 2016-12-21 2018-06-29 贵州白山云科技有限公司 一种监控系统及其方法
CN108494590A (zh) * 2018-03-15 2018-09-04 苏州思必驰信息科技有限公司 一种大数据端到端的数据质量监控方法和装置
CN108595307A (zh) * 2018-05-03 2018-09-28 广州供电局有限公司 一种基于it运维的自动自愈方法
CN109087107A (zh) * 2018-07-04 2018-12-25 恒生电子股份有限公司 基于分布式内存数据库的实时监控方法、系统及电子设备
CN109669402A (zh) * 2018-09-25 2019-04-23 平安普惠企业管理有限公司 异常监控方法、设备、装置及计算机可读存储介质
CN110457194A (zh) * 2019-08-02 2019-11-15 广东小天才科技有限公司 电子设备稳定性预警方法、系统、装置、设备和存储介质
CN112269330A (zh) * 2020-09-18 2021-01-26 许继集团有限公司 监控嵌入式设备程序实时状态的可视化系统及其使用方法
CN112346393A (zh) * 2021-01-08 2021-02-09 睿至科技集团有限公司 基于智能运维的数据全链路异常监测及处理方法和系统
CN113396394A (zh) * 2018-11-27 2021-09-14 区块链联合香港有限公司 运算设备维护方法及装置、存储介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436274A (zh) * 2008-11-14 2009-05-20 山东浪潮齐鲁软件产业股份有限公司 跨平台监控企业应用系统性能的方法
CN101605056A (zh) * 2009-06-16 2009-12-16 中兴通讯股份有限公司 一种j2ee服务器监控装置及采用该装置的监控方法
CN101620528A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 一种基于xpdl的工作流系统的架构方法
CN102904745A (zh) * 2012-09-05 2013-01-30 上海寰创通信科技股份有限公司 基于jmx的网管系统中服务生命周期管理监控方法
CN104618161A (zh) * 2015-02-02 2015-05-13 浪潮软件股份有限公司 一种应用集群监控装置及方法
CN104636244A (zh) * 2015-03-05 2015-05-20 浪潮集团有限公司 一种java+mysql+shell打造的服务器监控方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620528A (zh) * 2008-06-30 2010-01-06 上海全成通信技术有限公司 一种基于xpdl的工作流系统的架构方法
CN101436274A (zh) * 2008-11-14 2009-05-20 山东浪潮齐鲁软件产业股份有限公司 跨平台监控企业应用系统性能的方法
CN101605056A (zh) * 2009-06-16 2009-12-16 中兴通讯股份有限公司 一种j2ee服务器监控装置及采用该装置的监控方法
CN102904745A (zh) * 2012-09-05 2013-01-30 上海寰创通信科技股份有限公司 基于jmx的网管系统中服务生命周期管理监控方法
CN104618161A (zh) * 2015-02-02 2015-05-13 浪潮软件股份有限公司 一种应用集群监控装置及方法
CN104636244A (zh) * 2015-03-05 2015-05-20 浪潮集团有限公司 一种java+mysql+shell打造的服务器监控方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毕乐祥,吴健: "一种新型的基于JMX的信息交换监控管理系统", 《科学技术与工程》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105404224A (zh) * 2015-12-16 2016-03-16 北京煜邦电力技术股份有限公司 一种处理机房故障的方法及装置
CN105843728A (zh) * 2016-03-28 2016-08-10 山东超越数控电子有限公司 一种利用wmi插件实现云计算环境下远程控制服务器的方法
CN107291585A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 容灾方法及装置、服务器
CN105897474A (zh) * 2016-04-08 2016-08-24 浪潮集团有限公司 一种利用wmi插件实现云计算环境下远程控制服务器的方法
CN107332681A (zh) * 2016-04-28 2017-11-07 中国移动通信集团福建有限公司 一种故障维度分析方法及网络设备
CN107332681B (zh) * 2016-04-28 2020-01-07 中国移动通信集团福建有限公司 一种故障维度分析方法及网络设备
CN106250305A (zh) * 2016-08-17 2016-12-21 浪潮电子信息产业股份有限公司 云计算环境下监控系统数据采集周期的自适应控制方法
CN106250305B (zh) * 2016-08-17 2018-11-09 浪潮电子信息产业股份有限公司 云计算环境下监控系统数据采集周期的自适应控制方法
CN106506262A (zh) * 2016-10-19 2017-03-15 中国铁道科学研究院电子计算技术研究所 It设备监控指标扩展方法及it综合监控系统
CN108234176A (zh) * 2016-12-21 2018-06-29 贵州白山云科技有限公司 一种监控系统及其方法
CN107465575A (zh) * 2017-08-17 2017-12-12 郑州云海信息技术有限公司 一种集群的监控方法及系统
CN107612755A (zh) * 2017-10-31 2018-01-19 郑州云海信息技术有限公司 一种云资源的管理方法及其装置
CN107992392A (zh) * 2017-11-21 2018-05-04 国家超级计算深圳中心(深圳云计算中心) 一种用于云渲染系统的自动监控修复系统和方法
CN107992392B (zh) * 2017-11-21 2021-03-23 国家超级计算深圳中心(深圳云计算中心) 一种用于云渲染系统的自动监控修复系统和方法
CN108494590A (zh) * 2018-03-15 2018-09-04 苏州思必驰信息科技有限公司 一种大数据端到端的数据质量监控方法和装置
CN108595307A (zh) * 2018-05-03 2018-09-28 广州供电局有限公司 一种基于it运维的自动自愈方法
CN109087107B (zh) * 2018-07-04 2020-11-17 恒生电子股份有限公司 基于分布式内存数据库的实时监控方法、系统及电子设备
CN109087107A (zh) * 2018-07-04 2018-12-25 恒生电子股份有限公司 基于分布式内存数据库的实时监控方法、系统及电子设备
CN109669402A (zh) * 2018-09-25 2019-04-23 平安普惠企业管理有限公司 异常监控方法、设备、装置及计算机可读存储介质
CN113396394A (zh) * 2018-11-27 2021-09-14 区块链联合香港有限公司 运算设备维护方法及装置、存储介质和程序产品
CN110457194A (zh) * 2019-08-02 2019-11-15 广东小天才科技有限公司 电子设备稳定性预警方法、系统、装置、设备和存储介质
CN112269330A (zh) * 2020-09-18 2021-01-26 许继集团有限公司 监控嵌入式设备程序实时状态的可视化系统及其使用方法
CN112346393A (zh) * 2021-01-08 2021-02-09 睿至科技集团有限公司 基于智能运维的数据全链路异常监测及处理方法和系统
CN112346393B (zh) * 2021-01-08 2021-04-13 睿至科技集团有限公司 基于智能运维的数据全链路异常监测及处理方法和系统

Also Published As

Publication number Publication date
CN105071969B (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN105071969A (zh) 基于jmx的定制化实时监控及自动化异常处理的系统及方法
AU2019201687B2 (en) Network device vulnerability prediction
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
CN106487574A (zh) 自动化运行维护监测系统
CN101632093A (zh) 用于使用统计学分析来管理性能故障的系统和方法
CN108667666A (zh) 一种基于可视化技术的智能运维方法及其系统
CN108763957A (zh) 一种数据库的安全审计系统、方法及服务器
CN103412805A (zh) 一种it故障源诊断方法及系统
CN103491354A (zh) 一种系统运行监控可视化平台
CN103714479A (zh) 银行个人业务欺诈行为实时智能化集中监控的方法和系统
CN108809701A (zh) 一种数据中心智慧数据平台及其实现方法
CN104331780A (zh) 业务流程监测系统
CN101989931A (zh) 一种运维告警处理方法和装置
CN116232963B (zh) 一种链路跟踪方法及系统
CN111431754A (zh) 配用电通信网故障分析方法和系统
CN113190415A (zh) 互联网医院系统监控方法、设备、存储介质及程序产品
WO2017185976A1 (zh) 银行卡交换中心的运营保障系统
US20020026433A1 (en) Knowledge system and methods of business alerting and business analysis
CN115766768B (zh) 一种算力网络操作系统中感知中枢设计方法及装置
CN114387123B (zh) 数据采集管理方法
CN115840656A (zh) 一种基于故障自愈的应用程序自动化运维方法和系统
CN106603396B (zh) 一种基于总线型数据交换的物联网接入网关
CN113434366A (zh) 一种事件处理方法和系统
CN108880903B (zh) 一种数据流监控方法、系统、装置及计算机可读存储介质
CN115222181A (zh) 机器人运营状态监控系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant