CN108681499A - 运维监控方法、装置与计算机可读存储介质 - Google Patents

运维监控方法、装置与计算机可读存储介质 Download PDF

Info

Publication number
CN108681499A
CN108681499A CN201810418577.2A CN201810418577A CN108681499A CN 108681499 A CN108681499 A CN 108681499A CN 201810418577 A CN201810418577 A CN 201810418577A CN 108681499 A CN108681499 A CN 108681499A
Authority
CN
China
Prior art keywords
module
monitoring
application module
message
proxy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810418577.2A
Other languages
English (en)
Other versions
CN108681499B (zh
Inventor
刘帅英
黄微
王连光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xuanwu Wireless Technology Co Ltd
Original Assignee
Guangzhou Xuanwu Wireless Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xuanwu Wireless Technology Co Ltd filed Critical Guangzhou Xuanwu Wireless Technology Co Ltd
Priority to CN201810418577.2A priority Critical patent/CN108681499B/zh
Publication of CN108681499A publication Critical patent/CN108681499A/zh
Application granted granted Critical
Publication of CN108681499B publication Critical patent/CN108681499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种运维监控方法、装置与计算机可读存储介质,所述运维监控方法包括应用模块向代理模块发送所述应用模块的注册信息进行主动注册,并按照设定时间间隔向代理模块上报所述应用模块的监控数据;所述代理模块向主监控模块转发所述应用模块的注册信息、所述应用模块的监控数据;所述主监控模块根据所述应用模块的注册信息检测所述应用模块是否在线;所述主监控模块根据所述应用模块的监控数据判断是否触发警告;当所述应用模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。通过所述方法能够及时响应被监控的程序模块发生的问题,以获取有效的监控数据来定位问题并作出告警。

Description

运维监控方法、装置与计算机可读存储介质
技术领域
本发明涉及运维监控技术领域,具体涉及一种运维监控方法、装置与计算机可读存储介质。
背景技术
目前,面对多机房、大规模服务器群、复杂网络结构以及多个云产品,例如一个具有多个模块的业务系统,基本采用人工运维的方式监控系统各个模块,但是人工运维监控存在如下缺陷:响应不及时,不能够在模块发生或即将发生问题时给出及时的告警,也不能够及时获取有效的监控数据来定位问题;产品更新迭代的速度较快,通过现有的简单网络管理协议(SNMP)已不能满足产品在交互流程及适应指标变化上的需求。
发明内容
本发明的目的是提供一种运维监控方法、装置与计算机可读存储介质,能够及时响应被监控的程序模块发生的问题,以获取有效的监控数据来定位问题并作出告警。
为解决以上技术问题,本发明实施例提供了一种运维监控方法,包括:
应用模块向代理模块发送所述应用模块的注册信息进行主动注册,并按照设定时间间隔向代理模块上报所述应用模块的监控数据;
所述代理模块向主监控模块转发所述应用模块的注册信息、所述应用模块的监控数据;
所述主监控模块根据所述应用模块的注册信息检测所述应用模块是否在线;
所述主监控模块根据所述应用模块的监控数据判断是否触发警告;
当所述应用模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
优选地,所述运维监控方法还包括:
所述代理模块向所述主监控模块发送所述代理模块的注册信息进行主动注册,并按照所述设定时间间隔向所述主监控模块上报所述代理模块的监控数据;
所述主监控模块根据所述代理模块的注册信息检测所述代理模块是否在线;
所述主监控模块根据所述代理模块的监控数据判断是否触发警告;
当所述代理模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
优选地,所述运维监控方法还包括:
所述主监控模块获取所述主监控模块自身注册的注册信息以及按照所述设定时间间隔生成的监控数据;
所述主监控模块根据所述主监控模块的注册信息检测所述主监控模块是否在线;
所述主监控模块根据所述主监控模块的监控数据判断是否触发警告;
当所述主监控模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
优选地,所述主监控模块根据所述应用模块对应的注册信息检测所述应用模块是否在线,具体包括:
所述主监控模块按照设定的心跳检测时间间隔检测是否接收到所述代理模块转发的所述应用模块的注册信息;
当检测到所述主监控模块没有接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块不在线;
当检测到所述主监控模块接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块在线。
优选地,所述主监控模块根据所述应用模块的监控数据判断是否触发警告,具体包括:
所述主监控模块根据所述应用模块的监控数据,判断所述应用模块对应的CPU的使用率是否大于第一阈值或小于第二阈值;
当所述应用模块对应的CPU的使用率大于所述第一阈值或小于所述第二阈值时,确定所述应用模块触发警告。
优选地,所述运维监控方法还包括:
当所述应用模块对应的CPU的使用率大于所述第一阈值并触发警告时,所述主监控模块生成升级控制指令,并将所述升级控制指令发送到所述代理模块;
所述代理模块将所述升级控制指令转发到所述应用模块;
所述应用模块根据所述升级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率升高;
当所述应用模块对应的CPU的使用率小于所述第二阈值并触发警告时,所述主监控模块生成降级控制指令,并将所述降级控制指令发送到所述代理模块;
所述代理模块将所述降级控制指令转发到所述应用模块;
所述应用模块根据所述降级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率降低。
优选地,所述运维监控方法还包括:
所述主监控模块对所述代理模块上报的所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据进行校验规整,并将所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据发送到所述主监控模块的关系型数据库,将所述代理模块的注册信息对应的时序数据、所述代理模块的监控数据对应的时序数据、所述应用模块的注册信息对应的时序数据以及所述应用模块的监控数据对应的时序数据发送到所述主监控模块的时序数据库。
优选地,所述应用模块的监控数据包括应用模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述代理模块的监控数据包括代理模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述主监控模块的监控数据包括主监控模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息。
本发明实施例还提供了一种运维监控装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的运维监控方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的运维监控方法。
相对于现有技术,本发明实施例提供的一种运维监控方法的有益效果在于:所述运维监控方法包括:应用模块向代理模块发送所述应用模块的注册信息进行主动注册,并按照设定时间间隔向代理模块上报所述应用模块的监控数据;所述代理模块向主监控模块转发所述应用模块的注册信息、所述应用模块的监控数据;所述主监控模块根据所述应用模块的注册信息检测所述应用模块是否在线;所述主监控模块根据所述应用模块的监控数据判断是否触发警告;当所述应用模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。通过所述方法能够及时响应被监控的程序模块发生的问题,以获取有效的监控数据来定位问题并作出告警。本发明实施例还提供一种运维监控装置与计算机可读存储介质。
附图说明
图1是本发明实施例提供的一种运维监控方法的流程图;
图2是本发明实施例提供的一种运维监控装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其是本发明实施例提供的一种运维监控方法的流程图,所述运维监控方法包括:
S100:应用模块向代理模块发送所述应用模块的注册信息进行主动注册,并按照设定时间间隔向代理模块上报所述应用模块的监控数据;
S200:所述代理模块向主监控模块转发所述应用模块的注册信息、所述应用模块的监控数据;
S300:所述主监控模块根据所述应用模块的注册信息检测所述应用模块是否在线;
S400:所述主监控模块根据所述应用模块的监控数据判断是否触发警告;
S500:当所述应用模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
在本实施例中,所述应用模块(Ams-SDK)可以是系统的任意程序模块、浏览器端或移动端;当所述应用模块是系统的任意程序模块时,所述代理模块(Ams-Agent)部署在所述系统对应的服务器上;当所述应用模块是浏览器端或移动端时,一个或多个所述代理模块部署在所述主监控模块(Ams-server)对应的服务器上。所述当被运维的应用模块启动或是准备好时,通过代理模块主动向运维平台的主监控模块注册自身,注册成功后周期地向主监控模块上报自身的监控数据;主监控模块根据应用模块的注册数据以及监控数据,判断应用模块是否在线以及是否触发警告。通过应用模块的自动注册和上报监控数据,使得主监控模块能够及时响应被监控的应用模块发生的问题,以获取有效的监控数据来定位问题并作出告警并以邮件或短信的形式通知相关工作人员。同时通过分别对应用程序的在线检测和告警检测,实现准确的运维监控。
其中,应用模块(Ams-SDK)实现运维监控协议的客户端职能,提供自动注册、自动上报能力、参数设置等控制能力,并提供简易度量API,如counter、guaga、timer、Apdex性能指标等度量方法,以便应用模块能更容易度量指标项;同时SDK会针对不同语言实现语言相关的通用性能监控指标,如JAVA的JVM性能指标。主监控模块(Ams-server)实现运维监控协议的服务端职能,提供Agent接入能力。
在一种可选的实施例中,所述运维监控方法还包括:
所述代理模块向所述主监控模块发送所述代理模块的注册信息进行主动注册,并按照所述设定时间间隔向所述主监控模块上报所述代理模块的监控数据;
所述主监控模块根据所述代理模块的注册信息检测所述代理模块是否在线;
所述主监控模块根据所述代理模块的监控数据判断是否触发警告;
当所述代理模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
在本实施例中,代理模块(Ams-Agent)也是程序模块,同样会在启动后向主监控模块注册自身,注册成功后周期地向主监控模块上报自身的监控数据;主监控模块根据代理模块的注册数据以及监控数据,判断代理模块是否在线以及是否触发警告。通过代理模块的自动注册和上报监控数据,使得主监控模块能够及时响应被监控的代理模块发生的问题,以获取有效的监控数据来定位问题并作出告警。代理模块自动采集并上报操作系统、网络、中间件、数据库的性能指标,并提供应用接入,转发应用模块注册及上报的数据到主监控模块,以及代理模块还用于将主监控模块下发的控制请求,转发到应用模块;这样可以有效地减少主监控模块的接入数量,同时也避免了操作系统开放多个监控端口。
在一种可选的实施例中,所述运维监控方法还包括:
所述主监控模块获取所述主监控模块自身注册的注册信息以及按照所述设定时间间隔生成的监控数据;
所述主监控模块根据所述主监控模块的注册信息检测所述主监控模块是否在线;
所述主监控模块根据所述主监控模块的监控数据判断是否触发警告;
当所述主监控模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
在本实施例中,所述主监控模块根据自身自助注册和上报的监控数据,对自身进行监控,实现运维平台的自动发现并监控。
在一种可选的实施例中,所述主监控模块根据所述应用模块对应的注册信息检测所述应用模块是否在线,具体包括:
所述主监控模块按照设定的心跳检测时间间隔检测是否接收到所述代理模块转发的所述应用模块的注册信息;
当检测到所述主监控模块没有接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块不在线;
当检测到所述主监控模块接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块在线。
在本实施例中,所述设定的心跳检测时间间隔为所述设定时间间隔的2倍。其中,所述代理模块以及所述监控模块的在线检测方法与所述应用模块的在线检测方法相同,在此不再进行描述。
在一种可选的实施例中,所述主监控模块根据所述应用模块的监控数据判断是否触发警告,具体包括:
所述主监控模块根据所述应用模块的监控数据,判断所述应用模块对应的CPU的使用率是否大于第一阈值或小于第二阈值;
当所述应用模块对应的CPU的使用率大于所述第一阈值或小于所述第二阈值时,确定所述应用模块触发警告。
其中,所述代理模块以及所述监控模块的警告检测方法与所述应用模块的警告检测方法相同,在此不再进行描述。
在一种可选的实施例中,所述运维监控方法还包括:
当所述应用模块对应的CPU的使用率大于所述第一阈值并触发警告时,所述主监控模块生成升级控制指令,并将所述升级控制指令发送到所述代理模块;
所述代理模块将升级控制指令转发到所述应用模块;
所述应用模块根据升级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率升高;
当所述应用模块对应的CPU的使用率小于所述第二阈值并触发警告时,所述主监控模块生成降级控制指令,并将所述降级控制指令发送到所述代理模块;
所述代理模块将降级控制指令转发到所述应用模块;
所述应用模块根据降级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率降低。
在本实施例中,代理模块将主监控模块下发的控制指令,转发到应用模块;这样可以有效地减少主监控模块的接入数量,同时也避免了操作系统开放多个监控端口;同时根据主监控模块下发的控制指令可以实现应用模块指标变化的自动适应,完全无需人工参与,维护成本大大降低,从而使得应用模块指标变化与产品运行时保持一致。
在一种可选的实施例中,所述运维监控方法还包括:
所述主监控模块对所述代理模块上报的所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据进行校验规整,并将所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据发送到所述主监控模块的关系型数据库,将所述代理模块的注册信息对应的时序数据、所述代理模块的监控数据对应的时序数据、所述应用模块的注册信息对应的时序数据以及所述应用模块的监控数据对应的时序数据发送到所述主监控模块的时序数据库。
在一种可选的实施例中,所述应用模块的监控数据包括应用模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述代理模块的监控数据包括代理模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述主监控模块的监控数据包括主监控模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息。
程序模块上报基本信息(程序自描述、版本信息等)、通用指标(如JAVA程序的JVM信息)、以及业务指标项自定义信息,以便主监控模块为程序模块提供个性化的业务监视服务。
通过上述运维监控方法,使得产品及非产品的软硬件模块都能快速地适配,并能够自动化、智能地监控数量庞大、部署复杂且多样化的产品模块与非产品模块(如用户、企业等虚拟实体),智能适配质量评估策略进行预警,而且监控以及预警的策略对于部署人员、运维人员完全透明,几乎无额外部署学习成本,运维人员只需要根据收到的告警语音、短信、邮件进行处理。
请参阅图2,其是本发明实施例提供的一种运维监控装置的示意图,所述运维监控装置包括:应用模块1、代理模块2以及主监控模块3;
应用模块1(Ams-SDK)用于向代理模块2(Ams-Agent)发送所述应用模块1的注册信息进行主动注册,并按照设定时间间隔向代理模块2上报所述应用模块1的监控数据;
所述代理模块2用于向主监控模块3(Ams-server)转发所述应用模块1的注册信息、所述应用模块1的监控数据;
所述主监控模块3用于根据所述应用模块1的注册信息检测所述应用模块1是否在线;
所述主监控模块3用于根据所述应用模块1的监控数据判断是否触发警告;
当所述应用模块不在线或触发警告时,所述主监控模块3用于生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
在本实施例中,所述应用模块可以是系统的任意程序模块、浏览器端或移动端;当所述应用模块是系统的任意程序模块时,所述代理模块部署在所述系统对应的服务器上;当所述应用模块是浏览器端或移动端时,一个或多个所述代理模块部署在所述主监控模块对应的服务器上。所述当被运维的应用模块启动或是准备好时,通过代理模块主动向运维平台的主监控模块注册自身,注册成功后周期地向主监控模块上报自身的监控数据;主监控模块根据应用模块的注册数据以及监控数据,判断应用模块是否在线以及是否触发警告。通过应用模块的自动注册和上报监控数据,使得主监控模块能够及时响应被监控的应用模块发生的问题,以获取有效的监控数据来定位问题并作出告警并以邮件或短信的形式通知相关工作人员。同时通过分别对应用程序的在线检测和告警检测,实现准确的运维监控。
其中,应用模块(Ams-SDK)实现运维监控协议的客户端职能,提供自动注册、自动上报能力、参数设置等控制能力,并提供简易度量API,如counter、guaga、timer、Apdex性能指标等度量方法,以便应用模块能更容易度量指标项;同时SDK会针对不同语言实现语言相关的通用性能监控指标,如JAVA的JVM性能指标。主监控模块(Ams-server)实现运维监控协议的服务端职能,提供Agent接入能力。
在一种可选的实施例中,所述运维监控装置还包括:
所述代理模块用于向所述主监控模块发送所述代理模块的注册信息进行主动注册,并按照所述设定时间间隔向所述主监控模块上报所述代理模块的监控数据;
所述主监控模块用于根据所述代理模块的注册信息检测所述代理模块是否在线;
所述主监控模块用于根据所述代理模块的监控数据判断是否触发警告;
当所述代理模块不在线或触发警告时,所述主监控模块用于生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
在本实施例中,代理模块(Ams-Agent)也是程序模块,同样会在启动后向主监控模块注册自身,注册成功后周期地向主监控模块上报自身的监控数据;主监控模块根据代理模块的注册数据以及监控数据,判断代理模块是否在线以及是否触发警告。通过代理模块的自动注册和上报监控数据,使得主监控模块能够及时响应被监控的代理模块发生的问题,以获取有效的监控数据来定位问题并作出告警。代理模块自动采集并上报操作系统、网络、中间件、数据库的性能指标,并提供应用接入,转发应用模块注册及上报的数据到主监控模块,以及代理模块还用于将主监控模块下发的控制请求,转发到应用模块;这样可以有效地减少主监控模块的接入数量,同时也避免了操作系统开放多个监控端口。
在一种可选的实施例中,所述运维监控装置还包括:
所述主监控模块用于获取所述主监控模块自身注册的注册信息以及按照所述设定时间间隔生成的监控数据;
所述主监控模块用于根据所述主监控模块的注册信息检测所述主监控模块是否在线;
所述主监控模块用于根据所述主监控模块的监控数据判断是否触发警告;
当所述主监控模块不在线或触发警告时,所述主监控模块用于生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
在本实施例中,所述主监控模块根据自身自助注册和上报的监控数据,对自身进行监控,实现运维平台的自动发现并监控。
在一种可选的实施例中,所述主监控模块用于按照设定的心跳检测时间间隔检测是否接收到所述代理模块转发的所述应用模块的注册信息;
所述主监控模块用于当检测到所述主监控模块没有接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块不在线;
所述主监控模块用于当检测到所述主监控模块接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块在线。
在本实施例中,所述设定的心跳检测时间间隔为所述设定时间间隔的2倍。其中,所述代理模块以及所述监控模块的在线检测方法与所述应用模块的在线检测方法相同,在此不再进行描述。
在一种可选的实施例中,所述主监控模块用于根据所述应用模块的监控数据,判断所述应用模块对应的CPU的使用率是否大于第一阈值或小于第二阈值;
所述主监控模块用于当所述应用模块对应的CPU的使用率大于所述第一阈值或小于所述第二阈值时,确定所述应用模块触发警告。
其中,所述代理模块以及所述监控模块的警告检测方法与所述应用模块的警告检测方法相同,在此不再进行描述。
在一种可选的实施例中,所述运维监控装置还包括:
当所述应用模块对应的CPU的使用率大于所述第一阈值并触发警告时,所述主监控模块用于生成升级控制指令,并将所述升级控制指令发送到所述代理模块;
所述代理模块用于将升级控制指令转发到所述应用模块;
所述应用模块用于根据升级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率升高;
当所述应用模块对应的CPU的使用率小于所述第二阈值并触发警告时,所述主监控模块用于生成降级控制指令,并将所述降级控制指令发送到所述代理模块;
所述代理模块用于将降级控制指令转发到所述应用模块;
所述应用模块用于根据降级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率降低。
在本实施例中,代理模块将主监控模块下发的控制指令,转发到应用模块;这样可以有效地减少主监控模块的接入数量,同时也避免了操作系统开放多个监控端口;同时根据主监控模块下发的控制指令可以实现应用模块指标变化的自动适应,完全无需人工参与,维护成本大大降低,从而使得应用模块指标变化与产品运行时保持一致。
在一种可选的实施例中,所述运维监控装置还包括:
所述主监控模块用于对所述代理模块上报的所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据进行校验规整,并将所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据发送到所述主监控模块的关系型数据库,将所述代理模块的注册信息对应的时序数据、所述代理模块的监控数据对应的时序数据、所述应用模块的注册信息对应的时序数据以及所述应用模块的监控数据对应的时序数据发送到所述主监控模块的时序数据库。
在一种可选的实施例中,所述应用模块的监控数据包括应用模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述代理模块的监控数据包括代理模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述主监控模块的监控数据包括主监控模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息。
程序模块上报基本信息(程序自描述、版本信息等)、通用指标(如JAVA程序的JVM信息)、以及业务指标项自定义信息,以便主监控模块为程序模块提供个性化的业务监视服务。
通过上述运维监控装置,使得产品及非产品的软硬件模块都能快速地适配,并能够自动化、智能地监控数量庞大、部署复杂且多样化的产品模块与非产品模块(如用户、企业等虚拟实体),智能适配质量评估策略进行预警,而且监控以及预警的策略对于部署人员、运维人员完全透明,几乎无额外部署学习成本,运维人员只需要根据收到的告警语音、短信、邮件进行处理。
本发明实施例还提供了一种运维监控装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述的运维监控方法。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述运维监控装置中的执行过程。例如,所述计算机程序可以被分割成图2所述的运维监控装置中的功能模块。
所述运维监控装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述运维监控装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是运维监控装置的示例,并不构成对运维监控装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述运维监控装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述运维监控装置的控制中心,利用各种接口和线路连接整个运维监控装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述运维监控装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述运维监控装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的运维监控方法。
相对于现有技术,本发明实施例提供的一种运维监控方法的有益效果在于:所述运维监控方法包括:应用模块向代理模块发送所述应用模块的注册信息进行主动注册,并按照设定时间间隔向代理模块上报所述应用模块的监控数据;所述代理模块向主监控模块转发所述应用模块的注册信息、所述应用模块的监控数据;所述主监控模块根据所述应用模块的注册信息检测所述应用模块是否在线;所述主监控模块根据所述应用模块的监控数据判断是否触发警告;当所述应用模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。通过所述方法能够及时响应被监控的程序模块发生的问题,以获取有效的监控数据来定位问题并作出告警。本发明实施例还提供一种运维监控装置与计算机可读存储介质。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种运维监控方法,其特征在于,包括:
应用模块向代理模块发送所述应用模块的注册信息进行主动注册,并按照设定时间间隔向代理模块上报所述应用模块的监控数据;
所述代理模块向主监控模块转发所述应用模块的注册信息、所述应用模块的监控数据;
所述主监控模块根据所述应用模块的注册信息检测所述应用模块是否在线;
所述主监控模块根据所述应用模块的监控数据判断是否触发警告;
当所述应用模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
2.如权利要求1所述的运维监控方法,其特征在于,所述运维监控方法还包括:
所述代理模块向所述主监控模块发送所述代理模块的注册信息进行主动注册,并按照所述设定时间间隔向所述主监控模块上报所述代理模块的监控数据;
所述主监控模块根据所述代理模块的注册信息检测所述代理模块是否在线;
所述主监控模块根据所述代理模块的监控数据判断是否触发警告;
当所述代理模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
3.如权利要求1所述的运维监控方法,其特征在于,所述运维监控方法还包括:
所述主监控模块获取所述主监控模块自身注册的注册信息以及按照所述设定时间间隔生成的监控数据;
所述主监控模块根据所述主监控模块的注册信息检测所述主监控模块是否在线;
所述主监控模块根据所述主监控模块的监控数据判断是否触发警告;
当所述主监控模块不在线或触发警告时,所述主监控模块生成警告信息并将所述警告信息发送至指定的邮箱或移动终端。
4.如权利要求1所述的运维监控方法,其特征在于,所述主监控模块根据所述应用模块对应的注册信息检测所述应用模块是否在线,具体包括:
所述主监控模块按照设定的心跳检测时间间隔检测是否接收到所述代理模块转发的所述应用模块的注册信息;
当检测到所述主监控模块没有接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块不在线;
当检测到所述主监控模块接收到所述代理模块转发的所述应用模块对应的注册信息时,确定所述应用模块在线。
5.如权利要求1所述的运维监控方法,其特征在于,所述主监控模块根据所述应用模块的监控数据判断是否触发警告,具体包括:
所述主监控模块根据所述应用模块的监控数据,判断所述应用模块对应的CPU的使用率是否大于第一阈值或小于第二阈值;
当所述应用模块对应的CPU的使用率大于所述第一阈值或小于所述第二阈值时,确定所述应用模块触发警告。
6.如权利要求5所述的运维监控方法,其特征在于,所述运维监控方法还包括:
当所述应用模块对应的CPU的使用率大于所述第一阈值并触发警告时,所述主监控模块生成升级控制指令,并将所述升级控制指令发送到所述代理模块;
所述代理模块将所述升级控制指令转发到所述应用模块;
所述应用模块根据所述升级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率升高;
当所述应用模块对应的CPU的使用率小于所述第二阈值并触发警告时,所述主监控模块生成降级控制指令,并将所述降级控制指令发送到所述代理模块;
所述代理模块将所述降级控制指令转发到所述应用模块;
所述应用模块根据所述降级控制指令,修改运行时配置项,以控制所述应用模块对应的CPU的使用率降低。
7.如权利要求1所述的运维监控方法,其特征在于,所述运维监控方法还包括:
所述主监控模块对所述代理模块上报的所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据进行校验规整,并将所述代理模块的注册信息、所述代理模块的监控数据、所述应用模块的注册信息以及所述应用模块的监控数据发送到所述主监控模块的关系型数据库,将所述代理模块的注册信息对应的时序数据、所述代理模块的监控数据对应的时序数据、所述应用模块的注册信息对应的时序数据以及所述应用模块的监控数据对应的时序数据发送到所述主监控模块的时序数据库。
8.如权利要求1-7任一项所述的运维监控方法,其特征在于,所述应用模块的监控数据包括应用模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述代理模块的监控数据包括代理模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息;所述主监控模块的监控数据包括主监控模块的程序自描述信息、版本信息、JVM信息以及业务指标自定义信息。
9.一种运维监控装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的运维监控方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至8中任意一项所述的运维监控方法。
CN201810418577.2A 2018-05-04 2018-05-04 运维监控方法、装置与计算机可读存储介质 Active CN108681499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810418577.2A CN108681499B (zh) 2018-05-04 2018-05-04 运维监控方法、装置与计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810418577.2A CN108681499B (zh) 2018-05-04 2018-05-04 运维监控方法、装置与计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108681499A true CN108681499A (zh) 2018-10-19
CN108681499B CN108681499B (zh) 2019-03-15

Family

ID=63801566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810418577.2A Active CN108681499B (zh) 2018-05-04 2018-05-04 运维监控方法、装置与计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108681499B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582547A (zh) * 2018-12-11 2019-04-05 平安科技(深圳)有限公司 电子装置、监控数据告警方法及存储介质
CN112929191A (zh) * 2019-12-05 2021-06-08 马上消费金融股份有限公司 服务监控方法、系统以及相关设备、装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072129A (zh) * 2007-06-25 2007-11-14 北京邮电大学 基于jmx的网络业务管理方法及其应用系统
US20100001834A1 (en) * 2008-07-06 2010-01-07 Frank Brunswig System and method for a message registry and message handling in a service -oriented business framework
CN103281366A (zh) * 2013-05-21 2013-09-04 山东地纬计算机软件有限公司 一种支持实时运行状态获取的嵌入式代理监控装置及方法
CN103283209A (zh) * 2011-04-18 2013-09-04 北京新媒传信科技有限公司 一种应用服务平台系统及其实现方法
CN105227379A (zh) * 2015-10-29 2016-01-06 国家电网公司 一种针对java web 应用的集中监控和预警方法
CN105871957A (zh) * 2015-01-21 2016-08-17 深圳市腾讯计算机系统有限公司 监控框架设计方法和监控服务器、代理单元、中控服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072129A (zh) * 2007-06-25 2007-11-14 北京邮电大学 基于jmx的网络业务管理方法及其应用系统
US20100001834A1 (en) * 2008-07-06 2010-01-07 Frank Brunswig System and method for a message registry and message handling in a service -oriented business framework
CN103283209A (zh) * 2011-04-18 2013-09-04 北京新媒传信科技有限公司 一种应用服务平台系统及其实现方法
CN103281366A (zh) * 2013-05-21 2013-09-04 山东地纬计算机软件有限公司 一种支持实时运行状态获取的嵌入式代理监控装置及方法
CN105871957A (zh) * 2015-01-21 2016-08-17 深圳市腾讯计算机系统有限公司 监控框架设计方法和监控服务器、代理单元、中控服务器
CN105227379A (zh) * 2015-10-29 2016-01-06 国家电网公司 一种针对java web 应用的集中监控和预警方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582547A (zh) * 2018-12-11 2019-04-05 平安科技(深圳)有限公司 电子装置、监控数据告警方法及存储介质
CN112929191A (zh) * 2019-12-05 2021-06-08 马上消费金融股份有限公司 服务监控方法、系统以及相关设备、装置
CN112929191B (zh) * 2019-12-05 2023-08-15 马上消费金融股份有限公司 服务监控方法、系统以及相关设备、装置

Also Published As

Publication number Publication date
CN108681499B (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
CN109586999A (zh) 一种容器云平台状态监控预警系统、方法及电子设备
JPH06509431A (ja) コンピュータシステムの監視方法及び装置
CN110287081A (zh) 一种服务监控系统和方法
CN109067597A (zh) 一种分布式系统动态智能服务治理方法
CN104252479B (zh) 信息的处理方法、装置和系统
CN111897705B (zh) 服务状态处理、模型训练方法、装置、设备和存储介质
CN108681499B (zh) 运维监控方法、装置与计算机可读存储介质
CN109459635B (zh) 虚拟现实游戏设备故障监测方法及装置
US20220414372A1 (en) Scene detection method and apparatus, electronic device and computer storage medium
WO2016197737A1 (zh) 自检处理方法、装置及系统
CN111400189A (zh) 代码覆盖率监测方法、装置、电子设备及存储介质
CN111130944B (zh) 系统监控方法及系统
CN109547262A (zh) 一种基于zabbix监控交易系统异常的方法及其系统
CN108809720A (zh) 云数据系统中告警任务的管理方法和装置
CN115860729A (zh) 一种it运维综合管理系统
CN107579858A (zh) 云主机的告警方法及装置、通信系统
CN112100239A (zh) 车辆检测设备画像生成方法、装置、服务器及可读存储介质
CN110182871A (zh) 一种基于全自动加药系统的水处理方法及终端
CN109358998A (zh) 一种服务器检测方法、装置及系统
Loeb et al. The Utah anesthesia workstation.
CN111583595A (zh) 动物监测方法、装置、存储介质、可穿戴设备与监测设备
CN116708217A (zh) 一种数据中心设备监控方法、系统、电子设备及存储介质
CN110460814A (zh) 指示信息的发送方法及装置、存储介质、电子装置
CN110275815A (zh) 一种系统异常告警处理方法及装置
CN114490272A (zh) 数据处理方法及装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Operation and maintenance monitoring method, device and computer readable storage medium

Effective date of registration: 20210308

Granted publication date: 20190315

Pledgee: Shanghai Pudong Development Bank Limited by Share Ltd. Guangzhou branch

Pledgor: GUANGZHOU XUANWU WIRELESS TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000062

CP02 Change in the address of a patent holder

Address after: 510000 room 23bd, No. 109, TIYU West Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGZHOU XUANWU WIRELESS TECHNOLOGY Co.,Ltd.

Address before: 32B, no.103b, TianLiHe Road, Guangzhou, 510000

Patentee before: GUANGZHOU XUANWU WIRELESS TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220525

Granted publication date: 20190315

Pledgee: Shanghai Pudong Development Bank Limited by Share Ltd. Guangzhou branch

Pledgor: GUANGZHOU XUANWU WIRELESS TECHNOLOGY Co.,Ltd.

Registration number: Y2021440000062

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Operation and maintenance monitoring methods, devices, and computer-readable storage media

Effective date of registration: 20230331

Granted publication date: 20190315

Pledgee: Shanghai Pudong Development Bank Limited by Share Ltd. Guangzhou branch

Pledgor: GUANGZHOU XUANWU WIRELESS TECHNOLOGY Co.,Ltd.

Registration number: Y2023980037128

PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20190315

Pledgee: Shanghai Pudong Development Bank Limited by Share Ltd. Guangzhou branch

Pledgor: GUANGZHOU XUANWU WIRELESS TECHNOLOGY Co.,Ltd.

Registration number: Y2023980037128