CN109714192A - 一种监控云平台的监控方法及系统 - Google Patents

一种监控云平台的监控方法及系统 Download PDF

Info

Publication number
CN109714192A
CN109714192A CN201811446009.XA CN201811446009A CN109714192A CN 109714192 A CN109714192 A CN 109714192A CN 201811446009 A CN201811446009 A CN 201811446009A CN 109714192 A CN109714192 A CN 109714192A
Authority
CN
China
Prior art keywords
data
monitoring
collection agent
server
cloud platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811446009.XA
Other languages
English (en)
Other versions
CN109714192B (zh
Inventor
冷迪
刘威
黄建华
陈瑞
吕志宁
庞宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Digital Platform Technology Guangdong Co ltd
Shenzhen Power Supply Co ltd
Original Assignee
Shenzhen Power Supply Bureau Co Ltd
Shenzhen Comtop Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Power Supply Bureau Co Ltd, Shenzhen Comtop Information Technology Co Ltd filed Critical Shenzhen Power Supply Bureau Co Ltd
Priority to CN201811446009.XA priority Critical patent/CN109714192B/zh
Publication of CN109714192A publication Critical patent/CN109714192A/zh
Application granted granted Critical
Publication of CN109714192B publication Critical patent/CN109714192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种监控云平台的监控方法,该方法包括下述步骤:S1、在监控云平台的业务应用层、中间件层、基础设施层上安装采集代理模块;S2、所述采集代理模块定时采集所述业务应用层、所述中间件层、所述基础设施层中监控对象的指标数据,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据;S3、所述采集代理模块将采集的数据上传至服务端不同类型的消息队列,以便服务端对收集的数据进行分类处理。本发明可以实现将不同应用的前端、后端、集群、容器的指标数据通过采集代理进行统一的采集,方便统一云平台的集中监控。

Description

一种监控云平台的监控方法及系统
技术领域
本发明涉及网络技术领域,尤其涉及一种监控云平台的监控方法及系统。
背景技术
随着Devops(一组过程、方法与系统的统称)、云计算、微服务、容器等理念的逐步落地和大力发展,机器越来越多,应用越来越多,服务越来越微,应用运行基础环境越来多样化,容器、虚拟机、物理机。面对动辄几百上千个虚拟机、容器,数百种要监控的对象,现有的监控系统已经不能满足,来自于容器、虚拟机、物理机、网络设备、中间件的指标数据将采用同一套方案快速、完整的收集和分析告警并且使用分布式的架构、技术方案才更适合如此庞大繁杂的监控需求。
已经有些开源监控软件功能都很全面,从数据采集到数据展现都提供了支持,但是这些都是针对于传统的数据采集系统,不能对不同应用的前端、后端、集群、容器的指标数据的统一采集以及集中监控。
发明内容
为解决上述技术问题,本发明提供一种监控云平台的监控方法及系统,可以实现将不同应用的前端、后端、集群、容器的指标数据通过采集代理进行统一的采集,方便统一云平台的集中监控。
本发明提供的一种监控云平台的监控方法,包括下述步骤:
S1、在监控云平台的业务应用层、中间件层、基础设施层上安装采集代理模块;
S2、所述采集代理模块定时采集所述业务应用层、所述中间件层、所述基础设施层中监控对象的指标数据,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据;
S3、所述采集代理模块将采集的数据上传至服务端不同类型的消息队列,以便服务端对收集的数据进行分类处理。
优选地,还包括下述步骤:
所述服务端根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及单个预设阈值,计算是否发生阈值告警;
所述服务端还根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及一组预设阈值,计算是否发生规则告警。
优选地,还包括下述步骤:
当阈值告警和/或规则告警发生之后,通过预存的邮箱信息或短信信息将告警发生的信息推送给用户;
当阈值告警和/或规则告警解除之后,通过预存的邮箱信息或短信信息将告警解除的信息推送给用户。
优选地,还包括下述步骤:
所述服务端采用负载均衡的方法构建收集端集群,并通过收集端集群收集来自所述采集代理模块的数据;
所述服务端在收集来自所述采集代理模块的数据之后,将来自所述采集代理模块的数据先放置在分布式消息队列中,再从分布式消息队列中读取该数据并存储到时序数据库中。
优选地,所述采集代理模块定时采集所述业务应用层、所述中间件层、所述基础设施层中监控对象的指标数据,具体包括下述步骤:
所述采集代理模块自启动一个线程,并通过该线程扫描发现需要监控的新对象,在扫描发现新对象之后,将扫描结果信息发送至所述服务端;
所述服务端接收扫描结果信息之后,提示用户有发现新对象,在用户确定需要监控新对象之后,则给新对象分配ID地址,并发送开始监控指令至所述采集代理模块;
所述采集代理模块根据开始监控指令,将新对象加入指标管理中进行统一管理,并开始实时采集新对象的指标数据。
本发明还提供一种监控云平台的监控系统,包括:服务端、采集代理模块、采集代理安装模块;
所述采集代理安装模块,用于在监控云平台的业务应用层、中间件层、基础设施层上安装所述采集代理模块;
所述采集代理模块,用于通定时采集所述业务应用层、所述中间件层、所述基础设施层中监控对象的指标数据,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据;
所述采集代理模块,还用于将采集的数据上传至所述服务端不同类型的消息队列,以便服务端对收集的数据进行分类处理。
优选地,所述服务端包括:
告警计算模块,用于根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及单个预设阈值,计算是否发生阈值告警;
所述告警计算模块,还用于接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及一组预设阈值,计算是否发生规则告警。
优选地,所述服务端还包括:
信息推送模块,用于当阈值告警和/或规则告警发生之后,通过预存的邮箱信息或短信信息将告警发生的信息推送给用户,以及当阈值告警和/或规则告警解除之后,通过预存的邮箱信息或短信信息将告警解除的信息推送给用户。
优选地,所述服务端还包括:
集群创建模块,用于采用负载均衡的方法构建收集端集群,并通过收集端集群收集来自所述采集代理模块的数据;
数据存储模块,用于在收集来自所述采集代理模块的数据之后,将来自所述采集代理模块的数据先放置在分布式消息队列中,再从分布式消息队列中读取该数据并存储到时序数据库中。
优选地,所述采集代理模块,进一步地用于自启动一个线程,并通过该线程扫描发现需要监控的新对象,在扫描发现新对象之后,将扫描结果信息发送至所述服务端;
所述采集代理模块,还用于根据开始监控指令,将新对象加入指标管理中进行统一管理,并开始实时采集新对象的指标数据;
所述服务端还包括:
监控确认模块,用于接收扫描结果信息之后,提示用户有发现新对象,在用户确定需要监控新对象之后,则给新对象分配ID地址,并发送开始监控指令至所述采集代理模块。
实施本发明,具有如下有益效果:本发明提供的方法及系统中,在监控云平台中有多个容器构成的容器集群,容器集群为多个应用构成的应用集群提供服务。本发明提供的监控方法,通过采集代理模块定时采集业务应用层、中间件层、基础设施层中监控对象的指标数据,业务应用层主要包括应用软件等,中间件层包括数据库、缓存、配置中心、等各种系统软件,基础设施层主要有物理机、虚拟机、容器、网络设备、存储设备等等,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据,实现了将不同应用的前端、后端、集群、容器的指标数据通过采集代理进行统一的采集。并且,采集代理将采集的指标数据输出至服务端不同的类别的消息队列,以便于服务端可以分类处理不同的指标数据,并且进行指标的转发、告警等生命周期的管理。
本发明可以降低运维人员排查问题的时间,统一云平台上的集中监控,可以满足复杂的指标采集、收集、告警、查询和分析;并且通过监控了解系统的运行情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的监控云平台的监控方法的流程图。
图2是本发明提供的监控云平台的监控方法中采集代理模块、服务端、运维人员之间的交互示意图。
图3是本发明提供的监控云平台的监控系统的原理框图。
图4是本发明提供的监控云平台的监控系统一实施例中的具体部署架构示意图。
具体实施方式
本发明提供了一种监控云平台的监控方法,如图1所示,该方法包括下述步骤:
S1、在监控云平台的业务应用层、中间件层、基础设施层上安装采集代理模块(agent);
S2、采集代理模块定时采集业务应用层、中间件层、基础设施层中监控对象的指标数据,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据;
S3、采集代理模块将采集的数据上传至服务端不同类型的消息队列,以便服务端对收集的数据进行分类处理。
在监控云平台中有多个容器构成的容器集群,容器集群为多个应用构成的应用集群提供服务。本发明提供的监控方法,实现了将不同应用的前端、后端、集群、容器的指标数据通过采集代理进行统一的采集。并且,采集代理将采集的指标数据输出至服务端不同的类别的消息队列,以便于服务端可以分类处理不同的指标数据,并且进行指标的转发、告警等生命周期的管理。
上述的监控云平台基于k8s容器云背景实现了自己的系统监控,首先应用运行在由kubernetes+docker构建的容器平台中,kubernetes、docker等服务运行在IaaS平台上。
进一步地,监控云平台的监控方法还包括下述步骤:
服务端根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及单个预设阈值,计算是否发生阈值告警;
服务端还根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及一组预设阈值,计算是否发生规则告警。
例如,当CPU的指标值大于85时,则确定CPU发生阈值告警,当CPU的指标值大于85且内存的指标值大于80时,则确定发生规则告警。
进一步地,监控云平台的监控方法还包括下述步骤:
当阈值告警和/或规则告警发生之后,通过预存的邮箱信息或者手机号码信息将告警发生的信息推送给用户;
当阈值告警和/或规则告警解除之后,通过预存的邮箱信息或者手机号码信息将告警解除的信息推送给用户。
进一步地,监控云平台的监控方法还包括下述步骤:
服务端采用负载均衡的方法构建收集端集群,并通过收集端集群收集来自采集代理模块的数据;
服务端在收集来自采集代理模块的数据之后,将来自采集代理模块的数据先放置在分布式消息队列中,再从分布式消息队列中读取该数据并进行分类后存储到时序数据库中。在保存数据入库的同时,会对数据做一些基本的处理,比如生成指标事件放入消息队列。
进一步地,监控云平台的监控方法采集代理模块定时采集业务应用层、中间件层、基础设施层中监控对象的指标数据,具体包括下述步骤:
采集代理模块自启动一个线程,并通过该线程扫描发现需要监控的新对象,在扫描发现新对象之后,将扫描结果信息发送至服务端;
服务端接收扫描结果信息之后,提示用户有发现新对象,在用户确定需要监控新对象之后,则给新对象分配ID地址,并发送开始监控指令至采集代理模块;
采集代理模块根据开始监控指令,将新对象加入指标管理中进行统一管理,并开始实时采集新对象的指标数据。
监控云平台上的应用、中间件都是以微服务形式运行在容器里,容器编排跟传统的布置方式是不一样的,从层次上来分,监控云平台大致可以分为三层,业务应用层、中间件层、基础设施层。业务应用层主要包括应用软件等,中间件层包括数据库、缓存、配置中心、等各种系统软件,基础设施层主要有物理机、虚拟机、容器、网络设备、存储设备等等。
通过业务应用层、中间件层、基础设施层安装采集代理模块(agent),对所有指标数据进行统一采集,按照不同的分类主要区分业务监控指标、应用指标、系统软件监控指标、系统监控指标等数据。应用监控指标如:可用性、异常、吞吐量、响应时间、当前等待笔数、资源占用率、请求量、日志大小、性能、队列深度、线程数、服务调用次数、访问量、服务可用性等。业务监控指标如:大额流水、流水区域、流水明细、请求笔数、响应时间、响应笔数等,系统监控指标如:CPU负载、内存负载、磁盘负载、网络IO、磁盘IO、tcp连接数、进程数等。
采集代理模块(agent)可以主动对采集目标进行指标的定时采集,并且实现对前端web界面的用户操作、应用数据以及基础框架基础设施数据的采集。
采集代理模块(agent)的主要功能如下:1.加载需要监控的对象类型;2.自动发现需要监控的对象;3.采集监控对象上的指标;4.接收监控对象上报的告警;5.上报数据至服务端的数据收集程序。
采集代理模块的启动原理如下:采集代理模块在启动时,PluginLoader扫描插件目录,读取所有满足文件名为**-plugin.jar的文件,并从读取plugin.xml中的配置,并加载类。
PluginManager从plugin.xml中读取要监控对象的类型、该类型对象具有哪些需要监控的指标,每个指标需要使用何种方式采集等信息。PluginManager动态加载Detector和MeasurementCollector并把这些类分别加入AutoinventoryManager和MeasurementManager中管理。一般来说,一个Server级(服务器级)的监控对象,应该对应一个独立的jar。
采集代理模块会启动一个线程,该线程会定时执行检测列表中的对象,用以扫描发现需要监控的对象实例。
扫描程序可以使用多种方式扫描监控对象实例,比如:扫描进程、文件系统,在读取某路径下节点信息等。
扫描发现了监控对象实例后,会将结果信息发送给服务端(数据收集程序)入库。操作维护中心会提示运维人员,新发现了一个监控对象。
若运维人员确定监控该对象,则服务端会给该对象实例分配ID,并发送开始监控指令给采集代理模块。采集代理模块会将该监控对象实例采集指标使用的类,将其加入指标管理中。
数据采集一般分为两种方式:主动采集、客户端采集。主动采集一般是通过SNMP、SSH、Telnet、IPMI、JMX等手段进行远程采集,客户端采集则是需要在每一个要监控的主机中部署一个客户端进行数据采集并发送到远程服务端进行接收。
采集代理模块的数据收集程序节点可以进行水平扩展,技术上引入Kafka、SparkStreaming来提高整个系统收集部分的稳定性及计算能力,最终的数据落盘到Hbase中,以供后续的展示及离线计算。服务端的各个数据收集端使用负载均衡构建收集端集群,一方面提升服务端整体收集数据能力,另一方面也可以在一定程度上解决网络区域隔离的问题。
在面临海量监控时,考虑到网络的压力和数据处理的瓶颈,在数据存储前先经过一层数据缓冲,将采集到的数据先放置到消息队列中,然后再从分布式队列中读取数据并存储。
对于系统监控数据,通常采用时序数据库来存储,时序数据库全称为时间序列数据库。时间序列数据库主要用于指处理带时间标签(按照时间的顺序变化,即时间序列化)的数据,带时间标签的数据也称为时间序列数据。
数据收集程序主要功能为:1.收集上报的指标、告警数据并入库;2.使用单个指标值计算阀值告警;3.使用一组指标值调用规则引擎计算告警;4.将收到的指标和告警转发给数据通知接口;5.为用户提供操作界面。
告警管理是监控系统提供的对资源进行监控与告警的一项功能,以便于系统维护人员及时了解系统运行情况,排除故障。
告警管理负责告警策略配置、告警判定、告警处理、用户组管理等,可以单独工作。
系统邮箱主要用于告警事件信息推送,当告警发生或解除时,系统会通过系统邮箱将告警信息推送给通知对象。
告警事件是告警策略的条件触发时产生的信息,按照分类,分为:异常事件和正常事件两种。异常事件表示监控对象运行出现异常情况;正常事件表示监控对象异常情况被解除。
通过我们的告警管理对一般的监控到的结果是成功或者失败,如Ping不通、访问网页出错、连接不到Socket,发生时这些称之为故障,故障是最优先的告警。除此之外,还能监控到返回的延时、内容等,如Ping返回的延时、访问网页的时间、访问网页取到的内容等。利用返回的结果可以自定义告警条件,如Ping监控的返回延时一般是10-30ms之间,当延时大于100ms时候,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否流量过大或者服务器CPU太高等问题。
更具体地:
前端页面中设置的采集代理模块以JS文件的方式提供,业务可以通过修改业务页面手工引入这个采集代理模块对应的文件,也可以通过一些代理服务器来动态引入。引入成功后,当请求到这页面时,前端采集代理模块会在页面加载完成、或者发生ajax请求、或者出现异常错误的时候,将相关的性能信息打包并以异步的方式发送到前端数据收集端。数据上报时,对于跨域问题,针对不同版本的浏览器采集器使用image、cros、sendBeacon等方式进行处理的。
前端页面提供查看指标、查看告警、管理告警、展示系统全局状态等功能,同时还提供对采集代理模块的管理功能,例如,采集代理模块发现了一个监控对象之后,用户需要通过前端页面确认该监控对象。
采集代理模块基于JDK(Java SE6)提供的Instrumentation机制,在class文件被加载的时候,通过字节码技术,动态对Framework、数据库、NoSQL、WebService、组件等特定方法实施监控,从而获得方法执行时间、数据库执行时间、NoSQL响应时间以及外部服务响应时间;并在这些服务调用过程发生错误的时候,记录错误异常。采集代理模块使用简单,需业务系统在启动命令上添加javaagent参数即可,需要监控的业务方法信息可通过监控系统进行配置,而对于一些框架代码则直接由全链路监控系统进行预处理,采集代理模块启动完成后,会自动对以上方法进行监控增强,以此记录监控系统性能信息。
服务端的LatherServlet收到上报的数据后,会启动一个线程(ServiceCallThread)处理上报的数据。该线程会根据上报数据的数据类型(DataType,属于什么业务的数据,比如,是采集的指标或是发现的采集对象),将数据分发给对应的服务处理。根据业务不同,采集代理模块上报的数据会有不同的类型。
在本发明提供的另一实施例中,采集代理模块、服务端、运维人员之间的交互如图2所示,可以看出通过服务端向采集代理模块下发移除监控指令,可以将不需要再继续监控的对象从指标管理中删除,不再继续监控该对象的指标数据了。服务端还可以下发配置修改命令至采集代理模块,采集代理模块可以对配置参数(例如指标别名、数据采集周期)进行修改后再保存。
本发明还提供一种监控云平台的监控系统,如图3所示,该监控系统包括:服务端2、采集代理模块1、采集代理安装模块(图中未示出)。
采集代理安装模块用于在监控云平台的业务应用层、中间件层、基础设施层上安装采集代理模块1。
采集代理模块1用于通过采集代理模块定时采集业务应用层、中间件层、基础设施层中监控对象的指标数据,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据。
采集代理模块1还用于将采集的数据上传至服务端不同类型的消息队列,以便服务端对收集的数据进行分类处理。
进一步地,服务端2包括:告警计算模块21。
告警计算模块21用于根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及单个预设阈值,计算是否发生阈值告警。
告警计算模块21还用于接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及一组预设阈值,计算是否发生规则告警。
进一步地,服务端2还包括:信息推送模块22。
信息推送模块22用于当阈值告警和/或规则告警发生之后,通过预存的邮箱信息或者手机号码信息将告警发生的信息推送给用户,以及当阈值告警和/或规则告警解除之后,通过预存的邮箱信息或者手机号码信息将告警解除的信息推送给用户。
进一步地,服务端2还包括:集群创建模块23、数据存储模块24。
集群创建模块23用于采用负载均衡的方法构建收集端集群,并通过收集端集群收集来自采集代理模块的数据。
数据存储模块24用于在收集来自采集代理模块的数据之后,将来自采集代理模块的数据先放置在分布式消息队列中,再从分布式消息队列中读取该数据并存储到时序数据库中。
采集代理模块1进一步地用于自启动一个线程,并通过该线程扫描发现需要监控的新对象,在扫描发现新对象之后,将扫描结果信息发送至服务端2。
采集代理模块1还用于根据开始监控指令,将新对象加入指标管理中进行统一管理,并开始实时采集新对象的指标数据。
服务端2还包括:监控确认模块25。
监控确认模块25用于接收扫描结果信息之后,提示用户有发现新对象,在用户确定需要监控新对象之后,则给新对象分配ID地址,并发送开始监控指令至采集代理模块。
在图3中还可以看出,操作维护中心3与服务端2之间通信连接,运维人员可以通过操作维护中心3可以将采集代理模块的配置信息下发至服务端2,以及从服务端2读取数据并展示。
如图4所示,监控云平台的监控系统一实施例中的具体部署架构中,MQ服务器集群、数据采集服务器、监控服务器、通知服务器、数据库服务器、统一监控平台、综合报警平台构成上述的服务端。在每一个被监控设备上均设置有用于监控基础服务的采集代理模块。
综上所述,本发明提供的方法及系统中,在监控云平台中有多个容器构成的容器集群,容器集群为多个应用构成的应用集群提供服务。本发明提供的监控方法,实现了将不同应用的前端、后端、集群、容器的指标数据通过采集代理进行统一的采集。并且,采集代理将采集的指标数据输出至服务端不同的类别的消息队列,以便于服务端可以分类处理不同的指标数据,并且进行指标的转发、告警等生命周期的管理。
本发明可以降低运维人员排查问题的时间,统一云平台上的集中监控,可以满足复杂的指标采集、收集、告警、查询和分析;并且通过监控了解系统的运行情况。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种监控云平台的监控方法,其特征在于,包括下述步骤:
S1、在监控云平台的业务应用层、中间件层、基础设施层上安装采集代理模块;
S2、所述采集代理模块定时采集所述业务应用层、所述中间件层、所述基础设施层中监控对象的指标数据,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据;
S3、所述采集代理模块将采集的数据上传至服务端不同类型的消息队列,以便服务端对收集的数据进行分类处理。
2.根据权利要求1所述的监控云平台的监控方法,其特征在于,还包括下述步骤:
所述服务端根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及单个预设阈值,计算是否发生阈值告警;
所述服务端还根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及一组预设阈值,计算是否发生规则告警。
3.根据权利要求2所述的监控云平台的监控方法,其特征在于,还包括下述步骤:
当阈值告警和/或规则告警发生之后,通过预存的邮箱信息或短信信息将告警发生的信息推送给用户;
当阈值告警和/或规则告警解除之后,通过预存的邮箱信息或短信信息将告警解除的信息推送给用户。
4.根据权利要求2所述的监控云平台的监控方法,其特征在于,还包括下述步骤:
所述服务端采用负载均衡的方法构建收集端集群,并通过收集端集群收集来自所述采集代理模块的数据;
所述服务端在收集来自所述采集代理模块的数据之后,将来自所述采集代理模块的数据先放置在分布式消息队列中,再从分布式消息队列中读取该数据并存储到时序数据库中。
5.根据权利要求4所述的监控云平台的监控方法,其特征在于,所述采集代理模块定时采集所述业务应用层、所述中间件层、所述基础设施层中监控对象的指标数据,具体包括下述步骤:
所述采集代理模块自启动一个线程,并通过该线程扫描发现需要监控的新对象,在扫描发现新对象之后,将扫描结果信息发送至所述服务端;
所述服务端接收扫描结果信息之后,提示用户有发现新对象,在用户确定需要监控新对象之后,则给新对象分配ID地址,并发送开始监控指令至所述采集代理模块;
所述采集代理模块根据开始监控指令,将新对象加入指标管理中进行统一管理,并开始实时采集新对象的指标数据。
6.一种监控云平台的监控系统,其特征在于,包括:服务端、采集代理模块、采集代理安装模块;
所述采集代理安装模块,用于在监控云平台的业务应用层、中间件层、基础设施层上安装所述采集代理模块;
所述采集代理模块,用于通定时采集所述业务应用层、所述中间件层、所述基础设施层中监控对象的指标数据,以及采集监控云平台对应的前端操作界面的用户操作数据和基础设施数据;
所述采集代理模块,还用于将采集的数据上传至所述服务端不同类型的消息队列,以便服务端对收集的数据进行分类处理。
7.根据权利要求6所述的监控云平台的监控系统,其特征在于,所述服务端包括:
告警计算模块,用于根据接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及单个预设阈值,计算是否发生阈值告警;
所述告警计算模块,还用于接收的指标数据、前端操作界面的用户操作数据和基础设施数据,以及一组预设阈值,计算是否发生规则告警。
8.根据权利要求7所述的监控云平台的监控系统,其特征在于,所述服务端还包括:
信息推送模块,用于当阈值告警和/或规则告警发生之后,通过预存的邮箱信息或短信信息将告警发生的信息推送给用户,以及当阈值告警和/或规则告警解除之后,通过预存的邮箱信息或短信信息将告警解除的信息推送给用户。
9.根据权利要求7所述的监控云平台的监控系统,其特征在于,所述服务端还包括:
集群创建模块,用于采用负载均衡的方法构建收集端集群,并通过收集端集群收集来自所述采集代理模块的数据;
数据存储模块,用于在收集来自所述采集代理模块的数据之后,将来自所述采集代理模块的数据先放置在分布式消息队列中,再从分布式消息队列中读取该数据并存储到时序数据库中。
10.根据权利要求9所述的监控云平台的监控系统,其特征在于,所述采集代理模块,进一步地用于自启动一个线程,并通过该线程扫描发现需要监控的新对象,在扫描发现新对象之后,将扫描结果信息发送至所述服务端;
所述采集代理模块,还用于根据开始监控指令,将新对象加入指标管理中进行统一管理,并开始实时采集新对象的指标数据;
所述服务端还包括:
监控确认模块,用于接收扫描结果信息之后,提示用户有发现新对象,在用户确定需要监控新对象之后,则给新对象分配ID地址,并发送开始监控指令至所述采集代理模块。
CN201811446009.XA 2018-11-29 2018-11-29 一种监控云平台的监控方法及系统 Active CN109714192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811446009.XA CN109714192B (zh) 2018-11-29 2018-11-29 一种监控云平台的监控方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811446009.XA CN109714192B (zh) 2018-11-29 2018-11-29 一种监控云平台的监控方法及系统

Publications (2)

Publication Number Publication Date
CN109714192A true CN109714192A (zh) 2019-05-03
CN109714192B CN109714192B (zh) 2022-03-04

Family

ID=66255317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811446009.XA Active CN109714192B (zh) 2018-11-29 2018-11-29 一种监控云平台的监控方法及系统

Country Status (1)

Country Link
CN (1) CN109714192B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN110401565A (zh) * 2019-07-09 2019-11-01 视联动力信息技术股份有限公司 一种离线告警的方法及装置
CN110519371A (zh) * 2019-08-28 2019-11-29 广州高谱技术有限公司 一种跨平台及支持多样部署的电力监控系统的构建方法
CN110557291A (zh) * 2019-09-18 2019-12-10 神州数码融信软件有限公司 一种网络服务监控系统
CN110661657A (zh) * 2019-09-23 2020-01-07 中国—东盟信息港股份有限公司 一种Kubernetes云原生应用的网络安全监控方法及其系统
CN110798348A (zh) * 2019-10-28 2020-02-14 海南电网有限责任公司 配电通信网故障告警方法、服务器及系统
CN110806958A (zh) * 2019-10-24 2020-02-18 长城计算机软件与系统有限公司 一种监控方法、监控装置、存储介质及电子设备
CN110941530A (zh) * 2019-11-11 2020-03-31 南方电网财务有限公司 监控数据的获取方法、装置、计算机设备和存储介质
CN110995497A (zh) * 2019-12-16 2020-04-10 厦门市美亚柏科信息股份有限公司 一种云计算环境下统一运维的方法、终端设备及存储介质
CN112100042A (zh) * 2020-08-26 2020-12-18 北京天空卫士网络安全技术有限公司 一种监控方法、装置和系统
CN112115016A (zh) * 2020-08-06 2020-12-22 北京健康之家科技有限公司 应用性能监控系统
CN112363887A (zh) * 2020-11-11 2021-02-12 平安普惠企业管理有限公司 一种分布式应用监控方法、装置以及存储介质
CN112383502A (zh) * 2020-09-11 2021-02-19 深圳市证通电子股份有限公司 物理机和虚拟机统一监控的方法、系统和电子装置
CN112910726A (zh) * 2021-01-20 2021-06-04 浪潮云信息技术股份公司 云环境流量监控方法、装置及系统
CN112965937A (zh) * 2021-03-11 2021-06-15 北京华恒盛世科技有限公司 一种基于一致性哈希的高可用运维系统
CN113535513A (zh) * 2021-07-02 2021-10-22 厦门点触科技股份有限公司 一种基于微服务架构的全球后台服务端运行状态监控系统及方法
CN113590414A (zh) * 2021-06-30 2021-11-02 济南浪潮数据技术有限公司 一种服务器集群信息采集缓存方法、装置、设备及介质
CN113691388A (zh) * 2021-06-16 2021-11-23 国网辽宁省电力有限公司 一种基于lvs和snmp协议的数据采集系统及方法
CN114090644A (zh) * 2022-01-20 2022-02-25 飞狐信息技术(天津)有限公司 一种数据处理方法及装置
CN114143169A (zh) * 2021-11-24 2022-03-04 浙江大学 一种微服务应用可观测性系统
CN114205209A (zh) * 2021-12-03 2022-03-18 紫光云(南京)数字技术有限公司 设备下发配置的预警方法以及系统
CN114443435A (zh) * 2022-01-27 2022-05-06 中远海运科技股份有限公司 一种面向容器微服务的性能监控告警方法及告警系统
CN114567633A (zh) * 2022-03-01 2022-05-31 上海浦东发展银行股份有限公司 一种支撑多栈数据库全生命周期的云平台系统及管理方法
CN114945039A (zh) * 2022-05-30 2022-08-26 重庆忽米网络科技有限公司 基于分布式的工业设备数据处理系统及方法
CN115208930A (zh) * 2022-04-21 2022-10-18 福州市小唐小能信息科技有限公司 一种基于Kappa架构的监控系统及监控方法
CN115460055A (zh) * 2022-08-19 2022-12-09 深圳微米云服信息科技有限公司 一种云平台监控方法
CN114567633B (zh) * 2022-03-01 2024-06-28 上海浦东发展银行股份有限公司 一种支撑多栈数据库全生命周期的云平台系统及管理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409516A (zh) * 2001-09-28 2003-04-09 深圳市中兴通讯股份有限公司上海第二研究所 一种用于监控系统的动态组网方法
WO2012119358A1 (zh) * 2011-03-04 2012-09-13 中兴通讯股份有限公司 无源光网络的动态带宽分配方法及装置
CN103501347A (zh) * 2013-10-14 2014-01-08 中国联合网络通信集团有限公司 资源分配方法及装置
CN103514044A (zh) * 2012-06-29 2014-01-15 北京金山安全软件有限公司 一种动态行为分析系统的资源优化方法、装置和系统
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
CN107046481A (zh) * 2017-04-18 2017-08-15 国网福建省电力有限公司 一种信息系统综合网管系统综合分析平台
CN108471366A (zh) * 2018-02-02 2018-08-31 深圳市康拓普信息技术有限公司 一种面向云原生应用的立体监控系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1409516A (zh) * 2001-09-28 2003-04-09 深圳市中兴通讯股份有限公司上海第二研究所 一种用于监控系统的动态组网方法
WO2012119358A1 (zh) * 2011-03-04 2012-09-13 中兴通讯股份有限公司 无源光网络的动态带宽分配方法及装置
CN103514044A (zh) * 2012-06-29 2014-01-15 北京金山安全软件有限公司 一种动态行为分析系统的资源优化方法、装置和系统
CN103501347A (zh) * 2013-10-14 2014-01-08 中国联合网络通信集团有限公司 资源分配方法及装置
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
CN107046481A (zh) * 2017-04-18 2017-08-15 国网福建省电力有限公司 一种信息系统综合网管系统综合分析平台
CN108471366A (zh) * 2018-02-02 2018-08-31 深圳市康拓普信息技术有限公司 一种面向云原生应用的立体监控系统

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110401565A (zh) * 2019-07-09 2019-11-01 视联动力信息技术股份有限公司 一种离线告警的方法及装置
CN110247810B (zh) * 2019-07-09 2023-03-28 浪潮云信息技术股份公司 一种收集容器服务监控数据的系统及方法
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN110519371A (zh) * 2019-08-28 2019-11-29 广州高谱技术有限公司 一种跨平台及支持多样部署的电力监控系统的构建方法
CN110557291A (zh) * 2019-09-18 2019-12-10 神州数码融信软件有限公司 一种网络服务监控系统
CN110661657A (zh) * 2019-09-23 2020-01-07 中国—东盟信息港股份有限公司 一种Kubernetes云原生应用的网络安全监控方法及其系统
CN110806958A (zh) * 2019-10-24 2020-02-18 长城计算机软件与系统有限公司 一种监控方法、监控装置、存储介质及电子设备
CN110798348A (zh) * 2019-10-28 2020-02-14 海南电网有限责任公司 配电通信网故障告警方法、服务器及系统
CN110798348B (zh) * 2019-10-28 2022-12-16 海南电网有限责任公司 配电通信网故障告警方法、服务器及系统
CN110941530B (zh) * 2019-11-11 2023-09-26 南方电网财务有限公司 监控数据的获取方法、装置、计算机设备和存储介质
CN110941530A (zh) * 2019-11-11 2020-03-31 南方电网财务有限公司 监控数据的获取方法、装置、计算机设备和存储介质
CN110995497A (zh) * 2019-12-16 2020-04-10 厦门市美亚柏科信息股份有限公司 一种云计算环境下统一运维的方法、终端设备及存储介质
CN112115016A (zh) * 2020-08-06 2020-12-22 北京健康之家科技有限公司 应用性能监控系统
CN112100042A (zh) * 2020-08-26 2020-12-18 北京天空卫士网络安全技术有限公司 一种监控方法、装置和系统
CN112383502A (zh) * 2020-09-11 2021-02-19 深圳市证通电子股份有限公司 物理机和虚拟机统一监控的方法、系统和电子装置
CN112363887A (zh) * 2020-11-11 2021-02-12 平安普惠企业管理有限公司 一种分布式应用监控方法、装置以及存储介质
CN112910726A (zh) * 2021-01-20 2021-06-04 浪潮云信息技术股份公司 云环境流量监控方法、装置及系统
CN112965937A (zh) * 2021-03-11 2021-06-15 北京华恒盛世科技有限公司 一种基于一致性哈希的高可用运维系统
CN113691388A (zh) * 2021-06-16 2021-11-23 国网辽宁省电力有限公司 一种基于lvs和snmp协议的数据采集系统及方法
CN113590414A (zh) * 2021-06-30 2021-11-02 济南浪潮数据技术有限公司 一种服务器集群信息采集缓存方法、装置、设备及介质
CN113535513A (zh) * 2021-07-02 2021-10-22 厦门点触科技股份有限公司 一种基于微服务架构的全球后台服务端运行状态监控系统及方法
CN113535513B (zh) * 2021-07-02 2024-05-24 厦门点触科技股份有限公司 一种基于微服务架构的全球后台服务端运行状态监控系统及方法
CN114143169A (zh) * 2021-11-24 2022-03-04 浙江大学 一种微服务应用可观测性系统
CN114205209A (zh) * 2021-12-03 2022-03-18 紫光云(南京)数字技术有限公司 设备下发配置的预警方法以及系统
CN114205209B (zh) * 2021-12-03 2024-01-05 紫光云(南京)数字技术有限公司 设备下发配置的预警方法以及系统
CN114090644A (zh) * 2022-01-20 2022-02-25 飞狐信息技术(天津)有限公司 一种数据处理方法及装置
CN114443435B (zh) * 2022-01-27 2023-09-08 中远海运科技股份有限公司 一种面向容器微服务的性能监控告警方法及告警系统
CN114443435A (zh) * 2022-01-27 2022-05-06 中远海运科技股份有限公司 一种面向容器微服务的性能监控告警方法及告警系统
CN114567633A (zh) * 2022-03-01 2022-05-31 上海浦东发展银行股份有限公司 一种支撑多栈数据库全生命周期的云平台系统及管理方法
CN114567633B (zh) * 2022-03-01 2024-06-28 上海浦东发展银行股份有限公司 一种支撑多栈数据库全生命周期的云平台系统及管理方法
CN115208930A (zh) * 2022-04-21 2022-10-18 福州市小唐小能信息科技有限公司 一种基于Kappa架构的监控系统及监控方法
CN114945039A (zh) * 2022-05-30 2022-08-26 重庆忽米网络科技有限公司 基于分布式的工业设备数据处理系统及方法
CN115460055A (zh) * 2022-08-19 2022-12-09 深圳微米云服信息科技有限公司 一种云平台监控方法

Also Published As

Publication number Publication date
CN109714192B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN109714192A (zh) 一种监控云平台的监控方法及系统
CA2780013C (en) Cloud computing monitoring and management system
CN110971614A (zh) 物联网适配方法、系统、计算机设备及存储介质
WO2023142054A1 (zh) 一种面向容器微服务的性能监控告警方法及告警系统
CN105653425B (zh) 基于复杂事件处理引擎的监控系统
US20060282886A1 (en) Service oriented security device management network
CN106487574A (zh) 自动化运行维护监测系统
CN104731580A (zh) 基于Karaf与ActiveMQ的自动化运维系统及其实现方法
CN104834582B (zh) 一种监控事件展示方法
CN105282772A (zh) 无线网数通设备监控系统及设备监控方法
CN102916839A (zh) 一种糖厂农务自动化监管系统
CN109857613A (zh) 一种基于采集集群的自动化运维系统
CN109947616A (zh) 一种基于OpenStack技术的云操作系统的自动化监控运维系统
CN101707632A (zh) 一种动态监控服务器集群性能并实时报警的方法
CN110716832A (zh) 业务运行的监控告警方法、系统、电子设备及存储介质
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
CN105760240A (zh) 分布式任务处理方法及装置
CN110460476B (zh) 一种网络运维管理方法
CN116048467A (zh) 微服务开发平台及业务系统开发方法
CN113452607A (zh) 分布式链路采集的方法、装置、计算设备和存储介质
CN110377324B (zh) 一种信息化平台监控系统和构建方法
CN114422386B (zh) 一种微服务网关的监测方法及装置
CN113672452A (zh) 一种数据采集任务的运行监控方法、系统
CN101677278A (zh) 网络信息系统可用性的监控方法及系统
CN102713860B (zh) 一种用户体验指标监控方法及监控虚拟机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518000 electric power dispatching and communication building, 4020 Shennan East Road, Luohu District, Shenzhen, Guangdong

Patentee after: Shenzhen Power Supply Co.,Ltd.

Country or region after: China

Patentee after: China Southern Power Grid Digital Platform Technology (Guangdong) Co.,Ltd.

Address before: 518000 electric power dispatching and communication building, 4020 Shennan East Road, Luohu District, Shenzhen, Guangdong

Patentee before: Shenzhen Power Supply Co.,Ltd.

Country or region before: China

Patentee before: SHENZHEN COMTOP INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240308

Address after: 518101, 3rd Floor, Building 40, Baotian Industrial Zone, Chentian Community, Xixiang Street, Bao'an District, Shenzhen City, Guangdong Province

Patentee after: China Southern Power Grid Digital Platform Technology (Guangdong) Co.,Ltd.

Country or region after: China

Address before: 518000 electric power dispatching and communication building, 4020 Shennan East Road, Luohu District, Shenzhen, Guangdong

Patentee before: Shenzhen Power Supply Co.,Ltd.

Country or region before: China

Patentee before: China Southern Power Grid Digital Platform Technology (Guangdong) Co.,Ltd.