CN110968482A - 企业服务及应用智能监控系统 - Google Patents

企业服务及应用智能监控系统 Download PDF

Info

Publication number
CN110968482A
CN110968482A CN201911306497.9A CN201911306497A CN110968482A CN 110968482 A CN110968482 A CN 110968482A CN 201911306497 A CN201911306497 A CN 201911306497A CN 110968482 A CN110968482 A CN 110968482A
Authority
CN
China
Prior art keywords
alarm
data
service
module
sql
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911306497.9A
Other languages
English (en)
Inventor
刘志来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Liangxin Network Technology Co ltd
Original Assignee
Shanghai Liangxin Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Liangxin Network Technology Co ltd filed Critical Shanghai Liangxin Network Technology Co ltd
Priority to CN201911306497.9A priority Critical patent/CN110968482A/zh
Publication of CN110968482A publication Critical patent/CN110968482A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了数据监控技术领域的企业服务及应用智能监控系统,包括系统服务监控和运营数据监控,系统服务监控由八个模块组成:服务性能数据采集模块、业务数据采集模块、其他的数据采集模块、报警系统、Prometheus监控系统、配置管理模块、告警规则更新模块、Grafana模块;本发明解决企业分布式系统中,因多应用多服务的系统出现问题,而无法及时定位问题,同时解决业务运营数据得不到实时监控,无法实时呈现当前状态的问题。在定位问题和排查问题上减少百分之九十的人力及时间成本,将这些人力物力更好的投入到解决问题和开发生产中去,不仅可以挽回因事故而造成的直接经济损失,同时还可以有效的提高了企业的生产率。

Description

企业服务及应用智能监控系统
技术领域
本发明涉及数据监控技术领域,具体为企业服务及应用智能监控系统。
背景技术
企业的应用系统和业务服务进行实时监控的技术,应用于企业级分布式多服务多应用系统。它不仅对硬件系统的运行状况进行监测,还会对业务的运营数据进行收集,分析。在发现问题时及时预警,从而起到保护系统稳定的运行和业务健康发展。
现有的企业分布式系统,往往因为多应用,多服务,多实例的特性,而难以管理,想要知道每个实例的运行状况,更是难上加难。当某些服务出现问题时,需要花一定人力,时间去慢慢排查,这样导致问题得不到及时定位,快速解决,从而可能对公司造成一定的经济损失。另外,对应业务运营状况来说,目前大多数企业都是通过统计报表来评估的,需要开发各种各样的报表,来呈现业务状况。这样不仅耗费的大量的人力成本,还无法及时获取到运营数据,对当前的运营状况无法实时跟踪。基于此,本发明设计了企业服务及应用智能监控系统,以解决上述问题。
发明内容
本发明的目的在于提供企业服务及应用智能监控系统,以解决上述背景技术中提出的的问题。
为实现上述目的,本发明提供如下技术方案:企业服务及应用智能监控系统,包括系统服务监控和运营数据监控,系统服务监控由八个模块组成:服务性能数据采集模块、业务数据采集模块、其他的数据采集模块、报警系统、Prometheus监控系统、配置管理模块、告警规则更新模块、Grafana模块;
系统服务监控,主要利用Consul注册中心来完成,每个需要监控的服务,都要集成在Prometheus中,将系统性能指标注册到Prometheus中,然后各服务再注册到Consul中,Prometheus通过配置Consul动态发现,来收集Consul中所有服务的性能指标数据;
监控数据方面,系统性能数据和业务指标数据都是通过各自的数据获取模块来生成,然后Prometheus监控模块去拉取这些数据保存在数据存储服务器上,在使用这些数据时,经过一系列的分析、计算来设置预警阈值;
运营数据监控,则是通过SQL代理去连接数据库,执行SQL,实时查询获取各种业务指标数据;通过对收集到的系统性能数据和业务数据进行分析、计算,当达到预设的阈值时,向告警系统发出报警,及时通知相关人员,系统出现问题时快速定位,快速处理。
优选的,服务性能数据采集模块,主要用来收集分析分布式服务系统性能状态的模块,该模块是将各个业务服务注册到consul注册中心,各服务集成Prometheus监控依赖;系统启动后,系统的性能指标将会被收集,可以通过/actuator/prometheus访问。
优选的,业务数据采集模块,主要是用来收集业务运营相关数据的模块,该模块在SQL采集器中配置获取业务数据的SQL,然后通过prometheus-SQL拉取此类SQL代理相关的配置信息,再将这些信息推送给SQL代理,SQL代理通过数据源连接业务数据库,执行业务SQL采集统计的数据;
优选的,其他的数据采集器模块,主要是用来采集中间采集器的性能指标数据,这些采集器分别采集着各自系统的运行状况数据,中间采集器包括ElasticSearch采集器、Redis采集器,MySql采集器。
优选的,配置管理模块,主要是用来作为系统的配置中心,其中包括SQL配置、告警规则配置及包括数据源的其他配置;SQL配置主要用来配置采集业务数据指标的SQL信息,其中包括SQL执行间隔、超时时间、SQL参数、指标名称的信息;规则配置,则是配置Prometheus的告警规则,当某指标数据到达预设的阈值时,Pormetheus会发出告警,告警的标题、内容、时间是由规则配置来完成。
优选的,规则更新模块,针对Prometheus动态告警规则配置实现了一个代理,用来实时更加Prometheus的规则文件;Prometheus提供了更新规则文件的API,该代理会调用该接口,实时更新告警规则文件;当配置管理中的规则配置有修改,修改后会被及时推送给规则更新模块,该模块调用Prometheus的API时更新规则文件。
优选的,Prometheus监控系统,为一个开源的监控系统,主要收集各种指标数据,通过PromQL分析数据,计算报警表达式,当表达式满足设定的规则,则通知告警系统,发送警报;Prometheus监控系统采取的是pull的形式,主动拉取数据;Prometheus会主动的去拉取服务性能数据模块、业务指标数据模块以及其他的一些数据采集模块的数据,每分钟拉取一次,将数据单独保存在一个独立的服务器上,这些数据将提供给Grafana使用,通过图形界面的方式展现出来。
优选的,报警系统,就是用来发警报的系统,包括告警管理模块和告警处理器两部分,它主要是由告警管理模块接收Prometheus的告警通知,再由告警处理器处理告警通知,下发告警信息,通知服务相关人;告警管理模块,它不仅仅接受告警通知,还会处理如何发告警,包括邮件、短信方式;告警处理器(AlarmHook),来处理告警消息,告警处理器根据告警管理模块发出的告警通知,匹配属于哪个业务服务的告警信息,然后对该的服务下发对应的通知,根据告警级别通知可分为:短信通知,语音通知,电话通知;
Prometheus的规则文件中每个具体的规则项都会有一个PromQL表达式,用来表示当这个表达式满足条件时,则发出警报,此时Prometheus会把这个规则中的相关信息,如报警标题、报警内容、报警等待时间信息推送给告警管理模块,告警管理模块接受到这些报警信息后,再把信息推送给告警处理器来处理,由告警处理器来下发具体的告警信息。
优选的,Grafana模块是一个开源的可视化数据展示的工具,提供创建、共享、浏览数据,提供各种图表和布局展示,主要用来展示Prometheus采集来的数据,如系统性能数据,业务运营数据及ES日志。
与现有技术相比,本发明的有益效果是:
(1)本发明公开了一种适合于对分布式服务的系统性能和业务数据进行智能监测、分析及预警的解决方案。首先,各服务系统注册到consul注册中心,集成Prometheus上报性能指标;接着,通过配置管理配置业务数据的SQL,通过SQL代理连接各服务的数据库执行SQL采集数据;然后promtheus收集这些系统性能数据和业务指标数据;再通过Grafana可视化工具展示这些数据,根据预先设定的PromQL表达式预设告警阈值,当数据到达阈值时,通过告警系统,对相关人员发出告警信息;
(2)本发明解决企业分布式系统中,因多应用多服务的系统出现问题,而无法及时定位问题,同时解决业务运营数据得不到实时监控,无法实时呈现当前状态的问题。在定位问题和排查问题上减少百分之九十的人力及时间成本,将这些人力物力更好的投入到解决问题和开发生产中去,不仅可以挽回因事故而造成的直接经济损失,同时还可以有效的提高了企业的生产率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明系统结构图;
图2为本发明服务性能数据采集模块结构图;
图3为本发明业务数据采集模块结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供一种技术方案:
实施例一:
企业服务及应用智能监控系统,包括系统服务监控和运营数据监控,系统服务监控由八个模块组成:服务性能数据采集模块、业务数据采集模块、其他的数据采集模块、报警系统、Prometheus监控系统、配置管理模块、告警规则更新模块、Grafana模块;
系统服务监控,主要利用Consul注册中心来完成,每个需要监控的服务,都要集成在Prometheus中,将系统性能指标注册到Prometheus中,然后各服务再注册到Consul中,Prometheus通过配置Consul动态发现,来收集Consul中所有服务的性能指标数据;
监控数据方面,系统性能数据和业务指标数据都是通过各自的数据获取模块来生成,然后Prometheus监控模块去拉取这些数据保存在数据存储服务器上,在使用这些数据时,经过一系列的分析、计算来设置预警阈值;
运营数据监控,则是通过SQL代理去连接数据库,执行SQL,实时查询获取各种业务指标数据;通过对收集到的系统性能数据和业务数据进行分析、计算,当达到预设的阈值时,向告警系统发出报警,及时通知相关人员,系统出现问题时快速定位,快速处理。
比如,某一个服务突然宕机了,此时Consul中该服务将无法对外提供服务,Prometheus监控系统便会立即感知到该服务不可用,接着,Prometheus会通知报警平台发出告警,告警平台得知该服务宕机,根据该服务配置的告警级别,通过短信、语音或电话等方式通知相关负责人。
其中,服务性能数据采集模块,主要用来收集分析分布式服务系统性能状态的模块,该模块是将各个业务服务注册到consul注册中心,各服务集成Prometheus监控依赖;系统启动后,系统的性能指标将会被收集,可以通过/actuator/prometheus访问。
其中,业务数据采集模块,主要是用来收集业务运营相关数据的模块,该模块在SQL采集器中配置获取业务数据的SQL,然后通过prometheus-SQL拉取此类SQL代理相关的配置信息,再将这些信息推送给SQL代理,SQL代理通过数据源连接业务数据库,执行业务SQL采集统计的数据;
其中,其他的数据采集器模块,主要是用来采集中间采集器的性能指标数据,这些采集器分别采集着各自系统的运行状况数据,中间采集器包括ElasticSearch采集器、Redis采集器,MySql采集器。
其中,配置管理模块,主要是用来作为系统的配置中心,其中包括SQL配置、告警规则配置及包括数据源的其他配置;SQL配置主要用来配置采集业务数据指标的SQL信息,其中包括SQL执行间隔、超时时间、SQL参数、指标名称的信息;规则配置,则是配置Prometheus的告警规则,当某指标数据到达预设的阈值时,Pormetheus会发出告警,告警的标题、内容、时间是由规则配置来完成。
其中,规则更新模块,针对Prometheus动态告警规则配置实现了一个代理,用来实时更加Prometheus的规则文件;Prometheus提供了更新规则文件的API,该代理会调用该接口,实时更新告警规则文件;当配置管理中的规则配置有修改,修改后会被及时推送给规则更新模块,该模块调用Prometheus的API时更新规则文件。
其中,Prometheus监控系统,为一个开源的监控系统,主要收集各种指标数据,通过PromQL分析数据,计算报警表达式,当表达式满足设定的规则,则通知告警系统,发送警报;Prometheus监控系统采取的是pull的形式,主动拉取数据;Prometheus会主动的去拉取服务性能数据模块、业务指标数据模块以及其他的一些数据采集模块的数据,每分钟拉取一次,将数据单独保存在一个独立的服务器上,这些数据将提供给Grafana使用,通过图形界面的方式展现出来。
其中,报警系统,就是用来发警报的系统,包括告警管理模块和告警处理器两部分,它主要是由告警管理模块接收Prometheus的告警通知,再由告警处理器处理告警通知,下发告警信息,通知服务相关人;告警管理模块,它不仅仅接受告警通知,还会处理如何发告警,包括邮件、短信方式;告警处理器(AlarmHook),来处理告警消息,告警处理器根据告警管理模块发出的告警通知,匹配属于哪个业务服务的告警信息,然后对该的服务下发对应的通知,根据告警级别通知可分为:短信通知,语音通知,电话通知;
Prometheus的规则文件中每个具体的规则项都会有一个PromQL表达式,用来表示当这个表达式满足条件时,则发出警报,此时Prometheus会把这个规则中的相关信息,如报警标题、报警内容、报警等待时间信息推送给告警管理模块,告警管理模块接受到这些报警信息后,再把信息推送给告警处理器来处理,由告警处理器来下发具体的告警信息。
其中,Grafana模块是一个开源的可视化数据展示的工具,提供创建、共享、浏览数据,提供各种图表和布局展示,主要用来展示Prometheus采集来的数据,如系统性能数据,业务运营数据及ES日志。
实施例二:
在实施例一的基础上,针对如何使用监控数据方面,本发明提供相应的方案。系统性能数据和业务指标数据都是通过各自的数据获取模块来生成,然后Prometheus监控模块去拉取这些数据保存在数据存储服务器上,在使用这些数据时,经过一系列的分析、计算来设置预警阈值。
在系统性能数据分析中,本发明会观察系统性能指标的运行趋势,比如:
1、在JVM指标中对GC暂停次数或GC暂停时间在每个5分钟内的变化速率,来判断当前服务的性能压力,PromQL表达式如下:
irate(jvm_gc_pause_seconds_count{instance="$instance",service="$service"}[5m])
irate(jvm_gc_pause_seconds_sum{instance="$instance",service="$service"}[5m])
2、通过观察CPU使用率、系统负载来观察当前服务的运行状况,我们会设定阈值,当系统负载超过这个阈值时,会发出告警。告警规则设置为:在五分中内,当系统负载的均值大于CPU总数量的百分之七十时告警,表达式如下:
avg_over_time(system_load_average_1m[5m])>system_cpu_count*0.7
3、通过系统服务器tomcat繁忙线程数和最大线程数的比值来观察服务状况,当繁忙线程数与最大线程数比例超过百分之七十五,会触发报警,表达式如下:
tomcat_threads_busy/tomcat_threads_config_max>0.75
4、本发明也会关注数据库的服务状况,会根据当前排队获取连接的线程数指标来判断数据库性能,当该数值上升时,则表示数据库已无连接可用,要么连接长时间未释放,要么连接数过多,服务已经无法满足当前的业务处理,此时便需要及时通知相关人员,我们设定的告警阈值为10,当排队获取连接的线程数超过10个时,将会触发告警,表达式:
hikaricp_connections_pending>10
在业务指标数据分析中,本发明会根据数据走势,同期环比,来观察业务的运营状况。比如:
订单成功率,30分钟同比昨天下降50%,发出告警
sum(sum_over_time(query_result_order_count_success_count[30m]))by(job)/
sum(sum_over_time(query_result_order_count_all_count[30m]))by(job)
<=sum(sum_over_time(query_result_order_count_success_count[30m]offset 1d)by(job)*0.5/
sum(sum_over_time(query_result_order_count_all_count[30m]offset 1d))by(job)
订单支付成功数量同比昨天下降30%,发出告警
sum_over_time(query_result_pay_success_count[30m])<=sum_over_time(query_result_pay_success_count[30m]offset 1d)*0.7
短信发送失败率大于30%告警
sum_over_time(query_result_common_sms_service_send_failure_count_cnt[10m])/sum_over_time(query_result_common_sms_service_send_all_count[10m])>0.3
这些规则仅仅是业务中的个别几个例子,还有很多类似规则,这里不一一阐述。需要说明的是,这些规则都是可修改的,可调整的,它会根据企业的发展,业务的变化,不断更新调整,以此来满足业务的监控需求。
本发明公开了一种适合于对分布式服务的系统性能和业务数据进行智能监测、分析及预警的解决方案。首先,各服务系统注册到consul注册中心,集成Prometheus上报性能指标;接着,通过配置管理配置业务数据的SQL,通过SQL代理连接各服务的数据库执行SQL采集数据;然后promtheus收集这些系统性能数据和业务指标数据;再通过Grafana可视化工具展示这些数据,根据预先设定的PromQL表达式预设告警阈值,当数据到达阈值时,通过告警系统,对相关人员发出告警信息;
本发明解决企业分布式系统中,因多应用多服务的系统出现问题,而无法及时定位问题,同时解决业务运营数据得不到实时监控,无法实时呈现当前状态的问题。在定位问题和排查问题上减少百分之九十的人力及时间成本,将这些人力物力更好的投入到解决问题和开发生产中去,不仅可以挽回因事故而造成的直接经济损失,同时还可以有效的提高了企业的生产率。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (9)

1.企业服务及应用智能监控系统,其特征在于:包括系统服务监控和运营数据监控,系统服务监控由八个模块组成:服务性能数据采集模块、业务数据采集模块、其他的数据采集模块、报警系统、Prometheus监控系统、配置管理模块、告警规则更新模块、Grafana模块;
系统服务监控,主要利用Consul注册中心来完成,每个需要监控的服务,都要集成在Prometheus中,将系统性能指标注册到Prometheus中,然后各服务再注册到Consul中,Prometheus通过配置Consul动态发现,来收集Consul中所有服务的性能指标数据;
监控数据方面,系统性能数据和业务指标数据都是通过各自的数据获取模块来生成,然后Prometheus监控模块去拉取这些数据保存在数据存储服务器上,在使用这些数据时,经过一系列的分析、计算来设置预警阈值;
运营数据监控,则是通过SQL代理去连接数据库,执行SQL,实时查询获取各种业务指标数据;通过对收集到的系统性能数据和业务数据进行分析、计算,当达到预设的阈值时,向告警系统发出报警,及时通知相关人员,系统出现问题时快速定位,快速处理。
2.根据权利要求1所述的企业服务及应用智能监控系统,其特征在于:服务性能数据采集模块,主要用来收集分析分布式服务系统性能状态的模块,该模块是将各个业务服务注册到consul注册中心,各服务集成Prometheus监控依赖;系统启动后,系统的性能指标将会被收集,可以通过/actuator/prometheus访问。
3.根据权利要求1所述的企业服务及应用智能监控系统,其特征在于:业务数据采集模块,主要是用来收集业务运营相关数据的模块,该模块在SQL采集器中配置获取业务数据的SQL,然后通过prometheus-SQL拉取此类SQL代理相关的配置信息,再将这些信息推送给SQL代理,SQL代理通过数据源连接业务数据库,执行业务SQL采集统计的数据。
4.根据权利要求1所述的企业服务及应用智能监控系统,其特征在于:其他的数据采集器模块,主要是用来采集中间采集器的性能指标数据,这些采集器分别采集着各自系统的运行状况数据,中间采集器包括ElasticSearch采集器、Redis采集器,MySql采集器。
5.根据权利要求1所述的企业服务及应用智能监控系统,其特征在于:配置管理模块,主要是用来作为系统的配置中心,其中包括SQL配置、告警规则配置及包括数据源的其他配置;SQL配置主要用来配置采集业务数据指标的SQL信息,其中包括SQL执行间隔、超时时间、SQL参数、指标名称的信息;规则配置,则是配置Prometheus的告警规则,当某指标数据到达预设的阈值时,Pormetheus会发出告警,告警的标题、内容、时间是由规则配置来完成。
6.根据权利要求5所述的企业服务及应用智能监控系统,其特征在于:规则更新模块,针对Prometheus动态告警规则配置实现了一个代理,用来实时更加Prometheus的规则文件;Prometheus提供了更新规则文件的API,该代理会调用该接口,实时更新告警规则文件;当配置管理中的规则配置有修改,修改后会被及时推送给规则更新模块,该模块调用Prometheus的API时更新规则文件。
7.根据权利要求1所述的企业服务及应用智能监控系统,其特征在于:Prometheus监控系统,为一个开源的监控系统,主要收集各种指标数据,通过PromQL分析数据,计算报警表达式,当表达式满足设定的规则,则通知告警系统,发送警报;Prometheus监控系统采取的是pull的形式,主动拉取数据;Prometheus会主动的去拉取服务性能数据模块、业务指标数据模块以及其他的一些数据采集模块的数据,每分钟拉取一次,将数据单独保存在一个独立的服务器上,这些数据将提供给Grafana使用,通过图形界面的方式展现出来。
8.根据权利要求1所述的企业服务及应用智能监控系统,其特征在于:报警系统,就是用来发警报的系统,包括告警管理模块和告警处理器两部分,它主要是由告警管理模块接收Prometheus的告警通知,再由告警处理器处理告警通知,下发告警信息,通知服务相关人;告警管理模块,它不仅仅接受告警通知,还会处理如何发告警,包括邮件、短信方式;告警处理器(AlarmHook),来处理告警消息,告警处理器根据告警管理模块发出的告警通知,匹配属于哪个业务服务的告警信息,然后对该的服务下发对应的通知,根据告警级别通知可分为:短信通知,语音通知,电话通知;
Prometheus的规则文件中每个具体的规则项都会有一个PromQL表达式,用来表示当这个表达式满足条件时,则发出警报,此时Prometheus会把这个规则中的相关信息,如报警标题、报警内容、报警等待时间信息推送给告警管理模块,告警管理模块接受到这些报警信息后,再把信息推送给告警处理器来处理,由告警处理器来下发具体的告警信息。
9.根据权利要求1所述的企业服务及应用智能监控系统,其特征在于:Grafana模块是一个开源的可视化数据展示的工具,提供创建、共享、浏览数据,提供各种图表和布局展示,主要用来展示Prometheus采集来的数据,如系统性能数据,业务运营数据及ES日志。
CN201911306497.9A 2019-12-18 2019-12-18 企业服务及应用智能监控系统 Pending CN110968482A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911306497.9A CN110968482A (zh) 2019-12-18 2019-12-18 企业服务及应用智能监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911306497.9A CN110968482A (zh) 2019-12-18 2019-12-18 企业服务及应用智能监控系统

Publications (1)

Publication Number Publication Date
CN110968482A true CN110968482A (zh) 2020-04-07

Family

ID=70034650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911306497.9A Pending CN110968482A (zh) 2019-12-18 2019-12-18 企业服务及应用智能监控系统

Country Status (1)

Country Link
CN (1) CN110968482A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581060A (zh) * 2020-05-11 2020-08-25 金蝶软件(中国)有限公司 基于Prometheus的日志告警系统、方法以及相关设备
CN111597091A (zh) * 2020-05-20 2020-08-28 北京金山云网络技术有限公司 数据监控方法及系统、电子设备、计算机存储介质
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控系统及工作方法
CN112380163A (zh) * 2020-10-20 2021-02-19 广州西山居世游网络科技有限公司 S3文件系统空间占用监控方法及系统
CN112559281A (zh) * 2020-12-07 2021-03-26 恩亿科(北京)数据科技有限公司 一种基于配置的告警路由系统和方法
CN112751726A (zh) * 2020-12-17 2021-05-04 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN112925694A (zh) * 2021-03-05 2021-06-08 重庆允成互联网科技有限公司 一种基于规则引擎的集中式告警通知系统及方法
CN113037547A (zh) * 2021-03-03 2021-06-25 浪潮云信息技术股份公司 一种资源性能采集监控与告警系统
CN113037549A (zh) * 2021-03-04 2021-06-25 浪潮云信息技术股份公司 一种运维环境告警方法
CN113377617A (zh) * 2021-06-11 2021-09-10 重庆农村商业银行股份有限公司 一种监控系统
CN113590270A (zh) * 2021-08-13 2021-11-02 傲普(上海)新能源有限公司 一种基于能源管理系统的全时监控预警系统
CN114143177A (zh) * 2021-12-01 2022-03-04 云赛智联股份有限公司 一种基于数据血缘的业务服务监控系统及监控方法
CN115222181A (zh) * 2021-06-30 2022-10-21 达闼机器人股份有限公司 机器人运营状态监控系统及方法
CN117033117A (zh) * 2023-07-05 2023-11-10 广州市玄武无线科技股份有限公司 一种实时业务监控管理方法、系统、电子设备及存储介质
CN117395132A (zh) * 2023-12-13 2024-01-12 江西云眼视界科技股份有限公司 一种分布式告警监控方法、系统、存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001046846A2 (en) * 1999-12-22 2001-06-28 Accenture Llp A method for a virtual trade financial framework
US20160034305A1 (en) * 2013-03-15 2016-02-04 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
CN109831327A (zh) * 2019-01-28 2019-05-31 国家电网有限公司信息通信分公司 基于大数据分析的ims全业务网络监视智能化运维支撑系统
CN110581773A (zh) * 2018-06-07 2019-12-17 北京怡合春天科技有限公司 一种自动化服务监控与报警管理系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001046846A2 (en) * 1999-12-22 2001-06-28 Accenture Llp A method for a virtual trade financial framework
US20160034305A1 (en) * 2013-03-15 2016-02-04 Advanced Elemental Technologies, Inc. Methods and systems for purposeful computing
CN110581773A (zh) * 2018-06-07 2019-12-17 北京怡合春天科技有限公司 一种自动化服务监控与报警管理系统
CN109831327A (zh) * 2019-01-28 2019-05-31 国家电网有限公司信息通信分公司 基于大数据分析的ims全业务网络监视智能化运维支撑系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于丽娜;熊筱芳;: "基于多Agent的决策支持系统模型研究" *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581060B (zh) * 2020-05-11 2024-03-12 金蝶软件(中国)有限公司 基于Prometheus的日志告警系统、方法以及相关设备
CN111581060A (zh) * 2020-05-11 2020-08-25 金蝶软件(中国)有限公司 基于Prometheus的日志告警系统、方法以及相关设备
CN111597091A (zh) * 2020-05-20 2020-08-28 北京金山云网络技术有限公司 数据监控方法及系统、电子设备、计算机存储介质
CN112380163A (zh) * 2020-10-20 2021-02-19 广州西山居世游网络科技有限公司 S3文件系统空间占用监控方法及系统
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控系统及工作方法
CN112559281A (zh) * 2020-12-07 2021-03-26 恩亿科(北京)数据科技有限公司 一种基于配置的告警路由系统和方法
CN112751726A (zh) * 2020-12-17 2021-05-04 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN112751726B (zh) * 2020-12-17 2022-09-09 北京达佳互联信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN113037547A (zh) * 2021-03-03 2021-06-25 浪潮云信息技术股份公司 一种资源性能采集监控与告警系统
CN113037549A (zh) * 2021-03-04 2021-06-25 浪潮云信息技术股份公司 一种运维环境告警方法
CN112925694A (zh) * 2021-03-05 2021-06-08 重庆允成互联网科技有限公司 一种基于规则引擎的集中式告警通知系统及方法
CN113377617A (zh) * 2021-06-11 2021-09-10 重庆农村商业银行股份有限公司 一种监控系统
CN113377617B (zh) * 2021-06-11 2023-06-16 重庆农村商业银行股份有限公司 一种监控系统
CN115222181B (zh) * 2021-06-30 2023-08-22 达闼机器人股份有限公司 机器人运营状态监控系统及方法
CN115222181A (zh) * 2021-06-30 2022-10-21 达闼机器人股份有限公司 机器人运营状态监控系统及方法
CN113590270A (zh) * 2021-08-13 2021-11-02 傲普(上海)新能源有限公司 一种基于能源管理系统的全时监控预警系统
CN114143177A (zh) * 2021-12-01 2022-03-04 云赛智联股份有限公司 一种基于数据血缘的业务服务监控系统及监控方法
CN117033117A (zh) * 2023-07-05 2023-11-10 广州市玄武无线科技股份有限公司 一种实时业务监控管理方法、系统、电子设备及存储介质
CN117395132A (zh) * 2023-12-13 2024-01-12 江西云眼视界科技股份有限公司 一种分布式告警监控方法、系统、存储介质及电子设备
CN117395132B (zh) * 2023-12-13 2024-02-20 江西云眼视界科技股份有限公司 一种分布式告警监控方法、系统、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN110968482A (zh) 企业服务及应用智能监控系统
CN111049705B (zh) 一种监控分布式存储系统的方法及装置
CN103491354B (zh) 一种系统运行监控可视化平台
CN105718351B (zh) 一种面向Hadoop集群的分布式监控管理系统
CN109783322A (zh) 一种企业信息系统运行状态的监控分析系统及其方法
CN103236948B (zh) 一种电信网告警方法及系统
CN109218102A (zh) 一种告警监控方法及系统
US20030200486A1 (en) System and method for providing common event format using alert index
CN110581773A (zh) 一种自动化服务监控与报警管理系统
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN101707632A (zh) 一种动态监控服务器集群性能并实时报警的方法
CN112162907A (zh) 基于监控指标数据的健康度评估方法
CN109271243B (zh) 一种集群任务管理系统
CN113448812A (zh) 微服务场景下的监控告警方法及装置
CN110046070B (zh) 服务器集群系统的监控方法、装置、电子设备及存储介质
CN111538563A (zh) 一种对Kubernetes的事件分析方法及装置
CN111124609B (zh) 数据采集方法、装置、数据采集设备及存储介质
CN111752805A (zh) 一种云服务器资源监控及告警系统
CN110221947A (zh) 告警信息巡检方法、系统、计算机装置及可读存储介质
CN112437145A (zh) 一种服务器集群管理方法、装置及相关组件
CN111224819A (zh) 分布式消息系统
CN114697192A (zh) 一种基于Skywalking的应用性能指标告警系统
CN112149975B (zh) 一种基于人工智能的apm监控系统及监控方法
CN102932170A (zh) 网元负载不均检测处理方法、装置及其系统
CN111983947A (zh) 一种监控系统的告警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200407