CN115314360B - 消息队列服务性能监控系统及方法 - Google Patents

消息队列服务性能监控系统及方法 Download PDF

Info

Publication number
CN115314360B
CN115314360B CN202210891345.5A CN202210891345A CN115314360B CN 115314360 B CN115314360 B CN 115314360B CN 202210891345 A CN202210891345 A CN 202210891345A CN 115314360 B CN115314360 B CN 115314360B
Authority
CN
China
Prior art keywords
performance
performance index
message queue
host
incremental data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210891345.5A
Other languages
English (en)
Other versions
CN115314360A (zh
Inventor
王青松
王柏华
赵绍祥
黄磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN202210891345.5A priority Critical patent/CN115314360B/zh
Publication of CN115314360A publication Critical patent/CN115314360A/zh
Application granted granted Critical
Publication of CN115314360B publication Critical patent/CN115314360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了消息队列服务性能监控系统及方法,属于消息队列监控技术领域,要解决的技术问题为如何对消息队列的全链路进行监控以及性能分析,以便及时发现性能问题。包括如下步骤:定时收集消息队列性能指标并对消息队列性能指标进行对比,得到消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;通过性能指标服务网关将增量数据存储至数据库;从数据库中读取增量数据,对所述增量数据进行分析,得到评估结果,基于评估结果中的告警信息设定对应的整改期限;对运维人员上报的已处理问题进行评估,将通过评估的问题标记为已处理,将未通过评估的问题进行问题升级并继续告警。

Description

消息队列服务性能监控系统及方法
技术领域
本发明涉及消息队列监控技术领域,具体地说是消息队列服务性能监控系统及方法。
背景技术
消息队列(MessageQueue简称MQ)是一种进程间通信方式,常被用于消息异步处理、数据同步、订阅发布等业务场景。MQ虽然能够实现快速的消息交付,但其本身没有全链路的跟踪监控,无法保证所有消息都被正常消费,造成数据丢失从而影响业务的正常运行。异常情况包括:
1)消息在发送、接收过程中丢失;
2)主题消息订阅者已经失效且未取消订阅,后续发送到该主题的消息继续分发给该订阅者,导致消息积压无法被消费;
3)消息进入死信队列,没有及时进行处理等。
如何对消息队列的全链路进行监控以及性能分析,以便及时发现性能问题,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供消息队列服务性能监控系统及方法,来解决如何对消息队列的全链路进行监控以及性能分析,以便及时发现性能问题的技术问题。
第一方面,本发明的一种消息队列服务性能监控系统,包括:
性能指标收集模块,所述性能指标收集模块用于监控消息队列,定时收集消息队列性能指标并对消息队列性能指标进行对比,得到消息队列性能指标的增量数据;
性能指标服务网关,所述性能指标服务网关与所述性能指标收集模块交互,用于接收性能指标收集模块推送的增量数据;
数据库,所述数据库与所述性能指标服务网关交互,用于接收性能指标服务网关推送的增量数据并存储;
性能指标分析模块,所述性能指标分析模块与所述数据库交互,用于对所述增量数据进行分析,得到评估结果,用于基于评估结果中的告警信息设定对应的整改期限,并用于将评估结果和整改期限推送至对应的运维人员;
性能指标跟踪反馈模块,所述性能指标跟踪反馈模块面向运维人员,用于支持运维人员上报问题分析和问题处理情况,并对运维人员上报的已处理问题进行评估,将通过评估的问题标记为已处理,将未通过评估的问题进行问题升级并继续告警。
作为优选,所述性能指标收集模块用于通过比对最后修改时间与上次读取时间的消息队列性能指标的方式,获取消息队列性能指标的增量数据。
作为优选,所述消息队列性能指标包括服务端性能指标、生产者性能指标、消费者性能指标和主机性能指标,所述主机性能指标包括服务端实例所在主机的主机性能指标、生产者实例所在主机的主机性能指标以及消费者实例所在主机的主机性能指标。
作为优选,消息队列的服务端、生产者和消费者均作为目标端;
所述性能指标收集模块包括:
队列性能指标收集单元,对于每个目标端,所述队列性能指标收集单元用于通过性能指标收集进程监控所述目标端,用于定时收集目标端对应的消息队列性能指标、并将消息队列性能指标标写入所述目标端对应的日志文件,所述日志文件存储于所述目标端实例所在主机;
主机性能指标收集单元,对于每个目标端,所述主机性能指标收集单元用于通过日志收集代理程序定时检目标端实例所在主机的主机性能指标、并将主机性能指标写入所述目标端对应的主机日志文件,所述主机日志文件存储所述目标端实例所在主机;
日志收集代理单元,所述日志收集代理单元用于通过日志收集代理程序定时检测每个目标端的日志文件以及每个目标端的主机日志文件,并用于通过比对日志文件最后修改时间与上次读取时间的方式、获取消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
对于每个日志文件,每次执行收集消息队列性能指标后,所述日志收集代理单元用于记录日志文件位置及最后修改时间,下次执行后先比对日志文件修改时间是否晚于上次,若是则从上次记录位置读取到日志文件末尾。
作为优选,所述性能指标分析模块中用于配置分析模型、性能阈值以及告警级别,用于基于分析模型、性能阈值以及告警级别对增量数据进行分析,得到评估结果;
所述评估结果包括告警信息,所述告警信息包括告警级别,所述告警级别包括正常、提示、警告和严重警告;
评估结果中告警级别为提示、警告或严重警告时,所述性能指标分析模块用于基于告警级别设定对应的整改期限。
第二方面,本发明的一种消息队列服务性能监控方法,用于通过如第一方面任一项所述的一种消息队列服务性能监控系统对消息队列进行监控,所述方法包括如下步骤:
监控消息队列,定时收集消息队列性能指标并对消息队列性能指标进行对比,得到消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
通过性能指标服务网关将增量数据存储至数据库;
从数据库中读取增量数据,对所述增量数据进行分析,得到评估结果,基于评估结果中的告警信息设定对应的整改期限,并将评估结果和整改期限推送至对应的运维人员;
基于运维人员上报的问题分析和问题处理情况,对上报的已处理问题进行评估,将通过评估的问题标记为已处理,将未通过评估的问题进行问题升级并继续告警。
作为优选,通过比对最后修改时间与上次读取时间的消息队列性能指标的方式,获取消息队列性能指标的增量数据。
作为优选,所述消息队列性能指标包括服务端性能指标、生产者性能指标、消费者性能指标和主机性能指标,所述主机性能指标包括服务端实例所在主机的主机性能指标、生产者实例所在主机的主机性能指标以及消费者实例所在主机的主机性能指标。
作为优选,消息队列的服务端、生产者和消费者均作为目标端;
定时收集消息队列性能指标并对消息队列性能指标进行对比,包括如下步骤:
对于每个目标端,通过性能指标收集进程监控所述目标端,定时收集目标端对应的消息队列性能指标、并将消息队列性能指标标写入所述目标端对应的日志文件,所述日志文件存储于所述目标端实例所在主机;
对于每个目标端,通过日志收集代理程序定时检测目标端实例所在主机的主机性能指标、并将主机性能指标写入所述目标端对应的主机日志文件,所述主机日志文件存储所述目标端实例所在主机;
通过日志收集代理程序定时检测每个目标端的日志文件以及每个目标端的主机日志文件,并通过比对日志文件最后修改时间与上次读取时间的方式、获取消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
对于每个日志文件,每次执行收集消息队列性能指标后,记录日志文件位置及最后修改时间,下次执行后先比对日志文件修改时间是否晚于上次,若是则从上次记录位置读取到日志文件末尾。
作为优选,通过如下步骤得到评估结果:配置分析模型、性能阈值以及告警级别,基于分析模型、性能阈值以及告警级别对增量数据进行分析,得到评估结果;
所述评估结果包括告警信息,所述告警信息包括告警级别,所述告警级别包括正常、提示、警告和严重警告;
评估结果中告警级别为提示、警告或严重警告时,基于告警级别设定对应的整改期限。
本发明的消息队列服务性能监控系统及方法具有以下优点:
1、通过分析消息队列生产者、消费者、服务端及实例所在主机的性能指标,及时发现消息队列性能和质量问题,及时处置提高业务系统的业务连续性;
2、基于评估结果设置整改期限,提高了问题处理效率;
3、对运维人员的反馈进行评估,提高可问题处理的质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种消息队列服务性能监控系统的工作原理框图;
图2为实施例1一种消息队列服务性能监控方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供消息队列服务性能监控系统及方法,用于解决如何对消息队列的全链路进行监控以及性能分析,以便及时发现性能问题的技术问题。
实施例1:
本发明一种消息队列服务性能监控系统,包括性能指标收集模块、性能指标服务网关、数据库、性能指标分析模块、以及性能指标跟踪反馈模块,该系统对消息队列进行全链路监控,定时采集消息队列性能指标并分析其增量数据,基于增量数据进行分析,以时发现性能问题,运营人员可以及早介入处置。
性能指标收集模块用于监控消息队列,定时收集消息队列性能指标并对消息队列性能指标进行对比,得到消息队列性能指标的增量数据。
作为具体实施,性能指标收集模块用于通过比对最后修改时间与上次读取时间的消息队列性能指标的方式,获取消息队列性能指标的增量数据。
消息队列性能指标包括服务端性能指标、生产者性能指标、消费者性能指标和主机性能指标,所述主机性能指标包括服务端实例所在主机的主机性能指标、生产者实例所在主机的主机性能指标以及消费者实例所在主机的主机性能指标。
对应的,性能指标收集模块包括队列性能指标收集单元、主机性能指标收集单元以及日志收集代理单元。
消息队列的服务端、生产者和消费者均作为目标端。
对于每个目标端,队列性能指标收集单元用于通过性能指标收集进程监控所述目标端,用于定时收集目标端对应的消息队列性能指标、并将消息队列性能指标标写入所述目标端对应的日志文件,所述日志文件存储于所述目标端实例所在主机。
对于每个目标端,主机性能指标收集单元用于通过日志收集代理程序定时检测目标端实例所在主机的主机性能指标、并将主机性能指标写入所述目标端对应的主机日志文件,所述主机日志文件存储所述目标端实例所在主机。
日志收集代理单元用于通过日志收集代理程序定时检测每个目标端的日志文件以及每个目标端的主机日志文件,并用于通过比对日志文件最后修改时间与上次读取时间的方式、获取消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;对于每个日志文件,每次执行收集消息队列性能指标后,所述日志收集代理单元用于记录日志文件位置及最后修改时间,下次执行后先比对日志文件修改时间是否晚于上次,若是则从上次记录位置读取到日志文件末尾。
在具体执行时,队列性能指标收集单元分为服务端性能指标收集单元、生产者性能指标收集单元以及消费者性能指标收集单元。
服务端性能指标收集单元用于通过服务端性能指标收集进程监控服务端实例、并定时收集服务端性能指标,将服务端性能指标写入服务端日志文件,所述服务端日志文件存储于服务端实例所在主机。
生产者性能指标收集单元用于通过生产者性能指标收集进程监控生产者实例、并定时收集生产者性能指标,将生产者性能指标写入生产者日志文件,所述生产者日志文件存储于生产者实例所在主机。
消费者性能指标收集单元用于通过消费者性能指标收集进程监控消费者实例、并定时收集消费者性能指标,将消费者性能指标写入消费者日志文件,所述消费者日志文件存储于消费者实例所在主机。
主机性能指标收集单元用于通过日志收集代理程序定时检测服务端实例所在主机的主机性能指标,将服务端实例所在主机的主机性能指标写入服务端主机日志文件,所述服务端主机日志文件存储于服务端实例所在主机;用于通过日志收集代理程序定时检测生产者实例所在主机的主机性能指标,将生产者实例所在主机的主机性能指标写入生产者主机日志文件,所述生产者主机日志文件存储于生产者实例所在主机;用于通过日志收集代理程序定时检测消费者实例所在主机的主机性能指标,将消费者实例所在主机的主机性能指标写入消费者主机日志文件,所述消费者主机日志文件存储于消费者实例所在主机。
性能指标服务网关与所述性能指标收集模块交互,用于接收性能指标收集模块推送的增量数据。
在具体执行时,根据数据指标类型不同,日志收集代理程序调用消息队列性能指标服务网关对应的接口,通过接口与对应的服务端实例、生产者实例以及消费者实例所在主机交互。
数据库与性能指标服务网关交互,用于接收性能指标服务网关推送的增量数据并存储。本实施例将增量数据持久化存储到数据库中。
性能指标分析模块与数据库交互,用于对所述增量数据进行分析,得到评估结果,用于基于评估结果中的告警信息设定对应的整改期限,并用于将评估结果和整改期限推送至对应的运维人员。
作为具体实施,性能指标分析模块中用于配置分析模型、性能阈值以及告警级别,用于基于分析模型、性能阈值以及告警级别对增量数据进行分析,得到评估结果。
分析模型的第一实例:通过分析生产者/发布者发送消息到MQ服务端的服务响应时间,同该时间段内MQ服务端的性能数据进行交叉比较,若MQ服务端的性能指标相对正常,而生产者/发布者性能有所下降,则问题可能出现在生产者/发布者端,系统将给出【提示】级别消息,需要系统运营人员进行专注。
分析模型的第二实例:生产者/发布者发送消息到MQ服务端后,其消费者/订阅者应当立即接收并确认。假设消费者/订阅者消息接收时间T2,消息发送到MQ服务端的时间T1,若(T2-T1)>(该消息各个消费者/订阅者接收平均耗时*0.4+历史记录中消费者/订阅者接收平均耗时*0.6)则可能该消费者/订阅者,系统将给出【提示】级别消息,需要系统运营人员进行专注。
分析模型的第三实例:生产者/发布者发送消息到MQ服务端后,若出现消费者/订阅者接收记录缺失的情况则可能是消费者/订阅者端出现异常,系统将给出【警告】级别消息,需要系统运营人员重点关注。
评估结果包括告警信息,所述告警信息包括告警级别,所述告警级别包括正常、提示、警告和严重警告。评估结果中告警级别为提示、警告或严重警告时,所述性能指标分析模块用于基于告警级别设定对应的整改期限。
性能指标跟踪反馈模块面向运维人员,用于支持运维人员上报问题分析和问题处理情况,并对运维人员上报的已处理问题进行评估,将通过评估的问题标记为已处理,将未通过评估的问题进行问题升级并继续告警。
本实施例的系统可通过分析MQ生产者、消费者、服务端及主机性能指标,及时发现消息队列性能和质量问题,及时处置提高业务系统的业务连续性。
实施例2:
本发明一种消息队列服务性能监控方法,通过实施例1公开的系统对消息队列进行监控,该方法包括如下步骤:
S100、监控消息队列,定时收集消息队列性能指标并对消息队列性能指标进行对比,得到消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
S200、通过性能指标服务网关将增量数据存储至数据库;
S300、从数据库中读取增量数据,对所述增量数据进行分析,得到评估结果,基于评估结果中的告警信息设定对应的整改期限,并将评估结果和整改期限推送至对应的运维人员;
S400、基于运维人员上报的问题分析和问题处理情况,对上报的已处理问题进行评估,将通过评估的问题标记为已处理,将未通过评估的问题进行问题升级并继续告警。
作为具体实施,步骤S100通过比对最后修改时间与上次读取时间的消息队列性能指标的方式,获取消息队列性能指标的增量数据。
消息队列性能指标包括服务端性能指标、生产者性能指标、消费者性能指标和主机性能指标,所述主机性能指标包括服务端实例所在主机的主机性能指标、生产者实例所在主机的主机性能指标以及消费者实例所在主机的主机性能指标。
对应的,本实施例中将消息队列的服务端、生产者和消费者均作为目标端,步骤S100定时收集消息队列性能指标并对消息队列性能指标进行对比,包括如下步骤:
(1)对于每个目标端,通过性能指标收集进程监控所述目标端,定时收集目标端对应的消息队列性能指标、并将消息队列性能指标标写入所述目标端对应的日志文件,所述日志文件存储于所述目标端实例所在主机;
(2)对于每个目标端,通过日志收集代理程序定时检测目标端实例所在主机的主机性能指标、并将主机性能指标写入所述目标端对应的主机日志文件,所述主机日志文件存储所述目标端实例所在主机;
(3)通过日志收集代理程序定时检测每个目标端的日志文件以及每个目标端的主机日志文件,并通过比对日志文件最后修改时间与上次读取时间的方式、获取消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
(4)对于每个日志文件,每次执行收集消息队列性能指标后,记录日志文件位置及最后修改时间,下次执行后先比对日志文件修改时间是否晚于上次,若是则从上次记录位置读取到日志文件末尾。
本实施例步骤S300通过如下步骤得到评估结果:配置分析模型、性能阈值以及告警级别,基于分析模型、性能阈值以及告警级别对增量数据进行分析,得到评估结果。
分析模型的第一实例:通过分析生产者/发布者发送消息到MQ服务端的服务响应时间,同该时间段内MQ服务端的性能数据进行交叉比较,若MQ服务端的性能指标相对正常,而生产者/发布者性能有所下降,则问题可能出现在生产者/发布者端,系统将给出【提示】级别消息,需要系统运营人员进行专注。
分析模型的第二实例:生产者/发布者发送消息到MQ服务端后,其消费者/订阅者应当立即接收并确认。假设消费者/订阅者消息接收时间T2,消息发送到MQ服务端的时间T1,若(T2-T1)>(该消息各个消费者/订阅者接收平均耗时*0.4+历史记录中消费者/订阅者接收平均耗时*0.6)则可能该消费者/订阅者,系统将给出【提示】级别消息,需要系统运营人员进行专注。
分析模型的第三实例:生产者/发布者发送消息到MQ服务端后,若出现消费者/订阅者接收记录缺失的情况则可能是消费者/订阅者端出现异常,系统将给出【警告】级别消息,需要系统运营人员重点关注。
评估结果包括告警信息,告警信息包括告警级别,所述告警级别包括正常、提示、警告和严重警告。评估结果中告警级别为提示、警告或严重警告时,基于告警级别设定对应的整改期限。
本实施例的方法对消息队列进行全链路监控,MQ生产者、消费者、服务端程序记录相关的性能指标数据到日志文件中,通过日志收集代理程序收集性能指标日志文件及主机性能数据并推送到MQ性能指标服务网关,MQ性能指标服务器通过分析指标数据及时发现性能问题,运营人员可以及早介入处置。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。

Claims (10)

1.一种消息队列服务性能监控系统,其特征在于包括:
性能指标收集模块,所述性能指标收集模块用于监控消息队列,定时收集消息队列性能指标并对消息队列性能指标进行对比,得到消息队列性能指标的增量数据;
性能指标服务网关,所述性能指标服务网关与所述性能指标收集模块交互,用于接收性能指标收集模块推送的增量数据;
数据库,所述数据库与所述性能指标服务网关交互,用于接收性能指标服务网关推送的增量数据并存储;
性能指标分析模块,所述性能指标分析模块与所述数据库交互,用于对所述增量数据进行分析,得到评估结果,用于基于评估结果中的告警信息设定对应的整改期限,并用于将评估结果和整改期限推送至对应的运维人员;
性能指标跟踪反馈模块,所述性能指标跟踪反馈模块面向运维人员,用于支持运维人员上报问题分析和问题处理情况,并对运维人员上报的已处理问题进行评估,将通过评估的问题标记为已处理,将未通过评估的问题进行问题升级并继续告警。
2.根据权利要求1所述的消息队列服务性能监控系统,其特征在于所述性能指标收集模块用于通过比对最后修改时间与上次读取时间的消息队列性能指标的方式,获取消息队列性能指标的增量数据。
3.根据权利要求1所述的消息队列服务性能监控系统,其特征在于所述消息队列性能指标包括服务端性能指标、生产者性能指标、消费者性能指标和主机性能指标,所述主机性能指标包括服务端实例所在主机的主机性能指标、生产者实例所在主机的主机性能指标以及消费者实例所在主机的主机性能指标。
4.根据权利要求1-3任一项所述的消息队列服务性能监控系统,其特征在于消息队列的服务端、生产者和消费者均作为目标端;
所述性能指标收集模块包括:
队列性能指标收集单元,对于每个目标端,所述队列性能指标收集单元用于通过性能指标收集进程监控所述目标端,用于定时收集目标端对应的消息队列性能指标、并将消息队列性能指标写入所述目标端对应的日志文件,所述日志文件存储于所述目标端实例所在主机;
主机性能指标收集单元,对于每个目标端,所述主机性能指标收集单元用于通过日志收集代理程序定时检目标端实例所在主机的主机性能指标、并将主机性能指标写入所述目标端对应的主机日志文件,所述主机日志文件存储所述目标端实例所在主机;
日志收集代理单元,所述日志收集代理单元用于通过日志收集代理程序定时检测每个目标端的日志文件以及每个目标端的主机日志文件,并用于通过比对日志文件最后修改时间与上次读取时间的方式、获取消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
对于每个日志文件,每次执行收集消息队列性能指标后,所述日志收集代理单元用于记录日志文件位置及最后修改时间,下次执行后先比对日志文件修改时间是否晚于上次,若是则从上次记录位置读取到日志文件末尾。
5.根据权利要求1-3任一项所述的消息队列服务性能监控系统,其特征在于所述性能指标分析模块中用于配置分析模型、性能阈值以及告警级别,用于基于分析模型、性能阈值以及告警级别对增量数据进行分析,得到评估结果;
所述评估结果包括告警信息,所述告警信息包括告警级别,所述告警级别包括正常、提示、警告和严重警告;
评估结果中告警级别为提示、警告或严重警告时,所述性能指标分析模块用于基于告警级别设定对应的整改期限。
6.一种消息队列服务性能监控方法,其特征在于用于通过如权利要求1-5任一项所述的一种消息队列服务性能监控系统对消息队列进行监控,所述方法包括如下步骤:
监控消息队列,定时收集消息队列性能指标并对消息队列性能指标进行对比,得到消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
通过性能指标服务网关将增量数据存储至数据库;
从数据库中读取增量数据,对所述增量数据进行分析,得到评估结果,基于评估结果中的告警信息设定对应的整改期限,并将评估结果和整改期限推送至对应的运维人员;
基于运维人员上报的问题分析和问题处理情况,对运维人员上报的已处理问题进行评估,将通过评估的问题标记为已处理,将未通过评估的问题进行问题升级并继续告警。
7.根据权利要求6所述的消息队列服务性能监控方法,其特征在于通过比对最后修改时间与上次读取时间的消息队列性能指标的方式,获取消息队列性能指标的增量数据。
8.根据权利要求6所述的消息队列服务性能监控方法,其特征在于所述消息队列性能指标包括服务端性能指标、生产者性能指标、消费者性能指标和主机性能指标,所述主机性能指标包括服务端实例所在主机的主机性能指标、生产者实例所在主机的主机性能指标以及消费者实例所在主机的主机性能指标。
9.根据权利要求6所述的消息队列服务性能监控方法,其特征在于消息队列的服务端、生产者和消费者均作为目标端;
定时收集消息队列性能指标并对消息队列性能指标进行对比,包括如下步骤:
对于每个目标端,通过性能指标收集进程监控所述目标端,定时收集目标端对应的消息队列性能指标、并将消息队列性能指标写入所述目标端对应的日志文件,所述日志文件存储于所述目标端实例所在主机;
对于每个目标端,通过日志收集代理程序定时检目标端实例所在主机的主机性能指标、并将主机性能指标写入所述目标端对应的主机日志文件,所述主机日志文件存储所述目标端实例所在主机;
通过日志收集代理程序定时检测每个目标端的日志文件以及每个目标端的主机日志文件,并通过比对日志文件最后修改时间与上次读取时间的方式、获取消息队列性能指标的增量数据,并将增量数据推送至性能指标服务网关;
对于每个日志文件,每次执行收集消息队列性能指标后,记录日志文件位置及最后修改时间,下次执行后先比对日志文件修改时间是否晚于上次,若是则从上次记录位置读取到日志文件末尾。
10.根据权利要求6所述的消息队列服务性能监控方法,其特征在于通过如下步骤得到评估结果:配置分析模型、性能阈值以及告警级别,基于分析模型、性能阈值以及告警级别对增量数据进行分析,得到评估结果;
所述评估结果包括告警信息,所述告警信息包括告警级别,所述告警级别包括正常、提示、警告和严重警告;
评估结果中告警级别为提示、警告或严重警告时,基于告警级别设定对应的整改期限。
CN202210891345.5A 2022-07-27 2022-07-27 消息队列服务性能监控系统及方法 Active CN115314360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210891345.5A CN115314360B (zh) 2022-07-27 2022-07-27 消息队列服务性能监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210891345.5A CN115314360B (zh) 2022-07-27 2022-07-27 消息队列服务性能监控系统及方法

Publications (2)

Publication Number Publication Date
CN115314360A CN115314360A (zh) 2022-11-08
CN115314360B true CN115314360B (zh) 2024-04-12

Family

ID=83859654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210891345.5A Active CN115314360B (zh) 2022-07-27 2022-07-27 消息队列服务性能监控系统及方法

Country Status (1)

Country Link
CN (1) CN115314360B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402459A (zh) * 2010-09-10 2012-04-04 中兴通讯股份有限公司 网管系统性能数据汇总的方法和装置
CN104361419A (zh) * 2014-09-10 2015-02-18 国家电网公司 基于调控合一的输变电设备状态监控缺陷管理系统及方法
CN110309130A (zh) * 2018-03-21 2019-10-08 中国人民财产保险股份有限公司 一种用于主机性能监控的方法及装置
EP3616060A1 (en) * 2017-04-24 2020-03-04 Telefonaktiebolaget LM Ericsson (PUBL) Message queue performance monitoring
CN113448812A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 微服务场景下的监控告警方法及装置
CN114444838A (zh) * 2021-11-25 2022-05-06 国网甘肃省电力公司 一种变电运维安全风险全过程评估方法
CN114500316A (zh) * 2022-01-30 2022-05-13 绿城科技产业服务集团有限公司 一种物联网设备巡检方法和系统
CN114531338A (zh) * 2022-04-24 2022-05-24 中邮消费金融有限公司 一种基于调用链数据的监控告警和溯源方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402459A (zh) * 2010-09-10 2012-04-04 中兴通讯股份有限公司 网管系统性能数据汇总的方法和装置
CN104361419A (zh) * 2014-09-10 2015-02-18 国家电网公司 基于调控合一的输变电设备状态监控缺陷管理系统及方法
EP3616060A1 (en) * 2017-04-24 2020-03-04 Telefonaktiebolaget LM Ericsson (PUBL) Message queue performance monitoring
CN110309130A (zh) * 2018-03-21 2019-10-08 中国人民财产保险股份有限公司 一种用于主机性能监控的方法及装置
CN113448812A (zh) * 2021-07-15 2021-09-28 中国银行股份有限公司 微服务场景下的监控告警方法及装置
CN114444838A (zh) * 2021-11-25 2022-05-06 国网甘肃省电力公司 一种变电运维安全风险全过程评估方法
CN114500316A (zh) * 2022-01-30 2022-05-13 绿城科技产业服务集团有限公司 一种物联网设备巡检方法和系统
CN114531338A (zh) * 2022-04-24 2022-05-24 中邮消费金融有限公司 一种基于调用链数据的监控告警和溯源方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
虚拟化环境下的IT资源监控与性能提升分析;陆冰芳;广西电业;全文 *

Also Published As

Publication number Publication date
CN115314360A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
US7444263B2 (en) Performance metric collection and automated analysis
CN112712113B (zh) 一种基于指标的告警方法、装置及计算机系统
CN110309030A (zh) 基于ELK和Zabbix的日志分析监控系统和方法
CN105207806A (zh) 分布式服务的监控方法及装置
CN108599977B (zh) 基于统计方法监控系统可用性的系统及方法
CN110231998B (zh) 分布式定时任务的检测方法、装置及存储介质
CN100549975C (zh) 计算机维护帮助系统及分析服务器
CN110941532A (zh) Mes的监控方法、监控装置及可读存储介质
CN111459782A (zh) 监控业务系统的方法、装置、云平台系统和服务器
US20040073657A1 (en) Indirect measurement of business processes
CN111400294B (zh) 数据异常监测方法、装置及系统
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN116415045A (zh) 数据采集方法、装置、电子设备及存储介质
CN115314360B (zh) 消息队列服务性能监控系统及方法
CN112256548B (zh) 异常数据的监听方法、装置、服务器及存储介质
CN112306871A (zh) 数据处理方法、装置、设备及存储介质
CN115545452A (zh) 运维方法、运维系统、设备及存储介质
CN112969151B (zh) 一种短信监控方法、装置及设备
CN113472881B (zh) 在线终端设备的统计方法和装置
CN112242917A (zh) 一种车联网服务质量检测方法及系统
CN113676356A (zh) 报警信息处理方法、装置、电子设备及可读存储介质
CN113347201A (zh) 一种异常检测方法、系统及计算设备
CN112134760A (zh) 链路状态监控方法、装置、设备及计算机可读存储介质
CN111506422A (zh) 事件分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant