CN112653586A - 基于全链路监控的时空大数据平台应用性能管理方法 - Google Patents

基于全链路监控的时空大数据平台应用性能管理方法 Download PDF

Info

Publication number
CN112653586A
CN112653586A CN201910967801.8A CN201910967801A CN112653586A CN 112653586 A CN112653586 A CN 112653586A CN 201910967801 A CN201910967801 A CN 201910967801A CN 112653586 A CN112653586 A CN 112653586A
Authority
CN
China
Prior art keywords
monitoring
data
application
server
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910967801.8A
Other languages
English (en)
Other versions
CN112653586B (zh
Inventor
胡伦
徐恒
高强
徐思奇
程唐根
赵宇洲
金樱艳
曹双顺
郑鹏民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuance Information Technology Co ltd
Original Assignee
Suzhou Industrial Park Surveying Mapping And Geoinformation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Industrial Park Surveying Mapping And Geoinformation Co ltd filed Critical Suzhou Industrial Park Surveying Mapping And Geoinformation Co ltd
Priority to CN201910967801.8A priority Critical patent/CN112653586B/zh
Publication of CN112653586A publication Critical patent/CN112653586A/zh
Application granted granted Critical
Publication of CN112653586B publication Critical patent/CN112653586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了种基于全链路监控的时空大数据平台应用性能管理方法,步骤为:1.分析全链路监控目标和范围;2.应用监控指标定义;3.应用服务器承载埋点;4.应用服务器端口监控埋点;5.应用系统链路监控埋点;6.统一日志收集与改造;8.判断应用系统链路是否健康;9.针对不健康的应用系统链路判断监控是否需要报警;10.针对需要报警的应用系统链路根据联系人判断通知方式;11.同步数据到日志历史库。通过上述方式,本发明解决了当分布式系统发生故障时,无法快速定位和解决问题的难题。

Description

基于全链路监控的时空大数据平台应用性能管理方法
技术领域
本发明涉及时空大数据领域,特别涉及基于全链路监控的时空大数据平台应用性能管理方法。
背景技术
随着大数据发展的趋势,时空大数据平台作为其基础大数据重要组成部分。时空大数据是指同时具有时间和空间维度的数据,现实世界中的数据超过80%与地理位置有关。从地理信息时空多维度将感知网络层、公共设施层(IaaS)、大数据层(DaaS)、平台层(PaaS)、应用层(SaaS)多层融合打通。伴随着微服务架构的流行,时空大数据平台在其纵向维度上进行不同层面的拆分与组合,一次服务请求往往涉及到多个层面、几种服务的汇聚与转发,横跨大数据的多个子平台。
时空大数据平台应用的性能管理,要求跟踪系统对在线服务的影响应足够小,同时对应用的开发者来说是不需要知道有跟踪系统的存在即无处不在的部署,另外应满足至少未来几年的服务和集群规模。当前大数据平台由于存在分阶段的多次建设,可能是由不同的团队开发、可能使用不同的编程语言来实现、可能布在了几千台服务器,横跨多个不同的数据中心;通常对性能管理存在无管理或者被动管理的情况;并且由于涉及系统多,即使有管理,也会存在管理标准不一致,要求不同,只能在自己内部进行监控,并且多数只能做到服务器和网络级别的管理,无法对应用链路和应用本身的监控状况进行实时的监控和维护。国内地理时空大数据生产管理与应用面临的数据存储组织难、数据吞吐处理难、数据集成应用难和数据生产全过程管理难等问题,无法快速定位和解决平台故障。
发明内容
为克服上述缺点,本发明的目的在于提供一种基于全链路监控的时空大数据平台应用性能管理方法,该方法通过TraceID关联时空数据资源ID和运行服务器资产标志,对应用数据和环境运行情况进行监控和记录,保障时空大数据平台分散的各类数据资源从提供方到管理方的链路可靠、稳定和高效运行。
为了达到以上目的,本发明采用的技术方案是:基于全链路监控的时空大数据平台应用性能管理方法,使用基于Zabbix、ELK和Zipkin的技术,以前端页面整合和后端分布式对象存储进行历史信息的同步保障、实时监控和历史特征分析数据同步保存,其特征在于:整合通用的单项技术,利用数据同步技术达到各个维度的监控和管理,包括如下步骤:
S1、分析全链路监控目标和范围,所述全链路监控目标根据各种服务器的运行性能参数,所述运行性能参数包括网络的吞吐量,用户服务的响应时间,故障的恢复时间标注,所述全链路监控范围包括实时日志监控和分析、承载环境监控、数据汇集链路监控和数据共享交换监控;
S2、定义应用系统监控指标,所述应用系统监控指标包括承载环境、链路监控和统一日志收集;
S3、应用服务器承载埋点,根据所述S2中定义的承载环境指标,应用服务器承载埋点并传送信息至Zabbix服务端;
S4、应用服务器端口监控埋点,根据所述S2中定义的承载环境指标,应用服务器端口监控埋点并传送信息至Zabbix服务端;
S5、应用系统链路监控埋点,根据所述S2中定义的链路监控指标,应用系统链路监控埋点并提交信息至Zipkin服务端;
S6、应用系统统一日志收集与改造,基于ELK调用链,根据所述S2定义的统一日志收集,将孤立的日志串在一起,重组成调用链排查过程中出现的问题;
S7、提交信息到服务端收集链路监控信息,提交将S3~S6中采集的信息均提交至服务端;;
S8、判断应用系统链路是否健康服务,服务端根据S7中提交的信息判断应用系统链路是否健康服务,包括共享平台内部系统间链路、汇聚系统到服务器资源之间链路;
S9、针对不健康的应用系统链路判断监控是否需要报警,各项监控指标达到阈值并保持一定时间后触发报警;
S10、针对需要报警的应用系统链路根据联系人判断通知方式,通知方式包括邮件、手机短信和其他SNS;
S11、同步数据到日志历史库,将时空大数据平台的审计信息统一更新收集到日志历史库中,保障历史信息的实时监控和历史特征分析数据同步保存。
通过实时日志监控和分析、承载环境监控、数据汇聚链路运行监控、数据共享交换监控内容,把孤立的日志串在一起重组成调用链,监控出入口流量和基础承载,对各种来源数据的接入状态检测,日常主动状态巡检,监控所有数据采集接口服务,监控使用方调用资源状态等一系列操作,实现时空大数据平台应用性能管理。
优选地,所述S1中全链路监控目标包括探针的性能消耗、代码的侵入性、可扩展性和数据的分析能力;
(1)探针的性能消耗,APM组件服务的影响应该做到足够小,服务调用埋点本身会带来性能损耗,这需要调用跟踪的低损耗,实际中还会通过配置采样率方式,选择一部分请求去分析请求路径,在一些高度优化过的服务,即使一点点损耗也会很容易察觉到,而且有可能迫使在线服务的部署团队不得不将跟踪系统关停代码的侵入性、代码的侵入性和数据的分析能力;
(2)代码的侵入性、即作为业务组件,应当尽可能少入侵或者无入侵其他业务系统,对于使用方透明,减少开发人员的负担;
(3)可扩展性,一个优秀的调用跟踪系统必须支持分布式部署,具备良好的可扩展性,能够支持的组件越多越好,或者提供便捷的插件开发API,对于一些没有监控到的组件,应用开发者也可以自行扩展;
(4)数据的分析,数据的分析要快,分析的维度尽可能多;跟踪系统能提供足够快的信息反馈,就可以对生产环境下的异常状况做出快速反应;分析的全面,能够避免二次开发。
优选地,所述S2中应用系统监控指标包括
应用平台运行服务器的承载环境指标,由S3和S4中埋点采集;
服务器所在的网络指标,由S3和S4中埋点采集;
关键服务器端口的监控,应用服务之间的调用链路监控、调用频率和耗时指标,由S5中埋点采集;
服务健康状态的监控指标,由步骤S6收集;
应用系统的关键步骤和关键节点记录的审计信息收集;
过程中的所有日志信息记录,统一收集到Elasticsearch做为介质的服务器上。
优选地,所述承载环境指标包括CPU的指标、内存的指标、磁盘的指标和一般性指标,所述CPU的指标包括CPU空闲时间、CPU等待时间、处理负载;所述内存的指标包括可用内存、剩余交换空间和剩余交换空间占比;所述磁盘的指标包括根目录磁盘的可用空间、根目录的可用磁盘空间比、引导区的可用空间、引导区的可用磁盘空间比;所述一般性指标包括主机名、系统信息、系统正常运行时间;
所述网络指标包括ens32的传入网络流量、ens32的传出网络流量;
所述应用服务之间的调用链路监控、调用频率和耗时指标包括应用链路和慢服务查询指标,所述应用链路指标用于监控应用或API调用链路,所述慢服务查询指标用于根据链路占用时常统计最慢前十名;
服务健康状态的监控指标包括日志类型监控、异常出现频率监控、自定义关键字出现频率、异常日志详细信息查询、高频出错服务和API查询指标。
优选地,所述S3、S4采用Zabbix工作机制,Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案,所述Zabbix包括Zabbix Agent和Zabbix Server,所述Zabbix Agent安装在被监控的目标服务器上,定期收集硬件信息或与操作系统有关的监控指标,并发送到Zabbix Server端,Zabbix Server将数据存储到数据库中,Zabbix Web根据数据在前端进行展现和绘图。
优选地,所述Zabbix Agent收集数据分为主动和被动两种模式,所述主动收集数据模式为Zabbix Agent请求Zabbix Server,获取主动的监控项列表,并主动将监控项内需要检测的数据提交给Zabbix Server;所述被动收集数据为Zabbix Server向Zabbix Agent请求获取监控项的数据,所述Zabbix Agent返回数据。
优选地,所述S5采用采用Zipkin工作机制,Zipkin用于跟踪分布式服务之间的应用数据链路,分析处理延时,帮助改进系统的性能和定位故障,具体步骤如下
S51、请求到来生成一个全局TraceID,关联本次请求处理的关键时空数据资源标志和所运行服务器的资产唯一标志,通过所述TraceID可以串联起整个调用链,一个所述TraceID代表一次请求;
S52、生成一个SpanID,所述SpanID记录调用父子关系,每个服务会记录下ParentId和SpanID,通过他们可以组织一次完整调用链的父子关系;
S53、要一个没有Parent Id的SpanID成为Root Span,所述Root Span为调用链入口;
S54、TraceID、SpanID和Parent Id可用全局唯一的64位整数表示;
S55、整个调用过程中每个请求都要透传所述TraceID和SpanID;
S56、每个服务将该次请求附带的所述TraceID和附带的SpanID作为Parent Id记录下,并且将自己生成的SpanID记录下;
S57、查看某次完整的调用则只要根据TraceID查出所有调用记录,然后通过Parent Id和SpanID组织起整个调用父子关系,最终结合关键数据资源和资产资源,可以明确资源使用分布和资源的流传路径。
优选地,所述S6包括调用路径分析和调用去向分析,过程采用ELK工作机制,具体步骤如下
S61、Logstash通过输入安装在应用中的插件从多种数据源获取数据,一个Logstash数据搜集节点扩展到多个,分布于多台机器,将解析好的数据发送到Elasticsearch server进行存储;
S62、Elasticsearch把收集的数据统一存储到对应的介质中,并提供搜集、分析、存储数据三大功能,开放REST和JAVA API结构,提供高效搜索功能和可扩展的分布式系统,它构建于Apache Lucene搜索引擎库之上;
S63、Kibana利用Elasticsearch的REST接口来检索数据,允许用户创建他们自己数据的定制仪表板视图,并允许他们以特殊的方式查询和过滤数据,可以提供各种Web图形界面用于搜索、分析和可视化存储在Elasticsearch指标中的日志数据。
优选地,所述S8中应用系统链路是否健康的判断标准如下
应用所在服务器的监控状况,根据服务器经验阈值来判断;
应用本身运用的监控状况,判断包括应用服务端口是否正常、应用的health检查服务能否正常返回up状态,应用本身处理请求的响应时间是否正常、应用请求对应的上游服务分布是否均衡。
优选地,根据所述S3~S7中埋点信息和日志记录检查与反馈应用监控指标,所述S8~S10包括事前检查与反馈、事中检查与反馈和事后检查与反馈。事前检查与反馈根据监控历史数据,预测系统链路健康趋势,进行应急预案演练;事中检查与反馈将收集的各种监控记录指标和数据作为问题排查和整改方案的数据依据,判断应用系统链路健康状况并反馈报警的必要性和通知方式,全面还原故障现场,除吞吐量、响应时间和错误数外,可再现故障发生时的流量、并发用户数、总连接数、并发连接数和错误详情,跟踪记录每个错误,包括请求URL、返回码、SQL语句、绑定参数或变量,帮助运维人员快速隔离问题域;事后检查与反馈根据所收集的监控指标数据形成专业的数据分析和统计报告,可看到各项指标的增量,发现系统的性能趋势,根据增量趋势分析在未来的什么时间系统会出现性能瓶颈,帮助用户找到出现异常的根源,进而安排什么时间做什么样的策略来解决这些瓶颈,促进运维管理体系的改进,避免和减少同类问题的发生,让运维从被动转为主动,从安排下一步应急预案策略和类似新项目上线和运维角度来形成知识库。
上述S1为全链路监控目标和范围分析;S2~S7为应用监控指标采集和定义;S8~S10为应用系统链路健康检查与反馈;S11日志历史库数据同步。
本发明的有益效果是:本发明采用全链路监控性,能从整体到局部维度瞄准吞吐量、响应时间、错误记录日志等关键指标,实现请求链路追踪、故障快速定位、依赖合理优化、链路数据分析与阶段耗时可视化,帮助时空大数据平台自动化、智能化、流程化地进行运维与管理工作。通过统一的微服务治理规范,通过TraceID关联时空数据资源ID和运行服务器资产标志,实现数据的收集和分发、应用跟踪和监控,保障出现问题和故障时,能够快速发现和定位故障点,最终实现以数据为核心价值的面向服务的架构和智慧运营的效果。
附图说明
图1为本实施例的流程示意图。
具体实施方式
下面对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参照附图1,基于全链路监控的时空大数据平台应用性能管理方法,使用基于Zabbix、ELK和Zipkin的技术,以前端页面整合和后端分布式对象存储进行历史信息的同步保障、实时监控和历史特征分析数据同步保存。整合通用的单项技术,利用数据同步技术达到各个维度的监控和管理。通过实时日志监控和分析、承载环境监控、数据汇聚链路运行监控、数据共享交换监控内容,把孤立的日志串在一起重组成调用链,监控出入口流量和基础承载,对各种来源数据的接入状态检测,日常主动状态巡检,监控所有数据采集接口服务,监控使用方调用资源状态等一系列操作,实现时空大数据平台应用性能管理。包括如下步骤:
S1、分析全链路监控目标和范围,全链路监控目标根据各种服务器的运行性能参数,运行性能参数包括网络的吞吐量,用户服务的响应时间,故障的恢复时间标注,全链路监控范围包括实时日志监控和分析、承载环境监控、数据汇集链路监控和数据共享交换监控。
S2、定义应用系统监控指标,应用系统监控指标包括承载环境、链路监控和统一日志收集。
S3、应用服务器承载埋点,根据S2中定义的承载环境指标,应用服务器承载埋点并传送信息至Zabbix服务端。
S4、应用服务器端口监控埋点,根据S2中定义的承载环境指标,应用服务器端口监控埋点并传送信息至Zabbix服务端。
S5、应用系统链路监控埋点,根据S2中定义的链路监控指标,应用系统链路监控埋点并提交信息至Zipkin服务端。
S5采用zipkin工作机制,Zipkin用于跟踪分布式服务之间的应用数据链路,分析处理延时,帮助改进系统的性能和定位故障,具体步骤如下
S51、请求到来生成一个全局TraceID,关联本次请求处理的关键时空数据资源标志和所运行服务器的资产唯一标志,通过TraceID可以串联起整个调用链,一个TraceID代表一次请求;
S52、生成一个SpanID,SpanID记录调用父子关系,每个服务会记录下Parent Id和SpanID,通过他们可以组织一次完整调用链的父子关系;
S53、要一个没有Parent Id的SpanID成为Root Span,Root Span为调用链入口;
S54、TraceID、SpanID和Parent Id可用全局唯一的64位整数表示;
S55、整个调用过程中每个请求都要透传TraceID和SpanID;
S56、每个服务将该次请求附带的TraceID和附带的SpanID作为Parent Id记录下,并且将自己生成的SpanID记录下;
S57、查看某次完整的调用则只要根据TraceID查出所有调用记录,然后通过Parent Id和SpanID组织起整个调用父子关系,最终结合关键数据资源和资产资源,可以明确资源使用分布和资源的流传路径。
S6、应用系统统一日志收集与改造,基于ELK调用链,根据S2定义的统一日志收集,将孤立的日志串在一起,重组成调用链排查过程中出现的问题。
S6包括调用路径分析和调用去向分析,过程采用ELK工作机制,具体步骤如下
S61、Logstash通过输入安装在应用中的插件从多种数据源获取数据,一个Logstash数据搜集节点扩展到多个,分布于多台机器,将解析好的数据发送到Elasticsearch server进行存储;
S62、Elasticsearch把收集的数据统一存储到对应的介质中,并提供搜集、分析、存储数据三大功能,开放REST和JAVA API结构,提供高效搜索功能和可扩展的分布式系统,它构建于Apache Lucene搜索引擎库之上;
S63、Kibana利用Elasticsearch的REST接口来检索数据,允许用户创建他们自己数据的定制仪表板视图,并允许他们以特殊的方式查询和过滤数据,可以提供各种Web图形界面用于搜索、分析和可视化存储在Elasticsearch指标中的日志数据。
S7、提交信息到服务端收集链路监控信息,提交将S3~S6中采集的信息均提交至服务端。
S8、判断应用系统链路是否健康服务,服务端根据S7中提交的信息判断应用系统链路是否健康服务,包括共享平台内部系统间链路、汇聚系统到服务器资源之间链路;
S9、针对不健康的应用系统链路判断监控是否需要报警,各项监控指标达到阈值并保持一定时间后触发报警。如服务器CPU空闲率连续5分钟少于20%、网络延时连续5次超过100毫秒、应用请求联系出现5次超过200毫秒等情况都会触发,并且系统支持根据管理的要求动态定制触发阈值。
S10、针对需要报警的应用系统链路根据联系人判断通知方式,通知方式包括邮件、手机短信和其他SNS。
S11、同步数据到日志历史库,将大数据平台承载环境、运行服务的监控状态、运行服务的调用链路和故障点位置及快速恢复记录、应用系统的关键步骤和关键节点记录的审计信息统一更新收集到日志历史库中,保障历史信息的实时监控和历史特征分析数据同步保存。
通过实时日志监控和分析、承载环境监控、数据汇聚链路运行监控、数据共享交换监控内容,把孤立的日志串在一起重组成调用链,监控出入口流量和基础承载,对各种来源数据的接入状态检测,日常主动状态巡检,监控所有数据采集接口服务,监控使用方调用资源状态等一系列操作,实现时空大数据平台应用性能管理。
S1中全链路监控目标是保障分散的各类数据资源从提供方到管理方的链路可靠、稳定和高效运行,包括探针的性能消耗、代码的侵入性、可扩展性和数据的分析能力;
(1)探针的性能消耗,APM组件服务的影响应该做到足够小,服务调用埋点本身会带来性能损耗,这需要调用跟踪的低损耗,实际中还会通过配置采样率方式,选择一部分请求去分析请求路径,在一些高度优化过的服务,即使一点点损耗也会很容易察觉到,而且有可能迫使在线服务的部署团队不得不将跟踪系统关停代码的侵入性、代码的侵入性和数据的分析能力;
(2)代码的侵入性、即作为业务组件,应当尽可能少入侵或者无入侵其他业务系统,对于使用方透明,减少开发人员的负担;
(3)可扩展性,一个优秀的调用跟踪系统必须支持分布式部署,具备良好的可扩展性,能够支持的组件越多越好,或者提供便捷的插件开发API,对于一些没有监控到的组件,应用开发者也可以自行扩展;
(4)数据的分析,数据的分析要快,分析的维度尽可能多;跟踪系统能提供足够快的信息反馈,就可以对生产环境下的异常状况做出快速反应;分析的全面,能够避免二次开发。
S2中应用系统监控指标包括
应用平台运行服务器的承载环境指标,由S3和S4中埋点采集;
服务器所在的网络指标,由S3和S4中埋点采集;
关键服务器端口的监控,应用服务之间的调用链路监控、调用频率和耗时指标,由S5中埋点采集;
服务健康状态的监控指标,由步骤S6收集;
应用系统的关键步骤和关键节点记录的审计信息收集;
过程中的所有日志信息记录,统一收集到Elasticsearch做为介质的服务器上。
承载环境指标包括(服务器以CentOS7.2为原型)
(1)CPU的指标
(1.1)CPU空闲时间:通常定义为小于百分之15,产生严重问题;
(1.2)CPUIO等待时间:通常定义为5分钟内平均大于20%,产生告警;
(1.3)处理负载(每个核心平均一分钟内):通常5分钟内平均大于5,产生告警。
(2)内存的指标
(2.1)可用内存:通常定义为小于128M,产生一般问题,也可以根据应用特性支持本系数;
(2.2)剩余交换空间通常定义为小于128M,产生问题;
(2.3)剩余交换空间占比:通常小于30%,产生告警提示。
(3)磁盘的指标
(3.1)根目录磁盘的可用空间:通常定义为可用磁盘空间小于5G产生问题;
(3.2)根目录的可用磁盘空间比:通常定义为小于20%,产生问题;
(3.3)引导区的可用空间:常定义为可用磁盘空间小于5G产生问题;
(3.4)引导区的可用磁盘空间比:通常定义为小于20%,产生问题;
(3.5)其他磁盘也可以根据以上给出的磁盘剩余空间和磁盘空间比两个维度来定义。
(4)一般性指标
(4.1)主机名:当被修改,会产生信息;
(4.2)系统信息:主机信息更改,产生信息;
(4.3)系统正常运行时间:重新启动主机,产生信息。
网络指标包括
(1)ens32的传入网络流量:传入网络流量大于5M,产生告警;
(2)ens32的传出网络流量:传出网络流量大于5M,产生告警。
应用服务之间的调用链路监控、调用频率和耗时指标包括
(1)应用链路:监控应用或API调用链路;
(2)慢服务查询指标:根据链路占用时常统计最慢前十名。
服务健康状态的监控指标包括
(1)日志类型监控:统计各种日志信息的占比;
(2)异常出现频率监控:统计各个时间段内出现异常消息的比例;
(3)自定义关键字出现频率(配合日志规范):统计一些关键字在一定时间内出现的次数;
(4)异常日志详细信息查询:根据关键字查询异常明细;
(5)高频出错服务和API查询:根据统计日志的服务出错情况统计服务质量。
S3、S4采用Zabbix工作机制,Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案,Zabbix包括Zabbix Agent和Zabbix Server,Zabbix Agent安装在被监控的目标服务器上,定期收集硬件信息或与操作系统有关的监控指标,并发送到Zabbix Server端,Zabbix Server将数据存储到数据库中,Zabbix Web根据数据在前端进行展现和绘图。Zabbix Agent收集数据分为主动和被动两种模式,主动收集数据模式为Zabbix Agent请求Zabbix Server,获取主动的监控项列表,并主动将监控项内需要检测的数据提交给Zabbix Server;被动收集数据为Zabbix Server向Zabbix Agent请求获取监控项的数据,Zabbix Agent返回数据。
S8中应用系统链路是否健康的判断标准如下
应用所在服务器的监控状况,根据服务器经验阈值来判断;
应用本身运用的监控状况,判断包括应用服务端口是否正常、应用的health检查服务能否正常返回up状态,应用本身处理请求的响应时间是否正常、应用请求对应的上游服务分布是否均衡。
根据S3~S7中埋点信息和日志记录检查与反馈应用监控指标,S8~S10包括事前检查与反馈、事中检查与反馈和事后检查与反馈。事前检查与反馈根据监控历史数据,预测系统链路健康趋势,进行应急预案演练;事中检查与反馈将收集的各种监控记录指标和数据作为问题排查和整改方案的数据依据,判断应用系统链路健康状况并反馈报警的必要性和通知方式,全面还原故障现场,除吞吐量、响应时间和错误数外,可再现故障发生时的流量、并发用户数、总连接数、并发连接数和错误详情,跟踪记录每个错误,包括请求URL、返回码、SQL语句、绑定参数或变量,帮助运维人员快速隔离问题域;事后检查与反馈根据所收集的监控指标数据形成专业的数据分析和统计报告,可看到各项指标的增量,发现系统的性能趋势,根据增量趋势分析在未来的什么时间系统会出现性能瓶颈,帮助用户找到出现异常的根源,进而安排什么时间做什么样的策略来解决这些瓶颈,促进运维管理体系的改进,避免和减少同类问题的发生,让运维从被动转为主动,从安排下一步应急预案策略和类似新项目上线和运维角度来形成知识库。
上述S1为全链路监控目标和范围分析;S2~S7为应用监控指标采集和定义;S8~S10为应用系统链路健康检查与反馈;S11日志历史库数据同步。
全链路监控目标和范围分析:全链路监控目标是保障分散的各类数据资源从提供方到管理方的链路可靠、稳定和高效运行;范围包含实时日志监控和分析、承载环境监控、数据汇聚链路运行监控、数据共享交换监控。
应用监控指标采集和定义:应用监控指标定义了承载环境、链路监控与统一日志收集两大部分。应用服务器承载埋点、应用服务器端口监控埋点信息指的是承载环境指标,即CPU、磁盘、网络、内存与一般指标,根据Zabbix工作机制,将这些信息提交到Zabbix服务端。CPU指标包含每秒上下切换、CPU空闲时间、CPUIO等待时间、处理器负载(每个核心平均1分钟);磁盘指标包含引导区磁盘空间容量、引导区可用磁盘空间百分比、根目录的可用磁盘空间容量、根目录上的可用磁盘空间百分比、网络指标包含ens32的传入网络流量、ens32的传出网络流量;内存的指标包括可用内存、剩余交换空间、剩余交换空间、总内存、总交换空间;一般指标包含主机名、系统信息、系统正常正常运行时间。应用系统链路监控埋点信息指的是应用链路、慢服务查询指标,根据Zipkin工作机制,提交信息到Zipkin服务端。应用链路指标用于监控应用或API调用链路;慢服务查询指标用于根据链路占用时常统计最慢top10。
应用系统统一日志收集与改造信息指的是日志类型监控、异常出现频率监控、自定义关键字出现频率(配合日志规范)、异常日志详细信息查询、高频出错服务和API查询指标,根据ELK工作机制,利用logstash收集日志数据,elasticsearch将收集的数据统一存储到对应的介质并提供搜索功能,kibana通过各种Web的图形界面展示存储在Elasticsearch指标中的日志数据。日志类型监控指标用于统计各种日志信息的占比;异常出现频率监控指标用于统计各个时间段内出现异常消息的比例;自定义关键字出现频率(配合日志规范)指标用于统计一些关键字在一定时间内出现的次数;异常日志详细信息查询指标用于根据关键字查询异常明细;高频出错服务和API查询指标用于根据统计日志的服务出错情况统计服务质量。
应用监控指标的检查与反馈:应用系统链路健康检查包括事前检查与反馈、事中检查与反馈和事后检查与反馈三种。事前根据监控历史数据,预测系统链路健康趋势,进行应急预案演练;事中检查与反馈需要将收集的各种监控记录指标和数据作为问题排查和整改方案的数据依据,判断应用系统链路健康状况并反馈报警的必要性和通知方式,全面还原故障现场,除吞吐量、响应时间和错误数外,还能再现故障发生时的流量、并发用户数、总连接数、并发连接数和错误详情,跟踪记录每个错误,包括请求URL、返回码、SQL语句、绑定参数或变量,帮助运维人员快速隔离问题域;事后检查与反馈根据所收集的监控指标数据形成专业的数据分析和统计报告,可以看到各项指标的增量,发现系统的性能趋势,根据增量趋势分析在未来的什么时间系统会出现性能瓶颈,帮助用户找到出现异常的根源,进而安排什么时间做什么样的策略来解决这些瓶颈,促进运维管理体系的改进,避免和减少同类问题的发生,让运维从被动转为主动,从安排下一步应急预案策略和类似新项目上线和运维角度来形成知识库。
以上实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据发明精神实质所做的等效变化或修饰,都应涵盖在本发明的保护范围内。

Claims (10)

1.基于全链路监控的时空大数据平台应用性能管理方法,使用基于Zabbix、ELK和Zipkin的技术,以前端页面整合和后端分布式对象存储进行历史信息的同步保障、实时监控和历史特征分析数据同步保存,其特征在于:整合通用的单项技术,利用数据同步技术达到各个维度的监控和管理,包括如下步骤:
S1、分析全链路监控目标和范围,所述全链路监控目标根据各种服务器的运行性能参数,所述运行性能参数包括网络的吞吐量、用户服务的响应时间和故障的恢复时间标注,所述全链路监控范围包括实时日志监控和分析、承载环境监控、数据汇集链路监控和数据共享交换监控;
S2、定义应用系统监控指标,所述应用系统监控指标包括承载环境、链路监控和统一日志收集;
S3、应用服务器承载埋点,根据所述S2中定义的承载环境指标,应用服务器承载埋点并传送信息至Zabbix服务端;
S4、应用服务器端口监控埋点,根据所述S2中定义的承载环境指标,应用服务器端口监控埋点并传送信息至Zabbix服务端;
S5、应用系统链路监控埋点,根据所述S2中定义的链路监控指标,应用系统链路监控埋点并提交信息至Zipkin服务端;
S6、应用系统统一日志收集与改造,基于ELK调用链,根据所述S2定义的统一日志收集,将孤立的日志串在一起,重组成调用链排查过程中出现的问题;
S7、提交信息到服务端收集链路监控信息,提交将S3~S6中采集的信息均提交至服务端;
S8、判断应用系统链路是否健康服务,服务端根据S7中提交的信息判断应用系统链路是否健康服务;
S9、针对不健康的应用系统链路判断监控是否需要报警,各项监控指标达到阈值并保持一定时间后触发报警;
S10、针对需要报警的应用系统链路根据联系人判断通知方式,通知方式包括邮件、手机短信和其他SNS;
S11、同步数据到日志历史库,将时空大数据平台的审计信息统一更新收集到日志历史库中,保障历史信息的实时监控和历史特征分析数据同步保存。
2.根据权利要求1所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:所述S1中全链路监控目标包括探针的性能消耗、代码的侵入性、可扩展性和数据的分析能力。
3.根据权利要求1所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:所述S2中应用系统监控指标包括
应用平台运行服务器的承载环境指标,由S3和S4中埋点采集;
服务器所在的网络指标,由S3和S4中埋点采集;
关键服务器端口的监控,应用服务之间的调用链路监控、调用频率和耗时指标,由S5中埋点采集;
服务健康状态的监控指标,由步骤S6收集;
应用系统的关键步骤和关键节点记录的审计信息收集;
过程中的所有日志信息记录,统一收集到Elasticsearch做为介质的服务器上。
4.根据权利要求3所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:
所述承载环境指标包括CPU的指标、内存的指标、磁盘的指标和一般性指标,其中所述CPU的指标包括CPU空闲时间、CPUIO等待时间、处理负载;所述内存的指标包括可用内存、剩余交换空间和剩余交换空间占比;所述磁盘的指标包括根目录磁盘的可用空间、根目录的可用磁盘空间比、引导区的可用空间、引导区的可用磁盘空间比;所述一般性指标包括主机名、系统信息、系统正常运行时间;
所述网络指标包括ens32的传入网络流量、ens32的传出网络流量;
所述应用服务之间的调用链路监控、调用频率和耗时指标包括应用链路和慢服务查询指标,所述应用链路指标用于监控应用或API调用链路,所述慢服务查询指标用于根据链路占用时常统计最慢前十名;
服务健康状态的监控指标包括日志类型监控、异常出现频率监控、自定义关键字出现频率、异常日志详细信息查询、高频出错服务和API查询指标。
5.根据权利要求1所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:所述S3、S4采用Zabbix工作机制,所述Zabbix包括Zabbix Agent和Zabbix Server,所述Zabbix Agent安装在被监控的目标服务器上,定期收集硬件信息或与操作系统有关的监控指标,并发送到Zabbix Server端,Zabbix Server将数据存储到数据库中,Zabbix Web根据数据在前端进行展现和绘图。
6.根据权利要求5所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:所述Zabbix Agent收集数据分为主动和被动两种模式,所述主动收集数据模式为Zabbix Agent请求Zabbix Server,获取主动的监控项列表,并主动将监控项内需要检测的数据提交给Zabbix Server;所述被动收集数据为Zabbix Server向Zabbix Agent请求获取监控项的数据,所述Zabbix Agent返回数据。
7.根据权利要求1所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:所述S5采用采用Zipkin工作机制,Zipkin用于跟踪分布式服务之间的应用数据链路,分析处理延时,帮助改进系统的性能和定位故障,具体步骤如下
S51、请求到来生成一个全局TraceID,关联本次请求处理的关键时空数据资源标志和所运行服务器的资产唯一标志,通过所述TraceID可以串联起整个调用链,一个所述TraceID代表一次请求;
S52、生成一个SpanID,所述SpanID记录调用父子关系,每个服务会记录下Parent Id和SpanID,通过他们可以组织一次完整调用链的父子关系;
S53、要一个没有Parent Id的SpanID成为Root Span,所述Root Span为调用链入口;
S54、TraceID、SpanID和Parent Id可用全局唯一的64位整数表示;
S55、整个调用过程中每个请求都要透传所述TraceID和SpanID;
S56、每个服务将该次请求附带的所述TraceID和附带的SpanID作为Parent Id记录下,并且将自己生成的SpanID记录下;
S57、查看某次完整的调用则只要根据TraceID查出所有调用记录,然后通过Parent Id和SpanID组织起整个调用父子关系,最终结合关键数据资源和资产资源,可以明确资源使用分布和资源的流传路径。
8.根据权利要求1所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:所述S6包括调用路径分析和调用去向分析,过程采用ELK工作机制,具体步骤如下
S61、Logstash通过输入安装在应用中的插件从多种数据源获取数据,一个Logstash数据搜集节点扩展到多个,分布于多台机器,将解析好的数据发送到Elasticsearch server进行存储;
S62、Elasticsearch把收集的数据统一存储到对应的介质中,并提供搜集、分析、存储数据三大功能,开放REST和JAVA API结构,提供高效搜索功能和可扩展的分布式系统,它构建于Apache Lucene搜索引擎库之上;
S63、Kibana利用Elasticsearch的REST接口来检索数据,允许用户创建他们自己数据的定制仪表板视图,并允许他们以特殊的方式查询和过滤数据,可以提供各种Web图形界面用于搜索、分析和可视化存储在Elasticsearch指标中的日志数据。
9.根据权利要求1所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:所述S8中应用系统链路是否健康的判断标准如下
应用所在服务器的监控状况,根据服务器经验阈值来判断;
应用本身运用的监控状况,判断包括应用服务端口是否正常、应用的health检查服务能否正常返回up状态,应用本身处理请求的响应时间是否正常、应用请求对应的上游服务分布是否均衡。
10.根据权利要求1所述的基于全链路监控的时空大数据平台应用性能管理方法,其特征在于:根据所述S3~S7中埋点信息和日志记录检查与反馈应用监控指标,所述S8~S10包括事前检查与反馈、事中检查与反馈和事后检查与反馈。
CN201910967801.8A 2019-10-12 2019-10-12 基于全链路监控的时空大数据平台应用性能管理方法 Active CN112653586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910967801.8A CN112653586B (zh) 2019-10-12 2019-10-12 基于全链路监控的时空大数据平台应用性能管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910967801.8A CN112653586B (zh) 2019-10-12 2019-10-12 基于全链路监控的时空大数据平台应用性能管理方法

Publications (2)

Publication Number Publication Date
CN112653586A true CN112653586A (zh) 2021-04-13
CN112653586B CN112653586B (zh) 2022-04-19

Family

ID=75342983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910967801.8A Active CN112653586B (zh) 2019-10-12 2019-10-12 基于全链路监控的时空大数据平台应用性能管理方法

Country Status (1)

Country Link
CN (1) CN112653586B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190423A (zh) * 2021-04-20 2021-07-30 北京异乡旅行网络科技有限公司 业务数据的监控方法、装置及系统
CN113472850A (zh) * 2021-05-31 2021-10-01 北京达佳互联信息技术有限公司 链路数据获取方法、装置、系统、电子设备和存储介质
CN113505041A (zh) * 2021-07-21 2021-10-15 浪潮卓数大数据产业发展有限公司 基于用户访问行为分析的爬虫识别方法及系统
CN113760652A (zh) * 2021-08-13 2021-12-07 济南浪潮数据技术有限公司 基于应用的全链路监控的方法、系统、设备和存储介质
CN114024825A (zh) * 2021-11-02 2022-02-08 中邮科通信技术股份有限公司 一种云计算环境下业务端到端的故障监测方法
CN114143238A (zh) * 2021-08-23 2022-03-04 郑州时空隧道信息技术有限公司 一种基于跑腿业务进行的全链路压测系统
CN114143224A (zh) * 2021-11-30 2022-03-04 上海哔哩哔哩科技有限公司 数据传输质量监控方法及系统
CN114143221A (zh) * 2021-11-29 2022-03-04 重庆富民银行股份有限公司 一个基于全链路监控的服务资产管理方法、平台及存储介质
CN114172949A (zh) * 2021-12-10 2022-03-11 航天信息股份有限公司 一种微服务链路监控追踪方法和系统
CN114338419A (zh) * 2021-12-15 2022-04-12 中电信数智科技有限公司 一种IPv6全球组网边缘节点监测及预警方法及系统
CN114679487A (zh) * 2022-03-25 2022-06-28 度小满科技(北京)有限公司 链路处理方法、装置、存储介质、处理器
CN114900435A (zh) * 2022-01-30 2022-08-12 华为技术有限公司 一种连接关系预测方法及相关设备
CN115037645A (zh) * 2022-05-17 2022-09-09 中国兵器工业信息中心 一种基于大数据分析的全链路监控与预警系统
CN115118581A (zh) * 2022-06-27 2022-09-27 广东长天思源环保科技股份有限公司 一种基于5g的物联网数据全链路监控和智能保障系统
CN115766498A (zh) * 2022-10-20 2023-03-07 阿里云计算有限公司 一种大数据链路全链路追踪监测方法及系统
CN116094905A (zh) * 2022-11-10 2023-05-09 迈威科技(广州)有限公司 一种全链路监控系统
CN116302862A (zh) * 2023-05-18 2023-06-23 浙江华东工程数字技术有限公司 一种微服务架构下监控告警方法和系统
CN117714327A (zh) * 2024-02-05 2024-03-15 神州灵云(北京)科技有限公司 全链路业务请求性能指标追踪方法、系统、设备及介质
CN118210682A (zh) * 2024-05-22 2024-06-18 上海大智慧申久信息技术有限公司 分布式架构系统基于多维度的监视、排障方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678247A (zh) * 2015-12-30 2016-06-15 武汉大学 徘徊事件时空大数据分析的异常行为预警方法及系统
CN109104302A (zh) * 2018-07-18 2018-12-28 杭州鑫合汇互联网金融服务有限公司 一种全链路追踪监控方法
US20190266138A1 (en) * 2016-10-24 2019-08-29 Beijing Wellintech Co., Ltd. Method for retrieving data object based on spatial-temporal database
CN110309030A (zh) * 2019-07-05 2019-10-08 亿玛创新网络(天津)有限公司 基于ELK和Zabbix的日志分析监控系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678247A (zh) * 2015-12-30 2016-06-15 武汉大学 徘徊事件时空大数据分析的异常行为预警方法及系统
US20190266138A1 (en) * 2016-10-24 2019-08-29 Beijing Wellintech Co., Ltd. Method for retrieving data object based on spatial-temporal database
CN109104302A (zh) * 2018-07-18 2018-12-28 杭州鑫合汇互联网金融服务有限公司 一种全链路追踪监控方法
CN110309030A (zh) * 2019-07-05 2019-10-08 亿玛创新网络(天津)有限公司 基于ELK和Zabbix的日志分析监控系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
翁湦元,单杏花,阎志远,王雪峰: "铁路站车Wi-Fi运营服务平台微服务架构设计", 《铁路计算机应用》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190423B (zh) * 2021-04-20 2024-02-20 北京异乡旅行网络科技有限公司 业务数据的监控方法、装置及系统
CN113190423A (zh) * 2021-04-20 2021-07-30 北京异乡旅行网络科技有限公司 业务数据的监控方法、装置及系统
CN113472850B (zh) * 2021-05-31 2023-05-09 北京达佳互联信息技术有限公司 链路数据获取方法、装置、系统、电子设备和存储介质
CN113472850A (zh) * 2021-05-31 2021-10-01 北京达佳互联信息技术有限公司 链路数据获取方法、装置、系统、电子设备和存储介质
CN113505041A (zh) * 2021-07-21 2021-10-15 浪潮卓数大数据产业发展有限公司 基于用户访问行为分析的爬虫识别方法及系统
CN113760652A (zh) * 2021-08-13 2021-12-07 济南浪潮数据技术有限公司 基于应用的全链路监控的方法、系统、设备和存储介质
CN113760652B (zh) * 2021-08-13 2023-12-26 济南浪潮数据技术有限公司 基于应用的全链路监控的方法、系统、设备和存储介质
CN114143238A (zh) * 2021-08-23 2022-03-04 郑州时空隧道信息技术有限公司 一种基于跑腿业务进行的全链路压测系统
CN114024825A (zh) * 2021-11-02 2022-02-08 中邮科通信技术股份有限公司 一种云计算环境下业务端到端的故障监测方法
CN114143221A (zh) * 2021-11-29 2022-03-04 重庆富民银行股份有限公司 一个基于全链路监控的服务资产管理方法、平台及存储介质
CN114143224A (zh) * 2021-11-30 2022-03-04 上海哔哩哔哩科技有限公司 数据传输质量监控方法及系统
CN114143224B (zh) * 2021-11-30 2024-03-22 上海哔哩哔哩科技有限公司 数据传输质量监控方法、装置、系统及存储介质
CN114172949A (zh) * 2021-12-10 2022-03-11 航天信息股份有限公司 一种微服务链路监控追踪方法和系统
CN114338419B (zh) * 2021-12-15 2024-04-16 中电信数智科技有限公司 一种IPv6全球组网边缘节点监测及预警方法及系统
CN114338419A (zh) * 2021-12-15 2022-04-12 中电信数智科技有限公司 一种IPv6全球组网边缘节点监测及预警方法及系统
CN114900435A (zh) * 2022-01-30 2022-08-12 华为技术有限公司 一种连接关系预测方法及相关设备
CN114900435B (zh) * 2022-01-30 2023-12-08 华为技术有限公司 一种连接关系预测方法及相关设备
CN114679487A (zh) * 2022-03-25 2022-06-28 度小满科技(北京)有限公司 链路处理方法、装置、存储介质、处理器
CN114679487B (zh) * 2022-03-25 2023-12-22 度小满科技(北京)有限公司 链路处理方法、装置、存储介质、处理器
CN115037645A (zh) * 2022-05-17 2022-09-09 中国兵器工业信息中心 一种基于大数据分析的全链路监控与预警系统
CN115118581A (zh) * 2022-06-27 2022-09-27 广东长天思源环保科技股份有限公司 一种基于5g的物联网数据全链路监控和智能保障系统
CN115118581B (zh) * 2022-06-27 2024-04-12 广东长天思源环保科技股份有限公司 一种基于5g的物联网数据全链路监控和智能保障系统
CN115766498A (zh) * 2022-10-20 2023-03-07 阿里云计算有限公司 一种大数据链路全链路追踪监测方法及系统
CN116094905A (zh) * 2022-11-10 2023-05-09 迈威科技(广州)有限公司 一种全链路监控系统
CN116302862B (zh) * 2023-05-18 2023-08-11 浙江华东工程数字技术有限公司 一种微服务架构下监控告警方法和系统
CN116302862A (zh) * 2023-05-18 2023-06-23 浙江华东工程数字技术有限公司 一种微服务架构下监控告警方法和系统
CN117714327A (zh) * 2024-02-05 2024-03-15 神州灵云(北京)科技有限公司 全链路业务请求性能指标追踪方法、系统、设备及介质
CN118210682A (zh) * 2024-05-22 2024-06-18 上海大智慧申久信息技术有限公司 分布式架构系统基于多维度的监视、排障方法及系统

Also Published As

Publication number Publication date
CN112653586B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN112653586B (zh) 基于全链路监控的时空大数据平台应用性能管理方法
CN108989132A (zh) 故障告警处理方法、系统及计算机可读存储介质
US20200372007A1 (en) Trace and span sampling and analysis for instrumented software
CN114189430A (zh) 立体化日志全链路监控系统、方法、介质及设备
US20200396232A1 (en) Generating data structures representing relationships among entities of a high-scale network infrastructure
CN113778985A (zh) 微服务架构监控方法、装置、计算机设备和存储介质
CN111163150A (zh) 一种分布式调用追踪系统
CN111245672A (zh) 一种通用可扩展的追踪业务全链路的监控方法及系统
CN116166505B (zh) 金融行业双态it架构的监控平台、方法、存储介质及设备
US20210303532A1 (en) Streamlined transaction and dimension data collection
CN113067717A (zh) 网络请求日志链式跟踪方法、全链路调用监控系统和介质
CN112162912A (zh) 一种云资源监控方法及系统
CN114780335A (zh) 监测数据的关联方法、装置、计算机设备和存储介质
CN111782672B (zh) 多领域数据管理方法及相关装置
US8504319B2 (en) Methods, systems, and products for reflective maintenance
CN106487597A (zh) 一种基于Zookeeper的服务监控系统和方法
Ali et al. [Retracted] Classification and Prediction of Software Incidents Using Machine Learning Techniques
CN108337100A (zh) 一种云平台监测的方法和装置
CN113835918A (zh) 一种服务器故障分析方法及装置
KR101770066B1 (ko) 분산시스템에서 애플리케이션 호출 로그를 이용한 비즈니스 트랜잭션의 실시간 추적 및 분석 방법, 그리고 그 시스템
CN111414355A (zh) 一种海上风电场数据监测存储系统及方法、装置
KR100992417B1 (ko) 통합관리방법 및 통합관리시스템, 그 기록매체
CN115174350B (zh) 一种运维告警方法、装置、设备及介质
JP4911061B2 (ja) 管理システム、履歴情報の保存方法、及び履歴情報データベースのデータ構造
CN112579552A (zh) 日志存储及调用方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee after: Yuance Information Technology Co.,Ltd.

Address before: 215000 No. 101, Suhong Middle Road, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Patentee before: SUZHOU INDUSTRIAL PARK SURVEYING MAPPING AND GEOINFORMATION Co.,Ltd.

CP01 Change in the name or title of a patent holder