CN109981352A - 一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质 - Google Patents

一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质 Download PDF

Info

Publication number
CN109981352A
CN109981352A CN201910167836.3A CN201910167836A CN109981352A CN 109981352 A CN109981352 A CN 109981352A CN 201910167836 A CN201910167836 A CN 201910167836A CN 109981352 A CN109981352 A CN 109981352A
Authority
CN
China
Prior art keywords
node
functional node
monitoring
serial number
calling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910167836.3A
Other languages
English (en)
Inventor
周洪峰
何继平
吴江
许顺利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Microproducts To Mdt Infotech Ltd
Original Assignee
Shenzhen Microproducts To Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Microproducts To Mdt Infotech Ltd filed Critical Shenzhen Microproducts To Mdt Infotech Ltd
Priority to CN201910167836.3A priority Critical patent/CN109981352A/zh
Publication of CN109981352A publication Critical patent/CN109981352A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质,该监控方法包括搭建步骤:在功能节点的关键入口、出口建立事件采集机制,其采集机制作为功能节点的开发框架,避免开发人员有所感知;并且搭建Redis节点和监控节点,Redis节点作为功能节点埋点数据的上送和监控节点采集埋点数据的桥梁;监控步骤:监控节点定期从Redis节点获取功能节点的上送数据,进行存储及分析。本发明的有益效果是:本发明可对基础设施层、分布式应用层、业务逻辑层应进行监控,通过收集、存储、分析、分布式系统中的调用事件数据,协助开发及运营人员进行故障诊断、容量预估、性能瓶颈定位以及调用链路梳理,提高工作效率。

Description

一种基于可拆分分布式系统的端到端应用监控方法、系统及 存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质。
背景技术
现有的可拆分分布式系统体系之下构建的业务系统存在的以下问题:
第一个是故障定位难,由于现有的业务实现往往需要多个功能节点共同协作完成,当某个功能节点出现宕机,往往导致大量报错,无法快速定位哪里出了问题。
第二个问题是容量预估难,系统会面临各种高峰访问的场景,我们不能把预估的流量与当前系统的单机压测容量简单做一个对比,然后按比例去扩容。在各种高峰场景下,每一个功能节点在核心链路当中的参与度、重要性都是不一样的,我们并不能对每一个功能节点做等比例的扩容,所以分布式系统架构下的容量预估也是一件难事。
第三个问题就是资源浪费多,资源浪费多本质上是容量预估不准的一个后果,同时资源浪费多背后隐含的另一个问题就是性能优化难。我们一个应用功能当发现它慢的时候,根本不知道应用功能慢在哪里,瓶颈在哪里,怎么去优化,这些问题累积下来,资源的浪费也成为了一个巨大的问题。
第四个是链路梳理难,随着业务需求的不断迭代,在整个分布式系统体系中,业务链路逐渐变得复杂。对于不熟悉的新人在维护业务时,就像人第一次在没有地图没有导航的情况下来到一个大城市一样,根本不知道自己身在何处。应用负责人不知道自己的系统被谁依赖了,也不知道自己的系统下游会影响其他哪些人。
发明内容
本发明提供了一种基于可拆分分布式系统的端到端应用监控方法,包括如下步骤:
搭建步骤:在功能节点的关键入口、出口建立事件采集机制,其采集机制作为功能节点的开发框架,避免开发人员有所感知;并且搭建Redis节点和监控节点,Redis节点作为功能节点埋点数据的上送和监控节点采集埋点数据的桥梁;
监控步骤:监控节点定期从Redis节点获取功能节点的上送数据,进行存储及分析;
当功能节点接收到外部请求调用时,依次执行如下步骤:
步骤1:为该功能节点分配调用标识和序号,进行事件识别,采集埋点数据,然后上传埋点数据至Redis节点;
步骤2:判断本次外部请求调用的处理是否涉及下一个功能节点的调用,若是,那么将调用标识传递到下一个功能节点并且执行步骤3,否则结束;
步骤3:调用下一个功能节点;
步骤4:下一个功能节点沿用调用标识,并且分配新的序号,进行事件识别,采集埋点数据,然后上传埋点数据至Redis节点;
步骤5:判断本次请求是否涉及下一个功能节点的调用,若是,那么将调用标识传递到下一个功能节点并且执行步骤3,否则结束。
作为本发明的进一步改进,在所述首次判断步骤中,判断本次外部请求调用的处理是否涉及下一个功能节点的调用,若是,那么将调用标识和序号传递到下一个功能节点并且执行步骤3,否则结束;在所述步骤4中,新的序号为子序号,该子序号是指上一个功能节点传递过来的序号的下级序号。
作为本发明的进一步改进,在所述步骤5中,判断本次请求是否涉及下一个功能节点的调用,若是,那么将调用标识和子序号传递到下一个功能节点并且执行步骤3,否则结束。
作为本发明的进一步改进,监控节点基于分析的数据进行展示和告警。
作为本发明的进一步改进,数据的展示包括实时展示和历史报表展示。
本发明还公开了一种基于可拆分分布式系统的端到端应用监控系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明的有益效果是:本发明可对基础设施层、分布式应用层、业务逻辑层应进行监控,该监控数据反映了系统功能的各个功能节点的线路执行情况,它主要的手段是通过收集、存储、分析、分布式系统中的调用事件数据,协助开发及运营人员进行故障诊断、容量预估、性能瓶颈定位以及调用链路梳理,提高工作效率。
附图说明
图1是本发明的原理示意图。
图2是本发明一实施例的流程图。
具体实施方式
如图1、2所示,本发明公开了一种基于可拆分分布式系统的端到端应用监控方法,包括如下步骤:
搭建步骤:在功能节点的关键入口、出口建立事件采集机制,其采集机制作为功能节点的开发框架,避免开发人员有所感知;并且搭建Redis节点和监控节点,Redis节点作为功能节点埋点数据的上送和监控节点采集埋点数据的桥梁;
监控步骤:监控节点定期从Redis节点获取功能节点的上送数据,进行存储及分析;
当功能节点接收到外部请求调用时,依次执行如下步骤:
步骤1:为该功能节点分配调用标识和序号,进行事件识别,采集埋点数据,然后上传埋点数据至Redis节点;
步骤2:判断本次外部请求调用的处理是否涉及下一个功能节点的调用,若是,那么将调用标识和序号传递到下一个功能节点并且执行步骤3,否则结束;
步骤3:调用下一个功能节点;
步骤4:下一个节点收到该调用标识和序号后,沿用调用标识,并且分配新的序号,新的序号为子序号,该子序号是指上一个功能节点传递过来的序号的下级序号(如传递过来的序号是1.2.3,则子序号是1.2.3.1),进行事件识别,采集埋点数据,然后上传埋点数据至Redis节点;
步骤5:判断本次请求是否涉及下一个功能节点的调用,若是,那么将调用标识和子序号传递到下一个功能节点并且执行步骤3,否则结束。
步骤3-5不断执行,直至最后收到调用的功能节点不再调用另外的功能节点。
监控节点基于分析的数据进行展示和告警,数据的展示包括实时展示和历史报表展示。
功能节点其本质是服务进程。
本发明还公开了一种基于可拆分分布式系统的端到端应用监控系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的方法的步骤。
本发明可对基础设施层、分布式应用层、业务逻辑层应进行监控,该监控数据反映了系统功能的各个功能节点的线路执行情况,它主要的手段是通过收集、存储、分析、分布式系统中的调用事件数据,协助开发及运营人员进行故障诊断、容量预估、性能瓶颈定位以及调用链路梳理,提高工作效率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于可拆分分布式系统的端到端应用监控方法,其特征在于,包括如下步骤:
搭建步骤:在功能节点的关键入口、出口建立事件采集机制,其采集机制作为功能节点的开发框架,避免开发人员有所感知;并且搭建Redis节点和监控节点,Redis节点作为功能节点埋点数据的上送和监控节点采集埋点数据的桥梁;
监控步骤:监控节点定期从Redis节点获取功能节点的上送数据,进行存储及分析;
当功能节点接收到外部请求调用时,依次执行如下步骤:
步骤1:为该功能节点分配调用标识和序号,进行事件识别,采集埋点数据,然后上传埋点数据至Redis节点;
步骤2:判断本次外部请求调用的处理是否涉及下一个功能节点的调用,若是,那么将调用标识传递到下一个功能节点并且执行步骤3,否则结束;
步骤3:调用下一个功能节点;
步骤4:下一个功能节点沿用调用标识,并且分配新的序号,进行事件识别,采集埋点数据,然后上传埋点数据至Redis节点;
步骤5:判断本次请求是否涉及下一个功能节点的调用,若是,那么将调用标识传递到下一个功能节点并且执行步骤3,否则结束。
2.根据权利要求1所述的端到端应用监控方法,其特征在于,在所述首次判断步骤中,判断本次外部请求调用的处理是否涉及下一个功能节点的调用,若是,那么将调用标识和序号传递到下一个功能节点并且执行步骤3,否则结束;在所述步骤4中,新的序号为子序号,该子序号是指上一个功能节点传递过来的序号的下级序号。
3.根据权利要求2所述的端到端应用监控方法,其特征在于,在所述步骤5中,判断本次请求是否涉及下一个功能节点的调用,若是,那么将调用标识和子序号传递到下一个功能节点并且执行步骤3,否则结束。
4.根据权利要求1所述的端到端应用监控方法,其特征在于,监控节点基于分析的数据进行展示和告警。
5.根据权利要求4所述的端到端应用监控方法,其特征在于,数据的展示包括实时展示和历史报表展示。
6.一种基于可拆分分布式系统的端到端应用监控系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-5中任一项所述的方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-5中任一项所述的方法的步骤。
CN201910167836.3A 2019-03-06 2019-03-06 一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质 Pending CN109981352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910167836.3A CN109981352A (zh) 2019-03-06 2019-03-06 一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910167836.3A CN109981352A (zh) 2019-03-06 2019-03-06 一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN109981352A true CN109981352A (zh) 2019-07-05

Family

ID=67078060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910167836.3A Pending CN109981352A (zh) 2019-03-06 2019-03-06 一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN109981352A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459762A (zh) * 2020-04-03 2020-07-28 杭州趣维科技有限公司 基于字节码技术和cat的监控和调用链系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122706A1 (en) * 2012-10-26 2014-05-01 International Business Machines Corporation Method for determining system topology graph changes in a distributed computing system
CN106487596A (zh) * 2016-10-26 2017-03-08 宜人恒业科技发展(北京)有限公司 分布式服务跟踪实现方法
CN106790718A (zh) * 2017-03-16 2017-05-31 北京搜狐新媒体信息技术有限公司 服务调用链路分析方法及系统
CN107580018A (zh) * 2017-07-28 2018-01-12 北京北信源软件股份有限公司 一种分布式系统的跟踪方法与装置
CN107645562A (zh) * 2017-10-12 2018-01-30 广州爱九游信息技术有限公司 数据传输处理方法、装置、设备及系统
CN108183927A (zh) * 2017-11-22 2018-06-19 链家网(北京)科技有限公司 一种分布式系统中链路调用的监控方法及系统
CN108600012A (zh) * 2018-04-26 2018-09-28 深圳光华普惠科技有限公司 微服务架构监控系统
CN109347974A (zh) * 2018-11-16 2019-02-15 北京航空航天大学 一种提高在线服务质量和集群资源利用率的在线离线混合调度系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140122706A1 (en) * 2012-10-26 2014-05-01 International Business Machines Corporation Method for determining system topology graph changes in a distributed computing system
CN106487596A (zh) * 2016-10-26 2017-03-08 宜人恒业科技发展(北京)有限公司 分布式服务跟踪实现方法
CN106790718A (zh) * 2017-03-16 2017-05-31 北京搜狐新媒体信息技术有限公司 服务调用链路分析方法及系统
CN107580018A (zh) * 2017-07-28 2018-01-12 北京北信源软件股份有限公司 一种分布式系统的跟踪方法与装置
CN107645562A (zh) * 2017-10-12 2018-01-30 广州爱九游信息技术有限公司 数据传输处理方法、装置、设备及系统
CN108183927A (zh) * 2017-11-22 2018-06-19 链家网(北京)科技有限公司 一种分布式系统中链路调用的监控方法及系统
CN108600012A (zh) * 2018-04-26 2018-09-28 深圳光华普惠科技有限公司 微服务架构监控系统
CN109347974A (zh) * 2018-11-16 2019-02-15 北京航空航天大学 一种提高在线服务质量和集群资源利用率的在线离线混合调度系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111459762A (zh) * 2020-04-03 2020-07-28 杭州趣维科技有限公司 基于字节码技术和cat的监控和调用链系统及方法
CN111459762B (zh) * 2020-04-03 2023-05-16 杭州趣维科技有限公司 基于字节码技术和cat的监控和调用链系统及方法

Similar Documents

Publication Publication Date Title
CN109412829B (zh) 一种资源配置的预测方法及设备
CN107705042A (zh) 电力设备的巡检方法及装置
Kuchuk et al. Method for calculating of R-learning traffic peakedness
CN104601383B (zh) 一种电力通信网故障分段分析方法
US6058370A (en) Method of forecasting ambulance service demand
CN107392502A (zh) 电力设备检修的管理方法、管理装置及终端设备
CN109067859A (zh) 一种面向跨域协同服务的双层云架构系统及实现方法
US8180716B2 (en) Method and device for forecasting computational needs of an application
CN104732608A (zh) 一种实时质检方法、装置及巡检系统
CN105205878A (zh) 排水管网的巡检方法及系统
CN113037594A (zh) 基于云服务的压力测试方法和装置
CN105005518B (zh) 自动聚合冗余系统交易数据的系统及其处理器和方法
CN102982037B (zh) 检测数据库节点健康状况的方法及装置
CN102692558A (zh) 一种电量数据监测分析系统及其实现方法
CN112686417A (zh) 一种地铁大客流预测方法、系统及电子设备
CN109547539A (zh) 一种管网供水分析系统
CN112613790A (zh) 应用于多站融合环境下的协同数据处理方法、设备及介质
CN109981352A (zh) 一种基于可拆分分布式系统的端到端应用监控方法、系统及存储介质
CN109086816A (zh) 一种基于贝叶斯分类算法的用户行为分析系统
CN101557321B (zh) 一种分布式系统中监控接口带宽的方法及装置
CN103906220B (zh) 一种服务器授时方法、系统及gps云管理服务器
CN110971463B (zh) 固网群障信息告警方法、装置及系统
CN113608062B (zh) 配电网故障定位方法及系统、故障恢复方法及系统
JP3391785B2 (ja) 通信品質管理システム、通信品質管理方法、プログラムおよび記録媒体
CN114819981A (zh) 客服问题处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication