CN107729214B - 一种可视化的分布式系统实时监控运维方法及装置 - Google Patents

一种可视化的分布式系统实时监控运维方法及装置 Download PDF

Info

Publication number
CN107729214B
CN107729214B CN201710952038.2A CN201710952038A CN107729214B CN 107729214 B CN107729214 B CN 107729214B CN 201710952038 A CN201710952038 A CN 201710952038A CN 107729214 B CN107729214 B CN 107729214B
Authority
CN
China
Prior art keywords
application
information
view
data
data information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710952038.2A
Other languages
English (en)
Other versions
CN107729214A (zh
Inventor
刘壮飞
郑国伟
连超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Fufu Information Technology Co Ltd
Original Assignee
China Telecom Fufu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Fufu Information Technology Co Ltd filed Critical China Telecom Fufu Information Technology Co Ltd
Priority to CN201710952038.2A priority Critical patent/CN107729214B/zh
Publication of CN107729214A publication Critical patent/CN107729214A/zh
Application granted granted Critical
Publication of CN107729214B publication Critical patent/CN107729214B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/328Computer systems status display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/875Monitoring of systems including the internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种可视化的分布式系统实时监控运维方法,包括在各个应用系统进行无侵入式埋点,采集各个应用系统的日志信息;在应用的操作系统上部署开源插件,采集操作系统的硬件运行信息和操作日志信息;将采集到的各种数据信息通过消息中间件集群传递给流式计算框架集群,流式计算框架集群将接收的数据信息存储成HBase或者HDFS格式的文件;在ELK框架中的Kibana框架的基础上,结合业界的报表插件来实现在Web页面中展示各种视图,并通过分布式缓存来实时推送更新各种视图中的数据。本发明优点:可极大的降低分布式系统的运维难度,提升分布式应用的运维效率,为系统的建设、部署、运行、维护、升级改造等过程提供强有力的保障。

Description

一种可视化的分布式系统实时监控运维方法及装置
技术领域
本发明涉及一种可视化的分布式系统实时监控运维方法及装置。
背景技术
随着技术的不断进步,IT的发展已由普遍建设向普遍运维转型,面对电信行业多级、分域、面向社会服务的特性,电信互联网化分布式应用可视化项目,为中国电信的互联网分布式的运维提供了从IT可用到服务可用的保障性解决方案,助力IT企业服务型组织的快速转型。
传统的SSH架构在分布式应用架构的转换过程中,运维的技术特点和业务特点都发生了极大的改变,现有的一系列运维工具和流程已不适应新的架构,因此,需要有一套运维体系来支撑IT系统的日常运行维护。下面让我们来看看在分布式架构下,分布式系统存在有哪些问题呢?
系统部署架构不可见:在传统的运维工作流程中,企业建设的各类IT系统运行在分散的主机上,维护人员对需要维护的系统没有一个直观的概念,无法了解系统的部署架构,从而对运维的质量和效率带来了极大的影响;
系统健康状态不可知:经过长期的企业信息系统建设,企业采购的系统硬件(CPU\内存\磁盘\网卡\中间件等)、机房的环境、硬件物理特性的老化等,必然导致硬件出现各种健康状况,现有的IT系统没有定期的巡检机制或者是依靠传统的人力进行相关的巡检,不仅工作量大、周期长,流程较固化,投入产出比低;
应用性能不可控:传统系统建设,重功能,轻维护,这样的IT建设模式,注定了随着应用功能的越来越多,代码逻辑的逐步堆积,所消耗的中间件内存、数据库和系统相关资源越来越大,必然会导致系统的性能急剧下降,以系统订单提交环节为例,上线初为8秒/笔,而上线运行5年后是120秒/笔。而这还不是最可怕的,更可怕的是开发者还无法直观的了解到“时间去哪儿了”,想要优化都无从入手,到最后只能是推倒重来;
业务发展不直观:传统的营销活动的流程是业务部门根据后期的大数据分析,结合咨询公司的业界了解和自身业务的特点来判断和制定相关的营销策略、套餐,并定价推向市场,然后就坐等最终的营销结果统计和后评估。这使得业务部门无法实时了解营销活动的执行情况,无法及时根据营销过程中的一些业务特点和变化来调整营销策略及方案,以达到更好的营销效果;
应用接口调用不可见:IT系统的接口众多,根据梳理出来的情况,多达1000+接口,涉及的支撑厂商在数十个以上,数量庞大且在后台执行的接口在执行调用的过程中,存在接入安全审计、调用数据暴增、异常定位困难等问题,不利于维护工作开展;
应用轮询调度不可见:后台的轮询调度程序,往往因为长期运行,极容易存在假死、挂起、占用内存过高等情况,系统无视图可以查看轮询的执行情况,就无法实时对假死挂起的轮询进行监控和告警;
IT硬件投资决策难:在电信的企业IT系统建设中,存在业务系统多,硬件投资成本高等特点,在传统的硬件投资中,主要靠主观判断来决定哪些系统的哪些硬件需要升级,哪些硬件需要更新换代、淘汰等,没有故障数据、体检数据、运行数据为硬件投资决策提供数据支持;
运维工作量大:由于在建的系统为分布式业务系统,虽然在逻辑上实现了业务数据的统一处理,但是在物理上,是由后端几百台的PC机支撑,任何一次系统配置文件的修改、数据脚本的执行,都需要确保内容的一致性、事务的一致性。此时依靠人力逐一核查,维护工作量无比巨大;
基于以上情况,需要有一套完整的、体系化的应用可视化项目,来支撑系统的日常运维工作,以极大的降低分布式系统的运维难度,提升分布式应用的运维效率,为系统的建设、部署、运行、维护、升级改造等过程提供强有力的保障。
发明内容
本发明要解决的技术问题之一,在于提供一种可视化的分布式系统实时监控运维方法,通过该方法来实现分布式系统应用的可视化管理,可极大的降低分布式系统的运维难度,提升分布式应用的运维效率,为系统的建设、部署、运行、维护、升级改造等过程提供强有力的保障。
本发明是这样实现技术问题之一的:一种可视化的分布式系统实时监控运维方法,所述方法包括如下步骤:
步骤1、在各个应用系统上进行无侵入式埋点,采集各个应用系统的日志信息;在应用的操作系统上部署开源插件,采集操作系统的硬件运行信息和操作日志信息;
步骤2、将采集到的各种数据信息通过消息中间件集群传递给流式计算框架集群,流式计算框架集群将接收到的数据信息存储成HBase或者HDFS格式的文件;
步骤3、在ELK框架中的Kibana框架的基础上,结合业界的报表插件来实现在Web页面中展示各种视图,包括获取存储的数据信息,并根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示;同时通过分布式缓存来实时推送更新各种视图中的数据。
进一步地,所述步骤1具体为:
使用各类钩子脚本在各个应用系统上进行无侵入式埋点,通过各类钩子脚本来拦截各个应用系统中的应用程序或者内部组件的传递参数,以实现获取各个应用系统的日志信息;
在应用的操作系统上部署开源的Flume插件,并通过该Flume插件来采集操作系统上的各种硬件运行信息;同时,在应用的操作系统上部署开源的Logstash或Fluentd插件,并通过该Logstash或Fluentd插件来采集操作系统上的操作日志信息。
进一步地,所述步骤2具体为:
将采集到的各种数据信息通过socket异步抛给消息中间件集群,并由消息中间件集群将各种数据信息传递给流式计算框架集群;
流式计算框架集群将接收到的数据信息直接分类并存储成HBase或者HDFS格式的文件;或者流式计算框架集群先采用Storm技术对接收到的数据信息进行流式计算,以根据预先配置在流式计算库中的拦截规则来对数据信息进行过滤和清洗,然后将过滤和清洗后的数据信息分类并存储成HBase或者HDFS格式的文件。
进一步地,在所述步骤3中,所述“根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示”具体为:
通过基于复杂事件处理的事件流引擎来对数据信息中的业务发展数据进行复杂事件计算,并根据计算结果以及配置的相关业务规则来进行业务发展视图的展示;
根据数据信息中的相关应用的性能数据来实时计算API耗时,并根据计算结果来进行应用性能视图的展示;
根据数据层中的CMDB配置库信息并结合设备间的拓扑关系来进行应用部署视图的展示;
根据CMDB配置库中的拓扑关系信息得到设备在应用中所承担的角色,同时提取角色作为轮询调度主机列表,完成对后台轮询调度任务的分析和统计,并根据统计结果来进行后台轮询调度视图的展示;
根据数据信息中的接口服务调用数据来分析和统计应用接口的调用情况,且根据应用接口的调用情况来进行应用接口调用视图的展示;
根据数据信息中的用户操作行为数据来分析和统计用户的体验情况,并根据用户的体验情况来进行用户体验视图的展示;
通过基于复杂事件处理的事件流引擎来对数据信息中的告警信息进行复杂事件计算,并根据计算结果来进行应用监控视图的展示;同时,在数据层中设置告警阈值,当出现计算结果超过告警阈值的情况时,自动向相关人员发送告警信息。
本发明要解决的技术问题之二,在于提供一种可视化的分布式系统实时监控运维装置,通过该装置来实现分布式系统应用的可视化管理,可极大的降低分布式系统的运维难度,提升分布式应用的运维效率,为系统的建设、部署、运行、维护、升级改造等过程提供强有力的保障。
本发明是这样实现技术问题之二的:一种可视化的分布式系统实时监控运维装置,所述装置包括日志采集模块、数据传递存储模块以及视图展示模块;
所述日志采集模块,用于在各个应用系统上进行无侵入式埋点,采集各个应用系统的日志信息;在应用的操作系统上部署开源插件,采集操作系统的硬件运行信息和操作日志信息;
所述数据传递存储模块,用于将采集到的各种数据信息通过消息中间件集群传递给流式计算框架集群,流式计算框架集群将接收到的数据信息存储成HBase或者HDFS格式的文件;
所述视图展示模块,用于在ELK框架中的Kibana框架的基础上,结合业界的报表插件来实现在Web页面中展示各种视图,包括获取存储的数据信息,并根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示;同时通过分布式缓存来实时推送更新各种视图中的数据。
进一步地,所述日志采集模块具体为:
使用各类钩子脚本在各个应用系统上进行无侵入式埋点,通过各类钩子脚本来拦截各个应用系统中的应用程序或者内部组件的传递参数,以实现获取各个应用系统的日志信息;
在应用的操作系统上部署开源的Flume插件,并通过该Flume插件来采集操作系统上的各种硬件运行信息;同时,在应用的操作系统上部署开源的Logstash或Fluentd插件,并通过该Logstash或Fluentd插件来采集操作系统上的操作日志信息。
进一步地,所述数据传递存储模块具体为:
将采集到的各种数据信息通过socket异步抛给消息中间件集群,并由消息中间件集群将各种数据信息传递给流式计算框架集群;
流式计算框架集群将接收到的数据信息直接分类并存储成HBase或者HDFS格式的文件;或者流式计算框架集群先采用Storm技术对接收到的数据信息进行流式计算,以根据预先配置在流式计算库中的拦截规则来对数据信息进行过滤和清洗,然后将过滤和清洗后的数据信息分类并存储成HBase或者HDFS格式的文件。
进一步地,在所述视图展示模块中,所述“根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示”具体为:
通过基于复杂事件处理的事件流引擎来对数据信息中的业务发展数据进行复杂事件计算,并根据计算结果以及配置的相关业务规则来进行业务发展视图的展示;
根据数据信息中的相关应用的性能数据来实时计算API耗时,并根据计算结果来进行应用性能视图的展示;
根据数据层中的CMDB配置库信息并结合设备间的拓扑关系来进行应用部署视图的展示;
根据CMDB配置库中的拓扑关系信息得到设备在应用中所承担的角色,同时提取角色作为轮询调度主机列表,完成对后台轮询调度任务的分析和统计,并根据统计结果来进行后台轮询调度视图的展示;
根据数据信息中的接口服务调用数据来分析和统计应用接口的调用情况,且根据应用接口的调用情况来进行应用接口调用视图的展示;
根据数据信息中的用户操作行为数据来分析和统计用户的体验情况,并根据用户的体验情况来进行用户体验视图的展示;
通过基于复杂事件处理的事件流引擎来对数据信息中的告警信息进行复杂事件计算,并根据计算结果来进行应用监控视图的展示;同时,在数据层中设置告警阈值,当出现计算结果超过告警阈值的情况时,自动向相关人员发送告警信息。
本发明具有如下优点:
1、通过对企业资产配置库(CMDB)同应用的关系梳理,结合应用服务器的相关特点,真实的提供各个应用系统的ADV(应用部署视图),一方面可方便运维人员直观了解系统架构,快速熟悉运维工作流程,另一方面在出现故障或问题的时候,能够按图索骥快速分析和定位故障,缩短系统故障的处理时间,使系统的可用性得到提升。
2、通过基于CEP的Esper技术,提供一个AMV(应用监控视图),可向用户直观的展示应用系统的各个监控与告警视图,确保应用得到全方位的监控,并对超过预设告警阈值的指标给出及时的告警,可确保问题得到及时有效的跟踪处理。
3、采用AOP、servlet、Httpclient等各类钩子脚本和Flume代理组件技术,提供一个可视化的系统应用性能管理APV平台,可有效解决软件产品的性能诊断难问题,提升软件产品的性能管理效率,对软件产品的性能问题实现预分析,避免软件的性能问题到测试和生产环节才发现,可提升产品的可用性,从而提升客户满意度。
4、通过各类无侵入式的js等钩子脚本,采集客户的体验情况,确保用户体验的可视化展示UEV(用户体验视图),进而实现UEM(用户体验管理),节省了客户调研和产品优化的时间,有助于提升工作效率和提升用户满意度。
5、采用基于CEP的Esper技术结合OGG和Binlog日志解析技术,提供实时BDV(业务发展视图),向业务部门、企业经营管理者实时展示业务发展量及趋势判断,为企业营销策略的调优和业务的发展做出可量化、实时可视化的视图,助力企业的业务发展。
6、向用户提供一个后台调度任务的TSPV(任务调度平台视图),将原先隐藏在应用后台运行的轮询展示在前台界面,使得应用维护人员能够及时了解到调度程序当前的运行情况,并能够在界面上直接做相关的操作处理;可确保任务调度的可用性,降低应用维护人员的工作难度,提升其工作效率。
7、采用Esper技术结合接口调用日志异步采集分析技术,提供AIIV(应用接口调用视图),实时展示应用接口的调用情况,针对无授权访问的应用接口进行审计、爆增的应用调用进行限流,确保应用接口的安全、健康的运行。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明一种可视化的分布式系统实时监控运维方法的执行流程图。
图2为本发明一种可视化的分布式系统实时监控运维装置的原理框图。
具体实施方式
请参照图1所示,本发明一种可视化的分布式系统实时监控运维方法的较佳实施例,所述方法包括如下步骤:
步骤1、在各个应用系统上进行无侵入式埋点,采集各个应用系统的日志信息;在应用的操作系统上部署开源插件,采集操作系统的硬件运行信息和操作日志信息;
步骤2、将采集到的各种数据信息通过消息中间件集群传递给流式计算框架集群,流式计算框架集群将接收到的数据信息存储成HBase或者HDFS格式的文件;
步骤3、在ELK框架中的Kibana框架的基础上,结合业界的报表插件echart来实现在Web页面中展示各种视图,包括获取存储的数据信息,并根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图(BDV)、应用性能视图(APV)、应用部署视图(ADV)、后台轮询调度视图(TSPV)、应用接口调用视图(AIIV)、用户体验视图(UEV)或者应用监控视图(AMV)的展示;同时通过分布式缓存Redis来实时推送更新各种视图中的数据。
所述步骤1具体为:
使用各类钩子脚本(即鹰眼-Agent)在各个应用系统上进行无侵入式埋点,通过各类钩子脚本来拦截各个应用系统中的应用程序或者内部组件的传递参数,以实现获取各个应用系统的日志信息;例如,在具体实施时,可通过埋入到各个应用系统上的servlet、js、aop、Httpclient等钩子脚本来拦截各种传递参数,如可拦截入参、出参、异常进入时间、离开时间等各类参数信息,从而实现获取各个应用系统的日志信息,该日志信息包含应用程序运行信息、应用操作日志、业务日志等各种日志信息。
在应用的操作系统上部署开源的Flume插件,并通过该Flume插件来采集操作系统上的各种硬件运行信息,包括CPU、内存、网络、磁盘、JVM等的运行信息和日志信息;同时,在应用的操作系统上部署开源的Logstash或Fluentd插件,并通过该Logstash或Fluentd插件来采集操作系统上的操作日志信息(如syslog等)。
所述步骤2具体为:
将采集到的各种数据信息通过socket异步抛给消息中间件集群(MQCluster),并由消息中间件集群将各种数据信息传递给流式计算框架集群;由于拦截的各类日志信息具有并发量大、总量多等特点,因此,通过将各类日志信息异步抛给消息中间件集群进行统一处理,可极大的提高日志信息的处理效率和降低对应用的影响。
流式计算框架集群将接收到的数据信息直接分类并存储成HBase或者HDFS格式的文件;或者流式计算框架集群先采用Storm技术对接收到的数据信息进行流式计算,以根据预先配置在流式计算库中的拦截规则来对数据信息进行过滤和清洗,例如,可设置仅捕捉前端的HTTP请求日志,同时对于HTTP请求日志,还可通过编写程序使其仅采集发起地址、发起方、发起时间以及响应时间信息,然后将过滤和清洗后的数据信息分类并存储成HBase或者HDFS格式的文件,例如,可将与性能数据相关的数据信息存储在同一类当中,将与业务数据相关的数据信息存储在同一类当中等等。其中,存储成HBase格式的文件主要用于详单信息的查询,存储成HDFS格式的文件主要用于增量分析日志信息,以形成性能监控的各个指标。
在所述步骤3中,所述“根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图(BDV)、应用性能视图(APV)、应用部署视图(ADV)、后台轮询调度视图(TSPV)、应用接口调用视图(AIIV)、用户体验视图(UEV)或者应用监控视图(AMV)的展示”具体为:
通过基于复杂事件处理(CEP)的事件流引擎Esper来对数据信息中的业务发展数据进行复杂事件计算,并根据计算结果以及配置的相关业务规则来进行业务发展视图(BDV)的展示;例如,通过对业务发展数据进行复杂事件计算后,就可以得出业务订单的受理情况,具体可包括未派发订单量、已派发订单量、单日甩单量、已完成订单量、订单受理率、订单完成率、各地区处理的订单量等各种订单受理情况,并将各种的订单受理情况以图、表相结合的方式展现出来。
根据数据信息中的相关应用的性能数据来实时计算API耗时,并根据计算结果来进行应用性能视图(APV)的展示;例如,针对每个API的进入时间和离开时间的时间差,可实时计算出API耗时,并得出应用API的变化历史和当前Top等相关信息,并将这些相关信息以图、表相结合的方式展现出来。
根据数据层中的CMDB配置库信息并结合设备间的拓扑关系来进行应用部署视图(ADV)的展示;例如,可将部署的服务器台数、服务器之间的主从关系、服务器之间的连接关系、每台服务器的CPU负荷、服务器处理的事务总量、每秒的SQL、各服务器的状态、各服务器分配的事务等相关应用部署情况都以图、表相结合的方式展现出来。
根据CMDB配置库中的拓扑关系信息得到设备在应用中所承担的角色,同时提取角色作为轮询调度主机列表,完成对后台轮询调度任务的分析和统计,并根据统计结果来进行后台轮询调度视图(TSPV)的展示;例如,可统计某一个应用执行的后台轮询调度任务的次数、执行成功率、执行失败率等相关信息,并将这些信息以图、表相结合的方式展现出来。
根据数据信息中的接口服务调用数据来分析和统计应用接口的调用情况,且根据应用接口的调用情况来进行应用接口调用视图(AIIV)的展示;例如,可分析和统计各应用接口的调用方IP地址、授权信息、请求时间、响应时间、入参、出参、调用结果等相关信息,从而得出各应用接口的调用成功率、调用次数、授权率等信息,并将这些信息以图、表相结合的方式展现出来,同时,通过分析和统计还可实现对应用接口进行实时监控和趋势预判,并对出现暴增、非法侵入等进行鉴权和告警。
根据数据信息中的用户操作行为数据来分析和统计用户的体验情况,并根据用户的体验情况来进行用户体验视图(UEV)的展示;例如,通过前台页面植入的js脚本,可采集用户打开的菜单、点击的屏幕区域、点击的按钮等信息,通过统计和分析用户的操作行为信息,可得到用户喜欢的业务类型、订单处理的耗时、订单异常量等各种信息,并将这些信息以图、表相结合的方式展现出来,通过对用户体验视图的实时展示,可方便相关人员第一时间掌握用户的体验情况,并有针对性的进行优化。
通过基于复杂事件处理的事件流引擎来对数据信息中的告警信息进行复杂事件计算,并根据计算结果来进行应用监控视图(AMV)的展示,例如,通过对告警信息进行复杂事件计算后,可得出各个模块在一某一时间段内出现的告警次数、告警级别、模块性能等信息,并将这些信息以图、表相结合的方式展现出来;同时,在数据层中设置告警阈值,当出现计算结果超过告警阈值的情况时,自动向相关人员发送告警信息,例如,当某个模块在一设定的时间内出现的告警次数超过了设置的告警阈值,此时就通过短信、邮件等方式向相关人员发送告警信息。
当然,在具体实施时,对于应用的数据库相关指标、应用服务器的相关指标等,则可通过数据库的相关视图来进行展示,如:可对数据库SQL语句耗时Top10、数据库存储空间、数据库当前使用CPU等信息进行统计和分析,并以图、表相结合的方式展示出来。对于部分特殊的统计报表,则需要通过编写基于H5+CSS3编写程序来实现页面展现,通过对存储在日志分析服务器上的数据进行统计和分析,并将统计和分析结果以图、表相结合的方式展示在页面上,以方便维护人员、研发人员、领导等进行查看。
请参照图2所示,本发明一种可视化的分布式系统实时监控运维装置的较佳实施例,所述装置包括日志采集模块、数据传递存储模块以及视图展示模块;
所述日志采集模块,用于在各个应用系统上进行无侵入式埋点,采集各个应用系统的日志信息;在应用的操作系统上部署开源插件,采集操作系统的硬件运行信息和操作日志信息;
所述数据传递存储模块,用于将采集到的各种数据信息通过消息中间件集群传递给流式计算框架集群,流式计算框架集群将接收到的数据信息存储成HBase或者HDFS格式的文件;
所述视图展示模块,用于在ELK框架中的Kibana框架的基础上,结合业界的报表插件echart来实现在Web页面中展示各种视图,包括获取存储的数据信息,并根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图(BDV)、应用性能视图(APV)、应用部署视图(ADV)、后台轮询调度视图(TSPV)、应用接口调用视图(AIIV)、用户体验视图(UEV)或者应用监控视图(AMV)的展示;同时通过分布式缓存Redis来实时推送更新各种视图中的数据。
所述日志采集模块具体为:
使用各类钩子脚本(即鹰眼-Agent)在各个应用系统上进行无侵入式埋点,通过各类钩子脚本来拦截各个应用系统中的应用程序或者内部组件的传递参数,以实现获取各个应用系统的日志信息;例如,在具体实施时,可通过埋入到各个应用系统上的servlet、js、aop、Httpclient等钩子脚本来拦截各种传递参数,如可拦截入参、出参、异常进入时间、离开时间等各类参数信息,从而实现获取各个应用系统的日志信息,该日志信息包含应用程序运行信息、应用操作日志、业务日志等各种日志信息。
在应用的操作系统上部署开源的Flume插件,并通过该Flume插件来采集操作系统上的各种硬件运行信息,包括CPU、内存、网络、磁盘、JVM等的运行信息和日志信息;同时,在应用的操作系统上部署开源的Logstash或Fluentd插件,并通过该Logstash或Fluentd插件来采集操作系统上的操作日志信息(如syslog等)。
所述数据传递存储模块具体为:
将采集到的各种数据信息通过socket异步抛给消息中间件集群(MQCluster),并由消息中间件集群将各种数据信息传递给流式计算框架集群;由于拦截的各类日志信息具有并发量大、总量多等特点,因此,通过将各类日志信息异步抛给消息中间件集群进行统一处理,可极大的提高日志信息的处理效率和降低对应用的影响。
流式计算框架集群将接收到的数据信息直接分类并存储成HBase或者HDFS格式的文件;或者流式计算框架集群先采用Storm技术对接收到的数据信息进行流式计算,以根据预先配置在流式计算库中的拦截规则来对数据信息进行过滤和清洗,例如,可设置仅捕捉前端的HTTP请求日志,同时对于HTTP请求日志,还可通过编写程序使其仅采集发起地址、发起方、发起时间以及响应时间信息,然后将过滤和清洗后的数据信息分类并存储成HBase或者HDFS格式的文件,例如,可将与性能数据相关的数据信息存储在同一类当中,将与业务数据相关的数据信息存储在同一类当中等等。其中,存储成HBase格式的文件主要用于详单信息的查询,存储成HDFS格式的文件主要用于增量分析日志信息,以形成性能监控的各个指标。
在所述视图展示模块中,所述“根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图(BDV)、应用性能视图(APV)、应用部署视图(ADV)、后台轮询调度视图(TSPV)、应用接口调用视图(AIIV)、用户体验视图(UEV)或者应用监控视图(AMV)的展示”具体为:
通过基于复杂事件处理(CEP)的事件流引擎Esper来对数据信息中的业务发展数据进行复杂事件计算,并根据计算结果以及配置的相关业务规则来进行业务发展视图(BDV)的展示;例如,通过对业务发展数据进行复杂事件计算后,就可以得出业务订单的受理情况,具体可包括未派发订单量、已派发订单量、单日甩单量、已完成订单量、订单受理率、订单完成率、各地区处理的订单量等各种订单受理情况,并将各种的订单受理情况以图、表相结合的方式展现出来。
根据数据信息中的相关应用的性能数据来实时计算API耗时,并根据计算结果来进行应用性能视图(APV)的展示;例如,针对每个API的进入时间和离开时间的时间差,可实时计算出API耗时,并得出应用API的变化历史和当前Top等相关信息,并将这些相关信息以图、表相结合的方式展现出来。
根据数据层中的CMDB配置库信息并结合设备间的拓扑关系来进行应用部署视图(ADV)的展示;例如,可将部署的服务器台数、服务器之间的主从关系、服务器之间的连接关系、每台服务器的CPU负荷、服务器处理的事务总量、每秒的SQL、各服务器的状态、各服务器分配的事务等相关应用部署情况都以图、表相结合的方式展现出来。
根据CMDB配置库中的拓扑关系信息得到设备在应用中所承担的角色,同时提取角色作为轮询调度主机列表,完成对后台轮询调度任务的分析和统计,并根据统计结果来进行后台轮询调度视图(TSPV)的展示;例如,可统计某一个应用执行的后台轮询调度任务的次数、执行成功率、执行失败率等相关信息,并将这些信息以图、表相结合的方式展现出来。
根据数据信息中的接口服务调用数据来分析和统计应用接口的调用情况,且根据应用接口的调用情况来进行应用接口调用视图(AIIV)的展示;例如,可分析和统计各应用接口的调用方IP地址、授权信息、请求时间、响应时间、入参、出参、调用结果等相关信息,从而得出各应用接口的调用成功率、调用次数、授权率等信息,并将这些信息以图、表相结合的方式展现出来,同时,通过分析和统计还可实现对应用接口进行实时监控和趋势预判,并对出现暴增、非法侵入等进行鉴权和告警。
根据数据信息中的用户操作行为数据来分析和统计用户的体验情况,并根据用户的体验情况来进行用户体验视图(UEV)的展示;例如,通过前台页面植入的js脚本,可采集用户打开的菜单、点击的屏幕区域、点击的按钮等信息,通过统计和分析用户的操作行为信息,可得到用户喜欢的业务类型、订单处理的耗时、订单异常量等各种信息,并将这些信息以图、表相结合的方式展现出来,通过对用户体验视图的实时展示,可方便相关人员第一时间掌握用户的体验情况,并有针对性的进行优化。
通过基于复杂事件处理的事件流引擎来对数据信息中的告警信息进行复杂事件计算,并根据计算结果来进行应用监控视图(AMV)的展示,例如,通过对告警信息进行复杂事件计算后,可得出各个模块在一某一时间段内出现的告警次数、告警级别、模块性能等信息,并将这些信息以图、表相结合的方式展现出来;同时,在数据层中设置告警阈值,当出现计算结果超过告警阈值的情况时,自动向相关人员发送告警信息,例如,当某个模块在一设定的时间内出现的告警次数超过了设置的告警阈值,此时就通过短信、邮件等方式向相关人员发送告警信息。
当然,在具体实施时,对于应用的数据库相关指标、应用服务器的相关指标等,则可通过数据库的相关视图来进行展示,如:可对数据库SQL语句耗时Top10、数据库存储空间、数据库当前使用CPU等信息进行统计和分析,并以图、表相结合的方式展示出来。对于部分特殊的统计报表,则需要通过编写基于H5+CSS3编写程序来实现页面展现,通过对存储在日志分析服务器上的数据进行统计和分析,并将统计和分析结果以图、表相结合的方式展示在页面上,以方便维护人员、研发人员、领导等进行查看。
综上所述,本发明具有如下优点:
1、通过对企业资产配置库(CMDB)同应用的关系梳理,结合应用服务器的相关特点,真实的提供各个应用系统的ADV(应用部署视图),一方面可方便运维人员直观了解系统架构,快速熟悉运维工作流程,另一方面在出现故障或问题的时候,能够按图索骥快速分析和定位故障,缩短系统故障的处理时间,使系统的可用性得到提升。
2、通过基于CEP的Esper技术,提供一个AMV(应用监控视图),可向用户直观的展示应用系统的各个监控与告警视图,确保应用得到全方位的监控,并对超过预设告警阈值的指标给出及时的告警,可确保问题得到及时有效的跟踪处理。
3、采用AOP、servlet、Httpclient等各类钩子脚本和Flume代理组件技术,提供一个可视化的系统应用性能管理APV平台,可有效解决软件产品的性能诊断难问题,提升软件产品的性能管理效率,对软件产品的性能问题实现预分析,避免软件的性能问题到测试和生产环节才发现,可提升产品的可用性,从而提升客户满意度。
4、通过各类无侵入式的js等钩子脚本,采集客户的体验情况,确保用户体验的可视化展示UEV(用户体验视图),进而实现UEM(用户体验管理),节省了客户调研和产品优化的时间,有助于提升工作效率和提升用户满意度。
5、采用基于CEP的Esper技术结合OGG和Binlog日志解析技术,提供实时BDV(业务发展视图),向业务部门、企业经营管理者实时展示业务发展量及趋势判断,为企业营销策略的调优和业务的发展做出可量化、实时可视化的视图,助力企业的业务发展。
6、向用户提供一个后台调度任务的TSPV(任务调度平台视图),将原先隐藏在应用后台运行的轮询展示在前台界面,使得应用维护人员能够及时了解到调度程序当前的运行情况,并能够在界面上直接做相关的操作处理;可确保任务调度的可用性,降低应用维护人员的工作难度,提升其工作效率。
7、采用Esper技术结合接口调用日志异步采集分析技术,提供AIIV(应用接口调用视图),实时展示应用接口的调用情况,针对无授权访问的应用接口进行审计、爆增的应用调用进行限流,确保应用接口的安全、健康的运行。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。

Claims (6)

1.一种可视化的分布式系统实时监控运维方法,其特征在于:所述方法包括如下步骤:
步骤1、在各个应用系统上进行无侵入式埋点,采集各个应用系统的日志信息;在应用的操作系统上部署开源插件,采集操作系统的硬件运行信息和操作日志信息;
步骤2、将采集到的各种数据信息通过消息中间件集群传递给流式计算框架集群,流式计算框架集群将接收到的数据信息存储成HBase或者HDFS格式的文件;
步骤3、在ELK框架中的Kibana框架的基础上,结合业界的报表插件来实现在Web页面中展示各种视图,包括获取存储的数据信息,并根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示;同时通过分布式缓存来实时推送更新各种视图中的数据;
在所述步骤3中,所述“根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示”具体为:
通过基于复杂事件处理的事件流引擎来对数据信息中的业务发展数据进行复杂事件计算,并根据计算结果以及配置的相关业务规则来进行业务发展视图的展示;
根据数据信息中的相关应用的性能数据来实时计算API耗时,并根据计算结果来进行应用性能视图的展示;
根据数据层中的CMDB配置库信息并结合设备间的拓扑关系来进行应用部署视图的展示;
根据CMDB配置库中的拓扑关系信息得到设备在应用中所承担的角色,同时提取角色作为轮询调度主机列表,完成对后台轮询调度任务的分析和统计,并根据统计结果来进行后台轮询调度视图的展示;
根据数据信息中的接口服务调用数据来分析和统计应用接口的调用情况,且根据应用接口的调用情况来进行应用接口调用视图的展示;
根据数据信息中的用户操作行为数据来分析和统计用户的体验情况,并根据用户的体验情况来进行用户体验视图的展示;
通过基于复杂事件处理的事件流引擎来对数据信息中的告警信息进行复杂事件计算,并根据计算结果来进行应用监控视图的展示;同时,在数据层中设置告警阈值,当出现计算结果超过告警阈值的情况时,自动向相关人员发送告警信息。
2.根据权利要求1所述的一种可视化的分布式系统实时监控运维方法,其特征在于:所述步骤1具体为:
使用各类钩子脚本在各个应用系统上进行无侵入式埋点,通过各类钩子脚本来拦截各个应用系统中的应用程序或者内部组件的传递参数,以实现获取各个应用系统的日志信息;
在应用的操作系统上部署开源的Flume插件,并通过该Flume插件来采集操作系统上的各种硬件运行信息;同时,在应用的操作系统上部署开源的Logstash或Fluentd插件,并通过该Logstash或Fluentd插件来采集操作系统上的操作日志信息。
3.根据权利要求1所述的一种可视化的分布式系统实时监控运维方法,其特征在于:所述步骤2具体为:
将采集到的各种数据信息通过socket异步抛给消息中间件集群,并由消息中间件集群将各种数据信息传递给流式计算框架集群;
流式计算框架集群将接收到的数据信息直接分类并存储成HBase或者HDFS格式的文件;或者流式计算框架集群先采用Storm技术对接收到的数据信息进行流式计算,以根据预先配置在流式计算库中的拦截规则来对数据信息进行过滤和清洗,然后将过滤和清洗后的数据信息分类并存储成HBase或者HDFS格式的文件。
4.一种可视化的分布式系统实时监控运维装置,其特征在于:所述装置包括日志采集模块、数据传递存储模块以及视图展示模块;
所述日志采集模块,用于在各个应用系统上进行无侵入式埋点,采集各个应用系统的日志信息;在应用的操作系统上部署开源插件,采集操作系统的硬件运行信息和操作日志信息;
所述数据传递存储模块,用于将采集到的各种数据信息通过消息中间件集群传递给流式计算框架集群,流式计算框架集群将接收到的数据信息存储成HBase或者HDFS格式的文件;
所述视图展示模块,用于在ELK框架中的Kibana框架的基础上,结合业界的报表插件来实现在Web页面中展示各种视图,包括获取存储的数据信息,并根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示;同时通过分布式缓存来实时推送更新各种视图中的数据;
在所述视图展示模块中,所述“根据数据信息以及数据层中的CMDB配置库信息来进行业务发展视图、应用性能视图、应用部署视图、后台轮询调度视图、应用接口调用视图、用户体验视图或者应用监控视图的展示”具体为:
通过基于复杂事件处理的事件流引擎来对数据信息中的业务发展数据进行复杂事件计算,并根据计算结果以及配置的相关业务规则来进行业务发展视图的展示;
根据数据信息中的相关应用的性能数据来实时计算API耗时,并根据计算结果来进行应用性能视图的展示;
根据数据层中的CMDB配置库信息并结合设备间的拓扑关系来进行应用部署视图的展示;
根据CMDB配置库中的拓扑关系信息得到设备在应用中所承担的角色,同时提取角色作为轮询调度主机列表,完成对后台轮询调度任务的分析和统计,并根据统计结果来进行后台轮询调度视图的展示;
根据数据信息中的接口服务调用数据来分析和统计应用接口的调用情况,且根据应用接口的调用情况来进行应用接口调用视图的展示;
根据数据信息中的用户操作行为数据来分析和统计用户的体验情况,并根据用户的体验情况来进行用户体验视图的展示;
通过基于复杂事件处理的事件流引擎来对数据信息中的告警信息进行复杂事件计算,并根据计算结果来进行应用监控视图的展示;同时,在数据层中设置告警阈值,当出现计算结果超过告警阈值的情况时,自动向相关人员发送告警信息。
5.根据权利要求4所述的一种可视化的分布式系统实时监控运维装置,其特征在于:所述日志采集模块具体为:
使用各类钩子脚本在各个应用系统上进行无侵入式埋点,通过各类钩子脚本来拦截各个应用系统中的应用程序或者内部组件的传递参数,以实现获取各个应用系统的日志信息;
在应用的操作系统上部署开源的Flume插件,并通过该Flume插件来采集操作系统上的各种硬件运行信息;同时,在应用的操作系统上部署开源的Logstash或Fluentd插件,并通过该Logstash或Fluentd插件来采集操作系统上的操作日志信息。
6.根据权利要求4所述的一种可视化的分布式系统实时监控运维装置,其特征在于:所述数据传递存储模块具体为:
将采集到的各种数据信息通过socket异步抛给消息中间件集群,并由消息中间件集群将各种数据信息传递给流式计算框架集群;
流式计算框架集群将接收到的数据信息直接分类并存储成HBase或者HDFS格式的文件;或者流式计算框架集群先采用Storm技术对接收到的数据信息进行流式计算,以根据预先配置在流式计算库中的拦截规则来对数据信息进行过滤和清洗,然后将过滤和清洗后的数据信息分类并存储成HBase或者HDFS格式的文件。
CN201710952038.2A 2017-10-13 2017-10-13 一种可视化的分布式系统实时监控运维方法及装置 Active CN107729214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710952038.2A CN107729214B (zh) 2017-10-13 2017-10-13 一种可视化的分布式系统实时监控运维方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710952038.2A CN107729214B (zh) 2017-10-13 2017-10-13 一种可视化的分布式系统实时监控运维方法及装置

Publications (2)

Publication Number Publication Date
CN107729214A CN107729214A (zh) 2018-02-23
CN107729214B true CN107729214B (zh) 2021-03-09

Family

ID=61210519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710952038.2A Active CN107729214B (zh) 2017-10-13 2017-10-13 一种可视化的分布式系统实时监控运维方法及装置

Country Status (1)

Country Link
CN (1) CN107729214B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614820B (zh) * 2016-12-09 2021-01-15 腾讯科技(深圳)有限公司 实现流式源数据解析的方法和装置
CN108804679A (zh) * 2018-06-12 2018-11-13 云南电网有限责任公司信息中心 一种业务系统用户操作监控数据可视化方法
CN108874647A (zh) * 2018-06-12 2018-11-23 云南电网有限责任公司信息中心 一种业务系统用户轨迹识别方法
CN108874487B (zh) * 2018-06-13 2020-01-10 北京九章云极科技有限公司 基于工作流的数据分析处理方法、系统、装置及存储介质
CN109189652A (zh) * 2018-06-26 2019-01-11 中国科学院信息工程研究所 一种封闭网络终端行为数据的采集方法及系统
CN109254901B (zh) * 2018-09-30 2019-11-29 北京九章云极科技有限公司 一种指标监测方法及系统
CN111008026B (zh) * 2018-10-08 2024-03-26 阿里巴巴集团控股有限公司 集群管理方法、装置及系统
CN109639464A (zh) * 2018-11-23 2019-04-16 武汉烽火技术服务有限公司 基于web界面的idc网络巡检方法及系统
CN109669982A (zh) * 2018-12-25 2019-04-23 钛马信息网络技术有限公司 平台接口被调用统计系统及方法
CN109871406B (zh) * 2018-12-28 2023-06-20 北京云杉信息技术有限公司 通用监控报表平台的设计方法
CN109766241A (zh) * 2018-12-29 2019-05-17 中国银行股份有限公司 系统监控方法、装置、计算机设备及计算机可读存储介质
CN109766246B (zh) * 2019-02-02 2023-04-07 北京字节跳动网络技术有限公司 用于监控应用的方法和装置
CN109871392B (zh) * 2019-02-18 2023-04-14 浪潮软件集团有限公司 一种分布式应用系统下的慢sql实时数据采集方法
CN109903175A (zh) * 2019-03-26 2019-06-18 众安在线财产保险股份有限公司 一种保险核心系统监控平台
CN110287053B (zh) * 2019-06-27 2022-11-04 四川新网银行股份有限公司 分布式系统异常统一处理的方法
CN110297745A (zh) * 2019-07-04 2019-10-01 中山大学 一种储存监控系统的故障定位方法及系统
CN110557281B (zh) * 2019-08-21 2022-04-26 北京市天元网络技术股份有限公司 基于cmdb和告警图谱的智能运维方法以及装置
CN110502409A (zh) * 2019-08-23 2019-11-26 行吟信息科技(上海)有限公司 一种可视化监控业务运行状况的方法及系统
CN110532153A (zh) * 2019-09-11 2019-12-03 贵州电网有限责任公司 一种业务层级用户操作体验可视化系统
CN110971485B (zh) * 2019-11-19 2022-01-28 网联清算有限公司 业务指标的监控系统及方法
CN111404736A (zh) * 2020-03-10 2020-07-10 大汉软件股份有限公司 基于api网关的政企服务应用集成方法以及网关监测平台
CN113535228B (zh) * 2020-04-14 2024-04-09 深圳富桂精密工业有限公司 监控数据链路的方法、装置及计算机可读存储介质
CN111817912B (zh) * 2020-06-28 2022-02-25 中国工商银行股份有限公司 基于轻量级脚本的接入层热点流量监控方法及装置
CN111782534A (zh) * 2020-07-03 2020-10-16 普信恒业科技发展(北京)有限公司 一种业务流程的监控方法、装置及系统
CN111930385A (zh) * 2020-07-28 2020-11-13 苏州亿歌网络科技有限公司 数据采集方法、装置、设备及存储介质
CN112084087A (zh) * 2020-08-24 2020-12-15 上海微亿智造科技有限公司 一种工业设备状态监控与运维管理方法、系统
CN112073262B (zh) * 2020-08-26 2022-03-29 中国建设银行股份有限公司 一种云平台监控方法、装置、设备及系统
CN112100036B (zh) * 2020-11-05 2021-02-19 广州市玄武无线科技股份有限公司 一种基于PaaS前端引擎的页面性能监控方法及系统
CN112487315A (zh) * 2020-12-17 2021-03-12 中国农业银行股份有限公司 一种数据处理方法和装置
CN112732531A (zh) * 2021-01-14 2021-04-30 北京世纪互联宽带数据中心有限公司 一种监控数据的处理方法及装置
CN113204464B (zh) * 2021-04-23 2023-04-25 商盟商务服务有限公司 基于业务场景的实时业务监控方法、系统、终端及介质
CN113342605B (zh) * 2021-06-07 2024-02-02 北京许继电气有限公司 一种PostgreSQL数据库监控和溯源分析的方法和系统
CN114553732A (zh) * 2022-03-08 2022-05-27 北京月新时代科技股份有限公司 一种基于设备自动化获取设备性能的技术
CN115033457B (zh) * 2022-06-22 2023-08-25 浙江大学 一种可监控预警的多源数据实时采集方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN105653425A (zh) * 2015-12-28 2016-06-08 中国民航信息网络股份有限公司 基于复杂事件处理引擎的监控系统
CN106294091A (zh) * 2016-08-11 2017-01-04 福建富士通信息软件有限公司 一种无侵入式日志拦截性能分析方法及系统
CN106487585A (zh) * 2016-10-09 2017-03-08 深圳市思博创科技有限公司 设备综合监控系统架构
CN107517131A (zh) * 2017-08-31 2017-12-26 四川长虹电器股份有限公司 一种基于日志采集的分析预警方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103888287A (zh) * 2013-12-18 2014-06-25 北京首都国际机场股份有限公司 信息系统一体化运维监控服务预警平台及其实现方法
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN105653425A (zh) * 2015-12-28 2016-06-08 中国民航信息网络股份有限公司 基于复杂事件处理引擎的监控系统
CN106294091A (zh) * 2016-08-11 2017-01-04 福建富士通信息软件有限公司 一种无侵入式日志拦截性能分析方法及系统
CN106487585A (zh) * 2016-10-09 2017-03-08 深圳市思博创科技有限公司 设备综合监控系统架构
CN107517131A (zh) * 2017-08-31 2017-12-26 四川长虹电器股份有限公司 一种基于日志采集的分析预警方法

Also Published As

Publication number Publication date
CN107729214A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN107729214B (zh) 一种可视化的分布式系统实时监控运维方法及装置
Ibidunmoye et al. Performance anomaly detection and bottleneck identification
US10353799B2 (en) Testing and improving performance of mobile application portfolios
CN110134542B (zh) 自动异常检测和解决系统
US9590880B2 (en) Dynamic collection analysis and reporting of telemetry data
US11968264B2 (en) Systems and methods for operation management and monitoring of bots
US20100070981A1 (en) System and Method for Performing Complex Event Processing
JP6147757B2 (ja) アプリケーションごとのリソース使用情報の提供
US10489711B1 (en) Method and apparatus for predictive behavioral analytics for IT operations
CN113157545A (zh) 业务日志的处理方法、装置、设备及存储介质
US9588869B2 (en) Computer implemented system and method of instrumentation for software applications
US11042525B2 (en) Extracting and labeling custom information from log messages
CN109670690A (zh) 数据信息中心监控预警方法、系统及设备
US20210097431A1 (en) Debugging and profiling of machine learning model training
US11201802B2 (en) Systems and methods for providing infrastructure metrics
Birje et al. Cloud monitoring system: basics, phases and challenges
CN110300002A (zh) 一种可视化的分布式运维方法及装置
Sukhija et al. Event management and monitoring framework for HPC environments using ServiceNow and Prometheus
US11468365B2 (en) GPU code injection to summarize machine learning training data
US9264324B2 (en) Providing server performance decision support
CN110968479A (zh) 一种针对应用程序的业务级全链路监控方法及服务器
El-Kassabi et al. Trust enforcement through self-adapting cloud workflow orchestration
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质
US20230004478A1 (en) Systems and methods of continuous stack trace collection to monitor an application on a server and resolve an application incident
WO2022015978A1 (en) Applied computer technology for high efficiency value stream management and mapping and process tracking

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian.

Applicant after: China Electric fufu Mdt InfoTech Ltd

Address before: 350000 12, 89 Avenue, Wufeng street, Gulou District, Fuzhou, Fujian.

Applicant before: Fujian Fushitong Information Software Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant