CN113535513B - 一种基于微服务架构的全球后台服务端运行状态监控系统及方法 - Google Patents

一种基于微服务架构的全球后台服务端运行状态监控系统及方法 Download PDF

Info

Publication number
CN113535513B
CN113535513B CN202110748881.5A CN202110748881A CN113535513B CN 113535513 B CN113535513 B CN 113535513B CN 202110748881 A CN202110748881 A CN 202110748881A CN 113535513 B CN113535513 B CN 113535513B
Authority
CN
China
Prior art keywords
service
cluster
data
monitoring system
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110748881.5A
Other languages
English (en)
Other versions
CN113535513A (zh
Inventor
陈净沂
上官成
李志健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Dianchu Technology Co ltd
Original Assignee
Xiamen Dianchu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Dianchu Technology Co ltd filed Critical Xiamen Dianchu Technology Co ltd
Priority to CN202110748881.5A priority Critical patent/CN113535513B/zh
Publication of CN113535513A publication Critical patent/CN113535513A/zh
Application granted granted Critical
Publication of CN113535513B publication Critical patent/CN113535513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于微服务架构的全球后台服务端运行状态监控系统及方法,所述系统部署于地区大型集群和全球中心大型集群中,全球中心大型集群的监控系统与地区大型集群的监控系统保持通信,同时各大型集群中的各集群的监控系统之间也保持通信;所述全球后台服务端运行状态监控系统包括监控系统平台、数据采集层、基础设施层和业务层。本发明将现有监控基础设施整合、重新开发,提高业务适用范围,降低维护人员学习和使用平台系统的心智负担,提高项目维护效率;完善服务治理、服务稳定性优化方案,提高上产环境项目的可靠性,降低事故率同时提高故障处理速度。

Description

一种基于微服务架构的全球后台服务端运行状态监控系统及 方法
技术领域
本发明涉及服务端监控技术领域,具体涉及一种基于微服务架构的全球后台服务端运行状态监控系统及方法。
背景技术
如图1所示,目前在服务端服务端运行状态在数据监控、状态监控、状态分析、全链路追踪、状态管理方面上,有大量开源和商业化的软件支持,如Prometheus、云计算服务商监控、kubernetes系统监控等等,但这类软件大多数是各自处理各自领域内的数据,没有进行聚合、联动,服务端维护人员需要查看、调用数个平台系统的数据才能拿到进行检查运行状态、排查故障所需的数据。面对当前成百上千个全球化部署的服务的维护需求,维护人员需要一个统一的平台系统来对所有数据进行实时观测\检查,并在后台能够实时进行数据分析,降低维护工作的压力。
目前的维修监控方法不满足维护要求,特别是目前全球部署多个项目的情况下,需要根据不同部署环境到不同的管理平台进行状态查询和跟踪,在检查服务端运行状态,排查异常等方面较为困难,且需要维护人员分别进行跨地区网络连接到不同大型集群中进行监控操作。同时,为了优化业务处理流程和处理性能,面对更复杂和创新性的挑战,需要更可靠更合理的基础设施和解决方案支持。
有鉴于此,本发明人针对现有服务端监控上存在的问题进行深入构思且积极研发,遂产生本案。
发明内容
本发明的目的在于提供一种基于微服务架构的全球后台服务端运行状态监控系统及方法,其其能提供全面、一体化的运行状态监控和管理系统。
为实现上述目的,本发明采用的技术方案是:
一种基于微服务架构的全球后台服务端运行状态监控系统,其部署于地区大型集群和全球中心大型集群中,全球中心大型集群的监控系统与地区大型集群的监控系统保持通信,同时各大型集群中的各集群的监控系统之间也保持通信;
所述全球后台服务端运行状态监控系统包括监控系统平台、数据采集层、基础设施层和业务层;
所述数据采集层通过各类数据采集软件进行各场景数据的收集;所述数据采集软件包含Prometheus、grafana、kubernetes、Elasticsearch、云计算主机服务商数据监控;
所述基础设施层负责侵入个地区大型集群中的集群中,提供基本业务功能以及对接内部系统扩展业务数据,进行数据采集、状态监测、指令操作;所述基础设施层包括服务中心系统、权限服务、配置中心系统、代理节点服务、内部扩展数据;
所述服务中心系统为地区大型集群内提供程序级、服务端级别的服务发现功能,配合监控系统平台进行服务动态的进一步检测;
所述权限服务是基于RBAC规则的权限管理控制服务,为集群中服务端之间的通信提供鉴权支持;
所述配置中心系统负责管理、审查后台服务端依赖的通用配置数据;
所述代理节点服务负责调控各地区大型集群中每一个集群的系统服务,与中心大型集群的监控系统平台实时交互;传递当前集群内相关的数据,并且接受中央集群的操作指令,进行服务端运行状态检测;中心大型集群与地区大型集群的代理节点服务之间存在多条电信运营商提供的企业级网络链路、公网链路、云服务商内部网络链路、VPN链路的网络资源,代理节点服务根据访问数据成功状态,自动切换状态较好的链路;
所述业务层对日志数据进行分析,以及更进一步对所有采集的数据进行智能告警业务;所述业务层包括日志分析服务和智能警告服务;所述日志分析服务是智能告警服务的基础设施服务,其用于分析服务端运行时产生的系统日志,对业务状态、全链路追踪数据进行分析,并提供给智能告警和后台服务端运行状态监控系统进行处理和展示;所述智能告警服务负责聚合监控数据、服务运行日志数据进行规则判断并告警到维护人员,起根据需求接入机器学习等算法分析,实现更加准确、友好的告警功能。
一种基于微服务架构的全球后台服务端运行状态监控方法,其采用如上所述的监控系统实现,具体地,当维护人员需要进行维护管理时,进行如下操作:
步骤1、操作全球中心大型集群的监控系统平台,使得中心大型集群的代理服务节点与各个地区大型集群的每一个集群的代理节点服务建立通信链路;
中心大型集群的代理服务节点与地区大型集群的代理服务节点之间存在多个通信链路,代理节点服务根据访问数据成功状态自动切换状态较好的链路,使维护人员无感知高效率的使用跨地区网络;
步骤2、地区大型集群中的集权内的代理节点服务跟全球中心大型集群的代理节点服务保持实时通信,并接受全球中心大型集群的操作指令,向全球中心大型集群传递地区大型集群内的相关数据;
步骤3、维护人员通过监控系统平台直接可以看到其他地区大型集群的监控数据。
采用上述方案后,本发明为全球化部署的服务端项目提供全面、一体化的运行状态监控和管理系统;将现有监控基础设施整合、重新开发,提高业务适用范围,降低维护人员学习和使用平台系统的心智负担,提高项目维护效率;完善服务治理、服务稳定性优化方案,提高上产环境项目的可靠性,降低事故率同时提高故障处理速度。
附图说明
图1为现有的维护监控方法示意图;
图2为后台服务端运行状态监控系统的框架示意图;
图3为地区大型集群与中心大型集群的通信链路示意图;
图4为地区大型集群与中心大型集群的数据传递示意图。
具体实施方式
如图2所示,本发明揭示了一种基于微服务架构的全球后台服务端运行状态监控系统,该系统应用于地区大型集群和全球中心大型集群中。
本发明的全球后台服务端运行状态监控系统包括监控系统平台、数据采集层、基础设施层和业务层,监控系统平台为核心主体,其依赖数据采集层、基础设施层和业务层。
数据采集层通过各类数据采集软件进行各场景数据的收集,数据采集软件是指各类第三方、自研的数据采集系统软件,其基本功能是根据需要分别独立采集地区大型集群中物理主机、容器、系统环境、软件运行时主动上报信息等数据,通过数据软件可以同时收集到维护人员所需要的相关数据,这些数据独立存放,之后由监控系统统一归纳处理。本实施例中,数据采集软件包含Prometheus、grafana、kubernetes、Elasticsearch、云计算主机服务商数据监控等。实施微服务架构和采集集群信息需要深度容器化技术和kubernetes容器管理系统,通过该技术可以快速、方便的将整套系统接入、部署到全球所有线上生产环境中,降低系统本身的维护成本,提高效率。
基础设施层负责侵入个地区大型集群中的集群中,提供基本业务功能以及对接内部系统扩展业务数据,进行数据采集、状态监测、指令操作等功能。该基础设施层包括服务中心系统、权限服务、配置中心系统、代理节点服务、内部扩展数据。
服务中心系统为地区大型集群内提供程序级、服务端级别的服务发现功能,配合监控系统平台进行服务动态的进一步检测。服务中心系统为集群中运行的服务端程序提供注册节点信息,发现其他服务端程序节点提供功能支持,为更稳定的网络通信能力和服务端状态检测提供基本业务支持。
权限服务为各地区大型集群内服务端间鉴权提供支持。权限服务是基于RBAC规则的权限管理控制服务,为集群中服务端之间的通信提供鉴权支持,确保通信链路安全可靠。
配置中心系统负责管理、审查后台服务端依赖的通用配置数据。配置中心系统是用于持久化存储,快速同步服务端程序所需的通用配置数据的分布式数据存储系统,并在后台服务端运行状态监控系统中提供了友好的可视化界面,审批限制功能,实现了安全、高效的动态配置能力。
代理节点服务负责调控各地区大型集群中每一个集群的系统服务,与中心大型集群的监控系统平台实时交互。代理节点服务是部署到全球各地区大型集群中各集群内的代理服务,其跟维护人所在地的中心大型集群的监控系统服务保持实时通信,为其传递当前集群内相关的数据,并且接受中央集群的操作指令,进行服务端运行状态检测等操作。其中实时通信能力依赖运维基础设施构建的高可用网络链路,其架构如图3所示,核心为利用多条电信运营商提供的企业级网络链路、公网链路、云服务商内部网络链路、VPN链路的网络资源,根据访问数据成功状态,自动切换状态较好的链路,使维护人员无感知高效率的使用跨地区网络。
业务层,主要对日志数据进行分析,以及更进一步对所有采集的数据进行智能告警业务。业务层包括日志分析服务和智能警告服务。日志分析服务是智能告警服务的基础设施服务,其着重聚焦于分析服务端运行时产生的系统日志,对业务状态、全链路追踪数据进行分析,并提供给智能告警和后台服务端运行状态监控系统进行处理和展示。日志分析服务负责根据定制化规则筛查后端服务上传的日志信息,进行数据预处理,并报告给智能告警服务。
智能告警服务是集成实时、离线两种分析方式,通过用户定制的规则,对数据进行分析,达到一定条件时,进行告警操作。通过接入机器学习等AI算法的支持,可以实现更友好、准备的告警能力。智能告警服务负责聚合监控数据、服务运行日志数据进行规则判断并告警到维护人员,根据需求接入机器学习等算法分析,实现更加准确,友好的告警功能。
如图4所示,维护人所在地的大型集群被称为全球中心大型集群,其里面的一个后台服务端运行状态监控系统被用作中心监控系统,该中心监控系统通过上述代理节点服务与各地区大型集群保持通信,同时也跟在相同大型集群内的监控系统通信。由此达到在一个中心监控系统可以操作全球各地区大型集群中的各个集群。
当维护人员需要进行维护管理时,进行如下操作:
步骤1、操作全球中心大型集群的监控系统平台,使得中心大型集群的代理服务节点与各个地区大型集群的每一个集群的代理节点服务建立通信链路。
中心大型集群的代理服务节点与地区大型集群的代理服务节点之间存在多个通信链路,代理节点服务根据访问数据成功状态自动切换状态较好的链路,使维护人员无感知高效率的使用跨地区网络。
步骤2、地区大型集群中的集权内的代理节点服务跟全球中心大型集群的代理节点服务保持实时通信,并接受全球中心大型集群的操作指令,向全球中心大型集群传递地区大型集群内的相关数据。
步骤3、维护人员通过监控系统平台直接可以看到其他地区大型集群的监控数据。
与现有的监控系统相比,本发明具备以下有益效果:
一、现有服务端运行状态监控系统大部分是监控单一技术指标的系统,本发明则是聚合所有监控信息,一个系统管理所有监控数据。
二、现有服务端运行状态监控系统主要聚焦当前集群的监控数据,本发明所用方案针对全球化部署,在中央集群上即可管理全球所有地区大型集群的相关数据。
三、现有服务端运行状态监控系统控制能力较弱,本发明所用方案还包括智能告警、通用配置控制,实现监控、管理功能一体化。
四、现有服务端运行状态监控系统囊括的通用、核心功能兼容性弱,本发明所用方案在子系统方面兼容同类型监控软件,一旦有需要,随时可以在变更子系统软件的情况下,保持主要功能不受影响。
综上,本发明为全球化部署的服务端项目提供全面、一体化的运行状态监控和管理系统;将现有监控基础设施整合、重新开发,提高业务适用范围,降低维护人员学习和使用平台系统的心智负担,提高项目维护效率;完善服务治理、服务稳定性优化方案,提高上产环境项目的可靠性,降低事故率同时提高故障处理速度。
以上所述,仅是本发明实施例而已,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (2)

1.一种基于微服务架构的全球后台服务端运行状态监控系统,其特征在于:所述系统部署于地区大型集群和全球中心大型集群中,全球中心大型集群的监控系统与地区大型集群的监控系统保持通信,同时各大型集群中的各集群的监控系统之间也保持通信;
所述全球后台服务端运行状态监控系统包括监控系统平台、数据采集层、基础设施层和业务层;
所述数据采集层通过各类数据采集软件进行各场景数据的收集;所述数据采集软件包含Prometheus、grafana、kubernetes、Elasticsearch、云计算主机服务商数据监控;
所述基础设施层负责侵入个地区大型集群中的集群中,提供基本业务功能以及对接内部系统扩展业务数据,进行数据采集、状态监测、指令操作;所述基础设施层包括服务中心系统、权限服务、配置中心系统、代理节点服务、内部扩展数据;
所述服务中心系统为地区大型集群内提供程序级、服务端级别的服务发现功能,配合监控系统平台进行服务动态的进一步检测;
所述权限服务是基于RBAC规则的权限管理控制服务,为集群中服务端之间的通信提供鉴权支持;
所述配置中心系统负责管理、审查后台服务端依赖的通用配置数据;
所述代理节点服务负责调控各地区大型集群中每一个集群的系统服务,与中心大型集群的监控系统平台实时交互;传递当前集群内相关的数据,并且接受中央集群的操作指令,进行服务端运行状态检测;中心大型集群与地区大型集群的代理节点服务之间存在多条电信运营商提供的企业级网络链路、公网链路、云服务商内部网络链路、VPN链路的网络资源,代理节点服务根据访问数据成功状态,自动切换状态较好的链路;
所述业务层对日志数据进行分析,以及更进一步对所有采集的数据进行智能告警业务;所述业务层包括日志分析服务和智能警告服务;所述日志分析服务是智能告警服务的基础设施服务,其用于分析服务端运行时产生的系统日志,对业务状态、全链路追踪数据进行分析,并提供给智能告警和后台服务端运行状态监控系统进行处理和展示;所述智能告警服务负责聚合监控数据、服务运行日志数据进行规则判断并告警到维护人员,起根据需求接入机器学习等算法分析,实现更加准确、友好的告警功能。
2.一种基于微服务架构的全球后台服务端运行状态监控方法,其特征在于:所述方法采用如权利要求1所述的监控系统实现,具体地,当维护人员需要进行维护管理时,进行如下操作:
步骤1、操作全球中心大型集群的监控系统平台,使得中心大型集群的代理服务节点与各个地区大型集群的每一个集群的代理节点服务建立通信链路;
中心大型集群的代理服务节点与地区大型集群的代理服务节点之间存在多个通信链路,代理节点服务根据访问数据成功状态自动切换状态较好的链路,使维护人员无感知高效率的使用跨地区网络;
步骤2、地区大型集群中的集权内的代理节点服务跟全球中心大型集群的代理节点服务保持实时通信,并接受全球中心大型集群的操作指令,向全球中心大型集群传递地区大型集群内的相关数据;
步骤3、维护人员通过监控系统平台直接可以看到其他地区大型集群的监控数据。
CN202110748881.5A 2021-07-02 2021-07-02 一种基于微服务架构的全球后台服务端运行状态监控系统及方法 Active CN113535513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110748881.5A CN113535513B (zh) 2021-07-02 2021-07-02 一种基于微服务架构的全球后台服务端运行状态监控系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748881.5A CN113535513B (zh) 2021-07-02 2021-07-02 一种基于微服务架构的全球后台服务端运行状态监控系统及方法

Publications (2)

Publication Number Publication Date
CN113535513A CN113535513A (zh) 2021-10-22
CN113535513B true CN113535513B (zh) 2024-05-24

Family

ID=78126507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748881.5A Active CN113535513B (zh) 2021-07-02 2021-07-02 一种基于微服务架构的全球后台服务端运行状态监控系统及方法

Country Status (1)

Country Link
CN (1) CN113535513B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114189430A (zh) * 2021-12-09 2022-03-15 兴业银行股份有限公司 立体化日志全链路监控系统、方法、介质及设备
CN115883405A (zh) * 2022-11-25 2023-03-31 上海浦东发展银行股份有限公司 一种服务检测系统
CN116302862B (zh) * 2023-05-18 2023-08-11 浙江华东工程数字技术有限公司 一种微服务架构下监控告警方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101826498B1 (ko) * 2017-05-02 2018-02-07 나무기술 주식회사 클라우드 플랫폼 시스템
CN109714192A (zh) * 2018-11-29 2019-05-03 深圳供电局有限公司 一种监控云平台的监控方法及系统
KR101987664B1 (ko) * 2018-07-19 2019-06-11 나무기술 주식회사 클라우드 플랫폼에서 복수의 클러스터 및 어플리케이션을 모니터링하는 방법
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN112380086A (zh) * 2019-09-29 2021-02-19 北京城建设计发展集团股份有限公司 分布式微服务架构数据中心智能感知控制系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101826498B1 (ko) * 2017-05-02 2018-02-07 나무기술 주식회사 클라우드 플랫폼 시스템
KR101987664B1 (ko) * 2018-07-19 2019-06-11 나무기술 주식회사 클라우드 플랫폼에서 복수의 클러스터 및 어플리케이션을 모니터링하는 방법
CN109714192A (zh) * 2018-11-29 2019-05-03 深圳供电局有限公司 一种监控云平台的监控方法及系统
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN112380086A (zh) * 2019-09-29 2021-02-19 北京城建设计发展集团股份有限公司 分布式微服务架构数据中心智能感知控制系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于微服务的电缆隧道综合状态监控系统;李新丽;李建;傅春明;王坤;刘恒志;;国外电子测量技术;20200815(08);全文 *

Also Published As

Publication number Publication date
CN113535513A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN113535513B (zh) 一种基于微服务架构的全球后台服务端运行状态监控系统及方法
CN109034521B (zh) 一种电网调度控制系统的智能运维架构设计方法
CN110658760A (zh) 一种具有远程定位及通讯的电力运维终端
CN101854269A (zh) 电力二次系统信息安全运维监管平台
CN201623722U (zh) 电力二次系统信息安全运维监管平台
CN103973815A (zh) 一种跨数据中心存储环境统一监控方法
CN105712143B (zh) 一种电梯远程监控点检及保养方法
CN112688819A (zh) 一种用于网络运维综合管理系统
CN103914057B (zh) 一种工控设备自动化系统的故障诊断和分析方法及系统
CN101826756A (zh) 一种实现配电房设备故障定位系统及方法
CN104637265A (zh) 调度自动化多级一体化智能值班报警系统
CN105071954A (zh) 基于探针技术的资源池故障诊断与定位处理方法
CN109164720A (zh) 基于IIoT的注塑机机群远程监控系统和方法
CN109698766A (zh) 通信电源故障分析的方法及系统
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN111083230A (zh) 一种计算机网络运行管理系统
CN103580924A (zh) 一种故障定位方法、装置及系统
CN103914058B (zh) 一种油气管道工控设备远程监控系统的故障诊断和告警方法及系统
CN111371570B (zh) 一种nfv网络的故障检测方法及装置
CN110445694A (zh) 一种基于Zabbix监控触发通知的方法
CN101197714A (zh) 一种移动数据业务状态集中采集的方法
CN111953525A (zh) 专有设备运维监控系统
CN113592210A (zh) 一种用于水务无负压二次供水设施的物联网综合管理平台
CN205983124U (zh) 一种综合监控系统
CN106706000A (zh) 经纬仪智能网络监测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant