CN114201362A - 基于Prometheus的企业级高可用监控系统及实现方法 - Google Patents

基于Prometheus的企业级高可用监控系统及实现方法 Download PDF

Info

Publication number
CN114201362A
CN114201362A CN202111503211.3A CN202111503211A CN114201362A CN 114201362 A CN114201362 A CN 114201362A CN 202111503211 A CN202111503211 A CN 202111503211A CN 114201362 A CN114201362 A CN 114201362A
Authority
CN
China
Prior art keywords
monitoring
module
prometheus
service gateway
firewall
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111503211.3A
Other languages
English (en)
Inventor
未元
柳开弘
徐小斌
金晋明
段然
李�诚
张世豪
杨鑫培
曾仁杰
马军
郭界
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Bank Co Ltd
CIB Fintech Services Shanghai Co Ltd
Original Assignee
Industrial Bank Co Ltd
CIB Fintech Services Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Bank Co Ltd, CIB Fintech Services Shanghai Co Ltd filed Critical Industrial Bank Co Ltd
Priority to CN202111503211.3A priority Critical patent/CN114201362A/zh
Publication of CN114201362A publication Critical patent/CN114201362A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于Prometheus的企业级高可用监控系统及实现方法,包括如下模块:监控展示模块:发出用户的监控数据查询请求;分层监控模块:接收用户的监控数据查询请求,匹配已储存的被监控系统的监控数据。本发明使得Prometheus得以应用企业级大规模场景中,成为企业全面云化底层基础设施的一环,全面助力信息系统“上云”;且具体说明了此系统实现企业级大规模使用所需要的服务高可用、水平可扩展、全局视图、数据持久化、多租户管控特性的解决方案;与云原生计算基金会相关的解决方案进行横向对比,可看出本发明的方案更适用于实际使用场景。

Description

基于Prometheus的企业级高可用监控系统及实现方法
技术领域
本发明涉及高可用监控的技术领域,具体地,涉及一种基于Prometheus的企业级高可用监控系统及实现方法。
背景技术
监控作为底层基础设施的一环,是保障生产环境服务稳定性不可或缺的一部分。而另一方面,代表云计算的“下一个时代”的“云原生”已经成为业界公认的技术趋势,也是数字银行的新趋势,越来越多的信息系统也开始“上云”。结合上述的场景,Prometheus作为云原生时代最流行的监控组件,其拥有着活跃的社区和丰富的扩展,目前已成为了云原生时代监控的事实标准。但目前,Prometheus官方尚未给出企业级的使用方案,因此,如何将Prometheus应用企业级大规模场景中,成为企业全面云化底层基础设施的一环,是“上云”面临的痛点。对于Prometheus在企业化大规模使用,离不开五大难题:服务高可用、水平可扩展、全局视图、数据持久化、多租户管控。
进行调研:目前,云原生计算基金会(CNCF)中也有相关的项目提供了解决方案,较为典型的为Thanos(Thanos是为Prometheus增加高可用性的一组组件,包括跨集群联合、跨集群无限存储和全局查询)以及Cortex(Cortex是CNCF的一个沙箱项目)。Cortex为Prometheus提供了水平可扩展、高可用性、多租户的长期存储,目前在CNCF沙箱孵化。水平可扩展:Cortex可以跨集群的多台机器运行,使得您能够将指标从多个Prometheus服务器发送到单个Cortex集群,并在单个位置跨所有数据进行“全局聚合”查询。高可用:在集群中运行时,Cortex可以再机器之间复制数据,这样,即使但节点故障,也不会使得监控服务不可用。多租户:Cortex可以将数据和查询在多个独立Prometheus源隔离,从而使不同的用户共享同一集群。数据持久化:Cortex支持Amazon DynamoDB(Amazon DynamoDB是一项快速灵活的NoSQL云数据库服务,是完全托管的数据库,支持文档模型和键值数据模型),GoogleBigtable(Google Bigtable是一个分布式数据存储系统,专为海量的结构化数据开发的云存储技术),Cassandera(Cassandera是一个来自Apache的分布式数据库,具有高度可扩展性,可用于管理大量的结构化数据)、AWS S3(AWS S3全名是Simple Storage Service,是一个公开的服务,用于存储数字资产,包括图片、视频、音乐和文档)和Google Cloud Storage(Google云平台上的对象存储服务)来长期存储指标,这样一来,您可以持久地存储数据。
诞生于2018年9月,其实基于Prometheus之上的可以组成具有无限存储容量的高可用性能指标系统。Thanos也是CNCF的沙箱项目,目前已有腾讯、ebay(易贝购物网站)、Adobe(奥多比)等著名公司在使用。水平可扩展:Thanos通过Sidecar(Sidecar指的是将本属于应用程序的功能拆分成单独的进程)的方式,将Prometheus的数据集中搬运到统一的存储点,因此,可以方便的扩增Prometheus节点。高可用:Thanos以多组件(类似微服务)的形式运行,每个组件均可部署多副本。并且,存储上使用对象存储服务,可依赖对象存储服务完成数据的高可用。多租户:暂不支持。数据持久化:Thanos支持Google Cloud Storage、AWS S3、(Azure Blob Storage是用来存放大量的像文本、图片、视频等非结构化数据的存储服务)、OpenStack Swift(OpenStack Swift是开源的云计算管理平台项目的子项目之一,目的是使用普通硬件来构建冗余的、可扩展的分布式对象存储集群)、Tencent COS(Tencent COS是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持HTTP/HTTPS协议访问的分布式存储服务)等对象存储服务来长期存储指标,这样一来,您可以持久地存储数据。
公开号为CN113268398A的中国发明专利文献公开了一种基于云原生数仓的业务监控方法及监控系统,涉及互联网技术领域,其中该方法包括:将各个业务领域产生的数据同步到云原生数仓中,基于预先设定的指标计算配置数据从云原生数仓中查询对应的数据并进行指标计算,生成指标数据;根据预设报警规则对所述指标数据进行运算,获取报警信息,并在所述报警信息达到预设的报警阈值时,通知报警接收人。
针对上述中的相关技术,发明人认为上述方法具有如下不适用之处:额外的存储依赖:无论是Thanos还是Cortex,其均依赖外部的存储服务,但这些服务在企业中大规模的私有化部署,其可用性亦会带来新的挑战。仍需改造的多租户:Thanos尚未提供多租户能力,而Cortex的多租户则是切分独立的Prometheus,也就是说每个用户需要自己一个独立的Prometheus,这尚未符合预期。跨防火墙区支持:无论是Thanos还是Cortex,其均是集中化存储的体系,而监控系统自身属于底层基础设施,具有很大的流量传输,采用中心化存储,即当多个防火墙区汇聚到一个防火墙区时,其跨机房和防火墙产生的巨大流量也不符合预期。多层级汇聚能力:虽然Thanos还是Cortex将数据集中化存储,能够快速的进行多层级汇聚的展示,但如上一点所属,其难以适应银行的情况。因此,如何基于分布式存储实现多层级汇聚的监控展现也是需要考虑的地方。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于Prometheus的企业级高可用监控系统及实现方法。
根据本发明提供的一种基于Prometheus的企业级高可用监控系统,包括如下模块:
监控展示模块:发出用户的监控数据查询请求;
分层监控模块:接收用户的监控数据查询请求,匹配已储存的被监控系统的监控数据。
优选的,该监控系统还包括权限管理模块和监控服务网关模块,所述权限管理模块负责维护用户和被监控系统的权限关系,并将该权限关系同步给监控服务网关模块;
所述监控服务网关模块接收从监控展示模块转发的用户的监控数据查询请求,并对该用户与被监控系统的权限关系进行校验,校验通过后将该用户的监控数据查询请求转发给分层监控模块。
优选的,该监控系统还包括监控配置模块,所述监控配置模块承担监控配置的集中管控能力,进行监控配置的集中化管理。
优选的,所述分层监控模块产生分层级防火墙适配特征;所述分层监控模块包括采集层模块、联邦层模块和全局层模块;且三者与银行多防火墙网络架构相适配;所述银行多防火墙网络架构包括城市中多机房和机房中多防火墙区;相同防火墙区域内网络直接互通,不同防火墙区内网络申请后进行访问。
优选的,所述分层监控模块产生层级监控数据分布特征;
所述采集层模块:分布在每个防火墙区域处,采集监控目标,存储监控指标数据;
所述联邦层模块:分布在每个机房防火墙区域处,访问各机房各防火墙区域中的各采集层模块节点,获取聚合、降准后的监控指标;
所述全局层模块:部署于机房中的防火墙区域处,访问各机房中的各联邦层模块节点,获取汇聚的监控指标。
优选的,所述监控服务网关模块产生监控数据查询请求路由转发特征;通过监控服务网关模块的出口访问采集层模块、联邦层模块和全局层模块的数据。
优选的,所述监控服务网关模块结合路由转发特征,产生统一监控数据查询地址的特征;所述监控服务网关模块在各个机房、各个防火墙区域部署节点;对外提供Prometheus查询PromQL接口,对接监控展示模块;对内通过路由在执行查询时动态将请求转发到采集层模块、联邦层模块和全局层模块的Prometheus节点。
优选的,所述监控服务网关模块结合权限管理模块,产生权限检验特征;通过监控服务网关模块进行多租户的管控,监控服务网关模块针对每个查询请求,判断查询请求的用户身份令牌和所访问被监控系统的权限关系,权限关系为允许进行查询;权限关系通过权限管理模块进行维护,并同步到监控服务网关模块中。
优选的,采集层模块、联邦层模块和全局层模块中的每个计算机节点,均具备多个Prometheus实例,每个实例使用独立的计算机运行,同时对相同的监控目标进行采集,在使用时通过监控服务网关模块进行动态切换。
根据本发明提供的一种基于Prometheus的企业级高可用监控实现方法,包括如下步骤:
步骤S1:发出用户的监控数据查询请求;
步骤S2:接收用户的监控数据查询请求,匹配已储存的被监控系统的监控数据。
与现有技术相比,本发明具有如下的有益效果:
1、本发明使得Prometheus得以应用企业级大规模场景中,成为企业全面云化底层基础设施的一环,全面助力信息系统“上云”;
2、本发明具体说明了此系统实现企业级大规模使用所需要的服务高可用、水平可扩展、全局视图、数据持久化、多租户管控特性的解决方案;
3、本发明与云原生计算基金会(CNCF英文全称为Cloud Native ComputingFoundation)相关的解决方案进行横向对比,可看出本发明的方案更适用于实际使用场景。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明整体架构图;
图2为本发明实现细节图;
图3为本发明服务高可用原理图。
附图标记:influxDB:开源分布式时序、事件和指标数据库;agent:代理模块;
PromQL:监控数据查询语言;Targets:监控目标。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
本发明实施例公开了一种基于Prometheus的企业级高可用监控系统,如图1所示,包括监控展示模块、权限管理模块、监控服务网关模块和分层监控模块。监控展示模块:发出用户的监控数据查询请求,得到响应后以图形化方式展示监控信息。具体而言,用户使用监控展示模块,发出监控查询请求。监控查询请求会发送到监控服务网关模块,监控服务网关模块会对该用户与被监控系统的权限关系进行校验。在检验之前,若监控服务网关模块尚未缓存权限关系,会先向权限管理模块进行权限关系数据的同步并缓存,同步完成后继续进行校验。权限校验完成后,只有合法的请求会被继续,非法的请求将被拦截中断。合法的请求将会转发至分层监控模块的目标节点,分层监控模块得到请求并匹配已储存监控数据,将监控数据响应至监控服务网关模块,监控服务网关模块再将该响应返回至监控展示模块,监控展示模块以图形化的方式进行展示。
权限管理模块:负责维护用户和被监控系统的权限关系,并将该权限关系同步给监控服务网关模块。权限管理模块负责维护用户和系统的权限关系,并将该权限信息同步给监控服务网关。
监控服务网关模块:接收从监控展示模块转发的用户的监控数据查询请求,并对该用户与被监控系统的权限关系进行校验,校验通过后将该用户的监控数据查询请求转发给分层监控模块。监控服务网关模块负责对监控查询请求进行路由转发以及权限校验。监控服务网关模块负责将监控查询请求转发给分层监控模块中的一个节点;并接收权限关系并进行权限校验,权限校验后,只有合法的请求会被继续,非法的请求将被拦截中断。监控服务网关模块结合权限管理模块,产生权限检验特征。通过监控服务网关模块进行多租户的管控,监控服务网关模块针对每个查询请求,判断查询请求的用户身份令牌和所访问被监控系统的权限关系,权限关系为允许方可进行查询;并且该权限关系通过权限管理模块进行维护,并同步到监控服务网关模块中。
分层监控模块:对被监控系统的监控数据进行抓取以及存储。接收用户的监控数据查询请求,通过匹配已储存的监控数据后进行返回。分层监控模块是基于Prometheus联邦的分层监控模块,负责对监控的抓取以及监控信息的存储。分层监控模块产生分层级防火墙适配特征。分层监控模块包括采集层模块、联邦层模块和全局层模块;且三者与银行多防火墙网络架构相适配;所述银行多防火墙网络架构包括城市中多机房和机房中多防火墙区;相同防火墙区域内网络直接互通,不同防火墙区内网络申请后进行访问。在所述分层监控模块中,分为采集层模块、联邦层模块和全局层模块;通过此分层设计,来适应银行多防火墙网络架构。此处所指的网络架构,为一城市多机房,一机房多防火墙区,相同防火墙区域内,网络无需申请直接互通,不同防火墙区内网络需申请方可访问。
分层监控模块各层级各节点,均具备两个Prometheus实例,每个实例使用独立的计算机运行,同时对相同的监控目标进行采集,在使用时通过监控服务网关模块进行动态主备切换,保障系统服务可靠性。
如图1所示,利用了Prometheus联邦的能力,将监控分为了三大层级,分别为采集层、联邦层、全局层,每个层级的功能及存储的监控数据并不相同。
分层监控模块产生层级监控数据分布特征。采集层模块:分布在每个防火墙区域处,采集监控目标,并将采集到的监控指标数据进行存储。采集层模块直接访问监控目标,因此当接收到查询请求时,可以响应原始的监控指标数据;该层级分布在每个防火墙区域下,直接访问监控目标,因此此层级是流量及负载较大的层级,但流量不涉及跨防火墙和机房。
联邦层模块:分布在每个机房高权限防火墙区域处,选择高权限防火墙区域部署联层模块,是因为高权限防火墙区域访问低权限防火墙区域更安全。联邦层模块访问各机房各防火墙区域中的各采集层模块节点,获取聚合、降准后的监控指标数据并存储。因此当接收到查询请求时,可以响应该机房中所有防火墙区域聚合、降准的监控指标数据;由于数据已聚合、降准,因此该层级的流量及负载居中,流量涉及跨一个机房下的多个防火墙区域。
全局层模块:部署于高权限机房中的高权限防火墙区域处,选择高权限机房中高权限防火墙区域部署全局层模块,可以使得该层级访问任意联邦层模块更为安全。全局层模块访问各机房中的各联邦层模块节点,获取精选的监控指标数据并存储。因此当接收到查询请求时,可以响所有机房中所有防火墙区域精选监控指标数据;由于监控数据已精选,因此该层级的流量及负载较低,流量涉及多个机房下的一个防火墙区域。
虽然本方案设计了多个层级,实现了跨多防火墙全局视图能力,各层级负责不同的监控数据,但是,对于用户使用而言,其通过监控服务网关,就可以以一个出口访问任意层级的数据。
监控服务网关模块产生监控数据查询请求路由转发特征。通过监控服务网关模块的出口访问采集层模块、联邦层模块和全局层模块的数据。监控服务网关模块结合路由转发特征,产生统一监控数据查询地址的特征;。监控服务网关模块在各个机房、各个防火墙区域部署节点;对外提供Prometheus查询PromQL接口,对接监控展示模块(监控展示组件);对内通过路由在执行查询时动态将请求转发到采集层模块、联邦层模块和全局层模块的Prometheus节点。分层监控模块产生了高可用特征。采集层模块、联邦层模块和全局层模块中的每个计算机节点,均具备多个Prometheus实例,每个实例使用独立的计算机运行,同时对相同的监控目标进行采集,在使用时通过监控服务网关模块进行动态切换,提高服务的可用性。
监控服务网关对于分布在多个层级的监控节点,本文实现企业级大规模使用的基础,是设计并开发了“监控服务网关”。首先,监控服务网关会在各个机房、各个防火墙区域部署一个节点,其对外提供标准的Prometheus查询PromQL接口,方便对接监控展示模块。其对内,通过路由的方式,在执行查询时动态将请求转发到各个层级的Prometheus节点,实现了“全局视角”,并且,该网关会在各防火墙区域部署,因此支持就近接入展现。Prometheus是CNCF基金会开源项目,依托自主开发的时序数据库、灵活的查询语言构建的监控系统。
对于多租户的管控,亦依靠此监控服务网关实现,如图1所示,基于Grafana开发的(Grafana是一个完全开源的度量分析与可视化平台)监控展示模块查询监控服务网关时,还需要提供鉴权所使用的用户身份信息令牌,此令牌表明的是当前用户的身份。通过基于Grafana开发的监控展示模块配置OAUTH(OAUTH是对第三方应用的授权机制,使其获取用户的数据,数据所有者收到第三方请求授权后,告诉系统通过第三方应用的请求,系统会自动生成Token)认证后,跳转至银行统一身份认证得到此令牌,具体实现暂不在本文中展开。在监控目标采集的时候,会给每个监控目标打上系统编号的标签,因此,每个监控指标数据都有了“归属”,因此,监控服务网关针对每个查询请求,都会判断此用户身份以及该系统的权限关系,只有权限关系为允许才可进行查询。(用户和系统的角色权限关系在名为技术中台运营服务系统的管理端中维护,通过同步等方式将关系信息传递给监控服务网关)。
监控配置模块承担监控配置的集中管控能力,进行监控配置的集中化管理。监控配置模块产生了统一配置管理特征。在各节点每个实例的Prometheus,均配备配置管理Agent(在本系统中Agent指的是监控配置代理模块),此Agent与监控配置模块相连,进行各节点每个实例的Prometheus配置的集中化管理,使得各节点各实例的Prometheus配置得以集中化管理。监控配置模块结合统一配置管理特征,产生了页面化配置管理特征。由于各节点各实例的Prometheus配置进行集中化管理,对监控目标的管理,均在监控配置模块提供的操作页面中进行。由于各节点各实例的Prometheus配置得以集中化管理,因此对监控目标的增加、修改等管理,均可在监控配置模块提供的操作页面中进行,从而适应银行多防火墙网络架构。
单节点内细节:单节点内细节可如图2所示,此部分将重点讲述服务高可用、水平可扩展、数据持久化的解决。
水平可扩展:水平可扩展,指的是多层级监控中的各层级各节点可以根据当前的负载情况,便捷的扩展节点,来降低当前节点的负载,提高监控规模。本文通过设计Prometheus的配置管理Agent,下文简称Agent来实现此能力。该Agent将内嵌配置中心的SDK(SDK是软件开发工具包,本系统使用了配置中心服务提供给客户端开发用的工具包),此Agent与监控配置模块对接,实现对Prometheus监控配置文件的远程集中化管控。因此,所有各层级的各Prometheus节点需要采集的目标、配置的告警规则等等,均通过监控配置模块来实现管理。每个节点可认为是“无状态”的,监控配置模块会维护每个采集层中采集点的关系,当新增节点的时候,会根据一定的规则(如哈希),重新分配每个Prometheus的采集任务。而监控服务网关,则利用相同的规则,重新更新路由表。
服务高可用:服务高可用,指的是不会因为某个计算机的宕机,而造成服务中断。本文所设计的方案,每个监控层级每个监控节点均配备两个及以上的Prometheus实例,其具备相同的抓取配置、告警配置等。这也意味着,每个监控目标,会被两个及以上的Prometheus实例抓取。但是,当两个Prometheus实例同时进行拉取的时候,会存在以下两个问题:(1)两个Prometheus节点的Metrics(监控指标)是重复的。(2)两个数据源的同样Metrics会有细微差异(两次抓取)。因此,本文同样使用了监控服务网关解决此问题,如图3所示,即监控服务网关只会路由到每个节点的一个Prometheus实例,另一个实例属于备份,当检测到主节点故障时,则会路由到备节点,且监控服务网关也会做高可用多活的部署。值得一提的是,本文的多层级联邦中,每个联邦节点中的主或备实例只会联邦抓取其子层级节点的对应主或备实例,也就是说,主和备也可以看成是两套独立运行的监控系统。
数据持久化:数据持久化,则指的是当任一层级任一节点发生调度的时候(如发生水平扩展收缩),存储的数据不会丢失。如图2所示,每个层级会配备远程存储influxDB(influxDB是开源分布式时序、事件和指标数据库),远程存储程序使用独立的计算机运行,其通过Prometheus的远程读写进行对接。因此,即使某个节点发生调度,其数据也会得到保留。由于Prometheus的远程读写配置后,本地读写依然存在,因此配备的远程存储influxDB一般只在发生调度时发挥作用,使用频率较低,因此可采取在各层级中使用一台计算机部署运行。
对比:如表1所示,此处给出了本文的方案与云原生计算基金会(CNCF)中的Thanos及Cortex各特性的横向对比。
表1本文方案、Thanos和Cortex各特性的横向对比表
特性\方案 本文方案 Thanos Cortex
服务高可用 支持 支持 支持
水平可扩展 支持 支持 支持
全局视图 支持 支持 支持
数据持久化 支持 支持 支持
多租户管控 支持 不支持 支持
跨多防火墙区 支持 不支持 不支持
可以看到,本文所提出的方案,更适用于实际使用场景。本文使得Prometheus得以应用企业级大规模场景中,成为企业全面云化底层基础设施的一环,全面助力银行信息系统“上云”。本文具体说明了此系统实现企业级大规模使用所需要的服务高可用、水平可扩展、全局视图、数据持久化、多租户管控特性的解决方案。本文与云原生计算基金会(CNCF)相关的解决方案进行横向对比,可看到本文的方案更适用于银行的实际使用场景。
本文通过网关路由实现基于Prometheus的企业级高可用监控系统。本发明使得Prometheus得以应用企业级大规模场景中,成为企业全面云化底层基础设施的一环,全面助力信息系统“上云”。并且,本发明的系统具备服务高可用、水平可扩展、全局视图、数据持久化、多租户管控的特性,能够提供企业级大规模监控能力。再者,本发明与云原生计算基金会相关的解决方案进行横向对比,可看出本发明的方案更适用于银行多防火墙网络架构的实际使用场景。
根据本发明提供的一种基于Prometheus的企业级高可用监控实现方法,包括如下步骤:步骤S1:发出用户的监控数据查询请求;步骤S2:接收用户的监控数据查询请求,匹配已储存的被监控系统的监控数据。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于Prometheus的企业级高可用监控系统,其特征在于,包括如下模块:
监控展示模块:发出用户的监控数据查询请求;
分层监控模块:接收用户的监控数据查询请求,匹配已储存的被监控系统的监控数据。
2.根据权利要求1所述的基于Prometheus的企业级高可用监控系统,其特征在于,该监控系统还包括权限管理模块和监控服务网关模块,所述权限管理模块负责维护用户和被监控系统的权限关系,并将该权限关系同步给监控服务网关模块;
所述监控服务网关模块接收从监控展示模块转发的用户的监控数据查询请求,并对该用户与被监控系统的权限关系进行校验,校验通过后将该用户的监控数据查询请求转发给分层监控模块。
3.根据权利要求1所述的基于Prometheus的企业级高可用监控系统,其特征在于,该监控系统还包括监控配置模块,所述监控配置模块承担监控配置的集中管控能力,进行监控配置的集中化管理。
4.根据权利要求1所述的基于Prometheus的企业级高可用监控系统,其特征在于,所述分层监控模块产生分层级防火墙适配特征;所述分层监控模块包括采集层模块、联邦层模块和全局层模块;且三者与银行多防火墙网络架构相适配;所述银行多防火墙网络架构包括城市中多机房和机房中多防火墙区;相同防火墙区域内网络直接互通,不同防火墙区内网络申请后进行访问。
5.根据权利要求4所述的基于Prometheus的企业级高可用监控系统,其特征在于,所述分层监控模块产生层级监控数据分布特征;
所述采集层模块:分布在每个防火墙区域处,采集监控目标,存储监控指标数据;
所述联邦层模块:分布在每个机房防火墙区域处,访问各机房各防火墙区域中的各采集层模块节点,获取聚合、降准后的监控指标;
所述全局层模块:部署于机房中的防火墙区域处,访问各机房中的各联邦层模块节点,获取汇聚的监控指标。
6.根据权利要求4所述的基于Prometheus的企业级高可用监控系统,其特征在于,所述监控服务网关模块产生监控数据查询请求路由转发特征;通过监控服务网关模块的出口访问采集层模块、联邦层模块和全局层模块的数据。
7.根据权利要求1所述的基于Prometheus的企业级高可用监控系统,其特征在于,所述监控服务网关模块结合路由转发特征,产生统一监控数据查询地址的特征;所述监控服务网关模块在各个机房、各个防火墙区域部署节点;对外提供Prometheus查询PromQL接口,对接监控展示模块;对内通过路由在执行查询时动态将请求转发到采集层模块、联邦层模块和全局层模块的Prometheus节点。
8.根据权利要求1所述的基于Prometheus的企业级高可用监控系统,其特征在于,所述监控服务网关模块结合权限管理模块,产生权限检验特征;通过监控服务网关模块进行多租户的管控,监控服务网关模块针对每个查询请求,判断查询请求的用户身份令牌和所访问被监控系统的权限关系,权限关系为允许进行查询;权限关系通过权限管理模块进行维护,并同步到监控服务网关模块中。
9.根据权利要求1所述的基于Prometheus的企业级高可用监控系统,其特征在于,在所述分层监控模块中,采集层模块、联邦层模块和全局层模块中的每个计算机节点,均具备多个Prometheus实例,每个实例使用独立的计算机运行,同时对相同的监控目标进行采集,在使用时通过监控服务网关模块进行动态切换。
10.一种基于Prometheus的企业级高可用监控实现方法,其特征在于,应用权利要求1-9任一所述的基于Prometheus的企业级高可用监控系统,包括如下步骤:
步骤S1:发出用户的监控数据查询请求;
步骤S2:接收用户的监控数据查询请求,匹配已储存的被监控系统的监控数据。
CN202111503211.3A 2021-12-09 2021-12-09 基于Prometheus的企业级高可用监控系统及实现方法 Pending CN114201362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111503211.3A CN114201362A (zh) 2021-12-09 2021-12-09 基于Prometheus的企业级高可用监控系统及实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111503211.3A CN114201362A (zh) 2021-12-09 2021-12-09 基于Prometheus的企业级高可用监控系统及实现方法

Publications (1)

Publication Number Publication Date
CN114201362A true CN114201362A (zh) 2022-03-18

Family

ID=80651825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111503211.3A Pending CN114201362A (zh) 2021-12-09 2021-12-09 基于Prometheus的企业级高可用监控系统及实现方法

Country Status (1)

Country Link
CN (1) CN114201362A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904879A (zh) * 2023-01-06 2023-04-04 天津卓朗昆仑云软件技术有限公司 用于Prometheus集群的实例分配系统、方法及设备
CN116594847A (zh) * 2023-07-18 2023-08-15 太平金融科技服务(上海)有限公司 服务器巡检方法、系统、装置、服务器、介质和程序产品
CN117692164A (zh) * 2023-10-31 2024-03-12 广西壮族自治区信息中心 一种基于自研系统与Grafana的账号互通方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904879A (zh) * 2023-01-06 2023-04-04 天津卓朗昆仑云软件技术有限公司 用于Prometheus集群的实例分配系统、方法及设备
CN115904879B (zh) * 2023-01-06 2023-06-06 天津卓朗昆仑云软件技术有限公司 用于Prometheus集群的实例分配系统、方法及设备
CN116594847A (zh) * 2023-07-18 2023-08-15 太平金融科技服务(上海)有限公司 服务器巡检方法、系统、装置、服务器、介质和程序产品
CN117692164A (zh) * 2023-10-31 2024-03-12 广西壮族自治区信息中心 一种基于自研系统与Grafana的账号互通方法

Similar Documents

Publication Publication Date Title
US11445019B2 (en) Methods, systems, and media for providing distributed database access during a network split
US9563673B2 (en) Query method for a distributed database system and query apparatus
CN114201362A (zh) 基于Prometheus的企业级高可用监控系统及实现方法
US8676951B2 (en) Traffic reduction method for distributed key-value store
US9304815B1 (en) Dynamic replica failure detection and healing
US10922303B1 (en) Early detection of corrupt data partition exports
Suh et al. Toward highly available and scalable software defined networks for service providers
JP2017118575A (ja) データネットワークにおける負荷分散
US20120278344A1 (en) Proximity grids for an in-memory data grid
US11038959B2 (en) State management and object storage in a distributed cloud computing network
US10956501B2 (en) Network-wide, location-independent object identifiers for high-performance distributed graph databases
US9716768B2 (en) Cache system and method for providing caching service
US20190325155A1 (en) Decentralized data protection system for multi-cloud computing environment
George et al. Hadoop MapReduce for mobile clouds
CN111158949A (zh) 容灾架构的配置方法、切换方法及装置、设备和存储介质
WO2016101759A1 (zh) 一种数据路由方法、数据管理装置和分布式存储系统
Lima et al. A geographical-aware state deployment service for Fog Computing
US11093477B1 (en) Multiple source database system consolidation
KR20130038517A (ko) 분산된 컨테이너들을 사용하여 데이터를 관리하는 시스템 및 방법
Lei et al. MCloudDB: A mobile cloud database service framework
US11290318B2 (en) Disaster recovery of cloud resources
Dongsheng et al. Distributed cache memory data migration strategy based on cloud computing
Dongo et al. Distributed file system for ndn: an iot application
US11240309B1 (en) State management and storage with policy enforcement in a distributed cloud computing network
CN111490886B (zh) 一种网络数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination