CN114039836A - Exporter采集器的故障处理方法及装置 - Google Patents

Exporter采集器的故障处理方法及装置 Download PDF

Info

Publication number
CN114039836A
CN114039836A CN202111307333.5A CN202111307333A CN114039836A CN 114039836 A CN114039836 A CN 114039836A CN 202111307333 A CN202111307333 A CN 202111307333A CN 114039836 A CN114039836 A CN 114039836A
Authority
CN
China
Prior art keywords
exporter
collector
collectors
component
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111307333.5A
Other languages
English (en)
Inventor
贾雷
韩世尚
张华超
杨亚男
赵阳
陈华媛
李璠
史晨阳
丁永建
黄时光
向小佳
彭晓
吴海洋
王志刚
周明媛
赵振海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Technology Co ltd
China Everbright Bank Co Ltd
Original Assignee
Everbright Technology Co ltd
China Everbright Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Technology Co ltd, China Everbright Bank Co Ltd filed Critical Everbright Technology Co ltd
Priority to CN202111307333.5A priority Critical patent/CN114039836A/zh
Publication of CN114039836A publication Critical patent/CN114039836A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种exporter采集器的故障处理方法及装置。该方法包括:定时检测组件定时获取多个exporter采集器的健康状态,并根据健康状态确定是否有exporter采集器发生故障,在有exporter采集器发生故障的情况下,通知管理组件;所述管理组件将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,并更新服务发现组件上的采集任务信息;所述服务发现组件为prometheus监控系统提供更新后的所述采集任务信息。通过本发明,解决了相关技术中exporter采集器单节点发生故障时,影响Prometheus监控系统获取监控数据的问题,达到exporter高可用性的效果。

Description

Exporter采集器的故障处理方法及装置
技术领域
本发明实施例涉及计算机领域,具体而言,涉及一种exporter采集器的故障处理方法及装置。
背景技术
Prometheus已被监控行业广泛使用,但是很多监控对象无法直接提供监控接口,所以在Prometheus和监控对象之间产生了exporter的对外提供数据的组件。目前,Prometheus的高可用选型方案包括以下三类:
(1)基本高可用(High Availablity,HA)架构:服务可用性
图1是基本HA结构示意图,由于Promthues的Pull机制的设计,为了确保Promthues服务可用性,用户只需要部署多套Prometheus Server实力,并且采集相同的Exporter目标。
(2)基本HA+远程存储
图2是基本HA+远程存储的结构示意图,如图2所示,在基本HA模式的基础上通过添加Remote Storage存储支持,将监控数据保存在第三方存储服务上,确保了数据的持久化,当Promthues Server发生宕机或者数据丢失的情况下,可以快速的恢复。
(3)基本HA+远程存储+联邦集群
图3是基本HA+远程存储+联邦集群的结构示意图,当单台Promthues Server无法处理大量的采集任务时,如图3所示,用户可以考虑基于Prometheus联邦集群的方式将监控采集任务划分到不同的Promtheus实例当中即在任务级别功能分区。
上面三种高可用方案都是针对于Promthues Server进行高可用的设计方案,均未提及关于exporter的高可用设计方案,当exporter单节点发生故障不可用时,就会影响Prometheus获取监控数据。在相关技术中的exporter的实现方案中也没有一款exporter去实现关于exporter的高可用方案。
发明内容
本发明实施例提供了一种exporter采集器的故障处理方法及装置,以至少解决相关技术中exporter采集器单节点发生故障影响Prometheus获取监控数据的问题。
根据本发明的一个实施例,提供了一种exporter采集器的故障处理方法,包括:定时检测组件定时获取多个exporter采集器的健康状态,并根据健康状态确定是否有exporter采集器发生故障,在有exporter采集器发生故障的情况下,通知管理组件;所述管理组件将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,并更新服务发现组件上的采集任务信息;所述服务发现组件为prometheus监控系统提供更新后的所述采集任务信息。
在一个示例性实施例中,定时获取多个exporter采集器的健康状态之前,还包括:所述管理组件为每个exporter采集器配置采集任务。
在一个示例性实施例中,所述管理组件采用负载均衡方式为所述每个exporter采集器配置采集任务。
在一个示例性实施例中,根据健康状态确定是否有exporter采集器发生故障,包括:定时检测组件将获取的每个exporter采集器的健康状态与预设值进行匹配;向健康状态不符合预设值的exporter采集器发起N次健康状态监控采集请求,其中,N为正整数;当N次监控采集结果均为异常值或请求超时,则确定所述exporter采集器为故障exporter采集器。
在一个示例性实施中,还包括:在剩余未发生故障的exporter采集器的数量小于2时,发出告警信息。
在一个示例性实例中,还包括:在发生故障的exporter采集器恢复正常后,重新分配每个exporter采集器的采集任务。
在一个示例性实施例中,所述服务发现组件为prometheus监控系统提供更新后的所述采集任务信息之后,还包括:Prometheus监控系统加载更新的采集任务信息,并根据更新的采集任务信息,拉取对应的exporter采集器的采集数据。
根据本发明的另一个实施例,提供了一种exporter采集器的故障处理装置,包括:定时检测组件,用于定时获取多个exporter采集器的健康状态,并根据健康状态确定是否有exporter采集器发生故障,在有exporter采集器发生故障的情况下,通知管理组件;管理组件,用于将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,并更新服务发现组件上的采集任务信息;服务发现组件,用于为prometheus监控系统提供更新后的所述采集任务信息。
在一个示例性实施例中,还包括:告警模块,用于在剩余未发生故障的exporter采集器的数量小于2时,发出告警信息。
在一个示例性实施例中,所述定时检测组件,还用于定时监控采集每个exporter的健康状态,将健康状态不符合预设值的exporter通知给管理组件。
在一个示例性实施例中,还包括:分配模块,用于在发生故障的exporter采集器恢复正常后,重新分配每个exporter采集器的采集任务。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于管理组件会在出现故障exporter采集器时,将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,因此,可以解决相关技术中exporter采集器单节点发生故障时,影响Prometheus监控系统获取监控数据的问题,达到exporter高可用性的效果。
附图说明
图1是相关技术中基本HA的架构图;
图2是相关技术中基本HA+远程存储的架构图;
图3是相关技术中基本HA+远程存储+联邦集群的架构图;
图4是根据本发明实施例的运行exporter采集器的故障处理方法的计算机终端的硬件结构框图;
图5是根据本发明实施例的exporter采集器的故障处理方法的流程图;
图6是根据本发明实施例的exporter采集器的故障处理装置的结构框图;
图7是根据本发明另一实施例的exporter采集器的故障处理装置的结构框图;
图8是根据本发明再一实施例的exporter采集器的故障处理装置的结构框图;
图9是根据本发明实施例的运行exporter采集器的故障处理方法及装置的网络架构图;
图10是根据本发明实施例的exporter采集器管理方法流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图4是本发明实施例的运行exporter采集器的故障处理方法的计算机终端的硬件结构框图。如图4所示,计算机终端可以包括一个或多个(图4中仅示出一个)处理器402(处理器402可以包括但不限于微处理器(CentralProcessing Unit,MCU)或可编程逻辑器件(Field Programmable Gate Array,FPGA)等的处理装置)和用于存储数据的存储器404,其中,上述计算机终端还可以包括用于通信功能的传输设备406以及输入输出设备408。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
存储器404可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的exporter采集器的故障处理方法对应的计算机程序,处理器402通过运行存储在存储器404内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器404可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器404可进一步包括相对于处理器402远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置406包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
现有技术关注于解决Promthues高可用,通过HA+远程存储+联邦集群等组合方式解决Promthues Server的高可用,但忽视了exporter的高可用。
在本发明实施例中,在解决Promthues高可用的前提下,还能解决exporter的单节点故障问题。本实施例针对exporter单节点故障问题,实现了如下目标:针对exporter源码进行改造,通过外部组件的方式,实现数据持久化,在exporter出现单点故障时,其他节点可以通过负载均衡的方式,路由到可用节点;采用专用多服务器节点部署exporter,不在目标服务器部署exporter,实现在大规模目标服务器集群场景下,无需每台服务器都去部署exporter的策略,降低高成本部署。
图5是根据本发明实施例的exporter采集器的故障处理方法的流程图,如图5所示,该流程包括如下步骤:
步骤S502,定时检测组件定时获取多个exporter采集器的健康状态,并根据健康状态确定是否有exporter采集器发生故障,在有exporter采集器发生故障的情况下,通知管理组件;
步骤S504,所述管理组件将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,并更新服务发现组件上的采集任务信息;
步骤S506,所述服务发现组件为prometheus监控系统提供更新后的所述采集任务信息。
在本实施例的步骤S502之前,还可以包括:所述管理组件为每个exporter采集器配置采集任务。
在本实施例中,还可以包括:所述管理组件采用负载均衡方式为所述每个exporter采集器配置采集任务。
在本实施例的步骤S502中,还可以包括:定时检测组件将获取的每个exporter采集器的健康状态与预设值进行匹配;向健康状态不符合预设值的exporter采集器发起N次健康状态监控采集请求,其中,N为正整数;当N次监控采集结果均为异常值或请求超时,则确定所述exporter采集器为故障exporter采集器。
在本实施例中,还可以包括:在剩余未发生故障的exporter采集器的数量小于2时,发出告警信息。
在本实施例中,还可以包括:在发生故障的exporter采集器恢复正常后,重新分配每个exporter采集器的采集任务。
在本实施例步骤S506之后,还可以包括:Prometheus监控系统加载更新的采集任务信息,并根据更新的采集任务信息,拉取对应的exporter采集器的采集数据。
通过上述步骤,定时检测组件会定时获取exporter采集器的健康状态,在发现有exporter采集器发生故障后,及时通知给管理组件,从而,管理组件能够第一时间将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,避免影响Prometheus监控系统获取监控数据。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器(Read-Only Memory/Random Access Memory,ROM/RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种exporter采集器的故障处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是根据本发明实施例的exporter采集器的故障处理装置的结构框图,如图6所示,该装置包括定时检测组件10、管理组件20和服务发现组件30;
定时检测组件10,用于定时获取多个exporter采集器的健康状态,并根据健康状态确定是否有exporter采集器发生故障,在有exporter采集器发生故障的情况下,通知管理组件;
管理组件20,用于将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,并更新服务发现组件上的采集任务信息;
服务发现组件30,用于为prometheus监控系统提供更新后的所述采集任务信息。
图7是根据本发明另一实施例的exporter采集器的故障处理装置的结构框图,如图7所示,该装置除包括图6所示的所有模块外,还包括告警模块40。
告警模块40,用于在剩余未发生故障的exporter采集器的数量小于2时,发出告警信息。
图8是根据本发明再一实施例的exporter采集器的故障处理装置的结构框图,如图8所示,该装置除包括图7所示的所有模块外,还包括分配模块50。
分配模块50,用于在发生故障的exporter采集器恢复正常后,重新分配每个exporter采集器的采集任务。
在本实施例中,所述定时检测组件10,还用于定时监控采集每个exporter的健康状态,将健康状态不符合预设值的exporter通知给管理组件。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细描述。
在本实施例中,exporter采集器的故障处理方法及装置可以运行于图9所示的网络架构上,如图9所示,该网络架构包括:exporter管理组件、服务发现组件、定时检测组件。
其中,exporter管理组件的作用是:通过exporter管理组件初始化配置exporter采集器的监控采集任务信息,配置数据使用数据库进行持久化存储;配置完成后,exporter管理组件会更新服务发现组件;当定时检测组件发现exporter有异常时,exporter管理组件会根据规则变更采集任务信息;
服务发现组件:为http服务,用于提供yaml格式的数据,为prometheus提供采集任务信息;Prometheus根据配置定时请求服务发现组件,加载新的采集任务信息,Prometheus根据新的任务信息,拉取exporter的采集数据;
定时检测组件:定时请求exporter的健康状态服务,只要健康状态为预设的值(如:ok),则不会进行处理;当发现健康状态异常时,通知exporter管理组件进行处理。
在使用Prometheus应用与监控等业务场景,传统技术方案都只是针对Prometheus做了高可用架构设计方案,虽然保证Prometheus的高可用,但是配套方案中必须使用exporter来进行数据采集任务的支撑,目前已知方案中都没有针对exporter来做高可用方案设计,在本实施例中,要针对Prometheus的高可用方案的基础上,设计兼容exporter的高可用方案,以保证服务的高可用与稳定性,同时可减少exporter的部署成本。
图10是根据本发明实施例的exporter采集器管理方法流程图,如图10所示,所述方法包括如下步骤:
步骤S1001,分配采集任务。
具体地,设置监控目标的采集任务分配方式,即确定每个exporter采集器具体的监控目标。
步骤S1002,prometheus服务发现。
具体地,通过http请求的方式为Prometheus配置服务发现机制。
步骤S1003,定时监控exporter健康状态。
具体地,定时采集并获取exporter采集器的健康状态,其中,所述采集和获取exporter采集健康状态的周期可以相同。
步骤S1004,exporter故障或者故障恢复。
具体地,当exporter状态异常无法拉取采集信息时,初步判断是否发生故障,并对exporter进行标记;
当exporter恢复正常后,重新分配每个exporter上的监控对象。
步骤S1005,转移采集任务。
具体地,通过prometheus服务发现方式,将故障exporter上的监控目标转移到其他exporter上。
在本实施例中,当发现exporter采集器异常时,需要再次尝试请求三次,如果三次都超时或者返回异常值,则确定所述exporter采集器为故障exporter采集器;
在本实施例中,关于exporter采集器的总数应大于等于两个,并且当未发生故障的exporter采集器少于两个时,系统将进行告警,因为只有一个节点会存在单点风险;
在本实施例中,采集监控的对象分配原则默认是平均分配,即:5个exporter总共监控20个服务,则每个exporter监控4个服务,同时也提供手动修改的方式,让用户根据实际情况进行调整。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种exporter采集器的故障处理方法,其特征在于,包括:
定时检测组件定时获取多个exporter采集器的健康状态,并根据健康状态确定是否有exporter采集器发生故障,在有exporter采集器发生故障的情况下,通知管理组件;
所述管理组件将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,并更新服务发现组件上的采集任务信息;
所述服务发现组件为prometheus监控系统提供更新后的所述采集任务信息。
2.根据权利要求1所述的方法,其特征在于,定时获取多个exporter采集器的健康状态之前,还包括:
所述管理组件为每个exporter采集器配置采集任务。
3.根据权利要求2所述的方法,其特征在于,所述管理组件采用负载均衡方式为所述每个exporter采集器配置采集任务。
4.根据权利要求1所述的方法,其特征在于,根据健康状态确定是否有exporter采集器发生故障,包括:
定时检测组件将获取的每个exporter采集器的健康状态与预设值进行匹配;
向健康状态不符合预设值的exporter采集器发起N次健康状态监控采集请求,其中,N为正整数;
当N次监控采集结果均为异常值或请求超时,则确定所述exporter采集器为故障exporter采集器。
5.根据权利要求1所述的方法,其特征在于,还包括:
在剩余未发生故障的exporter采集器的数量小于2时,发出告警信息。
6.根据权利要求1所述的方法,其特征在于,还包括:
在发生故障的exporter采集器恢复正常后,重新分配每个exporter采集器的采集任务。
7.根据权利要求1所述的方法,其特征在于,所述服务发现组件为prometheus监控系统提供更新后的所述采集任务信息之后,还包括:
所述prometheus监控系统加载更新的采集任务信息,并根据更新的采集任务信息,拉取对应的exporter采集器的采集数据。
8.一种exporter采集器的故障处理装置,其特征在于,包括:
定时检测组件,用于定时获取多个exporter采集器的健康状态,并根据健康状态确定是否有exporter采集器发生故障,在有exporter采集器发生故障的情况下,通知管理组件;
所述管理组件,用于将发生故障的exporter采集器的采集任务转移至其他未发生故障的exporter采集器上,并更新服务发现组件上的采集任务信息;
所述服务发现组件,用于为prometheus监控系统提供更新后的所述采集任务信息。
9.根据权利要求8所述的装置,其特征在于,还包括:
告警模块,用于在剩余未发生故障的exporter采集器的数量小于2时,发出告警信息。
10.根据权利要求8所述的装置,其特征在于,所述定时检测组件,还用于定时监控采集每个exporter的健康状态,将健康状态不符合预设值的exporter通知给管理组件。
11.根据权利要求8所述的装置,其特征在于,还包括:
分配模块,用于在发生故障的exporter采集器恢复正常后,重新分配每个exporter采集器的采集任务。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
CN202111307333.5A 2021-11-05 2021-11-05 Exporter采集器的故障处理方法及装置 Pending CN114039836A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111307333.5A CN114039836A (zh) 2021-11-05 2021-11-05 Exporter采集器的故障处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111307333.5A CN114039836A (zh) 2021-11-05 2021-11-05 Exporter采集器的故障处理方法及装置

Publications (1)

Publication Number Publication Date
CN114039836A true CN114039836A (zh) 2022-02-11

Family

ID=80143024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111307333.5A Pending CN114039836A (zh) 2021-11-05 2021-11-05 Exporter采集器的故障处理方法及装置

Country Status (1)

Country Link
CN (1) CN114039836A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904879A (zh) * 2023-01-06 2023-04-04 天津卓朗昆仑云软件技术有限公司 用于Prometheus集群的实例分配系统、方法及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066895A1 (en) * 2009-09-15 2011-03-17 International Business Machines Corporation Server network diagnostic system
CN103678095A (zh) * 2012-09-03 2014-03-26 鼎桥通信技术有限公司 一种告警检测方法
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
CN111181774A (zh) * 2019-12-13 2020-05-19 苏州浪潮智能科技有限公司 一种MapReduce任务的高可用方法、系统、终端及存储介质
CN111459770A (zh) * 2020-04-01 2020-07-28 深圳市伊欧乐科技有限公司 服务器运行状态的告警方法、装置、服务器及存储介质
CN112000504A (zh) * 2020-08-19 2020-11-27 浪潮云信息技术股份公司 计算节点的故障处理方法及装置、电子设备
CN112994935A (zh) * 2021-02-04 2021-06-18 烽火通信科技股份有限公司 prometheus管控方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110066895A1 (en) * 2009-09-15 2011-03-17 International Business Machines Corporation Server network diagnostic system
CN103678095A (zh) * 2012-09-03 2014-03-26 鼎桥通信技术有限公司 一种告警检测方法
CN105515812A (zh) * 2014-10-15 2016-04-20 中兴通讯股份有限公司 资源的故障处理方法及装置
CN111181774A (zh) * 2019-12-13 2020-05-19 苏州浪潮智能科技有限公司 一种MapReduce任务的高可用方法、系统、终端及存储介质
CN111459770A (zh) * 2020-04-01 2020-07-28 深圳市伊欧乐科技有限公司 服务器运行状态的告警方法、装置、服务器及存储介质
CN112000504A (zh) * 2020-08-19 2020-11-27 浪潮云信息技术股份公司 计算节点的故障处理方法及装置、电子设备
CN112994935A (zh) * 2021-02-04 2021-06-18 烽火通信科技股份有限公司 prometheus管控方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANGSHK_: "Yarn的架构和概念--通过Yarn调度job的完整执行流程", pages 83 - 86, Retrieved from the Internet <URL:https://blog.csdn.net/zhangshk_/article/details/78885360> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115904879A (zh) * 2023-01-06 2023-04-04 天津卓朗昆仑云软件技术有限公司 用于Prometheus集群的实例分配系统、方法及设备

Similar Documents

Publication Publication Date Title
CN111880936B (zh) 资源调度方法、装置、容器集群、计算机设备和存储介质
CN104199666B (zh) 一种应用程序动态配置方法及装置
CN110308983B (zh) 资源负载均衡方法及系统、服务节点和客户端
US9063787B2 (en) System and method for using cluster level quorum to prevent split brain scenario in a data grid cluster
CN112506444A (zh) 基于Kubernetes集群的扩缩容控制方法和装置、电子设备
CN105357296A (zh) 一种Docker云平台下弹性缓存系统
CN103383689A (zh) 一种服务进程故障检测方法、装置及服务节点
CN113067850B (zh) 一种多云场景下的集群编排系统
WO2022068392A1 (zh) 数据库集群扩缩容方法、服务系统、存储介质
CN102411607B (zh) 分布式数据存储系统中数据复制的方法以及相应设备
CN112468310A (zh) 流媒体集群节点管理方法、装置及存储介质
CN115499447A (zh) 一种集群主节点确认方法、装置、电子设备及存储介质
CN114039836A (zh) Exporter采集器的故障处理方法及装置
CN103457748A (zh) 数据传输方法、系统和设备
CN114565502A (zh) Gpu资源管理方法、调度方法、装置、电子设备及存储介质
CN114338670A (zh) 一种边缘云平台和具有其的网联交通三级云控平台
CN112417050A (zh) 数据同步方法和装置、系统、存储介质及电子装置
CN112564968B (zh) 故障处理方法、装置及存储介质
CN115981781A (zh) 基于多模态网络的容器迁移方法、装置和计算机设备
CN110209475B (zh) 数据采集方法及装置
CN114356625A (zh) 分布式系统冗余诊断方法、装置、电子装置和存储介质
CN109587189B (zh) 节点管理方法及装置
CN117851107B (zh) 可动态扩容的分布式自动测试向量生成方法、装置及系统
CN116055496B (zh) 一种监控数据采集方法、装置、电子设备及存储介质
CN117573501B (zh) 指标采集方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination