CN111064781A - 多容器集群监控数据的采集方法、装置及电子设备 - Google Patents

多容器集群监控数据的采集方法、装置及电子设备 Download PDF

Info

Publication number
CN111064781A
CN111064781A CN201911260290.2A CN201911260290A CN111064781A CN 111064781 A CN111064781 A CN 111064781A CN 201911260290 A CN201911260290 A CN 201911260290A CN 111064781 A CN111064781 A CN 111064781A
Authority
CN
China
Prior art keywords
gateway
monitoring data
target
data
container
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911260290.2A
Other languages
English (en)
Inventor
王向前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN201911260290.2A priority Critical patent/CN111064781A/zh
Publication of CN111064781A publication Critical patent/CN111064781A/zh
Priority to PCT/CN2020/135025 priority patent/WO2021115350A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1023Server selection for load balancing based on a hash applied to IP addresses or costs

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及多容器集群监控数据的采集方法、装置及电子设备。该方法包括:获取目标容器集群中至少一个监控模块发送的监控数据;根据预设规则从多个网关中选取目标网关;向所述目标网关发送所述监控数据。该方法使得每个网关的处理压力大幅降低,网关的处理能力和资源需求也不再成为数据采集系统整体性能的瓶颈。

Description

多容器集群监控数据的采集方法、装置及电子设备
技术领域
本发明涉及数据采集技术领域,更具体地,涉及一种多容器集群监控数据的采集方法、一种多容器集群监控数据的采集装置以及一种电子设备。
背景技术
Kubernetes,简称K8S,可用于管理云平台中多个主机上的容器化的应用。通过部署容器方式实现应用部署,每个容器之间互相隔离,每个容器有自己的文件系统,容器之间进程不会相互影响,能区分计算资源。相对于虚拟机,容器能快速部署,由于容器与底层设施、机器文件系统解耦的,所以它能在不同云、不同版本操作系统间进行迁移。
监控是k8s集群运维管理中非常重要的工作,及时并全面的收集集群内部的运行数据,是观察集群运行状态、了解集群运行趋势、并根据一定规则进行告警通知的基础。但是,对于容器数量较多的集群,现有的监控方式容易出现网关压力过大、监控数据丢失的问题。
因此,有必要提出一种新的多容器集群监控数据的采集方法。
发明内容
本发明的一个目的是提供一种新的多容器集群监控数据的采集方案。
根据本发明的第一方面,提供了一种容器集群监控数据的采集方法,包括:
获取目标容器集群中至少一个监控模块发送的监控数据;其中,所述目标容器集群包括多个节点node,每个所述节点node上运行有至少一个容器组pod,每个所述容器组pod包括至少一个容器Container,所述监控模块用于对所述节点node和/或所述容器Container进行采集得到所述监控数据;
根据预设规则从多个网关中选取目标网关;
向所述目标网关发送所述监控数据。
可选地,所述根据预设规则从多个网关中选取目标网关,包括:
生成随机数,获取所述随机数相对于所述多个网关的总数目的余数;
根据所述余数获得所述目标网关。
可选地,所述根据预设规则从多个网关中选取目标网关,包括:
根据所述目标容器集群的唯一标识,通过一致性散列算法确定所述目标网关的唯一标识,得到所述目标网关。
可选地,所述目标容器集群的唯一标识包括所述目标容器集群的ID,所述目标网关的唯一标识包括所述目标网关的UUID或者IP地址。
可选地,还包括:
将所述目标容器集群与所述目标网关的对应关系记录在映射表中;
在满足预设的重选条件的情况下,根据所述预设规则从多个网关中重新选取目标网关;
根据所述映射表,判断重新选取的目标网关和原有的目标网关是否为同一网关;
如果判断结果为否,则向原有的目标网关发送清除历史数据的指令。
根据本发明的第二方面,提供了一种多容器集群监控数据的采集方法,包括:
接收执行本发明第一方面所述方法的设备发送的监控数据;
接收数据存储和管理平台发送的数据获取指令;
响应于所述数据获取指令,向所述数据存储和管理平台发送所述监控数据。
可选地,还包括:
接收所述设备发送的清除历史数据的指令;
响应于所述指令,清除存储的监控数据。
根据本发明的第三方面,提供了一种容器集群监控数据的采集装置,包括:
监控数据获取模块,用于获取目标容器集群中至少一个监控模块发送的监控数据;其中,所述目标容器集群包括多个节点node,每个所述节点 node上运行有至少一个容器组pod,每个所述容器组pod包括至少一个容器Container,所述监控模块用于对所述节点node和/或所述容器Container 进行采集得到所述监控数据;
网关选取模块,用于根据预设规则从多个网关中选取目标网关;
数据发送模块,用于向所述目标网关发送所述监控数据。
可选地,所述网关选取模块在根据预设规则从多个网关中选取目标网关时,用于:
生成随机数,获取所述随机数相对于所述多个网关的总数目的余数;
根据所述余数获得所述目标网关。
可选地,所述网关选取模块在根据预设规则从多个网关中选取目标网关时,用于:
根据所述目标容器集群的唯一标识,通过一致性散列算法确定所述目标网关的唯一标识,得到所述目标网关。
可选地,所述目标容器集群的唯一标识包括所述目标容器集群的ID,所述目标网关的唯一标识包括所述目标网关的UUID或者IP地址。
可选地,所述装置还包括数据一致性模块,所述数据一致性模型用于:
将所述目标容器集群与所述目标网关的对应关系记录在映射表中;
在满足预设的重选条件的情况下,根据所述预设规则从多个网关中重新选取目标网关;
根据所述映射表,判断重新选取的目标网关和原有的目标网关是否为同一网关;
如果判断结果为否,则向原有的目标网关发送清除历史数据的指令。
根据本发明的第四方面,提供了一种多容器集群监控数据的采集装置,包括:
数据接收模块,用于接收执行本发明第一方面所述方法的设备发送的监控数据;
指令接收模块,用于接收数据存储和管理平台发送的数据获取指令;
数据反馈模块,用于响应于所述数据获取指令,向所述数据存储和管理平台发送所述监控数据。
可选地,所述装置还包括数据清除模块,所述数据清除模块用于:
接收所述设备发送的清除历史数据的指令;
响应于所述指令,清除存储的监控数据。
根据本发明的第五方面,提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现本发明第一方面或者第二方面所述的多容器集群监控数据的采集方法。
在本发明的一个实施例中,采用多个网关向数据存储和管理平台推送数据,并保持多个网关的数据负荷相对均衡,使得每个网关的处理压力大幅降低,网关的处理能力和资源需求也不再成为数据采集系统整体性能的瓶颈。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是现有技术中多集群环境下监控架构的示意图。
图2是本实施例提供的多集群环境下监控架构的示意图。
图3是K8S集群结构的示意图。
图4是可用于实现本发明实施例的数据采集系统的示意图
图5是可用于实现本发明实施例的电子设备的结构示意图
图6是本发明实施例提供的多容器集群监控数据的采集方法的流程图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<监控架构>
图1是现有技术中多集群环境下监控架构的示意图。
参见图1,被监控对象包含若干的k8s容器集群。在每个容器集群中运行有多个监控数据源,它们负责收集集群内的节点处理器利用率、容器组Pod运行状态、kube-apiserver请求延迟等监控数据。容器集群里的数据汇总和转发代理(以下简称“代理程序”)汇聚当前集群所有数据源的数据,经一定处理后推送到外部接收网关。数据接收网关(Pushgateway,以下简称“网关”)接收并暂存所有集群推送过来的最近一次监控数据。监控数据存储和处理平台(Prometheus,以下简称“监控平台”)定时从网关获取监控数据,保存在本地或远程存储,供后续展示使用。
现有技术中,多个容器集群向同一网关推送监控数据,这种方案在集群数量较小时能够平稳运行,当集群数量较大时会面临以下问题:(1)同时向一个网关推送数据的集群数量太大时,很容易超出网关的处理能力,出现请求/响应超时,导致某些集群的数据推送失败,丢失部分监控数据; (2)网关上监控数据太多的时候,从监控平台上拉取这些监控数据的时间也会相应增加,一旦超出拉取的超时上限,部分数据将无法进入监控平台,进一步加剧监控数据丢失的风险;(3)随着网关对接的集群数量增多,网关需要的处理能力、内存等资源也会同步增加,当资源需求超出硬件本身能够提供的能力范围时,会严重影响网关的性能,甚至导致网关反应异常。
图2是本实施例提供的多集群环境下监控架构的示意图。本实施例在网关层部署了多个网关(例如图2中的网关1至网关M),集群对应的代理程序在推送数据之前,按照一定规则从多个网关中选取一个网关作为目标。最终形成的代理程序与网关的对应关系如图2所示,{A1,A2,…An}集群对应的代理程序向网关1推送数据,{B1,B2,…Bn}集群对应的代理程序向网关2推送数据,{M1,M2,…Mn}集群对应的代理程序向网关M推送数据,注意这里的An、Bn和Mn不一定相等,即每个网关关联的代理程序数量(集群数量)不一定相同。
基于上述监控架构可以实施本实施例提供的多容器集群监控数据的采集方法,下文将对该方法的实施过程和有益效果进行具体说明。
<硬件配置>
图4示出了可用于实现本发明实施例的数据采集系统100,包括代理设备1000、网关设备2000以及数据存储和管理设备3000。
代理设备1000是用于运行代理程序的电子设备。网关设备2000是部署有网关模块的电子设备。数据存储和管理设备3000是部署有数据存储和管理平台的设备。
本实施例中,代理程序用于汇总和转发相应容器集群的监控数据的功能模块,网关是用于接收和暂存监控数据的功能模块。代理设备1000中可以运行一个或多个代理程序,网关设备2000中可以部署一个或多个网关模块,对此不作限定。
代理设备1000、网关设备2000以及数据存储和管理设备3000可以是独立设备,可以是设备集群,对此不做限定。
代理设备1000、网关设备2000以及数据存储和管理设备3000通过有线网络或者无线网络连接,从而实现数据通信。
代理设备1000、网关设备2000以及数据存储和管理设备3000例如具有图5所示的电子设备1100的结构。
参见图5,电子设备1100包括处理器1100、存储器1200、接口装置 1300、通信装置1400、显示装置1500和输入装置1600。处理器1100例如可以是中央处理器CPU、微控制单元MCU等。存储器1200例如包括 ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、串行接口等。通信装置1400例如能够进行有线或无线通信。显示装置1500例如是液晶显示屏。输入装置 1600例如可以包括触摸屏、键盘、鼠标、麦克风等。
本领域技术人员应当理解,尽管在图5中示出了电子设备1100的多个装置,但是,数据采集系统100中的电子设备可以仅涉及其中的部分装置,例如,只涉及处理器1100、存储器1200和通信装置1400。
图4和图5所示的硬件配置仅仅是解释性的,并且决不是为了要限制本发明、其应用或用途。
<方法实施例>
本实施例提供了一种多容器集群监控数据的采集方法,例如由图4中的代理设备1000实施。如图6所示,该方法包括以下步骤S1100-S1300。
在步骤S1100中,获取目标容器集群中至少一个监控模块发送的监控数据;其中,目标容器集群包括多个节点node,每个节点node上运行有至少一个容器组pod,每个容器组pod包括至少一个容器Container,监控模块用于对节点node和/或容器Container进行采集得到监控数据。
本实施例中,目标容器集群为K8S(kubernetes,一种基于容器的集群管理平台)容器集群。目标容器集群例如是执行本实施例中方法的代理程序所在的容器集群。
图3是K8S集群结构的示意图。如图3所示,K8S集群Cluster包括两类节点:master和node。其中,节点master为主节点,负责集群的管理和控制。节点node为计算节点,用于具体的工作负载。一个K8S集群包括一个节点master。节点master中进一步包括API Server、Scheduler、Controller manager等组件。其中,API Server是整个系统的对外接口,供客户端和其它组件调用。Scheduler负责对集群内部的资源进行调度。Controller manager 负责管理控制器。节点node的数量为一个或多个。节点Node可以是物理服务器,也可以是虚拟服务器。每个节点node进一步包括多种组件,其中最重要的为容器组pod。容器组pod的数量为一个或多个。容器组pod是 K8S中最基本的操作单元,一个pod代表着集群中运行的一个进程,它内部封装了一个或多个紧密相关的容器Container。
K8S中还包括用于获取监控数据的监控模块(或者称为监控数据源)。具体地,本实施例中的监控模块包括kubelet、node-exporter、 kube-state-metrics等。其中,kubelet用于提供容器资源占用的监控数据。 node-exporter用于提供节点的监控数据。kube-state-metrics用于提供容器状态的监控数据。
在步骤S1200中,根据预设规则,从多个网关中选取目标网关。
在步骤S1300中,向目标网关发送监控数据。
本实施例中,在网关层部署了多个网关,代理程序在推送数据之前,按照一定规则从多个网关中选取一个网关作为目标网关。最终,多个代理程序和多个网关之间形成了相对应的映射关系,每个代理程序向对应的目标网关发送监控数据,相比于采用单个网关的方案,每个网关的压力都会大幅降低,处理能力和资源需求也不再成为瓶颈。
另外,上层的监控平台从多个网关中逐个拉取监控数据,每次拉取的时间也会大幅降低,超时问题能得到有效缓解。
进一步地,步骤S1100可以实施为多种方式。
步骤S1100实施的第一种方式包括以下步骤S11-S12。
在步骤S11中,生成随机数,计算该随机数相对于网关总数目的余数。
在步骤S12中,根据余数获得与代理程序对应的目标网关。
例如,网关总数目为5,代理程序产生随机数37,执行取余计算“37 mod 5”,获得取余结果为2。同时,5个网关具有预设的编号,例如编号“0、1、……4”,则取余结果2对应编号为“2”的网关。如此,可以确定代理程序对应的目标网关。
在上述方式中,对于特定的代理程序,每个网关被选为目标网关的概率相同,从而保证了每个网关对应的代理程序的数量大致相同,有利于多个网关之间负载均衡。
步骤S1100实施的第二种方式包括以下步骤:根据目标容器集群的唯一标识,通过一致性散列算法获得对应的目标网关的唯一标识。
本实施例中,一致性散列(Hash)算法也是通过取模来完成,不过它不再是对例如网关设备的数量来取模,而是对2^32取模。算法原理即先构造一个2^32的整数环,根据一致性散列的值将对应节点放在这个环上,然后根据一致性散列的键计算得到起始散列值,接着在环上顺时针查找距离该起始散列值对应的节点最近的节点,从而完成键到值的映射。
在一个实施例中,将目标容器集群的唯一标识(例如代理程序对应的集群ID)作为一致性散列的键,将目标网关的唯一标识(例如目标网关对应的UUID或者网关IP地址)作为一致性散列的值。
在上述方式中,一致性散列方法能够保持代理程序和网关之间映射关系的稳定性。例如,即使代理程序发生重启,也不会改变原有的映射关系。又例如,即便发送网关的增减,也只影响小部分容器集群,其他容器集群与网关的映射关系保持不变。
在一个实施例中,多容器集群监控数据的采集方法还包括以下步骤 S1400-S1700。
在步骤S1400中,将目标容器集群与目标网关的对应关系记录在映射表中。
在步骤S1500中,在满足预设的重选条件的情况下,根据预设规则从多个网关中重新选取目标网关。预设的重选条件,例如是代理程序重启。
在实施步骤S1500时,可能存在多种情况。在第一种情况下,仅仅发生代理程序重启而没有发生网关增减,并且设定规则为一致性散列方式,则重新获取的目标网关和原目标网关保持一致。在第二种情况下,仅仅发生了代理程序重启而没有发生网关增加,并且设定规则为随机数方式,则重新获取的目标网关和原网关可能相同也可能不同。在第三种情况下,既发生了代理程序重启又发生了网关增减,无论设定规则是一致性散列方式还是随机数方式,重新获取的目标网关和原网关都可能相同也可能不同。
在步骤S1600中,根根据映射表,判断重新选取的目标网关和原有的目标网关是否为同一网关。
本实施例中,将代理程序与目标网关的对应关系记录在映射表中。通过查询映射表,可以判断代理程序重启前后对应的目标网关是否发生变化。
在步骤S1700中,如果判断结果为是,则向原有的目标网关发送清除历史数据的指令。
本实施例中,清除历史数据的指令用于控制目标网关清除自身存储的监控数据。
通过步骤S1400-S1700,在发生网关切换后,能够及时主动的清理无效数据,保证监控平台数据的一致性,避免旧目标服务器上的历史数据被监控平台取走,造成监控数据的紊乱,影响数据的展示,甚至造成告警误报。
本实施例还提供了一种多容器集群监控数据的采集方法,例如由图4 中的网关设备2000实施,并且在本实施例中,网关设备2000中部署的网关被代理设备1000中运行的代理程序选为目标网关。
该方法包括以下步骤S2100-S2200。
在步骤S2100中,接收代理设备1000发送的监控数据。
在步骤S2200中,接收数据存储和管理平台发送的数据获取指令。
在步骤S2300中,响应于数据获取指令,向数据存储和管理平台发送监控数据。
本实施例中,数据存储和管理设备3000拉取网关设备2000暂存的监控数据。
本实施例中,在网关层部署了多个网关,代理程序在推送数据之前,按照一定规则从多个网关中选取一个网关作为目标网关。最终,多个容器集群和多个网关之间形成了相对应的映射关系,每个代理程序向对应的目标网关发送监控数据,相比于采用单个网关的方案,每个网关的压力都会大幅降低,处理能力和资源需求也不再成为瓶颈。
另外,上层的监控平台从多个网关中逐个拉取监控数据,每次拉取的时间也会大幅降低,超时问题能得到有效缓解。
在一个实施例中,多容器集群监控数据的采集方法还包括:接收代理设备发送的清除历史数据的指令;响应于指令,清除存储的监控数据。
通过上述步骤,在发生网关切换后,能够及时主动的清理无效数据,保证监控平台数据的一致性,避免旧目标服务器上的历史数据被监控平台取走,造成监控数据的紊乱,影响数据的展示,甚至造成告警误报。
<装置实施例>
本实施例提供了一种容器集群监控数据的采集装置,包括监控数据获取模块、网关选取模块和数据发送模块。
监控数据获取模块,用于获取目标容器集群中至少一个监控模块发送的监控数据;其中,目标容器集群包括多个节点node,每个节点node上运行有至少一个容器组pod,每个容器组pod包括至少一个容器Container,监控模块用于对节点node和/或容器Container进行采集得到监控数据。
网关选取模块,用于根据预设规则从多个网关中选取目标网关。
数据发送模块,用于向目标网关发送监控数据。
在一个例子中,网关选取模块在根据预设规则从多个网关中选取目标网关时,用于:生成随机数,获取随机数相对于多个网关的总数目的余数;根据余数获得目标网关。
在一个例子中,网关选取模块在根据预设规则从多个网关中选取目标网关时,用于:根据目标容器集群的唯一标识,通过一致性散列算法确定目标网关的唯一标识,得到目标网关。
在一个例子中,目标容器集群的唯一标识包括目标容器集群的ID,目标网关的唯一标识包括目标网关的UUID或者IP地址。
在一个例子中,该装置还包括数据一致性模块,数据一致性模型用于:将目标容器集群与目标网关的对应关系记录在映射表中;在满足预设的重选条件的情况下,根据预设规则从多个网关中重新选取目标网关;根据映射表,判断重新选取的目标网关和原有的目标网关是否为同一网关;如果判断结果为否,则向原有的目标网关发送清除历史数据的指令。
本实施例提供了另外一种多容器集群监控数据的采集装置,包括数据接收模块、指令接收模块和数据反馈模块。
数据接收模块,用于接收执行本发明方法实施例方法的设备发送的监控数据。
指令接收模块,用于接收数据存储和管理平台发送的数据获取指令。
数据反馈模块,用于响应于数据获取指令,向数据存储和管理平台发送监控数据。
在一个例子中,装置还包括数据清除模块,数据清除模块用于:接收设备发送的清除历史数据的指令;响应于指令,清除存储的监控数据。
<电子设备实施例>
本实施例提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的机器可执行指令,处理器执行机器可执行指令以实现本发明方法实施例描述的多容器集群监控数据的采集方法。
<机器可读存储介质实施例>
本实施例提供一种机器可读存储介质,机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现本发明方法实施例描述的多容器集群监控数据的采集方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/ 或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构 (ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列 (FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种容器集群监控数据的采集方法,包括:
获取目标容器集群中至少一个监控模块发送的监控数据;其中,所述目标容器集群包括多个节点node,每个所述节点node上运行有至少一个容器组pod,每个所述容器组pod包括至少一个容器Container,所述监控模块用于对所述节点node和/或所述容器Container进行采集得到所述监控数据;
根据预设规则从多个网关中选取目标网关;
向所述目标网关发送所述监控数据。
2.根据权利要求1所述的方法,其中,所述根据预设规则从多个网关中选取目标网关,包括:
生成随机数,获取所述随机数相对于所述多个网关的总数目的余数;
根据所述余数获得所述目标网关。
3.根据权利要求1所述的方法,其中,所述根据预设规则从多个网关中选取目标网关,包括:
根据所述目标容器集群的唯一标识,通过一致性散列算法确定所述目标网关的唯一标识,得到所述目标网关。
4.根据权利要求3所述的方法,其中,所述目标容器集群的唯一标识包括所述目标容器集群的ID,所述目标网关的唯一标识包括所述目标网关的UUID或者IP地址。
5.根据权利要求2或3所述的方法,其中,还包括:
将所述目标容器集群与所述目标网关的对应关系记录在映射表中;
在满足预设的重选条件的情况下,根据所述预设规则从多个网关中重新选取目标网关;
根据所述映射表,判断重新选取的目标网关和原有的目标网关是否为同一网关;
如果判断结果为否,则向原有的目标网关发送清除历史数据的指令。
6.一种多容器集群监控数据的采集方法,包括:
接收执行权利要求1-5中任一项所述方法的设备发送的监控数据;
接收数据存储和管理平台发送的数据获取指令;
响应于所述数据获取指令,向所述数据存储和管理平台发送所述监控数据。
7.根据权利要求6所述的方法,其中,还包括:
接收所述设备发送的清除历史数据的指令;
响应于所述指令,清除存储的监控数据。
8.一种容器集群监控数据的采集装置,包括:
监控数据获取模块,用于获取目标容器集群中至少一个监控模块发送的监控数据;其中,所述目标容器集群包括多个节点node,每个所述节点node上运行有至少一个容器组pod,每个所述容器组pod包括至少一个容器Container,所述监控模块用于对所述节点node和/或所述容器Container进行采集得到所述监控数据;
网关选取模块,用于根据预设规则从多个网关中选取目标网关;
数据发送模块,用于向所述目标网关发送所述监控数据。
9.一种多容器集群监控数据的采集装置,包括:
数据接收模块,用于接收执行权利要求1-5中任一项所述方法的设备发送的监控数据;
指令接收模块,用于接收数据存储和管理平台发送的数据获取指令;
数据反馈模块,用于响应于所述数据获取指令,向所述数据存储和管理平台发送所述监控数据。
10.一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1-7任一项所述的多容器集群监控数据的采集方法。
CN201911260290.2A 2019-12-10 2019-12-10 多容器集群监控数据的采集方法、装置及电子设备 Pending CN111064781A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911260290.2A CN111064781A (zh) 2019-12-10 2019-12-10 多容器集群监控数据的采集方法、装置及电子设备
PCT/CN2020/135025 WO2021115350A1 (zh) 2019-12-10 2020-12-09 多容器集群监控数据的采集方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911260290.2A CN111064781A (zh) 2019-12-10 2019-12-10 多容器集群监控数据的采集方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111064781A true CN111064781A (zh) 2020-04-24

Family

ID=70300349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911260290.2A Pending CN111064781A (zh) 2019-12-10 2019-12-10 多容器集群监控数据的采集方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN111064781A (zh)
WO (1) WO2021115350A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935029A (zh) * 2020-09-18 2020-11-13 腾讯科技(深圳)有限公司 网关负载均衡方法和装置、存储介质及电子设备
CN112039796A (zh) * 2020-08-28 2020-12-04 北京字节跳动网络技术有限公司 数据包传输方法和装置、存储介质和电子设备
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控系统及工作方法
CN112511738A (zh) * 2020-11-19 2021-03-16 北京麦科伦科技有限公司 控制方法、装置、电子设备及可读存储介质
WO2021115350A1 (zh) * 2019-12-10 2021-06-17 北京金山云网络技术有限公司 多容器集群监控数据的采集方法、装置及电子设备
CN113783712A (zh) * 2020-06-09 2021-12-10 中兴通讯股份有限公司 默认网关管理方法、网关管理器、服务器及存储介质
CN114844794A (zh) * 2022-03-25 2022-08-02 之江实验室 一种面向容器的资源监控方法、系统及存储介质
CN114900449A (zh) * 2022-03-30 2022-08-12 网宿科技股份有限公司 一种资源信息管理方法、系统及装置
CN116232965A (zh) * 2022-12-23 2023-06-06 中国联合网络通信集团有限公司 集群主机监控系统、方法及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071072A (zh) * 2017-06-19 2017-08-18 山东浪潮云服务信息科技有限公司 一种处理对象存储高并发请求的分布式网关方法
CN107426274A (zh) * 2017-04-06 2017-12-01 云南小鹰科技有限公司 基于时序的业务应用及监控分析调度的方法和系统
CN109960634A (zh) * 2019-03-29 2019-07-02 新华三技术有限公司 一种应用程序监控方法、装置及系统
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN110417901A (zh) * 2019-07-31 2019-11-05 北京金山云网络技术有限公司 数据处理方法、装置及网关服务器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112313652A (zh) * 2018-05-04 2021-02-02 思杰系统有限公司 用于经由嵌入式浏览器提供数据丢失防护的系统和方法
CN111064781A (zh) * 2019-12-10 2020-04-24 北京金山云网络技术有限公司 多容器集群监控数据的采集方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107426274A (zh) * 2017-04-06 2017-12-01 云南小鹰科技有限公司 基于时序的业务应用及监控分析调度的方法和系统
CN107071072A (zh) * 2017-06-19 2017-08-18 山东浪潮云服务信息科技有限公司 一种处理对象存储高并发请求的分布式网关方法
CN109960634A (zh) * 2019-03-29 2019-07-02 新华三技术有限公司 一种应用程序监控方法、装置及系统
CN110247810A (zh) * 2019-07-09 2019-09-17 浪潮云信息技术有限公司 一种收集容器服务监控数据的系统及方法
CN110417901A (zh) * 2019-07-31 2019-11-05 北京金山云网络技术有限公司 数据处理方法、装置及网关服务器

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021115350A1 (zh) * 2019-12-10 2021-06-17 北京金山云网络技术有限公司 多容器集群监控数据的采集方法、装置及电子设备
JP2023528983A (ja) * 2020-06-09 2023-07-06 中興通訊股▲ふん▼有限公司 デフォルトゲートウェイ管理方法、ゲートウェイマネージャ、サーバーおよび記憶媒体
JP7483059B2 (ja) 2020-06-09 2024-05-14 中興通訊股▲ふん▼有限公司 デフォルトゲートウェイ管理方法、ゲートウェイマネージャ、サーバーおよび記憶媒体
US12088509B2 (en) 2020-06-09 2024-09-10 Zte Corporation Default gateway management method, gateway manager, server, and storage medium
EP4164183A4 (en) * 2020-06-09 2024-06-12 ZTE Corporation DEFAULT GATEWAY MANAGEMENT METHOD, GATEWAY MANAGER, SERVER AND STORAGE MEDIUM
CN113783712A (zh) * 2020-06-09 2021-12-10 中兴通讯股份有限公司 默认网关管理方法、网关管理器、服务器及存储介质
WO2021248972A1 (zh) * 2020-06-09 2021-12-16 中兴通讯股份有限公司 默认网关管理方法、网关管理器、服务器及存储介质
CN112039796A (zh) * 2020-08-28 2020-12-04 北京字节跳动网络技术有限公司 数据包传输方法和装置、存储介质和电子设备
CN112039796B (zh) * 2020-08-28 2023-04-18 北京字节跳动网络技术有限公司 数据包传输方法和装置、存储介质和电子设备
CN111935029A (zh) * 2020-09-18 2020-11-13 腾讯科技(深圳)有限公司 网关负载均衡方法和装置、存储介质及电子设备
CN112084098A (zh) * 2020-10-21 2020-12-15 中国银行股份有限公司 资源监控系统及工作方法
CN112511738A (zh) * 2020-11-19 2021-03-16 北京麦科伦科技有限公司 控制方法、装置、电子设备及可读存储介质
CN112511738B (zh) * 2020-11-19 2023-04-07 北京麦科伦科技有限公司 控制方法、装置、电子设备及可读存储介质
CN114844794A (zh) * 2022-03-25 2022-08-02 之江实验室 一种面向容器的资源监控方法、系统及存储介质
CN114844794B (zh) * 2022-03-25 2024-06-04 之江实验室 一种面向容器的资源监控方法、系统及存储介质
CN114900449A (zh) * 2022-03-30 2022-08-12 网宿科技股份有限公司 一种资源信息管理方法、系统及装置
CN114900449B (zh) * 2022-03-30 2024-02-23 网宿科技股份有限公司 一种资源信息管理方法、系统及装置
CN116232965B (zh) * 2022-12-23 2024-09-27 中国联合网络通信集团有限公司 集群主机监控系统、方法及存储介质
CN116232965A (zh) * 2022-12-23 2023-06-06 中国联合网络通信集团有限公司 集群主机监控系统、方法及存储介质

Also Published As

Publication number Publication date
WO2021115350A1 (zh) 2021-06-17

Similar Documents

Publication Publication Date Title
CN111064781A (zh) 多容器集群监控数据的采集方法、装置及电子设备
US10735345B2 (en) Orchestrating computing resources between different computing environments
US10162682B2 (en) Automatically scaling up physical resources in a computing infrastructure
US10037237B2 (en) Method and arrangement for fault management in infrastructure as a service clouds
US10505869B2 (en) Mimicking a presence notification from an application executing on a virtual component to optimize computing resource allocation/utilization
US20200112497A1 (en) Monitoring cloud-based services and/or features
US10007586B2 (en) Deferred server recovery in computing systems
US9130943B1 (en) Managing communications between client applications and application resources of on-premises and cloud computing nodes
US20180159735A1 (en) Managing hardware resources
US10152343B2 (en) Method and apparatus for managing IT infrastructure in cloud environments by migrating pairs of virtual machines
US10389575B2 (en) Traffic migration based on traffic flow and traffic path characteristics
US11095717B2 (en) Minimizing data loss in a computer storage environment with non-guaranteed continuous network connectivity
US10355922B1 (en) Automated computing architecture configuration service
US20160269426A1 (en) Deploying a security appliance system in a high availability environment without extra network burden
US10764122B2 (en) Managing computing infrastructure events having different event notification formats
US20220060369A1 (en) Intent-based distributed alarm service
US8543680B2 (en) Migrating device management between object managers
US10331522B2 (en) Event failure management
CN117492944A (zh) 任务调度方法、装置、电子设备及可读存储介质
US9317355B2 (en) Dynamically determining an external systems management application to report system errors
CN108228272B (zh) Web容器生成处理方法、设备以及服务器
US9880855B2 (en) Start-up control program, device, and method
US11875175B2 (en) Providing physical host hardware state information to virtual machines deployed on the physical host
US10135755B1 (en) Information technology infrastructure discovery utilizing discovery adapters
US10855521B2 (en) Efficient replacement of clients running large scale applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200424

RJ01 Rejection of invention patent application after publication