CN114416200A - 声明式云平台监控采集配置动态管理和加载的系统及方法 - Google Patents

声明式云平台监控采集配置动态管理和加载的系统及方法 Download PDF

Info

Publication number
CN114416200A
CN114416200A CN202210024496.0A CN202210024496A CN114416200A CN 114416200 A CN114416200 A CN 114416200A CN 202210024496 A CN202210024496 A CN 202210024496A CN 114416200 A CN114416200 A CN 114416200A
Authority
CN
China
Prior art keywords
configuration
monitoring
task
sending
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210024496.0A
Other languages
English (en)
Inventor
吴帅
李珂
于沈课
邓博
蔡卫卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202210024496.0A priority Critical patent/CN114416200A/zh
Publication of CN114416200A publication Critical patent/CN114416200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • G06F9/4451User profiles; Roaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45595Network integration; Enabling network access in virtual machine instances

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了声明式云平台监控采集配置动态管理和加载的系统及方法,属于云计算领域,本发明要解决的技术问题为如何实现云平台监控采集配置动态管理和加载,降低人工维护成本,技术方案为:该系统包括资源管理和控制器controller,监控采集器monitor‑agent和配置接收处理器agent,每个集群部署一个资源管理和控制器controller,每个节点部署一个监控采集器monitor‑agent和配置接收处理器agent,监控采集器monitor‑agent和配置接收处理器agent运行在一个pod内,并部署在集群每个节点上。该方法是基于事件驱动,监听集群上监控采集配置新增、删除及修改的变化、集群节点信息的变化、监控对象的变化和监控采集器的变化,触发对应的更新处理逻辑,计算配置信息,下发到对应节点上的监控采集器,并重新加载。

Description

声明式云平台监控采集配置动态管理和加载的系统及方法
技术领域
本发明涉及云计算领域,具体地说是一种声明式云平台监控采集配置动态管理和加载的系统及方法。
背景技术
随着信息技术和云计算的发展,业务需求的不断变化,云平台集群规模和集群上运行的服务也不断变化。需求变化伴随着服务组件增加、服务组件的下架和服务组件的版本迭代,这样对传统的监控采集模式带来了一定挑战。
传统的监控模式下,监控采集器和监控对象之间的对应关系需要人工手动维护,新增、删除一个监控对象都需要人工手动维护对应监控配置文件。
传统的监控模式下,监控采集配置的相关参数的变化需要人工去修改维护。比如采集周期,账号和密码等;监控对象的多变带来的人工维护成本高昂且缺乏灵活性,这些因素包括集群节点的扩容缩容,不同节点有不同的监控需求,不同的系统架构有不同的监控需求,服务运行的pod的变化(pod中断重启,副本数变化等)。
传统的监控模式下,监控服务采用的传统sidecar注入监控采集程序的方式有着天生的缺陷,包括依赖注入管理程序且采集器有注入失败的风险和注入采集器对服务本身运行稳定性有干扰。
传统的监控模式下,监控采集器不支持采集配置的热加载,修改配置文件,需要重启程序才能生效。
故如何实现云平台监控采集配置动态管理和加载,降低人工维护成本是目前亟待解决的技术问题。
发明内容
本发明的技术任务是提供一种声明式云平台监控采集配置动态管理和加载的系统及方法,来解决如何实现云平台监控采集配置动态管理和加载,降低人工维护成本的问题。
本发明的技术任务是按以下方式实现的,一种声明式云平台监控采集配置动态管理和加载的系统,该系统包括资源管理和控制器controller,监控采集器monitor-agent和配置接收处理器agent,每个集群部署一个资源管理和控制器controller,每个节点部署一个监控采集器monitor-agent和配置接收处理器agent,监控采集器monitor-agent和配置接收处理器agent运行在一个pod内,并部署在集群每个节点上;
资源管理和控制器controller包括事件监听模块、事件处理模块以及配置任务发送管理模块;事件监听模块用于资源管理和控制器controller监听事件;事件处理模块用于资源管理和控制器controller事件处理和配置生成封装;配置任务发送管理模块用于资源管理和控制器controller发送队列管理。
作为优选,资源管理和控制器controller监听事件具体如下:
事件监听模块监听配置资源的创建、修改和删除事件,集群节点扩容缩容事件,集群节点事件以及集群pod创建更新删除事件;
事件监听模块将监听到的变更事件封装配置变化消息发送到通知事件处理模块;其中配置变化信息包括变更操作类型及变更信息;变更操作类型包括增加、删除及更新。
更优地,资源管理和控制器controller事件处理和配置生成封装具体如下:
事件处理模块接收到事件后,选择执行对应的处理逻辑,更新集群元数据;集群元数据包括节点元数据、监控采集器monitor-agent的pod数据、监控采集配置数据以及声明被监控的服务组件pod数据;
计算对应节点采集程序的配置更新:用户在声明采集配置时,声明设置了监控对象特征匹配信息,设置agentSelector声明该采集配置作用于哪些集群节点,通过节点labels去匹配对应的节点,支持节点多标签键值对匹配;设置podSelector声明该采集配置对应哪些服务组件的pod,通过pod的labels去匹配对应的pod,支持pod多标签键值对匹配;
封装消息,入队管理;监控采集封装消息包括监控采集具体配置、下发节点的信息及对应执行的动作action;下发节点的信息包括节点名称、节点运行的监控采集器monitor-agent pod的IP;对应执行的动作action包括增加、删除及修改。
更优地,资源管理和控制器controller发送队列管理具体如下:
配置任务发送管理模块实时监听入队信号,收到入队信号,处理队列中同一节点任务,进行任务合并处理,重新封装任务,将发送任务入队;
配置任务发送管理模块周期轮询执行配置发送任务,将队列里面的发送任务下发对应采集端,并判断是否发送成功:
①、若发送成功,则任务出队;
②、若发送失败,则记录重试次数,计算下次发送时间,重新入队;
其中,重发时间计算公式如下:
T=T1+(retryNum+1)*interval
其中,T表示下次重发时间;T1表示当前时间;retryNum表示重试次数;interval表示重试周期。
更优地,所述配置接收处理器agent具体如下:
(1)、配置下发到配置接收处理器agent;
(2)、配置接收处理器agent接收到配置后,读取下发配置及消息头携带的MD5值;
(3)、配置接收处理器agent根据配置内容生成MD5与下发的MD5值比较,进行配置完整性校验:
①、若校验通过,则执行步骤(4);
②、若校验未通过,则返回校验失败状态,等待下次下发;
(4)、配置完整性校验通过后,执行预加载,并预加载是否成功:
①、若成功,则通知采集程序reload加载配置;
②、若预加载失败,则返回预加载失败状态,打印相关失败日志信息。
一种声明式云平台监控采集配置动态管理和加载的方法,该方法是基于事件驱动,监听集群上监控采集配置新增、删除及修改的变化、集群节点信息的变化、监控对象的变化和监控采集器的变化,触发对应的更新处理逻辑,计算配置信息,下发到对应节点上的监控采集器,并重新加载,实现动态更新;再利用Kubernetes CRD机制将监控采集配置自定义扩展成Kubernetes(k8s)资源进行新增、删除、修改及查找管理,通过Kubernetes现有成熟的资源编排和管理功能实现对监控采集配置的动态管理和加载。
作为优选,该方法具体如下:
S1、通过将监控采集配置定义成一个Kubernetes资源,使得用户能够根据需求创建、更新及删除对应的监控采集配置资源,实现对监控采集配置的动态管理和加载;并利用Kubernetes自定义资源扩展特性实现对监控采集配置资源的统一模型定义;资源模型的定义如下:
apiVersion:lma.inspur.com/v1alpha1
kind:MonitorCollectorConfig
metadata:
name:string
namespace:string
spec:
conf:string
podSelector:[]string
agentSelector:[]string;
资源模型名称:MonitorCollectorConfig;
资源模型配置内容:spec.conf声明的采集配置内容,spec.agentSelector节点标签特征匹配,类型是列表,多个特征标签匹配计算采用逻辑与实现,功能是声明该配置将作用于特征匹配到的节点;spec.podSelector是pod标签特征匹配,类型是列表,多个特征标签匹配计算采用逻辑与实现,功能是声明该配置将被作用于特征匹配到的服务pod;
资源模型元数据:metadata.name监控采集配置资源名称,metadata.namespace该采集配置资源定义的命名空间;
S2、通过监听监控采集配置资源的创建修改删除事件、采集监控采集器monitor-agent的pod创建删除事件、集群上运行的已经声明被监控的服务组件pod的创建删除事件以及云平台节点事件进行动态计算和更新监控采集配置,
S3、通过监控对象所在节点进行配置下发信息封装处理;其中,封装的一个监控采集发送任务包括监控采集具体配置、下发节点的信息以及本次任务发送的类型;任务发送的类型包括新增、更新及删除;下发节点的信息包括节点名称及节点运行的监控采集器monitor-agent pod的IP;
S4、入队到统一的发送队列管理模块进行管理后,封装生成一个配置发送任务,并通过发送任务队列将任务信息下发到对应节点的配置接收处理器agent,通过配置接收处理器agent通知监控采集器monitor-agent将采集配置重新加载生效。
更优地,监听集群上监控采集配置新增、删除及修改的变化具体如下:
(1)、监听监控配置资源事件:资源管理和控制器controller接收到监控采集配置资源事件并处理,并判断监控采集配置资源事件的类型:
①、若是创建事件,则执行步骤(2);
②、若是删除事件,则执行步骤(3);
③、若是更新事件,则执行步骤(4);
(2)处理创建事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行步骤(5);
其中,特征匹配FeatureSelector计算过程为:通过agentSelector特征匹配生成节点资源的监控配置文件,自定义的监控配置资源里面的agentSelector列表和集群节点标签之间进行键值对比较,生成配置文件(fileName=crNamespace_crName.conf);通过podSelector特征匹配计算对应服务监控的配置,生成配置文件(fileName=crNamespace_podName.conf);服务ip的动态发现和配置生成是通过获取服务的pod Ip实现的;
(3)、处理删除事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行(5);
(4)、处理更新事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,判断是否为是agentSelector或podSelector修改:
若是,则需要生成旧的匹配规则下配置文件的下发删除任务信息,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行步骤(5);
(5)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若发送成功,则任务结束;
②、若发送失败,则记录状态,任务重新入队,下一步执行步骤(6);
(6)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(7);
(7)、执行预加载,并判断是否预加载成功:
①、若预加载失败,则返回执行结果;
②、若预加载成功,则执行步骤(8);
(8)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
更优地,监听集群节点信息的变化具体如下:
(1)、事件接收:判断是否是节点标签更新:
若是节点标签更新事件,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,action=create新加一个监控配置,action=delete删除当前不匹配的监控配置,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发;
(2)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若是,则任务结束;
②、若否,则记录状态,任务重新入队,下一步执行步骤(3);
(3)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(4);
(4)、执行预加载,并判断是否执行成功:
①、若执行失败,则返回执行结果;
②、若执行成功,则执行步骤(5);
(5)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
更优地,监听采集监控采集器monitor-agent的pod创建删除事件具体如下:
(1)、事件接收:判断是否是监控采集器pod事件:
若是,则判断是否是pod ready事件(其他事件忽略):
若是配置接收处理器agent pod ready事件,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发,下一步执行步骤(3);
(2)、事件接收:判断是否是已经声明的被监控服务的pod:
若是,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,podready事件action=create,pod删除事件action=delete,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发,下一步执行步骤(3);
(3)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若是,则任务结束;
②、若否,则记录状态,任务重新入队,下一步执行步骤(4);
(4)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(5);
(5)、执行预加载,并判断是否执行成功:
①、若执行失败,则返回执行结果;
②、若执行成功,则执行步骤(6);
(6)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
本发明的声明式云平台监控采集配置动态管理和加载的系统及方法具有以下优点:
(一)本发明充分发挥KubernetesCRD特性,定义一个统一的监控采集配置资源模型,提供统一的标准接口方便用户管理自己服务组件的监控采集配置。充分利用Kubernetes资源事件监听机制实时的动态计算和更新云平台上已声明的监控资源信息和对应节点采集器的监控采集配置,还解决了用户自定义监控采集配置的问题、动态更新和加载监控配置的问题,采用非侵入的外部监控探测方式实现对平台服务组件的监控,规避传统注入采集器的方式带来的风险和维护成本;同时通过统一的监控采集配置模型、统一的管理方式以及实时动态计算监控对象和动态加载采集配置的特性,减低了人工维护成本;
(二)本发明允许用户根据实际需求定制监控采集配置,根据监控对象(可能是一个服务,一个文件,一个设备等等)的实际需求编写对应的监控采集配置,实现了用户对采集配置的自我管理;
(三)本发明实现了声明式的采集配置:用户可以在部署服务的时候自定义采集配置,包括采集插件类型,采集周期,采集器支持的其他参数设置等;
(四)本发明实现了用户管理配置资源的增删改:新增服务组件时创建对应的采集配置资源,组件版本迭代时更新对应的采集配置资源,下架服务组件时删除对应的配置资源;
(五)本发明采用非侵入性的外部采集探针方式实现监控采集:在服务运行的节点上部署采集器,下发该服务对应的采集配置给对应节点采集器实现对服务的监控采集,如附图5所示,新旧模式服务采集配置区别说明:
比较传统sidecar模式,传统模式下因为服务组件和监控采集器运行在一个pod里面,监控采集配置中服务ip对应设置为127.0.0.1即可,但是本发明的非侵入监控采集模式下服务pod对应的监控采集配置中服务ip应该设置为pod Ip;
传统sidecar模式服务监控采集配置:
Conf:
Server=“http://127.0.0.1:80/status”
非倾入模式服务监控采集配置:
Conf:
Server=“${podIp}:80/status”
Controller会动态获取podIp并替换变量${podIp},生成pod对应server配置,下发并加载配置到pod运行节点的采集器;
(六)本发明实现了采集对象的动态匹配和发现:用户在定义采集配置时需要声明监控对象对应的匹配特征,作用是管理程序可以通过监听集群对应资源的变化,通过用户定义监控配置中的匹配特征做动态处理和更新监控配置;
(七)本发明实现了采集配置的动态加载,用户对采集配置的增删改操作、及监控对象的动态变化(可能是节点扩缩容,节点标签的变化,服务组件的pod的创建删除),会触发监控配置的重新计算和更新下发,并同步更新到对应采集器的配置文件中,并且被采集器重新加载生效(采集器实现reload接口,实现对监控配置的热加载支持);
(八)用户自定义管理监控采集配置,实现用户根据自己的实际需求定制对应的监控采集配置,对采集配置进行增删改管理;
(九)本发明实现了动态加载,可以实现对用户声明的监控对象进行实时监控,监控对象信息的实时更新,对应同步更新加载对应的监控采集配置,降低人工维护采集配置文件的成本;
(十)本发明实现了监控采集器和服务组件解耦,解决了传统监控服务组件采用的sidecar模式部署服务组件时依赖采集器注入问题,规避采集器干扰服务组件运行的风险。
附图说明
下面结合附图对本发明进一步说明。
附图1为声明式云平台监控采集配置动态管理和加载的系统的部署架构图;
附图2为资源管理和控制器controller监听事件的流程框图;
附图3为资源管理和控制器controller事件处理和配置生成封装的流程框图;
附图4为资源管理和控制器controller发送队列管理的流程框图;
附图5为新旧架构服务监控模式对比示意图。
具体实施方式
参照说明书附图和具体实施例对本发明的声明式云平台监控采集配置动态管理和加载的系统及方法作以下详细地说明。
实施例1:
如附图1所示,本发明的声明式云平台监控采集配置动态管理和加载的系统,该系统包括资源管理和控制器controller,监控采集器monitor-agent和配置接收处理器agent,每个集群部署一个资源管理和控制器controller,每个节点部署一个监控采集器monitor-agent和配置接收处理器agent,监控采集器monitor-agent和配置接收处理器agent运行在一个pod内,并部署在集群每个节点上;
资源管理和控制器controller包括事件监听模块、事件处理模块以及配置任务发送管理模块;事件监听模块用于资源管理和控制器controller监听事件;事件处理模块用于资源管理和控制器controller事件处理和配置生成封装;配置任务发送管理模块用于资源管理和控制器controller发送队列管理。
如附图2所示,本实施例中的资源管理和控制器controller监听事件具体如下:
(1)、事件监听模块监听配置资源的创建、修改和删除事件,集群节点扩容缩容事件,集群节点事件以及集群pod创建更新删除事件;
(2)、事件监听模块将监听到的变更事件封装配置变化消息发送到通知事件处理模块;其中配置变化信息包括变更操作类型及变更信息;变更操作类型包括增加、删除及更新。
如附图3所示,本实施例中的资源管理和控制器controller事件处理和配置生成封装具体如下:
(1)、事件处理模块接收到事件后,选择执行对应的处理逻辑,更新集群元数据;集群元数据包括节点元数据、监控采集器monitor-agent的pod数据、监控采集配置数据以及声明被监控的服务组件pod数据;
(2)、计算对应节点采集程序的配置更新:用户在声明采集配置时,声明设置了监控对象特征匹配信息,设置agentSelector声明该采集配置作用于哪些集群节点,通过节点labels去匹配对应的节点,支持节点多标签键值对匹配;设置podSelector声明该采集配置对应哪些服务组件的pod,通过pod的labels去匹配对应的pod,支持pod多标签键值对匹配;
(3)、封装消息,入队管理;监控采集封装消息包括监控采集具体配置、下发节点的信息及对应执行的动作action;下发节点的信息包括节点名称、节点运行的监控采集器monitor-agent pod的IP;对应执行的动作action包括增加、删除及修改。
如附图4所示,本实施例中的资源管理和控制器controller发送队列管理具体如下:
(1)、配置任务发送管理模块实时监听入队信号,收到入队信号,处理队列中同一节点任务,进行任务合并处理,重新封装任务,将发送任务入队;
(2)、配置任务发送管理模块周期轮询执行配置发送任务,将队列里面的发送任务下发对应采集端,并判断是否发送成功:
①、若发送成功,则任务出队;
②、若发送失败,则记录重试次数,计算下次发送时间,重新入队;
其中,重发时间计算公式如下:
T=T1+(retryNum+1)*interval
其中,T表示下次重发时间;T1表示当前时间;retryNum表示重试次数;interval表示重试周期。
本实施例中的配置接收处理器agent具体如下:
(1)、配置下发到配置接收处理器agent;
(2)、配置接收处理器agent接收到配置后,读取下发配置及消息头携带的MD5值;
(3)、配置接收处理器agent根据配置内容生成MD5与下发的MD5值比较,进行配置完整性校验:
①、若校验通过,则执行步骤(4);
②、若校验未通过,则返回校验失败状态,等待下次下发;
(4)、配置完整性校验通过后,执行预加载,并预加载是否成功:
①、若成功,则通知采集程序reload加载配置;
②、若预加载失败,则返回预加载失败状态,打印相关失败日志信息。
实施例2:
本发明的声明式云平台监控采集配置动态管理和加载的方法,该方法是基于事件驱动,监听集群上监控采集配置新增、删除及修改的变化、集群节点信息的变化、监控对象的变化和监控采集器的变化,触发对应的更新处理逻辑,计算配置信息,下发到对应节点上的监控采集器,并重新加载,实现动态更新;再利用Kubernetes CRD机制将监控采集配置自定义扩展成Kubernetes(k8s)资源进行新增、删除、修改及查找管理,通过Kubernetes现有成熟的资源编排和管理功能实现对监控采集配置的动态管理和加载。
作为优选,该方法具体如下:
S1、通过将监控采集配置定义成一个Kubernetes资源,使得用户能够根据需求创建、更新及删除对应的监控采集配置资源,实现对监控采集配置的动态管理和加载;并利用Kubernetes自定义资源扩展特性实现对监控采集配置资源的统一模型定义;资源模型的定义如下:
apiVersion:lma.inspur.com/v1alpha1
kind:MonitorCollectorConfig
metadata:
name:string
namespace:string
spec:
conf:string
podSelector:[]string
agentSelector:[]string;
资源模型名称:MonitorCollectorConfig;
资源模型配置内容:spec.conf声明的采集配置内容,spec.agentSelector节点标签特征匹配,类型是列表,多个特征标签匹配计算采用逻辑与实现,功能是声明该配置将作用于特征匹配到的节点;spec.podSelector是pod标签特征匹配,类型是列表,多个特征标签匹配计算采用逻辑与实现,功能是声明该配置将被作用于特征匹配到的服务pod;
资源模型元数据:metadata.name监控采集配置资源名称,metadata.namespace该采集配置资源定义的命名空间;
示例:
```
apiVersion:lma.inspur.com/v1alpha1
kind:MonitorCollectorConfig
metadata:
name:edac
namespace:monitoring
spec:
conf:|-
…//具体的配置内容
agentSelector:
-node-role.kubernetes.io/bare-metal:enabled
-kubernetes.io/arch:amd64
```
```
apiVersion:lma.inspur.com/v1alpha1
kind:MonitorCollectorConfig
metadata:
name:redis
namespace:common
spec:
conf:|-
…//具体的配置内容
podSelector:
-app=redis4-ha
-component=server
```
其中,filename:配置文件名称;crNamespace:监控配置资源的命名空间;crName:监控配置资源的名称;podName:通过特征匹配到的被监控的服务组件pod名称;agentConfigs:下发任务消息;agentConfigs(nodeName,agentPodIP,{action,filename,content}),agentConfigs包含信息:nodeName:节点名称;agentPodIP:采集器PodIP;action:对应文件的执行操作(create,update,delete);filename:配置文件名称;content:filename文件的内容。
S2、通过监听监控采集配置资源的创建修改删除事件、采集监控采集器monitor-agent的pod创建删除事件、集群上运行的已经声明被监控的服务组件pod的创建删除事件以及云平台节点事件进行动态计算和更新监控采集配置,
S3、通过监控对象所在节点进行配置下发信息封装处理;其中,封装的一个监控采集发送任务包括监控采集具体配置、下发节点的信息以及本次任务发送的类型;任务发送的类型包括新增、更新及删除;下发节点的信息包括节点名称及节点运行的监控采集器monitor-agent pod的IP;
S4、入队到统一的发送队列管理模块进行管理后,封装生成一个配置发送任务,并通过发送任务队列将任务信息下发到对应节点的配置接收处理器agent,通过配置接收处理器agent通知监控采集器monitor-agent将采集配置重新加载生效。
本实施例中的监听集群上监控采集配置新增、删除及修改的变化具体如下:
(1)、监听监控配置资源事件:资源管理和控制器controller接收到监控采集配置资源事件并处理,并判断监控采集配置资源事件的类型:
①、若是创建事件,则执行步骤(2);
②、若是删除事件,则执行步骤(3);
③、若是更新事件,则执行步骤(4);
(2)处理创建事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行步骤(5);
其中,特征匹配FeatureSelector计算过程为:通过agentSelector特征匹配生成节点资源的监控配置文件,自定义的监控配置资源里面的agentSelector列表和集群节点标签之间进行键值对比较,生成配置文件(fileName=crNamespace_crName.conf);通过podSelector特征匹配计算对应服务监控的配置,生成配置文件(fileName=crNamespace_podName.conf);服务ip的动态发现和配置生成是通过获取服务的pod Ip实现的;
(3)、处理删除事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行(5);
(4)、处理更新事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,判断是否为是agentSelector或podSelector修改:
若是,则需要生成旧的匹配规则下配置文件的下发删除任务信息,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行步骤(5);
(5)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若发送成功,则任务结束;
②、若发送失败,则记录状态,任务重新入队,下一步执行步骤(6);
(6)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(7);
(7)、执行预加载,并判断是否预加载成功:
①、若预加载失败,则返回执行结果;
②、若预加载成功,则执行步骤(8);
(8)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
更优地,监听集群节点信息的变化具体如下:
(1)、事件接收:判断是否是节点标签更新:
若是节点标签更新事件,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,action=create新加一个监控配置,action=delete删除当前不匹配的监控配置,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发;
(2)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若是,则任务结束;
②、若否,则记录状态,任务重新入队,下一步执行步骤(3);
(3)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(4);
(4)、执行预加载,并判断是否执行成功:
①、若执行失败,则返回执行结果;
②、若执行成功,则执行步骤(5);
(5)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
更优地,监听采集监控采集器monitor-agent的pod创建删除事件具体如下:
(1)、事件接收:判断是否是监控采集器pod事件:
若是,则判断是否是pod ready事件(其他事件忽略):
若是配置接收处理器agent pod ready事件,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发,下一步执行步骤(3);
(2)、事件接收:判断是否是已经声明的被监控服务的pod:
若是,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,podready事件action=create,pod删除事件action=delete,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发,下一步执行步骤(3);
(3)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若是,则任务结束;
②、若否,则记录状态,任务重新入队,下一步执行步骤(4);
(4)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(5);
(5)、执行预加载,并判断是否执行成功:
①、若执行失败,则返回执行结果;
②、若执行成功,则执行步骤(6);
(6)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
本发明利用Kubernetes自定义资源扩展特性定义统一的监控采集配置资源模型,实现对用户自定义监控采集配置资源的管理,支持声明式的监控对象特征匹配,支持监控采集配置的动态加载,通过对平台资源的事件监听实现对监控对象的实时发现和监控采集配置的实时同步,对整个集群的监控资源进行统一管理,及配置任务下发的统一管理调度,并采用非侵入性的监控采集实现方式实现监控采集和服务组件之间解耦,实现监控采集和服务组件之间解耦,废弃了传统sidecar注入采集器的侵入性监控采集方式。通过对监控采集配置资源已经声明匹配到的业务组件pod的事件实时监听,自动感知pod的变化,动态更新pod运行节点上对应采集器的采集配置。
本发明实现监控采集配置的动态管理,动态管理包括两个方面,一方面是对监控采集配置资源的动态管理,controller通过对监控采集配置资源的事件监听实现对监控采集配置的增删改管理,监听到监控采集配置资源事件通过特征匹配计算生成对应节点采集器的监控配置变更信息(监控配置文件的创建、更新、删除),然后下发给对应采集器,agentSelector匹配节点标签,podSelector匹配pod标签;另一方面是对监控对象的动态管理,controller实时监听集群节点事件、集群服务组件pod事件,通过特征匹配计算生成对应节点采集器的监控配置变更信息(对监控配置文件的创建、更新、删除),然后下发给对应采集器,agentSelector匹配节点标签,podSelector匹配pod标签。
本发明实现了对用户自定义监控采集配置资源的管理,用户可以根据需求创建、更新、删除对应的监控采集配置资源,同时支持监控采集配置的动态加载,监控采集器支持配置reload,暴露reload接口,外部通知reload接口触发reload逻辑,配置更新生效,进而解决了传统监控采集器无法热加载采集配置的缺陷;还支持声明式的监控对象特征匹配,用户在自定义监控采集配置时需要声明该配置选择的监控对象;并通过对平台资源的事件监听实现对监控对象的实时发现和监控采集配置的实时同步更新,对云平台监控资源(包括用户声明的监控采集配置和监控对象资源)进行统一处理和计算,对配置下发任务进行统一的队列调度和发送失败重新入队重试管理。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种声明式云平台监控采集配置动态管理和加载的系统,其特征在于,该系统包括资源管理和控制器controller,监控采集器monitor-agent和配置接收处理器agent,每个集群部署一个资源管理和控制器controller,每个节点部署一个监控采集器monitor-agent和配置接收处理器agent,监控采集器monitor-agent和配置接收处理器agent运行在一个pod内,并部署在集群每个节点上;
资源管理和控制器controller包括事件监听模块、事件处理模块以及配置任务发送管理模块;事件监听模块用于资源管理和控制器controller监听事件;事件处理模块用于资源管理和控制器controller事件处理和配置生成封装;配置任务发送管理模块用于资源管理和控制器controller发送队列管理。
2.根据权利要求1所述的声明式云平台监控采集配置动态管理和加载的系统,其特征在于,资源管理和控制器controller监听事件具体如下:
事件监听模块监听配置资源的创建、修改和删除事件,集群节点扩容缩容事件,集群节点事件以及集群pod创建更新删除事件;
事件监听模块将监听到的变更事件封装配置变化消息发送到通知事件处理模块;其中配置变化信息包括变更操作类型及变更信息;变更操作类型包括增加、删除及更新。
3.根据权利要求1或2所述的声明式云平台监控采集配置动态管理和加载的系统,其特征在于,资源管理和控制器controller事件处理和配置生成封装具体如下:
事件处理模块接收到事件后,选择执行对应的处理逻辑,更新集群元数据;集群元数据包括节点元数据、监控采集器monitor-agent的pod数据、监控采集配置数据以及声明被监控的服务组件pod数据;
计算对应节点采集程序的配置更新:用户在声明采集配置时,声明设置了监控对象特征匹配信息,设置agentSelector声明该采集配置作用于哪些集群节点,通过节点labels去匹配对应的节点,支持节点多标签键值对匹配;设置podSelector声明该采集配置对应哪些服务组件的pod,通过pod的labels去匹配对应的pod,支持pod多标签键值对匹配;
封装消息,入队管理;监控采集封装消息包括监控采集具体配置、下发节点的信息及对应执行的动作action;下发节点的信息包括节点名称、节点运行的监控采集器monitor-agent pod的IP;对应执行的动作action包括增加、删除及修改。
4.根据权利要求3所述的声明式云平台监控采集配置动态管理和加载的系统,其特征在于,资源管理和控制器controller发送队列管理具体如下:
配置任务发送管理模块实时监听入队信号,收到入队信号,处理队列中同一节点任务,进行任务合并处理,重新封装任务,将发送任务入队;
配置任务发送管理模块周期轮询执行配置发送任务,将队列里面的发送任务下发对应采集端,并判断是否发送成功:
①、若发送成功,则任务出队;
②、若发送失败,则记录重试次数,计算下次发送时间,重新入队;
其中,重发时间计算公式如下:
T=T1+(retryNum+1)*interval
其中,T表示下次重发时间;T1表示当前时间;retryNum表示重试次数;interval表示重试周期。
5.根据权利要求4所述的声明式云平台监控采集配置动态管理和加载的系统,其特征在于,所述配置接收处理器agent具体如下:
(1)、配置下发到配置接收处理器agent;
(2)、配置接收处理器agent接收到配置后,读取下发配置及消息头携带的MD5值;
(3)、配置接收处理器agent根据配置内容生成MD5与下发的MD5值比较,进行配置完整性校验:
①、若校验通过,则执行步骤(4);
②、若校验未通过,则返回校验失败状态,等待下次下发;
(4)、配置完整性校验通过后,执行预加载,并预加载是否成功:
①、若成功,则通知采集程序reload加载配置;
②、若预加载失败,则返回预加载失败状态,打印相关失败日志信息。
6.一种声明式云平台监控采集配置动态管理和加载的方法,其特征在于,该方法是基于事件驱动,监听集群上监控采集配置新增、删除及修改的变化、集群节点信息的变化、监控对象的变化和监控采集器的变化,触发对应的更新处理逻辑,计算配置信息,下发到对应节点上的监控采集器,并重新加载,实现动态更新;再利用Kubernetes CRD机制将监控采集配置自定义扩展成Kubernetes资源进行新增、删除、修改及查找管理,通过Kubernetes的资源编排和管理功能实现对监控采集配置的动态管理和加载。
7.根据权利要求6所述的声明式云平台监控采集配置动态管理和加载的方法,其特征在于,该方法具体如下:
S1、通过将监控采集配置定义成一个Kubernetes资源,使得用户能够根据需求创建、更新及删除对应的监控采集配置资源,实现对监控采集配置的动态管理和加载;并利用Kubernetes自定义资源扩展特性实现对监控采集配置资源的统一模型定义;资源模型的定义如下:
apiVersion:lma.inspur.com/v1alpha1
kind:MonitorCollectorConfig
metadata:
name:string
namespace:string
spec:
conf:string
podSelector:[]string
agentSelector:[]string;
资源模型名称:MonitorCollectorConfig;
资源模型配置内容:spec.conf声明的采集配置内容,spec.agentSelector节点标签特征匹配,类型是列表,多个特征标签匹配计算采用逻辑与实现,功能是声明该配置将作用于特征匹配到的节点;spec.podSelector是pod标签特征匹配,类型是列表,多个特征标签匹配计算采用逻辑与实现,功能是声明该配置将被作用于特征匹配到的服务pod;
资源模型元数据:metadata.name监控采集配置资源名称,metadata.namespace该采集配置资源定义的命名空间;
S2、通过监听监控采集配置资源的创建修改删除事件、采集监控采集器monitor-agent的pod创建删除事件、集群上运行的已经声明被监控的服务组件pod的创建删除事件以及云平台节点事件进行动态计算和更新监控采集配置,
S3、通过监控对象所在节点进行配置下发信息封装处理;其中,封装的一个监控采集发送任务包括监控采集具体配置、下发节点的信息以及本次任务发送的类型;任务发送的类型包括新增、更新及删除;下发节点的信息包括节点名称及节点运行的监控采集器monitor-agent pod的IP;
S4、入队到统一的发送队列管理模块进行管理后,封装生成一个配置发送任务,并通过发送任务队列将任务信息下发到对应节点的配置接收处理器agent,通过配置接收处理器agent通知监控采集器monitor-agent将采集配置重新加载生效。
8.根据权利要求6或7所述的声明式云平台监控采集配置动态管理和加载的方法,其特征在于,监听集群上监控采集配置新增、删除及修改的变化具体如下:
(1)、监听监控配置资源事件:资源管理和控制器controller接收到监控采集配置资源事件并处理,并判断监控采集配置资源事件的类型:
①、若是创建事件,则执行步骤(2);
②、若是删除事件,则执行步骤(3);
③、若是更新事件,则执行步骤(4);
(2)处理创建事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行步骤(5);
其中,特征匹配FeatureSelector计算过程为:通过agentSelector特征匹配生成节点资源的监控配置文件,自定义的监控配置资源里面的agentSelector列表和集群节点标签之间进行键值对比较,生成配置文件(fileName=crNamespace_crName.conf);通过podSelector特征匹配计算对应服务监控的配置,生成配置文件(fileName=crNamespace_podName.conf);服务ip的动态发现和配置生成是通过获取服务的pod Ip实现的;
(3)、处理删除事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行(5);
(4)、处理更新事件:通过特征匹配FeatureSelector生成下发任务消息agentConfigs,判断是否为是agentSelector或podSelector修改:
若是,则需要生成旧的匹配规则下配置文件的下发删除任务信息,按照nodeName生成多个下发任务,发送到队列管理模块,下一步执行步骤(5);
(5)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若发送成功,则任务结束;
②、若发送失败,则记录状态,任务重新入队,下一步执行步骤(6);
(6)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(7);
(7)、执行预加载,并判断是否预加载成功:
①、若预加载失败,则返回执行结果;
②、若预加载成功,则执行步骤(8);
(8)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
9.根据权利要求8所述的声明式云平台监控采集配置动态管理和加载的方法,其特征在于,监听集群节点信息的变化具体如下:
(1)、事件接收:判断是否是节点标签更新:
若是节点标签更新事件,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,action=create新加一个监控配置,action=delete删除当前不匹配的监控配置,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发;
(2)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若是,则任务结束;
②、若否,则记录状态,任务重新入队,下一步执行步骤(3);
(3)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(4);
(4)、执行预加载,并判断是否执行成功:
①、若执行失败,则返回执行结果;
②、若执行成功,则执行步骤(5);
(5)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
10.根据权利要求9所述的声明式云平台监控采集配置动态管理和加载的方法,其特征在于,监听采集监控采集器monitor-agent的pod创建删除事件具体如下:
(1)、事件接收:判断是否是监控采集器pod事件:
若是,则判断是否是pod ready事件:
若是配置接收处理器agent pod ready事件,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发,下一步执行步骤(3);
(2)、事件接收:判断是否是已经声明的被监控服务的pod:
若是,则通过特征匹配FeatureSelector生成下发任务消息agentConfigs,pod ready事件action=create,pod删除事件action=delete,生成更新任务发送到队列管理模块,合并处理同节点配置发送任务,发送任务入队列等待下发,下一步执行步骤(3);
(3)、队列管理模块轮询处理队列,发送配置更新,记录发送结果,并判断发送结果是否成功:
①、若是,则任务结束;
②、若否,则记录状态,任务重新入队,下一步执行步骤(4);
(4)、lma-agent接收到消息,处理配置更新任务,校验配置,并判断是否校验成功:
①、若校验失败,则返回执行结果;
②、若校验成功,则执行步骤(5);
(5)、执行预加载,并判断是否执行成功:
①、若执行失败,则返回执行结果;
②、若执行成功,则执行步骤(6);
(6)、lma-agent更新节点采集配置文件,调用监控采集器monitor-agent的reload接口通知监控采集器monitor-agent执行reload,监控采集器monitor-agent热加载采集配置,配置加载生效。
CN202210024496.0A 2022-01-11 2022-01-11 声明式云平台监控采集配置动态管理和加载的系统及方法 Pending CN114416200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210024496.0A CN114416200A (zh) 2022-01-11 2022-01-11 声明式云平台监控采集配置动态管理和加载的系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210024496.0A CN114416200A (zh) 2022-01-11 2022-01-11 声明式云平台监控采集配置动态管理和加载的系统及方法

Publications (1)

Publication Number Publication Date
CN114416200A true CN114416200A (zh) 2022-04-29

Family

ID=81270495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210024496.0A Pending CN114416200A (zh) 2022-01-11 2022-01-11 声明式云平台监控采集配置动态管理和加载的系统及方法

Country Status (1)

Country Link
CN (1) CN114416200A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001990A (zh) * 2022-05-25 2022-09-02 济南浪潮数据技术有限公司 一种基于声明式API的跨地域openstack集群管理方法及系统
CN115065511A (zh) * 2022-05-30 2022-09-16 济南浪潮数据技术有限公司 一种处理集群异常事件的方法及系统
CN115150291A (zh) * 2022-07-05 2022-10-04 中国银行股份有限公司 基于事件驱动的运维系统及方法
CN115277568A (zh) * 2022-07-20 2022-11-01 重庆星环人工智能科技研究院有限公司 一种数据发送方法、装置、设备及存储介质
CN115361440A (zh) * 2022-08-12 2022-11-18 新浪网技术(中国)有限公司 多Kubernetes集群的端点资源的更新方法、更新装置及电子设备
CN115567526A (zh) * 2022-09-21 2023-01-03 中国平安人寿保险股份有限公司 数据监控方法、装置、设备及介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115001990A (zh) * 2022-05-25 2022-09-02 济南浪潮数据技术有限公司 一种基于声明式API的跨地域openstack集群管理方法及系统
CN115065511A (zh) * 2022-05-30 2022-09-16 济南浪潮数据技术有限公司 一种处理集群异常事件的方法及系统
CN115150291A (zh) * 2022-07-05 2022-10-04 中国银行股份有限公司 基于事件驱动的运维系统及方法
CN115277568A (zh) * 2022-07-20 2022-11-01 重庆星环人工智能科技研究院有限公司 一种数据发送方法、装置、设备及存储介质
CN115361440A (zh) * 2022-08-12 2022-11-18 新浪网技术(中国)有限公司 多Kubernetes集群的端点资源的更新方法、更新装置及电子设备
CN115361440B (zh) * 2022-08-12 2024-06-18 新浪技术(中国)有限公司 多Kubernetes集群的端点资源的更新方法、更新装置及电子设备
CN115567526A (zh) * 2022-09-21 2023-01-03 中国平安人寿保险股份有限公司 数据监控方法、装置、设备及介质
CN115567526B (zh) * 2022-09-21 2024-05-14 中国平安人寿保险股份有限公司 数据监控方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN114416200A (zh) 声明式云平台监控采集配置动态管理和加载的系统及方法
CN110196731B (zh) 一种运维系统、方法及存储介质
EP1872606B1 (en) Method and system for centralized memory management in wireless terminal devices
CN108920153B (zh) 一种基于负载预测的Docker容器动态调度方法
CN105653425B (zh) 基于复杂事件处理引擎的监控系统
CN111209011A (zh) 一种跨平台的容器云自动化部署系统
CN109150987B (zh) 基于主机层和容器层的两层式容器集群弹性扩容方法
US11223680B2 (en) Computer servers for datacenter management
US20030149756A1 (en) Configuration management method and system
CN112667362B (zh) Kubernetes上部署Kubernetes虚拟机集群的方法与系统
CN112800017B (zh) 分布式日志采集方法、装置、介质及电子设备
CN104639374A (zh) 一种应用程序部署管理系统
CN110795503A (zh) 分布式存储系统的多集群数据同步方法及相关装置
CN110895488B (zh) 任务调度方法及装置
CN111930706B (zh) 基于远程调用的分布式网络文件存储系统和方法
US7783743B1 (en) Methods and apparatus for processing electronic mail-related data
CN101594256A (zh) 容灾方法、装置和系统
CN115640110B (zh) 分布式云计算系统调度方法和装置
CN117130730A (zh) 面向联邦Kubernetes集群的元数据管理方法
CN111666138A (zh) 定时任务处理方法、装置、系统、计算机设备和存储介质
Weng et al. Kmon: An in-kernel transparent monitoring system for microservice systems with ebpf
CN114900449A (zh) 一种资源信息管理方法、系统及装置
CN114020572A (zh) 分布式告警方法及装置
CN113672452A (zh) 一种数据采集任务的运行监控方法、系统
CN112698929A (zh) 一种信息采集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination