CN114064289A - 集群管理系统 - Google Patents

集群管理系统 Download PDF

Info

Publication number
CN114064289A
CN114064289A CN202111407242.9A CN202111407242A CN114064289A CN 114064289 A CN114064289 A CN 114064289A CN 202111407242 A CN202111407242 A CN 202111407242A CN 114064289 A CN114064289 A CN 114064289A
Authority
CN
China
Prior art keywords
inspection
cluster
controller
task
managed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111407242.9A
Other languages
English (en)
Inventor
吕冬冬
刘青松
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202111407242.9A priority Critical patent/CN114064289A/zh
Publication of CN114064289A publication Critical patent/CN114064289A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种集群管理系统,包括纳管集群和多个被纳管集群;被纳管集群包括巡检代理控制器和巡检状态控制器;纳管集群的纳管控制器用于根据多个被纳管集群的注册信息,对多个被纳管集群进行部署,根据各被纳管集群之间的关系和生成的巡检任务,确定多个目标被纳管集群,并将巡检任务发送给纳管集群的巡检任务控制器;巡检任务控制器生成巡检策略和巡检类型,下发给多个目标被纳管集群的巡检代理控制器,以使巡检代理控制器执行巡检任务,由多个目标被纳管集群的巡检状态控制器将巡检结果上报给纳管控制器。本发明是实现了多个目标被纳管集群之间资源的合理分布和配置,进而实现跨地域统一管理,降低运维的复杂度。

Description

集群管理系统
技术领域
本发明涉及云计算技术领域,具体涉及一种集群管理系统。
背景技术
集群是一组相互独立的、通过高速网络互联的计算机,每一计算机称之为集群中的节点。对于大型的集群,例如:服务器集群、容器集群或者虚拟机集群,需要对集群中节点的服务状态、资源使用率、日志等进行定期的检查,并根据检查结果,对相关人员进行通知。
目前常用的方案大部分都是单集群管理,单个集群的巡检任务执行后,自动上报巡检结果到控制中心,但是,巡检任务只能作用于单个集群,当用户具有多个集群的时候,例如本地集群与公有云混合,则需要多套巡检系统,这种方式,仅仅实现了巡检任务的堆叠,无法实现跨地域统一管理,增加了运维的复杂度。
发明内容
本发明提供一种集群管理系统,以解决现有技术中对多集群进行管理时,无法实现跨地域统一管理,增加了运维的复杂度的技术问题。
本发明解决上述技术问题的技术方案如下:
一种集群管理系统,包括纳管集群和多个被纳管集群;
所述纳管集群包括纳管控制器和巡检任务控制器;所述被纳管集群包括巡检代理控制器和巡检状态控制器;
所述纳管控制器用于根据多个所述被纳管集群的注册信息,对多个所述被纳管集群进行部署,根据各所述被纳管集群之间的关系和生成的巡检任务,确定多个目标被纳管集群,并将所述巡检任务发送给巡检任务控制器;
所述巡检任务控制器用于根据所述巡检任务生成巡检策略和巡检类型,并下发给多个所述目标被纳管集群的巡检代理控制器;
所述巡检代理控制器用于根据所述巡检策略和巡检类型,执行所述巡检任务;
所述巡检状态控制器用于将所述巡检任务的巡检结果上报给所述纳管控制器。
进一步地,上述所述的集群管理系统中,所述纳管控制器还用于监听用户发送的集群创建、删除与更新的请求。
进一步地,上述所述的集群管理系统中,所述纳管控制器还用于当各被管控集群的巡检结果与原设定的期望结果不符合时,或者,存在人为更新各被管控集群时,对各被管控集群的资源进行调整,以使得各被管控集群的巡检结果与原设定的期望结果相符。
进一步地,上述所述的集群管理系统中,所述巡检任务控制器,还用于对所述巡检任务的生命周期进行管理,当所述巡检任务对应的巡检策略发生变化时,对所述巡检任务进行更新。
进一步地,上述所述的集群管理系统中,所述巡检代理控制器,具体用于:
若所述巡检类型为自动巡检,按照预设的巡检周期和所述巡检策略,执行所述巡检任务;
若所述巡检类型为手段巡检,按照所述巡检策略,执行所述巡检任务。
进一步地,上述所述的集群管理系统中,所述巡检状态控制器,还用于若接收到查看请求,将所述巡检任务的巡检结果发送给所述目标显示设备;所述目标显示设备根据所述查看请求携带的设备标识确定。
进一步地,上述所述的集群管理系统中,所述纳管控制器还用于对所述巡检结果进行分析,得到集群监控结果。
进一步地,上述所述的集群管理系统中,所述纳管控制器还用于将所述监控结果按照以下方式中的至少一种进行处理:
记录到日志文件;
将分析结果进行短信发送;
将分析结果进行邮件发送。
进一步地,上述所述的集群管理系统中,所述纳管控制器还用于监测每个被纳管集群的心跳,并输出无心跳集群的报警信息。
进一步地,上述所述的集群管理系统中,所述纳管控制器还用于根据预设的异常节点修复方式对所述无心跳集群进行修复。
本发明的有益效果是:
在根据实际需求生成巡检任务后,根据各所述被纳管集群之间的关系和生成的巡检任务,确定多个目标被纳管集群,并将所述巡检任务发送给巡检任务控制器,再由巡检任务控制器根据所述巡检任务生成巡检策略和巡检类型,并下发给多个所述目标被纳管集群的巡检代理控制器,以执行所述巡检任务,实现了多个目标被纳管集群之间资源的合理分布和配置,达到全局资源的平衡优化,还可以在集群间资源条件允许的情况下,最大限度地高效实现跨集群的数据访问,进而实现跨地域统一管理,降低运维的复杂度。
附图说明
图1为本发明的集群管理系统的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明的集群管理系统的结构示意图,如图1所示,本实施例的集群管理系统具体可以包括纳管集群1和多个被纳管集群2。其中,所述纳管集群1包括纳管控制器11和巡检任务控制器12;所述被纳管集群2包括巡检代理控制器21和巡检状态控制器22。
在一个具体实现过程中,所述纳管控制器11用于根据多个所述被纳管集群2的注册信息,对多个所述被纳管集群2进行部署,根据各所述被纳管集群2之间的关系和生成的巡检任务,确定多个目标被纳管集群,并将所述巡检任务发送给巡检任务控制器12。
具体地,每一个被纳管的集群都由一个名为A的结构体注册信息到纳管中心,该结构体包括集群的地址、ca证书、访问集群的令牌以及巡检任务的生成。当个需要进行巡检时,纳管控制器11生成巡检任务后,会结合各所述被纳管集群2之间的关系,确定与该巡检任务相关的多个被纳管集群2作为多个目标被纳管集群,并将所述巡检任务发送给巡检任务控制器12。
所述巡检任务控制器12用于根据所述巡检任务生成巡检策略和巡检类型,并下发给多个所述目标被纳管集群的巡检代理控制器21;
在一个具体实现过程中,所述巡检任务控制器12可以根据所述巡检任务制定并生成巡检策略和巡检类型,然后下发给多个所述目标被纳管集群的巡检代理控制器21。
所述巡检代理控制器21用于根据所述巡检策略和巡检类型,执行所述巡检任务;
在一个具体实现过程中,多个所述目标被纳管集群的巡检代理控制器21用于根据所述巡检策略和巡检类型,执行所述巡检任务。
具体地,若所述巡检类型为自动巡检,按照预设的巡检周期和所述巡检策略,执行所述巡检任务;若所述巡检类型为手段巡检,按照所述巡检策略,执行所述巡检任务。
所述巡检状态控制器22用于将所述巡检任务的巡检结果上报给所述纳管控制器11。
在一个具体实现过程中,所述巡检状态控制器22可以周期性的获取所述巡检任务的巡检结果,并将所述巡检任务的巡检结果上报给所述纳管控制器11。
本实施例的集群管理系统,在根据实际需求生成巡检任务后,根据各所述被纳管集群2之间的关系和生成的巡检任务,确定多个目标被纳管集群,并将所述巡检任务发送给巡检任务控制器12,再由巡检任务控制器12根据所述巡检任务生成巡检策略和巡检类型,并下发给多个所述目标被纳管集群的巡检代理控制器21,以执行所述巡检任务,实现了多个目标被纳管集群之间资源的合理分布和配置,达到全局资源的平衡优化,还可以在集群间资源条件允许的情况下,最大限度地高效实现跨集群的数据访问,进而实现跨地域统一管理,降低运维的复杂度。
在一个具体实现过程中,所述纳管控制器11还用于监听用户发送的集群创建、删除与更新的请求。以及,所述纳管控制器11还用于当各被管控集群的巡检结果与原设定的期望结果不符合时,或者,存在人为更新各被管控集群时,对各被管控集群的资源进行调整,以使得各被管控集群的巡检结果与原设定的期望结果相符。例如A集群增加了一个巡检任务a,控制中心能够检讨到该变化,从而增加一个巡检任务a,并且做巡检的下发。
在一个具体实现过程中,所述巡检任务控制器12,还用于对所述巡检任务的生命周期进行管理,当所述巡检任务对应的巡检策略发生变化时,对所述巡检任务进行更新。
具体地,巡检任务控制器12是维护巡检任务的生命周期的,单个巡检任务的巡检策略有可能会进行更改或者替换,巡检任务控制器12会在所述巡检任务对应的巡检策略发生变化时,对所述巡检任务进行更新。
在一个具体实现过程中,所述巡检状态控制器22,还用于若接收到查看请求,将所述巡检任务的巡检结果发送给所述目标显示设备;所述目标显示设备根据所述查看请求携带的设备标识确定。
在一个具体实现过程中,所述纳管控制器11还用于对所述巡检结果进行分析,得到集群监控结果,并将所述监控结果按照以下方式中的至少一种进行处理:
记录到日志文件;
将分析结果进行短信发送;
将分析结果进行邮件发送。
在一个具体实现过程中,所述纳管控制器11还用于监测每个被纳管集群2的心跳,并输出无心跳集群的报警信息,并可以根据预设的异常节点修复方式对所述无心跳集群进行修复。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种集群管理系统,其特征在于,包括纳管集群和多个被纳管集群;
所述纳管集群包括纳管控制器和巡检任务控制器;所述被纳管集群包括巡检代理控制器和巡检状态控制器;
所述纳管控制器用于根据多个所述被纳管集群的注册信息,对多个所述被纳管集群进行部署,根据各所述被纳管集群之间的关系和生成的巡检任务,确定多个目标被纳管集群,并将所述巡检任务发送给巡检任务控制器;
所述巡检任务控制器用于根据所述巡检任务生成巡检策略和巡检类型,并下发给多个所述目标被纳管集群的巡检代理控制器;
所述巡检代理控制器用于根据所述巡检策略和巡检类型,执行所述巡检任务;
所述巡检状态控制器用于将所述巡检任务的巡检结果上报给所述纳管控制器。
2.根据权利要求1所述的集群管理系统,其特征在于,所述纳管控制器还用于监听用户发送的集群创建、删除与更新的请求。
3.根据权利要求2所述的集群管理系统,其特征在于,所述纳管控制器还用于当各被管控集群的巡检结果与原设定的期望结果不符合时,或者,存在人为更新各被管控集群时,对各被管控集群的资源进行调整,以使得各被管控集群的巡检结果与原设定的期望结果相符。
4.根据权利要求1所述的集群管理系统,其特征在于,所述巡检任务控制器,还用于对所述巡检任务的生命周期进行管理,当所述巡检任务对应的巡检策略发生变化时,对所述巡检任务进行更新。
5.根据权利要求1所述的集群管理系统,其特征在于,所述巡检代理控制器,具体用于:
若所述巡检类型为自动巡检,按照预设的巡检周期和所述巡检策略,执行所述巡检任务;
若所述巡检类型为手段巡检,按照所述巡检策略,执行所述巡检任务。
6.根据权利要求1所述的集群管理系统,其特征在于,所述巡检状态控制器,还用于若接收到查看请求,将所述巡检任务的巡检结果发送给所述目标显示设备;所述目标显示设备根据所述查看请求携带的设备标识确定。
7.根据权利要求1所述的集群管理系统,其特征在于,所述纳管控制器还用于对所述巡检结果进行分析,得到集群监控结果。
8.根据权利要求7所述的集群管理系统,其特征在于,所述纳管控制器还用于将所述监控结果按照以下方式中的至少一种进行处理:
记录到日志文件;
将分析结果进行短信发送;
将分析结果进行邮件发送。
9.根据权利要求1所述的集群管理系统,其特征在于,所述纳管控制器还用于监测每个被纳管集群的心跳,并输出无心跳集群的报警信息。
10.根据权利要求9所述的集群管理系统,其特征在于,所述纳管控制器还用于根据预设的异常节点修复方式对所述无心跳集群进行修复。
CN202111407242.9A 2021-11-24 2021-11-24 集群管理系统 Pending CN114064289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111407242.9A CN114064289A (zh) 2021-11-24 2021-11-24 集群管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111407242.9A CN114064289A (zh) 2021-11-24 2021-11-24 集群管理系统

Publications (1)

Publication Number Publication Date
CN114064289A true CN114064289A (zh) 2022-02-18

Family

ID=80275875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111407242.9A Pending CN114064289A (zh) 2021-11-24 2021-11-24 集群管理系统

Country Status (1)

Country Link
CN (1) CN114064289A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170275A (zh) * 2022-12-30 2023-05-26 中国联合网络通信集团有限公司 一种云网络运维管理方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116170275A (zh) * 2022-12-30 2023-05-26 中国联合网络通信集团有限公司 一种云网络运维管理方法和装置

Similar Documents

Publication Publication Date Title
US10838777B2 (en) Distributed resource allocation method, allocation node, and access node
WO2021129367A1 (zh) 一种监控分布式存储系统的方法及装置
CN101118521B (zh) 跨越多个逻辑分区分布虚拟输入/输出操作的系统和方法
CN104168333B (zh) Proxzone服务平台的工作方法
US7984453B2 (en) Event notifications relating to system failures in scalable systems
CN105939290B (zh) 一种分配资源的方法及装置
CN207543147U (zh) 一种客服中心的微服务调控系统
CN106789362A (zh) 一种设备管理方法及网管系统
CN202918339U (zh) 一种基于云计算的运载火箭地面测发控系统
CN104836819A (zh) 动态负载均衡的方法、系统及监控调度设备
CN109886693B (zh) 区块链系统的共识实现方法、装置、设备和介质
CN104092756A (zh) 一种基于dht机制的云存储系统的资源动态分配方法
CN102724313B (zh) 基于云计算的集群式桥梁运营安全监控系统
CN105872061B (zh) 一种服务器集群管理方法、装置及系统
CN107105013B (zh) 文件的处理方法、服务器、终端和系统
CN110677274A (zh) 一种基于事件的云网络服务调度方法及装置
US20220179749A1 (en) Backup processing method and server
CN112433808B (zh) 基于网格计算的网络安全事件检测系统及方法
CN108696392A (zh) 一种通信状态监控方法、网络节点及计算机可读存储介质
CN109688006B (zh) 支持目标集群动态探测的高性能网络日志消息分发方法
CN109739640A (zh) 一种基于申威架构的容器资源管理系统
CN114064289A (zh) 集群管理系统
CN115794423A (zh) 一种智能机房的管理方法、装置、电子设备及存储介质
CN113885794B (zh) 基于多云存储的数据访问方法、装置、计算机设备及介质
US20240118935A1 (en) Pod deployment method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination