CN115037757A - 一种多集群服务管理系统 - Google Patents

一种多集群服务管理系统 Download PDF

Info

Publication number
CN115037757A
CN115037757A CN202210747464.3A CN202210747464A CN115037757A CN 115037757 A CN115037757 A CN 115037757A CN 202210747464 A CN202210747464 A CN 202210747464A CN 115037757 A CN115037757 A CN 115037757A
Authority
CN
China
Prior art keywords
cluster
service module
management
management service
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210747464.3A
Other languages
English (en)
Other versions
CN115037757B (zh
Inventor
陈曦
王超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210747464.3A priority Critical patent/CN115037757B/zh
Publication of CN115037757A publication Critical patent/CN115037757A/zh
Application granted granted Critical
Publication of CN115037757B publication Critical patent/CN115037757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种多集群服务管理系统,包括UI服务模块,其从数据共享服务模块获取多集群的状态信息并将状态信息反馈给请请求状态信息的客户端,并将客户端发起的对应的管理请求发送到多集群统一管理服务模块或对应的集群上;数据共享服务模块,其存储并管理所有集群产生的数据;独立网关服务模块,其根据集群名称、地址以及服务接口与对应的集群建立对应的映射关系,并根据集群名称、地址以及服务接口将对应的网络请求转发到对应的集群中;多集群管理服务模块,其对系统下的多个集群的运行状态进行管理。通过本发明提出的一种多集群服务管理系统,保证多集群规模的可扩展性与集群内节点/算力的可扩展性以及可拓展性。

Description

一种多集群服务管理系统
技术领域
本发明属于计算机领域,具体涉及一种多集群服务管理系统。
背景技术
为合理利用算力,实际中企业/客户通常对拥有的众多节点通过划分不同的集群的方式进行管理,不同的集群所分配的任务不同,诸如:分配于开发环境,分配于测试环境,分配于预发布环境,分配于真实生产环境,分配于边缘环境等;并且,不同的环境下,集群的个数通常并不局限于单个。
在特殊情况下,受各个集群硬件版本、软件版本、网络配置等环境因素的影响,需要保证相互的基础功能各不干扰,实现绝对的集群分离。然而,更通用的场景下,集群间需要有数据流的交互,用以打造低延迟、高可用的服务。例如,开发版本向测试版本继而向生产版本迭代的过程中,同步需要各集群间的无缝衔接;在操作方面,将众多的应用程序部署到不同集群中,也可解决版本冲突、配置冲突以及软件生命周期管理等需求带来的问题。因此,设计与开发一种统一的涉及多集群服务编排与管理平台具有突出意义。kubernetes已经是容器编排的业界标准,各个云厂商都提供了相关的集群托管服务,同时不少公司也存在自建集群。如何将应用发布到不同k8s集群,对跨多集群的应用进行管理则是k8s中待解决的问题。
发明内容
为解决以上问题,本发明提出一种多集群服务管理系统,包括UI服务模块、数据共享服务模块、独立网关服务模块、多集群统一管理服务模块,其中:
所述UI服务模块配置用于从所述数据共享服务模块获取多集群的状态信息,并将所述状态信息反馈给请请求状态信息的客户端,以及将客户端发起的对应的管理请求发送到所述多集群统一管理服务模块或对应的集群上;
所述数据共享服务模块配置用于存储并管理所有集群产生的静态/动态数据;
所述独立网关服务模块配置用于根据集群名称、地址以及服务接口与对应的集群建立对应的映射关系,并根据所述集群名称、地址以及服务接口将对应的网络请求转发到对应的集群中;
所述多集群管理服务模块配置用于对所述系统下的多个集群的运行状态进行管理。
在本发明的一些实施方式中,多集群统一管理服务模包括:
多集群管理服务模块,所述多集群管理服务模块配置用于实现对集群的运行状态的管理以及向所述数据共享模块提供集群的状态信息。
在本发明的一些实施方式中,多集群统一管理服务模包括:
节点管理服务模块,所述节点管理服务模块配置用于对集群内的节点的运行状态进行管理。
在本发明的一些实施方式中,多集群统一管理服务模包括:
用户管理服务模块,所述用户管理服务模块配置用于为集群所属的用户及用户的角色进行管理;
鉴权管理服务模块,所述鉴权管理服务模块配置用于对用户集群的操作行为进行权限认定;
审批管理服务模块,所述审批管理服务模块配置用于对向用户分配的集群资源进行审批。
在本发明的一些实施方式中,多集群统一管理服务模包括:
日志服务模块,所述日志服务模块配置用于从所述数据共享服务模块中获取日志数据并对基于模块类型、用户类型、时间范围对所述日志数据进行分析。
在本发明的一些实施方式中,多集群统一管理服务模包括:
DNS管理服务模块,所述DNS管理服务模块配置用于为所有集群提供一级DNS服务。
在本发明的一些实施方式中,多集群统一管理服务模包括:
镜像管理服务模块,所述镜像管理服务模块配置用于对所有集群所用的模型文件以及数据文件进行管理;
配置管理服务模块,所述配置管理服务模块配置用于为集群提供配置参数以及为负载应用提供对应的算法参数。
在本发明的一些实施方式中,多集群统一管理服务模包括:
监控服务模块,所述监控服务模块配置用于对集群内的硬件状态进行监控。
在本发明的一些实施方式中,多集群统一管理服务模包括:
告警服务模块,所述告警服务模块配置用于基于设定的监控项与设置的阈值对设定的监控项进行监控,并将监控信息根据权限等级推送到满足权限要求的用户。
在本发明的一些实施方式中,多集群统一管理服务模包括:
集群通信服务注入模块,所述集群通信注入模块配置用于实现集群间服务信息的互通;
模型管理服务模块,所述模型管理服务模块配置用于对集群负载所使用的模型文件进行存储与管理。
通过本发明提出的一种多集群服务管理系统,设计一种统一的涉及多集群服务编排与管理的平台架构,可实现负载对象在多集群的分发,保证多集群数据管理的时效性、安全性、隔离性和高可用性,保证多集群规模的可扩展性与集群内节点/算力的可扩展性,并保证对原有独立集群的配置与运行干扰最小化,保证平台功能的可拓展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种多集群服务管理系统的结构示意图;
图2为本发明实施例提供的一种多集群服务管理系统的多集群统一管理服务模块的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
随着云原生领域的快速发展,越来越多的企业/客户/组织将涉及到图像识别、语音识别、文本生成、大模型等众多领域迁移至Kubernetes平台之上。随着企业业务的快速发展,多集群也逐步成为数据中心建设的基础架构,大规模多集群管理、跨集群弹性与迁移等场景推动云原生多云相关技术的快速发展。然而,Kubernetes作为一种单集群管理方案,虽然支持命名空间(namespace)用于软隔离,在不同的虚拟隔离场景中满足多租户管理和数据流转的需求,但仍无法保证多个实体集群的数据交互与统一管理。此外,在实际的生产落地过程中,云原生的多集群亦面临如下挑战:1.集群繁多的重复劳动:运维工程师需要应对繁琐的集群配置等管理差异问题;2.业务过度分散的维护难题:应用在各集群的差异化配置繁琐;业务跨集群访问以及集群间的应用同步难以管理;3.侵入式管理集群:对原有集群注入多种甚至所有管理服务,干扰原有集群的正常运行与资源的正常占用。
本发明以Docker、Kubernetes为核心支撑技术框架,提出一种涉及多集群服务编排与统一管理的平台,同时保证多集群数据管理的时效性、安全性、隔离性和高可用性,保证多集群规模的可扩展性与集群内节点/算力的可扩展性,并保证对原有独立集群的配置与运行干扰最小化。
如图1所示,本发明提出
本发明提出一种多集群服务管理系统,包括UI服务模块1、数据共享服务模块2、独立网关服务模块3、多集群统一管理服务模块4,其中:
所述UI服务模块1配置用于从所述数据共享服务模块2获取多集群的状态信息,并将所述状态信息反馈给请请求状态信息的客户端,以及将客户端发起的对应的管理请求发送到所述多集群统一管理服务模块4或对应的集群上;
所述数据共享服务模块2配置用于存储并管理所有集群产生的静态/动态数据;
所述独立网关服务模块3配置用于根据集群名称、地址以及服务接口与对应的集群建立对应的映射关系,并根据所述集群名称、地址以及服务接口将对应的网络请求转发到对应的集群中;
所述多集群管理服务模块4配置用于对所述系统下的多个集群的运行状态进行管理。
在本发明中,多集群服务管理系统由四大基础模块构成:UI(User Interface,用户界面)服务模块1、数据共享服务模块2、独立网关服务模块3、多集群统一管理服务模块4、以及各现有集群中的服务编排模块。其中,UI服务模块1、多集群统一管理服务模块4、数据共享服务模块3位于host节点,各现有集群中的服务编排模块位于member集群中。其中host节点是指多集群管理等控制面服务所在的节点,接受用户提交的工作负载部署需求,将之同步到member集群,并从member集群同步工作负载后续的运行状况;Member集群:由一个k8s集群构成,负责运行用户提交的工作负载。
在本发明的实施例中,UI服务模块1负责处理与响应所有用户客户端对所有集群的管理请求,扮演平台前端服务的角色,该模块服务通过docker部署。
数据共享服务模块2负责存储与多集群统一管理服务模块和member集群产生的静态/动态数据,包括了数据库(如mysql,用于存储管理数据,维护平台当前状态)、镜像仓库(如harbor,用于管理平台的镜像文件)、文件仓库(如hdfs,用于管理平台的模型文件与数据文件)三个组件。现有集群的服务编排模块所指即为现有的member集群,每个集群均原有各自的基础服务。管理平台只对该集群的资源进行纳管,除注入通信服务外,不对原有的基础服务作任何干预。各集群的通信服务同host节点的网关服务联通,保证统一管理平台的纳管,并可间接实现各集群的网络联通。member集群即可为原生k8s集群,亦可为knative集群;其中,knative集群用于运行中长尾负载,k8s集群用于运行其余负载。进一步,在本发明的一些实施例中,UI服务模块1设计为具有两种模式。对于多集群统一管理服务模块4的信息,UI界面对所有集群进行全局展示,包括集群概览信息查询、节点概览信息查询、用户信息查询、日志信息查询等,上述信息的特定为所有集群信息的并集。对于member集群内运行负载信息,UI模式设计为可以分集群进行查看,并支持集群分显页面的自由跳转,该些信息包含:集群内服务产生的告警信息、集群内服务产生的站内信通知信息、集群配置信息、集群服务参数信息、集群内模型/镜像信息、集群内资源监控信息等。
在本发明的一些实施例中,数据共享服务模块2将多集群统一管理服务模块和所有集群产生的静态/动态数据存储至其中,并提供支持数据的增、删、改、查服务,数据既包括管理数据、运行数据,亦包括镜像文件、模型文件、数据文件等。特别的,针对集群产生的静态/动态数据,需明确数据的产生集群,机制如下:集群内的通讯服务会读取集群域名环境变量,请求多集群管理服务获取对应该集群域名的集群id;集群内的众服务在向数据共享模块发送数据增、删、改、查请求时,首先访问通信服务获取集群id,并按照集群id从数据库中操作相关联的数据。
在本发明的一些实施例中,多集群管理的核心概念为管理、访问不同member集群内的服务,独立网关服务模块3的功能即为按照集群名称的划分将请求转送至目标集群的目标服务上。独立网关服务的请求url设计为IP:Port/<module>/<interface>,其中IP和Port分别为网关服务的IP地址和端口号,module为目标服务对应的服务名称,interface为目标服务的接口名称。此外。网关服务请求的header体中可选择性包括集群名称,若包括集群名称,则将请求转发至k8s集群内服务;若不包含集群名称,则将请求转发至host节点。在添加集群时,集群域名存储至数据共享模块的数据库中,独立网关服务根据请求体header中的集群名称查询数据库获取集群域名,联同请求url中的module名称和interface名称拼合目标接口url,完成目标接口url的访问和转发,从而结束该次请求。
如图2所示,在本发明的一些实施方式中,多集群统一管理服务模4包括:
多集群管理服务模块5,所述多集群管理服务模块5配置用于实现对集群的运行状态的管理以及向所述数据共享模块2提供集群的状态信息。
在本实施例中,多集群管理服务模块5作为集群运维的核心功能,功能包括:1.添加集群;2.创建集群;3.移除集群;4.删除集群;5.重置集群;6.提供所有集群的概览信息,提供某集群的详细信息;7.批量管理某集群中的taint、label、annotation。
集群添加功能为将已搭建完成的k8s集群纳入平台的管控范围,该集群已配置有唯一的集群域名,需要用户赋予唯一命名,需要用户添加管理标签和描述,并需要用户选择集群的资源划分方式。资源划分方式包括节点方式、池化方式,节点方式集群面向用户组的资源分配最小粒度为节点,池化方式面向用户组的资源分配最小粒度为0.001核CPU、1M内存、1台GPU等。集群添加后,将集群相关属性存储至数据共享模块的数据库中,集群对象的属性包括集群域名、集群名称、集群标签、集群资源划分方式、集群描述。集群添加后,请求节点管理服务的节点添加功能,将集群内所有节点纳入平台管理。集群添加后,请求节点管理服务的label、taint、annotation添加功能,将集群内所有节点的所有label、taint、annotation信息纳入管理。集群添加后,请求DNS管理服务,在所有DNS服务中添加新增集群域名信息,保证集群管理的连通性和时效性。
移除集群功能仅删除该集群在数据共享模块中的集群信息记录,因此,已移除出平台管理的集群重新添加至平台管理时,移除时仍运行在集群中的服务恢复如初,从而保证业务的连续性。
删除集群功能除删除该集群在数据共享模块中的集群信息记录外,需请求节点管理服务删除节点功能,删除集群内的所有节点,需请求节点管理服务的label、taint、annotation删除功能,将集群内所有节点的所有label、taint、annotation信息删除管理。此外,需初始化Kubernetes集群,删除已运行在集群中的所有命名空间、服务;与此用时,需删除数据共享模块中与集群信息相关联的所有用户记录和业务记录。
创建集群功能为集群所有节点均已安装完成操作系统的基础上,完成集群的搭建。集群类型可选择原生k8s集群,亦可选择knative集群(可用于部署中长尾应用)。重置集群为释放集群的现有资源,包括负载、命名空间等,恢复集群至集群创建完成初始状态,并可重新定义集群的资源划分方式,增加集群管理灵活度。
集群标注管理为在集群层次上批量管理集群节点的taint、annotation、label等资源,其中annotation资源便于对集群内的节点进行批量标注管理,label资源用于方便的将负载定向的部署至集群的部分节点上,taint资源便于定义负载与集群节点的亲和性关系,可驱逐负载用于节点解列与删除。所有taint、label、annotation的key与value的值均可通过调用k8s相关接口获取。故在集群添加、节点添加时,获取相关节点上的label、annotation、taint信息,并存储至数据共享模块;且在集群删除、节点删除时,将相关节点存储在数据共享模块的label、annotation、taint信息一并删除。
集群概览信息的查询功能为请求数据共享模块获取集群添加时配置的域名、名称、标签等信息,并请求通过网关模块请求集群内的通讯模块,通过k8s接口获取kubernetes的健康运行状态。集群详细信息的查询功能为请求集群内用户管理服务、配置管理服务、监控管理服务、告警管理服务等获取集群用户/用户组信息、集群配置信息、集群资源信息等。
在本发明的一些实施方式中,多集群统一管理服务模包括:
节点管理服务模块6,所述节点管理服务模块6配置用于对集群内的节点进行管理。
在本实施例中,节点管理服务模块6作为多集群运维的核心功能,功能包括:1.为某集群添加节点;2.为某集群删除节点;3.提供某集群所有节点的概览信息,提供某集群某节点的详细信息;4.为某集群中的某节点管理(增、删、改、查)taint、label、annotation。
节点添加方式包括:1.手动节点添加;2.自动节点添加。
手动添加前提为待添加节点已安装kubelet、kube-proxy等k8s组件,调用待加入集群master节点的kubeadm接口,获取join命令,供用户自行于待添加节点执行命令完成添加操作。
自动添加方式要求待添加节点完成操作系统的安装,完成ssh免密登录配置。自动节点添加功能支持批量操作,可通过上传csv文件的方式提交所有待添加节点的信息。节点管理服务支持自动节点发现功能,可自动获得所有与集群Master节点具有连通性的节点的IP地址。在获取各节点IP地址、ssh端口号后,根据节点类型以多进程的方式自动远程完成驱动、docker、nvidia-docker、kubelet、kube-proxy等组件的配置与安装,并将待添加节点以node节点的角色加入至k8s集群中,具体步骤如下:
a.安装驱动,根据节点类型完成驱动安装,如该节点安装有nvidia-GPU,则安装对应相应型号的版本驱动。
b.安装docker,根据操作系统版本下载docker安装包并安装。
c.安装nvidia-docker,若节点安装有nvidia-GPU,则需安装nvidia-docker并配置docker。
d.下载k8s组件并安装,包括kubelet、kubeproxy等。
e.导入平台基础镜像包,并加载至docker中
f.在k8s集群master节点获取节点加入的join命令,并在待加入节点执行,完成节点添加。
如节点已提前完成上述某步骤要求的操作,则自动跳过。
节点添加后,请求集群中监控管理服务,获取节点的静态属性信息,并将相关属性存储至数据共享模块的数据库中,节点对象的属性包括节点名称、所属集群名称、节点角色、节点状态、BMC地址、CPU架构、操作系统版本、操作系统内核版本、容器运行时版本、节点描述、创建时间等。节点添加后,同步请求label、taint、annotation添加功能,将节点的所有label、taint、annotation信息纳入管理。
删除节点功能请求集群中的通信服务,调用k8s的“delete node”接口,将该节点删除出节点管理。删除节点后,删除该节点在数据共享模块中的节点信息记录,并删除数据共享模块中与集群信息相关联的所有用户记录和业务记录,同时请求label、taint、annotation删除功能,将节点的所有label、taint、annotation信息删除管理。
节点概览信息的查询功能为请求数据共享模块获取节点添加时获取的名称、角色、状态、所述集群、BMC地址、CPU架构、操作系统版本、内核版本、容器运行时版本、节点描述、创建时间等静态属性,并请求监控管理服务获取资源占用信息,包括CPU、内存、GPU等资源的总量和占用量信息。节点详细信息的查询功能为调用k8s接口获取内存、CPU、存储、容器组等资源的历史占用曲线,调用shell-export接口获取节点上加速卡相关信息、包括名称、状态、编号、UUID、使用率、温度、功率和共享状态等。
在本发明的一些实施方式中,多集群统一管理服务模包括:
用户管理服务模块7,所述用户管理服务模块7配置用于为集群所属的用户及用户的角色进行管理;
鉴权管理服务模块8,所述鉴权管理服务模块8配置用于对用户集群的操作行为进行权限认定;
审批管理服务模块9,所述审批管理服务模块9配置用于对向用户分配的集群资源进行审批。
在本实施例中,用户管理服务模块7设计独立于集群管理服务,当平台中添加入集群进行管理前,亦可对用户/用户组进行管理。用户等级划分为系统管理员、组管理员以及普通用户。系统管理员具有操作多集群和用户/用户组的权限,包括添加集群、移除集群、删除集群、添加节点、删除节点、添加用户、删除用户、修改用户信息、创建用户组、用户组资源分配、删除用户组、修改用户组信息、查看日志信息、查看监控信息和告警信息等权限。组管理员和普通用户具有模型服务部署、镜像服务部署、算法告警信息查看等权限,组管理额外具备修改当前用户组成员和组内服务部署审批的权限。
在本发明的一些实施例中,鉴权管理服务模块8通过向前端UI用户分发token码、后端验证token码的方式,确保不同身份的用户的各类操作不会越权。
在本发明的一些实施例中,审批管理服务模块9配置用于对于创建用户组、为用户组分配集群资源、创建负载服务、分发镜像等资源消耗类的任务,需发起审批业务。普通用户操作需由组管理员进行审批,组管理操作需由系统管理员进行审批。审批通过后,上述任务方可执行。
在本发明的一些实施方式中,多集群统一管理服务模包括:
日志服务模块10,所述日志服务模块10配置用于从所述数据共享服务模块中获取日志数据并对基于模块类型、用户类型、时间范围对所述日志数据进行分析。
在本实施例中,日志管理服务模块10的功能为读取数据共享模块中的日志数据,供系统管理员角色根据产生集群、产生模块、产生时间范围、产生用户组、产生用户等字段进行过滤查看。所有日志信息的来源包含集群统一管理模块和各集群内服务编排模块。
在本发明的一些实施方式中,多集群统一管理服务模包括:
DNS管理服务模块11,所述DNS管理服务模块11配置用于为所有集群提供一级DNS服务。
在本实施例中,DNS管理服务模块11配置用于为降低服务域名解析延迟,在新集群加入平台管理时,触发DNS管理服务重新配置DNS服务。具体设计为:所有集群共用一级DNS服务,运行在网络架构的核心节点上,新增集群均添加其域名配置项。
在本发明的一些实施方式中,多集群统一管理服务模包括:
镜像管理服务模块12,所述镜像管理服务模块12配置用于对所有集群所用的模型文件以及数据文件进行管理;
配置管理服务模块13,所述配置管理服务模块配13置用于为集群提供配置参数以及为负载应用提供对应的算法参数。
在本发明的实施例中,镜像管理服务模块12配置为借助Harbor等镜像仓库完成对各member集群负载服务所用镜像的存储、分发与管理。
在本发明的一些实施例中,配置管理服务模块13一方面为各master集群配置参数,包括k8s集群所有配置参数、knative组件参数、告警管理模块的邮箱参数、镜像扫描参数等。另一方面,配置管理服务管理负载应用所需的算法参数,包含负载应用创建时设置参数、负载应用创建后修改参数,负载应用删除后删除参数。在本发明的一些实施方式中,多集群统一管理服务模包括:
监控服务模块14,所述监控服务模块14配置用于对集群内的硬件状态进行监控。
在本实施例中,监控管理服务模块14提供对集群内内存、CPU、加速卡、POD、硬盘等资源使用的实时/历史信息的监控功能。
在本发明的一些实施方式中,多集群统一管理服务模包括:
告警服务模块15,所述告警服务模块15配置用于基于设定的监控项与设置的阈值对设定的监控项进行监控,并将监控信息根据权限等级推送到满足权限要求的用户。
在本实施例中,告警管理服务模块15为针对某监控项和设置的阈值生成并存储事务通知信息,并将通知消息推送至拥有权限的组管理员和普通用户。
在本发明的一些实施方式中,多集群统一管理服务模包括:
集群通信服务注入模块16,所述集群通信注入模块16配置用于实现集群间服务信息的互通;
模型管理服务模块17,所述模型管理服务模块17配置用于对集群负载所使用的模型文件进行存储与管理。
在本实施例中,集群通信服务注入模块16配置为适配多集群服务编排与统一管理平台的管控,对现有集群架构的改造包括数据存储迁移与通信服务注入。数据库存储迁移为将集群数据存储至同集群统一管理模块相同的库中。通信服务注入为在各集群中增加额外的服务,功能为在集群内服务需要集群外相关服务信息时,请求多集群管理服务进行获取;例如,通信服务访问多集群管理服务获取该集群id,并分发至集群内各服务,便于各服务按照集群id从数据共享库中操作相关联的数据。
在本发明的一些实施例中,模型管理服务模块17配置为借助Hdfs等文件仓库完成对各member集群负载服务所用模型文件以及数据文件的存储、分发与管理。
通过本发明提出的一种多集群服务管理系统,设计一种统一的涉及多集群服务编排与管理的平台架构,可实现负载对象在多集群的分发,保证多集群数据管理的时效性、安全性、隔离性和高可用性,保证多集群规模的可扩展性与集群内节点/算力的可扩展性,并保证对原有独立集群的配置与运行干扰最小化,保证平台功能的可拓展性。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种多集群服务管理系统,其特征在于,包括UI服务模块、数据共享服务模块、独立网关服务模块、多集群统一管理服务模块,其中:
所述UI服务模块配置用于从所述数据共享服务模块获取多集群的状态信息,并将所述状态信息反馈给请请求状态信息的客户端,以及将客户端发起的对应的管理请求发送到所述多集群统一管理服务模块或对应的集群上;
所述数据共享服务模块配置用于存储并管理所有集群产生的静态/动态数据;
所述独立网关服务模块配置用于根据集群名称、地址以及服务接口与对应的集群建立对应的映射关系,并根据所述集群名称、地址以及服务接口将对应的网络请求转发到对应的集群中;
所述多集群管理服务模块配置用于对所述系统下的多个集群的运行状态进行管理。
2.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
多集群管理服务模块,所述多集群管理服务模块配置用于实现对集群的运行状态的管理以及向所述数据共享模块提供集群的状态信息。
3.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
节点管理服务模块,所述节点管理服务模块配置用于对集群内的节点的运行状态进行管理。
4.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
用户管理服务模块,所述用户管理服务模块配置用于为集群所属的用户及用户的角色进行管理;
鉴权管理服务模块,所述鉴权管理服务模块配置用于对用户集群的操作行为进行权限认定;
审批管理服务模块,所述审批管理服务模块配置用于对向用户分配的集群资源进行审批。
5.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
日志服务模块,所述日志服务模块配置用于从所述数据共享服务模块中获取日志数据并对基于模块类型、用户类型、时间范围对所述日志数据进行分析。
6.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
DNS管理服务模块,所述DNS管理服务模块配置用于为所有集群提供一级DNS服务。
7.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
镜像管理服务模块,所述镜像管理服务模块配置用于对所有集群所用的模型文件以及数据文件进行管理;
配置管理服务模块,所述配置管理服务模块配置用于为集群提供配置参数以及为负载应用提供对应的算法参数。
8.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
监控服务模块,所述监控服务模块配置用于对集群内的硬件状态进行监控。
9.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
告警服务模块,所述告警服务模块配置用于基于设定的监控项与设置的阈值对设定的监控项进行监控,并将监控信息根据权限等级推送到满足权限要求的用户。
10.根据权利要求1所述的系统,其特征在于,所述多集群统一管理服务模包括:
集群通信服务注入模块,所述集群通信注入模块配置用于实现集群间服务信息的互通;
模型管理服务模块,所述模型管理服务模块配置用于对集群负载所使用的模型文件进行存储与管理。
CN202210747464.3A 2022-06-29 2022-06-29 一种多集群服务管理系统 Active CN115037757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210747464.3A CN115037757B (zh) 2022-06-29 2022-06-29 一种多集群服务管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210747464.3A CN115037757B (zh) 2022-06-29 2022-06-29 一种多集群服务管理系统

Publications (2)

Publication Number Publication Date
CN115037757A true CN115037757A (zh) 2022-09-09
CN115037757B CN115037757B (zh) 2023-08-04

Family

ID=83127406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210747464.3A Active CN115037757B (zh) 2022-06-29 2022-06-29 一种多集群服务管理系统

Country Status (1)

Country Link
CN (1) CN115037757B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633084A (zh) * 2022-12-01 2023-01-20 苏州浪潮智能科技有限公司 一种k8s集群访问方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067828A (zh) * 2018-06-22 2018-12-21 杭州才云科技有限公司 基于Kubernetes和OpenStack容器云平台多集群构建方法、介质、设备
US20210318914A1 (en) * 2020-04-14 2021-10-14 Vmware, Inc. Communications framework for multi-cluster management systems
CN114143313A (zh) * 2021-11-30 2022-03-04 招商局金融科技有限公司 基于云原生的集群通信装置、方法及相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067828A (zh) * 2018-06-22 2018-12-21 杭州才云科技有限公司 基于Kubernetes和OpenStack容器云平台多集群构建方法、介质、设备
US20210318914A1 (en) * 2020-04-14 2021-10-14 Vmware, Inc. Communications framework for multi-cluster management systems
CN114143313A (zh) * 2021-11-30 2022-03-04 招商局金融科技有限公司 基于云原生的集群通信装置、方法及相关设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633084A (zh) * 2022-12-01 2023-01-20 苏州浪潮智能科技有限公司 一种k8s集群访问方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN115037757B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN107370786B (zh) 一种基于微服务架构的通用信息管理系统
CN109542611B (zh) 数据库即服务系统、数据库调度方法、设备及存储介质
CN107181808B (zh) 一种私有云系统及运行方法
US8612406B1 (en) Sharing business data across networked applications
CN110213352B (zh) 名字空间统一的分散自治存储资源聚合方法
US10303450B2 (en) Systems and methods for a policy-driven orchestration of deployment of distributed applications
KR20220040352A (ko) 애플리케이션 배포 방법, 장치, 전자 기기 및 판독 가능 저장 매체
CN112104723B (zh) 一种多集群的数据处理系统及方法
CN114008605A (zh) 大数据应用生命周期管理
CN111324571A (zh) 一种容器集群管理方法、装置及系统
US10324701B1 (en) Rapid deployment of computing instances
US9959157B1 (en) Computing instance migration
CN112417051A (zh) 容器编排引擎资源管理方法及装置、可读介质及电子设备
WO2024077885A1 (zh) 容器集群的管理方法、装置、设备及非易失性可读存储介质
CN113839814A (zh) 去中心化的Kubernetes集群联邦实现方法及系统
CN115037757B (zh) 一种多集群服务管理系统
CN111274004A (zh) 进程实例管理方法、装置及计算机存储介质
WO2022206242A1 (zh) 多租户运维管理方法、装置及系统
CN111767345B (zh) 建模数据同步方法、装置、计算机设备及可读存储介质
CN114866416A (zh) 一种多集群统一管理系统及部署方法
CN111949378B (zh) 虚拟机启动模式切换方法和装置、存储介质及电子设备
CN114281399A (zh) 分布式应用打包交付方法、系统、终端及存储介质
WO2023274014A1 (zh) 容器集群的存储资源管理方法、装置及系统
US11483381B1 (en) Distributing cloud migration
US11586626B1 (en) Optimizing cloud query execution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant