CN116483461A - 云原生一体机的管理平台控制方法和装置 - Google Patents

云原生一体机的管理平台控制方法和装置 Download PDF

Info

Publication number
CN116483461A
CN116483461A CN202310221959.7A CN202310221959A CN116483461A CN 116483461 A CN116483461 A CN 116483461A CN 202310221959 A CN202310221959 A CN 202310221959A CN 116483461 A CN116483461 A CN 116483461A
Authority
CN
China
Prior art keywords
node
management platform
state
service
platform service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310221959.7A
Other languages
English (en)
Other versions
CN116483461B (zh
Inventor
请求不公布姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anchao Cloud Software Co Ltd
Original Assignee
Anchao Cloud Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anchao Cloud Software Co Ltd filed Critical Anchao Cloud Software Co Ltd
Priority to CN202310221959.7A priority Critical patent/CN116483461B/zh
Publication of CN116483461A publication Critical patent/CN116483461A/zh
Application granted granted Critical
Publication of CN116483461B publication Critical patent/CN116483461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45562Creating, deleting, cloning virtual machine instances
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45575Starting, stopping, suspending or resuming virtual machine instances

Abstract

本申请公开了一种云原生一体机的管理平台控制方法和装置,控制方法包括获取集群中的管理平台服务的运行状态;在集群中的管理平台服务运行异常时获取自身的管理平台服务的启闭状态;在自身的管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息;当与管理网络的连接状态以及存储服务工作状态均为正常,且第一节点为默认节点时,获取第二节点的管理平台服务的启闭状态;基于第二节点的管理平台服务的启闭状态管理第一节点和第二节点的管理平台服务的启闭状态。本申请仅需一个节点的管理平台服务处于启动状态,无需另设仲裁节点和负载均衡器,有效降低了用户成本,简化了系统架构。

Description

云原生一体机的管理平台控制方法和装置
技术领域
本申请属于计算机技术领域,具体涉及一种云原生一体机的管理平台控制方法和装置。
背景技术
两节点云原生容器一体机由两台计算机组成,每个计算机都称为集群中的一个节点(Node)。当网络存在故障时,例如网络中某一个交换机存在故障,一个集群可能分裂为两个组(NodeGroup),这种现象叫做脑裂(BrainSplit)。当集群发生脑裂后,分裂的两个节点组中的每一个节点组都无法通过心跳信息或者租约信息检测到对方的存在,会认为其他节点组的节点发生了故障,这样在同一时间段,这些节点组中的节点可能会发起对某一共享存储资源访问,例如对存储磁盘的访问,这样就会导致数据访问错误的发生。
为了避免脑裂影响集群运行,现有技术在两个节点以外还设置有仲裁节点,仲裁节点只参与仲裁,在节点1或节点2发生故障时选择出一个正常节点接管业务。同时,为了保证两个节点的管理平台高可用,两个节点上的都启动了管理平台服务,用户访问管理平台需要经过一层负载均衡器,该负载均衡器可以部署在节点1或节点2,也可以是单独的服务器。由于需要另设仲裁节点和负载均衡器,导致用户的成本的提高。
发明内容
本申请的目的在于提供一种云原生一体机的管理平台控制方法和装置,以解决现有技术中存在的云原生一体机中为了避免脑裂影响集群运行,保证两个节点的管理平台高可用,需要另设仲裁节点和负载均衡器,导致用户的成本的提高的技术问题。
为实现上述目的,本申请采用的一个技术方案是:
提供了一种云原生一体机的管理平台控制方法,所述云原生一体机包括由第一节点和第二节点联网组成的集群,所述第一节点和所述第二节点中均部署有管理平台服务,且仅一个节点的所述管理平台服务处于启动状态,所述第一节点和所述第二节点的存储服务之间通过存储网络连接形成存储池,所述存储池内创建有虚拟磁盘,所述虚拟磁盘挂载在所述管理平台服务处于启动状态的节点上;
所述管理平台控制方法包括:
所述第一节点获取集群中的所述管理平台服务的运行状态;
所述第一节点在集群中的所述管理平台服务运行异常时,获取自身的所述管理平台服务的启闭状态;
所述第一节点在自身的所述管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息;
当所述第一节点与管理网络的连接状态以及第一节点的存储服务工作状态均为正常,且所述第一节点为默认节点时,所述第一节点获取所述第二节点的所述管理平台服务的启闭状态;
所述第一节点基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态。
在一个或多个实施方式中,所述所述第一节点基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态的步骤包括:
所述第一节点在所述第二节点的所述管理平台服务处于启动状态时,在所述第二节点内执行管理平台服务卸载操作,之后在所述第一节点内执行管理平台服务加载操作。
在一个或多个实施方式中,所述所述第一节点基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态的步骤包括:
所述第一节点在所述第二节点的所述管理平台服务处于关闭状态时,直接在所述第一节点内执行管理平台服务加载操作。
在一个或多个实施方式中,与所述所述第一节点在自身的所述管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息的步骤同步的还包括:
所述第一节点在自身的所述管理平台服务处于启动状态时,重启自身的所述管理平台服务。
在一个或多个实施方式中,所述重启自身的所述管理平台服务之后还包括:
所述第一节点获取集群中的所述管理平台服务的运行状态;
所述第一节点在集群中的所述管理平台服务运行异常时,在所述第一节点内执行管理平台服务卸载操作,之后在所述第二节点内执行管理平台服务加载操作。
在一个或多个实施方式中,还包括:
所述第一节点获取自身与管理网络的连接状态以及自身的存储服务运行状态;
所述第一节点与管理网络的连接故障时和/或所述第一节点的存储服务运行异常时,所述第一节点获取自身的所述管理平台服务的启闭状态;
所述第一节点在自身的所述管理平台服务处于启动状态时,在所述第一节点内执行管理平台服务卸载操作。
在一个或多个实施方式中,所述管理平台服务卸载操作包括:
停止所述管理平台服务;
获取所述管理平台服务的启闭状态;
在所述管理平台服务处于关闭状态时,解挂载所述虚拟磁盘,删除虚拟管理地址。
在一个或多个实施方式中,与所述在所述管理平台服务处于关闭状态时,解挂载所述虚拟磁盘,删除虚拟管理地址的步骤同步的还包括:
在所述管理平台处于启动状态时,触发系统kdump服务转存运行内存并重启系统。
在一个或多个实施方式中,还包括:
所述第一节点获取自身与管理网络的连接状态、自身的存储服务工作状态、自身的所述管理平台服务启闭状态、所述第二节点与管理网络的连接状态、所述第二节点的存储服务工作状态以及默认节点信息;
所述第一节点在自身与管理网络的连接状态、自身的存储服务工作状态、所述第二节点与管理网络的连接状态、所述第二节点的存储服务工作状态均为正常,自身的所述管理平台服务处于关闭状态,且所述第一节点为默认节点时,获取所述第二节点的管理平台服务启闭状态;
所述第一节点在所述第二节点的管理平台服务处于关闭状态时,在所述第二节点写上标志位后在第一节点内执行管理平台服务加载操作。
在一个或多个实施方式中,所述管理平台服务加载操作包括:
依次添加所述虚拟管理地址,挂载所述虚拟磁盘,启动所述管理平台服务。
在一个或多个实施方式中,所述管理平台服务运行在管理平台容器中,所述虚拟磁盘内部署有多个逻辑卷,所述多个逻辑卷在所述管理平台容器创建时映射至所述管理平台容器中。
为实现上述目的,本申请采用的另一个技术方案是:
提供了一种云原生一体机的管理平台控制装置,所述云原生一体机包括由第一节点和第二节点联网组成的集群,所述第一节点和所述第二节点中均部署有管理平台服务,且仅一个节点的所述管理平台服务处于启动状态,所述第一节点和所述第二节点的存储服务之间通过存储网络连接形成存储池,所述存储池内创建有虚拟磁盘,所述虚拟磁盘挂载在所述管理平台服务处于启动状态的节点上;
所述管理平台控制装置应用于所述第一节点中,且包括:
第一获取模块,用于获取集群中的所述管理平台服务的运行状态;
第二获取模块,用于在集群中的所述管理平台服务运行异常时,获取自身的所述管理平台服务的启闭状态;
第三获取模块,用于在自身的所述管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息;
第四获取模块,用于当所述第一节点与管理网络的连接状态以及第一节点的存储服务工作状态均为正常,且所述第一节点为默认节点时,获取所述第二节点的所述管理平台服务的启闭状态;
管理模块,用于基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态。
为实现上述目的,本申请采用的又一个技术方案是:
提供了一种电子设备,包括:
至少一个处理器;以及,
存储器,所述存储器存储有指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如上述任一实施方式所述的云原生一体机的管理平台控制方法。
为实现上述目的,本申请采用的又一个技术方案是:
提供了一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如上述任一实施方式所述的云原生一体机的管理平台控制方法。
区别于现有技术,本申请的有益效果是:
本申请的管理平台控制方法中节点在检测到集群中的管理平台服务运行异常时,且节点自身的管理平台服务处于关闭的状态时,可在自身启动管理平台服务,并基于虚拟磁盘内记载的数据无缝接管业务,并且能够避免多节点的管理平台服务同时启动相冲突;
本申请的管理平台控制方法中节点在检测到集群中的管理平台服务运行异常时,且自身的管理平台服务处于启动的状态时,先尝试重启自身的管理平台服务,若重启后仍无法解决管理平台服务运行异常的问题,再在自身执行卸载操作,在其他节点内执行管理平台加载操作,从而保证管理平台服务的高可用;
本申请的管理平台控制方法能够实现节点自检,一旦发现节点自身与管理网络的连接状态以及自身的存储服务的运行状态中的一个或两个存在故障时,即可执行管理平台服务卸载操作,以避免影响管理平台服务的运行参数的记录,保证管理平台服务的高可用;
本申请的管理平台控制方法仅需一个节点的管理平台服务处于启动状态,无需另设仲裁节点和负载均衡器,有效降低了用户成本,简化了系统架构。
附图说明
图1是本申请云原生一体机一实施方式的结构框图;
图2是本申请云原生容器一体机的管理平台控制方法一实施方式的流程示意图;
图3是图2中步骤S500a对应的一实施方式的流程示意图;
图4是本申请云原生容器一体机的管理平台控制方法自检程序一实施方式的流程示意图;
图5是本申请云原生容器一体机的管理平台控制方法启动程序一实施方式的流程示意图;
图6是本申请云原生一体机的管理平台控制装置一实施方式的结构框图;
图7是本申请电子设备一实施方式的结构示意图。
具体实施方式
以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请,本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。
云原生容器一体机是一款集容器平台和存储功能的软硬件一体化解决方案,灵活满足不同业务对计算、存储和I/O的弹性配置需求,提供安全可控、经济有效的数据中心基础架构。云原生容器一体机集成容器技术,可轻松实现对应用的承托,具有良好的可扩展性和业务敏捷性,帮助客户从容应对多云部署和混合云管理的复杂场景。
两节点云原生容器一体机由两台计算机组成,每个计算机都称为集群中的一个节点(Node)。当网络存在故障时,例如网络中某一个交换机存在故障,一个集群可能分裂为两个组(NodeGroup),这种现象叫做脑裂(BrainSplit)。当集群发生脑裂后,分裂的两个节点组中的每一个节点组都无法通过心跳信息或者租约信息检测到对方的存在,会认为其他节点组的节点发生了故障,这样在同一时间段,这些节点组中的节点可能会发起对某一共享存储资源访问,例如对存储磁盘的访问,这样就会导致数据访问错误的发生。
为了避免脑裂影响集群运行,云原生容器一体机中可以设有专门的仲裁节点,仲裁节点只参与仲裁,在节点1或节点2发生故障时选择出一个正常节点接管业务。
同时,为了保证两个节点的管理平台高可用,两个节点上都启动了管理平台服务,用户访问管理平台需要经过一层负载均衡器,由负载均衡器负责两个节点上管理平台服务的加载,该负载均衡器可以部署在节点1或节点2,也可以是单独的服务器。由于需要另设仲裁节点和负载均衡器,导致用户的成本的提高。
为了解决上述问题,本申请提供了一种云原生容器一体机的管理平台控制方法。
其中,请参阅图1,图1是本申请云原生一体机一实施方式的结构框图。
如图所示,云原生一体机包括由第一节点和第二节点联网组成的集群,第一节点和第二节点中均部署有管理平台服务,且仅一个节点的管理平台服务处于启动状态,第一节点和第二节点的存储服务之间通过存储网络连接形成存储池,存储池内创建有虚拟磁盘,虚拟磁盘挂载在管理平台服务处于启动状态的节点上。
可以理解的,第一节点和第二节点上均部署了管理平台服务,但同一时间仅一个节点上的管理平台服务工作,因此无需设置负载均衡器和仲裁节点。虚拟磁盘挂载在处于管理平台服务处于启动状态的节点上,能够记载管理平台服务的运行参数。
本实施方式中,管理平台服务运行在管理平台容器中,便于管理平台服务的管理以及不同节点管理平台服务的运行状态切换。一实施方式中,管理平台服务可以包括云管服务、kube-apiserver、kube-scheduler、kube-controller-manager、etcd服务和故障疏散服务,管理平台服务可以通过api操作存储池;在其他实施方式中,管理平台服务也可以包括其他基于实际工况创建或选择服务。
在其他实施方式中,管理平台服务也可以运行在虚拟机中,或者也可以部署在物理机上,均能够实现本实施方式的效果。
本实施方式中,虚拟磁盘内部署有三个Lvm逻辑卷,分别为Lv1、Lv2和Lv3,且虚拟磁盘通过iscsi协议挂载在管理平台服务处于启动状态的节点上。三个逻辑卷在管理平台容器创建时映射至管理平台容器中,从而记载管理平台服务的运行参数,具体地三个逻辑卷可以分别记录容器的配置文件目录/etc,状态文件目录/var/lib和日志目录/var/log/。由于Lvm特性空间可以实现动态扩展,从而避免出现空间不足的情况。
在其他实施方式中,虚拟磁盘也可以采用其他方式部署,能够实现容器内管理平台服务的运行参数记载即可。
可以理解的,采用上述部署方式的云原生一体机当一个节点的管理平台服务出现故障时,可以在其他节点重启管理平台服务,同时通过虚拟磁盘的解挂载和挂载操作,实现虚拟磁盘重新映射至新的管理平台服务所在容器中,基于虚拟磁盘内部记载的运行参数,新的管理平台服务可以直接接管业务,实现无缝切换。
下面详细介绍本申请提供的云原生容器一体机的管理平台控制方法,请参阅图2,图2是本申请云原生容器一体机的管理平台控制方法一实施方式的流程示意图。
该管理平台控制方法包括:
S100、第一节点获取集群中的管理平台服务的运行状态。
首先,第一节点可以实时检查集群中的管理平台服务的运行状态,以判断是否需要进行节点和容器的切换,保证服务的高可用。
一实施方式中,第一节点可以通过nmap进行扫描以确定哪些服务处于运行状态,可以基于检查时返回的命令判断服务是否正常,例如当命令返回是0时可以表示该服务的端口正常。
进一步的,第一节点可以通过虚拟管理地址vip进行扫描,可以理解的,由于虚拟机挂载在管理平台服务处于启动状态的节点上,因此通过虚拟机的虚拟管理地址vip可以扫描管理平台服务的运行状态。
一实施方式中,通过nmap进行扫描的代码可以包括nmap--max-retries6-n-p服务端口号-vvip地址|grep-vDiscovered|grepopen>/dev/nul。其中,max-retries6代表尝试6次,-p代表检查的服务端口号,-v代表具体地址。
通过nmap扫描服务端口,无需去容器中检测服务状态,能实现远程扫描,降低了复杂度。
S200、第一节点在集群中的管理平台服务运行异常时,获取自身的管理平台服务的启闭状态。
当基于返回命令判断管理平台服务中的一个或多个服务处于运行异常状态时,可以判定此时需要进行节点和容器的切换,保证服务的高可用。
第一节点可以首先获取自身的管理平台服务是否启动,以便于下一步的切换操作。
S300a、第一节点在自身的管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息。
当第一节点的管理平台服务处于关闭时,第一节点可以获取自身的状态信息以判断自身是否具备启动管理平台服务的条件。
具体地,自身的状态信息可以包括自身与管理网络的连接状态、自身的存储服务工作状态。
另外,第一节点还应当判断自身是否为默认节点,即获取默认节点信息。默认节点即系统认定的主节点,可以通过节点的配置文件来定义,当两节点之间的连接发生故障时,基于默认节点的设定可以将默认节点作为主节点,另一节点作为副节点,避免发生脑裂事件。
具体地,第一节点可以通过读取配置文件以及自身的节点信息判定自身是否为默认节点。
S400a、当第一节点与管理网络的连接状态以及第一节点的存储服务工作状态均为正常,且第一节点为默认节点时,第一节点获取第二节点的管理平台服务的启闭状态。
当第一节点与管理网络的连接正常,且第一节点的存储服务工作状态也正常,且第一节点是默认节点时,第一节点可以认定自身可以启动管理平台服务。
第一节点可以进一步获取第二节点中管理平台服务的启闭状态,以避免第一节点和第二节点的管理平台服务冲突。具体地,第一节点可以通过SSH安全协议至第二节点中获取管理平台服务的启闭状态。
S500a、第一节点基于第二节点的管理平台服务的启闭状态,管理第一节点和第二节点的管理平台服务的启闭状态。
基于第二节点的管理平台服务的启闭状态,第一节点可以进一步启闭第一节点和第二节点中的管理平台服务。
具体地,请参阅图3,图3是图2中步骤S500a对应的一实施方式的流程示意图。
S501a、第一节点在第二节点的管理平台服务处于启动状态时,在第二节点内执行管理平台服务卸载操作,之后在第一节点内执行管理平台服务加载操作。
S502a、第一节点在第二节点的管理平台服务处于关闭状态时,直接在第一节点内执行管理平台服务加载操作。
可以理解的,当第二节点中的管理平台服务处于启动状态时,第一节点需要先在第二节点内执行管理平台服务的卸载操作,再在第一节点内执行管理平台服务的加载操作,一方面避免两节点的管理平台服务同时启动,另一方面使得第一节点内的管理平台服务可以获取第二节点内的管理平台服务的运行参数,从而可以直接接管业务,实现无缝切换。
当第二节点中的管理平台服务处于关闭状态时,第一节点则可以直接在第一节点内执行管理平台服务加载操作,无需考虑两节点的管理平台服务同时启动相冲突的问题。
具体地,卸载操作可以包括:
停止管理平台服务;
获取管理平台服务的启闭状态;
在管理平台服务处于关闭状态时,解挂载虚拟磁盘,删除虚拟管理地址。
为了保证虚拟磁盘内部数据的安全性和虚拟磁盘的运行稳定性,应当先停止管理平台服务,再执行解挂载虚拟磁盘和删除虚拟管理地址的操作。
当节点的存储服务出现故障时,可能出现容器无法停止,即管理平台服务无法关闭的情况,此时为了保证管理平台服务的关闭,与上述步骤在管理平台服务处于关闭状态时,解挂载虚拟磁盘,删除虚拟管理地址同步的还可以包括:
在管理平台服务处于启动状态时,触发系统kdump服务转存运行内存并重启系统。
kdump是在系统崩溃、死锁或者死机的时候用来转储内存运行参数的一个工具和服务,通过触发kdump服务能够将运行内存转存并重启系统,防止系统假死造成存储不可用,保证运行的数据的存储以及存储服务的高可用,从而实现管理平台服务的关闭。
管理平台服务加载操作可以包括依次添加虚拟管理地址,挂载虚拟磁盘,启动管理平台服务。
相应地,加载操作中先添加虚拟管理地址并挂载虚拟磁盘后,虚拟磁盘的逻辑卷在创建容器时映射至容器内,再启动管理平台服务,此时管理平台服务可以基于虚拟磁盘内记载的数据无缝接管业务。
通过上述步骤,第一节点在检测到集群中的管理平台服务运行异常时,且第一节点自身的管理平台服务处于关闭的状态时,第一节点直接在自身启动管理平台服务,并基于虚拟磁盘内记载的数据无缝接管业务,并且能够避免第一节点和第二节点的管理平台服务同时启动相冲突。
可以理解的,当第一节点在检测到集群中的管理平台服务运行异常时,且第一节点自身的管理平台服务处于启动的状态时,管理平台控制方法还应当包括与步骤S300a同步的步骤:
S300b、第一节点在自身的管理平台服务处于启动状态时,重启自身的管理平台服务。
当第一节点自身的管理平台服务处于启动状态时,第一节点可以尝试重新管理平台服务,以尝试解决管理平台服务运行异常的问题。
进一步的,在重启管理平台服务后,还包括:
S400b、第一节点获取集群中的管理平台服务的运行状态。
第一节点可以再次获取集群中的管理平台服务的运行状态,获取的方法可以与上述步骤S100相同,通过nmap进行vip扫描以确定哪些服务处于运行状态。
S500b、第一节点在集群中的管理平台服务运行异常时,在第一节点内执行管理平台服务卸载操作,之后在第二节点内执行管理平台服务加载操作。
当重启仍无法解决第一节点的管理平台服务运行异常时,第一节点可以卸载自身的管理平台服务,再在第二节点内执行管理平台服务加载操作,从而保证管理平台服务的高可用。
其中,管理平台服务加载操作和管理平台服务卸载操作可以与上述步骤S501a中的管理平台服务加载操作和管理平台服务卸载操作相同。
通过上述步骤,第一节点在检测到集群中的管理平台服务运行异常时,且第一节点自身的管理平台服务处于启动的状态时,第一节点先尝试重启自身的管理平台服务,若重启后仍无法解决管理平台服务运行异常的问题,第一节点可以在自身执行卸载操作,再在第二节点内执行管理平台加载操作,从而保证管理平台的高可用。
另外,可以理解的,当步骤S300a时第一节点获取默认节点信息时判定自身并非默认节点,此时第二节点会执行步骤S300b至S500b,先尝试重启管理平台服务,重启无法解决异常问题时将第二节点的管理平台服务卸载,卸载成功后,再在第一节点内执行管理平台服务加载操作。
为了避免节点与管理网络的连接故障或者节点的存储服务运行异常,影响管理平台服务的运行参数的记录,影响了管理平台服务的高可用,云原生容器一体机的管理平台控制方法还可以包括自检程序,请参阅图4,图4是本申请云原生容器一体机的管理平台控制方法自检程序一实施方式的流程示意图。
管理平台控制方法的自检程序包括:
S100c、第一节点获取自身与管理网络的连接状态以及自身的存储服务运行状态;
S200c、第一节点与管理网络的连接故障时和/或第一节点的存储服务运行异常时,第一节点获取自身的管理平台服务的启闭状态;
S300c、第一节点在自身的管理平台服务处于启动状态时,在第一节点内执行管理平台服务卸载操作。
第一节点可以实时获取自身与管理网络的连接状态以及自身的存储服务的运行状态,一旦发现其中的一个或两个存在故障时,第一节点可以判断自身的管理平台服务是否处于启动状态,当处于启动状态时,第一节点可以马上执行管理平台服务卸载操作,以避免影响管理平台服务的运行参数的记录。
其中,管理平台服务卸载操作可以与上述步骤S501a中的管理平台服务卸载操作相同。
可以理解的,第一节点内管理平台服务停止运行后,第一节点可以继续检测集群中的管理平台服务的运行状态,重复上述步骤,保证管理平台服务的高可用。
在第一节点和第二节点开始启动时,为了避免第一节点和第二节点同时启动管理平台服务,造成冲突导致存盘读写故障,云原生容器一体机的管理平台控制方法还可以包括启动程序,请参阅图5,图5是本申请云原生容器一体机的管理平台控制方法启动程序一实施方式的流程示意图。
如图所示,启动程序包括:
S100d、第一节点获取自身与管理网络的连接状态、自身的存储服务工作状态、自身的管理平台服务启闭状态、第二节点与管理网络的连接状态、第二节点的存储服务工作状态以及默认节点信息。
S200d、第一节点在自身与管理网络的连接状态、自身的存储服务工作状态、第二节点与管理网络的连接状态、第二节点的存储服务工作状态均为正常,自身的管理平台服务处于关闭状态,且第一节点为默认节点时,获取第二节点的管理平台服务启闭状态。
首先,第一节点可以获取自身和第二节点的运行状态,以判断第一节点和第二节点是否均运行正常能够提供管理平台服务。同时,第一节点通过读写配置文件判断自身是否为默认节点以及自身的管理平台服务启闭状态。
当第一节点和第二节点均运行正常,且第一节点为默认节点,第一节点的管理平台服务处于关闭状态时,第一节点应当首先去第二节点获取第二节点的管理平台服务启闭状态,避免造成第一节点和第二节点同时启动管理平台服务的问题。
S300d、第一节点在第二节点的管理平台服务处于关闭状态时,在第二节点写上标志位后在第一节点内执行管理平台服务加载操作。
当第二节点的管理平台服务处于关闭状态时,第一节点可以在第二节点写上标志位,该标志位用于防止第二节点启动管理平台服务,第一节点在第二节点写上标志位后再在第一节点内执行管理平台服务加载操作,从而能够有效避免第一节点在加载管理平台服务时第二节点同步加载管理平台服务,保证管理平台服务的高可用。
可以理解的,当第二节点的管理平台服务处于启动状态时,第一节点此时可以不做任何操作。
本申请还提供了一种云原生一体机的管理平台控制装置,云原生一体机包括由第一节点和第二节点联网组成的集群,第一节点和第二节点中均部署有管理平台服务,且仅一个节点的管理平台服务处于启动状态,第一节点和第二节点的存储服务之间通过存储网络连接形成存储池,存储池内创建有虚拟磁盘,虚拟磁盘挂载在管理平台服务处于启动状态的节点上。
请参阅6,图6是本申请云原生一体机的管理平台控制装置一实施方式的结构框图。
如图所示,该管理平台控制装置应用于第一节点中,且包括第一获取模块21,第二获取模块22,第三获取模块23,第四获取模块24和管理模块25。
其中,第一获取模块21用于获取集群中的管理平台服务的运行状态;第二获取模块22用于在集群中的管理平台服务运行异常时,获取自身的管理平台服务的启闭状态;第三获取模块23用于在自身的管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息;第四获取模块24用于当第一节点与管理网络的连接状态以及第一节点的存储服务工作状态均为正常,且第一节点为默认节点时,获取第二节点的管理平台服务的启闭状态;管理模块25用于基于第二节点的管理平台服务的启闭状态,管理第一节点和第二节点的管理平台服务的启闭状态。
一实施方式中,还包括重启模块26,重启模块26用于在自身的管理平台服务处于启动状态时,重启自身的管理平台服务。
一实施方式中,还包括自检模块27,自检模块27用于获取自身与管理网络的连接状态以及自身的存储服务运行状态。
如上参照图1到图5,对根据本说明书实施例云原生一体机的控制平台管理方法进行了描述。在以上对方法实施例的描述中所提及的细节,同样适用于本说明书实施例的云原生一体机的控制平台管理装置。上面的云原生一体机的控制平台管理装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。
图7是本申请电子设备一实施方式的结构示意图。如图7所示,电子设备30可以包括至少一个处理器31、存储器32(例如非易失性存储器)、内存33和通信接口34,并且至少一个处理器31、存储器32、内存33和通信接口34经由总线35连接在一起。至少一个处理器31执行在存储器32中存储或编码的至少一个计算机可读指令。
应该理解,在存储器32中存储的计算机可执行指令当执行时使得至少一个处理器31进行本说明书的各个实施例中以上结合图1-图4描述的各种操作和功能。
在本说明书的实施例中,电子设备30可以包括但不限于:个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。
根据一个实施例,提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-图4描述的各种操作和功能。具体地,可以提供配有可读存储介质的系统或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
本领域技术人员应当理解,上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此,本说明书的保护范围应当由所附的权利要求书来限定。
需要说明的是,上述各流程和各系统结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理客户实现,或者,有些单元可能分由多个物理客户实现,或者,可以由多个独立设备中的某些部件共同实现。
以上各实施例中,硬件单元或模块可以通过机械方式或电气方式实现。例如,一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器,FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器),可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所对应的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (14)

1.一种云原生一体机的管理平台控制方法,其特征在于,所述云原生一体机包括由第一节点和第二节点联网组成的集群,所述第一节点和所述第二节点中均部署有管理平台服务,且仅一个节点的所述管理平台服务处于启动状态,所述第一节点和所述第二节点的存储服务之间通过存储网络连接形成存储池,所述存储池内创建有虚拟磁盘,所述虚拟磁盘挂载在所述管理平台服务处于启动状态的节点上;
所述管理平台控制方法包括:
所述第一节点获取集群中的所述管理平台服务的运行状态;
所述第一节点在集群中的所述管理平台服务运行异常时,获取自身的所述管理平台服务的启闭状态;
所述第一节点在自身的所述管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息;
当所述第一节点与管理网络的连接状态以及第一节点的存储服务工作状态均为正常,且所述第一节点为默认节点时,所述第一节点获取所述第二节点的所述管理平台服务的启闭状态;
所述第一节点基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态。
2.根据权利要求1所述的管理平台控制方法,其特征在于,所述所述第一节点基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态的步骤包括:
所述第一节点在所述第二节点的所述管理平台服务处于启动状态时,在所述第二节点内执行管理平台服务卸载操作,之后在所述第一节点内执行管理平台服务加载操作。
3.根据权利要求1所述的管理平台控制方法,其特征在于,所述所述第一节点基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态的步骤包括:
所述第一节点在所述第二节点的所述管理平台服务处于关闭状态时,直接在所述第一节点内执行管理平台服务加载操作。
4.根据权利要求1所述的管理平台控制方法,其特征在于,与所述所述第一节点在自身的所述管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息的步骤同步的还包括:
所述第一节点在自身的所述管理平台服务处于启动状态时,重启自身的所述管理平台服务。
5.根据权利要求4所述的管理平台控制方法,其特征在于,所述重启自身的所述管理平台服务之后还包括:
所述第一节点获取集群中的所述管理平台服务的运行状态;
所述第一节点在集群中的所述管理平台服务运行异常时,在所述第一节点内执行管理平台服务卸载操作,之后在所述第二节点内执行管理平台服务加载操作。
6.根据权利要求1所述的管理平台控制方法,其特征在于,还包括:
所述第一节点获取自身与管理网络的连接状态以及自身的存储服务运行状态;
所述第一节点与管理网络的连接故障时和/或所述第一节点的存储服务运行异常时,所述第一节点获取自身的所述管理平台服务的启闭状态;
所述第一节点在自身的所述管理平台服务处于启动状态时,在所述第一节点内执行管理平台服务卸载操作。
7.根据权利要求2、5或6所述的管理平台控制方法,其特征在于,所述管理平台服务卸载操作包括:
停止所述管理平台服务;
获取所述管理平台服务的启闭状态;
在所述管理平台服务处于关闭状态时,解挂载所述虚拟磁盘,删除虚拟管理地址。
8.根据权利要求7所述的管理平台控制方法,其特征在于,与所述在所述管理平台服务处于关闭状态时,解挂载所述虚拟磁盘,删除虚拟管理地址的步骤同步的还包括:
在所述管理平台处于启动状态时,触发系统kdump服务转存运行内存并重启系统。
9.根据权利要求1所述的管理平台控制方法,其特征在于,还包括:
所述第一节点获取自身与管理网络的连接状态、自身的存储服务工作状态、自身的所述管理平台服务启闭状态、所述第二节点与管理网络的连接状态、所述第二节点的存储服务工作状态以及默认节点信息;
所述第一节点在自身与管理网络的连接状态、自身的存储服务工作状态、所述第二节点与管理网络的连接状态、所述第二节点的存储服务工作状态均为正常,自身的所述管理平台服务处于关闭状态,且所述第一节点为默认节点时,获取所述第二节点的管理平台服务启闭状态;
所述第一节点在所述第二节点的管理平台服务处于关闭状态时,在所述第二节点写上标志位后在第一节点内执行管理平台服务加载操作。
10.根据权利要求2、3、5或9所述的管理平台控制方法,其特征在于,所述管理平台服务加载操作包括:
依次添加所述虚拟管理地址,挂载所述虚拟磁盘,启动所述管理平台服务。
11.根据权利要求1所述的管理平台控制方法,其特征在于,所述管理平台服务运行在管理平台容器中,所述虚拟磁盘内部署有多个逻辑卷,所述多个逻辑卷在所述管理平台容器创建时映射至所述管理平台容器中。
12.一种云原生一体机的管理平台控制装置,其特征在于,所述云原生一体机包括由第一节点和第二节点联网组成的集群,所述第一节点和所述第二节点中均部署有管理平台服务,且仅一个节点的所述管理平台服务处于启动状态,所述第一节点和所述第二节点的存储服务之间通过存储网络连接形成存储池,所述存储池内创建有虚拟磁盘,所述虚拟磁盘挂载在所述管理平台服务处于启动状态的节点上;
所述管理平台控制装置应用于所述第一节点中,且包括:
第一获取模块,用于获取集群中的所述管理平台服务的运行状态;
第二获取模块,用于在集群中的所述管理平台服务运行异常时,获取自身的所述管理平台服务的启闭状态;
第三获取模块,用于在自身的所述管理平台服务处于关闭状态时,获取自身与管理网络的连接状态、自身的存储服务工作状态以及默认节点信息;
第四获取模块,用于当所述第一节点与管理网络的连接状态以及第一节点的存储服务工作状态均为正常,且所述第一节点为默认节点时,获取所述第二节点的所述管理平台服务的启闭状态;
管理模块,用于基于所述第二节点的所述管理平台服务的启闭状态,管理所述第一节点和所述第二节点的所述管理平台服务的启闭状态。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
存储器,所述存储器存储有指令,当所述指令被所述至少一个处理器执行时,使得所述至少一个处理器执行如权利要求1至11任一所述的云原生一体机的管理平台控制方法。
14.一种机器可读存储介质,其存储有可执行指令,所述指令当被执行时使得所述机器执行如权利要求1至11任一所述的云原生一体机的管理平台控制方法。
CN202310221959.7A 2023-03-09 2023-03-09 云原生一体机的管理平台控制方法和装置 Active CN116483461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310221959.7A CN116483461B (zh) 2023-03-09 2023-03-09 云原生一体机的管理平台控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310221959.7A CN116483461B (zh) 2023-03-09 2023-03-09 云原生一体机的管理平台控制方法和装置

Publications (2)

Publication Number Publication Date
CN116483461A true CN116483461A (zh) 2023-07-25
CN116483461B CN116483461B (zh) 2024-03-22

Family

ID=87225723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310221959.7A Active CN116483461B (zh) 2023-03-09 2023-03-09 云原生一体机的管理平台控制方法和装置

Country Status (1)

Country Link
CN (1) CN116483461B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239166A (zh) * 2014-09-11 2014-12-24 武汉噢易云计算有限公司 一种对运行中虚拟机实现文件备份的方法
CN106850260A (zh) * 2016-12-23 2017-06-13 曙光云计算技术有限公司 一种虚拟化资源管理平台的部署方法和装置
CN111935244A (zh) * 2020-07-20 2020-11-13 江苏安超云软件有限公司 一种业务请求处理系统及超融合一体机
CN115643168A (zh) * 2022-10-20 2023-01-24 安超云软件有限公司 一种节点超融合升级方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582441A (zh) * 2018-11-30 2019-04-05 北京百度网讯科技有限公司 用于提供容器服务的系统、方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239166A (zh) * 2014-09-11 2014-12-24 武汉噢易云计算有限公司 一种对运行中虚拟机实现文件备份的方法
CN106850260A (zh) * 2016-12-23 2017-06-13 曙光云计算技术有限公司 一种虚拟化资源管理平台的部署方法和装置
CN111935244A (zh) * 2020-07-20 2020-11-13 江苏安超云软件有限公司 一种业务请求处理系统及超融合一体机
CN115643168A (zh) * 2022-10-20 2023-01-24 安超云软件有限公司 一种节点超融合升级方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王华, 万木春, 彭勤科, 胡保生: "一种集群服务器配置和管理工具", 计算机应用, no. 01 *

Also Published As

Publication number Publication date
CN116483461B (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
CN111338854B (zh) 基于Kubernetes集群快速恢复数据的方法及系统
CN112596960A (zh) 一种分布式存储服务切换方法及装置
CN109446169B (zh) 一种双控磁盘阵列共享文件系统
CN111880956B (zh) 一种数据同步方法和装置
CN104036043A (zh) 一种mysql高可用的方法及管理节点
CN111147274B (zh) 为集群解决方案创建高度可用的仲裁集的系统和方法
US20220334733A1 (en) Data restoration method and related device
US10346269B2 (en) Selective mirroring of predictively isolated memory
CN112783444A (zh) 集群磁盘共享方法、系统及存储介质
WO2020233001A1 (zh) 双控构架分布式存储系统、数据读取方法、装置和存储介质
CN111935244A (zh) 一种业务请求处理系统及超融合一体机
CN110399168A (zh) 多数据盘存储服务器的系统启动方法、装置及设备
CN111488247B (zh) 一种管控节点多次容错的高可用方法及设备
CN109189480B (zh) 文件系统启动方法及装置
CN114035905A (zh) 基于虚拟机的故障迁移方法及装置、电子设备和存储介质
CN116483461B (zh) 云原生一体机的管理平台控制方法和装置
CN109445909A (zh) 虚拟机数据的备份方法、系统、终端及存储介质
CN110532032B (zh) 一种开机文件系统检测方法以及相关设备
CN107526652B (zh) 一种数据同步方法及存储设备
CN116248484B (zh) 云原生一体机的管理方法和装置、电子设备和存储介质
CN111176886B (zh) 一种数据库模式的切换方法、装置及电子设备
CN110704249A (zh) 一种保证应用一致性的方法、装置及系统
CN107783855B (zh) 虚拟网元的故障自愈控制装置及方法
CN115858222B (zh) 一种虚拟机故障处理方法、系统及电子设备
CN110688193B (zh) 磁盘处理方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant