CN114996055A - 一种双机热备系统控制方法、装置、介质 - Google Patents

一种双机热备系统控制方法、装置、介质 Download PDF

Info

Publication number
CN114996055A
CN114996055A CN202210612307.1A CN202210612307A CN114996055A CN 114996055 A CN114996055 A CN 114996055A CN 202210612307 A CN202210612307 A CN 202210612307A CN 114996055 A CN114996055 A CN 114996055A
Authority
CN
China
Prior art keywords
server
dual
standby
standby system
computer hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210612307.1A
Other languages
English (en)
Inventor
郭冬夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210612307.1A priority Critical patent/CN114996055A/zh
Publication of CN114996055A publication Critical patent/CN114996055A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请涉及云计算领域,公开了一种双机热备系统控制方法、装置、介质,应用于包含有应急服务器的双机热备系统,包括:获取主、备节点工作状态,根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,若满足预设条件,启动应急服务器,并更新集群配置文件和服务器配置文件,将应急服务器挂载至双机热备系统以使应急服务器能够取代双机热备系统中故障服务器工作,从而保证双机热备系统稳定运行。由此可见,本申请所提供的方案中通过双机热备系统满足预设条件时将应急服务器加入系统中以替代故障服务器工作,从而保证主节点服务器或备节点服务器故障且无法及时修复时双机热备系统能够正常工作,提高系统稳定性和可靠性。

Description

一种双机热备系统控制方法、装置、介质
技术领域
本申请涉及云计算领域,特别是涉及一种双机热备系统控制方法、装置、介质。
背景技术
双机热备部署方式是指将两台安装有相同系统的服务器分别作为主节点和备节点的部署方式,两台服务器间通过分布式复制块设备(Distributed Replicated BlockDevice,DRBD)复制磁盘以保证数据一致性,并通过heartbeat检测节点状态和调度服务器资源。
但当突发情况导致主节点服务器或备节点服务器损坏或故障,导致双机热备系统不可用,当维护人员不能及时修复故障时,可能由于数据无法及时同步导致环境的稳定性和数据的安全性缺乏保障。
由此可见,如果提供一种更安全的服务器控制系统,以提高双机热备系统的稳定性和可靠性,是本领域技术人员亟需解决的问题。
发明内容
本申请的目的是提供一种双机热备系统控制方法、装置、介质,用于突发情况导致主节点服务器或备节点服务器故障时防止数据丢失,以提高双机热备系统的稳定性和可靠性。
为了解决上述技术问题,本申请提供一种双机热备系统控制方法,其特征在于,应用于包含有应急服务器的双机热备系统,该方法包括:
获取主节点工作状态和备节点工作状态;
根据所述主节点工作状态和所述备节点工作状态判断双机热备系统是否满足预设条件,所述预设条件为所述双机热备系统中主节点服务器正常且备节点服务器故障,或所述主节点服务器故障且所述备节点服务器正常;
若满足所述预设条件,启动应急服务器;
更新所述双机热备系统的集群配置文件和所述应急服务器的服务器配置文件;
将所述应急服务器挂载至所述双机热备系统。
优选的,所述获取主节点工作状态和备节点工作状态包括:
读取所述主节点服务器、所述备节点服务器中运行的心跳线服务以获取所述主节点工作状态和所述备节点工作状态。
优选的,当多个所述双机热备系统共用一个所述应急服务器时,所述启动应急服务器包括:
为所述应急服务器安装与所述主节点服务器的相同的操作系统;
获取故障服务器的网络配置文件和故障主机名;
根据所述网络配置文件和所述故障主机名配置所述应急服务器;
当检测到所述主节点工作状态和所述备节点工作状态均正常时,卸载所述应急服务器的操作系统。
优选的,所述更新所述双机热备系统的集群配置文件和所述应急服务器的服务器配置文件的步骤包括:
根据所述应急服务器的硬件信息修改所述集群配置文件;
将所述集群配置文件发送至所述应急服务器,以便于根据所述集群配置文件修改所述服务器配置文件。
优选的,所述将所述应急服务器挂载至所述双机热备系统的步骤后,还包括:
禁用所述应急服务器的开机启动项,以提高所述应急服务器的运行速度,所述开机启动项至少包括:网络连接服务和裸金属管理服务。
优选的,其特征在于,所述将所述应急服务器挂载至所述双机热备系统包括:
在正常服务器和所述应急服务器中同步启动心跳线服务和管理服务,以保证正常服务器和所述应急服务器正常工作。
优选的,所述将所述应急服务器挂载至所述双机热备系统的步骤后,还包括:
当检测到主节点工作状态和备节点工作状态均正常时,删除所述应急服务器。
为了解决这一技术问题,本申请还提供了一种双机热备系统控制装置,应用于包含有应急服务器的双机热备系统,该装置包括:
获取模块,用于获取主节点工作状态和备节点工作状态;
判断模块,用于根据所述主节点工作状态和所述备节点工作状态判断双机热备系统是否满足预设条件,所述预设条件为所述双机热备系统中主节点服务器正常且备节点服务器故障,或所述主节点服务器故障且所述备节点服务器正常;
启动模块,用于若满足所述预设条件,启动应急服务器;
更新模块,用于更新所述双机热备系统的集群配置文件和所述应急服务器的服务器配置文件;
挂载模块,用于将所述应急服务器挂载至所述双机热备系统。
为了解决这一技术问题,本申请还提供了一种双机热备系统控制装置,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现所述的双机热备系统控制方法的步骤。
为了解决这一技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的双机热备系统控制方法的步骤。
本申请所提供的双机热备系统控制方法,应用于包含有应急服务器的双机热备系统,该方法包括:
获取所述主节点工作状态和所述备节点工作状态,根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,以根据双机热备系统的工作状态采取相应措施,其中,预设条件包括双机热备系统中主节点服务器正常且备节点服务器故障,或主节点服务器故障且备节点服务器正常;若满足预设条件,启动应急服务器,并更新双机热备系统的集群配置文件和应急服务器的服务器配置文件,将应急服务器挂载至双机热备系统以使应急服务器能够取代双机热备系统中故障服务器工作,从而保证双机热备系统稳定运行。由此可见,本申请所提供的方案中通过双机热备系统满足预设条件时将应急服务器加入系统中以替代故障服务器工作,从而保证主节点服务器或备节点服务器故障且无法及时修复时双机热备系统能够正常工作,提高系统稳定性和可靠性。
此外,本申请还提供了一种双机热备系统控制装置和介质,与上述方法对应,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种双机热备系统控制方法的流程图;
图2为本申请实施例所提供的一种双机热备系统控制装置的结构图;
图3为本申请实施例所提供的另一种双机热备系统控制装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种双机热备系统控制方法、装置、介质,用于突发情况导致主节点服务器或备节点服务器故障时防止数据丢失,以提高双机热备系统的稳定性和可靠性。
本申请所提供的双机热备系统控制方法应用于包含主节点服务器、备节点服务器、应急服务器的双机热备系统,其中,主节点服务器与备节点服务器、应急服务器的可以选用相同的服务器,也可以选用不同的服务器,此处不做限定。可以理解的是,选用低性能服务器作为备节点服务器和应急服务器,可以降低设备成本,但双机热备系统的抗干扰能力也随之降低。
在双机热备系统工作场景中,主节点服务器与备节点服务器间通过心跳服务监测彼此的工作状态,并通过DRBD服务复制磁盘数据以保证二者系统的一致性。当主节点服务器或备节点服务器出现故障时,剩余的一个服务器可以维持系统的正常工作,但此时主备系统无法使用,系统中的服务器无法正常完成数据备份等工作,在管理人员对双机热备系统进行中的故障服务器进行维护前,若主节点服务器和备节点服务器均故障,将会导致数据丢失,造成经济损失。为了解决这一问题,本申请提供了一种双机热备系统控制方法,应用于包含有应急服务器的双机热备系统。通过获取双机热备系统的工作状态,并在双机热备系统主节点服务器正常且备节点服务器故障、或主节点服务器故障且备节点服务器正常时将应急服务器加入系统中以替代故障服务器工作,从而保证主节点服务器或备节点服务器故障且无法及时修复时双机热备系统能够正常工作,提高系统稳定性和可靠性。
图1为本申请实施例所提供的一种双机热备系统控制方法的流程图,如图1所示,该方法应用于包含有应急服务器的双机热备系统,包括:
S10:获取主节点工作状态和备节点工作状态。
其中,主节点工作状态为主节点服务器的工作状态,备节点服务器为备节点服务器的工作状态。主节点服务器与备节点服务器通过心跳线监测彼此的工作状态,在具体实施中,可以使用heartbeat服务检测节点状态和调度服务器计算资源,主节点服务器通过heartbeat服务获取备节点服务器的工作信号,备节点服务器通过heartbeat获取主节点服务器的工作信号。
可以理解的是,为了便于用户使用,双机热备系统的主节点服务器和备节点服务器均需要添加至虚拟化环境中。其中,虚拟化工作环境用于控制双机热备系统为用户提供计算资源、查看服务器的工作状态等。因此,可以通过与双机热备系统所在的虚拟化环境通信以获取主节点工作状态和备节点工作状态。
S11:根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,预设条件为双机热备系统中主节点服务器正常且备节点服务器故障,或主节点服务器故障且备节点服务器正常。
S12:若满足预设条件,启动应急服务器。
可以理解的是,当双机热备系统中主节点服务器与备节点服务器均故障时,仅靠应急服务器无法实现双机热备系统,因此,当且仅当双机热备系统中存在一台故障服务器和一台正常服务器时,通过本实施例所提供的方案启动应急服务器与正常服务器组成双机热备系统,以为用户提供服务。
在具体实施中,应急服务器可以为预先接入双机热备系统的服务器,应急服务器、主节点服务器、备节点服务器中运行的操作系统相同,但仅当双机热备系统满足预设条件时启用应急服务器;也可以为关机状态的服务器,当双机热备系统满足预设条件时,开启应急服务器,并为应急服务器安装与主节点服务器、备节点服务器相同的操作系统。采用后一种方案时,可以使多个双机热备系统共用同一个应急服务器,以降低设备成本。因此,本实施例中选用后一种方案。
可以理解的是,应急服务器的数量可以与双机热备系统的数量相等,也可以少于双机热备系统的数量,可以理解的是,应急服务器的数量越少,系统的成本越低。在具体实施中,可以设置具有多个服务器的应急服务器集群,集群中各服务器分别安装不同类型的操作系统,当双机热备系统故障时,启动与双机热备系统的操作系统和设备类型均相同的应急服务器,以再次形成双机热备系统。
S13:更新双机热备系统的集群配置文件和应急服务器的服务器配置文件。
S14:将应急服务器挂载至双机热备系统。
为了使应急服务器能够与双机热备系统中的正常服务器组成新的双机系统,需要更新双机热备系统的集群配置文件和应急服务器的服务器配置文件。具体的,预先通过虚拟化环境获取系统中故障服务器的网络配置信息和主机名,并使应急服务器的网络配置信息、主机名等信息与故障服务器相同,以保证正常服务器能够与应急服务器间建立通信连接。
获取应急服务器的设备信息,包括设备IP、端口信息等,并在正常服务器中根据应急服务器的设备信息创建新的集群配置文件,并使用SCP工具将集群配置文件同步至应急服务器,以创建服务器配置文件。
完成文件配置后,在应急服务器与正常服务器间启动heartbeat服务和DRBD服务,以构成双机热备系统。
本实施例中提供了一种双机热备系统控制方法,应用于包含有应急服务器的双机热备系统,该方法包括:获取所述主节点工作状态和所述备节点工作状态,根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,以根据双机热备系统的工作状态采取相应措施,其中,预设条件包括双机热备系统中主节点服务器正常且备节点服务器故障,或主节点服务器故障且备节点服务器正常;若满足预设条件,启动应急服务器,并更新双机热备系统的集群配置文件和应急服务器的服务器配置文件,将应急服务器挂载至双机热备系统以使应急服务器能够取代双机热备系统中故障服务器工作,从而保证双机热备系统稳定运行。由此可见,本申请所提供的方案中通过双机热备系统满足预设条件时将应急服务器加入系统中以替代故障服务器工作,从而保证主节点服务器或备节点服务器故障且无法及时修复时双机热备系统能够正常工作,提高系统稳定性和可靠性。
在具体实施中,主节点服务器和备节点服务器均处于虚拟化环境中,主节点服务器与备节点服务器间通过心跳线监测彼此的工作信号,并将监测结果上传至虚拟化环境。
在上述实施例的基础上,获取主节点工作状态和备节点工作状态包括:
读取主节点服务器、备节点服务器中运行的心跳线服务以获取主节点工作状态和备节点工作状态。
在本实施例中,通过读取心跳线服务的信号获取主节点服务器、备节点服务器的工作状态,以确定是否启动应急服务器。
可以理解的是,应急服务器的数量可以与双机热备系统的数量相同,也可以不同,为了降低成本,在具体实施中通常使应急服务器的数量少于双机热备系统的数量。
在上述实施例的基础上,当多个双机热备系统共用一个应急服务器时,需要使应急服务器均处于待机状态,以便于出现故障服务器时,能够及时为应急服务器安装与故障服务器相同的操作系统,并启动应急服务器。具体的,启动应急服务器包括:
为应急服务器安装与主节点服务器的相同的操作系统;
获取故障服务器的网络配置文件和故障主机名;
根据网络配置文件和故障主机名配置应急服务器;
当检测到主节点工作状态和备节点工作状态均正常时,卸载应急服务器的操作系统。
在具体实施中包括:
(1)为应急服务器安装操作系统,并将应急服务器设置为备节点服务器,原双机系统中的正常服务器设置为主节点服务器,需要注意的是,安装应急服务器时需要使应急服务器的网络配置与故障服务器的网络配置相同。操作步骤如下:
a)在应急服务器中安装与故障节点(即双机热备系统中的故障服务器)相同版本的操作系统,并将应急服务器选择为备节点服务器;
b)在虚拟化环境中,通过SSH登录正常节点(即双机热备系统中的正常服务器),使用cat/etc/inspur/float_ip命令查看IP文件,该文件中,other_ip即为应急服务器需要配置的ip、local_ip为应急服务器要配置的对端ip、float_ip为应急服务器要配置的浮动ip;应急服务器的网络配置与IP文件中相同。
(2)查看故障节点的主机名,将应急服务器的主机名改为与故障节点相同的主机名,并恢复所有服务的默认设置,以便于后续对应急服务器的配置信息进行设置。操作步骤如下:
a)SSH登录正常节点,cat/etc/hosts查看故障节点对应的主机名,然后在应急服务器上执行hostnamectl set-hostname xxx命令修改主机名;
b)重新登录应急服务器,输入命令ics-config recovery manageNetwork重置所有服务默认设置;
(3)修改正常服务器的双机配置相关文件,并使用scp工具将集群配置文件拷贝至应急服务器。操作步骤如下:
a)scp/etc/hosts(应急服务器ip):/etc/hosts;
b)修改正常节点的集群配置文件/var/heartbeat/mac_remote.cf,将文件中的mac修改为应急服务器的mac,然后拷贝到应急服务器上,scp/var/heartbeat/mac_remote.cf(应急服务器ip):/var/heartbeat/mac_local.cf;
c)scp/var/heartbeat/mac_local.cf(应急服务器ip):/var/heartbeat/mac_remote.cf;
d)scp/etc/inspur/float_ip(应急服务器ip):/etc/inspur/float_ip,然后登录到应急服务器修改该文件,将其中local_ip和other_ip字段后面的ip互换;
e)scp/etc/ha.d/ha.cf(应急服务器ip):/etc/ha.d/ha.cf;
f)scp/etc/ha.d/haservices.xml(应急服务器ip):/etc/ha.d/haservices.xml;
g)scp/etc/my.cnf(应急服务器ip):/etc/my.cnf;
h)修改/etc/drbd.d/r0.res中disk对应分区的disk id,可以通过ll–al/dev/disk/by-id/*命令查看对应分区的id;
i)scp/etc/drbd.d/r0.res(应急服务器ip):/etc/drbd.d/;
j)scp/etc/drbd.d/global_common.conf(应急服务器ip):/etc/drbd.d/。
(4)格式化应急服务器中挂载DRBD的分区并初始化创建资源数据块,开启DRBD服务和heartbeat服务,以使应急服务器能够执行双机热备系统的部分功能。操作步骤如下:
a)登录应急服务器,使用dd命令格式化DRBD挂载的分区,完成后执行命令drbdadm--DRBDMETA-OPTION-f create-md r0初始化创建drbd资源,初始化完成后开启drbd服务,systemctl start drbd;
b)应急服务器开启heartbeat服务,执行命令systemctl start heartbeat,然后控制台输入heartbeatstat-status查看服务状态,当主节点服务器的工作状态、备节点服务器的工作状态分别为ON和OFF时表示服务正常,如果服务不正常,可以尝试重启heartbeat服务。
(5)同步心跳服务。正常服务器托管管理服务,在正常服务器与应急服务器上都重启heartbeat服务,正常服务器再启用管理服务。操作步骤如下:
a)登录正常服务器执行heartbeatsrv-disable ics-manager进程,通过heartbeatstat-status查看服务状态,正常服务器、应急服务器都是UNKNOWN时表示管理服务被托管;
b)分别在正常服务器、应急服务器上systemctl restart heartbeat重启心跳服务,然后正常服务器再启用管理服务heartbeatsrv-enable ics-manager,查看心跳服务状态主备分别是ON和OFF,管理服务启用正常;
(6)配置应急服务器。在应急服务器中设置heartbeat服务开机自启动,并禁用相关服务开机启动。操作步骤如下:
a))在应急服务器上执行命令systemctl enable heartbeat,以设置heartbeat服务开机自启用;
b))使用systemctl disable xxx命令禁止一些服务开机自启动,以提高应急服务器的运行速度,包括ics-manager、mariadb、ironic-api、ironic-conductor、openstack-ironic-inspector、kdump、ovn-northd、ics-etcd、obst-watcher;
(7)在虚拟化环境中添加应急服务器作为应急节点,并从虚拟化环境强制删除故障节点。操作步骤如下:
a)登录虚拟化环境平台,选择故障节点,点击强制删除;
b)点击添加主机,将扫描到的应急服务器作为应急节点添加到环境中。
可以理解的是,为了提高应急服务器的利用率,利用较少的应急服务器为多个双机热备系统提供应急服务,当检测到主节点工作状态和备节点工作状态均正常时,卸载应急服务器的操作系统,以便于应急服务器可以安装其他类型的操作系统,并挂载至其他双机热备集群。
需要注意的是,将应急服务器挂载至双机热备系统的步骤后,还包括当虚拟化环境检测到主节点工作状态和备节点工作状态均正常时,从虚拟化环境中删除应急服务器,并删除环境中创建的应急节点。在主节点服务器和备节点服务器间启动heartbeat服务和DRBD服务以重构双机热备系统。
在上述实施例中,对于双机热备系统控制方法进行了详细描述,本申请还提供双机热备系统控制装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图2为本申请实施例所提供的一种双机热备系统控制装置的结构图,如图2所示,该装置应用于包含有应急服务器的双机热备系统,包括:
获取模块10,用于获取主节点工作状态和备节点工作状态。
主节点工作状态为主节点服务器的工作状态,备节点服务器为备节点服务器的工作状态。主节点服务器与备节点服务器通过心跳线监测彼此的工作状态,在具体实施中,可以使用heartbeat服务检测节点状态和调度服务器计算资源,主节点服务器通过heartbeat服务获取备节点服务器的工作信号,备节点服务器通过heartbeat获取主节点服务器的工作信号。
判断模块11,用于根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,预设条件为双机热备系统中主节点服务器正常且备节点服务器故障,或主节点服务器故障且备节点服务器正常。
启动模块12,用于若满足预设条件,启动应急服务器。
在具体实施中,应急服务器可以为预先接入双机热备系统的服务器,应急服务器、主节点服务器、备节点服务器中运行的操作系统相同,但仅当双机热备系统满足预设条件时启用应急服务器;也可以为关机状态的服务器,当双机热备系统满足预设条件时,开启应急服务器,并为应急服务器安装与主节点服务器、备节点服务器相同的操作系统。采用后一种方案时,可以使多个双机热备系统共用同一个应急服务器,以降低设备成本。因此,本实施例中选用后一种方案。
可以理解的是,应急服务器的数量可以与双机热备系统的数量相等,也可以少于双机热备系统的数量,可以理解的是,应急服务器的数量越少,系统的成本越低。在具体实施中,可以设置具有多个服务器的应急服务器集群,集群中各服务器分别安装不同类型的操作系统,当双机热备系统故障时,启动与双机热备系统的操作系统和设备类型均相同的应急服务器,以再次形成双机热备系统。
更新模块13,用于更新双机热备系统的集群配置文件和应急服务器的服务器配置文件。
挂载模块14,用于将应急服务器挂载至双机热备系统。
此外,本申请所提供的双机热备系统控制装置还包括:禁用模块、删除模块;其中,禁用模块用于禁用所述应急服务器的开机启动项,以提高应急服务器的运行速度,开机启动项至少包括:网络连接服务和裸金属管理服务。删除模块用于当检测到主节点工作状态和备节点工作状态均正常时,删除应急服务器。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本实施例提供了一种双机热备系统控制装置,应用于包含有应急服务器的双机热备系统,该装置包括:获取模块,用于获取所述主节点工作状态和所述备节点工作状态,判断模块,用于根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,以根据双机热备系统的工作状态采取相应措施,其中,预设条件包括双机热备系统中主节点服务器正常且备节点服务器故障,或主节点服务器故障且备节点服务器正常;启动模块,用于若满足预设条件,启动应急服务器。更新模块,用于并更新双机热备系统的集群配置文件和应急服务器的服务器配置文件。挂载模块,用于将应急服务器挂载至双机热备系统以使应急服务器能够取代双机热备系统中故障服务器工作,从而保证双机热备系统稳定运行。由此可见,本申请所提供的方案中通过双机热备系统满足预设条件时将应急服务器加入系统中以替代故障服务器工作,从而保证主节点服务器或备节点服务器故障且无法及时修复时双机热备系统能够正常工作,提高系统稳定性和可靠性。
图3为本申请实施例所提供的另一种双机热备系统控制装置的结构图,如图3所示,双机热备系统控制装置包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例获取主节点工作状态和备节点工作状态方法的步骤。
本实施例提供的运行虚拟化环境的终端设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的双机热备系统控制方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于主节点工作状态、备节点工作状态等。
在一些实施例中,双机热备系统控制装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图3中示出的结构并不构成对双机热备系统控制装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的双机热备系统控制装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:
获取主节点工作状态和备节点工作状态;
根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,预设条件为双机热备系统中主节点服务器正常且备节点服务器故障,或主节点服务器故障且备节点服务器正常;
若满足预设条件,启动应急服务器;
更新双机热备系统的集群配置文件和应急服务器的服务器配置文件;
将应急服务器挂载至双机热备系统。
本实施例提供了一种双机热备系统控制装置,该装置包括:获取所述主节点工作状态和所述备节点工作状态,根据主节点工作状态和备节点工作状态判断双机热备系统是否满足预设条件,以根据双机热备系统的工作状态采取相应措施,其中,预设条件包括双机热备系统中主节点服务器正常且备节点服务器故障,或主节点服务器故障且备节点服务器正常;若满足预设条件,启动应急服务器,并更新双机热备系统的集群配置文件和应急服务器的服务器配置文件,将应急服务器挂载至双机热备系统以使应急服务器能够取代双机热备系统中故障服务器工作,从而保证双机热备系统稳定运行。由此可见,本申请所提供的方案中通过双机热备系统满足预设条件时将应急服务器加入系统中以替代故障服务器工作,从而保证主节点服务器或备节点服务器故障且无法及时修复时双机热备系统能够正常工作,提高系统稳定性和可靠性。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本申请所提供的双机热备系统控制方法、装置、介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种双机热备系统控制方法,其特征在于,应用于包含有应急服务器的双机热备系统,该方法包括:
获取主节点工作状态和备节点工作状态;
根据所述主节点工作状态和所述备节点工作状态判断双机热备系统是否满足预设条件,所述预设条件为所述双机热备系统中主节点服务器正常且备节点服务器故障,或所述主节点服务器故障且所述备节点服务器正常;
若满足所述预设条件,启动应急服务器;
更新所述双机热备系统的集群配置文件和所述应急服务器的服务器配置文件;
将所述应急服务器挂载至所述双机热备系统。
2.根据权利要求1所述的双机热备系统控制方法,其特征在于,所述获取主节点工作状态和备节点工作状态包括:
读取所述主节点服务器、所述备节点服务器中运行的心跳线服务以获取所述主节点工作状态和所述备节点工作状态。
3.根据权利要求2所述的双机热备系统控制方法,其特征在于,当多个所述双机热备系统共用一个所述应急服务器时,所述启动应急服务器包括:
为所述应急服务器安装与所述主节点服务器的相同的操作系统;
获取故障服务器的网络配置文件和故障主机名;
根据所述网络配置文件和所述故障主机名配置所述应急服务器;
当检测到所述主节点工作状态和所述备节点工作状态均正常时,卸载所述应急服务器的操作系统。
4.根据权利要求1所述的双机热备系统控制方法,其特征在于,所述更新所述双机热备系统的集群配置文件和所述应急服务器的服务器配置文件的步骤包括:
根据所述应急服务器的硬件信息修改所述集群配置文件;
将所述集群配置文件发送至所述应急服务器,以便于根据所述集群配置文件修改所述服务器配置文件。
5.根据权利要求1所述的双机热备系统控制方法,其特征在于,所述将所述应急服务器挂载至所述双机热备系统的步骤后,还包括:
禁用所述应急服务器的开机启动项,以提高所述应急服务器的运行速度,所述开机启动项至少包括:网络连接服务和裸金属管理服务。
6.根据权利要求1至5任意一项所述的双机热备系统控制方法,其特征在于,所述将所述应急服务器挂载至所述双机热备系统包括:
在正常服务器和所述应急服务器中同步启动心跳线服务和管理服务,以保证正常服务器和所述应急服务器正常工作。
7.根据权利要求1所述的双机热备系统控制方法,其特征在于,所述将所述应急服务器挂载至所述双机热备系统的步骤后,还包括:
当检测到所述主节点工作状态和所述备节点工作状态均正常时,删除所述应急服务器。
8.一种双机热备系统控制装置,其特征在于,应用于包含有应急服务器的双机热备系统,该装置包括:
获取模块,用于获取主节点工作状态和备节点工作状态;
判断模块,用于根据所述主节点工作状态和所述备节点工作状态判断双机热备系统是否满足预设条件,所述预设条件为所述双机热备系统中主节点服务器正常且备节点服务器故障,或所述主节点服务器故障且所述备节点服务器正常;
启动模块,用于若满足所述预设条件,启动应急服务器;
更新模块,用于更新所述双机热备系统的集群配置文件和所述应急服务器的服务器配置文件;
挂载模块,用于将所述应急服务器挂载至所述双机热备系统。
9.一种双机热备系统控制装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的双机热备系统控制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的双机热备系统控制方法的步骤。
CN202210612307.1A 2022-05-31 2022-05-31 一种双机热备系统控制方法、装置、介质 Pending CN114996055A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210612307.1A CN114996055A (zh) 2022-05-31 2022-05-31 一种双机热备系统控制方法、装置、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210612307.1A CN114996055A (zh) 2022-05-31 2022-05-31 一种双机热备系统控制方法、装置、介质

Publications (1)

Publication Number Publication Date
CN114996055A true CN114996055A (zh) 2022-09-02

Family

ID=83030358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210612307.1A Pending CN114996055A (zh) 2022-05-31 2022-05-31 一种双机热备系统控制方法、装置、介质

Country Status (1)

Country Link
CN (1) CN114996055A (zh)

Similar Documents

Publication Publication Date Title
US11533311B2 (en) Automatically deployed information technology (IT) system and method
US8910172B2 (en) Application resource switchover systems and methods
CN102214128B (zh) 多用途恢复环境
US10430082B2 (en) Server management method and server for backup of a baseband management controller
CN106657167B (zh) 管理服务器、服务器集群、以及管理方法
CN113032085A (zh) 云操作系统的管理方法、装置、服务器、管理系统及介质
CN113656147B (zh) 一种集群部署方法、装置、设备及存储介质
CN111669284A (zh) OpenStack自动化部署方法、电子设备、存储介质及系统
CN112214351A (zh) 备份数据的恢复方法和装置、电子设备和存储介质
CN116089011A (zh) 创建镜像仓库的方法、装置、存储介质以及电子设备
CN114640709A (zh) 一种边缘节点的处理方法、装置及介质
CN111124749A (zh) 紧耦合高性能计算机系统bmc系统自动修复方法及修复系统
CN115098294B (zh) 异常事件的处理方法、电子设备及管理终端
CN111240700A (zh) 一种跨网段服务器os部署系统及方法
CN114996055A (zh) 一种双机热备系统控制方法、装置、介质
CN114217999A (zh) 一种云桌面系统及方法
CN107783855B (zh) 虚拟网元的故障自愈控制装置及方法
CN112241293A (zh) 工业互联网云平台的应用管理方法、装置、设备及介质
CN116431291B (zh) 一种虚拟化管理平台的部署方法、系统、设备及存储介质
US11997094B2 (en) Automatically deployed information technology (IT) system and method
CN114124651B (zh) 云平台管理节点的控制方法、装置及云平台服务器集群
US20220215001A1 (en) Replacing dedicated witness node in a stretched cluster with distributed management controllers
CN117811923A (zh) 故障处理方法、装置及设备
CN115292101A (zh) 一种元数据异常状态恢复方法、装置、设备、存储介质
CN115720202A (zh) 一种云平台存储链路监测方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination