CN112445495A - 一种高性能计算集群节点的镜像与恢复方法 - Google Patents

一种高性能计算集群节点的镜像与恢复方法 Download PDF

Info

Publication number
CN112445495A
CN112445495A CN201910800532.6A CN201910800532A CN112445495A CN 112445495 A CN112445495 A CN 112445495A CN 201910800532 A CN201910800532 A CN 201910800532A CN 112445495 A CN112445495 A CN 112445495A
Authority
CN
China
Prior art keywords
node
partition
server
deployment
diskless
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910800532.6A
Other languages
English (en)
Other versions
CN112445495B (zh
Inventor
韩孟之
解西国
翟建
孙建鹏
况吕林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201910800532.6A priority Critical patent/CN112445495B/zh
Publication of CN112445495A publication Critical patent/CN112445495A/zh
Application granted granted Critical
Publication of CN112445495B publication Critical patent/CN112445495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/61Installation
    • G06F8/63Image based installation; Cloning; Build to order
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种高性能计算集群节点的镜像与恢复方法,集群节点设置有一个服务器,服务器挂载有至少两个部署节点,镜像与恢复方法包括:步骤1,初始化服务器的网络服务,搭建服务器的无盘启动系统,并在服务器中构建无盘启动系统的无盘启动镜像文件;步骤2,服务器获取预设分区表信息,并根据预设分区表信息和无盘启动镜像文件,生成分区镜像文件,并将预设分区表信息和分区镜像文件,发送至部署节点;步骤3,部署节点根据预设分区表信息,进行格式化和分区,分区后的部署节点利用分区镜像文件,进行系统恢复。通过本申请中的技术方案,可以方便灵活的进行本地硬盘挂载,避免了冗长的操作系统和驱动安装过程已经安装失败的风险。

Description

一种高性能计算集群节点的镜像与恢复方法
技术领域
本申请涉及高性能计算集群的技术领域,具体而言,涉及一种高性能计算集群节点的镜像与恢复方法。
背景技术
现代高性能计算集群系统,大多由通过高速网络互联的多个计算集群构成,每一个计算集群被称为一个计算节点。随着计算机产业的发展以及计算能力的不断提升,高性能计算集群中包含的计算节点数目也逐年增加,计算节点数目从几十到成百上千,甚至当前最大高性能计算集群,包含了上万个计算节点。近年来随着异构计算的兴起,为了提高单个计算节点的浮点计算能力,计算节点除了中央处理器(Central Processing Unit,CPU)之外,往往包含一块或多块图形协处理器(Graphics Processing Unit,GPU)加速卡。
高性能计算节点的操作系统一般采用Linux操作系统,由于协处理器加速卡、高速互联网络等都需要相应的驱动程序支持,使得计算节点的操作系统安装部署和后续软件升级维护工作,变得异常复杂。尤其对于计算节点数目庞大的高性能计算集群,必须有相应的集群管理软件,进行计算节点中操作系统的安装、配置和维护。
而现有技术中,高性能计算集群中计算节点部署,大都采用操作系统全新安装和部署的方法,利用配置网络安装服务器,并通过预启动执行环境(Preboot ExecuteEnvironment,PXE)网络启动,以进行操作系统安装。这种部署方法存在的问题是,操作系统安装耗时往往较长,尤其在安装较多软件包时,同时,操作系统安装完成后,还需要进行节点名和IP地址等的二次配置工作。
对于包含GPU等协处理器加速卡和高速互联网络的计算节点,操作系统安装完成之后,必须安装相应的驱动程序软件包,而各种驱动软件往往包含内核模块,安装过程中需要多次重启计算节点,这不仅增加了高性能计算集群系统的安装部署时间,而且,计算节点重启,也大大增加了操作系统安装失败的风险。
除此之外,对于全新安装的操作系统,计算节点中的各种软件环境,均需要重新安装和部署。
发明内容
本申请的目的在于:结合无盘系统与计算节点的镜像与克隆方法,通过无盘系统对计算节点本地硬盘进行镜像与恢复,使操作系统安装和部署过程中,计算节点只需重启1次,避免了冗长的操作系统和驱动安装过程,降低了操作系统安装失败的风险。同时通过对分区镜像文件的挂载修改,可以更加灵活地进行软件更新与升级。镜像提取节点与部署节点,可以对应不同的硬件配置,对于计算节点的扩容、升级,更加适用。
本申请的技术方案是:提供了一种高性能计算集群节点的镜像与恢复方法,集群节点设置有一个服务器,服务器挂载有至少两个部署节点,镜像与恢复方法包括:步骤1,初始化服务器的网络服务,搭建服务器的无盘启动系统,并在服务器中构建无盘启动系统的无盘启动镜像文件;步骤2,服务器获取预设分区表信息,并根据预设分区表信息和无盘启动镜像文件,生成分区镜像文件,并将预设分区表信息和分区镜像文件,发送至部署节点;步骤3,部署节点根据预设分区表信息,进行格式化和分区,分区后的部署节点利用分区镜像文件,进行系统恢复。
上述任一项技术方案中,进一步地,集群节点中还设置有一个镜像提取节点,镜像提取节点按照预设分区表信息进行分区,步骤2中,具体包括:步骤21,服务器获取镜像提取节点的无盘启动节点信息;步骤22,根据无盘启动节点信息,服务器向镜像提取节点发送第一重启指令,镜像提取节点根据第一重启指令进入无盘启动环境;步骤23,服务器向镜像提取节点发送mount指令,挂载镜像提取节点的本地硬盘至服务器中的预设目录下;步骤24,获取镜像提取节点的本地硬盘的硬盘分区表,并根据硬盘分区表,获取预设分区表信息。
上述任一项技术方案中,进一步地,集群节点中还设置有一个镜像存储节点,步骤2中,具体包括:步骤25,服务器利用分区克隆工具,根据预设分区表信息,对无盘启动镜像文件进行提取,生成分区镜像文件;步骤26,服务器获取镜像存储节点的IP地址,并通过业务控制点方式,将分区镜像文件和预设分区表信息,发送至镜像存储节点;步骤27,服务器生成并发送临时IP地址至部署节点;步骤28,镜像存储节点根据临时IP地址,向部署节点分发分区镜像文件和预设分区表信息。
上述任一项技术方案中,进一步地,镜像存储节点对分区镜像文件进行更新。
上述任一项技术方案中,进一步地,步骤3中,具体包括:步骤31,服务器获取部署节点的无盘启动节点信息后,向部署节点发送第二重启指令,部署节点根据第二重启指令进入无盘启动环境;步骤32,部署节点根据接收到的预设分区表信息进行格式化和分区,并创建文件系统;步骤33,部署节点根据接收到的分区镜像文件,对文件系统进行系统恢复。
上述任一项技术方案中,进一步地,分区镜像文件中包括硬盘主导记录信息、硬盘各分区文件系统信息、各分区数据压缩文件。
上述任一项技术方案中,进一步地,镜像与恢复方法还包括:
步骤4,部署节点根据预设BIOS启动参数,重装引导程序至部署节点的硬盘主引导记录,部署节点根据重装后的引导程序,进行重启。
上述任一项技术方案中,进一步地,无盘启动节点信息包括IP地址及网卡MAC地址。
本申请的有益效果是:
(1)本发明结合了无盘系统与节点快速镜像与克隆方法,通过无盘系统对节点本地硬盘进行镜像与恢复,使部署过程节点只需重启一次次,避免了冗长的操作系统和驱动安装过程已经安装失败的风险。
(2)本发明通过无盘系统启动镜像提取节点和部署节点,可以方便灵活的进行本地硬盘挂载、分区表信息识别与保存、分区、挂载等操作。
(3)在镜像文件提取步骤本发明识别并保存硬盘分区表信息,并且通过识别各个硬盘分区文件系统进行分区镜像文件的提取,只镜像与恢复硬盘分区空间中有用的数据,避免了复制整块硬盘扇区,使数据拷贝量大大减少,从而大大加快节点镜像与恢复时间,并且可以适用于镜像提取节点硬盘与部署节点硬盘容量大小不一致的情况。
(4)在部署节点恢复阶段,本发明可以自动识别不同的BIOS(Basic Input OutputSystem)启动方式并进行相应的主引导记录恢复和处理。并且恢复后的硬盘分区可以直接在无盘系统中挂载,修改节点主机名以及IP地址等信息,避免了阶段部署后的二次修改操作,更加可靠和灵活。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的集群节点结构示意图;
图2是根据本申请的一个实施例的高性能计算集群节点的镜像与恢复方法的示意流程图;
图3是根据本申请的另一个实施例的高性能计算集群节点的镜像与恢复方法的示意流程图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
实施例一:
以下结合图1至图2对本实施例中的镜像与恢复方法进行说明。
如图1所示,本实施例中高性能计算集群节点设置有一个服务器,该服务器为无盘启动服务器,该无盘启动服务器下挂载有一个镜像提取节点和N个部署节点,N=1,2,…,其中,镜像提取节点和部署节点重启后,可以进入无盘启动环境,并且,将镜像提取节点中的分区信息和各分区内容作为模板,各个部署节点参照镜像提取节点进行分区和恢复。同时,考虑到部署节点恢复时所使用的分区镜像文件比较大,避免占用无盘启动服务器中的资源,在高性能计算集群节点中设置镜像存储节点,以便于向各个部署节点发送分区镜像文件,在不影响无盘启动服务器性能的前提下,提高部署节点镜像和恢复的效率。
在本实施例中,部署节点为需要部署或升级的集群计算节点。
如图2所示,本实施例提供了一种高性能计算集群节点的镜像与恢复方法,该镜像与恢复方法包括:
步骤1,初始化服务器的网络服务,搭建服务器的无盘启动系统,并在服务器中构建无盘启动系统的无盘启动镜像文件;
在本实施例中,采用xCAT管理软件为例,对无盘启动服务器的搭建进行说明,在无盘启动服务器安装xCAT管理软件,通过sqlite数据库,管理无盘启动服务器的元数据信息,其中,所有元数据信息都放置在该数据库中的不同表中。通过在xCAT管理软件对无盘启动服务器进行配置,具体过程如下:
1)配置networks table,删除不需要的网口,只保留管理网接口dhcp服务使用;
2)配置password table,增加无盘启动节点用户名和密码信息;
3)配置并初始化DNS服务;
4)配置并初始化DHCP服务。
通过在xCAT管理软件中的上述配置,完成无盘启动系统的搭建和部署。
本实施例示出一种构建无盘启动系统的无盘启动镜像文件的具体方式:
1)利用现有技术手段,构建一个基础镜像;
2)采用chroot的方式,在基础镜像中安装分区克隆工具;
具体地,xCAT的基础镜像保存在目录/install/netboot/centos7.4/x86_64/compute下,该基础镜像只会默认安装很少的系统软件包,因此,需要手动安装分区克隆工具至该基础镜像中。在这里采用chroot的方式,之后,采用yum工具安装软件包;
4)安装软件包后,运行packimage指令,重新将该镜像打包,生成无盘启动系统的无盘启动镜像文件。
步骤2,服务器获取预设分区表信息,并根据预设分区表信息和无盘启动镜像文件,生成分区镜像文件,并将预设分区表信息和分区镜像文件,发送至部署节点;
进一步地,集群节点中还设置有一个镜像提取节点,镜像提取节点按照预设分区表信息进行分区,步骤2中,具体包括:
步骤21,服务器获取镜像提取节点的无盘启动节点信息;
优选地,无盘启动节点信息包括IP地址及网卡MAC地址。
具体地,在无盘启动之前需要添加相应的镜像提取节点的无盘启动节点信息到服务器的sqlite数据库,如IP地址及网卡MAC地址等,具体函数如下所示:
mkdef-t node-o镜像节点名groups=compute,all
chdef-t group compute provmethod=centos7.4-x86_64-netboot-compute
chdef镜像节点名mac="节点MAC地址"ip="节点IP地址"arch=x86_64
installnic=mac primarynic=mac netboot=xnba
步骤22,根据无盘启动节点信息,服务器向镜像提取节点发送第一重启指令,镜像提取节点根据第一重启指令进入无盘启动环境;
具体地,添加镜像提取节点的无盘启动信息后,通过ipmitool工具,生成第一重启指令,控制镜像提取节点PXE启动,具体程序如下:
ipmitool-H节点BMC地址-U用户名-P密码chassis bootdev pxe
ipmitool-H节点BMC地址-U用户名-P密码power off
ipmitool-H节点BMC地址-U用户名-P密码power on
启动后,镜像提取节点即可进入无盘系统环境。
步骤23,服务器向镜像提取节点发送mount指令,挂载镜像提取节点的本地硬盘至服务器中的预设目录下;
步骤24,获取镜像提取节点的本地硬盘的硬盘分区表,并根据硬盘分区表,获取预设分区表信息。
本实施例中,设定镜像提取节点的本地硬盘为UEFI引导的GPT硬盘,硬盘各个分区如表1所示。
表1
Figure BDA0002182190850000071
因此,通过上述过程,可以获得镜像提取节点的预设分区表信息,如各个分区大小、其实位置、分区文件系统等。
进一步地,集群节点中还设置有一个镜像存储节点,步骤2中,具体包括:
步骤25,服务器利用分区克隆工具,根据预设分区表信息,对无盘启动镜像文件进行提取,生成分区镜像文件;
优选地,分区镜像文件中包括硬盘主导记录信息、硬盘各分区文件系统信息、硬盘各分区大小以及起始和结束扇区、各分区数据压缩文件等。
具体地,使用partclone工具作为分区克隆工具,对硬盘分区镜像文件进行提取,设定本地硬盘为/dev/nvme0n1,则依据不同的引导方式,本地硬盘的分区镜像提取步骤如下:
partclone.vfat-d-c-s/dev/nvme0n1p1-o/work/osimages/nvme0n1p1.img
partclone.ext4-d-c-s/dev/nvme0n1p2-o/work/osimages/nvme0n1p2.img
partclone.ext4-d-c-s/dev/nvme0n1p3-o/work/osimages/nvme0n1p3.img
将提取出的镜像文件进行保存,即可生成对应的分区镜像文件。
步骤26,服务器获取镜像存储节点的IP地址,并通过业务控制点方式,将分区镜像文件和预设分区表信息,发送至镜像存储节点;
具体地,可以通过FTP、HTTP、SSH或者NFS挂载等多种不同的传输方式进行分区镜像文件传输。在本实施例中,利用IP地址和业务控制点方式,进行分区镜像文件和预设分区表信息的传输,将分区表信息和分区镜像文件拷贝到镜像存储节点保存,供后续步骤使用。
步骤27,服务器生成并发送临时IP地址至部署节点;
步骤28,镜像存储节点,向部署节点分发分区镜像文件和预设分区表信息。
具体地,镜像存储节点可以通过FTP、HTTP、SSH或者NFS挂载等多种不同的传输方式,向部署节点分发分区镜像文件和预设分区表信息,在本实施例中,由服务器向部署节点发送临时IP地址,再由镜像存储节点根据临时IP地址,利用IP地址和业务控制点方式,将分区镜像文件和预设分区表信息发送至部署节点,进行保存,供后续步骤使用。
优选地,镜像存储节点对分区镜像文件进行更新。
步骤3,部署节点根据预设分区表信息,进行格式化和分区,分区后的部署节点利用分区镜像文件,进行系统恢复。
进一步地,步骤3中,具体包括:
步骤31,服务器获取部署节点的无盘启动节点信息后,向部署节点发送第二重启指令,部署节点根据第二重启指令进入无盘启动环境;
具体地,在对部署节点进行恢复之间,无盘启动服务器需要获取部署节点的无盘启动节点信息,该过程与获取镜像提取节点的无盘启动节点信息的过程相类似,此处不再赘述。
获取到部署节点的无盘启动节点信息之后,采用ipmitool工具,生成第二重启指令,控制部署节点PXE启动,进入无盘系统环境。
步骤32,部署节点根据接收到的预设分区表信息进行格式化和分区,并创建文件系统;
具体地,部署节点进入无盘系统环境后,首先需要对部署节点的本地硬盘进行分区和格式化。在本实施例中,采用gnu parted工具进行分区格和式化,设定部署节点的本地硬盘为UEFI引导的GPT硬盘,分区格式化步骤如下:
parted-s/dev/nvme0n1 mklabel gpt
parted-s/dev/nvme0n1 mkpart fat32 1049kB 1075MB
parted-s/dev/nvme0n1 mkpart ext4 1075MB 3222MB
parted-s/dev/nvme0n1 mkpart ext4 3222MB 239GB
parted-s/dev/nvme0n1 mkpart linux-swap 239GB 256GB
mkfs.vfat/dev/nvme0n1p1
mkfs.ext4/dev/nvme0n1p2
mkfs.ext4/dev/nvme0n1p3
mkswap/dev/nvme0n1p4
步骤33,部署节点根据接收到的分区镜像文件,对文件系统进行系统恢复。
具体地,在进行部署节点的恢复时,采用partclone工具,具体程序如下:
partclone.vfat-r-c-s/work/osimages/nvme0n1p1.img–o/dev/nvme0n1p1
partclone.ext4-r-c-s/work/osimages/nvme0n1p2.img–o/dev/nvme0n1p2
partclone.ext4-r-c-s/work/osimages/nvme0n1p3.img–o/dev/nvme0n1p3
由于本实施例中采用的是UEFI引导的GPT硬盘,因此,不需要做特殊操作,如重装部署节点的引导程序,便可以从本地硬盘对部署节点进行引导启动。
而对于采用legacy方式启动的部署节点的本地硬盘,则还需要对部署节点的引导程序进行重装,因此,该镜像与恢复方法还包括:步骤4,部署节点根据预设BIOS启动参数,重装引导程序至部署节点的硬盘主引导记录,部署节点根据重装后的引导程序,进行重启。
具体地,假设本地硬盘采用legacy方式启动,则需要挂载本地硬盘,并采用chroot的方式,重装GRUB引导程序到硬盘的主引导记录(MBR)。例如,本地硬盘为/dev/nvme0n1p2,挂载到目录/mnt,基本步骤如下:
mount/dev/nvme0n1p2/mnt
mount/dev/nvme0n1p1/mnt/boot
mount--bind/dev/mnt/dev
mount--bind/proc/mnt/proc
mount--bind/sys/mnt/sys
chroot/mnt
grub2-mkconfig-o/boot/grub2/grub.cfg
grub2-install/dev/nvme0n1
实施例二:
如图3所示,本实施例提供了另一种高性能计算集群节点的镜像与恢复方法,在该方法适用的高性能计算集群节点中,不单独设置镜像提取节点和镜像存储节点,而是采用在无盘启动服务器中预先保存的分区镜像文件,对部署节点进行升级、恢复操作,其中,部署节点的分区表信息,同样存储于无盘启动服务器中。
该镜像与恢复方法包括:
201.搭建无盘启动服务器,使得镜像提取节点和部署节点能够通过无盘启动系统。本步骤与实施例一相同,不再赘述。
202.将先前保存的分区镜像文件传输到外部镜像存储节点保存。本实施例中假设有一个先前保存的分区镜像文件,可以用户部署节点的镜像恢复操作。
203.在外部镜像存储节点挂载分区镜像文件,进行必要的软件升级更新工作。在本步骤中,在镜像存储节点挂载先前保存的分区镜像文件,修改其中的内容。例如对软件版本进行升级等操作。跟新后的镜像分区文件用于后续的部署节点恢复。
204.部署节点通过无盘启动服务器启动无盘系统,并挂载部署节点本地硬盘。本步骤与实施例一相同,不再赘述。
205.根据部署节点本地硬盘大小等信息,输入分区格式化参数,对部署节点本地硬盘进行格式化和分区,创建文件系统。由于部署节点本地硬盘与镜像提取节点不同,需要手动输入分区信息,并进行硬盘分区和格式化操作。
206.将203步骤中更新的各个分区镜像文件传输到部署节点内存中。本步骤与实施例一相同,不再赘述。
207.将各个分区镜像文件内容恢复到部署节点各个相应的分区中。本步骤与实施例一相同,不再赘述。
208.根据部署节点BIOS启动参数,恢复本地硬盘引导启动信息。部署节点本地硬盘各个分区文件系统和数据经恢复完成后,需要恢复硬盘的引导启动信息,使得可以从本地硬盘引导启动系统。本实施例中假设BIOS采用legacy方式启动,则需要挂载本地硬盘到适当的目录,并采用chroot的方式重装GRUB引导程序到硬盘的主引导记录(MBR),基本步骤如下:
mount/dev/nvme0n1p2/mnt
mount/dev/nvme0n1p1/mnt/boot
mount--bind/dev/mnt/dev
mount--bind/proc/mnt/proc
mount--bind/sys/mnt/sys
chroot/mnt
grub2-mkconfig-o/boot/grub2/grub.cfg
grub2-install/dev/nvme0n1
209.部署配置从本地硬盘启动,并重新启动,完成对部署节点的部署工作。本步骤与实施例一相同,不再赘述。
以上结合附图详细说明了本申请的技术方案,本申请提出了一种高性能计算集群节点的镜像与恢复方法,集群节点设置有一个服务器,服务器挂载有至少两个部署节点,镜像与恢复方法包括:步骤1,初始化服务器的网络服务,搭建服务器的无盘启动系统,并在服务器中构建无盘启动系统的无盘启动镜像文件;步骤2,服务器获取预设分区表信息,并根据预设分区表信息和无盘启动镜像文件,生成分区镜像文件,并将预设分区表信息和分区镜像文件,发送至部署节点;步骤3,部署节点根据预设分区表信息,进行格式化和分区,分区后的部署节点利用分区镜像文件,进行系统恢复。通过本申请中的技术方案,可以方便灵活的进行本地硬盘挂载,避免了冗长的操作系统和驱动安装过程已经安装失败的风险。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims (8)

1.一种高性能计算集群节点的镜像与恢复方法,其特征在于,所述集群节点设置有一个服务器,所述服务器挂载有至少两个部署节点,所述镜像与恢复方法包括:
步骤1,初始化所述服务器的网络服务,搭建所述服务器的无盘启动系统,并在所述服务器中构建所述无盘启动系统的无盘启动镜像文件;
步骤2,所述服务器获取预设分区表信息,并根据所述预设分区表信息和所述无盘启动镜像文件,生成分区镜像文件,并将所述预设分区表信息和所述分区镜像文件,发送至所述部署节点;
步骤3,所述部署节点根据所述预设分区表信息,进行格式化和分区,分区后的所述部署节点利用所述分区镜像文件,进行系统恢复。
2.如权利要求1所述的高性能计算集群节点的镜像与恢复方法,其特征在于,所述集群节点中还设置有一个镜像提取节点,所述镜像提取节点按照所述预设分区表信息进行分区,其特征在于,所述步骤2中,具体包括:
步骤21,所述服务器获取所述镜像提取节点的无盘启动节点信息;
步骤22,根据所述无盘启动节点信息,所述服务器向所述镜像提取节点发送第一重启指令,所述镜像提取节点根据所述第一重启指令进入无盘启动环境;
步骤23,所述服务器向所述镜像提取节点发送mount指令,挂载所述镜像提取节点的本地硬盘至所述服务器中的预设目录下;
步骤24,获取所述镜像提取节点的本地硬盘的硬盘分区表,并根据所述硬盘分区表,获取所述预设分区表信息。
3.如权利要求2所述的高性能计算集群节点的镜像与恢复方法,其特征在于,所述所述集群节点中还设置有一个镜像存储节点,所述步骤2中,具体包括:
步骤25,所述服务器利用分区克隆工具,根据所述预设分区表信息,对所述无盘启动镜像文件进行提取,生成所述分区镜像文件;
步骤26,所述服务器获取所述镜像存储节点的IP地址,并通过业务控制点方式,将所述分区镜像文件和所述预设分区表信息,发送至所述镜像存储节点;
步骤27,所述服务器生成并发送临时IP地址至所述部署节点;
步骤28,所述镜像存储节点根据所述临时IP地址,向所述部署节点分发所述分区镜像文件和所述预设分区表信息。
4.如权利要求3所述的高性能计算集群节点的镜像与恢复方法,其特征在于,所述镜像存储节点对所述分区镜像文件进行更新。
5.如权利要求1所述的高性能计算集群节点的镜像与恢复方法,其特征在于,所述步骤3中,具体包括:
步骤31,所述服务器获取所述部署节点的无盘启动节点信息后,向所述部署节点发送第二重启指令,所述部署节点根据所述第二重启指令进入无盘启动环境;
步骤32,所述部署节点根据接收到的所述预设分区表信息进行格式化和分区,并创建文件系统;
步骤33,所述部署节点根据接收到的所述分区镜像文件,对所述文件系统进行系统恢复。
6.如权利要求1至5中任一项所述的高性能计算集群节点的镜像与恢复方法,其特征在于,所述分区镜像文件中包括硬盘主导记录信息、硬盘各分区文件系统信息、各分区数据压缩文件。
7.如权利要求6所述的高性能计算集群节点的镜像与恢复方法,其特征在于,所述镜像与恢复方法还包括:
步骤4,所述部署节点根据预设BIOS启动参数,重装引导程序至所述部署节点的硬盘主引导记录,所述部署节点根据重装后的所述引导程序,进行重启。
8.如权利要求2所述的高性能计算集群节点的镜像与恢复方法,其特征在于,所述无盘启动节点信息包括IP地址及网卡MAC地址。
CN201910800532.6A 2019-08-28 2019-08-28 一种高性能计算集群节点的镜像与恢复方法 Active CN112445495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910800532.6A CN112445495B (zh) 2019-08-28 2019-08-28 一种高性能计算集群节点的镜像与恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910800532.6A CN112445495B (zh) 2019-08-28 2019-08-28 一种高性能计算集群节点的镜像与恢复方法

Publications (2)

Publication Number Publication Date
CN112445495A true CN112445495A (zh) 2021-03-05
CN112445495B CN112445495B (zh) 2024-08-02

Family

ID=74742063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910800532.6A Active CN112445495B (zh) 2019-08-28 2019-08-28 一种高性能计算集群节点的镜像与恢复方法

Country Status (1)

Country Link
CN (1) CN112445495B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268254A (zh) * 2021-05-13 2021-08-17 曙光信息产业(北京)有限公司 一种集群系统安装方法、装置、电子设备及存储介质
CN113656147A (zh) * 2021-08-20 2021-11-16 北京百度网讯科技有限公司 一种集群部署方法、装置、设备及存储介质
CN115357256A (zh) * 2022-10-18 2022-11-18 安徽华云安科技有限公司 一种cdh集群部署方法和系统
WO2023001033A1 (zh) * 2021-07-21 2023-01-26 华为技术有限公司 镜像启动的方法、生成镜像的方法和电子设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030088650A1 (en) * 2001-07-30 2003-05-08 Lockheed Martin Corporation Using a diskless client network topology for disk duplication and configuration
US20040172578A1 (en) * 2003-02-27 2004-09-02 Acer Inc. Method and system of operating system recovery
US20040187047A1 (en) * 2003-03-19 2004-09-23 Rathunde Dale Frank Method and apparatus for high availability distributed processing across independent networked computer fault groups
US20090216866A1 (en) * 2008-02-25 2009-08-27 Ching-Tung Lu Diskless computer-to-remote storage server opeating system installation system and method
CN101925876A (zh) * 2008-01-28 2010-12-22 惠普开发有限公司 启动镜像文件在无盘服务器中的部署
CN102033755A (zh) * 2009-09-30 2011-04-27 国际商业机器公司 用于运行虚拟机镜像的方法和系统
CN102841802A (zh) * 2012-07-27 2012-12-26 锐迪科科技有限公司 移动终端的软件升级方法
US20140053149A1 (en) * 2012-08-17 2014-02-20 Systex Software & Service Corporation Fast and automatic deployment method for cluster system
CN103888491A (zh) * 2012-12-20 2014-06-25 鸿富锦精密工业(深圳)有限公司 无盘工作站启动系统及方法
CN104219099A (zh) * 2014-09-25 2014-12-17 浪潮(北京)电子信息产业有限公司 一种服务器集群自动部署的方法和装置
CN104580519A (zh) * 2015-01-29 2015-04-29 福建师范大学福清分校 一种快速部署openstack云计算平台的方法
CN108829410A (zh) * 2018-06-20 2018-11-16 郑州云海信息技术有限公司 一种配置定制化pxe无盘系统的方法及装置
CN108932440A (zh) * 2018-08-15 2018-12-04 郑州云海信息技术有限公司 一种销毁硬盘数据的方法及系统、设备
CN109783117A (zh) * 2019-01-18 2019-05-21 中国人民解放军国防科技大学 一种无盘系统的镜像文件制作及启动方法
CN109918092A (zh) * 2019-02-28 2019-06-21 苏州浪潮智能科技有限公司 一种无盘操作系统安装方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030088650A1 (en) * 2001-07-30 2003-05-08 Lockheed Martin Corporation Using a diskless client network topology for disk duplication and configuration
US20040172578A1 (en) * 2003-02-27 2004-09-02 Acer Inc. Method and system of operating system recovery
US20040187047A1 (en) * 2003-03-19 2004-09-23 Rathunde Dale Frank Method and apparatus for high availability distributed processing across independent networked computer fault groups
CN101925876A (zh) * 2008-01-28 2010-12-22 惠普开发有限公司 启动镜像文件在无盘服务器中的部署
US20090216866A1 (en) * 2008-02-25 2009-08-27 Ching-Tung Lu Diskless computer-to-remote storage server opeating system installation system and method
CN102033755A (zh) * 2009-09-30 2011-04-27 国际商业机器公司 用于运行虚拟机镜像的方法和系统
CN102841802A (zh) * 2012-07-27 2012-12-26 锐迪科科技有限公司 移动终端的软件升级方法
US20140053149A1 (en) * 2012-08-17 2014-02-20 Systex Software & Service Corporation Fast and automatic deployment method for cluster system
CN103888491A (zh) * 2012-12-20 2014-06-25 鸿富锦精密工业(深圳)有限公司 无盘工作站启动系统及方法
CN104219099A (zh) * 2014-09-25 2014-12-17 浪潮(北京)电子信息产业有限公司 一种服务器集群自动部署的方法和装置
CN104580519A (zh) * 2015-01-29 2015-04-29 福建师范大学福清分校 一种快速部署openstack云计算平台的方法
CN108829410A (zh) * 2018-06-20 2018-11-16 郑州云海信息技术有限公司 一种配置定制化pxe无盘系统的方法及装置
CN108932440A (zh) * 2018-08-15 2018-12-04 郑州云海信息技术有限公司 一种销毁硬盘数据的方法及系统、设备
CN109783117A (zh) * 2019-01-18 2019-05-21 中国人民解放军国防科技大学 一种无盘系统的镜像文件制作及启动方法
CN109918092A (zh) * 2019-02-28 2019-06-21 苏州浪潮智能科技有限公司 一种无盘操作系统安装方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268254A (zh) * 2021-05-13 2021-08-17 曙光信息产业(北京)有限公司 一种集群系统安装方法、装置、电子设备及存储介质
WO2023001033A1 (zh) * 2021-07-21 2023-01-26 华为技术有限公司 镜像启动的方法、生成镜像的方法和电子设备
CN113656147A (zh) * 2021-08-20 2021-11-16 北京百度网讯科技有限公司 一种集群部署方法、装置、设备及存储介质
CN113656147B (zh) * 2021-08-20 2023-03-31 北京百度网讯科技有限公司 一种集群部署方法、装置、设备及存储介质
CN115357256A (zh) * 2022-10-18 2022-11-18 安徽华云安科技有限公司 一种cdh集群部署方法和系统

Also Published As

Publication number Publication date
CN112445495B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN112445495B (zh) 一种高性能计算集群节点的镜像与恢复方法
CN108089913B (zh) 一种超融合系统的虚拟机部署方法
US7743242B2 (en) Method and system for automatic generation of operating system boot images
CN111492347A (zh) 用于更新容器的系统和方法
US8010504B2 (en) Increasing application availability during automated enterprise deployments
US8752039B1 (en) Dynamic upgrade of operating system in a network device
US8346886B2 (en) System, method, and medium for configuring client computers to operate disconnected from a server computer while using a master instance of the operating system
US20050091354A1 (en) Online computer maintenance utilizing a virtual machine monitor
CN100451981C (zh) 修改计算机的配置信息的方法
US10795688B2 (en) System and method for performing an image-based update
CN108958742A (zh) 一种批量安装操作系统的方法、相关设备及系统
US20050235281A1 (en) Combined software installation package
CN111966423B (zh) 一种实现内存操作系统的方法和设备
CN110825392A (zh) 操作系统的定制方法、批量部署方法以及批量部署系统
CN102591679A (zh) 一种集群系统应用软件快速部署方法
CN111966384B (zh) 系统更新方法、装置、设备及计算机可读存储介质
CN103049295A (zh) 一种龙芯平台Linux操作系统网络安装方法
CN105278999A (zh) 一种安全高效虚拟机软件部署的方法
US11030047B2 (en) Information handling system and method to restore system firmware to a selected restore point
US20190205109A1 (en) Computer system, baseboard management controller, and os installation method
CN111475172A (zh) 一种裸机部署方法及装置
JP4759941B2 (ja) 起動イメージ提供システム及び方法、ブートノード装置、ブートサーバ装置並びにプログラム
CN115658235A (zh) 一种集群部署方法、计算设备及存储介质
KR100831128B1 (ko) 다중 사용자 환경에서의 서버 시스템을 이용한 운영체제백업/복구와 게임 백업/복구/업데이트/설치/실행 및운영체제 관리 시스템 및 그 방법
CN113821220A (zh) 一种linux操作系统的安装方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant