CN114697191A - 一种资源迁移方法、装置、设备及存储介质 - Google Patents

一种资源迁移方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114697191A
CN114697191A CN202210319356.6A CN202210319356A CN114697191A CN 114697191 A CN114697191 A CN 114697191A CN 202210319356 A CN202210319356 A CN 202210319356A CN 114697191 A CN114697191 A CN 114697191A
Authority
CN
China
Prior art keywords
migration
resource
node
command
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210319356.6A
Other languages
English (en)
Inventor
韩同
谢涛涛
田雨
陶锐哲
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202210319356.6A priority Critical patent/CN114697191A/zh
Publication of CN114697191A publication Critical patent/CN114697191A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种资源迁移方法、装置、设备及存储介质,应用于管理侧,该方法包括:当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。通过本申请的技术方案,可以实现裸金属服务器硬件故障时资源的自动化迁移,迁移效率可达到分钟级,用户可快速恢复服务。

Description

一种资源迁移方法、装置、设备及存储介质
技术领域
本发明涉及云计算技术领域,特别涉及一种资源迁移方法、装置、设备及存储介质。
背景技术
随着云计算技术领域的发展,越来越多的计算场景需要使用裸金属服务器,如Oracle(关系数据库)RAC(Real Application Clusters,实时应用集群)、大数据、搭建私有云、裸金属容器等。传统的裸金属服务器受限于硬件架构,故障时只能通过运维人员或者服务器厂家进行检修处理,或者新上架机器进行配置和资源数据的迁移,无法像基于虚拟化的云服务器一样实现故障时资源的自动化迁移,无法保证服务的快速恢复。
目前的一种迁移方案是将故障节点的资源配置信息生成一套复制关系,主要是针对网络和存储资源的处理。网络资源通过操作目标节点连接的交换机下发网络配置,存储资源通过共享存储进行复制拷贝。所以,其核心处理方式是对资源的新建、复制、拷贝来达到迁移的效果,但是,存在步骤复杂、对管理侧数据破坏严重、总体迁移效率不高的问题。
综上,如何实现故障的自动化迁移,使迁移效率可达到分钟级,保障用户的服务快速恢复可用是目前有待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种资源迁移方法、装置、设备及存储介质,能够实现故障的自动化迁移,使迁移效率可达到分钟级,保障用户的服务快速恢复可用。其具体方案如下:
第一方面,本申请公开了一种资源迁移方法,应用于管理侧,包括:
当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;
确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;
将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;
轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
可选的,所述当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求之后,还包括:
判断所述备用资源池里是否存在可用节点;
若所述可用节点数量为0,则返回无可用节点的信息;
若所述可用节点数量大于0,则触发所述确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令的步骤。
可选的,所述确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令,包括:
当所述故障节点的代理服务处于不可用状态时,直接根据所述资源迁移请求生成相应的迁移命令;
当所述故障节点的所述代理服务处于可用状态时,生成资源隔离命令并将所述资源隔离命令发送至所述故障节点,以便所述故障节点在执行完所述资源隔离命令后将自身的所述代理服务调整至不可用状态,然后根据所述资源迁移请求生成相应的迁移命令。
可选的,所述将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令,包括:
当所述故障节点的代理服务处于不可用状态时,将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点在智能网卡上将存储资源进行挂载和/或将网络资源进行迁移。
可选的,所述将所述资源隔离命令发送至所述故障节点,以便所述故障节点在执行完所述资源隔离命令后将自身的所述代理服务调整至不可用状态,然后根据所述资源迁移请求生成相应的迁移命令,包括:
将所述资源隔离命令发送至所述故障节点,以便所述故障节点执行所述资源隔离命令,以在所述智能网卡上将所述存储资源解绑和/或将所述网络资源重置,并将自身的所述代理服务调整至不可用状态;
基于所述故障节点执行完所述资源隔离命令后的当前资源,根据所述资源迁移请求生成相应的迁移命令。
可选的,所述的资源迁移方法,还包括:
当所述操作结果表征迁移成功,更新当前所述目标节点的节点信息;所述节点信息为包括节点属性特征和记录节点资源迁移信息的信息。
第二方面,本申请公开了一种资源迁移方法,应用于当前备用资源池中的无故障的目标节点,包括:
获取管理侧发送的迁移命令,并根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;其中,所述迁移命令为所述管理侧根据所述代理服务状态生成的与资源迁移请求对应的命令;所述资源迁移请求为当在裸金属服务器节点中监测到故障节点时生成的请求;
接收所述管理侧针对所述目标节点执行所述迁移命令的操作结果发起的轮询请求,然后将相应的执行所述迁移命令的操作结果返回至所述管理侧,以便所述管理侧控制所述目标节点利用当前所述资源进入操作系统。
第三方面,本申请公开了一种资源迁移装置,应用于管理侧,包括:
请求获取模块,用于当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;
命令生成模块,用于确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;
命令发送模块,用于将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;
结果轮询模块,用于轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
第四方面,本申请公开了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如前所述的资源迁移方法。
第五方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中所述计算机程序被处理器执行时实现如前所述的资源迁移方法。
本申请中,应用于管理侧,当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。可见,在管理侧首先通过确定故障节点的代理服务状态,然后生成不同的迁移命令,实现将故障节点的资源自动化迁移至备用资源池中的无故障的目标节点,提高了业务的连续性,实现高可用;其次,在智能网卡上对资源执行相应的迁移命令,最大程度的保护了管理侧数据,同时可以提供分钟级别的迁移效率;当裸金属服务器故障时,无需人工进行检修处理,减少了人力成本,同时也降低了运维成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种资源迁移方法流程图;
图2为本申请公开的一种资源迁移装置模块示意图;
图3为本申请公开的一种具体的资源迁移方法流程图;
图4为本申请公开的一种具体的资源迁移方法流程图;
图5为本申请公开的一种具体的资源迁移方法示意图;
图6为本申请公开的一种资源迁移方法流程图;
图7为本申请公开的一种资源迁移装置结构示意图;
图8为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前,随着云计算技术领域的发展,越来越多的计算场景需要使用裸金属服务器,传统的裸金属服务器受限于硬件架构,故障时只能通过运维人员或者服务器厂家进行检修处理,或者新上架机器进行配置和资源数据的迁移,无法像基于虚拟化的云服务器一样实现故障时资源的自动化迁移,在迁移时对资源的新建、复制、拷贝存在步骤复杂、对管理侧数据破坏严重、总体迁移效率不高的问题,无法保证服务的快速恢复。
为此,本申请提供了一种资源迁移方案,能够实现故障的自动化迁移,使迁移效率可达到分钟级,保障用户的服务快速恢复可用。
本发明实施例公开了一种资源迁移方法,参见图1所示,应用于管理侧,该方法包括:
步骤S11:当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求。
本申请实施例中,云计算平台在规划资源时,一个单位可用区将裸金属服务器节点划分为业务资源池和备用资源池,可以理解的是,业务资源池存储了可以正常提供给用户使用的裸金属服务器节点,当在业务资源池里的裸金属服务器节点中监测到存在故障时,需要将故障节点的资源迁移到备用资源池里的无故障节点,所以要使备用资源池状态为可用节点的数量大于0,保证故障节点的资源在迁移时有可用节点。
具体的,所述当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求之后,还包括:判断所述备用资源池里是否存在可用节点;若所述可用节点数量为0,则返回无可用节点的信息;若所述可用节点数量大于0,则触发所述确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令的步骤。
需要指出的是,本实施例通过控制器接收裸金属服务器故障时对应的资源迁移请求,在故障节点可用区的备用资源池里查询是否有可用节点,如果可用节点为0,结束处理,返回无可用节点信息至控制器,流程结束。如果可用节点数量大于0,去查询故障节点的节点信息、实例信息、存储资源信息(系统卷、数据卷)、网络资源信息、安全组信息、port(计算机端口)信息等,存放进资源处理池,标记为待处理。当资源处理池添加待处理资源时触发处理逻辑,逐一去处理资源的迁移。
步骤S12:确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令。
本申请实施例中,当获取资源迁移请求之后,进行故障节点资源数据的处理,需要根据故障节点中的代理服务状态生成相应的迁移命令,将资源在裸金属侧执行不同的操作。
其中,故障节点的代理服务状态可以包括代理服务可用状态和代理服务不可用状态。可以理解的是,如果故障节点的代理服务为可用状态时,说明在故障节点上的资源仍然绑定,表示还存活可用,此时需要将故障节点的资源进行资源隔离,以便将当前进行资源隔离后的故障节点内的资源进行迁移。如果故障节点的代理服务为不可用状态时,说明在故障节点上的资源已经是隔离的,则可以直接生成与所述资源迁移请求对应的迁移命令,然后将故障节点内的资源进行迁移。
步骤S13:将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令。
本申请实施例中,在对故障节点的资源进行处理后,将迁移命令发送至当前备用资源池中的无故障的目标节点,利用目标节点在智能网卡上对不同类型的资源执行相应的迁移命令。智能网卡作为近年来发展迅速的新型硬件设备,提供裸机的网络管理平面卸载与虚拟IO(Input/Output,输入/输出)设备模拟的功能,为实现裸金属服务器硬件故障自动化迁移提供了一种新的方向。
需要指出的是,本申请实施例以网络资源和存储资源(系统卷、数据卷)的处理为例,当在智能网卡上负责存储数据平面处理时,智能网卡可以接收到管理侧下发的迁移命令,建立RBD块设备(操纵RADOS(Reliable Autonomic Distributed Object Storage,一项对象存储服务)RBD块设备映像的工具,QEMU(一个主机上的虚拟机监视器)/KVM(linux内核提供的虚拟化架构)通过Linux rbd内核驱动和rbd存储驱动来使用)到裸金属的数据通道;当在智能网卡上负责网络数据平面处理时,通过操作智能网卡操作系统OVS(OpenvSwitch,是一个支持多层数据转发的高质量虚拟交换机,主要部署在服务器上,相比传统交换机具有很好的编程扩展性,同时具备传统交换机实现的网络隔离和数据转发功能)服务建立到裸金属的网络通道或者进行OVS网络重置。
步骤S14:轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
本申请实施例中,当在目标节点的智能网卡上执行完资源的迁移后,目标节点会控制服务器的上电、下电来发现系统卷,并发送迁移成功的消息至管理侧,也即,管理侧会轮询目标节点执行所述迁移命令的操作结果。进一步的,当所述操作结果表征迁移成功时,则更新当前所述目标节点的节点信息,完成故障时的资源迁移;所述节点信息为包括节点属性特征和记录节点资源迁移信息的信息,当更新完节点信息后,控制器会接收到处理结果,然后控制所述目标节点利用当前所述资源进入操作系统。示例性的,更新的节点信息可以为:节点的ipmi(Intelligent Platform Management Interface,智能平台管理接口)地址、登录账号、密码、属性记录节点迁移;节点port信息修改,如mac(Macintosh,麦克机)、ip(Internet Protocol,网络之间互连的协议)、远程访问账号、密码、名称;网络port信息修改,如mac_address、inding_host_id;实例的属性记录迁移信息等。
如图2所示,为本申请实施例提供的一种具体的实现裸金属服务器硬件故障时资源的自动化迁移装置示意图。该装置分为五个模块,分别为:控制器模块、故障处理模块、代理模块、智能网卡模块及裸金属模块。控制器模块、故障处理模块部署在管理侧,其他三个模块部署在裸金属侧。控制器模块接收并转发请求至故障处理模块,故障处理模块负责处理故障节点的资源数据形成资源处理池,逐一处理,下发处理命令至代理模块;代理模块、智能网卡模块与裸金属模块结合,实现系统卷、数据卷、网络相关资源的迁移。其中代理模块、智能网卡模块、裸金属模块关联关系为1:1:1,故障处理模块与代理模块关联关系为1:N。
控制器模块负责接收故障节点的资源迁移请求,校验请求并将请求转发至故障处理模块,同时轮询等待接收处理结果。故障处理模块负责故障处理,在接收到控制器转发的请求后,查询故障节点资源信息形成资源处理池,下发命令至代理模块逐一进行故障节点资源数据的处理,调用代理模块完成故障迁移操作。当调用故障节点代理模块时下发网络、存储资源(系统卷、数据卷)解绑命令进行资源隔离,调用目标节点代理模块进行网络、存储资源的迁移。代理模块负责接受故障处理模块下发的命令,上报自身代理服务状态给故障处理模块,预校验命令格式并返回命令执行结果,将迁移命令发送至智能网卡模块。智能网卡模块负责接收代理模块的命令执行网络重置或者迁移操作,建立存储的数据通道。裸金属模块负责维持管理装置的供电,发现系统卷,当发现系统卷时传递迁移成功消息至故障处理模块,故障处理模块接收到裸金属模块发送来的成功消息以后,更新节点、实例信息,完成故障迁移操作。系统卷就位后系统进入操作系统,启动服务。
需要指出的是,对于存储资源,智能网卡模块建立SPDK bdev(Backend Device)到rbd块设备的数据通道。基于Linux AIO(Asynchronous IO)建立SPDK AIO bdev设备到内核块设备/dev/rbd0等设备的映射关系,通过线程的IO channel通道进行异步IO数据读写;对于网络资源,通过下发指令给智能网卡模块的ovs服务来完成网络资源的迁移或者重置,ovs服务控制智能网卡到裸金属模块的网络通路。智能网卡模块建立到裸金属的数据通道时,初始化虚拟PCI(Peripheral Component Interconnect,外设部件互连标准)设备,向virtio PCI配置空间写入VIRTIO_F_IOMMU_PLATFORM、VIRTIO_VENDOR_ID、VIRTIO_DEVICE_ID标识,连接到智能网卡模块的硬件PCI桥;将块设备以及网络连接到虚拟PCI设备,裸金属加载PCI设备驱动,发现块设备和网络设备。对于网络设备也可以以PCI直通的方式去连接裸金属服务器。
本实施例基于智能网卡的裸金属服务器架构,相较于传统架构只保留了裸金属的CPU、内存、主板、电源等硬件,网络通过智能网卡进行卸载,存储资源基于智能网卡提供的PCI(Peripheral Component Interconnect,外设组件互连标准)设备模拟能力使用云计算平台的弹性块存储服务,在遇到CPU、内存、主板等发生故障时可实现故障节点资源的自动化迁移,相较于目前的故障迁移方案此发明只对故障节点的资源进行迁移不需要新建、复制和拷贝,只需要更新少量裸金属服务器节点信息和实例信息,最大程度的保护了管理侧数据,同时可以提供分钟级别的迁移效率。
本申请中,应用于管理侧,当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。可见,在管理侧首先通过确定故障节点的代理服务状态,然后生成不同的迁移命令,实现将故障节点的资源自动化迁移至备用资源池中的无故障的目标节点,提高了业务的连续性,实现高可用;其次,在智能网卡上对资源执行相应的迁移命令,最大程度的保护了管理侧数据,同时可以提供分钟级别的迁移效率;当裸金属服务器故障时,无需人工进行检修处理,减少了人力成本,同时也降低了运维成本。
本申请实施例公开了一种具体的资源迁移方法,参见图3所示,应用于管理侧,该方法包括:
步骤S21:当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求。
步骤S22:当所述故障节点的代理服务处于不可用状态时,直接根据所述资源迁移请求生成相应的迁移命令。
本申请实施例中,当获取资源迁移请求之后,进行故障节点资源数据的处理,需要根据故障节点中的代理服务状态生成相应的迁移命令,将资源在裸金属侧执行不同的操作。当所述故障节点的代理服务处于不可用状态时,证明在故障节点的资源已经是隔离的,所以直接根据所述资源迁移请求生成相应的迁移命令。
步骤S23:将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点在智能网卡上将存储资源进行挂载和/或将网络资源进行迁移。
本申请实施例中,直接根据所述资源迁移请求生成相应的迁移命令之后,将迁移命令发送至当前备用资源池中的无故障的目标节点,在目标节点的智能网卡上将存储资源进行挂载和/或将网络资源进行迁移。需要指出的是,当命令是存储迁移操作时,即当故障节点的代理服务状态不可用时,对存储资源进行迁移生成的是存储迁移操作,则将块设备通过rbd map方式挂载到目标节点的智能网卡上,挂载顺序为先挂载系统卷、然后依次挂载数据卷,智能网卡操作系统加载rbd内核驱动,将rbd image映射为本地块设备,如/dev/rbd0。当命令是网络迁移操作时,即当故障节点的代理服务状态不可用时,对网络资源进行迁移生成的是网络迁移操作,则将网络迁移命令下发至目标节点的智能网卡上。
步骤S24:轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
其中,关于上述步骤S21、步骤S24更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请中,应用于管理侧,当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;当所述故障节点的代理服务处于不可用状态时,直接根据所述资源迁移请求生成相应的迁移命令;将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点在智能网卡上将存储资源进行挂载和/或将网络资源进行迁移;轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。可见,当故障节点的代理服务处于不可用状态时,直接根据资源迁移请求生成相应的迁移命令,实现将故障节点的资源自动化迁移至备用资源池中的无故障的目标节点,提高了业务的连续性,实现高可用;其次,在目标节点的智能网卡上对存储资源进行挂载,将网络资源进行迁移,最大程度的保护了管理侧数据,同时可以提供分钟级别的迁移效率;当裸金属服务器故障时,无需人工进行检修处理,减少了人力成本,同时也降低了运维成本。
本申请实施例公开了一种具体的资源迁移方法,参见图4所示,应用于管理侧,该方法包括:
步骤S31:当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求。
步骤S32:当所述故障节点的所述代理服务处于可用状态时,生成资源隔离命令并将所述资源隔离命令发送至所述故障节点,以便所述故障节点在执行完所述资源隔离命令后将自身的所述代理服务调整至不可用状态,然后根据所述资源迁移请求生成相应的迁移命令。
本申请实施例中,当获取资源迁移请求之后,进行故障节点资源数据的处理,需要根据故障节点中的代理服务状态生成相应的迁移命令,将资源在裸金属侧执行不同的操作。当所述故障节点的所述代理服务处于可用状态时,说明在故障节点上的资源仍然绑定,表示还存活可用,此时需要将故障节点的资源进行资源隔离。此时生成资源隔离命令,然后将资源隔离命令发送至所述故障节点。
具体的,将所述资源隔离命令发送至所述故障节点,以便所述故障节点执行所述资源隔离命令,以在所述智能网卡上将所述存储资源解绑和/或将所述网络资源重置,并将自身的所述代理服务调整至不可用状态;基于所述故障节点执行完所述资源隔离命令后的当前资源,根据所述资源迁移请求生成相应的迁移命令。
需要指出的是,当命令是存储资源隔离操作时,即当故障节点的代理服务状态可用时,对故障节点的存储资源进行隔离生成的是存储资源隔离操作,则在故障节点的智能网卡上进行rbd unmap解绑。当命令是网络隔离操作时,即当故障节点的代理服务状态可用时,对故障节点的网络资源进行隔离生成的是生成的是网络隔离操作,则下发网络重置命令到故障节点的智能网卡上进行网络重置。
步骤S33:将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令。
步骤S34:轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
其中,关于上述步骤S31、步骤S33、步骤S34更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
如图5所示,为一种具体的故障时资源迁移的流程示意图,控制器接收故障迁移请求,检验参数无误后将请求转发至故障处理模块。故障处理模块接收请求,建立待处理资源池,当处理资源是存储、网络资源相关时,判断故障节点的代理服务状态,代理服务不可用状态时只需将迁移命令下发至目标节点代理模块;代理服务可用状态时先下发网络重置、存储解绑命令至故障节点代理模块进行资源隔离,再下发迁移命令至目标节点代理模块。代理模块接受故障处理模块下发的命令,按照命令类型不同,校验命令格式,预校验通过后做不同的操作。裸金属发现系统卷,进入系统,然后更新目标节点的节点信息、实例信息等;当处理资源是除存储、网络资源的其他资源时,更新目标节点的节点信息、实例信息等;最后完成迁移,流程结束。
本申请中,应用于管理侧,当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;当所述故障节点的所述代理服务处于可用状态时,生成资源隔离命令并将所述资源隔离命令发送至所述故障节点,以便所述故障节点在执行完所述资源隔离命令后将自身的所述代理服务调整至不可用状态,然后根据所述资源迁移请求生成相应的迁移命令;将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。可见,当故障节点的代理服务处于可用状态时,将故障节点的资源进行资源隔离,然后将故障节点的资源进行迁移,实现将故障节点的资源自动化迁移至备用资源池中的无故障的目标节点,提高了业务的连续性,实现高可用;其次,在故障节点的智能网卡上对存储资源进行解绑,将网络资源进行重置,然后将资源隔离后的存储资源和网络资源在目标节点的智能网卡上进行挂载和迁移,最大程度的保护了管理侧数据,同时可以提供分钟级别的迁移效率;当裸金属服务器故障时,无需人工进行检修处理,减少了人力成本,同时也降低了运维成本。
本申请实施例公开了一种资源迁移方法,参见图6所示,应用于当前备用资源池中的无故障的目标节点,该方法包括:
步骤S41:获取管理侧发送的迁移命令,并根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;其中,所述迁移命令为所述管理侧根据所述代理服务状态生成的与资源迁移请求对应的命令;所述资源迁移请求为当在裸金属服务器节点中监测到故障节点时生成的请求。
本申请实施例中,应用于当前备用资源池中的无故障的目标节点。当管理侧发送迁移命令至裸金属侧时,目标节点获取管理侧发送的迁移命令,然后根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令。可以理解的是,如果故障节点的代理服务状态可用,需要先下发资源隔离命令至故障节点,当把故障节点的资源进行隔离后,再在目标节点的智能网卡上对存储资源进行挂载,对网络资源进行迁移。
步骤S42:接收所述管理侧针对所述目标节点执行所述迁移命令的操作结果发起的轮询请求,然后将相应的执行所述迁移命令的操作结果返回至所述管理侧,以便所述管理侧控制所述目标节点利用当前所述资源进入操作系统。
本申请实施例中,管理测会轮询裸金属侧执行资源迁移命令的结果,即当资源迁移成功后,裸金属侧会发送成功的消息至管理侧。当管理侧接收到目标节点执行迁移命令的操作结果后,则会更新节点信息、实例信息等,然后控制所述目标节点利用当前所述资源进入操作系统,完成资源的迁移。
本申请中,应用于当前备用资源池中的无故障的目标节点,获取管理侧发送的迁移命令,并根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;其中,所述迁移命令为所述管理侧根据所述代理服务状态生成的与资源迁移请求对应的命令;所述资源迁移请求为当在裸金属服务器节点中监测到故障节点时生成的请求;接收所述管理侧针对所述目标节点执行所述迁移命令的操作结果发起的轮询请求,然后将相应的执行所述迁移命令的操作结果返回至所述管理侧,以便所述管理侧控制所述目标节点利用当前所述资源进入操作系统。可见,根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令,最大程度的保护了管理侧数据,同时可以提供分钟级别的迁移效率;目标节点通过接收管理侧的迁移命令,自动对故障节点的资源进行迁移,实现将故障节点的资源自动化迁移至备用资源池中的无故障的目标节点,提高了业务的连续性,实现高可用;当裸金属服务器故障时,无需人工进行检修处理,减少了人力成本,同时也降低了运维成本。
相应的,本申请实施例公开了一种资源迁移装置,应用于管理侧,参见图7所示,该装置包括:
请求获取模块11,用于当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;
命令生成模块12,用于确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;
命令发送模块13,用于将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;
结果轮询模块14,用于轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
由此可见,通过本实施例的上述方案,应用于管理侧,当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。可见,在管理侧首先通过确定故障节点的代理服务状态,然后生成不同的迁移命令,实现将故障节点的资源自动化迁移至备用资源池中的无故障的目标节点,提高了业务的连续性,实现高可用;其次,在智能网卡上对资源执行相应的迁移命令,最大程度的保护了管理侧数据,同时可以提供分钟级别的迁移效率;当裸金属服务器故障时,无需人工进行检修处理,减少了人力成本,同时也降低了运维成本。
进一步的,本申请实施例公开了一种电子设备,图8是根据一示例性实施例示出的电子设备20结构图,图中内容不能认为是对本申请的使用范围的任何限制。
图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的资源迁移方法中的相关步骤。另外,本实施例中的电子设备20具体可以为裸金属服务器。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,数据223可以包括各种各样的数据。存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的资源迁移方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机可读存储介质,这里所说的计算机可读存储介质包括随机存取存储器(Random Access Memory,RAM)、内存、只读存储器(Read-Only Memory,ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中,所述计算机程序被处理器执行时实现前述资源迁移方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的资源迁移或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种资源迁移方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种资源迁移方法,其特征在于,应用于管理侧,包括:
当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;
确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;
将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;
轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
2.根据权利要求1所述的资源迁移方法,其特征在于,所述当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求之后,还包括:
判断所述备用资源池里是否存在可用节点;
若所述可用节点数量为0,则返回无可用节点的信息;
若所述可用节点数量大于0,则触发所述确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令的步骤。
3.根据权利要求1所述的资源迁移方法,其特征在于,所述确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令,包括:
当所述故障节点的代理服务处于不可用状态时,直接根据所述资源迁移请求生成相应的迁移命令;
当所述故障节点的所述代理服务处于可用状态时,生成资源隔离命令并将所述资源隔离命令发送至所述故障节点,以便所述故障节点在执行完所述资源隔离命令后将自身的所述代理服务调整至不可用状态,然后根据所述资源迁移请求生成相应的迁移命令。
4.根据权利要求3所述的资源迁移方法,其特征在于,所述将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令,包括:
当所述故障节点的代理服务处于不可用状态时,将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点在智能网卡上将存储资源进行挂载和/或将网络资源进行迁移。
5.根据权利要求4所述的资源迁移方法,其特征在于,所述将所述资源隔离命令发送至所述故障节点,以便所述故障节点在执行完所述资源隔离命令后将自身的所述代理服务调整至不可用状态,然后根据所述资源迁移请求生成相应的迁移命令,包括:
将所述资源隔离命令发送至所述故障节点,以便所述故障节点执行所述资源隔离命令,以在所述智能网卡上将所述存储资源解绑和/或将所述网络资源重置,并将自身的所述代理服务调整至不可用状态;
基于所述故障节点执行完所述资源隔离命令后的当前资源,根据所述资源迁移请求生成相应的迁移命令。
6.根据权利要求1至5任一项所述的资源迁移方法,其特征在于,还包括:
当所述操作结果表征迁移成功,更新当前所述目标节点的节点信息;所述节点信息为包括节点属性特征和记录节点资源迁移信息的信息。
7.一种资源迁移方法,其特征在于,应用于当前备用资源池中的无故障的目标节点,包括:
获取管理侧发送的迁移命令,并根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;其中,所述迁移命令为所述管理侧根据所述代理服务状态生成的与资源迁移请求对应的命令;所述资源迁移请求为当在裸金属服务器节点中监测到故障节点时生成的请求;
接收所述管理侧针对所述目标节点执行所述迁移命令的操作结果发起的轮询请求,然后将相应的执行所述迁移命令的操作结果返回至所述管理侧,以便所述管理侧控制所述目标节点利用当前所述资源进入操作系统。
8.一种资源迁移装置,其特征在于,应用于管理侧,包括:
请求获取模块,用于当在裸金属服务器节点中监测到故障节点时,获取资源迁移请求;
命令生成模块,用于确定所述故障节点中的代理服务状态,并根据所述代理服务状态生成与所述资源迁移请求对应的迁移命令;
命令发送模块,用于将所述迁移命令发送至当前备用资源池中的无故障的目标节点,以便所述目标节点根据所述故障节点的代理服务状态在智能网卡上对不同类型的资源执行相应的所述迁移命令;
结果轮询模块,用于轮询所述目标节点执行所述迁移命令的操作结果,若迁移成功,则控制所述目标节点利用当前所述资源进入操作系统。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的资源迁移方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的资源迁移方法。
CN202210319356.6A 2022-03-29 2022-03-29 一种资源迁移方法、装置、设备及存储介质 Pending CN114697191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210319356.6A CN114697191A (zh) 2022-03-29 2022-03-29 一种资源迁移方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210319356.6A CN114697191A (zh) 2022-03-29 2022-03-29 一种资源迁移方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114697191A true CN114697191A (zh) 2022-07-01

Family

ID=82141191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210319356.6A Pending CN114697191A (zh) 2022-03-29 2022-03-29 一种资源迁移方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114697191A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115480893A (zh) * 2022-09-06 2022-12-16 江苏安超云软件有限公司 异构化节点间的应用迁移方法、系统及集群
WO2024109916A1 (zh) * 2022-11-24 2024-05-30 大唐移动通信设备有限公司 算力节点管理方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177401A1 (en) * 2015-06-12 2017-06-22 Amazon Technologies, Inc. Live migration for virtual computing resources utilizing network-based storage
CN107193499A (zh) * 2017-05-26 2017-09-22 郑州云海信息技术有限公司 一种容器数据卷的迁移方法及装置
CN111181780A (zh) * 2019-12-21 2020-05-19 苏州浪潮智能科技有限公司 基于ha集群的主机池切换方法、系统、终端及存储介质
CN111400036A (zh) * 2020-03-05 2020-07-10 张晏铭 基于服务器集群的云应用管理系统、方法、装置及介质
CN111488248A (zh) * 2020-04-14 2020-08-04 深信服科技股份有限公司 一种托管私有云系统的控制方法、装置、设备及存储介质
CN112181660A (zh) * 2020-10-12 2021-01-05 北京计算机技术及应用研究所 一种基于服务器集群的高可用方法
CN113742081A (zh) * 2021-09-10 2021-12-03 中国航空工业集团公司西安航空计算技术研究所 一种基于容器技术的分布式任务迁移方法及分布式系统
CN113852693A (zh) * 2021-09-26 2021-12-28 北京邮电大学 一种边缘计算服务的迁移方法
CN114115703A (zh) * 2020-08-29 2022-03-01 华为云计算技术有限公司 裸金属服务器在线迁移方法以及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170177401A1 (en) * 2015-06-12 2017-06-22 Amazon Technologies, Inc. Live migration for virtual computing resources utilizing network-based storage
CN107193499A (zh) * 2017-05-26 2017-09-22 郑州云海信息技术有限公司 一种容器数据卷的迁移方法及装置
CN111181780A (zh) * 2019-12-21 2020-05-19 苏州浪潮智能科技有限公司 基于ha集群的主机池切换方法、系统、终端及存储介质
CN111400036A (zh) * 2020-03-05 2020-07-10 张晏铭 基于服务器集群的云应用管理系统、方法、装置及介质
CN111488248A (zh) * 2020-04-14 2020-08-04 深信服科技股份有限公司 一种托管私有云系统的控制方法、装置、设备及存储介质
CN114115703A (zh) * 2020-08-29 2022-03-01 华为云计算技术有限公司 裸金属服务器在线迁移方法以及系统
CN112181660A (zh) * 2020-10-12 2021-01-05 北京计算机技术及应用研究所 一种基于服务器集群的高可用方法
CN113742081A (zh) * 2021-09-10 2021-12-03 中国航空工业集团公司西安航空计算技术研究所 一种基于容器技术的分布式任务迁移方法及分布式系统
CN113852693A (zh) * 2021-09-26 2021-12-28 北京邮电大学 一种边缘计算服务的迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中国计算机学会: "《CCF 2019-2020中国计算机科学技术发展报告》", 31 October 2020, pages: 164 *
许豪: "《云计算导论 第2版》", 31 December 2021, 西安电子科技大学出版社, pages: 173 - 174 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115480893A (zh) * 2022-09-06 2022-12-16 江苏安超云软件有限公司 异构化节点间的应用迁移方法、系统及集群
WO2024109916A1 (zh) * 2022-11-24 2024-05-30 大唐移动通信设备有限公司 算力节点管理方法及装置

Similar Documents

Publication Publication Date Title
US10091274B2 (en) Method, device, and system for controlling network device auto-provisioning
CN112003961B (zh) 一种kubernetes中资源暴露方法、系统、设备以及介质
EP3291499A1 (en) Method and apparatus for network service capacity expansion
US10541862B2 (en) VNF processing policy determining method, apparatus, and system
CN114697191A (zh) 一种资源迁移方法、装置、设备及存储介质
CN107666493B (zh) 一种数据库配置方法及其设备
EP3598301A1 (en) Cloud management platform, virtual machine management method, system thereof
WO2018137520A1 (zh) 一种业务恢复方法及装置
CN110138577B (zh) 集群创建方法、第一服务器以及可读存储介质
CN114138754A (zh) 基于Kubernetes平台的软件部署方法及装置
EP3648405A1 (en) System and method to create a highly available quorum for clustered solutions
CN101227333A (zh) 一种容灾网管系统及其网管客户端的登陆方法
US11153173B1 (en) Dynamically updating compute node location information in a distributed computing environment
CN113765697B (zh) 管理数据处理系统的日志的方法和系统及计算机可读介质
CN116781564B (zh) 一种容器云平台的网络检测方法、系统、介质和电子设备
CN114070889B (zh) 配置方法、流量转发方法、设备、存储介质及程序产品
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
CN114553771B (zh) 用于虚拟路由器加载的方法及相关设备
CN116016209A (zh) 一种网络自动化方法及装置
CN113055236B (zh) 集群业务节点故障的处理方法、装置、设备及存储介质
CN113347274A (zh) 一种微服务的数据处理系统和方法
CN112889247B (zh) Vnf服务实例化方法及装置
CN116820686B (zh) 物理机的部署方法、虚拟机和容器统一监控的方法及装置
CN115426258B (zh) 信息配置方法、装置、交换机及可读存储介质
EP4149062A1 (en) Deployment method and apparatus for virtualized network service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination