CN114416293A - 一种虚拟化设备的故障恢复方法和装置 - Google Patents

一种虚拟化设备的故障恢复方法和装置 Download PDF

Info

Publication number
CN114416293A
CN114416293A CN202111679753.6A CN202111679753A CN114416293A CN 114416293 A CN114416293 A CN 114416293A CN 202111679753 A CN202111679753 A CN 202111679753A CN 114416293 A CN114416293 A CN 114416293A
Authority
CN
China
Prior art keywords
virtualization
equipment
virtual machine
virtualization device
configuration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111679753.6A
Other languages
English (en)
Inventor
龚施俊
李金涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111679753.6A priority Critical patent/CN114416293A/zh
Publication of CN114416293A publication Critical patent/CN114416293A/zh
Priority to PCT/CN2022/127774 priority patent/WO2023124477A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种虚拟化设备的故障恢复的方法,包括:当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据;调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;将所述虚拟机热迁移至与所述新的虚拟化设备通信。使得虚拟机可以继续处理原来正在处理的服务,确保虚拟机的服务不会中断,实现了虚拟化设备的高效恢复。

Description

一种虚拟化设备的故障恢复方法和装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种虚拟化设备的故障恢复方法和一种虚拟化设备的故障恢复装置。
背景技术
单根I/O虚拟化(SR-IOV)协议是标准PCIe总线互连协议的扩展,其主要目标是通过I/O物理设备自身的硬件虚拟化,将单个物理设备呈现为一个物理功能设备(physicalfunction,PF)和若干虚拟化设备(virtual function,VF)。单根I/O虚拟化协议可以服务于支持直接I/O虚拟化的单机计算机系统,系统上运行的每个虚拟机都可以直接拥有独立的物理设备或虚拟化设备。
通常来说,在虚拟机在运行过程中,可能由于与其连接的虚拟化设备发生故障,从而导致虚拟机运行异常。在此情况下,由于虚拟化设备没有高效的故障恢复方式,从而容易导致虚拟机较长时间处于故障状态下。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种虚拟化设备的故障恢复方法和一种虚拟化设备的故障恢复装置。
为了解决上述问题,本申请实施例公开了一种虚拟化设备的故障恢复的方法,包括:
当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据;
调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;
将所述虚拟机热迁移至与所述新的虚拟化设备通信。
可选地,所述当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据的步骤,包括:
当虚拟机检测到物理设备中的虚拟化设备故障时,通过虚拟化设备迁移模块调用虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据。
可选地,所述方法还包括:
在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据。
可选地,所述在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据的步骤,包括:
在虚拟机与物理设备中的虚拟化设备建立连接时,通过虚拟化设备同步模块存储虚拟化设备的配置信息。
可选地,所述方法还包括:
在所述虚拟机与所述虚拟化设备的通信过程中,通过所述虚拟化设备同步模块同步更新所述虚拟化设备的配置信息,并同步存储数据队列的状态数据。
可选地,所述方法还包括:
配置所述物理设备的预设错误报告功能停止向外部发送错误报告。
本申请实施例提供了一种虚拟化设备的故障恢复的装置,包括:
获取模块,用于当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据;
第一迁移模块,用于调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;
第二迁移模块,预设预设将所述虚拟机热迁移至与所述新的虚拟化设备通信。
可选地,所述获取模块包括:
获取子模块,用于当虚拟机检测到物理设备中的虚拟化设备故障时,通过虚拟化设备迁移模块调用虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据。
可选地,所述装置还包括:
数据存储模块,用于在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据。
可选地,所述数据存储模块包括:
配置存储子模块,用于在虚拟机与物理设备中的虚拟化设备建立连接时,通过虚拟化设备同步模块存储虚拟化设备的配置信息。
可选地,所述装置还包括:
同步子模块,用于在所述虚拟机与所述虚拟化设备的通信过程中,通过所述虚拟化设备同步模块同步更新所述虚拟化设备的配置信息,并同步存储数据队列的状态数据。
可选地,所述装置还包括:
功能配置模块,用于配置所述物理设备的预设错误报告功能停止向外部发送错误报告。
本申请实施例还公开了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如本申请实施例任一项所述的方法。
本申请实施例还公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本申请实施例任一项所述的方法。
本申请实施例包括以下优点:
通过本申请实施例提供的虚拟化设备的故障恢复的方法,当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据,调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备,从而可以使新的虚拟化设备具有与故障的虚拟化设备相同的运行状态,其后将所述虚拟机热迁移至与所述新的虚拟化设备通信,使得虚拟机可以继续处理原来正在处理的服务,确保虚拟机的服务不会中断,实现了虚拟化设备的高效恢复。
附图说明
图1是本申请实施例中一种设备示意图;
图2是本申请实施例的一种虚拟化设备的故障恢复方法实施例的步骤流程图;
图3是本申请实施例的一种虚拟化设备的故障恢复方法实施例的步骤流程图;
图4是本申请实施例中另一种设备示意图;
图5是本申请实施例中另一种设备示意图;
图6是本申请实施例的一种虚拟化设备的故障恢复装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请实施例中,I/O物理设备可以采用单根I/O虚拟化(SR-IOV)协议,将自身虚拟化为一个物理功能设备(physical function,PF)和若干虚拟化设备(virtualfunction,VF),并将虚拟化设备(VF)与服务器中运行的虚拟机一一连接。其中,物理功能设备(PF)也可以称为物理功能,虚拟化设备(VF)也可以称为虚拟功能。
本申请实施例通过在虚拟机管理程序(Hypervisor)中添加虚拟化设备同步模块,以提供虚拟化设备的配置信息以及数据队列的状态数据的同步功能。在虚拟机检测物理设备中的虚拟化设备存在故障时,可以从虚拟化设备同步模块中获取得到虚拟化设备的配置信息以及数据队列的状态数据,从而可以将故障的虚拟化设备的配置信息采集数据队列的状态数据迁移至新的虚拟化设备,并将虚拟机热迁移至与新的虚拟化设备通信。新的虚拟化设备具有与故障的虚拟化设备相同的配置信息以及数据队列的状态数据,从而虚拟机可以采用原有的方式与虚拟化设备进行通信,实现虚拟化设备故障的快速恢复,确保虚拟机的正常运行。
作为本申请的一种示例,图1是本申请实施例中一种设备示意图。包括服务器、物理设备A以及物理设备B。服务器中可以运行有多个虚拟机。物理设备A中通过I/O设备虚拟化技术,可以运行有虚拟化设备1、虚拟化设备2以及虚拟化设备3。物理设备B中可以运行有虚拟化设备4、虚拟化设备5以及虚拟化设备6。为了最大化地利用物理设备,可以采用资源池化的方式对物理设备重构,形成包含虚拟化设备1、虚拟化设备2、虚拟化设备3、虚拟化设备4、虚拟化设备5以及虚拟化设备6的设备资源池。服务器中每一个虚拟机可以分别与一虚拟化设备连接,从而实现每一虚拟机可以拥有独立的I/O设备。
参照图2,示出了本申请实施例的一种虚拟化设备的故障恢复方法实施例的步骤流程图,具体可以包括如下步骤:
步骤201,当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据;
当物理设备中的虚拟化设备存在故障时,物理设备可以生成错误报告,并准备针对虚拟化设备的故障中断向虚拟机提供服务。从而虚拟机可以检测物理设备中的虚拟化设备发生故障。
在本申请中,为了确保在虚拟化设备发生故障时,可以实现虚拟化设备的快速恢复,可以服务器的虚拟机管理程序中,设置一虚拟化设备同步模块。虚拟化设备同步模块可以用于同步地获取虚拟化设备的配置信息以及数据队列的状态数据。通过获取虚拟化设备的配置信息以及数据队列的状态数据,可以实现同步虚拟化设备当前的运行状态。
作为本申请的具体示例,虚拟化设备的配置信息可以包括中断配置状态(MSI-X)、直接内容访问(Direct Memory Access,DMA)的映射配置、基地址寄存器(base addressregister,BAR)的空间映射配置、以及配置空间等。
数据队列(virtqueue)可以为用于进行数据交换的实际数据链路。数据队列的状态数据可以包括数据队列的基地址、当前可用的id值(last_avail_idx)、当前已用的id值(last_used_idx)等。
由此,在虚拟机检测到物理设备中的虚拟化设备故障时,可以从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据,以便对故障的虚拟化设备进行快速恢复,确保虚拟机的正常运行。
步骤202,调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;
在本申请实施例中,服务器中可以设置有物理功能驱动(Physical FunctionDriver)。物理功能驱动可以用于对物理设备进行管理,实现在物理设备中创建虚拟化设备,设置虚拟机与虚拟化设备进行通信,对虚拟化设备进行配置等功能,
由此,在获取得到故障的虚拟化设备的配置信息以及数据队列的状态数据之后,可以通过调用物理功能驱动的方式,将故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至一新的虚拟化设备,使得新的虚拟化设备可以具有与故障的虚拟化设备相同的运行状态。
在具体实现中,物理设备中的虚拟化设备通常可以存在部分闲置的虚拟化设备。由此,在虚拟机检测到物理设备中的虚拟化设备故障时,为了快速进行虚拟化设备的故障恢复,可以查找一闲置的虚拟化设备作为新的虚拟化设备。也可以由物理功能驱动创建一新的虚拟化设备。其后,可以将新的虚拟化设备的配置信息以及数据队列的状态数据设置为与故障的虚拟化设备相同,从而完成故障的虚拟化设备的配置信息以及数据队列的状态数据的迁移。
步骤203,将所述虚拟机热迁移至与所述新的虚拟化设备通信。
将故障的虚拟化设备的配置信息以及以及数据队列的状态数据迁移至新的虚拟化设备之后,可以将虚拟机从与故障的虚拟化设备通信热迁移至与新的虚拟化设备进行,从而虚拟机可以与运行正常的虚拟化设备进行通信,确保自身正常运行,同时新的虚拟化设备具有故障的虚拟化设备的配置信息以及数据队列的状态数据,可以采用与故障的虚拟化设备相同的运行状态运行,虚拟机可以采用通过与新的虚拟化设备进行通信,继续处理原来正在处理的服务,确保虚拟机的服务不会中断。
通过本申请实施例提供的虚拟化设备的故障恢复的方法,当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据,调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备,从而可以使新的虚拟化设备具有与故障的虚拟化设备相同的运行状态,其后将所述虚拟机热迁移至与所述新的虚拟化设备通信,使得虚拟机可以继续处理原来正在处理的服务,确保虚拟机的服务不会中断,实现了虚拟化设备的高效恢复。
步骤301,当虚拟机检测到物理设备中的虚拟化设备故障时,通过虚拟化设备迁移模块调用虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据;
当物理设备中的虚拟化设备存在故障时,物理设备可以生成错误报告,并准备针对虚拟化设备的故障中断向虚拟机提供服务。从而虚拟机可以检测物理设备中的虚拟化设备发生故障。
在本申请中,为了确保在虚拟化设备发生故障时,可以实现虚拟化设备的快速恢复,可以服务器的虚拟机管理程序中,设置一虚拟化设备同步模块。虚拟化设备同步模块可以用于同步地获取虚拟化设备的配置信息以及数据队列的状态数据。通过获取虚拟化设备的配置信息以及数据队列的状态数据,可以实现同步虚拟化设备当前的运行状态。
同时,为了对虚拟化设备的迁移进行管理,可以在服务器的虚拟机管理程序中,设置一虚拟化设备迁移模块。
由此,在虚拟机检测到物理设备中的虚拟化设备故障时,虚拟机可以调用虚拟化设备迁移模块,以启动迁移流程。虚拟化设备为了完成虚拟化设备的故障恢复,可以首先从虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据,以便对故障的虚拟化设备进行快速恢复,确保虚拟机的正常运行。
在本申请的一种实施例中,所述方法还包括:
S11,在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据。
具体而言,在为虚拟机分配物理设备中的虚拟化设备,虚拟机与虚拟化设备建立连接时,虚拟机即可以请求存储虚拟化设备的配置信息以及数据队列的状态数据,以对虚拟化设备的运行状态进行备份。
在本申请的一种实施例中,所述在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据的步骤,包括:
S21,在虚拟机与物理设备中的虚拟化设备建立连接时,通过虚拟化设备同步模块存储虚拟化设备的配置信息。
具体而言,在虚拟机与物理设备中的虚拟化设备建立连接时,可以请求通过虚拟化设备同步模块存储虚拟化设备的初始的配置信息,以从虚拟机与物理设备中的虚拟化设备建立连接开始,即对虚拟化设备的运行状态进行备份。
在具体实现中,虚拟机可以通过调用虚拟化设备迁移模块,以启动虚拟化设备的同步流程。其后,虚拟化设备迁移模块可以从虚拟化设备中获取其配置信息,并存储于虚拟化设备同步模块中。
在本申请的一种实施例中,所述方法还包括:
S31,在所述虚拟机与所述虚拟化设备的通信过程中,通过所述虚拟化设备同步模块同步更新所述虚拟化设备的配置信息,并同步存储数据队列的状态数据。
具体而言,可以在虚拟机与虚拟化设备的通信过程中,通过虚拟化设备同步模块实时地同步更新虚拟化设备的配置信息,以及实时地同步存储数据队列的状态数据,以便在虚拟化设备出现故障时,可以及时地将虚拟化设备恢复为最新的状态,使虚拟机可以继续保持正常运行。
在具体实现中,服务器中可以设置有物理功能驱动(Physical FunctionDriver)。物理功能驱动可以用于对物理设备进行管理,实现在物理设备中创建虚拟化设备,设置虚拟机与虚拟化设备进行通信,对虚拟化设备进行配置等功能。
由此,虚拟化设备同步模块可以实时地通过物理功能驱动获取虚拟化设备的配置信息以及数据队列的状态数据,实现对虚拟化设备的配置信息以及数据队列的状态数据的同步更新。
在本申请的一种实施例中,所述方法还包括:
S41,配置所述物理设备的预设错误报告功能停止向外部发送错误报告。
具体而言,物理设备可以原有具有预设的错误报告功能,在物理设备出现故障的情况下,物理设备可以对外发送错误报告,以请求外部设备如中央处理器(CPU)等对物理设备中存在的错误进行修复。错误报告功能也可以用于虚拟化设备故障的恢复,但是,如采用预设的错误报告功能请求外部设备恢复虚拟化设备,可能需要花费较长时间,导致虚拟机长时间无法正常运行。或者,虚拟化设备所发生的错误可能是无法被修复的,则此时对外发送错误报告可能并无法帮助虚拟化设备恢复正常运行。
由此,在采用本申请的虚拟化设备的故障恢复的方法确保虚拟机可以正常运行之前,可以首先配置所述物理设备的预设错误报告功能停止向外部发送错误报告。从而在虚拟机发生故障时,可以无需采用原有的方式发送错误报告,而可以采用本申请的虚拟化设备的故障恢复的方法快速恢复虚拟化设备。
在具体实现中,物理设备具有的错误报告功能可以为高级错误报告功能(Advanced Error Reporting,AER)或者延迟过程调用(DPC)。可以配置高级错误报告功能禁止对外发送错误报告。此时错误报告功能可以采用未发送(Non-posted)的请求,针对未发送的请求,返回带错误的完成状态,从而可以避免采用原有的错误报告功能对外发送错误报告。同时和可以避免由于物理设备故障从而导致可能的系统宕机。
步骤302,调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;
在获取得到故障的虚拟化设备的配置信息以及数据队列的状态数据之后,可以通过调用物理功能驱动的方式,将故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至一新的虚拟化设备,使得新的虚拟化设备可以具有与故障的虚拟化设备相同的运行状态。
在具体实现中,物理设备中的虚拟化设备通常可以存在部分闲置的虚拟化设备。由此,在虚拟机检测到物理设备中的虚拟化设备故障时,为了快速进行虚拟化设备的故障恢复,可以查找一闲置的虚拟化设备作为新的虚拟化设备。也可以由物理功能驱动创建一新的虚拟化设备。其后,可以将新的虚拟化设备的配置信息以及数据队列的状态数据设置为与故障的虚拟化设备相同,从而完成故障的虚拟化设备的配置信息以及数据队列的状态数据的迁移。
步骤303,将所述虚拟机热迁移至与所述新的虚拟化设备通信。
将故障的虚拟化设备的配置信息以及以及数据队列的状态数据迁移至新的虚拟化设备之后,可以将虚拟机从与故障的虚拟化设备通信热迁移至与新的虚拟化设备进行,从而虚拟机可以与运行正常的虚拟化设备进行通信,确保自身正常运行,同时新的虚拟化设备具有故障的虚拟化设备的配置信息以及数据队列的状态数据,可以采用与故障的虚拟化设备相同的运行状态运行,虚拟机可以采用通过与新的虚拟化设备进行通信,继续处理原来正在处理的服务,确保虚拟机的服务不会中断。
作为本申请的一种具体示例,图4为本申请的一种设备示意图。
在虚拟机和虚拟化设备1建立连接时,虚拟机将其获取得到的虚拟化设备1的配置信息发送至虚拟化设备迁移模块中。虚拟化设备迁移模块可以将虚拟化设备1的配置信息存储至虚拟化设备同步模块中。其后,在虚拟机与虚拟化设备1通信过程中,虚拟化设备同步模块可以通过物理功能驱动实时地获取虚拟化设备1的配置信息以及数据队列的状态信息,并进行同步存储,从而实现虚拟化设备1的配置信息以及数据队列的状态信息的实时存储,
作为本申请的一种具体示例,图5为本申请的另一种设备示意图。
虚拟机和虚拟化设备1通信的过程中,若虚拟机检测到虚拟化设备1故障,虚拟机可以通知虚拟化设备迁移模块,虚拟化设备迁移模块可以通过虚拟化设备同步模块获取故障的虚拟化设备1的配置信息以及数据队列的状态数据,其后,将故障的虚拟化设备1的配置信息以及数据队列的状态数据发送至物理功能驱动,由物理功能驱动将故障的虚拟化设备1的配置信息以及数据队列的状态数据迁移至新的虚拟化设备2。使新的虚拟化设备2可以具有与故障的虚拟化设备1相同的运行状态。其后虚拟机进行热迁移,迁移至与新的虚拟化设备2通信,虚拟机可以基于新的虚拟化设备2进行提供服务,确保虚拟机的正常运行。
通过本申请实施例提供的虚拟化设备的故障恢复的方法,当虚拟机检测到物理设备中的虚拟化设备故障时,通过虚拟化设备迁移模块调用虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据,调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备,从而可以使新的虚拟化设备具有与故障的虚拟化设备相同的运行状态,其后将所述虚拟机热迁移至与所述新的虚拟化设备通信,使得虚拟机可以继续处理原来正在处理的服务,确保虚拟机的服务不会中断,实现了虚拟化设备的高效恢复。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图6,示出了本申请实施例的另一种虚拟化设备的故障恢复装置实施例的结构框图,具体可以包括如下模块:
获取模块601,用于当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据;
第一迁移模块602,用于调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;
第二迁移模块603,预设预设将所述虚拟机热迁移至与所述新的虚拟化设备通信。
可选地,所述获取模块包括:
获取子模块,用于当虚拟机检测到物理设备中的虚拟化设备故障时,通过虚拟化设备迁移模块调用虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据。
可选地,所述装置还包括:
数据存储模块,用于在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据。
可选地,所述数据存储模块包括:
配置存储子模块,用于在虚拟机与物理设备中的虚拟化设备建立连接时,通过虚拟化设备同步模块存储虚拟化设备的配置信息。
可选地,所述装置还包括:
同步子模块,用于在所述虚拟机与所述虚拟化设备的通信过程中,通过所述虚拟化设备同步模块同步更新所述虚拟化设备的配置信息,并同步存储数据队列的状态数据。
可选地,所述装置还包括:
功能配置模块,用于配置所述物理设备的预设错误报告功能停止向外部发送错误报告。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例还提供了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行本申请实施例所述的方法。
本申请实施例还提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行本申请实施例所述的方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种虚拟化设备的故障恢复方法和一种虚拟化设备的故障恢复装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种虚拟化设备的故障恢复的方法,其特征在于,包括:
当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据;
调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;
将所述虚拟机热迁移至与所述新的虚拟化设备通信。
2.根据权利要求1所述的方法,其特征在于,所述当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据的步骤,包括:
当虚拟机检测到物理设备中的虚拟化设备故障时,通过虚拟化设备迁移模块调用虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据。
4.根据权利要求3所述的方法,其特征在于,所述在虚拟机与物理设备中的虚拟化设备建立连接时,存储所述虚拟化设备的配置信息以及所述数据队列的状态数据的步骤,包括:
在虚拟机与物理设备中的虚拟化设备建立连接时,通过虚拟化设备同步模块存储虚拟化设备的配置信息。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述虚拟机与所述虚拟化设备的通信过程中,通过所述虚拟化设备同步模块同步更新所述虚拟化设备的配置信息,并同步存储数据队列的状态数据。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
配置所述物理设备的预设错误报告功能停止向外部发送错误报告。
7.一种虚拟化设备的故障恢复的装置,其特征在于,包括:
获取模块,用于当虚拟机检测到物理设备中的虚拟化设备故障时,从虚拟化设备同步模块中获取故障的虚拟化设备的配置信息以及数据队列的状态数据;
第一迁移模块,用于调用预设的物理功能驱动将所述故障的虚拟化设备的配置信息以及数据队列的状态数据迁移至新的虚拟化设备;
第二迁移模块,预设预设将所述虚拟机热迁移至与所述新的虚拟化设备通信。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:
获取子模块,用于当虚拟机检测到物理设备中的虚拟化设备故障时,通过虚拟化设备迁移模块调用虚拟化设备同步模块获取故障的虚拟化设备的配置信息以及数据队列的状态数据。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述电子设备执行如权利要求1-6任一项所述的方法。
10.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如权利要求1-6任一项所述的方法。
CN202111679753.6A 2021-12-31 2021-12-31 一种虚拟化设备的故障恢复方法和装置 Pending CN114416293A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111679753.6A CN114416293A (zh) 2021-12-31 2021-12-31 一种虚拟化设备的故障恢复方法和装置
PCT/CN2022/127774 WO2023124477A1 (zh) 2021-12-31 2022-10-26 一种虚拟化设备的故障恢复方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111679753.6A CN114416293A (zh) 2021-12-31 2021-12-31 一种虚拟化设备的故障恢复方法和装置

Publications (1)

Publication Number Publication Date
CN114416293A true CN114416293A (zh) 2022-04-29

Family

ID=81271440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111679753.6A Pending CN114416293A (zh) 2021-12-31 2021-12-31 一种虚拟化设备的故障恢复方法和装置

Country Status (2)

Country Link
CN (1) CN114416293A (zh)
WO (1) WO2023124477A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080191A (zh) * 2022-08-18 2022-09-20 苏州浪潮智能科技有限公司 一种管理i2c链路的方法、装置、设备及可读介质
WO2023124477A1 (zh) * 2021-12-31 2023-07-06 阿里巴巴(中国)有限公司 一种虚拟化设备的故障恢复方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103440160B (zh) * 2013-08-15 2016-12-28 华为技术有限公司 虚拟机恢复方法和虚拟机迁移方法以及装置与系统
CN103605561A (zh) * 2013-11-28 2014-02-26 中标软件有限公司 一种云计算集群系统及其在线迁移物理服务器的方法
CN109558216B (zh) * 2018-12-11 2020-10-27 深圳先进技术研究院 一种基于在线迁移的单根i/o虚拟化优化方法及其系统
US10963282B2 (en) * 2018-12-11 2021-03-30 Amazon Technologies, Inc. Computing service with configurable virtualization control levels and accelerated launches
CN109753346B (zh) * 2018-12-25 2021-01-01 新华三云计算技术有限公司 一种虚拟机热迁移方法及装置
CN114416293A (zh) * 2021-12-31 2022-04-29 阿里巴巴(中国)有限公司 一种虚拟化设备的故障恢复方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023124477A1 (zh) * 2021-12-31 2023-07-06 阿里巴巴(中国)有限公司 一种虚拟化设备的故障恢复方法和装置
CN115080191A (zh) * 2022-08-18 2022-09-20 苏州浪潮智能科技有限公司 一种管理i2c链路的方法、装置、设备及可读介质
CN115080191B (zh) * 2022-08-18 2023-01-06 苏州浪潮智能科技有限公司 一种管理i2c链路的方法、装置、设备及可读介质

Also Published As

Publication number Publication date
WO2023124477A1 (zh) 2023-07-06

Similar Documents

Publication Publication Date Title
CN102708018B (zh) 一种异常处理方法及系统、代理设备与控制装置
WO2023124477A1 (zh) 一种虚拟化设备的故障恢复方法和装置
CN109815043B (zh) 故障处理方法、相关设备及计算机存储介质
EP2946293B1 (en) Healing cloud services during upgrades
CN105933407B (zh) 一种实现Redis集群高可用的方法及系统
JP2011060055A (ja) 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム
CN100492305C (zh) 一种计算机系统的快速恢复方法及设备
US20150317175A1 (en) Virtual machine synchronization system
US11494215B2 (en) Techniques to decrease a live migration time for a virtual machine
US20200193027A1 (en) Firmware upgrade method, slave station of robot, and machine readable storage medium
RU2653254C1 (ru) Способ, узел и система управления данными для кластера базы данных
CN110377456A (zh) 一种虚拟化平台容灾的管理方法及装置
CN104503861A (zh) 一种异常处理方法及系统、代理设备与控制装置
CN108319492B (zh) 复位物理机的方法、装置与系统
CN105812169A (zh) 一种主备机切换方法及装置
CN114064217B (zh) 一种基于OpenStack的节点虚拟机迁移方法及装置
CN115904520A (zh) 基于pcie拓扑状态变更的配置保存方法及相关设备
CN113377702B (zh) 两节点集群启动的方法及装置、电子设备和存储介质
CN114554593A (zh) 数据处理方法及装置
CN111090537B (zh) 集群启动方法、装置、电子设备及可读存储介质
CN106411643B (zh) Bmc检测方法以及装置
CN111427259B (zh) 一种机框插槽式的主备切换方法、智能设备及存储介质
CN114416427A (zh) 一种虚拟化设备的备份方法和装置
CN107005434B (zh) 一种同步虚拟网络功能vnf状态的方法、装置和设备
CN111221683A (zh) 数据中心交换机双flash热备份方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40071603

Country of ref document: HK