CN116566804A - 一种云环境下智能网卡硬件卸载的单点故障避免方法 - Google Patents

一种云环境下智能网卡硬件卸载的单点故障避免方法 Download PDF

Info

Publication number
CN116566804A
CN116566804A CN202310739175.3A CN202310739175A CN116566804A CN 116566804 A CN116566804 A CN 116566804A CN 202310739175 A CN202310739175 A CN 202310739175A CN 116566804 A CN116566804 A CN 116566804A
Authority
CN
China
Prior art keywords
network card
fault
intelligent network
intelligent
target application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310739175.3A
Other languages
English (en)
Inventor
刘宇龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Unicom Cloud Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Unicom Cloud Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd, Unicom Cloud Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202310739175.3A priority Critical patent/CN116566804A/zh
Publication of CN116566804A publication Critical patent/CN116566804A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请提供一种云环境下智能网卡硬件卸载的单点故障避免方法,涉及通信领域。应用于目标服务器,目标服务器包括多个智能网卡,该方法包括:基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡。本申请的方法实现了降低单点故障发生率的技术效果。

Description

一种云环境下智能网卡硬件卸载的单点故障避免方法
技术领域
本申请涉及通信技术,尤其涉及一种云环境下智能网卡硬件卸载的单点故障避免方法。
背景技术
随着互联网技术的发展,网络处理开销增加,普通网卡在网络协议处理、数据搬移及使用灵活性方面存在的缺陷增多,可编程智能网卡支持网络协议处理卸载、网络功能虚拟化、特定应用加速,成为了一个具有应用前景的发展方向。
在现有技术中,智能网卡实现网络高性能,通过硬件卸载技术将网络功能、安全功能和存储功能从主服务器卸载,基于智能网卡的计算能力进行数据处理和数据传输,实现释放主服务器的处理能力,提高网络处理的效率。
在应用智能网卡的环境中,由于硬件卸载功能无法跨越物理网卡,应用只能运行在一个智能网卡设备中,因此在将智能网卡应用于云服务时,由于硬件卸载的设备限制,存在单点问题,导致智能网卡中应用的可用性降低的技术问题。
发明内容
本申请提供一种云环境下智能网卡硬件卸载的单点故障避免方法,用以解决单点问题导致的智能网卡中应用可用性降低的技术问题。
第一方面,本申请提供一种云环境下智能网卡硬件卸载的单点故障避免方法,应用于目标服务器,目标服务器包括多个智能网卡,该方法包括:
基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;
若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;
在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡。
可选地,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡,包括:
关闭故障网卡的目标应用,将故障网卡上目标应用相应的目标功能和设备迁移至未发生故障的智能网卡;
基于目标功能和设备,启动未发生故障的智能网卡上的目标应用,以完成目标应用的迁移。
可选地,将故障网卡上目标应用相应的目标功能和设备迁移至未发生故障的智能网卡,包括:
将故障网卡相应的物理功能和设备迁移至未发生故障的智能网卡;
将故障网卡相应的虚拟功能迁移至未发生故障的智能网卡。
可选地,将故障网卡相应的物理功能和设备迁移至未发生故障的智能网卡,包括:
基于目标应用确定物理功能的配置信息;
基于配置信息移除故障网卡相应的物理功能和设备,并在未发生故障的智能网卡上新增物理功能和设备,以使物理功能和设备迁移至未发生故障的智能网卡。
可选地,将故障网卡相应的虚拟功能迁移至未发生故障的智能网卡,包括:
基于目标应用确定故障网卡的虚拟功能;
解除目标应用与故障网卡的虚拟功能的第一关联关系,并建立目标应用与未发生故障的智能网卡的虚拟功能的第二关联关系,以使虚拟功能迁移至未发生故障的智能网卡。
可选地,基于预设时间间隔获取智能网卡的运行状态,包括:
基于预设时间间隔获取智能网卡的链路探测信息、网卡状态信息,和/或业务数据信息;
基于链路探测信息、网卡状态信息,和/或业务数据信息,确定智能网卡的运行状态。
可选地,基于运行状态判断智能网卡是否发生故障,包括:
基于链路探测信息、网卡状态信息,和/或业务数据信息的加权和值,确定智能网卡的故障判断值;
在故障判断值大于预设阈值时,确定智能网卡发生故障。
第二方面,本申请提供一种云环境下智能网卡硬件卸载的单点故障避免设备,应用于目标服务器,目标服务器包括多个智能网卡,包括:
第一处理模块,用于基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;
第二处理模块,用于若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;
迁移模块,用于在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡。
可选地,迁移模块还用于:
关闭故障网卡的目标应用,将故障网卡上目标应用相应的目标功能和设备迁移至未发生故障的智能网卡;
基于目标功能和设备,启动未发生故障的智能网卡上的目标应用,以完成目标应用的迁移。
可选地,迁移模块还用于:
将故障网卡相应的物理功能和设备迁移至未发生故障的智能网卡;
将故障网卡相应的虚拟功能迁移至未发生故障的智能网卡。
可选地,迁移模块还用于:
基于目标应用确定物理功能的配置信息;
基于配置信息移除故障网卡相应的物理功能和设备,并在未发生故障的智能网卡上新增物理功能和设备,以使物理功能和设备迁移至未发生故障的智能网卡。
可选地,迁移模块还用于:
基于目标应用确定故障网卡的虚拟功能;
解除目标应用与故障网卡的虚拟功能的第一关联关系,并建立目标应用与未发生故障的智能网卡的虚拟功能的第二关联关系,以使虚拟功能迁移至未发生故障的智能网卡。
可选地,第一处理模块还用于:
基于预设时间间隔获取智能网卡的链路探测信息、网卡状态信息,和/或业务数据信息;
基于链路探测信息、网卡状态信息,和/或业务数据信息,确定智能网卡的运行状态。
可选地,第一处理模块还用于:
基于链路探测信息、网卡状态信息,和/或业务数据信息的加权和值,确定智能网卡的故障判断值;
在故障判断值大于预设阈值时,确定智能网卡发生故障。
第三方面,提供了一种云环境下智能网卡硬件卸载的单点故障避免设备,包括:
处理器和存储器;
存储器存储计算机执行指令;
处理器执行存储器存储的计算机执行指令,使得云环境下智能网卡硬件卸载的单点故障避免设备执行第一方面中任一项的云环境下智能网卡硬件卸载的单点故障避免方法。
第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面中任一项的云环境下智能网卡硬件卸载的单点故障避免方法。
本申请提供的云环境下智能网卡硬件卸载的单点故障避免方法,应用于目标服务器,目标服务器包括多个智能网卡,该方法包括:基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡;从而基于智能网卡的运行状态判断是否出现故障,并基于故障信息确定故障处理指令并进行故障迁移;在智能网卡被确定为故障网卡时,将故障网卡的故障信息进行告警处理,实现通过故障信息确定对故障网卡的故障迁移指令;基于故障迁移指令将故障网卡中的目标应用进行迁移,实现维持故障网卡中目标应用的正常运行,避免了单点问题并提高智能网卡中应用可用性,维持目标服务器的稳定性,实现了降低单点故障发生率的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免方法流程图一;
图2为本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免方法流程图二;
图3为本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免方法流程图三;
图4为本申请实施例提供的一种云环境下智能网卡硬件卸载的单点故障避免设备的结构示意图;
图5为本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免设备的硬件结构图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
网卡(Network Interface Card,NIC):是指将电脑接入局域网的设备,网卡插在计算机主板的总线插槽中,负责将用户要传递的数据转换为网络设备能够识别的格式,通过网络介质传输。
智能网卡(Smart NIC),也称智能网络适配器,除了能完成标准网卡所具有的网络传输功能之外,还提供内置的可编程、可配置的硬件加速引擎,提升应用的性能和大幅降低CPU在通信中的消耗,为应用提供更多的CPU资源。
在现有技术中,智能网卡实现网络高性能,通过硬件卸载技术将网络功能、安全功能和存储功能从主服务器卸载,基于智能网卡的计算能力进行数据处理和数据传输,实现释放主服务器的处理能力,提高网络处理的效率。在应用智能网卡的环境中,由于硬件卸载功能无法跨越物理网卡,应用只能运行在一个智能网卡设备中,因此在将智能网卡应用于云服务时,由于硬件卸载的设备限制,存在单点问题,导致智能网卡中应用的可用性降低的技术问题。
本申请提供的云环境下智能网卡硬件卸载的单点故障避免方法,应用于目标服务器,目标服务器包括多个智能网卡,该方法包括:基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡;从而基于智能网卡的运行状态判断是否出现故障,并基于故障信息确定故障处理指令并进行故障迁移;在智能网卡被确定为故障网卡时,将故障网卡的故障信息进行告警处理,实现通过故障信息确定对故障网卡的故障迁移指令;基于故障迁移指令将故障网卡中的目标应用进行迁移,实现维持故障网卡中目标应用的正常运行,避免了单点问题并提高智能网卡中应用可用性,维持目标服务器的稳定性,实现了降低单点故障发生率的技术效果。
下面以具体的实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免方法流程图一。如图1所示,本实施例的云环境下智能网卡硬件卸载的单点故障避免方法,应用于目标服务器,目标服务器包括多个智能网卡,该方法包括:
S101、基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;
本实施例中,智能网卡运行状态的获取可以通过故障探测程序实现,基于智能网卡确定智能网卡的探测维度,并基于探测维度确定探测指令,将探测指令整合为故障探测程序,通过故障探测程序实现对智能网卡运行状态的探测;其中探测维度可以为:链路探测、网卡状态查询及业务数据包汇总。
S102、若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;
本实施例中,基于故障网卡的故障信息进行告警,在第一示范例中,将故障信息发送至告警平台,告警平台基于自动处理策略判断需要对故障网卡进行故障迁移处理,则基于故障信息确定故障处理指令。
在第二示范例中,将故障信息发送至告警平台,告警平台基于人工处理策略判断需要对故障网卡进行故障迁移处理,则基于故障信息确定故障处理指令。
S103、在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡。
本申请提供的云环境下智能网卡硬件卸载的单点故障避免方法,应用于目标服务器,目标服务器包括多个智能网卡,该方法包括:基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡;从而基于智能网卡的运行状态判断是否出现故障,并基于故障信息确定故障处理指令并进行故障迁移;在智能网卡被确定为故障网卡时,将故障网卡的故障信息进行告警处理,实现通过故障信息确定对故障网卡的故障迁移指令;基于故障迁移指令将故障网卡中的目标应用进行迁移,实现维持故障网卡中目标应用的正常运行,避免了单点问题并提高智能网卡中应用可用性,维持目标服务器的稳定性,实现了降低单点故障发生率的技术效果。
图2为本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免方法的流程图二,提供了云环境下智能网卡硬件卸载的单点故障避免方法的示意图,如图2所示,该方法包括:
S201、基于预设时间间隔获取智能网卡的链路探测信息、网卡状态信息,和/或业务数据信息;基于链路探测信息、网卡状态信息,和/或业务数据信息,确定智能网卡的运行状态;
本实施例中,在第三示范例中,预设时间间隔为30秒,以30秒为周期对智能网卡进行定期的链路探测、网卡状态探测及业务数据信息获取;在第四示范例中,预设时间间隔为1分钟,以1分钟为周期对智能网卡进行定期的链路探测、网卡状态探测及业务数据信息获取。
S202、基于链路探测信息、网卡状态信息,和/或业务数据信息的加权和值,确定智能网卡的故障判断值;在故障判断值大于预设阈值时,确定智能网卡发生故障;
本实施例中,在第五示范例中,预设阈值设置为60%,当故障判断值大于60%时,确定智能网卡发生故障;当故障判断值小于或等于60%时,确定智能网卡未发生故障。
S203、将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;
本实施例中,基于故障网卡的故障信息进行告警,可以通过将故障网卡的故障信息发送至告警平台,基于告警平台的人工处理和/或自动处理方式确定是否进行故障处理,在确定进行故障处理时基于故障信息确定故障处理指令。
S204、接收到响应于告警生成的故障处理指令;
S205、关闭故障网卡的目标应用;
本实施例中,目标应用为使用故障网卡的应用,包括虚拟机及容器,接收到故障处理指令后,故障网卡无法投入正常使用,需要将故障网卡的目标应用关闭,在执行后续的目标应用迁移,以确保目标应用的数据安全性。
S206、基于目标应用确定物理功能的配置信息;基于配置信息移除故障网卡相应的物理功能和设备,并在未发生故障的智能网卡上新增物理功能和设备,以使物理功能和设备迁移至未发生故障的智能网卡;
本实施例中,在第六示范例中,故障网卡及未发生故障的智能网卡,用于虚拟交换,则故障网卡及未发生故障的智能网卡在虚拟交换机中配置物理功能,在进行故障处理时,将物理功能及网卡的设备信息从虚拟交换机中移除,并在虚拟交换机中添加未发生故障的智能网卡的物理功能及设备信息,确保虚拟交换机能连接未发生故障的智能网卡并基于智能网卡实现卸载功能。
S207、基于目标应用确定故障网卡的虚拟功能;解除目标应用与故障网卡的虚拟功能的第一关联关系,并建立目标应用与未发生故障的智能网卡的虚拟功能的第二关联关系,以使虚拟功能迁移至未发生故障的智能网卡;
S208、基于目标功能和设备,启动未发生故障的智能网卡上的目标应用,以完成目标应用的迁移;
本实施例中,目标应用基于未发生故障的智能网卡运行,启动目标应用,保障目标应用的数据稳定,并基于目标应用的正常运行实现目标应用的迁移。
通过执行S201至S208,可以通过探测智能网卡的运行状态,确定智能网卡的故障信息并基于故障信息进行智能网卡的故障迁移处理,将智能网卡中的目标应用迁移至未发生故障的智能网卡,实现了避免单点问题并提高智能网卡中应用可用性的技术效果。
图3为本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免方法的流程图三。如图3所示,该方法包括:基于网卡探测程序定期发送链路探测指令、网卡状态查询指令及业务数据包汇总指令,获取预设时间间隔内的链路探测信息、网卡状态信息及业务数据信息,通过对链路探测信息、网卡状态信息及业务数据信息进行加权求和确定故障探测值;基于故障探测值判断智能网卡是否发生故障;在故障探测值大于60%时,将智能网卡标记为故障网卡,并确定故障信息;将故障信息进行告警,通过人工处理和/或自动处理的方式判断是否进行故障处理,若进行故障处理则接收故障处理指令;基于故障处理指令关闭故障网卡中的虚拟机及容器,移除故障网卡连接的虚拟交换机(OpenvSwitch,OVS)中故障网卡的物理功能(Physical Function,PE)配置信息,并增加未发生故障智能网卡的物理功能配置信息;给未发生故障的智能网卡分配虚拟功能(Virtual Function,VF),解除故障网卡和虚拟机及容器的虚拟功能关联关系,并建立虚拟机及容器和未发生故障的智能网卡的虚拟功能关联关系;启动虚拟机及容器完成故障处理操作。
本申请提供的云环境下智能网卡硬件卸载的单点故障避免方法,应用于目标服务器,目标服务器包括多个智能网卡,该方法包括:基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;其中运行状态的获取通过多个维度对智能网卡进行探测,基于链路探测、网卡状态和/或业务数据这三个维度获取智能网卡的状态信息,并确定故障探测值,通过对故障探测之和预设阈值的对比确定智能网卡是否发生故障;通过定期的获取智能网卡的运行状态,实现监控智能网卡,并基于周期性的状态探测,提高智能网卡故障探测的及时性;在智能网卡发生故障时,将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡;其中,目标应用的迁移,通过将故障网卡的物理功能的配置信息移除并添加未发生故障的智能网卡的物理功能的配置信息,实现物理功能的迁移,通过新增未发生故障的智能网卡的虚拟功能并解除故障网卡和目标应用虚拟功能的关联关系,建立未发生故障的智能网卡和目标应用的虚拟功能的关联关系,实现虚拟功能的迁移,实现了目标应用的迁移;从而实现基于智能网卡的运行状态判断是否出现故障,并基于故障信息确定故障处理指令并进行故障迁移;在智能网卡被确定为故障网卡时,将故障网卡的故障信息进行告警处理,实现通过故障信息确定对故障网卡的故障迁移指令;基于故障迁移指令将故障网卡中的目标应用进行迁移,实现维持故障网卡中目标应用的正常运行,避免了单点问题并提高智能网卡中应用可用性,维持目标服务器的稳定性,实现了降低单点故障发生率的技术效果。
图4为本申请实施例提供的一种云环境下智能网卡硬件卸载的单点故障避免设备的结构示意图。本实施例的设备可以为软件和/或硬件的形式。如图4所示,本申请实施例提供的一种云环境下智能网卡硬件卸载的单点故障避免设备400,应用于目标服务器,目标服务器包括多个智能网卡,设备包括:第一处理模块401、第二处理模块402、以及迁移模块403,
第一处理模块401,用于基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;
第二处理模块402,用于若是,则将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;
迁移模块403,用于在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡。
一种可能的实现方式中,迁移模块403还用于:
关闭故障网卡的目标应用,将故障网卡上目标应用相应的目标功能和设备迁移至未发生故障的智能网卡;
基于目标功能和设备,启动未发生故障的智能网卡上的目标应用,以完成目标应用的迁移。
一种可能的实现方式中,迁移模块403还用于:
将故障网卡相应的物理功能和设备迁移至未发生故障的智能网卡;
将故障网卡相应的虚拟功能迁移至未发生故障的智能网卡。
一种可能的实现方式中,迁移模块403还用于:
基于目标应用确定物理功能的配置信息;
基于配置信息移除故障网卡相应的物理功能和设备,并在未发生故障的智能网卡上新增物理功能和设备,以使物理功能和设备迁移至未发生故障的智能网卡。
一种可能的实现方式中,迁移模块403还用于:
基于目标应用确定故障网卡的虚拟功能;
解除目标应用与故障网卡的虚拟功能的第一关联关系,并建立目标应用与未发生故障的智能网卡的虚拟功能的第二关联关系,以使虚拟功能迁移至未发生故障的智能网卡。
一种可能的实现方式中,第一处理模块401还用于:
基于预设时间间隔获取智能网卡的链路探测信息、网卡状态信息,和/或业务数据信息;
基于链路探测信息、网卡状态信息,和/或业务数据信息,确定智能网卡的运行状态。
一种可能的实现方式中,第一处理模块401还用于:
基于链路探测信息、网卡状态信息,和/或业务数据信息的加权和值,确定智能网卡的故障判断值;
在故障判断值大于预设阈值时,确定智能网卡发生故障。
本申请提供的云环境下智能网卡硬件卸载的单点故障避免设备,应用于目标服务器,目标服务器包括多个智能网卡,该设备包括:第一处理模块,用于基于预设时间间隔获取智能网卡的运行状态,基于运行状态判断智能网卡是否发生故障;其中运行状态的获取通过多个维度对智能网卡进行探测,基于链路探测、网卡状态和/或业务数据这三个维度获取智能网卡的状态信息,并确定故障探测值,通过对故障探测之和预设阈值的对比确定智能网卡是否发生故障;通过定期的获取智能网卡的运行状态,实现监控智能网卡,并基于周期性的状态探测,提高智能网卡故障探测的及时性;第二处理模块,用于在智能网卡发生故障时,将智能网卡确定为故障网卡,并基于故障网卡的故障信息进行告警;迁移模块,用于在接收到响应于告警生成的故障处理指令时,将故障网卡上运行的目标应用迁移至未发生故障的智能网卡;其中,目标应用的迁移,通过将故障网卡的物理功能的配置信息移除并添加未发生故障的智能网卡的物理功能的配置信息,实现物理功能的迁移,通过新增未发生故障的智能网卡的虚拟功能并解除故障网卡和目标应用虚拟功能的关联关系,建立未发生故障的智能网卡和目标应用的虚拟功能的关联关系,实现虚拟功能的迁移,实现了目标应用的迁移;从而实现基于智能网卡的运行状态判断是否出现故障,并基于故障信息确定故障处理指令并进行故障迁移;在智能网卡被确定为故障网卡时,将故障网卡的故障信息进行告警处理,实现通过故障信息确定对故障网卡的故障迁移指令;基于故障迁移指令将故障网卡中的目标应用进行迁移,实现维持故障网卡中目标应用的正常运行,避免了单点问题并提高智能网卡中应用可用性,维持目标服务器的稳定性,实现了降低单点故障发生率的技术效果。
图5本申请实施例提供的云环境下智能网卡硬件卸载的单点故障避免设备的硬件结构图。如图5所示,该云环境下智能网卡硬件卸载的单点故障避免设备500包括:
处理器501和存储器502;
存储器存储计算机执行指令;
处理器执行存储器502存储的计算机执行指令,使得云环境下智能网卡硬件卸载的单点故障避免设备执行如上述的云环境下智能网卡硬件卸载的单点故障避免方法。
应理解,上述处理器501可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital SignalProcessor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。存储器502可能包含高速随机存取存储器(英文:Random Access Memory,简称:RAM),也可能还包括非易失性存储器(英文:Non-volatilememory,简称:NVM),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
本申请实施例相应还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现云环境下智能网卡硬件卸载的单点故障避免方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其他实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种云环境下智能网卡硬件卸载的单点故障避免方法,其特征在于,应用于目标服务器,所述目标服务器包括多个所述智能网卡,所述方法包括:
基于预设时间间隔获取所述智能网卡的运行状态,基于所述运行状态判断所述智能网卡是否发生故障;
若是,则将所述智能网卡确定为故障网卡,并基于所述故障网卡的故障信息进行告警;
在接收到响应于所述告警生成的故障处理指令时,将所述故障网卡上运行的目标应用迁移至未发生故障的所述智能网卡。
2.根据权利要求1所述的方法,其特征在于,所述将所述故障网卡上运行的目标应用迁移至未发生故障的所述智能网卡,包括:
关闭所述故障网卡的所述目标应用,将所述故障网卡上所述目标应用相应的目标功能和设备迁移至未发生故障的所述智能网卡;
基于所述目标功能和所述设备,启动未发生故障的所述智能网卡上的所述目标应用,以完成所述目标应用的迁移。
3.根据权利要求2所述的方法,其特征在于,所述将所述故障网卡上所述目标应用相应的目标功能和设备迁移至未发生故障的所述智能网卡,包括:
将所述故障网卡相应的物理功能和设备迁移至未发生故障的所述智能网卡;
将所述故障网卡相应的虚拟功能迁移至未发生故障的所述智能网卡。
4.根据权利要求3所述的方法,其特征在于,所述将所述故障网卡相应的物理功能和设备迁移至未发生故障的所述智能网卡,包括:
基于所述目标应用确定所述物理功能的配置信息;
基于所述配置信息移除所述故障网卡相应的所述物理功能和所述设备,并在未发生故障的所述智能网卡上新增所述物理功能和所述设备,以使所述物理功能和所述设备迁移至未发生故障的所述智能网卡。
5.根据权利要求3所述的方法,其特征在于,所述将所述故障网卡相应的虚拟功能迁移至未发生故障的所述智能网卡,包括:
基于所述目标应用确定所述故障网卡的所述虚拟功能;
解除所述目标应用与所述故障网卡的所述虚拟功能的第一关联关系,并建立所述目标应用与未发生故障的所述智能网卡的所述虚拟功能的第二关联关系,以使所述虚拟功能迁移至未发生故障的所述智能网卡。
6.根据权利要求1所述的方法,其特征在于,所述基于预设时间间隔获取所述智能网卡的运行状态,包括:
基于所述预设时间间隔获取所述智能网卡的链路探测信息、网卡状态信息,和/或业务数据信息;
基于所述链路探测信息、所述网卡状态信息,和/或所述业务数据信息,确定所述智能网卡的所述运行状态。
7.根据权利要求6所述的方法,其特征在于,所述基于所述运行状态判断所述智能网卡是否发生故障,包括:
基于所述链路探测信息、所述网卡状态信息,和/或所述业务数据信息的加权和值,确定所述智能网卡的故障判断值;
在所述故障判断值大于预设阈值时,确定所述智能网卡发生故障。
8.一种云环境下智能网卡硬件卸载的单点故障避免设备,其特征在于,应用于目标服务器,所述目标服务器包括多个所述智能网卡,所述设备包括:
第一处理模块,用于基于预设时间间隔获取所述智能网卡的运行状态,基于所述运行状态判断所述智能网卡是否发生故障;
第二处理模块,用于若是,则将所述智能网卡确定为故障网卡,并基于所述故障网卡的故障信息进行告警;
迁移模块,用于在接收到响应于所述告警生成的故障处理指令时,将所述故障网卡上运行的目标应用迁移至未发生故障的所述智能网卡。
9.一种云环境下智能网卡硬件卸载的单点故障避免设备,包括:处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述云环境下智能网卡硬件卸载的单点故障避免设备执行权利要求1至7中任一项的云环境下智能网卡硬件卸载的单点故障避免方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的云环境下智能网卡硬件卸载的单点故障避免方法。
CN202310739175.3A 2023-06-20 2023-06-20 一种云环境下智能网卡硬件卸载的单点故障避免方法 Pending CN116566804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310739175.3A CN116566804A (zh) 2023-06-20 2023-06-20 一种云环境下智能网卡硬件卸载的单点故障避免方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310739175.3A CN116566804A (zh) 2023-06-20 2023-06-20 一种云环境下智能网卡硬件卸载的单点故障避免方法

Publications (1)

Publication Number Publication Date
CN116566804A true CN116566804A (zh) 2023-08-08

Family

ID=87488196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310739175.3A Pending CN116566804A (zh) 2023-06-20 2023-06-20 一种云环境下智能网卡硬件卸载的单点故障避免方法

Country Status (1)

Country Link
CN (1) CN116566804A (zh)

Similar Documents

Publication Publication Date Title
US8910172B2 (en) Application resource switchover systems and methods
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
US8910160B1 (en) Handling of virtual machine migration while performing clustering operations
CN104685830A (zh) 故障管理的方法、实体和系统
US10120779B1 (en) Debugging of hosted computer programs
US10860375B1 (en) Singleton coordination in an actor-based system
EP2740255A1 (en) Hardware failure mitigation
CN104424186A (zh) 一种流计算应用中实现持久化的方法及装置
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
US20160364304A1 (en) Providing availability of an agent virtual computing instance during a storage failure
US10417101B2 (en) Fault monitoring device, virtual network system, and fault monitoring method
CN111866210A (zh) 一种虚拟ip均衡分配方法、系统、终端及存储介质
US10805156B2 (en) Discovering and mitigating out-of-sync network parameters
CN103810038A (zh) 一种ha集群中虚拟机存储文件迁移方法及其装置
CN109614242B (zh) 一种计算能力共享方法、装置、设备及介质
CN110795209A (zh) 一种控制方法和装置
CN116566804A (zh) 一种云环境下智能网卡硬件卸载的单点故障避免方法
US9348672B1 (en) Singleton coordination in an actor-based system
CN112286622A (zh) 虚机迁移处理及策略生成方法、装置、设备及存储介质
CN109189615A (zh) 一种宕机处理方法和装置
CN114327973A (zh) 一种区块链故障处理方法、装置及设备
CN114691304A (zh) 实现集群虚拟机高可用的方法和装置、设备和介质
CN114647488A (zh) 一种任务训练方法、装置、设备及存储介质
CN113760459A (zh) 虚拟机故障检测方法、存储介质和虚拟化集群
CN111352710B (zh) 进程管理方法及装置、计算设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination