CN114760317A - 虚拟网关集群的故障检测方法及相关设备 - Google Patents

虚拟网关集群的故障检测方法及相关设备 Download PDF

Info

Publication number
CN114760317A
CN114760317A CN202210269187.XA CN202210269187A CN114760317A CN 114760317 A CN114760317 A CN 114760317A CN 202210269187 A CN202210269187 A CN 202210269187A CN 114760317 A CN114760317 A CN 114760317A
Authority
CN
China
Prior art keywords
virtual gateway
gateway cluster
detection
cluster
virtual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210269187.XA
Other languages
English (en)
Inventor
王灏
张雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210269187.XA priority Critical patent/CN114760317A/zh
Publication of CN114760317A publication Critical patent/CN114760317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种虚拟网关集群的故障检测方法及相关设备,其中,可以发送针对虚拟网关集群的探测指令,探测指令用于指示探测设备基于每个虚拟网关集群中的各个虚拟网关的状态信息和每个虚拟网关集群的连通性测试结果,确定每个虚拟网关集群的探测结果;接收各个探测设备中的目标探测设备反馈的探测结果;对于每个虚拟网关集群,根据第一类探测结果和所述第二类探测结果数量情况,结合所述虚拟网关集群的上一次历史判定结果,判定所述网关集群当前是否发生故障,并发送相应故障隔离或恢复指令;第一类型探测结果为表征发生异常的探测结果;第二类型探测结果为表征未发生异常的探测结果。能够提高故障检测结果的准确性和故障检测功能的鲁棒性。

Description

虚拟网关集群的故障检测方法及相关设备
技术领域
本发明涉及数据处理技术领域,特别涉及一种虚拟网关集群的故障检测方法及相关设备。
背景技术
虚拟网关集群中的虚拟网关是云计算领域中提供数据转发功能的重要组件,其本身可以是真实的服务器或者虚拟计算机系统。用户在云上搭建网络环境时,可以使用不同类型的虚拟网关满足不同场景的通信需求,比如实现云内部、云和云之间、云和互联网之间的通信。
虚拟网关集群使用软件和虚拟化等技术,能够将云上资源通信的数据包在底层物理链路中顺利传输。虚拟网关集群不可用会直接中断各资源之间的通信,影响巨大,因此需要在虚拟网关集群运行过程中的检测其是否发生故障,以在虚拟网关集群发生的故障的情况下,能够快速做出应对措施。
现有技术中,通常采用单个探测设备对虚拟网关集群进行故障检测,且检测使用的指标比较单一,然而,单个探测设备可能由于各种因素中止运行导致探测任务无法进行,针对单一指标的探测结果往往也会因为各种干扰因素的影响而导致不准确。
发明内容
本发明所要解决的技术问题是提供一种虚拟网关集群的故障检测方法,能够提高虚拟网关集群的状态检测结果的准确性。
本发明还提供了一种虚拟网关集群的故障检测装置,用以保证上述方法在实际中的实现及应用。
一种虚拟网关集群的故障检测方法,包括:
响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关;
向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息和每个所述虚拟网关集群的连通性测试结果,确定每个所述虚拟网关集群的探测结果;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常;
接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果;
对于每个所述虚拟网关集群,确定各个所述目标探测设备反馈的针对所述虚拟网关集群的第一类型探测结果和第二类型探测结果;并在第一情况或第二情况下,判定所述虚拟网关集群当前发生故障;所述第一情况包括所述第一类探测结果的数量大于所述第二类探测结果的数量;所述第二情况包括所述第一类探测结果的数量等于所述第二类型探测结果数量,且所述虚拟网关集群的上一次历史判定结果表征为所述虚拟网关集群发生故障;
其中,所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果。
上述的方法,可选的,所述接收各个探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果,包括:
检测是否在预设的超时时长内接收到各个所述探测设备的心跳信息;
将在所述超时时长内接收到的心跳信息所属的探测设备,确定为满足预设的运行条件的目标探测设备;
接收所述目标探测设备反馈的各个虚拟网关集群的探测结果。
上述的方法,可选的,还包括:
在所述第一类型探测结果的数量小于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前未发生故障。
上述的方法,可选的,还包括:
在第一类探测结果的数量等于所述第二类型探测结果数量,且所述上一次历史判定结果为虚拟网关集群未发生故障的情况下,判定所述虚拟网关集群当前未发生故障。
上述的方法,可选的,所述判定所述虚拟网关集群当前未发生故障之后,还包括:
若所述上一次历史判定结果为虚拟网关集群发生故障,则发送针对所述虚拟网关集群的恢复指令,以对所述虚拟网关集群解除隔离。
上述的方法,可选的,所述判定所述虚拟网关集群当前发生故障之后,还包括:
若所述上一次历史判定结果为虚拟网关集群未发生故障,则发送针对所述虚拟网关集群的隔离指令,以对所述虚拟网关集群进行隔离。
一种虚拟网关集群的故障检测装置,包括:
确定单元,用于响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关;
发送单元,用于向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息和每个所述虚拟网关集群的连通性测试结果,确定每个所述虚拟网关集群的探测结果;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常;
接收单元,用于接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果;
判定单元,用于对于每个所述虚拟网关集群,确定各个所述目标探测设备反馈的针对所述虚拟网关集群的第一类型探测结果和第二类型探测结果;并在第一情况或第二情况下,判定所述虚拟网关集群当前发生故障;所述第一情况包括所述第一类探测结果的数量大于所述第二类探测结果的数量;所述第二情况包括所述第一类探测结果的数量等于所述第二类型探测结果数量,且所述虚拟网关集群的上一次历史判定结果表征为所述虚拟网关集群发生故障;
其中,所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果。
上述的装置,可选的,所述接收单元,包括:
检测子单元,用于检测是否在预设的超时时长内接收到各个所述探测设备的心跳信息;
确定子单元,用于将在所述超时时长内接收到的心跳信息所属的探测设备,确定为满足预设的运行条件的目标探测设备;
接收子单元,用于接收所述目标探测设备反馈的各个虚拟网关集群的探测结果。
一种存储介质,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如上述的虚拟网关集群的故障检测方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如上述的虚拟网关集群的故障检测方法。
基于上述本发明实施提供的一种虚拟网关集群的故障检测方法及相关设备,该方法包括:响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关;向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息和每个所述虚拟网关集群的连通性测试结果,确定每个所述虚拟网关集群的探测结果;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常;接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果;对于每个所述虚拟网关集群,确定各个所述目标探测设备反馈的针对所述虚拟网关集群的第一类型探测结果和第二类型探测结果;在所述第一类型探测结果的数量大于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前发生故障;在所述第一类型探测结果的数量小于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前未发生故障;在所述第一类型探测结果的数量等于所述第二类型探测结果的数量的情况下,将所述获取子单元获取的所述虚拟网关集群的上一次历史判定结果作为本次判定所述虚拟网关集群的故障情况;所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果;在所述上一次历史判定结果为虚拟网关未发生故障,且当前判定所述虚拟网关集群故障的情况下,发送针对所述虚拟网关集群的隔离指令,以对所述虚拟网关集群故障隔离;在所述上一次历史判定结果为虚拟网关集群发生故障,且当前判定所述虚拟网关集群未故障的情况下,发送针对所述虚拟网关集群的恢复指令,以对所述虚拟网关集群解除隔离。应用本发明实施例提供的方法,能够采用多个探测设备对虚拟网关集群的状态进行检测,从而根据多个探测结果来判定虚拟网关集群是否发生故障,能够大大的提升故障检测结果的准确性;并且,在部分探测设备出现异常而无法工作的情况下,也能够顺序完成对虚拟网关集群的检测,提高了系统的运行稳定性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种虚拟网关集群的故障检测方法的方法流程图;
图2为本发明提供的一种网络流量的走向示意图;
图3为本发明提供的一种实施场景示例图;
图4为本发明提供的一种虚拟网关的运行状态评估过程的流程图;
图5为本发明提供的一种连通性探测过程的流程图;
图6为本发明提供的一种检测探测设备是否掉线的过程的流程图;
图7为本发明提供的一种隔离故障的虚拟网关集群的过程的流程图;
图8为本发明提供的一种虚拟网关集群的故障检测装置的结构示意图;
图9为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例提供了一种虚拟网关集群的故障检测方法,该方法可以应用于电子设备,该电子设备可以为管理控制设备,所述方法的方法流程图如图1所示,具体包括:
S101:响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关。
在本实施例中,虚拟网关集群中的虚拟网关用于转发数据请求到目标服务器的目标资源,具体的,如图2所示,为本发明实施例提供的一种网络流量的走向示意图,可以由Overlay触发数据请求,由Overlay资源所在服务器将数据请求发往虚拟网关集群中的虚拟网关,由虚拟网关将数据请求转发到目标服务器的目标资源。
S102:向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息和每个所述虚拟网关集群的连通性测试结果,确定每个所述虚拟网关集群的探测结果;虚拟网关的状态信息可以表征虚拟网关是否发生异常;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常。
在本实施例中,可以根据虚拟网关的软件状态、硬件状态以及网络状态确定虚拟网关的状态信息是否表征虚拟网关发生异常;软件状态可以包括CPU使用率、内存使用率、转发进程是否存在和转发进程状态等其中至少一种;硬件状态可以包括CPU温度、风扇转速和硬盘转速等其中至少一种;网络状态可以包括网卡连通性、网关连通性、流量、包量、丢包量、丢包率和端口使用情况等其中至少一种,其中,探测设备可以接收虚拟网关中的运行状态评估程度基于软件状态、硬件状态以及网络状态上报的虚拟网关状态信息;探测设备可以向虚拟网关集群发送探测包,以获得虚拟网关集群的连通性测试结果,连通性测试结果表征虚拟网关集群是否连通,若未连通,则确定虚拟网关集群发生异常。
可选的,虚拟网关的运行状态评估程序可以在软件状态满足预设的软件状态异常条件、硬件状态满足预设的硬件状态异常条件和网络状态满足预设的网络状态异常条件等其中至少一种的情况下,确定虚拟网关的状态信息表征虚拟网关不可用,即发生异常;在虚拟网关的软件状态不满足预设的软件状态异常条件、硬件状态不满足预设的硬件状态异常条件和网络状态不满足预设的网络状态异常条件的情况下,确定虚拟网关可用,即未发生异常;若虚拟网关集群中的至少一个虚拟网关可用,且虚拟网关集群的连通性测试结果表征虚拟网关集群连通,确定虚拟网关集群的探测结果表征虚拟网关集群未发生异常;若虚拟网关集群中的所有虚拟网关均不可用,或者虚拟网关集群的连通性测试结果表征虚拟网关集群不连通,则确定虚拟网关集群的探测结果表征虚拟网关集群发生异常。
S103:接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果。
在本实施例中,运行条件可以是探测设备为未掉线,具体可以根据是否在预设超时时长内探测设备的心跳信息来确定探测设备是否掉线。
S104:对于每个所述虚拟网关集群,并在第一情况或第二情况下,判定所述虚拟网关集群当前发生故障;所述第一情况包括所述第一类探测结果的数量大于所述第二类探测结果的数量;所述第二情况包括所述第一类探测结果的数量等于所述第二类型探测结果数量,且所述虚拟网关集群的上一次历史判定结果表征为所述虚拟网关集群发生故障;
其中,所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果。
在本实施例中,可以将第一类型探测结果的数量与第二类型探测结果的数量进行比较,根据比较结果来判断虚拟网关集群是否发生故障,在第一类型探测结果的数量小于第二类型探测结果的数量的情况下,判定虚拟网关集群当前未发生故障;在第一类型探测结果的数量等于第二类型探测结果的数量的情况下,将获取虚拟网关集群的上一次历史判定结果作为本次虚拟网关集群的故障判定结果。
应用本发明实施例提供的方法,能够采用多个探测设备对虚拟网关集群的状态进行检测,从而根据多个探测结果来判定虚拟网关集群是否发生故障,能够大大的提升故障检测结果的准确性;并且,在部分探测设备出现异常而无法工作的情况下,也能够顺序完成对虚拟网关集群的检测,提高了系统的运行稳定性。
在本发明提供的一实施例中,基于上述的实施过程,可选的,所述接收各个探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果,包括:
检测是否在预设的超时时长内接收到各个所述探测设备的心跳信息;
将在所述超时时长内接收到的心跳信息所属的探测设备,确定为满足预设的运行条件的目标探测设备;
接收所述目标探测设备反馈的各个虚拟网关集群的探测结果。
在本实施例中,探测设备可以按预设的时间间隔向管理控制设备发送心跳信息。若在预设的超时时长内未接收到探测设备发送的心跳信息,则可以确定探测设备已掉线;若在预设的超时时长内接收到探测设备发送的心跳信息,则可以确定探测设备未掉线;将未掉线的探测设备确定为目标探测设备。
在本发明提供的一实施例中,基于上述的实施过程,可选的,还包括:
在所述第一类型探测结果的数量小于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前未发生故障。
在本实施例中,在判定虚拟网关集群当前为未发生故障后,若上一次历史判定结果为虚拟网关集群发生故障,则可以向其他资源所在服务器发送针对虚拟网关集群的恢复指令,使得该服务器将其虚拟路由表中指向该虚拟网关集群的下一跳记录进行恢复。
在本发明提供的一实施例中,基于上述的实施过程,可选的,还包括:
在第一类探测结果的数量等于所述第二类型探测结果数量,且所述上一次历史判定结果为虚拟网关集群未发生故障的情况下,判定所述虚拟网关集群当前未发生故障。
在本实施例中,在第一类型探测结果等于第二类型探测结果的情况下,可以根据上一次历史判定结果来确定,在所述上一次历史判定结果为虚拟网关集群未发生故障的情况下,判定所述虚拟网关集群当前未发生故障。
在本发明提供的一实施例中,基于上述的实施过程,可选的,所述判定所述虚拟网关集群当前未发生故障之后,还包括:
若所述上一次历史判定结果为虚拟网关集群发生故障,则发送针对所述虚拟网关集群的恢复指令,以对所述虚拟网关集群解除隔离。
在本实施例中,在判定虚拟网关集群当前为未发生故障后,若上一次历史判定结果为虚拟网关集群发生故障,则可以向其他资源所在服务器发送针对虚拟网关集群的恢复指令,使得该服务器将其虚拟路由表中指向该虚拟网关集群的下一跳记录进行恢复。
在本发明提供的一实施例中,基于上述的实施过程,可选的,所述判定所述虚拟网关集群当前发生故障之后,还包括:
若所述上一次历史判定结果为虚拟网关集群未发生故障,则发送针对所述虚拟网关集群的隔离指令,以对所述虚拟网关集群进行隔离。
在本实施例中,上一次历史判定结果可以为前一次对虚拟网关集群的判定结果,在判定所述虚拟网关集群当前发生故障后,若上一次历史判定结果为虚拟网关集群未发生故障,则可以向其他资源所在服务器发送针对虚拟网关集群的隔离指令,使得该服务器将其虚拟路由表中指向该虚拟网关集群的下一跳记录删除。
参见图3,为本发明提供的一种实施环境的示例图,该实施环境可以包含管理控制设备和探测设备;探测设备中运行有探测程序及数据库,虚拟网关中具有运行状态评估程序,管理控制设备具有控制程序及数据库。
探测设备的数据库存储虚拟网关可用性、所属集群信息和虚拟网关集群的路由ip等信息,其中,虚拟网关可用性信息和虚拟网关集群信息用于判断是否出现虚拟网关集群整体故障,虚拟网关集群的路由ip用于探测虚拟网关集群的连通性。管理控制设备的数据库存储虚拟网关集群的路由ip信息和可用性信息,还存储了探测设备的掉线信息,其中虚拟网关集群的路由ip信息用于下发指定虚拟网关集群的隔离和恢复指令,虚拟网关集群的可用性信息用于和最新一次的判定结果比对,并确定是否下发指令和下发隔离或恢复指令。
在本实施例中,可以从运行状态和虚拟网关集群的统一路由连通性两个方面判断虚拟网关集群的可用性,当虚拟网关集群内所有虚拟网关均不可用或虚拟网关集群统一路由无法联通时,可以确定该虚拟网关集群不可用,即确定虚拟网关集群发生异常。探测设备可以是位于underlay环境的虚拟机、服务器或其他装置。
在本实施例中,对于虚拟网关的可用性评估,由运行在虚拟网关内部的运行状态评估程序判定,该程序实时将所在虚拟网关的可用性状态上报至探测设备,探测设备根据接收到的信息和虚拟网关的集群分组情况,判断虚拟网关集群的可用性,当探测设备发现某个集群所有虚拟网关均不可用时,则认为该虚拟网关集群不可用。
在本实施例中,运行状态评估程序可以根据虚拟网关自身的硬件、软件和网络状态判断虚拟网关的可用性,如图4所示,为本发明实施例提供的一种虚拟网关的运行状态评估过程的流程图,可以先确定硬件状态、软件状态以网络状态的各项指标,硬件状态包括但不限于:CPU温度、风扇转速、硬盘转速;软件状态包括但不限于:CPU使用率、内存使用率、转发进程是否存在、转发进程状态;网络状态包括但不限于:网卡连通性、网关连通性、流量、包量、丢包量、丢包包率、端口使用情况。可以在运行状态评估程序中预先为上述各指标设定阈值或异常条件,以及将其中的多项指标作为组合指标,组合指标内所有子指标异常时认为组合指标异常,阈值和组合指标设定完成后,运行状态评估程序实时收集各指标数据,当某个单项指标或组合指标异常时,则认为该虚拟网关不可用,否则认为虚拟网关集群可用,并向探测设备上报可用性信息。
在本实施例中,为了增强虚拟网关的转发性能,虚拟网关通常会将自身网卡转换为虚拟网卡并对外发布多个ip,这使虚拟网关集群对外发布的路由也将包含多个ip,所以在探测虚拟网关统一路由的连通性时,需要对集群发布的所有ip进行连通性探测。
如图5所示,为本发明实施例提供的一种连通性探测过程的流程图,运行在探测设备的探测程序针对所有虚拟网关集群发布路由的全部ip进行ping探测,如果集群发布路由的某个ip在探测中没有回包,探测设备会重新向该ip发起ping探测,并记录探测失败次数,当探测失败次数超过设定阈值时,便认为该发布该ip的虚拟网关集群不可用;在探测失败次数未超过设定阈值时,若成功收到该ip的回包,则将该ip的探测失败次数清0,若探测设备在一次探测中能接收到虚拟网关集群发布路由的全部ip回包,则认为虚拟网关集群可用。
在本实施例中,在单台探测设备工作模式下,探测设备判定某个虚拟网关集群不可用后,向管理控制设备上报虚拟网关集群故障信息,其中管理控制设备用于汇总虚拟网关集群不可用信息,并控制虚拟网关集群的隔离和恢复动作。探测设备在执行探测任务过程中,也会存在内部或外部因素导致的不可用情况,为了满足探测功能的高可用性,本发明使用多个探测设备共同对所有虚拟网关资源进行探测,实现冗余。
如图6所示,为本发明实施例提供的一种检测探测设备是否掉线的过程的流程图,可以预先设置心跳包间隔、超时时长和上线恢复时长,探测设备实时向管理控制设备发送心跳包,当管理控制设备一段时间后没有收到从探测设备传送的心跳,则认为探测设备掉线,只会根据未掉线探测设备上报的虚拟网关集群可用性信息判断是否下发隔离或恢复指令;当管理控制设备连续多次接收到由已掉线探测设备发送的心跳包,则认为掉线探测设备已恢复正常,该探测设备上报虚拟网关可用性信息将被正常作为判定下发隔离或恢复指令的依据;极端情况下,当所有探测设备均掉线时,管理控制设备无法收到虚拟网关集群的可用性信息,不会再下发隔离或恢复指令,探测功能失效,集群的故障隔离和恢复需要人工干预。
在本实施例中,当虚拟网关集群内的部分设备出现故障时,可通过当前已有的主备或多活方式完成自动隔离;如图7所示,为本发明实施例提供的一种隔离故障的虚拟网关集群的过程的流程图;当多台虚拟网关出现故障时,探测设备在判定虚拟网关故障后,检查是否存在某个虚拟网关集群整体故障,若不存在,则向管理控制设备上报虚拟网关集群可用;若存在,探测设备向管理控制设备发送虚拟网关集群不可用信息,管理控制设备统计所有非掉线探测设备上报的虚拟网关集群可用性信息,以投票原则将占比更多的可用性信息作为虚拟网关集群可用性的判定结果,若两种可用性结果占比例一致,则将上一次的可用性判定结果作为本次判定结果,然后对比本次和上次判定结果,若两次可用性判定结果一致,不下发任何指令;若本次判定为可用,上次判定为不可用,则下发相关虚拟网关集群的故障恢复指令;若本次判定为不可用,上次判定为可用,则下发相关虚拟网关集群的故障隔离指令。同时,管理控制设备每接收一次虚拟网关集群的可用性信息,完成两次判定结果比对后,将更新的各虚拟网关集群可用性信息。
管理控制设备下发虚拟网关集群隔离指令,即通知其他资源所在服务器,将其虚拟路由表中指向故障虚拟网关集群的下一跳记录删除,流量便不会再发送至故障虚拟网关集群;反之管理控制设备下发虚拟网关集群恢复指令,即通知其他资源所在服务器,将其虚拟路由表中指向故障已恢复虚拟网关集群的下一跳记录恢复,流量便可以正常发送至故障已恢复的虚拟网关集群。
与图1所述的方法相对应,本发明实施例还提供了一种虚拟网关集群的故障检测装置,用于对图1中方法的具体实现,本发明实施例提供的虚拟网关集群的故障检测装置可以应用于电子设备中,其结构示意图如图8所示,具体包括:
确定单元801,用于响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关;
发送单元802,用于向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息和每个所述虚拟网关集群的连通性测试结果,确定每个所述虚拟网关集群的探测结果;所述状态信息包括软件状态、硬件状态以及网络状态;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常;
接收单元803,用于接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果;
判定单元804,用于对于每个所述虚拟网关集群,确定各个所述目标探测设备反馈的针对所述虚拟网关集群的第一类型探测结果和第二类型探测结果;并在第一情况或第二情况下,判定所述虚拟网关集群当前发生故障;所述第一情况包括所述第一类探测结果的数量大于所述第二类探测结果的数量;所述第二情况包括所述第一类探测结果的数量等于所述第二类型探测结果数量,且所述虚拟网关集群的上一次历史判定结果表征为所述虚拟网关集群发生故障;
其中,所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果。
应用本发明实施例提供的装置,能够采用多个探测设备对虚拟网关集群的状态进行检测,从而根据多个探测结果来判定虚拟网关集群是否发生故障,能够大大的提升故障检测结果的准确性;并且,在部分探测设备出现异常而无法工作的情况下,也能够顺序完成对虚拟网关集群的检测,提高了系统的运行稳定性。
在本发明提供的一实施例中,基于上述的方案,可选的,所述接收单元803,包括:
检测子单元,用于检测是否在预设的超时时长内接收到各个所述探测设备的心跳信息;
确定子单元,用于将在所述超时时长内接收到的心跳信息所属的探测设备,确定为满足预设的运行条件的目标探测设备;
接收子单元,用于接收所述目标探测设备反馈的各个虚拟网关集群的探测结果。
在本发明提供的一实施例中,基于上述的方案,可选的,虚拟网关集群的故障检测装置还包括:第一执行单元;
所述第一执行单元,用于在所述第一类型探测结果的数量小于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前未发生故障。
在本发明提供的一实施例中,基于上述的方案,可选的,虚拟网关集群的故障检测装置还包括:第二执行单元;
所述第二执行单元,用于在第一类探测结果的数量等于所述第二类型探测结果数量,且所述上一次历史判定结果为虚拟网关集群未发生故障的情况下,判定所述虚拟网关集群当前未发生故障。
在本发明提供的一实施例中,基于上述的方案,可选的,虚拟网关集群的故障检测装置还包括:第三执行单元;
所述第三执行单元,用于若所述上一次历史判定结果为虚拟网关集群发生故障,则发送针对所述虚拟网关集群的恢复指令,以对所述虚拟网关集群解除隔离。
在本发明提供的一实施例中,基于上述的方案,可选的,虚拟网关集群的故障检测装置还包括:第四执行单元,
所述第四执行单元,用于若所述上一次历史判定结果为虚拟网关集群未发生故障,则发送针对所述虚拟网关集群的隔离指令,以对所述虚拟网关集群进行隔离。
上述本发明实施例公开的虚拟网关集群的故障检测装置中的各个单元和模块具体的原理和执行过程,与上述本发明实施例公开的虚拟网关集群的故障检测方法相同,可参见上述本发明实施例提供的虚拟网关集群的故障检测方法中相应的部分,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述虚拟网关集群的故障检测方法。
本发明实施例还提供了一种电子设备,其结构示意图如图9所示,具体包括存储器901,以及一个或者一个以上的指令902,其中一个或者一个以上指令902存储于存储器901中,且经配置以由一个或者一个以上处理器903执行所述一个或者一个以上指令902进行以下操作:
响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关;
向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息确定每个所述虚拟网关集群的探测结果;所述状态信息包括软件状态、硬件状态、网络状态以及连通性测试结果;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常;
接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果;
对于每个所述虚拟网关集群,确定各个所述目标探测设备反馈的针对所述虚拟网关集群的第一类型探测结果和第二类型探测结果;在所述第一类型探测结果的数量大于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前发生故障;在所述第一类型探测结果的数量小于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前未发生故障;在所述第一类型探测结果的数量等于所述第二类型探测结果的数量的情况下,将所述获取子单元获取的所述虚拟网关集群的上一次历史判定结果作为本次对所述虚拟网关集群的故障判定结果。所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种虚拟网关集群的故障检测方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种虚拟网关集群的故障检测方法,其特征在于,包括:
响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关;
向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息和每个所述虚拟网关集群的连通性测试结果,确定每个所述虚拟网关集群的探测结果;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常;
接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果;
对于每个所述虚拟网关集群,确定各个所述目标探测设备反馈的针对所述虚拟网关集群的第一类型探测结果和第二类型探测结果;并在第一情况或第二情况下,判定所述虚拟网关集群当前发生故障;所述第一情况包括所述第一类探测结果的数量大于所述第二类探测结果的数量;所述第二情况包括所述第一类探测结果的数量等于所述第二类型探测结果数量,且所述虚拟网关集群的上一次历史判定结果表征为所述虚拟网关集群发生故障;
其中,所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果。
2.根据权利要求1所述的方法,其特征在于,所述接收各个探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果,包括:
检测是否在预设的超时时长内接收到各个所述探测设备的心跳信息;
将在所述超时时长内接收到的心跳信息所属的探测设备,确定为满足预设的运行条件的目标探测设备;
接收所述目标探测设备反馈的各个虚拟网关集群的探测结果。
3.根据权利要求1所述的方法,其特征在于,还包括:
在所述第一类型探测结果的数量小于所述第二类型探测结果的数量的情况下,判定所述虚拟网关集群当前未发生故障。
4.根据权利要求1所述的方法,其特征在于,还包括:
在第一类探测结果的数量等于所述第二类型探测结果数量,且所述上一次历史判定结果为虚拟网关集群未发生故障的情况下,判定所述虚拟网关集群当前未发生故障。
5.根据权利要求3或4所述的方法,其特征在于,所述判定所述虚拟网关集群当前未发生故障之后,还包括:
若所述上一次历史判定结果为虚拟网关集群发生故障,则发送针对所述虚拟网关集群的恢复指令,以对所述虚拟网关集群解除隔离。
6.根据权利要求1所述的方法,其特征在于,所述判定所述虚拟网关集群当前发生故障之后,还包括:
若所述上一次历史判定结果为虚拟网关集群未发生故障,则发送针对所述虚拟网关集群的隔离指令,以对所述虚拟网关集群进行隔离。
7.一种虚拟网关集群的故障检测装置,其特征在于,包括:
确定单元,用于响应于状态检测指令,确定待检测的各个虚拟网关集群,每个所述虚拟网关集群包括多个虚拟网关;
发送单元,用于向预设的各个探测设备发送针对各个所述虚拟网关集群的探测指令,所述探测指令用于指示所述探测设备基于每个所述虚拟网关集群中的各个虚拟网关的状态信息和每个所述虚拟网关集群的连通性测试结果,确定每个所述虚拟网关集群的探测结果;每个所述虚拟网关集群的探测结果表征所述虚拟网关集群是否发生异常;
接收单元,用于接收各个所述探测设备中满足预设的运行条件的目标探测设备反馈的各个虚拟网关集群的探测结果;
判定单元,用于对于每个所述虚拟网关集群,确定各个所述目标探测设备反馈的针对所述虚拟网关集群的第一类型探测结果和第二类型探测结果;并在第一情况或第二情况下,判定所述虚拟网关集群当前发生故障;所述第一情况包括所述第一类探测结果的数量大于所述第二类探测结果的数量;所述第二情况包括所述第一类探测结果的数量等于所述第二类型探测结果数量,且所述虚拟网关集群的上一次历史判定结果表征为所述虚拟网关集群发生故障;
其中,所述第一类型探测结果指的是表征所述虚拟网关集群发生异常的探测结果;所述第二类型探测结果指的是表征所述虚拟网关集群未发生异常的探测结果。
8.根据权利要求6所述的装置,其特征在于,所述接收单元,包括:
检测子单元,用于检测是否在预设的超时时长内接收到各个所述探测设备的心跳信息;
确定子单元,用于将在所述超时时长内接收到的心跳信息所属的探测设备,确定为满足预设的运行条件的目标探测设备;
接收子单元,用于接收所述目标探测设备反馈的各个虚拟网关集群的探测结果。
9.一种存储介质,其特征在于,所述存储介质包括存储指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~6任意一项所述的虚拟网关集群的故障检测方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中一个或一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~6任意一项所述的虚拟网关集群的故障检测方法。
CN202210269187.XA 2022-03-18 2022-03-18 虚拟网关集群的故障检测方法及相关设备 Pending CN114760317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210269187.XA CN114760317A (zh) 2022-03-18 2022-03-18 虚拟网关集群的故障检测方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210269187.XA CN114760317A (zh) 2022-03-18 2022-03-18 虚拟网关集群的故障检测方法及相关设备

Publications (1)

Publication Number Publication Date
CN114760317A true CN114760317A (zh) 2022-07-15

Family

ID=82326605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210269187.XA Pending CN114760317A (zh) 2022-03-18 2022-03-18 虚拟网关集群的故障检测方法及相关设备

Country Status (1)

Country Link
CN (1) CN114760317A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280775A1 (en) * 2013-03-15 2014-09-18 Conrad N. Wood Network Stack and Related Techniques
CN106452952A (zh) * 2016-09-29 2017-02-22 华为技术有限公司 一种检测集群系统通信状态的方法及网关集群
CN111371648A (zh) * 2020-03-03 2020-07-03 北京百度网讯科技有限公司 针对虚拟网关集群全局故障的监测方法和装置
US20200310898A1 (en) * 2019-03-27 2020-10-01 Fujitsu Limited Information processing method and information processing apparatus
US20200351328A1 (en) * 2017-11-17 2020-11-05 Beijing Kingsoft Cloud Network Technology Co., Ltd. Data transmission method, device, equipment, and readable storage medium
CN112783792A (zh) * 2021-02-08 2021-05-11 腾讯科技(深圳)有限公司 分布式数据库系统的故障检测方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140280775A1 (en) * 2013-03-15 2014-09-18 Conrad N. Wood Network Stack and Related Techniques
CN106452952A (zh) * 2016-09-29 2017-02-22 华为技术有限公司 一种检测集群系统通信状态的方法及网关集群
US20200351328A1 (en) * 2017-11-17 2020-11-05 Beijing Kingsoft Cloud Network Technology Co., Ltd. Data transmission method, device, equipment, and readable storage medium
US20200310898A1 (en) * 2019-03-27 2020-10-01 Fujitsu Limited Information processing method and information processing apparatus
CN111371648A (zh) * 2020-03-03 2020-07-03 北京百度网讯科技有限公司 针对虚拟网关集群全局故障的监测方法和装置
CN112783792A (zh) * 2021-02-08 2021-05-11 腾讯科技(深圳)有限公司 分布式数据库系统的故障检测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11115263B2 (en) Intra-cluster node troubleshooting method and device
US10601643B2 (en) Troubleshooting method and apparatus using key performance indicator information
CN107544839B (zh) 虚拟机迁移系统、方法及装置
US10075327B2 (en) Automated datacenter network failure mitigation
US6928589B1 (en) Node management in high-availability cluster
US6986076B1 (en) Proactive method for ensuring availability in a clustered system
US7287193B2 (en) Methods, systems, and media to correlate errors associated with a cluster
US20160020965A1 (en) Method and apparatus for dynamic monitoring condition control
US20080288812A1 (en) Cluster system and an error recovery method thereof
WO2015169199A1 (zh) 分布式环境下虚拟机异常恢复方法
EP3232620B1 (en) Data center based fault analysis method and device
CN108429656A (zh) 一种监控物理机网卡连接状态的方法
US20040073648A1 (en) Network calculator system and management device
CN111314443A (zh) 基于分布式存储系统的节点处理方法、装置和设备及介质
CN113055203B (zh) Sdn控制平面的异常恢复方法及装置
CN111309515B (zh) 一种容灾控制方法、装置及系统
CN111104266A (zh) 访问资源的分配方法、装置、存储介质和电子设备
CN114760317A (zh) 虚拟网关集群的故障检测方法及相关设备
CN114328033A (zh) 保持高可用设备组业务配置一致性的方法及装置
JP4968568B2 (ja) 障害監視方法、障害監視システムおよびプログラム
KR101883251B1 (ko) 가상 시스템에서 장애 조치를 판단하는 장치 및 그 방법
JP7474168B2 (ja) 監視システムおよび障害監視方法
CN112328375B (zh) 一种用于跟踪分布式系统的数据片段的关联方法和装置
CN115150253B (zh) 一种故障根因确定方法、装置及电子设备
CN115549751B (zh) 遥感卫星地面站监控系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination