CN115118638A

CN115118638A - 一种后端网卡监控方法、装置及介质

Info

Publication number: CN115118638A
Application number: CN202210753323.2A
Authority: CN
Inventors: 赵闪闪
Original assignee: Jinan Inspur Data Technology Co Ltd
Current assignee: Jinan Inspur Data Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-27

Abstract

本申请公开了一种后端网卡监控方法、装置及介质，涉及通信领域，为了提高检测后端网卡节点故障效率，本申请提供的方法通过接收除本节点以外的后端网卡的心跳消息；若接收到当前后端网卡的心跳消息，则将当前后端网卡修改为正常标志，并将当前后端网卡的状态设置为UP；若没有接收到当前后端网卡的心跳消息，则将当前后端网卡的状态设置为DOWN。后端网卡之间通过心跳消息来识别，各节点的后端网卡之间建立TCP连接，通过固定频率相互发送心跳的方式来识别对端网卡的状态，若没有接收到当前后端网卡的心跳消息，则认为后端网卡发生故障，则修改本节点上保存的后端网卡的标志，及时地识别出异常的后端网卡，提高检测效率。

Description

一种后端网卡监控方法、装置及介质

技术领域

本申请涉及通信领域，特别是涉及一种后端网卡监控方法、装置及介质。

背景技术

分布式存储系统是一款面向中高端存储应用需求的存储平台，它具有高可靠性、高可扩展性、高性能等特点。对于分布式存储系统，需要其具备高可用性，也就是当系统出现故障时，可以缩短故障切换的时间，使集群在非正常的状态下，也可以提供正常的存储服务，提高系统的可用性。如果提供全局统一存储空间的节点对外提供标准服务的节点宕机了，则会导致服务终断，影响系统的使用，因此通常分布式集群系统在提供服务时，不使用实际互联网协议地址(Internet Protocol Address，IP地址)提供服务，而是多个节点对外提供一组虚拟IP，通过虚拟IP与真实IP的映射关系提供服务。因此，在提供服务时，如果分布式存储系统集群的主节点宕机不能继续提供服务，虚拟IP会漂移至其他节点，继续提供服务。CTDB可以提供虚拟IP漂移、执行恢复和故障切换、节点监控管理、模块监控等，作为高可用模块已经在分布式存储集群中广泛使用。

CTDB，是Cluster Trivial Database的简称，是一种轻量级的集群数据库实现，是集群信息服务块(Server Messages Block，Samba)的集群数据库组件，主要用于处理Samba的跨节点消息以及在所有集群节点上实现分布式的跟踪数据库(Tracking Database，TDB)。

但是，当后端网卡和CTDB网卡不是同一张网卡时，监控后端网卡是依靠监控(MONITOR)事件定时检测后端网卡状态，如果该网卡状态异常，则认为后端网络故障，进而触发故障恢复、IP重分配流程。当MONITOR事件到来时，会首先进行状态判断，若主节点正在进行选举或数据库恢复过程中，则本次MONITOR事件会被取消，若此时存在后端网卡故障，只能当下次MONITOR事件到来时才能被检测，会存在故障上报延迟的问题，同时发生故障的节点越多，该延迟越严重，在某些对故障恢复时间有要求的场景下，在故障检测上会浪费较多的时间。

由此可见，如何提高检测后端网卡节点故障效率，是本领域人员亟待解决的技术问题。

发明内容

本申请的目的是提供一种提高检测后端网卡节点故障效率的后端网卡监控方法。

为解决上述技术问题，本申请提供一种后端网卡监控方法，应用于分布式存储系统，包括：

为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志；

接收除本节点以外的所述后端网卡的心跳消息；

若接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡修改为所述正常标志，并将当前所述后端网卡的状态设置为UP；

若没有接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡的状态设置为DOWN。

优选地，上述后端网卡监控方法中，若没有接收到当前所述后端网卡的心跳消息，且当前所述后端网卡为正常标志，则还包括：

将当前所述后端网卡修改为所述错误标志，并将当前所述后端网卡的状态设置为DOWN；

进入所述每隔预设时间检测当前所述后端网卡的心跳消息的步骤。

优选地，上述后端网卡监控方法中，所述若没有接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡的状态设置为DOWN之后，还包括：

每隔预设时间检测当前所述后端网卡的心跳消息，直至接收到所述后端网卡的心跳消息。

优选地，上述后端网卡监控方法中，所述为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志，之前，还包括：

判断本节点所述后端网卡的连接状态；

若正常，进入所述为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志的步骤；

若错误，结束。

优选地，上述后端网卡监控方法中，所述判断本节点所述后端网卡的连接状态之前，还包括：

设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。

启动所述分布式存储系统的CTDB高可用功能。

优选地，上述后端网卡监控方法中，若所述后端网卡的状态为UP时，则还包括：

使所述后端网卡参与虚拟IP分配。

为解决上述技术问题，本申请还提供一种后端网卡监控装置，其特征在于，包括：

添加模块，用于为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志；

接收模块，用于接收除本节点以外的所述后端网卡的心跳消息；

正常设置模块，用于若接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡修改为所述正常标志，并将当前所述后端网卡的状态设置为UP；

异常设置模块，用于若没有接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡的状态设置为DOWN。

修改模块，用于将当前所述后端网卡修改为所述错误标志，并将当前所述后端网卡的状态设置为DOWN；

定时接收模块，用于每隔预设时间检测当前所述后端网卡的心跳消息，直至接收到所述后端网卡的心跳消息。

判断模块，用于判断本节点所述后端网卡的连接状态；

若正常，进入添加模块21为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志；

若错误，结束模块，用于结束进程。

预设模块，用于设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。

启动模块，用于启动所述分布式存储系统的CTDB高可用功能。

参与分配模块，用于使所述后端网卡参与虚拟IP分配。

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述后端网卡监控方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述后端网卡监控方法的步骤。

本申请所提供的后端网卡监控方法，应用于分布式存储系统的后端网卡节点，其特征在于，包括：为本节点后端网卡添加正常标志，为除本节点以外的后端网卡添加错误标志；接收除本节点以外的后端网卡的心跳消息；若接收到当前后端网卡的心跳消息，则将当前后端网卡修改为正常标志，并将当前后端网卡的状态设置为UP；若没有接收到当前后端网卡的心跳消息，则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别，各节点的后端网卡之间建立TCP连接，通过固定频率相互发送心跳的方式来识别对端网卡的状态，若心跳消息丢失次数达到预设重复次数，则认为对端节点发生故障，则修改本节点上保存的对端节点的后端网卡的标志，标记异常后端网卡，及时地识别出异常的后端网卡，提高检测效率。

另外，本申请还提供一种后端网卡监控装置及计算机可读存储介质，与上述方法对应，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种后端网卡监控方法的流程图；

图2为本申请实施例提供的一种后端网卡监控装置的示意图；

图3为本申请实施例提供的另一种后端网卡监控装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种后端网卡监控方法。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

在一套分布式存储系统中，包含多个物理节点，共同组成分布式存储集群，对外提供存储服务。传统的网络存储系统采用集中的存储服务器存放所有数据，存储服务器成为系统性能的瓶颈，也是可靠性和安全性的焦点，不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构，利用多台存储服务器分担存储负荷，利用位置服务器定位存储信息，它不但提高了系统的可靠性、可用性和存取效率，还易于扩展。它具有高可靠性、高可扩展性、高性能等特点。对于分布式存储系统，需要其具备高可用性，也就是当系统出现故障时，可以缩短故障切换的时间，使集群在非正常的状态下，也可以提供正常的存储服务，提高系统的可用性。如果提供全局统一存储空间的节点对外提供标准服务的节点宕机了，则会导致服务终断，影响系统的使用，因此通常分布式集群系统在提供服务时，不使用实际互联网协议地址提供服务，而是多个节点对外提供一组虚拟IP，通过虚拟IP与真实IP的映射关系提供服务。

CTDB是一个集群TDB数据库，可以被Samba或者其他的应用使用来存储数据。CTDB有一套虚拟IP机制，可以让集群在某个节点故障后，业务IP从一个节点飘到另外一个节点，业务可自动恢复。

对于网络附属存储服务，存储节点的网络保持通畅是其正常运行的条件之一。因此，现有技术中经常会出现某个存储节点因网络异常而与客户端数据不一致的情况。这具体是因为，当客户端向存储节点进行数据存储请求后，若存储节点仅仅是网络发生故障(电源、网卡等硬件设备均正常)，则该存储节点虽然无法正常运行网络附属存储服务，但仍会存留一些网络附属存储服务的残留进程，并带有一定的缓存数据。如此，当该存储节点的网络恢复后，客户端再次向存储节点发起的数据存储请求，受之前缓存数据的影响，此时将出现该存储节点的数据与客户端请求的数据不一致的情况。

为解决上述技术问题，本申请提供一种后端网卡监控方法，应用于分布式存储系统的后端网卡节点，图1为本申请实施例提供的一种后端网卡监控方法的流程图，如图1所示，包括：

S11：为本节点后端网卡添加正常标志，为除本节点以外的后端网卡添加错误标志；

S12：接收除本节点以外的后端网卡的心跳消息；

S13：若接收到当前后端网卡的心跳消息，则将当前后端网卡修改为正常标志，并将当前后端网卡的状态设置为UP；

S14：若没有接收到当前后端网卡的心跳消息，则将当前后端网卡的状态设置为DOWN。

在本实施例中，后端网卡之间通过传输控制协议(Transmission ControlProtocol，TCP)进行数据传输,本实施例不对后端网卡之间建立TCP连接作具体限定，根据实际需要设计即可。

本实施例以一个后端网卡节点为例，其他后端网卡节点进行同样的步骤。

步骤S11为本节点后端网卡添加正常标志，为除本节点以外的后端网卡添加错误标志；初始化完成后，对每个节点进行遍历；

步骤S11之前，还包括：

判断本节点所述后端网卡的连接状态；

若错误，结束。

即本节点先进行自身的连接状态判断，若状态正常，则进入步骤S11为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志，若本节点异常，则结束进程，不再进行后续的流程，当然，本节点后端网卡每隔预设时间进行一次自身连接状态的判断，以便于状态正常后，及时进行后续进程，提高整体分布式存储系统的资源利用率。

优选的，判断本节点后端网卡的连接状态之前，还包括：

启动分布式存储系统的CTDB高可用功能。

CTDB是一个集群TDB数据库，可以被Samba或者其他的应用使用来存储数据。CTDB有一套虚拟IP机制，可以让集群在某个节点故障后，业务IP从一个节点飘到另外一个节点，业务可自动恢复。CTDB提供一个横跨多个节点的并且数据一致、锁一致的TDB数据库；CTDB非常快速；对于节点故障，CTDB将自动恢复和修复其所管理的所有TDB数据库；CTDB是Samba3/4的一个核心组件；CTDB提供高可用特性，例如节点监控、节点切换、IP切换；CTDB为其多个节点上的应用提供可靠的传输通道；CTDB提供可热拔插的后端传输通道，目前实现了TCP和IB；CTDB可以提供为应用指定特定的管理脚本，使得应用能够实现高可用。

步骤S12接收除本节点以外的后端网卡的心跳消息，根据遍历结果对每个出本节点以外的后端网卡进行标记；

本实施例提到的接收除本节点以外的后端网卡的心跳消息，相应的，每个后端网卡需要向出本节点以外的后端网卡发送心跳消息。

在步骤判断本节点所述后端网卡的连接状态之前，优选地，还包括，设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。

一般的预设周期是两秒，当然也可以是其他时间，只要是能够实现本实施例的目的即可。具体的，所有的节点后端网卡均每隔预设时间间隔向其他节点后端网卡发送固定频率的心跳信息；因此，每个节点后端网卡也均会接收到其他的节点发送的固定频率的心跳信息。连续收到预设重复次数的心跳消息，说明该后端网卡的状态正常。本实施例也不限制预设重复次数，根据实际需要设计即可。

若遍历到的节点后端网卡，正常接收到该后端网卡发送的心跳消息，说明该后端网卡状态正常，步骤S13若接收到当前后端网卡的心跳消息，则将当前后端网卡修改为正常标志，并将当前后端网卡的状态设置为UP，后端网卡状态为UP时，说明此后端网卡状态正常，当需要进行虚拟IP重分配时，此后端网卡参与分配；

若遍历到的节点后端网卡，没有正常接收到该后端网卡发送的心跳消息，说明该后端网卡状态异常，步骤S14若没有接收到当前后端网卡的心跳消息，则将当前后端网卡的状态设置为DOWN。当后端网卡的状态为DOWN时，CTDB就会感知到该网卡的异常状态，在接下来的工作中，不会使异常状态的后端网卡参与虚拟IP的分配。

需要说明的是，本实施例提到的没有接收到后端网卡的心跳消息，指的是连续最大次数都没有收到该后端网卡节点的心跳消息，就认为该节点心跳丢失了，判断为没有接收到后端网卡的心跳消息。

通过本申请实施例提供的后端网卡监控方法，应用于分布式存储系统的后端网卡节点，包括：为本节点后端网卡添加正常标志，为除本节点以外的后端网卡添加错误标志；接收除本节点以外的后端网卡的心跳消息；若接收到当前后端网卡的心跳消息，则将当前后端网卡修改为正常标志，并将当前后端网卡的状态设置为UP；若没有接收到当前后端网卡的心跳消息，则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别，各节点的后端网卡之间建立TCP连接，通过固定频率相互发送心跳的方式来识别对端网卡的状态，若心跳消息丢失次数达到预设重复次数，则认为对端节点发生故障，则修改本节点上保存的对端节点的后端网卡的标志，标记异常后端网卡，及时地识别出异常的后端网卡，提高检测效率。

根据上述实施例，后端网卡可能由于网络故障，或者断电等问题，无法正常发送心跳消息，为了当状态为DOWN的后端网卡恢复正常时，及时地参与工作，提高资源利用率，本实施提高一种优选方案，所述若没有接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡的状态设置为DOWN之后，还包括：

当没有接收到后端网卡的心跳消息时，将当前所述后端网卡的状态设置为DOWN，每隔预设时间检测当前所述后端网卡的心跳消息，直至接收到所述后端网卡的心跳消息，则进入步骤S13，当前所述后端网卡修改为所述正常标志，并将当前所述后端网卡的状态设置为UP，使正常的后端网卡及时地参与工作，提高资源利用率。

根据上述实施例，当本节点后端网卡经历过一次接收除本节点以外的后端网卡的心跳信息后，会对一些后端网卡添加正常标志，当再一次遍历的时候，对已标记为正常标志的后端网卡进行检测，但此时在之前检测中正常的后端网卡此时发生异常，本实施了提供一种优选方案，若没有接收到当前后端网卡的心跳消息，且当前后端网卡为正常标志，则还包括：

将当前后端网卡修改为错误标志，并将当前后端网卡的状态设置为DOWN；

进入每隔预设时间检测当前后端网卡的心跳消息的步骤。

即当标记为正常状态的后端网卡，没有接收到其发送的心跳消息，则说明此后端网卡发生异常，则将当前后端网卡修改为错误标志，并将当前后端网卡的状态设置为DOWN，当后端网卡的状态为DOWN时，CTDB就会感知到该网卡的异常状态，在接下来的工作中，不会使异常状态的后端网卡参与虚拟IP的分配。

当前所述后端网卡的状态设置为DOWN，每隔预设时间检测当前所述后端网卡的心跳消息，直至接收到所述后端网卡的心跳消息，则进入步骤S13，当前所述后端网卡修改为所述正常标志，并将当前所述后端网卡的状态设置为UP，使正常的后端网卡及时地参与工作，提高资源利用率。

为了使本领域技术人员更好的理解本方案，本申请提供一种具体场景的实施例，以3节点集群，心跳检测时间间隔2s,最大重复检测次数4为例，首先获取节点1上后端网卡的状态，若状态为UP，则标记节点1后端网卡为正常标志，若状态为DOWN，则标记节点1后端网卡为错误标志，同时标记节点2和节点3的后端网卡为错误标志；在节点1上对集群所有节点进行遍历，遍历到节点2时，节点2的标志位为错误标志，在每次间隔2s，重复检测4次内收到了节点2的心跳信息，则认为节点2的后端网卡恢复了，将节点1后端网卡的标志位改为正常标志，并将该节点后端网卡状态置为UP。遍历到节点3时，节点3标志位为正常标志，但是每隔2s检测一次心跳，连续4次检测都没有收到心跳信息，则认为节点3心跳丢失，将节点3的标志位修改为错误标志，同时将节点3的后端网卡置为down，并启动定时器，每隔2s检测一次心跳，直到满足节点连接条件，即节点标志位满足为正常标志状态时，停止该定时器。后端网卡之间通过心跳消息来识别，各节点的后端网卡之间建立TCP连接，通过固定频率相互发送心跳的方式来识别对端网卡的状态，若没有接收到当前后端网卡的心跳消息，则认为后端网卡发生故障，则修改本节点上保存的后端网卡的标志，及时地识别出异常的后端网卡，提高检测效率。

在上述实施例中，对于后端网卡监控方法进行了详细描述，本申请还提供后端网卡监控装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件的角度。

图2为本申请实施例提供的一种后端网卡监控装置的示意图，如图2所示，一种后端网卡监控装置，包括：

添加模块21，用于为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志；

接收模块22，用于接收除本节点以外的所述后端网卡的心跳消息；

正常设置模块23，用于若接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡修改为所述正常标志，并将当前所述后端网卡的状态设置为UP；

异常设置模块24，用于若没有接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡的状态设置为DOWN。

具体的，添加模块21为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志；接收模块22接收除本节点以外的所述后端网卡的心跳消息；若接收到当前所述后端网卡的心跳消息，正常设置模块23则将当前所述后端网卡修改为所述正常标志，并将当前所述后端网卡的状态设置为UP；若没有接收到当前所述后端网卡的心跳消息，异常设置模块24则将当前所述后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别，各节点的后端网卡之间建立TCP连接，通过固定频率相互发送心跳的方式来识别对端网卡的状态，若心跳消息丢失次数达到预设重复次数，则认为对端节点发生故障，则修改本节点上保存的对端节点的后端网卡的标志，标记异常后端网卡，及时地识别出异常的后端网卡，提高检测效率。

后端网卡监控装置还包括：

当没有接收到后端网卡的心跳消息时，修改模块将当前所述后端网卡的状态设置为DOWN，每隔预设时间检测当前所述后端网卡的心跳消息，直至接收到所述后端网卡的心跳消息，则正常设置模块，当前所述后端网卡修改为所述正常标志，并将当前所述后端网卡的状态设置为UP，使正常的后端网卡及时地参与工作，提高资源利用率。

判断模块，用于判断本节点所述后端网卡的连接状态；

若正常，触发添加模块21，为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志；

若错误，触发结束模块，用于结束进程。

本节点先进行自身的连接状态判断，若状态正常，则触发添加模块21为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志，若本节点异常，则结束进程，不再进行后续的流程，当然，本节点后端网卡每隔预设时间进行一次自身连接状态的判断，以便于状态正常后，及时进行后续进程，提高整体分布式存储系统的资源利用率。

启动模块，用于启动所述分布式存储系统的CTDB高可用功能。

参与分配模块，用于使所述后端网卡参与虚拟IP分配。

由于装置部分的实施例与方法部分的实施例相互对应，因此装置部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图3为本申请实施例提供的另一种后端网卡监控装置的结构图，如图3所示，后端网卡监控装置包括：存储器30，用于存储计算机程序；

处理器31，用于执行计算机程序时实现如上述实施例后端网卡监控方法获取用户操作习惯信息的方法的步骤。

本实施例提供的后端网卡监控装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器31可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器31可以采用数字信号处理器(Digital Signal Processor，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器31也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器31可以在集成有图像处理器(Graphics Processing Unit，GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器31还可以包括人工智能(Artificial Intelligence，AI)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器30可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器30还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器30至少用于存储以下计算机程序301，其中，该计算机程序被处理器31加载并执行之后，能够实现前述任一实施例公开的后端网卡监控方法的相关步骤。另外，存储器30所存储的资源还可以包括操作系统302和数据303等，存储方式可以是短暂存储或者永久存储。其中，操作系统302可以包括Windows、Unix、Linux等。数据303可以包括但不限于实现后端网卡监控方法所涉及到的数据等。

在一些实施例中，后端网卡监控装置还可包括有显示屏32、输入输出接口33、通信接口34、电源35以及通信总线36。

本领域技术人员可以理解，图3中示出的结构并不构成对后端网卡监控装置的限定，可以包括比图示更多或更少的组件。

本申请实施例提供的后端网卡监控装置，包括存储器和处理器，处理器在执行存储器存储的程序时，能够实现如下方法：后端网卡监控方法，应用于分布式存储系统的后端网卡节点，包括：为本节点后端网卡添加正常标志，为除本节点以外的后端网卡添加错误标志；接收除本节点以外的后端网卡的心跳消息；若接收到当前后端网卡的心跳消息，则将当前后端网卡修改为正常标志，并将当前后端网卡的状态设置为UP；若没有接收到当前后端网卡的心跳消息，则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别，各节点的后端网卡之间建立TCP连接，通过固定频率相互发送心跳的方式来识别对端网卡的状态，若心跳消息丢失次数达到预设重复次数，则认为对端节点发生故障，则修改本节点上保存的对端节点的后端网卡的标志，标记异常后端网卡，及时地识别出异常的后端网卡，提高检测效率。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述后端网卡监控方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的计算机可读存储介质，其上存储有计算机程序，当处理器执行该程序时，可实现以下方法：后端网卡监控方法，应用于分布式存储系统的后端网卡节点，包括：为本节点后端网卡添加正常标志，为除本节点以外的后端网卡添加错误标志；接收除本节点以外的后端网卡的心跳消息；若接收到当前后端网卡的心跳消息，则将当前后端网卡修改为正常标志，并将当前后端网卡的状态设置为UP；若没有接收到当前后端网卡的心跳消息，则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别，各节点的后端网卡之间建立TCP连接，通过固定频率相互发送心跳的方式来识别对端网卡的状态，若心跳消息丢失次数达到预设重复次数，则认为对端节点发生故障，则修改本节点上保存的对端节点的后端网卡的标志，标记异常后端网卡，及时地识别出异常的后端网卡，提高检测效率。

以上对本申请所提供的后端网卡监控方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种后端网卡监控方法，应用于分布式存储系统的后端网卡节点，其特征在于，包括：

接收除本节点以外的所述后端网卡的心跳消息；

2.根据权利要求1所述的后端网卡监控方法，其特征在于，若没有接收到当前所述后端网卡的心跳消息，且当前所述后端网卡为正常标志，则还包括：

每隔预设时间检测当前所述后端网卡的心跳消息。

3.根据权利要求1所述的后端网卡监控方法，其特征在于，所述若没有接收到当前所述后端网卡的心跳消息，则将当前所述后端网卡的状态设置为DOWN之后，还包括：

4.根据权利要求1所述的后端网卡监控方法，其特征在于，所述为本节点后端网卡添加正常标志，为除本节点以外的所述后端网卡添加错误标志，之前，还包括：

判断本节点所述后端网卡的连接状态；

若错误，结束。

5.根据权利要求4所述的后端网卡监控方法，其特征在于，所述判断本节点所述后端网卡的连接状态之前，还包括：

6.根据权利要求4所述的后端网卡监控方法，其特征在于，所述判断本节点所述后端网卡的连接状态之前，还包括：

启动所述分布式存储系统的CTDB高可用功能。

7.根据权利要求6所述的后端网卡监控方法，其特征在于，若所述后端网卡的状态为UP时，则还包括：

使所述后端网卡参与虚拟IP分配。

8.一种后端网卡监控装置，其特征在于，包括：

9.一种后端网卡监控装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的后端网卡监控方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的后端网卡监控方法的步骤。