CN115118638A - 一种后端网卡监控方法、装置及介质 - Google Patents

一种后端网卡监控方法、装置及介质 Download PDF

Info

Publication number
CN115118638A
CN115118638A CN202210753323.2A CN202210753323A CN115118638A CN 115118638 A CN115118638 A CN 115118638A CN 202210753323 A CN202210753323 A CN 202210753323A CN 115118638 A CN115118638 A CN 115118638A
Authority
CN
China
Prior art keywords
network card
end network
node
current
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210753323.2A
Other languages
English (en)
Inventor
赵闪闪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Data Technology Co Ltd
Original Assignee
Jinan Inspur Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Data Technology Co Ltd filed Critical Jinan Inspur Data Technology Co Ltd
Priority to CN202210753323.2A priority Critical patent/CN115118638A/zh
Publication of CN115118638A publication Critical patent/CN115118638A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Abstract

本申请公开了一种后端网卡监控方法、装置及介质,涉及通信领域,为了提高检测后端网卡节点故障效率,本申请提供的方法通过接收除本节点以外的后端网卡的心跳消息;若接收到当前后端网卡的心跳消息,则将当前后端网卡修改为正常标志,并将当前后端网卡的状态设置为UP;若没有接收到当前后端网卡的心跳消息,则将当前后端网卡的状态设置为DOWN。后端网卡之间通过心跳消息来识别,各节点的后端网卡之间建立TCP连接,通过固定频率相互发送心跳的方式来识别对端网卡的状态,若没有接收到当前后端网卡的心跳消息,则认为后端网卡发生故障,则修改本节点上保存的后端网卡的标志,及时地识别出异常的后端网卡,提高检测效率。

Description

一种后端网卡监控方法、装置及介质
技术领域
本申请涉及通信领域,特别是涉及一种后端网卡监控方法、装置及介质。
背景技术
分布式存储系统是一款面向中高端存储应用需求的存储平台,它具有高可靠性、高可扩展性、高性能等特点。对于分布式存储系统,需要其具备高可用性,也就是当系统出现故障时,可以缩短故障切换的时间,使集群在非正常的状态下,也可以提供正常的存储服务,提高系统的可用性。如果提供全局统一存储空间的节点对外提供标准服务的节点宕机了,则会导致服务终断,影响系统的使用,因此通常分布式集群系统在提供服务时,不使用实际互联网协议地址(Internet Protocol Address,IP地址)提供服务,而是多个节点对外提供一组虚拟IP,通过虚拟IP与真实IP的映射关系提供服务。因此,在提供服务时,如果分布式存储系统集群的主节点宕机不能继续提供服务,虚拟IP会漂移至其他节点,继续提供服务。CTDB可以提供虚拟IP漂移、执行恢复和故障切换、节点监控管理、模块监控等,作为高可用模块已经在分布式存储集群中广泛使用。
CTDB,是Cluster Trivial Database的简称,是一种轻量级的集群数据库实现,是集群信息服务块(Server Messages Block,Samba)的集群数据库组件,主要用于处理Samba的跨节点消息以及在所有集群节点上实现分布式的跟踪数据库(Tracking Database,TDB)。
但是,当后端网卡和CTDB网卡不是同一张网卡时,监控后端网卡是依靠监控(MONITOR)事件定时检测后端网卡状态,如果该网卡状态异常,则认为后端网络故障,进而触发故障恢复、IP重分配流程。当MONITOR事件到来时,会首先进行状态判断,若主节点正在进行选举或数据库恢复过程中,则本次MONITOR事件会被取消,若此时存在后端网卡故障,只能当下次MONITOR事件到来时才能被检测,会存在故障上报延迟的问题,同时发生故障的节点越多,该延迟越严重,在某些对故障恢复时间有要求的场景下,在故障检测上会浪费较多的时间。
由此可见,如何提高检测后端网卡节点故障效率,是本领域人员亟待解决的技术问题。
发明内容
本申请的目的是提供一种提高检测后端网卡节点故障效率的后端网卡监控方法。
为解决上述技术问题,本申请提供一种后端网卡监控方法,应用于分布式存储系统,包括:
为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;
接收除本节点以外的所述后端网卡的心跳消息;
若接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP;
若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN。
优选地,上述后端网卡监控方法中,若没有接收到当前所述后端网卡的心跳消息,且当前所述后端网卡为正常标志,则还包括:
将当前所述后端网卡修改为所述错误标志,并将当前所述后端网卡的状态设置为DOWN;
进入所述每隔预设时间检测当前所述后端网卡的心跳消息的步骤。
优选地,上述后端网卡监控方法中,所述若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN之后,还包括:
每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息。
优选地,上述后端网卡监控方法中,所述为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志,之前,还包括:
判断本节点所述后端网卡的连接状态;
若正常,进入所述为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志的步骤;
若错误,结束。
优选地,上述后端网卡监控方法中,所述判断本节点所述后端网卡的连接状态之前,还包括:
设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。
优选地,上述后端网卡监控方法中,所述判断本节点所述后端网卡的连接状态之前,还包括:
启动所述分布式存储系统的CTDB高可用功能。
优选地,上述后端网卡监控方法中,若所述后端网卡的状态为UP时,则还包括:
使所述后端网卡参与虚拟IP分配。
为解决上述技术问题,本申请还提供一种后端网卡监控装置,其特征在于,包括:
添加模块,用于为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;
接收模块,用于接收除本节点以外的所述后端网卡的心跳消息;
正常设置模块,用于若接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP;
异常设置模块,用于若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN。
修改模块,用于将当前所述后端网卡修改为所述错误标志,并将当前所述后端网卡的状态设置为DOWN;
定时接收模块,用于每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息。
判断模块,用于判断本节点所述后端网卡的连接状态;
若正常,进入添加模块21为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;
若错误,结束模块,用于结束进程。
预设模块,用于设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。
启动模块,用于启动所述分布式存储系统的CTDB高可用功能。
参与分配模块,用于使所述后端网卡参与虚拟IP分配。
为解决上述技术问题,本申请还提供一种后端网卡监控装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述后端网卡监控方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述后端网卡监控方法的步骤。
本申请所提供的后端网卡监控方法,应用于分布式存储系统的后端网卡节点,其特征在于,包括:为本节点后端网卡添加正常标志,为除本节点以外的后端网卡添加错误标志;接收除本节点以外的后端网卡的心跳消息;若接收到当前后端网卡的心跳消息,则将当前后端网卡修改为正常标志,并将当前后端网卡的状态设置为UP;若没有接收到当前后端网卡的心跳消息,则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别,各节点的后端网卡之间建立TCP连接,通过固定频率相互发送心跳的方式来识别对端网卡的状态,若心跳消息丢失次数达到预设重复次数,则认为对端节点发生故障,则修改本节点上保存的对端节点的后端网卡的标志,标记异常后端网卡,及时地识别出异常的后端网卡,提高检测效率。
另外,本申请还提供一种后端网卡监控装置及计算机可读存储介质,与上述方法对应,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种后端网卡监控方法的流程图;
图2为本申请实施例提供的一种后端网卡监控装置的示意图;
图3为本申请实施例提供的另一种后端网卡监控装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的核心是提供一种后端网卡监控方法。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
在一套分布式存储系统中,包含多个物理节点,共同组成分布式存储集群,对外提供存储服务。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。它具有高可靠性、高可扩展性、高性能等特点。对于分布式存储系统,需要其具备高可用性,也就是当系统出现故障时,可以缩短故障切换的时间,使集群在非正常的状态下,也可以提供正常的存储服务,提高系统的可用性。如果提供全局统一存储空间的节点对外提供标准服务的节点宕机了,则会导致服务终断,影响系统的使用,因此通常分布式集群系统在提供服务时,不使用实际互联网协议地址提供服务,而是多个节点对外提供一组虚拟IP,通过虚拟IP与真实IP的映射关系提供服务。
CTDB是一个集群TDB数据库,可以被Samba或者其他的应用使用来存储数据。CTDB有一套虚拟IP机制,可以让集群在某个节点故障后,业务IP从一个节点飘到另外一个节点,业务可自动恢复。
但是,当后端网卡和CTDB网卡不是同一张网卡时,监控后端网卡是依靠监控(MONITOR)事件定时检测后端网卡状态,如果该网卡状态异常,则认为后端网络故障,进而触发故障恢复、IP重分配流程。当MONITOR事件到来时,会首先进行状态判断,若主节点正在进行选举或数据库恢复过程中,则本次MONITOR事件会被取消,若此时存在后端网卡故障,只能当下次MONITOR事件到来时才能被检测,会存在故障上报延迟的问题,同时发生故障的节点越多,该延迟越严重,在某些对故障恢复时间有要求的场景下,在故障检测上会浪费较多的时间。
对于网络附属存储服务,存储节点的网络保持通畅是其正常运行的条件之一。因此,现有技术中经常会出现某个存储节点因网络异常而与客户端数据不一致的情况。这具体是因为,当客户端向存储节点进行数据存储请求后,若存储节点仅仅是网络发生故障(电源、网卡等硬件设备均正常),则该存储节点虽然无法正常运行网络附属存储服务,但仍会存留一些网络附属存储服务的残留进程,并带有一定的缓存数据。如此,当该存储节点的网络恢复后,客户端再次向存储节点发起的数据存储请求,受之前缓存数据的影响,此时将出现该存储节点的数据与客户端请求的数据不一致的情况。
为解决上述技术问题,本申请提供一种后端网卡监控方法,应用于分布式存储系统的后端网卡节点,图1为本申请实施例提供的一种后端网卡监控方法的流程图,如图1所示,包括:
S11:为本节点后端网卡添加正常标志,为除本节点以外的后端网卡添加错误标志;
S12:接收除本节点以外的后端网卡的心跳消息;
S13:若接收到当前后端网卡的心跳消息,则将当前后端网卡修改为正常标志,并将当前后端网卡的状态设置为UP;
S14:若没有接收到当前后端网卡的心跳消息,则将当前后端网卡的状态设置为DOWN。
在本实施例中,后端网卡之间通过传输控制协议(Transmission ControlProtocol,TCP)进行数据传输,本实施例不对后端网卡之间建立TCP连接作具体限定,根据实际需要设计即可。
本实施例以一个后端网卡节点为例,其他后端网卡节点进行同样的步骤。
步骤S11为本节点后端网卡添加正常标志,为除本节点以外的后端网卡添加错误标志;初始化完成后,对每个节点进行遍历;
步骤S11之前,还包括:
判断本节点所述后端网卡的连接状态;
若正常,进入所述为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志的步骤;
若错误,结束。
即本节点先进行自身的连接状态判断,若状态正常,则进入步骤S11为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志,若本节点异常,则结束进程,不再进行后续的流程,当然,本节点后端网卡每隔预设时间进行一次自身连接状态的判断,以便于状态正常后,及时进行后续进程,提高整体分布式存储系统的资源利用率。
优选的,判断本节点后端网卡的连接状态之前,还包括:
启动分布式存储系统的CTDB高可用功能。
CTDB是一个集群TDB数据库,可以被Samba或者其他的应用使用来存储数据。CTDB有一套虚拟IP机制,可以让集群在某个节点故障后,业务IP从一个节点飘到另外一个节点,业务可自动恢复。CTDB提供一个横跨多个节点的并且数据一致、锁一致的TDB数据库;CTDB非常快速;对于节点故障,CTDB将自动恢复和修复其所管理的所有TDB数据库;CTDB是Samba3/4的一个核心组件;CTDB提供高可用特性,例如节点监控、节点切换、IP切换;CTDB为其多个节点上的应用提供可靠的传输通道;CTDB提供可热拔插的后端传输通道,目前实现了TCP和IB;CTDB可以提供为应用指定特定的管理脚本,使得应用能够实现高可用。
步骤S12接收除本节点以外的后端网卡的心跳消息,根据遍历结果对每个出本节点以外的后端网卡进行标记;
本实施例提到的接收除本节点以外的后端网卡的心跳消息,相应的,每个后端网卡需要向出本节点以外的后端网卡发送心跳消息。
在步骤判断本节点所述后端网卡的连接状态之前,优选地,还包括,设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。
一般的预设周期是两秒,当然也可以是其他时间,只要是能够实现本实施例的目的即可。具体的,所有的节点后端网卡均每隔预设时间间隔向其他节点后端网卡发送固定频率的心跳信息;因此,每个节点后端网卡也均会接收到其他的节点发送的固定频率的心跳信息。连续收到预设重复次数的心跳消息,说明该后端网卡的状态正常。本实施例也不限制预设重复次数,根据实际需要设计即可。
若遍历到的节点后端网卡,正常接收到该后端网卡发送的心跳消息,说明该后端网卡状态正常,步骤S13若接收到当前后端网卡的心跳消息,则将当前后端网卡修改为正常标志,并将当前后端网卡的状态设置为UP,后端网卡状态为UP时,说明此后端网卡状态正常,当需要进行虚拟IP重分配时,此后端网卡参与分配;
若遍历到的节点后端网卡,没有正常接收到该后端网卡发送的心跳消息,说明该后端网卡状态异常,步骤S14若没有接收到当前后端网卡的心跳消息,则将当前后端网卡的状态设置为DOWN。当后端网卡的状态为DOWN时,CTDB就会感知到该网卡的异常状态,在接下来的工作中,不会使异常状态的后端网卡参与虚拟IP的分配。
需要说明的是,本实施例提到的没有接收到后端网卡的心跳消息,指的是连续最大次数都没有收到该后端网卡节点的心跳消息,就认为该节点心跳丢失了,判断为没有接收到后端网卡的心跳消息。
通过本申请实施例提供的后端网卡监控方法,应用于分布式存储系统的后端网卡节点,包括:为本节点后端网卡添加正常标志,为除本节点以外的后端网卡添加错误标志;接收除本节点以外的后端网卡的心跳消息;若接收到当前后端网卡的心跳消息,则将当前后端网卡修改为正常标志,并将当前后端网卡的状态设置为UP;若没有接收到当前后端网卡的心跳消息,则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别,各节点的后端网卡之间建立TCP连接,通过固定频率相互发送心跳的方式来识别对端网卡的状态,若心跳消息丢失次数达到预设重复次数,则认为对端节点发生故障,则修改本节点上保存的对端节点的后端网卡的标志,标记异常后端网卡,及时地识别出异常的后端网卡,提高检测效率。
根据上述实施例,后端网卡可能由于网络故障,或者断电等问题,无法正常发送心跳消息,为了当状态为DOWN的后端网卡恢复正常时,及时地参与工作,提高资源利用率,本实施提高一种优选方案,所述若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN之后,还包括:
每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息。
当没有接收到后端网卡的心跳消息时,将当前所述后端网卡的状态设置为DOWN,每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息,则进入步骤S13,当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP,使正常的后端网卡及时地参与工作,提高资源利用率。
根据上述实施例,当本节点后端网卡经历过一次接收除本节点以外的后端网卡的心跳信息后,会对一些后端网卡添加正常标志,当再一次遍历的时候,对已标记为正常标志的后端网卡进行检测,但此时在之前检测中正常的后端网卡此时发生异常,本实施了提供一种优选方案,若没有接收到当前后端网卡的心跳消息,且当前后端网卡为正常标志,则还包括:
将当前后端网卡修改为错误标志,并将当前后端网卡的状态设置为DOWN;
进入每隔预设时间检测当前后端网卡的心跳消息的步骤。
即当标记为正常状态的后端网卡,没有接收到其发送的心跳消息,则说明此后端网卡发生异常,则将当前后端网卡修改为错误标志,并将当前后端网卡的状态设置为DOWN,当后端网卡的状态为DOWN时,CTDB就会感知到该网卡的异常状态,在接下来的工作中,不会使异常状态的后端网卡参与虚拟IP的分配。
当前所述后端网卡的状态设置为DOWN,每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息,则进入步骤S13,当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP,使正常的后端网卡及时地参与工作,提高资源利用率。
为了使本领域技术人员更好的理解本方案,本申请提供一种具体场景的实施例,以3节点集群,心跳检测时间间隔2s,最大重复检测次数4为例,首先获取节点1上后端网卡的状态,若状态为UP,则标记节点1后端网卡为正常标志,若状态为DOWN,则标记节点1后端网卡为错误标志,同时标记节点2和节点3的后端网卡为错误标志;在节点1上对集群所有节点进行遍历,遍历到节点2时,节点2的标志位为错误标志,在每次间隔2s,重复检测4次内收到了节点2的心跳信息,则认为节点2的后端网卡恢复了,将节点1后端网卡的标志位改为正常标志,并将该节点后端网卡状态置为UP。遍历到节点3时,节点3标志位为正常标志,但是每隔2s检测一次心跳,连续4次检测都没有收到心跳信息,则认为节点3心跳丢失,将节点3的标志位修改为错误标志,同时将节点3的后端网卡置为down,并启动定时器,每隔2s检测一次心跳,直到满足节点连接条件,即节点标志位满足为正常标志状态时,停止该定时器。后端网卡之间通过心跳消息来识别,各节点的后端网卡之间建立TCP连接,通过固定频率相互发送心跳的方式来识别对端网卡的状态,若没有接收到当前后端网卡的心跳消息,则认为后端网卡发生故障,则修改本节点上保存的后端网卡的标志,及时地识别出异常的后端网卡,提高检测效率。
在上述实施例中,对于后端网卡监控方法进行了详细描述,本申请还提供后端网卡监控装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图2为本申请实施例提供的一种后端网卡监控装置的示意图,如图2所示,一种后端网卡监控装置,包括:
添加模块21,用于为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;
接收模块22,用于接收除本节点以外的所述后端网卡的心跳消息;
正常设置模块23,用于若接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP;
异常设置模块24,用于若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN。
具体的,添加模块21为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;接收模块22接收除本节点以外的所述后端网卡的心跳消息;若接收到当前所述后端网卡的心跳消息,正常设置模块23则将当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP;若没有接收到当前所述后端网卡的心跳消息,异常设置模块24则将当前所述后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别,各节点的后端网卡之间建立TCP连接,通过固定频率相互发送心跳的方式来识别对端网卡的状态,若心跳消息丢失次数达到预设重复次数,则认为对端节点发生故障,则修改本节点上保存的对端节点的后端网卡的标志,标记异常后端网卡,及时地识别出异常的后端网卡,提高检测效率。
后端网卡监控装置还包括:
修改模块,用于将当前所述后端网卡修改为所述错误标志,并将当前所述后端网卡的状态设置为DOWN;
定时接收模块,用于每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息。
当没有接收到后端网卡的心跳消息时,修改模块将当前所述后端网卡的状态设置为DOWN,每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息,则正常设置模块,当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP,使正常的后端网卡及时地参与工作,提高资源利用率。
判断模块,用于判断本节点所述后端网卡的连接状态;
若正常,触发添加模块21,为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;
若错误,触发结束模块,用于结束进程。
本节点先进行自身的连接状态判断,若状态正常,则触发添加模块21为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志,若本节点异常,则结束进程,不再进行后续的流程,当然,本节点后端网卡每隔预设时间进行一次自身连接状态的判断,以便于状态正常后,及时进行后续进程,提高整体分布式存储系统的资源利用率。
预设模块,用于设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。
启动模块,用于启动所述分布式存储系统的CTDB高可用功能。
参与分配模块,用于使所述后端网卡参与虚拟IP分配。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图3为本申请实施例提供的另一种后端网卡监控装置的结构图,如图3所示,后端网卡监控装置包括:存储器30,用于存储计算机程序;
处理器31,用于执行计算机程序时实现如上述实施例后端网卡监控方法获取用户操作习惯信息的方法的步骤。
本实施例提供的后端网卡监控装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器31可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器31可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器31也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器31可以在集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器31还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器30可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器30还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器30至少用于存储以下计算机程序301,其中,该计算机程序被处理器31加载并执行之后,能够实现前述任一实施例公开的后端网卡监控方法的相关步骤。另外,存储器30所存储的资源还可以包括操作系统302和数据303等,存储方式可以是短暂存储或者永久存储。其中,操作系统302可以包括Windows、Unix、Linux等。数据303可以包括但不限于实现后端网卡监控方法所涉及到的数据等。
在一些实施例中,后端网卡监控装置还可包括有显示屏32、输入输出接口33、通信接口34、电源35以及通信总线36。
本领域技术人员可以理解,图3中示出的结构并不构成对后端网卡监控装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的后端网卡监控装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:后端网卡监控方法,应用于分布式存储系统的后端网卡节点,包括:为本节点后端网卡添加正常标志,为除本节点以外的后端网卡添加错误标志;接收除本节点以外的后端网卡的心跳消息;若接收到当前后端网卡的心跳消息,则将当前后端网卡修改为正常标志,并将当前后端网卡的状态设置为UP;若没有接收到当前后端网卡的心跳消息,则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别,各节点的后端网卡之间建立TCP连接,通过固定频率相互发送心跳的方式来识别对端网卡的状态,若心跳消息丢失次数达到预设重复次数,则认为对端节点发生故障,则修改本节点上保存的对端节点的后端网卡的标志,标记异常后端网卡,及时地识别出异常的后端网卡,提高检测效率。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述后端网卡监控方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的计算机可读存储介质,其上存储有计算机程序,当处理器执行该程序时,可实现以下方法:后端网卡监控方法,应用于分布式存储系统的后端网卡节点,包括:为本节点后端网卡添加正常标志,为除本节点以外的后端网卡添加错误标志;接收除本节点以外的后端网卡的心跳消息;若接收到当前后端网卡的心跳消息,则将当前后端网卡修改为正常标志,并将当前后端网卡的状态设置为UP;若没有接收到当前后端网卡的心跳消息,则将当前后端网卡的状态设置为DOWN。后端网卡的识别改为通过心跳来识别,各节点的后端网卡之间建立TCP连接,通过固定频率相互发送心跳的方式来识别对端网卡的状态,若心跳消息丢失次数达到预设重复次数,则认为对端节点发生故障,则修改本节点上保存的对端节点的后端网卡的标志,标记异常后端网卡,及时地识别出异常的后端网卡,提高检测效率。
以上对本申请所提供的后端网卡监控方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种后端网卡监控方法,应用于分布式存储系统的后端网卡节点,其特征在于,包括:
为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;
接收除本节点以外的所述后端网卡的心跳消息;
若接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP;
若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN。
2.根据权利要求1所述的后端网卡监控方法,其特征在于,若没有接收到当前所述后端网卡的心跳消息,且当前所述后端网卡为正常标志,则还包括:
将当前所述后端网卡修改为所述错误标志,并将当前所述后端网卡的状态设置为DOWN;
每隔预设时间检测当前所述后端网卡的心跳消息。
3.根据权利要求1所述的后端网卡监控方法,其特征在于,所述若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN之后,还包括:
每隔预设时间检测当前所述后端网卡的心跳消息,直至接收到所述后端网卡的心跳消息。
4.根据权利要求1所述的后端网卡监控方法,其特征在于,所述为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志,之前,还包括:
判断本节点所述后端网卡的连接状态;
若正常,进入所述为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志的步骤;
若错误,结束。
5.根据权利要求4所述的后端网卡监控方法,其特征在于,所述判断本节点所述后端网卡的连接状态之前,还包括:
设置所述后端网卡进行心跳检测的预设时间间隔和预设重复次数。
6.根据权利要求4所述的后端网卡监控方法,其特征在于,所述判断本节点所述后端网卡的连接状态之前,还包括:
启动所述分布式存储系统的CTDB高可用功能。
7.根据权利要求6所述的后端网卡监控方法,其特征在于,若所述后端网卡的状态为UP时,则还包括:
使所述后端网卡参与虚拟IP分配。
8.一种后端网卡监控装置,其特征在于,包括:
添加模块,用于为本节点后端网卡添加正常标志,为除本节点以外的所述后端网卡添加错误标志;
接收模块,用于接收除本节点以外的所述后端网卡的心跳消息;
正常设置模块,用于若接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡修改为所述正常标志,并将当前所述后端网卡的状态设置为UP;
异常设置模块,用于若没有接收到当前所述后端网卡的心跳消息,则将当前所述后端网卡的状态设置为DOWN。
9.一种后端网卡监控装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的后端网卡监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的后端网卡监控方法的步骤。
CN202210753323.2A 2022-06-29 2022-06-29 一种后端网卡监控方法、装置及介质 Pending CN115118638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210753323.2A CN115118638A (zh) 2022-06-29 2022-06-29 一种后端网卡监控方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210753323.2A CN115118638A (zh) 2022-06-29 2022-06-29 一种后端网卡监控方法、装置及介质

Publications (1)

Publication Number Publication Date
CN115118638A true CN115118638A (zh) 2022-09-27

Family

ID=83331222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210753323.2A Pending CN115118638A (zh) 2022-06-29 2022-06-29 一种后端网卡监控方法、装置及介质

Country Status (1)

Country Link
CN (1) CN115118638A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090030618A (ko) * 2007-09-20 2009-03-25 서울통신기술 주식회사 이중화로 구현되는 게이트키퍼 및 그 제어방법
CN102255932A (zh) * 2010-05-20 2011-11-23 百度在线网络技术(北京)有限公司 负载均衡方法和负载均衡器
CN110209470A (zh) * 2019-06-11 2019-09-06 优刻得科技股份有限公司 虚拟机的心跳检测方法、系统、设备和介质
CN110933142A (zh) * 2019-11-07 2020-03-27 浪潮电子信息产业股份有限公司 一种icfs集群网卡监控方法、装置和设备及介质
CN111756573A (zh) * 2020-05-28 2020-10-09 浪潮电子信息产业股份有限公司 分布式集群中的ctdb双网卡故障监测方法及相关设备
CN113595836A (zh) * 2021-09-27 2021-11-02 云宏信息科技股份有限公司 一种高可用集群的心跳检测方法、存储介质和计算节点

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090030618A (ko) * 2007-09-20 2009-03-25 서울통신기술 주식회사 이중화로 구현되는 게이트키퍼 및 그 제어방법
CN102255932A (zh) * 2010-05-20 2011-11-23 百度在线网络技术(北京)有限公司 负载均衡方法和负载均衡器
CN110209470A (zh) * 2019-06-11 2019-09-06 优刻得科技股份有限公司 虚拟机的心跳检测方法、系统、设备和介质
CN110933142A (zh) * 2019-11-07 2020-03-27 浪潮电子信息产业股份有限公司 一种icfs集群网卡监控方法、装置和设备及介质
CN111756573A (zh) * 2020-05-28 2020-10-09 浪潮电子信息产业股份有限公司 分布式集群中的ctdb双网卡故障监测方法及相关设备
CN113595836A (zh) * 2021-09-27 2021-11-02 云宏信息科技股份有限公司 一种高可用集群的心跳检测方法、存储介质和计算节点

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄定卫;李楠;赵建伟;: "基于心跳探测的双网卡冗余技术设计", 计算机与信息技术, no. 04 *

Similar Documents

Publication Publication Date Title
US11397648B2 (en) Virtual machine recovery method and virtual machine management device
CN110795503A (zh) 分布式存储系统的多集群数据同步方法及相关装置
CN107666493B (zh) 一种数据库配置方法及其设备
CN111338773A (zh) 一种分布式定时任务调度方法、调度系统及服务器集群
CN110048896B (zh) 一种集群数据获取方法、装置及设备
CN107656705B (zh) 一种计算机存储介质和一种数据迁移方法、装置及系统
CN106331081B (zh) 一种信息同步方法及装置
CN111865632A (zh) 分布式数据存储集群的切换方法及切换指令发送方法和装置
CN111680015A (zh) 文件资源处理方法、装置、设备和介质
CN110121694B (zh) 一种日志管理方法、服务器和数据库系统
US20180121531A1 (en) Data Updating Method, Device, and Related System
CN111541762A (zh) 数据处理的方法、管理服务器、设备及存储介质
CN109726211B (zh) 一种分布式时序数据库
US20190324663A1 (en) Identifying an availability of a system
US10110502B1 (en) Autonomous host deployment in managed deployment systems
CN111427689A (zh) 集群保活方法、装置及存储介质
US20180309702A1 (en) Method and device for processing data after restart of node
CN116346834A (zh) 一种会话同步方法、装置、计算设备及计算机存储介质
CN115174596A (zh) 一种设备远程复制方法、装置以及介质
CN115118638A (zh) 一种后端网卡监控方法、装置及介质
CN114189429A (zh) 一种服务器集群故障的监测系统、方法、装置及介质
CN112463514A (zh) 分布式缓存集群的监测方法和装置
CN115174447B (zh) 一种网络通信方法、装置、系统、设备及存储介质
CN117395263B (zh) 一种数据同步方法、装置、设备和存储介质
CN114172917B (zh) 一种分布式缓存系统及其部署的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination