CN112968811A - 一种rdma网络的pfc异常处理方法及装置 - Google Patents

一种rdma网络的pfc异常处理方法及装置 Download PDF

Info

Publication number
CN112968811A
CN112968811A CN202110195364.XA CN202110195364A CN112968811A CN 112968811 A CN112968811 A CN 112968811A CN 202110195364 A CN202110195364 A CN 202110195364A CN 112968811 A CN112968811 A CN 112968811A
Authority
CN
China
Prior art keywords
pfc
deadlock
network
abnormal
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110195364.XA
Other languages
English (en)
Inventor
余学山
赵耀
杨飘飘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110195364.XA priority Critical patent/CN112968811A/zh
Publication of CN112968811A publication Critical patent/CN112968811A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种RDMA网络的PFC异常处理方法及装置,方法包括:通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。本发明能够准确区分死锁与PFC异常,及时调整适合的拥塞控制功能,有效缓解流量拥塞和PFC异常,避免运维误操造成网络异常影响扩大。

Description

一种RDMA网络的PFC异常处理方法及装置
技术领域
本发明涉及物联网技术领域,尤其涉及网络数据传输技术领域,具体涉及一种RDMA网络的PFC异常处理方法及装置。
背景技术
随着高性能网络RDMA在业界的普遍应用,我行在延时敏感性和IP密集型业务领域已经开始显露部署RDMA网络的需求。RDMA网络对于丢包异常敏感,十万分之一的丢包就会造成RDMA网络性能的急剧下降,所以RDMA网络的部署离不开PFC流控机制来保障无损网络。但PFC的机制仅仅运行在端口级,简单粗暴的将交换机端口流量全部停止会使其他业务流受害,甚至造成PFC风暴,扩散影响全局网络。
目前PFC异常处理存在的困难与不足:1、PFC是RDMA网络的常用拥塞控制技术,目前我行网络专业对于RDMA和PFC技术不熟悉,运维人员需要熟悉相关技术。2、PFC异常与RDMA死锁的PFC积压现象相似,运维人员容易将PFC异常归类为死锁问题,盲目断开交换机端口破环造成不必要的业务影响。精确分辨死锁和PFC异常再分别对应处理,能够避免错误的处理导致加剧异常对业务的影响。
因此,需要一种正确区分PFC异常和RDMA死锁且能够有效处理PFC异常的处理方法。
发明内容
针对现有技术中的问题,本发明提供一种RDMA网络的PFC异常处理方法及装置,具体包括以下技术方案:
第一方面,本发明提供一种RDMA网络的PFC异常处理方法,包括:
通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;
根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;
发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;
发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
其中,所述根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止,包括:
网管服务器上查看异常网管服务器的PFC信息,筛选出PFC异常的网络设备;
确定PFC异常的设备信息出现死锁,并确定物理端口流量是否逐渐停流,若是则发生死锁,否则为PFC其他异常。
其中,在所述网管服务器上查看异常网管服务器的PFC信息之前,还包括:
通过syslog命令的方式将异常信息传递给网管服务器。
其中,所述发生死锁包括:
确定PFC积压并且物理端口流量停止的设备发生了死锁。
其中,所述确定死锁环路位置,包括:
抓取全网设备数据包传输跳数异常的数据包获取相应的IP,结合网络拓扑形成有向图;
发生死锁的设备位置和有向图,形成死锁的环路拓扑,确定死锁发生位置。
第二方面,本发明提供一种RDMA网络的PFC异常处理装置,包括:
监控单元,用于通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;
异常单元,用于根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;
死锁单元,用于发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;
拥塞单元,用于发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
其中,所述异常单元包括:
网络设备子单元,用于网管服务器上查看异常网管服务器的PFC信息,筛选出PFC异常的网络设备;
异常子单元,用于确定PFC异常的设备信息出现死锁,并确定物理端口流量是否逐渐停流,若是则发生死锁,否则为PFC其他异常。
其中,所述异常单元还包括:
异常信息子单元,用于通过syslog命令的方式将异常信息传递给网管服务器。
其中,所述死锁单元包括:
死锁子单元,用于确定PFC积压并且物理端口流量停止的设备发生了死锁。
其中,所述死锁单元还包括:
有向图子单元,用于抓取全网设备数据包传输跳数异常的数据包获取相应的IP,结合网络拓扑形成有向图;
死锁位置子单元,用于发生死锁的设备位置和有向图,形成死锁的环路拓扑,确定死锁发生位置。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的RDMA网络的PFC异常处理方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的RDMA网络的PFC异常处理方法的步骤。
由上述技术方案可知,本发明提供一种RDMA网络的PFC异常处理方法及装置,通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC,能够准确区分死锁与PFC异常,及时调整适合的拥塞控制功能,有效缓解流量拥塞和PFC异常,避免运维误操造成网络异常影响扩大。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的RDMA网络的PFC异常处理方法的流程示意图。
图2为本发明实施例中的RDMA网络的PFC异常处理装置的结构示意图。
图3为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种RDMA网络的PFC异常处理方法的实施例,参见图1,所述RDMA网络的PFC异常处理方法具体包含有如下内容:
S101:通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;
在本步骤中,通过网络监控的方式发现RDMA(Remote Direct Memory Access)网络设备出现PFC(Priority-based Flow Control)异常。例如:网络设备具备查看PFC数量的功能,存在少量PFC反压帧是正常情况,当PFC反压帧数量明显过多,且PFC积压的端口流量减弱甚至停流这个时候可以判断发生了PFC异常。
S102:根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;
在本步骤中,交换机端口PFC反压帧的数量过大一般以千的数量级可看作形成积压。具体需要结合端口流量是否减弱停止来确定PFC异常。
S103:发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;
S104:发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
在本步骤中,ECN功能指的是显示拥塞通知ECN(Explicit Congestion Noti-fication)。
其中,所述根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止,包括:
网管服务器上查看异常网管服务器的PFC信息,筛选出PFC异常的网络设备;
确定PFC异常的设备信息出现死锁,并确定物理端口流量是否逐渐停流,若是则发生死锁,否则为PFC其他异常。
其中,在所述网管服务器上查看异常网管服务器的PFC信息之前,还包括:
通过syslog命令的方式将异常信息传递给网管服务器。
其中,所述发生死锁包括:
确定PFC积压并且物理端口流量停止的设备发生了死锁。
其中,所述确定死锁环路位置,包括:
抓取全网设备数据包传输跳数异常的数据包获取相应的IP,结合网络拓扑形成有向图;
发生死锁的设备位置和有向图,形成死锁的环路拓扑,确定死锁发生位置。
从上述描述可知,本发明实施例提供的RDMA网络的PFC异常处理方法,通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC,能够准确区分死锁与PFC异常,及时调整适合的拥塞控制功能,有效缓解流量拥塞和PFC异常,避免运维误操造成网络异常影响扩大。
本发明实施例提供一种能够实现所述RDMA网络的PFC异常处理方法中全部内容的RDMA网络的PFC异常处理装置的具体实施方式,参见图2,所述RDMA网络的PFC异常处理装置具体包括如下内容:
监控单元10,用于通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;
异常单元20,用于根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;
死锁单元30,用于发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;
拥塞单元40,用于发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
其中,所述异常单元包括:
网络设备子单元,用于网管服务器上查看异常网管服务器的PFC信息,筛选出PFC异常的网络设备;
异常子单元,用于确定PFC异常的设备信息出现死锁,并确定物理端口流量是否逐渐停流,若是则发生死锁,否则为PFC其他异常。
其中,所述异常单元还包括:
异常信息子单元,用于通过syslog命令的方式将异常信息传递给网管服务器。
其中,所述死锁单元包括:
死锁子单元,用于确定PFC积压并且物理端口流量停止的设备发生了死锁。
其中,所述死锁单元还包括:
有向图子单元,用于抓取全网设备数据包传输跳数异常的数据包获取相应的IP,结合网络拓扑形成有向图;
死锁位置子单元,用于发生死锁的设备位置和有向图,形成死锁的环路拓扑,确定死锁发生位置。
本发明提供的RDMA网络的PFC异常处理装置的实施例具体可以用于执行上述实施例中的RDMA网络的PFC异常处理方法的实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
从上述描述可知,本发明实施例提供的RDMA网络的PFC异常处理装置,通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC,能够准确区分死锁与PFC异常,及时调整适合的拥塞控制功能,有效缓解流量拥塞和PFC异常,避免运维误操造成网络异常影响扩大。
本申请提供一种用于实现所述RDMA网络的PFC异常处理方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述RDMA网络的PFC异常处理方法的实施例及用于实现所述RDMA网络的PFC异常处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图3为本申请实施例的电子设备9600的系统构成的示意框图。如图3所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图3是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,RDMA网络的PFC异常处理功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
从上述描述可知,本申请的实施例提供的电子设备,网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC,能够准确区分死锁与PFC异常,及时调整适合的拥塞控制功能,有效缓解流量拥塞和PFC异常,避免运维误操造成网络异常影响扩大。
在另一个实施方式中,RDMA网络的PFC异常处理装置可以与中央处理器9100分开配置,例如可以将RDMA网络的PFC异常处理配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现RDMA网络的PFC异常处理功能。
如图3所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图3中所示的所有部件;此外,电子设备9600还可以包括图3中没有示出的部件,可以参考现有技术。
如图3所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本发明的实施例还提供能够实现上述实施例中的RDMA网络的PFC异常处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的RDMA网络的PFC异常处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
从上述描述可知,本发明实施例提供的计算机可读存储介质,通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC,能够准确区分死锁与PFC异常,及时调整适合的拥塞控制功能,有效缓解流量拥塞和PFC异常,避免运维误操造成网络异常影响扩大。
虽然本发明提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本发明是参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。本发明并不局限于任何单一的方面,也不局限于任何单一的实施例,也不局限于这些方面和/或实施例的任意组合和/或置换。而且,可以单独使用本发明的每个方面和/或实施例或者与一个或更多其他方面和/或其实施例结合使用。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (12)

1.一种RDMA网络的PFC异常处理方法,其特征在于,包括:
通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;
根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;
发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;
发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
2.根据权利要求1所述的RDMA网络的PFC异常处理方法,其特征在于,所述根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止,包括:
网管服务器上查看异常网管服务器的PFC信息,筛选出PFC异常的网络设备;
确定PFC异常的设备信息出现死锁,并确定物理端口流量是否逐渐停流,若是则发生死锁,否则为PFC其他异常。
3.根据权利要求2所述的RDMA网络的PFC异常处理方法,其特征在于,在所述网管服务器上查看异常网管服务器的PFC信息之前,还包括:
通过syslog命令的方式将异常信息传递给网管服务器。
4.根据权利要求1所述的RDMA网络的PFC异常处理方法,其特征在于,所述发生死锁包括:
确定PFC积压并且物理端口流量停止的设备发生了死锁。
5.根据权利要求1所述的RDMA网络的PFC异常处理方法,其特征在于,所述确定死锁环路位置,包括:
抓取全网设备数据包传输跳数异常的数据包获取相应的IP,结合网络拓扑形成有向图;
发生死锁的设备位置和有向图,形成死锁的环路拓扑,确定死锁发生位置。
6.一种RDMA网络的PFC异常处理装置,其特征在于,包括:
监控单元,用于通过网络监控的方式发现RDMA网络的设备是否出现PFC异常;
异常单元,用于根据网管服务器的日志确定PFC异常的设备,确定PFC异常的设备出现死锁或流量停止;
死锁单元,用于发生死锁则确定死锁环路位置,断开死锁环境任一端口,破除环路解除死锁并切换备用线路端口;
拥塞单元,用于发生流量拥塞则关闭PFC功能并开启ECN功能缓解拥塞,若未发生流量拥塞则只需要关闭PFC。
7.根据权利要求6所述的RDMA网络的PFC异常处理装置,其特征在于,所述异常单元包括:
网络设备子单元,用于网管服务器上查看异常网管服务器的PFC信息,筛选出PFC异常的网络设备;
异常子单元,用于确定PFC异常的设备信息出现死锁,并确定物理端口流量是否逐渐停流,若是则发生死锁,否则为PFC其他异常。
8.根据权利要求7所述的RDMA网络的PFC异常处理装置,其特征在于,所述异常单元还包括:
异常信息子单元,用于通过syslog命令的方式将异常信息传递给网管服务器。
9.根据权利要求6所述的RDMA网络的PFC异常处理装置,其特征在于,所述死锁单元包括:
死锁子单元,用于确定PFC积压并且物理端口流量停止的设备发生了死锁。
10.根据权利要求6所述的RDMA网络的PFC异常处理装置,其特征在于,所述死锁单元还包括:
有向图子单元,用于抓取全网设备数据包传输跳数异常的数据包获取相应的IP,结合网络拓扑形成有向图;
死锁位置子单元,用于发生死锁的设备位置和有向图,形成死锁的环路拓扑,确定死锁发生位置。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的RDMA网络的PFC异常处理方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述的RDMA网络的PFC异常处理方法的步骤。
CN202110195364.XA 2021-02-20 2021-02-20 一种rdma网络的pfc异常处理方法及装置 Pending CN112968811A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110195364.XA CN112968811A (zh) 2021-02-20 2021-02-20 一种rdma网络的pfc异常处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110195364.XA CN112968811A (zh) 2021-02-20 2021-02-20 一种rdma网络的pfc异常处理方法及装置

Publications (1)

Publication Number Publication Date
CN112968811A true CN112968811A (zh) 2021-06-15

Family

ID=76285380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110195364.XA Pending CN112968811A (zh) 2021-02-20 2021-02-20 一种rdma网络的pfc异常处理方法及装置

Country Status (1)

Country Link
CN (1) CN112968811A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114157609A (zh) * 2021-11-30 2022-03-08 迈普通信技术股份有限公司 Pfc死锁检测方法及装置
CN114448896A (zh) * 2022-03-10 2022-05-06 中国工商银行股份有限公司 一种网络优化方法和装置
WO2022247257A1 (zh) * 2021-05-25 2022-12-01 华为技术有限公司 一种pfc风暴的检测和处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130205038A1 (en) * 2012-02-06 2013-08-08 International Business Machines Corporation Lossless socket-based layer 4 transport (reliability) system for a converged ethernet network
CN111600759A (zh) * 2020-05-22 2020-08-28 中国工商银行股份有限公司 拓扑结构中死锁故障的定位方法和装置
CN112054965A (zh) * 2019-06-05 2020-12-08 阿里巴巴集团控股有限公司 一种拥塞控制方法、设备及计算机可读介质
CN112242914A (zh) * 2019-07-18 2021-01-19 华为技术有限公司 网络异常根因定位方法、装置及系统、计算机存储介质
WO2021017364A1 (zh) * 2019-07-26 2021-02-04 京信通信系统(中国)有限公司 一种网络故障诊断方法、装置、网络设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130205038A1 (en) * 2012-02-06 2013-08-08 International Business Machines Corporation Lossless socket-based layer 4 transport (reliability) system for a converged ethernet network
CN112054965A (zh) * 2019-06-05 2020-12-08 阿里巴巴集团控股有限公司 一种拥塞控制方法、设备及计算机可读介质
CN112242914A (zh) * 2019-07-18 2021-01-19 华为技术有限公司 网络异常根因定位方法、装置及系统、计算机存储介质
WO2021017364A1 (zh) * 2019-07-26 2021-02-04 京信通信系统(中国)有限公司 一种网络故障诊断方法、装置、网络设备及存储介质
CN111600759A (zh) * 2020-05-22 2020-08-28 中国工商银行股份有限公司 拓扑结构中死锁故障的定位方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022247257A1 (zh) * 2021-05-25 2022-12-01 华为技术有限公司 一种pfc风暴的检测和处理方法
CN114157609A (zh) * 2021-11-30 2022-03-08 迈普通信技术股份有限公司 Pfc死锁检测方法及装置
CN114157609B (zh) * 2021-11-30 2024-02-23 迈普通信技术股份有限公司 Pfc死锁检测方法及装置
CN114448896A (zh) * 2022-03-10 2022-05-06 中国工商银行股份有限公司 一种网络优化方法和装置
CN114448896B (zh) * 2022-03-10 2024-01-30 中国工商银行股份有限公司 一种网络优化方法和装置

Similar Documents

Publication Publication Date Title
CN112968811A (zh) 一种rdma网络的pfc异常处理方法及装置
US9577917B2 (en) Loop avoidance for event-driven virtual link aggregation
CN112333013B (zh) 自适应组网方法、装置、路由器及存储介质
CN113162788B (zh) 报告信息的发送方法和通信装置以及通信系统
CN111405635B (zh) 能力开放的实现方法、装置、设备及计算机可读存储介质
CN112445533A (zh) 一种复位pcie设备的方法、系统、设备及介质
CN110912985B (zh) 一种网络链路调度方法及相关设备
CN110222519B (zh) 一种可配置通道的数据处理系统及方法
CN113507431B (zh) 一种报文管理方法、装置、设备及机器可读存储介质
CN107872331B (zh) 一种端口设置方法、装置及系统
KR20190041732A (ko) 백업 장치 관리 시스템 및 방법
CN102594696A (zh) 一种管理网络设备链路聚合组的方法及装置
CN105406989A (zh) 处理报文的方法、网卡及系统、更新信息的方法及主机
CN111385167B (zh) 网络连接恢复方法、装置、计算机装置及存储介质
US20230199499A1 (en) Core network node, mec server, external server, communication system, control method, program, and non-transitory recording medium having recorded thereon program
CN114500404A (zh) 通讯报文传输隔离方法及装置
US10897401B2 (en) Determining the importance of network devices based on discovered topology, managed endpoints, and activity
CN114095462A (zh) 一种雷达处理机srio通信系统的容错方法及系统
CN102790814B (zh) 一种媒体接入控制地址确定方法、相关装置及系统
US10574519B2 (en) Detection and configuration of a logical channel
CN112469064A (zh) 一种故障透传方法、装置及电子设备
WO2018220749A1 (ja) 通信装置、通信方法及び通信プログラム
CN105991448B (zh) 一种邻居发现的方法和装置
CN114244770A (zh) 在vrrp场景下破环的方法及应用
CN115065649B (zh) 业务报文转发方式的确定方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210615