CN111884866B - 网络优化方法、网络优化系统、计算机系统和存储介质 - Google Patents

网络优化方法、网络优化系统、计算机系统和存储介质 Download PDF

Info

Publication number
CN111884866B
CN111884866B CN202010780436.2A CN202010780436A CN111884866B CN 111884866 B CN111884866 B CN 111884866B CN 202010780436 A CN202010780436 A CN 202010780436A CN 111884866 B CN111884866 B CN 111884866B
Authority
CN
China
Prior art keywords
fault
communication
layer
acquiring
fault parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010780436.2A
Other languages
English (en)
Other versions
CN111884866A (zh
Inventor
邵佳罗
张建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010780436.2A priority Critical patent/CN111884866B/zh
Publication of CN111884866A publication Critical patent/CN111884866A/zh
Application granted granted Critical
Publication of CN111884866B publication Critical patent/CN111884866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种网络优化方法、网络优化系统、计算机系统和计算机可读存储介质可用于信息安全领域或其他领域。其中,该方法包括:获取底层协议层中与通信故障相关的故障参数,其中,故障参数用于统计对应通信故障的出现次数;以及在监控周期内,如果故障参数的计数值达到预先设定的该故障参数的阈值的情况下,将与该故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化。

Description

网络优化方法、网络优化系统、计算机系统和存储介质
技术领域
本公开涉及信息安全、互联网及通信网络技术领域,更具体地,涉及一种网络优化方法、网络优化系统、计算机系统和计算机可读存储介质。
背景技术
随着互联网技术的快速发展,各种类型的通信网络被越来越多地应用于日常生活当中。由于应用环境和需要实现的功能越来越复杂,网络通信过程中不可避免的会发生一些通信故障。
FC(Fibre Channel,光纤通道)协、议自发布以来,以其稳定、低延迟、高效率等特点迅速成为服务器和外置存储间互访使用的主要协议,并主要应用于SAN(存储区域)网络。一些关键应用、虚拟化、数据库、高频交易类业务等均是使用SAN网络的主要场景。几乎所有涉及到高频交易的公司,如证券、航空、银行等均采用SAN网络为基础建立其核心数据处理系统,国内各大银行的数据库、交易系统、数据备份等关键性应用均运行在SAN网络之上。因此,针对SAN网络中的通信故障的优化显然尤为重要。
在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题,SAN网络具备低延迟、高效率的同时,也存在排障困难、环境复杂、传输介质较为脆弱(光纤线缆)等缺点。对于SAN网络中存在的“慢速设备”的硬件介质临界状态没有有效的监控与自愈手段,以及在应用系统明显感知到网络存在异常的情况下,会导致部分应用可靠性降低,然而此时并无较好的手段预防及维护,且故障点难以准确判断,导致针对故障的修复处理时间很长,对业务影响很大。
发明内容
有鉴于此,本公开提供了一种网络优化方法、网络优化系统、计算机系统和存储介质。
本公开的一个方面提供了一种网络优化方法,包括:获取底层协议层中与通信故障相关的故障参数,其中,所述故障参数用于统计对应通信故障的出现次数;以及在监控周期内,如果所述故障参数的计数值达到预先设定的所述故障参数的阈值的情况下,将与所述故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化。
根据本公开的实施例,所述底层协议层包括以下至少之一:物理链路层、编码解码层和传输层。
根据本公开的实施例,所述通信故障包括循环冗余校验位异常、丢帧和链路状态改变。
根据本公开的实施例,在所述通信故障为循环校验位异常的情况下,获取底层协议层中与通信故障相关的故障参数包括:获取传输层的数据帧信息;根据所述传输层的数据帧信息和所述数据帧信息的内部的循环冗余校验位,得到校验结果;以及在所述校验结果不为0的情况下,将针对循环冗余校验位异常的故障参数的计数值加一。
根据本公开的实施例,在所述通信故障为丢帧的情况下,获取底层协议层中与通信故障相关的故障参数包括:获取所述数据帧在缓存区中的等待时间;确定针对所述数据帧的时间等待阈值;以及在所述等待时间超过所述时间等待阈值的情况下,丢弃所述数据帧,并将针对丢帧的故障参数的计数值加一。
根据本公开的实施例,所述通信故障为链路状态改变的情况下,获取底层协议层中与通信故障相关的故障参数包括:获取编码解码层中与控制链路状态相关的控制指令,并针对所述控制指令设置故障参数;以及在所述控制指令被触发操作的情况下,将针对所述控制指令的故障参数的计数值加一。
根据本公开的实施例,该方法还包括:获取在光传输模块中传输的光功率值,并针对所述光功率值设置故障参数,且针对所述光功率值的故障参数具有第一阈值和第二阈值,其中,所述第一阈值小于所述第二阈值;在所述光功率值小于所述第一阈值或大于所述第二阈值的情况下,将针对所述光功率值的故障参数的计数值加一。
本公开的另一个方面提供了一种网络优化系统,包括:获取模块,用于获取底层协议层中与通信故障相关的故障参数,其中,所述故障参数用于统计对应通信故障的出现次数;以及隔离模块,用于在监控周期内,如果所述故障参数的计数值达到预先设定的所述故障参数的阈值的情况下,将与所述故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化。
本公开的另一个方面提供了一种计算机系统,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,通过采用了获取底层协议层中与通信故障相关的故障参数,其中,故障参数用于统计对应通信故障的出现次数;以及在监控周期内,如果故障参数的计数值达到预先设定的故障参数的阈值的情况下,将与故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化的技术手段,由于直接在网络底层协议层上的设置针对各种网络故障类型的监控及监控阈值,所以至少部分地克服了慢速设备或局部硬件异常导致网络故障的技术问题,进而达到了在网络通信出现故障时,可以从网络底层协议层上就及时发现故障点,并在故障传输至应用层层面前即实施隔离,将事后告警升级至事前预防,可有效减少运维工作量,提升工作效率,最大限度地提升总体系统的可用性。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用网络优化方法的示例性系统架构;
图2示意性示出了根据本公开实施例的网络优化方法的流程图;
图3示意性示出了根据本公开实施例的网络优化方法中获取CRC异常类故障的流程图;
图4示意性示出了根据本公开实施例的网络优化方法中获取丢帧类故障的流程图;
图5示意性示出了根据本公开实施例的网络优化方法中获取链路状态改变类故障的流程图;
图6示意性示出了根据本公开实施例的网络优化方法中获取光功率传输类故障的流程图;
图7示意性示出了根据本公开的实施例的网络优化系统的框图;以及
图8示意性示出了根据本公开实施例的适于实现上文描述的网络优化方法的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
SAN网络在国内外大型金融机构有广泛的应用,一般都涉及实时交易结算等关键业务,服务敏感度较高,尤其是应用于企业IT架构上时,对存储访问的稳定性和低延时要求更高。SAN网络中一旦出现慢速设备,即端设备(主机或存储)无法正常快速响应,从而导致数据帧驻留在SAN中过长的时间周期,最终结果往往是短时间内大面积应用受到影响,造成应用性能下降,极端情况下还会造成IO失败。SAN网络承载着数据库等核心应用的重要数据,该网络稳定和高速数据传输是数据中心上层应用稳定运行的重要支撑,因此,对SAN网络进行优化的重要性不言而喻。
在实现本公开构思的过程中,发明人发现在SAN网络中慢速设备迅速爆发的情况下,经常等到故障产生严重生产影响后才能发现,发现后采取人工简单粗暴的网络隔离手段(通过关闭相关级联端口或逐一关闭问题端口)来保证大部分关键性应用的不受影响,前瞻性与时效性较差。
在实现本公开构思的过程中,发明人还发现相比慢速设备引发的全局问题,局部硬件异常引发敏感应用存储访问短暂失效,影响对外客户体验和服务质量的问题也呈上升趋势。SAN网络中较为常见的硬件介质类故障,会造成frame(帧)或其他信令丢失,导致I/O读写失败、应用性能下降等严重问题。
本公开的实施例提供了一种网络优化方法、网络优化系统、计算机系统和计算机可读存储介质。该方法包括获取底层协议层中与通信故障相关的故障参数,其中,该故障参数用于统计对应通信故障的出现次数;以及在监控周期内,如果该故障参数的计数值达到预先设定的该故障参数的阈值的情况下,将与该故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化。
图1示意性示出了根据本公开实施例的可以应用网络优化方法的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括主机101、102、103,交换机104、105、存储阵列106、107和通信链路108。主机101、102、103和交换机104、105之间、以及交换机104、105和存储阵列106、107之间,以及交换机104、105之间通过通信链路108进行连接。通信链路108可以包括各种连接类型,例如有线和/或无线通信链路等等,有线通信链路主要通过光纤电缆实现。
主机101、102、103之间,以及主机101、102、103和存储阵列106、107之间通过通信链路108和交换机104、105实现交互,以实现数据传输,例如包括接收或发送消息等。
需要说明的是,本公开实施例所提供的网络优化方法一般可以由交换机104、105执行。相应地,本公开实施例所提供的网络优化系统一般可以设置于交换机104、105中。本公开实施例所提供的网络优化方法也可以由不同于交换机104、105且能够与主机101、102、103和/或交换机104、105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的网络优化系统也可以设置于不同于交换机104、105且能够与主机101、102、103和/或交换机104、105通信的服务器或服务器集群中。
例如,与通信故障相关的故障参数及控制指令可以原本存储在交换机104、105内置的系统(例如,交换机104内置的系统,但不限于此)之中,或者存储在外部存储设备上并可以导入到交换机104内置的系统中。然后,交换机104可以根据其内置的系统在本地执行本公开实施例所提供的网络优化方法,或者将与通信故障相关的故障参数及控制指令发送到其他终端设备、服务器、或服务器集群,并由接收该故障参数的其他终端设备、服务器、或服务器集群来执行本公开实施例所提供的网络优化方法。
应该理解,图1中的主机、交换机和存储阵列的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目的主机、交换机和存储阵列。且根据实现需要,其中的主机和存储阵列例如还可以替换为其他的终端设备,以及其中的交换机例如还可以是智能网卡、服务器或服务器集群等。
需要说明的是,本公开确定的网络优化方法、网络优化系统、计算机系统和存储介质可用于信息安全领域,也可用于除信息安全领域之外的任意领域,本公开确定的网络优化方法、网络优化系统、计算机系统和存储介质的应用领域不做限定。
图2示意性示出了根据本公开实施例的网络优化方法的流程图。
首先需要说明的是,根据本公开的实施例,主要是基于SAN网络和其中运行的FC协议进行详细说明。
如图2所示,该方法包括操作S210~S220。
在操作S210,获取底层协议层中与通信故障相关的故障参数,其中,故障参数用于统计对应通信故障的出现次数。
根据本公开的实施例,底层协议层可以为FC协议的底层协议层,其中,FC协议是分层的协议,包括:物理链路层、编码解码层、传输层、通用服务层和应用层等,每个协议层都有需要关注和监控的计数值,即上述的与通信故障相关的故障参数的值。
根据本公开的实施例,首先针对底层协议层中可能出现的一些通信故障分别设置可监控对应的故障发生次数的故障参数,以实时监控通信故障的发生及不同的通信故障的发生次数。
在操作S220,在监控周期内,如果故障参数的计数值达到预先设定的该故障参数的阈值的情况下,将与该故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化。
根据本公开的实施例,监控周期为预先设定的一个固定时间段,确定该时间段时采用的策略,不是简单地采用不同厂商设备内置的策略参数,而是在分析了每个策略参数后,结合实际应用要求和/或经过大量测试验证,得到的一个更适用于当前网络环境的最佳策略,以得到一个最优的时间段值。故障参数的阈值为在一个监控周期内同一类通信故障可以发生的最大次数。网络节点例如可以包括具体的网络设备(如交换机)或网络设备内部的其中一条信息传输通道等。
根据本公开的实施例,如果某一类通信故障的发生次数超过该类通信故障的可发生阈值,则判定该通信故障所处的网络节点出现异常,并最终对可以确定的网络设备或信息传输通道实施隔离,使后来的传输信息可以及时绕过故障点实现准确传输,以此达到网络优化的效果。
通过上述具体实施例,由于对底层协议层上的通信故障实施监控,并设置监控阈值,可以通过监控状态及时隔离故障点,改变通信路径,实现网络的自愈优化,从而可以有效减少慢速设备或局部硬件异常对上层应用造成影响,确保SAN网络的和上层应用的高效稳定运行。同时,相对于运维人员,还可有效减少运维工作量,提升工作效率。从而可最大限度地提升总体系统的可用性。
下面参考图3~图6,结合具体实施例对图2所示的方法做进一步说明。
需要事先说明的是,FC协议采用Buffer Credit(缓冲信贷)机制实现流量拥塞控制,即SAN网络中的每个端口都有一个credit值(信贷值,相当于阈值)用来记录本端口可以缓存多少数据包,进来一个数据包credit值减一,发出去一个数据包credit值加一。
需要进一步的说明的是,数据在FC底层协议层上的传输,具体表现为,物理链路层的bit流数据(位数据)传输至编码解码层,首先进行解码得到包含数据帧和一些控制信号的封装数据,然后将封装数据进行解封得到数据帧,并进入传输层中进一步传输,该传输过程包括对数据帧的目的地址进行更换以得到新的数据帧的过程。针对新的数据帧,进行封装并编码后再次回到编码解码层,并最终以bit流的数据形式通过数据链路层传出。其中,数据链路层例如可以包括实现信号传输的光纤电缆,以及可以是交换机的端口和其他物理元器件等。控制信号存在于编码解码层中用于控制物理链路层中数据帧的传输状态,或者实现与外接链路状态相关的控制参数及指令信息等的传输。
根据本公开的实施例,上述的底层协议层主要针对FC协议中的物理链路层、编码解码层和传输层。
根据本公开的实施例,FC底层协议层中可设置监控的故障参数包括以下至少之一:CRC(循环冗余校验位)异常、丢帧、链路状态改变等。
图3示意性示出了根据本公开实施例的网络优化方法中获取CRC异常类故障的流程图。
如图3所示,该方法包括操作S310~S330。
在操作S310,获取传输层的数据帧信息。
在操作S320,根据传输层的数据帧信息和数据帧信息的内部的循环冗余校验位,得到校验结果。
根据本公开的实施例,针对传输层的CRC校验结果设置故障参数,并实施监控,只有在CRC校验结果为0的情况下,才表示对应的数据帧传输无误。
在操作S330,在上述校验结果不为0的情况下,将针对循环冗余校验位异常的故障参数的计数值加一。
根据本公开的实施例,在传输层中出现CRC校验结果时,表明相关的数据帧传输有误,导致数据帧传输出现错误的原因包括但不限于在物理链路层出现ITW(无效字符,指不能被系统识别的字符),或者在编码解码层出现编解码错误,或者该网络节点的物理元器件发生了故障等。无论何种原因引发的该网络节点出现CRC异常类故障,只要针对该故障的故障参数的计数值达到阈值,当即隔离该网络节点,以隔离故障。
图4示意性示出了根据本公开实施例的网络优化方法中获取丢帧类故障的流程图。
如图4所示,该方法包括操作S410~S430。
在操作S410,获取数据帧在缓存区中的等待时间。
在操作S420,确定针对数据帧的时间等待阈值。
根据本公开的实施例,解码后得到的数据帧进入缓存区等待下一步处理,交换机系统或脚本指令针对数据帧在缓存区的等待时间设定最大等待阈值,当等待时间过长时,可能会造成上层应用的卡顿。
在操作S430,在等待时间超过时间等待阈值的情况下,丢弃数据帧,并将针对丢帧的故障参数的计数值加一。
根据本公开的实施例,为了防止上层应用卡顿等问题的发生,当数据帧在缓存区的等待时间达到其等待阈值的情况下,丢弃该数据帧。需要说明的是,引发丢帧的原因,还包括物理元器件故障导致的针对数据帧的控制指令无法正常实施操作,以及因端设备故障、光纤线衰减大、SFP模块(光模块)异常、HBA(主机总线适配器,服务器或工作站总线与光纤通道网络之间的接口)卡异常以及端口传输负载过重导致不能快速响应从而致使网络中出现慢速设备等。无论是硬件层面还是软件层面的原因,只要针对丢帧的故障参数的计数值达到阈值,当即隔离该网络节点,以隔离故障。
图5示意性示出了根据本公开实施例的网络优化方法中获取链路状态改变类故障的流程图。
如图5所示,该方法包括操作S510~S520。
在操作S510,获取编码解码层中与控制链路状态相关的控制指令,并针对该控制指令设置故障参数。
根据本公开的实施例,编码解码层中与控制链路状态相关的控制指令为定义在FC协议层面的指令,例如可以包括IDLE(空闲指令)、R_RDY(接收就序信号)、VC_RDY(虚拟的就序信号)、NOS(无信号)、OLS(离线)、LR(链接重置)、LRR(链接重置响应)和LIP(循环初始化)等。
在操作S520,在该控制指令被触发操作的情况下,将针对该控制指令的故障参数的计数值加一。
根据本公开的实施例,以OLS指令为例,当外接服务器离线(关机)时,服务器网卡会生成一个相关信号发送至交换机,交换机内部的OLS指令被触发操作,以告知网络内的其他交换机或服务器等终端设备该离线服务器的状态和信息,以便后续信息在选择传输路径时不再通过该离线服务器,及时为信息传输提供可用通路。
需要说明的是,针对慢速设备的故障监控可以通过对丢帧类故障和链路状态改变类故障的监控来实现。具体地,如果故障出现在传输R_RDY或者VC_RDY,就会造成buffer丢失,可能导致引起丢包或者链路状态改变,其中,链路状态改变例如可以包括链路重置以及链路翻转等。本实施例以R_RDY信令为例,R_RDY指两个设备进行交互时,首先会进行Credit的确认,如果对方返回R_RDY信号,就表示有空余的Buffer Credit接收数据。如果一台存储由于种种原因无法返回R_RDY信号,那么网络中可能出现了慢速设备。
图6示意性示出了根据本公开实施例的网络优化方法中获取光功率传输类故障的流程图。
如图6所示,该方法包括操作S610~S620。
在操作S610,获取在光传输模块中传输的光功率值,并针对光功率值设置故障参数,且针对光功率值的故障参数具有第一阈值和第二阈值,其中,第一阈值小于第二阈值。
根据本公开的实施例,针对SAN网络内的最难以监控的硬件介质-光纤线缆,利用光纤通道传输的特性,即同一队双股线分为一收一发分别独立,对光传输模块所发送和接受的双向光信号监控(具体体现为对光功率值的监控)来提前预防线缆老化故障。且本实施例中,第一阈值设置为300DB,第二阈值设置为800DB,检测到的光功率如在此范围内,则表示管线线缆仍处可用状态。
在操作S620,在光功率值小于第一阈值或大于第二阈值的情况下,将针对光功率值的故障参数的计数值加一。
根据本公开的实施例,当监测到的光功率值在300DB~800DB范围之外时,产生此种状况的原因包括但不限于光纤线缆老化故障,以及光模块元器件故障等原因。在针对光功率值超范围的故障发生次数超过一预设值的情况下,可通过改变信息传输路径的方式隔离该故障点,或者通过更换光纤线缆或更换光模块的方式排除此类故障。
通过上述具体实施例,由于针对交换机底层故障设置了相应的故障参数,可直接或间接的实现对各种故障类型的监控,例如通过对丢帧或链路状态改变的故障参数实施监控,可同时实现针对由于慢速设备的出现和硬件故障导致的诸如此类的故障问题的监控。由于对各个故障参数实施监控,可直接在故障频发(故障参数的计数值达到阈值)的状况下,自动采取操作隔离端口,对相应的网络节点实施隔离,防止异常设备影响到网络的其余部分,从而实现网络自愈,进而达到网络自动化修复的目的。
根据本公开的实施例,关于上述的网络优化方法,还包括,在进行例如针对丢帧类故障中关于数据帧的超时(系统侧超时)设置时,系统侧超时应小于应用侧超时设置。如果系统侧超时大于应用侧超时,以SCSI超时为例,其超时处理流程包含abort(中断)、lunreset(逻辑单元号复位)、target reset(目标复位)、host reset(主机复位)等操作,每级错误处理一旦失败就会进入下一级错误处理,比如abort失败就会进行lun reset,每级错误处理的影响逐步增大。因此,设置系统侧超时小于应用侧超时理论上可避免应用层交易超时,可进一步提升数据传输效率,并可提升系统运行性能。
根据本公开的实施例,关于上述的网络优化方法,还可通过相关自动化工具实现一定程度的监控自动化,并分析现有硬件介质运行状况,从而主动发现并消除可能会引起慢速设备的产生的因素,并利用日常的运维进行验证确认,通过部署自愈策略快速隔离故障点,通过跟踪各类SAN网络事件,对全网架构范围内的事件、端口、位错误和环境参数进行持续监控,可帮助实现早期故障检测和隔离以及性能测量,确保SAN网络的稳定运行。
需要说明的是,上述实施例仅是针对SAN网络的介绍,而本公开提供的网络优化方法,还可以针对任何具有低延迟和高带宽的网络,例如可以包括RDMA(Remote DirectMemory Access,全称远程直接数据存取)网络等。
图7示意性示出了根据本公开的实施例的网络优化系统的框图。
如图7所示,网络优化系统700包括获取模块710和隔离模块720。
获取模块710,用于获取底层协议层中与通信故障相关的故障参数,其中,故障参数用于统计对应通信故障的出现次数。
隔离模块720,用于在监控周期内,如果故障参数的计数值达到预先设定的故障参数的阈值的情况下,将与故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化。
根据本公开的实施例,通过采用了获取底层协议层中与通信故障相关的故障参数,其中,故障参数用于统计对应通信故障的出现次数;以及在监控周期内,如果故障参数的计数值达到预先设定的故障参数的阈值的情况下,将与故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化的技术手段,由于直接在网络底层协议层上的设置针对各种网络故障类型的监控及监控阈值,所以至少部分地克服了慢速设备或局部硬件异常导致网络故障的技术问题,进而达到了在网络通信出现故障时,可以从网络底层协议层上就及时发现故障点,并在故障传输至应用层层面前即实施隔离,将事后告警升级至事前预防,可有效减少运维工作量,提升工作效率,最大限度地提升总体系统的可用性。
根据本公开的实施例,该网络优化系统还包括协议层子模块。
协议层子模块,用于存储包括括物理链路层、编码解码层和传输层的数据传输信息。
根据本公开的实施例,该网络优化系统还包括存储通信故障的子模块。
存储通信故障的子模块,用于存储的通信故障类型包括循环冗余校验位异常、丢帧和链路状态改变。
根据本公开的实施例,该网络优化系统还包括第一获取单元、校验单元和计数单元。
第一获取单元,用于获取传输层的数据帧信息。
校验单元,用于根据传输层的数据帧信息和数据帧信息的内部的循环冗余校验位,得到校验结果。
第一计数单元,用于在校验结果不为0的情况下,将针对循环冗余校验位异常的故障参数的计数值加一。
根据本公开的实施例,该网络优化系统还包括第二获取单元、确定单元和第二计数单元。
第二获取单元,用于获取数据帧在缓存区中的等待时间。
确定单元,用于确定针对数据帧的时间等待阈值。
第二计数单元,用于在等待时间超过时间等待阈值的情况下,丢弃数据帧,并将针对丢帧的故障参数的计数值加一。
根据本公开的实施例,该网络优化系统还包括第三获取单元和第三计数单元。
第三获取单元,用于获取编码解码层中与控制链路状态相关的控制指令,并针对所述控制指令设置故障参数。
第三计数单元,用于在控制指令被触发操作的情况下,将针对该控制指令的故障参数的计数值加一。
根据本公开的实施例,该网络优化系统还包括第四获取单元和第四计数单元。
第四获取单元,用于获取在光传输模块中传输的光功率值,并针对光功率值设置故障参数,且针对光功率值的故障参数具有第一阈值和第二阈值,其中,第一阈值小于第二阈值。
第四计数单元,用于在光功率值小于第一阈值或大于第二阈值的情况下,将针对光功率值的故障参数的计数值加一。
根据本公开的实施例的模块、子模块、单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块710和隔离模块720中的任意多个可以合并在一个模块/子模块/单元中实现,或者其中的任意一个模块/子模块/单元可以被拆分成多个模块/子模块/单元。或者,这些模块/子模块/单元中的一个或多个模块/子模块/单元的至少部分功能可以与其他模块/子模块/单元的至少部分功能相结合,并在一个模块/子模块/单元中实现。根据本公开的实施例,获取模块710和隔离模块720中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块710和隔离模块720中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中网络优化系统部分与本公开的实施例中网络优化方法部分是相对应的,网络优化系统部分的描述具体参考网络优化方法部分,在此不再赘述。
图8示意性示出了根据本公开实施例的适于实现上文描述的网络优化方法的计算机系统的框图。图8示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算机系统800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机防问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (8)

1.一种网络优化方法,包括:
获取底层协议层中与通信故障相关的故障参数,其中,所述故障参数用于统计对应通信故障的出现次数;所述底层协议层包括物理链路层、编码解码层和传输层;以及
在监控周期内,如果所述故障参数的计数值达到预先设定的所述故障参数的阈值的情况下,将与所述故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化;
其中,当所述底层协议层为光纤通道协议的底层协议层,光纤通道协议采用缓冲信贷机制实现流量拥塞控制时,在所述通信故障为丢帧的情况下,获取底层协议层中与通信故障相关的故障参数包括:
获取数据帧在缓存区中的等待时间;
确定针对所述数据帧的时间等待阈值;以及
在所述等待时间超过所述时间等待阈值的情况下,丢弃所述数据帧,并将针对丢帧的故障参数的计数值加一。
2.根据权利要求1所述的方法,其中,所述通信故障还包括以下至少之一:循环冗余校验位异常和链路状态改变。
3.根据权利要求2所述的方法,其中,在所述通信故障为循环校验位异常的情况下,获取底层协议层中与通信故障相关的故障参数包括:
获取传输层的数据帧信息;
根据所述传输层的数据帧信息和所述数据帧信息的内部的循环冗余校验位,得到校验结果;以及
在所述校验结果不为0的情况下,将针对循环冗余校验位异常的故障参数的计数值加一。
4.根据权利要求2所述的方法,其中,所述通信故障为链路状态改变的情况下,获取底层协议层中与通信故障相关的故障参数包括:
获取编码解码层中与控制链路状态相关的控制指令,并针对所述控制指令设置故障参数;以及
在所述控制指令被触发操作的情况下,将针对所述控制指令的故障参数的计数值加一。
5.根据权利要求1所述的方法,还包括:
获取在光传输模块中传输的光功率值,并针对所述光功率值设置故障参数,且针对所述光功率值的故障参数具有第一阈值和第二阈值,其中,所述第一阈值小于所述第二阈值;
在所述光功率值小于所述第一阈值或大于所述第二阈值的情况下,将针对所述光功率值的故障参数的计数值加一。
6.一种网络优化系统,包括:
获取模块,用于获取底层协议层中与通信故障相关的故障参数,其中,所述故障参数用于统计对应通信故障的出现次数;所述底层协议层包括物理链路层、编码解码层和传输层;以及
隔离模块,用于在监控周期内,如果所述故障参数的计数值达到预先设定的所述故障参数的阈值的情况下,将与所述故障参数对应的通信故障所处的网络节点进行隔离,以实现网络优化;
其中,
当所述底层协议层为光纤通道协议的底层协议层,光纤通道协议采用缓冲信贷机制实现流量拥塞控制时,在所述通信故障为丢帧的情况下,获取底层协议层中与通信故障相关的故障参数包括:
获取数据帧在缓存区中的等待时间;
确定针对所述数据帧的时间等待阈值;以及
在所述等待时间超过所述时间等待阈值的情况下,丢弃所述数据帧,并将针对丢帧的故障参数的计数值加一。
7.一种计算机系统,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。
8.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的方法。
CN202010780436.2A 2020-08-05 2020-08-05 网络优化方法、网络优化系统、计算机系统和存储介质 Active CN111884866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010780436.2A CN111884866B (zh) 2020-08-05 2020-08-05 网络优化方法、网络优化系统、计算机系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010780436.2A CN111884866B (zh) 2020-08-05 2020-08-05 网络优化方法、网络优化系统、计算机系统和存储介质

Publications (2)

Publication Number Publication Date
CN111884866A CN111884866A (zh) 2020-11-03
CN111884866B true CN111884866B (zh) 2022-10-28

Family

ID=73210841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010780436.2A Active CN111884866B (zh) 2020-08-05 2020-08-05 网络优化方法、网络优化系统、计算机系统和存储介质

Country Status (1)

Country Link
CN (1) CN111884866B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532486B (zh) * 2020-11-27 2022-05-06 北京奇艺世纪科技有限公司 网络诊断的方法、电子设备、系统与可读存储介质
CN112332914B (zh) * 2021-01-07 2021-04-06 睿至科技集团有限公司 一种存储网络中光纤链路故障监控方法及系统
CN113031552B (zh) * 2021-03-09 2022-10-25 浙江菲达环保科技股份有限公司 炉后环保设备协同控制方法及系统
US20230078787A1 (en) * 2021-09-16 2023-03-16 International Business Machines Corporation Executing a host initiated link reset in a storage area network

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201966918U (zh) * 2010-12-31 2011-09-07 中国航空工业集团公司第六三一研究所 一种用于光纤通道链路状态的统计电路
CN102281105A (zh) * 2011-08-30 2011-12-14 大唐移动通信设备有限公司 光纤状态检测方法和设备
WO2013097196A1 (zh) * 2011-12-30 2013-07-04 京信通信系统(中国)有限公司 一种传输链路检测方法、装置以及系统
CN107682257A (zh) * 2017-11-21 2018-02-09 凌云天博光电科技股份有限公司 数据传输方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104702968B (zh) * 2015-02-17 2019-06-11 华为技术有限公司 一种视频帧丢帧方法及视频发送装置
CN106034088A (zh) * 2015-03-18 2016-10-19 中兴通讯股份有限公司 一种丢包控制方法及装置
CN106888114B (zh) * 2017-01-24 2019-11-29 北京广利核系统工程有限公司 一种核电站安全级仪控系统通信协议的自诊断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201966918U (zh) * 2010-12-31 2011-09-07 中国航空工业集团公司第六三一研究所 一种用于光纤通道链路状态的统计电路
CN102281105A (zh) * 2011-08-30 2011-12-14 大唐移动通信设备有限公司 光纤状态检测方法和设备
WO2013097196A1 (zh) * 2011-12-30 2013-07-04 京信通信系统(中国)有限公司 一种传输链路检测方法、装置以及系统
CN107682257A (zh) * 2017-11-21 2018-02-09 凌云天博光电科技股份有限公司 数据传输方法和系统

Also Published As

Publication number Publication date
CN111884866A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111884866B (zh) 网络优化方法、网络优化系统、计算机系统和存储介质
US10103851B2 (en) Network link monitoring and testing
US9401760B2 (en) Diagnostic port for inter-switch link testing in electrical, optical and remote loopback modes
US8972622B2 (en) Monitoring network performance and detecting network faults using round trip transmission times
CN102299846B (zh) 一种bfd报文传输方法和设备
CN111600759B (zh) 拓扑结构中死锁故障的定位方法和装置
CN113328885B (zh) 网络健康度评估方法、装置、电子设备、介质和程序产品
US20110141914A1 (en) Systems and Methods for Providing Ethernet Service Circuit Management
CN113162808B (zh) 存储链路故障处理方法及装置、电子设备和存储介质
US20090279439A1 (en) Systems, methods and computer program products for controlling high speed network traffic in server blade environments
Kong et al. Collie: Finding Performance Anomalies in {RDMA} Subsystems
US9019863B2 (en) Ibypass high density device and methods thereof
US10949277B2 (en) Monitoring correctable errors on a bus interface to determine whether to redirect input/output (I/O) traffic from a first processing unit to a second processing unit
US9667476B2 (en) Isolating the sources of faults/potential faults within computing networks
US10423480B2 (en) Guided troubleshooting with autofilters
US8065133B1 (en) Method for testing a storage network including port level data handling
US7619979B2 (en) Fault isolation in a network
US10528437B2 (en) Monitoring correctable errors on a bus interface to determine whether to redirect input/output request (I/O) traffic to another bus interface
US10367722B2 (en) Optimizing performance of computer networks
US20160197994A1 (en) Storage array confirmation of use of a path
US10177968B2 (en) Multipath driver cognitive analysis
CN114244700B (zh) 端口处理方法及装置、电子设备和计算机可读存储介质
US11226879B2 (en) Fencing non-responding ports in a network fabric
CN112436983A (zh) 模拟广域网数据传输方法、装置、电子设备及存储介质
EP2775678B1 (en) Diagnostic port for inter-switch and node link testing in electrical, optical and remote loopback modes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant