CN109245950A - 一种链路失效位置确定的方法以及相关装置 - Google Patents

一种链路失效位置确定的方法以及相关装置 Download PDF

Info

Publication number
CN109245950A
CN109245950A CN201811296123.9A CN201811296123A CN109245950A CN 109245950 A CN109245950 A CN 109245950A CN 201811296123 A CN201811296123 A CN 201811296123A CN 109245950 A CN109245950 A CN 109245950A
Authority
CN
China
Prior art keywords
link
local terminal
management module
main frame
hardware management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811296123.9A
Other languages
English (en)
Other versions
CN109245950B (zh
Inventor
王志浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811296123.9A priority Critical patent/CN109245950B/zh
Publication of CN109245950A publication Critical patent/CN109245950A/zh
Application granted granted Critical
Publication of CN109245950B publication Critical patent/CN109245950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例公开了一种链路失效位置确定的方法,包括:本端硬件管理模块检测本端主机与对端主机的通信连接情况是否异常;当通信连接情况异常时,本端硬件管理模块检测第一链路以及第二链路是否通信连接正常;若第一链路通信连接情况正常,则确定链路失效位置为对端主机与对端网卡模块之间的链路;若检测到第二链路通信连接情况正常,则确定链路失效位置为本端主机与本端网卡模块之间的链路。本申请实施例还公开了一种硬件管理模块。使用硬件管理模块可确定具体的链路失效的位置,提升了多控存储系统或服务器系统整体的可靠性。

Description

一种链路失效位置确定的方法以及相关装置
技术领域
本申请涉及计算机板卡领域,尤其涉及一种失效链路位置确定的方法以及相关装置。
背景技术
目前,多控存储系统或服务器系统中常用网络控制器边带接口技术(networkcontroller sideband interface,NCSI)信号总线连接基板管理控制器(baseboardmanagement controller,BMC)与网络接口卡(network information center,NIC),网络接口卡的端口接收或发送数据。
串行器/解串器(serializer/deserializer,SerDes)互联技术是一种主流的时分多路复用(time division multiplexing,TDM),点对点(peer to peer,P2P)的串行通信技术。即在发送端把多路低速并行信号被转换成高速串行信号,经过传输介质(光缆或铜线),最后在接收端将高速串行信号重新转换成低速并行信号。这种点对点的串行通信技术充分利用传输介质的信道容量,减少所需的传输信道和器件引脚数目,提升信号的传输速度,从而大大降低通信成本。SerDes互联技术越来越多的应用在多控存储系统或服务器系统中,多个主机(host)通过网络接口卡(network information center,NIC)进行多控间的SerDes数据互联是常见的应用方式。
但是,在应用SerDes互联技术的网络拓扑(network topology)中,当链路出现问题时,难以准确定位到具体发生问题的链路位置,降低了多控存储系统或服务器系统整体的可靠性。
发明内容
本申请实施例提供了一种链路失效位置确定的方法以及相关装置,使用硬件管理模块可确定具体的链路失效的位置,提升了多控存储系统或服务器系统整体的可靠性。
有鉴于此,本申请第一方面提供了一种链路失效位置确定的方法,包括:
本端硬件管理模块检测本端主机与对端主机的通信连接情况是否异常;
当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常时,所述本端硬件管理模块检测第一链路以及第二链路是否通信连接正常,其中所述第一链路为连接所述本端硬件管理模块与对端硬件管理模块的链路,所述第二链路为连接所述本端硬件管理模块与对端主机的链路;
若所述本端硬件管理模块检测到所述第一链路通信连接情况正常,则所述本端硬件管理模块确定链路失效位置为所述对端主机与对端网卡模块之间的链路,其中所述本端主机与所述对端主机通过本端网卡模块和所述对端网卡模块建立链路;
若所述本端硬件管理模块检测到所述第二链路通信连接情况正常,则所述本端硬件管理模块确定链路失效位置为所述本端主机与所述本端网卡模块之间的链路。
结合本申请实施例第一方面,在第一方面的第一种可能的实现方式中,所述当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常时,检测第一链路以及第二链路是否通信连接正常之后,所述方法还包括:
若所述本端硬件管理模块检测到所述第一链路与所述第二链路通信连接情况均为异常,则所述本端硬件管理模块确定链路失效位置为所述本端网卡模块与所述对端网卡模块之间的链路。
结合本申请实施例第一方面,在第一方面的第二种可能的实现方式中,所述本端网卡模块与所述对端网卡模块存在第三链路以及第四链路,其中所述第三链路用于所述本端主机与所述对端主机进行通信连接,所述第四链路用于所述本端硬件管理模块与所述对端硬件管理模块进行心跳包通信连接。
结合本申请实施例的第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常之后,所述方法还包括:
所述本端硬件管理模块使用所述第四链路进行所述本端主机与所述对端主机之间的通信连接;
所述本端硬件管理模块使用第五链路进行所述本端硬件管理模块与所述对端硬件管理模块之间的心跳包通信连接,其中所述第五链路为无线通信连接链路。
结合本申请第一方面至第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述方法还包括:
所述本端硬件管理模块输出链路展示指令,所述链路展示指令中携带各个链路的通信连接情况。
本申请第二方面提供了一种硬件管理模块,包括:
检测单元,用于检测本端主机与对端主机的通信连接情况是否异常;
所述检测单元,还用于当所述检测单元检测到本端主机与对端主机的通信连接情况异常时,当所述检测单元检测第一链路以及第二链路是否通信连接正常,其中所述第一链路为连接所述本端硬件管理模块与对端硬件管理模块的链路,所述第二链路为连接所述本端硬件管理模块与对端主机的链路;
确定单元,用于若所述检测单元检测到所述第一链路通信连接情况正常,则所述确定单元确定链路失效位置为所述对端主机与对端网卡模块之间的链路,其中所述本端主机与所述对端主机通过本端网卡模块和所述对端网卡模块建立链路;
所述确定单元,还用于若所述检测单元检测到所述第二链路通信连接情况正常,则所述确定单元确定链路失效位置为所述本端主机与所述本端网卡模块之间的链路。
结合本申请实施例第二方面,在第二方面的第一种可能的实现方式中,包括:
所述确定单元,还用于当所述检测单元检测到本端主机与对端主机的通信连接情况异常时,在检测第一链路以及第二链路是否通信连接正常之后,若所述检测单元检测到所述第一链路与所述第二链路通信连接情况均为异常,则确定链路失效位置为所述本端网卡模块与所述对端网卡模块之间的链路。
结合本申请实施例第二方面,在第二方面的第二种可能的实现方式中,包括:
所述本端网卡模块与所述对端网卡模块存在第三链路以及第四链路,其中所述第三链路用于所述本端主机与所述对端主机进行通信连接,所述第四链路用于所述本端硬件管理模块与所述对端硬件管理模块进行心跳包通信连接。
结合本申请实施例的第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,包括:
所述使用单元,用于当所述检测单元检测到本端主机与对端主机的通信连接情况异常之后,使用所述第四链路进行所述本端主机与所述对端主机之间的通信连接;
使用第五链路进行所述本端硬件管理模块与所述对端硬件管理模块之间的心跳包通信连接,其中所述第五链路为无线通信连接链路。
结合本申请第二方面至第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,包括:
所述输出单元,用于当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常之后,输出链路展示指令,所述链路展示指令中携带各个链路的通信连接情况。
从以上技术方案可以看出,本申请实施例具有以下优点:
通过上述方法,使用硬件管理模块可确定具体的链路失效的位置,提升了多控存储系统或服务器系统整体的可靠性。
附图说明
图1为本申请实施例中网络拓扑结构示意图;
图2为本申请实施例中链路失效位置确定的方法的一个实施例示意图;
图3为本申请实施例中硬件管理模块的一个实施例示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。本申请中所出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
本申请实施例提供了一种链路失效位置确定的方法以及相关装置,使用硬件管理模块可确定具体的链路失效的位置,提升了多控存储系统或服务器系统整体的可靠性。
随着网络技术的发展,SerDes互联技术越来越多的应用在多控存储系统或者服务器系统中。多个主机(host)通过网络接口卡进行多控间的SerDes数据互联是常见的应用方式。
应用SerDes互联技术的系统通常包含发送机(transmitter,TX)、接收机(receiver,RX)和传输通道(channel)三个部分。其中,发送机负责将并行的多路信号串化为单路信号,并将信号送入传输通道。接收机则负责接收串行信号,并将其解串化为多路信号。
但是,在应用SerDes互联技术的网络拓扑中,当链路出现问题时,难以准确定位到具体发生问题的链路位置,降低了多控存储系统或服务器系统整体的可靠性。
为了便于理解,请参阅图1,图1为本申请实施例中网络拓扑结构示意图:
如图1所示,本申请主要应用于多控存储系统或者服务器系统中,该多控存储系统或者服务器系统可运行于如下软件环境中如:Windows系统中的HPFS文件系统,Mac系统中的HFS、HFS+文件系统,Linux系统中的ResiserFS、XFS、Ext3FS以及JFS文件系统,数据库中的ORACLE,MYSQL以及SQLSERVER等。
以服务器系统为例,服务器系统中包含有本端服务器以及对端服务器,其中,本端服务器可以为一个服务器或由多个服务器组合的服务器集群,本端服务器中包含有本端主机、本端硬件管理模块、本端网卡模块、本端指示模块、本端串口模块以及本端无线模块。其中,本端硬件管理模块可以为嵌入式微处理器(micro processor unit,MPU),例如BMC芯片等,通过管理数据输入输出(management data input/output,MDIO)与本端网卡模块相连,本端主机可以为本端服务器中的中央处理器,与本端网卡模块相连,本端硬件管理模块还与本端指示模块相连,本端指示模块以及本端串口模块用于根据本端硬件管理模块的指令指示服务器系统中各个链路的通信连接情况,本端串口模块还用于连接本端硬件管理模块与本端无线模块,本端无线模块用于连接本端硬件管理模块与外界可接收本端硬件管理模块数据的相关装置,包括有对端的无线管理模块,本端网卡模块与对端网卡模块通过背板互联,本端网卡模块与对端网卡模块之间至少存在两条链路,对端服务器中包含的模块、模块的用途以及模块间的连接关系与本端服务器类似,此处不再赘述。
下面对本申请中链路失效位置确定的方法进行描述,请参阅图2,图2为本申请实施例中链路失效位置确定的方法的一个实施例示意图,包括:
101、本端硬件管理模块检测本端主机与对端主机的通信连接情况是否异常;
本实施例中,本端硬件管理模块位于本端服务器中,本端硬件管理模块独立于本端主机之外,并先于本端主机启动,当本端硬件管理模块先于本端主机启动之后,检测本端网卡模块与对端网卡模块之间的两路SerDes通道处于可以正常连接状态,并检测本端主机与对端主机之间通过本端网卡模块与对端网卡模块建立的通信连接情况是否异常,检测的方法包括:通过MDIO端口等检测本端网卡模块的与对端网卡模块之间的链路是否处于链路中断(link down)状态或检测本端网卡模块的与对端网卡模块之间的链路的数据传输速率,若该数据传输速率在一定时间段内低于一定的阈值如:在20秒内数据传输速率低于0.5千字节每秒时,可判断当前链路处于链路中断状态,本端主机与对端主机的通信连接情况处于异常状态。
102、本端硬件管理模块检测第一链路以及第二链路是否通信连接正常;
本实施例中,当本端硬件管理模块检测到本端主机与对端主机的通信连接情况处于异常状态时,本端硬件管理模块检测第一链路以及第二链路是否通信连接正常,其中第一链路为连接本端硬件管理模块与对端硬件管理模块的链路(NCSI-SerDes channel-NCSI),第二链路为连接本端硬件管理模块与对端主机的链路(NCSI-SerDes channel-HOST)。对第一链路的检测方法包括:本端硬件管理模块向对端硬件管理模块发送一个回复包(echopackage),在本端硬件管理模块发送该echo包之后,若能接收到对端硬件管理模块回复的echo包,则可判断当前第一链路处于通信连接正常的状态。对第二链路的检测方法类似对第一链路的检测方法,此处不再赘述。当检测到第一链路的通信情况正常时,进入步骤103;当检测到第二链路的通信情况正常时,进入步骤104。
103、若检测到第一链路通信连接情况正常,则本端硬件管理模块确定链路失效位置为对端主机与对端网卡模块之间的链路;
本实施例中,当本端硬件管理模块检测到第一链路通信连接情况正常时,由于第一链路为连接本端硬件管理模块与对端硬件管理模块的链路,该第一链路中,本端硬件管理模块通过本端网卡模块连接对端网卡模块,对端网卡模块与对端硬件管理模块相连,通过本端网卡模块以及对端网卡模块的协助,完成本端硬件管理模块与对端硬件管理模块的连接。本端主机与对端主机通过本端网卡模块连接对端网卡模块,对端网卡模块与对端主机相连,当第一链路连接正常时,可确定链路失效位置为对端主机与对端网卡模块之间的链路。
104、若检测到第二链路通信连接情况正常,则本端硬件管理模块确定链路失效位置为本端主机与本端网卡模块之间的链路。
本实施例中,当本端硬件管理模块检测到第二链路通信连接情况正常时,由于第二链路为连接本端硬件管理模块与对端主机的链路,该第二链路中,本端硬件管理模块通过本端网卡模块连接对端网卡模块,对端网卡模块与对端主机相连,通过本端网卡模块以及对端网卡模块的协助,完成本端硬件管理模块与对端主机的连接。本端主机与对端主机通过本端网卡模块连接对端网卡模块,对端网卡模块与对端主机相连,当第二链路连接正常时,可确定链路失效位置为本端主机与本端网卡模块之间的链路。
本申请实施例中,首先本端硬件管理模块检测本端主机与对端主机的通信连接情况是否异常,其次,当本端硬件管理模块检测到端主机与对端主机的通信连接情况异常时,本端硬件管理模块检测第一链路以及第二链路是否通信连接正常,其中第一链路为连接本端硬件管理模块与对端硬件管理模块的链路,第二链路为连接本端硬件管理模块与对端主机的链路。再次,若本端硬件管理模块检测到第一链路通信连接情况正常,则本端硬件管理模块确定链路失效位置为对端主机与对端网卡模块之间的链路,其中本端主机与对端主机通过本端网卡模块和对端网卡模块建立链路;再次,若本端硬件管理模块检测到第二链路通信连接情况正常,则本端硬件管理模块确定链路失效位置为本端主机与本端网卡模块之间的链路。通过上述方法,使用硬件管理模块可确定具体的链路失效的位置,提升了多控存储系统或服务器系统整体的可靠性。
可选地,在图2对应的本申请实施例中提供的第一种链路失效位置确定的方法的实施例基础上,本申请实施例提供的第二种链路失效位置确定的方法的实施例中,当本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常时,检测第一链路以及第二链路是否通信连接正常之后,方法还包括:
若本端硬件管理模块检测到第一链路与第二链路通信连接情况均为异常,则本端硬件管理模块确定链路失效位置为本端网卡模块与对端网卡模块之间的链路;
若本端硬件管理模块检测到第一链路与第二链路通信连接情况均为正常,则本端硬件管理模块确定链路失效位置为本端主机与本端卡模块之间的链路。
本实施例中,当本端硬件管理模块检测到第一链路以及第二链路通信连接情况均为异常时,本端硬件管理模块确定链路失效位置为本端网卡模块与对端网卡模块之间的链路;若本端硬件管理模块检测到第一链路与第二链路通信连接情况均为正常,则本端硬件管理模块确定链路失效位置为本端主机与本端卡模块之间的链路。
本申请实施例中,补充了第一链路与第二链路均为正常或者均为异常时,本端硬件管理模块确定链路失效位置的两种方法,提升了方案的可行性,进一步提升了应用本申请的多控存储系统或服务器系统整体的可靠性。
可选地,在图2对应的本申请实施例中提供的第一种链路失效位置确定的方法的实施例的基础上,本申请实施例提供的第三种链路失效位置确定的方法的实施例中,方法还包括:
本端网卡模块与对端网卡模块存在第三链路以及第四链路,其中第三链路用于本端主机与对端主机进行通信连接,第四链路用于本端硬件管理模块与对端硬件管理模块进行心跳包通信连接。
本实施例中,本端网卡模块与对端网卡模块所使用的网卡芯片至少能提供双通道传输链路,该双通道传输链路命名为第三链路以及第四链路,第三链路用于本端主机与对端主机进行通信连接,第四链路用于本端硬件管理模块与对端硬件管理模块进行心跳包通信连接。心跳包通信连接为本端和对端间定时通知对方自己状态的一个自己定义的指令,按照一定的时间间隔发送,类似于心跳,所以叫做心跳包。心跳包通信连接用来判断对端(设备,进程或其它网元)是否正常运行,采用定时发送简单的数据包,如果在指定时间段内未收到对端响应,则判断对端已经离线。一般用于检测传输控制协议(transmissioncontrol protocol,TCP)的异常断开,通常心跳包采用echo包的形式。可根据用户需求设定时间间隔。一般的情况下,判定时间在30至40秒发送一次心跳包。
本申请实施例中,本端网卡模块与对端网卡模块之间存在第三链路以及第四链路,本端主机可以通过第三链路与对端主机之间建立通信连接,本端硬件管理模块可以通过第四链路使用心跳包通信连接的方式检测对端硬件管理模块是否处于正常状态。使得本端硬件管理模块具有检测对端硬件管理模块是否处于正常状态的能力,提升了方案的实用性以及可行性。
可选地,在图2对应的本申请实施例中提供的第三种链路失效位置确定的方法的实施例的基础上,本申请实施例提供的第四种链路失效位置确定的方法的实施例中,当本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常之后,方法还包括:
本端硬件管理模块使用第四链路进行本端主机与对端主机之间的通信连接;
本端硬件管理模块使用第五链路进行本端硬件管理模块与对端硬件管理模块之间的心跳包通信连接,其中第五链路为无线通信连接链路。
本实施例中,当本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常之后,即第三链路出现异常时,本端硬件管理模块通知本端主机使用原有用于本端硬件管理模块与对端硬件管理模块进行心跳包通信连接的第四链路接替第三链路的工作,本端主机与对端主机之间的通信连接使用第三链路。原有本端硬件管理模块与对端硬件管理模块进行心跳包通信连接使用与本端硬件管理模块相连的本端无线模块与对端无线模块通过无线通信连接的方式连接,对端无线模块与对端硬件管理模块相连,该链路命名为第四链路。本端无线模块与对端无线模块之间通过无线保真(wireless-fidelity,WI-FI)或蓝牙(bluetooth)等方式传输数据。本端硬件管理模块与本端无线模块,对端硬件管理模块与对端无线模块通过通用异步收发传输器(universal asynchronous receiver/transmitter,UART)连接。
本申请实施例中,本端网卡模块与对端网卡模块之间存在第三链路以及第四链路,当第三链路出现故障时,本端硬件管理模块可通知本端主机使用原有用于心跳包通信连接的第四链路接替第三链路的工作进行通信连接。使用与本端硬件管理模块相连的本端无线模块进行心跳包通信连接。将第四链路作为第三链路的冗余备份,提升了方案的可行性,进一步提升了应用本申请的多控存储系统或服务器系统整体的可靠性。
可选地,在图2对应的本申请实施例中提供的第一种至第四种中任一种链路失效位置确定方法的实施例的基础上,本申请实施例提供的第五种链路失效位置确定的方法的实施例中,本端硬件管理模块输出链路展示指令,链路展示指令中携带各个链路的通信连接情况。
本实施例中,本端硬件管理模块可检测服务器系统中各个链路的通信情况,并将各个链路的通信情况通过链路展示指令输出,既可以通过本端指示模块展示当前各个链路的通信情况,也可以通过本端串口模块对外发送链路展示指令,使得外界根据该指令展示当前各个链路的通信情况。具体的展示方法可以包括:通过发光二极管展示链路的通信情况,不同的链路有对应的发光二级管,当某一个链路出现链路失效的情况时,对应的发光二极管发出预先设置的光,用以指示当前对应的链路失效。还可以通过与本端串口模块相连的显示屏展示各个链路的通信情况,具体的展示方法此处不作限定。
本申请实施例中,本端硬件管理模块输出链路展示指令,链路展示指令中携带各个链路的通信连接情况,本端串口模块或本端指示模块根据链路展示指令展示当前各个链路的通信连接情况。便于用户更直观的判断当前各个链路的通信情况,提升了方案的实用性。
下面对本申请中硬件管理模块进行详细描述,请参阅图3,图3为本申请实施例中硬件管理模块的一个实施例示意图,本申请实施例提供的硬件管理模块20的第一种可选实施例中,硬件管理模块20包括:
检测单元201,用于检测本端主机与对端主机的通信连接情况是否异常;
检测单元201,还用于当检测单元201检测到本端主机与对端主机的通信连接情况异常时,当检测单元201检测第一链路以及第二链路是否通信连接正常,其中第一链路为连接本端硬件管理模块与对端硬件管理模块的链路,第二链路为连接本端硬件管理模块与对端主机的链路;
确定单元202,用于若检测单元201检测到第一链路通信连接情况正常,则确定单元202确定链路失效位置为对端主机与对端网卡模块之间的链路,其中本端主机与对端主机通过本端网卡模块和对端网卡模块建立链路;
确定单元202,还用于若检测单元201检测到第二链路通信连接情况正常,则确定单元202确定链路失效位置为本端主机与本端网卡模块之间的链路。
本实施例中,检测单元201,用于检测本端主机与对端主机的通信连接情况是否异常;检测单元201,还用于当检测单元201检测到本端主机与对端主机的通信连接情况异常时,当检测单元201检测第一链路以及第二链路是否通信连接正常,其中第一链路为连接本端硬件管理模块与对端硬件管理模块的链路,第二链路为连接本端硬件管理模块与对端主机的链路;确定单元202,用于若检测单元201检测到第一链路通信连接情况正常,则确定单元202确定链路失效位置为对端主机与对端网卡模块之间的链路,其中本端主机与对端主机通过本端网卡模块和对端网卡模块建立链路;确定单元202,还用于若检测单元201检测到第二链路通信连接情况正常,则确定单元202确定链路失效位置为本端主机与本端网卡模块之间的链路。
本申请实施例中,首先本端硬件管理模块检测本端主机与对端主机的通信连接情况是否异常,其次,当本端硬件管理模块检测到端主机与对端主机的通信连接情况异常时,本端硬件管理模块检测第一链路以及第二链路是否通信连接正常,其中第一链路为连接本端硬件管理模块与对端硬件管理模块的链路,第二链路为连接本端硬件管理模块与对端主机的链路。再次,若本端硬件管理模块检测到第一链路通信连接情况正常,则本端硬件管理模块确定链路失效位置为对端主机与对端网卡模块之间的链路,其中本端主机与对端主机通过本端网卡模块和对端网卡模块建立链路;再次,若本端硬件管理模块检测到第二链路通信连接情况正常,则本端硬件管理模块确定链路失效位置为本端主机与本端网卡模块之间的链路。通过上述方法,使用硬件管理模块可确定具体的链路失效的位置,提升了多控存储系统或服务器系统整体的可靠性。
可选地,在上述图3对应的硬件管理模块20的第一种可选实施例的基础上,本申请实施例提供的硬件管理模块20的第二种可选实施例中,硬件管理模块20还包括:
确定单元202,还用于当检测单元201检测到本端主机与对端主机的通信连接情况异常时,在检测第一链路以及第二链路是否通信连接正常之后,若检测单元201检测到第一链路与第二链路通信连接情况均为异常,则确定单元202确定链路失效位置为本端网卡模块与对端网卡模块之间的链路。
本申请实施例中,补充了第一链路与第二链路均为正常或者均为异常时,本端硬件管理模块确定链路失效位置的两种方法,提升了方案的可行性,进一步提升了应用本申请的多控存储系统或服务器系统整体的可靠性。
可选地,在上述图3对应的本端硬件管理模块20的第一种可选实施例的基础上,本申请实施例提供的本端硬件管理模块20的第三种可选实施例中,本端硬件管理模块20包括:
本端网卡模块与对端网卡模块存在第三链路以及第四链路,其中第三链路用于本端主机与对端主机进行通信连接,第四链路用于本端硬件管理模块与对端硬件管理模块进行心跳包通信连接。
本申请实施例中,本端网卡模块与对端网卡模块之间存在第三链路以及第四链路,本端主机可以通过第三链路与对端主机之间建立通信连接,本端硬件管理模块可以通过第四链路使用心跳包通信连接的方式检测对端硬件管理模块是否处于正常状态。使得本端硬件管理模块具有检测对端硬件管理模块是否处于正常状态的能力,提升了方案的实用性以及可行性。
可选地,在上述图3对应的硬件管理模块20的第三种可选实施例的基础上,本申请实施例提供的硬件管理模块20的第四种可选实施例中,硬件管理模块20还包括:
使用单元203,用于当检测单元201检测到本端主机与对端主机的通信连接情况异常之后,使用第四链路进行本端主机与对端主机之间的通信连接;
使用单元203,还用于使用第五链路进行本端硬件管理模块与对端硬件管理模块之间的心跳包通信连接,其中第五链路为无线通信连接链路。
本申请实施例中,本端网卡模块与对端网卡模块之间存在第三链路以及第四链路,当第三链路出现故障时,本端硬件管理模块可通知本端主机使用原有用于心跳包通信连接的第四链路接替第三链路的工作进行通信连接。使用与本端硬件管理模块相连的本端无线模块进行心跳包通信连接。将第四链路作为第三链路的冗余备份,提升了方案的可行性,进一步提升了应用本申请的多控存储系统或服务器系统整体的可靠性。
可选地,在图3对应的本申请实施例中提供的硬件管理模块20的第一种可选实施例至第四种可选实施例中任一种可选实施例的基础上,本申请实施例提供的硬件管理模块20的第五种可选实施例中,硬件管理模块20还包括:
输出单元204,用于当本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常之后,输出链路展示指令,链路展示指令中携带各个链路的通信连接情况。
本申请实施例中,本端硬件管理模块输出链路展示指令,链路展示指令中携带各个链路的通信连接情况,本端串口模块或本端指示模块根据链路展示指令展示当前各个链路的通信连接情况。便于用户更直观的判断当前各个链路的通信情况,提升了方案的实用性。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种链路失效位置确定的方法,其特征在于,包括:
本端硬件管理模块检测本端主机与对端主机的通信连接情况是否异常;
当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常时,所述本端硬件管理模块检测第一链路以及第二链路是否通信连接正常,其中所述第一链路为连接所述本端硬件管理模块与对端硬件管理模块的链路,所述第二链路为连接所述本端硬件管理模块与对端主机的链路;
若所述本端硬件管理模块检测到所述第一链路通信连接情况正常,则所述本端硬件管理模块确定链路失效位置为所述对端主机与对端网卡模块之间的链路,其中所述本端主机与所述对端主机通过本端网卡模块和所述对端网卡模块建立链路;
若所述本端硬件管理模块检测到所述第二链路通信连接情况正常,则所述本端硬件管理模块确定链路失效位置为所述本端主机与所述本端网卡模块之间的链路。
2.根据权利要求1所述的方法,其特征在于,所述当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常时,检测第一链路以及第二链路是否通信连接正常之后,所述方法还包括:
若所述本端硬件管理模块检测到所述第一链路与所述第二链路通信连接情况均为异常,则所述本端硬件管理模块确定链路失效位置为所述本端网卡模块与所述对端网卡模块之间的链路。
3.根据权利要求1所述的方法,其特征在于,
所述本端网卡模块与所述对端网卡模块存在第三链路以及第四链路,其中所述第三链路用于所述本端主机与所述对端主机进行通信连接,所述第四链路用于所述本端硬件管理模块与所述对端硬件管理模块进行心跳包通信连接。
4.根据权利要求3所述的方法,其特征在于,所述当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常之后,所述方法还包括:
所述本端硬件管理模块使用所述第四链路进行所述本端主机与所述对端主机之间的通信连接;
所述本端硬件管理模块使用第五链路进行所述本端硬件管理模块与所述对端硬件管理模块之间的心跳包通信连接,其中所述第五链路为无线通信连接链路。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
所述本端硬件管理模块输出链路展示指令,所述链路展示指令中携带各个链路的通信连接情况。
6.一种硬件管理模块,其特征在于,包括:
检测单元,用于检测本端主机与对端主机的通信连接情况是否异常;
所述检测单元,还用于当所述检测单元检测到本端主机与对端主机的通信连接情况异常时,当所述检测单元检测第一链路以及第二链路是否通信连接正常,其中所述第一链路为连接所述本端硬件管理模块与对端硬件管理模块的链路,所述第二链路为连接所述本端硬件管理模块与对端主机的链路;
确定单元,用于若所述检测单元检测到所述第一链路通信连接情况正常,则所述确定单元确定链路失效位置为所述对端主机与对端网卡模块之间的链路,其中所述本端主机与所述对端主机通过本端网卡模块和所述对端网卡模块建立链路;
所述确定单元,还用于若所述检测单元检测到所述第二链路通信连接情况正常,则所述确定单元确定链路失效位置为所述本端主机与所述本端网卡模块之间的链路。
7.根据权利要求6所述的硬件管理模块,其特征在于,包括:
所述确定单元,还用于当所述检测单元检测到本端主机与对端主机的通信连接情况异常时,在检测第一链路以及第二链路是否通信连接正常之后,若所述检测单元检测到所述第一链路与所述第二链路通信连接情况均为异常,则确定链路失效位置为所述本端网卡模块与所述对端网卡模块之间的链路。
8.根据权利要求6所述的硬件管理模块,其特征在于,
所述本端网卡模块与所述对端网卡模块存在第三链路以及第四链路,其中所述第三链路用于所述本端主机与所述对端主机进行通信连接,所述第四链路用于所述本端硬件管理模块与所述对端硬件管理模块进行心跳包通信连接。
9.根据权利要求8所述的硬件管理模块,其特征在于,所述本端硬件管理模块还包括使用单元:
所述使用单元,用于当所述检测单元检测到本端主机与对端主机的通信连接情况异常之后,使用所述第四链路进行所述本端主机与所述对端主机之间的通信连接;
使用第五链路进行所述本端硬件管理模块与所述对端硬件管理模块之间的心跳包通信连接,其中所述第五链路为无线通信连接链路。
10.根据权利要求6至9中任一项所述的硬件管理模块,其特征在于,所述本端硬件管理模块包括输出模块:
所述输出单元,用于当所述本端硬件管理模块检测到本端主机与对端主机的通信连接情况异常之后,输出链路展示指令,所述链路展示指令中携带各个链路的通信连接情况。
CN201811296123.9A 2018-11-01 2018-11-01 一种链路失效位置确定的方法以及相关装置 Active CN109245950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811296123.9A CN109245950B (zh) 2018-11-01 2018-11-01 一种链路失效位置确定的方法以及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296123.9A CN109245950B (zh) 2018-11-01 2018-11-01 一种链路失效位置确定的方法以及相关装置

Publications (2)

Publication Number Publication Date
CN109245950A true CN109245950A (zh) 2019-01-18
CN109245950B CN109245950B (zh) 2021-09-17

Family

ID=65080412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296123.9A Active CN109245950B (zh) 2018-11-01 2018-11-01 一种链路失效位置确定的方法以及相关装置

Country Status (1)

Country Link
CN (1) CN109245950B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885420A (zh) * 2019-02-27 2019-06-14 苏州浪潮智能科技有限公司 一种PCIe链路故障的分析方法、BMC及存储介质
CN110008165A (zh) * 2019-04-12 2019-07-12 苏州浪潮智能科技有限公司 一种ntb链路管理方法、系统及相关装置
CN110768869A (zh) * 2019-10-28 2020-02-07 珠海格力电器股份有限公司 多联机系统的分户计费方法、装置和计算机设备
US11606152B2 (en) 2021-06-08 2023-03-14 Cisco Technology, Inc. Channel predictive behavior and fault analysis

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1859358A (zh) * 2005-07-08 2006-11-08 华为技术有限公司 一种均衡复数条并行的串行反串行链路数据的方法
CN103312411A (zh) * 2013-05-30 2013-09-18 华为数字技术(成都)有限公司 光纤链路故障检测方法及装置
CN103577284A (zh) * 2013-10-09 2014-02-12 创新科存储技术(深圳)有限公司 非透明桥芯片的异常检测与恢复方法
CN108173959A (zh) * 2018-01-09 2018-06-15 郑州云海信息技术有限公司 一种集群存储系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1859358A (zh) * 2005-07-08 2006-11-08 华为技术有限公司 一种均衡复数条并行的串行反串行链路数据的方法
CN103312411A (zh) * 2013-05-30 2013-09-18 华为数字技术(成都)有限公司 光纤链路故障检测方法及装置
CN103577284A (zh) * 2013-10-09 2014-02-12 创新科存储技术(深圳)有限公司 非透明桥芯片的异常检测与恢复方法
CN108173959A (zh) * 2018-01-09 2018-06-15 郑州云海信息技术有限公司 一种集群存储系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885420A (zh) * 2019-02-27 2019-06-14 苏州浪潮智能科技有限公司 一种PCIe链路故障的分析方法、BMC及存储介质
CN109885420B (zh) * 2019-02-27 2022-06-17 苏州浪潮智能科技有限公司 一种PCIe链路故障的分析方法、BMC及存储介质
CN110008165A (zh) * 2019-04-12 2019-07-12 苏州浪潮智能科技有限公司 一种ntb链路管理方法、系统及相关装置
CN110768869A (zh) * 2019-10-28 2020-02-07 珠海格力电器股份有限公司 多联机系统的分户计费方法、装置和计算机设备
CN110768869B (zh) * 2019-10-28 2021-03-02 珠海格力电器股份有限公司 多联机系统的分户计费方法、装置和计算机设备
US11606152B2 (en) 2021-06-08 2023-03-14 Cisco Technology, Inc. Channel predictive behavior and fault analysis
US12003282B2 (en) 2021-06-08 2024-06-04 Cisco Technology, Inc. Channel predictive behavior and fault analysis

Also Published As

Publication number Publication date
CN109245950B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN109245950A (zh) 一种链路失效位置确定的方法以及相关装置
CN102577254B (zh) 故障安全通信的方法和系统
US5581558A (en) Apparatus for bridging non-compatible network architectures
US10031880B2 (en) Network device and information transmission method
US8824280B2 (en) Method and arrangement for enabling link status propagation
CN101610192B (zh) 一种通信从机、总线级连方法及系统
CN104317765B (zh) 一种基于串口通讯的一对多通讯系统和实现方法
CN103209099B (zh) 一种节点间的网络通信线路的自动切换保护方法
CN101160828A (zh) 基于智能平台管理接口的管理系统和方法
WO2012066625A1 (ja) 通信システムの制御方法、通信システム、通信装置
CN102104531B (zh) 一种报文处理装置、方法及系统
US20160323037A1 (en) Electro-optical signal transmission
US10826847B2 (en) Port auto-negotiation method and device
CN111919402A (zh) 一种光通信装置、光线路终端和光通信的处理方法
KR101020053B1 (ko) 환형망 구조를 가지는 광 이더넷 전송 시스템에서의 광케이블 연결 자동 확인 시스템
EP2991243A1 (en) Optical network system
CN107168045B (zh) 一种基于EtherCAT的通信冗余控制系统
US20240154917A1 (en) Control of Ethernet Link-Partner GPIO using OAM
CN103532740A (zh) 实现远程管理的方法、系统及gcc开销处理方法、装置
US10382364B2 (en) Optical access device and optical access system
CN104135411A (zh) 一种基于rs232接口多节点通信的实现装置及方法
CN106411616B (zh) 一种通过1553b总线管理以太网终端的装置及方法
CN208924235U (zh) 处理器以及网络安全装置
CN106713012A (zh) 一种通信异常的检测方法及装置
CN111045851A (zh) 一种通讯系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant