CN116015442A - 整机柜服务器光互联监控管理方法、系统、设备和介质 - Google Patents
整机柜服务器光互联监控管理方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN116015442A CN116015442A CN202211687268.8A CN202211687268A CN116015442A CN 116015442 A CN116015442 A CN 116015442A CN 202211687268 A CN202211687268 A CN 202211687268A CN 116015442 A CN116015442 A CN 116015442A
- Authority
- CN
- China
- Prior art keywords
- optical
- port
- link
- optical link
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 408
- 238000007726 management method Methods 0.000 title claims abstract description 62
- 238000012544 monitoring process Methods 0.000 title claims abstract description 45
- 238000004891 communication Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000002159 abnormal effect Effects 0.000 claims abstract description 34
- 239000013307 optical fiber Substances 0.000 claims abstract description 23
- 238000004590 computer program Methods 0.000 claims description 27
- 230000005856 abnormality Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012423 maintenance Methods 0.000 abstract description 8
- 238000003745 diagnosis Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 230000009471 action Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013154 diagnostic monitoring Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请涉及一种整机柜服务器光互联监控管理方法、系统、设备和介质。所述方法包括:定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;当光链路两端光模块状态异常,则通过对比结果判断故障原因;当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同则进行初始化端口。采用本方法可以识别光纤链路故障,包括配置不正确与光模块、光纤故障,提高了整机柜系统的可靠性,降低了运营维护成本。
Description
技术领域
本申请涉及整机柜服务器光互联监控管理技术领域,特别是涉及一种整机柜服务器光互联监控管理方法、系统、计算机设备和存储介质。
背景技术
随着经济与互联网行业的发展,当今社会对数据中心性能与可靠性要求越来越高,在新建数据中心中整机柜服务器已成为主流。整机柜服务器是在一个机柜内拥有若干服务器节点与网管交换机和机柜顶交换机(Top ofRack,TOR)的设备,整机柜服务器可是视作一个整体进行管理、使用。在整机柜服务器中,内部的服务器节点与机柜顶交换机之间的互联方式通常采用光模块与光纤或无源铜缆。随着速率的提升,在以太链路达到单链路112GBps以上后,无源铜缆由于介质损耗较大,需要使用线径比较粗的线缆,因此当前整机柜内服务器节点与TOR交换机多采用光模块与光纤进行通信。由于光模块在整机柜服务器中的重要作用,其可靠性与故障快速预警维护在应用中非常重要。
当前光模块的数字诊断功能(Digital Diagnostic Monitoring,DDM)是针对模块单体的,可以诊断光模块的温度、电压、接收光功率等信息。由于光模块之间的光通信链路无法传输边带信号,因此当前的技术仅能检测当前的光模块的工作状态,无法结合对端光模块状态进行故障诊断分析。例如当本端光模块无光或CDR无法锁定时,无法判断是否是对端光模块不发光或速率不正确导致的。同时当前也没有针对整个链路进行故障诊断、恢复的协议设计。
发明内容
基于此,有必要针对上述技术问题,提供一种整机柜服务器光互联监控管理方法、系统、计算机设备和存储介质,能够解决当前光模块的数字诊断功能仅能检测当前的光模块的工作状态,无法结合对端光模块状态进行故障诊断分析,同时也没有针对整个链路进行故障诊断、恢复的协议设计的技术问题。
一方面,提供一种整机柜服务器光互联监控管理方法,所述方法包括:
定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
当光链路两端光模块状态异常,则通过对比结果判断故障原因;
当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
在其中一个实施例中,所述进行初始化端口的步骤包括:
关闭服务器与交换机侧并行转换器(Serdes)的接收器和发送器;
打开交换机对应端口的并行转换器(Serdes)的发送器;
打开服务器端口的并行转换器(Serdes)的发送器;
打开交换机对应端口的并行转换器(Serdes)的接收器;
打开服务器端口对应的并行转换器(Serdes)的接收器。
在其中一个实施例中,在进行初始化端口之后,还包括:
当完成初始化端口后,检测光链路端口状态信息是否为连通;
若未连通,则配置端口降低速率,再次进行初始化端口;
当再次完成初始化端口后,再次检测光链路端口状态信息是否为连通;
若连通,则降速运行并生成降速运行报告;若未连通,则生成综合故障报告。
在其中一个实施例中,所述检测光链路端口状态信息是否为连通的步骤包括:
在完成初始化端口后,等待第一时间阈值T1后检查端口是否连通,如果连通则每秒检查一次端口状态,连续检查第二时间阈值T2,如果未报告异常则判定端口工作正常。
在其中一个实施例中,在配置端口降低速率之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则配置端口降低速率到预设速率;
在生成综合故障报告之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则生成综合故障报告。
在其中一个实施例中,所述当光链路两端光模块状态异常,则通过对比结果判断故障原因步骤,包括:
当一条光链路中接收光功率低于发送光功率第一功率阈值P1时,且接收光功率较最低接收光功率值高第二功率阈值P2时,生成光纤故障预警报告;
当一条光链路中发送光功率较最低发送光功率值低第二功率阈值P2时,生成发送端光模块故障预警报告;
当一条光链路中接收光功率较最低接收光功率值低第二功率阈值P2时,生成接收端光模块故障预警报告;
当一条光链路在一年内的光功率下降值大于第三功率阈值P3时,生成发送端光模块故障预警报告和接收端光模块故障预警报告。
在其中一个实施例中,所述方法还定期获取整机柜内所有客户端程序的运行状态;当客户端程序所运行的服务器重启后的第三时间阈值T1内,若光链路端口状态信息为未连通,则读取服务器网卡端的网口接口配置是否与交换机端相同,若不同则按交换机端对服务器网卡端的网口接口进行配置。
另一方面,提供了一种整机柜服务器光互联监控管理系统,所述系统包括:
整机柜状态监测模块,用于定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
功率对比模块,用于将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
光链路故障监测模块,用于当光链路两端光模块状态异常,则通过对比结果判断故障原因;
配置检查模块,用于当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
再一方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
当光链路两端光模块状态异常,则通过对比结果判断故障原因;
当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
又一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
当光链路两端光模块状态异常,则通过对比结果判断故障原因;
当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
上述整机柜服务器光互联监控管理方法、系统、计算机设备和存储介质,可以识别光纤链路故障,包括配置不正确与光模块、光纤故障,提高了整机柜系统的可靠性,降低了运营维护成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中整机柜服务器的应用环境图;
图2为一个实施例中整机柜服务器光互联监控管理方法的流程示意图;
图3为一个实施例中链路检测方法步骤的流程示意图;
图4为一个实施例中进行信息比对,执行相应的策略步骤的流程示意图;
图5为一个实施例中初始化端口步骤的流程示意图;
图6为另一个实施例中整机柜服务器光互联监控管理方法的流程示意图;
图7为一个实施例中当光链路两端光模块状态异常,则通过对比结果判断故障原因步骤的流程示意图;
图8为一个实施例中整机柜服务器光互联监控管理系统的结构框图;
图9为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
实施例2
本申请实施例2中提供的整机柜服务器光互联监控管理方法,通过结合光链路两侧的光模块信息同时对链路进行诊断分析与管理。为一套光模块故障诊断策略与控制管理策略,可以识别光纤链路故障,包括配置不正确与光模块、光纤故障。也是一套光链路故障恢复策略与方法,通过识别两侧配置是否相同判断链路不能up(连通)的原因,同时实现了重启链路尝试恢复故障与自动降速规避故障的方法。
本发明提出的方法可以由一组服务器-客户端程序实现,其中服务器端程序可以运行在整机柜内任意一台交换机或服务器的处理器上,整机柜内除服务器端程序所运行的设备外,其余设备均需要运行客户端程序。
如图1所示,在整机柜服务器内,机柜顶交换机(ToR交换机Top ofRack,下文简称交换机),通过光模块及光纤连接到每一台服务器的业务网卡的光模块上,由交换机、交换机端光模块、光纤、服务器业务网卡和其搭配的光模块构成了整机柜的光通信链路。
值得说明的是,所述方法不限于应用以太链路,也可以应用于Fibre Channel、Infiniband、ATM等网络链路中。
如图2所示,所述整机柜服务器光互联监控管理方法包括步骤S10-S30。
步骤S10、首先确定整机柜内所有光链路的互联关系。获取互联关系的方法,可以由整机柜维护人员根据实际互联情况配置到程序中,也可以使用下面的链路检测方法来实现。
如图3所示,图3示出了所述链路检测方法的流程图,所述链路检测方法包括:
步骤S11、服务器端程序获取TOR交换机的业务接口与各服务器的业务接口之间的连接关系;服务器端程序运行于任一设备上,客户端程序运行于除该任一设备外的其他设备上,设备包括TOR交换机及服务器。
本发明实施例中客户端程序及服务器端程序具体可以是运行在整机柜内TOR交换机及对应的每台服务器的BMC芯片上;以服务器的数量为1为例进行示意,其中,业务网络接口则为业务接口,BMC网管接口可简称为网管接口;服务器可以通过网管接口与网管交换机实现通信,也可以通过业务接口与TOR交换机实现通信,与服务器的业务接口相对应,TOR交换机中包括与服务器的业务接口连接的业务接口,从而通过两种设备的业务接口的连接,形成供两种设备进行通信的链路,本申请则是为了检测服务器通过业务接口与TOR交换机实现连接的链路设计;服务器端程序获取TOR交换机的业务接口与各服务器的业务接口之间的连接关系,具体则是获取TOR交换机的每个业务接口分别与哪个服务器的哪个业务接口连接,从而通过该连接关系能够获知形成TOR交换机与任意服务器的链路的、分别属于TOR交换机及该任意服务器的业务接口,也即能够定位到分别属于两种设备的互相连接的业务接口。
本申请实施例中可以设置能够实现通信的服务器端程序及客户端程序,具体来说,服务器端程序能够与每个客户端程序分别通过网管交换机提供的网管网络实现通信,也即其通过这种带外的方式实现通信;一般在TOR交换机及与该TOR交换机通过业务接口连接的服务器中,仅能够有一台设备可运行服务器端程序,此时其他设备则需要运行客户端程序,从而通过服务器端程序及客户端程序的通信,实现对服务器及TOR交换机包含的各业务接口的监控。
步骤S12、服务器端程序通过网管交换机定期发送查询报文至每个客户端程序;每个客户端程序响应查询报文,将所在设备包括的与其他设备的业务接口具有连接关系的业务接口的接口信息,通过网管交换机返回给服务器端程序。
在确定分别属于TOR交换机及服务器的业务接口之间的连接关系后,服务器端程序则可以通过网管交换机提供的网管网络定期与各客户端程序进行通信,以获取到各客户端程序所在设备的业务接口的接口状态信息(简称为接口信息);具体来说,服务器端程序可以定期向各个客户端程序发送通信报文作为查询报文,查询报文可以是在TCP报文或UDP报文的基础上封装分协议通信信息,如可以包括协议报文内容长度、接口编号、接口MAC地址、标志位(查询标志位、控制标志位或反馈标志位)、指令信息(查询控制指令或反馈信息)。客户端程序在接收到带有查询标志位查询报文后,将所查询的信息携带于通信报文中反馈给服务器端程序,本申请中查询的信息则为接收到查询报文的客户端程序所在设备上包括的、与其他设备的业务接口之间具有连接关系的业务接口的接口信息;接口信息为表示对应的业务接口的状态的信息,进而可以基于这些信息确定对应链路的状态是否正常,也即对应链路处于连接状态还是断开状态;如业务接口为以太接口时,接口信息可以包括物理收发器类型、支持的速率、媒介类型等,进一步的,当物理收发器的类型为光模块时,接口信息可以包括接收光功率、发送光功率、温度、CDR是否已经锁定等信息,上述信息均可以用于确定链路的状态。其中,基于表示接口状态的信息确定接口对应链路的状态与现有技术中对应方案的实现原理一致,在此不再赘述。
另外,如果服务器端程序需要实现相应的控制操作,则可以向各客户端程序发送通信报文作为控制报文,客户端程序在收到带有控制标志位的控制报文后,则可以按照控制报文的指示进行相应的控制动作,包括但不限于修改相应接口寄存器、更改接口速率、更改接口工作模式(单工/双工/节能模式是否打开等)等;并且在实现控制动作后,还可以发送带有操作是否成功的反馈信息给服务器端程序,而发送反馈信息的目的则是供上层程序执行正确的策略,例如检测到接口链路层连接断开,则可以根据接收光功率判断是否能够接收到信号,如果是则可以尝试修改链路层工作模式,以实现自动适应的能力。
步骤S13、服务器端程序将自身所在设备包括的与其他设备的业务接口具有连接关系的业务接口的接口信息及接收的接口信息均上报给上层程序,以供上层程序基于接口信息分析实现对应连接关系的链路的连接情况。
服务器端在收集到各个客户端程序所在设备对应业务接口的接口信息后,还需要获取自身包括的与其他设备的业务接口具有连接关系的业务接口的接口信息,进而将自身的接口信息及收集到的其他客户端程序发送的接口信息均上报给上层程序,以供上层程序基于全部接口信息确定每对具有连接关系的业务接口之间的链路是否处于正常连接的状态,以在链路出现断开连接等异常情况时及时进行相应的修复等处理。
本申请通过网管交换机实现服务器端程序及客户端程序之间的信息通信,服务器端程序及客户端程序分别运行于相应的TOR交换机和/或服务器中,从而通过这种方式获取到与TOR交换机连接的每个服务器的业务接口的接口信息,供上层程序基于该接口信息实现对对应链路的连接情况的监控,进而使得上层程序能够在监控到某链路连接出现异常时及时实现相应的链路故障处理、如链路修复等操作,可见,本申请通过网管交换机实现TOR交换机及各服务器之间的信息通信,由此即使TOR交换机与服务器之间直接连接的链路出现故障,也能够通过网管交换机实现对TOR交换机与服务器之间的链路的连接情况的获知,通过这种带外通信的方式为相应链路的故障检测、诊断等提供所需的信息,实现对相应链路的有效监控,进而间接提升了相应链路的可靠性,一定程度上避免了因链路原因导致的服务器业务中断的出现。
如前文所述链路检测方法,运行在整机柜的服务器端程序通过所述链路检测方法可以与位于整机柜内的各个节点(服务器、交换机)上的客户端程序进行通信,并且可以自动获取整机柜内各个节点之间以太光链路之间的互联关系。
步骤S20、定期的获取整机柜内所有客户端程序的运行状态、互联的光链路两端光模块状态信息、互联的光链路端口状态信息。
步骤S30、进行信息比对,执行相应的策略,并定期的重复执行该步骤。
如图4所示,其中步骤S30包含了进行光链路两端光模块收发光功率对比、服务器需要重启低的控制方式、光链路恢复及生成报告三部分内容。
一)进行光链路两端光模块收发光功率对比。当一条光链路中接收光功率低于发送光功率第一功率阈值P1以上时,且接收光功率较光模块厂家事先写入的诊断信息中的最低接收光功率高第二功率阈值P2以上时,向用户提示光纤或光纤端面可能存在异常。例如SFF-8472定义了SFP/SFP+/SFP28接口的光模块,在I2C设备地址A2h寄存器地址34~35定义了接收光功率低告警门限值,26~27寄存器定义了发送光功率低告警门限值。当一条光链路中发送光功率低于模块生产厂家事先写入的诊断信息最低值第二功率阈值P2以上时,应当提示用于光模块发送光功率过低,可能存在异常。或当1年内光功率下降超过第三功率阈值P3时提示光功率下降过快,模块可能有失效风险。
二)当获取客户端程序所运行的服务器需要重启时,客户端程序接收到程序关闭信号时,向服务器端程序发送信息通知即将重启,此时服务器端程序控制交换机,关闭连接到即将重启服务器的对应端口的并行转换器(Serdes)接收器与发送器,待服务器完成启动后,客户端程序启动后向服务器端程序发送信息,服务器端程序再打开交换机对应端口的Serdes发送器与接收器。在事先定义好的第三时间阈值T3内若端口状态未能变为up,此时可能是由于服务器维护升级软件更新或网卡部件替换,导致原有配置丢失,此时读取服务器网卡端的网口接口配置是否与交换机端相同,若不同则按交换机端进行配置。
三)获取光链路中一端端口状态,当链路状态为Down(未连通)时,且光功率未报告异常时,首先检查对应端口两侧的速率与FEC配置是否相同,如果不同则报告异常提醒用户正确配置。如果相同,则尝试重新初始化端口。如图5所示,初始化端口的步骤包括:步骤S21,首先则关闭服务器与交换机侧Serdes的接收器和发送器;步骤S22,先打开交换机对应端口的Serdes发送器;步骤S23,再打开服务器端口的Serdes发送器;步骤S24,再打开交换机对应端口的Serdes接收器;步骤S25,最后打开服务器端口对应的Serdes接收器。随后进行链路状态检查,等待第一时间阈值T1时间后再次检查端口是否up,如果up则再每秒检查一次端口状态,连续检查第二时间阈值T2时间,如果未报告异常则认为端口工作正常。如果上述检查未通过,则重新执行上述动作重新初始化端口。若尝试N次仍未能通过检查,则配置端口降低速率到预设速率S,重新进行上述动作。如果在速率S下尝试N次仍未能通过链路状态检查,则报告用户链路有综合故障。如果在速率S下,则报告用户链路已降速运行。
针对不同类型的光链路,上述诊断参数可由用户配置,根据历史故障数据获取经验值。在本实施例中针对常见的25Gbase-SR和100G-CWDM4链路推荐值如下:
上述动作不能并行执行,可以按一定的顺序周期执行。动作之间存在一定的间隔周期,间隔周期可以是1分钟或更久。
实施例2
如图6所示,本申请实施例2中提供的整机柜服务器光互联监控管理方法,包括以下步骤:
步骤S1,定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
步骤S2,将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
步骤S3,当光链路两端光模块状态异常,则通过对比结果判断故障原因;
步骤S4,当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
其中,名词FEC是一种误码纠错技术。光纤通信的两个重要发展方向是提高传输速率和延长传输距离。随着传输速率的提高,信号传输过程中限制传输距离的因素变得更多,比如色度色散、非线性效应、偏振模色散等,影响两者的同时提升。为降低这些不利因素的影响,行业专家提出了向前纠错功能,简称FEC(Forward Error Correction)。
FEC适用高速率通信(25G、40G、100G,尤其是40G和100G),它是一种误码纠错技术。光信号在传输过程中因其他因素发生劣变,导致接收端出现误判,可能把"1"信号误判成"0"信号,或"0"信号误判成"1"信号,FEC功能通过在发送端的信道编码器上将信息码组成具有一定纠错能力的码,接收端信道译码器对接收码进行译码,若传输中产生的差错数目在纠错能力范围内(非连续性错误),译码器会对差错进行定位并加以纠正,以提高信号的质量。
有些特殊的光模块自身配有FEC功能,比如飞速(FS)100G CFP转换模块。100GQSFP28封装的光模块主要依靠在设备端配置FEC功能实现误码纠错,比如100G接口交换机。
如图5所示,在本实施例中,所述进行初始化端口的步骤包括:
步骤S21,关闭服务器与交换机侧并行转换器(Serdes)的接收器和发送器;
步骤S22,打开交换机对应端口的并行转换器(Serdes)的发送器;
步骤S23,打开服务器端口的并行转换器(Serdes)的发送器;
步骤S24,打开交换机对应端口的并行转换器(Serdes)的接收器;
步骤S25,打开服务器端口对应的并行转换器(Serdes)的接收器。
如图6所示,在本实施例中,在进行初始化端口之后,所述方法还包括:
步骤S5,当完成初始化端口后,检测光链路端口状态信息是否为连通;
步骤S6,若未连通,则配置端口降低速率,再次进行初始化端口;
步骤S7,当再次完成初始化端口后,再次检测光链路端口状态信息是否为连通;
步骤S8,若连通,则降速运行并生成降速运行报告;若未连通,则生成综合故障报告。
在本实施例中,所述检测光链路端口状态信息是否为连通的步骤包括:在完成初始化端口后,等待第一时间阈值T1后检查端口是否连通,如果连通则每秒检查一次端口状态,连续检查第二时间阈值T2,如果未报告异常则判定端口工作正常。
在本实施例中,在配置端口降低速率之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则配置端口降低速率到预设速率。
在本实施例中,在生成综合故障报告之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则生成综合故障报告。
如图7所示,在本实施例中,所述当光链路两端光模块状态异常,则通过对比结果判断故障原因步骤,包括:
步骤S31,当一条光链路中接收光功率低于发送光功率第一功率阈值P1时,且接收光功率较最低接收光功率值高第二功率阈值P2时,生成光纤故障预警报告;
步骤S32,当一条光链路中发送光功率较最低发送光功率值低第二功率阈值P2时,生成发送端光模块故障预警报告;
步骤S33,当一条光链路中接收光功率较最低接收光功率值低第二功率阈值P2时,生成接收端光模块故障预警报告;
步骤S34,当一条光链路在一年内的光功率下降值大于第三功率阈值P3时,生成发送端光模块故障预警报告和接收端光模块故障预警报告。
在本实施例中,所述方法还定期获取整机柜内所有客户端程序的运行状态;当客户端程序所运行的服务器重启后的第三时间阈值T1内,若光链路端口状态信息为未连通,则读取服务器网卡端的网口接口配置是否与交换机端相同,若不同则按交换机端对服务器网卡端的网口接口进行配置。
在步骤S1之前,首先确定整机柜内所有光链路的互联关系。获取互联关系的方法,可以由整机柜维护人员根据实际互联情况配置到程序中,也可以使用下面的链路检测方法来实现。
如图3所示,图3示出了所述链路检测方法的流程图,所述链路检测方法包括:
步骤S11、服务器端程序获取TOR交换机的业务接口与各服务器的业务接口之间的连接关系;服务器端程序运行于任一设备上,客户端程序运行于除该任一设备外的其他设备上,设备包括TOR交换机及服务器。
本发明实施例中客户端程序及服务器端程序具体可以是运行在整机柜内TOR交换机及对应的每台服务器的BMC芯片上;以服务器的数量为1为例进行示意,其中,业务网络接口则为业务接口,BMC网管接口可简称为网管接口;服务器可以通过网管接口与网管交换机实现通信,也可以通过业务接口与TOR交换机实现通信,与服务器的业务接口相对应,TOR交换机中包括与服务器的业务接口连接的业务接口,从而通过两种设备的业务接口的连接,形成供两种设备进行通信的链路,本申请则是为了检测服务器通过业务接口与TOR交换机实现连接的链路设计;服务器端程序获取TOR交换机的业务接口与各服务器的业务接口之间的连接关系,具体则是获取TOR交换机的每个业务接口分别与哪个服务器的哪个业务接口连接,从而通过该连接关系能够获知形成TOR交换机与任意服务器的链路的、分别属于TOR交换机及该任意服务器的业务接口,也即能够定位到分别属于两种设备的互相连接的业务接口。
本申请实施例中可以设置能够实现通信的服务器端程序及客户端程序,具体来说,服务器端程序能够与每个客户端程序分别通过网管交换机提供的网管网络实现通信,也即其通过这种带外的方式实现通信;一般在TOR交换机及与该TOR交换机通过业务接口连接的服务器中,仅能够有一台设备可运行服务器端程序,此时其他设备则需要运行客户端程序,从而通过服务器端程序及客户端程序的通信,实现对服务器及TOR交换机包含的各业务接口的监控。
步骤S12、服务器端程序通过网管交换机定期发送查询报文至每个客户端程序;每个客户端程序响应查询报文,将所在设备包括的与其他设备的业务接口具有连接关系的业务接口的接口信息,通过网管交换机返回给服务器端程序。
在确定分别属于TOR交换机及服务器的业务接口之间的连接关系后,服务器端程序则可以通过网管交换机提供的网管网络定期与各客户端程序进行通信,以获取到各客户端程序所在设备的业务接口的接口状态信息(简称为接口信息);具体来说,服务器端程序可以定期向各个客户端程序发送通信报文作为查询报文,查询报文可以是在TCP报文或UDP报文的基础上封装分协议通信信息,如可以包括协议报文内容长度、接口编号、接口MAC地址、标志位(查询标志位、控制标志位或反馈标志位)、指令信息(查询控制指令或反馈信息)。客户端程序在接收到带有查询标志位查询报文后,将所查询的信息携带于通信报文中反馈给服务器端程序,本申请中查询的信息则为接收到查询报文的客户端程序所在设备上包括的、与其他设备的业务接口之间具有连接关系的业务接口的接口信息;接口信息为表示对应的业务接口的状态的信息,进而可以基于这些信息确定对应链路的状态是否正常,也即对应链路处于连接状态还是断开状态;如业务接口为以太接口时,接口信息可以包括物理收发器类型、支持的速率、媒介类型等,进一步的,当物理收发器的类型为光模块时,接口信息可以包括接收光功率、发送光功率、温度、CDR是否已经锁定等信息,上述信息均可以用于确定链路的状态。其中,基于表示接口状态的信息确定接口对应链路的状态与现有技术中对应方案的实现原理一致,在此不再赘述。
另外,如果服务器端程序需要实现相应的控制操作,则可以向各客户端程序发送通信报文作为控制报文,客户端程序在收到带有控制标志位的控制报文后,则可以按照控制报文的指示进行相应的控制动作,包括但不限于修改相应接口寄存器、更改接口速率、更改接口工作模式(单工/双工/节能模式是否打开等)等;并且在实现控制动作后,还可以发送带有操作是否成功的反馈信息给服务器端程序,而发送反馈信息的目的则是供上层程序执行正确的策略,例如检测到接口链路层连接断开,则可以根据接收光功率判断是否能够接收到信号,如果是则可以尝试修改链路层工作模式,以实现自动适应的能力。
步骤S13、服务器端程序将自身所在设备包括的与其他设备的业务接口具有连接关系的业务接口的接口信息及接收的接口信息均上报给上层程序,以供上层程序基于接口信息分析实现对应连接关系的链路的连接情况。
服务器端在收集到各个客户端程序所在设备对应业务接口的接口信息后,还需要获取自身包括的与其他设备的业务接口具有连接关系的业务接口的接口信息,进而将自身的接口信息及收集到的其他客户端程序发送的接口信息均上报给上层程序,以供上层程序基于全部接口信息确定每对具有连接关系的业务接口之间的链路是否处于正常连接的状态,以在链路出现断开连接等异常情况时及时进行相应的修复等处理。
本申请通过网管交换机实现服务器端程序及客户端程序之间的信息通信,服务器端程序及客户端程序分别运行于相应的TOR交换机和/或服务器中,从而通过这种方式获取到与TOR交换机连接的每个服务器的业务接口的接口信息,供上层程序基于该接口信息实现对对应链路的连接情况的监控,进而使得上层程序能够在监控到某链路连接出现异常时及时实现相应的链路故障处理、如链路修复等操作,可见,本申请通过网管交换机实现TOR交换机及各服务器之间的信息通信,由此即使TOR交换机与服务器之间直接连接的链路出现故障,也能够通过网管交换机实现对TOR交换机与服务器之间的链路的连接情况的获知,通过这种带外通信的方式为相应链路的故障检测、诊断等提供所需的信息,实现对相应链路的有效监控,进而间接提升了相应链路的可靠性,一定程度上避免了因链路原因导致的服务器业务中断的出现。
如前文所述链路检测方法,运行在整机柜的服务器端程序通过所述链路检测方法可以与位于整机柜内的各个节点(服务器、交换机)上的客户端程序进行通信,并且可以自动获取整机柜内各个节点之间以太光链路之间的互联关系。
上述整机柜服务器光互联监控管理方法中,可以识别光纤链路故障,包括配置不正确与光模块、光纤故障,提高了整机柜系统的可靠性,降低了运营维护成本。
应该理解的是,虽然图2-图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种整机柜服务器光互联监控管理系统10,包括:整机柜状态监测模块1、功率对比模块2、光链路故障监测模块3、配置检查模块4、检测光链路端口状态模块5、初始化端口模块6和生成报告模块7。
所述整机柜状态监测模块1用于定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息。
所述功率对比模块2用于将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常。
所述光链路故障监测模块3用于当光链路两端光模块状态异常,则通过对比结果判断故障原因。
所述配置检查模块4用于当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则所述生成报告模块7生成异常配置报告;如果相同,则所述初始化端口模块6进行初始化端口。
在本实施例中,初始化端口模块6进行初始化端口的步骤包括:
关闭服务器与交换机侧并行转换器(Serdes)的接收器和发送器;
打开交换机对应端口的并行转换器(Serdes)的发送器;
打开服务器端口的并行转换器(Serdes)的发送器;
打开交换机对应端口的并行转换器(Serdes)的接收器;
打开服务器端口对应的并行转换器(Serdes)的接收器。
在本实施例中,所述检测光链路端口状态模块5用于当完成初始化端口后,检测光链路端口状态信息是否为连通;所述初始化端口模块6用于若未连通,则配置端口降低速率,再次进行初始化端口;所述检测光链路端口状态模块5用于用于当再次完成初始化端口后,再次检测光链路端口状态信息是否为连通;所述生成报告模块7用于若连通,则降速运行并生成降速运行报告;若未连通,则生成综合故障报告。
在本实施例中,所述检测光链路端口状态信息是否为连通的步骤包括:在完成初始化端口后,等待第一时间阈值T1后检查端口是否连通,如果连通则每秒检查一次端口状态,连续检查第二时间阈值T2,如果未报告异常则判定端口工作正常。
在本实施例中,在配置端口降低速率之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则配置端口降低速率到预设速率;在生成综合故障报告之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则生成综合故障报告。
在本实施例中,所述当光链路两端光模块状态异常,则通过对比结果判断故障原因步骤,包括:
当一条光链路中接收光功率低于发送光功率第一功率阈值P1时,且接收光功率较最低接收光功率值高第二功率阈值P2时,生成光纤故障预警报告;
当一条光链路中发送光功率较最低发送光功率值低第二功率阈值P2时,生成发送端光模块故障预警报告;
当一条光链路中接收光功率较最低接收光功率值低第二功率阈值P2时,生成接收端光模块故障预警报告;
当一条光链路在一年内的光功率下降值大于第三功率阈值P3时,生成发送端光模块故障预警报告和接收端光模块故障预警报告。
在本实施例中,所述方法还定期获取整机柜内所有客户端程序的运行状态;当客户端程序所运行的服务器重启后的第三时间阈值T1内,若光链路端口状态信息为未连通,则读取服务器网卡端的网口接口配置是否与交换机端相同,若不同则按交换机端对服务器网卡端的网口接口进行配置。
上述整机柜服务器光互联监控管理系统中,可以识别光纤链路故障,包括配置不正确与光模块、光纤故障,提高了整机柜系统的可靠性,降低了运营维护成本。
关于整机柜服务器光互联监控管理系统的具体限定可以参见上文中对于整机柜服务器光互联监控管理方法的限定,在此不再赘述。上述整机柜服务器光互联监控管理系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储整机柜服务器光互联监控管理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种整机柜服务器光互联监控管理方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
当光链路两端光模块状态异常,则通过对比结果判断故障原因;
当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述进行初始化端口的步骤包括:
关闭服务器与交换机侧并行转换器(Serdes)的接收器和发送器;
打开交换机对应端口的并行转换器(Serdes)的发送器;
打开服务器端口的并行转换器(Serdes)的发送器;
打开交换机对应端口的并行转换器(Serdes)的接收器;
打开服务器端口对应的并行转换器(Serdes)的接收器。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在进行初始化端口之后,还包括:
当完成初始化端口后,检测光链路端口状态信息是否为连通;
若未连通,则配置端口降低速率,再次进行初始化端口;
当再次完成初始化端口后,再次检测光链路端口状态信息是否为连通;
若连通,则降速运行并生成降速运行报告;若未连通,则生成综合故障报告。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述检测光链路端口状态信息是否为连通的步骤包括:
在完成初始化端口后,等待第一时间阈值T1后检查端口是否连通,如果连通则每秒检查一次端口状态,连续检查第二时间阈值T2,如果未报告异常则判定端口工作正常。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
在配置端口降低速率之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则配置端口降低速率到预设速率;
在生成综合故障报告之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则生成综合故障报告。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述当光链路两端光模块状态异常,则通过对比结果判断故障原因步骤,包括:
当一条光链路中接收光功率低于发送光功率第一功率阈值P1时,且接收光功率较最低接收光功率值高第二功率阈值P2时,生成光纤故障预警报告;
当一条光链路中发送光功率较最低发送光功率值低第二功率阈值P2时,生成发送端光模块故障预警报告;
当一条光链路中接收光功率较最低接收光功率值低第二功率阈值P2时,生成接收端光模块故障预警报告;
当一条光链路在一年内的光功率下降值大于第三功率阈值P3时,生成发送端光模块故障预警报告和接收端光模块故障预警报告。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
所述方法还定期获取整机柜内所有客户端程序的运行状态;当客户端程序所运行的服务器重启后的第三时间阈值T1内,若光链路端口状态信息为未连通,则读取服务器网卡端的网口接口配置是否与交换机端相同,若不同则按交换机端对服务器网卡端的网口接口进行配置。
关于处理器执行计算机程序时实现步骤的具体限定可以参见上文中对于整机柜服务器光互联监控管理的方法的限定,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
当光链路两端光模块状态异常,则通过对比结果判断故障原因;
当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述进行初始化端口的步骤包括:
关闭服务器与交换机侧并行转换器(Serdes)的接收器和发送器;
打开交换机对应端口的并行转换器(Serdes)的发送器;
打开服务器端口的并行转换器(Serdes)的发送器;
打开交换机对应端口的并行转换器(Serdes)的接收器;
打开服务器端口对应的并行转换器(Serdes)的接收器。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在进行初始化端口之后,还包括:
当完成初始化端口后,检测光链路端口状态信息是否为连通;
若未连通,则配置端口降低速率,再次进行初始化端口;
当再次完成初始化端口后,再次检测光链路端口状态信息是否为连通;
若连通,则降速运行并生成降速运行报告;若未连通,则生成综合故障报告。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述检测光链路端口状态信息是否为连通的步骤包括:
在完成初始化端口后,等待第一时间阈值T1后检查端口是否连通,如果连通则每秒检查一次端口状态,连续检查第二时间阈值T2,如果未报告异常则判定端口工作正常。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
在配置端口降低速率之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则配置端口降低速率到预设速率;
在生成综合故障报告之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则生成综合故障报告。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述当光链路两端光模块状态异常,则通过对比结果判断故障原因步骤,包括:
当一条光链路中接收光功率低于发送光功率第一功率阈值P1时,且接收光功率较最低接收光功率值高第二功率阈值P2时,生成光纤故障预警报告;
当一条光链路中发送光功率较最低发送光功率值低第二功率阈值P2时,生成发送端光模块故障预警报告;
当一条光链路中接收光功率较最低接收光功率值低第二功率阈值P2时,生成接收端光模块故障预警报告;
当一条光链路在一年内的光功率下降值大于第三功率阈值P3时,生成发送端光模块故障预警报告和接收端光模块故障预警报告。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
所述方法还定期获取整机柜内所有客户端程序的运行状态;当客户端程序所运行的服务器重启后的第三时间阈值T1内,若光链路端口状态信息为未连通,则读取服务器网卡端的网口接口配置是否与交换机端相同,若不同则按交换机端对服务器网卡端的网口接口进行配置。
关于计算机程序被处理器执行时实现步骤的具体限定可以参见上文中对于整机柜服务器光互联监控管理的方法的限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种整机柜服务器光互联监控管理方法,其特征在于,包括:
定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
当光链路两端光模块状态异常,则通过对比结果判断故障原因;
当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
2.根据权利要求1所述的整机柜服务器光互联监控管理方法,其特征在于,所述进行初始化端口的步骤包括:
关闭服务器与交换机侧并行转换器的接收器和发送器;
打开交换机对应端口的并行转换器的发送器;
打开服务器端口的并行转换器的发送器;
打开交换机对应端口的并行转换器的接收器;
打开服务器端口对应的并行转换器的接收器。
3.根据权利要求1所述的整机柜服务器光互联监控管理方法,其特征在于,在进行初始化端口之后,还包括:
当完成初始化端口后,检测光链路端口状态信息是否为连通;
若未连通,则配置端口降低速率,再次进行初始化端口;
当再次完成初始化端口后,再次检测光链路端口状态信息是否为连通;
若连通,则降速运行并生成降速运行报告;若未连通,则生成综合故障报告。
4.根据权利要求3所述的整机柜服务器光互联监控管理方法,其特征在于,所述检测光链路端口状态信息是否为连通的步骤包括:
在完成初始化端口后,等待第一时间阈值后检查端口是否连通,如果连通则每秒检查一次端口状态,连续检查第二时间阈值,如果未报告异常则判定端口工作正常。
5.根据权利要求4所述的整机柜服务器光互联监控管理方法,其特征在于,在配置端口降低速率之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则配置端口降低速率到预设速率;在生成综合故障报告之前,执行多次初始化端口操作,若光链路端口状态信息均为未连通,则生成综合故障报告。
6.根据权利要求1所述的整机柜服务器光互联监控管理方法,其特征在于,所述当光链路两端光模块状态异常,则通过对比结果判断故障原因步骤,包括:
当一条光链路中接收光功率低于发送光功率第一功率阈值时,且接收光功率较最低接收光功率值高第二功率阈值时,生成光纤故障预警报告;
当一条光链路中发送光功率较最低发送光功率值低第二功率阈值时,生成发送端光模块故障预警报告;
当一条光链路中接收光功率较最低接收光功率值低第二功率阈值时,生成接收端光模块故障预警报告;
当一条光链路在一年内的光功率下降值大于第三功率阈值时,生成发送端光模块故障预警报告和接收端光模块故障预警报告。
7.根据权利要求1所述的整机柜服务器光互联监控管理方法,其特征在于,所述方法还定期获取整机柜内所有客户端程序的运行状态;当客户端程序所运行的服务器重启后的第三时间阈值内,若光链路端口状态信息为未连通,则读取服务器网卡端的网口接口配置是否与交换机端相同,若不同则按交换机端对服务器网卡端的网口接口进行配置。
8.一种整机柜服务器光互联监控管理系统,其特征在于,所述系统包括:
整机柜状态监测模块,用于定期获取整机柜内互联的光链路两端光模块状态信息、互联的光链路端口状态信息;
功率对比模块,用于将获取的互联的光链路两端光模块收发光功率与光模块收发光功率预设阈值范围对比,判断光链路两端光模块状态是否正常;
光链路故障监测模块,用于当光链路两端光模块状态异常,则通过对比结果判断故障原因;
配置检查模块,用于当光链路两端光模块状态正常,且光链路端口状态信息由连通变为断线时,检查光链路端口两侧的速率与FEC配置是否相同;如果不同则生成异常配置报告;如果相同,则进行初始化端口。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211687268.8A CN116015442A (zh) | 2022-12-27 | 2022-12-27 | 整机柜服务器光互联监控管理方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211687268.8A CN116015442A (zh) | 2022-12-27 | 2022-12-27 | 整机柜服务器光互联监控管理方法、系统、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116015442A true CN116015442A (zh) | 2023-04-25 |
Family
ID=86024224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211687268.8A Pending CN116015442A (zh) | 2022-12-27 | 2022-12-27 | 整机柜服务器光互联监控管理方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116015442A (zh) |
-
2022
- 2022-12-27 CN CN202211687268.8A patent/CN116015442A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103414916B (zh) | 一种故障诊断系统及方法 | |
US10708132B2 (en) | Technique for handling a status change in an interconnect node | |
US8699354B2 (en) | Method and apparatus for detecting a fault on an optical fiber | |
CN113708995B (zh) | 一种网络故障诊断方法、系统、电子设备及存储介质 | |
CN111740877B (zh) | 一种链路检测方法及系统 | |
CN107948063B (zh) | 一种建立聚合链路的方法和接入设备 | |
CN103957155A (zh) | 报文传输方法、装置及互联接口 | |
CN109000889A (zh) | 一种光模块劣化的检测方法及装置 | |
US20230231906A1 (en) | Mechanism to identify link down reasons | |
CN107888279B (zh) | 故障自愈方法、系统、计算机可读存储介质和计算机设备 | |
CN110417464B (zh) | 一种故障处理方法及装置、计算机装置及可读存储介质 | |
CN107026780A (zh) | 一种基于物联网的配电光纤环网故障点定位方法及系统 | |
CN102546304B (zh) | 一种检测双向转发检测的方法、设备和系统 | |
CN107276834B (zh) | 一种航空电子环境下光纤通道流量分析记录方法及装置 | |
CN112188420B (zh) | 利用短报文识别光纤复用通道故障区间的方法和系统 | |
CN116015442A (zh) | 整机柜服务器光互联监控管理方法、系统、设备和介质 | |
CN104536853A (zh) | 一种保障双控制器存储设备资源连续可用性的方法 | |
CN107005440A (zh) | 一种链路故障定位的方法、装置及系统 | |
CN112751720B (zh) | 列车骨干网系统、故障检测方法及存储介质 | |
CN115733729A (zh) | 通信故障处理方法、系统及设备 | |
US20180138922A1 (en) | Transmission checking method, node, system and computer storage medium | |
CN113872687A (zh) | 一种基于链路层发现协议的光衰探测方法及装置 | |
CN110601944A (zh) | 一种在物联网中运用的can协议通信方法 | |
CN101316202A (zh) | 嵌入式软件的在线诊断方法和系统、嵌入式软件装置 | |
CN214670196U (zh) | 一种基于混合组网的海上风电监控系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |