CN113448810B - 一种PCIE设备link状态监测告警方法、装置、设备及可读介质 - Google Patents

一种PCIE设备link状态监测告警方法、装置、设备及可读介质 Download PDF

Info

Publication number
CN113448810B
CN113448810B CN202110530935.0A CN202110530935A CN113448810B CN 113448810 B CN113448810 B CN 113448810B CN 202110530935 A CN202110530935 A CN 202110530935A CN 113448810 B CN113448810 B CN 113448810B
Authority
CN
China
Prior art keywords
information
pcie
gpu
link state
bmc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110530935.0A
Other languages
English (en)
Other versions
CN113448810A (zh
Inventor
戴金锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110530935.0A priority Critical patent/CN113448810B/zh
Publication of CN113448810A publication Critical patent/CN113448810A/zh
Application granted granted Critical
Publication of CN113448810B publication Critical patent/CN113448810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • G06F11/326Display of status information by lamps or LED's for error or online/offline status
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种PCIE设备link状态监测告警方法,包括在BMC中执行以下步骤:通过逻辑单元获取若干PCIE设备的在位信息;接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。本发明还公开了一种PCIE设备link状态监测告警装置、计算机设备和可读存储介质。本发明针对初始上电就丢失PCIE设备的情况进行有效的日志记录和告警,弥补了监测盲区,使得整机系统对于PCIE设备link状态的监测告警方法更加完善。

Description

一种PCIE设备link状态监测告警方法、装置、设备及可读介质
技术领域
本发明涉及服务器技术领域,尤其涉及一种PCIE设备link状态监测告警方法、装置、设备及可读介质。
背景技术
随着AI、HPC、大数据等应用领域的飞速发展,对于计算机性能的要求也越来越高,传统的CPU服务器难以满足新业务的性能需求,采用CPU、GPU、FPGA、ASIC等处理器组合而成的异构计算模式来进行数据训练或推理,逐渐成为主流。GPU无法独立工作,CPU通过PCIE信号与GPU互联,目前主流的2路8GPU系统由2颗CPU、8颗GPU组成,2颗CPU经过4颗PCIE SWITCH扩展出8颗GPU,PCIE链路的稳定决定了是整机系统稳定工作的保障,因此对于GPU PCIElink状态的监测与及时告警越发重要。
现有技术对于GPU PCIE link状态的监控与告警主要是由BIOS和BMC之间交互完成,PCH中的BIOS固件根据8颗GPU PCIE枚举顺序会对8颗GPU有一个用于资产信息管理的编号,并且该编号与GPU物理位置绑定,不会随着GPU数量的变化而变化,系统下GPU序号、BMC资产信息中GPU序号以及板卡上GPU序号的丝印是一致的,当GPU PCIE link状态出现异常时,如降速或者将lane,BMC会有日志记录哪颗GPU link状态异常,并点亮系统故障灯;当在运行状态突然出现GPU丢失情况时,BMC会有日志记录哪颗GPU丢失,并点亮系统故障灯。
现有8GPU系统对于GPU PCIE link状态的监控主要由BIOS和BMC交互完成,如图1所示,现有技术监测及告警的方法包括:系统开机后,整机系统PCIE链路训练完成,PCH通过MDI信号抓取CPU PCIE Root Port下GPU的link状态,并通过LPC信号传递给BMC,BMC解析BIOS发送来的GPU PCIE link状态后显示到资产信息中;当GPU PCIE链路link状态出现降速或降lane情况时,BIOS会将异常信息传递给BMC,触发BMC记录日志,同时BMC会点亮整机前面板上系统告警灯进行告警;在运行过程中,出现GPU PCIE链路断开情况,BIOS会将异常信息传递给BMC,BMC会记录日志并点亮告警灯。
现有方案中,BMC对于CPU PCIE link状态的告警完全依赖于PCH中BIOS固件抓取的信息来解析,如果在开机时GPU就处于丢失状态,即GPU PCIE链路从开机就未曾连接,那么BMC对于这种情况下的GPU丢失是无法进行日志记录和告警的,系统对于GPU link状态的监测告警功能存在漏洞。
发明内容
有鉴于此,本发明实施例的目的在于提出一种PCIE设备link状态监测告警方法、装置、设备及可读介质,通过将BMC被动接受BIOS信息和主动通过逻辑器件判断相结合,针对初始上电就丢失PCIE设备的情况进行有效的日志记录和告警,弥补了监测盲区,使得整机系统对于PCIE设备link状态的监测告警方法更加完善。
基于上述目的,本发明实施例的一方面提供了一种PCIE设备link状态监测告警方法,包括在BMC中执行以下步骤:通过逻辑单元获取若干PCIE设备的在位信息;接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。
在一些实施方式中,还包括在逻辑单元中执行以下步骤:由逻辑器件抓取若干PCIE设备的在位信息,并将在位信息通过I2C发送给BMC。
在一些实施方式中,还包括在BIOS中执行以下步骤:由PCH通过MID信号抓取PCIE设备的link状态信息,并将link状态信息通过LPC信号发送给BMC;响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在一些实施方式中,响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC包括:响应于PCIE设备link状态出现降速或降lane,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在一些实施方式中,若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息包括:若是link状态信息的个数小于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息,并点亮对应的系统告警灯以进行告警。
在一些实施方式中,逻辑单元包括以下之一:FPGA、MCU、CPLD。
在一些实施方式中,PCIE设备包括以下之一:网卡、raid卡、GPU。
本发明实施例的另一方面,还提供了一种PCIE设备link状态监测告警装置,包括:第一模块,配置用于通过逻辑单元获取若干PCIE设备的在位信息;第二模块,配置用于接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;第三模块,配置用于若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及第四模块,配置用于响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。
本发明实施例的再一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现以下步骤:通过逻辑单元获取若干PCIE设备的在位信息;接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。
在一些实施方式中,还包括在逻辑单元中执行以下步骤:由逻辑器件抓取若干PCIE设备的在位信息,并将在位信息通过I2C发送给BMC。
在一些实施方式中,还包括在BIOS中执行以下步骤:由PCH通过MID信号抓取PCIE设备的link状态信息,并将link状态信息通过LPC信号发送给BMC;响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在一些实施方式中,响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC包括:响应于PCIE设备link状态出现降速或降lane,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在一些实施方式中,若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息包括:若是link状态信息的个数小于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息,并点亮对应的系统告警灯以进行告警。
在一些实施方式中,逻辑单元包括以下之一:FPGA、MCU、CPLD。
本发明实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
本发明具有以下有益技术效果:通过将BMC被动接受BIOS信息和主动通过逻辑器件判断相结合,针对初始上电就丢失PCIE设备的情况进行有效的日志记录和告警,弥补了监测盲区,使得整机系统对于PCIE设备link状态的监测告警方法更加完善。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为现有技术监测和告警方法的结构示意图;
图2为本发明提供的PCIE设备link状态监测告警方法的实施例的示意图;
图3为本发明提供的PCIE设备link状态监测告警方法的实施例的结构示意图;
图4为本发明提供的PCIE设备link状态监测告警方法的实施例的连接关系示意图;
图5为本发明提供的PCIE设备link状态监测告警装置的实施例的示意图;
图6为本发明提供的计算机设备的实施例的示意图;
图7为本发明提供的计算机可读存储介质的实施例的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了PCIE设备link状态监测告警方法的实施例。图2示出的是本发明提供的PCIE设备link状态监测告警方法的实施例的示意图。如图2所示,本发明实施例包括在BMC中执行如下步骤:
S01、通过逻辑单元获取若干PCIE设备的在位信息;
S02、接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;
S03、若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及
S04、响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。
在本实施例中,针对当前8GPU服务器中对于GPU Link状态的监测告警功能漏洞进行修补,在任何情况下出现的GPU丢失情况都能被BMC进行日志记录且触发告警。
在本实施例中,图3示出的是本发明提供的PCIE设备link状态监测告警方法的实施例的结构示意图,如图3所示,将完全由BIOS和BMC交互完成的现有GPU PCIe Link状态监测告警方案增加BMC判断程序。具体过程如下:
系统开机后,整机系统PCIe链路训练完成,PCH通过MDI信号抓取CPU PCIe RootPort下GPU的Link状态,FPGA抓取GPU在位信号;
PCH通过LPC信号将抓取的GPU Link状态信息传递给BMC,BMC解析BIOS发送来的GPU PCIe Link状态后显示到资产信息中;FPGA将抓取的GPU在位信息通过I2C传递给BMC;
当BIOS传递的GPU Link个数M小于FPGA抓取的GPU在位信息N时,BMC主动触发日志记录,记录下丢失的是哪一颗GPU
当GPU PCIe链路link状态出现降速或者降lane情况时,BIOS会将异常信息传递给BMC,触发BMC记录日志,同时BMC会点亮整机前面板上系统告警灯进行告警。
其中,GPU(Graphics Processing Unit)为图形处理单元,PCH(PlatformController Hub)为平台控制器,BMC(Board Manage Controller)为板上管理器;PCIeLink状态(PCIe链路的连接状态)包括设备信息、速率和lane数;PCIe Switch(PCIe交换单元)用于PCIe资源的扩展;LPC(Low pin count Bus)为一种计算机系统常见总线;DMI(Direct Media Interface)为直接媒体接口;GPIO(General-purpose input/output)指FPGA的通用IO pin。
在本实施例中,以2路8GPU系统为例,2路8GPU系统为例由2颗CPU、8颗GPU组成,2颗CPU经过4颗PCIE SWITCH扩展出8颗GPU。图4示出的是本发明提供的PCIE设备link状态监测告警方法的实施例的连接关系示意图,如图4所示,每颗GPU连接器的在位信号都接给FPGA相应的GPIO上,FPGA上电后,侦测GPU在位信号,并判断当前系统中有哪些物理位置的GPU连接器上已经接入GPU,并将侦测到的GPU接入信息通过I2C传递给BMC;PCH将通过BIOS固件抓取到的GPU PCIe Link状态信息,再通过LPC传递给BMC;在获得FPGA和PCH提供的信息后,BMC会进行以下两个工作:
将BIOS传递的GPU信息、Link状态显示到BMC管理网页下的资产信息清单中;如果有GPU有降速或者降Lane情况,进行相应的日志记录和告警灯点亮;
比较PCH传递的GPU正常Link数量M和FPGA传递的GPU在位信号数量N,如果M<N,再判断出PCIe链路没有正常Link的是哪一颗GPU,进而触发日志记录和告警灯点亮。
在本实施例中,其中最关键的是要将GPU连接器物理位置丝印、GPU在位信号对应的FPGA GPIO、BIOS抓取的GPU资产序号、以及BMC管理网页下显示的GPU信息完全对应起来。对应关系如表1所示:
表1
在本实施例中,上电开机后,FPGA读取到GPIO0、GPIO1、GPIO2、GPIO3、GPIO4、GPIO6、GPIO7在位信号使能,GPIO5对应的GPU没有在位,说明此时系统中接入了7颗GPU,其中物理位置丝印为GPU5的位置没有接入GPU;PCH通过BIOS固件抓取GPU PCIe Link信息,发现GPU资产序号为101的GPU没有Link,即GPU1丢失;PCH将抓取的信息通过LPC传递给BMC;BMC解析PCH传递过来的GPU PCIe Link信息,发现只有6颗GPU正常Link,且丢失的GPU为GPU1;BMC管理网页下的资产清单中只显示GPU0、GPU2、GPU3、GPU4、GPU6、GPU7这6颗GPU的信息及PCIe Link状态;BMC触发日志记录,记录下CPU0_SW0_GPU1丢失的日志,并且触发告警灯点亮。
在本发明的一些实施例中,还包括在逻辑单元中执行以下步骤:由逻辑器件抓取若干PCIE设备的在位信息,并将在位信息通过I2C发送给BMC。
在本发明的一些实施例中,还包括在BIOS中执行以下步骤:由PCH通过MID信号抓取PCIE设备的link状态信息,并将link状态信息通过LPC信号发送给BMC;响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在本发明的一些实施例中,响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC包括:响应于PCIE设备link状态出现降速或降lane,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在本发明的一些实施例中,若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息包括:若是link状态信息的个数小于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息,并点亮对应的系统告警灯以进行告警。
在本发明的一些实施例中,逻辑单元设置为逻辑器件,逻辑器件包括以下之一:FPGA、MCU、CPLD。
在本发明的一些实施例中,PCIE设备包括以下之一:网卡、raid卡、GPU。
需要特别指出的是,上述PCIE设备link状态监测告警方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于PCIE设备link状态监测告警方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种PCIE设备link状态监测告警装置。图5示出的是本发明提供的PCIE设备link状态监测告警装置的实施例的示意图。如图5所示,本发明实施例包括如下模块:第一模块S11,配置用于通过逻辑单元获取若干PCIE设备的在位信息;第二模块S12,配置用于接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;第三模块S13,配置用于若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及第四模块S14,配置用于响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图6示出的是本发明提供的计算机设备的实施例的示意图。如图6所示,本发明实施例包括如下装置:至少一个处理器S21;以及存储器S22,存储器S22存储有可在处理器上运行的计算机指令S23,指令由处理器执行时实现以下步骤:通过逻辑单元获取若干PCIE设备的在位信息;接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。
在本实施例中,通过将BMC被动接受BIOS信息和主动通过逻辑器件判断相结合,针对初始上电就丢失PCIE设备的情况进行有效的日志记录和告警,弥补了监测盲区,使得整机系统对于PCIE设备link状态的监测告警方法更加完善。
在本发明的一些实施例中,还包括在逻辑单元中执行以下步骤:由逻辑器件抓取若干PCIE设备的在位信息,并将在位信息通过I2C发送给BMC。
在本发明的一些实施例中,还包括在BIOS中执行以下步骤:由PCH通过MID信号抓取PCIE设备的link状态信息,并将link状态信息通过LPC信号发送给BMC;响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在本发明的一些实施例中,响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC包括:响应于PCIE设备link状态出现降速或降lane,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在本发明的一些实施例中,若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息包括:若是link状态信息的个数小于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息,并点亮对应的系统告警灯以进行告警。
在本发明的一些实施例中,逻辑单元设置为逻辑器件,逻辑器件包括以下之一:FPGA、MCU、CPLD。
本发明还提供了一种计算机可读存储介质。图7示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图7所示,计算机可读存储介质存储S31有被处理器执行时执行以下方法的计算机程序S32:通过逻辑单元获取若干PCIE设备的在位信息;接收BIOS发送的PCIE设备的link状态信息,并判断link状态信息的个数是否等于在位信息的个数;若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息;以及响应于接收到BIOS发送的PCIE设备link状态的异常信息,触发日志记录异常信息,并点亮对应的系统告警灯以进行告警。
在本实施例中,通过将BMC被动接受BIOS信息和主动通过逻辑器件判断相结合,针对初始上电就丢失PCIE设备的情况进行有效的日志记录和告警,弥补了监测盲区,使得整机系统对于PCIE设备link状态的监测告警方法更加完善。
在本发明的一些实施例中,还包括在逻辑单元中执行以下步骤:由逻辑器件抓取若干PCIE设备的在位信息,并将在位信息通过I2C发送给BMC。
在本发明的一些实施例中,还包括在BIOS中执行以下步骤:由PCH通过MID信号抓取PCIE设备的link状态信息,并将link状态信息通过LPC信号发送给BMC;响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在本发明的一些实施例中,响应于PCIE设备link状态发生异常,由BIOS将PCIE设备link状态的异常信息发送给BMC包括:响应于PCIE设备link状态出现降速或降lane,由BIOS将PCIE设备link状态的异常信息发送给BMC。
在本发明的一些实施例中,若是link状态信息的个数不等于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息包括:若是link状态信息的个数小于在位信息的个数,触发日志以记录link状态信息中丢失的PCIE设备的信息,并点亮对应的系统告警灯以进行告警。
在本发明的一些实施例中,逻辑单元设置为逻辑器件,逻辑器件包括以下之一:FPGA、MCU、CPLD。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,PCIE设备link状态监测告警方法的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,程序的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (7)

1.一种PCIE设备link状态监测告警方法,其特征在于,包括在BMC中执行以下步骤:
通过逻辑单元获取若干PCIE设备的在位信息,所述逻辑单元为FPGA,所述PCIE设备为GPU;
接收BIOS发送的所述PCIE设备的link状态信息,并判断所述link状态信息的个数是否等于所述在位信息的个数;
若是所述link状态信息的个数不等于所述在位信息的个数,触发日志以记录所述link状态信息中丢失的PCIE设备的信息,其进一步包括:
若是所述link状态信息的个数小于所述在位信息的个数,触发日志以记录所述link状态信息中丢失的PCIE设备的信息,并点亮对应的系统告警灯以进行告警;以及
响应于接收到所述BIOS发送的PCIE设备link状态的异常信息,触发日志记录所述异常信息,并点亮对应的系统告警灯以进行告警;
其中,GPU连接器物理位置丝印、GPU在位信号对应的FPGA GPIO、BIOS抓取的GPU资产序号、以及BMC管理网页下显示的GPU信息完全对应;
上电开机后,FPGA读取到第一数量的GPIO在位信号使能,第一GPIO对应的GPU没有在位,说明此时系统中接入了所述第一数量的GPU,其中物理位置丝印为第一GPU的位置没有接入GPU;PCH通过BIOS固件抓取GPU PCIe Link信息,发现GPU资产序号为第二序号的第二GPU没有Link,即第二GPU丢失;PCH将抓取的信息通过LPC传递给BMC;BMC解析PCH传递过来的GPU PCIe Link信息,发现只有第二数量的GPU正常Link,所述第二数量小于所述第一数量,且丢失的GPU为第二GPU;BMC管理网页下的资产清单中只显示所述第二数量的GPU的信息及PCIe Link状态;BMC触发日志记录,记录下与所述第二GPU对应的BMC网页下GPU信息显示序号丢失的日志,并且触发告警灯点亮。
2.根据权利要求1所述的PCIE设备link状态监测告警方法,其特征在于,还包括在逻辑单元中执行以下步骤:
由逻辑器件抓取若干PCIE设备的在位信息,并将所述在位信息通过I2C发送给BMC。
3.根据权利要求1所述的PCIE设备link状态监测告警方法,其特征在于,还包括在BIOS中执行以下步骤:
由PCH通过MID信号抓取所述PCIE设备的link状态信息,并将所述link状态信息通过LPC信号发送给BMC;
响应于PCIE设备link状态发生异常,由BIOS将所述PCIE设备link状态的异常信息发送给BMC。
4.根据权利要求3所述的PCIE设备link状态监测告警方法,其特征在于,响应于PCIE设备link状态发生异常,由BIOS将所述PCIE设备link状态的异常信息发送给BMC包括:
响应于PCIE设备link状态出现降速或降lane,由BIOS将所述PCIE设备link状态的异常信息发送给BMC。
5.一种PCIE设备link状态监测告警装置,其特征在于,包括:
第一模块,配置用于通过逻辑单元获取若干PCIE设备的在位信息,所述逻辑单元为FPGA,所述PCIE设备为GPU;
第二模块,配置用于接收BIOS发送的所述PCIE设备的link状态信息,并判断所述link状态信息的个数是否等于所述在位信息的个数;
第三模块,配置用于若是所述link状态信息的个数不等于所述在位信息的个数,触发日志以记录所述link状态信息中丢失的PCIE设备的信息,其进一步配置用于若是所述link状态信息的个数小于所述在位信息的个数,触发日志以记录所述link状态信息中丢失的PCIE设备的信息,并点亮对应的系统告警灯以进行告警;以及
第四模块,配置用于响应于接收到所述BIOS发送的PCIE设备link状态的异常信息,触发日志记录所述异常信息,并点亮对应的系统告警灯以进行告警;
其中,GPU连接器物理位置丝印、GPU在位信号对应的FPGA GPIO、BIOS抓取的GPU资产序号、以及BMC管理网页下显示的GPU信息完全对应;
上电开机后,FPGA读取到第一数量的GPIO在位信号使能,第一GPIO对应的GPU没有在位,说明此时系统中接入了所述第一数量的GPU,其中物理位置丝印为第一GPU的位置没有接入GPU;PCH通过BIOS固件抓取GPU PCIe Link信息,发现GPU资产序号为第二序号的第二GPU没有Link,即第二GPU丢失;PCH将抓取的信息通过LPC传递给BMC;BMC解析PCH传递过来的GPU PCIe Link信息,发现只有第二数量的GPU正常Link,所述第二数量小于所述第一数量,且丢失的GPU为第二GPU;BMC管理网页下的资产清单中只显示所述第二数量的GPU的信息及PCIe Link状态;BMC触发日志记录,记录下与所述第二GPU对应的BMC网页下GPU信息显示序号丢失的日志,并且触发告警灯点亮。
6.一种计算机设备,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-4任意一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任意一项所述方法的步骤。
CN202110530935.0A 2021-05-15 2021-05-15 一种PCIE设备link状态监测告警方法、装置、设备及可读介质 Active CN113448810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110530935.0A CN113448810B (zh) 2021-05-15 2021-05-15 一种PCIE设备link状态监测告警方法、装置、设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110530935.0A CN113448810B (zh) 2021-05-15 2021-05-15 一种PCIE设备link状态监测告警方法、装置、设备及可读介质

Publications (2)

Publication Number Publication Date
CN113448810A CN113448810A (zh) 2021-09-28
CN113448810B true CN113448810B (zh) 2023-08-18

Family

ID=77809899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110530935.0A Active CN113448810B (zh) 2021-05-15 2021-05-15 一种PCIE设备link状态监测告警方法、装置、设备及可读介质

Country Status (1)

Country Link
CN (1) CN113448810B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003450B (zh) * 2021-10-25 2024-01-12 苏州浪潮智能科技有限公司 自动切换pcie链路的测试治具、测试方法及计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302755B (zh) * 2014-06-27 2018-08-14 曙光信息产业(北京)有限公司 一种具有监控功能的pcie板卡及其监控方法
CN110377469B (zh) * 2019-07-12 2022-11-18 苏州浪潮智能科技有限公司 一种pcie设备的检测系统以及方法
CN110399267B (zh) * 2019-07-24 2022-11-25 苏州浪潮智能科技有限公司 一种服务器pcie设备监控方法、系统、设备及可读存储介质
CN110618918A (zh) * 2019-09-06 2019-12-27 苏州浪潮智能科技有限公司 Pch下硬盘状态灯的控制方法、控制装置及控制设备
CN111722990A (zh) * 2020-06-21 2020-09-29 苏州浪潮智能科技有限公司 一种主背板间的线缆连接校验方法和装置
CN112463490B (zh) * 2020-12-01 2022-07-19 苏州浪潮智能科技有限公司 带PCIe retimer的链路状态诊断系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN113448810A (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN101145969B (zh) 一种减少网元上报告警数量的方法及系统
CN105138441B (zh) 高可用集群系统及基于该系统的告警方法、告警系统
CN104102559B (zh) 一种基于冗余心跳链路和对端重启链路的双控制器存储系统
CN101291243B (zh) 高可用集群系统的裂脑预防方法
CN101997709B (zh) 一种根告警数据分析的方法及其系统
CN113448810B (zh) 一种PCIE设备link状态监测告警方法、装置、设备及可读介质
CN111722690B (zh) 服务器电源模块监控方法、装置、服务器和存储介质
CN109217922A (zh) 一种光模块上报接收信号丢失告警的方法及装置
CN106878096B (zh) Vnf状态检测通告方法、装置以及系统
CN106648949B (zh) 一种存储系统及数据传输方法
CN102325171B (zh) 一种监控系统中数据的存储方法及其系统
CN112069023A (zh) 一种存储链路监控系统及方法
CN111309553A (zh) 一种监控存储Jbod的方法、系统、设备及介质
CN115080362A (zh) 一种pcie设备降速上报方法、系统、设备以及存储介质
CN113986618B (zh) 集群脑裂自动修复方法、系统、装置及存储介质
CN113448512B (zh) 一种缓存分区恢复的接管方法、装置、设备及可读介质
CN109684136A (zh) 一种灵活配置主控的通信架构系统
WO2013081487A1 (en) Supervising a data storage system
CN106648985A (zh) 一种文本数据库的容灾修复方法及装置
CN202306242U (zh) 一种机房监控综合报警设备
CN201576345U (zh) 报警响应器
CN114915602B (zh) 虚拟交换机中流表的处理方法、处理装置及终端
CN110035007A (zh) 数据传输方法及系统、存储介质、电子装置
CN115129702A (zh) 信号系统维护数据清洗方法和装置
CN115129569A (zh) 一种服务器串口日志收集的方法、装置、设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant