CN113645056B - 一种定位智能网卡故障的方法及系统 - Google Patents

一种定位智能网卡故障的方法及系统 Download PDF

Info

Publication number
CN113645056B
CN113645056B CN202110710252.3A CN202110710252A CN113645056B CN 113645056 B CN113645056 B CN 113645056B CN 202110710252 A CN202110710252 A CN 202110710252A CN 113645056 B CN113645056 B CN 113645056B
Authority
CN
China
Prior art keywords
fault
equipment
information
range
mmio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110710252.3A
Other languages
English (en)
Other versions
CN113645056A (zh
Inventor
罗鹏芳
刘涛
杨少俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110710252.3A priority Critical patent/CN113645056B/zh
Publication of CN113645056A publication Critical patent/CN113645056A/zh
Application granted granted Critical
Publication of CN113645056B publication Critical patent/CN113645056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Small-Scale Networks (AREA)

Abstract

本申请公开了一种定位智能网卡故障的方法及系统,该方法包括:确定用于智能网卡故障定位的设备资产信息,收集PCIe设备信息、所述Bus范围和MMIO范围,所述PCIe设备信息中包括所述设备信息;将收集到的PCIe设备信息、所述Bus范围和MMIO范围存放至BMC的资产信息清单中;获取到智能网卡在不同故障类型下的故障信息后,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源。该系统包括:信息确定模块、收集模块、存储模块和故障定位模块。通过本申请,能够有效提高故障定位的准确性和诊断效率。

Description

一种定位智能网卡故障的方法及系统
技术领域
本申请涉及PCIe(peripheral component interconnect express,一种高速串行计算机扩展总线标准)设备故障处理技术领域,特别是涉及一种定位智能网卡故障的方法及系统。
背景技术
随着互联网技术的发展,作为PCIe设备的智能网卡应用范围越来越广泛。智能网卡主要用于提升应用程序和虚拟化性能,能将数据包的处理工作负载从CPU转移到智能网卡,从而提高云数据处理中心的服务器性能。
随着智能网卡的使用,逐渐出现由于智能网卡而导致的服务器宕机故障,如何定位智能网卡故障,从而确保服务器正常稳定运行,是个重要的技术问题。
目前定位智能网卡故障的方法,通常是通过BIOS(Basic Input Output System,基本输入输出系统)配置中断,通过SMI(System Management Interrupt,系统管理中断)检查智能网卡的AER(Advanced Error Report,高级错误报告)信息,一旦发现有错误记录则将解析的智能网卡的BDF信息发送给BMC(Baseboard Management Controller,基板管理控制器),BMC定位具体的智能网卡。
然而,目前对智能网卡的故障定位方法中,由于智能网卡一般会动态虚拟出几十个甚至上百个PCIe的设备,包含桥和设备,一个智能网卡的内部设备拓扑图可以参见图1所示。BMC的资产信息清单中通常只存放智能网卡的第一个设备信息,但是实际运行过程中,故障可能发生在第一个设备上,也可能发生在其他虚拟设备上,由于BMC无法识别解析出的PCIe设备是否为智能网卡虚拟出来的设备,从而无法定位故障源,此时,需要运维人员对问题单进行深层次调试分析故障原因,如收集OS(Operating System,操作系统)下的PCIe设备列表再人工分析。因此,目前对智能网卡的故障定位方法定位的诊断效率较低,导致运维压力较大。
发明内容
本申请提供了一种定位智能网卡故障的方法及系统,以解决现有技术中智能网卡故障定位方法定位的诊断效率较低的问题。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种定位智能网卡故障的方法,所述方法包括:
确定用于智能网卡故障定位的设备资产信息,所述设备资产信息中包括:智能网卡内第一个子设备的设备信息、智能网卡所连接的RP(Root Port,根端口)、所述RP下级设备的Bus(总线)范围和MMIO(Memory-mapped I/O,内存映射I/O)范围,所述设备信息包括:所述第一个子设备的BDF(Bus Device Function,总线设备功能)、设备名称和槽位信息;
收集PCIe设备信息、所述Bus范围和MMIO范围,所述PCIe设备信息中包括所述设备信息;
将收集到的PCIe设备信息、所述Bus范围和MMIO范围存放至BMC的资产信息清单中;
获取到智能网卡在不同故障类型下的故障信息后,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源,所述故障类型包括:CE故障、UCE故障和IERR(CPUInternal Error,CPU内部故障)故障。
可选地,所述故障信息包括:故障设备的BDF、故障级别和故障类型。
可选地,所述收集PCIe设备信息、所述Bus范围和MMIO范围,包括:
在服务器开机启动阶段,通过BIOS收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围;
BIOS通过IPMI命令,将所述PCIe设备信息以及RP下级设备的Bus范围和MMIO范围发送给BMC。
可选地,所述收集PCIe设备信息、所述Bus范围和MMIO范围,包括:
在服务器开机启动阶段,通过BIOS收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围;
BIOS将PCIe设备信息以及RP下级设备的Bus范围和MMIO范围写入共享内存;
BMC根据所获取的命令,从共享内存获取所述PCIe设备信息以及RP下级设备的Bus范围和MMIO范围。
可选地,所述收集PCIe设备信息、所述Bus范围和MMIO范围,包括:
在服务器开机启动阶段,BIOS收集PCIe设备信息;
BIOS将所述PCIe设备信息中PCIe设备的BDF、设备名称和槽位信息发送至BMC;
在服务器开机启动阶段结束后,BMC通过PECI通道收集PCIe设备的MMIO资源、RP下级设备的Bus范围和MMIO范围。
可选地,当故障类型为CE故障或UCE故障时,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源的方法,包括:
根据所述故障信息,确定故障设备的BDF;
判断所述故障设备的BDF是否与资产信息清单中一个PCIe设备的BDF一致;
如果是,根据资产信息清单中与所述故障设备BDF一致的PCIe设备的BDF,输出故障设备的设备名称和槽位信息;
如果否,判断所述故障设备的BDF中Bus是否存在于资产信息清单中RP下级设备的Bus范围内;
如果是,判定所述故障设备是位于RP后所连接的PCIe设备内部的子设备;
根据资产信息清单中RP下级设备的Bus范围,输出故障设备的设备名称和槽位信息;
如果否,判定故障定位失败,输出诊断结果。
可选地,当故障类型为IERR故障时,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源的方法,包括:
根据所述故障信息,收集MCA(enhanced machine check architecture,硬件检测机制)错误信息;
根据所述MCA错误信息确定物理地址;
根据所述物理地址所指向的不同地址空间,通过比对所述物理地址和设备资产信息中的BDF或MMIO地址段,定位智能网卡的故障源。
可选地,当所述物理地址所指向的地址空间为MMCFG空间时,通过比对所述物理地址和设备资产信息中的BDF或MMIO地址段,定位智能网卡的故障源的方法,包括:
根据所述故障信息解析出故障设备的BDF;
判断所述故障设备的BDF是否与资产信息清单中一个PCIe设备的BDF一致;
如果是,根据资产信息清单中与所述故障设备BDF一致的PCIe设备的BDF,输出故障设备的设备名称和槽位信息;
如果否,判断所述故障设备的BDF中Bus是否存在于资产信息清单中RP的Bus范围内;
如果是,判定所述故障设备是位于RP后所连接的PCIe设备内部的子设备;
根据资产信息清单中RP下级设备的Bus范围,输出故障设备的设备名称和槽位信息;
如果否,判定故障定位失败,输出诊断结果。
可选地,当所述物理地址所指向的地址空间为MMIO空间时,通过比对所述物理地址和设备资产信息中的BDF或MMIO地址段,定位智能网卡的故障源的方法,包括:
判断所述故障设备的MMIO是否与资产信息清单中一个PCIe设备的MMIO范围相匹配;
如果是,根据资产信息清单中与所述故障设备MMIO相匹配的PCIe设备的MMIO范围,输出故障设备的设备名称和槽位信息;
如果否,判断所述故障设备的MMIO是否存在于资产信息清单中RP的MMIO范围内;
如果是,判定所述故障设备是位于RP后所连接的PCIe设备内部的子设备;
根据资产信息清单中RP的MMIO范围,输出故障设备的设备名称和槽位信息;
如果否,判定故障定位失败,输出诊断结果。
一种定位智能网卡故障的系统,所述系统包括:
信息确定模块,用于确定用于智能网卡故障定位的设备资产信息,所述设备资产信息中包括:智能网卡内第一个子设备的设备信息、智能网卡所连接的RP、所述RP下级设备的Bus范围和MMIO范围,所述设备信息包括:所述第一个子设备的BDF、设备名称和槽位信息;
收集模块,用于收集PCIe设备信息、所述Bus范围和MMIO范围,所述PCIe设备信息中包括所述设备信息;
存储模块,用于将收集到的PCIe设备信息、所述Bus范围和MMIO范围存放至BMC的资产信息清单中;
故障定位模块,用于获取到智能网卡在不同故障类型下的故障信息后,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源,所述故障类型包括:CE故障、UCE故障和IERR故障。
本申请的实施例提供的技术方案可以包括以下有益效果:
本申请提供一种定位智能网卡故障的方法,该方法首先确定用于智能网卡故障定位的设备资产信息,设备资产信息中包含有设备信息,其次收集包含有设备信息的PCIe设备信息、设备资产信息中的Bus范围和MMIO范围,然后将收集到的PCIe设备信息、所述Bus范围和MMIO范围存放至BMC的资产信息清单中;最后,当获取到智能网卡在不同故障类型下的故障信息时,通过比对故障信息和设备资产信息,定位智能网卡的故障源。本实施例通过确定设备资产信息、收集与智能网卡故障诊断有关的信息,并将智能网卡所接RP的Bus范围和MMIO范围存放至BMC,当收到智能网卡中某一设备的BDF或MMIO物理地址错误的故障信息时,将该故障信息比对所存放至BMC中的信息,从而定位智能网卡故障源。
由于本实施例的设备资产信息中包括智能网卡所连接的RP、RP下级设备的Bus范围和MMIO范围,还包括智能网卡内第一个子设备的相关设备信息,因此,在进行故障定位时,能够更加快速而准确地识别是否为智能网卡虚拟出的设备,并根据该虚拟设备的RP信息定位到相应的智能网卡,从而能够准确而快速地定位故障源。而且本实施例针对不同的故障类型,采用不同的故障诊断逻辑,从而能够覆盖到由于智能网卡导致的CE故障、UCE故障和IERR故障,故障类型全面,且故障诊断方法有针对性,有利于进一步提高故障诊断的准确性和诊断效率。
本申请还提供一种定位智能网卡故障的系统,该系统包括:信息确定模块、收集模块、存储模块和故障定位模块四部分,通过信息确定模块确定用于智能网卡故障定位的设备资产信息,这些信息包括智能网卡所连接的RP、RP下级设备的Bus范围和MMIO范围,还包括智能网卡内第一个子设备的相关设备信息,能够为后续故障定位提供有效依据,有利于提高故障诊断的准确性。通过收集模块和存储模块对响应的信息进行采集和存储,通过故障定位模块针对不同的故障类型采用不同的故障定位逻辑,能够有效提高智能网卡故障定位的准确性和诊断效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为智能网卡的内部设备拓扑结构示意图;
图2为本申请实施例所提供的一种定位智能网卡故障的方法的流程示意图;
图3为本申请实施例中BMC存放的单个PCIe设备及智能网卡所连接的RP的信息清单示意图;
图4为本申请实施例所提供的一种定位智能网卡故障的系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
为了更好地理解本申请,下面结合附图来详细解释本申请的实施方式。
实施例一
参见图2,图2为本申请实施例所提供的一种定位智能网卡故障的方法的流程示意图。由图2可知,本实施例中定位智能网卡故障的方法,主要包括:
S1:确定用于智能网卡故障定位的设备资产信息。
本实施例中设备资产信息作为诊断智能网卡故障的辅助诊断信息,该设备资产信息中包括:智能网卡内第一个子设备的设备信息、智能网卡所连接的RP、RP下级设备的Bus范围和MMIO范围。其中,设备信息又包括:第一个子设备的BDF、设备名称和槽位信息。
智能网卡属于PCIe设备的一种,通常一个智能网卡可以动态虚拟出几十个甚至上百个PCIe设备。
S2:收集PCIe设备信息、Bus范围和MMIO范围。其中,该PCIe设备信息中包括设备信息,也就是包括有智能网卡内第一个子设备的BDF、设备名称和槽位信息。RP下级设备的Bus范围包括:secondary bus-subordinate bus,RP下级设备的MMIO范围包括:Base-Limit。
具体地,收集PCIe设备信息、Bus范围和MMIO范围的方法包括三种。
第一种方法包括如下步骤:
S211:在服务器开机启动阶段,通过BIOS收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围。
S212:BIOS通过IPMI命令,将所述PCIe设备信息以及RP下级设备的Bus范围和MMIO范围发送给BMC。
也就是在服务器开机启动阶段BIOS将收集到的PCIe设备信息以及RP下级设备的Bus范围和MMIO范围这些信息,通过IPMI命令发送给BMC。
第二种方法包括如下过程:
S221:在服务器开机启动阶段,通过BIOS收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围。
S222:BIOS将PCIe设备信息以及RP下级设备的Bus范围和MMIO范围写入共享内存。
S223:BMC根据所获取的命令,从共享内存获取PCIe设备信息以及RP下级设备的Bus范围和MMIO范围。
第二种方法也是在服务器开机启动阶段执行,是BIOS将收集到的PCIe设备信息以及RP下级设备的Bus范围和MMIO范围这些信息,写入共享内存,并通知BMC获取。
第三种方法包括如下过程:
S231:在服务器开机启动阶段,BIOS收集PCIe设备信息。
S232:BIOS将PCIe设备信息中PCIe设备的BDF、设备名称和槽位信息发送至BMC。
S233:在服务器开机启动阶段结束后,BMC通过PECI通道收集PCIe设备的MMIO资源、RP下级设备的Bus范围和MMIO范围。
第三种方法中,PCIe设备信息中PCIe设备的BDF、设备名称和槽位信息这部分信息在服务器开机启动阶段获取,PCIe设备的MMIO资源、RP下级设备的Bus范围和MMIO范围这部分信息在开机启动阶段结束后获取。服务器开机启动阶段结束后,完成PCIe设备的资源分配,针对CPU支持带外访问RP资源的情况,可以采用第三种方法由BMC通过带外收集RP的Bus范围和MMIO范围的信息。
继续参见图2可知,收集PCIe设备信息、Bus范围和MMIO范围这些信息后,执行步骤S3:将收集到的PCIe设备信息、Bus范围和MMIO范围存放至BMC的资产信息清单中。
本实施例中BMC存放的单个PCIe设备及智能网卡所连接的RP的信息清单示意图,可以参见图3所示。
继续参见图2可知,获取到智能网卡在不同故障类型下的故障信息后,执行步骤S4:通过比对故障信息和设备资产信息,定位智能网卡的故障源。
其中,本实施例中智能网卡的故障类型包括:CE故障、UCE故障和IERR故障。
当故障类型为CE故障或UCE故障时,步骤S4包括如下过程:
S411:根据故障信息,确定故障设备的BDF。
S412:判断故障设备的BDF是否与资产信息清单中一个PCIe设备的BDF一致。
也就是判断资产信息清单的所有PCIe设备的BDF中,是否有一个BDF与当前故障设备的BDF是相同。
如果故障设备的BDF与资产信息清单中一个PCIe设备的BDF一致,执行步骤S413:根据资产信息清单中与故障设备BDF一致的PCIe设备的BDF,输出故障设备的设备名称和槽位信息。
如果故障设备的BDF与资产信息清单中任何一个PCIe设备的BDF都不一致,则执行步骤S414:判断故障设备的BDF中Bus是否存在于资产信息清单中RP下级设备的Bus范围内。
如果故障设备的BDF中Bus存在于资产信息清单中RP下级设备的Bus范围内,执行步骤S415:判定故障设备是位于RP后所连接的PCIe设备内部的子设备。
S416:根据资产信息清单中RP下级设备的Bus范围,输出故障设备的设备名称和槽位信息。
如果故障设备的BDF中Bus不存在于资产信息清单中RP下级设备的Bus范围内,执行步骤S417:判定故障定位失败,输出诊断结果。
也就是故障设备的BDF与资产信息清单中任何一个PCIe设备的BDF都不一致,且,故障设备的BDF中Bus不存在于资产信息清单中RP下级设备的Bus范围内时,判定故障定位失败。
当故障类型为IERR故障时,步骤S4包括如下过程:
S42:根据故障信息,收集MCA错误信息。
S43:根据MCA错误信息确定物理地址。
S44:根据物理地址所指向的不同地址空间,通过比对物理地址和设备资产信息中的BDF或MMIO地址段,定位智能网卡的故障源。
PCIe设备占据地址空间中的两段空间:MMCFG地址段和MMIO地址段。本实施例中的物理地址可能指向设备的MMCFG空间,也可能指向MMIO空间。本实施例针对物理地址所指向的不同地址空间,采用不同的方法定位智能网卡的故障源,这种诊断方式能够针对不同情况采用不同方法,有针对性,有利于提高诊断结果的准确性。
具体地,根据物理地址所指向的不同地址空间,步骤S44有两种实现方式。第一种实现方式适用于物理地址所指向的地址空间为MMCFG空间时,第二中实现方式适用于物理地址所指向的地址空间为MMIO空间时。
第一种实现方式包括如下过程:
S4401:根据故障信息解析出故障设备的BDF。
S4202:判断故障设备的BDF是否与资产信息清单中一个PCIe设备的BDF一致。
如果故障设备的BDF与资产信息清单中一个PCIe设备的BDF一致,执行步骤S4403:根据资产信息清单中与故障设备BDF一致的PCIe设备的BDF,输出故障设备的设备名称和槽位信息。
如果故障设备的BDF与资产信息清单中任何一个PCIe设备的BDF都不一致,执行步骤S4404:判断故障设备的BDF中Bus是否存在于资产信息清单中RP的Bus范围内。
如果故障设备的BDF中Bus存在于资产信息清单中RP的Bus范围内,执行步骤S4405:判定故障设备是位于RP后所连接的PCIe设备内部的子设备。
S4406:根据资产信息清单中RP下级设备的Bus范围,输出故障设备的设备名称和槽位信息。
如果故障设备的BDF中Bus不存在于资产信息清单中RP的Bus范围内,执行步骤S4407:判定故障定位失败,输出诊断结果。
第二种实现方式包括如下过程:
S4411:判断故障设备的MMIO是否与资产信息清单中一个PCIe设备的MMIO范围相匹配。
如果故障设备的MMIO与资产信息清单中一个PCIe设备的MMIO范围相匹配,执行步骤S4412:根据资产信息清单中与故障设备MMIO相匹配的PCIe设备的MMIO范围,输出故障设备的设备名称和槽位信息。
如果故障设备的MMIO与资产信息清单中任何一个PCIe设备的MMIO范围都不匹配,执行步骤S4413:判断故障设备的MMIO是否存在于资产信息清单中RP的MMIO范围内。
如果故障设备的MMIO存在于资产信息清单中RP的MMIO范围内,执行步骤S4414:判定故障设备是位于RP后所连接的PCIe设备内部的子设备。
也就是通过比较故障设备的MMIO和所有RP的MMIO的Base到Limit,当故障设备的MMIO落入RP的MMIO范围内时,表示MMIO地址所指向的设备位于RP后所连接的PCIe设备内部的子设备中。
判定故障设备是位于RP后所连接的PCIe设备内部的子设备后,执行不足S4415:根据资产信息清单中RP的MMIO范围,输出故障设备的设备名称和槽位信息。
如果故障设备的MMIO不存在于资产信息清单中RP的MMIO范围内,执行步骤S4416:判定故障定位失败,输出诊断结果。
通过步骤S4,本实施例中的方法能够涵盖智能网卡可能导致的各种故障类型,并针对不同的故障类型采用不同的故障定位诊断逻辑,这种方法能够有效提高智能网卡故障定位的准确性和定位效率。
实施例二
在图2和图3所示实施例的基础上参见图4,图4为本申请实施例所提供的一种定位智能网卡故障的系统的结构示意图。由图4可知,本实施例中定位智能网卡故障的系统包括:信息确定模块、收集模块、存储模块和故障定位模块四部分。
其中,信息确定模块,用于确定用于智能网卡故障定位的设备资产信息,设备资产信息中包括:智能网卡内第一个子设备的设备信息、智能网卡所连接的RP、RP下级设备的Bus范围和MMIO范围,设备信息包括:第一个子设备的BDF、设备名称和槽位信息;收集模块,用于收集PCIe设备信息、Bus范围和MMIO范围,PCIe设备信息中包括设备信息;存储模块,用于将收集到的PCIe设备信息、Bus范围和MMIO范围存放至BMC的资产信息清单中;故障定位模块,用于获取到智能网卡在不同故障类型下的故障信息后,通过比对故障信息和设备资产信息,定位智能网卡的故障源,故障类型包括:CE故障、UCE故障和IERR故障。
进一步地,收集模块有三种实现方式。三种实现方式都包括BIOS和BMC,但是具体所执行的操作不同。
第一种方式包括BIOS和BMC,其中,BIOS用于在服务器开机启动阶段,收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围,以及,通过IPMI命令,将PCIe设备信息以及RP下级设备的Bus范围和MMIO范围发送给BMC。BMC用于接收和存储PCIe设备信息以及RP下级设备的Bus范围和MMIO范围。
第二种实现方式包括:BIOS和BMC,其中,BIOS用于在服务器开机启动阶段,收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围,以及,将PCIe设备信息以及RP下级设备的Bus范围和MMIO范围写入共享内存。BMC用于根据所获取的命令,从共享内存获取PCIe设备信息以及RP下级设备的Bus范围和MMIO范围。
第三种实现方式包括:BIOS和BMC,其中,BIOS用于在服务器开机启动阶段收集PCIe设备信息,以及,将PCIe设备信息中PCIe设备的BDF、设备名称和槽位信息发送至BMC;BMC用于在服务器开机启动阶段结束后,通过PECI通道收集PCIe设备的MMIO资源、RP下级设备的Bus范围和MMIO范围。
故障定位模块包括:第一故障定位单元和第二故障定位单元。
其中,第一故障定位单元,用于当故障类型为CE故障或UCE故障时,通过比对故障信息和设备资产信息,定位智能网卡的故障源。第二故障定位单元,用于当故障类型为IERR故障时,通过比对故障信息和设备资产信息,定位智能网卡的故障源。
该实施例中定位智能网卡故障的系统的工作原理和工作方法,在图2和图3所示的实施例中已经详细阐述,两者之间可以互相参照,在此不再赘述。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种定位智能网卡故障的方法,其特征在于,所述方法包括:
确定用于智能网卡故障定位的设备资产信息,所述设备资产信息中包括:智能网卡内第一个子设备的设备信息、智能网卡所连接的RP、所述RP下级设备的Bus范围和MMIO范围,所述设备信息包括:所述第一个子设备的BDF、设备名称和槽位信息;
收集PCIe设备信息、所述Bus范围和MMIO范围,所述PCIe设备信息中包括所述设备信息;
将收集到的PCIe设备信息、所述Bus范围和MMIO范围存放至BMC的资产信息清单中;
获取到智能网卡在不同故障类型下的故障信息后,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源,所述故障类型包括:CE故障、UCE故障和IERR故障。
2.根据权利要求1所述的一种定位智能网卡故障的方法,其特征在于,所述故障信息包括:故障设备的BDF、故障级别和故障类型。
3.根据权利要求1所述的一种定位智能网卡故障的方法,其特征在于,所述收集PCIe设备信息、所述Bus范围和MMIO范围,包括:
在服务器开机启动阶段,通过BIOS收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围;
BIOS通过IPMI命令,将所述PCIe设备信息以及RP下级设备的Bus范围和MMIO范围发送给BMC。
4.根据权利要求1所述的一种定位智能网卡故障的方法,其特征在于,所述收集PCIe设备信息、所述Bus范围和MMIO范围,包括:
在服务器开机启动阶段,通过BIOS收集PCIe设备信息以及RP下级设备的Bus范围和MMIO范围;
BIOS将PCIe设备信息以及RP下级设备的Bus范围和MMIO范围写入共享内存;
BMC根据所获取的命令,从共享内存获取所述PCIe设备信息以及RP下级设备的Bus范围和MMIO范围。
5.根据权利要求1所述的一种定位智能网卡故障的方法,其特征在于,所述收集PCIe设备信息、所述Bus范围和MMIO范围,包括:
在服务器开机启动阶段,BIOS收集PCIe设备信息;
BIOS将所述PCIe设备信息中PCIe设备的BDF、设备名称和槽位信息发送至BMC;
在服务器开机启动阶段结束后,BMC通过PECI通道收集PCIe设备的MMIO资源、RP下级设备的Bus范围和MMIO范围。
6.根据权利要求1所述的一种定位智能网卡故障的方法,其特征在于,当故障类型为CE故障或UCE故障时,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源的方法,包括:
根据所述故障信息,确定故障设备的BDF;
判断所述故障设备的BDF是否与资产信息清单中一个PCIe设备的BDF一致;
如果是,根据资产信息清单中与所述故障设备BDF一致的PCIe设备的BDF,输出故障设备的设备名称和槽位信息;
如果否,判断所述故障设备的BDF中Bus是否存在于资产信息清单中RP下级设备的Bus范围内;
如果是,判定所述故障设备是位于RP后所连接的PCIe设备内部的子设备;
根据资产信息清单中RP下级设备的Bus范围,输出故障设备的设备名称和槽位信息;
如果否,判定故障定位失败,输出诊断结果。
7.根据权利要求1所述的一种定位智能网卡故障的方法,其特征在于,当故障类型为IERR故障时,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源的方法,包括:
根据所述故障信息,收集MCA错误信息;
根据所述MCA错误信息确定物理地址;
根据所述物理地址所指向的不同地址空间,通过比对所述物理地址和设备资产信息中的BDF或MMIO地址段,定位智能网卡的故障源。
8.根据权利要求7所述的一种定位智能网卡故障的方法,其特征在于,当所述物理地址所指向的地址空间为MMCFG空间时,通过比对所述物理地址和设备资产信息中的BDF或MMIO地址段,定位智能网卡的故障源的方法,包括:
根据所述故障信息解析出故障设备的BDF;
判断所述故障设备的BDF是否与资产信息清单中一个PCIe设备的BDF一致;
如果是,根据资产信息清单中与所述故障设备BDF一致的PCIe设备的BDF,输出故障设备的设备名称和槽位信息;
如果否,判断所述故障设备的BDF中Bus是否存在于资产信息清单中RP的Bus范围内;
如果是,判定所述故障设备是位于RP后所连接的PCIe设备内部的子设备;
根据资产信息清单中RP下级设备的Bus范围,输出故障设备的设备名称和槽位信息;
如果否,判定故障定位失败,输出诊断结果。
9.根据权利要求7所述的一种定位智能网卡故障的方法,其特征在于,当所述物理地址所指向的地址空间为MMIO空间时,通过比对所述物理地址和设备资产信息中的BDF或MMIO地址段,定位智能网卡的故障源的方法,包括:
判断所述故障设备的MMIO是否与资产信息清单中一个PCIe设备的MMIO范围相匹配;
如果是,根据资产信息清单中与所述故障设备MMIO相匹配的PCIe设备的MMIO范围,输出故障设备的设备名称和槽位信息;
如果否,判断所述故障设备的MMIO是否存在于资产信息清单中RP的MMIO范围内;
如果是,判定所述故障设备是位于RP后所连接的PCIe设备内部的子设备;
根据资产信息清单中RP的MMIO范围,输出故障设备的设备名称和槽位信息;
如果否,判定故障定位失败,输出诊断结果。
10.一种定位智能网卡故障的系统,其特征在于,所述系统包括:
信息确定模块,用于确定用于智能网卡故障定位的设备资产信息,所述设备资产信息中包括:智能网卡内第一个子设备的设备信息、智能网卡所连接的RP、所述RP下级设备的Bus范围和MMIO范围,所述设备信息包括:所述第一个子设备的BDF、设备名称和槽位信息;
收集模块,用于收集PCIe设备信息、所述Bus范围和MMIO范围,所述PCIe设备信息中包括所述设备信息;
存储模块,用于将收集到的PCIe设备信息、所述Bus范围和MMIO范围存放至BMC的资产信息清单中;
故障定位模块,用于获取到智能网卡在不同故障类型下的故障信息后,通过比对所述故障信息和设备资产信息,定位智能网卡的故障源,所述故障类型包括:CE故障、UCE故障和IERR故障。
CN202110710252.3A 2021-06-25 2021-06-25 一种定位智能网卡故障的方法及系统 Active CN113645056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110710252.3A CN113645056B (zh) 2021-06-25 2021-06-25 一种定位智能网卡故障的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110710252.3A CN113645056B (zh) 2021-06-25 2021-06-25 一种定位智能网卡故障的方法及系统

Publications (2)

Publication Number Publication Date
CN113645056A CN113645056A (zh) 2021-11-12
CN113645056B true CN113645056B (zh) 2022-11-22

Family

ID=78416171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110710252.3A Active CN113645056B (zh) 2021-06-25 2021-06-25 一种定位智能网卡故障的方法及系统

Country Status (1)

Country Link
CN (1) CN113645056B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315164A (ja) * 1999-04-30 2000-11-14 Tokyo Denshi Sekkei Kk 電子機器の障害検査システム及び電子機器
CN109189602A (zh) * 2018-09-21 2019-01-11 郑州云海信息技术有限公司 一种PCIE Slot故障定位方法、装置以及设备
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10528415B2 (en) * 2017-02-28 2020-01-07 International Business Machines Corporation Guided troubleshooting with autofilters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000315164A (ja) * 1999-04-30 2000-11-14 Tokyo Denshi Sekkei Kk 電子機器の障害検査システム及び電子機器
CN109189602A (zh) * 2018-09-21 2019-01-11 郑州云海信息技术有限公司 一种PCIE Slot故障定位方法、装置以及设备
CN111767184A (zh) * 2020-09-01 2020-10-13 苏州浪潮智能科技有限公司 一种故障诊断方法、装置及电子设备和存储介质

Also Published As

Publication number Publication date
CN113645056A (zh) 2021-11-12

Similar Documents

Publication Publication Date Title
EP3352083B1 (en) Debugging method, multi-core processor, and debugging equipment
US8069371B2 (en) Method and system for remotely debugging a hung or crashed computing system
JP6845264B2 (ja) オポチュニスティックハイパーバイザを用いたパフォーマンスの変動の低減
JP2020166879A (ja) 部分的にオフロードされた仮想化マネージャにおけるメモリ割当て技術
US20030014738A1 (en) Operating system debugger extensions for hypervisor debugging
CN106919485B (zh) 一种基于服务器上配置硬件测试工具的系统
US20030131039A1 (en) System, method, and computer program product for preserving trace data after partition crash in logically partitioned systems
EP2189906A1 (en) Method and apparatus for abnormality recovering of data card, and data card
CN112395152B (zh) 服务器资源获取方法及获取系统
WO2021253855A1 (zh) 一种信息记录方法、装置、设备及可读存储介质
CN113645056B (zh) 一种定位智能网卡故障的方法及系统
CN107168815B (zh) 一种收集硬件错误信息的方法
US6898731B2 (en) System, method, and computer program product for preventing machine crashes due to hard errors in logically partitioned systems
CN113064750B (zh) 一种bios日志信息的追踪方法、装置和介质
CN110688130A (zh) 物理机部署方法、装置、可读存储介质及电子设备
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
CN114722927A (zh) 一种崩溃聚类方法、装置、电子设备以及存储介质
CN115454896A (zh) 基于smbus的ssd mctp控制消息验证方法、装置、计算机设备及存储介质
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
CN114860271A (zh) 一种pxe启动方法、系统、装置及可读存储介质
CN113849135A (zh) 日志的访问方法、装置及服务器
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
EP3362903A1 (en) System state information monitoring
US11645156B1 (en) Updating error policy
JP2015130023A (ja) 情報記録装置、情報処理装置、情報記録方法、及び情報記録プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant