CN109189602A - 一种PCIE Slot故障定位方法、装置以及设备 - Google Patents

一种PCIE Slot故障定位方法、装置以及设备 Download PDF

Info

Publication number
CN109189602A
CN109189602A CN201811109113.XA CN201811109113A CN109189602A CN 109189602 A CN109189602 A CN 109189602A CN 201811109113 A CN201811109113 A CN 201811109113A CN 109189602 A CN109189602 A CN 109189602A
Authority
CN
China
Prior art keywords
pcie
pcie device
failure
data
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811109113.XA
Other languages
English (en)
Inventor
袁传博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811109113.XA priority Critical patent/CN109189602A/zh
Publication of CN109189602A publication Critical patent/CN109189602A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种故障定位方法,该方法包括:在PCIE设备出现故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号;然后根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽,从而能够快速准确定位出出现故障的PCIE设备。另外,本申请还提供了对应的装置以及设备。

Description

一种PCIE Slot故障定位方法、装置以及设备
技术领域
本申请涉及故障定位技术领域,尤其涉及一种PCIE Slot故障定位方法、装置、基板管理控制器以及服务器。
背景技术
随着信息技术的飞速发展以及云计算和物联网的落地应用,用户对服务器的可用性和可靠性都有了各苛刻的要求。为了提高服务器的可靠性和可用性,服务器通常通过基于高速串行计算机扩展总线标准总线和接口(peripheral component interconnectexpress,PCIE)的PCIE Slot(插槽)扩展外接功能,例如网卡通过PCIE Slot插接在主板上,图像处理器(Graphics Processing Unit,GPU)通过PCIE Slot插接在主板上,RAID卡通过PCIE Slot插接在主板上,以增强服务器的性能。在实际应用中,将通过PCIE Slot接入主板的设备称之为PCIE设备,随着服务器所接入的PCIE设备越来越多样化,PCIE设备发生故障的原因也越来越复杂,这就使得PCIE设备的故障分析也越来越困难。
然而,服务器中故障定位主要是根据基本输入输出系统(Basic Input OutputSystem,BIOS)通过系统事件日志(System Event Log,SEL)上报信息定位PCIE设备故障,但在实际PCIE设备故障定位时,在服务器出现硬件故障宕机时,BIOS在无法通过SEL上报信息;有时也会出现BIOS通过SEL上报信息和基板管理控制器(Baseboard ManagementController,BMC)记录的资产信息无法对应,导致用户无法及时准确地定位PCIE设备故障位置,无法及时有效处理故障。
发明内容
本申请实施例提供了一种故障定位方法,该方法在服务器中的PCIE设备出现故障时,通过读取配置空间寄存器中的数据,根据该数据定位出故障PCIE设备的根端口号、设备号以及相关中央处理器序列号,再结合服务器硬件设计说明文档定位出故障PCIE设备所位于的PCIE slot,从而实现服务器中PCIE设备的故障定位。
本申请第一方面提供了一种故障定位方法,所述方法包括:
在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号CPUID,并根据所述数据确定故障PCIE设备的根端口号RootPort以及设备号DeviceID;
所述PCIE设备是指服务器中基于高速串行计算机扩展总线标准PCIE,通过PCIE插槽连接主板的设备;
根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,所述硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表。
可选的,在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号,包括:
在出现PCIE故障,并且在服务器硬件宕机的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤;或者,
在出现PCIE故障,并且在基本输入输出系统BIOS上报的出错信息与基板管理控制器BMC记录的资产信息不匹配的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤。
可选的,所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号,包括:
读取故障PCIE设备所关联的中央处理器的序列号CPUID;
读取被置位的第一类配置空间寄存器中存储的第一数据,根据所述第一数据以及第一标识关系表,确定故障PCIE设备的根端口号RootPort;所述第一标识关系表中记录有服务器在硬件布局时,PCIE设备的根端口号与标识之间的对应关系;
读取被置位的第二类配置空间寄存器中存储的第二数据,根据所述第二数据以及第二标识关系表,确定故障PCIE设备的设备号DeviceID;所述第二标识关系表中记录有服务器在硬件布局时,PCIE设备的设备号与标识之间的对应关系。
可选的,所述第一类配置空间寄存器包括:第一寄存器、第二寄存器以及第三寄存器;其中,所述第一寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第二寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第三寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的根端口号对应的标识;
所述第二类配置空间寄存器包括:第三寄存器、第四寄存器以及第五寄存器;其中,所述第三寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第四寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第五寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的设备号对应的标识。
可选的,所述PCIE设备包括:显卡、网卡、PCI桥或图像处理器。
可选的,所述方法还包括:
根据定位出的故障PCIE设备的插槽PCIE slot生成PCIE故障诊断日志,并根据所述PCIE故障诊断日志进行信息提示。
本申请第二方面提供了一种故障定位装置,所述装置包括:
数据获取模块,用于在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号CPUID,并根据所述数据确定故障PCIE设备的根端口号RootPort以及设备号DeviceID;所述PCIE设备是指服务器中基于高速串行计算机扩展总线标准PCIE,通过PCIE插槽连接主板的设备;
故障定位模块,用于根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,所述硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表。
本申请第三方面提供了一种基板管理控制器,所述基板管理控制器上配置有程序,并在运行所述程序时以实现本申请第一方面提供的故障定位方法。
本申请第四方面提供了一种服务器,所述服务器包括:基板管理控制器、中央处理器以及多个PCIE设备;所述基板管理控制器中配置有程序,并在运行所述程序时以实现本申请第一方面提供的故障定位方法;
所述中央处理器,用于提供数据服务;
所述中央处理器,用于提供数据服务;
所述多个PCIE设备中的每个PCIE设备通过一个PCIE插槽连接主板以实现与所述中央处理器之间的通信。本申请第五方面提供了一种计算机存储介质,其上存储有程序,所述程序在被处理器执行时实现本申请第一方面提供故障定位方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中提供了一种故障定位方法,利用该方法在服务器中PCIE设备出现故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号CPUID,并根据所述数据确定故障PCIE设备的根端口号RootPort以及设备号DeviceID;然后根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,由于,硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表,因此,基于该对应关系表就能够准确定位出出现故障的PCIE设备所位于PCIE slot,从而能够快速准确定位出出现故障的PCIE设备。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种故障定位方法的应用场景图;
图2为本申请实施例提供的一种故障定位方法的流程图;
图3为本申请实施例提供的一种故障定位装置的结构图;
图4为本申请实施例提供的一种服务器的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的一种方法能够适应于任何平台下的服务器中,以为用户提供一键收集日志的数据服务,例如该方法能够适应于基于Purley平台的服务器,也能够适应于基于weekly平台的服务器,当然也可以适应于其他平台下的服务器中。
为了便于理解,下面结合图1对本申请提供的一种故障定位方法在实际场景中的应用情况进行示例性说明。
参见图1示出的本申请实施例提供的一种故障定位方法的应用场景图,如图1所示,本申请实施例提供的一种故障定位方法可以程序形式应用于服务器100中,该服务器100是指能够提供数据支持的服务器,其能够客户端/服务器模式(简称C/S)或者Web浏览器/服务器模式(简称B/S)的工作模式,为用户提供实时定位PCIE设备故障的服务,当然也可以提供其他数据服务,例如文件存储,文件读取等数据服务。
应理解的是,该服务器可以是应用服务器,也可以为web服务器,还可以存储服务器等等。在实际应用中,该服务器100通过基板管理控制器运行程序以实现本申请提供的故障定位方法,该方法的具体实现过程将在下文进行详细说明,此处暂不展开说明。该服务器100实现该故障定位方法主要是在服务器中出现PCIE设备故障时,自动地读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号CPUID,并根据所述数据确定故障PCIE设备的根端口号RootPort以及设备号DeviceID;然后基于服务器的硬件设计说明文档,根据CPUID、RootPort以及DeviceID定位出故障PCIE设备的插槽PCIE slot,从而实现对PCIE设备的故障定位。
对于服务器100而言,其中配置有多个PCIE设备如图1中PCIE设备1至N,在定位出故障PCIE设备的PCIE slot之后,根据定位出的故障PCIE设备的插槽PCIE slot生成PCIE故障诊断日志,以推送给用户,以使得用户实时进行故障监控和故障管理。
对于用户而言,用户可以通过终端200与服务器100通信以查看PCIE故障诊断日志,具体的,用户通过终端200中配置的客户端或者浏览器,登录日志查看界面,在该日志查看界面上点击查看服务器100返回的PCIE故障诊断日志,根据该PCIE故障诊断日志中记录的故障PCIE设备的PCIE slot进行故障分析。图1中仅以通过浏览器访问服务器为例说明,用户通过浏览器访问服务器100提供的日志查看界面,该日志查看界面上承载有日志查看控件,用户触发该日志查看控件,则浏览器为用户显示服务器100推送的PCIE故障诊断日志,基于此,用户能够快速进行故障排查。
可见,利用本申请提供的故障定位方法,能够在PCIE设备出现故障时,自动获取相关寄存器的数据,基于这些数据和服务器的硬件设计说明文档定位出故障PCIE设备的PCIEslot,以实现PCIE设备的故障定位。
在具体实现时,为了兼容服务器传统的故障定位方法,即基于BIOS进行故障定位机制的方法,本申请提供的故障定位方法,可以作为一种辅助定位方法,仅在服务器利用BIOS无法实现PCIE设备故障定位时才得以实施。
下面从服务器的角度对本申请提供的故障定位方法进行解释说明。
参见图2示出的本申请实施例提供的一种故障定位方法的流程图,如图2所示,该方法包括:
S201:在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号CPUID,并根据所述数据确定故障PCIE设备的根端口号RootPort以及设备号DeviceID;
其中,所述PCIE设备是指服务器中基于高速串行计算机扩展总线标准PCIE,通过PCIE插槽连接主板的设备。需要说明的是,该服务器中配置有多个PCIE设备,进而在服务器运行过程中,若出现PCIE设备故障时,需要定位出具体是哪个或者哪些PCIE设备出现的故障。因此,在出现PCIE故障时,利用图2所示方法以定位出出现故障的PCIE设备对应的PCIEslot,由于一个PCIE设备仅通过一个PCIE slot连接主板,因此,通过定位故障PCIE设备的PCIE slot就实现了对故障PCIE设备的定位。
应理解的是,CPUID即中央处理器的序列号,该CPUID能够唯一标识一个CPU,其表征该CPU的硬件编号。PCIE设备是通过插入插槽以接入服务器,从而扩展服务器的功能的,PCIE设备可以包括:显卡、网卡、PCI桥或图像处理器(GPU)。当然,PCIE设备也可以为其他设备,此处不一一列举。
在具体实现时,服务器中的每个中央处理器(Central processing unit,CPU)都关联对应的配置空间寄存器(Configuration Space Registers,CSR),即一旦从某个配置空间寄存器中获取到数据,则同时能够确定出与该配置空间寄存器关联的中央处理器的CPUID。即,基于CPU与配置空间寄存器之间的关联关系,获取所述对应的中央处理器的CPUID。
另外,考虑到现有的服务器是基于BIOS的故障定位机制实现故障定位的,因此,为了兼容传统服务器的已有定位功能,本申请实施例还提供了对应的解决方案,该解决方案具体是对在执行上述步骤201时,可以是在出现PCIE故障,并且在服务器硬件宕机的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤;或者,
在出现PCIE故障,并且在基本输入输出系统BIOS上报的出错信息与基板管理控制器BMC记录的资产信息不匹配的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤。
对于服务器而言,采用上述解决方案进行故障定位时,服务器优先基于BIOS上报出错信息来进行故障定位,仅在利用BIOS无法定位PCIE设备故障时,再从配置空间寄存器中读取相关数据以及CPUID,再执行S202。
对于服务器而言,利用上述解决方案进行故障定位可以理解为是,以基于BIOS进行故障定位的方案为主方案,而以图2实现的定位方案作辅助助方案,从而提高故障定位的精准性和全面性。
下面对步骤S201的具体实现过程进行解释。
在具体实现时,与中央处理器相关的配置空间寄存器包括:两类配置空间寄存器。基于此,可以读取故障PCIE设备所关联的中央处理器的序列号CPUID;读取被置位的第一类配置空间寄存器中存储的第一数据,根据所述第一数据以及第一标识关系表,确定故障PCIE设备的根端口号Root Port;所述第一标识关系表中记录有服务器在硬件布局时,PCIE设备的根端口号与标识之间的对应关系;并且,读取被置位的第二类配置空间寄存器中存储的第二数据,根据所述第二数据以及第二标识关系表,确定故障PCIE设备的设备号DeviceID;所述第二标识关系表中记录有服务器在硬件布局时,PCIE设备的设备号与标识之间的对应关系。
应理解的是,在确定RootPort时,将第一数据作为标识,从第一标识关系表中查找对应的RootPort即可。在确定Device ID时,将第二数据作为标识,从第二标识关系表中查找对应的Device ID。
在具体实现时,所谓Device ID也被简称为Dev。
在具体实现时,所述第一类配置空间寄存器包括:第一寄存器、第二寄存器以及第三寄存器;其中,所述第一寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第二寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第三寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的根端口号对应的标识;
例如,第一寄存器为IIO_GNF_ERRST寄存器;第二寄存器为IIO_GF_ERRST寄存器;第三寄存器为IIO_GC_ERRST寄存器。
所述第二类配置空间寄存器包括:第三寄存器、第四寄存器以及第五寄存器;其中,所述第三寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第四寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第五寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的设备号对应的标识。
例如,第三寄存器为LNERRST寄存器;第四寄存器为LFERRST寄存器;第五寄存器为LCERRST寄存器。
S202:根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,所述硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表。
在具体实现时,服务器的硬件设计说明文档是在服务器开发设计阶段所提出的项目规范,一般被标记为HW SPEC,该HW SPEC中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号CPUID、PCIE设备的根端口号RootPort以及设备号Dev之间的对应关系表。因此,一旦确定出当前发生故障的PCIE设备的根端口号RootPort以及设备号Dev以及相关CPUID,基于该HW SPEC就能够确定出对应的PCIE设备的插槽PCIE slot。
在具体实现时,服务器可以进一步地根据定位出的故障PCIE设备的插槽PCIEslot生成PCIE故障诊断日志,并根据所述PCIE故障诊断日志进行信息提示。例如,服务器将生产的PCIE故障诊断日志推送给客户端,以便用户通过客户端能够及时查看PCIE故障诊断日志,进行故障排查以维护服务器能够正常工作。
本申请实施例中提供了一种故障定位方法,利用该方法在服务器中PCIE设备出现故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号CPUID,并根据所述数据确定故障PCIE设备的根端口号RootPort以及设备号DeviceID;然后根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,由于,硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表,因此,基于该对应关系表就能够准确定位出出现故障的PCIE设备所位于PCIE slot,从而能够快速准确定位出出现故障的PCIE设备。
与上述方法相对应的,本申请还提供了一种故障定位装置。下面结合图3对该装置进行解释说明。
参见图3示出的本申请实施例提供的一种故障定位装置的结构图,如图3所示,该装置300包括:
数据获取模块301,用于在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号;所述PCIE设备是指服务器中基于高速串行计算机扩展总线标准PCIE,通过PCIE插槽连接主板的设备;
故障定位模块302,用于根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,所述硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表。
可选的,所述数据获取模块301具体用于在出现PCIE故障,并且在服务器硬件宕机的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤;或者,具体用于在出现PCIE故障,并且在基本输入输出系统BIOS上报的出错信息与基板管理控制器BMC记录的资产信息不匹配的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤。
所述数据获取模块301包括:
第一获取子模块,用于读取故障PCIE设备所关联的中央处理器的序列号;
第二获取子模块,用于读取被置位的第一类配置空间寄存器中存储的第一数据,根据所述第一数据以及第一标识关系表,确定故障PCIE设备的根端口号;所述第一标识关系表中记录有服务器在硬件布局时,PCIE设备的根端口号与标识之间的对应关系;
第三获取子模块,用于读取被置位的第二类配置空间寄存器中存储的第二数据,根据所述第二数据以及第二标识关系表,确定故障PCIE设备的设备号;所述第二标识关系表中记录有服务器在硬件布局时,PCIE设备的设备号与标识之间的对应关系。
可选的,所述第一类配置空间寄存器包括:第一寄存器、第二寄存器以及第三寄存器;其中,所述第一寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第二寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第三寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的根端口号对应的标识;
所述第二类配置空间寄存器包括:第三寄存器、第四寄存器以及第五寄存器;其中,所述第三寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第四寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第五寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的设备号对应的标识。
可选的,所述PCIE设备包括:显卡、网卡、PCI桥或图像处理器。
可选的,所述装置还包括:
日志反馈模块,用于根据定位出的故障PCIE设备的插槽PCIE slot生成PCIE故障诊断日志,并根据所述PCIE故障诊断日志进行信息提示。
另外,为了保证上述方法在服务器中的应用,本申请提供了一种基板管理控制器,该基板管理控制器上配置有程序,并在运行所述程序时以实现上述本申请实施例所描述的故障定位方法。
另外,本申请还提供了一种服务器,该服务器能够通过上述本申请实施例所描述的故障定位方法,下面结合图4对该服务器进行解释说明。
参见图4示出的本申请实施例提供的一种服务器的结构图,如图4所示,该服务器包括基板管理控制器401、中央处理器402以及多个PCIE设备1-N;应理解的是,这N个PCIE设备中可以包括相同类型的设备,也可以包括不同类型的设备。在具体实现时,服务器可以包括多个中央处理器。
所述基板管理控制器中配置有程序,并在运行所述程序时以实现本申请实施例描述的故障定位方法;
所述中央处理器402用于提供数据服务;
所述多个PCIE设备中的每个PCIE设备通过一个PCIE插槽连接主板以实现与所述中央处理器之间的通信。
本申请第五方面提供了一种计算机存储介质,其上存储有程序,所述程序在被处理器执行时实现本申请第一方面提供故障定位方法。这样,能够保证本申请提供的一种故障定位方法能够被快速地移植到任意设备中得以实现。
另外,本申请还提供了一种计算机程序产品,当在设备上执行时,适于执行初始化有如上述本申请实施例提供的一种故障定位方法的步骤的程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种故障定位方法,其特征在于,所述方法包括:
在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号;所述PCIE设备是指服务器中基于高速串行计算机扩展总线标准PCIE,通过PCIE插槽连接主板的设备;
根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,所述硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表。
2.根据权利要求1所述的故障定位方法,其特征在于,在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号,包括:
在出现PCIE故障,并且在服务器硬件宕机的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤;或者,
在出现PCIE故障,并且在基本输入输出系统BIOS上报的出错信息与基板管理控制器BMC记录的资产信息不匹配的情况下,再执行所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号的步骤。
3.根据权利要求1所述的故障定位方法,其特征在于,所述读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号,包括:
读取故障PCIE设备所关联的中央处理器的序列号;
读取被置位的第一类配置空间寄存器中存储的第一数据,根据所述第一数据以及第一标识关系表,确定故障PCIE设备的根端口号;所述第一标识关系表中记录有服务器在硬件布局时,PCIE设备的根端口号与标识之间的对应关系;
读取被置位的第二类配置空间寄存器中存储的第二数据,根据所述第二数据以及第二标识关系表,确定故障PCIE设备的设备号;所述第二标识关系表中记录有服务器在硬件布局时,PCIE设备的设备号与标识之间的对应关系。
4.根据权利要求3所述的故障定位方法,其特征在于,所述第一类配置空间寄存器包括:第一寄存器、第二寄存器以及第三寄存器;其中,所述第一寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第二寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的根端口号对应的标识;所述第三寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的根端口号对应的标识;
所述第二类配置空间寄存器包括:第三寄存器、第四寄存器以及第五寄存器;其中,所述第三寄存器在PCIE设备出现非致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第四寄存器在PCIE设备出现致命错误时被置位,以记录故障PCIE设备的设备号对应的标识;所述第五寄存器在PCIE设备出现可修复错误时被置位,以记录故障PCIE设备的设备号对应的标识。
5.根据权利要求1所述的故障定位方法,其特征在于,所述PCIE设备包括:显卡、网卡、PCI桥或图像处理器。
6.根据权利要求1所述的故障定位方法,其特征在于,所述方法还包括:
根据定位出的故障PCIE设备的插槽PCIE slot生成PCIE故障诊断日志,并根据所述PCIE故障诊断日志进行信息提示。
7.一种故障定位装置,其特征在于,所述装置包括:
数据获取模块,用于在出现PCIE设备故障时,读取配置空间寄存器中存储的数据以及对应的中央处理器的序列号,并根据所述数据确定故障PCIE设备的根端口号以及设备号;所述PCIE设备是指服务器中基于高速串行计算机扩展总线标准PCIE,通过PCIE插槽连接主板的设备;
故障定位模块,用于根据所述序列号、所述根端口、所述设备号以及服务器的硬件设计说明文档,定位出故障PCIE设备的插槽PCIE slot,所述硬件设计说明文档中记录有服务器硬件布局时PCIE设备的插槽与中央处理器的序列号、PCIE设备的根端口号以及设备号之间的对应关系表。
8.一种基板管理控制器,其特征在于,所述基板管理控制器上配置有程序,并在运行所述程序时以实现权利要求1至6任一项所述的故障定位方法。
9.一种服务器,其特征在于,所述服务器包括:基板管理控制器、中央处理器以及多个PCIE设备;,所述基板管理控制器中配置有程序,并在运行所述程序时以实现权利要求1至6任一项所述的故障定位方法;
所述中央处理器,用于提供数据服务;
所述多个PCIE设备中的每个PCIE设备通过一个PCIE插槽连接主板以实现与所述中央处理器之间的通信。
10.一种计算机存储介质,其特征在于,其上存储有程序,所述程序在被处理器执行时实现如权利要求1至6任一项所述的故障定位方法。
CN201811109113.XA 2018-09-21 2018-09-21 一种PCIE Slot故障定位方法、装置以及设备 Pending CN109189602A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811109113.XA CN109189602A (zh) 2018-09-21 2018-09-21 一种PCIE Slot故障定位方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811109113.XA CN109189602A (zh) 2018-09-21 2018-09-21 一种PCIE Slot故障定位方法、装置以及设备

Publications (1)

Publication Number Publication Date
CN109189602A true CN109189602A (zh) 2019-01-11

Family

ID=64909564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811109113.XA Pending CN109189602A (zh) 2018-09-21 2018-09-21 一种PCIE Slot故障定位方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN109189602A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815043A (zh) * 2019-01-25 2019-05-28 华为技术有限公司 故障处理方法、相关设备及计算机存储介质
CN110362435A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111949431A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 片上系统产品的致命错误提供方法与致命错误识别方法
CN112685210A (zh) * 2020-12-31 2021-04-20 北京天融信网络安全技术有限公司 一种外设故障原因定位方法、装置、设备及介质
CN113253941A (zh) * 2021-06-22 2021-08-13 苏州浪潮智能科技有限公司 一种寄存器读取方法、装置、设备和介质
CN113645056A (zh) * 2021-06-25 2021-11-12 苏州浪潮智能科技有限公司 一种定位智能网卡故障的方法及系统
CN114077452A (zh) * 2022-01-18 2022-02-22 苏州浪潮智能科技有限公司 一种pcie设备定位方法、装置及相关设备
CN114356644A (zh) * 2022-03-18 2022-04-15 阿里巴巴(中国)有限公司 Pcie设备故障处理方法和装置
CN115277348A (zh) * 2022-07-20 2022-11-01 阿里巴巴(中国)有限公司 一种服务器管理方法、服务器及服务器管理系统
CN115840672A (zh) * 2023-02-22 2023-03-24 江苏华存电子科技有限公司 一种用于确定基于windows系统多PCI/PCIE存储设备在主板上位置的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678056A (zh) * 2012-09-14 2014-03-26 成都林海电子有限责任公司 一种pcie总线设备控制功能的测试方法
CN103763129A (zh) * 2013-12-31 2014-04-30 华为技术有限公司 一种PCIe设备管理方法及装置
US8819319B2 (en) * 2011-01-19 2014-08-26 Hitachi, Ltd. Computer system and method for inheriting HBA identifier of PCI card
CN104202194A (zh) * 2014-09-10 2014-12-10 华为技术有限公司 PCIe拓扑的配置方法和装置
US20150347345A1 (en) * 2014-04-30 2015-12-03 Cirrascale Corporation Gen3 pci-express riser
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN106294222A (zh) * 2016-08-03 2017-01-04 浪潮电子信息产业股份有限公司 一种确定pcie设备与插槽对应关系的方法及装置
CN107423171A (zh) * 2017-04-25 2017-12-01 郑州云海信息技术有限公司 基于pcie标准的插槽式功能扩展卡的检测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8819319B2 (en) * 2011-01-19 2014-08-26 Hitachi, Ltd. Computer system and method for inheriting HBA identifier of PCI card
CN103678056A (zh) * 2012-09-14 2014-03-26 成都林海电子有限责任公司 一种pcie总线设备控制功能的测试方法
CN103763129A (zh) * 2013-12-31 2014-04-30 华为技术有限公司 一种PCIe设备管理方法及装置
US20150347345A1 (en) * 2014-04-30 2015-12-03 Cirrascale Corporation Gen3 pci-express riser
CN104202194A (zh) * 2014-09-10 2014-12-10 华为技术有限公司 PCIe拓扑的配置方法和装置
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
CN106294222A (zh) * 2016-08-03 2017-01-04 浪潮电子信息产业股份有限公司 一种确定pcie设备与插槽对应关系的方法及装置
CN107423171A (zh) * 2017-04-25 2017-12-01 郑州云海信息技术有限公司 基于pcie标准的插槽式功能扩展卡的检测方法及装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815043A (zh) * 2019-01-25 2019-05-28 华为技术有限公司 故障处理方法、相关设备及计算机存储介质
US11994940B2 (en) 2019-01-25 2024-05-28 Huawei Cloud Computing Technologies Co., Ltd. Fault processing method, related device, and computer storage medium
CN109815043B (zh) * 2019-01-25 2022-04-05 华为云计算技术有限公司 故障处理方法、相关设备及计算机存储介质
CN110362435A (zh) * 2019-06-25 2019-10-22 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN110362435B (zh) * 2019-06-25 2022-07-08 苏州浪潮智能科技有限公司 Purley平台服务器的PCIE故障定位方法、装置、设备及介质
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111414268B (zh) * 2020-02-26 2022-05-13 华为技术有限公司 故障处理方法、装置及服务器
CN111949431A (zh) * 2020-08-27 2020-11-17 英业达科技有限公司 片上系统产品的致命错误提供方法与致命错误识别方法
CN112685210A (zh) * 2020-12-31 2021-04-20 北京天融信网络安全技术有限公司 一种外设故障原因定位方法、装置、设备及介质
CN113253941B (zh) * 2021-06-22 2021-10-15 苏州浪潮智能科技有限公司 一种寄存器读取方法、装置、设备和介质
CN113253941A (zh) * 2021-06-22 2021-08-13 苏州浪潮智能科技有限公司 一种寄存器读取方法、装置、设备和介质
US11860718B2 (en) 2021-06-22 2024-01-02 Inspur Suzhou Intelligent Technology Co., Ltd. Register reading method and apparatus, device, and medium
CN113645056A (zh) * 2021-06-25 2021-11-12 苏州浪潮智能科技有限公司 一种定位智能网卡故障的方法及系统
CN113645056B (zh) * 2021-06-25 2022-11-22 苏州浪潮智能科技有限公司 一种定位智能网卡故障的方法及系统
CN114077452A (zh) * 2022-01-18 2022-02-22 苏州浪潮智能科技有限公司 一种pcie设备定位方法、装置及相关设备
CN114356644B (zh) * 2022-03-18 2022-06-14 阿里巴巴(中国)有限公司 Pcie设备故障处理方法和装置
CN114356644A (zh) * 2022-03-18 2022-04-15 阿里巴巴(中国)有限公司 Pcie设备故障处理方法和装置
CN115277348A (zh) * 2022-07-20 2022-11-01 阿里巴巴(中国)有限公司 一种服务器管理方法、服务器及服务器管理系统
CN115840672A (zh) * 2023-02-22 2023-03-24 江苏华存电子科技有限公司 一种用于确定基于windows系统多PCI/PCIE存储设备在主板上位置的方法

Similar Documents

Publication Publication Date Title
CN109189602A (zh) 一种PCIE Slot故障定位方法、装置以及设备
US11416373B2 (en) Providing debug information on production containers using debug containers
US9632914B2 (en) Error diagnostic in a production environment
CN111800450B (zh) 用于云资源管理的多维标签命名空间
US20140237297A1 (en) Method and system for supporting event root cause analysis
US20110219263A1 (en) Fast cluster failure detection
US9875095B2 (en) Software bundle detection
CN109240847A (zh) 一种post过程中内存错误上报方法、装置、终端及存储介质
US11698829B2 (en) Identifying root causes of software defects
CN105446818B (zh) 一种业务处理的方法、相关装置以及系统
US9953295B2 (en) Management of event contexts using bookend contexts
CN110737504A (zh) 一种深度学习模型训练容错方法、系统、终端及存储介质
CN116194894A (zh) 原生云应用程序的故障定位
CN115729724B (zh) 故障注入方法、故障测试系统、电子设备及可读存储介质
US10423901B2 (en) Management of event contexts using bookend events
US20080313378A1 (en) Method And System To Determine Device Criticality For Hot-Plugging In Computer Configurations
US8819494B2 (en) Automatically changing parts in response to tests
CN110532150A (zh) 一种机箱管理方法、装置、存储介质及处理器
Nguyen et al. A comprehensive sensitivity analysis of a data center network with server virtualization for business continuity
CN109003643A (zh) 一种数据处理方法及装置
US10740030B2 (en) Stopping a plurality of central processing units for data collection based on attributes of tasks
US10936389B2 (en) Dual physical-channel systems firmware initialization and recovery
Shearon The New Standard for Cyber Security
US9508062B2 (en) Problem management record profiling
US11907409B2 (en) Dynamic immutable security personalization for enterprise products

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111