CN110362435B - Purley平台服务器的PCIE故障定位方法、装置、设备及介质 - Google Patents

Purley平台服务器的PCIE故障定位方法、装置、设备及介质 Download PDF

Info

Publication number
CN110362435B
CN110362435B CN201910555894.3A CN201910555894A CN110362435B CN 110362435 B CN110362435 B CN 110362435B CN 201910555894 A CN201910555894 A CN 201910555894A CN 110362435 B CN110362435 B CN 110362435B
Authority
CN
China
Prior art keywords
pcie
fault
register data
platform server
bios
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910555894.3A
Other languages
English (en)
Other versions
CN110362435A (zh
Inventor
袁传博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910555894.3A priority Critical patent/CN110362435B/zh
Publication of CN110362435A publication Critical patent/CN110362435A/zh
Application granted granted Critical
Publication of CN110362435B publication Critical patent/CN110362435B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种Purley平台服务器的PCIE故障定位方法、装置、设备及介质,该方法包括:监测PCIE是否发生故障;若监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据;其中,所述寄存器数据为能够反映所述PCIE故障的位置信息的数据;利用所述寄存器数据对所述PCIE故障进行定位。本申请在PCIE出现故障时,是利用与PCIE故障相关的寄存器数据进行故障定位的。由于BIOS的故障信息上报功能出现异常时,并不影响与PCIE故障相关的寄存器数据的正常获取,所以通过上述技术方案,可以使得即便在BIOS的故障信息上报功能出现异常时,依然可以通过能够正常获取到的与BIOS故障相关的寄存器数据对PCIE故障进行准确定位。

Description

Purley平台服务器的PCIE故障定位方法、装置、设备及介质
技术领域
本申请涉及计算机领域,特别涉及一种Purley平台服务器的PCIE故障定位方法、装置、设备及介质。
背景技术
当前,随着信息技术的飞速发展,以及云计算和物联网的落地,用户对服务器的可靠性和信息处理能力有了更高的要求。与传统服务器相比,基于Purley平台的新一代服务器在计算性能和可靠性上与传统服务器相比具有很大的优势,并在对实时性、可靠性和可用性要求苛刻的领域中应用越来越广泛。同时基于Purley平台的新一代服务器在PCIE设备(PCIE,即Peripheral Component Interconnect Express,高速串行计算机扩展总线标准)应用上更加多样化,PCIE设备发生故障的原因更加复杂,分析更加困难。
在PCIE设备发生故障时,目前BMC(即Baseboard Management Controller,基板管理控制器)通过BIOS(即Basic Input Output System,基本输入输出系统)上报的故障信息来定位故障发生的位置,但在BIOS的故障信息上报功能出现异常时,如遇到系统Hard Hang的情况致使BIOS无法上报故障信息,或者BIOS虽然可以上报故障信息但故障信息和BMC资产信息无法对应的时候,BMC将无法准确地定位出PCIE设备故障的位置。
发明内容
有鉴于此,本申请的目的在于提供一种Purley平台服务器的PCIE故障定位方法、装置、设备及介质,能够在BIOS的故障信息上报功能出现异常时依然能够实现对PCIE故障的准确定位。其具体方案如下:
第一方面,本申请公开了一种Purley平台服务器的PCIE故障定位方法,应用于BMC,包括:
监测PCIE是否发生故障;
若监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据;其中,所述寄存器数据为能够反映所述PCIE故障的位置信息的数据;
利用所述寄存器数据对所述PCIE故障进行定位。
可选的,所述获取与PCIE故障相关的寄存器数据,包括:
通过PECI协议读取CPU的MCi_ADDR寄存器数据。
可选的,所述利用所述寄存器数据对所述PCIE故障进行定位,包括:
判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内;
如果是,则根据PCIE增强配置机制对所述PCIE故障进行定位。
可选的,所述判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内之前,还包括:
获取BIOS在Purley平台服务器开机启动时通过IPMI协议传输的所述Purley平台服务器的当前系统地址空间。
可选的,所述根据PCIE增强配置机制对所述PCIE故障进行定位,包括:
利用PCIE增强配置机制解析得到所述PCIE的Bus/Device/Function数据;
利用所述Bus/Device/Function数据确定所述PCIE故障的位置信息。
可选的,所述获取与PCIE故障相关的寄存器数据之前,还包括:
监视BIOS的故障信息上报功能状态;
判断所述故障信息上报功能状态与预设状态是否相符;
如果是,则在监测到所述PCIE发生故障时,启动所述获取与PCIE故障相关的寄存器数据的步骤;
如果否,则在监测到所述PCIE发生故障时,获取BIOS上报的相应的故障信息,并根据所述故障信息对PCIE故障进行定位。
可选的,所述预设状态包括:
BIOS无法上报故障信息,和,BIOS上报的故障信息与BMC资产信息不对应。
第二方面,本申请公开了一种Purley平台服务器的PCIE故障定位装置,应用于BMC,包括:
故障监测模块,用于监测PCIE是否发生故障;
数据获取模块,用于当监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据;其中,所述寄存器数据为能够反映所述PCIE故障的位置信息的数据;
故障定位模块,用于利用所述寄存器数据对所述PCIE故障进行定位。
第三方面,本申请公开了一种Purley平台服务器的PCIE故障定位设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的PCIE故障定位方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的PCIE故障定位方法的步骤。
可见,本申请在监测到PCIE出现故障时,获取与PCIE故障相关的寄存器数据,所述寄存器数据为能够反映PCIE故障的位置信息的数据,然后利用上述寄存器数据对PCIE故障进行定位。也即,本申请在PCIE出现故障时,是利用与PCIE故障相关的寄存器数据进行故障定位的。由于BIOS的故障信息上报功能出现异常时,并不影响与PCIE故障相关的寄存器数据的正常获取,所以通过本申请的上述技术方案,可以使得即便在BIOS的故障信息上报功能出现异常时,依然可以通过能够正常获取到的与BIOS故障相关的寄存器数据对PCIE故障进行准确定位。由此可见,本申请实现了在BIOS的故障信息上报功能出现异常时依然能够对PCIE故障进行准确定位的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种Purley平台服务器的PCIE故障定位方法流程图;
图2为本申请实施例公开的一种具体的Purley平台服务器的PCIE故障定位方法流程图;
图3为PCIE增强配置机制示意图;
图4为本申请实施例公开的一种具体的Purley平台服务器的PCIE故障定位方法流程图;
图5为本申请实施例公开的一种具体的Purley平台服务器的PCIE故障定位方法流程图;
图6为本申请实施例公开的一种Purley平台服务器的PCIE故障定位装置结构示意图;
图7为本申请实施例公开的一种Purley平台服务器的PCIE故障定位设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在PCIE设备发生故障时,目前BMC通过BIOS上报的故障信息来定位故障发生的位置,但在BIOS的故障信息上报功能出现异常时,如遇到系统Hard Hang的情况致使BIOS无法上报故障信息,或者BIOS虽然可以上报故障信息但故障信息和BMC资产信息无法对应的时候,BMC将无法准确地定位出PCIE设备故障的位置。为此,本申请提供了一种PCIE故障定位方案,能够克服上述技术问题,能够在BIOS的故障信息上报功能出现异常时依然能够实现对PCIE故障的准确定位。
参见图1所示,本申请实施例公开了一种Purley平台服务器的PCIE故障定位方法,应用于BMC,包括:
步骤S11:监测PCIE是否发生故障。
本实施例中,可以实时监测PCIE是否发生故障,以确保能够及时发现PCIE故障。当然,为了减少监测进程所消耗的计算机资源,本实施例也可以按照预设的监测周期,定期对PCIE是否发生故障进行监测。可以理解的是,为了不明显降低上述监测结果的时效性,本实施例不宜将上述监测周期设置的过大。
步骤S12:若监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据。
本实施例中,若BMC监测到PCIE发生故障,则可以触发所述获取PCIE故障相关的寄存器数据的步骤。
在一种具体实施方式中,可以是在BMC监测到PCIE发生故障时,立刻启动数据获取进程,以获取与当前PCIE故障相关的寄存器数据,这样可以减少获取到的寄存器数据的冗余量,使得上述获取到的寄存器数据恰好是与PCIE故障相关的寄存器数据。
在另一种具体实施方式中,也可以对上述寄存器进行持续监视并持续获取其中的数据,当BMC监测到PCIE发生故障时,便可以直接从上述持续获取的寄存器数据中调取出与PCIE故障相关的数据即可,提高了寄存器数据获取过程的可靠性和便捷性。
可以理解的是,本实施例的上述寄存器具体是指能够记录与PCIE故障相关的并且能够反映PCIE故障位置的数据的寄存器。也即,所述寄存器数据具体为能够反映所述PCIE故障的位置信息的寄存器数据。
步骤S13:利用所述寄存器数据对所述PCIE故障进行定位。
本实施例中,由于上述与PCIE故障相关的寄存器数据是能够反映PCIE故障位置的数据,所以,在获取上述寄存器数据之后,便可以利用上述寄存器数据确定PCIE故障所在的位置,从而实现对PCIE故障的定位。
可以理解的是,BMC利用上述寄存器数据对PCIE故障进行定位之后,可以进行相应的提醒操作,以便用户能够及时对PCIE故障进行处理。本实施例中,上述提醒操作包括但不限于手机短信提醒、邮件提醒、专用APP消息提醒、通过蜂鸣器提醒、通过指示灯提醒等。
另外,需要指出的是,本实施例中的PCIE故障定位方案具体是对基于Purley平台的服务器中的PCIE故障进行的定位。
可见,本申请实施例在监测到PCIE出现故障时,获取与PCIE故障相关的寄存器数据,所述寄存器数据为能够反映PCIE故障的位置信息的数据,然后利用上述寄存器数据对PCIE故障进行定位。也即,本申请实施例在PCIE出现故障时,是利用与PCIE故障相关的寄存器数据进行故障定位的。由于BIOS的故障信息上报功能出现异常时,并不影响与PCIE故障相关的寄存器数据的正常获取,所以通过本申请的上述技术方案,可以使得即便在BIOS的故障信息上报功能出现异常时,依然可以通过能够正常获取到的与BIOS故障相关的寄存器数据对PCIE故障进行准确定位。由此可见,本申请实施例实现了在BIOS的故障信息上报功能出现异常时依然能够对PCIE故障进行准确定位的目的。
参见图2所示,本申请实施例公开了一种具体的一种Purley平台服务器的PCIE故障定位方法,应用于BMC,包括:
步骤S21:监测PCIE是否发生故障。
步骤S22:若监测到所述PCIE发生故障,则通过PECI(即Platform EnvironmentControl Interface,平台环境式控制接口)协议读取CPU的MCi_ADDR寄存器数据。
也即,本实施例中,BMC监测到PCIE出现故障后,可以通过PECI协议来读取CPU中的有效的MCi_ADDR寄存器数据。上述MCi_ADDR寄存器数据能够反映PCIE故障的位置信息。
步骤S23:判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内。
步骤S24:如果是,则根据PCIE增强配置机制(即Enhanced ConfigurationMechanism)对所述PCIE故障进行定位。
本实施例中,BMC通过PECI协议读取到上述MCi_ADDR寄存器数据之后,对上述MCi_ADDR寄存器数据和Purley平台服务器的当前系统地址空间进行比对,即对上述MCi_ADDR寄存器数据和Purley平台服务器的MMCFG空间进行比对,如果发现上述MCi_ADDR寄存器数据在上述MMCFG空间范围之内,便可进一步根据PCIE增强配置机制对所述PCIE故障进行定位。
可以理解的是,本实施例在所述判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内之前,还可以进一步包括:获取BIOS在Purley平台服务器开机启动时通过IPMI协议(IPMI,即Intelligent Platform Management Interface,智能平台管理接口)传输的所述Purley平台服务器的当前系统地址空间。
本实施例中,所述根据PCIE增强配置机制对所述PCIE故障进行定位,具体可以包括:利用PCIE增强配置机制解析得到所述PCIE的Bus/Device/Function数据,然后利用所述Bus/Device/Function数据确定所述PCIE故障的位置信息。
也即,本实施例中,若上述MCi_ADDR寄存器数据位于Purley平台服务器的当前系统地址空间内,则可以基于如图3所示的PCIE增强配置机制,解析当前PCIE设备的Bus编号、Device编号和Function编号,然后根据上述Bus/Device/Function数据确定PCIE故障所对应的位置。其中,上述解析过程对应的解析公式具体如下:
MCi_ADDR=MMCFG Base+(Bus<<20)+(Device<<15)+(Function<<12)+Register;
式中,MCi_ADDR表示上述MCi_ADDR寄存器数据,MMCFG Base表示当前系统地址空间MMCFG的起始地址,Register为系统分配的一个地址。
参见图4所示,本申请实施例公开了一种具体的一种Purley平台服务器的PCIE故障定位方法,应用于BMC,包括:
步骤S31:监视BIOS的故障信息上报功能状态。
步骤S32:判断所述故障信息上报功能状态与预设状态是否相符。
可以理解的是,本实施例中,当上述所述故障信息上报功能状态与预设状态相符,则意味着当前BIOS的故障信息上报功能出现异常,当上述所述故障信息上报功能状态与预设状态不相符,则意味着当前BIOS的故障信息上报功能是正常的。
需要指出的是,本实施例中,所述预设状态具体可以包括:BIOS无法上报故障信息,和,BIOS上报的故障信息与BMC资产信息不对应。
步骤S33:如果是,则在监测到所述PCIE发生故障时,获取与PCIE故障相关的寄存器数据。
步骤S34:利用所述寄存器数据对所述PCIE故障进行定位。
其中,关于上述步骤S33和S34的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S35:如果否,则在监测到所述PCIE发生故障时,获取BIOS上报的相应的故障信息。
步骤S36:根据所述故障信息对PCIE故障进行定位。
也即,本实施例中,后台可以在BIOS无法上报故障信息,或BIOS上报的故障信息与BMC资产信息不对应的情况下,自动选择本申请提供的基于寄存器数据的PCIE故障定位方案来对PCIE故障进行定位,而在BIOS的故障信息上报功能正常的情况下,可以自动切换至传统的PCIE故障定位方案,由此提高了系统的灵活性。
参见图5所示,本申请实施例公开了一种具体的一种Purley平台服务器的PCIE故障定位方法,应用于BMC,包括:
步骤S41:监测PCIE是否发生故障。
步骤S42:若监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据。
步骤S43:利用所述寄存器数据对所述PCIE故障进行定位,得到相应的定位信息。
步骤S44:根据所述PCIE故障的故障类型以及所述定位信息,从预设的故障应对数据库中获取相应的故障原因以及故障应对方案,并对获取到的故障原因和故障应对方案进行显示。
也即,本实施例中,可以预先根据PCIE故障类型和PCIE故障定位信息,分析出引起上述PCIE故障的原因以及解决上述PCIE故障的相应应对方案,并将上述分析得到的故障原因和应对方案添加至预设的故障应对数据库中。当后续出现PCIE故障时,便可以根据该PCIE故障的故障类型以及相应的定位信息,从上述故障应对数据库中调取出相应的故障原因和故障应对方案,这样用户便可以直接根据后台自动调取出来的故障应对方案进行相应的操作,从而有利于快速解决PCIE故障,降低了服务器的维护成本,提升了产品的竞争力。
相应的,本申请实施例还公开了一种Purley平台服务器的PCIE故障定位装置,应用于BMC,参见图6所示,该装置包括:
故障监测模块11,用于监测PCIE是否发生故障;
数据获取模块12,用于当监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据;其中,所述寄存器数据为能够反映所述PCIE故障的位置信息的数据;
故障定位模块13,用于利用所述寄存器数据对所述PCIE故障进行定位。
可见,本申请实施例在监测到PCIE出现故障时,获取与PCIE故障相关的寄存器数据,所述寄存器数据为能够反映PCIE故障的位置信息的数据,然后利用上述寄存器数据对PCIE故障进行定位。也即,本申请实施例在PCIE出现故障时,是利用与PCIE故障相关的寄存器数据进行故障定位的。由于BIOS的故障信息上报功能出现异常时,并不影响与PCIE故障相关的寄存器数据的正常获取,所以通过本申请的上述技术方案,可以使得即便在BIOS的故障信息上报功能出现异常时,依然可以通过能够正常获取到的与BIOS故障相关的寄存器数据对PCIE故障进行准确定位。由此可见,本申请实施例实现了在BIOS的故障信息上报功能出现异常时依然能够对PCIE故障进行准确定位的目的。
本实施例中,所述数据获取模块12具体可以通过PECI协议读取CPU的MCi_ADDR寄存器数据。
另外,所述故障定位模块13,具体可以包括:
判断子模块,用于判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内;
定位子模块,用于当所述判断子模块的判断结果为是,则根据PCIE增强配置机制对所述PCIE故障进行定位。
可以理解的是,本实施例中的PCIE故障定位装置,还可以进一步包括:
地址空间获取模块,用于获取BIOS在Purley平台服务器开机启动时通过IPMI协议传输的所述Purley平台服务器的当前系统地址空间。
进一步的,所述定位子模块,具体可以包括:
解析单元,用于利用PCIE增强配置机制解析得到所述PCIE的Bus/Device/Function数据;
位置确定单元,用于利用所述Bus/Device/Function数据确定所述PCIE故障的位置信息。
进一步的,本实施例中的PCIE故障定位装置还可以包括:
BIOS监视模块,用于监视BIOS的故障信息上报功能状态;
状态判断模块,用于判断所述故障信息上报功能状态与预设状态是否相符;
第一响应模块,用于当所述状态判断模块的判断结果为是,则在监测到所述PCIE发生故障时,启动所述获取与PCIE故障相关的寄存器数据的步骤;
第二响应模块,用于当所述状态判断模块的判断结果为否,则在监测到所述PCIE发生故障时,获取BIOS上报的相应的故障信息,并根据所述故障信息对PCIE故障进行定位。
其中,所述预设状态具体可以包括BIOS无法上报故障信息,和,BIOS上报的故障信息与BMC资产信息不对应。
进一步的,为了达到快速解决PCIE故障的效果,降低服务器维护成本,本实施例中的PCIE故障定位装置还可以包括:
故障应对模块,用于根据所述PCIE故障的故障类型以及PCIE故障定位信息,从预设的故障应对数据库中获取相应的故障原因以及故障应对方案,并对获取到的故障原因和故障应对方案进行显示。
进一步的,参见图7所示,本申请实施例还公开了一种Purley平台服务器的PCIE故障定位设备,包括处理器21和存储器22;其中:
存储器22,用于保存计算机程序;
处理器21,用于执行所述计算机程序,以实现以下步骤:
监测PCIE是否发生故障;若监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据;其中,所述寄存器数据为能够反映所述PCIE故障的位置信息的数据;利用所述寄存器数据对所述PCIE故障进行定位。
由此可见,本实施例在PCIE出现故障时,是利用与PCIE故障相关的寄存器数据进行故障定位的。由于BIOS的故障信息上报功能出现异常时,并不影响与PCIE故障相关的寄存器数据的正常获取,所以通过本申请的上述技术方案,可以使得即便在BIOS的故障信息上报功能出现异常时,依然可通过能够正常获取到的与BIOS故障相关的寄存器数据对PCIE故障进行准确定位。
本实施例中,所述处理器21执行所述存储器22中保存的计算机子程序时,可以具体实现以下步骤:通过PECI协议读取CPU的MCi_ADDR寄存器数据。
本实施例中,所述处理器21执行所述存储器中保存的计算机子程序时,可以具体实现以下步骤:判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内;如果是,则根据PCIE增强配置机制对所述PCIE故障进行定位。
本实施例中,所述处理器21执行所述存储器22中保存的计算机子程序时,可以具体实现以下步骤:获取BIOS在Purley平台服务器开机启动时通过IPMI协议传输的所述Purley平台服务器的当前系统地址空间。
本实施例中,所述处理器21执行所述存储器中保存的计算机子程序时,可以具体实现以下步骤:利用PCIE增强配置机制解析得到所述PCIE的Bus/Device/Function数据;利用所述Bus/Device/Function数据确定所述PCIE故障的位置信息。
本实施例中,所述处理器21执行所述存储器22中保存的计算机子程序时,可以具体实现以下步骤:监视BIOS的故障信息上报功能状态;判断所述故障信息上报功能状态与预设状态是否相符;如果是,则在监测到所述PCIE发生故障时,启动所述获取与PCIE故障相关的寄存器数据的步骤;如果否,则在监测到所述PCIE发生故障时,获取BIOS上报的相应的故障信息,并根据所述故障信息对PCIE故障进行定位。
本实施例中,所述处理器21执行所述存储器22中保存的计算机子程序时,可以具体实现以下步骤:根据所述PCIE故障的故障类型以及所述PCIE故障的定位信息,从预设的故障应对数据库中获取相应的故障原因以及故障应对方案,并对获取到的故障原因和故障应对方案进行显示。
进一步的,本申请还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时前述公开的PCIE故障定位方法的步骤。
其中,关于上述PCIE故障定位方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种Purley平台服务器的PCIE故障定位方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种Purley平台服务器的PCIE故障定位方法,其特征在于,应用于BMC,包括:
监测PCIE是否发生故障;
若监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据;其中,所述寄存器数据为能够反映所述PCIE故障的位置信息的数据;
利用所述寄存器数据对所述PCIE故障进行定位;
其中,所述获取与PCIE故障相关的寄存器数据,包括:通过PECI协议读取CPU的MCi_ADDR寄存器数据;
并且,所述利用所述寄存器数据对所述PCIE故障进行定位,包括:判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内;如果是,则根据PCIE增强配置机制对所述PCIE故障进行定位。
2.根据权利要求1所述的PCIE故障定位方法,其特征在于,所述判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内之前,还包括:
获取BIOS在Purley平台服务器开机启动时通过IPMI协议传输的所述Purley平台服务器的当前系统地址空间。
3.根据权利要求1所述的PCIE故障定位方法,其特征在于,所述根据PCIE增强配置机制对所述PCIE故障进行定位,包括:
利用PCIE增强配置机制解析得到所述PCIE的Bus、Device和Function数据;
利用所述Bus、Device和Function数据确定所述PCIE故障的位置信息。
4.根据权利要求1至3任一项所述的PCIE故障定位方法,其特征在于,所述获取与PCIE故障相关的寄存器数据之前,还包括:
监视BIOS的故障信息上报功能状态;
判断所述故障信息上报功能状态与预设状态是否相符;
如果是,则在监测到所述PCIE发生故障时,启动所述获取与PCIE故障相关的寄存器数据的步骤;
如果否,则在监测到所述PCIE发生故障时,获取BIOS上报的相应的故障信息,并根据所述故障信息对PCIE故障进行定位。
5.根据权利要求4所述的PCIE故障定位方法,其特征在于,所述预设状态包括:
BIOS无法上报故障信息,和,BIOS上报的故障信息与BMC资产信息不对应。
6.一种Purley平台服务器的PCIE故障定位装置,其特征在于,应用于BMC,包括:
故障监测模块,用于监测PCIE是否发生故障;
数据获取模块,用于当监测到所述PCIE发生故障,则获取与PCIE故障相关的寄存器数据;其中,所述寄存器数据为能够反映所述PCIE故障的位置信息的数据;
故障定位模块,用于利用所述寄存器数据对所述PCIE故障进行定位;
其中,所述数据获取模块,具体用于通过PECI协议读取CPU的MCi_ADDR寄存器数据;
并且,所述故障定位模块,具体用于判断所述MCi_ADDR寄存器数据是否位于Purley平台服务器的当前系统地址空间内;如果是,则根据PCIE增强配置机制对所述PCIE故障进行定位。
7.一种Purley平台服务器的PCIE故障定位设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至5任一项所述的PCIE故障定位方法的步骤。
8.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的PCIE故障定位方法的步骤。
CN201910555894.3A 2019-06-25 2019-06-25 Purley平台服务器的PCIE故障定位方法、装置、设备及介质 Active CN110362435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910555894.3A CN110362435B (zh) 2019-06-25 2019-06-25 Purley平台服务器的PCIE故障定位方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910555894.3A CN110362435B (zh) 2019-06-25 2019-06-25 Purley平台服务器的PCIE故障定位方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110362435A CN110362435A (zh) 2019-10-22
CN110362435B true CN110362435B (zh) 2022-07-08

Family

ID=68216846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910555894.3A Active CN110362435B (zh) 2019-06-25 2019-06-25 Purley平台服务器的PCIE故障定位方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110362435B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414268B (zh) * 2020-02-26 2022-05-13 华为技术有限公司 故障处理方法、装置及服务器
CN113253941B (zh) 2021-06-22 2021-10-15 苏州浪潮智能科技有限公司 一种寄存器读取方法、装置、设备和介质
CN114356644B (zh) * 2022-03-18 2022-06-14 阿里巴巴(中国)有限公司 Pcie设备故障处理方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
US9703620B1 (en) * 2016-01-07 2017-07-11 Lenovo Enterprise Solutions (Singapore) PTE., LTD. Locating lane fault in multiple-lane bus
CN109189602A (zh) * 2018-09-21 2019-01-11 郑州云海信息技术有限公司 一种PCIE Slot故障定位方法、装置以及设备
CN109542752A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种服务器PCIe设备故障记录的系统及方法
CN109558282A (zh) * 2018-12-03 2019-04-02 郑州云海信息技术有限公司 一种pcie链路检测方法、系统及电子设备和存储介质
CN109614259A (zh) * 2018-11-28 2019-04-12 郑州云海信息技术有限公司 一种服务器PCIe设备定位故障原因的系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677500A (zh) * 2016-01-05 2016-06-15 浪潮电子信息产业股份有限公司 一种实时服务器故障诊断的方法
US9703620B1 (en) * 2016-01-07 2017-07-11 Lenovo Enterprise Solutions (Singapore) PTE., LTD. Locating lane fault in multiple-lane bus
CN109189602A (zh) * 2018-09-21 2019-01-11 郑州云海信息技术有限公司 一种PCIE Slot故障定位方法、装置以及设备
CN109542752A (zh) * 2018-11-28 2019-03-29 郑州云海信息技术有限公司 一种服务器PCIe设备故障记录的系统及方法
CN109614259A (zh) * 2018-11-28 2019-04-12 郑州云海信息技术有限公司 一种服务器PCIe设备定位故障原因的系统及方法
CN109558282A (zh) * 2018-12-03 2019-04-02 郑州云海信息技术有限公司 一种pcie链路检测方法、系统及电子设备和存储介质

Also Published As

Publication number Publication date
CN110362435A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN108388489B (zh) 一种服务器故障诊断方法、系统、设备及存储介质
CN110362435B (zh) Purley平台服务器的PCIE故障定位方法、装置、设备及介质
US20140019403A1 (en) Transaction server performance monitoring using component performance data
US10452469B2 (en) Server performance correction using remote server actions
CN110727556A (zh) 一种bmc健康状态监控方法、系统、终端及存储介质
CN108287769B (zh) 一种信息处理方法及装置
CN110058920B (zh) 虚拟机性能检测方法及装置、电子设备、存储介质
CN109254922A (zh) 一种服务器BMC Redfish功能的自动化测试方法及装置
WO2019019356A1 (zh) 应用程序测试方法、装置、计算机设备和存储介质
CN112306567A (zh) 集群管理系统和容器管控方法
US10108474B2 (en) Trace capture of successfully completed transactions for trace debugging of failed transactions
US9176821B2 (en) Watchpoint support system for functional simulator
US9811447B2 (en) Generating a fingerprint representing a response of an application to a simulation of a fault of an external service
CN109586989B (zh) 一种状态检查方法、装置及集群系统
CN105955838A (zh) 一种系统死机的原因查看方法及装置
US20160112285A1 (en) Apparatus and method for detecting abnormal connection
CN112968927B (zh) 日志提取方法、日志提取装置、存储介质及电子设备
US9317354B2 (en) Dynamically determining an external systems management application to report system errors
CN112583617A (zh) 故障确定方法、服务器、控制终端及存储介质
CN108734033B (zh) 一种实现系统间安全交互的方法和装置
CN113849356A (zh) 一种设备测试方法、装置、电子设备和存储介质
CN110362464B (zh) 软件分析方法及设备
CN111124730A (zh) 一种服务器的错误定位方法、装置及计算机存储介质
CN111400094A (zh) 一种服务器系统恢复出厂设置的方法、装置、设备及介质
CN110908725A (zh) 应用程序启动方法、装置、电子设备及可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant