CN113704013A - 一种pcie纠错处理的方法、装置、设备和介质 - Google Patents

一种pcie纠错处理的方法、装置、设备和介质 Download PDF

Info

Publication number
CN113704013A
CN113704013A CN202110929355.9A CN202110929355A CN113704013A CN 113704013 A CN113704013 A CN 113704013A CN 202110929355 A CN202110929355 A CN 202110929355A CN 113704013 A CN113704013 A CN 113704013A
Authority
CN
China
Prior art keywords
error correction
error
pcie
pcie device
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110929355.9A
Other languages
English (en)
Inventor
宁兆男
张炳会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110929355.9A priority Critical patent/CN113704013A/zh
Publication of CN113704013A publication Critical patent/CN113704013A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例公开了一种PCIE纠错处理的方法、装置、设备和介质,接收到设置指令时,依据设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值。在实际应用中,可以添加纠错阈值的设定选项,以便于根据不同的需求调整纠错阈值的取值。记录在不同阶段各PCIE设备累计发生错误的错误次数;当存在错误次数达到纠错阈值的目标PCIE设备时,说明需要对目标PCIE设备的错误进行处理,此时BIOS可以触发错误处理机制以对目标PCIE设备进行纠错处理。通过软件层面的控制,实现对各PCIE设备的纠错阈值的设置,并且在目标PCIE设备的错误次数达到纠错阈值时执行纠错处理,使得AMD平台服务器可以满足客户定制化的需求。

Description

一种PCIE纠错处理的方法、装置、设备和介质
技术领域
本申请涉及服务器技术领域,特别是涉及一种PCIE纠错处理的方法、装置、设备和计算机可读存储介质。
背景技术
随着服务器的快速发展,对服务器性能方面要求越来越高,同时对服务器稳定性方面要求也越来越高。客户对可靠性(Reliability)、有效性(Availability)和适合性(Serviceability)即RAS方面的功能要求也越加全面,功能越全面,可设置性越好,越容易满足客户需求并更加容易成为客户喜欢的产品。
目前已上市的intel服务器上使用的中央处理器(Center Process Unit,CPU)支持特别丰富的RAS功能,而AMD平台最新上市的Milan平台服务器CPU支持的RAS功能却没有那么丰富,AMD平台指的是服务器CPU接口支持AMD发布的CPU,目前AMD平台最新上市的服务器CPU不支持基于高速串行计算机扩展总线标准(Peripheral Component InterconnectExpress,PCI-Express)的PCIE可纠正纠错阈值设定,每发生一个PCIE可纠正错误就会触发错误信息的处理机制。由于AMD平台服务器CPU不支持PCIE可纠正纠错阈值设定,导致AMD平台服务器无法满足客户定制化的需求。
可见,如何使得AMD平台服务器满足客户定制化的需求,是本领域技术人员需要解决的问题。
发明内容
本申请实施例的目的是提供一种PCIE纠错处理的方法、装置、设备和计算机可读存储介质,可以使得AMD平台服务器满足客户定制化的需求。
为解决上述技术问题,本申请实施例提供一种PCIE纠错处理的方法,包括:
接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值;
记录在不同阶段各所述PCIE设备累计发生错误的错误次数;
当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对所述目标PCIE设备进行纠错处理。
可选地,在当前阶段为POST阶段时,所述记录在不同阶段各所述PCIE设备累计发生错误的错误次数包括:
判断POST阶段各所述PCIE设备是否发生可纠正错误;
若POST阶段存在发生可纠正错误的第一PCIE设备,则对所述第一PCIE设备的错误次数加一。
可选地,在当前阶段为RunTime阶段时,所述记录在不同阶段各所述PCIE设备累计发生错误的错误次数包括:
在RunTime阶段接收到错误触发指令时,遍历所有PCIE设备的存储寄存器;
判断各所述存储寄存器中是否记录有纠错标识;
若存在记录有纠错标识的目标存储寄存器,则对所述目标存储寄存器对应的PCIE设备的错误次数加一。
可选地,所述触发错误处理机制以对所述目标PCIE设备进行纠错处理包括:
将所述目标PCIE设备对应的错误日志上报到BMC。
可选地,在所述当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对所述目标PCIE设备进行纠错处理之后还包括:
将所述目标PCIE设备对应的错误次数清零。
可选地,还包括:
接收到纠错阈值调整指令时,调整相应的PCIE设备对应的纠错阈值。
可选地,还包括:
依据预设时间段内各PCIE设备对应的错误次数,调整各PCIE设备设置对应的纠错阈值。
本申请实施例还提供了一种PCIE纠错处理的装置,包括设置单元、记录单元和纠错单元;
所述设置单元,用于接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值;
所述记录单元,用于记录在不同阶段各所述PCIE设备累计发生错误的错误次数;
所述纠错单元,用于当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对所述目标PCIE设备进行纠错处理。
可选地,在当前阶段为POST阶段时,所述记录单元包括判断子单元和累加子单元;
所述判断子单元,用于判断POST阶段各所述PCIE设备是否发生可纠正错误;
所述累加子单元,用于若POST阶段存在发生可纠正错误的第一PCIE设备,则对所述第一PCIE设备的错误次数加一。
可选地,在当前阶段为RunTime阶段时,所述记录单元还包括遍历子单元;
所述遍历子单元,用于在RunTime阶段接收到错误触发指令时,遍历所有PCIE设备的存储寄存器;
所述判断子单元,用于判断各所述存储寄存器中是否记录有纠错标识;
所述累加子单元,用于若存在记录有纠错标识的目标存储寄存器,则对所述目标存储寄存器对应的PCIE设备的错误次数加一。
可选地,所述纠错单元用于将所述目标PCIE设备对应的错误日志上报到BMC。
可选地,还包括清零单元;
所述清零单元,用于将所述目标PCIE设备对应的错误次数清零。
可选地,还包括修改单元;
所述修改单元,用于接收到纠错阈值调整指令时,调整相应的PCIE设备对应的纠错阈值。
可选地,还包括调整单元;
所述调整单元,用于依据预设时间段内各PCIE设备对应的错误次数,调整各PCIE设备设置对应的纠错阈值。
本申请实施例还提供了一种PCIE纠错处理的设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述任意一项所述PCIE纠错处理的方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述PCIE纠错处理的方法的步骤。
由上述技术方案可以看出,接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值。在实际应用中,可以添加纠错阈值的设定选项,以便于用户可以根据不同的需求调整纠错阈值的取值。记录在不同阶段各PCIE设备累计发生错误的错误次数;当存在错误次数达到纠错阈值的目标PCIE设备时,说明需要对目标PCIE设备的错误进行处理,此时BIOS可以触发错误处理机制以对目标PCIE设备进行纠错处理。在该技术方案中,通过软件层面的控制,实现对各PCIE设备的纠错阈值的设置,并且在目标PCIE设备的错误次数达到纠错阈值时执行纠错处理,避免了每出现一次错误便需要执行纠错处理,使得AMD平台服务器可以满足客户定制化的需求。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种PCIE纠错处理的方法的流程图;
图2为本申请实施例提供的一种PCIE纠错处理的装置的结构示意图;
图3为本申请实施例提供的一种PCIE纠错处理的设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
接下来,详细介绍本申请实施例所提供的一种PCIE纠错处理的方法。图1为本申请实施例提供的一种PCIE纠错处理的方法的流程图,该方法包括:
S101:接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值。
AMD平台的服务器CPU不支持PCIE可纠正错误的纠错阈值的设定。在此种情况下,每发生一个PCIE可纠正错误就会触发错误信息的处理机制,导致系统频繁的用于处理错误信息而影响其他业务的执行效率。并且在实际应用中,许多客户希望能够对PCIE可纠正错误的纠错阈值实现定制化,从而满足不同的业务需求。
故此在本申请实施例中,可以通过软件层面的控制,实现对各PCIE设备的纠错阈值的设置。
在实际应用中,可以利用BIOS(Basic Input Output System,基本输入输出系统)组件实现对PCIE设备纠错阈值的设置。可以在BIOS的设置功能(Setup)上添加一个PCIE纠错阈值设定的选项,选项设定的最小值可以为1,选项最大值可以为20000,选项默认值可以按照统一规范设定,在此不做限定。用户可以在各PCIE设备对应的选项中输入对应的纠错阈值,用户输入的纠错阈值相当于向BIOS传输设置指令,BIOS接收到设置指令时,依据设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值
S102:记录在不同阶段各PCIE设备累计发生错误的错误次数。
BIOS包括测试(POST)阶段和运行(RunTime)阶段。
在POST阶段,BIOS识别系统连接的PCIE设备,并根据BIOS Setup为每个PCIE设备初始化设定错误阈值,同时可以判断POST阶段各PCIE设备是否发生可纠正错误。
为了便于区分,可以将在POST阶段发生可纠正错误的PCIE设备称作第一PCIE设备。若POST阶段存在发生可纠正错误的第一PCIE设备,则可以对第一PCIE设备的错误次数加一。
在RunTime阶段,当发生PCIE可纠正错误时,系统会自动触发SMI告知BIOS,SMI向BIOS发送的告知信息相当于错误触发指令。
BIOS接收到错误触发指令时,可以遍历所有PCIE设备的存储寄存器;判断各存储寄存器中是否记录有纠错标识;若存在记录有纠错标识的目标存储寄存器,则对目标存储寄存器对应的PCIE设备的错误次数加一。
在实际应用中,当系统监测到出现错误时会自动修改存储寄存器上记录的信息。在具体实现中,可以采用不同的数字表征系统处于正常状态,还是出现了错误。例如,可以用“1”表示系统出现错误,用“0”表示系统未出现错误,处于正常状态。因此BIOS可以根据各PCIE设备对应的存储寄存器上记录的数字,确定出是哪一个PCIE设备出现了错误。
S103:当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对目标PCIE设备进行纠错处理。
在本申请实施例中采用累加的方式,记录各PCIE设备对应的错误次数。也即在PSOT和Runtime阶段,记录发生错误的PCIE设备的错误次数是累加的,当某个PCIE设备发生错误的次数达到BIOS Setup选项设定的纠错阈值时,将会触发错误处理机制。为了便于区分,可以将错误次数达到纠错阈值的PCIE设备称作目标PCIE设备。
在本申请实施例中,错误处理机制的方式可以有多种,例如BIOS可以上报目标PCIE设备的错误日志到基板管理控制器(Baseboard Manager Controller,BMC)。或者BIOS可以生成提示信息,通过用户界面展示报警信息,以便于管理人员及时对目标PCIE设备进行纠错处理。
由上述技术方案可以看出,接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值。在实际应用中,可以添加纠错阈值的设定选项,以便于用户可以根据不同的需求调整纠错阈值的取值。记录在不同阶段各PCIE设备累计发生错误的错误次数;当存在错误次数达到纠错阈值的目标PCIE设备时,说明需要对目标PCIE设备的错误进行处理,此时BIOS可以触发错误处理机制以对目标PCIE设备进行纠错处理。在该技术方案中,通过软件层面的控制,实现对各PCIE设备的纠错阈值的设置,并且在目标PCIE设备的错误次数达到纠错阈值时执行纠错处理,避免了每出现一次错误便需要执行纠错处理,使得AMD平台服务器可以满足客户定制化的需求。
在本申请实施例中,可以当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对目标PCIE设备进行纠错处理之后,将目标PCIE设备对应的错误次数清零。
触发错误处理机制以对目标PCIE设备进行纠错处理之后,此时目标PCIE设备对应的错误次数已经不具有使用价值,为了避免后续对各PCIE设备的错误次数进行检测时,重复对目标PCIE设备进行纠错处理,因此在触发错误处理机制以对目标PCIE设备进行纠错处理之后,可以将目标PCIE设备对应的错误次数清零。
通过对目标PCIE设备对应的错误次数清零,避免了历史错误次数和当前记录的错误次数产生混乱,造成系统重复触发错误处理机制。
在本申请实施例中,可以在BIOS Setup上添加一个PCIE纠错阈值设定的选项,相应的,用户可以通过该选项对PCIE设备对应的纠错阈值进行调整。
在具体实现中,用户可以在选项中设置新的纠错阈值。对于BIOS而言,用户输入的新的纠错阈值相当于纠错阈值调整指令,此时BIOS可以在接收到纠错阈值调整指令时,调整相应的PCIE设备对应的纠错阈值。
在本申请实施例中,所有PCIE设备的纠错阈值可以设置成统一的数值。除此之外,也可以根据不同PCIE设备所需执行的业务要求,对不同PCIE设备设置不同的纠错阈值。
以所有PCIE设备的纠错阈值设置成统一的数值为例,用户通过在选项中设置新的纠错阈值,可以一次性实现对所有PCIE设备的纠错阈值的调整。
以不同PCIE设备设置不同的纠错阈值为例,用户通过在选项中设置新的纠错阈值及其对应的PCIE设备的标识信息,BIOS在接收到PCIE设备的标识信息之后可以确定出是对哪一个PCIE设备的纠错阈值进行调整,从而将新的纠错阈值替换该PCIE设备原本对应的纠错阈值,实现了对不同PCIE设备的独立设置。
通过在BIOS Setup上添加一个PCIE纠错阈值设定的选项,可以便于用户实现对纠错阈值的调整,用户可以根据实际业务需求调整各PCIE设备对应的纠错阈值,使得纠错阈值的设置更加合理化,并且可以带来更好的用户体验。
在本申请实施例中,除了用户可以在选项中设置新的纠错阈值外,BIOS也可以基于各PCIE设备在过去一段时间内发生的错误次数,动态调整PCIE设备对应的纠错阈值。
在具体实现中,BIOS可以依据预设时间段内各PCIE设备对应的错误次数,调整各PCIE设备设置对应的纠错阈值。
每个PCIE设备对应的纠错阈值的调整方式相同,以一个PCIE设备为例,当预设时间段内该PCIE设备对应的错误次数较高时,则说明PCIE设备当前的容错性较差,此时可以调小该PCIE设备对应的纠错阈值;当预设时间段内该PCIE设备对应的错误次数较低时,则说明PCIE设备当前的容错性较优,此时可以调大该PCIE设备对应的纠错阈值。
在本申请实施例中,对于预设时间段的取值不做限定,例如,可以设置为24小时。
通过基于各PCIE设备出现的错误次数,动态调整PCIE设备对应的纠错阈值,可以满足不同PCIE设备的容错性要求。
图2为本申请实施例提供的一种PCIE纠错处理的装置的结构示意图,包括设置单元21、记录单元22和纠错单元23;
AMD平台的服务器CPU不支持PCIE可纠正错误的纠错阈值的设定。在此种情况下,每发生一个PCIE可纠正错误就会触发错误信息的处理机制,导致系统频繁的用于处理错误信息而影响其他业务的执行效率。并且在实际应用中,许多客户希望能够对PCIE可纠正错误的纠错阈值实现定制化,从而满足不同的业务需求。
故此在本申请实施例中,可以通过软件层面的控制,实现对各PCIE设备的纠错阈值的设置。
在实际应用中,可以利用BIOS(Basic Input Output System,基本输入输出系统)组件实现对PCIE设备纠错阈值的设置。根据所需实现的功能,可以将BIOS划分为设置单元21、记录单元22和纠错单元23。
设置单元21,用于接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值;
记录单元22,用于记录在不同阶段各PCIE设备累计发生错误的错误次数;
纠错单元23,用于当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对目标PCIE设备进行纠错处理。
可选地,在当前阶段为POST阶段时,记录单元包括判断子单元和累加子单元;
判断子单元,用于判断POST阶段各PCIE设备是否发生可纠正错误;
累加子单元,用于若POST阶段存在发生可纠正错误的第一PCIE设备,则对第一PCIE设备的错误次数加一。
可选地,在当前阶段为RunTime阶段时,记录单元还包括遍历子单元;
遍历子单元,用于在RunTime阶段接收到错误触发指令时,遍历所有PCIE设备的存储寄存器;
判断子单元,用于判断各存储寄存器中是否记录有纠错标识;
累加子单元,用于若存在记录有纠错标识的目标存储寄存器,则对目标存储寄存器对应的PCIE设备的错误次数加一。
BIOS包括测试(POST)阶段和运行(RunTime)阶段。
在POST阶段,BIOS识别系统连接的PCIE设备,并根据BIOS Setup为每个PCIE设备初始化设定错误阈值,同时可以判断POST阶段各PCIE设备是否发生可纠正错误。
在RunTime阶段,当发生PCIE可纠正错误时,系统会自动触发SMI告知BIOS,SMI向BIOS发送的告知信息相当于错误触发指令。
在实际应用中,当系统监测到出现错误时会自动修改存储寄存器上记录的信息。在具体实现中,可以采用不同的数字表征系统处于正常状态,还是出现了错误。例如,可以用“1”表示系统出现错误,用“0”表示系统未出现错误,处于正常状态。因此BIOS可以根据各PCIE设备对应的存储寄存器上记录的数字,确定出是哪一个PCIE设备出现了错误。
在本申请实施例中采用累加的方式,记录各PCIE设备对应的错误次数。也即在PSOT和Runtime阶段,记录发生错误的PCIE设备的错误次数是累加的,当某个PCIE设备发生错误的次数达到BIOS Setup选项设定的纠错阈值时,将会触发错误处理机制。为了便于区分,可以将错误次数达到纠错阈值的PCIE设备称作目标PCIE设备。
可选地,纠错单元用于将目标PCIE设备对应的错误日志上报到BMC。
可选地,还包括清零单元;
清零单元,用于将目标PCIE设备对应的错误次数清零。
通过对目标PCIE设备对应的错误次数清零,避免了历史错误次数和当前记录的错误次数产生混乱,造成系统重复触发错误处理机制。
可选地,还包括修改单元;
修改单元,用于接收到纠错阈值调整指令时,调整相应的PCIE设备对应的纠错阈值。
可选地,还包括调整单元;
调整单元,用于依据预设时间段内各PCIE设备对应的错误次数,调整各PCIE设备设置对应的纠错阈值。
通过基于各PCIE设备出现的错误次数,动态调整PCIE设备对应的纠错阈值,可以满足不同PCIE设备的容错性要求。
图2所对应实施例中特征的说明可以参见图1所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值。在实际应用中,可以添加纠错阈值的设定选项,以便于用户可以根据不同的需求调整纠错阈值的取值。记录在不同阶段各PCIE设备累计发生错误的错误次数;当存在错误次数达到纠错阈值的目标PCIE设备时,说明需要对目标PCIE设备的错误进行处理,此时BIOS可以触发错误处理机制以对目标PCIE设备进行纠错处理。在该技术方案中,通过软件层面的控制,实现对各PCIE设备的纠错阈值的设置,并且在目标PCIE设备的错误次数达到纠错阈值时执行纠错处理,避免了每出现一次错误便需要执行纠错处理,使得AMD平台服务器可以满足客户定制化的需求。
图3为本申请实施例提供的一种PCIE纠错处理的设备的结构图,如图3所示,PCIE纠错处理的设备包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值;记录在不同阶段各PCIE设备累计发生错误的错误次数;当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对目标PCIE设备进行纠错处理的方法的步骤。
本实施例提供的PCIE纠错处理的设备可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的PCIE纠错处理的方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于纠错阈值、错误次数等。
在一些实施例中,PCIE纠错处理的设备还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图3中示出的结构并不构成对PCIE纠错处理的设备的限定,可以包括比图示更多或更少的组件。
由上述技术方案可以看出,接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值。在实际应用中,可以添加纠错阈值的设定选项,以便于用户可以根据不同的需求调整纠错阈值的取值。记录在不同阶段各PCIE设备累计发生错误的错误次数;当存在错误次数达到纠错阈值的目标PCIE设备时,说明需要对目标PCIE设备的错误进行处理,此时BIOS可以触发错误处理机制以对目标PCIE设备进行纠错处理。在该技术方案中,通过软件层面的控制,实现对各PCIE设备的纠错阈值的设置,并且在目标PCIE设备的错误次数达到纠错阈值时执行纠错处理,避免了每出现一次错误便需要执行纠错处理,使得AMD平台服务器可以满足客户定制化的需求。
可以理解的是,如果上述实施例中的PCIE纠错处理的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述任意一项PCIE纠错处理的方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
以上对本申请实施例所提供的一种PCIE纠错处理的方法、装置、设备和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上对本申请所提供的一种PCIE纠错处理的方法、装置、设备和计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种PCIE纠错处理的方法,其特征在于,包括:
接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值;
记录在不同阶段各所述PCIE设备累计发生错误的错误次数;
当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对所述目标PCIE设备进行纠错处理。
2.根据权利要求1所述的PCIE纠错处理的方法,其特征在于,在当前阶段为POST阶段时,所述记录在不同阶段各所述PCIE设备累计发生错误的错误次数包括:
判断POST阶段各所述PCIE设备是否发生可纠正错误;
若POST阶段存在发生可纠正错误的第一PCIE设备,则对所述第一PCIE设备的错误次数加一。
3.根据权利要求2所述的PCIE纠错处理的方法,其特征在于,在当前阶段为RunTime阶段时,所述记录在不同阶段各所述PCIE设备累计发生错误的错误次数包括:
在RunTime阶段接收到错误触发指令时,遍历所有PCIE设备的存储寄存器;
判断各所述存储寄存器中是否记录有纠错标识;
若存在记录有纠错标识的目标存储寄存器,则对所述目标存储寄存器对应的PCIE设备的错误次数加一。
4.根据权利要求1所述的PCIE纠错处理的方法,其特征在于,所述触发错误处理机制以对所述目标PCIE设备进行纠错处理包括:
将所述目标PCIE设备对应的错误日志上报到BMC。
5.根据权利要求1所述的PCIE纠错处理的方法,其特征在于,在所述当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对所述目标PCIE设备进行纠错处理之后还包括:
将所述目标PCIE设备对应的错误次数清零。
6.根据权利要求1所述的PCIE纠错处理的方法,其特征在于,还包括:
接收到纠错阈值调整指令时,调整相应的PCIE设备对应的纠错阈值。
7.根据权利要求1至6任意一项所述的PCIE纠错处理的方法,其特征在于,还包括:
依据预设时间段内各PCIE设备对应的错误次数,调整各PCIE设备设置对应的纠错阈值。
8.一种PCIE纠错处理的装置,其特征在于,包括设置单元、记录单元和纠错单元;
所述设置单元,用于接收到设置指令时,依据所述设置指令中携带的纠错阈值对各PCIE设备设置对应的纠错阈值;
所述记录单元,用于记录在不同阶段各所述PCIE设备累计发生错误的错误次数;
所述纠错单元,用于当存在错误次数达到纠错阈值的目标PCIE设备时,触发错误处理机制以对所述目标PCIE设备进行纠错处理。
9.一种PCIE纠错处理的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任意一项所述PCIE纠错处理的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述PCIE纠错处理的方法的步骤。
CN202110929355.9A 2021-08-13 2021-08-13 一种pcie纠错处理的方法、装置、设备和介质 Withdrawn CN113704013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110929355.9A CN113704013A (zh) 2021-08-13 2021-08-13 一种pcie纠错处理的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110929355.9A CN113704013A (zh) 2021-08-13 2021-08-13 一种pcie纠错处理的方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113704013A true CN113704013A (zh) 2021-11-26

Family

ID=78652805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110929355.9A Withdrawn CN113704013A (zh) 2021-08-13 2021-08-13 一种pcie纠错处理的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113704013A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729742A (zh) * 2022-11-28 2023-03-03 宁畅信息产业(北京)有限公司 一种错误处理方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729742A (zh) * 2022-11-28 2023-03-03 宁畅信息产业(北京)有限公司 一种错误处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109284217B (zh) 应用程序异常处理方法、装置、电子设备及存储介质
US9575745B1 (en) Immediately launching applications
US10810096B2 (en) Deferred server recovery in computing systems
JP6818014B2 (ja) ジョブ用の動作リトライ方法及び機器
US20150193245A1 (en) Autonomously managed virtual machine anti-affinity rules in cloud computing environments
US10592373B2 (en) Integrating external services with a clustered file system
CN110377341B (zh) 一种监听无响应异常的方法、装置、介质和电子设备
CN111130962B (zh) 一种交换机自动化配置方法、设备、系统及存储介质
US9596157B2 (en) Server restart management via stability time
CN113704013A (zh) 一种pcie纠错处理的方法、装置、设备和介质
WO2018148101A1 (en) Audio system maintenance using system call monitoring
CN111338628A (zh) 组件渲染方法及设备
US20230359514A1 (en) Operation-based event suppression
US9317355B2 (en) Dynamically determining an external systems management application to report system errors
CN110532203B (zh) 一种nand复位方法、装置、电子设备和存储介质
CN111130856A (zh) 一种服务器配置方法、系统、设备及计算机可读存储介质
CN116149749A (zh) 业务操作的重试方法、装置、设备及存储介质
US10628583B2 (en) Detecting a spoofed image in an information handling system
US12020039B2 (en) Compute instance warmup operations
CN115454336A (zh) 一种硬盘工作环境配置方法、装置、介质
CN114221878A (zh) 一种故障节点检测方法、系统、电子设备及存储介质
CN110058866B (zh) 集群组件安装方法及设备
CN109101253B (zh) 云计算系统中主机的管理方法和装置
CN109542598B (zh) 定时任务管理方法及装置
CN114153503A (zh) 一种bios控制方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20211126