CN115576730A - 存储服务器pcie卡故障修复方法、系统即及计算机设备 - Google Patents

存储服务器pcie卡故障修复方法、系统即及计算机设备 Download PDF

Info

Publication number
CN115576730A
CN115576730A CN202211308213.1A CN202211308213A CN115576730A CN 115576730 A CN115576730 A CN 115576730A CN 202211308213 A CN202211308213 A CN 202211308213A CN 115576730 A CN115576730 A CN 115576730A
Authority
CN
China
Prior art keywords
repair
pcie
hardware
pcie card
cpld
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211308213.1A
Other languages
English (en)
Inventor
吴常顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211308213.1A priority Critical patent/CN115576730A/zh
Publication of CN115576730A publication Critical patent/CN115576730A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储服务器PCIE卡故障修复方法、系统及计算机设备,方法包括:接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;基于所述PC I E卡接入系统信号获取PCIE链路状态;若所述PC I E链路状态为异常,则对主机发起重训练并获取重训练的修复结果信息;若所述修复结果信息包括重试失败指示信号,则发送链路修复失败信号至所述CPLD;接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作;通过PCIE卡自身完成PCIE链路的状态检测,以及软硬件组合修复修复,整个过程不依赖BIOS,可有效避免传统BIOS修复造成的系统启动时间延长等问题。

Description

存储服务器PCIE卡故障修复方法、系统即及计算机设备
技术领域
本发明涉及存储服务器PCIE领域,具体涉及一种存储服务器PCIE卡故障修复方法、系统即及计算机设备。
背景技术
随着我国对信息安全的不断重视,国产CPU(Central Processing Unit/Processor,中央处理器)迎来了前所未有的发展良机,但国产CPU相对国外厂商无论在性能上还是在可靠性上都有不小差距。PCIE(peripheral component interconnect express,高速串行计算机扩展总线标准)卡是存储服务器的重要组成部分,国产CPU的经常不稳定会导致PICE链路的不稳定,比如出现PCIE卡丢失或者降速降带宽等问题。
传统的方法通常依赖BIOS对异常的PCIE链路进行修复,当BIOS检测到PCIE卡出现降带宽或者降速时,发起链路重训练。但这种方法存在两个明显的缺点:(1)通过软件的方法修复PCIE卡链路故障成功率低;(2)修复方法严重依赖BIOS,BIOS修复过程会增大BIOS启动时间,进而增大系统开机时间。
发明内容
本发明目的是:提供一种存储服务器PCIE卡故障修复方法、系统即及计算机设备。
本发明的技术方案是:第一方面,本发明提供一种存储服务器PCIE卡故障修复方法,所述方法包括:
接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;
基于所述PCIE卡接入系统信号获取PCIE链路状态;
若所述PCIE链路状态为异常,则对主机发起重训练并获取重训练的修复结果信息;
若所述修复结果信息包括重试失败指示信号,则发送链路修复失败信号至所述CPLD;
接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作。
在一种较佳的实施方式中,所述基于所述PCIE卡接入系统信号获取PCIE链路状态包括:
基于所述PCIE卡接入系统信号监测PCIE链路的带宽和传输速度;
基于所述PCIE链路的带宽和传输速度获得PCIE链路状态;
若所述PCIE链路的带宽或传输速度降低,则获得PCIE链路状态为异常。
在一种较佳的实施方式中,所述对主机发起重训练并获取重训练的修复结果信息包括:
对主机发起第一预设次数重训练并获取重训练的修复结果信息,所述第一预设次数大于等于1且小于等于3。
在一种较佳的实施方式中,所述硬件修复命令至少包括第二预设次数和硬件修复策略;
所述根据所述硬件修复命令执行硬件修复操作包括:
执行所述硬件修复策略第二预设次数。
在一种较佳的实施方式中,所述执行硬件修复策略第二预设次数包括:执行重新下电和重新上电操作预设次数。
在一种较佳的实施方式中,所述接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作之后,所述方法还包括:
获取硬件修复结果信息并发送所述硬件修复结果信息至所述CPLD,以供所述CPLD根据所述硬件修复结果信息执行对应的处理策略。
在一种较佳的实施方式中,所述获取硬件修复结果信息包括:
执行重新上电操作并判断重新上电是否成功;
若是,则获得硬件修复结果为修复成功;
若否,则获得硬件修复结果为修复失败。
在一种较佳的实施方式中,若所述硬件修复结果为修复成功,所述CPLD根据所述硬件修复结果执行对应的处理策略包括:
所述CPLD发送再次枚举信号至BIOS以使所述BIOS对所述PCIE卡重新枚举以完成所述BIOS对所述PCIE卡的资源分配。
第二方面,本发明还提供一种存储服务器PCIE卡故障修复系统,所述系统包括:
第一接收模块,用于接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;
获取模块,用于基于所述PCIE卡接入系统信号获取PCIE链路状态;
重训练模块,用于在所述PCIE链路状态为异常时,对主机发起重训练并获取重训练的修复结果信息;
第一发送模块,用于在所述修复结果信息包括重试失败指示信号时,发送链路修复失败信号至所述CPLD;
第二接收模块,用于接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作。
第三方面,本发明还提供一种计算机设备,所述计算机设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如第一方面中任意一项所述的存储服务器PCIE卡故障修复方法。
本发明的优点是:提供一种存储服务器PCIE卡故障修复方法、系统及计算机设备,方法包括:接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;基于所述PCIE卡接入系统信号获取PCIE链路状态;若所述PCIE链路状态为异常,则对主机发起重训练并获取重训练的修复结果信息;若所述修复结果信息包括重试失败指示信号,则发送链路修复失败信号至所述CPLD;接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作;通过PCIE卡自身完成PCIE链路的状态检测,以及软硬件组合修复修复,整个过程不依赖BIOS,可有效避免传统BIOS修复造成的系统启动时间延长等问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的存储服务器PCIE卡故障修复的架构示意图;
图2为本发明所提供的存储服务器PCIE卡故障修复方法流程图;
图3为本发明所提供的存储服务器PCIE卡故障修复系统结构图;
图4为本发明所提供的计算机设备的架构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如背景技术所述,CPU是电子计算机的主要设备、电脑中的核心配件。电脑中所有操作都由CPU负责读取指令,对指令译码并执行指令的核心部件。现有技术中CPU尤其是国产CPU在计算机运行中会出现不稳定的情况,从而导致PCIS链路发生异常,出现PCIE卡丢失或者降速、降带宽等问题。
传统的方法是依赖BIOS(Basic Input Output System,基本输入输出系统)对异常的PCIE卡进行修复,即当BIOS检测到PCIE卡出现降速或降带宽的情况时发起链路重训练进行软件修复。但这种软件修复方法修复成功率并不高,并且依赖BIOS,修复过程增大BIOS启动时间,导致系统开机时间延长。
为解决上述问题,本申请创造性地提出了一种存储服务器PCIE卡故障修复方法、系统及计算机设备,通过PCIE卡自身完成PCIE链路的状态检测,以及软硬件组合修复修复,整个过程不依赖BIOS,可有效避免传统BIOS修复造成的系统启动时间延长等问题。
下面将结合附图和各个实施例,对本申请的方案进行详细介绍。
实施例一:本实施例对本申请中存储服务器PCIE卡故障修复的架构进行介绍。
具体的,参照图1所示,所述架构包括CPLD、PCIE卡和设置在CPU中的BIOS。
CPLD检测到PCIE卡Power Good信号后,向PCIE卡送出PCIE卡接入系统指示信号,PCIE卡接收到PCIE卡接入系统指示信号后开始监测自己的链路状态。Power Good信号简称P.G或P.ok信号,指输出达到90%额定电压后延迟数十至数百ms后送出一TTL讯号。该信号是直流输出电压检测信号和交流输入电压检测信号的逻辑与TTL信号兼容。即使电源的各路直流输出都正常.如果没有PG信号.主板没法工作如果P.G信号的时序不对.可能会和某些主扳不兼容.造成无法启动pc。
PCIE卡监测到链路状态异常时,PCIE卡控制芯片自身发起PCIE链路重训练流程,链路异常状态包括降速和降带宽。优选的,PCIE卡最多连续发起三次重训练流程。若三次重训练PCIE链路恢复正常,则修复完成。若三次重训练没有完成修复,则发送给CPLD重试失败指示信号。
CPLD接收到PCIE卡发送来的重试失败指示信号则认为软件对链路修复失败,发起对PCIE卡重新下电和上电操作,进行硬件修复。优选的,考虑到硬件修复失败的可能,为了避免反复启动硬件修复,CPLD内增加计数模块,仅对PCIE卡完成一次修复,再次上电如若异常则不再对其进行修复。
当PCIE卡再次上电完成后,CPLD向PCIE卡发送PCIE卡接入系统信号,同时发送再次枚举信号给BIOS。
BIOS接收到CPLD送来的再次枚举信号后,开始对PCIE设备重新枚举,进而完成BIOS对PCIE设备的资源分配。
实施例二:基于上述实施例一所介绍的存储服务器PCIE卡故障修复的架构,本实施例结合图2,对本申请中存储服务器PCIE卡故障修复过程进行介绍。
具体的,本实施例提供一种存储服务器PCIE卡故障修复方法,参照图2所示,所述方法包括:
S110、接收CPLD发送的PCIE卡接入系统信号,PCIE卡接入系统信号由CPLD监测到PCIE卡power good信号后发出。
具体的,CPLD监测PCIE卡上电完成信号。当PCIE卡的电源接通之后,如果输入PCIE卡的交流电压在额定工作范围之内,且各路直流输出电压也已达到它们的最低检测电平,那么经过100ms~500m的延时P.G电路发出“电源正常”的信号(Power Good或P.0K为高电平)。当CPLD监测到PCIE卡Power Good信号后,向PCIE卡发送接入系统指示信号。
S120、基于PCIE卡接入系统信号获取PCIE链路状态。
具体的,当PCIE卡接收到CPLD发送的接入系统指示信号后,PCIE卡开始监测自己的链路状态。
在一种实施方式中,所述基于所述PCIE卡接入系统信号获取PCIE链路状态包括:
S121、基于所述PCIE卡接入系统信号监测PCIE链路的带宽和传输速度。
S122、基于所述PCIE链路的带宽和传输速度获得PCIE链路状态;
若所述PCIE链路的带宽或传输速度降低,则获得PCIE链路状态为异常。若所述PCIE链路状态为异常,则进入S130。
S130、对主机发起重训练并获取重训练的修复结果信息。
具体的,当PCIE卡监测到PCIE链路的带宽或传输速度异常时,PCIE卡控制芯片自身发起PCIE链路重训练流程。
在一种具体的实施方式中,所述对主机发起重训练并获取重训练的修复结果信息包括:
对主机发起第一预设次数重训练并获取重训练的修复结果信息,所述第一预设次数大于等于1且小于等于3。即PCIE卡对主机发起至少一次、至多三次重训练并获取重训练的修复结果信息。示例性的,PCIE卡对主机发起三次重训练,若三次重训练没有完成修复,则修复失败,获得的修复结果信息为重试失败指示信号,进入S140。
S140、发送链路修复失败信号至CPLD。
具体的,三次重训练修复失败,则PCIE卡发送链路修复失败信号给CPLD,准备启动硬件修复。三次重训练修复成功,则修复流程完成,直接进入BIOS资源分配。
S150、接收CPLD根据链路修复失败信号发起的硬件修复命令并根据硬件修复命令执行硬件修复操作。
具体的,CPLD接收到PCIE卡重训练失败,即软件修复失败的信号(链路修复失败信号)后,发起硬件修复命令。
在一种实施方式中,所述硬件修复命令至少包括第二预设次数和硬件修复策略;所述根据所述硬件修复命令执行硬件修复操作包括:
执行所述硬件修复策略第二预设次数。示例性的,考虑到硬件修复失败的可能,为了避免反复启动硬件修复,CPLD内增加计数模块,仅对PCIE卡完成一次修复,即仅执行硬件修复策略一次。
更具体的,所述执行硬件修复策略第二预设次数包括:执行重新下电和重新上电操作预设次数。
在一种实施方式中,所述接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作之后,所述方法还包括:
SA10、获取硬件修复结果信息并发送所述硬件修复结果信息至所述CPLD,以供所述CPLD根据所述硬件修复结果信息执行对应的处理策略。
具体的,所述获取硬件修复结果信息包括:
SA11、执行重新上电操作并判断重新上电是否成功;
若是,则获得硬件修复结果为修复成功;
若否,则获得硬件修复结果为修复失败。
具体的,在CPLD对PCIE卡发起硬件修复后,对PCIE卡重新上电,若上电成功,则硬件修复成功,若上电失败,则硬件修复失败。
更具体的,若所述硬件修复结果为修复成功,所述CPLD根据所述硬件修复结果执行对应的处理策略包括:
SA12、所述CPLD发送再次枚举信号至BIOS以使所述BIOS对所述PCIE卡重新枚举以完成所述BIOS对所述PCIE卡的资源分配。
具体的,BIOS接收到CPLD送来的再次枚举信号后,开始对PCIE设备重新枚举,进而完成BIOS对PCIE设备的资源分配。
本实施例提供的存储服务器PCIE卡故障修复方法,接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;基于所述PCIE卡接入系统信号获取PCIE链路状态;若所述PCIE链路状态为异常,则对主机发起重训练并获取重训练的修复结果信息;若所述修复结果信息包括重试失败指示信号,则发送链路修复失败信号至所述CPLD;接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作;修复成功后发送再次枚举信号至BIOS,由BIOS开始对PCIE设备重新枚举,进而完成BIOS对PCIE设备的资源分配;在软件修复策略的基础上增加了基于CPLD的硬件修复策略,软硬件配合大大增加了PCIE链路的修复成功的概率,修复过程完全不依赖BIOS和操作系统,可有效避免BIOS修复造成的系统时间延长的问题。
实施例三:与上述实施例一至实施例二相对应的,下面将结合图3对本申请提供的存储服务器PCIE卡故障修复系统进行介绍。其中,该系统可以通过硬件或软件的方式实现,也可以通过软硬件结合的方式实现,本申请并不限定。
在一个示例中,本申请提供了一种存储服务器PCIE卡故障修复系统,所述存储服务器PCIE卡故障修复系统包括:
第一接收模块310,用于接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;
获取模块320,用于基于所述PCIE卡接入系统信号获取PCIE链路状态;
重训练模块330,用于在所述PCIE链路状态为异常时,对主机发起重训练并获取重训练的修复结果信息;
第一发送模块340,用于在所述修复结果信息包括重试失败指示信号时,发送链路修复失败信号至所述CPLD;
第二接收模块350,用于接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作。
在一种实施方式中,所述获取模块320包括:
监测单元321,用于基于所述PCIE卡接入系统信号监测PCIE链路的带宽和传输速度;
获取单元322,用于基于所述PCIE链路的带宽和传输速度获得PCIE链路状态;
若所述PCIE链路的带宽或传输速度降低,则获得PCIE链路状态为异常。
在一种实施方式中,所述重训练模块330包括:
重训练单元331,用于对主机发起第一预设次数重训练并获取重训练的修复结果信息,所述第一预设次数大于等于1且小于等于3。
优选的,所述硬件修复命令至少包括第二预设次数和硬件修复策略;
所述第二接收模块350包括:
执行单元351,用于执行所述硬件修复策略第二预设次数。
更优选的,所述执行单元351具体用于:
执行重新下电和重新上电操作预设次数。
更优选的,所述系统还包括:
第二发送模块360,用于在所述第二接收模块350接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作之后,
获取硬件修复结果信息并发送所述硬件修复结果信息至所述CPLD,以供所述CPLD根据所述硬件修复结果信息执行对应的处理策略。
更优选的,所述第二发送模块360包括:
执行判断单元361,用于执行重新上电操作并判断重新上电是否成功;
若是,则获得硬件修复结果为修复成功;
若否,则获得硬件修复结果为修复失败。
更优选的,所述第二发送模块360还包括:
发送单元362,用于在获得所述硬件修复结果为修复成功后,所述CPLD发送再次枚举信号至BIOS以使所述BIOS对所述PCIE卡重新枚举以完成所述BIOS对所述PCIE卡的资源分配。
实施例四:与上述实施例一至实施例三相对应的,下面将结合图4,对本申请提供的计算机设备进行介绍。在一个示例中如图4所示,本申请提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;
基于所述PCIE卡接入系统信号获取PCIE链路状态;
若所述PCIE链路状态为异常,则对主机发起重训练并获取重训练的修复结果信息;
若所述修复结果信息包括重试失败指示信号,则发送链路修复失败信号至所述CPLD;
接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
基于所述PCIE卡接入系统信号监测PCIE链路的带宽和传输速度;
基于所述PCIE链路的带宽和传输速度获得PCIE链路状态;
若所述PCIE链路的带宽或传输速度降低,则获得PCIE链路状态为异常。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
对主机发起第一预设次数重训练并获取重训练的修复结果信息,所述第一预设次数大于等于1且小于等于3。
所述硬件修复命令至少包括第二预设次数和硬件修复策略;
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
执行所述硬件修复策略第二预设次数。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:执行重新下电和重新上电操作预设次数。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
获取硬件修复结果信息并发送所述硬件修复结果信息至所述CPLD,以供所述CPLD根据所述硬件修复结果信息执行对应的处理策略。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
执行重新上电操作并判断重新上电是否成功;
若是,则获得硬件修复结果为修复成功;
若否,则获得硬件修复结果为修复失败。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
所述CPLD发送再次枚举信号至BIOS以使所述BIOS对所述PCIE卡重新枚举以完成所述BIOS对所述PCIE卡的资源分配。
所述程序指令在被所述一个或多个处理器读取执行时,还可以执行与上述方法实施例中的各个步骤对应的操作,可以参考上文中的描述,此处不再赘述。参考图4,其示例性的展示出了计算机设备的架构,具体可以包括处理器410,视频显示适配器411,磁盘驱动器412,输入/输出接口413,网络接口414,以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420之间可以通过通信总线430进行通信连接。
其中,处理器410可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器420可以采用只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、静态存储设备,动态存储设备等形式实现。存储器420可以存储用于控制计算机设备400运行的操作系统421,用于控制计算机设备400的低级别操作的基本输入输出系统(BIOS)422。另外,还可以存储网页浏览器423,数据存储管理424,以及图标字体处理系统425等等。上述图标字体处理系统425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口413用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口414用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线430包括一通路,在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420)之间传输信息。
另外,该计算机设备400还可以从虚拟资源对象领取条件信息数据库441中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述计算机设备400仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,存储器420,总线430等,但是在具体实施过程中,该计算机设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
实施例五:与上述实施例一至实施例四相对应的,下面将对本申请提供的计算机可读存储介质进行介绍。在一个示例中,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令使所述计算机执行以下步骤:
接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;
基于所述PCIE卡接入系统信号获取PCIE链路状态;
若所述PCIE链路状态为异常,则对主机发起重训练并获取重训练的修复结果信息;
若所述修复结果信息包括重试失败指示信号,则发送链路修复失败信号至所述CPLD;
接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作。
所述计算机指令使所述计算机还执行以下步骤:
基于所述PCIE卡接入系统信号监测PCIE链路的带宽和传输速度;
基于所述PCIE链路的带宽和传输速度获得PCIE链路状态;
若所述PCIE链路的带宽或传输速度降低,则获得PCIE链路状态为异常。
所述计算机指令使所述计算机还执行以下步骤:
对主机发起第一预设次数重训练并获取重训练的修复结果信息,所述第一预设次数大于等于1且小于等于3。
所述硬件修复命令至少包括第二预设次数和硬件修复策略;
所述计算机指令使所述计算机还执行以下步骤:
执行所述硬件修复策略第二预设次数。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:执行重新下电和重新上电操作预设次数。
所述计算机指令使所述计算机还执行以下步骤:
获取硬件修复结果信息并发送所述硬件修复结果信息至所述CPLD,以供所述CPLD根据所述硬件修复结果信息执行对应的处理策略。
所述程序指令在被所述一个或多个处理器读取执行时,还执行如下操作:
执行重新上电操作并判断重新上电是否成功;
若是,则获得硬件修复结果为修复成功;
若否,则获得硬件修复结果为修复失败。
所述计算机指令使所述计算机还执行以下步骤:
所述CPLD发送再次枚举信号至BIOS以使所述BIOS对所述PCIE卡重新枚举以完成所述BIOS对所述PCIE卡的资源分配。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
另外,需要理解的是:本申请中术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
当然上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明主要技术方案的精神实质所做的修饰,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种存储服务器PCIE卡故障修复方法,其特征在于,所述方法包括:
接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;
基于所述PCIE卡接入系统信号获取PCIE链路状态;
若所述PCIE链路状态为异常,则对主机发起重训练并获取重训练的修复结果信息;
若所述修复结果信息包括重试失败指示信号,则发送链路修复失败信号至所述CPLD;
接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作。
2.根据权利要求1所述的存储服务器PCIE卡故障修复方法,其特征在于,所述基于所述PCIE卡接入系统信号获取PCIE链路状态包括:
基于所述PCIE卡接入系统信号监测PCIE链路的带宽和传输速度;
基于所述PCIE链路的带宽和传输速度获得PCIE链路状态;
若所述PCIE链路的带宽或传输速度降低,则获得PCIE链路状态为异常。
3.根据权利要求1所述的存储服务器PCIE卡故障修复方法,其特征在于,所述对主机发起重训练并获取重训练的修复结果信息包括:
对主机发起第一预设次数重训练并获取重训练的修复结果信息,所述第一预设次数大于等于1且小于等于3。
4.根据权利要求3所述的存储服务器PCIE卡故障修复方法,其特征在于,所述硬件修复命令至少包括第二预设次数和硬件修复策略;
所述根据所述硬件修复命令执行硬件修复操作包括:
执行所述硬件修复策略第二预设次数。
5.根据权利要求4所述的存储服务器PCIE卡故障修复方法,其特征在于,所述执行硬件修复策略第二预设次数包括:执行重新下电和重新上电操作预设次数。
6.根据权利要求5所述的存储服务器PCIE卡故障修复方法,其特征在于,所述接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作之后,所述方法还包括:
获取硬件修复结果信息并发送所述硬件修复结果信息至所述CPLD,以供所述CPLD根据所述硬件修复结果信息执行对应的处理策略。
7.根据权利要求5所述的存储服务器PCIE卡故障修复方法,其特征在于,所述获取硬件修复结果信息包括:
执行重新上电操作并判断重新上电是否成功;
若是,则获得硬件修复结果为修复成功;
若否,则获得硬件修复结果为修复失败。
8.根据权利要求7所述的存储服务器PCIE卡故障修复方法,其特征在于,若所述硬件修复结果为修复成功,所述CPLD根据所述硬件修复结果执行对应的处理策略包括:
所述CPLD发送再次枚举信号至BIOS以使所述BIOS对所述PCIE卡重新枚举以完成所述BIOS对所述PCIE卡的资源分配。
9.一种存储服务器PCIE卡故障修复系统,其特征在于,所述系统包括:
第一接收模块,用于接收CPLD发送的PCIE卡接入系统信号,所述PCIE卡接入系统信号由所述CPLD监测到PCIE卡power good信号后发出;
获取模块,用于基于所述PCIE卡接入系统信号获取PCIE链路状态;
重训练模块,用于在所述PCIE链路状态为异常时,对主机发起重训练并获取重训练的修复结果信息;
第一发送模块,用于在所述修复结果信息包括重试失败指示信号时,发送链路修复失败信号至所述CPLD;
第二接收模块,用于接收所述CPLD根据所述链路修复失败信号发起的硬件修复命令并根据所述硬件修复命令执行硬件修复操作。
10.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
以及与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如权利要求1-8任意一项所述的存储服务器PCIE卡故障修复方法。
CN202211308213.1A 2022-10-25 2022-10-25 存储服务器pcie卡故障修复方法、系统即及计算机设备 Pending CN115576730A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211308213.1A CN115576730A (zh) 2022-10-25 2022-10-25 存储服务器pcie卡故障修复方法、系统即及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211308213.1A CN115576730A (zh) 2022-10-25 2022-10-25 存储服务器pcie卡故障修复方法、系统即及计算机设备

Publications (1)

Publication Number Publication Date
CN115576730A true CN115576730A (zh) 2023-01-06

Family

ID=84586609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211308213.1A Pending CN115576730A (zh) 2022-10-25 2022-10-25 存储服务器pcie卡故障修复方法、系统即及计算机设备

Country Status (1)

Country Link
CN (1) CN115576730A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115756941A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 设备的自动修复方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115756941A (zh) * 2023-01-09 2023-03-07 苏州浪潮智能科技有限公司 设备的自动修复方法、装置、电子设备及存储介质
CN115756941B (zh) * 2023-01-09 2023-04-28 苏州浪潮智能科技有限公司 设备的自动修复方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103748569B (zh) Usb设备的无驱动操作的系统和方法
US20230117996A1 (en) Storage system boot method and apparatus, and computer-readable storage medium
CN111752776B (zh) 一种服务器的循环上下电测试方法和系统
US20180210783A1 (en) Information processing apparatus, control method of the same, and storage medium
US8578182B2 (en) Power lock-up setting method performed by baseboard management controller and electronic apparatus using the same
CN110109782B (zh) 一种故障PCIe设备的更换方法、装置及系统
TWI774145B (zh) 主機裝置及記憶體系統
CN115576730A (zh) 存储服务器pcie卡故障修复方法、系统即及计算机设备
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN115562900B (zh) Amd服务器系统安装断电处理方法、装置、设备及介质
CN111475356A (zh) 一种系统开机测试信息显示方法及相关装置
CN114461142B (zh) 一种读写Flash数据的方法、系统、装置及介质
CN114185720B (zh) 服务器动态热备份的方法、装置、设备及存储介质
CN110532203A (zh) 一种nand复位方法、装置、电子设备和存储介质
CN115952122A (zh) I2c设备热插拔方法、系统、设备、介质及产品
CN115061976A (zh) 地址配置方法、装置、载板、核心板、服务器和介质
CN115766410A (zh) 一种机器工作状态切换方法、系统、装置及介质
CN115794456A (zh) PCIe链路修复方法、装置及计算设备
CN115509333A (zh) 一种服务器协同上下电装置、方法、系统及介质
CN114510374A (zh) 一种外设挂载失败自动恢复系统及方法
CN111694587A (zh) 服务器pnor固件升级方法、装置、设备及存储介质
CN114328044B (zh) 一种AIC+box拓扑的测试方法、装置和系统
CN118012812B (zh) Pcie链路训练方法、装置、电子设备及计算机存储介质
CN107450894A (zh) 通知开机阶段的方法及服务器系统
TWI715005B (zh) 用於監控基板管理控制器之常駐程序的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination