CN113868051B - 一种PCIe故障检测装置、方法、设备和存储介质 - Google Patents

一种PCIe故障检测装置、方法、设备和存储介质 Download PDF

Info

Publication number
CN113868051B
CN113868051B CN202111098476.XA CN202111098476A CN113868051B CN 113868051 B CN113868051 B CN 113868051B CN 202111098476 A CN202111098476 A CN 202111098476A CN 113868051 B CN113868051 B CN 113868051B
Authority
CN
China
Prior art keywords
pcie
fault detection
state
restarting
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111098476.XA
Other languages
English (en)
Other versions
CN113868051A (zh
Inventor
卢睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111098476.XA priority Critical patent/CN113868051B/zh
Publication of CN113868051A publication Critical patent/CN113868051A/zh
Application granted granted Critical
Publication of CN113868051B publication Critical patent/CN113868051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test buses, lines or interfaces, e.g. stuck-at or open line faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种PCIe故障检测装置、方法、设备和存储介质,涉及计算机技术领域。PCIe故障检测装置包括:PCIe故障检测模块和PCIe故障显示模块;所述PCIe故障检测模块包括CPU、至少一个PCIe设备以及基板管理控制器,所述PCIe设备挂载在所述CPU下;所述PCIe故障检测模块用于读取每个所述PCIe设备的状态信息;所述PCIe故障显示模块用于根据每个所述PCIe设备的状态信息显示对应所述PCIe设备的状态。本申请能够大大减少定位PCIe链路问题点时所耗费的人力成本和时间成本。

Description

一种PCIe故障检测装置、方法、设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种PCIe故障检测装置、方法、设备和存储介质。
背景技术
PCIe(peripheral component interconnect express)是一种高速串行计算机扩展总线标准,作为当今计算机体系结构的I/O局部总线标准,使用高速串行传送方式,能够支持更高传输速率和带宽要求的外部设备。PCIe设备是服务器最常见的外设接口之一,大量的部件包括网卡、Raid卡、FPGA卡、GPU卡、NVME硬盘等等都是通过PCIe接口作为外设设备应用在服务器系统当中。当前PCIe设备已经经历了Gen1、Gen2、Gen3、Gen4四代接口,Gen5也即将大量量产应用。目前最常见的设备是应用PCIe Gen4接口,单lane峰值带宽达到16GT/s,接口速率快,对系统兼容性和稳定性要求很高,随着信号传输速率的提高,由于PCB、封装与介质损耗导致的信号衰减会对信号传输产生严重影响,而传输链路上的过孔、连接器、线缆与封装的不连续也会导致信号的衰减,而对于长距离走线,这种衰减会进一步恶化甚至无法正常通信。因此在服务器调试阶段,PCIe链路的连通性及信号质量成为了重中之重。
目前,现有定位PCIe设备故障的方式主要分为带内检测与带外检测两种。其中,带内检测的方式通常需要手动输入命令来排查每个PCIe设备的健康状况,命令种类较多,且需要逐项排查,增加了调试人员的工作难度和时间;而通过带外连接BMC管理网口则需要额外的设备来进行调试,会带来一定的网络风险。
申请内容
为了解决上述背景技术中提到的至少一个问题,本申请提供了一种PCIe故障检测装置、方法、设备和存储介质,仅需要通过观察故障显示模块的状态即可判断PCIe设备的状态,而不需要在BMC管理界面或者系统内逐条确认报错和设备信息,PCIe设备状态读取清晰明了,能够大大减少定位PCIe链路问题点时所耗费的人力成本和时间成本。
本申请实施例提供的具体技术方案如下:
第一方面,提供一种PCIe故障检测装置,装置包括:
PCIe故障检测模块和PCIe故障显示模块;
所述PCIe故障检测模块包括CPU、至少一个PCIe设备以及基板管理控制器,所述PCIe设备挂载在所述CPU下;
所述PCIe故障检测模块用于读取每个所述PCIe设备的状态信息;
所述PCIe故障显示模块用于根据每个所述PCIe设备的状态信息显示对应所述PCIe设备的状态。
进一步的,所述装置还包括:
稳定性测试模块,用于执行稳定性重启测试;
所述稳定性重启测试包括DC断电重启测试。
进一步的,所述稳定性测试模块包括复杂可编程逻辑器件;
所述复杂可编程逻辑器件用于与所述基板管理控制器信息交互,所述复杂可编程逻辑器件还用于执行掉电、重新上电动作。
进一步的,所述PCIe故障检测模块还包括I2C总线扩展器;
所述I2C总线扩展器用于扩展出多组I2C信号,每个所述PCIe设备对应一组所述I2C信号。
进一步的,所述PCIe故障显示模块还包括至少一个I/O扩展芯片;
所述I/O扩展芯片用于与所述基板管理控制器信息交互,所述I/O扩展芯片连接有至少一组LED信号灯组,每个所述PCIe设备对应一组所述LED信号灯组。
进一步的,所述LED信号灯组包括红灯指示灯、黄灯指示灯以及绿灯指示灯;
所述红灯指示灯和所述黄灯指示灯用于指示所述PCIe设备状态异常;
所述绿灯指示灯用于指示所述PCIe设备状态正常。
第二方面,提供一种PCIe故障检测方法,方法包括:
响应于服务器启动,读取每个PCIe设备的状态信息;
根据每个所述PCIe设备的状态信息显示对应所述PCIe设备的状态。
进一步的,在所述读取每个PCIe设备的状态信息之后,所述方法还包括:
响应于所述服务器的测试请求,发起DC断电重启测试;
所述DC断电重启测试包括:
断电重启步骤:执行DC断电重启动作,检测每个所述PCIe设备的状态,记录重启次数;
若任一所述PCIe设备的状态异常,停止执行所述DC断电重启动作,状态异常的所述PCIe设备对应的红灯指示灯或黄灯指示灯常亮;
若所述PCIe设备的状态正常,重复执行所述断电重启步骤直至所述PCIe设备出现状态异常或所述重启次数达到目标次数;
若所述重启次数达到目标次数,每个所述PCIe设备对应的绿灯指示灯常亮。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述PCIe故障检测方法。
第四方面,提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述PCIe故障检测方法。
本申请实施例具有如下有益效果:
本申请实施例提供的一种PCIe故障检测装置、方法、设备和存储介质,提供了PCIe故障检测模块、PCIe故障显示模块以及稳定性测试模块。PCIe故障检测模块中的基板管理控制器BMC通过I2C信号读取PCIe设备是否存在丢失设备或者报错等问题,收集信息供PCIe故障显示模块显示以及其他模块执行操作;PCIe故障显示模块提供LED信号灯组显示PCIe设备的状态,直观的体现PCIe设备的健康状况;稳定性测试模块通过CPLD与BMC进行通信,实现服务器无需进入系统,仅通过CPLD的动作执行即可快速重启验证。整体结构低耦合高内聚,仅需要通过观察故障显示模块的状态即可判断PCIe设备的状态,PCIe设备状态读取清晰明了,可以快速定位PCIe链路问题点,大大减少PCIe设备维护诊断所耗费的人力成本和时间成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本申请实施例提供的PCIe故障检测装置的模块结构示意图;
图2示出根据本申请一个实施例的PCIe故障检测装置的结构示意图;
图3示出本申请实施例提供的PCIe故障检测方法的总流程图;
图4示出根据本申请一个实施例的PCIe故障检测方法的具体流程图;
图5示出可被用于实施本申请中所述的各个实施例的示例性系统。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,在本申请的描述中,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
还应当理解,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
需要注意的是,术语“S1”、“S2”等仅用于步骤的描述目的,并非特别指称次序或顺位的意思,亦非用以限定本申请,其仅仅是为了方便描述本申请的方法,而不能理解为指示步骤的先后顺序。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
实施例一
本申请提供了一种PCIe故障检测装置100,参照图1,PCIe故障检测装置100包括:PCIe故障检测模块101和PCIe故障显示模块102。其中,PCIe故障检测模块101包括CPU、一个或多个PCIe设备以及基板管理控制器BMC(Baseboard Manager Controller)。其中,一个或多个PCIe设备挂载在CPU下,PCIe故障检测模块101用于读取每个PCIe设备的状态信息,PCIe故障显示模块102用于根据每个PCIe设备的状态信息显示对应PCIe设备的状态。
具体的,基板管理控制器BMC可以集成平台管理功能。平台管理表示的是一系列的监视和控制功能,操作的对象是系统硬件。可以监视系统的温度,电压,风扇、电源等等,并做相应的调节工作,以保证系统处于健康的状态;也可以通过复位的方式来重新启动系统。同时平台管理还负责记录各种硬件的信息和日志记录,用于提示用户和后续问题的定位。需要注意的是,BMC是一个独立的系统,它不依赖于系统上的其它硬件(比如CPU、内存等),也不依赖于BIOS、OS等(但是BMC可以与BIOS和OS交互,这样可以起到更好的平台管理作用,OS下有系统管理软件可以与BMC协同工作以达到更好的管理效果)。对于系统要求较高的设备,例如服务器,就会用到BMC。
具体的,参照图2,当有两个或两个以上的PCIe设备挂载在CPU下时,使用SMBUS总线将所有的PCIe设备连接到BMC,此时该总线上,BMC为链路的master,而PCIe设备为总线的slave。当服务器开机时,BMC通过I2C信号读取每一个PCIe设备的状态信息,状态信息可以包括有无link成功,有无PCIe_status或者CE报错等。需要注意的是,因为不同槽位的挂载的PCIe设备有可能相同或具有相同的I2C地址,因此,为防止设备地址冲突,需要在BMC和PCIe设备之间加一个I2C Switch,即加一个I2C总线扩展器。
在一些实施例中,PCIe故障检测模块101还包括I2C总线扩展器。其中,I2C总线扩展器用于扩展出多组I2C信号,每个PCIe设备对应一组I2C信号。
具体的,I2C总线扩展器的作用是将每个PCIe设备“隔离”开,同一时间,BMC只与一个PCIe设备进行通信,防止因为I2C地址冲突导致PCIe设备状态信息读取错误。示例性的,当需要四个以内的PCIe设备时,I2C总线扩展器可以是PCA9546,PCA9546是一款I2C多路复用器和开关,能实现I2C总线扩展、电平转换及总线功能恢复,可以将一组I2C总线扩展成四组I2C信号。而当PCIe设备数量超过四个且不超过八个时,I2C总线扩展器可以是PCA9548,可以将一组I2C总线扩展成八组I2C信号。
在一些实施例中,PCIe故障显示模块102还包括至少一个I/O扩展芯片。其中,I/O扩展芯片用于与基板管理控制器BMC进行信息交互,I/O扩展芯片连接有至少一组LED信号灯组,每个PCIe设备对应一组LED信号灯组。
在一些实施例中,LED信号灯组可以包括红灯指示灯、黄灯指示灯以及绿灯指示灯。
示例性的,状态信息可以包括PCIe设备的连接状态和运行状态。当基板管理控制器BMC读取某个PCIe设备的连接状态和运行状态均为正常无报错时,可以通过该PCIe设备对应的绿灯指示灯常亮以表示该PCIe设备正常。同样的,若基板管理控制器BMC读取某个PCIe设备的连接状态正常而运行状态中有设备报错问题时,可以通过该PCIe设备对应的黄灯指示灯常亮以表示PCIe设备存在Error。另外,若基板管理控制器BMC无法检测到某个PCIe设备,且在位信号显示该PCIe设备在位时,可以通过该PCIe设备对应的红灯指示灯常亮以表示PCIe设备fail。通过LED信号灯组显示的方式,调试人员可以直观的通过观察灯组的点亮情况对PCIe设备的状态有一个初步的判断,判断是否需要更换设备或者进一步分析等。
在一些实施例中,PCIe故障检测装置100还包括:稳定性测试模块103。其中稳定性测试模块103用于执行稳定性重启测试,稳定性重启测试可以包括DC断电重启测试。
其中,DC是指直流电(Direct Current),又称“恒流电”,恒定电流是直流电的一种,是大小和方向都不变的直流电。
具体的,服务器在测试阶段进行稳定性重启测试时需要进行DC断电重启测试,通常是在服务器系统下执行脚本进行重启,此方法需要服务器进入系统执行脚本。而在本实施例中,因为服务器已经完成了对PCIe设备的状态检测,BMC已经获取了相关的设备信息,所以可以通过省去进入系统的步骤而直接进行DC断电重启来节省测试时间。而这相较于原来的进入系统执行脚本进行重启,可以节省至少一半的时间。
在一些实施例中,稳定性测试模块103包括复杂可编程逻辑器件。其中,复杂可编程逻辑器件用于与基板管理控制器BMC进行信息交互,复杂可编程逻辑器件还用于执行掉电、重新上电动作。
具体的,复杂可编程逻辑器件CPLD(Complex Programmable logic device)采用CMOS EPROM、EEPROM、快闪存储器和SRAM等编程技术,从而构成了高密度、高速度和低功耗的可编程逻辑器件。
具体的,当基板管理控制器BMC读取到所有在位PCIe设备的状态信息均为正常时,可以通过一路SMB_PCIE_STATUS_I2C信号传递给复杂可编程逻辑器件CPLD,CPLD响应于该I2C信号执行掉电、重新上电动作,然后CPLD发送重启次数信息给BMC。在响应于BMC的信息后继续执行掉电、重新上电动作,直至达到规定的重启次数。通过这样的方式进行DC断电重启测试。
在本实施例中,PCIe故障检测装置提供了PCIe故障检测模块、PCIe故障显示模块以及稳定性测试模块。PCIe故障检测模块中的基板管理控制器BMC通过I2C信号读取PCIe设备是否存在丢失设备或者报错等问题,收集信息供PCIe故障显示模块显示以及其他模块执行操作;PCIe故障显示模块提供LED信号灯组显示PCIe设备的状态,直观的体现PCIe设备的健康状况;稳定性测试模块通过CPLD与BMC进行通信,实现服务器无需进入系统,仅通过CPLD的动作执行即可快速重启验证。整体结构低耦合高内聚,PCIe设备状态读取清晰明了,可以快速定位PCIe链路问题点,大大减少PCIe设备维护诊断所耗费的人力成本和时间成本。
实施例二
对应上述实施例,本申请还提供了一种PCIe故障检测方法,该方法使用PCIe故障检测装置,参照图3,方法包括:
S1、响应于服务器启动,读取每个PCIe设备的状态信息;
S2、根据每个所述PCIe设备的状态信息显示对应所述PCIe设备的状态。
具体的,在服务器启动时,基板管理控制器BMC根据I2C信号读取每个PCIe设备的状态信息。其中,状态信息包括PCIe设备的连接状态以及PCIe设备的运行状态。
具体的,基板管理控制器BMC通过I2C信号将上述状态信息传输至I/O扩展芯片,I/O扩展芯片与多组LED信号灯组连接,每组LED信号灯组对应一个PCIe设备。LED信号灯组用于显示PCIe设备的状态。LED信号灯组状态显示示例可以参照PCIe故障检测装置中的详细介绍,此处不作过多赘述。
具体的,现有的定位PCIe设备故障问题点的方法主要包括带内、带外两种。其中,带内是通过服务器自带系统,在开机进入系统后,通过运行脚本或使用命令逐条排查各路PCIe链路的状态这样的方式来检查各个PCIe设备的故障情况。带外是借助BMC管理网口,通过远程连接服务器进入BMC管理界面去排查各个PCIe设备的故障情况。
而在本实施例中,仅需要通过观察故障显示模块的状态即可判断PCIe设备的状态,而不需要在BMC管理界面或者系统内逐条确认报错和设备信息,PCIe设备状态读取清晰明了,能够大大减少定位PCIe链路问题点时所耗费的人力成本和时间成本。
在一些实施例中,在读取每个PCIe设备的状态信息之后,所述方法还包括:
S3、响应于所述服务器的测试请求,发起DC断电重启测试。
其中,参照图4,DC断电重启测试可以包括如下步骤:
断电重启步骤:执行DC断电重启动作,检测每个PCIe设备的状态,记录重启次数。
具体的,若任一PCIe设备的状态异常,停止执行DC断电重启动作,状态异常的PCIe设备对应的红灯指示灯或黄灯指示灯常亮。示例性的,若读取到的某个PCIe设备的连接状态正常而运行状态中有设备报错问题时,对应的黄灯指示灯常亮,即表示该PCIe设备存在Error。若BMC无法检测到某个PCIe设备,且在位信号显示该PCIe设备在位时,对应的红灯指示灯常亮,即表示该PCIe设备fail。
具体的,若PCIe设备的状态正常,则重复执行该断电重启步骤直至PCIe设备出现状态异常或重启次数达到目标次数。其中,若PCIe设备出现状态异常,则继续停止执行DC断电重启动作,状态异常的PCIe设备对应的红灯指示灯或黄灯指示灯常亮。若重启次数达到目标次数,则BMC停止发送重启命令,每个在位PCIe设备对应的绿灯指示灯常亮。
在本实施例中,因为服务器已经完成了对PCIe设备的状态检测,已经读取了每个PCIe设备的状态信息,所以可以通过省去进入系统的步骤而直接进行DC断电重启。相较于原来的进入系统执行脚本进行重启,可以节省至少一半的时间。降低了服务器的运行负载,提升了稳定性重启测试的实施效率。
实施例三
对应上述实施例,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可以实现上述PCIe故障检测方法。
如图5所示,在一些实施例中,系统能够作为各所述实施例中的任意一个用于PCIe故障检测方法的上述电子设备。在一些实施例中,系统可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器)。
对于一个实施例,系统控制模块可包括任意适当的接口控制器,以向(一个或多个)处理器中的至少一个和/或与系统控制模块通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块可包括存储器控制器模块,以向系统存储器提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器可被用于例如为系统加载和存储数据和/或指令。对于一个实施例,系统存储器可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备及(一个或多个)通信接口提供接口。
例如,NVM/存储设备可被用于存储数据和/或指令。NVM/存储设备可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备可包括在物理上作为系统被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备可通过网络经由(一个或多个)通信接口进行访问。
(一个或多个)通信接口可为系统提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
实施例四
对应上述实施例,本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行PCIe故障检测方法。
在本实施例中,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (7)

1.一种PCIe故障检测装置,其特征在于,包括:
PCIe故障检测模块、PCIe故障显示模块以及稳定性测试模块;
所述PCIe故障检测模块包括CPU、至少一个PCIe设备以及基板管理控制器,所述PCIe设备挂载在所述CPU下;
所述PCIe故障检测模块用于读取每个所述PCIe设备的状态信息;
所述PCIe故障显示模块用于根据每个所述PCIe设备的状态信息显示对应所述PCIe设备的状态;
所述稳定性测试模块用于执行稳定性重启测试;
所述稳定性重启测试包括DC断电重启测试;
所述稳定性测试模块包括复杂可编程逻辑器件;
所述复杂可编程逻辑器件用于与所述基板管理控制器信息交互,所述复杂可编程逻辑器件还用于执行掉电、重新上电动作。
2.根据权利要求1所述的PCIe故障检测装置,其特征在于,所述PCIe故障检测模块还包括I2C总线扩展器;
所述I2C总线扩展器用于扩展出多组I2C信号,每个所述PCIe设备对应一组所述I2C信号。
3.根据权利要求1所述的PCIe故障检测装置,其特征在于,所述PCIe故障显示模块还包括至少一个I/O扩展芯片;
所述I/O扩展芯片用于与所述基板管理控制器信息交互,所述I/O扩展芯片连接有至少一组LED信号灯组,每个所述PCIe设备对应一组所述LED信号灯组。
4.根据权利要求3所述的PCIe故障检测装置,其特征在于,所述LED信号灯组包括红灯指示灯、黄灯指示灯以及绿灯指示灯;
所述红灯指示灯和所述黄灯指示灯用于指示所述PCIe设备状态异常;
所述绿灯指示灯用于指示所述PCIe设备状态正常。
5.一种PCIe故障检测方法,其特征在于,包括:
响应于服务器启动,读取每个PCIe设备的状态信息;
响应于所述服务器的测试请求,发起DC断电重启测试;
根据每个所述PCIe设备的状态信息显示对应所述PCIe设备的状态;
所述DC断电重启测试包括:
断电重启步骤:执行DC断电重启动作,检测每个所述PCIe设备的状态,记录重启次数;
若任一所述PCIe设备的状态异常,停止执行所述DC断电重启动作,状态异常的所述PCIe设备对应的红灯指示灯或黄灯指示灯常亮;
若所述PCIe设备的状态正常,重复执行所述断电重启步骤直至所述PCIe设备出现状态异常或所述重启次数达到目标次数;
若所述重启次数达到目标次数,每个所述PCIe设备对应的绿灯指示灯常亮。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求5所述PCIe故障检测方法。
7.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行权利要求5所述PCIe故障检测方法。
CN202111098476.XA 2021-09-18 2021-09-18 一种PCIe故障检测装置、方法、设备和存储介质 Active CN113868051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111098476.XA CN113868051B (zh) 2021-09-18 2021-09-18 一种PCIe故障检测装置、方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111098476.XA CN113868051B (zh) 2021-09-18 2021-09-18 一种PCIe故障检测装置、方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113868051A CN113868051A (zh) 2021-12-31
CN113868051B true CN113868051B (zh) 2023-08-08

Family

ID=78992773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111098476.XA Active CN113868051B (zh) 2021-09-18 2021-09-18 一种PCIe故障检测装置、方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113868051B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114924998B (zh) * 2022-06-09 2023-05-23 北京东土科技股份有限公司 内存信息读取装置及方法、计算设备主板、设备和介质
CN114780325B (zh) * 2022-06-21 2022-09-30 新华三信息技术有限公司 一种PCIe设备检测方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389849A (zh) * 2019-07-19 2019-10-29 苏州浪潮智能科技有限公司 一种PCIe设备的故障定位方法、系统及服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389849A (zh) * 2019-07-19 2019-10-29 苏州浪潮智能科技有限公司 一种PCIe设备的故障定位方法、系统及服务器

Also Published As

Publication number Publication date
CN113868051A (zh) 2021-12-31

Similar Documents

Publication Publication Date Title
CN113868051B (zh) 一种PCIe故障检测装置、方法、设备和存储介质
CN103731663B (zh) 一种智能电视的测试方法和装置
CN111858411B (zh) 实现服务器Expander卡带外交互的系统及方法
CN105183575A (zh) 处理器故障的诊断方法、装置及系统
CN112069766A (zh) 一种服务器内减少硬盘背板线缆的方法及装置
CN114201360B (zh) 一种aer功能管理方法、装置、服务器和存储介质
CN101930393B (zh) Sas背板的测试装置
CN112000535A (zh) 一种基于SAS Expander卡的硬盘异常识别方法及处理方法
US6943463B2 (en) System and method of testing connectivity between a main power supply and a standby power supply
CN117012258A (zh) 一种存储芯片状态数据的分析装置、方法及介质
US11862278B2 (en) Memory test systems and memory test methods
CN116340075A (zh) 硬盘测试装置、系统、方法及计算机可读存储介质
CN115543707A (zh) 硬盘故障的检测方法、系统和装置、存储介质及电子装置
CN114253561B (zh) 一种固件自动烧录的系统和方法
CN115934598B (zh) 节点与用户接口板通信方法、装置、电子设备和存储介质
CN113535490B (zh) 侦错装置及其操作方法
CN116915583B (zh) 通信异常的诊断方法、其装置及电子设备
CN116627739A (zh) 一种i2c控制器检测方法、装置、交换机及存储介质
CN116633818A (zh) 多网卡预执行环境安装系统测试方法、装置、设备和介质
CN116302735A (zh) 内存插槽测试系统
CN117289109A (zh) 一种印刷电路板的故障判断方法、装置、设备及可读介质
US20200073751A1 (en) Storage apparatus and recording medium
CN117687876A (zh) 故障指示装置及方法
CN118035138A (zh) 磁盘属性信息的获取方法及装置
CN117608952A (zh) 检测装置以及检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant