CN115470056A - 服务器硬件上电启动故障排查方法、系统、装置及介质 - Google Patents

服务器硬件上电启动故障排查方法、系统、装置及介质 Download PDF

Info

Publication number
CN115470056A
CN115470056A CN202211065599.8A CN202211065599A CN115470056A CN 115470056 A CN115470056 A CN 115470056A CN 202211065599 A CN202211065599 A CN 202211065599A CN 115470056 A CN115470056 A CN 115470056A
Authority
CN
China
Prior art keywords
cpld
power
eeprom
starting
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211065599.8A
Other languages
English (en)
Inventor
张亚男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211065599.8A priority Critical patent/CN115470056A/zh
Publication of CN115470056A publication Critical patent/CN115470056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出的一种服务器硬件上电启动故障排查方法、系统、装置及介质,所述方法包括:在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中;串口登录或者远程访问基板管理控制器;通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。本发明能够在服务器前后电加载启动过程遇到故障时及时排查出相应故障原因。

Description

服务器硬件上电启动故障排查方法、系统、装置及介质
技术领域
本发明涉及计算机技术领域,更具体的说是涉及一种服务器硬件上电启动故障排查方法、系统、装置及介质。
背景技术
常见架构的服务器主板主要由CPU、内存、PCH、BMC、CPLD等核心芯片组合而成的硬件电路合集,CPU是一台服务器的运算核心,由运行于其上的操作系统进行调度管理。CPLD一种可编程的逻辑器件,在服务器出厂前烧录一段硬件控制器位流,调度服务器内关键硬件控制、电源控制等功能。BMC又称为基板管理控制器,作为板级硬件管理核心,往往承担着服务器硬件状态监控、故障记录等重要功能。服务器启动分为两个过程:1)前电加载过程,即服务器硬件电源供电后主板部分器件上电过程,其中包括CPLD、BMC、板载核心功能芯片等;2)后电加载过程,即CPU及其外围供电芯片、功能芯片上电过程,上电过程往往需要运行BIOS程序进行硬件初始化等操作,而后才能正常进入操作系统。
当前排查CPU启动故障记录往往由BIOS在启动过程中完成,但是运行BIOS程序的条件往往需要CPU和PCH以及VR芯片等重要核心芯片工作正常才能启动,无法在服务器前后电加载启动过程遇到故障时及时排查出相应故障原因。
发明内容
针对以上问题,本发明的目的在于提供一种服务器硬件上电启动故障排查方法、系统、装置及介质,能够在服务器前后电加载启动过程遇到故障时及时排查出相应故障原因。
本发明为实现上述目的,通过以下技术方案实现:一种服务器硬件上电启动故障排查方法,包括:
在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中;
串口登录或者远程访问基板管理控制器;
通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
进一步,所述在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中,包括:
服务器控制器上电运行,CPLD上电运行逻辑程序;
在前电启动过程中,CPLD监控各前电器件状态,若器件异常则捕捉相关异常状态,并根据预设记录规则记录到EEPROM中;
在后电启动过程中,CPLD运行逻辑程序逐一给CPU、内存、PCH上电,上电过程各电源信号依次控制电源输入,若上电过程异常,则根据预设记录规则记录此过程中的信号信息到EEPROM中。
进一步,所述预设记录规则包括:以器件信号编号加存储器偏移地址的方式进行记录。
进一步,所述EEPROM内存地址数据预先由硬件进行信号划分,不同区域保存不同类型的器件供电信号的故障信息。
进一步,所述通过基板控制器读取EEPROM的故障信息并进行解析展示到输出端,包括:
基板管理控制器发送读取启动故障信息指令到CPLD中,以确定发生启动故障;基板管理控制器发送EEPROM信息采集申请指令;
基板管理控制器轮询监测CPLD与EEPROM总线状态寄存器,根据此寄存器状态启动故障信息采集;
基板管理控制器通过I2C接口读取EEPROM中的故障信息,读取成功后,向CPLD发送故障信息采集完毕的指令,管理EEPROM访问通道;
基板管理控制器解析故障信息中的启动故障码,根据数据偏移地址结合信号编码解析成对应的故障类型,并在输出端进行信息显示。
进一步,所述基板管理控制器发送读取启动故障信息指令到CPLD中,以确定发生启动故障,包括:
当CPLD故障信息寄存器发生置位标识,则确定发生启动故障且当前CPLD采集到启动故障;否则标识启动无故障,并直接退出。
进一步,所述根据此寄存器状态启动故障信息采集,包括:
若寄存器状态处于置位状态,则说明EEPROM为不可查询读写状态,否则说明EEPROM信息采集指令申请成功,基板管理控制器进入故障信息采集阶段。
相应的,本发明还公开了一种服务器硬件上电启动故障排查系统,包括:状态检测模块,用于在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中;
访问模块,用于通过串口登录或者远程访问基板管理控制器;
解析展示模块,用于通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
相应的,本发明公开了一种服务器硬件上电启动故障排查装置,包括:
存储器,用于存储服务器硬件上电启动故障排查程序;
处理器,用于执行所述服务器硬件上电启动故障排查程序时实现如上文任一项所述服务器硬件上电启动故障排查方法的步骤。
相应的,本发明公开了一种可读存储介质,所述可读存储介质上存储有服务器硬件上电启动故障排查程序,所述服务器硬件上电启动故障排查程序被处理器执行时实现如上文任一项所述服务器硬件上电启动故障排查方法的步骤。
对比现有技术,本发明有益效果在于:本发明公开了一种服务器硬件上电启动故障排查方法、系统、装置及介质,能够在服务器控制器上电后,通过主板内的CPLD器件记录板内各硬件信号使能情况,若硬件信号使能异常,将此信号由特殊编码写入CPLD器件外置EEPROM中,整个上电启动过程由CPLD全程监测主板内重要硬件信号变化状态,直至整个服务器上电完成CPU进入BIOS引导阶段,x86处于S5电源状态为止。若此上电过程遭遇异常,够通过串口登录或者使用web网页登录的BMC管理界面,运行故障采集程序,基板管理控制器通过读取CPLD外置的EEPROM中保存的故障码,并根据编码规则解析出当前服务器上电异常原因,由文件或者信息的方式反馈给开发人员,从而达到排查定位服务器启动故障的目的。
本发明能够实现服务器在启动故障的快速分析定位,为研发人员或者运维人员提供一个分析定位工具,能够快速定位解决启动过程中出现的上电、器件异常等硬件故障。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明具体实施方式的方法流程图。
图2是本发明具体实施方式的系统结构图。
图中,1、状态检测模块;2、访问模块;3、解析展示模块。
具体实施方式
本发明的核心是提供一种服务器硬件上电启动故障排查方法,现有技术中,排查CPU启动故障记录往往由BIOS在启动过程中完成,但是运行BIOS程序的条件往往需要CPU和PCH以及VR芯片等重要核心芯片工作正常才能启动,无法在服务器前后电加载启动过程遇到故障时及时排查出相应故障原因。
而本发明提供的服务器硬件上电启动故障排查方法,首先,在服务器启动过程中使用CPLD控制主板上各个重要器件的电源输入控制,CPLD通过各类硬件信号的异常是否将故障信息保存到外置的EEPROM中,通过偏移地址以及对应编号的特殊编码方式实现启动硬件故障的记录功能。同时在基板管理控制器一侧提供故障排查工具,能够通过和CPLD进行指令交互的方式读取保存在EEPROM中的故障信息,并根据硬件信号故障编码规则解析并展示启动故障信息。由此可见,本发明能够实现服务器在启动故障的快速分析定位,为研发人员或者运维人员提供一个分析定位工具,能够快速定位解决启动过程中出现的上电、器件异常等硬件故障。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
如图1所示,本实施例提供了一种服务器硬件上电启动故障排查方法,包括如下步骤:
S1:在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中。
具体来说,在服务器启动过程中使用CPLD控制主板上各个重要器件的电源输入控制,CPLD通过各类硬件信号的异常是否将故障信息保存到外置的EEPROM中,通过偏移地址以及对应编号的特殊编码方式实现启动硬件故障的记录功能。
首先,启动信号记录过程,CPLD上电后需要对主板上各个重要器件进行上电动作,或者对前电设备的状态进行监测,当监测到信号异常时,通过将启动信号的信息写入对应的EEPROM内存地址中,EEPROM内存地址数据预先由硬件进行信号划分,不同区域保存不同类型的器件供电信号的故障信息,当某个器件异常时对应写入相应地址内存中。后电上电过程中,CPLD中的上电逻辑根据供电时序依次加载CPU及周围器件电源输入,当任意时序异常时将当前时序阶段和异常信号类型故障进行特殊编码后写固定的EEPROM区域中。
作为示例的,本步骤的具体实现过程如下:
1、服务器控制器上电运行,CPLD上电运行逻辑程序。
2、在前电启动过程中,CPLD监控各前电器件状态,若器件异常则捕捉相关异常状态记录到EEPROM中。记录规则遵循器件信号编号加存储器偏移地址的方式进行记录。
3、在后电启动过程中,CPLD运行逻辑程序逐一给CPU、内存、PCH上电,上电过程各电源信号依次控制电源输入,若上电过程异常,则记录此过程中的信号信息到EEPROM中。记录规则遵循器件信号编号加存储器偏移地址的方式进行记录。
S2:串口登录或者远程访问基板管理控制器。
在服务器管理领域中,基板管理控制器作为硬件核心管理部件承担整个服务器硬件的安全可靠、稳定运行的职责,因而通过基板管理控制器能够排查硬件启动故障,并且为开发人员提供故障定位手段。
S3:通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
本步骤的目的在于,在BMC侧提供故障排查工具,能够通过和CPLD进行指令交互的方式读取保存在EEPROM中的故障信息,并根据硬件信号故障编码规则解析并展示启动故障信息。
作为示例的,通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端的过程具体包括如下步骤:
S31:BMC发送读取启动故障信息指令到CPLD中,当CPLD故障信息寄存器发生置位标识,则说明当前CPLD采集到启动故障,否则标识启动无故障并退出。
S32:上一步读取到当前控制器发生故障后,BMC发送EEPROM信息采集申请指令。
S33:BMC轮询监测CPLD与EEPROM总线状态寄存器,当此寄存器状态处于置位状态,则说明EEPROM为不可查询读写状态,否则说明EEPROM信息采集指令申请成功,BMC进入故障信息采集阶段。
S34:BMC通过I2C接口读取EEPROM信息成功,同时发送故障信息采集完毕的指令。CPLD接收到此指令后会管理EEPROM访问通道,若采集过程中超时2s,CPLD也将关闭此通道。
S35:BMC程序解析启动故障码,根据数据偏移地址并结合信号编码解析成对应故障并进行信息显示。
本实施例提供了一种服务器硬件上电启动故障排查方法,能够在服务器控制器上电后,通过主板内的CPLD器件记录板内各硬件信号使能情况,若硬件信号使能异常,将此信号由特殊编码写入CPLD器件外置EEPROM中,整个上电启动过程由CPLD全程监测主板内重要硬件信号变化状态,直至整个服务器上电完成CPU进入BIOS引导阶段,x86处于S5电源状态为止。若此上电过程遭遇异常,够通过串口登录或者使用web网页登录的BMC管理界面,运行故障采集程序,基板管理控制器通过读取CPLD外置的EEPROM中保存的故障码,并根据编码规则解析出当前服务器上电异常原因,由文件或者信息的方式反馈给开发人员,从而达到排查定位服务器启动故障的目的。
实施例二:
基于实施例一,如图2所示,本发明还公开了一种服务器硬件上电启动故障排查系统,包括:状态检测模块1、访问模块2和解析展示模块3。
状态检测模块1,用于在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中。
状态检测模块1具体用于:服务器控制器上电运行,CPLD上电运行逻辑程序;在前电启动过程中,CPLD监控各前电器件状态,若器件异常则捕捉相关异常状态,并根据预设记录规则记录到EEPROM中;在后电启动过程中,CPLD运行逻辑程序逐一给CPU、内存、PCH上电,上电过程各电源信号依次控制电源输入,若上电过程异常,则根据预设记录规则记录此过程中的信号信息到EEPROM中。
访问模块2,用于通过串口登录或者远程访问基板管理控制器。
解析展示模块3,用于通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
解析展示模块3具体用于:基板管理控制器发送读取启动故障信息指令到CPLD中,以确定发生启动故障;基板管理控制器发送EEPROM信息采集申请指令;基板管理控制器轮询监测CPLD与EEPROM总线状态寄存器,根据此寄存器状态启动故障信息采集;基板管理控制器通过I2C接口读取EEPROM中的故障信息,读取成功后,向CPLD发送故障信息采集完毕的指令,管理EEPROM访问通道;基板管理控制器解析故障信息中的启动故障码,根据数据偏移地址结合信号编码解析成对应的故障类型,并在输出端进行信息显示。
本实施例提供了一种服务器硬件上电启动故障排查系统,能够在服务器启动过程中使用CPLD控制主板上各个重要器件的电源输入控制,CPLD通过各类硬件信号的异常是否将故障信息保存到外置的EEPROM中,通过偏移地址以及对应编号的特殊编码方式实现启动硬件故障的记录功能。同时在BMC侧提供故障排查工具,能够通过和CPLD进行指令交互的方式读取保存在EEPROM中的故障信息,并根据硬件信号故障编码规则解析并展示启动故障信息。
实施例三:
本实施例公开了一种服务器硬件上电启动故障排查装置,包括处理器和存储器;其中,所述处理器执行所述存储器中保存的服务器硬件上电启动故障排查程序时实现以下步骤:
1、在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中。
2、串口登录或者远程访问基板管理控制器。
3、通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
进一步的,本实施例中的服务器硬件上电启动故障排查装置,还可以包括:
输入接口,用于获取外界导入的服务器硬件上电启动故障排查程序,并将获取到的服务器硬件上电启动故障排查程序保存至所述存储器中,还可以用于获取外界终端设备传输的各种指令和参数,并传输至处理器中,以便处理器利用上述各种指令和参数展开相应的处理。本实施例中,所述输入接口具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。
输出接口,用于将处理器产生的各种数据输出至与其相连的终端设备,以便于与输出接口相连的其他终端设备能够获取到处理器产生的各种数据。本实施例中,所述输出接口具体可以包括但不限于USB接口、串行接口等。
通讯单元,用于在服务器硬件上电启动故障排查装置和外部服务器之间建立远程通讯连接,以便于服务器硬件上电启动故障排查装置能够将镜像文件挂载到外部服务器中。本实施例中,通讯单元具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。
键盘,用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。
显示器,用于运行服务器供电线路短路定位过程的相关信息进行实时显示。
鼠标,可以用于协助用户输入数据并简化用户的操作。
实施例四:
本实施例还公开了一种可读存储介质,这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有服务器硬件上电启动故障排查程序,所述服务器硬件上电启动故障排查程序被处理器执行时实现以下步骤:
1、在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中。
2、串口登录或者远程访问基板管理控制器。
3、通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
综上所述,本发明能够实现服务器在启动故障的快速分析定位,为研发人员或者运维人员提供一个分析定位工具,能够快速定位解决启动过程中出现的上电、器件异常等硬件故障。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言,由于其与实施例公开的系统相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。
同理,在本发明各个实施例中的各处理单元可以集成在一个功能模块中,也可以是各个处理单元物理存在,也可以两个或两个以上处理单元集成在一个功能模块中。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的服务器硬件上电启动故障排查方法、系统、装置及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种服务器硬件上电启动故障排查方法,其特征在于,包括:
在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中;
串口登录或者远程访问基板管理控制器;
通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
2.根据权利要求1所述的服务器硬件上电启动故障排查方法,其特征在于,所述在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中,包括:
服务器控制器上电运行,CPLD上电运行逻辑程序;
在前电启动过程中,CPLD监控各前电器件状态,若器件异常则捕捉相关异常状态,并根据预设记录规则记录到EEPROM中;
在后电启动过程中,CPLD运行逻辑程序逐一给CPU、内存、PCH上电,上电过程各电源信号依次控制电源输入,若上电过程异常,则根据预设记录规则记录此过程中的信号信息到EEPROM中。
3.根据权利要求2所述的服务器硬件上电启动故障排查方法,其特征在于,所述预设记录规则包括:以器件信号编号加存储器偏移地址的方式进行记录。
4.根据权利要求3所述的服务器硬件上电启动故障排查方法,其特征在于,所述EEPROM内存地址数据预先由硬件进行信号划分,不同区域保存不同类型的器件供电信号的故障信息。
5.根据权利要求1所述的服务器硬件上电启动故障排查方法,其特征在于,所述通过基板控制器读取EEPROM的故障信息并进行解析展示到输出端,包括:基板管理控制器发送读取启动故障信息指令到CPLD中,以确定发生启动故障;基板管理控制器发送EEPROM信息采集申请指令;
基板管理控制器轮询监测CPLD与EEPROM总线状态寄存器,根据此寄存器状态启动故障信息采集;
基板管理控制器通过I2C接口读取EEPROM中的故障信息,读取成功后,向CPLD发送故障信息采集完毕的指令,管理EEPROM访问通道;
基板管理控制器解析故障信息中的启动故障码,根据数据偏移地址结合信号编码解析成对应的故障类型,并在输出端进行信息显示。
6.根据权利要求5所述的服务器硬件上电启动故障排查方法,其特征在于,所述基板管理控制器发送读取启动故障信息指令到CPLD中,以确定发生启动故障,包括:
当CPLD故障信息寄存器发生置位标识,则确定发生启动故障且当前CPLD采集到启动故障;否则标识启动无故障,并直接退出。
7.根据权利要求5所述的服务器硬件上电启动故障排查方法,其特征在于,所述根据此寄存器状态启动故障信息采集,包括:
若寄存器状态处于置位状态,则说明EEPROM为不可查询读写状态,否则说明EEPROM信息采集指令申请成功,基板管理控制器进入故障信息采集阶段。
8.一种服务器硬件上电启动故障排查系统,其特征在于,包括:
状态检测模块,用于在服务器启动过程中使用CPLD控制主板上各个器件的电源输入控制,并全程监控硬件信号的变化状态,并将异常信号对应的故障信息写入CPLD的外置EEPROM中;
访问模块,用于通过串口登录或者远程访问基板管理控制器;
解析展示模块,用于通过基板管理控制器读取EEPROM的故障信息并进行解析展示到输出端。
9.一种服务器硬件上电启动故障排查装置,其特征在于,包括:
存储器,用于存储服务器硬件上电启动故障排查程序;
处理器,用于执行所述服务器硬件上电启动故障排查程序时实现如权利要求1至7任一项权利要求所述的服务器硬件上电启动故障排查方法的步骤。
10.一种可读存储介质,其特征在于:所述可读存储介质上存储有服务器硬件上电启动故障排查程序,所述服务器硬件上电启动故障排查程序被处理器执行时实现如权利要求1至7任一项权利要求所述的服务器硬件上电启动故障排查方法的步骤。
CN202211065599.8A 2022-08-29 2022-08-29 服务器硬件上电启动故障排查方法、系统、装置及介质 Pending CN115470056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211065599.8A CN115470056A (zh) 2022-08-29 2022-08-29 服务器硬件上电启动故障排查方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211065599.8A CN115470056A (zh) 2022-08-29 2022-08-29 服务器硬件上电启动故障排查方法、系统、装置及介质

Publications (1)

Publication Number Publication Date
CN115470056A true CN115470056A (zh) 2022-12-13

Family

ID=84368512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211065599.8A Pending CN115470056A (zh) 2022-08-29 2022-08-29 服务器硬件上电启动故障排查方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN115470056A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450692A (zh) * 2023-06-06 2023-07-18 山东浪潮科学研究院有限公司 一种数据库故障排查方法,装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450692A (zh) * 2023-06-06 2023-07-18 山东浪潮科学研究院有限公司 一种数据库故障排查方法,装置、设备及存储介质
CN116450692B (zh) * 2023-06-06 2023-08-29 山东浪潮科学研究院有限公司 一种数据库故障排查方法,装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
CN103631685A (zh) 故障自检系统及方法
CN112286709A (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN106547653A (zh) 计算机系统故障状态检测方法、装置及系统
CN111488050B (zh) 一种电源监控方法、系统及服务器
CN115470056A (zh) 服务器硬件上电启动故障排查方法、系统、装置及介质
CN108399116A (zh) 一种服务器上电状态监测系统及方法
KR20200004514A (ko) Pci-e 인터페이스를 이용한 컴퓨터 장애진단 시스템
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
CN116974804A (zh) 管理引擎挂死的调试方法、装置、设备及存储介质
CN113742166B (zh) 一种服务器系统器件日志记录方法、装置及系统
CN115934616A (zh) 串口信息保存方法、装置、服务器、电子设备和存储介质
CN114911578A (zh) 存储系统监控及故障收集方法、装置、终端及存储介质
CN112486785B (zh) 一种服务器定位宕机阶段的方法、系统、终端及存储介质
CN114281618A (zh) 一种pcie链路训练状态监测装置和服务器
CN114003419A (zh) 一种基于oses实现内存ras特性自动测试的方法、系统及装置
CN113568806A (zh) 一种sas卡链路状态监控方法、系统、装置及可读存储介质
CN114328044B (zh) 一种AIC+box拓扑的测试方法、装置和系统
CN110647435A (zh) 服务器、硬盘远程控制方法及控制组件
CN118132359B (zh) 一种服务器自动化宕机诊断方法及装置
CN2470879Y (zh) 具有告知故障原因的语音设备
CN117311769B (zh) 服务器日志生成方法和装置、存储介质及电子设备
US11966309B2 (en) Saturation of multiple PCIe slots in a server by multiple ports in a single test card
CN102214131A (zh) 服务器电源测试系统及对服务器进行电源测试的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination