CN116107819A - 一种服务器启动故障检测系统、方法、装置以及介质 - Google Patents
一种服务器启动故障检测系统、方法、装置以及介质 Download PDFInfo
- Publication number
- CN116107819A CN116107819A CN202211625020.9A CN202211625020A CN116107819A CN 116107819 A CN116107819 A CN 116107819A CN 202211625020 A CN202211625020 A CN 202211625020A CN 116107819 A CN116107819 A CN 116107819A
- Authority
- CN
- China
- Prior art keywords
- basic input
- output system
- management controller
- baseboard management
- programmable logic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims description 12
- 230000002159 abnormal effect Effects 0.000 abstract description 10
- 238000012423 maintenance Methods 0.000 description 18
- 238000003745 diagnosis Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2205—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/22—Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
- G06F11/2273—Test methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了一种服务器启动故障检测系统、方法、装置以及介质,系统包括:基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;复杂可编程逻辑器件与基本输入输出系统连接,用于获取基本输入输出系统的标志信息;基板管理控制器连接复杂可编程逻辑器件,用于接收复杂可编程逻辑器件的标志信息,并根据标志信息确认基本输入输出系统的故障情况。本方案使用能够快速上电的复杂可编程逻辑器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,通过接收基本输入输出系统发送的标志信息,将其反馈至基板管理控制器。BIOS和CPLD连接,当基本输入输出系统启动的瞬间就可以通过给CPLD发送信号,能够提供更全面的场景覆盖。
Description
技术领域
本申请涉及服务器故障检测技术领域,特别是涉及一种服务器启动故障检测系统、方法、装置以及介质。
背景技术
随着数据中心的规模越来越大,千万台级别的服务器规模,给运维工作带来巨大的挑战,智能运维被越来越多的提出。当前技术中对于服务器的故障监控还处于初级的故障监控阶段,基本是基板管理控制器(Baseboard Management Controller,BMC)侦测到相关状态后上报运维服务器,然后人工进行相关处理和分析。
但是当客户设置为设备AC上电后立即启动场景,或者主板cmos电池耗尽的场景下,都是AC上电后系统立即启动。而BMC的启动较慢,因此依靠BMC进行故障诊断存在场景覆盖不全的问题。并且基本输入输出系统(Basic Input Output System,BIOS)启动过程中在POST阶段,由于通信总线未初始化,BIOS与BMC之间无法直接通信,若故障出现在POST阶段,然后挂死,即使知道挂死,也无法知道什么原因。例如没有BIOS镜像,或者镜像损坏,或者设备自检异常。
由此可见,如何在BIOS启动过程中,提供一种覆盖场景更全面的故障诊断方式是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种服务器启动故障检测系统、方法、装置以及介质,以在BIOS启动过程中,提供一种覆盖场景更全面的故障诊断方式。
为解决上述技术问题,本申请提供一种服务器启动故障检测系统,包括:
基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;
所述复杂可编程逻辑器件与所述基本输入输出系统连接,用于获取所述基本输入输出系统发送的标志信息;
所述基板管理控制器连接所述复杂可编程逻辑器件,用于接收所述复杂可编程逻辑器件反馈的标志信息,并根据所述标志信息确认所述基本输入输出系统的故障情况。
优选的,所述标志信息为所述基本输入输出系统标记执行过程中各个阶段的开始节点、结束节点以及阶段中间关键点。
优选的,所述基本输入输出系统还用于自身侦测到故障时,产生相关的故障记录,并将所述故障记录通过所述复杂可编程逻辑器件发送至所述基板管理控制器。
优选的,还包括:
若所述基板管理控制器无法通过所述故障记录确认故障原因,则记录相关标志,并重启设备;
若设备重启后恢复正常或确认出故障原因,则消除标志。
优选的,还包括:
所述基板管理控制器与所述基本输入输出系统连接,用于获取所述标志信息。
为解决上述技术问题,本申请还提供一种服务器启动故障检测方法,应用于服务器启动故障检测系统,所述服务器启动故障检测系统包括基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;所述复杂可编程逻辑器件与所述基本输入输出系统连接,所述基板管理控制器连接所述复杂可编程逻辑器件,所述方法包括:
获取所述基本输入输出系统发送的标志信息;
将所述标志信息反馈至所述基板管理控制器,以便于所述基板管理控制器根据所述标志信息确认所述基本输入输出系统的故障情况。
优选的,所述标志信息为所述基本输入输出系统标记执行过程中各个阶段的开始节点、结束节点以及阶段中间关键点。
为解决上述技术问题,本申请还提供一种服务器启动故障检测装置,应用于服务器启动故障检测系统,所述服务器启动故障检测系统包括基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;所述复杂可编程逻辑器件与所述基本输入输出系统连接,所述基板管理控制器连接所述复杂可编程逻辑器件,所述装置包括:
获取模块,用于获取所述基本输入输出系统发送的标志信息;
反馈模块,用于将所述标志信息反馈至所述基板管理控制器,以便于所述基板管理控制器根据所述标志信息确认所述基本输入输出系统的故障情况。
为解决上述技术问题,本申请还提供另一种服务器启动故障检测装置,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述的服务器启动故障检测方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的服务器启动故障检测方法的步骤。
本申请所提供的服务器启动故障检测系统,包括:基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;复杂可编程逻辑器件与基本输入输出系统连接,用于获取基本输入输出系统发送的标志信息;基板管理控制器连接复杂可编程逻辑器件,用于接收复杂可编程逻辑器件反馈的标志信息,并根据标志信息确认基本输入输出系统的故障情况。相对于当前技术中,由于BMC启动较慢和在POST阶段BIOS与BMC之间无法直接通信,导致BMC在进行故障诊断时存在场景覆盖不全的问题。采用本技术方案,使用能够快速上电的复杂可编程逻辑器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,通过接收基本输入输出系统发送的标志信息,将其反馈至基板管理控制器。并且,BIOS和CPLD连接,当基本输入输出系统启动的瞬间就可以通过给CPLD发送信号,能够提供更全面的场景覆盖。
此外,本申请所提供的服务器启动故障检测方法、装置以及介质,与上述的服务器启动故障检测系统相对应,效果同上。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种服务器启动故障检测系统的结构图;
图2为本申请实施例提供的一种服务器系统的结构图;
图3为本申请实施例提供的一种标志示意图;
图4为本申请实施例提供的一种服务器启动故障检测方法的流程图;
图5为本申请实施例提供的一种服务器启动故障检测装置的结构图;
图6为本申请实施例提供的另一种服务器启动故障检测装置的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本申请保护范围。
随着数据中心的规模越来越大,千万台级别的服务器规模,给运维工作带来巨大的挑战,智能运维被越来越多的提出。当前对于服务器的故障监控还处于初级的故障监控阶段,基本是BMC侦测到相关状态后上报运维服务器。然后人工进行相关处理和分析,甚至最小化环境复现定位,或者各种更换部件,造成运维时间和成本的开支,同时也造成一些部件的故障率升高。
服务器启动异常在每个数据中心都存在,且因为启动过程中阶段多关系复杂,问题出现后定位较为复杂,问题定位和解决时间长,运维人力投入大效益低,当期的一些方案都是局部阶段的故障监控方案,客户对能完整诊断整个启动过程的方案和故障明确的规则的方法呼声较高。
本申请的核心是提供一种服务器启动故障检测系统、方法、装置以及介质,以在BIOS启动过程中,提供一种覆盖场景更全面的故障诊断方式。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
图1为本申请实施例提供的一种服务器启动故障检测系统的结构图,如图1所示,该系统包括:
基本输入输出系统3、复杂可编程逻辑器件2、基板管理控制器1;
复杂可编程逻辑器件与基本输入输出系统连接,用于获取基本输入输出系统发送的标志信息;
基板管理控制器连接复杂可编程逻辑器件,用于接收复杂可编程逻辑器件反馈的标志信息,并根据标志信息确认基本输入输出系统的故障情况。
在本实施例中,BMC可以在机器未开机的状态下,对机器进行固件升级、查看机器设备等一些操作。复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD),用户根据各自需要而自行构造逻辑功能的数字集成电路,服务器中多用于控制硬件开关机等时序控制。GPIO,General Purpose Input Output,基本输入输出系统利用物理引脚的高低电平进行信号通信。
当前技术中往往使用BMC进行故障检测,BMC通过与BIOS的通信实现对BIOS启动过程的故障检测。但是在具体实施中,BIOS启动过程中在POST阶段,由于通信总线未初始化,BIOS与BMC直接无法直接通信,若故障出现在POST阶段,然后挂死,即使知道挂死,也无法知道什么原因。例如没有BIOS镜像,或者镜像损坏,或者设备自检异常。并且,当客户设置未AC上电后立即启动场景,或者主板cmos电池耗尽的场景下,都是AC上电后系统立即启动。而BMC的启动较慢是分钟级的,因此依靠BMC进行故障诊断存在场景覆盖不全的问题。
为了解决上述问题,本申请中采用能够快速上电的CPLD器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,BIOS发送的标志信息不直接传送至BMC中,而是通过CPLD转发,从而实现在通信总线未初始化时仍能记录故障情况。其次本设计通过PCH/管理引擎/CPU上的一根预留GPIO与CPLD通信,这样当BIOS启动的瞬间就可以通过该GPIO给CPLD发送信号。
图2为本申请实施例提供的一种服务器系统的结构图,如图2所示一个简单的服务器系统有如下几个部分组成,系统供电系统(PSU,电源板,主板各路VR等等)、CPLD、BMC、CPU系统、内存/外设等部分组成。无论有PCH方案还是无PCH方案(包括AMD方案或ARM方案)本质都差不多,该有的扩展和功能都有。
当用户按下“PowerButton”按键/或远程透过BMC进行开机时,信号被送到CPLD然后被透传到管理引擎ME和/或BMC,然后CPLD等待管理引擎ME给出S4、S3信号到CPLD后,CPLD开始整个设备上电流程。“CPLD”先给供电管理单元发送上电信号,上电成功后,依次给主板上的各个“VR芯片”发送上电的信号,给CPU、内存、外设等部件供电。当CPLD上电完毕后BIOS将开始运行,当BIOS运行完毕后引导服务器的操作系统OS启动,直到OS启动完成,整个服务器启动过程完成。
本设计对服务器的完整启动过程实现全流程的实时故障检测和故障明确,当系统出现故障时,直接上报故障的阶段、故障位置和故障原因,甚至能够直接给出快速解决方案,运维可以直接带配件前往更换或者维修。大大缩短运维时间,减少对客户业务的影响。大大减少运维的人力投入。解决了当前服务器启动失败后,不知道哪里的问题,需要将服务器下线,然后排除。在智能运维的时代,解决了客户的痛点问题,有效地提高服务器的稳定性和可靠性。降低运维成本,提高产品口碑。
可以理解的是,相比现有技术,本实施例主要将原有的BMC检测改为CPLD+BMC联合检测,BIOS跟CPLD直接根据现有一根预留GPIO进行通信。此外,在本实施例中,还包括:基板管理控制器与基本输入输出系统连接,用于获取标志信息。通过对保留BIOS和BMC的连接关系,可以在CPLD故障时实现备用,BIOS可以直接将相关的记录发送至BMC进行故障检测。
本申请所提供的服务器启动故障检测系统,包括:基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;复杂可编程逻辑器件与基本输入输出系统连接,用于获取基本输入输出系统发送的标志信息;基板管理控制器连接复杂可编程逻辑器件,用于接收复杂可编程逻辑器件反馈的标志信息,并根据标志信息确认基本输入输出系统的故障情况。相对于当前技术中,由于BMC启动较慢和在POST阶段BIOS与BMC之间无法直接通信,导致BMC在进行故障诊断时存在场景覆盖不全的问题。采用本技术方案,使用能够快速上电的复杂可编程逻辑器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,通过接收基本输入输出系统发送的标志信息,将其反馈至基板管理控制器。并且,BIOS和CPLD连接,当基本输入输出系统启动的瞬间就可以通过给CPLD发送信号,能够提供更全面的场景覆盖。
在具体实施中,BIOS启动的流程通常可以分为SEC阶段、PEI阶段、DXE阶段、BDS阶段和TLS阶段。在进行故障判断时,BIOS POST code会记录相关日志,但是对于BIOS异常hang死的情况,存在Post code记录数据并不是当前处理阶段的数据,可能是上个阶段的数据的情况;另外一种是某个阶段出现异常后BIOS会进行后续处理,post code中还会继续记录一些数据,也就是说故障真正的阶段并不是最后的位置,位置不定等等。上述问题将会导致BMC无法自动分析和准确获取故障阶段和真实的故障位置。
因此为了解决上述问题,在上述实施例的基础上,在本实施例中,标志信息为基本输入输出系统标记执行过程中各个阶段的开始节点、结束节点以及阶段中间关键点。
采用本技术方案,当系统出现故障时,直接上报故障的阶段、故障位置和故障原因,甚至能够直接给出快速解决方案,运维可以直接带配件前往更换或者维修。大大缩短运维时间,减少对客户业务的影响。大大减少运维的人力投入。解决了当前服务器启动失败后,不知道哪里的问题,需要将服务器下线,然后一点一点的排除。
基本输入输出系统还用于自身侦测到故障时,产生相关的故障记录,并将故障记录通过复杂可编程逻辑器件发送至基板管理控制器。
在本实施例中,还包括:若基板管理控制器无法通过故障记录确认故障原因,则记录相关标志,并重启设备;若设备重启后恢复正常或确认出故障原因,则消除标志。
图3为本申请实施例提供的一种标志示意图,在本实施例中,当基本输入输出系统产生的故障记录能够被BMC识别时,BMC可以根据标志直接确认出BIOS故障原因,BMC对于未知或无法明确的故障,BMC记录相关标志,重启设备,如果重启后恢复正常,或者定位出具体原因,则消除标志。如果重启3次依然存在未知或无法明确的故障,则上报告警到运维系统,通知运维依次检查检查更换CPU/内存等部件进行最小化定位。
图4为本申请实施例提供的一种服务器启动故障检测方法的流程图,该方法应用于服务器启动故障检测系统,服务器启动故障检测系统包括基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;复杂可编程逻辑器件与基本输入输出系统连接,基板管理控制器连接复杂可编程逻辑器件,如图3所示,该方法包括:
S10:获取基本输入输出系统发送的标志信息;
S11:将标志信息反馈至基板管理控制器,以便于基板管理控制器根据标志信息确认基本输入输出系统的故障情况。
优选的,标志信息为基本输入输出系统标记执行过程中各个阶段的开始节点、结束节点以及阶段中间关键点。
本申请实施例提供的服务器启动故障检测方法,通过获取基本输入输出系统发送的标志信息,将标志信息反馈至基板管理控制器,以便于基板管理控制器根据标志信息确认基本输入输出系统的故障情况。相对于当前技术中,由于BMC启动较慢和在POST阶段BIOS与BMC之间无法直接通信,导致BMC在进行故障诊断时存在场景覆盖不全的问题。采用本技术方案,使用能够快速上电的复杂可编程逻辑器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,通过接收基本输入输出系统发送的标志信息,将其反馈至基板管理控制器。并且,BIOS和CPLD连接,当基本输入输出系统启动的瞬间就可以通过给CPLD发送信号,能够提供更全面的场景覆盖。
在上述实施例中,对于服务器启动故障检测方法进行了详细描述,本申请还提供服务器启动故障检测装置对应的实施例。需要说明的是,本申请从两个角度对装置部分的实施例进行描述,一种是基于功能模块的角度,另一种是基于硬件的角度。
图5为本申请实施例提供的一种服务器启动故障检测装置的结构图,应用于服务器启动故障检测系统,服务器启动故障检测系统包括基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;复杂可编程逻辑器件与基本输入输出系统连接,基板管理控制器连接复杂可编程逻辑器件,装置包括:
获取模块10,用于获取基本输入输出系统发送的标志信息;
反馈模块11,用于将标志信息反馈至基板管理控制器,以便于基板管理控制器根据标志信息确认基本输入输出系统的故障情况。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请实施例提供的服务器启动故障检测装置,通过获取基本输入输出系统发送的标志信息,将标志信息反馈至基板管理控制器,以便于基板管理控制器根据标志信息确认基本输入输出系统的故障情况。相对于当前技术中,由于BMC启动较慢和在POST阶段BIOS与BMC之间无法直接通信,导致BMC在进行故障诊断时存在场景覆盖不全的问题。采用本技术方案,使用能够快速上电的复杂可编程逻辑器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,通过接收基本输入输出系统发送的标志信息,将其反馈至基板管理控制器。并且,BIOS和CPLD连接,当基本输入输出系统启动的瞬间就可以通过给CPLD发送信号,能够提供更全面的场景覆盖。
图6为本申请实施例提供的另一种服务器启动故障检测装置的结构图,如图6所示,该装置包括:存储器20,用于存储计算机程序;
处理器21,用于执行计算机程序时实现如上述实施例服务器启动故障检测方法的步骤。
本实施例提供的服务器启动故障检测装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
其中,处理器21可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器21可以采用数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器21可以集成有图像处理器(Graphics Processing Unit,GPU),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器21还可以包括人工智能(Artificial Intelligence,AI)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器20可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器20还可以包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器20至少用于存储以下计算机程序201,其中,该计算机程序被处理器21加载并执行之后,能够实现前述任一实施例公开的服务器启动故障检测方法的相关步骤。另外,存储器20所存储的资源还可以包括操作系统202和数据203等,存储方式可以是短暂存储或者永久存储。其中,操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于标志信息等。
在一些实施例中,服务器启动故障检测装置还可以包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。
本领域技术人员可以理解,图6中示出的结构并不构成对服务器启动故障检测装置的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的服务器启动故障检测装置,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如下方法:获取基本输入输出系统发送的标志信息;将标志信息反馈至基板管理控制器,以便于基板管理控制器根据标志信息确认基本输入输出系统的故障情况。
本申请实施例提供的服务器启动故障检测装置,通过获取基本输入输出系统发送的标志信息,将标志信息反馈至基板管理控制器,以便于基板管理控制器根据标志信息确认基本输入输出系统的故障情况。相对于当前技术中,由于BMC启动较慢和在POST阶段BIOS与BMC之间无法直接通信,导致BMC在进行故障诊断时存在场景覆盖不全的问题。采用本技术方案,使用能够快速上电的复杂可编程逻辑器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,通过接收基本输入输出系统发送的标志信息,将其反馈至基板管理控制器。并且,BIOS和CPLD连接,当基本输入输出系统启动的瞬间就可以通过给CPLD发送信号,能够提供更全面的场景覆盖。
最后,本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的计算机可读存储介质,通过获取基本输入输出系统发送的标志信息,将标志信息反馈至基板管理控制器,以便于基板管理控制器根据标志信息确认基本输入输出系统的故障情况。相对于当前技术中,由于BMC启动较慢和在POST阶段BIOS与BMC之间无法直接通信,导致BMC在进行故障诊断时存在场景覆盖不全的问题。采用本技术方案,使用能够快速上电的复杂可编程逻辑器件取代现有技术中的BMC来检测BIOS启动过程中的异常情况,通过接收基本输入输出系统发送的标志信息,将其反馈至基板管理控制器。并且,BIOS和CPLD连接,当基本输入输出系统启动的瞬间就可以通过给CPLD发送信号,能够提供更全面的场景覆盖。
以上对本申请所提供的服务器启动故障检测系统、方法、装置以及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种服务器启动故障检测系统,其特征在于,包括:
基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;
所述复杂可编程逻辑器件与所述基本输入输出系统连接,用于获取所述基本输入输出系统发送的标志信息;
所述基板管理控制器连接所述复杂可编程逻辑器件,用于接收所述复杂可编程逻辑器件反馈的标志信息,并根据所述标志信息确认所述基本输入输出系统的故障情况。
2.根据权利要求1所述的服务器启动故障检测系统,其特征在于,所述标志信息为所述基本输入输出系统标记执行过程中各个阶段的开始节点、结束节点以及阶段中间关键点。
3.根据权利要求1所述的服务器启动故障检测系统,其特征在于,所述基本输入输出系统还用于自身侦测到故障时,产生相关的故障记录,并将所述故障记录通过所述复杂可编程逻辑器件发送至所述基板管理控制器。
4.根据权利要求3所述的服务器启动故障检测系统,其特征在于,还包括:
若所述基板管理控制器无法通过所述故障记录确认故障原因,则记录相关标志,并重启设备;
若设备重启后恢复正常或确认出故障原因,则消除标志。
5.根据权利要求1所述的服务器启动故障检测系统,其特征在于,还包括:
所述基板管理控制器与所述基本输入输出系统连接,用于获取所述标志信息。
6.一种服务器启动故障检测方法,其特征在于,应用于服务器启动故障检测系统,所述服务器启动故障检测系统包括基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;所述复杂可编程逻辑器件与所述基本输入输出系统连接,所述基板管理控制器连接所述复杂可编程逻辑器件,所述方法包括:
获取所述基本输入输出系统发送的标志信息;
将所述标志信息反馈至所述基板管理控制器,以便于所述基板管理控制器根据所述标志信息确认所述基本输入输出系统的故障情况。
7.根据权利要求6所述的服务器启动故障检测方法,其特征在于,所述标志信息为所述基本输入输出系统标记执行过程中各个阶段的开始节点、结束节点以及阶段中间关键点。
8.一种服务器启动故障检测装置,其特征在于,应用于服务器启动故障检测系统,所述服务器启动故障检测系统包括基本输入输出系统、复杂可编程逻辑器件、基板管理控制器;所述复杂可编程逻辑器件与所述基本输入输出系统连接,所述基板管理控制器连接所述复杂可编程逻辑器件,所述装置包括:
获取模块,用于获取所述基本输入输出系统发送的标志信息;
反馈模块,用于将所述标志信息反馈至所述基板管理控制器,以便于所述基板管理控制器根据所述标志信息确认所述基本输入输出系统的故障情况。
9.一种服务器启动故障检测装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求6或7所述的服务器启动故障检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求6或7所述的服务器启动故障检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211625020.9A CN116107819A (zh) | 2022-12-16 | 2022-12-16 | 一种服务器启动故障检测系统、方法、装置以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211625020.9A CN116107819A (zh) | 2022-12-16 | 2022-12-16 | 一种服务器启动故障检测系统、方法、装置以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116107819A true CN116107819A (zh) | 2023-05-12 |
Family
ID=86264814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211625020.9A Pending CN116107819A (zh) | 2022-12-16 | 2022-12-16 | 一种服务器启动故障检测系统、方法、装置以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116107819A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340957A (zh) * | 2023-05-29 | 2023-06-27 | 苏州浪潮智能科技有限公司 | 程序启动方法、装置、服务器及非易失性存储介质 |
CN117112308A (zh) * | 2023-09-14 | 2023-11-24 | 上海合芯数字科技有限公司 | 智能网卡的双基本输入输出系统切换方法、系统、终端、介质及网卡 |
CN117176606A (zh) * | 2023-09-04 | 2023-12-05 | 上海合芯数字科技有限公司 | 智能网卡的初始化异常检测方法、系统、服务器及介质 |
CN117234812A (zh) * | 2023-11-16 | 2023-12-15 | 中科泓泰电子有限公司 | 一种控制服务器重启的系统及方法 |
CN117591378A (zh) * | 2024-01-17 | 2024-02-23 | 苏州元脑智能科技有限公司 | 一种服务器的温度控制方法、系统、设备及存储介质 |
CN117806924A (zh) * | 2024-02-29 | 2024-04-02 | 苏州元脑智能科技有限公司 | 一种指示装置的控制方法、装置、服务器及介质 |
-
2022
- 2022-12-16 CN CN202211625020.9A patent/CN116107819A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116340957A (zh) * | 2023-05-29 | 2023-06-27 | 苏州浪潮智能科技有限公司 | 程序启动方法、装置、服务器及非易失性存储介质 |
CN116340957B (zh) * | 2023-05-29 | 2023-08-11 | 苏州浪潮智能科技有限公司 | 程序启动方法、装置、服务器及非易失性存储介质 |
CN117176606A (zh) * | 2023-09-04 | 2023-12-05 | 上海合芯数字科技有限公司 | 智能网卡的初始化异常检测方法、系统、服务器及介质 |
CN117112308A (zh) * | 2023-09-14 | 2023-11-24 | 上海合芯数字科技有限公司 | 智能网卡的双基本输入输出系统切换方法、系统、终端、介质及网卡 |
CN117234812A (zh) * | 2023-11-16 | 2023-12-15 | 中科泓泰电子有限公司 | 一种控制服务器重启的系统及方法 |
CN117234812B (zh) * | 2023-11-16 | 2024-01-30 | 中科泓泰电子有限公司 | 一种控制服务器重启的系统及方法 |
CN117591378A (zh) * | 2024-01-17 | 2024-02-23 | 苏州元脑智能科技有限公司 | 一种服务器的温度控制方法、系统、设备及存储介质 |
CN117591378B (zh) * | 2024-01-17 | 2024-04-05 | 苏州元脑智能科技有限公司 | 一种服务器的温度控制方法、系统、设备及存储介质 |
CN117806924A (zh) * | 2024-02-29 | 2024-04-02 | 苏州元脑智能科技有限公司 | 一种指示装置的控制方法、装置、服务器及介质 |
CN117806924B (zh) * | 2024-02-29 | 2024-05-10 | 苏州元脑智能科技有限公司 | 一种指示装置的控制方法、装置、服务器及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116107819A (zh) | 一种服务器启动故障检测系统、方法、装置以及介质 | |
CN111324192A (zh) | 一种系统板卡电源检测方法、装置、设备及存储介质 | |
WO2018095107A1 (zh) | 一种bios程序的异常处理方法及装置 | |
KR101712172B1 (ko) | 컴퓨터 장애 증상의 사전 진단 및 분석 복구 시스템 및 방법 | |
CN102880527B (zh) | 一种基板管理控制器的数据恢复方法 | |
CN114116280A (zh) | 交互式bmc自恢复方法、系统、终端及存储介质 | |
CN108431781A (zh) | 设备驱动器检测的错误的自诊断和自动诊断数据收集 | |
CN114978883B (zh) | 网络唤醒的管理方法、装置、电子设备及存储介质 | |
CN107894935B (zh) | Ops电脑模块检测处理方法、装置以及电子设备 | |
CN113672306A (zh) | 服务器组件自检异常恢复方法、装置、系统及介质 | |
CN117149491A (zh) | 一种电源监测方法、系统、装置及存储介质 | |
CN115098294B (zh) | 异常事件的处理方法、电子设备及管理终端 | |
KR20150116020A (ko) | 무선 네트워크를 이용한 컴퓨터 진단 및 복구 장치와 그 방법 | |
CN116010141A (zh) | 一种多路服务器启动异常定位方法、装置及其介质 | |
CN115098342A (zh) | 系统日志收集方法、系统、终端及存储介质 | |
CN114253573A (zh) | PCIe设备固件批量升级方法、系统、终端及存储介质 | |
CN112953788A (zh) | 一种网络状态检测方法、装置、bmc及存储介质 | |
JP2020086606A (ja) | 情報処理装置及び制御プログラム | |
CN114328044B (zh) | 一种AIC+box拓扑的测试方法、装置和系统 | |
CN114443446B (zh) | 硬盘指示灯控制方法、系统、终端及存储介质 | |
CN113220358B (zh) | 一种多平台bios信息存储方法、系统及介质 | |
TWI298137B (zh) | ||
CN113900890B (zh) | 服务器组件信息收集方法、装置、设备及介质 | |
CN117311769B (zh) | 服务器日志生成方法和装置、存储介质及电子设备 | |
CN111045899B (zh) | 在计算机系统开机自检的早期显示bios信息的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |