CN117687849A - 服务器故障测试方法、装置、电子设备及存储介质 - Google Patents

服务器故障测试方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117687849A
CN117687849A CN202311431985.9A CN202311431985A CN117687849A CN 117687849 A CN117687849 A CN 117687849A CN 202311431985 A CN202311431985 A CN 202311431985A CN 117687849 A CN117687849 A CN 117687849A
Authority
CN
China
Prior art keywords
fault
type
interface
server
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311431985.9A
Other languages
English (en)
Inventor
买廷义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311431985.9A priority Critical patent/CN117687849A/zh
Publication of CN117687849A publication Critical patent/CN117687849A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明涉及服务器测试技术领域,提供一种服务器故障测试方法、装置、电子设备及存储介质,该方法包括:在服务器的DCI接口状态为开启状态时,BMC接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;BMC基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障。本发明通过将注错内容定义集成在BMC系统内,通过IPMI协议使BMC直接发送注错命令到DCI接口来触发服务器故障测试,实现远程测试,可以节省测试成本和时间,提高测试效率。

Description

服务器故障测试方法、装置、电子设备及存储介质
技术领域
本发明涉及服务器测试技术领域,尤其涉及一种服务器故障测试方法、装置、电子设备及存储介质。
背景技术
BMC(Baseboard Management Controller,基板管理控制器)是一种用于监控和管理硬件的专用芯片。BMC通常集成在主板上,可以通过网络、串口、USB等接口与计算机系统通信。BMC可以监控诸如温度、电压、风扇转速等硬件参数,并可以远程管理计算机系统的电源、重启、设置BIOS等操作。
在服务器制造和测试过程中,测试服务器的稳定性和可靠性是非常重要的。为了测试服务器的性能和稳定性,需要模拟一些故障情况,例如CPU的IERR、configure error故障,内存的UCE、CE故障等。
目前,常用的CPU IERR故障触发方式包括ASD(英特尔自动化应力诊断,IntelAutomated Stress Diagnostics)和XDP(eXtended Debug Port,扩展调试端口)两种方式。当BMC检测到IERR后,会触发BMC的故障诊断功能,自动收集故障日志,方便研发人员定位分析。但这些方法需要额外搭建测试环境和硬件连接设备,测试步骤繁琐复杂,需要投入大量的时间和人力成本。
发明内容
针对现有技术存在的问题,本发明提供一种服务器故障测试方法、装置、电子设备及存储介质。
本发明提供一种服务器故障测试方法,包括:
在服务器的DCI接口状态为开启状态时,BMC接收IPMI命令接口,所述IPMI命令接口的参数包括故障部件类型和故障类型;
BMC基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于所述故障部件类型和所述故障类型的注错内容;
将获取到的所述注错内容发送给DCI接口,以使所述DCI接口将所述注错内容转换为模拟信号发送与所述故障部件类型对应的故障部件的JTAG接口触发与所述故障类型对应的故障。
在一个实施例中,所述方法还包括:
在预设时间内BMC确定记录到故障告警日志且确定服务器宕机时,确定触发故障成功。
在一个实施例中,在BMC接收IPMI命令接口之前,所述方法还包括:
BMC清理原有的故障日志文件。
在一个实施例中,所述方法还包括:
BMC查询存在新的故障日志文件,确定故障日志文件收集成功,并对新的故障进行解析,并在服务器重启成功后,确定查询存在故障告警的解除日志时,则确定故障测试成功。
在一个实施例中,所述方法还包括:
BMC查询存在新的故障日志文件,确定故障日志文件收集成功,并对新的故障进行解析,并在服务器重启成功后,确定查询存在故障告警的解除日志时,则确定故障测试成功。
在一个实施例中,所述方法还包括:注错内容配置文件的配置步骤,包括:
确定故障部件类型和故障类型;
根据所述故障部件类型,确定在配置列表中查找到与所述故障部件类型对应的待选配置数据库;
基于所述故障部件类型根据配置结构模板及故障类型,创建配置名,并在所述待选配置数据库中创建子数据库,用于存储所述配置名对应的注错内容;
当在配置列表中未查找到与所述故障部件类型对应的待选配置数据库时,构建一新数据库,并基于所述故障部件类型根据配置结构模板及故障类型,创建配置名,并在所述新数据库中创建子数据库;
其中,所述子数据库以所述配置名进行命名。
在一个实施例中,所述注错内容包括ASD注错环境里面Python语言编写的注错内容。
本发明还提供一种服务器故障测试装置,包括:
接收模块,用于在服务器的DCI接口状态为开启状态时,接收IPMI命令接口,所述IPMI命令接口的参数包括故障部件类型和故障类型;
获取模块,用于基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于所述故障部件类型和所述故障类型的注错内容;
发送模块,用于将获取到的所述注错内容发送给DCI接口,以使所述DCI接口将所述注错内容转换为模拟信号发送与所述故障部件类型对应的故障部件的JTAG接口触发与所述故障类型对应的故障。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述服务器故障测试方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述服务器故障测试方法。
本发明提供的一种服务器故障测试方法、装置、电子设备及存储介质,通过将注错内容定义集成在BMC系统内,通过IPMI协议使BMC直接发送注错命令到DCI接口来触发服务器故障测试,实现远程测试,可以节省测试成本和时间,提高测试效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的服务器故障测试方法的流程示意图之一;
图2是本发明提供的服务器故障测试方法的流程示意图之二;
图3是本发明提供的服务器故障测试方法的流程示意图之三;
图4是本发明提供的服务器故障测试方法的整体流程示意图;
图5是本发明提供的服务器故障测试装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的一种服务器故障测试方法、装置、电子设备及存储介质。
图1示出了本发明提供的一种服务器故障测试方法的流程示意图,参见图1,该方法包括:
11、在服务器的DCI接口状态为开启状态时,BMC接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;
12、BMC基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;
13、将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障。
对此,需要说明的是,本发明中,BMC(Baseboard Management Controller,基板管理控制器)是一种用于监控和管理硬件的专用芯片。BMC通常集成在主板上,可以通过网络、串口、USB等接口与计算机系统通信。BMC可以监控诸如温度、电压、风扇转速等硬件参数,并可以远程管理计算机系统的电源、重启、设置BIOS等操作。
在服务器制造和测试过程中,测试服务器的稳定性和可靠性是非常重要的。为了测试服务器的性能和稳定性,需要模拟一些故障情况,例如CPU的IERR、configure error故障,内存的UCE、CE故障等。
本发明针对服务器故障测试进行处理过程中,主要设计构思是将需搭建的OpenIPC程序和Python环境中OpenIPC程序发送注错命令的功能和Python语言编写的注错内容集成到BMC系统里面,然后通过IPMI(Intelligent Platform Management Interface,智能平台管理接口)协议直接向BMC发送注错命令来触发服务器的不同故障。
由上述可知,本发明需在BMC系统里面定义一个IPMI命令接口,用来响应通过IPMI发送给BMC的注错命令,此接口包含三个参数,第1个参数定义该命令为故障触发命令,第2个参数定义为故障触发的部件类型,比如CPU、内存、PCIE设备等部件,第3个参数定义为故障类型,比如CPU的IERR、配置error故障,内存的UCE、CE故障等。
在本发明中,由于需搭建的OpenIPC程序和Python环境中OpenIPC程序发送注错命令的功能和Python语言编写的注错内容集成到BMC系统里面。为此,要事先将注错内容存储在一个配置文件中,相当于设置一个数据库,在该数据库中存储有不同故障类型的注错内容。
在本发明中,把ASD注错环境里面的OpenIPC程序发送注错命令的功能和Python语言编写的注错内容以配置文件的形式存储到BMC系统里面,配置文件首先定义各个部件类型做为第一层索引,在第一层索引下面继续定义第二层索引,第二层索引为各个部件的故障类型以及对应的注错内容,这样可以通过部件类型、以及部件的故障类型来查找对应的注错内容。同时由于配置文件里面这两层索引的定义与上述IPMI命令接口定义里面的第二、第三个参数相对应,当需要对新的部件或新的故障类型进行故障触发时,只需要将对应的注错内容按照配置文件的定义格式合入到数据库里面即可,无需其他修改即可兼容新部件或新故障的注错,因此本发明可扩展性强大。
本发明中,在完成IPMI命令接口和配置文件的定义后,首先登入BMC系统下,在BIOS设置选项里面打开DCI功能,即将服务器的DCI接口状态置为开启状态。如将服务器BIOS设置中修改DCI enable为enable状态,开启DCI功能。IOS是"Basic Input OutputSystem"的缩略词,文名称就是"基本输入输出系统"。在IBM PC兼容系统上,是一种业界标准的固件接口。其实,它是一组固化到计算机内主板上一个ROM芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可从CMOS中读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。此外,BIOS还向作业系统提供一些系统参数。系统硬件的变化是由BIOS隐藏,程序使用BIOS功能而不是直接控制硬件。现代作业系统会忽略BIOS提供的抽象层并直接控制硬件组件。
在本发明中,BMC接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型。基于IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容。
将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障。
下面以触发CPU IERR为例进行解释说明,当BMC接受到命令后,BMC按照IPMI命令接口定义的“CPU”和“CPU IERR”在配置文件里面查找对应的注错内容,获取到注错内容后,BMC响应IPMI命令接口定义的“故障触发命令”,将注错内容发送给DCI接口,DCI接口对接受到的注错内容转换为模拟信号发送给CPU的JTAG接口来触发IERR故障。
本发明提供的服务器故障测试方法,通过将注错内容定义集成在BMC系统内,通过IPMI协议使BMC直接发送注错命令到DCI接口来触发服务器故障测试,实现远程测试,可以节省测试成本和时间,提高测试效率。
图2示出了本发明提供的一种服务器故障测试方法的流程示意图,参见图2,该方法包括:
11、在服务器的DCI接口状态为开启状态时,BMC接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;
12、BMC基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;
13、将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障;
24、在预设时间内BMC确定记录到故障告警日志且确定服务器宕机时,确定触发故障成功。
对此,针对步骤24,需要说明的是,由于针对的是服务器故障测试,为此,要确定触发故障是否成功,且服务器是否宕机。如发送完注错命令后,查询BMC是否成功记录故障告警,以及服务器系统是否宕机,循环查询10分钟,若BMC记录到故障告警日志且服务器宕机,说明触发故障成功。
图3示出了本发明提供的一种服务器故障测试方法的流程示意图,参见图3,该方法包括:
11、在服务器的DCI接口状态为开启状态时,BMC接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;
12、BMC基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;
13、将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障;
24、在预设时间内BMC确定记录到故障告警日志且确定服务器宕机时,确定触发故障成功;
35、BMC查询存在新的故障日志文件,确定故障日志文件收集成功,并对新的故障进行解析,并在服务器重启成功后,确定查询存在故障告警的解除日志时,则确定故障测试成功。
对此,需要说明的是,登入BMC系统查询是否产生新的故障日志文件,若产生新的故障日志文件,则BMC收集故障日志成功,下载故障日志进行解析确认是否符合预期。然后给服务器发送下电重启命令,等待服务器重启成功后,查询BMC是否记录故障告警的解除日志,若BMC记录到故障告警的解除日志,则测试成功。需要说明的是,为了便于区分新的故障日志文件,可事先在BMC接收IPMI命令接口之前,BMC清理原有的故障日志文件。
在上述方法的进一步方法中,主要是对注错内容配置文件的配置过程进行解释说明,具体如下:
确定故障部件类型和故障类型;
根据故障部件类型,确定在配置列表中查找到与故障部件类型对应的待选配置数据库;
基于故障部件类型根据配置结构模板及故障类型,创建配置名,并在待选配置数据库中创建子数据库,用于存储配置名对应的注错内容;
当在配置列表中未查找到与故障部件类型对应的待选配置数据库时,构建一新数据库,并基于故障部件类型根据配置结构模板及故障类型,创建配置名,并在新数据库中创建子数据库;
其中,子数据库以配置名进行命名。
对此,需要说明的是,在本发明中,服务器中故障触发的部件类型,比如CPU、内存、PCIE设备等部件,故障部件的故障类型,比如CPU的IERR、配置error故障,内存的UCE、CE故障等。将需搭建的OpenIPC程序和Python环境中OpenIPC程序发送注错命令的功能和Python语言编写的注错内容集成到BMC系统里面,实际上是相当于设置一个数据库,然后将不同故障类型的注错内容分别存储。由此,确定需要配置的故障部件类型,以及该故障部件类型对应的故障类型,然后根据故障部件类型,确定在配置列表中查找到与故障部件类型对应的待选配置数据库。由于一个故障部件类型包括至少一个故障状况,该故障状况为故障类型。故基于故障部件类型根据配置结构模板及故障类型,创建配置名,并在待选配置数据库中创建子数据库,用于存储配置名对应的注错内容。在这里,该配置结构模块如上述提及到的配置文件的格式,定义各个部件类型做为第一层索引,在第一层索引下面继续定义第二层索引,第二层索引为各个部件的故障类型以及对应的注错内容。例如配置名为CPU—CPUIERR。
当在配置列表中未查找到与故障部件类型对应的待选配置数据库时,说明暂时还未配置相关的注错内容,因为需构建一新数据库,并基于故障部件类型根据配置结构模板及故障类型,创建配置名,并在新数据库中创建子数据库,用于存储配置名对应的注错内容。
在本发明中,子数据库以配置名进行命名,便于查询找到注错内容。
下面以CPU IERR故障为例,参见图4,对整个测试过程的具体实施进行解释说明,如下:
第1步:
重启服务器系统,进入BIOS设置界面,修改DCI enable选项的状态为enable,以开启DCI功能,保存设置然后退出BIOS界面等待服务器系统启动完成;然后登录进BMC系统下,清理旧的故障日志文件。
第2步:
按照IPMI命令定义的格式拼接出触发CPU IERR故障告警的完整命令,通过带内或带外的方式发送给BMC;命令发送完成后,在10分钟内每间隔30秒检查BMC是否记录CPUIERR故障的告警日志,以及服务器系统是否发生宕机。若10分钟内BMC没有记录CPU IERR故障的告警日志,或服务器系统没有发生宕机,则测试失败;否则进行下一步。
第3步:
当BMC成功记录到CPU IERR的故障告警日志以及服务系统发生宕机后,登录进BMC系统下,在10分钟内每间隔30秒检查是否产生新的故障日志文件,若没有产生新的故障日志文件,则测试失败;否则进行下一步;
第4步:
当检查到BMC系统下产生新的故障日志文件后,下载到本地进行解析,与注错内容比对是否一致,若不一致,则测试失败;否则进行下一步;
第5步:
对服务器下发power cycle重启命令,此操作会解除CPU IERR故障告警。等待服务器系统重启完成后,检查BMC是否记录CPU IERR故障告警的解除日志;若BMC记录到CPUIERR故障告警的解除日志,则测试成功,否则测试失败。
下面对本发明提供的服务器故障测试装置进行描述,下文描述的服务器故障测试装置与上文描述的服务器故障测试方法可相互对应参照。
图5示出了本发明提供的一种服务器故障测试装置的结构示意图,参见图5,该装置包括接收模块51、获取模块52和发送模块53,其中:
接收模块51,用于在服务器的DCI接口状态为开启状态时,接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;
获取模块52,用于基于IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;
发送模块53,用于将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障。
在上述装置的进一步装置中,该装置还包括确定模块,该确定模块具体用于:
在预设时间内BMC确定记录到故障告警日志且确定服务器宕机时,确定触发故障成功。
在上述装置的进一步装置中,该接收模块在BMC接收IPMI命令接口之前,BMC清理原有的故障日志文件。
在上述装置的进一步装置中,该装置还包括查询模块,该查询模块具体用于:
BMC查询存在新的故障日志文件,确定故障日志文件收集成功,并对新的故障进行解析,并在服务器重启成功后,确定查询存在故障告警的解除日志时,则确定故障测试成功。
在上述装置的进一步装置中,该发送模块具体用于:
响应所述IPMI命令接口的故障触发命令,将获取到的所述注错内容发送给DCI接口。
在上述装置的进一步装置中,该装置还包括存储模块,用于:
确定故障部件类型和故障类型;
根据所述故障部件类型,确定在配置列表中查找到与所述故障部件类型对应的待选配置数据库;
基于所述故障部件类型根据配置结构模板及故障类型,创建配置名,并在所述待选配置数据库中创建子数据库,用于存储所述配置名对应的注错内容;
当在配置列表中未查找到与所述故障部件类型对应的待选配置数据库时,构建一新数据库,并基于所述故障部件类型根据配置结构模板及故障类型,创建配置名,并在所述新数据库中创建子数据库;
其中,所述子数据库以所述配置名进行命名。
在上述装置的进一步装置中,所述注错内容包括ASD注错环境里面Python语言编写的注错内容。
本发明提供的服务器故障测试装置,通过将注错内容定义集成在BMC系统内,通过IPMI协议使BMC直接发送注错命令到DCI接口来触发服务器故障测试,实现远程测试,可以节省测试成本和时间,提高测试效率。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)61、通信接口(Communications Interface)62、存储器(memory)63和通信总线64,其中,处理器61,通信接口62,存储器63通过通信总线64完成相互间的通信。处理器61可以调用存储器63中的逻辑指令,以执行服务器故障测试方法,该方法包括:在服务器的DCI接口状态为开启状态时,接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障。
此外,上述的存储器63中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的服务器故障测试方法,该方法包括:在服务器的DCI接口状态为开启状态时,接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的服务器故障测试方法,该方法包括:在服务器的DCI接口状态为开启状态时,接收IPMI命令接口,IPMI命令接口的参数包括故障部件类型和故障类型;基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于故障部件类型和故障类型的注错内容;将获取到的注错内容发送给DCI接口,以使DCI接口将注错内容转换为模拟信号发送与故障部件类型对应的故障部件的JTAG接口触发与故障类型对应的故障。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种服务器故障测试方法,其特征在于,包括:
在服务器的DCI接口状态为开启状态时,BMC接收IPMI命令接口,所述IPMI命令接口的参数包括故障部件类型和故障类型;
BMC基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于所述故障部件类型和所述故障类型的注错内容;
将获取到的所述注错内容发送给DCI接口,以使所述DCI接口将所述注错内容转换为模拟信号发送与所述故障部件类型对应的故障部件的JTAG接口触发与所述故障类型对应的故障。
2.根据权利要求1所述的服务器故障测试方法,其特征在于,所述方法还包括:
在预设时间内BMC确定记录到故障告警日志且确定服务器宕机时,确定触发故障成功。
3.根据权利要求1所述的服务器故障测试方法,其特征在于,在BMC接收IPMI命令接口之前,所述方法还包括:
BMC清理原有的故障日志文件。
4.根据权利要求2或3所述的服务器故障测试方法,其特征在于,所述方法还包括:
BMC查询存在新的故障日志文件,确定故障日志文件收集成功,并对新的故障进行解析,并在服务器重启成功后,确定查询存在故障告警的解除日志时,则确定故障测试成功。
5.根据权利要求4所述的服务器故障测试方法,其特征在于,所述IPMI命令接口的参数还包括故障触发命令,相应地,将获取到的所述注错内容发送给DCI接口,包括:
响应所述IPMI命令接口的故障触发命令,将获取到的所述注错内容发送给DCI接口。
6.根据权利要求1或5所述的服务器故障测试方法,其特征在于,所述方法还包括:注错内容配置文件的配置步骤,包括:
确定故障部件类型和故障类型;
根据所述故障部件类型,确定在配置列表中查找到与所述故障部件类型对应的待选配置数据库;
基于所述故障部件类型根据配置结构模板及故障类型,创建配置名,并在所述待选配置数据库中创建子数据库,用于存储所述配置名对应的注错内容;
当在配置列表中未查找到与所述故障部件类型对应的待选配置数据库时,构建一新数据库,并基于所述故障部件类型根据配置结构模板及故障类型,创建配置名,并在所述新数据库中创建子数据库;
其中,所述子数据库以所述配置名进行命名。
7.根据权利要求6所述的服务器测试方法,其特征在于,所述注错内容包括ASD注错环境里面Python语言编写的注错内容。
8.一种服务器故障测试装置,其特征在于,包括:
接收模块,用于在服务器的DCI接口状态为开启状态时,接收IPMI命令接口,所述IPMI命令接口的参数包括故障部件类型和故障类型;
获取模块,用于基于所述IPMI命令接口在预存的注错内容配置文件中获取对应于所述故障部件类型和所述故障类型的注错内容;
发送模块,用于将获取到的所述注错内容发送给DCI接口,以使所述DCI接口将所述注错内容转换为模拟信号发送与所述故障部件类型对应的故障部件的JTAG接口触发与所述故障类型对应的故障。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述服务器故障测试方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述服务器故障测试方法。
CN202311431985.9A 2023-10-31 2023-10-31 服务器故障测试方法、装置、电子设备及存储介质 Pending CN117687849A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311431985.9A CN117687849A (zh) 2023-10-31 2023-10-31 服务器故障测试方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311431985.9A CN117687849A (zh) 2023-10-31 2023-10-31 服务器故障测试方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117687849A true CN117687849A (zh) 2024-03-12

Family

ID=90128973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311431985.9A Pending CN117687849A (zh) 2023-10-31 2023-10-31 服务器故障测试方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117687849A (zh)

Similar Documents

Publication Publication Date Title
CN113064747B (zh) 一种服务器启动过程中的故障定位方法、系统及装置
CN110750396B (zh) 一种服务器操作系统兼容性测试方法、装置及存储介质
CN101242260B (zh) 防火墙系统自动修复方法
CN113504932B (zh) 一种固件数据更新方法和装置
CN117687849A (zh) 服务器故障测试方法、装置、电子设备及存储介质
CN112631841A (zh) 一种循环老化测试和数据收集的方法、系统及介质
CN114793196B (zh) 固件升级方法、装置、设备和存储介质
CN116302738A (zh) 一种测试芯片的方法、系统、设备和存储介质
CN114448788A (zh) 一种交换机系统的安装方法、系统、设备以及介质
CN113852502A (zh) 一种智能网卡的故障诊断方法、装置、设备及可读介质
CN111865719A (zh) 一种交换机故障注入自动化测试方法和装置
CN113392006A (zh) 一种使用capsys监控自动化测试日志的方法及设备
CN114281615B (zh) 一种存储数据一致性自动化测试系统及方法
CN113722170B (zh) 一种pfr功能测试方法、装置、设备及可读存储介质
CN116627712A (zh) 服务器内存故障检测方法、装置、电子设备及存储介质
CN113656235B (zh) 一种服务器整机功耗控制测试方法、装置、系统及介质
CN113127281B (zh) 一种aspm测试方法、系统、设备以及存储介质
CN118152164A (zh) 一种ssd故障诊断系统及方法
CN112631868B (zh) 一种CentOS系统的性能监测方法及装置
CN116893928A (zh) 故障内存的监管方法、系统、终端及存储介质
CN116466984A (zh) 固件管理系统及固件版本自动检测刷新方法、设备及介质
CN116489063A (zh) 一种交换机硬件复位监测方法、装置、设备及介质
CN115562927A (zh) 异构服务器稳定性测试方法、装置、电子设备及可读介质
CN116893922A (zh) 一种带PCIe扩展板的服务器上电开机方法及装置
CN117234771A (zh) 故障内存定位方法、系统、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination