CN115292113B - 对服务器的内存进行故障检测方法、装置及电子设备 - Google Patents

对服务器的内存进行故障检测方法、装置及电子设备 Download PDF

Info

Publication number
CN115292113B
CN115292113B CN202211209145.3A CN202211209145A CN115292113B CN 115292113 B CN115292113 B CN 115292113B CN 202211209145 A CN202211209145 A CN 202211209145A CN 115292113 B CN115292113 B CN 115292113B
Authority
CN
China
Prior art keywords
memory
self
fault
check code
code data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211209145.3A
Other languages
English (en)
Other versions
CN115292113A (zh
Inventor
高晓琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Information Technologies Co Ltd filed Critical New H3C Information Technologies Co Ltd
Priority to CN202211209145.3A priority Critical patent/CN115292113B/zh
Publication of CN115292113A publication Critical patent/CN115292113A/zh
Application granted granted Critical
Publication of CN115292113B publication Critical patent/CN115292113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2284Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by power-on test, e.g. power-on self test [POST]

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本申请实施例提供一种对服务器的内存进行故障检测方法、装置及电子设备。在本实施例中,通过接收到的开机自检码数据,在服务器相匹配的自检码解析表中查找与该开机自检码数据对应的故障解析结果,进而确定是否为内存故障,实现服务器的内存故障检测,进而可以帮助用户快速定位设备故障;进一步地,在确定故障解析结果指示内存故障后,还依据故障解析结果和已使用I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型,以便于维修人员尽快根据该具体故障类型修复服务器。

Description

对服务器的内存进行故障检测方法、装置及电子设备
技术领域
本申请涉及故障检测技术领域,尤其涉及一种对服务器的内存进行故障检测方法、装置及电子设备。
背景技术
在网络应用中,针对诸如服务器等网络设备,故障信息的准确上报可以快速、有效定位故障。但是,对于诸如尖端微型设备(Advanced Micro Devices,AMD)服务器等一些设备,在无可用内存的情况下,服务器开机后,BIOS按照被定义的顺序运行,当运行至ABL中时,会因没有可用内存无法运行代码,导致服务器的主机直接挂死并显示黑屏,无法上报任何故障信息。
发明内容
有鉴于此,本申请提供一种对服务器的内存进行故障检测方法、装置及电子设备,以在服务器没有可用内存时,实现对服务器内存故障的检测。
根据本说明书实施例的第一方面,提供一种对服务器的内存进行故障检测方法,该方法应用于管理所述服务器的基板管理控制器BMC,该方法包括:
将所述服务器开机时基于基本输入输出系统BIOS自检程序检测出的故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据;
在与所述服务器相匹配的自检码解析表中查找与所述目标自检码数据对应的故障解析结果;所述自检码解析表包括多个配对的自检码数据与故障解析结果;
若所述故障解析结果指示内存故障,则依据所述故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型。
根据本说明书实施例的第二方面,提供一种对服务器的内存进行故障检测装置,该装置应用于管理所述服务器的基板管理控制器BMC,该装置包括:
目标自检码数据获得模块,用于将所述服务器开机时基于基本输入输出系统BIOS自检程序检测出的故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据;
查找模块,用于在与所述服务器相匹配的自检码解析表中查找与所述目标自检码数据对应的故障解析结果;所述自检码解析表包括多个配对的自检码数据与故障解析结果;
故障类型确定模块,用于若所述故障解析结果指示内存故障,则依据所述故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型。
根据本说明书实施例的第三方面,提供一种电子设备,电子设备包括:处理器和存储器;其中,所述存储器,用于存储机器可执行指令;所述处理器,用于读取并执行所述存储器存储的机器可执行指令,以实现如第一方面的方法的步骤。
在本实施例中,通过接收到的开机自检码数据,在服务器相匹配的自检码解析表中查找与该开机自检码数据对应的故障解析结果,进而确定是否为内存故障,实现服务器的内存故障检测,进而可以帮助用户快速定位设备故障;
进一步地,在确定故障解析结果指示内存故障后,还依据故障解析结果和已使用I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型,以便于维修人员尽快根据该具体故障类型修复服务器。
附图说明
图1是本申请实施例提供的方法流程图。
图2是本申请实施例提供的目标自检码数据获得流程图。
图3是本申请实施例提供的自检码解析表的一个示例图。
图4是本申请实施例提供的具体故障类型确定流程图。
图5是本申请实施例提供的目标自检码数据解析示例图。
图6是本申请实施例提供的装置图。
图7是本申请实施例装置硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
接下来对本申请实施例进行详细说明。
参见图1,图1为本申请实施例提供的方法流程图。该方法应用于管理服务器的基板管理控制器BMC,这里,BMC为独立于服务器的一个组件,其与该服务器通信连接。如图1所示,该流程可包括以下步骤:
S110:将服务器开机时基于BIOS自检程序检测出的故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据。
示例性地,在本申请实施例中,这里的服务器可以为多种,例如,X86架构下的AMD服务器,ARM架构下的ARM通用服务器,等等。本申请实施例并不具体限定。
示例性地,基本输入输出系统(Basic Input Output System,BIOS)为服务器开机时运行的第一个程序,即在服务器开机时,先运行BIOS程序,由BIOS程序进行自检,得到初始自检码数据。这里的初始自检码数据可以包括:内存数据、CPU数据,等等。本申请实施例并不具体限定。
示例性地,BMC内核态和BMC用户态为BMC的两个运行状态。其中,BMC内核态可以访问任意的数据,包括外围设备,比如网卡、硬盘等;BMC用户态只能受限的访问服务器的,并且不允许访问外围设备。
示例性地,在本实施例中,目标自检码数据为对初始自检码数据进行处理得到的。至于如何将所述服务器开机时基于BIOS自检程序检测出的故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据可参见图2所示流程的描述,这里暂不赘述。
S120:在与服务器相匹配的自检码解析表中查找与目标自检码数据对应的故障解析结果;自检码解析表包括多个配对的自检码数据与故障解析结果。
示例性地,在本实施例中,自检码解析表中至少存储有配对的目标自检码数据和故障解析结果,其以XML的形式进行存储。如图3所示,每个目标自检码数据都会对应一个故障解析内容,例如,对于目标自检码数据E310,其对应的解析内容为无内存(No Dimms onAny Channel)。
示例性地,在本实施例中,该自检码解析表是提前配置好的,具体地,可以根据服务器所使用的CPU型号进行设置,不同的CPU型号配置不同的自检码解析表,同一CPU型号对应同一自检码解析表。
示例性地,以服务器为AMD服务器为例,对于AMD服务器,上述CPU型号可以包括Rome、Genoa、Milan,等等。本申请实施例并不具体限定。
在本申请实施例中,BMC通过Redfish接口获取当前服务器使用的CPU的型号,然后根据该CPU型号确定相匹配的自检码解析表。
示例性地,在服务器相匹配的自检码解析表中查找与目标自检码数据对应的故障解析结果具体可以为:以目标自检码数据为关键字,在服务器相匹配的自检码解析表中查找与该关键字对应的故障解析结果。
S130:若故障解析结果指示内存故障,则依据故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型。
示例性地,在本实施例中,内存故障的具体故障类型可以包括:未安装内存、内存故障,内存安装未到位、内存插法错误,等等。本申请实施例对此并不作具体限定。
示例性地,当依据故障解析结果确定出属于内存故障时,为了方便维修人员进行维修,还需要进一步确定内存故障的具体故障类型。具体如何基于故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型可参见下图4所示流程的描述,这里暂不赘述。
作为本申请一个实施例,当依据故障解析结果指示为非内存故障,则确定非内存故障引起的服务器故障,则需要考虑其他部件故障,这里,其他部件例如可以为,CPU或者主板链路等等。
至此,完成图1所示流程。
通过图1流程可以看出,本申请实施例中,通过接收到的开机自检码时,在服务器相匹配的自检码解析表中查找与该开机自检码对应的故障解析结果,进而确定是否为内存故障,实现服务器的内存故障检测,进而可以帮助用户快速定位设备故障;
进一步地,在确定故障解析结果指示内存故障后,还依据故障解析结果和已使用I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型,以便于维修人员尽快根据该具体故障类型修复服务器。
参见图2,图2为本申请实施例提供的目标自检码数据获得流程图。如图2所示,该流程可包括如下步骤:
S210:通过BMC内核态中第一内核地址接收并存放服务器开机时基于BIOS自检程序检测出的故障对应的初始自检码数据;BIOS通过第一指定接口传送初始自检码数据至第一内核地址。
示例性地,在本实施例中,上述第一指定接口可以为80端口,本申请实施例并不具体限定。
在执行本步骤S210之前,向地址0x90中写入监听地址0x00810080,该监听地址0x00810080的高四位0081表示对81端口进行监听;低四位0080表示对80端口进行监听。
作为本申请一个实施例,使能监听80端口和81端口均可以用2个字节表示,例如,0表示不使能,也就是不开启监听;1表示使能,也就是开启监听。
示例性地,在本实施例中,只需要通过端口80发送初始自检码数据,因此只需要提前使能80端口的监听功能即可。
示例性地,上述第一内核地址可以为0x94,具体地,低四位可以用于存储本次发送的数据,高四位可以用于存储上一次发送的数据。本申请实施例并不具体限定。
S220:在BMC内核中,对初始自检码数据进行判断,若初始自检码数据为不满足指定要求的数据,则对初始自检码数据进行字节补充处理,以使初始自检码数据转换为满足指定要求的数据,并将处理后的数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的该处理后的数据确定为目标自检码数据,否则,将初始自检码数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的初始自检码数据确定为目标自检码数据。
示例性地,在执行本步骤S220之前,当通过0x84监听到有数据过来时,从上述第一内核地址读取本次接收到的初始自检码数据,然后对初始自检码数据进行判断。
示例性地,在本实施例中,上述指定要求可以为初始自检码数据为80中断还是8081中断。本申请实施例并不作具体限定。
其中,80中断为一字节数据,8081中断为两字节数据。在本实施例中,当初始自检码数据为不满足指定要求的数据时,也即当初始自检码数据为一字节数据时,对初始自检码数据进行字节补充处理,具体地,在该一字节数据的高位补0,得到2字节数据。作为一个实施例,目标自检码数据=初始自检码数据&0x00ff。将在BMC用户态接收到的该处理后的数据确定为目标自检码数据。
当初始自检码数据为满足指定要求的数据时,也即当初始自检码数据为两字节数据时,直接将在BMC用户态接收到的初始自检码数据确定为目标自检码数据。
本申请实施例通过对接收到的初始自检码数据进行字节统一处理,使得得到目标自检码数据的字节数是统一的,便于后续处理。
示例性地,BMC用户态接收到目标自检码数据后,对该目标自检码数据进行解析,将解析后的信息存储到数据库和SD卡中。
图5是本申请实施例提供的目标自检码数据解析示意图,其中,第一列数据和第二列数据表征接收到目标自检码数据的时间;第三列表示本次开机过程中接收到的第几个目标自检码数据;第四列表示目标自检码数据对应的数值;第五列表示解析结果。
在本实施例中,在执行本步骤S220之前,在BMC用户态预先创建一个监听功能,使能该监听功能,监听从BMC内核态发送的数据。
至此,完成图2所示流程的描述。
通过图2流程实现了目标自检码数据确定。
参见图4,图4为本申请实施例提供的具体故障类型确定流程图。如图4所示,该流程可包括如下步骤:
S310:获得通过使用I2C扫描插槽上的内存在位情况。
示例性地,在本实施例中,使用I2C扫描插槽上的内存在位情况可以为持续性扫描,当确定出故障解析结果指示内存故障后获取扫描的内存在位情况;还可以为当确定出故障解析结果指示内存故障后再利用I2C扫描,获得扫描的内存在位情况。本申请实施例对I2C扫描的时机并不作具体限定。
这里,使用I2C扫描插槽上的内存在位情况为常规技术,在此不再赘述。
示例性地,在本实施例中,插槽上的内存在位情况可以包括:内存在位、内存不在位,等等,本申请实施例并不具体限定。
S320:若故障解析结果为无内存No Dimms on Any Channel的故障,则当内存在位情况为:通过使用I2C扫描到插槽上的内存在位,则确定内存故障的具体故障类型为内存安装未到位;当内存在位情况为:通过使用I2C未扫描到插槽上的内存在位,则确定内存故障的具体故障类型为服务器上无内存。
示例性地,I2C扫描到插槽上的内存在位情况可以包括:内存在位、内存不在位等等。本申请实施例并不具体限定。
当通过使用I2C扫描到插槽上的内存在位,则确定内存故障的具体故障类型为内存安装未到位;当内存在位情况为:通过使用I2C未扫描到插槽上的内存在位,则确定内存故障的具体故障类型为服务器上无内存。
S330:若故障解析结果为无可用内容No Memory Available,则当内存在位情况为:通过使用I2C扫描到插槽上的内存在位时,当内存在位情况符合内存插法规则,确定内存故障的具体故障类型为在位内存全部故障;当内存在位情况不符合内存插法规则,确定内存故障的具体故障类型为内存插法错误。
示例性地,上述内存插法规则是提前定义好的。当使用I2C扫描到插槽上的内存在位时,比对内存在位情况是否符合内存插法规则,若符合,确定内存故障的具体故障类型为在位内存全部故障,否则确定内存故障的具体故障类型为内存插法错误。
至此,完成图4所示流程的描述。
通过图4流程实现了内存故障的具体故障类型的确定流程。
作为本申请实施例一个可选实施方式,该掉电保护方法进一步包括:
将确定出的内存故障的具体故障类型通过日志的方式上报至目标终端以通过目标终端显示具体故障类型并指示根据该内存故障的具体故障类型对服务器的内存进行维修。
示例性地,在本实施例中,将具体故障类型上报至目标终端可以有很多种方法,例如可以为通过有线网络方式上报,也可以通过无线网络方式上报,本申请实施例对此并不作具体限定,可以根据目标终端与BMC的连接方式确定。
示例性地,这里的目标终端可以为BMC所在终端,也可以为其他终端。本申请实施例并不具体限定。
在本实施例中,将具体故障类型上报至目标终端进行显示,以便于使用该目标终端的维修人员根据该内存故障的具体故障类型对服务器的内存进行维修。
与前述方法的实施例相对应,本说明书还提供了装置及其所应用的终端的实施例。
如图6所示,图6是本说明书根据一示例性实施例示出的一种对服务器的内存进行故障检测装置的框图,该装置应用于管理服务器的基板管理控制器BMC,该对服务器的内存进行故障检测装置包括:
目标自检码数据获得模块,用于将服务器开机时基于基本输入输出系统BIOS自检程序检测出的故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据;
查找模块,用于在与服务器相匹配的自检码解析表中查找与目标自检码数据对应的故障解析结果;自检码解析表包括多个配对的自检码数据与故障解析结果;
故障类型确定模块,用于若故障解析结果指示内存故障,则依据故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型。
作为本申请实施例一个可选实施方式,上述目标自检码数据获得模块具体用于:
通过BMC内核态中第一内核地址接收并存放服务器开机时基于BIOS自检程序检测出的故障对应的初始自检码数据;BIOS通过第一指定接口传送初始自检码数据至第一内核地址;
在BMC内核中,对初始自检码数据进行判断,若初始自检码数据为不满足指定要求的数据,则对初始自检码数据进行字节补充处理,以使初始自检码数据转换为满足指定要求的数据,并将处理后的数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的该处理后的数据确定为目标自检码数据,否则,将初始自检码数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的初始自检码数据确定为目标自检码数据。
作为本申请实施例一个可选实施方式,服务器相匹配的自检码解析表是基于服务器中CPU确定的,同一CPU型号对应同一自检码解析表。
作为本申请实施例一个可选实施方式,上述故障类型确定模块具体用于:
获得通过使用I2C扫描插槽上的内存在位情况;
若故障解析结果为无内存No Dimms on Any Channel的故障,则当内存在位情况为:通过使用I2C扫描到插槽上的内存在位,则确定内存故障的具体故障类型为内存安装未到位;当内存在位情况为:通过使用I2C未扫描到插槽上的内存在位,则确定内存故障的具体故障类型为服务器上无内存;
若故障解析结果为无可用内存No Memory Available,则当内存在位情况为:通过使用I2C扫描到插槽上的内存在位时,当内存在位情况符合内存插法规则,确定内存故障的具体故障类型为在位内存全部故障;当内存在位情况不符合内存插法规则,确定内存故障的具体故障类型为内存插法错误。
作为本申请实施例一个可选实施方式,该对服务器的内存进行故障检测装置还包括:
日志上报模块,用于将确定出的内存故障的具体故障类型通过日志的方式上报至目标终端以通过目标终端显示具体故障类型并指示根据该内存故障的具体故障类型对服务器的内存进行维修。
作为本申请实施例一个可选实施方式,该对服务器的内存进行故障检测还包括:
非内存故障确定模块,用于若故障解析结果指示为非内存故障,则确定非内存故障引起的服务器故障。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
至此,完成图6所示装置的描述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
对应地,本申请实施例还提供了图6所示装置的硬件结构图,具体如图7所示,该电子设备可以为上述实施方法的设备。如图7所示,该硬件结构包括:处理器和存储器。
其中,所述存储器,用于存储机器可执行指令;
所述处理器,用于读取并执行所述存储器存储的机器可执行指令,以实现如上所示的所对应的对服务器的内存进行故障检测的方法实施例。
作为一个实施例,存储器可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,存储器可以是:易失存储器、非易失性存储器或者类似的存储介质。具体地,存储器可以是RAM(Radom Access Memory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。
至此,完成图7所示电子设备的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (10)

1.一种对服务器的内存进行故障检测方法,其特征在于,该方法应用于管理服务器的基板管理控制器BMC,该方法包括:
将所述服务器开机时基于基本输入输出系统BIOS自检程序检测出的故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据;
在与所述服务器相匹配的自检码解析表中查找与所述目标自检码数据对应的故障解析结果;所述自检码解析表包括多个配对的自检码数据与故障解析结果;
若所述故障解析结果指示内存故障,则依据所述故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型。
2.根据权利要求1所述的方法,其特征在于,所述将所述服务器开机时基于基本输入输出系统BIOS自检程序检测出的内存故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据,包括:
通过BMC内核态中第一内核地址接收并存放所述服务器开机时基于BIOS自检程序检测出的故障对应的初始自检码数据;所述BIOS通过第一指定接口传送初始自检码数据至所述第一内核地址;
在所述BMC内核中,对所述初始自检码数据进行判断,若所述初始自检码数据为不满足指定要求的数据,则对所述初始自检码数据进行字节补充处理,以使初始自检码数据转换为满足所述指定要求的数据,并将处理后的数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的该处理后的数据确定为所述目标自检码数据,否则,将所述初始自检码数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的所述初始自检码数据确定为所述目标自检码数据。
3.根据权利要求1所述的方法,其特征在于,
所述服务器相匹配的自检码解析表是基于所述服务器中CPU确定的,同一CPU型号对应同一自检码解析表。
4.根据权利要求1所述的方法,其特征在于,若所述故障解析结果指示内存故障,则依据所述故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型,包括:
获得通过使用I2C扫描插槽上的内存在位情况;
若所述故障解析结果为无内存No Dimms on Any Channel的故障,则当所述内存在位情况为:通过使用I2C扫描到插槽上的内存在位,则确定内存故障的具体故障类型为内存安装未到位;当所述内存在位情况为:通过使用I2C未扫描到插槽上的内存在位,则确定内存故障的具体故障类型为所述服务器上无内存;
若所述故障解析结果为无可用内存No Memory Available,则当所述内存在位情况为:通过使用I2C扫描到插槽上的内存在位时,当所述内存在位情况符合内存插法规则,确定内存故障的具体故障类型为在位内存全部故障;当所述内存在位情况不符合所述内存插法规则,确定内存故障的具体故障类型为内存插法错误。
5.根据权利要求1或4所述的方法,其特征在于,该方法进一步包括:
将确定出的内存故障的具体故障类型通过日志的方式上报至目标终端以通过所述目标终端显示所述具体故障类型并指示根据该内存故障的具体故障类型对所述服务器的内存进行维修。
6.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
若所述故障解析结果指示为非内存故障,则确定非内存故障引起的服务器故障。
7.一种对服务器的内存进行故障检测装置,其特征在于,该装置应用于管理服务器的基板管理控制器BMC,该装置包括:
目标自检码数据获得模块,用于将所述服务器开机时基于基本输入输出系统BIOS自检程序检测出的故障对应的初始自检码数据从BMC内核态变换至BMC用户态,得到目标自检码数据;
查找模块,用于在与所述服务器相匹配的自检码解析表中查找与所述目标自检码数据对应的故障解析结果;所述自检码解析表包括多个配对的自检码数据与故障解析结果;
故障类型确定模块,用于若所述故障解析结果指示内存故障,则依据所述故障解析结果和已使用串行通讯总线I2C扫描插槽上的内存在位情况,确定内存故障的具体故障类型。
8.根据权利要求7所述的装置,其特征在于,所述目标自检码数据获得模块具体用于:
通过BMC内核态中第一内核地址接收并存放所述服务器开机时基于BIOS自检程序检测出的故障对应的初始自检码数据;所述BIOS通过第一指定接口传送初始自检码数据至所述第一内核地址;
在所述BMC内核中,对所述初始自检码数据进行判断,若所述初始自检码数据为不满足指定要求的数据,则对所述初始自检码数据进行字节补充处理,以使初始自检码数据转换为满足所述指定要求的数据,并将处理后的数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的该处理后的数据确定为所述目标自检码数据,否则,将所述初始自检码数据从BMC内核态发送至BMC用户态,将在BMC用户态接收到的所述初始自检码数据确定为所述目标自检码数据。
9.根据权利要求7所述的装置,其特征在于,
所述服务器相匹配的自检码解析表是基于所述服务器中CPU确定的,同一CPU型号对应同一自检码解析表。
10.一种电子设备,其特征在于,电子设备包括:处理器和存储器;
其中,所述存储器,用于存储机器可执行指令;
所述处理器,用于读取并执行所述存储器存储的机器可执行指令,以实现如权利要求1至6任一方法的步骤。
CN202211209145.3A 2022-09-30 2022-09-30 对服务器的内存进行故障检测方法、装置及电子设备 Active CN115292113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211209145.3A CN115292113B (zh) 2022-09-30 2022-09-30 对服务器的内存进行故障检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211209145.3A CN115292113B (zh) 2022-09-30 2022-09-30 对服务器的内存进行故障检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN115292113A CN115292113A (zh) 2022-11-04
CN115292113B true CN115292113B (zh) 2023-01-06

Family

ID=83833994

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211209145.3A Active CN115292113B (zh) 2022-09-30 2022-09-30 对服务器的内存进行故障检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115292113B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095032A (zh) * 2015-08-14 2015-11-25 浪潮电子信息产业股份有限公司 一种快速定位故障内存条的检测装置和方法
CN106383763A (zh) * 2016-05-30 2017-02-08 徐克� 数据中心智能故障检测报警系统
CN107066362A (zh) * 2017-04-18 2017-08-18 深圳市同泰怡信息技术有限公司 一种自动处理故障内存条的方法
CN109284218A (zh) * 2018-09-28 2019-01-29 郑州云海信息技术有限公司 一种检测服务器运行故障的方法及其装置
CN109976959A (zh) * 2019-03-27 2019-07-05 苏州浪潮智能科技有限公司 一种用于服务器故障检测的便携式设备及方法
CN111143132A (zh) * 2019-12-30 2020-05-12 山东英信计算机技术有限公司 一种bios恢复方法、装置、设备及可读存储介质
CN112241346A (zh) * 2020-10-23 2021-01-19 浪潮电子信息产业股份有限公司 对bios内存故障检测能力的测试方法、装置及系统
CN113742123A (zh) * 2021-08-20 2021-12-03 新华三技术有限公司合肥分公司 内存故障信息记录方法及设备
CN113752887A (zh) * 2020-06-02 2021-12-07 车主邦(北京)科技有限公司 一种故障处理方法及系统
CN113868058A (zh) * 2021-09-28 2021-12-31 新华三技术有限公司 一种外设组件高速互联设备故障检测方法、装置及服务器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9094839B2 (en) * 2012-03-13 2015-07-28 Verizon Patent And Licensing Inc. Evolved packet core (EPC) network error mapping
CN105204968B (zh) * 2015-11-10 2019-05-10 浪潮(北京)电子信息产业有限公司 一种故障内存检测方法和装置
CN110046061A (zh) * 2019-03-01 2019-07-23 华为技术有限公司 内存错误处理方法和装置
CN110489259B (zh) * 2019-07-29 2023-03-24 深圳中电长城信息安全系统有限公司 一种内存故障检测方法及设备
CN111930553B (zh) * 2020-07-15 2022-05-20 烽火通信科技股份有限公司 一种服务器内存故障预警方法及系统
CN111984488B (zh) * 2020-09-27 2022-08-05 苏州浪潮智能科技有限公司 一种内存故障检测方法、装置、电子设备及可读存储介质
CN113010341A (zh) * 2021-03-12 2021-06-22 山东英信计算机技术有限公司 一种故障内存定位的方法和设备
CN113608903A (zh) * 2021-06-21 2021-11-05 天津津航计算技术研究所 一种基于xml语言的故障管理方法
CN114461476B (zh) * 2022-02-14 2023-09-26 深圳源创存储科技有限公司 一种内存条故障检测方法、装置及系统
CN114691409A (zh) * 2022-04-18 2022-07-01 阿里巴巴(中国)有限公司 内存故障处理方法及装置
CN114816822A (zh) * 2022-05-07 2022-07-29 宝德计算机系统股份有限公司 一种基于内存故障的服务器管理方法、装置以及系统
CN114968652A (zh) * 2022-07-09 2022-08-30 超聚变数字技术有限公司 故障处理方法及计算设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095032A (zh) * 2015-08-14 2015-11-25 浪潮电子信息产业股份有限公司 一种快速定位故障内存条的检测装置和方法
CN106383763A (zh) * 2016-05-30 2017-02-08 徐克� 数据中心智能故障检测报警系统
CN107066362A (zh) * 2017-04-18 2017-08-18 深圳市同泰怡信息技术有限公司 一种自动处理故障内存条的方法
CN109284218A (zh) * 2018-09-28 2019-01-29 郑州云海信息技术有限公司 一种检测服务器运行故障的方法及其装置
CN109976959A (zh) * 2019-03-27 2019-07-05 苏州浪潮智能科技有限公司 一种用于服务器故障检测的便携式设备及方法
CN111143132A (zh) * 2019-12-30 2020-05-12 山东英信计算机技术有限公司 一种bios恢复方法、装置、设备及可读存储介质
CN113752887A (zh) * 2020-06-02 2021-12-07 车主邦(北京)科技有限公司 一种故障处理方法及系统
CN112241346A (zh) * 2020-10-23 2021-01-19 浪潮电子信息产业股份有限公司 对bios内存故障检测能力的测试方法、装置及系统
CN113742123A (zh) * 2021-08-20 2021-12-03 新华三技术有限公司合肥分公司 内存故障信息记录方法及设备
CN113868058A (zh) * 2021-09-28 2021-12-31 新华三技术有限公司 一种外设组件高速互联设备故障检测方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
排查服务器内存异常故障;刘进京;《网络安全和信息化》;20191205(第12期);全文 *

Also Published As

Publication number Publication date
CN115292113A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
US7565579B2 (en) Post (power on self test) debug system and method
US11509505B2 (en) Method and apparatus for operating smart network interface card
CN109558282B (zh) 一种pcie链路检测方法、系统及电子设备和存储介质
EP2472402B1 (en) Remote management systems and methods for mapping operating system and management controller located in a server
CN110716878B (zh) 一种接口自动化测试方法、装置及系统
CN105183575A (zh) 处理器故障的诊断方法、装置及系统
CN111694687A (zh) 一种车辆软件故障检测方法、装置、设备及存储介质
CN112269713A (zh) 一种程序运行状态的获取方法、装置、设备及存储介质
CN113868058A (zh) 一种外设组件高速互联设备故障检测方法、装置及服务器
CN115292113B (zh) 对服务器的内存进行故障检测方法、装置及电子设备
TW201516665A (zh) 伺服器之系統錯誤資訊偵測系統及方法
US20180336171A1 (en) System and method for constructing extensible event log with javascript object notation (json) encoded payload data
CN115629825B (zh) 一种服务器及其资产信息获取方法、提供方法和装置
US6629240B1 (en) Method for monitoring system boot by searching a temporary buffer for BIOS message
CN104182290A (zh) 除错装置及除错方法
CN113572826B (zh) 一种设备信息绑定方法、系统及电子设备
CN100369009C (zh) 使用系统管理中断信号的监控系统及方法
CN112953788A (zh) 一种网络状态检测方法、装置、bmc及存储介质
CN111290920B (zh) 基于peci总线测试cpu温度的系统、方法及存储介质
CN117055718B (zh) 一种服务器功耗检测系统、方法、装置、设备和存储介质
JP2002278798A (ja) 障害監視装置及びその方法並びに記憶媒体
CN118193269A (zh) 一种服务器宕机故障位置获取方法、装置及程序产品
CN111045899B (zh) 在计算机系统开机自检的早期显示bios信息的方法
CN115640236A (zh) 一种脚本质量的检测方法及计算设备
WO2017131636A1 (en) Utilizing non-volatile phase change memory in offline status and error debugging methodologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant