CN117687821A - 高速缓冲存储器坏块的处理方法、装置和电子设备 - Google Patents

高速缓冲存储器坏块的处理方法、装置和电子设备 Download PDF

Info

Publication number
CN117687821A
CN117687821A CN202311433349.XA CN202311433349A CN117687821A CN 117687821 A CN117687821 A CN 117687821A CN 202311433349 A CN202311433349 A CN 202311433349A CN 117687821 A CN117687821 A CN 117687821A
Authority
CN
China
Prior art keywords
bad
bad blocks
preset threshold
bios
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311433349.XA
Other languages
English (en)
Inventor
程超
周春芬
邓星玥
曾裕文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311433349.XA priority Critical patent/CN117687821A/zh
Publication of CN117687821A publication Critical patent/CN117687821A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种高速缓冲存储器坏块的处理方法、装置和电子设备,属于计算机技术领域,其中,所述方法包括:启动基本输入输出系统BIOS;在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器进行检测,得到检测数据,并对检测数据进行解析,得到解析数据;基于解析数据判断三级高速缓冲存储器中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离。本发明能够有效避免服务器故障,保障服务器的持续稳定运行,提高了服务器的可靠性,降低了服务器的维护成本,提高了用户体验。

Description

高速缓冲存储器坏块的处理方法、装置和电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种高速缓冲存储器坏块的处理方法、装置和电子设备。
背景技术
随着数字经济与科学技术的不断发展,各行各业对服务器的使用和依赖程度逐渐增加。服务器的中央处理器(Central Processing Unit,CPU)运行时,需要频繁地从CPU的三级高速缓冲存储器L3 cache中存取数据。目前,服务器长期运行后,三级高速缓冲存储器L3 cache中可能会出现单个或者多个坏块,容易引发多种故障现象,且各种故障现象往往不可稳定复现,需要专业的技术人员到故障现场对服务器故障进行排查分析,故障问题定位的难度较大,服务器维护成本较高,影响用户体验。
发明内容
本发明提供一种高速缓冲存储器坏块的处理方法、装置和电子设备,用以解决相关技术中高速缓冲存储器产生坏块易引发服务器故障,故障问题定位的难度大,用户体验较差,服务器维护成本较高的缺陷。
第一方面,本发明提供一种高速缓冲存储器坏块的处理方法,包括:
启动基本输入输出系统BIOS;
在所述BIOS的启动为冷启动的情况下,通过所述BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对所述检测数据进行解析,得到解析数据;
基于所述解析数据判断所述三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定所述坏块的数量是否超过预设阈值,在所述坏块的数量超过预设阈值的情况下,进行告警,在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离。
在一些实施例中,所述通过所述BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,包括:
通过所述BIOS,启动存储器内建自测试MBIST程序;
执行所述MBIST程序,以对所述服务器的中央处理器的三级高速缓冲存储器L3cache进行检测。
在一些实施例中,所述确定所述坏块的数量是否超过预设阈值,在所述坏块的数量超过预设阈值的情况下,进行告警,包括:
基于所述解析数据,得到所述坏块的数量和编号;
在所述坏块的数量超过预设阈值的情况下,生成坏块告警信息,其中所述坏块告警信息包括:所述坏块的数量、所述预设阈值和所述坏块的编号;
显示所述坏块告警信息,和/或,将所述坏块告警信息发送至所述服务器的基板管理控制器BMC。
在一些实施例中,所述在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离,包括:
通过所述BIOS,启动坏块隔离程序;
执行所述坏块隔离程序,以对所述坏块进行隔离。
在一些实施例中,所述对所述坏块进行隔离之后,还包括:
基于系统管理统一规范SMBIOS,将所述坏块的编号发送至操作系统。
在一些实施例中,所述在所述坏块的数量超过预设阈值的情况下,进行告警,在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离,包括:
基于所述解析数据,得到所述坏块的数量和编号;
在所述坏块的数量超过预设阈值的情况下:
生成坏块告警信息,其中所述坏块告警信息包括:所述坏块的数量、所述预设阈值和所述坏块的编号;
显示所述坏块告警信息,和/或,将所述坏块告警信息发送至所述服务器的基板管理控制器BMC;
在所述坏块的数量未超过预设阈值的情况下:
通过所述BIOS,启动坏块隔离程序;
执行所述坏块隔离程序,以对所述坏块进行隔离;
基于系统管理统一规范SMBIOS,将所述坏块的编号发送至操作系统。
第二方面,本发明还提供一种高速缓冲存储器坏块的处理装置,包括:
启动单元,用于启动基本输入输出系统BIOS;
检测单元,用于在所述BIOS的启动为冷启动的情况下,通过所述BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对所述检测数据进行解析,得到解析数据;
处理单元,用于基于所述解析数据判断所述三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定所述坏块的数量是否超过预设阈值,在所述坏块的数量超过预设阈值的情况下,进行告警,在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述高速缓冲存储器坏块的处理方法。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述高速缓冲存储器坏块的处理方法。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述高速缓冲存储器坏块的处理方法。
本发明提供的一种高速缓冲存储器坏块的处理方法,通过启动基本输入输出系统BIOS,在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据,基于解析数据判断三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离,能够有效避免服务器故障,保障服务器的持续稳定运行,提高了服务器的可靠性、可用性和可服务性,降低了服务器的维护成本,提高了用户体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的高速缓冲存储器坏块的处理方法的流程示意图之一;
图2是本发明实施例提供的高速缓冲存储器坏块的处理方法的流程示意图之二;
图3是本发明实施例提供的高速缓冲存储器坏块的处理装置的结构示意图;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联对象是一种“或”的关系。
随着数字经济与科学技术的不断发展,金融、银行、通信、航天、科研、制造等多个领域对服务器的使用和依赖程度逐渐增加。很多企业对服务器的持续可靠运行,有很高的要求,典型的如银行、互联网、通信、医疗等领域,一旦服务器长时间宕机或者发生运行故障,除了造成客户业务受阻,还有可能造成客户业务数据积压和流失,引发数据安全问题。
三级高速缓冲存储器L3 cache产生坏块后,CPU从坏块存取数据时可能失败,此时直接引发CPU异常或者宕机,CPU从坏块读取数据也可能成功,但是读取到的数据是错误的。如果CPU将从坏块读取到的错误数据直接应用于运行程序,则有可能造成CPU发生异常或者宕机。如果CPU将从坏块读取到的错误数据,转发给网卡或者其他设备,则有可能造成网卡等设备运行故障。目前,当三级高速缓冲存储器L3 cache产生坏块后,可能会引发多种故障现象,且各种故障现象往往不能稳定复现,需要专业的技术人员到故障现场进行故障分析和定位,故障问题定位的难度大、成本高;在确认故障原因为三级高速缓冲存储器L3 cache产生坏块的情况下,通常需要通过更换服务器上的CPU来解决故障问题,维护成本较高;此外,故障处理耗费的时间较长,期间可能会造成业务中断,影响用户使用体验。
为此,本发明实施例提供了一种高速缓冲存储器坏块的处理方法,通过启动基本输入输出系统BIOS,在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据,基于解析数据判断三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离。本发明能够有效避免服务器故障,保障服务器的持续稳定运行,提高了服务器的可靠性、可用性和可服务性,降低了服务器的维护成本,提高了用户体验。
图1为本发明实施例提供的高速缓冲存储器坏块的处理方法的流程示意图之一。如图1所示,提供了一种高速缓冲存储器坏块的处理方法,包括以下步骤:步骤110、步骤120、步骤130。该方法流程步骤仅仅作为本发明一个可能的实现方式。
步骤110、启动基本输入输出系统BIOS。
其中,基本输入输出系统(Basic Input/Output System,BIOS)是一种固化在计算机主板上的固件程序,BIOS保存有计算机最重要的基本输入输出程序、开机后自检程序和系统自启动程序,BIOS的主要功能是为计算机提供最底层的、最直接的硬件设置和控制。
可选地,启动BIOS包括开机、电源自检、显示BIOS屏幕、进入BIOS设置界面等步骤。
步骤120、在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据。
需要说明的是,冷启动是指从服务器完全关闭的状态下重新启动;可以通过BIOS自检信息、时间戳、电源灯状态、系统日志等多种方式来判断BIOS启动是否是冷启动。
例如,有的寄存器里面存储的数据,掉电会丢失,寄存器存储的数据默认值是0;BIOS启动时,从寄存器读取值,如果是0,说明是冷启动;然后BIOS往寄存器里面写1;之后如果热重启,机器没有掉电,寄存器里面保存的值还是1,BIOS再次从寄存器里面读到的值就是1,说明是热启动。
在一些实施例中,高速缓冲存储器为三级高速缓冲存储器L3cache。
其中L3 cache由多个L3 cache块组成,容量大,速率慢。
可选地,可以采用缓存压力测试程序,通过向三级高速缓冲存储器L3 cache中不断写入和读取大量数据,以测试三级高速缓冲存储器L3 cache的读写性能和稳定性;也可以采用缓存命中率测试程序,通过模拟实际应用场景中的内存访问模式,来评估三级高速缓冲存储器L3 cache缓存的命中率;还可以采用缓存误差检测测试程序检测三级高速缓冲存储器L3 cache在缓存中可能存在的错误。
其中,检测数据包含三级高速缓冲存储器L3 cache的各项性能指标和状态信息,例如缓存容量、缓存稳定性、缓存一致性、缓存命中率、缓存错误率、读写性能等。
可选地,得到检测数据之后,还包括:
将检测数据存储在服务器的非易失性存储器中;
对检测数据进行解析之前,还包括:
从非易失性存储器中读取检测数据。
其中,非易失性存储器是指在断电、重启等极端情况下依然能保持数据存储的一类存储器,例如闪存Flash。
可以理解的是,通过将检测数据存储在服务器的非易失性存储器中,可以防止检测数据丢失。
可选地,对检测数据进行解析包括:确定检测数据的格式和结构;基于检测数据的格式对检测数据的每个字段进行解析,得到原始解析数据;对原始解析数据进行转换和计算,得到解析数据。
可选地,还可以对解析数据进行可视化处理,生成图表、图像或报告,使数据更具可读性和可理解性。
步骤130、基于解析数据判断三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离。
可选地,可以基于CPU的高速缓冲存储器的检测要求确定预设阈值,也可以基于CPU的三级高速缓冲存储器L3 cache的历史检测数据确定预设阈值,还可以基于用户需求或用户输入信息确定预设阈值。
可选地,可以基于解析数据,比较从三级高速缓冲存储器L3cache中读取的数据与写入的数据的一致性,如果读取的数据与写入的数据不一致,则判定三级高速缓冲存储器L3 cache中出现了坏块。
可以理解的是,在坏块的数量超过预设阈值的情况下,即使对坏块进行隔离,也会严重影响服务器的性能水平,甚至会影响服务器的正常运行,因此只需进行告警,停止运行,从而能够帮助运维人员快速定位坏块的位置和故障原因,以便及时进行修复和处理;在坏块数量未超过预设阈值的情况下,对坏块进行隔离,从而能够保护三级高速缓冲存储器L3 cache中的其他数据,防止坏块对其他数据造成影响。
在本发明实施例中,通过启动基本输入输出系统BIOS,在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据,基于解析数据判断三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离,能够有效避免服务器故障,保障服务器的持续稳定运行,提高了服务器的可靠性、可用性和可服务性,降低了服务器的维护成本,提高了用户体验。
需要说明的是,本发明每一个实施方式可以自由组合、调换顺序或者单独执行,并不需要依靠或依赖固定的执行顺序。
在一些实施例中,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,包括:
通过BIOS,启动存储器内建自测试MBIST程序;
执行MBIST程序,以对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测。
其中,存储器内建自测试(Memory Built-In Self Test,MBIST)程序通过在存储器芯片中嵌入一个自测试电路,实现对存储器进行自动化测试的功能。MBIST硬件功能模块集成在服务器的CPU内部。
可以理解的是,通过BIOS启动MBIST程序,执行MBIST程序,进而可以对服务器的中央处理器的三级高速缓冲存储器L3 cache进行自动化检测,提高了检测效率,能够快速定位故障单元,有助于提高维修效率和降低成本,可以检测出更多的故障模式,提高了测试的可靠性和准确性;通过持续监测坏块的编号和分布情况,可以识别三级高速缓冲存储器L3cache的潜在问题,并采取预防措施。
在一些实施例中,确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,包括:
基于解析数据,得到坏块的数量和编号;
在坏块的数量超过预设阈值的情况下,生成坏块告警信息,其中坏块告警信息包括:坏块的数量、预设阈值和坏块的编号;
显示坏块告警信息,和/或,将坏块告警信息发送至服务器的基板管理控制器BMC。
其中,基板管理控制器(Baseboard Management Controller,BMC)是一种嵌入在服务器主板上的集成电路,用于对服务器进行远程管理、监控和故障诊断。BMC可以将接收的坏块告警信息存储在BMC日志中。
可选地,BIOS通过智能平台管理接口(Intelligent Platform ManagementInterface,IPMI)命令,给BMC发送坏块告警信息;其中,IPMI是用于BIOS和BMC之间通信和数据传输的一种标准协议接口,IPMI命令用于管理和监控服务器的硬件资源。
可以理解的是,基于解析数据,得到坏块的数量和编号,在坏块的数量超过预设阈值的情况下,生成坏块告警信息,并显示坏块告警信息,有助于维护人员及时发现存储设备的异常情况,从而能够及时采取维护措施处理坏块问题,防止数据丢失,降低维护成本,将坏块告警信息发送至BMC,可以实现远程监控和管理。
在一些实施例中,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离,包括:
通过BIOS,启动坏块隔离程序;
执行坏块隔离程序,以对坏块进行隔离。
需要说明的是,坏块被隔离后,CPU将不会从坏块存取数据,CPU只会从其余未损坏的cache块存取数据,从而避免了坏块引起CPU异常宕机和其他外部设备运行异常的事故。
可以理解的是,通过BIOS启动坏块隔离程序,执行坏块隔离程序,进而可以实现坏块的自动化隔离,从而可以避免坏块的进一步影响,并保护数据的安全,有助于提高存储系统的可靠性,减少硬件故障发生的概率,提高服务器的稳定性和可靠性,降低维护成本。
在一些实施例中,对坏块进行隔离之后,还包括:
基于系统管理统一规范SMBIOS,将坏块的编号发送至操作系统。
其中,系统管理统一规范(System Management BIOS,SMBIOS)提供了一种标准化的方式来描述计算机硬件、固件和系统配置信息,并使操作系统、BIOS固件和管理软件可以获取和解释这些信息。
可以理解的是,通过将坏块的编号发送至操作系统,可以实现对坏块的快速识别和报告,从而可以帮助管理员或维护人员更好地进行故障排除和维护工作,便于对数据进行保护和备份,提高了存储系统的可靠性和数据安全性。
在一些实施例中,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离,包括:
基于解析数据,得到坏块的数量和编号;
在坏块的数量超过预设阈值的情况下:
生成坏块告警信息,其中坏块告警信息包括:坏块的数量、预设阈值和坏块的编号;
显示坏块告警信息,和/或,将坏块告警信息发送至服务器的基板管理控制器BMC;
在坏块的数量未超过预设阈值的情况下:
通过BIOS,启动坏块隔离程序;
执行坏块隔离程序,以对坏块进行隔离;
基于系统管理统一规范SMBIOS,将坏块的编号发送至操作系统。
可选地,坏块隔离程序可以将受到影响的数据从坏块所在的存储区域迁移到其他可用的健康存储区域。
可选地,坏块隔离程序可以在隔离完成后更新系统配置信息,以反映坏块隔离的结果,从而使服务器系统在后续的数据访问过程中忽略坏块所在的区域,避免继续使用受到影响的存储空间。
可以理解的是,基于解析数据,得到坏块的数量和编号,可以及时发现三级高速缓冲存储器L3 cache的问题并采取预防措施,在坏块的数量超过预设阈值的情况下,生成坏块告警信息,显示坏块告警信息,和/或,将坏块告警信息发送至服务器的BMC,可以促进数据保护和备份工作的进行,在坏块的数量未超过预设阈值的情况下,通过BIOS,启动坏块隔离程序,执行坏块隔离程序,进而可以对坏块进行自动化隔离,实现服务器的稳定运行,将坏块的编号发送至操作系统,可以帮助管理员或维护人员进行故障排除和维护工作。
图2为本发明实施例提供的高速缓冲存储器坏块的处理方法的流程示意图之二。如2所示,提供了一种高速缓冲存储器坏块的处理方法,包括以下步骤:
步骤201、BIOS开始启动。
步骤202、BIOS判断BIOS启动是否是冷启动。
可选地,可以通过BIOS自检信息、时间戳、电源灯状态、系统日志等多种方式来判断BIOS启动是否是冷启动。
步骤203、在判断BIOS启动是冷启动的情况下,BIOS执行MBIST程序,对L3 cache进行检测,将检测数据存储到Flash中。
可以理解的是,通过MBIST程序,可以实现L3 cache的自动化检测,提高了检测效率。
步骤204、BIOS从Flash中读取检测数据。
步骤205、BIOS判断L3 cache是否存在坏块。
需要说明的是,若L3 cache存在坏块,则直接执行步骤210。
步骤206、若L3 cache存在坏块,则判断L3 cache坏块数量是否超过预设阈值。
可选地,可以基于L3 cache的历史检测数据确定预设阈值,也可以根据用户需求或用户输入信息确定预设阈值。
需要说明的是,在L3 cache坏块数量超过预设阈值的情况下,执行步骤210-211。
步骤207、在L3 cache坏块数量未超过预设阈值的情况下,BIOS执行坏块隔离程序,对L3 cache坏块进行隔离。
可以理解的是,通过坏块隔离程序,对L3 cache坏块进行隔离,提高了服务器的稳定性和可靠性。
步骤208、BIOS将L3 cache坏块的编号显示在设置界面。
步骤209、BIOS将L3 cache坏块的编号通过SMBIOS传递到操作系统。
步骤210、BIOS继续启动至完成启动。
步骤211、BIOS在显示器显示告警信息,并通过IPMI命令向BMC发送告警信息;
步骤212、BIOS停止启动。
可以理解的是,BIOS在冷启动时,执行MBIST程序,对L3 cache进行检测,在检测到L3 cache存在坏块的情况下,判断L3 cache坏块数量是否超过预设阈值,在L3 cache坏块数量未超过预设阈值的情况下,执行坏块隔离程序,对L3 cache坏块进行隔离,从而可以提高服务器的稳定性和可靠性,将L3 cache坏块的编号显示在设置界面,并在传递到操作系统,有助于管理员或维护人员及时采取维护措施,防止数据丢失,在L3 cache坏块数量超过预设阈值的情况下,在显示器显示告警信息,并向BMC发送告警信息,有助于管理员或维护人员及时对故障进行排查和修复,降低了维护成本,提高了用户体验。
下面对本发明实施例提供的高速缓冲存储器坏块的处理装置进行描述,下文描述的高速缓冲存储器坏块的处理装置与上文描述的高速缓冲存储器坏块的处理方法可相互对应参照。
图3为本发明提供的高速缓冲存储器坏块的处理装置的结构示意图,如图3所示,该高速缓冲存储器坏块的处理装置300包括:
启动单元310,用于启动基本输入输出系统BIOS;
检测单元320,用于在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据;
处理单元330,用于基于解析数据判断三级高速缓冲存储器L3cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离。
可选地,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,包括:
通过BIOS,启动存储器内建自测试MBIST程序;
执行MBIST程序,以对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测。
可选地,确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,包括:
基于解析数据,得到坏块的数量和编号;
在坏块的数量超过预设阈值的情况下,生成坏块告警信息,其中坏块告警信息包括:坏块的数量、预设阈值和坏块的编号;
显示坏块告警信息,和/或,将坏块告警信息发送至服务器的基板管理控制器BMC。
可选地,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离,包括:
通过BIOS,启动坏块隔离程序;
执行坏块隔离程序,以对坏块进行隔离。
可选地,高速缓冲存储器坏块的处理装置还包括发送单元,发送单元用于基于系统管理统一规范SMBIOS,将坏块的编号发送至操作系统。
可选地,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离,包括:
基于解析数据,得到坏块的数量和编号;
在坏块的数量超过预设阈值的情况下:
生成坏块告警信息,其中坏块告警信息包括:坏块的数量、预设阈值和坏块的编号;
显示坏块告警信息,和/或,将坏块告警信息发送至服务器的基板管理控制器BMC;
在坏块的数量未超过预设阈值的情况下:
通过BIOS,启动坏块隔离程序;
执行坏块隔离程序,以对坏块进行隔离;
基于系统管理统一规范SMBIOS,将坏块的编号发送至操作系统。
在此需要说明的是,本发明实施例提供的高速缓冲存储器坏块的处理装置,能够实现上述高速缓冲存储器坏块的处理方法实施例所实现的所有方法步骤,且能够达到相同的技术效果,在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行高速缓冲存储器坏块的处理方法,该方法包括:启动基本输入输出系统BIOS;在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据;基于解析数据判断三级高速缓冲存储器L3cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的高速缓冲存储器坏块的处理方法,该方法包括:启动基本输入输出系统BIOS;在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据;基于解析数据判断三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的高速缓冲存储器坏块的处理方法,该方法包括:启动基本输入输出系统BIOS;在BIOS的启动为冷启动的情况下,通过BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3cache进行检测,得到检测数据,并对检测数据进行解析,得到解析数据;基于解析数据判断三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定坏块的数量是否超过预设阈值,在坏块的数量超过预设阈值的情况下,进行告警,在坏块的数量未超过预设阈值的情况下,对坏块进行隔离。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种高速缓冲存储器坏块的处理方法,其特征在于,包括:
启动基本输入输出系统BIOS;
在所述BIOS的启动为冷启动的情况下,通过所述BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对所述检测数据进行解析,得到解析数据;
基于所述解析数据判断所述三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定所述坏块的数量是否超过预设阈值,在所述坏块的数量超过预设阈值的情况下,进行告警,在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离。
2.根据权利要求1所述的高速缓冲存储器坏块的处理方法,其特征在于,所述通过所述BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,包括:
通过所述BIOS,启动存储器内建自测试MBIST程序;
执行所述MBIST程序,以对所述服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测。
3.根据权利要求1所述的高速缓冲存储器坏块的处理方法,其特征在于,所述确定所述坏块的数量是否超过预设阈值,在所述坏块的数量超过预设阈值的情况下,进行告警,包括:
基于所述解析数据,得到所述坏块的数量和编号;
在所述坏块的数量超过预设阈值的情况下,生成坏块告警信息,其中所述坏块告警信息包括:所述坏块的数量、所述预设阈值和所述坏块的编号;
显示所述坏块告警信息,和/或,将所述坏块告警信息发送至所述服务器的基板管理控制器BMC。
4.根据权利要求1所述的高速缓冲存储器坏块的处理方法,其特征在于,所述在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离,包括:
通过所述BIOS,启动坏块隔离程序;
执行所述坏块隔离程序,以对所述坏块进行隔离。
5.根据权利要求1-4任一项所述的高速缓冲存储器坏块的处理方法,其特征在于,所述对所述坏块进行隔离之后,还包括:
基于系统管理统一规范SMBIOS,将所述坏块的编号发送至操作系统。
6.根据权利要求1所述的高速缓冲存储器坏块的处理方法,其特征在于,所述在所述坏块的数量超过预设阈值的情况下,进行告警,在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离,包括:
基于所述解析数据,得到所述坏块的数量和编号;
在所述坏块的数量超过预设阈值的情况下:
生成坏块告警信息,其中所述坏块告警信息包括:所述坏块的数量、所述预设阈值和所述坏块的编号;
显示所述坏块告警信息,和/或,将所述坏块告警信息发送至所述服务器的基板管理控制器BMC;
在所述坏块的数量未超过预设阈值的情况下:
通过所述BIOS,启动坏块隔离程序;
执行所述坏块隔离程序,以对所述坏块进行隔离;
基于系统管理统一规范SMBIOS,将所述坏块的编号发送至操作系统。
7.一种高速缓冲存储器坏块的处理装置,其特征在于,包括:
启动单元,用于启动基本输入输出系统BIOS;
检测单元,用于在所述BIOS的启动为冷启动的情况下,通过所述BIOS执行测试程序,对服务器的中央处理器的三级高速缓冲存储器L3 cache进行检测,得到检测数据,并对所述检测数据进行解析,得到解析数据;
处理单元,用于基于所述解析数据判断所述三级高速缓冲存储器L3 cache中是否存在坏块,若存在,则确定所述坏块的数量是否超过预设阈值,在所述坏块的数量超过预设阈值的情况下,进行告警,在所述坏块的数量未超过预设阈值的情况下,对所述坏块进行隔离。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述高速缓冲存储器坏块的处理方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述高速缓冲存储器坏块的处理方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述高速缓冲存储器坏块的处理方法。
CN202311433349.XA 2023-10-31 2023-10-31 高速缓冲存储器坏块的处理方法、装置和电子设备 Pending CN117687821A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311433349.XA CN117687821A (zh) 2023-10-31 2023-10-31 高速缓冲存储器坏块的处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311433349.XA CN117687821A (zh) 2023-10-31 2023-10-31 高速缓冲存储器坏块的处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117687821A true CN117687821A (zh) 2024-03-12

Family

ID=90134076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311433349.XA Pending CN117687821A (zh) 2023-10-31 2023-10-31 高速缓冲存储器坏块的处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117687821A (zh)

Similar Documents

Publication Publication Date Title
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
EP3121726B1 (en) Fault processing method, related device and computer
WO2015039598A1 (zh) 故障定位方法及装置
WO2017063505A1 (zh) 一种服务器硬件故障检测方法及其装置和服务器
CN104850485A (zh) 一种基于bmc远程诊断服务器开机故障的方法及系统
US10430267B2 (en) Determine when an error log was created
US11853150B2 (en) Method and device for detecting memory downgrade error
CN110609778A (zh) 一种保存服务器宕机日志的方法及系统
US20170132102A1 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN108364670B (zh) 读写压力测试方法、装置、设备及存储介质
CN114816022B (zh) 一种服务器电源异常监控方法、系统及存储介质
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN116089139A (zh) 一种串口硬盘故障处理方法、装置、介质
CN117687821A (zh) 高速缓冲存储器坏块的处理方法、装置和电子设备
CN111475378B (zh) 一种扩展器Expander的监控方法、装置及设备
CN114153503A (zh) 一种bios控制方法、装置、介质
CN111352789B (zh) 一种用于服务器的交流循环测试方法、装置及存储介质
CN118093265A (zh) 一种pcie设备故障处理方法及服务器
CN113867994B (zh) 机箱vpd信息处理方法、装置、存储设备及可读存储介质
CN115686914A (zh) 一种故障记录方法、计算设备及存储介质
CN114706739A (zh) 一种故障记录、定位方法、装置以及服务器
CN117234771A (zh) 故障内存定位方法、系统、装置、计算机设备及存储介质
CN116414611A (zh) 基于冗余存储的开机自检设备故障定位系统
CN117112273A (zh) 一种故障状态管控方法、装置、设备及介质
CN116155703A (zh) 一种网络器件故障修复方法、系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination