CN110489259B - 一种内存故障检测方法及设备 - Google Patents

一种内存故障检测方法及设备 Download PDF

Info

Publication number
CN110489259B
CN110489259B CN201910690253.9A CN201910690253A CN110489259B CN 110489259 B CN110489259 B CN 110489259B CN 201910690253 A CN201910690253 A CN 201910690253A CN 110489259 B CN110489259 B CN 110489259B
Authority
CN
China
Prior art keywords
memory
memory unit
read
detection
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910690253.9A
Other languages
English (en)
Other versions
CN110489259A (zh
Inventor
曹力
刘全仲
张思栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Cec Greatwall Information Safety System Co ltd
Original Assignee
Shenzhen Cec Greatwall Information Safety System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Cec Greatwall Information Safety System Co ltd filed Critical Shenzhen Cec Greatwall Information Safety System Co ltd
Priority to CN201910690253.9A priority Critical patent/CN110489259B/zh
Publication of CN110489259A publication Critical patent/CN110489259A/zh
Application granted granted Critical
Publication of CN110489259B publication Critical patent/CN110489259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明适用于计算机技术领域,提供了一种内存故障检测方法及设备,包括:当检测到当前启动基本输入输出系统BIOS时,对内存单元进行初始化;基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级。上述方法,可以通过预设分级故障检测策略对内存单元进行检测,能够准确的识别出内存单元的故障,并且可以识别出内存单元潜在的风险。

Description

一种内存故障检测方法及设备
技术领域
本发明属于计算机技术领域,尤其涉及一种内存故障检测方法及设备。
背景技术
基本输入输出系统(Basic Input Output System,BIOS)是一组固化到计算机内主板上一个芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。计算机在运行时,首先会进入BIOS,它在计算机系统中起着非常重要的作用。
在设备开机前,BIOS会对内存单元做常规的检测,检测内存单元的工作状态是否正常。但是目前中央处理器(Central Processing Unit,CPU)支持的内存越来越多,现有的检测方式很难准确的检测出内存故障,无法识别内存单元存在的潜在风险。
发明内容
有鉴于此,本发明实施例提供了一种内存故障检测方法及设备,以解决现有技术中很难准确的检测出内存故障,无法识别内存单元存在的潜在风险的问题。
本发明实施例的第一方面提供了一种内存故障检测方法,包括:
当检测到当前启动基本输入输出系统BIOS时,对内存控制器进行初始化;
基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级。
本发明实施例的第二方面提供了一种内存故障检测装置,包括:
第一处理单元,用于当检测到当前启动基本输入输出系统BIOS时,对内存控制器进行初始化;
第一确定单元,用于基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级。
本发明实施例的第三方面提供了一种内存故障检测设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的内存故障检测方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的内存故障检测方法的步骤。
本发明实施例中,当检测到当前启动基本输入输出系统BIOS时,对内存单元进行初始化;基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级。上述方法,可以通过预设分级故障检测策略对内存单元进行检测,能够准确的识别出内存单元的故障,并且可以识别出内存单元潜在的风险。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种内存故障检测方法的示意流程图;
图2是本发明第二实施例提供的另一种内存故障检测方法的示意流程图;
图3是本发明第三实施例提供的另一种内存故障检测方法的示意流程图;
图4是本发明第四实施例提供的另一种内存故障检测方法的示意流程图;
图5是本发明第五实施例提供的一种内存故障检测装置的示意图;
图6是本发明第六实施例提供的内存故障检测设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
请参见图1,图1是本发明第一实施例提供的一种内存故障检测方法的示意流程图。本实施例中内存故障检测方法的执行主体为具有内存故障检测功能的设备。如图1所示的内存故障检测方法可包括:
S101:当检测到当前启动基本输入输出系统BIOS时,对内存控制器进行初始化。
基本输入输出系统(Basic Input Output System,BIOS)是一组固化到计算机内主板上一个芯片上的程序,它保存着计算机最重要的基本输入输出的程序、开机后自检程序和系统自启动程序,它可读写系统设置的具体信息。其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。计算机在运行时,首先会进入BIOS,它在计算机系统中起着非常重要的作用。此外,BIOS还向作业系统提供一些系统参数。系统硬件的变化是由BIOS隐藏,程序使用BIOS功能而不是直接控制硬件。现代作业系统会忽略BIOS提供的抽象层并直接控制硬件组件。
BIOS设置程序是储存在BIOS芯片中的,BIOS设置程序主要对计算机的基本输入输出系统进行管理和设置,使系统运行在最好状态下,使用BIOS设置程序还可以排除系统故障或者诊断系统问题。形象地说,BIOS应该是连接软件程序与硬件设备的一座"桥梁",负责解决硬件的即时要求。
从功能上看,BIOS具有自检的功能,用于电脑刚接通电源时对硬件部分的检测,也叫做加电自检(Power On Self Test,简称POST),功能是检查电脑是否良好,通常完整的POST自检将包括对CPU,基本内存,1M以上的扩展内存、主板、存储器、串并口、显示卡、软硬盘子系统及键盘进行测试。
内存单元,即内存储器,作用是暂时存放CPU中运算数据,以及硬盘等外部存储的交换数据。其形态多是被标准化成条状,因此往往我们把它直接用等价成内存条来看了。但实际上存在已经很普遍,比如智能手机中也是要有内存的,只是形态各异,基本功用是一致的。当然本实施例总涉及的主要还是计算机上用到内存,即使这样,形态也有差异的。
本实施例中,设备检测启动基本输入输出系统是否启动,当检测到当前启动基本输入输出系统时,只有先对内存控制器进行初始化,之后才能使用内存,这样为内存单元检测作准备。
S102:基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级。
设备中预先存储分级故障检测策略,预设分级故障检测策略用于对内存单元进行故障检测,预设分级故障检测策略中可以包括多个子检测策略以及每个子检测策略的检测顺序,按照检测顺序逐级的检测内存单元,从而确定内存单元的内存故障信息。其中,预设分级故障检测策略至少包括内存控制器时序检测策略和读写检测策略,内存控制器时序检测策略的优先级高于读写检测策略的优先级。设备按照预设分级故障检测策略对内存单元进行检测,确定内存单元的内存故障信息,其中,内存单元的内存故障信息可以包括内存单元的标识以及内存单元的故障类型。
进一步地,为了使用户可以直观的获取到内存单元的故障信息,在S102之后,还可以包括:将所述内存单元的内存故障信息和标识信息发送至基板管理控制器。
设备在启动BIOS后,一旦在自检中发现问题,系统将给出提示信息或鸣笛警告,自检中如发现有错误,将按两种情况处理:对于严重故障(致命性故障)则停机,此时由于各种初始化操作还没完成,不能给出任何提示或信号;对于非严重故障则给出提示或声音报警信号,等待用户处理。但是这样不能直观的让用户获取内存单元的故障信息,所以设备将内存故障信息和标识信息发送至基板管理控制器(Baseboard Management Controller,BMC)。BMC可以控制故障灯根据不同的故障信息变为相应的颜色,例如,当故障信息为内存单元不可用时,故障灯可以为红色;当故障信息为内存单元读写功能损坏时,故障灯可以为黄色。
本发明实施例中,当检测到当前启动基本输入输出系统BIOS时,对内存单元进行初始化;基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级。上述方法,可以通过预设分级故障检测策略对内存单元进行检测,能够准确的识别出内存单元的故障,并且可以识别出内存单元潜在的风险。
请参见图2,图2是本发明第二实施例提供的另一种内存故障检测方法的示意流程图。本实施例中内存故障检测方法的执行主体为具有内存故障检测功能的设备。为了进一步获取准确的故障信息,本实施例与上一实施例之间的区别在于S202~S204,其中,本实施例中的S201与第一实施例中的S101相同,本实施例中的S202~S204是对第一实施例中的S102的进一步细化。如图2所示,S202~S204具体如下:
S202:对内存单元进行训练,得到训练结果。
设备对内存单元进行训练(training),训练是调整地址/命令总线Addr/Cmd信号的延时。由于在布线的时候没做等长约束,信号有长有短,就会导致信号有快,慢之差(信号在1000mil走线耗时约160~180ps,相对FR-4的板材),此时,需要通过训练,找到一套参数,使信号的建立、保持时间充足。并保存到配置文件中,以保证时序的完整性,使信号的建立、保持时间窗口一致。设备对内存单元进行训练,得到训练结果,训练结果标识内存单元是否可以正常训练,以及延时是否调整为正常状态。
S203:基于所述训练结果和预设内存控制器时序检测条件,确定内存控制器时序检测结果。
设备中预设内存控制器时序检测条件,用于确定内存控制器的时序检测结果。基于训练结果和预设内存控制器时序检测条件,可以确定内存控制器时序检测结果,即内存单元是否可以正常训练,以及时序是否为正常状态。
S204:当所述内存控制器时序检测结果标识所述内存单元未通过训练时,标记所述内存故障信息为训练不良。
当内存控制器时序检测结果标识内存单元未通过训练时,标记内存故障信息为训练不良,即该内存单元无法进行正常的训练,或者训练结果没有达到预设的条件。
请参见图3,图3是本发明第三实施例提供的另一种内存故障检测方法的示意流程图。本实施例中内存故障检测方法的执行主体为具有内存故障检测功能的设备。为了进一步获取准确的故障信息,本实施例与上一实施例之间的区别在于S305~S307,其中,本实施例的S301~S304与第二实施例中的S201~S204相同,其中,S305~S307在S303之后执行,S304与S305为并列步骤,择一执行。如图3所示,S305~S307具体下:
S305:当所述内存控制器时序检测结果标识所述内存单元通过训练时,关闭所述内存单元的错误检查和纠正ECC功能。
当内存控制器时序检测结果标识所述内存单元通过训练时,关闭内存单元的错误检查和纠正ECC功能,本实施例中,内存单元可以为ECC内存,内存单元的错误检查和纠正ECC功能自始开启,当内存控制器时序检测结果标识所述内存单元通过训练时,进行下一级的检测,可以对内存单元的读写功能进行检测,所以先关闭内存单元的错误检查和纠正ECC功能。
S306:检测通过训练的所述内存单元的读写功能是否正常。
设备检测内存单元的读写功能,可以对内存单元进行读写,通过将预存数据存入内存单元后,在对同一内存单元进行读取,比较读取到的数据与预存数据,来判断内存单元的读写功能是否正常。当读取到的数据与预存数据一致时,说明内存单元的读写功能正常;当读取到的数据与预存数据不一致时,说明内存单元的读写功能异常。
S307:当所述内存单元的读写功能正常时,继续运行所述BIOS。
设备检测到内存单元的读写功能正常时,说明该内存单元无故障,此时继续运行基本输入输出系统,继续开机。
请参见图4,图4是本发明第四实施例提供的另一种内存故障检测方法的示意流程图。本实施例中内存故障检测方法的执行主体为具有内存故障检测功能的设备。为了进一步获取准确的故障信息,本实施例与上一实施例之间的区别在于S408~S409,其中,本实施例中的S401~S407与上一实施例中的S301~S307相同,本实施例中的S408~S409在S406之后执行,S407与S408为并列步骤,择一执行。如图4所示,S408~S409具体如下:
S408:当所述内存单元的读写功能异常时,对所述内存单元进行ECC检测。
设备检测内存单元的读写功能异常时,对内存单元进行错误检查和纠正ECC检测,在进行ECC检测时,先通过叫做“奇偶校验检查”的方法来检查错误。也就是另外储存一个“奇偶校验”,其值为8个比特组里所有“1”的和,结果无非奇或偶,即1或0。如果内存下次访问数据时候,和与奇偶校验比特的值不一样的话,那么系统就知道至少有一个比特的值错了,即检测出了错误,ECC检测结果异常。
进一步地,为了进一步获取准确的故障信息,在S408之后,还可以包括:当所述ECC检测结果异常时,标记所述内存故障信息为内存不可用。设备检测到错误检查和纠正ECC检测结果异常时,此时内存单元存在错误,整个设备在工作时工作异常和不稳定性,此时标记内存故障信息为内存不可用。
S409:当所述ECC检测结果正常时,标记所述内存故障信息为读写功能异常。
设备检测到错误检查和纠正ECC检测结果正常时,此时内存单元不存在错误,整个设备在工作时不存在大的风险和不稳定性,此时,仅仅是上一级检测的时候内存单元的读写功能异常,所以此时标记内存故障信息为读写功能异常。
进一步地,为了保证设备运行的稳定性,在S409之后,还可以包括:提示用户更换所述内存单元。
此时内存故障信息为读写功能异常,内存单元读写功能异常,此时在工作时存在一定的风险,但是并不会影响设备的运行。此时,可以对内存单元进行更换,也可以继续卡机。此时可以提示用户更换内存单元,可以通过提示音的方式进行提示。如果用户选择不更换内存时,继续运行所述基本输入输出系统,继续开机。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
请参见图5,图5是本发明第五实施例提供的一种内存故障检测装置的示意图。包括的各单元用于执行图1~图4对应的实施例中的各步骤。具体请参阅图1~图4各自对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图5,内存故障检测装置5包括:
第一处理单元510,用于当检测到当前启动基本输入输出系统BIOS时,对内存控制器进行初始化;
第一确定单元520,用于基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级
进一步地,确定单元520,包括:
训练单元,用于对内存单元进行训练,得到训练结果;
第二确定单元,用于基于所述训练结果和预设内存控制器时序检测条件,确定内存控制器时序检测结果;
第一标记单元,用于当所述内存控制器时序检测结果标识所述内存单元未通过训练时,标记所述内存故障信息为训练不良。
进一步地,内存故障检测装置5,还包括:
第二处理单元,用于当所述内存控制器时序检测结果标识所述内存单元通过训练时,关闭所述内存单元的错误检查和纠正ECC功能;
检测单元,用于检测通过训练的所述内存单元的读写功能是否正常;
第三处理单元,用于当所述内存单元的读写功能正常时,继续运行所述BIOS。
进一步地,内存故障检测装置5,还包括:
第四处理单元,用于当所述内存单元的读写功能异常时,对所述内存单元进行ECC检测;
第二标记单元,用于当所述ECC检测结果正常时,标记所述内存故障信息为读写功能异常。
进一步地,内存故障检测装置5,还包括:
提示单元,用于提示用户更换所述内存单元。
进一步地,内存故障检测装置5,还包括:
第三标记单元,用于当所述ECC检测结果异常时,标记所述内存故障信息为内存不可用。
进一步地,内存故障检测装置5,还包括:
发送单元,用于将所内存单元的内存故障信息和标识信息发送至基板管理控制器。
图6是本发明第六实施例提供的内存故障检测设备的示意图。如图6所示,该实施例的内存故障检测端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如内存故障检测程序。所述处理器60执行所述计算机程序62时实现上述各个内存故障检测方法实施例中的步骤,例如图1所示的步骤101至102。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块/单元的功能,例如图5所示模块510至520的功能。
示例性的,所述计算机程序62可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述内存故障检测设备6中的执行过程。例如,所述计算机程序62可以被分割成第一处理单元、第一确定单元,各单元具体功能如下:
第一处理单元,用于当检测到当前启动基本输入输出系统BIOS时,对内存控制器进行初始化;
第一确定单元,用于基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级。
所述内存故障检测设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述内存故障检测设备可包括,但不仅限于,处理器60、存储器61。本领域技术人员可以理解,图6仅仅是内存故障检测设备6的示例,并不构成对内存故障检测设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述内存故障检测设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述内存故障检测设备6的内部存储单元,例如内存故障检测设备6的硬盘或内存。所述存储器61也可以是所述内存故障检测设备6的外部存储设备,例如所述内存故障检测设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述内存故障检测设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述内存故障检测设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (6)

1.一种内存故障检测方法,其特征在于,包括:
当检测到当前启动基本输入输出系统BIOS时,对内存控制器进行初始化;
基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级;
其中,所述基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息,包括:
对内存单元进行训练,得到训练结果;
基于所述训练结果和预设内存控制器时序检测条件,确定内存控制器时序检测结果;
当所述内存控制器时序检测结果标识所述内存单元未通过训练时,标记所述内存故障信息为训练不良;
当所述内存控制器时序检测结果标识所述内存单元通过训练时,关闭所述内存单元的错误检查和纠正ECC功能;
检测通过训练的所述内存单元的读写功能是否正常;
当所述内存单元的读写功能正常时,继续运行所述BIOS;
当所述内存单元的读写功能异常时,对所述内存单元进行ECC检测;
当所述ECC检测结果正常时,标记所述内存故障信息为读写功能异常;
当所述ECC检测结果异常时,标记所述内存故障信息为内存不可用。
2.如权利要求1所述的内存故障检测方法,其特征在于,在所述ECC检测结果正常时,标记内存故障信息为读写功能异常之后,还包括:
提示用户更换所述内存单元。
3.如权利要求1-2任一项所述的内存故障检测方法,其特征在于,在所述基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息之后,还包括:
将所述内存单元的内存故障信息和标识信息发送至基板管理控制器。
4.一种内存故障检测装置,其特征在于,包括:
第一处理单元,用于当检测到当前启动基本输入输出系统BIOS时,对内存控制器进行初始化;
第一确定单元,用于基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息;其中,所述预设分级故障检测策略包括内存控制器时序检测策略和读写检测策略;其中,所述内存控制器时序检测策略的优先级高于所述读写检测策略的优先级;
其中,所述基于预设分级故障检测策略对内存单元进行检测,确定所述内存单元的内存故障信息,包括:
对内存单元进行训练,得到训练结果;
基于所述训练结果和预设内存控制器时序检测条件,确定内存控制器时序检测结果;
当所述内存控制器时序检测结果标识所述内存单元未通过训练时,标记所述内存故障信息为训练不良;
当所述内存控制器时序检测结果标识所述内存单元通过训练时,关闭所述内存单元的错误检查和纠正ECC功能;
检测通过训练的所述内存单元的读写功能是否正常;
当所述内存单元的读写功能正常时,继续运行所述BIOS;
当所述内存单元的读写功能异常时,对所述内存单元进行ECC检测;
当所述ECC检测结果正常时,标记所述内存故障信息为读写功能异常;
当所述ECC检测结果异常时,标记所述内存故障信息为内存不可用。
5.一种内存故障检测设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述方法的步骤。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述方法的步骤。
CN201910690253.9A 2019-07-29 2019-07-29 一种内存故障检测方法及设备 Active CN110489259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910690253.9A CN110489259B (zh) 2019-07-29 2019-07-29 一种内存故障检测方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910690253.9A CN110489259B (zh) 2019-07-29 2019-07-29 一种内存故障检测方法及设备

Publications (2)

Publication Number Publication Date
CN110489259A CN110489259A (zh) 2019-11-22
CN110489259B true CN110489259B (zh) 2023-03-24

Family

ID=68548583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910690253.9A Active CN110489259B (zh) 2019-07-29 2019-07-29 一种内存故障检测方法及设备

Country Status (1)

Country Link
CN (1) CN110489259B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111367732B (zh) * 2020-02-23 2022-10-18 苏州浪潮智能科技有限公司 一种内存应用等级预测方法、系统、终端及存储介质
CN112948160B (zh) * 2021-02-26 2023-02-28 山东英信计算机技术有限公司 一种内存ecc问题的定位修复方法及装置
CN115292113B (zh) * 2022-09-30 2023-01-06 新华三信息技术有限公司 对服务器的内存进行故障检测方法、装置及电子设备
CN115658373B (zh) * 2022-12-14 2023-03-17 苏州浪潮智能科技有限公司 基于服务器的内存处理方法和装置、处理器及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1289918A (zh) * 2000-10-08 2001-04-04 暨南大学 一种快速显微多道分光光度检测方法及其装置
JP2004079032A (ja) * 2002-08-12 2004-03-11 Matsushita Electric Ind Co Ltd 半導体装置のテスト方法及び半導体装置
CN103176876A (zh) * 2013-03-19 2013-06-26 卡斯柯信号有限公司 一种高效安全的计算机在线自检方法及自检装置
CN103412807A (zh) * 2013-08-12 2013-11-27 浪潮电子信息产业股份有限公司 一种内存检验测试系统
CN106777126A (zh) * 2016-12-16 2017-05-31 广东电网有限责任公司电力调度控制中心 一种支持异构时序数据库的数据在线迁移方法
WO2017185375A1 (zh) * 2016-04-29 2017-11-02 华为技术有限公司 一种数据访问的方法及内存控制器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8381014B2 (en) * 2010-05-06 2013-02-19 International Business Machines Corporation Node controller first failure error management for a distributed system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1289918A (zh) * 2000-10-08 2001-04-04 暨南大学 一种快速显微多道分光光度检测方法及其装置
JP2004079032A (ja) * 2002-08-12 2004-03-11 Matsushita Electric Ind Co Ltd 半導体装置のテスト方法及び半導体装置
CN103176876A (zh) * 2013-03-19 2013-06-26 卡斯柯信号有限公司 一种高效安全的计算机在线自检方法及自检装置
CN103412807A (zh) * 2013-08-12 2013-11-27 浪潮电子信息产业股份有限公司 一种内存检验测试系统
WO2017185375A1 (zh) * 2016-04-29 2017-11-02 华为技术有限公司 一种数据访问的方法及内存控制器
CN106777126A (zh) * 2016-12-16 2017-05-31 广东电网有限责任公司电力调度控制中心 一种支持异构时序数据库的数据在线迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SoC芯片可测试性设计策略的实现研究;胡明明等;《电路与系统学报》;20110415(第02期);全文 *
随机存取存储器故障分析及测试方案实现;蒋登峰等;《中国计量学院学报》;20100915(第03期);全文 *

Also Published As

Publication number Publication date
CN110489259A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN110489259B (zh) 一种内存故障检测方法及设备
US10204698B2 (en) Method to dynamically inject errors in a repairable memory on silicon and a method to validate built-in-self-repair logic
EP2596423B1 (en) Providing platform independent memory logic
CN109670319B (zh) 一种服务器flash安全管理方法及其系统
CN101369240A (zh) 用于在信息处理系统中管理存储错误的系统和方法
US10223318B2 (en) Hot plugging peripheral connected interface express (PCIe) cards
CN111104246B (zh) 提升dram的错误检测与纠错的验证效率的方法、装置、计算机设备及存储介质
TWI799135B (zh) 晶片設計驗證系統、晶片設計驗證方法與內儲程式之電腦可讀取記錄媒體
US10853213B2 (en) Validation of installation of removeable computer hardware components
CN115756984A (zh) 内存测试方法、装置、设备及存储介质
US11347582B2 (en) Method and apparatus for self-diagnosis of ram error detection logic of powertrain controller
US8495353B2 (en) Method and circuit for resetting register
CN104636271A (zh) 访问命令/地址寄存器装置中存储的数据
CN115659426A (zh) 一种硬盘的防伪方法、装置及介质
CN115220968A (zh) 一种具有冗余和容错能力vpd数据管理系统、方法
CN111783162A (zh) 数据保护实现方法、装置及计算机设备
US20190310800A1 (en) Method for accessing code sram and electronic device
CN110414278A (zh) 一种bmc固件信息的数据访问系统及方法
CN109522200A (zh) 一种提高多储存盘阵列稳定性的测试方法,系统及终端
CN108595940A (zh) 设备的认证授权装置、方法和系统
CN111459721B (zh) 故障处理方法、装置和计算机
CN113377421B (zh) 一种软硬件版本信息的检测方法、装置、设备及介质
CN117744061A (zh) 内存条的处理方法及装置、存储介质及电子设备
CN117687833A (zh) 测试数据安全的方法、装置及存储介质
CN117950929A (zh) 基于门控功能的通用测试方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant