CN116560897A - 一种易失性存储介质不可纠正错误的预测方法和相关设备 - Google Patents

一种易失性存储介质不可纠正错误的预测方法和相关设备 Download PDF

Info

Publication number
CN116560897A
CN116560897A CN202210111886.1A CN202210111886A CN116560897A CN 116560897 A CN116560897 A CN 116560897A CN 202210111886 A CN202210111886 A CN 202210111886A CN 116560897 A CN116560897 A CN 116560897A
Authority
CN
China
Prior art keywords
storage medium
volatile storage
error
failure
uncorrectable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210111886.1A
Other languages
English (en)
Inventor
董伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210111886.1A priority Critical patent/CN116560897A/zh
Priority to PCT/CN2022/111694 priority patent/WO2023142429A1/zh
Publication of CN116560897A publication Critical patent/CN116560897A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1044Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices with specific ECC/EDC distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本申请实施例提供了一种易失性存储介质不可纠正错误的预测方法和相关设备。该方法包括:获取存储设备中的易失性存储介质的工作信息集合,其中,所述工作信息集合中包括所述易失性存储介质发生的可纠正错误的信息。根据工作信息集合与预测模型确定易失性存储介质发生不可纠正错误的风险评估结果。该方法可以根据存储设备中的易失性存储介质发生的可纠正错误的信息与预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果,从而判断该易失性存储介质的健康状态。

Description

一种易失性存储介质不可纠正错误的预测方法和相关设备
技术领域
本申请实施例涉及存储器领域,主要涉及一种易失性存储介质不可纠正错误的预测方法、计算装置、计算设备、芯片系统和计算机可读存储介质。
背景技术
随着存储设备中的易失性存储介质工作频率的提高,容量的增大,易失性存储介质发生错误的问题越来越突出。易失性存储介质发生的错误可以分为可纠正错误和不可纠正错误。当易失性存储介质发生可纠正错误时,计算装置可以及时对错误进行纠正,因此可纠正错误对存储设备或计算装置的影响较小,此时易失性存储介质的健康状态较好。该存储设备可以在该计算装置中,或者,该存储设备可以与该计算装置相连接。当易失性存储介质发生不可纠正错误时,该计算装置无法对错误进行纠正,会导致存储设备或计算装置的工作中断,甚至会引起计算装置的宕机,此时易失性存储介质的健康状态较差。
因此,如何预测易失性存储介质的不可纠正错误,从而判断易失性存储介质的健康状态成为亟待解决的问题。
发明内容
本申请实施例提供一种易失性存储介质不可纠正错误的预测方法、计算装置、计算设备、芯片系统和计算机可读存储介质,可以预测易失性存储介质的不可纠正错误,从而判断易失性存储介质的健康状态。
第一方面,提供了一种易失性存储介质不可纠正错误的预测方法,该方法包括:获取存储设备中的易失性存储介质的工作信息集合;根据工作信息集合与预测模型,确定易失性存储介质发生不可纠正错误的风险评估结果。
应理解,该存储设备可以在计算设备中或与计算设备相连接。该存储设备可以是存储介质,例如内存或缓存。或者,该存储设备还可以包括非易失性存储介质,例如固态硬盘等,易失性存储介质可以是固态硬盘中的高速缓冲存储器(cache)。
还应理解,该工作信息集合包括易失性存储介质发生的可纠正错误的信息,该可纠正错误的信息包括以下信息中的任一个或多个:发生可纠正错误的时间、可纠正错误的错误数据在易失性存储介质中的地址、或可纠正错误的错误数据。
还应理解,可以根据易失性存储介质的工作信息集合与预测模型,直接确定该易失性存储介质发生不可纠正错误的风险评估结果。或者,可以根据易失性存储介质的工作信息集合与预测模型中的第一预测模型,确定该易失性存储介质的故障原因,从而确定该易失性存储介质发生不可纠正错误的风险评估结果。
还应理解,易失性存储介质发生不可纠正错误的风险评估结果包括以下任一种:高风险、中风险、或低风险。若易失性存储介质发生不可纠正错误的风险评估结果为高风险,则表示该易失性存储介质的健康状态较差,需要进行更换。若易失性存储介质发生不可纠正错误的风险评估结果为低风险,则表示该易失性存储介质的健康状态较好,不需要进行更换。
本申请实施例中,计算设备可以根据存储设备中的易失性存储介质发生的可纠正错误的信息与预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果,从而判断该易失性存储介质的健康状态。计算设备可以根据该易失性存储介质的健康状态,指导用户可以进行更换,避免影响存储设备或易失性存储介质的正常工作。
结合第一方面,在第一方面的某些实现方式中,预测模型包括第一预测模型和第二预测模型,根据该工作信息集合与第一预测模型,确定故障原因;根据该故障原因与第二预测模型,确定该风险评估结果。
应理解,可以根据易失性存储介质的工作信息集合与第一预测模型,直接确定易失性存储介质的故障原因。或者,可以根据易失性存储介质的工作信息集合,确定该易失性存储介质的错误特征集合,从而确定该易失性存储介质的故障原因。
本申请实施例中,计算设备可以根据易失性存储介质发生的可纠正错误的信息与第一预测模型,确定该易失性存储介质发生的具体的故障原因。并且计算设备可以根据该易失性存储介质的故障原因与第二预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。计算设备可以根据该易失性存储介质发生不可纠正错误的风险评估结果,判断该易失性存储介质的健康状态,从而指导用户进行更换,避免影响存储设备或易失性存储介质的正常工作。
在某些实现方式中,在工作信息集合中的每条工作信息包括可纠正错误的错误数据在易失性存储介质中的地址,且工作信息集合还包括易失性存储介质的总访问次数的情况下,根据工作信息集合中包括的工作信息的条数,确定发生可纠正错误的数量;根据该工作信息集合、发生可纠正错误的数量与工作信息集合的统计周期的时长,确定该易失性存储介质的错误特征集合;根据该错误特征集合和第一预测模型,确定故障原因。
应理解,错误特征集合包括以下信息中的任一个或多个:易失性存储介质的错误率、单位时间内发生的可纠正错误的数量、或可纠正错误在易失性存储介质中的存储单元中的分布情况。
还应理解,错误率为发生可纠正错误的数量与易失性存储介质的总访问次数之比。单位时间内发生的可纠正错误的数量为发生可纠正错误的数量与统计周期的时长之比。
还应理解,存储单元可以包括以下任一个或多个:存储矩阵(bank)、存储行(row)、存储列(column)、存储区块(rank)、或双向数据总线(data queue,DQ)。也就是说,该分布情况可以包括可纠正错误的地址所属存储矩阵的标识、所属存储行的标识、所属存储列的标识、所属存储区块的标识、或所属DQ的标识中的任一个或多个是否相同。
本申请实施例中,计算设备可以根据易失性存储介质发生的可纠正错误的信息,确定该易失性存储介质的错误特征集合,从而可以确定该易失性存储介质发生的具体的故障原因。计算设备还可以根据易失性存储介质的故障原因与第二预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。
结合第一方面,在第一方面的某些实现方式中,易失性存储介质的故障原因包括以下任一个或多个:电容漏电、字线故障、子字线驱动器故障、主字线驱动器故障、位线故障、敏感放大器故障、存储矩阵控制电路故障、接触不良、或信号裕量不足。
本申请实施例中,计算设备可以根据易失性存储介质的工作信息集合与第一预测模型,确定该易失性存储介质发生的故障原因包括的具体类型,从而确定该易失性存储介质发生不可纠正错误的风险评估结果。
结合第一方面,在第一方面的某些实现方式中,在工作信息集合中的每条工作信息包括可纠正错误的错误数据的情况下,对每条工作信息包括的可纠正错误的错误数据与对应于错误数据的正确数据进行逻辑运算,获得每条工作信息对应的运算结果;根据不可纠正错误模型、每条工作信息对应的运算结果与预测模型,确定风险评估结果。
应理解,逻辑运算可以是异或运算、同或运算、与运算、或运算等逻辑运算中的任一种运算。不可纠正错误模型为根据易失性存储介质的纠错算法所确定的数据。
本申请实施例中,计算设备可以根据易失性存储介质发生的可纠正错误的错误数据与对应的正确数据,获得错误数据与正确数据的运算结果。计算设备还可以根据不可纠正错误模型、该运算结果与预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。计算设备可以根据该易失性存储介质发生不可纠正错误的风险评估结果,判断该易失性存储介质的健康状态,从而指导用户进行更换,避免影响存储设备或易失性存储介质的正常工作。
结合第一方面,在第一方面的某些实现方式中,对不可纠正错误模型与每条工作信息对应的运算结果进行比较,获得每条工作信息对应的相似度;根据每条工作信息对应的相似度与预测模型,确定每条工作信息对应的风险评估结果;将等级最高的风险评估结果作为易失性存储介质发生不可纠正错误的风险评估结果。
应理解,每条工作信息对应的相似度为每条工作信息对应的运算结果与不可纠正错误模型的相似度。
还应理解,若每条工作信息对应的的相似度较高,则可以表示该条工作信息中的可纠正错误无法被纠错算法纠错的概率较大,即可以确定该条工作信息对应的风险评估结果为高风险。若每条工作信息对应的相似度较低,则可以表示该条工作信息中的可纠正错误无法被纠错算法纠错的概率较小,即可以确定该条工作信息对应的风险评估结果为低风险。
本申请实施例中,计算设备可以获得每条工作信息对应的相似度,并可以根据每条工作信息对应的相似度,确定每条工作信息对应的风险评估结果,从而将其中等级最高的风险评估结果作为根据该易失性存储介质发生不可纠正错误的风险评估结果。计算设备可以根据该易失性存储介质发生不可纠正错误的风险评估结果,判断该易失性存储介质的健康状态,从而指导用户进行更换,避免影响存储设备或易失性存储介质的正常工作。
第二方面,提供了一种计算装置,该计算装置包括用于实现第一方面或第一方面的任一种可能的实现方式的模块。
第三方面,提供了一种计算设备,该计算设备包括处理器,该处理器用于与存储器耦合,读取并执行该存储器中的指令和/或程序代码,以执行第一方面或第一方面的任一种可能的实现方式。
第四方面,提供了一种芯片系统,该芯片系统包括逻辑电路,该逻辑电路用于与输入/输出接口耦合,通过该输入/输出接口传输数据,以执行第一方面或第一方面任一种可能的实现方式。
第五方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,当该计算机存储介质在计算机上运行时,使得计算机执行如第一方面或第一方面的任一种可能的实现方式。
第六方面,本申请实施例提供一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行如第一方面或第一方面的任一种可能的实现方式。
附图说明
图1是计算设备的示意性系统架构图。
图2是根据本申请一个实施例的易失性存储介质不可纠正错误的预测方法的示意性流程图。
图3是根据本申请另一实施例的易失性存储介质不可纠正错误的预测方法的示意性流程图。
图4是根据本申请另一实施例的易失性存储介质不可纠正错误的预测方法的示意性流程图。
图5是根据本申请另一实施例的易失性存储介质不可纠正错误的预测方法的示意性流程图。
图6是根据本申请一个实施例的计算装置的结构示意图。
具体实施方式
下面将结合附图,对本申请实施例中的技术方案进行描述。
本申请实施例的技术方案可以应用于各种计算机系统,例如:32位的计算机系统、64位的计算机系统、进阶精简指令集机器(advanced reduced-instruction-set-computermachines,ARM)的计算机系统等,本申请实施例并不限定。
本申请实施例中的存储设备可以是易失性存储器,例如可以是内存、缓存、随机存取存储器(random access memory,RAM)、静态随机存取存储器(static random accessmemory,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取内存(synchronous dynamic random access memory,SDRAM)、双列直插式存储模块(dual in-line memory module,DIMM)、无缓存的双列直插存储模块(unbuffered DIMM,UDIMM)、带寄存器的双列直插存储模块(registered DIMM,RDIMM)、负载降低的双列直插存储模块(load reduced DIMM,LRDIMM)、双倍数据传输率同步动态随机存取存储器(doubledata rate SDRAM,DDR SDRAM)、图形化双倍数据传输率同步动态随机存取存储器(graphics double data rate SDRAM,GDDR SDRAM)、低功耗双倍数据传输率同步动态随机存取存储器(low power double data rate SDRAM,LPDDR SDRAM)、高带宽内存(highbandwidth memory,HBM)等。或者,本申请实施例中的存储设备还可以是包括易失性存储介质和非易失性存储介质的存储器,例如可以是固态硬盘等。存储设备中的易失性存储介质可以为固态硬盘中的高速缓冲存储器(cache)。或者,本申请实施例中的存储设备可以是处理器或芯片系统(system on chip,SOC)的内核外的缓存。处理器可以是中央处理器(central processing unit,CPU)或图形处理器(graphics processing unit,GPU)等,该存储设备可以是一级缓存(level 1cache,L1 cache)或二级缓存(level 2cache,L2cache)等,本申请实施例并不限定。
图1是计算设备100的示意性系统架构图。计算设备100可以包括处理器110、控制电路111、运算电路112、缓存控制器113、缓存114、内存控制器120、内存121、外部存储器接口130、扬声器140以及显示屏150等。
可以理解的是,本申请实施例示意的结构并不构成对计算设备100的具体限定。在本申请另一些实施例中,计算设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110包括控制电路111、运算电路112、缓存控制器113与缓存114。在一些实施例中,计算设备100也可以包括一个或多个处理器110。处理器110可以是CPU或者GPU等。处理器110可以从易失性存储器的控制器中获得该易失性存储器的工作信息集合,从而确定该易失性存储器发生不可纠正错误的风险评估结果,以判断易失性存储器的健康状态。例如,处理器110可以从缓存控制器113中获得缓存114的工作信息集合,从而确定缓存114发生不可纠正错误的风险评估结果。或者,处理器110可以从内存控制器120中的硬件寄存器中获得内存121的工作信息集合,从而确定内存121发生不可纠正错误的风险评估结果,以判断内存的健康状态。处理器110还可以获得不可纠正错误模型(pattern),该不可纠正错误pattern是根据易失性存储器的纠错算法所确定的数据。处理器110可以根据该不可纠正错误pattern与该易失性存储器的工作信息集合,确定该易失性存储器发生不可纠正错误的风险评估结果。当易失性存储器发生不可纠正错误的概率较低时,易失性存储器的健康状态较优,此时不需要更换该易失性存储器。当易失性存储器发生不可纠正错误的概率较大时,易失性存储器的健康状态为差,此时需要更换该易失性存储器。该易失性存储器可以是缓存114,也可以是内存121。或者,该易失性存储器可以是通过外部存储器接口130与处理器110连接的易失性存储器或包括易失性存储介质的非易失性存储器。本申请实施例并不限定。
控制电路111可以包括指令寄存器、指令译码器和操作控制器。控制电路111可以根据预先设定的程序,从缓存114或内存121中获得一条或多条指令。控制电路111还可以根据获得的指令确定应该执行的操作,并向相应的部件发出微操作控制信号。
运算电路112可以根据来自于控制电路111的控制指令,从缓存114中获得数据,并进行算数或逻辑运算。
缓存114可以保存控制电路111刚用过或循环使用的指令或数据。如果控制电路111需要再次使用该指令或数据,可从缓存114中直接调用。这样就避免了重复存取,减少了控制电路111的等待时间,因而提高了计算设备100处理数据或执行指令的效率。缓存控制器113可以检测缓存是否发生错误,该错误可以是可纠正错误,也可以是不可纠正错误。缓存控制器113还可以在检测到缓存发生可纠正错误时,收集缓存114的工作信息,从而使处理器110可以通过缓存控制器113获得缓存114的工作信息集合。缓存114的工作信息集合中包含缓存114发生的可纠正错误的信息,该可纠正错误的信息可以包括以下信息中的任一个或多个:发生可纠正错误的时间、可纠正错误的错误数据在缓存中的地址、或可纠正错误的错误数据。缓存114的工作信息集合还可以包括缓存114的总访问次数或与可纠正错误的错误数据对应的正确数据。
可选地,缓存控制器113可以通过错误校验码(error correction code,ECC)算法检测缓存是否发生错误。具体检测方式为:在数据写入缓存时,ECC算法可以根据该数据产生第一错误校验码,并加入到该数据的额外数据位中,该数据与第一错误校验码可以保存在缓存中。当该数据被读出时,ECC算法可以根据被读出的数据产生第二错误校验码,将第一错误校验码与第二错误校验码进行比较,检测缓存是否发生错误。如果第一错误校验码与第二错误校验码相同,则表示缓存114没有发生错误;如果第一错误校验码和第二错误校验码不同,则表示缓存114发生错误。如果缓存114发生的错误为可纠正错误,则可以使用第一错误校验码和第二错误校验码确定具体出错的数据位,从而获得正确数据。如果缓存发生的错误为不可纠正错误,则无法根据第一错误校验码和第二错误校验码获得正确数据。也就是说,当缓存发生不可纠正错误时,从缓存中读出的数据为错误数据,该错误数据可能会对整个计算设备造成影响。
例如,若写入数据为10010110,则该写入数据的第0位至第7位数据分别为0、1、1、0、1、0、0、1。根据ECC算法,对该写入数据的第0、2、4、6位的数据进行异或,可以获得该写入数据的第0、2、4、6位的校验位为0。同理可以获得该写入数据的第0、1、4、5位的校验位为0,该写入数据的第0、1、2、3位的校验位为0,该写入数据的第4、5、6、7位的校验位为0。根据ECC算法,对该写入数据的第0位至第7位数据进行异或,可以获得该写入数据的行校验位为0。也就是说,根据写入数据10010110,可以确定该写入数据的第一错误校验码为00000。第一错误校验码的第0位至第5位数据分别为该写入数据的第0、2、4、6位的校验位、该写入数据的第0、1、4、5位的校验位、该写入数据的第0、1、2、3位的校验位、该写入数据的第4、5、6、7位的校验位、该写入数据的行校验位。
例如,若读出数据为10010111,则根据ECC算法可以获得该读出数据的第二错误校验码为10111。由于该第二错误校验码与第一错误校验码不相同,因此可以确定发生了错误。由于该读出数据的第4、5、6、7位的校验位为0,并且其余校验位为1,则可以假设该读出数据发生了一个数据位错误。同时由于该读出数据的第4、5、6、7位的校验位与写入数据的第4、5、6、7位的校验位相同,则可以确定该读出数据的第4、5、6、7位未发生错误。由于该读出数据的第0、2、4、6位的校验位为1、该读出数据的第0、1、4、5位的校验位为1、该读出数据的第0、1、2、3位的校验位为1,因此可以确定该出错的数据位为第0位。对读出数据的第0位数据进行修复,可以获得10010110。根据ECC算法,修复后的数据可以获得的第三错误校验码为000000,与第一错误校验码相同。因此,根据ECC算法,可以将该读出数据修复为10010110。由于修复后的数据与写入数据一致,因此发生的是可纠正错误,不会对计算设备100产生影响。
例如,若读出数据为01011001,则根据ECC算法可以获得该读出数据的第二错误校验码为00001。由于该第二错误校验码与第一错误校验码不同,因此可以确定发生了错误。由于该读出数据的第0、2、4、6位的校验位为1,并且其余校验位为0,则可以假设该读出数据发生了两个数据位错误。同时由于该读出数据的第0、2、4、6位的校验位为1、该读出数据的第0、1、4、5位的校验位为0、该读出数据的第0、1、2、3位的校验位为0、该读出数据的第4、5、6、7位的校验位为0,则可以确定该读出数据的第0、2、4、6位中的一位发生了错误,并且该读出数据的其余数据位中的一位也发生了错误。若假设第4、5位数据位发生了错误,则可以对读出数据的第4、5位数据进行修复,获得01101001。根据ECC算法,修复后的数据可以获得的第三错误校验码为00000,与第一错误校验码相同。因此,根据ECC算法,可以将该读出数据修复为01011001。由于修复后的数据与写入数据不一致,因此发生的是不可纠正错误,可能会对计算设备100产生影响。
内存控制器120可以控制内存121,并且可以负责内存121与处理器110之间的数据交换。内存控制器120还可以检测内存121是否发生错误,该错误可以包括可纠正错误或不可纠正错误。内存控制器120可以在检测到内存发生可纠正错误时,收集内存121的工作信息,从而使处理器110可以从内存控制器120中获得内存121的工作信息集合。内存121的工作信息集合中包含内存121发生可纠正错误的信息,该工作信息集合中的每条工作信息可以包括以下信息中的任一个或多个:发生可纠正错误的时间、可纠正错误的错误数据在内存中的地址、或可纠正错误的错误数据。内存121的工作信息集合还可以包括内存121的总访问次数或与可纠正错误的错误数据对应的正确数据。
可选地,内存控制器120可以通过ECC算法检测业务内存是否发生错误。业务内存为正在与处理器110或外部存储器进行数据交换的内存。
可选地,内存控制器120可以通过内存控制器120中的硬件引擎后台检测业务内存是否发生错误。具体实现方式为:硬件引擎后台在不影响正常读写的前提下读取业务内存中的数据,如果根据读取的数据计算的第二错误校验码与该数据的额外数据位中的第一错误校验码不相同,则表示业务内存发生错误。
可选地,内存控制器120可以通过内存控制器120中的内存管理模块检测空闲内存是否发生错误。具体实现方式为:内存管理模块将数据写入空闲内存,然后再从空闲内存中读取数据,并对写入时的数据与读取时的数据进行比较。若写入时的数据与读取时的数据一致,则表示该空闲内存未发生错误。若写入时的数据与读取时的数据不一致,则表示该空闲内存发生错误。
外部存储器接口130可以用于连接外部存储器,例如易失性存储器或非易失性存储器等,实现扩展计算设备100的存储能力。外部存储器通过外部存储器接口130与处理器110通信,实现数据存储功能。
计算设备100可以通过扬声器140实现音频功能,例如播放音乐等。
显示屏150用于显示文字、图像、视频等。显示屏150包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED)、柔性发光二极管(flex light-emitting diode,FLED)、Miniled、MicroLed、Micro-oLed、量子点发光二极管(quantum dotlight emitting diodes,QLED)等。计算设备100通过显示屏150实现显示功能。在一些实施例中,计算设备100可以包括1个或多个显示屏150。
图1中的计算设备100可以通过扬声器140或显示屏150向用户发出提示信息。该提示信息可以用于指示该计算设备100中的易失性存储介质发生了不可纠正错误,或者,该提示信息可以用于指示该计算设备100中的易失性存储介质发生不可纠正错误的风险评估结果。或者,该提示信息可以用于指示该计算设备100中发生不可纠正错误的易失性存储介质的标识信息。该标识信息可以包括该发生不可纠正错误的易失性存储介质的产品编号或具体位置等信息。
图1中的计算设备100可以预测易失性存储介质的不可纠正错误,从而判断易失性存储介质的健康状态,以指导用户可以进行更换,避免影响计算设备或易失性存储介质的正常工作。
图2是易失性存储介质不可纠正错误的预测方法的示意性流程图,图2中的方法包括如下步骤。
S210,获取存储设备中的易失性存储介质的工作信息集合。
计算设备可以获得存储设备中的易失性存储介质的工作信息集合,该存储设备可以在该计算设备中,或者该存储设备可以与该计算设备相连接。
可选地,该计算设备可以实时、持续性的获得该易失性存储介质的工作信息集合,也可以周期性的获得该易失性存储介质的工作信息集合。该计算设备还可以在易失性存储介质发生第n个可纠正错误后获得该易失性存储介质的工作信息集合,n为预设阈值。或者该计算设备可以在接收到获取指令后获得该易失性存储介质的工作信息集合,本申请实施例对此并不限定。
可选地,工作信息集合可以包括易失性存储介质发生的可纠正错误的信息,该可纠正错误的信息可以包括以下信息中的任一个或多个:发生可纠正错误的时间、可纠正错误的错误数据在易失性存储介质中的地址、或可纠正错误的错误数据。
可选地,易失性存储介质发生的任一个可纠正错误的信息可以为一条工作信息。也就是说,工作信息集合可以包括至少一条工作信息,至少一条工作信息中的每条工作信息为易失性存储介质发生的一个可纠正错误的信息。每条工作信息可以包括以下信息中的任一个或多个:发生可纠正错误的时间、可纠正错误的错误数据在易失性存储介质中的地址、或可纠正错误的错误数据。
可选地,可纠正错误的错误数据在易失性存储介质中的地址可以包括:该可纠正错误的错误数据在该易失性存储介质中所属存储矩阵(bank)的标识、该错误数据在该所属存储矩阵中的所属存储行(row)的标识或所属存储列(column)的标识中的任一个或多个。
可选地,可纠正错误的错误数据在易失性存储介质中的地址还可以包括:该可纠正错误的错误数据在该易失性器中所属DQ的标识或该可纠正错误的错误数据在该易失性存储介质中所属存储区块(rank)的标识。
可选地,该易失性存储介质的工作信息集合还可以包括该易失性存储介质的总访问次数或与可纠正错误的错误数据对应的正确数据。
S220,根据工作信息集合和预测模型,确定易失性存储介质发生不可纠正错误的风险评估结果。
计算设备可以根据易失性存储介质的工作信息集合与预测模型,对易失性存储介质发生不可纠正错误的风险进行评估,从而获得风险评估结果。
可选地,计算设备可以根据易失性存储介质的工作信息集合,直接对易失性存储介质发生不可纠正错误的风险进行评估。
可选地,计算设备可以根据工作信息集合中的每条工作信息包括的任一个或多个信息,确定易失性存储介质发生不可纠正错误的风险评估结果。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于同一存储矩阵,则可以表示该易失性存储介质发生不可纠正错误的概率较低,即该易失性存储介质发生不可纠正错误的风险较低。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于同一存储行,则可以表示该易失性存储介质发生不可纠正错误的概率较低,即该易失性存储介质发生不可纠正错误的风险较低。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于同一存储列,则可以表示该易失性存储介质发生不可纠正错误的概率较低,即该易失性存储介质发生不可纠正错误的风险较低。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于同一存储矩阵,并且每个错误数据在所属存储矩阵中属于同一存储行,则可以表示该易失性存储介质发生不可纠正错误的概率较低,即该易失性存储介质发生不可纠正错误的风险较低。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于同一存储矩阵,并且每个错误数据在所属存储矩阵中属于同一存储列,则可以表示该易失性存储介质发生不可纠正错误的概率较低,即该易失性存储介质发生不可纠正错误的风险较低。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于同一存储矩阵,并且每个错误数据在所属存储矩阵中属于同一存储行与同一存储列,则可以表示该易失性存储介质发生不可纠正错误的概率较低,即该易失性存储介质发生不可纠正错误的风险较低。
例如,若可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以表示该易失性存储介质发生不可纠正错误的概率较低。该情况一为:每个错误数据属于同一DQ,并且每个错误数据在所属DQ中属于同一存储矩阵、以及在所属存储矩阵中属于同一存储列与同一存储行。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以表示该易失性存储介质发生不可纠正错误的概率较高。该情况二为:每个错误数据属于不同DQ,每个错误数据在所属DQ中属于不同存储矩阵,并且每个错误数据在所属存储矩阵中属于不同存储列或不同存储行。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的时间超出预设时间范围,则可以表示该易失性存储介质发生不可纠正错误的概率较低,即该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的时间在预设时间范围内,则可以表示该易失性存储介质发生不可纠正错误的概率较高,即该易失性存储介质发生不可纠正错误的风险较高。
可选地,计算设备可以根据工作信息集合中包括的工作信息的条数,确定易失性存储介质发生可纠正错误的数量。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,则可以表示该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。第一预设阈值可以是大于等于10,小于等于40的正整数。例如,第一预设阈值可以是20、25、30等。
例如,若易失性存储介质发生可纠正错误的数量高于第一预设阈值,并低于第二预设阈值,则可以表示该易失性存储介质发生不可纠正错误的概率较为中等。也就是说,此时该易失性存储介质发生不可纠正错误的风险评估结果为中风险。第二预设阈值可以是大于70,小于等于100的正整数。例如,第二预设阈值可以是80、85、90等。如果第一预设阈值或第二预设阈值设置的越大,则可能在确定易失性存储介质发生不可纠正错误的风险评估结果前,该易失性存储介质已经发生了不可纠正错误,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。如果第一预设阈值或第二预设阈值设置的越小,则可能在易失性存储介质发生不可纠正错误的概率较低情况下,确定该易失性存储介质发生不可纠正错误的风险评估结果为中风险或高风险,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,则可以表示该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,并且该易失性存储介质的总访问次数高于第三预设阈值,则可以表示该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。第三预设阈值可以是大于700,小于等于1000的正整数。例如,第三预设阈值可以是800、850、900等。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,并且该易失性存储介质的总访问次数低于第四预设阈值,则可以表示该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。第四预设阈值可以是大于100,小于等于400的正整数。例如,第四预设阈值可以是200、250、300等。如果第三预设阈值或第四预设阈值设置的越大,则可能在确定易失性存储介质发生不可纠正错误的风险评估结果前,该易失性存储介质已经发生了不可纠正错误,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。如果第三预设阈值或第四预设阈值设置的越小,则可能在易失性存储介质发生不可纠正错误的概率较低情况下,确定该易失性存储介质发生不可纠正错误的风险评估结果为中风险或高风险,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,并且该易失性存储介质发生可纠正错误的时间超出预设时间范围,则可以表示该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,并且该易失性存储介质发生可纠正错误的时间在预设时间范围内,则可以表示该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址属于同一存储矩阵,则可以表示此时该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址属于不同存储矩阵,则可以表示此时该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以表示此时该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以表示此时该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质的总访问次数高于第三预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以表示此时该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质的总访问次数低于第四预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以表示此时该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质发生可纠正错误的时间超出预设时间范围,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以表示此时该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质发生可纠正错误的时间在预设时间范围内,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以表示此时该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质的总访问次数高于第三预设阈值,并且该易失性存储介质发生可纠正错误的时间超出预设时间范围,则可以表示此时该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质的总访问次数低于第四预设阈值,并且该易失性存储介质发生可纠正错误的时间在预设时间范围内,则可以表示此时该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质的总访问次数高于第三预设阈值,该易失性存储介质发生可纠正错误的时间超出预设时间范围,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以表示此时该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质的总访问次数低于第四预设阈值,该易失性存储介质发生可纠正错误的时间在预设时间范围内,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以表示此时该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
可选地,第一预设阈值、第二预设阈值、第三预设阈值、或第四预设阈值中的任一个或多个的实际取值或取值范围依赖于具体的易失性存储介质。针对不同的易失性存储介质,每个预设阈值的实际取值或取值范围可以相同,也可以不同,本申请实施例并不限定。
可选地,预测模型可以是易失性存储介质的工作信息集合与风险评估结果之间的映射关系。
可选地,预测模型可以是根据训练数据集,通过机器学习训练获得的模型。该训练数据集可以包括易失性存储介质的工作信息集合、风险评估结果、以及工作信息集合与风险评估结果之间的映射关系。或者,该训练数据集还可以包括故障原因、工作信息集合与故障原因的映射关系、以及故障原因与风险评估结果之间的映射关系。
可选地,在步骤S220前,计算设备可以获得已经训练好的预测模型。或者,在步骤S220前,计算设备可以获得训练数据集,并根据该训练数据集对模型进行训练,从而获得已经训练好的预测模型。
可选地,预测模型可以包括第一预测模型和第二预测模型。计算设备可以根据工作信息集合与第一预测模型,确定该易失性存储介质的故障原因。该计算设备还可以根据该故障原因与第二预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。具体方式可以参见图3的描述。
可选地,计算设备可以根据易失性存储介质的工作信息集合、发生可纠正错误的数量与工作信息集合的统计周期的时长,确定该易失性存储介质的错误特征集合。该易失性存储介质的错误特征集合可以包括以下信息中的任一个或多个:错误率、单位时间内发生的可纠正错误的数量、或可纠正错误在易失性存储介质中的存储单元中的分布情况。计算设备可以根据第一预测模型与该易失性存储介质的错误特征集合,确定该易失性存储介质的故障原因。该计算设备还可以根据该易失性存储介质的故障原因与第二预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。具体方式可以参见图4的描述。
可选地,计算设备可以对每条工作信息包括的可纠正错误的错误数据与对应于错误数据的正确数据进行逻辑运算,获得每条工作信息对应的运算结果。计算设备可以根据不可纠正错误模型、每条工作信息对应的运算结果与预测模型,确定风险评估结果。具体方式可以参见图5的描述。
计算设备可以根据易失性存储介质的工作信息集合与预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果,从而判断该易失性存储介质的健康状态。计算设备可以根据该易失性存储介质的健康状态,指导用户可以进行更换,避免影响计算设备或易失性存储介质的正常工作。
图3是易失性存储介质不可纠正错误的预测方法的示意性流程图,图3中的方法包括如下步骤。
S310,根据工作信息集合与第一预测模型,确定故障原因。
计算设备可以根据S210中获得的易失性存储介质的工作信息集合与第一预测模型,确定易失性存储介质的故障原因。
可选地,计算设备可以根据易失性存储介质的工作信息集合与第一预测模型,直接确定易失性存储介质的故障原因。
可选地,计算设备可以根据工作信息集合中的每条工作信息包括的任一个或多个信息,确定易失性存储介质的故障原因。
可选地,易失性存储介质的故障原因可以包括以下任一种或多种:电容漏电、字线(word line,WL)故障、子字线驱动器(sub-word driver,SWD)故障、主字线驱动器(main-word driver,MWD)故障、位线(bit line,BL)故障、敏感放大器(sense amplifier,SA)故障、存储矩阵(bank)控制电路故障、接触不良、或信号裕量(margin)不足等。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于同一存储矩阵,则可以确定易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、WL故障、BL故障、或电容漏电。
例如,若可纠正错误的错误数据在易失性存储介质中的地址属于不同存储矩阵,则可以确定易失性存储介质的故障原因包括bank控制电路故障、接触不良、或margin不足。
例如,若可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以确定易失性存储介质的故障原因包括电容漏电或接触不良。该情况一为:每个错误数据属于同一DQ,并且每个错误数据在所属DQ中属于同一存储矩阵、以及在所属存储矩阵中属于同一存储列与同一存储行。
例如,若可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以确定易失性存储介质的故障原因包括bank控制电路故障、MWD故障、或SA故障。该情况二为:每个错误数据属于不同DQ,每个错误数据在所属DQ中属于不同存储矩阵,并且每个错误数据在所属存储矩阵中属于不同存储列或不同存储行。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质发生可纠正错误的时间超出预设时间范围,则可以确定易失性存储介质的故障原因包括WL故障、BL故障、电容漏电、接触不良、或margin不足。
例如,若易失性存储介质发生可纠正错误的时间在预设时间范围内,则可以确定易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,则可以确定此时易失性存储介质的故障原因包括WL故障、BL故障、电容漏电、接触不良、或margin不足。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,则可以确定此时易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、bank控制电路故障、接触不良、或margin不足。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,并且该易失性存储介质的总访问次数高于第三预设阈值,则可以确定易失性存储介质的故障原因包括WL故障、BL故障、电容漏电或接触不良。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,并且该易失性存储介质的总访问次数低于第四预设阈值,则可以确定易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,并且该易失性存储介质发生可纠正错误的时间超出预设时间范围,则可以确定易失性存储介质的故障原因包括电容漏电、接触不良、或margin不足。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,并且该易失性存储介质发生可纠正错误的时间在预设时间范围内,则可以确定易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以确定易失性存储介质的故障原因包括电容漏电或接触不良。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以确定易失性存储介质的故障原因包括SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质的总访问次数高于第三预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以确定易失性存储介质的故障原因包括电容漏电或接触不良。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质的总访问次数低于第四预设阈值,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以确定易失性存储介质的故障原因包括SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质发生可纠正错误的时间超出预设时间范围,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以确定易失性存储介质的故障原因包括电容漏电或接触不良。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质发生可纠正错误的时间在预设时间范围内,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以确定易失性存储介质的故障原因包括SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质的总访问次数高于第三预设阈值,并且该易失性存储介质发生可纠正错误的时间超出预设时间范围,则可以确定易失性存储介质的故障原因包括电容漏电。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质的总访问次数低于第四预设阈值,并且该易失性存储介质发生可纠正错误的时间在预设时间范围内,则可以确定易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质发生可纠正错误的数量低于第一预设阈值,该易失性存储介质的总访问次数高于第三预设阈值,该易失性存储介质发生可纠正错误的时间超出预设时间范围,并且可纠正错误的错误数据在易失性存储介质中的地址为情况一,则可以确定易失性存储介质的故障原因包括电容漏电。
例如,若易失性存储介质发生可纠正错误的数量高于第二预设阈值,该易失性存储介质的总访问次数低于第四预设阈值,该易失性存储介质发生可纠正错误的时间在预设时间范围内,并且可纠正错误的错误数据在易失性存储介质中的地址为情况二,则可以确定易失性存储介质的故障原因包括bank控制电路故障。
可选地,第一预测模型可以是易失性存储介质的工作信息集合与故障原因之间的映射关系。
可选地,第一预测模型可以是根据训练数据集,通过机器学习训练获得的模型。该训练数据集可以包括易失性存储介质的工作信息集合、故障原因、以及工作信息集合与故障原因之间的映射关系。
可选地,在步骤S310前,计算设备可以获得已经训练好的第一预测模型。或者,在步骤S310前,计算设备可以获得训练数据集,并根据该训练数据集对模型进行训练,从而获得已经训练好的第一预测模型。
可选地,计算设备可以根据易失性存储介质的工作信息集合、发生可纠正错误的数量与工作信息集合的统计周期的时长,确定该易失性存储介质的错误特征集合。该错误特征集合可以包括以下信息中的任一个或多个:错误率、单位时间内发生的可纠正错误的数量、或可纠正错误在易失性存储介质中的存储单元中的分布情况。计算设备还可以根据第一预测模型与该易失性存储介质的错误特征集合,确定该易失性存储介质的故障原因。具体方式可以参见图4的描述。
S320,根据故障原因与第二预测模型,确定风险评估结果。
计算设备可以根据易失性存储介质的故障原因与第二预测模型,判断易失性存储介质发生故障的严重程度,从而确定易失性存储介质发生不可纠正错误的风险评估结果。
可选地,第二预测模型可以是故障原因与风险评估结果之间的映射关系。
可选地,第二预测模型可以是根据训练数据集,通过机器学习训练获得的模型。该训练数据集可以包括故障原因、风险评估结果、以及故障原因与风险评估结果之间的映射关系。
可选地,在步骤S320前,计算设备可以获得已经训练好的第二预测模型。或者,在步骤S320前,计算设备可以获得训练数据集,并根据该训练数据集对模型进行训练,从而获得已经训练好的第二预测模型。
例如,若易失性存储介质的故障原因包括电容漏电时,则可以表示当前易失性存储介质发生的故障较为轻微,此时易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质的故障原因包括WL故障、BL故障、接触不良或margin不足中的任一种或多种时,则可以表示当前易失性存储介质发生的故障的严重程度较为中等,此时易失性存储介质发生不可纠正错误的概率较为中等。也就是说,此时该易失性存储介质发生不可纠正错误的风险较为中等。
例如,若易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、或bank控制电路故障中的任一种或多种时,则可以表示当前易失性存储介质发生的故障较为严重,此时易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
可选地,计算设备可以根据易失性存储介质的故障原因和风险评估表,确定易失性存储介质发生不可纠正错误的风险评估结果。
例如,风险评估表如表1所示。
表1风险评估表
故障原因 风险评估结果
SWD故障
SA故障
MWD故障
bank控制电路故障
WL故障
BL故障
margin不足
接触不良
电容漏电
可选地,表1用于指示每个故障原因和风险评估结果的对应关系。在一些实施例中,故障原因和风险评估结果可能存在其他对应关系,本申请实施例并不限定。
可选地,若计算设备确定的易失性存储介质的故障原因为多个时,可以根据每个故障原因对应的风险评估结果中等级最高的风险评估结果,确定该易失性存储介质发生不可纠正错误的风险评估结果。
例如,当易失性存储介质的故障原因包括电容漏电、接触不良、与bank控制电路故障时,可以确定每个故障原因对应的风险评估结果中等级最高的风险评估结果为高风险,因此该易失性存储介质发生不可纠正错误的概率较高。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
可选地,若计算设备确定的易失性存储介质的故障原因为多个时,可以根据故障原因的发生概率,确定该易失性存储介质发生不可纠正错误的风险评估结果。
例如,当易失性存储介质的故障原因包括电容漏电或接触不良,并且电容漏电发生的概率较大时,可以确定该易失性存储介质发生不可纠正错误的概率较低。也就是说,此时该易失性存储介质发生不可纠正错误的风险较低。
例如,当易失性存储介质的故障原因包括WL故障、BL故障、电容漏电、接触不良和margin不足,并且其中严重程度较为中等的故障发生的概率较大时,可以确定该易失性存储介质发生不可纠正错误的概率较为中等。也就是说,此时该易失性存储介质发生不可纠正错误的风险较为中等。
例如,当易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、bank控制电路故障、接触不良和margin不足,并且其中较为严重的故障发生的概率较大时,可以确定该易失性存储介质发生不可纠正错误的概率较大。也就是说,此时该易失性存储介质发生不可纠正错误的风险较高。
可选地,在一些实施例中,当计算设备确定易失性存储介质的故障原因为多个,并且每个故障原因对应的风险评估结果相同时,可以将该易失性存储介质发生不可纠正错误的风险评估结果确定为更高一级的风险评估结果。
例如,若计算设备确定易失性存储介质的故障原因包括WL故障和BL故障,则可以确定该易失性存储介质发生不可纠正错误的风险评估结果为高风险。
可选地,当易失性存储介质发生不可纠正错误的风险较高时,该易失性存储介质的健康状态较差,需要进行更换。当易失性存储介质发生不可纠正错误的风险较低时,该易失性存储介质的健康状态较好,不需要进行更换。
计算设备可以根据易失性存储介质的工作信息集合与第一预测模型,确定该易失性存储介质的故障原因。并且计算设备可以根据该易失性存储介质的故障原因与第二预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。计算设备可以根据该易失性存储介质发生不可纠正错误的风险评估结果,判断该易失性存储介质的健康状态,从而指导用户进行更换,避免影响计算设备或易失性存储介质的正常工作。
图4是易失性存储介质不可纠正错误的预测方法的示意性流程图,图4中的方法包括如下步骤。
S410,根据工作信息集合、发生可纠正错误的数量与统计周期的时长,确定该易失性存储介质的错误特征集合。
可选地,计算设备可以根据S210中获得的易失性存储介质的工作信息集合中包括的工作信息的条数,确定该易失性存储介质发生可纠正错误的数量。
可选地,在易失性存储介质的工作信息集合中的每条工作信息包括可纠正错误的错误数据在易失性存储介质中的地址,并且工作信息集合还包括易失性存储介质的总访问次数的情况下,计算设备可以根据该工作信息集合、发生可纠正错误的数量与统计周期的时长,确定该易失性存储介质的错误特征集合。该统计周期为工作信息集合的统计周期。该错误特征集合可以包括以下信息中的任一个或多个:错误率、单位时间内发生的可纠正错误的数量、或可纠正错误在易失性存储介质中的存储单元中的分布情况。
可选地,计算设备可以根据易失性存储介质的工作信息集合,实时、持续性地获得该易失性存储介质的错误特征集合,也可以周期性地获得该易失性存储介质的错误特征集合。或者,计算设备可以在易失性存储介质发生第n个可纠正错误后获得该易失性存储介质的错误特征集合,n为预设阈值。或者,计算设备可以在接收到获取指令后获得该易失性存储介质的错误特征集合,本申请实施例对此并不限定。
可选地,计算设备可以根据每条工作信息中包括的可纠正错误的错误数据在易失性存储介质中的地址,确定统计周期内发生的可纠正错误在易失性存储介质中的存储单元的分布情况。该存储单元可以包括以下任一个或多个:存储矩阵、存储行、存储列、存储区块、或DQ。也就是说,分布情况可以包括可纠正错误的错误数据的地址所属存储矩阵的标识、所属存储行的标识、所属存储列的标识、所属存储区块的标识中、或所属DQ的标识中的任一个或多个是否相同。
例如,可纠正错误在易失性存储介质中的分布情况的可能情况如下表2所示。
表2可纠正错误的分布情况
若可纠正错误在该易失性存储介质中的分布情况为表2中的分布情况1时,则可以表示该易失性存储介质中仅发生了一个错误。或者,分布情况1可以表示该易失性存储介质中发生了多个可纠正错误,并且多个可纠正错误的错误数据仅分布在一个DQ中,每个错误数据所属rank的标识、每个错误数据在所属rank中的所属bank的标识、每个错误数据在所属bank中的所属row的标识与所属column的标识均相同。
若可纠正错误在易失性存储介质中的分布情况为表2中的分布情况10,则可以表示易失性存储介质中发生了多个可纠正错误。该多个可纠正错误的错误数据分布在多个DQ中,并且每个错误数据所属rank的标识相同,每个错误数据在所属rank中的所属bank的标识不同,每个错误数据在所属bank中的所属row的标识或所属column的标识不同。
可选地,计算设备可以根据易失性存储介质的总访问次数和该易失性存储介质发生可纠正错误的数量,确定该易失性存储介质的错误率。
可选地,由于易失性存储介质中可以包括一个或多个存储矩阵,因此易失性存储介质的错误率可以包括一个或多个存储矩阵的错误率。每个存储矩阵的错误率可以为每个存储矩阵发生可纠正错误的数量与每个存储矩阵的总访问次数之比。
可选地,计算设备可以根据易失性存储介质发生可纠正错误的数量与工作信息集合的统计周期的时长,确定该易失性存储介质在单位时间内发生的可纠正错误的数量。
可选地,计算设备可以获得第一时间范围内易失性存储介质发生可纠错误的数量,从而确定该易失性存储介质在单位时间内发生的可纠正错误的数量。该第一时间范围可以是开始记录易失性存储介质发生可纠正错误的时间与结束记录该易失性存储介质发生可纠正错误的时间的差值。或者,该第一时间范围可以是统计周期。
可选地,计算设备可以获得第二时间范围内易失性存储介质发生可纠错误的数量,从而确定该易失性存储介质在单位时间内发生的可纠正错误的数量。该第二时间范围可以是易失性存储介质发生第一错误的时间与发生第二错误的时间的差值。该第一错误与第二错误为该易失性存储介质发生的可纠正错误中的任意两个不同时发生的可纠正错误,并且易失性存储介质发生第一错误的时间早于易失性存储介质发生第二错误的时间。
可选地,易失性存储介质在单位时间内发生的可纠正错误的数量可以包括一个或多个存储矩阵在单位时间内发生的可纠正错误的数量。每个存储矩阵在单位时间内发生的可纠正错误的数量可以为每个存储矩阵发生可纠正错误的数量与时间范围之比。该时间范围可以是第一时间范围或第二时间范围,本申请实施例对此并不限定。
S420,根据易失性存储介质的错误特征集合与第一预测模型,确定易失性存储介质的故障原因。
当易失性存储介质出现了故障时,易失性存储介质会发生可纠正错误或不可纠正错误,并且不同的故障所导致的错误表现出的特征是不同的。因此计算设备可以根据步骤S410获得的易失性存储介质的错误特征集合与第一预测模型,确定该易失性存储介质的故障原因。
可选地,计算设备可以根据易失性存储介质的错误特征集合与第一预测模型,直接确定该易失性存储介质的故障原因。该错误特征集合可以包括以下信息中的任一个或多个:错误率、单位时间内发生的可纠正错误的数量、或可纠正错误在易失性存储介质中的存储单元中的分布情况。
可选地,若易失性存储介质的错误率低于第五预设阈值,则可以表示该易失性存储介质的错误率较低。若易失性存储介质的错误率高于第五预设阈值,并且该错误率低于第六预设阈值,则可以表示该易失性存储介质的错误率较为中等。若易失性存储介质的错误率高于第六预设阈值,则可以表示该易失性存储介质的错误率较高。第五预设阈值可以是大于等于0,小于0.2的正数。例如,第五预设阈值可以是0.01、0.1、0.15等。第六预设阈值可以是大于等于0.4,小于等于1的正数。例如,第六预设阈值可以是0.5、0.6、0.7等。如果第五预设阈值或第六预设阈值设置的越大,则可能在确定易失性存储介质发生不可纠正错误的风险评估结果前,该易失性存储介质已经发生了不可纠正错误,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。如果第五预设阈值或第六预设阈值设置的越小,则可能在易失性存储介质发生不可纠正错误的概率较低情况下,确定该易失性存储介质发生不可纠正错误的风险评估结果为中风险或高风险,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。
可选地,若易失性存储介质在单位时间内发生的可纠正错误的数量低于第七预设阈值,则可以表示该易失性存储介质在单位时间内发生的可纠正错误的数量较低。若易失性存储介质在单位时间内发生的可纠正错误的数量高于第七预设阈值,并且该单位时间内发生的可纠正错误的数量低于第八预设阈值,则可以表示该易失性存储介质在单位时间内发生的可纠正错误的数量较为中等。若易失性存储介质在单位时间内发生的可纠正错误的数量高于第八预设阈值,则可以表示该易失性存储介质在单位时间内发生的可纠正错误的数量较高。第七预设阈值可以是大于10,小于等于40的正整数。例如,第七预设阈值可以是15、20、25等。第八预设阈值可以是大于70,小于等于100的正整数。例如,第七预设阈值可以是75、80、85等。如果第七预设阈值或第八预设阈值设置的越大,则可能在确定易失性存储介质发生不可纠正错误的风险评估结果前,该易失性存储介质已经发生了不可纠正错误,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。如果第七预设阈值或第八预设阈值设置的越小,则可能在易失性存储介质发生不可纠正错误的概率较低情况下,确定该易失性存储介质发生不可纠正错误的风险评估结果为中风险或高风险,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。
可选地,第五预设阈值、第六预设阈值、第七预设阈值、或第八预设阈值中的任一个或多个的实际取值或取值范围依赖于具体的易失性存储介质。针对不同的易失性存储介质,每个预设阈值的实际取值或取值范围可以相同,也可以不同,本申请实施例并不限定。
例如,若易失性存储介质的错误率为低时,则可以直接确定该易失性存储介质的故障原因包括WL故障、BL故障、电容漏电或margin不足。
例如,若易失性存储介质的错误率为高时,则可以直接确定该易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、bank控制电路故障、或接触不良。
例如,若易失性存储介质在单位时间内发生的可纠正错误的数量比例为低时,则可以直接确定该易失性存储介质的故障原因包括WL故障、BL故障、电容漏电、接触不良、或margin不足。
例如,若易失性存储介质在单位时间内发生的可纠正错误的数量比例为高时,则可以直接确定该易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、或bank控制电路故障。
例如,若可纠正错误在易失性存储介质中的分布情况为表2中的分布情况1时,则可以直接确定该易失性存储介质的故障原因包括WL故障或电容漏电。
例如,若可纠正错误在易失性存储介质中的分布情况为表2中的分布情况10时,则可以直接确定该易失性存储介质的故障原因包括SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质的错误率为低,并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况1时,则可以直接确定该易失性存储介质的故障原因包括WL故障或电容漏电。
例如,若易失性存储介质的错误率为高,并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况10时,则可以直接确定该易失性存储介质的故障原因包括SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质在单位时间内发生的可纠正错误的数量为低,并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况1时,则可以直接确定该易失性存储介质的故障原因包括WL故障或电容漏电。
例如,若易失性存储介质在单位时间内发生的可纠正错误的数量为高,并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况10时,则可以直接确定该易失性存储介质的故障原因包括SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质的错误率为低,并且该易失性存储介质在单位时间内发生的可纠正错误的数量为低时,则可以直接确定该易失性存储介质的故障原因包括电容漏电。
例如,若易失性存储介质的错误率为高,并且该易失性存储介质在单位时间内发生的可纠正错误的数量为高时,则可以直接确定该易失性存储介质的故障原因包括SWD故障、SA故障、MWD故障、或bank控制电路故障。
例如,若易失性存储介质的错误率与单位时间内发生的可纠正错误的数量均为低,并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况1时,则可以直接确定该易失性存储介质的故障原因为电容漏电。
例如,若易失性存储介质的错误率与单位时间内发生的可纠正错误的数量均为高,并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况10时,则可以直接确定该易失性存储介质的故障原因为bank控制电路故障。
可选地,计算设备可以根据易失性存储介质的错误率、单位时间内发生的可纠正错误的数量、或可纠正错误在易失性存储介质中的存储单元中的分布情况中的任一个或多个,从故障原因表中确定易失性存储介质的故障原因。
例如,若可纠正错误在易失性存储介质中的分布情况的可能情况如表2所示,则该易失性存储介质的故障原因表可以如下表3所示:
表3故障原因表
例如,若易失性存储介质的错误率为低、单位时间内发生的可纠正错误的数量为低、并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况1时,则可以根据表3所示的故障原因表,确定该易失性存储介质的故障原因为电容漏电。
例如,若易失性存储介质的错误率为高、单位时间内发生的可纠正错误的数量为高、并且可纠正错误在易失性存储介质中的分布情况为表2中的分布情况7时,则可以根据表3所示的故障原因表,确定该易失性存储介质的故障原因为SWD故障。
S430,根据故障原因与第二预测模型,确定风险评估结果。步骤S430的具体实现方式与步骤S320类似,此处不再赘述。
计算设备可以根据易失性存储介质的工作信息集合,确定该易失性存储介质的错误特征集合。计算设备可以根据该易失性存储介质的错误特征集合,确定该易失性存储介质的故障原因。计算设备还可以根据该易失性存储介质的故障原因与第二预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。因此,计算设备可以判断该易失性存储介质的健康状态,从而指导用户进行更换,避免影响计算设备或易失性存储介质的正常工作。
图5是易失性存储介质不可纠正错误的预测方法的示意性流程图,图5中的方法包括如下步骤。
S510,对每条工作信息包括的可纠正错误的错误数据与对应于错误数据的正确数据进行逻辑运算,获得每条工作信息对应的运算结果。
计算设备可以对工作信息集合中的每条工作信息包括的可纠正错误的错误数据和与该错误数据对应的正确数据进行逻辑运算,获得该错误数据与正确数据的运算结果。
可选地,该逻辑运算可以是异或运算、同或运算、与运算、或运算等逻辑运算中的任一种运算。
可选地,在步骤S510前,计算设备可以获得易失性存储介质的工作信息集合。该工作信息集合中的每条工作信息可以包括可纠正错误的错误数据。计算设备可以根据该易失性存储介质的纠错算法与该错误数据,获得与该错误数据对应的正确数据。或者,该工作信息集合中的每条工作信息可以包括可纠正错误的错误数据与正确数据,该错误数据与该正确数据对应。
S520,根据不可纠正错误模型、每条工作信息对应的运算结果与预测模型,确定风险评估结果。
由于每个纠错算法均可能存在一定的局限性,即对每个纠错算法而言,均可能存在一个或多个无法被该纠错算法进行纠错的数据。针对每个纠错算法,可以将该纠错算法无法纠错的数据作为不可纠正错误模型。同时,由于每个纠错算法的纠错原理为根据运算规则,对正确数据与错误数据进行运算,从而实现纠错功能。因此可以根据相似的运算规则对可纠正错误的正确数据与错误数据进行运算,获得运算结果,并通过比较该运算结果与不可纠正错误模型的相似度,确定该易失性存储介质发生不可纠正错误的风险评估结果。
可选地,在步骤S520前,计算设备可以获得该易失性存储介质的不可纠正错误模型。该不可纠正错误模型为根据该易失性存储介质的纠错算法的纠错原理所确定的数据。
可选地,计算设备可以对不可纠正错误模型与每条工作信息对应的运算结果进行比较,获得每条工作信息对应的相似度。计算设备还可以根据每条工作信息对应的相似度与预测模型,确定风险评估结果。
可选地,计算设备可以通过比较每条工作信息对应的运算结果与不可纠正错误模型的每个数据位的数据是否相同,获得数据相同的数据位数量,并将该数据位数量作为每条工作信息对应的相似度。
可选地,计算设备可以将每条工作信息对应的运算结果与不可纠正错误模型的数据同时为1的数据位数量作为每条工作信息对应的相似度。
可选地,计算设备可以将每条工作信息对应的运算结果与不可纠正错误模型的数据同时为0的数据位数量作为每条工作信息对应的相似度。
例如,假设易失性存储介质的纠错算法为ECC,并且该ECC的不可纠正错误模型为1101101111010000,ECC的纠错原理的运算规则为异或运算。若该易失性存储介质的工作信息集合中的任意三条工作信息包括的可纠正错误的错误数据、与该错误数据对应的正确数据、每条工作信息对应的异或运算结果、以及每条工作信息对应的相似度如表4所示。
表4相似度表
编号 错误数据 正确数据 异或运算结果 相似度
1 1101101111000000 0000000000000000 1101101111000000
2 0100101100010000 0000000000000000 0100101100010000
3 0000000000010000 0000000000000000 0000000000010000
例如,若易失性存储介质的工作信息集合中包括M条工作信息,并且其中的第m条工作信息包括的可纠正错误的错误数据、与该错误数据对应的正确数据、和与第m条工作信息对应的异或运算结果为表4中的第1行数据时,则可以确定该异或运算结果与不可纠正错误模型的相似度较高,即该可纠正错误无法被纠错算法纠错的概率较高。m=1,……M,M为大于或等于1的正整数。
例如,若易失性存储介质的第m条工作信息包括的可纠正错误的错误数据、与该错误数据对应的正确数据、和与第m条工作信息对应的异或运算结果为表4中的第3行数据时,则可以确定该异或运算结果与不可纠正错误模型的相似度较低,即该可纠正错误无法被纠错算法纠错的概率较低。
可选地,预测模型可以是每条工作信息对应的相似度与风险评估结果之间的映射关系。
可选地,预测模型可以是根据训练数据集,通过机器学习训练获得的模型。该训练数据集可以包括每条工作信息对应的相似度、风险评估结果、以及每条工作信息对应的相似度与风险评估结果之间的映射关系。
可选地,在步骤S520前,计算设备可以获得已经训练好的预测模型。或者,在步骤S520前,计算设备可以获得训练数据集,并根据该训练数据集对模型进行训练,从而获得已经训练好的预测模型。
可选地,若第m条工作信息对应的相似度较高,则可以表示第m条工作信息对应的可纠正错误无法被纠错算法纠错的概率较大,即此时该易失性存储介质发生不可纠正错误的风险较高。若第m条工作信息对应的相似度较低,则可以表示第m条工作信息对应的可纠正错误无法被纠错算法纠错的概率较低,即此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若易失性存储介质的第m条工作信息包括的可纠正错误的错误数据、与该错误数据对应的正确数据、和与第m条工作信息对应的异或运算结果为表4中的第1行数据时,则可以表示第m条工作信息对应的可纠正错误无法被纠错算法纠错的概率较大。也就是说,此时可以确定该易失性存储介质发生不可纠正错误的风险较高。
例如,若易失性存储介质的第m条工作信息包括的可纠正错误时的错误数据、与该错误数据对应的正确数据、和与第m条工作信息对应的异或运算结果为表4中的第3行数据时,则可以表示第m条工作信息对应的可纠正错误无法被纠错算法纠错的概率较低。也就是说,此时可以确定该易失性存储介质发生不可纠正错误的风险较低。
可选地,计算设备可以将每条工作信息对应的相似度与第九预设阈值进行比较,从而确定该易失性存储介质发生不可纠正错误的风险评估结果。第九预设阈值可以是大于等于10,小于等于16的正整数。例如,第九预设阈值可以是11、12、13等。如果第九预设阈值设置的越大,则可能在确定易失性存储介质发生不可纠正错误的风险评估结果前,该易失性存储介质已经发生了不可纠正错误,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。如果第九预设阈值设置的越小,则可能在易失性存储介质发生不可纠正错误的概率较低情况下,确定该易失性存储介质发生不可纠正错误的风险评估结果为高风险,即确定易失性存储介质发生不可纠正错误的风险评估结果的准确度越低。
可选地,第九预设阈值的实际取值或取值范围依赖于以下任一个或多个:易失性存储介质、纠错算法或读写数据的数据位数量。针对不同的易失性存储介质、纠错算法、或读写数据的数据位数量,第九预设阈值的实际取值或取值范围可以相同,也可以不同,本申请实施例并不限定。
例如,若第m条工作信息对应的相似度小于第九预设阈值,则可以表示第m条工作信息对应的可纠正错误无法被纠错算法纠错的概率较低,即此时该易失性存储介质发生不可纠正错误的风险较低。
例如,若第m条工作信息对应的相似度大于第九预设阈值,则可以表示第m条工作信息对应的可纠正错误无法被纠错算法纠错的概率较高,即此时该易失性存储介质发生不可纠正错误的风险较高。
可选地,计算设备可以根据每条工作信息对应的相似度与预测模型,确定每条工作信息对应的风险评估结果。计算设备还可以将等级最高的风险评估结果作为该易失性存储介质发生不可纠正错误的风险评估结果。
例如,假设易失性存储介质的工作信息集合中包括10条工作信息。若10条工作信息中的1条工作信息对应的风险评估结果为高风险,则可以确定该10条工作信息对应的风险评估结果中等级最高的风险评估结果为高风险。也就是说,该易失性存储介质发生不可纠正错误的风险评估结果为高风险。
可选地,计算设备可以根据每条工作信息对应的相似度与预测模型,确定每条工作信息对应的风险评估结果。计算设备还可以将出现频率最高的风险评估结果作为该易失性存储介质发生不可纠正错误的风险评估结果。
例如,假设易失性存储介质的工作信息集合中包括10条工作信息。若10条工作信息中的8条工作信息对应的风险评估结果为低风险,2条工作信息对应的风险评估结果为中风险,则可以确定该10条工作信息对应的风险评估结果中出现频率最高的风险评估结果为低风险,即该易失性存储介质发生不可纠正错误的风险评估结果为低风险。
例如,若10条工作信息中的8条工作信息对应的风险评估结果为高风险,2条工作信息对应的风险评估结果为中风险,则可以确定该10条工作信息对应的风险评估结果中出现频率最高的风险评估结果为高风险,即该易失性存储介质发生不可纠正错误的风险评估结果为高风险。
计算设备可以根据易失性存储介质的工作信息集合,获得该易失性存储介质发生可纠正错误时的错误数据与正确数据的运算结果。计算设备还可以获得不可纠正错误模型,并根据该不可纠正错误模型、该运算结果与预测模型,确定该易失性存储介质发生不可纠正错误的风险评估结果。因此,计算设备可以判断该易失性存储介质的健康状态,从而指导用户进行更换,避免影响计算设备或易失性存储介质的正常工作。
以上描述了根据本申请实施例的易失性存储介质不可纠正错误的预测方法,下面结合图6描述根据本申请实施例的计算装置和相关设备。
图6是根据本申请一个实施例的计算装置的结构示意图。计算装置600包括获取模块610和处理模块620。
获取模块610用于获得存储设备中的易失性存储介质的工作信息集合。获取模块610可以执行图2的方法中的步骤S210。
处理模块620用于根据工作信息集合与预测模型,确定易失性存储介质发生不可纠正错误的风险评估结果。处理模块620可以执行图2的方法中的步骤S220、图3的方法中的步骤S310、S320、图4的方法中的步骤S410至S430、图5的方法中的步骤S510、S520中的部分或全部步骤。
本申请实施例还提供了一种计算设备,该计算设备包括处理器,该处理器用于与存储器耦合,读取并执行该存储器中的指令和/或程序代码,以执行图2至图5中的各个步骤。
本申请实施例还提供了一种芯片系统,该芯片系统包括逻辑电路,该逻辑电路用于与输入/输出接口耦合,通过该输入/输出接口传输数据,以执行图2至图5中的各个步骤。
根据本申请实施例提供的方法,本申请还提供一种计算机程序产品,该计算机程序产品包括:计算机程序代码,当该计算机程序代码在计算机上运行时,使得该计算机执行图2至图5中的各个步骤。
根据本申请实施例提供的方法,本申请还提供一种计算机可读介质,该计算机可读介质存储有程序代码,当该程序代码在计算机上运行时,使得该计算机执行图2至图5中的各个步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读易失性存储器(read-only memory,ROM)、随机存取易失性存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种易失性存储介质不可纠正错误的预测方法,其特征在于,包括:
获取存储设备中的易失性存储介质的工作信息集合,所述工作信息集合中包括所述易失性存储介质发生的可纠正错误的信息,所述可纠正错误的信息包括以下信息中的任一个或多个:发生可纠正错误的时间、可纠正错误的错误数据在所述易失性存储介质中的地址、或所述可纠正错误的错误数据;
根据所述工作信息集合与预测模型,确定所述易失性存储介质发生不可纠正错误的风险评估结果。
2.根据权利要求1所述的方法,其特征在于,所述预测模型包括第一预测模型和第二预测模型,所述根据所述工作信息集合与预测模型,确定所述易失性存储介质发生不可纠正错误的风险评估结果,包括:
根据所述工作信息集合与所述第一预测模型,确定故障原因;
根据所述故障原因与所述第二预测模型,确定所述风险评估结果。
3.根据权利要求2所述的方法,其特征在于,所述易失性存储介质的故障原因包括以下任一个或多个:
电容漏电、字线故障、子字线驱动器故障、主字线驱动器故障、位线故障、敏感放大器故障、存储矩阵控制电路故障、接触不良、或信号裕量不足。
4.根据权利要求1所述的方法,其特征在于,在所述工作信息集合中的每条工作信息包括所述可纠正错误的错误数据的情况下,根据所述工作信息集合与预测模型,确定所述易失性存储介质发生不可纠正错误的风险评估结果,包括:
对所述每条工作信息包括的所述可纠正错误的错误数据和对应于所述错误数据的正确数据进行逻辑运算,获得所述每条工作信息对应的运算结果;
根据不可纠正错误模型、所述每条工作信息对应的运算结果与所述预测模型,确定所述风险评估结果。
5.根据权利要求4所述的方法,其特征在于,根据不可纠正错误模型、所述每条工作信息对应的运算结果与所述预测模型,确定所述风险评估结果,包括:
对所述不可纠正错误模型与所述每条工作信息对应的运算结果进行比较,获得每条工作信息对应的相似度;
根据所述每条工作信息对应的相似度与所述预测模型,确定所述每条工作信息对应的风险评估结果;
将等级最高的风险评估结果作为所述易失性存储介质发生不可纠正错误的风险评估结果。
6.一种计算装置,其特征在于,包括:
获取模块,用于获取存储设备中的易失性存储介质的工作信息集合,所述工作信息集合中包括所述易失性存储介质发生的可纠正错误的信息,所述可纠正错误的信息包括以下信息中的任一个或多个:发生可纠正错误的时间、可纠正错误的错误数据在所述易失性存储介质中的地址、或所述可纠正错误的错误数据;
处理模块,用于根据所述工作信息集合与预测模型,确定所述易失性存储介质发生不可纠正错误的风险评估结果。
7.根据权利要求6所述的装置,其特征在于,所述预测模型包括第一预测模型和第二预测模型,
所述处理模块,用于根据所述工作信息集合与所述第一预测模型,确定故障原因;
所述处理模块,还用于根据所述故障原因与所述第二预测模型,确定所述风险评估结果。
8.根据权利要求7所述的装置,其特征在于,所述易失性存储介质的故障原因包括以下任一个或多个:
电容漏电、字线故障、子字线驱动器故障、主字线驱动器故障、位线故障、敏感放大器故障、存储矩阵控制电路故障、接触不良、或信号裕量不足。
9.根据权利要求6所述的装置,其特征在于,在所述工作信息集合中的每条工作信息包括所述可纠正错误的错误数据的情况下,所述处理模块,用于对所述每条工作信息包括的所述可纠正错误的错误数据与对应于所述错误数据的正确数据进行逻辑运算,获得所述每条工作信息对应的运算结果;
所述处理模块,还用于根据不可纠正错误模型、所述每条工作信息对应的运算结果与所述预测模型,确定所述风险评估结果。
10.根据权利要求9所述的装置,其特征在于,所述处理模块,用于对所述不可纠正错误模型与所述每条工作信息对应的运算结果进行比较,获得每条工作信息对应的相似度;
所述处理模块,还用于根据所述每条工作信息对应的相似度与所述预测模型,确定所述每条工作信息对应的风险评估结果;
所述处理模块,还用于将等级最高的风险评估结果作为所述易失性存储介质发生不可纠正错误的风险评估结果。
11.一种计算设备,其特征在于,包括:处理器,所述处理器用于与存储器耦合,读取并执行所述存储器中的指令和/或程序代码,以执行如权利要求1-5中任一项所述的方法。
12.一种芯片系统,其特征在于,包括:逻辑电路,所述逻辑电路用于与输入/输出接口耦合,通过所述输入/输出接口传输数据,以执行如权利要求1-5中任一项所述的方法。
13.一种计算机可读介质,其特征在于,所述计算机可读介质存储有程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如权利要求1-5中任一项所述的方法。
CN202210111886.1A 2022-01-29 2022-01-29 一种易失性存储介质不可纠正错误的预测方法和相关设备 Pending CN116560897A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210111886.1A CN116560897A (zh) 2022-01-29 2022-01-29 一种易失性存储介质不可纠正错误的预测方法和相关设备
PCT/CN2022/111694 WO2023142429A1 (zh) 2022-01-29 2022-08-11 一种易失性存储介质不可纠正错误的预测方法和相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210111886.1A CN116560897A (zh) 2022-01-29 2022-01-29 一种易失性存储介质不可纠正错误的预测方法和相关设备

Publications (1)

Publication Number Publication Date
CN116560897A true CN116560897A (zh) 2023-08-08

Family

ID=87470310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210111886.1A Pending CN116560897A (zh) 2022-01-29 2022-01-29 一种易失性存储介质不可纠正错误的预测方法和相关设备

Country Status (2)

Country Link
CN (1) CN116560897A (zh)
WO (1) WO2023142429A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1204232A1 (en) * 2000-11-06 2002-05-08 Lucent Technologies Inc. Detection of uncorrectable data blocks in coded communications systems
US8468422B2 (en) * 2007-12-21 2013-06-18 Oracle America, Inc. Prediction and prevention of uncorrectable memory errors
DE102014115885B4 (de) * 2014-10-31 2018-03-08 Infineon Technologies Ag Funktionstüchtigkeitszustand von nicht-flüchtigem Speicher
JP6219865B2 (ja) * 2015-02-19 2017-10-25 ファナック株式会社 制御装置の故障予測システム
US11886312B2 (en) * 2020-04-07 2024-01-30 Intel Corporation Characterizing error correlation based on error logging for computer buses

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116820828A (zh) * 2023-08-29 2023-09-29 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质
CN116820828B (zh) * 2023-08-29 2024-01-09 苏州浪潮智能科技有限公司 可纠正错误阈值设定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2023142429A1 (zh) 2023-08-03

Similar Documents

Publication Publication Date Title
US11276450B2 (en) Refresh circuitry
KR101203764B1 (ko) 메모리 셀프-리프레시 전력을 절약하기 위한 시스템들, 방법들 및 장치들
JP6291157B2 (ja) エラー訂正回路を具備したオンチップ・データ・スクラビング装置及び方法
US7523364B2 (en) Double DRAM bit steering for multiple error corrections
US7656727B2 (en) Semiconductor memory device and system providing spare memory locations
US8023350B2 (en) Memory malfunction prediction system and method
US20060256615A1 (en) Horizontal and vertical error correction coding (ECC) system and method
CN101379566B (zh) 用于修复高速缓存阵列中单元的装置、系统和方法
US20130339821A1 (en) Three dimensional(3d) memory device sparing
US11080135B2 (en) Methods and apparatus to perform error detection and/or correction in a memory device
CN104956443A (zh) Ram刷新率
US20180247699A1 (en) Post package repair for mapping to a memory failure pattern
US7185246B2 (en) Monitoring of solid state memory devices in active memory system utilizing redundant devices
KR20170054182A (ko) 반도체 장치
US20180267853A1 (en) Memory system
CN112306737A (zh) 控制易失性存储器装置的修复的方法和存储装置
Jeong et al. PAIR: Pin-aligned In-DRAM ECC architecture using expandability of Reed-Solomon code
US20170293514A1 (en) Handling repaired memory array elements in a memory of a computer system
KR20180070779A (ko) 리페어 온 시스템에서의 포스트 패키지 리페어를 위한 데이터 백업 방법
CN116560897A (zh) 一种易失性存储介质不可纠正错误的预测方法和相关设备
US20180260273A1 (en) Detection of error patterns in memory dies
CN111522684A (zh) 一种同时纠正相变存储器软硬错误的方法及装置
US20140185397A1 (en) Hybrid latch and fuse scheme for memory repair
US9141451B2 (en) Memory having improved reliability for certain data types
Alouani et al. Parity-based mono-copy cache for low power consumption and high reliability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination