CN114816835B - 等效驻留时间的恢复方法、装置、存储介质及电子设备 - Google Patents

等效驻留时间的恢复方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114816835B
CN114816835B CN202210732186.4A CN202210732186A CN114816835B CN 114816835 B CN114816835 B CN 114816835B CN 202210732186 A CN202210732186 A CN 202210732186A CN 114816835 B CN114816835 B CN 114816835B
Authority
CN
China
Prior art keywords
memory
temperature
time
storage
residence time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210732186.4A
Other languages
English (en)
Other versions
CN114816835A (zh
Inventor
秦东润
刘晓健
王嵩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dera Technology Co Ltd
Original Assignee
Beijing Dera Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dera Technology Co Ltd filed Critical Beijing Dera Technology Co Ltd
Priority to CN202210732186.4A priority Critical patent/CN114816835B/zh
Publication of CN114816835A publication Critical patent/CN114816835A/zh
Application granted granted Critical
Publication of CN114816835B publication Critical patent/CN114816835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1068Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices in sector programmable memories, e.g. flash disk
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C16/00Erasable programmable read-only memories
    • G11C16/02Erasable programmable read-only memories electrically programmable
    • G11C16/06Auxiliary circuits, e.g. for writing into memory
    • G11C16/34Determination of programming status, e.g. threshold voltage, overprogramming or underprogramming, retention
    • G11C16/349Arrangements for evaluating degradation, retention or wearout, e.g. by counting erase cycles
    • G11C16/3495Circuits or methods to detect or delay wearout of nonvolatile EPROM or EEPROM memory devices, e.g. by counting numbers of erase or reprogram cycles, by using multiple memory areas serially or cyclically
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C29/08Functional testing, e.g. testing during refresh, power-on self testing [POST] or distributed testing
    • G11C29/12Built-in arrangements for testing, e.g. built-in self testing [BIST] or interconnection details
    • G11C29/38Response verification devices
    • G11C29/42Response verification devices using error correcting codes [ECC] or parity check
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/52Protection of memory contents; Detection of errors in memory contents
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/04Detection or location of defective memory elements, e.g. cell constructio details, timing of test signals
    • G11C2029/0411Online error correction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

本发明涉及数据存储技术领域,提供了一种等效驻留时间的恢复方法、装置、存储介质及电子设备,该方法包括:当第一存储器发生故障时判断第一存储器的故障类别是否属于预设的第一故障类别集合;若属于则周期性获取第一存储器的温度,记录第一存储器在各个获取时刻的时间‑温度信息;当第一存储器恢复工作时,根据时间‑温度信息计算第一存储器故障期间的等效驻留时间补偿值并发送到第一存储器,或将时间‑温度信息发送到第一存储器,由第一存储器根据时间‑温度信息计算等效驻留时间补偿值,并根据补偿值进行等效驻留时间的恢复。本发明能够对存储器故障期间的等效驻留时间进行准确补偿恢复,在提升存储器的读取速度的同时降低原始误码率。

Description

等效驻留时间的恢复方法、装置、存储介质及电子设备
技术领域
本发明涉及数据存储技术领域,尤其涉及一种等效驻留时间的恢复方法、装置、存储介质及电子设备。
背景技术
随着全球互联网程度的不断提高,全球对数据存储的需求也日益增大。当前计算机服务器的主流存储器件主要分为两种:机械硬盘(Hard Disk, HD)和固态硬盘(SolidState Drive,SSD)。固态硬盘和机械硬盘本质上都是用于数据存储的硬件,其本质上的区别在于其存储介质不同。传统的机械硬盘以机械磁盘为存储介质,通过磁臂和磁头、磁盘之间的机械构造进行数据存储和读取;而固态硬盘则是以NAND闪存(非易失性的存储器)作为存储介质,通过存储器内部的电荷数即cell的通断电进行数据的读取和写入进而实现数据存储。由于机械结构存在的性能瓶颈,当前大多数机械硬盘的读取性能相对于固态硬盘较差。随着固态硬盘小型化以及其性价比不断提升,越来越多的企业消费者和个人消费者采用固态硬盘进行数据的存储。衡量固态硬盘的众多指标中,读取速度是其中最重要的指标之一。制约固态硬盘读取速度的因素有很多方面,其中包括存储颗粒的读取数据能力和存储控制器固件算法能力。可见如何通过固件能力的提升加快固态硬盘的读取速度,降低芯片能耗,延长固态硬盘产品寿命显得尤为重要。
目前,为了加快固态硬盘的读取速度主要有以下两种实现方式,第一种方式为:在重新上电后将存储器置为default读取模式,在该模式下采用default电平进行数据读取;当前存储单元(通常以物理块block为粒度)发生写数据后重新启用预测判决电平模式。第二种方式为:在重新上电后读取当前的时间和温度,通过记录当前存储单元的状态信息,包括等效驻留时间,PE温度,读温度,PE次数等信息预测当前存储单元的判决电平,从而提升存储器的读取速度。在实现本发明过程中,发明人发现上述现有实现方式至少存在以下缺陷,上述第一种方式,存储器上电恢复后在当前存储单元未发生写数据动作时,由于无法获取准确的等效驻留时间,因此只能采取default电平进行读数据,造成RBER较高,影响读数据效率;上述第二种方式,如果在存储器掉电期间环境温度发生较大波动,会导致采用该方法补偿的等效驻留时间误差较大,从而造成预测判决电平的不准确。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的等效驻留时间的恢复方法、装置、存储介质及电子设备。
本发明的一个方面,提供了一种等效驻留时间的恢复方法,所述方法包括:
当第一存储器发生故障时,判断第一存储器的故障类别是否属于预设的第一故障类别集合,第一故障类别集合中包括需要Host主机记录第一存储器的时间-温度信息的故障类别,所述时间-温度信息包括温度信息与所述温度信息对应的获取时刻之间的对应关系;
若所述故障类别属于所述第一故障类别集合,则周期性获取所述第一存储器的温度,并记录第一存储器在各个获取时刻的时间-温度信息;
当第一存储器恢复工作时,根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值,并将所述等效驻留时间补偿值发送到第一存储器,以供第一存储器根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间,或,将所述时间-温度信息发送到第一存储器,以供第一存储器根据所述时间-温度信息计算故障期间的等效驻留时间补偿值,并根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间。
进一步地,所述周期性获取所述第一存储器的温度,包括:
周期性获取所述第一存储器所在机箱的温度传感器在各个获取时刻采集的机箱温度,将所述机箱温度作为第一存储器的温度。
进一步地,所述周期性获取所述第一存储器的温度,包括:
周期性获取所述第一存储器所在机箱中的第二存储器在各个获取时刻的温度,将所述第二存储器的温度作为第一存储器的温度。
进一步地,所述记录第一存储器在各个获取时刻的时间-温度信息包括:
以所述第一存储器的身份标识信息ID为索引记录第一存储器在各个获取时刻的时间-温度信息;
进一步地,所述将所述时间-温度信息发送到第一存储器包括:
根据第一存储器的身份标识信息ID将对应的时间-温度信息发送给第一存储器。
进一步地,所述方法还包括:
接收所述第一存储器上线时上报的能力信息,所述能力信息包括第一存储器的身份标识信息ID和故障类别列表;
根据所述身份标识信息ID和故障类别列表生成第一存储器的第一故障类别集合。
进一步地,所述能力信息还包括温度获取周期;
所述方法还包括:根据温度获取周期确定获取所述第一存储器的温度的时间周期。
进一步地,所述能力信息还包括第一存储器的等效温度信息;
所述根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值包括:
根据所述等效温度信息和所述时间-温度信息中的温度信息计算每一温度获取时刻至上一个温度获取时刻的加速因子;
根据所述加速因子和所述时间-温度信息中的每一温度信息对应的获取时刻计算第一存储器故障期间的等效驻留时间补偿值。
第二方面,本发明还提供一种等效驻留时间的恢复装置,所述装置包括:
判断模块,用于当第一存储器发生故障时,判断第一存储器的故障类别是否属于预设的第一故障类别集合,第一故障类别集合中包括需要Host主机记录第一存储器的时间-温度信息的故障类别,所述时间-温度信息包括温度信息与所述温度信息对应的获取时刻之间的对应关系;
获取模块,用于当所述故障类别属于所述第一故障类别集合时,周期性获取所述第一存储器的温度,并记录第一存储器在各个获取时刻的时间-温度信息;
处理模块,用于当第一存储器恢复工作时,根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值,并将所述等效驻留时间补偿值发送到第一存储器,以供第一存储器根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间,或,将所述时间-温度信息发送到第一存储器,以供第一存储器根据所述时间-温度信息计算故障期间的等效驻留时间补偿值,并根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间。
进一步地,所述获取模块,用于周期性获取所述第一存储器所在机箱的温度传感器在各个获取时刻采集的机箱温度,将所述机箱温度作为第一存储器的温度,或,周期性获取所述第一存储器所在机箱中的第二存储器在各个获取时刻的温度,将所述第二存储器的温度作为第一存储器的温度。
进一步地,所述装置还包括:
接收模块,用于接收所述第一存储器上线时上报的能力信息,所述能力信息包括第一存储器的身份标识信息ID和故障类别列表;
配置模块,用于根据所述身份标识信息ID和故障类别列表生成第一存储器的第一故障类别集合。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上等效驻留时间的恢复方法的步骤。
第四方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上等效驻留时间的恢复方法的步骤。
本发明实施例提供的等效驻留时间的恢复方法、装置、存储介质及电子设备,能够对存储器故障期间的存储单元的等效驻留时间进行准确补偿恢复,进而准确预测判决电平,在提升存储器的读取速度的同时降低原始误码率RBER。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明适用存储系统的系统架构图;
图2为本发明实施例提供的等效驻留时间的恢复方法的流程图;
图3为本发明另一实施例提供的等效驻留时间的恢复方法的流程图;
图4为本发明一个具体示例的等效驻留时间的恢复方法的详细流程图;
图5为本发明实施例提供的等效驻留时间的恢复装置的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,本发明所适用的存储系统的系统模型主要由以下模块组成,包括Host主机、存储器控制器和存储单元等部分,其中Host主机连接多个存储器控制器,每一存储器控制器管理多个存储单元。针对上述存储系统,为解决现有技术中当存储器故障重新上电恢复后读取数据时的读数据原始误码率RBER较高的问题,本发明方案提出了一种等效驻留时间的恢复方法,当存储器发生故障时,由Host主机帮助采集这段时间的时间-温度信息,待存储器恢复后将其发送给存储器以帮助其恢复等效驻留时间。
图2示意性示出了本发明一个实施例的等效驻留时间的恢复方法的流程图。参照图2,本发明实施例的SSD的数据处理方法具体包括以下步骤:
S11、当第一存储器发生故障时,判断第一存储器的故障类别是否属于预设的第一故障类别集合,第一故障类别集合中包括需要Host主机记录第一存储器的时间-温度信息的故障类别,所述时间-温度信息包括温度信息与所述温度信息对应的获取时刻之间的对应关系。
本发明实施例中,第一存储器表示发生故障且后面进行上电恢复的存储器。
本发明实施例中,第一故障类别集合中的故障类别表示当第一存储器发生对应故障时需要Host主机记录第一存储器的时间-温度信息。第一故障类别集合中的故障类别由第一存储器预先上报给Host主机。
具体的,时间-温度信息可以按照时间-温度键值对的方式进行记录。
其中,驻留时间为存储颗粒写数据时刻和当前时刻的间隔时间。通常情况下,一个物理块通常共享一个驻留时间。等效驻留时间:高温场景相对低温场景对驻留时间具有加速作用,可根据阿伦尼乌斯公式计算某个温度下的等效驻留时间。
S12、若所述故障类别属于所述第一故障类别集合,则周期性获取所述第一存储器的温度,并记录第一存储器在各个获取时刻的时间-温度信息。
S13、当第一存储器恢复工作时,将所述时间-温度信息发送到第一存储器,以供第一存储器根据所述时间-温度信息计算故障期间的等效驻留时间补偿值,并根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间。
本发明实施例的适用场景为存储器因故障发生掉盘但Host主机正常的场景。在该实施例中,Host主机代替掉盘的存储器控制器进行时间-温度信息的记录,待存储器重新上线后,将这段时间记录的数据发送给存储器控制器以实现等效驻留时间的补偿,以实现等效驻留时间的补偿。
本发明实施例提供的等效驻留时间的恢复方法,能够对存储器故障期间的存储单元的等效驻留时间进行准确补偿恢复,进而准确预测判决电平,在提升存储器的读取速度的同时降低原始误码率RBER。
本发明实施例中,第一存储器控制器上线后首先向Host主机上报能力信息,Host主机接收到第一存储器上线时上报的能力信息,所述能力信息包括第一存储器的身份标识信息ID和故障类别列表;Host主机根据所述身份标识信息ID和故障类别列表生成第一存储器的第一故障类别集合。
进一步地,所述能力信息还包括温度获取周期,以供Host主机根据温度获取周期确定获取所述第一存储器的温度的时间周期。
具体的,控制器上线后向Host上报能力信息,能力信息中包括但不限于其SSD ID信息(即存储器的身份标识信息ID),故障类别列表Error_list和温度获取周期Update_Cycle信息,其中Error_list中存储了多项故障代码,各个代码分别表示不同的故障类别,以表明当发生上述故障时需要Host主机帮助当前存储器记录时间-温度信息。另外,Update_Cycle为可选信息,当该信息未传输时,Host主机将在存储器发生特定故障时按照默认频率记录时间-温度信息。当存储器发生故障时,Host主机可以通过主动检测确认存储器发生的故障类型,也可以由存储器主动上报错误代码以确认其故障类型。Host主机判断当前存储器故障是否属于之前上报的Error_list中的故障类型。如果不属于,其后续处理流程按照现有技术实现方式处理,这里不再赘述,如果当前存储器故障在Error_list中,则Host主机根据之前上报的update_cycle周期性周期性获取所述第一存储器的温度,同时以列表形式记录时间-温度键值对。
在一个具体实例中,一种可行的记录方法如表1所示:
Figure 756222DEST_PATH_IMAGE002
:时间温度记录方式
Figure 407783DEST_PATH_IMAGE004
本发明实施例中,Host主机可以采用周期性获取的方式实现对第一存储器的温度的记录,其中周期性获取所述第一存储器的温度,具体可通过以下两种方式实现,一种实现方式为周期性获取所述第一存储器所在机箱的温度传感器在各个获取时刻采集的机箱温度,将所述机箱温度作为第一存储器的温度;另一种实现方式为周期性获取所述第一存储器所在机箱中的第二存储器在各个获取时刻的温度,将所述第二存储器的温度作为第一存储器的温度。
具体的,Host主机可以根据之前上报的update_cycle周期性向当前存储器所在机箱的温度传感器请求当前的温度,同时以列表形式记录时间-温度键值对,但当机箱无温度传感器时,还可以直接向同一机箱中的其他存储器控制器请求温度查询。
需要说明的是,如果存储器之前上报的能力信息中未包含有update_cycle,则采用默认频率记录时间-温度信息。
本发明实施例中,所述记录第一存储器在各个获取时刻的时间-温度信息包括:以所述第一存储器的身份标识信息ID为索引记录第一存储器在各个获取时刻的时间-温度信息,进一步地,所述将所述时间-温度信息发送到第一存储器包括:根据第一存储器的身份标识信息ID将对应的时间-温度信息发送给第一存储器。
具体的,本发明在实现过程中,当存储系统中有多个存储器发生故障需记录时间-温度键值对时,为节省存储空间,需进一步以所述第一存储器的身份标识信息ID为索引,记录存储器的身份标识信息ID对应的起始记录时间,同时实现对多个存储器的时间-温度信息的记录,减少分别独立记录的资源浪费和存储空间浪费。
在本发明实施例中,当存储器控制器解除故障并恢复工作时,会向Host主机发送等效驻留时间恢复指令,接收到恢复指令时,Host主机根据存储器SSD_ID将其对应的时间-温度键值对发送给对应存储器控制器。
存储器控制器更新存储器中所有存储单元的等效驻留时间,一种可行的等效驻留时间更新方法如下所示:
Figure DEST_PATH_IMAGE005
其中,其中RetentionAfter表示更新后的等效驻留时间,RetentionBefore表示存储器在发生故障前最后一次更新的等效驻留时间;tj表示存储单元的温度信息获取时间,j=0、1、2、…;AF表示ti时刻至ti-1时刻的加速因子,该加速银子可通过阿伦尼乌斯公式(Arrhenius equation)计算,计算公式如下:
Figure 175405DEST_PATH_IMAGE006
其中,Ea表示存储单元的活化能,通常由存储颗粒厂家提供;kB表示波尔兹曼常数;Te表示等效温度,该温度默认为室温25摄氏度,或在实施过程中由Host指定;Ti表示第ti时刻存储单元的温度,这里ti和Ti即为Host下发的时间-温度键值对。
上述实施例中,通过Host记录时间-温度键值对的方法进行时间-温度信息记录,但当存储器掉线时间过长时会导致存储时间-温度信息占用的空间过大。因此,可以在上述实施例的基础上做如下改进,得到另一优化实施方式。
图3示意性示出了本发明一个实施例的等效驻留时间的恢复方法的流程图。参照图3,本发明实施例的SSD的数据处理方法具体包括以下步骤:
S21、当第一存储器发生故障时,判断第一存储器的故障类别是否属于预设的第一故障类别集合,第一故障类别集合中包括需要Host主机记录第一存储器的时间-温度信息的故障类别,所述时间-温度信息包括温度信息与所述温度信息对应的获取时刻之间的对应关系。
S22、若所述故障类别属于所述第一故障类别集合,则周期性获取所述第一存储器的温度,并记录第一存储器在各个获取时刻的时间-温度信息。
S23、当第一存储器恢复工作时,根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值,并将所述等效驻留时间补偿值发送到第一存储器,以供第一存储器根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间。
具体的,第一存储器控制器向Host主机上报的能力信息中增加第一存储器的等效温度信息,即还包括能力信息中还包括等效温度信息Te;
在根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值的具体步骤中,具体采用如下方式实现:Host主机根据所述等效温度信息和所述时间-温度信息中的温度信息计算每一温度获取时刻至上一个温度获取时刻的加速因子;根据所述加速因子和所述时间-温度信息中的每一温度信息对应的获取时刻计算第一存储器故障期间的等效驻留时间补偿值。
本发明实施例中,Host主机代替掉盘的存储器控制器进行时间-温度信息的记录,待存储器重新上线后,直接根据记录的时间-温度信息计算出等效驻留时间补偿值发送给存储器控制器,以实现等效驻留时间的补偿。
本发明实施例中,Host将收集的时间-温度键值对按照前述实施例中等效驻留时间更新公式转化为等效驻留时间补偿值,由Host直接将计算后的等效驻留时间补偿下发给对应存储器控制器。本实施例通过增加少量计算量的代价降低Host这段时间的存储量,降低存储空间占用量。
图4示意性示出了本发明一个具体示例的等效驻留时间的恢复方法的详细流程图。参照图4,本发明实施例的等效驻留时间的恢复方法具体包括以下实现流程:
存储器上线后向Host上报能力信息,包括SSD_ID, Error_List, Update_Cycle;
Host检测第一存储器发生故障;
当前故障是否在Error_list中;
若是,Host根据Update_Cycle周期性获取第一存储器所在机箱温度,否则结束;
Host记录当前温度和时间;
第一存储器上线后发送等效时间恢复请求命令;
Host将time_temp_list发送给第一存储器;
第一存储器更新等效驻留时间。
本发明实施例中,当发生故障的第一存储器恢复工作时,在第一存储器获取到在故障期间的等效驻留时间补偿值之后,所述方法还包括以下对等效驻留时间补偿值进行修正的步骤,以得到最优等效驻留时间补偿值,并根据所述最优等效驻留时间补偿值对存储器中各个存储单元的等效驻留时间进行恢复。
对等效驻留时间补偿值进行修正的步骤具体包括:采用预设的修正策略对所述等效驻留时间补偿值进行修正,得到等效驻留时间补偿值的修正值集合。分别采用所述修正值集合中的各个修正值对第一存储器中指定的目标存储单元的最优判决电平进行预测,并计算采用与各个修正值对应的最优判决电平进行数据读取时的比特误码率,选取对应的比特误码率最小的修正值作为最优等效驻留时间补偿值,根据所述最优等效驻留时间补偿值对存储器中各个存储单元的等效驻留时间进行恢复。
其中,目标存储单元的选取原则为这些存储单元的特征为:
A、存储单元拥有不同的擦写PE次数,和/或
B、任意两个存储单元在故障前最后一次记录的等效驻留时间的对数之间的差值大于预设的第一阈值Threshold。即存储单元在故障前最后一次记录的等效时间服从一定的规则,即任意两个存储单元的等效时间的对数间隔大于第一阈值;
Figure DEST_PATH_IMAGE007
其中,abs()表示取绝对值操作,Retention表示等效驻留时间,i和j表示任意两个存储单元。
进一步地,在获取到故障期间的等效驻留时间补偿值之后,预先根据所述等效驻留时间补偿值计算目标存储单元在当前时刻的等效驻留时间;根据与所述等效驻留时间补偿值对应的等效驻留时间预测最优判决电平,并根据预测出的最优判决电平对目标存储单元进行数据读取;采用ECC解码器对读取数据进行纠错得到正确的目标比特序列。
在计算采用与各个修正值对应的最优判决电平进行数据读取时的比特误码率时,可采用以下实现方式:根据与各个修正值对应的最优判决电平分别对目标存储单元进行数据读取,得到与各个修正值对应的读取数据;将与各个修正值对应的读取数据分别与所述目标比特序列进行比对,得到采用与各个修正值对应的最优判决电平进行数据读取时的比特误码率。
本发明实施例中,可通过两种修正策略实现对所述等效驻留时间补偿值的修正以得到最优等效驻留时间补偿值,一种为采用二分法的方式通过重复的读操作获得较为准确的最优等效驻留时间补偿值,一种为通过预先设置补偿表的方式,该方式能在精度和计算复杂度中间取得了平衡点。
在一个具体实例中,采用预设的修正策略对所述等效驻留时间补偿值进行修正,得到等效驻留时间补偿值的修正值集合,包括以下具体实现方式:以所述等效驻留时间补偿值为中间值采用二分法构建初始修正值集合,所述初始修正值集合中包括Tmin、Tmed和Tmax,其中Tmin = 0,Tmed = delta_T,Tmax = 2*delta_T,delta_T为等效驻留时间补偿值。
进一步地,为了迭代出较为准确的最优等效驻留时间补偿值,所述方法还包括以下迭代流程:
S111、根据Tmin、Tmed和Tmax对目标存储单元的最优判决电平进行预测,分别计算采用与Tmin、Tmed和Tmax对应的最优判决电平进行数据读取时的比特误码率Emin、Emed和Emax;
S112、判断Tmax与Tmin的差值是否大于预设的第二阈值;
S113、当Tmax与Tmin的差值大于预设的第二阈值时,采用以下公式计算Tmin和Tmax的替换值Ttmp1 和Ttmp2;
Ttmp1 = (Tmin+Tmed)/2;
Ttmp2 = (Tmax+Tmed)/2;
S114、根据Ttmp1 和Ttmp2对目标存储单元的最优判决电平进行预测,分别计算采用与Ttmp1 和Ttmp2对应的最优判决电平进行数据读取时的比特误码率Etmp1和Etmp2;
S115、当Emed< min(Etmp1, Etmp2)时,更新Tmin = Ttmp1,Tmax = Ttmp2,得到更新后的初始修正值集合,其中min(a,b)表示取a和b的较小值,对更新后的初始修正值集合重复执行上述步骤S111~S115,直到更新后的初始修正值集合中Tmax与Tmin的差值小于或等于预设的第二阈值。
S115’、当Etmp1< min(Emed, Etmp2)时,更新Tmin = Ttmp1, Tmax = Ttmp2,得到更新后的初始修正值集合,对更新后的初始修正值集合重复执行上述步骤S111~S115’,直到更新后的初始修正值集合中Tmax与Tmin的差值小于或等于预设的第二阈值。
S115”、当Etmp2< min(Emed, Etmp1)时,更新Tmin = Tmed,Tmed = Ttmp2,得到更新后的初始修正值集合,对更新后的初始修正值集合重复执行上述步骤S111~S115”,直到更新后的初始修正值集合中Tmax与Tmin的差值小于或等于预设的第二阈值。
在另一个具体实例中,采用预设的修正策略对所述等效驻留时间补偿值进行修正,得到等效驻留时间补偿值的修正值集合,具体包括以下步骤:
根据预设的等效驻留时间补偿值修正表对所述等效驻留时间补偿值进行修正;
根据各个等效时间补偿百分比对所述等效驻留时间补偿值进行修正得到对应的修正值集合,具体公式如下:
修正值=delta_T*(1+k);
其中,delta_T为等效驻留时间补偿值,k为等效时间补偿百分比。
进一步地,所述等效驻留时间补偿值修正表中包括0值以及预设的多个等间隔分布在0值两侧的等效时间补偿百分比。
本发明在第一存储器得到由Host主机帮助采集的故障时间的等效时间补偿值之后,再通过上述二分法的方式或预先设置补偿表的方式对其进行进一步的验证和修正以获得更精确的等效时间补偿。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
图5示意性示出了本发明一个实施例的等效驻留时间的恢复装置的结构示意图。参照图5,本发明实施例的等效驻留时间的恢复装置具体包括判断模块401、获取模块402以及处理模块403,其中:
判断模块401,用于当第一存储器发生故障时,判断第一存储器的故障类别是否属于预设的第一故障类别集合,第一故障类别集合中包括需要Host主机记录第一存储器的时间-温度信息的故障类别,所述时间-温度信息包括温度信息与所述温度信息对应的获取时刻之间的对应关系;
获取模块402,用于当所述故障类别属于所述第一故障类别集合时,周期性获取所述第一存储器的温度,并记录第一存储器在各个获取时刻的时间-温度信息;
处理模块403,用于当第一存储器恢复工作时,根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值,并将所述等效驻留时间补偿值发送到第一存储器,以供第一存储器根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间,或,将所述时间-温度信息发送到第一存储器,以供第一存储器根据所述时间-温度信息计算故障期间的等效驻留时间补偿值,并根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间。
本发明实施例中,所述获取模块402,用于周期性获取所述第一存储器所在机箱的温度传感器在各个获取时刻采集的机箱温度,将所述机箱温度作为第一存储器的温度,或,周期性获取所述第一存储器所在机箱中的第二存储器在各个获取时刻的温度,将所述第二存储器的温度作为第一存储器的温度。
本发明实施例中,所述装置还包括附图中未示出的接收模块和配置模块,其中:
接收模块,用于接收所述第一存储器上线时上报的能力信息,所述能力信息包括第一存储器的身份标识信息ID和故障类别列表;
配置模块,用于根据所述身份标识信息ID和故障类别列表生成第一存储器的第一故障类别集合。
进一步地,所述能力信息还包括第一存储器的等效温度信息;
处理模块403,用于根据所述等效温度信息和所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值。
进一步地,所述能力信息还包括温度获取周期;
获取模块402,用于根据温度获取周期确定获取所述第一存储器的温度的时间周期。
本发明实施例中,获取模块402,用于以所述第一存储器的身份标识信息ID为索引记录第一存储器在各个获取时刻的时间-温度信息;
进一步地,所述处理模块403,用于根据第一存储器的身份标识信息ID将对应的时间-温度信息发送给第一存储器。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上等效驻留时间的恢复方法的步骤。
本实施例中,所述等效驻留时间的恢复方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
此外,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上等效驻留时间的恢复方法的步骤。例如图2所示的步骤S11~S13或图3所示的步骤S21~S23。或者,所述处理器执行所述计算机程序时实现上述等效驻留时间的恢复装置实施例中各模块/单元的功能,例如图5所示的判断模块401、获取模块402以及处理模块403。
在一个具体实施例中,所述电子设备可以是存储系统中的Host主机。
本发明实施例提供的等效驻留时间的恢复方法、装置、存储介质及电子设备,能够对存储器故障期间的存储单元的等效驻留时间进行准确补偿恢复,进而准确预测判决电平,在提升存储器的读取速度的同时降低原始误码率RBER。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种等效驻留时间的恢复方法,其特征在于,所述方法包括:
当第一存储器发生故障时,判断第一存储器的故障类别是否属于预设的第一故障类别集合,第一故障类别集合中包括需要Host主机记录第一存储器的时间-温度信息的故障类别,所述时间-温度信息包括温度信息与所述温度信息对应的获取时刻之间的对应关系;
若所述故障类别属于所述第一故障类别集合,则周期性获取所述第一存储器的温度,并记录第一存储器在各个获取时刻的时间-温度信息;
当第一存储器恢复工作时,根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值,并将所述等效驻留时间补偿值发送到第一存储器,以供第一存储器根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间,或,将所述时间-温度信息发送到第一存储器,以供第一存储器根据所述时间-温度信息计算故障期间的等效驻留时间补偿值,并根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间。
2.根据权利要求1所述的方法,其特征在于,所述周期性获取所述第一存储器的温度,包括:
周期性获取所述第一存储器所在机箱的温度传感器在各个获取时刻采集的机箱温度,将所述机箱温度作为第一存储器的温度。
3.根据权利要求1所述的方法,其特征在于,所述周期性获取所述第一存储器的温度,包括:
周期性获取所述第一存储器所在机箱中的第二存储器在各个获取时刻的温度,将所述第二存储器的温度作为第一存储器的温度。
4.根据权利要求1所述的方法,其特征在于,所述记录第一存储器在各个获取时刻的时间-温度信息包括:
以所述第一存储器的身份标识信息ID为索引记录第一存储器在各个获取时刻的时间-温度信息;
进一步地,所述将所述时间-温度信息发送到第一存储器包括:
根据第一存储器的身份标识信息ID将对应的时间-温度信息发送给第一存储器。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
接收所述第一存储器上线时上报的能力信息,所述能力信息包括第一存储器的身份标识信息ID和故障类别列表;
根据所述身份标识信息ID和故障类别列表生成第一存储器的第一故障类别集合。
6.根据权利要求5所述的方法,其特征在于,所述能力信息还包括第一存储器的等效温度信息;
所述根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值包括:
根据所述等效温度信息和所述时间-温度信息中的温度信息计算每一温度获取时刻至上一个温度获取时刻的加速因子;
根据所述加速因子和所述时间-温度信息中的每一温度信息对应的获取时刻计算第一存储器故障期间的等效驻留时间补偿值。
7.根据权利要求5所述的方法,其特征在于,所述能力信息还包括温度获取周期;
所述方法还包括:根据温度获取周期确定获取所述第一存储器的温度的时间周期。
8.一种等效驻留时间的恢复装置,其特征在于,所述装置包括:
判断模块,用于当第一存储器发生故障时,判断第一存储器的故障类别是否属于预设的第一故障类别集合,第一故障类别集合中包括需要Host主机记录第一存储器的时间-温度信息的故障类别,所述时间-温度信息包括温度信息与所述温度信息对应的获取时刻之间的对应关系;
获取模块,用于当所述故障类别属于所述第一故障类别集合时,周期性获取所述第一存储器的温度,并记录第一存储器在各个获取时刻的时间-温度信息;
处理模块,用于当第一存储器恢复工作时,根据所述时间-温度信息计算第一存储器故障期间的等效驻留时间补偿值,并将所述等效驻留时间补偿值发送到第一存储器,以供第一存储器根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间,或,将所述时间-温度信息发送到第一存储器,以供第一存储器根据所述时间-温度信息计算故障期间的等效驻留时间补偿值,并根据所述等效驻留时间补偿值更新存储器中存储单元的等效驻留时间。
9.根据权利要求8所述的装置,其特征在于,所述获取模块,用于周期性获取所述第一存储器所在机箱的温度传感器在各个获取时刻采集的机箱温度,将所述机箱温度作为第一存储器的温度,或,周期性获取所述第一存储器所在机箱中的第二存储器在各个获取时刻的温度,将所述第二存储器的温度作为第一存储器的温度。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收所述第一存储器上线时上报的能力信息,所述能力信息包括第一存储器的身份标识信息ID和故障类别列表;
配置模块,用于根据所述身份标识信息ID和故障类别列表生成第一存储器的第一故障类别集合。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述方法的步骤。
CN202210732186.4A 2022-06-27 2022-06-27 等效驻留时间的恢复方法、装置、存储介质及电子设备 Active CN114816835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210732186.4A CN114816835B (zh) 2022-06-27 2022-06-27 等效驻留时间的恢复方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210732186.4A CN114816835B (zh) 2022-06-27 2022-06-27 等效驻留时间的恢复方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN114816835A CN114816835A (zh) 2022-07-29
CN114816835B true CN114816835B (zh) 2022-09-02

Family

ID=82521112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210732186.4A Active CN114816835B (zh) 2022-06-27 2022-06-27 等效驻留时间的恢复方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114816835B (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080082725A1 (en) * 2006-09-28 2008-04-03 Reuven Elhamias End of Life Recovery and Resizing of Memory Cards
JP7057761B2 (ja) * 2019-02-06 2022-04-20 株式会社日立製作所 計算機システム及び情報の提示方法
CN112559385A (zh) * 2020-12-22 2021-03-26 深圳忆联信息系统有限公司 提升ssd写性能的方法、装置、计算机设备及存储介质
CN114067892B (zh) * 2021-10-09 2022-09-27 北京得瑞领新科技有限公司 固态硬盘跨温数据读取方法、存储介质及ssd设备
CN114020573B (zh) * 2021-11-09 2022-06-07 北京得瑞领新科技有限公司 判决电平预测方法、存储介质及ssd设备
CN114118439B (zh) * 2021-11-09 2022-05-13 北京得瑞领新科技有限公司 判决电平预测模型的训练数据生成方法、系统及存储介质
CN114333957A (zh) * 2022-03-07 2022-04-12 北京得瑞领新科技有限公司 判决电平的预测方法、存储设备及存储介质

Also Published As

Publication number Publication date
CN114816835A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
US11024396B2 (en) Reduction or elimination of a latency penalty associated with adjusting read thresholds for non-volatile memory
US11538539B2 (en) Method and system involving degradation of non-volatile memory based on write commands and drive-writes
US8560922B2 (en) Bad block management for flash memory
US9135112B2 (en) Policy for read operations addressing on-the-fly decoding failure in non-volatile memory
CN109634527B (zh) 一种ssd内实现的闪存寿命预测方法
JP4901968B2 (ja) 半導体記憶装置
US9280419B2 (en) Dynamic adjustment of data protection schemes in flash storage systems based on temperature, power off duration and flash age
US20220044737A1 (en) Coarse Calibration based on Signal and Noise Characteristics of Memory Cells Collected in Prior Calibration Operations
US20090132875A1 (en) Method of correcting error of flash memory device, and, flash memory device and storage system using the same
CN114020573B (zh) 判决电平预测方法、存储介质及ssd设备
US11500714B2 (en) Apparatus and method for regulating available storage of a data storage system
CN102682841A (zh) 具有存储设备的温度传感器的使用
CN114118439B (zh) 判决电平预测模型的训练数据生成方法、系统及存储介质
WO2020053743A1 (en) Pool-level storage management
CN114816836B (zh) 等效驻留时间的恢复方法、装置、存储介质及电子设备
US8918699B2 (en) Non-volatile semiconductor storage apparatus
CN114816835B (zh) 等效驻留时间的恢复方法、装置、存储介质及电子设备
CN112908399B (zh) 闪存的异常检测方法、装置、计算机设备及存储介质
US8615627B2 (en) Raid system based on calculated average of mechanical loads and solder joint damage and controlling method of the same
CN113127274B (zh) 磁盘故障预测方法、装置、设备及计算机存储介质
CN114816834B (zh) 等效驻留时间的恢复方法、装置、存储介质及电子设备
US20100077280A1 (en) Semiconductor recording device
CN112684973A (zh) 具有固态储存器的服务器系统及其相关控制方法
US20220084614A1 (en) Track Charge Loss based on Signal and Noise Characteristics of Memory Cells Collected in Calibration Operations
TWI692691B (zh) 記憶體控制裝置與記憶體控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant