CN106021035A - 一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法 - Google Patents

一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法 Download PDF

Info

Publication number
CN106021035A
CN106021035A CN201610353156.7A CN201610353156A CN106021035A CN 106021035 A CN106021035 A CN 106021035A CN 201610353156 A CN201610353156 A CN 201610353156A CN 106021035 A CN106021035 A CN 106021035A
Authority
CN
China
Prior art keywords
memory
dynamic random
data
module
dram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610353156.7A
Other languages
English (en)
Inventor
刘胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201610353156.7A priority Critical patent/CN106021035A/zh
Publication of CN106021035A publication Critical patent/CN106021035A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)

Abstract

本发明公开了一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,具体步骤如下:第一步:在DRAM内部预留额外空间储存更正检查码;第二步:当系统将资料写入 ECC DRAM时,ECC DRAM的内部电路会自动即时将资料运算产生更正检查码,储存在DRAM内部的额外记忆体空间中;第三步:当系统需要读取资料时,ECC DRAM会取出资料与更正检查码,自动比对后输出正确资料;第四步:DRAM实现ECC功能;第五步:进一步实现模组的侦错更正功能,实现双重保障。本发明可以使系统轻松获得ECC的侦错更正功能,提高系统的可靠度与稳定度到伺服器等级,且对功能安全性要求更高的电子系统,有更强大的发展潜力。因而,本发明具有很好的推广使用价值。

Description

一种实现在内存颗粒进行故障校验以增强模组条稳定性的 方法
技术领域
本发明涉及一种计算机服务器部件测试领域,具体地说是一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法。
背景技术
为了能生产出高品质的电子产品,系统制造商在产品设计时,持续寻找能满足体积小、成本合理、而且能在各种环境条件下稳定运作的解决方案。任何复杂的电子系统,都会用到处理器与记忆体。唯有关键零组件在任何情况下,都能持续正确的执行功能,系统才能维持长时间的稳定运作。系统上的记忆体解决方案,通常会配置一颗或多颗的DRAM(动态随机存取记忆体),记忆体内的数亿个到数兆个资料位元,保存着应用程式码与所需的资料。假如其中一个资料位元的资讯发生错误,就有可能造成不正确的程式演算结果,严重时就会导致程式功能失效、甚至系统宕机。
在DRAM之内,每个资料位元是储存在一个非常小的电容之内,电容裡面所保存的电荷的有无,代表裡面所储存的资料是1还是0。由于DRAM记忆单元的电容物理结构非常微小,所以不可能让每个记忆单元的都维持一样的品质。三十几年来制程技术的持续微缩,也让维持记忆单元的品质始终是困难的挑战。即使是工业用或车用等级的DRAM,也只能透过长时间与严格的测试,从大量生产的产品中,挑出体质较好的产品。
在实际使用上,DRAM最常出现的错误形态是单一位元资料错误(single biterror)或单一事件翻转(single-event-upset, SEU)。单一位元资料错误可能来自于DRAM电容结构的瑕疵或电磁干扰;单一事件翻转则是因为带电粒子或宇宙射线的衝击,导致正常电容内的资料由1变0或0变1,通常SEU不会造成硬体结构的损坏,资料更正之后仍然可以正常读写正确的资料。这两种类型的错误都可以借由伺服器处理器的侦错更正功能(Errorcorrection code, ECC)进行侦错与更正,用正确的资料覆盖掉错误的资料来解决问题,不过错误的资料随时可能再度出现在同样的记忆体位置或其他位置。
DRAM结构的瑕疵、电磁干扰与宇宙射线都有可能造成单一位元资料错误,随著使用强度与时间的增加,DRAM储存单元的电容逐渐老化衰退,发生错误的机率也会逐渐增高。单一位元资料错误并不一定会立刻造成系统当机,它会留在系统中,随著系统的运作而衍生越来越多的错误资料,最终造成系统当机。通常在重新开机之后,系统就会恢复正常,此时也很难去追查当初造成当机的真正原因,使用者也只能默默承受当机的不便与困扰。而今,DRAM的单比特(single-bit)错误率(单一位元资料错误),已经成为系统崩溃的10大主因之一。因此,市场对内建侦错功能的动态随机存储记忆体( ECC DRAM)的需求变得尤为迫切。
发明内容
本发明的技术任务是提供一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法。
本发明的技术任务是按以下方式实现的,一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,具体步骤如下:
第一步:在动态随机存储记忆体( DRAM)内部预留额外空间储存更正检查码;
第二步:当系统将资料写入内建侦错功能的动态随机存储记忆体( ECC DRAM)时,内建侦错功能的动态随机存储记忆体( ECC DRAM)的内部电路会自动即时将资料运算产生更正检查码,储存在动态随机存储记忆体( DRAM)内部的额外记忆体空间中;
第三步:当系统需要读取资料时,内建侦错功能的动态随机存储记忆体( ECC DRAM)会取出资料与更正检查码,自动比对后输出正确资料;
第四步:动态随机存储记忆体(DRAM)实现侦错更正( ECC)功能;
第五步:进一步实现模组的侦错更正( ECC)功能,实现双重保障。
优选的,所述的内建侦错功能的动态随机存储记忆体( ECC DRAM)的运作速度与标准动态随机存取记忆体(DRAM)相同。
优选的,所述的实现模组的侦错更正功能的具体方式是:每颗动态随机存取记忆体(DRAM)的内部有侦错更正( ECC)功能针对每颗动态随机存取记忆体(DRAM)内部进行资料更正,而在模组上的动态随机存取记忆体(DRAM)之间也有侦错更正( ECC)功能进行资料更正,这两种更正同时进行,从而将整体动态随机存取记忆体的错误更正能力再提高一个层次,实现双重保障。
优选的,所述的模组为9颗的单面模组或18颗的双面模组。
优选的,所述的动态随机存取记忆体(DRAM)为8比特位宽的动态随机存取记忆体颗粒(x8 DRAM颗粒)。
本发明的一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法和现有技术相比, 内建侦错功能的动态随机存储记忆体( ECC DRAM)可以直接替换传统的标准型DRAM,使系统轻松获得ECC的侦错更正功能,提高系统的可靠度与稳定度到伺服器等级。任何应用都可以透过内建侦错功能的动态随机存储记忆体( ECC DRAM)提高系统稳定度,但这产品的效用不止于此,对功能安全性要求更高、使用时间更长、或是在严酷环境条件下的电子系统,记忆体侦错更正的防护功能会有极大的助益,从网路路由器、工业电脑、硬碟、保全监视系统、医疗用设备、车用电子产品、甚至航空与太空等各种应用皆有强大的发展潜力,因而,本发明具有很好的推广使用价值。
附图说明
附图1为一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法的操作过程的流程图。
具体实施方式
实施例1:
本发明的技术任务是按以下方式实现的,一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,具体步骤如下:
第一步:在动态随机存储记忆体( DRAM)内部预留额外空间储存更正检查码;
第二步:当系统将资料写入内建侦错功能的动态随机存储记忆体( ECC DRAM)时,内建侦错功能的动态随机存储记忆体( ECC DRAM)的内部电路会自动即时将资料运算产生更正检查码,储存在动态随机存储记忆体( DRAM)内部的额外记忆体空间中;
第三步:当系统需要读取资料时,内建侦错功能的动态随机存储记忆体( ECC DRAM)会取出资料与更正检查码,自动比对后输出正确资料;
第四步:动态随机存储记忆体(DRAM)实现侦错更正( ECC)功能;
第五步:进一步实现模组的侦错更正( ECC)功能,实现双重保障。
整个过程中完全不需要系统处理器的参与,而且运作速度与标准DRAM相同,不会有额外延迟,也不需要做任何特定的软体或硬体修改。
所述的实现模组的侦错更正功能的具体方式是:每颗动态随机存取记忆体(DRAM)的内部有侦错更正( ECC)功能针对每颗动态随机存取记忆体(DRAM)内部进行资料更正,而在模组上的动态随机存取记忆体(DRAM)之间也有侦错更正( ECC)功能进行资料更正,这两种更正同时进行,从而将整体动态随机存取记忆体的错误更正能力再提高一个层次,实现双重保障。
所述的模组为9颗的单面模组或18颗的双面模组。
所述的动态随机存取记忆体(DRAM)为8比特位宽的动态随机存取记忆体颗粒(x8DRAM颗粒)。
汇流排宽度72 bits(比特)的内建侦错功能的动态随机存储记忆体( ECC DRAM)模组,内建侦错功能的动态随机存储记忆体( ECC DRAM)模组通常使用9颗(单面模组)或18颗(双面模组) 的x8 DRAM颗粒,处理器会从9颗DRAM中,各自读取8 bits的资料,凑成72bits来进行侦错与更正。
如果使用UniIC 内建侦错功能的动态随机存储记忆体( ECC DRAM)来制作内建侦错功能的动态随机存储记忆体( ECC DRAM)模组,此时每颗DRAM的内部就已经有ECC会进行每颗DRAM内部的资料更正,而在模组上也会有9颗DRAM之间共同进行的ECC资料更正,这两种更正可以同时进行,将整体DRAM的错误更正能力再提高一个层次。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (5)

1.一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,其特征在于,具体步骤如下:
第一步:在动态随机存储记忆体内部预留额外空间储存更正检查码;
第二步:当系统将资料写入内建侦错功能的动态随机存储记忆体时,内建侦错功能的动态随机存储记忆体的内部电路会自动即时将资料运算产生更正检查码,储存在动态随机存储记忆体内部的额外记忆体空间中;
第三步:当系统需要读取资料时,内建侦错功能的动态随机存储记忆体会取出资料与更正检查码,自动比对后输出正确资料;
第四步:动态随机存取记忆体实现侦错更正功能;
第五步:进一步实现模组的侦错更正功能,实现双重保障。
2.根据权利要求1所述的一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,其特征在于,所述的内建侦错功能的动态随机存储记忆体的运作速度与标准动态随机存取记忆体相同。
3.根据权利要求1所述的一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,其特征在于,所述的实现模组的侦错更正功能的具体方式是:每颗动态随机存取记忆体的内部有侦错更正功能针对每颗动态随机存取记忆体内部进行资料更正,而在模组上的动态随机存取记忆体之间也有侦错更正功能进行资料更正,这两种更正同时进行,从而将整体动态随机存取记忆体的错误更正能力再提高一个层次,实现双重保障。
4.根据权利要求1所述的一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,其特征在于,所述的模组为9颗的单面模组或18颗的双面模组。
5.根据权利要求1所述的一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法,其特征在于,所述的动态随机存取记忆体为8比特位宽的动态随机存取记忆体颗粒。
CN201610353156.7A 2016-05-25 2016-05-25 一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法 Pending CN106021035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610353156.7A CN106021035A (zh) 2016-05-25 2016-05-25 一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610353156.7A CN106021035A (zh) 2016-05-25 2016-05-25 一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法

Publications (1)

Publication Number Publication Date
CN106021035A true CN106021035A (zh) 2016-10-12

Family

ID=57094913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610353156.7A Pending CN106021035A (zh) 2016-05-25 2016-05-25 一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法

Country Status (1)

Country Link
CN (1) CN106021035A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776173A (zh) * 2016-12-15 2017-05-31 郑州云海信息技术有限公司 一种内存检测方法及装置
CN108665939A (zh) * 2017-03-31 2018-10-16 厦门鑫忆讯科技有限公司 为存储器提供ecc的方法与装置
CN109189603A (zh) * 2018-07-20 2019-01-11 江苏华存电子科技有限公司 一种用于动态随机存取存储器使用raid做纠错校验的方法
US10846168B1 (en) 2019-05-23 2020-11-24 Winbond Electronics Corp. Memory with error correction circuit

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1549121A (zh) * 2003-05-09 2004-11-24 台湾积体电路制造股份有限公司 在动态随机存取内存的更新时脉中检测与修正错误的方法与装置
CN101872318A (zh) * 2009-04-22 2010-10-27 群联电子股份有限公司 用于快闪记忆体的资料存取方法及其储存系统与控制器
CN102640116A (zh) * 2009-09-28 2012-08-15 辉达公司 对外部dram的错误检测和纠正
CN102968355A (zh) * 2012-11-13 2013-03-13 浪潮电子信息产业股份有限公司 一种基于Intel-Brickland-EX平台的内存纠错方法
CN104798047A (zh) * 2012-12-26 2015-07-22 英特尔公司 错误检测和校正装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1549121A (zh) * 2003-05-09 2004-11-24 台湾积体电路制造股份有限公司 在动态随机存取内存的更新时脉中检测与修正错误的方法与装置
CN101872318A (zh) * 2009-04-22 2010-10-27 群联电子股份有限公司 用于快闪记忆体的资料存取方法及其储存系统与控制器
CN102640116A (zh) * 2009-09-28 2012-08-15 辉达公司 对外部dram的错误检测和纠正
CN102968355A (zh) * 2012-11-13 2013-03-13 浪潮电子信息产业股份有限公司 一种基于Intel-Brickland-EX平台的内存纠错方法
CN104798047A (zh) * 2012-12-26 2015-07-22 英特尔公司 错误检测和校正装置及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776173A (zh) * 2016-12-15 2017-05-31 郑州云海信息技术有限公司 一种内存检测方法及装置
CN108665939A (zh) * 2017-03-31 2018-10-16 厦门鑫忆讯科技有限公司 为存储器提供ecc的方法与装置
CN109189603A (zh) * 2018-07-20 2019-01-11 江苏华存电子科技有限公司 一种用于动态随机存取存储器使用raid做纠错校验的方法
US10846168B1 (en) 2019-05-23 2020-11-24 Winbond Electronics Corp. Memory with error correction circuit

Similar Documents

Publication Publication Date Title
US9747148B2 (en) Error monitoring of a memory device containing embedded error correction
US9317366B2 (en) Protocol checking logic circuit for memory system reliability
CN109933280B (zh) 数据存储装置及其操作方法
CN106021035A (zh) 一种实现在内存颗粒进行故障校验以增强模组条稳定性的方法
CN103019873A (zh) 一种存储器故障单元的替换方法及装置、数据存储系统
US20140215291A1 (en) Systems and methods for error detection and correction in a memory module which includes a memory buffer
CN105340022A (zh) 用于校正数据错误的电路、设备及方法
US9378098B2 (en) Methods and systems for redundant data storage in a register
US10248497B2 (en) Error detection and correction utilizing locally stored parity information
CN104347122A (zh) 一种消息式内存模组的访存方法和装置
CN103700396A (zh) 一种面向sram的抗seu错误累积的控制器及方法
CN103413571B (zh) 存储器和利用该存储器实现检错纠错的方法
CN103218271A (zh) 一种数据纠错方法及装置
WO2016135500A1 (en) Error detection circuitry for use with memory
CN111522684A (zh) 一种同时纠正相变存储器软硬错误的方法及装置
Patel Enabling Effective Error Mitigation in Memory Chips That Use On-Die Error-Correcting Codes
CN109408839B (zh) 一种通过局部冗余减少敏感配置比特的抗辐射容错fpga电路设计方法
Lu et al. Synergistic reliability and yield enhancement techniques for embedded SRAMs
CN105575439B (zh) 一种存储单元失效纠错的方法及存储器
CN101916213A (zh) 基于arm处理器的空间防护装置及方法
Lv et al. Efficient repair analysis algorithm exploration for memory with redundancy and in-memory ECC
CN105027084A (zh) 在移动通信系统中控制存储器的装置和方法
US8661320B2 (en) Independent orthogonal error correction and detection
CN103631669B (zh) 一种纠错sram的回写方法
CN102929736A (zh) 一种闪存交织校验纠错方法及闪存控制器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012