CN101271419A - 随机存储器失效的检测处理方法、装置和系统 - Google Patents

随机存储器失效的检测处理方法、装置和系统 Download PDF

Info

Publication number
CN101271419A
CN101271419A CNA2008100666021A CN200810066602A CN101271419A CN 101271419 A CN101271419 A CN 101271419A CN A2008100666021 A CNA2008100666021 A CN A2008100666021A CN 200810066602 A CN200810066602 A CN 200810066602A CN 101271419 A CN101271419 A CN 101271419A
Authority
CN
China
Prior art keywords
program
ram
contents
data
dsp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100666021A
Other languages
English (en)
Other versions
CN101271419B (zh
Inventor
方向
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN2008100666021A priority Critical patent/CN101271419B/zh
Publication of CN101271419A publication Critical patent/CN101271419A/zh
Application granted granted Critical
Publication of CN101271419B publication Critical patent/CN101271419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种RAM失效的检测处理方法、装置和系统,应用于对中央处理器CPU/数字信号处理器DSP的RAM失效的检测处理。其中,该方法包括:获取所述RAM中的程序内容,将获取的程序内容与正确的程序内容进行比对,若所述RAM中程序内容的错误率低于预定值,则使用正确的程序内容对发生错误的程序内容进行数据修复;通过检测数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功,若所述评估结果为数据修复失败,则通过复位的方式重新加载RAM中的程序内容进行修复。采用本发明提供的技术方案,能够在及时准确发现RAM失效的基础上进行自动修复,将RAM失效对业务的影响将至最低,并降低人工成本。

Description

随机存储器失效的检测处理方法、装置和系统
技术领域
本发明涉及检测领域,尤其涉及一种CPU/DSP的RAM存储空间失效的检测处理方法、装置和系统。
背景技术
带有随机存储器(Random Access Memory,RAM)的器件在其生命周期中,会由于各种各样的原因导致功能失效,一般而言,硬件本身发生损坏的,我们称之为器件硬失效(Firm Error),否则,称之为器件软失效(Soft Error)。
软失效主要是由于带电粒子撞击器件的存储单元RAM引起的,这些高能粒子和半导体存储器的原子相互作用产生电子空穴对,该电子空穴对导致存储单元中存储信息的改变,进而导致器件功能错误。
上世纪70年代末的时候,工程人员就发现了软失效的现象,当时的原因是器件封装材料放射性杂质衰变发出α粒子,引起了电离效应,导致存储单元状态发生改变。随着半导体技术的发展、器件工艺尺寸的降低、工作电压的减少,现在发现宇宙射线同样也能引起器件软失效,且其影响的程度将比以往严重的多,因此现在器件软失效再次受到业界的关注。
所有带RAM的器件都有可能发生软失效,不过迄今为止业界关注较多的是基于RAM的现场可编程门阵列(Field Programmable Gate Array,FPGA)和专用集成电路(Application Specific Integrated Circuit,ASIC)等逻辑器件出现的软失效问题,而且在设计和防护上已经积累了一定的经验,但对于应用更广泛的CPU/DSP的静态随机存储器(Static Random Access Memory,SRAM)和动态随机存储器(Dynamic RandomAccess Memory,DRAM)的软失效问题则关注较少。
实际上,CPU/DSP的SRAM和DRAM储存器照样存在严重的软失效情况。比如,根据多个器件厂商提供的数据,折合成年失效率,1兆比特SRAM中出现1比特空间软失效的概率是千分之几的级别,对于通讯、航天和军用等对稳定性要求很严的产品而言,这是一个很高的失效率。
可以确定的是,在那些对CPU/DSP使用很频繁的商用产品中,出现SRAM或DRAM软失效的概率很大。其中有一些可以通过内存分析找到并确认是软失效引起的,但是绝大多数都会表现为一些无法重现的故障,比如复位、死机、无异常记录情况下部分功能错误等等。这一方面会影响产品的可靠性,另一方面为了定位这些问题会投入大量的人力,因此有必要将软失效的影响限制在最低的限度。
为了能及时发现并修复CPU/DSP的RAM软失效,现有技术提供以下方案:利用CPU/DSP自身程序对CPU/DSP的RAM程序内容进行偶校验,并在发现RAM软失效时,人工进行修复。
在实现本发明的过程中,本发明人发现现有技术的方案至少存在以下问题:
第一、从检测机制上,现有技术采用CPU/DSP自身程序检测CPU/DSP的RAM程序内容,并且采用偶校验的方式,存在不能实现完全准确检测的风险。
第二、故障发生后的处理还依赖于人工方式,相对来说,人工维护工作量比较大,同时不能实时进行恢复,对业务影响较大。
发明内容
本发明实施方式要解决的主要技术问题是提供一种RAM失效的检测处理方法、装置和系统,能够在及时准确发现RAM失效的基础上进行自动修复,将RAM失效对业务的影响将至最低,并降低人工成本。
为解决上述技术问题,本发明的一个实施例提供了一种随机存储器RAM失效的检测处理方法,应用于对中央处理器CPU/数字信号处理器DSP的RAM失效的检测处理,该方法包括:获取所述RAM中的程序内容,将获取的程序内容与正确的程序内容进行比对,若所述RAM中程序内容出现错误、且错误率低于预定值,则使用正确的程序内容对发生错误的程序内容进行数据修复;通过检测数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功,若所述评估结果为数据修复失败,则通过复位的方式重新加载RAM中的程序内容进行修复。
本发明的另一个实施例提供了一种RAM失效的检测处理装置,应用于对CPU/DSP的RAM失效的检测处理,该装置包括:检测判断单元、错误数据修复单元、评估单元和加载修复单元。其中,所述检测判断单元,用于读取所述RAM中的程序内容,将读取的程序内容与正确的程序内容进行比对,若所述RAM中程序内容出现错误、且错误率低于预定值,则发送数据修复指令到所述错误数据修复单元;所述错误数据修复单元,用于在接收到所述数据修复指令后,使用正确的程序内容对发生错误的程序内容进行数据修复;所述评估单元,用于通过检测经过数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功;所述加载修复单元,用于在所述评估单元评估数据修复失败时,通过复位的方式重新加载RAM中的程序内容进行修复。
本发明的再一个实施例提供了一种RAM失效的检测处理系统,用于对CPU/DSP的RAM失效的检测处理,包括前述的RAM失效检测处理装置,以及作为被检测对象的CPU/DSP的RAM。
本发明实施例提供的方案与现有技术相比,主要区别及其效果在于:
本发明实施例提供的技术方案,在检测到RAM中程序内容发生错误、且错误率低于预定值后,先对发生错误的程序内容进行数据修复;之后对数据修复是否成功进行评估,如果评估结果为数据修复失败,则自动通过复位的方式重新加载RAM中的程序内容,再次进行修复。
通过这样的两级修复机制(数据修复和重新加载修复),能够针对RAM失效中存在的各种情况而采用相应的处理方式,从而在及时发现RAM失效的基础上,有条件的进行针对性更为明确的自动修复,将RAM失效对业务的影响将至最低。
另外,本发明实施例提供的技术方案,由于检测、评估和修复均为自动实现,极大的降低了人工成本。
附图说明
图1为本发明实施例一提供的RAM失效的检测处理方法流程图;
图2为本发明实施例二提供的RAM失效的检测处理方法流程图;
图3为本发明实施例三提供的RAM失效的检测处理装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
对于实际的产品,按照其存储空间是否可受高层访问的特性,CPU/DSP可以分为两种应用类型:一类CPU/DSP的存储空间可以被高层控制实体(比如,可以采用高层的CPU或DSP作为控制实体)访问,为了描述方便,简称其为A类;另一类CPU/DSP的存储空间不可被高层控制实体访问,简称其为B类。本发明实施例提供的技术方案,主要是针对A类CPU/DSP的存储空间RAM。
另外,CPU/DSP的RAM空间分为程序内容和数据内容两部分,通常CPU/DSP的RAM程序内容是固定不变的,而CPU/DSP的RAM数据内容会随着数据的处理而不断发生变化。RAM失效的检测处理中,其对象是CPU/DSP的RAM程序内容。
本发明实施例提供的技术方案,在检测到RAM中程序内容发生错误、且错误率低于预定值后,先对发生错误的程序内容进行数据修复;之后对数据修复是否成功进行评估,如果评估结果为数据修复失败,则自动通过复位的方式重新加载RAM中的程序内容,再次进行修复。
图1是本发明实施例一提供的RAM失效的检测处理方法流程图。如图1所示,该方法包括如下步骤:
步骤101:获取RAM中的程序内容;
步骤102:将获取的程序内容与正确的程序内容进行比对,若所述RAM中程序内容出现错误、且错误率低于预定值,则执行步骤102;
可以理解的是,当RAM中程序内容没有错误时,流程可以就此结束(简便起见,图中未示出)。
值得说明的是,步骤101和102可以视为对RAM中程序内容的检测环节。
步骤103:使用正确的程序内容对发生错误的程序内容进行数据修复;
步骤104:通过检测数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功,如果评估结果为数据修复成功,则执行步骤105,如果评估结果为数据修复失败,则执行步骤106;
步骤105:数据修复成功后,判断所述RAM发生软失效,进行事件提示;
步骤106:通过复位的方式重新加载RAM中的程序内容进行修复。
图2是本发明实施例二提供的RAM失效的检测处理方法流程图。简便起见,本实施例以检测处理对象为DSP的RAM为例进行说明。由于用DSP自身程序检测DSP的RAM,会带来检测处理的不可靠性,所以,需要使用高层控制实体来实现对DSP的RAM的检测,以此保证检测结果的可靠性。另外,为了实现实时对DSP软失效的恢复处理,也需要借助高层控制实体进行管理。本实施例中,简便起见,仅以高层控制实体为CPU为例进行说明,但不限于此。而且,本发明实施例提供的技术方案中,RAM包括CPU/DSP的SRAM和DRAM。
本实施例是针对DSP的RAM可以直接被高层控制实体CPU访问的情况。在这种情况下,DSP的RAM程序内容一般而言也是由CPU下发加载的。在本实施例中,DSP程序(包括RAM程序在内)可以由CPU通过CPU和DSP之间的HPI(hardware platform interface,硬件平台接口)接口进行加载的。CPU在HPI口加载DSP程序时,可以在CPU自身的存储器中中保留相关DSP的RAM程序内容,也即存储正确的RAM程序内容,记录为A。
如图2所示,该方法包括如下步骤:
201:CPU获取DSP的RAM程序内容;
本步骤中,可以由CPU启动定时器,定时器时间到时,由CPU软件获取DSP当前正在运行中的RAM程序内存,记录为B;
具体的,该定时器可以根据各种应用业务所能承受的情况而决定,比如,可以是2分钟、5分钟、10分钟或是其它周期,本实施例中以10分钟为例。这样,当定时器超时时,由CPU软件通过HPI口获取DSP当前正在运行中的RAM程序内容,记录为B;
步骤202:CPU将获取的RAM程序B与正确的程序内容A进行比对,判断RAM程序内容在发生错误的情况下,其错误率是否低于预定值,如果是,则执行步骤203(数据修复),如果判断结果为否,则执行步骤207(重新加载修复);
本步骤中,可以由CPU程序将A和B按比特bit位逐个比对。比对的结果可能为:1)如果A和B完全一致,则认为该DSP中当前正在运行的RAM程序内容正确无误,处于正常状态,可以继续运行,整个RAM失效检测处理流程就此结束;2)如果A和B不一致,则由CPU记录不一致的bit位和正确的程序内容A对应bit位的正确值信息(比如,正确的程序代码)。
在2)的情况下,由CPU统计累计错误比特位,如果错误比特位低于预定值(例如3比特),则判断当前DSP的RAM程序内容错误率较低,并转入步骤203;如果累计错误比特位大于或等于预定值(例如3比特),则判断当前DSP的RAM程序内容错误率较高,并转入步骤207(重新加载修复)。
根据系统的实际容错情况,可以设定不同的累计错误比特位的预定值,例如3比特、5比特、7比特或其它,本实施例中以3比特为例。
值得说明的是,步骤201和202可以视为对RAM中程序内容的检测环节。
步骤203:CPU使用正确的程序内容A对发生错误的程序内容进行数据修复,对发生错误的程序内容全部修复后,执行步骤204;
步骤203中,高层控制实体CPU对发生错误的DSP的RAM程序内容进行数据修复,即CPU将存储于其中的正确程序代码重新下发到RAM中出现数据错误的数据单元,进行修复。具体的实现方式可以为:由CPU程序通过HPI口读取步骤202中记录的DSP的RAM程序内容中的不一致bit位,并将对应bit位的内存信息修复为A中对应bit位的正确值信息(比如,正确程序代码)。如果对应bit位修复成功后,CPU程序继续通过HPI口修改DSP的RAM程序内容中下一个不一致的bit位,直至所有不一致bit位修复结束。
如果对所有不一致比特位都能够成功修复,则执行步骤204,进行数据修复的评估环节。
在该数据修复过程中,可能还会出现一种情况:某比特位修复失败(比如根本不能修复),则转入步骤206,进行重新加载修复。
步骤204:通过检测数据修复后的DSP的数据处理情况,评估所述数据修复是否成功,若所述评估结果为数据修复失败,则执行步骤206(重新加载修复);
本步骤中,评估数据修复是否成功的实现方式可以有多种:
方式一:计算相邻检测周期内DSP数据处理异常记录次数的差值,若所述差值大于第一门限,则评估数据修复失败。
具体可以包括:步骤A,启动评估超时定时器,定时器的周期为5分钟。评估超时定时器的具体时限可以视业务需求调整,可以是3分钟,5分钟、7分钟或是其它时限,在本实施例中,以5分钟为例。步骤B,CPU读取当前DSP数据处理异常记录次数,记为C。在CPU/DSP程序设计中,对于DSP数据处理异常的情况,会累计异常记录次数,例如数据处理出现一次异常,则记录为1,出现两次异常,则记录为2,依次类推。步骤C,在评估超时定时器超时时,高层控制实体再次读取当前DSP数据处理异常记录次数,记为D,并计算D-C的差。相应的,评估数据修复是否成功的方式可以为:如果(D-C)的差值大于第一门限,比如该门限可以设定为10(10并不是一个唯一的差值,具体的差值可以也可视业务需求进行调整),则CPU判断对DSP的RAM程序内容进行的数据修复失败。
方式二:对CPU/DSP输出的数据进行校验,若计算得到的校验错误率大于第二门限,则评估数据修复失败;
具体可以包括:DSP在对数据处理时进行CRC(Cyclic Redundancy Check,循环冗余码)校验,在DSP将数据处理后输出到CPU后,CPU针对DSP的输出数据也进行CRC校验,由CPU累计CRC校验错误率。相应的,评估数据修复是否成功的方式可以为:如果累计CRC校验错误率大于第二门限,比如该门限可以设定为50%(50%并不是一个固定不变的值,具体值也可视业务需求进行调整),则高层控制实体判断对DSP的RAM程序内容进行的数据修复失败。
方式三:评估数据修复是否成功可以结合上述两种方式来完成,即,计算相邻检测周期内DSP数据处理异常记录次数的差值,若所述差值大于第三门限,且对CPU/DSP输出的数据进行校验所得到的校验错误率大于第四门限,则评估数据修复失败。其中,该第三门限可以与第一门限相同或不同,该第四门限可以与第二门限相同或不同。
通过以上的评估方式,如果评估结果为成功,则执行步骤205;如果评估结果为数据修复失败,则需要执行步骤206(重新加载修复)。
值得说明的是,在步骤204执行评估之前,可选的,还可以包括步骤:由CPU程序通过HPI口读取步骤202记录的DSP内存不一致bit位,并将对应bit位的程序内容和A中对应bit位的正确值信息相比较。如果两者不一致,则不执行评估的步骤,而直接进入步骤206,进行重新加载修复。即,若CPU对发生错误的比特位的程序代码进行数据修复后,该发生错误的比特位的程序代码仍与正确程序代码不一致,则直接通过复位的方式重新加载RAM中的程序内容进行修复。
步骤205:数据修复成功后,判断所述RAM发生软失效,进行事件提示;
本步骤中,因为评估结果为数据修复成功,则表明RAM发生了软失效,可以对上述信息以事件提示的方式,进行上报。在事件信息中包含的信息中可以包括以下信息之一或其组合:发生失效的时间,失效的种类(软失效),数据修复的时间,以及数据修复评估结果等。当然,还可以对上述信息进行记录。
另外,在事件信息中包含的信息还可以包括:提示操作管理员在本事件发生前后若干分钟内可能产生了对业务通讯质量的影响,需要基站设备操作管理员确认对于网络业务通讯质量KPI(Key Performance Indication,关键业绩指标)的影响。
步骤206:通过复位的方式重新加载RAM中的程序内容进行修复;
步骤207:对重新加载到RAM中的程序内容进行一致性比对,若发生错误的程序内容与正确的程序内容全部一致,则判断发生软失效,执行步骤205,若发生错误的程序内容与正确的程序内容仍不一致,则执行步骤208;
在DSP重新加载程序启动后,CPU程序再次对DSP的RAM程序内容进行检测(与正确的程序内容A进行一致性比对),如果发现步骤202记录的DSP内存不一致bit位均已正确,则表明重新加载修复成功,执行步骤205;如果发现记录的不一致bit位的信息仍不正确,则表明重新加载修复不成功(与正确的程序内容A相应比特位仍不一致),则执行步骤208。
如果能够通过重新加载修复成功,则表明RAM发生了软失效。值得说明的是,此处在事件信息中包含的信息中,除了可以包括之前在步骤205中包含的信息之外,还可以包括:重新加载修复的时间,以及重新加载修复的结果。当然,此处在事件信息中包含的信息,也可以仅仅包括重新加载修复的时间,以及重新加载修复的结果。另外,还可以对上述信息进行记录。
其中,在事件信息中包含的信息还可以包括:提示操作管理员在本事件发生前后若干分钟内可能产生了对业务通讯质量的影响,需要基站设备操作管理员确认对于网络业务通讯质量KPI的影响。
步骤208:判断所述RAM发生硬失效,上报器件故障告警。
本步骤中,由于判断发生了硬失效,需要通过上报器件故障告警的方式,提示操作管理员通过更换单板的方式来修复。
当然,可以对上述信息以事件提示的方式,进行上报。在事件信息中包含的信息,可以包括以下信息之一或其组合:发生失效的时间,失效的类型(硬失效),数据修复的时间,数据修复评估的结果,以及重新加载修复的时间和结果。另外,也可以对上述信息进行记录。
其中,事件信息中包含的信息还可以包括:提示操作管理员在本事件发生前后若干分钟内可能产生了对业务通讯质量的影响,需要基站设备操作管理员确认对于网络业务通讯质量KPI的影响。
值得说明的是,上述实施例中,仅仅以一次数据修复和相应的数据修复评估为例进行说明。但本发明的实施例可以不限于此,比如,还可以采用另外一种实现方式:重复多次数据修复过程,以及相应的数据修复评估过程,当一次数据修复不成功时,则重复进行数据修复,以及进行相应的评估。比如,预设最多可以重复修复3次,当重复修复次数达到3,且数据修复的评估结果仍然为失败时,再执行步骤207的重新加载修复。此种情况下,上报的RAM失效信息中,还可以包括数据修复的次数。
本发明实施例提供的技术方案,使用高层控制实体来实现对DSP的RAM的检测,以此保证检测结果的可靠性;针对存放在CPU/DSP RAM中的程序内容,采用与正确数据进行比对的方法,及时检测RAM存储器的失效情况。在检测到RAM中程序内容发生错误,且错误率低于预定值后,先对发生错误的程序内容进行数据修复;之后对数据修复是否成功进行评估,如果评估结果为数据修复失败,则自动通过复位的方式重新加载RAM中的程序内容,再次进行修复。
如果数据修复评估结果为成功,则判断为发生RAM软失效,在这种情况下,可以记录软失效信息,并以事件的方式进行上报。如果RAM中程序内容发生错误、且错误率不低于预定值,或数据修复评估结果不成功,或数据修复过程中出现无法修复的情况,需要进行重新加载修复。如果重新加载修复后检测结果为成功,则判断发生RAM软失效,可以记录软失效信息,并以事件的方式进行上报;如果重新加载修复后检测结果仍然为不成功(发生错误的比特位仍不正确),则判断发生RAM硬失效,可以记录硬失效信息,并以事件的方式进行上报。
通过这样的两级修复机制(数据修复和重新加载修复),一方面,能够针对RAM失效中存在的各种情况(可能是软失效,也可能产生了硬失效)而采用相应的处理方式,从而在及时发现RAM失效的基础上,有条件的进行针对性更为明确的自动修复,将RAM失效对业务的影响将至最低;另一方面,通过将失效信息以事件方式上报或告警指示等方式,为失效提供准确的信息参考,比如,在发生硬失效的情况下,操作管理员可以根据告警信息,第一时间更换单板,及时恢复通信。
另外,本发明实施例提供的技术方案,由于检测、评估和修复均为自动实现,极大的降低了人工成本。
本发明第三个实施例提供了一种RAM失效的检测处理装置,应用于对CPU/DSP的RAM失效的检测处理。该装置包括:检测判断单元301、错误数据修复单元302、评估单元303和加载修复单元304。其中,
所述检测判断单元301,用于获取所述RAM中的程序内容,将获取的程序内容与正确的程序内容进行比对,若所述RAM中程序内容的错误率低于预定值,则发送数据修复指令到所述错误数据修复单元;
所述错误数据修复单元302,用于在接收到所述数据修复指令后,使用正确的程序内容对发生错误的程序内容进行数据修复;
所述评估单元303,用于通过检测经过数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功;
所述加载修复单元304,用于在所述评估单元评估数据修复失败时,通过复位的方式重新加载RAM中的程序内容进行修复。
由于本发明实施例提供的技术方案中,除了数据修复失败,还有多种情况下,都可能出现需要通过复位的方式重新加载RAM中的程序内容进行修复。比如,如果RAM中程序内容发生错误、且错误率不低于预定值,或数据修复过程中出现无法修复的情况,则需要进行重新加载修复。
所以,相应的,所述加载修复单元304还可以用于:当读取所述RAM中的程序内容,将读取的程序内容与正确的程序内容进行比对时,若所述RAM中程序内容出现错误且、错误率大于等于预定值,通过复位的方式重新加载RAM中的程序内容进行修复。和/或,当数据修复过程中出现无法修复的情况时,通过复位的方式重新加载RAM中的程序内容进行修复。
进一步的,所述装置还包括:加载修复判断单元,用于:对重新加载到RAM中的程序内容进行比对,若发生错误的程序内容仍与正确的程序内容不一致,则判断所述RAM发生硬失效;若发生错误的程序内容均与正确的程序内容一致,则判断所述RAM发生软失效。
另外,所述装置还可以包括:事件提示单元,用于判断所述RAM发生软/硬失效时,以事件的方式上报失效信息。其中,所述失效信息包括以下信息之一或其组合:发生失效的时间,失效的类型,数据修复的时间,数据修复评估结果,以及重新加载修复的时间和结果。
而且,所述装置还可以包括其他用以实现方法实施例中其他功能的模块或单元。
值得说明的是,该装置可以为CPU/DSP,或是CPU/DSP的功能单元,或是其他网络单元。
本发明第四个实施例还提供了一种RAM失效的检测处理系统,应用于对CPU/DSP的RAM失效的检测处理,包括第三个实施例所提供的RAM失效检测处理装置,以及作为被检测对象的CPU/DSP的RAM。
由于本发明实施例提供的技术方案的技术效果,已经在方法实施例中进行了比较充分的描述,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1、一种随机存储器RAM失效的检测处理方法,应用于对中央处理器CPU/数字信号处理器DSP的RAM失效的检测处理,其特征在于,该方法包括:
获取所述RAM中的程序内容,将获取的程序内容与正确的程序内容进行比对,若所述RAM中程序内容出现错误、且错误率低于预定值,则使用正确的程序内容对发生错误的程序内容进行数据修复;
通过检测数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功,若所述评估结果为数据修复失败,则通过复位的方式重新加载RAM中的程序内容进行修复。
2、如权利要求1所述的方法,其特征在于,所述通过检测数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功包括:
计算相邻检测周期内CPU/DSP数据处理异常记录次数的差值,若所述差值大于第一门限,则评估数据修复失败;或,
对CPU/DSP输出的数据进行校验,若计算得到的校验错误率大于第二门限,则评估数据修复失败;或,
计算相邻检测周期内CPU/DSP数据处理异常记录次数的差值,若所述差值大于第三门限,且对CPU/DSP输出的数据进行校验所得到的校验错误率大于第四门限,则评估数据修复失败。
3、如权利要求1所述的方法,其特征在于,所述方法还包括:读取所述RAM中的程序内容,将读取的程序内容与正确的程序内容进行比对时,若所述RAM中程序内容的错误率大于或等于所述预定值,则通过复位的方式重新加载RAM中的程序内容进行修复。
4、如权利要求1所述的方法,其特征在于,所述方法还包括:所述正确的程序内容为高层控制实体存储的正确的程序代码,所述使用正确的程序内容对发生错误的程序内容进行数据修复包括:
所述高层控制实体将RAM中发生错误的比特位的程序代码,修复为所述高层控制实体存储的相应比特位的正确程序代码。
5、如权利要求4所述的方法,其特征在于,所述方法还包括:若所述高层控制实体对发生错误的比特位的程序代码进行数据修复后,该发生错误的比特位的程序代码仍与正确程序代码不一致,则通过复位的方式重新加载RAM中的程序内容进行修复。
6、如权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:对重新加载到RAM中的程序内容进行一致性比对,若发生错误的程序内容仍与正确的程序内容不一致,则判断所述RAM发生硬失效,以事件的方式上报失效信息;
若发生错误的程序内容均与正确的程序内容一致,则判断所述RAM发生软失效,以事件的方式上报失效信息。
7、如权利要求6所述的方法,其特征在于,所述失效信息包括以下信息之一或其组合:发生失效的时间,失效的类型,数据修复的时间,数据修复评估结果,以及重新加载修复的时间和结果。
8、一种RAM失效的检测处理装置,应用于对CPU/DSP的RAM失效的检测处理,其特征在于包括:检测判断单元、错误数据修复单元、评估单元和加载修复单元,其中,
所述检测判断单元,用于获取所述RAM中的程序内容,将获取的程序内容与正确的程序内容进行比对,若所述RAM中程序内容出现错误、且错误率低于预定值,则发送数据修复指令到所述错误数据修复单元;
所述错误数据修复单元,用于在接收到所述数据修复指令后,使用正确的程序内容对发生错误的程序内容进行数据修复;
所述评估单元,用于通过检测经过数据修复后的CPU/DSP的数据处理情况,评估所述数据修复是否成功;
所述加载修复单元,用于在所述评估单元评估数据修复失败时,通过复位的方式重新加载RAM中的程序内容进行修复。
9、如权利要求8所述的装置,其特征在于,所述加载修复单元还用于:当读取所述RAM中的程序内容,将读取的程序内容与正确的程序内容进行比对时,若所述RAM中程序内容的错误率大于等于所述预定值,则通过复位的方式重新加载RAM中的程序内容进行修复。
10、如权利要求8或9所述的装置,其特征在于,所述装置还包括:加载修复判断单元,用于:
对重新加载到RAM中的程序内容进行比对,若发生错误的程序内容仍与正确的程序内容不一致,则判断所述RAM发生硬失效;
若发生错误的程序内容均与正确的程序内容一致,则判断所述RAM发生软失效。
11、一种RAM失效的检测处理系统,应用于对CPU/DSP的RAM失效的检测处理,其特征在于,包括如权利要求8至10任一项所述的RAM失效检测处理装置,以及作为被检测对象的CPU/DSP的RAM。
CN2008100666021A 2008-04-03 2008-04-03 随机存储器失效的检测处理方法、装置和系统 Active CN101271419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100666021A CN101271419B (zh) 2008-04-03 2008-04-03 随机存储器失效的检测处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100666021A CN101271419B (zh) 2008-04-03 2008-04-03 随机存储器失效的检测处理方法、装置和系统

Publications (2)

Publication Number Publication Date
CN101271419A true CN101271419A (zh) 2008-09-24
CN101271419B CN101271419B (zh) 2010-08-04

Family

ID=40005406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100666021A Active CN101271419B (zh) 2008-04-03 2008-04-03 随机存储器失效的检测处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN101271419B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981830A (zh) * 2012-11-02 2013-03-20 北京航空航天大学 一种可配置的文件快速识别和已损坏文件智能修复的方法
CN104750591A (zh) * 2013-12-30 2015-07-01 上海威亿实业有限公司 一种计算机取证装置及取证方法
CN104063317B (zh) * 2014-06-23 2017-02-15 安徽师范大学 一种指令诊断方法
CN109753374A (zh) * 2017-11-01 2019-05-14 塔普思科技公司 内存位级的修复方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981830A (zh) * 2012-11-02 2013-03-20 北京航空航天大学 一种可配置的文件快速识别和已损坏文件智能修复的方法
CN102981830B (zh) * 2012-11-02 2016-02-03 北京航空航天大学 一种可配置的文件快速识别和已损坏文件智能修复的方法
CN104750591A (zh) * 2013-12-30 2015-07-01 上海威亿实业有限公司 一种计算机取证装置及取证方法
CN104063317B (zh) * 2014-06-23 2017-02-15 安徽师范大学 一种指令诊断方法
CN109753374A (zh) * 2017-11-01 2019-05-14 塔普思科技公司 内存位级的修复方法
CN109753374B (zh) * 2017-11-01 2022-05-03 珠海兴芯存储科技有限公司 内存位级的修复方法

Also Published As

Publication number Publication date
CN101271419B (zh) 2010-08-04

Similar Documents

Publication Publication Date Title
US4964130A (en) System for determining status of errors in a memory subsystem
CN100536031C (zh) 随机存储器失效的检测处理方法及其系统
US10235233B2 (en) Storage error type determination
US7877666B2 (en) Tracking health of integrated circuit structures
US20060161831A1 (en) Lowering voltage for cache memory operation
CN101271419B (zh) 随机存储器失效的检测处理方法、装置和系统
CN102135925B (zh) 用于检测错误检查和纠正内存的方法和装置
CN112506730A (zh) 适用于网络交换芯片ecc功能验证的验证平台及验证方法
US20120311396A1 (en) Mram field disturb detection and recovery
CN109684141A (zh) 一种磁盘故障诊断方法、装置、终端及可读存储介质
Mueller et al. RAS strategy for IBM S/390 G5 and G6
CN100501686C (zh) 在差错处理程序执行期间处理差错的方法、处理器及系统
CN113608720B (zh) 一种抗单粒子翻转的星载数据处理系统及方法
CN113946932A (zh) 空间辐射环境可靠性评估方法及装置
US9230687B2 (en) Implementing ECC redundancy using reconfigurable logic blocks
CN110348244B (zh) 基于仲裁的多校验和验证方法、系统、装置及存储介质
Mielke et al. Accelerated testing of radiation-induced soft errors in solid-state drives
CN110515815A (zh) 单板复位测试的监控方法
CN111625185A (zh) 一种磁盘故障监控的方法、系统及相关组件
US11742048B2 (en) Method for testing memory
CN117743062B (zh) 一种应用于存储器芯片的抗辐照检测方法
CN117591337B (zh) 计算机信息数据交互传输管理系统及方法
CN102722454B (zh) 一种磁盘保护方法及装置
CN113296682B (zh) 整车控制器的数据读取和写入方法
CN117724916A (zh) 一种安全内存条异常检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant