CN100511161C - 一种解决芯片失效故障的方法 - Google Patents
一种解决芯片失效故障的方法 Download PDFInfo
- Publication number
- CN100511161C CN100511161C CNB2006100603466A CN200610060346A CN100511161C CN 100511161 C CN100511161 C CN 100511161C CN B2006100603466 A CNB2006100603466 A CN B2006100603466A CN 200610060346 A CN200610060346 A CN 200610060346A CN 100511161 C CN100511161 C CN 100511161C
- Authority
- CN
- China
- Prior art keywords
- cpu
- test
- host cpu
- response message
- business module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明公开一种解决芯片失效故障的方法,其包括:主CPU利用从CPU的空闲时间定时向从CPU发起业务功能检测的测试消息请求,通知从CPU进行指定通道或话路的正常性测试;从CPU收到该测试消息请求后调用其内正常运行的程序模块进行环回测试,判断测试结果的正确性;从CPU测试完成后,根据测试结果向主CPU回复一条测试响应消息;主CPU根据测试响应消息进行相应处理,如果测试结果为正确,则不对该从CPU的话路分配做任何改动;如果测试结果为错误或等待测试响应消息超时,则主CPU将从CPU的所有话路分配的优先级降低。通过采用该方法,可以提前发现故障隐患,确保了整个系统的可靠性和稳定性。
Description
技术领域
本发明涉及一种解决芯片失效故障而提高整个系统工作可靠性和稳定性的方法,该方法尤其在具有多CPU芯片的通信系统中具有较大的应用价值。
背景技术
在计算机系统中,硬件总是会存在一定的硬件失效率,特别是在系统运行过程中,CPU系统的内存或寄存器受周围环境等各方面因素的影响,很容易导致失效,如果系统中的软件没有对这种异常情况进行考虑并加以规避,可能会引起系统性能指标的下降,甚至导致整个系统的瘫痪。比如存储程序的内存段出现故障,可能会导致下面两种情况:一种情况是某些程序指令被改写,程序异常而跑飞,引起CPU复位,这种故障容易发现,并能及时处理;另外一种情况是内存的某个bit故障,而该bit故障刚好改变指令的某个参数,程序虽然能继续运行,但是状态不对,会引起意想不到的情况,从而导致系统性能指标的下降。
在具有多CPU芯片的通信系统中,一般将其中一个CPU作为主CPU,其余的CPU作为从CPU。现有的从CPU的检测一般是通过主从CPU之间的简单握手来判定从CPU是否出现故障,即主CPU发送一个测试消息包给从CPU,要求从CPU收到测试消息包后马上产生应答消息包回复给主CPU,通过主从CPU的简单握手得出的测试结果如果正常,仅能说明消息通道通行正常,这种方法虽然能检查出大部分的芯片故障,但是测试过程是不全面的。因为实际上,从CPU运行了许多程序模块,而不同的程序模块占用CPU不同的资源与内存,上面的简单握手只牵涉到对从CPU的维护模块的检测,其他很多软件模块都没有运行测试,对芯片的检测不是特别充分,因为单板正常运行的大部分模块都没有被检测到,因此测试不全。当从CPU的内存出现部分失效的情况下,仅仅通过主从CPU之间的简单握手是不能完全判定的。在从CPU的程序区内存的个别bit出现故障的情况下,如果该失效bit刚好改变从CPU程序区指令某个参数,该从CPU程序虽然能运行,但是运行的结果或状态不对。通常在这种情况下,由于内存失效的从CPU能与主CPU简单握手,主CPU仍然认为该从CPU工作正常,并且不停地给该从CPU分配话路,但是该从CPU已经无法得到正确的运算结果,而系统却无法检查出该故障,从而导致系统整体性能指标的下降。
有鉴于此,有必要提供一种改进方法以对从CPU进行全面检测,从而避免芯片的个别bit失效故障的发生。
发明内容
本发明所要解决的技术问题在于提供一种解决芯片失效故障而提高整个系统工作可靠性和稳定性的方法,用以规避芯片的内存出现部分失效故障的情况发生。
为解决上述技术问题,本发明是通过采用如下技术方案来实现的:
一种解决芯片失效故障的方法,其特征在于:
主CPU的业务模块向具有空闲通道的一从CPU发起业务功能检测的测试消息请求;
从CPU收到所述测试消息请求后调用其内正常运行的程序模块进行环回测试,判断测试结果的正确性;
从CPU根据所述测试结果向主CPU业务模块回复一条测试响应消息;
主CPU的业务模块根据所述测试响应消息进行相应处理:如果所述测试结果为错误,或者等待测试响应消息超时,则主CPU的业务模块将所述从CPU的所有话路分配的优先级降低。
依据该方法,如果所述测试结果为正确,则不对所述从CPU的话路分配做任何改动。
依据该方法,如果等待所述从CPU测试响应消息超时,主CPU的业务模块需要通知所述从CPU释放时隙资源和拆除环回线路。
依据该方法,如果所述从CPU给主CPU的业务模块回了测试响应消息,则需要自行释放时隙资源和拆除环回线路,由测试状态恢复到正常状态。
依据该方法,主CPU发出的一条测试消息请求仅对一个从CPU进行测试。
依据该方法,所述从CPU测试完成后,主CPU再决定和选择下一个需要测试的从CPU。
依据该方法,其特征在于,所述测试过程选择在从CPU运行的空闲时间进行。
与现有技术相比,本发明通过利用芯片运行的空闲时间,模拟CPU实际运行的程序,来判断CPU的失效,并采用相应的规避措施,从根本上避免了CPU故障(如部分内存部分bit失效等)引起的系统问题,提高了系统的可靠性和稳定性,避免了网上事故的发生。
附图说明
图1是根据本发明具体实施方式解决芯片失效故障的方法中主CPU对其中一从CPU进行测试的流程图。
具体实施方式
为了使本发明的特征和优点更加清楚明白,下面参照附图结合具体实施例对本发明作进一步的描述。
本发明具体实施例的一种解决芯片失效故障的方法,其发明的基本思路是:主CPU利用空闲时间定时向从CPU发出测试消息请求,由从CPU接到测试消息请求后对其内正常运行的程序模块进行环回测试,主CPU根据测试结果的正确性来决定是否给该从CPU分配话路。
本发明具体实施例的一种解决芯片失效故障的方法,如图1所示:
首先,由主CPU的业务模块定时在本单板内轮询有空闲通道的其中一从CPU进行测试,向该从CPU发起业务功能检测的测试消息请求,通知从CPU进行指定通道或话路的正常性测试。主CPU发出的一条测试消息请求仅对一个从CPU进行测试。
其次,该从CPU收到该测试消息请求后,按照给出的特定测试序列,自行产生测试包,将测试语音包进行环回测试。
该环回测试能够模拟CPU实际运行的程序(即测试时运行的程序模块同正常运行的程序模块基本相同,保证同实际运行基本一致)调用其内正常运行的程序模块进行检测,该从CPU通过进行环回测试能够确保测试的全面性。
再次,该从CPU测试完成后自行将测试结果与预先设定的结果进行对比,判断该测试结果的正确性,并根据测试结果向主CPU业务模块回复一条测试响应消息。
最后,主CPU的业务模块根据测试响应消息进行相应处理,如果测试结果为正确,则不对该从CPU的话路分配做任何改动;如果测试结果为错误,或者等待测试响应消息超时,则主CPU的业务模块将该从CPU的所有话路分配的优先级降低,并写日志“从CPU性能下降”。如果等待从CPU测试响应消息超时,主CPU的业务模块需要通知从CPU释放;如果从CPU给主CPU的业务模块回了测试响应消息,则需要自行释放时隙资源和拆除环回线路,由测试状态恢复到正常状态。
主CPU业务模块在测试完一个从CPU后,再决定和选择下一个需要测试的从CPU,继续重复上述的测试过程,直到把本单板内的所有从CPU测试完。
由于在测试过程中需要占用从CPU的话路资源,导致正在测试的话路不能再用来分配呼叫,因此,该测试一般选择在夜间业务量低的情况下运行,如可以考虑定在每天夜间2点等系统空闲时间开始测试。
本发明采用定时在线检测的方法,利用芯片运行的空闲时间,模拟CPU实际运行的程序,对单板正常运行的程序模块进行环回测试,因为该测试检查过程是全面和完善的,所以能够及时发现影响设备但还暂未引发致命问题的芯片故障,从而可以提前发现故障隐患,有效规避芯片的失效故障,极大地提高了系统的可靠性和稳定性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1、一种解决芯片失效故障的方法,其特征在于:
主CPU的业务模块向具有空闲通道的一从CPU发起业务功能检测的测试消息请求;
从CPU收到所述测试消息请求后调用其内正常运行的程序模块进行环回测试,判断测试结果的正确性;
从CPU根据所述测试结果向主CPU业务模块回复一条测试响应消息;
主CPU的业务模块根据所述测试响应消息进行相应处理:如果所述测试结果为错误,或者等待测试响应消息超时,则主CPU的业务模块将所述从CPU的所有话路分配的优先级降低。
2、根据权利要求1所述的方法,其特征在于,如果所述测试结果为正确,则不对所述从CPU的话路分配做任何改动。
3、根据权利要求1和2中任一项所述的方法,其特征在于,如果等待所述从CPU测试响应消息超时,主CPU的业务模块需要通知所述从CPU释放时隙资源和拆除环回线路。
4、根据权利要求1和2中任一项所述的方法,其特征在于,如果所述从CPU给主CPU的业务模块回复了测试响应消息,则需要自行释放时隙资源和拆除环回线路,由测试状态恢复到正常状态。
5、根据权利要求1所述的方法,其特征在于,主CPU发出的一条测试消息请求仅对一个从CPU进行测试。
6、根据权利要求5所述的方法,其特征在于,所述从CPU测试完成后,主CPU再决定和选择下一个需要测试的从CPU。
7、根据权利要求1所述的方法,其特征在于,所述测试过程选择在从CPU运行的空闲时间进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100603466A CN100511161C (zh) | 2006-04-16 | 2006-04-16 | 一种解决芯片失效故障的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100603466A CN100511161C (zh) | 2006-04-16 | 2006-04-16 | 一种解决芯片失效故障的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101042661A CN101042661A (zh) | 2007-09-26 |
CN100511161C true CN100511161C (zh) | 2009-07-08 |
Family
ID=38808193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100603466A Expired - Fee Related CN100511161C (zh) | 2006-04-16 | 2006-04-16 | 一种解决芯片失效故障的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100511161C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005254B (zh) * | 2015-07-10 | 2018-06-29 | 中国印钞造币总公司 | 一种外联设备联动检测方法及装置 |
-
2006
- 2006-04-16 CN CNB2006100603466A patent/CN100511161C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101042661A (zh) | 2007-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20190079809A (ko) | 결함 주입 테스트 장치 및 그 방법 | |
CN109491819A (zh) | 一种诊断服务器故障的方法和系统 | |
CN103415840A (zh) | 跨硬件层和软件层的错误管理 | |
KR101331935B1 (ko) | 추적점 기반의 고장 진단/복구 시스템 및 그 방법 | |
CN1852541A (zh) | 基站故障检测方法及故障检测系统 | |
CN102364448A (zh) | 一种计算机故障管理系统的容错方法 | |
CN111881014B (zh) | 一种系统测试方法、装置、存储介质及电子设备 | |
CN106789306A (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN100536031C (zh) | 随机存储器失效的检测处理方法及其系统 | |
CN104914815A (zh) | 处理器监控方法、装置及系统 | |
CN104283718A (zh) | 网络设备及用于网络设备的硬件故障诊断方法 | |
CN100511161C (zh) | 一种解决芯片失效故障的方法 | |
CN103428265A (zh) | Mes管控方法及系统 | |
CN110618909B (zh) | 基于i2c通讯的故障定位方法、装置、设备及存储介质 | |
CN111176878A (zh) | 一种服务器bbu备电诊断方法、系统、终端及存储介质 | |
CN103957130A (zh) | 故障检测及恢复方法和系统 | |
US7155636B2 (en) | Method for detecting faults between storage devices and storage devices using the same | |
Carreira et al. | Why do some (weird) people inject faults? | |
CN101944063B (zh) | 基于数字化微内核的实时动态调度策略测试方法 | |
CN108920297A (zh) | 一种诊断黑盒日志中pcie报错信息的方法和系统 | |
CN101404519A (zh) | 一种业务板系统和业务处理方法 | |
CN114546589A (zh) | 双活容灾系统恢复点目标验证方法、装置和设备 | |
CN100487669C (zh) | 内存重复释放的定位方法和系统 | |
CN110554932A (zh) | 一种api模块异常检测方法 | |
CN102831027B (zh) | 一种基于代理的面向服务软件系统的容错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090708 |
|
CF01 | Termination of patent right due to non-payment of annual fee |