JP5618204B2 - 障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 - Google Patents
障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 Download PDFInfo
- Publication number
- JP5618204B2 JP5618204B2 JP2010256954A JP2010256954A JP5618204B2 JP 5618204 B2 JP5618204 B2 JP 5618204B2 JP 2010256954 A JP2010256954 A JP 2010256954A JP 2010256954 A JP2010256954 A JP 2010256954A JP 5618204 B2 JP5618204 B2 JP 5618204B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- error
- information
- occurrence
- count
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 53
- 230000010365 information processing Effects 0.000 title claims description 23
- 238000003672 processing method Methods 0.000 title claims description 15
- 238000003745 diagnosis Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 20
- 238000012544 monitoring process Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 9
- 208000011580 syndromic disease Diseases 0.000 description 55
- 238000000034 method Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/16—Protection against loss of memory contents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Techniques For Improving Reliability Of Storages (AREA)
- Debugging And Monitoring (AREA)
- For Increasing The Reliability Of Semiconductor Memories (AREA)
- Computer Hardware Design (AREA)
Description
ソフトウェア(OS)60は、コンピュータシステムを管理するソフトウェアまたはOSである。メモリコントローラ2への各種設定をプロセッサ8に指示する。本実施の形態では、プロセッサ8からの命令は診断装置6を介して行うこととしている。
障害ログ情報保持部19のエントリ部22−0(エントリ0)に設定されているアドレス空間内でのエラー発生回数又は障害が発生したECCシンドローム回数が3になると、比較部16は、エラーカウント閾値保持部15の閾値と、障害ログ情報保持部19のカウント値又はシンドローム、カウント値とが一致したことを検出する(ステップS7:Yes)。それにより、診断制御部4(の比較部16)は診断装置6に診断報告として障害通知を行う(ステップS8)。
すなわち、従来技術である障害検出機能は、障害多発による割り込み処理の軽減を目的として閾値管理を実施している。その閾値管理期間中には障害ログ情報の採取のような処理が実施されず、障害が発生していない期間として扱われるため、この期間中に同様な障害が多発してしまうと、訂正不可能エラーに発展し、システムダウンに繋がる恐れがある。しかし、本発明では、この閾値管理期間中の障害ログ採取を可能とし、障害ログに応じて適切な障害処理を継続的に行っているので、この閾値管理期間の間に発生する恐れがあるシステムダウンの発生確率を軽減させることが可能である。
2 メモリコントローラ
3 ECC回路
4 診断制御部
5 障害ログ制御部
6 診断装置
7 記憶装置
8 プロセッサ
11 エラー検出部
12 エラー訂正部
14 診断命令制御部
15 エラーカウント閾値保持部
16 比較部
17 エラー情報保持部
18 エラーカウント制御部
19 障害ログ情報保持部
22、22−1〜n エントリ部
31 比較情報保持部
32 比較部
33 カウンタ
34 インターバルタイマ
50 情報処理装置
60 ソフトウェア(OS)
61 構成制御部
62 メモリ管理部
Claims (9)
- メモリから読み出されたデータのエラーを検出・訂正し、エラー情報を出力する検出訂正部と、
前記エラー情報を、複数の障害発生要因の各々毎に、障害ログ情報として管理する障害ログ制御部と、
前記障害ログ情報を参照して、前記複数の障害発生要因のいずれかでの前記エラーの発生回数が閾値に達したとき、障害通知を出力する診断制御部と
を具備し、
前記診断制御部は、前記障害通知後の障害ログの要求に応答して、前記発生回数が前記閾値に達するまでの前記障害ログ情報を出力し、
前記障害ログ情報は、前記複数の障害発生要因の各々毎に障害が発生する回数である障害発生回数または前記複数の障害発生要因の各々毎に障害が発生する間隔である障害発生間隔を含み、
前記障害ログ制御部は、
前記障害発生回数または前記障害発生間隔を監視するエラーカウント制御部
を具備し、
前記障害発生回数または前記障害発生間隔に基づいて可変の指摘割合で障害部位の切り離しを行う
障害処理装置。 - 請求項1に記載の障害処理装置において、
前記エラー情報は、前記データのアドレスに関する情報を含み、
前記複数の障害発生要因は、前記メモリ内に設定された複数の領域であり、
前記障害ログ制御部は、前記エラー情報の前記アドレスに基づいて、前記複数の領域の各々毎に、前記エラー情報を前記障害ログ情報として管理する
障害処理装置。 - 請求項2に記載の障害処理装置において、
前記エラー情報は、更に、前記データ内のエラー位置に関する情報を含み、
前記診断制御部は、前記障害ログ情報を参照して、前記複数の領域のいずれかでの前記発生回数又は前記エラー位置での前記発生回数が前記閾値に達したとき、前記障害通知を出力する
障害処理装置。 - 請求項3に記載の障害処理装置において、
前記障害ログ制御部は、
前記エラー情報を記憶するエラー情報保持部と、
前記複数の領域の各々毎に設けられた複数のカウント制御部と、
前記障害ログ情報を保持する障害ログ保持部と
を備え、
前記複数のカウント制御部の各々は、前記複数の領域の各々のうちの自身に対応付けられた領域に含まれるアドレスを有する前記エラー情報を取得し、前記アドレスに関する第1カウント値、及び、前記エラー位置に関する第2カウント値をインクリメントし、
前記アドレス、前記第1カウント値、前記エラー位置及び前記第2カウント値を前記障害ログ情報として前記障害ログ保持部へ出力し、
前記診断制御部は、
前記第1カウント値用の第1閾値、及び、前記第2カウント値用の第2閾値の少なくとも一方を保持するカウント閾値保持部と、
前記第1カウント値と前記第1閾値との一致、又は、前記第2カウント値と前記第2閾値との一致の少なくとも一方に基づいて、前記障害通知を出力する比較部と
を備える
障害処理装置。 - 請求項1乃至4のいずれか一項に記載の障害処理装置と、
前記障害通知に応答して、前記障害処理装置から、前記発生回数が前記閾値に達するまでの前記障害ログ情報を取得する診断部と、
前記障害処理装置から取得した障害ログ情報に基づいて、前記複数の障害発生要因のうちの前記閾値に対応する障害発生要因を取り除く管理制御部と
を具備する
情報処理装置。 - メモリから読み出されたデータのエラーを検出・訂正し、エラー情報を出力するステップと、
前記エラー情報を、複数の障害発生要因の各々毎に、障害ログ情報として管理するステップと、
前記障害ログ情報を参照して、前記複数の障害発生要因のいずれかでの前記エラーの発生回数が閾値に達したとき、障害通知を出力するステップと、
前記障害通知に応答して、前記発生回数が前記閾値に達するまでの前記障害ログ情報を取得するステップと、
前記取得された障害ログ情報に基づいて、前記複数の障害発生要因のうちの前記閾値に対応する障害発生要因を取り除くステップと
を具備し、
前記障害ログ情報は、前記複数の障害発生要因の各々毎に障害が発生する回数である障害発生回数または前記複数の障害発生要因の各々毎に障害が発生する間隔である障害発生間隔を含み、
前記管理するステップは、
前記障害発生回数または前記障害発生間隔を監視するステップ
を具備し、
前記取り除くステップは、
前記障害発生回数または前記障害発生間隔に基づいて可変の指摘割合で障害部位の切り離しを行うステップ
を具備する
障害処理方法。 - 請求項6に記載の障害処理方法において、
前記エラー情報は、前記データのアドレスに関する情報を含み、
前記複数の障害発生要因は、前記メモリ内に設定された複数の領域であり、
前記障害ログ情報として管理するステップは、
前記エラー情報の前記アドレスに基づいて、前記複数の領域の各々毎に、前記エラー情報を前記障害ログ情報として管理するステップを備える
障害処理方法。 - 請求項7に記載の障害処理方法において、
前記エラー情報は、更に、前記データ内のエラー位置に関する情報を含み、
前記障害通知を出力するステップは、
前記障害ログ情報を参照して、前記複数の領域のいずれかでの前記発生回数又は前記エラー位置での前記発生回数が前記閾値に達したとき、前記障害通知を出力するステップを備える
障害処理方法。 - 請求項8に記載の障害処理方法において、
前記障害ログ情報を管理するステップは、
前記複数の領域の各々毎に、自身に対応付けられた領域に含まれるアドレスを有する前記エラー情報を取得し、前記アドレスに関する第1カウント値、及び、前記エラー位置に関する第2カウント値をインクリメントするステップと、
前記アドレス、前記第1カウント値、前記エラー位置及び前記第2カウント値を前記障害ログ情報として格納するステップと
を備え、
前記障害通知を出力するステップは、
前記第1カウント値用の第1閾値、及び、前記第2カウント値用の第2閾値の少なくとも一方を保持するステップと、
前記第1カウント値と前記第1閾値との一致、又は、前記第2カウント値と前記第2閾値との一致の少なくとも一方に基づいて、前記障害通知を出力するステップと
を備える
障害処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010256954A JP5618204B2 (ja) | 2010-11-17 | 2010-11-17 | 障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010256954A JP5618204B2 (ja) | 2010-11-17 | 2010-11-17 | 障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012108726A JP2012108726A (ja) | 2012-06-07 |
JP5618204B2 true JP5618204B2 (ja) | 2014-11-05 |
Family
ID=46494280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010256954A Expired - Fee Related JP5618204B2 (ja) | 2010-11-17 | 2010-11-17 | 障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5618204B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5651576B2 (ja) * | 2011-12-28 | 2015-01-14 | アラクサラネットワークス株式会社 | 中継装置及び障害処理方法 |
JP6212947B2 (ja) * | 2013-05-16 | 2017-10-18 | 富士通株式会社 | 情報処理装置、制御装置及び制御プログラム |
JP6072710B2 (ja) * | 2014-02-14 | 2017-02-01 | 三菱電機株式会社 | ハードウェア異常監視装置 |
JP6866785B2 (ja) | 2017-06-29 | 2021-04-28 | 富士通株式会社 | プロセッサおよびメモリアクセス方法 |
JP7293813B2 (ja) * | 2019-04-01 | 2023-06-20 | 富士通株式会社 | 半導体装置 |
CN112231128B (zh) * | 2020-09-11 | 2024-06-21 | 中科可控信息产业有限公司 | 内存错误处理方法、装置、计算机设备和存储介质 |
CN114356984B (zh) * | 2021-12-24 | 2024-01-23 | 海光信息技术股份有限公司 | 标记存储器的风险状态的方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03108044A (ja) * | 1989-09-21 | 1991-05-08 | Nec Corp | 記憶装置 |
JP5451087B2 (ja) * | 2009-01-26 | 2014-03-26 | エヌイーシーコンピュータテクノ株式会社 | 障害処理装置および方法 |
-
2010
- 2010-11-17 JP JP2010256954A patent/JP5618204B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012108726A (ja) | 2012-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5618204B2 (ja) | 障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 | |
US12014791B2 (en) | Memory fault handling method and apparatus, device, and storage medium | |
TWI465904B (zh) | 半導體記憶裝置 | |
US9990245B2 (en) | Electronic device having fault monitoring for a memory and associated methods | |
KR101805234B1 (ko) | 데이터 메모리의 모니터링 방법, 비일시적 컴퓨터 판독가능 저장 매체 및 보조 메모리 | |
US10545841B2 (en) | Method and apparatus for backup communication | |
CN105659215A (zh) | 一种故障处理方法、相关装置及计算机 | |
US10296417B2 (en) | Reducing uncorrectable errors based on a history of correctable errors | |
JP5451087B2 (ja) | 障害処理装置および方法 | |
US7089461B2 (en) | Method and apparatus for isolating uncorrectable errors while system continues to run | |
US20140095921A1 (en) | Information processing apparatus, startup program, and startup method | |
Du et al. | Predicting uncorrectable memory errors for proactive replacement: An empirical study on large-scale field data | |
CN102915260B (zh) | 固态硬盘容错的方法及其固态硬盘 | |
JP5924819B2 (ja) | データ保全処理装置及びデータ保全処理プログラム | |
JP6408482B2 (ja) | プログラマブルデバイス及びこれを用いた電子システム装置 | |
US8261137B2 (en) | Apparatus, a method and a program thereof | |
US20140229796A1 (en) | Electronic Control Apparatus | |
CN114385418A (zh) | 通信设备的保护方法、装置、设备和存储介质 | |
CN115705261A (zh) | 内存故障的修复方法、cpu、os、bios及服务器 | |
JP4973703B2 (ja) | 故障検出方法及び監視装置 | |
CN117076186A (zh) | 一种内存故障检测方法、系统、装置、介质及服务器 | |
JP2010039987A (ja) | 計算機システム、ハードウェア障害の処理方法及びプログラム | |
JP5627414B2 (ja) | 動作ログ収集システム及びプログラム | |
JPH10302485A (ja) | フラッシュ・メモリを有する情報処理装置 | |
JP2009015553A (ja) | 記憶装置およびプログラムおよびメモリ故障救済方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140812 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20140813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5618204 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |