JP5451087B2 - 障害処理装置および方法 - Google Patents
障害処理装置および方法 Download PDFInfo
- Publication number
- JP5451087B2 JP5451087B2 JP2009014164A JP2009014164A JP5451087B2 JP 5451087 B2 JP5451087 B2 JP 5451087B2 JP 2009014164 A JP2009014164 A JP 2009014164A JP 2009014164 A JP2009014164 A JP 2009014164A JP 5451087 B2 JP5451087 B2 JP 5451087B2
- Authority
- JP
- Japan
- Prior art keywords
- error
- failure
- detection
- control unit
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 140
- 238000000034 method Methods 0.000 title description 14
- 238000001514 detection method Methods 0.000 claims description 127
- 230000001629 suppression Effects 0.000 claims description 31
- 230000004044 response Effects 0.000 claims description 21
- 238000003745 diagnosis Methods 0.000 claims description 14
- 238000003672 processing method Methods 0.000 claims description 8
- 230000005764 inhibitory process Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 30
- 238000012937 correction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
しかしながら、様々な要因により障害が多発して、診断装置の処理能力以上の割り込み処理が頻発すると、一部の割り込み処理が未実行となり、必要な障害処理ができなくなってしまう問題が発生する。
[一実施の形態]
まず、図1を参照して、本発明の一実施の形態にかかる障害処理装置について説明する。図1は、本発明の一実施の形態にかかる障害処理装置の構成を示すブロック図である。
図1のコンピュータシステム1には、障害処理装置10、メモリ20、診断装置30、記憶装置40、およびプロセッサ50が設けられており、内部バスを介して接続されている。
本実施の形態では、障害処理装置10をコンピュータシステム1で使用されるメモリコントローラへ適用し、障害処理対象となるデータ処理装置であるメモリ20から取得したデータから訂正可能なエラーを検出した際に、その上位装置である診断装置30へ障害検出を通知する場合を例として説明する。
診断装置30は、当該コンピュータシステム1の診断制御を行う装置であり、障害処理装置10からの障害検出通知を受けて、障害ログ採取や障害復旧処理といった障害診断処理を行う機能を有している。
プロセッサ50は、CPUなどの演算処理回路からなり、記憶装置40のプロクラムを実行することにより、各種情報処理を行う機能を有している。
ソフトウェア51は、コンピュータシステム1を制御するOSやアプリケーションのプログラムであり、プロセッサ50で実行されることにより、障害処理装置10への各種設定を実行する。本実施の形態では、プロセッサ50からの命令は診断装置30を介して行うこととしている。
また、ソフトウェア51は、コンピュータシステム1が使用しているメモリ20をページと呼ばれるデータブロックの単位に分け、メモリ20から取得したデータから検出したエラー発生回数をページごとにカウントし、エラー発生回数が閾値に達すると、当該ページを論理的に切り離して使用不可とする障害処理機能を備えている。
なお、診断装置30、プロセッサ50、およびソフトウェア51に関わる詳細動作については、周知の技術に基づくものであり、個々での詳細な説明は省略する。
次に、図1を参照して、本実施の形態にかかる障害処理装置の構成について詳細に説明する。
障害処理装置10には、主な機能部として、エラー処理部11、障害報告制御部12、障害ログ制御部13、および診断命令制御部14が設けられている。一般的には、障害処理装置10が適用されるメモリコントローラには、例えば、プロセッサ50からの書き込み命令に応じて、任意のデータをメモリ20内の所定アドレスへ書き込むデータ書込部や、プロセッサ50からの読み出し命令に応じて、任意のデータをメモリ20内の所定アドレスから読み出すデータ読出部など、これら以外の機能部も設けられているが、図1では、本実施の形態における障害処理に関する機能部のみが図示されている。
また、診断装置30により障害処理が実施されると「0」にリセットされるとともに、後述のとおり、エラーフラグ12Aは、比較器12Fの比較結果により「0」にリセットされる。
エラーフラグ12Aが「1」にセットされると、マスクフラグ12Bも「1」にセットされる。したがって、エラーフラグ12Aが「1」にセットされた後、マスクフラグ12Bが「1」に保持される期間だけ、エラーフラグ12Aへのセットが抑止される。
マスクカウント閾値12Eには、障害検出の抑止期間を指定する閾値が予め設定されている。
カウンタ値がマスクカウント閾値12Eの値に達すると、比較器12Fの比較結果が反転して、マスクフラグ12Bおよびカウンタ12Dがリセットされる。
以上のようにして、障害報告制御部12では、障害検出以後、一定期間障害検出を抑止する制御が行われる。
エラーカウント制御部13Bは、データブロックごとに、当該データブロックに関する位置情報とエラー位置情報との一致回数を、当該データブロックのエラー発生回数としてカウントする機能を有している。
本実施の形態では、メモリ20を分割して設けたアドレス空間をデータブロックとし、これらアドレス空間単位でエラー発生回数を計測するものとする。したがって、比較アドレス13Cには、これらアドレス空間のアドレスを示す上限値および下限値が予め設定されている。
この設定は、コンピュータシステム1のメモリ容量を管理するソフトウェア(OS)により、最適な値が計算されて行われる。なお、ここでは、設定の一例を示しているが、このような設定方法のみに限定されるものではない。
カウンタ13Eは、比較機13Dの比較結果が両アドレスの一致を示す場合、カウンタ値をインクリメントする。
以上のようにして、障害処理装置10が管理するメモリ空間において、設定されたアドレス空間ごとのエラー発生回数を計数を行う。
障害ログ保持部13Fは、レジスタとして、エラーカウント制御部13Bと同様のエントリ数を具備しており、位置情報保持部13Aから受け取った障害発生アドレス(エラー位置情報)と、エラーカウント制御部13Bから受け取ったアドレス空間(エラーブロック)でのエラー発生回数との組からなる障害ログ情報を、当該アドレス空間と対応するエントリに格納する。
比較器13Hは、障害ログ保持部13Fの各エントリで保持されているエラー発生回数と、エラーカウント閾値13Gの値とを比較し、その比較結果を障害検出として出力する機能を有している。これにより、いずれかのアドレス空間(エラーブロック)でのエラー発生回数が閾値に達すると、比較器13Hの比較結果が、検出無=「0」から検出有=「1」に変化することにより、障害報告制御部12に対して、障害検出が通知される。
次に、図1および図2を参照して、本実施の形態にかかる障害処理装置の動作について説明する。
メモリ20に書き込まれるデータには、ECC用の誤り訂正情報が付加される。メモリ20からデータが読み出されると、エラー処理部11は、同じくメモリ20から読み出した誤り訂正情報に基づきECCチェックを行う。
メモリ20から読み出されたデータに、訂正可能エラーが発生していた場合、障害処理装置10は、次のような障害処理動作を実行する。
障害報告制御部12のOR論理回路12Gには、エラーフラグ12Aと障害ログ制御部13からの障害検出通知とが入力されており、両入力のいずれか一方、ここではエラーフラグ12Aが「1」になることによって、診断装置30に対して、障害検出通知が行われる。
エラー処理部11から送出されたアドレス情報は、位置情報保持部13Aに一旦格納され、エラーカウント制御部13Bおよび障害ログ保持部13Fに送られる。
この時点では、障害ログ保持部13Fには、エントリ0のみに障害ログが書き込まれており、エラー発生回数は「1」となっている。
障害ログ保持部13Fのカウント値とエラーカウント閾値13Gで設定されている値は、比較器13Hで比較され、その比較結果が障害検出有無として障害報告制御部12へ通知される。上述の場合、障害が発生した回数は「1」回であるため、障害ログ保持部13Fのカウント値とエラーカウント閾値13Gで設定されている値とは一致せず、比較結果は「0」となる。このため、この時点では、障害報告制御部12への障害検出は、検出無し=「0」が通知される。
障害検出が抑止されていない期間に障害が発生した場合、障害報告制御部12から診断装置30に障害検出通知が行われる。これに応じて、診断装置30は、次のような障害処理動作を開始する。
診断命令制御部14は、診断装置30から障害ログ採取命令を受けると、障害ログ保持部13Fから障害ログを読み出して、診断装置30に返送する。
この後、診断装置30は、障害処理装置10からの障害ログ採取が完了すると、障害処理装置10の診断命令制御部14に対して、障害復旧命令を通知する。
これに応じて、診断命令制御部14は、障害報告制御部12のエラーフラグ12Aをリセットする。
一方、障害ログ制御部13では、この抑止期間に発生した障害は、上述したとおりの動作で、障害ログ保持部13Fに障害ログ情報が順次格納される。
以上が、エラー発生回数が閾値に達していない場合の動作説明である。
エラー処理部11は、障害検出通知の抑止期間においても、メモリ20から読み出したデータから訂正可能エラーを検出する。
障害検出通知の抑止期間において、エラー処理部11により訂正可能エラーが検出された場合、障害報告制御部12では、マスクフラグ12Bにより、障害検出が抑止されているため、エラーフラグ12Aは「1」に設定されず、診断装置30への障害検出通知は行われない。
以上のような動作を繰り返し実施していくことで、障害検出が抑止されている期間であっても、障害ログを格納していいき、障害ログ情報を蓄積させていく。
障害処理で行われるログ採取方法は上述と同様であるため、省略する。
したがって、障害検出通知は、抑止期間が解除されている抑止期間外でエラーが検出された場合のみとなるため、ソフトウェアによるエラー発生回数の閾値が3回として設定されている場合、抑止期間外でエラーが3回検出された時点、すなわち最初のエラー検出から抑止期間が2回以上経過した時点で、初めてソフトウェアによる障害処理が実行されて、障害メモリページの切り離しが行われる。
したがって、障害処理装置によるエラー発生回数の閾値が3回として設定されている場合、図4に示すように、抑制期間内であっても、3回目にエラーを検出した時点で、そのエラー発生回数が、障害処理装置によるエラー発生回数の閾値に達することになり、障害処理装置から診断装置に対して障害検出が通知される。
これにより、ソフトウェアによるエラー発生回数の閾値が3回として設定されている場合、ログで通知されたエラー発生回数が「3」であることから、両者が一致し、障害処理装置が障害検出通知の抑止期間中であっても、ソフトウェアによる障害処理、すなわち当該アドレス空間の切り離しが行われる。この結果、システムダウンに繋がり兼ねない障害メモリページの切り離し処理が一早く行われ、システムダウンの発生確率を軽減させることが可能である。
このように、本実施の形態では、障害報告制御部12により、エラー処理部11でのエラー検出に応じて、エラー処理部11で障害を検出したことを示す障害検出を診断装置(上位装置)30へ通知するとともに、当該エラー検出から所定の抑止期間にわたり後続するエラー検出に応じた障害検出の通知を抑止し、障害ログ制御部13により、エラー処理部11でのエラー検出に応じて、当該エラーが検出されたエラーデータが属するアドレス空間(データブロック)ごとに、障害ログ情報として当該エラーの発生回数をカウントして保持し、任意のアドレス空間に関するエラー発生回数が予め設定されたエラーカウント閾値に達した時点で、障害検出を診断装置30へ通知している。
以上では、障害処理装置10をメモリコントローラに適用して、メモリ20から読み出されたデータに対するエラーを検出する場合を例として説明したが、これに限定されるものではなく、メモリコントローラと同様に、例えばデータ通信インターフェース回路のように、高速でデータを取得する電子回路であれば、本発明にかかる障害処理装置10を前述と同様にして適用でき、同様の作用効果を得ることができる。
また、以上では、エラー訂正方式としてECCを用いる場合を例として説明したが、これに限定されるものではなく、他のエラー訂正方式を適用してもよい。
Claims (5)
- 対象となるデータ処理装置から取得したデータから訂正可能なエラーを検出するエラー処理部と、
前記エラー処理部でのエラー検出に応じて、前記エラー処理部で障害を検出したことを示す障害検出を上位装置へ通知するとともに、当該エラー検出から所定の抑止期間にわたり後続するエラー検出に応じた障害検出の通知を抑止する障害報告制御部と、
前記エラー処理部でのエラー検出に応じて、当該エラーが検出されたエラーデータが属するデータブロックごとに、障害ログ情報として当該エラーの発生回数をカウントして保持し、任意のデータブロックに関するエラー発生回数が予め設定されたエラーカウント閾値に達した時点で、前記障害検出を前記障害報告制御部へ通知する障害ログ制御部とを備え、
前記障害報告制御部は、前記障害ログ制御部から前記障害検出が通知された場合、前記抑止期間であっても、当該障害検出を前記上位装置へ通知する
ことを特徴とする障害処理装置。 - 請求項1に記載の障害処理装置において、
前記上位装置からの診断命令に応じて、前記障害ログ制御部で保持している前記障害ログ情報を取得し、前記上位装置へ通知する診断命令制御部をさらに備えることを特徴とする障害処理装置。 - 請求項1に記載の障害処理装置において、
前記障害報告制御部は、
前記上位装置へ通知する障害検出の有無を示すフラグ値を保持するエラーフラグと、
前記障害検出の通知に対する抑止有無を示すフラグ値を保持するとともに、前記エラーフラグが障害検出有を示すフラグ値に変化した時点で自フラグ値を抑止有に設定するマスクフラグと、
前記エラー処理部でのエラー検出有無を示すエラー検出有無信号と前記マスクフラグの反転値とのAND論理値を前記エラーフラグへ登録するAND論理回路と、
前記マスクフラグが抑止有を示すフラグ値に変化した時点で一定期間ごとにカウント動作を開始するカウンタと、
前記カウンタのカウント値と予め設定されたマスクカウント閾値とを比較し、その比較結果に応じて前記マスクフラグのフラグ値を抑制無にリセットするとともに、前記カウンタのカウント値をリセットする比較器と
を含むことを特徴とする障害処理装置。 - 請求項1に記載の障害処理装置において、
前記障害ログ制御部は、
前記エラー処理部でのエラー検出に応じて前記エラー処理部から通知された、当該エラーデータに関するエラー位置情報を保持する位置情報保持部と、
前記データブロックごとに、当該データブロックに関する位置情報と前記エラー位置情報との一致回数を、当該データブロックでのエラー発生回数としてカウントするエラーカウント制御部と、
前記エラーデータのエラー位置情報と当該エラーブロックでのエラー発生回数との組を前記障害ログ情報として保持する障害ログ情報保持部と、
前記組ごとに、当該組のエラー発生回数と前記エラーカウント閾値とを比較し、その比較結果を前記障害検出として出力する比較器と
を含むことを特徴とする障害処理装置。 - 対象となるデータ処理装置から取得したデータに基づき障害発生を検出して上位装置へ通知する障害処理装置で用いられる障害処理方法であって、
エラー処理部が、前記データ処理装置から取得したデータから訂正可能なエラーを検出するエラー処理ステップと、
障害報告制御部が、前記エラー処理部でのエラー検出に応じて、前記エラー処理部で障害を検出したことを示す障害検出を前記上位装置へ通知するとともに、当該エラー検出から所定の抑止期間にわたり後続するエラー検出に応じた障害検出の通知を抑止する障害報告制御ステップと、
障害ログ制御部が、前記エラー処理部でのエラー検出に応じて、当該エラーが検出されたエラーデータが属するデータブロックごとに、障害ログ情報として当該エラーの発生回数をカウントして保持し、任意のデータブロックに関するエラー発生回数が予め設定されたエラーカウント閾値に達した時点で、前記障害検出を前記障害報告制御部へ通知する障害ログ制御ステップとを備え、
前記障害報告制御ステップは、前記障害ログ制御部から前記障害検出が通知された場合、前記抑止期間であっても、当該障害検出を前記上位装置へ通知する
ことを特徴とする障害処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009014164A JP5451087B2 (ja) | 2009-01-26 | 2009-01-26 | 障害処理装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009014164A JP5451087B2 (ja) | 2009-01-26 | 2009-01-26 | 障害処理装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010170462A JP2010170462A (ja) | 2010-08-05 |
JP5451087B2 true JP5451087B2 (ja) | 2014-03-26 |
Family
ID=42702544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009014164A Expired - Fee Related JP5451087B2 (ja) | 2009-01-26 | 2009-01-26 | 障害処理装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5451087B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5618204B2 (ja) * | 2010-11-17 | 2014-11-05 | Necプラットフォームズ株式会社 | 障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 |
JP5651576B2 (ja) * | 2011-12-28 | 2015-01-14 | アラクサラネットワークス株式会社 | 中継装置及び障害処理方法 |
JP6582503B2 (ja) | 2015-04-08 | 2019-10-02 | 富士通株式会社 | 情報処理装置 |
JP6567923B2 (ja) * | 2015-08-25 | 2019-08-28 | Necプラットフォームズ株式会社 | 障害処理装置、システム、障害管理装置、方法およびプログラム |
JP6866785B2 (ja) | 2017-06-29 | 2021-04-28 | 富士通株式会社 | プロセッサおよびメモリアクセス方法 |
US11061754B2 (en) * | 2019-08-06 | 2021-07-13 | Alteryx, Inc. | Error handling during asynchronous processing of sequential data blocks |
CN112763960B (zh) * | 2021-01-04 | 2022-11-18 | 山东电工电气集团有限公司 | 一种就地模块的自运维方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3142862A1 (de) * | 1981-10-29 | 1983-05-11 | Behringwerke Ag, 3550 Marburg | "mittel zum nachweis von glucose in biologischen fluessigkeiten" |
JPS5953941A (ja) * | 1982-09-21 | 1984-03-28 | Nec Corp | 情報処理装置 |
JPH01217651A (ja) * | 1988-02-26 | 1989-08-31 | Nec Corp | 障害自動通報方式 |
JPH0792763B2 (ja) * | 1988-11-16 | 1995-10-09 | 日本電気株式会社 | 障害処理方式 |
JP2806603B2 (ja) * | 1990-06-28 | 1998-09-30 | 甲府日本電気株式会社 | 故障報告回路 |
JPH05108501A (ja) * | 1991-10-11 | 1993-04-30 | Nec Corp | 障害処理方式 |
JP2000148540A (ja) * | 1998-11-06 | 2000-05-30 | Nec Eng Ltd | プロセッサシステム |
JP3747817B2 (ja) * | 2001-07-27 | 2006-02-22 | 日本電気株式会社 | メモリ制御回路及びメモリ制御方法 |
JP2005228056A (ja) * | 2004-02-13 | 2005-08-25 | Nec Fielding Ltd | 保守情報提供システム及びそのサービス方法及びそのプログラム |
-
2009
- 2009-01-26 JP JP2009014164A patent/JP5451087B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010170462A (ja) | 2010-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5451087B2 (ja) | 障害処理装置および方法 | |
KR101805234B1 (ko) | 데이터 메모리의 모니터링 방법, 비일시적 컴퓨터 판독가능 저장 매체 및 보조 메모리 | |
US8627140B2 (en) | Failure management method and computer | |
JP5965076B2 (ja) | 訂正不能メモリエラー処理方法及びその可読媒体 | |
US9990245B2 (en) | Electronic device having fault monitoring for a memory and associated methods | |
JP2012113466A (ja) | メモリコントローラ及び情報処理システム | |
US6823476B2 (en) | Mechanism to improve fault isolation and diagnosis in computers | |
US9191030B2 (en) | Memory controller, data storage device, and memory controlling method | |
JP5618204B2 (ja) | 障害処理装置、それを用いた情報処理装置及び情報処理装置の障害処理方法 | |
JP6408482B2 (ja) | プログラマブルデバイス及びこれを用いた電子システム装置 | |
JP4877396B2 (ja) | メモリ障害処理システム、および、メモリ障害処理方法 | |
JPH0375834A (ja) | パリティの置換装置及び方法 | |
JP5910356B2 (ja) | 電子装置、電子装置制御方法及び電子装置制御プログラム | |
CN116166459A (zh) | 一种内存硬件故障检测方法、装置以及内存控制器 | |
JP6332134B2 (ja) | メモリ診断回路 | |
JP2010536112A (ja) | 中断された書込みの回復のためのデータ記憶方法、機器およびシステム | |
JPH10302485A (ja) | フラッシュ・メモリを有する情報処理装置 | |
JP3160144B2 (ja) | キャッシュメモリ装置 | |
JP5381151B2 (ja) | 情報処理装置、バス制御回路、バス制御方法及びバス制御プログラム | |
JP5888419B2 (ja) | データ処理装置、プロセッサ、及び動作履歴記録方法 | |
JP2010044701A (ja) | メモリパトロール障害検出システム、メモリパトロール検出障害報告抑止方法、bmc、及び集積回路 | |
JP5288331B2 (ja) | I/o命令障害回復回路、i/o命令障害回復方法及びi/o命令障害回復プログラム | |
JP2021189864A (ja) | 車両用電子制御装置及び車両制御方法 | |
JP2006059002A (ja) | 記憶装置 | |
CN112099980A (zh) | 服务器及错误事件记录登载功能的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130820 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131226 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5451087 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |