JP2008523513A - エラーハンドラの実行中に発生するエラーを処理する方法 - Google Patents

エラーハンドラの実行中に発生するエラーを処理する方法 Download PDF

Info

Publication number
JP2008523513A
JP2008523513A JP2007545689A JP2007545689A JP2008523513A JP 2008523513 A JP2008523513 A JP 2008523513A JP 2007545689 A JP2007545689 A JP 2007545689A JP 2007545689 A JP2007545689 A JP 2007545689A JP 2008523513 A JP2008523513 A JP 2008523513A
Authority
JP
Japan
Prior art keywords
processor
error
handling routine
error handling
general purpose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007545689A
Other languages
English (en)
Other versions
JP4866366B2 (ja
Inventor
フォサム、トリグベ
シュラガイ、ヤロン
ムーカジ、シュブヘンドゥ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2008523513A publication Critical patent/JP2008523513A/ja
Application granted granted Critical
Publication of JP4866366B2 publication Critical patent/JP4866366B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Hardware Redundancy (AREA)

Abstract

プロセッサのエラー処理ルーチンであって、プロセッサの第1の検出された回復不可能なエラー(DUE)に応じて実行し、また、第2のDUEが発生したという指示に対し、エラー処理ルーチンの正確さに対する第2のDUEの影響を評価することにより対応する、プロセッサのエラー処理ルーチン。
【選択図】図4

Description

宇宙線からの中性子等の活発な亜原子粒子と、半導体デバイスのパッケージングにおける放射線トレース部品からのα粒子とは、こうしたデバイスを通過する際に電子・ホール対を生成する場合がある。デバイスのトランジスタのソース端子及びドレイン端子は、これら電荷を収集する可能性があり、最終的に、電荷がかなり蓄積することにより、こうしたトランジスタを組み込んだ論理デバイスが状態を反転させる、すなわちフリップさせる可能性があり、回路の動作にロジック障害をもたらす。これら障害は、デバイスの永久的な故障ではないため一過性であり、したがって、ソフトエラー又は一時エラーと呼ばれる。ソフトエラーの一般的な形態は、キャッシュセル又はレジスタセル等のメモリセルの一部を形成するトランジスタのエラーであり、こうしたセルによって表されるビットはその意図された値からフリップされることになる。
プロセッサ又は他の半導体デバイスに影響を与えるソフトエラーの可能性は、オンチップトランジスタの数によって決まる。特にプロセッサの場合、オンチップトランジスタの数は非常に急速に増加しており、したがって、ソフトエラーによるエラー率は比例して増大している。したがって、プロセッサ動作に対するソフトエラーの影響を低減する重要性が増している。
図1は、明確にするためにフローチャートとして示すレジスタ又はキャッシュ等のプロセッサメモリユニットのソフトエラーの分類を示す。ソフトエラーが発生した時(110)、影響を受けたビットが読み出されていなかった場合、その障害は良性であるとみなしてもよい(120及び140)。ビットが読み出されたが、キャッシュライン又はレジスタバンク等の影響を受けたユニットにエラー保護機能(error protection)が組み込まれている場合(130)、エラーは回復可能であるか又は少なくとも検出可能であり得る。こうしたエラー訂正は既知であり、たとえばパリティ及びECC方式が含まれる。ビットがエラー保護機構を有しておらず、且つプロセッサにおいて進行中のいずれかの計算の正確さに影響を与える状況では、サイレントデータ破損(silent data corruption)180が発生したと言われる。これは、プロセッサ設計者がその可能性に関して最小限にしようと試みる、望ましくない状態である。
エラーが検出され且つそれを訂正することができる場合(150)、ビットはその元の値にセットされるか又はリセットされ、プロセッサ動作は正常に続行する(190)。エラーが、訂正することはできないが検出された場合、プロセッサは、こうしたエラーが回復不可能であるとみなされる(170)ため、さらなる措置を講じることができる。この種のエラーは、検出された回復不可能なエラーすなわちDUEと呼ばれる。
一般に、DUEにより、少なくとも間違ったビットを読み出そうと試みた実行中のプロセスがエラーによって終了し、時に、プロセッサで実行しているオペレーティングシステム全体がエラーによって終了し、マシンが停止するか又は再始動することになる。当然ながら、DUEの影響全体を最小限にするように、システム全体とは対照的に1つのプロセスを終了させることが好ましい。クリティカルユースサーバ等、高信頼性システムでは、設計者は、システムを終了させるDUE間の平均時間が非常に長い、たとえば25年間であることを保証するように試みる。
DUEが検出されると、プロセッサは一般に、ソフトウェアエラー処理ルーチンに入る。レジスタエラーログを使用して、ルーチンは、DUEがプロセス又はシステムの終了の根拠となるか否かと、いかに続行すべきかとを確定する。1つのシナリオでは、第1のDUEに対するエラー処理ルーチンの実行中に第2のDUEが発生する可能性がある。こうした発生は比較的可能性が低いが、高信頼性プロセッサの設計者は、このシナリオを考慮する必要のある場合がある。
図2は、一実施形態におけるプロセッサベースシステムを示す。こうしたシステムは、バスシステム260によって相互接続され且つシステム入出力(I/O)デバイス及び周辺機器250を通して外部ネットワーク又はユーザとインタフェースする、プロセッサ210と、プロセッサによって実行可能なデータ及びプログラムを格納する読出し/書込みランダムアクセスメモリ(RAMメモリ)270及びリードオンリメモリ(ROMメモリ)290と、ディスクシステム280等の不揮発性記憶ユニットとを含む。プロセッサは、頻繁に使用されるデータを格納する、プロセッサで実行しているプロセスのための汎用レジスタ220のセットと、プロセッサ動作のさまざまな態様のステータスを示すステータスフラグ又はビットのセット240と、ステータスフラグ間の相互作用を可能にする信号ロジック230とを含んでもよい。既知であるように、キャッシュ、ロジックユニット、パイプライン等の他の多くのコンポーネントもまた、プロセッサのコンポーネントとして存在してもよく、同様に、プロセッサベースシステムには他のコンポーネントが存在してもよいが、明確にするためにここには示さない。
図2に示すもの等のプロセッサは、通常、パリティ検査又はECC等のエラー検出機構の動作によって、検出可能な回復不可能エラーすなわちDUEを検出すると、一般に目下実行中のプロセスを中断し、ソフトウェアエラー処理ルーチンの実行を開始する。一実施形態では、エラー処理ルーチンは、エラー処理ルーチン自体の実行中に発生する可能性のある第2のDUE又は後続するDUEによる影響されやすさが最小限であるように設計される。たとえば、ルーチンは、それ自体をキャッシュメモリのあり得るエラーに晒さないように、キャッシュをオフにして実行してもよい。それを、キャッシュ又はシステムメモリのRAMセルよりDUEに影響されにくいROM290に格納してもよい。ルーチンは、キャッシュ又はレジスタのもの等のRAMセルを使用する必要がない場合であっても、それを変更する前に格納するために使用するエリアの内容をフラッシュしてもよい。しかしながら、一般に、エラー処理ルーチンが、レジスタ、キャッシュ又はシステムメモリのいずれか、DUEに影響されやすいいくつかのメモリセルを読み出すことなく実行することは非常に困難であり、したがって、ルーチンの正確さに影響を与えるDUEが、その実行中に、ルーチンがメモリセルに書込みをする時点とそれがメモリセルから読出しをする時点との間に発生する可能性は、小さくはあるが、残っている。特に、エラーハンドラは、そのタスクを実行するために、その実行のいずれかの時点においてプロセッサの汎用レジスタ(汎用レジスタ220)のうちの少なくともいくつかに書込みをし、その後読出しをする必要がある可能性が非常に高い。
第2のDUEは、第1のDUEが処理される前に検出される場合、エラーハンドラ起動の後に発生する場合もあれば発生しない場合もある。それは、エラーハンドラに関連しない多くのメモリ読出しが、第1のDUEが報告された時点とエラーハンドラが実際に起動される時点との間で発生する可能性があるためである。DUEが、ルーチンが起動される前に発生したか又は起動された後に発生したかを判断することは、ルーチンの起動の後にDUEが実際に発生した場合に必要なシステム終了を引き起こす必要性を制限するために有用である。これは、ルーチン自体のあり得る破損を意味する可能性があるためである。
図3は、この問題に関連するシステムのあり得る状態を示す。エラーハンドラが開始すると、エラーハンドラ又はその呼出し機構は、通常、それが実行を開始するとすぐにエラーステータスフラグをクリアする。さらに、実施形態によっては、エラーハンドラがアクティブであることを示すためにフラグをセットしてもよい。この状態、すなわちエラーステータスフラグがクリアされ、ハンドラ起動フラグが立てられる状態を、310に示す。この状態から、プロセッサは、エラーハンドラ起動ステータス及びエラーステータスに関して2つのあり得る状態のうちの1つに移動してもよい。1つの代替案では、エラーハンドラは別のDUEが発生することなく終了し(エラーステータスフラグは依然としてクリアされており、ハンドラ起動フラグもまたクリアされる(330))、プロセス終了を使用して第1のDUEを処理することができる。別の代替案では、エラーステータスフラグが立てられている間にエラーハンドラがアクティブである状態が発生し、それは320における第2のDUEを示す。この状態は、DUEの実行におけるエラーを示してもよく、それ以上の情報なしに、この状態が検出された時にエラーを処理する保守的な手法は、システムを終了させることである。
一実施形態では、図2を参照して上述した信号ロジック230を使用して、図3に示す状態320を検出する。たとえば、Intel(登録商標)Itaniumプロセッサでは、「マシンチェック」(mc)エラー処理ルーチンの起動と、PSR.mcフラグが立てられている間にハードウェア汎用レジスタエラーログのフラグが同時に立っていることとを示すPSR.mcビットの状態を、信号ロジックによって検出してマシンチェックルーチンの正確さが危うくされる可能性があった状態を示すことができる。
上述した解決策は効果があるが、第2のDUEがエラーハンドラには影響を与えないが中断されたプロセスにのみ影響を与えたという状況を過度に含む可能性がある。一実施形態では、エラー処理ルーチンは、汎用レジスタの少なくとも一部を、使用する前に一時記憶領域に保存する。ルーチンの実行中に汎用レジスタに影響を与えるDUEが報告される場合、DUEが、ルーチンが汎用レジスタを使用し始める前に発生したか又は使用し始めた後に発生したかを判断することは、システム終了を引き起こす必要性を、ルーチンがレジスタを使用し始めた後にのみ汎用レジスタが影響を受けた状況に制限するために有用である。
図4は、目下処理されているDUEエラーの後に発生した第2のDUEエラーを検出し、さらにそのエラーがルーチンの実行に影響を与える可能性があるか否かを判断するように設計されたエラー処理ルーチン内の処理を示す。図において、ルーチンは、第1のDUE405に応答して呼び出された後に、ルーチンによって使用される可能性のある任意の汎用レジスタ(GR)を保存するステップ(410)で開始する。そして、ルーチンは、汎用レジスタハードウェアエラーログをチェックすることにより(415)、第1のDUEに続いていずれかのDUEに対しハードウェアによってフラグが立てられたか否かを判断する。ハードウェアが、DUEに対してフラグが立てられたことを示す場合(420)、それは、中断されたプロセスに影響を与えるDUEである。ルーチンは、後の処理のために汎用レジスタDUE情報を格納し(425)、GRエラーログをクリアし(430)、その後汎用レジスタをクリアして使用する(445)。汎用レジスタを使用し第1のDUEの処理を完了した後、ルーチンは、汎用レジスタエラーログを再びチェックする(450)。この状態でエラーが見つかる場合(455)、エラー処理ルーチンの正確さを危うくするエラーが発生している可能性が非常に高く、システム終了プロセスを開始してもよい(435)。そうでない場合、ハンドラは正常に終了してもよい(440)。
いくつかの例示的な実施形態について上述し添付図面に示したが、こうした実施形態は、本発明のさまざまな実施形態の広範な態様を単に例示するものであってそれらに限定するものではなく、これら実施形態は、さまざまな他の変更が可能であるため、図示し説明した特定の構成及び配置に限定されない、ということが理解されるべきである。実施形態又はそれらの特徴のいくつかを、ハードウェア、プログラマブルデバイス、ファームウェア、ソフトウェア又はそれらの組合せで実装することが可能であり得る。
実施形態を、機械によってアクセスアクセスされると、機械に対して、特許請求の範囲に記載されている主題に従ってプロセスを実行させることができるデータが格納された、機械可読媒体を含んでもよい、コンピュータプログラム製品として提供してもよい。機械可読媒体は、限定されないが、フロッピーディスケット、光ディスク、DVD−ROMディスク、DVD−RAMディスク、DVD−RWディスク、DVD+RWディスク、CD−Rディスク、CD−RWディスク、CD−ROMディスク、及び光磁気ディスク、ROM、RAM、EPROM、EEPROM、磁気又は光カード、フラッシュメモリ、又は電子命令を格納するために適した他のタイプの媒体/機械可読媒体を含んでもよい。さらに、実施形態をコンピュータプログラム製品としてダウンロードしてもよく、その場合、プログラムを、通信リンク(たとえばモデム又はネットワーク接続)を介して搬送波又は他の伝播媒体に具現化されるデータ信号によりリモートコンピュータから要求側コンピュータに転送してもよい。
本方法の多くを、それらの最も基本的な形態で説明しているが、特許請求の範囲に記載されている主題の基本的な範囲から逸脱することなく、方法のうちの任意のものにステップを追加するか又はそこからステップを削除することができ、説明した内容のうちの任意のものに情報を追加するか又はそこから情報を減じることができる。当業者には、多くのさらなる変更及び適応を行うことができるということが明らかとなろう。特定の実施形態は、発明を限定するためではなく例示するために提供される。特許請求の範囲に記載されている主題の範囲は、上述した特定の例によってではなく添付の特許請求の範囲によってのみ確定されるべきである。
ソフトエラーの影響と検出、影響及び緩和によって決まるさまざまな結果とをフローチャートとして示す図である(従来技術)。 一実施形態のプロセッサベースシステムを示す図である。 一実施形態において第1のDUEに応じてエラー処理ルーチンの起動に続く、あり得る状態の状態図である。 一実施形態において第1のDUEのエラー処理中に発生する第2のDUEの影響を緩和する、ソフトウェアベースソリューションのフローチャートである。

Claims (27)

  1. プロセッサのエラー処理ルーチンにおいて、該プロセッサの第1の検出された回復不可能なエラー(DUE:detected unrecoverable error)に応じて実行すること、及び第2のDUEが発生したという指示に対し、前記エラー処理ルーチンの正確さに対する該第2のDUEの1つ又は複数の影響を評価することにより対応すること
    を含む、方法。
  2. 前記第2のDUEが、前記エラー処理ルーチンによって使用される資源において発生したか否かと、前記第2のDUEが発生したという前記指示が、前記エラー処理ルーチンの終了の前に生成されたか否かとを確定することをさらに含む、請求項1に記載の方法。
  3. 前記エラー処理ルーチンによって使用される資源において前記第2のDUEが発生したということを示す前記指示は、前記プロセッサの立てられたエラーステータスフラグを含む、請求項2に記載の方法。
  4. 前記プロセッサの前記エラーステータスフラグ及び前記エラー処理ルーチンの起動を示すフラグが両方とも立てられる状態を検出することをさらに含む、請求項3に記載の方法。
  5. 前記エラー処理ルーチンによって使用される前記資源は、前記プロセッサの汎用レジスタを含む、請求項4に記載の方法。
  6. 前記エラー処理ルーチンが、前記プロセッサの汎用レジスタのセットの内容を一時記憶域に保存すること、及び
    前記汎用レジスタのセットの前記内容を保存した後、前記エラー処理ルーチンが、前記プロセッサの前記汎用レジスタにおけるDUEを記録する汎用レジスタエラーログをクリアすること
    をさらに含む、請求項1に記載の方法。
  7. 前記評価により、前記第2のDUEが前記エラー処理ルーチンの前記正確さに対して影響を与えたと判断された場合、システム終了例外を引き起こし、そうでない場合、プロセス終了例外を引き起こすことをさらに含む、請求項1に記載の方法。
  8. 前記プロセッサの前記エラーステータスフラグと前記エラー処理ルーチンの起動を示すフラグとがともに立てられている状態が検出された場合、システム終了例外を引き起こし、そうでない場合、プロセス終了例外を引き起こすことをさらに含む、請求項4に記載の方法。
  9. 前記エラー処理ルーチンの残りの動作中に前記汎用レジスタエラーフラグが立てられた場合、システム終了例外を引き起こし、そうでない場合、プロセス終了例外を引き起こすことをさらに含む、請求項6に記載の方法。
  10. プロセッサであって、
    前記プロセッサの資源において第1の検出された回復不可能なエラー(DUE)を検出するエラー検出システムと、
    前記第1のDUEに応じてエラー処理ルーチンを実行すると共に、第2のDUEが発生したという前記エラー検出システムからの指示に対し、前記エラー処理ルーチンの正確さに対する前記第2のDUEの影響を評価することにより応答するロジックと
    を具備する、プロセッサ。
  11. 前記エラー処理ルーチンは、前記第2のDUEが該エラー処理ルーチンによって使用されるプロセッサ資源において発生したか否かと、前記第2のDUEが発生したという前記指示が、前記エラー処理ルーチンの終了の前に生成されたか否かとをさらに確定する、請求項10に記載のプロセッサ。
  12. 前記エラー処理ルーチンによって使用される資源において前記第2のDUEが発生したということを示す前記指示は、前記プロセッサの立てられたエラーステータスフラグを含む、請求項11に記載のプロセッサ。
  13. 前記プロセッサの前記エラーステータスフラグ及び前記エラー処理ルーチンの起動を示すフラグが両方とも立てられる状態を検出するロジックをさらに具備する、請求項12に記載のプロセッサ。
  14. 前記エラー処理ルーチンによって使用される前記資源は、前記プロセッサの汎用レジスタを含む、請求項14に記載のプロセッサ。
  15. 前記エラー処理ルーチンが、前記プロセッサの汎用レジスタのセットの内容を一時記憶域にさらに保存し、
    前記汎用レジスタのセットの前記内容を保存した後、前記エラー処理ルーチンが、前記プロセッサの前記汎用レジスタにおけるDUEを記録する汎用レジスタエラーログをさらにクリアする、請求項10に記載のプロセッサ。
  16. 前記エラー処理ルーチンは、前記評価により、前記第2のDUEが該エラー処理ルーチンの前記正確さに対して影響を与えたと判断された場合、システム終了例外をさらに引き起こし、そうでない場合、プロセス終了例外を引き起こす、請求項10に記載のプロセッサ。
  17. 前記エラー処理ルーチンは、前記プロセッサの前記エラーステータスフラグと前記エラー処理ルーチンの起動を示すフラグとがともに立てられている状態が検出された場合、システム終了例外をさらに引き起こし、そうでない場合、プロセス終了例外を引き起こす、請求項13に記載のプロセッサ。
  18. 前記エラー処理ルーチンの残りの動作中に前記汎用レジスタエラーフラグが立てられた場合、システム終了例外を引き起こし、そうでない場合、プロセス終了例外を引き起こすロジックをさらに具備する、請求項15に記載のプロセッサ。
  19. 機械によってアクセスされると、該機械に対し方法を実行させるデータが格納された、機械可読媒体であって、前記方法は、プロセッサのエラー処理ルーチンが、該プロセッサの第1の検出された回復不可能なエラー(DUE)に応じて実行すること、及び第2のDUEが発生したという指示に対し、前記エラー処理ルーチンの正確さに対する前記第2のDUEの影響を評価することにより応答することを含む、機械可読媒体。
  20. 前記方法は、
    前記エラー処理ルーチンが、前記プロセッサの汎用レジスタのセットの内容を一時記憶域に保存すること、及び
    前記汎用レジスタのセットの前記内容を保存した後、前記エラー処理ルーチンが、前記プロセッサの前記汎用レジスタにおけるDUEを記録する汎用レジスタエラーログをクリアすること
    をさらに含む、請求項19に記載の機械可読媒体。
  21. 前記方法は、
    前記エラー処理ルーチンの残りの動作中に前記汎用レジスタエラーフラグが立てられた場合、システム終了例外を引き起こし、そうでない場合、プロセス終了例外を引き起こすことをさらに含む、請求項20に記載の機械可読媒体。
  22. プロセッサを具備するシステムであって、該プロセッサは、
    前記プロセッサの資源において第1の検出された回復不可能なエラー(DUE)を検出するエラー検出システムと、
    前記第1のDUEに応じてエラー処理ルーチンを実行すると共に、第2のDUEが発生したという前記エラー検出システムからの指示に対し、前記エラー処理ルーチンの正確さに対する前記第2のDUEの影響を評価することにより応答するロジックと
    を具備する、システム。
  23. 前記エラー処理ルーチンは、前記第2のDUEが該エラー処理ルーチンによって使用されるプロセッサ資源において発生したか否かと、前記第2のDUEが発生したという前記指示が、前記エラー処理ルーチンの終了の前に生成されたか否かとをさらに確定する、請求項22に記載のシステム。
  24. 前記エラー処理ルーチンによって使用される資源において前記第2のDUEが発生したということを示す前記指示は、前記プロセッサの立てられたエラーステータスフラグを含む、請求項23に記載のシステム。
  25. 前記プロセッサは、該プロセッサの前記エラーステータスフラグ及び前記エラー処理ルーチンの起動を示すフラグが両方とも立てられる状態を検出するロジックをさらに具備する、請求項24に記載のシステム。
  26. 前記エラー処理ルーチンによって使用される前記資源は、前記プロセッサの汎用レジスタである、請求項25に記載のシステム。
  27. 前記エラー処理ルーチンは、前記プロセッサの前記エラーステータスフラグと前記エラー処理ルーチンの起動を示すフラグとがともに立てられている状態が検出された場合、システム終了例外をさらに引き起こし、そうでない場合、プロセス終了例外を引き起こす、請求項25に記載のシステム。
JP2007545689A 2004-12-14 2005-12-09 エラーハンドラの実行中に発生するエラーを処理する方法 Expired - Fee Related JP4866366B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/012,979 US7370231B2 (en) 2004-12-14 2004-12-14 Method of handling errors
US11/012,979 2004-12-14
PCT/US2005/044770 WO2006065687A1 (en) 2004-12-14 2005-12-09 Method of handling errors occuring during the execution of an error handler

Publications (2)

Publication Number Publication Date
JP2008523513A true JP2008523513A (ja) 2008-07-03
JP4866366B2 JP4866366B2 (ja) 2012-02-01

Family

ID=36215712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007545689A Expired - Fee Related JP4866366B2 (ja) 2004-12-14 2005-12-09 エラーハンドラの実行中に発生するエラーを処理する方法

Country Status (6)

Country Link
US (1) US7370231B2 (ja)
JP (1) JP4866366B2 (ja)
CN (1) CN100501686C (ja)
DE (1) DE112005002975T5 (ja)
TW (1) TWI310495B (ja)
WO (1) WO2006065687A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7353433B2 (en) * 2003-12-08 2008-04-01 Intel Corporation Poisoned error signaling for proactive OS recovery
US7581152B2 (en) * 2004-12-22 2009-08-25 Intel Corporation Fault free store data path for software implementation of redundant multithreading environments
US20070250755A1 (en) * 2006-03-29 2007-10-25 Wayne Burleson Dormant error checker
US8127277B2 (en) * 2007-05-21 2012-02-28 International Business Machines Corporation Framework for conditionally executing code in an application using conditions in the framework and in the application
US9075904B2 (en) 2013-03-13 2015-07-07 Intel Corporation Vulnerability estimation for cache memory
US20160110277A1 (en) * 2014-10-16 2016-04-21 Siemens Aktiengesellshaft Method for Computer-Aided Analysis of an Automation System
US11341012B2 (en) * 2020-05-14 2022-05-24 EMC IP Holding Company LLC Test platform employing test-independent fault insertion

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030074601A1 (en) * 2001-09-28 2003-04-17 Len Schultz Method of correcting a machine check error
JP2004021936A (ja) * 2002-06-20 2004-01-22 Hitachi Ltd 情報処理装置の障害処理方法および情報処理装置
US6691250B1 (en) * 2000-06-29 2004-02-10 Cisco Technology, Inc. Fault handling process for enabling recovery, diagnosis, and self-testing of computer systems

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4438494A (en) * 1981-08-25 1984-03-20 Intel Corporation Apparatus of fault-handling in a multiprocessing system
EP0473806A1 (en) 1990-09-03 1992-03-11 International Business Machines Corporation Apparatus and method for error detection and fault isolation
DE10135285B4 (de) * 2001-07-19 2005-08-04 Infineon Technologies Ag Speichereinrichtung und Verfahren zum Betreiben eines eine Speichereinrichtung enthaltenden Systems
US7555703B2 (en) * 2004-06-17 2009-06-30 Intel Corporation Method and apparatus for reducing false error detection in a microprocessor
US7373558B2 (en) * 2004-09-23 2008-05-13 Intel Corporation Vectoring process-kill errors to an application program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691250B1 (en) * 2000-06-29 2004-02-10 Cisco Technology, Inc. Fault handling process for enabling recovery, diagnosis, and self-testing of computer systems
US20030074601A1 (en) * 2001-09-28 2003-04-17 Len Schultz Method of correcting a machine check error
JP2004021936A (ja) * 2002-06-20 2004-01-22 Hitachi Ltd 情報処理装置の障害処理方法および情報処理装置

Also Published As

Publication number Publication date
US20060156153A1 (en) 2006-07-13
TWI310495B (en) 2009-06-01
CN100501686C (zh) 2009-06-17
US7370231B2 (en) 2008-05-06
DE112005002975T5 (de) 2007-10-31
JP4866366B2 (ja) 2012-02-01
CN101076786A (zh) 2007-11-21
WO2006065687A1 (en) 2006-06-22
TW200634505A (en) 2006-10-01

Similar Documents

Publication Publication Date Title
JP4294626B2 (ja) マージバッファのシステムキルエラーのプロセスキルエラーへの変換技術
US6622260B1 (en) System abstraction layer, processor abstraction layer, and operating system error handling
JP4866366B2 (ja) エラーハンドラの実行中に発生するエラーを処理する方法
KR100898650B1 (ko) 애플리케이션 프로그램에의 프로세스 킬 오류 벡터링
US6516429B1 (en) Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
JP4448539B2 (ja) マイクロプロセッサにおける偽エラーを低減する方法及び装置
EP1659494B1 (en) Method and apparatus for classifying memory errors
JP5965076B2 (ja) 訂正不能メモリエラー処理方法及びその可読媒体
US8671309B2 (en) Mechanism for advanced server machine check recovery and associated system software enhancements
KR100736963B1 (ko) 에러에 중립적인 명령을 추적하여 마이크로프로세서에서의폴스 에러 검출을 줄이는 장치 및 방법
US7430683B2 (en) Method and apparatus for enabling run-time recovery of a failed platform
US7353433B2 (en) Poisoned error signaling for proactive OS recovery
Kleen Machine check handling on Linux
RU2477880C1 (ru) Способ регенерации и защиты от сбоев динамической памяти и устройство для его осуществления
US7895493B2 (en) Bus failure management method and system
Luck Machine Check Recovery for Linux on Itanium® Processors

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101102

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101202

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101209

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101227

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110111

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees