JP7351933B2

JP7351933B2 - エラーリカバリ方法及び装置

Info

Publication number: JP7351933B2
Application number: JP2021570888A
Authority: JP
Inventors: ゴン，ドンジィウ; リ，ショウ; リアン，ヨンシアン; リン，チアンミン
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-05-31
Filing date: 2020-05-29
Publication date: 2023-09-27
Anticipated expiration: 2040-05-29
Also published as: DK3770765T3; EP3770765A4; WO2020239060A1; EP3770765B1; US20210342234A1; US20210019240A1; CA3142308A1; KR20220010040A; FI3770765T3; CN112015599B; CN112015599A; AU2020285262B2; US11604711B2; EP3770765A1; AU2020285262A1; JP2022534418A; US11068360B2

Description

この出願は、コンピュータ分野に関し、より具体的には、コンピュータ分野におけるエラーリカバリ方法及び装置に関する。

例えば自律運転などのトレンドは、機能セキュリティを自動車産業の重要な指標にしている。ますます多くのソフトウェアシステム及びハードウェアシステムがセキュアになる必要がある。これらのセキュリティシステムは、故障又は事故が起こった場合であっても、個人の安全を確保するために信頼性高く動作する必要がある。この場合、例えば全体的な開発プロセス、ハードウェア、ソフトウェア、及びアルゴリズムなどの複数のレイヤで、セキュリティ冗長性を検討する必要がある。あるパーティションが無効になったとき、他のパーティションの機能に影響を及ぼすことなく、エラーをタイムリーに検出して回復することができる。

前述のセキュリティ要求を満たすために、ロックステップ（lockstep）システムが出現している。ロックステップシステムは、ロックステップ機構を使用し、同じ演算群を同時に並列に実行することによってセキュリティ冗長性を実装する、フォールトトレラントなコンピュータシステムである。ロックステップシステムでは、２つの独立した中央演算処理ユニット（ＣＰＵ）が同じ命令を同じクロックサイクルで実行する。例えば誤り訂正コード（ＥＣＣ）パリティチェックといったエラーチェック機能が各ＣＰＵに追加される。さらに、２つのＣＰＵの出力が比較器を通じて比較される。２ビット以上が不一致であるという比較結果であり、且つチェック後に一方のＣＰＵにエラーが発見されるが、チェック後に他方のＣＰＵは正常であるとき、ロックステップは無効にされる。そのため、チェック後にエラーが発見されるＣＰＵは停止され、チェック後に正常であるＣＰＵは通常通りに動作する。１ビットのみ一致しないという比較結果であり、且つチェック後に１つのＣＰＵにのみエラーが検出される場合、前の状態が戻される。チェック後に２つのＣＰＵの各々にエラーが発見される場合、又はチェック後に２つのＣＰＵの各々は正常であるが２つのＣＰＵの出力結果が一致しない場合、２つのＣＰＵは同期から抜け出し、システムが動作を停止する。分かることには、既存のロックステップシステムにおいては、１ビットのみ一致しないという比較結果であり、且つチェック後に１つのＣＰＵにのみエラーが発見される場合に、２つのＣＰＵが、再び動作するためにＣＰＵの現在の動作状態の前の保存状態に回復される。マルチビットエラーが発生し、且つそのエラーを訂正することができない場合、ロックステップシステムはロックステップモードから抜け出し、サービスが停止する。従って、既存のロックステップシステムのエラーリカバリ能力は比較的弱く、システムの信頼性がセキュリティサービスの要求を満たすことができない。

この出願は、ロックステップシステムのエラーリカバリ能力を改善してシステム信頼性を改善するエラーリカバリ方法及び装置を提供する。

第１の態様によれば、エラーリカバリ方法が提供される。当該方法は、ロックステップモードにある少なくとも２つの中央演算処理ユニットＣＰＵのうち第１のＣＰＵがエラーを有するときに、割込みを受信し、上記少なくとも２つのＣＰＵにより、割込みに応答してロックステップモードから抜け、エラーが発生した第１のＣＰＵのエラーのタイプを決定し、そして、エラーが回復可能なエラーである場合に、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って、第１のＣＰＵに対してエラーリカバリを実行する、ことを含む。従って、この出願のこの実施形態のソリューションでは、ロックステップＣＰＵのエラータイプについての決定に基づいて、エラータイプが回復可能である場合に、上記少なくとも２つのＣＰＵが、サービスプログラムが中断された位置で再び動作するように、エラーが発生したＣＰＵを、正常動作しているＣＰＵの状態に従って回復させることができる。従って、この出願のこの実施形態では、ロックステップシステムのエラーリカバリ能力を改善することができ、システムの信頼性を改善することができる。

第１の態様を参照するに、第１の態様の一部の実装において、割込みをトリガした時点における第２のＣＰＵの状態は、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを含み、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含み、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って第１のＣＰＵに対してエラーリカバリを実行することは、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストをメモリから取得し、そして、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新することを含む。

第１の態様を参照するに、第１の態様の一部の実装において、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストと、割込みをトリガした時点におけるキャッシュ内のデータとが、メモリに保存される。

第１の態様を参照するに、第１の態様の一部の実装において、ロックステップＣＰＵの上記少なくとも２つのＣＰＵがロックステップモードから抜け出てスプリットモードに入るとき、ソフトウェア可視ＣＰＵの数が１から複数に変化する。この場合、一方では、複数のＣＰＵのコンテキストが異なるスタックに格納されることを保証するために、ＣＰＵコンテキストのメモリスタックの初期化が実行される。これは、データが上書きされることを防止することができる。加えて、ＣＰＵがロックステップモードに再び入るときにデータが喪失され得ないことを保証するために、ＣＰＵＬ１／Ｌ２キャッシュ内のデータが外部メモリにフラッシュ（flush）される。他方では、システムの非同期エラーがこの時点で直ちに報告され得ることを保証するために、上記少なくとも２つのＣＰＵは別々に例外ベクトルテーブルのエントリにジャンプし、ＣＰＵのエラーを同期させ、そして、その後のエラータイプのクエリに備える。

第１の態様を参照するに、第１の態様の一部の実装において、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って第１のＣＰＵに対してエラーリカバリを実行することは、第１のＣＰＵを用いることにより、第１のＣＰＵと第２のＣＰＵとの間のハードウェアチャネルを通じて、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを取得し、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新することを含み、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

なお、一部の特殊なケースでは、例えばシステムサスペンションなど、レベルが不明なレジスタでエラーが発生する。その場合、全てのレベルのレジスタが、ハードウェアチャネルベースの方法で修復され得る。

第１の態様を参照するに、第１の態様の一部の実装において、当該方法は更に、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストが更新された後に、第１のＣＰＵ及び第２のＣＰＵのソフトウェア不可視マイクロアーキテクチャ状態をリセットするとともに、第１のＣＰＵ及び第２のＣＰＵのそれぞれのソフトウェア可視ＣＰＵコンテキストを保持して、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るようにする、ことを含む。換言すれば、エラーＣＰＵは、全てのソフトウェア不可視ハードウェア状態をリセットし、ＣＰＵキャッシュ内のデータをクリアするとともに、システムレジスタ及び一般レジスタ内のソフトウェア可視状態を取っておく。従って、リセットする前、上記少なくとも２つのＣＰＵによってセットされたソフトウェア可視状態は完全に同じである。リセットした後、上記少なくとも２つのＣＰＵのソフトウェア可視状態は依然として同じであり、上記少なくとも２つのＣＰＵは、外部メモリからデータ及び命令を取得し、同じ入力命令ストリームを受信する。

第１の態様を参照するに、第１の態様の一部の実装において、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って第１のＣＰＵに対してエラーリカバリを実行することは、
第１のＣＰＵ及び第２のＣＰＵをそれぞれリセットするとともに、初期化命令を実行してソフトウェア可視ＣＰＵコンテキストを回復させることで、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るようにすることを含み、初期化命令は、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを含み、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに回復するために使用され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、第１のＣＰＵ及び第２のＣＰＵは同時にリセットされ得るとともに、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るように初期化命令を同時に実行し得る。従って、リセットする前、上記少なくとも２つのＣＰＵによってセットされたソフトウェア可視状態は完全に同じである。リセットした後、上記少なくとも２つのＣＰＵのソフトウェア可視状態は依然として同じであり、上記少なくとも２つのＣＰＵは、外部メモリからデータ及び命令を取得し、同じ入力命令ストリームを受信する。

第１の態様を参照するに、第１の態様の一部の実装において、上記少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定することは、第１のＣＰＵに対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェースＡＣＰＩテーブルに従って、エラーのタイプを決定することを含み、ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティＲＡＳノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用される。斯くして、ＣＰＵにＲＡＳエラーが発生したとき、ＣＰＵが中断され、あるいは、システムが異常となりＵＥＦＩ又はＢＩＯＳに入る。ＵＥＦＩ又はＢＩＯＳは、全てのＲＡＳノードの状態レジスタをトラバースし、そのＣＰＵに対応するエラーをメモリテーブル（すなわち、ＡＰＣＩテーブル）に記録する。従って、オペレーティングシステムのＡＣＰＩドライバは、テーブルを解析して、システム内のどのノードがどのタイプのエラーを有するのかを知ることができる。あるいは、第１のＣＰＵは、第１のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、エラーのタイプを決定する。斯くして、ＣＰＵにＲＡＳエラーが発生したとき、ＣＰＵが中断され、あるいはシステムが異常となる。この場合、ＡＣＰＩテーブルにクエリして原因を得る代わりに、ＲＡＳドライバが直接、全てのＲＡＳノードの状態レジスタを順にトラバースしてエラーの原因を決定する。

取り得る一実装において、第２のＣＰＵは更に、第２のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、第２のＣＰＵが正常に動作することを決定し得る。

取り得る一実装において、第２のＣＰＵは更に、第２のＣＰＵに対応するＡＣＰＩテーブルに従って、第２のＣＰＵが正常に動作することを決定し得る。

取り得る一実装において、上記少なくとも２つのＣＰＵがスプリットモードに入るときに、各ＣＰＵが、当該ＣＰＵにエラーが発生したかを決定してもよく、ＲＡＳノード又はＡＣＰＩテーブルにクエリする必要はない。換言すれば、この場合、どのＣＰＵであるかは、エラーが発生したＣＰＵであり、どのＣＰＵが正常に動作するＣＰＵであるのかは直接的に決定され得る。

第１の態様を参照するに、第１の態様の一部の実装において、ロックステップモードにある少なくとも２つの中央演算処理ユニットＣＰＵにより割込みを受信することは、上記少なくとも２つのＣＰＵにより、割込みコントローラによって送信された割込みを受信することを含み、割込みコントローラは、上記少なくとも２つのＣＰＵの出力が一致しないと比較器回路が決定した場合に、割込みを上記少なくとも２つのＣＰＵに送信する。

取り得る一実装において、比較回路は、専用のハードウェア回路によって実装されることができ、クリティカルパス上には配置されない。例えば、比較回路は、ＣＰＵの外側に配置され得る。斯くして、比較回路はＣＰＵの性能に影響を及ぼさない。

取り得る一実装において、比較回路は、ＣＰＵクロックサイクルレベルでの比較回路である。具体的には、比較回路及びＣＰＵが同一周波数にあることを保証するために、ロックステップＣＰＵに対応する比較回路が、クロック源をロックステップＣＰＵと共有し、サイクル毎のデータ比較を実装する。従って、時間内にエラーを発見することができ、エラーリカバリ又は他の更なる処理を可能な限り早く実行することができる。

第１の態様を参照するに、第１の態様の一部の実装において、上記少なくとも２つのＣＰＵの出力は、上記少なくとも２つのＣＰＵの各々の内部バス出力、上記少なくとも２つのＣＰＵの各々の外部バス出力、及び上記少なくとも２つのＣＰＵの各々のＬ３キャッシュ制御ロジック出力のうちの少なくとも１つを含む。

第１の態様を参照するに、第１の態様の一部の実装において、上記少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定することは、比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、上記少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定することを含む。

この場合、取得したＣＰＵの出力が一致しないと比較器が決定したとき、ＲＡＳ割込みを報告することができ、比較器に対応するＲＡＳノードのレジスタに、例えば、エラーデータアドレス、エラーモジュール、及びエラータイプのうちの少なくとも１つといった、比較器の不一致データについての情報が提供される。

第１の態様を参照するに、第１の態様の一部の実装において、当該方法は更に、エラーが回復不可能なエラーである場合に、上記少なくとも２つのＣＰＵを動作させることを止めることを含む。

第２の態様によれば、エラーリカバリ装置が提供される。当該装置は、第１の中央演算処理ユニットＣＰＵ及び第２のＣＰＵを含む。

第１のＣＰＵは、第１のＣＰＵ及び第２のＣＰＵがロックステップモードにあるときに第１のＣＰＵで発生するエラーによってトリガされる割込みを受信し、割込みに応答してロックステップモードから抜け、エラーのタイプを決定し、そして、エラーが回復可能なエラーである場合に、割込みをトリガした時点における第２のＣＰＵの状態に従ってエラーリカバリを実行するように構成され、第２のＣＰＵは、割込みを受信し、ロックステップモードを抜け出るように構成される。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵは具体的に、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストをメモリから取得し、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新するように構成され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

第２の態様を参照するに、第２の態様の一部の実装において、第２のＣＰＵは更に、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストと、割込みをトリガした時点におけるキャッシュ内のデータとを、メモリに保存するように構成される。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵは具体的に、第１のＣＰＵと第２のＣＰＵとの間のハードウェアチャネルを通じて、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを取得し、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新するように構成され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵは更に、ソフトウェア可視ＣＰＵコンテキストが更新された後に、第１のＣＰＵのソフトウェア不可視マイクロアーキテクチャ状態をリセットするとともに、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを保持して、第１のＣＰＵがロックステップモードに再び入るようにする、ように構成され、第２のＣＰＵは更に、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストが更新された後に、第２のＣＰＵのソフトウェア不可視マイクロアーキテクチャ状態をリセットするとともに、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを保持して、第２のＣＰＵがロックステップモードに再び入るようにする、ように構成される。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵは具体的に、リセットされ、且つリセット後に、具体的に、初期化命令を実行してソフトウェア可視ＣＰＵコンテキストを回復し、第１のＣＰＵがロックステップモードに再び入るようにする、ように構成され、初期化命令は、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを含み、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに回復するために使用され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

第２のＣＰＵは具体的に、リセットされ、且つリセット後に、具体的に、初期化命令を実行して、第２のＣＰＵがロックステップモードに再び入るようにする、ように構成される。

一部の実装において、第１のＣＰＵ及び第２のＣＰＵは同時にリセットされ得るとともに、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るように初期化命令を同時に実行し得る。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵは具体的に、第１のＣＰＵに対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェースＡＣＰＩテーブルに従って、エラーのタイプを決定するように構成され、ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティＲＡＳノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用され、又は、第１のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、エラーのタイプを決定するように構成される。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵは具体的に、割込みコントローラによって送信された割込みを受信するように構成され、割込みコントローラは、第１のＣＰＵの出力と第２のＣＰＵの出力とが一致しないと比較器回路が決定した場合に、割込みを第１のＣＰＵ及び第２のＣＰＵに送信し、第２のＣＰＵは具体的に、割込みコントローラによって送信された割込みを受信するように構成される。

第２の態様を参照するに、第２の態様の一部の実装において、ＣＰＵの出力は、当該ＣＰＵの内部バス出力、当該ＣＰＵの外部バス出力、及び当該ＣＰＵのＬ３キャッシュ制御ロジック出力のうちの少なくとも１つを含む。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵは更に、比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、エラーが発生した第１のＣＰＵとエラーのタイプとを決定するように構成される。

第２の態様を参照するに、第２の態様の一部の実装において、第１のＣＰＵ及び第２のＣＰＵは更に、エラーが回復不可能なエラーである場合に動作を停止する。

第２の態様を参照するに、第２の態様の一部の実装において、当該装置は更に、割込みコントローラ及び比較器回路を含む。比較器回路は、第１のＣＰＵ及び第２のＣＰＵの出力を取得し、第１のＣＰＵの出力と第２のＣＰＵの出力とが一致しないと決定した場合に第１の信号を割込みコントローラに送信するように構成され、第１の信号は、割込みコントローラが割込みを第１のＣＰＵ及び第２のＣＰＵに送信すべきことを指し示すために使用され、割込みコントローラは、第１の信号に従って割込みを第１のＣＰＵ及び第２のＣＰＵに送信する。

第３の態様によれば、エラーリカバリ装置が提供される。当該装置は、決定ユニット及びリカバリユニットを含む。ロックステップモードにある少なくとも２つの中央演算処理ユニットＣＰＵのうち第１のＣＰＵにエラーが発生し、少なくとも２つのＣＰＵがロックステップモードから抜け出るときに、決定ユニットは、第１のＣＰＵにおけるエラーのタイプを決定するように構成され、リカバリユニットは、エラーが回復可能なエラーである場合に、割込みをトリガした時点における少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って、第１のＣＰＵに対してエラーリカバリを実行するように構成される。

第３の態様を参照するに、第３の態様の一部の実装において、リカバリユニットは具体的に、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストをメモリから取得し、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新するように構成され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

第３の態様を参照するに、第３の態様の一部の実装において、当該装置は更にＣＰＵコンテキスト管理ユニットを含む。ＣＰＵコンテキスト管理ユニットは、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストと、割込みをトリガした時点におけるキャッシュ内のデータとを、メモリに保存するように構成される。

第３の態様を参照するに、第３の態様の一部の実装において、当該装置は更に初期化ユニットを含む。初期化ユニットは、第１のＣＰＵ及び第２のＣＰＵがリセットされた後に、初期化命令を実行してソフトウェア可視ＣＰＵコンテキストを回復することで、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るようにする、ように構成され、初期化命令は、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを含み、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに回復するために使用され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

第３の態様を参照するに、第３の態様の一部の実装において、決定ユニットは具体的に、第１のＣＰＵに対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェースＡＣＰＩテーブルに従って、エラーのタイプを決定するように構成され、ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティＲＡＳノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用される、又は、第１のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、エラーのタイプを決定するように構成される。

第３の態様を参照するに、第３の態様の一部の実装において、決定ユニットは具体的に、比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定するように構成され、比較器回路は、少なくとも２つのＣＰＵの出力が一致しないと決定したときに、第１の信号を割込みコントローラに送信するように構成され、第１の信号は、少なくとも２つのＣＰＵがロックステップモードから抜け出ることをトリガするための割込みを、割込みコントローラが少なくとも２つのＣＰＵに送信すべきことを指し示すために使用される。

第３の態様を参照するに、第３の態様の一部の実装において、少なくとも２つのＣＰＵの出力は、少なくとも２つのＣＰＵの各々の内部バス出力、少なくとも２つのＣＰＵの各々の外部バス出力、及び少なくとも２つのＣＰＵの各々のＬ３キャッシュ制御ロジック出力のうちの少なくとも１つを含む。

第３の態様を参照するに、第３の態様の一部の実装において、決定ユニットは更に、エラーが回復不可能なエラーである場合に、動作を停止するように少なくとも２つのＣＰＵを制御するように構成される。

第４の態様によれば、エラーをクエリするための比較回路が提供される。当該比較回路は、ロックステップモードにある少なくとも２つのＣＰＵの外部に配置され、当該比較回路は、上記少なくとも２つのＣＰＵの出力が一致しないことを決定し、上記少なくとも２つのＣＰＵの一致しない出力に従って第１の信号を割込みコントローラに送信する、ように構成され、第１の信号は、割込みコントローラが上記少なくとも２つのＣＰＵに割込みを送信すべきことを指し示すために使用され、割込みは、上記少なくとも２つのＣＰＵのうちの少なくとも１つにエラーが発生したことを指し示すために使用される。

第４の態様を参照するに、第４の態様の一部の実装において、少なくとも２つのＣＰＵの出力は、少なくとも２つのＣＰＵの各々の内部バス出力、少なくとも２つのＣＰＵの各々の外部バス出力、及び少なくとも２つのＣＰＵの各々のＬ３キャッシュ制御ロジック出力のうちの少なくとも１つを含む。

第５の態様によれば、エラーリカバリ装置が提供される。当該装置は、第１の態様の方法／動作／ステップ／アクションに対応するモジュールを含む。

第６の態様によれば、エラーリカバリ装置が提供される。当該装置は、プロセッサを含み、プロセッサは、メモリに格納されたプログラムコードを呼び出して、第１の態様に従ったいずれかの手法で一部又は全ての動作を実行するように構成される。

第６の態様において、プログラムコードを格納したメモリは、エラーリカバリ装置の内部に配置されてもよいし（エラーリカバリ装置が、プロセッサに加えてメモリを更に含んでもよいし）、あるいは、エラーリカバリ装置の外部に配置されてもよい（メモリは、別の装置のメモリであってもよい）。一例として、プロセッサはロックステップＣＰＵとすることができ、当該ロックステップＣＰＵが、少なくとも２つの物理ＣＰＵを含む。

オプションで、メモリは不揮発性メモリである。

エラーリカバリ装置がプロセッサ及びメモリを含む場合、プロセッサ及びメモリは互いに結合され得る。

一例として、エラーリカバリ装置は、端末であってもよいし、あるいは、端末内にあってエラーリカバリを実行するように構成された装置（例えば、チップ、又は、端末に整合して端末によって使用されることができる装置）であってもよい。端末は具体的に、スマートフォン、車載機器、ウェアラブル装置、又はこれらに類するものとし得る。オプションで、前述の車載機器は、自動車とは独立であるが、自動車に適用されることができるコンピュータシステムであってもよいし、あるいは、自動車（例えば、自動運転車）に統合されたコンピュータシステムであってもよい。

第７の態様によれば、コンピュータ読み取り可能記憶媒体が提供される。当該コンピュータ読み取り可能記憶媒体はプログラムコードを格納し、該プログラムコードは、第１の態様に従った方法における一部又は全部の動作を実行するために使用される命令を含む。

オプションで、当該コンピュータ読み取り可能記憶媒体は端末内に配置され、該端末は、エラーリカバリを実行することができる装置とし得る。

第８の態様によれば、この出願の一実施形態は、コンピュータプログラムプロダクトを提供する。当該コンピュータプログラムプロダクトがエラーリカバリ装置上で実行されるとき、エラーリカバリ装置が、第１の態様に従った方法における動作の一部又は全てを実行する。

第９の態様によれば、チップが提供される。当該チップはプロセッサを含み、該プロセッサは、第１の態様に従った方法における一部又は全ての動作を実行するように構成される。

この出願の一実施形態に従ったシステムの実装形態を示している。この出願の一実施形態に従ったシステムアーキテクチャの概略図である。クエリ手法の一例を示している。この出願の一実施形態に従ったエラーリカバリ方法の概略フローチャートである。ロックステップマネジャの初期化の一具体例を示している。ＣＰＵコンテキストの保存及び回復の一例を示している。この出願の一実施形態に従ったハードウェアチャネルに基づくエラー訂正の一例を示している。この出願の一実施形態に従ったエラーリカバリ方法の概略フローチャートである。この出願の一実施形態に従ったエラーリカバリ装置の概略フローチャートである。この出願の一実施形態に従ったエラーリカバリ装置の概略フローチャートである。

最初に、この出願の実施形態における関連用語を説明する。

ロックステップＣＰＵ（lockstep CPU）：ロックステップＣＰＵは、論理ＣＰＵであり、少なくとも２つの物理ＣＰＵ（ＣＰＵとも称する）を含み、又は少なくとも２つの物理コアを含む。一例として、少なくとも２つのＣＰＵは、１つのチップ上に配され、又は異なるチップ上に分散され得る。これは、この出願のこの実施形態において限定されることではない。一部の記載では、ロックステップＣＰＵをロックステップ論理ＣＰＵと呼ぶこともある。説明を容易にするために、以下では説明のために、１つの論理ＣＰＵが少なくとも２つのＣＰＵを含む例を用いる。

ロックステップＣＰＵ内の少なくとも２つのＣＰＵがロックステップモードにあるとき、これら少なくとも２つのＣＰＵは、同じコード又は同じ命令を実行し、１つのＣＰＵの計算結果を出力する。この場合、１つのＣＰＵのみがソフトウェアに対して可視であるが、ロックステップＣＰＵは少なくとも２つの（例えば、複数の）ＣＰＵを含む。

スプリットＣＰＵ（split CPU）：ロックステップＣＰＵ内の少なくとも２つのＣＰＵが、スプリットモードへと、ロックステップモードから抜け、スプリットモードにおいてこれらＣＰＵは通常通りに別々に動作する。この場合、これら少なくとも２つのＣＰＵはソフトウェアに対して可視である。

理解され得ることには、ロックステップモードにある少なくとも２つのＣＰＵは同じ出力結果を有するはずである。上記少なくとも２つのＣＰＵの出力結果が一致しないとすれば、少なくとも１つのＣＰＵが異常に動作している（換言すれば、エラーが発生している）。１つのＣＰＵに欠陥があるとき、ロックステップＣＰＵは異常である。ロックステップＣＰＵ内のＣＰＵは、ロックステップモードから抜け出て、スプリットモードに入る必要がある。

ＣＰＵ例外ジャンプ：ＣＰＵの動作しているときに、エラーが発生したり割込みに応答する必要があったりする場合、ＣＰＵは例外ベクトルテーブル又は割込みベクトルテーブルのエントリにジャンプし、エラー又は割込みを処理するための機能が使用される。この処理の後、ＣＰＵは、元の中断された位置に戻って動作を続け得る。一例として、ロックステップＣＰＵが異常であるとき、ロックステップＣＰＵ内のＣＰＵが異常にジャンプし、スプリットモードに入り、そして、エラーリカバリを実行する。

以下、添付の図面を参照して、この出願の技術的ソリューションを説明する。

図１は、この出願の一実施形態に従ったプラットフォームソフトウェア及びハードウェアにおけるシステムの一実装形態を示している。図１に示すように、ハードウェア部分は、中央演算処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、メモリ、及びこれらに類するものを含み得る。ＣＰＵは、ロックステップＣＰＵ０、ロックステップＣＰＵ１、及び通常ＣＰＵ２、通常ＣＰＵ３などを含む。これは、この出願のこの実施形態において特に限定されることではない。ロックステップＣＰＵは、ロックステップ論理ＣＰＵと称されることもあり、少なくとも２つのＣＰＵ（物理ＣＰＵとも称される）を含む。一例として、これら少なくとも２つのＣＰＵのうちの一方をプライマリＣＰＵと呼ぶことができ、これら少なくとも２つのＣＰＵのうちの他方をセカンダリＣＰＵ又は冗長ＣＰＵと呼ぶことができる。ソフトウェア部分は、実行中の異なるサービスプログラムと、ハードウェアモジュールを管理するソフトウェアモジュールとを含む。一例として、サービスプログラムは、例えば、自動車安全水準（ＡＳＩＬ）－Ｄサービスプログラム＃１、ＡＳＩＬ－Ｄサービスプログラム＃２、ＡＳＩＬ－Ｂサービスプログラム、又は共通プログラムである。一例として、ハードウェアモジュールを管理するソフトウェアモジュールは、例えば、ロックステップＣＰＵ０を管理するエラーマネジャ＃１と、ロックステップＣＰＵ１を管理するエラーマネジャ＃２とし得る。

理解され得ることには、ロックステップＣＰＵはセキュリティ要求を満たすことができるので、比較的高い安全水準要求を持つサービスプログラムはロックステップＣＰＵ上で実行されることができ、比較的低い安全水準要求を持つサービスプログラムは通常ＣＰＵ上で実行されることができる。例えば、ＡＳＩＬ－Ｄサービスプログラム＃１はロックステップＣＰＵ０上で動作し、ＡＳＩＬ－Ｄサービスプログラム＃２はロックステップＣＰＵ２上で動作し、ＡＳＩＬ－Ｂサービスプログラム及び共通プログラムがＣＰＵ２又はＣＰＵ３上で動作し得る。１つパーティションにおける無効が、他のパーティション内のプログラムの動作に影響を及ぼすのを防ぐために、異なる安全水準のアプリケーションは、コンテナ又は仮想マシンを用いてアイソレートされる。

図２は、この出願の一実施形態に従ったシステムアーキテクチャの概略図である。この出願のこの実施形態におけるシステムアーキテクチャは、ハードウェアアーキテクチャ及びソフトウェアアーキテクチャを含む。ハードウェアアーキテクチャは、エラー検出及び訂正のためのハードウェアプラットフォームを提供するために使用され、ソフトウェアアーキテクチャは、ハードウェアプラットフォームに基づくエラー訂正ソリューションを提供するために使用される。

ハードウェアアーキテクチャは、ハードウェアレイヤ又は基礎ハードウェアレイヤとも称され得る。ハードウェアレイヤは、少なくとも１つのロックステップＣＰＵ及び割込みコントローラを含み得る。割込みコントローラは、ロックステップＣＰＵ内のＣＰＵにエラーが発生したときに割込み制御を実行するように構成される。

図２に示すように、ハードウェアレイヤは、ロックステップＣＰＵ０及びロックステップＣＰＵ１を含む。ロックステップＣＰＵ０は更に、プライマリＣＰＵ０及び少なくとも１つのセカンダリＣＰＵ０を含む。ロックステップＣＰＵ１は更に、プライマリＣＰＵ１及び少なくとも１つのセカンダリＣＰＵ１を含む。図２は、一例として１つのセカンダリＣＰＵのみを示しているが、この出願のこの実施形態に対する限定を構成するものではない。

オプションで、この出願のこの実施形態において、少なくとも１つの比較器（又は比較回路と称する）が、各ロックステップＣＰＵ内に配置され、該ロックステップＣＰＵに含まれる少なくとも２つのＣＰＵの出力を取得して比較するように構成される。一例において、ロックステップＣＰＵの外部に配置された比較器を使用することにより、ロックステップＣＰＵに含まれる各ＣＰＵの出力が取得されて比較され得る。

具体的に、比較回路は、専用のハードウェア回路によって実装されることができ、クリティカルパス上には配置されない。例えば、比較回路は、ＣＰＵの外部に配置され得る。斯くして、比較回路はＣＰＵの性能に影響を及ぼさない。

オプションで、比較回路は、ＣＰＵクロックサイクルレベルでの比較回路である。具体的には、比較回路及びＣＰＵが同一周波数にあることを保証するために、ロックステップＣＰＵに対応する比較回路が、クロック源をロックステップＣＰＵと共有し、サイクル毎のデータ比較を実装する。従って、時間内にエラーを発見することができ、エラーリカバリ又は他の更なる処理を可能な限り早く実行することができる。一例において、上記少なくとも１つの比較器及びロックステップＣＰＵは、クロック源をロックステップＣＰＵと共有するようにチップ上に配置され得る。しかしながら、これは、この出願のこの実施形態において限定されることではない。

オプションで、この出願のこの実施形態において、ＣＰＵの出力は、上記少なくとも２つのＣＰＵの各々の内部バス出力、各ＣＰＵの外部バス出力、及び各ＣＰＵのＬ３キャッシュ制御ロジック出力（L3_CTRL）のうちの少なくとも１つを含む。一例として、ＣＰＵの内部バス出力は、例えば、ＣＰＵのＬ１キャッシュであり、ＣＰＵの外部バス出力は、例えば、ＣＰＵのＬ２キャッシュである。

この出願のこの実施形態において、Ｌ３＿ＣＴＲＬ、すなわち、セカンダリＣＰＵに対応する冗長Ｌ３＿ＣＴＲＬが追加され得る。一例として、図２に示すように、ロックステップＣＰＵ０のＬ３キャッシュ制御ロジックは、例えば、Ｌ３＿ＣＴＲＬ０、Ｌ３＿ＲＡＭ、Ｌ３＿ＣＴＲＬ０’を含み、ロックステップＣＰＵ１のＬ３キャッシュ制御ロジックは、例えば、Ｌ３＿ＣＴＲＬ１、Ｌ３＿ＲＡＭ、Ｌ３＿ＣＴＲＬ１’を含む。これは、この出願のこの実施形態において限定されることではない。

一例として、図２に示すように、ロックステップＣＰＵ０を例として用いる。ＣＰＵ内部出力比較器０が、プライマリＣＰＵ０の内部バス出力を、上記少なくとも１つのセカンダリＣＰＵ０の内部バス出力と比較するように構成され得る。ＣＰＵ外部出力比較器０が、プライマリＣＰＵ０の外部バス出力を、上記少なくとも１つのセカンダリＣＰＵ０の外部バス出力と比較するように構成され得る。Ｌ３キャッシュ制御ロジック出力比較器０が、プライマリＣＰＵ０のＬ３制キャッシュ御ロジック出力（Ｌ３＿ＣＴＲＬ０）を、上記少なくとも１つのセカンダリＣＰＵ０のＬ３キャッシュ制御ロジック出力（Ｌ３＿ＣＴＲＬ０’）と比較するように構成され得る。

なお、ＣＰＵ内部出力比較器は、ＣＰＵの外部に配置されてもよく、データラインを用いてＣＰＵの内部バス出力を取得する。これは、この出願のこの実施形態において限定されることではない。

なお、図２のハードウェアレイヤは、単なる一例として用いられており、この出願に対する限定を構成するものではない。

例えば、この出願のこの実施形態において、１つのロックステップＣＰＵが、ＣＰＵ内部出力比較器、ＣＰＵ外部出力比較器、及びＬ３キャッシュ制御ロジック出力比較器のうちの１つ以上を備え得る。他の一例として、異なるロックステップＣＰＵは異なる比較器設定手法を使用してもよい。例えば、ロックステップＣＰＵ０はＣＰＵ内部出力比較器０のみを備え、ロックステップＣＰＵ１はＣＰＵ外部出力比較器１のみを備える。

一具体例において、ＣＰＵ外部出力比較器は第１レベル比較回路として設定されることができ、Ｌ３キャッシュ制御ロジック出力比較器は第２レベル比較回路として設定されることができるが、ＣＰＵ内部出力比較器は設定されない。換言すれば、ＣＰＵの内部バスによって出力されるデータは比較されない。斯くして、１つのレベルの比較回路を削減することができる。この場合、ＣＰＵ内部のエラーがＣＰＵの外部に伝達されるときに、該エラーはＣＰＵの外部の比較回路によって発見されることができる。

他の一例では、この出願のこの実施形態において、１つのロックステップＣＰＵが、２つの物理ＣＰＵを含んでもよいし、あるいは３つの物理ＣＰＵを含んでもよい。

取り得る一実装において、ロックステップモードにある少なくとも２つのＣＰＵの出力が一致しないことを発見したとき、比較器（例えば、前述の比較器のうちのいずれか１つ）は信号を割込みコントローラに送信することができ、該信号は、割込みコントローラが割込みを上記少なくとも２つのＣＰＵに送信すべきことを指し示すために使用される。信号を受信した後、割込みコントローラは割込みをロックステップＣＰＵに送信する。該割込みは、上記少なくとも２つのＣＰＵが異常であることを指し示す。ロックステップＣＰＵ内の上記少なくとも２つのＣＰＵが割込みを受信すると、上記少なくとも２つのＣＰＵはロックステップモードから抜け、すなわち、スプリットモードに入る。スプリットモードにおいて比較器は動作しない。

取り得る一実装において、スプリットモードにおいて、ロックステップＣＰＵ内のプライマリＣＰＵに対応するＬ３＿ＣＴＲＬは動作し、ロックステップＣＰＵ内のセカンダリＣＰＵに対応する冗長Ｌ３＿ＣＴＲＬはｇａｔｅｄ＿ｏｆｆ状態にある。この場合、ロックステップＣＰＵ内の全てのＣＰＵ（プライマリＣＰＵ及びセカンダリＣＰＵを含む）の要求が、動作状態にあるＬ３＿ＣＴＲＬに送信され、そして、Ｌ３＿ＣＴＲＬによって変換されてＬ３＿ＲＡＭに出力される。一例として、ＣＰＵによって送信される要求は、例えば、読出／書込要求、クエリ要求、置換要求である。これは、この出願のこの実施形態において限定されることではない。

ソフトウェアアーキテクチャは、ソフトウェアレイヤとも称され得る。図２に示すように、ソフトウェアレイヤは、主に、ロックステップマネジャ、リライアビリティ・アベイラビリティ・アンド・サービサビリティ（ＲＡＳ）エラーマネジャ、及びヘルスモニタリングモジュールを含む。ロックステップマネジャは、ロックステップＣＰＵ内の少なくとも２つのＣＰＵを管理するように構成される。ＲＡＳエラーマネジャは、ロックステップＣＰＵ内のＣＰＵにエラーが発生したときに、エラーが発生したＣＰＵ及びエラーのタイプを決定するために使用される。ヘルスモニタリングモジュールは、エラーのタイプについての決定処理を実行することを担う。

一例として、ロックステップマネジャは、ロックステップコンフィギュレータ、スプリットモードマネジャ、ＣＰＵコンテキストマネジャ、エラークエラ（querier）及びコレクタ（corrector）、及びリセット同期（reset-sync）オペレータを含み得る。

ロックステップコンフィギュレータは、コンピュータシステム内の少なくとも２つの物理ＣＰＵを１つのロックステップ論理ＣＰＵとして設定するとともに、システム内のロックステップ論理ＣＰＵの数を設定する。

スプリットモードマネジャは、ロックステップ例外ベクトルテーブル及び割込み処理機能を管理する。ロックステップＣＰＵ内の上記少なくとも２つのＣＰＵによって出力されたデータ一致しないことを比較器が発見したとき、割込みコントローラが割込みを上記少なくとも２つのＣＰＵに送信し、上記少なくとも２つのＣＰＵが、ロックステップモードからスプリットモードに入る。この場合、スプリットモードにある上記少なくとも２つのＣＰＵが、ＣＰＵコンテキストマネジャ及び割込み処理機能を呼び出すために、別々に例外ベクトルテーブルのエントリにジャンプする。

取り得る一実装において、上記少なくとも２つのＣＰＵがスプリットモードに入ると、各ＣＰＵは、当該ＣＰＵにエラーが発生しているかを決定し得る。換言すれば、この場合、エラーが発生したＣＰＵがどのＣＰＵであるのか、及び正常に動作しているＣＰＵがどのＣＰＵであるかが決定され得る。

ＣＰＵコンテキストマネジャは、上記少なくとも２つのＣＰＵがロックステップモードから抜け出たときに、その後のエラー訂正に備えるために、ソフトウェア可視ＣＰＵコンテキスト及びＬ１／Ｌ２キャッシュ内のデータをＬ３キャッシュ又はメモリ内の異なるスタックに格納する。ここで、ソフトウェア可視ＣＰＵコンテキストは、カーネルモード及びユーザモードにおけるＣＰＵ状態、すなわち、ＣＰＵに対応するシステムレジスタのデータ及び汎用レジスタのデータを含む。

エラークエラ及びエラーコレクタは、割込み処理機能によって呼び出され得る。一例において、ＣＰＵがスプリットモードに入り、エラーが発生したＣＰＵが決定されると、エラークエラ及びコレクタは、エラーが発生したＣＰＵに対応するＲＡＳエラーマネジャにクエリして、エラーが発生したＣＰＵのエラーのタイプを決定し得る。他の一例において、ＣＰＵがスプリットモードに入り、エラーが発生したＣＰＵが決定されない場合、エラークエラ及びコレクタは、各ＣＰＵに対応するＲＡＳエラーマネジャにクエリして、エラーが発生したＣＰＵ及びエラーのタイプを決定し得る。

この出願のこの実施形態において、エラータイプは、回復可能なエラーと回復不可能なエラーとを含む。ＣＰＵのエラータイプが回復不可能なエラーであると決定されたとき、ヘルスモニタリングモジュールに、例えばエラーが発生したＣＰＵをオフラインに持ち込むなど、エラーが発生したＣＰＵに対して決定処理を行うことが通知される。ＣＰＵのエラータイプが回復可能なエラーであると決定されたとき、エラークエラ及びコレクタが、エラーが発生したＣＰＵを訂正する。

リセット同期オペレータは、スプリットモードにある上記少なくとも２つの物理ＣＰＵが再びロックステップモードに入ることを可能にする。リセット同期オペレータは、ハードウェア的に実施されてもよいし、あるいはソフトウェア的に実装されてもよい。これは、この出願のこの実施形態において限定されることではない。

ＲＡＳエラーマネジャは、アドバンスド・コンフィギュレーション・アンド・パワー・インタフェース（ＡＣＰＩ）モードにおけるエラーパーサ、及び非ＡＣＰＩモードにおけるエラークエラを含み得る。

一例として、ＲＡＳエラーマネジャは１つ以上のＲＡＳノードを含み、各ＲＡＳノードが１つ以上の状態レジスタに対応し、状態レジスタは、ＣＰＵで発生する様々なタイプのエラーを格納するように構成される。

ＡＣＰＩモードにおけるエラーパーサは、ＡＣＰＩモードにおいてエラークエリを実行することができる。具体的には、エラーパーサは、ＡＣＰＩテーブルを用いてＣＰＵのエラー状態をクエリし得る。ＣＰＵにＲＡＳエラーが発生した場合、ＣＰＵは割込まれ、あるいは、システムが、異常であり、ユニファイド・エクステンシブル・ファームウェア・インタフェース（ＵＥＦＩ）又は基本入／出力システム（ＢＩＯＳ）に入る。ＵＥＦＩ又はＢＩＯＳは、全てのＲＡＳノードの状態レジスタをトラバースし、ＣＰＵに対応するエラーをメモリテーブル（すなわち、ＡＰＣＩテーブル）に記録する。オペレーティングシステムのＡＣＰＩドライバが、テーブルを解析して、システム内のどのノードがどのタイプのエラーを有するのかを知ることができる。

非ＡＣＰＩモードにおけるエラークエラは、非ＡＣＰＩモードにおいてエラークエリを実行することができる。一例として、図３において、メモリ管理ユニット（ＭＭＵ）、Ｌ１データ（L1 data、略してＬ１Ｄ）キャッシュ、Ｌ１インジケータ（Ｌ１Ｉ）キャッシュ、Ｌ３キャッシュ、Ｌ２キャッシュが各々１つのＲＡＳノードを有する。ＣＰＵにＲＡＳエラーが発生したとき、ＣＰＵが割込まれ、あるいはシステムが異常である。この場合、ＡＣＰＩテーブルにクエリすることによって原因を取得することに代えて、ＲＡＳドライバが直接的に全てのＲＡＳノードの状態レジスタを順にトラバースして、エラーの原因を決定する。

なお、この出願のこの実施形態では、エラーをクエリするためにＡＣＰＩモードが
優先的に使用され得る。このモードでエラーが発見されない場合に、非ＡＣＰＩモードを用いてエラーをクエリし得る。これは何故なら、ＲＡＳノードにおけるプロデューサエラーの場合、ＲＡＳレジスタはエラーを記録するが、システムはエラーを報告しないからである。ＣＰＵがエラーデータを消費する場合にのみ、消費者側で例外が報告される。この場合、ＡＣＰＩテーブルにエラーが記録されない可能性がある。この場合、エラーのタイプを決定するために、非ＡＣＰＩモードを用いて全てのＲＡＳノードの状態レジスタにポーリングする必要がある。

なお、プロデューサエラーは、エンティティがエラーを生成し、該エラーが該エンティティに関するプロデューサエラーであることを指す。このタイプのエラーは、生成された直後にはトリガされず、消費中にのみ報告される。例えば、メモリがエラーを生成する。メモリがエラーを生成すると、メモリは該エラーを積極的には報告しない。該エラーは、他のコンポーネントが該エラーを読むときにのみトリガされる。

オプションで、この出願のこの実施形態において、ロックステップＣＰＵに対応する比較器のために、１つ以上のＲＡＳノードが更に配置され得る。例えば、ＣＰＵ内部出力比較器０、ＣＰＵ外部出力比較器０、及びＬ３キャッシュ制御ロジック出力比較器０の各々に対して１つのＲＡＳノードが配置される。これは、この出願のこの実施形態において限定されることではない。この場合、取得したＣＰＵの出力が一致しないと比較器が決定したとき、ＲＡＳ割込みを報告することができ、比較器に対応するＲＡＳノードのレジスタに、例えば、エラーデータアドレス、エラーモジュール、及びエラータイプのうちの少なくとも１つといった、比較器の不一致データについての情報が提供される。エラーモジュールは、例えば、Ｌ１キャッシュコントローラ、Ｌ２キャッシュコントローラ、及びＬ３コントローラを含む。

また、この出願のこの実施形態における前述の機能又はモジュールの名称は単に例にすぎない。特定の実装において、図２に示すシステムアーキテクチャにおける機能又はモジュールの名称は、代わりに他の名称であってもよい。これは、この出願のこの実施形態において特に限定されることではない。

図４は、この本出願の一実施形態に従ったエラーリカバリ方法の概略フローチャートである。図４に示す方法は、図１のシステムによって実行されることができ、あるいは図２のシステムによって実行されることができる。しかしながら、この出願のこの実施形態はそれに限定されるものではない。理解されるべきことには、図４は、サービス処理方法のステップ又は動作を示している。しかしながら、これらのステップ又は動作は単に例に過ぎない。この出願のこの実施形態において、代わりに他の動作又は図４の動作の変形が実行されてもよい。また、図４のステップは、図４に示したものとは異なる順序で実行されてもよく、場合により、図４の動作の全てを実行する必要はない。

４０１：ロックステップマネジャの初期化を実行する。

一例として、ロックステップマネジャの初期化は、リソース構成の初期化、例外ベクトルテーブルの初期化、割込み処理機能の初期化を含む。これは、この出願のこの実施形態において限定されることではない。オプションで、ＲＡＳエラーマネジャの初期化が更に実行されてもよい。

図５は、ロックステップマネジャの初期化の一具体例を示している。図５に示すように、ロックステップマネジャの初期化の前のフェーズで、コンフィギュレーションファイルが読み出され得る。

次に、リソース構成の初期化、例外ベクトルテーブルの初期化、割込み処理機能の初期化が実行される。

リソース構成の初期化中に、サービス要求に基づくロックステップ論理ＣＰＵのグループを形成するように、２つ以上の隣接物理ＣＰＵが選択される。例えば、高い安全水準のタスクを実行するために１つのロックステップＣＰＵが必要とされる場合、リソース構成の初期化中に、物理ＣＰＵ０及び物理ＣＰＵ１が、そのタスクのサービスプログラムを動作させるためのロックステップ論理ＣＰＵのグループとして設定され得る。

例外ベクトルテーブルの初期化は、ロックステップＣＰＵがスプリットモードに入り、エラーを同期させてデータ整合性を管理し、割込みを処理するときのＣＰＵコンテキストのメモリスタックの初期化である。ロックステップＣＰＵ内の上記少なくとも２つのＣＰＵがロックステップモードから抜け出てスプリットモードに入るとき、ソフトウェア可視ＣＰＵの数が１から複数に変化する。この場合、一方では、複数のＣＰＵのコンテキストが異なるスタックに格納されることを保証するために、ＣＰＵコンテキストのメモリスタックの初期化が実行される。これは、データが上書きされることを防止することができる。他方では、システムの非同期エラーがこの時点で直ちに報告され得ることを保証するために、上記少なくとも２つのＣＰＵは別々に例外ベクトルテーブルのエントリにジャンプし、ＣＰＵのエラーを同期させ、そして、その後のエラータイプのクエリに備える。加えて、ＣＰＵがロックステップモードに再び入るときにデータが喪失され得ないことを保証するために、ＣＰＵＬ１／Ｌ２キャッシュ内のデータが外部メモリにフラッシュされる。

割込み処理機能の初期化は割込みを処理することができ、例えば、ロックステップＣＰＵ内のＣＰＵにエラーが発生したときに生成される割込みを処理することができ。一例として、ソフトウェアレイヤが、例外ベクトルテーブルのエントリを用いることによって割込み処理機能を呼び出し、次いで、割込み処理機能が、エラークエラ及びコレクタを呼び出してエラーをクエリし、そして、エラータイプに従って、対応する訂正を実行する。

リソース構成の初期化、例外ベクトルテーブルの初期化、及び割込み処理機能の初期化が完了した後、ロックステップコア管理モジュールの初期化後のフェーズに入る。

そして、ロックステップマネジャの初期化が終了する。

４０２：ロックステップモードにある上記少なくとも２つのＣＰＵの出力が一致しないことを決定する。

一実装において、ロックステップＣＰＵに含まれる上記少なくとも２つのＣＰＵの各々の出力が、ロックステップＣＰＵの外部に配置された比較回路を用いることによって取得され、そして、該比較回路が、上記少なくとも２つのＣＰＵの出力が一致しているかを決定する。具体的に、比較回路については、図２の説明を参照されたい。簡潔さのため、詳細をここで再び説明することはしない。

ロックステップモードにある上記少なくとも２つのＣＰＵの出力が一致しないと決定した場合、比較回路は信号を割込みコントローラに送信し、割込みコントローラが、該信号に従って、割込みをＣＰＵに送信する。この場合、上記少なくとも２つのＣＰＵはロックステップモードからスプリットモードに入る。スプリットモードにある上記少なくとも２つのＣＰＵは、ＣＰＵのエラーを同期させるために、別々に割込みベクトルテーブルのエントリにジャンプする。次いで、４０３及び４０４が実行される。

４０３：ＣＰＵコンテキストを保存して管理する。

一例として、スプリットモードにある上記少なくとも２つの物理ＣＰＵは、これら少なくとも２つの物理ＣＰＵに対応するＣＰＵコンテキストを解放する。上記少なくとも２つのＣＰＵのＣＰＵコンテキストのうちの少なくとも１つは正しくないので、これら少なくとも２つのＣＰＵコンテキスト及びキャッシュ内のデータをメモリ内の異なるスタックアドレスへとリフレッシュする必要がある。

一例として、図６は、ＣＰＵコンテキストの保存及び回復の一例を示している。図６に示すように、ロックステップＣＰＵ０’がスプリットモードに入った後、ロックステップＣＰＵ０’内のＣＰＵ０及びＣＰＵ１は別々に割込み要求（ＩＲＱ）エントリにジャンプする。次いで、ＣＰＵ０のコンテキストがメモリ内のスタック０に格納され、ＣＰＵ１のコンテキストがメモリ内のスタック１に格納される。エラークエリが実行された後、ＣＰＵ０及びＣＰＵ１のどちらのＣＰＵが正しいＣＰＵであるか、並びにＣＰＵ０及びＣＰＵ１のどちらのＣＰＵがエラーＣＰＵであるかを決定することができる。そして、エラーが回復可能なエラーである場合、エラークエリの結果に従ってエラーが訂正される。例えば、メモリに格納された正常ＣＰＵのコンテキストに従って、エラーＣＰＵの状態が設定され得る。例えば、ＣＰＵ０にエラーが発生し、ＣＰＵ１が正しく動作している場合、ＣＰＵ０に対してエラー訂正を行うために、スタック１に格納されたコンテキストがＣＰＵ０に復元される。そして、これら２つのＣＰＵは再びロックステップモードに入ることができる。

４０４：エラークエリを実行する。

具体的には、４０４は、エラークエラ及びコレクタによって実行され得る。エラークエラ及びコレクタは、クエリ情報をＲＡＳエラーマネジャに送信することができ、ＲＡＳエラーマネジャは、エラークエリを実行することができる。一例として、ＲＡＳエラーマネジャはＡＣＰＩモード及び非ＡＣＰＩモードにおいてエラークエリを実行する。具体的に、ＡＣＰＩモード及び非ＡＣＰＩモードについては、前述の説明を参照されたい。簡潔さのため、詳細をここで再び説明することはしない。

オプションで、この出願のこの実施形態において、比較器に対応するＲＡＳノードにクエリして、エラーが発生したＣＰＵ及びエラーのタイプを決定することができ、他のＲＡＳノードにポーリングする必要はない。この場合、ロックステップエラーは一般的なＲＡＳエラーとみなされ得る。エラークエリは、ハードウェアによって提供される比較器に対応するＲＡＳノードのレジスタを読み出すことによって実行され得る。ＡＣＰＩモード又は非ＡＣＰＩモードを用いて、比較器のＲＡＳエラーノードにポーリングすることができる。レジスタは、エラーデータアドレス、エラーモジュール、エラータイプ、及びこれらに類するもののうちの少なくとも１つを含むからである。従って、比較器に対応するＲＡＳノードのレジスタを読み出すことにより、エラータイプを決定することができる。一例として、ロックステップエラーは、ロックステップＣＰＵがロックステップモードにあるときに上記少なくとも２つのＣＰＵの出力が一致しないというエラーを指し得る。

一例として、回復可能なエラーは、非アンコンテイナブルエラー（ＵＣ）タイプのエラー、予め設定された閾値を超えない発生数を持つ非ＵＣタイプのエラー、システムサスペンション、又はこれらに類するものを含む。これは、この出願のこの実施形態において限定されることではない。一例として、回復不可能なエラーは、ＵＣタイプのエラー、予め設定された閾値を超える発生数を持つ非ＵＣタイプのエラー、及び未知のタイプのエラーのうちの少なくとも１つを含み得る。これは、この出願のこの実施形態において限定されることではない。

取り得る一部の実装において、アンコンテイナブルエラータイプ又は未知エラータイプでは、ヘルスモニタリングモジュールに、システムヘルスモニタリングを実行することが通知され得る。換言すれば、４０５が実行される。非ＵＣタイプのエラーの発生数が予め設定された閾値を超えたとき、ヘルスモニタリングモジュールに、システムヘルスモニタリングを実行することが通知され得る。換言すれば、４０５が実行される。非ＵＣタイプのエラーでは、エラーの発生数が予め設定された閾値を超えない場合、４０６に示すようにソフトウェアを用いてエラーリカバリが実行され得る。ＣＰＵシステムがサスペンドされたとき、エラーが伝播しない場合には、４０７に示すように、ハードウェアチャネルを用いてエラーリカバリを行うことができる。

一部のオプション実施形態において、ロックステップＣＰＵが２つのＣＰＵを含み、これら２つの物理ＣＰＵによって出力されたデータが一致しないと比較器が決定した場合、比較器に対応するＲＡＳノードを用いて、どちらのＣＰＵがエラーを有するのか、及びどのタイプのエラーが発生したのかを決定し得る。

一部のオプション実施形態において、ロックステップＣＰＵが３つ以上の物理ＣＰＵを含み、これら３つ以上の物理ＣＰＵによって出力されたデータが一致しないと比較器が決定した場合、エラーが発生したＣＰＵは、２つ以上から１つを決定することの原理に従って決定され得る。ここで、２つ以上から１つを決定するとは、上記少なくとも３つのＣＰＵのうちの１つの出力結果が他のＣＰＵの出力結果と一致しない場合に、このＣＰＵにエラーが発生したと決定され得ることを意味する。この場合、取り得る一手法において、エラーＣＰＵはオフラインに持ち込まれ得るとともに、少なくとも２つの他のＣＰＵはロックステップモードに入って動作を続け得る。あるいは、取り得る他の一手法において、比較器に対応するＲＡＳノードを用いて、どのＣＰＵがエラーを有するのか、及びどのタイプのエラーが発生したのかを決定してもよく、次いで、エラーのタイプに従って、エラーが発生したＣＰＵに対して回復を実行すべきかを決定し得る。

４０５：ヘルスモニタリングモジュールがシステムヘルスモニタリングを実行する。

具体的には、ヘルスモニタリングモジュールは、エラーＣＰＵをオフラインに持ち込むことができ、あるいは、ロックステップＣＰＵ内の全てのＣＰＵを、動作を停止するように制御することができる。例えば、自動運転シナリオにおいて、ヘルスモニタリングモジュールは、マイクロコントローラユニット（ＭＣＵ）が引き継いで非常ブレーキをかけるように、自動運転モジュールを抜け出ることをシステムに通知し得る。

４０６：ソフトウェアを用いて回復を実行する。

具体的には、正しいＣＰＵのコンテキストが、例外ベクトルテーブルのエントリ位置で、Ｌ１／Ｌ２キャッシュからメモリにフラッシュされるので、この場合、正しいＣＰＵのコンテキストをエラーＣＰＵに復元して、エラーＣＰＵに対する回復を行い得る。

なお、ソフトウェア修復は通常、例えば、ＡＲＭ６４アーキテクチャにおけるＥＬ０レベルレジスタ、Ｅ１レベルレジスタ、Ｘ８６アーキテクチャにおけるＲＩＮＧ０レベルレジスタ、又はＲＩＮＧ３レベルレジスタといった、共通レベルのレジスタで使用される。一般に、エラーが発生したＣＰＵのエラー許可レベルは、ステップ４０４でエラークエリを行うことによって決定され得る。

４０７：ハードウェアチャネルを用いてエラーＣＰＵを回復させる。

具体的には、エラーＣＰＵは、正しいＣＰＵの状態に従って同期され得る。この場合、正しいＣＰＵは、正しいＣＰＵとエラーＣＰＵとの間のハードウェアチャネルを通じて、正しいＣＰＵのソフトウェア可視ＣＰＵコンテキストをエラーＣＰＵに同期させ得る。図７は、この出願の一実施形態に従ったハードウェアチャネルに基づくエラー訂正の一例を示している。

エラーＣＰＵに対して７０１Ａ－７０４Ａが実行され、正しいＣＰＵに対して７０１Ｂ－７０４Ｂが実行される。

７０１Ａ：エラーＣＰＵをリセットし、すなわち、ＣＰＵのマイクロアーキテクチャ状態をリセットし、エラーＣＰＵのシングルコアリカバリを実行する。ここで、シングルコアリカバリは、エラーＣＰＵに対しては回復が実行されるが、正しいＣＰＵに対しては回復が行われないことを意味する。

７０２Ａ：シングルコアリカバリの後、エラーＣＰＵがリカバリモードに入り、同時に、リカバリモードに入ったことを正しいＣＰＵに通知する。一例として、エラーＣＰＵは、割込み的に又は他の手法で、リカバリモードに入ったことを正しいＣＰＵに通知し得る。これは、この出願のこの実施形態において限定されることではない。

さらに、リカバリモードにおいて、エラーＣＰＵは、ハードウェアチャネルを用いることによって、正しいＣＰＵのソフトウェア可視状態を取得し、正しいＣＰＵのソフトウェア可視状態に従って回復を実行し得る。一例として、ハードウェアチャネルは、正しいＣＰＵとエラーＣＰＵとの間のデータチャネルとし得る。

７０３Ａ：エラーＣＰＵの状態が回復された後、エラーＣＰＵ及び正しいＣＰＵが同時にリセット同期状態に入る。７０３Ａについては、４０８の説明を参照されたい。

７０４Ａ：リセット同期が完了した後、ロックステップに参画する全てのＣＰＵが再びロックステップモードに入る。７０４Ａについては、４０９の説明を参照されたい。

７０１Ｂ：エラーＣＰＵがリセットされるとき、正しいＣＰＵはスピン待機状態にある。スピン待機状態において、正しいＣＰＵは、エラーＣＰＵからの、リカバリモードに入ったことの通知を待つ。一例として、エラーＣＰＵは、割込み的に又は他の手法で、そのモードに入ったことを正しいＣＰＵに通知し得る。これは、この出願のこの実施形態において限定されることではない。

７０２Ｂ：リカバリモードに入った後、エラーＣＰＵに対する回復を実行するために、正しいＣＰＵは、正しいＣＰＵのレジスタ内のソフトウェア可視状態を、ハードウェアチャネルを用いることによってエラーＣＰＵに送信する。

７０３Ｂ：ソフトウェア可視状態の伝送が完了すると、正しいＣＰＵ及びエラーＣＰＵが同時にリセット同期状態に入る。７０３Ｂについては、４０８の説明を参照されたい。

７０４Ｂ：リセット同期が完了した後、ロックステップに参画する全てのＣＰＵが再びロックステップモードに入る。７０４Ｂについては、４０９の説明を参照されたい。

なお、一部の特殊なケースでは、例えばシステムサスペンションなど、レベルが不明なレジスタでエラーが発生する。その場合、全てのレベルのレジスタが、ハードウェアチャネルベースの方法で修復され得る。この場合、回復される必要があるレジスタの数が多いので、回復速さがソフトウェアリカバリのそれよりも遅い。

４０８：リセット同期に入る。

エラーＣＰＵコアの内部のソフトウェア可視状態が回復された後、正しいＣＰＵがリセット同期を実行し、すなわち、内部マイクロアーキテクチャをリセットする。取り得る一実装において、エラーＣＰＵは、全てのソフトウェア不可視ハードウェア状態をリセットし、ＣＰＵキャッシュ内のデータをクリアするとともに、システムレジスタ及び一般レジスタ内のソフトウェア可視状態を取っておく。これに基づき、リセット同期は従来のＣＰＵリセットとは異なり、リセット同期は完全なリセットではない。従って、必要とされる時間は比較的短く、例えば、数十ＣＰＵクロックサイクルであり得る。

オプションで、上記少なくとも２つのＣＰＵがリセットされた後に、初期化命令を実行して、ソフトウェア可視ＣＰＵコンテキストを回復することで、上記少なくとも２つのＣＰＵがロックステップモードに再び入るようにすることができ、初期化命令は、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを含み、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに回復するために使用され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。一実装において、初期化命令は初期化ユニットによって実行され得る。

取り得る一実装において、ロックステップに参画する上記少なくとも２つのＣＰＵは、ソフトウェアが初期化命令をプリプレースする位置にリセットされ、初期化命令は、割込み時点の前述の正しいＣＰＵのＣＰＵＰＣポインタ及びシステムレジスタ（すなわち、システムレジスタ又はデータの値）を含む。リセットした後、上記少なくとも２つのＣＰＵが同時に初期化命令を実行する。

リセット同期が実行される前、上記少なくとも２つの物理ＣＰＵによって設定されたソフトウェア可視状態は完全に同じである。リセット同期が実行された後、上記少なくとも２つの物理ＣＰＵのソフトウェア可視状態はなおも同じであり、上記少なくとも２つのＣＰＵは、外部メモリからデータ及び命令を取得し、同じ入力命令ストリームを受信する。

４０９：ロックステップＣＰＵは、前の退出位置で動作を続ける。

リセット同期が実行された後、１つのケースにおいて、ロックステップに参画する全てのＣＰＵのマイクロアーキテクチャ状態は各々、リセット後の初期状態である。ソフトウェア可視状態は、サービスが中断される前の状態である。別の１つのケースにおいて、ロックステップに参画する全てのＣＰＵが同時に初期化命令を実行し、それ故に、ロックステップＣＰＵは、前にサービスプログラムが中断された位置から動作を続けることができる。

さらに、ロックステップＣＰＵに対応する比較器は、ロックステップＣＰＵ内の上記少なくとも２つの物理ＣＰＵに対してサイクル毎の比較を実行し続ける。

従って、この出願の実施形態では、ロックステップモードにある上記少なくとも２つのＣＰＵは、少なくとも１つのＣＰＵにエラーが発生したときにロックステップモードから抜け出ることができ、エラーが発生したＣＰＵ及び正常に動作するＣＰＵが決定される。これに基づき、そのエラーが回復可能である場合、エラーが発生したＣＰＵを、正常に動作するＣＰＵに基づいて回復させることができる。これは、上記少なくとも２つのＣＰＵが、サービスプログラムが中断された位置で再び動作する助けとなる。従って、この出願の実施形態では、ロックステップシステムのエラーリカバリ能力を改善することができ、システムの信頼性を改善することができる。

図８は、この出願の一実施形態に従ったエラーリカバリ方法の概略フローチャートである。一例として、当該方法は、図１又は図２に示したシステムによって実行され得る。当該方法は、８１０－８３０を含む。

８１０：ロックステップモードにある少なくとも２つのＣＰＵが割込みを受信し、該割込みは、上記少なくとも２つのＣＰＵのうち少なくとも１つにエラーが発生したことを指し示すために使用される。

８２０：上記少なくとも２つのＣＰＵが、割込みに応答してロックステップモードから抜け出る。

８３０：上記少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定する。

８４０：エラーが回復可能なエラーである場合に、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って、第１のＣＰＵに対してエラーリカバリを実行する。

従って、この出願の実施形態では、ロックステップモードにある上記少なくとも２つのＣＰＵは、少なくとも１つのＣＰＵにエラーが発生したときにロックステップモードから抜け出ることができ、エラーが発生したＣＰＵ及びエラーのタイプが決定される。これに基づき、そのエラーが回復可能である場合、エラーが発生したＣＰＵを、正常に動作するＣＰＵに基づいて回復させることができる。これは、上記少なくとも２つのＣＰＵが、サービスプログラムが中断された位置で再び動作する助けとなる。従って、この出願の実施形態では、ロックステップシステムのエラーリカバリ能力を改善することができ、システムの信頼性を改善することができる。

なお、１つ以上の第１のＣＰＵと１つ以上の第２のＣＰＵとが存在し得る。

一例として、ＣＰＵの状態は、ソフトウェア可視状態及び／又はＣＰＵのソフトウェア不可視ハードウェア状態を含み得る。ソフトウェア可視状態は、ＣＰＵコンテキストとも称され、汎用レジスタの値（又はデータ）及びシステムレジスタの値（又はデータ）を含む。ソフトウェア不可視ハードウェア状態は、ソフトウェア不可視マイクロアーキテクチャ状態と称されることもあり、プロセッサ上で実行され得る。

取り得る一設計において、エラーが回復不可能なエラーである場合に、上記少なくとも２つのＣＰＵは動作を停止する。

一部の実装において、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って第１のＣＰＵに対してエラーリカバリを実行することは、
割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストをメモリから取得し、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新することを含み、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、第２のＣＰＵは更に、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストと、割込みをトリガした時点におけるキャッシュ内のデータとを、メモリに保存するように構成される。

一部の実装において、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って第１のＣＰＵに対してエラーリカバリを実行することは、
第１のＣＰＵと第２のＣＰＵとの間のハードウェアチャネルを通じて、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを取得し、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新することを含み、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、当該方法は更に、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストが更新された後に、第１のＣＰＵ及び第２のＣＰＵのソフトウェア不可視マイクロアーキテクチャ状態をリセットするとともに、第１のＣＰＵ及び第２のＣＰＵのそれぞれのソフトウェア可視ＣＰＵコンテキストを保持して、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るようにする、ことを含む。換言すれば、エラーＣＰＵは、全てのソフトウェア不可視ハードウェア状態をリセットし、ＣＰＵキャッシュ内のデータをクリアするとともに、システムレジスタ及び一般レジスタ内のソフトウェア可視状態を取っておく。

従って、リセットする前、上記少なくとも２つのＣＰＵによってセットされたソフトウェア可視状態は完全に同じである。リセットした後、上記少なくとも２つのＣＰＵのソフトウェア可視状態は依然として同じであり、上記少なくとも２つのＣＰＵは、外部メモリからデータ及び命令を取得し、同じ入力命令ストリームを受信する。

一部の実装において、割込みをトリガした時点における上記少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って第１のＣＰＵに対してエラーリカバリを実行することは、
第１のＣＰＵ及び第２のＣＰＵをそれぞれリセットするとともに、初期化命令を実行してソフトウェア可視ＣＰＵコンテキストを回復させることで、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るようにすることを含み、初期化命令は、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを含み、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに回復するために使用され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、上記少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定することは、
第１のＣＰＵにより、第１のＣＰＵに対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェースＡＣＰＩテーブルに従って、エラーのタイプを決定することを含み、ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティＲＡＳノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用される。斯くして、ＣＰＵにＲＡＳエラーが発生したとき、ＣＰＵが中断され、あるいは、システムが異常となりＵＥＦＩ又はＢＩＯＳに入る。ＵＥＦＩ又はＢＩＯＳは、全てのＲＡＳノードの状態レジスタをトラバースし、そのＣＰＵに対応するエラーをメモリテーブル（すなわち、ＡＰＣＩテーブル）に記録する。従って、オペレーティングシステムのＡＣＰＩドライバは、テーブルを解析して、システム内のどのノードがどのタイプのエラーを有するのかを知ることができる。

あるいは、第１のＣＰＵは、第１のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、エラーのタイプを決定する。斯くして、ＣＰＵにＲＡＳエラーが発生したとき、ＣＰＵが中断され、あるいはシステムが異常となる。この場合、ＡＣＰＩテーブルにクエリして原因を得る代わりに、ＲＡＳドライバが直接、全てのＲＡＳノードの状態レジスタを順にトラバースしてエラーの原因を決定する。

オプションで、第２のＣＰＵは更に、第２のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、第２のＣＰＵが正常に動作することを決定し得る。

オプションで、第２のＣＰＵは更に、第２のＣＰＵに対応するＡＣＰＩテーブルに従って、第２のＣＰＵが正常に動作することを決定し得る。

オプションで、上記少なくとも２つのＣＰＵがスプリットモードに入るときに、各ＣＰＵが、当該ＣＰＵにエラーが発生したかを決定してもよく、ＲＡＳノード又はＡＣＰＩテーブルにクエリする必要はない。換言すれば、この場合、どのＣＰＵであるかは、エラーが発生したＣＰＵであり、どのＣＰＵが正常に動作するＣＰＵであるのかは直接的に決定され得る。

一部の実装において、少なくとも２つのＣＰＵにより割込みを受信することは、
上記少なくとも２つのＣＰＵにより、割込みコントローラによって送信された割込みを受信することを含み、割込みコントローラは、上記少なくとも２つのＣＰＵの出力が一致しないと比較器回路が決定した場合に、割込みを上記少なくとも２つのＣＰＵに送信する。

一部の実装において、上記少なくとも２つのＣＰＵの出力は、上記少なくとも２つのＣＰＵの各々の内部バス出力、上記少なくとも２つのＣＰＵの各々の外部バス出力、及び上記少なくとも２つのＣＰＵの各々のＬ３キャッシュ制御ロジック出力のうちの少なくとも１つを含む。

一部の実装において、上記少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定することは、
比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、上記少なくとも２つのＣＰＵのうちエラーが発生した第１のＣＰＵと、エラーのタイプとを決定することを含む。

図８に示すエラーリカバリ方法は、前述の方法実施形態に対応するエラーリカバリ方法の各プロセスを実施することができる。詳細については、前述の説明を参照されたい。繰り返しを避けるため、詳細をここで再び説明することはしない。

以上、図１－図８を参照して、この出願の実施形態におけるエラーリカバリ方法を詳細に説明した。以下、図９を参照して、この出願の実施形態におけるエラーリカバリ装置を詳細に説明する。理解されるべきことには、図９のエラーリカバリ装置は、この出願の実施形態におけるエラーリカバリ方法のステップを実行することができる。図９に示すエラーリカバリ装置を以下にて説明するとき、繰り返しての説明は適宜に省略する。

図９は、この出願の一実施形態に従ったエラーリカバリ装置９００の概略ブロック図である。

図９に示す装置９００はロックステップＣＰＵ９１０を含み、ロックステップＣＰＵ９１０は、第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０を含む。

第１のＣＰＵ９１１０は、第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０がロックステップモードにあるときに第１のＣＰＵ９１１０で発生するエラーによってトリガされる割込みを受信し、
割込みに応答してロックステップモードから抜け、エラーのタイプを決定し、そして、
エラーが回復可能なエラーである場合に、割込みをトリガした時点における第２のＣＰＵ９１２０の状態に従ってエラーリカバリを実行する、ように構成される。

第２のＣＰＵ９１２０は、割込みを受信し、ロックステップモードを抜け出るように構成される。

一部の実装において、第１のＣＰＵ９１１０は具体的に、
割込みをトリガした時点における第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストをメモリから取得し、第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵ９１１０のソフトウェア可視ＣＰＵコンテキストを更新するように構成され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、第２のＣＰＵ９１２０は更に、第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストと、割込みをトリガした時点におけるキャッシュ内のデータとを、メモリに保存するように構成される。

一部の実装において、第１のＣＰＵ９１１０は具体的に、
第１のＣＰＵ９１１０と第２のＣＰＵ９１２０との間のハードウェアチャネルを通じて、割込みをトリガした時点における第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストを取得し、第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵ９１１０のソフトウェア可視ＣＰＵコンテキストを更新するように構成され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、第１のＣＰＵ９１１０は更に、ソフトウェア可視ＣＰＵコンテキストが更新された後に、第１のＣＰＵ９１１０のソフトウェア不可視マイクロアーキテクチャ状態をリセットするとともに、第１のＣＰＵ９１１０のソフトウェア可視ＣＰＵコンテキストを保持して、第１のＣＰＵ９１１０がロックステップモードに再び入るようにする、ように構成され、
第２のＣＰＵ９１２０は更に、第１のＣＰＵ９１１０のソフトウェア可視ＣＰＵコンテキストが更新された後に、第２のＣＰＵ９１２０のソフトウェア不可視マイクロアーキテクチャ状態をリセットするとともに、第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストを保持して、第２のＣＰＵ９１２０がロックステップモードに再び入るようにする、ように構成される。

一部の実装において、第１のＣＰＵ９１１０は具体的に、リセットされ、且つリセット後に、具体的に、初期化命令を実行してソフトウェア可視ＣＰＵコンテキストを回復し、第１のＣＰＵ９１１０がロックステップモードに再び入るようにする、ように構成され、初期化命令は、割込みをトリガした時点における第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストを含み、初期化命令は、第１のＣＰＵ９１１０のソフトウェア可視ＣＰＵコンテキストを、割込みをトリガした時点における第２のＣＰＵ９１２０のソフトウェア可視ＣＰＵコンテキストに回復するために使用され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

第２のＣＰＵ９１２０は具体的に、リセットされ、且つリセット後に、具体的に、初期化命令を実行して、第２のＣＰＵ９１２０がロックステップモードに再び入るようにする、ように構成される。

一部の実装において、第１のＣＰＵ９１１０は具体的に、
第１のＣＰＵ９１１０に対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェースＡＣＰＩテーブルに従って、エラーのタイプを決定するように構成され、ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティＲＡＳノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用され、又は、
第１のＣＰＵ９１１０のＲＡＳノードの状態レジスタにポーリングして、エラーのタイプを決定するように構成される。

一部の実装において、第１のＣＰＵ９１１０は具体的に、割込みコントローラによって送信された割込みを受信するように構成され、割込みコントローラは、第１のＣＰＵ９１１０の出力と第２のＣＰＵ９１２０の出力とが一致しないと比較器回路が決定した場合に、割込みを第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０に送信する。

第２のＣＰＵ９１２０は具体的に、割込みコントローラによって送信された割込みを受信するように構成される。

一部の実装において、第１のＣＰＵ９１１０は更に、
比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、エラーが発生した第１のＣＰＵ９１１０とエラーのタイプとを決定するように構成される。

一部の実装において、第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０は更に、エラーが回復不可能なエラーである場合に動作を停止する。

一部の実装において、当該装置９００は更に、割込みコントローラ及び比較器回路を含み得る。

比較器回路は、第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０の出力を取得し、第１のＣＰＵ９１１０の出力と第２のＣＰＵ９１２０の出力とが一致しないと決定した場合に第１の信号を割込みコントローラに送信するように構成され、第１の信号は、割込みコントローラが割込みを第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０に送信すべきことを指し示すために使用される。

割込みコントローラは、第１の信号に従って割込みを第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０に送信する。

オプションで、システムは更に記憶ユニット９２０を含み得る。取り得る一手法において、記憶ユニット９２０は命令を格納するように構成される。オプションで、記憶ユニット９２０はまた、データ又は情報を格納するように構成され得る。記憶ユニット９２０は、メモリを用いることによって実装され得る。

取り得る一設計において、第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０は、装置９００が前述のエラーリカバリ方法を実行するように、記憶ユニット９２０に格納された命令を実行するように構成され得る。

さらに、第１のＣＰＵ９１１０、第２のＣＰＵ９１２０、及び記憶ユニット９２０は、制御信号及び／又はデータ信号を転送するために、内部接続パスを用いて互いに通信し得る。例えば、記憶ユニット９２０がコンピュータプログラムを格納するように構成され、第１のＣＰＵ９１１０及び第２のＣＰＵ９１２０が、記憶ユニット９２０からコンピュータプログラムを呼び出し、コンピュータプログラムを実行して、前述のエラーリカバリ方法を完了するように構成され得る。記憶ユニット９２０は、ロックステップＣＰＵ９１０に統合されてもよいし、あるいはロックステップＣＰＵ９１０とは別に配されてもよい。

メモリは、以下のタイプのうちの１つ以上、すなわち、フラッシュメモリ、ハードディスク型メモリ、マイクロマルチメディアカードメモリ、カードメモリ（例えば、ＳＤ又はＸＤメモリ）、ランダムアクセスメモリ（ＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、磁気メモリ、磁気ディスク、又は光ディスクのうちの１つ以上とし得る。例えば、メモリは、コンピュータプログラム（当該コンピュータプログラムは、この出願の実施形態におけるエラーリカバリ方法に対応するプログラムである）を格納し得る。処理ユニットがコンピュータプログラムを実行するとき、処理ユニットは、この出願の実施形態におけるエラーリカバリ方法を実行することができる。

メモリは更に、コンピュータプログラム以外のデータを格納する。例えば、メモリは、この出願におけるエラーリカバリ方法の処理プロセスにおけるデータを格納し得る。

図９に示す装置９００は、前述の方法実施形態に対応するエラーリカバリ方法の各プロセスを実装することができる。具体的に、装置９００については、前述の説明を参照されたい。繰り返しを避けるため、詳細をここで再び説明することはしない。

図１０は、この出願の一実施形態に従ったエラーリカバリ装置１０００の概略ブロック図である。装置１０００は、決定ユニット１０１０及びリカバリユニット１０２０を含む。

ロックステップモードにある少なくとも２つの中央演算処理ユニットＣＰＵのうち第１のＣＰＵにエラーが発生し、少なくとも２つのＣＰＵがロックステップモードから抜け出るときに、決定ユニット１０１０は、第１のＣＰＵにおけるエラーのタイプを決定するように構成され、
リカバリユニット１０２０は、エラーが回復可能なエラーである場合に、割込みをトリガした時点における少なくとも２つのＣＰＵのうち正しく動作していた第２のＣＰＵの状態に従って、第１のＣＰＵに対してエラーリカバリを実行するように構成される。

一部の実装において、リカバリユニット１０２０は具体的に、
割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストをメモリから取得し、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに従って、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新するように構成され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、当該装置は更にＣＰＵコンテキスト管理ユニットを含む。ＣＰＵコンテキスト管理ユニットは、第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストと、割込みをトリガした時点におけるキャッシュ内のデータとを、メモリに保存するように構成される。

一部の実装において、当該装置は更に初期化ユニットを含む。初期化ユニットは、第１のＣＰＵ及び第２のＣＰＵがリセットされた後に、初期化命令を実行してソフトウェア可視ＣＰＵコンテキストを回復することで、第１のＣＰＵ及び第２のＣＰＵがロックステップモードに再び入るようにする、ように構成され、初期化命令は、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを含み、第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、割込みをトリガした時点における第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストに回復するために使用され、ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を含む。

一部の実装において、決定ユニット１０１０は具体的に、
第１のＣＰＵに対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェースＡＣＰＩテーブルに従って、エラーのタイプを決定するように構成され、ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティＲＡＳノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用され、又は
第１のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、エラーのタイプを決定するように構成される。

一部の実装において、決定ユニット１０１０は具体的に、
比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、エラーが発生した第１のＣＰＵと、エラーのタイプとを決定するように構成され、比較器回路は、少なくとも２つのＣＰＵの出力が一致しないと決定したときに、第１の信号を割込みコントローラに送信するように構成され、第１の信号は、少なくとも２つのＣＰＵがロックステップモードから抜け出ることをトリガするための割込みを、割込みコントローラが少なくとも２つのＣＰＵに送信すべきことを指し示すために使用される。

一部の実装において、少なくとも２つのＣＰＵの出力は、少なくとも２つのＣＰＵの各々の内部バス出力、少なくとも２つのＣＰＵの各々の外部バス出力、及び少なくとも２つのＣＰＵの各々のＬ３キャッシュ制御ロジック出力のうちの少なくとも１つを含む。

一部の実装において、決定ユニット１０１０は更に、エラーが回復不可能なエラーである場合に、動作を停止するように少なくとも２つのＣＰＵを制御するように構成される。

図１０に示すエラーリカバリ装置１０００は、前述の方法実施形態に対応するエラーリカバリ方法の対応するプロセスを実装することができる。具体的に、エラーリカバリ装置１０００については、前述の説明を参照されたい。繰り返しを避けるため、詳細をここで再び説明することはしない。

この出願の一実施形態は更に、コンピュータ読み取り可能記憶媒体を提供する。当該コンピュータ読み取り可能記憶媒体はプログラムコードを格納し、該プログラムコードは、前述の実施形態のうちのいずれかの実施形態に従った方法における一部又は全部の動作を実行するために使用される命令を含む。

この出願の一実施形態は更に、コンピュータプログラムプロダクトを提供する。当該コンピュータプログラムプロダクトがエラーリカバリ装置上で実行されるとき、エラーリカバリ装置が、前述の実施形態のうちのいずれかの実施形態に従った方法における動作の一部又は全てを実行する。

この出願の一実施形態は更にチップを提供する。当該チップはプロセッサを含み、該プロセッサは、前述の実施形態のうちのいずれかの実施形態に従った方法における一部又は全ての動作を実行するように構成される。

この出願の実施形態は、別個に使用されたり、あるいは一緒に使用されたりし得る。これは、ここで限定されることではない。

理解されるべきことには、この出願の実施形態における例えば“第１の”及び“第２の”などの記載は、記載されるオブジェクトを単に指し示して区別するために使用されているに過ぎず、シーケンスを示すものではなく、この出願の実施形態においてデバイスの数量が具体的に限られることを示すものではなく、また、この出願の実施形態に対する何らかの限定を構成するはずもない。

理解されるべきことには、上述のプロセスのシーケンス番号は、この出願の様々な実施態様における実行順序を意味するものではない。プロセスの実行順序は、プロセスの機能及び内部ロジックに従って決定されるべきであり、この出願の実施態様の実装プロセスに対する何らかの限定として解釈されるべきでない。

当業者が認識し得ることには、この明細書に開示された実施形態にて記述された例と組み合わせて、ユニット及びアルゴリズムステップは、電子ハードウェアによって、又はコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実装され得る。機能がハードウェアによって実行されるのか、それともソフトウェアによって実行されるのかは、技術的ソリューションの特定の用途及び設計制約に依存する。当業者は、特定の用途ごとに、記載された機能を実装するために異なる方法を用いることができるのであり、その実装がこの出願の範囲を超えるものであると考えるべきではない。

当業者によって明確に理解され得ることには、簡便且つ簡潔な説明の目的のため、上述のシステム、装置、及びユニットの詳細な動作プロセスについては、上述の方法の実施形態における対応するプロセスを参照されたく、ここで再び詳細を説明することはしない。

この出願にて提供された幾つかの実施形態において、理解されるべきことには、開示されたシステム、装置、及び方法は、その他のようにして実施されてもよい。例えば、記載された装置の実施形態は単なる例である。例えば、ユニットへの分割は、単なる論理機能分割であり、実際の実装においてはその他の分割とし得る。例えば、複数のユニット又はコンポーネントが別のシステムへと組み合わされたり統合されたりしてもよく、あるいは、一部の機構が無視されたり実行されなかったりしてもよい。また、図示又は説明された相互結合又は直接結合又は通信接続は、何らかのインタフェースを用いることによって実装され得る。装置又はユニットの間の間接結合又は通信接続は、電子的な形態、機械的な形態、又はその他の形態にて実装され得る。

別々の部分として記載されたユニットは、物理的に別々であってもなくてもよく、また、ユニットとして示された部分は、物理的なユニットであってもなくてもよく、一箇所にあってもよいし複数のネットワークユニットに分散されてもよい。それらユニットの一部又は全てが、実施形態のソリューションの目的を達成するように、実際の要求に従って選択され得る。

また、この出願の実施形態における複数の機能ユニットが１つの処理ユニットへと統合されてもよく、あるいは、それらユニットの各々が物理的に単独で存在してもよく、あるいは、２つ以上のユニットが１つのユニットへと統合される。

機能がソフトウェア機能ユニットの形態で実装されて、独立したプロダクトとして販売又は使用されるとき、その機能はコンピュータ読み取り可能記憶媒体に格納されてもよい。このような理解に基づき、この出願の技術的ソリューションは本質的に、又は先行技術に対して寄与する部分は、又は技術的ソリューションの一部は、ソフトウェアプロダクトの形態で実装され得る。ソフトウェアプロダクトは、記憶媒体に格納されるとともに、この出願の実施形態にて記載された方法のステップの全て又は一部を実行するようにコンピュータ装置（これは、パーソナルコンピュータ、サーバ、又はネットワーク装置）に命令する幾つかの命令を含む。上述の記憶媒体は、例えばＵＳＢフラッシュドライブ、リムーバブルハードディスク、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク、又は光ディスクなどの、プログラムコードを記憶することができる任意の媒体を含む。

以上の説明は、単にこの出願の特定の実装であり、この出願の保護範囲を限定することを意図するものではない。この出願にて開示された技術的範囲内で当業者が容易に考え付く如何なる変形又は置換も、この出願の保護範囲に入るものである。従って、この出願の保護範囲は、請求項の保護範囲に従うものである。

Claims

エラーリカバリ方法であって、
割込みを受信するステップであり、前記割込みは、第１の中央演算処理ユニット（ＣＰＵ）及び第２のＣＰＵがロックステップモードにあるときに前記第１のＣＰＵで発生するエラーによってトリガされる、ステップと、
前記第１のＣＰＵにより、前記割込みに応答して前記ロックステップモードから抜け出るステップと、
前記エラーのタイプを決定するステップと、
前記エラーが回復可能なエラーである場合に、前記割込みをトリガした時点における正しく動作していた前記第２のＣＰＵの状態に従って、前記第１のＣＰＵに対してエラーリカバリを実行するステップと、
を有し、
前記エラーのタイプを前記決定するステップは、
前記第１のＣＰＵに対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェース（ＡＣＰＩ）テーブルに従って、前記エラーの前記タイプを決定することであり、前記ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティ（ＲＡＳ）ノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用される、決定すること、又は、
前記第１のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、前記エラーの前記タイプを決定すること、
を有する、
方法。
前記割込みをトリガした時点における正しく動作していた前記第２のＣＰＵの状態に従って、前記第１のＣＰＵに対してエラーリカバリを前記実行するステップは、
前記割込みをトリガした前記時点における前記第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストをメモリから取得し、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストに従って、前記第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新し、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を有する、
ことを有する、請求項１に記載の方法。
前記割込みをトリガした時点における正しく動作していた前記第２のＣＰＵの状態に従って、前記第１のＣＰＵに対してエラーリカバリを前記実行するステップは、
前記第１のＣＰＵと前記第２のＣＰＵとの間のハードウェアチャネルを通じて、前記割込みをトリガした前記時点における前記第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを取得し、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストに従って、前記第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新し、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を有する、
ことを有する、請求項１に記載の方法。
前記割込みをトリガした時点における正しく動作していた前記第２のＣＰＵの状態に従って、前記第１のＣＰＵに対してエラーリカバリを前記実行するステップは、
前記第１のＣＰＵ及び前記第２のＣＰＵをそれぞれリセットするとともに、初期化命令を実行して、前記第１のＣＰＵ及び前記第２のＣＰＵが前記ロックステップモードに再び入るようにし、前記初期化命令は、前記割込みをトリガした前記時点における前記第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを有し、前記第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、前記割込みをトリガした前記時点における前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストに回復するために使用され、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を有する、
ことを有する、請求項１に記載の方法。
前記割込みは、割込みコントローラによって送信され、前記割込みコントローラは、前記第１のＣＰＵの出力と前記第２のＣＰＵの出力とが一致しないと比較器回路が決定した場合に、前記割込みを前記第１のＣＰＵ及び前記第２のＣＰＵに送信する、請求項１乃至４のいずれか一項に記載の方法。
前記エラーのタイプを前記決定するステップは、
前記比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、前記エラーの前記タイプを決定する、
ことを有する、請求項５に記載の方法。
エラーリカバリ装置であって、第１の中央演算処理ユニット（ＣＰＵ）及び第２のＣＰＵを有し、
前記第１のＣＰＵは、前記第１のＣＰＵ及び前記第２のＣＰＵがロックステップモードにあるときに前記第１のＣＰＵで発生するエラーによってトリガされる割込みを受信し、前記割込みに応答して前記ロックステップモードから抜け、前記エラーのタイプを決定し、そして、前記エラーが回復可能なエラーである場合に、前記割込みをトリガした時点における前記第２のＣＰＵの状態に従ってエラーリカバリを実行するように構成され、
前記第２のＣＰＵは、前記割込みを受信し、前記ロックステップモードを抜け出るように構成され、
前記第１のＣＰＵは具体的に、
前記第１のＣＰＵに対応するアドバンスド・コンフィギュレーション・アンド・パワー・インタフェース（ＡＣＰＩ）テーブルに従って、前記エラーの前記タイプを決定するように構成され、前記ＡＣＰＩテーブルは、ＣＰＵのリライアビリティ・アベイラビリティ・アンド・サービサビリティ（ＲＡＳ）ノードの状態レジスタがポーリングされたときに発見されたエラーを記録するために使用される、又は、
前記第１のＣＰＵのＲＡＳノードの状態レジスタにポーリングして、前記エラーの前記タイプを決定するように構成されている、
エラーリカバリ装置。
前記第１のＣＰＵは具体的に、
前記割込みをトリガした前記時点における前記第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストをメモリから取得し、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストに従って、前記第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新するように構成され、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を有する、
請求項７に記載の装置。
前記第１のＣＰＵは具体的に、
前記第１のＣＰＵと前記第２のＣＰＵとの間のハードウェアチャネルを通じて、前記割込みをトリガした前記時点における前記第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを取得し、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストに従って、前記第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを更新するように構成され、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を有する、
請求項７に記載の装置。
前記第１のＣＰＵは具体的に、リセットされ、且つ初期化命令を実行して、前記第１のＣＰＵが前記ロックステップモードに再び入るようにする、ように構成され、前記初期化命令は、前記割込みをトリガした前記時点における前記第２のＣＰＵのソフトウェア可視ＣＰＵコンテキストを有し、前記第１のＣＰＵのソフトウェア可視ＣＰＵコンテキストを、前記割込みをトリガした前記時点における前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストに回復するために使用され、前記第２のＣＰＵの前記ソフトウェア可視ＣＰＵコンテキストは、システムレジスタの値及び汎用レジスタの値を有し、
前記第２のＣＰＵは具体的に、リセットされ、且つ前記初期化命令を実行して、前記第２のＣＰＵが前記ロックステップモードに再び入るようにする、ように構成されている、
請求項７に記載の装置。
前記割込みは、割込みコントローラによって送信され、前記割込みコントローラは、前記第１のＣＰＵの出力と前記第２のＣＰＵの出力とが一致しないと比較器回路が決定した場合に、前記割込みを前記第１のＣＰＵ及び前記第２のＣＰＵに送信する、請求項７乃至１０のいずれか一項に記載の装置。
前記第１のＣＰＵは更に、
前記比較器回路に対応するＲＡＳノードの状態レジスタにクエリして、前記エラーが発生した前記第１のＣＰＵと前記エラーの前記タイプとを決定する、
ように構成されている、請求項１１に記載の装置。
割込みコントローラ及び比較器回路を更に有し、
前記比較器回路は、前記第１のＣＰＵ及び前記第２のＣＰＵの出力を取得し、前記第１のＣＰＵの前記出力と前記第２のＣＰＵの前記出力とが一致しないと決定した場合に第１の信号を前記割込みコントローラに送信するように構成され、前記第１の信号は、前記割込みコントローラが前記割込みを前記第１のＣＰＵ及び前記第２のＣＰＵに送信すべきことを指し示すために使用され、
前記割込みコントローラは、前記第１の信号に従って前記割込みを前記第１のＣＰＵ及び前記第２のＣＰＵに送信する、
請求項７乃至１０のいずれか一項に記載の装置。