JP2022088346A

JP2022088346A - コア同期のためのデバッグトレースストリーム

Info

Publication number: JP2022088346A
Application number: JP2021195448A
Authority: JP
Inventors: デーヴィッドピー．ハルデマン，; P Haldeman David; エリックジェー．ミラー，; J Miller Eric
Original assignee: Boeing Co
Current assignee: Boeing Co
Priority date: 2020-12-02
Filing date: 2021-12-01
Publication date: 2022-06-14
Also published as: EP4009173B1; US11934295B2; KR20220077866A; CA3136322A1; EP4009173A1; CN114578896A; US20220171694A1

Abstract

【課題】々なコアが互いにロックステップ状態にあるかどうかを確認し、複数のコアがロックステップ状態から外れているときに救済動作を行うために、トレースセルを含むデバッグツールを介して複数のコアの間の非同期を検出して対処する方法及び複数の処理コアを並列で使用する計算システムを提供する。【解決手段】方法は、冗長的にシステムを動作させることのために、複数のデバッグトレースデータストリームをモニタすることと、複数のデバッグトレースデータストリームのうちの１つのデバッグトレースデータストリームの、複数のデバッグトレースデータストリームのうちの他のデバッグトレースデータストリームに対する状態差を検出したことに応じて、１つのデバッグトレースデータストリームに関連付けられた所与のコアを影響されたコアとしてマーキングすることと、影響されたコアを再起動することと、によってマルチコアシステムを同期する。【選択図】図３

Description

本開示は、広くは、複数の処理コアを並列で使用する計算システムに関する。特に、本開示は、様々なコアが互いにロックステップ状態にあるかどうかを確認し、複数のコアがロックステップ状態から外れているときに救済動作を行うため、トレースセルを含むデバッグツールを介して、複数のコアの間の非同期を検出し、対処することに関する。

様々なシステムが、システムに更なる確実性及び回復力を提供するために、互いに並列な指示命令を処理するよう複数のプロセッサを使用する。例えば、宇宙船、航空機、及びイオン化環境内で使用される他のデバイスは、シングルイベントアップセット（SEU）をもたらし得る環境条件に曝露される。これらのデバイスは、しばしば、それらの計算システム内で三重モード冗長性（TMR）を使用する。それによって、３つのプロセッサが、同じ作業を並列で実行する。TMRを使用するシステムは、出力として、多数決による決定（すなわち、３つのプロセッサのうちの少なくとも２つが同じ結果を生成する）を使用する。トータルコンセンサスに到達しない（すなわち、３つのプロセッサのうちの少なくとも１つが唯一の結果を生成しなかった）イベントでは、TMRを使用するシステムが、次の計算がプロセッサのフルセットを用いて実行されることを確実にするために、一致しなかったプロセッサを再同期し又はプロセッサの３つ全てをリセットする。リセットプロセスは、潜在的に重要なときにシステム可用性を低減させ、複数のプロセッサを搭載すること、ならびに処理システム全体を通したTMR投票論理のオーバーヘッドにより、システムの複雑さ及びサイズが増す。

本開示は、一態様において方法を提供する。該方法は、対応する複数のコアが作業を並列で実行することを含む、冗長的にシステムを動作させることのために、複数のデバッグトレースデータストリームをモニタすること、複数のデバッグトレースデータストリームのうちの１つのデバッグトレースデータストリームの、複数のデバッグトレースデータストリームのうちの他のデバッグトレースデータストリームに対する状態差を検出したことに応じて、１つのデバッグトレースデータストリームに関連付けられた所与のコアを影響されたコアとしてマーキングすること、及び、影響されたコアを再起動することを含む。

一態様では、上述の又は以下の任意の例示的な方法と組み合わせて、対応する複数のコアが、影響されたコア及び第２のコアを含む２つのアクティブなコアから構成され、該方法は、状態差を検出したことに応じて、第２のコアを第２の影響されたコアとしてマーキングすること、及び、第２のコアを影響されたコアと同時にリセットすることを更に含む。

一態様では、上述の又は以下の任意の例示的な方法と組み合わせて、対応する複数のコアが、影響されたコア、第１の影響されていないコア、及び第２の影響されていないコアを含む、３つのアクティブなコアから構成され、該方法は、状態差を検出したことに応じて、影響されたコアを停止すること、並びに、コンセンサス冗長モードで並列に作業を実行している、第１の影響されていないコア及び第２の影響されていないコアをモニタすることを更に含み、影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、影響されたコアに、第１の影響されていないコアからのレジスタデータをロードすること、及び、影響されたコアを再初期化することを含む。

一態様では、上述の又は以下の任意の例示的な方法と組み合わせて、対応する複数のコアが、影響されたコア、第１の影響されていないコア、第２の影響されていないコア、及び第３の影響されていないコアを含む、４つ以上のアクティブなコアを含み、該方法は、状態差を検出したことに応じて、影響されたコアを停止すること、並びに、多数決モードで並列に作業を実行している、第１の影響されていないコア、第２の影響されていないコア、及び第３の影響されていないコアをモニタすることを更に含み、影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、影響されたコアに、第１の影響されていないコアからのレジスタデータを再ロードすること、及び、影響されたコアを再初期化することを含む。

一態様では、上述の又は以下の任意の例示的な方法と組み合わせて、対応する複数のコアが、スーパーバイザを有する共有システムオンチップ（shared System on a Chip）上に含まれ、スーパーバイザは、放射線対応プロセッサ（radiation hardened processor）、ハードウェア規定された状態マシン（hardware-defined state machine）、及びメンテナンスプロセッサのうちの１つである。

一態様では、上述の又は以下の任意の例示的な方法と組み合わせて、対応する複数のコアのうちの少なくとも１つのコアが、対応する複数のコアのうちの他のコアから分離した集積回路上に含まれる。

本開示は、一態様においてシステムを提供する。該システムは、対応する複数の作業のインスタンスを並列で実行するように構成された複数のコア、並びに、スーパーバイザを含む。該スーパーバイザは、複数のコアからデバッグトレースデータストリームを受け取ること、及び、複数のコアのうちの影響されたコアに関連付けられたデバッグトレースデータストリームと複数のコアのうちの他のコアに関連付けられたデバッグトレースデータストリームとの間の状態差に基づいて、複数のコアのうちの影響されたコアを特定すること、を実行するように構成されている。

一態様では、上述の又は以下の任意の例示的なシステムと組み合わせて、複数のコア及びスーパーバイザが、単一の集積回路上に配置される。

一態様では、上述の又は以下の任意の例示的なシステムと組み合わせて、スーパーバイザが、第１の集積回路上に配置され、複数のコアのうちの少なくとも１つのコアが、第２の集積回路上に配置される。

一態様では、上述の又は以下の任意の例示的なシステムと組み合わせて、スーパーバイザが、安全な再起動時間まで、作業を実行している複数のコアから影響されたコアを除去すること、及び、安全な再起動時間に到達したことに応じて、影響されたコアを再起動すること、を実行するように更に構成されている。

一態様では、上述の又は以下の任意の例示的なシステムと組み合わせて、影響されたコアを除去した後で、複数のコアが少なくとも２つのコアを含むときに、スーパーバイザが、影響されたコアに関連付けられた影響されたレジスタに、少なくとも２つのコアのうちの１つの影響されていないコアに関連付けられた影響されていないレジスタからのデータを再ロードすること、影響されたコアを再初期化すること、及び、影響されたコアを複数のコアに戻すこと、を実行するように更に構成されている。

一態様では、上述の又は以下の任意の例示的なシステムと組み合わせて、安全な再起動時間が、システムによって制御されるデバイスの安全プロファイルに基づいて決定される。

一態様では、上述の又は以下の任意の例示的なシステムと組み合わせて、複数のコアが２つのコアから構成されるときに、スーパーバイザが、第２のコアを影響されたコアと同時にリセットすることを実行するように更に構成されている。

一態様では、上述の又は以下の任意の例示的なシステムと組み合わせて、デバッグトレースデータストリームが、指示命令トレース、データトレース、及びシステムトレースのうちの少なくとも１つを介して受け取られる。

本開示は、一態様においてコンピュータ可読記憶デバイスを提供する。該コンピュータ可読記憶デバイスは、指示命令を含む。該指示命令は、プロセッサによって実行されたときに、以下を含む動作を実行する。すなわち、対応する複数のコアが作業を並列で実行することを含む、冗長的にシステムを動作させることのために、複数のデバッグトレースデータストリームをモニタすること、複数のデバッグトレースデータストリームのうちの１つのデバッグトレースデータストリームの、複数のデバッグトレースデータストリームのうちの他のデバッグトレースデータストリームに対する状態差を検出したことに応じて、１つのデバッグトレースデータストリームに関連付けられたコアを影響されたコアとしてマーキングすること、及び、影響されたコアを再起動することである。

一態様では、上述の又は以下の任意の例示的なコンピュータ可読記憶デバイスと組み合わせて、対応する複数のコアが、影響されたコア及び第２のコアを含む２つのアクティブなコアから構成され、該動作は、状態差を検出したことに応じて、第２のコアを第２の影響されたコアとしてマーキングすること、及び、第２のコアを影響されたコアと同時にリセットすることを更に含む。

一態様では、上述の又は以下の任意の例示的なコンピュータ可読記憶デバイスと組み合わせて、対応する複数のコアが、影響されたコア、第１の影響されていないコア、及び第２の影響されていないコアを含む、３つのアクティブなコアから構成され、該動作は、状態差を検出したことに応じて、影響されたコアを停止すること、並びに、コンセンサス冗長モードで並列に作業を実行している、第１の影響されていないコア及び第２の影響されていないコアをモニタすることを更に含み、影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、影響されたコアに、第１の影響されていないコアからのレジスタデータをロードすること、及び、影響されたコアを再初期化することを含む。

一態様では、上述の又は以下の任意の例示的なコンピュータ可読記憶デバイスと組み合わせて、対応する複数のコアが、影響されたコア、第１の影響されていないコア、及び第２の影響されていないコア、及び第３の影響されていないコアを含む、４つ以上のアクティブなコアを含み、該動作は、状態差を検出したことに応じて、影響されたコアを停止すること、並びに、多数決モードで並列に作業を実行している、第１の影響されていないコア、第２の影響されていないコア、及び第３の影響されていないコアをモニタすることを更に含み、影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、影響されたコアに、第１の影響されていないコアからのレジスタデータをロードすること、及び、影響されたコアを再初期化することを含む。

一態様では、上述の又は以下の任意の例示的なコンピュータ可読記憶デバイスと組み合わせて、対応する複数のコアが、複数のデバッグトレースデータストリームをモニタするように構成されたスーパーバイザを有する、共有システムオンチップ上に含まれる。

一態様では、上述の又は以下の任意の例示的なコンピュータ可読記憶デバイスと組み合わせて、対応する複数のコアのうちの少なくとも１つのコアが、対応する複数のコアのうちの他のコアから分離した集積回路上に含まれる。

本開示の上述の特徴が詳細に理解されるように、上で簡単に要約したものよりも更に詳細な本開示の説明が、幾つかが添付の図面において例示されている例示的な態様を参照することによってなされ得る。

本開示の態様による、マルチコア制御システムを含むデバイスの一実施例としての人工衛星を示す。本開示の態様による、マルチコア制御システム用の動作線図を示す。本開示の態様による、マルチコア制御システム用の動作線図を示す。本開示の態様による、マルチコア制御システム用の動作線図を示す。本開示の態様による、コア同期のためのデバッグトレースストリームを使用する方法のフローチャートである。本開示の態様による、マルチコア制御システムなどとして使用され得る計算デバイスを示す。

本開示は、マルチコアプロセッサシステムにおける改善されたコア同期を提供する。本開示は、各処理コアにおけるデバッグトレースからモニタされる、各処理コア（一般的にコア）からのリアルタイム（又はリアルタイムに近い）情報を使用する。これらのデバッグトレースストリームは、しばしば、外部のデバッガーによるリビューのためのオフチップに転送されるが、本明細書では、コアが互いに同期しているかどうかを検出するために、１つのコアの出力を他のコア（オンチップであれオフチップであれ）の出力と比較するよう使用される。様々な実施形態では、コアが同期していないことが分かったときに、システムは、コアのリセットを実行するために、システムが安全環境又は状態にあるまで、低減された組の同期したコアを用いて動作を継続する（例えば、最初はｎ個のコアで動作し、次いで、ｎ－１個のコアで動作し、潜在的に冗長モードを調整する）。更に又は代替的に、ロックステップ状態から外れたコアは、ロックステップ状態にあるコアからの状態情報を使用して、他のコアとのロックステップ状態に戻される。したがって、本開示は、再起動されるコアの数を低減させ、非ロックステップ状態にあるコアがオンラインに戻される速度を高める。

図１は、本開示の態様による、マルチコア制御システム１３０を含む冗長的に動作しているシステム１００の一実施例としての人工衛星１１０を示している。マルチコア制御システム１３０は、計算又は作業の幾つかのインスタンスを互いに並列で実行するために、幾つかのプロセッサ又は処理コア（一般的にコア）を使用する。それによって、単一のコアの出力ではなくむしろ、アクティブなコアの間のコンセンサスを使用してシステム１００を制御する。複数のコアがロックステップ状態にないときに、例えば、出力向けの非全会一致値を生成しているときに、大多数出力とは異なる出力を生成した（１以上の）コアは、ロックステップ状態から外れている又は影響されたと言われ、影響されたコアがもはや他のコアと同期していないときに、異なる値を継続して生成し得る。マルチコア制御システム１３０は、影響されたコアが再起動イベントを介して他のコアとのロックステップ状態に戻るまで、影響されたコア及びそれによって生成された値を無効にし、ディスエーブルし、又はさもなければ無視する。再起動イベントは、１以上のコアをリセットすることを含み得る。或いは、影響されていないコアと同じ処理サイクルにおいて同じ入力を使用するために、１以上のコアに既知の良好なデータをロードし、影響されたコアを再初期化することを含んでよい。

本開示は、SEUに関する処理回復力を提供するために、マルチコア制御システム１３０を使用して、例えば、宇宙船、航空機、ｘ線デバイス、及び、宇宙、高高度、又はイオン化放射がプロセッサ内のビットの状態を変化させ得る他の環境において使用されることが予期される他のデバイスなどの、任意のシステム又はデバイスにおいて実施され得る。これらの効果はまた、地上の用途でも生じ、自律輸送体などの高信頼度用途に対処するために重要である。例えば、図示されている人工衛星１１０は、宇宙線１２０によって衝突されている。宇宙線１２０は、人工衛星１１０のコア内でSEUを引き起こすのに十分なエネルギーを運ぶ（例えば、論理出力Ａを論理出力Ｂに変化させる。逆もまた同様である）。

人工衛星１１０は、単一のコア制御システムではなくむしろ、マルチコア制御システム１３０を含むので、幾つかのコアが、人工衛星１１０を制御するためにタンデムで動作する。それによって、１つのコアに異常な結果を生成させるSEUは、人工衛星１１０において異常な動作をもたらさない。例えば、マルチコア制御システム１３０は、各々が並列で計算作業を実行するｎ個のコア（ここで、ｎ＞１）を含み得る。それによって、人工衛星１１０は、単に単一のプロセッサの出力ではなくむしろ、計算向けに一致済みの値を使用して動作する。したがって、宇宙線１２０が、マルチコア制御システム１３０内のSEUを引き起こすときに、マルチコア制御システム１３０は、SEUが生じたと特定し、影響されたコアを停止すること、低減されたコアの組で動作すること、影響されたコアを再起動すること、及びそれらの組み合わせを含む、適切な救済動作を行う。

マルチコア制御システム１３０は、図１の人工衛星１１０内の通信システム１４０、操作システム１５０、及びソーラーパネル管理システム１６０として図示されている、システム１００の様々なサブシステムを制御し得る。マルチコア制御システム１３０が、所与の時間においてどの作業の処理を行っているかに応じて、SEUによって影響された１以上のプロセッサをリセットするために、オフラインにすること（たとえ短くても）は、種々のやり方で様々なサブシステムに影響を与え得る。それが、今度は、システム１００の動作安全性に影響を与える。例えば、コアをリセットすることは、マルチコア制御システム１３０が通信システム１４０と共に通信を処理しているときに、人工衛星への又は人工衛星からの通信を妨害し得る。それは、マルチコア制御システム１３０がオフラインになっている間に、データの再送信（又は再送信のリクエスト）、データの忠実度の損失（例えば、送信間のギャップ）などを要求し得る。別の一実施例では、マルチコア制御システム１３０が、不適切に実行された操作、操作ウインドウを見失うこと、及び衝突の危険を高めること、などを行わないように、操作システム１５０を制御し、限られた燃料を消費しているときに、コアをリセットすることが、人工衛星１１０の配置及び移動を妨害し得る。したがって、マルチコア制御システム１３０は、デバイス向けの処理作業に対処するのに利用可能な１つ少ないコアを有する効果を低減させ、影響されたコアを再起動するために必要とされる休止時間を低減させ、それによって、システム１００の稼働時間を高めるために、影響されたコアに最善の対処をするようなやり方とタイミングとを決定する。

マルチコア制御システム１３０は、影響された／影響されていないコアの数、及びシステム１００が再起動するのに安全な時間にあるかどうかに応じて、様々な再起動イベントを実行し得る。したがって、種々のサブシステムは、再起動することと、低減された組のコアで処理を継続することとについての種々の優先度を有し得る。

例えば、人工衛星１１０の操作システム１５０は、高い優先度を有するサブシステムとして格付けされ得る。それによって、マルチコア制御システム１３０が、操作システム１５０向けの指示命令又は作業を取り扱っており、SEUに遭遇したときに、再起動イベントは、その作業が完了した後まで遅延される。対照的な一実施例では、人工衛星１１０のソーラーパネル管理システム１６０が、低い優先度を有するサブシステムとして格付けされ得る。それによって、マルチコア制御システム１３０が、ソーラーパネル管理システム１６０向けの指示命令又は作業を取り扱っており、SEUに遭遇したときに、再起動イベントは、その作業が完了する前に実行される。別の一実施例では、通信システム１４０が、送信されているデータに応じて高い優先度又は低い優先度に格付けされてよく、それによって、高い優先度の送信を取り扱っているときに再起動イベントを遅延させ、又は低い優先度の送信を取り扱っているときに再起動することを優先する。

幾つかの態様では、マルチコア制御システム１３０が、コアによって処理される指示命令内で示されているタグに基づいて、影響されたコアの再起動を実行するのに安全な時間を認識する。例えば、タグは、システム１００の動作を妨害することなしに、再起動イベントが後で実行され得るサブルーチン又は機能の終わり（例えば、作業における中断）を示し得る。別の一実施例では、タグが、次のことを示し得る。すなわち、所与のサブルーチン又は機能は、予め規定された時間ウインドウ内の次の動作を予期し、又は高い優先度のサブシステムからの中断を受けてよく、したがって、再起動は、システム１００の動作を潜在的に妨害することなしに、その最中に若しくはその後に実行され得ない。

図２Ａ～図２Ｃは、本開示の態様による、図１で説明されたものなどのマルチコア制御システム１３０用の動作線図を示している。図２Ａ～図２Ｃの各々では、複数のコア２１０ａ～ｎ（概して又は集合的にコア２１０）が、デバッグトレースデータストリーム２３０ａ～ｎ（概して又は集合的に、デバッグトレースデータ又はデバッグトレースデータストリーム２３０）によって、スーパーバイザ２２０に接続されている。今度は、所与のコア２１０が、オフラインにされるとき、リセットされるとき、再初期化されるとき、別の１つのコア２１０からのデータを再ロードされるとき、及びそれらの組み合わせのときに、それを伝える信号を送信するために、スーパーバイザ２２０が、関連付けられた再起動経路２４０ａ～ｎ（概して又は集合的に再起動経路２４０）を介して、コア２１０の各々に接続されている。幾つかの態様では、コア２１０が、様々な処理デバイスを表している。それらは、埋め込まれた縮小命令セットコア（RISK）コア又は外部のデバイスを含み得る。スーパーバイザ２２０は、SEUに対する回復力を有するように選択され、様々なコア２１０をモニタ及び制御するために、様々な放射線対応プロセッサ、ハードウェア規定された状態マシン、メンテナンスプロセッサなどを含み得る。

スーパーバイザ２２０は、様々なデバッグトレースストリーム２３０を介してコア２１０の各々と通信する。様々なデバッグトレースストリーム２３０は、指示命令トレース、データトレース、システムトレース、アドレス同期トレース（ASYNC）、指示命令同期トレース（ISYNC）、及びそれらの組み合わせを含み得る。ASYNC及びISYNCは、トレースデータストリームに個別に符号化されるパターン及びデータを含み、任意選択的に時間スタンプ（time stamp）データを含み得る。

スーパーバイザ２２０は、デバッグトレースデータストリーム２３０を介してコア２１０からのデータ出力を受け取り、関連付けられた再起動経路２４０（関連付けられたコア２１０の停止及び再起動を制御する）を介して、様々なコア２１０に命令を送る。様々な態様では、コア２１０及びスーパーバイザ２２０が、共有集積回路又はシステムオンチップ（SoC）上に位置付けられる。デバッグトレースデータストリーム２３０及び再起動経路２４０は、その集積回路上に規定された様々なトレースを含む。他の態様では、１以上のコア２１０が、他のコア２１０又はスーパーバイザ２２０とは異なる集積回路上に規定され、デバッグトレースデータストリーム２３０及び再起動経路２４０は、異なる集積回路の間の通信経路及びバスを含む。

様々な態様では、スーパーバイザ２２０が、任意選択的に、メモリ２５０を含む。その場合、接続されたコア２１０のステータスが、記憶され、アクティブなコア２１０の数が動作中に変化するときに、比較器２２５がどのように動作するかを管理するために使用される。幾つかの態様では、状態マシンの現在の状態を捕捉するために、メモリ２５０が、TMRレジスタ、フリップフロップ、又はラッチを含む。メモリ２５０はまた、小さいプロセッサのプログラム及びデータストレージとしても使用され得る。他の態様では、スーパーバイザ２２０によって使用されるメモリ２５０が、ロバストな誤り訂正符号化（ECC）（すなわち、ECCメモリ）を使用する。

スーパーバイザ２２０がモニタしているアクティブなコア２１０の数に応じて、スーパーバイザ２２０は、種々の比較モード向けの比較器２２５を構成する。

図２Ａは、比較向けの対応する入力をスーパーバイザ２２０に提供するアクティブなコア２１０ａ～ｎを有する複数のコア２１０を示している。スーパーバイザ２２０は、多数決モード比較向けの比較器２２５を構成する。それによって、デバッグトレースデータストリーム２３０を介してコア２１０からの値出力における不一致が生じたときに、スーパーバイザ２２０は、第１の群のコア２１０によって提供される第１の値を使用し、第２の値を提供する第２の群のコア２１０をディスエーブルする。その場合、第２の群は、第１の群よりも少ないメンバーを有する。例えば、スーパーバイザ２２０がｎ個のコア２１０をモニタし、時間ｔ_１において、ｘ個のコア２１０が出力Ａを戻し、ｙ個のコアが出力Ｂを戻す場合であって、ｘ＋ｙ＝ｎであり且つｘ＞ｙである場合、スーパーバイザ２２０は、システムを制御するために、出力Ａを値として使用し、時間ｔ_２から前へ出力Ｂを戻したｙ個のコア２１０が再起動されるまで、それらのコア２１０をディスエーブルするか又は無視する。様々な態様では、アクティブなコア２１０の数が、偶数であるときに、スーパーバイザ２２０は、等しい数のコア２１０が異なる値を戻すときに（すなわち、ｎ／２個が出力Ｂを戻し、ｎ／２個が出力Ａを戻す）、比較器２２５がコア２１０の全てを影響されたとマーキングするように、デッドロック取り扱いルーチン（deadlock handling routine）をイネーブルする。例えば、２つだけのコア２１０が並列して動作しており、不一致を検出し、両方のプロセッサをリセットし及び／又は並列して動作している別の一対に切り替える場合、この状態が生じ得る。

図２Ｂは、比較向けの入力をスーパーバイザ２２０に提供する３つのアクティブなコア２１０ａ～ｃを有する複数のコア２１０を示している。様々な態様では、スーパーバイザ２２０が、更なるコア２１０をディスエーブルした後で（例えば、ｎ個のコア２１０をモニタしており、最初にｎ＞３であり、現在ｎ＝３である）、３つのアクティブなコア２１０ａ～ｃをモニタする。３つのアクティブなコア２１０ａをモニタしているときに、スーパーバイザ２２０は、多数決モード比較向けの比較器２２５を構成する。それによって、デバッグトレースデータストリーム２３０を介してコア２１０からの値出力における不一致が生じたときに、スーパーバイザ２２０は、２つのコア２１０によって提供される第１の値を使用し、第２の値を提供する１つのコア２１０をディスエーブルする。例えば、スーパーバイザ２２０が３つのコア２１０ａ～ｃをモニタする場合、時間ｔ_１において、第１のコア２１０が出力Ａを戻し、第２のコア２１０ｂ及び第３のコア２１０ｃが両方とも出力Ｂを戻す場合、スーパーバイザ２２０は、システムを制御するために出力Ｂを値として使用し、時間ｔ_２から前へ第１のコア２１０ａが再起動されるまで、第１のコア２１０ａをディスエーブルし又は無視する。

図２Ｃは、比較向けの入力をスーパーバイザ２２０に提供する２つのアクティブなコア２１０ａ～ｂを有する複数のコア２１０を示している。様々な態様では、スーパーバイザ２２０が、第３のコア２１０ｃをディスエーブルした後で（例えば、ｎ個のコア２１０をモニタしており、最初にｎ≧３であり、現在ｎ＝２である）、２つのアクティブなコア２１０ａ～ｂをモニタする。２つのアクティブなコア２１０をモニタしているときに、スーパーバイザ２２０は、コンセンサスモード比較向けの比較器２２５を構成する。それによって、デバッグトレースデータストリーム２３０を介してコア２１０からの値出力における不一致が生じたときに、スーパーバイザ２２０は、両方のコア２１０がいずれも「正しい」出力を提供していると確認できないときに、両方の値を無視する。というのも、１つのコア２１０を用いて進むと、将来の計算のための冗長性を提供し得ないからである。したがって、スーパーバイザ２２０は、システムを制御するために作業を実行することを継続する前に、コア２１０ａ～ｂの間で状態差が検出されたときに、両方のコア２１０ａ～ｂが同時に再起動されるように信号を送信する。

図３は、本開示の態様による、コア同期のためのデバッグトレースストリームを使用する方法３００のフローチャートである。方法３００は、ブロック３１０で開始する。その場合、スーパーバイザ２２０が、冗長性のために並列して作業を実行する複数のコア２１０を含むシステム用の複数のデバッグトレースデータストリーム２３０をモニタする。スーパーバイザ２２０は、異なるコア２１０からのデバッグトレースストリームが、互いに一時的に協調することを確実にする。それによって、わずかな時間差で比較器２２５に到達するにもかかわらず、（公称では）等価な出力が互いに対して比較される。一実施例では、１つのコア２１０が、他のコア２１０からの出力論理値に適合する論理値を生成したときを特定するために、スーパーバイザ２２０が、関連付けられたコア２１０によって同じクロックサイクルで生成された論理値をモニタする。他の実施例では、コア２１０が、異なる集積回路で動作するか、又はさもなければ非同期的に出力を生成するときに、スーパーバイザ２２０は、互いに対する比較のために出力を協調させるためにそれらの出力を緩衝し（buffer）得る。別の一実施例では、デバッグトレースストリームが時間スタンプを含むときに、スーパーバイザ２２０が、同じ時間スタンプに関連付けられたデータ値が互いに対して比較されることを確実にする。

様々な態様では、スーパーバイザ２２０が、SEUによって影響されたと以前に特定されたコア２１０から報告された値、又はさもなければ他のコア２１０の出力に適合しない論理値を生成する値を、選択的に無効にし得るか又はさもなければ無視し得る。したがって、スーパーバイザ２２０は、互いに対して適合する出力を生成すると確認されたアクティブなコア２１０をモニタする。影響されたとマーキングされた任意のコア２１０は、再起動され他のコア２１０とのロックステップ状態に戻されるまで無視され得る。

ブロック３２０では、アクティブなコア２１０のうちのいずれかが、互いと異なる、同じクロックサイクル向けの値を生成しているかどうかを特定するために、スーパーバイザ２２０内の比較器２２５が、各デバッグトレースストリーム２３０で運ばれる値を比較する。１つのデバッグトレースストリーム２３０の他のデバッグトレースストリーム２３０に対する状態差を検出したことに応じて、方法３００は、ブロック３３０に進む。にもかかわらず、各デバッグトレースデータストリーム２３０の各々によって運ばれる状態値が等しいときに（すなわち、状態差が存在しない）、方法３００は、デバッグトレースデータストリーム２３０をモニタすることを継続するために、ブロック３１０に戻る。

ブロック３３０では、スーパーバイザが、他のコア２１０の出力に適合しない出力を生成したコア２１０を、システム１００がコア２１０の残りの部分との冗長な計算を提供するためにもはや信頼できない影響されたコア２１０としてマーキングする。様々な態様では、１以上のコア２１０が、再起動される前に、同じ時間に又は一定の期間を経て、影響されたコア２１０としてマーキングされてよい。例えば、２つのコア２１０がコンセンサスモードで動作しているときに、両方のコア２１０ａ～ｂの出力は、システムによって使用されるために適合しなければならず、第１のコア２１０ａが第２のコア２１０ｂとのロックステップ状態から外れていると標されているときに、第１のコア２１０ａと第２のコア２１０ｂとの両方は、影響されたコアとしてマーキングされる。同様に、５つのコア２１０があるときに、第１のコア２１０ａと第２のコア２１０ｂの出力が、他の３つのコア２１０の出力（互いに適合している）と適合しないときに、第１のコア２１０ａと第２のコア２１０ｂとの両方は、影響されたコアとしてマーキングされる。

別の一実施例では、ｎ個のコア２１０を動作させているときに、第１のコア２１０ａが、時間ｔ_１において影響されたコア２１０としてマーキングされてよく、第２のコア２１０ｂが、時間ｔ_２において影響されたコア２１０としてマーキングされてよい。時間ｔ_１とｔ_２との間で再起動イベントが生じたときに、第１のコア２１０ａは、もはや影響されたコア２１０としてマーキングされていないが、第２のコア２１０ｂは、影響されたコア２１０としてマーキングされている。さもなければ、再起動イベントが、時間ｔ_１と時間ｔ_２との間で生じなかった場合、第１のコア２１０ａと第２のコア２１０ｂの両方は、影響されたコア２１０としてマーキングされている。したがって、影響されたコア２１０の数は、再起動イベントが生じるまで経時的に増加し得る。

ブロック３４０では、スーパーバイザ２２０が、幾つの影響されていないコア２１０が複数のコア２１０内に残っているかを決定する。２つ未満のコア２１０が影響されていないままであるときに、方法３００は、ブロック３７０に進む。さもなければ、２つ以上のコア２１０が影響されていないままであるときに、方法３００は、ブロック３５０に進む。

ブロック３５０では、スーパーバイザ２２０が、任意の影響されたコア２１０を停止し、影響されていないコア２１０のデバッグトレースデータストリーム２３０をモニタすることを継続し（例えば、ブロック３１０で）、したがって、冗長な計算を提供するために利用可能なコア２１０の数を低減させるが、残っているコア２１０はロックステップ状態にあることを確実にする。

計算に冗長性を提供するために、複数のコア２１０内に残っている影響されていないコア２１０の数に応じて、スーパーバイザ２２０は、比較器２２５によって使用される冗長モードを変更し得る。例えば、複数のコア２１０が３つのアクティブなコア２１０から２つのアクティブなコア２１０に低減されるとき（例えば、第１のコア２１０ａが影響され、停止され、一方で、第２のコア２１０ｂと第３のコア２１０ｃが影響されず、処理を継続する）、スーパーバイザ２２０は、比較器２２５を多数決冗長モードからコンセンサス冗長モードに切り替える。別の一実施例では、複数のコア２１０が、４つ以上のアクティブなコア２１０から少なくとも３つのアクティブなコア２１０に低減されるとき（すなわち、ｎからｎ－１個のコア２１０に、ここで、ｎ≧４である）、スーパーバイザ２２０は、比較器２２５を多数決冗長モードに維持する。更に、アクティブなコア２１０の数が、冗長モードにおいて奇数から偶数へ又はその逆に変化するときに、スーパーバイザ２２０は、等しい数のコア２１０が第１の結果と第２の結果とを戻すときに（すなわち、ｎ／２が出力Ｂを戻し、ｎ／２が出力Ａを戻す）、コア２１０の全てを影響されたとしてマーキングするために、デッドロック取り扱いルーチンをイネーブル又はディスエーブルし得る。

ブロック３６０では、スーパーバイザ２２０が、システムが安全な再起動時間に到達したかどうかを判定する。様々な態様では、コア２１０によって制御されるシステム１００が、当該システム１００が、１以上のコア２１０を再起動する時間を確保するために、処理を一時的に中止しても安全な状態にあるときを示す安全プロファイルを提供し得る。例えば、人工衛星１１０（図１のような）は、人工衛星１１０が操作（例えば、軌道を調整するか又はデブリを回避するために）を実行していない又は地上のコントローラから命令を受け取っていないときに、再起動イベントが安全であることを示し得る。したがって、人工衛星１１０が、低減された組のコア２１０で（例えば、少なくとも１つの影響されたコア２１０が、ディスエーブルされ又は複数のコア２１０から除去された状態で）、処理を継続するオプションを有するときに、スーパーバイザ２２０は、人工衛星１１０が安全な再起動時間（安全なリセット時間とも称される）に到達するまで、影響されたコア２１０を再起動することを待つ。様々な態様では、安全な再起動時間が、コア２１０によって実行される処理においてタグによって示される。そのタグは、スーパーバイザ２２０内の安全なリセットビットを出力Ａ又は出力Ｂに設定する。それらは、システムが安全な再起動時間にあるかどうかを示す。

システム１００が、安全な再起動時間にないと判定したことに応じて、方法３００は、ブロック３５０に戻って、システム１００を低減された組のアクティブなコア２１０で動作させることを継続する。しかし、システム１００が安全な再起動時間に到達し又は安全な再起動時間にあると判定したことに応じて、方法３００は、ブロック３７０に進み、１以上のコア２１０を再起動する。

ブロック３７０では、スーパーバイザ２２０が、影響されたコア２１０を再起動する。様々な態様では、スーパーバイザ２２０が、影響されたコア２１０に加えて、影響されていないコア２１０をリセットする。それによって、全てのコア２１０を、新しく開始してロックステップ状態にすることができる（例えば、それぞれのレジスタをクリアにし、全てのコア２１０を同じ指示命令で開始する）。他の態様では、スーパーバイザ２２０が、影響されたコア２１０のレジスタに、影響されていないコア２１０のレジスタからのデータ（すなわち、「良好な」レジスタデータ）をロードし、影響されたコア２１０を再初期化して、影響されていないコア２１０とのロックステップ状態にする。

影響されたコア２１０を再起動するための別の１つのオプションは、コア２１０が個別の集積回路上にあるか又は個別のパワードメインにある場合、（１以上の）影響されたコア２１０をパワーサイクルすることである。パワーサイクル再起動は、次の場合に特に有用であり得る。すなわち、集積回路が、ラッチアップに対して脆弱であり、所与のコアの出力を上げ下げするパワーサイクルが、本格的な故障を生じる前にラッチアップを修正し得る場合である。ラッチアップ状態の検出は、次の場合に想定され得る。すなわち、デバイスが、そのような可能性に対応せず、或いは、トレースストリームの不一致が、そのデバイスの現在の測定値と併せて使用され得る場合である。代替的に、パワーサイクルリセットは、影響されたコアをリセットするか又は停止させることについてのシステム設計者選択事項であってよい。

影響されたコア２１０を再ロード及び再初期化することによって影響されたコア２１０を再起動することは、影響されていないコア２１０がアクティブであり続けることを可能にし、影響されたコア２１０を影響されていないコア２１０と一致するように戻す。一旦再起動されると、スーパーバイザ２２０は、影響されたコア２１０を影響されていないとしてマーキングし（例えば、影響されたステータスを除去する）、全てのコア２１０からのデバッグトレースデータストリーム２３０をモニタするように、比較器２２５を再構成する。様々な態様では、スーパーバイザ２２０が、コア２１０を比較するための冗長モードを、コンセンサスモード（例えば、２つのアクティブなコア２１０に対して）から、多数決モード（例えば、３つ以上のコア２１０に対して）にリセットする。

本明細書で使用されるように、コア２１０を停止することは、待機指示命令を介して、そのコア２１０に対する指示命令の実行を停止すること、ハードウェアブレイクポイント若しくはハードウェアトリガを介して、リセット、リセットのパワーオン、ソフトウェアリセットを適用すること、又はリセット状態にあるコア２１０を保持することを意味し得る。本明細書で使用されるときに、コア２１０を再起動することは、コアを復旧することによって停止状態を除去すること、リセットを無効にすること、コア２１０を停止状態に保持するハードウェア条件を除去すること、ソフトウェア待機をオーバーライドすること、又は停止指示命令をオーバーライドすることを意味し得る。本明細書で使用されるときに、コア２１０を再初期化することは、デバッグインフラを介してコア２１０のレジスタ及び／若しくは専用メモリを復旧すること、デバッグインフラを使用して、レジスタ及び／若しくはメモリが完全（ソフトエラー）であることを確認すること、又はコア２１０を既知の状態に復旧するために、ブートストラップソフトウェアを含むリセットプロセスを使用することを意味し得る。デバッグインフラは、コア２１０から外部のハードウェア、例えば、JTAG（ジョイントテストアクショングループ）又はメモリマッピングされたデータバスをデバッグ機構などへ、提供される任意の利用可能なハードウェア経路を含み得る。

スーパーバイザ２２０が、（１以上の）コア２１０を再起動した後で、方法３００は、今や復旧されて利用可能なコア２１０のフルセットを用いて、デバッグトレースデータストリーム２３０をモニタすることを継続するために、ブロック３１０に戻る。

図４は、本開示の態様による、マルチコア制御システム１３０などとして使用され得る計算デバイス４００を示している。計算デバイス４００は、複数のコア２１０ａ～ｎ、メモリ４２０、及び通信インターフェース４３０を含む、プロセッサ４１０を含む。様々な態様では、スーパーバイザ２２０が、プロセッサ４１０と共に又は個別の要素として含まれ得る。プロセッサ４１０及びメモリ４２０は、本明細書で説明される様々なデータの記憶及び検索を含む、それぞれの計算デバイス４００向けの様々なプログラム及び／又は動作を実行するために、計算機能を提供する。

プロセッサ４１０は、本明細書で説明される機能を実行することができる任意のコンピュータプロセッサであってよく、ユーザ又はセンサから受け取った入力、及び通信インターフェース４３０から受け取ったデータに基づいて、命令を実行する。

メモリ４２０は、概して、様々なプロセッサが実行可能な指示命令を含む、コンピュータ可読メモリ記憶デバイスである。それらの指示命令は、プロセッサ４１０によって実行されたときに、本明細書で説明されるように、潜在的なSEUに曝露されるシステム（例えば、人工衛星１１０、宇宙船、航空機など）の制御に関連する様々な機能を実行する。様々な態様では、メモリ４２０が、個々のプロセッサ４１０若しくはコア２１０に取り付けられてよく、又は幾つかのプロセッサ４１０若しくはコア２１０によって共有されるメモリサブシステムであってよい。プロセッサが実行可能な指示命令は、概して、メモリ４２０内の様々な「アプリケーション」若しくは「モジュール」の中へ記述若しくは組織化され得るが、代替的な実施態様は、異なる機能及び／又は機能の組み合わせを有してよい。メモリ４２０はまた、概して、様々なアプリケーション又はモジュールによって使用され又は出力される情報を記憶するデータ構造も含み得る。本開示では、メモリ４２０が、システム４２１、１以上のアプリケーション４２２用の少なくとも指示命令を含む。メモリ４２０は、様々な態様のパリティー又は誤り訂正符号などのような冗長性を含み得る。それによって、関連付けられたコア２１０によって排他的に使用される個々のメモリ４２０における不具合は、メモリデータが関連付けられたコア２１０によってアクセスされるイベントにおいて、本明細書で説明されるトレース比較を介して検出され得る。メモリ４２０は、１以上のメモリデバイス、例えば、ランダムアクセスメモリ（RAM）、リードオンリーメモリ（ROM）、フラッシュメモリ、磁気媒体、光学媒体、フレキシブルデータストレージ、又はプロセッサ４１０が実行し得る指示命令を含む任意の他の種類の揮発性若しくは不揮発性記憶媒体などであってよい。本明細書で使用されるときに、メモリ記憶デバイスは、装置を説明するものであって、非一過性の信号ではないと理解されたい。

通信インターフェース４３０は、計算デバイス４００を外部のデバイス、例えば、外部のメモリデバイス、外部の計算デバイス、電源、無線送信器などに接続し、様々な接続ポート（例えば、ユニバーサルシリアルバス（USB）、イーサネット、SpaceWire、同軸ジャック）及びケーブルを含み得る。通信インターフェース４３０を使用して、計算デバイス４００の間で送受信を行う。

本開示では、様々な態様に言及される。しかし、本開示は、特定の説明された態様に制限されないことを理解されたい。その代わりに、本明細書で提供される教示を実装し、実践するために、下記の特徴及び要素の任意の組み合わせが、種々の態様に関連しているか否かに関わらず想定される。更に、態様の要素が、「ＡとＢのうちの少なくとも１つ」の形態で説明されるときに、要素Ａのみ、要素Ｂのみ、及び要素Ａ及びＢを含む態様が、各々想定されることを理解されたい。更に、幾つかの態様は、他の潜在的な解決策及び／又は先行技術を超える利点を実現し得るが、特定の利点が所与の態様によって実現されるか否かは、本開示を限定していない。したがって、本明細書で開示される態様、特徴、及び利点は、単なる例示であり、且つ、（１以上の）請求項に明記されない限り、付随する特許請求の範囲の要素であるとも、付随する特許請求の範囲を限定するとも、見なされない。同様に、「本発明」への言及は、本明細書で開示されている発明のあらゆる主題を一般化するものと解釈すべきではなく、且つ、（１以上の）請求項に明記されない限り、付随する特許請求の範囲の要素であるとも、付随する特許請求の範囲を限定するとも、見なすべきではない。

当業者によって理解され得るように、本明細書で説明される態様は、システム、方法、及び／又はコンピュータプログラム製品として具現化され得る。諸態様は、専らハードウェアである態様、専らソフトウェア（ファームウェア、組み込まれたソフトウェア、常駐ソフトウェア、マイクロコードなどを含む）である態様、又はソフトウェアとハードウェアの態様を組み合わせた態様の形態を採り得る。本明細書では、それらは全て「回路」、「モジュール」、又は「システム」と広く称され得る。更に、本明細書で説明される態様は、コンピュータ可読プログラムコードが具現化される１以上のコンピュータ可読記憶媒体内で具現化されるコンピュータプログラム製品の形態を採り得る。

コンピュータ可読記憶媒体で具現化されたプログラムコードは、無線、有線、光ファイバケーブル、RFなど、又は、それらの任意の好適な組み合わせを含むがそれらに限定されない、任意の適切な媒体を使用して伝送され得る。

本開示の態様の工程を実行するためのコンピュータプログラムコードは、Java、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語もしくはこれに類するプログラミング言語などの従来の手続き型プログラミング言語を含む、１以上のプログラミング言語の任意の組み合わせで書かれていてよい。プログラムコードは、専らユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、独立型のソフトウェアパッケージとして、部分的にユーザのコンピュータ上で且つ部分的に遠隔コンピュータ上で、又は、専ら遠隔コンピュータ又はサーバ上で、実行し得る。後者の場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され得るか、又は、(例えば、インターネットサービスプロバイダを利用してインターネットを介して)外部のコンピュータへの接続がなされてもよい。

本開示の態様は、本開示の態様による、方法、装置（システム）、及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本明細書で説明される。フローチャート及び／又はブロック図の各ブロック、並びに、フローチャート及び／又はブロック図における複数のブロックの組み合わせは、コンピュータプログラム指示命令によって実行可能であると、理解されよう。これらのコンピュータプログラム指示命令は、機械を生産するために、汎用コンピュータ又は特殊用途コンピュータのプロセッサ、或いは他のプログラマブルデータ処理装置に提供されてよい。それによって、コンピュータのプロセッサ又は他のプログラマブルデータ処理装置を介して実行されるこれらの指示命令が、フローチャート及び／又はブロック図の（１以上の）ブロック内で特定される機能／作用を実施するための手段を創出する。

これらのコンピュータプログラム指示命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスが、特定の様態で機能するように指示し得る、コンピュータ可読媒体に記憶されることも可能である。それによって、コンピュータ可読媒体内に記憶された指示命令が、製造品を作製する。それらの指示命令は、フローチャート及び／又はブロック図の（１以上の）ブロック内で特定される機能／作用を実施する指示命令を含む。

コンピュータプログラム指示命令はまた、コンピュータに実装されたプロセスを生成するために、一連の動作ステップが、コンピュータ、他のプログラマブル装置、又は他のデバイスで実行されることをもたらすように、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされ得る。それによって、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスで実行される指示命令は、フローチャート及び／又はブロック図の（１以上の）ブロックで特定される機能／作用を実装するためのプロセスを提供する。

図におけるフローチャート及びブロック図は、本開示の様々な態様による、システム、方法、及びコンピュータプログラム製品の実現可能な実施態様の、アーキテクチャ、機能、及び動作を示している。そのため、フローチャート及びブロック図における各ブロックは、特定の（１以上）論理機能を実装するための１以上の実行可能な指示命令を含む、コードのモジュール、コードのセグメント、又はコードの一部分を表わし得る。幾つかの代替的な実施態様では、ブロック内に示された機能が、図面に記載された順序で行われなくともよい。例えば、実際には、関連する機能に応じて、連続して示されている２つのブロックが、実質的に同時に実行されてよく、又は、それらのブロックが逆に又は順序に関わらず実行されてもよい。ブロック図及び／又はフローチャートの各ブロック、並びに、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、特定の機能若しくは作用を実施する特殊用途のハードウェアベースのシステムによって、又は、特殊用途ハードウェアとコンピュータ命令との組み合わせによって、実装され得ることにも、留意されたい。

更に、本開示は以下の条項による実施形態を含む。
条項１．
対応する複数のコア（２１０）が作業を並列で実行することを含む、冗長的にシステムを動作させることのために、複数のデバッグトレースデータストリーム（２３０）をモニタすること（３１０）、
前記複数のデバッグトレースデータストリームのうちの１つのデバッグトレースデータストリームの、前記複数のデバッグトレースデータストリームのうちの他のデバッグトレースデータストリームに対する状態差を検出したこと（３２０）に応じて、
前記１つのデバッグトレースデータストリームに関連付けられた所与のコアを影響されたコアとしてマーキングすること（３３０）、及び
前記影響されたコアを再起動すること（３７０）を含む、方法。
条項２．
前記対応する複数のコアが、前記影響されたコア及び第２のコアを含む２つのアクティブなコアから構成され、
前記方法は、
前記状態差を検出したことに応じて、
前記第２のコアを第２の影響されたコアとしてマーキングすること、及び
前記第２のコアを前記影響されたコアと同時にリセットすることを更に含む、条項１に記載の方法。
条項３．
前記対応する複数のコアが、前記影響されたコア、第１の影響されていないコア、及び第２の影響されていないコアを含む、３つのアクティブなコアから構成され、
前記方法は、
前記状態差を検出したことに応じて、
前記影響されたコアを停止すること（３５０）、並びに
コンセンサス冗長モードで並列に前記作業を実行している、前記第１の影響されていないコア及び前記第２の影響されていないコアをモニタすることを更に含み。
前記影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、
前記影響されたコアに、前記第１の影響されていないコアからのレジスタデータをロードすること、及び
前記影響されたコアを再初期化することを含む、条項１に記載の方法。
条項４．
前記対応する複数のコアが、前記影響されたコア、第１の影響されていないコア、第２の影響されていないコア、及び第３の影響されていないコアを含む、４つ以上のアクティブなコアを含み、
前記方法は、
前記状態差を検出したことに応じて、
前記影響されたコアを停止すること（３５０）、並びに
多数決モードで並列に前記作業を実行している、前記第１の影響されていないコア、前記第２の影響されていないコア、及び前記第３の影響されていないコアをモニタすることを更に含み、
前記影響されたコアを再起動することが、安全な再起動時間を検出したこと（３６０）に応じて、
前記影響されたコアに、前記第１の影響されていないコアからのレジスタデータを再ロードすること、及び
前記影響されたコアを再初期化することを含む、条項１に記載の方法。
条項５．
前記対応する複数のコアが、スーパーバイザ（２２０）を有する共有システムオンチップ（SoC）上に含まれ、前記スーパーバイザは、
放射線対応プロセッサ、
ハードウェア規定された状態マシン、及び
メンテナンスプロセッサ、のうちの１つである、条項１に記載の方法。
条項６．
前記対応する複数のコアのうちの少なくとも１つのコアが、前記対応する複数のコアのうちの他のコアから分離した集積回路上に含まれる、条項１に記載の方法。
条項７．
対応する複数の作業のインスタンスを並列で実行するように構成された複数のコア（２１０）、並びに
スーパーバイザ（２２０）を備える、システム（１００）であって、前記スーパーバイザは、
前記複数のコアからデバッグトレースデータストリーム（２３０）を受け取ること、及び
前記複数のコアのうちの影響されたコアに関連付けられたデバッグトレースデータストリームと前記複数のコアのうちの他のコアに関連付けられたデバッグトレースデータストリームとの間の状態差に基づいて、前記複数のコアのうちの前記影響されたコアを特定すること、を実行するように構成されている、システム。
条項８．
前記複数のコア及び前記スーパーバイザが、単一の集積回路上に配置されている、条項７に記載のシステム。
条項９．
前記スーパーバイザが、第１の集積回路上に配置され、前記複数のコアのうちの少なくとも１つのコアが、第２の集積回路上に配置されている、条項７に記載のシステム。
条項１０．
前記スーパーバイザは、
安全な再起動時間まで、前記作業を実行している前記複数のコアから前記影響されたコアを除去すること、及び
前記安全な再起動時間に到達したことに応じて、前記影響されたコアを再起動すること、を実行するように更に構成されている、条項７に記載のシステム。
条項１１．
前記影響されたコアを除去した後で、前記複数のコアが少なくとも２つのコアを含むときに、前記スーパーバイザは、
前記影響されたコアに関連付けられた影響されたレジスタに、前記少なくとも２つのコアのうちの１つの影響されていないコアに関連付けられた影響されていないレジスタからのデータを再ロードすること、
前記影響されたコアを再初期化すること、及び
前記影響されたコアを前記複数のコアに戻すこと、を実行するように更に構成されている、条項１０に記載のシステム。
条項１２．
前記安全な再起動時間が、前記システムによって制御されるデバイスの安全プロファイルに基づいて決定される、条項１０に記載のシステム。
条項１３．
前記複数のコアが２つのコアから構成されるときに、前記スーパーバイザは、
第２のコアを前記影響されたコアと同時にリセットすることを実行するように更に構成されている、条項１０に記載のシステム。
条項１４．
前記デバッグトレースデータストリームは、
指示命令トレース、
データトレース、及び
システムトレース、のうちの少なくとも１つを介して受け取られる、条項７に記載のシステム。
条項１５．
指示命令を含むコンピュータ可読記憶デバイスであって、前記指示命令は、プロセッサによって実行されたときに、
対応する複数のコア（２１０）が作業を並列で実行することを含む、冗長的にシステムを動作させることのために、複数のデバッグトレースデータストリーム（２３０）をモニタすること、
前記複数のデバッグトレースデータストリームのうちの１つのデバッグトレースデータストリームの、前記複数のデバッグトレースデータストリームのうちの他のデバッグトレースデータストリームに対する状態差を検出したことに応じて、
前記１つのデバッグトレースデータストリームに関連付けられたコアを影響されたコアとしてマーキングすること、及び
前記影響されたコアを再起動することを含む、動作を実行する、コンピュータ可読記憶デバイス。
条項１６．
前記対応する複数のコアが、前記影響されたコア及び第２のコアを含む２つのアクティブなコアから構成され、
前記動作は、
前記状態差を検出したことに応じて、
前記第２のコアを第２の影響されたコアとしてマーキングすること、及び
前記第２のコアを前記影響されたコアと同時にリセットすることを更に含む、条項１５に記載のコンピュータ可読記憶デバイス。
条項１７．
前記対応する複数のコアが、前記影響されたコア、第１の影響されていないコア、及び第２の影響されていないコアを含む、３つのアクティブなコアから構成され、
前記動作は、
前記状態差を検出したことに応じて、
前記影響されたコアを停止すること、並びに
コンセンサス冗長モードで並列に前記作業を実行している、前記第１の影響されていないコア及び前記第２の影響されていないコアをモニタすることを更に含み、
前記影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、
前記影響されたコアに、前記第１の影響されていないコアからのレジスタデータをロードすること、及び
前記影響されたコアを再初期化することを含む、条項１５に記載のコンピュータ可読記憶デバイス。
条項１８．
前記対応する複数のコアが、前記影響されたコア、第１の影響されていないコア、第２の影響されていないコア、及び第３の影響されていないコアを含む、４つ以上のアクティブなコアを含み、
前記動作は、
前記状態差を検出したことに応じて、
前記影響されたコアを停止すること、並びに
多数決モードで並列に前記作業を実行している、前記第１の影響されていないコア、前記第２の影響されていないコア、及び前記第３の影響されていないコアをモニタすることを更に含み、
前記影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、
前記影響されたコアに、前記第１の影響されていないコアからのレジスタデータをロードすること、及び
前記影響されたコアを再初期化することを含む、条項１５に記載のコンピュータ可読記憶デバイス。
条項１９．
前記対応する複数のコアが、前記複数のデバッグトレースデータストリームをモニタするように構成されたスーパーバイザ（２２０）を有する、共有システムオンチップ（SoC）上に含まれる、条項１５に記載のコンピュータ可読記憶デバイス。
条項２０．
前記対応する複数のコアのうちの少なくとも１つのコアが、前記対応する複数のコアのうちの他のコアから分離した集積回路上に含まれる、条項１５に記載のコンピュータ可読記憶デバイス。
条項２１．
本明細書で説明された任意の態様。

以上の説明は本開示の態様を対象としているが、本開示の基本的な範囲を逸脱しなければ、本開示の他の態様及び更なる態様が考案されてよく、本開示の範囲は以下の特許請求の範囲によって定められる。

Claims

対応する複数のコア（２１０）が作業を並列で実行することを含む、冗長的にシステムを動作させることのために、複数のデバッグトレースデータストリーム（２３０）をモニタすること（３１０）、
前記複数のデバッグトレースデータストリームのうちの１つのデバッグトレースデータストリームの、前記複数のデバッグトレースデータストリームのうちの他のデバッグトレースデータストリームに対する状態差を検出したこと（３２０）に応じて、
前記１つのデバッグトレースデータストリームに関連付けられた所与のコアを影響されたコアとしてマーキングすること（３３０）、及び
前記影響されたコアを再起動すること（３７０）を含む、方法。
前記対応する複数のコアが、前記影響されたコア及び第２のコアを含む２つのアクティブなコアから構成され、
前記方法は、
前記状態差を検出したことに応じて、
前記第２のコアを第２の影響されたコアとしてマーキングすること、及び
前記第２のコアを前記影響されたコアと同時にリセットすることを更に含む、請求項１に記載の方法。
前記対応する複数のコアが、前記影響されたコア、第１の影響されていないコア、及び第２の影響されていないコアを含む、３つのアクティブなコアから構成され、
前記方法は、
前記状態差を検出したことに応じて、
前記影響されたコアを停止すること（３５０）、並びに
コンセンサス冗長モードで並列に前記作業を実行している、前記第１の影響されていないコア及び前記第２の影響されていないコアをモニタすることを更に含み。
前記影響されたコアを再起動することが、安全な再起動時間を検出したことに応じて、
前記影響されたコアに、前記第１の影響されていないコアからのレジスタデータをロードすること、及び
前記影響されたコアを再初期化することを含む、請求項１又は２に記載の方法。
前記対応する複数のコアが、前記影響されたコア、第１の影響されていないコア、第２の影響されていないコア、及び第３の影響されていないコアを含む、４つ以上のアクティブなコアを含み、
前記方法は、
前記状態差を検出したことに応じて、
前記影響されたコアを停止すること（３５０）、並びに
多数決モードで並列に前記作業を実行している、前記第１の影響されていないコア、前記第２の影響されていないコア、及び前記第３の影響されていないコアをモニタすることを更に含み、
前記影響されたコアを再起動することが、安全な再起動時間を検出したこと（３６０）に応じて、
前記影響されたコアに、前記第１の影響されていないコアからのレジスタデータを再ロードすること、及び
前記影響されたコアを再初期化することを含む、請求項１から３のいずれか一項に記載の方法。
前記対応する複数のコアが、スーパーバイザ（２２０）を有する共有システムオンチップ（SoC）上に含まれ、前記スーパーバイザは、
放射線対応プロセッサ、
ハードウェア規定された状態マシン、及び
メンテナンスプロセッサ、のうちの１つである、請求項１から４のいずれか一項に記載の方法。
対応する複数の作業のインスタンスを並列で実行するように構成された複数のコア（２１０）、並びに
スーパーバイザ（２２０）を備える、システム（１００）であって、前記スーパーバイザは、
前記複数のコアからデバッグトレースデータストリーム（２３０）を受け取ること、及び
前記複数のコアのうちの影響されたコアに関連付けられたデバッグトレースデータストリームと前記複数のコアのうちの他のコアに関連付けられたデバッグトレースデータストリームとの間の状態差に基づいて、前記複数のコアのうちの前記影響されたコアを特定すること、を実行するように構成されている、システム。
前記複数のコア及び前記スーパーバイザが、単一の集積回路上に配置されている、請求項６に記載のシステム。
前記スーパーバイザが、第１の集積回路上に配置され、前記複数のコアのうちの少なくとも１つのコアが、第２の集積回路上に配置されている、請求項６又は７に記載のシステム。
前記スーパーバイザは、
安全な再起動時間まで、前記作業を実行している前記複数のコアから前記影響されたコアを除去すること、及び
前記安全な再起動時間に到達したことに応じて、前記影響されたコアを再起動すること、を実行するように更に構成されている、請求項６から８のいずれか一項に記載のシステム。
前記デバッグトレースデータストリームは、
指示命令トレース、
データトレース、及び
システムトレース、のうちの少なくとも１つを介して受け取られる、請求項６から９のいずれか一項に記載のシステム。