JP5277961B2 - 情報処理装置及びその故障隠蔽方法 - Google Patents

情報処理装置及びその故障隠蔽方法 Download PDF

Info

Publication number
JP5277961B2
JP5277961B2 JP2008538601A JP2008538601A JP5277961B2 JP 5277961 B2 JP5277961 B2 JP 5277961B2 JP 2008538601 A JP2008538601 A JP 2008538601A JP 2008538601 A JP2008538601 A JP 2008538601A JP 5277961 B2 JP5277961 B2 JP 5277961B2
Authority
JP
Japan
Prior art keywords
failure
execution environment
cpu
arithmetic
arithmetic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008538601A
Other languages
English (en)
Other versions
JPWO2008044423A1 (ja
Inventor
浩明 井上
将通 高木
正之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008538601A priority Critical patent/JP5277961B2/ja
Publication of JPWO2008044423A1 publication Critical patent/JPWO2008044423A1/ja
Application granted granted Critical
Publication of JP5277961B2 publication Critical patent/JP5277961B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware

Description

本発明はプロセッサで発生した故障をシステムソフトウェアから隠蔽する情報処理装置及びその故障隠蔽方法に関する。
半導体集積回路装置は、その微細化の進展に伴って新たな故障モードに対するテスト技術や高集積度に対応した高速なテスト技術によって信頼性を保持してきた。しかしながら、近年はテストのコストが増大していることから、テスト技術の向上だけでなく、半導体集積回路装置を含むシステム側の工夫によってその信頼性を向上させることが望まれている。
図1は第1関連技術の故障隠蔽化方法を模式的に示すブロック図である。
第1関連技術の故障隠蔽化方法は、故障が発生したチップを交換することで故障を隠蔽する例である。
図1に示す情報処理装置は、複数のCPU10P1−Pn(nは正数)を備え、該CPU10P1−PnがOS20P1−Pn及び所望のアプリケーション(AP)40P1−Pm(mは正数)の実行環境30P1−Pnで動作する構成である。実行環境とは、アプリケーション40P1−Pmを実行するめに必要なOSとは異なるソフトウェア(プログラム)を指す。
第1関連技術の故障隠蔽化方法では、例えばCPU10P2で故障が発生したことが検出されると、CPU10P2を正常なCPU10010に交換し、該CPU10010によりOS20P2及び実行環境30P2下でアプリケーション40P3を実行することで、CPU10P2で発生した故障をシステムソフトウェアから隠蔽する。
図2は第2関連技術の故障隠蔽化方法を模式的に示すブロック図である。
第2関連技術の故障隠蔽化方法は、対称型マルチプロセッシング(SMP:Symmetric Multiprocessing)を実現するOS(SMP OSと呼ばれる)により故障を隠蔽する例である。
図2に示す情報処理装置は、複数のCPU10P1−Pnを備え、該CPU10P1−PnがSMP OS10020及び所望のアプリケーション40P1−Pmの実行環境10030で動作する構成である。
第2関連技術の故障隠蔽化方法では、例えばCPU10P2で故障が発生したことが検出されると、SMP OS10020の処理によりCPU10P2の実行キューをマスキングすることで、故障を検出したCPUによるアプリケーションの実行を防止する。
図3は第3関連技術の故障隠蔽化方法を模式的に示すブロック図である。
図3に示す情報処理装置は、複数のプロセッシングエレメント(図3ではプロセッシングエレメント#0、#1のみ表示)と、プロセッシングエレメント#0、#1をシステムから切り離すノードスイッチ20000A、20000Bとを有する構成である。プロセッシングエレメント#0、#1は、処理を実行するためのプログラムが格納されるメモリと、プログラムとそれを実行するプロセッシングエレメントの対応関係を保持する論理・物理ID変換テーブルとを備えている。図3に示す構成としては、例えば特開平2−123455号公報に記載されたマルチプロセッサシステムがある。
第3関連技術の故障隠蔽化方法では、例えばプロセッシングエレメント#1で故障が発生すると、該プロセッシングエレメント#1で実行していたプログラムがプロセッシングエレメント#0に転送され、ノードスイッチ20000Bによりプロセッシングエレメント#1がシステムから切り離される。
そして、全てのプロセッシングエレメントが備える論理・物理ID変換テーブルに、プロセッシングエレメント#1(論理ID)用のプログラムがプロセッシングエレメント#0(物理ID)で実行されることが登録される。その後、各プロセッシングエレメントは、プロセッシングエレメント#1へデータを送信する場合、論理・物理ID変換テーブル20030を参照して該データをプロセッシングエレメント#0へ転送する。
しかしながら上述した故障隠蔽方法のうち、第1関連技術の故障隠蔽方法は、故障の隠蔽に人の操作を必要とするため、隠蔽操作時にシステムの動作を停止する必要がある。また、半導体集積回路装置内に複数のCPUが組み込まれた構成の場合、故障していないCPUを含むチップ全体を交換する必要がある。
一方、第2関連技術の故障隠蔽化方法は、SMP OSによって全てのCPUが動作する構成であるため、複数のOSが動作するシステムに適用できない。
また、第3関連技術の故障隠蔽化方法は、各CPU(プロセッシングエレメント)がそれぞれ独立した資源を備えているため、タイマ、CPU ID、割り込み処理等を実現するハードウェアやソフトウェアから成る共有資源(共有周辺装置)を備えているシステムには適用できない。さらに、第3関連技術の故障隠蔽化方法では、各CPUにキャッシュメモリを備えている場合、そのキャッシュメモリで一時的に保持されたデータが失われる可能性がある。
したがって、複数のCPUと共有資源とを有する情報処理装置に上述した関連技術の故障隠蔽方法を適用しても、いずれかのCPUで故障が発生すると、そのチップを交換しない限り複数のOSを継続して動作させることが不可能であった。
そこで、本発明は、複数のCPUと共有資源を有する情報処理装置において、チップを交換することなく、故障が発生した場合でも複数のOSを継続して動作させることができる情報処理装置及びその故障隠蔽方法を提供することを目的とする。
上記目的を達成するため本発明では、OS及び実行環境が動作する複数の演算装置と複数の演算装置で共有される共有周辺装置とを有する情報処理装置に、演算装置で発生した故障を隠蔽する故障隠蔽装置を備える。故障隠蔽装置は、故障が発生した演算装置に代わって動作する代替演算装置を決定し、故障が発生した演算装置で動作していたOS及び実行環境と、代替演算装置となる演算装置で元々動作しているOS及び実行環境とを、代替演算装置で時分割に実行し、代替演算装置で動作するOS及び実行環境に対応して代替演算装置で動作するOS及び実行環境が参照する共有周辺装置の設定値を時分割に変更する。
図1は第1関連技術の故障隠蔽化方法を模式的に示すブロック図である。 図2は第2関連技術の故障隠蔽化方法を模式的に示したブロック図である。 図3は第3関連技術の故障隠蔽化方法を模式的に示したブロック図である。 図4は本発明の故障隠蔽方法を模式的に示すブロック図である。 図5は本発明の情報処理装置の一構成例を示すブロック図である。 図6は図5に示したROM及びRAMの一構成例を示す模式図である。 図7は図5に示した割込み制御装置の一構成例を示すブロック図である。 図8は図7に示した割込み制御装置による故障隠蔽処理を模式的に示すブロック図である。 図9は図5に示したタイマ装置の一構成例を示すブロック図である。 図10は図9に示したタイマ装置による故障隠蔽処理を模式的に示すブロック図である。 図11は図5に示したCPU ID装置の一構成例を示すブロック図である。 図12は図11に示したCPU ID装置による故障隠蔽処理を模式的に示すブロック図である。 図13は図5に示したキャッシュメモリによる故障隠蔽処理を模式的に示すブロック図である。 図14は図5に示したキャッシュメモリによる故障隠蔽処理の他の例を模式的に示すブロック図である。 図15は図5に示した情報処理装置による故障隠蔽処理を模式的に示すブロック図である。 図16は図5に示した情報処理装置によるOS及び実行環境の切替手順を模式的に示すブロック図である。 図17は故障隠蔽処理後におけるOS及び実行環境の実行例を模式的に示すブロック図である。 図18は本発明の故障隠蔽方法によるOS及び実行環境の実行例の時間推移を模式的に示すブロック図である。 図19は本発明の故障隠蔽方法によるOS及び実行環境の実行例の時間推移を模式的に示すブロック図である。 図20は図5に示した故障隠蔽装置の一構成例を示すブロック図である。 図21は図20に示した故障隠蔽装置による故障隠蔽処理を模式的に示すブロック図である。 図22は図20に示した故障隠蔽装置による故障隠蔽処理の他の例を模式的に示すブロック図である。 図23は図5に示した故障隠蔽装置をプログラムで実現する場合の構成例を示すブロック図である。 図24は図5に示した故障隠蔽装置をプログラムで実現する場合の他の構成例を示すブロック図である。
次に本発明について図面を参照して説明する。
図4は本発明の故障隠蔽方法を模式的に示すブロック図である。
図4に示すように、本発明の故障隠蔽方法は、情報処理装置に、CPU(演算装置)10P1−Pnと故障隠蔽装置1000とを備え、故障隠蔽装置1000によりCPU10P1−Pnのいずれかで発生した故障をシステムソフトウェアから隠蔽する方法である。CPU10P1−Pnは、関連技術の情報処理装置と同様にOS20P1−Pn及び所望のアプリケーション40P1−Pmの実行環境30P1−Pnで動作する。
故障隠蔽装置1000は、CPU10P1−Pnのいずれかで故障が発生すると、該故障が発生したCPUに代わって該CPUで動作していたOS及び実行環境で動作する代替用のCPU(代替演算装置)を決定し、故障が発生したCPUで動作していたOS及び実行環境を代替用のCPUによる動作へ切り替える。また、故障隠蔽装置1000は、故障が発生した演算装置で使用している共有資源を代替用のCPUで使用できるようにする。
図4ではCPU10P1−PnとOS20P1−Pnとが1対1で対応している例を示しているが、CPUとOSとは1対1で対応している必要はなく、例えば複数のCPU10P1−PnがSMP OSで動作する構成であってもよい。また、各CPU10P1−Pnで動作するOSは、同一であってもよく、異なっていてもよい。また、CPU10P1−Pnは、プログラム(OSやアプリケーション)にしたがって動作する構成であれば、VLIW(Very Long Instruction Word)タイプ、スレッドタイプ、SIMD(Single Instruction/Multiple Data)タイプ、DSP(Digital Signal Processor)等、どのような種類であってもよい。さらに、図4に示すCPU10P1−Pnは、それぞれが個別のパッケージで構成される必要はなく、例えばSoC(System−on-Chip)に組み込まれた構成、個別のチップとしてSiP(System-in-Package)に組み込まれた構成、あるいは個別のパッケージとSoCやSiPとを組み合わせた構成であってもよい。故障隠蔽装置1000は、論理回路やメモリ等から成るハードウェア、あるいはCPU等がプログラムにしたがって所定の処理を実行することで、その機能を実現できる。
図5は本発明の情報処理装置の一構成例を示すブロック図である。
図5は、情報処理装置の例として、携帯端末装置の機能を実現するプラットフォームの構成例を示している。情報処理装置が携帯端末装置でない場合、図5に示す構成要素のうち、その装置で不要な構成要素は無くてもよい。
図5を示すように、情報処理装置は、複数のCPU10P1−Pn、キャッシュメモリ70P1−Pn、アクセラレータ50、ROM51、RAM52、入出力装置インタフェース(I/O)53、割込み制御装置54、タイマ装置55及びCPU ID装置56を備え、それらがシステムバス60によって接続された構成である。
CPU10P1−Pn、キャッシュメモリ70P1−Pn、アクセラレータ50、ROM51、RAM52、入出力装置インタフェース53、割込み制御装置54、タイマ55、CPU ID装置56は、それぞれが個別のパッケージで構成されている必要はなく、例えばSoCに組み込まれた構成、個別のチップとしてSiPに組み込まれた構成、あるいは個別のパッケージとSoCやSiPとを組み合わせた構成であってもよい。
ROM51及びRAM52は、情報処理装置が備える機能に応じてCPU10P1−Pnで共通に使用される。ROM51及びRAM52は、どのような構成でもよく、コストの問題が発生しなければマルチチップ構成やマルチバンク構成であってもよい。
図6は図5に示したROM及びRAMの一構成例を示す模式図である。
図6に示すように、ROM51は、始点アドレスを0x00000000とし、終点アドレスを0x01FFFFFFとする、例えば4つの実行環境向け領域(8MB)から成る32MBの記憶領域を備えている。
RAM52は、始点アドレスを0x30000000とし、終点アドレスを0x33FFFFFFとする、例えば4つの実行環境向け領域(16MB)から成る64MBの記憶領域を備えている。
実行環境3で利用するRAM領域は、例えば0x32000000から0x33FFFFFFまでの16MBであり、ROM領域は0x01000000から0x01FFFFFFまでの8MBである。
ROM51及びRAM52に割り当てる最大メモリ容量や配置アドレス、実行環境向け領域に割り当てる最大メモリ容量や配置アドレスは上記値に限定されるものではなく、情報処理装置の仕様や機能に応じて最適な値に設定することは言うまでもない。
図7は図5に示した割込み制御装置の一構成例を示すブロック図である。
図7に示すように、割込み制御装置54は、割込み信号群が入力される、割込み発生要因を保持する割込み保持部54Aと、割込み信号の送信先のCPUを決定する割込み配送部54Bと、割込み信号をCPUに実際に通知するか否かを決定する割込みマスク部54P1−Pnとを備えている。
割込み保持部54A、割込み配送部54B及び割込みマスク部54P1−Pnは、システムバス60と接続され、CPU10P1−Pnによりそれぞれ設定変更可能である。
これら割込み保持部54A、割込み配送部54B及び割込みマスク部54P1−Pnは、割込み保持、割込み配送、割込みマスクの機能が実現できれば、図7に示した構成に限定されるものではなく、どのような構成であってもよい。
図8は図7に示した割込み制御装置による故障隠蔽処理を模式的に示すブロック図である。図8に示すS1〜S4は割込み制御装置による故障隠蔽処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及び実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例にして説明する。
CPU10P2で故障が発生した場合、CPU10Pnは、まず割込みマスク部54P2によりCPU10P2宛に発行される全ての割込み信号をマスクする(ステップS1)。
次に、CPU10Pnは、割込み保持部54Aで保持しているCPU10P2宛の割込み信号の発生要因をクリアする(ステップS2)。
続いて、CPU10Pnは、CPU10P2宛の割込み信号がCPU10Pnに配送されるように割込み配送部54Bの設定を変更する(ステップS3)。
最後に、CPU10Pnは、CPU10P2宛の割込み信号がCPU10Pnに配送されるように割り込みマスク部54Pnによるマスクを外す(ステップS4)。
図9は図5に示したタイマ装置の一構成例を示すブロック図である。
図9に示すように、タイマ装置55は、システムバス60に接続された複数のタイマカウント部55P1−Pnを備えた構成である。
タイマカウント部55P1−Pnは、所定の一定間隔毎に割込み信号を送出する。タイマカウント部55P1−Pnは、例えばCPUによってタイマ値が設定されると、該タイマ値をカウントダウンし、その値が0になった時点で割込み信号を送出する。
タイマカウント部55P1−Pnは、CPUP1−Pnがそれぞれ利用するものとして用意されている。タイマカウント部55P1−Pnは複数のCPUP1−Pnで共有することも可能である。タイマカウント部55P1−Pnを複数のCPUP1−Pnで共有する場合、タイマカウント部の数を減らすことができる。
図10は図9に示したタイマ装置による故障隠蔽処理を模式的に示すブロック図である。図10に示すS11〜S12はタイマ装置による故障隠蔽処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及び実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例にして説明する。CPU10PnはOS20Pn及び実行環境30Pnを実行しているものとする。その場合、CPU10Pnは、元々実行しているOS20Pn及び実行環境30PnとCPU10P2から移行したOS20P2及び実行環境30P2とを時分割で実行することになる。また、CPU10Pnは、タイマカウント部55Pnを利用して所定の時間毎にOS20Pn及び実行環境30PnとOS20P2及び実行環境30P2とをそれぞれ実行する。
CPU10P2で故障が発生した場合、CPU10Pnは、まずタイマカウント部55P2の動作を停止する(ステップS11)。
次に、CPU10Pnは、OS20P2及び実行環境30P2を実行する前にタイマカウント部55Pnに対してタイマカウント部55P2と同一のタイマ値を設定する(ステップS12)。
CPU10Pnは、OS20P2及び実行環境30P2を実行して所定の時間が経過すると、タイマカウント部55Pnのタイマ値を、次に実行するOS及び実行環境(例えばOS20Pn及び実行環境30Pn)に対応して変更する(ステップS13)。
図11は図5に示したCPU ID装置の一構成例を示すブロック図である。
図11に示すように、CPU ID装置56は、システムバス60に接続された複数のCPU ID部56P1−Pnを備えた構成である。
本発明の情報処理装置が備えるCPU ID部56P1−Pnは、各CPUのCPU IDを提供すると共に、システムソフトウェアによってCPU IDを変更できるものとする。
一般のシステムが備えるCPU ID装置は、予め設定された固定値しか読み出せない場合が多い。そのようなシステムでは、例えば(1)システムソフトウェアでCPU ID用の変数をメモリ上で直接変更する、(2)システムソフトウェアをCPU ID部に依存しないものにしておく、(3)CPU IDを参照するための命令によって命令トラップが発生するようにしておき、故障隠蔽装置1000によってエミュレーションする、等の処理を行うことでも本発明と同様の処理を行うことが可能である。図11は、そのようなCPU IDの読み出し処理全般を模式的に示したものである。
図12は図11に示したCPU ID装置による故障隠蔽処理を模式的に示すブロック図である。図12に示すS21〜S22はCPU ID装置56による故障隠蔽処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及びその実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例に説明する。CPU10PnはOS20Pn及び実行環境30Pnを実行しているものとする。その場合、CPU10Pnは、元々実行しているOS20Pn及び実行環境30PnとCPU10P2から移行したOS20P2及び実行環境30P2とを時分割で実行することになる。
CPU10P2で故障が発生した場合、CPU10Pnは、まずCPU10P2のOS20P2及び実行環境30P2を実行する前に、CPU ID部56Pnの値をCPU ID部56P2で保持している値(CPU ID)に設定する(ステップS21)。
次に、CPU10Pnは、OS20P2及び実行環境30P2を実行し、所定の時間が経過すると、CPU ID部56Pnの値を次に実行するOS及び実行環境(例えばOS20Pn及び実行環境30Pn)に対応して変更する(ステップS22)。
図13は図5に示したキャッシュメモリによる故障隠蔽処理を模式的に示すブロック図である。図13に示すS31〜S33はキャッシュメモリによる故障隠蔽処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及びその実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例に説明する。
CPU10P2で故障が発生した場合、CPU10Pnは、まずキャッシュフラッシュ(保持しているデータの出力)を指示するCPU間割り込み信号をCPU10P2へ送出する(ステップS31)。
CPU10P2は、受け取ったCPU間割り込み信号の割込み発生要因から自CPUのキャッシュメモリ70P2のフラッシュ要求であることを認知すると、キャッシュメモリ70P2で保持しているデータをメインメモリ(例えばRAM52)へ退避させる(ステップS32)。データをメインメモリに退避させるとは、該データをメインメモリで一時的に保持しておく処理を指す。
CPU10P2は、キャッシュフラッシュが完了すると、CPU10Pnにキャッシュフラッシュの完了を通知するためのCPU間割り込み信号を送出する(ステップS33)。CPUどうしで情報を通知できればCPU間割込み信号の代わりにどのような信号を用いてもよい。
図14は図5に示したキャッシュメモリによる故障隠蔽処理の他の例を模式的に示すブロック図である。図14に示すS41はCPUの故障隠蔽処理の工程番号を表している。
図14に示す故障隠蔽処理は、図13に示した例と異なりCPU10P2で修復不能な故障が発生し、図13に示したようにCPU10P2による処理が実行できない場合に適用する例である。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及びその実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例に説明する。図5に示したキャッシュメモリ70P1〜70Pnは、CPU10P1〜10Pnによってキャッシュフラッシュが制御できるものとする。
このような場合、CPU10Pnは、CPU10P2で故障が発生すると、システムバス60を経由してキャッシュメモリ70P2で保持しているデータをメインメモリ(例えばRAM52)へ退避させる(ステップS41)。
図15は図5に示した情報処理装置による故障隠蔽処理を模式的に示すブロック図である。図15に示すS51−S56は情報処理装置による故障隠蔽処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及びその実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例に説明する。
故障隠蔽装置1000は、CPU10P2の故障発生を検出すると、CPU10Pnへ実行環境30P2の移動を通知する(ステップS51)。
CPU10Pnは、故障隠蔽装置1000からの通知を受け取ると、図13または図14に示した手順にしたがってCPU10P2のキャッシュメモリ70P2で保持しているデータをメインメモリ(例えばRAM52)へ退避させる(ステップS52)。
次に、CPU10Pnは、CPU10P2で使用している入出力装置のうち、継続して使用可能な装置はそのまま使用し、継続して使用できない装置は必要に応じて初期化する(ステップS53)。
続いて、CPU10Pnは、図12に示した手順にしたがってCPU ID装置56によるCPU10P2の故障隠蔽処理を行う(ステップS54)。
次に、CPU10Pnは、図10に示した手順にしたがってタイマ装置55によるCPU10P2の故障隠蔽処理を行う(ステップS55)。
最後に、CPU10Pnは、図8に示した手順にしたがって割込み制御装置54によるCPU10P2の故障隠蔽処理を行う(ステップS56)。
図16は図5に示した情報処理装置によるOS及び実行環境の切替手順を模式的に示すブロック図である。図16に示すS61−S64は情報処理装置によるOS及び実行環境の切替処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及びその実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例に説明する。CPU10Pnは、通常、OS20Pn及び実行環境30Pnを実行しているものとする。
故障隠蔽装置1000は、CPU10P2の故障発生を検出すると、所定時間の経過、OSや実行環境の優先度、ユーザからの切り替え指示、あるいはイベントの発生等の様々なトリガー条件に基づき、実行環境30P2及びOS20P2により動作することをCPU10Pnへ通知する(ステップS61)。
CPU10Pnは、故障隠蔽装置1000からの通知を受け取ると、図12に示した手順にしたがってCPU ID装置56のCPU ID部56Pnの値(CPU ID)の切替動作を行う(ステップS62)。
続いて、CPU10Pnは、図10に示した手順にしたがってタイマ装置55のタイマカウント部55Pnのタイマ値の切替動作を行う(ステップS63)。
最後に、CPU10Pnは、図8に示した手順にしたがって割込み制御装置54による割込み信号の切替動作を行う(ステップS64)。ここでの切替動作とはCPU10P2で使用している資源の解放を除く故障隠蔽処理を指す。
図17は故障隠蔽処理後におけるOS及び実行環境の実行例を模式的に示すブロック図である。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及びその実行環境30P2をCPU10P3で継続動作する場合を例にして説明する。その場合、CPU10P3は、実行環境30P3及びOS20P3を実行するだけでなく、実行環境30P2及びOS20P2を実行することになる。
CPU10Pnは、通常、実行環境30Pn及びOS20Pnを実行しているものとする。故障隠蔽装置1000は、CPU10P3で実行するOS20P2とOS20P3の切り替え、及び実行環境30P3と実行環境30P2の切り替えをそれぞれ制御する。
図18は本発明の故障隠蔽方法によるOS及び実行環境の実行例の時間推移を模式的に示すブロック図である。
ここでは、CPU10P2で故障が発生し、CPU10P2に代わってCPU10P3がOS20P2及び実行環境30P2を実行するものとする。
図18では、CPU10P3が故障隠蔽装置1000の制御によりOS20P2及び実行環境30P2を実行している状態を示している。CPU10P3による実行環境30P2の割当実行時間(時間割当)は300msとする。また、CPU10Pnは、故障隠蔽装置1000の制御により実行環境30Pn及びOS20Pnを実行しているものとする。CPU10Pnによる実行環境30Pnの割当実行時間(時間割当)は1000msとする。
故障隠蔽装置1000は、CPU10P3に対する実行環境30P2の時間割当の残りが0msになった時、次に実行するOS及び実行環境を決定し、例えば図16に示した手順にしたがってOS及び実行環境を切り替える。OS及び実行環境の切り替えは、時間割当だけでなく、OSや実行環境の優先度、ユーザからの切り替え指示、あるいはイベントの発生等の様々なトリガー条件に基づいてOS及び実行環境を切り替えてもよい。
図19は本発明の故障隠蔽方法によるOS及び実行環境の実行例の時間推移を模式的に示すブロック図である。図19は図18に示した状態から約300msの時間が経過した状態を示している。図19では、CPU10P3が故障隠蔽装置1000の制御によりOS20P3及び実行環境30P3を実行している状態を示している。CPU10P3による実行環境30P3の割当実行時間(時間割当)は200msとする。
故障隠蔽装置1000は、CPU10P3で次に実行するOS20P3及び実行環境30P3を決定すると、図16に示した手順したがってOS及び実行環境を切り替える。この結果、OS20P2及び実行環境30P2はCPU10P2が存在しているように動作する。
図20は図5に示した故障隠蔽装置の一構成例を示すブロック図である。
図20に示すように、故障隠蔽装置1000は、CPU10P1−Pnで発生した故障を検出する故障検出部1100と、故障が発生したCPUに代わって動作するCPUによるOS及び実行環境の動作スケジュールを管理するスケジュール部1200と、故障を検出したCPUの動作を停止させる故障CPU停止部1300と、CPU10P1−Pn上で動作する共有資源を制御するための共有資源制御部1400P1−Pnとを有する構成である。
故障検出部1100は、情報処理装置が備える複数のCPU10P1−Pnで故障が発生したか否かを検出する。CPUの故障の発生有無は、定期的に実行する診断用プログラム、ハードウェアから故障検出時に送出される異常通知等を用いて判断すればよい。故障検出方法は、これらの方法に限らず、CPUの故障を検出できれば、周知のどのような手法を用いてもよい。
スケジュール部1200は、図15に示した故障が発生したCPUのOS及び実行環境の移動先となるCPUを決定する機能、並びに図16、図18及び図19に示したOS及び実行環境を時分割で動作させるための制御機能を備えている。スケジュール部1200は故障検出部1100から受信した故障を検出したCPUを示す故障CPU情報に基づきOS及び実行環境の移動先となるCPUを決定し、OS及び実行環境を時分割で動作させるための制御機能の処理結果により故障CPU停止部1300及び共有資源制御部1400P1−Pnへ必要な指示を与える。
故障CPU停止部1300は、スケジュール部1200からの指示にしたがって図13または図14に示したキャッシュメモリによる故障隠蔽処理を実行すると共に、故障を検出したCPUの停止処理を行う。
共有資源制御部1400P1−Pnは、複数のCPU10P1−Pnに対して共通に動作する。共有資源制御部1400P1−Pnは、スケジュール部1200からの通知にしたがって、図8、図10及び図12で示したように故障したCPUで使用していた共有資源の解放、及びOS及び実行環境を移動するCPUで使用している共有資源と故障が発生したCPUで使用していた共有資源を時分割で使用可能にするための制御を行う。
図21は図20に示した故障隠蔽装置による故障隠蔽処理を模式的に示すブロック図である。図21に示すS71−S74は故障隠蔽装置による故障隠蔽処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及び実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例に説明する。CPU10Pnは実行環境30Pn及びOS20Pnを実行しているものとする。図21に示す動作は図15に示した情報処理装置による故障隠蔽処理に対応している。
故障隠蔽装置1000は、故障検出部1100によってCPU10P2で故障が発生したことを検出すると、該故障発生をスケジュール部1200へ通知する(ステップS71)。
スケジュール部1200は、故障が発生したCPU10P2で実行しているOS20P2及び実行環境30P2をCPU10Pnに移動することを決定し、CPU10P2の動作停止を故障CPU停止部1300に通知する(ステップS72)。
故障CPU停止部1300は、スケジュール部1200からの通知にしたがって故障が発生したCPU10P2のキャッシュメモリ70P2で保持されたデータをフラッシュし、CPU10P2の動作を停止させる(ステップS73)。
次に、スケジュール部1200は、故障が発生したCPU10P2に代わってCPU10Pnが動作することを共有資源制御部1400Pnに通知する。
共有資源制御部1400Pnは、CPU10P2による共有資源の使用を停止させると共に、CPU10PnがOS20P2及び実行環境30P2とOS20Pn及び実行環境30Pnとを時分割で実行する際に使用する共有資源の切り替えを制御する(ステップS74)。
図22は図20に示した故障隠蔽装置による故障隠蔽処理の他の例を模式的に示すブロック図である。図22に示すS81は故障隠蔽装置による故障隠蔽処理の工程番号を表している。
ここでは、CPU10P2で故障が発生し、該CPU10P2で実行しているOS20P2及びその実行環境30P2をCPU10Pnに移動して故障を隠蔽する場合を例に説明する。CPU10Pnは実行環境30Pn及びOS20Pnを実行しているものとする。図22に示す動作は図16に示した情報処理装置による故障隠蔽処理に対応している。
故障隠蔽装置1000は、故障検出部1100によりCPU10P2で故障が発生したことを検出すると、該故障発生をスケジュール部1200へ通知する(ステップS81)。
スケジュール部1200は、所定時間の経過や割り込み信号等によるトリガー条件にしたがって、故障が発生したCPU10P2で実行しているOS20P2及び実行環境30P2をCPU10Pnに移動することを共有資源制御部1400Pnに通知する。
共有資源制御部1400Pnは、CPU10Pnで実行しているOS20Pn及び実行環境30Pnで使用する共有資源を、OS20P2及び実行環境30P2で使用する共有資源に切替える。共有資源の切り替えが完了すると、CPU10PnはOS20P2及び実行環境30P2を実行する。
図23は図5に示した故障隠蔽装置をプログラムで実現する場合の構成例を示すブロック図である。
図23はOSに含まれるプログラムにしたがってCPUで処理を実行することで上述した故障隠蔽装置1000の機能を実現する例である。図23に示す故障隠蔽装置1000は、モジュールやサブシステム等を含むどのような構成とすることも可能である。図23に示すような構成では、OSに故障隠蔽装置1000の機能を組み込むことができるため、修正が容易であるという利点がある。
図24は図5に示した故障隠蔽装置をプログラムで実現する場合の他の構成例を示すブロック図である。
図24に示すCPU10は、ユーザ・スーパバイザモードだけでなく、ハイパーバイザモードで動作し、それらの動作モードで共有されるメモリ管理ユニット13を備えている。このとき、OS20A及び実行環境30A並びにOS20B及び実行環境30Bは、ユーザ・スーパバイザモードで実行される。一方、故障隠蔽装置1000の機能を実現するプログラムはハイパーバイザモードで動作する。
このような構成では、OSや実行環境と故障隠蔽処理とが異なる動作モードで実行されるため、OS及び実行環境のソフトウェア互換性を保ちつつ、故障を隠蔽できる。
本発明によれば、故障隠蔽装置1000により故障が発生したCPUに代わって動作する代替用の演算装置を決定し、故障が発生した演算装置で動作していたOS及び実行環境を決定した演算装置による動作へ切り替えると共に、故障が発生したCPUで使用している共有資源を代替用の演算装置で使用可能に切り替えるため、複数のCPUと共有資源を有する情報処理装置において、いずれかの演算装置で故障が発生しても、チップを交換することなく各OSを継続して動作させることができる。したがって、半導体集積回路装置で発生した故障がそれを使用するシステムである情報処理装置によって隠蔽されるため、半導体集積回路装置のテストコストを低減できる。
本発明は、半導体集積回路装置の耐用寿命を延長できるため、保守が困難な環境で動作する情報処理装置に好適である。
この出願は、2006年10月13日に出願された特願2006−279956号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (12)

  1. OS及びアプリケーションを実行するための実行環境が動作する複数の演算装置と、
    前記複数の演算装置で共有される共有周辺装置と、
    を有する情報処理装置であって、
    前記複数の演算装置のいずれかで故障が発生すると、該故障が発生した演算装置に代わって該演算装置で動作していたOS及び実行環境で動作する代替演算装置を決定し、
    前記故障が発生した演算装置で動作していたOS及び実行環境と、前記代替演算装置となる演算装置で元々動作しているOS及び実行環境とを、前記代替演算装置で時分割に実行し、
    前記代替演算装置で動作するOS及び実行環境に対応して前記代替演算装置で動作するOS及び実行環境が参照する前記共有周辺装置の設定値を時分割に変更することで、前記演算装置で発生した故障を隠蔽するための故障隠蔽装置を有する情報処理装置。
  2. 前記故障隠蔽装置は、
    所定時間の経過、OSや実行環境の優先度、ユーザからの切り替え指示、イベントの発生のようなトリガー条件に基づき、前記故障が発生した演算装置で動作するOS及び実行環境を他の演算装置で動作するように切り替える請求項1記載の情報処理装置。
  3. 前記故障隠蔽装置は、
    前記演算装置の故障を検出すると、該演算装置が備えるキャッシュメモリで保持しているデータをメインメモリへ退避させる請求項2記載の情報処理装置。
  4. 前記故障隠蔽装置が、
    前記OSに含まれるプログラムにしたがって前記演算装置が処理を実行することで実現される請求項1から3のいずれか1項記載の情報処理装置。
  5. 前記演算装置は、
    少なくとも2つの動作モードを備え、
    前記故障隠蔽装置が、
    前記2つのCPUモードのうちの一方の動作モードにより、前記OSに含まれるプログラムにしたがって前記演算装置が処理を実行することで実現される請求項1から3のいずれか1項記載の情報処理装置。
  6. OS及びアプリケーションを実行するための実行環境が動作する複数の演算装置のいずれかで発生した故障を隠蔽するための故障隠蔽装置であって、
    前記故障が発生した演算装置を検出する故障検出部と、
    前記故障検出部から故障が発生した演算装置を示す情報を受け取ると、該故障が発生した演算装置に代わって該演算装置で動作していたOS及び実行環境で動作する代替演算装置を決定し、前記代替演算装置による前記OS及び前記実行環境の動作スケジュールを管理するスケジュール部と、
    前記故障が発生した演算装置の動作を停止させる故障CPU停止部と、
    前記複数の演算装置で共有される共有周辺装置のうち、前記故障が発生した演算装置で使用していた共有周辺装置を前記代替演算装置で使用可能にする共有資源制御部と、
    を有し、
    前記スケジュール部は、
    前記故障が発生した演算装置で動作していたOS及び実行環境と、前記代替演算装置となる演算装置で元々動作しているOS及び実行環境とを、前記代替演算装置に時分割で実行させ、
    前記代替演算装置で動作するOS及び実行環境に対応して前記代替演算装置で動作するOS及び実行環境が参照する前記共有周辺装置の設定値を時分割に変更する故障隠蔽装置。
  7. 前記スケジュール部は、
    所定時間の経過、OSや実行環境の優先度、ユーザからの切り替え指示、イベントの発生のようなトリガー条件に基づき、前記故障が発生した演算装置で動作するOS及び実行環境が前記代替演算装置で動作するように、前記故障CPU停止部及び前記共有資源制御部へ指示する請求項6記載の故障隠蔽装置。
  8. 前記故障CPU停止部は、
    前記故障が発生した演算装置が備えるキャッシュメモリで保持しているデータをメインメモリへ退避させる請求項7記載の故障隠蔽装置。
  9. 前記OSに含まれるプログラムにしたがって前記演算装置が処理を実行することで実現される請求項6から8のいずれか1項記載の故障隠蔽装置。
  10. OS及びアプリケーションを実行するための実行環境が動作する複数の演算装置と、
    前記複数の演算装置で共有される共有周辺装置と、
    を有し、前記演算装置で発生した故障を隠蔽するための情報処理装置の故障隠蔽方法であって、
    前記複数の演算装置のいずれかで故障が発生すると、該故障が発生した演算装置に代わって該演算装置で動作していたOS及び実行環境で動作する代替演算装置を決定し、
    前記故障が発生した演算装置で動作していたOS及び実行環境と、前記代替演算装置となる演算装置で元々動作しているOS及び実行環境とを、前記代替演算装置で時分割に実行し、
    前記代替演算装置で動作するOS及び実行環境に対応して前記代替演算装置で動作するOS及び実行環境が参照する前記共有周辺装置の設定値を時分割に変更する故障隠蔽方法。
  11. 所定時間の経過、OSや実行環境の優先度、ユーザからの切り替え指示、イベントの発生のようなトリガー条件に基づき、前記故障が発生した演算装置で動作するOS及び実行環境を前記代替演算装置で動作するように切り替える請求項10記載の故障隠蔽方法。
  12. 前記演算装置の故障を検出すると、該演算装置が備えるキャッシュメモリで保持しているデータをメインメモリへ退避させる請求項11記載の故障隠蔽方法。
JP2008538601A 2006-10-13 2007-09-13 情報処理装置及びその故障隠蔽方法 Expired - Fee Related JP5277961B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008538601A JP5277961B2 (ja) 2006-10-13 2007-09-13 情報処理装置及びその故障隠蔽方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006279956 2006-10-13
JP2006279956 2006-10-13
JP2008538601A JP5277961B2 (ja) 2006-10-13 2007-09-13 情報処理装置及びその故障隠蔽方法
PCT/JP2007/067829 WO2008044423A1 (fr) 2006-10-13 2007-09-13 Processeur d'informations et procédé de couverture de panne

Publications (2)

Publication Number Publication Date
JPWO2008044423A1 JPWO2008044423A1 (ja) 2010-02-04
JP5277961B2 true JP5277961B2 (ja) 2013-08-28

Family

ID=39282632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008538601A Expired - Fee Related JP5277961B2 (ja) 2006-10-13 2007-09-13 情報処理装置及びその故障隠蔽方法

Country Status (3)

Country Link
US (1) US8108719B2 (ja)
JP (1) JP5277961B2 (ja)
WO (1) WO2008044423A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5273043B2 (ja) * 2007-06-12 2013-08-28 日本電気株式会社 情報処理装置、実行環境転送方法及びそのプログラム
US8489918B2 (en) * 2010-04-21 2013-07-16 Hitachi, Ltd. Storage system and ownership control method for storage system
DE112013007143T5 (de) * 2013-06-07 2016-02-18 Mitsubishi Electric Corporation Computersystem und Steuerungsverfahren
JP6135403B2 (ja) * 2013-08-27 2017-05-31 富士通株式会社 情報処理システム、情報処理システムの障害処理方法
CN108885552B (zh) 2016-01-22 2023-03-14 索尼互动娱乐股份有限公司 用于向后兼容性的欺骗cpuid
US20170286324A1 (en) * 2016-04-05 2017-10-05 Renesas Electronics Corporation Semiconductor device and access management method

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175765A (ja) * 1993-10-25 1995-07-14 Mitsubishi Electric Corp 計算機の障害回復方法
JPH11126195A (ja) * 1997-10-22 1999-05-11 Mitsubishi Electric Corp 分散システム
JP2002527840A (ja) * 1998-10-09 2002-08-27 オープンウェイヴ システムズ インコーポレイテッド クラスタシステム用フォールトトレラントバス
JP2005004289A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd 省エネルギー方式
WO2005031572A2 (en) * 2003-09-22 2005-04-07 Jaluna Sa Operating systems
WO2005033928A2 (en) * 2003-09-22 2005-04-14 Jaluna Sa Operating systems
US20060212453A1 (en) * 2005-03-18 2006-09-21 International Business Machines Corporation System and method for preserving state for a cluster of data servers in the presence of load-balancing, failover, and fail-back events

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02123455A (ja) 1988-11-02 1990-05-10 Hitachi Ltd マルチプロセッサシステムの再構成方法
JPH03240859A (ja) 1990-02-19 1991-10-28 Nec Corp マルチプロセッサ共有資源管理方式
US5319773A (en) * 1990-05-16 1994-06-07 International Business Machines Corporation Asynchronous resynchronization of a commit procedure
WO1996025705A1 (en) 1995-02-14 1996-08-22 Fujitsu Limited Structure and method for high-performance speculative execution processor providing special features
JP3676934B2 (ja) 1998-12-15 2005-07-27 株式会社日立製作所 プロセッサおよびマルチプロセッサシステム
JP2000339186A (ja) 1999-05-31 2000-12-08 Nec Software Chubu Ltd クラスタシステム監視端末の自動再接続方法および自動再接続システム
US7409420B2 (en) * 2001-07-16 2008-08-05 Bea Systems, Inc. Method and apparatus for session replication and failover
JP3813930B2 (ja) 2002-01-09 2006-08-23 松下電器産業株式会社 プロセッサ及びプログラム実行方法
JP2005032202A (ja) 2003-07-09 2005-02-03 Econity:Kk 資源配分方法ならびに同方法のプログラムを記録した記録媒体
JP2005250577A (ja) 2004-03-01 2005-09-15 Toshiba Corp コンピュータシステム及び演算処理モジュールの健全性判定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175765A (ja) * 1993-10-25 1995-07-14 Mitsubishi Electric Corp 計算機の障害回復方法
JPH11126195A (ja) * 1997-10-22 1999-05-11 Mitsubishi Electric Corp 分散システム
JP2002527840A (ja) * 1998-10-09 2002-08-27 オープンウェイヴ システムズ インコーポレイテッド クラスタシステム用フォールトトレラントバス
JP2005004289A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd 省エネルギー方式
WO2005031572A2 (en) * 2003-09-22 2005-04-07 Jaluna Sa Operating systems
WO2005033928A2 (en) * 2003-09-22 2005-04-14 Jaluna Sa Operating systems
US20060212453A1 (en) * 2005-03-18 2006-09-21 International Business Machines Corporation System and method for preserving state for a cluster of data servers in the presence of load-balancing, failover, and fail-back events

Also Published As

Publication number Publication date
JPWO2008044423A1 (ja) 2010-02-04
WO2008044423A1 (fr) 2008-04-17
US20090240980A1 (en) 2009-09-24
US8108719B2 (en) 2012-01-31

Similar Documents

Publication Publication Date Title
JP5405320B2 (ja) 仮想計算機制御装置、仮想計算機制御方法及び仮想計算機制御プログラム
JP5277961B2 (ja) 情報処理装置及びその故障隠蔽方法
JP2552651B2 (ja) 再構成可能なデュアル・プロセッサ・システム
WO2016165304A1 (zh) 一种实例节点管理的方法及管理设备
US20120278653A1 (en) Handling a failed processor of multiprocessor information handling system
JP5099090B2 (ja) マルチコアシステム、マルチコアシステムの制御方法、及びマルチプロセッサ
JP2014026567A (ja) 監視装置、情報処理装置、及び監視方法
JP2006195821A (ja) 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム
JP5163120B2 (ja) デバッグシステム、デバッグ方法、およびプログラム
US11815984B2 (en) Error handling in an interconnect
US10379931B2 (en) Computer system
US9606879B2 (en) Multi-partition networking device and method therefor
US20090077420A1 (en) Multiprocessor core dump retrieval
JP2011158995A (ja) コンピュータ装置及びそのbiosアップデート方法
US20110153073A1 (en) Fault tolerance method and apparatus for robot software component
US20210382536A1 (en) Systems, devices, and methods for controller devices handling fault events
JP2010186242A (ja) 計算機システム
EP2843555A1 (en) Information processing system and method for processing failure
US20090187903A1 (en) Virtual multiprocessor system
RU2569576C1 (ru) Управляющий модуль
WO2008004330A1 (fr) Système à processeurs multiples
JP6218652B2 (ja) 計算機、障害処理方法及びプログラム
JP4787551B2 (ja) デバッグシステム、デバッグ方法およびプログラム
JP2005316679A (ja) 並列演算処理装置
JP2009116699A (ja) 情報処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100715

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130506

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees