JP5212357B2 - マルチcpu異常検出復旧システム、方法及びプログラム - Google Patents
マルチcpu異常検出復旧システム、方法及びプログラム Download PDFInfo
- Publication number
- JP5212357B2 JP5212357B2 JP2009503756A JP2009503756A JP5212357B2 JP 5212357 B2 JP5212357 B2 JP 5212357B2 JP 2009503756 A JP2009503756 A JP 2009503756A JP 2009503756 A JP2009503756 A JP 2009503756A JP 5212357 B2 JP5212357 B2 JP 5212357B2
- Authority
- JP
- Japan
- Prior art keywords
- abnormality
- program
- data
- cpu
- recovery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 174
- 230000005856 abnormality Effects 0.000 title claims description 144
- 238000011084 recovery Methods 0.000 title claims description 108
- 238000001514 detection method Methods 0.000 title claims description 86
- 230000002159 abnormal effect Effects 0.000 claims description 67
- 230000007717 exclusion Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 123
- 238000012545 processing Methods 0.000 description 83
- 238000013480 data collection Methods 0.000 description 48
- 238000012544 monitoring process Methods 0.000 description 27
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 22
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 10
- 230000010365 information processing Effects 0.000 description 10
- 238000011835 investigation Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 4
- 230000005764 inhibitory process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000005811 Viola adunca Nutrition 0.000 description 1
- 240000009038 Viola odorata Species 0.000 description 1
- 235000013487 Viola odorata Nutrition 0.000 description 1
- 235000002254 Viola papilionacea Nutrition 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
- G06F11/0724—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Description
そのため、システムの異常発生時にシステムをダウンさせることなく、システムを安定稼動させる技術が必要とされる。
マルチCPUシステムにおける異常発生検出についての技術としては、以下のものが提案されている。
特許文献1の場合、プロセッサ間のデータ通信によりプロセッサを監視している。そのために、異常発生要因が生じてからシステム異常と認識されるまでに、分単位の時間の遅延が生じる。
特許文献2の場合、監視・復旧する単位が1命令であり、ファームウェアを再起動することにより異常状態から復旧できる場合、リセットをかけて再起動する方式である。
以上を踏まえ、本発明は、OS部分でのプログラム異常などで顕在化した異常現象を早期に検出することが可能なシステム及び方法を提供することを課題とする。
更には異常を検出した場合、原因調査に有効な情報を確実に採取・退避することが可能なシステム及び方法を提供することを課題とする。
異常状態検出部は、稼動しているプログラムの異常を検出する。
また本発明は、マルチCPUシステムにおける異常検出及び自動復旧方法やマルチCPUシステムで実行されるプログラムもその範囲に含む。
図1は、本実施形態が前提とするマルチCPUシステムによる情報処理装置の概略構成を示す図である。
スケジューリング部12は、他CPUからの要求等や、入出力装置からの割り込み要求、タイマーによる時間割り込み等を外部から受け付け、OS11上で起動している事象ごとのプログラム13−1〜13−mや時間割り込みプログラム14に、発生した事象を割り振る。時間割り込みプログラム14は、定周期で発生する時間割り込みで起動されるプログラムである。復旧処理プログラム15は、異常が発生したCPUの自動復旧を司るものである。エミュレータ部16は、他の情報処理装置の機能の模倣を行うためのエミュレータである。なお図2においては、構成を簡略に示すためにエミュレータ部16を備える構成となっているが、本実施形態におけるOSにおいてはエミュレータ部16は必須の構成要件ではないので、本実施形態におけるOSはエミュレータ部16を備えなくても良い。
本実施形態のOSでは、エミュレータ部16のデータ採取・異常状態検出部22に平常時におけるプログラムの動作データ採取機能とプログラム異常を検出するための基準データ生成機能を設けることにより、人が設定することなくシステムが自動的に最適な値の基準値を生成することができる。
図3は、本実施形態におけるOSによる処理動作の概要を示す図である。
本実施形態のOS11上でユーザプログラム13を実行する際、OS11では(1)エミュレータ部16による処理1、(2)エミュレータ部16による処理2、(3)割り込みプログラム14による処理、が(1)−>(2)−>(3)−>(1)・・・の順に実行される。
割り込みを禁止にし、またCPU間の排他制御を獲得するなどの資源の獲得処理を行う。またデータ採取・異常状態検出部22により制御に必要となるデータの採取処理と異常検出処理を行う。
割り込み禁止を解除し、またCPU間の排他制御を解放するなどの資源の解放処理を行う。またデータ採取・異常状態検出部22により、制御に必要となるデータ採取処理、異常検出を認識するための基準データの生成処理及び異常検出処理を行う。
時刻の更新、プログラムへの経過時間の通知などによる時間割り込みが発生した場合の処理を行う。また異常状態検出部21による異常検出処理を行う。
復旧処理は、復旧処理プログラム15によって行われるもので、異常内容の判別処理と自動復旧処理から構成される。
次に図3に示したデータ採取処理と異常検出の基準データ生成処理について説明する。
図4に割り込みの禁止状態を監視する場合のデータ採取処理と異常検出の基準データ生成処理の関連図を示す。
同図において、ユーザプログラム13からOS11に対して要求が発生すると、その要求を実行するため、OS11では割り込みの禁止、CPUの排他制御獲得命令の発行、CPUの排他制御解除命令の発行、割り込み禁止の解除、ユーザプログラム13への復帰命令が実行される。
データ採取処理では、「異常発生を認識するための基準データ生成」と「トラブル調査の情報収集」のために、以下の情報を採取する。
・ユーザプログラムを実行した時間、実行CPU番号
・実行した命令コード、命令アドレス、命令の実行結果
・実行命令が参照したメモリの内容
・各レジスタの値
・その他(実行中プログラムを特定するための情報)
図6及び図7は、異常状態検出処理の概要を示す図である。
図6は、割り込みの禁止状態を監視する場合を示す図である。
OS11のミスなどで割り込み禁止状態のままループした場合、または、割り込み禁止解除を行わなかった場合、ハードウェアからの時間経過の割り込みが発生したときに、時間割り込みプログラム14の異常状態検出部21は「割り込みが禁止された時点からの経過時間」と「異常検出の基準値」の比較し、異常発生を検出し、異常が検出されたら復旧処理を依頼する。またハードウェアからの時間経過割り込みが発生しなくなった場合は、従来の方式でシステムダウンさせる。
次にCPU間の排他制御状態を監視する場合の異常状態検出処理について説明する。
OSプログラムのミスなどでCPUの排他制御解除忘れの状態が発生した場合、以降永久にCPU排他制御の獲得ができなくなる。
a)「CPU排他制御が獲得された時点からの経過時間」と「異常検出の基準値」の比較
b)「最初にCPUの排他制御ができなかった時点からの経過時間」と「異常検出の基準値」の比較
異常検出の基準値は、以下の値を採用する。
・最大値は、異常検出の基準データ生成処理で抽出した値。
・安全係数は、過渡的にシステム負荷が高くなったケースで、通常時の値では、正常・異常の判断を誤認する可能性があるために用いる。安全係数の適切値は、2〜4の範囲と考えられる。
割り込み先のCPU番号=自CPU番号+1
自CPU番号が最終番号のときは、CPU番号=0とし、サイクリックにCPUを決定する。
図8は復旧処理プログラム15によって行われる処理内容を示す図である。
復旧処理プログラム15によって行われる処理は、異常内容の判別処理31、システムダウン処理32、自動復旧処理33に分けることができる。
異常内容の判別処理31は、他CPUからの割り込みが発生した場合、通知される割り込み情報から自動復旧が可否をチェックし、自動復旧が不可能な場合、システムダウン処理32に制御を渡す。そして自動復旧が可能な場合、自動復旧処理33に制御を渡す。
このとき退避される割り込み情報、データ採取処理で採取した情報は、原因調査の有効な情報となる。
復旧の仕方としては、割り込み禁止状態の監視時間オーバーを検出した場合は、例えば割り込みを発生させた他CPUの状態を確認し、OSプログラム以外が動作中または何も実行していない状態であれば、割り込み禁止状態を解除してシステム運用を継続し、OSプログラムが動作中の場合は、システムをダウンさせる。
次に異常内容の判別処理31の詳細内容を説明する。
具体的には、命令コード、命令アドレス、命令の実行結果、実行命令が参照したメモリの内容、各レジスタの値(制御表の位置アドレス)等のデータ採取処理で採取した情報などから対象とする制御表を特定する。
図9は、発生した異常内容の判別方法についての説明図である。
異常内容の判別処理31では、検出した異常内容の種別と採取した情報41から復旧対象とする制御表を決定する。
1)比較するデータのマスクパターン43を自動復旧可のものと自動復旧不可のものの2つ持つ方法
方法1)では、自動復旧可のマスクパターン43及び自動復旧不可のマスクパターンとデータを比較して自動復旧の可否のチェックを行う。
2)異常発生の内容で判断する方法
方法2)では、異常発生箇所が特定の個所であれば、制御表の復旧が可能と判断する。
あるいは異常発生箇所が定数域のみであれば、復旧可と判断する、または異常発生の箇所数で判断する、等の方法が考えられる。
本実施形態におけるシステムダウン処理32は、従来行われている処理と同様、メモリダンプ情報の採取、データベース情報の退避、システム停止情報の退避等を行う。
対象とする制御表の復旧方法には、以下の方法がある。
プログラムで参照する制御表の内容は、定数となる部分と変数となる部分が存在し、以下の方法で復元が可能である。
・一般的な定数の値は、制御表の種別ごとの復旧用データを自動復旧処理33が持つことで復元が可能となる。
・定数値がアドレス値の場合は、復旧用プログラムを持つことで他制御表内のデータを用いて復元できるケースが多い。
・変数の値は、自動復旧処理33が持つ復旧用プログラムを用い、他制御表との整合性を考慮して復元する。また変数の値は、制御表の内容を初期状態に戻すことにより復旧可能な場合もあるので、状態に応じた適宜な復旧処理を行う。
自動復旧処理33では、異常内容の判別処理31で検出した異常発生箇所から、復旧パターンを決定する。
例えば主要な制御表アドレスなどの数が限定できる情報は、通常用と復旧用の2つの情報を持つことにより復旧が可能となる。なお、復旧用の情報は、プログラムミスなどによって破壊されにくいメモリ位置に配置する。
CPUによる排他制御解除忘れによる異常が発生した場合や、排他制御により制御している制御表の内容に異常がある場合、制御表を復旧した後に、CPU排他制御の解除を行う。
制御表の復旧方法の例を図11に示す。
同図は、プログラムが実行中の場合において、異なる制御表の間のリンク関係が壊された場合を示している。
同図において、×印で示したリンク65部分を異常と判断した場合は、リンクを(1)−>(2)−>(3)と辿ってゆくことにより、リンク65を復旧することができる。
割り込み禁止解除忘れにより異常が発生した場合、若しくは直前に割り込み禁止状態としたプログラムが使用する制御表の内容に異常がある場合、制御表内の情報を復旧した後に割り込み禁止の解除を行う。制御表の内容に異常がない場合、そのまま割り込み禁止の解除を行う。
なお割り込み禁止の設定と解除は、CPUが持つ制御レジスタの内容を更新することで実現できる。
図15は、エミュレータ部16による処理2のデータ採取・異常状態検出部22による処理内容を示すフローチャートである。同図の処理も、データ採取処理を中心に記載されている。
図16A及び図16Bは、図14、図15に示した処理1及び処理2で採取データを格納する格納域の構成例を示す図である。
各格納域は、次の格納域へのポインタとなるアドレスと処理1用の格納域(領域A)、処理2用の格納域(領域B)及び現在使用中かどうかを示すフラグ(不図示)を備えている。
同図の処理が開始されると、まずステップS21として対象プログラムによる処理に要した時間を算出する。具体的には、排他制御を獲得してから排他制御を解除するまでの時間、若しくは割り込みを禁止してから禁止を解除するまでの時間を算出する。
同図の制御表には、状態表示域、監視機能を開始する時点の検出用作業域、採取データの最大値域、及び異常の判断の基準データ域を記憶している。
ステップS41において排他獲得に失敗すると(ステップS41、Y)、まずステップS42として直近に行われた排他獲得の時点からの経過時間を算出する。
本実施形態のシステムは、マルチCPUシステムなので、エミュレータ部16による処理1で行われるデータ採取・異常状態検出部22で実行される異常状態検出処理では、直近で排他獲得を行ったCPUの候補は、複数存在する。
図21は、エミュレータ部16で実行される処理2でデータ採取・異常状態検出部22が行う異常状態検出処理を示すフローチャートである。同図は排他処理に対する異常検出を行った場合を例として示している。
そしてその経過時間が基準値を超えていたならば(ステップS53、Y)、ステップS54として、通知情報を作成し他CPUに異常状態を検出したことを通知、または保守用情報を退避した後本処理を終了する。またステップS53において経過時間が基準値を超えていなければ(ステップS53、N)、経過時間が基準値を超えるまで待つため、ステップS54をスキップして本処理を終了する。
データ採取・異常状態検出部22で実行される処理2で行われる異常状態検出処理では、直近で排他獲得を行ったCPUは1つであるので、直近に行われた排他獲得のデータの格納数も1つとなる。
時間割り込みプログラム14による処理では、特定のCPUの負荷が高くなることを防ぐために、CPU毎に自CPUの制御範囲のチェックを行っている。
そしてステップS62で算出した経過時間が基準値を超えていたならば(ステップS63、Y)、ステップS64として通知情報を作成し他CPUに異常状態を検出したことを通知した後本処理を終了する。
データ採取処理では、採取データの格納域を図24に示すようにサイクリックに構成し、現在使用中の格納域をポインタ84で指定している。
図25は、復旧処理プログラム15による復旧処理の処理フローを示すフローチャートである。
ステップS72のチェックの結果、処理対象の制御表が自動復旧不可の場合(ステップS73、Y)、ステップS80として処理対象の制御表の排他獲得状態を解除後、システムダウンして処理を終了する。
ステップS76の御情報の復旧処理が終了後、復旧用プログラムが存在するかどうかを調べ、存在するならば(ステップS77、Y)、ステップS78として対応する復旧プログラムを呼び出して実行し、復旧プログラムが存在しないならば(ステップS77、N)、処理をステップS79に移す。
なお、図19、図21及び図23のフローチャートは、排他検出の場合を例としてあげているが、割り込みの解放異常の検出の場合は、経過時間の算出を割り込み禁止を行った時点からカウントする以外、図19、図21及び図23のフローチャートの基本的な動作処理構成は同じである。
図26は、処理対象の制御表の自動復旧不可のチェックの説明図である。
図27は、処理対象の制御表の復旧の要否のチェックの説明図である。
チェックの仕方としては、実制御表の内容101と自動復旧可能な領域を抽出するマスクパターン102のANDを行い、ANDの結果と正しい制御表の内容103とを比較することにより、任意の領域の値をチェックすることができる。なお上述したようにこの正しい制御表の内容103は、図26に示した制御表の自動復旧不可のチェックに用いられる正しい制御表の内容93と同じ内容の情報として構成することができる。
次に図25のステップS76で行われる制御表の復旧処理について説明する。
制御表の復旧処理では、実制御表の内容111と復旧不要部分のマスクパターン112でANDを取り、これと正しい制御表の内容113とでORを取ることにより、復旧データが生成される。
図29Aは、復旧処理プログラム15が持つ識別ポインタを示す図である。
識別ポインタ121−1〜121−nは、検出される異常の種類毎に設けられ、復旧処理プログラム15は、他CPUから復旧依頼と共に通知される異常の種類に対応した識別ポインタ121−1〜121−nを用いて、上記した復旧処理に必要な正しい制御表の内容122、復旧用プログラム123、及びマスクパターン124等のデータを得る。
同図の識別ポインタ121には、検出した異常の識別コード、処理対象リソースについての情報、処理対象のリソース(制御表)へのアドレス、自動復旧不可の検出に用いるマスクパターンデータへのアドレス、復旧の要否の検出に用いるマスクパターンデータへのアドレス、復旧不要部分の抽出に用いるマスクパターンデータへのアドレス、復旧用データ(正しい制御表の内容)へのアドレス、及び復旧用プログラムのエントリアドレスを情報として保持している。
同図の情報処理装置は、複数のCPU131−1〜131−o、RAM等の主記憶装置132、ハードディスク等の補助記憶装置133、ディスプレイ、キーボード、ポインティングデバイス等の入出力装置(I/O)134、モデム等のネットワーク接続装置135、及びディスク、磁気テープなどの可搬記憶媒体から記憶内容を読み出す媒体読み取り装置136を有し、これらが互いにバス138により接続される構成を備えている。そして各構成要素は、バス138を介して互いにデータのやり取りを行う。
プログラム異常を検出した場合、原因調査に用いることができる精度の高い有効な情報が採取できるので、原因調査が容易となり、調査期間の短縮と原因究明率向上が図れる。
Claims (11)
- 複数のCPUを備えるマルチCPUシステムにおいて、
CPUにより実行中のプログラムの、資源の獲得から解放までの時間に基づいて判断される異常を検出する異常状態検出部と、
前記異常状態検出部により異常が検出されたとき、当該検出された異常の内容に基づいて異常となっているデータの復旧可能かどうかを判断し、復旧可能なとき前記データを復旧する復旧部と、
を備えることを特徴とするマルチCPUシステム。 - 複数のCPUを備えるマルチCPUシステムにおける異常検出及び自動復旧方法であって、
CPUにより実行中のプログラムの、資源の獲得から解放までの時間に基づいて判断される異常を検出し、
前記異常が検出されたとき、当該検出された異常の内容に基づいて異常となっているデータの復旧可能かどうかを判断し、復旧可能なとき前記データを復旧する
ことを特徴とする異常検出及び自動復旧方法。 - 複数のCPUを備えるマルチCPUシステムにおいて実行されるプログラムであって
CPUにより実行中のプログラムの、資源の獲得から解放までの時間に基づいて判断される異常を検出する機能と、
前記異常が検出されたとき、当該検出された異常の内容に基づいて異常となっているデータの復旧可能かどうかを判断し、復旧可能なとき前記データを復旧する機能と、
を前記マルチCPUシステムに実現させるプログラム。 - 事前にデータの復旧に用いるデータを備え、当該事前にデータの復旧に用いるデータを用いて前記データを復旧可能なとき、前記データを復旧することを特徴とする請求項3に記載のプログラム。
- 前記異常が検出されたとき、前記稼動しているプログラムが稼動しているCPU以外のCPUに復旧処理を依頼することを特徴とする請求項3または4に記載のプログラム。
- 前記異常状態検出部は、前記プログラムの異常を、資源の獲得から解放までの時間が基準値よりも長いこと検出することを特徴とする請求項1に記載のマルチCPUシステム。
- 前記プログラムの異常を検出する機能は、資源の獲得から解放までの時間が基準値よりも長いことを検出すること特徴とする請求項3に記載のプログラム。
- 前記検出される異常は排他獲得異常を含み、排他獲得してからの時間が特定値以上のとき、前記稼動しているプログラムは異常であると判定することを特徴とする請求項3に記載のプログラム。
- 前記排他獲得時及び排他獲得解除時に前記特定値を生成するのに用いるデータを収集することを特徴とする請求項8に記載のプログラム。
- 前記検出される異常は割り込み異常を含み、割り込み禁止を行ってからの時間が特定値以上のとき、前記稼動しているプログラムは異常であると判定することを特徴とする請求項3、請求項8又は請求項9のいずれか1つに記載のプログラム。
- 前記割り込み禁止時及び当該割り込み禁止解除時に前記特定値を生成するのに用いるデータを収集することを特徴とする請求項3、請求項8、請求項9又は請求項10のいずれか1つに記載のプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2007/000211 WO2008111124A1 (ja) | 2007-03-12 | 2007-03-12 | マルチcpu異常検出復旧システム、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008111124A1 JPWO2008111124A1 (ja) | 2010-06-24 |
JP5212357B2 true JP5212357B2 (ja) | 2013-06-19 |
Family
ID=39759075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009503756A Expired - Fee Related JP5212357B2 (ja) | 2007-03-12 | 2007-03-12 | マルチcpu異常検出復旧システム、方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8074123B2 (ja) |
JP (1) | JP5212357B2 (ja) |
WO (1) | WO2008111124A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5504876B2 (ja) * | 2009-12-24 | 2014-05-28 | 日本電気株式会社 | プロセス異常復旧装置及びプロセス異常復旧方法 |
US8850262B2 (en) | 2010-10-12 | 2014-09-30 | International Business Machines Corporation | Inter-processor failure detection and recovery |
WO2012053110A1 (ja) * | 2010-10-22 | 2012-04-26 | 富士通株式会社 | 障害監視装置、障害監視方法及びプログラム |
CN103150224B (zh) * | 2013-03-11 | 2015-11-11 | 杭州华三通信技术有限公司 | 用于提高启动可靠性的电子设备及方法 |
US10459782B2 (en) * | 2017-08-31 | 2019-10-29 | Nxp Usa, Inc. | System and method of implementing heartbeats in a multicore system |
JP2019179395A (ja) * | 2018-03-30 | 2019-10-17 | オムロン株式会社 | 異常検知システム、サポート装置および異常検知方法 |
US11693727B2 (en) * | 2021-03-08 | 2023-07-04 | Jpmorgan Chase Bank, N.A. | Systems and methods to identify production incidents and provide automated preventive and corrective measures |
CN114218075B (zh) * | 2021-11-25 | 2024-04-19 | 中国航空综合技术研究所 | 机载设备测试性试验实施样本库生成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0384640A (ja) * | 1989-08-29 | 1991-04-10 | Fujitsu Ltd | 障害情報通知方式 |
JPH04365145A (ja) * | 1991-06-13 | 1992-12-17 | Hitachi Ltd | メモリ障害処理方法 |
JPH11338838A (ja) * | 1998-05-22 | 1999-12-10 | Nagano Nippon Denki Software Kk | マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式 |
JP2002007218A (ja) * | 2000-06-21 | 2002-01-11 | Hitachi Eng Co Ltd | メモリ照合方式 |
JP2002132743A (ja) * | 2000-10-27 | 2002-05-10 | Nec Corp | メモリアクセス監視装置、メモリアクセス監視方法およびメモリアクセス監視用プログラムを記録した記録媒体 |
JP2004164113A (ja) * | 2002-11-11 | 2004-06-10 | Nec Micro Systems Ltd | マルチcpuのリセット回路およびリセット方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0748198B2 (ja) | 1988-10-25 | 1995-05-24 | 株式会社ピーエフユー | マルチプロセッサシステム |
JPH04160642A (ja) * | 1990-10-25 | 1992-06-03 | Nec Corp | コンピュータシステム |
JPH0667901A (ja) * | 1992-08-21 | 1994-03-11 | Fuji Facom Corp | リンクリスト履歴保存装置 |
JPH06214889A (ja) * | 1993-01-20 | 1994-08-05 | Hitachi Ltd | 主記憶領域破壊検出方法 |
JPH0926888A (ja) * | 1995-07-13 | 1997-01-28 | Hitachi Ltd | 排他制御装置 |
US5875342A (en) * | 1997-06-03 | 1999-02-23 | International Business Machines Corporation | User programmable interrupt mask with timeout |
DE19827430C2 (de) * | 1997-07-22 | 2001-07-12 | Siemens Ag | Überwachungsverfahren zur Erkennung von Endlosschleifen und blockierten Prozessen in einem Rechnersystem |
JP2908430B1 (ja) | 1998-05-14 | 1999-06-21 | 九州日本電気ソフトウェア株式会社 | マルチプロセッサシステムのホストプロセッサ監視装置および監視方法 |
US6393590B1 (en) * | 1998-12-22 | 2002-05-21 | Nortel Networks Limited | Method and apparatus for ensuring proper functionality of a shared memory, multiprocessor system |
US6301676B1 (en) * | 1999-01-22 | 2001-10-09 | Sun Microsystems, Inc. | Robust and recoverable interprocess locks |
US6898696B1 (en) * | 1999-06-14 | 2005-05-24 | International Business Machines Corporation | Method and system for efficiently restoring a processor's execution state following an interrupt caused by an interruptible instruction |
US6658595B1 (en) * | 1999-10-19 | 2003-12-02 | Cisco Technology, Inc. | Method and system for asymmetrically maintaining system operability |
US20040078681A1 (en) * | 2002-01-24 | 2004-04-22 | Nick Ramirez | Architecture for high availability using system management mode driven monitoring and communications |
US6961874B2 (en) * | 2002-05-20 | 2005-11-01 | Sun Microsystems, Inc. | Software hardening utilizing recoverable, correctable, and unrecoverable fault protocols |
US7162714B2 (en) * | 2002-05-22 | 2007-01-09 | American Power Conversion Corporation | Software-based watchdog method and apparatus |
JP2004259146A (ja) * | 2003-02-27 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | 閾値自動設定方法及びシステム |
US7219264B2 (en) * | 2003-05-09 | 2007-05-15 | Tekelec | Methods and systems for preserving dynamic random access memory contents responsive to hung processor condition |
US7162666B2 (en) * | 2004-03-26 | 2007-01-09 | Emc Corporation | Multi-processor system having a watchdog for interrupting the multiple processors and deferring preemption until release of spinlocks |
JP2006338605A (ja) * | 2005-06-06 | 2006-12-14 | Denso Corp | プログラム異常監視方法及びプログラム異常監視装置 |
US7546487B2 (en) * | 2005-09-15 | 2009-06-09 | Intel Corporation | OS and firmware coordinated error handling using transparent firmware intercept and firmware services |
US7191098B1 (en) * | 2005-09-22 | 2007-03-13 | International Business Machines Corporation | Automatic detection of excessive interrupt-disabled operating system code |
US7702889B2 (en) * | 2005-10-18 | 2010-04-20 | Qualcomm Incorporated | Shared interrupt control method and system for a digital signal processor |
-
2007
- 2007-03-12 JP JP2009503756A patent/JP5212357B2/ja not_active Expired - Fee Related
- 2007-03-12 WO PCT/JP2007/000211 patent/WO2008111124A1/ja active Application Filing
-
2009
- 2009-08-20 US US12/544,618 patent/US8074123B2/en not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0384640A (ja) * | 1989-08-29 | 1991-04-10 | Fujitsu Ltd | 障害情報通知方式 |
JPH04365145A (ja) * | 1991-06-13 | 1992-12-17 | Hitachi Ltd | メモリ障害処理方法 |
JPH11338838A (ja) * | 1998-05-22 | 1999-12-10 | Nagano Nippon Denki Software Kk | マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式 |
JP2002007218A (ja) * | 2000-06-21 | 2002-01-11 | Hitachi Eng Co Ltd | メモリ照合方式 |
JP2002132743A (ja) * | 2000-10-27 | 2002-05-10 | Nec Corp | メモリアクセス監視装置、メモリアクセス監視方法およびメモリアクセス監視用プログラムを記録した記録媒体 |
JP2004164113A (ja) * | 2002-11-11 | 2004-06-10 | Nec Micro Systems Ltd | マルチcpuのリセット回路およびリセット方法 |
Also Published As
Publication number | Publication date |
---|---|
US8074123B2 (en) | 2011-12-06 |
JPWO2008111124A1 (ja) | 2010-06-24 |
US20090307526A1 (en) | 2009-12-10 |
WO2008111124A1 (ja) | 2008-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5212357B2 (ja) | マルチcpu異常検出復旧システム、方法及びプログラム | |
EP2431876B1 (en) | Method and device for exception handling in embedded system | |
US7716520B2 (en) | Multi-CPU computer and method of restarting system | |
US5815651A (en) | Method and apparatus for CPU failure recovery in symmetric multi-processing systems | |
US20100185895A1 (en) | Failure-specific data collection and recovery for enterprise storage controllers | |
JPH0820965B2 (ja) | プログラムの実行を続行する方法 | |
US20170147422A1 (en) | External software fault detection system for distributed multi-cpu architecture | |
US9411661B2 (en) | Deadlock avoidance | |
JP2010086364A (ja) | 情報処理装置、動作状態監視装置および方法 | |
JP5224038B2 (ja) | コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム | |
US20080133975A1 (en) | Method for Running a Computer Program on a Computer System | |
JP5440073B2 (ja) | 情報処理装置,情報処理装置の制御方法および制御プログラム | |
KR102141620B1 (ko) | 멀티 프로세스/멀티 스레드에서 사용하는 공유 메모리에 대한 원자성 위반 결함 탐지 방법 및 장치 | |
JPH02294739A (ja) | 障害検出方式 | |
EP0654737A1 (en) | Method and apparatus for controlling command retry | |
JP2015106226A (ja) | 二重化システム | |
JPH09204205A (ja) | プログラム制御システム | |
WO2010038280A1 (ja) | 仮想計算機システム及びデッドロック解除方法 | |
JPH01134637A (ja) | 情報処理システムのストール監視方式 | |
JP2574938B2 (ja) | システム起動方式 | |
JP2922981B2 (ja) | タスクの実行継続方法 | |
JP5504876B2 (ja) | プロセス異常復旧装置及びプロセス異常復旧方法 | |
CN117632564A (zh) | 一种基于容器和对象模型操作系统的全局健康管理方法及系统 | |
JP2009020545A (ja) | コンピュータの異常監視装置 | |
JP2010224908A (ja) | 情報処理装置およびデータ修復方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120608 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120918 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121217 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20121225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130211 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |