JP3001818B2 - マルチプロセッサ立ち上げ管理装置 - Google Patents

マルチプロセッサ立ち上げ管理装置

Info

Publication number
JP3001818B2
JP3001818B2 JP8309356A JP30935696A JP3001818B2 JP 3001818 B2 JP3001818 B2 JP 3001818B2 JP 8309356 A JP8309356 A JP 8309356A JP 30935696 A JP30935696 A JP 30935696A JP 3001818 B2 JP3001818 B2 JP 3001818B2
Authority
JP
Japan
Prior art keywords
cpu
physical
time
startup
cpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP8309356A
Other languages
English (en)
Other versions
JPH10149343A (ja
Inventor
隆 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP8309356A priority Critical patent/JP3001818B2/ja
Publication of JPH10149343A publication Critical patent/JPH10149343A/ja
Application granted granted Critical
Publication of JP3001818B2 publication Critical patent/JP3001818B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、入出力処理及び
プログラム処理を実行する複数のプロセッサ(CPU)
を共有バスで接続してなるマルチプロセッサ構成の計算
機立上げ処理技術に関するものである。
【0002】
【従来の技術】図13は複数CPUを有する特に、任意
のプロセッサで入出力処理及びプログラム処理が可能な
対称型マルチプロセッサ構成の従来のサーバ機を示すブ
ロック図である。図13において、1はサーバ機、2は
システムボード、3はCPUバス、4は主記憶、51〜
54はCPUバス3から挿抜可能なCPU、5はCPU
間で交信を行うためのICCバス、6は上記CPUバス
3と周辺機器コントローラが接続されるローカルバス7
とのバスブリッジ、14はCPU51〜54から書き込
み及び読み出し可能なRAM、8a〜8dはそれぞれC
RT9、キーボード10、フロッピ・ディスク装置1
1、及び磁気ディスク装置12等の周辺機器を制御し、
主記憶4との間でデータ転送を行う周辺機器コントロー
ラ、13は電源投入時あるいはリセット実行時にシステ
ムを立ち上げるためのプログラムを保存する初期化プロ
グラム格納用のROMである。
【0003】また、22はパワーオンリセット生成部、
23はパワーオンリセット信号線、26はリセットボタ
ン、33はシステムリセット要求信号線、35はシステ
ムリセット信号線、34はパワーオンリセット23とシ
ステムリセット要求信号線の論理和をとってシステムリ
セット信号線に出力するOR回路、241〜244はC
PU51〜54をそれぞれ指定して切り離すCPU切離
し信号線、27は電源投入及びリセットボタン26の指
示によりシステムリセット要求信号線33にシステムリ
セット要求信号を生成したり、CPU切離し信号線24
1〜244にCPU切離し信号を生成するリセット制御
部、36はリセット制御部に内蔵されるバスモニタ部、
32はリセット制御部に内蔵されるタイムアウト検出機
構である。
【0004】次に動作について説明する。サーバ機1の
電源を投入するとパワーオンリセット生成部22はパワ
ーオンリセット信号線23にパワーオンリセット信号を
生成し、リセット制御部27を初期化すると共に、OR
回路34を経由してシステムリセット信号線35が有効
となり、CPU51〜54とシステムボード2上のリセ
ット可能なハードウェアをリセットして初期化する。リ
セット制御部27は、上記パワーオンリセット信号によ
り、システムリセット要求信号線33は有効の状態に、
また、CPU切離し信号線241〜244は全て無効の
状態に初期化される。上記のパワーオンリセット信号が
無効になると、リセット制御部27がまず動作を開始
し、システムリセット要求信号線33を有効の状態に
し、CPU切離し信号線241〜244を全て無効の状
態にする。サーバ機の電源が投入された後、リセットス
イッチ26が操作された場合にも、リセット制御部27
はシステムリセット要求信号線33を有効の状態にし、
また、CPU切離し信号線241〜244を全て無効の
状態にする。その後、リセット制御部27は、システム
ボード2上のハードウェアのリセットに必要な時間が経
過した後、CPU切離し信号線241〜244を全て無
効の状態にしたまま、システムリセット要求信号線33
を無効の状態にすると同時にタイムアウト検出機構32
をスタートさせる。システムリセット要求信号33が無
効になることでシステムリセット信号線35が無効とな
り、全てのCPU51〜54が起動し、初期化プログラ
ム格納用ROM13の特定アドレスからの初期化プログ
ラム実行を開始する。
【0005】また、ICCバス5を介したCPU間の交
信により、唯一のメインCPUとその他のスレーブCP
Uが決まる。全てのスレーブCPUはRAM14のそれ
ぞれに特定なアドレスの内容を参照してメインCPUか
らの存在確認指示(前記RAM14の特定アドレスの内
容が”1”になった場合存在確認指示となる)があるま
で、ROM13に格納されたループ処理を実行する。存
在確認指示があった場合、RAM14の中のCPU情報
格納領域にスレーブCPUに特有な情報を書き込んだ
後、前記の特定アドレスに”0”を書込んで、そのスレ
ーブCPUの存在することを示した後、無限ループ処理
またはHALT命令を実行して、初期化処理を完了す
る。メインCPUはスレーブCPUの存在を確認するた
め、各スレーブCPUに対応したRAM14の特定アド
レスに”1”を書き込んで存在確認指示を出した後、そ
の特定アドレスが”0”に書き戻され、該当するスレー
ブCPUが存在を示すのを待つ。一定時間内に存在が確
認されるとRAM14のCPU情報格納領域の中に該当
するスレーブCPUが存在することを示すフラグをセッ
トする。一定時間内に存在が確認されなかった場合、R
AM14のCPU情報格納領域の中の該当するスレーブ
CPUが存在することを示すフラグをクリアする。同様
な処理を繰り返し、全てのスレーブCPUの存在を確認
する。マスタCPUは、全てのスレーブCPUの存在確
認を完了した後、システムボード上のハードウェアの診
断を実行し、問題がなければ、ローカルバス7上に特定
アドレスを指定して特殊コード(以下、この特定アドレ
スを指定しての特殊コードをブート・コードと称する)
を出力した後、フロッピ・ディスク装置11または磁気
ディスク装置12から初期プログラムロードを開始す
る。これによりオペレーティングシステムが立ち上が
り、サーバ機1のシステム運転が開始される。
【0006】リセット制御部27はタイムアウト検出機
構32をスタートさせた時点から、バスモニタ部36に
より上記ブート・コードが出力されるのをモニタする。
一定時間内にローカルバス7上にブート・コードが出力
された場合、サーバ機1の立上げが成功したとして、リ
セット制御部27はタイムアウト検出機構32を停止さ
せる。一定時間内にローカルバス7上にブート・コード
が出力されなかった場合、タイムアウト検出機構32が
タイムアウトを検出し、リセット制御部27は何れかの
CPUが故障していると判断する。しかし、リセット制
御部27には何れのCPUが故障しているのかわからな
いため、先ずCPU51への切り離し信号線241を有
効にし、他の切り離し信号242〜244は無効にした
後、システムリセット要求信号線33を有効の状態にし
てリセットのリトライを実行する。その後、リセット制
御部27は、システムボード2上のハードウェアのリセ
ットに必要な時間が経過した後、CPU切離し信号線2
41〜244の状態を保持したまま、システムリセット
要求信号線33を無効の状態にすると同時にタイムアウ
ト検出機構32をスタートさせる。システムリセット要
求信号33が無効になることでシステムリセット信号線
35が無効となり、切り離されていない全てのCPUが
起動し、初期化プログラム格納用ROM13の特定アド
レスからの初期化プログラム実行を開始する。以降、ブ
ート・コードが検出されて立上げ成功するまで、切り離
すCPUを物理番号2のCPU→物理番号3のCPU→
物理番号4のCPU→物理番号1と2のCPU→物理番
号1と3のCPU→・・・→物理番号3と4のCPU→
物理番号1と2と3のCPU→・・・というように順番
に、さらに、1つのCPUの切り離しで成功しなかった
場合には2つのCPUの組合せ、3つのCPUの組合せ
と切り離すCPUを変えてゆき、CPUの構成を変更し
てリセットによる立上げのリトライを繰り返す。
【0007】
【発明が解決しようとする課題】従来の立上げ方式で
は、故障したCPUが判明した後でも、サーバの電源切
断/投入またはリセットスイッチによるリセットが実行
された場合には、CPUを順次切り離して行うリトライ
時に、故障したCPUが分からなかった時と同じ順序の
切り離し動作が行われるため、立上げに時間がかかると
いう課題があった。また、間欠的に障害を発生するCP
Uが判明しても、構成から外されずにシステムの立上げ
が行われてしまい、システム運転が開始されてから障害
が発生して、システムの信頼性を低くするという課題が
あった。
【0008】この発明は上記のような課題を解消するた
めになされたもので、一度故障したあるいは間欠的な障
害のあるCPUが判明した後は、最も最近に故障もしく
は障害が発生したCPUから順にシステムから切り離す
ことでシステムの立上げを高速に行うことを目的とす
る。また、エラーを発生したことのあるCPUを構成か
ら外して速やかな立上げを行い、また、システム稼動時
の信頼性を向上させることを目的とする。
【0009】
【課題を解決するための手段】この発明に係るマルチプ
ロセッサ立ち上げ管理装置は、共通バス上に接続される
複数のCPUからなるマルチプロセッサ構成の計算機に
おいて、電源投入またはリセット時の立ち上げにおける
エラーを起こしたCPUを時刻と共に記憶する構成情報
テーブルと、構成情報テーブルの記憶値に基づき所定の
組合せのCPUを切り離しリトライ指示する計算機管理
手段を備えて、それまでの最近時刻にエラーを起こした
CPUを最初に切り離してリトライを指示するようにし
た。
【0010】
【0011】また更に、計算機管理手段は、最新時刻で
複数のCPUが立ち上げエラーを起こした場合は該当す
る複数のCPUを最初に同時に切り離すよう指示するよ
うにした。
【0012】また更に、構成情報テーブルには、立ち上
げにおけるエラー回数を記憶する欄を付加し、計算機管
理手段は、累積エラー回数を加味して最初のリトライの
切り離しCPUを指示するようにした。
【0013】また更に、構成情報テーブルには、立ち上
げにおけるエラー以外に稼働中におけるエラーの回数も
記憶するようにして、上記立ち上げにおけるエラーと稼
働中におけるエラーとを加えて累積エラーとした。
【0014】また更に、構成情報テーブルには、外部と
のインタフェースを設け、外部信号によりエラー回数ま
たはエラー時刻の変更ができるようにした。
【0015】
【発明の実施の形態】
実施の形態1.本発明の一実施の形態であるマルチプロ
セッサ立ち上げ管理装置を持つ計算機の構成と動作を図
に基づいて説明する。図1は上記マルチプロセッサ立ち
上げ管理装置を持つ対称型マルチプロセッサ構成の計算
機のブロック構成図である。図において、15はローカ
ルバスに設けられ通信路を接続するインタフェース、1
6はシステムボード2とは別の電源で動作し、サーバの
構成や動作状態を監視したり、リセットのシーケンス等
を管理する計算機管理部、18はインタフェース15を
介してソフトウェアと計算機管理部16が交信する時に
使用する通信路、25は計算機管理部のリアルタイムク
ロック、30は計算機管理部16の中に記憶される構成
情報テーブル、31は構成情報テーブルを元に生成され
る切離しCPUテーブル、37はリセット制御部27と
計算機管理部16が交信する時に使用するリセット監視
通信路、19は計算機管理部と交信し、内部の構成情報
テーブル31や切離しCPUテーブル31などを参照し
たり変更したりすることが可能なサーバ管理端末であ
る。その他の番号の要素は、図13の構成の装置の対応
する要素と同等のものである。
【0016】図2は構成情報テーブルに記憶される情報
の例と、それを利用してリトライ時の切り離しCPUを
順次指示するための切離しCPUテーブルの情報の例を
示した図である。ちなみにリトライとは、リセット時の
最初の立ち上げで失敗した場合に、次にあるCPUを切
り離して再び立ち上げることをいう。図2(a)の変更
前部分は計算機管理部16が初期化されてから、全ての
CPUが正常であり、計算機1の立上げが全て成功して
いる時点での構成情報テーブル30と切離しCPUテー
ブル31の内容を示す。立上げが成功した時点で、構成
から切り離されていたCPUは1つもなかったため、リ
トライ時の切り離しCPU仮番号はCPU物理番号と等
しく、リセットによる立上げリトライが行われた場合に
切り離すCPUの順序は、従来リセット制御部27のみ
で行われていた場合と同じである。図中の切り離しテー
ブルの1、2、3、4はCPU物理番号を示し、例えば
リトライ5回目の上から1、2とあるのは、リトライ5
回目ではCPU1と2を切り離して立ち上げたことを示
している(残りのCPU3と4だけが接続されてい
る)。また、例えばリトライ5回目で立ち上げに成功し
た場合は、システムとしてはCPU3と4だけが接続さ
れて動作していることを示している。
【0017】次に、本実施の形態1に係る計算機の動作
を説明する。いま、物理番号3のCPU53に故障が生
じ、時刻T1にこのCPUを切り離してシステムの立上
げが成功した場合を図2(a)と図2(b)を用いて説
明する。まず、図2(a)のように各CPUにエラーが
ない状態で計算機1の電源が投入されると、パワーオン
リセット生成部22はパワーオンリセット信号線23に
パワーオンリセット信号を生成し、リセット制御部27
を初期化する。また、OR回路34を経由してシステム
リセット信号線35にシステムリセット信号線が有効と
なり、全ての物理番号1のCPU51〜物理番号4のC
PU54とシステムボード2上のリセット可能なハード
ウェアをリセットして初期化する。リセット制御部27
は、上記パワーオンリセット信号により、システムリセ
ット要求信号線33は有効の状態に、また、CPU切離
し信号線241〜244は全て無効の状態に初期化され
る。上記のパワーオンリセット信号が無効になると、リ
セット制御部27が動作を開始し、システムリセット要
求信号線33を有効の状態にし、また、CPU切離し信
号線241〜244を全て無効の状態にする。
【0018】そして、リセット制御部27は計算機管理
部16とリセット通信路37を介して交信を行い、シス
テムリセット要求信号33を解除する時のCPUの構成
を計算機管理部16から得る。この場合、今回の立上げ
の最初のリセットであるため、計算機管理部16は切り
離すCPUなしを指定する。リセット制御部27はこの
指定を受け、CPU切離し信号線241〜244を全て
無効の状態にしたまま、システムリセット要求信号33
を無効にし、タイムアウト検出機構32をスタートさせ
る。上記状態で例えば物理番号3のCPU54が固定故
障していると仮定すると、一定時間内にブート・コード
が検出されず、リセット制御部27はリセットのリトラ
イを実行する。リトライの実行にあたり、リセット制御
部27は再び計算機管理部16との交信を行い、CPU
の構成を計算機管理部16から獲得する。この時計算機
管理部16は図2(a)の構成情報テーブル30の情報
から、切離しCPUテーブル31の指示内容を設定し
て、リトライ1回目に切り離すCPUとして物理番号1
のCPU51を指定する。リセット制御部27はこの指
定により、CPU切離し信号線241を有効に、その他
をCPU切離し信号線242〜244を無効にして、シ
ステムリセット要求信号33をシステムボード2上のハ
ードウェアのリセットに必要な一定時間有効にした後、
無効に戻し、タイムアウト検出機構32をスタートさせ
る。
【0019】しかし、この場合も立上げに失敗し、一定
時間内にブート・コードが検出されず、リセット制御部
27はリセットのリトライを再実行する。以下、計算機
管理部16内の切離しCPUテーブル31の指示内容に
基づき、物理番号2のCPU52を次に切り離してリト
ライを行うが立上げに失敗する。3回目のリトライで、
物理番号3のCPU53を切り離してリトライを行った
時に、立上げが成功し、リセット制御部27では、バス
モニタ部36がブート・コードを検出して、タイムアウ
ト検出機構32を停止させ、かつ、計算機管理部16に
対して立上げ成功を通知する。この通知を受けとった時
のリアルタイムクロック25の時刻がT1とすると、図
2(b)に示すように、計算機管理部16は立上げ成功
の通知を受けとった時刻T1とその時のCPUの構成状
態(この場合は物理番号3のCPU53のみ切り離し状
態)を元に構成情報テーブル30を変更し、さらに、構
成情報テーブルを元に切離しCPUテーブル31の指示
内容を変更する。即ち、構成情報テーブル30の内、物
理番号3のCPUに対応する最近立上げ失敗時刻はT1
になり、その他のCPUに対応する最近立上げ失敗時刻
は変更されない(この場合、立上げ失敗時刻なしのまま
である)。
【0020】また、切り離しCPU仮番号は物理番号1
のCPUが2、物理番号2のCPUが3、物理番号3の
CPUが1、物理番号4のCPUが4となる。切離しC
PUテーブル31は切り離しCPU仮番号を元に図2
(b)変更後のように更新される。即ち、次回のリトラ
イ時の切り離しCPUがCPU仮番号1、2、3、4の
順になるようにする。計算機管理部16の電源はシステ
ムボード2と別電源であるため、サーバ機1の電源、す
なわちシステムボード2の電源が切断されても、上記構
成情報テーブル30および切離しCPUテーブル31は
計算機管理部内に保持され、次回サーバ機1の電源投入
あるいはリセットボタン26の操作によるサーバ機の立
上げ時に計算機管理部で使用できる。次回の立上げのた
めのリセットのリトライ実行時には、切り離しCPU仮
番号を元に決定された切離しCPUテーブル31の内容
に基づき、物理番号3のCPU→物理番号1のCPU→
物理番号2のCPU→物理番号4のCPU→物理番号3
と1のCPU→物理番号3と2のCPU→物理番号3と
4のCPU→物理番号1と2のCPU→物理番号1と4
のCPU→物理番号2と4のCPU→物理番号3と1と
2のCPU→物理番号3と1と4のCPU→物理番号3
と2と4のCPU→物理番号1と2と4のCPUという
順序でCPUが切り離されることになる。勿論、例えば
リトライ1回目で立ち上げに成功すると、その時点でリ
トライが終わってシステムとしては物理番号3のCPU
のみが切り離された状態で運用される。
【0021】本実施の形態で、複数のCPUが同時に立
ち上げにエラーが生じて切り離されて、その状態で立ち
上げ成功した場合を図3を用いて説明する。図3(a)
変更前で示されるように、物理番号3のCPUが時刻T
1に立上げ失敗していたサーバ機1において、物理番号
3のCPUを交換して、立上げが成功し、更に後に物理
番号2と4のCPUにエラーが生じてこのCPUを切り
離してシステムの立ち上げが成功した場合を図3
(a)、(b)を用いて説明する。まず、図3(a)の
状態でリセット時の立ち上げをするのであるが、この場
合はリトライ10回目、CPU物理番号2と4を同時に
切り離して成功したとする。計算機管理部16がリセッ
ト制御部27から立上げ成功の通知を受けた時刻をT2
(当然、T2はT1より後の時刻)とすると、切り離さ
れていなかった物理番号1と物理番号3のCPUに対応
する立上げ失敗時刻は変更されず、物理番号2と物理番
号4に対応する立上げ失敗時刻がT2に変更される。ま
た、切り離しCPU仮番号は、それまで一度も立上げに
失敗していない物理番号1のCPUが4、最も立上げ失
敗時刻の新しいCPUの内で最も物理番号の小さい物理
番号2のCPUが1、立上げ失敗時刻の最も古い物理番
号3のCPUが3、物理番号2のCPUと立上げ失敗時
刻は同じであるが、物理番号の大きい物理番号4のCP
Uが2となる。次回の立上げのためのリセットのリトラ
イ実行時には、上記の切り離しCPU仮番号を元に決定
された切離しCPUテーブル31の指示内容による。即
ち、物理番号2のCPU→物理番号4のCPU→物理番
号3のCPU→物理番号1のCPU→物理番号2と4の
CPU→物理番号2と3のCPU→物理番号2と1のC
PU→物理番号4と3のCPU→物理番号4と1のCP
U→物理番号3と1のCPU→物理番号2と4と3のC
PU→物理番号2と4と1のCPU→物理番号2と3と
1のCPU→物理番号4と3と1のCPUという順序で
CPUを切り離すよう指示する。
【0022】実施の形態2.本実施の形態では、エラー
時刻以外にエラー回数を考慮してリトライ指示する場合
を説明する。本実施の形態の立ち上げ管理装置は、構成
としては図1の構成と同じで、構成情報テーブル30に
エラー回数(立ち上げ失敗回数)欄を設ける。複数のC
PUが同時に立ち上げ時にエラーが生じて切り離され、
その状態で立ち上げに成功した場合に、次回のリトライ
の指示を別の情報で行う場合を図4(a)、(b)を用
いて説明する。即ち、エラー回数の多いものを先に切り
離す。まず、テーブルが図4(a)変更前の状態で計算
機1の立上げが行われ、しかしリセット時のリトライ9
回目(CPU1と4を切り離し)で立ち上げが成功した
とする。この時刻T3(T3はT2より後、T2はT1
より後の時刻)に計算機管理部16が立上げ成功報告を
受けた時に、物理番号1と4のCPUが切り離されてい
るので、図4(b)のように構成情報テーブル30の内
容は、物理番号1と物理番号4に対応する立上げ失敗時
刻がT3に変更され、立上げ失敗回数がそれぞれ1ずつ
増やされる。しかし、切り離されていなかった物理番号
2と物理番号3のCPUに対応する立上げ失敗時刻と立
上げ失敗回数は変更されない。
【0023】切り離しCPU仮番号は、最も立上げ失敗
時刻の新しいCPUの内で最も失敗回数の多い物理番号
4のCPUが1、最も立上げ失敗時刻の新しいCPUの
内で失敗回数の少ない物理番号1のCPUが2、後は立
上げ失敗時刻の新しい順に物理番号2のCPUが3、物
理番号3のCPUが4となる。即ちエラー回数の多い物
理番号4のCPUが先に切り離し指示される。次回の立
上げのためのリセットのリトライ実行時には、切り離し
CPU仮番号を元に決定された切離しCPUテーブル3
1の内容に基づき、物理番号4のCPU→物理番号1の
CPU→物理番号2のCPU→物理番号3のCPU→物
理番号4と1のCPU→物理番号4と2のCPU→物理
番号4と3のCPU→物理番号1と2のCPU→物理番
号1と3のCPU→物理番号2と3のCPU→物理番号
4と1と2のCPU→物理番号4と1と3のCPU→物
理番号4と2と3のCPU→物理番号1と2と3のCP
Uという順序でCPUが切り離されることになる。
【0024】複数のCPUを同時に切り離して立ち上げ
に成功した後の、リトライ切り離し順序の他の設定方法
を説明する。即ち、次回にも複数CPUを同時に切り離
し指示する。まず、テーブルが図5(a)変更前の状態
でサーバ機1の立上げが行われ、しかしリセット時のリ
トライ9回目(CPU1と3の同時切り離し)で立ち上
げが成功したとする。この時刻T4(T4はT3より
後、T3はT2より後の時刻、T2はT1より後の時
刻)に計算機管理部16が立上げ成功報告を受けた時
に、物理番号1と3のCPUが切り離されているので、
図5(b)に示されるように構成情報テーブル30の内
容は、物理番号1と物理番号3に対応する立上げ失敗時
刻がT4に変更され、立上げ失敗回数はそれぞれ1ずつ
増やされる。切り離されていなかった物理番号2と物理
番号4のCPUに対応する立上げ失敗時刻と立上げ失敗
回数は変更されない。新しい設定方法では、次回のリト
ライ切り離し順序を以下のようにする。切り離しCPU
仮番号は、最も立上げ失敗時刻が新しく、失敗回数も等
しい物理番号1と3のCPUが1、後は立上げ失敗時刻
の新しい順に、また物理番号4のCPUが2、物理番号
2のCPUが3となり、次回の立上げのための切離しC
PUテーブル31は上記の順で切り離し順序を指示す
る。即ち、物理番号1と3のCPU→物理番号4のCP
U→物理番号2のCPU→物理番号1と3と4のCPU
→物理番号1と3と2のCPU→物理番号4と2のCP
Uという順序でCPUが切り離されることになる。図5
(b)変更後で示されるように、CPUの構成変更によ
るリトライは6回で全ての組合せを完了することにな
る。
【0025】過去の立ち上げ時のエラー回数に関係な
く、最新のエラーに基づく複数CPUの同時切り離しの
他の方法を説明する。まず、テーブルが図6(a)変更
前の状態で、計算機1の立上げが行われ、しかしリトラ
イ7回目(CPU2と3と4の同時切り離し)で立ち上
げが成功したとする。この時刻T5(T5はT4より
後、T4はT3より後、T3はT2より後の時刻)に計
算機管理部16が立上げ成功報告を受けた時に、物理番
号2と3と4のCPUが構成から切り離されているの
で、図6(b)に示されるように構成情報テーブル30
の内容は、物理番号2と3と4のCPUに対応する立上
げ失敗時刻がT5に変更される。また立上げ失敗回数は
まずそれぞれ1ずつ増やされた後、切り離された3つの
CPUの内で失敗回数が最大である物理番号4のCPU
の失敗回数に3つが全て等しくなるよう設定される。こ
の意味は、次回の切り離しを最新時刻T5でのエラーC
PUを全て切り離す設定とする。切り離されていなかっ
た物理番号1のCPUに対応する立上げ失敗時刻と立上
げ失敗回数は変更されない。こうして、次回のリトライ
切り離し順序は以下のようにする。切り離しCPU仮番
号は、最も立上げ失敗時刻の新しく、失敗回数も等しい
物理番号2と3と4のCPUが1、立上げ失敗時刻の古
い物理番号1のCPUが2となる。従って、次回の立上
げのためのリセットのリトライ実行順序は、切り離しC
PU仮番号を元に決定された切離しCPUテーブル31
の内容に基づき、物理番号2と3と4のCPU→物理番
号1のCPUという順序でCPUが切り離されることに
なる。図6(b)変更後で示されるように、CPUの構
成変更によるリトライは2回で全ての組合せを完了する
ことになる。
【0026】本実施の形態において、エラー回数として
立ち上げ時のエラーのみでなく、システム稼働中のCP
Uエラーも考慮してリトライ順序を定める場合を説明す
る。まず、テーブルが図7(a)変更前の状態で、立ち
上げ時ではなくシステム稼働中の時刻T6(T6はT5
より後、T5はT4より後、T3はT2より後の時刻)
に計算機管理部16が物理番号2のCPUのエラーを検
出したとする。このとき物理番号2のCPUに対応する
立上げ失敗時刻は物理番号2のCPUのエラー発生時刻
T6に変更され、立上げ失敗回数は1増やされる。もち
ろん物理番号1と3と4のCPUに対応する立上げ失敗
時刻と立上げ失敗回数は変更されない。そして、切り離
しCPU仮番号は、最も立上げ失敗時刻の新しい物理番
号2のCPUが1、次に立上げ失敗時刻が新しく、失敗
回数も等しい物理番号3と4のCPUが2、立上げ失敗
時刻の一番古い物理番号1のCPUが3となる。従って
図7(b)に示されるように、次回の立上げのためのリ
セットのリトライ実行時には、物理番号2のCPU→物
理番号3と4のCPU→物理番号1のCPU→物理番号
2と3と4のCPU→物理番号2と1のCPU→物理番
号3と4と1のCPUという順序でCPUが切り離され
ることになる。図7(b)変更後の場合、CPUの構成
変更によるリトライは6回で全ての組合せを完了する。
【0027】エラー時刻とエラー回数の許容度(しきい
値)との組合せによるリトライ順序設定を説明する。こ
の場合には例えば構成情報テーブルに許容しきい値の欄
を設ける。まず、テーブルが図8(a)変更前の状態で
サーバ機1の立上げが行われ、しかしリセット時のリト
ライ1回目で立ち上げが成功したとする。この時刻T1
に計算機管理部16が立上げ成功報告を受けた時に、物
理番号1のCPUが構成から切り離されているので、図
8(b)に示すように切り離されていなかった物理番号
2と3と4のCPUに対応する立上げ失敗時刻と立上げ
失敗回数は変更されない(従って、失敗回数は0のまま
である)。一方、物理番号1のCPUに対応する立上げ
失敗時刻がT1に変更され、立上げ失敗回数が1増やさ
れて1となる。ただし、一度しきい値を超えたCPUに
関する失敗回数をそれ以降増やすことはしない。切り離
しCPU仮番号は、立上げに失敗していないCPUの
内、物理番号の順番に、物理番号2のCPUが1、物理
番号3のCPUが2、物理番号4のCPUが3となり、
立上げに失敗した物理番号1のCPUは0となる。ここ
で、切り離しCPU仮番号が0のCPUは立上げの時に
常に切り離すよう計算機管理部16からリセット制御部
27に指示される。従って、次回の立上げにおいて常に
物理番号1のCPUは切り離され、立上げのためのリセ
ットのリトライ実行時には、物理番号1と2のCPU→
物理番号1と3のCPU→物理番号1と4のCPU→物
理番号1と2と3のCPU→物理番号1と2と4のCP
U→物理番号1と3と4のCPUという順序でCPUが
切り離されることになる。図8(b)変更後の場合、C
PUの構成変更によるリトライは6回で全ての組合せを
完了することになる。勿論、しきい値を2とか3に設定
する運用もできる。
【0028】リトライ切り離し順序の設定にエラー時刻
以外に判定期間を考慮した場合を説明する。即ち、設定
した判定時刻以降でのCPUのエラーにより順序を定め
るものである。まず、テーブルが図9(a)変更前の状
態でサーバ機1の立上げが行われ、しかしリセット時の
リトライ4回目に立ち上げ成功したとする。この時刻T
7(T7、T6、T5、T4、T3、T2、T1の順に
時刻は古い)に計算機管理部16が立上げ成功報告を受
けた時に、物理番号1のCPUが構成から切り離されて
いるので、図9(b)に示されるように構成情報テーブ
ル30には、物理番号1のCPUの失敗時刻がT7に変
更される。切り離されていなかった物理番号2と3と4
のCPUに対応する立上げ失敗時刻の履歴には何も追加
されず、立上げ失敗回数は変更されない。そして、立上
げ失敗履歴の中の時刻が判定開始時刻に設定された時刻
以降に立上げが失敗した回数をカウントし、立上げ失敗
回数に設定する。この立上げ失敗回数と立上げ失敗時
刻、物理番号を元に、切り離しCPU仮番号は、最も立
上げ失敗時刻が新しい物理番号1のCPUが1、立上げ
失敗時刻は同じであるが、立上げ失敗回数が大きい物理
番号4のCPUが2、立上げ失敗回数が小さい物理番号
2のCPUが3、立上げ失敗時刻の最も古い物理番号3
のCPUが4となる。次回の立上げのリトライ実行時に
は、この情報を基に物理番号1のCPU→物理番号4の
CPU→物理番号2のCPU→物理番号3のCPU→物
理番号1と4のCPU→物理番号1と2のCPU→物理
番号1と3のCPU→物理番号4と2のCPU→物理番
号4と3のCPU→物理番号2と3のCPU→物理番号
1と4と2のCPU→物理番号1と4と3のCPU→物
理番号1と2と3のCPU→物理番号4と2と3のCP
Uという順序でCPUが切り離される。
【0029】計算機管理部に外部インタフェースを設け
て、構成情報テーブルのエラー時刻等を変更して次回の
リトライ順序を制御する場合を説明する。まず、テーブ
ルが図10(a)変更前の状態でソフトウェアがインタ
フェース15および通信路18を介して構成情報テーブ
ル30の物理番号4の立上げ失敗時刻をT8(T8はT
7より後、T7はT6より後、T6はT5より後の時
刻)に書き換えたとする。また、物理番号4のCPUに
対応する立上げ失敗回数は1増やされたとする。物理番
号1と2と3のCPUに対応する立上げ失敗時刻と立上
げ失敗回数は変更されない。この場合には、従って切り
離しCPU仮番号は、最も立上げ失敗時刻の新しい物理
番号4のCPUが1、次に立上げ失敗時刻が新しい物理
番号3のCPUが2、次に立上げ失敗時刻の新しい物理
番号2のCPUが3、一番古い物理番号1のCPUが4
となる。従って次回の立上げのためのリセットのリトラ
イ実行時には、物理番号4のCPU→物理番号3のCP
U→物理番号2のCPU→物理番号1のCPU→物理番
号4と3のCPU→物理番号4と2のCPU→物理番号
4と1のCPU→物理番号3と2のCPU→物理番号3
と1のCPU→物理番号2と1のCPU→物理番号4と
3と2のCPU→物理番号4と3と1のCPU→物理番
号4と2と1のCPU→物理番号3と2と1のCPUと
いう順序でCPUが切り離される。
【0030】外部インタフェースは上記のソフトウェア
によるもの以外に、端末等を通じての情報によっても得
られる。以下にその場合を説明する。まず、テーブルが
図11(a)変更前の状態で、立上げ失敗があるCPU
1、2、3を交換したのち、サーバ管理端末19から保
守員が物理番号4のCPUの立上げ失敗時刻をT8と
し、立上げ失敗回数を1に書き換える。他のCPUはエ
ラーがなしと設定する。次回からのリセットのリトライ
実行時には、切り離しCPU仮番号を元に決定された切
離しCPUテーブル31の内容に基づき、物理番号4の
CPU→物理番号1のCPU→物理番号2のCPU→物
理番号3のCPU→物理番号4と1のCPU→物理番号
4と2のCPU→物理番号4と3のCPU→物理番号1
と2のCPU→物理番号1と3のCPU→物理番号2と
3のCPU→物理番号4と1と2のCPU→物理番号4
と1と3のCPU→物理番号4と2と3のCPU→物理
番号1と2と3のCPUという順序でCPUが切り離さ
れることになる。
【0031】こうすると、以前に立上げに失敗したCP
Uは立上げの最初から切り離すこともできるので、間欠
不良のCPUがある場合に、そのCPUを確実にシステ
ムから切り離すことができ、稼動時におけるシステムの
信頼性を高めることができるという効果がある。なお、
上記の本実施の形態では4CPUの場合を説明したが、
4CPU以上でも同様に実現できる。
【0032】実施の形態3.次に図12は、リセット制
御部27の中に切離しCPUテーブル31の写しを持つ
ようにしたサーバ機の構成を示すブロック図である。図
13において、図1に示す管理装置の要素と同じ要素は
同一番号を付して説明を省略する。新たな符号として、
38は計算機管理部16内の切離しCPUテーブル31
と同じ内容をリセット制御部27に写し取った切離しC
PUテーブルの写しである。
【0033】切離しCPUテーブルの写し31は電源投
入やリセットボタンの操作によるリセットの開始時に行
われるリセット制御部27と計算機管理部16の交信の
時に、計算機管理部16からリセット制御部27に渡さ
れる。実施の形態1では、リセット制御部27は、リト
ライの実行の度に計算機管理部16と交信を行い、その
リトライで切り離すべきCPUを知るが、本実施の形態
の装置では、最初のリセット実行時の交信で切離しCP
Uテーブル31の内容を受け取り、切離しCPUテーブ
ルの写し38として保持する。そして、リセットを実行
する時には、この切離しCPUテーブルの写し38の中
で指定されている物理番号のCPUに対応するCPU切
離し信号を有効にして、システムリセット要求信号線3
3を有効から無効にする。
【0034】従って、リセットのリトライ実行時に、リ
セット制御部27は切り離すべきCPUを計算機管理部
16との交信を行って知るのではなく、自らの中にある
切離しCPUテーブル38からの読み出しにより知るこ
とができるため、リセット制御部27と計算機管理部1
6との間の交信回数を減らすことができ、交信エラーな
どによる2次的な立上げ時の障害を軽減でき、信頼性を
高める効果がある。
【0035】
【発明の効果】以上のように、この発明によれば、リセ
ットによる立ち上げでエラーがあれば各CPU毎の立ち
上げ失敗時刻を記憶して次回のリトライ切り離し順序を
それに基づき指示し、それまでの最も近い時刻にエラー
を起こしたCPUを最初に切り離すので、立ち上げ成功
までのリトライの回数が短縮される可能性が高く、シス
テムの立ち上げ時間を短縮する効果がある。
【0036】最新時刻にエラーを起こしたCPUを最初
に切り離すので、立上げ成功までのリトライの回数が短
縮される可能性が高く、システムの立上げ時間を短縮す
る効果がある。
【0037】また、各CPU毎に立上げ失敗時刻と立上
げ失敗の累積回数を記憶するので、次回の立上げ成功ま
でのリトライの回数をさらに少なくし、システムの信頼
性を高め、また、立上げ時間を短縮する効果がある。
【図面の簡単な説明】
【図1】 この発明の一実施の形態であるマルチプロセ
ッサ立ち上げ管理装置を持つ計算機の構成ブロック図で
ある。
【図2】 実施の形態1の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図3】 実施の形態1の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図4】 実施の形態2の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図5】 実施の形態2の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図6】 実施の形態2の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図7】 実施の形態2の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図8】 実施の形態2の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図9】 実施の形態2の計算機管理手段内の構成情報
テーブルと切離しCPUテーブルの情報の例を示した図
である。
【図10】 実施の形態2の計算機管理手段内の構成情
報テーブルと切離しCPUテーブルの情報の例を示した
図である。
【図11】 実施の形態2の計算機管理手段内の構成情
報テーブルと切離しCPUテーブルの情報の例を示した
図である。
【図12】 実施の形態3のマルチプロセッサ立ち上げ
管理装置を持つ計算機の構成ブロック図である。
【図13】 従来例のマルチプロセッサ構成のサーバ機
を示すブロック図である。
【符号の説明】
1 サーバ機(計算機)、2 システムボード、3 C
PUバス、4 主記憶、5 CPU間交信用ICCバ
ス、51〜54 CPU、6 バスブリッジ、7ローカ
ルバス、8a〜8d コントローラ、9 CRT、10
キーボード、11 フロッピ・ディスク装置、12
磁気ディスク装置、13 初期化プログラム格納用RO
M、14 RAM、15 インタフェース、16 計算
機管理部、18 通信路、19 サーバ管理端末、22
パワーオンリセット生成部、23 パワーオンリセッ
ト信号線、241〜244 CPU切離し信号、25
リアルタイムクロック、26 リセットボタン、27
リセット制御部、281〜284 CPUエラー信号、
30 構成情報テーブル、31 切離しCPUテーブ
ル、32 タイムアウト検出機構、33 システムリセ
ット要求信号線、34OR回路、35 システムリセッ
ト信号線、36 バスモニタ部、37 リセット通信
路、38 切離しCPUテーブルの写し。

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 共通バス上に接続される複数のCPUか
    らなるマルチプロセッサ構成の計算機において、 電源投入またはリセット時の立ち上げにおけるエラーを
    起こしたCPUを時刻と共に記憶する構成情報テーブル
    と、 上記構成情報テーブルの記憶値に基づき所定の組合せの
    CPUを切り離しリトライ指示する計算機管理手段を備
    えて、 それまでの最近時刻にエラーを起こしたCPUを最初に
    切り離してリトライを指示するようにしたことを特徴と
    する マルチプロセッサ立ち上げ管理装置。
  2. 【請求項2】 計算機管理手段は、最新時刻で複数のC
    PUが立ち上げエラーを起こした場合は該当する複数の
    CPUを最初に同時に切り離すよう指示することを特徴
    とする請求項1記載のマルチプロセッサ立ち上げ管理装
    置。
  3. 【請求項3】 構成情報テーブルには、立ち上げにおけ
    るエラー回数を記憶する欄を付加し、計算機管理手段
    は、累積エラー回数を加味して最初のリトライの切り離
    しCPUを指示することを特徴とする請求項1記載のマ
    ルチプロセッサ立ち上げ管理装置。
  4. 【請求項4】 構成情報テーブルには、立ち上げにおけ
    るエラー以外に稼働中におけるエラーの回数も記憶する
    ようにして、上記立ち上げにおけるエラーと稼働中にお
    けるエラーとを加えて累積エラーとしたことを特徴とす
    る請求項3記載のマルチプロセッサ立ち上げ管理装置。
  5. 【請求項5】 構成情報テーブルには、外部とのインタ
    フェースを設け、外部信号によりエラー回数またはエラ
    ー時刻の変更ができるようにしたことを特徴とする請求
    項1記載のマルチプロセッサ立ち上げ管理装置。
JP8309356A 1996-11-20 1996-11-20 マルチプロセッサ立ち上げ管理装置 Expired - Fee Related JP3001818B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8309356A JP3001818B2 (ja) 1996-11-20 1996-11-20 マルチプロセッサ立ち上げ管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8309356A JP3001818B2 (ja) 1996-11-20 1996-11-20 マルチプロセッサ立ち上げ管理装置

Publications (2)

Publication Number Publication Date
JPH10149343A JPH10149343A (ja) 1998-06-02
JP3001818B2 true JP3001818B2 (ja) 2000-01-24

Family

ID=17992024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8309356A Expired - Fee Related JP3001818B2 (ja) 1996-11-20 1996-11-20 マルチプロセッサ立ち上げ管理装置

Country Status (1)

Country Link
JP (1) JP3001818B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5821378B2 (ja) * 2011-08-05 2015-11-24 日本電気株式会社 サーバシステム、制御方法及びプログラム
US9846583B2 (en) * 2015-12-15 2017-12-19 Xilinx, Inc. Hardware power-on initialization of an SoC through a dedicated processor
CN113294374A (zh) * 2021-07-27 2021-08-24 亿昇(天津)科技有限公司 一种多联机磁悬浮鼓风机控制方法及控制系统

Also Published As

Publication number Publication date
JPH10149343A (ja) 1998-06-02

Similar Documents

Publication Publication Date Title
JP2537054B2 (ja) 情報伝達方式
JP2532317B2 (ja) プロセス制御システムにおける汎用入出力冗長方式のバックアップ方法
CN101714108B (zh) 同步控制设备、信息处理设备以及同步管理方法
EP1290556A1 (en) Fast relief swapping of processors in a data processing system
CN114116280B (zh) 交互式bmc自恢复方法、系统、终端及存储介质
JPH086910A (ja) クラスタ型計算機システム
JP3942216B2 (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法およびシステム監視・制御装置
EP1703392A2 (en) Method and apparatus for detecting failures in a partitioned large scale computer system
EP0477385A1 (en) Method of resetting adapter module at failing time and computer system executing said method
JP3001818B2 (ja) マルチプロセッサ立ち上げ管理装置
JP2002543521A (ja) 自動的にモジュールをコンピュータシステムに再び組み込む方法および装置
US11221926B2 (en) Information processing system and information processing apparatus
JP2003256240A (ja) 情報処理装置及びその障害回復方法
JP2003330905A (ja) コンピュータシステム
JP3448197B2 (ja) 情報処理装置
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JPH08329006A (ja) 障害通知方式
JP3161319B2 (ja) マルチプロセッサシステム
US20230138408A1 (en) Communication interface adapter, method for dynamic pid assignment, and method for automatically diagnosing peripheral device and recovering peripheral device found to be in abnormal operation
JP2998804B2 (ja) マルチマイクロプロセッサシステム
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPH09198334A (ja) データ伝送システムの障害管理方法
JP2000357128A (ja) バックアップメモリ構成方式および通信伝送システム
JPH07248929A (ja) 上位装置及びこれを用いた再立上げシステム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040520

LAPS Cancellation because of no payment of annual fees