JP3001818B2

JP3001818B2 - マルチプロセッサ立ち上げ管理装置

Info

Publication number: JP3001818B2
Application number: JP8309356A
Authority: JP
Inventors: 隆斎藤
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1996-11-20
Filing date: 1996-11-20
Publication date: 2000-01-24
Anticipated expiration: 2016-11-20
Also published as: JPH10149343A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、入出力処理及び
プログラム処理を実行する複数のプロセッサ（ＣＰＵ）
を共有バスで接続してなるマルチプロセッサ構成の計算
機立上げ処理技術に関するものである。

【０００２】

【従来の技術】図１３は複数ＣＰＵを有する特に、任意
のプロセッサで入出力処理及びプログラム処理が可能な
対称型マルチプロセッサ構成の従来のサーバ機を示すブ
ロック図である。図１３において、１はサーバ機、２は
システムボード、３はＣＰＵバス、４は主記憶、５１〜
５４はＣＰＵバス３から挿抜可能なＣＰＵ、５はＣＰＵ
間で交信を行うためのＩＣＣバス、６は上記ＣＰＵバス
３と周辺機器コントローラが接続されるローカルバス７
とのバスブリッジ、１４はＣＰＵ５１〜５４から書き込
み及び読み出し可能なＲＡＭ、８ａ〜８ｄはそれぞれＣ
ＲＴ９、キーボード１０、フロッピ・ディスク装置１
１、及び磁気ディスク装置１２等の周辺機器を制御し、
主記憶４との間でデータ転送を行う周辺機器コントロー
ラ、１３は電源投入時あるいはリセット実行時にシステ
ムを立ち上げるためのプログラムを保存する初期化プロ
グラム格納用のＲＯＭである。

【０００３】また、２２はパワーオンリセット生成部、
２３はパワーオンリセット信号線、２６はリセットボタ
ン、３３はシステムリセット要求信号線、３５はシステ
ムリセット信号線、３４はパワーオンリセット２３とシ
ステムリセット要求信号線の論理和をとってシステムリ
セット信号線に出力するＯＲ回路、２４１〜２４４はＣ
ＰＵ５１〜５４をそれぞれ指定して切り離すＣＰＵ切離
し信号線、２７は電源投入及びリセットボタン２６の指
示によりシステムリセット要求信号線３３にシステムリ
セット要求信号を生成したり、ＣＰＵ切離し信号線２４
１〜２４４にＣＰＵ切離し信号を生成するリセット制御
部、３６はリセット制御部に内蔵されるバスモニタ部、
３２はリセット制御部に内蔵されるタイムアウト検出機
構である。

【０００４】次に動作について説明する。サーバ機１の
電源を投入するとパワーオンリセット生成部２２はパワ
ーオンリセット信号線２３にパワーオンリセット信号を
生成し、リセット制御部２７を初期化すると共に、ＯＲ
回路３４を経由してシステムリセット信号線３５が有効
となり、ＣＰＵ５１〜５４とシステムボード２上のリセ
ット可能なハードウェアをリセットして初期化する。リ
セット制御部２７は、上記パワーオンリセット信号によ
り、システムリセット要求信号線３３は有効の状態に、
また、ＣＰＵ切離し信号線２４１〜２４４は全て無効の
状態に初期化される。上記のパワーオンリセット信号が
無効になると、リセット制御部２７がまず動作を開始
し、システムリセット要求信号線３３を有効の状態に
し、ＣＰＵ切離し信号線２４１〜２４４を全て無効の状
態にする。サーバ機の電源が投入された後、リセットス
イッチ２６が操作された場合にも、リセット制御部２７
はシステムリセット要求信号線３３を有効の状態にし、
また、ＣＰＵ切離し信号線２４１〜２４４を全て無効の
状態にする。その後、リセット制御部２７は、システム
ボード２上のハードウェアのリセットに必要な時間が経
過した後、ＣＰＵ切離し信号線２４１〜２４４を全て無
効の状態にしたまま、システムリセット要求信号線３３
を無効の状態にすると同時にタイムアウト検出機構３２
をスタートさせる。システムリセット要求信号３３が無
効になることでシステムリセット信号線３５が無効とな
り、全てのＣＰＵ５１〜５４が起動し、初期化プログラ
ム格納用ＲＯＭ１３の特定アドレスからの初期化プログ
ラム実行を開始する。

【０００５】また、ＩＣＣバス５を介したＣＰＵ間の交
信により、唯一のメインＣＰＵとその他のスレーブＣＰ
Ｕが決まる。全てのスレーブＣＰＵはＲＡＭ１４のそれ
ぞれに特定なアドレスの内容を参照してメインＣＰＵか
らの存在確認指示（前記ＲＡＭ１４の特定アドレスの内
容が”１”になった場合存在確認指示となる）があるま
で、ＲＯＭ１３に格納されたループ処理を実行する。存
在確認指示があった場合、ＲＡＭ１４の中のＣＰＵ情報
格納領域にスレーブＣＰＵに特有な情報を書き込んだ
後、前記の特定アドレスに”０”を書込んで、そのスレ
ーブＣＰＵの存在することを示した後、無限ループ処理
またはＨＡＬＴ命令を実行して、初期化処理を完了す
る。メインＣＰＵはスレーブＣＰＵの存在を確認するた
め、各スレーブＣＰＵに対応したＲＡＭ１４の特定アド
レスに”１”を書き込んで存在確認指示を出した後、そ
の特定アドレスが”０”に書き戻され、該当するスレー
ブＣＰＵが存在を示すのを待つ。一定時間内に存在が確
認されるとＲＡＭ１４のＣＰＵ情報格納領域の中に該当
するスレーブＣＰＵが存在することを示すフラグをセッ
トする。一定時間内に存在が確認されなかった場合、Ｒ
ＡＭ１４のＣＰＵ情報格納領域の中の該当するスレーブ
ＣＰＵが存在することを示すフラグをクリアする。同様
な処理を繰り返し、全てのスレーブＣＰＵの存在を確認
する。マスタＣＰＵは、全てのスレーブＣＰＵの存在確
認を完了した後、システムボード上のハードウェアの診
断を実行し、問題がなければ、ローカルバス７上に特定
アドレスを指定して特殊コード（以下、この特定アドレ
スを指定しての特殊コードをブート・コードと称する）
を出力した後、フロッピ・ディスク装置１１または磁気
ディスク装置１２から初期プログラムロードを開始す
る。これによりオペレーティングシステムが立ち上が
り、サーバ機１のシステム運転が開始される。

【０００６】リセット制御部２７はタイムアウト検出機
構３２をスタートさせた時点から、バスモニタ部３６に
より上記ブート・コードが出力されるのをモニタする。
一定時間内にローカルバス７上にブート・コードが出力
された場合、サーバ機１の立上げが成功したとして、リ
セット制御部２７はタイムアウト検出機構３２を停止さ
せる。一定時間内にローカルバス７上にブート・コード
が出力されなかった場合、タイムアウト検出機構３２が
タイムアウトを検出し、リセット制御部２７は何れかの
ＣＰＵが故障していると判断する。しかし、リセット制
御部２７には何れのＣＰＵが故障しているのかわからな
いため、先ずＣＰＵ５１への切り離し信号線２４１を有
効にし、他の切り離し信号２４２〜２４４は無効にした
後、システムリセット要求信号線３３を有効の状態にし
てリセットのリトライを実行する。その後、リセット制
御部２７は、システムボード２上のハードウェアのリセ
ットに必要な時間が経過した後、ＣＰＵ切離し信号線２
４１〜２４４の状態を保持したまま、システムリセット
要求信号線３３を無効の状態にすると同時にタイムアウ
ト検出機構３２をスタートさせる。システムリセット要
求信号３３が無効になることでシステムリセット信号線
３５が無効となり、切り離されていない全てのＣＰＵが
起動し、初期化プログラム格納用ＲＯＭ１３の特定アド
レスからの初期化プログラム実行を開始する。以降、ブ
ート・コードが検出されて立上げ成功するまで、切り離
すＣＰＵを物理番号２のＣＰＵ→物理番号３のＣＰＵ→
物理番号４のＣＰＵ→物理番号１と２のＣＰＵ→物理番
号１と３のＣＰＵ→・・・→物理番号３と４のＣＰＵ→
物理番号１と２と３のＣＰＵ→・・・というように順番
に、さらに、１つのＣＰＵの切り離しで成功しなかった
場合には２つのＣＰＵの組合せ、３つのＣＰＵの組合せ
と切り離すＣＰＵを変えてゆき、ＣＰＵの構成を変更し
てリセットによる立上げのリトライを繰り返す。

【０００７】

【発明が解決しようとする課題】従来の立上げ方式で
は、故障したＣＰＵが判明した後でも、サーバの電源切
断／投入またはリセットスイッチによるリセットが実行
された場合には、ＣＰＵを順次切り離して行うリトライ
時に、故障したＣＰＵが分からなかった時と同じ順序の
切り離し動作が行われるため、立上げに時間がかかると
いう課題があった。また、間欠的に障害を発生するＣＰ
Ｕが判明しても、構成から外されずにシステムの立上げ
が行われてしまい、システム運転が開始されてから障害
が発生して、システムの信頼性を低くするという課題が
あった。

【０００８】この発明は上記のような課題を解消するた
めになされたもので、一度故障したあるいは間欠的な障
害のあるＣＰＵが判明した後は、最も最近に故障もしく
は障害が発生したＣＰＵから順にシステムから切り離す
ことでシステムの立上げを高速に行うことを目的とす
る。また、エラーを発生したことのあるＣＰＵを構成か
ら外して速やかな立上げを行い、また、システム稼動時
の信頼性を向上させることを目的とする。

【０００９】

【課題を解決するための手段】この発明に係るマルチプ
ロセッサ立ち上げ管理装置は、共通バス上に接続される
複数のＣＰＵからなるマルチプロセッサ構成の計算機に
おいて、電源投入またはリセット時の立ち上げにおける
エラーを起こしたＣＰＵを時刻と共に記憶する構成情報
テーブルと、構成情報テーブルの記憶値に基づき所定の
組合せのＣＰＵを切り離しリトライ指示する計算機管理
手段を備えて、それまでの最近時刻にエラーを起こした
ＣＰＵを最初に切り離してリトライを指示するようにし
た。

【００１０】

【００１１】また更に、計算機管理手段は、最新時刻で
複数のＣＰＵが立ち上げエラーを起こした場合は該当す
る複数のＣＰＵを最初に同時に切り離すよう指示するよ
うにした。

【００１２】また更に、構成情報テーブルには、立ち上
げにおけるエラー回数を記憶する欄を付加し、計算機管
理手段は、累積エラー回数を加味して最初のリトライの
切り離しＣＰＵを指示するようにした。

【００１３】また更に、構成情報テーブルには、立ち上
げにおけるエラー以外に稼働中におけるエラーの回数も
記憶するようにして、上記立ち上げにおけるエラーと稼
働中におけるエラーとを加えて累積エラーとした。

【００１４】また更に、構成情報テーブルには、外部と
のインタフェースを設け、外部信号によりエラー回数ま
たはエラー時刻の変更ができるようにした。

【００１５】

【発明の実施の形態】

実施の形態１．本発明の一実施の形態であるマルチプロ
セッサ立ち上げ管理装置を持つ計算機の構成と動作を図
に基づいて説明する。図１は上記マルチプロセッサ立ち
上げ管理装置を持つ対称型マルチプロセッサ構成の計算
機のブロック構成図である。図において、１５はローカ
ルバスに設けられ通信路を接続するインタフェース、１
６はシステムボード２とは別の電源で動作し、サーバの
構成や動作状態を監視したり、リセットのシーケンス等
を管理する計算機管理部、１８はインタフェース１５を
介してソフトウェアと計算機管理部１６が交信する時に
使用する通信路、２５は計算機管理部のリアルタイムク
ロック、３０は計算機管理部１６の中に記憶される構成
情報テーブル、３１は構成情報テーブルを元に生成され
る切離しＣＰＵテーブル、３７はリセット制御部２７と
計算機管理部１６が交信する時に使用するリセット監視
通信路、１９は計算機管理部と交信し、内部の構成情報
テーブル３１や切離しＣＰＵテーブル３１などを参照し
たり変更したりすることが可能なサーバ管理端末であ
る。その他の番号の要素は、図１３の構成の装置の対応
する要素と同等のものである。

【００１６】図２は構成情報テーブルに記憶される情報
の例と、それを利用してリトライ時の切り離しＣＰＵを
順次指示するための切離しＣＰＵテーブルの情報の例を
示した図である。ちなみにリトライとは、リセット時の
最初の立ち上げで失敗した場合に、次にあるＣＰＵを切
り離して再び立ち上げることをいう。図２（ａ）の変更
前部分は計算機管理部１６が初期化されてから、全ての
ＣＰＵが正常であり、計算機１の立上げが全て成功して
いる時点での構成情報テーブル３０と切離しＣＰＵテー
ブル３１の内容を示す。立上げが成功した時点で、構成
から切り離されていたＣＰＵは１つもなかったため、リ
トライ時の切り離しＣＰＵ仮番号はＣＰＵ物理番号と等
しく、リセットによる立上げリトライが行われた場合に
切り離すＣＰＵの順序は、従来リセット制御部２７のみ
で行われていた場合と同じである。図中の切り離しテー
ブルの１、２、３、４はＣＰＵ物理番号を示し、例えば
リトライ５回目の上から１、２とあるのは、リトライ５
回目ではＣＰＵ１と２を切り離して立ち上げたことを示
している（残りのＣＰＵ３と４だけが接続されてい
る）。また、例えばリトライ５回目で立ち上げに成功し
た場合は、システムとしてはＣＰＵ３と４だけが接続さ
れて動作していることを示している。

【００１７】次に、本実施の形態１に係る計算機の動作
を説明する。いま、物理番号３のＣＰＵ５３に故障が生
じ、時刻Ｔ１にこのＣＰＵを切り離してシステムの立上
げが成功した場合を図２（ａ）と図２（ｂ）を用いて説
明する。まず、図２（ａ）のように各ＣＰＵにエラーが
ない状態で計算機１の電源が投入されると、パワーオン
リセット生成部２２はパワーオンリセット信号線２３に
パワーオンリセット信号を生成し、リセット制御部２７
を初期化する。また、ＯＲ回路３４を経由してシステム
リセット信号線３５にシステムリセット信号線が有効と
なり、全ての物理番号１のＣＰＵ５１〜物理番号４のＣ
ＰＵ５４とシステムボード２上のリセット可能なハード
ウェアをリセットして初期化する。リセット制御部２７
は、上記パワーオンリセット信号により、システムリセ
ット要求信号線３３は有効の状態に、また、ＣＰＵ切離
し信号線２４１〜２４４は全て無効の状態に初期化され
る。上記のパワーオンリセット信号が無効になると、リ
セット制御部２７が動作を開始し、システムリセット要
求信号線３３を有効の状態にし、また、ＣＰＵ切離し信
号線２４１〜２４４を全て無効の状態にする。

【００１８】そして、リセット制御部２７は計算機管理
部１６とリセット通信路３７を介して交信を行い、シス
テムリセット要求信号３３を解除する時のＣＰＵの構成
を計算機管理部１６から得る。この場合、今回の立上げ
の最初のリセットであるため、計算機管理部１６は切り
離すＣＰＵなしを指定する。リセット制御部２７はこの
指定を受け、ＣＰＵ切離し信号線２４１〜２４４を全て
無効の状態にしたまま、システムリセット要求信号３３
を無効にし、タイムアウト検出機構３２をスタートさせ
る。上記状態で例えば物理番号３のＣＰＵ５４が固定故
障していると仮定すると、一定時間内にブート・コード
が検出されず、リセット制御部２７はリセットのリトラ
イを実行する。リトライの実行にあたり、リセット制御
部２７は再び計算機管理部１６との交信を行い、ＣＰＵ
の構成を計算機管理部１６から獲得する。この時計算機
管理部１６は図２（ａ）の構成情報テーブル３０の情報
から、切離しＣＰＵテーブル３１の指示内容を設定し
て、リトライ１回目に切り離すＣＰＵとして物理番号１
のＣＰＵ５１を指定する。リセット制御部２７はこの指
定により、ＣＰＵ切離し信号線２４１を有効に、その他
をＣＰＵ切離し信号線２４２〜２４４を無効にして、シ
ステムリセット要求信号３３をシステムボード２上のハ
ードウェアのリセットに必要な一定時間有効にした後、
無効に戻し、タイムアウト検出機構３２をスタートさせ
る。

【００１９】しかし、この場合も立上げに失敗し、一定
時間内にブート・コードが検出されず、リセット制御部
２７はリセットのリトライを再実行する。以下、計算機
管理部１６内の切離しＣＰＵテーブル３１の指示内容に
基づき、物理番号２のＣＰＵ５２を次に切り離してリト
ライを行うが立上げに失敗する。３回目のリトライで、
物理番号３のＣＰＵ５３を切り離してリトライを行った
時に、立上げが成功し、リセット制御部２７では、バス
モニタ部３６がブート・コードを検出して、タイムアウ
ト検出機構３２を停止させ、かつ、計算機管理部１６に
対して立上げ成功を通知する。この通知を受けとった時
のリアルタイムクロック２５の時刻がＴ１とすると、図
２（ｂ）に示すように、計算機管理部１６は立上げ成功
の通知を受けとった時刻Ｔ１とその時のＣＰＵの構成状
態（この場合は物理番号３のＣＰＵ５３のみ切り離し状
態）を元に構成情報テーブル３０を変更し、さらに、構
成情報テーブルを元に切離しＣＰＵテーブル３１の指示
内容を変更する。即ち、構成情報テーブル３０の内、物
理番号３のＣＰＵに対応する最近立上げ失敗時刻はＴ１
になり、その他のＣＰＵに対応する最近立上げ失敗時刻
は変更されない（この場合、立上げ失敗時刻なしのまま
である）。

【００２０】また、切り離しＣＰＵ仮番号は物理番号１
のＣＰＵが２、物理番号２のＣＰＵが３、物理番号３の
ＣＰＵが１、物理番号４のＣＰＵが４となる。切離しＣ
ＰＵテーブル３１は切り離しＣＰＵ仮番号を元に図２
（ｂ）変更後のように更新される。即ち、次回のリトラ
イ時の切り離しＣＰＵがＣＰＵ仮番号１、２、３、４の
順になるようにする。計算機管理部１６の電源はシステ
ムボード２と別電源であるため、サーバ機１の電源、す
なわちシステムボード２の電源が切断されても、上記構
成情報テーブル３０および切離しＣＰＵテーブル３１は
計算機管理部内に保持され、次回サーバ機１の電源投入
あるいはリセットボタン２６の操作によるサーバ機の立
上げ時に計算機管理部で使用できる。次回の立上げのた
めのリセットのリトライ実行時には、切り離しＣＰＵ仮
番号を元に決定された切離しＣＰＵテーブル３１の内容
に基づき、物理番号３のＣＰＵ→物理番号１のＣＰＵ→
物理番号２のＣＰＵ→物理番号４のＣＰＵ→物理番号３
と１のＣＰＵ→物理番号３と２のＣＰＵ→物理番号３と
４のＣＰＵ→物理番号１と２のＣＰＵ→物理番号１と４
のＣＰＵ→物理番号２と４のＣＰＵ→物理番号３と１と
２のＣＰＵ→物理番号３と１と４のＣＰＵ→物理番号３
と２と４のＣＰＵ→物理番号１と２と４のＣＰＵという
順序でＣＰＵが切り離されることになる。勿論、例えば
リトライ１回目で立ち上げに成功すると、その時点でリ
トライが終わってシステムとしては物理番号３のＣＰＵ
のみが切り離された状態で運用される。

【００２１】本実施の形態で、複数のＣＰＵが同時に立
ち上げにエラーが生じて切り離されて、その状態で立ち
上げ成功した場合を図３を用いて説明する。図３（ａ）
変更前で示されるように、物理番号３のＣＰＵが時刻Ｔ
１に立上げ失敗していたサーバ機１において、物理番号
３のＣＰＵを交換して、立上げが成功し、更に後に物理
番号２と４のＣＰＵにエラーが生じてこのＣＰＵを切り
離してシステムの立ち上げが成功した場合を図３
（ａ）、（ｂ）を用いて説明する。まず、図３（ａ）の
状態でリセット時の立ち上げをするのであるが、この場
合はリトライ１０回目、ＣＰＵ物理番号２と４を同時に
切り離して成功したとする。計算機管理部１６がリセッ
ト制御部２７から立上げ成功の通知を受けた時刻をＴ２
（当然、Ｔ２はＴ１より後の時刻）とすると、切り離さ
れていなかった物理番号１と物理番号３のＣＰＵに対応
する立上げ失敗時刻は変更されず、物理番号２と物理番
号４に対応する立上げ失敗時刻がＴ２に変更される。ま
た、切り離しＣＰＵ仮番号は、それまで一度も立上げに
失敗していない物理番号１のＣＰＵが４、最も立上げ失
敗時刻の新しいＣＰＵの内で最も物理番号の小さい物理
番号２のＣＰＵが１、立上げ失敗時刻の最も古い物理番
号３のＣＰＵが３、物理番号２のＣＰＵと立上げ失敗時
刻は同じであるが、物理番号の大きい物理番号４のＣＰ
Ｕが２となる。次回の立上げのためのリセットのリトラ
イ実行時には、上記の切り離しＣＰＵ仮番号を元に決定
された切離しＣＰＵテーブル３１の指示内容による。即
ち、物理番号２のＣＰＵ→物理番号４のＣＰＵ→物理番
号３のＣＰＵ→物理番号１のＣＰＵ→物理番号２と４の
ＣＰＵ→物理番号２と３のＣＰＵ→物理番号２と１のＣ
ＰＵ→物理番号４と３のＣＰＵ→物理番号４と１のＣＰ
Ｕ→物理番号３と１のＣＰＵ→物理番号２と４と３のＣ
ＰＵ→物理番号２と４と１のＣＰＵ→物理番号２と３と
１のＣＰＵ→物理番号４と３と１のＣＰＵという順序で
ＣＰＵを切り離すよう指示する。

【００２２】実施の形態２．本実施の形態では、エラー
時刻以外にエラー回数を考慮してリトライ指示する場合
を説明する。本実施の形態の立ち上げ管理装置は、構成
としては図１の構成と同じで、構成情報テーブル３０に
エラー回数（立ち上げ失敗回数）欄を設ける。複数のＣ
ＰＵが同時に立ち上げ時にエラーが生じて切り離され、
その状態で立ち上げに成功した場合に、次回のリトライ
の指示を別の情報で行う場合を図４（ａ）、（ｂ）を用
いて説明する。即ち、エラー回数の多いものを先に切り
離す。まず、テーブルが図４（ａ）変更前の状態で計算
機１の立上げが行われ、しかしリセット時のリトライ９
回目（ＣＰＵ１と４を切り離し）で立ち上げが成功した
とする。この時刻Ｔ３（Ｔ３はＴ２より後、Ｔ２はＴ１
より後の時刻）に計算機管理部１６が立上げ成功報告を
受けた時に、物理番号１と４のＣＰＵが切り離されてい
るので、図４（ｂ）のように構成情報テーブル３０の内
容は、物理番号１と物理番号４に対応する立上げ失敗時
刻がＴ３に変更され、立上げ失敗回数がそれぞれ１ずつ
増やされる。しかし、切り離されていなかった物理番号
２と物理番号３のＣＰＵに対応する立上げ失敗時刻と立
上げ失敗回数は変更されない。

【００２３】切り離しＣＰＵ仮番号は、最も立上げ失敗
時刻の新しいＣＰＵの内で最も失敗回数の多い物理番号
４のＣＰＵが１、最も立上げ失敗時刻の新しいＣＰＵの
内で失敗回数の少ない物理番号１のＣＰＵが２、後は立
上げ失敗時刻の新しい順に物理番号２のＣＰＵが３、物
理番号３のＣＰＵが４となる。即ちエラー回数の多い物
理番号４のＣＰＵが先に切り離し指示される。次回の立
上げのためのリセットのリトライ実行時には、切り離し
ＣＰＵ仮番号を元に決定された切離しＣＰＵテーブル３
１の内容に基づき、物理番号４のＣＰＵ→物理番号１の
ＣＰＵ→物理番号２のＣＰＵ→物理番号３のＣＰＵ→物
理番号４と１のＣＰＵ→物理番号４と２のＣＰＵ→物理
番号４と３のＣＰＵ→物理番号１と２のＣＰＵ→物理番
号１と３のＣＰＵ→物理番号２と３のＣＰＵ→物理番号
４と１と２のＣＰＵ→物理番号４と１と３のＣＰＵ→物
理番号４と２と３のＣＰＵ→物理番号１と２と３のＣＰ
Ｕという順序でＣＰＵが切り離されることになる。

【００２４】複数のＣＰＵを同時に切り離して立ち上げ
に成功した後の、リトライ切り離し順序の他の設定方法
を説明する。即ち、次回にも複数ＣＰＵを同時に切り離
し指示する。まず、テーブルが図５（ａ）変更前の状態
でサーバ機１の立上げが行われ、しかしリセット時のリ
トライ９回目（ＣＰＵ１と３の同時切り離し）で立ち上
げが成功したとする。この時刻Ｔ４（Ｔ４はＴ３より
後、Ｔ３はＴ２より後の時刻、Ｔ２はＴ１より後の時
刻）に計算機管理部１６が立上げ成功報告を受けた時
に、物理番号１と３のＣＰＵが切り離されているので、
図５（ｂ）に示されるように構成情報テーブル３０の内
容は、物理番号１と物理番号３に対応する立上げ失敗時
刻がＴ４に変更され、立上げ失敗回数はそれぞれ１ずつ
増やされる。切り離されていなかった物理番号２と物理
番号４のＣＰＵに対応する立上げ失敗時刻と立上げ失敗
回数は変更されない。新しい設定方法では、次回のリト
ライ切り離し順序を以下のようにする。切り離しＣＰＵ
仮番号は、最も立上げ失敗時刻が新しく、失敗回数も等
しい物理番号１と３のＣＰＵが１、後は立上げ失敗時刻
の新しい順に、また物理番号４のＣＰＵが２、物理番号
２のＣＰＵが３となり、次回の立上げのための切離しＣ
ＰＵテーブル３１は上記の順で切り離し順序を指示す
る。即ち、物理番号１と３のＣＰＵ→物理番号４のＣＰ
Ｕ→物理番号２のＣＰＵ→物理番号１と３と４のＣＰＵ
→物理番号１と３と２のＣＰＵ→物理番号４と２のＣＰ
Ｕという順序でＣＰＵが切り離されることになる。図５
（ｂ）変更後で示されるように、ＣＰＵの構成変更によ
るリトライは６回で全ての組合せを完了することにな
る。

【００２５】過去の立ち上げ時のエラー回数に関係な
く、最新のエラーに基づく複数ＣＰＵの同時切り離しの
他の方法を説明する。まず、テーブルが図６（ａ）変更
前の状態で、計算機１の立上げが行われ、しかしリトラ
イ７回目（ＣＰＵ２と３と４の同時切り離し）で立ち上
げが成功したとする。この時刻Ｔ５（Ｔ５はＴ４より
後、Ｔ４はＴ３より後、Ｔ３はＴ２より後の時刻）に計
算機管理部１６が立上げ成功報告を受けた時に、物理番
号２と３と４のＣＰＵが構成から切り離されているの
で、図６（ｂ）に示されるように構成情報テーブル３０
の内容は、物理番号２と３と４のＣＰＵに対応する立上
げ失敗時刻がＴ５に変更される。また立上げ失敗回数は
まずそれぞれ１ずつ増やされた後、切り離された３つの
ＣＰＵの内で失敗回数が最大である物理番号４のＣＰＵ
の失敗回数に３つが全て等しくなるよう設定される。こ
の意味は、次回の切り離しを最新時刻Ｔ５でのエラーＣ
ＰＵを全て切り離す設定とする。切り離されていなかっ
た物理番号１のＣＰＵに対応する立上げ失敗時刻と立上
げ失敗回数は変更されない。こうして、次回のリトライ
切り離し順序は以下のようにする。切り離しＣＰＵ仮番
号は、最も立上げ失敗時刻の新しく、失敗回数も等しい
物理番号２と３と４のＣＰＵが１、立上げ失敗時刻の古
い物理番号１のＣＰＵが２となる。従って、次回の立上
げのためのリセットのリトライ実行順序は、切り離しＣ
ＰＵ仮番号を元に決定された切離しＣＰＵテーブル３１
の内容に基づき、物理番号２と３と４のＣＰＵ→物理番
号１のＣＰＵという順序でＣＰＵが切り離されることに
なる。図６（ｂ）変更後で示されるように、ＣＰＵの構
成変更によるリトライは２回で全ての組合せを完了する
ことになる。

【００２６】本実施の形態において、エラー回数として
立ち上げ時のエラーのみでなく、システム稼働中のＣＰ
Ｕエラーも考慮してリトライ順序を定める場合を説明す
る。まず、テーブルが図７（ａ）変更前の状態で、立ち
上げ時ではなくシステム稼働中の時刻Ｔ６（Ｔ６はＴ５
より後、Ｔ５はＴ４より後、Ｔ３はＴ２より後の時刻）
に計算機管理部１６が物理番号２のＣＰＵのエラーを検
出したとする。このとき物理番号２のＣＰＵに対応する
立上げ失敗時刻は物理番号２のＣＰＵのエラー発生時刻
Ｔ６に変更され、立上げ失敗回数は１増やされる。もち
ろん物理番号１と３と４のＣＰＵに対応する立上げ失敗
時刻と立上げ失敗回数は変更されない。そして、切り離
しＣＰＵ仮番号は、最も立上げ失敗時刻の新しい物理番
号２のＣＰＵが１、次に立上げ失敗時刻が新しく、失敗
回数も等しい物理番号３と４のＣＰＵが２、立上げ失敗
時刻の一番古い物理番号１のＣＰＵが３となる。従って
図７（ｂ）に示されるように、次回の立上げのためのリ
セットのリトライ実行時には、物理番号２のＣＰＵ→物
理番号３と４のＣＰＵ→物理番号１のＣＰＵ→物理番号
２と３と４のＣＰＵ→物理番号２と１のＣＰＵ→物理番
号３と４と１のＣＰＵという順序でＣＰＵが切り離され
ることになる。図７（ｂ）変更後の場合、ＣＰＵの構成
変更によるリトライは６回で全ての組合せを完了する。

【００２７】エラー時刻とエラー回数の許容度（しきい
値）との組合せによるリトライ順序設定を説明する。こ
の場合には例えば構成情報テーブルに許容しきい値の欄
を設ける。まず、テーブルが図８（ａ）変更前の状態で
サーバ機１の立上げが行われ、しかしリセット時のリト
ライ１回目で立ち上げが成功したとする。この時刻Ｔ１
に計算機管理部１６が立上げ成功報告を受けた時に、物
理番号１のＣＰＵが構成から切り離されているので、図
８（ｂ）に示すように切り離されていなかった物理番号
２と３と４のＣＰＵに対応する立上げ失敗時刻と立上げ
失敗回数は変更されない（従って、失敗回数は０のまま
である）。一方、物理番号１のＣＰＵに対応する立上げ
失敗時刻がＴ１に変更され、立上げ失敗回数が１増やさ
れて１となる。ただし、一度しきい値を超えたＣＰＵに
関する失敗回数をそれ以降増やすことはしない。切り離
しＣＰＵ仮番号は、立上げに失敗していないＣＰＵの
内、物理番号の順番に、物理番号２のＣＰＵが１、物理
番号３のＣＰＵが２、物理番号４のＣＰＵが３となり、
立上げに失敗した物理番号１のＣＰＵは０となる。ここ
で、切り離しＣＰＵ仮番号が０のＣＰＵは立上げの時に
常に切り離すよう計算機管理部１６からリセット制御部
２７に指示される。従って、次回の立上げにおいて常に
物理番号１のＣＰＵは切り離され、立上げのためのリセ
ットのリトライ実行時には、物理番号１と２のＣＰＵ→
物理番号１と３のＣＰＵ→物理番号１と４のＣＰＵ→物
理番号１と２と３のＣＰＵ→物理番号１と２と４のＣＰ
Ｕ→物理番号１と３と４のＣＰＵという順序でＣＰＵが
切り離されることになる。図８（ｂ）変更後の場合、Ｃ
ＰＵの構成変更によるリトライは６回で全ての組合せを
完了することになる。勿論、しきい値を２とか３に設定
する運用もできる。

【００２８】リトライ切り離し順序の設定にエラー時刻
以外に判定期間を考慮した場合を説明する。即ち、設定
した判定時刻以降でのＣＰＵのエラーにより順序を定め
るものである。まず、テーブルが図９（ａ）変更前の状
態でサーバ機１の立上げが行われ、しかしリセット時の
リトライ４回目に立ち上げ成功したとする。この時刻Ｔ
７（Ｔ７、Ｔ６、Ｔ５、Ｔ４、Ｔ３、Ｔ２、Ｔ１の順に
時刻は古い）に計算機管理部１６が立上げ成功報告を受
けた時に、物理番号１のＣＰＵが構成から切り離されて
いるので、図９（ｂ）に示されるように構成情報テーブ
ル３０には、物理番号１のＣＰＵの失敗時刻がＴ７に変
更される。切り離されていなかった物理番号２と３と４
のＣＰＵに対応する立上げ失敗時刻の履歴には何も追加
されず、立上げ失敗回数は変更されない。そして、立上
げ失敗履歴の中の時刻が判定開始時刻に設定された時刻
以降に立上げが失敗した回数をカウントし、立上げ失敗
回数に設定する。この立上げ失敗回数と立上げ失敗時
刻、物理番号を元に、切り離しＣＰＵ仮番号は、最も立
上げ失敗時刻が新しい物理番号１のＣＰＵが１、立上げ
失敗時刻は同じであるが、立上げ失敗回数が大きい物理
番号４のＣＰＵが２、立上げ失敗回数が小さい物理番号
２のＣＰＵが３、立上げ失敗時刻の最も古い物理番号３
のＣＰＵが４となる。次回の立上げのリトライ実行時に
は、この情報を基に物理番号１のＣＰＵ→物理番号４の
ＣＰＵ→物理番号２のＣＰＵ→物理番号３のＣＰＵ→物
理番号１と４のＣＰＵ→物理番号１と２のＣＰＵ→物理
番号１と３のＣＰＵ→物理番号４と２のＣＰＵ→物理番
号４と３のＣＰＵ→物理番号２と３のＣＰＵ→物理番号
１と４と２のＣＰＵ→物理番号１と４と３のＣＰＵ→物
理番号１と２と３のＣＰＵ→物理番号４と２と３のＣＰ
Ｕという順序でＣＰＵが切り離される。

【００２９】計算機管理部に外部インタフェースを設け
て、構成情報テーブルのエラー時刻等を変更して次回の
リトライ順序を制御する場合を説明する。まず、テーブ
ルが図１０（ａ）変更前の状態でソフトウェアがインタ
フェース１５および通信路１８を介して構成情報テーブ
ル３０の物理番号４の立上げ失敗時刻をＴ８（Ｔ８はＴ
７より後、Ｔ７はＴ６より後、Ｔ６はＴ５より後の時
刻）に書き換えたとする。また、物理番号４のＣＰＵに
対応する立上げ失敗回数は１増やされたとする。物理番
号１と２と３のＣＰＵに対応する立上げ失敗時刻と立上
げ失敗回数は変更されない。この場合には、従って切り
離しＣＰＵ仮番号は、最も立上げ失敗時刻の新しい物理
番号４のＣＰＵが１、次に立上げ失敗時刻が新しい物理
番号３のＣＰＵが２、次に立上げ失敗時刻の新しい物理
番号２のＣＰＵが３、一番古い物理番号１のＣＰＵが４
となる。従って次回の立上げのためのリセットのリトラ
イ実行時には、物理番号４のＣＰＵ→物理番号３のＣＰ
Ｕ→物理番号２のＣＰＵ→物理番号１のＣＰＵ→物理番
号４と３のＣＰＵ→物理番号４と２のＣＰＵ→物理番号
４と１のＣＰＵ→物理番号３と２のＣＰＵ→物理番号３
と１のＣＰＵ→物理番号２と１のＣＰＵ→物理番号４と
３と２のＣＰＵ→物理番号４と３と１のＣＰＵ→物理番
号４と２と１のＣＰＵ→物理番号３と２と１のＣＰＵと
いう順序でＣＰＵが切り離される。

【００３０】外部インタフェースは上記のソフトウェア
によるもの以外に、端末等を通じての情報によっても得
られる。以下にその場合を説明する。まず、テーブルが
図１１（ａ）変更前の状態で、立上げ失敗があるＣＰＵ
１、２、３を交換したのち、サーバ管理端末１９から保
守員が物理番号４のＣＰＵの立上げ失敗時刻をＴ８と
し、立上げ失敗回数を１に書き換える。他のＣＰＵはエ
ラーがなしと設定する。次回からのリセットのリトライ
実行時には、切り離しＣＰＵ仮番号を元に決定された切
離しＣＰＵテーブル３１の内容に基づき、物理番号４の
ＣＰＵ→物理番号１のＣＰＵ→物理番号２のＣＰＵ→物
理番号３のＣＰＵ→物理番号４と１のＣＰＵ→物理番号
４と２のＣＰＵ→物理番号４と３のＣＰＵ→物理番号１
と２のＣＰＵ→物理番号１と３のＣＰＵ→物理番号２と
３のＣＰＵ→物理番号４と１と２のＣＰＵ→物理番号４
と１と３のＣＰＵ→物理番号４と２と３のＣＰＵ→物理
番号１と２と３のＣＰＵという順序でＣＰＵが切り離さ
れることになる。

【００３１】こうすると、以前に立上げに失敗したＣＰ
Ｕは立上げの最初から切り離すこともできるので、間欠
不良のＣＰＵがある場合に、そのＣＰＵを確実にシステ
ムから切り離すことができ、稼動時におけるシステムの
信頼性を高めることができるという効果がある。なお、
上記の本実施の形態では４ＣＰＵの場合を説明したが、
４ＣＰＵ以上でも同様に実現できる。

【００３２】実施の形態３．次に図１２は、リセット制
御部２７の中に切離しＣＰＵテーブル３１の写しを持つ
ようにしたサーバ機の構成を示すブロック図である。図
１３において、図１に示す管理装置の要素と同じ要素は
同一番号を付して説明を省略する。新たな符号として、
３８は計算機管理部１６内の切離しＣＰＵテーブル３１
と同じ内容をリセット制御部２７に写し取った切離しＣ
ＰＵテーブルの写しである。

【００３３】切離しＣＰＵテーブルの写し３１は電源投
入やリセットボタンの操作によるリセットの開始時に行
われるリセット制御部２７と計算機管理部１６の交信の
時に、計算機管理部１６からリセット制御部２７に渡さ
れる。実施の形態１では、リセット制御部２７は、リト
ライの実行の度に計算機管理部１６と交信を行い、その
リトライで切り離すべきＣＰＵを知るが、本実施の形態
の装置では、最初のリセット実行時の交信で切離しＣＰ
Ｕテーブル３１の内容を受け取り、切離しＣＰＵテーブ
ルの写し３８として保持する。そして、リセットを実行
する時には、この切離しＣＰＵテーブルの写し３８の中
で指定されている物理番号のＣＰＵに対応するＣＰＵ切
離し信号を有効にして、システムリセット要求信号線３
３を有効から無効にする。

【００３４】従って、リセットのリトライ実行時に、リ
セット制御部２７は切り離すべきＣＰＵを計算機管理部
１６との交信を行って知るのではなく、自らの中にある
切離しＣＰＵテーブル３８からの読み出しにより知るこ
とができるため、リセット制御部２７と計算機管理部１
６との間の交信回数を減らすことができ、交信エラーな
どによる２次的な立上げ時の障害を軽減でき、信頼性を
高める効果がある。

【００３５】

【発明の効果】以上のように、この発明によれば、リセ
ットによる立ち上げでエラーがあれば各ＣＰＵ毎の立ち
上げ失敗時刻を記憶して次回のリトライ切り離し順序を
それに基づき指示し、それまでの最も近い時刻にエラー
を起こしたＣＰＵを最初に切り離すので、立ち上げ成功
までのリトライの回数が短縮される可能性が高く、シス
テムの立ち上げ時間を短縮する効果がある。

【００３６】最新時刻にエラーを起こしたＣＰＵを最初
に切り離すので、立上げ成功までのリトライの回数が短
縮される可能性が高く、システムの立上げ時間を短縮す
る効果がある。

【００３７】また、各ＣＰＵ毎に立上げ失敗時刻と立上
げ失敗の累積回数を記憶するので、次回の立上げ成功ま
でのリトライの回数をさらに少なくし、システムの信頼
性を高め、また、立上げ時間を短縮する効果がある。

【図面の簡単な説明】

【図１】この発明の一実施の形態であるマルチプロセ
ッサ立ち上げ管理装置を持つ計算機の構成ブロック図で
ある。

【図２】実施の形態１の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図３】実施の形態１の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図４】実施の形態２の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図５】実施の形態２の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図６】実施の形態２の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図７】実施の形態２の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図８】実施の形態２の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図９】実施の形態２の計算機管理手段内の構成情報
テーブルと切離しＣＰＵテーブルの情報の例を示した図
である。

【図１０】実施の形態２の計算機管理手段内の構成情
報テーブルと切離しＣＰＵテーブルの情報の例を示した
図である。

【図１１】実施の形態２の計算機管理手段内の構成情
報テーブルと切離しＣＰＵテーブルの情報の例を示した
図である。

【図１２】実施の形態３のマルチプロセッサ立ち上げ
管理装置を持つ計算機の構成ブロック図である。

【図１３】従来例のマルチプロセッサ構成のサーバ機
を示すブロック図である。

【符号の説明】

１サーバ機（計算機）、２システムボード、３Ｃ
ＰＵバス、４主記憶、５ＣＰＵ間交信用ＩＣＣバ
ス、５１〜５４ＣＰＵ、６バスブリッジ、７ローカ
ルバス、８ａ〜８ｄコントローラ、９ＣＲＴ、１０
キーボード、１１フロッピ・ディスク装置、１２
磁気ディスク装置、１３初期化プログラム格納用ＲＯ
Ｍ、１４ＲＡＭ、１５インタフェース、１６計算
機管理部、１８通信路、１９サーバ管理端末、２２
パワーオンリセット生成部、２３パワーオンリセッ
ト信号線、２４１〜２４４ＣＰＵ切離し信号、２５
リアルタイムクロック、２６リセットボタン、２７
リセット制御部、２８１〜２８４ＣＰＵエラー信号、
３０構成情報テーブル、３１切離しＣＰＵテーブ
ル、３２タイムアウト検出機構、３３システムリセ
ット要求信号線、３４ＯＲ回路、３５システムリセッ
ト信号線、３６バスモニタ部、３７リセット通信
路、３８切離しＣＰＵテーブルの写し。

Claims

(57)【特許請求の範囲】

【請求項１】共通バス上に接続される複数のＣＰＵか
らなるマルチプロセッサ構成の計算機において、電源投入またはリセット時の立ち上げにおけるエラーを
起こしたＣＰＵを時刻と共に記憶する構成情報テーブル
と、上記構成情報テーブルの記憶値に基づき所定の組合せの
ＣＰＵを切り離しリトライ指示する計算機管理手段を備
えて、それまでの最近時刻にエラーを起こしたＣＰＵを最初に
切り離してリトライを指示するようにしたことを特徴と
するマルチプロセッサ立ち上げ管理装置。
【請求項２】計算機管理手段は、最新時刻で複数のＣ
ＰＵが立ち上げエラーを起こした場合は該当する複数の
ＣＰＵを最初に同時に切り離すよう指示することを特徴
とする請求項１記載のマルチプロセッサ立ち上げ管理装
置。
【請求項３】構成情報テーブルには、立ち上げにおけ
るエラー回数を記憶する欄を付加し、計算機管理手段
は、累積エラー回数を加味して最初のリトライの切り離
しＣＰＵを指示することを特徴とする請求項１記載のマ
ルチプロセッサ立ち上げ管理装置。
【請求項４】構成情報テーブルには、立ち上げにおけ
るエラー以外に稼働中におけるエラーの回数も記憶する
ようにして、上記立ち上げにおけるエラーと稼働中にお
けるエラーとを加えて累積エラーとしたことを特徴とす
る請求項３記載のマルチプロセッサ立ち上げ管理装置。
【請求項５】構成情報テーブルには、外部とのインタ
フェースを設け、外部信号によりエラー回数またはエラ
ー時刻の変更ができるようにしたことを特徴とする請求
項１記載のマルチプロセッサ立ち上げ管理装置。