JPH1011319A

JPH1011319A - マルチプロセッサシステムの保守方法

Info

Publication number: JPH1011319A
Application number: JP8163986A
Authority: JP
Inventors: Ryuichi Hattori; 隆一服部; Yukihiro Seki; 行広関; Yasuhiro Hida; 庸博飛田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-06-25
Filing date: 1996-06-25
Publication date: 1998-01-16

Abstract

(57)【要約】【課題】マルチプロセッサ方式を採用したＰＣサーバ
において、プロセッサの故障あるいは障害をシステムを
停止させることなく検出する。【解決手段】各プロセッサボード及びメモリ等のサブ
システム毎にバウンダリスキャンメカニズムを採用した
テストバスを設け、サービスプロセッサに設けたテスト
バスコントローラから定期的に故障診断を行う。さら
に、スペアＣＰＵボードをホットスタンバイさせ、障害
の発生したＣＰＵボードをホットスワップする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数のプロセッサ
で構成されたマルチプロセッサシステムの保守方法に係
り、特に、システム動作中に障害発生を検出する保守方
法に関するものである。

【０００２】

【従来の技術】近年、パーソナルコンピュータやワーク
ステーションの高性能化が進み、プロセッサを複数個搭
載して演算処理性能を向上させるマルチプロセッサ方式
や、大容量かつ高性能な２次記憶装置等を備えたパーソ
ナルコンピュータサーバ、あるいはワークステーション
サーバと呼ばれる高性能システムが一般化しつつある。
このようなパーソナルコンピュータサーバ、ワークステ
ーションサーバを採用したクライアント・サーバシステ
ムは、従来のパーソナルコンピュータ、ワークステーシ
ョンは適用されていなかった企業の基幹業務等に広く採
用されるようになってきている。

【０００３】このような基幹業務をクライアント・サー
バシステムで担う場合には、システム全体の高信頼化を
図るため、サーバ装置の高信頼化及び保守性が重要な課
題となってきている。

【０００４】ところで、このような高信頼性を要求され
るサーバ装置の保守方法としては、定期的あるいは必要
に応じて装置の通常動作を停止して故障診断プログラム
を実行させ、障害発生の有無をソフトウエアで検出する
方法が一般に知られている。故障診断プログラムを実行
した結果、障害のあることがわかれば、装置の運用を停
止して障害発生部位の修理あるいは交換を行う。

【０００５】また、この故障検出をハードウエアレベ
ル、特にＬＳＩ単体及びプリント基板単位で実現する方
法としては、ＩＥＥＥＰ１１４９．１規格として標準
化されているバウンダリ・スキャン技術が知られてい
る。

【０００６】バウンダリ・スキャンは、プリント基板上
に存在するＩＣやＬＳＩをテストバスで接続し、ＩＣや
ＬＳＩをボード上に搭載したままでテストバスを通じて
スキャンデータを流し、その結果から各ＩＣ，ＬＳＩの
障害発生の有無、障害内容の解析を行うことができるよ
うにした規格である。

【０００７】バウンダリスキャン技術については、日経
ＢＰ社発行の日経エレクトロニクスNo.488号（1998年12
月11日発行）の３１４ページから３２０ページ、No.490
号（1990年1月8日発行）の３０１ページから３０７ペー
ジ、およびNo.492号（1990年2月5日発行）の２４５ペー
ジから２５１ページに記載されている。

【０００８】さらに、近年のパーソナルコンピュータサ
ーバにおいては、サーバ装置内部に温度センサを設ける
などして、サーバ装置の稼働状況や信頼性に関する情報
を定期的に収集し、ユーザインターフェースを通じてサ
ーバシステムの管理者に通知するマネージャ機能を有す
るものが登場してきた。このマネージャ機能によって、
サーバ装置の管理者は障害の発生とその発生部位を特定
し易くなるなど、サーバ装置の保守性向上が図られてい
る。また、このマネージャ機能を利用してサーバ装置の
遠隔保守を行うシステムも登場してきている。

【０００９】さらに、システム全体の信頼性を向上する
ための方法として、サーバ装置を２重化したり、バック
アップサーバを設けるなどの冗長化を図る方法も採用さ
れている。サーバ装置を２重に持つことで、１つのサー
バ装置が保守作業を行っている間でも、ユーザはバック
アップサーバからサービスを受けることが出来るので、
システムの運用性が向上する。

【００１０】

【発明が解決しようとする問題点】上記従来技術におい
ては、以下に述べるような問題点があった。

【００１１】すなわち、上記の従来の保守方法では、障
害発生の有無を調べるために定期的にサーバ装置の通常
動作を停止する必要があり、またサーバ装置の信頼性を
向上するためには、故障発生の有無を調べる診断プログ
ラムをより頻繁に実行させることが必要になる。そのた
め、故障診断プログラムを頻繁に実行すればするほど、
プログラム実行期間中にユーザがサーバ装置からサービ
スを受けられなくなる機会が多くなるという問題があ
る。

【００１２】また、サーバ装置の保守作業期間中もサー
ビスを継続して行うために、サーバ装置を２重化した
り、バックアップサーバ装置を設置するなどの方法を採
用した場合には、サーバ装置を複数台導入する必要があ
り、システム全体のコストが高くなるという問題があ
る。

【００１３】さらに、マルチプロセッサシステムにおい
ては、一部のプロセッサに障害が発生した場合に、障害
の発生したプロセッサを交換するためには、プロセッサ
を構成するＣＰＵまたはＣＰＵボードを物理的に交換す
る必要があり、通常は、必ずシステムとしての動作を停
止して電源を切断した後にＣＰＵまたはＣＰＵボードの
交換作業を行う必要がある。このため、プロセッサの保
守作業期間中はサーバ装置としての運用を行うことがで
きず、クライアント・サーバシステムのユーザはサーバ
装置からサービスを受けられないという問題もある。

【００１４】さらに、全てのＣＰＵを同一のシステムバ
スあるいはマルチプロセッサバスに接続しているマルチ
プロセッサシステムにおいては、障害の発生したプロセ
ッサを搭載したままでは同一バスに接続している他のＣ
ＰＵの動作に悪影響を与え、システムとしての信頼性が
低下する可能性がある。このため、物理的にＣＰＵまた
はＣＰＵボードをシステムバスまたはマルチプロセッサ
バスから切り離す、あるいは交換する必要があり、前記
マネージャ機能などを用いた遠隔保守方法では保守作業
に対応できないという問題点もある。

【００１５】本発明の目的は、マルチプロセッサシステ
ムのシステムとしての動作を停止せずに、各プロセッサ
毎に障害発生の有無を検出し、ユーザに対するサービス
が低下するのを防止することができるマルチプロセッサ
システムの保守方法を提供することにある。

【００１６】本発明の他の目的は、マルチプロセッサシ
ステムを構成する任意のプロセッサに障害が発生した場
合に、システムとしての動作を停止することなく障害の
発生したプロセッサをシステムから切り離し、交換等の
保守作業を行うことができるマルチプロセッサシステム
の保守方法を提供することにある。

【００１７】本発明のさらに他の目的は、マルチプロセ
ッサシステムを構成する任意のプロセッサに障害が発生
した場合に、障害の発生したプロセッサを速やかにシス
テム装置から切り離し、代替プロセッサをシステム装置
に組み込み、システム性能の低下を防止することができ
るマルチプロセッサシステムの保守方法を提供すること
にある。

【００１８】

【課題を解決するための手段】本発明は上記目的を達成
するために、ＬＳＩ内部の故障診断を行うためのテスト
信号を入力するテストアクセスポートを有する複数のＣ
ＰＵおよびメモリ等の周辺装置とを有するマルチプロセ
ッサシステムにおいて、前記ＣＰＵおよび周辺装置の故
障診断を行うためのテストデ−タを格納したテストデ−
タメモリと、前記ＣＰＵおよび周辺装置のアクセスポー
トを通じて前記テストデ−タメモリから読み出したテス
トデ−タを入力するアクセスポートコントローラとをマ
ルチプロセッサシステム内に設け、前記テストデ−タメ
モリからテストデ−タを予め設定した時間間隔で定期的
に読出し、該テストデ−タを前記アクセスポートを通じ
て複数のＣＰＵおよびその周辺装置に入力することによ
り、これら複数のＣＰＵおよび周辺装置の内部論理をス
キャンし、そのスキャン結果のデ−タに基づいて前記複
数のＣＰＵおよびその周辺装置の故障診断を行うことを
主要な特徴とする。

【００１９】ここで、アクセスポートコントローラの代
えて、マルチプロセッサシステム上で動作するオペレー
ティングシステムにより前記テストデ−タメモリからテ
ストデ−タを予め設定した時間間隔で定期的に読出し、
該テストデ−タを前記アクセスポートを通じて複数のＣ
ＰＵおよびその周辺装置に入力することにより、これら
複数のＣＰＵおよび周辺装置の内部論理をスキャンし、
そのスキャン結果のデ−タに基づいて前記複数のＣＰＵ
およびその周辺装置の故障診断を行うように構成するこ
とができる。

【００２０】また、前記アクセスポートコントローラ
に、診断対象を選択設定する選択レジスタと、故障診断
動作のモードを選択するテストモードレジスタとを設
け、これらのレジスタに対し、マルチプロセッサシステ
ムで動作するオペレーティングシステムから設定された
診断対象と故障診断動作のモードに従って診断対象の選
択とテストデ−タの入出力を行うことを特徴とする。

【００２１】さらに、複数のＣＰＵのうちいずれかのＣ
ＰＵに、前記スキャン結果のデ−タに基づく故障診断処
理を行わせることを特徴とする。

【００２２】また、テストデ−タメモリに格納するテス
トデータは、マルチプロセッサシステムの主メモリから
ダウンロードすることを特徴とする。

【００２３】また、前記アクセスポートは、ＩＥＥＥ１
１４９．１標準規格によって定められたバウンダリスキ
ャンテスト方法に準拠したものであり、前記複数のＣＰ
Ｕおよび周辺装置の各アクセスポートをチェーン状に接
続しておき、故障診断のためのテストデ−タはチェーン
接続の最前段のアクセスポートに入力することを特徴と
する。

【００２４】さらに、前記アクセスポートは、ＩＥＥＥ
１１４９．１標準規格によって定められたバウンダリス
キャンテスト方法に準拠したものであり、前記複数のＣ
ＰＵおよび周辺装置の各アクセスポートを前記アクセス
ポートコントローラのテストデ−タ出力端子および入力
端子に並列に接続しておき、アクセスポートコントロー
ラから出力する選択信号によって前記複数のＣＰＵおよ
び周辺装置のうちいずれかを診断対象に選択した後、前
記テストデ−タをアクセスポートコントローラから出力
し、選択した診断対象から出力されるスキャン結果のデ
−タに基づき、選択した診断対象のみの故障診断を行う
ことを特徴とする。

【００２５】さらにまた、ＬＳＩ内部の故障診断を行う
ためのテスト信号を入力するテストアクセスポートを有
する複数のＣＰＵボードと、前記複数のＣＰＵボードの
それぞれをシステムバスに接続し、かつ固有の物理位置
情報が設定された複数のコネクタを有するマルチプロセ
ッサシステムにおいて、通常時はシステム動作を行わな
いスペアＣＰＵボードと、このスペアＣＰＵボードを前
記システムバスに接続するスペアコネクタと、前記ＣＰ
Ｕボードの故障診断を行うためのテストデ−タを格納し
たテストデ−タメモリと、前記ＣＰＵボードのアクセス
ポートを通じて前記テストデ−タメモリから読み出した
テストデ−タを入力するアクセスポートコントローラと
をマルチプロセッサシステム内に設け、前記テストデ−
タメモリからテストデ−タを予め設定した時間間隔で定
期的に読出し、該テストデ−タを前記アクセスポートを
通じて複数のＣＰＵボードに入力することにより、これ
ら複数のＣＰＵボードの内部論理をスキャンし、そのス
キャン結果のデ−タに基づいて前記複数のＣＰＵボード
の故障診断を行い、いずれかのＣＰＵボードの障害を検
出したならば、この障害ＣＰＵボードをシステムバスに
接続するコネクタに設定されていた物理位置情報を前記
スペアコネクタの物理位置情報として設定し、障害が検
出されたＣＰＵボードをシステムバスから切離し、障害
が検出されたＣＰＵボードの動作をスペアＣＰＵボード
に代行させることを特徴とする。

【００２６】そして、前記テストデ−タを読み出すため
の時間間隔の値は、オペレーティングシステムが設定す
ることを特徴とする。

【００２７】なお、スキャン結果のデータを解析したエ
ラー情報を格納するためのロギングメモリをマルチプロ
セッサシステム内に設けるようにしてもよい。

【００２８】また、ロギングメモリに格納したエラー情
報をオペレーティングシステムのユーザインターフェー
ス上に表示するようにしてもよい。

【００２９】

【発明の実施の形態】以下、本発明の実施の形態を図面
により詳細に説明する。

【００３０】第１の実施の形態図１は、本発明を適用したマルチプロセッサシステムの
第１の実施の形態を示すシステム構成図である。

【００３１】図１において、ＣＰＵボード（#１）１０
１、ＣＰＵボード（#２）１０２及びＣＰＵボード（#
ｎ）１０３は、それぞれコネクタ（#１）１０４,コネク
タ（#２）１０５及びコネクタ（#ｎ）１０６を通じてシ
ステムバス１０７に接続され、ｎ個のプロセッサを有す
るマルチプロセッサシステムを構成している。

【００３２】各プロセッサボード、すなわちＣＰＵボー
ド（#１）１０１〜（#ｎ）１０３には、上記コネクタ
（#１）１０４〜（#ｎ）１０６を通じてプロセッサボー
ドの故障診断をハードウエアで行うためのテスト用の信
号ＴＤＩ，ＴＣＫ，ＴＭＳ，ＴＤＯが接続されている。

【００３３】システムバス１０７には、メモリボード１
０９と、Ｉ／Ｏバスブリッジ１１０が接続されており、
さらにＩ／Ｏバスブリッジ１１０を介してＩ／Ｏバス１
０８にはＩ／Ｏボード１１２とサービスプロセッサ１１
３が接続されている。

【００３４】Ｉ／Ｏボード１１２は、シリアル／パラレ
ルデータ通信ポート及びＦＤ（フロッピィディスク装
置）／ＨＤＤ（ハードディスク装置）等の補助記憶装置
とのインタフェースや、ＢＩＯＳ（基本入出力を行うた
めのプログラム）やファームウエアなど、通常のパーソ
ナルコンピュータあるいはワークステーションとして動
作するために不可欠なＩ／Ｏサブシステムを備えるもの
である。

【００３５】上記Ｉ／Ｏボード１１２及びＩ／Ｏサブシ
ステムの構成については、一般に知られているパーソナ
ルコンピュータまたはワークステーションとしての機能
を保持していればよく、本発明の本質には関係ないの
で、ここではその詳細な説明は省略する。一般的な業界
標準仕様のパーソナルコンピュータが備えるＩ／Ｏサブ
システムについては、例えば米国"Preｎtice Hall"社発
行の"The 8０x8６ IBM PC & COMPATIBLE COMPUTERS" VO
LUME II:Desigｎ aｎd Iｎterfaciｎg of the IBM PC,P
S aｎd Compatibles（１９９５年発行）"の"Chapter
４:Ｉ／Ｏ Desigｎaｎd the 8２５５ Chip"（8９ページ
から１２１ページまで）に記載されている。一方、サ
ービスプロセッサ１１３は、各ＣＰＵボード（#１）１
０１〜（#ｎ）１０３、メモリボード１０９及びＩ／Ｏ
ボード１１２に上記のテスト用の信号ＴＤＩ，ＴＣＫ，
ＴＭＳ，ＴＤＯを接続し、これらの信号を制御して各ボ
ード及びサブシステム毎に故障診断を行う機能を備えて
いる。

【００３６】上記のテスト用の信号ＴＤＩ，ＴＣＫ，Ｔ
ＭＳ，ＴＤＯは、故障診断のためのテストバスを構成す
るものである。

【００３７】なお、サービスプロセッサ１１３は、後述
の実施形態にて説明するように、マルチプロセッサシス
テム上で動作するオペレーティングシステム（ＯＳ）に
組み込まれたデバイスドライバから制御してもよいし、
サービスプロセッサ１１３内にＣＰＵを搭載し、そのＣ
ＰＵを用いて制御を行ってもよい。

【００３８】図２は、ＣＰＵボード（#１）１０１〜（#
ｎ）１０３の内部構成について、ＣＰＵボード（#ｎ）
１０３の内部構成を代表して示したブロック構成図であ
る。ＣＰＵボード（#ｎ）１０３は、ＣＰＵ２０１およ
びキャッシュメモリ２０２と、バスI／Ｆ（インターフ
ェース）２０３とを内部に備え、これらはＣＰＵバス２
０４を介して互いに接続され、さらにバスI／Ｆ２０３
を介してコネクタ１０６へ接続されている。

【００３９】図２に示すＣＰＵボード（#ｎ）１０３に
は、コネクタ１０６を通じてＣＰＵ２０１,キャッシュ
メモリ２０２及びバスI／Ｆ２０４の故障診断をハード
ウエアで行うためのテストバスの信号が接続されてい
る。このテストバスの信号は、ＩＥＥＥ（米国電気電子
技術者協会）の標準規格であるＩＥＥＥ１１４９.１ Bo
uｎdary Scaｎ（以下、バウンダリスキャンと略記）に
よって規格化されている信号ＴＤＩ，ＴＣＫ，ＴＭＳ，
ＴＤＯで構成されている。

【００４０】このうち、ＴＤＩ１１０はバウンダリスキ
ャンメカニズムで使用するスキャンデータをボード内へ
取り込むテスト・データ入力信号、ＴＣＫ１１１はＣＰ
Ｕ２０１やキャッシュメモリ２０２等のバウンダリスキ
ャンに対応したＩＣやＬＳＩがバウンダリスキャンメカ
ニズムにもとづいて内部回路をスキャンニングするため
の動作クロックであるテスト・クロック入力信号であ
る。

【００４１】ＴＤ０１０５は、上記テスト・データ入力
信号ＴＤＩ１１０を通じてＣＰＵボード（#ｎ）１０３
に入力したテストデータを出力するテスト・データ出力
信号であり、ＴＭＳ１０６はバウンダリスキャン規格で
規定されたハードウエアのテストや上記ＩＣ及びＬＳＩ
内部でスキャンデータのスキャンパス等を設定したりす
るなどの動作モードを選択するテスト・モード選択信号
である。

【００４２】テスト・モード選択信号ＴＭＳ１０６及び
テスト・クロック入力信号ＴＣＫ１１１は各ＣＰＵボー
ドやメモリボード等に共通に入力する信号であるため、
それぞれバッファ１０８及び１０９を介してボード上の
各ＩＣ及びＬＳＩへ供給している。

【００４３】図２に示すＣＰＵボード（#ｎ）１０３に
おいて、コネクタ１０６から入力したテスト・データ入
力信号ＴＤＩ１１０は、まず、ＣＰＵ２０１のテスト・
データ入力ピンへ入力され、ＣＰＵ２０１の内部を経由
してテスト・データ出力ピンからテスト・データ出力信
号ＴＤＯ１１２となってバスI／Ｆ２０３のテスト・デ
ータ入力ピン（ＴＤＩの入力ピン）へ入力されている。

【００４４】さらに、バスI／Ｆ２０３のテスト・デー
タ出力信号ＴＤＯはキャッシュメモリ２０２のテスト・
データ入力（ＴＤＩ）ピンへ接続され、最後にキャッシ
ュ２０２のテスト・データ出力（ＴＤＯ）ピンから、Ｃ
ＰＵボード（#ｎ）のテスト・データ出力信号ＴＤＯ１
０５としてコネクタ１０６へ出力されている。

【００４５】このように、バウンダリスキャンメカニズ
ムでは、テスト対象となるＩＣまたはＬＳＩのテスト・
データ入力ピン（ＴＤＩ入力ピン）とテスト・データ出
力ピン（ＴＤＯ出力ピン）とをチェーン状に接続し、ボ
ードまたはテストを行うサブシステム単位でテストデー
タをスキャン可能なチェーンを構成する。

【００４６】バウンダリスキャンメカニズムを用いて、
図２に示すＣＰＵボード（#ｎ）１０３をテスト単位と
して、ハードウエア故障診断を行う場合には、まずコネ
クタ１０６を通じてテストを行うためのクロック信号Ｔ
ＣＫ１１１を入力し、また規格で定められたテストモー
ドの選択を行うためのモード選択信号ＴＭＳ１０６を入
力する。

【００４７】その後、テスト・データ入力信号ＴＤＩを
入力する。すると、テスト・データ入力信号ＴＤＩは、
ＣＰＵ２０１→バスI／Ｆ２０３→キャッシュメモリ２
０２→コネクタ１０６のＴＤＯ出力ピンの経路を通り、
ＣＰＵボード（#ｎ）１０３のテスト・データ出力信号
１０５として出力される。

【００４８】このＣＰＵボード（#ｎ）１０３のバウン
ダリスキャン後のテスト・データ出力信号１０５を解析
し、故障診断を行う。

【００４９】このバウンダリスキャンメカニズムを用い
たハードウエア故障診断では、上記テスト・モード選択
信号ＴＭＳ１０６を通じてテストモードを適切に選択し
てやることにより、図２に示すＣＰＵボード（#ｎ）１
０３全体の故障診断を行うこともできるし、ＣＰＵ２０
１やキャッシュメモリ２０２またはバスI／Ｆ２０３単
体の故障診断をも行うこともできる。

【００５０】例えば、バスI／Ｆ２０３のみの故障診断
を行う場合には、テスト・モード選択信号ＴＭＳ１０６
に適切なコマンド信号を入力し、ＣＰＵ２０１とキャッ
シュメモリ２０２はＴＤＩ入力ピンから取り込んだテス
ト・データ入力信号ＴＤＩをそのままＴＤＯ出力ピンか
ら出力するようにしてやればよい。

【００５１】このようなバウンダリスキャンは業界標準
規格としてＩＣやＬＳＩに広く採用されており、例えば
米国Iｎtel社のPeｎtium(R)マイクロプロセッサでも内
部論理のテスト機能として採用している。Peｎtiumプロ
セッサが採用しているバウンダリスキャンメカニズムに
ついては、米国Iｎtel Corporatioｎ発行の「Peｎtium
(TM) Family User's Maｎual Volume １:Data Book」
（１９９４年発行 ISBN１-５５５１２-２２５-６）の
１１-１ページから１１-１４ページに記載されている。

【００５２】また、バウンダリスキャンメカニズムの標
準仕様やテスト・モード選択信号で選択可能なスキャン
モード、バウンダリスキャンメカニズムを採用するＩＣ
やＬＳＩが実行可能な内部テストコマンドについては、
米国ＩＥＥＥが発行している「Staｎdard Test Port a
ｎd Bouｎdary-Scaｎ Architecture,ＩＥＥＥ Std １１
４９.１-１９９０」（１９９４年発行 ISBN １-５５９
３７-３５０-４）に記載されているので、詳細な説明は
省略する。

【００５３】次に、図１におけるメモリボード１０９の
構成について、図３の詳細構成ブロック図を用いて説明
する。

【００５４】図３において、メモリボード１０９は、メ
モリモジュール３０１、アドレスバッファ３０２、メモ
リコントローラ３０３およびデ−タバスバッファ３０４
バスインタフェース（バスＩ／Ｆ）３０６とから成り、
メモリコントローラ３０３はアドレスバッファ３０２お
よびアドレスバス３０９ａ，３０９ｂをメモリモジュー
ル３０１と接続され、さらにデ−タバスバッファ３０４
はメモリデ−タバス３０８を通じてメモリモジュール３
０１と接続されている。

【００５５】また、バスＩ／Ｆ３０６はメモリボード内
部バス３０５を通じてメモリコントローラ３０３および
デ−タバスバッファ３０４に接続されている。

【００５６】メモリコントローラ３０３、データバスバ
ッファ３０４及びバスI／Ｆ３０６は、それぞれバウン
ダリスキャンメカニズムに対応しており、図２において
説明したのと同様に、コネクタ１１５を通じてバウンダ
リスキャン用の信号ＴＤＩ，ＴＣＫ，ＴＭＳ，ＴＤＯが
入出力されるようになっている。

【００５７】すなわち、スキャンデータであるテスト・
データ入力信号ＴＤＩは、図２に示したＣＰＵボードを
用いて説明したのと同様に、コネクタ１１５のＴＤＩ入
力ピンに入力された後、メモリコントローラ-３０３、
バスI／Ｆ３０６、データバスバッファ３０４の経路で
メモリボード１０９のテスト・データ出力信号ＴＤＯ３
１７としてコネクタ１１５へと出力される。

【００５８】図３において、メモリモジュール３０１
は、メモリ制御バス３０７を介してメモリコントローラ
３０３によって制御され、メモリアドレスバス３０９
ａ,３０９ｂおよびメモリアドレスバッファ３０２を介
してアクセスアドレスデ−タを取り込み、メモリデータ
バス３０８を介してデータバスバッファ３０４からデー
タの入出力を行う。

【００５９】なお、メモリモジュール３０１としてバウ
ンダリスキャンメカニズムに対応したメモリモジュール
を採用した場合には、そのメモリモジュール３０１にも
前記バウンダリスキャン用の信号を接続してやればよ
い。

【００６０】すなわち、図４に示すように、バウンダリ
スキャンメカニズムによる故障解析をサポートしている
メモリモジュール３０１を採用した場合には、メモリモ
ジュール３０１にもテスト・クロック信号ＴＣＫ３１
１、テスト・モード選択信号ＴＭＳ３１５を入力し、さ
らにテストデータをスキャンするためのテスト・デ−タ
入力信号ＴＤＩ３１０，テスト・デ−タ出力信号ＴＤＯ
の信号パスをチェーン状に接続すればよい。

【００６１】なお、図３および図４におけるバウンダリ
スキャン用の各信号の機能は図２と同一であるので、こ
こでは説明を省略する。また、メモリモジュール３０１
の詳細な制御方法についても本発明の本質とは関係がな
いのでここでは省略する。

【００６２】次に、図１におけるＩ／Ｏボード１１２の
詳細構成を図５を用いて説明する。

【００６３】Ｉ／Ｏボード１１２は、図５に示すよう
に、Ｉ／Ｏバス５０４に接続されたＩ／Ｏ制御ＬＳＩａ
５０１およびＩ／Ｏ制御LＳＩｂ５０２と、Ｉ／Ｏバス
５０４からＩ／Ｏバスバッファ５０６を介した低速Ｉ／
Ｏバス５０５に接続された低速Ｉ／Ｏ制御ＬＳＩｃ５０
３とから成っている。

【００６４】図２に示したＣＰＵボード１０３と図３に
示したメモリボード１０９で説明したのと同様に、各Ｉ
／Ｏ制御ＬＳＩ５０１，５０２，５０３はバウンダリス
キャンメカニズムをサポートしており、コネクタ１１６
のＴＤＩピンから入力されたテスト・データ入力信号Ｔ
ＤＩ５１０を、Ｉ／Ｏ制御ＬＳＩ５０１→５０３→５０
２の順にチェーン接続し、テスト・データ出力信号ＴＤ
Ｏ５１５としてコネクタ１１６のＴＤＯピンへ出力する
ように構成されている。

【００６５】ここで、テスト・クロック信号ＴＣＫはコ
ネクタ１１６のＴＣＫピンから入力され、バッファ５１
１を介して各Ｉ／Ｏ制御ＬＳＩ５０１，５０２，５０３
へ供給されている。また、テスト・モード選択信号ＴＭ
Ｓもコネクタ１１６のＴＭＳピンから入力され、バッフ
ァ５１２を介して各Ｉ／Ｏ制御ＬＳＩ５０１，５０２，
５０３へと供給されている。

【００６６】図５に示すバウンダリスキャン信号の動作
については、図２および図３に示した実施例と同様であ
るのでここでは詳細な説明を省略する。

【００６７】次に、図１のサービスプロセッサ１１３の
詳細構成を図６を用いて説明する。

【００６８】図６において、サービスプロセッサ１１３
は、テストアクセスポート６０２、テストＣＬＫ生成部
６０４、スキャンテストメモリ６０５、スキャンメモリ
制御部６０６、テストアクセスポート制御部６０７、イ
ンターバル・タイマ６１０、Ｉ／ＯバスＩ／Ｆ６１１、
ロギングメモリ制御部６４０、ロギングデ−タメモリ６
４１、バッテリ６４２とを備えている。

【００６９】インターバル・タイマ６１０は、タイマ設
定レジスタ６０９とタイマ制御レジスタ６０８とから構
成され、また、テストアクセスポート制御部６０７はテ
ストバス選択レジスタ６５１とテストモードレジスタ６
５０とから構成されている。

【００７０】テストカード内部バス６１２は、Ｉ／Ｏバ
スI／Ｆ６１１を介してＩ／Ｏバスコネクタ６０１と接
続されている。インターバル・タイマ６１０はタイマ設
定レジスタ６０９とタイマ制御レジスタ６０８とを有
し、テストカード内部バス６１２に接続されており、信
号ＴＤＩ等から成るテストバスを通じて各ＣＰＵボード
１０１〜１０３、メモリボード１０９等のハードウエア
による故障診断を行う時間インターバルを設定する。

【００７１】上記２つのレジスタ６０８，６０９は、図
１に示したマルチプロセッサシステム上で動作するオペ
レーティングシステムが設定してもよいし、マルチプロ
セッサシステムの起動時にＢＩＯＳなどが初期化しても
よい。

【００７２】テストアクセスポート制御部６０７は、テ
ストバス選択レジスタ６５１とテストモード選択レジス
タ６５０とを有し、テスト・アクセス・ポート６０２を
制御してテストバスコネクタ６００を通じてテストバス
の各バウンダリスキャン信号を制御している。

【００７３】テストアクセスポート制御部６０７は、テ
ストバス選択レジスタ６５１に設定されたバス番号情報
に基づいて、故障診断を行うサブシステムまたはＣＰＵ
ボードに接続するテストモード選択信号を制御する。例
えば、テストバス選択レジスタ６５１にＣＰＵボード
（＃１）１０１をテストする値が設定された場合、テス
トアクセスポート制御部６０７は、テストアクセスポー
ト６０２を制御してＣＰＵボード（#１）１０１につな
がるテスト・モード選択信号である「ＴＭＳ−ＣＰＵ
１」６２６をアクティブにする。

【００７４】テストアクセスポート６０２は、テストＣ
ＬＫ生成部６０４が生成したクロック信号６３１で動作
し、このクロック信号６３１をテストバスクロック信号
ＴＣＫ６２８としてバッファ６１４を介して図１に示す
全てのＣＰＵボードへ入力している。

【００７５】テスト・モード選択信号は各ＣＰＵボー
ド、メモリボード毎に独立しており、「ＴＭＳ−ＣＰＵ
１」６２６は図１に示すＣＰＵボード（＃１）１０１
へ、「ＴＭＳ−ＣＰＵ２」６２５は図１のＣＰＵボード
（＃２）１０２へ、「ＴＭＳ−ＣＰＵn」６２４は図１
のＣＰＵボード（＃ｎ）１０３へ、「ＴＭＳ−Mem」６
２３は図１のメモリボード１０９へ、「ＴＭＳ−Ｉ／
Ｏ」６２２は図１のＩ／Ｏボード１１２へそれぞれ入力
されている。

【００７６】テストアクセスポート制御部６０７は、テ
ストモードレジスタ６５０に設定されたテスト機能情報
に基づいてテスト・アクセス・ポート６０２を制御し、
上記説明した各テストモード選択信号を通じて前記テス
ト機能を実行するためのコマンド信号を送出する。

【００７７】また、テストアクセスポート制御部６０７
は、インターバルタイマ６１０からのタイマ到達信号６
３０を動作のトリガとして、テスト・アクセス・ポート
６０２を起動してテストバスを通じたＣＰＵボード等の
故障診断制御を行う。

【００７８】図６におけるスキャンテストメモリ６０５
は、通常は、テスト・アクセス・ポート６０２とテスト
アクセスポート制御部６０７によって制御され、テスト
バスを通じてスキャンデータ（ＴＤＩ，ＴＤＯ）の送出
および受信を行う。

【００７９】テストデータは、クロック信号６３１によ
ってテストバスの各信号と同期をとりながら、テストに
使用するスキャンデータをバッファ６１５を介してテス
トバスコネクタ６００のテストデータ出力ピン（ＴＤ
Ｏ）６２７から送出される。

【００８０】テストデータ出力ピン（ＴＤＯ）６２７
は、図１におけるテスト・データ入力信号１２０として
コネクタ（#１）１０４を介してＣＰＵボード（＃１）
１０１のテストデータ入力（ＴＤＩ）ピンへと接続され
ている。

【００８１】また、図１に示すＩ／Ｏボード１１２のテ
ストデータ出力（ＴＤＯ）ピンからＩ／Ｏボードコネク
タ１１６を介してテストデータ出力信号ＴＤＯ１２７が
テストバスコネクタ６００のテストデータ入力（ＴＤ
Ｉ）ピン６２０に入力され、スキャンテストメモリ６０
５内に格納されるようになっている。

【００８２】スキャンメモリ制御部６０６は、テストカ
ード内部バス６１２からＩ／ＯバスI／Ｆ６１１を介し
て図１に示すＩ／Ｏバス１０８を通じて、スキャンテス
トメモリ６０５へテストデータを格納したり、スキャン
後の収集データを読み出したりする際にスキャンテスト
メモリ６０５を制御する。

【００８３】スキャンテストメモリ６０５に格納された
テストバスからの収集データは、テストアクセスポート
制御部６０７が読み出して故障解析を行ってもよいし、
図１の実施例に示すメモリボード１０９内に読み出し
て、任意のＣＰＵボードが故障解析を行うようにしても
よい。

【００８４】また、上記述べたように、テストデータを
Ｉ／Ｏバス１０８を通じてシステムのメモリからダウン
ロードすることも可能であるので、テストバスを用いた
故障解析を行うＣＰＵボードあるいはメモリボード、Ｉ
／Ｏボード毎に最適なテストデータを使用して故障解析
を行うことができる。

【００８５】さらに、図６において、ロギングメモリ制
御部６４０はバッテリ６４２にバックアップされた不揮
発性のロギングデータメモリ６４１へのテストカード内
部バス６１２を通じたデータの読み出し／書き込みを制
御する。

【００８６】ロギングデータメモリ６４１には、テスト
アクセスポート６０２が前記スキャンテストメモリ６０
５に格納された収集データを解析した結果の故障解析結
果を格納してもよいし、メモリボード１０９上に読み出
した収集データをオペレーティングシステムが故障解析
した結果の故障解析情報を格納してもよい。

【００８７】このように、バッテリ６４２でアックアッ
プされた不揮発性のロギングデ−タメモリ６４１に故障
解析情報を格納することで、オペレーティングシステム
のダウンなどによるシステムダウンの際にも故障解析情
報が失われることなく、的確に故障原因の解明を行うこ
とができる。

【００８８】従って、以上のように構成されたマルチプ
ロセッサシステムにあっては、バウンダリスキャンに基
づくテスト・デ−タ入力信号ＴＤＩをインターバルタイ
マ６１０で設定された時間間隔で定期的にサービスプロ
セッサ１１３から出力し、テスト対象のＣＰＵボード１
０１〜１０３およびメモリボード１０９、Ｉ／Ｏボード
１１２に順次入力し、最終段のＩ／Ｏボード１１２から
出力されるテスト・デ−タ出力信号ＴＤＯをサービスプ
ロセッサ１１３のスキャンテストメモリ６０５に収集格
納し、テストアクセスポート制御部６０７または任意の
ＣＰＵボード（１０１〜１０３のいずれか）で故障解析
を行うことにより、マルチプロセッサシステム自体の動
作を停止させることなく、システムを構成するＣＰＵボ
ード１０１〜１０３やメモリボード１０９の故障診断を
行い、障害を早期に検出し、オペレーティングシステム
の誤動作やシステムダウンを防ぐことができる。

【００８９】また、故障診断のためのハードウエア手段
にバウンダリスキャン方式を採用したことにより、オペ
レーティングシステムのシステムダウンを引き起こさな
いような軽微な障害についてもシステムダウン以前に予
防的に検出することができる。

【００９０】また、明確な原因が不明のままシステムの
動作が不安定になった場合にも、オペレーティングシス
テムを動作させたまま、バウンダリスキャンにて故障診
断を行うことができるので、動作不安定要因の的確な調
査を行うことができる。

【００９１】従って、マルチプロセッサ方式のサーバ装
置を構成した場合、通常のサービス機能を維持したまま
故障解析を行うことになるため、ユーザに対するサービ
スが低下することはない。同時に、予防的に定期的に故
障診断を行っているため、高い信頼性を維持することが
できる。

【００９２】なお、テストアクセスポート制御部６０７
がスキャンテストメモリ６０５におけるテストデ−タの
読出し、書き込みを制御しているが、オペレーティング
システムによってテストデ−タの読出し、書き込みを制
御するようにしてもよい。

【００９３】第２の実施の形態図７に本発明の第２の実施の形態を示す。

【００９４】図７に示す第２の実施形態では、図１に示
した第１の実施形態において、各ＣＰＵボードおよびメ
モリボード間をチェーン状に接続していたスキャンデー
タのバスをチェーン状ではなく、並列に接続する方式を
採用したものである。

【００９５】詳しくは、サービスプロセッサ１１３と各
ＣＰＵボード１０１〜１０３，メモリボード１０９，Ｉ
／Ｏボード１１２との間で入出力する信号ＴＤＩ１４０
およびＴＤＯ１４１を並列に接続し、テスト・モード選
択信号「ＴＭＳ−ＣＰＵ１」１２２〜「ＴＭＳ−Ｉ／
Ｏ」１２８によってテスト対象を個別に選択し、各ボー
ドを単体単位で個別に故障解析を行うようにしたもので
ある。

【００９６】なお、各ＣＰＵボードやメモリボードの構
成は図１に示した第１の実施形態と同様であるので、こ
こでは詳細な説明を省略する。

【００９７】従って、この実施の形態によれば、各ＣＰ
Ｕボードやメモリボードを単体単位で個別に故障解析を
行うことができる。特に、単体単位で故障解析を行える
ことからサービスプロセッサ１１３の負担が軽減するう
え、詳細な解析が可能になるという特有の効果がある。

【００９８】第３の実施の形態図８を用いて、障害の発生したＣＰＵボードを代替する
ためのスペアＣＰＵボードを備えた、本発明の第３の実
施形態について説明する。

【００９９】図８に示すマルチプロセッサシステムは、
ＣＰＵボード（#１）１５１〜（#ｎ）１５２の他に、ス
ペアＣＰＵボード（＃ｘ）１５３を備え、各ＣＰＵボー
ド（#１）１５１，（#ｎ）１５２を装着するスロット
（#１）１６１，（#ｎ）１６２は、マルチプロセッサシ
ステムの複数のプロセッサを識別するためのＩＤ情報に
利用するためのスロット物理位置に関するスロット位置
情報ＧＩＤを有していることに特徴がある。

【０１００】図９に、ＣＰＵボード（#ｎ）１５２の詳
細構成を示す。スロット（#ｎ）１６２は、固有のスロ
ット#ｎ位置情報１６４を有しており、このスロット位
置情報１６４はバスI／Ｆ２０３に接続され、マルチプ
ロセッサシステムの各ＣＰＵボード１５１，（#ｎ）１
５２を識別するためのＩＤ情報として使用される。

【０１０１】なお、図９の他の部分の構成については、
図２を用いて説明したＣＰＵボードと同様であるので、
ここでは詳細な説明を省略する。

【０１０２】図１０に、スペアＣＰＵボード（＃ｘ）１
５３の構成を示す。図１０において、スペアＣＰＵスロ
ット（＃ｘ）１６３は固有のスロット位置情報を持た
ず、スロット位置情報レジスタ１５４に設定した任意の
スロット番号をスロット位置情報として参照することに
より、スペアＣＰＵスロット（＃ｘ）１６３のスロット
位置情報を認識するようになっている。

【０１０３】スロット位置情報レジスタ１５４には、オ
ペレーティングシステムから任意のスロット位置情報が
設定可能である。

【０１０４】このような構成によれば、例えば、ＣＰＵ
ボード（#ｎ）１５２に障害が発生した場合に、その障
害の発生したＣＰＵボード（#ｎ）１５２をシステムバ
ス１０７から電気的に切り離し、スロット位置情報レジ
スタ１５４に、切り離したＣＰＵボード（#ｎ）１５２
のスロット位置情報と同一のスロット位置情報をオペレ
ーティングシステムから設定する。すると、スペアＣＰ
Ｕボード（＃ｘ）１５３は自分がＣＰＵボード（#ｎ）
であると認識し、動作するようになる。すなわち、スペ
アＣＰＵボードド（＃ｘ）１５３がＣＰＵボード（#
ｎ）１５２に代わって動作するようになる。

【０１０５】この場合、障害が発生したＣＰＵボード
（#ｎ）１５２をシステムバス１０７から電気的に切り
離す方法としては、各ＣＰＵボード毎に切離しレジスタ
を設け、この切離しレジスタに切離しコマンドをシステ
ムバス１０７を通じて設定し、バスＩ／Ｆ２０３とシス
テムバス１０７との接続部分をハイインピーダンスにす
る方法を用いることができる。

【０１０６】また、障害が発生したＣＰＵボード（#
ｎ）１５２をシステムバス１０７から電気的に切り離し
た際には、スキャンデ−タの経路が中断するため、ＣＰ
Ｕボード（#ｎ）１５２のＴＤＩ入力ピンとＴＤＯ出力
ピンとを短絡し、スキャンデ−タの経路を確保する。Ｔ
ＤＩ入力ピンとＴＤＯ出力ピンとを短絡する方法は、Ｃ
ＰＵボード（#ｎ）１５２をスロット（#ｎ）１６２から
引き抜いた時に自動的に閉じる接点を設けておき、この
接点で短絡する方法が最も簡単である。この他、スロッ
ト位置情報レジスタ１５４に、切り離したＣＰＵボード
（#ｎ）１５２のスロット位置情報と同一のスロット位
置情報をオペレーティングシステムから設定することに
よって閉じる接点を設けておき、この接点で短絡する方
法を用いてもよい。

【０１０７】これによって、障害発生に伴って、ＣＰＵ
ボードをホットスワップする際に、オペレーティングシ
ステムはホットスワップの前後でＣＰＵのＩＤ情報の違
いを意識する必要がないため、オペレーティングシステ
ムへの負担を最小限に押さえることができるという効果
がある。

【０１０８】なお、図８に示す実施形態のバウンダリー
スキャンメカニズムに関する機能については、図１を用
いて説明した第１の実施形態および図７を用いて説明し
た第２の実施形態と同様であるので、ここでは詳細な説
明を省略する。

【０１０９】上記述べたような、複数のプロセッサボー
ドがプロセッサスロットに装着され、かつスロットの物
理位置情報をＣＰＵのＩＤ情報として利用しているシス
テムの例としては、米国Corollary社のマルチプロセッ
サバスC-BusIIが知られている。C-BusII仕様の詳細につ
いては、米国Corollary社発行の「C-BusII Specificatio
n Revision２.０」（１９９３年４月２６日発行）３ペー
ジから２２ページに記載されている。

【０１１０】次に、上記第３の実施形態で説明したマル
チプロセッサシステムで動作するオペレーティングシス
テムの構成について図１１のブロック図を用いて説明す
る。

【０１１１】図１１において、オペレーティングシステ
ム８００は、ユーザモードで動作するアプリケーション
やサブシステムと、カーネルモードで動作する各マネー
ジャやデバイスドライバ類、及び個々のハードウエアの
違いを吸収するハードウエア仮想化層（ＨＡＬ）８１７
とからなる。

【０１１２】ユーザモードで動作するアプリケーション
には、ログオンプロセス８０１やセキュリティサブシス
テム８０４、Win３２クライアント８０２やWin３２サブ
システム８０５、そして図８に示す実施例のサービスプ
ロセッサを制御するＳＶＰマネージャ８０３がある。

【０１１３】また、カーネルモードで動作するものとし
ては、仮想メモリマネージャ８１１やプロセスマネージ
ャ８１２、カーネル８１３及びファイルシステム８１６
やデバイスドライバ８１５に加えて、図１１における前
記サービスプロセッサ１１３を制御するためのＳＶＰド
ライバ８１４がある。

【０１１４】前記ＳＶＰマネージャ-８０３とＳＶＰド
ライバ-８１４がハードウエア層のサービスプロセッサ
１１３（図１１においては、ＳＶＰボードと略記）を制
御する。

【０１１５】また、図１１に示すスロット位置情報レジ
スタ１５４に設定するスロット位置情報は、ＳＶＰドラ
イバ８１４が設定してもよいし、ハードウエア仮想化層
（ＨＡＬ）８１７が設定してもよい。また、ＳＶＰドラ
イバ８１４は図６において説明したロギングデータメモ
リ６４１に格納された故障解析情報を読み出して、ユー
ザモードのＳＶＰマネージャ８０３を通じてユーザイン
ターフェースに表示する。

【０１１６】図１１に示すオペレーティングシステム８
００の他の部分については、一般に知られているパーソ
ナルコンピュータ用ＯＳとしての機能を備えていればよ
いので、ここでは詳細な説明を省略する。また、マルチ
プロセッサ方式を採用したパーソナルコンピュータ上で
動作する一般的なオペレーティングシステムの例として
は、例えば米国Microsoft社の"Windows NT“オペレーテ
ィングシステム等が知られている。Microsoft社のWindo
ws NTオペレーティングシステムの詳細については、米
国Microsoft Press社の「INSIDE WINDOWS NT(TM)」（１
９９３年発行）やその日本語翻訳書である、株式会社ア
スキー社の「INSIDE WINODWS NT(TM)」（１９９３年４
月１日発行 ISBN４-７５６１-０２７７-８）３７ペー
ジから７０ページに記載されている。

【０１１７】上記述べたように、オペレーティングシス
テム８００に組み込んだデバイスドライバ８１５やマネ
ージャソフトを用いて行うことにより、ネットワークや
電話回線を用いてオペレーティングシステムにアクセス
することにより、ＣＰＵボード等の交換作業を遠隔制御
にて行うことが可能になる。

【０１１８】続いて、図１２、図１３、図１４及び図１
５に示すフローチャートを用いて、第３の実施形態にお
けるオペレーティングシステム８００の動作について説
明する。

【０１１９】まず、図１２を用いて動作の概略を説明す
る。

【０１２０】オペレーティングシステム（以下、ＯＳと
略記）８００は、起動時に各ＣＰＵボードやメモリボー
ド等のハードウエアの初期化を行う（ステップ７０
１）。

【０１２１】次に、ＯＳ８００に組み込まれたＳＶＰド
ライバ８１４が起動され、サービスプロセッサ１１３の
装着有無の検出と、タイマ設定レジスタ６０９やテスト
モードレジスタ６５０等の設定をする初期化作業を行う
（ステップ７０２）。この際、テスト内容によっては、
サービスプロセッサ１１３上のスキャンテストメモリ６
０５にテストデータをダウンロードしてもよい。

【０１２２】サービスプロセッサ１１３の初期化作業が
終了すると、サービスプロセッサ（ＳＶＰ）マネージャ
８０３を起動する。この際、サービスプロセッサ１１３
上のロギングデータメモリ６４１に故障解析情報が格納
されている場合には、前記オペレーティングシステム８
００のＳＶＰドライバ８１４が故障解析情報を読み出
し、ＳＶＰマネージャ８０３がユーザインターフェース
を通じて表示する。

【０１２３】続いて、サービスプロセッサ１１３は、ス
テップ７０２の初期化作業において設定された各レジス
タの情報などにもとづいて、テストバスを用いたシステ
ムの各ＣＰＵボードやメモリボードの故障・障害診断を
行う（ステップ７０４）。

【０１２４】サービスプロセッサ１１３の動作について
は、前記したので、ここでは詳細な説明を省略する。

【０１２５】各ＣＰＵボードやメモリボードをスキャン
した結果、障害発生を検出した場合には（ステップ７０
５）、ＳＶＰドライバ８１４を通じてオペレーティング
システム８００に障害発生を通知する（ステップ７０
６）。

【０１２６】障害発生時の通知方法は割り込みを用いて
もよいし、ＳＶＰドライバ８１４がサービスプロセッサ
１１３のロギングデータメモリ６４１またはロギングメ
モリ制御部６４０をポーリングして、障害発生の有無を
検出してもよい。

【０１２７】ＯＳ８００は、障害の検出された部位に応
じて、ハードウエア仮想化層（HAL）８１７を用いて障
害対策処理を行う（ステップ７０７）。ＯＳ８００は、
サービスプロセッサ１１３のロギングデータメモリ６４
１から故障解析情報を読み出し、発生した障害に応じて
処理を行う。障害発生部位がＣＰＵボードであれば、当
該ＣＰＵボードを停止する処理を行い、図１１に示すス
ペアＣＰＵボード（＃ｘ）１５３を起動する処理を行
う。

【０１２８】障害発生部位が、メモリボードやＩ／Ｏサ
ブシステムであれば、代替処理が出来ないので、ＳＶＰ
マネージャ８０３を通じてユーザインターフェースに障
害情報を表示する（ステップ７０８）。メモリボードの
障害やディスクコントローラに障害が発生した場合など
には、システムが正常な動作を続けることが出来なくな
る可能性があるため、ＯＳ８００のシャットダウンが必
要かどうかの判定を行う（ステップ７０９)。

【０１２９】ＯＳ８００によるシステムシャットダウン
処理（ステップ７１０）では、障害発生の内容やシャッ
トダウン要因等の保守作業に有用となる情報をロギング
データメモリ６４１へ格納してからシャットダウンを行
う。これによって、システム再起動後の障害解析をより
効果的に行うことができる。

【０１３０】次に、図１３に示すフローチャートを用い
て、サービスプロセッサ１１３の初期化処理及びＳＶＰ
マネージャ８０３の起動処理の詳細について説明する。

【０１３１】まず、ＯＳ８００がＳＶＰドライバ２１４
を起動すると、ＳＶＰドライバ８１４はハードウエアに
サービスプロセッサ１１３が組み込まれているかどうか
の検出を行う（ステップ７２０）。

【０１３２】続いてテストバスを用いた障害検出を行う
時間間隔を設定するためにタイマ制御レジスタ６０８及
びタイマ設定レジスタ６０９を設定する（ステップ７２
１）。

【０１３３】その後、テストアクセスポート制御部６０
７とテストアクセスポート６０２を初期化する（ステッ
プ７２２）。

【０１３４】ＯＳ８００はＳＶＰドライバ８１４による
初期化作業が終了すると、ＳＶＰマネージャ８０３を起
動する（ステップ７２３）。ＳＶＰマネージャ-８０３
は、ＳＶＰドライバ８１４またはハードウエア仮想化層
（HAL）８１７を通じてサービスプロセッサ１１３上の
ロギングデータメモリ６４１に格納されている障害情報
や故障解析情報を読み出し、ユーザインターフェースを
通じて出力する（ステップ７２４）。

【０１３５】続いて、ＳＶＰドライバ８１４はテストバ
ス選択レジスタ６５１及びテストモードレジスタ６５０
を設定し（ステップ７２５）、スキャンデータメモリ制
御部６０６を通じて、選択したテストバス及びテストモ
ードに必要なスキャンデータを設定する（ステップ７２
６）。この際、システム上のメモリからスキャンテスト
に必要なスキャンデータをスキャンテストメモリ６０５
へダウンロードしてもよい。

【０１３６】この後、インターバルタイマ６１０に故障
診断のための時間間隔を設定する（ステップ７２７）。

【０１３７】次に、図１４を用いて、図１２に述べた上
記サービスプロセッサによる各サブシステム毎の故障・
障害診断について説明する。

【０１３８】上記した初期化作業において設定したイン
ターバルタイマ６１０のカウントアップを開始し（ステ
ップ７３１）、設定値に到達しているかどうかを判定し
（ステップ７３２）、設定値に達していたならば、上記
初期化作業で設定したテストバス選択レジスタ６５１、
テストモードレジスタ６５０の設定値に基づいて、テス
トアクセスポート６０２を通じてテストバスにコマンド
を発行する（ステップ７３３）。

【０１３９】さらに、スキャンテストメモリ６０５から
テストデータ出力(ＴＤＯ)６２７を通じてスキャンデー
タを送出する（ステップ７３３）。送出したスキャンデ
ータは、チェーン状に接続したスキャンデ−タパスを通
って各ＣＰＵボード、メモリボード、Ｉ／Ｏボードに入
力され、テストバスコマンドに基づいてバウンダリスキ
ャン動作が行なわれ、スキャンデータ入力(ＴＤＩ)６２
０を通じてスキャンテストメモリ６０５へと格納される
(ステップ７３５)。

【０１４０】その後、テストアクセスポート制御部６０
７がスキャンデータを解析して故障診断を行う（ステッ
プ７３６）。

【０１４１】スキャンデータを用いた故障解析動作は、
上記スキャンデータをスキャンテストメモリ６０５から
システムの主メモリへ読み出して任意のＣＰＵボードが
ソフトウエアで行ってもよい。

【０１４２】故障診断を任意のＣＰＵボードで行うこと
により、サービスプロセッサ１１３の構成を簡素化でき
るという効果がある。また、スキャンデータとその解析
アルゴリズムを外部から読み込むことで容易に変更でき
るため、例えばＣＰＵボードを交換して機能強化を図っ
た場合などでも、スキャンデータの変更で故障診断機能
をサポートすることができる。

【０１４３】さらに、図１５に示すフローチャートを用
いて、ＯＳによる障害対策処理及びＳＶＰマネージャに
よるシステム情報の更新処理の詳細を説明する。

【０１４４】まず、ＯＳ８００へ障害発生発生が通知さ
れると、ＯＳ８００はＳＶＰドライバ８１４またはハー
ドウエア仮想化層（HAL）８１７を用いてサービスプロ
セッサ(ＳＶＰ)１１３のロギングデータメモリ６４１か
ら障害情報あるいは故障解析情報を読み出す（ステップ
７４１）。

【０１４５】続いて、エラー発生箇所の識別を行い、Ｃ
ＰＵボードでのエラー発生とＣＰＵボード以外でのエラ
ー発生に大別する（ステップ７４２）。エラーが発生し
たのがＣＰＵボードである場合には、ハードウエア仮想
化層(HAL)８１７を参照し、現在動作中のＣＰＵボード
数が１つであるかどうかを確認する（ステップ７４
３）。もし、１つである場合には、ＳＶＰマネージャ８
０３を通じてユーザインターフェースに障害情報を表示
する（ステップ７４８)。

【０１４６】複数のＣＰＵボードで動作している場合に
は、ＯＳ８００のプロセスマネージャ８１２、仮想メモ
リマネージャ８１１を用いて障害発生の発生したＣＰＵ
ボードへのプロセス割付けを停止しする等の停止処理を
行う（ステップ７４４）。

【０１４７】さらに、マルチプロセッサシステムにおい
ては、複数のＣＰＵボード及びキャッシュメモリでデー
タを共有しているため、それらのデータ間で矛盾が生じ
ないように、キャッシュコヒーレンシ維持動作を行う
（ステップ７４５）。

【０１４８】キャッシュコヒーレンシ維持動作は、各Ｃ
ＰＵボードが持つソフトウエア命令を利用してもよい
し、ハードウエア機能を用いて強制的に行ってもよい。

【０１４９】そして、システムにスペアＣＰＵボード
（#ｘ）１５３が備わっている場合には、そのスペアＣ
ＰＵボード（#ｘ）１５３を代替ＣＰＵボードとして使
用する代替処理を行う（ステップ７４６）。

【０１５０】また、障害発生箇所がＣＰＵボード以外で
ある場合には、障害情報から障害の発生した部位（メモ
リボードまたはＩ／Ｏボードなど）を特定し（ステップ
７４７）、ＳＶＰマネージャ８１４を通じてユーザイン
ターフェースにエラー情報を出力する（ステップ７４
８）。

【０１５１】最後に、上記障害対策処理によって変更に
なったシステム構成に関する情報をＳＶＰマネージャ８
０３上のシステム構成情報に反映する（ステップ７４
９）。

【０１５２】第４の実施の形態次に、上記第３の実施形態におけるスロット位置情報レ
ジスタ１５４を、サービスプロセッサ１１３内に設けた
場合の第４の実施形態について図１６を用いて説明す
る。

【０１５３】図１６において、サービスプロセッサ１１
３内に設けたスペアＣＰＵスロット位置情報レジスタ６
４３は、コネクタ６４７を通じて図８に示すスロット位
置情報信号線１５５に接続されており、スペアＣＰＵボ
ード（#X）１５３のスロット位置情報として使用され
る。

【０１５４】スペアＣＰＵスロット位置情報レジスタ６
４３は、図１２を用いて説明したシステム動作のフロー
チャートにおいて、ＳＶＰドライバ８１４によるサービ
スプロセッサ１１３の初期化処理（ステップ７０２）に
おいて初期化してもよいし、オペレーティングシステム
８００によるハードウエアの初期化処理（ステップ７０
１）において初期化してもよい。

【０１５５】なお、図１６のサービスプロセッサ１１３
では、スキャンメモリ制御部６０６に代わってエラー検
出部６４５が設けられ、このエラー検出部６４５がスキ
ャンテストメモリ６０５のスキャンデ−タの読出しおよ
び書き込みを制御し、さらに障害診断を行う。

【０１５６】第５の実施の形態次に、サービスプロセッサ１１３の他の実施形態につい
て図１７を用いて説明する。

【０１５７】図１７に示すサービスプロセッサ１１３
は、テストアクセスポート制御部６０７の代替手段とし
て、サービスプロセッサ全体を制御するＳＶＰ制御ＣＰ
Ｕ６４４を設けたものである。

【０１５８】このＳＶＰ制御ＣＰＵ６４４は、テストカ
ード内部バス６１２を通じてフラッシュＲＯＭ６４５に
格納されたプログラムをＲＡＭ６４６上に読み出し、そ
のプログラムに基づいてサービスプロセッサ１１３の動
作を制御する。

【０１５９】フラッシュＲＰＭ６４５は書き換えが可能
であるため、ＣＰＵボードの更新などによりシステム構
成が変更された場合でも、サービスプロセッサ１１３の
テスト機能を柔軟に変更することができるという利点が
ある。

【０１６０】

【発明の効果】以上説明したように、本発明によれば、
各プロセッサまたはプロセッサを含むサブシステム毎に
ハードウエア手段にて故障診断を定期的に行うことが出
来るので、システム都しての動作を停止させることな
く、プロセッサに発生した障害を早期に検出し、オペレ
ーティングシステムの誤動作やシステムダウンを防ぐこ
とができる。

【０１６１】また、故障診断のためのハードウエア手段
にバウンダリスキャン方式を採用したことにより、オペ
レーティングシステムのシステムダウンを引き起こさな
いような軽微な障害についても予防的に障害を検出する
ことができる。

【０１６２】また、明確な原因が不明のままシステムの
動作が不安定になった場合にも、オペレーティングシス
テムを動作させたままバウンダリスキャンにて故障診断
を行うことができるので、動作不安定要因の的確な調査
を行うことができる。

【０１６３】従って、マルチプロセッサ方式のサーバ装
置を構成した場合、通常のサービス機能を維持したまま
故障診断を行うことになるため、ユーザに対するサービ
スが低下することはない。同時に、予防的に定期的に故
障診断を行っているため、高い信頼性を維持することが
できる。

【０１６４】また、故障したプロセッサまたはプロセッ
サを含むサブシステムをシステムバスまたはマルチプロ
セッサバスから電気的に切り離し、代替プロセッサを起
動する作業をオペレーティングシステムから制御できる
ので、プロセッサに障害が発生した際の保守作業を遠隔
制御によって行うことができ、代替プロセッサを起動す
ることにより、システムの性能の低下を防止できるとい
う効果がある。

【図面の簡単な説明】

【図１】本発明を適用したマルチプロセッサシステムの
第１の実施形態を示すシステム構成図である。

【図２】図１におけるＣＰＵボードの詳細構成を示すブ
ロック図である。

【図３】図１におけるメモリボードの詳細構成を示すブ
ロック図である。

【図４】図１におけるメモリボードの他の構成例を示す
ブロック図である。

【図５】図１におけるＩ／Ｏボードの詳細構成を示すブ
ロック図である。

【図６】図１におけるサービスプロセッサの詳細構成を
示すブロック図である。

【図７】本発明を適用したマルチプロセッサシステムの
第２の実施形態を示すシステム構成図である。

【図８】本発明を適用したマルチプロセッサシステムの
第３の実施形態を示すシステム構成図である。

【図９】図８におけるＣＰＵボードの詳細構成を示すブ
ロック図である。

【図１０】図８におけるスペアＣＰＵボードの詳細構成
を示すブロック図である。

【図１１】第３の実施形態におけるオペレーティングシ
ステムの構成を示すブロック図である。

【図１２】第３の実施形態におけるオペレーティングシ
ステム（ＯＳ）の動作を表すフローチャートである。

【図１３】サービスプロセッサの初期化処理を表すフロ
ーチャートである。

【図１４】サービスプロセッサの故障診断処理を表すフ
ローチャートである。

【図１５】オペレーティングシステムによる障害対策処
理を表すフローチャートである。

【図１６】本発明の第４の実施形態におけるサービスプ
ロセッサの構成を示すブロック図である。

【図１７】本発明の第５の実施形態におけるサービスプ
ロセッサの構成を示すブロック図である。

【符号の説明】

１０１…ＣＰＵボード#１、１０２…ＣＰＵボード#２，
１０３…ＣＰＵボード#ｎ、１０７…システムバス、１
０８…Ｉ／Ｏバス、１０９…メモリボード、１１２…Ｉ
／Ｏボード、１１３…サービスプロセッサ、１２０…テ
スト・データ入力信号（TDI)、１２１…テスト・クロッ
ク信号（TCK)、１２７…テスト・データ出力信号(TD
O)、１５３…スペアＣＰＵボード#X、１５４…スロット
位置情報レジスタ、２０１…ＣＰＵ、２０２…キャッシ
ュメモリ、２０３…バスＩ／Ｆ、２０４…ＣＰＵバス、
２１０…テスト・データ入力信号(TDI)、２１１…テス
ト・クロック信号(TCK)、２１５…テスト・データ出力
信号（TDO)、２１６…テスト・モード選択信号（TMS)、
３０１…メモリモジュール、６０２…テスト・アクセス
・ポート、６０５…スキャンテストメモリ、６０６…ス
キャンメモリ制御部、６０７…テストアクセスポート制
御部、６０８…タイマ制御レジスタ、６０９…タイマ設
定レジスタ、６１０…インターバル・タイマ、６１２…
テストカード内部バス、６４０…ロギングメモリ制御
部、６４１…ロギングデータメモリ、６４３…スペアＣ
ＰＵスロット位置情報レジスタ。

Claims

【特許請求の範囲】

【請求項１】ＬＳＩ内部の故障診断を行うためのテス
ト信号を入力するテストアクセスポートを有する複数の
ＣＰＵおよびメモリ等の周辺装置とを有するマルチプロ
セッサシステムの保守方法であって、前記ＣＰＵおよび周辺装置の故障診断を行うためのテス
トデ−タを格納したテストデ−タメモリと、前記ＣＰＵ
および周辺装置のアクセスポートを通じて前記テストデ
−タメモリから読み出したテストデ−タを入力するアク
セスポートコントローラとをマルチプロセッサシステム
内に設け、前記テストデ−タメモリからテストデ−タを
予め設定した時間間隔で定期的に読出し、該テストデ−
タを前記アクセスポートを通じて複数のＣＰＵおよびそ
の周辺装置に入力することにより、これら複数のＣＰＵ
および周辺装置の内部論理をスキャンし、そのスキャン
結果のデ−タに基づいて前記複数のＣＰＵおよびその周
辺装置の故障診断を行うことを特徴とするマルチプロセ
ッサシステムの保守方法。
【請求項２】前記アクセスポートコントローラは、診
断対象を選択設定する選択レジスタと、故障診断動作の
モードを選択するテストモードレジスタとを有し、これ
らのレジスタに対し、マルチプロセッサシステムで動作
するオペレーティングシステムから設定された診断対象
と故障診断動作のモードに従って診断対象の選択とテス
トデ−タの入出力を行うことを特徴とする請求項１記載
のマルチプロセッサシステムの保守方法。
【請求項３】ＬＳＩ内部の故障診断を行うためのテス
ト信号を入力するテストアクセスポートを有する複数の
ＣＰＵおよびメモリ等の周辺装置とを有するマルチプロ
セッサシステムの保守方法であって、前記ＣＰＵおよび周辺装置の故障診断を行うためのテス
トデ−タを格納したテストデ−タメモリをマルチプロセ
ッサシステム内に設け、マルチプロセッサシステム上で
動作するオペレーティングシステムにより前記テストデ
−タメモリからテストデ−タを予め設定した時間間隔で
定期的に読出し、該テストデ−タを前記アクセスポート
を通じて複数のＣＰＵおよびその周辺装置に入力するこ
とにより、これら複数のＣＰＵおよび周辺装置の内部論
理をスキャンし、そのスキャン結果のデ−タに基づいて
前記複数のＣＰＵおよびその周辺装置の故障診断を行う
ことを特徴とするマルチプロセッサシステムの保守方
法。
【請求項４】前記複数のＣＰＵのうちいずれかのＣＰ
Ｕに、前記スキャン結果のデ−タに基づく故障診断処理
を行わせることを特徴とする請求項１ないし３記載のい
ずれかのマルチプロセッサシステムの保守方法。
【請求項５】前記テストデ−タメモリに格納するテス
トデータは、マルチプロセッサシステムの主メモリから
ダウンロードすることを特徴とする請求項１ないし４記
載のいずれかのマルチプロセッサシステムの保守方法。
【請求項６】前記アクセスポートは、ＩＥＥＥ１１４
９．１標準規格によって定められたバウンダリスキャン
テスト方法に準拠したものであり、前記複数のＣＰＵお
よび周辺装置の各アクセスポートをチェーン状に接続し
ておき、故障診断のためのテストデ−タはチェーン接続
の最前段のアクセスポートに入力することを特徴とする
請求項１ないし５記載のいずれかのマルチプロセッッサ
システムの保守方法。
【請求項７】前記アクセスポートは、ＩＥＥＥ１１４
９．１標準規格によって定められたバウンダリスキャン
テスト方法に準拠したものであり、前記複数のＣＰＵお
よび周辺装置の各アクセスポートを前記アクセスポート
コントローラのテストデ−タ出力端子および入力端子に
並列に接続しておき、アクセスポートコントローラから
出力する選択信号によって前記複数のＣＰＵおよび周辺
装置のうちいずれかを診断対象に選択した後、前記テス
トデ−タをアクセスポートコントローラから出力し、選
択した診断対象から出力されるスキャン結果のデ−タに
基づき、選択した診断対象のみの故障診断を行うことを
特徴とする請求項１，２，５，６，７記載のいずれかの
マルチプロセッッサシステムの保守方法。
【請求項８】ＬＳＩ内部の故障診断を行うためのテス
ト信号を入力するテストアクセスポートを有する複数の
ＣＰＵボードと、前記複数のＣＰＵボードのそれぞれを
システムバスに接続し、かつ固有の物理位置情報が設定
された複数のコネクタを有するマルチプロセッサシステ
ムの保守方法であって、通常時はシステム動作を行わないスペアＣＰＵボード
と、このスペアＣＰＵボードを前記システムバスに接続
するスペアコネクタと、前記ＣＰＵボードの故障診断を
行うためのテストデ−タを格納したテストデ−タメモリ
と、前記ＣＰＵボードのアクセスポートを通じて前記テ
ストデ−タメモリから読み出したテストデ−タを入力す
るアクセスポートコントローラとをマルチプロセッサシ
ステム内に設け、前記テストデ−タメモリからテストデ
−タを予め設定した時間間隔で定期的に読出し、該テス
トデ−タを前記アクセスポートを通じて複数のＣＰＵボ
ードに入力することにより、これら複数のＣＰＵボード
の内部論理をスキャンし、そのスキャン結果のデ−タに
基づいて前記複数のＣＰＵボードの故障診断を行い、い
ずれかのＣＰＵボードの障害を検出したならば、この障
害ＣＰＵボードをシステムバスに接続するコネクタに設
定されていた物理位置情報を前記スペアコネクタの物理
位置情報として設定し、障害が検出されたＣＰＵボード
をシステムバスから切離し、障害が検出されたＣＰＵボ
ードの動作をスペアＣＰＵボードに代行させることを特
徴とするマルチプロセッサシステムの保守方法。
【請求項９】前記テストデ−タを読み出すための時間
間隔の値は、オペレーティングシステムが設定すること
を特徴とする請求項１ないし８記載のいずれかのマルチ
プロセッサシステムの保守方法。