JPH0997241A - 並列計算機システムの管理装置 - Google Patents

並列計算機システムの管理装置

Info

Publication number
JPH0997241A
JPH0997241A JP7251427A JP25142795A JPH0997241A JP H0997241 A JPH0997241 A JP H0997241A JP 7251427 A JP7251427 A JP 7251427A JP 25142795 A JP25142795 A JP 25142795A JP H0997241 A JPH0997241 A JP H0997241A
Authority
JP
Japan
Prior art keywords
management terminal
terminal device
nodes
management
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7251427A
Other languages
English (en)
Other versions
JP3163237B2 (ja
Inventor
Sukeyuki Matsushita
祐之 松下
Atsushi Ugajin
敦 宇賀神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP25142795A priority Critical patent/JP3163237B2/ja
Priority to US08/721,258 priority patent/US5937201A/en
Publication of JPH0997241A publication Critical patent/JPH0997241A/ja
Application granted granted Critical
Publication of JP3163237B2 publication Critical patent/JP3163237B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/177Initialisation or configuration control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4405Initialisation of multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2015Redundant power supplies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Power Sources (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】 【課題】 並列計算機システムを構成する複数のノード
の運用管理を管理端末装置で一括して行う。 【解決手段】 複数のノードに、各ノードの主電源によ
り動作し並列処理を実行するメインプロセッサと、各ノ
ードの補助電源により動作し前記メインプロセッサを管
理するシステム制御コマンドを実行するサブプロセッサ
と、前記補助電源により動作し管理端末装置との通信を
行うシステム制御機構とを備え、管理端末装置に、前記
複数のノードの複数のシステム制御機構と通信を行うシ
ステム制御機構を備え、前記複数のノードの複数のシス
テム制御機構と前記管理端末装置のシステム制御機構と
を接続して成り、前記メインプロセッサを管理するシス
テム制御コマンドを前記管理端末装置から前記サブプロ
セッサに送信するシステム制御インタフェースを備える
ものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、並列計算機システ
ムの管理装置に関し、特に、並列計算機システムを構成
する複数のノードのメインプロセッサが動作していない
場合であっても前記複数のノードの保守及び管理を行う
並列計算機システムの管理装置に適用して有効な技術に
関するものである。
【0002】
【従来の技術】従来、複数の計算機で構成される計算機
システムの運用管理方法及びその実施装置について、い
くつかのものが提案されている。
【0003】複数のUNIXマシンのコンソールを1台
にまとめたときに発生する運用と監視の負荷増大を防止
する複数のUNIXマシンの集中運用および監視コンソ
ールディスプレイについては、特開平6−214763
号公報に記載されている。
【0004】その概要は、複数のUNIXマシンを集中
運用及び管理するサーバーであるセンター・コンソール
に、運用目的別にコマンドの宛先を格納した宛先テーブ
ルを作成しておき、前記宛先テーブルに従ってコマンド
を実行するものである。
【0005】複数の計算機から構成される複合計算機シ
ステムにおいて、単一のシステムコンソールにより接続
する計算機を切り換えて保守及び操作を行った場合の誤
操作を防止する複合計算機システムにおけるコンソール
切替制御方式については、特開平5−120247号公
報に記載されている。
【0006】その概要は、複数の計算機内のサービスプ
ロセッサ同士を切替装置に接続し、前記切替装置にシス
テムコンソールを接続し、前記システムコンソールから
は、計算機を識別する識別子を用いて、メッセージ出力
対象の計算機を順次切り替えていくことにより、複数の
計算機で1台のシステムコンソールを共有する方式であ
り、システムコンソールにより保守及び操作を行う際
に、操作を行おうとしている計算機の識別子と、システ
ムコンソールに接続されている計算機の識別子を比較
し、識別子が一致する場合に操作を実行するものであ
る。
【0007】分散処理システムを構成する各計算機から
のメッセージを集中管理するメッセージ集中管理方式に
ついては、特開平5−20281号公報に記載されてい
る。
【0008】その概要は、ネットワークにて接続された
複数の計算機内で集中管理ノードを決定し、その集中管
理ノードが監視対象ノードの発行する稼働状況メッセー
ジを集中管理する方式である。
【0009】
【発明が解決しようとする課題】本発明者は、前記従来
技術を検討した結果、以下の問題点を見い出した。
【0010】すなわち、前記従来の複数の計算機から成
る計算機システムの管理装置では、管理対象の計算機上
で動作しているネットワークソフトウェアの機能を使用
してた為、管理対象の計算機が動作していない場合やオ
ペレーティングシステムが動作していない場合及びネッ
トワークソフトウェアが動作していない場合には、運用
管理を行えないという問題があった。
【0011】前記従来の複数のUNIXマシンの集中運
用および監視コンソールディスプレイを使用する方法で
は、管理対象となる計算機は、オペレーティングシステ
ムのUNIXが動作していることが前提となる為、オペ
レーティングシステムが動作していない場合には、コン
ソールディスプレイから集中運用および監視ができない
という問題があった。
【0012】前記従来の複合計算機システムにおけるコ
ンソール切替制御方式では、システムコンソールと各々
のサービスプロセッサとの間に切替装置が存在している
為、切替装置なる特別なハードウェアが必要となるとい
う問題があった。
【0013】前記従来のメッセージ集中管理方式では、
複数の計算機から集中管理ノードにメッセージが送られ
てくる為、前記集中管理ノードがシステムダウンとなっ
たときには、メッセージの集中管理が行えないという問
題と、前記メッセージは、ノードが接続されるネットワ
ーク経由で送信されてくる為、各ノードのオペレーティ
ングシステム及びネットワークが起動されていない場
合、集中管理ノードから各ノードの状態を管理すること
が出来ないという問題があった。
【0014】本発明の目的は、並列処理を実行するメイ
ンプロセッサの動作並びに前記メインプロセッサのオペ
レーティングシステム及びネットワークソフトウェアの
動作とは無関係に、並列計算機システムを構成する複数
のノードの運用管理を管理端末装置で一括して行うこと
が可能な技術を提供することにある。
【0015】本発明の他の目的は、並列計算機システム
を構成する複数のノードの電源の投入または切断を管理
端末装置で一括または個別に行うことが可能な技術を提
供することにある。
【0016】本発明の他の目的は、並列計算機システム
に電力を供給する電源設備の突入電流を低く抑えること
が可能な技術を提供することにある。
【0017】本発明の他の目的は、並列計算機システム
を構成する複数のノードが正常に動作中であるかを管理
端末装置で監視することが可能な技術を提供することに
ある。
【0018】本発明の他の目的は、並列計算機システム
を構成する複数のノードのメインプロセッサがノードメ
ッセージを出力した後にその動作を停止した場合であっ
ても、前記ノードメッセージを管理端末装置で一括して
管理することが可能な技術を提供することにある。
【0019】本発明の他の目的は、並列計算機システム
を構成する複数のノードの障害発生時のメインメモリ及
びレジスタの内容を管理端末装置で一括して管理するこ
とが可能な技術を提供することにある。
【0020】本発明の他の目的は、並列計算機システム
を構成する複数のノードのメインプロセッサのリセット
を管理端末装置から一括して行うことが可能な技術を提
供することにある。
【0021】本発明の他の目的は、並列計算機システム
を構成する複数のノードの特定のブートストラップデバ
イスに障害が発生した場合に、管理端末装置からの指示
により、ブートストラップデバイスを変更して前記複数
のノードのメインプロセッサのシステム立ち上げ処理を
行うことが可能な技術を提供することにある。
【0022】本発明の他の目的は、並列計算機システム
を複数の管理端末装置で管理した場合に、前記複数の管
理端末装置の動作の競合を防止することが可能な技術を
提供することにある。
【0023】本発明の他の目的は、並列計算機システム
の運用管理を遠隔地から行うことが可能な技術を提供す
ることにある。
【0024】本発明の前記並びにその他の目的と新規な
特徴は、本明細書の記述及び添付図面によって明らかに
なるであろう。
【0025】
【課題を解決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
下記のとおりである。
【0026】(1)複数の計算機であるノードを接続し
た並列計算機システムを管理する管理端末装置を備えた
並列計算機システムの管理装置において、前記複数のノ
ードは、各ノードの主電源により動作し並列処理を実行
するメインプロセッサと、各ノードの補助電源により動
作し前記メインプロセッサを管理するシステム制御コマ
ンドを実行するサブプロセッサと、前記補助電源により
動作し前記管理端末装置との通信を行うシステム制御機
構とを備え、前記管理端末装置は、前記複数のノードの
複数のシステム制御機構と通信を行うシステム制御機構
を備え、前記複数のノードの複数のシステム制御機構と
前記管理端末装置のシステム制御機構とを接続して成
り、前記複数のノードの複数のメインプロセッサを管理
するシステム制御コマンドを前記管理端末装置から前記
複数のノードの複数のサブプロセッサに送信するシステ
ム制御インタフェースを備えるものである。
【0027】前記(1)の並列計算機システムの管理装
置では、管理端末装置から発行されたシステム制御コマ
ンドは、システム制御インタフェースを構成する前記管
理端末装置及び前記複数のノードのシステム制御機構を
介し、前記複数のノードのサブプロセッサに送られ、前
記サブプロセッサに送られたシステム制御コマンドを、
前記サブプロセッサで実行することにより、前記メイン
プロセッサの運用管理を行う。
【0028】従来の並列計算機システムの管理装置で
は、前記並列計算機システムの通常業務である並列処理
を実行するメインプロセッサで動作している汎用のオペ
レーティングシステムや、そのオペレーティングシステ
ムの管理下で動作するネットワークソフトウェアを使用
して、並列計算機システムを構成する複数のノードの運
用管理を行っている。
【0029】この為、前記従来の並列計算機システムの
管理装置を使用する場合には、管理対象である並列計算
機システムを構成する複数のノードのメインプロセッサ
が正常に動作し、前記の汎用のオペレーティングシステ
ムやネットワークソフトウェアが実行中であることが前
提条件となり、前記管理対象の複数のノードのメインプ
ロセッサが動作していない場合や前記の汎用のオペレー
ティングシステムやネットワークソフトウェアが動作し
ていない場合、例えば、並列計算機システムの電源が投
入されていない運用開始前の状態、または、オペレーテ
ィングシステムやネットワークの構成を変更し、正常に
動作するかどうか確かめようとしている状態、或いは、
障害の発生により動作しなくなった特定のノードの状況
を調査する場合などでは、前記従来の並列計算機システ
ムの管理装置を使用することができなかった。
【0030】そこで、前記(1)の並列計算機システム
の管理装置では、メインプロセッサの動作状況とは無関
係に動作可能なサブプロセッサとシステム制御機構を、
前記(1)の並列計算機システムを構成する全てのノー
ドに備え、各々のノードのシステム制御機構をネットワ
ーク集線装置等の装置を介し、管理端末装置のシステム
制御機構に接続している。
【0031】前記複数のノードの各ノードに備えられた
サブプロセッサ及びシステム制御機構は、メインプロセ
ッサが使用する主電源とは別の補助電源により動作し、
また、前記システム制御機構は、メインプロセッサで動
作するネットワークソフトウェア及びそのネットワーク
ソフトウェアが使用する通信ケーブルとは別のネットワ
ークソフトウェア及び通信ケーブルを使用して管理端末
装置と通信を行う。
【0032】従って、メインプロセッサが動作していな
くても、補助電源によりサブプロセッサ及びシステム制
御機構が動作していれば、メインプロセッサの制御を前
記管理端末装置から行うことが可能である。
【0033】以上の様に、前記並列計算機システムの管
理装置によれば、各ノードの補助電源で動作し、前記メ
インプロセッサが使用するネットワークソフトウェア及
び通信ケーブルとは別のネットワークソフトウェア及び
通信ケーブルを使用して管理端末装置と通信を行うシス
テム制御機構に、前記管理端末装置からシステム制御コ
マンドを送信し、前記システム制御コマンドを前記補助
電源で動作するサブプロセッサで実行することより複数
のノードのメインプロセッサの制御を行うので、並列処
理を実行するメインプロセッサの動作並びに前記メイン
プロセッサのオペレーティングシステム及びネットワー
クソフトウェアの動作とは無関係に、並列計算機システ
ムを構成する複数のノードの運用管理を管理端末装置で
一括して行うことが可能である。
【0034】(2)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードの主電源を投入または切断する機能を備
え、前記管理端末装置は、前記複数のノードのサブプロ
セッサに、一括または個別に主電源を投入または切断す
るシステム制御コマンドを送信する手段を備えるもので
ある。
【0035】前記(2)の並列計算機システムの管理装
置では、前記メインプロセッサは主電源により動作する
ので、前記サブプロセッサにより前記主電源の投入また
は切断を行うことにより、前記メインプロセッサへの電
源の投入を制御することができる。
【0036】また、前記管理端末装置は、前記主電源を
投入または切断するシステム制御コマンドを、送信先を
全てのノードまたは特定のノードに指定したパケットと
して、前記システム制御インタフェースを介して、前記
複数のノードに一括または個別に送信する。
【0037】前記(2)の並列計算機システムの管理装
置では、前記複数のノードのサブプロセッサ及びシステ
ム制御機構は、補助電源により動作しているので、メイ
ンプロセッサに主電源が投入されていない場合でも、動
作可能である。
【0038】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示により複数の
ノードの主電源の投入または切断を行うので、並列計算
機システムを構成する複数のノードの電源の投入または
切断を管理端末装置で一括または個別に行うことが可能
である。
【0039】(3)前記(2)の並列計算機システムの
管理装置において、前記管理端末装置は、前記複数のノ
ードの主電源を個別に投入するシステム制御コマンド
を、予め設定された時間間隔で、前記複数のノードのサ
ブプロセッサに個別に送信する手段を備えるものであ
る。
【0040】前記並列計算機システムを構成する複数の
ノードの主電源を一斉に投入すると、前記主電源に電力
を供給する電源設備に過大な突入電流が流れ、前記電源
設備に負担をかけるので、前記(3)の並列計算機シス
テムの管理装置では、前記複数のノードの主電源の投入
時刻を、各ノードごとにずらし、前記電源設備の突入電
源を低く抑える様にする。
【0041】これは、前記管理端末装置から予め設定さ
れた時間間隔で、前記主電源を投入するシステム制御コ
マンドを、送信先を特定のノードに指定したパケットと
して前記システム制御インタフェースを介して送ること
により行われる。
【0042】以上の様に、前記並列計算機システムの管
理装置によれば、前記複数のノードへの主電源の投入指
示を、予め設定された特定の時間間隔で行うので、並列
計算機システムに電力を供給する電源設備の突入電流を
低く抑えることが可能である。
【0043】(4)前記(1)の並列計算機システムの
管理装置において、前記管理端末装置は、前記複数のノ
ードの特定のノードのサブプロセッサに特定のシステム
制御コマンドを送信し、予め設定された時間内に前記特
定のシステム制御コマンドに対する正常な応答が受信さ
れない場合に、前記特定のノードに異常が発生している
とみなす手段を備えるものである。
【0044】前記(4)の並列計算機システムの管理装
置では、前記特定のシステム制御コマンドを、前記管理
端末装置から前記システム制御インタフェースを介して
前記サブプロセッサに送信し、前記の送信された特定の
システム制御コマンドを前記サブプロセッサで実行した
場合に、前記メインプロセッサの異常により前記特定の
システム制御コマンドの実行結果が得られない場合があ
る。
【0045】前記の様な場合に、前記(4)の並列計算
機システムの管理装置の管理端末装置は、予め設定され
た時間の間、前記特定のシステム制御コマンドに対する
応答を待ち、前記の予め設定された時間内に前記特定の
システム制御コマンドが正常に実行されたことを示す応
答が受信されない場合に、前記特定のノードに異常が発
生しているとみなす。
【0046】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの特定のシステム制
御コマンドに対する正常なレスポンスが一定時間中に受
信されるかどうかを調べるので、並列計算機システムを
構成する複数のノードが正常に動作中であるかを管理端
末装置で監視することが可能である。
【0047】(5)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのシステム制御機
構は、当該ノードのメインプロセッサまたはサブプロセ
ッサが動作時に出力するメッセージであるノードメッセ
ージを蓄積する手段を備え、前記管理端末装置は、当該
ノードのシステム制御機構に蓄積されたノードメッセー
ジを読み取る手段を備えるものである。
【0048】前記並列計算機システムを構成する複数の
ノードのメインプロセッサは、各処理の段階で種々のノ
ードメッセージを出力する。
【0049】例えば、前記並列計算機システムを構成す
る複数のノードのメインプロセッサは、システム立ち上
げ処理中にファイルシステム上に矛盾を発見すると、特
定のノードメッセージを出力し、そのファイルシステム
の修復を開始する。前記メインプロセッサがファイルシ
ステムの修復に失敗すると、前記ファイルシステムの修
復に失敗したことを示すノードメッセージを出力し、前
記システム立ち上げ処理は異常終了する。
【0050】また、前記並列計算機システムを構成する
複数のノードのメインプロセッサは、システム立ち上げ
処理が正常終了した後、動作中に回復不能な障害を検出
すると、パニックメッセージと呼ばれる障害内容や障害
発生箇所等の内容を含んだノードメッセージを出力し、
前記回復不能な障害を検出したメインプロセッサは、通
常、前記パニックメッセージを特定のディスプレイ装置
に出力した直後に、システムダウンを起こして動作を停
止する。
【0051】前記の様な場合には、前記ノードメッセー
ジの内容を検討し、システム立ち上げ処理の異常終了や
システムダウンの原因を取り除く必要があるが、当該メ
インプロセッサは既に動作を停止しているので、従来の
並列計算機システムの管理装置では、前記ノードメッセ
ージを管理端末装置に送信して表示することはできなか
った。
【0052】そこで、前記(5)の並列計算機システム
の管理装置では、当該ノードのメインプロセッサまたは
サブプロセッサが動作時に出力するノードメッセージを
前記複数のノードのシステム制御機構に蓄積し、前記管
理端末装置が、当該ノードのシステム制御機構に蓄積さ
れたノードメッセージを読み取ることによって、前記ノ
ードメッセージを前記管理端末装置に表示し、前記ノー
ドメッセージの内容を前記管理端末装置にて検討するこ
とを可能にしている。
【0053】以上の様に、前記並列計算機システムの管
理装置によれば、特定のノードのメインプロセッサまた
はサブプロセッサが動作時に出力するノードメッセージ
を蓄積し、前記管理端末装置が前記の蓄積されたノード
メッセージを読み取るので、並列計算機システムを構成
する複数のノードのメインプロセッサがノードメッセー
ジを出力した後にその動作を停止した場合であっても、
前記ノードメッセージを管理端末装置で一括して管理す
ることが可能である。
【0054】(6)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードのメインメモリまたはレジスタの内容を
参照及び更新する手段を備え、前記管理端末装置は、前
記複数のノードのサブプロセッサに、当該ノードのメイ
ンメモリまたはレジスタの内容を参照または更新するシ
ステム制御コマンドを送信する手段を備えるものであ
る。
【0055】前記並列計算機システムを構成する複数の
ノードのメインプロセッサに障害が発生したときに、当
該メインプロセッサに接続されたメインメモリやレジス
タの内容を参照して障害の原因を調べ、また、可能な場
合には、前記メインメモリやレジスタの内容を変更して
前記障害により中断している処理を続行したい場合があ
る。
【0056】前記の様な場合、発生した障害によっては
メインプロセッサは正常に動作できないことがあるの
で、前記管理端末装置からのシステム制御コマンドによ
り、前記障害が発生したメインプロセッサを備えるノー
ドのサブプロセッサが、前記メインメモリまたはレジス
タの内容を参照または更新する。
【0057】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示によりノード
のメインメモリまたはレジスタの内容を参照または更新
するので、並列計算機システムを構成する複数のノード
の障害発生時のメインメモリ及びレジスタの内容を管理
端末装置で一括して管理することが可能である。
【0058】(7)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードのメインプロセッサをリセットする手段
を備え、前記管理端末装置は、当該ノードのサブプロセ
ッサに、当該ノードのメインプロセッサをリセットする
システム制御コマンドを送信する手段を備えるものであ
る。
【0059】前記並列計算機システムを構成する複数の
ノードにおいて、オペレーティングシステムや他のソフ
トウェアをバージョンアップしたり、また、障害の原因
を取り除く作業を行った後等、メインプロセッサをリセ
ットする必要が生じる場合がある。
【0060】前記の様な場合に、前記(7)の並列計算
機システムの管理装置では、前記管理端末装置からのシ
ステム制御コマンドにより、前記複数のノードのサブプ
ロセッサは、当該ノードのメインプロセッサをリセット
する。
【0061】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示により前記複
数のノードのメインプロセッサのリセットを行うので、
並列計算機システムを構成する複数のノードのメインプ
ロセッサのリセットを管理端末装置から一括して行うこ
とが可能である。
【0062】(8)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードのメインメモリの内容を参照及び更新す
る手段と、当該ノードのメインプロセッサをリセットす
る手段とを備え、前記管理端末装置は、当該ノードのメ
インプロセッサが格納しているメインメモリ中のブート
ストラップデバイス名を参照及び更新するシステム制御
コマンドと、当該ノードのメインプロセッサをリセット
するシステム制御コマンドとを送信する手段を備えるも
のである。
【0063】前記並列計算機システムを構成する複数の
ノードにおいて、あるメインプロセッサのシステム立ち
上げ処理を行うときに、前記システム立ち上げ処理中に
メインメモリにロードするオペレーティングシステムや
他のソフトウェアを変更する場合や、或いは、オペレー
ティングシステムや他のソフトウェアを格納しているブ
ートストラップデバイスに障害が発生した場合等、前記
システム立ち上げ処理で使用するブートストラップデバ
イスの変更が必要になることがある。
【0064】この様な場合に、前記(8)の並列計算機
システムの管理装置では、前記管理端末装置により、当
該ノードのメインプロセッサが格納しているメインメモ
リ中のブートストラップデバイス名を参照するシステム
制御コマンドを前記サブプロセッサに送り、前記メイン
メモリ中のブートストラップデバイス名を確認した後、
前記管理端末装置は、当該ノードのメインプロセッサが
格納しているメインメモリ中のブートストラップデバイ
ス名を他のブートストラップデバイス名に更新するシス
テム制御コマンドを前記サブプロセッサに送る。
【0065】前記管理端末装置からメインメモリ中のブ
ートストラップデバイス名を他のブートストラップデバ
イス名に更新するシステム制御コマンドを受け取った前
記サブプロセッサは、当該ノードのメインメモリ中のブ
ートストラップデバイス名を更新する。
【0066】次に、前記管理端末装置は、当該ノードの
メインプロセッサをリセットするシステム制御コマンド
を前記サブプロセッサに送り、当該ノードのメインプロ
セッサをリセットして、更新した他のブートストラップ
デバイスにより前記メインプロセッサのシステム立ち上
げ処理を行う。
【0067】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示により前記複
数のノードのメインメモリ中のブートストラップパス情
報を変更し、メインプロセッサのリセットを行うので、
並列計算機システムを構成する複数のノードの特定のブ
ートストラップデバイスに障害が発生した場合に、管理
端末装置からの指示により、ブートストラップデバイス
を変更して前記複数のノードのメインプロセッサのシス
テム立ち上げ処理を行うことが可能である。
【0068】(9)前記(1)の並列計算機システムの
管理装置において、前記管理端末装置を複数備え、前記
複数の管理端末装置のうちの一部の管理端末装置の機能
を制限する手段を備えるものである。
【0069】前記(9)の並列計算機システムの管理装
置では、複数の管理端末装置を備えることにより、特定
の管理端末装置が故障した場合に、他の管理端末装置に
より、前記並列計算機システムの運用管理を行う。
【0070】前記の様に、前記並列計算機システムに複
数の管理端末装置を接続した場合には、前記複数の管理
端末装置の動作の内容が、互いに他の管理端末装置の動
作の内容と競合する場合がある。
【0071】この為、前記(9)の並列計算機システム
の管理装置では、前記複数の管理端末装置が動作する場
合に、特定の管理端末装置をメイン管理端末装置に、他
の管理端末装置をサブ管理端末装置に設定し、サブ管理
端末装置が行う動作の内容を制限することにより、前記
競合の発生を防止する。
【0072】以上の様に、前記並列計算機システムの管
理装置によれば、複数の管理端末装置を備えているの
で、1つの管理端末装置に障害が発生した場合でも並列
計算機システムの運用管理を続行し、並列計算機システ
ムの信頼性を向上させることが可能である。
【0073】また、前記並列計算機システムの管理装置
によれば、複数の管理端末装置にメイン管理端末装置と
サブ管理端末装置とを設定するので、並列計算機システ
ムを複数の管理端末装置で管理した場合に、前記複数の
管理端末装置の動作の競合を防止することが可能であ
る。
【0074】(10)前記(1)の並列計算機システム
の管理装置において、前記管理端末装置は、補助電源で
動作し、特定の信号を入力すると前記管理端末装置の主
電源を投入する電源投入論理と、前記電源投入論理によ
り主電源が投入されたときに、前記複数のノードのサブ
プロセッサに、一括または個別に主電源を投入するシス
テム制御コマンドを送信する手段を備えるものである。
【0075】前記(10)の並列計算機システムの管理
装置では、前記管理端末装置に、補助電源で動作し、特
定の信号を入力すると前記管理端末装置の主電源を投入
する電源投入論理を接続し、前記電源投入論理をネット
ワークや他の通信回線に接続しておく。
【0076】また、前記管理端末装置の主電源が投入さ
れたときに実行されるシステム立ち上げ処理の最後に、
前記複数のノードのサブプロセッサに一括または個別に
主電源を投入するシステム制御コマンドを送信するプロ
グラムを追加しておく。
【0077】次に、前記ネットワークや他の通信回線を
介して、他の端末装置から前記電源投入論理に特定の信
号を送り、前記管理端末装置の主電源を投入する。
【0078】前記管理端末装置の主電源が投入される
と、前記管理端末装置のシステム立ち上げ処理を行った
後、前記複数のノードのサブプロセッサに一括または個
別に主電源を投入するシステム制御コマンドを送信する
プログラムが実行され、前記並列計算機システムの運用
開始を、オペレータが直接前記管理端末装置を操作する
こと無く行うことができる。
【0079】以上の様に、前記並列計算機システムの管
理装置によれば、遠隔地からのアクセスにより管理端末
装置の主電源を投入するので、並列計算機システムの運
用管理を遠隔地から行うことが可能である。
【0080】
【発明の実施の形態】以下、本発明について、実施形態
とともに図面を参照して詳細に説明する。
【0081】なお、実施形態を説明するための全図にお
いて、同一機能を有するものは同一符号を付け、その繰
り返しの説明は省略する。
【0082】(実施形態1)以下に、本発明の並列計算
機システムの管理装置を実施する実施形態1の概略構成
について説明する。
【0083】図1は、本発明の並列計算機システムの管
理装置を実施する実施形態1の概略構成を示す図であ
る。図1において、100a〜100cはノード、10
1は通信処理装置、102a〜102cは通信インタフ
ェース機構、103a〜103cは通信ケーブル、10
4は管理端末装置、105a〜105dはシステム制御
機構、106a〜106dは通信ケーブル、107はネ
ットワーク集線装置、108a〜108dはLAN(L
ocal Area Network)制御機構、10
9a〜109dは通信ケーブル、110はネットワーク
集線装置である。
【0084】図1に示す様に、本実施形態の並列計算機
システムの管理装置は、並列計算機システムを構成する
ノード100a〜100cと、並列処理中のノード10
0a〜100cでの通信を制御する通信処理装置101
と、ノード100a〜100cのシステム管理を行う管
理端末装置104と、管理端末装置104とノード10
0a〜100cとを接続するネットワーク集線装置10
7と、ネットワーク集線装置110とを備えており、管
理端末装置104は、システム制御機構105aと、L
AN制御機構108aとを有し、ノード100aは、通
信インタフェース機構102aと、システム制御機構1
05bと、LAN制御機構108bとを有し、ノード1
00bは、通信インタフェース機構102bと、システ
ム制御機構105cと、LAN制御機構108cとを有
し、ノード100cは、通信インタフェース機構102
cと、システム制御機構105dと、LAN制御機構1
08dとを有している。
【0085】また、図1に示す様に、本実施形態の並列
計算機システムの管理装置では、ノード100a〜10
0cの通信インタフェース機構102a〜102cを通
信ケーブル103a〜103c及び通信処理装置101
を介して接続し、ノード100a〜100cのシステム
制御機構105b〜105dを通信ケーブル106a〜
106d及びネットワーク集線装置107を介して管理
端末装置104のシステム制御機構105aに接続し、
ノード100a〜100cのLAN制御機構108b〜
108dを通信ケーブル109a〜109d及びネット
ワーク集線装置110を介して管理端末装置104のL
AN制御機構108aに接続している。
【0086】本実施形態の並列計算機システムの管理装
置のシステム制御インタフェースは、前記の様に、管理
端末装置104側のシステム制御機構105aとノード
100a〜100c側のシステム制御機構105b〜1
05dとをイーサネット等の通信ケーブル106及びマ
ルチポートリピータ等のネットワーク集線装置107を
用いて相互接続することにより実現されるインタフェー
スである。
【0087】また、本実施形態の並列計算機システムの
管理装置のシステム運用支援インタフェースは、管理端
末装置104側のLAN制御機構108aとノード10
0a〜100c側のLAN制御機構108b〜108d
とをイーサネット等の通信ケーブル109及びマルチポ
ートリピータ等のネットワーク集線装置110を用いて
相互接続することにより実現されるインタフェースであ
る。
【0088】前記システム運用支援インタフェースは、
従来の並列計算機システムの運用管理を行うインタフェ
ースであり、ノード100a〜100cのメインプロセ
ッサが動作している場合に使用し、ノード100a〜1
00cのメインプロセッサで実行しているアプリケーシ
ョンソフトウェアが出力するメッセージを管理端末装置
104に表示する等のシステム管理を行うものである。
【0089】以下に、本実施形態の並列計算機システム
の管理装置において並列計算機システムを構成するノー
ド100a〜100cについて説明する。
【0090】図2は、本実施形態の並列計算機システム
の管理装置において並列計算機システムを構成するノー
ド100a〜100cの概略構成を示す図である。
【0091】図2において、200は主電源、201は
補助電源、202はメインプロセッサ、203はソフト
ウェア、204はメインメモリ、205はプロセッサメ
モリ制御機構、206はシステムバス、207はシステ
ムディスク、208はI/O制御機構、209はRS−
232C制御機構、210はブートストラップROM
(Read Only Memory)、211はシス
テムサポート機構、212はサブプロセッサ、213は
ROM、214はSRAM(Static Rando
m Access Memory;不揮発メモリ)、2
15はローカルバス、216は電源投入/切断信号、2
17はプロセッサリセット信号、218はLAN制御
部、219はRS−232C制御部、220はプロセッ
サ、221はROM、222はRAM(Random
Access Memory)、223はデータインタ
フェース、224は制御インタフェースである。
【0092】図2に示す様に、本実施形態の並列計算機
システムの管理装置のノード100a〜100cは、通
信インタフェース機構102a〜102cと、システム
制御機構105b〜105dと、LAN制御機構108
b〜108dとを有し、ノード100a〜100cで並
列処理を行うアプリケーションソフトウェアを実行する
メインプロセッサ202と、サブプロセッサ212を有
するシステムサポート機構211と、主電源200と、
補助電源201とを備えている。
【0093】また、本実施形態の並列計算機システムの
管理装置のノード100a〜100cは、メインプロセ
ッサ202により実行されるオペレーティングシステム
及びネットワークソフトウェアであるソフトウェア20
3と、ソフトウェア203を格納するメインメモリ20
4と、メインプロセッサ202とメインメモリ204と
のインタフェース制御を行うプロセッサメモリ制御機構
205と、システムバス206と、システムディスク2
07と、システムディスク207を制御するI/O制御
機構208と、ノードメッセージの出力やシステム制御
機構105b〜105d経由のオペレータとのインタラ
クティブなやりとりを行うRS−232C制御機構20
9と、メインプロセッサ202のシステム立ち上げ処理
を行うブートストラッププログラムを格納しているブー
トストラップROM210とを備えている。
【0094】本実施形態の並列計算機システムの管理装
置において、サブプロセッサ212を有し、メインプロ
セッサ202のステータス管理等のシステム制御を行う
システムサポート機構211は、サブプロセッサ212
上で動作する制御プログラムを格納しているROM21
3と、ハードウェアに依存した情報を格納しているSR
AM214を備えている。
【0095】本実施形態の並列計算機システムの管理装
置のノード100a〜100cのシステム制御機構10
5b〜105dは、管理端末装置104との間でイーサ
ネットパケットの送受信を制御するLAN制御部218
と、RS−232C制御機構209及びサブプロセッサ
212との間でのRS−232Cパケットの送受信を制
御するRS−232C制御部219と、イーサネットパ
ケットとRS−232Cパケットとのプロトコル変換を
行うプロセッサ220と、プロセッサ220上で動作す
る制御プログラムを格納するROM221と、サブプロ
セッサ212及びRS−232C制御機構209から送
られて来るノードメッセージを格納するRAM222と
を備えている。
【0096】図2に示す様に、本実施形態の並列計算機
システムの管理装置のノード100a〜100cでは、
システム制御機構105b〜105dを、RS−232
C制御部219と、データインタフェース223と、R
S−232C制御機構209と、システムバス206
と、プロセッサメモリ制御機構205とを介してメイン
プロセッサ202に接続し、また、システム制御機構1
05b〜105dをRS−232C制御部219及び制
御インタフェース224を介してシステムサポート機構
211のサブプロセッサ212に接続し、システムサポ
ート機構211のサブプロセッサ212を、ローカルバ
ス215とプロセッサメモリ制御機構205とを介して
メインプロセッサ202に接続している。また、サブプ
ロセッサ212は、プロセッサリセット信号217によ
りメインプロセッサ202をリセットし、電源投入/切
断信号216により主電源200を制御する。
【0097】尚、図2に示す様に、本実施形態の並列計
算機システムの管理装置のノード100a〜100cに
おいて、システム制御機構105b〜105dを、RS
−232C制御部219と、データインタフェース22
3と、RS−232C制御機構209とを介してメイン
プロセッサ202に接続しているのは、システム制御機
構105b〜105dとメインプロセッサ202との間
をRS−232C等のシリアルインタフェースで接続す
ることによりその通信ソフトウェアをコンパクトなもの
とし、メインプロセッサ202に障害が発生した場合で
あっても、システム制御機構105b〜105dとメイ
ンプロセッサ202との間の通信が、できるだけ損なわ
れることの無い様にする為である。
【0098】本実施形態の並列計算機システムの管理装
置のノード100a〜100cは、主電源200で動作
する部位と補助電源201で動作する部位より構成され
ている。
【0099】主電源200で動作する部位としては、ノ
ード100a〜100cのメインプロセッサ202、ソ
フトウェア203を格納するメインメモリ204、メイ
ンプロセッサ202とメインメモリ204とのインタフ
ェース制御を行うプロセッサメモリ制御機構205、ノ
ード100a〜100cのメインプロセッサ202のシ
ステム立ち上げ処理を行うブートストラッププログラム
を格納しているブートストラップROM210等があ
り、これらに、システムバス206を介して、通信イン
タフェース機構102a〜102c、LAN制御機構1
08b〜108d等が接続され、また、システムディス
ク207はI/O制御機構208経由にて接続される。
【0100】補助電源201で動作する部位としては、
ノード100a〜100cの主電源200の制御やメイ
ンプロセッサ202のステータス管理等のシステム制御
を行う部位であるシステムサポート機構211と、ノー
ド100a〜100cと管理端末装置104との通信を
制御するシステム制御機構105b〜105dがある。
【0101】サブプロセッサ212は、管理端末装置1
04からの指示により電源投入/切断信号216を出力
することで、主電源200の制御を行い、プロセッサリ
セット信号217を出力することで、メインプロセッサ
202をリセットする機能を持つ。
【0102】ノード100a〜100cのノードメッセ
ージは、メインプロセッサ202が動作し、メインプロ
セッサ202を制御するオペレーティングシステム及び
ネットワークソフトウェアであるソフトウェア203が
起動されている状態では、データインタフェース223
を介してRS−232C制御機構209からRAM22
2に蓄積され、ソフトウェア203が起動されていない
状態では、サブプロセッサ212より、制御インタフェ
ース224を介してブートストラップメッセージ等がR
AM222に蓄積される。
【0103】本実施形態の並列計算機システムの管理装
置のシステム制御機構105b〜105dのプロセッサ
220は、前記のパケットのプロトコル変換の他に、以
下の処理も行う。
【0104】すなわち、管理端末装置104からのイー
サネットパケットを解釈し、パケットの内容に応じた処
理を行い、管理端末装置104からの指示によりRAM
222に格納しているノードメッセージを管理端末装置
104に送信する処理を行い、サブプロセッサ212
は、制御インタフェース224を介して送られてきたパ
ケットを解釈し、その内容に応じた制御を行う。
【0105】以下に、本実施形態の並列計算機システム
の管理装置の管理端末装置104の概略構成について説
明する。
【0106】図3は、本実施形態の並列計算機システム
の管理装置の管理端末装置104の概略構成を示す図で
ある。図3において、300はプロセッサ、301はソ
フトウェア、302はメインメモリ、303はブートス
トラップROM、304はプロセッサメモリ制御機構、
305はシステムバス、306はI/O制御機構、30
7はシステムディスク、308、309はRS−232
C制御機構、310はグラフィックス制御機構、311
はLAN制御部、312はRS−232C制御部、31
3はプロセッサ、314はROM、315はRAM、3
16は制御インタフェース、317はデータインタフェ
ースである。
【0107】図3に示す様に、本実施形態の並列計算機
システムの管理装置の管理端末装置104は、管理端末
装置104内の全ての処理を制御/統括するプロセッサ
300と、管理端末装置104のオペレーティングシス
テム及びネットワークソフトウェアであるソフトウェア
301が格納されているメインメモリ302と、管理端
末装置104のシステム立ち上げ処理を行うブートスト
ラッププログラムを格納しているブートストラップRO
M303と、プロセッサ300、メインメモリ302及
びブートストラップROM303のインタフェース制御
を行うプロセッサメモリ制御機構304とを備えてい
る。
【0108】また、本実施形態の並列計算機システムの
管理装置の管理端末装置104は、システムバス305
と、システムディスク307を制御するI/O制御機構
306と、システムディスク307と、ソフトウェア3
01がノード100a〜100cに対し電源制御等のシ
ステム制御コマンドを発行する際に使用するRS−23
2C制御機構308と、ノードメッセージの出力やシス
テム制御機構105a経由にてオペレータとのインタラ
クティブなやりとりを行うRS−232C制御機構30
9と、ディスプレイターミナルやキーボード及びマウス
といったマンマシンインタフェースを制御するグラフィ
ックス制御機構310と、システム制御機構105aと
を備えている。
【0109】本実施形態の並列計算機システムの管理装
置の管理端末装置104のシステム制御機構105a
は、ノード100a〜100cとの間でイーサネットパ
ケットの送受信を制御するLAN制御部311と、RS
−232C制御機構308及び309との間でのRS−
232Cパケットの送受信を制御するRS−232C制
御部312と、イーサネットパケットとRS−232C
パケットとのプロトコル変換を行うプロセッサ313
と、プロセッサ313で動作する制御プログラムを格納
するROM314と、ノード100a〜100cより送
られてくるノードメッセージを格納するRAM315と
を備えている。
【0110】また、図3に示す様に、本実施形態の並列
計算機システムの管理装置の管理端末装置104では、
プロセッサ300をプロセッサメモリ制御機構304を
介してメインメモリ302、ブートストラップROM3
03及びシステムバス305に接続し、システムディス
ク307をI/O制御機構306を介してシステムバス
305に接続し、LAN制御機構108aと、RS−2
32C制御機構308及び309と、グラフィックス制
御機構310とをシステムバス305に接続している。
【0111】更に、図3に示す様に、本実施形態の並列
計算機システムの管理装置の管理端末装置104では、
システム制御機構105aのRS−232C制御部31
2を、制御インタフェース316及びデータインタフェ
ース317を介してRS−232C制御機構308及び
309に接続している。
【0112】本実施形態の並列計算機システムの管理装
置において、システム制御インタフェースは、ノード1
00a〜100cのシステム制御機構105b〜105
dと管理端末装置104のシステム制御機構105aと
をイーサネットケーブル等を用いて、相互接続すること
により形成されている。
【0113】前記システム制御インタフェースは、管理
端末装置104側のシステム制御機構105aが動作可
能な状態であり、ノード100a〜100cの補助電源
201が投入されており、サブプロセッサ212及びシ
ステム制御機構105b〜105dが動作可能な状態で
あれば、ノード100a〜100cの主電源200が投
入されておらず、すなわちメインプロセッサ202が動
作しておらず、メインプロセッサ202全体を制御する
オペレーティングシステム及びネットワークソフトウェ
アであるソフトウェア203が起動されていなくとも使
用可能である。
【0114】これに対し、システム運用支援インタフェ
ースは、管理端末装置104のLAN制御機構108a
とノード100a〜100cのLAN制御機構108b
〜108dとをイーサネットケーブル等を用いて、相互
接続することにより形成されており、前記システム運用
支援インタフェースは、TCP/IP(Transmi
ssion Control Protocol/In
ternet Protocol)にて使用するため、
管理端末装置104及びノード100a〜100cのオ
ペレーティングシステム及びそのネットワークソフトウ
ェアであるソフトウェア203及びソフトウェア301
が起動され、TCP/IPをサポートするネットワーク
ソフトウェアを実行している状態でのみ使用可能とな
る。
【0115】以下に、本実施形態の並列計算機システム
の管理装置の管理端末装置104とノード100a〜1
00cとの通信シーケンスについて説明する。
【0116】図4は、本実施形態の並列計算機システム
の管理装置の管理端末装置104とノード100a〜1
00cとの通信シーケンスの一例を示す図である。図4
において、401はアダプタ制御コマンド及びそのレス
ポンス、402はシステム制御コマンド及びそのレスポ
ンス、403はノードメッセージである。
【0117】図4に示す様に、本実施形態の並列計算機
システムの管理装置では、アダプタ制御コマンド及びそ
のレスポンス401、または、システム制御コマンド及
びそのレスポンス402であるパケットの送受信、或い
は、ノードメッセージ403の送受信により通信を行
う。
【0118】アダプタ制御コマンド及びそのレスポンス
401は、管理端末装置104のソフトウェア301が
管理端末装置104のシステム制御機構105aと通信
を行う際、およびサブプロセッサ212がシステム制御
機構105b〜105dと通信を行う際に使用し、制御
インタフェース316または制御インタフェース224
を介して送受信される。
【0119】システム制御コマンド及びそのレスポンス
402は、管理端末装置104のソフトウェア301が
ノード100a〜100cのサブプロセッサ212と通
信を行う際に使用し、制御インタフェース316及び制
御インタフェース224を介して送受信される。
【0120】ノードメッセージ403は、ソフトウェア
203が起動していないときは、サブプロセッサ212
からシステム制御機構105b〜105dのRAM22
2へ送信されて蓄積され、また、ソフトウェア203が
起動されているときは、メインプロセッサ202からR
S−232C制御機構209よりシステム制御機構10
5b〜105dのRAM222へ送信されて蓄積され
る。
【0121】システム制御機構105b〜105dのR
AM222に蓄積されたノードメッセージ403は、管
理端末装置104からの要求により、ノード100a〜
100cのシステム制御機構105b〜105dのRA
M222から、管理端末装置104のシステム制御機構
105aを介し、管理端末装置104のRS−232C
制御機構309へ送信され、管理端末装置104のグラ
フィックス制御機構310に接続されるグラフィックス
ディスプレイ等に表示される。
【0122】以下に、本実施形態の並列計算機システム
の管理装置におけるアダプタ制御コマンド及びそのレス
ポンス401のパケットフォーマットについて説明す
る。
【0123】図5は、本実施形態の並列計算機システム
の管理装置におけるアダプタ制御コマンド及びそのレス
ポンス401のパケットフォーマットを示す図である。
図5において、501は種別フィールド、502は送信
元アドレスフィールド、503は受信先アドレスフィー
ルド、504は情報部フィールド、505は識別子であ
る。
【0124】図5に示す様に、本実施形態の並列計算機
システムの管理装置におけるアダプタ制御コマンド及び
そのレスポンス401のパケットは、種別フィールド5
01と、送信元アドレスフィールド502と、受信先ア
ドレスフィールド503と、情報部フィールド504
と、識別子505とを備えている。
【0125】本実施形態の並列計算機システムの管理装
置において、種別フィールド501にはアダプタ制御コ
マンドまたはそのレスポンスであることを示すパケット
識別子、例えば「A」が格納され、送信元アドレスフィ
ールド502にはパケットの送信元アドレス、受信先ア
ドレスフィールド503にはパケットの受信先アドレス
が格納される。
【0126】また、情報部フィールド504には、パケ
ットの種類により、異なったパラメータが格納され、さ
らにパケットの末尾には、パケットの終わりを示す識別
子505、例えば「LF」(ラインフィード)が付加さ
れる。
【0127】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御コマンド及びそのレス
ポンス402のパケットフォーマットについて説明す
る。
【0128】図6は、本実施形態の並列計算機システム
の管理装置におけるシステム制御コマンド及びそのレス
ポンス402のパケットフォーマットを示す図である。
図6において、601は種別フィールド、602は送信
元アドレスフィールド、603は受信先アドレスフィー
ルド、604は情報部フィールド、605は識別子であ
る。
【0129】図6に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御コマンド及び
そのレスポンス402のパケットは、種別フィールド6
01と、送信元アドレスフィールド602と、受信先ア
ドレスフィールド603と、情報部フィールド604
と、識別子605とを備えている。
【0130】本実施形態の並列計算機システムの管理装
置において、種別フィールド601には、システム制御
コマンドまたはそのレスポンスであることを示すパケッ
ト識別子、例えば「d」が格納され、送信元アドレスフ
ィールド602にはパケットの送信元アドレス、受信先
アドレスフィールド603にはパケットの受信先アドレ
スが格納される。
【0131】また、情報部フィールド604には、パケ
ットの種別により異なったパラメータが格納され、さら
にパケットの末尾には、パケットの終わりを示す識別子
605、例えば「LF」が付加される。
【0132】また、本実施形態の並列計算機システムの
管理装置において、管理端末装置104からの送信パケ
ットの受信先アドレスフィールド603に16進数の
「0xffffffff」が格納されると、そのパケッ
トはブロードキャストパケットとなり、全てのノード1
00a〜100cで受信される。
【0133】尚、本実施形態の並列計算機システムの管
理装置において、「0x」が付加された数字は16進数
を示すものとする。
【0134】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構105a〜105
dの、パケットモードと非パケットモードのモード遷移
について説明する。
【0135】図7は、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構のモード遷移を示
す図である。図7において、701はパケットモード、
702は非パケットモード、703は「SET−MOD
E」コマンドである。
【0136】図7に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御機構は、固定
長のパケットの送受信を行うパケットモード701と、
不定長のノードメッセージ403の送受信を行う非パケ
ットモード702とを備え、パケットモード701と非
パケットモード702のモード遷移は、サブプロセッサ
212からのアダプタ制御コマンドである「SET−M
ODE」コマンド703を実行することにより行う。
【0137】前記の様に、本実施形態の並列計算機シス
テムの管理装置のシステム制御機構105a〜105d
の動作モードは、パケットモード701及び非パケット
モード702の2種類があり、パケットモード701
は、管理端末装置104と複数のノード100a〜10
0cが通信を行う際に設定されるモードであり、非パケ
ットモード702は、特定のノードとコネクション型通
信を行い、前記特定のノードからのノードメッセージ4
03を管理端末装置104に表示する際に設定されるモ
ードである。
【0138】尚、本実施形態の並列計算機システムの管
理装置において、管理端末装置104及びノード100
a〜100cのシステム制御機構105a〜105d
は、補助電源201投入時にはパケットモード701に
て動作するものとする。
【0139】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構105a〜105
dの非パケットモード702でのコネクション状態の遷
移について説明する。
【0140】図8は、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構の非パケットモー
ド702でのコネクション状態の遷移を示す図である。
図8において、800はディスコネクト状態、801は
ウェイトコネクト状態、802はコネクト状態、803
は「SET−CONNECT」コマンド、804は管理
端末装置104上のシステム制御機構105aとノード
100a〜100c上のシステム制御機構105b〜1
05cとの間で行われる呼制御である。
【0141】図8に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御機構の非パケ
ットモード702でのコネクション状態には、相手のシ
ステム制御機構が接続されておらずRAM222にノー
ドメッセージ403を蓄積していない状態であるディス
コネクト状態800と、相手のシステム制御機構が接続
されていないがノードメッセージ403をRAM222
に蓄積中である状態のウェイトコネクト状態801と、
相手のシステム制御機構が接続されているコネクト状態
802とがあり、前記コネクション状態の遷移は、「S
ET−CONNECT」コマンド803またはシステム
制御機構からの呼制御804により行う。
【0142】図8に示す様に、本実施形態の並列計算機
システムの管理装置において、非パケットモード702
設定時には、ディスコネクト状態800、ウェイトコネ
クト状態801及びコネクト状態802の3つのコネク
ト状態を保持し、ディスコネクト状態800では、シス
テム制御機構同士の通信は不可となり、ウェイトコネク
ト状態801では、相手のシステム制御機構との通信は
不可であるが、ノードメッセージ403は、RAM22
2内に順次蓄積される。
【0143】通信を行うシステム制御機構同士がコネク
ト状態802にあるとき、非パケットモード702での
コネクション型通信が可能となる。
【0144】これらの状態は、「SET−CONNEC
T」コマンド803を発行することにより遷移する。ま
た、相手のシステム制御機構からの呼制御804による
コネクト要求があった場合、ウェイトコネクト状態80
1からコネクト状態802に遷移する。
【0145】本実施形態の並列計算機システムの管理装
置にて使用するアダプタ制御コマンド及びそのレスポン
ス401の一覧を表1に示す。表1において、情報部は
情報部フィールド504に格納される情報を示してお
り、情報部のバイト0の数字は、パケット種別を示す番
号である。
【0146】
【表1】
【0147】本実施形態の並列計算機システムの管理装
置にて使用するシステム制御コマンド及びそのレスポン
ス402の一覧を表2に示す。表2において、情報部は
情報部フィールド604に格納される情報を示してお
り、情報部のバイト0の数字は、パケット種別を示す番
号である。
【0148】
【表2】
【0149】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ム制御機構105b〜105dのプロセッサ220の処
理手順について説明する。
【0150】図9は、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ム制御機構105b〜105dのプロセッサ220の処
理手順の一部を示すフローチャートである。
【0151】図9に示す様に、本実施形態の並列計算機
システムの管理装置におけるノード100a〜100c
のシステム制御機構105b〜105dのプロセッサ2
20では、ステップ900の処理にて、「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からコネクト要求があるかどうかを調べる。
【0152】ステップ900の処理で、「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からのコネクト要求がある場合には、ステップ901
の処理に進み、ノード100a〜100cのシステム制
御機構105b〜105dが非パケットモード702で
あるかどうかをチェックする。
【0153】ステップ901の処理で、ノード100a
〜100cのシステム制御機構105b〜105dが非
パケットモード702であれば、ステップ902の処理
へ進み、ステップ901の処理で、ノード100a〜1
00cのシステム制御機構105b〜105dが非パケ
ットモード702でなければ、ステップ903の処理に
て、サブプロセッサ212からのシステム制御コマンド
「SET−MODE」により、ノード100a〜100
cのシステム制御機構105b〜105dを非パケット
モード702に設定し、ステップ902の処理へ進む。
【0154】ステップ902の処理では、ノード100
a〜100cのシステム制御機構105b〜105dの
RAM222に蓄積されたノードメッセージ403をシ
ステム制御インタフェース経由で管理端末装置104へ
送信し、ステップ900の処理に戻る。
【0155】ステップ900の処理にて「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からコネクト要求が無い場合には、ステップ904の
処理に進み、ステップ904の処理にて、システム制御
コマンドにより、管理端末装置104からのシステム制
御があるかどうかを調べる。
【0156】ステップ904の処理にて、前記システム
制御コマンドにより、管理端末装置104からのシステ
ム制御がある場合には、ステップ905の処理に進み、
ノード100a〜100cのシステム制御機構105b
〜105dがパケットモード701かどうかをチェック
する。
【0157】ステップ904の処理にて、システム制御
コマンドによる管理端末装置104からのシステム制御
がない場合には、ステップ909の処理に進む。
【0158】ステップ905の処理で、ノード100a
〜100cのシステム制御機構105b〜105dがパ
ケットモード701であれば、ステップ906の処理へ
進み、ノード100a〜100cのシステム制御機構1
05b〜105dがパケットモード701でなければ、
ステップ907の処理にて、サブプロセッサ212から
のシステム制御コマンド「SET−MODE」により、
システム制御機構105b〜105dをパケットモード
701に設定し、ステップ906の処理へ進む。
【0159】ステップ906の処理にて、前記システム
制御コマンドの受信先アドレスフィールド603をチェ
ックし、前記システム制御コマンドの受信先アドレスフ
ィールド603が、自論理アドレスまたは「0xfff
fffff」である場合は、ステップ908の処理に進
み、前記システム制御コマンドの内容をサブプロセッサ
212に通知し、ステップ900の処理に戻る。
【0160】ステップ906の処理にて、前記システム
制御コマンドの受信先アドレスフィールド603が、自
論理アドレス及び「0xffffffff」でない場合
は、ステップ900の処理に戻る。
【0161】ステップ909の処理にて、ノード100
a〜100cのサブプロセッサ212からの処理の結果
が返ってきたかどうかを調べ、サブプロセッサ212か
らの処理の結果が返ってきた場合には、ステップ910
の処理に進み、管理端末装置104に対し、前記システ
ム制御コマンドのレスポンスパケットを送信し、ステッ
プ900の処理に戻る。
【0162】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ムサポート機構211のサブプロセッサ212の処理手
順について説明する。
【0163】図10は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのシス
テムサポート機構211のサブプロセッサ212の処理
手順の一部を示すフローチャートである。
【0164】図10に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのシステムサポート機構211のサブプロセッサ21
2では、補助電源201が投入されると、ステップ10
00の処理にて、ノード100a〜100cの論理アド
レスを設定し、ノード100a〜100cに備えられた
パネルに表示するステータスコードを格納するSRAM
214内のパネルステータス管理領域に「0000」を
設定する。
【0165】次に、ステップ1001の処理にて、ノー
ド100a〜100cのシステム制御機構105b〜1
05dを非パケットモード702に設定し、ステップ1
002の処理にて、ノード100a〜100cのシステ
ム制御機構105b〜105dの非パケットモード70
2のコネクション状態をウェイトコネクト状態801に
設定する。
【0166】ノード100a〜100cのシステム制御
機構105b〜105dのモードを非パケットモード7
02に設定し、システム制御機構105b〜105dの
非パケットモード702のコネクション状態をウェイト
コネクト状態801に設定するのは、ノード100a〜
100cのノードメッセージをシステム制御機構105
b〜105dのRAM222に蓄積すると共に、管理端
末装置104のシステム制御機構105aからの呼制御
804によるコネクト要求があったときに、ノード10
0a〜100cのシステム制御機構105b〜105d
のRAM222に蓄積したノードメッセージを管理端末
装置104に送る為である。
【0167】また、こうすることでノード100a〜1
00c上のソフトウェア203が起動されていない場合
でも管理端末装置104からRAM222に蓄積したノ
ードメッセージを読み出すことが可能となる。
【0168】次に、管理端末装置104のシステム制御
機構105aから、ノード100a〜100cのシステ
ム制御機構105b〜105dにシステム制御コマンド
が送られた場合には、前記システム制御コマンドをノー
ド100a〜100cのサブプロセッサ212に送り、
サブプロセッサ212にて前記システム制御コマンドを
実行する。
【0169】ステップ1003の処理にて、管理端末装
置104のシステム制御機構105aからノード100
a〜100cのシステム制御機構105b〜105dを
介して、ノード100a〜100cの主電源200を投
入または切断する電源制御指示のシステム制御コマンド
が送られてきているかどうかを調べる。
【0170】ステップ1003の処理で管理端末装置1
04からの電源制御指示があるかどうかを調べた結果、
管理端末装置104からの電源制御指示がある場合に
は、ステップ1004の処理にて、ノード100a〜1
00cの主電源200を投入または切断する電源制御処
理を実行し、ステップ1005の処理にて、前記電源制
御処理の実行結果をノード100a〜100cのシステ
ム制御機構105b〜105dへ報告した後、ステップ
1003の処理に戻る。
【0171】ステップ1003の処理で管理端末装置1
04からの電源制御指示があるかどうかを調べた結果、
管理端末装置104からの電源制御指示がない場合に
は、ステップ1006の処理に進み、管理端末装置10
4のシステム制御機構105aからノード100a〜1
00cのシステム制御機構105b〜105dを介し
て、ノード100a〜100cに備えられたパネルを制
御するパネル制御指示のシステム制御コマンドが送られ
てきているかどうかを調べる。
【0172】ステップ1006の処理にて、管理端末装
置104からのパネル制御指示があるかどうかを調べた
結果、管理端末装置104からのパネル制御指示がある
場合には、ステップ1007の処理に進み、パネル制御
処理を実行し、ステップ1008の処理にて、前記パネ
ル制御処理の実行結果をノード100a〜100cのシ
ステム制御機構105b〜105dへ報告した後、ステ
ップ1003の処理に戻る。
【0173】ステップ1006の処理にて、管理端末装
置104からのパネル制御指示があるかどうかを調べた
結果、管理端末装置104からのパネル制御指示がない
場合には、ステップ1009の処理に進み、管理端末装
置104のシステム制御機構105aからノード100
a〜100cのシステム制御機構105b〜105dを
介して、ノード100a〜100cのメインプロセッサ
202をリセットするリセット指示のシステム制御コマ
ンドが送られてきているかどうかを調べる。
【0174】ステップ1009の処理にて、管理端末装
置104からのリセット指示があるかどうかを調べた結
果、管理端末装置104からのリセット指示がある場合
には、ステップ1010の処理に進み、ノード100a
〜100cのメインプロセッサ202のリセット処理を
実行し、ステップ1011の処理にて、前記リセット処
理の実行結果をノード100a〜100cのシステム制
御機構105b〜105dへ報告した後、ステップ10
03の処理に戻る。
【0175】ステップ1012の処理にてシステム制御
機構105b〜105dからモード切り替えの要求があ
るかどうかを調べた結果、モード切り替え要求がある場
合には、ステップ1013の処理に進み、アダプタ制御
コマンド「SET−MODE」を実行し、システム制御
機構105b〜105dの動作モードを切り替え、ステ
ップ1003の処理に戻る。
【0176】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、ノード100a〜10
0cの補助電源201で動作し、メインプロセッサ20
2が使用するネットワークソフトウェア及び通信ケーブ
ル109b〜109dとは別のネットワークソフトウェ
ア及び通信ケーブル106b〜106dを使用して管理
端末装置104と通信を行うシステム制御機構105b
〜105dに、管理端末装置104からシステム制御コ
マンドを送信し、前記システム制御コマンドを補助電源
201で動作するサブプロセッサ212で実行すること
より、複数のノード100a〜100cのメインプロセ
ッサ202の制御を行うので、並列処理を実行するメイ
ンプロセッサ202の動作並びにメインプロセッサ20
2のオペレーティングシステム及びネットワークソフト
ウェアであるソフトウェア203の動作とは無関係に、
並列計算機システムを構成する複数のノード100a〜
100cの運用管理を管理端末装置104で一括して行
うことが可能である。
【0177】(実施形態2)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104か
ら複数のノード100a〜100dに主電源200の投
入を指示し、ノード100a〜100dのステータスコ
ードを監視し、ノード100a〜100dのメインプロ
セッサ202が動作を開始したかどうかを管理する実施
形態2について説明する。
【0178】図11は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104からノード1
00a〜100dへ主電源200の投入を指示する電源
投入シーケンスの一例を示す図である。図11におい
て、100dはノード、1101〜1112は電源投入
の各段階を示すシーケンスである。
【0179】図11に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104から
ノード100a〜100dへ主電源200の投入を指示
する電源投入シーケンスでは、シーケンス1101に
て、ノード100a〜100dの補助電源201が投入
されている。
【0180】ノード100a〜100dの補助電源20
1が投入されると、ノード100a〜100dのサブプ
ロセッサ212は、シーケンス1102にて、システム
サポート機構211内の初期化を行い、アダプタ制御コ
マンド「SET−ADDRESS」によって、システム
制御機構105b〜105dの初期化、及び、管理端末
装置104がノード100a〜100dを管理するため
に必要なアドレスである論理アドレスの設定を行う。
【0181】ここで、例えば、論理アドレス「0x00
000001」を設定する「SET−ADDRESS」
コマンド及びそのレスポンスのフォーマットの一例は、
下記の通りとなる。
【0182】<コマンド>: A0x00000001:(受信先アドレスフィールド503は省
略):0x01 LF <レスポンス>: A0x00000001:0x00000001:0x01(ステータス情報)LF シーケンス1103にて、管理端末装置104の電源が
投入されると、管理端末装置104のブートストラップ
ROM303に格納されているブートストラッププログ
ラムが、管理端末装置104のシステム立ち上げ処理を
行う。
【0183】シーケンス1104にて、管理端末装置1
04のシステム立ち上げ処理が終わると、シーケンス1
105にて、管理端末装置104のソフトウェア301
は、管理端末装置104の論理アドレスを「SET−A
DDRESS」にて設定する。
【0184】管理端末装置104及びノード100a〜
100dの論理アドレスが設定されると、シーケンス1
106にて、管理端末装置104のソフトウェア301
は、システム制御コマンドのブロードキャストパケット
を用いて、ノード100a〜100dの状態を示すステ
ータスコードを読み出す。
【0185】ステータスコードは、ノード100a〜1
00dのSRAM214内のパネルステータス管理領域
にて管理されており、例えば、ノード100a〜100
dの補助電源201が正常に投入されると、ある一定の
ステータスコードが前記パネルステータス管理領域に書
き込まれ、また、そのステータスコードは、サブプロセ
ッサ212により読み出すことができる(本実施形態の
並列計算機システムの管理装置ではコード「0000」
が読み出せるものとする。)。
【0186】ここでは、管理端末装置104は「STA
TUS−READ」コマンドを使用して、ノード100
a〜100dに対し、ブロードキャストを行う。
【0187】論理アドレスが「0xa0000000」
である管理端末装置104が、「STATUS−REA
D」コマンドをブロードキャストした場合と、そのコマ
ンドに対する、論理アドレスが「0x0000000
5」であるノードからのレスポンスのフォーマットの一
例は、下記の通りとなる。
【0188】<コマンド>: d0xa0000000:0xffffffff:0x4 LF <レスポンス> d0x00000005:0xa0000000:0x04 0000 LF シーケンス1107にて、ノード100a〜100dで
前記「STATUS−READ」コマンドが受信され、
サブプロセッサ212によりステータスコード「000
0」が読み出された後、シーケンス1108にて、ノー
ド100a〜100dから管理端末装置104に対し、
前記の様にレスポンスが返ってくる。
【0189】ここで、管理端末装置104のソフトウェ
ア301は、正常なレスポンスが返ってきたノードの論
理アドレスと、予め管理端末装置104のソフトウェア
301内または特定のファイルに保持しておいた、並列
計算機システムを構成するノード100a〜100dの
構成情報とを照らし合わせ、正常なレスポンスが返って
こないノードに対しては、予め設定された一定の時間間
隔で再び「STATUS−READ」コマンドを送るリ
トライ処理を行う。
【0190】シーケンス1109にて、管理端末装置1
04のソフトウェア301は、シーケンス1108で正
常なレスポンスパケットが返ってきたノードの主電源2
00を「P−ON」コマンドにて投入する。
【0191】例えば、論理アドレスが「0xa0000
000」である管理端末装置104から、論理アドレス
が「0x00000005」であるノードに対する「P
−ON」コマンド及びそのレスポンスのフォーマットの
一例は、下記の通りとなる。
【0192】<コマンド>: d0xa0000000:0x00000005:0x01LF <レスポンス>: d0x00000005:0xa0000000:0x01(完了コード)LF このとき、管理端末装置104のソフトウェア301の
制御により、予め設定された一定の時間間隔で「P−O
N」コマンドをずらしながらノード100a〜100d
に送信することで、並列計算機システム全体に電源を供
給している電源設備への突入電流を低く抑えることが出
来る。
【0193】シーケンス1110にて、「P−ON」コ
マンドを受け取ったノード100a〜100dのサブプ
ロセッサ212は、電源投入信号216を出力し、主電
源200をオンにした後、「P−ON」コマンドに対す
るレスポンスを、管理端末装置104に返送する。
【0194】ノード100a〜100dの主電源200
がオンになると、メインプロセッサ202によりブート
ストラップROM210に格納されているブートストラ
ッププログラムが実行され、システム立ち上げ処理が開
始される。
【0195】尚、システム立ち上げ処理中にブートスト
ラッププログラムがインクリメントするステータスコー
ドには、例えば以下のようなものがある。ここで、本実
施形態の並列計算機システムの管理装置では、ステータ
スコードは16進数で示されている。
【0196】
【表3】
【0197】ノード100a〜100dのメインプロセ
ッサ202のブートストラッププログラムは、ノード1
00a〜100dのSRAM214内のパネルステータ
ス管理領域にステータスコードを書き込み、システム立
ち上げ処理が進むと、定期的に前記ステータスコードを
更新する。
【0198】また、前記パネルステータス管理領域は、
ノード100a〜100dのサブプロセッサ212から
も参照可能であり、例えば、ノード100a〜100d
に備えられたパネル等の表示装置に表示することによ
り、オペレータに対し、前記ステータスコードを開示す
ることも可能である。
【0199】管理端末装置104のソフトウェア301
は、これらのノード100a〜100dのステータスコ
ードを「STATUS−READ」コマンドを使用して
定期的に読み出すことにより、ノード100a〜100
dの状態を監視する。
【0200】シーケンス1110にて、管理端末装置1
04のソフトウェア301は、システム制御コマンドの
送信からそのレスポンスの受信までを一定の時間で監視
しており、図11に示す様に、何らかの障害が発生して
おり、一定時間内に正常なレスポンスが返ってこないノ
ード100dに対しては、シーケンス1111にて、予
め設定された一定の時間間隔で再度システム制御コマン
ドを送信するリトライ処理を行う。
【0201】図11に示す様に、本実施形態の並列計算
機システムの管理装置において、一定回数(本実施形態
では3回)のリトライ処理の結果、ノード100dから
正常なレスポンスが返って来なかった場合、シーケンス
1112にて、管理端末装置104のソフトウェア30
1は、ノード100dに障害が発生していることを認識
する。
【0202】管理端末装置104のソフトウェア301
は、前記の様に、特定のシステム制御コマンドに対する
正常なレスポンスが一定時間内の間に受信されない場合
に、予め設定された一定の時間間隔で前記特定のシステ
ム制御コマンドを再度送信する制御を行うことで、ノー
ド100a〜100dのソフトウェア203が起動され
ていなくとも、ノード100a〜100dのメインプロ
セッサ202のシステム立ち上げ処理が正常に終了して
いるかどうかの管理を行うことが可能である。
【0203】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、管理端末装置104か
らの指示により複数のノード100a〜100dの主電
源200の投入または切断を行うので、並列計算機シス
テムを構成する複数のノード100a〜100dの主電
源200の投入または切断を管理端末装置104で一括
または個別に行うことが可能である。
【0204】また、本実施形態の並列計算機システムの
管理装置によれば、ノード100a〜100dへの主電
源200の投入指示を、予め設定された特定の時間間隔
で行うので、並列計算機システムに電力を供給する電源
設備の突入電流を低く抑えることが可能である。
【0205】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの指示によ
りノード100a〜100dのステータスコードを読み
出すので、複数のノード100a〜100dの状態を管
理端末装置104で一括して管理することが可能であ
る。
【0206】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの特定のシ
ステム制御コマンドに対する正常なレスポンスが一定時
間中に受信されるかどうかを調べるので、並列計算機シ
ステムを構成する複数のノードが正常に動作中であるか
を管理端末装置104で監視することが可能である。
【0207】(実施形態3)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104に
ノード100aからのノードメッセージ403を表示
し、必要に応じて保守を行う実施形態3について説明す
る。
【0208】図12は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104にノード10
0aからのノードメッセージ403を表示するシーケン
スの一例を示す図である。図12において、1201〜
1217はノードメッセージ403を表示する各段階の
シーケンスを示している。
【0209】図12に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104にノ
ード100aからのノードメッセージ403を表示する
シーケンスにおいて、シーケンス1201では、ノード
100aには、予め補助電源201が投入されており、
システム制御機構105b(動作モードはパケットモー
ド701)、サブプロセッサ212及びプロセッサ22
0は動作可能な状態にある。
【0210】補助電源201が投入されているノード1
00aのサブプロセッサ212は、シーケンス1202
で「SET−ADDRESS」コマンドにて、ノード1
00aの論理アドレスを設定する。
【0211】次に、ノード100aのサブプロセッサ2
12は、シーケンス1203で、「SET−MODE」
コマンドにてシステム制御機構105bの動作モードを
非パケットモード702(ディスコネクト状態800)
に設定する。
【0212】ノード100aのサブプロセッサ212
は、シーケンス1204で、さらに「SET−CONN
ECT」コマンドにて、コネクション状態を非パケット
モード702のウェイトコネクト状態801に設定す
る。
【0213】一方、管理端末装置104は、シーケンス
1205で、管理端末装置104の電源が投入される
と、管理端末装置104のシステム立ち上げ処理を開始
する。
【0214】管理端末装置104のシステム立ち上げ処
理が終了すると、シーケンス1206で、管理端末装置
104のソフトウェア301は、ノード100aと同様
にして、「SET−ADDRESS」コマンドを用いて
管理端末装置104の論理アドレスの設定を行い、シー
ケンス1207で、「SET−MODE」を用いて、動
作モードを非パケットモード702のディスコネクト状
態800に設定する。
【0215】シーケンス1208にて、管理端末装置1
04のソフトウェア301は、「STATUS−REA
D」コマンドによってノード100aのステータスコー
ドを読み出し、ステータスコード「0000」が読み出
せると、シーケンス1209にて、「P−ON」コマン
ドをノード100aに送信し、ノード100aの主電源
200の投入を指示する。
【0216】管理端末装置104からの「P−ON」コ
マンドを受信し、主電源200を投入したノード100
aは、ブートストラップROM210に格納されている
ブートストラッププログラムをメインプロセッサ202
により実行し、ノード100aのシステム立ち上げ処理
を行う。
【0217】このとき、ノード100aのブートストラ
ッププログラムから出力されるノードメッセージ403
は、サブプロセッサ212を経由し、ノード100aの
システム制御機構105bのRAM222に蓄積され
る。
【0218】管理端末装置104のソフトウェア301
は、シーケンス1210で、「SET−CONNEC
T」コマンドにより、管理端末装置104のシステム制
御機構105aのコネクション状態をコネクト状態80
2にすることで、ノード100aのシステム制御機構1
05bのRAM222に蓄積されているノード100a
のメインプロセッサ202のシステム立ち上げ処理中の
ノードメッセージ403の監視を開始する。
【0219】「SET−CONNECT」を受けた管理
端末装置104のシステム制御機構105aは、シーケ
ンス1211で、ノード100aのシステム制御機構1
05bと呼制御804を行い、これを受けたノード10
0aのシステム制御機構105bのコネクション状態
は、ウェイトコネクト状態801からコネクト状態80
2に遷移する。
【0220】同時にノード100aのシステム制御機構
105bは、シーケンス1212で、「REPORT−
CONNECT」コマンドを、ノード100aのサブプ
ロセッサ212に発行し、管理端末装置104からのコ
ネクト要求があったことを伝える。
【0221】このときの「REPORT−CONNEC
T」コマンド及びそのレスポンスのフォーマットの一例
は、下記の通りとなる。尚、以下の「REPORT−C
ONNECT」コマンド及びそのレスポンスでは、送受
信アドレスは省略されている。
【0222】<コマンド>: A::0xA(コネクト状態変化状況)LF <レスポンス>: A::0xA LF シーケンス1213にて、ノード100aのノードメッ
セージ403は、ノード100aのシステム制御機構1
05bが呼制御804によるコネクト要求を受け取った
時点で、ノード100aのシステム制御機構105bの
RAM222からLAN制御部218を経由して管理端
末装置104へ送信される。
【0223】ここで、図12には特に示していないが、
もし、ノード100aのメインプロセッサ202のシス
テム立ち上げ処理中に、ノード100aのメインプロセ
ッサ202が使用するファイルシステムに矛盾が発見さ
れ、前記システム立ち上げ処理が中断した場合には、シ
ーケンス1214にて、オペレータは、管理端末装置1
04の表示装置に出力されるノード100aのメインプ
ロセッサ202のシステム立ち上げ処理中のノードメッ
セージ403により、ノード100aに障害が発生して
いることを認識し、UNIXのfsck等のファイルシ
ステムを検査する保守コマンドを投入することで、ノー
ド100aの保守を行うことも可能である。
【0224】また、ノード100aのメインプロセッサ
202のシステム立ち上げ処理は正常終了したが、その
後の通常の業務でノード100aのメインプロセッサ2
02を使用中に、パニックメッセージを出力してノード
100aのメインプロセッサ202がシステムダウンを
起こした場合には、オペレータは、ノード100aのシ
ステム制御機構105bのRAM222に蓄積されたノ
ードメッセージ403を管理端末装置104に表示さ
せ、ノードメッセージ403の内容によりシステムダウ
ンの要因を検討することも可能である。
【0225】ノード100aとのコネクションを切断す
る場合には、シーケンス1210〜1212までの処理
と同様、管理端末装置104のソフトウェア301が、
シーケンス1215にて、「SET−CONNECT」
コマンドを発行する。
【0226】管理端末装置104のソフトウェア301
が「SET−CONNECT」コマンドを発行すること
により、管理端末装置104のシステム制御機構105
aはディスコネクト状態800になり、シーケンス12
16にて、管理端末装置104のシステム制御機構10
5aは、ノード100aのシステム制御機構105bに
対し呼制御804を行う。
【0227】シーケンス1217にて、ノード100a
のシステム制御機構105bは、前記の管理端末装置1
04のシステム制御機構105aからの呼制御804に
より、相手からコネクション断の要求があったことを認
識し、同時にノード100aのサブプロセッサ212に
対し、このことを「REPORT−CONNECT」コ
マンドにて報告する。
【0228】以上の様に、管理端末装置104からノー
ド100a〜100cに対し、システム制御コマンドを
送信することで、管理端末装置104からノード100
a〜100cの主電源200の電源制御及びノード10
0a〜100cの状態監視が可能となる。
【0229】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、パケットモード701
及び非パケットモード702のモード切り替えをサブプ
ロセッサ212により行うので、パケットを用い、シス
テム制御コマンド及びそのレスポンスを複数のノード1
00a〜100cと送受信する通信と、特定のノードと
のコネクションを設定し、特定のノードのノードメッセ
ージ403を連続して受信する通信とを、切替装置の様
な特別のハードウェアを用いることなく同一の管理端末
装置104で行うことが可能である。
【0230】また、本実施形態の並列計算機システムの
管理装置によれば、特定のノードのメインプロセッサ2
02またはサブプロセッサ212が動作時に出力するノ
ードメッセージ403を蓄積し、管理端末装置104が
前記の蓄積されたノードメッセージ403を読み取るの
で、並列計算機システムを構成する複数のノード100
a〜100cのメインプロセッサ202がノードメッセ
ージ403を出力した後にその動作を停止した場合であ
っても、ノードメッセージ403を管理端末装置104
で一括して管理することが可能である。
【0231】(実施形態4)以下に、本発明の並列計算
機システムの管理装置において、ノード100a〜10
0cのメインプロセッサ202のシステム立ち上げ処理
を実行し、必要に応じてそのブートストラップデバイス
を変更してシステム立ち上げ処理を行う実施形態4につ
いて説明する。
【0232】本実施形態の並列計算機システムの管理装
置では、ブートストラップデバイスからのロード処理が
異常終了した場合に、ノード100a〜100cのメイ
ンメモリ204の内容を読み書きすることによってその
内容を変更し、ノード100a〜100cのメインプロ
セッサ202をリセットすることによって、他のブート
ストラップデバイスからのロード処理を行うことが可能
である。
【0233】本実施形態の並列計算機システムの管理装
置において、ノード100a〜100cのメインメモリ
204の内容を読み書きする場合には、「MS−REA
D」コマンド及び「MS−WRITE」コマンドを使用
する。これらのシステム制御コマンドは、ノード100
a〜100cのメインプロセッサ202にて通常の業務
として並列処理を実行中に障害が発生したときに、ノー
ド100a〜100cのメインメモリ204の内容を調
査する場合にも使用することが可能である。
【0234】また、本実施形態の並列計算機システムの
管理装置では、ノード100a〜100cのメインプロ
セッサ202、サブプロセッサ212及びプロセッサメ
モリ制御機構205等のハードウェアモジュール内のレ
ジスタの内容を読み書きすることも可能であり、その場
合には、「REG−READ」コマンド及び「REG−
WRITE」コマンドを使用する。
【0235】例えば、ノード100a〜100cのメイ
ンプロセッサ202にて、通常の業務である並列処理を
実行中に障害が発生した場合は、ノード100a〜10
0c内の各ハードウェアリソースが採取する障害ログを
レジスタに退避しておき、前記の「REG−READ」
コマンドにより管理端末装置104から前記障害ログを
読み出すことにより、管理端末装置104からの障害要
因の特定が可能となる。
【0236】また、本実施形態の並列計算機システムの
管理装置では、「STATUS−READ」コマンドに
より、ノード100a〜100cのステータスコードを
読み出し、システムダウンを起こしているノードがあれ
ば、「PROC−RESET」コマンドを送信すること
で、前記のシステムダウンを起こしているノードのメイ
ンプロセッサ202をリセットし、再起動させるオペレ
ーションも可能となる。
【0237】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのメイン
プロセッサ202のシステム立ち上げ処理について説明
する。
【0238】図13は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのメイ
ンプロセッサ202のシステム立ち上げ処理手順を示す
フローチャートである。
【0239】図14は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのSR
AM214のメモリマップを示す図である。図14にお
いて、1400はプライマリブートストラップパス情
報、1401はオルタネートブートストラップパス情報
である。
【0240】図14に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのSRAM214のメモリマップは、オペレーティン
グシステム等のソフトウェア203を格納している第1
のブートストラップデバイスを示すプライマリブートス
トラップパス情報1400と、第1のブートストラップ
デバイスが使用できない場合に使用するブートストラッ
プデバイスを示すオルタネートブートストラップパス情
報1401とを備えている。
【0241】図13に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのメインプロセッサ202のシステム立ち上げ処理手
順では、管理端末装置104からの電源投入指示により
主電源200が投入されると、メインプロセッサ202
によりブートストラップROM210に格納されている
ブートストラッププログラムが実行され、ステップ13
00の処理にて、SRAM214内のパネルステータス
管理領域のステータスコードを「1000」とし、ステ
ップ1301の処理にて、ノード100a〜100c内
の各ハードウェアモジュールの初期診断及び初期化を行
う。
【0242】ステップ1302の処理では、ステップ1
301の処理のハードウェアの初期診断及び初期化が正
常終了したかどうかをチェックし、ステップ1301の
処理でハードウェアの初期診断及び初期化が正常終了し
ている場合には、ステップ1303の処理に進む。
【0243】ステップ1301の処理でハードウェアの
初期診断及び初期化が異常終了している場合には、ステ
ップ1313の処理にて、当該ノードに備えられたパネ
ルにステータスコード「1FFF」を表示し、当該ノー
ドのメインプロセッサ202のシステム立ち上げ処理は
異常終了となる。
【0244】ステップ1303の処理では、ステータス
コードを「2000」とし、ステップ1304の処理に
て、SRAM214に格納されているハードウェア依存
情報のうち、図14に示すブートストラップパス情報を
参照し、プライマリブートストラップパス情報1400
にて指定されるブートストラップデバイス(例えば、シ
ステムディスク207等)から、オペレーティングシス
テム等のソフトウェア203をメインメモリ204にロ
ードする。
【0245】SRAM214内のブートストラップパス
情報は、ブートストラップROM210に格納されてい
るブートストラッププログラムの実行時にメインメモリ
204内の特定領域にコピーされ、システムが立ち上が
るとソフトウェア203にて参照可能となる。
【0246】また、本実施形態の並列計算機システムの
管理装置では、ブートストラップデバイスには、自ノー
ド内のローカルファイルの他にイーサネット経由(シス
テム制御インタフェース)にてbootpプロトコル
(Request For Connectブートのベ
ースとなるプロトコル)を使用し、イーサネットに接続
される他のノードから取得可能となるブートストラップ
ファイルも適用可能である。
【0247】ステップ1305の処理では、プライマリ
ブートストラップパス情報1400にて指定されるブー
トストラップデバイスからオペレーティングシステム等
のソフトウェア203をメインメモリ204にロードす
るロード処理が正常終了したかどうかをチェックしてお
り、前記のロード処理に成功すると、ステップ1306
の処理に進み、失敗するとステップ1314の処理に進
む。
【0248】ステップ1306の処理にて、ステータス
コードを「3000」とし、メインメモリ204にロー
ドされたソフトウェア203が起動され、ステップ13
07の処理でステータスコードを「A000」とし、ス
テップ1308の処理にて各種システムパラメータを設
定し、ステップ1309の処理にて、ファイルシステム
の初期化を行い、ステップ1310の処理にて、TCP
/IPなどのネットワークの初期化を行う。
【0249】本実施形態の並列計算機システムの管理装
置では、ノード100a〜100cのメインプロセッサ
202で動作するオペレーティングシステム及びネット
ワークソフトウェア等のソフトウェア203の機能を使
用するシステム運用支援インタフェースは、この時点で
使用可能となる。
【0250】ステップ1311の処理にて、アプリケー
ションソフトウェアの起動を行い、ステップ1312の
処理にてステータスコードを「F000」とし、メイン
プロセッサ202のシステム立ち上げ処理を終了する。
【0251】一方、ステップ1314の処理では、SR
AM214内のオルタネートブートストラップパス情報
1401を参照し、オルタネートブートストラップパス
情報1401にて指定されるブートストラップデバイス
(本実施形態の並列計算機システムの管理装置では特に
開示していないが、DAT(Digital Audi
o Tape)等の入出力装置)からのオペレーティン
グシステム等のソフトウェア203をメインメモリ20
4にロードする。
【0252】ステップ1315の処理にて、オルタネー
トブートストラップパス情報1401にて指定されるブ
ートストラップデバイスからのロードに成功したかどう
かをチェックし、成功するとステップ1306の処理に
進む。
【0253】ステップ1315の処理にて、オルタネー
トブートストラップパス情報1401にて指定されるブ
ートストラップデバイスからのロードが成功しない場
合、ステップ1316の処理にて、オペレータによるブ
ートストラップデバイス指定によりロード処理を行う。
【0254】ステップ1317の処理にて、ステップ1
316の処理でのオペレータのブートストラップデバイ
ス指定によるロード処理が正常終了したかどうかをチェ
ックし、正常終了している場合にはステップ1306の
処理に進み、正常終了していない場合には、ステップ1
318の処理にて、ステータスコードを「2FFF」と
し、メインプロセッサ202のシステム立ち上げ処理が
異常終了する。
【0255】前記の様にして行ったノード100a〜1
00cのメインプロセッサ202のシステム立ち上げ処
理が異常終了した場合には、さらに、以下の様に、ブー
トストラップデバイスを変更したシステム立ち上げ処理
を行う。
【0256】管理端末装置104のソフトウェア301
は、「MS−READ」コマンドを使用して、システム
制御インタフェース経由にて、ノード100a〜100
cのメインメモリ204のブートストラップパス情報が
格納されている前記特定領域を参照し、メインプロセッ
サ202のシステム立ち上げ処理に失敗したブートスト
ラップデバイスを確認する。
【0257】次に、管理端末装置104のソフトウェア
301は、「MS−WRITE」コマンドを使用し、シ
ステム制御インタフェース経由にて、ノード100a〜
100cのメインメモリ204のブートストラップパス
情報が格納されている前記特定領域に、メインプロセッ
サ202のシステム立ち上げ処理に失敗したブートスト
ラップデバイス以外のブートストラップデバイス名を書
き込む。
【0258】管理端末装置104のソフトウェア301
は、前記の様に、ノード100a〜100cのメインメ
モリ204の前記特定領域のブートストラップパス情報
を書き替えた後、「PROC−RESET」コマンドを
使用し、ノード100a〜100cのメインプロセッサ
202をリセットしてメインプロセッサ202のシステ
ム立ち上げ処理を再度行うことで、ブートストラップ先
を変更したシステム立ち上げ処理を行うことが出来る。
【0259】また、ブートストラップパス情報の書き換
えについては、ノード100a〜100cのメインプロ
セッサ202のシステム立ち上げ処理が正常終了してい
る場合には、以下の方法でも可能である。
【0260】すなわち、ノード100a〜100cのS
RAM214のブートストラップパス情報は、ノード1
00a〜100cのソフトウェア203からも書き換え
可能であるので、管理端末装置104のソフトウェア3
01は、システム運用支援インタフェース経由にて、ノ
ード100a〜100cのソフトウェア203に対し、
ブートストラップパス情報の書き換えを指示し、指示さ
れたソフトウェア203が当該ノードのブートストラッ
プパス情報を書き替える。
【0261】ノード100a〜100cのソフトウェア
203は、更新されたブートストラップパス情報をシス
テム制御インタフェース経由にて管理端末装置104の
ソフトウェア301に通知し、管理端末装置104のソ
フトウェア301が、システム制御インタフェース経由
にて、前記「PROC−RESET」コマンドを使用し
てノード100a〜100cのメインプロセッサ202
をリセットすれば、直ちに更新されたブートストラップ
パスからのロード処理が行われる。
【0262】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、管理端末装置104か
らの指示によりノード100a〜100cのメインメモ
リ204またはレジスタの内容を参照または更新するの
で、並列計算機システムを構成する複数のノード100
a〜100cの障害発生時のメインメモリ204の内容
を管理端末装置104で一括して管理することが可能で
ある。
【0263】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの指示によ
りノード100a〜100cのメインプロセッサ202
のリセットを行うので、並列計算機システムを構成する
複数のノード100a〜100cのメインプロセッサ2
02のリセットを管理端末装置104から一括して行う
ことが可能である。
【0264】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104は、ノード10
0a〜100cとの間のインタフェースを使い分けるこ
とが可能であり、管理端末装置104からの指示により
ノード100a〜100cのメインメモリ204のブー
トストラップパス情報を変更し、メインプロセッサ20
2のリセットを行うので、並列計算機システムを構成す
る複数のノード100a〜100cの特定のブートスト
ラップデバイスに障害が発生した場合に、管理端末装置
104からの指示により、ブートストラップデバイスを
変更してノード100a〜100cのメインプロセッサ
202のシステム立ち上げ処理を行うことが可能であ
る。
【0265】(実施形態5)以下に、本発明の並列計算
機システムの管理装置において、複数の管理端末装置を
用いて信頼性を向上させた実施形態5の概略構成につい
て説明する。
【0266】図15は、本発明の並列計算機システムの
管理装置において、管理端末装置を二重化した実施形態
5の概略構成を示す図である。図15において、105
eはシステム制御機構、106eは通信ケーブル、10
8eはLAN制御機構、109eは通信ケーブル、11
1は管理端末装置である。
【0267】図15に示す様に、本実施形態の並列計算
機システムの管理装置は、管理端末装置111と、通信
ケーブル106eと、通信ケーブル109eとを備え、
管理端末装置111は、システム制御機構105eと、
LAN制御機構108eとを有しており、管理端末装置
111のシステム制御機構105eを通信ケーブル10
6eを介してネットワーク集線装置107に接続し、管
理端末装置111のLAN制御機構108eを通信ケー
ブル109eを介してネットワーク集線装置110に接
続している。
【0268】前記の様に、本実施形態の並列計算機シス
テムの管理装置では、複数の管理端末装置104及び1
11を備えているので、1つの管理端末装置が故障して
も、他の管理端末装置により、並列計算機システムの運
用管理を続行することが可能であるが、複数の管理端末
装置を同時に使用して並列計算機システムの運用管理を
行うと、複数の管理端末装置が送信するシステム制御コ
マンドやアダプタ制御コマンドの内容が互いに競合する
ことがあるので、複数の管理端末装置を用いているとき
に管理端末装置の動作の競合を防止する処理が必要にな
る。
【0269】以下に、本実施形態の並列計算機システム
の管理装置において複数の管理端末装置を用いていると
きに管理端末装置の動作の競合を防止する処理手順につ
いて説明する。
【0270】図16は、本実施形態の並列計算機システ
ムの管理装置において複数の管理端末装置の動作の競合
を防止する処理手順を示すフローチャートである。
【0271】本実施形態の並列計算機システムの管理装
置において、管理端末装置を二重化している場合には、
管理端末装置の二重化情報を、例えば、管理端末装置1
04及び管理端末装置111の両方のソフトウェア30
1から参照可能な記憶領域に予め設定しておくことで、
二重化した管理端末装置の競合を防止することが可能と
なる。
【0272】図16に示す様に、本実施形態の並列計算
機システムの管理装置において管理端末装置を二重化し
ているときの処理手順では、ステップ1600の処理
で、管理端末装置104及び管理端末装置111の両方
のソフトウェア301は、管理端末装置が二重化されて
いることを示す二重化ビットを参照し、ビットが立って
いる場合には、管理端末装置が二重化されていることを
認識する。
【0273】ステップ1601の処理では、ネットワー
ク(例えば、システム運用支援インタフェース)経由に
て、相手の管理端末装置のIPアドレスを取得する。
【0274】ステップ1602の処理では、メイン管理
端末装置と、前記メイン管理端末装置をバックアップす
るサブ管理端末装置とを決定するため、例えば、IPア
ドレスの若い方をメイン管理端末装置、そうでない方を
サブ管理端末装置とする。
【0275】このとき、メイン管理端末装置のみを動作
させておき、前記メイン管理端末装置に障害が発生した
ときに、直ちにサブ管理端末装置に切り替える運用方法
と、メイン管理端末装置とサブ管理端末装置とを同時に
動作させる運用方法とを行うことが可能であるが、後者
の場合は、双方からのノード100a〜100cを制御
するシステム制御コマンドや、アダプタ制御コマンドの
内容が競合することがあるため、サブ管理端末装置から
送信可能なシステム制御コマンド及びアダプタ制御コマ
ンドを一部制限する。
【0276】例えば、ステップ1603の処理にて、自
管理端末装置がメイン管理端末装置であるかどうかを判
定し、メイン管理端末装置でなかった場合には、ステッ
プ1604の処理にて、システム制御コマンド(「P−
ON」「P−OFF」等)や、また、アダプタ制御コマ
ンド(「SET−CONNECT」等)を発行禁止にす
ることで、ノード100a〜100cを制御するシステ
ム制御コマンドや、アダプタ制御コマンドの内容が競合
しても、並列計算機システムとしての整合性を保つこと
が可能である。
【0277】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、複数の管理端末装置を
備えているので、1つの管理端末装置に障害が発生した
場合でも並列計算機システムの運用管理を続行し、並列
計算機システムの信頼性を向上させることが可能であ
る。
【0278】また、本実施形態の並列計算機システムの
管理装置によれば、複数の管理端末装置にメイン管理端
末装置とサブ管理端末装置とを設定するので、並列計算
機システムを複数の管理端末装置で管理した場合に、前
記複数の管理端末装置の動作の競合を防止することが可
能である。
【0279】(実施形態6)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104に
補助電源で動作する電源投入論理を付加し、管理端末装
置104の主電源を遠隔地から投入することにより並列
計算機システムの主電源の投入を行う実施形態6につい
て説明する。
【0280】図17は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104に補助電源で
動作する電源投入論理を付加した場合の管理端末装置内
のハードウェアの概略構成を示す図である。図17にお
いて、1700は補助電源、1701は電源投入論理、
1702は電源制御信号、1703は主電源、1704
は端末装置、1705はネットワークである。
【0281】図17に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104は、
補助電源1700と、電源投入論理1701と、主電源
1703とを備え、補助電源1700から電力の供給を
受けている電源投入論理1701を電源制御信号170
2を介して主電源1703に接続すると共にネットワー
ク1705を介して別の端末装置1704に接続してい
る。
【0282】図17に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104は、
補助電源1700で動作する電源投入論理1701を設
けており、電源投入論理1701は、ここでは特に図示
していないが、ネットワーク制御部、電源制御部及びマ
イクロプロセッサ等から構成されており、ネットワーク
1705経由で電源制御指示を受け取ると、主電源17
03を制御する論理回路を備えている。
【0283】この電源投入論理1701により、例えば
下記のような管理端末装置104の遠隔オペレーション
が可能となる。
【0284】本実施形態の並列計算機システムの管理装
置において、ネットワーク1705で接続された別の端
末装置1704は、例えばtelnetプロトコルを使
用して、電源投入論理1701にログインする。(この
時、管理端末装置104には補助電源1700が投入さ
れている状態である。) 次に、端末装置1704は、電源投入論理1701にパ
ワーオンコマンドを発行する。電源投入論理1701
は、パワーオンコマンドを受け取ると、外部から電源投
入指示があったことを認識し、電源制御信号1702を
出力し、管理端末装置104の主電源1703を投入す
る。
【0285】管理端末装置104の主電源1703が投
入されると、ブートストラップROM303に格納され
ているブートストラッププログラムが管理端末装置10
4のシステム立ち上げ処理を行い、ソフトウェア301
を起動する。
【0286】図18は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104のシェルプロ
グラムの一例を示す図である。ここで、シェルプログラ
ムとは、汎用のオペレーティングシステムであるUNI
Xで実行される複数のコマンド名またはプログラム名を
記載した、一連の手続きを行うプログラムを指すが、図
18においては、UNIXのコマンド名またはプログラ
ム名の代わりに、そのコマンドの機能を簡単に記載して
いる。
【0287】図18に示す様に、本実施形態の並列計算
機システムの管理装置の管理端末装置104のシステム
立ち上げ処理の際に実行されるシェルプログラムに、予
め、ノード100a〜100cの主電源200を投入指
示するシステム制御コマンドを記載しておき、管理端末
装置104の主電源1703が投入されたときに、この
シェルプログラムが実行されるようにしておく。
【0288】このようにすることで管理端末装置104
の起動を契機として、ノード100a〜100cの主電
源200を投入し、ノード100a〜100cのメイン
プロセッサ202のシステム立ち上げ処理を自動的に行
うことが可能である。
【0289】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、遠隔地からのアクセス
により管理端末装置104の主電源1703を投入し、
さらにノード100a〜100cの起動(主電源200
の投入)が可能となり、並列計算機システムの運用管理
を遠隔地から行うことができる。
【0290】以上、説明してきた本実施形態の並列計算
機システムの管理装置では、特に図示していないが、下
記のようなシステムにも適用可能である。
【0291】(1)各ノードに汎用のオペレーティング
システムを搭載していない、特定の機能を実行する専用
の並列計算機システムにおいては、汎用のオペレーティ
ングシステムのネットワーク機能を使用しない前記シス
テム制御インタフェースのみを用いて運用管理を行う。
【0292】本発明の並列計算機システムの管理装置に
よれば、前記システム制御インタフェースは、運用管理
の対象となるプロセッサとは独立した補助電源とネット
ワーク機能を備えており、汎用のオペレーティングシス
テムのTCP/IP等のネットワーク機能を使用しない
ので、前記汎用のオペレーティングシステムを搭載して
いない専用の並列計算機システムにおいても適用するこ
とが可能である。
【0293】(2)各ノードに補助電源で動作する機能
を持たない、或いは補助電源で動作する機能が限定され
ている様な並列計算機システムにおいては、補助電源を
使用しない前記システム運用支援インタフェースのみを
用いて管理を行う。
【0294】この場合には、主電源の投入等、補助電源
を必須とする機能を除き、システム制御インタフェース
の機能をシステム運用支援インタフェースによって代行
することにより、本発明の並列計算機システムの管理装
置を適用することが可能である。
【0295】以上、本発明を、前記実施形態に基づき具
体的に説明したが、本発明は、前記実施形態に限定され
るものではなく、その要旨を逸脱しない範囲において種
々変更可能であることは勿論である。
【0296】
【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば、下
記のとおりである。
【0297】(1)複数のノードの補助電源で動作し、
メインプロセッサが使用するネットワークソフトウェア
及び通信ケーブルとは別のネットワークソフトウェア及
び通信ケーブルを使用して管理端末装置と通信を行うシ
ステム制御機構に対し、前記管理端末装置からシステム
制御コマンドを送信し、前記システム制御コマンドを前
記補助電源で動作するサブプロセッサで実行することよ
り複数のノードのメインプロセッサの制御を行うので、
並列処理を実行するメインプロセッサの動作並びに前記
メインプロセッサのオペレーティングシステム及びネッ
トワークソフトウェアの動作とは無関係に、並列計算機
システムを構成する複数のノードの運用管理を管理端末
装置で一括して行うことが可能である。
【0298】(2)管理端末装置からの指示により複数
のノードの主電源の投入または切断を行うので、並列計
算機システムを構成する複数のノードの電源の投入また
は切断を管理端末装置で一括または個別に行うことが可
能である。
【0299】(3)複数のノードへの主電源の投入指示
を、予め設定された特定の時間間隔で行うので、並列計
算機システムに電力を供給する電源設備の突入電流を低
く抑えることが可能である。
【0300】(4)管理端末装置からの特定のシステム
制御コマンドに対する正常なレスポンスが一定時間中に
受信されるかどうかを調べるので、並列計算機システム
を構成する複数のノードが正常に動作中であるかを管理
端末装置で監視することが可能である。
【0301】(5)特定のノードのメインプロセッサま
たはサブプロセッサが動作時に出力するノードメッセー
ジを蓄積し、管理端末装置が前記の蓄積されたノードメ
ッセージを読み取るので、並列計算機システムを構成す
る複数のノードのメインプロセッサがノードメッセージ
を出力した後にその動作を停止した場合であっても、前
記ノードメッセージを管理端末装置で一括して管理する
ことが可能である。
【0302】(6)管理端末装置からの指示によりノー
ドのメインメモリまたはレジスタの内容を参照または更
新するので、並列計算機システムを構成する複数のノー
ドの障害発生時のメインメモリ及びレジスタの内容を管
理端末装置で一括して管理することが可能である。
【0303】(7)管理端末装置からの指示により複数
のノードのメインプロセッサのリセットを行うので、並
列計算機システムを構成する複数のノードのメインプロ
セッサのリセットを管理端末装置から一括して行うこと
が可能である。
【0304】(8)管理端末装置からの指示により複数
のノードのメインメモリ中のブートストラップパス情報
を変更し、メインプロセッサのリセットを行うので、並
列計算機システムを構成する複数のノードの特定のブー
トストラップデバイスに障害が発生した場合に、管理端
末装置からの指示により、ブートストラップデバイスを
変更して前記複数のノードのメインプロセッサのシステ
ム立ち上げ処理を行うことが可能である。
【0305】(9)複数の管理端末装置を備えることも
可能であるので、1つの管理端末装置に障害が発生した
場合でも並列計算機システムの運用管理を続行すること
が可能であり、複数の管理端末装置をメイン管理端末装
置とサブ管理端末装置とに設定するので、並列計算機シ
ステムを複数の管理端末装置で管理した場合に、前記複
数の管理端末装置の動作の競合を防止することが可能で
ある。
【0306】(10)遠隔地からのアクセスにより管理
端末装置の主電源を投入し、さらに複数のノードの主電
源を投入するので、並列計算機システムの運用管理を遠
隔地から行うことが可能である。
【図面の簡単な説明】
【図1】本発明の並列計算機システムの管理装置を実施
する実施形態1の概略構成を示す図である。
【図2】実施形態1の並列計算機システムの管理装置に
おいて並列計算機システムを構成するノードの概略構成
を示す図である。
【図3】実施形態1の並列計算機システムの管理装置に
おける管理端末装置の概略構成を示す図である。
【図4】実施形態1の並列計算機システムの管理装置に
おける管理端末装置と各ノードとの通信シーケンスの一
例を示す図である。
【図5】実施形態1の並列計算機システムの管理装置に
おけるアダプタ制御コマンド及びそのレスポンスのパケ
ットフォーマットを示す図である。
【図6】実施形態1の並列計算機システムの管理装置に
おけるシステム制御コマンド及びそのレスポンスのパケ
ットフォーマットを示す図である。
【図7】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構のモード遷移を示す図である。
【図8】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構の非パケットモードでのコネク
ション状態の遷移を示す図である。
【図9】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構のプロセッサの処理手順の一部
を示すフローチャートである。
【図10】実施形態1の並列計算機システムの管理装置
におけるシステムサポート機構のサブプロセッサの処理
手順の一部を示すフローチャートである。
【図11】実施形態2の並列計算機システムの管理装置
における管理端末装置から各ノードへ主電源の投入を指
示する電源投入シーケンスの一例を示す図である。
【図12】実施形態3の並列計算機システムの管理装置
における管理端末装置に各ノードのノードメッセージを
表示するシーケンスの一例を示す図である。
【図13】実施形態4の並列計算機システムの管理装置
におけるノードのメインプロセッサのシステム立ち上げ
処理手順を示すフローチャートである。
【図14】実施形態4の並列計算機システムの管理装置
におけるノード内のSRAM内のメモリマップを示す図
である。
【図15】本発明の並列計算機システムの管理装置にお
いて管理端末装置を二重化した実施形態5の概略構成を
示す図である。
【図16】実施形態5の並列計算機システムの管理装置
において複数の管理端末装置の動作の競合を防止する処
理手順を示すフローチャートである。
【図17】実施形態6の並列計算機システムの管理装置
における管理端末装置に補助電源で動作する電源投入論
理を付加した場合の管理端末装置内のハードウェアの概
略構成を示す図である。
【図18】実施形態6の並列計算機システムの管理装置
における管理端末装置のシェルプログラムを示す。
【符号の説明】
100a〜100c…ノード、101…通信処理装置、
102a〜102c…通信インタフェース機構、103
a〜103c…通信ケーブル、104…管理端末装置、
105a〜105d…システム制御機構、106a〜1
06d…通信ケーブル、107…ネットワーク集線装
置、108a〜108d…LAN制御機構、109a〜
109d…通信ケーブル、110…ネットワーク集線装
置、200…主電源、201…補助電源、202…メイ
ンプロセッサ、203…ソフトウェア、204…メイン
メモリ、205…プロセッサメモリ制御機構、206…
システムバス、207…システムディスク、208…I
/O制御機構、209…RS−232C制御機構、21
0…ブートストラップROM、211…システムサポー
ト機構、212…サブプロセッサ、213…ROM、2
14…SRAM、215…ローカルバス、216…電源
投入/切断信号、217…プロセッサリセット信号、2
18…LAN制御部、219…RS−232C制御部、
220…プロセッサ、221…ROM、222…RA
M、223…データインタフェース、224…制御イン
タフェース、300…プロセッサ、301…ソフトウェ
ア、302…メインメモリ、303…ブートストラップ
ROM、304…プロセッサメモリ制御機構、305…
システムバス、306…I/O制御機構、307…シス
テムディスク、308及び309…RS−232C制御
機構、310…グラフィックス制御機構、311…LA
N制御部、312…RS−232C制御部、313…プ
ロセッサ、314…ROM、315…RAM、316…
制御インタフェース、317…データインタフェース、
401…アダプタ制御コマンド及びそのレスポンス、4
02…システム制御コマンド及びそのレスポンス、40
3…ノードメッセージ、501…種別フィールド、50
2…送信元アドレスフィールド、503…受信先アドレ
スフィールド、504…情報部フィールド、505…識
別子、601…種別フィールド、602…送信元アドレ
スフィールド、603…受信先アドレスフィールド、6
04…情報部フィールド、605…識別子、701…パ
ケットモード、702…非パケットモード、703…
「SET−MODE」コマンド、800…ディスコネク
ト状態、801…ウェイトコネクト状態、802…コネ
クト状態、803…「SET−CONNECT」コマン
ド、804…システム制御機構間の呼制御、1400…
プライマリブートストラップパス情報、1401…オル
タネートブートストラップパス情報、105e…システ
ム制御機構、106e…通信ケーブル、108e…LA
N制御機構、109e…通信ケーブル、111…管理端
末装置、1700…補助電源、1701…電源投入論
理、1702…電源制御信号、1703…主電源、17
04…端末装置、1705…ネットワーク。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 複数の計算機であるノードを接続した並
    列計算機システムを管理する管理端末装置を備えた並列
    計算機システムの管理装置において、 前記複数のノードは、当該ノードの主電源により動作し
    並列処理を実行するメインプロセッサと、当該ノードの
    補助電源により動作し前記メインプロセッサを管理する
    システム制御コマンドを実行するサブプロセッサと、前
    記補助電源により動作し前記管理端末装置との通信を行
    うシステム制御機構とを備え、 前記管理端末装置は、前記複数のノードの複数のシステ
    ム制御機構と通信を行うシステム制御機構を備え、 前記複数のノードの複数のシステム制御機構と前記管理
    端末装置のシステム制御機構とを接続して成り、前記複
    数のノードの複数のメインプロセッサを管理するシステ
    ム制御コマンドを前記管理端末装置から前記複数のノー
    ドの複数のサブプロセッサに送信するシステム制御イン
    タフェースを備えることを特徴とする並列計算機システ
    ムの管理装置。
  2. 【請求項2】 前記複数のノードのサブプロセッサは、
    当該ノードの主電源を投入または切断する機能を備え、
    前記管理端末装置は、前記複数のノードのサブプロセッ
    サに、一括または個別に主電源を投入または切断するシ
    ステム制御コマンドを送信する手段を備えることを特徴
    とする請求項1に記載された並列計算機システムの管理
    装置。
  3. 【請求項3】 前記管理端末装置は、前記複数のノード
    の主電源を個別に投入するシステム制御コマンドを、予
    め設定された時間間隔で前記複数のノードのサブプロセ
    ッサに個別に送信する手段を備えることを特徴とする請
    求項2に記載された並列計算機システムの管理装置。
  4. 【請求項4】 前記管理端末装置は、前記複数のノード
    の特定のノードのサブプロセッサに特定のシステム制御
    コマンドを送信し、予め設定された時間内に前記特定の
    システム制御コマンドに対する正常な応答が受信されな
    い場合に、前記特定のノードに異常が発生しているとみ
    なす手段を備えることを特徴とする請求項1に記載され
    た並列計算機システムの管理装置。
  5. 【請求項5】 前記複数のノードのシステム制御機構
    は、当該ノードのメインプロセッサまたはサブプロセッ
    サが動作時に出力するメッセージであるノードメッセー
    ジを蓄積する手段を備え、前記管理端末装置は、当該ノ
    ードのシステム制御機構に蓄積されたノードメッセージ
    を読み取る手段を備えることを特徴とする請求項1に記
    載された並列計算機システムの管理装置。
  6. 【請求項6】 前記複数のノードのサブプロセッサは、
    当該ノードのメインメモリまたはレジスタの内容を参照
    及び更新する手段を備え、前記管理端末装置は、前記複
    数のノードのサブプロセッサに、当該ノードのメインメ
    モリまたはレジスタの内容を参照または更新するシステ
    ム制御コマンドを送信する手段を備えることを特徴とす
    る請求項1に記載された並列計算機システムの管理装
    置。
  7. 【請求項7】 前記複数のノードのサブプロセッサは、
    当該ノードのメインプロセッサをリセットする手段を備
    え、前記管理端末装置は、当該ノードのサブプロセッサ
    に、当該ノードのメインプロセッサをリセットするシス
    テム制御コマンドを送信する手段を備えることを特徴と
    する請求項1に記載された並列計算機システムの管理装
    置。
  8. 【請求項8】 前記複数のノードのサブプロセッサは、
    当該ノードのメインメモリの内容を参照及び更新する手
    段と、当該ノードのメインプロセッサをリセットする手
    段とを備え、前記管理端末装置は、当該ノードのメイン
    プロセッサが格納しているメインメモリ中のブートスト
    ラップデバイス名を参照及び更新するシステム制御コマ
    ンドと、当該ノードのメインプロセッサをリセットする
    システム制御コマンドとを送信する手段を備えることを
    特徴とする請求項1に記載された並列計算機システムの
    管理装置。
  9. 【請求項9】 前記管理端末装置を複数備え、前記複数
    の管理端末装置のうちの一部の管理端末装置の機能を制
    限する手段を備えることを特徴とする請求項1に記載さ
    れた並列計算機システムの管理装置。
  10. 【請求項10】 前記管理端末装置は、補助電源で動作
    し、特定の信号を入力すると前記管理端末装置の主電源
    を投入する電源投入論理と、前記電源投入論理により主
    電源が投入されたときに、前記複数のノードのサブプロ
    セッサに、一括または個別に主電源を投入するシステム
    制御コマンドを送信する手段を備えることを特徴とする
    請求項1に記載された並列計算機システムの管理装置。
JP25142795A 1995-09-28 1995-09-28 並列計算機システムの管理装置 Expired - Fee Related JP3163237B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP25142795A JP3163237B2 (ja) 1995-09-28 1995-09-28 並列計算機システムの管理装置
US08/721,258 US5937201A (en) 1995-09-28 1996-09-26 Management system and method for parallel computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25142795A JP3163237B2 (ja) 1995-09-28 1995-09-28 並列計算機システムの管理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2000368897A Division JP3513484B2 (ja) 2000-12-04 2000-12-04 並列計算機システムの管理装置

Publications (2)

Publication Number Publication Date
JPH0997241A true JPH0997241A (ja) 1997-04-08
JP3163237B2 JP3163237B2 (ja) 2001-05-08

Family

ID=17222687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25142795A Expired - Fee Related JP3163237B2 (ja) 1995-09-28 1995-09-28 並列計算機システムの管理装置

Country Status (2)

Country Link
US (1) US5937201A (ja)
JP (1) JP3163237B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11309264A (ja) * 1998-04-27 1999-11-09 Aruze Corp 遊技機内ユニット間信号伝送方式
JP2002287996A (ja) * 2001-03-01 2002-10-04 Internatl Business Mach Corp <Ibm> 構成可能なデータ処理システムで端末のプロファイルを保守する方法および装置
JP2005509213A (ja) * 2001-08-10 2005-04-07 サン・マイクロシステムズ・インコーポレーテッド システム管理
US7321976B2 (en) 2001-10-15 2008-01-22 Fujitsu Limited Information processing apparatus, power supply control method for plural information processing apparatuses, and storage medium therefore
JPWO2008146338A1 (ja) * 2007-06-01 2010-08-12 富士通株式会社 情報処理装置及び情報処理装置の再構成方法
US8024593B2 (en) 2004-10-22 2011-09-20 Panasonic Corporation Communication device

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7184428B1 (en) * 1997-12-31 2007-02-27 At&T Corp. Facility management platform for a hybrid coaxial/twisted pair local loop network service architecture
US6363079B1 (en) * 1997-12-31 2002-03-26 At&T Corp. Multifunction interface facility connecting wideband multiple access subscriber loops with various networks
JP3563256B2 (ja) * 1998-02-13 2004-09-08 富士通株式会社 省電力機能の遠隔制御方法、情報処理装置及び記憶媒体
US6426947B1 (en) * 1998-10-21 2002-07-30 Kim K. Banker Apparatus and method for unilateral topology discovery in network management
US6847614B2 (en) * 1998-04-20 2005-01-25 Broadcom Corporation Apparatus and method for unilateral topology discovery in network management
JP4181685B2 (ja) * 1999-03-12 2008-11-19 富士通株式会社 電力制御方法及び電子機器並びに記録媒体
FR2798755B1 (fr) * 1999-09-16 2001-11-02 Bull Sa Systeme d'administration pour machines multimodulaires multiprocesseurs
JP3871569B2 (ja) * 2000-02-04 2007-01-24 富士通株式会社 ネットワーク制御システム、および、ネットワーク用の装置、中継器および接続装置
US6813672B1 (en) * 2001-02-23 2004-11-02 Cypress Semiconductor Corp. EMC enhancement for differential devices
US6954817B2 (en) * 2001-10-01 2005-10-11 International Business Machines Corporation Providing at least one peer connection between a plurality of coupling facilities to couple the plurality of coupling facilities
US7689724B1 (en) 2002-08-16 2010-03-30 Cypress Semiconductor Corporation Apparatus, system and method for sharing data from a device between multiple computers
US7293118B1 (en) 2002-09-27 2007-11-06 Cypress Semiconductor Corporation Apparatus and method for dynamically providing hub or host operations
US7171568B2 (en) * 2003-06-13 2007-01-30 International Business Machines Corporation Remote power control in a multi-node, partitioned data processing system
CA2454408C (en) * 2003-12-30 2012-01-10 Bce Inc Subscriber station
WO2005064851A1 (en) * 2003-12-30 2005-07-14 Bce Inc. Remotely managed subscriber station
US7590620B1 (en) 2004-06-18 2009-09-15 Google Inc. System and method for analyzing data records
US7756919B1 (en) * 2004-06-18 2010-07-13 Google Inc. Large-scale data processing in a distributed and parallel processing enviornment
US8117288B2 (en) * 2004-10-12 2012-02-14 International Business Machines Corporation Optimizing layout of an application on a massively parallel supercomputer
US7826380B2 (en) * 2005-03-30 2010-11-02 International Business Machines Corporation Apparatus, system, and method for data tracking
US7239930B2 (en) * 2005-05-24 2007-07-03 International Business Machines Corporation Method, system, and computer program product for improved flow of development lots in a manufacturing facility
US8032899B2 (en) 2006-10-26 2011-10-04 International Business Machines Corporation Providing policy-based operating system services in a hypervisor on a computing system
US8713582B2 (en) * 2006-10-26 2014-04-29 International Business Machines Corporation Providing policy-based operating system services in an operating system on a computing system
US8656448B2 (en) * 2006-10-26 2014-02-18 International Business Machines Corporation Providing policy-based application services to an application running on a computing system
US7958274B2 (en) 2007-06-18 2011-06-07 International Business Machines Corporation Heuristic status polling
US8296430B2 (en) 2007-06-18 2012-10-23 International Business Machines Corporation Administering an epoch initiated for remote memory access
US8464212B2 (en) * 2007-07-27 2013-06-11 Canon Kabushiki Kaisha Method, apparatus and storage medium for customizing application
US8082424B2 (en) * 2007-08-01 2011-12-20 International Business Machines Corporation Determining when a set of compute nodes participating in a barrier operation on a parallel computer are ready to exit the barrier operation
US9065839B2 (en) 2007-10-02 2015-06-23 International Business Machines Corporation Minimally buffered data transfers between nodes in a data communications network
US7984450B2 (en) * 2007-11-28 2011-07-19 International Business Machines Corporation Dispatching packets on a global combining network of a parallel computer
US8458722B2 (en) * 2008-06-09 2013-06-04 International Business Machines Corporation Thread selection according to predefined power characteristics during context switching on compute nodes
US8140704B2 (en) * 2008-07-02 2012-03-20 International Busniess Machines Corporation Pacing network traffic among a plurality of compute nodes connected using a data communications network
US8495603B2 (en) * 2008-08-11 2013-07-23 International Business Machines Corporation Generating an executable version of an application using a distributed compiler operating on a plurality of compute nodes
US8510538B1 (en) 2009-04-13 2013-08-13 Google Inc. System and method for limiting the impact of stragglers in large-scale parallel data processing
WO2011001519A1 (ja) * 2009-06-30 2011-01-06 富士通株式会社 計算装置、並列計算機システムおよび同期プログラム
US8606979B2 (en) * 2010-03-29 2013-12-10 International Business Machines Corporation Distributed administration of a lock for an operational group of compute nodes in a hierarchical tree structured network
US8365186B2 (en) 2010-04-14 2013-01-29 International Business Machines Corporation Runtime optimization of an application executing on a parallel computer
US8504730B2 (en) 2010-07-30 2013-08-06 International Business Machines Corporation Administering connection identifiers for collective operations in a parallel computer
US8565120B2 (en) 2011-01-05 2013-10-22 International Business Machines Corporation Locality mapping in a distributed processing system
US9317637B2 (en) 2011-01-14 2016-04-19 International Business Machines Corporation Distributed hardware device simulation
US8689228B2 (en) 2011-07-19 2014-04-01 International Business Machines Corporation Identifying data communications algorithms of all other tasks in a single collective operation in a distributed processing system
US9250948B2 (en) 2011-09-13 2016-02-02 International Business Machines Corporation Establishing a group of endpoints in a parallel computer
US9086962B2 (en) * 2012-06-15 2015-07-21 International Business Machines Corporation Aggregating job exit statuses of a plurality of compute nodes executing a parallel application
US9577884B2 (en) * 2015-01-01 2017-02-21 Bank Of America Corporation Enterprise quality assurance and lab management tool

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4547849A (en) * 1981-12-09 1985-10-15 Glenn Louie Interface between a microprocessor and a coprocessor
DE3526364A1 (de) * 1985-07-19 1987-01-22 Siemens Ag Schaltungsanordnung zur netzunabhaengigen spannungsversorgung einer an ein busnetzwerk angeschlossenen verteileinrichtung fuer datenstationen
JPH05120247A (ja) * 1991-10-24 1993-05-18 Fujitsu Ltd 複合計算機システムにおけるコンソール切替制御方式
US5404559A (en) * 1993-03-22 1995-04-04 Compaq Computer Corporation Apparatus for asserting an end of cycle signal to a processor bus in a computer system if a special cycle is detected on the processor bus without taking action on the special cycle
DE69409445D1 (de) * 1993-07-27 1998-05-14 Ibm Prozessüberwachung in einem Mehrfachverarbeitungsanbieter
JPH07115428A (ja) * 1993-10-20 1995-05-02 Hitachi Ltd 遠隔電源制御方式
US5679945A (en) * 1995-03-31 1997-10-21 Cybermark, L.L.C. Intelligent card reader having emulation features

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11309264A (ja) * 1998-04-27 1999-11-09 Aruze Corp 遊技機内ユニット間信号伝送方式
JP2002287996A (ja) * 2001-03-01 2002-10-04 Internatl Business Mach Corp <Ibm> 構成可能なデータ処理システムで端末のプロファイルを保守する方法および装置
US7039692B2 (en) 2001-03-01 2006-05-02 International Business Machines Corporation Method and apparatus for maintaining profiles for terminals in a configurable data processing system
JP2005509213A (ja) * 2001-08-10 2005-04-07 サン・マイクロシステムズ・インコーポレーテッド システム管理
US7321976B2 (en) 2001-10-15 2008-01-22 Fujitsu Limited Information processing apparatus, power supply control method for plural information processing apparatuses, and storage medium therefore
US8024593B2 (en) 2004-10-22 2011-09-20 Panasonic Corporation Communication device
JPWO2008146338A1 (ja) * 2007-06-01 2010-08-12 富士通株式会社 情報処理装置及び情報処理装置の再構成方法
US8190805B2 (en) 2007-06-01 2012-05-29 Fujitsu Limited Information processing apparatus and method for reconfiguring the information processing apparatus
JP5136550B2 (ja) * 2007-06-01 2013-02-06 富士通株式会社 情報処理装置及び情報処理装置の再構成方法

Also Published As

Publication number Publication date
JP3163237B2 (ja) 2001-05-08
US5937201A (en) 1999-08-10

Similar Documents

Publication Publication Date Title
JP3163237B2 (ja) 並列計算機システムの管理装置
KR930000590B1 (ko) 분산처리시스템의 프로그램로딩방법 및 시스템
US6272113B1 (en) Network controller system that uses multicast heartbeat packets
US6977900B2 (en) Site-to-site dynamic virtual local area network
CN1937528A (zh) 信息处理装置、通信负载分散方法和通信系统
US7864703B2 (en) Packet communication device
US7895364B1 (en) Component identification and transmission system
US20020112075A1 (en) Relay apparatus
JP4964666B2 (ja) 冗長化された通信経路を切り替える計算機、プログラム及び方法
JP2001209623A (ja) 並列計算機システムの管理装置
JPH1127266A (ja) 網管理装置の構成情報管理方式および管理対象装置
JP2000244526A (ja) 多重化したネットワーク接続装置システム
JPH1011177A (ja) リモート電源制御システム
US11853175B2 (en) Cluster system and restoration method that performs failover control
JP3082704B2 (ja) 通信装置管理方式
US6801498B1 (en) Asynchronous transfer mode communication equipment and method for switching virtual path of same
JP2000267831A (ja) ネットワークプリンタシステム
JPH0689181A (ja) ダウンロードによるプログラム更新方式
JP3411309B2 (ja) マルチキャスト通信システム
JP2000040065A (ja) 並列計算機システム
JPH11346215A (ja) プログラマブルコントローラネットワークシステムのネットワーク保全方法およびネットワークインターフェースユニット
JP2004040419A (ja) 通信先アドレス管理システムおよび通信先アドレス管理方法
KR20220069747A (ko) 클러스터링 시스템을 위한 전원 공급 장치
JP2002291074A (ja) 中央監視制御システム
JPH06187276A (ja) 多重化サーバシステムにおける通信方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees