JP2001209623A - Management device for parallel computer system - Google Patents

Management device for parallel computer system

Info

Publication number
JP2001209623A
JP2001209623A JP2000368897A JP2000368897A JP2001209623A JP 2001209623 A JP2001209623 A JP 2001209623A JP 2000368897 A JP2000368897 A JP 2000368897A JP 2000368897 A JP2000368897 A JP 2000368897A JP 2001209623 A JP2001209623 A JP 2001209623A
Authority
JP
Japan
Prior art keywords
management terminal
terminal device
nodes
management
parallel computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000368897A
Other languages
Japanese (ja)
Other versions
JP3513484B2 (en
Inventor
Sukeyuki Matsushita
祐之 松下
Atsushi Ugajin
敦 宇賀神
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000368897A priority Critical patent/JP3513484B2/en
Publication of JP2001209623A publication Critical patent/JP2001209623A/en
Application granted granted Critical
Publication of JP3513484B2 publication Critical patent/JP3513484B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To collectively conduct the operation and management of plural nodes constituting a parallel computer system by a management terminal equipment. SOLUTION: Each of plural nodes is provided with a main processor to be driven by a main power supply of the node to conduct parallel processing, a sub-processor to be driven by an auxiliary power supply of the node to conduct a system control command for managing the main processor and a system control mechanism to be driven by the auxiliary power supply to conduct communication with a management terminal equipment. The management terminal equipment is provided with a system control mechanism for communication with plural system control mechanisms built in plural nodes and a system control interface consisting of connecting plural system control mechanisms of plural nodes to the system control mechanism of the management terminal equipment and capable of transmitting a system control command for managing each main processor from the terminal equipment to the sub-processor.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、並列計算機システ
ムの管理装置に関し、特に、並列計算機システムを構成
する複数のノードのメインプロセッサが動作していない
場合であっても前記複数のノードの保守及び管理を行う
並列計算機システムの管理装置に適用して有効な技術に
関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a management system for a parallel computer system and, more particularly, to maintenance and management of a plurality of nodes constituting a parallel computer system even when main processors of the nodes are not operating. The present invention relates to a technology effective when applied to a management device of a parallel computer system for performing management.

【0002】[0002]

【従来の技術】従来、複数の計算機で構成される計算機
システムの運用管理方法及びその実施装置について、い
くつかのものが提案されている。
2. Description of the Related Art Heretofore, there have been proposed some operation management methods for computer systems composed of a plurality of computers and apparatuses for implementing the methods.

【0003】複数のUNIX(登録商標)マシンのコン
ソールを1台にまとめたときに発生する運用と監視の負
荷増大を防止する複数のUNIXマシンの集中運用およ
び監視コンソールディスプレイについては、特開平6−
214763号公報に記載されている。
[0003] A centralized operation of a plurality of UNIX machines and a monitor console display for preventing an increase in the load of operation and monitoring that occur when the consoles of a plurality of UNIX machines are integrated into one console are disclosed in Japanese Unexamined Patent Publication No.
No. 2,147,633.

【0004】その概要は、複数のUNIXマシンを集中
運用及び管理するサーバーであるセンター・コンソール
に、運用目的別にコマンドの宛先を格納した宛先テーブ
ルを作成しておき、前記宛先テーブルに従ってコマンド
を実行するものである。
The outline is that a destination table storing destinations of commands for each operation purpose is created in a center console which is a server for centrally operating and managing a plurality of UNIX machines, and commands are executed according to the destination table. Things.

【0005】複数の計算機から構成される複合計算機シ
ステムにおいて、単一のシステムコンソールにより接続
する計算機を切り換えて保守及び操作を行った場合の誤
操作を防止する複合計算機システムにおけるコンソール
切替制御方式については、特開平5−120247号公
報に記載されている。
[0005] In a multi-computer system composed of a plurality of computers, a console switching control method in a multi-computer system for preventing erroneous operation when maintenance and operation are performed by switching computers connected by a single system console is described below. It is described in JP-A-5-120247.

【0006】その概要は、複数の計算機内のサービスプ
ロセッサ同士を切替装置に接続し、前記切替装置にシス
テムコンソールを接続し、前記システムコンソールから
は、計算機を識別する識別子を用いて、メッセージ出力
対象の計算機を順次切り替えていくことにより、複数の
計算機で1台のシステムコンソールを共有する方式であ
り、システムコンソールにより保守及び操作を行う際
に、操作を行おうとしている計算機の識別子と、システ
ムコンソールに接続されている計算機の識別子を比較
し、識別子が一致する場合に操作を実行するものであ
る。
[0006] The outline is that a service processor in a plurality of computers is connected to a switching device, a system console is connected to the switching device, and a message output target is output from the system console using an identifier for identifying the computer. A system console is shared by a plurality of computers by sequentially switching computers, and when maintenance and operation are performed by the system console, an identifier of the computer to be operated and a system console Is compared with the identifier of the computer connected to the computer, and when the identifiers match, the operation is executed.

【0007】分散処理システムを構成する各計算機から
のメッセージを集中管理するメッセージ集中管理方式に
ついては、特開平5−20281号公報に記載されてい
る。
[0007] A message centralized management system for centrally managing messages from the computers constituting the distributed processing system is described in Japanese Patent Application Laid-Open No. Hei 5-20281.

【0008】その概要は、ネットワークにて接続された
複数の計算機内で集中管理ノードを決定し、その集中管
理ノードが監視対象ノードの発行する稼働状況メッセー
ジを集中管理する方式である。
The outline is a system in which a centralized management node is determined in a plurality of computers connected via a network, and the centralized management node centrally manages operation status messages issued by monitored nodes.

【0009】[0009]

【発明が解決しようとする課題】本発明者は、前記従来
技術を検討した結果、以下の問題点を見い出した。
The present inventor has found the following problems as a result of studying the above prior art.

【0010】すなわち、前記従来の複数の計算機から成
る計算機システムの管理装置では、管理対象の計算機上
で動作しているネットワークソフトウェアの機能を使用
してた為、管理対象の計算機が動作していない場合やオ
ペレーティングシステムが動作していない場合及びネッ
トワークソフトウェアが動作していない場合には、運用
管理を行えないという問題があった。
That is, in the conventional management system for a computer system comprising a plurality of computers, the functions of the network software running on the computers to be managed are used, so that the computers to be managed are not operating. There is a problem that operation management cannot be performed when the operating system is not operating or when the network software is not operating.

【0011】前記従来の複数のUNIXマシンの集中運
用および監視コンソールディスプレイを使用する方法で
は、管理対象となる計算機は、オペレーティングシステ
ムのUNIXが動作していることが前提となる為、オペ
レーティングシステムが動作していない場合には、コン
ソールディスプレイから集中運用および監視ができない
という問題があった。
In the above-described conventional method of centrally operating a plurality of UNIX machines and using a monitoring console display, the computer to be managed is premised on that UNIX of the operating system is operating. If not, there is a problem that central operation and monitoring cannot be performed from the console display.

【0012】前記従来の複合計算機システムにおけるコ
ンソール切替制御方式では、システムコンソールと各々
のサービスプロセッサとの間に切替装置が存在している
為、切替装置なる特別なハードウェアが必要となるとい
う問題があった。
In the conventional console switching control method in the multifunction computer system, since a switching device exists between the system console and each service processor, there is a problem that special hardware as a switching device is required. there were.

【0013】前記従来のメッセージ集中管理方式では、
複数の計算機から集中管理ノードにメッセージが送られ
てくる為、前記集中管理ノードがシステムダウンとなっ
たときには、メッセージの集中管理が行えないという問
題と、前記メッセージは、ノードが接続されるネットワ
ーク経由で送信されてくる為、各ノードのオペレーティ
ングシステム及びネットワークが起動されていない場
合、集中管理ノードから各ノードの状態を管理すること
が出来ないという問題があった。
In the conventional message centralized management system,
Since a message is sent from a plurality of computers to the central management node, when the central management node goes down, the problem that centralized management of messages cannot be performed and the message is transmitted via a network to which the node is connected When the operating system and the network of each node are not activated, there is a problem that the state of each node cannot be managed from the central management node.

【0014】本発明の目的は、並列処理を実行するメイ
ンプロセッサの動作並びに前記メインプロセッサのオペ
レーティングシステム及びネットワークソフトウェアの
動作とは無関係に、並列計算機システムを構成する複数
のノードの運用管理を管理端末装置で一括して行うこと
が可能な技術を提供することにある。
An object of the present invention is to manage the operation and management of a plurality of nodes constituting a parallel computer system irrespective of the operation of a main processor executing parallel processing and the operation of an operating system and network software of the main processor. It is an object of the present invention to provide a technique that can be performed by a single device.

【0015】本発明の他の目的は、並列計算機システム
を構成する複数のノードの電源の投入または切断を管理
端末装置で一括または個別に行うことが可能な技術を提
供することにある。
Another object of the present invention is to provide a technique that enables a management terminal device to turn on or off a plurality of nodes constituting a parallel computer system at once or individually.

【0016】本発明の他の目的は、並列計算機システム
に電力を供給する電源設備の突入電流を低く抑えること
が可能な技術を提供することにある。
Another object of the present invention is to provide a technique capable of suppressing a rush current of power supply equipment for supplying power to a parallel computer system.

【0017】本発明の他の目的は、並列計算機システム
を構成する複数のノードが正常に動作中であるかを管理
端末装置で監視することが可能な技術を提供することに
ある。
Another object of the present invention is to provide a technique which enables a management terminal to monitor whether a plurality of nodes constituting a parallel computer system are operating normally.

【0018】本発明の他の目的は、並列計算機システム
を構成する複数のノードのメインプロセッサがノードメ
ッセージを出力した後にその動作を停止した場合であっ
ても、前記ノードメッセージを管理端末装置で一括して
管理することが可能な技術を提供することにある。
Another object of the present invention is to collectively store the node messages in the management terminal device even when the main processors of a plurality of nodes constituting the parallel computer system stop the operation after outputting the node messages. An object of the present invention is to provide a technology that can be managed.

【0019】本発明の他の目的は、並列計算機システム
を構成する複数のノードの障害発生時のメインメモリ及
びレジスタの内容を管理端末装置で一括して管理するこ
とが可能な技術を提供することにある。
Another object of the present invention is to provide a technique capable of collectively managing the contents of a main memory and a register when a failure occurs in a plurality of nodes constituting a parallel computer system by a management terminal device. It is in.

【0020】本発明の他の目的は、並列計算機システム
を構成する複数のノードのメインプロセッサのリセット
を管理端末装置から一括して行うことが可能な技術を提
供することにある。
Another object of the present invention is to provide a technique capable of collectively resetting main processors of a plurality of nodes constituting a parallel computer system from a management terminal device.

【0021】本発明の他の目的は、並列計算機システム
を構成する複数のノードの特定のブートストラップデバ
イスに障害が発生した場合に、管理端末装置からの指示
により、ブートストラップデバイスを変更して前記複数
のノードのメインプロセッサのシステム立ち上げ処理を
行うことが可能な技術を提供することにある。
Another object of the present invention is to change a bootstrap device in accordance with an instruction from a management terminal when a failure occurs in a specific bootstrap device of a plurality of nodes constituting a parallel computer system. It is an object of the present invention to provide a technique capable of performing system startup processing of a main processor of a plurality of nodes.

【0022】本発明の他の目的は、並列計算機システム
を複数の管理端末装置で管理した場合に、前記複数の管
理端末装置の動作の競合を防止することが可能な技術を
提供することにある。
Another object of the present invention is to provide a technique capable of preventing contention between operations of the plurality of management terminal devices when the parallel computer system is managed by the plurality of management terminal devices. .

【0023】本発明の他の目的は、並列計算機システム
の運用管理を遠隔地から行うことが可能な技術を提供す
ることにある。
Another object of the present invention is to provide a technique capable of remotely managing the operation of a parallel computer system.

【0024】本発明の前記並びにその他の目的と新規な
特徴は、本明細書の記述及び添付図面によって明らかに
なるであろう。
The above and other objects and novel features of the present invention will become apparent from the description of the present specification and the accompanying drawings.

【0025】[0025]

【課題を解決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
下記のとおりである。
SUMMARY OF THE INVENTION Among the inventions disclosed in the present application, the outline of a representative one will be briefly described.
It is as follows.

【0026】(1)複数の計算機であるノードを接続し
た並列計算機システムを管理する管理端末装置を備えた
並列計算機システムの管理装置において、前記複数のノ
ードは、各ノードの主電源により動作し並列処理を実行
するメインプロセッサと、各ノードの補助電源により動
作し前記メインプロセッサを管理するシステム制御コマ
ンドを実行するサブプロセッサと、前記補助電源により
動作し前記管理端末装置との通信を行うシステム制御機
構とを備え、前記管理端末装置は、前記複数のノードの
複数のシステム制御機構と通信を行うシステム制御機構
を備え、前記複数のノードの複数のシステム制御機構と
前記管理端末装置のシステム制御機構とを接続して成
り、前記複数のノードの複数のメインプロセッサを管理
するシステム制御コマンドを前記管理端末装置から前記
複数のノードの複数のサブプロセッサに送信するシステ
ム制御インタフェースを備えるものである。
(1) In a management apparatus for a parallel computer system having a management terminal device for managing a parallel computer system in which nodes as a plurality of computers are connected, the plurality of nodes operate in parallel with a main power supply of each node. A main processor that executes processing, a sub-processor that operates on the auxiliary power supply of each node and executes a system control command for managing the main processor, and a system control mechanism that operates on the auxiliary power supply and communicates with the management terminal device The management terminal device includes a system control mechanism that communicates with a plurality of system control mechanisms of the plurality of nodes, a plurality of system control mechanisms of the plurality of nodes, and a system control mechanism of the management terminal device. To control a plurality of main processors of the plurality of nodes. Those comprising a system control interface for transmitting command from the management terminal device to a plurality of sub-processors of said plurality of nodes.

【0027】前記(1)の並列計算機システムの管理装
置では、管理端末装置から発行されたシステム制御コマ
ンドは、システム制御インタフェースを構成する前記管
理端末装置及び前記複数のノードのシステム制御機構を
介し、前記複数のノードのサブプロセッサに送られ、前
記サブプロセッサに送られたシステム制御コマンドを、
前記サブプロセッサで実行することにより、前記メイン
プロセッサの運用管理を行う。
In the management device for a parallel computer system of (1), the system control command issued from the management terminal device is transmitted via the management terminal device constituting the system control interface and the system control mechanism of the plurality of nodes. A system control command sent to the sub-processors of the plurality of nodes and sent to the sub-processor,
The sub-processor executes the operation management of the main processor.

【0028】従来の並列計算機システムの管理装置で
は、前記並列計算機システムの通常業務である並列処理
を実行するメインプロセッサで動作している汎用のオペ
レーティングシステムや、そのオペレーティングシステ
ムの管理下で動作するネットワークソフトウェアを使用
して、並列計算機システムを構成する複数のノードの運
用管理を行っている。
In a conventional management apparatus for a parallel computer system, a general-purpose operating system running on a main processor that executes parallel processing, which is a normal task of the parallel computer system, or a network operating under the management of the operating system We use software to manage the operation of multiple nodes that make up the parallel computer system.

【0029】この為、前記従来の並列計算機システムの
管理装置を使用する場合には、管理対象である並列計算
機システムを構成する複数のノードのメインプロセッサ
が正常に動作し、前記の汎用のオペレーティングシステ
ムやネットワークソフトウェアが実行中であることが前
提条件となり、前記管理対象の複数のノードのメインプ
ロセッサが動作していない場合や前記の汎用のオペレー
ティングシステムやネットワークソフトウェアが動作し
ていない場合、例えば、並列計算機システムの電源が投
入されていない運用開始前の状態、または、オペレーテ
ィングシステムやネットワークの構成を変更し、正常に
動作するかどうか確かめようとしている状態、或いは、
障害の発生により動作しなくなった特定のノードの状況
を調査する場合などでは、前記従来の並列計算機システ
ムの管理装置を使用することができなかった。
For this reason, when using the conventional parallel computer system management device, the main processors of a plurality of nodes constituting the parallel computer system to be managed operate normally, and the general-purpose operating system is used. It is a precondition that network software is running or when the main processors of the plurality of managed nodes are not operating or the general-purpose operating system or network software is not operating, for example, in parallel. The state before the start of operation when the power of the computer system is not turned on, or the state where the operating system or network configuration is changed and it is trying to confirm whether it operates normally, or
For example, when investigating the status of a specific node that has stopped operating due to the occurrence of a failure, the management device of the conventional parallel computer system cannot be used.

【0030】そこで、前記(1)の並列計算機システム
の管理装置では、メインプロセッサの動作状況とは無関
係に動作可能なサブプロセッサとシステム制御機構を、
前記(1)の並列計算機システムを構成する全てのノー
ドに備え、各々のノードのシステム制御機構をネットワ
ーク集線装置等の装置を介し、管理端末装置のシステム
制御機構に接続している。
Therefore, in the management apparatus for the parallel computer system (1), a sub-processor and a system control mechanism operable irrespective of the operation state of the main processor include:
The system control mechanism of each node is connected to the system control mechanism of the management terminal device via a device such as a network concentrator, provided for all nodes constituting the parallel computer system of (1).

【0031】前記複数のノードの各ノードに備えられた
サブプロセッサ及びシステム制御機構は、メインプロセ
ッサが使用する主電源とは別の補助電源により動作し、
また、前記システム制御機構は、メインプロセッサで動
作するネットワークソフトウェア及びそのネットワーク
ソフトウェアが使用する通信ケーブルとは別のネットワ
ークソフトウェア及び通信ケーブルを使用して管理端末
装置と通信を行う。
The sub-processor and the system control mechanism provided in each of the plurality of nodes operate on an auxiliary power supply different from the main power supply used by the main processor,
The system control mechanism communicates with the management terminal using network software operated by the main processor and network cables and communication cables different from communication cables used by the network software.

【0032】従って、メインプロセッサが動作していな
くても、補助電源によりサブプロセッサ及びシステム制
御機構が動作していれば、メインプロセッサの制御を前
記管理端末装置から行うことが可能である。
Therefore, even if the main processor is not operating, it is possible to control the main processor from the management terminal device if the sub-processor and the system control mechanism are operating by the auxiliary power supply.

【0033】以上の様に、前記並列計算機システムの管
理装置によれば、各ノードの補助電源で動作し、前記メ
インプロセッサが使用するネットワークソフトウェア及
び通信ケーブルとは別のネットワークソフトウェア及び
通信ケーブルを使用して管理端末装置と通信を行うシス
テム制御機構に、前記管理端末装置からシステム制御コ
マンドを送信し、前記システム制御コマンドを前記補助
電源で動作するサブプロセッサで実行することより複数
のノードのメインプロセッサの制御を行うので、並列処
理を実行するメインプロセッサの動作並びに前記メイン
プロセッサのオペレーティングシステム及びネットワー
クソフトウェアの動作とは無関係に、並列計算機システ
ムを構成する複数のノードの運用管理を管理端末装置で
一括して行うことが可能である。
As described above, according to the management apparatus for the parallel computer system, the network device operates on the auxiliary power supply of each node and uses network software and communication cables different from the network software and communication cables used by the main processor. Transmitting a system control command from the management terminal device to a system control mechanism that communicates with the management terminal device, and executing the system control command on a sub-processor that operates on the auxiliary power supply. Irrespective of the operation of the main processor executing the parallel processing and the operation of the operating system and network software of the main processor, the operation management of a plurality of nodes constituting the parallel computer system is collectively performed by the management terminal device. To do Possible it is.

【0034】(2)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードの主電源を投入または切断する機能を備
え、前記管理端末装置は、前記複数のノードのサブプロ
セッサに、一括または個別に主電源を投入または切断す
るシステム制御コマンドを送信する手段を備えるもので
ある。
(2) In the management apparatus for a parallel computer system of (1), the sub-processors of the plurality of nodes have a function of turning on or off a main power supply of the nodes, and the management terminal device includes Means for transmitting a system control command for turning on or off the main power supply collectively or individually to the sub-processors of the node.

【0035】前記(2)の並列計算機システムの管理装
置では、前記メインプロセッサは主電源により動作する
ので、前記サブプロセッサにより前記主電源の投入また
は切断を行うことにより、前記メインプロセッサへの電
源の投入を制御することができる。
In the management device for the parallel computer system of the above (2), the main processor operates on the main power supply, so that the main processor is turned on or off by the sub-processor, thereby turning off the power supply to the main processor. The dosing can be controlled.

【0036】また、前記管理端末装置は、前記主電源を
投入または切断するシステム制御コマンドを、送信先を
全てのノードまたは特定のノードに指定したパケットと
して、前記システム制御インタフェースを介して、前記
複数のノードに一括または個別に送信する。
Further, the management terminal device transmits the system control command for turning on or off the main power as a packet specifying a destination to all nodes or a specific node via the system control interface. To all nodes at once or individually.

【0037】前記(2)の並列計算機システムの管理装
置では、前記複数のノードのサブプロセッサ及びシステ
ム制御機構は、補助電源により動作しているので、メイ
ンプロセッサに主電源が投入されていない場合でも、動
作可能である。
In the management device for a parallel computer system of (2), since the sub-processors and the system control mechanism of the plurality of nodes are operated by the auxiliary power supply, even if the main power supply is not turned on to the main processor. , Operable.

【0038】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示により複数の
ノードの主電源の投入または切断を行うので、並列計算
機システムを構成する複数のノードの電源の投入または
切断を管理端末装置で一括または個別に行うことが可能
である。
As described above, according to the management apparatus for the parallel computer system, the main power of the plurality of nodes is turned on or off in accordance with an instruction from the management terminal device. The power can be turned on or off collectively or individually by the management terminal device.

【0039】(3)前記(2)の並列計算機システムの
管理装置において、前記管理端末装置は、前記複数のノ
ードの主電源を個別に投入するシステム制御コマンド
を、予め設定された時間間隔で、前記複数のノードのサ
ブプロセッサに個別に送信する手段を備えるものであ
る。
(3) In the management device for a parallel computer system according to (2), the management terminal device transmits a system control command for individually turning on the main power of the plurality of nodes at predetermined time intervals. Means for individually transmitting to the sub-processors of the plurality of nodes.

【0040】前記並列計算機システムを構成する複数の
ノードの主電源を一斉に投入すると、前記主電源に電力
を供給する電源設備に過大な突入電流が流れ、前記電源
設備に負担をかけるので、前記(3)の並列計算機シス
テムの管理装置では、前記複数のノードの主電源の投入
時刻を、各ノードごとにずらし、前記電源設備の突入電
源を低く抑える様にする。
When the main power supply of a plurality of nodes constituting the parallel computer system is turned on at the same time, an excessive rush current flows in the power supply equipment for supplying power to the main power supply, and a load is imposed on the power supply equipment. In the management device for the parallel computer system of (3), the power-on time of the plurality of nodes is shifted for each node so that the inrush power of the power supply equipment is suppressed.

【0041】これは、前記管理端末装置から予め設定さ
れた時間間隔で、前記主電源を投入するシステム制御コ
マンドを、送信先を特定のノードに指定したパケットと
して前記システム制御インタフェースを介して送ること
により行われる。
This is achieved by transmitting a system control command for turning on the main power from the management terminal device at a preset time interval as a packet specifying a transmission destination to a specific node via the system control interface. It is performed by

【0042】以上の様に、前記並列計算機システムの管
理装置によれば、前記複数のノードへの主電源の投入指
示を、予め設定された特定の時間間隔で行うので、並列
計算機システムに電力を供給する電源設備の突入電流を
低く抑えることが可能である。
As described above, according to the management apparatus for the parallel computer system, the instruction to turn on the main power to the plurality of nodes is issued at a predetermined time interval, so that the power is supplied to the parallel computer system. The inrush current of the power supply equipment to be supplied can be suppressed low.

【0043】(4)前記(1)の並列計算機システムの
管理装置において、前記管理端末装置は、前記複数のノ
ードの特定のノードのサブプロセッサに特定のシステム
制御コマンドを送信し、予め設定された時間内に前記特
定のシステム制御コマンドに対する正常な応答が受信さ
れない場合に、前記特定のノードに異常が発生している
とみなす手段を備えるものである。
(4) In the management device for a parallel computer system according to (1), the management terminal device transmits a specific system control command to a sub-processor of a specific node of the plurality of nodes, and sets a predetermined system control command. When a normal response to the specific system control command is not received within a time period, a means is provided for determining that an abnormality has occurred in the specific node.

【0044】前記(4)の並列計算機システムの管理装
置では、前記特定のシステム制御コマンドを、前記管理
端末装置から前記システム制御インタフェースを介して
前記サブプロセッサに送信し、前記の送信された特定の
システム制御コマンドを前記サブプロセッサで実行した
場合に、前記メインプロセッサの異常により前記特定の
システム制御コマンドの実行結果が得られない場合があ
る。
In the management device for a parallel computer system of the above (4), the specific system control command is transmitted from the management terminal device to the sub-processor via the system control interface, and the transmitted specific specific command is transmitted. When a system control command is executed by the sub-processor, an execution result of the specific system control command may not be obtained due to an abnormality of the main processor.

【0045】前記の様な場合に、前記(4)の並列計算
機システムの管理装置の管理端末装置は、予め設定され
た時間の間、前記特定のシステム制御コマンドに対する
応答を待ち、前記の予め設定された時間内に前記特定の
システム制御コマンドが正常に実行されたことを示す応
答が受信されない場合に、前記特定のノードに異常が発
生しているとみなす。
In such a case, the management terminal of the management device for the parallel computer system of (4) waits for a response to the specific system control command for a preset time, and If a response indicating that the specific system control command has been normally executed is not received within the set time, it is determined that an abnormality has occurred in the specific node.

【0046】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの特定のシステム制
御コマンドに対する正常なレスポンスが一定時間中に受
信されるかどうかを調べるので、並列計算機システムを
構成する複数のノードが正常に動作中であるかを管理端
末装置で監視することが可能である。
As described above, according to the management apparatus for the parallel computer system, it is checked whether or not a normal response to a specific system control command from the management terminal apparatus is received within a predetermined time. It is possible to monitor with the management terminal whether the plurality of nodes constituting are operating normally.

【0047】(5)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのシステム制御機
構は、当該ノードのメインプロセッサまたはサブプロセ
ッサが動作時に出力するメッセージであるノードメッセ
ージを蓄積する手段を備え、前記管理端末装置は、当該
ノードのシステム制御機構に蓄積されたノードメッセー
ジを読み取る手段を備えるものである。
(5) In the management apparatus for a parallel computer system of (1), the system control mechanism of the plurality of nodes accumulates node messages, which are messages output by a main processor or a sub-processor of the node during operation. Means for reading node messages stored in the system control mechanism of the node.

【0048】前記並列計算機システムを構成する複数の
ノードのメインプロセッサは、各処理の段階で種々のノ
ードメッセージを出力する。
The main processors of a plurality of nodes constituting the parallel computer system output various node messages at each processing stage.

【0049】例えば、前記並列計算機システムを構成す
る複数のノードのメインプロセッサは、システム立ち上
げ処理中にファイルシステム上に矛盾を発見すると、特
定のノードメッセージを出力し、そのファイルシステム
の修復を開始する。前記メインプロセッサがファイルシ
ステムの修復に失敗すると、前記ファイルシステムの修
復に失敗したことを示すノードメッセージを出力し、前
記システム立ち上げ処理は異常終了する。
For example, when a main processor of a plurality of nodes constituting the parallel computer system finds an inconsistency in a file system during system startup processing, it outputs a specific node message and starts repairing the file system. I do. If the main processor fails to restore the file system, it outputs a node message indicating that the restoration of the file system failed, and the system startup process ends abnormally.

【0050】また、前記並列計算機システムを構成する
複数のノードのメインプロセッサは、システム立ち上げ
処理が正常終了した後、動作中に回復不能な障害を検出
すると、パニックメッセージと呼ばれる障害内容や障害
発生箇所等の内容を含んだノードメッセージを出力し、
前記回復不能な障害を検出したメインプロセッサは、通
常、前記パニックメッセージを特定のディスプレイ装置
に出力した直後に、システムダウンを起こして動作を停
止する。
When the main processors of a plurality of nodes constituting the parallel computer system detect an unrecoverable failure during the operation after the system startup processing has been completed normally, the contents of the failure called a panic message and the occurrence of the failure occur. Outputs a node message containing the contents of the location, etc.,
The main processor that has detected the unrecoverable fault usually stops the operation due to a system down immediately after outputting the panic message to a specific display device.

【0051】前記の様な場合には、前記ノードメッセー
ジの内容を検討し、システム立ち上げ処理の異常終了や
システムダウンの原因を取り除く必要があるが、当該メ
インプロセッサは既に動作を停止しているので、従来の
並列計算機システムの管理装置では、前記ノードメッセ
ージを管理端末装置に送信して表示することはできなか
った。
In such a case, it is necessary to examine the contents of the node message and remove the cause of the abnormal termination of the system start-up process or the system down, but the main processor has already stopped its operation. Therefore, the management device of the conventional parallel computer system cannot transmit and display the node message to the management terminal device.

【0052】そこで、前記(5)の並列計算機システム
の管理装置では、当該ノードのメインプロセッサまたは
サブプロセッサが動作時に出力するノードメッセージを
前記複数のノードのシステム制御機構に蓄積し、前記管
理端末装置が、当該ノードのシステム制御機構に蓄積さ
れたノードメッセージを読み取ることによって、前記ノ
ードメッセージを前記管理端末装置に表示し、前記ノー
ドメッセージの内容を前記管理端末装置にて検討するこ
とを可能にしている。
Therefore, in the management device for the parallel computer system of (5), the node message output by the main processor or the sub-processor of the node at the time of operation is stored in the system control mechanism of the plurality of nodes, and the management terminal device By reading the node message stored in the system control mechanism of the node, the node message is displayed on the management terminal device, and the content of the node message can be examined by the management terminal device. I have.

【0053】以上の様に、前記並列計算機システムの管
理装置によれば、特定のノードのメインプロセッサまた
はサブプロセッサが動作時に出力するノードメッセージ
を蓄積し、前記管理端末装置が前記の蓄積されたノード
メッセージを読み取るので、並列計算機システムを構成
する複数のノードのメインプロセッサがノードメッセー
ジを出力した後にその動作を停止した場合であっても、
前記ノードメッセージを管理端末装置で一括して管理す
ることが可能である。
As described above, according to the management apparatus for the parallel computer system, the node message output by the main processor or the sub-processor of the specific node during operation is stored, and the management terminal device stores the stored node message. Since the message is read, even if the main processors of a plurality of nodes constituting the parallel computer system stop operating after outputting the node message,
The node messages can be collectively managed by the management terminal device.

【0054】(6)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードのメインメモリまたはレジスタの内容を
参照及び更新する手段を備え、前記管理端末装置は、前
記複数のノードのサブプロセッサに、当該ノードのメイ
ンメモリまたはレジスタの内容を参照または更新するシ
ステム制御コマンドを送信する手段を備えるものであ
る。
(6) In the management device for a parallel computer system of (1), the sub-processors of the plurality of nodes include means for referring to and updating the contents of a main memory or a register of the node, and the management terminal device Comprises means for transmitting, to the sub-processors of the plurality of nodes, a system control command for referring to or updating the contents of the main memory or the registers of the nodes.

【0055】前記並列計算機システムを構成する複数の
ノードのメインプロセッサに障害が発生したときに、当
該メインプロセッサに接続されたメインメモリやレジス
タの内容を参照して障害の原因を調べ、また、可能な場
合には、前記メインメモリやレジスタの内容を変更して
前記障害により中断している処理を続行したい場合があ
る。
When a failure occurs in the main processors of a plurality of nodes constituting the parallel computer system, the cause of the failure is examined by referring to the contents of the main memory and registers connected to the main processor, and possible. In such a case, it may be desired to change the contents of the main memory or the register and continue the process interrupted by the failure.

【0056】前記の様な場合、発生した障害によっては
メインプロセッサは正常に動作できないことがあるの
で、前記管理端末装置からのシステム制御コマンドによ
り、前記障害が発生したメインプロセッサを備えるノー
ドのサブプロセッサが、前記メインメモリまたはレジス
タの内容を参照または更新する。
In the above case, the main processor may not be able to operate normally depending on the fault that has occurred. Therefore, the system control command from the management terminal unit issues a sub-processor of the node having the faulty main processor. Refers to or updates the contents of the main memory or register.

【0057】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示によりノード
のメインメモリまたはレジスタの内容を参照または更新
するので、並列計算機システムを構成する複数のノード
の障害発生時のメインメモリ及びレジスタの内容を管理
端末装置で一括して管理することが可能である。
As described above, according to the management device of the parallel computer system, the contents of the main memory or the register of the node are referred to or updated by the instruction from the management terminal device. It is possible to collectively manage the contents of the main memory and the register at the time of occurrence of the failure by the management terminal device.

【0058】(7)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードのメインプロセッサをリセットする手段
を備え、前記管理端末装置は、当該ノードのサブプロセ
ッサに、当該ノードのメインプロセッサをリセットする
システム制御コマンドを送信する手段を備えるものであ
る。
(7) In the management apparatus for a parallel computer system according to (1), the sub-processors of the plurality of nodes include means for resetting a main processor of the node, and the management terminal device includes a sub-processor of the node. The processor includes means for transmitting a system control command for resetting the main processor of the node to the processor.

【0059】前記並列計算機システムを構成する複数の
ノードにおいて、オペレーティングシステムや他のソフ
トウェアをバージョンアップしたり、また、障害の原因
を取り除く作業を行った後等、メインプロセッサをリセ
ットする必要が生じる場合がある。
When it is necessary to reset the main processor in a plurality of nodes constituting the parallel computer system, for example, after upgrading the operating system or other software, or after performing the work for removing the cause of the failure. There is.

【0060】前記の様な場合に、前記(7)の並列計算
機システムの管理装置では、前記管理端末装置からのシ
ステム制御コマンドにより、前記複数のノードのサブプ
ロセッサは、当該ノードのメインプロセッサをリセット
する。
In the above case, in the management device for the parallel computer system according to (7), the sub-processors of the plurality of nodes reset the main processors of the nodes according to a system control command from the management terminal device. I do.

【0061】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示により前記複
数のノードのメインプロセッサのリセットを行うので、
並列計算機システムを構成する複数のノードのメインプ
ロセッサのリセットを管理端末装置から一括して行うこ
とが可能である。
As described above, according to the management apparatus of the parallel computer system, the main processors of the plurality of nodes are reset according to an instruction from the management terminal apparatus.
It is possible to collectively reset the main processors of a plurality of nodes constituting the parallel computer system from the management terminal device.

【0062】(8)前記(1)の並列計算機システムの
管理装置において、前記複数のノードのサブプロセッサ
は、当該ノードのメインメモリの内容を参照及び更新す
る手段と、当該ノードのメインプロセッサをリセットす
る手段とを備え、前記管理端末装置は、当該ノードのメ
インプロセッサが格納しているメインメモリ中のブート
ストラップデバイス名を参照及び更新するシステム制御
コマンドと、当該ノードのメインプロセッサをリセット
するシステム制御コマンドとを送信する手段を備えるも
のである。
(8) In the management apparatus for a parallel computer system of (1), the sub-processors of the plurality of nodes refer to and update the contents of the main memory of the node, and reset the main processor of the node. And a system control command for referring to and updating a bootstrap device name in a main memory stored in a main processor of the node, and a system control command for resetting a main processor of the node. And means for transmitting a command.

【0063】前記並列計算機システムを構成する複数の
ノードにおいて、あるメインプロセッサのシステム立ち
上げ処理を行うときに、前記システム立ち上げ処理中に
メインメモリにロードするオペレーティングシステムや
他のソフトウェアを変更する場合や、或いは、オペレー
ティングシステムや他のソフトウェアを格納しているブ
ートストラップデバイスに障害が発生した場合等、前記
システム立ち上げ処理で使用するブートストラップデバ
イスの変更が必要になることがある。
When performing a system startup process of a certain main processor in a plurality of nodes constituting the parallel computer system, changing an operating system or other software to be loaded into a main memory during the system startup process Or, if a failure occurs in the bootstrap device storing the operating system or other software, the bootstrap device used in the system start-up process may need to be changed.

【0064】この様な場合に、前記(8)の並列計算機
システムの管理装置では、前記管理端末装置により、当
該ノードのメインプロセッサが格納しているメインメモ
リ中のブートストラップデバイス名を参照するシステム
制御コマンドを前記サブプロセッサに送り、前記メイン
メモリ中のブートストラップデバイス名を確認した後、
前記管理端末装置は、当該ノードのメインプロセッサが
格納しているメインメモリ中のブートストラップデバイ
ス名を他のブートストラップデバイス名に更新するシス
テム制御コマンドを前記サブプロセッサに送る。
In such a case, in the management apparatus of the parallel computer system of (8), the management terminal refers to the bootstrap device name in the main memory stored in the main processor of the node. After sending a control command to the sub-processor and checking the bootstrap device name in the main memory,
The management terminal device sends a system control command for updating the bootstrap device name in the main memory stored in the main processor of the node to another bootstrap device name to the sub-processor.

【0065】前記管理端末装置からメインメモリ中のブ
ートストラップデバイス名を他のブートストラップデバ
イス名に更新するシステム制御コマンドを受け取った前
記サブプロセッサは、当該ノードのメインメモリ中のブ
ートストラップデバイス名を更新する。
The sub-processor, having received a system control command for updating the bootstrap device name in the main memory to another bootstrap device name from the management terminal device, updates the bootstrap device name in the main memory of the node. I do.

【0066】次に、前記管理端末装置は、当該ノードの
メインプロセッサをリセットするシステム制御コマンド
を前記サブプロセッサに送り、当該ノードのメインプロ
セッサをリセットして、更新した他のブートストラップ
デバイスにより前記メインプロセッサのシステム立ち上
げ処理を行う。
Next, the management terminal device sends a system control command for resetting the main processor of the node to the sub processor, resets the main processor of the node, and updates the main processor by another updated bootstrap device. Performs system startup processing of the processor.

【0067】以上の様に、前記並列計算機システムの管
理装置によれば、管理端末装置からの指示により前記複
数のノードのメインメモリ中のブートストラップパス情
報を変更し、メインプロセッサのリセットを行うので、
並列計算機システムを構成する複数のノードの特定のブ
ートストラップデバイスに障害が発生した場合に、管理
端末装置からの指示により、ブートストラップデバイス
を変更して前記複数のノードのメインプロセッサのシス
テム立ち上げ処理を行うことが可能である。
As described above, according to the management device of the parallel computer system, the bootstrap path information in the main memory of the plurality of nodes is changed according to the instruction from the management terminal device, and the main processor is reset. ,
When a failure occurs in a specific bootstrap device of a plurality of nodes constituting the parallel computer system, the bootstrap device is changed according to an instruction from the management terminal device, and a system startup process of a main processor of the plurality of nodes is performed. It is possible to do.

【0068】(9)前記(1)の並列計算機システムの
管理装置において、前記管理端末装置を複数備え、前記
複数の管理端末装置のうちの一部の管理端末装置の機能
を制限する手段を備えるものである。
(9) In the management apparatus for a parallel computer system of the above (1), a plurality of the management terminal apparatuses are provided, and means for restricting a function of a part of the plurality of management terminal apparatuses is provided. Things.

【0069】前記(9)の並列計算機システムの管理装
置では、複数の管理端末装置を備えることにより、特定
の管理端末装置が故障した場合に、他の管理端末装置に
より、前記並列計算機システムの運用管理を行う。
The management device for the parallel computer system of (9) includes a plurality of management terminal devices, so that when a specific management terminal device fails, the operation of the parallel computer system is performed by another management terminal device. Perform management.

【0070】前記の様に、前記並列計算機システムに複
数の管理端末装置を接続した場合には、前記複数の管理
端末装置の動作の内容が、互いに他の管理端末装置の動
作の内容と競合する場合がある。
As described above, when a plurality of management terminal devices are connected to the parallel computer system, the operation contents of the plurality of management terminal devices conflict with the operation contents of other management terminal devices. There are cases.

【0071】この為、前記(9)の並列計算機システム
の管理装置では、前記複数の管理端末装置が動作する場
合に、特定の管理端末装置をメイン管理端末装置に、他
の管理端末装置をサブ管理端末装置に設定し、サブ管理
端末装置が行う動作の内容を制限することにより、前記
競合の発生を防止する。
For this reason, in the management apparatus of the parallel computer system of (9), when the plurality of management terminal apparatuses operate, a specific management terminal apparatus is used as a main management terminal apparatus and another management terminal apparatus is used as a sub-management terminal apparatus. The contention is prevented by setting the management terminal device and limiting the content of the operation performed by the sub management terminal device.

【0072】以上の様に、前記並列計算機システムの管
理装置によれば、複数の管理端末装置を備えているの
で、1つの管理端末装置に障害が発生した場合でも並列
計算機システムの運用管理を続行し、並列計算機システ
ムの信頼性を向上させることが可能である。
As described above, according to the management apparatus for a parallel computer system, since a plurality of management terminal apparatuses are provided, even if a failure occurs in one management terminal apparatus, the operation management of the parallel computer system is continued. However, it is possible to improve the reliability of the parallel computer system.

【0073】また、前記並列計算機システムの管理装置
によれば、複数の管理端末装置にメイン管理端末装置と
サブ管理端末装置とを設定するので、並列計算機システ
ムを複数の管理端末装置で管理した場合に、前記複数の
管理端末装置の動作の競合を防止することが可能であ
る。
Further, according to the management device of the parallel computer system, the main management terminal device and the sub management terminal device are set in the plurality of management terminal devices. Therefore, when the parallel computer system is managed by the plurality of management terminal devices. In addition, it is possible to prevent contention between the operations of the plurality of management terminal devices.

【0074】(10)前記(1)の並列計算機システム
の管理装置において、前記管理端末装置は、補助電源で
動作し、特定の信号を入力すると前記管理端末装置の主
電源を投入する電源投入論理と、前記電源投入論理によ
り主電源が投入されたときに、前記複数のノードのサブ
プロセッサに、一括または個別に主電源を投入するシス
テム制御コマンドを送信する手段を備えるものである。
(10) In the management device for a parallel computer system of (1), the management terminal device operates on an auxiliary power supply, and when a specific signal is input, a power-on logic for turning on the main power supply of the management terminal device. And means for transmitting a system control command for turning on the main power supply to the sub-processors of the plurality of nodes collectively or individually when the main power supply is turned on by the power-on logic.

【0075】前記(10)の並列計算機システムの管理
装置では、前記管理端末装置に、補助電源で動作し、特
定の信号を入力すると前記管理端末装置の主電源を投入
する電源投入論理を接続し、前記電源投入論理をネット
ワークや他の通信回線に接続しておく。
In the management apparatus for a parallel computer system according to the above (10), a power-on logic for turning on the main power supply of the management terminal when the specific signal is input is connected to the management terminal. The power-on logic is connected to a network or another communication line.

【0076】また、前記管理端末装置の主電源が投入さ
れたときに実行されるシステム立ち上げ処理の最後に、
前記複数のノードのサブプロセッサに一括または個別に
主電源を投入するシステム制御コマンドを送信するプロ
グラムを追加しておく。
At the end of the system startup processing executed when the main power of the management terminal device is turned on,
A program for transmitting a system control command for turning on the main power supply to the sub-processors of the plurality of nodes collectively or individually is added.

【0077】次に、前記ネットワークや他の通信回線を
介して、他の端末装置から前記電源投入論理に特定の信
号を送り、前記管理端末装置の主電源を投入する。
Next, a specific signal is sent from another terminal device to the power-on logic via the network or another communication line to turn on the main power of the management terminal device.

【0078】前記管理端末装置の主電源が投入される
と、前記管理端末装置のシステム立ち上げ処理を行った
後、前記複数のノードのサブプロセッサに一括または個
別に主電源を投入するシステム制御コマンドを送信する
プログラムが実行され、前記並列計算機システムの運用
開始を、オペレータが直接前記管理端末装置を操作する
こと無く行うことができる。
When the main power of the management terminal is turned on, a system control command for turning on the main power to the sub-processors of the plurality of nodes collectively or individually after the system startup processing of the management terminal is performed. Is executed, and the operation of the parallel computer system can be started without the operator directly operating the management terminal device.

【0079】以上の様に、前記並列計算機システムの管
理装置によれば、遠隔地からのアクセスにより管理端末
装置の主電源を投入するので、並列計算機システムの運
用管理を遠隔地から行うことが可能である。
As described above, according to the management system of the parallel computer system, since the main power of the management terminal device is turned on by access from a remote place, the operation management of the parallel computer system can be performed from a remote place. It is.

【0080】[0080]

【発明の実施の形態】以下、本発明について、実施形態
とともに図面を参照して詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the drawings together with embodiments.

【0081】なお、実施形態を説明するための全図にお
いて、同一機能を有するものは同一符号を付け、その繰
り返しの説明は省略する。
In all the drawings for describing the embodiments, parts having identical functions are given same symbols and their repeated explanation is omitted.

【0082】(実施形態1)以下に、本発明の並列計算
機システムの管理装置を実施する実施形態1の概略構成
について説明する。
(Embodiment 1) A schematic configuration of Embodiment 1 for implementing a management device for a parallel computer system according to the present invention will be described below.

【0083】図1は、本発明の並列計算機システムの管
理装置を実施する実施形態1の概略構成を示す図であ
る。図1において、100a〜100cはノード、10
1は通信処理装置、102a〜102cは通信インタフ
ェース機構、103a〜103cは通信ケーブル、10
4は管理端末装置、105a〜105dはシステム制御
機構、106a〜106dは通信ケーブル、107はネ
ットワーク集線装置、108a〜108dはLAN(L
ocal Area Network)制御機構、10
9a〜109dは通信ケーブル、110はネットワーク
集線装置である。
FIG. 1 is a diagram showing a schematic configuration of a first embodiment for implementing a management device for a parallel computer system according to the present invention. In FIG. 1, 100a to 100c are nodes, 10
1 is a communication processing device, 102a to 102c are communication interface mechanisms, 103a to 103c are communication cables, 10
4 is a management terminal device, 105a to 105d are system control mechanisms, 106a to 106d are communication cables, 107 is a network concentrator, and 108a to 108d are LAN (L
ocal Area Network) control mechanism, 10
9a to 109d are communication cables, and 110 is a network concentrator.

【0084】図1に示す様に、本実施形態の並列計算機
システムの管理装置は、並列計算機システムを構成する
ノード100a〜100cと、並列処理中のノード10
0a〜100cでの通信を制御する通信処理装置101
と、ノード100a〜100cのシステム管理を行う管
理端末装置104と、管理端末装置104とノード10
0a〜100cとを接続するネットワーク集線装置10
7と、ネットワーク集線装置110とを備えており、管
理端末装置104は、システム制御機構105aと、L
AN制御機構108aとを有し、ノード100aは、通
信インタフェース機構102aと、システム制御機構1
05bと、LAN制御機構108bとを有し、ノード1
00bは、通信インタフェース機構102bと、システ
ム制御機構105cと、LAN制御機構108cとを有
し、ノード100cは、通信インタフェース機構102
cと、システム制御機構105dと、LAN制御機構1
08dとを有している。
As shown in FIG. 1, the management apparatus of the parallel computer system according to the present embodiment includes nodes 100a to 100c constituting the parallel computer system and nodes 10 in parallel processing.
Communication processing device 101 for controlling communication in 0a to 100c
And a management terminal device 104 for performing system management of the nodes 100a to 100c, and the management terminal device 104 and the node 10
Network concentrator 10 for connecting 0a-100c
7 and a network concentrator 110. The management terminal device 104 includes a system control mechanism 105a,
The node 100a includes an AN control mechanism 108a, a communication interface mechanism 102a, and a system control mechanism 1
05b and the LAN control mechanism 108b, and the node 1
00b includes a communication interface mechanism 102b, a system control mechanism 105c, and a LAN control mechanism 108c.
c, the system control mechanism 105d, and the LAN control mechanism 1
08d.

【0085】また、図1に示す様に、本実施形態の並列
計算機システムの管理装置では、ノード100a〜10
0cの通信インタフェース機構102a〜102cを通
信ケーブル103a〜103c及び通信処理装置101
を介して接続し、ノード100a〜100cのシステム
制御機構105b〜105dを通信ケーブル106a〜
106d及びネットワーク集線装置107を介して管理
端末装置104のシステム制御機構105aに接続し、
ノード100a〜100cのLAN制御機構108b〜
108dを通信ケーブル109a〜109d及びネット
ワーク集線装置110を介して管理端末装置104のL
AN制御機構108aに接続している。
As shown in FIG. 1, in the management apparatus of the parallel computer system according to the present embodiment, the nodes 100a to 100a
0c of the communication interface mechanisms 102a to 102c and the communication cables 103a to 103c and the communication processing apparatus 101.
To connect the system control mechanisms 105b to 105d of the nodes 100a to 100c to the communication cables 106a to 106c.
106d and the network control unit 105 connected to the system control mechanism 105a of the management terminal device 104 via the network concentrator 107.
LAN control mechanism 108b of nodes 100a to 100c
108d through the communication cables 109a to 109d and the network concentrator 110 to the L of the management terminal device 104.
It is connected to the AN control mechanism 108a.

【0086】本実施形態の並列計算機システムの管理装
置のシステム制御インタフェースは、前記の様に、管理
端末装置104側のシステム制御機構105aとノード
100a〜100c側のシステム制御機構105b〜1
05dとをイーサネット(登録商標)等の通信ケーブル
106及びマルチポートリピータ等のネットワーク集線
装置107を用いて相互接続することにより実現される
インタフェースである。
As described above, the system control interface of the management device of the parallel computer system according to the present embodiment includes the system control mechanism 105a on the management terminal device 104 side and the system control mechanisms 105b-1 on the nodes 100a-100c side.
The interface is realized by interconnecting the communication device 05d and the network device 05d using a communication cable 106 such as Ethernet (registered trademark) and a network concentrator 107 such as a multi-port repeater.

【0087】また、本実施形態の並列計算機システムの
管理装置のシステム運用支援インタフェースは、管理端
末装置104側のLAN制御機構108aとノード10
0a〜100c側のLAN制御機構108b〜108d
とをイーサネット等の通信ケーブル109及びマルチポ
ートリピータ等のネットワーク集線装置110を用いて
相互接続することにより実現されるインタフェースであ
る。
Further, the system operation support interface of the management device of the parallel computer system according to the present embodiment includes the LAN control mechanism 108 a of the management terminal device 104 and the node 10.
LAN control mechanisms 108b to 108d on the side of 0a to 100c
Are interconnected using a communication cable 109 such as Ethernet and a network concentrator 110 such as a multi-port repeater.

【0088】前記システム運用支援インタフェースは、
従来の並列計算機システムの運用管理を行うインタフェ
ースであり、ノード100a〜100cのメインプロセ
ッサが動作している場合に使用し、ノード100a〜1
00cのメインプロセッサで実行しているアプリケーシ
ョンソフトウェアが出力するメッセージを管理端末装置
104に表示する等のシステム管理を行うものである。
The system operation support interface includes:
This is an interface for managing the operation of the conventional parallel computer system, and is used when the main processors of the nodes 100a to 100c are operating.
The system management is performed by, for example, displaying a message output from the application software executed by the main processor 00c on the management terminal device 104.

【0089】以下に、本実施形態の並列計算機システム
の管理装置において並列計算機システムを構成するノー
ド100a〜100cについて説明する。
Hereinafter, the nodes 100a to 100c constituting the parallel computer system in the management apparatus for the parallel computer system according to the present embodiment will be described.

【0090】図2は、本実施形態の並列計算機システム
の管理装置において並列計算機システムを構成するノー
ド100a〜100cの概略構成を示す図である。
FIG. 2 is a diagram showing a schematic configuration of the nodes 100a to 100c constituting the parallel computer system in the management apparatus for the parallel computer system according to the present embodiment.

【0091】図2において、200は主電源、201は
補助電源、202はメインプロセッサ、203はソフト
ウェア、204はメインメモリ、205はプロセッサメ
モリ制御機構、206はシステムバス、207はシステ
ムディスク、208はI/O制御機構、209はRS−
232C制御機構、210はブートストラップROM
(Read Only Memory)、211はシス
テムサポート機構、212はサブプロセッサ、213は
ROM、214はSRAM(Static Rando
m Access Memory;不揮発メモリ)、2
15はローカルバス、216は電源投入/切断信号、2
17はプロセッサリセット信号、218はLAN制御
部、219はRS−232C制御部、220はプロセッ
サ、221はROM、222はRAM(Random
Access Memory)、223はデータインタ
フェース、224は制御インタフェースである。
In FIG. 2, reference numeral 200 denotes a main power supply, 201 denotes an auxiliary power supply, 202 denotes a main processor, 203 denotes software, 204 denotes a main memory, 205 denotes a processor memory control mechanism, 206 denotes a system bus, 207 denotes a system disk, and 208 denotes a system disk. I / O control mechanism, 209 is RS-
232C control mechanism, 210 is bootstrap ROM
(Read Only Memory), 211 is a system support mechanism, 212 is a subprocessor, 213 is ROM, 214 is SRAM (Static Lando).
m Access Memory; nonvolatile memory), 2
15 is a local bus, 216 is a power on / off signal, 2
Reference numeral 17 denotes a processor reset signal, 218 denotes a LAN control unit, 219 denotes an RS-232C control unit, 220 denotes a processor, 221 denotes a ROM, and 222 denotes a RAM (Random).
(Access Memory), 223 is a data interface, and 224 is a control interface.

【0092】図2に示す様に、本実施形態の並列計算機
システムの管理装置のノード100a〜100cは、通
信インタフェース機構102a〜102cと、システム
制御機構105b〜105dと、LAN制御機構108
b〜108dとを有し、ノード100a〜100cで並
列処理を行うアプリケーションソフトウェアを実行する
メインプロセッサ202と、サブプロセッサ212を有
するシステムサポート機構211と、主電源200と、
補助電源201とを備えている。
As shown in FIG. 2, the nodes 100a to 100c of the management apparatus of the parallel computer system according to the present embodiment include communication interface mechanisms 102a to 102c, system control mechanisms 105b to 105d, and a LAN control mechanism 108.
b to 108d, a main processor 202 executing application software for performing parallel processing in the nodes 100a to 100c, a system support mechanism 211 having a sub-processor 212, a main power supply 200,
An auxiliary power supply 201 is provided.

【0093】また、本実施形態の並列計算機システムの
管理装置のノード100a〜100cは、メインプロセ
ッサ202により実行されるオペレーティングシステム
及びネットワークソフトウェアであるソフトウェア20
3と、ソフトウェア203を格納するメインメモリ20
4と、メインプロセッサ202とメインメモリ204と
のインタフェース制御を行うプロセッサメモリ制御機構
205と、システムバス206と、システムディスク2
07と、システムディスク207を制御するI/O制御
機構208と、ノードメッセージの出力やシステム制御
機構105b〜105d経由のオペレータとのインタラ
クティブなやりとりを行うRS−232C制御機構20
9と、メインプロセッサ202のシステム立ち上げ処理
を行うブートストラッププログラムを格納しているブー
トストラップROM210とを備えている。
The nodes 100a to 100c of the management apparatus of the parallel computer system according to the present embodiment include the operating system executed by the main processor 202 and the software 20 as network software.
3 and main memory 20 for storing software 203
4, a processor memory control mechanism 205 for controlling an interface between the main processor 202 and the main memory 204, a system bus 206, and a system disk 2.
07, an I / O control mechanism 208 for controlling the system disk 207, and an RS-232C control mechanism 20 for outputting node messages and interactively communicating with the operator via the system control mechanisms 105b to 105d.
9 and a bootstrap ROM 210 which stores a bootstrap program for performing a system start-up process of the main processor 202.

【0094】本実施形態の並列計算機システムの管理装
置において、サブプロセッサ212を有し、メインプロ
セッサ202のステータス管理等のシステム制御を行う
システムサポート機構211は、サブプロセッサ212
上で動作する制御プログラムを格納しているROM21
3と、ハードウェアに依存した情報を格納しているSR
AM214を備えている。
In the management apparatus for a parallel computer system according to the present embodiment, the system support unit 211 having a sub-processor 212 and performing system control such as status management of the main processor 202 includes a sub-processor 212.
ROM 21 storing a control program that operates on
3 and SR storing hardware-dependent information
AM 214 is provided.

【0095】本実施形態の並列計算機システムの管理装
置のノード100a〜100cのシステム制御機構10
5b〜105dは、管理端末装置104との間でイーサ
ネットパケットの送受信を制御するLAN制御部218
と、RS−232C制御機構209及びサブプロセッサ
212との間でのRS−232Cパケットの送受信を制
御するRS−232C制御部219と、イーサネットパ
ケットとRS−232Cパケットとのプロトコル変換を
行うプロセッサ220と、プロセッサ220上で動作す
る制御プログラムを格納するROM221と、サブプロ
セッサ212及びRS−232C制御機構209から送
られて来るノードメッセージを格納するRAM222と
を備えている。
The system control mechanism 10 of the nodes 100a to 100c of the management device of the parallel computer system according to the present embodiment.
5b to 105d are LAN control units 218 for controlling transmission and reception of Ethernet packets to and from the management terminal device 104.
An RS-232C control unit 219 that controls transmission and reception of RS-232C packets between the RS-232C control mechanism 209 and the sub-processor 212; and a processor 220 that performs protocol conversion between Ethernet packets and RS-232C packets. , A ROM 221 for storing a control program that operates on the processor 220, and a RAM 222 for storing a node message sent from the sub-processor 212 and the RS-232C control mechanism 209.

【0096】図2に示す様に、本実施形態の並列計算機
システムの管理装置のノード100a〜100cでは、
システム制御機構105b〜105dを、RS−232
C制御部219と、データインタフェース223と、R
S−232C制御機構209と、システムバス206
と、プロセッサメモリ制御機構205とを介してメイン
プロセッサ202に接続し、また、システム制御機構1
05b〜105dをRS−232C制御部219及び制
御インタフェース224を介してシステムサポート機構
211のサブプロセッサ212に接続し、システムサポ
ート機構211のサブプロセッサ212を、ローカルバ
ス215とプロセッサメモリ制御機構205とを介して
メインプロセッサ202に接続している。また、サブプ
ロセッサ212は、プロセッサリセット信号217によ
りメインプロセッサ202をリセットし、電源投入/切
断信号216により主電源200を制御する。
As shown in FIG. 2, the nodes 100a to 100c of the management device of the parallel computer system according to the present embodiment
The system control mechanisms 105b to 105d are
C control unit 219, data interface 223, and R
S-232C control mechanism 209 and system bus 206
And the main processor 202 via the processor memory controller 205 and the system controller 1
05b to 105d are connected to the sub-processor 212 of the system support unit 211 via the RS-232C control unit 219 and the control interface 224, and the sub-processor 212 of the system support unit 211 is connected to the local bus 215 and the processor memory control unit 205. It is connected to the main processor 202 via the main processor. The sub-processor 212 resets the main processor 202 by a processor reset signal 217 and controls the main power supply 200 by a power on / off signal 216.

【0097】尚、図2に示す様に、本実施形態の並列計
算機システムの管理装置のノード100a〜100cに
おいて、システム制御機構105b〜105dを、RS
−232C制御部219と、データインタフェース22
3と、RS−232C制御機構209とを介してメイン
プロセッサ202に接続しているのは、システム制御機
構105b〜105dとメインプロセッサ202との間
をRS−232C等のシリアルインタフェースで接続す
ることによりその通信ソフトウェアをコンパクトなもの
とし、メインプロセッサ202に障害が発生した場合で
あっても、システム制御機構105b〜105dとメイ
ンプロセッサ202との間の通信が、できるだけ損なわ
れることの無い様にする為である。
As shown in FIG. 2, in the nodes 100a to 100c of the management device of the parallel computer system according to the present embodiment, the system control mechanisms 105b to 105d
-232C control unit 219 and data interface 22
3 and the RS-232C control mechanism 209 are connected to the main processor 202 by connecting the system control mechanisms 105b to 105d and the main processor 202 with a serial interface such as RS-232C. The communication software is compact so that communication between the system control mechanisms 105b to 105d and the main processor 202 is not impaired as much as possible even if a failure occurs in the main processor 202. It is.

【0098】本実施形態の並列計算機システムの管理装
置のノード100a〜100cは、主電源200で動作
する部位と補助電源201で動作する部位より構成され
ている。
The nodes 100a to 100c of the management apparatus of the parallel computer system according to the present embodiment are composed of a part operated by the main power supply 200 and a part operated by the auxiliary power supply 201.

【0099】主電源200で動作する部位としては、ノ
ード100a〜100cのメインプロセッサ202、ソ
フトウェア203を格納するメインメモリ204、メイ
ンプロセッサ202とメインメモリ204とのインタフ
ェース制御を行うプロセッサメモリ制御機構205、ノ
ード100a〜100cのメインプロセッサ202のシ
ステム立ち上げ処理を行うブートストラッププログラム
を格納しているブートストラップROM210等があ
り、これらに、システムバス206を介して、通信イン
タフェース機構102a〜102c、LAN制御機構1
08b〜108d等が接続され、また、システムディス
ク207はI/O制御機構208経由にて接続される。
The parts operated by the main power supply 200 include a main processor 202 of the nodes 100a to 100c, a main memory 204 for storing software 203, a processor memory control mechanism 205 for controlling an interface between the main processor 202 and the main memory 204, There are a bootstrap ROM 210 and the like storing a bootstrap program for performing a system start-up process of the main processor 202 of each of the nodes 100a to 100c, and these are connected via the system bus 206 to the communication interface mechanisms 102a to 102c, 1
08b to 108d are connected, and the system disk 207 is connected via the I / O control mechanism 208.

【0100】補助電源201で動作する部位としては、
ノード100a〜100cの主電源200の制御やメイ
ンプロセッサ202のステータス管理等のシステム制御
を行う部位であるシステムサポート機構211と、ノー
ド100a〜100cと管理端末装置104との通信を
制御するシステム制御機構105b〜105dがある。
The parts operated by the auxiliary power supply 201 include:
A system support mechanism 211 that controls the main power supply 200 of the nodes 100a to 100c and a system control such as a status management of the main processor 202; and a system control mechanism that controls communication between the nodes 100a to 100c and the management terminal device 104. 105b to 105d.

【0101】サブプロセッサ212は、管理端末装置1
04からの指示により電源投入/切断信号216を出力
することで、主電源200の制御を行い、プロセッサリ
セット信号217を出力することで、メインプロセッサ
202をリセットする機能を持つ。
[0101] The sub-processor 212
The main power supply 200 is controlled by outputting a power on / off signal 216 in accordance with an instruction from the main controller 202 and resetting the main processor 202 by outputting a processor reset signal 217.

【0102】ノード100a〜100cのノードメッセ
ージは、メインプロセッサ202が動作し、メインプロ
セッサ202を制御するオペレーティングシステム及び
ネットワークソフトウェアであるソフトウェア203が
起動されている状態では、データインタフェース223
を介してRS−232C制御機構209からRAM22
2に蓄積され、ソフトウェア203が起動されていない
状態では、サブプロセッサ212より、制御インタフェ
ース224を介してブートストラップメッセージ等がR
AM222に蓄積される。
The node messages of the nodes 100a to 100c are transmitted to the data interface 223 when the main processor 202 operates and the operating system for controlling the main processor 202 and the software 203 which is network software are activated.
From the RS-232C control mechanism 209 via the RAM 22
2 and the software 203 is not activated, the sub-processor 212 sends a bootstrap message or the like via the control interface 224 to the R.
Stored in AM 222.

【0103】本実施形態の並列計算機システムの管理装
置のシステム制御機構105b〜105dのプロセッサ
220は、前記のパケットのプロトコル変換の他に、以
下の処理も行う。
The processor 220 of the system control mechanism 105b to 105d of the management apparatus for the parallel computer system according to the present embodiment performs the following processing in addition to the above-described protocol conversion of the packet.

【0104】すなわち、管理端末装置104からのイー
サネットパケットを解釈し、パケットの内容に応じた処
理を行い、管理端末装置104からの指示によりRAM
222に格納しているノードメッセージを管理端末装置
104に送信する処理を行い、サブプロセッサ212
は、制御インタフェース224を介して送られてきたパ
ケットを解釈し、その内容に応じた制御を行う。
That is, an Ethernet packet from the management terminal device 104 is interpreted, processing is performed in accordance with the contents of the packet, and RAM processing is performed according to an instruction from the management terminal device 104.
The sub-processor 212 performs a process of transmitting the node message stored in the storage device 222 to the management terminal device 104.
Interprets the packet sent via the control interface 224 and performs control according to the contents.

【0105】以下に、本実施形態の並列計算機システム
の管理装置の管理端末装置104の概略構成について説
明する。
The schematic configuration of the management terminal device 104 of the management device of the parallel computer system according to the present embodiment will be described below.

【0106】図3は、本実施形態の並列計算機システム
の管理装置の管理端末装置104の概略構成を示す図で
ある。図3において、300はプロセッサ、301はソ
フトウェア、302はメインメモリ、303はブートス
トラップROM、304はプロセッサメモリ制御機構、
305はシステムバス、306はI/O制御機構、30
7はシステムディスク、308、309はRS−232
C制御機構、310はグラフィックス制御機構、311
はLAN制御部、312はRS−232C制御部、31
3はプロセッサ、314はROM、315はRAM、3
16は制御インタフェース、317はデータインタフェ
ースである。
FIG. 3 is a diagram showing a schematic configuration of the management terminal device 104 of the management device of the parallel computer system according to the present embodiment. In FIG. 3, reference numeral 300 denotes a processor, 301 denotes software, 302 denotes a main memory, 303 denotes a bootstrap ROM, 304 denotes a processor memory control mechanism,
305 is a system bus, 306 is an I / O control mechanism, 30
7 is a system disk, 308 and 309 are RS-232
C control mechanism, 310 is a graphics control mechanism, 311
Is a LAN control unit, 312 is an RS-232C control unit, 31
3 is a processor, 314 is a ROM, 315 is a RAM, 3
Reference numeral 16 denotes a control interface, and 317 denotes a data interface.

【0107】図3に示す様に、本実施形態の並列計算機
システムの管理装置の管理端末装置104は、管理端末
装置104内の全ての処理を制御/統括するプロセッサ
300と、管理端末装置104のオペレーティングシス
テム及びネットワークソフトウェアであるソフトウェア
301が格納されているメインメモリ302と、管理端
末装置104のシステム立ち上げ処理を行うブートスト
ラッププログラムを格納しているブートストラップRO
M303と、プロセッサ300、メインメモリ302及
びブートストラップROM303のインタフェース制御
を行うプロセッサメモリ制御機構304とを備えてい
る。
As shown in FIG. 3, the management terminal device 104 of the management device of the parallel computer system according to the present embodiment includes a processor 300 for controlling / controlling all processes in the management terminal device 104 and a management terminal device 104. A main memory 302 storing an operating system and software 301 which is network software, and a bootstrap RO storing a bootstrap program for performing a system start-up process of the management terminal device 104.
M303, and a processor memory control mechanism 304 that controls the interface of the processor 300, the main memory 302, and the bootstrap ROM 303.

【0108】また、本実施形態の並列計算機システムの
管理装置の管理端末装置104は、システムバス305
と、システムディスク307を制御するI/O制御機構
306と、システムディスク307と、ソフトウェア3
01がノード100a〜100cに対し電源制御等のシ
ステム制御コマンドを発行する際に使用するRS−23
2C制御機構308と、ノードメッセージの出力やシス
テム制御機構105a経由にてオペレータとのインタラ
クティブなやりとりを行うRS−232C制御機構30
9と、ディスプレイターミナルやキーボード及びマウス
といったマンマシンインタフェースを制御するグラフィ
ックス制御機構310と、システム制御機構105aと
を備えている。
Further, the management terminal device 104 of the management device of the parallel computer system according to the present embodiment has a system bus 305.
, An I / O control mechanism 306 that controls the system disk 307, a system disk 307, and software 3
RS-23 for issuing a system control command such as power control to the nodes 100a to 100c.
2C control mechanism 308 and RS-232C control mechanism 30 for interactively communicating with the operator via output of node messages and system control mechanism 105a
9, a graphics control mechanism 310 for controlling a man-machine interface such as a display terminal, a keyboard and a mouse, and a system control mechanism 105a.

【0109】本実施形態の並列計算機システムの管理装
置の管理端末装置104のシステム制御機構105a
は、ノード100a〜100cとの間でイーサネットパ
ケットの送受信を制御するLAN制御部311と、RS
−232C制御機構308及び309との間でのRS−
232Cパケットの送受信を制御するRS−232C制
御部312と、イーサネットパケットとRS−232C
パケットとのプロトコル変換を行うプロセッサ313
と、プロセッサ313で動作する制御プログラムを格納
するROM314と、ノード100a〜100cより送
られてくるノードメッセージを格納するRAM315と
を備えている。
The system control mechanism 105a of the management terminal device 104 of the management device of the parallel computer system according to the present embodiment.
Is a LAN control unit 311 for controlling transmission and reception of Ethernet packets between the nodes 100a to 100c,
RS-232C between the control mechanisms 308 and 309
RS-232C control unit 312 for controlling transmission and reception of H.232C packets, Ethernet packets and RS-232C
Processor 313 that performs protocol conversion with packets
And a ROM 314 for storing a control program operated by the processor 313, and a RAM 315 for storing node messages sent from the nodes 100a to 100c.

【0110】また、図3に示す様に、本実施形態の並列
計算機システムの管理装置の管理端末装置104では、
プロセッサ300をプロセッサメモリ制御機構304を
介してメインメモリ302、ブートストラップROM3
03及びシステムバス305に接続し、システムディス
ク307をI/O制御機構306を介してシステムバス
305に接続し、LAN制御機構108aと、RS−2
32C制御機構308及び309と、グラフィックス制
御機構310とをシステムバス305に接続している。
As shown in FIG. 3, the management terminal device 104 of the management device of the parallel computer system according to the present embodiment
The processor 300 is connected to the main memory 302 and the bootstrap ROM 3 via the processor memory control mechanism 304.
03 and the system bus 305, the system disk 307 is connected to the system bus 305 via the I / O control mechanism 306, and the LAN control mechanism 108a and the RS-2
The 32C control mechanisms 308 and 309 and the graphics control mechanism 310 are connected to the system bus 305.

【0111】更に、図3に示す様に、本実施形態の並列
計算機システムの管理装置の管理端末装置104では、
システム制御機構105aのRS−232C制御部31
2を、制御インタフェース316及びデータインタフェ
ース317を介してRS−232C制御機構308及び
309に接続している。
Further, as shown in FIG. 3, in the management terminal device 104 of the management device of the parallel computer system of the present embodiment,
RS-232C control unit 31 of system control mechanism 105a
2 is connected to the RS-232C control mechanisms 308 and 309 via the control interface 316 and the data interface 317.

【0112】本実施形態の並列計算機システムの管理装
置において、システム制御インタフェースは、ノード1
00a〜100cのシステム制御機構105b〜105
dと管理端末装置104のシステム制御機構105aと
をイーサネットケーブル等を用いて、相互接続すること
により形成されている。
In the management apparatus for the parallel computer system of the present embodiment, the system control interface
00a to 100c system control mechanisms 105b to 105c
d and the system control mechanism 105a of the management terminal device 104 are interconnected using an Ethernet cable or the like.

【0113】前記システム制御インタフェースは、管理
端末装置104側のシステム制御機構105aが動作可
能な状態であり、ノード100a〜100cの補助電源
201が投入されており、サブプロセッサ212及びシ
ステム制御機構105b〜105dが動作可能な状態で
あれば、ノード100a〜100cの主電源200が投
入されておらず、すなわちメインプロセッサ202が動
作しておらず、メインプロセッサ202全体を制御する
オペレーティングシステム及びネットワークソフトウェ
アであるソフトウェア203が起動されていなくとも使
用可能である。
The system control interface is in a state where the system control mechanism 105a of the management terminal device 104 is operable, the auxiliary power 201 of the nodes 100a to 100c is turned on, the sub-processor 212 and the system control mechanism 105b to If the node 105d is operable, the main power supply 200 of the nodes 100a to 100c is not turned on, that is, the main processor 202 is not operating, and the operating system and the network software control the entire main processor 202. It can be used even if the software 203 has not been activated.

【0114】これに対し、システム運用支援インタフェ
ースは、管理端末装置104のLAN制御機構108a
とノード100a〜100cのLAN制御機構108b
〜108dとをイーサネットケーブル等を用いて、相互
接続することにより形成されており、前記システム運用
支援インタフェースは、TCP/IP(Transmi
ssion Control Protocol/In
ternet Protocol)にて使用するため、
管理端末装置104及びノード100a〜100cのオ
ペレーティングシステム及びそのネットワークソフトウ
ェアであるソフトウェア203及びソフトウェア301
が起動され、TCP/IPをサポートするネットワーク
ソフトウェアを実行している状態でのみ使用可能とな
る。
On the other hand, the system operation support interface is the LAN control mechanism 108a of the management terminal device 104.
And LAN control mechanism 108b of nodes 100a to 100c
And 108d are connected to each other using an Ethernet cable or the like, and the system operation support interface is formed by TCP / IP (Transmi
session Control Protocol / In
For use in Internet Protocol)
Operating systems of the management terminal device 104 and the nodes 100a to 100c, and software 203 and software 301 as network software thereof.
Is activated and can be used only when network software supporting TCP / IP is running.

【0115】以下に、本実施形態の並列計算機システム
の管理装置の管理端末装置104とノード100a〜1
00cとの通信シーケンスについて説明する。
Hereinafter, the management terminal device 104 of the management device of the parallel computer system according to the present embodiment and the nodes 100a to 100a will be described.
The communication sequence with 00c will be described.

【0116】図4は、本実施形態の並列計算機システム
の管理装置の管理端末装置104とノード100a〜1
00cとの通信シーケンスの一例を示す図である。図4
において、401はアダプタ制御コマンド及びそのレス
ポンス、402はシステム制御コマンド及びそのレスポ
ンス、403はノードメッセージである。
FIG. 4 shows the management terminal device 104 of the management device of the parallel computer system of this embodiment and the nodes 100a to 100a.
It is a figure which shows an example of the communication sequence with 00c. FIG.
, 401 is an adapter control command and its response, 402 is a system control command and its response, and 403 is a node message.

【0117】図4に示す様に、本実施形態の並列計算機
システムの管理装置では、アダプタ制御コマンド及びそ
のレスポンス401、または、システム制御コマンド及
びそのレスポンス402であるパケットの送受信、或い
は、ノードメッセージ403の送受信により通信を行
う。
As shown in FIG. 4, in the management apparatus of the parallel computer system according to the present embodiment, transmission and reception of a packet which is an adapter control command and its response 401 or a system control command and its response 402, or a node message 403 The communication is performed by transmitting and receiving.

【0118】アダプタ制御コマンド及びそのレスポンス
401は、管理端末装置104のソフトウェア301が
管理端末装置104のシステム制御機構105aと通信
を行う際、およびサブプロセッサ212がシステム制御
機構105b〜105dと通信を行う際に使用し、制御
インタフェース316または制御インタフェース224
を介して送受信される。
The adapter control command and its response 401 are transmitted when the software 301 of the management terminal device 104 communicates with the system control mechanism 105a of the management terminal device 104, and when the sub-processor 212 communicates with the system control mechanisms 105b to 105d. Control interface 316 or control interface 224
Sent and received via

【0119】システム制御コマンド及びそのレスポンス
402は、管理端末装置104のソフトウェア301が
ノード100a〜100cのサブプロセッサ212と通
信を行う際に使用し、制御インタフェース316及び制
御インタフェース224を介して送受信される。
The system control command and its response 402 are used when the software 301 of the management terminal device 104 communicates with the sub-processors 212 of the nodes 100a to 100c, and are transmitted and received via the control interface 316 and the control interface 224. .

【0120】ノードメッセージ403は、ソフトウェア
203が起動していないときは、サブプロセッサ212
からシステム制御機構105b〜105dのRAM22
2へ送信されて蓄積され、また、ソフトウェア203が
起動されているときは、メインプロセッサ202からR
S−232C制御機構209よりシステム制御機構10
5b〜105dのRAM222へ送信されて蓄積され
る。
When the software 203 is not running, the node message 403 indicates that the sub-processor 212
To the RAM 22 of the system control mechanisms 105b to 105d
When the software 203 is activated, the main processor 202
System control mechanism 10 from S-232C control mechanism 209
5b to 105d are transmitted to the RAM 222 and accumulated.

【0121】システム制御機構105b〜105dのR
AM222に蓄積されたノードメッセージ403は、管
理端末装置104からの要求により、ノード100a〜
100cのシステム制御機構105b〜105dのRA
M222から、管理端末装置104のシステム制御機構
105aを介し、管理端末装置104のRS−232C
制御機構309へ送信され、管理端末装置104のグラ
フィックス制御機構310に接続されるグラフィックス
ディスプレイ等に表示される。
R of system control mechanisms 105b to 105d
The node messages 403 stored in the AM 222 are transmitted from the nodes 100a to
RA of the system control mechanism 105b-105d of 100c
From M222, the RS-232C of the management terminal device 104 is transmitted via the system control mechanism 105a of the management terminal device 104.
The information is transmitted to the control mechanism 309 and displayed on a graphics display or the like connected to the graphics control mechanism 310 of the management terminal device 104.

【0122】以下に、本実施形態の並列計算機システム
の管理装置におけるアダプタ制御コマンド及びそのレス
ポンス401のパケットフォーマットについて説明す
る。
The packet format of the adapter control command and its response 401 in the management apparatus of the parallel computer system according to the present embodiment will be described below.

【0123】図5は、本実施形態の並列計算機システム
の管理装置におけるアダプタ制御コマンド及びそのレス
ポンス401のパケットフォーマットを示す図である。
図5において、501は種別フィールド、502は送信
元アドレスフィールド、503は受信先アドレスフィー
ルド、504は情報部フィールド、505は識別子であ
る。
FIG. 5 is a diagram showing a packet format of an adapter control command and its response 401 in the management device of the parallel computer system of the present embodiment.
In FIG. 5, reference numeral 501 denotes a type field, 502 denotes a source address field, 503 denotes a destination address field, 504 denotes an information field, and 505 denotes an identifier.

【0124】図5に示す様に、本実施形態の並列計算機
システムの管理装置におけるアダプタ制御コマンド及び
そのレスポンス401のパケットは、種別フィールド5
01と、送信元アドレスフィールド502と、受信先ア
ドレスフィールド503と、情報部フィールド504
と、識別子505とを備えている。
As shown in FIG. 5, a packet of an adapter control command and its response 401 in the management device of the parallel computer system of the present embodiment has a type field 5
01, a source address field 502, a destination address field 503, and an information field 504.
And an identifier 505.

【0125】本実施形態の並列計算機システムの管理装
置において、種別フィールド501にはアダプタ制御コ
マンドまたはそのレスポンスであることを示すパケット
識別子、例えば「A」が格納され、送信元アドレスフィ
ールド502にはパケットの送信元アドレス、受信先ア
ドレスフィールド503にはパケットの受信先アドレス
が格納される。
In the management apparatus of the parallel computer system of this embodiment, the type field 501 stores an adapter control command or a packet identifier indicating a response to the adapter control command, for example, “A”. The destination address of the packet is stored in the source address and destination address field 503 of the packet.

【0126】また、情報部フィールド504には、パケ
ットの種類により、異なったパラメータが格納され、さ
らにパケットの末尾には、パケットの終わりを示す識別
子505、例えば「LF」(ラインフィード)が付加さ
れる。
In the information field 504, different parameters are stored depending on the type of packet, and an identifier 505 indicating the end of the packet, for example, "LF" (line feed) is added to the end of the packet. You.

【0127】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御コマンド及びそのレス
ポンス402のパケットフォーマットについて説明す
る。
Hereinafter, the packet format of the system control command and its response 402 in the management apparatus for the parallel computer system according to the present embodiment will be described.

【0128】図6は、本実施形態の並列計算機システム
の管理装置におけるシステム制御コマンド及びそのレス
ポンス402のパケットフォーマットを示す図である。
図6において、601は種別フィールド、602は送信
元アドレスフィールド、603は受信先アドレスフィー
ルド、604は情報部フィールド、605は識別子であ
る。
FIG. 6 is a diagram showing a packet format of a system control command and its response 402 in the management apparatus of the parallel computer system according to the present embodiment.
6, reference numeral 601 denotes a type field, 602 denotes a source address field, 603 denotes a destination address field, 604 denotes an information field, and 605 denotes an identifier.

【0129】図6に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御コマンド及び
そのレスポンス402のパケットは、種別フィールド6
01と、送信元アドレスフィールド602と、受信先ア
ドレスフィールド603と、情報部フィールド604
と、識別子605とを備えている。
As shown in FIG. 6, a packet of a system control command and its response 402 in the management device of the parallel computer system of the present embodiment has a type field 6
01, a source address field 602, a destination address field 603, and an information field 604.
And an identifier 605.

【0130】本実施形態の並列計算機システムの管理装
置において、種別フィールド601には、システム制御
コマンドまたはそのレスポンスであることを示すパケッ
ト識別子、例えば「d」が格納され、送信元アドレスフ
ィールド602にはパケットの送信元アドレス、受信先
アドレスフィールド603にはパケットの受信先アドレ
スが格納される。
In the management apparatus of the parallel computer system of the present embodiment, the type field 601 stores a packet identifier indicating a system control command or its response, for example, “d”, and the source address field 602 stores The source address of the packet and the destination address field 603 store the destination address of the packet.

【0131】また、情報部フィールド604には、パケ
ットの種別により異なったパラメータが格納され、さら
にパケットの末尾には、パケットの終わりを示す識別子
605、例えば「LF」が付加される。
In the information field 604, different parameters are stored depending on the type of packet, and an identifier 605 indicating the end of the packet, for example, "LF" is added to the end of the packet.

【0132】また、本実施形態の並列計算機システムの
管理装置において、管理端末装置104からの送信パケ
ットの受信先アドレスフィールド603に16進数の
「0xffffffff」が格納されると、そのパケッ
トはブロードキャストパケットとなり、全てのノード1
00a〜100cで受信される。
In the management device of the parallel computer system according to the present embodiment, when the hexadecimal “0xffffffff” is stored in the destination address field 603 of the transmission packet from the management terminal device 104, the packet becomes a broadcast packet. , All nodes 1
00a to 100c.

【0133】尚、本実施形態の並列計算機システムの管
理装置において、「0x」が付加された数字は16進数
を示すものとする。
In the management apparatus for the parallel computer system according to the present embodiment, the number added with “0x” indicates a hexadecimal number.

【0134】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構105a〜105
dの、パケットモードと非パケットモードのモード遷移
について説明する。
Hereinafter, the system control mechanisms 105a to 105 in the management apparatus for the parallel computer system according to the present embodiment will be described.
The mode transition between the packet mode and the non-packet mode in d will be described.

【0135】図7は、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構のモード遷移を示
す図である。図7において、701はパケットモード、
702は非パケットモード、703は「SET−MOD
E」コマンドである。
FIG. 7 is a diagram showing a mode transition of the system control mechanism in the management device of the parallel computer system according to the present embodiment. In FIG. 7, reference numeral 701 denotes a packet mode;
702 is a non-packet mode, and 703 is “SET-MOD
E "command.

【0136】図7に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御機構は、固定
長のパケットの送受信を行うパケットモード701と、
不定長のノードメッセージ403の送受信を行う非パケ
ットモード702とを備え、パケットモード701と非
パケットモード702のモード遷移は、サブプロセッサ
212からのアダプタ制御コマンドである「SET−M
ODE」コマンド703を実行することにより行う。
As shown in FIG. 7, the system control mechanism in the management apparatus of the parallel computer system according to the present embodiment includes a packet mode 701 for transmitting and receiving fixed-length packets,
A non-packet mode 702 for transmitting and receiving the node message 403 of undefined length is provided. The mode transition between the packet mode 701 and the non-packet mode 702 is performed by an adapter control command “SET-M” from the sub-processor 212.
This is performed by executing the “ODE” command 703.

【0137】前記の様に、本実施形態の並列計算機シス
テムの管理装置のシステム制御機構105a〜105d
の動作モードは、パケットモード701及び非パケット
モード702の2種類があり、パケットモード701
は、管理端末装置104と複数のノード100a〜10
0cが通信を行う際に設定されるモードであり、非パケ
ットモード702は、特定のノードとコネクション型通
信を行い、前記特定のノードからのノードメッセージ4
03を管理端末装置104に表示する際に設定されるモ
ードである。
As described above, the system control mechanisms 105a to 105d of the management device of the parallel computer system according to the present embodiment.
There are two operation modes, a packet mode 701 and a non-packet mode 702.
Is connected to the management terminal device 104 and the plurality of nodes 100a to 100a.
0c is a mode set when performing communication, and the non-packet mode 702 performs connection-type communication with a specific node, and transmits a node message 4 from the specific node.
03 is a mode set when the management terminal 104 is displayed on the management terminal device 104.

【0138】尚、本実施形態の並列計算機システムの管
理装置において、管理端末装置104及びノード100
a〜100cのシステム制御機構105a〜105d
は、補助電源201投入時にはパケットモード701に
て動作するものとする。
In the management device of the parallel computer system according to the present embodiment, the management terminal device 104 and the node 100
a to 100c system control mechanisms 105a to 105d
Operate in the packet mode 701 when the auxiliary power supply 201 is turned on.

【0139】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構105a〜105
dの非パケットモード702でのコネクション状態の遷
移について説明する。
Hereinafter, the system control mechanisms 105a to 105 in the management apparatus for the parallel computer system according to the present embodiment will be described.
The transition of the connection state in the non-packet mode 702 of d will be described.

【0140】図8は、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構の非パケットモー
ド702でのコネクション状態の遷移を示す図である。
図8において、800はディスコネクト状態、801は
ウェイトコネクト状態、802はコネクト状態、803
は「SET−CONNECT」コマンド、804は管理
端末装置104上のシステム制御機構105aとノード
100a〜100c上のシステム制御機構105b〜1
05cとの間で行われる呼制御である。
FIG. 8 is a diagram showing the transition of the connection state in the non-packet mode 702 of the system control mechanism in the management apparatus for the parallel computer system according to the present embodiment.
8, 800 is a disconnect state, 801 is a wait connect state, 802 is a connect state, and 803
Is a “SET-CONNECT” command, 804 is the system control mechanism 105a on the management terminal device 104 and the system control mechanisms 105b-1 on the nodes 100a-100c.
05c.

【0141】図8に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御機構の非パケ
ットモード702でのコネクション状態には、相手のシ
ステム制御機構が接続されておらずRAM222にノー
ドメッセージ403を蓄積していない状態であるディス
コネクト状態800と、相手のシステム制御機構が接続
されていないがノードメッセージ403をRAM222
に蓄積中である状態のウェイトコネクト状態801と、
相手のシステム制御機構が接続されているコネクト状態
802とがあり、前記コネクション状態の遷移は、「S
ET−CONNECT」コマンド803またはシステム
制御機構からの呼制御804により行う。
As shown in FIG. 8, in the connection state in the non-packet mode 702 of the system control mechanism in the management apparatus for the parallel computer system of the present embodiment, the other system control mechanism is not connected and the node The disconnect state 800 in which the message 403 is not stored and the node message 403 which is not connected to the partner system control mechanism are stored in the RAM 222.
A wait connect state 801 that is accumulating in the
There is a connect state 802 to which the partner system control mechanism is connected, and the transition of the connection state is “S
ET-CONNECT "command 803 or call control 804 from the system control mechanism.

【0142】図8に示す様に、本実施形態の並列計算機
システムの管理装置において、非パケットモード702
設定時には、ディスコネクト状態800、ウェイトコネ
クト状態801及びコネクト状態802の3つのコネク
ト状態を保持し、ディスコネクト状態800では、シス
テム制御機構同士の通信は不可となり、ウェイトコネク
ト状態801では、相手のシステム制御機構との通信は
不可であるが、ノードメッセージ403は、RAM22
2内に順次蓄積される。
As shown in FIG. 8, in the management apparatus of the parallel computer system of this embodiment, the non-packet mode 702
At the time of setting, three connection states of a disconnect state 800, a wait connect state 801 and a connect state 802 are held. In the disconnect state 800, communication between the system control mechanisms is disabled. Although communication with the control mechanism is not possible, the node message 403 is stored in the RAM 22
2 are sequentially stored.

【0143】通信を行うシステム制御機構同士がコネク
ト状態802にあるとき、非パケットモード702での
コネクション型通信が可能となる。
When the communicating system control mechanisms are in the connected state 802, connection-type communication in the non-packet mode 702 becomes possible.

【0144】これらの状態は、「SET−CONNEC
T」コマンド803を発行することにより遷移する。ま
た、相手のシステム制御機構からの呼制御804による
コネクト要求があった場合、ウェイトコネクト状態80
1からコネクト状態802に遷移する。
These states are described in “SET-CONNECT”.
The transition is made by issuing a “T” command 803. If there is a connection request by the call control 804 from the partner system control mechanism, the wait connection state 80
The state transitions from 1 to the connected state 802.

【0145】本実施形態の並列計算機システムの管理装
置にて使用するアダプタ制御コマンド及びそのレスポン
ス401の一覧を表1に示す。表1において、情報部は
情報部フィールド504に格納される情報を示してお
り、情報部のバイト0の数字は、パケット種別を示す番
号である。
Table 1 shows a list of adapter control commands and their responses 401 used by the management device of the parallel computer system of this embodiment. In Table 1, the information part indicates information stored in the information part field 504, and the number of byte 0 of the information part is a number indicating the packet type.

【0146】[0146]

【表1】 [Table 1]

【0147】本実施形態の並列計算機システムの管理装
置にて使用するシステム制御コマンド及びそのレスポン
ス402の一覧を表2に示す。表2において、情報部は
情報部フィールド604に格納される情報を示してお
り、情報部のバイト0の数字は、パケット種別を示す番
号である。
Table 2 shows a list of system control commands and their responses 402 used in the management device of the parallel computer system of this embodiment. In Table 2, the information part indicates information stored in the information part field 604, and the number of byte 0 of the information part is a number indicating the packet type.

【0148】[0148]

【表2】 [Table 2]

【0149】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ム制御機構105b〜105dのプロセッサ220の処
理手順について説明する。
The processing procedure of the processor 220 of the system control mechanisms 105b to 105d of the nodes 100a to 100c in the management apparatus for the parallel computer system according to the present embodiment will be described below.

【0150】図9は、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ム制御機構105b〜105dのプロセッサ220の処
理手順の一部を示すフローチャートである。
FIG. 9 is a flowchart showing a part of the processing procedure of the processor 220 of the system control mechanisms 105b to 105d of the nodes 100a to 100c in the management apparatus for the parallel computer system according to the present embodiment.

【0151】図9に示す様に、本実施形態の並列計算機
システムの管理装置におけるノード100a〜100c
のシステム制御機構105b〜105dのプロセッサ2
20では、ステップ900の処理にて、「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からコネクト要求があるかどうかを調べる。
As shown in FIG. 9, the nodes 100a to 100c in the management device of the parallel computer system of this embodiment
Processor 2 of the system control mechanism 105b to 105d
In step 20, in the process of step 900, “SET-CO
NNECT "command or call control to
4 to check if there is a connect request.

【0152】ステップ900の処理で、「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からのコネクト要求がある場合には、ステップ901
の処理に進み、ノード100a〜100cのシステム制
御機構105b〜105dが非パケットモード702で
あるかどうかをチェックする。
In the process of step 900, “SET-CO
NNECT "command or call control to
If there is a connect request from step 4, step 901
To check whether the system control mechanisms 105b to 105d of the nodes 100a to 100c are in the non-packet mode 702.

【0153】ステップ901の処理で、ノード100a
〜100cのシステム制御機構105b〜105dが非
パケットモード702であれば、ステップ902の処理
へ進み、ステップ901の処理で、ノード100a〜1
00cのシステム制御機構105b〜105dが非パケ
ットモード702でなければ、ステップ903の処理に
て、サブプロセッサ212からのシステム制御コマンド
「SET−MODE」により、ノード100a〜100
cのシステム制御機構105b〜105dを非パケット
モード702に設定し、ステップ902の処理へ進む。
In the process of step 901, the node 100a
If the system control mechanisms 105b to 105d of the nodes 100a to 100c are in the non-packet mode 702, the process proceeds to step 902.
If the system control mechanisms 105b to 105d of the node 00c are not in the non-packet mode 702, the nodes 100a to 100d are processed by the system control command “SET-MODE” from the sub-processor 212 in the process of step 903.
Set the system control mechanisms 105b to 105d of c in the non-packet mode 702, and proceed to the processing of step 902.

【0154】ステップ902の処理では、ノード100
a〜100cのシステム制御機構105b〜105dの
RAM222に蓄積されたノードメッセージ403をシ
ステム制御インタフェース経由で管理端末装置104へ
送信し、ステップ900の処理に戻る。
In the process of step 902, the node 100
The node messages 403 stored in the RAMs 222 of the system control mechanisms 105b to 105d a to 100c are transmitted to the management terminal device 104 via the system control interface, and the process returns to step 900.

【0155】ステップ900の処理にて「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からコネクト要求が無い場合には、ステップ904の
処理に進み、ステップ904の処理にて、システム制御
コマンドにより、管理端末装置104からのシステム制
御があるかどうかを調べる。
In the processing of step 900, “SET-CO
NNECT "command or call control to
If there is no connection request from the control terminal 4, the process proceeds to step 904, and in the process of step 904, it is checked whether or not there is a system control from the management terminal device 104 by a system control command.

【0156】ステップ904の処理にて、前記システム
制御コマンドにより、管理端末装置104からのシステ
ム制御がある場合には、ステップ905の処理に進み、
ノード100a〜100cのシステム制御機構105b
〜105dがパケットモード701かどうかをチェック
する。
In the processing of step 904, if there is a system control from the management terminal device 104 according to the system control command, the processing proceeds to step 905,
System control mechanism 105b of nodes 100a to 100c
It is checked whether .about.105d is in packet mode 701.

【0157】ステップ904の処理にて、システム制御
コマンドによる管理端末装置104からのシステム制御
がない場合には、ステップ909の処理に進む。
In the process of step 904, if there is no system control from the management terminal device 104 by the system control command, the process proceeds to step 909.

【0158】ステップ905の処理で、ノード100a
〜100cのシステム制御機構105b〜105dがパ
ケットモード701であれば、ステップ906の処理へ
進み、ノード100a〜100cのシステム制御機構1
05b〜105dがパケットモード701でなければ、
ステップ907の処理にて、サブプロセッサ212から
のシステム制御コマンド「SET−MODE」により、
システム制御機構105b〜105dをパケットモード
701に設定し、ステップ906の処理へ進む。
In the processing of step 905, the node 100a
If the system control mechanisms 105b to 105d of the nodes 100a to 100c are in the packet mode 701, the process proceeds to step 906, and the system control mechanism 1 of the nodes 100a to 100c
If 05b to 105d are not the packet mode 701,
In the processing of step 907, the system control command “SET-MODE” from the sub-processor 212
The system control mechanisms 105b to 105d are set to the packet mode 701, and the process proceeds to step 906.

【0159】ステップ906の処理にて、前記システム
制御コマンドの受信先アドレスフィールド603をチェ
ックし、前記システム制御コマンドの受信先アドレスフ
ィールド603が、自論理アドレスまたは「0xfff
fffff」である場合は、ステップ908の処理に進
み、前記システム制御コマンドの内容をサブプロセッサ
212に通知し、ステップ900の処理に戻る。
In the process of step 906, the destination address field 603 of the system control command is checked, and the destination address field 603 of the system control command is set to its own logical address or “0xffff”.
If it is "ffffff", the process proceeds to step 908, the contents of the system control command are notified to the sub-processor 212, and the process returns to step 900.

【0160】ステップ906の処理にて、前記システム
制御コマンドの受信先アドレスフィールド603が、自
論理アドレス及び「0xffffffff」でない場合
は、ステップ900の処理に戻る。
In step 906, if the destination address field 603 of the system control command is not its own logical address and "0xffffffff", the process returns to step 900.

【0161】ステップ909の処理にて、ノード100
a〜100cのサブプロセッサ212からの処理の結果
が返ってきたかどうかを調べ、サブプロセッサ212か
らの処理の結果が返ってきた場合には、ステップ910
の処理に進み、管理端末装置104に対し、前記システ
ム制御コマンドのレスポンスパケットを送信し、ステッ
プ900の処理に戻る。
In step 909, the node 100
It is checked whether or not the results of the processing from the sub-processors 212a to 100c have been returned. If the results of the processing have been returned from the sub-processors 212, Step 910 is executed.
Then, a response packet of the system control command is transmitted to the management terminal device 104, and the process returns to step 900.

【0162】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ムサポート機構211のサブプロセッサ212の処理手
順について説明する。
The processing procedure of the sub-processor 212 of the system support module 211 of the nodes 100a to 100c in the management system of the parallel computer system according to the present embodiment will be described below.

【0163】図10は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのシス
テムサポート機構211のサブプロセッサ212の処理
手順の一部を示すフローチャートである。
FIG. 10 is a flowchart showing a part of the processing procedure of the sub-processor 212 of the system support mechanism 211 of the nodes 100a to 100c in the management apparatus for the parallel computer system of the present embodiment.

【0164】図10に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのシステムサポート機構211のサブプロセッサ21
2では、補助電源201が投入されると、ステップ10
00の処理にて、ノード100a〜100cの論理アド
レスを設定し、ノード100a〜100cに備えられた
パネルに表示するステータスコードを格納するSRAM
214内のパネルステータス管理領域に「0000」を
設定する。
As shown in FIG. 10, nodes 100a to 100a in the management device of the parallel computer system according to the present embodiment.
Sub-processor 21 of system support mechanism 211 of c
In step 2, when the auxiliary power supply 201 is turned on,
In the process of 00, an SRAM for setting the logical addresses of the nodes 100a to 100c and storing a status code to be displayed on a panel provided in the nodes 100a to 100c
“0000” is set in the panel status management area in the area 214.

【0165】次に、ステップ1001の処理にて、ノー
ド100a〜100cのシステム制御機構105b〜1
05dを非パケットモード702に設定し、ステップ1
002の処理にて、ノード100a〜100cのシステ
ム制御機構105b〜105dの非パケットモード70
2のコネクション状態をウェイトコネクト状態801に
設定する。
Next, in the processing of step 1001, the system control mechanisms 105b-1 of the nodes 100a-100c
05d in the non-packet mode 702, and step 1
002, the non-packet mode 70 of the system control mechanisms 105b to 105d of the nodes 100a to 100c.
2 is set to the wait connect state 801.

【0166】ノード100a〜100cのシステム制御
機構105b〜105dのモードを非パケットモード7
02に設定し、システム制御機構105b〜105dの
非パケットモード702のコネクション状態をウェイト
コネクト状態801に設定するのは、ノード100a〜
100cのノードメッセージをシステム制御機構105
b〜105dのRAM222に蓄積すると共に、管理端
末装置104のシステム制御機構105aからの呼制御
804によるコネクト要求があったときに、ノード10
0a〜100cのシステム制御機構105b〜105d
のRAM222に蓄積したノードメッセージを管理端末
装置104に送る為である。
The mode of the system control mechanisms 105b to 105d of the nodes 100a to 100c is set to the non-packet mode 7
02, and the connection state of the non-packet mode 702 of the system control mechanisms 105b to 105d is set to the wait connect state 801 by the nodes 100a to
The node message of 100c is transmitted to the system control unit 105.
b to 105d, when the connection request is received from the system control mechanism 105a of the management terminal device 104 by the call control 804, the node 10
0a to 100c system control mechanisms 105b to 105d
In order to send the node message stored in the RAM 222 to the management terminal device 104.

【0167】また、こうすることでノード100a〜1
00c上のソフトウェア203が起動されていない場合
でも管理端末装置104からRAM222に蓄積したノ
ードメッセージを読み出すことが可能となる。
Also, by doing so, the nodes 100a-1
It is possible to read the node message stored in the RAM 222 from the management terminal device 104 even when the software 203 on 00c is not activated.

【0168】次に、管理端末装置104のシステム制御
機構105aから、ノード100a〜100cのシステ
ム制御機構105b〜105dにシステム制御コマンド
が送られた場合には、前記システム制御コマンドをノー
ド100a〜100cのサブプロセッサ212に送り、
サブプロセッサ212にて前記システム制御コマンドを
実行する。
Next, when a system control command is sent from the system control mechanism 105a of the management terminal device 104 to the system control mechanisms 105b to 105d of the nodes 100a to 100c, the system control command is transmitted to the nodes 100a to 100c. Sent to the sub-processor 212,
The sub-processor 212 executes the system control command.

【0169】ステップ1003の処理にて、管理端末装
置104のシステム制御機構105aからノード100
a〜100cのシステム制御機構105b〜105dを
介して、ノード100a〜100cの主電源200を投
入または切断する電源制御指示のシステム制御コマンド
が送られてきているかどうかを調べる。
In the processing of step 1003, the system control mechanism 105a of the management terminal device 104
It is checked whether a system control command of a power control instruction for turning on or off the main power supply 200 of the nodes 100a to 100c has been sent via the system control mechanisms 105b to 105d of the devices a to 100c.

【0170】ステップ1003の処理で管理端末装置1
04からの電源制御指示があるかどうかを調べた結果、
管理端末装置104からの電源制御指示がある場合に
は、ステップ1004の処理にて、ノード100a〜1
00cの主電源200を投入または切断する電源制御処
理を実行し、ステップ1005の処理にて、前記電源制
御処理の実行結果をノード100a〜100cのシステ
ム制御機構105b〜105dへ報告した後、ステップ
1003の処理に戻る。
In the process of step 1003, the management terminal 1
As a result of checking whether there is a power control instruction from
If there is a power control instruction from the management terminal device 104, the nodes 100a-1
In step 1005, a power control process for turning on or off the main power supply 200 is performed. In step 1005, the execution result of the power control process is reported to the system control mechanisms 105 b to 105 d of the nodes 100 a to 100 c. Return to the processing of.

【0171】ステップ1003の処理で管理端末装置1
04からの電源制御指示があるかどうかを調べた結果、
管理端末装置104からの電源制御指示がない場合に
は、ステップ1006の処理に進み、管理端末装置10
4のシステム制御機構105aからノード100a〜1
00cのシステム制御機構105b〜105dを介し
て、ノード100a〜100cに備えられたパネルを制
御するパネル制御指示のシステム制御コマンドが送られ
てきているかどうかを調べる。
In the process of step 1003, the management terminal 1
As a result of checking whether there is a power control instruction from
If there is no power control instruction from the management terminal device 104, the process proceeds to step 1006, and the management terminal device 10
4 from the system control mechanism 105a to the nodes 100a to 1
It is checked whether or not a system control command of a panel control instruction for controlling the panels provided in the nodes 100a to 100c has been sent via the system control mechanisms 105b to 105d of 00c.

【0172】ステップ1006の処理にて、管理端末装
置104からのパネル制御指示があるかどうかを調べた
結果、管理端末装置104からのパネル制御指示がある
場合には、ステップ1007の処理に進み、パネル制御
処理を実行し、ステップ1008の処理にて、前記パネ
ル制御処理の実行結果をノード100a〜100cのシ
ステム制御機構105b〜105dへ報告した後、ステ
ップ1003の処理に戻る。
In the process of step 1006, it is checked whether or not there is a panel control instruction from the management terminal device 104. If there is a panel control instruction from the management terminal device 104, the process proceeds to step 1007. The panel control process is executed, and in step 1008, the result of the panel control process is reported to the system control mechanisms 105b to 105d of the nodes 100a to 100c, and then the process returns to step 1003.

【0173】ステップ1006の処理にて、管理端末装
置104からのパネル制御指示があるかどうかを調べた
結果、管理端末装置104からのパネル制御指示がない
場合には、ステップ1009の処理に進み、管理端末装
置104のシステム制御機構105aからノード100
a〜100cのシステム制御機構105b〜105dを
介して、ノード100a〜100cのメインプロセッサ
202をリセットするリセット指示のシステム制御コマ
ンドが送られてきているかどうかを調べる。
In the process of step 1006, it is checked whether or not there is a panel control instruction from the management terminal device 104. If there is no panel control instruction from the management terminal device 104, the process proceeds to step 1009. From the system control mechanism 105a of the management terminal device 104 to the node 100
It is checked whether a system control command of a reset instruction for resetting the main processor 202 of each of the nodes 100a to 100c has been transmitted via the system control mechanisms 105b to 105d of the nodes a to 100c.

【0174】ステップ1009の処理にて、管理端末装
置104からのリセット指示があるかどうかを調べた結
果、管理端末装置104からのリセット指示がある場合
には、ステップ1010の処理に進み、ノード100a
〜100cのメインプロセッサ202のリセット処理を
実行し、ステップ1011の処理にて、前記リセット処
理の実行結果をノード100a〜100cのシステム制
御機構105b〜105dへ報告した後、ステップ10
03の処理に戻る。
In the process of step 1009, it is checked whether or not there is a reset instruction from the management terminal device 104. If there is a reset instruction from the management terminal device 104, the process proceeds to step 1010, where the node 100a
After the reset process of the main processor 202 of the nodes 100a to 100c is executed and the execution result of the reset process is reported to the system control mechanisms 105b to 105d of the nodes 100a to 100c in the process of Step 1011,
It returns to the process of 03.

【0175】ステップ1012の処理にてシステム制御
機構105b〜105dからモード切り替えの要求があ
るかどうかを調べた結果、モード切り替え要求がある場
合には、ステップ1013の処理に進み、アダプタ制御
コマンド「SET−MODE」を実行し、システム制御
機構105b〜105dの動作モードを切り替え、ステ
ップ1003の処理に戻る。
As a result of checking in step 1012 whether there is a mode switching request from the system control mechanisms 105b to 105d, if there is a mode switching request, the flow advances to step 1013 to execute the adapter control command "SET". -MODE ", the operation modes of the system control mechanisms 105b to 105d are switched, and the process returns to step 1003.

【0176】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、ノード100a〜10
0cの補助電源201で動作し、メインプロセッサ20
2が使用するネットワークソフトウェア及び通信ケーブ
ル109b〜109dとは別のネットワークソフトウェ
ア及び通信ケーブル106b〜106dを使用して管理
端末装置104と通信を行うシステム制御機構105b
〜105dに、管理端末装置104からシステム制御コ
マンドを送信し、前記システム制御コマンドを補助電源
201で動作するサブプロセッサ212で実行すること
より、複数のノード100a〜100cのメインプロセ
ッサ202の制御を行うので、並列処理を実行するメイ
ンプロセッサ202の動作並びにメインプロセッサ20
2のオペレーティングシステム及びネットワークソフト
ウェアであるソフトウェア203の動作とは無関係に、
並列計算機システムを構成する複数のノード100a〜
100cの運用管理を管理端末装置104で一括して行
うことが可能である。
As described above, according to the management apparatus for the parallel computer system of the present embodiment, the nodes 100a to 100a
0c operating on the auxiliary power supply 201 and the main processor 20
2 uses a network software and communication cables 106b to 106d that are different from the network software and communication cables 109b to 109d used by the communication control device 105.
To the main processor 202 of the plurality of nodes 100a to 100c by transmitting a system control command from the management terminal device 104 to the sub-processor 212 to execute the system control command. Therefore, the operation of the main processor 202 executing the parallel processing and the main processor 20
Irrespective of the operation of the operating system 2 and the software 203 which is network software,
A plurality of nodes 100a to 100a constituting a parallel computer system
The operation management of the management terminal 100c can be collectively performed by the management terminal device 104.

【0177】(実施形態2)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104か
ら複数のノード100a〜100dに主電源200の投
入を指示し、ノード100a〜100dのステータスコ
ードを監視し、ノード100a〜100dのメインプロ
セッサ202が動作を開始したかどうかを管理する実施
形態2について説明する。
(Embodiment 2) In the management apparatus for a parallel computer system according to the present invention, the management terminal 104 instructs the plurality of nodes 100a to 100d to turn on the main power supply 200, and the status code of the nodes 100a to 100d. Embodiment 2 that monitors whether the main processor 202 of the nodes 100a to 100d has started operation will be described.

【0178】図11は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104からノード1
00a〜100dへ主電源200の投入を指示する電源
投入シーケンスの一例を示す図である。図11におい
て、100dはノード、1101〜1112は電源投入
の各段階を示すシーケンスである。
FIG. 11 is a diagram showing the configuration of the node 1 from the management terminal device 104 in the management device of the parallel computer system of this embodiment.
FIG. 9 is a diagram showing an example of a power-on sequence instructing 00a to 100d to turn on a main power supply 200. In FIG. 11, reference numeral 100d denotes a node, and reference numerals 1101 to 1112 denote a sequence showing each stage of power-on.

【0179】図11に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104から
ノード100a〜100dへ主電源200の投入を指示
する電源投入シーケンスでは、シーケンス1101に
て、ノード100a〜100dの補助電源201が投入
されている。
As shown in FIG. 11, in the power-on sequence in which the management terminal device 104 in the management device of the parallel computer system of this embodiment instructs the nodes 100a to 100d to turn on the main power supply 200, the sequence 1101 The auxiliary power supplies 201 of 100a to 100d are turned on.

【0180】ノード100a〜100dの補助電源20
1が投入されると、ノード100a〜100dのサブプ
ロセッサ212は、シーケンス1102にて、システム
サポート機構211内の初期化を行い、アダプタ制御コ
マンド「SET−ADDRESS」によって、システム
制御機構105b〜105dの初期化、及び、管理端末
装置104がノード100a〜100dを管理するため
に必要なアドレスである論理アドレスの設定を行う。
Auxiliary power supply 20 for nodes 100a-100d
1 is input, the sub-processor 212 of the nodes 100a to 100d initializes the system support mechanism 211 in a sequence 1102, and executes the adapter control command "SET-ADDRESS" to execute the initialization of the system control mechanism 105b to 105d. Initialization and setting of a logical address, which is an address necessary for the management terminal device 104 to manage the nodes 100a to 100d, are performed.

【0181】ここで、例えば、論理アドレス「0x00
000001」を設定する「SET−ADDRESS」
コマンド及びそのレスポンスのフォーマットの一例は、
下記の通りとなる。
Here, for example, the logical address “0x00”
“SET-ADDRESS” to set “000001”
An example of the format of a command and its response is
It is as follows.

【0182】<コマンド>: A0x00000001:(受信先アドレスフィールド503は省
略):0x01 LF <レスポンス>: A0x00000001:0x00000001:0x01(ステータス情報)LF シーケンス1103にて、管理端末装置104の電源が
投入されると、管理端末装置104のブートストラップ
ROM303に格納されているブートストラッププログ
ラムが、管理端末装置104のシステム立ち上げ処理を
行う。
<Command>: A0x00000001: (The destination address field 503 is omitted): 0x01 LF <Response>: A0x00000001: 0x00000001: 0x01 (status information) LF In the sequence 1103, the power of the management terminal device 104 is turned on. Then, the bootstrap program stored in the bootstrap ROM 303 of the management terminal device 104 performs the system startup processing of the management terminal device 104.

【0183】シーケンス1104にて、管理端末装置1
04のシステム立ち上げ処理が終わると、シーケンス1
105にて、管理端末装置104のソフトウェア301
は、管理端末装置104の論理アドレスを「SET−A
DDRESS」にて設定する。
In the sequence 1104, the management terminal 1
When the system start-up process of 04 is completed, sequence 1
At 105, the software 301 of the management terminal device 104
Sets the logical address of the management terminal device 104 to “SET-A
DDRESS ”.

【0184】管理端末装置104及びノード100a〜
100dの論理アドレスが設定されると、シーケンス1
106にて、管理端末装置104のソフトウェア301
は、システム制御コマンドのブロードキャストパケット
を用いて、ノード100a〜100dの状態を示すステ
ータスコードを読み出す。
The management terminal device 104 and nodes 100a to
When the logical address of 100d is set, the sequence 1
At 106, the software 301 of the management terminal device 104
Reads a status code indicating the status of the nodes 100a to 100d using a broadcast packet of a system control command.

【0185】ステータスコードは、ノード100a〜1
00dのSRAM214内のパネルステータス管理領域
にて管理されており、例えば、ノード100a〜100
dの補助電源201が正常に投入されると、ある一定の
ステータスコードが前記パネルステータス管理領域に書
き込まれ、また、そのステータスコードは、サブプロセ
ッサ212により読み出すことができる(本実施形態の
並列計算機システムの管理装置ではコード「0000」
が読み出せるものとする。)。
The status codes correspond to nodes 100a-1
00d is managed in the panel status management area in the SRAM 214.
When the auxiliary power supply 201 is turned on normally, a certain status code is written in the panel status management area, and the status code can be read out by the sub-processor 212 (the parallel computer of this embodiment). Code "0000" in the system management device
Can be read. ).

【0186】ここでは、管理端末装置104は「STA
TUS−READ」コマンドを使用して、ノード100
a〜100dに対し、ブロードキャストを行う。
[0186] Here, the management terminal device 104 sets "STA
Using the "TUS-READ" command, the node 100
Broadcast is performed for a to 100d.

【0187】論理アドレスが「0xa0000000」
である管理端末装置104が、「STATUS−REA
D」コマンドをブロードキャストした場合と、そのコマ
ンドに対する、論理アドレスが「0x0000000
5」であるノードからのレスポンスのフォーマットの一
例は、下記の通りとなる。
The logical address is “0xa00000000”
Is the STATUS-REAA
D ”command is broadcast, and the logical address corresponding to the command is“ 0x00000000 ”.
An example of the format of the response from the node “5” is as follows.

【0188】<コマンド>: d0xa0000000:0xffffffff:0x4 LF <レスポンス> d0x00000005:0xa0000000:0x04 0000 LF シーケンス1107にて、ノード100a〜100dで
前記「STATUS−READ」コマンドが受信され、
サブプロセッサ212によりステータスコード「000
0」が読み出された後、シーケンス1108にて、ノー
ド100a〜100dから管理端末装置104に対し、
前記の様にレスポンスが返ってくる。
<Command>: d0xa0000000: 0xffffffff: 0x4 LF <Response> d0x00000005: 0xa0000000: 0x04 0000 LF In the sequence 1107, the nodes 100a to 100d receive the "STATUS-READ" command.
The status code “000” is issued by the sub processor 212.
After reading “0”, in sequence 1108, the nodes 100 a to 100 d
A response is returned as described above.

【0189】ここで、管理端末装置104のソフトウェ
ア301は、正常なレスポンスが返ってきたノードの論
理アドレスと、予め管理端末装置104のソフトウェア
301内または特定のファイルに保持しておいた、並列
計算機システムを構成するノード100a〜100dの
構成情報とを照らし合わせ、正常なレスポンスが返って
こないノードに対しては、予め設定された一定の時間間
隔で再び「STATUS−READ」コマンドを送るリ
トライ処理を行う。
Here, the software 301 of the management terminal device 104 includes the logical address of the node to which a normal response has been returned and the parallel computer stored in advance in the software 301 of the management terminal device 104 or in a specific file. Retry processing is performed by comparing the configuration information of the nodes 100a to 100d constituting the system with each other and transmitting a "STATUS-READ" command again at predetermined time intervals to nodes that do not return a normal response. Do.

【0190】シーケンス1109にて、管理端末装置1
04のソフトウェア301は、シーケンス1108で正
常なレスポンスパケットが返ってきたノードの主電源2
00を「P−ON」コマンドにて投入する。
In sequence 1109, management terminal device 1
04, the main power supply 2 of the node from which the normal response packet was returned in the sequence 1108
00 is input by a “P-ON” command.

【0191】例えば、論理アドレスが「0xa0000
000」である管理端末装置104から、論理アドレス
が「0x00000005」であるノードに対する「P
−ON」コマンド及びそのレスポンスのフォーマットの
一例は、下記の通りとなる。
For example, if the logical address is “0xa0000”
000 ”from the management terminal device 104 to the node whose logical address is“ 0x00000005 ”.
An example of the format of the “-ON” command and its response is as follows.

【0192】<コマンド>: d0xa0000000:0x00000005:0x01LF <レスポンス>: d0x00000005:0xa0000000:0x01(完了コード)LF このとき、管理端末装置104のソフトウェア301の
制御により、予め設定された一定の時間間隔で「P−O
N」コマンドをずらしながらノード100a〜100d
に送信することで、並列計算機システム全体に電源を供
給している電源設備への突入電流を低く抑えることが出
来る。
<Command>: d0xa0000000: 0x00000005: 0x01LF <Response>: d0x00000005: 0xa0000000: 0x01 (completion code) LF At this time, under the control of the software 301 of the management terminal device 104, " PO
N "while shifting the command
The inrush current to the power supply equipment that supplies power to the entire parallel computer system can be reduced.

【0193】シーケンス1110にて、「P−ON」コ
マンドを受け取ったノード100a〜100dのサブプ
ロセッサ212は、電源投入信号216を出力し、主電
源200をオンにした後、「P−ON」コマンドに対す
るレスポンスを、管理端末装置104に返送する。
In sequence 1110, the sub-processors 212 of the nodes 100a to 100d that have received the "P-ON" command output the power-on signal 216, turn on the main power supply 200, and then execute the "P-ON" command. Is returned to the management terminal device 104.

【0194】ノード100a〜100dの主電源200
がオンになると、メインプロセッサ202によりブート
ストラップROM210に格納されているブートストラ
ッププログラムが実行され、システム立ち上げ処理が開
始される。
Main power supply 200 for nodes 100a-100d
Is turned on, the main processor 202 executes the bootstrap program stored in the bootstrap ROM 210, and the system startup processing is started.

【0195】尚、システム立ち上げ処理中にブートスト
ラッププログラムがインクリメントするステータスコー
ドには、例えば以下のようなものがある。ここで、本実
施形態の並列計算機システムの管理装置では、ステータ
スコードは16進数で示されている。
The status codes incremented by the bootstrap program during the system start-up processing include, for example, the following. Here, in the management device of the parallel computer system of the present embodiment, the status code is indicated by a hexadecimal number.

【0196】[0196]

【表3】 [Table 3]

【0197】ノード100a〜100dのメインプロセ
ッサ202のブートストラッププログラムは、ノード1
00a〜100dのSRAM214内のパネルステータ
ス管理領域にステータスコードを書き込み、システム立
ち上げ処理が進むと、定期的に前記ステータスコードを
更新する。
The bootstrap program of the main processor 202 of the nodes 100a to 100d is
The status code is written into the panel status management area in the SRAM 214 of 00a to 100d, and when the system start-up process proceeds, the status code is periodically updated.

【0198】また、前記パネルステータス管理領域は、
ノード100a〜100dのサブプロセッサ212から
も参照可能であり、例えば、ノード100a〜100d
に備えられたパネル等の表示装置に表示することによ
り、オペレータに対し、前記ステータスコードを開示す
ることも可能である。
Further, the panel status management area includes:
It can be referred to from the sub-processors 212 of the nodes 100a to 100d, for example, the nodes 100a to 100d.
The status code can be disclosed to the operator by displaying the status code on a display device such as a panel provided in the device.

【0199】管理端末装置104のソフトウェア301
は、これらのノード100a〜100dのステータスコ
ードを「STATUS−READ」コマンドを使用して
定期的に読み出すことにより、ノード100a〜100
dの状態を監視する。
Software 301 of management terminal device 104
Periodically reads the status codes of the nodes 100a to 100d by using a “STATUS-READ” command, thereby obtaining the nodes 100a to 100d.
Monitor the state of d.

【0200】シーケンス1110にて、管理端末装置1
04のソフトウェア301は、システム制御コマンドの
送信からそのレスポンスの受信までを一定の時間で監視
しており、図11に示す様に、何らかの障害が発生して
おり、一定時間内に正常なレスポンスが返ってこないノ
ード100dに対しては、シーケンス1111にて、予
め設定された一定の時間間隔で再度システム制御コマン
ドを送信するリトライ処理を行う。
In sequence 1110, management terminal device 1
The software 301 of 04 monitors a certain period of time from transmission of the system control command to reception of its response. As shown in FIG. 11, some failure has occurred, and a normal response has occurred within a certain period of time. For the node 100d that does not return, a retry process of transmitting a system control command again at a predetermined time interval is performed in sequence 1111.

【0201】図11に示す様に、本実施形態の並列計算
機システムの管理装置において、一定回数(本実施形態
では3回)のリトライ処理の結果、ノード100dから
正常なレスポンスが返って来なかった場合、シーケンス
1112にて、管理端末装置104のソフトウェア30
1は、ノード100dに障害が発生していることを認識
する。
As shown in FIG. 11, in the management device of the parallel computer system of the present embodiment, a normal response is not returned from the node 100d as a result of the retry process of a fixed number of times (three times in the present embodiment). In this case, in the sequence 1112, the software 30 of the management terminal
1 recognizes that a failure has occurred in the node 100d.

【0202】管理端末装置104のソフトウェア301
は、前記の様に、特定のシステム制御コマンドに対する
正常なレスポンスが一定時間内の間に受信されない場合
に、予め設定された一定の時間間隔で前記特定のシステ
ム制御コマンドを再度送信する制御を行うことで、ノー
ド100a〜100dのソフトウェア203が起動され
ていなくとも、ノード100a〜100dのメインプロ
セッサ202のシステム立ち上げ処理が正常に終了して
いるかどうかの管理を行うことが可能である。
The software 301 of the management terminal device 104
As described above, when a normal response to a specific system control command is not received within a predetermined time, control is performed to transmit the specific system control command again at a predetermined time interval. Thus, even if the software 203 of the nodes 100a to 100d is not activated, it is possible to manage whether or not the system startup processing of the main processor 202 of the nodes 100a to 100d has been completed normally.

【0203】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、管理端末装置104か
らの指示により複数のノード100a〜100dの主電
源200の投入または切断を行うので、並列計算機シス
テムを構成する複数のノード100a〜100dの主電
源200の投入または切断を管理端末装置104で一括
または個別に行うことが可能である。
As described above, according to the management apparatus of the parallel computer system of the present embodiment, the main power supply 200 of the plurality of nodes 100a to 100d is turned on or off according to an instruction from the management terminal device 104. The main power supply 200 of the plurality of nodes 100a to 100d constituting the computer system can be turned on or off by the management terminal device 104 collectively or individually.

【0204】また、本実施形態の並列計算機システムの
管理装置によれば、ノード100a〜100dへの主電
源200の投入指示を、予め設定された特定の時間間隔
で行うので、並列計算機システムに電力を供給する電源
設備の突入電流を低く抑えることが可能である。
Further, according to the management apparatus for the parallel computer system of the present embodiment, the instruction to turn on the main power supply 200 to the nodes 100a to 100d is issued at a specific time interval set in advance. It is possible to suppress the inrush current of the power supply equipment that supplies the power.

【0205】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの指示によ
りノード100a〜100dのステータスコードを読み
出すので、複数のノード100a〜100dの状態を管
理端末装置104で一括して管理することが可能であ
る。
Further, according to the management device of the parallel computer system of the present embodiment, the status codes of the nodes 100a to 100d are read in accordance with an instruction from the management terminal device 104, so that the status of the plurality of nodes 100a to 100d can be determined. It is possible to manage them collectively at 104.

【0206】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの特定のシ
ステム制御コマンドに対する正常なレスポンスが一定時
間中に受信されるかどうかを調べるので、並列計算機シ
ステムを構成する複数のノードが正常に動作中であるか
を管理端末装置104で監視することが可能である。
Further, according to the management apparatus for a parallel computer system of the present embodiment, it is checked whether or not a normal response to a specific system control command from the management terminal apparatus 104 is received within a predetermined time. The management terminal device 104 can monitor whether a plurality of nodes constituting the system are operating normally.

【0207】(実施形態3)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104に
ノード100aからのノードメッセージ403を表示
し、必要に応じて保守を行う実施形態3について説明す
る。
(Embodiment 3) In the following, a description will be given of a third embodiment in which a node message 403 from the node 100a is displayed on the management terminal device 104 and maintenance is performed as necessary in the management device of the parallel computer system of the present invention. I do.

【0208】図12は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104にノード10
0aからのノードメッセージ403を表示するシーケン
スの一例を示す図である。図12において、1201〜
1217はノードメッセージ403を表示する各段階の
シーケンスを示している。
FIG. 12 shows a case where the node 10 is added to the management terminal device 104 in the management device of the parallel computer system of this embodiment.
It is a figure showing an example of a sequence which displays node message 403 from 0a. In FIG.
Reference numeral 1217 denotes a sequence of each stage for displaying the node message 403.

【0209】図12に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104にノ
ード100aからのノードメッセージ403を表示する
シーケンスにおいて、シーケンス1201では、ノード
100aには、予め補助電源201が投入されており、
システム制御機構105b(動作モードはパケットモー
ド701)、サブプロセッサ212及びプロセッサ22
0は動作可能な状態にある。
As shown in FIG. 12, in the sequence of displaying the node message 403 from the node 100a on the management terminal device 104 in the management device of the parallel computer system of this embodiment, in the sequence 1201, the node 100a Power supply 201 is turned on,
System control mechanism 105b (operation mode is packet mode 701), sub-processor 212 and processor 22
0 is operable.

【0210】補助電源201が投入されているノード1
00aのサブプロセッサ212は、シーケンス1202
で「SET−ADDRESS」コマンドにて、ノード1
00aの論理アドレスを設定する。
Node 1 to which auxiliary power supply 201 is turned on
00a sub-processor 212
In the "SET-ADDRESS" command, node 1
00a logical address is set.

【0211】次に、ノード100aのサブプロセッサ2
12は、シーケンス1203で、「SET−MODE」
コマンドにてシステム制御機構105bの動作モードを
非パケットモード702(ディスコネクト状態800)
に設定する。
Next, the sub processor 2 of the node 100a
12 is a sequence 1203, “SET-MODE”
The operation mode of the system control mechanism 105b is changed to a non-packet mode 702 by a command (disconnect state 800).
Set to.

【0212】ノード100aのサブプロセッサ212
は、シーケンス1204で、さらに「SET−CONN
ECT」コマンドにて、コネクション状態を非パケット
モード702のウェイトコネクト状態801に設定す
る。
Sub processor 212 of node 100a
Is a sequence 1204, and “SET-CONN
The ECT command sets the connection state to the wait connect state 801 in the non-packet mode 702.

【0213】一方、管理端末装置104は、シーケンス
1205で、管理端末装置104の電源が投入される
と、管理端末装置104のシステム立ち上げ処理を開始
する。
On the other hand, when the power of the management terminal device 104 is turned on in the sequence 1205, the management terminal device 104 starts the system start-up process of the management terminal device 104.

【0214】管理端末装置104のシステム立ち上げ処
理が終了すると、シーケンス1206で、管理端末装置
104のソフトウェア301は、ノード100aと同様
にして、「SET−ADDRESS」コマンドを用いて
管理端末装置104の論理アドレスの設定を行い、シー
ケンス1207で、「SET−MODE」を用いて、動
作モードを非パケットモード702のディスコネクト状
態800に設定する。
When the system start-up process of the management terminal device 104 is completed, in a sequence 1206, the software 301 of the management terminal device 104 uses the “SET-ADDRESS” command to execute the The logical address is set, and the operation mode is set to the disconnect state 800 of the non-packet mode 702 by using “SET-MODE” in sequence 1207.

【0215】シーケンス1208にて、管理端末装置1
04のソフトウェア301は、「STATUS−REA
D」コマンドによってノード100aのステータスコー
ドを読み出し、ステータスコード「0000」が読み出
せると、シーケンス1209にて、「P−ON」コマン
ドをノード100aに送信し、ノード100aの主電源
200の投入を指示する。
In sequence 1208, management terminal device 1
04 software 301 is “STATUS-REA
When the status code of the node 100a is read by the “D” command and the status code “0000” can be read, a “P-ON” command is transmitted to the node 100a in a sequence 1209 to instruct the main power supply 200 of the node 100a to be turned on. I do.

【0216】管理端末装置104からの「P−ON」コ
マンドを受信し、主電源200を投入したノード100
aは、ブートストラップROM210に格納されている
ブートストラッププログラムをメインプロセッサ202
により実行し、ノード100aのシステム立ち上げ処理
を行う。
The node 100 that has received the “P-ON” command from the management terminal device 104 and turned on the main power supply 200
a stores a bootstrap program stored in a bootstrap ROM 210 in the main processor 202;
To perform the system startup processing of the node 100a.

【0217】このとき、ノード100aのブートストラ
ッププログラムから出力されるノードメッセージ403
は、サブプロセッサ212を経由し、ノード100aの
システム制御機構105bのRAM222に蓄積され
る。
At this time, node message 403 output from the bootstrap program of node 100a
Are stored in the RAM 222 of the system control mechanism 105b of the node 100a via the sub-processor 212.

【0218】管理端末装置104のソフトウェア301
は、シーケンス1210で、「SET−CONNEC
T」コマンドにより、管理端末装置104のシステム制
御機構105aのコネクション状態をコネクト状態80
2にすることで、ノード100aのシステム制御機構1
05bのRAM222に蓄積されているノード100a
のメインプロセッサ202のシステム立ち上げ処理中の
ノードメッセージ403の監視を開始する。
Software 301 of management terminal device 104
In the sequence 1210, “SET-CONNECT
The “T” command changes the connection state of the system control mechanism 105 a of the management terminal device 104 to the connected state 80.
2, the system control mechanism 1 of the node 100a
05a stored in the RAM 222 of the node 100a
Of the node message 403 during the system start-up process of the main processor 202 is started.

【0219】「SET−CONNECT」を受けた管理
端末装置104のシステム制御機構105aは、シーケ
ンス1211で、ノード100aのシステム制御機構1
05bと呼制御804を行い、これを受けたノード10
0aのシステム制御機構105bのコネクション状態
は、ウェイトコネクト状態801からコネクト状態80
2に遷移する。
The system control unit 105a of the management terminal device 104 having received the “SET-CONNECT” executes the sequence 1211 in the system control unit 1 of the node 100a.
05b and the call control 804, and the node 10 receiving the call control 804
0a, the connection state of the system control mechanism 105b is changed from the wait connect state 801 to the connect state 80a.
Transition to 2.

【0220】同時にノード100aのシステム制御機構
105bは、シーケンス1212で、「REPORT−
CONNECT」コマンドを、ノード100aのサブプ
ロセッサ212に発行し、管理端末装置104からのコ
ネクト要求があったことを伝える。
At the same time, the system control mechanism 105b of the node 100a executes “REPORT-
A "CONNECT" command is issued to the sub-processor 212 of the node 100a to notify that there is a connect request from the management terminal device 104.

【0221】このときの「REPORT−CONNEC
T」コマンド及びそのレスポンスのフォーマットの一例
は、下記の通りとなる。尚、以下の「REPORT−C
ONNECT」コマンド及びそのレスポンスでは、送受
信アドレスは省略されている。
At this time, "REPORT-CONNECT"
An example of the format of the "T" command and its response is as follows. In addition, the following "REPORT-C
In the “ONNECT” command and its response, the transmission / reception address is omitted.

【0222】<コマンド>: A::0xA(コネクト状態変化状況)LF <レスポンス>: A::0xA LF シーケンス1213にて、ノード100aのノードメッ
セージ403は、ノード100aのシステム制御機構1
05bが呼制御804によるコネクト要求を受け取った
時点で、ノード100aのシステム制御機構105bの
RAM222からLAN制御部218を経由して管理端
末装置104へ送信される。
<Command>: A :: 0xA (Connect state change status) LF <Response>: A :: 0xA LF In the sequence 1213, the node message 403 of the node 100a is transmitted to the system control mechanism 1 of the node 100a.
When the connection request 05b receives the connect request by the call control 804, the connection request is transmitted from the RAM 222 of the system control mechanism 105b of the node 100a to the management terminal device 104 via the LAN control unit 218.

【0223】ここで、図12には特に示していないが、
もし、ノード100aのメインプロセッサ202のシス
テム立ち上げ処理中に、ノード100aのメインプロセ
ッサ202が使用するファイルシステムに矛盾が発見さ
れ、前記システム立ち上げ処理が中断した場合には、シ
ーケンス1214にて、オペレータは、管理端末装置1
04の表示装置に出力されるノード100aのメインプ
ロセッサ202のシステム立ち上げ処理中のノードメッ
セージ403により、ノード100aに障害が発生して
いることを認識し、UNIXのfsck等のファイルシ
ステムを検査する保守コマンドを投入することで、ノー
ド100aの保守を行うことも可能である。
Although not specifically shown in FIG. 12,
If an inconsistency is found in the file system used by the main processor 202 of the node 100a during the system start-up process of the main processor 202 of the node 100a and the system start-up process is interrupted, in a sequence 1214, The operator operates the management terminal device 1
Based on the node message 403 during the system start-up process of the main processor 202 of the node 100a output to the display device 04, it is recognized that a failure has occurred in the node 100a, and a file system such as UNIX fsck is inspected. By inputting a maintenance command, the node 100a can be maintained.

【0224】また、ノード100aのメインプロセッサ
202のシステム立ち上げ処理は正常終了したが、その
後の通常の業務でノード100aのメインプロセッサ2
02を使用中に、パニックメッセージを出力してノード
100aのメインプロセッサ202がシステムダウンを
起こした場合には、オペレータは、ノード100aのシ
ステム制御機構105bのRAM222に蓄積されたノ
ードメッセージ403を管理端末装置104に表示さ
せ、ノードメッセージ403の内容によりシステムダウ
ンの要因を検討することも可能である。
Although the system start-up process of the main processor 202 of the node 100a has been completed normally, the main processor
If the main processor 202 of the node 100a outputs a panic message and the system goes down while using the node 02, the operator sends the node message 403 stored in the RAM 222 of the system control mechanism 105b of the node 100a to the management terminal. It is also possible to display on the device 104 and examine the cause of the system down based on the content of the node message 403.

【0225】ノード100aとのコネクションを切断す
る場合には、シーケンス1210〜1212までの処理
と同様、管理端末装置104のソフトウェア301が、
シーケンス1215にて、「SET−CONNECT」
コマンドを発行する。
When disconnecting the connection with the node 100a, the software 301 of the management terminal device 104
In sequence 1215, "SET-CONNECT"
Issue a command.

【0226】管理端末装置104のソフトウェア301
が「SET−CONNECT」コマンドを発行すること
により、管理端末装置104のシステム制御機構105
aはディスコネクト状態800になり、シーケンス12
16にて、管理端末装置104のシステム制御機構10
5aは、ノード100aのシステム制御機構105bに
対し呼制御804を行う。
Software 301 of management terminal device 104
Issues a “SET-CONNECT” command, thereby causing the system control mechanism 105 of the management terminal device 104 to issue a “SET-CONNECT” command.
a goes to the disconnect state 800 and the sequence 12
At 16, the system control mechanism 10 of the management terminal device 104
5a performs call control 804 on the system control mechanism 105b of the node 100a.

【0227】シーケンス1217にて、ノード100a
のシステム制御機構105bは、前記の管理端末装置1
04のシステム制御機構105aからの呼制御804に
より、相手からコネクション断の要求があったことを認
識し、同時にノード100aのサブプロセッサ212に
対し、このことを「REPORT−CONNECT」コ
マンドにて報告する。
At sequence 1217, node 100a
The system control mechanism 105b of the management terminal device 1
04, the call control 804 from the system control mechanism 105a recognizes that a connection disconnection request has been made from the partner, and at the same time reports this to the sub-processor 212 of the node 100a by a "REPORT-CONNECT" command. .

【0228】以上の様に、管理端末装置104からノー
ド100a〜100cに対し、システム制御コマンドを
送信することで、管理端末装置104からノード100
a〜100cの主電源200の電源制御及びノード10
0a〜100cの状態監視が可能となる。
As described above, by transmitting a system control command from the management terminal device 104 to the nodes 100a to 100c, the management terminal device 104
Power control of main power supply 200 and nodes 10a to 100c
Status monitoring of 0a to 100c becomes possible.

【0229】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、パケットモード701
及び非パケットモード702のモード切り替えをサブプ
ロセッサ212により行うので、パケットを用い、シス
テム制御コマンド及びそのレスポンスを複数のノード1
00a〜100cと送受信する通信と、特定のノードと
のコネクションを設定し、特定のノードのノードメッセ
ージ403を連続して受信する通信とを、切替装置の様
な特別のハードウェアを用いることなく同一の管理端末
装置104で行うことが可能である。
As described above, according to the management apparatus of the parallel computer system of the present embodiment, the packet mode 701
And the non-packet mode 702 is switched by the sub-processor 212, so that a system control command and its response can be
00a to 100c and communication for setting a connection with a specific node and continuously receiving a node message 403 of the specific node are the same without using special hardware such as a switching device. Can be performed by the management terminal device 104.

【0230】また、本実施形態の並列計算機システムの
管理装置によれば、特定のノードのメインプロセッサ2
02またはサブプロセッサ212が動作時に出力するノ
ードメッセージ403を蓄積し、管理端末装置104が
前記の蓄積されたノードメッセージ403を読み取るの
で、並列計算機システムを構成する複数のノード100
a〜100cのメインプロセッサ202がノードメッセ
ージ403を出力した後にその動作を停止した場合であ
っても、ノードメッセージ403を管理端末装置104
で一括して管理することが可能である。
Further, according to the management apparatus for a parallel computer system of the present embodiment, the main processor 2 of a specific node
02 or the sub-processor 212 accumulates the node message 403 output during operation, and the management terminal device 104 reads the accumulated node message 403. Therefore, a plurality of nodes 100 constituting the parallel computer system
Even if the main processors 202 a to 100 c output the node message 403 and stop the operation, the node message 403 is transmitted to the management terminal device 104.
Can be managed collectively.

【0231】(実施形態4)以下に、本発明の並列計算
機システムの管理装置において、ノード100a〜10
0cのメインプロセッサ202のシステム立ち上げ処理
を実行し、必要に応じてそのブートストラップデバイス
を変更してシステム立ち上げ処理を行う実施形態4につ
いて説明する。
(Embodiment 4) Hereinafter, in the management apparatus for a parallel computer system according to the present invention, the nodes 100a to 100a
A fourth embodiment will be described in which the system start-up process of the main processor 202 is executed and the bootstrap device is changed as necessary to perform the system start-up process.

【0232】本実施形態の並列計算機システムの管理装
置では、ブートストラップデバイスからのロード処理が
異常終了した場合に、ノード100a〜100cのメイ
ンメモリ204の内容を読み書きすることによってその
内容を変更し、ノード100a〜100cのメインプロ
セッサ202をリセットすることによって、他のブート
ストラップデバイスからのロード処理を行うことが可能
である。
In the management apparatus of the parallel computer system according to the present embodiment, when the load processing from the bootstrap device ends abnormally, the contents are changed by reading and writing the contents of the main memory 204 of the nodes 100a to 100c. By resetting the main processor 202 of each of the nodes 100a to 100c, a load process from another bootstrap device can be performed.

【0233】本実施形態の並列計算機システムの管理装
置において、ノード100a〜100cのメインメモリ
204の内容を読み書きする場合には、「MS−REA
D」コマンド及び「MS−WRITE」コマンドを使用
する。これらのシステム制御コマンドは、ノード100
a〜100cのメインプロセッサ202にて通常の業務
として並列処理を実行中に障害が発生したときに、ノー
ド100a〜100cのメインメモリ204の内容を調
査する場合にも使用することが可能である。
In the management apparatus of the parallel computer system according to the present embodiment, when reading and writing the contents of the main memory 204 of the nodes 100a to 100c, "MS-REA"
D and MS-WRITE commands. These system control commands are sent to node 100
It can also be used to investigate the contents of the main memory 204 of the nodes 100a to 100c when a failure occurs during the execution of parallel processing as a normal task in the main processor 202 of the nodes 100a to 100c.

【0234】また、本実施形態の並列計算機システムの
管理装置では、ノード100a〜100cのメインプロ
セッサ202、サブプロセッサ212及びプロセッサメ
モリ制御機構205等のハードウェアモジュール内のレ
ジスタの内容を読み書きすることも可能であり、その場
合には、「REG−READ」コマンド及び「REG−
WRITE」コマンドを使用する。
In the management apparatus of the parallel computer system according to the present embodiment, the contents of the registers in the hardware modules such as the main processor 202, the sub-processor 212, and the processor memory control mechanism 205 of the nodes 100a to 100c can be read and written. In that case, it is possible to use the “REG-READ” command and the “REG-READ” command.
WRITE "command.

【0235】例えば、ノード100a〜100cのメイ
ンプロセッサ202にて、通常の業務である並列処理を
実行中に障害が発生した場合は、ノード100a〜10
0c内の各ハードウェアリソースが採取する障害ログを
レジスタに退避しておき、前記の「REG−READ」
コマンドにより管理端末装置104から前記障害ログを
読み出すことにより、管理端末装置104からの障害要
因の特定が可能となる。
For example, if a failure occurs in the main processor 202 of each of the nodes 100a to 100c during the execution of parallel processing, which is a normal operation, the nodes 100a to 100c
The failure log collected by each hardware resource in the register 0c is saved in a register, and the above-mentioned “REG-READ”
By reading the failure log from the management terminal device 104 using a command, it is possible to specify the cause of the failure from the management terminal device 104.

【0236】また、本実施形態の並列計算機システムの
管理装置では、「STATUS−READ」コマンドに
より、ノード100a〜100cのステータスコードを
読み出し、システムダウンを起こしているノードがあれ
ば、「PROC−RESET」コマンドを送信すること
で、前記のシステムダウンを起こしているノードのメイ
ンプロセッサ202をリセットし、再起動させるオペレ
ーションも可能となる。
In the management apparatus of the parallel computer system according to the present embodiment, the status code of the nodes 100a to 100c is read by the "STATUS-READ" command, and if there is a node in which the system is down, "PROC-RESET" By transmitting the “.” Command, an operation of resetting and restarting the main processor 202 of the node in which the system is down can also be performed.

【0237】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのメイン
プロセッサ202のシステム立ち上げ処理について説明
する。
Hereinafter, the system startup processing of the main processor 202 of each of the nodes 100a to 100c in the management apparatus for the parallel computer system according to the present embodiment will be described.

【0238】図13は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのメイ
ンプロセッサ202のシステム立ち上げ処理手順を示す
フローチャートである。
FIG. 13 is a flowchart showing a system start-up procedure of the main processor 202 of each of the nodes 100a to 100c in the management apparatus for the parallel computer system according to the present embodiment.

【0239】図14は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのSR
AM214のメモリマップを示す図である。図14にお
いて、1400はプライマリブートストラップパス情
報、1401はオルタネートブートストラップパス情報
である。
FIG. 14 shows the SR of the nodes 100a to 100c in the management device of the parallel computer system according to the present embodiment.
It is a figure showing the memory map of AM214. 14, reference numeral 1400 denotes primary bootstrap path information, and 1401 denotes alternate bootstrap path information.

【0240】図14に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのSRAM214のメモリマップは、オペレーティン
グシステム等のソフトウェア203を格納している第1
のブートストラップデバイスを示すプライマリブートス
トラップパス情報1400と、第1のブートストラップ
デバイスが使用できない場合に使用するブートストラッ
プデバイスを示すオルタネートブートストラップパス情
報1401とを備えている。
As shown in FIG. 14, the nodes 100a to 100 in the management apparatus of the parallel computer system according to the present embodiment.
The memory map of the SRAM 214c stores the first software 203 storing the software 203 such as the operating system.
And the alternative bootstrap path information 1401 indicating the bootstrap device to be used when the first bootstrap device cannot be used.

【0241】図13に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのメインプロセッサ202のシステム立ち上げ処理手
順では、管理端末装置104からの電源投入指示により
主電源200が投入されると、メインプロセッサ202
によりブートストラップROM210に格納されている
ブートストラッププログラムが実行され、ステップ13
00の処理にて、SRAM214内のパネルステータス
管理領域のステータスコードを「1000」とし、ステ
ップ1301の処理にて、ノード100a〜100c内
の各ハードウェアモジュールの初期診断及び初期化を行
う。
As shown in FIG. 13, the nodes 100a to 100a in the management apparatus of the parallel computer system according to the present embodiment.
In the system start-up processing procedure of the main processor 202c, when the main power supply 200 is turned on in response to a power-on instruction from the management terminal device 104, the main processor 202
The bootstrap program stored in the bootstrap ROM 210 is executed by the
In the process of 00, the status code of the panel status management area in the SRAM 214 is set to “1000”, and in the process of step 1301, the initial diagnosis and initialization of each hardware module in the nodes 100a to 100c are performed.

【0242】ステップ1302の処理では、ステップ1
301の処理のハードウェアの初期診断及び初期化が正
常終了したかどうかをチェックし、ステップ1301の
処理でハードウェアの初期診断及び初期化が正常終了し
ている場合には、ステップ1303の処理に進む。
In the processing of step 1302, step 1
It is checked whether or not the initial diagnosis and initialization of the hardware in the processing of 301 have been completed normally. If the initial diagnosis and initialization of the hardware have been normally completed in the processing of step 1301, the processing of step 1303 is performed. move on.

【0243】ステップ1301の処理でハードウェアの
初期診断及び初期化が異常終了している場合には、ステ
ップ1313の処理にて、当該ノードに備えられたパネ
ルにステータスコード「1FFF」を表示し、当該ノー
ドのメインプロセッサ202のシステム立ち上げ処理は
異常終了となる。
If the initial diagnosis and initialization of the hardware have been abnormally terminated in the processing of step 1301, the status code "1FFF" is displayed on the panel provided for the node in the processing of step 1313, The system startup process of the main processor 202 of the node ends abnormally.

【0244】ステップ1303の処理では、ステータス
コードを「2000」とし、ステップ1304の処理に
て、SRAM214に格納されているハードウェア依存
情報のうち、図14に示すブートストラップパス情報を
参照し、プライマリブートストラップパス情報1400
にて指定されるブートストラップデバイス(例えば、シ
ステムディスク207等)から、オペレーティングシス
テム等のソフトウェア203をメインメモリ204にロ
ードする。
In the process of step 1303, the status code is set to “2000”, and in the process of step 1304, the hardware-dependent information stored in the SRAM 214 is referred to the bootstrap path information shown in FIG. Bootstrap path information 1400
The software 203 such as an operating system is loaded into the main memory 204 from a bootstrap device (for example, the system disk 207 or the like) specified by the user.

【0245】SRAM214内のブートストラップパス
情報は、ブートストラップROM210に格納されてい
るブートストラッププログラムの実行時にメインメモリ
204内の特定領域にコピーされ、システムが立ち上が
るとソフトウェア203にて参照可能となる。
The bootstrap path information in the SRAM 214 is copied to a specific area in the main memory 204 when a bootstrap program stored in the bootstrap ROM 210 is executed, and can be referred to by the software 203 when the system starts up.

【0246】また、本実施形態の並列計算機システムの
管理装置では、ブートストラップデバイスには、自ノー
ド内のローカルファイルの他にイーサネット経由(シス
テム制御インタフェース)にてbootpプロトコル
(Request For Connectブートのベ
ースとなるプロトコル)を使用し、イーサネットに接続
される他のノードから取得可能となるブートストラップ
ファイルも適用可能である。
In the management apparatus for the parallel computer system according to the present embodiment, the bootstrap device includes a base file of a bootp protocol (Request For Connect boot) via an Ethernet (system control interface) in addition to a local file in the own node. A bootstrap file that can be obtained from another node connected to the Ethernet using the same protocol is also applicable.

【0247】ステップ1305の処理では、プライマリ
ブートストラップパス情報1400にて指定されるブー
トストラップデバイスからオペレーティングシステム等
のソフトウェア203をメインメモリ204にロードす
るロード処理が正常終了したかどうかをチェックしてお
り、前記のロード処理に成功すると、ステップ1306
の処理に進み、失敗するとステップ1314の処理に進
む。
In the processing of step 1305, it is checked whether or not the load processing for loading the software 203 such as the operating system from the bootstrap device designated by the primary bootstrap path information 1400 into the main memory 204 has been completed normally. If the loading process is successful, step 1306
If it fails, the process proceeds to step 1314.

【0248】ステップ1306の処理にて、ステータス
コードを「3000」とし、メインメモリ204にロー
ドされたソフトウェア203が起動され、ステップ13
07の処理でステータスコードを「A000」とし、ス
テップ1308の処理にて各種システムパラメータを設
定し、ステップ1309の処理にて、ファイルシステム
の初期化を行い、ステップ1310の処理にて、TCP
/IPなどのネットワークの初期化を行う。
In the process of step 1306, the status code is set to “3000”, and the software 203 loaded in the main memory 204 is started.
In step 07, the status code is set to "A000". In step 1308, various system parameters are set. In step 1309, the file system is initialized. In step 1310, TCP is set.
Initialize the network such as / IP.

【0249】本実施形態の並列計算機システムの管理装
置では、ノード100a〜100cのメインプロセッサ
202で動作するオペレーティングシステム及びネット
ワークソフトウェア等のソフトウェア203の機能を使
用するシステム運用支援インタフェースは、この時点で
使用可能となる。
In the management apparatus for the parallel computer system of the present embodiment, the system operation support interface using the functions of the software 203 such as the operating system and network software operated by the main processor 202 of the nodes 100a to 100c is used at this time. It becomes possible.

【0250】ステップ1311の処理にて、アプリケー
ションソフトウェアの起動を行い、ステップ1312の
処理にてステータスコードを「F000」とし、メイン
プロセッサ202のシステム立ち上げ処理を終了する。
In step 1311, the application software is started. In step 1312, the status code is set to “F000”, and the system start-up process of the main processor 202 ends.

【0251】一方、ステップ1314の処理では、SR
AM214内のオルタネートブートストラップパス情報
1401を参照し、オルタネートブートストラップパス
情報1401にて指定されるブートストラップデバイス
(本実施形態の並列計算機システムの管理装置では特に
開示していないが、DAT(Digital Audi
o Tape)等の入出力装置)からのオペレーティン
グシステム等のソフトウェア203をメインメモリ20
4にロードする。
On the other hand, in the process of step 1314, the SR
The bootstrap device specified in the alternate bootstrap path information 1401 is referred to by referring to the alternate bootstrap path information 1401 in the AM 214 (the DAT (Digital Audio) is not particularly disclosed in the management apparatus of the parallel computer system of the present embodiment.
o) and software 203 such as an operating system from the input / output device (e.g., Tape).
Load 4

【0252】ステップ1315の処理にて、オルタネー
トブートストラップパス情報1401にて指定されるブ
ートストラップデバイスからのロードに成功したかどう
かをチェックし、成功するとステップ1306の処理に
進む。
In the processing of step 1315, it is checked whether or not loading from the bootstrap device specified by the alternate bootstrap path information 1401 has been successful. If the loading has succeeded, the flow proceeds to the processing of step 1306.

【0253】ステップ1315の処理にて、オルタネー
トブートストラップパス情報1401にて指定されるブ
ートストラップデバイスからのロードが成功しない場
合、ステップ1316の処理にて、オペレータによるブ
ートストラップデバイス指定によりロード処理を行う。
If the loading from the bootstrap device specified by the alternate bootstrap path information 1401 does not succeed in the processing of step 1315, the loading processing is performed by the operator by specifying the bootstrap device in the processing of step 1316. .

【0254】ステップ1317の処理にて、ステップ1
316の処理でのオペレータのブートストラップデバイ
ス指定によるロード処理が正常終了したかどうかをチェ
ックし、正常終了している場合にはステップ1306の
処理に進み、正常終了していない場合には、ステップ1
318の処理にて、ステータスコードを「2FFF」と
し、メインプロセッサ202のシステム立ち上げ処理が
異常終了する。
In the processing of step 1317, step 1
It is checked whether or not the loading process by the operator by specifying the bootstrap device in the process of 316 has been completed normally. If the loading process has been completed normally, the process proceeds to step 1306. If not, the process proceeds to step 1306.
In the process of 318, the status code is set to “2FFF”, and the system startup process of the main processor 202 ends abnormally.

【0255】前記の様にして行ったノード100a〜1
00cのメインプロセッサ202のシステム立ち上げ処
理が異常終了した場合には、さらに、以下の様に、ブー
トストラップデバイスを変更したシステム立ち上げ処理
を行う。
The nodes 100a to 100a-1 performed as described above
If the system startup process of the main processor 202 at 00c ends abnormally, the system startup process with a changed bootstrap device is further performed as follows.

【0256】管理端末装置104のソフトウェア301
は、「MS−READ」コマンドを使用して、システム
制御インタフェース経由にて、ノード100a〜100
cのメインメモリ204のブートストラップパス情報が
格納されている前記特定領域を参照し、メインプロセッ
サ202のシステム立ち上げ処理に失敗したブートスト
ラップデバイスを確認する。
Software 301 of management terminal device 104
Are connected to the nodes 100a to 100a via the system control interface using the "MS-READ" command.
The bootstrap device in which the main processor 202 has failed in the system start-up process is checked by referring to the specific area in the main memory 204 of FIG.

【0257】次に、管理端末装置104のソフトウェア
301は、「MS−WRITE」コマンドを使用し、シ
ステム制御インタフェース経由にて、ノード100a〜
100cのメインメモリ204のブートストラップパス
情報が格納されている前記特定領域に、メインプロセッ
サ202のシステム立ち上げ処理に失敗したブートスト
ラップデバイス以外のブートストラップデバイス名を書
き込む。
Next, the software 301 of the management terminal device 104 uses the “MS-WRITE” command and sends the information to the nodes 100a to 100d via the system control interface.
A bootstrap device name other than the bootstrap device for which the main processor 202 failed to start up the system is written in the specific area of the main memory 204 of the main memory 204 where the bootstrap path information is stored.

【0258】管理端末装置104のソフトウェア301
は、前記の様に、ノード100a〜100cのメインメ
モリ204の前記特定領域のブートストラップパス情報
を書き替えた後、「PROC−RESET」コマンドを
使用し、ノード100a〜100cのメインプロセッサ
202をリセットしてメインプロセッサ202のシステ
ム立ち上げ処理を再度行うことで、ブートストラップ先
を変更したシステム立ち上げ処理を行うことが出来る。
The software 301 of the management terminal device 104
Resets the main processor 202 of the nodes 100a to 100c using the "PROC-RESET" command after rewriting the bootstrap path information of the specific area of the main memory 204 of the nodes 100a to 100c as described above. Then, the system startup process of the main processor 202 is performed again, whereby the system startup process in which the bootstrap destination is changed can be performed.

【0259】また、ブートストラップパス情報の書き換
えについては、ノード100a〜100cのメインプロ
セッサ202のシステム立ち上げ処理が正常終了してい
る場合には、以下の方法でも可能である。
Rewriting of the bootstrap path information can also be performed by the following method when the system startup processing of the main processor 202 of each of the nodes 100a to 100c has been completed normally.

【0260】すなわち、ノード100a〜100cのS
RAM214のブートストラップパス情報は、ノード1
00a〜100cのソフトウェア203からも書き換え
可能であるので、管理端末装置104のソフトウェア3
01は、システム運用支援インタフェース経由にて、ノ
ード100a〜100cのソフトウェア203に対し、
ブートストラップパス情報の書き換えを指示し、指示さ
れたソフトウェア203が当該ノードのブートストラッ
プパス情報を書き替える。
That is, S of the nodes 100a to 100c
The bootstrap path information of the RAM 214 is stored in the node 1
Since the software 203 of the management terminal device 104 can be rewritten from the software 203 of the management terminal device 104,
01 is transmitted to the software 203 of the nodes 100a to 100c via the system operation support interface.
An instruction is given to rewrite the bootstrap path information, and the instructed software 203 rewrites the bootstrap path information of the node.

【0261】ノード100a〜100cのソフトウェア
203は、更新されたブートストラップパス情報をシス
テム制御インタフェース経由にて管理端末装置104の
ソフトウェア301に通知し、管理端末装置104のソ
フトウェア301が、システム制御インタフェース経由
にて、前記「PROC−RESET」コマンドを使用し
てノード100a〜100cのメインプロセッサ202
をリセットすれば、直ちに更新されたブートストラップ
パスからのロード処理が行われる。
The software 203 of the nodes 100a to 100c notifies the updated bootstrap path information to the software 301 of the management terminal device 104 via the system control interface, and the software 301 of the management terminal device 104 transmits the updated bootstrap path information via the system control interface. The main processor 202 of each of the nodes 100a to 100c using the “PROC-RESET” command
Is reset, the load process from the updated bootstrap path is performed immediately.

【0262】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、管理端末装置104か
らの指示によりノード100a〜100cのメインメモ
リ204またはレジスタの内容を参照または更新するの
で、並列計算機システムを構成する複数のノード100
a〜100cの障害発生時のメインメモリ204の内容
を管理端末装置104で一括して管理することが可能で
ある。
As described above, according to the management device of the parallel computer system of the present embodiment, the contents of the main memory 204 or the registers of the nodes 100a to 100c are referred to or updated by the instruction from the management terminal device 104. A plurality of nodes 100 constituting a parallel computer system
The contents of the main memory 204 at the time of occurrence of a failure in a to 100c can be collectively managed by the management terminal device 104.

【0263】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの指示によ
りノード100a〜100cのメインプロセッサ202
のリセットを行うので、並列計算機システムを構成する
複数のノード100a〜100cのメインプロセッサ2
02のリセットを管理端末装置104から一括して行う
ことが可能である。
Further, according to the management apparatus of the parallel computer system of the present embodiment, the main processor 202 of each of the nodes 100a to 100c is instructed by the management terminal device 104.
Of the main processor 2 of the plurality of nodes 100a to 100c constituting the parallel computer system.
02 can be collectively performed from the management terminal device 104.

【0264】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104は、ノード10
0a〜100cとの間のインタフェースを使い分けるこ
とが可能であり、管理端末装置104からの指示により
ノード100a〜100cのメインメモリ204のブー
トストラップパス情報を変更し、メインプロセッサ20
2のリセットを行うので、並列計算機システムを構成す
る複数のノード100a〜100cの特定のブートスト
ラップデバイスに障害が発生した場合に、管理端末装置
104からの指示により、ブートストラップデバイスを
変更してノード100a〜100cのメインプロセッサ
202のシステム立ち上げ処理を行うことが可能であ
る。
According to the management apparatus for a parallel computer system of the present embodiment, the management terminal device 104
0a to 100c, the bootstrap path information in the main memory 204 of the nodes 100a to 100c can be changed according to an instruction from the management terminal device 104, and the main processor 20
2 is performed, when a failure occurs in a specific bootstrap device of a plurality of nodes 100a to 100c configuring the parallel computer system, the bootstrap device is changed according to an instruction from the management terminal device 104 to change the node. It is possible to perform the system start-up processing of the main processors 202 of 100a to 100c.

【0265】(実施形態5)以下に、本発明の並列計算
機システムの管理装置において、複数の管理端末装置を
用いて信頼性を向上させた実施形態5の概略構成につい
て説明する。
(Embodiment 5) The following describes a schematic configuration of Embodiment 5 in which the reliability of a management device for a parallel computer system of the present invention is improved using a plurality of management terminal devices.

【0266】図15は、本発明の並列計算機システムの
管理装置において、管理端末装置を二重化した実施形態
5の概略構成を示す図である。図15において、105
eはシステム制御機構、106eは通信ケーブル、10
8eはLAN制御機構、109eは通信ケーブル、11
1は管理端末装置である。
FIG. 15 is a diagram showing a schematic configuration of the fifth embodiment in which the management terminal device is duplicated in the management device of the parallel computer system of the present invention. In FIG.
e is a system control mechanism, 106e is a communication cable, 10
8e is a LAN control mechanism, 109e is a communication cable, 11
Reference numeral 1 denotes a management terminal device.

【0267】図15に示す様に、本実施形態の並列計算
機システムの管理装置は、管理端末装置111と、通信
ケーブル106eと、通信ケーブル109eとを備え、
管理端末装置111は、システム制御機構105eと、
LAN制御機構108eとを有しており、管理端末装置
111のシステム制御機構105eを通信ケーブル10
6eを介してネットワーク集線装置107に接続し、管
理端末装置111のLAN制御機構108eを通信ケー
ブル109eを介してネットワーク集線装置110に接
続している。
As shown in FIG. 15, the management device of the parallel computer system according to the present embodiment includes a management terminal device 111, a communication cable 106e, and a communication cable 109e.
The management terminal device 111 includes a system control mechanism 105e,
And a system control mechanism 105e of the management terminal device 111.
6e, it is connected to the network concentrator 107, and the LAN control mechanism 108e of the management terminal device 111 is connected to the network concentrator 110 via the communication cable 109e.

【0268】前記の様に、本実施形態の並列計算機シス
テムの管理装置では、複数の管理端末装置104及び1
11を備えているので、1つの管理端末装置が故障して
も、他の管理端末装置により、並列計算機システムの運
用管理を続行することが可能であるが、複数の管理端末
装置を同時に使用して並列計算機システムの運用管理を
行うと、複数の管理端末装置が送信するシステム制御コ
マンドやアダプタ制御コマンドの内容が互いに競合する
ことがあるので、複数の管理端末装置を用いているとき
に管理端末装置の動作の競合を防止する処理が必要にな
る。
As described above, in the management apparatus of the parallel computer system according to the present embodiment, a plurality of management terminal apparatuses 104 and 1
11, the management of the parallel computer system can be continued by another management terminal even if one management terminal fails. When the operation management of the parallel computer system is performed, the contents of the system control command and the adapter control command transmitted by the plurality of management terminal devices may conflict with each other. It is necessary to perform a process for preventing contention of operation of the device.

【0269】以下に、本実施形態の並列計算機システム
の管理装置において複数の管理端末装置を用いていると
きに管理端末装置の動作の競合を防止する処理手順につ
いて説明する。
In the following, a description will be given of a processing procedure for preventing contention between operations of the management terminal devices when a plurality of management terminal devices are used in the management device of the parallel computer system of the present embodiment.

【0270】図16は、本実施形態の並列計算機システ
ムの管理装置において複数の管理端末装置の動作の競合
を防止する処理手順を示すフローチャートである。
FIG. 16 is a flowchart showing a processing procedure for preventing a conflict between the operations of a plurality of management terminal devices in the management device of the parallel computer system according to the present embodiment.

【0271】本実施形態の並列計算機システムの管理装
置において、管理端末装置を二重化している場合には、
管理端末装置の二重化情報を、例えば、管理端末装置1
04及び管理端末装置111の両方のソフトウェア30
1から参照可能な記憶領域に予め設定しておくことで、
二重化した管理端末装置の競合を防止することが可能と
なる。
In the management device of the parallel computer system of the present embodiment, when the management terminal device is duplicated,
The duplication information of the management terminal device is stored in, for example, the management terminal device 1.
04 and the software 30 of the management terminal device 111
By setting in advance to a storage area that can be referenced from 1,
It is possible to prevent contention between duplicated management terminal devices.

【0272】図16に示す様に、本実施形態の並列計算
機システムの管理装置において管理端末装置を二重化し
ているときの処理手順では、ステップ1600の処理
で、管理端末装置104及び管理端末装置111の両方
のソフトウェア301は、管理端末装置が二重化されて
いることを示す二重化ビットを参照し、ビットが立って
いる場合には、管理端末装置が二重化されていることを
認識する。
As shown in FIG. 16, in the processing procedure when the management terminal device is duplicated in the management device of the parallel computer system of the present embodiment, the management terminal device 104 and the management terminal device 111 are processed in step 1600. Both software 301 refer to the duplication bit indicating that the management terminal device is duplicated, and when the bit is set, recognize that the management terminal device is duplicated.

【0273】ステップ1601の処理では、ネットワー
ク(例えば、システム運用支援インタフェース)経由に
て、相手の管理端末装置のIPアドレスを取得する。
In the processing of step 1601, the IP address of the partner management terminal device is obtained via a network (for example, a system operation support interface).

【0274】ステップ1602の処理では、メイン管理
端末装置と、前記メイン管理端末装置をバックアップす
るサブ管理端末装置とを決定するため、例えば、IPア
ドレスの若い方をメイン管理端末装置、そうでない方を
サブ管理端末装置とする。
In the process of step 1602, in order to determine the main management terminal device and the sub-management terminal device for backing up the main management terminal device, for example, the one with the smaller IP address is determined as the main management terminal device, A sub-management terminal device.

【0275】このとき、メイン管理端末装置のみを動作
させておき、前記メイン管理端末装置に障害が発生した
ときに、直ちにサブ管理端末装置に切り替える運用方法
と、メイン管理端末装置とサブ管理端末装置とを同時に
動作させる運用方法とを行うことが可能であるが、後者
の場合は、双方からのノード100a〜100cを制御
するシステム制御コマンドや、アダプタ制御コマンドの
内容が競合することがあるため、サブ管理端末装置から
送信可能なシステム制御コマンド及びアダプタ制御コマ
ンドを一部制限する。
At this time, only the main management terminal is operated, and when a failure occurs in the main management terminal, an operation method for immediately switching to the sub management terminal is described. And the operation method of operating both at the same time, but in the latter case, the contents of the system control command for controlling the nodes 100a to 100c and the contents of the adapter control command from both sides may conflict with each other. The system control command and the adapter control command that can be transmitted from the sub-management terminal device are partially restricted.

【0276】例えば、ステップ1603の処理にて、自
管理端末装置がメイン管理端末装置であるかどうかを判
定し、メイン管理端末装置でなかった場合には、ステッ
プ1604の処理にて、システム制御コマンド(「P−
ON」「P−OFF」等)や、また、アダプタ制御コマ
ンド(「SET−CONNECT」等)を発行禁止にす
ることで、ノード100a〜100cを制御するシステ
ム制御コマンドや、アダプタ制御コマンドの内容が競合
しても、並列計算機システムとしての整合性を保つこと
が可能である。
For example, in the process of step 1603, it is determined whether or not the self-management terminal device is the main management terminal device. If the self-management terminal device is not the main management terminal device, the system control command is executed in the process of step 1604. ("P-
ON, P-OFF, etc.) and the adapter control command (“SET-CONNECT”, etc.) are prohibited from being issued, so that the contents of the system control command for controlling the nodes 100a to 100c and the adapter control command can be changed. Even if there is a conflict, it is possible to maintain consistency as a parallel computer system.

【0277】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、複数の管理端末装置を
備えているので、1つの管理端末装置に障害が発生した
場合でも並列計算機システムの運用管理を続行し、並列
計算機システムの信頼性を向上させることが可能であ
る。
As described above, according to the management apparatus for a parallel computer system of the present embodiment, since a plurality of management terminal apparatuses are provided, even if a failure occurs in one management terminal apparatus, the parallel computer system can be used. It is possible to continue operation management and improve the reliability of the parallel computer system.

【0278】また、本実施形態の並列計算機システムの
管理装置によれば、複数の管理端末装置にメイン管理端
末装置とサブ管理端末装置とを設定するので、並列計算
機システムを複数の管理端末装置で管理した場合に、前
記複数の管理端末装置の動作の競合を防止することが可
能である。
Further, according to the management apparatus for a parallel computer system of the present embodiment, the main management terminal apparatus and the sub management terminal apparatus are set in the plurality of management terminal apparatuses, so that the parallel computer system can be managed by the plurality of management terminal apparatuses. When the management is performed, it is possible to prevent a conflict between the operations of the plurality of management terminal devices.

【0279】(実施形態6)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104に
補助電源で動作する電源投入論理を付加し、管理端末装
置104の主電源を遠隔地から投入することにより並列
計算機システムの主電源の投入を行う実施形態6につい
て説明する。
(Embodiment 6) In the management apparatus for a parallel computer system according to the present invention, a power-on logic operating with an auxiliary power supply is added to the management terminal apparatus 104, and the main power supply of the management terminal apparatus 104 is changed from a remote place. A sixth embodiment in which the main power of the parallel computer system is turned on by turning on the power will be described.

【0280】図17は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104に補助電源で
動作する電源投入論理を付加した場合の管理端末装置内
のハードウェアの概略構成を示す図である。図17にお
いて、1700は補助電源、1701は電源投入論理、
1702は電源制御信号、1703は主電源、1704
は端末装置、1705はネットワークである。
FIG. 17 is a diagram showing a schematic configuration of hardware in the management terminal device when a power-on logic operating on an auxiliary power supply is added to the management terminal device 104 in the management device of the parallel computer system of the present embodiment. is there. In FIG. 17, 1700 is an auxiliary power supply, 1701 is a power-on logic,
1702 is a power supply control signal, 1703 is a main power supply, 1704
Is a terminal device, and 1705 is a network.

【0281】図17に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104は、
補助電源1700と、電源投入論理1701と、主電源
1703とを備え、補助電源1700から電力の供給を
受けている電源投入論理1701を電源制御信号170
2を介して主電源1703に接続すると共にネットワー
ク1705を介して別の端末装置1704に接続してい
る。
As shown in FIG. 17, the management terminal device 104 in the management device of the parallel computer system according to the present embodiment comprises:
An auxiliary power supply 1700, a power-on logic 1701, and a main power supply 1703 are provided.
2 and to another terminal device 1704 via the network 1705.

【0282】図17に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104は、
補助電源1700で動作する電源投入論理1701を設
けており、電源投入論理1701は、ここでは特に図示
していないが、ネットワーク制御部、電源制御部及びマ
イクロプロセッサ等から構成されており、ネットワーク
1705経由で電源制御指示を受け取ると、主電源17
03を制御する論理回路を備えている。
As shown in FIG. 17, the management terminal device 104 in the management device of the parallel computer system according to the present embodiment comprises:
A power-on logic 1701 that operates on the auxiliary power supply 1700 is provided. The power-on logic 1701 includes a network control unit, a power control unit, a microprocessor, and the like (not shown). When the power supply control instruction is received by the
03 is provided.

【0283】この電源投入論理1701により、例えば
下記のような管理端末装置104の遠隔オペレーション
が可能となる。
The power-on logic 1701 enables the following remote operation of the management terminal device 104, for example.

【0284】本実施形態の並列計算機システムの管理装
置において、ネットワーク1705で接続された別の端
末装置1704は、例えばtelnetプロトコルを使
用して、電源投入論理1701にログインする。(この
時、管理端末装置104には補助電源1700が投入さ
れている状態である。)次に、端末装置1704は、電
源投入論理1701にパワーオンコマンドを発行する。
電源投入論理1701は、パワーオンコマンドを受け取
ると、外部から電源投入指示があったことを認識し、電
源制御信号1702を出力し、管理端末装置104の主
電源1703を投入する。
In the management apparatus for the parallel computer system of this embodiment, another terminal device 1704 connected via the network 1705 logs in to the power-on logic 1701 using, for example, the telnet protocol. (At this time, the auxiliary power supply 1700 has been turned on to the management terminal device 104.) Next, the terminal device 1704 issues a power-on command to the power-on logic 1701.
Upon receiving the power-on command, the power-on logic 1701 recognizes that an external power-on instruction has been issued, outputs a power control signal 1702, and turns on the main power 1703 of the management terminal device 104.

【0285】管理端末装置104の主電源1703が投
入されると、ブートストラップROM303に格納され
ているブートストラッププログラムが管理端末装置10
4のシステム立ち上げ処理を行い、ソフトウェア301
を起動する。
When the main power supply 1703 of the management terminal device 104 is turned on, the bootstrap program stored in the bootstrap ROM 303 stores the bootstrap program in the management terminal device 10.
4 performs the system start-up processing, and the software 301
Start

【0286】図18は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104のシェルプロ
グラムの一例を示す図である。ここで、シェルプログラ
ムとは、汎用のオペレーティングシステムであるUNI
Xで実行される複数のコマンド名またはプログラム名を
記載した、一連の手続きを行うプログラムを指すが、図
18においては、UNIXのコマンド名またはプログラ
ム名の代わりに、そのコマンドの機能を簡単に記載して
いる。
FIG. 18 is a diagram showing an example of a shell program of the management terminal device 104 in the management device of the parallel computer system according to the present embodiment. Here, the shell program is UNI, which is a general-purpose operating system.
X refers to a program that performs a series of procedures and describes a plurality of command names or program names to be executed in X. In FIG. 18, instead of UNIX command names or program names, functions of the commands are simply described. are doing.

【0287】図18に示す様に、本実施形態の並列計算
機システムの管理装置の管理端末装置104のシステム
立ち上げ処理の際に実行されるシェルプログラムに、予
め、ノード100a〜100cの主電源200を投入指
示するシステム制御コマンドを記載しておき、管理端末
装置104の主電源1703が投入されたときに、この
シェルプログラムが実行されるようにしておく。
As shown in FIG. 18, the shell program executed at the time of the system start-up process of the management terminal device 104 of the management device of the parallel computer system according to the present embodiment includes in advance the main power supply 200 of the nodes 100a to 100c. A system control command for instructing the management terminal device 104 to be turned on is described, and this shell program is executed when the main power supply 1703 of the management terminal device 104 is turned on.

【0288】このようにすることで管理端末装置104
の起動を契機として、ノード100a〜100cの主電
源200を投入し、ノード100a〜100cのメイン
プロセッサ202のシステム立ち上げ処理を自動的に行
うことが可能である。
By doing so, the management terminal device 104
, The main power supply 200 of the nodes 100a to 100c is turned on, and the system start-up process of the main processor 202 of the nodes 100a to 100c can be automatically performed.

【0289】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、遠隔地からのアクセス
により管理端末装置104の主電源1703を投入し、
さらにノード100a〜100cの起動(主電源200
の投入)が可能となり、並列計算機システムの運用管理
を遠隔地から行うことができる。
As described above, according to the management apparatus for a parallel computer system of the present embodiment, the main power supply 1703 of the management terminal device 104 is turned on by access from a remote place,
Further, activation of the nodes 100a to 100c (main power supply 200
), And operation and management of the parallel computer system can be performed from a remote place.

【0290】以上、説明してきた本実施形態の並列計算
機システムの管理装置では、特に図示していないが、下
記のようなシステムにも適用可能である。
The management apparatus for a parallel computer system according to the present embodiment described above is not particularly shown, but can be applied to the following system.

【0291】(1)各ノードに汎用のオペレーティング
システムを搭載していない、特定の機能を実行する専用
の並列計算機システムにおいては、汎用のオペレーティ
ングシステムのネットワーク機能を使用しない前記シス
テム制御インタフェースのみを用いて運用管理を行う。
(1) In a dedicated parallel computer system which does not have a general-purpose operating system on each node and executes a specific function, only the system control interface which does not use the network function of the general-purpose operating system is used. Perform operation management.

【0292】本発明の並列計算機システムの管理装置に
よれば、前記システム制御インタフェースは、運用管理
の対象となるプロセッサとは独立した補助電源とネット
ワーク機能を備えており、汎用のオペレーティングシス
テムのTCP/IP等のネットワーク機能を使用しない
ので、前記汎用のオペレーティングシステムを搭載して
いない専用の並列計算機システムにおいても適用するこ
とが可能である。
According to the management apparatus for a parallel computer system of the present invention, the system control interface has an auxiliary power supply and a network function that are independent of the processor to be managed and managed. Since a network function such as an IP is not used, the present invention can be applied to a dedicated parallel computer system not equipped with the general-purpose operating system.

【0293】(2)各ノードに補助電源で動作する機能
を持たない、或いは補助電源で動作する機能が限定され
ている様な並列計算機システムにおいては、補助電源を
使用しない前記システム運用支援インタフェースのみを
用いて管理を行う。
(2) In a parallel computer system in which each node does not have a function of operating with an auxiliary power supply or has a limited function of operating with an auxiliary power supply, only the system operation support interface which does not use an auxiliary power supply Is managed using.

【0294】この場合には、主電源の投入等、補助電源
を必須とする機能を除き、システム制御インタフェース
の機能をシステム運用支援インタフェースによって代行
することにより、本発明の並列計算機システムの管理装
置を適用することが可能である。
In this case, the function of the system control interface is substituted by the system operation support interface except for the function that requires an auxiliary power supply such as turning on the main power supply, so that the parallel computer system management device of the present invention can be used. It is possible to apply.

【0295】以上、本発明を、前記実施形態に基づき具
体的に説明したが、本発明は、前記実施形態に限定され
るものではなく、その要旨を逸脱しない範囲において種
々変更可能であることは勿論である。
As described above, the present invention has been specifically described based on the above-described embodiment. However, the present invention is not limited to the above-described embodiment, and may be variously modified without departing from the gist thereof. Of course.

【0296】[0296]

【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば、下
記のとおりである。
The effects obtained by the representative ones of the inventions disclosed in the present application will be briefly described as follows.

【0297】(1)複数のノードの補助電源で動作し、
メインプロセッサが使用するネットワークソフトウェア
及び通信ケーブルとは別のネットワークソフトウェア及
び通信ケーブルを使用して管理端末装置と通信を行うシ
ステム制御機構に対し、前記管理端末装置からシステム
制御コマンドを送信し、前記システム制御コマンドを前
記補助電源で動作するサブプロセッサで実行することよ
り複数のノードのメインプロセッサの制御を行うので、
並列処理を実行するメインプロセッサの動作並びに前記
メインプロセッサのオペレーティングシステム及びネッ
トワークソフトウェアの動作とは無関係に、並列計算機
システムを構成する複数のノードの運用管理を管理端末
装置で一括して行うことが可能である。
(1) Operate with auxiliary power supplies of a plurality of nodes,
Transmitting a system control command from the management terminal device to a system control mechanism that communicates with the management terminal device using network software and a communication cable different from the network software and communication cable used by the main processor; Since the main processor of a plurality of nodes is controlled by executing the control command in the sub-processor operated by the auxiliary power supply,
Regardless of the operation of the main processor executing the parallel processing and the operation of the operating system and network software of the main processor, the operation management of a plurality of nodes constituting the parallel computer system can be collectively performed by the management terminal device. It is.

【0298】(2)管理端末装置からの指示により複数
のノードの主電源の投入または切断を行うので、並列計
算機システムを構成する複数のノードの電源の投入また
は切断を管理端末装置で一括または個別に行うことが可
能である。
(2) Since the main power of a plurality of nodes is turned on or off in accordance with an instruction from the management terminal device, the turning on or off of a plurality of nodes constituting the parallel computer system is collectively or individually performed by the management terminal device. It is possible to do.

【0299】(3)複数のノードへの主電源の投入指示
を、予め設定された特定の時間間隔で行うので、並列計
算機システムに電力を供給する電源設備の突入電流を低
く抑えることが可能である。
(3) Since an instruction to turn on the main power supply to a plurality of nodes is given at a predetermined specific time interval, the rush current of the power supply equipment for supplying power to the parallel computer system can be suppressed low. is there.

【0300】(4)管理端末装置からの特定のシステム
制御コマンドに対する正常なレスポンスが一定時間中に
受信されるかどうかを調べるので、並列計算機システム
を構成する複数のノードが正常に動作中であるかを管理
端末装置で監視することが可能である。
(4) It is checked whether or not a normal response to a specific system control command from the management terminal device is received within a predetermined time, so that a plurality of nodes constituting the parallel computer system are operating normally. Can be monitored by the management terminal device.

【0301】(5)特定のノードのメインプロセッサま
たはサブプロセッサが動作時に出力するノードメッセー
ジを蓄積し、管理端末装置が前記の蓄積されたノードメ
ッセージを読み取るので、並列計算機システムを構成す
る複数のノードのメインプロセッサがノードメッセージ
を出力した後にその動作を停止した場合であっても、前
記ノードメッセージを管理端末装置で一括して管理する
ことが可能である。
(5) Since the main processor or the sub-processor of a specific node accumulates node messages output during operation and the management terminal reads the accumulated node messages, a plurality of nodes constituting the parallel computer system are stored. Even when the main processor outputs the node message and stops its operation, the node message can be collectively managed by the management terminal device.

【0302】(6)管理端末装置からの指示によりノー
ドのメインメモリまたはレジスタの内容を参照または更
新するので、並列計算機システムを構成する複数のノー
ドの障害発生時のメインメモリ及びレジスタの内容を管
理端末装置で一括して管理することが可能である。
(6) Since the contents of the main memory or the register of the node are referred to or updated according to the instruction from the management terminal device, the contents of the main memory and the register when a failure occurs in a plurality of nodes constituting the parallel computer system are managed. It can be managed collectively by the terminal device.

【0303】(7)管理端末装置からの指示により複数
のノードのメインプロセッサのリセットを行うので、並
列計算機システムを構成する複数のノードのメインプロ
セッサのリセットを管理端末装置から一括して行うこと
が可能である。
(7) Since the main processors of a plurality of nodes are reset in accordance with an instruction from the management terminal device, the reset of the main processors of a plurality of nodes constituting the parallel computer system can be collectively performed from the management terminal device. It is possible.

【0304】(8)管理端末装置からの指示により複数
のノードのメインメモリ中のブートストラップパス情報
を変更し、メインプロセッサのリセットを行うので、並
列計算機システムを構成する複数のノードの特定のブー
トストラップデバイスに障害が発生した場合に、管理端
末装置からの指示により、ブートストラップデバイスを
変更して前記複数のノードのメインプロセッサのシステ
ム立ち上げ処理を行うことが可能である。
(8) Since the bootstrap path information in the main memory of a plurality of nodes is changed and the main processor is reset according to an instruction from the management terminal device, a specific boot of a plurality of nodes constituting the parallel computer system is performed. When a failure occurs in the strap device, it is possible to change the bootstrap device and perform system startup processing of the main processors of the plurality of nodes according to an instruction from the management terminal device.

【0305】(9)複数の管理端末装置を備えることも
可能であるので、1つの管理端末装置に障害が発生した
場合でも並列計算機システムの運用管理を続行すること
が可能であり、複数の管理端末装置をメイン管理端末装
置とサブ管理端末装置とに設定するので、並列計算機シ
ステムを複数の管理端末装置で管理した場合に、前記複
数の管理端末装置の動作の競合を防止することが可能で
ある。
(9) Since a plurality of management terminal devices can be provided, even if a failure occurs in one management terminal device, the operation management of the parallel computer system can be continued, and a plurality of management terminal devices can be managed. Since the terminal device is set as the main management terminal device and the sub-management terminal device, when the parallel computer system is managed by a plurality of management terminal devices, it is possible to prevent a conflict between the operations of the plurality of management terminal devices. is there.

【0306】(10)遠隔地からのアクセスにより管理
端末装置の主電源を投入し、さらに複数のノードの主電
源を投入するので、並列計算機システムの運用管理を遠
隔地から行うことが可能である。
(10) Since the main power of the management terminal device is turned on and the main power of a plurality of nodes is turned on by access from a remote place, the operation management of the parallel computer system can be performed from a remote place. .

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の並列計算機システムの管理装置を実施
する実施形態1の概略構成を示す図である。
FIG. 1 is a diagram showing a schematic configuration of a first embodiment for implementing a management device of a parallel computer system of the present invention.

【図2】実施形態1の並列計算機システムの管理装置に
おいて並列計算機システムを構成するノードの概略構成
を示す図である。
FIG. 2 is a diagram illustrating a schematic configuration of a node configuring the parallel computer system in the management device of the parallel computer system according to the first embodiment.

【図3】実施形態1の並列計算機システムの管理装置に
おける管理端末装置の概略構成を示す図である。
FIG. 3 is a diagram illustrating a schematic configuration of a management terminal device in the management device of the parallel computer system according to the first embodiment.

【図4】実施形態1の並列計算機システムの管理装置に
おける管理端末装置と各ノードとの通信シーケンスの一
例を示す図である。
FIG. 4 is a diagram illustrating an example of a communication sequence between a management terminal device and each node in the management device of the parallel computer system according to the first embodiment.

【図5】実施形態1の並列計算機システムの管理装置に
おけるアダプタ制御コマンド及びそのレスポンスのパケ
ットフォーマットを示す図である。
FIG. 5 is a diagram illustrating a packet format of an adapter control command and its response in the management device of the parallel computer system according to the first embodiment.

【図6】実施形態1の並列計算機システムの管理装置に
おけるシステム制御コマンド及びそのレスポンスのパケ
ットフォーマットを示す図である。
FIG. 6 is a diagram illustrating a packet format of a system control command and its response in the management device of the parallel computer system according to the first embodiment.

【図7】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構のモード遷移を示す図である。
FIG. 7 is a diagram illustrating a mode transition of a system control mechanism in the management device of the parallel computer system according to the first embodiment.

【図8】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構の非パケットモードでのコネク
ション状態の遷移を示す図である。
FIG. 8 is a diagram showing transition of a connection state in a non-packet mode of a system control mechanism in the management device of the parallel computer system according to the first embodiment.

【図9】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構のプロセッサの処理手順の一部
を示すフローチャートである。
FIG. 9 is a flowchart illustrating a part of a processing procedure of a processor of a system control mechanism in the management device of the parallel computer system according to the first embodiment.

【図10】実施形態1の並列計算機システムの管理装置
におけるシステムサポート機構のサブプロセッサの処理
手順の一部を示すフローチャートである。
FIG. 10 is a flowchart illustrating a part of a processing procedure of a sub-processor of a system support mechanism in the management device of the parallel computer system according to the first embodiment.

【図11】実施形態2の並列計算機システムの管理装置
における管理端末装置から各ノードへ主電源の投入を指
示する電源投入シーケンスの一例を示す図である。
FIG. 11 is a diagram showing an example of a power-on sequence instructing each node to turn on main power from a management terminal device in the management device of the parallel computer system according to the second embodiment.

【図12】実施形態3の並列計算機システムの管理装置
における管理端末装置に各ノードのノードメッセージを
表示するシーケンスの一例を示す図である。
FIG. 12 is a diagram illustrating an example of a sequence for displaying a node message of each node on a management terminal device in the management device of the parallel computer system according to the third embodiment.

【図13】実施形態4の並列計算機システムの管理装置
におけるノードのメインプロセッサのシステム立ち上げ
処理手順を示すフローチャートである。
FIG. 13 is a flowchart illustrating a system startup processing procedure of a main processor of a node in the management device for the parallel computer system according to the fourth embodiment.

【図14】実施形態4の並列計算機システムの管理装置
におけるノード内のSRAM内のメモリマップを示す図
である。
FIG. 14 is a diagram illustrating a memory map in an SRAM in a node in the management device of the parallel computer system according to the fourth embodiment.

【図15】本発明の並列計算機システムの管理装置にお
いて管理端末装置を二重化した実施形態5の概略構成を
示す図である。
FIG. 15 is a diagram illustrating a schematic configuration of a fifth embodiment in which a management terminal device is duplicated in the management device of the parallel computer system of the present invention.

【図16】実施形態5の並列計算機システムの管理装置
において複数の管理端末装置の動作の競合を防止する処
理手順を示すフローチャートである。
FIG. 16 is a flowchart illustrating a processing procedure for preventing contention between operations of a plurality of management terminal devices in the management device of the parallel computer system according to the fifth embodiment.

【図17】実施形態6の並列計算機システムの管理装置
における管理端末装置に補助電源で動作する電源投入論
理を付加した場合の管理端末装置内のハードウェアの概
略構成を示す図である。
FIG. 17 is a diagram illustrating a schematic configuration of hardware in the management terminal device when a power-on logic operating on an auxiliary power supply is added to the management terminal device in the management device of the parallel computer system according to the sixth embodiment.

【図18】実施形態6の並列計算機システムの管理装置
における管理端末装置のシェルプログラムを示す。
FIG. 18 shows a shell program of a management terminal device in the management device of the parallel computer system according to the sixth embodiment.

【符号の説明】[Explanation of symbols]

100a〜100c…ノード、101…通信処理装置、
102a〜102c…通信インタフェース機構、103
a〜103c…通信ケーブル、104…管理端末装置、
105a〜105d…システム制御機構、106a〜1
06d…通信ケーブル、107…ネットワーク集線装
置、108a〜108d…LAN制御機構、109a〜
109d…通信ケーブル、110…ネットワーク集線装
置、200…主電源、201…補助電源、202…メイ
ンプロセッサ、203…ソフトウェア、204…メイン
メモリ、205…プロセッサメモリ制御機構、206…
システムバス、207…システムディスク、208…I
/O制御機構、209…RS−232C制御機構、21
0…ブートストラップROM、211…システムサポー
ト機構、212…サブプロセッサ、213…ROM、2
14…SRAM、215…ローカルバス、216…電源
投入/切断信号、217…プロセッサリセット信号、2
18…LAN制御部、219…RS−232C制御部、
220…プロセッサ、221…ROM、222…RA
M、223…データインタフェース、224…制御イン
タフェース、300…プロセッサ、301…ソフトウェ
ア、302…メインメモリ、303…ブートストラップ
ROM、304…プロセッサメモリ制御機構、305…
システムバス、306…I/O制御機構、307…シス
テムディスク、308及び309…RS−232C制御
機構、310…グラフィックス制御機構、311…LA
N制御部、312…RS−232C制御部、313…プ
ロセッサ、314…ROM、315…RAM、316…
制御インタフェース、317…データインタフェース、
401…アダプタ制御コマンド及びそのレスポンス、4
02…システム制御コマンド及びそのレスポンス、40
3…ノードメッセージ、501…種別フィールド、50
2…送信元アドレスフィールド、503…受信先アドレ
スフィールド、504…情報部フィールド、505…識
別子、601…種別フィールド、602…送信元アドレ
スフィールド、603…受信先アドレスフィールド、6
04…情報部フィールド、605…識別子、701…パ
ケットモード、702…非パケットモード、703…
「SET−MODE」コマンド、800…ディスコネク
ト状態、801…ウェイトコネクト状態、802…コネ
クト状態、803…「SET−CONNECT」コマン
ド、804…システム制御機構間の呼制御、1400…
プライマリブートストラップパス情報、1401…オル
タネートブートストラップパス情報、105e…システ
ム制御機構、106e…通信ケーブル、108e…LA
N制御機構、109e…通信ケーブル、111…管理端
末装置、1700…補助電源、1701…電源投入論
理、1702…電源制御信号、1703…主電源、17
04…端末装置、1705…ネットワーク。
100a to 100c: node, 101: communication processing device,
102a to 102c: communication interface mechanism, 103
a to 103c: communication cable, 104: management terminal device,
105a to 105d: System control mechanism, 106a to 1
06d: Communication cable, 107: Network concentrator, 108a to 108d: LAN control mechanism, 109a to
109d communication cable, 110 network concentrator, 200 main power supply, 201 auxiliary power supply, 202 main processor, 203 software, 204 main memory, 205 processor memory control mechanism, 206
System bus, 207: system disk, 208: I
/ O control mechanism, 209 ... RS-232C control mechanism, 21
0: bootstrap ROM, 211: system support mechanism, 212: subprocessor, 213: ROM, 2
14 SRAM, 215 local bus, 216 power on / off signal, 217 processor reset signal, 2
18 LAN controller, 219 RS-232C controller,
220: Processor, 221: ROM, 222: RA
M, 223: data interface, 224: control interface, 300: processor, 301: software, 302: main memory, 303: bootstrap ROM, 304: processor memory control mechanism, 305:
System bus, 306 I / O control mechanism, 307 System disk, 308 and 309 RS-232C control mechanism, 310 Graphics control mechanism, 311 LA
N control unit, 312 ... RS-232C control unit, 313 ... processor, 314 ... ROM, 315 ... RAM, 316 ...
Control interface, 317 ... data interface,
401 ... Adapter control command and its response, 4
02: system control command and its response, 40
3: Node message, 501: Type field, 50
2 ... source address field, 503 ... destination address field, 504 ... information field, 505 ... identifier, 601 ... type field, 602 ... source address field, 603 ... destination address field, 6
04: information field, 605: identifier, 701: packet mode, 702: non-packet mode, 703:
"SET-MODE" command, 800: disconnect state, 801: wait connect state, 802: connect state, 803: "SET-CONNECT" command, 804: call control between system control mechanisms, 1400 ...
Primary bootstrap path information, 1401 ... Alternate bootstrap path information, 105e ... System control mechanism, 106e ... Communication cable, 108e ... LA
N control mechanism, 109e communication cable, 111 management terminal device, 1700 auxiliary power supply, 1701 power-on logic, 1702 power control signal, 1703 main power supply, 17
04: terminal device, 1705: network.

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 複数の計算機であるノードを接続した並
列計算機システムを管理する管理端末装置を備えた並列
計算機システムの管理装置において、 前記複数のノードは、当該ノードの主電源により動作し
並列処理を実行するメインプロセッサと、当該ノードの
補助電源により動作し前記メインプロセッサを管理する
システム制御コマンドを実行するサブプロセッサと、前
記補助電源により動作し前記管理端末装置との通信を行
い、前記管理端末装置から発行されたシステム制御コマ
ンドをもとに制御データを生成するシステム制御機構
と、該システム制御機構とは異なるネットワークで前記
管理端末装置に接続され、前記管理端末装置の制御下で
前記ノードのアプリケーションソフトウェアを管理する
LAN制御機構とを備え、 前記管理端末装置は、前記複数のノードの複数のシステ
ム制御機構と通信を行うシステム制御機構と、補助電源
で動作し、特定の信号を入力すると前記管理端末装置の
主電源を投入する電源投入論理と、前記電源投入論理に
より主電源が投入されたときに、前記複数のノードのサ
ブプロセッサに、一括または個別に主電源を投入するシ
ステム制御コマンドを送信する手段とを備え、 前記複数のノードの複数のシステム制御機構と前記管理
端末装置のシステム制御機構とを接続して成り、前記複
数のノードの複数のメインプロセッサを管理するシステ
ム制御コマンドを前記管理端末装置から前記複数のノー
ドの複数のシステム制御機構に送信し、前記システム制
御コマンドを受け取った前記複数のノードが、該コマン
ドの内容を実行するシステム制御インタフェースを備え
ることを特徴とする並列計算機システムの管理装置。
1. A management apparatus for a parallel computer system having a management terminal device for managing a parallel computer system connected to a plurality of nodes, wherein the plurality of nodes operate by a main power supply of the node and perform parallel processing. And a sub-processor that operates on the auxiliary power supply of the node and executes a system control command for managing the main processor, and that operates on the auxiliary power supply and communicates with the management terminal device, A system control mechanism for generating control data based on a system control command issued from the device, and a system control mechanism that is connected to the management terminal via a network different from the system control mechanism, and controls the node under the control of the management terminal. A LAN control mechanism for managing application software; An apparatus configured to communicate with a plurality of system control mechanisms of the plurality of nodes, a power control logic that operates on an auxiliary power supply, and turns on a main power supply of the management terminal device when a specific signal is input; Means for transmitting a system control command for turning on the main power supply collectively or individually to the sub-processors of the plurality of nodes when the main power is turned on by power-on logic; A control mechanism and a system control mechanism of the management terminal device are connected, and a system control command for managing a plurality of main processors of the plurality of nodes is transmitted from the management terminal device to a plurality of system control mechanisms of the plurality of nodes. The plurality of nodes that have transmitted and received the system control command execute a system control input that executes the contents of the command. Management system for the parallel computer system comprising: a face.
JP2000368897A 2000-12-04 2000-12-04 Management system for parallel computer system Expired - Fee Related JP3513484B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000368897A JP3513484B2 (en) 2000-12-04 2000-12-04 Management system for parallel computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000368897A JP3513484B2 (en) 2000-12-04 2000-12-04 Management system for parallel computer system

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP25142795A Division JP3163237B2 (en) 1995-09-28 1995-09-28 Management device for parallel computer system

Publications (2)

Publication Number Publication Date
JP2001209623A true JP2001209623A (en) 2001-08-03
JP3513484B2 JP3513484B2 (en) 2004-03-31

Family

ID=18839029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000368897A Expired - Fee Related JP3513484B2 (en) 2000-12-04 2000-12-04 Management system for parallel computer system

Country Status (1)

Country Link
JP (1) JP3513484B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012232553A (en) * 2011-05-09 2012-11-29 Fuji Xerox Co Ltd Image forming system, management apparatus, management program
JP2016519816A (en) * 2013-03-29 2016-07-07 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. Firmware sharing between agents on compute nodes
US10416888B2 (en) 2016-09-09 2019-09-17 Fujitsu Limited Parallel processing device, method for controlling parallel processing device, and controller used in parallel processing device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012232553A (en) * 2011-05-09 2012-11-29 Fuji Xerox Co Ltd Image forming system, management apparatus, management program
JP2016519816A (en) * 2013-03-29 2016-07-07 ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. Firmware sharing between agents on compute nodes
US10416888B2 (en) 2016-09-09 2019-09-17 Fujitsu Limited Parallel processing device, method for controlling parallel processing device, and controller used in parallel processing device

Also Published As

Publication number Publication date
JP3513484B2 (en) 2004-03-31

Similar Documents

Publication Publication Date Title
JP3163237B2 (en) Management device for parallel computer system
US7895364B1 (en) Component identification and transmission system
US7499987B2 (en) Deterministically electing an active node
JP4964666B2 (en) Computer, program and method for switching redundant communication paths
US20020112075A1 (en) Relay apparatus
US5321830A (en) Reset method when adaptor module is faulty and computer system executing same
US7246160B2 (en) Computer monitoring system, computer monitoring method and computer monitoring program
JP2001209623A (en) Management device for parallel computer system
US11159610B2 (en) Cluster formation offload using remote access controller group manager
JP2006113754A (en) Software update device and method
JP4806382B2 (en) Redundant system
JP2002351668A (en) Computer system, method and program for staring computer
JPH10187454A (en) Bios reloading system
JPH08329006A (en) Fault information system
US11853175B2 (en) Cluster system and restoration method that performs failover control
JPH1011177A (en) Remote power supply control system
JPH0689181A (en) System for updating program by down load
JP3082704B2 (en) Communication device management method
JPH06266685A (en) Decentralized control system
JP2002063035A (en) Remote maintenance method for information processor
JP2001147909A (en) State monitoring system
JP2004040419A (en) System and method for managing communication destination address
JPH11346215A (en) Method for maintaining network of programmable controller network system and network interface unit
JP2000040065A (en) Parallel computer system
KR20220069747A (en) Power Supply Apparatus for Clustering System

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040109

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090116

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100116

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110116

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees