JP2000353154A - Fault monitoring system - Google Patents

Fault monitoring system

Info

Publication number
JP2000353154A
JP2000353154A JP11163567A JP16356799A JP2000353154A JP 2000353154 A JP2000353154 A JP 2000353154A JP 11163567 A JP11163567 A JP 11163567A JP 16356799 A JP16356799 A JP 16356799A JP 2000353154 A JP2000353154 A JP 2000353154A
Authority
JP
Japan
Prior art keywords
fault
failure
svp
monitoring system
slave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11163567A
Other languages
Japanese (ja)
Inventor
Tomoaki Nagano
知明 長野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP11163567A priority Critical patent/JP2000353154A/en
Publication of JP2000353154A publication Critical patent/JP2000353154A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To accurately grasp failures generated in a large scale parallel computer system in the order of generation time series. SOLUTION: The failure monitoring system is provided with a plurality of nodes 10 being respectively independent computers, cross bar data switches 20 for switching a signal route between the nodes, a cross bar controller 30 for controlling the drive of the switches 20, slave service processors 40 connected to the nodes 10, the switches 20 and the controller 30 and allowed to monitor failures and output prescribed failure information immediately after detecting a failure, and a master service processor 50 for monitoring the generation time series of the failure by receiving the failure information.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、障害監視システム
に関し、特に大規模並列計算機システムで使用される障
害監視システムに関するものである。
The present invention relates to a fault monitoring system, and more particularly, to a fault monitoring system used in a large-scale parallel computer system.

【0002】[0002]

【従来の技術】従来より、大規模並列計算機システムを
使って、流れの数値シミュレーション等の大規模数値計
算が行われている。すなわち、連立一次方程式等の計算
を複数の計算機(以下、ノードという)に分担させて行
うことにより、計算の高速化を図っている。このような
大規模並列計算機の一例としては、例えば日本電株式会
社製のスーパーコンピュータSX−5シリーズがあり、
これは16個のCPUを搭載したノードを最大で32個
設置することにより、4TFLOPSの演算性能を実現
している。
2. Description of the Related Art Conventionally, large-scale numerical calculations such as numerical simulations of flows have been performed using large-scale parallel computer systems. That is, the calculation of the simultaneous linear equations and the like is shared among a plurality of computers (hereinafter, referred to as nodes) to perform the calculation at high speed. As an example of such a large-scale parallel computer, for example, there is a supercomputer SX-5 series manufactured by Nippon Electric Co., Ltd.
This achieves the computational performance of 4TFLOPS by installing a maximum of 32 nodes equipped with 16 CPUs.

【0003】ところで、このような大規模並列計算機シ
ステムは一般的に、システム内で発生する障害の監視お
よび復旧を行うため、サービスプロセッサと呼ばれる障
害監視装置が設置されている。サービスプロセッサは、
システム内に複数設置されるのが一般的であり、システ
ムを構成する各装置(例えばノード、クロスバデータス
イッチ、クロスバ制御装置等)毎に設けられたり、また
は、システム内の装置を複数のグループに分けたものに
それぞれ設けられたりしている。したがって、各サービ
スプロセッサは、担当する装置(または装置群)の障害
監視をそれぞれが独立して行い、個別にハードディスク
ドライブ等に障害情報を記憶保持している。
Incidentally, such a large-scale parallel computer system is generally provided with a fault monitoring device called a service processor in order to monitor and recover from a fault occurring in the system. The service processor
Generally, a plurality of devices are installed in the system. Each device (for example, a node, a crossbar data switch, a crossbar control device, and the like) that configures the system is provided, or the devices in the system are divided into a plurality of groups. Each of them is provided separately. Accordingly, each service processor independently monitors a fault of a device (or a device group) in charge, and individually stores fault information in a hard disk drive or the like.

【0004】システムで発生する障害としては、例えば
ノード内におけるCPUのレジスタの故障等がある。レ
ジスタに故障が発生すると、その故障したノードにおけ
る計算が最初に破綻し、上述のとおり並列計算では各ノ
ードで行われている計算は互いに関連しているため、一
つのノードでの計算の破綻が次々その他のノードに伝搬
し、一瞬にしてシステム全体の計算が停止することにな
る。
[0004] As a failure that occurs in the system, for example, there is a failure of a register of a CPU in a node. When a failure occurs in a register, the calculation at the failed node fails first, and the calculation performed at each node in the parallel calculation is related to each other as described above. It propagates to other nodes one after another, and the calculation of the entire system stops instantly.

【0005】このような事態が生じてしまった場合、停
止した計算を復旧するためには、故障したノードを早期
に特定し、CPUの交換等を行う必要がある。
When such a situation occurs, in order to recover the stopped calculation, it is necessary to identify the failed node at an early stage and replace the CPU.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、従来の
並列計算機システムでは、複数のサービスプロセッサが
独立して機能しているため、障害情報の発生時系列を一
意に判別するのが困難という問題がある。すなわち、各
サービスプロセッサ内では、障害情報に障害発生時刻を
付加したものを、ハードディスクドライブ等に記録する
のだが、各サービスプロセッサに内蔵されている時計が
完全に同期しているとは限らないため、事故の後で障害
情報を調べた際に、時間的に近接して発生した障害の発
生順序が不明になる場合がある。
However, in the conventional parallel computer system, since a plurality of service processors function independently, there is a problem that it is difficult to uniquely determine a time series of occurrence of fault information. . That is, in each service processor, the fault information with the fault occurrence time added is recorded on a hard disk drive or the like, but the clocks built in each service processor are not always completely synchronized. When examining fault information after an accident, the order in which faults occurred close in time may become unknown.

【0007】また、仮に各サービスプロセッサの時計が
完全に同期していたとしても、時間計測の分解能内で発
生した障害に関しては、障害発生の順序を正確に把握す
るのは困難である。
[0007] Even if the clocks of the service processors are completely synchronized, it is difficult to accurately grasp the order of occurrence of faults that occur within the resolution of time measurement.

【0008】本発明は、このような課題を解決するため
のものであり、大規模並列計算機システムにおいて、シ
ステム内で生じた障害を発生時系列順に正確に把握する
ことができる障害監視システムを提供することを目的と
する。
SUMMARY OF THE INVENTION The present invention has been made to solve such a problem, and provides a fault monitoring system in a large-scale parallel computer system capable of accurately grasping faults that have occurred in the system in the order of occurrence in chronological order. The purpose is to do.

【0009】[0009]

【課題を解決するための手段】このような目的を達成す
るために、本発明に係る障害監視システムは、それぞれ
が独立した計算機である複数のノードと、上記ノード間
の信号経路を切り換えるクロスバデータスイッチと、上
記クロスバデータスイッチの駆動を制御するクロスバ制
御装置と、上記ノードおよび上記クロスバデータスイッ
チおよび上記クロスバ制御装置に接続され、障害を監視
するとともに障害を検出すると直ちに所定の障害情報を
出力するスレーブ・サービスプロセッサと、上記障害情
報を受信することにより、障害の発生時系列を監視する
マスタ・サービスプロセッサとを備えたものである。
In order to achieve the above object, a fault monitoring system according to the present invention comprises a plurality of nodes, each of which is an independent computer, and a crossbar data for switching a signal path between the nodes. A switch, a crossbar control device for controlling the driving of the crossbar data switch, and a node connected to the node and the crossbar data switch and the crossbar control device for monitoring a fault and outputting predetermined fault information immediately upon detecting the fault. It has a slave service processor and a master service processor that monitors the time series of the failure by receiving the failure information.

【0010】また、本発明のその他の態様として以下の
ようなものもある。すなわち、上記スレーブ・サービス
プロセッサは、上記障害情報を記録するためのハードデ
ィスクドライブを有してもよい。また、上記マスタ・サ
ービスプロセッサは、上記障害情報を記録するためのハ
ードディスクドライブを有してもよい。また、上記障害
情報は、報告元のスレーブ・サービスプロセッサの番号
と、障害の発生した装置の番号と、報告元における障害
の登録番号とで構成されていてもよい。また、上記障害
情報は、障害の度合いを示す番号をさらに有してもよ
い。さらに、上記障害監視システムは、大規模並列計算
機システムに適用されてもよい。
[0010] Other aspects of the present invention include the following. That is, the slave service processor may have a hard disk drive for recording the failure information. Further, the master service processor may include a hard disk drive for recording the failure information. Further, the failure information may include a number of a reporting slave service processor, a number of a device in which the failure has occurred, and a registration number of the failure at the reporting source. Further, the failure information may further include a number indicating a degree of the failure. Further, the fault monitoring system may be applied to a massively parallel computer system.

【0011】[0011]

【発明の実施の形態】次に、本発明の一つの実施の形態
について図を用いて説明する。図1は、本発明の一つの
実施の形態を示すブロック図である。同図に示すよう
に、本実施の形態に係る障害監視システムは、複数のノ
ード10と、複数のクロスバデータスイッチ20と、1
台のクロスバ制御装置30と、ハードディスクドライブ
40aを備えた複数のスレーブ・サービスプロセッサ4
0と、ハードディスクドライブ50aを備えた1台のマ
スタ・サービスプロセッサ50とで構成されている。
Next, one embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing one embodiment of the present invention. As shown in the figure, the fault monitoring system according to the present embodiment includes a plurality of nodes 10, a plurality of crossbar data switches 20,
Crossbar controllers 30 and a plurality of slave service processors 4 having a hard disk drive 40a
0 and one master service processor 50 having a hard disk drive 50a.

【0012】ノード10は、単数または複数のCPUを
搭載した計算機であり、ノード毎に独立した計算機とし
て機能する。同図ではノード0〜7の計8台が設置され
ている。
The node 10 is a computer equipped with one or a plurality of CPUs, and functions as an independent computer for each node. In the figure, a total of eight nodes 0 to 7 are installed.

【0013】クロスバデータスイッチ20は、各ノード
10間に接続され、ノード間を伝送される信号の経路を
切り換える装置である。したがって、各ノード10は、
クロスバデータスイッチ20によって、ノード10間に
おけるデータの送受信およびプロセッサ間通信を行うこ
とが可能となる。同図ではクロスバデータスイッチ0〜
3の計4台が設置されている。また、システム内に存在
する各ノード10およびクロスバデータスイッチ20
は、ノード10とクロスバデータスイッチ20とを仲介
する通信線とは独立した障害処理専用の通信線により、
スレーブSVP40と接続されている
The crossbar data switch 20 is a device that is connected between the nodes 10 and switches the path of a signal transmitted between the nodes. Therefore, each node 10
The crossbar data switch 20 enables data transmission and reception between the nodes 10 and communication between processors. In the figure, crossbar data switches 0 to
There are a total of 4 units, 3 units. Each node 10 and the crossbar data switch 20 existing in the system
Is a communication line dedicated to failure processing that is independent of a communication line that mediates the node 10 and the crossbar data switch 20,
Connected to slave SVP40

【0014】クロスバ制御装置30は、各ノードに接続
され、クロスバデータスイッチ20の駆動を制御する装
置である。
The crossbar control device 30 is connected to each node and controls the driving of the crossbar data switch 20.

【0015】ハードディスクドライブ(以下、HDDと
いう)40aを備えたスレーブ・サービスプロセッサ
(以下、スレーブSVPという)20は、システム内の
各装置に接続され、障害監視を行う障害処理装置であ
る。そして、障害を発見すると後述の障害情報を出力
し、HDD40aに記憶保持するとともにマスタSVP
50に対して送信する。同図ではスレーブSVP0〜4
の計5台が設置され、ノード10およびクロスバデータ
スイッチ20およびクロスバ制御装置30に接続されて
いる。
A slave service processor (hereinafter, referred to as a slave SVP) 20 having a hard disk drive (hereinafter, referred to as an HDD) 40a is a fault processing device that is connected to each device in the system and monitors a fault. When a failure is found, failure information to be described later is output and stored in the HDD 40a and the master SVP
Send to 50. In the figure, slaves SVP0-4
Are installed and connected to the node 10, the crossbar data switch 20, and the crossbar control device 30.

【0016】HDD50aを備えたマスタ・サービスプ
ロセッサ(以下、マスタSVPという)50は、スレー
ブSVP40から送られてくる障害情報を受信し、シス
テム全体における障害を監視する統合障害処理装置であ
る。したがって、マスタSVP50は、全てのスレーブ
SVP40に接続され、受信した障害情報をHDD50
aに記憶保持する。
A master service processor (hereinafter, referred to as a master SVP) 50 having an HDD 50a is an integrated fault processing device that receives fault information sent from the slave SVP 40 and monitors a fault in the entire system. Therefore, the master SVP 50 is connected to all the slave SVPs 40 and transmits the received fault information to the HDD 50.
Stored in a.

【0017】このように、本実施の形態に係る障害監視
システムは、複数のノード10と、ノード間クロスバネ
ットワーク装置(クロスバデータスイッチ20およびク
ロスバ制御装置30)と、複数の障害処理装置(スレー
ブSVP40およびマスタSVP50)とで構成された
マルチノード型コンピュータシステムである。
As described above, the fault monitoring system according to the present embodiment comprises a plurality of nodes 10, a crossbar network device between nodes (crossbar data switch 20 and crossbar control device 30), and a plurality of fault processing devices (slave SVP40). And a master SVP 50).

【0018】また、これらシステムを構成するノード1
0、クロスバデータスイッチ20、クロスバ制御装置3
0、スレーブSVP40およびマスタSVP50には、
それぞれシステム内で固有の装置番号が付与されてい
る。したがって、各スレーブSVP40は、同一の装置
番号テーブル(表1)を用いて障害処理を行う。
The nodes 1 constituting these systems
0, crossbar data switch 20, crossbar controller 3
0, slave SVP40 and master SVP50,
Each device is assigned a unique device number within the system. Therefore, each slave SVP 40 performs a failure process using the same device number table (Table 1).

【0019】[表1] ──────────────────── 装置名 装置番号 ──────────────────── マスタSVP 000 スレーブSVP0 010 スレーブSVP1 011 スレーブSVP2 012 スレーブSVP3 013 スレーブSVP4 014 ノード0 020 ノード1 021 ノード2 022 ノード3 023 ノード4 024 ノード5 025 ノード6 026 ノード7 027 クロスバ制御装置 030 クロスバデータスイッチ0 031 クロスバデータスイッチ1 032 クロスバデータスイッチ2 033 クロスバデータスイッチ3 034 ────────────────────[Table 1] {Device name Device number} ─ Master SVP 000 Slave SVP0 010 Slave SVP1 011 Slave SVP2 012 Slave SVP3 013 Slave SVP4 014 Node 0 020 Node 1 021 Node 2 022 Node 3 023 Node 4 024 Node 5 025 Node 6 026 Node 7 Data switch Crossbar Control 0 031 Crossbar data switch 1 032 Crossbar data switch 2 033 Crossbar data switch 3 034 ────────────────────

【0020】次に、本発明の動作について説明する。Next, the operation of the present invention will be described.

【0021】[単一の障害が発生した場合]ここでは、
障害情報の採取処理の流れを、単一のノードに障害が発
生した場合(図1のノード7に障害が発生したものとす
る)を例にして説明する。
[When a Single Failure Occurs] Here,
The flow of the failure information collecting process will be described by taking as an example a case where a failure has occurred in a single node (it is assumed that a failure has occurred in the node 7 in FIG. 1).

【0022】まず、ノード7の障害を監視するスレーブ
SVP4は、ノード7で障害の発生を検出すると、マス
タSVP50に対して障害情報を送信する。すなわち、
このスレーブSVP4の装置番号「014」と、障害の
発生したノード7の装置番号「027」と、スレーブS
VP4が管理する障害情報のシーケンシャルな登録番号
「0000002514」と、障害の度合いを示す番号
「4」とからなる障害情報を送信する。
First, the slave SVP 4 monitoring the failure of the node 7 transmits failure information to the master SVP 50 when the occurrence of the failure is detected in the node 7. That is,
The device number “014” of the slave SVP4, the device number “027” of the failed node 7 and the slave SVP
The failure information including the sequential registration number “00000000214” of the failure information managed by the VP 4 and the number “4” indicating the degree of the failure is transmitted.

【0023】図2は、スレーブSVP4がマスタSVP
50に対して送信する、障害の発生を通知するための通
信内容(障害情報)を示す説明図である。同図におい
て、装置番号は表1に基づいて決定され、障害の度合い
を示す番号は表2に基づいて決定される。
FIG. 2 shows that the slave SVP 4 is the master SVP
FIG. 9 is an explanatory diagram showing communication contents (failure information) for notifying the occurrence of a failure, which is transmitted to the communication device 50; In the figure, the device number is determined based on Table 1, and the number indicating the degree of failure is determined based on Table 2.

【0024】 [表2] ──────────────────────────────── 障害の度合い 略称 番号 ──────────────────────────────── 重度の障害 CHECK 0 将来重度の障害となりうる障害 CAUTION 1 軽度の障害 WARNING 2 障害以外のシグナル ATTENTION 3 ────────────────────────────────[Table 2] 度 合 い Degree of failure Abbreviation No. ────── ────────────────────────── Severe failure CHECK 0 Failure that could be severe in the future CAUTION 1 Mild failure WARNING 2 Signal other than failure ATTENTION 3 ────────────────────────────────

【0025】なお、障害の発生時系列のみを知りたい場
合は、障害の度合いを示すコードを付加しなくてもよ
い。障害情報のデータサイズをなるべく小さくした方
が、障害の通知を高速で行う上で都合がよいといえる。
また、伝送上の問題等がなければ、障害情報にその他の
情報を付加してもよい。
When it is desired to know only the time series of the occurrence of a fault, it is not necessary to add a code indicating the degree of the fault. It can be said that reducing the data size of the fault information as much as possible is convenient for performing fault notification at high speed.
If there is no transmission problem, other information may be added to the failure information.

【0026】その後、障害情報を受信したマスタSVP
5は、受信した障害情報に対して、マスタSVP50が
管理するシーケンシャルな登録番号を付与し、さらにマ
スタSVP50が管理する時計による時間情報を障害発
生時間として付与して障害登録情報を構成し、マスタS
VP5に接続されているHDD5aに記録する。
Thereafter, the master SVP receiving the failure information
5 assigns a sequential registration number managed by the master SVP 50 to the received fault information, and further assigns time information by a clock managed by the master SVP 50 as a fault occurrence time to configure the fault registration information. S
Recording is performed on the HDD 5a connected to the VP5.

【0027】障害登録情報の一例を示すと次のとおりで
ある。左から順に、障害の発生した年月日(マスタSV
P50で付加)、障害の発生した時刻(マスタSVPで
付加)、マスタSVP50における障害登録番号、障害
を検出したスレーブSVPの番号、障害の発生した装置
名、スレーブSVPにおける障害登録番号、障害の度合
いを示す略称である。Node***はノード10を示し、IXS
**はクロスバデータスイッチ20を示す。
An example of the failure registration information is as follows. In order from the left, the date of failure (master SV
P50), time of failure (added by master SVP), failure registration number in master SVP 50, number of slave SVP in which failure was detected, name of device in which failure occurred, failure registration number in slave SVP, degree of failure Is an abbreviation that indicates Node *** indicates node 10, IXS
** indicates the crossbar data switch 20.

【0028】 99-02-15 20:51:40 0000005409 SVP02 Node000 0000001027 WARNING 99-02-15 21:35:48 0000005410 SVP03 Node005 0000000873 ATTENTION 99-02-15 23:54:39 0000005411 SVP04 Node006 0000001354 WARNING 99-02-16 01:15:42 0000005412 SVP00 IXS00 0000001161 CAUTION 99-02-16 10:38:09 0000005413 SVP00 IXS11 0000001162 CHECK 99-02-16 11:22:50 0000005414 SVP03 Node004 0000000874 ATTENTION 99-02-17 11:22:47 0000005415 SVP02 Node000 0000001028 CAUTION 99-02-18 15:23:53 0000005416 SVP02 Node002 0000001029 WARNING 99-02-19 14:16:50 0000005417 SVP04 Node006 0000001355 ATTENTION99-02-15 20:51:40 0000005409 SVP02 Node000 0000001027 WARNING 99-02-15 21:35:48 0000005410 SVP03 Node005 0000000873 ATTENTION 99-02-15 23:54:39 0000005411 SVP04 Node006 0000001354 WARNING 99- 02-16 01:15:42 0000005412 SVP00 IXS00 0000001161 CAUTION 99-02-16 10:38:09 0000005413 SVP00 IXS11 0000001162 CHECK 99-02-16 11:22:50 0000005414 SVP03 Node004 0000000874 ATTENTION 99-02-17 11: 22:47 0000005415 SVP02 Node000 0000001028 CAUTION 99-02-18 15:23:53 0000005416 SVP02 Node002 0000001029 WARNING 99-02-19 14:16:50 0000005417 SVP04 Node006 0000001355 ATTENTION

【0029】図3は、マスタSVPとスレーブSVPと
がそれぞれ記憶している障害情報を示す説明図である。
同図に示すように、マスタSVP5は、障害報告通知元
装置番号と報告元障害情報登録番号とに基づいて、スレ
ーブSVP4の管理する詳細な障害情報を参照すること
ができる。また、スレーブSVP4では、マスタSVP
50への障害発生通知を行った後、ノード7から詳細な
障害内容の収集を行い、収集された詳細な障害情報をス
レーブSVP4に付属のHDD40aに記録する。
FIG. 3 is an explanatory diagram showing fault information stored in the master SVP and the slave SVP, respectively.
As shown in the figure, the master SVP 5 can refer to detailed failure information managed by the slave SVP 4 based on the failure report notification device number and the report failure information registration number. In the slave SVP4, the master SVP
After notifying the failure occurrence to 50, detailed failure contents are collected from the node 7, and the collected detailed failure information is recorded in the HDD 40a attached to the slave SVP4.

【0030】以上においては、単一の障害が発生した場
合における障害情報の収集手順について説明したが、複
数の装置が連続して障害を起こした場合も、同様の手順
をとることにより対処することができる。
In the above description, the procedure for collecting fault information when a single fault has occurred has been described. However, even when a plurality of devices have successive faults, the same procedure can be taken. Can be.

【0031】[複数の障害が同時に発生した場合]例え
ばノード7とクロスバデータスイッチ2とが連続して障
害を起こした場合について説明する。
[Case where a Plurality of Faults Occur Simultaneously] For example, a case where a fault occurs continuously between the node 7 and the crossbar data switch 2 will be described.

【0032】まず、ノード7に対応するスレーブSVP
4が、マスタSVP50に対して、報告元のスレーブS
VP4の装置番号「014」と、障害の発生した装置の
番号「027」と、報告元の障害登録番号とを送信し、
ノード7における詳細な障害情報の収集を開始する。マ
スタSVP50は、通知された障害情報に対して、統合
障害登録番号と通知を受け取った時刻とを付加してHD
D50aに障害登録情報として記録する。
First, the slave SVP corresponding to the node 7
4 is the slave S of the reporting source with respect to the master SVP 50.
The device number “014” of the VP4, the number “027” of the failed device, and the failure registration number of the reporting source are transmitted.
The collection of detailed fault information in the node 7 is started. The master SVP 50 adds the integrated fault registration number and the time at which the notification was received to the notified fault information, and adds
D50a is recorded as failure registration information.

【0033】次いで、クロスバデータスイッチ2で障害
が起こり、対応するスレーブSVP2が、マスタSVP
50に対して、報告元のスレーブSVP1の装置番号
「011」と、障害の発生した装置の番号「033」
と、報告元の障害登録番号とを送信する。マスタSVP
50は、受信した障害情報に、マスタSVP50内にお
ける統合障害登録番号と通知を受け取った時刻とを付加
してからHDD50aに記録する。
Next, a failure occurs in the crossbar data switch 2, and the corresponding slave SVP2 becomes the master SVP.
For 50, the device number “011” of the reporting slave SVP1 and the number “033” of the failed device
And the fault registration number of the report source. Master SVP
50 adds the integrated fault registration number in the master SVP 50 and the time at which the notification was received to the received fault information, and records the information on the HDD 50a.

【0034】なお、マスタSVP50が記録する障害情
報は、図3に示すように非常にシンプルであり、そのデ
ータサイズも小さなものである。したがって、短時間で
障害情報はマスタSVP50に送信され、またマスタS
VP50は1つの障害を短時間で処理することができ
る。ノード7とクロスバデータスイッチ2が連続して障
害を起こし、二つの障害が発生する時間間隔が非常に小
さい場合においても、マスタSVP50上で処理のバッ
ティングが起こる可能性は非常に小さく、障害発生時刻
の刻印は障害発生とほぼ同時に行われる。
The fault information recorded by the master SVP 50 is very simple as shown in FIG. 3, and has a small data size. Therefore, the failure information is transmitted to the master SVP 50 in a short time,
The VP 50 can handle one failure in a short time. Even when the node 7 and the crossbar data switch 2 successively cause a failure and the time interval between the two failures is very small, the possibility that processing batting occurs on the master SVP 50 is very small, and the failure occurrence time Is performed almost simultaneously with the occurrence of a failure.

【0035】図4は、図1に係る障害監視システムの詳
細を示すブロック図である。同図に示すように、ノード
10は、ノード10内に故障を検出すると1ビットの信
号を出力する故障検出回路10aと、レジスタ10b,
10dと、オア回路10cとで構成されている。スレー
ブSVP40は、レジスタ40b,40eと、ノード番
号に応じて設定された符号を出力するデコーダ40c
と、セレクタ40dとで構成されている。マスタSVP
50は、レジスタ50bと、セレクタ50cと、FIF
O(First In First Out)のバッファ50dとで構成さ
れている。
FIG. 4 is a block diagram showing details of the fault monitoring system according to FIG. As shown in FIG. 1, a node 10 includes a failure detection circuit 10a that outputs a 1-bit signal when a failure is detected in the node 10, a register 10b,
10d and an OR circuit 10c. The slave SVP 40 includes registers 40b and 40e, and a decoder 40c that outputs a code set according to the node number.
And a selector 40d. Master SVP
Reference numeral 50 denotes a register 50b, a selector 50c,
O (First In First Out) buffer 50d.

【0036】この障害監視システムの動作は以下のとお
りである。故障検出回路10aによって、ノード10内
の故障が検出されると直ちに、1ビットの信号がレジス
タ10b、オア回路10cおよびレジスタ10dを介し
て出力される。出力された信号はスレーブSVP40の
レジスタ40bを介してデコーダ40cに入力される。
デコーダ40cは、接続されているノード毎に一意の符
号が出力されるように設定されている。
The operation of this fault monitoring system is as follows. As soon as the failure detection circuit 10a detects a failure in the node 10, a 1-bit signal is output via the register 10b, the OR circuit 10c, and the register 10d. The output signal is input to the decoder 40c via the register 40b of the slave SVP 40.
The decoder 40c is set so that a unique code is output for each connected node.

【0037】また、レジスタ40bの出力は、デコーダ
40cだけでなくセレクタ40dの制御端子にも入力さ
れ、セレクタ40dは、入力のあった経路をレジスタ4
0eに接続する。したがって、スレーブSVP40に最
初に到着した信号のみが、マスタSVP50に入力され
ることになる。スレーブSVP40から出力された信号
は、マスタSVP50のレジスタ50bおよびセレクタ
50cを介してFIFOのバッファ50dに格納され
る。セレクタ50cの働きは上述のセレクタ40dと同
様である。また、バッファ50dは、RAM等の記憶装
置であり、HDD50aよりも高速に読み書き可能であ
る。したがって、短時間の間に集中的に送られてくる故
障通知信号(障害情報)は、とりあえずバッファ50d
に書き込まれた後、HDD50aに書き込まれる。
The output of the register 40b is input not only to the decoder 40c but also to the control terminal of the selector 40d.
0e. Therefore, only the signal that first arrives at the slave SVP 40 is input to the master SVP 50. The signal output from the slave SVP 40 is stored in the FIFO buffer 50d via the register 50b and the selector 50c of the master SVP 50. The operation of the selector 50c is the same as that of the above-described selector 40d. The buffer 50d is a storage device such as a RAM, and can read and write at a higher speed than the HDD 50a. Therefore, the failure notification signal (failure information) intensively sent in a short time is temporarily stored in the buffer 50d.
Is written to the HDD 50a.

【0038】なお、以上の故障検出のための構成および
手順は、クロスバデータスイッチ20、クロスバ制御装
置30およびシステム内のその他の回路においても同様
である。また、スレーブSVPとマスタSVPとを結ぶ
各線路(メタリック・ケーブルまたは光ファイバ・ケー
ブル)のクロック・スキューは、何れも等しくなるよう
に調整されている。
The above-described configuration and procedure for failure detection are the same in the crossbar data switch 20, the crossbar control device 30, and other circuits in the system. The clock skew of each line (metallic cable or optical fiber cable) connecting the slave SVP and the master SVP is adjusted to be equal.

【0039】[0039]

【発明の効果】以上説明したとおり本発明は、ノードお
よびクロスバデータスイッチおよびクロスバ制御装置に
設けられ、障害を監視するとともに障害を発見すると直
ちに障害情報を出力するスレーブ・サービスプロセッサ
と、スレーブ・サービスプロセッサからの障害情報を受
信することにより、障害の発生時系列を監視するマスタ
・サービスプロセッサとを有する。
As described above, the present invention is provided in a node and a crossbar data switch and a crossbar control device, monitors a fault and outputs fault information immediately upon finding the fault, and a slave service processor. A master service processor that monitors failure occurrence time series by receiving failure information from the processor.

【0040】このように構成することにより本発明は、
コンピュータシステム内で発生したすべての障害の登録
を最終的に一つの装置であるマスタSVPが行うため、
障害発生順序が一意に判別可能な状態で保存される。
With this configuration, the present invention provides:
Since the registration of all the faults that have occurred in the computer system is finally performed by one device, the master SVP,
The fault occurrence order is stored in a state where it can be uniquely determined.

【0041】また、詳細な障害情報の収集および蓄積
を、それぞれシステムを構成する装置に接続された障害
処理装置に任すため、複数の障害が近接して発生した場
合でも、特定の障害処理装置に負荷および情報が集中す
る可能性が低くなり、負荷分散が行われる。
Further, since collection and accumulation of detailed fault information are entrusted to fault processing devices connected to the respective devices constituting the system, even when a plurality of faults occur in close proximity, a specific fault processing device can be used. The possibility of concentration of load and information is reduced, and load distribution is performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の一つの実施の形態を示すブロック図
である。
FIG. 1 is a block diagram showing one embodiment of the present invention.

【図2】 スレーブSVPからマスタSVPへ送信され
る障害情報を示す説明図である。
FIG. 2 is an explanatory diagram showing fault information transmitted from a slave SVP to a master SVP.

【図3】 マスタSVPおよびスレーブSVP内に登録
されているデータを示す説明図である。
FIG. 3 is an explanatory diagram showing data registered in a master SVP and a slave SVP.

【図4】 図1に係る障害監視システムの詳細を示すブ
ロック図である。
FIG. 4 is a block diagram showing details of a fault monitoring system according to FIG. 1;

【符号の説明】[Explanation of symbols]

10…ノード、20…クロスバデータスイッチ、30…
クロスバ制御装置、40…スレーブ・サービスプロセッ
サ(スレーブSVP)、50…マスタ・サービスプロセ
ッサ(マスタSVP)、10a…故障検出回路、10
b,10d…レジスタ、10c…オア回路、40b,4
0e…レジスタ、40c…デコーダ、40d…セレク
タ、50b…レジスタ、50c…セレクタ、50d…バ
ッファ、40a,50a…ハードディスクドライブ。
10 ... node, 20 ... crossbar data switch, 30 ...
Crossbar control device, 40: slave service processor (slave SVP), 50: master service processor (master SVP), 10a: fault detection circuit, 10
b, 10d: register, 10c: OR circuit, 40b, 4
0e: register, 40c: decoder, 40d: selector, 50b: register, 50c: selector, 50d: buffer, 40a, 50a: hard disk drive.

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】 それぞれが独立した計算機である複数の
ノードと、 前記ノード間の信号経路を切り換えるクロスバデータス
イッチと、 前記クロスバデータスイッチの駆動を制御するクロスバ
制御装置と、 前記ノードおよび前記クロスバデータスイッチおよび前
記クロスバ制御装置に接続され、障害を監視するととも
に障害を検出すると直ちに所定の障害情報を出力するス
レーブ・サービスプロセッサと、 前記障害情報を受信することにより、障害の発生時系列
を監視するマスタ・サービスプロセッサとを備えたこと
を特徴とする障害監視システム。
A plurality of nodes each being an independent computer; a crossbar data switch for switching a signal path between the nodes; a crossbar control device for controlling driving of the crossbar data switch; and the node and the crossbar data. A slave service processor that is connected to the switch and the crossbar control device, monitors a fault, and outputs predetermined fault information immediately upon detection of the fault, and receives the fault information to monitor a time series of the fault occurrence A fault monitoring system comprising a master service processor.
【請求項2】 請求項1において、 前記スレーブ・サービスプロセッサは、前記障害情報を
記録するためのハードディスクドライブを有することを
特徴とする障害監視システム。
2. The fault monitoring system according to claim 1, wherein the slave service processor has a hard disk drive for recording the fault information.
【請求項3】 請求項1において、 前記マスタ・サービスプロセッサは、前記障害情報を記
録するためのハードディスクドライブを有することを特
徴とする障害監視システム。
3. The fault monitoring system according to claim 1, wherein the master service processor has a hard disk drive for recording the fault information.
【請求項4】 請求項1において、 前記障害情報は、報告元のスレーブ・サービスプロセッ
サの番号と、障害の発生した装置の番号と、報告元にお
ける障害の登録番号とで構成されていることを特徴とす
る障害監視システム。
4. The system according to claim 1, wherein the fault information includes a number of a slave service processor of a report source, a number of a device in which the fault has occurred, and a registration number of the fault at the report source. Characteristic fault monitoring system.
【請求項5】 請求項4において、 前記障害情報は、障害の度合いを示す番号をさらに有す
ることを特徴とする障害監視システム。
5. The fault monitoring system according to claim 4, wherein the fault information further includes a number indicating a degree of the fault.
【請求項6】 請求項1ないし請求項5の何れか一項に
おいて、 前記障害監視システムは、大規模並列計算機システムに
適用されることを特徴とする障害監視システム。
6. The fault monitoring system according to claim 1, wherein the fault monitoring system is applied to a large-scale parallel computer system.
JP11163567A 1999-06-10 1999-06-10 Fault monitoring system Pending JP2000353154A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11163567A JP2000353154A (en) 1999-06-10 1999-06-10 Fault monitoring system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11163567A JP2000353154A (en) 1999-06-10 1999-06-10 Fault monitoring system

Publications (1)

Publication Number Publication Date
JP2000353154A true JP2000353154A (en) 2000-12-19

Family

ID=15776373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11163567A Pending JP2000353154A (en) 1999-06-10 1999-06-10 Fault monitoring system

Country Status (1)

Country Link
JP (1) JP2000353154A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2390447A (en) * 2002-07-02 2004-01-07 Hewlett Packard Co Fault prediction in logical networks
JP2007128285A (en) * 2005-11-04 2007-05-24 Nec Corp Multinode computer system, integrated service processor, status management method and program
US7650532B2 (en) 2004-10-05 2010-01-19 Hitachi, Ltd. Storage system
JP2010033466A (en) * 2008-07-30 2010-02-12 Hitachi Ltd Storage device and control method thereof
WO2010064286A1 (en) * 2008-12-01 2010-06-10 富士通株式会社 Control circuit, information processing apparatus, and method for controlling information processing apparatus
JP2011076512A (en) * 2009-10-01 2011-04-14 Hitachi Solutions Ltd Integrated management system of job management server
CN106789155A (en) * 2016-11-16 2017-05-31 深圳市中博睿存科技有限公司 Metadata arbitrating server, control method and communication system

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2390447A (en) * 2002-07-02 2004-01-07 Hewlett Packard Co Fault prediction in logical networks
US7650532B2 (en) 2004-10-05 2010-01-19 Hitachi, Ltd. Storage system
JP2007128285A (en) * 2005-11-04 2007-05-24 Nec Corp Multinode computer system, integrated service processor, status management method and program
JP4640116B2 (en) * 2005-11-04 2011-03-02 日本電気株式会社 Multi-node computer system, integrated service processor, status management method and program
JP2010033466A (en) * 2008-07-30 2010-02-12 Hitachi Ltd Storage device and control method thereof
WO2010064286A1 (en) * 2008-12-01 2010-06-10 富士通株式会社 Control circuit, information processing apparatus, and method for controlling information processing apparatus
JP5152340B2 (en) * 2008-12-01 2013-02-27 富士通株式会社 Control circuit, information processing apparatus, and information processing apparatus control method
JP2011076512A (en) * 2009-10-01 2011-04-14 Hitachi Solutions Ltd Integrated management system of job management server
CN106789155A (en) * 2016-11-16 2017-05-31 深圳市中博睿存科技有限公司 Metadata arbitrating server, control method and communication system

Similar Documents

Publication Publication Date Title
JP4107083B2 (en) High-availability disk controller, its failure handling method, and high-availability disk subsystem
US20070226537A1 (en) Isolating a drive from disk array for diagnostic operations
JP2000353154A (en) Fault monitoring system
JP2010205216A (en) Bus conversion device, information processor, and control method
US20060195558A1 (en) Redundant manager modules
JPH1027115A (en) Fault information sampling circuit for computer system
JP2756315B2 (en) Update control method for system configuration information
JPH0934852A (en) Cluster system
JP2633351B2 (en) Control device failure detection mechanism
JPH0635739A (en) Switching control system
JPH07234849A (en) Connection communication system between processor modules
JPH05224964A (en) Bus abnormality information system
JPH10124338A (en) Parallel processor
JP2009003613A (en) Bus fault detecting method and bus system
JPS6113627B2 (en)
JPH11250026A (en) Fault recovery method and its system for parallel multiprocessor system
JPS6356755A (en) Abnormality supervising system for slave processor
JPH1173583A (en) Alarm collection system
JPS63193254A (en) Common input/output bus
JPH03278213A (en) Method for detecting and informating power supply status transition of extended storage device
JPH05233578A (en) Faulty device degeneration method
JP3139160B2 (en) Control switching method for redundant control system
JPH10275090A (en) Duplexing system for basic processor
JPH08314843A (en) Computer system
JPH05191389A (en) Redundant system for interface board