JPH03259349A

JPH03259349A - 障害処理方式

Info

Publication number: JPH03259349A
Application number: JP2058619A
Authority: JP
Inventors: Akira Jitsupou; 実宝　昭; Akihiko Nakamura; 昭彦中村
Original assignee: NEC Corp; NEC Computertechno Ltd
Current assignee: NEC Corp; NEC Computertechno Ltd
Priority date: 1990-03-08
Filing date: 1990-03-08
Publication date: 1991-11-19
Anticipated expiration: 2013-05-18
Also published as: EP0445799A2; EP0445799A3; JP2752764B2; US5280606A; CA2037776C; CA2037776A1; DE69120104T2; EP0445799B1; DE69120104D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は情報処理システムの障害処理方式に関し、特に
高速演算プロセッサの障害処理方式に関する。

〔従来の技術〕

スーパーコンピュータは汎用計算機と比べ桁違いに高速
な演算処理能力を持っており、特に科学・技術の領域で
さまざまな研究や技術開発のために利用されている。こ
のようなスーパーコンピュータにわいて、高速演算を実
現するハードウェア上の工夫として基本的に２つの方法
が採用されている。　第１の方法は、速度＝処理量／時
間であることから、処理量一定としてその処理量をこな
す処理時間を短縮することである。このことはコンピュ
ータの基本の処理単位であるクロックを可能な限り短縮
することである。スーパーコンピュータのクロックは年
々短縮化され、汎用機と比べ１桁以上速い２．９ｎ秒（
光が約３．６ｍ進む時間）に１６個の６４ビット浮動小
数点演算可能なスーパコンピュータも商用化されている
。

第二の方法は、主記憶に対するデータアクセスを極力減
らす工夫である。スーパコンピュータでは特に大量のデ
ータを１度に扱うので、主記憶に対してアクセスが頻発
すると高性能を実現することができない。したがって、
主記憶アクセスに比ベアクセス化が短かくてすむレジス
タアクセスを有効に利用できるように、ソフソウェアビ
ノブルなレジスタを大量に準備することによって主記憶
アクセフを大幅にへらす工夫をしている。

上記のように、スーバコンピュータハマシーンクロック
が短かく大量にソフトビジプルレジスタを備えているの
で、障害発生に汎用機のようにソフトウェアビジプルレ
ジスタを保持しておき命令リトライやプロセッサリリー
フのような障害処理をすることは困難である。すなわち
、マシーンクロックが短いということは、障害を検出し
てからクロックが停止するまでのクロック数が多くなる
ことを意味しており、クロック数で比較した場合に汎用
機と比べすべりが大きくなり、命令ＩＪ　）ライやプロ
セッサリリーフのためのソフトウェアビジプルな情報の
保留が困難である。また、ソフトウェアビジプルなレジ
スタが汎用機と比べ大量にあるということはやはり命令
リトライやプロセッサリリーフのためのソフトウェアビ
ジプルな情報をホールドすることを難しくしている。

〔発明が解決しようとする課題〕

上述したように性能を最重視するスーパーコンピュータ
システムにおいては、障害発生時に命令リトライやプロ
セッサリリーフのための情報の保持が困難であり、障害
の原因が間欠障害や縮退運転可能な固定障害でも直ちに
システムダウンにしてしまい、ユーザーに対する影響が
大きいという欠点があった。また実行中のジョブをアボ
ートされるだけでなく以後のユーザージロブが全てアボ
ートされるという欠点もあった。

〔課題を解決するための手段〕

本発明の障害処理方式は、情報処理システム全体を制御
する制御プロセッサと９周辺機器を制御する入出力プロ
セッサと、前記制御プロセッサが実行するプログラムを
格納する第一の主メモリとを接続した第一のシステム制
御装置と、直列に接続した複数の高速演算プロセッサと
、前期高速演算プロセッサが実行するプログラムおよび
データを格納する第二の主メモリと、前記第一のシステ
ム制御装置とを接続した第二のシステム制御装置とを含
む情報処理システムにおいて、前記第一および第二のシ
ステム制御装置を接続した保守診断装置と、前記情報処
理システムの各プロセッサ単位および各装置単位に障害
を検出して前記保守診断装置に通知する障害検出報告手
段と、前記の各プロセッサおよび装置の有効／無効の程
度を示し上位の高速演算プロセッサが無効の場合には下
位の高速演算プロセッサを全て無効にする接続構成制御
手段と、システム運用中に障害の発生の通知をうけたと
き有効な高速演算プロセッサが存在するかどうかを判定
し、有効な高速演算プロサッサが存在しない場合には高
速演算プロセッサのテストプログラムを実行し、前記テ
ストプログラムの実行結果が正常であれば従前の接続構
成でシステム運用を再開し、前記テストプログラムの実
行結果が異常であれば障害の原因に応じて前記第二の主
メモリおよび高速演算プロセッサを部分的に無効にして
縮退した接続構成で再び前記テストプログラムを実行し
、前記テストプログラムの実行Ｐａ果が正常であれば前
記縮退した接続構成でシステム運用を再開する障害処理
制御手段とを具備するよるにして構成される。

また、本発明の障害処理方式は、前記１回目のテストプ
ログラムを起動するか否かをあらかじめ定められた情報
に従って判定し制御する。

さらに、前記テストプログラムの実行結果が正常のとき
高速演算プロセッサの運用を再開するか否かをあらかじ
め定められた情報に従って判定し制御する。

また、本発明の障害処理方式において、前記高速演算プ
ロセッサは複合演算バイブラインを含んだ複数のベクト
ル演算パイプラインを備え、前記接続構成制御手段は前
記複数のベクトル演算パイプラインの一部を無効にする
こと含む。

さらに、前記接続構成制御手段は前記第二の主メモリの
一部を無効にすること含む。

さらに、前記接続構成制御手段は前記高速演算プロセッ
サ内に含まれるキャッシュの一部を無効にすること含む
。

また、本発明の障害処理方式は、前記第二の主メモリお
よび高速演算プロセッサを部分的に無効にするか否かを
障害の原因に従ってあらかじめ定められた情報に従って
判定し制御する。

さらに、本発明の障害処理方式は、前記第二のシステム
制御装置および第二の主メモリが原因で障害になった場
合は前記システムの全体障害とみなして前記高速演算プ
ロセッサと同様に障害処理をする。

〔実施例〕

次に、本発明について図面を参照して説明する。

第１図は本発明の一実施例を示す構成図である。同図に
おいて障害処理方式は、情報処理システム全体を制御す
る制御プロセッサ３と９周辺機器を制御する入出力プロ
セッサ４と、前記制御プロセッサ３が実行するプログラ
ムを格納する第一の主メモリ９とを接続した第一のシス
テム制御装置１と、直列に接続した複数の高速演算プロ
セッサ５〜８と、前記高速プロセッサ５〜８が実行する
プログラムおよびデータを格納する第二の主メモリ１０
と、前記第一のシステム制御装置ｌとを接続した第二の
システム制御装置２とを含む情報処理システムにおいて
、前記第一および第二のシステム制御装置を接続した保
守診断装置１３と、前記情報処理システムの各プロセッ
サ単位および各装置単位に障害を検出して前記保守診断
装置１３に通知する障害検出報告手段２０〜２９と、前
記の各プロセッサおよび装置の有効／無効の程度を示し
高速演算プロセッサが無効の場合には下位の高速演算プ
ロセッサを全て無効にする接続構成制御手段１１とを有
している。さらに、システム運用中に障害の発生の通知
をうけたとき、有効な高速演算プロセッサが存在するか
どうかを判定し、有効な高速演算プロセッサが存在しな
い場合には高速演算プロセッサのテストプログラムを実
行し、前記テストプログラムの実行結果が正常であれば
従前の接続構成でシステム運用を再開し、前記テストプ
ログラムの実行結果が異常であれば障害の原因に応じて
前記第二の主メモリおよび高速演算プロセッサを部分的
に無効にして縮退した接続構成で再び前記テストプログ
ラムを実行し、前記テストプログラムの実行結果が正常
あれは前記の縮退した接続構成でシステム運用を再開す
る障害処理制御手段１２を具備する。

制御プロセッサ３はスーパーバイザー機能を持ち、ユー
ザープログラムのコンパイル、リンクを実現している。

第二の主メモリ９は制御プロセッサを制御する制御プロ
グラムや制御用データを格納している。さらに第二の主
メモリ２０はユーザプログラムのロードモジュールや演
算用データを格納し、高速演算プロセッサ５〜８はユー
ザープログラムを高速に実行する。そして、入出力プロ
セッサ、制御プロセッサ及び高速演算プロセッサは各々
に独立に動作することができ、システムのスループット
を高めている。

保守診断装置１３は、システムの初期設定機能、立ちあ
げ機能、構成制御機能、障害処理機能を備えている。

第２図は高速演算プロセッサを示す説明図である。高速
演算プロセッサは機能的に、スカシユニット３０とベク
トルユニット４０とにわかれる。

スカシユニット３０は、主記憶装置からとり出した命令
を解読する。解読した命令がスカシ命令であればスカシ
ユニットで実行し、ベクトル命令であれば、ペルトルユ
ニットで実行する。

スカシユニット３０はスカラ演算用レジスタとして１２
８個の汎用レジスタ（スカシレジスタ）３２を用意して
、レジスタ主体のアーキテクチャによって高速化してい
る。また、主記憶装置へのアクセス時間を実効的に短縮
する手段として６４にバイトの容量の２レベルのキャッ
シュメモリ３１があり、主記憶アクセスに対して高速に
応答する。さらに、スカシ演算は８バイトデータ演算を
基本とし、スカシの加減算、論理演算、シフト、乗除算
の各演算器から構成されたパイプライン化されたスカシ
演算パイプライン３３で実行される。

ベクトルユニット４０は大容量のベクトルレジスタ４工
を中心に１６本のベクトル演算パイプライン（セットＯ
〜３）、ベクトルマスクレジスタ４２、マスク演算ユニ
ット４３から成る。ベクトル演算パイプラインは加算／
シフト演算器２種および乗除／論理演算器２Ｎをｌセッ
トとして４セット合計の１６本のベクトル演算パイプラ
イン（セットＯ〜３）の並列動作を実現し、ベクトル演
算の高速化を計っている。また、ベクトルマスクレジス
タ４１　（ｌｂｌｔ　Ｘ２５６語）を８個備えている。

第３図はベクトルパイプラインセットＯ〜３の有効／無
効の取り得る組合せを示す説明図である。ベクトルパイ
プラインセット０〜３の取り得る組合せは７通りである
。

第４図は２レベルよりなるキャッシュメモリ３１の各々
のレベルの有効／無効の取り得る組合せを示す説明図で
ある。２レベルが両方とも無効になったケースでは、キ
ャッシュメモリをバイパスして動作する。

第５図は第二の主メモリ１ｏの有効／無効と取り得る組
合せを示す説明図である。第二の主メモリ１０は各々独
立にアクセス可能な８つのユニットから構成される装置第６図は高速演算プロセッサ５〜８の有効／無効の取り
得る組合せを示す説明図である。上位の高速演算プロセ
ーＪす５または７が無効の場合には下位の高速演算プロ
セッサ６または８が全て無効になるように制御される。

第７図はシステム運用中に高速演算プロセッサ５〜８そ
の他で障害が発生したとき、障害の通知を受けた保守診
断装置１３の障害制御手段１２の動作を示す流れ図であ
る。以下、高速演算プロセッサ５〜８をＡＰ　（ＡＰｉ
＋　　ｉ＝０．Ｌ　　２＋３）、第二の主メモリ１０を
ＡＭ、第二のシステム制御装置２をＩＵ、制御プロセッ
サ３をＣＰ。

テストプログラムをＦＴとよぶ。

第７図において、障害処理がデパックやユーザの運用環
境に応じて変換可能なように設定可能となっているＳＧ
パラメータは規定値とする。

全体障害発生時、保守診断装置はＣＰに障害発生を通知
し、以後組み込み可／不可の通知があるまではＡＰへの
ユーザジョブのスケジューリングを保留する（ステップ
５１）。次に、ＡＰ。

ＩＵ、ＡＭの障害状態をエラーログとして採取する（ス
テップ５２）。そして、ＦＴを実行し、障害の間欠／固
定の切りわけを行なう（ステップ５３．５４）。

ＦＴが正常終了なら間欠障害とみなしＣＰに組込み可を
通知する。ＣＰは障害発生前の構成のままＡＰを再立ち
あげし、保留されていたジョブのシステム運用を再開す
る（ステップ５５）。

ＡＰのＦＴの実行結果が異常なら固定障害とみなして再
び障害時のエラーログを採取しくステップ５６）、ベク
トルバイブライン、キュッシュメモｌＪ、ＡＭに関する
縮退運転可能な障害かどうかを判定し、その結果に従っ
て構成接続情報を更新する（ステップ５７）。さらに、
ＡＰ台数の縮退も含んで縮退運転可能かどうかを判定し
くステップ５８）、縮退運転可能な障害であれば縮退し
た状態でＦＴを実行しくステップ５９）、ＦＴが正常で
あれば縮退した構成でＡＰを再立ちあげし保留されてい
たジョブの運用を再開する（ステップ６０．５５）。

縮退運転可能な障害でないケースや縮退した構成でＦＴ
の実行が異常終了したケースは、システムの継続運用は
できないとみなしてシステムダウンさせる（ステップ６
１．６２）。

次に、下記の条件を設けて障害処理制御手段の動作をさ
らに詳細に説明する。

■ＦＴを実行した全ＡＰの実行結果が正常でなくとも、
実行結果が正常なＡＰ（該ＡＰの上位ＡＰは全て実行結
果が正常でなければならない。）が存在すれば、その正
常なＡＰを組込む。

■ＡＰ台数よりもベクトル本数の多いことを優先する。

すなわち、組込むＡＰのベクトルデイグレイド状態はＩ
Ｕに接続されたＡＰのベクトルデイグレイド状態と同じ
にする。

第８図（ａ）、（ｂ）、（ｃ）、（ｄ）は障害処理制御
手段の詳細な動作を示す流れ図である。

同図にわいて、ＡＰ、ＩＵ、又はＡＭにおいて障害を検
出したとき、保守診断装置に障害発生が通知される。障
害の報告を受けた保守診断装置は障害の発生した装置の
状態をログデータとして採取するＯ障害の発生原因がＩＵ又はＡＭのケースは全体障害とみ
なす。障害の発生原因がＡＰのケースでは、該障害のＡ
Ｐ及び該障害ＡＰの全てを含んで無効にした場合、その
結果システムに有効なＡＰが存在するかどうかを判定し
、有効なＡＰが存在しない場合は、全体障害とみなすが
、有効なＡＰが存在するケースでは部分障害とみなし、
該障害のＡＰ（及び下位のＡＰ全てを含む）を無効にす
るのみでシステム運用はそのまま継続する（ステップ７
１．７２）。

全体障害のケースでは、あらかじめ設定されたＳＧに従
って間欠／固定の切分けのためのＡＰのＦＴを実行する
かどうかを判定する（ステップ７３）。ＳＧによりＦＴ
実行モードになっている場合は、次に回数のチエツクを
行なう（ステップ７４）。ＳＧでは８Ｈ以内に何回まで
ＡＰのＦＴを実行するかという指定がされており、通常
８回までは、間欠／固定の切りわけのためのＡＰのＦＴ
を実行する。ＡＰのＦＴの実行範囲は障害発生前のＡＰ
、ＡＭ、ＩＵのシステム構成で実行する（ステップ７５
）。また全体／部分障害の判定結果はＣＰに通知される
。

ＣＰは部分障害の通知を受けた場合は、該ＡＰ及び下位
のＡＰの切り離し制御を行ない、残りのＡＰを用いてシ
ステム運用を継続する。この時障害となったＡＰ及び該
ＡＰの下位のＡＰで実行中のユーザージョブがあればア
ボートされる。ＣＰが全体障害の通知を受けた場合は、
その時ＡＰで実行中のユーザージョブは全てアボートさ
れ、以後はＡＰへのユーザージョブの実行を保留させる
。この状態では、ＡＰは使用不可状態にあるが、以降ユ
ーザーから投入されるジョブはＣＰにより実行を保留さ
れるので、ユーザーに対してはＡＰの障害による影響は
与えない。

次に、ＳＧで指示されれデイグレイドにするかどうかの
判断を参照してＡＭ又はベクトルパイプラインに関し、
縮退制御を行なうかどうかをチエツクしくステップ７６
）、行なわない場合は、ＦＴを実行した全ＡＰの実行結
果が正常であれば間欠障害とみなし、全ＡＰが正常でな
ければ固定障害とみなし、実行結果が正常なＡＰが存在
する場合は、その正常なＡＰを組込むように制御する。

ＳＧ指定においてＡＭはベクトルパイプラインに関し縮
退制御を行なうケースでは、全ＡＰの実行結果をチエツ
クし、全ＡＰのＦＴ実行経過が正常であれば間欠障害と
みなし、全ＡＰを組み込み可として制御する（ステップ
７７．７８）。組み込み可／不可の通知は必ずＣＰに保
守診断プロセッサから通知され、本通知を受けたＣＰは
組み込み可ならばＡＰの再立ちあげを行ない、保留しで
あるＡＰのユーザージョブを再開させる。又、組み込み
不可ならばＡＰを切り離す。

ＳＧ指定において、ＡＭ又はベクトルパイプラインに関
し縮退制御を行なうケースで、全ＡＰのＦＴの実行結果
が正常でない場合は、まずＳＧ指定においてベクトルパ
イプラインをデイグレイドするかどうかの指定をチエツ
クする（ステップ７９）。その結果ベクトルパイプライ
ンの縮退運転がＳＧで許可されている場合はベクトルパ
イプラインのデイグレイド障害のＡＰがあるかどうかを
チエツクしくステップ８０）、ベクトルパイプラインの
デイグレイド障害のＡＰがある場合は、ＡＰ台数よりも
ベクトルパイプラインの本数が多いことを優先させ、ベ
クトルパイプラインをデイグレイドするかどうかを決定
する。すなわち、ベクトルパイプラインのデイグレイド
障害のＡＰ及びその下位に接続されるＡＰを切り離すし
た時に残るＡＰがあるケースは、ベクトルパイプのデイ
グレイド障害のＡＰ及びその配下のＡＰを切り離して、
ＡＰ台数よりもＡＰのベクトルパイプ数を優先させるよ
う制御する。ベクトルパイプラインの縮退制御は第３図
のベクトルパイプラインの有効／無効の組み合わせに従
って制御する（ステップ８Ｌ　８２．８３）。

ベクトルパイプの縮退運転がＳＧで許可されていないケ
ースやベクトルデイグレイド障害のＡＰがないケースは
、ＳＧ指定においてキャッシュデイグレイドするかどう
かをチエツクする（ステップ８４）。その結果、キャッ
シュデイグレイドして縮退運転することがＳＧで許可さ
れている場合は、ログデータを解析してキャッシュデイ
グレイド障害のＡＰがあるかどうかをチエツクし、該当
するキュッシュをデイグレイド指定する。キュッシ二の
縮退制御は、第４図のキャッシュメモリの有効／無効の
組み合わせに従って制御する（ステップ８５）。

キャッシュメモリの縮退運転のチエツク終了後は、ＡＭ
の縮退運転の可能性のチエツクを実施する。まずＳＧ指
定においてＡＭをデイグレイドするかどうかをチエツク
する。この結果、ＡＭをデイグレイドして縮退運転する
ことがＳＧで許可されている場合は、ログデータを解析
してＡＭデイグレイド障害かどうかをチエツクする。Ａ
Ｍディクレイド障害である場合は第５図の第２の主記憶
装置における有効／無効の組み合わせに従って制御する
（ステップ８６）。

ベクトルバイブラインン、キャッシュメモリ。

ＡＭに関して縮退制御を行なう時は、もともとのシステ
ム構成の１／２までを原則とする。すなゎち、もともと
のシステムで４本のベクトルパイプラインセットでＡＰ
が構成されているケースでは、ベクトルパイプラインと
して２本までの縮退、またもともとキャッシュメモリが
２レベルで構成されているケースではどちらかのルベル
までの縮退、もともとＡＭが８構成単位で構成されてい
る場合は、ＡＭとして４構成単位までの縮退をそれぞれ
原則として可能とし、それ以上の縮退は不可とする。た
だし、上記はもともとのシステム構成によって異なるこ
と及び原則であり、ユーザー環境に応じてフレクシプル
に変更することは可能である。

以上のように、ベクトルパイプライン、キャッシュメモ
！Ｊ、ＡＭに関し、縮退運転の可能性を判断した後は、
ベクトルパイプライン、キャッシュメモ！Ｊ、ＡＭのＡ
Ｐ台数のいずれか１つで縮退運転可能であったかどうか
を判定する。

縮退運転が不可能である場合は、全ＡＰを組み込み不可
としてＣＰに通知する（ステップ８７゜９０）。

ベクトルパイプライン、キャッシュメモリ。

ＡＭ、ＡＰ台数に関して、いずれかでの縮退運転が可能
である場合は、ＳＧにおいて自動併立ちあげを許可され
ているかどうかを判定し、もし許可されていない場合や
許可されていても８時間以内に８回までという再立ちあ
げ回数制限（本回数もＳＧ指定で変更可能）をオーバー
した場合は、全ＡＰを組み込み不可としてＣＰに通知す
る（ステップ８８，８９．９０）。

ベクトルパイプライン、キャッシュメモリ。

ＡＭ、ＡＰ台数に関し、いずれかでの縮退運転が可能で
、ＳＧにおいて自動併立ちあげが許可されており、かつ
８時間以内に８回までという自動併立ちあげの回数制限
をオーバーしていない場合は、縮退した構成において全
ＡＰのＦＴを実行する（ステップ９１）。その結果、Ｆ
Ｔの実行結果が正常であればＣＰにＡＰの組み込み可を
通知し、ＦＴの実行結果が異常であるばＣＰにＡＰの組
み込み不可を通知する（ステップ９２゜９３）。組み込
み可の通知を受けたＣＰはＡＰの再立ちあげを行ない、
保留しであるＡＰのユーザージョブを再開させる。

以上説明したように、ＩＵ、ＡＭ、ＡＰの全体障害時の
そのままの構成接続状態でＦＴを実行してその結果を正
常／異常により間欠／固定の障害により要因を切りわけ
、また固定障害であれば縮退運転可能かどうかをＡＰ台
数、キャッシュメモリ、ベクトルパイプライン、ＡＭに
関して判定し、縮退運転可能であれば縮退した構成でＦ
Ｔを実行し正常ならば縮退運転可能とみなし、間欠障害
または縮退運転可能にあれば自動併立ちあげを原則とし
て行なうよう障害処理を制御する。ＳＧとしては、規定
値は以上のように障害処理が制御されるよう指定されて
いるものとする。

また、障害発生時に直ちにＣＰに通知することによりＡ
Ｐ上のユーザージョブのアボートを最小限におさえると
共に、前記障害処理実行中はＣＰの制御において、ＡＰ
のユーザージョブのスケジューリングを保留し、自動併
立ちあげにより再び再開可能なように制御することより
、ユーザーに対するインパクトをできるだけ少なくする
ことが可能である。

第９図は障害処理の例を示す説明図である。

ＳＧは規定値に設定されているものとする。第９図にお
いてユーザー運用状態（Ａ）では、ＡＰ４台のうちＡＰ
Ｏ，ＡＰ２はシムテムから切り離された状態であり、Ａ
ＰＩ、ＡＰ３で運用されている。このような運用状態で
ＡＰＩとＡＰ３の障害が検出され保守診断装置に報告さ
れるものとする。

保守診断装置では、まず全体障害か部分障害かを判別す
る。本ケースはＡＰＩとＡＰ３の障害なので、障害のＡ
ＰＩとＡＰ３を無効にした場合、その結果システムに有
効なＡＰが存在しなくなるので全体障害である。したが
って、自動的に障害時の構成のままＦＴが実行される（
診断状態（Ｂ））。もし、ＦＴの実行の結果ＡＰＩ、Ａ
Ｐ３共に正常にＦＴが終了した時には、間欠障害だトミ
なして再度ＡＰＩ、ＡＰ３を接続したままの状態で自動
的に再立ちあげし、システム運用を継続する。（Ｃ−３
）のケースがこの状態を示している。

もし、ＦＴの実行の結果、ＡＰＩのみ正常でＡＰ３が異
常になるケース（本ケースはベクトル／キャッシュのデ
イグレイド障害ではないとする）は、ＡＰＩのみを有効
にし、ＡＰ３は無効にして再度ＦＴを実行しＦＴが正常
ならば再立ちあげを行ない、システム運用を継続する。

（Ｃ−４）のケースがこの状態を示している。

もし、ＦＴの実行の結果ＡＰＩのみを正常でＡＰ３が異
常になるケースでＡＰ３がベクトルパイプラインのデイ
グレイド障害のケースは、ベクトルパイプラインの本数
の方を優先させ、ＡＰ３のベクトルパイプラインの縮退
は行なわず無効にして、ＡＰＬのみ有効にし、再度ＦＴ
を実行しＦＴが正常ならば再立ちあげを行ない、システ
ム運用を継続する。（Ｃ−２）のケースがこの状態を示
している。

もし、ＦＴの実行の結果ＡＰＩが異常で固定障害を示し
、かつベクトルパイルラインのデイグレイド障害時は、
ベクトルパイプラインの縮退を実施しないとＡＰＩ、Ａ
Ｐ３共に使用できなくなるため、すなわち有効ＡＰ台数
がＯになるため、ＡＰＩとＡＰ３を同様にベクトルパイ
プラインの縮退を行ないＦＴを実行し、ＦＴの結果がＡ
ＰＩ、ＡＰ３共に正′常であれば再立ち上げを行ない、
システム運用を継続する。（Ｃ−１）のケースがこの状
態である。

もし、ＦＴの実行の結果ＡＰＩ、ＡＰＳとも異常であれ
ば固定障害とみなし、システム運用は継続されない（Ｃ
−５）。

第１０図は設定可能はＳＧの組み合わせの障害処理の概
要を示す説明図である。第１０図（ａ）は設定可能なＳ
Ｇの組み合わせの例としてＣＡＳＥｌからＣＡＳＥ６ま
での６ケースを一覧にして示している。第１０図（ｂ）
〜（ｇ）はＣＡＳＥｌからＣＡＳＥ６までの各°々の障
害処理の概略を示す流れ図である。

ＣＡＳＥＩはＳＧパラメータとして規定値を指定した場
合の例を示す。

ＣＡＳＥ２及びＣＡＳＥ３は縮退運転可能な場合でも縮
退した後のシステムの再立ちあげは許可しないモードを
示す。モしてＣＡＳＥ２は一応ディグレイド障害時には
接続構成情報の更新を実施するが、ＣＡＳＥ３は更新し
ないケースを示す。

ＣＡＳＥ４は間欠／固定の切り分けのＦＴを実行しない
モードを示す。

ＣＡＳＥ５は間欠／固定の切り分けのＦＴは実行せず自
動回文ちあげも実行しないが、デイグレイド障害時の接
続構成情報の更新は行なうケースを示す。

ＣＡＳＥ６は障害発生時に直ちにシステム運用を中止す
るモードである。

以上のようなＳＧパラメータの組み合わせはデパック時
やユーザーのシステム運用環境に応じてフレキシブルに
変更できる。

〔発明の効果〕

以上説明したように本発明は、スーパーコンピュータシ
ステムにおける高速演算プロセッサで障害発生時に自動
的に診断プログラムを起動し、間欠／固定の障害の切り
分けを実行させ、間欠障害だと自動的に再立ちあげを行
ない、固定障害であれば縮退運転可能な障害かどうかを
判定し、縮退運転可能であれば、縮退させた構成で自動
的に診断プログラムを起動し、正常であれば縮退運転さ
せるように障害処理プログラムを実行させる。障害処理
プログラム実行中は高速演算プロセッサに対するユーザ
ーＪＯＢの実行を保留させ、自動回文ち上げ後再び再開
するように制御する。したがって障害の原因が間欠障害
や縮退運転可能な固定障害の時には極力ユーザージロブ
のアボートを少なくシ、また直ちに自動回文ちあげする
ことにより、ユーザーに対する障害の影響を極力少なく
できるという効果がある。

【図面の簡単な説明】

第１図は本発明の一実施例を示す構成図、第２図は高速
演算プロセッサの説明図、第３図はベクトルパイプライ
ンセットの接続構成の組合せを示す説明図、第４図はキ
ャッシュメモリの接続の組合せを示す説明図、第５図は
第二の主メモリの接続の組合せを示す説明図、第６図は
高速演算プロセッサの接続構成の組合せを示す説明図、
第７図は障害処理制御手段の動作を示す流れ図、第８図
（ａ）〜（ｄ）は障害処理制御手段の詳細を示す流れ図
、第９図は障害処理の例を示す説明図、第１０図（ａ）
〜（ｇ）は設定可能なＳＧの組み合せの例と障害処理の
概要を示す説明図である。１．２・・・・・・システム制御装置、３・・・・・・
制御プロセッサ、４・・・・・・入出力プロセッサ、５
，６．７゜８・・・・・・高速演算プロセッサ、９．１
０・・・・・・主メモ１，１、ｉｆ・・・・・・接続構
成制御手段、１２・・・・・・障害処理制御手段、１３
・・・・・・保守診断装置、２０゜２１．２２，２３，
２４，２５，２６，２７゜２８．２９・・・・・・障害
検出手段、３０・・・・・・スカラユニット、３１・・
・・・・キャッシュメモリ、３２・・・・・・スカラレ
ジスタ、３３・・・・・・スカラ演算パイプライン、４
０・・・・・・ベクトルユニット、４１・・・・・・ベ
クトルレジスタ、セット１〜３・・・・・・ベクトル演
算パイプライン。　　　代理人　弁理士　内　原　　晋
ふミー１！龜卒Ｓ寮１０旧（のヘ５ｅ４（ｅン詐０図（ｔ〕（１）

Claims

【特許請求の範囲】１、情報処理システム全体を制御する制御プロセッサと
、周辺機器を制御する入出力プロセッサと、前記制御プ
ロセッサが実行するプログラムを格納する第一の主メモ
リとを接続した第一のシステム制御装置と、直列に接続
した複数の高速演算プロセッサと、前期高速演算プロセ
ッサが実行するプログラムおよびデータを格納する第二
の主メモリと、前記第一のシステム制御装置とを接続し
た第二のシステム制御装置とを含む情報処理システムに
おいて、前記第一および第二のシステム制御装置を接続
した保守診断装置と、前記情報処理システムの各プロセ
ッサ単位および各装置単位に障害を検出して前記保守診
断装置に通知する障害検出報告手段と、前記の各プロセ
ッサおよび装置の有効／無効の程度を示し上位の高速演
算プロセッサが無効の場合には下位の高速演算プロセッ
サを全て無効にする接続構成制御手段と、システム運用
中に障害の発生の通知をうけたとき有効な高速演算プロ
セッサが存在するかどうかを判定し、有効な高速演算プ
ロサッサが存在しない場合には高速演算プロセッサのテ
ストプログラムを実行し、前記テストプログラムの実行
結果が正常であれば従前の接続構成でシステム運用を再
開し、前記テストプログラムの実行結果が異常であれば
障害の原因に応じて前記第二の主メモリおよび高速演算
プロセッサを部分的に無効にして縮退した接続構成で再
び前記テストプログラムを実行し、前記テストプログラ
ムの実行結果が正常であれば前記縮退した接続構成でシ
ステム運用を再開する障害処理制御手段とを具備するこ
とを特徴とする障害処理方式。２、前記１回目のテストプログラムを起動するか否かを
あらかじめ定められた情報に従って判定し制御すること
を特徴とする請求項１記載の障害処理方式。３、前記テストプログラムの実行結果が正常のとき高速
演算プロセッサの運用を再開するか否かをあらかじめ定
められた情報に従って判定し制御することを特徴とする
請求項１または２記載の障害処理方式。４、前記高速演算プロセッサは複合演算パイプラインを
含んだ複数のベクトル演算パイプラインを備え、前記接
続構成制御手段は前記複数のベクトル演算パイプライン
の一部を無効にすること含むことを特徴とする請求項１
または２または３記載の障害処理方式。５、前記接続構成制御手段は前記第二の主メモリの一部
を無効にすること含むことを特徴とする請求項１または
２または３または４記載の障害処理方式。６、前記接続構成制御手段は前記高速演算プロセッサ内
に含まれるキャッシュの一部を無効にすること含むこと
を特徴とする請求項１または２または３または４または
５記載の障害処理方式。７、前記第二の主メモリおよび高速演算プロセッサを部
分的に無効にするか否かを障害の原因に従ってあらかじ
め定められた情報に従って判定し制御することを特徴と
する請求項１または２または３または４または５または
６記載の障害処理方式。８、前記第二のシステム制御装置および第二の主メモリ
が原因で障害になった場合は前記システムの全体障害と
みなして前記高速演算プロセッサと同様に障害処理をす
ることを特徴とする請求項１または２または３または４
または５または６または７記載の障害処理方式。