JPH03259349A - 障害処理方式 - Google Patents

障害処理方式

Info

Publication number
JPH03259349A
JPH03259349A JP2058619A JP5861990A JPH03259349A JP H03259349 A JPH03259349 A JP H03259349A JP 2058619 A JP2058619 A JP 2058619A JP 5861990 A JP5861990 A JP 5861990A JP H03259349 A JPH03259349 A JP H03259349A
Authority
JP
Japan
Prior art keywords
failure
fault
processor
main memory
speed arithmetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2058619A
Other languages
English (en)
Other versions
JP2752764B2 (ja
Inventor
Akira Jitsupou
実宝 昭
Akihiko Nakamura
昭彦 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Computertechno Ltd
Original Assignee
NEC Corp
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Computertechno Ltd filed Critical NEC Corp
Priority to JP2058619A priority Critical patent/JP2752764B2/ja
Priority to EP91103469A priority patent/EP0445799B1/en
Priority to DE69120104T priority patent/DE69120104T2/de
Priority to CA002037776A priority patent/CA2037776C/en
Priority to US07/665,955 priority patent/US5280606A/en
Publication of JPH03259349A publication Critical patent/JPH03259349A/ja
Application granted granted Critical
Publication of JP2752764B2 publication Critical patent/JP2752764B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0763Error or fault detection not based on redundancy by bit configuration check, e.g. of formats or tags
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)
  • Processing Or Creating Images (AREA)
  • Complex Calculations (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は情報処理システムの障害処理方式に関し、特に
高速演算プロセッサの障害処理方式に関する。
〔従来の技術〕
スーパーコンピュータは汎用計算機と比べ桁違いに高速
な演算処理能力を持っており、特に科学・技術の領域で
さまざまな研究や技術開発のために利用されている。こ
のようなスーパーコンピュータにわいて、高速演算を実
現するハードウェア上の工夫として基本的に2つの方法
が採用されている。 第1の方法は、速度=処理量/時
間であることから、処理量一定としてその処理量をこな
す処理時間を短縮することである。このことはコンピュ
ータの基本の処理単位であるクロックを可能な限り短縮
することである。スーパーコンピュータのクロックは年
々短縮化され、汎用機と比べ1桁以上速い2.9n秒(
光が約3.6m進む時間)に16個の64ビット浮動小
数点演算可能なスーパコンピュータも商用化されている
第二の方法は、主記憶に対するデータアクセスを極力減
らす工夫である。スーパコンピュータでは特に大量のデ
ータを1度に扱うので、主記憶に対してアクセスが頻発
すると高性能を実現することができない。したがって、
主記憶アクセスに比ベアクセス化が短かくてすむレジス
タアクセスを有効に利用できるように、ソフソウェアビ
ノブルなレジスタを大量に準備することによって主記憶
アクセフを大幅にへらす工夫をしている。
上記のように、スーバコンピュータハマシーンクロック
が短かく大量にソフトビジプルレジスタを備えているの
で、障害発生に汎用機のようにソフトウェアビジプルレ
ジスタを保持しておき命令リトライやプロセッサリリー
フのような障害処理をすることは困難である。すなわち
、マシーンクロックが短いということは、障害を検出し
てからクロックが停止するまでのクロック数が多くなる
ことを意味しており、クロック数で比較した場合に汎用
機と比べすべりが大きくなり、命令IJ )ライやプロ
セッサリリーフのためのソフトウェアビジプルな情報の
保留が困難である。また、ソフトウェアビジプルなレジ
スタが汎用機と比べ大量にあるということはやはり命令
リトライやプロセッサリリーフのためのソフトウェアビ
ジプルな情報をホールドすることを難しくしている。
〔発明が解決しようとする課題〕
上述したように性能を最重視するスーパーコンピュータ
システムにおいては、障害発生時に命令リトライやプロ
セッサリリーフのための情報の保持が困難であり、障害
の原因が間欠障害や縮退運転可能な固定障害でも直ちに
システムダウンにしてしまい、ユーザーに対する影響が
大きいという欠点があった。また実行中のジョブをアボ
ートされるだけでなく以後のユーザージロブが全てアボ
ートされるという欠点もあった。
〔課題を解決するための手段〕
本発明の障害処理方式は、情報処理システム全体を制御
する制御プロセッサと9周辺機器を制御する入出力プロ
セッサと、前記制御プロセッサが実行するプログラムを
格納する第一の主メモリとを接続した第一のシステム制
御装置と、直列に接続した複数の高速演算プロセッサと
、前期高速演算プロセッサが実行するプログラムおよび
データを格納する第二の主メモリと、前記第一のシステ
ム制御装置とを接続した第二のシステム制御装置とを含
む情報処理システムにおいて、前記第一および第二のシ
ステム制御装置を接続した保守診断装置と、前記情報処
理システムの各プロセッサ単位および各装置単位に障害
を検出して前記保守診断装置に通知する障害検出報告手
段と、前記の各プロセッサおよび装置の有効/無効の程
度を示し上位の高速演算プロセッサが無効の場合には下
位の高速演算プロセッサを全て無効にする接続構成制御
手段と、システム運用中に障害の発生の通知をうけたと
き有効な高速演算プロセッサが存在するかどうかを判定
し、有効な高速演算プロサッサが存在しない場合には高
速演算プロセッサのテストプログラムを実行し、前記テ
ストプログラムの実行結果が正常であれば従前の接続構
成でシステム運用を再開し、前記テストプログラムの実
行結果が異常であれば障害の原因に応じて前記第二の主
メモリおよび高速演算プロセッサを部分的に無効にして
縮退した接続構成で再び前記テストプログラムを実行し
、前記テストプログラムの実行Pa果が正常であれば前
記縮退した接続構成でシステム運用を再開する障害処理
制御手段とを具備するよるにして構成される。
また、本発明の障害処理方式は、前記1回目のテストプ
ログラムを起動するか否かをあらかじめ定められた情報
に従って判定し制御する。
さらに、前記テストプログラムの実行結果が正常のとき
高速演算プロセッサの運用を再開するか否かをあらかじ
め定められた情報に従って判定し制御する。
また、本発明の障害処理方式において、前記高速演算プ
ロセッサは複合演算バイブラインを含んだ複数のベクト
ル演算パイプラインを備え、前記接続構成制御手段は前
記複数のベクトル演算パイプラインの一部を無効にする
こと含む。
さらに、前記接続構成制御手段は前記第二の主メモリの
一部を無効にすること含む。
さらに、前記接続構成制御手段は前記高速演算プロセッ
サ内に含まれるキャッシュの一部を無効にすること含む
また、本発明の障害処理方式は、前記第二の主メモリお
よび高速演算プロセッサを部分的に無効にするか否かを
障害の原因に従ってあらかじめ定められた情報に従って
判定し制御する。
さらに、本発明の障害処理方式は、前記第二のシステム
制御装置および第二の主メモリが原因で障害になった場
合は前記システムの全体障害とみなして前記高速演算プ
ロセッサと同様に障害処理をする。
〔実施例〕
次に、本発明について図面を参照して説明する。
第1図は本発明の一実施例を示す構成図である。同図に
おいて障害処理方式は、情報処理システム全体を制御す
る制御プロセッサ3と9周辺機器を制御する入出力プロ
セッサ4と、前記制御プロセッサ3が実行するプログラ
ムを格納する第一の主メモリ9とを接続した第一のシス
テム制御装置1と、直列に接続した複数の高速演算プロ
セッサ5〜8と、前記高速プロセッサ5〜8が実行する
プログラムおよびデータを格納する第二の主メモリ10
と、前記第一のシステム制御装置lとを接続した第二の
システム制御装置2とを含む情報処理システムにおいて
、前記第一および第二のシステム制御装置を接続した保
守診断装置13と、前記情報処理システムの各プロセッ
サ単位および各装置単位に障害を検出して前記保守診断
装置13に通知する障害検出報告手段20〜29と、前
記の各プロセッサおよび装置の有効/無効の程度を示し
高速演算プロセッサが無効の場合には下位の高速演算プ
ロセッサを全て無効にする接続構成制御手段11とを有
している。さらに、システム運用中に障害の発生の通知
をうけたとき、有効な高速演算プロセッサが存在するか
どうかを判定し、有効な高速演算プロセッサが存在しな
い場合には高速演算プロセッサのテストプログラムを実
行し、前記テストプログラムの実行結果が正常であれば
従前の接続構成でシステム運用を再開し、前記テストプ
ログラムの実行結果が異常であれば障害の原因に応じて
前記第二の主メモリおよび高速演算プロセッサを部分的
に無効にして縮退した接続構成で再び前記テストプログ
ラムを実行し、前記テストプログラムの実行結果が正常
あれは前記の縮退した接続構成でシステム運用を再開す
る障害処理制御手段12を具備する。
制御プロセッサ3はスーパーバイザー機能を持ち、ユー
ザープログラムのコンパイル、リンクを実現している。
第二の主メモリ9は制御プロセッサを制御する制御プロ
グラムや制御用データを格納している。さらに第二の主
メモリ20はユーザプログラムのロードモジュールや演
算用データを格納し、高速演算プロセッサ5〜8はユー
ザープログラムを高速に実行する。そして、入出力プロ
セッサ、制御プロセッサ及び高速演算プロセッサは各々
に独立に動作することができ、システムのスループット
を高めている。
保守診断装置13は、システムの初期設定機能、立ちあ
げ機能、構成制御機能、障害処理機能を備えている。
第2図は高速演算プロセッサを示す説明図である。高速
演算プロセッサは機能的に、スカシユニット30とベク
トルユニット40とにわかれる。
スカシユニット30は、主記憶装置からとり出した命令
を解読する。解読した命令がスカシ命令であればスカシ
ユニットで実行し、ベクトル命令であれば、ペルトルユ
ニットで実行する。
スカシユニット30はスカラ演算用レジスタとして12
8個の汎用レジスタ(スカシレジスタ)32を用意して
、レジスタ主体のアーキテクチャによって高速化してい
る。また、主記憶装置へのアクセス時間を実効的に短縮
する手段として64にバイトの容量の2レベルのキャッ
シュメモリ31があり、主記憶アクセスに対して高速に
応答する。さらに、スカシ演算は8バイトデータ演算を
基本とし、スカシの加減算、論理演算、シフト、乗除算
の各演算器から構成されたパイプライン化されたスカシ
演算パイプライン33で実行される。
ベクトルユニット40は大容量のベクトルレジスタ4工
を中心に16本のベクトル演算パイプライン(セットO
〜3)、ベクトルマスクレジスタ42、マスク演算ユニ
ット43から成る。ベクトル演算パイプラインは加算/
シフト演算器2種および乗除/論理演算器2Nをlセッ
トとして4セット合計の16本のベクトル演算パイプラ
イン(セットO〜3)の並列動作を実現し、ベクトル演
算の高速化を計っている。また、ベクトルマスクレジス
タ41 (lblt X256語)を8個備えている。
第3図はベクトルパイプラインセットO〜3の有効/無
効の取り得る組合せを示す説明図である。ベクトルパイ
プラインセット0〜3の取り得る組合せは7通りである
第4図は2レベルよりなるキャッシュメモリ31の各々
のレベルの有効/無効の取り得る組合せを示す説明図で
ある。2レベルが両方とも無効になったケースでは、キ
ャッシュメモリをバイパスして動作する。
第5図は第二の主メモリ1oの有効/無効と取り得る組
合せを示す説明図である。第二の主メモリ10は各々独
立にアクセス可能な8つのユニットから構成される装置 第6図は高速演算プロセッサ5〜8の有効/無効の取り
得る組合せを示す説明図である。上位の高速演算プロセ
ーJす5または7が無効の場合には下位の高速演算プロ
セッサ6または8が全て無効になるように制御される。
第7図はシステム運用中に高速演算プロセッサ5〜8そ
の他で障害が発生したとき、障害の通知を受けた保守診
断装置13の障害制御手段12の動作を示す流れ図であ
る。以下、高速演算プロセッサ5〜8をAP (APi
+  i=0.L  2+3)、第二の主メモリ10を
AM、第二のシステム制御装置2をIU、制御プロセッ
サ3をCP。
テストプログラムをFTとよぶ。
第7図において、障害処理がデパックやユーザの運用環
境に応じて変換可能なように設定可能となっているSG
パラメータは規定値とする。
全体障害発生時、保守診断装置はCPに障害発生を通知
し、以後組み込み可/不可の通知があるまではAPへの
ユーザジョブのスケジューリングを保留する(ステップ
51)。次に、AP。
IU、AMの障害状態をエラーログとして採取する(ス
テップ52)。そして、FTを実行し、障害の間欠/固
定の切りわけを行なう(ステップ53.54)。
FTが正常終了なら間欠障害とみなしCPに組込み可を
通知する。CPは障害発生前の構成のままAPを再立ち
あげし、保留されていたジョブのシステム運用を再開す
る(ステップ55)。
APのFTの実行結果が異常なら固定障害とみなして再
び障害時のエラーログを採取しくステップ56)、ベク
トルバイブライン、キュッシュメモlJ、AMに関する
縮退運転可能な障害かどうかを判定し、その結果に従っ
て構成接続情報を更新する(ステップ57)。さらに、
AP台数の縮退も含んで縮退運転可能かどうかを判定し
くステップ58)、縮退運転可能な障害であれば縮退し
た状態でFTを実行しくステップ59)、FTが正常で
あれば縮退した構成でAPを再立ちあげし保留されてい
たジョブの運用を再開する(ステップ60.55)。
縮退運転可能な障害でないケースや縮退した構成でFT
の実行が異常終了したケースは、システムの継続運用は
できないとみなしてシステムダウンさせる(ステップ6
1.62)。
次に、下記の条件を設けて障害処理制御手段の動作をさ
らに詳細に説明する。
■FTを実行した全APの実行結果が正常でなくとも、
実行結果が正常なAP(該APの上位APは全て実行結
果が正常でなければならない。)が存在すれば、その正
常なAPを組込む。
■AP台数よりもベクトル本数の多いことを優先する。
すなわち、組込むAPのベクトルデイグレイド状態はI
Uに接続されたAPのベクトルデイグレイド状態と同じ
にする。
第8図(a)、(b)、(c)、(d)は障害処理制御
手段の詳細な動作を示す流れ図である。
同図にわいて、AP、IU、又はAMにおいて障害を検
出したとき、保守診断装置に障害発生が通知される。障
害の報告を受けた保守診断装置は障害の発生した装置の
状態をログデータとして採取するO 障害の発生原因がIU又はAMのケースは全体障害とみ
なす。障害の発生原因がAPのケースでは、該障害のA
P及び該障害APの全てを含んで無効にした場合、その
結果システムに有効なAPが存在するかどうかを判定し
、有効なAPが存在しない場合は、全体障害とみなすが
、有効なAPが存在するケースでは部分障害とみなし、
該障害のAP(及び下位のAP全てを含む)を無効にす
るのみでシステム運用はそのまま継続する(ステップ7
1.72)。
全体障害のケースでは、あらかじめ設定されたSGに従
って間欠/固定の切分けのためのAPのFTを実行する
かどうかを判定する(ステップ73)。SGによりFT
実行モードになっている場合は、次に回数のチエツクを
行なう(ステップ74)。SGでは8H以内に何回まで
APのFTを実行するかという指定がされており、通常
8回までは、間欠/固定の切りわけのためのAPのFT
を実行する。APのFTの実行範囲は障害発生前のAP
、AM、IUのシステム構成で実行する(ステップ75
)。また全体/部分障害の判定結果はCPに通知される
CPは部分障害の通知を受けた場合は、該AP及び下位
のAPの切り離し制御を行ない、残りのAPを用いてシ
ステム運用を継続する。この時障害となったAP及び該
APの下位のAPで実行中のユーザージョブがあればア
ボートされる。CPが全体障害の通知を受けた場合は、
その時APで実行中のユーザージョブは全てアボートさ
れ、以後はAPへのユーザージョブの実行を保留させる
。この状態では、APは使用不可状態にあるが、以降ユ
ーザーから投入されるジョブはCPにより実行を保留さ
れるので、ユーザーに対してはAPの障害による影響は
与えない。
次に、SGで指示されれデイグレイドにするかどうかの
判断を参照してAM又はベクトルパイプラインに関し、
縮退制御を行なうかどうかをチエツクしくステップ76
)、行なわない場合は、FTを実行した全APの実行結
果が正常であれば間欠障害とみなし、全APが正常でな
ければ固定障害とみなし、実行結果が正常なAPが存在
する場合は、その正常なAPを組込むように制御する。
SG指定においてAMはベクトルパイプラインに関し縮
退制御を行なうケースでは、全APの実行結果をチエツ
クし、全APのFT実行経過が正常であれば間欠障害と
みなし、全APを組み込み可として制御する(ステップ
77.78)。組み込み可/不可の通知は必ずCPに保
守診断プロセッサから通知され、本通知を受けたCPは
組み込み可ならばAPの再立ちあげを行ない、保留しで
あるAPのユーザージョブを再開させる。又、組み込み
不可ならばAPを切り離す。
SG指定において、AM又はベクトルパイプラインに関
し縮退制御を行なうケースで、全APのFTの実行結果
が正常でない場合は、まずSG指定においてベクトルパ
イプラインをデイグレイドするかどうかの指定をチエツ
クする(ステップ79)。その結果ベクトルパイプライ
ンの縮退運転がSGで許可されている場合はベクトルパ
イプラインのデイグレイド障害のAPがあるかどうかを
チエツクしくステップ80)、ベクトルパイプラインの
デイグレイド障害のAPがある場合は、AP台数よりも
ベクトルパイプラインの本数が多いことを優先させ、ベ
クトルパイプラインをデイグレイドするかどうかを決定
する。すなわち、ベクトルパイプラインのデイグレイド
障害のAP及びその下位に接続されるAPを切り離すし
た時に残るAPがあるケースは、ベクトルパイプのデイ
グレイド障害のAP及びその配下のAPを切り離して、
AP台数よりもAPのベクトルパイプ数を優先させるよ
う制御する。ベクトルパイプラインの縮退制御は第3図
のベクトルパイプラインの有効/無効の組み合わせに従
って制御する(ステップ8L 82.83)。
ベクトルパイプの縮退運転がSGで許可されていないケ
ースやベクトルデイグレイド障害のAPがないケースは
、SG指定においてキャッシュデイグレイドするかどう
かをチエツクする(ステップ84)。その結果、キャッ
シュデイグレイドして縮退運転することがSGで許可さ
れている場合は、ログデータを解析してキャッシュデイ
グレイド障害のAPがあるかどうかをチエツクし、該当
するキュッシュをデイグレイド指定する。キュッシ二の
縮退制御は、第4図のキャッシュメモリの有効/無効の
組み合わせに従って制御する(ステップ85)。
キャッシュメモリの縮退運転のチエツク終了後は、AM
の縮退運転の可能性のチエツクを実施する。まずSG指
定においてAMをデイグレイドするかどうかをチエツク
する。この結果、AMをデイグレイドして縮退運転する
ことがSGで許可されている場合は、ログデータを解析
してAMデイグレイド障害かどうかをチエツクする。A
Mディクレイド障害である場合は第5図の第2の主記憶
装置における有効/無効の組み合わせに従って制御する
(ステップ86)。
ベクトルバイブラインン、キャッシュメモリ。
AMに関して縮退制御を行なう時は、もともとのシステ
ム構成の1/2までを原則とする。すなゎち、もともと
のシステムで4本のベクトルパイプラインセットでAP
が構成されているケースでは、ベクトルパイプラインと
して2本までの縮退、またもともとキャッシュメモリが
2レベルで構成されているケースではどちらかのルベル
までの縮退、もともとAMが8構成単位で構成されてい
る場合は、AMとして4構成単位までの縮退をそれぞれ
原則として可能とし、それ以上の縮退は不可とする。た
だし、上記はもともとのシステム構成によって異なるこ
と及び原則であり、ユーザー環境に応じてフレクシプル
に変更することは可能である。
以上のように、ベクトルパイプライン、キャッシュメモ
!J、AMに関し、縮退運転の可能性を判断した後は、
ベクトルパイプライン、キャッシュメモ!J、AMのA
P台数のいずれか1つで縮退運転可能であったかどうか
を判定する。
縮退運転が不可能である場合は、全APを組み込み不可
としてCPに通知する(ステップ87゜90)。
ベクトルパイプライン、キャッシュメモリ。
AM、AP台数に関して、いずれかでの縮退運転が可能
である場合は、SGにおいて自動併立ちあげを許可され
ているかどうかを判定し、もし許可されていない場合や
許可されていても8時間以内に8回までという再立ちあ
げ回数制限(本回数もSG指定で変更可能)をオーバー
した場合は、全APを組み込み不可としてCPに通知す
る(ステップ88,89.90)。
ベクトルパイプライン、キャッシュメモリ。
AM、AP台数に関し、いずれかでの縮退運転が可能で
、SGにおいて自動併立ちあげが許可されており、かつ
8時間以内に8回までという自動併立ちあげの回数制限
をオーバーしていない場合は、縮退した構成において全
APのFTを実行する(ステップ91)。その結果、F
Tの実行結果が正常であればCPにAPの組み込み可を
通知し、FTの実行結果が異常であるばCPにAPの組
み込み不可を通知する(ステップ92゜93)。組み込
み可の通知を受けたCPはAPの再立ちあげを行ない、
保留しであるAPのユーザージョブを再開させる。
以上説明したように、IU、AM、APの全体障害時の
そのままの構成接続状態でFTを実行してその結果を正
常/異常により間欠/固定の障害により要因を切りわけ
、また固定障害であれば縮退運転可能かどうかをAP台
数、キャッシュメモリ、ベクトルパイプライン、AMに
関して判定し、縮退運転可能であれば縮退した構成でF
Tを実行し正常ならば縮退運転可能とみなし、間欠障害
または縮退運転可能にあれば自動併立ちあげを原則とし
て行なうよう障害処理を制御する。SGとしては、規定
値は以上のように障害処理が制御されるよう指定されて
いるものとする。
また、障害発生時に直ちにCPに通知することによりA
P上のユーザージョブのアボートを最小限におさえると
共に、前記障害処理実行中はCPの制御において、AP
のユーザージョブのスケジューリングを保留し、自動併
立ちあげにより再び再開可能なように制御することより
、ユーザーに対するインパクトをできるだけ少なくする
ことが可能である。
第9図は障害処理の例を示す説明図である。
SGは規定値に設定されているものとする。第9図にお
いてユーザー運用状態(A)では、AP4台のうちAP
O,AP2はシムテムから切り離された状態であり、A
PI、AP3で運用されている。このような運用状態で
APIとAP3の障害が検出され保守診断装置に報告さ
れるものとする。
保守診断装置では、まず全体障害か部分障害かを判別す
る。本ケースはAPIとAP3の障害なので、障害のA
PIとAP3を無効にした場合、その結果システムに有
効なAPが存在しなくなるので全体障害である。したが
って、自動的に障害時の構成のままFTが実行される(
診断状態(B))。もし、FTの実行の結果API、A
P3共に正常にFTが終了した時には、間欠障害だトミ
なして再度API、AP3を接続したままの状態で自動
的に再立ちあげし、システム運用を継続する。(C−3
)のケースがこの状態を示している。
もし、FTの実行の結果、APIのみ正常でAP3が異
常になるケース(本ケースはベクトル/キャッシュのデ
イグレイド障害ではないとする)は、APIのみを有効
にし、AP3は無効にして再度FTを実行しFTが正常
ならば再立ちあげを行ない、システム運用を継続する。
(C−4)のケースがこの状態を示している。
もし、FTの実行の結果APIのみを正常でAP3が異
常になるケースでAP3がベクトルパイプラインのデイ
グレイド障害のケースは、ベクトルパイプラインの本数
の方を優先させ、AP3のベクトルパイプラインの縮退
は行なわず無効にして、APLのみ有効にし、再度FT
を実行しFTが正常ならば再立ちあげを行ない、システ
ム運用を継続する。(C−2)のケースがこの状態を示
している。
もし、FTの実行の結果APIが異常で固定障害を示し
、かつベクトルパイルラインのデイグレイド障害時は、
ベクトルパイプラインの縮退を実施しないとAPI、A
P3共に使用できなくなるため、すなわち有効AP台数
がOになるため、APIとAP3を同様にベクトルパイ
プラインの縮退を行ないFTを実行し、FTの結果がA
PI、AP3共に正′常であれば再立ち上げを行ない、
システム運用を継続する。(C−1)のケースがこの状
態である。
もし、FTの実行の結果API、APSとも異常であれ
ば固定障害とみなし、システム運用は継続されない(C
−5)。
第10図は設定可能はSGの組み合わせの障害処理の概
要を示す説明図である。第10図(a)は設定可能なS
Gの組み合わせの例としてCASElからCASE6ま
での6ケースを一覧にして示している。第10図(b)
〜(g)はCASElからCASE6までの各°々の障
害処理の概略を示す流れ図である。
CASEIはSGパラメータとして規定値を指定した場
合の例を示す。
CASE2及びCASE3は縮退運転可能な場合でも縮
退した後のシステムの再立ちあげは許可しないモードを
示す。モしてCASE2は一応ディグレイド障害時には
接続構成情報の更新を実施するが、CASE3は更新し
ないケースを示す。
CASE4は間欠/固定の切り分けのFTを実行しない
モードを示す。
CASE5は間欠/固定の切り分けのFTは実行せず自
動回文ちあげも実行しないが、デイグレイド障害時の接
続構成情報の更新は行なうケースを示す。
CASE6は障害発生時に直ちにシステム運用を中止す
るモードである。
以上のようなSGパラメータの組み合わせはデパック時
やユーザーのシステム運用環境に応じてフレキシブルに
変更できる。
〔発明の効果〕
以上説明したように本発明は、スーパーコンピュータシ
ステムにおける高速演算プロセッサで障害発生時に自動
的に診断プログラムを起動し、間欠/固定の障害の切り
分けを実行させ、間欠障害だと自動的に再立ちあげを行
ない、固定障害であれば縮退運転可能な障害かどうかを
判定し、縮退運転可能であれば、縮退させた構成で自動
的に診断プログラムを起動し、正常であれば縮退運転さ
せるように障害処理プログラムを実行させる。障害処理
プログラム実行中は高速演算プロセッサに対するユーザ
ーJOBの実行を保留させ、自動回文ち上げ後再び再開
するように制御する。したがって障害の原因が間欠障害
や縮退運転可能な固定障害の時には極力ユーザージロブ
のアボートを少なくシ、また直ちに自動回文ちあげする
ことにより、ユーザーに対する障害の影響を極力少なく
できるという効果がある。
【図面の簡単な説明】
第1図は本発明の一実施例を示す構成図、第2図は高速
演算プロセッサの説明図、第3図はベクトルパイプライ
ンセットの接続構成の組合せを示す説明図、第4図はキ
ャッシュメモリの接続の組合せを示す説明図、第5図は
第二の主メモリの接続の組合せを示す説明図、第6図は
高速演算プロセッサの接続構成の組合せを示す説明図、
第7図は障害処理制御手段の動作を示す流れ図、第8図
(a)〜(d)は障害処理制御手段の詳細を示す流れ図
、第9図は障害処理の例を示す説明図、第10図(a)
〜(g)は設定可能なSGの組み合せの例と障害処理の
概要を示す説明図である。 1.2・・・・・・システム制御装置、3・・・・・・
制御プロセッサ、4・・・・・・入出力プロセッサ、5
,6.7゜8・・・・・・高速演算プロセッサ、9.1
0・・・・・・主メモ1,1、if・・・・・・接続構
成制御手段、12・・・・・・障害処理制御手段、13
・・・・・・保守診断装置、20゜21.22,23,
24,25,26,27゜28.29・・・・・・障害
検出手段、30・・・・・・スカラユニット、31・・
・・・・キャッシュメモリ、32・・・・・・スカラレ
ジスタ、33・・・・・・スカラ演算パイプライン、4
0・・・・・・ベクトルユニット、41・・・・・・ベ
クトルレジスタ、セット1〜3・・・・・・ベクトル演
算パイプライン。   代理人 弁理士 内 原  晋
ふミー1!龜 卒 S 寮 10 旧(の ヘ5e4 (eン 詐 0 図 (t〕 (1)

Claims (1)

  1. 【特許請求の範囲】 1、情報処理システム全体を制御する制御プロセッサと
    、周辺機器を制御する入出力プロセッサと、前記制御プ
    ロセッサが実行するプログラムを格納する第一の主メモ
    リとを接続した第一のシステム制御装置と、直列に接続
    した複数の高速演算プロセッサと、前期高速演算プロセ
    ッサが実行するプログラムおよびデータを格納する第二
    の主メモリと、前記第一のシステム制御装置とを接続し
    た第二のシステム制御装置とを含む情報処理システムに
    おいて、前記第一および第二のシステム制御装置を接続
    した保守診断装置と、前記情報処理システムの各プロセ
    ッサ単位および各装置単位に障害を検出して前記保守診
    断装置に通知する障害検出報告手段と、前記の各プロセ
    ッサおよび装置の有効/無効の程度を示し上位の高速演
    算プロセッサが無効の場合には下位の高速演算プロセッ
    サを全て無効にする接続構成制御手段と、システム運用
    中に障害の発生の通知をうけたとき有効な高速演算プロ
    セッサが存在するかどうかを判定し、有効な高速演算プ
    ロサッサが存在しない場合には高速演算プロセッサのテ
    ストプログラムを実行し、前記テストプログラムの実行
    結果が正常であれば従前の接続構成でシステム運用を再
    開し、前記テストプログラムの実行結果が異常であれば
    障害の原因に応じて前記第二の主メモリおよび高速演算
    プロセッサを部分的に無効にして縮退した接続構成で再
    び前記テストプログラムを実行し、前記テストプログラ
    ムの実行結果が正常であれば前記縮退した接続構成でシ
    ステム運用を再開する障害処理制御手段とを具備するこ
    とを特徴とする障害処理方式。 2、前記1回目のテストプログラムを起動するか否かを
    あらかじめ定められた情報に従って判定し制御すること
    を特徴とする請求項1記載の障害処理方式。 3、前記テストプログラムの実行結果が正常のとき高速
    演算プロセッサの運用を再開するか否かをあらかじめ定
    められた情報に従って判定し制御することを特徴とする
    請求項1または2記載の障害処理方式。 4、前記高速演算プロセッサは複合演算パイプラインを
    含んだ複数のベクトル演算パイプラインを備え、前記接
    続構成制御手段は前記複数のベクトル演算パイプライン
    の一部を無効にすること含むことを特徴とする請求項1
    または2または3記載の障害処理方式。 5、前記接続構成制御手段は前記第二の主メモリの一部
    を無効にすること含むことを特徴とする請求項1または
    2または3または4記載の障害処理方式。 6、前記接続構成制御手段は前記高速演算プロセッサ内
    に含まれるキャッシュの一部を無効にすること含むこと
    を特徴とする請求項1または2または3または4または
    5記載の障害処理方式。 7、前記第二の主メモリおよび高速演算プロセッサを部
    分的に無効にするか否かを障害の原因に従ってあらかじ
    め定められた情報に従って判定し制御することを特徴と
    する請求項1または2または3または4または5または
    6記載の障害処理方式。 8、前記第二のシステム制御装置および第二の主メモリ
    が原因で障害になった場合は前記システムの全体障害と
    みなして前記高速演算プロセッサと同様に障害処理をす
    ることを特徴とする請求項1または2または3または4
    または5または6または7記載の障害処理方式。
JP2058619A 1990-03-08 1990-03-08 障害処理方式 Expired - Lifetime JP2752764B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2058619A JP2752764B2 (ja) 1990-03-08 1990-03-08 障害処理方式
EP91103469A EP0445799B1 (en) 1990-03-08 1991-03-07 Fault recovery processing for supercomputer
DE69120104T DE69120104T2 (de) 1990-03-08 1991-03-07 Fehlerbeseitigung für Superrechner
CA002037776A CA2037776C (en) 1990-03-08 1991-03-07 Fault recovery processing for supercomputer
US07/665,955 US5280606A (en) 1990-03-08 1991-03-08 Fault recovery processing for supercomputer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2058619A JP2752764B2 (ja) 1990-03-08 1990-03-08 障害処理方式

Publications (2)

Publication Number Publication Date
JPH03259349A true JPH03259349A (ja) 1991-11-19
JP2752764B2 JP2752764B2 (ja) 1998-05-18

Family

ID=13089581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2058619A Expired - Lifetime JP2752764B2 (ja) 1990-03-08 1990-03-08 障害処理方式

Country Status (5)

Country Link
US (1) US5280606A (ja)
EP (1) EP0445799B1 (ja)
JP (1) JP2752764B2 (ja)
CA (1) CA2037776C (ja)
DE (1) DE69120104T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117397B1 (en) 1999-12-15 2006-10-03 Fujitsu Limited Apparatus and method for preventing an erroneous operation at the time of detection of a system failure

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2106280C (en) * 1992-09-30 2000-01-18 Yennun Huang Apparatus and methods for fault-tolerant computing employing a daemon monitoring process and fault-tolerant library to provide varying degrees of fault tolerance
JP2829241B2 (ja) * 1994-07-26 1998-11-25 三菱電機株式会社 プラント支援装置
US5653060A (en) * 1994-08-31 1997-08-05 Ykk Architectural Products Inc. Sliding window structure
US5991895A (en) * 1995-05-05 1999-11-23 Silicon Graphics, Inc. System and method for multiprocessor partitioning to support high availability
US6912670B2 (en) * 2002-01-22 2005-06-28 International Business Machines Corporation Processor internal error handling in an SMP server
US9501448B2 (en) * 2008-05-27 2016-11-22 Stillwater Supercomputing, Inc. Execution engine for executing single assignment programs with affine dependencies
US8560924B2 (en) * 2010-01-05 2013-10-15 International Business Machines Corporation Register file soft error recovery

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3374465A (en) * 1965-03-19 1968-03-19 Hughes Aircraft Co Multiprocessor system having floating executive control
US4839895A (en) * 1987-01-07 1989-06-13 Nec Corporation Early failure detection system for multiprocessor system
US4970640A (en) * 1987-08-28 1990-11-13 International Business Machines Corporation Device initiated partial system quiescing
US4903264A (en) * 1988-04-18 1990-02-20 Motorola, Inc. Method and apparatus for handling out of order exceptions in a pipelined data unit
JPH0719211B2 (ja) * 1988-10-08 1995-03-06 日本電気株式会社 クロック制御方式
US5020059A (en) * 1989-03-31 1991-05-28 At&T Bell Laboratories Reconfigurable signal processor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117397B1 (en) 1999-12-15 2006-10-03 Fujitsu Limited Apparatus and method for preventing an erroneous operation at the time of detection of a system failure

Also Published As

Publication number Publication date
EP0445799A2 (en) 1991-09-11
EP0445799A3 (en) 1992-08-05
JP2752764B2 (ja) 1998-05-18
US5280606A (en) 1994-01-18
CA2037776C (en) 1995-10-24
CA2037776A1 (en) 1991-09-09
DE69120104T2 (de) 1997-02-06
EP0445799B1 (en) 1996-06-12
DE69120104D1 (de) 1996-07-18

Similar Documents

Publication Publication Date Title
EP0505706B1 (en) Alternate processor continuation of the task of a failed processor
US5815651A (en) Method and apparatus for CPU failure recovery in symmetric multi-processing systems
EP2813949B1 (en) Multicore processor fault detection for safety critical software applications
US7627781B2 (en) System and method for establishing a spare processor for recovering from loss of lockstep in a boot processor
US20070239917A1 (en) Interrupt routing within multiple-processor system
JPH08263454A (ja) 障害回復処理方法
JPH03259349A (ja) 障害処理方式
JP2770913B2 (ja) パリティの置換装置及び方法
US7421618B2 (en) Method for processing a diagnosis of a processor, information processing system and a diagnostic processing program
KR100697988B1 (ko) 과도한 인터럽트로부터 시스템을 보호하는 장치 및 그 방법
JPH02294739A (ja) 障害検出方式
TWI736564B (zh) 用於診斷執行指令串流的處理器之方法、設備、及系統
US9176806B2 (en) Computer and memory inspection method
JP2011039667A (ja) 数値制御装置
EP0113982B1 (en) A data processing system
JP2688368B2 (ja) エラーアドレス収集方式
JP4611659B2 (ja) 不正アクセス検出装置、不正アクセス検出方法、プログラム
JP4531535B2 (ja) 命令処理停止手段を持つ命令制御装置におけるハードウェアエラー制御方式
JPS60171544A (ja) 計算機システム異常自己診断装置
JPH08235133A (ja) 多重処理システム
JPS60195649A (ja) マイクロプログラム制御型デ−タ処理装置におけるエラ−報告方式
JPH0135369B2 (ja)
JPH07152594A (ja) 制御プロセッサのリトライ制御方式
JPH04102930A (ja) 中央処理装置
JPH10161875A (ja) 命令並列実行型データ処理装置