JPH0563823B2 - - Google Patents

Info

Publication number
JPH0563823B2
JPH0563823B2 JP63285944A JP28594488A JPH0563823B2 JP H0563823 B2 JPH0563823 B2 JP H0563823B2 JP 63285944 A JP63285944 A JP 63285944A JP 28594488 A JP28594488 A JP 28594488A JP H0563823 B2 JPH0563823 B2 JP H0563823B2
Authority
JP
Japan
Prior art keywords
error
input
counter
signal
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63285944A
Other languages
English (en)
Other versions
JPH01197846A (ja
Inventor
Meruza Debitsudo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH01197846A publication Critical patent/JPH01197846A/ja
Publication of JPH0563823B2 publication Critical patent/JPH0563823B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2236Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test CPU or processors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Manipulation Of Pulses (AREA)
  • Debugging And Monitoring (AREA)
  • Measuring Leads Or Probes (AREA)
  • Testing Of Short-Circuits, Discontinuities, Leakage, Or Incorrect Line Connections (AREA)
  • Production Of Multi-Layered Print Wiring Board (AREA)
  • Hardware Redundancy (AREA)
  • Detection And Correction Of Errors (AREA)

Description

【発明の詳細な説明】
A 産業上の利用分野 本発明は、データ処理システムのエラー探知回
路に関し、特に、データ処理システム中で他モジ
ユールへのエラー伝播を引き起こす障害モジユー
ルを識別する回路に関する。 B 従来技術及び解決しようとする問題点 多くのデータ処理システムでは通常、データ処
理回路は複数のフイールド交換可能装置(すなわ
ちFRU)に分割されており、従つて一つのFRU
に障害が起こつても、フイールドエンジニアが容
易に交換でき、システムダウンの時間を最少限に
することができる。本適用業務では、データ処理
システム中の全FRUはシステム・クロツクによ
つて制御され、一FRUの出力データが他の一以
上のFRUへ入力されるよう、内部接続される。
システム・クロツクの走行が高速のため、障害
FRUによるエラーが探知される前に他のFRUへ
すでにエラーが伝播されてしまい、障害FRUを
識別・半断するのは困難となる。 「IBMテクニカル・デイスクロージヤ・ブレ
テイン(IBM Technical Disclosure Bulletin)」
第22巻第1号(1979年6月)、255〜257ページ、
R.J.コルヴイツク・ジユニア著「フイールド交換
可能装置の拡大解決策のためのアルゴリズム
(Algorithms for Increased Resolu−tion of
Field Replaceable Units)」は、各FRUに常駐
するエクスクルーシブ(排他的)OR関数により
パリテイチエツクを行うシステム、及び転送
FRU・受信FRUいずれのエラー状況をも識別す
るアルゴリズムについて述べている。 「IBMテクニカル・デイスクロージヤ・ブレ
テイン(IBM Technical Disclosure Bulletin)」
第26巻第11号(1984年4月)、6078〜6079ページ、
W.P.スプロール著「エラーシーケンスの捕獲
(Error Sequence Tagging)」は、多重機能装置
を持つ機械について述べており、そこでは、各機
能装置がエラーシーケンス・カウンタとエラー探
知回路を持つ。エラーが探知されると、各エラー
シーケンス・カウンタは同期パルスをカウント
し、のちエラー探知回路がカウントを停止する。
その後全カウンタの内容が詳細分析され、最初に
起こつたエラーを判別して障害機能装置を識別す
る。 「IBMテクニカル・デイスクロージヤ・ブレ
テイン(IBM Technical Disclosure Bulletin)」
第26巻第11号(1984年4月)、6187〜6188ページ、
R.H.バーソツチ他著「最初のエラーを探知する
回路(First Frror Detection Circuit)」は、ラ
ツチング回路について述べており、これは、最初
のエラー発生の徴候を、複数の障害入力線の一つ
から取り出して保持(ラツチ)する。最初のエラ
ー徴候が生じた後に続いて、違うエラーが回路に
入力されても無視され、保持されたエラーが分析
されて、構成の不備を判別するようになつてい
る。 米国特許第4679195号は、複数のデータ記憶位
置を持つデータ処理システムを開示している。各
データ記憶位置は、カウンタとエラー探知器を持
つ。エラーを探知するとカウンタがカウント作業
を中断するため、システム・サイクルのカウント
は、エラーの発生に符合する値のままフリーズ
(凍結)される。その後各データ記憶位置のカウ
ンタが詳細分析され、データ処理システムのエラ
ー状況を判別するようになつている。 本発明の目的は、内部接続モジユールシステム
において最初に障害を起こしたモジユールを識別
する。エラー探知回路を提供することである。 さらに本発明の目的は、エラートリガで構成さ
れるカウンタ(複数モジユールを持つたシステム
の各モジユールにあり、最初に障害を起こしたモ
ジユールを識別するカウンタ)を含む、エラー探
知回路を提供することである。 さらに本発明の目的は、そのように構成される
カウンタがガロワ・フイールド・カウンタとな
る、エラー探知回路を提供することである。 C 問題点を解決するための手段 本発明のエラー探知回路は、フイールド交換可
能装置のような複数の内部接続モジユールを持
ち、各モジユールはエラーチエツカ回路を最低一
つ持つ。これは、エラー発生時にエラーチエツカ
信号を生成する。各モジユールにはエラートリガ
が最低一つ含まれ、これは、エラーチエツカ信号
の探知を受け持つべくセツトされる。各エラート
リガはカウンタ・ステージ(段)を構成してい
る。そのカウントによつて最初のエラートリガ・
セツトを識別し、それから最初に障害を起こした
モジユールを識別する。エラートリガで構成され
るカウンタは、好ましくはガロワ・フイールド・
カウンタである。これは、ステージのいずれかに
ノン・ゼロ・インパルスを受け取つた時のみカウ
ントを開始し、カウントの最終内容が、最初のノ
ン・ゼロ・インパルスの出所を示す独自の値とな
る。 D 実施例 図解したシステム10は、複数のフイールド交
換可能装置(FRU1からFRU7で示してある)
を含んでいる。FRU1からFRU7の各フイール
ド交換可能装置は、FRU1にあるエラー分離回
路(EIC)11と同一の回路を持つ。EIC11は
フリーズ論理回路14、エラー報告レジスタ回路
(ERR)16、ORゲート18、及びエラートリ
ガ20より成る。エラートリガ20からの出力
が、それぞれのFRUの出力となる。すなわち、
FRU1からFRU7のエラートリガ出力部は、01
〜07にそれぞれ対応する。フリーズ論理14は、
大域フリーズ信号(後述する)を受け取る入力部
G、局所フリーズ信号を受け取る第二入力部2
2、及びERR16の入力部24に接続されてフ
リーズ報告信号を生成する出力部23を持つ。
ERR16はFRUのエラーチエツカ回路(図示せ
ず)から入力されるエラー入力部25を一以上持
ち、これがエラーの発生を知らせる。ERR16
はまた、FRUでのエラー発生時にエラーメツセ
ージを生成する第一出力部26を持ち、これには
発生エラーのタイプを示す複数ビツトコードが含
まれることがある。ERR16はまた、第二出力
部28を持ち、これはフリーズ論理14の入力部
22、及びORゲート18の第一入力部に接続さ
れている。ORゲート18の第二入力部はEIC1
1の入力部Fと接続しており、入力部Fは、カウ
ント信号を受け取るべく直前FRUの(FRU1な
らばFRU7の)エラートリガ出力部と接続して
いる。FRU7は、前記FRU1のEIC11にあた
るEIC11′及びその他の、論理支援機構(LSS)
12(後述する)を構成する回路を含む。 FRU1からFRU7のERR出力端子26はそれ
ぞれQ1からQ7で示してあり、プロセツサが
ERR16の内容を分析できるよう、当技術にお
いて周知の方法によりエラー母線(図示せず)に
接続されることがある。入力部24及び25は、
ERR16の適当な回路により典型的に択一され、
その結果、フリーズ論理14からフリーズ報告信
号、あるいはいずれかの入力部25からエラーチ
エツカ信号を受け取ると、出力部26ではエラー
メツセージ、出力部28では局所フリーズ信号が
生成される。この出力部28の局所フリーズ信号
は、入力部22を経由してフリーズ論理14へ、
及びORゲート18の第一入力部へ入力される。
フリーズ論理14は、システム・クロツク(図示
せず)を止める、すなわちシステム10のデータ
処理を中断する回路(図示せず)を含む。前述の
通り、システム・クロツクの走行は、いずれかの
入力部25にエラーチエツカ信号が発生してか
ら、フリーズ論理14がシステム・クロツクを止
めるまでの数サイクル間続く。尚、フリーズ論理
14は当技術において熟知されているものであ
り、ここでは詳述しない。 図解したエラートリガ20は二つの状態装置を
含み、そのセツト入力部(S)はORゲート18の出
力部と接続されて、そこからのエラー信号を受け
取る。フリーズ論理14は、入力部Gまたは第二
入力部22からの信号によりエネーブル(活動開
始)されると、ERR16でのエラーチエツカ信
号のレジスタ、及びORゲート18からのエラー
信号によるエラートリガのセツトを、そこまでで
停止する。FRUの各エラートリガ出力部は、次
FRUの入力部F、及びLSS12にある複数入力
ORゲートのいずれかの入力部に接続される。出
力部05及び06はエクスクルーシブORゲート31
の入力部に接続され、エクスクルーシブORゲー
ト31の出力部はEIC11′の入力部Fに接続さ
れる。ORゲート30の出力部は、大域フリーズ
論理回路32の入力部に接続され、32の出力部
は、導体35を経由して、FRU1からFRU7の
各フイールド交換可能装置の入力部Gに接続され
る。全FRUはシステム・クロツクにより駆動さ
れるので、ERR16の出力部28からのフリー
ズ信号、あるいは直前FRUからのノン・ゼロ・
インパルスがEICの入力部Fを経由して出力され
た後のサイクルにおいて、エラートリガ20の出
力は、ノン・ゼロとなる。出力はその後、次クロ
ツク・サイクルにおいてゼロ状態に戻る。 図面ではエラートリガ20はモジユーロ2・カ
ウンタとして機能している。各エラートリガはガ
ロワ・フイールド・カウンタのステージとなるよ
う内部接続されるので、カウントはGF(2**N)
の不換多項式に従つて行われ、2**Nがシステ
ム・クロツクを止めるのに必要なだけのサイクル
数以上になるようNが選定される。既知の通りガ
ロワ・フイールド・カウンタは、ノン・ゼロ値が
いずれかのエラートリガ20によりカウンタに入
力されなければ、カウントを始めない。エラーが
発生すると、最初に障害を起こしたFRUのエラ
ートリガ20が、ガロワ・フイールド・カウンタ
に最初にノン・ゼロ・インパルスを入力する。既
知の通りモジユーロ2・カウンタは、多様に内部
接続されることがある。これは、ガロワ・フイー
ルド・カウンタによつて特定の多項方程式を解く
ためである。例えば、解析される多項方程式の種
類により、エクスクルーシブOR31が多様に接
続されるか、または一以上のエクスクルーシブ
ORゲートが使用されることが考えられる。この
ようにして構成されたガロワ・フイールド・カウ
ンタに、最初にノン・ゼロ・インパルスを入力す
るフイールド交換可能装置は、01から07までの出
力部に現れるカウントから、常に識別できる。シ
ステム・クロツクを止めるのに必要なサイクル数
がわかればそれにより、出力部01から07における
ガロワ・フイールドのカウンタが分析され、どの
FRUが最初にノン・ゼロ・インパルスを入力し
て、ガロワ・フイールド・カウンタを始動させた
か判別できる。障害発生を判別すると大域フリー
ズ論理32は、導体35を経て各FRUの入力部
Gに大域フリーズ信号を入力し、各局所フリーズ
論理14にエラートリガ20のセツトを中断する
よう指示し、ガロワ・フイールド・カウンタのカ
ウントをフリーズする。いずれかの入力部25よ
りエラーチエツカ信号を受け取つてから、FRU
1からFRU7の局所フリーズ論理回路14がガ
ロワ・フイールドのカウントをフリーズするまで
のサイクル数は、明細な設計パラメータであるた
め、最初のエラー発生からガロワ・フイールドの
最終カウントまでのサイクルは常に知ることがで
きる。 エラー発生時の動作は以下の通りである。最初
のエラー発生と同時にフイールド交換可能装置の
エラートリガ20がセツトされ、最初のノン・ゼ
ロ値をガロワ・フイールド論理に入力する。一サ
イクル後、局所フリーズ論理14は、ERR16
及び該フイールド交換可能装置のエラートリガ
に、エラーが続いてレジスタされないよう阻止す
る。ノン・ゼロ値はガロワ・フイールド・カウン
タ及びLSS12のカウンタ・フイードバツク経路
を通じて伝播し、その結果大域フリーズ論理が大
域フリーズ信号を生成する。大域フリーズ論理3
2による大域フリーズ信号生成後に、FRU1か
らFRU7のいずれかのフイールド交換可能装置
が受け取るエラーチエツカ信号は、ガロワ・フイ
ールド・カウンタによつてカウントされない。局
所フリーズ論理回路14の全てがフリーズされた
後に、出力部01から07に生じる信号から判別され
る独自の値が、最初にエラーを起こしたフイール
ド交換可能装置を識別する。 第一表に示すのは、フイールド交換可能装置で
一エラー発生後の、出力部01から07に生じる信号
の一番目から五番目までのサイクルに対する値で
ある。大域フリーズが起こつたサイクルがわかれ
ば、本表をそのサイクルに適用して、最初に障害
を起こしたフイールド交換可能装置を判別でき
る。フイールド交換可能装置の障害によりガロ
ワ・フイールド・カウンタがカウントを開始し、
システム・クロツク停止以前にエラーが他のフイ
ールド交換可能装置に伝播して、多重エラーを引
き起こすような場合には、同様の表を作成して対
応することができる。そのような多重エラー発生
の場合にも、ガロワ・フイールドのカウント値は
独自のものとなり、最初の障害フイールド交換可
能装置が識別できる。
【表】
【表】
【表】
【表】
【表】
【表】
【表】 またあるいは入力部25が、一つのフイールド
交換可能装置の一要素からではなく、フイールド
交換可能装置の組から入力されるエラーを示すこ
とがある。この場合入力部25は、分離したガロ
ワ・フイールド・カウンタの大域フリーズ論理回
路の出力を表わす。こういつた配列では、一つの
ガロワ・フイールド・カウンタはフイールド交換
可能装置の何組かのうち一組を指し、さらにこの
ガロワ・フイールド・カウンタが、最初にエラー
を起こしたフイールド交換可能装置を指す。 E 発明の効果 最初に障害を起こした回路部分を、回路モジユ
ール単位(交換可能単位)で素早く発見できるの
で、回路交換が容易になり、システムダウンの時
間を短縮できる。
【図面の簡単な説明】
これは本発明の概略図である。フイールド交換
可能装置(FRU)を接続して、エラー発生時に
障害FRUを識別するカウンタを構成している。 1〜7…フイールド交換可能装置(FRU)、1
0…システム、11…エラー分離回路(EIC)、
12…論理支援機構(LSS)、14…フリーズ論
理回路、16…エラー報告レジスタ回路
(ERR)、18…ORゲート、20…エラートリ
ガ、30…ORゲート、31…エクスクルーシブ
ORゲート、32…大域フリーズ論理回路、35
…導体。

Claims (1)

  1. 【特許請求の範囲】 1 エラーを生じた時にエラーチエツカ信号を発
    生する手段を夫々持つた複数個の回路モジユール
    を含んだシステムのためのエラー探知回路であつ
    て、 上記エラーチエツカ信号に応答してエラー信号
    を発生するため、上記回路モジユールの各々に設
    けられたエラー探知手段と、 上記エラー探知手段のうちの対応するものから
    上記エラー信号を受け取るための入力、及び出力
    を有し、上記エラー探知手段からのエラー信号を
    感知するため、上記回路モジユールの各々に設け
    られたエラートリガ手段と、 上記すべてのエラートリガ手段が夫々一つのカ
    ウンタ段を構成するように該エラートリガ手段の
    すべての出力に接続されてカウンタを形成する接
    続手段であつて、該カウンタの計数値が上記エラ
    ートリガ手段のうちの、入力に上記エラー信号を
    最初に受け取つたエラートリガを指示するように
    した接続手段と、より成るエラー探知回路。
JP63285944A 1988-01-27 1988-11-14 エラー探知回路 Granted JPH01197846A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/148,826 US4852095A (en) 1988-01-27 1988-01-27 Error detection circuit
US148826 1988-01-27

Publications (2)

Publication Number Publication Date
JPH01197846A JPH01197846A (ja) 1989-08-09
JPH0563823B2 true JPH0563823B2 (ja) 1993-09-13

Family

ID=22527564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63285944A Granted JPH01197846A (ja) 1988-01-27 1988-11-14 エラー探知回路

Country Status (3)

Country Link
US (1) US4852095A (ja)
EP (1) EP0325727A3 (ja)
JP (1) JPH01197846A (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5206948A (en) * 1989-12-22 1993-04-27 Bull Hn Information Systems Inc. Bus monitor with means for selectively capturing trigger conditions
US5361267A (en) * 1992-04-24 1994-11-01 Digital Equipment Corporation Scheme for error handling in a computer system
US6236654B1 (en) 1997-02-14 2001-05-22 Advanced Micro Devices, Inc. Method and apparatus for managing learning in an address table in memory
US6389557B1 (en) * 1998-09-16 2002-05-14 Advanced Micro Devices, Inc. Freezing mechanism for debugging
US6550022B1 (en) * 1999-11-02 2003-04-15 International Business Machines Corporation Hierarchical JTAG based checkstop architecture for computer systems
US20040216003A1 (en) * 2003-04-28 2004-10-28 International Business Machines Corporation Mechanism for FRU fault isolation in distributed nodal environment
US7251748B2 (en) * 2003-09-12 2007-07-31 Sun Microsystems, Inc. System and method for determining a global ordering of events using timestamps
JP4804408B2 (ja) * 2007-04-17 2011-11-02 株式会社日立製作所 ログ解析方法及び装置
US9425802B1 (en) * 2015-05-28 2016-08-23 Altera Corporation Methods and apparatus for configuring and reconfiguring a partial reconfiguration region

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4100605A (en) * 1976-11-26 1978-07-11 International Business Machines Corporation Error status reporting
US4167041A (en) * 1977-04-05 1979-09-04 International Business Machines Corporation Status reporting
US4139818A (en) * 1977-09-30 1979-02-13 Burroughs Corporation Circuit means for collecting operational errors in IC chips and for identifying and storing the locations thereof
US4184630A (en) * 1978-06-19 1980-01-22 International Business Machines Corporation Verifying circuit operation
US4679195A (en) * 1985-04-10 1987-07-07 Amdahl Corporation Error tracking apparatus in a data processing system

Also Published As

Publication number Publication date
EP0325727A3 (en) 1990-10-24
EP0325727A2 (en) 1989-08-02
JPH01197846A (ja) 1989-08-09
US4852095A (en) 1989-07-25

Similar Documents

Publication Publication Date Title
EP0006328B2 (en) System using integrated circuit chips with provision for error detection
US4843608A (en) Cross-coupled checking circuit
US20130061094A1 (en) Apparatus and Method for the Protection and for the Non-Destructive Testing of Safety-Relevant Registers
JPH0563823B2 (ja)
US5081629A (en) Fault isolation for multiphase clock signals supplied to dual modules which are checked by comparison using residue code generators
US4342112A (en) Error checking circuit
US4924467A (en) System for checking duplicate logic using complementary residue codes to achieve high error coverage with a minimum of interface signals
JPH0375834A (ja) パリティの置換装置及び方法
JP3529994B2 (ja) 照合回路
JPH05207637A (ja) ディジタルリレー
EP0423933B1 (en) Personal computer memory bank parity error indicator
SU903886A1 (ru) Устройство дл обнаружени ошибок в блоках контрол процессора
JPS588351A (ja) 演算試験回路
JPS6027423B2 (ja) 擬似間欠誤り検査符号発生装置
JPS6116092B2 (ja)
SU1709321A2 (ru) Устройство дл контрол устойчивости функционировани программ
JP2606160B2 (ja) パリティチェック回路の故障検出方式
Stroud Merging BIST and Concurrent Fault Detection
JP3055249B2 (ja) プロセッサのデバッグ方式
SU1615723A2 (ru) Устройство дл обнаружени ошибок при передаче кодов
JPH01236331A (ja) エラー検出方式
JPS63271526A (ja) 算術論理装置
SU470810A1 (ru) Устройство дл обнаружени ошибок в контрольном оборудовании
SU1756892A1 (ru) Устройство дл обнаружени ошибок в регистре сдвига
SU1072050A1 (ru) Устройство дл контрол блоков обнаружени и коррекции ошибок,работающих с кодом Хэмминга