JPH03131939A - 高信頼性コンピュータ診断システム - Google Patents

高信頼性コンピュータ診断システム

Info

Publication number
JPH03131939A
JPH03131939A JP2269718A JP26971890A JPH03131939A JP H03131939 A JPH03131939 A JP H03131939A JP 2269718 A JP2269718 A JP 2269718A JP 26971890 A JP26971890 A JP 26971890A JP H03131939 A JPH03131939 A JP H03131939A
Authority
JP
Japan
Prior art keywords
mcu
board
diagnosis
cpu
diagnostic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2269718A
Other languages
English (en)
Inventor
Eric A Evans
エリック エイ.エヴァンズ
Gary L Johnston
ゲアリ エル.ジヨンストン
Masami S Kaino
ムサミ エス.カイノ
Joseph D Rusell
ジヨウゼフ ディー.ラッスル
Ramiz H Zakhariya
ラーミズ エイチ.ザクハリア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NCR Voyix Corp
Original Assignee
NCR Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NCR Corp filed Critical NCR Corp
Publication of JPH03131939A publication Critical patent/JPH03131939A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明はコンピュータ・システム診断に関し、特に複
合ボード・コンピュータ・システムの信頼性のある診断
を行う方法及び装置に関する。
〔従来の技術〕
一般に、診断ルーチンはすべての成分か正しく機能して
いるかどうかを決定するため、コンピュータ・システム
によってコンピュータ・システム自体に対して行われる
ルーチンである。診断は、通常、パワーアップ後かシス
テムの動作中周期的に行われる。システムに問題が発生
したとき、使用者にエラー・メツセージを送り、あるシ
ステムでは(少くともある程度まで)自動修正動作(使
用者に気付かれずに)を行うことができる。
〔発明が解決しようとする問題点〕
公知のコンピュータ・システムは診断を行うために中央
処理装置(CPU)を使用していた。しかし、先行シス
テムで診断を実行する能力はCPUの作動性によって異
なる。例えば、CPUが故障したとき、使用者に対しシ
ステムに発生した問題を使用者に通知することができな
い。それに加え、自動修正動作を始動することもできな
い。
従って、この発明の目的はCPUとは無関係にコンピュ
ータ・システムの診断を実行するための新たな概念を提
供することである。
この発明の他の目的は複合ボード(システム・プロセッ
サ、システム・メモリーなど)コンピュータ・システム
の新規な概念を提供することである。
更に、この発明の他の目的は密結合コンピュータ・シス
テム(各ボードに大メモリーを持つのではなく、ローカ
ル・バスを介してすべてのプロセッサが主メモリーを共
有する)について上記の目的に合致させることである。
更に、この発明の他の目的は更に大きな信頼性のある診
断の制御において冗長を与えることである。
〔問題点を解決するための手段〕
この発明は、広くは、診断を行うコンピュータ・システ
ムを提供するものである。その好ましい実施例のコンピ
ュータ・システムは少くとも1つのシステム・プロセッ
サ・ボードを有し、とりわけ、システム・プロセッサ・
ボードの各成分はシステム・プロセッサ・ボードの動作
を制御する少(とも1つのCPUと、少くとも診断の一
部を実行するCPUとは無関係に実行しつる少くとも1
つのマイクロコントローラ・ユニッh (MCU)とで
ある。
この実施例は、とりわけ、各々がシステム・プロセッサ
の動作を制御する少くとも1つのCPUと少くとも診断
の一部を実行するCPUとは無関係に動作しうる少くと
も1つのMCUとを有する複数のシステム・プロセッサ
・ボードと、各システム・プロセッサ・ボードの各CP
Uに接続され各システム・プロセッサ・ボード間を通信
可能な主バスと、各MCU間を通信しうるように各MC
Iに接続された分離した診断バスとを含む密結合複合ボ
ード・コンピュータ・システムである。各々が自己のM
CUを有する2つの診断プロセッサ・ボードは他のMC
Uを監視し、故障ボードの診断を管理する。
別の実施例の別のマイクロコンピュータは診断ボードに
代で使用することができる。
〔実施例〕
以下、この発明の一実施例を添付図面に従って説明する
。第1図は先行技術の密結合複合ボード・コンピュータ
・システム+00を表わす。システム+00は数個のプ
ロセッサ・ボード102゜104.106,108とシ
ステム・メモリー・ボード110とを有する。プロセッ
サ・メモリー・バス112はすべてのプロセッサ・ボー
ド102〜108をシステム・メモリー・ボード110
に接続する。プロセッサ・メモリー・バス112は並列
高速型であり、直列診断バス114もプロセッサ・ボー
ド102〜108の各々に接続される。
各プロセッサ・ボード102〜+08は、夫々公知の診
断ルーチンを実行する(システム100のルーチン動作
中、アプリケーション・プログラム及び他のプログラム
を実行すると同様)CPU116.124,132,1
40と、夫々のプロセッサ・ボードとプロセッサ・メモ
リー・バス112との間を接続するロジックを含むバス
・インタフェース・モジュール+18.+2f3,13
4゜142と、ボードが機能しているかどうかの照合に
使用する診断と主メモリーをいかにロードするかを決定
するスタートアップ・コードを持つことができるプログ
ラマブル読出専用メモリー(FROM)120.128
.+36.l・14と、CPUから受信した並列診断情
報を、プロセッサ・メモリー・バス112が適当に機能
していないときに直列診断バス114を介して送信され
る直列診断情報に変換するユニバーサル・非同期受信器
/送信器(UART)122,130.138,146
とを含んで構成される。
UARTは、又直列診断バス114から受信した直列診
断情報をCPUに送られる並列診断情報に変換する。U
ART直列診断バス通路は、診断に関するステータス情
報の通信に使用することができることを除き、通常は動
作しない。
このシステム100はMCRコーポレーション(オハイ
オ州デイトン市)が販売するM CR800Tower
コンピュータのような多数の市販のコンピュータ・シス
テムに使用されている。
第2図の改良した密結合複合ボード・コンピュータ・シ
ステム200はシステム・プロセッサ・ボード202〜
208、システム・メモリー・ボード210及び診断プ
ロセッサ・ボード212〜214を持つ。システム・プ
ロセッサ・ボード202〜208はCPU (220,
228,236゜244)と、バス・インタフェース・
モジュール(222,230,238,246)と、C
PUが診断ルーチン群を実行しないことを除き第1図の
対応する成分に類似して作用するF ROM(224,
232,240,248)とを含む。
主又はプロセッサ・メモリー・バス(高速並列)216
はほとんどの診断情報を通信しないことを除き第1図の
対応するバス112に類似するよう動作する。
システム・プロセッサ・ボード202〜208は、又直
列診断バス218に接続されているインテリジェントM
CU226,234,242,250を含む。高度に信
頼性のあるMCUはCPUより故障率が低いものと思わ
れた。この実施例のMCLIは先行技術の構成とは異な
り、FROMから転送する必要がない個有の診断プログ
ラムを持つ。
MCUは、適当に線が接続されているか、又はバス・イ
ンタフェース・モジュールが機能しているかどうかなど
の確認を含む、第1図のCPtJがすべて実行する診断
機能のほとんどを遂行することができる。この発明のM
CUは、先行技術のCPU同様、問題が発見されたとき
、一定の修正作用を行うことができる。
先行技術のシステム・メモリー・ボード!10と異なり
、主メモリー252、バス・インタフェース・モジュー
ル254及びMCU256を有するシステム・メモリー
・ボード210はプロセッサ・メモリー・バス216を
使用する必要なく、メモリー・テストを実行することが
できる。MCLI256は直列診断バス218に接続さ
れ、生メモリー252及びバス・インタフェース・ロジ
ック・モジュール254をテストする。
コンピュータ・システム200は、又システム・プロセ
ッサ・ボード及びシステム・メモリー・ボードMCUの
動作を監視し、制御する2つの冗長診断プロセッサ・ボ
ード212,214を含む。
厳密にいうと、診断プロセッサ・ボード214は診断プ
ロセッサ・ボード2+2によって問題を“検知”し、診
断プロセッサ・ボード212が故障のときに動作可能と
なる。診断プロセッサ・ボード212はCPU258と
、プロセッサ・メモリー・バス216に接続されたバス
・インタフェース・モジュール260と、FROM26
2と、ローカル・メモリー264と、直列診断バス21
8に接続された診断MCU266とを含む。
MCU266はステータス情報を受信することによって
システム・プロセッサ・ボード202〜208とシステ
ム・メモリー・ボード210とのMCUを定常的に監視
する。換言すると、診断MCUは問題が他のボードに存
在するかどうかにつき定期的に質問する。MCUの1つ
がシステム・プロセッサ・ボードか又はシステム・メモ
リー・ボードに問題を発見すると、診断MCUはどの診
断が適当かを決定し、その欠陥ボードのMCUに情報を
送って欠陥ボードのMCUによる決定に従い動作を開始
する。診断MCUは、MCUを監視し制御する他、直列
診断バス218が欠陥かどうかを決定する。診断MCU
266は、又診断プロセッサ・ボード2!2の他の成分
の従来の診断ルーチンを実行することができる。
CPO25Bはシステム・プロセッサ・ボードのCPU
とは異なり、この実施例ではある高いレベルの診断を実
行することができる。それは“作業領域”を提供するロ
ーカル・メモリー264と、CPO258のためのスタ
ートアップ・コード及び診断コードを含むFROM26
2と、CPO258と主メモリー252との間のインタ
フェースを与えるバス・インタフェース・モジュール2
60とを含む。しかし、CPU258の故障は診断MC
U266により低レベルの診断の制御の続行を防止しな
い。CPU258によって行われる診断のレベルは、M
C0266によって行われるそれより高いが、それにも
拘らず、第1図に示すような先行技術のコンピュータ・
システムのCPUのそれより低い。
ハイ・レベル診断はオペレーティング・システムの実行
中に行われ、それは、例えば、実際の数が予期数から大
きく異なるかどうかをチエツクするためのプロセッサに
よるバス・アクセスの回数のカウントと、システム送信
エラーのチエツクとを含む。ロー・レベル診断はオペレ
ーティング・システムを実行していないときに行われ、
例えばプロセッサのテストと(例えば、予期結果に対し
診断ルーチンの実際の結果を比較する)、プロセッサと
補助記憶装置との間のデータ送信のチエツクとを含む。
診断MCU276、CPU268、ローカル・メモリー
274、FROM272及びバス・インタフェース・モ
ジュール270を有する診断プロセッサ・ボード214
は、診断プロセッサ・ボード212が故障した場合に、
該ボード212と同様に作用する。その他の場合、ボー
ド214はインアクティブである。冗長診断プロセッサ
・ボード214はコンピュータ・システム200に更に
信頼性を向上させるものである。
第3図のこの発明の他の実施例の、マイクロコンピュー
タのような監視コンピュータ302は第2図のコンピュ
ータ・システム200の改良型300であり、診断プロ
セッサ・ボード212゜214の代りをなす。監視コン
ピュータ302は診断プロセッサ・ボード212.21
.1が行う機能のすべてを行うことかできる。
この発明は更に変化変更可能であり、密結合コンピュー
タの代りに疎結合コンピュータも使用でき、又ここに示
した同数のシステム・プロセッサ、システム・メモリー
及び診断プロセッサ・ホードに限定されるものではない
【図面の簡単な説明】
第1図は、直列診断バスを持つ先行技術の密結合複合ボ
ード・コンピュータ・システムのブロック図、 第2図は、診断プロセッサによって制御されるMC0回
路を使用する直列診断バスを持つこの発明の密結合複合
ボード・コンピュータ・システムのブロック図、 第3図は、診断プロセッサ・ボードの代りに別のマイク
ロコンピュータを有する第2図のものを改良したコンピ
ュータ・システムのブロック図である。 図中、100・・・密結合複合ボード・コンピュータ・
システム、102,104,106,108・・・プロ
セッサ・ボード、+10・・・システム・メモリー・ボ
ード、112・・・プロセッサ・メモリー・バス、11
4・・・直列診断バス、tie、124゜132.14
0・・・CPU、118,126,134゜142・・
・バス・インタフェース・モジュール、120.128
,136,144・・・FROM。 122.130,138,146−UART。

Claims (1)

    【特許請求の範囲】
  1. (1)システム・プロセッサ・ボードの動作を制御する
    少くとも1つの中央処理ユニット(CPU)を含む少く
    とも1つのシステム・プロセッサ・ボードと、 前記システム・プロセッサ・ボードに接続され、前記C
    PUとは無関係に動作することができ、少くとも診断の
    一部を遂行しうる手段とから成る診断実行可能なコンピ
    ュータ・システム。
JP2269718A 1989-10-12 1990-10-09 高信頼性コンピュータ診断システム Pending JPH03131939A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/420,862 US5163052A (en) 1989-10-12 1989-10-12 High reliability computer diagnostics system
US420,862 1989-10-12

Publications (1)

Publication Number Publication Date
JPH03131939A true JPH03131939A (ja) 1991-06-05

Family

ID=23668140

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2269718A Pending JPH03131939A (ja) 1989-10-12 1990-10-09 高信頼性コンピュータ診断システム

Country Status (3)

Country Link
US (1) US5163052A (ja)
JP (1) JPH03131939A (ja)
CA (1) CA2015708A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696902A (zh) * 2018-12-06 2019-04-30 奇瑞汽车股份有限公司 一种信号记录装置、故障点检测电路及方法

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2656441B1 (fr) * 1989-12-22 1993-12-10 Bull Sa Procede securise d'ecriture rapide d'informations pour dispositif de memoire de masse.
US5319775A (en) * 1991-07-22 1994-06-07 Ncr Corporation Centralized diagnostic system for loosely coupled processors
JPH05257710A (ja) * 1991-08-12 1993-10-08 Advanced Micro Devicds Inc 内部実行パラメータを与えるためのシステムおよびプロセッサによって実行されるべき命令を検証するための配列
JP2979771B2 (ja) * 1991-09-12 1999-11-15 株式会社日立製作所 情報処理装置及びそのバス制御方法
JPH0612288A (ja) * 1992-06-29 1994-01-21 Hitachi Ltd 情報処理システム及びその監視方法
US5327531A (en) * 1992-09-21 1994-07-05 International Business Machines Corp. Data processing system including corrupt flash ROM recovery
FI101835B1 (fi) * 1992-11-20 1998-08-31 Nokia Telecommunications Oy Modulaarisen tietojärjestelmän liikennöintijärjestelmä
JPH06290079A (ja) * 1993-03-30 1994-10-18 Hitachi Ltd 情報処理システム
US5561761A (en) * 1993-03-31 1996-10-01 Ylsi Technology, Inc. Central processing unit data entering and interrogating device and method therefor
US5613061A (en) * 1994-09-12 1997-03-18 Verilink Corporation Network controller with reconfigurable program logic circuits capable of performing both channel service and testing functions
JP3447404B2 (ja) * 1994-12-08 2003-09-16 日本電気株式会社 マルチプロセッサシステム
US5553237A (en) * 1994-12-13 1996-09-03 Base Ten Systems, Inc. Safety critical monitoring of microprocessor controlled embedded systems
US5864659A (en) * 1995-03-07 1999-01-26 Intel Corporation Computer server with improved reliability, availability and serviceability
US6067407A (en) * 1995-06-30 2000-05-23 Canon Information Systems, Inc. Remote diagnosis of network device over a local area network
US5793946A (en) * 1996-03-12 1998-08-11 Varis Corporation Run-time diagnostic system
US6070253A (en) * 1996-12-31 2000-05-30 Compaq Computer Corporation Computer diagnostic board that provides system monitoring and permits remote terminal access
KR100247012B1 (ko) * 1997-05-15 2000-03-15 윤종용 통신시스템의 상태정보 수집 및 제어장치
FR2787603B1 (fr) * 1998-12-21 2001-08-24 St Microelectronics Sa Carte d'entree-sortie de donnees informatiques
US6925052B1 (en) * 1999-10-01 2005-08-02 Agilent Technologies, Inc. Multi-channel network monitoring apparatus, signal replicating device, and systems including such apparatus and devices, and enclosure for multi-processor equipment
JP2001125797A (ja) * 1999-10-25 2001-05-11 Seiko Epson Corp マルチタスクシステム及びそのプログラムを記録した記録媒体並びに加工装置
US6636929B1 (en) 2000-04-06 2003-10-21 Hewlett-Packard Development Company, L.P. USB virtual devices
US6684343B1 (en) * 2000-04-29 2004-01-27 Hewlett-Packard Development Company, Lp. Managing operations of a computer system having a plurality of partitions
US6697962B1 (en) 2000-10-20 2004-02-24 Unisys Corporation Remote computer system monitoring and diagnostic board
US6826713B1 (en) * 2001-01-02 2004-11-30 Juniper Networks, Inc. Diagnostic access to processors in a complex electrical system
US6901531B2 (en) * 2001-11-30 2005-05-31 Sun Microsystems, Inc. Automatic system control failover
US7200845B2 (en) * 2001-12-03 2007-04-03 Hewlett-Packard Development Company, L.P. System and method for high availability firmware load
US7187193B2 (en) * 2004-06-30 2007-03-06 Silicon Laboratories Inc. MCU test device for multiple integrated circuit chips
US7610482B1 (en) * 2006-06-28 2009-10-27 Qlogic, Corporation Method and system for managing boot trace information in host bus adapters
US7533297B2 (en) * 2006-09-14 2009-05-12 International Business Machines Corporation Fault isolation in a microcontroller based computer
JP4859803B2 (ja) * 2007-10-01 2012-01-25 日立オートモティブシステムズ株式会社 電動アクチュエータの制御装置
US8977895B2 (en) * 2012-07-18 2015-03-10 International Business Machines Corporation Multi-core diagnostics and repair using firmware and spare cores

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4246637A (en) * 1978-06-26 1981-01-20 International Business Machines Corporation Data processor input/output controller
JPS57164636A (en) * 1981-04-03 1982-10-09 Hitachi Ltd Control method for transmission system
US4439826A (en) * 1981-07-20 1984-03-27 International Telephone & Telegraph Corporation Diagnostic system for a distributed control switching network
US4503535A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for recovery from failures in a multiprocessing system
US4503534A (en) * 1982-06-30 1985-03-05 Intel Corporation Apparatus for redundant operation of modules in a multiprocessing system
US4606024A (en) * 1982-12-20 1986-08-12 At&T Bell Laboratories Hierarchical diagnostic testing arrangement for a data processing system having operationally interdependent circuit boards
US4589066A (en) * 1984-05-31 1986-05-13 General Electric Company Fault tolerant, frame synchronization for multiple processor systems
US4870704A (en) * 1984-10-31 1989-09-26 Flexible Computer Corporation Multicomputer digital processing system
US4674089A (en) * 1985-04-16 1987-06-16 Intel Corporation In-circuit emulator
US4729124A (en) * 1985-12-19 1988-03-01 Concurrent Computer Corporation Diagnostic system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109696902A (zh) * 2018-12-06 2019-04-30 奇瑞汽车股份有限公司 一种信号记录装置、故障点检测电路及方法

Also Published As

Publication number Publication date
CA2015708A1 (en) 1991-04-12
US5163052A (en) 1992-11-10

Similar Documents

Publication Publication Date Title
JPH03131939A (ja) 高信頼性コンピュータ診断システム
US4775976A (en) Method and apparatus for backing up data transmission system
US5600785A (en) Computer system with error handling before reset
US4455601A (en) Cross checking among service processors in a multiprocessor system
US4823256A (en) Reconfigurable dual processor system
US7194614B2 (en) Boot swap method for multiple processor computer systems
JPH11143729A (ja) フォールトトレラントコンピュータ
JPH0934809A (ja) 高信頼化コンピュータシステム
US20040059862A1 (en) Method and apparatus for providing redundant bus control
US8032791B2 (en) Diagnosis of and response to failure at reset in a data processing system
US5615370A (en) Computer system with automatic degradation/initialization function
CN115408240B (zh) 一种冗余系统主备方法、装置、设备及储存介质
KR100279204B1 (ko) 자동제어시스템에서현장제어장치의콘트롤러이중화제어방법및그장치
Hansen et al. The 3B20D Processor & DMERT operating systems: Fault detection and recovery
JPH0630069B2 (ja) 多重化システム
JPS5931738B2 (ja) 計算機システムの並列三重系構成方法
WO2001080007A2 (en) Methods and apparatus for robust startup of a computer system having redundant components
JPH08287030A (ja) 多重系計算機システムの自動再起動装置および方法
JPH05158905A (ja) 分散処理機能を持つマイクロプロセッサ応用装置
JPS6213700B2 (ja)
JPH05120048A (ja) 障害識別方式
JPS6113627B2 (ja)
JPH09146853A (ja) 二重化計算機及びその障害系復旧方法
Di Giovanni et al. H/W and S/W redundancy techniques for 90's rotorcraft computers
JPS58114145A (ja) 主マイクロプロセツサ障害監視方式