JPH0962534A - Self-diagnostic method for electronic computer - Google Patents

Self-diagnostic method for electronic computer

Info

Publication number
JPH0962534A
JPH0962534A JP7217012A JP21701295A JPH0962534A JP H0962534 A JPH0962534 A JP H0962534A JP 7217012 A JP7217012 A JP 7217012A JP 21701295 A JP21701295 A JP 21701295A JP H0962534 A JPH0962534 A JP H0962534A
Authority
JP
Japan
Prior art keywords
electronic computer
diagnosis
self
processing
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7217012A
Other languages
Japanese (ja)
Inventor
Masayuki Tosaka
雅之 登坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7217012A priority Critical patent/JPH0962534A/en
Publication of JPH0962534A publication Critical patent/JPH0962534A/en
Pending legal-status Critical Current

Links

Landscapes

  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve the reliability of electronic computer system which obtains fault detection ability during the operating of electronic computer by performing self-diagnosis while the electronic computer is in the idle state. SOLUTION: The idle state during the operation of electronic computer is detected and the self-diagnosis of hardware of electronic computer is executed. Namely, when HD access processing 20, keyboard input processing 21 and communication processing 22 are performed at fixed time intervals by a certain program but there is no IO access for fixed time after the respective processing, it is detected by a timer 13 inside an OI access monitor logic 6 and most preferential interruption is generated. In this most preferential interruption processing, first of all, a diagnostic object is selected. Next, the information of a section to be the diagnostic object is saved. Further, the diagnosis of the diagnostic object is performed. Then, the result of this diagnosis is discriminated and when there is no error, the recovery of state is performed but when there is any error, error processing is performed.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、電子計算機の自己診断
技術に関し、特に大容量のメモリや多数のIOデバイス
を搭載したサーバクラスの電子計算機に用いて有効な自
己診断技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a self-diagnosis technique for electronic computers, and more particularly to a self-diagnosis technique effective for use in a server-class computer equipped with a large capacity memory and a large number of IO devices.

【0002】[0002]

【従来の技術】通常の電子計算機システムでは、電源を
投入された時点でのみROMに格納された診断プログラ
ム又はROMに格納されたプログラムによってロードさ
れた診断プログラムがハードウェアの初期診断および初
期設定を行なっている。この自己診断は装置の電源を投
入された場合または装置がリセットされた場合のみ実施
されるものであり、電子計算機の動作中に関してはメモ
リパリティの発生をハードウェア的に検出する、または
IOデバイスアクセス時にIOデバイスが発生するエラ
ーステータスを動作中のソフトウェアが監視する、とい
うようなソフトウェアのハードウェアアクセス動作に伴
って検出されたエラーを処理する方式が一般に行われて
いる。
2. Description of the Related Art In a general electronic computer system, a diagnostic program stored in a ROM or a diagnostic program loaded by a program stored in a ROM performs initial diagnosis and initial setting of hardware only when power is turned on. I am doing it. This self-diagnosis is performed only when the power of the device is turned on or when the device is reset. When the computer is operating, the occurrence of memory parity is detected by hardware, or IO device access is performed. A method of processing an error detected in association with a hardware access operation of software is generally performed, in which an operating software monitors an error status that sometimes occurs in an IO device.

【0003】[0003]

【発明が解決しようとする課題】大規模システムを構築
する電子計算機においては、特定の保守を実施する場合
以外は電子計算機は常時通電されるケースが多い。した
がって、電源投入時に実行されるハードウェアの初期診
断も実行される頻度が減ってしまい、ハードウェア故障
が判明するきっかけが少なくなってしまう。また、電子
計算機の動作中はソフトウェアがある処理を実施しよう
とした際に発生するエラーは検出する方式がとられてい
るが、この方式ではエラーを検出した時点ではソフトウ
ェアが行おうとした動作ができず、処理を続行できない
ケースがある。これは電子計算機の信頼性を低下させる
結果となってしまう。
In a computer that constructs a large-scale system, the computer is often energized at all times except when specific maintenance is performed. Therefore, the frequency with which the initial diagnosis of the hardware executed when the power is turned on is also reduced, and the chance of finding a hardware failure decreases. In addition, while the computer is operating, a method is adopted to detect an error that occurs when the software attempts to perform a certain process, but this method allows the software to perform the operation that it tried to do at the time when the error was detected. In some cases, the process cannot be continued. This results in a decrease in the reliability of the electronic computer.

【0004】また、大規模システムを構成する電子計算
機においては、実装されるメモリ、IO等の計算機資源
が多く、これらのハードウェアの全てを上述のように電
源投入時に診断プログラムで診断していては電子計算機
の立ち上げに多くの時間がかかってしまい、使い勝手が
良くないという問題がある。
In an electronic computer that constitutes a large-scale system, many computer resources such as memory and IO are installed, and all of these hardware are diagnosed by a diagnostic program when the power is turned on as described above. Has a problem that it takes a lot of time to start up an electronic computer and is not easy to use.

【0005】[0005]

【課題を解決するための手段】電子計算機の動作中のア
イドル状態を検出し、前記電子計算機のハードウェアの
自己診断を実施する。
An idle state during operation of an electronic computer is detected, and a self-diagnosis of the hardware of the electronic computer is carried out.

【0006】望ましくは、電子計算機の電源投入時に前
記電子計算機のハードウェアの自己診断を行わずに前記
電子計算機を立ち上げる。
[0006] It is desirable that the computer be started up without self-diagnosis of the hardware of the computer when the computer is powered on.

【0007】[0007]

【作用】電子計算機の動作中のアイドル状態を検出して
ハードウェアの自己診断を行うので、電子計算機を長時
間連続して動作させる場合にもハードウェアの自己診断
の頻度を保証することができ、電子計算機の信頼性向上
を図ることができる。
[Function] Since the hardware self-diagnosis is performed by detecting the idle state during the operation of the electronic computer, the frequency of the hardware self-diagnosis can be guaranteed even when the electronic computer is operated continuously for a long time. Therefore, the reliability of the electronic computer can be improved.

【0008】また、電子計算機の電源投入時にハードウ
ェアの自己診断を行わないことにより、電子計算機の立
ち上げ時間を短縮することができる。
Further, since the hardware self-diagnosis is not performed when the power of the electronic computer is turned on, the startup time of the electronic computer can be shortened.

【0009】[0009]

【実施例】以下、本発明の一実施例を図を参照しながら
説明する。
An embodiment of the present invention will be described below with reference to the drawings.

【0010】図1は最優先ハードウェア割り込みとデー
タ退避用のメモリとIOデバイス監視論理とを備えた電
子計算機のハードウェアの構成の一例を示し、本発明の
一実施例の計算機システムの構成を示すブロック図であ
る。
FIG. 1 shows an example of a hardware configuration of an electronic computer having a highest priority hardware interrupt, a memory for saving data, and an IO device monitoring logic, and shows a configuration of a computer system according to an embodiment of the present invention. It is a block diagram shown.

【0011】図1において、1はCPU、2はメモリコ
ントローラ、3はメインメモリ、4はCPUバスであ
り、CPU1はCPUバス4を介してメモリコントロー
ラ2及びメインメモリ3に接続されている。また、7は
システムバス、8、9、10はシステムバス7に接続さ
れているIOコントローラ、5はCPUバス4とシステ
ムバス7とを接続するブリッジである。すなわち、CP
Uバス4はブリッジ5を介してシステムバス7に接続さ
れており、システムバス7上の各IOコントローラ8、
9、10はCPU1からアクセス可能な構造となってい
る。6はIOアクセス監視ロジックであり、CPU1の
IOコントローラへのアクセスを監視する機能を持つハ
ードウェアである。IOアクセス監視ロジック6は、そ
の内部に1つ以上のタイマ13を持ち、一定時間の間1
2で示すような対応する特定のIOに対してCPUがア
クセスが無かった場合、CPU1に対して最優先割り込
みを発生する機能を持つ。また、このタイマ13の値及
びIOアクセス監視の対象となるIOコントローラはソ
フトウェアからのプログラムが可能であり、電子計算機
システムに最適な条件のIOアクセス監視条件の設定が
可能の構造となっている。
In FIG. 1, 1 is a CPU, 2 is a memory controller, 3 is a main memory, 4 is a CPU bus, and the CPU 1 is connected to a memory controller 2 and a main memory 3 via a CPU bus 4. Further, 7 is a system bus, 8, 9 and 10 are IO controllers connected to the system bus 7, and 5 is a bridge connecting the CPU bus 4 and the system bus 7. That is, CP
The U bus 4 is connected to the system bus 7 via the bridge 5, and each IO controller 8 on the system bus 7
9 and 10 have a structure accessible from the CPU 1. Reference numeral 6 denotes an IO access monitoring logic, which is hardware having a function of monitoring access of the CPU 1 to the IO controller. The IO access monitoring logic 6 has one or more timers 13 therein, and the IO access monitoring logic 6 keeps 1
When the CPU does not access the corresponding specific IO as indicated by 2, the CPU 1 has a function of generating the highest priority interrupt. The value of the timer 13 and the IO controller to be monitored for IO access can be programmed by software, and the IO access monitoring condition that is the optimum condition for the electronic computer system can be set.

【0012】従来の自己診断は、電子計算機の電源が投
入された時点で、CPU1がROM14の内容を実行す
ることによって行われていた。CPU1は電源投入でリ
セットがかかると、特定のアドレスから実行を開始する
ようになっている。このCPU1が最初に実行するアド
レスをROM14にハードウェア的に割り当てておき、
このROM14の中にROM14自身のプログラムの内
容を検証するプログラムやメインメモリ3やIOコント
ローラ8、9、10をテストするためのプログラムをあ
らかじめ書き込んでおくことにより、電源投入時に電子
計算機を構成するハードウェアの自己診断を一括して行
っていた。この方法では、上述のとおり電子計算機を構
成するハードウェアの構成要素または量が多くなると診
断にかかる時間がそれに従って長くなってしまい、ま
た、電子計算機の動作中に発生したハードウェアの故障
を検出できない、という問題があった。
The conventional self-diagnosis is performed by the CPU 1 executing the contents of the ROM 14 when the power of the electronic computer is turned on. When the CPU 1 is reset when the power is turned on, the CPU 1 starts execution from a specific address. The address first executed by the CPU 1 is hardware-assigned to the ROM 14,
A program for verifying the contents of the program of the ROM 14 itself and a program for testing the main memory 3 and the IO controllers 8, 9 and 10 are written in advance in the ROM 14 so that the hardware configuring the electronic computer when the power is turned on is written. The self-diagnosis of the wear was done at once. According to this method, if the number of components or the amount of hardware configuring the electronic computer increases as described above, the time required for diagnosis increases accordingly, and a hardware failure that occurs during the operation of the electronic computer is detected. There was a problem that I could not.

【0013】図2は図1に示したハードウェアの上で動
作するプログラムの一例を示したフローチャートであ
る。これは電子計算機が特定の処理を行った後、一定時
間IOアクセスの無い状態となり、その後最優先割り込
みが発生してその最優先割り込み処理内でハードウェア
の自己診断を実行し、そしてまたもとの処理に戻ってく
る例を示したものである。
FIG. 2 is a flow chart showing an example of a program which operates on the hardware shown in FIG. This is because, after the electronic computer has performed a specific process, there is no IO access for a certain period of time, then a highest priority interrupt occurs, the hardware self-diagnosis is executed within the highest priority interrupt process, and again This is an example of returning to the processing of.

【0014】通常、電子計算機上では与えられたプログ
ラムに従い処理が行われている。たとえばあるプログラ
ムでHDアクセス処理20、キーボード入力処理21、
通信処理22が一定時間間隔で行われたものとする。こ
れらの処理の後に、一定時間のIOアクセスが無かった
場合(ステップ23)、IOアクセス監視ロジック6内
のタイマ13がこれを検出し、最優先割り込みを発生す
る。この割り込みは20、21、22で示したような処
理、及びOSの動作とは非動機に発生するものである。
そのため、最優先割り込みの発生時はその時点の動作状
態は全て保存して最優先割り込み処理に移行することと
なる。
Normally, processing is performed on an electronic computer according to a given program. For example, the HD access process 20, keyboard input process 21,
It is assumed that the communication process 22 is performed at regular time intervals. After these processes, when there is no IO access for a certain time (step 23), the timer 13 in the IO access monitoring logic 6 detects this and generates the highest priority interrupt. This interruption occurs unmotivated by the processing indicated by 20, 21, 22 and the operation of the OS.
Therefore, when the highest priority interrupt occurs, all operating states at that time are saved and the process shifts to the highest priority interrupt processing.

【0015】最優先割り込み処理のプログラムは通常R
OMの中に格納される。最優先割り込み処理では、まず
診断対象の選定を行う(ステップ24)。ここでは、こ
の割り込み処理内で行う診断を決定する。たとえばメモ
リの診断を行う場合は、その対象となるアドレスを決定
する。この決定の仕方はいろいろあるが、一例としてメ
モリ空間を1KBごとの空間に分割しておき、最優先割
り込み発生の度にこの分割したメモリ空間を1つずつ診
断していく方法が考えられる。このとき次に診断するメ
モリ空間を覚えておくために不揮発性のRAM15にそ
の情報を記録しておいても良い。IOコントローラの診
断の場合も同様で、その最優先割り込み処理で8、9、
10で示されたIOコントローラのどれを診断するかは
不揮発性RAM15に情報を記録しておくことが考えら
れる。
The program for the highest priority interrupt processing is usually R
It is stored in the OM. In the highest-priority interrupt processing, the diagnosis target is first selected (step 24). Here, the diagnosis to be performed in this interrupt processing is determined. For example, when diagnosing a memory, the target address is determined. Although there are various methods of making this determination, a method in which the memory space is divided into spaces of 1 KB each and the divided memory spaces are diagnosed one by one each time the highest priority interrupt occurs can be considered. At this time, the information may be recorded in the nonvolatile RAM 15 in order to remember the memory space to be diagnosed next. The same applies to the diagnosis of the IO controller, with the highest priority interrupt processing 8, 9,
It is conceivable to record information in the nonvolatile RAM 15 as to which of the IO controllers shown by 10 is to be diagnosed.

【0016】次に、診断対象となる部分の情報の退避を
行う(ステップ25)。これは診断を行うことによって
その対象の状態が変わってしまう場合に備えるためであ
り、たとえばメモリの診断を行う場合はそのメモリの内
容を別のエリアに退避するといった動作である。このと
きの退避エリアは、通常OSやアプリケーションプログ
ラムで使用しないエリアを割り当てる。たとえば、RO
Mと同じアドレスに配置されている通常使用されないR
AMや不揮発性RAMがこのようなエリアとして使用で
きる。次に診断対象の診断を行う(ステップ26)。こ
の処理はたとえば診断対象がメモリであればメモリのリ
ード・ライトテストであり、診断対象がIOコントロー
ラであればIOレジスタのリード・ライトテストであ
る。この診断の結果を判定し(ステップ27)、エラー
が無ければ状態の復帰を行うが(ステップ29)、エラ
ーがあればエラー処理を行う(ステップ28)。このエ
ラー処理は、たとえばエラーが発生した旨の上位ソフト
ウェアへの通知、エラー情報の不揮発性RAMへの格
納、エラー発生部位の縮退処理、等である。ここまでの
処理が終了したら、この最優先割り込みの処理は終了と
なるので、ステップ25で退避した状態を復帰して割り
込み処理からリターンする。次の処理としてプログラム
で指示された処理があれば、その処理を実行するし、無
ければまた一定時間後に最優先割り込みが発生し、同様
の自己診断動作が行われる。
Next, the information of the portion to be diagnosed is saved (step 25). This is to prepare for the case where the target state changes due to the diagnosis. For example, when diagnosing the memory, the contents of the memory are saved to another area. As the save area at this time, an area not normally used by the OS or application program is assigned. For example, RO
R, which is not normally used, is located at the same address as M
AM and non-volatile RAM can be used as such areas. Next, the diagnosis target is diagnosed (step 26). This processing is, for example, a memory read / write test if the diagnosis target is a memory, and an IO register read / write test if the diagnosis target is an IO controller. The result of this diagnosis is judged (step 27), and if there is no error, the state is restored (step 29), but if there is an error, error processing is carried out (step 28). This error processing includes, for example, notifying higher-level software that an error has occurred, storing error information in a non-volatile RAM, degeneration processing of an error occurrence site, and the like. When the processing up to this point is completed, the processing of this highest priority interrupt is completed, so the state saved in step 25 is restored and the interrupt processing returns. If there is a process instructed by the program as the next process, that process is executed, and if there is no such process, the highest priority interrupt is generated again after a fixed time, and the same self-diagnosis operation is performed.

【0017】また、全ての自己診断処理を本発明のよう
に最優先割り込みで実施する場合と、一部のOSが動作
するのに必要最低限度の診断のみを電源投入時に実施
し、それ以外の部分を最優先割り込みで実施する方法も
考えられる。
Further, when all self-diagnosis processing is executed by the highest priority interrupt as in the present invention, and only the minimum necessary diagnosis for operating some OSs is executed at the time of power-on, and other than that. A method of implementing the part with the highest priority interrupt is also possible.

【0018】[0018]

【発明の効果】本発明によれば電子計算機のアイドル状
態中に自己診断を行うことによって電子計算機の動作中
の障害検出を可能とし、電子計算機システムの信頼性を
向上させることができる。また、電子計算機の電源の投
入時の自己診断を簡略化することで電子計算機の立ち上
げ時間を短縮することができる。
According to the present invention, it is possible to detect a fault during the operation of the electronic computer by performing self-diagnosis while the electronic computer is in the idle state, and it is possible to improve the reliability of the electronic computer system. Further, the start-up time of the electronic computer can be shortened by simplifying the self-diagnosis when the electronic computer is powered on.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の計算機システムの構成を示
すブロック図である。
FIG. 1 is a block diagram showing a configuration of a computer system according to an embodiment of the present invention.

【図2】本発明の一実施例のハードウェアの上で動作す
るプログラムの一例を示したフローチャートである。
FIG. 2 is a flowchart showing an example of a program that operates on hardware according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1…CPU、2…メモリコントローラ、3…メインメモ
リ、4…CPUバス、5…ブリッジ、6…IOアクセス
監視ロジック、7…システムバス、8、9、10…IO
コントローラ、11…最優先割り込み、12…CPUの
IOアクセス動作、13…タイマ、14…ROM、15
…不揮発性RAM。
1 ... CPU, 2 ... Memory controller, 3 ... Main memory, 4 ... CPU bus, 5 ... Bridge, 6 ... IO access monitoring logic, 7 ... System bus, 8, 9, 10 ... IO
Controller, 11 ... Highest priority interrupt, 12 ... CPU IO access operation, 13 ... Timer, 14 ... ROM, 15
... nonvolatile RAM.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】電子計算機の動作中のアイドル状態を検出
し、前記電子計算機のハードウェアの自己診断を実施す
ることを特徴とする電子計算機の自己診断方法。
1. A self-diagnosis method for a computer, wherein an idle state during operation of the computer is detected, and a self-diagnosis of hardware of the computer is carried out.
【請求項2】電源投入時に前記電子計算機のハードウェ
アの自己診断を行った後、動作中にも前記電子計算機の
ハードウェアの自己診断を行うことを特徴とする請求項
1記載の電子計算機の自己診断方法。
2. A computer according to claim 1, wherein the hardware of said computer is self-diagnosed when the power is turned on, and then the hardware of said computer is self-diagnosed during operation. Self-diagnosis method.
【請求項3】前記電子計算機の電源投入時に前記電子計
算機のハードウェアの自己診断を行わずに前記電子計算
機を立ち上げることを特徴とする請求項1記載の電子計
算機の自己診断方法。
3. The self-diagnosis method for an electronic computer according to claim 1, wherein the electronic computer is started up without performing self-diagnosis of the hardware of the electronic computer when the power of the electronic computer is turned on.
JP7217012A 1995-08-25 1995-08-25 Self-diagnostic method for electronic computer Pending JPH0962534A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7217012A JPH0962534A (en) 1995-08-25 1995-08-25 Self-diagnostic method for electronic computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7217012A JPH0962534A (en) 1995-08-25 1995-08-25 Self-diagnostic method for electronic computer

Publications (1)

Publication Number Publication Date
JPH0962534A true JPH0962534A (en) 1997-03-07

Family

ID=16697450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7217012A Pending JPH0962534A (en) 1995-08-25 1995-08-25 Self-diagnostic method for electronic computer

Country Status (1)

Country Link
JP (1) JPH0962534A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264995A (en) * 2006-03-28 2007-10-11 Fujitsu Ltd Self-testing apparatus and method for reconfigurable device loading board
JP2010211529A (en) * 2009-03-10 2010-09-24 Fujitsu Ltd Storage device, relay device, and diagnostic method
CN109062746A (en) * 2018-07-27 2018-12-21 郑州云海信息技术有限公司 A kind of fault self-diagnosis method, device and the storage medium of server admin unit

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264995A (en) * 2006-03-28 2007-10-11 Fujitsu Ltd Self-testing apparatus and method for reconfigurable device loading board
US7487416B2 (en) 2006-03-28 2009-02-03 Fujitsu Limited Self test device and self test method for reconfigurable device mounted board
JP2010211529A (en) * 2009-03-10 2010-09-24 Fujitsu Ltd Storage device, relay device, and diagnostic method
CN109062746A (en) * 2018-07-27 2018-12-21 郑州云海信息技术有限公司 A kind of fault self-diagnosis method, device and the storage medium of server admin unit

Similar Documents

Publication Publication Date Title
US6216226B1 (en) Method and system for dynamically selecting a boot process within a data processing system
EP1638000B1 (en) Method, apparatus and program for performing panic memory dump
JP2012069032A (en) Information processor
JP2010092127A (en) Computer system, processor diagnostic method, and processor diagnosis control program
JP4886558B2 (en) Information processing device
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
JPH0962534A (en) Self-diagnostic method for electronic computer
JPH02294739A (en) Fault detecting system
CN100369009C (en) Monitor system and method capable of using interrupt signal of system management
JPH0766368B2 (en) Boot processor determination method
JP2009520290A (en) Fault-tolerant processor system
JPS58181160A (en) Controlling system of emergency operation
JPH10228395A (en) Abnormality diagnostic device for controller
JPH0619744A (en) Operation monitoring system for multiprocessor system
CN115454739A (en) Test information acquisition method and device, computer equipment and storage medium
JPH1153214A (en) Boot failure detection system of personal computer
JP3060376U (en) Memory device
JP3207446B2 (en) System stop method of controller system
JPH0916434A (en) Detecting method for failure information at time of runaway of cpu
CN116069442A (en) Information processing device, vehicle, and information processing method
JPH08123704A (en) Controller
JPH01183701A (en) Plant supervisory unit
CN115454825A (en) Firmware detection method and device, computer equipment and storage medium
JPH11282726A (en) Information processing system, watch dog timer operation method and recording medium for recording control program for the same
CN113836035A (en) Battery management system testing method and device and electronic equipment