JPH0122654B2 - - Google Patents

Info

Publication number
JPH0122654B2
JPH0122654B2 JP59181976A JP18197684A JPH0122654B2 JP H0122654 B2 JPH0122654 B2 JP H0122654B2 JP 59181976 A JP59181976 A JP 59181976A JP 18197684 A JP18197684 A JP 18197684A JP H0122654 B2 JPH0122654 B2 JP H0122654B2
Authority
JP
Japan
Prior art keywords
input
output
error
threshold
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP59181976A
Other languages
Japanese (ja)
Other versions
JPS6160156A (en
Inventor
Eiji Masuda
Hirobumi Okahata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP59181976A priority Critical patent/JPS6160156A/en
Publication of JPS6160156A publication Critical patent/JPS6160156A/en
Publication of JPH0122654B2 publication Critical patent/JPH0122654B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】[Detailed description of the invention]

〔産業上の利用分野〕 本発明は、複数の入出力装置やその制御装置
(以下入出力系装置という)を含むデータ処理シ
ステムにおいて、入出力処理中にエラが生じた場
合にその原因がどの装置にあるのかを的確に検出
する方式に関する。 〔従来の技術〕 入出力系装置にはチヤンネル装置、入出力制御
装置、入出力アダプタ、入出力装置等、複数階層
の装置があり、かつ1つの入出力装置に対して複
数のアクセスパスが設けられるなど、複雑な接続
となつている。従つてある入出力装置に対して入
出力処理を行なつているときにエラが生じた場
合、どの装置に真の原因があるのかは簡単には確
定できない。しかし、故障した装置はなるべく早
期に発見し、システムから切離すなり修復するな
りする必要がある。 従来よりこのような複雑なシステムにおいて障
害装置を特定するために、統計的手法を用いるこ
とが提案されている。 例えば特開昭49−66042号公報では、エラの種
類毎にそのエラに関連する可能性の度合に応じた
更新量で、各装置対応のエラカウンタを更新し、
最も高い値を示すカウンタに対応する装置が障害
の原因とみなすようにしている。 〔発明が解決しようとする問題点〕 しかし、このような統計的な方式による場合、
その母数がある程度大きくかつ均等に分布してい
ないと精度が悪いという問題がある。即ち現実に
処理された入出力処理が特定の入出力装置に偏寄
つていたり、一定時間内の入出力処理の量が少な
かつたりすると、正確な検出はできない。 母数を増やし、かつ均等に分布することを期待
するには、かなり長い時間にわたつてカウントを
継続する必要があり、障害装置の特定が遅れると
いう問題がある。 〔問題を解決するための手段〕 そこで本発明ではエラカウンタの値に2つの閾
値を定め、第1のより低い閾値を越えるカウンタ
が生じたとき、診断用の入出力処理を発生させ、
その結果さらに第2のより高い閾値を越えるカウ
ンタが生じたときに、各カウンタの値から障害装
置を特定するようにしている。 〔作用〕 即ち、第1の閾値を越えた時点では、入出力処
理の回数が少なかつたり、特定の装置に偏寄つて
いたりするかも知れないが、とにかく何らかの異
常が生じたことは検出される。そして診断用入出
力処理を発生して、すべての入出力装置に対して
すべてのパスを用いて入出力処理を強制的に行な
わせることにより、上記の回数及び偏寄りの問題
が解決される。 今、各々α、β、γのエラーカウンタを有する
装置A、B、Cがあり、装置Cにアクセスするル
ートがA→C、B→Cの2つ存在したとする。A
→Cのルートでエラーが発生した場合、A、Cに
対応したエラーカウンタをそれぞれカウントアツ
プする。同様にB→Cのルートでエラーが発生し
た時はB、Cのエラーカウンタをカウントアツプ
する。A→C、B→Cへの要求(負荷)が均等
だ、とした場合、以下のことが言える。ただし、
同時に複数の装置が障害になることはない、と前
提し、又障害検出までには秒のオーダであり、現
実問題として同時障害はないと考えると、
[Industrial Application Field] The present invention is designed to identify the cause of an error that occurs during input/output processing in a data processing system that includes a plurality of input/output devices and their control devices (hereinafter referred to as input/output devices). This invention relates to a method for accurately detecting whether a device is present. [Prior Art] Input/output devices include multiple layers of devices such as channel devices, input/output control devices, input/output adapters, and input/output devices, and multiple access paths are provided for one input/output device. The connection is complicated. Therefore, if an error occurs while performing input/output processing on a certain input/output device, it is not easy to determine which device is actually causing the error. However, it is necessary to discover a malfunctioning device as early as possible and either disconnect it from the system or repair it. Conventionally, it has been proposed to use statistical methods to identify faulty devices in such complex systems. For example, in Japanese Patent Application Laid-Open No. 49-66042, an error counter for each device is updated with an update amount according to the degree of possibility related to the error for each type of error.
The device corresponding to the counter showing the highest value is considered to be the cause of the failure. [Problem to be solved by the invention] However, when using such a statistical method,
There is a problem that accuracy is poor unless the parameter is large to some extent and distributed evenly. That is, if the actual input/output processing is biased toward a specific input/output device, or if the amount of input/output processing within a certain period of time is small, accurate detection cannot be performed. In order to increase the population and expect an even distribution, it is necessary to continue counting for quite a long time, which causes a problem in that identification of faulty devices is delayed. [Means for Solving the Problem] Therefore, in the present invention, two thresholds are set for the error counter value, and when the counter exceeds the first lower threshold, diagnostic input/output processing is generated,
As a result, when a counter exceeds a second higher threshold, the faulty device is identified from the value of each counter. [Effect] In other words, when the first threshold is exceeded, the number of input/output processes may be small or may be biased toward a specific device, but any abnormality will not be detected. Ru. Then, by generating diagnostic input/output processing and forcing all input/output devices to perform input/output processing using all paths, the above-mentioned problem of number of times and imbalance can be solved. Now, assume that there are devices A, B, and C, each having error counters α, β, and γ, and that there are two routes for accessing device C, A→C and B→C. A
→If an error occurs in route C, the error counters corresponding to A and C are counted up. Similarly, when an error occurs on the route B→C, the error counters of B and C are counted up. Assuming that the requests (loads) from A to C and B to C are equal, the following can be said. however,
Assuming that multiple devices do not experience failures at the same time, and considering that it takes only seconds to detect a failure, and that there are no simultaneous failures as a practical matter,

【表】 −
[Table] −

Claims (1)

【特許請求の範囲】 1 少くとも複数の入出力装置とそれらを制御す
る1又は複数の入出力制御装置とを含んでなるデ
ータ処理システムにおいて、上記各装置対応にエ
ラカウンタを設け、ある入出力装置に対する入出
力処理時にエラが生じた場合、当該入出力処理に
関係した各装置のエラカウンタを更新するように
し、いずれかのエラカウンタの値が第1の閾値を
越えた場合、すべての入出力装置に対してすべて
のパスを介する入出力処理を発生させ、その際に
エラーが生じれば上記と同様にエラカウンタの更
新を行なうようにし、いずれかのエラカウンタの
値が上記第1の閾値より大きい第2の閾値を越え
た場合に、少くとも該第2閾値を越えたエラーカ
ウンタにもとづいて障害装置を特定するようにし
たことを特徴とする入出力系装置の障害検出方
式。 2 上記エラカウンタの更新量がエラの種類に応
じて異なることを特徴とする特許請求の範囲第1
項記載の入出力系装置の障害検出方式。 3 上記いずれかのエラカウンタが第2閾値を越
えたとき、複数のエラカウンタの値にもとづいて
障害装置を決定することを特徴とする特許請求の
範囲第1項又は第2項記載の入出力系装置の障害
検出方式。 4 上記エラカウンタは各装置対応に設けられる
とともに、該装置が2以上のパスで上位装置と接
続される場合は各パス毎に対応して設けられるこ
とを特徴とする特許請求の範囲第1項ないし第3
項のいずれかに記載の入出力系装置の障害検出方
式。
[Scope of Claims] 1. In a data processing system that includes at least a plurality of input/output devices and one or more input/output control devices that control them, an error counter is provided for each of the devices, and a certain input/output If an error occurs during input/output processing to a device, the error counters of each device involved in the input/output processing are updated, and if the value of any error counter exceeds the first threshold, all input/output Input/output processing is generated for the output device via all paths, and if an error occurs at that time, the error counter is updated in the same way as above, and the value of one of the error counters is set to the above first value. A fault detection method for an input/output device, characterized in that, when a second threshold larger than a threshold is exceeded, a faulty device is identified based on at least an error counter that exceeds the second threshold. 2. Claim 1, characterized in that the update amount of the error counter differs depending on the type of error.
Fault detection method for input/output devices described in section. 3. The input/output device according to claim 1 or 2, characterized in that when any of the above error counters exceeds a second threshold, a faulty device is determined based on the values of a plurality of error counters. Failure detection method for system equipment. 4. Claim 1, characterized in that the error counter is provided for each device, and if the device is connected to a host device through two or more paths, it is provided for each path. or third
A fault detection method for an input/output device as described in any of the above.
JP59181976A 1984-08-31 1984-08-31 Fault detecting system of input and output system device Granted JPS6160156A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59181976A JPS6160156A (en) 1984-08-31 1984-08-31 Fault detecting system of input and output system device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59181976A JPS6160156A (en) 1984-08-31 1984-08-31 Fault detecting system of input and output system device

Publications (2)

Publication Number Publication Date
JPS6160156A JPS6160156A (en) 1986-03-27
JPH0122654B2 true JPH0122654B2 (en) 1989-04-27

Family

ID=16110153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59181976A Granted JPS6160156A (en) 1984-08-31 1984-08-31 Fault detecting system of input and output system device

Country Status (1)

Country Link
JP (1) JPS6160156A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522200U (en) * 1991-03-05 1993-03-23 株式会社石井常備 Vehicle-mounted telephone device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0522200U (en) * 1991-03-05 1993-03-23 株式会社石井常備 Vehicle-mounted telephone device

Also Published As

Publication number Publication date
JPS6160156A (en) 1986-03-27

Similar Documents

Publication Publication Date Title
CA2017227A1 (en) Computer network for real time control with automatic fault identification and by pass
JPH0746322B2 (en) Faulty device identification system
US6314350B1 (en) Methods and apparatus for generating maintenance messages
JPH0122654B2 (en)
JPS63153422A (en) Detecting device for fault of sensor
JP2531372B2 (en) Fault detection circuit
JP3432249B2 (en) Signal monitoring method
JPH113293A (en) Computer system
JPH05204692A (en) Failure detecting/separating system for information processor
JP2547721B2 (en) Device selection circuit verification method
JPS5858662A (en) Device testing system
CN117749610A (en) System alarm method and device and electronic equipment
JPS63200250A (en) Pseudo fault generating system for cache memory device
CN117411777A (en) Fault positioning method and device, storage medium and electronic equipment
JPS5890122A (en) Inferring system for in-plant trouble cause
JPS60325A (en) Monitoring device of plant
JPS62109101A (en) Plant protecting device
JPS5957354A (en) Data processing system
JPS6161427B2 (en)
JPH09116624A (en) Exchange test diagnosis method
JPH02214413A (en) System for monitoring digital protective relay
JPH0469720A (en) Clock abnormality detector
JPS63220333A (en) Information processor
JPH01305556A (en) Decoder test system
JPH05119118A (en) Electromigration evaluation board