JP2007265157A - System and method for detecting fault of i/o device - Google Patents
System and method for detecting fault of i/o device Download PDFInfo
- Publication number
- JP2007265157A JP2007265157A JP2006091028A JP2006091028A JP2007265157A JP 2007265157 A JP2007265157 A JP 2007265157A JP 2006091028 A JP2006091028 A JP 2006091028A JP 2006091028 A JP2006091028 A JP 2006091028A JP 2007265157 A JP2007265157 A JP 2007265157A
- Authority
- JP
- Japan
- Prior art keywords
- timer
- detection system
- abnormal
- count
- failure detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、外部装置の障害検出システム、及び、方法に関し、更に詳しくは、I/O装置等の外部装置に障害が発生したことを検出する外部装置の障害検出システム、及び、方法に関する。 The present invention relates to a failure detection system and method for an external device, and more particularly to a failure detection system and method for an external device that detects that a failure has occurred in an external device such as an I / O device.
一般に、コンピュータシステムは、システム制御を行うプロセッサと、外部記憶装置等のI/O装置とを含み、プロセッサと、I/O装置とは、バスを介して接続されている。このようなコンピュータシステムにおけるI/O装置の障害検出方法としては、例えば、特許文献1に記載された技術がある。この技術では、I/Oタイムアウトの発生を検出し、複数のI/O装置のうちのI/Oタイムアウトが多発するI/O装置を、固定障害として検出する。
In general, a computer system includes a processor that performs system control and an I / O device such as an external storage device, and the processor and the I / O device are connected via a bus. As a method for detecting a failure of an I / O device in such a computer system, for example, there is a technique described in
従来のコンピュータシステムでは、例えば磁気ディスクが無応答になった場合には、OSが動作することが不能になって、ユーザがハードリセットを行う必要があった。或いは、一定時間OSが無応答となると、ウォッチドッグタイマーにより、リセットを行っていた。しかし、磁気ディスクの無応答を検出して障害を検出する場合には、磁気ディスクの間欠的な無応答によって、障害を誤検出し、不必要なリセットが発生することがある。また、プロセッサが割り込みを禁止した状態で停止することで、通常の割り込み処理が動作しないという問題もある。 In the conventional computer system, for example, when the magnetic disk becomes unresponsive, the OS cannot be operated, and the user needs to perform a hard reset. Alternatively, when the OS becomes unresponsive for a certain time, the watchdog timer is used for resetting. However, when a failure is detected by detecting a non-response of the magnetic disk, the failure may be erroneously detected due to intermittent non-response of the magnetic disk, and an unnecessary reset may occur. There is also a problem that normal interrupt processing does not operate when the processor stops in a state in which interrupts are prohibited.
本発明は、上記従来技術の問題点を解消し、プロセッサの動作が停止した場合でも、I/O装置の異常に応じた処理を実行可能なI/O装置の異常検出システム及び方法を提供することを目的とする。また、本発明は、I/O装置の異常の誤検出を防止できるI/O装置の異常検出システム及び方法を提供することを目的とする。 The present invention provides an I / O device abnormality detection system and method that solves the above-described problems of the prior art and that can execute processing according to an abnormality of the I / O device even when the operation of the processor is stopped. For the purpose. It is another object of the present invention to provide an I / O device abnormality detection system and method that can prevent erroneous detection of an abnormality of an I / O device.
上記目的を達成するために、本発明のI/O装置の障害検出システムは、I/O装置に障害が発生したことを検出する障害検出システムにおいて、時間経過に従ってカウントを進行し、カウント値が所定の値となるとカウントアウトを発生するタイマー手段と、前記I/O装置との間のデータ入出力を監視し、データ入出力の正常終了数、及び、データ入出力の異常終了数をカウントし、該カウントした正常終了数、及び、異常終了数の少なくとも一方に基づいて、前記I/O装置が正常に動作しているか否かを判断するI/O装置管理手段と、前記I/O装置管理手段が、前記I/O装置が正常に動作していると判断すると、前記タイマー手段のカウント値を初期値にリセットするタイマー管理手段と、前記タイマー手段がタイムアウトを発生すると、NMI割り込みを発生する割り込み発生手段とを備えることを特徴とする。 In order to achieve the above object, a failure detection system for an I / O device according to the present invention is a failure detection system that detects that a failure has occurred in an I / O device. Monitors the data input / output between the I / O device and the timer means for generating a count-out when a predetermined value is reached, and counts the number of normal data input / output ends and the number of abnormal data input / output ends. An I / O device management means for judging whether or not the I / O device is operating normally based on at least one of the counted number of normal ends and the number of abnormal ends, and the I / O device When the management means determines that the I / O device is operating normally, timer management means for resetting the count value of the timer means to an initial value, and the timer means time-out. If raw, characterized in that it comprises an interrupt generating means for generating an NMI interrupt.
本発明の障害検出方法は、I/O装置に障害が発生したことを検出する障害検出方法において、タイマーのカウントを時間経過に従ってカウントを進行しつつ、前記I/O装置との間のデータ入出力を監視して、データ入出力の正常終了数、及び、データ入出力の異常終了数をカウントし、前記カウントした正常終了数、及び、異常終了数の少なくとも一方に基づいて、前記I/O装置が正常に動作しているか否かを判断し、前記I/O装置が正常に動作していると判断すると、前記タイマーのカウント値を初期値にリセットし、前記タイマーのカウントが所定の値となると、NMI割り込みを発生することを特徴とする。 The failure detection method of the present invention is a failure detection method for detecting that a failure has occurred in an I / O device. The output is monitored to count the number of normal terminations of data input / output and the number of abnormal terminations of data input / output. Based on at least one of the counted number of normal terminations and abnormal terminations, the I / O It is determined whether or not the device is operating normally. If it is determined that the I / O device is operating normally, the timer count value is reset to an initial value, and the timer count is a predetermined value. Then, an NMI interrupt is generated.
本発明のI/O装置の障害検出システム及び方法では、データ入出力の正常終了数及び異常終了数の少なくとも一方に基づいてI/O装置が正常に動作しているか否かを判断し、正常に動作していると判断した場合には、タイマーのカウントを初期状態にリセットする。I/O装置に異常が発生した場合には、タイマーがリセットされないことで、タイムアウトが発生し、NMI割り込みによって、この割り込みを入力するプロセッサ側で、I/O装置の異常を検出できる。本発明では、I/O装置が正常に動作しているか否かの判断に、データ入出力の正常終了数と異常終了数の少なくとも一方を用いているため、これに基づいて適切に判断することで、偶発的に異常終了が発生しただけなのか、或いは、装置に異常が発生して異常終了が発生したのかを判断でき、復旧可能なエラーに対する誤検出を防止できる。ここで、I/O装置が無応答になると、正常終了数や異常終了数をカウントする手段(プロセッサ)が、全く動作しなくなる場合があるが、このような場合でも、タイマーにリセットがかからないことでタイムアウトが発生し、NMI割り込みが発生することで、プロセッサは、I/O装置の異常を検出して、それに応じた処理を実行できる。 In the I / O device failure detection system and method of the present invention, it is determined whether or not the I / O device is operating normally based on at least one of the normal termination number and abnormal termination number of data input / output. If it is determined that the timer is operating, the timer count is reset to the initial state. When an abnormality occurs in the I / O device, the timer is not reset, a timeout occurs, and the abnormality of the I / O device can be detected by the NMI interrupt on the processor side that inputs this interrupt. In the present invention, since at least one of the normal termination number and the abnormal termination number of data input / output is used for determining whether or not the I / O device is operating normally, an appropriate determination should be made based on this. Therefore, it is possible to determine whether the abnormal termination has just occurred accidentally or whether the apparatus has malfunctioned and the abnormal termination has occurred, and it is possible to prevent erroneous detection of a recoverable error. Here, if the I / O device becomes non-responsive, the means (processor) for counting the number of normal terminations and abnormal terminations may not operate at all. In such a case, the timer is not reset. When a time-out occurs and an NMI interrupt occurs, the processor can detect an abnormality in the I / O device and execute processing corresponding thereto.
本発明のI/O装置の障害検出システムでは、前記タイマー手段が、時間経過と共に、カウント値を、所定の初期値からカウントダウンし、前記カウント値が0になるとタイムアウトを発生するウォッチドッグタイマーを含む構成を採用できる。この場合、カウント値が0になる前に、I/O装置管理手段がI/O装置の動作が異常であると判断することにより、或いは、何らかの原因でI/O装置管理手段の動作自体が停止することにより、タイマー制御手段がリセットを発行しない場合には、カウントダウンが進行してカウント値が0となり、NMI割り込みが発生して、I/O装置の異常を検出できる。 In the failure detection system for an I / O device according to the present invention, the timer means includes a watchdog timer that counts down a count value from a predetermined initial value as time elapses, and generates a timeout when the count value becomes 0. Configuration can be adopted. In this case, before the count value becomes 0, the I / O device management unit determines that the operation of the I / O device is abnormal, or the operation of the I / O device management unit itself is caused by some reason. By stopping, when the timer control means does not issue a reset, the countdown proceeds, the count value becomes 0, an NMI interrupt is generated, and an abnormality in the I / O device can be detected.
本発明のI/O装置の障害検出システムでは、前記I/O装置管理手段は、前記異常終了数が所定のしきい値を超えると、前記I/O装置が正常に動作していないと判断する構成を採用できる。例えば、所定回数のデータ入出力に対して、I/O装置が異常であると判断する際の基準となるしきい値を設定しておき、異常終了回数がしきい値を超えるか否かにより、I/O装置が異常であるか否かを判断する構成を採用できる。 In the failure detection system for an I / O device of the present invention, the I / O device management means determines that the I / O device is not operating normally when the number of abnormal terminations exceeds a predetermined threshold value. Can be adopted. For example, for a predetermined number of times of data input / output, a threshold value is set as a reference for determining that the I / O device is abnormal, and depending on whether the number of abnormal terminations exceeds the threshold value A configuration for determining whether or not the I / O device is abnormal can be employed.
本発明のI/O装置の障害検出システムでは、前記I/O装置管理手段は、前記正常終了数が所定のしきい値を超えると、前記I/O装置が正常に動作していると判断する構成を採用できる。例えば、所定回数のデータ入出力に対して、I/O装置が正常であると判断する際の基準となるしきい値を設定しておき、正常終了回数がしきい値を超えるか否かにより、I/O装置が正常であるか否かを判断する構成を採用できる。 In the I / O device failure detection system according to the present invention, the I / O device management means determines that the I / O device is operating normally when the number of normal terminations exceeds a predetermined threshold. Can be adopted. For example, for a predetermined number of times of data input / output, a threshold value serving as a reference for determining that the I / O device is normal is set, and depending on whether the normal end count exceeds the threshold value A configuration for determining whether or not an I / O device is normal can be employed.
本発明のI/O装置の障害検出システムでは、前記異常終了数がI/Oタイムアウト発生数を含み、前記I/O装置管理手段は、前記I/Oタイムアウトの発生数と前記正常終了数との比率が所定の値を超えると、前記I/O装置が正常に動作していないと判断する構成を採用できる。例えば、所定回数のデータ入出力に対して、I/O装置が異常であると判断する際の基準となる、前記I/Oタイムアウトの発生数と前記正常終了数との比率のしきい値を設定しておき、前記I/Oタイムアウトの発生数と前記正常終了数との比率がそのしきい値を超えるか否かにより、I/O装置が異常であるか否かを判断する構成を採用できる。 In the failure detection system for an I / O device according to the present invention, the number of abnormal terminations includes the number of I / O timeout occurrences, and the I / O device management means includes the number of I / O timeout occurrences and the number of normal terminations. If the ratio exceeds a predetermined value, a configuration can be adopted in which it is determined that the I / O device is not operating normally. For example, a threshold value of the ratio between the number of I / O timeout occurrences and the number of normal terminations, which serves as a criterion for determining that an I / O device is abnormal for a predetermined number of data inputs / outputs, A configuration is adopted in which it is determined whether or not the I / O device is abnormal depending on whether the ratio between the number of I / O timeout occurrences and the number of normal terminations exceeds the threshold. it can.
本発明のI/O装置の障害検出システムでは、前記I/O装置が、外部記憶装置を含む構成を採用できる。また、前記I/O装置が、ネットワーク装置を含む構成を採用することもできる。 In the I / O device failure detection system according to the present invention, the I / O device may include an external storage device. Further, the I / O device may employ a configuration including a network device.
本発明のI/O装置の障害検出システム及び方法では、データ入出力の正常終了数及び異常終了数の少なくとも一方に基づいてI/O装置が正常に動作しているか否かを判断し、正常に動作していると判断した場合には、タイマーのカウントを初期状態にリセットする。I/O装置に異常が発生した場合や、I/O装置が無応答となることでプロセッサの動作が停止した場合には、タイマーがリセットされないことで、タイムアウトが発生し、NMI割り込みを発生させる。このNMI割り込みを、プロセッサに入力することで、プロセッサにより、I/O装置の異常に応じた処理を実行できる。また、本発明では、I/O装置が正常に動作しているか否かの判断に、データ入出力の正常終了数と異常終了数の少なくとも一方を用いているため、これに基づいて適切に判断することで、偶発的に異常終了が発生しただけなのか、或いは、装置に異常が発生して異常終了が発生したのかを判断でき、復旧可能なエラーに対する誤検出を防止できる。 In the I / O device failure detection system and method of the present invention, it is determined whether or not the I / O device is operating normally based on at least one of the normal termination number and abnormal termination number of data input / output. If it is determined that the timer is operating, the timer count is reset to the initial state. When an abnormality occurs in the I / O device, or when the operation of the processor is stopped due to no response from the I / O device, the timer is not reset, a timeout occurs, and an NMI interrupt is generated. . By inputting this NMI interrupt to the processor, the processor can execute processing according to the abnormality of the I / O device. In the present invention, since at least one of the normal termination number and the abnormal termination number of data input / output is used to determine whether the I / O device is operating normally, an appropriate determination is made based on this. By doing so, it can be determined whether the abnormal termination has just occurred accidentally or whether the apparatus has malfunctioned and the abnormal termination has occurred, and it is possible to prevent erroneous detection of a recoverable error.
以下、図面を参照し、本発明の実施の形態を詳細に説明する。図1は、本発明の一実施形態のI/O装置の障害検出システムの構成を示している。この障害検出システム10は、プロセッサ100と、BMC(Base Management Controller)110と、SCSIコントローラ120とを備える。プロセッサ100は、I/Oバス150を介して、SCSIコントローラ120に接続される。SCSIコントローラ120は、SCSIバス140を介して磁気ディスク装置130に接続される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 shows the configuration of an I / O device failure detection system according to an embodiment of the present invention. The
プロセッサ100は、外部記憶装置管理手段101と、ウォッチドッグタイマー管理手段102とを備える。BMC110は、ウォッチドッグタイマー111を有する。プロセッサ100及びBMC110内の各手段は、プログラム動作により実現される。外部記憶装置管理手段101は、磁気ディスク装置130との間のリード・ライトの正常終了数や異常終了数をカウントして図示しないメモリに記憶し、プロセッサ100の起動時や、システム運用時、或いは、システムシャットダウン時に、外部記憶装置(磁気ディスク装置)130の正常性確認を行う。
The
ウォッチドッグタイマー管理手段102は、BMC110に対してウォッチドッグタイマー111のリセットを発行する。BMC110は、ウォッチドッグタイマー111がタイムアウトを発生すると、プロセッサ100に対して、NMI割り込み(ノンマスカブルの割り込み)160を発生し、プロセッサ100に、磁気ディスク装置130が異常である旨を通知する。
The watchdog
図2は、プロセッサ100の動作手順を示している。プロセッサ100は、自身の起動時や外部記憶装置管理コマンド発行時に、ウォッチドッグタイマー管理手段102によってウォッチドッグタイマー111のリセットを発行し、ウォッチドッグタイマー111を初期状態にリセットする(ステップA1)。外部記憶装置管理手段101は、I/Oバス150、SCSIコントローラ120、及び、SCSIバス140を介して、磁気ディスク装置130にリード・ライトを実施する(ステップA2)。外部記憶装置管理手段101は、リード・ライトが正常終了したか否かを判断し(ステップA3)、正常終了した場合には、正常数加算処理により、正常終了の累計を計算する(ステップA4)。
FIG. 2 shows an operation procedure of the
外部記憶装置管理手段101は、リード・ライトが異常終了したと判断すると、異常終了がタイムアウトに起因して発生したか否かを判断する(ステップA5)。外部記憶装置管理手段101は、タイムアウトに起因しないと判断したときには、異常数加算処理を行い、異常終了の累計を計算する(ステップA6)。また、タイムアウトに起因して発生したと判断したときには、タイムアウト数加算処理を行い、タイムアウト発生数の累計を計算する(ステップA7)。外部記憶装置管理手段101は、リード・ライトをN回実施したか否かを判断し(ステップA8)、N回実施していないときには、ステップA2へ戻る。これにより、リード・ライトをN回実施した際の正常終了の累計、異常終了の累計、タイムアウト数の累計が得られる。
When the external storage
プロセッサ100が、リード・ライトをN回実行すると、外部記憶装置管理手段101は、正常性判断処理を行い(ステップA9)、結果の正常性を判断する(ステップA10)。ステップA9では、例えば異常終了の累計が、所定のしきい値を上回ると、異常であると判断する。また、タイムアウト数の累計と、正常終了の累計との比率に基づいて、正常か否かを判断する。具体的には、タイムアウト数/正常終了数が所定のしきい値を超えると、異常であると判断する。
When the
外部記憶装置管理手段101は、ステップA10で正常であると判断すると、スリープ処理(ステップA11)を行って所定の時間だけ待機した後に、ステップA1へ戻り、ウォッチドッグタイマー管理手段102によってウォッチドッグタイマー111をリセットする。その後、ステップA2からステップA10を実行する。異常であると判断した場合には、処理を停止する(ステップA12)。 If the external storage device management means 101 determines that it is normal at step A10, it performs a sleep process (step A11) and waits for a predetermined time, and then returns to step A1, and the watchdog timer management means 102 uses the watchdog timer. 111 is reset. Thereafter, Step A2 to Step A10 are executed. If it is determined that there is an abnormality, the processing is stopped (step A12).
図3は、BMC110の動作手順を示している。ウォッチドッグタイマー111は、図2のステップA1でウォッチドッグタイマー管理手段102がリセットを発行すると、カウント値WDTを、初期値にリセットする(ステップB1)。ウォッチドッグタイマー111のカウント値WDTを1減算し(ステップB2)、カウント値WDTが0になったか否かを判断する(ステップB3)。
FIG. 3 shows an operation procedure of the
カウント値WDTがまだ0になっていない場合には、ステップB2に戻り、カウント値WDTを更に1つ減算する。これにより、カウント値WDTは、時間経過と共に、0に近づいていく。ウォッチドッグタイマー管理手段102によってリセットが発行された場合には、ステップB1へ移行してカウント値WDTを初期値に設定する。カウント値WDTが0になると、CPUに対してNMI割り込み160を発生し、タイムアウトが発生した旨を通知する(ステップB4)。
If the count value WDT has not yet become 0, the process returns to step B2, and one more count value WDT is subtracted. As a result, the count value WDT approaches 0 over time. When a reset is issued by the watchdog
障害検出システム10では、図2のステップA10で磁気ディスク装置130の動作が正常であると判定されると、ウォッチドッグタイマー111のリセットが行われる。一方、ステップA10で正常でないと判断された場合には、ステップA12に移行し、処理を停止することで、ウォッチドッグタイマー111のリセットが行われない。このため、磁気ディスク装置130に障害が発生した場合には、ウォッチドッグタイマー111のタイムアウトが発生して、プロセッサ100にNMI割り込み160が入力される。また、OSが動作できない状態になった場合にも、図2に示す処理が停止することでウォッチドッグタイマー111のタイムアウトが発生し、NMI割り込み160が発生する。
In the
本実施形態では、磁気ディスク装置130が正常に動作する場合には、プロセッサ100にウォッチドッグタイマー111を周期的にリセットさせ、異常が発生した場合には、ウォッチドッグタイマー111をリセットさせないことでタイムアウトを発生させる。また、磁気ディスク装置130が無応答になった場合には、プロセッサ100が動作できないこともあるが、この場合でも、ウォッチドッグタイマー111のリセットが発生しないことで、タイムアウトが発生する。BMC110は、ウォッチドッグタイマー111がタイムアウトを発生すると、プロセッサ100に、NMI割り込み160を入力する。これにより、磁気ディスク装置130に異常が発生した場合や、プロセッサ100が動作できない事態となった場合に、プロセッサ100に、磁気ディスク装置130が異常である旨を通知できる。また、リード・ライトの正常終了数、異常終了数、I/Oタイムアウト発生数を観測し、これらに基づいて磁気ディスク装置130が正常に動作しているか否かを判断することにより、復旧可能なエラーに対する誤検出を防止できる。
In the present embodiment, when the
なお、上記実施形態では、異常検出の対象となるI/O装置として、磁気ディスク装置130を例に挙げたが、これには限定されない。図4は、本発明の変形例の異常検出システムの構成を示している。変形例の異常検出システム10aの入出力管理手段101aは、図1の外部記憶装置管理手段101に対応し、I/Oコントローラ120aは、SCSIコントローラ120に対応する。I/Oコントローラ120aには、バス170を介して、磁気ディスク装置130とLANコントローラ180とが接続される。I/Oコントローラ120aに接続されるI/O装置は、磁気ディスク装置130やLANコントローラ180には限定されず、種々のI/O装置とすることができる。
In the above embodiment, the
以上、本発明をその好適な実施形態に基づいて説明したが、本発明のI/O装置の異常検出システム、及び、方法は、上記実施形態にのみ限定されるものではなく、上記実施形態の構成から種々の修正及び変更を施したものも、本発明の範囲に含まれる。 As described above, the present invention has been described based on the preferred embodiment. However, the abnormality detection system and method of the I / O device of the present invention are not limited to the above embodiment. Those in which various modifications and changes have been made to the configuration are also included in the scope of the present invention.
10:障害検出システム
100:プロセッサ
101:外部記憶装置管理手段
102:ウォッチドッグタイマー管理手段
110:BMC(Base Management Controller)
111:ウォッチドッグタイマー
120:SCSIコントローラ
130:磁気ディスク装置
140:SCSIバス
150:I/Oバス
160:NMI割り込み
10: Failure detection system 100: Processor 101: External storage device management means 102: Watchdog timer management means 110: BMC (Base Management Controller)
111: Watchdog timer 120: SCSI controller 130: Magnetic disk device 140: SCSI bus 150: I / O bus 160: NMI interrupt
Claims (8)
時間経過に従ってカウントを進行し、カウント値が所定の値となるとカウントアウトを発生するタイマー手段と、
前記I/O装置との間のデータ入出力を監視し、データ入出力の正常終了数、及び、データ入出力の異常終了数をカウントし、該カウントした正常終了数、及び、異常終了数の少なくとも一方に基づいて、前記I/O装置が正常に動作しているか否かを判断するI/O装置管理手段と、
前記I/O装置管理手段が、前記I/O装置が正常に動作していると判断すると、前記タイマー手段のカウント値を初期値にリセットするタイマー管理手段と、
前記タイマー手段がタイムアウトを発生すると、NMI割り込みを発生する割り込み発生手段とを備えることを特徴とするI/O装置の障害検出システム。 In a failure detection system that detects that a failure has occurred in an I / O device,
Timer means for proceeding counting over time and generating a count-out when the count value reaches a predetermined value;
Monitor data input / output with the I / O device, count the number of normal data input / output ends and the number of abnormal data input / output ends, and count the number of normal ends and abnormal end counts I / O device management means for determining whether or not the I / O device is operating normally based on at least one of the following:
Timer management means for resetting the count value of the timer means to an initial value when the I / O apparatus management means determines that the I / O device is operating normally;
An I / O device failure detection system comprising: an interrupt generation means for generating an NMI interrupt when the timer means generates a timeout.
タイマーのカウントを時間経過に従ってカウントを進行しつつ、
前記I/O装置との間のデータ入出力を監視して、データ入出力の正常終了数、及び、データ入出力の異常終了数をカウントし、
前記カウントした正常終了数、及び、異常終了数の少なくとも一方に基づいて、前記I/O装置が正常に動作しているか否かを判断し、
前記I/O装置が正常に動作していると判断すると、前記タイマーのカウント値を初期値にリセットし、
前記タイマーのカウントが所定の値となると、NMI割り込みを発生することを特徴とする障害検出方法。 In a failure detection method for detecting that a failure has occurred in an I / O device,
While progressing the count of the timer as time passes,
Monitor data input / output with the I / O device, and count the number of normal data input / output ends and the number of abnormal data input / output ends,
Based on at least one of the counted normal end number and abnormal end number, it is determined whether or not the I / O device is operating normally,
When it is determined that the I / O device is operating normally, the count value of the timer is reset to an initial value,
A failure detection method, wherein an NMI interrupt is generated when the timer count reaches a predetermined value.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091028A JP2007265157A (en) | 2006-03-29 | 2006-03-29 | System and method for detecting fault of i/o device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006091028A JP2007265157A (en) | 2006-03-29 | 2006-03-29 | System and method for detecting fault of i/o device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007265157A true JP2007265157A (en) | 2007-10-11 |
Family
ID=38638066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006091028A Pending JP2007265157A (en) | 2006-03-29 | 2006-03-29 | System and method for detecting fault of i/o device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007265157A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010073291A1 (en) * | 2008-12-22 | 2010-07-01 | Hitachi, Ltd. | Storage apparatus and data verification method in storage apparatus |
WO2019011037A1 (en) * | 2017-07-10 | 2019-01-17 | 比亚迪股份有限公司 | Fault detection method and device for train controller input circuit |
JP7324906B2 (en) | 2021-11-24 | 2023-08-10 | 廣達電腦股▲ふん▼有限公司 | Recording baseboard management controller messages with coprocessor |
-
2006
- 2006-03-29 JP JP2006091028A patent/JP2007265157A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010073291A1 (en) * | 2008-12-22 | 2010-07-01 | Hitachi, Ltd. | Storage apparatus and data verification method in storage apparatus |
US8250453B2 (en) | 2008-12-22 | 2012-08-21 | Hitachi Ltd. | Storage apparatus and data verification method in storage apparatus |
WO2019011037A1 (en) * | 2017-07-10 | 2019-01-17 | 比亚迪股份有限公司 | Fault detection method and device for train controller input circuit |
JP7324906B2 (en) | 2021-11-24 | 2023-08-10 | 廣達電腦股▲ふん▼有限公司 | Recording baseboard management controller messages with coprocessor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6438709B2 (en) | Method for recovering from computer system lockup condition | |
JP5754508B2 (en) | Information processing apparatus, information processing method, and program | |
JP2017517060A (en) | Fault processing method, related apparatus, and computer | |
US20170147422A1 (en) | External software fault detection system for distributed multi-cpu architecture | |
JP2011014075A (en) | Server system and crash dump collection method | |
WO2022111048A1 (en) | Power supply control method and apparatus, and server and non-volatile storage medium | |
JP2010086364A (en) | Information processing device, operation state monitoring device and method | |
CN117389790B (en) | Firmware detection system, method, storage medium and server capable of recovering faults | |
JP2010170462A (en) | Fault handling device and method | |
JP2007265157A (en) | System and method for detecting fault of i/o device | |
JP4973703B2 (en) | Failure detection method and monitoring device | |
JP2011076344A (en) | Information processing apparatus, method of controlling information processing apparatus and control program | |
WO2014112039A1 (en) | Information processing device, method for controlling information processing device and information processing device control program | |
JP2009237758A (en) | Server system, server management method, and program therefor | |
JP2003256240A (en) | Information processor and its failure recovering method | |
JP2000112790A (en) | Computer with fault information collection function | |
JPH11259340A (en) | Reactivation control circuit for computer | |
JPH06214831A (en) | Abnormality detector for central processing unit | |
KR102222723B1 (en) | External Watchdog solution in dual CPU(MPU) system | |
US20230236917A1 (en) | Attributing errors to input/output peripheral drivers | |
TWI781452B (en) | System and method for monitoring and recovering heterogeneous components | |
JP2018022402A (en) | Information processor, information processing system, control method of information processor and control program information processor | |
JP2004310291A (en) | Cpu system equipped with watchdog timer failure detecting circuit | |
TWM556046U (en) | Network switching control system | |
JP7351129B2 (en) | Information processing device and control program for the information processing device |