JP2000172578A - Fault processing system and method - Google Patents

Fault processing system and method

Info

Publication number
JP2000172578A
JP2000172578A JP10348120A JP34812098A JP2000172578A JP 2000172578 A JP2000172578 A JP 2000172578A JP 10348120 A JP10348120 A JP 10348120A JP 34812098 A JP34812098 A JP 34812098A JP 2000172578 A JP2000172578 A JP 2000172578A
Authority
JP
Japan
Prior art keywords
input
output
processing unit
fault
host bridge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10348120A
Other languages
Japanese (ja)
Inventor
Kenji Matabe
賢二 股部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP10348120A priority Critical patent/JP2000172578A/en
Publication of JP2000172578A publication Critical patent/JP2000172578A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

PROBLEM TO BE SOLVED: To restart the input/output instruction that is executed by an input/ output processor in the case of occurrence of a host bridge fault without ending abnormally the input/output instruction. SOLUTION: Each of three input/output processors 200 has an input/output instruction section 201 and a fault processing section 202. Every host bridge 100 is placed in 1:1 to every processor 200 and controls the interface between a CPU 400 and the processor 200. A fault notification means 103 notifies the processor 200 of the fault of the bridge 100. Every the fault processing section 202 collects and analyzes the information on the fault of the bridge 100 and recovers this bridge. Every the instruction section 201 stops temporarily the input/output instruction under execution and then restarts it after executing the fault processing by the fault processing section 202 and the bridge 100 is recovered.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、コンピュータの障
害処理システムに関し、特に、ホストブリッジ障害の対
する入出力処理装置における障害処理に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer fault handling system, and more particularly, to a fault handling in an input / output processing device against a host bridge fault.

【0002】[0002]

【従来の技術】従来のこの種の障害処理システムを図4
に示す。また、従来の障害処理システムの動作について
図5及び図6に示す。
2. Description of the Related Art FIG.
Shown in 5 and 6 show the operation of the conventional fault handling system.

【0003】図4において、3つのホストブリッジ10
0は、それぞれのホストブリッジインターフェース10
1を介して中央処理装置(以下、ホストと記す)400
と、診断インターフェース301を介して診断制御装置
300と、入出力処理装置インターフェース104を介
して入出力命令処理装置203とそれぞれ接続される。
また、各ホストブリッジ100と入出力処理装置203
は、障害通知手段103により診断制御装置300に接
続される。
In FIG. 4, three host bridges 10
0 indicates each host bridge interface 10
1 through a central processing unit (hereinafter referred to as a host) 400
And a diagnostic control device 300 via a diagnostic interface 301 and an input / output command processing device 203 via an input / output processing device interface 104, respectively.
Further, each host bridge 100 and the input / output processing device 203
Are connected to the diagnostic control device 300 by the fault notifying means 103.

【0004】通常の入出力命令は、ホスト400上で動
作しているオペレーティングシステム、またはアプリケ
ーションソフトウェアによって発行され、その入出力命
令はホストブリッジ100にホストブリッジインターフ
ェース101を介して伝達される。入出力命令を受け取
ったホストブリッジ100は、この入出力命令を入出力
処理装置インターフェース104を介して配下に接続さ
れている入出力処理装置203へ伝達する。入出力命令
を受け取った入出力処理装置203は入出力命令処理部
201を起動し、入出力命令処理部201は入出力命令
を実行する。
A normal input / output command is issued by an operating system or application software running on the host 400, and the input / output command is transmitted to the host bridge 100 via the host bridge interface 101. The host bridge 100 having received the input / output command transmits the input / output command to the input / output processing device 203 connected thereunder via the input / output processing device interface 104. The input / output processing device 203 that has received the input / output command activates the input / output command processing unit 201, and the input / output command processing unit 201 executes the input / output command.

【0005】データ転送は、リード命令の場合であれ
ば、入出力処理装置203,入出力処理装置インターフ
ェース104,ホストブリッジおよびホストブリッジイ
ンターフェース101を経由しホスト400に対して行
われ、ライト命令の場合であれば、ホスト400のデー
タをホストブリッジインターフェース101、ホストブ
リッジ100および入出力処理装置インターフェース1
04を経由し入出力処理装置203に転送される。
Data transfer is performed to the host 400 via the input / output processing device 203, the input / output processing device interface 104, the host bridge, and the host bridge interface 101 in the case of a read command. Then, the data of the host 400 is transferred to the host bridge interface 101, the host bridge 100, and the input / output processing device interface 1.
The data is transferred to the input / output processing device 203 via the input / output device 04.

【0006】この時、転送データは一定量に分割されて
複数回転送される。オペレーティングシステム、または
アプリケーションソフトウェアと入出力命令処理部20
1との間では、複数回実行されるデータ転送を応答形式
により実行し、データ転送が全て完了すると入出力命令
処理部201はオペレーティングシステムに対して終了
の報告を発行しデータ転送が終了する。
At this time, the transfer data is divided into a certain amount and transferred a plurality of times. Operating system or application software and input / output command processing unit 20
In this case, the data transfer executed a plurality of times is executed in response format, and when all the data transfer is completed, the input / output command processing unit 201 issues a report of the end to the operating system and the data transfer ends.

【0007】この従来のコンピュータシステムの障害処
理システムは、ホストブリッジ100と入出力装置20
3の障害は、障害通知手段103を介して診断処理装置
300に報告され、障害処理部302にて処理される。
この構成の障害処理システムにおいて、前述のデータ転
送シーケンス中にホストブリッジ100に障害が発生し
た場合、ホストブリッジ100は、自障害を障害通知手
段103を介して診断制御装置300に報告し、障害処
理部302にて障害処理を実施される。
The conventional fault handling system for a computer system comprises a host bridge 100 and an input / output device 20.
The fault of No. 3 is reported to the diagnostic processing device 300 via the fault notifying means 103 and processed by the fault processing unit 302.
In the fault handling system having this configuration, when a fault occurs in the host bridge 100 during the data transfer sequence described above, the host bridge 100 reports its own fault to the diagnostic control device 300 via the fault notifying means 103, and Failure processing is performed by the unit 302.

【0008】また、ホストブリッジ100に障害が発生
すると、配下に接続されている入出力処理装置203の
入出力命令処理部201で実行していた入出力命令が矛
盾(データ転送を実行したが、応答が返却されない等)
を検出し、入出力命令の継続実行不能となり入出力命令
処理部201は入出力命令例外を検出する。入出力命令
例外を検出した入出力処理装置203は、入出力命令例
外を障害通知手段103を介して診断制御装置300に
報告し、障害処理部302にて入出力処理装置例外とし
て処理される。
When a failure occurs in the host bridge 100, the input / output instruction executed by the input / output instruction processing unit 201 of the input / output processing unit 203 connected thereunder contradicts (the data transfer is executed. No response is returned)
Is detected, the input / output instruction cannot be continuously executed, and the input / output instruction processing unit 201 detects an input / output instruction exception. The I / O processing device 203 that has detected the I / O instruction exception reports the I / O instruction exception to the diagnosis control device 300 via the failure notification unit 103, and is processed by the failure processing unit 302 as the I / O processing device exception.

【0009】更に、複数のホストブリッジ100に、ほ
ぼ同時に障害が発生した場合も同様に、その全てのホス
トブリッジ100の障害通知と全ての入出力処理装置2
03の入出力命令例外通知は、障害通知手段103を介
してシステム内で唯一の診断処理装置300に報告さ
れ、障害(例外)処理部302にて処理される。
Further, when a failure occurs in a plurality of host bridges 100 at almost the same time, the failure notification of all the host bridges 100 and all the input / output processors 2
The input / output instruction exception notification 03 is reported to the only diagnostic processing device 300 in the system via the failure notification means 103 and is processed by the failure (exception) processing unit 302.

【0010】[0010]

【発明が解決しようとする課題】しかしながら、上述し
た従来の障害処理システムでは、次のような問題点があ
る。
However, the conventional fault handling system described above has the following problems.

【0011】第1の問題点は、図5に示す通り、ホスト
ブリッジ障害に伴い、配下に接続されている健全な入出
力装置200の入出力命令処理部201における入出力
命令の実行が不可能となり、この入出力命令の異常終了
(入出力命令例外)を引き起こすことになる。何故な
ら、入出力処理装置200の入出力命令処理部201
は、ホストブリッジ100の障害状態を入出力命令実行
中の矛盾として認識し、障害通知を障害通知手段103
を介して、診断制御装置300に通知し、入出力命令処
理部201における入出力命令は、診断制御装置300
の障害処理部302からの再初期化処理まで動作不可能
となるからである。
The first problem, as shown in FIG. 5, is that the execution of an input / output instruction in the input / output instruction processing unit 201 of a sound input / output device 200 connected to the host cannot be performed due to a host bridge failure. This causes an abnormal end of the input / output instruction (input / output instruction exception). This is because the input / output command processing unit 201 of the input / output processing device 200
Recognizes the failure state of the host bridge 100 as an inconsistency during execution of an input / output instruction, and sends a failure notification to the failure notification means 103.
To the diagnostic control device 300 via the I / O instruction processing unit 201.
This is because the operation cannot be performed until the re-initialization processing from the failure processing unit 302.

【0012】また、第2の問題点は、図6に示す通り、
複数のホストブリッジ100障害時がほぼ同時に発生し
た場合、障害処理システム全体の負荷が増大し迅速に障
害処理を実施することが困難となる。何故なら、全ての
ホストブリッジ100と全ての入出力処理装置200の
障害処理をシステム内で唯一の診断制御装置300の障
害(例外)処理部302により実施されるからである。
A second problem is as shown in FIG.
When a plurality of host bridge 100 failures occur almost simultaneously, the load on the entire failure processing system increases, and it becomes difficult to quickly perform the failure processing. This is because the fault processing of all the host bridges 100 and all the input / output processing devices 200 is performed by the fault (exception) processing unit 302 of only one diagnostic control device 300 in the system.

【0013】そこで、本発明の目的は、ホストブリッジ
の障害を自ホストブリッジ配下の入出力処理装置に報告
する障害通知手段と、ホストブリッジ障害時の障害処理
部とを入出力処理装置内に設けることにより、ホストブ
リッジ障害発生時に入出力処理装置で実行していた入出
力命令を異常終了させることなく再開し、且つ障害処理
システム内の負荷を分散し障害処理を並列に実行し、し
たがって障害処理をじゅん速におこなうことができる障
害処理システムを提供することにある。
Accordingly, an object of the present invention is to provide a failure notification means for reporting a failure of a host bridge to an I / O processing device under the host bridge, and a failure processing unit for a failure of the host bridge in the I / O processing device. As a result, the I / O instruction executed by the I / O processing unit at the time of occurrence of the host bridge failure is restarted without abnormal termination, and the load in the failure processing system is distributed to execute the failure processing in parallel. It is an object of the present invention to provide a fault handling system capable of performing the task quickly.

【0014】[0014]

【課題を解決するための手段】本発明の障害処理システ
ムは、オペレーティングシステムまたはアプリケーショ
ンソフトウェアからの入出力命令の処理を行う入出力命
令処理部を備える少なくとも一つの入出力処理装置と、
ホストと前記入出力処理装置間のインターフェースを制
御する前記入出力装置と1対1対応のホストブリッジと
を有するコンピュータシステムにおける障害処理システ
ムにおいて、ホストブリッジ障害を前記入出力処理装置
に通知する障害通知手段と、障害となったホストブリッ
ジの障害情報採取、解析、ホストブリッジの復旧を実施
する障害処理部とを前記入出力処理装置ごとに設け、ホ
ストブリッジに障害が発生し入出力命令が実行不能に陥
った場合、そのホストブリッジ障害を当該障害通知手段
を介して当該入出力処理装置の入出力命令処理部と障害
処理部に報告し、当該入出力命令処理部は、実行中の入
出力命令を一時停止させ、当該障害処理部による障害処
理の実行とホストブリッジ復旧後に、一時停止された前
記入出力命令を再開させることを特徴とする。
The fault processing system according to the present invention comprises at least one input / output processing unit having an input / output instruction processing unit for processing input / output instructions from an operating system or application software;
In a fault processing system in a computer system having a one-to-one correspondence host bridge with the input / output device controlling an interface between a host and the input / output processing device, a fault notification for notifying the input / output processing device of a host bridge fault Means and a failure processing unit for collecting and analyzing failure information of the failed host bridge and performing recovery of the host bridge are provided for each of the input / output processing devices, and a failure occurs in the host bridge and the input / output instruction cannot be executed. The host bridge fault is reported to the input / output command processing unit and the fault processing unit of the input / output processing device via the fault notification unit, and the input / output command processing unit After the execution of the fault processing by the fault processing unit and the recovery of the host bridge, the suspended I / O instruction is re-executed. Characterized in that to.

【0015】また、本発明の障害処理方法は、オペレー
ティングシステムまたはアプリケーションソフトウェア
からの入出力命令の処理を行う入出力命令処理部を備え
る少なくとも一つの入出力処理装置と、ホストと前記入
出力処理装置間のインターフェースを制御する前記入出
力装置と1対1対応のホストブリッジとを有するコンピ
ュータシステムにおける障害処理方法において、ホスト
ブリッジ障害を前記入出力処理装置に通知する手順と、
該通知を受けた入出力処理装置が、障害となったホスト
ブリッジの障害情報収集、解析、ホストブリッジの復旧
を実行する手順と、ホストブリッジに障害が発生し入出
力命令が実行不能に陥った場合、そのホストブリッジ障
害を当該障害通知手段を介して当該入出処理装置の入出
命令処理部と障害処理部に報告する手順と、該報告を受
けた入出力命令処理部が、実行中の入出力命令を一時停
止させ、当該障害処理部による障害処理の実行とホスト
ブリッジ復旧後に、一時停止された前記入出力命令を再
開させる手順とを有することを特徴とする。
Further, according to the fault processing method of the present invention, at least one input / output processing device including an input / output command processing unit for processing input / output commands from an operating system or application software, a host, and the input / output processing device A failure handling method in a computer system having the input / output device controlling an interface between the input / output device and a host bridge having a one-to-one correspondence, a procedure for notifying the input / output processing device of a host bridge failure;
A procedure in which the input / output processing device that has received the notification executes a procedure for collecting and analyzing fault information of the failed host bridge, and restoring the host bridge, and a failure occurs in the host bridge, and the input / output instruction cannot be executed. In this case, a procedure for reporting the host bridge fault to the input / output command processing unit and the fault processing unit of the input / output processing device via the fault notification means, and the input / output command processing unit receiving the report, The method further comprises a step of suspending the instruction, and restarting the suspended input / output instruction after executing the failure processing by the failure processing unit and restoring the host bridge.

【0016】具体的には、図1において、ホストブリッ
ジ100で発生した障害を配下の入出力処理装置200
に報告するための障害通知手段103と、入出力処理装
置200に自接続ホストブリッジ100の障害処理を実
施する障害処理部202とを入出力処理装置200ごと
に有する。
More specifically, in FIG. 1, a failure that has occurred in the host
Each of the input / output processing devices 200 has a failure notifying unit 103 for reporting to the I / O processing device 200 and a failure processing unit 202 for performing a failure process of the host bridge 100 connected to the input / output processing device 200.

【0017】すなわち、各ホストブリッジ100と入出
力処理装置200間にホストブリッジ障害を通知する障
害通知手段103を設け、また、各入出力処理装置20
0にホストブリッジ100の障害処理を実施する障害処
理部202を設けたことを特徴としている。
That is, a failure notifying means 103 for notifying a host bridge failure is provided between each host bridge 100 and the input / output processing device 200.
0 is provided with a failure processing unit 202 for performing failure processing of the host bridge 100.

【0018】従って、ホストブリッジ障害発生時に、本
障害を配下の入出力処理装置200の障害処理部202
で処理することにより、ホストブリッジ100の障害発
生に伴い現在実行中の入出力命令が継続実行不可能であ
ることを知ることができ、入出力処理装置200の入出
力命令処理部201で実行されていた入出力命令を一時
停止させることと、ホストブリッジ100の再初期化
(復旧)処理後に入出力命令の再実行することができ、
実行中の入出力命令を異常終了させることなくシステム
を動作させると共に、複数のホストブリッジ100の障
害をそれぞれ配下に接続されている入出力処理装置20
0の障害処理部202が並列に処理することができ、そ
れぞれのホストブリッジ100の障害処理をじゅん速に
行うことができるという効果が得られる。
Therefore, when a host bridge fault occurs, the fault processing unit 202 of the input / output processing unit 200 under the control of the host bridge fault
It is possible to know that the currently executed input / output instruction cannot be continuously executed due to the occurrence of a failure in the host bridge 100, and the input / output instruction executed by the input / output instruction processing unit 201 of the input / output processing device 200 The input / output instruction that has been executed can be temporarily stopped, and the input / output instruction can be re-executed after the reinitialization (restoration) processing of the host bridge 100.
The system operates without abnormally terminating the I / O command being executed, and the failure of a plurality of host bridges 100 causes the I / O processor 20 connected to each
0, the failure processing units 202 can perform processing in parallel, and the failure processing of each host bridge 100 can be performed quickly.

【0019】[0019]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.

【0020】図1は、本発明の障害処理システムの一実
施例を示す。図1において、3つのホストブリッジ10
0は、それぞれのホストブリッジインターフェース10
1を介してホスト400と接続され、入出力処理装置イ
ンターフェース102を介して入出力命令処理装置20
0と接続される。また、ぞれぞれのホストブリッジ10
0は、障害通知手段103により入出力処理装置200
に接続される。
FIG. 1 shows an embodiment of a fault handling system according to the present invention. In FIG. 1, three host bridges 10
0 indicates each host bridge interface 10
1 and the input / output instruction processing device 20 via the input / output processing device interface 102.
Connected to 0. Also, each host bridge 10
0 indicates that the input / output processing device 200
Connected to.

【0021】ホストブリッジ100はオペレーティング
システム、またはアプリケーションソフトウェアから発
行された入出力命令をインターフェース制御部102を
介して入出力処理装置200へ伝達する。入出力命令を
受け取った入出力処理装置200は、入出力命令処理部
201で、その入出力命令を実行し、データ転送等の入
出力処理を実行する。
The host bridge 100 transmits an input / output command issued from an operating system or application software to the input / output processing device 200 via the interface control unit 102. In the input / output processing device 200 that has received the input / output instruction, the input / output instruction processing unit 201 executes the input / output instruction and executes input / output processing such as data transfer.

【0022】データ転送は、リード命令の場合であれ
ば、入出力処理装置200,入出力処理装置インターフ
ェース102,ホストブリッジ100およびホストブリ
ッジインターフェース101を経由しホスト400に対
して行われ、ライト命令の場合であれば、ホスト400
のデータをホストブリッジインターフェース101、ホ
ストブリッジ100および入出力処理装置インターフェ
ース102を経由し入出力処理装置200に行われる。
In the case of a read command, data transfer is performed to the host 400 via the input / output processing device 200, the input / output processing device interface 102, the host bridge 100 and the host bridge interface 101, and the write command is transmitted. If so, host 400
Is transmitted to the input / output processing device 200 via the host bridge interface 101, the host bridge 100, and the input / output processing device interface 102.

【0023】このとき、転送データは一定量に分割され
て複数回転送される。オペレーティングシステム、また
はアプリケーションソフトウェアと入出力命令処理部2
01との間では、複数回実行されるデータ転送を応答形
式により実行し、データ転送が全て完了すると入出力命
令処理部201はオペレーティングシステムに対して終
了の報告を発行しデータ転送が終了する。
At this time, the transfer data is divided into a certain amount and transferred a plurality of times. Operating system or application software and input / output instruction processing unit 2
01, the data transfer executed a plurality of times is executed in a response format, and when all the data transfer is completed, the input / output command processing unit 201 issues an end report to the operating system and the data transfer ends.

【0024】本システムは、データ転送中のホストブリ
ッジ100に障害が発生した場合、本障害を自ホストブ
リッジ100配下に接続されている入出力処理装置20
0に報告するための障害通知手段103を備え、また、
入出力処理装置200は、ホストブリッジ100の障害
情報採取及び解析とホストブリッジ100の再初期化
(復旧)処理を行うことができる障害処理部202と、
ホストブリッジ100障害発生時に入出力命令処理部2
01が実行していた入出力命令の一時停止および再実行
処理を実施できる入出力命令処理部201を備える。
When a failure occurs in the host bridge 100 during data transfer, the present system reports this failure to the I / O processing unit 20 connected under the host bridge 100.
0, a failure notification means 103 for reporting to
The input / output processing device 200 includes a failure processing unit 202 that can collect and analyze failure information of the host bridge 100 and re-initialize (restore) the host bridge 100;
Input / output instruction processing unit 2 when host bridge 100 failure occurs
01 is provided with an input / output instruction processing unit 201 that can execute a pause and a re-execution process of the input / output instruction that has been executed.

【0025】次に、本障害処理システムの動作を図2及
び図3により説明する。
Next, the operation of the fault handling system will be described with reference to FIGS.

【0026】図2は、入出力命令(データ転送命令)実
行中にホストブリッジ100に障害が発生した場合のシ
ーケンスを示す。
FIG. 2 shows a sequence when a failure occurs in the host bridge 100 during execution of an input / output command (data transfer command).

【0027】オペレーティングシステム、またはアプリ
ケーションソフトウェアから発行された入出力命令実行
中にホストブリッジ100に障害が発生すると、そのホ
ストブリッジ100は自障害発生を、障害通知手段10
3を介し入出力処理装置200に報告する。
When a failure occurs in the host bridge 100 during execution of an input / output command issued from the operating system or application software, the host bridge 100 reports the occurrence of its own failure and notifies the failure notification means 10
3 to the input / output processing device 200.

【0028】ホストブリッジ100の障害発生通知を報
告された入出力処理装置200は、現在入出力命令処理
部201で実行中の入出力命令が継続実行不可能と判断
し、入出力命令処理部201に対してホストブリッジ障
害発生を通知し、現在実行中の入出力命令が継続実行不
可であることを知らせる。
The I / O processing unit 200, which has been notified of the occurrence of the failure of the host bridge 100, determines that the I / O instruction currently being executed by the I / O instruction processing unit 201 cannot be continuously executed. To notify the host bridge failure occurrence that the currently executed input / output instruction cannot be continuously executed.

【0029】ホストブリッジ障害発生通知を受けた入出
力命令処理部201は、実行中の入出力命令を一時停止
させ、障害処理部202からの入出力命令再実行指示を
待ち合わせる。入出力命令を一時停止した入出力命令処
理部201は、障害処理部202の障害処理を起動す
る。
Upon receiving the host bridge fault notification, the input / output command processing unit 201 suspends the currently executing input / output command and waits for an input / output command re-execution instruction from the fault processing unit 202. The input / output instruction processing unit 201 that has temporarily stopped the input / output instruction activates the failure processing of the failure processing unit 202.

【0030】入出力命令処理部201から起動された障
害処理部202は、障害が発生したホストブリッジ10
0の障害情報(ログデータ)を入出力処理装置インター
フェース102を介して採取する。採取した障害情報
は、障害処理部202で解析される。障害処理部201
の障害情報解析においてホストブリッジ100の再初期
化によってホストブリッジ100が継続運用可能と判断
されると、障害処理部202は、ホストブリッジ100
を再初期化する。この再初期化処理にて、障害となった
ホストブリッジ100の障害状態はクリアされ、再びホ
スト400と入出力処理装置200のインターフェース
を動作させることが可能となる。
The fault processing unit 202 started from the input / output command processing unit 201 is a
0 failure information (log data) is collected via the input / output processing device interface 102. The collected failure information is analyzed by the failure processing unit 202. Failure processing unit 201
When it is determined in the failure information analysis that the host bridge 100 can be continuously operated by reinitializing the host bridge 100, the failure processing unit 202
Is reinitialized. In this re-initialization processing, the failed state of the host bridge 100 that has failed is cleared, and the interface between the host 400 and the input / output processing device 200 can be operated again.

【0031】ホストブリッジ100の再初期化が終了し
た後、障害処理部202は入出力命令処理部201に対
してホストブリッジ100が復旧したことにより動作可
能状態に移行したことを通知するため障害発生時の入出
力命令再実行指示を行う。入出力命令再実行指示を受け
た入出力命令処理部201は、ホストブリッジ障害発生
時に実行不可となり一時停止していた入出力命令がを再
開させ通常のデータ転送シーケンスに戻る。
After the reinitialization of the host bridge 100 is completed, the fault processing unit 202 notifies the input / output command processing unit 201 that the host bridge 100 has been restored to the operable state due to the recovery. To re-execute the input / output instruction at the time. Upon receiving the input / output instruction re-execution instruction, the input / output instruction processing unit 201 becomes unexecutable when the host bridge failure occurs, resumes the temporarily stopped input / output instruction, and returns to the normal data transfer sequence.

【0032】次に、図3は、複数のホストブリッジ10
0で、ほぼ同時に障害が発生した場合について説明す
る。
Next, FIG. 3 shows a plurality of host bridges 10.
A case where a failure occurs almost simultaneously at 0 will be described.

【0033】障害が発生した全てのホストブリッジ10
0は、それぞれのインターフェース制御部102と障害
通知手段103を介して配下の入出力処理装置200に
障害通知を行う。それぞれの入出力処理装置200は、
それぞれのホストブリッジ100の入出力命令処理部2
01で実行中の入出力命令を一時停止さ障害処理部20
1を起動し、自接続のホストブリッジ100のみの障害
処理を行う。障害処理部202による自接続ホストブリ
ッジ100の再初期化処理が完了後、入出力命令処理部
201は、ホストブリッジ障害時に実行不可能になった
入出力命令を再度実行可能にする。
All the failed host bridges 10
0 notifies a fault to the subordinate input / output processing device 200 via the respective interface control units 102 and the fault notification means 103. Each input / output processing device 200
Input / output command processing unit 2 of each host bridge 100
01, the input / output instruction being executed is temporarily stopped.
1 to perform failure processing for only the host bridge 100 to which it is connected. After the reinitialization processing of the self-connected host bridge 100 by the failure processing unit 202 is completed, the input / output instruction processing unit 201 enables the input / output instruction that has become unexecutable at the time of the host bridge failure to be executable again.

【0034】[0034]

【発明の効果】以上説明したような構成を採用すること
により、本発明においては、次のような効果を奏する。
According to the present invention, the following effects can be obtained by adopting the configuration as described above.

【0035】ホストブリッジ障害発生時に入出力処理装
置の入出力命令処理部で実行されていた入出力命令を一
時停止させ、ホストブリッジ障害処理での再初期化後に
入出力命令の再実行を行うことにより、処理中の入出力
命令に例外(異常終了)を発生させることなくシステム
を運用させると共に、複数のホストブリッジ障害をそれ
ぞれ配下の入出力処理装置の障害処理部が並列に処理す
ることができるため、それぞれのホストブリッジ障害処
理を迅速に実施することができる。
When the host bridge failure occurs, the input / output instruction being executed in the input / output instruction processing unit of the input / output processing device is temporarily stopped, and the input / output instruction is re-executed after reinitialization in the host bridge failure processing. Accordingly, the system can be operated without causing an exception (abnormal termination) to the input / output instruction being processed, and the fault processing units of the subordinate input / output processing devices can process a plurality of host bridge faults in parallel. Therefore, it is possible to quickly execute each host bridge failure process.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明によるコンピュータシステムの障害処理
システムの一実施例のブロック図
FIG. 1 is a block diagram of an embodiment of a computer system fault handling system according to the present invention.

【図2】本発明によるコンピュータシステムにの障害処
理システムにおけるホストブリッジ障害時の動作フロー
チャート
FIG. 2 is an operation flowchart at the time of a host bridge failure in the failure processing system of the computer system according to the present invention;

【図3】本発明によるコンピュータシステムの障害処理
システムにおける複数ホストブリッジ同時障害時の動作
フローチャート
FIG. 3 is an operation flowchart at the time of simultaneous failure of a plurality of host bridges in the failure processing system of the computer system according to the present invention;

【図4】従来のコンピュータシステムの障害処理システ
ムのブロック図
FIG. 4 is a block diagram of a conventional computer system fault handling system.

【図5】従来のコンピュータシステムの障害処理システ
ムにおけるホストブリッジ障害時の動作フローチャート
FIG. 5 is an operation flowchart at the time of a host bridge failure in a conventional computer system failure handling system.

【図6】従来のコンピュータシステムの障害処理システ
ムにおける複数のホストブリッジ同時障害時の動作フロ
ーチャート
FIG. 6 is an operation flowchart for a simultaneous failure of a plurality of host bridges in a failure processing system of a conventional computer system.

【符号の説明】[Explanation of symbols]

100 ホストブリッジ 101 ホストブリッジインターフェース 102 入出力装置インターフェース 103 障害通知手段 104 入出力処理装置インタフェース 200 入出力処理装置(IOP) 201 入出力命令処理部 202 障害処理部 203 入出力処理装置(IOP) 300 診断制御装置 301 診断インターフェース 302 障害処理部 400 ホスト REFERENCE SIGNS LIST 100 host bridge 101 host bridge interface 102 input / output device interface 103 fault notification means 104 input / output processing device interface 200 input / output processing device (IOP) 201 input / output command processing unit 202 fault processing unit 203 input / output processing device (IOP) 300 diagnosis Control device 301 Diagnostic interface 302 Fault processing unit 400 Host

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 オペレーティングシステムまたはアプリ
ケーションソフトウェアからの入出力命令の処理を実施
する入出力命令処理部を備える少なくとも一つの入出力
処理装置と、中央処理装置と前記入出力処理装置間のイ
ンターフェースを制御する前記入出力装置と1対1対応
のホストブリッジとを有するコンピュータシステムにお
ける障害処理システムにおいて、 ホストブリッジ障害を前記入出力処理装置に通知する障
害通知手段と、障害となったホストブリッジの障害情報
採取、解析、ホストブリッジの復旧を実施する障害処理
部とを前記入出力処理装置ごとに設け、 ホストブリッジに障害が発生し入出力命令が実行不能に
陥った場合、そのホストブリッジ障害を当該障害通知手
段を介して当該入出力処理装置の入出力命令処理部と障
害処理部に報告し、 当該入出力命令処理部は、実行中の入出力命令を一時停
止させ、当該障害処理部に障害処理の実施とホストブリ
ッジ復旧後に、一時停止された前記入出力命令を再開さ
せることを特徴とする障害処理システム。
1. An at least one input / output processing unit having an input / output instruction processing unit for executing input / output instruction processing from an operating system or application software, and an interface between a central processing unit and the input / output processing unit. A fault notification system for notifying a host bridge fault to the input / output processing device, and fault information of the faulty host bridge. A fault processing unit for collecting, analyzing, and restoring the host bridge is provided for each of the input / output processing devices. If a fault occurs in the host bridge and the input / output instruction cannot be executed, the host bridge fault is regarded as the fault. The input / output command processing unit of the input / output processing device and the The input / output instruction processing unit reports the processing to the processing unit. The input / output instruction processing unit temporarily suspends the currently executing input / output instruction, and resumes the temporarily stopped input / output instruction after performing the failure processing and restoring the host bridge in the failure processing unit. A fault handling system characterized by causing a fault.
【請求項2】 オペレーティングシステムまたはアプリ
ケーションソフトウェアからの入出力命令の処理を実施
する入出力命令処理部を備える少なくとも一つの入出力
処理装置と、ホストと前記入出力処理装置間のインター
フェースを制御する前記入出力装置と1対1対応のホス
トブリッジとを有するコンピュータシステムにおける障
害処理方法において、 ホストブリッジ障害を前記入出力処理装置に通知する手
順と、 該通知を受けた入出力処理装置が、障害となったホスト
ブリッジの障害情報収集、解析、ホストブリッジの復旧
を実行する手順と、 ホストブリッジに障害が発生し入出力命令が実行不能に
陥った場合、そのホストブリッジ障害を当該障害通知手
段を介して当該入出処理装置の入出命令処理部と障害処
理部に報告する手順と、 該報告を受けた入出力命令処理部が、実行中の入出力命
令を一時停止させ、当該障害処理部による障害処理の実
行とホストブリッジ復旧後に、一時停止された前記入出
力命令を再開させる手順とを有することを特徴とする障
害処理方法。
2. An at least one input / output processing device having an input / output instruction processing unit for executing input / output instruction processing from an operating system or application software, and before controlling an interface between a host and the input / output processing device. In a failure processing method in a computer system having an entry / output device and a one-to-one host bridge, a procedure for notifying a host bridge failure to the input / output processing device; The procedure for collecting, analyzing, and restoring host bridge fault information that has been lost, and, if a host bridge fault occurs and I / O commands become unexecutable, report the host bridge fault via the fault notification means. Reporting to the entry / exit instruction processing unit and the failure processing unit of the entry / exit processing device, A procedure in which the input / output instruction processing unit receiving the report temporarily suspends the currently executing input / output instruction, and resumes the suspended input / output instruction after execution of the failure processing by the failure processing unit and restoration of the host bridge. And a failure handling method.
JP10348120A 1998-12-08 1998-12-08 Fault processing system and method Pending JP2000172578A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10348120A JP2000172578A (en) 1998-12-08 1998-12-08 Fault processing system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10348120A JP2000172578A (en) 1998-12-08 1998-12-08 Fault processing system and method

Publications (1)

Publication Number Publication Date
JP2000172578A true JP2000172578A (en) 2000-06-23

Family

ID=18394887

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10348120A Pending JP2000172578A (en) 1998-12-08 1998-12-08 Fault processing system and method

Country Status (1)

Country Link
JP (1) JP2000172578A (en)

Similar Documents

Publication Publication Date Title
JP3982353B2 (en) Fault tolerant computer apparatus, resynchronization method and resynchronization program
KR101835458B1 (en) Method, system and computer-readable storage medium for restarting data processing systems
JP2008305317A (en) Multiprocessor system and control method thereof
KR20040047209A (en) Method for automatically recovering computer system in network and recovering system for realizing the same
JPH0950424A (en) Dump sampling device and dump sampling method
JPH09251443A (en) Processor fault recovery processing method for information processing system
JP2956849B2 (en) Data processing system
JP2000172578A (en) Fault processing system and method
JPH07183891A (en) Computer system
JPH10116261A (en) Check point restarting method for parallel computer system
JP2003256399A (en) Control method for switching in hot standby system
JPH02216542A (en) Diagnosis execution control system
JPH04223534A (en) Information processing system
JPH11232143A (en) Multithread monitor method
JP2002244885A (en) Computer system monitoring system
JPH0630069B2 (en) Multiplexing system
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
JP2730209B2 (en) I / O control method
JPH07200334A (en) Duplicate synchronization operation system
KR100257162B1 (en) Method and apparatus for supervising relative system in duplex system
JPH02207347A (en) Method for detecting fault of software
JPH03156646A (en) Output system for fault information
JP2004341652A (en) Automatic test method and automatic testing machine
JPH01292552A (en) Peripheral system fault processing system for virtual computer system
JPH01205345A (en) Automatic rerise system