JP2008186352A - Computer system, instruction retry method and program in computer system - Google Patents

Computer system, instruction retry method and program in computer system Download PDF

Info

Publication number
JP2008186352A
JP2008186352A JP2007020938A JP2007020938A JP2008186352A JP 2008186352 A JP2008186352 A JP 2008186352A JP 2007020938 A JP2007020938 A JP 2007020938A JP 2007020938 A JP2007020938 A JP 2007020938A JP 2008186352 A JP2008186352 A JP 2008186352A
Authority
JP
Japan
Prior art keywords
unit
processing time
recovery processing
failure
identification information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007020938A
Other languages
Japanese (ja)
Other versions
JP5022050B2 (en
Inventor
Tsutomu Fujiwara
勉 藤原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2007020938A priority Critical patent/JP5022050B2/en
Publication of JP2008186352A publication Critical patent/JP2008186352A/en
Application granted granted Critical
Publication of JP5022050B2 publication Critical patent/JP5022050B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To set an optimal retry interval for each unit. <P>SOLUTION: An OS 101 which performs retry of an instruction when it is decided that execution of the instruction to units 105-1 to 105-3 has failed is mounted. When a fault in which continuation of operation is possible occurs in unit 105-1 to 105-3, recovery processing period matched beforehand with identification information which can identify units 105-1 to 105-3 is notified to the OS 101 from a fault control unit 106, and an interval to retry based on recovery processing period notified by the OS 101 is determined. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、基本ソフトウェアであるOS(Operating System)が搭載されたコンピュータシステム、コンピュータシステムにおける命令リトライ方法及びプログラムに関する。   The present invention relates to a computer system in which an OS (Operating System) as basic software is installed, an instruction retry method and a program in the computer system.

一般的に、基本ソフトウェアであるOS(Operating System)が搭載されたコンピュータシステムにおいては、OSによって発行された命令が命令対象であるユニットにて実行されなかった(命令失敗)場合、当該命令が再度発行(リトライ)される。ここで、命令が実行されたかどうかを判断するには、命令対象ユニットから送信される命令が実行不可能(有効ではない)である旨が示された情報がリプライとして用いられる。この命令が実行不可能(有効ではない)である旨が示された情報がOSにて受信された場合、当該命令が実行されなかったと判断される。   In general, in a computer system equipped with an OS (Operating System) that is basic software, if an instruction issued by the OS is not executed in the instruction target unit (instruction failure), the instruction is executed again. Issued (retry). Here, in order to determine whether or not an instruction has been executed, information indicating that the instruction transmitted from the instruction target unit is not executable (not valid) is used as a reply. When the OS receives information indicating that this command is not executable (not valid), it is determined that the command has not been executed.

また、リトライの結果、さらに命令が実行されなかったと判断された場合、命令対象のユニットに障害が発生したと判断され、OSによって当該ユニットが切り離されるものが一般的である。   When it is determined that the instruction has not been executed as a result of the retry, it is generally determined that a failure has occurred in the instruction target unit, and the unit is disconnected by the OS.

また、コマンド送信装置から送信されるコマンドが実行されるコマンド受信装置にてコマンド実行中に、受信されたコマンドが実行されるための最大実行時間情報がコマンド受信装置からコマンド送信装置へ送信される技術が考えられている(例えば、特許文献1参照。)。この最大実行時間情報を用いれば、コマンド受信装置にて当該コマンドが実行されている時間内は、コマンド送信装置からリトライを行うことを避けることができる。これにより、様々な能力を有するコマンド受信装置に対して、命令を発行してからリトライを行うまでの時間を柔軟に設定することができる。   Further, during execution of a command by a command receiving device that executes a command transmitted from the command transmitting device, maximum execution time information for executing the received command is transmitted from the command receiving device to the command transmitting device. Technology has been considered (for example, see Patent Document 1). By using this maximum execution time information, it is possible to avoid retrying from the command transmission device during the time that the command is being executed by the command reception device. Thereby, it is possible to flexibly set the time from when a command is issued until a retry is performed for a command receiving device having various capabilities.

また、コンピュータからその周辺装置へコマンドが送出されてから当該コマンドに対する応答があるまでの応答待ち時間が、発生した障害の種類や障害発生部位に基づいて算出される技術が考えられている(例えば、特許文献2参照。)。   In addition, a technique is conceivable in which a response waiting time from when a command is sent from a computer to its peripheral device until a response to the command is received is calculated based on the type of failure that has occurred and the location of the failure (for example, , See Patent Document 2).

また、複数の障害復旧ツール毎に予想処理時間が予め設定されたテーブルを用いることにより、センタにて障害が発生したときの復旧時間をセンタに接続された端末に通知する技術が考えられている(例えば、特許文献3参照。)。
特開2005−346175号公報 特開2000−132413号公報 特開昭57−018148号公報
In addition, a technique has been considered in which a recovery time when a failure occurs in the center is notified to a terminal connected to the center by using a table in which an expected processing time is preset for each of a plurality of failure recovery tools. (For example, refer to Patent Document 3).
JP 2005-346175 A JP 2000-132413 A JP-A-57-018148

しかしながら、上述した従来の技術においては、命令対象ユニットに継続動作可能な障害が発生した場合、上位装置から、または当該ユニットにて行われる当該ユニットの障害復旧処理にかかる時間よりも、最初の命令発行からリトライされるまでの時間が短い時間であると、当該ユニットが復旧する前にリトライされてしまう。そのため、リトライされた命令は再度ユニットが有効では無いというリプライがOSにて受信され、OSにてリトライも失敗したと判断され、障害が発生したユニットが誤って切り離されてしまうという問題点がある。   However, in the above-described conventional technology, when a failure that allows continuous operation occurs in the instruction target unit, the first command is issued from the host device or the time required for the failure recovery processing of the unit performed in the unit. If the time from issuance to retry is short, the unit is retried before it is restored. For this reason, the retried instruction is received again by the OS that the unit is not valid again, and the OS determines that the retry has failed, and the faulty unit is erroneously disconnected. .

そこで、OSが障害復旧処理時間よりも長い時間リトライを繰り返すか、またはリトライ発行間隔を障害復旧処理時間よりも長くすることにより、障害が発生したユニットが誤って切り離されるという問題を回避することが可能である。   Therefore, it is possible to avoid the problem that the unit in which the failure has occurred is disconnected accidentally by repeating the retry for a time longer than the failure recovery processing time or by making the retry issuing interval longer than the failure recovery processing time. Is possible.

しかしながら、接続ユニットの障害復旧処理はHW(ハードウェア)に依存するため、それぞれのHWに基づいてOSのリトライ発行間隔を変更する対策が必要となってしまうという問題点がある。また、OSが障害復旧処理時間よりも長い時間リトライを繰り返す場合には、リトライの命令が繰り返し発行されるため余計なトランザクションが増えてしまい、装置にかかる負荷が増加してしまうという問題点がある。また、リトライ発行間隔を障害復旧処理時間よりも長くした場合には、プロセッサが長い時間占有されるため、装置全体の性能が悪化してしまうという問題点がある。   However, since the failure recovery processing of the connection unit depends on HW (hardware), there is a problem that it is necessary to take measures to change the retry issuing interval of the OS based on each HW. In addition, when the OS repeats retrying for a time longer than the failure recovery processing time, a retry command is repeatedly issued, which increases the number of extra transactions and increases the load on the apparatus. . Further, when the retry issuance interval is set longer than the failure recovery processing time, the processor is occupied for a long time, so that there is a problem that the performance of the entire apparatus deteriorates.

また、特許文献1に記載された技術においては、コマンド受信装置から最大実行時間情報をコマンド送信装置へ送信しなければならないという問題点がある。   In addition, the technique described in Patent Document 1 has a problem in that maximum execution time information must be transmitted from the command receiving device to the command transmitting device.

また、特許文献2に記載された技術においては、周辺装置からの応答があるまでの待ち時間が算出されるものであり、コンピュータから当該周辺装置へリトライを行う間隔が算出されるものではない。   In the technique described in Patent Document 2, a waiting time until a response is received from a peripheral device is calculated, and an interval for retrying from the computer to the peripheral device is not calculated.

また、特許文献3に記載された技術においては、センタから端末へ復旧時間を通知しなければならないという問題点がある。   Further, the technique described in Patent Document 3 has a problem that the recovery time must be notified from the center to the terminal.

本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、各ユニットに最適なリトライ間隔を設定することができるコンピュータシステム、コンピュータシステムにおける命令リトライ方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the problems of the conventional techniques as described above, and provides a computer system capable of setting an optimum retry interval for each unit, an instruction retry method and a program in the computer system. The purpose is to provide.

上記目的を達成するために本発明は、
基本ソフトウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムであって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記基本ソフトウェアに通知する障害制御ユニットを有し、
前記基本ソフトウェアは、前記復旧処理時間に基づいてリトライする間隔を決定する。
In order to achieve the above object, the present invention provides:
Basic computer is installed, and the basic software is a computer system that retries the instruction when it is determined that the execution of the instruction for the unit connected to the subordinate unit has failed,
When a failure that allows continued operation occurs in the unit, the unit has a failure control unit that notifies the basic software of a recovery processing time associated in advance with identification information that can identify the unit.
The basic software determines a retry interval based on the recovery processing time.

また、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルを有し、
前記障害制御ユニットは、前記ユニットにて継続動作可能な障害が発生した場合、前記復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出すことを特徴とする。
In addition, a recovery processing time table that stores in advance the association between the identification information and the recovery processing time,
The failure control unit reads a recovery processing time associated in advance with identification information capable of identifying the unit from the recovery processing time table when a failure that allows continuous operation occurs in the unit. .

また、前記ユニットは、前記継続動作可能な障害が発生した場合、その旨を示した情報を前記識別情報とともに当該コンピュータシステムに搭載されたファームウェアに通知し、
前記ファームウェアは、前記識別情報に対応付けられた前記復旧処理時間の読み出しを前記障害制御ユニットに指示することを特徴とする。
In addition, when a failure that allows continuous operation occurs, the unit notifies information indicating that to the firmware installed in the computer system together with the identification information,
The firmware instructs the failure control unit to read the recovery processing time associated with the identification information.

また、基本ソフトウェアとファームウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムであって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記ファームウェアに通知する障害制御ユニットを有し、
前記ファームウェアは、前記復旧処理時間が経過後、前記リトライを前記基本ソフトウェアに要求する。
The computer system is equipped with basic software and firmware, and the basic software retries the instruction when it is determined that the execution of the instruction to the subordinate connected unit has failed,
When a failure that allows continued operation occurs in the unit, the unit has a failure control unit that notifies the firmware of a recovery processing time that is associated in advance with identification information that can identify the unit.
The firmware requests the basic software to retry after the recovery processing time has elapsed.

また、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルを有し、
前記障害制御ユニットは、前記ユニットにて継続動作可能な障害が発生した場合、前記復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出すことを特徴とする。
In addition, a recovery processing time table that stores in advance the association between the identification information and the recovery processing time,
The failure control unit reads a recovery processing time associated in advance with identification information capable of identifying the unit from the recovery processing time table when a failure that allows continuous operation occurs in the unit. .

また、前記ユニットは、前記継続動作可能な障害が発生した場合、その旨を示した情報を前記識別情報とともに前記ファームウェアに通知し、
前記ファームウェアは、前記識別情報に対応付けられた前記復旧処理時間の読み出しを前記障害制御ユニットに指示することを特徴とする。
In addition, when a failure that allows the continuous operation occurs, the unit notifies the firmware together with the identification information to the effect,
The firmware instructs the failure control unit to read the recovery processing time associated with the identification information.

また、基本ソフトウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムにおける命令リトライ方法であって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記基本ソフトウェアに通知する処理と、
前記基本ソフトウェアが、前記復旧処理時間に基づいてリトライする間隔を決定する処理とを有する。
In addition, when the basic software is installed and the basic software determines that the execution of the instruction for the unit connected to the subordinate unit has failed, the instruction retry method in the computer system retries the instruction,
When a failure that allows continuous operation has occurred in the unit, a process of notifying the basic software of a recovery processing time associated in advance with identification information that can identify the unit;
The basic software includes a process of determining an interval for retrying based on the recovery processing time.

また、前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す処理を有することを特徴とする。   Further, when a failure that allows continuous operation occurs in the unit, the unit is previously associated with the identification information that can identify the unit from the restoration processing time table that stores the association between the identification information and the restoration processing time in advance. And a process of reading out the recovery processing time.

また、基本ソフトウェアとファームウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムにおける命令リトライ方法であって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記ファームウェアに通知する処理と、
前記ファームウェアが、前記復旧処理時間が経過後、前記リトライを前記基本ソフトウェアに要求する処理とを有する。
In addition, an instruction retry method in a computer system, in which basic software and firmware are installed, and the basic software retries the instruction when it is determined that the execution of the instruction for the unit connected to the subordinate unit has failed,
When a failure that allows continued operation occurs in the unit, a process of notifying the firmware of a recovery process time associated in advance with identification information that can identify the unit;
The firmware includes a process of requesting the retry to the basic software after the recovery processing time has elapsed.

また、前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す処理を有することを特徴とする。   Further, when a failure that allows continuous operation occurs in the unit, the unit is previously associated with the identification information that can identify the unit from the restoration processing time table that stores the association between the identification information and the restoration processing time in advance. And a process of reading out the recovery processing time.

また、基本ソフトウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータに、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記基本ソフトウェアに通知する手順と、
前記復旧処理時間に基づいてリトライする間隔を決定する手順とを実行させる。
In addition, when the basic software is installed and the basic software determines that the execution of the instruction to the unit connected under the control has failed, the computer that retries the instruction
When a failure that allows continued operation occurs in the unit, a procedure for notifying the basic software of a recovery processing time associated in advance with identification information that can identify the unit;
And a procedure for determining a retry interval based on the recovery processing time.

また、前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す手順をコンピュータに実行させる。   Further, when a failure that allows continuous operation occurs in the unit, the unit is previously associated with the identification information that can identify the unit from the restoration processing time table that stores the association between the identification information and the restoration processing time in advance. The computer is caused to execute a procedure for reading the recovery processing time.

また、基本ソフトウェアとファームウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータに、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記ファームウェアに通知する手順と、
前記復旧処理時間が経過後、前記ファームウェアから前記リトライを前記基本ソフトウェアに要求する手順をコンピュータに実行させる。
In addition, when the basic software and firmware are installed, and the basic software determines that the execution of the instruction to the unit connected to the subordinate unit has failed, the computer to retry the instruction,
A procedure for notifying the firmware of a recovery processing time associated in advance with identification information capable of identifying the unit when a failure that allows continued operation occurs in the unit;
After the recovery processing time has elapsed, the computer is caused to execute a procedure for requesting the basic software to retry the basic software.

また、前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す手順をコンピュータに実行させる。   Further, when a failure that allows continuous operation occurs in the unit, the unit is previously associated with the identification information that can identify the unit from the restoration processing time table that stores the association between the identification information and the restoration processing time in advance. The computer is caused to execute a procedure for reading the recovery processing time.

上記のように構成された本発明においては、ユニットに対する命令の実行が失敗したと判断された場合に該命令をリトライする基本ソフトウェアが搭載され、ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間が障害制御ユニットから基本ソフトウェアに通知され、基本ソフトウェアにて通知された復旧処理時間に基づいてリトライする間隔が決定される。   In the present invention configured as described above, when the execution of the instruction to the unit is determined to have failed, the basic software for retrying the instruction is installed, and when a failure that allows continuous operation occurs in the unit, The recovery processing time associated in advance with identification information that can identify the unit is notified from the failure control unit to the basic software, and the retry interval is determined based on the recovery processing time notified by the basic software.

これにより、リトライ命令の多発による装置の負荷の増加を防ぐことができ、それにより、2次障害を誘発することが抑えることができる。また、ハードウェアを更新する度に基本ソフトウェアを修正するという必要が無くなる。   Thereby, it is possible to prevent an increase in the load on the apparatus due to the frequent occurrence of a retry instruction, thereby suppressing the occurrence of a secondary failure. In addition, it is not necessary to modify the basic software every time the hardware is updated.

以上説明したように本発明においては、ユニットに対する命令の実行が失敗したと判断された場合に該命令をリトライする基本ソフトウェアが搭載され、ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を障害制御ユニットから基本ソフトウェアに通知し、基本ソフトウェアにて通知された復旧処理時間に基づいてリトライする間隔を決定する構成としたため、各ユニットに最適なリトライ間隔を設定することができる。   As described above, in the present invention, when it is determined that execution of an instruction to a unit has failed, basic software for retrying the instruction is installed, and when a failure that allows continuous operation occurs in the unit, the unit Since the failure control unit notifies the basic software of the recovery processing time associated with the identification information that can be identified in advance, and determines the retry interval based on the recovery processing time notified by the basic software, An optimal retry interval can be set for the unit.

以下に、本発明の実施の形態について図面を参照して説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1は、本発明のコンピュータシステムの実施の一形態を示す図である。   FIG. 1 is a diagram showing an embodiment of a computer system of the present invention.

本形態は図1に示すように、OS101と、FW102と、プロセッサ103と、チップセット104と、ユニット105−1〜105−3と、障害制御ユニット106と、復旧処理時間テーブル107とから構成されている。   As shown in FIG. 1, the present embodiment includes an OS 101, an FW 102, a processor 103, a chip set 104, units 105-1 to 105-3, a failure control unit 106, and a recovery processing time table 107. ing.

OS101は、本コンピュータシステム全体を管理する基本ソフトウェアである。   The OS 101 is basic software for managing the entire computer system.

FW102は、ユニット105−1〜105−3等のハードウェアの基本制御を行うプロセッサ103上で動作するファームウェアである。   The FW 102 is firmware that operates on the processor 103 that performs basic control of hardware such as the units 105-1 to 105-3.

プロセッサ103は、本コンピュータシステム全体を制御するCPUである。   The processor 103 is a CPU that controls the entire computer system.

チップセット104は、プロセッサ103の周辺回路が搭載されたチップ群であり、配下のユニット105−1〜105−3と接続されている。   The chip set 104 is a chip group on which peripheral circuits of the processor 103 are mounted, and is connected to the subordinate units 105-1 to 105-3.

ユニット105−1〜105−3は、チップセット104に接続された処理装置であり、OS101からの指示により本コンピュータシステムから切り離すことが可能なものである。また、継続動作可能な障害(以下、動作可障害と称する)が発生した場合、動作可障害が発生した旨を示す情報を障害制御ユニット106へ送信する。この情報には少なくとも、ユニット105−1〜105−3に固有に予め付与された識別情報が含まれる。また、チップセット104とユニット105−1〜105−3との接続は1対1(それぞれの個別線)で示しているが、チップセット104をマスターとしたバス構成を用いて接続されるものであってもかまわない。   The units 105-1 to 105-3 are processing devices connected to the chip set 104, and can be disconnected from the computer system by an instruction from the OS 101. In addition, when a failure that allows continuous operation (hereinafter referred to as an operational failure) occurs, information indicating that the operational failure has occurred is transmitted to the failure control unit 106. This information includes at least identification information uniquely assigned to units 105-1 to 105-3. Further, the connection between the chip set 104 and the units 105-1 to 105-3 is shown on a one-to-one basis (each individual line), but is connected using a bus configuration with the chip set 104 as a master. It does not matter.

復旧処理時間テーブル107には、ユニット105−1〜105−3に動作可障害が発生した場合の動作可障害発生から復旧するまでの時間である復旧処理時間が、ユニット105−1〜105−3毎に対応付けられて格納されている。この復旧処理時間テーブル107は、ハードウェア回路で実現されるレジスタであっても良いし、メモリデバイスであっても良い。   In the recovery processing time table 107, the recovery processing time, which is the time from when the operational failure occurs in the units 105-1 to 105-3 to the time when the operational failure occurs, is stored in the units 105-1 to 105-3. Stored in association with each other. The restoration processing time table 107 may be a register realized by a hardware circuit or a memory device.

図2は、図1に示した復旧処理時間テーブル107に格納された情報の一例を示す図である。   FIG. 2 is a diagram illustrating an example of information stored in the recovery processing time table 107 illustrated in FIG.

図1に示した復旧処理時間テーブル107には図2に示すように、ユニット105−1〜105−3にそれぞれ固有に付与された識別情報と、ユニット105−1〜105−3に動作可障害が発生した場合の動作可障害発生から復旧するまでの時間である復旧処理時間とがそれぞれ対応付けられて格納されている。ここで、ユニット105−1には「A001」の識別情報が、またユニット105−2には「A002」の識別情報が、またユニット105−3には「A003」の識別情報が、それぞれ予め付与されている。例えば、識別情報「A001」と、復旧処理時間「300マイクロ秒」とが対応付けられて格納されている。これは、識別情報が「A001」であるユニット105−1に動作可障害が発生した場合、当該動作可障害が発生してから復旧処理を行うことにより復旧するまでにかかる時間が「300マイクロ秒」であることを示す。また、識別情報「A002」と、復旧処理時間「200マイクロ秒」とが対応付けられて格納されている。これは、識別情報が「A002」であるユニット105−2に動作可障害が発生した場合、当該動作可障害が発生してから復旧処理を行うことにより復旧するまでにかかる時間が「200マイクロ秒」であることを示す。また、識別情報「A003」と、復旧処理時間「400マイクロ秒」とが対応付けられて格納されている。これは、識別情報が「A003」であるユニット105−3に動作可障害が発生した場合、当該動作可障害が発生してから復旧処理を行うことにより復旧するまでにかかる時間が「400マイクロ秒」であることを示す。また、復旧処理時間テーブル107には、上述した識別情報及び復旧処理時間以外の情報が格納されているものであっても良い。   In the recovery processing time table 107 shown in FIG. 1, as shown in FIG. 2, the identification information uniquely assigned to each of the units 105-1 to 105-3 and the operation possible failure to the units 105-1 to 105-3 are shown. Are stored in association with the recovery processing time, which is the time from the occurrence of an operable failure to the recovery when an error occurs. Here, the identification information “A001” is assigned to the unit 105-1, the identification information “A002” is assigned to the unit 105-2, and the identification information “A003” is assigned to the unit 105-3. Has been. For example, the identification information “A001” and the recovery processing time “300 microseconds” are stored in association with each other. This is because, when an operation failure occurs in the unit 105-1 whose identification information is “A001”, the time taken to recover by performing the recovery process after the operation failure occurs is “300 microseconds”. ". Further, the identification information “A002” and the recovery processing time “200 microseconds” are stored in association with each other. This is because, when an operation failure occurs in the unit 105-2 whose identification information is “A002”, the time taken to recover by performing the recovery process after the operation failure occurs is “200 microseconds”. ". Further, the identification information “A003” and the recovery processing time “400 microseconds” are stored in association with each other. This is because, when an operation failure occurs in the unit 105-3 whose identification information is “A003”, the time taken to recover by performing the recovery process after the operation failure occurs is “400 microseconds”. ". The recovery processing time table 107 may store information other than the identification information and the recovery processing time described above.

障害制御ユニット106は、チップセット104及びユニット105−1〜105−3と接続され、ユニット105−1〜105−3の識別情報に基づいて復旧処理時間テーブル107に格納されている復旧処理時間を読み出す。また、ユニット105−1〜105−3と障害制御ユニット106との接続は1対1(それぞれの個別線)で示しているが、障害制御ユニット106をマスターとしたバス構成を用いて接続されるものであってもかまわない。   The failure control unit 106 is connected to the chipset 104 and the units 105-1 to 105-3, and sets the recovery processing time stored in the recovery processing time table 107 based on the identification information of the units 105-1 to 105-3. read out. Further, the connections between the units 105-1 to 105-3 and the failure control unit 106 are shown in a one-to-one relationship (each individual line), but they are connected using a bus configuration with the failure control unit 106 as a master. It does not matter if it is a thing.

また、ユニット105−1〜105−3の数が3つの場合を例に挙げたが、この数については3つに限定しない。また、ユニット105−1〜105−3や、障害制御ユニット106にチップセット104が含まれているものであっても良い。また、ユニット105−1〜105−3に障害制御ユニット106が含まれているものであっても良い。   Moreover, although the case where the number of the units 105-1 to 105-3 is three was given as an example, this number is not limited to three. Further, the units 105-1 to 105-3 and the failure control unit 106 may include the chip set 104. Further, the units 105-1 to 105-3 may include the failure control unit 106.

以下に、図1に示したコンピュータシステムにおける命令リトライ方法についてフローチャートを用いて説明する。   The instruction retry method in the computer system shown in FIG. 1 will be described below with reference to a flowchart.

図3は、図1に示したコンピュータシステムにおける命令リトライ方法の一例を説明するためのフローチャートである。ここでは、ユニット105−1に動作可障害が発生した場合を例に挙げて説明する。   FIG. 3 is a flowchart for explaining an example of an instruction retry method in the computer system shown in FIG. Here, a case where an operational failure occurs in the unit 105-1 will be described as an example.

ユニット105−1に動作可障害が発生すると(ステップS1)、動作可障害が発生した旨がFW102に通知される。この通知方法については、一般的な割り込み通知や例外報告を用いるもので良く、ここでは特に限定しない。   When an operational failure occurs in the unit 105-1 (step S1), the FW 102 is notified that an operational failure has occurred. This notification method may be a general interrupt notification or exception report, and is not particularly limited here.

ユニット105−1にて動作可障害が発生したことがFW102にて認識されると、FW102から障害制御ユニット106に復旧処理時間テーブル107からユニット105−1の復旧処理時間情報の読み出しが指示される。そして、障害制御ユニット106によって復旧処理時間テーブル107からユニット105−1の復旧処理時間である復旧処理時間情報が読み出される(ステップS2)。図2に示した対応付けを例に挙げると、「300マイクロ秒」が読み出される。   When the FW 102 recognizes that an operational failure has occurred in the unit 105-1, the FW 102 instructs the failure control unit 106 to read out the recovery processing time information of the unit 105-1 from the recovery processing time table 107. . Then, the failure control unit 106 reads out the recovery processing time information that is the recovery processing time of the unit 105-1 from the recovery processing time table 107 (step S2). Taking the association shown in FIG. 2 as an example, “300 microseconds” is read out.

このとき、FW102から障害制御ユニット106へユニット105−1〜105−3のいずれかで動作可障害が発生した旨が通知され、ユニット105−1〜105−3のいずれかで動作可障害が発生した旨が通知された障害発生ユニット106からユニット105−1〜105−3の状態が確認されるものであっても良い。これにより、どのユニット105−1〜105−3にて動作可障害が発生したかが障害制御ユニット106にて判断される。ユニット105−1〜105−3の状態の確認方法としては、ユニット105−1〜105−3が有するメモリやレジスタの1ビットに動作可障害が発生したかどうかを示す状態フラグを予め設定し、そのフラグを障害制御ユニット106が予め設定された周期で周期的にリードするものが挙げられる。このようにして、障害制御ユニット106にて動作可障害が発生したユニット105−1が認識され、復旧処理時間テーブル107からユニット105−1の復旧処理時間である復旧処理時間情報が読み出されるものであっても良い。   At this time, the FW 102 notifies the failure control unit 106 that an operational failure has occurred in any of the units 105-1 to 105-3, and an operational failure has occurred in any of the units 105-1 to 105-3. The state of the units 105-1 to 105-3 may be confirmed from the faulty unit 106 that has been notified. As a result, the failure control unit 106 determines which unit 105-1 to 105-3 has caused an operational failure. As a method for checking the status of the units 105-1 to 105-3, a status flag indicating whether or not an operational failure has occurred in one bit of the memory or register of the units 105-1 to 105-3 is set in advance. The flag is periodically read by the failure control unit 106 at a preset cycle. In this way, the failure control unit 106 recognizes the unit 105-1 in which an operation failure has occurred, and the recovery processing time information that is the recovery processing time of the unit 105-1 is read from the recovery processing time table 107. There may be.

障害制御ユニット106によって読み出されたユニット105−1の復旧処理時間情報は、FW102に通知される。   The recovery processing time information of the unit 105-1 read by the failure control unit 106 is notified to the FW 102.

その後、FW102からOS101へユニット105−1においては命令が実行できない旨がリプライとしてコンディションコードや例外報告を用いて通知される。この通知はリトライ要求となる。そのとき、ユニット105−1の復旧処理時間情報も通知される(ステップS3)。   Thereafter, the fact that the instruction cannot be executed in the unit 105-1 is notified from the FW 102 to the OS 101 using a condition code or an exception report as a reply. This notification is a retry request. At that time, the recovery processing time information of the unit 105-1 is also notified (step S3).

ユニット105−1の復旧処理時間情報が通知されたOS101にて、通知された復旧処理時間情報に基づいてリトライ間隔が決定される(ステップS4)。これは、通知された復旧処理時間がそのままリトライ間隔とされても良いし、復旧処理時間に所定の時間が加算された時間がリトライ間隔とされても良い。   The OS 101 to which the recovery processing time information of the unit 105-1 is notified determines the retry interval based on the notified recovery processing time information (step S4). In this case, the notified recovery processing time may be used as it is as the retry interval, or a time obtained by adding a predetermined time to the recovery processing time may be used as the retry interval.

その後、決定されたリトライ間隔でユニット105−1へ命令がリトライされる(ステップS5)。   Thereafter, the instruction is retried to the unit 105-1 at the determined retry interval (step S5).

また、上述したFW102の処理がチップセット104にて行われるものであっても良い。   Further, the processing of the FW 102 described above may be performed by the chip set 104.

図4は、図1に示したコンピュータシステムにおける命令リトライ方法の他の例を説明するためのフローチャートである。ここでは、図3のフローチャートを用いて説明した命令リトライ方法と同様に、ユニット105−1に動作可障害が発生した場合を例に挙げて説明する。   FIG. 4 is a flowchart for explaining another example of the instruction retry method in the computer system shown in FIG. Here, as in the case of the instruction retry method described with reference to the flowchart of FIG. 3, a case where an operation failure occurs in the unit 105-1 will be described as an example.

ユニット105−1に動作可障害が発生すると(ステップS11)、動作可障害が発生した旨がFW102に通知される。この通知方法については、一般的な割り込み通知や例外報告を用いるもので良く、ここでは特に限定しない。   When an operational failure occurs in the unit 105-1 (step S11), the FW 102 is notified that an operational failure has occurred. This notification method may be a general interrupt notification or exception report, and is not particularly limited here.

ユニット105−1にて動作可障害が発生したことがFW102にて認識されると、FW102から障害制御ユニット106に復旧処理時間テーブル107からユニット105−1の復旧処理時間情報の読み出しが指示される。そして、障害制御ユニット106によって復旧処理時間テーブル107からユニット105−1の復旧処理時間である復旧処理時間情報が読み出される(ステップS12)。図2に示した対応付けを例に挙げると、「300マイクロ秒」が読み出される。   When the FW 102 recognizes that an operational failure has occurred in the unit 105-1, the FW 102 instructs the failure control unit 106 to read out the recovery processing time information of the unit 105-1 from the recovery processing time table 107. . Then, the failure control unit 106 reads the recovery processing time information that is the recovery processing time of the unit 105-1 from the recovery processing time table 107 (step S12). Taking the association shown in FIG. 2 as an example, “300 microseconds” is read out.

このとき、FW102から障害制御ユニット106へユニット105−1〜105−3のいずれかで動作可障害が発生した旨が通知され、ユニット105−1〜105−3のいずれかで動作可障害が発生した旨が通知された障害発生ユニット106からユニット105−1〜105−3の状態が確認されるものであっても良い。これにより、どのユニット105−1〜105−3にて動作可障害が発生したかが障害制御ユニット106にて判断される。ユニット105−1〜105−3の状態の確認方法としては、ユニット105−1〜105−3が有するメモリやレジスタの1ビットに動作可障害が発生したかどうかを示す状態フラグを予め設定し、そのフラグを障害制御ユニット106が予め設定された周期で周期的にリードするものが挙げられる。このようにして、障害制御ユニット106にて動作可障害が発生したユニット105−1が認識され、復旧処理時間テーブル107からユニット105−1の復旧処理時間である復旧処理時間情報が読み出されるものであっても良い。   At this time, the FW 102 notifies the failure control unit 106 that an operational failure has occurred in any of the units 105-1 to 105-3, and an operational failure has occurred in any of the units 105-1 to 105-3. The state of the units 105-1 to 105-3 may be confirmed from the faulty unit 106 that has been notified. As a result, the failure control unit 106 determines which unit 105-1 to 105-3 has caused an operational failure. As a method for checking the status of the units 105-1 to 105-3, a status flag indicating whether or not an operational failure has occurred in one bit of the memory or register of the units 105-1 to 105-3 is set in advance. The flag is periodically read by the failure control unit 106 at a preset cycle. In this way, the failure control unit 106 recognizes the unit 105-1 in which an operation failure has occurred, and the recovery processing time information that is the recovery processing time of the unit 105-1 is read from the recovery processing time table 107. There may be.

障害制御ユニット106によって読み出されたユニット105−1の復旧処理時間情報は、FW102に通知される。   The recovery processing time information of the unit 105-1 read by the failure control unit 106 is notified to the FW 102.

FW102にユニット105−1の復旧処理時間情報が通知されると、FW102が有する減算タイマ(不図示)に300マイクロ秒がセットされ(ステップS13)、カウント(減算)が開始される。この減算タイマは、FW102のプログラムで組まれたものであり、プロセッサ103やチップセット104のハードウェアから供給されるクロックを用いて動作するものである。   When the recovery processing time information of the unit 105-1 is notified to the FW 102, 300 microseconds is set in a subtraction timer (not shown) included in the FW 102 (step S13), and counting (subtraction) is started. This subtraction timer is assembled by the program of the FW 102 and operates using a clock supplied from the hardware of the processor 103 or the chip set 104.

その後、減算タイマが「0」になったと判断されたとき(ステップS14)、FW102からOS101へリトライが要求される(ステップS15)。これは、FW102からOS101へユニット105−1においては命令が実行できない旨がリプライとしてコンディションコードや例外報告を用いて通知されるものである。   Thereafter, when it is determined that the subtraction timer has reached “0” (step S14), a retry is requested from the FW 102 to the OS 101 (step S15). This is a notification that the instruction cannot be executed in the unit 105-1 from the FW 102 to the OS 101 using a condition code or an exception report as a reply.

そして、OS101からユニット105−1へ命令がリトライされる(ステップS16)。   Then, the instruction is retried from the OS 101 to the unit 105-1 (step S16).

ここで、300マイクロ秒をカウントするために減算タイマを用いるものではなく、加算タイマを用いるものであっても良い。この場合、FW102にユニット105−1の復旧処理時間情報が通知されると、加算タイマが起動し、加算タイマが300マイクロ秒になったかどうかが判断される。そして、加算タイマが300マイクロ秒になったと判断されたとき、FW102からOS101へリトライが要求されるものとなる。また、一般的なタイマ(時計)を用いるものであっても良い。この場合、FW102にユニット105−1の復旧処理時間情報が通知されると、その時刻から300マイクロ秒経過したときにFW102からOS101へリトライが要求されるものとなる。   Here, a subtraction timer is not used to count 300 microseconds, but an addition timer may be used. In this case, when the recovery processing time information of the unit 105-1 is notified to the FW 102, the addition timer is started, and it is determined whether or not the addition timer has reached 300 microseconds. When it is determined that the addition timer has reached 300 microseconds, a retry is requested from the FW 102 to the OS 101. Further, a general timer (clock) may be used. In this case, when the recovery processing time information of the unit 105-1 is notified to the FW 102, a retry is requested from the FW 102 to the OS 101 when 300 microseconds have elapsed from that time.

また、上述したFW102の処理がチップセット104にて行われるものであっても良い。   Further, the processing of the FW 102 described above may be performed by the chip set 104.

以上により、動作可障害発生時のリトライ命令が多発しないため、装置の負荷の増加を防ぐことができる。また、それにより、2次障害を誘発することが抑えることができる。また、OS101はハードウェアによらずリトライ間隔を最適に設定することができるため、ハードウェアを更新する度にOSを修正するという必要が無くなる。   As described above, since a retry command does not occur frequently when an operational failure occurs, an increase in the load on the apparatus can be prevented. Moreover, it can suppress that a secondary disorder is induced thereby. In addition, since the OS 101 can optimally set the retry interval regardless of the hardware, it is not necessary to modify the OS every time the hardware is updated.

なお、本発明においては、上述したFW102の処理を実現するためのプログラムをプロセッサ103にて読取可能な記録媒体に記録し、この記録媒体に記録されたプログラムをプロセッサ103に読み込ませ、実行するものであっても良い。プロセッサ103にて読取可能な記録媒体とは、フロッピーディスク(登録商標)、光磁気ディスク、DVD、CDなどの移設可能な記録媒体の他、プロセッサ103やチップセット104に内蔵されたHDD等を指す。この記録媒体に記録されたプログラムは、例えば、プロセッサ103にて読み込まれ、プロセッサ103の制御によって、上述したものと同様の処理が行われる。ここで、OS101、FW102、プロセッサ103及びチップセット104の組み合わせは、プログラムが記録された記録媒体から読み込まれたプログラムを実行するコンピュータとして動作するものである。   In the present invention, a program for realizing the processing of the FW 102 described above is recorded on a recording medium readable by the processor 103, and the program recorded on the recording medium is read by the processor 103 and executed. It may be. The recording medium readable by the processor 103 refers to a transfer medium such as a floppy disk (registered trademark), a magneto-optical disk, a DVD, or a CD, an HDD built in the processor 103 or the chipset 104, and the like. . The program recorded on this recording medium is read by the processor 103, for example, and the same processing as described above is performed under the control of the processor 103. Here, the combination of the OS 101, the FW 102, the processor 103, and the chip set 104 operates as a computer that executes a program read from a recording medium on which the program is recorded.

本発明のコンピュータシステムの実施の一形態を示す図である。It is a figure which shows one Embodiment of the computer system of this invention. 図1に示した復旧処理時間テーブルに格納された情報の一例を示す図である。It is a figure which shows an example of the information stored in the recovery process time table shown in FIG. 図1に示したコンピュータシステムにおける命令リトライ方法の一例を説明するためのフローチャートである。It is a flowchart for demonstrating an example of the instruction retry method in the computer system shown in FIG. 図1に示したコンピュータシステムにおける命令リトライ方法の他の例を説明するためのフローチャートである。It is a flowchart for demonstrating the other example of the instruction retry method in the computer system shown in FIG.

符号の説明Explanation of symbols

101 OS
102 FW
103 プロセッサ
104 チップセット
105−1〜105−3 ユニット
106 障害制御ユニット
107 復旧処理時間テーブル
101 OS
102 FW
103 processor 104 chipset 105-1 to 105-3 unit 106 failure control unit 107 recovery processing time table

Claims (14)

基本ソフトウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムであって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記基本ソフトウェアに通知する障害制御ユニットを有し、
前記基本ソフトウェアは、前記復旧処理時間に基づいてリトライする間隔を決定するコンピュータシステム。
Basic computer is installed, and the basic software is a computer system that retries the instruction when it is determined that the execution of the instruction for the unit connected to the subordinate unit has failed,
When a failure that allows continued operation occurs in the unit, the unit has a failure control unit that notifies the basic software of a recovery processing time associated in advance with identification information that can identify the unit.
The basic software determines a retry interval based on the recovery processing time.
請求項1に記載のコンピュータシステムにおいて、
前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルを有し、
前記障害制御ユニットは、前記ユニットにて継続動作可能な障害が発生した場合、前記復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出すことを特徴とするコンピュータシステム。
The computer system of claim 1,
A recovery processing time table in which the correspondence between the identification information and the recovery processing time is stored in advance;
The failure control unit reads a recovery processing time associated in advance with identification information capable of identifying the unit from the recovery processing time table when a failure that allows continuous operation occurs in the unit. Computer system.
請求項2に記載のコンピュータシステムにおいて、
前記ユニットは、前記継続動作可能な障害が発生した場合、その旨を示した情報を前記識別情報とともに当該コンピュータシステムに搭載されたファームウェアに通知し、
前記ファームウェアは、前記識別情報に対応付けられた前記復旧処理時間の読み出しを前記障害制御ユニットに指示することを特徴とするコンピュータシステム。
The computer system according to claim 2, wherein
The unit notifies the firmware installed in the computer system together with the identification information when the failure that allows the continuous operation has occurred,
The computer system, wherein the firmware instructs the failure control unit to read the recovery processing time associated with the identification information.
基本ソフトウェアとファームウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムであって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記ファームウェアに通知する障害制御ユニットを有し、
前記ファームウェアは、前記復旧処理時間が経過後、前記リトライを前記基本ソフトウェアに要求するコンピュータシステム。
A basic system and a firmware are installed, and the basic software is a computer system that retries the instruction when it is determined that the execution of the instruction to the unit connected to the subordinate unit has failed,
When a failure that allows continued operation occurs in the unit, the unit has a failure control unit that notifies the firmware of a recovery processing time that is associated in advance with identification information that can identify the unit.
The firmware is a computer system which requests the retry from the basic software after the recovery processing time has elapsed.
請求項4に記載のコンピュータシステムにおいて、
前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルを有し、
前記障害制御ユニットは、前記ユニットにて継続動作可能な障害が発生した場合、前記復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出すことを特徴とするコンピュータシステム。
The computer system according to claim 4.
A recovery processing time table in which the correspondence between the identification information and the recovery processing time is stored in advance;
The failure control unit reads a recovery processing time associated in advance with identification information capable of identifying the unit from the recovery processing time table when a failure that allows continuous operation occurs in the unit. Computer system.
請求項5に記載のコンピュータシステムにおいて、
前記ユニットは、前記継続動作可能な障害が発生した場合、その旨を示した情報を前記識別情報とともに前記ファームウェアに通知し、
前記ファームウェアは、前記識別情報に対応付けられた前記復旧処理時間の読み出しを前記障害制御ユニットに指示することを特徴とするコンピュータシステム。
The computer system according to claim 5, wherein
When the failure that allows the continuous operation occurs, the unit notifies the firmware with the identification information together with the identification information,
The computer system, wherein the firmware instructs the failure control unit to read the recovery processing time associated with the identification information.
基本ソフトウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムにおける命令リトライ方法であって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記基本ソフトウェアに通知する処理と、
前記基本ソフトウェアが、前記復旧処理時間に基づいてリトライする間隔を決定する処理とを有する命令リトライ方法。
An instruction retry method in a computer system in which basic software is installed, and the basic software retries the instruction when it is determined that the execution of the instruction to the subordinate connected unit has failed,
When a failure that allows continuous operation has occurred in the unit, a process of notifying the basic software of a recovery processing time associated in advance with identification information that can identify the unit;
An instruction retry method comprising: a process in which the basic software determines a retry interval based on the recovery processing time.
請求項7に記載の命令リトライ方法において、
前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す処理を有することを特徴とする命令リトライ方法。
The instruction retry method according to claim 7,
When a failure that allows continuous operation has occurred in the unit, the recovery associated with the identification information that can identify the unit from the recovery processing time table that stores the association between the identification information and the recovery processing time in advance. An instruction retry method comprising a process of reading a processing time.
基本ソフトウェアとファームウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータシステムにおける命令リトライ方法であって、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記ファームウェアに通知する処理と、
前記ファームウェアが、前記復旧処理時間が経過後、前記リトライを前記基本ソフトウェアに要求する処理とを有する命令リトライ方法。
An instruction retry method in a computer system, in which basic software and firmware are installed, and the basic software retries the instruction when it is determined that the execution of the instruction to the unit connected to the subordinate unit has failed,
When a failure that allows continued operation occurs in the unit, a process of notifying the firmware of a recovery process time associated in advance with identification information that can identify the unit;
An instruction retry method comprising: a process in which the firmware requests the basic software to retry after the recovery processing time has elapsed.
請求項9に記載の命令リトライ方法において、
前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す処理を有することを特徴とする命令リトライ方法。
The instruction retry method according to claim 9,
When a failure that allows continuous operation has occurred in the unit, the recovery associated with the identification information that can identify the unit from the recovery processing time table that stores the association between the identification information and the recovery processing time in advance. An instruction retry method comprising a process of reading a processing time.
基本ソフトウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータに、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記基本ソフトウェアに通知する手順と、
前記復旧処理時間に基づいてリトライする間隔を決定する手順とを実行させるプログラム。
When the basic software is installed and the basic software determines that the execution of the instruction to the unit connected to the subordinate unit has failed, the computer that retries the instruction
When a failure that allows continued operation occurs in the unit, a procedure for notifying the basic software of a recovery processing time associated in advance with identification information that can identify the unit;
A program for executing a procedure for determining a retry interval based on the recovery processing time.
請求項11に記載のプログラムにおいて、
前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す手順をコンピュータに実行させるプログラム。
The program according to claim 11,
When a failure that allows continuous operation has occurred in the unit, the recovery associated with the identification information that can identify the unit from the recovery processing time table that stores the association between the identification information and the recovery processing time in advance. A program that causes a computer to execute a procedure for reading processing time.
基本ソフトウェアとファームウェアが搭載され、該基本ソフトウェアは配下に接続されたユニットに対する命令の実行が失敗したと判断された場合に、該命令をリトライするコンピュータに、
前記ユニットにて継続動作可能な障害が発生した場合、当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を前記ファームウェアに通知する手順と、
前記復旧処理時間が経過後、前記ファームウェアから前記リトライを前記基本ソフトウェアに要求する手順をコンピュータに実行させるプログラム。
When the basic software and firmware are installed, and the basic software determines that the execution of the instruction to the unit connected to the subordinate unit has failed, the computer to retry the instruction
A procedure for notifying the firmware of a recovery processing time associated in advance with identification information capable of identifying the unit when a failure that allows continued operation occurs in the unit;
A program that causes a computer to execute a procedure of requesting the retry from the firmware to the basic software after the recovery processing time has elapsed.
請求項13に記載のプログラムにおいて、
前記ユニットにて継続動作可能な障害が発生した場合、前記識別情報と前記復旧処理時間との対応付けを予め格納した復旧処理時間テーブルから当該ユニットを識別可能な識別情報に予め対応付けられた復旧処理時間を読み出す手順をコンピュータに実行させるプログラム。
The program according to claim 13, wherein
When a failure that allows continuous operation has occurred in the unit, the recovery associated with the identification information that can identify the unit from the recovery processing time table that stores the association between the identification information and the recovery processing time in advance. A program that causes a computer to execute a procedure for reading processing time.
JP2007020938A 2007-01-31 2007-01-31 Computer system and instruction retry method in computer system Active JP5022050B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007020938A JP5022050B2 (en) 2007-01-31 2007-01-31 Computer system and instruction retry method in computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007020938A JP5022050B2 (en) 2007-01-31 2007-01-31 Computer system and instruction retry method in computer system

Publications (2)

Publication Number Publication Date
JP2008186352A true JP2008186352A (en) 2008-08-14
JP5022050B2 JP5022050B2 (en) 2012-09-12

Family

ID=39729326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007020938A Active JP5022050B2 (en) 2007-01-31 2007-01-31 Computer system and instruction retry method in computer system

Country Status (1)

Country Link
JP (1) JP5022050B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61276027A (en) * 1985-05-31 1986-12-06 Mitsubishi Electric Corp Memory system for operating system
JPH01273136A (en) * 1988-04-26 1989-11-01 Oki Electric Ind Co Ltd System for converting operating system to firmware
JPH0358236A (en) * 1989-07-27 1991-03-13 Nec Corp Information processor
JPH05181780A (en) * 1991-12-27 1993-07-23 Nec Corp Input/output control device and its method
JPH05225112A (en) * 1992-02-13 1993-09-03 Nec Corp Information processor
JPH05241986A (en) * 1992-02-28 1993-09-21 Nec Corp Input/output instruction retrying system
JPH0863365A (en) * 1994-08-23 1996-03-08 Fujitsu Ltd Data processor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61276027A (en) * 1985-05-31 1986-12-06 Mitsubishi Electric Corp Memory system for operating system
JPH01273136A (en) * 1988-04-26 1989-11-01 Oki Electric Ind Co Ltd System for converting operating system to firmware
JPH0358236A (en) * 1989-07-27 1991-03-13 Nec Corp Information processor
JPH05181780A (en) * 1991-12-27 1993-07-23 Nec Corp Input/output control device and its method
JPH05225112A (en) * 1992-02-13 1993-09-03 Nec Corp Information processor
JPH05241986A (en) * 1992-02-28 1993-09-21 Nec Corp Input/output instruction retrying system
JPH0863365A (en) * 1994-08-23 1996-03-08 Fujitsu Ltd Data processor

Also Published As

Publication number Publication date
JP5022050B2 (en) 2012-09-12

Similar Documents

Publication Publication Date Title
US7536584B2 (en) Fault-isolating SAS expander
EP2052326B1 (en) Fault-isolating sas expander
JP4303187B2 (en) Program, storage control method, and storage device
CN109376029B (en) Processing method and processing system for SCSI hard disk abnormal overtime
US20110283037A1 (en) Information processing apparatus and data transfer method
US8832501B2 (en) System and method of processing failure
JP2006048578A (en) Computer system, computer and its program
US8347142B2 (en) Non-disruptive I/O adapter diagnostic testing
JP2014071576A (en) Storage control device, restoration processing method for programmable logic circuit and control program
US8015434B2 (en) Management apparatus, storage system, and storage apparatus management method
CN102915260B (en) The method that solid state hard disc is fault-tolerant and solid state hard disc thereof
JP2020021313A (en) Data processing device and diagnostic method
JP5022050B2 (en) Computer system and instruction retry method in computer system
WO2016151845A1 (en) Information processing apparatus
JP2009230484A (en) Storage subsystem, storage system, firmware replacing method, and program
US8151028B2 (en) Information processing apparatus and control method thereof
JP2006172218A (en) Computer system and system monitoring program
WO2015059804A1 (en) Storage system and method for controlling same
JP7427887B2 (en) Information processing device, information processing method, and information processing program
US7962781B2 (en) Control method for information storage apparatus, information storage apparatus and computer readable information recording medium
JP6112205B2 (en) Information processing system, apparatus, method, and program
CN113868000B (en) Link fault repairing method, system and related components
JP4584124B2 (en) Information processing apparatus, error processing method thereof, and control program
JP7013988B2 (en) Control devices, control methods, control programs, and control systems
WO2017006457A1 (en) Computer system and fault isolation method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110316

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110509

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120221

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120605

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120615

R150 Certificate of patent or registration of utility model

Ref document number: 5022050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150622

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350