JPH1049394A - System and method for processing fault - Google Patents

System and method for processing fault

Info

Publication number
JPH1049394A
JPH1049394A JP8198811A JP19881196A JPH1049394A JP H1049394 A JPH1049394 A JP H1049394A JP 8198811 A JP8198811 A JP 8198811A JP 19881196 A JP19881196 A JP 19881196A JP H1049394 A JPH1049394 A JP H1049394A
Authority
JP
Japan
Prior art keywords
ema
failure
extended storage
emu
restarting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8198811A
Other languages
Japanese (ja)
Inventor
Gen Miyazaki
弦 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP8198811A priority Critical patent/JPH1049394A/en
Publication of JPH1049394A publication Critical patent/JPH1049394A/en
Pending legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Retry When Errors Occur (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide the system and method for fault processing which can improve the degree of relief of an EMU blocking fault without altering software as to a computer system which controls data transfer between an EMU and an MMU by an EMA. SOLUTION: The computer system controls the data transfer between extended storage device(EMU) 7 and main storage device(MMU) by extended storage connection mechanisms(EMA) 5 and 6. If a fault occurs to the EMAs 5 and 6 while arithmetic processing units(EPU) 1 and 2 are executing EMU synchronous transfer instructions, the EPU reports the fault of the EMAs to the software, and a diagnostic control processor(DGP) 4 performs processing such as the gathering of fault information and then restarts the EMAs 5 and 6. The EPU performs processing by software retrial after the restarting of the EMAs is completed if the restarting is in process. Consequently, EMU blocking is not caused immediately in case of an intermittent fault of the EMAs, and the process can be carried on.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【発明の属する技術分野】本発明は障害処理システムお
よび方法に関し、特に、拡張記憶接続機構の障害時の障
害処理システムおよび方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a failure handling system and method, and more particularly, to a failure handling system and method when an extended storage connection mechanism fails.

【0001】[0001]

【従来の技術】従来、この種の障害処理方式では、拡張
記憶装置(以下、EMUという。)が主記憶装置(以
下、MMUという。)とのデータ転送を制御する拡張記
憶接続機構(以下、EMAという。)を介して接続され
ている計算機システムにおいて、EMU同期転送命令実
行中にEMAに障害が発生した場合にはソフトウェアに
より命令の再試行(リトライ)が行われるが、失敗した
ときにはEMUが閉塞される。
2. Description of the Related Art Conventionally, in this type of failure processing system, an extended storage device (hereinafter, referred to as an EMU) controls the data transfer with a main storage device (hereinafter, referred to as an MMU). If a failure occurs in the EMA during execution of the EMU synchronous transfer instruction in the computer system connected via the EMA, the software retry (retry) the instruction. Closed.

【0002】[0002]

【発明が解決しようとする課題】上述した従来の方式で
は、EMAに間欠故障が発生した場合にも、ソフトウェ
アがリトライして失敗すればEMUが閉塞されてしまう
ことがあるという欠点がある。
The above-mentioned conventional method has a drawback that, even when an intermittent failure occurs in the EMA, the EMU may be blocked if the software retry fails.

【0003】本発明の目的は、EMUとMMUとの間の
データ転送をEMAが制御する計算機システムにおい
て、ソフトウェアを変更せずにEMU閉塞障害の救済度
を向上させることができる障害処理システムおよび方法
を提供することにある。
An object of the present invention is to provide a computer system in which EMA controls data transfer between an EMU and an MMU, which can improve the degree of remedy for an EMU blockage failure without changing software. Is to provide.

【0004】[0004]

【課題を解決するための手段】本発明のシステムは、主
記憶装置と、拡張記憶装置と、前記主記憶装置と前記拡
張記憶装置との間のデータ転送を制御する拡張記憶接続
機構と、演算処理装置と、前記演算処理装置による拡張
記憶装置同期転送命令実行中に前記拡張記憶接続機構の
障害が発生した場合、前記演算処理装置のオペレーティ
ングシステムに前記障害の発生を通知する障害報告手段
と、前記障害の発生に応答して前記拡張記憶接続機構を
再起動する再起動手段と、前記拡張記憶接続機構が再起
動動作中の場合には前記オペレーティングシステムから
のリトライ指示による命令のリトライ処理の実行を前記
再起動動作の完了まで待たせる待ち合せ手段とを備え
る。
According to the present invention, there is provided a system comprising: a main storage device; an extended storage device; an extended storage connection mechanism for controlling data transfer between the main storage device and the extended storage device; A processing unit, and a failure reporting unit that notifies an operating system of the processing unit of the occurrence of the failure when a failure of the extended storage connection mechanism occurs during execution of the extended storage device synchronous transfer instruction by the processing unit; Restart means for restarting the extended storage connection mechanism in response to the occurrence of the failure; and execution of a command retry process in response to a retry instruction from the operating system when the extended storage connection mechanism is in a restart operation. Waiting means until the restart operation is completed.

【0005】また、本発明の方法は、演算処理装置とオ
ペレーティングシステムとを含み、主記憶装置と拡張記
憶装置との間のデータ転送の制御を拡張記憶接続機構に
より行なう計算機システムにおいて、前記演算処理装置
による拡張記憶装置同期転送命令実行中に前記拡張記憶
接続機構の障害が発生した場合、前記演算処理装置の前
記オペレーティングシステムに前記障害の発生を通知す
る障害報告ステップと、前記障害の発生に応答して前記
拡張記憶接続機構を再起動する再起動ステップと、前記
拡張記憶接続機構が再起動動作中の場合には前記オペレ
ーティングシステムからのリトライ指示による命令のリ
トライ処理の実行を前記再起動動作の完了まで待たせる
待ち合せステップとを含む。
A method according to the present invention is directed to a computer system including an arithmetic processing unit and an operating system, wherein control of data transfer between a main storage device and an extended storage device is performed by an extended storage connection mechanism. A failure reporting step of notifying the operating system of the arithmetic processing unit of the occurrence of the failure when a failure of the extended storage connection mechanism occurs during execution of the extended storage device synchronous transfer instruction by the device; and responding to the occurrence of the failure. And restarting the extended storage connection mechanism, and when the extended storage connection mechanism is performing a restart operation, executing a command retry process in accordance with a retry instruction from the operating system. Waiting until completion.

【0006】本発明の目的は、EMUとMMUの間のデ
ータ転送をEMAが制御する計算機システムにおいて、
ソフトウェアを変更せずにEMU閉塞障害の救済度が向
上する障害処理方式を提供することにある。
An object of the present invention is to provide a computer system in which EMA controls data transfer between an EMU and an MMU.
An object of the present invention is to provide a failure processing method that improves the degree of relief of an EMU blockage failure without changing software.

【0007】[0007]

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して詳細に説明する。
Next, embodiments of the present invention will be described in detail with reference to the drawings.

【0008】本発明の第1の実施の形態を示す図1を参
照すると、演算処理装置(以下、EPUという。)1お
よび2はソフトウェア命令を逐次実行し、システム制御
装置(以下、SCUという。)15および16はEPU
1および2や入出力処理装置(IOP、図示せず)等か
らの要求によりMMU3に対してデータの読み込みおよ
び書き込み等を行う。
Referring to FIG. 1 showing a first embodiment of the present invention, arithmetic processing units (hereinafter, referred to as EPUs) 1 and 2 sequentially execute software instructions and execute a system control unit (hereinafter, referred to as SCU). ) 15 and 16 are EPU
It reads and writes data to and from the MMU 3 in response to requests from 1 and 2 and an input / output processing device (IOP, not shown).

【0009】診断制御処理装置(以下、DGPとい
う。)4はEPU1および2、SCU15および16、
ならびにMMU3の障害検出や障害情報の採取を行い、
通信処理機構14と障害処理機構13とを備えている。
The diagnostic control processor (hereinafter, referred to as DGP) 4 includes EPUs 1 and 2, SCUs 15 and 16,
In addition, the MMU3 detects failures and collects failure information.
A communication processing mechanism 14 and a failure processing mechanism 13 are provided.

【0010】通信処理機構14は診断パス40とDGP
4とのインタフェースを制御し、診断パス40に接続さ
れている装置からの通知を受けて障害処理機構13の起
動を行う。
[0010] The communication processing unit 14 is connected to the diagnostic path 40 and the DGP.
4 and activates the fault handling mechanism 13 in response to a notification from a device connected to the diagnostic path 40.

【0011】図2(c)に示されるように、障害処理機
構13は障害情報判定手段29と、装置構成情報テーブ
ル参照/更新手段30と、障害情報採取手段31と、E
MA再起動指示手段32とを備える。障害処理機構13
は通信処理機構14からの通知により障害情報判定手段
29と装置構成情報テーブル参照/更新手段30と障害
情報採取手段31とEMA再起動指示手段32とを起動
する。
As shown in FIG. 2C, the failure handling mechanism 13 includes a failure information determination unit 29, a device configuration information table reference / update unit 30, a failure information collection unit 31,
MA restart instructing means 32. Failure handling mechanism 13
Starts the failure information determination unit 29, the device configuration information table reference / update unit 30, the failure information collection unit 31, and the EMA restart instruction unit 32 according to the notification from the communication processing unit 14.

【0012】障害情報判定手段29は通信処理機構14
からの通知により障害の種類を判定する。
The failure information judging means 29 is a communication processing unit 14
The type of the failure is determined based on the notification from.

【0013】装置構成情報テーブル参照/更新手段30
は装置構成情報テーブル12の参照または更新を行う。
Device configuration information table reference / update means 30
Performs reference or update of the device configuration information table 12.

【0014】障害情報採取手段31は障害情報の採取処
理を行う。
The fault information collecting means 31 performs a process of collecting fault information.

【0015】EMA再起動指示手段32はEMA5およ
び6内のEMA診断機構19および20へEMA再起動
処理の指示を行う。
The EMA restart instruction means 32 instructs the EMA diagnosis mechanisms 19 and 20 in the EMAs 5 and 6 to perform EMA restart processing.

【0016】EMA5および6はEPU1および2から
の要求により、MMU3とEMU7との間のデータ転送
を行うものであって、EMA診断機構19および20と
EMA再起動機構21および22とを備えている。
The EMAs 5 and 6 perform data transfer between the MMU 3 and the EMU 7 in response to a request from the EPUs 1 and 2, and are provided with EMA diagnostic mechanisms 19 and 20 and EMA restart mechanisms 21 and 22. .

【0017】EMA診断機構19および20は診断パス
40とEMA5および6とのインタフェースを制御し、
EMA障害の検出とその種類、障害発生箇所の判定を行
う。
EMA diagnostic mechanisms 19 and 20 control the interface between diagnostic path 40 and EMAs 5 and 6,
The EMA fault is detected and its type and fault occurrence location are determined.

【0018】EMA再起動機構21および22はDGP
4により起動され、EMA再起動処理を行い、EMA再
起動が完了するとEMA診断機構19および20を通し
てDGP4に割り込み通知する。
The EMA restart mechanisms 21 and 22 are DGP
4 and performs EMA restart processing. When the EMA restart is completed, an interrupt notification is sent to the DGP 4 through the EMA diagnostic mechanisms 19 and 20.

【0019】診断パス40は各装置の障害情報をDGP
4に通知するための経路である。
The diagnostic path 40 stores the failure information of each device in the DGP
4 is a route for notifying the user.

【0020】MMU3に記憶された装置構成情報テーブ
ル12はシステムに接続されている装置の状態を示すテ
ーブルであり、システムでMMU3上にのみ存在する。
The device configuration information table 12 stored in the MMU 3 is a table indicating the status of the devices connected to the system, and exists only on the MMU 3 in the system.

【0021】EPU1および2内の割り込み制御機構8
および9はDGP4からの割り込み通知により、EMU
転送機構10および11を起動する。
Interrupt control mechanism 8 in EPUs 1 and 2
And 9 are the EMU by the interrupt notification from DGP4.
Activate the transfer mechanisms 10 and 11.

【0022】図2(a)および(b)に示されるよう
に、EMU転送機構10および11は装置構成情報テー
ブル参照/更新手段23および24と、EMA状態判定
手段25および26と、EMU転送リクエスト発行手段
27および28とを備えている。
As shown in FIGS. 2A and 2B, the EMU transfer mechanisms 10 and 11 are provided with device configuration information table reference / update means 23 and 24, EMA state determination means 25 and 26, and an EMU transfer request. Issuing means 27 and 28.

【0023】装置構成情報テーブル参照/更新手段23
および24は装置構成情報テーブル12の参照または更
新を行う。
Device configuration information table reference / update means 23
And 24 refer to or update the device configuration information table 12.

【0024】EMA状態判定手段25および26は装置
構成情報テーブル12の内容によりEMAの装置状態を
判定する。
The EMA state determination means 25 and 26 determine the EMA apparatus state based on the contents of the apparatus configuration information table 12.

【0025】EMU転送リクエスト発行手段27および
28はEMAに対して転送リクエストを発行する。
The EMU transfer request issuing means 27 and 28 issue a transfer request to the EMA.

【0026】EPU診断装置17および18はEPU1
および2と診断パス40とのインタフェースを制御し、
EPU障害の検出とその種類、障害発生箇所の判定を行
う。
The EPU diagnostic devices 17 and 18 are connected to the EPU 1
And 2 and the interface between the diagnostic path 40 and
EPU failure is detected and its type and failure location are determined.

【0027】通信パス41はEPU1および2とMMU
3とEMA5および6との間のデータを転送する経路で
ある。
The communication path 41 includes the EPUs 1 and 2 and the MMU.
3 is a path for transferring data between the EMAs 5 and 6.

【0028】次に、本発明の実施の形態の動作について
説明する。
Next, the operation of the embodiment of the present invention will be described.

【0029】ソフトウェア(OS)が発行するEMU同
期転送命令はEPU1で実行され、EMU転送機構10
を起動する。ここで、図3を参照すると、EMU転送機
構10内の装置構成情報テーブル参照/更新手段23は
装置構成情報テーブル12の各EMAの装置情報を参照
して(ステップ−D1)、EMA状態判定手段25が各
EMAの使用の可否を調べ(ステップ−D2)、即ちに
使用可能なEMAがある場合には、構成情報テーブル参
照/更新手段23が装置構成情報テーブル12の当該E
MAの装置情報を「使用中」に更新し(ステップ−D
3)、転送リクエスト発行手段27がシステム制御装置
15を介して通信パス40経由で転送リクエストを発行
する(ステップ−D4)。リクエストを受けた当該EM
AはEMU7とMMU3またはIOPとのデータ転送を
開始する。
The EMU synchronous transfer command issued by the software (OS) is executed by the EPU 1 and the EMU transfer mechanism 10
Start Here, referring to FIG. 3, the device configuration information table referring / updating unit 23 in the EMU transfer mechanism 10 refers to the device information of each EMA in the device configuration information table 12 (step-D1), and the EMA state determination unit 25 checks whether or not each EMA can be used (step-D2). That is, if there is an available EMA, the configuration information table referring / updating unit 23 checks the E of the device configuration information table 12 for the EMA.
Update the MA device information to “in use” (step-D
3), the transfer request issuing means 27 issues a transfer request via the communication path 40 via the system controller 15 (step-D4). The EM that received the request
A starts data transfer between EMU 7 and MMU 3 or IOP.

【0030】一方、即ちに使用可能な状態にあるEMA
がなかった場合には、EMA状態判定手段25が、各E
MAが他のEPU2で使用中かどうか調べ(ステップ−
D5)、使用中ならばEMU転送機構10および11の
処理の始めに戻る。
On the other hand, EMA in a usable state
If there is no, the EMA state determination means 25
Check whether the MA is in use by another EPU2 (step-
D5) If in use, return to the beginning of the processing of EMU transfer mechanisms 10 and 11.

【0031】一方、あるEMAが他のEPU2で使用中
でなかった場合には、EMA状態判定手段25が当該E
MAが再起動中であるか調べ(ステップ−D6)、再起
動中である場合には構成情報テーブル参照/更新手段2
3が装置構成情報テーブル12の当該EMAの装置情報
を参照し、当該EMAの再起動が完了し当該EMAが使
用可能になるまで待ち合わせてから、転送リクエスト発
行手段27がシステム制御装置15を介して通信パス4
1経由で転送リクエストを発行する(ステップ−D7,
D8およびD9)。
On the other hand, if a certain EMA is not being used by another EPU 2, the EMA state determination means 25 sets
It is checked whether the MA is restarting (step D6). If the MA is restarting, the configuration information table reference / update means 2
3 refers to the device information of the EMA in the device configuration information table 12, waits until the restart of the EMA is completed and the EMA becomes usable, and then the transfer request issuing unit 27 sends the request via the system control device 15. Communication path 4
Issue a transfer request via Step 1 (Step-D7,
D8 and D9).

【0032】一方、EMAが再起動中でない場合には使
用可能なEMAが無いので転送命令が異常終了したこと
をOSに通知する(ステップ−D10)。
On the other hand, if the EMA is not being restarted, there is no usable EMA, and the OS is notified that the transfer command has been abnormally terminated (step D10).

【0033】EMA診断機構19および20はEMA障
害を検出すると障害情報を採取した後、DGP4に対し
てEMA障害が発生したことを診断パス40を経由して
割り込み通知する。DGP4内の通信処理機構14はE
MA診断機構19または20からの障害通知を受け取り
障害処理機構13を起動する。
Upon detecting an EMA failure, the EMA diagnostic mechanisms 19 and 20 collect failure information, and notify the DGP 4 of the occurrence of the EMA failure via the diagnostic path 40 as an interrupt. The communication processing mechanism 14 in the DGP 4
Upon receiving a failure notification from the MA diagnosis mechanism 19 or 20, the failure processing mechanism 13 is activated.

【0034】図4を参照すると、障害処理機構13にお
いては、装置構成情報テーブル参照/更新手段30が装
置構成情報テーブル12のEMAの装置情報を参照する
(ステップ−C1)。障害情報判定手段29はEMAの
障害であるかどうかを調べる(ステップ−C2)。EM
Aの障害である場合には、当該EMAの障害情報を障害
情報採取手段31がEMA診断機構19または20から
採取する(ステップ−C3)。装置構成情報テーブル参
照/更新手段30は装置構成情報テーブル12の当該E
MAの装置情報を「使用中」から「再起動中」に変更す
る(ステップ−C4)。EMA再起動指示手段32は当
該EMAのEMA診断機構に対して再起動指示を行う
(ステップ−C5)。一方、EMAの障害でない場合に
は、EMA再起動完了の通知かどうか調べ(ステップ−
C6)、再起動完了の通知ならば装置構成情報テーブル
参照/更新手段30が装置構成情報テーブル12の当該
EMAの装置状態を「再起動中」から「使用可」に変更
する(ステップ−C7)。EMA再起動完了の通知でな
ければ、他の障害処理に移る。
Referring to FIG. 4, in the failure handling mechanism 13, the device configuration information table reference / update means 30 refers to the EMA device information in the device configuration information table 12 (step-C1). The failure information determination means 29 checks whether or not the failure is an EMA failure (step-C2). EM
If the fault is A, the fault information collecting means 31 collects the fault information of the EMA from the EMA diagnostic mechanism 19 or 20 (step-C3). The device configuration information table referring / updating unit 30 stores the E in the device configuration information table 12.
The device information of the MA is changed from “in use” to “restarting” (step-C4). The EMA restart instruction means 32 issues a restart instruction to the EMA diagnostic mechanism of the EMA (step-C5). On the other hand, if it is not a failure of the EMA, it is checked whether it is a notification of the completion of the EMA restart (step-
C6) If the notification is the completion of the restart, the device configuration information table reference / update means 30 changes the device status of the EMA in the device configuration information table 12 from "restarting" to "usable" (step-C7). . If it is not the notification of the completion of the EMA restart, the processing shifts to another failure processing.

【0035】EMA診断機構19または20はDGP4
からのEMA再起動指示を受けるとEMA再起動機構2
1または22の起動を行う。EMA再起動機構21また
は22はEMAの再起動処理を行い再起動が完了する
と、EMA診断機構19または20によりDGP4にE
MA再起動が完了したことを診断パス40を経由して割
り込み通知する。
The EMA diagnostic mechanism 19 or 20 is a DGP4
EMA restart mechanism 2 upon receiving an EMA restart instruction from
1 or 22 is started. The EMA restart mechanism 21 or 22 performs EMA restart processing, and when the restart is completed, the EMA diagnostic mechanism 19 or 20 sends the EGP to the DGP 4.
An interrupt notification is sent via the diagnostic path 40 that the MA restart has been completed.

【0036】次に本発明の実施の形態の動作について図
3,図4および図5を参照してさらに詳細に説明する。
Next, the operation of the embodiment of the present invention will be described in more detail with reference to FIGS. 3, 4 and 5.

【0037】OS(ソフトウェア)がEMU同期転送命
令を発行し(シーケンス−A1)、これがEPU1で実
行された場合、EMU転送機構10はEMA5が使用可
能であると判断してEMA5に対してEMU転送リクエ
ストを発行する(シーケンス−A2、ステップ−D1か
らD4)。
When the OS (software) issues an EMU synchronous transfer instruction (sequence-A1), and this is executed by the EPU1, the EMU transfer mechanism 10 determines that the EMA5 is usable and transfers the EMU to the EMA5. A request is issued (sequence-A2, steps-D1 to D4).

【0038】転送リクエストを受けたEMA5はEMU
データ転送を開始するが、ここでEMA5に障害が発生
した場合、EMA5のEMA診断機構19はDGP4に
障害の発生を割り込みにより通知し、さらに、EPU1
にも転送が失敗したことを通知する(シーケンス−A
3)。
EMA5 which received the transfer request is EMU
Data transfer is started. If a failure occurs in the EMA 5, the EMA diagnosis mechanism 19 of the EMA 5 notifies the DGP 4 of the occurrence of the failure by interruption, and furthermore, the EPU 1
Also notifies that the transfer has failed (sequence-A
3).

【0039】EMA5のEMA診断機構19からの通知
を受けたDGP4は障害処理機構13を起動する。障害
処理機構13内の装置構成情報テーブル参照/更新手段
30は装置構成情報テーブル12のEMA5の装置情報
を参照する(ステップ−C1)。障害情報判定手段29
はEMA診断機構19からの通知内容によりEMAの障
害であるかどうかを調べる(ステップ−C2)。EMA
の障害である場合には、EMA5の障害情報を障害情報
採取手段31がEMA診断機構19から採取し(ステッ
プ−C3)、装置構成情報テーブル参照/更新手段30
が装置構成情報テーブル12のEMA5の装置情報を
「使用中」から「再起動中」に変更する(ステップ−C
4)。EMA再起動指示手段32はEMA5のEMA診
断機構19に対して再起動指示を行う(ステップ−C
5、シーケンス−A4)。
The DGP 4 that has received the notification from the EMA diagnosis mechanism 19 of the EMA 5 activates the failure processing mechanism 13. The device configuration information table reference / update means 30 in the failure processing mechanism 13 refers to the device information of the EMA5 in the device configuration information table 12 (step-C1). Failure information determination means 29
Checks whether there is an EMA failure based on the notification content from the EMA diagnosis mechanism 19 (step-C2). EMA
In the case of the fault, the fault information collecting means 31 collects the fault information of the EMA 5 from the EMA diagnostic mechanism 19 (step-C3), and refers to the device configuration information table / update means 30.
Changes the device information of the EMA 5 in the device configuration information table 12 from “in use” to “restarting” (step-C).
4). The EMA restart instruction means 32 issues a restart instruction to the EMA diagnosis mechanism 19 of the EMA 5 (step-C).
5, Sequence-A4).

【0040】EPU1はEMA5からの転送失敗の通知
を受け、OS(ソフトウェア)に同期転送命令が異常終
了したことを報告する(シーケンス−A5)。
The EPU 1 receives the transfer failure notification from the EMA 5 and reports to the OS (software) that the synchronous transfer command has been abnormally terminated (sequence-A 5).

【0041】OS(ソフトウェア)は同期転送命令が異
常終了したため、再度、同期転送命令を発行する(以
下、ソフトウェアリトライ)(シーケンス−A6)。
The OS (software) issues a synchronous transfer instruction again (hereinafter, software retry) (sequence-A6) because the synchronous transfer instruction has been abnormally terminated.

【0042】ソフトウェアリトライにより、EMU同期
転送命令が再発行されると、EMU転送機構10内の装
置構成情報テーブル参照/更新手段23が使用可能なE
MAがないか調べるがEMA5は再起動中、EMA6は
故障中のため、EMA5の再起動が終了するまでEMU
転送リクエストの発行を待ち合わせる(ステップ−D
1,D2,D5,D6,D7,D8、シーケンス−A
7)。
When the EMU synchronous transfer command is reissued by software retry, the device configuration information table reference / update means 23 in the EMU transfer mechanism 10 can use the E
Check for MA, but EMA5 is restarting and EMA6 is out of order.
Wait for the transfer request to be issued (Step-D
1, D2, D5, D6, D7, D8, sequence-A
7).

【0043】EMA再起動機構21はEMA5の再起動
処理を行い、再起動が完了すると、EMA診断機構19
がDGP4にEMA再起動の完了を診断パス40を経由
して割り込み通知する(シーケンス−A8)。
The EMA restart mechanism 21 performs a restart process of the EMA 5, and when the restart is completed, the EMA diagnostic mechanism 19
Notifies the DGP 4 of the completion of the EMA restart via the diagnostic path 40 (sequence-A8).

【0044】EMA診断機構19より通知を受けた通信
処理機構14は障害処理機構13を起動し、障害処理機
構13内の装置構成情報テーブル参照/更新手段30が
装置構成情報テーブル12の装置情報を参照し(ステッ
プ−C1)、障害情報判定手段29が障害の種類を判
定、EMAの障害であるかどうかを調べ(ステップ−C
2)、EMA5からの再起動完了の通知であることを判
定すると(ステップ−C6)、装置構成情報テーブル参
照/更新手段30が装置構成情報テーブル12のEMA
5の装置状態を「再起動中」から「使用可」に変更する
(ステップ−C6、シーケンス−A9)。
The communication processing unit 14 that has received the notification from the EMA diagnosis unit 19 activates the failure processing unit 13, and the device configuration information table reference / update unit 30 in the failure processing unit 13 reads the device information of the device configuration information table 12. With reference to (Step-C1), the failure information determining means 29 determines the type of the failure and checks whether the failure is an EMA failure (Step-C1).
2) When it is determined that the notification is the restart completion notification from the EMA 5 (step-C6), the device configuration information table reference / update unit 30 causes the EMA of the device configuration information table 12 to be updated.
The device status of No. 5 is changed from "restarting" to "usable" (step-C6, sequence-A9).

【0045】EMU転送機構10内の装置構成情報テー
ブル参照/更新手段23は装置構成情報テーブル12の
EMAの装置状態を参照し、EMA5の再起動が完了し
EMA5が使用可になるまで処理を待ち合わせている
が、EMA5が使用可能状態になったため、転送リクエ
スト発行手段27がシステム制御装置を介して通信パス
経由で転送リクエストを発行する(ステップ−D7,D
8およびD9、シーケンス−A10)。
The device configuration information table reference / update means 23 in the EMU transfer mechanism 10 refers to the EMA device status in the device configuration information table 12 and waits for processing until the restart of the EMA 5 is completed and the EMA 5 becomes usable. However, since the EMA 5 has become available, the transfer request issuing means 27 issues a transfer request via the communication path via the system controller (steps-D7, D7).
8 and D9, sequence-A10).

【0046】転送リクエストを受けたEMA5はEMU
転送を開始し、転送が終了するとEPUに転送が終了し
たことを通知する(シーケンス−A11)。
EMA5 receiving the transfer request is EMU
The transfer is started, and when the transfer is completed, the EPU is notified that the transfer is completed (sequence-A11).

【0047】EPUはEMA5からの通知により、EM
Uデータ転送が終了したことをソフトウェア(OS)に
通知する(シーケンス−A12)。
The EPU receives the notification from the EMA 5 and
The software (OS) is notified that the U data transfer has been completed (sequence-A12).

【0048】[0048]

【発明の効果】本発明の効果は、障害等によりEMAが
1台になってしまったシステム構成時に、EMAの間欠
故障によりEMU同期転送が失敗した場合、ソフトウェ
アを変更することなくEMU閉塞障害の救済度を向上で
きるということである。
The effect of the present invention is that when an EMU synchronous transfer fails due to an intermittent failure of the EMA in a system configuration in which the number of EMAs becomes one due to a failure or the like, the EMU blocking failure can be performed without changing the software. That is, the degree of relief can be improved.

【0049】その理由は、EMA間欠障害の時は該EM
Aの再起動を行い、該EMAがシステムで唯一のEMA
であった場合は該EMAの再起動が完了するまで、EM
U転送処理をEPUで待ち合わせるためである。
The reason is that when an EMA intermittent failure occurs, the EM
A restart and the EMA is the only EMA in the system
If, the EM is restarted until the restart of the EMA is completed.
This is to wait for the U transfer process in the EPU.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態を示すブロック図である。FIG. 1 is a block diagram showing an embodiment of the present invention.

【図2】図1における各部の詳細を示すブロック図であ
る。
FIG. 2 is a block diagram showing details of each unit in FIG. 1;

【図3】本発明におけるEPUのEMU転送機構の動作
を表すフローチャートである。
FIG. 3 is a flowchart illustrating an operation of an EMU transfer mechanism of the EPU according to the present invention.

【図4】本発明におけるDGPの障害処理機構の動作を
表すフローチャートである。
FIG. 4 is a flowchart showing the operation of a DGP failure handling mechanism according to the present invention.

【図5】本発明における障害処理の一例を示すEMU同
期転送動作シーケンス図である。
FIG. 5 is an EMU synchronous transfer operation sequence diagram showing an example of a failure process according to the present invention.

【符号の説明】 1〜2 演算処理装置(EPU) 3 主記憶装置(MMU) 4 診断処理装置(DGP) 5〜6 拡張記憶接続機構(EMA) 7 拡張記憶装置(EMU) 8〜9 割り込み制御機構 10〜11 EMU転送機構 12 装置構成情報テーブル 13 障害処理機構 14 通信処理機構 15〜16 システム制御装置(SCU) 17〜18 EPU診断装置 19〜20 EMA診断機構 21〜22 EMA再起動機構 40 診断パス 41 通信パス 10〜11 EMU転送機構 23〜24 装置構成情報テーブル参照/更新手段 25〜26 EMA状態判定手段 27〜28 転送リクエスト発行手段 29 障害情報判定手段 30 装置構成情報テーブル参照/更新手段 31 障害情報採取手段 32 EMA再起動指示手段[Description of Signs] 1-2 arithmetic processing unit (EPU) 3 main storage unit (MMU) 4 diagnostic processing unit (DGP) 5-6 extended storage connection mechanism (EMA) 7 extended storage unit (EMU) 8-9 interrupt control Mechanisms 10 to 11 EMU transfer mechanism 12 Device configuration information table 13 Fault handling mechanism 14 Communication processing mechanism 15 to 16 System control unit (SCU) 17 to 18 EPU diagnostic device 19 to 20 EMA diagnostic mechanism 21 to 22 EMA restart mechanism 40 Diagnosis Path 41 Communication path 10-11 EMU transfer mechanism 23-24 Device configuration information table reference / update unit 25-26 EMA state determination unit 27-28 Transfer request issuance unit 29 Failure information determination unit 30 Device configuration information table reference / update unit 31 Fault information collecting means 32 EMA restart instruction means

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 主記憶装置と、 拡張記憶装置と、 前記主記憶装置と前記拡張記憶装置との間のデータ転送
を制御する拡張記憶接続機構と、 演算処理装置と、 前記演算処理装置による拡張記憶装置同期転送命令実行
中に前記拡張記憶接続機構の障害が発生した場合、前記
演算処理装置のオペレーティングシステムに前記障害の
発生を通知する障害報告手段と、 前記障害の発生に応答して前記拡張記憶接続機構を再起
動する再起動手段と、 前記拡張記憶接続機構が再起動動作中の場合には前記オ
ペレーティングシステムからのリトライ指示による命令
のリトライ処理の実行を前記再起動動作の完了まで待た
せる待ち合せ手段とを備えたことを特徴とする障害処理
システム。
A main storage device, an extended storage device, an extended storage connection mechanism for controlling data transfer between the main storage device and the extended storage device, an arithmetic processing device, and expansion by the arithmetic processing device. A failure reporting unit for notifying the operating system of the arithmetic processing unit of the occurrence of the failure when a failure of the extended storage connection mechanism occurs during execution of the storage device synchronous transfer instruction; and Restart means for restarting a storage connection mechanism; and when the extended storage connection mechanism is in a restart operation, causing the execution of a retry process of an instruction in response to a retry instruction from the operating system to wait until the restart operation is completed. A fault handling system comprising a waiting means.
【請求項2】 前記拡張記憶接続機構を複数含み、 前記再起動手段は、前記複数の拡張記憶接続機構の状態
を調査しこの調査結果に基づき前記再起動を行なうこと
を特徴とする請求項1記載の障害処理システム。
2. The system according to claim 1, further comprising a plurality of said extended storage connection mechanisms, wherein said restarting means examines a state of said plurality of extended storage connection mechanisms and performs said restart based on a result of the investigation. Fault handling system as described.
【請求項3】 演算処理装置とオペレーティングシステ
ムとを含み、主記憶装置と拡張記憶装置との間のデータ
転送の制御を拡張記憶接続機構により行なう計算機シス
テムにおいて、 前記演算処理装置による拡張記憶装置同期転送命令実行
中に前記拡張記憶接続機構の障害が発生した場合、前記
演算処理装置の前記オペレーティングシステムに前記障
害の発生を通知する障害報告ステップと、 前記障害の発生に応答して前記拡張記憶接続機構を再起
動する再起動ステップと、 前記拡張記憶接続機構が再起動動作中の場合には前記オ
ペレーティングシステムからのリトライ指示による命令
のリトライ処理の実行を前記再起動動作の完了まで待た
せる待ち合せステップとを含むことを特徴とする障害処
理方法。
3. A computer system including an arithmetic processing unit and an operating system, wherein control of data transfer between a main storage device and an extended storage device is performed by an extended storage connection mechanism. A failure reporting step of notifying the operating system of the arithmetic processing unit of the occurrence of the failure when a failure of the extended storage connection mechanism occurs during execution of the transfer instruction; and A restarting step of restarting a mechanism; and a waiting step of, when the extended storage connection mechanism is performing a restarting operation, waiting for completion of the restarting operation until execution of a retry process of an instruction according to a retry instruction from the operating system is completed. And a failure handling method.
JP8198811A 1996-07-29 1996-07-29 System and method for processing fault Pending JPH1049394A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8198811A JPH1049394A (en) 1996-07-29 1996-07-29 System and method for processing fault

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8198811A JPH1049394A (en) 1996-07-29 1996-07-29 System and method for processing fault

Publications (1)

Publication Number Publication Date
JPH1049394A true JPH1049394A (en) 1998-02-20

Family

ID=16397312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8198811A Pending JPH1049394A (en) 1996-07-29 1996-07-29 System and method for processing fault

Country Status (1)

Country Link
JP (1) JPH1049394A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091434A (en) * 2015-11-17 2017-05-25 Necプラットフォームズ株式会社 Information processing device, extension storage control method and extension storage control program
JP2020062250A (en) * 2018-10-18 2020-04-23 株式会社ユニバーサルエンターテインメント Game machine

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017091434A (en) * 2015-11-17 2017-05-25 Necプラットフォームズ株式会社 Information processing device, extension storage control method and extension storage control program
JP2020062250A (en) * 2018-10-18 2020-04-23 株式会社ユニバーサルエンターテインメント Game machine

Similar Documents

Publication Publication Date Title
JP2552651B2 (en) Reconfigurable dual processor system
US20080109576A1 (en) Data Transfer Apparatus, Storage Device Control Apparatus and Control Method Using Storage Device Control Apparatus
JP2009211517A (en) Virtual computer redundancy system
JPH0950424A (en) Dump sampling device and dump sampling method
US5983359A (en) Processor fault recovering method for information processing system
EP0477385B1 (en) Method of resetting adapter module at failing time and computer system executing said method
US20200401442A1 (en) Information processor, method for controlling information processor, and non-transitory computer-readable storage medium for storing control program for information processor
JPH1049394A (en) System and method for processing fault
JP2823230B2 (en) How to continue processing
JP2814988B2 (en) Failure handling method
JP2002244885A (en) Computer system monitoring system
JP2730209B2 (en) I / O control method
JP2679575B2 (en) I / O channel fault handling system
JPH10222388A (en) Hot standby method for parallel computer
JP3346670B2 (en) Central processing unit switching method and switching system
JPS6239789B2 (en)
JPH0573344A (en) Computer system
JP3316739B2 (en) Device interface control method
JPS6228841A (en) Input/output processor
JP2909128B2 (en) Startup processing takeover processor
JPH103384A (en) Information processing system
JPH0520049A (en) Information processing system with correcting function for control memory and correcting method for control memory
JPH0370030A (en) Configuration control system
JPS63197258A (en) Input/output processor
JPH0756874A (en) Multiple processor system and restarting method for fault occurring time

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19991124