JP5954420B2 - Connection device and monitoring method - Google Patents

Connection device and monitoring method Download PDF

Info

Publication number
JP5954420B2
JP5954420B2 JP2014532624A JP2014532624A JP5954420B2 JP 5954420 B2 JP5954420 B2 JP 5954420B2 JP 2014532624 A JP2014532624 A JP 2014532624A JP 2014532624 A JP2014532624 A JP 2014532624A JP 5954420 B2 JP5954420 B2 JP 5954420B2
Authority
JP
Japan
Prior art keywords
failure
iop
alive
bit
access
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014532624A
Other languages
Japanese (ja)
Other versions
JPWO2014033847A1 (en
Inventor
一良 宮澤
一良 宮澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of JP5954420B2 publication Critical patent/JP5954420B2/en
Publication of JPWO2014033847A1 publication Critical patent/JPWO2014033847A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs

Description

本発明は、接続装置、及び監視方法に関する。   The present invention relates to a connection device and a monitoring method.

メインフレームをはじめとする情報処理システムには、システム内の一部の装置やパス等が故障してもシステムダウンとならないような耐障害性が要求されることがある。
図10は、情報処理システム100の構成例を示す図である。図10に示すように、情報処理システム100は、2つのCPU(Central Processing Unit)200−1及び200−2、並びに2つのメモリ装置(Memory Storage;以下、MSという)300−1及び300−2を有する。また、情報処理システム100は、システム制御装置(System Controller;以下、SCという)400を有する。CPU200−1及び200−2、並びにMS300−1及び300−2は、それぞれSC400に接続され、冗長化されている。この構成により、情報処理システム100は、CPU200−1、200−2、MS300−1、又は300−2に障害が発生した場合、障害個所を切り離すことでシステムダウンを回避することができる。なお、以下、MS300−1及び300−2を区別しない場合には、単にMS300という。
An information processing system such as a mainframe may be required to have fault tolerance so that the system does not go down even if some devices or paths in the system fail.
FIG. 10 is a diagram illustrating a configuration example of the information processing system 100. As shown in FIG. 10, the information processing system 100 includes two CPUs (Central Processing Units) 200-1 and 200-2, and two memory devices (hereinafter referred to as MSs) 300-1 and 300-2. Have The information processing system 100 includes a system controller (hereinafter referred to as SC) 400. The CPUs 200-1 and 200-2 and the MSs 300-1 and 300-2 are connected to the SC 400 and redundant. With this configuration, when a failure occurs in the CPU 200-1, 200-2, MS 300-1, or 300-2, the information processing system 100 can avoid a system down by separating the failure portion. Hereinafter, when MS 300-1 and 300-2 are not distinguished, they are simply referred to as MS 300.

また、図10に示すように、情報処理システム100は、2つの入出力処理装置(Input Output Processor;以下、IOPという)500−1及び500−2、並びに2つのブリッジ装置(BRidge;以下、BRという)600−1及び600−2を有する。さらに、情報処理システム100は、4つのチャネル装置(CHannel;以下、CHという)700−1〜700−4、並びに2つの入出力装置(Input Output;以下、IOという)800−1及び800−2を有する。なお、図10及び後述する図11において、IOP500−1及び500−2はそれぞれIOP#0及び#1と表記し、CH700−1〜700−4はそれぞれCH#0〜#3と表記する場合がある。   As shown in FIG. 10, the information processing system 100 includes two input / output processing devices (Input Output Processors; hereinafter referred to as IOP) 500-1 and 500-2, and two bridge devices (BRidges; hereinafter referred to as BR). 600-1 and 600-2. Further, the information processing system 100 includes four channel devices (hereinafter referred to as CH) 700-1 to 700-4, and two input / output devices (hereinafter referred to as IO) 800-1 and 800-2. Have In FIG. 10 and FIG. 11 described later, IOPs 500-1 and 500-2 may be expressed as IOP # 0 and # 1, respectively, and CH700-1 to 700-4 may be expressed as CH # 0 to # 3, respectively. is there.

IOP500−1は、SC400、BR600−1を経由してCH700−1及び700−2を制御し、IOP500−2は、SC400、BR600−2を経由してCH700−3及び700−4を制御する。また、CH700−1及び700−3は、IO800−1に接続され、MS300とIO800−1との間のデータ転送を制御し、CH700−2及び700−4は、IO800−2に接続され、MS300とIO800−2との間のデータ転送を制御する。   The IOP 500-1 controls the CHs 700-1 and 700-2 via the SC 400 and the BR 600-1, and the IOP 500-2 controls the CHs 700-3 and 700-4 via the SC 400 and the BR 600-2. The CHs 700-1 and 700-3 are connected to the IO 800-1, and control data transfer between the MS 300 and the IO 800-1, and the CHs 700-2 and 700-4 are connected to the IO 800-2. And control data transfer between IO 800-2.

情報処理システム100においては、CPU200−1又は200−2は、IOアクセスが発生した場合、IOP500−1又は500−2にIO命令を渡して、IO800−1又は800−2へのIOアクセスを実行させる。IOP500−1及び500−2は、例えばIO800−1へアクセスするために、IOP500−1、CH700−1、IO800−1のパス(系列)、及び、IOP500−2、CH700−3、IO800−1のパス(系列)の2つのパスを用いることができる。これにより、情報処理システム100は、IO系についても複数パスで構成されるため、一方のパスが故障しても、もう一方のパスが正常であればシステムダウンを回避して動作を継続することができる。   In the information processing system 100, when an IO access occurs, the CPU 200-1 or 200-2 passes an IO command to the IOP 500-1 or 500-2 and executes the IO access to the IO 800-1 or 800-2. Let For example, in order to access the IO 800-1, the IOPs 500-1 and 500-2 have a path (series) of the IOP 500-1, CH 700-1, and IO 800-1, and the IOP 500-2, CH 700-3, and IO 800-1. Two paths (series) can be used. As a result, the information processing system 100 is configured with a plurality of paths for the IO system, so even if one path fails, if the other path is normal, the system down is avoided and the operation is continued. Can do.

図10に示す情報処理システム100では、システム内の装置やパス等が故障した場合に、故障個所を早期に検出し、故障していない正常なパスを用いるアクセスに切り替えることが重要である。
関連する技術として、システム内の装置やパス等の故障を検出するために、システム内の2つの装置が、メモリを介して相手装置の生存を相互に監視する手法が知られている(例えば、特許文献1及び特許文献2参照)。
In the information processing system 100 shown in FIG. 10, when a device or path in the system fails, it is important to detect the failure part at an early stage and switch to access using a normal path that does not fail.
As a related technique, in order to detect a failure such as a device or a path in the system, a method in which two devices in the system mutually monitor the survival of the partner device via a memory is known (for example, (See Patent Document 1 and Patent Document 2).

図11は、装置間の相互監視の手順の一例を示す図である。図11に示すように、情報処理システム100のIO系のパスを構成する第1の装置(IOP#0及び#1)、並びに第2の装置(CH700#0〜#4)は、MS300を介して相手装置の生存を相互に監視する。なお、MS300は、CH#0〜#3ごとに、領域1及び領域2の記憶領域を備える。   FIG. 11 is a diagram illustrating an example of a mutual monitoring procedure between apparatuses. As shown in FIG. 11, the first devices (IOP # 0 and # 1) and the second devices (CH 700 # 0 to # 4) configuring the IO path of the information processing system 100 are connected via the MS 300. To monitor the other devices' survival. Note that the MS 300 includes storage areas of area 1 and area 2 for each of CH # 0 to CH3.

各装置による相互監視は、以下の(i)〜(vi)の手順により行なわれる。
(i)CH#0は、一定時間ごとに、MS300上の領域1を任意の値(例えば所定の値)に更新する。
(ii)CH#0は、一定時間ごとに、MS300上の領域2の値をフェッチし、前回フェッチした値と比較して不一致であることを確認する。なお、CH#0は、3回以上連続して前回フェッチした値と一致した値をフェッチした場合に、IOP#0がハングアップしているものとみなす。
Mutual monitoring by each device is performed by the following procedures (i) to (vi).
(I) CH # 0 updates the area 1 on the MS 300 to an arbitrary value (for example, a predetermined value) at regular time intervals.
(Ii) CH # 0 fetches the value of area 2 on the MS 300 at regular time intervals, and confirms that they are inconsistent compared with the previously fetched value. Note that CH # 0 considers that IOP # 0 is hung up when fetching a value that matches the value fetched last time three or more times consecutively.

(iii)CH#0以外のCH#1〜#3も、同様の制御を行なう。
(iv)IOP#0は、一定時間ごとに、CH#0の領域1の値と領域2の値とを比較して不一致であることを確認する。なお、IOP#0は、3回以上連続してCH#0の領域1の値と領域2の値とが一致している場合に、CH#0がハングアップしているものとみなす。
(Iii) The same control is performed for CH # 1 to CH3 other than CH # 0.
(Iv) The IOP # 0 compares the value of the region 1 of the CH # 0 with the value of the region 2 and confirms that they do not match at regular time intervals. Note that IOP # 0 considers that CH # 0 is hung up when the value of region 1 and the value of region 2 of CH # 0 match three or more times consecutively.

(v)IOP#0は、参照したCH#0の領域1の値をCH#0の領域2にストアする。
(vi)IOP#0は、CH#0以外のCH#1についても、CH#0と同様にチェックする。また、IOP#1は、CH#2及び#3について、IOP#0と同様のチェックを行なう。
(V) The IOP # 0 stores the value of the referenced region 1 of the CH # 0 in the region 2 of the CH # 0.
(Vi) IOP # 0 checks CH # 1 other than CH # 0 as well as CH # 0. In addition, IOP # 1 performs the same check on CH # 2 and # 3 as IOP # 0.

上記の(i)〜(vi)の手順を繰り返すことにより、IOP#0及び#1、並びにCH#0〜#3は、相互監視を実施する。このように、IOP#0及び#1、並びにCH#0〜#3は、MS300を定期的に更新することで、MS300の更新が実施されているか否かを監視し、相手装置の異常を検出する。   By repeating the above steps (i) to (vi), the IOPs # 0 and # 1 and the CHs # 0 to # 3 perform mutual monitoring. In this way, IOP # 0 and # 1, and CH # 0 to # 3 periodically update the MS 300 to monitor whether or not the MS 300 has been updated and detect an abnormality in the counterpart device. To do.

特開平2−206806号公報JP-A-2-206806 特開平9−128268号公報JP-A-9-128268

IOPは、複数のCHを制御するためにビジー率が非常に高い。従って、IOPには、様々な処理を効率良く短時間に行なうことが要求される。
しかしながら、図11に示す例では、IOP#0及び#1は、上記手順の(iv)〜(vi)において、MS300(領域1及び領域2)を参照しながら1CHずつチェックを行なう。つまり、IOP#0及び#1には、複数のCH#0〜#3の制御に要する処理負荷及び処理時間に加えて、相互監視のチェックに要する処理負荷及び処理時間が発生する。
IOP has a very high busy rate for controlling a plurality of CHs. Therefore, IOP is required to perform various processes efficiently and in a short time.
However, in the example shown in FIG. 11, IOPs # 0 and # 1 check each channel by referring to the MS 300 (region 1 and region 2) in (iv) to (vi) of the above procedure. That is, in IOP # 0 and # 1, in addition to the processing load and processing time required for control of the plurality of CH # 0 to # 3, processing load and processing time required for the mutual monitoring check are generated.

例えば情報処理システム100がメインフレーム等の大規模なシステムである場合には、CH数が非常に多くなるため、IOP#0及び#1において、チェックに要する処理負荷及び処理時間が増大してしまう。これにより、IOP#0及び#1のビジー率が高くなるとともに、ビジー状態の継続時間が長くなり、システムのパフォーマンスに影響を与えることになる。   For example, when the information processing system 100 is a large-scale system such as a mainframe, the number of CHs is very large, so that the processing load and processing time required for checking increase in IOPs # 0 and # 1. . As a result, the busy rates of IOPs # 0 and # 1 are increased, and the duration of the busy state is increased, which affects system performance.

また、図11に示す例では、CH#0〜#3は、上記手順の(i)〜(iii)において、BR600−1又は600−2、並びにSC400を介してMS300へアクセスを行なう。このとき、CH#0〜#3によるMS300へのアクセス及びチェックに要する処理負荷及び処理時間が発生する。さらに、CH数が多い場合には、CH#0〜#nによるMS300へのアクセスが発生するため、BR600−1又は600−2、並びにSC400における処理負荷も増加する。   In the example shown in FIG. 11, CHs # 0 to # 3 access the MS 300 via the BR 600-1 or 600-2 and the SC 400 in the above procedures (i) to (iii). At this time, a processing load and a processing time required for accessing and checking the MS 300 by CH # 0 to # 3 are generated. Furthermore, when the number of CHs is large, access to the MS 300 by CHs # 0 to #n occurs, so the processing load on the BR 600-1 or 600-2 and the SC 400 also increases.

このように、図11に示す例では、IOP#0及び#1、並びにCH#0〜#4の相互監視により、情報処理システム100の処理負荷が増大し、パフォーマンスを低下させるという問題がある。
1つの側面では、本発明は、第1の装置及び第2の装置による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することを目的とする。
As described above, in the example illustrated in FIG. 11, there is a problem in that the processing load of the information processing system 100 increases due to the mutual monitoring of the IOPs # 0 and # 1 and the CHs # 0 to # 4, thereby reducing the performance.
In one aspect, an object of the present invention is to realize mutual monitoring by a first device and a second device by simple control with a reduced processing load on the system.

本件の接続装置は、第1の装置と第2の装置との間に介設された接続装置であって、前記第1の装置によりアクセスされる第1ビット領域と、前記第2の装置によりアクセスされる第2ビット領域とを有するレジスタ部と、前記第1の装置からの前記第1ビット領域へのアクセスを検出すると、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに基づき、前記第1ビット領域の値を制御するとともに、前記第2の装置からの前記第2ビット領域へのアクセスを検出すると、前記値の組み合わせに基づき、前記第2ビット領域の値を制御する書込制御部と、前記第1及び第2の装置の各々による前記レジスタ部へのアクセスを監視し、監視結果と前記値の組み合わせとに基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出する検出部と、前記検出部により検出された前記一方の装置の障害の発生を、他方の装置へ通知する通知部と、を有する。 The connection device of the present invention is a connection device interposed between the first device and the second device, and includes a first bit area accessed by the first device , and the second device. A register unit having a second bit area to be accessed, and a value set in each of the first bit area and the second bit area upon detecting access to the first bit area from the first device; And controlling the value of the first bit area based on the combination of the values, and detecting the access to the second bit area from the second device, the value of the second bit area based on the combination of the values a write control unit for controlling, monitoring access to each by the register unit of the first and second devices, based on a combination of monitoring results and the value, the first and second Equipment It has a detecting unit for detecting that one of the one device fails, and the occurrence of a failure of the detection portion by said detected one device, a notification unit for notifying to the other device.

一実施形態によれば、第1の装置及び第2の装置による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することができる。   According to one embodiment, mutual monitoring by the first device and the second device can be realized by simple control that suppresses the processing load of the system.

一実施形態に係る情報処理システムの構成例を示す図である。It is a figure showing an example of composition of an information processing system concerning one embodiment. 一実施形態に係るブリッジ装置の構成例を示す図である。It is a figure which shows the structural example of the bridge | bridging apparatus which concerns on one Embodiment. 図2に示す書込制御部による相互監視レジスタの状態の制御の一例を説明する図である。FIG. 3 is a diagram illustrating an example of control of a state of a mutual monitoring register by a write control unit illustrated in FIG. (a)は、チャネル装置に障害が発生している場合の、相互監視レジスタの状態遷移の一例を示すタイムチャートであり、(b)は、入出力処理装置に障害が発生している場合の、相互監視レジスタの状態遷移の一例を示すタイムチャートである。(A) is a time chart which shows an example of the state transition of a mutual monitoring register when a failure has occurred in the channel device, and (b) is a case in which a failure has occurred in the input / output processing device. It is a time chart which shows an example of the state transition of a mutual monitoring register. 一実施形態に係るブリッジ装置による、入出力処理装置及びチャネル装置間の相互監視処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the mutual monitoring process between the input-output processing apparatus and the channel apparatus by the bridge device which concerns on one Embodiment. 一実施形態に係る入出力処理装置による、入出力処理装置及びチャネル装置間の相互監視処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the mutual monitoring process between the input-output processing apparatus and the channel apparatus by the input-output processing apparatus which concerns on one Embodiment. 一実施形態に係るチャネル装置による、入出力処理装置及びチャネル装置間の相互監視処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the mutual monitoring process between the input / output processing apparatus and channel apparatus by the channel apparatus which concerns on one Embodiment. 一実施形態に係る入出力処理装置による、障害の発生が検出された装置の切り離し処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the isolation | separation process of the apparatus by which the occurrence of the failure was detected by the input / output processing apparatus which concerns on one Embodiment. 一実施形態に係るチャネル装置による、障害の発生が検出された装置の切り離し処理の一例を説明するフローチャートである。It is a flowchart explaining an example of the disconnection process of the apparatus by which the occurrence of the failure was detected by the channel apparatus which concerns on one Embodiment. 情報処理システムの構成例を示す図である。It is a figure which shows the structural example of an information processing system. 装置間の相互監視の手順の一例を示す図である。It is a figure which shows an example of the procedure of the mutual monitoring between apparatuses.

以下、図面を参照して実施の形態を説明する。
〔1〕一実施形態
〔1−1〕情報処理システムの説明
図1は、一実施形態に係る情報処理システム1の構成例を示す図である。図1に示すように、情報処理システム1は、2つのCPU2−1及び2−2、2つのMS3−1及び3−2、並びにSC4を有する。また、情報処理システム1は、2つのIOP5−1及び5−2、2つのBR6−1及び6−2、4つのCH7−1〜7−4、並びに2つのIO8−1及び8−2を有する。
Hereinafter, embodiments will be described with reference to the drawings.
[1] One Embodiment [1-1] Description of Information Processing System FIG. 1 is a diagram illustrating a configuration example of an information processing system 1 according to one embodiment. As shown in FIG. 1, the information processing system 1 includes two CPUs 2-1 and 2-2, two MSs 3-1 and 3-2, and an SC4. The information processing system 1 also includes two IOPs 5-1 and 5-2, two BR6-1 and 6-2, four CH7-1 to 7-4, and two IO8-1 and 8-2. .

なお、以下、CPU2−1及び2−2を区別しない場合には、単にCPU2といい、MS3−1及び3−2を区別しない場合には、単にMS3といい、IOP5−1及び5−2を区別しない場合には、単にIOP5という。また、以下、BR6−1及び6−2を区別しない場合には、単にBR6といい、CH7−1〜7−4を区別しない場合には、単にCH7といい、IO8−1及び8−2を区別しない場合には、単にIO8という。   Hereinafter, when the CPUs 2-1 and 2-2 are not distinguished from each other, the CPU 2 is simply referred to as CPU 2. When the MSs 3-1 and 3-2 are not distinguished from each other, they are simply referred to as MS 3, and the IOPs 5-1 and 5-2 are referred to. If they are not distinguished, they are simply referred to as IOP5. In the following, when BR6-1 and 6-2 are not distinguished, they are simply referred to as BR6, and when CH7-1 to 7-4 are not distinguished, they are simply referred to as CH7, and IO8-1 and 8-2 are designated as IO8-1 and 8-2. If they are not distinguished, they are simply referred to as IO8.

なお、図1及び後述する図2において、IOP5−1及び5−2はそれぞれIOP#0及び#1と表記し、BR6−1及び6−2はそれぞれBR#0及び#1と表記する場合がある。また、図1及び後述する図2において、CH7−1〜7−4はそれぞれCH#0〜#3と表記し、IO8−1及び8−2はそれぞれIO#0及び#1と表記する場合がある。   In FIG. 1 and FIG. 2 to be described later, IOPs 5-1 and 5-2 may be expressed as IOP # 0 and # 1, respectively, and BR 6-1 and 6-2 may be expressed as BR # 0 and # 1, respectively. is there. Further, in FIG. 1 and FIG. 2 described later, CH7-1 to 7-4 may be expressed as CH # 0 to # 3, and IO8-1 and 8-2 may be expressed as IO # 0 and # 1, respectively. is there.

CPU2−1及び2−2、並びにMS3−1及び3−2は、それぞれSC4に接続され、冗長化されている。また、IOP5−1及び5−2、並びにBR6−1及び6−2は、それぞれSC4に接続され、冗長化されている。さらに、CH7−1及び7−2はそれぞれBR6−1に接続されて冗長化され、CH7−3及び7−4はそれぞれBR6−2に接続されて冗長化されている。また、IO8−1は、CH7−1及び7−3にそれぞれ接続され、IO8−2は、CH7−2及び7−4にそれぞれ接続されている。   The CPUs 2-1 and 2-2 and the MSs 3-1 and 3-2 are connected to the SC 4 and are made redundant. Also, the IOPs 5-1 and 5-2 and the BRs 6-1 and 6-2 are connected to the SC 4 and are made redundant. Further, CH7-1 and 7-2 are connected to BR6-1 for redundancy, and CH7-3 and 7-4 are connected to BR6-2 for redundancy. The IO8-1 is connected to the CH7-1 and 7-3, and the IO8-2 is connected to the CH7-2 and 7-4, respectively.

CPU2は、種々の制御や演算を行なう処理装置である。CPU2は、MS3又は図示しないROM(Read Only Memory)等に格納されたプログラムを実行することにより、種々の機能を実現する。
MS(メモリ装置)3は、種々のデータやプログラムを一時的に格納する記憶装置であって、CPU2がプログラムを実行する際に、データやプログラムを一時的に格納・展開して用いる。なお、MS3としては、RAM(Random Access Memory)等の揮発性メモリを有する複数のメモリモジュールが挙げられる。
The CPU 2 is a processing device that performs various controls and calculations. The CPU 2 realizes various functions by executing a program stored in the MS 3 or a ROM (Read Only Memory) (not shown).
The MS (memory device) 3 is a storage device that temporarily stores various data and programs, and the CPU 2 temporarily stores and expands the data and programs when the CPU 2 executes the programs. The MS 3 includes a plurality of memory modules having a volatile memory such as a RAM (Random Access Memory).

上述した構成により、情報処理システム1は、CPU2又はMS3に障害が発生した場合、障害個所を切り離すことでシステムダウンを回避することができる。
SC(システム制御装置)4は、CPU2及びMS3間のアクセスを制御するとともに、CPU2と、他のCPU2、IOP5、又はBR6等との通信制御を行なう制御装置である。SC4としては、LSI(Large Scale Integration)等の集積回路が挙げられる。なお、図示は省略しているが、情報処理システム1は、SC4を複数備えて冗長化しても良い。
With the configuration described above, when a failure occurs in the CPU 2 or the MS 3, the information processing system 1 can avoid a system down by separating the failure portion.
The SC (system control device) 4 is a control device that controls access between the CPU 2 and the MS 3 and controls communication between the CPU 2 and another CPU 2, IOP 5, BR 6, or the like. Examples of SC4 include integrated circuits such as LSI (Large Scale Integration). Although not shown, the information processing system 1 may be redundantly provided with a plurality of SC4.

IOP(入出力処理装置,第1の装置)5は、CPU2に代わってIO8(CH7)の制御を実行する処理部である。つまり、CPU2は、IO命令を実行する場合、IOP5にIO命令を渡して、IO8へのIOアクセスを実行させる。具体的には、IOP5は、CPU2においてデータリード/ライト等のIO命令が実行された場合に、IO8を制御するCH7へIO命令の詳細を送出する。図1に示す例では、IOP5−1は、SC4、BR6−1を経由してCH7−1及び7−2を制御し、IOP5−2は、SC4、BR6−2を経由してCH7−3及び7−4を制御する。また、IOP5は、CH7からの割り込みを受けた場合に、SC4を介してCPU2へ当該割り込みを通知する。   The IOP (input / output processing device, first device) 5 is a processing unit that executes control of the IO 8 (CH 7) instead of the CPU 2. That is, when executing the IO instruction, the CPU 2 passes the IO instruction to the IOP 5 and causes the IO access to the IO 8 to be executed. Specifically, the IOP 5 sends details of the IO command to the CH 7 that controls the IO 8 when the CPU 2 executes an IO command such as data read / write. In the example shown in FIG. 1, IOP5-1 controls CH7-1 and 7-2 via SC4 and BR6-1, and IOP5-2 selects CH7-3 and SC7-3 via SC4 and BR6-2. 7-4 is controlled. When the IOP5 receives an interrupt from the CH7, the IOP5 notifies the CPU2 of the interrupt via the SC4.

また、本実施形態に係るIOP5は、CH7との相互監視の処理として、BR6の後述するレジスタ(相互監視レジスタ61)に対して、所定時間ごとに監視用の情報の書込アクセスを行なう。なお、IOP5は、BR6から監視対象のCH7の障害の発生を通知されると、障害が発生したCH7とIO8との間の接続を切り離す処理を行なう。
IOP5の相互監視及び切り離しの処理については後述する。
Further, the IOP 5 according to the present embodiment performs write access of monitoring information at predetermined time intervals to a later-described register (mutual monitoring register 61) of the BR 6 as mutual monitoring processing with the CH 7. Note that when the occurrence of a failure in the monitoring target CH7 is notified from the BR6, the IOP5 performs a process of disconnecting the connection between the failed CH7 and the IO8.
The mutual monitoring and disconnection processing of IOP5 will be described later.

CH(チャネル装置,第2の装置)7は、MS3及びIO8間のデータやコマンド等のデータ転送を制御する装置である。例えば、CH7は、IOP5からIO命令を受けると、この指示を解析し、解析した指示内容に従い制御対象のIO8へ指示を送る。
また、本実施形態に係るCH7は、IOP5との相互監視の処理として、IOP5と同様に、BR6のレジスタ(相互監視レジスタ61)に対して、所定時間ごとに監視用の情報の書込アクセスを行なう。なお、CH7は、BR6から監視対象のIOP5の障害の発生を通知されると、自身のCH7とIO8との間の接続を切り離す処理を行なう。
The CH (channel device, second device) 7 is a device that controls data transfer such as data and commands between the MS 3 and the IO 8. For example, when CH7 receives an IO command from IOP5, CH7 analyzes this instruction and sends an instruction to IO8 to be controlled according to the analyzed instruction content.
In addition, as a mutual monitoring process with the IOP5, the CH7 according to the present embodiment performs a monitoring information write access to the BR6 register (mutual monitoring register 61) every predetermined time as in the IOP5. Do. Note that, when the failure of the monitored IOP 5 is notified from the BR 6, the CH 7 performs a process of disconnecting the connection between its own CH 7 and the IO 8.

CH7の相互監視及び切り離しの処理については後述する。
なお、上述したIOP5及びCH7としての機能は、IOP5及びCH7がそれぞれ備えるMPU(Micro-Processing Unit)等のプロセッサにより実現される。
IO(入出力装置)8は、IOP5によるIOアクセスの対象となる装置である。IO8としては、例えばHDD(Hard Disk Drive)等の磁気ディスク装置、SSD(Solid State Drive)等の半導体ディスク装置を含む各種記憶装置(ストレージ装置)、又はコンソール等の種々の装置が挙げられる。
The process of mutual monitoring and disconnection of CH7 will be described later.
Note that the functions as IOP5 and CH7 described above are realized by a processor such as an MPU (Micro-Processing Unit) included in each of IOP5 and CH7.
The IO (input / output device) 8 is a device that is a target of IO access by the IOP 5. Examples of the IO 8 include various storage devices (storage devices) including a magnetic disk device such as an HDD (Hard Disk Drive), a semiconductor disk device such as an SSD (Solid State Drive), and various devices such as a console.

以上の構成により、情報処理システム1では、CPU2でIO命令が実行されると、IOP5を経由してCH7へIO命令の詳細が伝搬される。CH7は、IO命令の指示内容に従ってIO8及びMS3間のデータ転送を実行する。その後、CH7は、IO割り込みをIOP5を経由してCPU2へ通知する。
なお、IOP5は、例えばIO8−1へアクセスするために、IOP5−1、CH7−1、IO8−1のパス(系列)、及び、IOP5−2、CH7−3、IO8−1のパス(系列)の2つのパスを用いることができる。このように、情報処理システム1は、IO系についても複数パスで構成することで、一方のパスが故障しても、もう一方のパスが正常であればシステムダウンを回避して動作を継続することができる。
With the above configuration, in the information processing system 1, when an IO command is executed by the CPU 2, the details of the IO command are propagated to CH7 via the IOP5. CH7 executes data transfer between IO8 and MS3 according to the instruction content of the IO command. Thereafter, CH7 notifies the CPU 2 of the IO interrupt via IOP5.
For example, the IOP5 has a path (series) of IOP5-1, CH7-1, and IO8-1, and a path (series) of IOP5-2, CH7-3, and IO8-1 to access the IO8-1. These two paths can be used. In this way, the information processing system 1 is configured by a plurality of paths for the IO system, so that even if one path fails, if the other path is normal, the system operation is avoided and the operation is continued. be able to.

BR(ブリッジ装置,接続装置)6は、IOP5と複数のCH7との間に介設され、IOP5及びCH7間のデータやコマンド等の入出力を中継する装置である。
〔1−2〕ブリッジ装置の説明
以下、図2を参照して、BR6の構成について説明する。
図2は、一実施形態に係るBR6の構成例を示す図である。図2に示すように、本実施形態に係るBR6は、相互監視チェック制御回路60、並びにバス制御回路65及び66を有する。
The BR (bridge device, connection device) 6 is a device that is interposed between the IOP 5 and a plurality of CHs 7 and relays input / output of data, commands, and the like between the IOPs 5 and CH 7.
[1-2] Description of Bridge Device Hereinafter, the configuration of BR6 will be described with reference to FIG.
FIG. 2 is a diagram illustrating a configuration example of the BR 6 according to an embodiment. As shown in FIG. 2, the BR 6 according to this embodiment includes a mutual monitoring check control circuit 60 and bus control circuits 65 and 66.

バス制御回路65は、SC4を介してIOP5とバスを介して接続され、IOP5からの書込アクセス及びIOP5への割込通知に係るバスの制御を行なう回路である。また、バス制御回路66は、複数のCH7とバスを介して接続され、CH7からの書込アクセス及びCH7への割込通知に係るバスの制御を行なう回路である。なお、以下、BR6には、n+1個のCH7が接続されているものとして説明する。また、図2において、これら複数のCH7をそれぞれCH#0〜CH#nと表記する場合がある。   The bus control circuit 65 is connected to the IOP5 via the SC4 via the bus, and controls the bus related to the write access from the IOP5 and the interrupt notification to the IOP5. The bus control circuit 66 is a circuit that is connected to a plurality of CHs 7 via a bus and controls the bus related to write access from CH7 and interrupt notification to CH7. In the following description, it is assumed that n + 1 CH7s are connected to BR6. In FIG. 2, the plurality of CH7 may be denoted as CH # 0 to CH # n, respectively.

相互監視チェック制御回路60は、IOP5及びCH7間で相互にハングアップを監視するための回路であり、制御回路60a、及び相互監視レジスタ61を有する。
制御回路60aは、本実施形態に係るIOP5及びCH7間の相互監視を実現するための制御を行なうハードウェアであり、書込制御部62、障害検出部63、及び通知部64としての機能を有する。
The mutual monitoring check control circuit 60 is a circuit for monitoring hang-up between the IOP 5 and CH 7, and includes a control circuit 60 a and a mutual monitoring register 61.
The control circuit 60 a is hardware that performs control for realizing mutual monitoring between the IOP 5 and the CH 7 according to the present embodiment, and has functions as a write control unit 62, a failure detection unit 63, and a notification unit 64. .

相互監視レジスタ(保持部)61は、CH7ごとに、相互監視に用いる記憶領域を備えるものである。図2に示す例では、相互監視レジスタ61は、記憶領域として、レジスタ61a−1〜61a−(n+1)(以下、レジスタ61a−1〜61a−(n+1)を区別しない場合には、単にレジスタ61aという)を備える。
レジスタ61aは、BR6に接続されて管理されるCH7と同数備えられる。なお、相互監視レジスタ61は、BR6に接続されたCH7の数よりも少ないレジスタ61aを備えても良く、この場合、相互監視可能なCH7の数は、レジスタ61aの数(n+1)となる。
The mutual monitoring register (holding unit) 61 includes a storage area used for mutual monitoring for each CH7. In the example illustrated in FIG. 2, the mutual monitoring register 61 simply uses registers 61 a-1 to 61 a-(n + 1) (hereinafter referred to as registers 61 a-1 to 61 a-(n + 1) as the storage area. Provided).
There are as many registers 61a as there are CH7 connected to the BR6 and managed. Note that the mutual monitoring register 61 may include a smaller number of registers 61a than the number of CH7 connected to BR6. In this case, the number of CH7 that can be monitored is the number (n + 1) of the registers 61a.

なお、各レジスタ61aは、それぞれ、レジスタ61aに対応するCH7及び当該CH7を制御するIOP5により書込アクセスが行なわれる。図1に示す例では、BR#0が有するCH#0用のレジスタ61aは、IOP#0及びCH#0により書込アクセスが行なわれ、CH#1用のレジスタ61aは、IOP#0及びCH#1により書込アクセスが行なわれる。同様に、BR#1が有するCH#2用のレジスタ61aは、IOP#1及びCH#2により書込アクセスが行なわれ、CH#3用のレジスタ61aは、IOP#1及びCH#3により書込アクセスが行なわれる。   Each register 61a is accessed for writing by CH7 corresponding to the register 61a and IOP5 controlling the CH7. In the example shown in FIG. 1, the CH # 0 register 61a of the BR # 0 is accessed for writing by the IOP # 0 and CH # 0, and the CH # 1 register 61a is the IOP # 0 and CH # 0. Write access is performed by # 1. Similarly, the BR # 1 register 61a for CH # 2 is accessed for writing by IOP # 1 and CH # 2, and the register 61a for CH # 3 is written by IOP # 1 and CH # 3. Access.

図2に示すように、レジスタ61aは、IOP Mask、IOP Alive、CH Mask、及びCH Aliveの各ビットと、Thresholdカウンタと、IOP Interrupt、及びCH Interruptの各ビットと、を持つ。なお、図2において、各ビット名又はカウンタ名の後ろに付された“#0”,…“#n”は、レジスタ61aに割り当てられたCH#0〜#nを示すものである。以下の説明では、“#0”,…“#n”の表記を省略し、各ビット名又はカウンタ名のみを示す。   As shown in FIG. 2, the register 61 a has IOP Mask, IOP Alive, CH Mask, and CH Alive bits, a Threshold counter, and IOP Interrupt and CH Interrupt bits. In FIG. 2, “# 0”,... “#N” appended to the end of each bit name or counter name indicates CH # 0 to #n assigned to the register 61a. In the following description, the notation of “# 0”,... “#N” is omitted, and only each bit name or counter name is shown.

IOP Mask及びCH Maskは、対応するCH7が後述する障害検出部63による障害の検出対象であるか否か(相互監視の対象であるか否か)を示すMask Bit(第3情報)が設定されるビット(第3領域)である。
IOP5は、制御対象の複数のCH7のうち、動作中のCH7であって相互監視を実施するCH7を認識すると、当該CH7に対応するレジスタ61aのIOP Maskに、マスクの無効、つまり監視対象であることを示すMask Bit(例えば“0”)を設定する。一方、IOP5は、制御対象の複数のCH7のうち、未実装又はオフライン(未使用)状態のCH7を認識すると、当該CH7に対応するレジスタ61aのIOP Maskに、マスクの有効、つまり監視対象から除外することを示すMask Bit(例えば“1”)を設定する。なお、CH7のオフライン状態には、CH7が故障中、初期化処理中、又は故障等の診断の実行中等の状態が含まれて良い。
In the IOP Mask and the CH Mask, Mask Bit (third information) indicating whether or not the corresponding CH 7 is a failure detection target (whether or not mutual monitoring is performed) by the failure detection unit 63 described later is set. Bits (third region).
When the IOP5 recognizes the CH7 that is operating and is performing the mutual monitoring among the plurality of CH7 to be controlled, the IOP5 is ineffective, that is, the monitoring target in the IOP Mask of the register 61a corresponding to the CH7. A Mask Bit (for example, “0”) indicating the above is set. On the other hand, when the IOP5 recognizes an unimplemented or offline (unused) state CH7 among a plurality of control target CH7s, the IOP Mask of the register 61a corresponding to the CH7 is effective, that is, excluded from the monitoring target. A Mask Bit (for example, “1”) indicating that the operation is to be performed is set. Note that the offline state of CH7 may include a state in which CH7 is in failure, during initialization processing, or during execution of diagnosis such as failure.

また、CH7は、自身がIOP5と相互監視をする場合には、対応するレジスタ61aのCH Maskに、マスクの無効、つまり監視対象であることを示すMask Bit(例えば“0”)を設定する。一方、CH7は、IOP5の障害が検出された場合、又は上述の如く自身のオフライン(未使用)状態の場合には、対応するレジスタ61aのCH Maskに、マスクの有効、つまり自身を監視対象から除外することを示すMask Bit(例えば“1”)を設定する。   Further, when the CH 7 performs mutual monitoring with the IOP 5, the CH 7 of the corresponding register 61a sets a mask bit (for example, “0”) indicating that the mask is invalid, that is, the monitoring target. On the other hand, when a failure of IOP5 is detected, or when the CH7 is in its offline (unused) state as described above, the CH Mask of the corresponding register 61a has a mask valid, that is, itself is monitored. A Mask Bit (for example, “1”) indicating exclusion is set.

相互監視チェック制御回路60は、レジスタ61aのIOP Mask及びCH Maskを参照することで、対応するCH7の相互監視の要否を判断する。例えば、相互監視チェック制御回路60は、レジスタ61aにおいて、IOP Mask及びCH Maskのビットの値がいずれも“0”である場合には、マスクは無効、つまり対応するCH7の相互監視を行なうと判断する。一方、相互監視チェック制御回路60は、レジスタ61aにおいて、IOP Mask及びCH Maskのうちの少なくとも一方が“1”である場合には、マスクは有効、つまり対応するCH7の相互監視を行なわないと判断する。そして、相互監視チェック制御回路60は、相互監視が不要の場合には、対応するCH7についての後述する相互監視処理の実施を抑止する。   The mutual monitoring check control circuit 60 refers to the IOP Mask and CH Mask in the register 61a, and determines whether or not mutual monitoring of the corresponding CH7 is necessary. For example, if the values of the IOP Mask and CH Mask bits are both “0” in the register 61a, the mutual monitoring check control circuit 60 determines that the mask is invalid, that is, performs mutual monitoring of the corresponding CH7. To do. On the other hand, if at least one of IOP Mask and CH Mask is “1” in register 61a, mutual monitoring check control circuit 60 determines that the mask is valid, that is, does not perform mutual monitoring of the corresponding CH7. To do. When the mutual monitoring is unnecessary, the mutual monitoring check control circuit 60 suppresses the execution of the mutual monitoring process described later for the corresponding CH7.

このように、IOP5及びCH7は、相互監視を実施するIOP5及びCH7についてのみ、Mask Bitを無効に設定し、例えば動作していないCH7についてはMask Bitを有効に設定する。これにより、IOP5及びCH7は、相互監視が不要なCH7を簡単に監視対象から除外することができる。また、IOP5及びCH7の双方から、相互監視の要否を判断することができるため、より確実に、不要な相互監視の実行を抑止することができる。従って、情報処理システム1のリソースを有効活用することができる。   In this way, the IOP5 and CH7 set the Mask Bit invalid only for the IOP5 and CH7 that perform mutual monitoring, for example, set the Mask Bit valid for the CH7 that is not operating. As a result, the IOP 5 and the CH 7 can easily exclude the CH 7 that does not require mutual monitoring from the monitoring targets. In addition, since it is possible to determine whether mutual monitoring is necessary from both IOP5 and CH7, it is possible to more reliably prevent unnecessary mutual monitoring from being executed. Therefore, the resources of the information processing system 1 can be effectively used.

なお、IOP Mask及びCH Maskの設定は、少なくとも相互監視が開始されるときに行なわれれば良い。相互監視の開始のトリガとしては、例えば情報処理システム1が起動した場合やCPU2等により指示された場合等が挙げられる。また、IOP Mask及びCH Maskの値は、相互監視の実施中に更新(再設定)されても良い。この場合、相互監視チェック制御回路60は、IOP Mask及びCH Maskの更新を検出し、更新後のMask Bitに基づいて、相互監視の状態を切り替える。   The IOP Mask and CH Mask may be set at least when mutual monitoring is started. Examples of triggers for starting mutual monitoring include a case where the information processing system 1 is activated or a case where the CPU 2 or the like instructs. Further, the values of IOP Mask and CH Mask may be updated (reset) during the execution of mutual monitoring. In this case, the mutual monitoring check control circuit 60 detects the update of the IOP Mask and the CH Mask, and switches the mutual monitoring state based on the updated Mask Bit.

IOP Aliveは、IOP5により、一定時間ごとに、有効(例えば“1”)を示すAlive Bit(第1情報)が設定されるビット(第1領域)である。
CH Aliveは、CH7により、一定時間ごとに、有効(例えば“1”)を示すAlive Bit(第2情報)が設定されるビット(第2領域)である。
IOP5は、相互監視において、一定時間ごとに、監視対象の全てのCH7に対応するレジスタ61aのIOP Aliveビットを更新するために、レジスタ61aへ書込アクセスを行なう。また、CH7は、相互監視において、一定時間ごとに、対応するレジスタ61aのCH Aliveビットの更新するために、レジスタ61aへ書込アクセスを行なう。
The IOP Alive is a bit (first area) in which an Alive Bit (first information) indicating validity (for example, “1”) is set at regular intervals by the IOP5.
CH Alive is a bit (second area) in which an Alive Bit (second information) indicating validity (for example, “1”) is set by CH7 at regular time intervals.
In the mutual monitoring, the IOP5 performs a write access to the register 61a in order to update the IOP Alive bit of the register 61a corresponding to all the monitored CH7 in the mutual monitoring. In addition, CH7 performs write access to the register 61a in order to update the CH Alive bit of the corresponding register 61a at regular intervals during mutual monitoring.

なお、IOP5及びCH7における一定時間(所定時間)、つまりIOP5がIOP AliveへAlive Bitを書き込む周期と、CH7がCH AliveへAlive Bitを書き込む周期とは、同一又は略同一(同程度)である。
Thresholdは、IOP5及びCH7のいずれかにより、相互監視レジスタ61に対してAlive Bitの連続した書込アクセスがあった回数を示すビット(カウンタ)である。なお、以下の説明において、Thresholdを閾値カウンタ(Threshold Counter)という。本実施形態においては、閾値カウンタは2ビットで構成される。
It should be noted that a fixed time (predetermined time) in IOP5 and CH7, that is, a cycle in which IOP5 writes Alive Bit to IOP Alive and a cycle in which CH7 writes Alive Bit to CH Alive are the same or substantially the same (similar).
Threshold is a bit (counter) indicating the number of times that the Abit 5 has been continuously written to the mutual monitoring register 61 by either IOP5 or CH7. In the following description, Threshold is referred to as a threshold counter. In this embodiment, the threshold counter is composed of 2 bits.

IOP Interrupt及びCH Interruptは、IOP5又はCH7の障害の発生が検出されたことを示す値(第4情報)が設定されるビット(第4領域)である。例えば、障害検出部63により、IOP5の障害の発生が検出された場合には、IOP Interruptに有効を示す第4情報(例えば“1”)が設定され、CH7の障害の発生が検出された場合には、CH Interruptに有効を示す第4情報(例えば“1”)が設定される。   IOP Interrupt and CH Interrupt are bits (fourth area) in which a value (fourth information) indicating that a failure of IOP5 or CH7 is detected is set. For example, when the failure detection unit 63 detects the occurrence of a failure in IOP5, the fourth information (for example, “1”) indicating validity is set in IOP Interrupt, and the occurrence of a failure in CH7 is detected. Is set with fourth information (for example, “1”) indicating that CH Interrupt is valid.

書込制御部62は、IOP5又はCH7による相互監視レジスタ61への書込アクセスを検出する。具体的には、書込制御部62は、レジスタ61aごとのIOP Alive及びCH Aliveに割り当てられたアドレス空間を監視する。そして、書込制御部62は、IOP5又はCH7から、バス制御回路65又は66を介して、IOP Alive及びCH Aliveに割り当てられたアドレス空間に対するAlive Bitの書込アクセスを検出する。   The write control unit 62 detects a write access to the mutual monitoring register 61 by IOP5 or CH7. Specifically, the write control unit 62 monitors the address space assigned to the IOP Alive and CH Alive for each register 61a. Then, the write control unit 62 detects Alive Bit write access to the address space allocated to the IOP Alive and CH Alive from the IOP 5 or CH 7 via the bus control circuit 65 or 66.

また、書込制御部62は、IOP5又はCH7から書込アクセスがあった場合に、IOP Alive及びCH Aliveに設定された値が示すアクセス状況に応じて、IOP Alive及びCH Aliveの状態の更新を行なう。つまり、IOP Alive及びCH Aliveの値(状態)は、IOP5及びCH7により直接書き換えられるものではなく、IOP5及びCH7からの書込アクセスに応じて、書込制御部62により更新される。   Also, when there is a write access from IOP5 or CH7, the write control unit 62 updates the state of IOP Alive and CH Alive according to the access status indicated by the values set in IOP Alive and CH Alive. Do. That is, the values (states) of IOP Alive and CH Alive are not directly rewritten by IOP5 and CH7, but are updated by the write control unit 62 in response to a write access from IOP5 and CH7.

さらに、書込制御部62は、IOP5又はCH7から書込アクセスがあった場合に、アクセス状況に応じて閾値カウンタの制御を行なう。
ここで、アクセス状況とは、IOP Alive及びCH Aliveに設定された各1ビット、計2ビットのAlive Bitが示す、IOP5及びCH7による書込アクセスの実行状況をいう。つまり、アクセス状況は、IOP Alive及びCH Aliveに設定された計2ビットのAlive Bitを示す。なお、以下の説明において、IOP Alive及びCH AliveをIOP Alive/CH Aliveと表記する場合がある。
Furthermore, when there is a write access from IOP5 or CH7, the write control unit 62 controls the threshold counter according to the access status.
Here, the access status refers to the execution status of write access by IOP5 and CH7 indicated by 1 bit each set in IOP Alive and CH Alive and a total of 2 bits Alive Bit. That is, the access status indicates a total 2-bit Alive Bit set in IOP Alive and CH Alive. In the following description, IOP Alive and CH Alive may be referred to as IOP Alive / CH Alive.

アクセス状況には、IOP Alive/CH Aliveの値によって、“00”、“01”、及び“10”の状態が存在する。アクセス状況が“00”の状態とは、IOP5及びCH7のうちのいずれの装置も書込アクセスを行なっていない状態、又はIOP5及びCH7が交互に書込アクセスを行なっている状態を示す。また、アクセス状況が“01”の状態とは、直前にCH7が書込アクセスを行なっている状態を示す。さらに、アクセス状況が“10”の状態とは、直前にIOP5が書込アクセスを行なっている状態を示す。   The access status includes states of “00”, “01”, and “10” depending on the value of IOP Alive / CH Alive. The state where the access status is “00” indicates a state where none of the devices IOP5 and CH7 is performing write access, or a state where IOP5 and CH7 are alternately performing write access. Further, the state where the access status is “01” indicates a state in which CH7 is performing write access immediately before. Furthermore, the state where the access status is “10” indicates a state where the IOP 5 is performing write access immediately before.

書込制御部62の詳細な説明については、後述する。
障害検出部(検出部)63は、IOP5及びCH7の各々による相互監視レジスタ61への書き込みを監視し、監視結果に基づいて、IOP5及びCH7のうちのいずれか一方の装置にハングアップ等の障害が発生したことを検出する。
具体的には、障害検出部63は、IOP5及びCH7のうちのいずれか他方の装置による相互監視レジスタ61へのAlive Bitの書き込みが所定の回数連続して行なわれたか否かを判定する。より具体的に、障害検出部63は、各レジスタ61aの閾値カウンタの値を監視し、閾値カウンタの値が所定の回数(所定の閾値)に達したか否かを判定する。そして、障害検出部63は、閾値カウンタの値が所定の閾値に達した場合に、そのときのレジスタ61aのアクセス状況に応じて、Alive Bitの書き込みが行なわれなかった上記一方の装置に障害が発生したことを検出するのである。
Detailed description of the write control unit 62 will be described later.
The failure detection unit (detection unit) 63 monitors writing to the mutual monitoring register 61 by each of IOP5 and CH7, and based on the monitoring result, a failure such as a hang-up occurs in either one of IOP5 or CH7. Detect that occurred.
Specifically, the failure detection unit 63 determines whether or not the writing of Alive Bit to the mutual monitoring register 61 by the other device of IOP5 and CH7 has been continuously performed a predetermined number of times. More specifically, the failure detection unit 63 monitors the value of the threshold counter of each register 61a and determines whether or not the value of the threshold counter has reached a predetermined number of times (predetermined threshold). Then, when the value of the threshold counter reaches a predetermined threshold value, the failure detection unit 63 determines that there is a failure in the one device to which the Alive Bit has not been written according to the access status of the register 61a at that time. It detects what happened.

なお、上述の如く、IOP5がAlive Bitを書き込む周期(一定時間)と、CH7がAlive Bitを書き込む周期(一定時間)とは同一又は略同一である。しかし、上記一方の装置に障害が発生したことを検出する際には、IOP5及びCH7によるAlive Bitの書き込みのタイミングのズレ等を考慮して、所定の閾値を3以上とすることが好ましい。   Note that, as described above, the cycle (fixed time) in which the IOP 5 writes the alive bit and the cycle (fixed time) in which the CH 7 writes the alive bit are the same or substantially the same. However, when it is detected that a failure has occurred in one of the devices, it is preferable to set the predetermined threshold value to 3 or more in consideration of a shift in the timing of writing of Alive Bit by IOP5 and CH7.

本実施形態においては、障害検出部63は、2ビットで構成された閾値カウンタが所定の閾値としての“11”に達した場合、つまり上記他方の装置によるAlive Bitの書き込みが3回連続して行なわれた場合に、上記一方の装置に障害が発生したことを検出する。
これにより、IOP5及びCH7によるAlive Bitの書き込みのタイミングにズレ等が生じた場合であっても、上記一方の装置に障害が発生したことを正確に検出することができる。
In the present embodiment, the failure detection unit 63 determines that when the threshold counter composed of 2 bits reaches “11” as the predetermined threshold, that is, the writing of the Alive Bit by the other device is performed three times in succession. If so, it detects that a failure has occurred in one of the devices.
As a result, even when a deviation or the like occurs in the timing of writing the Alive bit by the IOP5 and CH7, it is possible to accurately detect that a failure has occurred in the one device.

また、障害検出部63は、上記一方の装置に障害が発生したことを検出したレジスタ61aにおける、他方の装置、つまり監視相手の装置に対応するIOP Interrupt又はCH Interruptに、有効(例えば“1”)を示す値を設定する。
このように、相互監視チェック制御回路60は、IOP5及びCH7のうちの片方の装置からしかAlive Bitが更新されないことを、閾値カウンタによりカウントすることで、Alive Bitが更新されない装置のハングアップ等の障害の発生を検出する。
Further, the failure detection unit 63 is effective (for example, “1”) for the IOP Interrupt or the CH Interrupt corresponding to the other device, that is, the monitoring partner device, in the register 61a that has detected that a failure has occurred in the one device. ) Is set.
In this way, the mutual monitoring check control circuit 60 counts the fact that the Alive Bit is updated only from one of the IOP5 and CH7 by using the threshold counter, so that the apparatus whose Alive Bit is not updated hangs up. Detect the occurrence of a failure.

通知部64は、障害検出部63により検出された上記一方の装置の障害の発生を、上記他方の装置へ、バス制御回路65又は66を介して通知する。具体的には、通知部64は、各レジスタ61aのIOP Interrupt及びCH Interruptを監視する。そして、通知部64は、各Interruptのうちのいずれかのビットに有効を示す値が設定されると、当該値が設定された装置(上記他方の装置)に対して割り込みを上げて、相手装置(上記一方の装置)の障害発生を通知する。   The notification unit 64 notifies the occurrence of a failure of the one device detected by the failure detection unit 63 to the other device via the bus control circuit 65 or 66. Specifically, the notification unit 64 monitors the IOP Interrupt and CH Interrupt of each register 61a. When a value indicating validity is set in any bit of each interrupt, the notification unit 64 raises an interrupt to the device (the other device) in which the value is set, and the partner device Notify the occurrence of a failure in (one of the above devices).

なお、障害検出部63は、上記一方の装置に障害が発生したことを検出した場合に、IOP Interrupt又はCH Interruptを設定したレジスタ61aを示す情報を通知部64へ通知しても良い。このとき、通知部64は、障害検出部63からの通知を受けてから、通知されたレジスタ61aのIOP Interrupt又はCH Interruptを参照すれば良い。この場合、通知部64は、各レジスタ61aのIOP Interrupt及びCH Interruptの監視を省略しても良い。   Note that the failure detection unit 63 may notify the notification unit 64 of information indicating the register 61a in which IOP Interrupt or CH Interrupt is set when detecting that a failure has occurred in one of the devices. At this time, the notification unit 64 may refer to the IOP Interrupt or the CH Interrupt of the notified register 61a after receiving the notification from the failure detection unit 63. In this case, the notification unit 64 may omit the monitoring of the IOP Interrupt and the CH Interrupt of each register 61a.

上述のように、相互監視チェック制御回路60は、IOP Alive/CH Aliveに対してIOP5又はCH7から書込アクセスがあったことにより、当該IOP5又はCH7にはハングアップ等の障害が発生していないと判断する。換言すれば、IOP Alive/CH Aliveのビットは、IOP5又はCH7が、自身にハングアップ等の障害が発生していないことをBR6へ通知するためのビットであるといえる。   As described above, the mutual monitoring check control circuit 60 does not cause a failure such as hang-up in the IOP5 or CH7 due to the write access from the IOP5 or CH7 to the IOP Alive / CH Alive. Judge. In other words, it can be said that the IOP Alive / CH Alive bit is a bit for notifying the BR 6 that the IOP 5 or CH 7 does not cause a failure such as a hang-up.

〔1−3〕書込制御部の説明
以下、図3及び図4を参照して、書込制御部62の詳細を説明する。
図3は、図2に示す書込制御部62による相互監視レジスタ61の状態の制御の一例を説明する図である。また、図4(a)は、CH7に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を示すタイムチャートであり、図4(b)は、IOP5に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を示すタイムチャートである。
[1-3] Description of Write Control Unit Details of the write control unit 62 will be described below with reference to FIGS. 3 and 4.
FIG. 3 is a diagram for explaining an example of control of the state of the mutual monitoring register 61 by the write control unit 62 shown in FIG. 4A is a time chart showing an example of the state transition of the mutual monitoring register 61 when a failure occurs in CH7, and FIG. 4B shows a case where a failure occurs in IOP5. It is a time chart which shows an example of the state transition of the mutual monitoring register | resistor 61 in the case of being.

なお、図3の左欄は、書込制御部62によるIOP Alive及びCH Aliveの更新前の状態、図3の右欄は、書込制御部62によるIOP Alive及びCH Aliveの更新後の状態をそれぞれ表している。
書込制御部62は、IOP5又はCH7により、あるレジスタ61aのIOP Alive又はCH Aliveへの書込アクセスの発生を検出すると、図3及び以下に示すように、IOP Alive/CH Aliveの状態の更新を行なう。
3 shows the state before the IOP Alive and CH Alive are updated by the write controller 62, and the right column of FIG. 3 shows the state after the IOP Alive and CH Alive is updated by the write controller 62. Represents each.
When the write control unit 62 detects the occurrence of a write access to the IOP Alive or CH Alive of a certain register 61a by the IOP5 or CH7, the IOP Alive / CH Alive state is updated as shown in FIG. To do.

(I)書込制御部62が、IOP5によるIOP Aliveへの書込アクセスの発生を検出した場合。
(I−1)更新前にIOP Alive/CH Aliveの値(アクセス状況)が“00”である場合(図3の左欄第1行参照)。
書込制御部62は、IOP AliveへAlive Bitを設定し、IOP Alive/CH Aliveの値を“10”にする(図3の右欄第1行参照)。なお、書込制御部62は、閾値カウンタの値については、現状(“0”)を維持する。
(I) The write control unit 62 detects the occurrence of a write access to the IOP Alive by IOP5.
(I-1) When the value (access status) of IOP Alive / CH Alive is “00” before update (refer to the first line in the left column of FIG. 3).
The write control unit 62 sets Alive Bit to IOP Alive and sets the value of IOP Alive / CH Alive to “10” (see the first line on the right column in FIG. 3). Note that the write control unit 62 maintains the current state (“0”) for the value of the threshold counter.

(I−2)IOP Alive/CH Aliveの値(アクセス状況)が“01”である場合(図3の左欄第2行参照)。
書込制御部62は、CH Aliveに設定されたAlive Bitを無効(“0”)に変更し、IOP Alive/CH Aliveの値を“00”にする(図3の右欄第2行参照)。また、書込制御部62は、“N”(Nは0以上の整数)が設定された閾値カウンタの値を“0”にリセットする。
(I-2) When the value (access status) of IOP Alive / CH Alive is “01” (see the second column on the left column in FIG. 3).
The write control unit 62 changes the Alive Bit set to CH Alive to invalid (“0”) and sets the value of IOP Alive / CH Alive to “00” (see the second line on the right column of FIG. 3). . Further, the write control unit 62 resets the value of the threshold counter to which “N” (N is an integer of 0 or more) is set to “0”.

(I−3)IOP Alive/CH Aliveの値(アクセス状況)が“10”である場合(図3の左欄第3行参照)。
書込制御部62は、IOP Alive/CH Aliveについて、現状(“10”)を維持する(図3の右欄第3行参照)。また、書込制御部62は、“N”が設定された閾値カウンタの値をインクリメントする(“N+1”にする)。
(I-3) When the value (access status) of IOP Alive / CH Alive is “10” (see the third column on the left column in FIG. 3).
The write controller 62 maintains the current state (“10”) for the IOP Alive / CH Alive (see the third column on the right column in FIG. 3). Further, the write control unit 62 increments the value of the threshold counter for which “N” is set (set to “N + 1”).

(II)書込制御部62が、CH7によるCH Aliveへの書込アクセスの発生を検出した場合。
(II−1)更新前にIOP Alive/CH Aliveの値(アクセス状況)が“00”である場合(図3の左欄第4行参照)。
書込制御部62は、CH AliveへAlive Bitを設定し、IOP Alive/CH Aliveの値を“01”にする(図3の右欄第4行参照)。なお、書込制御部62は、閾値カウンタの値については、現状(“0”)を維持する。
(II) When the write control unit 62 detects occurrence of write access to CH Alive by CH7.
(II-1) When the value (access status) of IOP Alive / CH Alive is “00” before update (see the fourth column on the left column in FIG. 3).
The write control unit 62 sets Alive Bit to CH Alive and sets the value of IOP Alive / CH Alive to “01” (see the fourth column on the right column of FIG. 3). Note that the write control unit 62 maintains the current state (“0”) for the value of the threshold counter.

(II−2)IOP Alive/CH Aliveの値(アクセス状況)が“01”である場合(図3の左欄第5行参照)。
書込制御部62は、IOP Alive/CH Aliveについて、現状(“01”)を維持する(図3の右欄第5行参照)。また、書込制御部62は、“N”が設定された閾値カウンタの値をインクリメントする(“N+1”にする)。
(II-2) When the value (access status) of IOP Alive / CH Alive is “01” (see the fifth column on the left column in FIG. 3).
The write control unit 62 maintains the current state (“01”) for IOP Alive / CH Alive (see the fifth column on the right column in FIG. 3). Further, the write control unit 62 increments the value of the threshold counter for which “N” is set (set to “N + 1”).

(II−3)IOP Alive/CH Aliveの値(アクセス状況)が“10”である場合(図3の左欄第6行参照)。
書込制御部62は、IOP Aliveに設定されたAlive Bitを無効(“0”)に変更し、IOP Alive/CH Aliveの値を“00”にする(図3の右欄第6行参照)。また、書込制御部62は、“N”(Nは0以上の整数)が設定された閾値カウンタの値を“0”にリセットする。
(II-3) When the value (access status) of IOP Alive / CH Alive is “10” (see the sixth line on the left column in FIG. 3).
The write control unit 62 changes the Alive Bit set in the IOP Alive to invalid (“0”) and sets the IOP Alive / CH Alive value to “00” (see the sixth column on the right column in FIG. 3). . Further, the write control unit 62 resets the value of the threshold counter to which “N” (N is an integer of 0 or more) is set to “0”.

以上のように、書込制御部62は、IOP Alive及びCH Aliveの更新を行なう。
次に、図4(a)に示すように、CH7に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を説明する。なお、図4(a)に示す例では、タイミングt0において、アクセス状況が“00”の状態であるものとする。
As described above, the write control unit 62 updates IOP Alive and CH Alive.
Next, as shown in FIG. 4A, an example of the state transition of the mutual monitoring register 61 when a failure has occurred in CH7 will be described. In the example shown in FIG. 4A, it is assumed that the access status is “00” at the timing t0.

タイミングt0において、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生すると(図3の左欄第1行参照)、書込制御部62によりアクセス状況が“10”に更新される(タイミングt1,図3の右欄第1行参照)。
CH7には障害が発生しており、書込アクセスが発生しないため、タイミングt0から所定時間T経過後、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生する(タイミングt2,図3の左欄第3行参照)。このとき、アクセス状況は“10”であるため、書込制御部62によりアクセス状況が“10”に維持され、閾値カウンタの値が“00”から“01”に更新される(タイミングt3,図3の右欄第3行参照)。
At timing t0, when the write access of the active bit to the IOP Alive is generated by the IOP5 (see the first line in the left column of FIG. 3), the access status is updated to “10” by the write control unit 62 (timing t1). , See the first line in the right column of FIG. 3).
Since a failure has occurred in CH7 and no write access has occurred, after a predetermined time T has elapsed from timing t0, a write access of Alive to IOP Alive occurs by IOP5 (timing t2, left in FIG. 3) Column 3rd line). At this time, since the access status is “10”, the access status is maintained at “10” by the write control unit 62, and the value of the threshold counter is updated from “00” to “01” (timing t3, FIG. 3 (see the third column on the right column).

続いて、タイミングt2から所定時間T経過後、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生する(タイミングt4)。この場合も、タイミングt3と同様に、書込制御部62によりアクセス状況が“10”に維持され、閾値カウンタの値が“01”から“10”に更新される(タイミングt5)。
さらに、タイミングt4から所定時間T経過後、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生する(タイミングt6)。この場合も、タイミングt5と同様に、書込制御部62によりアクセス状況が“10”に維持され、閾値カウンタの値が“10”から“11”に更新される(タイミングt7)。
Subsequently, after a predetermined time T elapses from the timing t2, the IOP5 generates an access access to the IOP Alive in the IOP Alive (timing t4). Also in this case, similarly to the timing t3, the access status is maintained at “10” by the write control unit 62, and the value of the threshold counter is updated from “01” to “10” (timing t5).
Further, after a predetermined time T has elapsed from the timing t4, the IOP5 generates an access access to the IOP Alive in the IOP Alive (timing t6). Also in this case, similarly to the timing t5, the access status is maintained at “10” by the write control unit 62, and the value of the threshold counter is updated from “10” to “11” (timing t7).

障害検出部63は、タイミングt7において閾値カウンタの値が“11”に達したことを検出すると、“10”であるアクセス状況に基づき、CH7に障害が発生したことを検出する(タイミングt8)。そして、障害検出部63は、IOP Interruptに“1”を設定する(タイミングt9)。IOP Interruptに“1”が設定されると、通知部64は、IOP5に対して、障害が検出されたレジスタ61aに対応するCH7にハングアップ等の障害が発生したことを割り込みで通知する。   When detecting that the value of the threshold counter has reached “11” at timing t7, the failure detecting unit 63 detects that a failure has occurred in CH7 based on the access status of “10” (timing t8). Then, the failure detection unit 63 sets “1” in the IOP Interrupt (timing t9). When “1” is set in the IOP interrupt, the notification unit 64 notifies the IOP 5 that a failure such as a hang-up has occurred in the CH 7 corresponding to the register 61 a in which the failure has been detected by an interrupt.

次いで、図4(b)に示すように、IOP5に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を説明する。なお、図4(b)に示す例では、タイミングt10において、アクセス状況が“00”の状態であるものとする。
タイミングt10において、CH7によりCH AliveへのAlive Bitの書込アクセスが発生すると(図3の左欄第4行参照)、書込制御部62によりアクセス状況が“01”に更新される(タイミングt11,図3の右欄第4行参照)。
Next, as shown in FIG. 4B, an example of state transition of the mutual monitoring register 61 when a failure occurs in the IOP 5 will be described. In the example shown in FIG. 4B, it is assumed that the access status is “00” at the timing t10.
At timing t10, when CH7 causes an Alive Bit write access to CH Alive (see the fourth row on the left column in FIG. 3), the write control unit 62 updates the access status to “01” (timing t11). , See the fourth column in the right column of FIG. 3).

IOP5には障害が発生しており、書込アクセスが発生しないため、タイミングt10から所定時間T経過後、CH7によりCH AliveへのAlive Bitの書込アクセスが発生する(タイミングt12,図3の左欄第5行参照)。このとき、アクセス状況は“01”であるため、書込制御部62によりアクセス状況が“01”に維持され、閾値カウンタの値が“00”から“01”に更新される(タイミングt13,図3の右欄第5行参照)。   Since a failure has occurred in IOP5 and no write access has occurred, after a predetermined time T has elapsed from timing t10, a write access of Alive Bit to CH Alive occurs by CH7 (timing t12, left in FIG. 3) Column 5th line). At this time, since the access status is “01”, the access status is maintained at “01” by the write control unit 62, and the value of the threshold counter is updated from “00” to “01” (timing t13, FIG. 3 (see right column, line 5).

続いて、タイミングt12から所定時間T経過後、CH7によりCH AliveへのAlive Bitの書込アクセスが発生する(タイミングt14)。この場合も、タイミングt13と同様に、書込制御部62によりアクセス状況が“01”に維持され、閾値カウンタの値が“01”から“10”に更新される(タイミングt15)。
さらに、タイミングt14から所定時間T経過後、CH7によりCH AliveへのAlive Bitの書込アクセスが発生する(タイミングt16)。この場合も、タイミングt15と同様に、書込制御部62によりアクセス状況が“01”に維持され、閾値カウンタの値が“10”から“11”に更新される(タイミングt17)。
Subsequently, after a predetermined time T elapses from timing t12, CH7 causes the Alive Bit write access to CH Alive (timing t14). Also in this case, similarly to the timing t13, the access status is maintained at “01” by the write control unit 62, and the value of the threshold counter is updated from “01” to “10” (timing t15).
Furthermore, after a predetermined time T has elapsed from timing t14, CH7 causes a write access of Alive Bit to CH Alive (timing t16). Also in this case, similarly to the timing t15, the access status is maintained at “01” by the write control unit 62, and the value of the threshold counter is updated from “10” to “11” (timing t17).

障害検出部63は、タイミングt17において閾値カウンタの値が“11”に達したことを検出すると、“01”であるアクセス状況に基づき、IOP5に障害が発生したことを検出する(タイミングt18)。そして、障害検出部63は、CH Interruptに“1”を設定する(タイミングt19)。CH Interruptに“1”が設定されると、通知部64は、CH7に対して、IOP5にハングアップ等の障害が発生したことを割り込みで通知する。   When the failure detection unit 63 detects that the value of the threshold counter has reached “11” at timing t17, the failure detection unit 63 detects that a failure has occurred in IOP5 based on the access status of “01” (timing t18). Then, the failure detection unit 63 sets “1” in CH Interrupt (timing t19). When “1” is set in CH Interrupt, the notification unit 64 notifies CH7 that a failure such as a hang-up has occurred in IOP5 by an interrupt.

以上のように、CH7又はIOP5に障害が発生している場合、相互監視レジスタ61の状態は図4(a)又は(b)に示すように遷移する。
このように、IOP5及びCH7は、相互監視において、自身のAlive Bitを一定時間ごとに更新する処理を行なうだけで良い。従って、IOP5及びCH7による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することができる。
As described above, when a failure occurs in CH7 or IOP5, the state of the mutual monitoring register 61 changes as shown in FIG. 4 (a) or (b).
As described above, the IOP 5 and the CH 7 need only perform the process of updating their own Alive Bit at regular intervals in the mutual monitoring. Therefore, mutual monitoring by IOP5 and CH7 can be realized by simple control with reduced processing load on the system.

〔1−4〕切り離し処理の説明
上述のように、BR6は、IOP5又はCH7における障害の発生を検出すると、障害が発生していない装置に対して、相手装置に障害が発生したことを割り込みにより通知する。
BR6からの割り込みを受けると、IOP5又はCH7は、以下のようにして、障害の発生した装置の切り離し処理を実施する。
[1-4] Explanation of Disconnection Processing As described above, when the BR 6 detects the occurrence of a failure in the IOP 5 or CH 7, it notifies the device that has not failed that the failure has occurred in the counterpart device by an interrupt. Notice.
When receiving an interrupt from the BR 6, the IOP 5 or CH 7 performs the process of disconnecting the failed device as follows.

IOP5がCH7において障害が発生したことを通知された場合、IOP5は、障害の発生が検出されたCH7を識別する。そして、IOP5は、識別したCH7に対応したレジスタ61aのIOP Maskに対して、マスクの有効を示すMask Bit(“1”)を設定し、そのCH7を相互監視対象から除外する。
そして、IOP5は、相互監視対象から除外したCH7と、当該CH7が管理する(CH7に接続された)IO8との間の接続を切り離す。
When IOP5 is notified that a failure has occurred in CH7, IOP5 identifies CH7 in which the failure has been detected. The IOP 5 sets a Mask Bit (“1”) indicating the validity of the mask for the IOP Mask of the register 61a corresponding to the identified CH7, and excludes the CH7 from the mutual monitoring target.
Then, the IOP5 disconnects the connection between the CH7 excluded from the mutual monitoring target and the IO8 managed by the CH7 (connected to the CH7).

一方、CH7がIOP5において障害が発生したことを通知された場合、CH7は、自身に対応したレジスタ61aのCH Maskに対して、マスクの有効を示すMask Bit(“1”)を設定し、自身をIOP5との相互監視対象から除外する。
そして、CH7は、自身と、自身が管理する(自身に接続された)IO8との間の接続を切り離す。
On the other hand, when CH7 is notified that a failure has occurred in IOP5, CH7 sets a Mask Bit (“1”) indicating the validity of the mask for CH Mask of register 61a corresponding to CH7, and itself Are excluded from mutual monitoring targets with IOP5.
Then, CH7 disconnects the connection between itself and IO8 that it manages (connected to itself).

このように、IOP5及びCH7は、障害の発生が検出された装置(パス)をシステムから切り離すことで、情報処理システム1は、正常な交替パスで動作を継続することができる。
なお、CH−IO間の接続の切り離しは、既知の種々の手法により行なうことが可能であり、その詳細な説明は省略する。
In this manner, the IOP 5 and the CH 7 disconnect the device (path) in which the occurrence of the failure is detected from the system, so that the information processing system 1 can continue the operation with the normal alternate path.
The connection between the CH-IO can be disconnected by various known methods, and detailed description thereof is omitted.

〔1−5〕情報処理システムの動作例
次に、上述の如く構成された本実施形態に係る情報処理システム1における動作例を、図5〜図9を参照して説明する。
図5〜図7は、一実施形態に係るBR6,IOP5,CH7のそれぞれによる、IOP5及びCH7間の相互監視処理の一例を説明するフローチャートである。図8及び図9は、一実施形態に係るIOP5,CH7のそれぞれによる、障害の発生が検出された装置の切り離し処理の一例を説明するフローチャートである。
[1-5] Operation Example of Information Processing System Next, an operation example in the information processing system 1 according to the present embodiment configured as described above will be described with reference to FIGS.
5 to 7 are flowcharts for explaining an example of mutual monitoring processing between IOP5 and CH7 by BR6, IOP5, and CH7 according to an embodiment. FIG. 8 and FIG. 9 are flowcharts for explaining an example of the detachment process of the device in which the occurrence of the failure is detected by each of the IOP5 and CH7 according to the embodiment.

なお、図5に示す処理は、BR6により、複数のレジスタ61a−1〜61a−(n+1)それぞれについて実施される。また、図7に示す処理は、BR6が制御する複数のCH#0〜CH#nそれぞれにより実施される。図5〜図7の説明においては、代表して図1に示すIOP5−1、BR6−1、及びCH7−1により実施される処理について説明する。   The processing shown in FIG. 5 is performed for each of the plurality of registers 61a-1 to 61a- (n + 1) by BR6. 7 is performed by each of the plurality of CH # 0 to CH # n controlled by the BR6. In the description of FIG. 5 to FIG. 7, processing executed by the IOP 5-1, BR 6-1, and CH 7-1 shown in FIG. 1 is representatively described.

〔1−5−1〕相互監視処理
はじめに、BR6、IOP5、及びCH7による、IOP5及びCH7間の相互監視処理の一例を、図5〜図7を参照して説明する。
相互監視が開始されると、IOP5及び複数のCH7により、対応するレジスタ61aのIOP Mask及びCH Maskに対してMask Bitが設定される(図6のステップS21及び図7のステップS31)。このとき、IOP5は、自身が制御する全てのCH7に対応するレジスタ61aのIOP Maskに対してMask Bitを設定する。なお、IOP Mask及びCH Maskには、相互監視を有効とする“0”、又は相互監視を無効とする“1”が設定される。
[1-5-1] Mutual Monitoring Processing First, an example of mutual monitoring processing between IOP5 and CH7 by BR6, IOP5, and CH7 will be described with reference to FIGS.
When the mutual monitoring is started, a mask bit is set for the IOP mask and the CH mask of the corresponding register 61a by the IOP5 and the plurality of CH7 (step S21 in FIG. 6 and step S31 in FIG. 7). At this time, the IOP5 sets a Mask Bit for the IOP Mask of the register 61a corresponding to all CH7 controlled by itself. Note that “0” that enables mutual monitoring or “1” that disables mutual monitoring is set in the IOP Mask and CH Mask.

また、IOP5により、自身が制御する全てのCH7に対応するレジスタ61aのIOP Aliveに対して、Alive Bit(“1”)の書込アクセスが実行される(図6のステップS22)。なお、このステップS22の処理は、IOP5により、一定時間ごとに(ステップS23)繰り返し実行される。
さらに、CH7により、自身のCH7に対応するレジスタ61aのCH Aliveに対して、Alive Bit(“1”)の書込アクセスが実行される(図7のステップS32)。なお、このステップS32の処理は、CH7により、一定時間ごとに(ステップS33)繰り返し実行される。
Also, the write access of Alive Bit (“1”) is executed by the IOP5 to the IOP Alive of the register 61a corresponding to all CH7 controlled by the IOP5 (step S22 in FIG. 6). Note that the processing in step S22 is repeatedly executed at regular time intervals (step S23) by IOP5.
Further, the write access of Alive Bit (“1”) is executed by CH7 to the CH Alive of the register 61a corresponding to its own CH7 (step S32 in FIG. 7). Note that the process of step S32 is repeatedly executed at regular time intervals (step S33) by CH7.

図5に示すように、BR6においては、レジスタ61aのIOP Mask及びCH Masに設定されたMask Bitがいずれも“0”であるか否かが判定される(ステップS1)。2つのMask Bitのうちの少なくとも一方が“1”である場合には(ステップS1のNoルート)、BR6により、これらのIOP5及びCH7は相互監視対象ではないと判断され、Mask Bitが更新されるまで待機される。   As shown in FIG. 5, in BR6, it is determined whether or not both Mask Bits set in the IOP Mask and CH Mas of the register 61a are “0” (step S1). When at least one of the two mask bits is “1” (No route in step S1), BR6 determines that these IOP5 and CH7 are not mutual monitoring targets, and the mask bit is updated. Wait until.

一方、IOP Mask及びCH Maskに設定された値がいずれも“0”である場合には(ステップS1のYesルート)、書込制御部62により、IOP5によるIOP Aliveへの書込アクセスがあったか否かが判定される(ステップS2)。IOP Aliveへの書込アクセスがあった場合(ステップS2のYesルート)、IOP Alive/CH Alive(アクセス状況)の値に応じて、ステップS3、S4、又はS6へ移行する。   On the other hand, when the values set in the IOP Mask and the CH Mask are both “0” (Yes route in Step S1), whether or not the write control unit 62 has made a write access to the IOP Alive by the IOP5. Is determined (step S2). When there is a write access to the IOP Alive (Yes route in Step S2), the process proceeds to Step S3, S4, or S6 depending on the value of the IOP Alive / CH Alive (access status).

アクセス状況が“00”である場合(ステップS2のYesルートからの“00”ルート)、書込制御部62により、IOP Alive/CH Aliveが“10”に更新され(ステップS3)、ステップS1に移行する。
一方、アクセス状況が“01”である場合(ステップS2のYesルートからの“01”ルート)、書込制御部62により、IOP Alive/CH Aliveが“00”に更新される(ステップS4)。また、書込制御部62により、閾値カウンタの値が“00”にリセットされ(ステップS5)、ステップS1に移行する。
If the access status is “00” (“00” route from the Yes route in Step S2), the write control unit 62 updates IOP Alive / CH Alive to “10” (Step S3), and then goes to Step S1. Transition.
On the other hand, when the access status is “01” (“01” route from the Yes route in step S2), the write control unit 62 updates IOP Alive / CH Alive to “00” (step S4). Further, the write control unit 62 resets the value of the threshold counter to “00” (step S5), and the process proceeds to step S1.

また、アクセス状況が“10”である場合(ステップS2のYesルートからの“10”ルート)、書込制御部62により、IOP Alive/CH Aliveが“10”に維持される(ステップS6)。また、書込制御部62により、閾値カウンタの値がインクリメントされる(ステップS7)。そして、障害検出部63により、閾値カウンタの値が所定の閾値である“11”であるか否かが判定される(ステップS8)。   If the access status is “10” (“10” route from the Yes route in step S2), the write control unit 62 maintains IOP Alive / CH Alive at “10” (step S6). Further, the value of the threshold counter is incremented by the write control unit 62 (step S7). Then, the failure detection unit 63 determines whether or not the value of the threshold counter is “11” which is a predetermined threshold (step S8).

閾値カウンタの値が“11”である場合(ステップS8のYesルート)、障害検出部63により、IOP Interruptに“1”が設定される(ステップS9)。そして、通知部64により、IOP5に対してCH7のハングアップ等の障害の発生が検出されたことが割り込みで通知され(ステップS10)、本説明におけるIOP5−1、BR6−1、及びCH7−1に係る相互監視処理が終了する。   When the value of the threshold counter is “11” (Yes route in step S8), the failure detection unit 63 sets “1” in IOP Interrupt (step S9). Then, the notification unit 64 notifies the IOP5 that the occurrence of a failure such as CH7 hang-up has been detected by interruption (step S10), and the IOP5-1, BR6-1, and CH7-1 in this description are notified. The mutual monitoring process related to is completed.

一方、ステップS8において、閾値カウンタの値が“11”ではない場合(ステップS8のNoルート)、ステップS1に移行する。
また、ステップS2において、IOP Aliveへの書込アクセスがなかった場合(ステップS2のNoルート)、書込制御部62により、CH7によるCH Aliveへの書込アクセスがあったか否かが判定される(ステップS11)。CH Aliveへの書込アクセスがあった場合(ステップS11のYesルート)、IOP Alive/CH Alive(アクセス状況)の値に応じて、ステップS12、S13、又はS15へ移行する。
On the other hand, if the value of the threshold counter is not “11” in step S8 (No route in step S8), the process proceeds to step S1.
In step S2, if there is no write access to the IOP Alive (No route in step S2), the write control unit 62 determines whether there is a write access to CH Alive by CH7 ( Step S11). When there is a write access to CH Alive (Yes route in step S11), the process proceeds to step S12, S13, or S15 depending on the value of IOP Alive / CH Alive (access status).

アクセス状況が“00”である場合(ステップS11のYesルートからの“00”ルート)、書込制御部62により、IOP Alive/CH Aliveが“01”に更新され(ステップS12)、ステップS1に移行する。
一方、アクセス状況が“10”である場合(ステップS11のYesルートからの“10”ルート)、書込制御部62により、IOP Alive/CH Aliveが“00”に更新される(ステップS13)。また、書込制御部62により、閾値カウンタの値が“00”にリセットされ(ステップS14)、ステップS1に移行する。
If the access status is “00” (“00” route from the Yes route in step S11), the write control unit 62 updates IOP Alive / CH Alive to “01” (step S12), and then goes to step S1. Transition.
On the other hand, when the access status is “10” (“10” route from the Yes route in step S11), the write control unit 62 updates IOP Alive / CH Alive to “00” (step S13). Further, the write control unit 62 resets the value of the threshold counter to “00” (step S14), and the process proceeds to step S1.

また、アクセス状況が“01”である場合(ステップS11のYesルートからの“01”ルート)、書込制御部62により、IOP Alive/CH Aliveが“01”に維持される(ステップS15)。また、書込制御部62により、閾値カウンタの値がインクリメントされる(ステップS16)。そして、障害検出部63により、閾値カウンタの値が所定の閾値である“11”であるか否かが判定される(ステップS17)。   If the access status is “01” (“01” route from the Yes route in step S11), the write control unit 62 maintains IOP Alive / CH Alive at “01” (step S15). Further, the value of the threshold counter is incremented by the write control unit 62 (step S16). Then, the failure detection unit 63 determines whether or not the value of the threshold counter is “11” which is a predetermined threshold (step S17).

閾値カウンタの値が“11”である場合(ステップS17のYesルート)、障害検出部63により、CH Interruptに“1”が設定される(ステップS18)。そして、通知部64により、CH7に対してIOP5のハングアップ等の障害の発生が検出されたことが割り込みで通知され(ステップS19)、本説明におけるIOP5−1、BR6−1、及びCH7−1に係る相互監視処理が終了する。   When the value of the threshold counter is “11” (Yes route in step S17), the failure detection unit 63 sets “1” in CH Interrupt (step S18). Then, the notification unit 64 notifies CH7 that the occurrence of a failure such as a hang-up of IOP5 has been detected by an interrupt (step S19), and IOP5-1, BR6-1, and CH7-1 in the present description. The mutual monitoring process related to is completed.

一方、ステップS17において、閾値カウンタの値が“11”ではない場合(ステップS17のNoルート)、ステップS1に移行する。
以上のように、BR6、IOP5、及びCH7における相互監視処理が実施される。
〔1−5−2〕切り離し処理
次に、IOP5及びCH7による、による、障害の発生が検出された装置の切り離し処理の一例を、図8及び図9を参照して説明する。
On the other hand, in step S17, when the value of the threshold counter is not “11” (No route in step S17), the process proceeds to step S1.
As described above, the mutual monitoring process in BR6, IOP5, and CH7 is performed.
[1-5-2] Disconnection Process Next, an example of an apparatus disconnection process in which the occurrence of a failure is detected by IOP5 and CH7 will be described with reference to FIGS.

図8に示すように、IOP5において、BR6からCH7のハングアップ等の障害の発生の通知がされると、IOP5により、障害が発生したCH7が識別される(ステップS41)。そして、IOP5により、識別したCH7に対応するレジスタ61aのIOP Maskに対して、障害が発生したCH7との相互監視を無効とする“1”のMask Bitが設定される(ステップS42)。   As shown in FIG. 8, when the occurrence of a failure such as a hang-up of CH7 is notified from BR6 in IOP5, CH7 in which the failure has occurred is identified by IOP5 (step S41). Then, the IOP5 sets a Mask Bit of “1” that invalidates the mutual monitoring with the failed CH7 for the IOP Mask of the register 61a corresponding to the identified CH7 (step S42).

そして、IOP5により、障害が発生したCH7とIO8との間の接続の切り離しが行なわれ(ステップS43)、処理が終了する。
一方、図9に示すように、CH7において、BR6からIOP5のハングアップ等の障害の発生の通知がされると、CH7により、対応するレジスタ61aのCH Maskに対して、障害が発生したIOP5と自身のCH7との相互監視を無効とする“1”のMask Bitが設定される(ステップS51)。
Then, the connection between CH7 and IO8 where the failure has occurred is disconnected by IOP5 (step S43), and the process ends.
On the other hand, as shown in FIG. 9, when the occurrence of a failure such as a hang-up of IOP5 is notified from BR6 to CH7, the CH7 of the corresponding register 61a is notified by CH7 to the IOP5 where the failure has occurred. A Mask Bit of “1” that disables mutual monitoring with its own CH7 is set (step S51).

そして、CH7により、自身のCH7とIO8との間の接続の切り離しが行なわれ(ステップS52)、処理が終了する。
以上のように、IOP5及びCH7における障害の発生が検出された装置の切り離し処理が実施される。
このように、本実施形態に係る情報処理システム1によれば、レジスタ61aに対して、IOP5及びCH7により所定時間ごとにAlive Bitの書き込みが行なわれる。また、障害検出部63により、IOP5及びCH7の各々による書き込みが監視され、監視結果に基づいて、IOP5及びCH7のうちのいずれか一方の装置に障害が発生したことが検出される。そして、通知部64により、障害検出部63により検出された上記一方の装置の障害の発生が、他方の装置へ通知される。
Then, the connection between its own CH7 and IO8 is disconnected by CH7 (step S52), and the process ends.
As described above, the disconnection process of the device in which the occurrence of the failure in IOP5 and CH7 is detected is performed.
As described above, according to the information processing system 1 according to the present embodiment, Alive Bit is written to the register 61a at predetermined time intervals by the IOP5 and CH7. The failure detection unit 63 monitors writing by each of the IOP5 and CH7, and detects that a failure has occurred in one of the IOP5 and CH7 based on the monitoring result. Then, the notification unit 64 notifies the other device of the occurrence of the failure of the one device detected by the failure detection unit 63.

ここで、上述したように、IOPは、複数のCHを制御するためビジー率が非常に高い。従って、IOPには、様々な処理を、効率良く短時間に行なうことが要求される。この点について、本実施形態に係るIOP5及びCH7は、自身のAlive BitをBR6に対して一定時間ごとに更新する処理を行なうだけで良い。これにより、IOP5及びCH7による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することができる。従って、IOP5及びCH7間のハングアップ等の障害の発生の相互監視を、効率よく実施することができる。   Here, as described above, the IOP has a very high busy rate because it controls a plurality of CHs. Therefore, IOP is required to perform various processes efficiently and in a short time. In this regard, the IOP 5 and CH 7 according to the present embodiment need only perform processing for updating their own Alive Bit to the BR 6 at regular intervals. Thereby, mutual monitoring by IOP5 and CH7 can be realized by simple control with reduced system processing load. Therefore, mutual monitoring of the occurrence of a failure such as a hang-up between IOP5 and CH7 can be performed efficiently.

また、IOP5やCH7における相互監視に係る処理時間を低減でき、IOP5又はCH7は、相手装置がハングアップ等していることを早期に検出することができるため、長時間のシステム停止を防ぐことができる。
さらに、本実施形態に係る情報処理システム1によれば、IOP5及びCH7の相互監視処理の制御(アクセス)対象が、BR6内部のレジスタ61aとなる。このため、IOP5及びCH7は、レジスタ61aへの書き込みのための制御のみを実施すれば良く、図11に示したようなMS3へアクセスすることによる処理負荷や処理時間の増加を抑止し、より高速且つ簡素な動作とすることができる。
Also, the processing time for mutual monitoring in IOP5 and CH7 can be reduced, and IOP5 or CH7 can detect that the counterpart device is hung up at an early stage, thereby preventing a long-term system stoppage. it can.
Furthermore, according to the information processing system 1 according to the present embodiment, the control (access) target of the mutual monitoring process of the IOP 5 and CH 7 is the register 61 a in the BR 6. For this reason, the IOP 5 and CH 7 need only perform control for writing to the register 61a, suppress an increase in processing load and processing time due to access to the MS 3 as shown in FIG. And it can be set as a simple operation.

〔2〕その他
以上、本発明の好ましい実施形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
例えば、上述した一実施形態では、1つのIOP5と複数のCH7との間に介設されたBR6における構成について説明したが、複数のIOP5と複数のCH7との間に介設されたBR6に対しても、図2に示すBR6の構成を適用することができる。この場合、複数のIOP5は、それぞれの制御対象であるCH7に対応するレジスタ61aに対してのみ、IOP Maskを無効、つまり監視対象であることを示すMask Bitを設定すれば良い。
[2] Others While the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to such specific embodiments, and various modifications and changes can be made without departing from the spirit of the present invention. It can be changed and implemented.
For example, in the above-described embodiment, the configuration of the BR6 interposed between one IOP5 and a plurality of CH7 has been described. However, with respect to the BR6 interposed between the plurality of IOP5 and the plurality of CH7, However, the configuration of BR6 shown in FIG. 2 can be applied. In this case, the plurality of IOPs 5 need only set the Mask Bit indicating that the IOP Mask is invalid, that is, the monitoring target, only for the register 61a corresponding to the control target CH7.

また、上述した一実施形態では、レジスタ61aは、IOP Interrupt及びCH Interruptのビットを備えるものとして説明したが、例えば2ビットで構成されたInterruptのビット(第4領域)を1つ備えるものとしても良い。この場合、障害検出部63は、CH7の障害の発生を検出するとInterruptに例えば“01”を設定し、IOP5の障害の発生を検出するとInterruptに例えば“10”を設定するように構成することができる。そして、通知部64は、Interruptの値(第4情報)を監視し、又は障害検出部63から通知され、例えば“01”の場合にはIOP5への割り込み通知を行ない、“10”の場合にはCH7への割り込み通知を行なうこととしても良い。   In the above-described embodiment, the register 61a has been described as including IOP Interrupt and CH Interrupt bits. However, for example, the register 61a may include one Interrupt bit (fourth area) configured by 2 bits. good. In this case, the failure detection unit 63 may be configured to set, for example, “01” to Interrupt when detecting the occurrence of CH7 failure, and to set, for example, “10” to Interrupt when the occurrence of failure of IOP5 is detected. it can. The notification unit 64 monitors the value of the Interrupt (fourth information) or is notified from the failure detection unit 63. For example, in the case of “01”, the interrupt notification to the IOP 5 is performed, and in the case of “10”. May also issue an interrupt notification to CH7.

さらに、図1に示す情報処理システム1は、それぞれ2つのCPU2、MS3、IOP5、BR6、及びIO8、1つのSC4、並びに4つのCH7を有するものとして説明したが、各装置の台数は、図1に示すものに限定されるものではない。
また、図2に示す書込制御部62、障害検出部63、及び通知部64の機能は、任意に併合又は分割しても良い。
Further, the information processing system 1 illustrated in FIG. 1 has been described as having two CPUs 2, MS3, IOP5, BR6, and IO8, one SC4, and four CH7. It is not limited to what is shown in.
Further, the functions of the write control unit 62, the failure detection unit 63, and the notification unit 64 shown in FIG. 2 may be arbitrarily merged or divided.

なお、前記目的に限らず、上述した発明を実施するための最良の形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本件の他の目的の一つとして位置付けることができる。
〔3〕付記
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
第1の装置と第2の装置との間に介設された接続装置であって、
前記第1の装置により、所定時間ごとに第1情報の書き込みが行なわれるとともに、前記第2の装置により、所定時間ごとに第2情報の書き込みが行なわれる保持部と、
前記第1及び第2の装置の各々による前記保持部への書き込みを監視し、前記監視結果に基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出する検出部と、
前記検出部により検出された前記一方の装置の障害の発生を、他方の装置へ通知する通知部と、
を有することを特徴とする、接続装置。
(付記2)
前記検出部は、前記他方の装置による前記保持部への前記第1又は第2情報の書き込みが所定の回数連続して行なわれた場合に、前記一方の装置に障害が発生したことを検出することを特徴とする、付記1記載の接続装置。
(付記3)
前記保持部は、
前記第1の装置からの前記第1情報が設定される第1領域と、
前記第2の装置からの前記第2情報が設定される第2領域と、を備え、
前記第1又は第2の装置による前記保持部への前記第1又は第2情報の書込アクセスがあった場合に、前記第1及び第2領域に設定された値が示すアクセス状況に応じて、前記第1及び第2領域の状態の更新を行なう書込制御部をさらに有することを特徴とする、付記2記載の接続装置。
(付記4)
前記他方の装置により前記保持部に対して前記第1又は第2情報の連続した書込アクセスがあった回数を示すカウンタをさらに有し、
前記書込制御部は、前記第1又は第2の装置による前記書込アクセスがあった場合に、前記アクセス状況に応じて前記カウンタの制御を行ない、
前記検出部は、前記カウンタの値が所定の閾値に達した場合に、前記アクセス状況に応じて前記一方の装置に障害が発生したことを検出することを特徴とする、付記3記載の接続装置。
(付記5)
前記接続装置は、前記第1の装置と、複数の前記第2の装置との間に介設され、
前記保持部は、
前記複数の第2の装置ごとに、前記第1及び第2領域を含む記憶領域であって所定時間ごとに前記第1及び第2情報の書き込みが行なわれる記憶領域を備えることを特徴とする、付記3又は付記4記載の接続装置。
(付記6)
前記書込制御部は、
前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行ない、
前記複数の第2の装置のうちのいずれか一つの第2の装置による前記保持部への前記第2情報の書込アクセスがあった場合、前記一つの第2の装置に対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記5記載の接続装置。
(付記7)
前記複数の記憶領域の各々は、対応する前記第2の装置が前記検出部による障害の検出対象であるか否かを示す第3情報が設定される第3領域をさらに備え、
前記書込制御部は、前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域の前記第3領域に設定された前記第3情報に応じて、前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記5又は付記6記載の接続装置。
(付記8)
前記保持部は、前記第1又は第2の装置の障害の発生が検出されたことを示す第4情報が設定される第4領域をさらに備え、
前記検出部は、前記一方の装置に障害が発生したことを検出した場合に、前記第4領域に対して、前記一方の装置の障害の発生が検出されたことを示す前記第4情報を設定し、
前記通知部は、前記第4領域に設定された前記第4情報に基づいて、前記一方の装置の障害の発生を、前記他方の装置へ通知することを特徴とする、付記1〜7のいずれか1項記載の接続装置。
(付記9)
第1及び第2の装置の監視方法であって、
前記第1の装置と第2の装置との間に介設された接続装置により、
前記第1の装置による所定時間ごとの前記接続装置が有する保持部への第1情報の書き込みを監視するとともに、前記第2の装置による所定時間ごとの前記保持部への第2情報の書き込みを監視し、
前記監視結果に基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出し、
検出された前記一方の装置の障害の発生を、他方の装置へ通知する、
ことを特徴とする、監視方法。
(付記10)
前記検出する処理において、前記他方の装置による前記保持部への前記第1又は第2情報の書き込みが所定の回数連続して行なわれた場合に、前記一方の装置に障害が発生したことを検出することを特徴とする、付記9記載の監視方法。
(付記11)
前記保持部は、
前記第1の装置からの前記第1情報が設定される第1領域と、
前記第2の装置からの前記第2情報が設定される第2領域と、を備え、
前記接続装置により、前記第1又は第2の装置による前記保持部への前記第1又は第2情報の書込アクセスがあった場合に、前記第1及び第2領域に設定された値が示すアクセス状況に応じて、前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記10記載の監視方法。
(付記12)
前記更新を行なう処理において、前記第1又は第2の装置による前記書込アクセスがあった場合に、前記アクセス状況に応じて、前記他方の装置により前記保持部に対して前記第1又は第2情報の連続した書込アクセスがあった回数を示すカウンタの制御を行ない、
前記検出する処理において、前記カウンタの値が所定の閾値に達した場合に、前記アクセス状況に応じて前記一方の装置に障害が発生したことを検出することを特徴とする、付記11記載の監視方法。
(付記13)
前記接続装置は、前記第1の装置と、複数の前記第2の装置との間に介設され、
前記保持部は、
前記複数の第2の装置ごとに、前記第1及び第2領域を含む記憶領域であって所定時間ごとに前記第1及び第2情報の書き込みが行なわれる記憶領域を備えることを特徴とする、付記11又は付記12記載の監視方法。
(付記14)
前記更新を行なう処理において、
前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行ない、
前記複数の第2の装置のうちのいずれか一つの第2の装置による前記保持部への前記第2情報の書込アクセスがあった場合、前記一つの第2の装置に対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記13記載の監視方法。
(付記15)
前記複数の記憶領域の各々は、対応する前記第2の装置が前記検出部による障害の検出対象であるか否かを示す第3情報が設定される第3領域をさらに備え、
前記更新を行なう処理において、前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域の前記第3領域に設定された前記第3情報に応じて、前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記13又は付記14記載の監視方法。
(付記16)
前記保持部は、前記第1又は第2の装置の障害の発生が検出されたことを示す第4情報が設定される第4領域をさらに備え、
前記検出する処理において、前記一方の装置に障害が発生したことを検出した場合に、前記第4領域に対して、前記一方の装置の障害の発生が検出されたことを示す前記第4情報を設定し、
前記通知する処理において、前記第4領域に設定された前記第4情報に基づいて、前記一方の装置の障害の発生を、前記他方の装置へ通知することを特徴とする、付記9〜15のいずれか1項記載の監視方法。
(付記17)
第1の装置と第2の装置との間に介設され、保持部及び制御回路を有する接続装置であって、
前記制御回路は、
前記第1の装置による所定時間ごとの前記保持部への第1情報の書き込みを監視するとともに、前記第2の装置による所定時間ごとの前記保持部への第2情報の書き込みを監視し、
前記監視結果に基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出し、
検出された前記一方の装置の障害の発生を、他方の装置へ通知する、
ことを特徴とする、接続装置。
In addition, the present invention is not limited to the above-described object, and is an operational effect derived from each configuration shown in the best mode for carrying out the invention described above. It can be positioned as one of the purposes.
[3] Appendix
Regarding the above embodiment, the following additional notes are disclosed.
(Appendix 1)
A connection device interposed between the first device and the second device,
A holding unit that writes the first information every predetermined time by the first device, and writes the second information every predetermined time by the second device;
The writing to the holding unit by each of the first and second devices is monitored, and a failure has occurred in one of the first and second devices based on the monitoring result. A detection unit for detecting
A notification unit for notifying the other device of the occurrence of a failure of the one device detected by the detection unit;
A connection device characterized by comprising:
(Appendix 2)
The detection unit detects that a failure has occurred in the one device when the first or second information is continuously written to the holding unit by the other device a predetermined number of times. The connection device as set forth in appendix 1, wherein:
(Appendix 3)
The holding part is
A first region in which the first information from the first device is set;
A second area in which the second information from the second device is set,
When there is a write access of the first or second information to the holding unit by the first or second device, depending on the access status indicated by the values set in the first and second areas The connection device according to appendix 2, further comprising a write control unit that updates the states of the first and second regions.
(Appendix 4)
A counter indicating the number of times the first or second information has been continuously written to the holding unit by the other device;
The write control unit controls the counter according to the access status when the write access is made by the first or second device.
The connection device according to appendix 3, wherein the detection unit detects that a failure has occurred in the one device according to the access status when the value of the counter reaches a predetermined threshold value. .
(Appendix 5)
The connection device is interposed between the first device and a plurality of the second devices,
The holding part is
Each of the plurality of second devices includes a storage area including the first and second areas, and the first and second information are written at predetermined time intervals. The connection device according to Supplementary Note 3 or Supplementary Note 4.
(Appendix 6)
The write control unit
When there is a write access of the first information to the holding unit by the first device, the state of the first and second regions with respect to the storage region corresponding to each of the plurality of second devices Update
The storage area corresponding to the one second device when there is a write access of the second information to the holding unit by any one second device among the plurality of second devices The connection device according to appendix 5, wherein the state of the first and second regions is updated.
(Appendix 7)
Each of the plurality of storage areas further includes a third area in which third information indicating whether or not the corresponding second device is a failure detection target by the detection unit is set.
The write control unit, when there is a write access of the first information to the holding unit by the first device, the third region of the storage region corresponding to each of the plurality of second devices The connection device according to appendix 5 or appendix 6, wherein the state of the first and second areas is updated with respect to the storage area in accordance with the third information set in (5).
(Appendix 8)
The holding unit further includes a fourth region in which fourth information indicating that a failure of the first or second device is detected is set;
When the detection unit detects that a failure has occurred in the one device, the detection unit sets the fourth information indicating that a failure has occurred in the one device in the fourth area. And
The notification unit notifies the occurrence of a failure of the one device to the other device based on the fourth information set in the fourth region. The connection device according to claim 1.
(Appendix 9)
A monitoring method for first and second devices, comprising:
By a connection device interposed between the first device and the second device,
The first device monitors the writing of the first information to the holding unit of the connecting device every predetermined time, and the second device writes the second information to the holding unit every predetermined time. Monitor
Based on the monitoring result, detecting that a failure has occurred in any one of the first and second devices,
Notifying the other device of the occurrence of the detected failure of the one device;
A monitoring method characterized by the above.
(Appendix 10)
In the detecting process, when the first device or the second information is continuously written to the holding unit by the other device for a predetermined number of times, it is detected that a failure has occurred in the one device. The monitoring method according to appendix 9, wherein:
(Appendix 11)
The holding part is
A first region in which the first information from the first device is set;
A second area in which the second information from the second device is set,
The value set in the first and second areas is indicated when the connection device has a write access of the first or second information to the holding unit by the first or second device. The monitoring method according to appendix 10, wherein the states of the first and second areas are updated according to an access situation.
(Appendix 12)
In the process of performing the update, when there is the write access by the first or second device, the other device performs the first or second on the holding unit according to the access status. Control the counter that indicates the number of times the information has been continuously written and accessed,
The monitoring according to claim 11, wherein in the detection process, when the value of the counter reaches a predetermined threshold value, it is detected that a failure has occurred in the one device according to the access status. Method.
(Appendix 13)
The connection device is interposed between the first device and a plurality of the second devices,
The holding part is
Each of the plurality of second devices includes a storage area including the first and second areas, and the first and second information are written at predetermined time intervals. The monitoring method according to Supplementary Note 11 or Supplementary Note 12.
(Appendix 14)
In the process of performing the update,
When there is a write access of the first information to the holding unit by the first device, the state of the first and second regions with respect to the storage region corresponding to each of the plurality of second devices Update
The storage area corresponding to the one second device when there is a write access of the second information to the holding unit by any one second device among the plurality of second devices The monitoring method according to appendix 13, wherein the states of the first and second areas are updated.
(Appendix 15)
Each of the plurality of storage areas further includes a third area in which third information indicating whether or not the corresponding second device is a failure detection target by the detection unit is set.
In the update process, when there is a write access of the first information to the holding unit by the first device, the third region of the storage region corresponding to each of the plurality of second devices 15. The monitoring method according to appendix 13 or appendix 14, wherein the state of the first and second areas is updated with respect to the storage area in accordance with the third information set in the above.
(Appendix 16)
The holding unit further includes a fourth region in which fourth information indicating that a failure of the first or second device is detected is set;
In the detection process, when it is detected that a failure has occurred in the one device, the fourth information indicating that a failure has occurred in the one device is detected for the fourth area. Set,
In the notifying process, the occurrence of a failure in the one device is notified to the other device based on the fourth information set in the fourth area. The monitoring method according to any one of the above.
(Appendix 17)
A connection device interposed between the first device and the second device and having a holding unit and a control circuit,
The control circuit includes:
Monitoring the writing of the first information to the holding unit every predetermined time by the first device, and monitoring the writing of the second information to the holding unit every predetermined time by the second device;
Based on the monitoring result, detecting that a failure has occurred in any one of the first and second devices,
Notifying the other device of the occurrence of the detected failure of the one device;
A connection device characterized by that.

1,100 情報処理装置
2,2−1,2−2,200−1,200−2 CPU
3,3−1,3−2,300−1,300−2 メモリ装置
4,400 システム制御装置
5,5−1,5−2 入出力処理装置(第1の装置)
500−1,500−2 入出力処理装置
6,6−1,6−2 ブリッジ装置(接続装置)
60 相互監視チェック制御回路
60a 制御回路
61 相互監視レジスタ(保持部)
61a,61a−1〜61a−(n+1) レジスタ(記憶領域)
62 書込制御部
63 障害検出部(検出部)
64 通知部
65,66 バス制御回路
600−1,600−2 ブリッジ装置
7,7−1〜7−(n+1) チャネル装置(第2の装置)
700−1〜700−4 チャネル装置
8,8−1,8−2,800−1,800−2 入出力装置
1,100 Information processing device 2, 2-1, 2-2, 200-1, 200-2 CPU
3,3-1,3-2,300-1,300-2 Memory device 4,400 System controller 5,5-1,5-2 I / O processing device (first device)
500-1,500-2 Input / output processing device 6,6-1,6-2 Bridge device (connection device)
60 Mutual monitoring check control circuit 60a Control circuit 61 Mutual monitoring register (holding unit)
61a, 61a-1 to 61a- (n + 1) registers (storage areas)
62 Write control unit 63 Fault detection unit (detection unit)
64 Notification unit 65, 66 Bus control circuit 600-1, 600-2 Bridge device 7, 7-1 to 7- (n + 1) Channel device (second device)
700-1 to 700-4 channel device 8,8-1,8-2,800-1,800-2 input / output device

Claims (6)

第1の装置と第2の装置との間に介設された接続装置であって、
前記第1の装置によりアクセスされる第1ビット領域と、前記第2の装置によりアクセスされる第2ビット領域とを有するレジスタ部と、
前記第1の装置からの前記第1ビット領域へのアクセスを検出すると、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに基づき、前記第1ビット領域の値を制御するとともに、前記第2の装置からの前記第2ビット領域へのアクセスを検出すると、前記値の組み合わせに基づき、前記第2ビット領域の値を制御する書込制御部と、
前記第1及び第2の装置の各々による前記レジスタ部へのアクセスを監視し、監視結果と前記値の組み合わせとに基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出する検出部と、
前記検出部により検出された前記一方の装置の障害の発生を、他方の装置へ通知する通知部と、
を有することを特徴とする、接続装置。
A connection device interposed between the first device and the second device,
A register unit having a first bit area accessed by the first device and a second bit area accessed by the second device;
When access to the first bit area from the first device is detected, the value of the first bit area is controlled based on a combination of values set in the first bit area and the second bit area, respectively. And, upon detecting access to the second bit area from the second device, based on the combination of values, a write control unit that controls the value of the second bit area;
To monitor access to the register unit by each of said first and second devices, based on a combination of monitoring results and the value, one of the devices of the first and second device A detection unit for detecting that a failure has occurred;
A notification unit for notifying the other device of the occurrence of a failure of the one device detected by the detection unit;
A connection device characterized by comprising:
前記検出部は、前記他方の装置による前記レジスタ部へのアクセスが所定の回数連続して行なわれた場合に、前記一方の装置に障害が発生したことを検出することを特徴とする、請求項1記載の接続装置。 Wherein the detection unit, when the access to the register unit by the other device is performed continuously for the predetermined number of times, and detects that a failure has occurred in the one apparatus, according to claim 1 connection equipment described. 前記他方の装置により前記レジスタ部に対して連続した書込アクセスがあった回数を示すカウンタをさらに有し、
前記書込制御部は、前記第1又は第2の装置による前記書込アクセスがあった場合に、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに応じて前記カウンタの制御を行ない、
前記検出部は、前記カウンタの値が所定の閾値に達した場合に、前記値の組み合わせに応じて前記一方の装置に障害が発生したことを検出することを特徴とする、請求項記載の接続装置。
Further comprising a counter that indicates the number of times there was a continuous beneath write access to the register by the other device,
When the write access is made by the first or second device, the write control unit is configured to change the counter according to a combination of values set in the first bit area and the second bit area, respectively. Control
The detection unit according to claim 2 , wherein when the value of the counter reaches a predetermined threshold, the detection unit detects that a failure has occurred in the one device according to the combination of the values . Connected device.
前記接続装置は、前記第1の装置と、複数の前記第2の装置との間に介設され、
前記レジスタ部は、
前記複数の第2の装置の各々について、前記第1及び第2ビット領域を含む記憶領域であって所定時間ごとに前記第1の装置及び前記複数の第2の装置からアクセスされる記憶領域を備えることを特徴とする、請求項1〜3のいずれか1項記載の接続装置。
The connection device is interposed between the first device and a plurality of the second devices,
The register unit is
For each of the plurality of second devices , a storage region that includes the first and second bit regions and is accessed from the first device and the plurality of second devices every predetermined time. The connection device according to claim 1, further comprising a connection device.
前記複数の記憶領域の各々は、対応する前記第2の装置が前記検出部による障害の検出対象であるか否かを示す情報が設定される第3ビット領域をさらに備え、  Each of the plurality of storage areas further includes a third bit area in which information indicating whether or not the corresponding second device is a failure detection target by the detection unit is set;
前記書込制御部は、前記第1の装置による前記レジスタ部への書込アクセスがあった場合、前記複数の第2の装置のそれぞれに対応する前記記憶領域の前記第3ビット領域に設定された前記情報に応じて、前記記憶領域に対して前記第1及び第2ビット領域の値を制御することを特徴とする、請求項4記載の接続装置。  The write control unit is set in the third bit area of the storage area corresponding to each of the plurality of second devices when there is a write access to the register unit by the first device. 5. The connection apparatus according to claim 4, wherein values of the first and second bit areas are controlled for the storage area in accordance with the information.
第1及び第2の装置の監視方法であって、
前記第1の装置と第2の装置との間に介設された接続装置により、
前記第1の装置によりアクセスされる第1ビット領域と、前記第2の装置によりアクセスされる第2ビット領域とを有するレジスタ部に対する、前記第1の装置からの前記第1ビット領域へのアクセスを検出すると、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに基づき、前記第1ビット領域の値を制御し、
前記第2の装置からの前記第2ビット領域へのアクセスを検出すると、前記値の組み合わせに基づき、前記第2ビット領域の値を制御し、
前記第1及び第2の装置の各々による前記レジスタ部へのアクセスを監視し、
視結果と前記値の組み合わせとに基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出し、
検出された前記一方の装置の障害の発生を、他方の装置へ通知する、
ことを特徴とする、監視方法。
A monitoring method for first and second devices, comprising:
By a connection device interposed between the first device and the second device,
Access to the first bit region from the first device for a register unit having a first bit region accessed by the first device and a second bit region accessed by the second device , Based on a combination of values set in the first bit area and the second bit area, respectively, to control the value of the first bit area,
Upon detecting access to the second bit area from the second device, based on the combination of values, control the value of the second bit area,
Monitoring access to the register unit by each of the first and second devices;
Based on a combination of monitoring results and the value, it detects that a failure has occurred in one of the devices of said first and second devices,
Notifying the other device of the occurrence of the detected failure of the one device;
A monitoring method characterized by the above.
JP2014532624A 2012-08-29 2012-08-29 Connection device and monitoring method Active JP5954420B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2012/071778 WO2014033847A1 (en) 2012-08-29 2012-08-29 Connection device and monitoring method

Publications (2)

Publication Number Publication Date
JP5954420B2 true JP5954420B2 (en) 2016-07-20
JPWO2014033847A1 JPWO2014033847A1 (en) 2016-08-08

Family

ID=50182697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014532624A Active JP5954420B2 (en) 2012-08-29 2012-08-29 Connection device and monitoring method

Country Status (2)

Country Link
JP (1) JP5954420B2 (en)
WO (1) WO2014033847A1 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2767857B2 (en) * 1989-02-07 1998-06-18 株式会社デンソー Control system having a plurality of processor units
JP4431069B2 (en) * 2005-02-22 2010-03-10 パナソニック株式会社 Load balancer
WO2008126325A1 (en) * 2007-03-30 2008-10-23 Fujitsu Limited Cluster system, software updating method, service provision node, and program for service provision
JP5532687B2 (en) * 2009-06-03 2014-06-25 日本電気株式会社 Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system

Also Published As

Publication number Publication date
WO2014033847A1 (en) 2014-03-06
JPWO2014033847A1 (en) 2016-08-08

Similar Documents

Publication Publication Date Title
JP6003350B2 (en) Monitoring device, information processing device, and monitoring method
JP5347414B2 (en) Synchronization control device, information processing device, and synchronization management method
US8117494B2 (en) DMI redundancy in multiple processor computer systems
EP3985512B1 (en) Robust hardware/software error recovery system
JP2011048534A (en) Fault tolerant computer and power control method
JP6853162B2 (en) Semiconductor device
US10360115B2 (en) Monitoring device, fault-tolerant system, and control method
JP5277961B2 (en) Information processing apparatus and failure concealing method thereof
WO2015135100A1 (en) Method for switching processors, computer, and switching apparatus
JP4973703B2 (en) Failure detection method and monitoring device
JP5299281B2 (en) Information processing apparatus and control method
JPWO2010100757A1 (en) Arithmetic processing system, resynchronization method, and farm program
JP5954420B2 (en) Connection device and monitoring method
JP6148129B2 (en) Information processing apparatus, firmware update method, and firmware update program
JP6135403B2 (en) Information processing system and information processing system failure processing method
JP7151637B2 (en) Information processing device, control method for information processing device, and control program for information processing device
US9176806B2 (en) Computer and memory inspection method
US20160321149A1 (en) Computer apparatus and computer mechanism
JP5439736B2 (en) Computer management system, computer system management method, and computer system management program
JP2007058549A (en) Multi-computer module system, multi-computer module method, and program
JP2009294758A (en) Virtual computer system and driver program for host bus adapter
JP6519266B2 (en) Information processing apparatus, device, recovery method, and computer program
JP2014235503A (en) Information processing device, information processing system, hard disk failure detection method, service continuation method, hard disk failure detection program, and service continuation program
JP2015082238A (en) Notification device and notification method
JP2013182519A (en) Computer, firmware management method, and bmc

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160530

R150 Certificate of patent (=grant) or registration of utility model

Ref document number: 5954420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150