JP5954420B2 - Connection device and monitoring method - Google Patents
Connection device and monitoring method Download PDFInfo
- Publication number
- JP5954420B2 JP5954420B2 JP2014532624A JP2014532624A JP5954420B2 JP 5954420 B2 JP5954420 B2 JP 5954420B2 JP 2014532624 A JP2014532624 A JP 2014532624A JP 2014532624 A JP2014532624 A JP 2014532624A JP 5954420 B2 JP5954420 B2 JP 5954420B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- iop
- alive
- bit
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
Description
本発明は、接続装置、及び監視方法に関する。 The present invention relates to a connection device and a monitoring method.
メインフレームをはじめとする情報処理システムには、システム内の一部の装置やパス等が故障してもシステムダウンとならないような耐障害性が要求されることがある。
図10は、情報処理システム100の構成例を示す図である。図10に示すように、情報処理システム100は、2つのCPU(Central Processing Unit)200−1及び200−2、並びに2つのメモリ装置(Memory Storage;以下、MSという)300−1及び300−2を有する。また、情報処理システム100は、システム制御装置(System Controller;以下、SCという)400を有する。CPU200−1及び200−2、並びにMS300−1及び300−2は、それぞれSC400に接続され、冗長化されている。この構成により、情報処理システム100は、CPU200−1、200−2、MS300−1、又は300−2に障害が発生した場合、障害個所を切り離すことでシステムダウンを回避することができる。なお、以下、MS300−1及び300−2を区別しない場合には、単にMS300という。An information processing system such as a mainframe may be required to have fault tolerance so that the system does not go down even if some devices or paths in the system fail.
FIG. 10 is a diagram illustrating a configuration example of the
また、図10に示すように、情報処理システム100は、2つの入出力処理装置(Input Output Processor;以下、IOPという)500−1及び500−2、並びに2つのブリッジ装置(BRidge;以下、BRという)600−1及び600−2を有する。さらに、情報処理システム100は、4つのチャネル装置(CHannel;以下、CHという)700−1〜700−4、並びに2つの入出力装置(Input Output;以下、IOという)800−1及び800−2を有する。なお、図10及び後述する図11において、IOP500−1及び500−2はそれぞれIOP#0及び#1と表記し、CH700−1〜700−4はそれぞれCH#0〜#3と表記する場合がある。
As shown in FIG. 10, the
IOP500−1は、SC400、BR600−1を経由してCH700−1及び700−2を制御し、IOP500−2は、SC400、BR600−2を経由してCH700−3及び700−4を制御する。また、CH700−1及び700−3は、IO800−1に接続され、MS300とIO800−1との間のデータ転送を制御し、CH700−2及び700−4は、IO800−2に接続され、MS300とIO800−2との間のデータ転送を制御する。
The IOP 500-1 controls the CHs 700-1 and 700-2 via the SC 400 and the BR 600-1, and the IOP 500-2 controls the CHs 700-3 and 700-4 via the SC 400 and the BR 600-2. The CHs 700-1 and 700-3 are connected to the IO 800-1, and control data transfer between the
情報処理システム100においては、CPU200−1又は200−2は、IOアクセスが発生した場合、IOP500−1又は500−2にIO命令を渡して、IO800−1又は800−2へのIOアクセスを実行させる。IOP500−1及び500−2は、例えばIO800−1へアクセスするために、IOP500−1、CH700−1、IO800−1のパス(系列)、及び、IOP500−2、CH700−3、IO800−1のパス(系列)の2つのパスを用いることができる。これにより、情報処理システム100は、IO系についても複数パスで構成されるため、一方のパスが故障しても、もう一方のパスが正常であればシステムダウンを回避して動作を継続することができる。
In the
図10に示す情報処理システム100では、システム内の装置やパス等が故障した場合に、故障個所を早期に検出し、故障していない正常なパスを用いるアクセスに切り替えることが重要である。
関連する技術として、システム内の装置やパス等の故障を検出するために、システム内の2つの装置が、メモリを介して相手装置の生存を相互に監視する手法が知られている(例えば、特許文献1及び特許文献2参照)。In the
As a related technique, in order to detect a failure such as a device or a path in the system, a method in which two devices in the system mutually monitor the survival of the partner device via a memory is known (for example, (See
図11は、装置間の相互監視の手順の一例を示す図である。図11に示すように、情報処理システム100のIO系のパスを構成する第1の装置(IOP#0及び#1)、並びに第2の装置(CH700#0〜#4)は、MS300を介して相手装置の生存を相互に監視する。なお、MS300は、CH#0〜#3ごとに、領域1及び領域2の記憶領域を備える。
FIG. 11 is a diagram illustrating an example of a mutual monitoring procedure between apparatuses. As shown in FIG. 11, the first devices (
各装置による相互監視は、以下の(i)〜(vi)の手順により行なわれる。
(i)CH#0は、一定時間ごとに、MS300上の領域1を任意の値(例えば所定の値)に更新する。
(ii)CH#0は、一定時間ごとに、MS300上の領域2の値をフェッチし、前回フェッチした値と比較して不一致であることを確認する。なお、CH#0は、3回以上連続して前回フェッチした値と一致した値をフェッチした場合に、IOP#0がハングアップしているものとみなす。Mutual monitoring by each device is performed by the following procedures (i) to (vi).
(I)
(Ii)
(iii)CH#0以外のCH#1〜#3も、同様の制御を行なう。
(iv)IOP#0は、一定時間ごとに、CH#0の領域1の値と領域2の値とを比較して不一致であることを確認する。なお、IOP#0は、3回以上連続してCH#0の領域1の値と領域2の値とが一致している場合に、CH#0がハングアップしているものとみなす。(Iii) The same control is performed for
(Iv) The
(v)IOP#0は、参照したCH#0の領域1の値をCH#0の領域2にストアする。
(vi)IOP#0は、CH#0以外のCH#1についても、CH#0と同様にチェックする。また、IOP#1は、CH#2及び#3について、IOP#0と同様のチェックを行なう。(V) The
(Vi)
上記の(i)〜(vi)の手順を繰り返すことにより、IOP#0及び#1、並びにCH#0〜#3は、相互監視を実施する。このように、IOP#0及び#1、並びにCH#0〜#3は、MS300を定期的に更新することで、MS300の更新が実施されているか否かを監視し、相手装置の異常を検出する。
By repeating the above steps (i) to (vi), the
IOPは、複数のCHを制御するためにビジー率が非常に高い。従って、IOPには、様々な処理を効率良く短時間に行なうことが要求される。
しかしながら、図11に示す例では、IOP#0及び#1は、上記手順の(iv)〜(vi)において、MS300(領域1及び領域2)を参照しながら1CHずつチェックを行なう。つまり、IOP#0及び#1には、複数のCH#0〜#3の制御に要する処理負荷及び処理時間に加えて、相互監視のチェックに要する処理負荷及び処理時間が発生する。IOP has a very high busy rate for controlling a plurality of CHs. Therefore, IOP is required to perform various processes efficiently and in a short time.
However, in the example shown in FIG. 11,
例えば情報処理システム100がメインフレーム等の大規模なシステムである場合には、CH数が非常に多くなるため、IOP#0及び#1において、チェックに要する処理負荷及び処理時間が増大してしまう。これにより、IOP#0及び#1のビジー率が高くなるとともに、ビジー状態の継続時間が長くなり、システムのパフォーマンスに影響を与えることになる。
For example, when the
また、図11に示す例では、CH#0〜#3は、上記手順の(i)〜(iii)において、BR600−1又は600−2、並びにSC400を介してMS300へアクセスを行なう。このとき、CH#0〜#3によるMS300へのアクセス及びチェックに要する処理負荷及び処理時間が発生する。さらに、CH数が多い場合には、CH#0〜#nによるMS300へのアクセスが発生するため、BR600−1又は600−2、並びにSC400における処理負荷も増加する。
In the example shown in FIG. 11,
このように、図11に示す例では、IOP#0及び#1、並びにCH#0〜#4の相互監視により、情報処理システム100の処理負荷が増大し、パフォーマンスを低下させるという問題がある。
1つの側面では、本発明は、第1の装置及び第2の装置による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することを目的とする。As described above, in the example illustrated in FIG. 11, there is a problem in that the processing load of the
In one aspect, an object of the present invention is to realize mutual monitoring by a first device and a second device by simple control with a reduced processing load on the system.
本件の接続装置は、第1の装置と第2の装置との間に介設された接続装置であって、前記第1の装置によりアクセスされる第1ビット領域と、前記第2の装置によりアクセスされる第2ビット領域とを有するレジスタ部と、前記第1の装置からの前記第1ビット領域へのアクセスを検出すると、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに基づき、前記第1ビット領域の値を制御するとともに、前記第2の装置からの前記第2ビット領域へのアクセスを検出すると、前記値の組み合わせに基づき、前記第2ビット領域の値を制御する書込制御部と、前記第1及び第2の装置の各々による前記レジスタ部へのアクセスを監視し、監視結果と前記値の組み合わせとに基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出する検出部と、前記検出部により検出された前記一方の装置の障害の発生を、他方の装置へ通知する通知部と、を有する。 The connection device of the present invention is a connection device interposed between the first device and the second device, and includes a first bit area accessed by the first device , and the second device. A register unit having a second bit area to be accessed, and a value set in each of the first bit area and the second bit area upon detecting access to the first bit area from the first device; And controlling the value of the first bit area based on the combination of the values, and detecting the access to the second bit area from the second device, the value of the second bit area based on the combination of the values a write control unit for controlling, monitoring access to each by the register unit of the first and second devices, based on a combination of monitoring results and the value, the first and second Equipment It has a detecting unit for detecting that one of the one device fails, and the occurrence of a failure of the detection portion by said detected one device, a notification unit for notifying to the other device.
一実施形態によれば、第1の装置及び第2の装置による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することができる。 According to one embodiment, mutual monitoring by the first device and the second device can be realized by simple control that suppresses the processing load of the system.
以下、図面を参照して実施の形態を説明する。
〔1〕一実施形態
〔1−1〕情報処理システムの説明
図1は、一実施形態に係る情報処理システム1の構成例を示す図である。図1に示すように、情報処理システム1は、2つのCPU2−1及び2−2、2つのMS3−1及び3−2、並びにSC4を有する。また、情報処理システム1は、2つのIOP5−1及び5−2、2つのBR6−1及び6−2、4つのCH7−1〜7−4、並びに2つのIO8−1及び8−2を有する。Hereinafter, embodiments will be described with reference to the drawings.
[1] One Embodiment [1-1] Description of Information Processing System FIG. 1 is a diagram illustrating a configuration example of an
なお、以下、CPU2−1及び2−2を区別しない場合には、単にCPU2といい、MS3−1及び3−2を区別しない場合には、単にMS3といい、IOP5−1及び5−2を区別しない場合には、単にIOP5という。また、以下、BR6−1及び6−2を区別しない場合には、単にBR6といい、CH7−1〜7−4を区別しない場合には、単にCH7といい、IO8−1及び8−2を区別しない場合には、単にIO8という。
Hereinafter, when the CPUs 2-1 and 2-2 are not distinguished from each other, the
なお、図1及び後述する図2において、IOP5−1及び5−2はそれぞれIOP#0及び#1と表記し、BR6−1及び6−2はそれぞれBR#0及び#1と表記する場合がある。また、図1及び後述する図2において、CH7−1〜7−4はそれぞれCH#0〜#3と表記し、IO8−1及び8−2はそれぞれIO#0及び#1と表記する場合がある。
In FIG. 1 and FIG. 2 to be described later, IOPs 5-1 and 5-2 may be expressed as
CPU2−1及び2−2、並びにMS3−1及び3−2は、それぞれSC4に接続され、冗長化されている。また、IOP5−1及び5−2、並びにBR6−1及び6−2は、それぞれSC4に接続され、冗長化されている。さらに、CH7−1及び7−2はそれぞれBR6−1に接続されて冗長化され、CH7−3及び7−4はそれぞれBR6−2に接続されて冗長化されている。また、IO8−1は、CH7−1及び7−3にそれぞれ接続され、IO8−2は、CH7−2及び7−4にそれぞれ接続されている。
The CPUs 2-1 and 2-2 and the MSs 3-1 and 3-2 are connected to the
CPU2は、種々の制御や演算を行なう処理装置である。CPU2は、MS3又は図示しないROM(Read Only Memory)等に格納されたプログラムを実行することにより、種々の機能を実現する。
MS(メモリ装置)3は、種々のデータやプログラムを一時的に格納する記憶装置であって、CPU2がプログラムを実行する際に、データやプログラムを一時的に格納・展開して用いる。なお、MS3としては、RAM(Random Access Memory)等の揮発性メモリを有する複数のメモリモジュールが挙げられる。The
The MS (memory device) 3 is a storage device that temporarily stores various data and programs, and the
上述した構成により、情報処理システム1は、CPU2又はMS3に障害が発生した場合、障害個所を切り離すことでシステムダウンを回避することができる。
SC(システム制御装置)4は、CPU2及びMS3間のアクセスを制御するとともに、CPU2と、他のCPU2、IOP5、又はBR6等との通信制御を行なう制御装置である。SC4としては、LSI(Large Scale Integration)等の集積回路が挙げられる。なお、図示は省略しているが、情報処理システム1は、SC4を複数備えて冗長化しても良い。With the configuration described above, when a failure occurs in the
The SC (system control device) 4 is a control device that controls access between the
IOP(入出力処理装置,第1の装置)5は、CPU2に代わってIO8(CH7)の制御を実行する処理部である。つまり、CPU2は、IO命令を実行する場合、IOP5にIO命令を渡して、IO8へのIOアクセスを実行させる。具体的には、IOP5は、CPU2においてデータリード/ライト等のIO命令が実行された場合に、IO8を制御するCH7へIO命令の詳細を送出する。図1に示す例では、IOP5−1は、SC4、BR6−1を経由してCH7−1及び7−2を制御し、IOP5−2は、SC4、BR6−2を経由してCH7−3及び7−4を制御する。また、IOP5は、CH7からの割り込みを受けた場合に、SC4を介してCPU2へ当該割り込みを通知する。
The IOP (input / output processing device, first device) 5 is a processing unit that executes control of the IO 8 (CH 7) instead of the
また、本実施形態に係るIOP5は、CH7との相互監視の処理として、BR6の後述するレジスタ(相互監視レジスタ61)に対して、所定時間ごとに監視用の情報の書込アクセスを行なう。なお、IOP5は、BR6から監視対象のCH7の障害の発生を通知されると、障害が発生したCH7とIO8との間の接続を切り離す処理を行なう。
IOP5の相互監視及び切り離しの処理については後述する。Further, the
The mutual monitoring and disconnection processing of IOP5 will be described later.
CH(チャネル装置,第2の装置)7は、MS3及びIO8間のデータやコマンド等のデータ転送を制御する装置である。例えば、CH7は、IOP5からIO命令を受けると、この指示を解析し、解析した指示内容に従い制御対象のIO8へ指示を送る。
また、本実施形態に係るCH7は、IOP5との相互監視の処理として、IOP5と同様に、BR6のレジスタ(相互監視レジスタ61)に対して、所定時間ごとに監視用の情報の書込アクセスを行なう。なお、CH7は、BR6から監視対象のIOP5の障害の発生を通知されると、自身のCH7とIO8との間の接続を切り離す処理を行なう。The CH (channel device, second device) 7 is a device that controls data transfer such as data and commands between the
In addition, as a mutual monitoring process with the IOP5, the CH7 according to the present embodiment performs a monitoring information write access to the BR6 register (mutual monitoring register 61) every predetermined time as in the IOP5. Do. Note that, when the failure of the monitored
CH7の相互監視及び切り離しの処理については後述する。
なお、上述したIOP5及びCH7としての機能は、IOP5及びCH7がそれぞれ備えるMPU(Micro-Processing Unit)等のプロセッサにより実現される。
IO(入出力装置)8は、IOP5によるIOアクセスの対象となる装置である。IO8としては、例えばHDD(Hard Disk Drive)等の磁気ディスク装置、SSD(Solid State Drive)等の半導体ディスク装置を含む各種記憶装置(ストレージ装置)、又はコンソール等の種々の装置が挙げられる。The process of mutual monitoring and disconnection of CH7 will be described later.
Note that the functions as IOP5 and CH7 described above are realized by a processor such as an MPU (Micro-Processing Unit) included in each of IOP5 and CH7.
The IO (input / output device) 8 is a device that is a target of IO access by the
以上の構成により、情報処理システム1では、CPU2でIO命令が実行されると、IOP5を経由してCH7へIO命令の詳細が伝搬される。CH7は、IO命令の指示内容に従ってIO8及びMS3間のデータ転送を実行する。その後、CH7は、IO割り込みをIOP5を経由してCPU2へ通知する。
なお、IOP5は、例えばIO8−1へアクセスするために、IOP5−1、CH7−1、IO8−1のパス(系列)、及び、IOP5−2、CH7−3、IO8−1のパス(系列)の2つのパスを用いることができる。このように、情報処理システム1は、IO系についても複数パスで構成することで、一方のパスが故障しても、もう一方のパスが正常であればシステムダウンを回避して動作を継続することができる。With the above configuration, in the
For example, the IOP5 has a path (series) of IOP5-1, CH7-1, and IO8-1, and a path (series) of IOP5-2, CH7-3, and IO8-1 to access the IO8-1. These two paths can be used. In this way, the
BR(ブリッジ装置,接続装置)6は、IOP5と複数のCH7との間に介設され、IOP5及びCH7間のデータやコマンド等の入出力を中継する装置である。
〔1−2〕ブリッジ装置の説明
以下、図2を参照して、BR6の構成について説明する。
図2は、一実施形態に係るBR6の構成例を示す図である。図2に示すように、本実施形態に係るBR6は、相互監視チェック制御回路60、並びにバス制御回路65及び66を有する。The BR (bridge device, connection device) 6 is a device that is interposed between the
[1-2] Description of Bridge Device Hereinafter, the configuration of BR6 will be described with reference to FIG.
FIG. 2 is a diagram illustrating a configuration example of the
バス制御回路65は、SC4を介してIOP5とバスを介して接続され、IOP5からの書込アクセス及びIOP5への割込通知に係るバスの制御を行なう回路である。また、バス制御回路66は、複数のCH7とバスを介して接続され、CH7からの書込アクセス及びCH7への割込通知に係るバスの制御を行なう回路である。なお、以下、BR6には、n+1個のCH7が接続されているものとして説明する。また、図2において、これら複数のCH7をそれぞれCH#0〜CH#nと表記する場合がある。
The
相互監視チェック制御回路60は、IOP5及びCH7間で相互にハングアップを監視するための回路であり、制御回路60a、及び相互監視レジスタ61を有する。
制御回路60aは、本実施形態に係るIOP5及びCH7間の相互監視を実現するための制御を行なうハードウェアであり、書込制御部62、障害検出部63、及び通知部64としての機能を有する。The mutual monitoring
The
相互監視レジスタ(保持部)61は、CH7ごとに、相互監視に用いる記憶領域を備えるものである。図2に示す例では、相互監視レジスタ61は、記憶領域として、レジスタ61a−1〜61a−(n+1)(以下、レジスタ61a−1〜61a−(n+1)を区別しない場合には、単にレジスタ61aという)を備える。
レジスタ61aは、BR6に接続されて管理されるCH7と同数備えられる。なお、相互監視レジスタ61は、BR6に接続されたCH7の数よりも少ないレジスタ61aを備えても良く、この場合、相互監視可能なCH7の数は、レジスタ61aの数(n+1)となる。The mutual monitoring register (holding unit) 61 includes a storage area used for mutual monitoring for each CH7. In the example illustrated in FIG. 2, the
There are as
なお、各レジスタ61aは、それぞれ、レジスタ61aに対応するCH7及び当該CH7を制御するIOP5により書込アクセスが行なわれる。図1に示す例では、BR#0が有するCH#0用のレジスタ61aは、IOP#0及びCH#0により書込アクセスが行なわれ、CH#1用のレジスタ61aは、IOP#0及びCH#1により書込アクセスが行なわれる。同様に、BR#1が有するCH#2用のレジスタ61aは、IOP#1及びCH#2により書込アクセスが行なわれ、CH#3用のレジスタ61aは、IOP#1及びCH#3により書込アクセスが行なわれる。
Each
図2に示すように、レジスタ61aは、IOP Mask、IOP Alive、CH Mask、及びCH Aliveの各ビットと、Thresholdカウンタと、IOP Interrupt、及びCH Interruptの各ビットと、を持つ。なお、図2において、各ビット名又はカウンタ名の後ろに付された“#0”,…“#n”は、レジスタ61aに割り当てられたCH#0〜#nを示すものである。以下の説明では、“#0”,…“#n”の表記を省略し、各ビット名又はカウンタ名のみを示す。
As shown in FIG. 2, the
IOP Mask及びCH Maskは、対応するCH7が後述する障害検出部63による障害の検出対象であるか否か(相互監視の対象であるか否か)を示すMask Bit(第3情報)が設定されるビット(第3領域)である。
IOP5は、制御対象の複数のCH7のうち、動作中のCH7であって相互監視を実施するCH7を認識すると、当該CH7に対応するレジスタ61aのIOP Maskに、マスクの無効、つまり監視対象であることを示すMask Bit(例えば“0”)を設定する。一方、IOP5は、制御対象の複数のCH7のうち、未実装又はオフライン(未使用)状態のCH7を認識すると、当該CH7に対応するレジスタ61aのIOP Maskに、マスクの有効、つまり監視対象から除外することを示すMask Bit(例えば“1”)を設定する。なお、CH7のオフライン状態には、CH7が故障中、初期化処理中、又は故障等の診断の実行中等の状態が含まれて良い。In the IOP Mask and the CH Mask, Mask Bit (third information) indicating whether or not the
When the IOP5 recognizes the CH7 that is operating and is performing the mutual monitoring among the plurality of CH7 to be controlled, the IOP5 is ineffective, that is, the monitoring target in the IOP Mask of the
また、CH7は、自身がIOP5と相互監視をする場合には、対応するレジスタ61aのCH Maskに、マスクの無効、つまり監視対象であることを示すMask Bit(例えば“0”)を設定する。一方、CH7は、IOP5の障害が検出された場合、又は上述の如く自身のオフライン(未使用)状態の場合には、対応するレジスタ61aのCH Maskに、マスクの有効、つまり自身を監視対象から除外することを示すMask Bit(例えば“1”)を設定する。
Further, when the
相互監視チェック制御回路60は、レジスタ61aのIOP Mask及びCH Maskを参照することで、対応するCH7の相互監視の要否を判断する。例えば、相互監視チェック制御回路60は、レジスタ61aにおいて、IOP Mask及びCH Maskのビットの値がいずれも“0”である場合には、マスクは無効、つまり対応するCH7の相互監視を行なうと判断する。一方、相互監視チェック制御回路60は、レジスタ61aにおいて、IOP Mask及びCH Maskのうちの少なくとも一方が“1”である場合には、マスクは有効、つまり対応するCH7の相互監視を行なわないと判断する。そして、相互監視チェック制御回路60は、相互監視が不要の場合には、対応するCH7についての後述する相互監視処理の実施を抑止する。
The mutual monitoring
このように、IOP5及びCH7は、相互監視を実施するIOP5及びCH7についてのみ、Mask Bitを無効に設定し、例えば動作していないCH7についてはMask Bitを有効に設定する。これにより、IOP5及びCH7は、相互監視が不要なCH7を簡単に監視対象から除外することができる。また、IOP5及びCH7の双方から、相互監視の要否を判断することができるため、より確実に、不要な相互監視の実行を抑止することができる。従って、情報処理システム1のリソースを有効活用することができる。
In this way, the IOP5 and CH7 set the Mask Bit invalid only for the IOP5 and CH7 that perform mutual monitoring, for example, set the Mask Bit valid for the CH7 that is not operating. As a result, the
なお、IOP Mask及びCH Maskの設定は、少なくとも相互監視が開始されるときに行なわれれば良い。相互監視の開始のトリガとしては、例えば情報処理システム1が起動した場合やCPU2等により指示された場合等が挙げられる。また、IOP Mask及びCH Maskの値は、相互監視の実施中に更新(再設定)されても良い。この場合、相互監視チェック制御回路60は、IOP Mask及びCH Maskの更新を検出し、更新後のMask Bitに基づいて、相互監視の状態を切り替える。
The IOP Mask and CH Mask may be set at least when mutual monitoring is started. Examples of triggers for starting mutual monitoring include a case where the
IOP Aliveは、IOP5により、一定時間ごとに、有効(例えば“1”)を示すAlive Bit(第1情報)が設定されるビット(第1領域)である。
CH Aliveは、CH7により、一定時間ごとに、有効(例えば“1”)を示すAlive Bit(第2情報)が設定されるビット(第2領域)である。
IOP5は、相互監視において、一定時間ごとに、監視対象の全てのCH7に対応するレジスタ61aのIOP Aliveビットを更新するために、レジスタ61aへ書込アクセスを行なう。また、CH7は、相互監視において、一定時間ごとに、対応するレジスタ61aのCH Aliveビットの更新するために、レジスタ61aへ書込アクセスを行なう。The IOP Alive is a bit (first area) in which an Alive Bit (first information) indicating validity (for example, “1”) is set at regular intervals by the IOP5.
CH Alive is a bit (second area) in which an Alive Bit (second information) indicating validity (for example, “1”) is set by CH7 at regular time intervals.
In the mutual monitoring, the IOP5 performs a write access to the
なお、IOP5及びCH7における一定時間(所定時間)、つまりIOP5がIOP AliveへAlive Bitを書き込む周期と、CH7がCH AliveへAlive Bitを書き込む周期とは、同一又は略同一(同程度)である。
Thresholdは、IOP5及びCH7のいずれかにより、相互監視レジスタ61に対してAlive Bitの連続した書込アクセスがあった回数を示すビット(カウンタ)である。なお、以下の説明において、Thresholdを閾値カウンタ(Threshold Counter)という。本実施形態においては、閾値カウンタは2ビットで構成される。It should be noted that a fixed time (predetermined time) in IOP5 and CH7, that is, a cycle in which IOP5 writes Alive Bit to IOP Alive and a cycle in which CH7 writes Alive Bit to CH Alive are the same or substantially the same (similar).
Threshold is a bit (counter) indicating the number of times that the
IOP Interrupt及びCH Interruptは、IOP5又はCH7の障害の発生が検出されたことを示す値(第4情報)が設定されるビット(第4領域)である。例えば、障害検出部63により、IOP5の障害の発生が検出された場合には、IOP Interruptに有効を示す第4情報(例えば“1”)が設定され、CH7の障害の発生が検出された場合には、CH Interruptに有効を示す第4情報(例えば“1”)が設定される。
IOP Interrupt and CH Interrupt are bits (fourth area) in which a value (fourth information) indicating that a failure of IOP5 or CH7 is detected is set. For example, when the
書込制御部62は、IOP5又はCH7による相互監視レジスタ61への書込アクセスを検出する。具体的には、書込制御部62は、レジスタ61aごとのIOP Alive及びCH Aliveに割り当てられたアドレス空間を監視する。そして、書込制御部62は、IOP5又はCH7から、バス制御回路65又は66を介して、IOP Alive及びCH Aliveに割り当てられたアドレス空間に対するAlive Bitの書込アクセスを検出する。
The
また、書込制御部62は、IOP5又はCH7から書込アクセスがあった場合に、IOP Alive及びCH Aliveに設定された値が示すアクセス状況に応じて、IOP Alive及びCH Aliveの状態の更新を行なう。つまり、IOP Alive及びCH Aliveの値(状態)は、IOP5及びCH7により直接書き換えられるものではなく、IOP5及びCH7からの書込アクセスに応じて、書込制御部62により更新される。
Also, when there is a write access from IOP5 or CH7, the
さらに、書込制御部62は、IOP5又はCH7から書込アクセスがあった場合に、アクセス状況に応じて閾値カウンタの制御を行なう。
ここで、アクセス状況とは、IOP Alive及びCH Aliveに設定された各1ビット、計2ビットのAlive Bitが示す、IOP5及びCH7による書込アクセスの実行状況をいう。つまり、アクセス状況は、IOP Alive及びCH Aliveに設定された計2ビットのAlive Bitを示す。なお、以下の説明において、IOP Alive及びCH AliveをIOP Alive/CH Aliveと表記する場合がある。Furthermore, when there is a write access from IOP5 or CH7, the
Here, the access status refers to the execution status of write access by IOP5 and CH7 indicated by 1 bit each set in IOP Alive and CH Alive and a total of 2 bits Alive Bit. That is, the access status indicates a total 2-bit Alive Bit set in IOP Alive and CH Alive. In the following description, IOP Alive and CH Alive may be referred to as IOP Alive / CH Alive.
アクセス状況には、IOP Alive/CH Aliveの値によって、“00”、“01”、及び“10”の状態が存在する。アクセス状況が“00”の状態とは、IOP5及びCH7のうちのいずれの装置も書込アクセスを行なっていない状態、又はIOP5及びCH7が交互に書込アクセスを行なっている状態を示す。また、アクセス状況が“01”の状態とは、直前にCH7が書込アクセスを行なっている状態を示す。さらに、アクセス状況が“10”の状態とは、直前にIOP5が書込アクセスを行なっている状態を示す。
The access status includes states of “00”, “01”, and “10” depending on the value of IOP Alive / CH Alive. The state where the access status is “00” indicates a state where none of the devices IOP5 and CH7 is performing write access, or a state where IOP5 and CH7 are alternately performing write access. Further, the state where the access status is “01” indicates a state in which CH7 is performing write access immediately before. Furthermore, the state where the access status is “10” indicates a state where the
書込制御部62の詳細な説明については、後述する。
障害検出部(検出部)63は、IOP5及びCH7の各々による相互監視レジスタ61への書き込みを監視し、監視結果に基づいて、IOP5及びCH7のうちのいずれか一方の装置にハングアップ等の障害が発生したことを検出する。
具体的には、障害検出部63は、IOP5及びCH7のうちのいずれか他方の装置による相互監視レジスタ61へのAlive Bitの書き込みが所定の回数連続して行なわれたか否かを判定する。より具体的に、障害検出部63は、各レジスタ61aの閾値カウンタの値を監視し、閾値カウンタの値が所定の回数(所定の閾値)に達したか否かを判定する。そして、障害検出部63は、閾値カウンタの値が所定の閾値に達した場合に、そのときのレジスタ61aのアクセス状況に応じて、Alive Bitの書き込みが行なわれなかった上記一方の装置に障害が発生したことを検出するのである。Detailed description of the
The failure detection unit (detection unit) 63 monitors writing to the
Specifically, the
なお、上述の如く、IOP5がAlive Bitを書き込む周期(一定時間)と、CH7がAlive Bitを書き込む周期(一定時間)とは同一又は略同一である。しかし、上記一方の装置に障害が発生したことを検出する際には、IOP5及びCH7によるAlive Bitの書き込みのタイミングのズレ等を考慮して、所定の閾値を3以上とすることが好ましい。
Note that, as described above, the cycle (fixed time) in which the
本実施形態においては、障害検出部63は、2ビットで構成された閾値カウンタが所定の閾値としての“11”に達した場合、つまり上記他方の装置によるAlive Bitの書き込みが3回連続して行なわれた場合に、上記一方の装置に障害が発生したことを検出する。
これにより、IOP5及びCH7によるAlive Bitの書き込みのタイミングにズレ等が生じた場合であっても、上記一方の装置に障害が発生したことを正確に検出することができる。In the present embodiment, the
As a result, even when a deviation or the like occurs in the timing of writing the Alive bit by the IOP5 and CH7, it is possible to accurately detect that a failure has occurred in the one device.
また、障害検出部63は、上記一方の装置に障害が発生したことを検出したレジスタ61aにおける、他方の装置、つまり監視相手の装置に対応するIOP Interrupt又はCH Interruptに、有効(例えば“1”)を示す値を設定する。
このように、相互監視チェック制御回路60は、IOP5及びCH7のうちの片方の装置からしかAlive Bitが更新されないことを、閾値カウンタによりカウントすることで、Alive Bitが更新されない装置のハングアップ等の障害の発生を検出する。Further, the
In this way, the mutual monitoring
通知部64は、障害検出部63により検出された上記一方の装置の障害の発生を、上記他方の装置へ、バス制御回路65又は66を介して通知する。具体的には、通知部64は、各レジスタ61aのIOP Interrupt及びCH Interruptを監視する。そして、通知部64は、各Interruptのうちのいずれかのビットに有効を示す値が設定されると、当該値が設定された装置(上記他方の装置)に対して割り込みを上げて、相手装置(上記一方の装置)の障害発生を通知する。
The
なお、障害検出部63は、上記一方の装置に障害が発生したことを検出した場合に、IOP Interrupt又はCH Interruptを設定したレジスタ61aを示す情報を通知部64へ通知しても良い。このとき、通知部64は、障害検出部63からの通知を受けてから、通知されたレジスタ61aのIOP Interrupt又はCH Interruptを参照すれば良い。この場合、通知部64は、各レジスタ61aのIOP Interrupt及びCH Interruptの監視を省略しても良い。
Note that the
上述のように、相互監視チェック制御回路60は、IOP Alive/CH Aliveに対してIOP5又はCH7から書込アクセスがあったことにより、当該IOP5又はCH7にはハングアップ等の障害が発生していないと判断する。換言すれば、IOP Alive/CH Aliveのビットは、IOP5又はCH7が、自身にハングアップ等の障害が発生していないことをBR6へ通知するためのビットであるといえる。
As described above, the mutual monitoring
〔1−3〕書込制御部の説明
以下、図3及び図4を参照して、書込制御部62の詳細を説明する。
図3は、図2に示す書込制御部62による相互監視レジスタ61の状態の制御の一例を説明する図である。また、図4(a)は、CH7に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を示すタイムチャートであり、図4(b)は、IOP5に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を示すタイムチャートである。[1-3] Description of Write Control Unit Details of the
FIG. 3 is a diagram for explaining an example of control of the state of the
なお、図3の左欄は、書込制御部62によるIOP Alive及びCH Aliveの更新前の状態、図3の右欄は、書込制御部62によるIOP Alive及びCH Aliveの更新後の状態をそれぞれ表している。
書込制御部62は、IOP5又はCH7により、あるレジスタ61aのIOP Alive又はCH Aliveへの書込アクセスの発生を検出すると、図3及び以下に示すように、IOP Alive/CH Aliveの状態の更新を行なう。3 shows the state before the IOP Alive and CH Alive are updated by the
When the
(I)書込制御部62が、IOP5によるIOP Aliveへの書込アクセスの発生を検出した場合。
(I−1)更新前にIOP Alive/CH Aliveの値(アクセス状況)が“00”である場合(図3の左欄第1行参照)。
書込制御部62は、IOP AliveへAlive Bitを設定し、IOP Alive/CH Aliveの値を“10”にする(図3の右欄第1行参照)。なお、書込制御部62は、閾値カウンタの値については、現状(“0”)を維持する。(I) The
(I-1) When the value (access status) of IOP Alive / CH Alive is “00” before update (refer to the first line in the left column of FIG. 3).
The
(I−2)IOP Alive/CH Aliveの値(アクセス状況)が“01”である場合(図3の左欄第2行参照)。
書込制御部62は、CH Aliveに設定されたAlive Bitを無効(“0”)に変更し、IOP Alive/CH Aliveの値を“00”にする(図3の右欄第2行参照)。また、書込制御部62は、“N”(Nは0以上の整数)が設定された閾値カウンタの値を“0”にリセットする。(I-2) When the value (access status) of IOP Alive / CH Alive is “01” (see the second column on the left column in FIG. 3).
The
(I−3)IOP Alive/CH Aliveの値(アクセス状況)が“10”である場合(図3の左欄第3行参照)。
書込制御部62は、IOP Alive/CH Aliveについて、現状(“10”)を維持する(図3の右欄第3行参照)。また、書込制御部62は、“N”が設定された閾値カウンタの値をインクリメントする(“N+1”にする)。(I-3) When the value (access status) of IOP Alive / CH Alive is “10” (see the third column on the left column in FIG. 3).
The
(II)書込制御部62が、CH7によるCH Aliveへの書込アクセスの発生を検出した場合。
(II−1)更新前にIOP Alive/CH Aliveの値(アクセス状況)が“00”である場合(図3の左欄第4行参照)。
書込制御部62は、CH AliveへAlive Bitを設定し、IOP Alive/CH Aliveの値を“01”にする(図3の右欄第4行参照)。なお、書込制御部62は、閾値カウンタの値については、現状(“0”)を維持する。(II) When the
(II-1) When the value (access status) of IOP Alive / CH Alive is “00” before update (see the fourth column on the left column in FIG. 3).
The
(II−2)IOP Alive/CH Aliveの値(アクセス状況)が“01”である場合(図3の左欄第5行参照)。
書込制御部62は、IOP Alive/CH Aliveについて、現状(“01”)を維持する(図3の右欄第5行参照)。また、書込制御部62は、“N”が設定された閾値カウンタの値をインクリメントする(“N+1”にする)。(II-2) When the value (access status) of IOP Alive / CH Alive is “01” (see the fifth column on the left column in FIG. 3).
The
(II−3)IOP Alive/CH Aliveの値(アクセス状況)が“10”である場合(図3の左欄第6行参照)。
書込制御部62は、IOP Aliveに設定されたAlive Bitを無効(“0”)に変更し、IOP Alive/CH Aliveの値を“00”にする(図3の右欄第6行参照)。また、書込制御部62は、“N”(Nは0以上の整数)が設定された閾値カウンタの値を“0”にリセットする。(II-3) When the value (access status) of IOP Alive / CH Alive is “10” (see the sixth line on the left column in FIG. 3).
The
以上のように、書込制御部62は、IOP Alive及びCH Aliveの更新を行なう。
次に、図4(a)に示すように、CH7に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を説明する。なお、図4(a)に示す例では、タイミングt0において、アクセス状況が“00”の状態であるものとする。As described above, the
Next, as shown in FIG. 4A, an example of the state transition of the
タイミングt0において、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生すると(図3の左欄第1行参照)、書込制御部62によりアクセス状況が“10”に更新される(タイミングt1,図3の右欄第1行参照)。
CH7には障害が発生しており、書込アクセスが発生しないため、タイミングt0から所定時間T経過後、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生する(タイミングt2,図3の左欄第3行参照)。このとき、アクセス状況は“10”であるため、書込制御部62によりアクセス状況が“10”に維持され、閾値カウンタの値が“00”から“01”に更新される(タイミングt3,図3の右欄第3行参照)。At timing t0, when the write access of the active bit to the IOP Alive is generated by the IOP5 (see the first line in the left column of FIG. 3), the access status is updated to “10” by the write control unit 62 (timing t1). , See the first line in the right column of FIG. 3).
Since a failure has occurred in CH7 and no write access has occurred, after a predetermined time T has elapsed from timing t0, a write access of Alive to IOP Alive occurs by IOP5 (timing t2, left in FIG. 3) Column 3rd line). At this time, since the access status is “10”, the access status is maintained at “10” by the
続いて、タイミングt2から所定時間T経過後、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生する(タイミングt4)。この場合も、タイミングt3と同様に、書込制御部62によりアクセス状況が“10”に維持され、閾値カウンタの値が“01”から“10”に更新される(タイミングt5)。
さらに、タイミングt4から所定時間T経過後、IOP5によりIOP AliveへのAlive Bitの書込アクセスが発生する(タイミングt6)。この場合も、タイミングt5と同様に、書込制御部62によりアクセス状況が“10”に維持され、閾値カウンタの値が“10”から“11”に更新される(タイミングt7)。Subsequently, after a predetermined time T elapses from the timing t2, the IOP5 generates an access access to the IOP Alive in the IOP Alive (timing t4). Also in this case, similarly to the timing t3, the access status is maintained at “10” by the
Further, after a predetermined time T has elapsed from the timing t4, the IOP5 generates an access access to the IOP Alive in the IOP Alive (timing t6). Also in this case, similarly to the timing t5, the access status is maintained at “10” by the
障害検出部63は、タイミングt7において閾値カウンタの値が“11”に達したことを検出すると、“10”であるアクセス状況に基づき、CH7に障害が発生したことを検出する(タイミングt8)。そして、障害検出部63は、IOP Interruptに“1”を設定する(タイミングt9)。IOP Interruptに“1”が設定されると、通知部64は、IOP5に対して、障害が検出されたレジスタ61aに対応するCH7にハングアップ等の障害が発生したことを割り込みで通知する。
When detecting that the value of the threshold counter has reached “11” at timing t7, the
次いで、図4(b)に示すように、IOP5に障害が発生している場合の、相互監視レジスタ61の状態遷移の一例を説明する。なお、図4(b)に示す例では、タイミングt10において、アクセス状況が“00”の状態であるものとする。
タイミングt10において、CH7によりCH AliveへのAlive Bitの書込アクセスが発生すると(図3の左欄第4行参照)、書込制御部62によりアクセス状況が“01”に更新される(タイミングt11,図3の右欄第4行参照)。Next, as shown in FIG. 4B, an example of state transition of the
At timing t10, when CH7 causes an Alive Bit write access to CH Alive (see the fourth row on the left column in FIG. 3), the
IOP5には障害が発生しており、書込アクセスが発生しないため、タイミングt10から所定時間T経過後、CH7によりCH AliveへのAlive Bitの書込アクセスが発生する(タイミングt12,図3の左欄第5行参照)。このとき、アクセス状況は“01”であるため、書込制御部62によりアクセス状況が“01”に維持され、閾値カウンタの値が“00”から“01”に更新される(タイミングt13,図3の右欄第5行参照)。
Since a failure has occurred in IOP5 and no write access has occurred, after a predetermined time T has elapsed from timing t10, a write access of Alive Bit to CH Alive occurs by CH7 (timing t12, left in FIG. 3) Column 5th line). At this time, since the access status is “01”, the access status is maintained at “01” by the
続いて、タイミングt12から所定時間T経過後、CH7によりCH AliveへのAlive Bitの書込アクセスが発生する(タイミングt14)。この場合も、タイミングt13と同様に、書込制御部62によりアクセス状況が“01”に維持され、閾値カウンタの値が“01”から“10”に更新される(タイミングt15)。
さらに、タイミングt14から所定時間T経過後、CH7によりCH AliveへのAlive Bitの書込アクセスが発生する(タイミングt16)。この場合も、タイミングt15と同様に、書込制御部62によりアクセス状況が“01”に維持され、閾値カウンタの値が“10”から“11”に更新される(タイミングt17)。Subsequently, after a predetermined time T elapses from timing t12, CH7 causes the Alive Bit write access to CH Alive (timing t14). Also in this case, similarly to the timing t13, the access status is maintained at “01” by the
Furthermore, after a predetermined time T has elapsed from timing t14, CH7 causes a write access of Alive Bit to CH Alive (timing t16). Also in this case, similarly to the timing t15, the access status is maintained at “01” by the
障害検出部63は、タイミングt17において閾値カウンタの値が“11”に達したことを検出すると、“01”であるアクセス状況に基づき、IOP5に障害が発生したことを検出する(タイミングt18)。そして、障害検出部63は、CH Interruptに“1”を設定する(タイミングt19)。CH Interruptに“1”が設定されると、通知部64は、CH7に対して、IOP5にハングアップ等の障害が発生したことを割り込みで通知する。
When the
以上のように、CH7又はIOP5に障害が発生している場合、相互監視レジスタ61の状態は図4(a)又は(b)に示すように遷移する。
このように、IOP5及びCH7は、相互監視において、自身のAlive Bitを一定時間ごとに更新する処理を行なうだけで良い。従って、IOP5及びCH7による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することができる。As described above, when a failure occurs in CH7 or IOP5, the state of the mutual monitoring register 61 changes as shown in FIG. 4 (a) or (b).
As described above, the
〔1−4〕切り離し処理の説明
上述のように、BR6は、IOP5又はCH7における障害の発生を検出すると、障害が発生していない装置に対して、相手装置に障害が発生したことを割り込みにより通知する。
BR6からの割り込みを受けると、IOP5又はCH7は、以下のようにして、障害の発生した装置の切り離し処理を実施する。[1-4] Explanation of Disconnection Processing As described above, when the
When receiving an interrupt from the
IOP5がCH7において障害が発生したことを通知された場合、IOP5は、障害の発生が検出されたCH7を識別する。そして、IOP5は、識別したCH7に対応したレジスタ61aのIOP Maskに対して、マスクの有効を示すMask Bit(“1”)を設定し、そのCH7を相互監視対象から除外する。
そして、IOP5は、相互監視対象から除外したCH7と、当該CH7が管理する(CH7に接続された)IO8との間の接続を切り離す。When IOP5 is notified that a failure has occurred in CH7, IOP5 identifies CH7 in which the failure has been detected. The
Then, the IOP5 disconnects the connection between the CH7 excluded from the mutual monitoring target and the IO8 managed by the CH7 (connected to the CH7).
一方、CH7がIOP5において障害が発生したことを通知された場合、CH7は、自身に対応したレジスタ61aのCH Maskに対して、マスクの有効を示すMask Bit(“1”)を設定し、自身をIOP5との相互監視対象から除外する。
そして、CH7は、自身と、自身が管理する(自身に接続された)IO8との間の接続を切り離す。On the other hand, when CH7 is notified that a failure has occurred in IOP5, CH7 sets a Mask Bit (“1”) indicating the validity of the mask for CH Mask of
Then, CH7 disconnects the connection between itself and IO8 that it manages (connected to itself).
このように、IOP5及びCH7は、障害の発生が検出された装置(パス)をシステムから切り離すことで、情報処理システム1は、正常な交替パスで動作を継続することができる。
なお、CH−IO間の接続の切り離しは、既知の種々の手法により行なうことが可能であり、その詳細な説明は省略する。In this manner, the
The connection between the CH-IO can be disconnected by various known methods, and detailed description thereof is omitted.
〔1−5〕情報処理システムの動作例
次に、上述の如く構成された本実施形態に係る情報処理システム1における動作例を、図5〜図9を参照して説明する。
図5〜図7は、一実施形態に係るBR6,IOP5,CH7のそれぞれによる、IOP5及びCH7間の相互監視処理の一例を説明するフローチャートである。図8及び図9は、一実施形態に係るIOP5,CH7のそれぞれによる、障害の発生が検出された装置の切り離し処理の一例を説明するフローチャートである。[1-5] Operation Example of Information Processing System Next, an operation example in the
5 to 7 are flowcharts for explaining an example of mutual monitoring processing between IOP5 and CH7 by BR6, IOP5, and CH7 according to an embodiment. FIG. 8 and FIG. 9 are flowcharts for explaining an example of the detachment process of the device in which the occurrence of the failure is detected by each of the IOP5 and CH7 according to the embodiment.
なお、図5に示す処理は、BR6により、複数のレジスタ61a−1〜61a−(n+1)それぞれについて実施される。また、図7に示す処理は、BR6が制御する複数のCH#0〜CH#nそれぞれにより実施される。図5〜図7の説明においては、代表して図1に示すIOP5−1、BR6−1、及びCH7−1により実施される処理について説明する。
The processing shown in FIG. 5 is performed for each of the plurality of
〔1−5−1〕相互監視処理
はじめに、BR6、IOP5、及びCH7による、IOP5及びCH7間の相互監視処理の一例を、図5〜図7を参照して説明する。
相互監視が開始されると、IOP5及び複数のCH7により、対応するレジスタ61aのIOP Mask及びCH Maskに対してMask Bitが設定される(図6のステップS21及び図7のステップS31)。このとき、IOP5は、自身が制御する全てのCH7に対応するレジスタ61aのIOP Maskに対してMask Bitを設定する。なお、IOP Mask及びCH Maskには、相互監視を有効とする“0”、又は相互監視を無効とする“1”が設定される。[1-5-1] Mutual Monitoring Processing First, an example of mutual monitoring processing between IOP5 and CH7 by BR6, IOP5, and CH7 will be described with reference to FIGS.
When the mutual monitoring is started, a mask bit is set for the IOP mask and the CH mask of the
また、IOP5により、自身が制御する全てのCH7に対応するレジスタ61aのIOP Aliveに対して、Alive Bit(“1”)の書込アクセスが実行される(図6のステップS22)。なお、このステップS22の処理は、IOP5により、一定時間ごとに(ステップS23)繰り返し実行される。
さらに、CH7により、自身のCH7に対応するレジスタ61aのCH Aliveに対して、Alive Bit(“1”)の書込アクセスが実行される(図7のステップS32)。なお、このステップS32の処理は、CH7により、一定時間ごとに(ステップS33)繰り返し実行される。Also, the write access of Alive Bit (“1”) is executed by the IOP5 to the IOP Alive of the
Further, the write access of Alive Bit (“1”) is executed by CH7 to the CH Alive of the
図5に示すように、BR6においては、レジスタ61aのIOP Mask及びCH Masに設定されたMask Bitがいずれも“0”であるか否かが判定される(ステップS1)。2つのMask Bitのうちの少なくとも一方が“1”である場合には(ステップS1のNoルート)、BR6により、これらのIOP5及びCH7は相互監視対象ではないと判断され、Mask Bitが更新されるまで待機される。
As shown in FIG. 5, in BR6, it is determined whether or not both Mask Bits set in the IOP Mask and CH Mas of the
一方、IOP Mask及びCH Maskに設定された値がいずれも“0”である場合には(ステップS1のYesルート)、書込制御部62により、IOP5によるIOP Aliveへの書込アクセスがあったか否かが判定される(ステップS2)。IOP Aliveへの書込アクセスがあった場合(ステップS2のYesルート)、IOP Alive/CH Alive(アクセス状況)の値に応じて、ステップS3、S4、又はS6へ移行する。
On the other hand, when the values set in the IOP Mask and the CH Mask are both “0” (Yes route in Step S1), whether or not the
アクセス状況が“00”である場合(ステップS2のYesルートからの“00”ルート)、書込制御部62により、IOP Alive/CH Aliveが“10”に更新され(ステップS3)、ステップS1に移行する。
一方、アクセス状況が“01”である場合(ステップS2のYesルートからの“01”ルート)、書込制御部62により、IOP Alive/CH Aliveが“00”に更新される(ステップS4)。また、書込制御部62により、閾値カウンタの値が“00”にリセットされ(ステップS5)、ステップS1に移行する。If the access status is “00” (“00” route from the Yes route in Step S2), the
On the other hand, when the access status is “01” (“01” route from the Yes route in step S2), the
また、アクセス状況が“10”である場合(ステップS2のYesルートからの“10”ルート)、書込制御部62により、IOP Alive/CH Aliveが“10”に維持される(ステップS6)。また、書込制御部62により、閾値カウンタの値がインクリメントされる(ステップS7)。そして、障害検出部63により、閾値カウンタの値が所定の閾値である“11”であるか否かが判定される(ステップS8)。
If the access status is “10” (“10” route from the Yes route in step S2), the
閾値カウンタの値が“11”である場合(ステップS8のYesルート)、障害検出部63により、IOP Interruptに“1”が設定される(ステップS9)。そして、通知部64により、IOP5に対してCH7のハングアップ等の障害の発生が検出されたことが割り込みで通知され(ステップS10)、本説明におけるIOP5−1、BR6−1、及びCH7−1に係る相互監視処理が終了する。
When the value of the threshold counter is “11” (Yes route in step S8), the
一方、ステップS8において、閾値カウンタの値が“11”ではない場合(ステップS8のNoルート)、ステップS1に移行する。
また、ステップS2において、IOP Aliveへの書込アクセスがなかった場合(ステップS2のNoルート)、書込制御部62により、CH7によるCH Aliveへの書込アクセスがあったか否かが判定される(ステップS11)。CH Aliveへの書込アクセスがあった場合(ステップS11のYesルート)、IOP Alive/CH Alive(アクセス状況)の値に応じて、ステップS12、S13、又はS15へ移行する。On the other hand, if the value of the threshold counter is not “11” in step S8 (No route in step S8), the process proceeds to step S1.
In step S2, if there is no write access to the IOP Alive (No route in step S2), the
アクセス状況が“00”である場合(ステップS11のYesルートからの“00”ルート)、書込制御部62により、IOP Alive/CH Aliveが“01”に更新され(ステップS12)、ステップS1に移行する。
一方、アクセス状況が“10”である場合(ステップS11のYesルートからの“10”ルート)、書込制御部62により、IOP Alive/CH Aliveが“00”に更新される(ステップS13)。また、書込制御部62により、閾値カウンタの値が“00”にリセットされ(ステップS14)、ステップS1に移行する。If the access status is “00” (“00” route from the Yes route in step S11), the
On the other hand, when the access status is “10” (“10” route from the Yes route in step S11), the
また、アクセス状況が“01”である場合(ステップS11のYesルートからの“01”ルート)、書込制御部62により、IOP Alive/CH Aliveが“01”に維持される(ステップS15)。また、書込制御部62により、閾値カウンタの値がインクリメントされる(ステップS16)。そして、障害検出部63により、閾値カウンタの値が所定の閾値である“11”であるか否かが判定される(ステップS17)。
If the access status is “01” (“01” route from the Yes route in step S11), the
閾値カウンタの値が“11”である場合(ステップS17のYesルート)、障害検出部63により、CH Interruptに“1”が設定される(ステップS18)。そして、通知部64により、CH7に対してIOP5のハングアップ等の障害の発生が検出されたことが割り込みで通知され(ステップS19)、本説明におけるIOP5−1、BR6−1、及びCH7−1に係る相互監視処理が終了する。
When the value of the threshold counter is “11” (Yes route in step S17), the
一方、ステップS17において、閾値カウンタの値が“11”ではない場合(ステップS17のNoルート)、ステップS1に移行する。
以上のように、BR6、IOP5、及びCH7における相互監視処理が実施される。
〔1−5−2〕切り離し処理
次に、IOP5及びCH7による、による、障害の発生が検出された装置の切り離し処理の一例を、図8及び図9を参照して説明する。On the other hand, in step S17, when the value of the threshold counter is not “11” (No route in step S17), the process proceeds to step S1.
As described above, the mutual monitoring process in BR6, IOP5, and CH7 is performed.
[1-5-2] Disconnection Process Next, an example of an apparatus disconnection process in which the occurrence of a failure is detected by IOP5 and CH7 will be described with reference to FIGS.
図8に示すように、IOP5において、BR6からCH7のハングアップ等の障害の発生の通知がされると、IOP5により、障害が発生したCH7が識別される(ステップS41)。そして、IOP5により、識別したCH7に対応するレジスタ61aのIOP Maskに対して、障害が発生したCH7との相互監視を無効とする“1”のMask Bitが設定される(ステップS42)。
As shown in FIG. 8, when the occurrence of a failure such as a hang-up of CH7 is notified from BR6 in IOP5, CH7 in which the failure has occurred is identified by IOP5 (step S41). Then, the IOP5 sets a Mask Bit of “1” that invalidates the mutual monitoring with the failed CH7 for the IOP Mask of the
そして、IOP5により、障害が発生したCH7とIO8との間の接続の切り離しが行なわれ(ステップS43)、処理が終了する。
一方、図9に示すように、CH7において、BR6からIOP5のハングアップ等の障害の発生の通知がされると、CH7により、対応するレジスタ61aのCH Maskに対して、障害が発生したIOP5と自身のCH7との相互監視を無効とする“1”のMask Bitが設定される(ステップS51)。Then, the connection between CH7 and IO8 where the failure has occurred is disconnected by IOP5 (step S43), and the process ends.
On the other hand, as shown in FIG. 9, when the occurrence of a failure such as a hang-up of IOP5 is notified from BR6 to CH7, the CH7 of the
そして、CH7により、自身のCH7とIO8との間の接続の切り離しが行なわれ(ステップS52)、処理が終了する。
以上のように、IOP5及びCH7における障害の発生が検出された装置の切り離し処理が実施される。
このように、本実施形態に係る情報処理システム1によれば、レジスタ61aに対して、IOP5及びCH7により所定時間ごとにAlive Bitの書き込みが行なわれる。また、障害検出部63により、IOP5及びCH7の各々による書き込みが監視され、監視結果に基づいて、IOP5及びCH7のうちのいずれか一方の装置に障害が発生したことが検出される。そして、通知部64により、障害検出部63により検出された上記一方の装置の障害の発生が、他方の装置へ通知される。Then, the connection between its own CH7 and IO8 is disconnected by CH7 (step S52), and the process ends.
As described above, the disconnection process of the device in which the occurrence of the failure in IOP5 and CH7 is detected is performed.
As described above, according to the
ここで、上述したように、IOPは、複数のCHを制御するためビジー率が非常に高い。従って、IOPには、様々な処理を、効率良く短時間に行なうことが要求される。この点について、本実施形態に係るIOP5及びCH7は、自身のAlive BitをBR6に対して一定時間ごとに更新する処理を行なうだけで良い。これにより、IOP5及びCH7による相互監視を、システムの処理負荷を抑えた簡素な制御により実現することができる。従って、IOP5及びCH7間のハングアップ等の障害の発生の相互監視を、効率よく実施することができる。
Here, as described above, the IOP has a very high busy rate because it controls a plurality of CHs. Therefore, IOP is required to perform various processes efficiently and in a short time. In this regard, the
また、IOP5やCH7における相互監視に係る処理時間を低減でき、IOP5又はCH7は、相手装置がハングアップ等していることを早期に検出することができるため、長時間のシステム停止を防ぐことができる。
さらに、本実施形態に係る情報処理システム1によれば、IOP5及びCH7の相互監視処理の制御(アクセス)対象が、BR6内部のレジスタ61aとなる。このため、IOP5及びCH7は、レジスタ61aへの書き込みのための制御のみを実施すれば良く、図11に示したようなMS3へアクセスすることによる処理負荷や処理時間の増加を抑止し、より高速且つ簡素な動作とすることができる。Also, the processing time for mutual monitoring in IOP5 and CH7 can be reduced, and IOP5 or CH7 can detect that the counterpart device is hung up at an early stage, thereby preventing a long-term system stoppage. it can.
Furthermore, according to the
〔2〕その他
以上、本発明の好ましい実施形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲内において、種々の変形、変更して実施することができる。
例えば、上述した一実施形態では、1つのIOP5と複数のCH7との間に介設されたBR6における構成について説明したが、複数のIOP5と複数のCH7との間に介設されたBR6に対しても、図2に示すBR6の構成を適用することができる。この場合、複数のIOP5は、それぞれの制御対象であるCH7に対応するレジスタ61aに対してのみ、IOP Maskを無効、つまり監視対象であることを示すMask Bitを設定すれば良い。[2] Others While the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to such specific embodiments, and various modifications and changes can be made without departing from the spirit of the present invention. It can be changed and implemented.
For example, in the above-described embodiment, the configuration of the BR6 interposed between one IOP5 and a plurality of CH7 has been described. However, with respect to the BR6 interposed between the plurality of IOP5 and the plurality of CH7, However, the configuration of BR6 shown in FIG. 2 can be applied. In this case, the plurality of
また、上述した一実施形態では、レジスタ61aは、IOP Interrupt及びCH Interruptのビットを備えるものとして説明したが、例えば2ビットで構成されたInterruptのビット(第4領域)を1つ備えるものとしても良い。この場合、障害検出部63は、CH7の障害の発生を検出するとInterruptに例えば“01”を設定し、IOP5の障害の発生を検出するとInterruptに例えば“10”を設定するように構成することができる。そして、通知部64は、Interruptの値(第4情報)を監視し、又は障害検出部63から通知され、例えば“01”の場合にはIOP5への割り込み通知を行ない、“10”の場合にはCH7への割り込み通知を行なうこととしても良い。
In the above-described embodiment, the
さらに、図1に示す情報処理システム1は、それぞれ2つのCPU2、MS3、IOP5、BR6、及びIO8、1つのSC4、並びに4つのCH7を有するものとして説明したが、各装置の台数は、図1に示すものに限定されるものではない。
また、図2に示す書込制御部62、障害検出部63、及び通知部64の機能は、任意に併合又は分割しても良い。Further, the
Further, the functions of the
なお、前記目的に限らず、上述した発明を実施するための最良の形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本件の他の目的の一つとして位置付けることができる。
〔3〕付記
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
第1の装置と第2の装置との間に介設された接続装置であって、
前記第1の装置により、所定時間ごとに第1情報の書き込みが行なわれるとともに、前記第2の装置により、所定時間ごとに第2情報の書き込みが行なわれる保持部と、
前記第1及び第2の装置の各々による前記保持部への書き込みを監視し、前記監視結果に基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出する検出部と、
前記検出部により検出された前記一方の装置の障害の発生を、他方の装置へ通知する通知部と、
を有することを特徴とする、接続装置。
(付記2)
前記検出部は、前記他方の装置による前記保持部への前記第1又は第2情報の書き込みが所定の回数連続して行なわれた場合に、前記一方の装置に障害が発生したことを検出することを特徴とする、付記1記載の接続装置。
(付記3)
前記保持部は、
前記第1の装置からの前記第1情報が設定される第1領域と、
前記第2の装置からの前記第2情報が設定される第2領域と、を備え、
前記第1又は第2の装置による前記保持部への前記第1又は第2情報の書込アクセスがあった場合に、前記第1及び第2領域に設定された値が示すアクセス状況に応じて、前記第1及び第2領域の状態の更新を行なう書込制御部をさらに有することを特徴とする、付記2記載の接続装置。
(付記4)
前記他方の装置により前記保持部に対して前記第1又は第2情報の連続した書込アクセスがあった回数を示すカウンタをさらに有し、
前記書込制御部は、前記第1又は第2の装置による前記書込アクセスがあった場合に、前記アクセス状況に応じて前記カウンタの制御を行ない、
前記検出部は、前記カウンタの値が所定の閾値に達した場合に、前記アクセス状況に応じて前記一方の装置に障害が発生したことを検出することを特徴とする、付記3記載の接続装置。
(付記5)
前記接続装置は、前記第1の装置と、複数の前記第2の装置との間に介設され、
前記保持部は、
前記複数の第2の装置ごとに、前記第1及び第2領域を含む記憶領域であって所定時間ごとに前記第1及び第2情報の書き込みが行なわれる記憶領域を備えることを特徴とする、付記3又は付記4記載の接続装置。
(付記6)
前記書込制御部は、
前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行ない、
前記複数の第2の装置のうちのいずれか一つの第2の装置による前記保持部への前記第2情報の書込アクセスがあった場合、前記一つの第2の装置に対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記5記載の接続装置。
(付記7)
前記複数の記憶領域の各々は、対応する前記第2の装置が前記検出部による障害の検出対象であるか否かを示す第3情報が設定される第3領域をさらに備え、
前記書込制御部は、前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域の前記第3領域に設定された前記第3情報に応じて、前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記5又は付記6記載の接続装置。
(付記8)
前記保持部は、前記第1又は第2の装置の障害の発生が検出されたことを示す第4情報が設定される第4領域をさらに備え、
前記検出部は、前記一方の装置に障害が発生したことを検出した場合に、前記第4領域に対して、前記一方の装置の障害の発生が検出されたことを示す前記第4情報を設定し、
前記通知部は、前記第4領域に設定された前記第4情報に基づいて、前記一方の装置の障害の発生を、前記他方の装置へ通知することを特徴とする、付記1〜7のいずれか1項記載の接続装置。
(付記9)
第1及び第2の装置の監視方法であって、
前記第1の装置と第2の装置との間に介設された接続装置により、
前記第1の装置による所定時間ごとの前記接続装置が有する保持部への第1情報の書き込みを監視するとともに、前記第2の装置による所定時間ごとの前記保持部への第2情報の書き込みを監視し、
前記監視結果に基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出し、
検出された前記一方の装置の障害の発生を、他方の装置へ通知する、
ことを特徴とする、監視方法。
(付記10)
前記検出する処理において、前記他方の装置による前記保持部への前記第1又は第2情報の書き込みが所定の回数連続して行なわれた場合に、前記一方の装置に障害が発生したことを検出することを特徴とする、付記9記載の監視方法。
(付記11)
前記保持部は、
前記第1の装置からの前記第1情報が設定される第1領域と、
前記第2の装置からの前記第2情報が設定される第2領域と、を備え、
前記接続装置により、前記第1又は第2の装置による前記保持部への前記第1又は第2情報の書込アクセスがあった場合に、前記第1及び第2領域に設定された値が示すアクセス状況に応じて、前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記10記載の監視方法。
(付記12)
前記更新を行なう処理において、前記第1又は第2の装置による前記書込アクセスがあった場合に、前記アクセス状況に応じて、前記他方の装置により前記保持部に対して前記第1又は第2情報の連続した書込アクセスがあった回数を示すカウンタの制御を行ない、
前記検出する処理において、前記カウンタの値が所定の閾値に達した場合に、前記アクセス状況に応じて前記一方の装置に障害が発生したことを検出することを特徴とする、付記11記載の監視方法。
(付記13)
前記接続装置は、前記第1の装置と、複数の前記第2の装置との間に介設され、
前記保持部は、
前記複数の第2の装置ごとに、前記第1及び第2領域を含む記憶領域であって所定時間ごとに前記第1及び第2情報の書き込みが行なわれる記憶領域を備えることを特徴とする、付記11又は付記12記載の監視方法。
(付記14)
前記更新を行なう処理において、
前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行ない、
前記複数の第2の装置のうちのいずれか一つの第2の装置による前記保持部への前記第2情報の書込アクセスがあった場合、前記一つの第2の装置に対応する前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記13記載の監視方法。
(付記15)
前記複数の記憶領域の各々は、対応する前記第2の装置が前記検出部による障害の検出対象であるか否かを示す第3情報が設定される第3領域をさらに備え、
前記更新を行なう処理において、前記第1の装置による前記保持部への前記第1情報の書込アクセスがあった場合、前記複数の第2の装置それぞれに対応する前記記憶領域の前記第3領域に設定された前記第3情報に応じて、前記記憶領域に対して前記第1及び第2領域の状態の更新を行なうことを特徴とする、付記13又は付記14記載の監視方法。
(付記16)
前記保持部は、前記第1又は第2の装置の障害の発生が検出されたことを示す第4情報が設定される第4領域をさらに備え、
前記検出する処理において、前記一方の装置に障害が発生したことを検出した場合に、前記第4領域に対して、前記一方の装置の障害の発生が検出されたことを示す前記第4情報を設定し、
前記通知する処理において、前記第4領域に設定された前記第4情報に基づいて、前記一方の装置の障害の発生を、前記他方の装置へ通知することを特徴とする、付記9〜15のいずれか1項記載の監視方法。
(付記17)
第1の装置と第2の装置との間に介設され、保持部及び制御回路を有する接続装置であって、
前記制御回路は、
前記第1の装置による所定時間ごとの前記保持部への第1情報の書き込みを監視するとともに、前記第2の装置による所定時間ごとの前記保持部への第2情報の書き込みを監視し、
前記監視結果に基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出し、
検出された前記一方の装置の障害の発生を、他方の装置へ通知する、
ことを特徴とする、接続装置。
In addition, the present invention is not limited to the above-described object, and is an operational effect derived from each configuration shown in the best mode for carrying out the invention described above. It can be positioned as one of the purposes.
[3] Appendix
Regarding the above embodiment, the following additional notes are disclosed.
(Appendix 1)
A connection device interposed between the first device and the second device,
A holding unit that writes the first information every predetermined time by the first device, and writes the second information every predetermined time by the second device;
The writing to the holding unit by each of the first and second devices is monitored, and a failure has occurred in one of the first and second devices based on the monitoring result. A detection unit for detecting
A notification unit for notifying the other device of the occurrence of a failure of the one device detected by the detection unit;
A connection device characterized by comprising:
(Appendix 2)
The detection unit detects that a failure has occurred in the one device when the first or second information is continuously written to the holding unit by the other device a predetermined number of times. The connection device as set forth in
(Appendix 3)
The holding part is
A first region in which the first information from the first device is set;
A second area in which the second information from the second device is set,
When there is a write access of the first or second information to the holding unit by the first or second device, depending on the access status indicated by the values set in the first and second areas The connection device according to
(Appendix 4)
A counter indicating the number of times the first or second information has been continuously written to the holding unit by the other device;
The write control unit controls the counter according to the access status when the write access is made by the first or second device.
The connection device according to
(Appendix 5)
The connection device is interposed between the first device and a plurality of the second devices,
The holding part is
Each of the plurality of second devices includes a storage area including the first and second areas, and the first and second information are written at predetermined time intervals. The connection device according to
(Appendix 6)
The write control unit
When there is a write access of the first information to the holding unit by the first device, the state of the first and second regions with respect to the storage region corresponding to each of the plurality of second devices Update
The storage area corresponding to the one second device when there is a write access of the second information to the holding unit by any one second device among the plurality of second devices The connection device according to
(Appendix 7)
Each of the plurality of storage areas further includes a third area in which third information indicating whether or not the corresponding second device is a failure detection target by the detection unit is set.
The write control unit, when there is a write access of the first information to the holding unit by the first device, the third region of the storage region corresponding to each of the plurality of second devices The connection device according to
(Appendix 8)
The holding unit further includes a fourth region in which fourth information indicating that a failure of the first or second device is detected is set;
When the detection unit detects that a failure has occurred in the one device, the detection unit sets the fourth information indicating that a failure has occurred in the one device in the fourth area. And
The notification unit notifies the occurrence of a failure of the one device to the other device based on the fourth information set in the fourth region. The connection device according to
(Appendix 9)
A monitoring method for first and second devices, comprising:
By a connection device interposed between the first device and the second device,
The first device monitors the writing of the first information to the holding unit of the connecting device every predetermined time, and the second device writes the second information to the holding unit every predetermined time. Monitor
Based on the monitoring result, detecting that a failure has occurred in any one of the first and second devices,
Notifying the other device of the occurrence of the detected failure of the one device;
A monitoring method characterized by the above.
(Appendix 10)
In the detecting process, when the first device or the second information is continuously written to the holding unit by the other device for a predetermined number of times, it is detected that a failure has occurred in the one device. The monitoring method according to
(Appendix 11)
The holding part is
A first region in which the first information from the first device is set;
A second area in which the second information from the second device is set,
The value set in the first and second areas is indicated when the connection device has a write access of the first or second information to the holding unit by the first or second device. The monitoring method according to
(Appendix 12)
In the process of performing the update, when there is the write access by the first or second device, the other device performs the first or second on the holding unit according to the access status. Control the counter that indicates the number of times the information has been continuously written and accessed,
The monitoring according to
(Appendix 13)
The connection device is interposed between the first device and a plurality of the second devices,
The holding part is
Each of the plurality of second devices includes a storage area including the first and second areas, and the first and second information are written at predetermined time intervals. The monitoring method according to
(Appendix 14)
In the process of performing the update,
When there is a write access of the first information to the holding unit by the first device, the state of the first and second regions with respect to the storage region corresponding to each of the plurality of second devices Update
The storage area corresponding to the one second device when there is a write access of the second information to the holding unit by any one second device among the plurality of second devices The monitoring method according to appendix 13, wherein the states of the first and second areas are updated.
(Appendix 15)
Each of the plurality of storage areas further includes a third area in which third information indicating whether or not the corresponding second device is a failure detection target by the detection unit is set.
In the update process, when there is a write access of the first information to the holding unit by the first device, the third region of the storage region corresponding to each of the plurality of
(Appendix 16)
The holding unit further includes a fourth region in which fourth information indicating that a failure of the first or second device is detected is set;
In the detection process, when it is detected that a failure has occurred in the one device, the fourth information indicating that a failure has occurred in the one device is detected for the fourth area. Set,
In the notifying process, the occurrence of a failure in the one device is notified to the other device based on the fourth information set in the fourth area. The monitoring method according to any one of the above.
(Appendix 17)
A connection device interposed between the first device and the second device and having a holding unit and a control circuit,
The control circuit includes:
Monitoring the writing of the first information to the holding unit every predetermined time by the first device, and monitoring the writing of the second information to the holding unit every predetermined time by the second device;
Based on the monitoring result, detecting that a failure has occurred in any one of the first and second devices,
Notifying the other device of the occurrence of the detected failure of the one device;
A connection device characterized by that.
1,100 情報処理装置
2,2−1,2−2,200−1,200−2 CPU
3,3−1,3−2,300−1,300−2 メモリ装置
4,400 システム制御装置
5,5−1,5−2 入出力処理装置(第1の装置)
500−1,500−2 入出力処理装置
6,6−1,6−2 ブリッジ装置(接続装置)
60 相互監視チェック制御回路
60a 制御回路
61 相互監視レジスタ(保持部)
61a,61a−1〜61a−(n+1) レジスタ(記憶領域)
62 書込制御部
63 障害検出部(検出部)
64 通知部
65,66 バス制御回路
600−1,600−2 ブリッジ装置
7,7−1〜7−(n+1) チャネル装置(第2の装置)
700−1〜700−4 チャネル装置
8,8−1,8−2,800−1,800−2 入出力装置1,100
3,3-1,3-2,300-1,300-2 Memory device 4,400
500-1,500-2 Input /
60 Mutual monitoring
61a, 61a-1 to 61a- (n + 1) registers (storage areas)
62
64
700-1 to 700-4
Claims (6)
前記第1の装置によりアクセスされる第1ビット領域と、前記第2の装置によりアクセスされる第2ビット領域とを有するレジスタ部と、
前記第1の装置からの前記第1ビット領域へのアクセスを検出すると、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに基づき、前記第1ビット領域の値を制御するとともに、前記第2の装置からの前記第2ビット領域へのアクセスを検出すると、前記値の組み合わせに基づき、前記第2ビット領域の値を制御する書込制御部と、
前記第1及び第2の装置の各々による前記レジスタ部へのアクセスを監視し、監視結果と前記値の組み合わせとに基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出する検出部と、
前記検出部により検出された前記一方の装置の障害の発生を、他方の装置へ通知する通知部と、
を有することを特徴とする、接続装置。 A connection device interposed between the first device and the second device,
A register unit having a first bit area accessed by the first device and a second bit area accessed by the second device;
When access to the first bit area from the first device is detected, the value of the first bit area is controlled based on a combination of values set in the first bit area and the second bit area, respectively. And, upon detecting access to the second bit area from the second device, based on the combination of values, a write control unit that controls the value of the second bit area;
To monitor access to the register unit by each of said first and second devices, based on a combination of monitoring results and the value, one of the devices of the first and second device A detection unit for detecting that a failure has occurred;
A notification unit for notifying the other device of the occurrence of a failure of the one device detected by the detection unit;
A connection device characterized by comprising:
前記書込制御部は、前記第1又は第2の装置による前記書込アクセスがあった場合に、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに応じて前記カウンタの制御を行ない、
前記検出部は、前記カウンタの値が所定の閾値に達した場合に、前記値の組み合わせに応じて前記一方の装置に障害が発生したことを検出することを特徴とする、請求項2記載の接続装置。 Further comprising a counter that indicates the number of times there was a continuous beneath write access to the register by the other device,
When the write access is made by the first or second device, the write control unit is configured to change the counter according to a combination of values set in the first bit area and the second bit area, respectively. Control
The detection unit according to claim 2 , wherein when the value of the counter reaches a predetermined threshold, the detection unit detects that a failure has occurred in the one device according to the combination of the values . Connected device.
前記レジスタ部は、
前記複数の第2の装置の各々について、前記第1及び第2ビット領域を含む記憶領域であって所定時間ごとに前記第1の装置及び前記複数の第2の装置からアクセスされる記憶領域を備えることを特徴とする、請求項1〜3のいずれか1項記載の接続装置。 The connection device is interposed between the first device and a plurality of the second devices,
The register unit is
For each of the plurality of second devices , a storage region that includes the first and second bit regions and is accessed from the first device and the plurality of second devices every predetermined time. The connection device according to claim 1, further comprising a connection device.
前記書込制御部は、前記第1の装置による前記レジスタ部への書込アクセスがあった場合、前記複数の第2の装置のそれぞれに対応する前記記憶領域の前記第3ビット領域に設定された前記情報に応じて、前記記憶領域に対して前記第1及び第2ビット領域の値を制御することを特徴とする、請求項4記載の接続装置。 The write control unit is set in the third bit area of the storage area corresponding to each of the plurality of second devices when there is a write access to the register unit by the first device. 5. The connection apparatus according to claim 4, wherein values of the first and second bit areas are controlled for the storage area in accordance with the information.
前記第1の装置と第2の装置との間に介設された接続装置により、
前記第1の装置によりアクセスされる第1ビット領域と、前記第2の装置によりアクセスされる第2ビット領域とを有するレジスタ部に対する、前記第1の装置からの前記第1ビット領域へのアクセスを検出すると、前記第1ビット領域及び前記第2ビット領域にそれぞれ設定された値の組み合わせに基づき、前記第1ビット領域の値を制御し、
前記第2の装置からの前記第2ビット領域へのアクセスを検出すると、前記値の組み合わせに基づき、前記第2ビット領域の値を制御し、
前記第1及び第2の装置の各々による前記レジスタ部へのアクセスを監視し、
監視結果と前記値の組み合わせとに基づいて、前記第1及び第2の装置のうちのいずれか一方の装置に障害が発生したことを検出し、
検出された前記一方の装置の障害の発生を、他方の装置へ通知する、
ことを特徴とする、監視方法。 A monitoring method for first and second devices, comprising:
By a connection device interposed between the first device and the second device,
Access to the first bit region from the first device for a register unit having a first bit region accessed by the first device and a second bit region accessed by the second device , Based on a combination of values set in the first bit area and the second bit area, respectively, to control the value of the first bit area,
Upon detecting access to the second bit area from the second device, based on the combination of values, control the value of the second bit area,
Monitoring access to the register unit by each of the first and second devices;
Based on a combination of monitoring results and the value, it detects that a failure has occurred in one of the devices of said first and second devices,
Notifying the other device of the occurrence of the detected failure of the one device;
A monitoring method characterized by the above.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/071778 WO2014033847A1 (en) | 2012-08-29 | 2012-08-29 | Connection device and monitoring method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5954420B2 true JP5954420B2 (en) | 2016-07-20 |
JPWO2014033847A1 JPWO2014033847A1 (en) | 2016-08-08 |
Family
ID=50182697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014532624A Active JP5954420B2 (en) | 2012-08-29 | 2012-08-29 | Connection device and monitoring method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5954420B2 (en) |
WO (1) | WO2014033847A1 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2767857B2 (en) * | 1989-02-07 | 1998-06-18 | 株式会社デンソー | Control system having a plurality of processor units |
JP4431069B2 (en) * | 2005-02-22 | 2010-03-10 | パナソニック株式会社 | Load balancer |
WO2008126325A1 (en) * | 2007-03-30 | 2008-10-23 | Fujitsu Limited | Cluster system, software updating method, service provision node, and program for service provision |
JP5532687B2 (en) * | 2009-06-03 | 2014-06-25 | 日本電気株式会社 | Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system |
-
2012
- 2012-08-29 WO PCT/JP2012/071778 patent/WO2014033847A1/en active Application Filing
- 2012-08-29 JP JP2014532624A patent/JP5954420B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2014033847A1 (en) | 2014-03-06 |
JPWO2014033847A1 (en) | 2016-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6003350B2 (en) | Monitoring device, information processing device, and monitoring method | |
JP5347414B2 (en) | Synchronization control device, information processing device, and synchronization management method | |
US8117494B2 (en) | DMI redundancy in multiple processor computer systems | |
EP3985512B1 (en) | Robust hardware/software error recovery system | |
JP2011048534A (en) | Fault tolerant computer and power control method | |
JP6853162B2 (en) | Semiconductor device | |
US10360115B2 (en) | Monitoring device, fault-tolerant system, and control method | |
JP5277961B2 (en) | Information processing apparatus and failure concealing method thereof | |
WO2015135100A1 (en) | Method for switching processors, computer, and switching apparatus | |
JP4973703B2 (en) | Failure detection method and monitoring device | |
JP5299281B2 (en) | Information processing apparatus and control method | |
JPWO2010100757A1 (en) | Arithmetic processing system, resynchronization method, and farm program | |
JP5954420B2 (en) | Connection device and monitoring method | |
JP6148129B2 (en) | Information processing apparatus, firmware update method, and firmware update program | |
JP6135403B2 (en) | Information processing system and information processing system failure processing method | |
JP7151637B2 (en) | Information processing device, control method for information processing device, and control program for information processing device | |
US9176806B2 (en) | Computer and memory inspection method | |
US20160321149A1 (en) | Computer apparatus and computer mechanism | |
JP5439736B2 (en) | Computer management system, computer system management method, and computer system management program | |
JP2007058549A (en) | Multi-computer module system, multi-computer module method, and program | |
JP2009294758A (en) | Virtual computer system and driver program for host bus adapter | |
JP6519266B2 (en) | Information processing apparatus, device, recovery method, and computer program | |
JP2014235503A (en) | Information processing device, information processing system, hard disk failure detection method, service continuation method, hard disk failure detection program, and service continuation program | |
JP2015082238A (en) | Notification device and notification method | |
JP2013182519A (en) | Computer, firmware management method, and bmc |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160517 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160530 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Ref document number: 5954420 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |