JP3248485B2 - Cluster system, monitoring method and method in cluster system - Google Patents

Cluster system, monitoring method and method in cluster system

Info

Publication number
JP3248485B2
JP3248485B2 JP14906798A JP14906798A JP3248485B2 JP 3248485 B2 JP3248485 B2 JP 3248485B2 JP 14906798 A JP14906798 A JP 14906798A JP 14906798 A JP14906798 A JP 14906798A JP 3248485 B2 JP3248485 B2 JP 3248485B2
Authority
JP
Japan
Prior art keywords
standby
monitoring
active
failure
monitoring unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14906798A
Other languages
Japanese (ja)
Other versions
JPH11338725A (en
Inventor
光輝 津端
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP14906798A priority Critical patent/JP3248485B2/en
Publication of JPH11338725A publication Critical patent/JPH11338725A/en
Application granted granted Critical
Publication of JP3248485B2 publication Critical patent/JP3248485B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、クラスタシステム
に関し、特にクラスタシステムにおける監視方式および
その方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a cluster system, and more particularly, to a monitoring method and a monitoring method in a cluster system.

【0002】[0002]

【従来の技術】図5を参照すると、運用系装置1、待機
系装置2おおび共有ディスク装置4を有するクラスタ構
成の従来のデュプレックスシステムにおいては、処理業
務を行っている運用系装置1において故障または障害が
発生し、クライアント3によって運用系装置1が処理不
能と判断された場合には、運用系装置1で行われていた
処理業務は待機系装置2に引き継がれ、待機系装置2に
おいて続行されるようになっている。
2. Description of the Related Art Referring to FIG. 5, in a conventional duplex system having a cluster configuration having an active device 1, a standby device 2, and a shared disk device 4, a failure occurs in the active device 1 performing a processing operation. Alternatively, if a failure occurs and the client 3 determines that the active device 1 cannot be processed, the processing task performed in the active device 1 is taken over by the standby device 2 and continued in the standby device 2. It is supposed to be.

【0003】特開平4−342333号公報には、ルー
プ型伝送路を有するローカルエリアネットワークに、ル
ープインタフェース装置およびループ監視部を設け、操
作員がテストコマンドを入力することで待機系の診断を
行う診断方式が提案されている。
[0003] In Japanese Patent Application Laid-Open No. 4-342333, a loop interface device and a loop monitoring unit are provided in a local area network having a loop-type transmission line, and a standby system is diagnosed by an operator inputting a test command. Diagnostic methods have been proposed.

【0004】しかし、このような従来システムにおいて
は、運用系装置1における故障または障害の発生に伴う
処理業務の引き継ぎの際に、運用系装置1で実行されて
いた処理業務がうまく待機系装置2に引き継ぎされない
場合があり、システムの信頼性の低下を招いている。
However, in such a conventional system, when a processing task is taken over due to the occurrence of a failure or a failure in the active device 1, the processing task executed in the active device 1 is successfully performed by the standby device 2. May not be handed over, causing a decrease in the reliability of the system.

【0005】処理業務がうまく引き継がれない場合と
は、例えば、業務を引き継ぐべき待機系装置2で何らか
の故障または障害が発生している場合、クライアント3
から待機系装置2に接続できない場合、もしくは、運用
系装置1で実行していた業務が待機系装置2のローカル
メモリ27やローカルディスク28の記憶容量の不足、
待機系装置2から共用ディスク4へのアクセス不能等の
問題で処理引き継ぎ後に待機系装置2では当該処理業務
の実行ができない場合等である。
[0005] The case where the processing work is not successfully taken over is, for example, when some kind of failure or failure has occurred in the standby system 2 to take over the work, the client 3
Cannot be connected to the standby system 2 from the server, or the work executed in the active system 1 is insufficient for the storage capacity of the local memory 27 or the local disk 28 of the standby system 2
This is a case where the standby system 2 cannot execute the processing task after the processing is taken over due to a problem such as the inability of the standby system 2 to access the shared disk 4.

【0006】[0006]

【発明が解決しようとする課題】上述のような従来の診
断方式では、操作員がテスト実行を命令することによっ
てバイパスモードを使用してシステムにおける待機系装
置の障害の有無が検査されるだけであり、運用系装置の
動作中における処理業務引き継ぎの可用性についての判
断は全く行われていなかった。このため、従来の方式に
おいては、待機系装置の処理移行の際に処理業務を実行
するだけの資源が確保されているかどうかの信頼性が保
証されていなかった。
In the conventional diagnostic system as described above, the operator only instructs the execution of a test to use the bypass mode to check whether or not a fault has occurred in the standby system in the system. Yes, no determination has been made regarding the availability of handover of the processing task during the operation of the active device. For this reason, in the conventional method, the reliability as to whether resources sufficient to execute processing tasks are secured at the time of processing transition of the standby system device has not been guaranteed.

【0007】例えば、運用系装置1で中央処理装置(以
下、CPUという。)を2台、メモリを30MB、ディ
スクを4GBそれぞれ使用して業務が実行されている場
合に、待機系装置2では、CPUが3台、メモリが10
0MB、ディスクが10GBそれぞれ使用可能であった
とする。ここでもし、待機系装置2で1台のCPUと1
0MBのメモリが故障したとしても、待機系装置2で
は、CPUを2台、メモリを90MB、ディスクを10
GBそれぞれ使用可能であることから、運用系装置1か
ら処理業務を移行することができる。しかし、待機系装
置2で2台のCPUと8GBのディスクが故障したとす
ると、待機系装置2では、CPUを1台、メモリを10
0MB、ディスクを2GBそれぞれ使用できるだけであ
り、運用系装置1から処理業務を移行することができな
い。
[0007] For example, in the case where a job is executed using two central processing units (hereinafter referred to as CPUs), 30 MB of memory, and 4 GB of disk in the active system device 1, the standby system device 2 3 CPUs, 10 memory
It is assumed that 0 MB and 10 GB of disk can be used, respectively. Here, if one CPU and one
Even if the 0 MB memory fails, the standby system 2 has two CPUs, 90 MB of memory and 10 disks of disk.
Since each of the GBs can be used, the processing operation can be transferred from the active device 1. However, assuming that two CPUs and an 8 GB disk have failed in the standby device 2, the standby device 2 has one CPU and 10 memories.
Only 0 MB and 2 GB of the disk can be used, and the processing operation cannot be transferred from the active device 1.

【0008】本発明の目的は、このような問題を解決す
るために、処理装置それぞれに監視部を設け、運用系の
資源利用情報と待機系の資源状況を常に互いに監視する
ことで運用系装置に合わせた待機系装置の可用性を保証
することにある。
[0008] An object of the present invention is to solve the above problem by providing a monitoring unit in each processing device, and constantly monitoring the resource utilization information of the active system and the resource status of the standby system. The purpose of the present invention is to guarantee the availability of the standby device according to the requirements.

【0009】[0009]

【課題を解決するための手段】上記課題を解決するため
に本発明のクラスタシステムにおける待機系監視装置
は、運用系装置および待機系装置がネットワークによっ
て接続されて構成されるクラスタシステムにおける監視
方式において、前記運用系装置および前記待機系装置の
それぞれは、障害および資源を監視する監視部を備え、
前記運用系の監視部は、運用系装置内の障害検出および
資源の使用量の検出を行い、検出した資源の使用量を前
記待機系の監視部に通知し、前記待機系の監視部は、待
機系装置内の障害検出および資源の使用可能量の検出を
行い、前記運用系の監視部から通知される前記運用系装
置の資源の使用量よりも検出した待機系装置の資源の使
用可能量が小さいときには異常が発生したと判断するこ
とを特徴とする。
SUMMARY OF THE INVENTION In order to solve the above-mentioned problems, a standby monitoring device in a cluster system according to the present invention comprises an operating device and a standby device connected to a network.
In a cluster system configured by connecting
In the system, the operation system device and the standby system device
Each has a monitoring unit that monitors faults and resources,
The active monitoring unit detects a failure in the active device and
Detects resource usage and increases the detected resource usage
The standby monitoring unit is notified, and the standby monitoring unit
Detect failures in equipment and detect available resources
The operation system device notified by the operation system monitoring unit.
Resource usage of the standby system detected from the resource usage of the
When the available amount is small, it is determined that an abnormality has occurred.
And features.

【0010】[0010]

【0011】さらに、前記運用系装置および前記待機系
装置はそれぞれ、監視のための監視線を含み、この監視
線を介して障害および資源の監視および異常検出時の通
知を行う。
Further, each of the active system device and the standby system device includes a monitoring line for monitoring, and monitors faults and resources and notifies when an abnormality is detected via the monitoring line.

【0012】また、前記運用系装置および前記待機系装
置は互いに連絡線によって接続される。
[0012] Further, the operating device and the standby device are connected to each other by a communication line.

【0013】また、前記運用系の監視部は、検出した自
装置内の資源の使用量を前記連絡線を介して前記待機系
の監視部に通知し、前記待機系の監視部は、前記連絡線
を介して通知される前記運用系装置の資源の使用量より
も待機系装置の資源の使用可能量が小さいと判断すると
障害発生と判断する。
The monitoring section of the active system notifies the monitoring section of the standby system via the communication line of the detected use amount of the resource in its own device. If it is determined that the available resource amount of the standby device is smaller than the resource usage amount of the active device notified via the line, it is determined that a failure has occurred.

【0014】さらに、前記運用系装置および前記待機系
装置の監視部は、前記連絡線を介して互いに監視し合
う。
Further, the monitoring units of the active device and the standby device monitor each other via the communication line.

【0015】また、前記資源とはCPU、ローカルメモ
リおよびローカルディスクである。
The resources are a CPU, a local memory and a local disk.

【0016】また、前記運用系装置および前記待機系装
置の監視部は、自系のLAN制御回路に障害を検出する
と、他系を通じてクライアントに障害を報告する。
Further, when the monitoring units of the active system device and the standby system device detect a failure in the LAN control circuit of the own system, the monitoring unit reports the failure to the client through the other system.

【0017】さらに、運用系装置および待機系装置がそ
れぞれ障害および資源を監視する監視部を備え、ネット
ワークによって接続されて構成されるクラスタシステム
において、前記運用系装置の稼働中に、運用系装置内の
障害検出と資源の使用量の検出と、待機系装置内の障害
検出と資源の使用可能量の検出を行い、運用系装置の資
源の使用量よりも前記待機系装置の使用可能量の方が小
さいと判断すると待機系装置の障害発生と判断する。
Further, in a cluster system in which the active device and the standby device each include a monitoring unit for monitoring a fault and a resource, and are connected by a network, in a cluster system which is operating while the active device is operating, Of the standby device and the resource usage of the standby device, and the fault detection and the available resource of the standby device are detected. Is small, it is determined that a failure has occurred in the standby system device.

【0018】[0018]

【発明の実施の形態】次に本発明の実施の形態について
図面を参照して詳細に説明する。
Embodiments of the present invention will now be described in detail with reference to the drawings.

【0019】図1を参照すると、本発明のクラスタシス
テムの実施の形態は、処理業務を実行する運用系装置1
と、運用系装置1が故障した場合にその処理業務を引き
継ぐ待機系装置2と、運用系装置1および待機系装置2
の両方からアクセスすることのできる共有ディスク装置
4と、クラスタシステムを管理するためのクライアント
3と、運用系装置1と待機系装置2とクライアント3と
を接続するローカルエリアネットワーク(以下、「LA
N」という。)5と、運用系装置1と待機系装置2の装
置間を接続する連絡パス6とを有する。
Referring to FIG. 1, an embodiment of a cluster system according to the present invention is an operation system 1 for executing a processing task.
And a standby device 2 that takes over the processing task when the active device 1 fails, an active device 1 and a standby device 2
, A client 3 for managing the cluster system, and a local area network (hereinafter, referred to as “LA”) connecting the active device 1, the standby device 2, and the client 3.
N ". ) 5 and a communication path 6 for connecting the active system device 1 and the standby system device 2 to each other.

【0020】運用系装置1は、LAN5と接続された第
1のLAN制御回路11と、連絡パス6と接続されたパ
ス制御回路12と、ケーブルを介して共有ディスク装置
4と接続されたディスク制御回路13とを有する。さら
に、運用系装置1は、定期的にLAN制御回路11、パ
ス制御回路12およびディスク制御回路13の状態やC
PU16、ローカルメモリ17およびローカルディスク
18の使用量等の資源の使用量および状態を監視し、通
常の運用時は資源の使用量を待機系装置2へ送出し、運
用系装置1内の障害の検出時にはクライアント3もしく
は待機系装置2にその旨の通知を行う監視部14を備え
る。監視部14は、LAN制御回路11、パス制御回路
12、ディスク制御回路13、CPU16、ローカルメ
モリ17およびローカルディスク18と監視のための監
視用パス15を介して接続されている。
The operation system device 1 includes a first LAN control circuit 11 connected to the LAN 5, a path control circuit 12 connected to the communication path 6, and a disk control device connected to the shared disk device 4 via a cable. And a circuit 13. Further, the operation system device 1 periodically checks the status of the LAN control circuit 11, the path control circuit 12, and the disk control circuit 13,
The usage and status of resources such as the usage of the PU 16, the local memory 17 and the local disk 18 are monitored, and during normal operation, the resource usage is sent to the standby system 2, and the failure in the operation system 1 is monitored. A monitoring unit 14 is provided for notifying the client 3 or the standby apparatus 2 of the detection at the time of detection. The monitoring unit 14 is connected to the LAN control circuit 11, the path control circuit 12, the disk control circuit 13, the CPU 16, the local memory 17, and the local disk 18 via a monitoring path 15 for monitoring.

【0021】待機系装置2は、運用系装置1と同様の構
成を有しており、LAN制御回路21と、パス制御回路
22と、ディスク制御回路23とを有し、定期的にLA
N制御回路11、パス制御回路12およびディスク制御
回路13の状態やCPU26、ローカルメモリ27およ
びローカルディスク28等の資源の使用可能量および状
態を監視して障害もしくは資源不足の検出時にクライア
ント3もしくは運用系装置1その旨の通知を行う監視部
24と、監視のための監視用パス25とを備える。
The standby system 2 has the same configuration as the active system 1 and has a LAN control circuit 21, a path control circuit 22, and a disk control circuit 23.
The state of the N control circuit 11, the path control circuit 12, and the disk control circuit 13 and the available amount and state of resources such as the CPU 26, the local memory 27, and the local disk 28 are monitored to detect a failure or resource shortage. The system device 1 includes a monitoring unit 24 for notifying the fact and a monitoring path 25 for monitoring.

【0022】クライアント3は、通常時にはLAN5を
経由して運用系装置1に処理要求を発行し、運用系装置
1に処理業務を実行させている。
Normally, the client 3 issues a processing request to the active device 1 via the LAN 5 and causes the active device 1 to execute a processing task.

【0023】運用系装置1は、クライアント3からの処
理要求に応答して処理業務を行うが、このとき、監視部
14は、監視用パス15を介してLAN制御回路11、
パス制御回路12およびディスク制御回路13の状態
や、CPU16、ローカルメモリ17およびローカルデ
ィスク18の使用量をそれぞれ監視し、運用系のCPU
16、ローカルメモリ17およびローカルディスク18
の使用量を連絡パス6を介して待機系装置2の監視部2
4へ通知する。ここで、もし、監視部14が障害を検出
している場合には、監視部14はクライアント3にその
旨の通知を行う。
The operating system device 1 performs a processing operation in response to a processing request from the client 3, and at this time, the monitoring unit 14 transmits the LAN control circuit 11 via the monitoring path 15 to the LAN control circuit 11.
The statuses of the path control circuit 12 and the disk control circuit 13 and the usage of the CPU 16, the local memory 17, and the local disk 18 are monitored, respectively, and the active CPU is monitored.
16, local memory 17 and local disk 18
Monitoring unit 2 of the standby system 2 via the communication path 6
Notify 4. Here, if the monitoring unit 14 detects a failure, the monitoring unit 14 notifies the client 3 to that effect.

【0024】待機系装置2の監視部24は、運用系装置
1で業務が実行されている間、待機系装置2内の各部を
監視する。すなわち、クライアント3と待機系装置2と
の接続、運用系装置1から待機系装置2への処理業務の
引き継ぎ、および待機系装置2から共有ディスク4への
アクセスのそれぞれが可能であるかを判断するために、
監視用パス25を介してLAN制御回路21、パス制御
回路22、ディスク制御回路23、CPU26、ローカ
ルメモリ27およびローカルディスク28の監視を行
う。また、それと共に、監視部24は、運用系装置1の
監視部14から連絡パス6を経由して送られてくる運用
系装置1のCPU16、メモリ17およびディスク18
の使用量を、待機系装置2のCPU26、メモリ27お
よびディスク28の使用可能量と比較して、運用系装置
1で実行中の処理業務が待機系装置2に引き継がれても
それを実行可能な資源が待機系装置2に確保されている
かどうかの判断を行う。そして、障害または資源不足を
検出すると、監視部24はクライアント3にその旨の通
知を行う。このように、待機系装置2内の資源の使用可
能量が運用系装置1内の資源の使用量より大きい場合に
は、待機系装置2による運用系装置1で処理中の業務を
引き継ぎが可能であると判断するといった、運用系装置
1の稼働状況に合わせた待機系装置2の監視が行われ
る。
The monitoring unit 24 of the standby system device 2 monitors each unit in the standby system device 2 while a job is being executed in the active system device 1. That is, it is determined whether the connection between the client 3 and the standby device 2, the transfer of the processing task from the active device 1 to the standby device 2, and the access from the standby device 2 to the shared disk 4 are possible. To do
The monitoring of the LAN control circuit 21, the path control circuit 22, the disk control circuit 23, the CPU 26, the local memory 27, and the local disk 28 is performed via the monitoring path 25. At the same time, the monitoring unit 24 operates the CPU 16, the memory 17, and the disk 18 of the active device 1 sent from the monitoring unit 14 of the active device 1 via the communication path 6.
Is compared with the available capacity of the CPU 26, the memory 27, and the disk 28 of the standby device 2, and the processing operation being executed in the active device 1 can be executed even if it is taken over by the standby device 2. It is determined whether or not an appropriate resource is secured in the standby system device 2. Then, upon detecting a failure or resource shortage, the monitoring unit 24 notifies the client 3 to that effect. As described above, when the usable amount of the resources in the standby device 2 is larger than the used amount of the resources in the active device 1, the work being processed by the active device 1 can be taken over by the standby device 2. The standby device 2 is monitored according to the operating status of the active device 1 such that the standby device 2 is determined.

【0025】次に本発明の実施の形態の動作について説
明する。
Next, the operation of the embodiment of the present invention will be described.

【0026】図1および図2を参照すると、運用系装置
1内の監視部14は、まず、監視用パス15を通じて運
用系装置1内のCPU16、ローカルメモリ17および
ローカルディスク18等の資源の状態および使用状況
と、LAN制御回路11、パス制御回路12およびディ
スク制御回路13の状態とを監視するとともに、さら
に、待機系装置2の監視部24も監視する(図2のステ
ップS1)。そして、この監視の結果、運用系装置1の
内部の異常発生もしくは待機系装置2の監視部24から
の異常通知が検出されると、監視部14はクライアント
3へ異常発生の通知を行う(ステップS21)。一方、
異常が検出されなければ運用系装置1の資源利用情報を
連絡パス6を通じて待機系装置2の監視部24へ送出す
る(ステップS3)。
Referring to FIGS. 1 and 2, the monitoring unit 14 in the active device 1 first checks the status of resources such as the CPU 16, the local memory 17 and the local disk 18 in the active device 1 through the monitoring path 15. In addition to monitoring the usage status and the status of the LAN control circuit 11, the path control circuit 12, and the disk control circuit 13, the monitoring unit 24 of the standby system 2 is also monitored (step S1 in FIG. 2). Then, as a result of this monitoring, when the occurrence of an abnormality inside the active device 1 or the abnormality notification from the monitoring unit 24 of the standby device 2 is detected, the monitoring unit 14 notifies the client 3 of the occurrence of the abnormality (step S21). on the other hand,
If no abnormality is detected, the resource utilization information of the active device 1 is transmitted to the monitoring unit 24 of the standby device 2 through the communication path 6 (Step S3).

【0027】一方、待機系装置2の監視部24は、待機
系装置2内の監視用パス25を通じて待機系装置2内の
CPU26、ローカルメモリ27およびローカルディス
ク28等の資源の状態および使用可能量と、LAN制御
回路21、パス制御回路22およびディスク制御回路2
3の状態とを監視するとともに、運用系装置2の監視部
14の状態を監視する(ステップS11)。そして、こ
の監視の結果、待機系装置2の内部の異常発生もしくは
運用系装置1の監視部14からの異常の通知が検出され
ると、クライアント3に通知を行い(ステップS2
1)、異常の通知が検出されなければ、連絡パス6を介
して送出されてくる運用系装置1の資源使用量と待機系
装置2の資源の使用可能容量との比較を行う(ステップ
S13)。ここで、CPU、ローカルメモリおよびロー
カルディスク等の資源のうちの1つでも、運用系装置1
対応する資源の資源使用量よりも不足していると判断さ
れると、その旨がクライアント3に通知される(ステッ
プS14)。一方、待機系装置2内の資源の使用可能量
が全て運用系装置1の資源の使用量よりも大ければ問題
なしとして終了する。クライアント3は、運用系装置1
もしくは待機系装置2から障害等の問題発生が通知され
ると、操作者に通知を行うなどの対処を行う。
On the other hand, the monitoring unit 24 of the standby device 2 transmits the status and available amount of resources such as the CPU 26, the local memory 27 and the local disk 28 in the standby device 2 through the monitoring path 25 in the standby device 2. , LAN control circuit 21, path control circuit 22, and disk control circuit 2
3 and the state of the monitoring unit 14 of the active device 2 is monitored (step S11). Then, as a result of this monitoring, when the occurrence of an abnormality inside the standby system device 2 or the notification of the abnormality from the monitoring unit 14 of the operation system device 1 is detected, the client 3 is notified (step S2).
1) If no notification of an abnormality is detected, a comparison is made between the resource usage of the active device 1 transmitted via the communication path 6 and the available capacity of the resources of the standby device 2 (step S13). . Here, even one of the resources such as the CPU, the local memory, and the local disk is stored in the active system device 1.
When it is determined that the resource usage of the corresponding resource is insufficient, the client 3 is notified of the fact (step S14). On the other hand, if the available resources of the resources in the standby device 2 are all larger than the available resources of the active device 1, the process ends without any problem. The client 3 is the operating system device 1
Alternatively, when the occurrence of a problem such as a failure is notified from the standby device 2, a measure such as notifying the operator is taken.

【0028】次に、上記において異常が検出された場合
について詳細に述べる。
Next, the case where an abnormality is detected in the above will be described in detail.

【0029】まず、待機系装置2の監視部24が異常を
検出した場合を考える。監視部24は、まず、異常発生
場所を判断し(ステップS21)、異常箇所が、図3に
斜線で示したパス制御回路22、ディスク制御回路2
3、CPU26、ローカルメモリ27、ローカルディス
ク28および運用系装置1の監視部14の何れか、もし
くはLAN5、である場合には、LAN制御回路21お
よびLAN5を経由してクライアント3に異常発生の通
知を行う(ステップS22)。これに対し、図4に示す
ように、LAN制御回路21の異常を検出した場合に
は、監視部24は、パス制御回路22、連絡パス6およ
びパス制御回路12を経由して、運用系装置1の監視部
14にLAN制御回路21の異常発生を通知する(ステ
ップS23)。そして、この異常発生の通知を受けた監
視部14は、LAN制御回路11およびLAN5を経由
してクライアント3に待機系装置2のLAN制御回路2
1の異常発生の通知を行う(ステップS24)。
First, consider the case where the monitoring unit 24 of the standby apparatus 2 detects an abnormality. The monitoring unit 24 first determines the location where the abnormality has occurred (step S21), and determines the location of the abnormality with the path control circuit 22 and the disk control circuit 2 indicated by hatching in FIG.
3. If any one of the CPU 26, the local memory 27, the local disk 28, and the monitoring unit 14 of the operation apparatus 1 or the LAN 5, or notifies the client 3 via the LAN control circuit 21 and the LAN 5 of the occurrence of an abnormality. Is performed (step S22). On the other hand, as illustrated in FIG. 4, when an abnormality of the LAN control circuit 21 is detected, the monitoring unit 24 transmits the operation system device via the path control circuit 22, the communication path 6, and the path control circuit 12. The first monitoring unit 14 is notified of the occurrence of an abnormality in the LAN control circuit 21 (step S23). Then, the monitoring unit 14 having received the notification of the occurrence of the abnormality notifies the client 3 via the LAN control circuit 11 and the LAN 5 of the LAN control circuit 2 of the standby system 2.
A notification of the occurrence of abnormality 1 is made (step S24).

【0030】同様に、運用系装置1の監視部14によ
り、LAN制御回路11以外の異常が検出されると、L
AN制御回路11、LAN5を経由してクライアント3
に異常発生が通知される。これに対し、LAN制御回路
11で異常が検出されると、パス制御回路12、連絡パ
ス6およびLAN制御回路22を経由して待機系装置2
の監視部24にLAN制御回路11の異常発生が通知さ
れる。そして、この通知を受けた待機系装置2の監視部
24は、LAN制御回路21およびLAN5を経由して
クライアント3にLAN制御回路11の異常発生の通知
を行う。
Similarly, when an abnormality other than the LAN control circuit 11 is detected by the monitoring unit 14 of the active device 1,
Client 3 via AN control circuit 11 and LAN 5
Is notified of the occurrence of an error. On the other hand, when an abnormality is detected in the LAN control circuit 11, the standby system device 2 is transmitted via the path control circuit 12, the communication path 6, and the LAN control circuit 22.
Is notified of the occurrence of an abnormality in the LAN control circuit 11. Then, the monitoring unit 24 of the standby apparatus 2 receiving this notification notifies the client 3 of the occurrence of the abnormality of the LAN control circuit 11 via the LAN control circuit 21 and the LAN 5.

【0031】運用系装置1の監視部14と待機系装置2
の監視部24とは、連絡パス6を経由して互いの状態を
監視し合っており、このため、相手側の監視部の故障を
検出することができ、監視部の故障で正常な監視が行わ
れない、もしくは故障の通知を出すことができないとい
ったことを防止できる。
The monitoring unit 14 of the active device 1 and the standby device 2
Monitors the status of each other via the communication path 6, so that a failure of the monitoring unit on the other side can be detected, and normal monitoring can be performed due to the failure of the monitoring unit. It can be prevented that the notification is not performed or a failure notification cannot be issued.

【0032】[0032]

【発明の効果】以上のように、本発明は、運用系装置お
よび待機系装置を有するクラスタ構成のシステムにおい
て、運用系装置で実行中の処理業務を実行できるだけの
CPU、ローカルメモリおよびローカルディスクの容量
等が待機系装置で確保できているか、LANおよび共有
ディスク装置にアクセスするための各制御装置に異常が
ないかを監視する監視部を設けることによって、運用系
システムの稼働状況に合わせた待機系の可用性を判断す
ることができ、運用系装置に異常が生じた時に待機系装
置に処理業務が問題なく引き継いで実行することができ
るクラスタシステムとして高信頼化を図ることができる
という効果がある。
As described above, according to the present invention, in a cluster system having an active device and a standby device, a CPU, a local memory, and a local disk which can execute processing tasks being executed in the active device are used. By providing a monitoring unit that monitors whether the capacity and the like can be secured by the standby system device and whether there is any abnormality in each control device for accessing the LAN and the shared disk device, the standby unit according to the operation status of the active system is provided. It is possible to determine the availability of the system, and it is possible to achieve high reliability as a cluster system that can take over and execute processing tasks without any problem to the standby system device when an abnormality occurs in the active system device. .

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態の構成を示すブロック図で
ある。
FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention.

【図2】本発明の実施の形態の動作を表す流れ図であ
る。
FIG. 2 is a flowchart illustrating an operation of the exemplary embodiment of the present invention.

【図3】本発明の実施の形態の第1の状態を示す図であ
る。
FIG. 3 is a diagram showing a first state of the embodiment of the present invention.

【図4】本発明の実施の形態の第2の状態を示す図であ
る。
FIG. 4 is a diagram showing a second state of the embodiment of the present invention.

【図5】従来の技術の構成を示す図である。FIG. 5 is a diagram showing a configuration of a conventional technique.

【符号の説明】[Explanation of symbols]

1 運用系装置 2 待機系装置 3 クライアント 4 共有ディスク 5 LAN 6 連絡パス 7,8 ケーブル 11,21 LAN制御回路 12,22 パス制御回路 13,23 ディスク制御回路 14,24 監視部 15,25 監視用パス 16,26 CPU 17,27 ローカルメモリ 18,28 ローカルディスク REFERENCE SIGNS LIST 1 active system device 2 standby system device 3 client 4 shared disk 5 LAN 6 communication path 7, 8 cable 11, 21 LAN control circuit 12, 22, path control circuit 13, 23 disk control circuit 14, 24 monitoring unit 15, 25 for monitoring Path 16, 26 CPU 17, 27 Local memory 18, 28 Local disk

Claims (8)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 運用系装置および待機系装置がネットワ
ークによって接続されて構成されるクラスタシステムに
おける監視方式において、前記運用系装置および前記待機系装置のそれぞれは、障
害および資源を監視する監視部を備え、 前記運用系の監視部は、運用系装置内の障害検出および
資源の使用量の検出を行い、検出した資源の使用量を前
記待機系の監視部に通知し、 前記待機系の監視部は、待機系装置内の障害検出および
資源の使用可能量の検出を行い、前記運用系の監視部か
ら通知される前記運用系装置の資源の使用量よりも検出
した待機系装置の資源の使用可能量が小さいときには異
常が発生したと判断する ことを特徴とするクラスタシス
テムにおける監視方式。
In a monitoring system in a cluster system in which an active device and a standby device are connected by a network , each of the active device and the standby device has a fault.
A monitoring unit that monitors harm and resources, wherein the active monitoring unit detects a failure in the active device and
Detects resource usage and increases the detected resource usage
Notifying the standby monitoring unit, the standby monitoring unit detects a failure in the standby device and
Detects the amount of resources that can be used.
Detected from the resource usage of the operating device notified from the
When the available resources of the standby system
A monitoring method in a cluster system, wherein it is determined that normal has occurred .
【請求項2】 前記運用系装置および前記待機系装置の
それぞれは、監視のための監視線を含み、 この監視線を介して障害および資源の監視および異常検
出時の通知を行うことを特徴とする請求項記載のクラ
スタシステムにおける監視方式。
2. The system according to claim 1, wherein each of the active device and the standby device includes a monitoring line for monitoring, and performs monitoring of a failure and a resource and notification of abnormality detection via the monitoring line. The monitoring method in the cluster system according to claim 1 .
【請求項3】 前記クラスタシステムは、前記運用系装
置および前記待機系装置を接続する連絡線を含み、 前記運用系の監視部において検出される資源の使用量は
前記連絡線を介して前記待機系の監視部に通知されるこ
とを特徴とする請求項記載のクラスタシステムにおけ
る監視方式。
3. The cluster system includes a communication line that connects the active device and the standby device, and a usage amount of the resource detected by the monitoring unit of the active system is set via the communication line. The monitoring method according to claim 2, wherein the monitoring method is notified to a monitoring unit of the system.
【請求項4】 前記運用系装置および前記待機系装置の
監視部は、前記連絡線を介して互いに監視し合うことを
特徴とする請求項記載のクラスタシステムにおける監
視方式。
4. The monitoring method according to claim 3 , wherein the monitoring units of the active device and the standby device monitor each other via the communication line.
【請求項5】 前記資源は、CPU、ローカルメモリお
よびローカルディスクを含むことを特徴とする請求項
またはまたは記載のクラスタシステムにおける監視
方式。
Wherein said resource, CPU, claim 1, characterized in that it comprises a local memory and local disk
Or a monitoring method in the cluster system described in 2 or 4 .
【請求項6】 前記運用系装置および前記待機系装置の
監視部は、自系のLAN制御回路に障害を検出すると、
他系を通じてクライアントに障害を報告することを特徴
とする請求項記載のクラスタシステムにおける監視方
式。
6. The monitoring unit of the active device and the standby device detects a failure in its own LAN control circuit.
Monitoring method in a cluster system according to claim 1, wherein the reporting a failure to the client through the other system.
【請求項7】 運用系装置および待機系装置がそれぞれ
障害および資源を監視する監視部を備え、ネットワーク
によって接続されて構成されるクラスタシステムにおけ
る監視方法において、 前記運用系装置の稼働中に、前記運用系装置内の障害検
出と資源の使用量の検出を行うステップと、 前記待機系装置内の障害検出と資源の使用可能量の検出
を行うステップと、前記運用系装置の資源の使用量と、
前記待機系装置の資源の使用可能量とを比較するステッ
プと、 前記運用系装置の資源の使用量よりも前記待機系装置の
使用可能量の方が小さい場合には、前記待機系装置に障
害が発生したと判断するステップとを含むことを特徴と
するクラスタシステムにおける監視方法。
7. A monitoring method in a cluster system in which an active device and a standby device each include a monitoring unit for monitoring a failure and a resource, and wherein the active device and the standby device are connected by a network, Detecting a failure in the active device and detecting the amount of resources used; detecting a failure in the standby device and detecting the amount of available resources; and ,
Comparing the available amount of resources of the standby device; and, if the available amount of the standby device is smaller than the available amount of resources of the active device, the standby device fails. Determining that an error has occurred.
【請求項8】 運用系装置および待機系装置とを有し、 前記運用系装置および前記待機系装置のそれぞれは、障
害および資源を監視する監視部を備え、 前記運用系装置の監視部は、運用系装置内の障害検出と
資源の使用量の検出を行い、 前記待機系装置の監視部は、待機系装置内の障害検出と
資源の使用可能量の検出を行い、前記運用系装置の資源
の使用量よりも当該待機系装置の資源の使用可能量が小
さいとき異常発生と判断することを特徴とするクラスタ
システム。
8. An active device and a standby device, wherein each of the active device and the standby device includes a monitoring unit that monitors a failure and a resource, and the monitoring unit of the active device includes: The failure detection in the active device and the detection of the resource usage are performed. The monitoring unit of the standby device detects the failure in the standby device and detects the available amount of the resource. A cluster system which determines that an abnormality has occurred when the available amount of resources of the standby system device is smaller than the used amount of the standby system device.
JP14906798A 1998-05-29 1998-05-29 Cluster system, monitoring method and method in cluster system Expired - Fee Related JP3248485B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14906798A JP3248485B2 (en) 1998-05-29 1998-05-29 Cluster system, monitoring method and method in cluster system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14906798A JP3248485B2 (en) 1998-05-29 1998-05-29 Cluster system, monitoring method and method in cluster system

Publications (2)

Publication Number Publication Date
JPH11338725A JPH11338725A (en) 1999-12-10
JP3248485B2 true JP3248485B2 (en) 2002-01-21

Family

ID=15466967

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14906798A Expired - Fee Related JP3248485B2 (en) 1998-05-29 1998-05-29 Cluster system, monitoring method and method in cluster system

Country Status (1)

Country Link
JP (1) JP3248485B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2642388A1 (en) 2012-03-21 2013-09-25 Nec Corporation Standby system device, control method, and program thereof

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153700A1 (en) * 2003-01-02 2004-08-05 Nixon Mark J. Redundant application stations for process control systems
WO2007055014A1 (en) * 2005-11-11 2007-05-18 Fujitsu Limited Network monitor program executed in computer of cluster system, information processing method, and computer
JP5511262B2 (en) * 2009-08-20 2014-06-04 三菱電機株式会社 Information processing system and program
JP2013025365A (en) * 2011-07-15 2013-02-04 Nec Corp Method for notifying of fault of standby device in dual system
JP2013196484A (en) * 2012-03-21 2013-09-30 Toshiba Corp Configuration management device for managing configuration of cluster system
US11223515B2 (en) 2017-09-06 2022-01-11 Nec Corporation Cluster system, cluster system control method, server device, control method, and non-transitory computer-readable medium storing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2642388A1 (en) 2012-03-21 2013-09-25 Nec Corporation Standby system device, control method, and program thereof
US9092396B2 (en) 2012-03-21 2015-07-28 Nec Corporation Standby system device, a control method, and a program thereof

Also Published As

Publication number Publication date
JPH11338725A (en) 1999-12-10

Similar Documents

Publication Publication Date Title
KR100557399B1 (en) A method of improving the availability of a computer clustering system through the use of a network medium link state function
US20070288585A1 (en) Cluster system
US20030079154A1 (en) Mothed and apparatus for improving software availability of cluster computer system
US20080288812A1 (en) Cluster system and an error recovery method thereof
JP4695705B2 (en) Cluster system and node switching method
JP2006079603A (en) Smart card for high-availability clustering
JP3248485B2 (en) Cluster system, monitoring method and method in cluster system
JP3211878B2 (en) Communication processing control means and information processing apparatus having the same
EP1107119A2 (en) Extending cluster membership and quorum determinations to intelligent storage systems
US8111625B2 (en) Method for detecting a message interface fault in a communication device
US7475076B1 (en) Method and apparatus for providing remote alert reporting for managed resources
US20060248531A1 (en) Information processing device, information processing method and computer-readable medium having information processing program
JPH07183891A (en) Computer system
KR101883251B1 (en) Apparatus and method for determining failover in virtual system
CN114880080B (en) High-availability method of virtual machine and computing cluster
JPH0934852A (en) Cluster system
JP4623001B2 (en) Fault isolation system, fault isolation method, and program
JP2751861B2 (en) Network system fault detection processing circuit
KR960010879B1 (en) Bus duplexing control of multiple processor
JPH07154401A (en) Diagnostic method for duplex communication system
KR100604552B1 (en) Method for dealing with system troubles through joint-owning of state information and control commands
JPH05224964A (en) Bus abnormality information system
KR100257162B1 (en) Method and apparatus for supervising relative system in duplex system
JPH11327937A (en) Resource exclusive control system
JPH06290126A (en) Fault monitoring system for computer system

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20011009

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071109

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081109

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081109

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091109

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees