JP2011054033A

JP2011054033A - 監視制御装置

Info

Publication number: JP2011054033A
Application number: JP2009203857A
Authority: JP
Inventors: Yasushi Ariga; 靖有賀; Takamitsu Chikedera; 隆光千見寺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-09-03
Filing date: 2009-09-03
Publication date: 2011-03-17

Abstract

【課題】２重障害への耐性を高めるとともに障害の発生から短時間で復旧可能な監視制御装置を提供すること。
【解決手段】運用系サーバ１０１と待機系サーバ１０２とが共有ディスク１０３を介して監視制御アプリケーション情報を共有しつつ被監視装置への監視制御を行う監視制御システムにおいて、運用系サーバ１０１と待機系サーバ１０２とに、ミドルウェア２０１、監視制御アプリケーション２０２、および冗長障害監視アプリケーション２０３を設ける。冗長監視制御アプリケーション２０３は、各サーバのローカルディスク１０１１、１０２１に記憶されている監視制御アプリケーション情報と共有ディスク１０３に記憶されている監視制御アプリケーション情報とを同期させる。この状態から両系障害が生じれば、監視制御アプリケーション２０２により提供される機能を必要最低限に絞り込んだ縮退運転を行わせる。
【選択図】図１

Description

この発明は、ＳＮＭＰ（Simple Network Management Protocol）を用いてネットワークを監視する監視制御装置に関する。特にこの発明は、共有ディスクを利用するクラスタシステムの形態をとる監視制御装置の改良に関する。

ＩＰ（Internet Protocol）網のようなネットワークを監視するプロトコルには、実装が容易なＳＮＭＰが用いられることが多い。ＳＮＭＰでは、ＳＮＭＰＴＲＡＰ（以下ではＴＲＡＰと表記する）と称するメッセージを用いて被監視装置から監視制御装置に管理情報が通知される。また、耐障害性能を高めるため監視制御装置は冗長化されることが多い。そのなかに、共有ディスクを設けてクラスタシステム化されるシステムがある（例えば、特許文献１を参照）。

運用系サーバと待機系サーバとを備える監視制御装置において、運用系および待機系のいずれのサーバも共有ディスクにアクセスし、運用系サーバと待機系サーバの切り替え時にデータを共有する。共有ディスクは冗長化され、ディスクの単一障害により監視制御装置の機能が停止しないように設計されることが多い。

しかしながら共有ディスク障害からの復旧前に共有ディスクの別の箇所で障害が発生すると（いわゆる共有ディスクの２重障害）、共有ディスクの停止が監視制御装置の機能停止の原因となる。このほか復旧操作を誤った場合や、オンラインで交換不能な部品（マザーボードなど）に障害が発生した場合にも同様に、監視制御装置が機能停止することになる。

監視制御装置は２４時間稼動することが求められ、機能停止状態が長時間継続するとシステム運用へのインパクトが大きい。障害発生から復旧までの時間を規定時間内に納めることが、システムを利用する通信事業者から要求される場合もある。障害の発生に際して監視制御機能を短時間で復旧させることが求められている。

特開２００６−２２７７７０号公報

障害に備えて装置を冗長化するには、それぞれ独立して動作可能なサーバを２つ設置する形態が先ず考えられる。しかし、２つのサーバ間でデータの同期をとるためにデータの処理量が倍増し、処理能力の高いサーバを用いたり、サーバの数をさらに増やしたりといった対処が必要になる。これに代えて共有ディスクを２重化する形態もあるが、この形態ではディスクへのアクセス回数が倍増し、やはり処理能力の高いサーバが必要になる。

このように監視制御装置を冗長化するには高額なサーバが必要であったり、構成が複雑になる分データの同期やメンテナンスも複雑になるという欠点がある。また、これら２重化の手法は共有ディスクの２重障害には耐えられない場合もあり、安価な共有ディスクではディスクのコントローラの２重化が困難なものもある。
この発明は上記事情によりなされたもので、その目的は、共有ディスクの２重障害への耐性を高めるとともに障害の発生から短時間で復旧可能な監視制御装置を提供することにある。

上記目的を達成するためにこの発明の一態様によれば、共有ディスクを用いて情報を共有する運用系サーバと待機系サーバとを備え、前記運用系サーバまたは待機系サーバのいずれかにおいて選択的に有効化される共通アドレスに向け被監視装置から発報される監視制御情報に基づいて前記被監視装置への監視制御を行う監視制御装置において、前記運用系サーバおよび待機系サーバの各々は、前記共有ディスクとは別に設けられるローカルディスクと、前記共有ディスクにアクセスして前記監視制御に係わる処理を担う監視制御アプリケーションと、自サーバの運用状態の監視と前記運用系サーバと前記待機系サーバとの冗長切替に係わる処理を担うミドルウェアと、このミドルウェアの状態を監視する冗長障害監視アプリケーションとを備え、前記冗長障害監視アプリケーションは、前記ミドルウェアの状態に基づいて自サーバの運用状態を判定し、この判定の結果自サーバが運用系サーバであれば、前記共有ディスクと前記ローカルディスク間で監視制御アプリケーション情報を同期させ、前記ミドルウェアの状態から前記共有ディスクの障害を検出した場合に、前記運用系サーバおよび待機系サーバのいずれかの前記共通アドレスを有効化し、前記監視制御アプリケーションのアクセス先を自サーバのローカルディスクに変更し、前記監視制御アプリケーションの機能のうち少なくとも前記監視制御情報の受信に係わる機能を残した縮退運転を開始することを特徴とする監視制御装置が提供される。

このような手段を講じることにより、共有ディスクの監視制御アプリケーション情報は、運用系サーバおよび待機系サーバの各ローカルディスクの情報と予め同期される。この状態から共有ディスクの障害が検出されると、監視制御アプリケーションを縮退運転させるサーバ（縮退運転サーバ）が決定され、縮退運転サーバの共通アドレスが有効化される。よって縮退運転サーバにおいてローカルディスクを用いた監視制御が引き継がれるとともに、少なくとも監視制御情報（例えばＴＲＡＰ）の受信に係わる機能は残した上で縮退運転が開始される。すなわち、共有ディスクの障害が生じた場合にこの共有ディスクがシステムから切り離され、機能を必要最低限とした縮退運転が開始されるのでシステムダウンに至ることがない。従って共有ディスクの２重障害への耐性を高めることができ、また、共有ディスクとローカルディスクとの間のデータ同期が予めとられているので、短時間での復旧を促すことが可能になる。

この発明によれば、共有ディスクの２重障害への耐性を高めるとともに障害の発生から短時間で復旧可能な監視制御装置を提供することができる。

この発明に係わる監視制御装置の実施の形態を示す機能ブロック図。共有ディスクおよびローカルディスク間での監視制御アプリケーション情報の更新手順を示すフローチャート。監視制御アプリケーション情報の更新に係わる別の手順を示すフローチャート。冗長障害監視アプリケーション２０３による作用を説明するためのフローチャート。監視制御アプリケーションの起動および共通ＩＰアドレスの有効化手順を示すフローチャート。監視制御アプリケーションの停止および共通ＩＰアドレスの無効化手順を示すフローチャート。両系障害でない状態におけるシステムの動作を示す図。両系障害が発生し縮退運転となった状態を示す図。

図１は、この発明に係わる監視制御装置の実施の形態を示す機能ブロック図である。図１の監視制御装置ＭＳはＩＰネットワーク１０７に接続され、同じくＩＰネットワーク１０７に属する被監視装置１０４から発報されるＴＲＡＰ（監視制御情報）をもとに、制御対象への監視／制御処理を行う。監視制御装置ＭＳに対するコマンド投入などの操作は、上位サーバ１０６からＩＰネットワーク１０７経由で与えられる。上位サーバ１０６は各種情報を操作したり表示したりするための表示・操作アプリケーションを備える。上位サーバ１０６は複数設けられることもある。

監視制御装置ＭＳは、互いに共有ディスク１０３を共有する運用系サーバ１０１、待機系サーバ１０２を備える。運用系サーバ１０１はローカルディスク１０１１を備え、待機系サーバ１０２はローカルディスク１０２１を備える。運用系サーバ１０１の共通ＩＰアドレス１０５宛てに発報されたＴＲＡＰは運用系サーバ１０１により受信された後、上位サーバ１０６に送られる。上位サーバ１０６は運用系サーバ１０１の共通ＩＰアドレス１０５と通信することでこのＴＲＡＰを受信する。

運用系サーバ１０１、待機系サーバ１０２はその処理機能としてミドルウェア２０１、監視制御アプリケーション２０２、および冗長障害監視アプリケーション２０３を備える。ただし待機系サーバ１０２においては監視制御アプリケーション２０２は機能を休止する。ミドルウェアは、運用系サーバ１０１と待機系サーバ１０２の監視および切替え動作を司る。運用系サーバ１０１、待機系サーバ１０２は共有ディスク１０３のデータを共有するが、ミドルウェア２０１による制御により運用系サーバ１０１のみが共有ディスク１０３へのアクセス権を持つ。

ミドルウェア２０１は、運用系サーバ１０１と待機系サーバ１０２との双方に常駐し相互に通信を行い、運用系／待機系サーバの決定、運用系サーバでの共有ディスク１０３のリザーブ、共通ＩＰアドレスの有効化、あるいは、監視制御アプリケーション２０２の起動、などを制御する。またミドルウェア２０１は、運用系サーバ１０１と待機系サーバ１０２との切り替え動作を司る。

監視制御アプリケーション２０２は、被監視装置１０４から発報されたＴＲＡＰの受信および蓄積、あるいは上位サーバ１０６へのＴＲＡＰ情報の転送や監視操作画面の提供などの処理を実現する。

冗長障害監視アプリケーション２０３はＯＳ（Operations System）から起動されるもので、運用系サーバ１０１と待機系サーバ１０２との双方に常駐し相互に通信を行う。この通信により、例えば共有ディスク１０３とローカルディスク１０１１，１０２１間の監視制御アプリケーション情報の更新などが行われる。また、運用系サーバ１０１と待機系サーバ１０２のそれぞれに常駐するミドルウェアの状態を監視し、相互通信により両系障害の有無を検出する。

両系障害以外の障害の場合、運用系サーバ１０１に常駐するミドルウェア２０１は、運用系サーバ障害を検出した後、共通ＩＰアドレスの停止、監視制御アプリケーションの停止、共有ディスク１０３の解放を行う。その後、待機系サーバ１０２に常駐のミドルウェアが、共有ディスク１０３のリザーブ、監視制御アプリケーションの起動、および共通ＩＰアドレス有効化を行うことで、待機系サーバ１０２で監視制御アプリケーションの運用を開始する。

特に、共有ディスク１０３の共通部（バスやマザーボード）の故障、あるいは共有ディスクの２重障害が発生すると、待機系サーバ１０２に常駐のミドルウェアが待機系サーバ１０２で監視制御アプリケーションを起動すべく制御を開始するが、失敗となる。よって共通ＩＰアドレスが運用系、待機系のいずれにおいても無効、および監視制御アプリケーションが運用系、待機系のいずれにおいても未起動の状態となり、このような状態を両系障害と称する。

この実施形態では、共有ディスク１０３の障害時に障害箇所を切り離し、監視制御装置が提供する機能を必要最低限に絞って縮退運転を行うようにする。以下にその処理手順につき説明するが、まず、監視制御アプリケーション２０２が機能するために必要な監視制御アプリケーション情報の、ディスク間での更新処理につき説明する。なお監視制御アプリケーション情報とは、被監視装置のＩＰアドレス、被監視装置名称、その状態などの情報を含む。

例えば、監視制御アプリケーション情報を運用系サーバ１０１のみに保持させ、共有ディスク１０３の監視制御アプリケーション情報が更新されたとき、あるいは監視制御アプリケーションの処理が待機系サーバ１０２から運用系サーバ１０１に切替わったときに切替え後の運用系サーバ１０１の監視制御アプリケーション情報を共有ディスクの情報により更新する方法がある。しかしながらこの方法では、運用系サーバ１０１を縮退運転サーバとして機能させ、縮退運転への移行前（障害発生前）の監視制御アプリケーションを運用系サーバ１０１で機能させておく必要がある。また、共有ディスク１０３の障害時には運用系サーバ１０１で縮退運転を行うことが可能であるが、共有ディスク障害にさらに運用系サーバ１０１の障害が重なれば、監視制御アプリケーション情報を参照することができない。そこでこの実施形態では、以下の手順により監視制御アプリケーション情報を更新させる。

図２は、監視制御アプリケーション情報の更新に係わる基本的手順を示すフローチャートである。図２において、冗長障害監視アプリケーションはミドルウェアの状態を例えば定期的に監視し（ステップＳ２０１）、その運用状態が運用系サーバであるか待機系サーバであるかを判定する（ステップＳ２０２）。

このステップで運用系サーバと判定されれば、共有ディスクとローカルディスク間での監視制御アプリケーション情報の差分の有無が確認される（ステップＳ２０３）。差分が有れば、共有ディスク１０３に保存されている監視制御アプリケーション情報が待機系サーバ１０２に転送され、待機系サーバ１０２のローカルディスク１０２１に保存されている監視制御アプリケーション情報が更新される（ステップＳ２０４）。

図３は、監視制御アプリケーション情報の更新に係わる別の手順を示すフローチャートである。図３において、運用系および待機系のそれぞれの冗長障害監視アプリケーションは図２の手順と同様に、ミドルウェアの状態を例えば定期的に監視し（ステップＳ３０１）、その運用状態が運用系サーバであるか待機系サーバであるかを判定する（ステップＳ３０２）。

このステップで自系が運用系サーバと判定されれば、共有ディスクとローカルディスク間での監視制御アプリケーション情報の差分の有無が確認される（ステップＳ３０３）。差分が有れば、共有ディスクの監視制御アプリケーション情報が他系である待機系サーバ１０２の冗長障害監視アプリケーションに送信され（ステップＳ３０４）、待機系サーバ１０２のローカルディスク１０２１に保存されている監視制御アプリケーション情報が更新される（ステップＳ３０５）。差分が無ければ、他系である待機系サーバ１０２の冗長監視制御アプリケーションに差分無しが送信される（ステップＳ３０６）。

ステップＳ３０２で判断された運用状態において、自系が待機系サーバであれば、この待機系サーバの冗長監視制御アプリケーションは、監視制御アプリケーション情報を他系である運用系サーバの冗長監視制御アプリケーションから受信する（ステップＳ３０７）。この監視制御アプリケーション情報は、他系である運用系サーバがステップＳ３０４またはステップＳ３０６にて送信したものである。そして、受信した監視制御アプリケーション情報から、共有ディスクとローカルディスクとの間での監視制御アプリケーション情報の差分の有無が判定される（ステップＳ３０８）。差分が有れば、ローカルディスクに記憶されている監視制御アプリケーション情報が差分に基づいて更新される（ステップＳ３０９）。

以上の動作により、共有ディスク１０３、運用系サーバ１０１のローカルディスク１０１１、および待機系サーバ１０２のローカルディスク１０２１に記憶される監視制御アプリケーション情報の同期をとることができる。この実施形態ではこのようにディスク間の監視制御アプリケーション情報を同期させておくことにより、両系障害時のローカルディスクを使用した縮退運転に備えるようにする。

図４は、冗長障害監視アプリケーション２０３による作用を説明するためのフローチャートである。冗長障害監視アプリケーション２０３は、例えば定期的にミドルウェア２０１の状態を監視し（ステップＳ４０１）、その結果に基づいて両系障害の有無を判定する（ステップＳ４０２）。

ステップＳ４０２で両系障害の発生が判定されれば、運用系サーバ１０１の冗長障害監視アプリケーションと待機系サーバ１０２の冗長障害監視アプリケーションとが相互に通信し、片系運転サーバ、すなわち縮退運転するサーバを決定する（ステップＳ４０３）。例えば監視制御アプリケーション２０２が前回起動していなかったサーバが縮退運転サーバとして決定される。なお運用系サーバ、待機系サーバのいずれにおいても監視制御アプリケーション２０２が起動していなかった場合には、システム起動時の初期待機系を縮退運転サーバとして決定する。

次に、冗長障害監視アプリケーション２０３は自サーバの状態を判定し（ステップＳ４０４）、自サーバが縮退運転サーバ（片系運転サーバ）である場合に、監視制御アプリケーション２０２を起動し、共通ＩＰアドレス有効化処理を実行する（ステップＳ４０５）。

図５は、監視制御アプリケーションの起動および共通ＩＰアドレスの有効化手順を示すフローチャートである。この処理は冗長障害監視アプリケーション２０３により実行される。冗長障害監視アプリケーション２０３は、監視制御アプリケーション２０２のアクセス先を自サーバのローカルディスクに切り替え、そのうえで監視制御アプリケーション２０２を起動する（ステップＳ５０１）。そうして、冗長障害監視アプリケーション２０３により共通ＩＰアドレスが有効化される（ステップＳ５０２）。なおステップＳ５０１において、監視制御アプリケーション２０２のアクセス先はディスクデバイスに限定されるものではなく、サーバに内蔵の半導体メモリなどであっても良い。つまり共通ＩＰアドレスを介して受信した情報（ＴＲＡＰなど）を、別途設けられる内部メモリに記憶・蓄積するようにしても良い。

図６は、監視制御アプリケーションの停止および共通ＩＰアドレスの無効化手順を示すフローチャートである。この処理手順は両系障害が復旧した後、例えば上位サーバ１０６からのオペレータによるコマンド投入などにより実施される。図６において、まず監視制御アプリケーション２０２を停止したのち、監視制御アプリケーション２０２のアクセス先が共有ディスク１０３に切り替えられる（ステップＳ６０１）。そのうえで共通ＩＰアドレスが無効化される（ステップＳ６０２）。この後、ミドルウェア２０１による制御により運用系サーバ１０１と待機系サーバ１０２とが冗長動作を再開する。

図７は、両系障害でない状態におけるシステムの動作を示す図である。この状態では運用系サーバ１０１、待機系サーバ１０２の双方におけるミドルウェア２０１が相互に通信しつつ、運用系サーバ１０１の監視制御アプリケーション２０２が主たる機能を果たす。すなわち、被監視装置１０４から共通ＩＰアドレス１０５宛てに発報されるＴＲＡＰ９０１は、運用系サーバ１０１の監視制御アプリケーション２０２により受信され、共有ディスク１０３に蓄積される。上位サーバ１０６は運用系サーバ１０１からＴＲＡＰ情報９０２を取得し、表示・操作アプリケーション１０８の機能により監視操作画面を更新する。これによりＴＲＡＰ表示や監視操作機能がオペレータに提供される。

図８は、両系障害が発生し縮退運転となった状態を示す図である。すなわち図８の状態では共有ディスク１０３に障害が発生し、運用系サーバ１０１、待機系サーバ１０２のいずれも共有ディスク１０３にアクセスすることができない。なお図８においては待機系サーバ１０２を縮退運転サーバとする。

縮退運転時に提供される監視制御アプリケーションの機能としては、例えば（１）ＴＲＡＰ受信のみ、（２）ＴＲＡＰの履歴検索、（３）被監視装置の状態表示／状態変更／試験機能の実行、あるいは（４）全ての機能、といった、（１）〜（４）の４段階に分けるようにしてもよい。なおこの４段階に縛られることなく、監視制御アプリケーション情報のインプリメントの仕方によって、提供可能な機能や段階は適宜変更することが可能である。また縮退運転時には、被監視装置１０４の状態表示、回線の閉塞、引き込み、極性反転、ループバックなど、縮退状態となった監視制御アプリケーション２０２の機能の一部を、上位サーバ１０６から実施できるようにしても良い。

さて、図８において、共通ＩＰアドレス１０５は縮退運転サーバ（待機系サーバ１０２）において有効化されている。よって被監視装置１０４から発報されるＴＲＡＰは待機系サーバ１０２で受信され、また、上位サーバ１０６は待機系サーバ１０２の共通ＩＰアドレス宛てにＴＲＡＰ情報の取得要求を出す。待機系サーバ１０２の監視制御アプリケーション２０２は、予め更新済みのローカルディスク１０２１上の情報を用いて機能する。すなわち図２、図３の手順により、ローカルディスク１０２１の情報は共有ディスク１０３のデータ更新に伴って更新されており、その更新データを用いてＴＲＡＰの取得を継続することができる。

縮退運転時には、監視制御アプリケーション２０２により提供される機能を必要最低限に絞り込み、監視制御アプリケーション情報を限定する。これは、縮退運転が運用系サーバ１０１と待機系サーバ１０２との双方が稼動できない非常時の運用形態であることを反映する。

例えば、監視制御アプリケーション情報がない場合には、被監視装置１０４からのＴＲＡＰを受信して上位サーバ１０６に受け渡すようにすれば良い。また、監視制御アプリケーション情報に被監視装置の設置場所や運用状態の情報が含まれていれば、受信したＴＲＡＰにこれらの機能を付加して上位サーバ１０６に受け渡すようにすれば良い。

オペレータのログイン情報が監視制御アプリケーション情報に含まれていれば、オペレータがシステムにログインしてＴＲＡＰの履歴を検索することが可能になる。さらに被監視装置１０４の識別情報（ＩＤ）とＩＰアドレス情報があれば、ログイン後に被監視装置１０４の状態表示や状態変更、試験機能の実行などが可能となる。さらに、共有ディスク１０３に保存されるログなどまで含めて、すべての情報を監視制御アプリケーション情報としてローカルディスクに保持するようにすれば、両系障害発生時においても通常時と同様の機能を提供することが可能になる。

以上の手順をまとめると、この実施形態では下記の処理が実施される。すなわち共有ディスク１０３の共通部（バスやマザーボード）の故障、あるいは２重障害により共有ディスク１０３が動作できない故障が発生すると、運用系サーバ１０１のミドルウェア２０１は自サーバの共通ＩＰアドレスを停止、監視制御アプリケーション２０２の停止、および共有ディスク１０３の解放を行う。また、待機系サーバ１０２のミドルウェア２０１は監視制御アプリケーション２０２の処理を待機系サーバに切替えるための動作を開始する。しかしながらこの状態では共有ディスク１０３がリザーブできないので、待機系サーバ１０２のミドルウェア２０１は切替え不可を検出する。

一方、冗長障害監視アプリケーション２０３は運用系サーバ１０１のミドルウェア２０１の状態と、待機系サーバ１０２のミドルウェア２０１の状態とから、切戻しの発生、あるいは両系障害の発生を検出する。さらに、共有ディスク１０３のマウント状態から共有ディスク障害と判定されれば、運用系サーバ１０１、待機系サーバ１０２のうち単体で動作させるサーバ（縮退運転サーバ）を決定する。

縮退運転サーバの冗長障害監視アプリケーション２０３は、監視制御アプリケーション２０２のアクセス先を共有ディスク１０３から自サーバのローカルディスクに変更したうえで、監視制御アプリケーション２０２の機能の全部または一部を起動し縮退運転を開始したのち、共通ＩＰアドレスを有効化する。縮退運転では、監視制御アプリケーション２０２は被監視装置１０４から受信したＴＲＡＰをローカルディスク、あるいは内蔵メモリなどに記録する。

その際、共有ディスクに記憶される、ＴＲＡＰ受信に必要な情報（各局の名称、被監視装置の状態、名称、ＩＰアドレスなど）をローカルディスクにコピーし、共有ディスク１０３のデータ更新時にローカルディスクのデータも併せて更新することでディスク間のデータを同期させておくようにする。縮退運転サーバは、自サーバのローカルディスクを参照し、受信したＴＲＡＰに必要な情報を付加する処理を継続する。

以上述べたようにこの実施形態では、運用系サーバ１０１と待機系サーバ１０２とが共有ディスク１０３を介して監視制御アプリケーション情報を共有しつつ被監視装置への監視制御を行う監視制御システムにおいて、運用系サーバ１０１と待機系サーバ１０２とに、ミドルウェア２０１、監視制御アプリケーション２０２、および冗長障害監視アプリケーション２０３を設ける。冗長監視制御アプリケーション２０３は、各サーバのローカルディスク１０１１、１０２１に記憶されている監視制御アプリケーション情報と共有ディスク１０３に記憶されている監視制御アプリケーション情報とを同期させる。また、冗長障害監視アプリケーション２０３はミドルウェア２０１の状態を監視し、その結果に基づいて両系障害の有無を判定する。両系障害が発生すると、冗長障害監視アプリケーション２０３は運用系サーバ１０１、待機系サーバ１０２のいずれかを縮退運転サーバとし、監視制御アプリケーション２０２により提供される機能を必要最低限に絞り込んだ縮退運転を行わせるようにしている。このように、共有ディスクとローカルディスク間で監視制御アプリケーション情報を同期させるようにしているので、両系障害が発生した場合でも、ローカルディスクを使用した縮退運転に直ちに切り替えることが可能になる。従って２重障害への耐性を高めるとともに障害の発生から短時間で復旧可能な監視制御装置を提供することが可能となる。

なお、この発明は上記実施の形態に限定されるものではない。例えば冗長障害監視アプリケーション２０３による監視制御アプリケーション２０２の起動、共通ＩＰアドレスの有効化処理、あるいは監視制御アプリケーション２０２のアクセス先の変更（共有ディスクからローカルディスクへ）などは、オペレータによるマニュアル操作によっても実施可能である。すなわち冗長障害監視アプリケーションが何らかのエラーにより機能していない場合、あるいはオペレータが監視制御アプリケーションの動作不能を判断した場合、さらには障害の発生とは無関係に、オペレータの操作により縮退運転を開始するようにしても良い。

また上記実施形態では、運用系サーバ１０１および待機系サーバ１０２をそれぞれ１システムとして説明したが、これに縛られるものではなく、運用系サーバが複数ある場合（１＋Ｎ冗長構成）にも上記実施形態を適用することができる。このようなケースでは、１つの運用系サーバに障害が発生して待機系サーバにその監視制御アプリケーションの処理が切替わっている状態で、他の運用系サーバに障害が発生しても、その運用系サーバは障害部分を切り離して縮退運転に移行することが可能である。

さらに、この発明は実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

ＭＳ…監視制御装置、１０１…運用系サーバ、１０２…待機系サーバ、１０３…共有ディスク、１０４…被監視装置、１０５…共通ＩＰアドレス、１０６…上位サーバ、１０７…ＩＰネットワーク、２０１…ミドルウェア、２０２…監視制御アプリケーション、２０３…冗長障害監視アプリケーション、１０１１，１０２１…ローカルディスク、９０１…ＴＲＡＰ、９０２…ＴＲＡＰ情報

Claims

共有ディスクを用いて情報を共有する運用系サーバと待機系サーバとを備え、前記運用系サーバまたは待機系サーバのいずれかにおいて選択的に有効化される共通アドレスに向け被監視装置から発報される監視制御情報に基づいて前記被監視装置への監視制御を行う監視制御装置において、
前記運用系サーバおよび待機系サーバの各々は、
前記共有ディスクとは別に設けられるローカルディスクと、
前記共有ディスクにアクセスして前記監視制御に係わる処理を担う監視制御アプリケーションと、
自サーバの運用状態の監視と前記運用系サーバと前記待機系サーバとの冗長切替に係わる処理を担うミドルウェアと、
このミドルウェアの状態を監視する冗長障害監視アプリケーションとを備え、
前記冗長障害監視アプリケーションは、
前記ミドルウェアの状態に基づいて自サーバの運用状態を判定し、
この判定の結果自サーバが運用系サーバであれば、前記共有ディスクと前記ローカルディスク間で監視制御アプリケーション情報を同期させ、
前記ミドルウェアの状態から前記共有ディスクの障害を検出した場合に、前記運用系サーバおよび待機系サーバのいずれかの前記共通アドレスを有効化し、
前記監視制御アプリケーションのアクセス先を自サーバのローカルディスクに変更し、
前記監視制御アプリケーションの機能のうち少なくとも前記監視制御情報の受信に係わる機能を残した縮退運転を開始することを特徴とする監視制御装置。
前記運用系サーバおよび待機系サーバの各々は、さらに、前記ローカルディスクとは別途設けられる内部メモリを備え、
前記監視制御アプリケーションは、受信した監視制御情報を自サーバの内部メモリに記憶することを特徴とする請求項１に記載の監視制御装置。
前記監視制御アプリケーションは、前記共有ディスクに記憶される前記監視制御情報の受信に要する情報を自サーバのローカルディスクに保持し、前記共有ディスクのデータ更新に伴って前記監視制御情報の受信に要する情報を更新することを特徴とする請求項１に記載の監視制御装置。