JP2011145911A - サーバ群の監視装置 - Google Patents

サーバ群の監視装置 Download PDF

Info

Publication number
JP2011145911A
JP2011145911A JP2010006664A JP2010006664A JP2011145911A JP 2011145911 A JP2011145911 A JP 2011145911A JP 2010006664 A JP2010006664 A JP 2010006664A JP 2010006664 A JP2010006664 A JP 2010006664A JP 2011145911 A JP2011145911 A JP 2011145911A
Authority
JP
Japan
Prior art keywords
server
group
failure
display
displayed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010006664A
Other languages
English (en)
Inventor
Hidesuke Tamura
英祐 田村
Ryuichi Kaji
隆一 鍛治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Kokusai Electric Inc
Original Assignee
Hitachi Kokusai Electric Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Kokusai Electric Inc filed Critical Hitachi Kokusai Electric Inc
Priority to JP2010006664A priority Critical patent/JP2011145911A/ja
Publication of JP2011145911A publication Critical patent/JP2011145911A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 サーバ群システムにおいて緊急対応の要否を明確に認識できると共に、障害となっているサーバを特定して詳細状態を容易に把握できるサーバ群の監視装置を提供する。
【解決手段】 表示部14において、監視対象のサーバ群のグループ表示で、グループ名に対応付けて状況を色で表示する際に、制御部11が、サーバに障害が発生しても、縮退運用が可能で緊急対応が必要でない場合は、「警告」の表示色で表示し、縮退運用が可能ではなく緊急対応が必要な場合は、「障害」の表示色で表示し、障害は発生していない場合は、「正常」の表示色で表示し、サーバグループを選択すると、当該グループに属するサーバの稼動状態を表示し、更に、グループ内のサーバを選択すると、当該サーバの詳細状態を表示する監視装置である。
【選択図】 図3

Description

本発明は、ネットワークで接続するサーバ群を監視する監視装置に係り、特に、サーバ群のJOB、稼働状態を監視し、緊急対応の要否を明確に表示できるサーバ群の監視装置に関する。
[従来の技術]
従来のネットワークに接続するサーバ群のシステムは、複数のデータベースサーバと、複数の受信サーバと、複数の配信サーバと、これらサーバを監視する監視装置とを備え、監視装置が、ネットワークを介して各サーバを監視するようになっていた。
従来、機能別に複数のサーバをネットワークで接続したシステムを構築した場合は、それらサーバ群を監視する監視装置は、サーバでの稼働状況、JOB実行状況、実行結果をサーバ単位で表示画面に表示して監視するようになっていた。
尚、上記のようなサーバ群のシステムは、例えば、株式情報を配信し、配信された株式情報を表示する株式情報表示システムに利用されていた。
上記システムにおいて、各サーバは、以下のメッセージを監視装置に送信するようになっている。
サーバは、監視装置からの要求に従い、稼働状況を通知する。稼働状況は、オン/オフライン状況、アプリケーション(AP)実行状況(正常、異常)等である。
また、サーバは、監視装置からのJOBコマンドに対して、受付メッセージを送信する。
また、サーバは、監視装置からのJOBコマンドに対して、実行結果メッセージを送信する。
更に、サーバは、サーバ単位でデータの受信状況(データ受信エラー)を通知し、また、ハードウエアの障害を通知する。
[関連技術]
尚、関連する先行技術として、特開2002−204283号公報「二重電文受信方法とその受信装置」(出願人:株式会社日立国際電気/特許文献1)と、特開平10−224378号公報「クライアントサーバシステムの制御方法及びクライアントサーバシステム」(出願人:株式会社東芝/特許文献2)がある。
特許文献1には、株式関連情報を電文情報として受け取り、当該情報を加工して配信サーバへ送信する受信装置を備えた情報配信システムにおいて、現用系のサーバが受信制御プロセスによって受信電文に付された通番を監視し、欠落があれば未受信電文取得要求を相互監視プロセスに出力し、相互監視プロセスが予備系サーバから欠落電文に対応する電文を取得することが記載されている。
特許文献2には、クライアントサーバシステムにおいて、主系サーバと待機系サーバとを備え、主系サーバで故障が発生し、LANでの通信不能となったものの処理続行が可能な場合に、主系サーバとクライアントとの通信を待機系サーバのインタフェースを用いて行い、主系サーバの処理を継続することが記載されている。
特開2002−204283号公報 特開平10−224378号公報
そして、従来の監視装置において、全てのサーバを一覧で画面に表示する場合(一覧表示)と、機能単位でサーバグループを画面に表示する場合(グループ表示)が考えられる。
以下、一覧表示とグループ表示について説明する。
[一覧表示の監視画面例:図5]
図5は、一覧表示の監視画面例を示す図である。
監視装置の表示部における表示画面には、図5に示すように、全てのサーバについて、「番号」、「状況」、「サーバ名」が一覧で表示され、「状況」は、サーバ単位で動作状況が色で表示されている。
当該一覧表示において、サーバをマウス等でクリックして選択した場合に、選択したサーバの「項番」、「時刻」、「メッセージ」が最新のものから順に表示され、障害の詳細が表示される。
図5では、「番号」が「6」の「受信サーバ 予備機」が、「時刻」が「9:31」に相手からの接続が切られ、その後、接続リトライして、「時刻」が「9:35」に再接続が完了したことを示している。
[グループ表示の監視画面例:図6]
図6は、グループ表示の監視画面例を示す図である。
監視装置の表示部における表示画面には、図6に示すように、機能単位でサーバグループが作成され、グループを選択した後に、属するサーバが表示される。
図6では、サーバグループとして「番号」、「グループ名」が表示され、「グループ名」としては、「データベースサーバ」、「受信サーバ」、「配信サーバ」となっている。
そして、サーバグループからグループが選択されると、各グループに含まれる各々のサーバの「番号」、「状況」、「サーバ名」が表示される。「状況」は、サーバ単位で動作状況が色で表示されている。
当該グループ表示において、サーバをマウス等でクリックして選択した場合に、選択したサーバの「項番」、「時刻」、「メッセージ」が最新のものから順に表示され、障害の詳細が表示される。障害の詳細は、図5のものと同様である。
しかしながら、従来のサーバ群の監視装置では、障害状況を表示するものの、冗長化されているサーバ群システム(現用機と予備機のサーバを備えて障害時に切り替えを行うシステム)の場合、状況によっては1台のサーバが障害となっても、本来ならば運用として正常であって緊急対応が必要ない場合があり、また、現用機と予備機の2台のサーバが障害となって緊急対応が必要な場合があり、このような緊急対応の要・不要を明確にできると共に、冗長化しているサーバを定義できるものとはなっていないという問題点があった。
本発明は上記実情に鑑みて為されたもので、サーバ群システムにおいて緊急対応の要否を明確に認識できると共に、障害となっているサーバを特定して詳細状態を容易に把握できるサーバ群の監視装置を提供することを目的とする。
上記従来例の問題点を解決するための本発明は、複数のサーバ群にネットワークを介して接続し、サーバ群を監視する監視装置であって、サーバ群を機能単位でグループ表示する表示部と、サーバ群を機能単位のグループで監視し、当該グループ内に属するサーバに障害が発生したか否かを判定し、障害が発生した判定した場合には、当該障害について縮退運用が可能ではなく緊急対応が必要であるか否かを判定し、緊急対応が必要な場合は、表示部にグループ表示を行う際に、グループ名に対応付けて状況を「障害」の表示色で表示し、緊急対応が必要でない場合は、状況を「警告」の表示色で表示し、障害が発生していない場合は、状況を「正常」の表示色で表示し、グループが選択されると、当該グループに属するサーバの稼動状態を表示し、当該グループに属するサーバが選択されると、当該サーバの詳細状態を表示する制御部とを有することを特徴とする。
本発明によれば、複数のサーバ群にネットワークを介して接続し、サーバ群を監視する監視装置であって、制御部が、サーバ群を機能単位のグループで監視し、当該グループ内に属するサーバに障害が発生したか否かを判定し、障害が発生した判定した場合には、当該障害について縮退運用が可能ではなく緊急対応が必要であるか否かを判定し、緊急対応が必要な場合は、表示部にグループ表示を行う際に、グループ名に対応付けて状況を「障害」の表示色で表示し、緊急対応が必要でない場合は、状況を「警告」の表示色で表示し、障害が発生していない場合は、状況を「正常」の表示色で表示し、グループが選択されると、当該グループに属するサーバの稼動状態を表示し、当該グループに属するサーバが選択されると、当該サーバの詳細状態を表示する監視装置としているので、サーバ群システムにおいて緊急対応の要否を明確に認識できると共に、障害となっているサーバを特定して詳細状態を容易に把握できる効果がある。
本発明の実施の形態に係るサーバ群の監視装置を含むシステムの構成ブロック図である。 表示処理のフローチャートである。 監視画面例1を示す図である。 監視画面例2を示す図である。 一覧表示の監視画面例を示す図である。 グループ表示の監視画面例を示す図である。
本発明の実施の形態について図面を参照しながら説明する。
[実施の形態の概要]
本発明の実施の形態に係るサーバ群の監視装置は、冗長化されているサーバ群において、1台のサーバが障害となっても、運用として正常の場合に、冗長化されているサーバを特定すると共に、警告の色で表示し、運用として異常の場合には、障害の色で表示するものであり、緊急対応が必要かどうかを容易に判断できるものである。
また、本発明の実施の形態に係るサーバ群の監視装置では、監視対象のサーバ群のグループ表示において、グループ名に対応付けて状況を色で表示する際に、サーバに障害が発生しても、縮退運用が可能で緊急対応が必要でない場合は、「警告」の表示色で表示し、縮退運用が可能ではなく緊急対応が必要な場合は、「障害」の表示色で表示し、サーバグループを選択すると、当該グループに属するサーバの稼動状態を表示し、更に、グループ内のサーバを選択すると、当該サーバの詳細状態を表示するようにしているので、サーバ群システムにおいて、緊急対応が必要か否かを容易に認識できると共に、障害となっているサーバを特定して詳細状態を容易に把握できる効果がある。
[サーバ群システム:図1]
本発明の実施の形態に係るサーバ群の監視装置について図1を参照しながら説明する。図1は、本発明の実施の形態に係るサーバ群の監視装置を含むシステムの構成ブロック図である。
本発明の実施の形態に係る監視装置(本装置)を含むシステムは、図1に示すように、複数のデータベースサーバ1と、複数の受信サーバ2と、複数の配信サーバ3と、監視装置10とを基本的に有し、ネットワーク4を介して接続している。
[システムの各部]
[データベースサーバ1]
データベース(DB)サーバ1は、図1では、子グループとして、データベースサーバ1系(現用機)1aと、データベースサーバ1系(予備機)1bと、データベースサーバ2系(現用機)1cと、データベースサーバ2系(予備機)1dと備えている。
データベースサーバ1系(現用機)1aの予備機が、データベースサーバ1系(予備機)1bであり、データベースサーバ2系(現用機)1cの予備機が、データベースサーバ2系(予備機)1dである。
従って、データベースサーバ1系(現用機)1aに障害が発生しても、データベースサーバ1系(予備機)1bが正常に動作するのであれば、システムとして稼働できるので、緊急対応は必要ない。
また、データベースサーバ1系(予備機)1bに障害が発生しても、データベースサーバ1系(現用機)1aが正常に動作するのであれば、システムとして稼働できるので、緊急対応は必要ない。
尚、データベースサーバ2系(現用機)1cとデータベースサーバ2系(予備機)1dについても同様のことが言える。
[受信サーバ2]
受信サーバ2は、図1では、子グループとして、受信サーバ(現用機)2aと、受信サーバ(予備機)2bとを備えている。
受信サーバ(現用機)2aの予備機が、原則として受信サーバ(予備機)2bであるが、一方のサーバの障害に対して他方のサーバが予備的に動作する関係となっている。
[配信サーバ3]
配信サーバ3は、図1では、子グループとして、配信サーバ1号機3aと、配信サーバ2号機3bと、配信サーバ3号機3cとを備えている。
また、配信サーバ1号機3aは、孫グループとして、配信サーバ1号機(現用機)3a−1と、配信サーバ1号機(予備機)3a−2とを備えている。
また、上記サーバは、コンピュータで構成され、制御部と記憶部を備えている。
そして、上記サーバは、監視装置10からの要求、JOBコマンドに対してメッセージ等を監視装置10に通知すると共に、自発的にデータの受信状況、ハードウエアの障害を監視装置10に通知する。
[監視装置10]
監視装置(本装置)10は、サーバから受信した稼働状況等のメッセージを受信し、当該メッセージを解析してサーバの障害状況を表示する。
但し、監視装置10では、サーバの障害状況に応じて、予備機への切替によって継続して運用できる場合には、警告表示とし、継続して運用できない場合には、障害表示を行う。
尚、監視装置10は、コンピュータで構成されており、制御部11、記憶部12と、インタフェース部13とを備えている。
制御部11は、記憶部12に記憶された処理プログラムをロードし、以下に説明するサーバの登録処理と、表示処理を実行する。
インタフェース部13は、ネットワーク4に接続し、また、表示部14と入力部15を接続している。
[登録処理]
本装置10で、監視するサーバを登録する際に、以下の情報を入力して、監視を行う。
第1に、機能名で名前を付けて機能別サーバ群を定義し、機能別サーバ群で新規サーバを登録する。
第2に、機能別サーバ群に属するサーバ又は子グループを登録する。
第3に、子グループに属するサーバ又は孫グループを登録する。
第4に、グループ内に属するサーバに単独監視又は冗長化されているサーバの台数とサーバ単位で冗長化監視の属性を設定する。
尚、サーバの登録には、IP(Internet Protocol)又はドメイン名で登録する。
[表示処理:図2]
次に、本装置10において、制御部11によって実現される表示処理について図2を参照しながら説明する。図2は、表示処理のフローチャートである。
本装置10の制御部11は、ネットワーク4を介して各サーバから稼動状況等のメッセージ等を受信すると(S1)、当該メッセージ等を解析し(S2)、障害が発生したか否かを判定する(S3)。
判定処理S3の結果、障害が発生していなければ(Noの場合)、当該サーバについて「正常」の表示設定を行う。例えば、「状況」について正常を示す「緑色」で表示するよう設定する(S4)。
判定処理S3の結果、障害が発生していれば(Yesの場合)、次に、当該障害が緊急を要するものであるか、又は緊急を要しないものであるかを判定する(S5)。
判定処理S5の結果、緊急を要するものであれば(Yesの場合)、当該サーバについて「障害」発生の表示設定を行う。例えば、「状況」について障害発生を示す「赤色」で表示するよう設定する(S6)。
また、判定結果S5の結果、緊急を要するものでなければ(Noの場合)、当該サーバについて「警告」の表示設定を行う。例えば、「状況」について警告を示す「黄色」で表示するよう設定する(S7)。
以上のようにして、監視対象のサーバに対して「正常」「障害」「警告」の表示が為されるようになっている。
本装置は、登録された内容に従い、冗長が設定されている場合は、全ての冗長化されたサーバが障害にならない限り、障害表示を行わない。
つまり、現用機に障害があって、予備機に障害がない場合、もしくは、現用機に障害がなく、予備機に障害がある場合は縮退運用が可能であり、本装置は、警告色(例えば、黄色)で表示する。警告色の場合は、機能としては、稼働しているため、緊急対応の必要がない。
これにより、本装置10の運用者がサーバ群システムに詳しくなくても、縮退運用が可能か、障害対応が必要なのかの判定を容易に行うことができる効果がある。
[監視画面例1:図3]
次ぎに、本装置における監視画面例について図3を参照しながら説明する。図3は、監視画面例1を示す図である。
図3に示す監視画面例では、グループ表示が為され、「番号」、「状況」、「グループ名」が表示される。
そして、特定のグループを入力部のマウス等でクリックして選択すると、当該グループに属するサーバの稼動状態を表示する。
更に、稼動状態が表示されたサーバをクリックによって選択すると、選択したサーバの詳細を表示するようになっている。具体的には、選択したサーバの「項番」、「時刻」、「メッセージ」が最新のものから順に表示され、障害の詳細が表示される。
ここで、グループ表示において、番号「2」、グループ名「受信サーバ」の状況が警告を示す色(例えば、実際の画面では黄色)で表示されている。
この警告は、サーバに障害が発生したものの、機能として動作している状態である。
受信サーバの稼動状態を参照すると、「受信サーバ 予備機」に障害が発生したことが認識できるが、「受信サーバ 現用機」が動作しているため、全体のシステムとしては縮退運用が可能となっている。
[監視画面例2:図4]
次ぎに、本装置における別の監視画面例について図4を参照しながら説明する。図4は、監視画面例2を示す図である。
図4に示す監視画面では、グループ表示において、番号「2」、グループ名「受信サーバ」の状況が障害を示す色(例えば、実際の画面では赤色)で表示されている。
この障害は、現用機及び予備機の双方に障害が発生し、緊急対応が必要な状態である。
グループに属する受信サーバの稼動状態を参照すると、「受信サーバ 現用機」と「受信サーバ 予備機」に双方に障害が発生したことが認識でき、縮退運用が可能ではなく、緊急対応が必要な状態となっている。
従って、本装置では、監視対象のサーバ群のグループ表示において、グループ名に対応付けて状況を色で表示する際に、サーバに障害が発生しても、縮退運用が可能で緊急対応が必要でない場合は、「警告」の表示色で表示し、縮退運用が可能ではなく緊急対応が必要な場合は、「警告」の表示色で表示し、サーバグループを選択すると、当該グループに属するサーバの稼動状態を表示し、更に、グループ内のサーバを選択すると、当該サーバの詳細状態を表示するものである。
これにより、サーバ群システムにおいて、緊急対応が必要か否かを容易に認識できると共に、障害発生のサーバを容易に定義できる効果がある。
[実施の形態の効果]
本装置によれば、障害が発生しているサーバを緊急で対応する必要があるかどうかを視覚的に判断することができ、機能を十分に知らない運用者でも容易に判断できる効果がある。
具体的には、本装置では、機能単位のサーバで緊急対応が必要な障害に対して障害色を、例えば、赤で表示し、緊急対応が必要でない障害に対して警告色を、例えば、黄色で表示するようにしているので、緊急対応が必要な障害と緊急対応が必要でない警告とを容易に判断できる効果がある。
本発明は、サーバ群システムにおいて緊急対応の要否を明確に認識できると共に、障害となっているサーバを特定して詳細状態を容易に把握できるサーバ群の監視装置に好適である。
1…データベース(DB)サーバ、 1a…データベースサーバ1系(現用機)、 1b…データベースサーバ1系(予備機)、 1c…データベースサーバ2系(現用機)、 1d…データベースサーバ2系(予備機)、 2…受信サーバ、 2a…受信サーバ(現用機)、 2b…受信サーバ(予備機)、 3…配信サーバ、 3a…配信サーバ1号機、 3a−1…配信サーバ1号機(現用機)、 3a−2…配信サーバ1号機(予備機)、 3b…配信サーバ2号機、 3c…配信サーバ3号機、 4…ネットワーク、 10…監視装置、 11…制御部、 12…記憶部、 13…インタフェース部、 14…表示部、 15…入力部

Claims (1)

  1. 複数のサーバ群にネットワークを介して接続し、前記サーバ群を監視する監視装置であって、
    前記サーバ群を機能単位でグループ表示する表示部と、
    前記サーバ群を機能単位のグループで監視し、当該グループ内に属するサーバに障害が発生したか否かを判定し、障害が発生した判定した場合には、当該障害について縮退運用が可能ではなく緊急対応が必要であるか否かを判定し、緊急対応が必要な場合は、前記表示部にグループ表示を行う際に、グループ名に対応付けて状況を「障害」の表示色で表示し、前記緊急対応が必要でない場合は、前記状況を「警告」の表示色で表示し、障害が発生していない場合は、前記状況を「正常」の表示色で表示し、前記グループが選択されると、当該グループに属するサーバの稼動状態を表示し、当該グループに属するサーバが選択されると、当該サーバの詳細状態を表示する制御部とを有することを特徴とする監視装置。
JP2010006664A 2010-01-15 2010-01-15 サーバ群の監視装置 Pending JP2011145911A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010006664A JP2011145911A (ja) 2010-01-15 2010-01-15 サーバ群の監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010006664A JP2011145911A (ja) 2010-01-15 2010-01-15 サーバ群の監視装置

Publications (1)

Publication Number Publication Date
JP2011145911A true JP2011145911A (ja) 2011-07-28

Family

ID=44460703

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010006664A Pending JP2011145911A (ja) 2010-01-15 2010-01-15 サーバ群の監視装置

Country Status (1)

Country Link
JP (1) JP2011145911A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750742A (zh) * 2019-09-10 2020-02-04 北京字节跳动网络技术有限公司 页面优化方法、系统、介质和电子设备
CN110949404A (zh) * 2019-11-19 2020-04-03 中国第一汽车股份有限公司 警示方法及装置、中控设备、存储介质及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750742A (zh) * 2019-09-10 2020-02-04 北京字节跳动网络技术有限公司 页面优化方法、系统、介质和电子设备
CN110949404A (zh) * 2019-11-19 2020-04-03 中国第一汽车股份有限公司 警示方法及装置、中控设备、存储介质及系统
CN110949404B (zh) * 2019-11-19 2021-06-29 中国第一汽车股份有限公司 警示方法及装置、中控设备、存储介质及系统

Similar Documents

Publication Publication Date Title
CN103607297B (zh) 一种计算机集群系统的故障处理方法
JP5747615B2 (ja) 通信システム、及び通信方法
JP6095140B2 (ja) 遠隔監視システム、遠隔監視方法、及びプログラム
US20120254377A1 (en) Redundant Automation System
US20080301489A1 (en) Multi-agent hot-standby system and failover method for the same
JP2017173290A (ja) X線保安検査機のリアルタイム遠隔監視方法
JP2013130901A (ja) 監視サーバおよびそれを用いたネットワーク機器復旧システム
JP2012043121A (ja) 運用管理システム、運用管理方法及び運用管理装置
CN109286525B (zh) 一种基于mqtt通讯和主备之间心跳的双机备份方法
JP2011145911A (ja) サーバ群の監視装置
JP2012059193A (ja) 監視制御システム、およびこれに利用する監視制御装置、監視制御方法
JP2004086719A (ja) ネットワーク機器の保守システムおよび保守サービス提供方法
JP2007094631A (ja) アプリケーション稼働監視システム及び顧客アプリケーション稼働監視サービス提供システム及びアプリケーション稼働監視方法及び顧客アプリケーション稼働監視サービス提供方法
JP5425883B2 (ja) アプリケーション稼働監視システム及び顧客アプリケーション稼働監視サービス提供システム
JP2007264907A (ja) 障害通報システム、障害通報方法及び障害通報プログラム
JP2003273930A (ja) ネットワーク障害監視方法、通信システムおよび回線切替装置
CN111064609A (zh) 消息系统的主从切换方法、装置、电子设备及存储介质
JP2009059204A (ja) コンピュータリモート制御システム
JP2012075009A (ja) 冗長化装置及び冗長化プログラム
JP4848979B2 (ja) 監視システムおよび監視方法ならびにプログラム
KR100566610B1 (ko) 자동화 재해 복구 시스템 및 그 방법
JP2013121095A (ja) 通信装置
WO2013051145A1 (ja) コンピュータシステム、管理装置、管理方法、及びプログラム
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
JP2013003956A (ja) 故障復旧管理装置、故障復旧管理方法及び故障復旧管理プログラム