JP6819357B2 - 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム - Google Patents

稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム Download PDF

Info

Publication number
JP6819357B2
JP6819357B2 JP2017034856A JP2017034856A JP6819357B2 JP 6819357 B2 JP6819357 B2 JP 6819357B2 JP 2017034856 A JP2017034856 A JP 2017034856A JP 2017034856 A JP2017034856 A JP 2017034856A JP 6819357 B2 JP6819357 B2 JP 6819357B2
Authority
JP
Japan
Prior art keywords
operation confirmation
service
failure
influence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017034856A
Other languages
English (en)
Other versions
JP2018142092A (ja
Inventor
和男 熊谷
和男 熊谷
淳平 小椋
淳平 小椋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2017034856A priority Critical patent/JP6819357B2/ja
Publication of JP2018142092A publication Critical patent/JP2018142092A/ja
Application granted granted Critical
Publication of JP6819357B2 publication Critical patent/JP6819357B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Computer And Data Communications (AREA)

Description

本発明は、稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システムに関する。
従来、ネットワーク機器、サーバ機器、及びストレージ機器等の情報処理装置の監視が行われている。
例えば、特許文献1には、マネージャとして動作するノードが、エージェントとして動作するノードが持つ情報を、ネットワークを介して監視するデータ処理システムが開示されている。
また、例えば、特許文献2には、監視対象機器から自律的に送信されるログメッセージを収集することによって、監視対象機器を監視するネットワーク監視装置が開示されている。
特開平7−21135号公報 特開2003−198545号公報
近年、クラウドシステムの普及等に伴い、複数の情報処理装置を含む装置群により複数の利用者向けに複数のサービスが提供される場合がある。この場合、何れかの情報処理装置に障害が発生した場合、上記特許文献1及び特許文献2に記載の技術により、何れの情報処理装置に障害が発生したかを判別することができる。しかしながら、この場合、発生した障害が何れのサービスにどの程度の影響を及ぼすものかは、運用担当者が調査して判断するものであった。すなわち、発生した障害によって、サービスが影響を受けていないか、サービスが一時的に影響を受けたものの自動的に復旧したか、又はサービスが継続的に影響を受けているか等は、運用担当者が調査して判断するものであった。なお、本明細書における「サービス」とは、例えば、Webサービス、及び電子メールサービス等の情報処理装置がプログラムを実行することにより稼動するプロセスによって提供されるサービスを意味する。
本発明は、複数のサービスを提供する複数の監視対象機器の少なくとも1台に障害が発生した場合に、発生した障害の影響範囲を特定可能とすることを目的とする。
本発明の稼動確認装置は、複数の監視対象機器の少なくとも1台の障害が検知された場合に、前記複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が提供するサービスとを対応付けた影響範囲情報に基づいて、障害が検知された前記監視対象機器によって提供される前記サービスを特定する特定部と、前記障害が検知された前記監視対象機器に対し、前記特定部により特定されたサービスが利用可能か否かを確認するために、当該特定されたサービスで用いられるコマンドによる第1稼動確認処理と当該第1稼動確認処理とは異なる第2稼動確認処理を実行する実行部と、前記第1稼動確認処理の実行結果及び前記第2稼動確認処理の実行結果の組み合わせに基づいて、前記障害の影響度を導出する導出部と、前記特定部により特定されたサービス、及び前記導出部により導出された影響度を出力する出力部と、備えることを特徴とする
また、本発明の稼動確認プログラムは、複数の監視対象機器の少なくとも1台の障害が検知された場合に、前記複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が提供するサービスとを対応付けた影響範囲情報に基づいて、障害が検知された前記監視対象機器によって提供される前記サービスを特定し、前記障害が検知された前記監視対象機器に対し、特定したサービスが利用可能か否かを確認するために、当該特定したサービスで用いられるコマンドによる第1稼動確認処理と当該第1稼動確認処理とは異なる第2稼動確認処理を実行前記第1稼動確認処理の実行結果及び前記第2稼動確認処理の実行結果の組み合わせに基づいて、前記障害の影響度を導出し、特定したサービス、及び導出した影響度を出力する、処理を稼動確認装置に実行させるものである。
また、本発明の稼動確認方法は、複数の監視対象機器の少なくとも1台の障害が検知された場合に、前記複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が提供するサービスとを対応付けた影響範囲情報に基づいて、障害が検知された前記監視対象機器によって提供される前記サービスを特定し、前記障害が検知された前記監視対象機器に対し、特定したサービスが利用可能か否かを確認するために、当該特定したサービスで用いられるコマンドによる第1稼動確認処理と当該第1稼動確認処理とは異なる第2稼動確認処理を実行前記第1稼動確認処理の実行結果及び前記第2稼動確認処理の実行結果の組み合わせに基づいて、前記障害の影響度を導出し、特定したサービス、及び導出した影響度を出力する、処理を稼動確認装置が実行するものである。
また、本発明の稼動確認システムは、本発明の稼動確認装置と、前記複数の監視対象機器と、前記複数の監視対象機器の各々の障害を検知する監視装置と、前記複数の監視対象機器を管理する管理装置と、前記出力部により出力されたサービス及び影響度を表示する表示装置を含む監視端末と、を備える。
本発明によれば、複数のサービスを提供する複数の監視対象機器の少なくとも1台に障害が発生した場合に、発生した障害の影響範囲を特定することができる、という効果が得られる。
実施形態に係る稼動確認システムの概略構成を示すブロック図である。 物理機器上で稼動する仮想機器の一例を示すブロック図である。 実施形態に係る監視装置の機能ブロック図である。 実施形態に係る稼動確認装置の機能ブロック図である。 影響範囲情報の一例を示す図である。 コマンド情報の一例を示す図である。 影響度情報の一例を示す図である。 サービス状態表示画面の一例を示す図である。 サービス状態表示画面の変形例を示す図である。 サービス状態表示画面の変形例を示す図である。 稼動機器情報の一例を示す図である。 実施形態に係る監視装置のハードウェア構成を示すブロック図である。 実施形態に係る稼動確認装置のハードウェア構成を示すブロック図である。 実施形態に係る監視処理の一例を示すフローチャートである。 実施形態に係る稼動確認処理の一例を示すフローチャートである。 実施形態に係る稼動確認システムの一連の処理の流れの一例を示すシーケンス図である。
以下、図面を参照して、本発明の実施形態の例を詳細に説明する。
まず、図1及び図2を参照して、本実施形態に係る稼動確認システム10の構成を説明する。図1に示すように、稼動確認システム10は、複数台の物理機器12、監視装置14、管理装置16、稼動確認装置17、及び監視端末18を備える。なお、以下では、個々の物理機器12を区別する場合は、符号の末尾にアルファベットの符号を付して説明する。各物理機器12、監視装置14、管理装置16、及び稼動確認装置17は、LAN(Local Area Network)等のネットワーク20に接続される。また、監視端末18は、WAN(Wide Area Network)等のネットワーク22に接続される。また、ネットワーク22は、ネットワーク20に接続される。
図2に示すように、物理機器12上では仮想機器24が稼動する。仮想機器24A1、24A2は各々サービスAを提供し、仮想機器24B1、24B2は各々サービスBを提供し、仮想機器24C1はサービスCを提供し、仮想機器24D1、24D2は各々サービスDを提供する。なお、以下では、仮想機器24A1、24A2、24B1、・・・を区別しない場合は、符号末尾のアルファベット及び数字の符号を省略して、仮想機器24という。なお、物理機器12の例としては、サーバコンピュータ等の情報処理装置が挙げられる。
監視装置14は、各物理機器12及び各仮想機器24の稼動状態を監視する。なお、以下では、監視装置14による監視対象である各物理機器12及び各仮想機器24を総称する場合は、「監視対象機器」という。管理装置16は、仮想化環境を管理するための装置であり、物理機器12毎に、物理機器12と物理機器12上で稼動する仮想機器24とが対応付けられた稼動機器情報26を保持する。稼動確認装置17は、サービスが利用可能か否かを確認するための稼動確認処理を実行する。監視端末18は、運用担当者が目視する表示装置及び各種情報の入力を行う入力装置等を備える端末である。
次に、図3を参照して、本実施形態に係る監視装置14の機能的な構成を説明する。図3に示すように、監視装置14は、検知部30及び出力部36を含む。また、検知部30は、トラップ受信部32及び状態問合せ部34を含む。
トラップ受信部32は、監視対象機器から送信されたSNMP(Simple Network Management Protocol)トラップを受信する。そして、トラップ受信部32は、受信したSNMPトラップを解析することによって、SNMPトラップの送信元の監視対象機器の障害を検知する。
状態問合せ部34は、監視対象機器から定期的に稼動中のプロセスを示す情報、システムログ、及びサービスが出力するログ等の各種情報を取得する。そして、状態問合せ部34は、取得した各種情報を解析することによって、各種情報の取得対象の監視対象機器の障害を検知する。
出力部36は、検知部30により障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、ネットワーク20を介して稼動確認装置17に出力する。また、出力部36は、検知部30により障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、ネットワーク20、22を介して監視端末18に出力する。
次に、図4を参照して、本実施形態に係る稼動確認装置17の機能的な構成を説明する。図4に示すように、稼動確認装置17は、受信部40、特定部42、実行部44、導出部46、出力部48、及び記憶部86を含む。記憶部86には、影響範囲情報52、コマンド情報54、及び影響度情報56が記憶される。
受信部40は、監視装置14から出力された障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、ネットワーク20を介して受信する。
特定部42は、影響範囲情報52を参照し、受信部40により受信された、障害が検知された監視対象機器を示す情報が示す監視対象機器によって提供されるサービスを特定する。
図5に、影響範囲情報52の一例を示す。図5に示すように、影響範囲情報52は、監視対象機器の各々と、複数のサービスのうちの監視対象機器が提供するサービスとが対応付けられた情報を含む。図5の例では、監視対象機器毎に、「○」が記載されているサービスが提供されることを示す。
例えば、図5に示す「物理機器1」に対応する物理機器12は、物理機器12上で稼動する仮想機器24によってサービスA〜Dを提供することを示す。また、例えば、図5に示す「仮想機器A1」に対応する仮想機器24は、サービスAを提供することを示す。なお、影響範囲情報52は、例えば、図5に示すようなマトリクス状の表を表示装置(図示省略)に表示し、運用担当者が監視対象機器毎に提供するサービスのチェックボックスをチェックすることによって作成される。
本実施形態では、特定部42は、障害が検知された監視対象機器が物理機器12である場合、監視対象機器上で稼動する仮想機器24を示す情報を、ネットワーク20を介して管理装置16から取得する。具体的には、この場合、特定部42は、障害が検知された監視対象機器を示す情報を、ネットワーク20を介して管理装置16に送信し、管理装置16から返信された仮想機器24を示す情報を、ネットワーク20を介して取得する。そして、特定部42は、影響範囲情報52を参照し、取得した情報が示す仮想機器24に対応付けられたサービスを、障害が検知された監視対象機器によって提供されるサービスとして特定する。
一方、特定部42は、障害が検知された監視対象機器が仮想機器24である場合、影響範囲情報52を参照し、監視対象機器に対応付けられたサービスを、障害が検知された監視対象機器によって提供されるサービスとして特定する。
実行部44は、障害が検知された監視対象機器に対し、特定部42により特定されたサービスが利用可能か否かを確認するための稼動確認処理を実行する。本実施形態では、実行部44は、コマンド情報54を参照し、特定部42により特定されたサービスに対応付けられた異なる複数の稼動確認コマンドを実行することによって、異なる複数の稼動確認処理を実行する。
図6に、コマンド情報54の一例を示す。図6に示すように、コマンド情報54は、サービス毎に、サービスに対応付けられた異なる複数の稼動確認処理を実行するコマンド(以下、「稼動確認コマンド」という)を含む。例えば、図6では、サービスAに対応する1つ目の稼動確認コマンドが「aaa.co.jp」に対して「ping」を実行するコマンドであることを示す。また、図6では、サービスAに対応する2つ目の稼動確認コマンドが「http://aaa.co.jp/serviceA」というURL(Uniform Resource Locator)に対して「HTTP(Hypertext Transfer Protocol) GET」を実行するコマンドであることを示す。すなわち、サービスAは、Webサービスである。
また、例えば、図6では、サービスFに対応する1つ目の稼動確認コマンドが「ddd.co.jp」に対して「ping」を実行するコマンドであることを示す。また、サービスFに対応する2つ目の稼動確認コマンドが「ddd.co.jp」のSMTP(Simple Mail Transfer Protocol)サービスで使用されるポート番号(図6の例では25番)のポートに対して、telnet接続を行うコマンドであることを示す。
なお、稼動確認コマンドは、図6に示す例に限定されない。例えば、サービスがFTP(File Transfer Protocol)サービスの場合は、FTPクライアントを制御してFTP接続を行うコマンドが例示される。また、例えば、サービスがSIP(Session Initiation Protocol)サービスの場合は、SIPクライアントを制御してSIP接続を行うコマンドが例示される。また、例えば、稼動確認コマンドは、サービスに合わせて専用に作りこまれたコマンドであってもよい。また、稼動確認コマンドの数は、3つ以上であってもよい。また、稼動確認コマンドの数は、サービス毎に異なってもよい。
例えば、特定部42によりサービスAが特定された場合、実行部44は、コマンド情報54を参照し、「aaa.co.jp」に対して「ping」を実行する。更に、この場合、実行部44は、コマンド情報54を参照し、稼動確認装置17にインストールされたHTTPクライアントを制御して、「http://aaa.co.jp/serviceA」に対して「HTTP GET」を実行する。
導出部46は、影響度情報56を参照し、実行部44による複数の稼動確認コマンドの実行結果の組み合わせに基づいて、障害の影響度を導出する。
図7に、影響度情報56の一例を示す。図7に示すように、影響度情報56は、複数(本実施形態では2つ)の稼動確認コマンドの実行結果の組み合わせ毎に対応付けられた障害の影響度を含む。本実施形態では、影響度は、以下に示すように予め定義される。
影響度1:サービスが正常に稼動中で、対処が不要。
影響度2:サービスは正常稼働中であるが、原因調査又は対処が必要。
影響度3:サービスの一部の機能に影響あり。
影響度4:サービスの全機能に影響あり。
図7に示すように、本実施形態では、稼動確認コマンドの実行結果が全て正常の場合の影響度は「2」であり、稼動確認コマンドの実行結果が全て異常の場合の影響度は「4」であり、稼動確認コマンドの何れかの実行結果が異常の場合の影響度は「3」である。なお、稼動確認コマンドが3つ以上の場合は、2つ以上で、かつ(稼動確認コマンドの数−1)以下の数の稼動確認コマンドの実行結果が異常の場合の影響度を「3」とする形態が例示される。
導出部46は、影響度情報56を参照し、実行部44による複数の稼動確認コマンドの実行結果の組み合わせに対応する影響度を、検知された障害の影響度として導出する。なお、稼動確認コマンドの実行結果が全て正常の場合の影響度を、「2」に代えて「1」としてもよい。この場合、例えば、サービスの提供者と利用者との間で締結されたSLA(Service Level Agreement)等に従ったサービスの重要度によって、影響度を異ならせる形態が例示される。具体的には、重要度が比較的高いサービスの場合は、稼動確認コマンドの実行結果が全て正常の場合の影響度を「2」とし、重要度が比較的低いサービスの場合は、稼動確認コマンドの実行結果が全て正常の場合の影響度を「1」とする形態が例示される。
出力部48は、受信部40により受信された障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、ネットワーク20、22を介して監視端末18に出力する。また、出力部48は、特定部42により特定されたサービスを示す情報、導出部46により影響度が導出された日時、及び導出部46により導出された影響度を、ネットワーク20、22を介して監視端末18に出力する。なお、出力部48は、これらの各情報を、電子メールによって運用担当者に送信してもよい。
監視端末18は、稼動確認装置17の出力部48から出力された障害が検知された監視対象機器を示す情報を受信すると、例えば、パトランプを鳴動させること等によって、障害が検知されたことを運用担当者に報知する。この場合、例えば、監視端末18は、障害が検知された監視対象機器を示す文字列を表示装置に表示してもよいし、監視対象機器毎に予め用意されたアイコンにおける障害が検知された監視対象機器のアイコンの表示状態を変更してもよい。
また、監視端末18は、稼動確認装置17の出力部48から出力された障害が検知された日時、特定されたサービスを示す情報、影響度が導出された日時、及び影響度の各情報を受信する。そして、監視端末18は、受信した各情報を用いて、サービスの状態を示すサービス状態表示画面を表示装置に表示する。図8に、サービス状態表示画面の一例を示す。
図8に示すように、本実施形態に係るサービス状態表示画面では、検知された障害に応じて特定されたサービス毎に、対応状況、発生日時、判定日時、サービス番号、サービス名、影響度、及び詳細ボタンの行が、予め定められた順番で表示される。対応状況の初期状態は空欄であり、運用担当者が障害への対応が完了した場合に、「済」を入力する。発生日時は、稼動確認装置17の出力部48から出力された障害が検知された日時に対応し、判定日時は、稼動確認装置17の出力部48から出力された影響度が導出された日時に対応する。サービス番号は、サービス毎に予め定められた識別子であり、サービス名は、稼動確認装置17の出力部48から出力されたサービスを示す情報に対応する。また、影響度は、稼動確認装置17の出力部48から出力された影響度に対応する。
図8に示すように、本実施形態に係るサービス状態表示画面では、検知された障害に応じて特定されたサービスに対応する行が、稼動確認装置17の出力部48から出力された、障害が検知された日時に対応する発生日時に従って、時系列に表示される。具体的には、サービス状態表示画面では、発生日時が後の行から順番に上から表示される。本実施形態では、稼動確認装置17が、サービスを示す情報及び影響度に加え、障害が検知された日時を出力しているため、サービス状態表示画面において、サービス及び影響度を時系列に表示することができる。
また、図8に示すように、運用担当者が監視端末18を操作して詳細ボタンを押圧操作すると、別のウィンドウに、監視装置14が検知した障害を示す情報、及び稼動確認装置17が実行した稼動確認コマンドの実行結果等が表示される。なお、この表示は、別のウィンドウではなく、例えば、ポップアップ表示等により、サービス状態表示画面に重畳して表示してもよい。
なお、監視端末18は、サービス状態表示画面において、影響度に応じて色を変えて各行を表示してもよい。例えば、監視端末18は、サービス状態表示画面において、影響度が2以下の行は青色で表示し、影響度が3の行は黄色で表示し、影響度が4の行は赤色で表示する形態が例示される。
また、監視端末18は、サービス状態表示画面において、各行を、判定日時に従って、時系列に表示してもよい。また、監視端末18は、サービス状態表示画面において、対応状況が「済」となった行を非表示としてもよいし、最下部に表示してもよい。また、監視端末18は、一例として図9に示すように、サービス状態表示画面において、各行を影響度が高い順番で上から表示してもよい。このように、稼動確認装置17が、影響度を数字で出力することにより、サービス状態表示画面において、サービス及び影響度を、影響度の順番で整列して表示することができる。
また、例えば、監視端末18は、一例として図10に示すように、サービス状態表示画面において、サービス毎に定められた上記重要度が高い順番で各行を上から表示してもよい。この場合、稼動確認装置17の出力部48は、特定部42により特定されたサービスを示す情報等とともに、サービスの重要度もネットワーク20、22を介して監視端末18に出力する形態が例示される。このように、稼動確認装置17が、重要度を数字で出力することにより、サービス状態表示画面において、サービス及び影響度を、重要度の順番で整列して表示することができる。
また、例えば、監視端末18は、サービス状態表示画面において、影響度とサービス毎に定められた上記重要度との組み合わせに応じて、各行の表示順番を変更してもよい。この場合、例えば、監視端末18は、サービス状態表示画面において、影響度と重要度とを乗算して得られた値の大きい順番で各行を上から表示する形態が例示される。また、例えば、監視端末18は、サービス状態表示画面において、サービスの優先度に応じて、各行を整列して表示してもよい。
図1に示すように、管理装置16の記憶部(図示省略)には、稼動機器情報26が記憶される。図11に、稼動機器情報26の一例を示す。図11に示すように、稼動機器情報26は、物理機器12毎に対応付けられた物理機器12上で稼動する仮想機器24を示す情報を含む。
管理装置16は、監視装置14の特定部42から送信された物理機器12を示す情報を、ネットワーク20を介して受信する。そして、管理装置16は、稼動機器情報26を参照し、受信した情報が示す物理機器12上で稼動する仮想機器24を示す情報を、ネットワーク20を介して稼動確認装置17に返信する。
次に、図12を参照して、本実施形態に係る監視装置14のハードウェア構成を説明する。図12に示すように、監視装置14は、CPU(Central Processing Unit)60、及び各種プログラムや各種パラメータ等が予め記憶されたROM(Read Only Memory)62を備える。また、監視装置14は、CPU60による各種プログラムの実行時のワークエリア等として用いられるRAM(Random Access Memory)64、及びHDD(Hard Disk Drive)等の不揮発性の記憶部66を備える。
また、監視装置14は、液晶ディスプレイ等の表示部68、キーボードとマウス等の入力部70、及びネットワーク20に接続されるネットワークI/F(InterFace)72を備える。そして、CPU60、ROM62、RAM64、記憶部66、表示部68、入力部70、及びネットワークI/F72の各部が、バス74を介して互いに接続される。
次に、図13を参照して、本実施形態に係る稼動確認装置17のハードウェア構成を説明する。図13に示すように、稼動確認装置17は、CPU80、及び各種プログラムや各種パラメータ等が予め記憶されたROM82を備える。また、監視装置14は、CPU80による各種プログラムの実行時のワークエリア等として用いられるRAM84、及びHDD等の不揮発性の記憶部86を備える。
また、稼動確認装置17は、液晶ディスプレイ等の表示部88、キーボードとマウス等の入力部90、及びネットワーク20に接続されるネットワークI/F92を備える。そして、CPU80、ROM82、RAM84、記憶部86、表示部88、入力部90、及びネットワークI/F92の各部が、バス94を介して互いに接続される。
次に、図14及び図15を参照して、本実施形態に係る監視装置14及び稼動確認装置17の作用を説明する。監視装置14のCPU60が監視プログラムを実行することによって、図14に示す監視処理が実行される。CPU60が監視プログラムを実行することによって、図3に示す検知部30及び出力部36として機能する。なお、この監視プログラムは、監視装置14のROM62に予めインストールされている。また、図14に示す監視処理は、例えば、監視装置14の電源スイッチがオン状態とされた場合に実行される。
また、稼動確認装置17のCPU80が稼動確認プログラムを実行することによって、図15に示す稼動確認処理が実行される。CPU80が稼動確認プログラムを実行することによって、図4に示す受信部40、特定部42、実行部44、導出部46、及び出力部48として機能する。なお、この稼動確認プログラムは、稼動確認装置17のROM82に予めインストールされている。また、図15に示す稼動確認処理は、例えば、稼動確認装置17の電源スイッチがオン状態とされた場合に実行される。
図14のステップS10で、検知部30は、監視対象機器の障害を検知したか否かを判定する。この判定が否定判定となった場合は、処理はステップS10に戻り、肯定判定となった場合は、処理はステップS12に移行する。具体的には、トラップ受信部32が、前述したように、SNMPトラップを受信し、受信したSNMPトラップを解析することによってSNMPトラップの送信元の監視対象機器の障害を検知した場合に、ステップS10の判定が肯定判定となる。また、状態問合せ部34が、前述したように、監視対象機器から定期的に稼動中のプロセスを示す情報、システムログ、及びサービスが出力するログ等の各種情報を取得する。そして、状態問合せ部34が、取得した各種情報を解析することによって、各種情報の取得対象の監視対象機器の障害を検知した場合にも、ステップS10の判定が肯定判定となる。
次のステップS12で、出力部36は、ステップS10で障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、ネットワーク20、22を介して監視端末18に出力する。監視端末18は、前述したように、ステップS12で監視装置14から出力された障害が検知された監視対象機器を示す情報を受信すると、パトランプを鳴動させること等によって、障害が検知されたことを運用担当者に報知する。
次のステップS14で、出力部36は、ステップS10で障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、ネットワーク20を介して稼動確認装置17に出力する。ステップS14の処理が終了すると、処理はステップS10に戻る。
図15のステップS20で、受信部40は、上記監視処理のステップS14で監視装置14から出力された障害が検知された日時、及び障害が検知された監視対象機器を示す情報を受信するまで待機する。受信部40が、監視装置14から出力された障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、ネットワーク20を介して受信すると、ステップS20の判定が肯定判定となり、処理はステップS22に移行する。
次のステップS22で、特定部42は、ステップS20で受信された情報が示す監視対象機器が、物理機器12であるか否かを判定する。この判定が否定判定となった場合は、特定部42は監視対象機器が仮想機器24であると見なし、処理はステップS30に移行し、肯定判定となった場合は、処理はステップS24に移行する。
ステップS24で、特定部42は、ステップS20で受信された物理機器12を示す情報を、ネットワーク20を介して管理装置16に送信する。管理装置16は、前述したように、ステップS24で稼動確認装置17から送信された物理機器12を示す情報を、ネットワーク20を介して受信する。そして、管理装置16は、稼動機器情報26を参照し、受信した情報が示す物理機器12上で稼動する仮想機器24を示す情報を、ネットワーク20を介して稼動確認装置17に返信する。
次のステップS26で、特定部42は、ステップS24で送信した情報に対応して管理装置16から返信された、障害が検知された物理機器12上で稼動する仮想機器24を示す情報を、ネットワーク20を介して取得する。
次のステップS28で、特定部42は、影響範囲情報52を参照し、ステップS26で取得された情報が示す仮想機器24に対応付けられたサービスを、障害が検知された監視対象機器によって提供されるサービスとして特定する。一方、ステップS30で、特定部42は、影響範囲情報52を参照し、ステップS20で受信された情報が示す監視対象機器に対応付けられたサービスを、障害が検知された監視対象機器によって提供されるサービスとして特定する。
ステップS32で、実行部44は、コマンド情報54を参照し、ステップS20で受信された情報が示す監視対象機器に対し、ステップS28又はステップS30で特定されたサービスに対応付けられた複数の稼動確認コマンドの各々を実行する。次のステップS34で、導出部46は、前述したように、影響度情報56を参照し、ステップS32で実行された複数の稼動確認コマンドの実行結果の組み合わせに基づいて、障害の影響度を導出する。
次のステップS36で、出力部48は、ステップS20で受信された障害が検知された日時、及びステップS28又はS30で特定されたサービスを示す情報を、ネットワーク20、22を介して監視端末18に出力する。さらに、出力部48は、ステップS34で影響度が導出された日時、及びステップS34で導出された影響度を、ネットワーク20、22を介して監視端末18に出力する。監視端末18は、ステップS36で稼動確認装置17から出力された障害が検知された日時、特定されたサービスを示す情報、影響度が導出された日時、及び影響度の各情報を受信する。そして、監視端末18は、前述したように、受信した各情報を用いて、一例として図8に示すサービス状態表示画面を表示装置に表示する。ステップS36の処理が終了すると、処理はステップS20に戻る。
次に、図16を参照して、稼動確認システム10の一連の処理の流れを説明する。監視対象機器で障害が発生すると、図16のステップS50で、監視装置14は、上記監視処理のステップS10の処理により、監視対象機器の障害を検知する。そして、ステップS52で、監視装置14は、上記監視処理のステップS12の処理により、障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、監視端末18に出力する。監視端末18は、障害が検知された日時、及び障害が検知された監視対象機器を示す情報を受信すると、パトランプを鳴動させること等によって、障害が検知されたことを運用担当者に報知する。
また、ステップS54で、監視装置14は、上記監視処理のステップS14の処理により、障害が検知された日時、及び障害が検知された監視対象機器を示す情報を稼動確認装置17に出力する。この監視装置14から出力された障害が検知された日時、及び障害が検知された監視対象機器を示す情報を、上記稼動確認処理のステップS20の処理により、稼動確認装置17は受信する。
稼動確認装置17は、受信した情報が示す監視対象機器が物理機器12である場合、ステップS56、S58で、上記稼動確認処理のステップS24、S26の処理により、障害が検知された物理機器12上で稼動する仮想機器24を示す情報を、管理装置16から取得する。
ステップS60で、稼動確認装置17は、上記稼動確認処理のステップS28又はステップS30の処理により、障害が検知された監視対象機器によって提供されるサービスを特定する。また、稼動確認装置17は、上記稼動確認処理のステップS32の処理により、特定したサービスに対応する複数の稼動確認コマンドを実行する。そして、稼動確認装置17は、上記稼動確認処理のステップS34の処理により、実行した複数の稼動確認コマンドの実行結果の組み合わせに基づいて、障害の影響度を導出する。
ステップS62で、稼動確認装置17は、上記稼動確認処理のステップS36の処理により、障害が検知された日時、サービスを示す情報、影響度が導出された日時、及び導出された影響度を監視端末18に出力する。監視端末18は、稼動確認装置17から出力された障害が検知された日時、特定されたサービスを示す情報、影響度が導出された日時、及び影響度の各情報を受信する。そして、監視端末18は、前述したように、受信した各情報を用いて、一例として図8に示すサービス状態表示画面を表示装置に表示する。
運用担当者は、サービス状態表示画面を目視で確認し、サービス状態表示画面に表示された発生日時及び影響度等に応じて、障害の原因調査及び復旧作業を行う。そして、運用担当者は、復旧が完了した場合は、サービス状態表示画面において、復旧が完了したサービスに対応する行の対応状況に「済」を入力する。
以上説明したように、本実施形態によれば、影響範囲情報52に基づいて、障害が検知された監視対象機器によって提供されるサービスを特定し、特定したサービスが利用可能か否かを確認するための稼動確認処理を実行している。すなわち、監視対象機器の障害が検知された場合に、障害が検知された監視対象機器によって提供されるサービスが正常に稼動しているか否かを確認することができる。従って、複数のサービスを提供する複数の監視対象機器の少なくとも1台に障害が発生した場合に、発生した障害の影響範囲を特定することができる。
なお、上記実施形態では、本発明を仮想化環境に適用する場合について説明したが、これに限定されない。例えば、本発明を仮想化されていない物理機器環境に適用する形態としてもよい。この場合、稼動確認装置17は、上記実施形態と同様に、影響範囲情報52を参照して、物理機器12で提供されるサービスを特定する形態が例示される。また、この場合、管理装置16は、物理機器12毎に、物理機器12と物理機器12が提供するサービスとを対応付けた情報を保持する。そして、稼動確認装置17は、上記実施形態と同様に、コマンド情報54を参照し、特定したサービスが利用可能か否かを確認するための稼動確認処理を実行する。
また、上記実施形態では、監視対象機器の障害を検知した場合に、サービスが利用可能か否かを確認するための稼動確認処理を実行する場合について説明したが、これに限定されない。例えば、監視対象機器が提供する各サービスに対し、定期的に稼動確認処理を実行する形態としてもよい。この場合、稼動確認処理の実行結果が異常となった場合に、障害が発生したことを検知する形態が例示される。
また、上記実施形態において、実行部44による複数の稼動確認コマンドの実行結果の組み合わせが、影響度情報56に存在しない場合に、障害の影響度として、「判定不可」を示す情報を導出してもよい。この場合、運用担当者がサービスの状態を調査して判断する形態が例示される。
また、上記実施形態において、CPU60が監視プログラムを実行することにより実現される機能を、例えば、半導体集積回路等のハードウェアによって実現する形態としてもよい。
また、上記実施形態において、CPU80が稼動確認プログラムを実行することにより実現される機能を、例えば、半導体集積回路等のハードウェアによって実現する形態としてもよい。
また、上記実施形態では、監視プログラムがROM62に予め記憶(インストール)されている態様を説明したが、これに限定されない。監視プログラムは、CD−ROM(Compact Disk Read Only Memory)、DVD−ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、監視プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
また、上記実施形態では、稼動確認プログラムがROM82に予め記憶(インストール)されている態様を説明したが、これに限定されない。稼動確認プログラムは、CD−ROM、DVD−ROM、及びUSBメモリ等の記録媒体に記録された形態で提供されてもよい。また、稼動確認プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
10 稼動確認システム
12 物理機器
14 監視装置
16 管理装置
17 稼動確認装置
18 監視端末
24 仮想機器
26 稼動機器情報
30 検知部
32 トラップ受信部
34 状態問合せ部
36、48 出力部
40 受信部
42 特定部
44 実行部
46 導出部
52 影響範囲情報
54 コマンド情報
56 影響度情報
60、80 CPU
62、82 ROM
66、86 記憶部

Claims (8)

  1. 複数の監視対象機器の少なくとも1台の障害が検知された場合に、前記複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が提供するサービスとを対応付けた影響範囲情報に基づいて、障害が検知された前記監視対象機器によって提供される前記サービスを特定する特定部と、
    前記障害が検知された前記監視対象機器に対し、前記特定部により特定されたサービスが利用可能か否かを確認するために、当該特定されたサービスで用いられるコマンドによる第1稼動確認処理と当該第1稼動確認処理とは異なる第2稼動確認処理を実行する実行部と、
    前記第1稼動確認処理の実行結果及び前記第2稼動確認処理の実行結果の組み合わせに基づいて、前記障害の影響度を導出する導出部と、
    前記特定部により特定されたサービス、及び前記導出部により導出された影響度を出力する出力部と、
    備えることを特徴とする稼動確認装置。
  2. 前記出力部は、前記特定部により特定されたサービス、及び前記導出部により導出された影響度を表示装置に出力する、
    請求項に記載の稼動確認装置。
  3. 前記出力部は、前記特定部により特定されたサービス、及び前記導出部により導出された影響度を、時系列に表示可能に前記表示装置に出力する、
    請求項に記載の稼動確認装置。
  4. 前記出力部は、前記特定部により特定されたサービス、及び前記導出部により導出された影響度を、前記影響度に応じた順番で表示可能に前記表示装置に出力する、
    請求項に記載の稼動確認装置。
  5. 前記出力部は、前記特定部により特定されたサービス、及び前記導出部により導出された影響度を、該サービスの重要度に応じた順番で表示可能に前記表示装置に出力する、
    請求項に記載の稼動確認装置。
  6. 複数の監視対象機器の少なくとも1台の障害が検知された場合に、前記複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が提供するサービスとを対応付けた影響範囲情報に基づいて、障害が検知された前記監視対象機器によって提供される前記サービスを特定し、
    前記障害が検知された前記監視対象機器に対し、特定したサービスが利用可能か否かを確認するために、当該特定したサービスで用いられるコマンドによる第1稼動確認処理と当該第1稼動確認処理とは異なる第2稼動確認処理を実行
    前記第1稼動確認処理の実行結果及び前記第2稼動確認処理の実行結果の組み合わせに基づいて、前記障害の影響度を導出し、
    特定したサービス、及び導出した影響度を出力する、
    処理を稼動確認装置に実行させる稼動確認プログラム。
  7. 複数の監視対象機器の少なくとも1台の障害が検知された場合に、前記複数の監視対象機器の各々と、複数のサービスのうちの前記監視対象機器が提供するサービスとを対応付けた影響範囲情報に基づいて、障害が検知された前記監視対象機器によって提供される前記サービスを特定し、
    前記障害が検知された前記監視対象機器に対し、特定したサービスが利用可能か否かを確認するために、当該特定したサービスで用いられるコマンドによる第1稼動確認処理と当該第1稼動確認処理とは異なる第2稼動確認処理を実行
    前記第1稼動確認処理の実行結果及び前記第2稼動確認処理の実行結果の組み合わせに基づいて、前記障害の影響度を導出し、
    特定したサービス、及び導出した影響度を出力する、
    処理を稼動確認装置が実行する稼動確認方法。
  8. 請求項1から請求項の何れか1項に記載の稼動確認装置と、
    前記複数の監視対象機器と、
    前記複数の監視対象機器の各々の障害を検知する監視装置と、
    前記複数の監視対象機器を管理する管理装置と、
    前記出力部により出力されたサービス及び影響度を表示する表示装置を含む監視端末と、
    を備えた稼動確認システム。
JP2017034856A 2017-02-27 2017-02-27 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム Active JP6819357B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017034856A JP6819357B2 (ja) 2017-02-27 2017-02-27 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017034856A JP6819357B2 (ja) 2017-02-27 2017-02-27 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム

Publications (2)

Publication Number Publication Date
JP2018142092A JP2018142092A (ja) 2018-09-13
JP6819357B2 true JP6819357B2 (ja) 2021-01-27

Family

ID=63526688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017034856A Active JP6819357B2 (ja) 2017-02-27 2017-02-27 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム

Country Status (1)

Country Link
JP (1) JP6819357B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6874604B2 (ja) * 2017-08-30 2021-05-19 沖電気工業株式会社 対処者支援装置、対処者支援プログラム、及び対処者支援方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194627A (ja) * 1998-12-25 2000-07-14 Ntt Data Corp ネットワ―クシステムの運用方法、運用状況監視装置及び情報通信装置
JP5469011B2 (ja) * 2010-08-05 2014-04-09 株式会社野村総合研究所 インシデント管理システム、障害影響範囲可視化方法

Also Published As

Publication number Publication date
JP2018142092A (ja) 2018-09-13

Similar Documents

Publication Publication Date Title
US10541891B2 (en) Network configuration predictive analytics engine
JP7157222B2 (ja) セッションセキュリティ分割およびアプリケーションプロファイラ
US20060200373A1 (en) Facilitating Root Cause Analysis for Abnormal Behavior of Systems in a Networked Environment
JP2007221207A (ja) 管理装置及び通信システム
WO2011125243A1 (ja) 作業遅延監視方法、作業管理装置および作業管理プログラム
US20160119181A1 (en) Network state monitoring system
JP2015513722A (ja) コンピュータ・ネットワーク用のトランザクション実行監視方法及びシステム並びにコンピュータ記憶媒体
JP6711452B2 (ja) 抽出装置、抽出方法、及びプログラム
CN111510339A (zh) 一种工业互联网数据监测方法和装置
CN111865688A (zh) 网关监测方法、装置、电子设备及存储介质
JP6819357B2 (ja) 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム
CN110198230A (zh) 应用的监控方法、装置、存储介质和电子装置
CN103457771B (zh) 一种ha的虚拟机集群的管理方法和设备
JP2012208736A (ja) フィルタリング装置、フィルタリング方法、フィルタリングプログラム
JP6819356B2 (ja) 監視装置、監視プログラム、監視方法、及び監視システム
US20220309171A1 (en) Endpoint Security using an Action Prediction Model
JP6269004B2 (ja) 監視支援プログラム、監視支援方法および監視支援装置
JP4485344B2 (ja) サーバ装置、障害経路診断方法、および障害経路診断プログラム
JP5686001B2 (ja) 情報処理装置、メッセージ切分け方法およびメッセージ切分けプログラム
CN111258845A (zh) 事件风暴的检测
JP5471765B2 (ja) 通信確認装置、通信確認方法及びプログラム
JP5724145B2 (ja) 被疑装置の判定装置、判定方法及び被疑装置の判定プログラム
EP4120110A1 (en) Opc ua-based anomaly detection and recovery system and method
JP7207567B2 (ja) 異常検出装置、異常検出方法、及びプログラム
US20170123760A1 (en) Code Correction During a User Session in a Distributed Business Transaction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201214

R150 Certificate of patent or registration of utility model

Ref document number: 6819357

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150