(第一の実施形態)
以下に図面を参照して、第一の実施形態について説明する。図1は、第一の実施形態の監視装置について説明する第一の図である。
本実施形態の監視装置100は、勘定系システム200を監視し、障害の予兆を検知すると、予兆が検知された障害が、勘定系システム200に及ぼす影響の範囲を特定し、端末装置300に表示させる。
図1に示す勘定系システム200は、一例である。勘定系システム200は、例えば、システム201~206を含み、主に企業(銀行)や行政機関において会計勘定処理を行う。システム201~206は、例えば、外国為替システムや国内為替システム、営業店システム、自動機システム、各システムを接続させるハブシステム等を含む。
システム201~206は、それぞれがサービス(業務)を提供するためのサーバ(情報処理装置)や、各システムにおいて参照されるデータが格納されたデータベース等を有し、それぞれが連携して動作する。
つまり、本実施形態の勘定系システム200は、複数の情報処理装置が連携して、複数種類の業務を処理するシステムと言える。
本実施形態の監視装置100は、勘定系システム200のシステム201~206のそれぞれから、各システムの状態を示す状態情報を取得する。そして、監視装置100は、取得した状態情報が、予め障害の予兆とされた状態に合致することを検知すると、該当する障害が勘定系システム200全体に及ぼす影響の範囲を特定し、端末装置300に表示させる。
したがって、本実施形態野監視装置100によれば、障害が勘定系システム200全体に及ぼす影響の範囲を可視化できる。尚、本実施形態の端末装置300は、例えば、勘定系システム200の管理者等によって利用されても良い。
図2は、第一の実施形態の監視装置について説明する第二の図である。本実施形態の監視装置100は、状態管理データベース110、シナリオデータベース120、予兆管理データベース130、シナリオ影響データベース140、サービス構成データベース150、サービス閾値データベース160を有する。また、本実施形態の監視装置100は、監視処理部170、状態解析部175、予兆検知処理部180、通知処理部190を有する。
状態管理データベース110は、勘定系システム200の各システムのサーバの状態を示す状態情報が格納される。サーバの状態を示す状態情報とは、具体的には、サーバの負荷状態を示す情報を含む。
シナリオデータベース120は、障害の予兆とされる勘定系システム200の状態を示す情報が格納される。以下の説明では、障害(事象)の予兆を、シナリオと呼び、障害の予兆とされる勘定系システム200の状態を示す情報をシナリオ情報と呼ぶ。
予兆管理データベース130は、勘定系システム200に、状態情報がシナリオ情報と合致するシステムが存在する場合に、このシナリオ情報が格納される。
シナリオ影響データベース140は、シナリオ毎に、障害が勘定系システム200に及ぼす影響を示すシナリオ影響情報が格納される。サービス構成データベース150は、勘定系システム200に含まれる各システムが正常に稼働した場合の、各システムのサーバの負荷状態を示す情報が格納される。
サービス閾値データベース160は、勘定系システム200の各システムのサーバの負荷状態が正常であるか否かを判定するための閾値となる情報が格納されている。
監視処理部170は、勘定系システム200の状態を監視する。具体的には、監視処理部170は、勘定系システム200の各サーバから、状態情報を取得し、状態管理データベース110に格納する。つまり、監視処理部170は、勘定系システム200の本番環境を監視し、勘定系システム200の各サーバから状態情報を取得する。
また、本実施形態の監視処理部170は、勘定系システム200のテスト環境(開発環境)200Tを動作させて各サーバを監視し、状態情報を取得して状態管理データベース110に格納する。具体的には、例えば、監視処理部170は、テスト環境200Tにおいて、様々な障害を発生させ、その時の状態情報を取得しても良い。
本実施形態の状態解析部175は、勘定系システム200やテスト環境200Tにおいて、障害が発生した場合に、状態管理データベース110に格納された状態情報を解析する。そして、状態解析部175は、発生した障害の予兆となる状態情報をシナリオ情報としてシナリオデータベース120に格納する。さらに、状態解析部175は、テスト環境200Tにおいて、障害が発生したときの他のサーバの状態情報を取得し、シナリオ影響データベース140に格納しても良い。
尚、本実施形態では、監視処理部170により、テスト環境200Tから状態情報を収集して状態管理データベース110に格納する処理は、予兆検知処理部180による処理が行われる前に、予め実行されていても良い。また、本実施形態の状態解析部175による状態管理データベース110の解析と、シナリオデータベース120へのシナリオ情報の格納は、予兆検知処理部180による処理が行われる前に、予め実行されていても良い。
つまり、本実施形態のシナリオデータベース120は、予め生成されて、監視装置100に与えられていても良い。また、本実施形態のシナリオ影響データベース140は、シナリオデータベース120と共に、予め生成されて、監視装置100に与えられていても良い。
予兆検知処理部180は、状態管理データベース110に格納された状態情報から、勘定系システム200の障害の予兆を検知し、予兆が検知された障害が勘定系システム200に及ぼす影響を示す情報を出力する。予兆検知処理部180の詳細は後述する。
通知処理部190は、勘定系システム200において、障害の発生が明らかな場合に、端末装置300に障害の発生を通知する。
尚、図2の例では、監視装置100に各データベースが設けられるものとしたが、これに限定されない。上述した各データベースは、監視装置100以外の装置に設けられていても良いし、上述した各データベースの一部が監視装置100以外の装置に設けられていても良い。
次に、図3を参照して、本実施形態の監視装置100のハードウェア構成について説明する。図3は、第一の実施形態の監視装置のハードウェア構成の一例を示す図である。
本実施形態の監視装置100は、それぞれバスBで相互に接続されている入力装置11、出力装置12、ドライブ装置13、補助記憶装置14、メモリ装置15、演算処理装置16及びインターフェース装置17を含む。
入力装置11は、各種の情報の入力を行うための装置であり、例えばキーボードやポインティングデバイス等により実現される。出力装置12は、各種の情報の出力を行うためものであり、例えばディスプレイ等により実現される。インターフェース装置17は、LANカード等を含み、ネットワークに接続する為に用いられる。
予兆検知処理部180等を実現する監視プログラムは、監視装置100を制御する各種プログラムの少なくとも一部である。監視プログラムは例えば記憶媒体18の配布やネットワークからのダウンロード等によって提供される。監視プログラムを記録した記憶媒体18は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的或いは磁気的に記録する記憶媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記憶媒体を用いることができる。
また、監視プログラムは、監視プログラムを記録した記憶媒体18がドライブ装置13にセットされると、記憶媒体18からドライブ装置13を介して補助記憶装置14にインストールされる。ネットワークからダウンロードされた監視プログラムは、インターフェース装置17を介して補助記憶装置14にインストールされる。
補助記憶装置14は、インストールされた監視プログラムを格納すると共に、上述した各データベース等の必要なファイル、データ等を格納する。メモリ装置15は、監視装置100の起動時に補助記憶装置14から監視プログラムを読み出して格納する。そして、演算処理装置16はメモリ装置15に格納された監視プログラムに従って、後述するような各種処理を実現している。
次に、図4乃至図9を参照して、監視装置100の有する各データベースについて説明する。
図4は、第一の実施形態の状態管理データベースの一例を示す図である。本実施形態の状態管理データベース110は、予兆検知処理部180によって、定期的に収集される勘定系システム200のシステム201~206の状態を示す状態情報が格納される。
本実施形態の状態管理データベース110は、情報の項目として、システム、サーバ、サービス、CPU使用率、メモリ、IO(Input/Output)、ロードアベレージ、ネットワーク本数、ファイルアクセス数、レスポンス、スループット、流量、時刻を有する。状態管理データベース110において、項目「システム」、「サーバ」、「サービス」と、その他の項目とは対応付けられており、状態管理データベース110において各項目の値を含む情報を状態情報と呼ぶ。
項目「システム」の値は、勘定系システム200に含まれるシステムを特定する情報を示すものであり、具体的には、例えば、システムの名称等である。項目「サーバ」の値は、システムに含まれるサーバを特定する情報であり、具体的には、例えば、サーバの名称等である。項目「サービス」の値は、システムが提供するサービスを特定する情報であり、具体的には、サービスの名称等である。
項目「CPU使用率」の値は、サーバがサービスを提供するため使用しているCPUの使用率を示す。項目「メモリ」には、項目「メモリ使用率」、「物理メモリ」、「仮想メモリ」を含む。項目「メモリ使用率」の値は、サーバがサービスを提供するために使用しているメモリの使用率を示す。項目「物理メモリ」、「仮想メモリ」の値は、対応するサーバがサービスを提供するために使用する物理メモリ、仮想メモリの容量である。
項目「IO」の値は、対応するサーバとデータのやりとりをしている他の装置の数を示す。項目「ロードアベレージ」の値は、システム全体の負荷を示す値である。項目「ネットワーク本数」の値は、対応するサーバと接続されているネットワークの本数を示す。
項目「ファイルアクセス数」の値は、サーバがアクセスしてイルファイルの数を示す。項目「レスポンス」の値は、サーバの応答速度を示す。項目「スループット」の値は、一定時間に処理できる情報量を示す。項目「流量」の値は、実行されている処理数(処理量)を示す。項目「時刻」の値は、状態情報が取得された時刻を示す。
尚、本実施形態では、項目「CPU使用率」、「メモリ」、「IO(Input/Output)」、「ロードアベレージ」、「ネットワーク本数」、「ファイルアクセス数」、「レスポンス」、「スループット」、「流量」の値は、対応するサービスを提供する場合におけるサーバの負荷状態を示す情報である。
したがって、本実施形態の状態情報は、システム、サービス及びサーバを示す情報と、このシステムがサービスを提供する際のサーバの負荷状態を示す情報と、を含む情報である。
図5は、第一の実施形態のシナリオデータベースの一例を示す図である。本実施形態のシナリオデータベース120は、予め監視装置100に与えられていても良い。
本実施形態のシナリオデータベース120は、情報の項目として、No.、シナリオ番号、シナリオ名、システム、サーバ、サービス、CPU使用率、メモリ、IO(Input/Output)、ロードアベレージ、ネットワーク本数、ファイルアクセス数、レスポンス、スループット、流量、影響、対処を有する。
ここで、シナリオデータベース120における、項目「システム」、「サーバ」、「サービス」、「CPU使用率」、「メモリ」、「IO(Input/Output)」、「ロードアベレージ」、「ネットワーク本数」、「ファイルアクセス数」、「レスポンス」、「スループット」、「流量」は状態情報に含まれる項目と同様である。
シナリオデータベース120において、項目「シナリオ番号」と、その他の項目とが対応付けられており、項目「シナリオ番号」の値と、その他の項目の値とを含む情報がシナリオ情報である。
項目「No.」の値は、シナリオ情報としてのレコード毎に付与される番号である。項目「シナリオ番号」の値は、シナリオ情報を特定するための識別子である。項目「シナリオ名」の値は、シナリオの名称を示す。
項目「影響」の値は、対応するシナリオ名が示すシナリオが発生した場合の勘定系システム200に対する影響を示す情報である。項目「対処」の値は、対応するシナリオ名が示すシナリオが発生した場合に推奨される対処法を示す情報である。
例えば、図5の例では、シナリオ番号「00001」の「振り込み大量バッチ処理」というシナリオが発生した場合、勘定系システム200には、「連携先サービス遅延により他行受付の遅れが発生する」と言う影響がでることがわかる。また、このときの対処として、「顧客優先度の低い振り込みデータを翌日処理とする」ことが推奨されることがわかる。
図6は、第一の実施形態の予兆管理データベースの一例を示す図である。本実施形態の予兆管理データベース130は、状態管理データベース110において、シナリオデータベース120に示すシナリオ情報と類似する状態情報が検出されると、この状態情報を含む予兆管理情報が格納される。
本実施形態の予兆管理データベース130は、情報の項目として、No.、発生日時、シナリオ番号、シナリオ名、システム、サーバ、サービス、CPU使用率、メモリ、IO(Input/Output)、ロードアベレージ、ネットワーク本数、ファイルアクセス数、レスポンス、スループット、流量、影響、対処を有する。
予兆管理データベース130では、項目「No.」及び項目「発生時刻」と、その他の項目とが対応付けられており、予兆管理データベース130において、各項目の値を含む情報を、予兆管理情報と呼ぶ。
予兆管理情報において、項目「発生日時」は、状態管理データベース110に格納された状態情報の項目「時刻」と対応している。また、予兆管理情報において、項目「システム」、「サーバ」、「サービス」、「CPU使用率」、「メモリ」、「IO(Input/Output)」、「ロードアベレージ」、「ネットワーク本数」、「ファイルアクセス数」、「レスポンス」、「スループット」、「流量」は状態情報に含まれる、負荷状態を示す情報である。
したがって、予兆管理情報は、状態情報に含まれる負荷状態を示す情報と、状態情報と類似していると判定されたシナリオ番号及びシナリオ名とを対応付けた情報である。
図7は、第一の実施形態のシナリオ影響データベースの一例を示す図である。本実施形態のシナリオ影響データベース140は、予め監視装置100に与えられており、シナリオ(障害の予兆)が発生した後の所定時間後の勘定系システム200の状態を示すシナリオ影響情報が格納される。
シナリオ影響データベース140は、情報の項目として、シナリオ番号、発生後時間、システム、サーバ、サービス、CPU使用率、メモリ、IO(Input/Output)、ロードアベレージ、ネットワーク本数、ファイルアクセス数、レスポンス、スループット、流量を有する。シナリオ影響データベース140において、各項目は互いに対応付けられており、シナリオ影響データベース140において、各項目の値を含む情報をシナリオ影響情報と呼ぶ。
項目「発生後時間」の値は、シナリオ番号と対応するシナリオが発生してから経過した時間を示す。本実施形態では、項目「発生後時間」の値は、1時間後、2時間後、というように示す。
シナリオ影響データベース140において、項目「システム」、「サーバ」、「サービス」、「CPU使用率」、「メモリ」、「IO(Input/Output)」、「ロードアベレージ」、「ネットワーク本数」、「ファイルアクセス数」、「レスポンス」、「スループット」、「流量」は状態管理データベース110の有する項目と同様である。
図7に示すシナリオ影響データベース140では、例えば、シナリオ番号「00001」で特定されるシナリオが発生した場合、シナリオの発生から1時間後のシステム201の状態、システム202の状態、シナリオの発生から2時間後のシステム201の状態、システム202の状態を示している。
図8は、第一の実施形態のサービス構成データベースの一例を示す図である。本実施形態のサービス構成データベース150は、予め監視装置100に設けられており、勘定系システム200の各システムが正常に動作しているときの状態を示す情報が格納される。
サービス構成データベース150は、情報の項目として、システム、サーバ、サービス、時限、業務優先度、CPU使用率、メモリ、IO(Input/Output)、ロードアベレージ、ネットワーク本数、ファイルアクセス数、レスポンス、スループット、最大流量を有する。サービス構成データベース150において、各項目は、互いに対応付けられており、サービス構成データベース150において、各項目の値を含む情報をサービス構成情報と呼ぶ。
項目「時限」の値は、対応するサービスを提供すべき時間を示す。項目「業務優先度」の値は、対応するサービスの業務における優先度を示す。
例えば、システム201のオンラインサービスと対応する項目「時限」の値は、8:00-15:30である。したがって、システム201のオンラインサービスは、8:00-15:30の間は、クライアント側が受けることができるサービスであり、業務優先度が高いことがわかる。
項目「最大流量」の値は、正常な状態において、一度に実行される処理数の最大値を示す。本実施形態では、状態情報において、項目「流量」の値が、項目「最大流量」の値よりも大きくなると、対応するサーバが過負荷であるものと見なされる。
この他の項目は、状態管理データベース110の有する項目と同様である。
図9は、第一の実施形態のサービス閾値データベースの一例を示す図である。本実施形態のサービス閾値データベース160は、監視装置100に予め設けられているものであり、サーバが正常な状態であるか否か等を判定する際に参照される。
サービス閾値データベース160は、情報の項目として、システム、サーバ、サービス、程度、CPU使用率、メモリ、IO(Input/Output)、ロードアベレージ、ネットワーク本数、ファイルアクセス数、レスポンス、スループット、流量を有する。サービス閾値データベース160において、各項目は、互いに対応付けられており、サービス閾値データベース160において、各項目の値を含む情報を閾値情報と呼ぶ。
項目「程度」の値は、サービスを提供するシステムの状態の程度を示す。その他の項目は、状態管理データベース110の有する項目と同様であり、各項目の値は、程度を判定するための閾値を示す。
本実施形態では、例えば、システム201のオンラインサーバによって提供される業務共通サービスでは、CPU使用率が125%以上となった場合等には、システム201の状態の程度は、「相当悪い」と評価される。
尚、本実施形態では、状態情報に含まれる項目「CPU使用率」、「メモリ」、「IO」、「ロードアベレージ」、「ネットワーク本数」、「ファイルアクセス数」、「レスポンス」、「スループット」、「流量」のうち、複数の項目の値が、閾値情報に含まれる閾値以上となったときに、サービスの進捗を対応する程度としても良い。
したがって、本実施形態では、例えば、システム201のオンラインサーバによって提供される業務共通サービスと対応するCPU使用率、メモリ使用率、流量の全てが、程度「悪い」を含む閾値情報に含まれる閾値以上となった場合に、システム201の状態の程度は、「悪い」と評価されても良い。
尚、システムの状態の程度とは、例えば、システムによるサービスの提供状況を示すものであっても良い。例えば、本実施形態では、システムの状態の程度が正常である場合には、サービスを滞りなく提供できる状態を示し、システムの状態の程度が悪い場合や相当悪い場合は、サービスの提供が滞る状態を示す。
また、図9では示していないが、サービス閾値データベース160には、システムの状態の程度に応じて、システムが提供するサービスに対する影響の程度を示す画像の画像データが格納されていてもよい。
次に、図10を参照して、本実施形態の監視装置100の予兆検知処理部180の機能について説明する。
図10は、第一の実施形態の予兆検知処理部の機能を説明する図である。本実施形態の予兆検知処理部180は、監視装置100の演算処理装置16が、補助記憶装置14やメモリ装置15等に格納された監視プログラムを実行することで実現される。
本実施形態の予兆検知処理部180は、情報取得部181、シナリオ特定部182、性能取得部183、影響程度評価部184、出力部185を有する、
本実施形態の情報取得部181は、状態管理データベース110から状態情報を取得する。シナリオ特定部182は、シナリオデータベース120を参照し、情報取得部181が取得した状態情報と類似するシナリオ情報が存在するか否か判定し、該当するシナリオ情報が存在する場合には、該当するシナリオ情報を特定する。また、シナリオ特定部182は、類似するシナリオ情報が存在した場合、この状態情報を含む予兆管理情報を予兆管理データベース130に格納する。
性能取得部183は、サービス構成データベース150を参照し、予兆管理情報に含まれるシステムの正常な状態を示すサービス構成情報を取得する。
影響程度評価部184は、予兆管理情報から予兆が検知されたシナリオのシナリオ影響情報を抽出する。そして、影響程度評価部184は、シナリオ影響情報と、サービス構成情報と、サービス閾値データベース160とから、予兆が検知されたシナリオが発生した場合の勘定系システム200に対する影響を、サービス毎に評価する。影響程度評価部184の処理の詳細は後述する。
出力部185は、影響程度評価部184による評価結果を端末装置300等に出力する。
以下に、図11を参照して、本実施形態の監視装置100の処理について説明する。図11は、第一の実施形態の監視装置の処理を説明する第一のフローチャートである。図11に示す処理は、予兆管理データベース130に予兆管理情報を格納する処理であり、予兆検知処理部180は、勘定系システム200が起動している場合は、図11に示す処理を定期的に実行する。
本実施形態の予兆検知処理部180は、情報取得部181により、勘定系システム200に含まれる各システムによって提供されるサービス毎に、システムの状態情報を取得し、状態管理データベース110に格納する(ステップS1101)。
続いて、予兆検知処理部180は、シナリオ特定部182により、状態管理データベース110に状態情報が格納されたあるサービスを選択する(ステップS1102)。続いて、シナリオ特定部182は、状態情報において、選択したサービスと、このサービスと対応するシステム、サーバと、をキーとしてシナリオデータベース120を検索する(ステップS1103)。
続いて、シナリオ特定部182は、シナリオデータベース120に、選択されたサービスと対応する状態情報と一致率が所定の値以上となるシナリオ情報が存在するか否かを判定する(ステップS1104)。
具体的には、シナリオ特定部182は、状態情報に含まれる複数の項目の値と、シナリオ情報における対応する項目の値との差分が、所定の範囲内であった場合に、この状態情報とシナリオ情報との一致率が所定の値以上であるものとしてもよい。
また、シナリオ特定部182は、例えば、状態情報に含まれるサーバの負荷状態を示す全ての項目の値と、シナリオ情報に含まれる対応する項目の値との差分が所定の範囲内である場合に、この状態情報とシナリオ情報の一致率が所定の値以上と判定して良い。また、一致率は、例えば、シナリオ情報に含まれる負荷状態を示す項目の値と、状態情報に含まれる負荷状態を示す項目の値と、の差分の大きさによって算出されても良い。一致率の算出の方法は、状態情報とシナリオ情報とに基づき算出される方法であれば、どのような方法で合っても良い。
ステップS1104において、一致率が所定の値以上のシナリオ情報が存在しない場合、予兆検知処理部180は、後述するステップS1106へ進む。
ステップS1104において、一致率が所定の値以上のシナリオ情報が存在する場合、シナリオ特定部182は、状態情報とシナリオ情報とから、予兆管理情報を生成し、予兆管理データベース130に格納する(ステップS1105)。
より具体的には、シナリオ特定部182は、状態情報に含まれる負荷状態を示す情報と、状態情報と類似していると判定されたシナリオ情報に含まれるシナリオ番号及びシナリオ名とを対応付けて予兆管理情報とし、予兆管理データベース130に格納する。
続いて、予兆検知処理部180は、ステップS1101で状態情報を取得して全てのサービスについて、ステップS1102以降の処理を実行したか否かを判定する(ステップS1106)。ステップS1106において、全てのサービスについて処理を実行していない場合、予兆検知処理部180は、ステップS1102に戻り、次のサービスを選択する。
ステップS1106において、全てのサービスについて処理を実行した場合、予兆検知処理部180は、勘定系システム200の停止指示を受け付けたか否かを判定する(ステップS1107)。ステップS1107において、停止指示を受け付けていない場合、予兆検知処理部180は、ステップS1101へ戻る。ステップS1107において、停止指示を受け付けた場合、予兆検知処理部180は、処理を終了する。
このように、本実施形態では、状態情報とシナリオ情報の一致率が所定の値以上となることを所定の条件とし、勘定系システム200に含まれる各システムのサーバの負荷状態が所定の条件と合致することを検知する。
次に、図12を参照して、影響程度評価部184の処理について説明する。図12は、第一の実施形態の監視装置の処理を説明する第二のフローチャートである。
図12に示す処理は、影響程度評価部184の処理を説明するフローチャートであり、予兆管理データベース130に予兆管理情報が格納される度に実行されても良いし、定期的に実行されても良い。また、図12の処理は、評価結果の出力要求を受けて、実行されても良い。
本実施形態の予兆検知処理部180は、影響程度評価部184により、予兆管理データベース130に格納された予兆管理情報を取得する(ステップS1201)。続いて、影響程度評価部184は、シナリオ影響データベース140を参照し、予兆管理情報に含まれるシナリオ番号と一致するシナリオ番号を含むシナリオ影響情報を抽出する(ステップS1202)。
続いて、影響程度評価部184は、抽出したシナリオ影響情報に含まれるサービスを選択する(ステップS1203)。具体的には、影響程度評価部184は、例えば、異なるサービスの名称を含む複数のシナリオ影響情報が抽出された場合、あるサービスの名称を含むシナリオ影響情報を選択する。また、影響程度評価部184は、抽出されたシナリオ影響情報のうち、発生後時間が短いものから順に、シナリオ影響情報を選択しても良い。
続いて、影響程度評価部184は、サービス構成データベース150から、選択されたサービスと対応するサービス構成情報を取得する(ステップS1204)。続いて、影響程度評価部184は、選択されたサービスの名称を含むシナリオ影響情報と、サービス構成情報とを比較し、さらにサービス閾値データベース160を参照して、選択されたサービスを提供するためのサーバの負荷状態の程度を評価する(ステップS1205)。
続いて、影響程度評価部184は、ステップS1202で抽出されたシナリオ影響情報のうち、項目「発生後時間」の値が同一のシナリオ影響情報に含まれる全てのサービスについて、ステップS1203からステップS1205までの処理を行ったか否かを判定する(ステップS1206)。ステップS1206において、該当する処理を実行していない場合、影響程度評価部184は、ステップS1203に戻る。
ステップS1206において、該当する処理が実行された場合、影響程度評価部184は、シナリオ影響情報に含まれる発生後時間毎に、ステップS1206までの処理を実行したか否かを判定する(ステップS1207)。
ステップS1207において、該当する処理を実行していない場合、影響程度評価部184は、抽出されたシナリオ影響情報のうち、次の発生後時間のシナリオ影響情報を抽出し(ステップS1208)、ステップS1203へ戻る。
ステップS1207において、該当する処理が実行された場合、予兆検知処理部180は、出力部185により、評価結果を出力し(ステップS1209)、処理を終了する。具体的には、出力部185は、評価結果を示す画面を表示させるための情報を端末装置300に出力しても良い。
以下に、本実施形態の影響程度評価部184の処理を具体的に説明する。以下の説明では、状態管理データベース110に格納されたシステム202のバッチサーバにより提供されるファイル取り込みサービスと対応する状態情報41(図4参照)が、シナリオデータベース120に格納されたシナリオ情報51(図5参照)との一致率が所定の値以上であるものとして、説明する。言い換えれば、状態情報41に含まれる負荷状態を示す情報は、シナリオ情報51のシナリオ番号とシナリオ名と対応付けられて、予兆管理情報61(図6参照)として、予兆管理データベース130に格納されている。
この場合、影響程度評価部184は、シナリオ影響データベース140を参照し、シナリオ情報51に含まれるシナリオ番号「00001」を含むシナリオ影響情報を抽出する。ここでは、例えば、シナリオ番号「00001」を含むシナリオ影響情報として、項目「発生後時間」の値が1時間のシナリオ影響情報群71と、項目「発生後時間」の値が2時間のシナリオ影響情報群72と、が抽出される(図7参照)。
次に、影響程度評価部184は、シナリオ影響情報群71に含まれる、あるサービスの名称を含むシナリオ影響情報を選択する。ここでは、例えば、システム201のオンラインサーバにより提供されるホスト連携サービスと対応したシナリオ影響情報が選択される。
次に、影響程度評価部184は、サービス構成データベース150を参照し、システム201のオンラインサーバにより提供されるホスト連携サービスのサービス構成情報81を抽出する(図8参照)。
続いて、影響程度評価部184は、選択されたシナリオ影響情報と、サービス構成情報81とを比較する。そして、影響程度評価部184は、サービス閾値データベース160に格納された、システム201のオンラインサーバにより提供されるホスト連携サービスの閾値情報91を参照し(図9参照)、シナリオ番号「00001」のシナリオ(事象)が発生後1時間経過したときの、システム201のオンラインサーバにより提供されるホスト連携サービスの状態の程度を示す情報を取得する。
影響程度評価部184は、この処理を、シナリオ影響情報群71に含まれる全てのシナリオ影響情報に行うと、次に、シナリオ影響情報群72を抽出し、同様の処理を行う。
そして、予兆検知処理部180は、抽出された全てのシナリオ影響情報に対して、サービスの状態の程度を取得すると、出力部185により、取得した情報を時間帯毎の予測結果として端末装置300に表示させる。
以下に、図13を参照して、端末装置300の表示例について説明する。図13は、第一の実施形態の端末装置の表示例を示す図である。
図13(A)の画面131は、シナリオ番号「00001」のシナリオ(事象)の予兆が検知された場合の勘定系システム200の影響の予測結果が表示された画面の例である。また、図13(B)に示す画面131Aは、予兆が検知されたシナリオに対する対処法が表示された画面の例である。
画面131は、表示欄132、133、134を有する。表示欄132は、予兆検知処理部180による予測結果が表示される。表示欄133は、予兆が検知されたシナリオを通知するメッセージが表示される。表示欄134は、勘定系システム200の各システムのログを示す情報が表示される。
表示欄132には、勘定系システム200に含まれる各システムについて、所定時間毎の各システムが提供するサービスの状態の程度を示す画像が表示される。具体的には、表示欄132には、表示欄135、136が含まれる。
表示欄135は、システム201によって提供される各サービスの所定時間毎の状態の程度を示す画像が表示されており、表示欄136には、システム202によって提供される各サービスの所定時間毎の状態の程度を示す画像が表示されている。尚、本実施形態では、所定時間毎を1時間毎としている。この所定時間の区切り方は、発生後時間の区切り方と一致している。つまり、シナリオ影響データベース140において、項目「発生後時間」の値が1時間毎とされていた場合、表示欄132に表示される所定時間毎は、1時間毎となる。
画面131の表示欄135、136では、それぞれに、システム201とシステム202によって提供される3つのサービスについて、所定時間毎の状態の程度を示す画像が表示されている。本実施形態では、例えば、システムの状態が正常であり、サービスの提供に影響を及ぼさない場合には、笑顔の画像を表示させる。サービスの提供に影響を及ぼさない場合とは、言い換えれば、システムによってサービスが滞りなく提供される場合である。
また、本実施形態では、例えば、システムの状態の程度が「悪い」と評価された場合、無表情の顔の画像を表示させ、システムの状態の程度が「相当悪い」と評価された場合、怒った顔の画像を表示させる。
また、表示欄135、136では、発生後時間が最も短い時間と対応する画像を、発生後時間が長い時間と対応する画像より大きく表示させる。
画面131の表示欄135によれば、システム201によって提供される3つのサービスは、シナリオ番号「00001」のシナリオが発生してから1時間後と対応する画像は、笑顔の画像である。したがって、これらのサービスは、シナリオ発生から1時間後までは、滞りなく提供されることがわかる。
また、システム201によって提供される3つのサービスは、シナリオが発生してから2時間後から4時間後までは各発生後時間と対応する画像が、無表情の顔の画像が表示されている。したがって、これらのサービスは、シナリオ発生から2時間後には、提供が滞りはじめることがわかる。つまり、これらのサービスは、シナリオ番号「00001」のシナリオが発生した2時間後から影響が出始めることがわかる。
また、システム201によって提供される3つのサービスは、シナリオが発生してから5時間後と対応する画像は、怒った顔の画像となっている。つまり、これらのサービスは、シナリオ番号「00001」のシナリオが発生した5時間後には、影響画大きくなることがわかる。
つまり、画面131では、勘定系システム200の有する各システムによって処理される複数の業務(サービス)毎に、予測される各業務の進捗状況と対応する画像が表示される。
同様に、表示欄136によれば、システム202によって提供される3つのサービスのうち、ファイル取り込みサービス以外の2つのサービスは、シナリオが発生してから2時間後までは、各発生後時間と対応する画像は笑顔のマークである。よって、これらのサービスは、シナリオが発生してから2時間後までは、滞りなく提供されることがわかる。
また、システム202によって提供されるファイル取り込みサービスでは、シナリオが発生してから1時間後と対応する画像が、怒った顔のマークとなっている。したがって、ファイル取り込みサービスは、シナリオ番号「00001」のシナリオが発生すると、直ちに大きな影響を受けることがわかる。
さらに、表示欄136では、シナリオの発生から4時間後には、システム202が提供する3つのサービスの全てにおいて、発生後時間と対応する画像画怒った顔の画像となっている。したがって、システム202は、シナリオ番号「00001」のシナリオが発生した場合、システム201よりも状態の程度が悪くなり、サービスの提供が滞ることがわかる。
また、本実施形態では、表示欄133に表示されたメッセージが選択されると、画面131が画面131Aに遷移する。画面131Aでは、表示欄133のメッセージにより通知されたシナリオに対する対処法が表示される表示欄137が表示される。
具体的には、画面131において表示欄133がクリックやタップ等の操作により選択されると、出力部185は、予兆管理データベース130において、シナリオ番号と対応する項目「対処」の値を表示した表示欄137を表示させる。
また、図13では図示していないが、本実施形態では、例えば、表示欄133が選択されたとき、予兆管理データベース130における項目「影響」の値を表示させてもよい。
このように、本実施形態によれば、勘定系システム200において、シナリオ番号「00001」のシナリオが発生すると、システム201では、発生から2時間が経過した頃から影響がではじめ、状態の程度が悪化することがわかる。また、本実施形態によれば、システム202は、発生から1時間経過した頃には、状態の程度が相当悪化することがわかる。
さらに、本実施形態では、シナリオ番号「00001」のシナリオが発生した場合に、「顧客優先度の低い振り込みデータを翌日の処理にする」と言う対処法が推奨されていることがわかる。
尚、画面131Aの表示欄137では、1つの対処法が表示されているが、対処法が複数存在する場合には、優先度の高い対処法から順に表示されても良い。対処法の優先度は、例えば、シナリオデータベース120の項目「対処」において、対処法毎に付与されていても良い。
尚、本実施形態では、勘定系システム200の有する各システムの状態の程度を示す画像を、顔の表情を示すマークとしたが、これに限定されない。本実施形態では、各システムの状態の程度に応じて、程度の良し悪しが判別できるような画像を発生後時間と対応付けて表示させれば良い。
言い換えれば、本実施形態では、システムのサーバの負荷が適正であり、滞りなくサービスが提供される場合と、システムのサーバの負荷が大きく、サービスの提供が滞る場合とで、対応づける画像の表示態様を異ならせれば良い。
このように、本実施形態では、シナリオの予兆が検知されると、このシナリオが発生した後に、このシナリオが勘定系システム200に含まれる各システムによるサービスの提供が、どのように滞っていくかを通知することができる。したがって、本実施形態によれば、事象がシステムに及ぼす影響の範囲を可視化することができる。
(第二の実施形態)
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、システムの状態が正常な状態とは異なる状態となることをシナリオ(事象)として検知する点が、第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
図14は、第二の実施形態の監視装置を説明する図である。本実施形態の監視装置100Aは、状態管理データベース110、サービス構成データベース150、サービス閾値データベース160、影響管理データベース210、サービス間関係データベース220、メッセージデータベース230、監視処理部170、状態解析部175、予兆検知処理部180A、通知処理部190を有する。
影響管理データベース210は、システムの状態がサービス構成データベース150に格納されたサービス構成情報が示す状態と異なる状態となった場合に、このシステムのサーバの負荷状態を示す情報が影響管理情報として格納される。
サービス間関係データベース220は、サービス間の関係を示す関係情報が格納される。メッセージデータベース230は、事象に応じて表示させるメッセージが格納される。
本実施形態の予兆検知処理部180Aは、状態管理データベース110に格納された状態情報と、サービス構成データベース150に格納されたサービス構成情報とを比較し、システムの状態が正常であるか否かを判定する。そして、予兆検知処理部180Aは、状態が正常でないシステムが存在する場合に、そのシステムの状態が勘定系システム200に及ぼす影響の範囲を可視化する。
以下に、図15乃至図17を参照し、影響管理データベース210、サービス間関係データベース220、メッセージデータベース230について説明する。
図15は、第二の実施形態の影響管理データベースの一例を示す図である。本実施形態の影響管理データベース210は、情報の項目として、シナリオ番号、発生後時間、システム、サーバ、サービス、CPU使用率、メモリ、IO、ロードアベレージ、ネットワーク本数、ファイルアクセス数、レスポンス、スループット、流量、事象(シナリオ)、リソースを有する。
項目「シナリオ番号」、「発生後時間」、「システム」、「サーバ」、「サービス」、「CPU使用率」、「メモリ」、「IO」、「ロードアベレージ」、「ネットワーク本数」、「ファイルアクセス数」、「レスポンス」、「スループット」、「流量」は、図7のシナリオ影響データベース140が有する項目と同様である。
項目「事象」の値は、対応付けられた各項目の値が示すサーバの負荷状態と対応する事象を示す。項目「リソース」の値は、対応する事象を解消させるために必要とされるリソースを示す。
以下の説明では、影響管理データベース210において、各項目の値を含む情報を、影響管理情報と呼ぶ。影響管理情報は、例えば、状態情報が示す負荷情報が、サービス構成情報が示す負荷状態を超えると判定された場合等において、状態情報に含まれる負荷状態を示す情報に、シナリオ番号と発生後時間と事象とを対応付けて生成され、影響管理データベース210に格納される。
図16は、第二の実施形態のサービス間関係データベースの一例を示す図である。本実施形態のサービス間関係データベース220は、情報の項目として、No.、システム、サーバ、サービス、後続システム、後続サーバ、後続サービス、連携方法、連携割合、タイムラグを有する。
項目「No.」の値は、レコード毎に付与される識別子である。項目「システム」、「サーバ」、「サービス」の値は、他のデータベースと同様である。
項目「後続システム」の値は、項目「システム」の値が示すシステムの後段で処理を実行するシステムを示す。項目「後続サーバ」の値は、項目「サーバ」の値が示すサーバの後段で処理を実行するサーバを示す。言い換えれば、項目「後続サーバ」の値は、後続システムが有するサーバの一つである。
項目「後続サービス」の値は、項目「サービス」の値が示すサービスの後段に提供されるサービスを示す。
項目「連携方法」の値は、項目「システム」の値が示すシステムと、項目「後続システム」の値が示すシステムとを連携させる方法を示す。
項目「連携割合」の値は、項目「システム」の値が示すシステムが実行する処理数二対する、項目「後続システム」の値が示すシステムによる処理が後段で実行される処理数の割合を示す。
項目「タイムラグ」の値は、項目「システム」の値が示すシステムと、項目「後続システム」の値が示すシステムとの連携にかかる時間を示す。言い換えれば、項目「タイムラグ」の値は、項目「システム」の値が示すシステムによって処理が実行されてから、項目「後続システム」の値が示すシステムで、この処理の後段の処理の実行が開始されるまでの時間を示す。
図16の例では、システム201のオンラインサーバによって提供される外部連携サービスは、同じシステム201のオンラインサーバにより提供される営業店連携サービスと連携される。言い換えれば、システム201のオンラインサーバは、外部連携サービスを実現する処理を実行した後に、営業店連携サービスを実現する処理を実行する。
図17は、第二の実施形態のメッセージデータベースの一例を示す図である。本実施形態のメッセージデータベース230は、情報の項目として、事象とメッセージとを有する。項目「事象」の値は、影響管理情報に含まれる負荷状態を示す情報と対応する事象を示す。項目「メッセージ」の値は、事象と対応して表示させるメッセージを示す。
次に、図18を参照して、本実施形態の予兆検知処理部180Aの機能について説明する。図18は、第二の実施形態の予兆検知処理部の機能を説明する図である。
本実施形態の予兆検知処理部180Aは、情報取得部181、性能取得部183、影響程度評価部184、出力部185、性能比較部191、終了時間算出部192、後続サービス特定部193、タイムラグ算出部194、流量算出部195、リソース算出部196、情報保持部197を有する。
性能比較部191は、状態情報とサービス構成情報とを比較する。終了時間算出部192は、性能比較部191による比較結果に基づき、サービスや後続サービスの提供の終了時間を算出する。後続サービス特定部193は、サービス間関係データベース220を参照し、サービス構成情報と比較された状態情報が示すサービスの後続サービスを特定する。
タイムラグ算出部194は、特定された後続サービスによりサービスを提供する場合の発生後時間毎のタイムラグを算出する。流量算出部195は、後続サービスの現在の流量を算出する。
リソース算出部196は、終了時間算出部192により、サービス構成データベース150において予め決められた時限内にサービスの提供を終了するために必要なリソースを算出する。情報保持部197は、後続サービスについて算出した情報を保持する。
次に、図19及び図20を参照して、本実施形態の監視装置100Aの動作について説明する。
図19は、第二の実施形態の監視装置の処理を説明する第一のフローチャートである。
本実施形態の予兆検知処理部180Aは、情報取得部181により、状態管理データベース110より、監視対象のシステムの状態情報を抽出する(ステップS1901)。続いて、予兆検知処理部180Aは、性能取得部183により、抽出した状態情報に含まれるサービスを選択する(ステップS1902)。
次に、性能取得部183は、サービス構成データベース150を参照し(ステップS1903)、性能比較部191により、ステップS1902で選択されたサービスを含む状態情報が、このサービスのサービス構成情報が示す状態を超えるか否かを判定する(ステップS1904)。言い換えれば、性能比較部191は、選択されたサービスと対応する状態情報が示すサーバの負荷が、選択されたサービスと対応するサービス構成情報が示すサーバの負荷よりも大きいか否かを判定する。
ステップS1904において、状態情報が示すサーバの負荷が、サービス構成情報が示すサーバの負荷以下である場合、性能比較部191は、サーバの負荷状態が正常であると判定し、予兆検知処理部180Aは、後述するステップS1918へ進む。
つまり、本実施形態では、勘定系システム200に含まれる各システムのサーバの負荷状態が、正常の状態を示す負荷状態よりも過負荷となることを所定の条件とし、各システムのサーバの負荷状態が所定の条件と合致することを検知する。
ステップS1904において、状態情報が示すサーバの負荷が、サービス構成情報が示すサーバの負荷より大きい場合、予兆検知処理部180Aは、終了時間算出部192により、選択されたサービスと対応する状態情報に含まれる現在の流量から、サービスの提供が終了する時間を算出する(ステップS1905)。
より具体的には、終了時間算出部192は、状態情報の項目「流量」の値から、サーバがサービスを提供するために実行すべき全ての処理の実行を完了するときの時間を算出する。
そして、終了時間算出部192は、サーバが提供すべきサービスが、予め決められた時限内に完了するか否かを判定する(ステップS1906)。具体的には、終了時間算出部192は、現在時刻と、算出された時間とから、サーバが全ての処理の実行が完了する時刻が、サービス構成情報に含まれる項目「時限」の値が示す時限内であるか否かを判定する。
ステップS1906において、時限内にサービスの提供が終了する場合、予兆検知処理部180Aは、後述するステップS1918へ進む。
ステップS1906において、時限内にサービスの提供が終了しない場合、予兆検知処理部180Aは、この状態情報に、項目「シナリオ番号」、「発生後時間」、「事象」の値を対応付けて影響管理情報とし、影響管理データベース210に格納する(ステップS1907)。
尚、本実施形態では、例えば、状態情報とサービス構成情報との比較結果と、事象と、を対応付けたデータベースを参照して、影響管理情報に含める事象を特定しても良い。
続いて、予兆検知処理部180Aは、後続サービス特定部193により、サービス間関係データベース220を参照し、影響管理データベース210に格納された影響管理情報に含まれるサービスの後続サービスを特定する(ステップS1908)。ここで、後続サービス特定部193は、エンドポイントになるまでの後続サービスを特定する。したがって、影響管理情報に含まれるサービスの次にあるサービスが後続し、さらに、あるサービスに続くサービスが存在する場合、後続サービス特定部193は、あるサービスと、あるサービスに続くサービスとを後続サービスとして特定する。
続いて、予兆検知処理部180Aは、タイムラグ算出部194により、サービス間関係データベース220を参照し、所定時間毎の後続サービスのタイムラグを算出する(ステップS1909)。
尚、ここでの所定時間は、影響管理データベース210における項目「発生後時間」の単位と同様である。例えば、影響管理データベース210における項目「発生後時間」の値を1時間毎とする場合、ここでの所定時間は1時間となる。
タイムラグ算出部194は、具体的には、例えば、所定時間の間に後続サービスへ渡される処理数を算出する。そして、タイムラグ算出部194は、サービス間関係データベース220の関係情報に含まれる項目「タイムラグ」の値と、後続サービスへ渡される処理数とから、所定時間毎のタイムラグを算出する。
続いて、予兆検知処理部180Aは、流量算出部195により、サービス間関係データベース220を参照し、特定された後続サービスの流量を算出する(ステップS1910)。具体的には、流量算出部195は、ステップS1902で選択されたサービスと対応する状態情報に含まれる流量と、関係情報に含まれる連携割合とを用いて、現在の後続サービスの流量を算出する。
続いて、流量算出部195は、サービス構成データベース150を参照し、後続サービスと対応するサービス構成情報から流量の値を取得する(ステップS1911)。言い換えれば、流量算出部195は、後続サービスと対応するサービス構成情報から、後続サービスを提供するサーバにおいて、想定される流量の値を取得する。
続いて、予兆検知処理部180Aは、終了時間算出部192により、後続サービスの提供が設定された時限内に終了するか否かを判定する(ステップS1912)。具体的には、終了時間算出部192は、ステップS1909で算出された所定時間毎のタイムラグと、ステップS1910で算出された後続サービスの流量と、ステップS1911で取得された後続サービスの流量と、に基づき、後続サービスの提供が時限内に完了するか否かを判定する。
後続サービスの提供が時限内に終了する場合(ステップS1913)、予兆検知処理部180Aは、後述するステップS1918へ進む。
ステップS1913において、後続サービスの提供が時限内に終了しない場合、予兆検知処理部180Aは、リソース算出部196により、時限内に後続サービスの提供を完了させるために必要となるリソースを算出する(ステップS1914)。具体的には、リソース算出部196は、例えば、後続サービスの状態情報とサービス構成情報とを参照し、後続サービスの提供を時限内に終了させるために要求されるサーバのハードウェアの性能を算出したりする。また、リソース算出部196は、ハードウェアのリソースを向上させても、後続サービスの提供を時限内に終了させることができない場合には、人的なリソースも含めたリソースを算出する。
続いて、予兆検知処理部180Aは、情報保持部197により算出されたリソースを保持しておく(ステップS1915)。
続いて、予兆検知処理部180Aは、後続サービス特定部193により特定された全ての後続サービスについて、ステップS1915までの処理を実行したか否かを判定する(ステップS1916)。ステップS1916において、全ての後続サービスについて処理を行っていない場合、予兆検知処理部180Aは、ステップS1908へ戻る。
ステップS1916において、全ての後続サービスについて処理を行った場合、予兆検知処理部180Aは、情報保持部197により、保持しているリソースを、影響管理データベース210に格納された影響管理情報の項目「リソース」の値として格納する(ステップS1917)。
続いて、予兆検知処理部180Aは、ステップS1901で抽出された状態情報と対応する全てにサービスについて、ステップS1917までの処理を実行したか否かを判定する(ステップS1918)。ステップS1918において、全てのサービスについて処理が実行されていない場合、予兆検知処理部180Aは、ステップS1902に戻る。
ステップS1918について、全てのサービスについて処理が実行されていた場合、予兆検知処理部180Aは、処理の停止指示を受け付けたか否かを判定する(ステップS1919)。ステップS1919において、処理の停止指示を受け付けない場合、予兆検知処理部180Aは、ステップS1901へ戻る。
ステップS1919において、処理の停止指示を受け付けた場合、予兆検知処理部180Aは、処理を終了する。
本実施形態の予兆検知処理部180Aでは、以上のようにして、影響管理データベース210に格納される影響管理情報を生成して格納している。
尚、本実施形態の予兆検知処理部180Aは、発生後時間毎に、影響管理情報を生成して影響管理データベース210に格納しても良い。つまり、本実施形態の影響管理データベース210には、シナリオ番号が同一であり、発生後時間が異なる影響管理情報が格納されていても良い。
次に、図20を参照して、本実施形態の影響程度評価部184の処理について説明する。図20は、第二の実施形態の監視装置の処理を説明する第二のフローチャートである。
本実施形態の予兆検知処理部180Aは、影響程度評価部184により、影響管理データベース210を参照し、影響管理情報を抽出する(ステップS2001)。
図20のステップS2002からステップS2004までの処理は、図12のステップS1203からステップS1205までの処理と同様であるから、説明を省略する。
ステップS2004に続いて、影響程度評価部184は、ステップS2001で抽出され影響管理情報のうち、項目「発生後時間」の値が同一の影響管理情報に含まれる全てのサービスについて、ステップS2002からステップS2004までの処理を行ったか否かを判定する(ステップS2005)。ステップS2005において、該当する処理を実行していない場合、影響程度評価部184は、ステップS2002に戻る。
ステップS2005において、該当する全ての処理を実行した場合、影響程度評価部184は、影響管理情報に含まれる発生後時間毎に、ステップS2005までの処理を実行したか否かを判定する(ステップS2006)。
ステップS2006において、該当する処理を実行していない場合、影響程度評価部184は、次の発生後時間の影響管理情報を抽出し(ステップS2007)、ステップS2002へ戻る。
ステップS2006において、該当する処理が実行された場合、予兆検知処理部180Aは、出力部185により、評価結果を出力し(ステップS2008)、処理を終了する。
図21は、第二の実施形態の端末装置の表示例を示す図である。図21(A)の画面211は、システム201の負荷が正常の状態よりも大きくなった場合の勘定系システム200の影響の予測結果が表示された画面の例である。また、図21(B)に示す画面211Aは、対処法が表示された画面の例である。
画面211は、表示欄212、213、214を有する。表示欄212は、予兆検知処理部180Aによる予測結果が表示される。表示欄213は、検知された事象を通知するメッセージが表示される。表示欄214は、勘定系システム200の各システムのログを示す情報が表示される。
表示欄212には、図13の表示欄132と同様に、勘定系システム200に含まれる各システムについて、所定時間毎の各システムが提供するサービスの状態の程度を示す画像が表示される。また、表示欄212には、表示欄215、216が含まれる。
表示欄215は、システム201によって提供される各サービスの所定時間毎の状態の程度を示す画像が表示されており、表示欄216には、システム202によって提供される各サービスの所定時間毎の状態の程度を示す画像が表示されている。
画面211の表示欄215、216では、図13の表示欄135、136と同様に、それぞれに、システム201とシステム202によって提供される3つのサービスについて、所定時間毎の状態の程度を示す画像が表示されている。
画面211によれば、表示欄136において、システム202によって提供される3つのサービスのうち、外部連携サービス以外の2つのサービスは、システム202の負荷が正常よりも大きくなったことが検知されてから2時間後までは、各発生後時間と対応する画像は笑顔のマークである。よって、これらのサービスは、シナリオが発生してから2時間後までは、滞りなく提供されることがわかる。
また、システム202によって提供される外部連携サービスではシステム202の負荷が正常よりも大きくなったことが検知されてから1時間後と対応する画像が、怒った顔のマークとなっている。したがって、外部連携サービスは、シナリオ番号「00001」の事象が発生すると、直ちに大きな影響を受けることがわかる。
また、本実施形態では、表示欄213に表示されたメッセージが選択されると、画面211が画面211Aに遷移する。画面211Aでは、表示欄213のメッセージにより通知された事象に対する対処法が表示される表示欄217が表示される。
具体的には、画面211において表示欄213がクリックやタップ等の操作により選択されると、出力部185は、メッセージ217aとメッセージ217bとが表示された表示欄217を表示させる。
メッセージ217aは、メッセージデータベース230において、影響管理情報のシナリオ番号と対応する項目「事象」と対応するメッセージである。また、メッセージ217bは、影響管理情報に含まれる項目「リソース」の値を示すメッセージである。
本実施形態では、表示欄217に、2つのメッセージを表示させることで、現在、勘定系システム200において発生している事象と、その事象に対する対処法を通知することができる。
以上のように、本実施形態では、勘定系システム200に含まれるシステムがサービスを提供する際のサーバの負荷が、正常とされる状態における負荷よりも大きくなる、という事象が検知されると、この事象が勘定系システム200に及ぼす影響を可視化できる。言い換えれば、本実施形態では、勘定系システム200に含まれるシステムのサーバのうち、少なくとも1つのサーバにおいて、所定の条件に合致する負荷状態を検知した場合、負荷状態を検知した時刻と検知した負荷状態に基づき、発生する可能性のある障害シナリオ(事象)を特定する。そして、特定されたシナリオが勘定系システム200に与える影響を予測し、所定の時間毎の勘定系システム200に含まれる各システムが提供するサービス毎に、影響を予測した結果を出力している。
また、本実施形態では、検知された事象と、事象に対する対処法を通知することができる。
開示の技術では、以下に記載する付記のような形態が考えられる。
(付記1)
複数の情報処理装置が連携して複数種類の業務を処理するシステムにおいて前記複数の情報処理装置を監視して、前記複数の情報処理装置の少なくとも1つの情報処理装置で、所定の条件を満たす負荷状態を検知した場合、前記負荷状態を検知した時刻、及び検出した前記負荷状態に基づき発生する可能性のあるシナリオを特定し、
特定した前記時刻と前記シナリオに基づいて、前記システムで処理する前記複数種類の業務それぞれに対する障害予測の結果を出力する、処理をコンピュータに実行させることを特徴とする情報処理プログラム。
(付記2)
前記所定の条件を示す負荷状態と、前記シナリオとが対応付けられた記憶部を参照し、
前記記憶部を参照して、前記負荷状態が前記所定の条件を満たしたときの前記シナリオを特定する、処理を前記コンピュータに実行させる、ことを特徴とする付記1記載の情報処理プログラム。
(付記3)
前記システムにおける前記複数種類の業務毎に、前記複数の情報処理装置の負荷状態を示す情報が格納された記憶部を参照し、
前記複数の情報処理装置の少なくとも1つの情報処理装置の負荷が、前記記憶部に格納された前記情報が示す負荷よりも大きくなったとき、前記所定の条件を満たす負荷状態を検知したものとする、処理を前記コンピュータに実行させる、ことを特徴とする付記1記載の情報処理プログラム。
(付記4)
前記障害予測の結果は、
前記時刻からの時間帯毎に、前記システムで処理する前記複数種類の業務について、各業務の予測される進捗状況と対応する画像として表示される、ことを特徴とする付記1乃至3の何れか一項に記載の情報処理プログラム。
(付記5)
前記画像は、前記進捗状況に応じて表示態様が異なる画像である、ことを特徴とする付記4記載の情報処理プログラム。
(付記6)
前記障害予測の結果と共に、特定された前記シナリオの表示させる、処理を前記コンピュータに実行させる、ことを特徴とする付記4又は5記載の情報処理プログラム。
(付記7)
前記障害予測の結果が表示された画面において、前記シナリオが選択されると、前記シナリオと対応する対処法を示す情報を表示させる、処理を前記コンピュータに実行させる、ことを特徴とする付記6記載の情報処理プログラム。
(付記8)
コンピュータによる情報処理方法であって、前記コンピュータが、
複数の情報処理装置が連携して複数種類の業務を処理するシステムにおいて前記複数の情報処理装置を監視して、前記複数の情報処理装置の少なくとも1つの情報処理装置で、所定の条件を満たす負荷状態を検知した場合、前記負荷状態を検知した時刻、及び検出した前記負荷状態に基づき発生する可能性のあるシナリオを特定し、
特定した前記時刻と前記シナリオに基づいて、前記システムで処理する前記複数種類の業務それぞれに対する障害予測の結果を出力する、ことを特徴とする情報処理方法。
(付記9)
複数の情報処理装置が連携して複数種類の業務を処理するシステムにおいて前記複数の情報処理装置を監視して、前記複数の情報処理装置の少なくとも1つの情報処理装置で、所定の条件を満たす負荷状態を検知した場合、前記負荷状態を検知した時刻、及び検出した前記負荷状態に基づき発生する可能性のあるシナリオを特定する特定部と、
特定した前記時刻と前記シナリオに基づいて、前記システムで処理する前記複数種類の業務それぞれに対する障害予測の結果を出力する出力部と、を有することを特徴とする情報処理装置。
本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。