JP6080186B1

JP6080186B1 - 中継サーバ切り替え制御装置、プログラム及び方法

Info

Publication number: JP6080186B1
Application number: JP2016099340A
Authority: JP
Inventors: 亮岡山; 知子中川; 弘樹宮越
Original assignee: Nomura Research Institute Ltd
Current assignee: Nomura Research Institute Ltd
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2017-02-15
Anticipated expiration: 2036-05-18
Also published as: JP2017207884A

Abstract

【課題】監視対象装置を束ねて監視する複数の中継サーバから出力される出力情報に基づいて障害発生が予測される中継サーバを判定し、該当する中継サーバの監視対象装置を他の中継サーバの監視対象に切り替える。【解決手段】監視対象となる複数の監視対象装置１０を監視する各中継サーバ２０から出力される所定の出力情報を受信する受信手段３１と、受信手段３１で受信される出力情報を蓄積する蓄積手段３２と、蓄積手段３２に蓄積される出力情報に基づいて、中継サーバ２０での障害発生を予測し、所定の障害予測結果を出力する障害予測手段３３と、障害予測手段３３から出力される障害予測結果に基づいて、該当する中継サーバ２０の監視対象装置１０を他の中継サーバ２０の監視対象に切り替える中継サーバ切り替え手段３５とを備える構成としてある。【選択図】図１

Description

本発明は、例えば企業や官公庁，公共団体などの業務運営等に用いられる情報処理装置を複数束ねる中継サーバの状態を監視して、所定の制御を行う中継サーバ切り替え制御装置とそれに用いられるプログラム及び方法に関する。

一般に、企業や官公庁，公共団体などの多くの組織・団体では、業務の運営等に必要となる膨大な情報を電子データとして保有しており、そのような電子データを活用するためのデータシステムが運用されている。
このようなデータシステムは、個々の企業等が自己で所有するコンピュータシステムによって運用される場合もあり、また、複数の企業等のデータシステムの運用を業務として請け負う、所謂システム・インテグレーターと呼ばれる情報システム企業が所有する巨大なサーバシステム群によって管理・運用される場合もある。

いずれの場合にも、データシステムを運用するためには、一又は二以上の情報処理装置から構成されるコンピュータシステム、所謂業務サーバが必要であり、そのような業務サーバが安定的かつ継続的に稼動されることが極めて重要となる。
ここで、多数の業務サーバが安定的に稼動されるための手段として、業務サーバを監視するプローブと呼ばれる中継サーバが備えられることがある。
具体的には、業務サーバを構成する情報処理装置を複数単位で束ねて監視する中継サーバを設け、そのような中継サーバを複数備えることによって、業務サーバの稼動状態を中継サーバ単位で監視して、多数の業務サーバが備えられる場合であっても、効率的な監視や保守等が行えるプローブノードシステムが採用されることがある。

このようなプローブノードシステムによれば、多数の業務サーバの稼動状態を、プローブ（中継サーバ）単位で監視することができるので、異常やエラー等が出力されたプローブが担当する業務サーバのみについて保守・点検等を行えばよく、他のプローブが担当している業務サーバについてはそのまま稼動を継続させることができることから、効率的に多数の業務サーバの管理・運用を行うことができるようになる。
したがって、このようなプローブノードシステムによる業務サーバの監視は、例えば銀行のＡＴＭシステムや証券会社の市場売買システム、コンビニエンスストア等の商品流通システム、複数の企業等のデータシステムの運用を請け負う情報システム企業のサーバシステムなど、大規模なシステムを構成するための膨大な数の業務サーバが備えられる場合に特に効果的である。

ところが、従来のプローブノードシステムでは、プローブ単位で業務サーバの異常等を監視することはできたが、プローブ自体に異常等が発生した場合に、それに直ちに対応することは困難で、プローブがシステム運用のボトルネックになってしまうという問題があった。例えば、異常等が生じたプローブが担当している業務サーバを、他の健全なプローブに切り替えるようなことは不可能であり、該当するプローブが復旧するまでは、担当されていた業務サーバはプローブによる監視が行われないままの無監視状態となってしまう。
また、このようなプローブノードシステムでは、複数の各プローブについて異常等が発生するおそれがあることを事前に予測して対応するようなこともできなかった。

ここで、例えば特許文献１には、複数のサーバブレードを有するブレードシステムにおいて、複数の各サーバブレードに設定された優先度と、サーバブレードの処理量を分散させるための負荷分散閾値を保持する負荷分散閾値に基づいて、クライアントからの処理要求を稼働中の複数のサーバブレードの中で、優先度の高いものから割り振ることが提案されている。
また、この特許文献１では、サーバブレード監視部において、サーバブレードの処理状況（処理量、起動停止回数、合計稼働時間）を監視することが提案されている。

国際公開第２０１０／０５００４１号

しかしながら、特許文献１が対象としているサーバブレードとは、ブレードと呼ばれる基板型の情報処理装置を複数ブレード（刃）状に装着して全体で１台のサーバを構成するものであり、各ブレードは、単一のサーバに備えられるハードウェア資源の一つである。
したがって、特許文献１に記載されているのは、単体（単一）の装置におけるハードウェアの単なる負荷分散技術に過ぎず、上述した業務サーバを複数単位で束ねて監視する中継サーバを備えたプローブノードシステムにおける、各中継サーバ（プローブ）の異常等の発生に対応できるものではなかった。

すなわち、特許文献１記載の技術では、プローブノードシステムでプローブ自体に異常等が発生した場合に対応することは不可能であり、例えば、異常等が生じたプローブが担当する業務サーバについて、他の健全なプローブの有無を判定して切り替えるようなことは不可能であり、また、複数の各プローブについて異常等が発生するおそれがあることを事前に予測するようなことも不可能であった。

本発明は、以上のような従来の技術が有する課題を解決するために提案されたものであり、監視対象装置を複数単位で束ねて監視する中継サーバが複数備えられる場合に、各中継サーバから出力される出力情報に基づいて障害発生が予測される中継サーバを判定し、該当する中継サーバの監視対象装置を他の健全な中継サーバの監視対象に切り替えることができる中継サーバ切り替え制御装置と、それに用いられるプログラム及び方法の提供を目的とする。

上記目的を達成するため、本発明の中継サーバ切り替え制御装置は、監視対象となる一又は二以上の監視対象装置を監視する中継サーバが複数接続され、複数の各中継サーバの状態に応じて、該当する中継サーバの監視対象装置を、他の中継サーバの監視対象に切り替える情報処理装置であって、各中継サーバから出力される所定の出力情報を蓄積する蓄積手段と、前記蓄積手段に蓄積される出力情報を形態素解析することで生成されたデータに基づいて、前記中継サーバでの障害発生を予測し、所定の障害予測結果を出力する障害予測手段と、前記障害予測手段から出力される障害予測結果に基づいて、該当する中継サーバの監視対象装置を他の中継サーバの監視対象に切り替える中継サーバ切り替え手段と、を備える構成としてある。

また、本発明は、上記のような本発明に中継サーバ切り替え制御装置で実行される中継サーバ切り替え制御プログラムとして構成することができる。
さらに、本発明は、上記のような本発明に係る統制レベル付与データ表示装置及びプログラムによって実施可能な中継サーバ切り替え制御方法として構成することもできる。

本発明によれば、監視対象装置を束ねて監視する複数の中継サーバについて、各中継サーバから出力される出力情報に基づいて障害発生が予測される中継サーバを判定することができ、それに応じて、該当する中継サーバの監視対象装置を他の健全な中継サーバの監視対象に自動的に切り替えることができる。
これにより、例えば大量の情報を大規模システムで管理・運用するための膨大な数の業務サーバを備えるデータシステムにおいても、業務サーバを監視する複数の中継サーバを正確かつ安全に効率良く管理・運用することが可能となる。

本発明の一実施形態に係る中継サーバ切り替え制御装置を備えたプローブノードシステムの構成を模式的に示す説明図である。本発明の一実施形態に係る中継サーバ切り替え制御装置を備えたプローブノードシステムにおいて、各中継サーバから出力される出力情報となるメッセージ情報の一例であり、（ａ）は障害が発生した場合のメッセージ情報を、（ｂ）は（ａ）に示すメッセージ情報に対して障害予測手段で障害発生が予測されてプローブの切り替えが行われた場合の出力情報を示している。本発明の一実施形態に係る中継サーバ切り替え制御装置を備えたプローブノードシステムにおいて、各中継サーバから出力される出力情報となるメッセージ情報の他の一例であり、（ａ）はメッセージ情報中に抑止対象とすべきメッセージバーストが含まれる場合を、（ｂ）は（ａ）に示すメッセージ情報に対して抑止対象予測手段で抑止対象と予測されたバーストメッセージが抑止（削除）された場合を示している。本発明の一実施形態に係る中継サーバ切り替え制御装置における、（ａ）は障害予測結果とそれに応じた各プローブに割り当てられる健全性ポイントの一例を示す説明図であり、（ｂ）及び（ｃ）は中継サーバ切り替え手段によるプローブの監視対象の切り替えを模式的に示す説明図で、（ｂ）は切り替え前の状態、（ｃ）は切り替え後の状態を示している。本発明の一実施形態に係る中継サーバ切り替え制御装置を備えたプローブノードシステムにおける動作を示すフローチャートである。本発明の一実施形態に係る中継サーバ切り替え制御装置の障害予測手段で障害の発生が予測される場合の説明図であり、（ａ）は実際に障害が発生した過去のメッセージ情報の一例を、（ｂ）は設定された基本パターンに基づく機械学習によって障害の発生が予測された場合の一例を示している。本発明の一実施形態に係る中継サーバ切り替え制御装置の抑止対象予測手段で抑止対象の発生が予測される場合の説明図であり、（ａ）は実際にメッセージバーストが発生した過去のメッセージ情報の一例を、（ｂ）は設定された基本パターンに基づく機械学習によって抑止対象の発生が予測された場合を示している。本発明の一実施形態に係る中継サーバ切り替え制御装置の抑止対象予測手段で抑止対象の発生が予測される場合の一例を模式的に示す説明図であり、（ａ）は抑止対象予測手段を備えない従来の出力結果を、（ｂ）は本発明に係る抑止対象予測手段を備えた場合の出力結果を示している。本発明の一実施形態に係る中継サーバ切り替え制御装置の抑止対象予測手段で抑止対象の発生が予測される場合の他の一例を模式的に示す説明図であり、（ａ）は抑止対象予測手段を備えない従来の出力結果を、（ｂ）は本発明に係る抑止対象予測手段を備えた場合の出力結果を示している。

以下、本発明に係る中継サーバ切り替え制御装置の実施形態について、図面を参照しつつ説明する。
ここで、以下に示す本発明の中継サーバ切り替え制御装置は、プログラム（ソフトウェア）の命令によりコンピュータで実行される処理，手段，機能によって実現される。プログラムは、コンピュータの各構成要素に指令を送り、以下に示す本発明に係る所定の処理や機能等を行わせることができる。すなわち、本発明における各処理や手段，機能は、プログラムとコンピュータとが協働した具体的手段によって実現される。

なお、プログラムの全部又は一部は、例えば、磁気ディスク，光ディスク，半導体メモリ，その他任意のコンピュータで読取り可能な記録媒体により提供され、記録媒体から読み出されたプログラムがコンピュータにインストールされて実行される。また、プログラムは、記録媒体を介さず、通信回線を通じて直接にコンピュータにロードし実行することもできる。また、本発明に係る中継サーバ切り替え制御装置は、単一の情報処理装置（例えば１台のパーソナルコンピュータ等）で構成することもでき、複数の情報処理装置（例えば複数台のサーバコンピュータ群等）で構成することもできる。

［システム構成］
図１に、本発明の一実施形態に係る中継サーバ切り替え制御装置を備えたプローブノードシステムの構成を模式的に示す。
同図に示すように、本発明の一実施形態に係るプローブノードシステムは、監視対象となる一又は二以上の監視対象装置１０（業務サーバ１０ａ〜１０ｎ。以下単に監視対象装置１０）と、監視対象装置１０を監視する中継サーバ２０（プローブ２０ａ〜２０ｎ）と、中継サーバ２０が複数接続され、複数の各中継サーバ２０の状態に応じて、該当する中継サーバ２０が担当する監視対象装置１０を、他の中継サーバ２０の監視対象に切り替える中継サーバ切り替え制御装置３０（マネージャ・サーバ３０ａ・機械学習サーバ３０ｂ）とで構成されている。
これら監視対象装置１０，中継サーバ２０及び中継サーバ切り替え制御装置３０は、例えばインターネットや社内ＬＡＮなどのネットワークを介してデータ通信可能に接続されている。

［監視対象装置（業務サーバ）］
監視対象装置１０は、中継サーバ２０を介してプローブノードシステムの監視対象となる装置である。この監視対象装置１０は、例えば企業等の業務に使用されるデータシステム（業務システム）が実装・運用される業務サーバとも呼ばれる一又は二以上の情報処理装置によって構成されている。
具体的には、監視対象装置１０は、図１に示すように、複数の業務サーバ１０ａ〜１０ｎ（業務サーバＡ１０ａ，業務サーバＢ１０ｂ，業務サーバＣ１０ｃ・・・業務サーバＮ１０ｎ）によって構成され、業務サーバを構成する所定数の情報処理装置群を単位として、各単位を担当する中継サーバ２０がそれぞれ接続されて、一つのプローブノードシステムを構成している。

現実の業務サーバとしては、例えば数台のコンピュータで構成される場合から、数百台〜数千台，数万台のサーバシステム群からなる情報処理装置によって構成される場合もあり、いずれの場合にも、企業等の業務・運営に必要とされるアプリケーション・システムや基盤システムなどのデータシステムが業務システムとして実装・運用されるものである。
そして、このように複数の情報処理装置によって構成される業務サーバ１０ａ〜１０ｎが、監視対象装置１０として複数の中継サーバ２０によって所定数の情報処理装置単位で監視されることで、多数の業務サーバが備えられる場合であっても、中継サーバ２０単位で効率的な業務サーバ１０ａ〜１０ｎの監視が行われるようになっている。

監視対象装置１０となる各業務サーバ１０ａ〜１０ｎからは、業務システムの運用に伴って、アプリケーションログや基盤のログ等のログファイルを含む出力情報が常時継続的かつ大量に出力される。
この出力情報が、該当する監視対象装置１０を担当する中継サーバ２０に出力されることで、複数の各業務サーバ１０ａ〜１０ｎの状態が、担当する中継サーバ２０単位で監視されることになる。

［中継サーバ（プローブ）］
中継サーバ２０は、一般にプローブ（プローブノード）と呼ばれる、プローブノードシステムにおいて監視対象となる一又は二以上の監視対象装置１０を監視する情報処理装置であって、例えばサーバコンピュータ等によって構成されている。
具体的には、中継サーバ２０は、図１に示すように、複数のプローブ２０ａ〜２０ｎ（プローブＡ２０ａ，プローブＢ２０ｂ，プローブＣ２０ｃ・・・プローブＮ２０ｎ）によって構成され、各プローブ２０ａ〜２０ｎが、それぞれ自己が担当する監視対象装置１０として、一又は二以上の業務サーバ１０ａ〜１０ｎに接続されて、全体として一つのプローブノードシステムを構成している。

中継サーバ２０は、自己が担当する監視対象装置１０の動作や稼動状態を監視しており、各監視対象装置１０における異常やエラー等の発生が、各中継サーバ２０単位で効率的に行われるようになっている。
具体的には、中継サーバ２０は、監視対象となる監視対象装置１０から出力されるアプリケーションログや基盤のログ等のログファイルを出力情報として常時継続的に受信している。この出力情報によって、中継サーバ２０を構成する複数の各プローブ２０ａ〜２０ｎは、自己が担当する監視対象装置１０の状態を常時監視することができ、いずれかの監視対象装置１０に異常等が発生した場合にも、出力情報に基づいてその異常等の発生を直ちに検知することができる。

また、中継サーバ２０の各プローブ２０ａ〜２０ｎでは、担当する監視対象装置１０を監視している自身（当該プローブ２０ａ〜２０ｎ）の状態を示す出力情報として所定のメッセージ情報が生成され、中継サーバ切り替え制御装置３０に出力・転送されるようになっている。
これによって、中継サーバ切り替え制御装置３０では、監視対象装置１０を監視する中継サーバ２０のプローブ２０ａ〜２０ｎ自体の状態を個々に監視・把握することができるとともに、後述するように、各プローブ２０ａ〜２０ｎにおける障害発生を予測し、また、各プローブ２０ａ〜２０ｎからのメッセージ情報のうち不要な情報等を抑止することができるようになっている。

［メッセージ情報］
ここで、中継サーバ２０から中継サーバ切り替え制御装置３０に出力される出力情報となるメッセージ情報について説明する。
図２，３は、中継サーバ２０を構成する各プローブ２０ａ〜２０ｎから出力されるメッセージ情報の一例であり、図２は中継サーバ２０の障害が検知・予測される場合の情報、図３は出力情報中に抑止対象とすべきメッセージバーストが含まれる場合を示している。
これらの図に示すように、中継サーバ２０から出力されるメッセージ情報には、中継サーバ２０を構成する各プローブ２０ａ〜２０ｎの動作状態等を示す所定情報が含まれており、具体的には、メッセージＩＤ，障害レベル，発生日時，発生ノード，メッセージ本文等の情報が含まれている。

「メッセージＩＤ」は、各メッセージ情報に割り振られる識別情報である。
「障害レベル」は、メッセージ情報で示される事象が障害であるか否かを示す情報であり、ここでは、「Ｅ」が障害、「Ｉ」が非障害として示される。
「発生ノード」は、メッセージ情報で示される事象がいずれのプローブ２０ａ〜２０ｎで発生したかを示す情報である。
「メッセージ本文」は、メッセージ情報で示される事象の内容を一定文字数のテキストデータとして示される情報である。

このようなメッセージ情報によって、中継サーバ２０を構成する各プローブ２０ａ〜２０ｎの状態が、中継サーバ切り替え制御装置３０において判定することができる。
例えば図２（ａ）に示す例では、プローブＡ２０ａにおいて、２０１５年３月１４日１０時０１〜０３分の短時間に「プロセスＡが停止しました」・「プロセスＡが起動しました」・「メモリ使用率が閾値超過」という事象が連続して発生し、その後、「通信応答が途絶えました」となり、通信途絶によりプローブＡ２０ａとの通信応答ができなくなったこと、すなわち、プローブＡ２０ａに障害が発生したことが示されている。
このような場合には、プローブＡ２０ａについて点検や修復等を行う必要があり、その間、プローブＡ２０ａが担当している監視対象装置１０については、監視が存在しない状態となってしまう。

そこで、本実施形態では、後述する中継サーバ切り替え制御装置３０の制御により、図２（ａ）と同様のメッセージ情報が出力される場合には、事前に障害発生と予測（予兆）して、該当するプローブＡ２０ａに実際に障害が発生してしまう前に対応が取れるようになっている。
具体的には、図２（ｂ）に示すように、プローブＡ２０ａに実際に障害（通信途絶）が発生してしまう前の段階、つまり、一定時間内に「プロセスＡが停止しました」・「プロセスＡが起動しました」・「メモリ使用率が閾値超過」という事象が連続して発生したタイミングで、プローブＡ２０ａにおける障害発生と予測して、プローブＡ２０ａが担当している監視対象装置１０の監視を、他のプローブＢ２０ｂ，プローブＣ２０ｃ・・・プローブＮ２０ｎが担当するように接続を切り替えることができるようになっている。

また、図３（ａ）に示す例では、プローブＡ２０ａから、同日の同時刻（２０１５年３月１４日１０時０１分）に、同一のメッセージ（「プロセスＡが停止しました」）が出力されている。このように同一内容の出力情報がほぼ同時に複数出力される場合、それはバーストメッセージ、すなわち一度に大量に出力されるデータの塊であって、例えば後にログファイル情報を参照して中継サーバ２０の保守・点検等を行うような場合に、無用・不要な情報（ゴミ・ノイズ）となる。
そこで、本実施形態では、後述する中継サーバ切り替え制御装置３０の制御により、図３と同様のメッセージ情報が出力される場合には、ほぼ同時複数出力される同一内容のメッセージ情報は抑止対象と予測して、重複するメッセージ情報を抑止（削除）することで、メッセージの最適化が行えるようになっている。

具体的には、図３（ｂ）に示すように、２０１５年３月１４日１０時０１分に発生した「プロセスＡが停止しました」という事象を示すメッセージ情報については、最初の一つを残して、他の（二つの）メッセージ情報は抑止（削除）されるようになっている。
これによって、不要なメッセージが抑止（削除）された最適化情報に基づいて、効率の良い保守・点検等を行うことができるようになる。

［中継サーバ切り替え制御装置］
中継サーバ切り替え制御装置３０は、上述した中継サーバ２０が複数接続され、中継サーバ２０を構成する複数の各プローブ２０ａ〜２０ｎの状態に応じて、該当するプローブ２０ａ〜２０ｎが担当する監視対象装置１０を、他のプローブ２０ａ〜２０ｎの監視対象に切り替える装置である。
この中継サーバ切り替え制御装置３０は、例えば、業務サーバ１０ａ〜１０ｎで運用される業務システム（データシステム）を提供する情報システム企業が所有するサーバシステム等の情報処理装置によって構成される。
具体的には、本実施形態に係る中継サーバ切り替え制御装置３０は、図１に示すように、中継サーバ２０となる各プローブ２０ａ〜２０ｎと通信可能に接続されたマネージャ・サーバ３０ａと、マネージャ・サーバ３０ａに接続された機械学習サーバ３０ｂとで構成されている。

なお、本実施形態では、中継サーバ切り替え制御装置３０について、マネージャ・サーバ３０ａと機械学習サーバ３０ｂという二つの情報処理装置によって構成しているが、これを単一の情報処理装置によって構成することもでき、また、三つ以上の情報処理装置によって構成することもできる。
すなわち、中継サーバ切り替え制御装置３０は、以下に示す各手段が実現可能であれば、そのための情報処理装置に物理的構成や配置等については特に限定されるものではなく、例えばシステムの規模や処理能力などに応じて、任意の構成を採用することができる。

本実施形態では、中継サーバ切り替え制御装置３０は、マネージャ・サーバ３０ａ側に備えられる受信手段３１，蓄積手段３２，中継サーバ切り替え手段３５，バースト抑止メッセージ出力手段３６と、機械学習サーバ３０ｂ側に備えられる障害予測手段３３及び抑止対象予測手段３４とを備えた構成となっている。
受信手段３１は、中継サーバ２０の各プローブ２０ａ〜２０ｎから出力される所定の出力情報となるメッセージ情報を受信する手段である。
蓄積手段３２は、受信手段３１で受信される出力情報であるメッセージ情報を含む、マネージャ・サーバ３０ａの稼動に必要となる所定情報を蓄積する、マネージャ・サーバ３０ａのデータベースとなる記憶手段である。

障害予測手段３３は、蓄積手段３２に蓄積されるメッセージ情報に基づいて、中継サーバ２０での障害発生を予測し、所定の障害予測結果を中継サーバ切り替え手段３５に出力する手段である。
この障害予測手段３３は、機械学習サーバ３０の機能により、予め設定された所定の障害予測パターンと蓄積手段３２に蓄積されるメッセージ情報に基づく機械学習によって、中継サーバ２０での障害発生を予測する。具体的には、中継サーバ２０の各プローブ２０ａ〜２０ｎから出力されるメッセージ情報に含まれる所定のメッセージ情報、すなわち、上述した障害レベル・発生日時・発生ノード・メッセージ本文（図２参照）を形態素解析してキーワード分解したもの（図７参照）を属性として、「クラス分類モデル」の機械学習を行うことによって、中継サーバ２０の各プローブ２０ａ〜２０ｎの障害を予測し、その結果を出力するようになっている。

抑止対象予測手段３４は、蓄積手段３２に蓄積されるメッセージ情報に基づいて、当該メッセージ情報のうち抑止対象とすべきメッセージ情報を予測し、所定の抑止対象予測結果をバースト抑止メッセージ出力手段に出力する手段である。
この抑止対象予測手段３４についても、機械学習サーバ３０の機能により、予め設定された所定の抑止対象予測パターンと蓄積手段３２に蓄積されるメッセージ情報に基づく機械学習によって、抑止対象とすべき情報を予測する。具体的には、中継サーバ２０の各プローブ２０ａ〜２０ｎから出力されるメッセージ情報、すなわち、上述した障害レベル・発生日時・発生ノード・メッセージ本文（図３参照）を形態素解析して分解したもの（図８参照）と、発生したメッセージの連続性／不連続性を属性として、「クラス分類モデル」の機械学習を行うことによって、メッセージ情報の抑止対象を予測し、その結果を出力するようになっている。

なお、「機械学習」とは、入力されたデータから有用な規則やルール，判断基準等を抽出し、反復的な学習を繰り返すことで、新たに入力されたデータに対する規則やルール等を自律的に生成して成長する人工知能技術である。
また、「形態素解析」とは、自然言語で書かれた文を形態素（言語で意味を持つ最小単位）に分割する、コンピュータによる自然言語処理技術である。
また、「クラス分類モデル」とは、対象データをターゲットとなるクラスに割り当てるデータ・マイニング技術である。
これら機械学習・形態素解析・クラス分類モデルについては、公知の技術を用いることができ、本実施形態では、機械学習サーバがそれらの機能を備えたサーバコンピュータにより構成されるものである。

中継サーバ切り替え手段３５は、障害予測手段３３から出力される障害予測結果に基づいて、該当するプローブ２０ａ〜２０ｎの監視対象装置を他のプローブ２０ａ〜２０ｎの監視対象に切り替える手段である。
本実施形態に係る中継サーバ切り替え手段３５は、障害予測手段３３から出力される障害予測結果に基づいて、中継サーバ２０の各プローブ２０ａ〜２０ｎに設定された所定の基準値を変更し、当該基準値が所定の閾値に達したプローブ２０ａ〜２０ｎについて、当該プローブ２０ａ〜２０ｎの監視対象装置を他のプローブ２０ａ〜２０ｎの監視対象に切り替えるようになっている。

具体的には、中継サーバ切り替え手段３５では、各プローブ２０ａ〜２０ｎについての障害予測結果と、それに基づく対応するプローブ２０ａ〜２０ｎの健全性ポイントの情報が参照される。これらの情報は、データベースとなる蓄積手段３２に記憶される。
図４（ａ）に、障害予測手段３３の障害予測結果に基づいて設定される障害予測結果とそれに応じた各プローブ２０ａ〜２０ｎに割り当てられる健全性ポイントの一例を示す。
同図に示すように、各中継サーバ２０に対しては、障害予測結果を示す値と、それに連動した所定の健全性ポイントが割り当てられている。ここでは、各プローブ２０ａ〜２０ｎに対して、障害予測結果の初期値として「０」が、また、健全性ポイントとして「１０点満点」のポイントが割り当てられている（図４（ａ）参照）。したがって、障害が発生していないプローブ２０ａ〜２０ｎの場合には、障害予測結果の値は「０」、健全性ポイントは満点の「１０」となる。

そして、各プローブ２０ａ〜２０ｎについての障害予測手段３３で判定される障害予測結果に基づいて、各プローブ２０ａ〜２０ｎについて、障害予測結果の値が1ポイントずつ加算されるとともに、健全性ポイントがそれに応じて１ポイントずつ減算されるようになっている。
具体的には、図４（ａ）に示す例では、プローブＡ２０ａについては、２回の障害が予測・判定されたことにより、障害予測結果の値が「２」、健全性ポイントが「８」となっている場合である。
同様に、プローブＢ２０ｂについては、１回の障害が予測・判定され、障害予測結果の値が「１」、健全性ポイントが「９」となっており、プローブＣ２０ｃについては、障害が１回も予測・判定されておらず、障害予測結果の値が「０」、健全性ポイントが「１０」となっている場合である。

また、障害予測結果には中継サーバ２０の切り替えを行う基準となる閾値が設定されており、図４（ａ）に示す例では、障害予測結果の閾値「２」が設定されており、閾値に達したプローブ２０ａ〜２０ｎがあると、中継サーバ切り替え手段３５による切り替え処理が実行される。
そして、この切り替え処理の際に、切り替え先となる他のプローブ２０ａ〜２０ｎとして、健全性ポイントが参照され、健全性ポイントの高いプローブ２０ａ〜２０ｎに対して優先的に切り替え処理が実行されるようになっている。図４（ａ）に示す例では、プローブＣ２０ｃの健全性ポイントが最も高いため、このプローブＣ２０ｃがプローブＡ２０ａからの切り替え先として選択される。

その結果、図４（ｂ）及び（ｃ）に示すように、障害予測結果の値が閾値に達したプローブＡ２０ａが担当していた業務サーバＡ１０ａが、健全性ポイントの最も高いプローブＣ２０ｃの監視対象となるように切り替え処理が実行されることになる。
これにより、プローブＡ２０ａにおいて実際には障害が発生していないタイミングで、最も健全性の高いプローブＣ２０ｃに監視対象と切り替えることで、プローブＡ２０ａが担当していた業務サーバＡ１０ａは、継続的に監視対象として業務システムの運用が安定的に行われることになり、かつ、障害発生が予測されるプローブＡ２０ａに対しては事前の保守・点検等を実行することができるようになる

なお、上述した障害予測結果の閾値や健全性ポイントの値は一例であり、閾値・健全性ポイントともに、任意の値を設定することできる。
また、その場合に、各中継サーバ２０に割り当てる閾値・健全性ポイントは全て同じ値としてもよく、また、中継サーバ２０の処理能力や監視対象の数などに応じて、個々に異なる閾値や健全性ポイントを割り当てることも可能である。

バースト抑止メッセージ出力手段３６は、抑止対象予測手段３４の抑止対象予測結果に基づいて、重複するメッセージ情報が抑止（削除）されて最適化されたバースト抑止メッセージを生成して出力する手段である。
抑止対象予測結果に基づいて最適化されたバースト抑止メッセージは、データベースとなる蓄積手段３２に記憶され、マネージャ・サーバ３０ａに対する入力操作に応じて、バースト抑止メッセージ出力手段３６によって読み出されて出力され、例えば中継サーバ２０の保守・点検の際に参照されるログファイル情報として使用される。その際に、ほぼ同時に複数出力される同一内容の出力情報が抑止（削除）されたバースト抑止メッセージは、重複する無用・不要な情報が含まれないために、効率の良い参照等が行えるようになる。

［動作］
次に、以上のような構成からなる本実施形態に係る中継サーバ切り替え制御装置３０の具体的な動作（中継サーバ切り替え制御方法）について、図５〜１０を参照しつつ説明する。
図５は、本発明の一実施形態に係る中継サーバ切り替え制御装置３０における動作を示すフローチャートである。

まず、本実施形態に係るプローブノードシステムにおいては、監視対象装置１０となる各業務サーバ１０ａ〜１０ｎが、業務システムを運用するために継続的に稼動している。
稼動する業務サーバ１０ａ〜１０ｎからは、業務システムの運用に伴って、アプリケーションログや基盤のログ等のログファイルを含む出力情報が継続的に出力されている。
各業務サーバ１０ａ〜１０ｎから出力されるログファイル等の出力情報は、中継サーバ２０を構成する各プローブ２０ａ〜２０ｎで受信され、各プローブ２０ａ〜２０ｎにおいて、それぞれ監視対象となる各業務サーバ１０ａ〜１０ｎの状態が常時監視されることになる。

そして、中継サーバ２０の各プローブ２０ａ〜２０ｎでは、当該各プローブ２０ａ〜２０ｎの状態を示すメッセージ情報が生成され、中継サーバ切り替え制御装置３０に出力される。
中継サーバ切り替え制御装置３０では、まず、マネージャ・サーバ３０ａの受信手段３１において、上述したメッセージＩＤ，障害レベル，発生日時，発生ノード，メッセージ本文等を含むメッセージ情報（図２，３参照）が受信される（ステップ１）。
受信手段３１で受信されたメッセージ情報は、マネージャ・サーバ３０ａのデータベースとなる蓄積手段３２に蓄積される（ステップ２）。
蓄積手段３２に蓄積されたメッセージ情報は、並行して機械学習サーバ３０ｂ側に送信される（ステップ３）。

マネージャ・サーバ３０ａからメッセージ情報を受信した機械学習サーバ３０ｂでは、障害予測手段３３による中継サーバ２０の障害予測処理と、抑止対象予測手段３４によるメッセージ情報の抑止対象予測処理が実行される（ステップ４）。
障害予測処理（ステップ４）は、障害予測手段３３の制御により、予め設定された所定の障害予測パターンと、蓄積手段３２から転送されるメッセージ情報に基づく機械学習によって、中継サーバ２０の各プローブ２０ａ〜２０ｎにおける障害発生が予測（予兆）される。

まず、障害予測手段３３には、過去に発生したメッセージ情報の事象に基づいて、機械学習に用いられる基本パターンとして設定し、事前に学習させておく。
例えば、過去に実際に発生した事象として、図６（ａ）に示すようなメッセージ情報が発生した場合、プローブＡ２０ａにおいて、２０１５年３月１４日１０時０１〜０３分の短時間に「プロセスＡが停止しました」・「プロセスＡが起動しました」・「メモリ使用率が閾値超過」という事象が連続して発生し、その後、「通信応答が途絶えました」となり、プローブＡ２０ａとの通信応答ができなくなり、プローブＡ２０ａに障害が発生している。
一方、その後の２０１５年３月１５日１０時０３分に単独で発生した「メモリ使用率が閾値超過」という事象の後には、通信途絶による障害が発生していない。

このような過去に発生した実際のメッセージ情報を、機械学習における障害発生の基本パターンとして障害予測手段３３に設定し、事前に機械学習を行わせる。
その結果、まず、通信途絶の直前に発生している「メモリ使用率が閾値超過」のメッセージは障害発生に繋がる事象であることが学習される。
また、「プロセスＡが停止しました」・「プロセスＡが起動しました」という事象が発生した後、一定の短時間で連続して「メモリ使用率が閾値超過」という事象が発生した場合には、その後に通信途絶による障害が発生すると予測できることが学習される。
一方、上記のような連続するパターンではなく、独立したタイミングで単独で「メモリ使用率が閾値超過」という事象が発生した場合には、その後に通信途絶による障害は発生しないと予測できることが学習される。

このような過去に発生した事象を基本パターンとする機械学習の結果、その後に発生する事象については、障害予測手段３３では、機械学習による自律的な判断によって、中継サーバ２０の障害発生が自動的に予測されることになる。
例えば、図６（ｂ）に示すように、プローブＡ２０ａにおいて、２０１６年３月１４日１０時０１分〜０３の短時間に「プロセスＡが停止しました」・「メモリ使用率が閾値超過」・「プロセスＡが起動しました」・「メモリ使用率が閾値超過」という事象が連続して発生した場合、まず、１回目の「メモリ使用率が閾値超過」という事象については、その後に障害は発生しないと予測される。したがって、この場合には、障害予測としては「０」（障害発生なし）が出力される。

一方、２回目の「メモリ使用率が閾値超過」という事象については、その直前の短時間（２分間）に「プロセスＡが停止しました」・「プロセスＡが起動しました」という事象が連続して発生していることから、設定された基本パターンと一致し、その後に障害が発生すると予測される。したがって、この場合には、障害予測として「１」（障害発生あり）が出力される。
このようにして、障害予測手段３３では、予め設定された過去の事象に基づく障害予測パターンと機械学習によって、中継サーバ２０の各プローブ２０ａ〜２０ｎにおける障害発生が予測され、その予測結果が出力される。
そして、この障害予測の結果が、マネージャ・サーバ３０ａ側に出力される（ステップ５）。

また、抑止対象予測処理（ステップ４）は、抑止対象予測手段３４の制御により、予め設定された所定の抑止対象予測パターンと、蓄積手段３２から転送されるメッセージ情報に基づく機械学習によって、抑止対象とすべきメッセージ情報が予測・抽出される。
まず、抑止対象予測手段３４には、上述した障害予測手段３３の場合と同様に、過去に発生したメッセージ情報の事象に基づいて、機械学習に用いられる基本パターンとして設定し、事前に学習させておく。

例えば、過去に実際に発生した事象として、図７（ａ）に示すようなメッセージ情報が発生した場合、プローブＡ２０ａから、同日の同時刻（２０１５年３月１４日１０時０１分）に、同一のメッセージ本文（「プロセスＡが停止しました」）が出力されている。このように同一内容のメッセージ情報がほぼ同時に複数出力される場合には、バーストメッセージと判断でき、これを基本パターンとして設定し、抑止対象であるとして学習させる。
その後、プローブＡ２０ａから、同日の別時刻（２０１５年３月１４日１１時１１分と１３時２１分）に、同一のメッセージ本文（「プロセスＡが停止しました」）が出力されている。この場合には、同一のメッセージ本文が連続して出力されているが、発生時刻に間隔があいていることから、抑止対象ではないことを学習させる。

このような過去に発生した事象を基本パターンとする機械学習の結果、その後に発生する事象については、抑止対象予測手段３４では、機械学習による自律的な判断によって、メッセージ情報についての抑止対象が自動的に予測されることになる。
例えば、図７（ｂ）に示すように、プローブＡ２０ａにおいて、２０１６年３月１４日に同一のメッセージ本文を含むメッセージ情報のみが発生した場合、まず、１〜３つ目のメッセージ情報については、それぞれ発生時刻に間隔があいており不連続であるため、抑止対象ではないと予測される。したがって、この場合には、抑止予測としては「０」（非抑止対象）が出力される。

一方、４つ目のメッセージ情報については、直前の３つ目のメッセージ情報から１分後に発生しており、連続する同一メッセージと判断され、抑止対象であると予測される。したがって、この場合には、抑止予測として「１」（抑止対象）が出力される。
このようにして、抑止対象予測手段３４においても、予め設定された過去の事象に基づく抑止対象予測パターンと機械学習によって、メッセージ情報に含まれる抑止対象となるメッセージ情報が予測され、その予測結果が出力される。
そして、以上の抑止対象予測の結果についても、マネージャ・サーバ３０ａ側に出力される（ステップ５）。

ここで、以上のような機械学習によって生成・出力される障害／抑止対象の予測結果について、抑止対象予測の場合を例にとって、従来の手法と比較しつつ説明する。
図８，９は、中継サーバ２０から出力されるメッセージ情報について、本実施形態に係る抑止対象予測処理を実行した場合と従来の場合とを比較した説明図であり、それぞれ（ａ）は従来の出力結果、（ｂ）は本実施形態に係る出力結果を示している。

まず、図８（ａ）に示す従来の手法では、メッセージの抑止設定として、同一のメッセージ本文を含むメッセージ（メッセージ情報）について、「時間間隔と件数」を固定的に設定したもので、具体的には、「２秒間５件以下」のメッセージを抑止対象とする設定を行った場合となっている。
この場合、時間間隔１〜３秒の間に、同一のメッセージ本文を含むメッセージが７件連続して発生すると、最初の２秒間に発生した５つのメッセージが「抑止」されることになる。その結果、２秒目に発生した６件目のメッセージと、３秒目に発生した７件目のメッセージは、本来は連続する同一メッセージとして抑止すべきであるのに抑止することができず、そのまま出力されてしまうことになる。

このように、従来の手法では、固定的に設定された抑止条件に外れたケースには対応することができず、予め決められた時間間隔内に想定以上の件数の抑止対象が発生した場合、本来抑止すべき同一メッセージが抑止できないことになる。
これに対して、本実施形態の場合には、上記と同様の「２秒間５件以下」の条件設定をしていた場合にも、機械学習による自律的な判断により、連続する時間間隔で発生する同一メッセージについては、抑止対象とすべきことが自律的に学習・判断され、３秒間に連続して発生した同一メッセージについては、全てを抑止対象とすることができるようになる。

また、図８で示した事象に対応するための調整（チューニング）として、メッセージ情報の抑止設定を、「３秒間７件以下」と変更するように再設定を行った場合について図９に示す。
このようなチューニングによる変更後の設定条件において、図９に示す例では、１秒目に同一メッセージが４件連続して発生し、その後、２秒目にはメッセージが１件も発生せず、３秒目に１秒目と同一のメッセージが３件連続して発生した場合を示している。
この場合、図９（ａ）に示すように、従来の手法では、３秒間に発生した７件の同一メッセージは、抑止設定に従って全てのメッセージが「抑止」されることになる。その結果、２秒目に１件目もメッセージが発生しておらず、３秒目に発生したメッセージは１秒目のメッセージとは、本来は不連続のメッセージであり、別事象に関する抑止すべきではないメッセージであるにも拘わらず、７件全てのメッセージが抑止されてしまうことになる。

このように、従来の固定的な条件設定を用いる手法では、予め決められた時間間隔内に発生した想定件数のメッセージについては、不連続のメッセージであって本来抑止すべきでないものでも、一律に抑止されてしまうことになる。
これに対して、本実施形態の場合には、上記と同様の「３秒間７件以下」の設定をしていた場合にも、機械学習の自律的な判断により、２秒目に１件目もメッセージが発生していないことが学習され、３秒目に発生した３件のメッセージは、１秒目のメッセージとは不連続であり、別事象に係る抑止すべきでないメッセージであると判定されて、３秒目の３件のメッセージは抑止されないようになる。

以上のように、従来の手法では、設定条件を固定的に設定していたために、具体的な事象に対応するためには、設定条件を変更してチューニングを行わなければならず、常に人力での設定変更が必要となり、また、抑止すべきか否かの検討も必要であり、結果として改善が遅々として進まないという問題が発生していた。
これに対して、本実施形態では、新たなに発生した具体的な事象に応じて、例えば抑止すべきメッセージのパターンや障害発生とすべきパターンを、予測すべき結果を示す基本パターンとして機械学習サーバ３０ｂにインプットすることで、障害／抑止対象予測の基準を自律的に成長させていくことができる。その結果、人手により抑止設定を変更する必要がなくなり、従来行われていたチューニングの作業や労力も不要とすることができる。また、図８，９に示したように、固定的に設定された設定条件（例えば時間間隔と件数）だけでは判断できない、実際に発生したメッセージの連続性・不連続性などについても判定条件とすることができるようになる。

そして、以上のようにして機械学習サーバ３０ｂで生成される障害／抑止対象の予測結果が、マネージャ・サーバ３０ａ側に出力される（ステップ５）。
障害／抑止対象の予測結果を受信したマネージャ・サーバ３０ａでは、その予測結果に基づくプローブ１０ａ〜１０ｎの切り替え処理（ステップ６〜８）と、抑止対象メッセージを抑止（削除）したバースト抑止メッセージの出力処理（ステップ９）が実行される。
プローブ１０ａ〜１０ｎの切り替え処理は、まず、中継サーバ切り替え手段３５によって、各プローブ２０ａ〜２０ｎについての障害予測結果と、それに基づく対応するプローブ２０ａ〜２０ｎの健全性ポイントの情報（図４（ａ）参照）が更新される（ステップ６）。

具体的には、上述した図４（ａ）に示したように、中継サーバ２０を構成するプローブ１０ａ〜１０ｎには、障害予測結果を示す値と、それに連動した所定の健全性ポイントが設定されており、障害予測結果の初期値として「０」が、健全性ポイントとして「１０点満点」のポイントが割り当てられている（図４（ａ）参照）。
そして、機械学習サーバ３０ｂから障害／抑止対象の予測結果に基づいて、各プローブ２０ａ〜２０ｎについて、障害予測結果の値について1ポイントずつの加算処理が実行され、また、健全性ポイントについて、障害予測結果の値に連動した１ポイントずつの減算処理が実行される（ステップ６）。

その後、各プローブ２０ａ〜２０ｎについて、障害予測結果の値が閾値を超えたか否かが判定される（ステップ７）。
図４（ａ）に示したように、各プローブ２０ａ〜２０ｎの障害予測結果の値には、切り替え処理を行う基準となる閾値が設定されており、本実施形態では、各プローブ２０ａ〜２０ｎの障害予測結果の閾値として「２」が設定されており、閾値に達したプローブ２０ａ〜２０ｎの有無が判定される。
そして、障害予測結果の閾値に該当するプローブ２０ａ〜２０ｎがある場合には、中継サーバ切り替え手段３５による切り替え処理が実行される（ステップ８）。

このプローブ２０ａ〜２０ｎの切り替え処理は、切り替え対象となる該当するプローブ２０ａ〜２０ｎに対して、切り替え先となる他のプローブ２０ａ〜２０ｎとして、健全性ポイントが参照される。
そして、健全性ポイントの高いプローブ２０ａ〜２０ｎが切り替え先として抽出され、切り替え処理が実行される（ステップ８）。
これによって、各プローブ２０ａ〜２０ｎについて、実際に障害が発生する前のタイミングで、担当する監視対象装置１０を、より健全性の高い他のプローブ２０ａ〜２０ｎの監視対象として切り替えられるようになる（図４（ｂ）及び（ｃ）参照）。

また、上記のようなプローブ切り替え処理と並行して、あるいは所定のタイミングで、バースト抑止メッセージ出力手段３６によってバースト抑止メッセージの出力処理が実行される（ステップ９）。
具体的には、バースト抑止メッセージ出力手段３６は、機械学習サーバ３０ｂから送信される抑止対象の予測結果に基づいて、データベースとなる蓄積手段３２に記憶されているメッセージ情報について、該当する抑止対象のメッセージ情報が削除されることにより、最適化されたバースト抑止メッセージが生成される。

生成されたバースト抑止メッセージは、蓄積手段３２に蓄積され、例えばマネージャ・サーバ３０ａに対する入力操作に応じて、バースト抑止メッセージ出力手段３６によって読み出されて出力される。
これによって、例えば中継サーバ２０の保守・点検の際に参照されるログファイル情報として、重複する同一内容のメッセージ情報が抑止（削除）された最適化されたバースト抑止メッセージが用いられるようになる。

以上説明したように、本実施形態に係る中継サーバ切り替え制御装置３０によれば、所定数の監視対象装置１０を束ねて監視する複数の中継サーバ２０について、各中継サーバ２０から出力される出力情報に基づいて障害発生が予測される中継サーバを判定することができ、それに応じて該当する中継サーバ２０の監視対象装置１０を他の中継サーバ２０の監視対象に自動的に切り替えることができる。
また、複数の中継サーバ２０から出力される大量の出力情報についても、重複する無用・不要なバーストメッセージを抑止して、本来必要となる有用な情報のみを含むバースト抑止メッセージとして出力させることができる。

特に、本実施形態の中継サーバ切り替え制御装置３０は、機械学習サーバ３０ｂを備え、障害発生の予測や抑止対象の予測の基準を、機械学習により自律的に調整させ成長させていくことができる。
したがって、固定的な設定条件のみに基づく従来手法とは異なり、日々発生する具体的な事象や新たな事象に対応して、障害／抑止対象予測の基準を自律的に調整・改善させることが可能となり、人手によるチューニング等の作業が不要となり、また、固定的な設定条件では対応が困難乃至不可能な新たな事象に対しても、的確かつ迅速に対応することが可能となる。

したがって、本発明によれば、数百台〜数千台，数万台オーダーの監視対象装置や中継サーバを備え、継続的に様々な事象が大量に発生している、例えば大企業のデータシステムや、複数企業等の異なるデータを大量に取り扱うデータシステムの運用を業務として請け負う情報システム企業が所有する巨大なサーバシステム群で運用・管理されるシステムにおいても、障害発生を動的かつ未然に防止でき、また、大量に出力されるメッセージ情報のバースト状態の適切な抑止が可能となり、安定的なシステム運用を実現することができる。

以上、本発明について、好ましい実施形態を示して説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、上述した実施形態では、中継サーバの状態を示す出力情報として、メッセージＩＤ，障害レベル，発生日時，発生ノード，メッセージ本文を含むメッセージ情報を示しているが、これは本発明に係る中継サーバから出力される出力情報の一例であり、出力情報の内容等は特に限定されるものではなく、例えばメッセージ情報として上記以外の他の項目や内容等を含めることができ、また、中継サーバの状態を示す他の情報を出力情報として使用することもできる。

また、上述した実施形態では、本発明に係る中継サーバ切り替え制御装置が適用されるデータシステムとして、複数の管理対象装置において実装・運用される大規模データシステムを想定して説明したが、本発明が適用可能なデータシステムや管理対象装置は、その規模の大小やシステムの内容については特に限定されるものではない。
監視対象装置（業務サーバ）を構成する多数の情報処理装置を監視する複数の中継サーバを備え、各中継サーバの障害発生を迅速かつ的確に予測し、また、多数の監視対象装置から出力される出力情報のバースト状態を抑止する必要のあるデータシステムや情報処理装置であれば、システムの規模や内容はどのようなものであっても本発明を適用・実施することができる。

本発明は、例えば企業の業務運営等に用いられる業務サーバを複数束ねる中継サーバの状態を監視するプローブノードシステム等に好適に利用可能である。

１０監視対象装置
１０ａ〜１０ｎ業務サーバ
２０中継サーバ
２０ａ〜２０ｎプローブ
３０中継サーバ切り替え制御装置
３０ａマネージャ・サーバ
３０ｂ機械学習サーバ
３１受信手段
３２蓄積手段
３３障害予測手段
３４抑止対象予測手段
３５中継サーバ切り替え手段
３６バースト抑止メッセージ出力手段

Claims

監視対象となる一又は二以上の監視対象装置を監視する中継サーバが複数接続され、複数の各中継サーバの状態に応じて、該当する中継サーバの監視対象装置を、他の中継サーバの監視対象に切り替える情報処理装置であって、
各中継サーバから出力される所定の出力情報を蓄積する蓄積手段と、
前記蓄積手段に蓄積される出力情報を形態素解析することで生成されたデータに基づいて、前記中継サーバでの障害発生を予測し、所定の障害予測結果を出力する障害予測手段と、
前記障害予測手段から出力される障害予測結果に基づいて、該当する中継サーバの監視対象装置を他の中継サーバの監視対象に切り替える中継サーバ切り替え手段と、を備える
ことを特徴とする中継サーバ切り替え制御装置。
前記中継サーバ切り替え手段が、
前記障害予測手段から出力される障害予測結果に基づいて、各中継サーバに設定された所定の基準値を変更し、当該基準値が所定の閾値に達した中継サーバについて、当該中継サーバの監視対象装置を他の中継サーバの監視対象に切り替える
ことを特徴とする請求項１記載の中継サーバ切り替え制御装置。
前記障害予測手段が、
予め設定された所定の障害予測パターン及び／又は前記蓄積手段に蓄積される出力情報に基づく機械学習によって、前記中継サーバでの障害発生を予測する
ことを特徴とする請求項１又は２記載の中継サーバ切り替え制御装置。
前記障害予測手段が、
予め設定された所定の障害予測パターンを形態素解析することで生成されたデータ及び／又は前記蓄積手段に蓄積される出力情報を形態素解析することで生成されたデータに基づく機械学習によって、前記中継サーバでの障害発生を予測する
ことを特徴とする請求項１又は２記載の中継サーバ切り替え制御装置。
前記蓄積手段に蓄積される出力情報に基づいて、当該出力情報のうち抑止対象とすべき情報を予測し、所定の抑止対象予測結果を出力する抑止対象予測手段を備え、
前記抑止対象予測手段が、
予め設定された所定の抑止対象予測パターン及び／又は前記蓄積手段に蓄積される出力情報に基づく機械学習によって、前記抑止対象とすべき情報を予測する
ことを特徴とする請求項１〜４のいずれか一項記載の中継サーバ切り替え制御装置。
前記蓄積手段に蓄積される出力情報を形態素解析することで生成されたデータに基づいて、当該出力情報のうち抑止対象とすべき情報を予測し、所定の抑止対象予測結果を出力する抑止対象予測手段を備え、
前記抑止対象予測手段が、
予め設定された所定の抑止対象予測パターンを形態素解析することで生成されたデータ及び／又は前記蓄積手段に蓄積される出力情報を形態素解析することで生成されたデータに基づく機械学習によって、前記抑止対象とすべき情報を予測する
ことを特徴とする請求項１〜４のいずれか一項記載の中継サーバ切り替え制御装置。
監視対象となる一又は二以上の監視対象装置を監視する中継サーバが複数接続され、複数の各中継サーバの状態に応じて、該当する中継サーバの監視対象装置を、他の中継サーバの監視対象に切り替える情報処理装置を構成するコンピュータを、
各中継サーバから出力される所定の出力情報を蓄積する蓄積手段、
前記蓄積手段に蓄積される出力情報を形態素解析することで生成されたデータに基づいて、前記中継サーバでの障害発生を予測し、所定の障害予測結果を出力する障害予測手段、
前記障害予測手段から出力される障害予測結果に基づいて、該当する中継サーバの監視対象装置を他の中継サーバの監視対象に切り替える中継サーバ切り替え手段、として機能させる
ことを特徴とする中継サーバ切り替え制御プログラム。
監視対象となる一又は二以上の監視対象装置を監視する中継サーバが複数接続され、複数の各中継サーバの状態に応じて、該当する中継サーバの監視対象装置を、他の中継サーバの監視対象に切り替える情報処理装置を構成するコンピュータを用いて、
各中継サーバから出力される所定の出力情報を蓄積する蓄積手順、
前記蓄積手順で蓄積される出力情報を形態素解析することで生成されたデータに基づいて、前記中継サーバでの障害発生を予測し、所定の障害予測結果を出力する障害予測手順、
前記障害予測手順から出力される障害予測結果に基づいて、該当する中継サーバの監視対象装置を他の中継サーバの監視対象に切り替える中継サーバ切り替え手順、を実行する
ことを特徴とする中継サーバ切り替え制御方法。