JP2015046133A - 制御装置、計算資源管理方法及び計算資源管理プログラム - Google Patents

制御装置、計算資源管理方法及び計算資源管理プログラム Download PDF

Info

Publication number
JP2015046133A
JP2015046133A JP2013178381A JP2013178381A JP2015046133A JP 2015046133 A JP2015046133 A JP 2015046133A JP 2013178381 A JP2013178381 A JP 2013178381A JP 2013178381 A JP2013178381 A JP 2013178381A JP 2015046133 A JP2015046133 A JP 2015046133A
Authority
JP
Japan
Prior art keywords
event
information
resource
determination
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013178381A
Other languages
English (en)
Other versions
JP6068296B2 (ja
Inventor
健太郎 田中
Kentaro Tanaka
健太郎 田中
中川 真一
Shinichi Nakagawa
真一 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013178381A priority Critical patent/JP6068296B2/ja
Publication of JP2015046133A publication Critical patent/JP2015046133A/ja
Application granted granted Critical
Publication of JP6068296B2 publication Critical patent/JP6068296B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】運用管理者の計算資源の管理稼働の負担を低減し、管理作業の効率を向上させることを課題とする。
【解決手段】制御装置10は、計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を計算資源情報記憶部13aに格納する。そして、制御装置10は、計算資源情報記憶部13aによって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する。そして、制御装置10は、事象の発生を契機に、作成された判定条件式を用いて、事象が発生した計算資源に対して実行する操作を決定し、決定された操作を、事象が発生した計算資源に対して実行する。
【選択図】図2

Description

本発明は、制御装置、計算資源管理方法及び計算資源管理プログラムに関する。
従来、情報処理システムの運用においては、故障等が生じた場合には、人手で復旧や設備の増設、入れ替え、移動などの作業を行うことが一般的である。長期間にわたって運用を行ってきた情報処理システムでは、運用経験の蓄積により、事象の検知、具体的な対処内容の決定、作業内容が定式化されつつあり、そのため運用の自動化に関する技術への関心が高まっている。
このような定型的な運用の自動化を行う方法として、例えば、情報処理システムの運用において、事前に判定条件式を生成しておき、監視装置が稼働状況を収集し、事前に設定した判定条件式のしきい値超過等の判定により障害発生を判定し、障害の項目ごとに定義された処理を実行する方法が知られている。
"ZABBIX−JP"、[online]、[平成25年8月21日検索]、インターネット<http://www.zabbix.jp/documents/functions>
しかしながら、従来の技術では、運用管理者の計算資源の管理稼働の負担が大きく、管理作業の効率化が図れない場合があるという課題があった。つまり、従来の情報処理システムの運用において、計算資源に対して予め決められた操作を実行する場合には、操作実行の有無を判定する判定条件式のパラメータ設定が必要となる。このパラメータ設定には、特定の高度な技術を有する人が行う必要があり、運用管理者にとって大きな負担となる。また判定条件式のパラメータは、運用実態に応じて更新する必要があり、管理作業の効率化が図れない場合があった。
そこで、この発明は、運用管理者の計算資源の管理稼働の負担を低減し、管理作業の効率を向上させることを目的とする。
上述した課題を解決し、目的を達成するため、開示の制御装置は、計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を記憶部に格納する格納部と、前記記憶部によって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する作成部と、前記事象の発生を契機に、前記作成部によって作成された判定条件式を用いて、前記事象が発生した計算資源に対して実行する操作を決定する決定部と、前記決定部によって決定された操作を、前記事象が発生した計算資源に対して実行する操作部と、を有することを特徴とする。
また、開示の計算資源管理方法は、計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を記憶部に格納する格納工程と、前記記憶部によって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する作成工程と、前記事象の発生を契機に、前記作成工程によって作成された判定条件式を用いて、前記事象が発生した計算資源に対して実行する操作を決定する決定工程と、前記決定工程によって決定された操作を、前記事象が発生した計算資源に対して実行する操作工程と、を含んだことを特徴とする。
また、開示の計算資源管理プログラムは、計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を記憶部に格納する格納ステップと、前記記憶部によって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する作成ステップと、前記事象の発生を契機に、前記作成ステップによって作成された判定条件式を用いて、前記事象が発生した計算資源に対して実行する操作を決定する決定ステップと、前記決定ステップによって決定された操作を、前記事象が発生した計算資源に対して実行する操作ステップと、をコンピュータに実行させることを特徴とする。
本願に開示する制御装置、計算資源管理方法及び計算資源管理プログラムは、運用管理者の計算資源の管理稼働の負担を低減し、管理作業の効率を向上させることが可能である。
図1は、第一の実施形態に係る情報処理システムの構成の一例を示す図である。 図2は、第一の実施形態に係る制御装置の構成を示すブロック図である。 図3は、第一の実施形態に係る計算資源情報記憶部に記憶される情報の一例を示す図である。 図4は、第一の実施形態に係る関係性情報記憶部に記憶される情報の一例を示す図である。 図5は、第一の実施形態に係る判定条件式記憶部に記憶される情報の一例を示す図である。 図6は、正常値の学習および外れ値の検知について説明する図である。 図7は、正常値の分布と確率密度の一例について説明する図である。 図8は、機械学習による判定条件式の自動更新の例について説明する図である。 図9は、第一の実施形態に係る情報処理システムにおける計算資源管理処理の流れを説明するためのフローチャートである。 図10は、第一の実施形態に係る制御装置における判定条件式更新処理の流れを説明するためのフローチャートである。 図11は、第一の実施形態に係る制御装置における判定条件式生成処理の流れを説明するためのフローチャートである。 図12は、計算資源管理プログラムを実行するコンピュータを示す図である。
以下に図面を参照して、この発明に係る制御装置、計算資源管理方法及び計算資源管理プログラムの実施形態を詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。
[第一の実施形態]
以下の実施形態では、第一の実施形態に係る情報処理システムの構成、制御装置の構成、情報処理システムによる処理の流れ及び監視装置による処理の流れを順に説明し、最後に第一の実施形態による効果を説明する。
[システムの構成]
まず、第一の実施形態に係る情報処理システム100の構成の一例を説明する。図1は、第一の実施形態に係る情報処理システムの構成の一例を示す図である。図1に示すように、情報処理システム100は、制御装置10、監視装置20および計算資源群30を有する。
計算資源群30は、制御装置10と監視装置20とに接続する計算資源の集合であり、例えばサーバ装置などである。計算資源群30は、制御装置10からの操作に基づいて計算資源が配置され、監視装置20から稼働状況を収集される一以上の計算資源を稼働する。なお、計算資源群30内の各計算資源間の関係性を示す属性値は、計算資源間関係性情報群として後述する制御装置10に保持される。
この計算資源には、CPU(Central Processing Unit)、メモリ、データ保持領域を備え、ネットワーク通信機能を有する装置、CPU、メモリを備え、データを転送する機能を有する装置、サーバ室等の設置場所、及びこれらの仮想化装置が含まれる。より具体的には、計算資源には、サーバ機器やパーソナルコンピュータを含むコンピュータ装置、情報を永続的に保持するためのストレージ装置、コンピュータ装置間を相互に接続するためのネットワーク機器、各装置に電力を供給するための電源装置、各装置間を接続するケーブルなどの物理的な計算資源に加え、仮想計算機、仮想ネットワーク、仮想ディスクなどの仮想的な計算資源も含まれる。
また、計算資源群30の内部の計算資源は、別の一以上の計算資源と関係性を持つ場合がある。例えば、二つの異なる計算資源同士が関係性を持つ。ここで言う「関係性」とは、例えば、仮想マシンと仮想マシンが稼働するコンピュータ装置との間の包含関係や、コンピュータ装置とネットワーク機器との間の接続関係などが含まれる。
監視装置20は、制御装置10と計算資源群30とに接続され、制御装置10によって事前に設定された計算資源監視条件に従い、計算資源群30の稼働状況を監視する。この監視装置20は、CPU、メモリ、データ保持領域、及びネットワーク通信機能に加えて、温度・電力量等の測定値の収集機能、警報通知機能を有する装置であり、計算資源群30を監視することで、計算資源群30に生じた事象を検知する。なお、ここで言う「事象」には、装置や機能に対して生じた故障、性能劣化、過負荷、その他動作環境の変化などを含む。
制御装置10は、監視装置20と計算資源群30とに接続されている。この制御装置10は、CPU、メモリ、データ保持領域、及びネットワーク通信機能を有する装置である。この制御装置10は、計算資源群30の内部で稼働する計算資源における事象に関する情報を後述する記憶部13に格納する。そして、制御装置10は、記憶部13によって記憶された事象に関する情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する。また、制御装置10は、事象の発生を契機に、判定条件式を用いて、事象が発生した計算資源に対して実行する操作を決定し、決定された操作を、事象が発生した計算資源に対して実行する。
例えば、制御装置10は、監視装置20からの事象情報の通知の受信を契機に、計算資源状態を取得し、計算資源群に対する操作決定のための判定条件式を取得し、操作を決定し、計算資源群30に対する操作を実行する。ここで事象とは、監視装置20が監視の対象としている計算資源群において、事前に設定している定常状態を示す監視条件に対し計算資源の状態が変化することである。また、事象情報とは、事象の内容を示す情報である。事象情報には、事象が発生した計算資源、計算資源の状態を示す変数が含まれる。
また制御装置10は、計算資源情報群、計算資源間関係性情報、及び判定条件式を保持するための記憶部13を有する(図2参照)。ここで計算資源間の関係性とは、任意の計算資源と特別関係のある計算資源に対し、包含と接続の2種類の属性でその関係を表現したものである。計算資源間関係性情報とは、任意の計算資源と特別関わりのある1つ以上の計算資源に対し、任意の計算資源との関係性を記した情報である。
また、制御装置10は、判定条件式を管理し、過去の事象や新たな事象発生を契機に、判定条件式を更新、作成する機能を有する装置である。ここで判定条件式とは、事象が発生した際において,複数の計算資源の状態を加味し、計算資源群に対し実行する事象を解消するための操作を判定する式である。この判定条件式は、例えば、規定される複数の条件を全て満たした場合に、事象を解消するための操作を実行すると判定する式である。
また、各装置間の接続は通信網を介したものであるが、通信網は構内通信網(LAN(Local Area Network))、インターネット、公衆電話網を含めて構成してもよい。なお、図1では省略したが、制御装置10に対して利用者端末が複数接続されていてもよい。例えば、利用者端末が、利用者が制御装置10を操作する際に使用する入出力装置を備えたコンソール装置であって、計算資源装置群30の管理者により利用される装置であってもよい。
[制御装置の構成]
次に、図2を用いて、図1に示した制御装置10の構成を説明する。図2は、第一の実施形態に係る制御装置の構成を示すブロック図である。図2に示すように、制御装置10は、通信処理部11、制御部12および記憶部13を有する。
通信処理部11は、接続される監視装置20および計算資源群30との間でやり取りする各種情報に関する通信を制御する。例えば、通信処理部11は、監視装置20から事象情報を受信し、また、監視装置20に対して計算資源監視条件情報の更新を通知する。
記憶部13は、図2に示すように、計算資源情報記憶部13a、関係性情報記憶部13bおよび判定条件式記憶部13cを有する。記憶部13は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、又は、ハードディスク、光ディスク等の記憶装置などである。
計算資源情報記憶部13aは、計算資源群の内部で稼働する計算資源における事象に関する情報を記憶する。なお、計算資源情報記憶部13aに記憶される情報群について、以下では、適宜「計算資源情報群」と記載する場合がある。
計算資源情報は、「イベントID」、「判定条件式ID」、「資源ID」、「資源名」、「監視項目」、「値」を含む。イベントIDは、記憶部13への保存イベントを一意に識別するためのIDであり、計算資源の計算資源情報と関係性のある計算資源情報を1セットとして扱う。また、判定条件式IDは、判定条件式を一意に識別するIDであり、各イベントIDに対して操作決定がなされた場合、その操作決定に用いた判定条件式を記憶する。ただし判定の結果、操作が実行されない場合、NULL値を記憶する。
ここで図3の例を用いて、計算資源情報記憶部13aが記憶するデータ構造について説明する。図3は、第一の実施形態に係る計算資源情報記憶部に記憶される情報の一例を示す図である。例えば、「イベントID」には、「000001」、「000002」などのデータ値が格納される。また、「判定条件式ID」には、「00001」、「00003」などのデータ値が格納される。また、「資源ID」には、「0001」、「0002」などのデータ値が格納される。
また、例えば、「資源名」には、「VM01」や「サーバ室a」などのデータ値が格納される。また、例えば、「監視項目」には、「CPU使用率」や「電力使用率」などのデータ値が格納される。また、例えば、「値」には、「90%」や「50%」などのデータ値が格納される。
関係性情報記憶部13bは、制御装置10で保持される計算資源間関係性情報群内で管理する計算資源間の関係性を定義する計算資源間関係性情報の属性値を記憶する。計算資源間の関係性を定義する属性値には、「関係性ID」、「主項目」、「関係」、「従属種別」、「関係種別」が含まれる。なお、関係性情報記憶部13bに記憶される情報群について、以下では、適宜「計算資源間関係性情報群」と記載する場合がある。
関係性IDは、ある計算資源間の関係性を一意に識別するためのIDであり、関係性IDごとに特定の資源間の関係性が1対1で対応している。関係性は、接続と包含の2種類で定義される。計算資源に対しての操作の結果、接続の関係性および包含の関係性に変化が生じる場合には、正しい資源間関係が更新される。
ここで図4を用いて、関係性情報記憶部13bが記憶するデータ構造について説明する。図4は、第一の実施形態に係る関係性情報記憶部に記憶される情報の一例を示す図である。言い換えると、図4は、計算資源相互間の関係性情報の定義例を示す。この関係性情報は、計算資源ごとに複数定義される。
例えば図4に示すように、関係性情報は、「関係性ID」と、「主項目」と、「関係」と、「従属項目」と、「関係種別」とで定義される。ここで「関係性ID」は、関係性情報の識別子である。例えば、「関係性ID」には、「000001」、「000002」などのデータ値が格納される。
また、「主項目」及び「従属項目」は、各々計算資源を示す。例えば、「主項目」には、「VM番号」、「サービス名」、「温度センサ」などのデータ値が格納される。また、「従属項目」には、「サーバ番号」、「VM番号」、「VMクラスタ番号」などのデータ値が格納される。
また、「関係」は、「主項目」と「従属項目」との関係を示す。例えば、「関係」には、主項目として指定される計算資源が従属項目として指定される計算資源上で起動することを示す「on」、主項目として指定される計算資源が従属項目として指定される計算資源に属することを示す「based_on」、主項目として指定される計算資源が従属項目として指定される計算資源内に存在することを示す「in」などのデータ値が格納される。
「関係種別」は、ある計算資源と別の計算資源との間の関係を示す。例えば、「関係種別」には、「包含」或いは「接続」が格納される。一例をあげると、図4に示す関係性情報記憶部13bが記憶するデータ構造の定義例は、「関係性ID」が「000001」である場合、VM番号は、サーバ番号に包含される関係性を定義する。
判定条件式記憶部13cは、複数の監視項目の情報からなる判定条件式を定義する判定条件式情報の属性値を記憶する。判定条件式を定義する判定条件式情報の属性値には、「判定条件式ID」、「判定条件式」、「操作手順」、「操作対象資源」、「操作内容」が含まれる。判定条件式IDは、判定条件式を一意に識別するためのIDであり、判定条件式IDごとに判定条件式が1対1で対応している。なお、判定条件式記憶部13cに記憶される情報群について、以下では、適宜「判定条件式群」と記載する場合がある。
図5は、第一の実施形態に係る判定条件式記憶部に記憶される情報の一例を示す図である。図5に例示するように、判定条件式記憶部13cは、「判定条件式ID」と、「判定条件式」と、「操作手順」と、「操作対象資源」と、「操作内容」とを対応付けた情報を記憶する。
ここで、判定条件式記憶部13cが記憶する「判定条件式ID」は、「判定条件式雛形情報」の識別子を示す。例えば、「判定条件式雛形識別情報」には、「00001」、「00002」などのデータ値が格納される。
また、判定条件式記憶部13cが記憶する「判定条件式」は、計算資源に対して操作を実行するか否かを判定する条件を示す式である。例えば、「判定条件式」には、「サービス停止>60秒&ルータ起動>90秒」などのデータ値が格納される。
また、判定条件式記憶部13cが記憶する「操作対象資源」は、操作の対象となる計算資源を示す。例えば、「操作対象資源」には、「VM」などのデータ値が格納される。また、判定条件式記憶部13cが記憶する「操作内容」は、計算資源に対して実行する操作の内容を示す。例えば、「操作内容」には、「サービス故障の自動復旧」、「自動スケールアウト」、「性能劣化防止」などのデータ値が格納される。
図2に戻って、制御部12は、格納部12a、作成部12b、更新部12c、通知部12d、決定部12eおよび操作部12fを有する。ここで、制御部12は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などの電子回路やASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路である。
格納部12aは、計算資源群30の内部で稼働する計算資源における事象に関する情報である事象情報を記憶部13の計算資源情報記憶部13aに格納する。具体的には、格納部12aは、監視装置20から事象情報を受信すると、事象情報から得られた計算資源情報を計算資源情報記憶部13aに格納する。例として、監視装置20によりサービスが起動するサーバの死活監視が行われた結果、10回中4回応答がある場合には、その情報を計算資源情報記憶部13aに格納する。
また、格納部12aは、監視装置20から事象情報を受信した場合に、計算資源間関係性情報群から事象が発生した計算資源と特別関係性のある計算資源を参照し、当該特別関係性があると判断された計算資源の情報を計算資源情報記憶部13aに格納する。また、格納部12aは、後述する決定部12eにより計算資源に対する操作手順が決定した場合に、計算資源群および関係性のある計算資源の現在の資源状態を計算資源情報記憶部13aに格納する。
作成部12bは、計算資源情報記憶部13aによって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する。例えば、作成部12bは、判定条件式を生成する対象となる計算資源について、該計算資源の正常運用時における状態を示す属性値を用いて、当該属性値の確率分布を推定し、事前に設定した確率以下の値をとるものを外れ値と定義した判定条件式を作成する。
具体例を挙げて説明すると、作成部12bは、判定条件式を生成する対象となる計算資源に対し、「判定条件式の操作内容を実施しない状態(正常運用時の状態)」の計算資源情報として、計算資源情報を取得する。
そして、作成部12bは、取得した正常運用時の計算資源情報から正常運用時における計算資源状態を示す属性値「監視項目」と「値」の情報を抽出し、当該「値」の確率分布を推定する。当該「値」が外れ値かどうかの判断は、正常運用時にその「値」をとる確率を元に設定する。現時点の計算資源状態が外れ値か否かの検定方法の例については、図6、図7の例を用いて後述する。
作成部12bは、取得した正常運用時の計算資源状態として登録されていた値を元に、確率分布を推定し、事前に設定した確率以下の値をとるものを外れ値と定義し、新たに登録もしくは更新する判定条件式を生成する。そして、作成部12bは、生成した判定条件式を判定条件式記憶部13cへと記憶させ、既存の判定条件式の新規登録もしくは更新を行う。
ここで、図6の例を用いて、正常値の学習および外れ値の検知について説明する。図6は、正常値の学習および外れ値の検知について説明する図である。図6の例では、2つの監視項目A、Bの値分布から操作内容が決定される場合の例を示す。図6に示すように、まず、制御装置10は、正常運用時の計算資源情報から正常値を学習する。
次に、制御装置10は、新たに取得した現時点の計算資源情報が外れ値であるかどうかの条件判定を実行する。つまり、上記したように、制御装置10は、正常運用時の計算資源状態として登録されていた値を元に確率分布を推定し、事前に設定した確率以下の値をとるものを外れ値と判定する。ここで、制御装置10は、外れ値であると判定された場合には、該当する計算資源に対する操作内容が決定される。
また、図7を用いて、正常値の分布と密度の例について説明する。図7は、正常値の分布と確率密度の一例について説明する図である。図7の例では、ある監視項目AとBに対し、正常運用時の値の分布とその確率分布を示している。図7に示すように、正常値の分布が密な範囲と疎な範囲では、密度に差が生じ、正常運用である確率に差が生じる。正常値の密な分布より、離れた値を取得した場合、正常値である可能性が低く、外れ値である可能性が高いと考えられる。
更新部12cは、計算資源情報記憶部13aに格納された事象情報を教師データとして用いた機械学習により判定条件式を更新する。具体的には、更新部12cは、予め設定された判定条件式のひな形を用いて判定条件式を再作成し、該再作成した判定条件式を新たな判定条件式として更新する。また、更新部12cは、操作部12fによって操作が実行された結果、計算資源間関係性情報群として記憶される、操作の対象である計算資源と、当該計算資源に関係する他の計算資源との関係性が変化した場合、操作の対象である計算資源に対して判定条件式情報を変更する。
例えば、更新部12cは、操作部12fにより計算資源群30により操作が実行された際に、操作の結果として、計算資源間の関係性情報に影響があるかどうかを判定する。そして、更新部12cは、影響があると判定した場合には、関係性情報記憶部13bに記憶された計算資源間関係性情報群において影響された計算資源間関係性情報を格納部12aに更新させ、適応対象判定条件式ひな形選択情報を取得する。
ここで適応対象判定条件式ひな形選択情報とは、予め設定された情報であり、判定条件式のひな形を組み合わせて判定条件式を作成する際に、どの判定条件式のひな形をどのように組み合わせるかを決定する情報である。そして、更新部12cは、適応対象判定条件式ひな形選択情報を参照して判定条件式のひな形を組み合わせて判定条件式を作成し、判定条件式記憶部13に記憶された判定条件式を新たに作成した判定条件式に更新する。
ここで、図8の例を用いて、機械学習による判定条件式の自動更新の例について説明する。図8は、機械学習による判定条件式の自動更新の例について説明する図である。図8の例では、初期設定として、操作内容が「サービス故障の自動復旧」であり、判定条件式が「サービス停止>60秒&外形監視ルータ>90秒」であるものとする。つまり、図8の例においては、初期設定として、サービスの停止時間が60秒を超え、且つ、外形監視ルータの起動時間が90秒を超えた場合には、サービス故障と判定し、操作内容として、「サービス故障の自動復旧」を実行することとする。
まず、制御装置10は、サービスの停止および外形監視用ルータの起動時間を監視し、サービス停止を判定する判定条件式を初期設定として登録する。この判定条件式は、図8の左側のグラフに示すように、外形監視用ルータの起動時間が長く、かつサービスの停止時間が長い場合には、サービス故障と判定するものである。
一方、外形監視用ルータの起動時間が短く、かつサービス停止時間が長い場合において、外形監視用ルータがサービスの死活監視を妨げている可能性があるため、ルータの再起動を実行した上で、再度サービスの死活監視を行う手順を取ることが考えられる。つまり、図8の右側のグラフに示すように、外形監視用ルータの起動時間が短く、かつサービス停止時間が長い場合もサービス故障と判定できるように、機械学習により判定条件を自動的に更新していく必要がある。
このため、制御装置10では、監視項目に対する正常値の蓄積がされた場合には、機械学習を利用して正常値の分布を分析し、通常運用からの外れ値を異常として高い感度で判定できるように、判定条件式を修正する。その結果、運用状態に即した判定条件式の生成が可能となり、判定条件式の変数設定の見直し作業が不要となる。
通知部12dは、操作部12fにより計算資源群30により操作が実行された際に、操作の結果として、計算資源間の関係性情報に影響ありと判定した場合には、計算資源間関係性情報群において影響された計算資源間関係性情報を更新し、さらに監視装置20に対して、関係性の変化に伴い変更された計算資源監視条件情報を送信し、監視装置20の設定を更新させる。
決定部12eは、事象の発生を契機に、作成部126によって作成された判定条件式を用いて、事象が発生した計算資源に対して実行する操作を決定する。例えば、決定部12eは、事象情報から取得して計算資源情報群に保存された計算資源情報を基に当該計算資源に該当する判定条件式を判定条件式記憶部13cから取得する。
そして、決定部12eは、取得した条件判定式に関連のある計算資源に対応する資源状態値を、計算資源情報記憶部13aおよび関係性情報記憶部13bより取得し、当該取得した資源状態値を当該取得した判定条件式の変数値として代入し、当該判定条件に該当するか否かを判定する。
この結果、決定部12eは、判定の結果が条件判定式を満たす場合には、判定条件式記憶部13cに記憶された判定条件式情報群より、当該判定条件式に対応する属性値「操作手順」の情報を取得し、計算資源操作手段に対して、当該取得した操作手順の情報を含む計算資源操作依頼を操作部12fに通知する。なお、決定部12eは、判定の結果が判定条件式を満たさない場合には、運用管理者が手動により計算資源操作依頼を送ってもよい。
操作部12fは、決定部12eによって決定された操作を、事象が発生した計算資源に対して実行する。例えば、操作部12fは、決定部12eから計算資源操作依頼を受信した場合、計算資源操作依頼が指定する操作依頼の内容に応じて計算資源群30内の計算資源を操作する。
[情報処理システムによる処理]
次に、図9を用いて、第一の実施形態に係る情報処理システム100による処理を説明する。図9は、第一の実施形態に係る情報処理システムにおける計算資源管理処理の流れを説明するためのフローチャートである。
図9に示すように、監視装置20は、事象を検知すると、制御装置に対して事象情報を送信する(ステップS101)。そして、制御装置10の格納部12aは、事象情報から得られた計算資源情報を保存するとともに、計算資源間関係性情報群から事象が発生した計算資源と特別関係性のある計算資源を参照し、当該特別関係性があると判断された計算資源の情報を保存する(ステップS102)。
続いて、制御装置10は、事象情報から取得して計算資源情報群に保存された計算資源情報を基に当該計算資源に該当する判定条件式を取得する(ステップS103)。その後、制御装置10は、取得した条件判定式に関連のある計算資源に対応する資源状態値を取得し、資源状態値を判定条件式の変数値として代入し、当該判定条件に該当するか否かを判定する(ステップS104)。
そして、制御装置10は、判定条件に該当していないと判定した場合には(ステップS105否定)、そのまま処理を終了する。また、制御装置10は、判定条件に該当していると判定した場合には(ステップS105肯定)、判定条件式に対応する属性値「操作手順」の情報を取得し、操作手順を決定する(ステップS106)。
[監視装置による処理]
次に、図10、図11を用いて、第一の実施形態に係る監視装置10による処理を説明する。図10は、第一の実施形態に係る制御装置における判定条件式更新処理の流れを説明するためのフローチャートである。図11は、第一の実施形態に係る制御装置における判定条件式生成処理の流れを説明するためのフローチャートである。
まず、図10を用いて、制御装置10における判定条件式更新処理の流れを説明する。図10に示すように、制御装置10は、計算資源に対する操作手順が決定したか否かを判定する(ステップS201)。
そして、制御装置10は、計算資源に対する操作手順が決定したと判定した場合には(ステップS201肯定)、計算資源群および関係性のある計算資源の現在の資源状態を保存した後、受信した操作手順の情報を用いて操作を実行する(ステップS202)。
続いて、制御装置10は、操作の結果として、計算資源間の関係性情報に影響ありか否かを判定する(ステップS203)。この結果、制御装置10は、操作の結果として、計算資源間の関係性情報に影響なしと判定した場合には(ステップS203否定)、そのまま処理を終了する。
一方、制御装置10は、操作の結果として、計算資源間の関係性情報に影響ありと判定した場合には(ステップS203肯定)、計算資源間関係性情報群において影響された計算資源間関係性情報を更新し、さらに監視装置20に対して、関係性の変化に伴い変更された計算資源監視条件情報を送信し、監視装置20の設定を更新させる(ステップS204)。
そして、制御装置10は、適応対象判定条件式ひな形選択情報を取得する(ステップS205)。続いて、制御装置10は、判定条件式を生成し、判定条件式を更新し(ステップS206)、処理を終了する。
次に、図11を用いて、制御装置10における判定条件式生成処理の流れを説明する。図11に示すように、制御装置10は、定期的に計算資源情報を記憶部13に記録する(ステップS301)。
そして、制御装置10は、判定条件式を生成する対象となる計算資源に対し、「判定条件式の操作内容を実施しない状態(正常運用時の状態)」の計算資源情報として、計算資源情報を取得する(ステップS302)。続いて、制御装置10は、取得した正常運用時の計算資源情報から正常運用時における計算資源状態を示す属性値「監視項目」と「値」の情報を抽出し,当該「値」の確率分布を推定する(ステップS303)。
そして、制御装置10は、取得した正常運用時の計算資源状態として登録されていた値を元に、確率分布を推定し、前に設定した確率以下の値をとるものを外れ値と定義し、新たに登録もしくは更新する判定条件式を生成する(ステップS304)。そして、制御装置10は、生成した判定条件式を記憶させ、既存の判定条件式の新規登録もしくは更新する(ステップS305)。
[第一の実施形態の効果]
上述してきたように、第一の実施形態にかかる情報処理システム100の制御装置10は、計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を計算資源情報記憶部13aに格納する。そして、制御装置10は、計算資源情報記憶部13aによって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する。そして、制御装置10は、事象の発生を契機に、作成された判定条件式を用いて、事象が発生した計算資源に対して実行する操作を決定し、決定された操作を、事象が発生した計算資源に対して実行する。
これにより、運用管理者の計算資源の管理稼働の負担を低減し、管理作業の効率を向上させることが可能である。情報処理システム100において、故障、過負荷、その他の環境変化などの事象が生じた場合に、発生した事象に対して実行する復旧や増設、減設、移動などの操作決定の判断の基準となる判定式の生成、更新の実行制御の自動化が可能となる。
また、情報処理システム100の制御装置10は、計算資源情報記憶部13aに格納された事象情報を教師データとして用いた機械学習により判定条件式を更新する。これにより、事象情報の蓄積が進むにつれて、自律的に更新した判定条件式における事象判定精度の向上が可能となる。
情報処理システム100では、事象に応じて実行する操作の決定に用いる判定条件式の生成、更新にあたり、実行する運用管理者にとって高度な知識や運用経験を持つ必要がなくなり、かつ更新作業が不要となるため、運用管理者の負担軽減や管理作業の時間短縮など、管理作業の効率化が可能となる。
[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、決定部12eと操作部12fとを統合してもよい。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
また、上記実施形態において説明した情報処理システム100における各装置が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。例えば、第一の実施形態に係る情報処理システム100における各装置が実行する処理をコンピュータが実行可能な言語で記述した計算資源管理プログラムを作成することもできる。この場合、コンピュータが計算資源管理プログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかる計算資源管理プログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録された計算資源管理プログラムをコンピュータに読み込ませて実行することにより上記第一の実施形態と同様の処理を実現してもよい。
図12は、計算資源管理プログラムを実行するコンピュータ1000を示す図である。図12に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。
メモリ1010は、図12に例示するように、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、図12に例示するように、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、図12に例示するように、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1041に挿入される。シリアルポートインタフェース1050は、図12に例示するように、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、図12に例示するように、例えばディスプレイ1061に接続される。
ここで、図12に例示するように、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の計算資源管理プログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブ1031に記憶される。
また、上記実施形態で説明した各種データは、プログラムデータとして、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出し、各種処理手順を実行する。
なお、計算資源管理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、計算資源管理プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 制御装置
11 通信処理部
12 制御部
12a 格納部
12b 作成部
12c 更新部
12d 通知部
12e 決定部
12f 操作部
13 記憶部
13a 計算資源情報記憶部
13b 関係性情報記憶部
13c 判定条件式記憶部
20 監視装置
30 計算資源群
100 情報処理システム

Claims (7)

  1. 計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を記憶部に格納する格納部と、
    前記記憶部によって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する作成部と、
    前記事象の発生を契機に、前記作成部によって作成された判定条件式を用いて、前記事象が発生した計算資源に対して実行する操作を決定する決定部と、
    前記決定部によって決定された操作を、前記事象が発生した計算資源に対して実行する操作部と、
    を有することを特徴とする制御装置。
  2. 前記記憶部に格納された事象情報を教師データとして用いた機械学習により前記判定条件式を更新する更新部をさらに有することを特徴とする請求項1に記載の制御装置。
  3. 前記更新部は、予め設定された判定条件式のひな形を用いて判定条件式を再作成し、該再作成した判定条件式を新たな判定条件式として更新することを特徴とする請求項2に記載の制御装置。
  4. 前記記憶部は、計算資源群の内部で稼働する計算資源と、当該計算資源に関係する他の計算資源とを対応付けた関係性情報を更に記憶し、
    前記更新部は、前記操作部によって操作が実行された結果、前記関係性情報として記憶される、前記操作の対象である計算資源と、当該計算資源に関係する他の計算資源との関係性が変化した場合、前記操作の対象である計算資源に対して前記判定条件式を更新することを特徴とする請求項2または3に記載の制御装置。
  5. 前記作成部は、前記判定条件式を生成する対象となる計算資源について、該計算資源の正常運用時における状態を示す属性値を用いて、当該属性値の確率分布を推定し、事前に設定した確率以下の値をとるものを外れ値と定義した判定条件式を作成することを特徴とする請求項1乃至4のいずれか1項に記載の制御装置。
  6. 計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を記憶部に格納する格納工程と、
    前記記憶部によって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する作成工程と、
    前記事象の発生を契機に、前記作成工程によって作成された判定条件式を用いて、前記事象が発生した計算資源に対して実行する操作を決定する決定工程と、
    前記決定工程によって決定された操作を、前記事象が発生した計算資源に対して実行する操作工程と、
    を含んだことを特徴とする計算資源管理方法。
  7. 計算資源群の内部で稼働する計算資源における事象に関する情報である事象情報を記憶部に格納する格納ステップと、
    前記記憶部によって記憶された事象情報を用いた機械学習により複数の監視項目の情報からなる判定条件式を作成する作成ステップと、
    前記事象の発生を契機に、前記作成ステップによって作成された判定条件式を用いて、前記事象が発生した計算資源に対して実行する操作を決定する決定ステップと、
    前記決定ステップによって決定された操作を、前記事象が発生した計算資源に対して実行する操作ステップと、
    をコンピュータに実行させるための計算資源管理プログラム。
JP2013178381A 2013-08-29 2013-08-29 制御装置、計算資源管理方法及び計算資源管理プログラム Expired - Fee Related JP6068296B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013178381A JP6068296B2 (ja) 2013-08-29 2013-08-29 制御装置、計算資源管理方法及び計算資源管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013178381A JP6068296B2 (ja) 2013-08-29 2013-08-29 制御装置、計算資源管理方法及び計算資源管理プログラム

Publications (2)

Publication Number Publication Date
JP2015046133A true JP2015046133A (ja) 2015-03-12
JP6068296B2 JP6068296B2 (ja) 2017-01-25

Family

ID=52671552

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013178381A Expired - Fee Related JP6068296B2 (ja) 2013-08-29 2013-08-29 制御装置、計算資源管理方法及び計算資源管理プログラム

Country Status (1)

Country Link
JP (1) JP6068296B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017037600A (ja) * 2015-08-14 2017-02-16 富士通株式会社 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置
WO2017134758A1 (ja) * 2016-02-03 2017-08-10 株式会社日立製作所 管理計算機及び管理対象計算機の管理方法
JP2019159604A (ja) * 2018-03-09 2019-09-19 株式会社インテック 異常検知装置、異常検知方法及び異常検知プログラム
JP2021018813A (ja) * 2019-07-18 2021-02-15 株式会社日立製作所 データセットにおける異常の根本原因を検出する方法およびシステム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011046228A1 (ja) * 2009-10-15 2011-04-21 日本電気株式会社 システム運用管理装置、システム運用管理方法、及びプログラム記憶媒体
JP2011192097A (ja) * 2010-03-16 2011-09-29 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
JP2012089109A (ja) * 2011-08-15 2012-05-10 Nautilus Technologies Inc コンピュータリソース制御システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011046228A1 (ja) * 2009-10-15 2011-04-21 日本電気株式会社 システム運用管理装置、システム運用管理方法、及びプログラム記憶媒体
JP2011192097A (ja) * 2010-03-16 2011-09-29 Hitachi Ltd 異常検知方法およびそれを用いた情報処理システム
WO2011125138A1 (ja) * 2010-04-06 2011-10-13 株式会社日立製作所 性能監視装置,方法,プログラム
JP2012089109A (ja) * 2011-08-15 2012-05-10 Nautilus Technologies Inc コンピュータリソース制御システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017037600A (ja) * 2015-08-14 2017-02-16 富士通株式会社 異常対処決定プログラム、異常対処決定方法、及び、状態管理装置
WO2017134758A1 (ja) * 2016-02-03 2017-08-10 株式会社日立製作所 管理計算機及び管理対象計算機の管理方法
US10909016B2 (en) 2016-02-03 2021-02-02 Hitachi, Ltd. Management computer and method of managing computer to be managed
JP2019159604A (ja) * 2018-03-09 2019-09-19 株式会社インテック 異常検知装置、異常検知方法及び異常検知プログラム
JP7040851B2 (ja) 2018-03-09 2022-03-23 株式会社インテック 異常検知装置、異常検知方法及び異常検知プログラム
JP2021018813A (ja) * 2019-07-18 2021-02-15 株式会社日立製作所 データセットにおける異常の根本原因を検出する方法およびシステム

Also Published As

Publication number Publication date
JP6068296B2 (ja) 2017-01-25

Similar Documents

Publication Publication Date Title
JP6025753B2 (ja) パフォーマンス・メトリックを監視するためのコンピュータによって実施される方法、コンピュータ可読記憶媒体、およびシステム
EP3496015A1 (en) Data transformation of performance statistics and ticket information for network devices for use in machine learning models
US9246777B2 (en) Computer program and monitoring apparatus
EP3231135B1 (en) Alarm correlation in network function virtualization environment
US8949676B2 (en) Real-time event storm detection in a cloud environment
US9921877B2 (en) Intelligent auto-scaling
US20140269339A1 (en) System for analysing network traffic and a method thereof
JPWO2012101933A1 (ja) 運用管理装置、運用管理方法、及びプログラム
JP6068296B2 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
JP2018207241A (ja) 管理装置、管理方法及び管理プログラム
CN111064781A (zh) 多容器集群监控数据的采集方法、装置及电子设备
US10282245B1 (en) Root cause detection and monitoring for storage systems
CN108632106A (zh) 监控服务设备的系统
US20150370626A1 (en) Recording medium storing a data management program, data management apparatus and data management method
US20170244252A1 (en) Autonomous Operational Platform for Micro-Grid Energy Management
CN117492944A (zh) 任务调度方法、装置、电子设备及可读存储介质
WO2015141218A1 (ja) 情報処理装置、解析方法、及び、プログラム記録媒体
US10223189B1 (en) Root cause detection and monitoring for storage systems
CN105849699B (zh) 控制数据中心架构设备的方法
WO2019157171A1 (en) Predicting voltage stability of a power system post-contingency
JP5483784B1 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
US10740214B2 (en) Management computer, data processing system, and data processing program
JP7263206B2 (ja) 情報処理システム、情報処理システムの制御方法、情報処理装置、及びプログラム
JP6234759B2 (ja) 情報システム
CN111258845A (zh) 事件风暴的检测

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150805

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20151001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160722

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161222

R150 Certificate of patent or registration of utility model

Ref document number: 6068296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees