JP5893513B2 - Monitoring device, monitoring method and monitoring program - Google Patents
Monitoring device, monitoring method and monitoring program Download PDFInfo
- Publication number
- JP5893513B2 JP5893513B2 JP2012131285A JP2012131285A JP5893513B2 JP 5893513 B2 JP5893513 B2 JP 5893513B2 JP 2012131285 A JP2012131285 A JP 2012131285A JP 2012131285 A JP2012131285 A JP 2012131285A JP 5893513 B2 JP5893513 B2 JP 5893513B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- information
- classification
- monitoring
- manual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明の実施形態は、監視装置、監視方法及び監視プログラムに関する。 Embodiments described herein relate generally to a monitoring device, a monitoring method, and a monitoring program.
クラウドに代表されるサーバの仮想化技術によって装置の集約化や規模の増大が進んでいる。これに伴って、ITリソースが有効活用される一方でシステムの運用管理が煩雑化している。このため、システムの保守者は、幅広いハードウェアやソフトウェアに関する障害に対し、多岐にわたる対処の中から適切な対処を選択せねばならない。 Server virtualization technology, such as cloud computing, is advancing the consolidation and scale of devices. As a result, IT resources are effectively utilized, but system operation management is complicated. For this reason, the system maintainer must select an appropriate response from a wide range of responses to failures related to a wide range of hardware and software.
かかるシステムの運用管理を支援する技術の一例として、障害と対処を予め対応付けておくことによって障害の内容から対処を特定する技術が挙げられる。これによって、保守者によるマニュアル検索そのものを不要化することを目指す。他の一例として、障害の内容を用いてマニュアルを自動的に検索する技術が挙げられる。これによって、保守者によるマニュアル検索の手間を軽減することを目指す。 As an example of a technique for supporting the operation management of such a system, there is a technique for identifying the countermeasure from the contents of the fault by associating the fault with the countermeasure in advance. This aims to eliminate the need for manual search by maintenance personnel. As another example, there is a technique of automatically searching a manual using the content of a failure. This aims to reduce the labor of manual search by maintenance personnel.
しかしながら、上記の従来技術では、以下に説明するように、事前設定なしにマニュアル検索の手間を削減することができないという問題がある。 However, the above-described prior art has a problem that it is not possible to reduce manual search effort without prior setting as described below.
例えば、前者の技術の場合には、事前に障害と対処を対応付ける設定を行うために多大な労力が必要となる。すなわち、システムの監視対象に障害が発生した場合には、障害の内容が記述されたメッセージが生成されるが、かかるメッセージには、障害を識別可能なキーワード等のエッセンス以外にも障害の識別に無関係な日時などの情報も含まれる。このようなメッセージの中から対処と対応付けるエッセンスを抽出するには、設定者に知識や経験が要求される上、想定されるメッセージごとにそのメッセージに相応しい対処を対応付ける労力が必要となる。 For example, in the case of the former technique, a great deal of labor is required to make a setting for associating a failure with a countermeasure in advance. In other words, when a failure occurs in the monitoring target of the system, a message describing the content of the failure is generated. In this message, in addition to the essence such as a keyword that can identify the failure, the failure can be identified. Information such as irrelevant date and time is also included. In order to extract the essence to be associated with the countermeasure from such messages, it is necessary for the setter to have knowledge and experience, and for each assumed message, an effort to associate a countermeasure appropriate for the message is required.
また、後者の技術の場合には、検索によって対処が1つに絞り込まれるとは限らないので、検索結果が多数ある場合にマニュアルを改めて検索し直す手間が生じる場合がある。さらに、後者の技術の場合には、障害のメッセージに含まれているキーワード等のキー情報がマニュアルにも含まれていなければ検索をヒットさせることができず、自動検索を適応できる場面にも制約がある。 In the case of the latter technique, the search is not necessarily narrowed down to one, so that there are cases where it takes time to re-search the manual when there are many search results. Furthermore, in the case of the latter technique, if key information such as keywords included in the failure message is not included in the manual, the search cannot be hit, and the situation where the automatic search can be applied is also limited. There is.
そこで、本発明の実施形態は、上記に鑑みてなされたものであって、事前設定なしにマニュアル検索の手間を削減できる監視装置、監視方法及び監視プログラムを提供することを目的とする。 Therefore, an embodiment of the present invention has been made in view of the above, and an object of the present invention is to provide a monitoring device, a monitoring method, and a monitoring program that can reduce manual search effort without prior setting.
実施形態に係る監視装置は、ネットワークを介して接続される監視対象装置の障害の分類と、前記分類に該当する障害への対処方法とが対応付けられたマニュアルを記憶するマニュアル記憶部と、前記監視対象装置の障害に関する障害情報と、当該障害情報が該当する障害の分類とが対応付けられた履歴情報を蓄積する履歴蓄積部と、前記履歴蓄積部に蓄積された各履歴情報に含まれる障害情報を構成する要素を用いて、各障害情報をベクトルで表現されるデータ形式へ変換する手順を決定する決定部と、前記決定部によって決定された手順にしたがって前記履歴蓄積部に蓄積された履歴情報に含まれる障害情報をベクトル表現のデータ形式の障害情報へ変換する第1の変換部と、前記第1の変換部によって変換された前記ベクトル表現のデータ形式の障害情報と当該障害情報に対応付けられた分類とを学習データとし、ベクトル表現のデータ形式で入力される障害情報から前記障害の分類を判定する判定処理に適用する判定モデルを生成する生成部と、前記監視対象装置の状態を監視する監視部と、前記決定部によって決定された手順にしたがって前記監視部によって障害発生時に生成された障害情報をベクトル表現のデータ形式へ変換する第2の変換部と、前記生成部によって生成された判定モデルを用いて、前記第2の変換部によってベクトル表現のデータ形式へ変換された障害情報から障害の分類を判定する判定部と、前記マニュアル記憶部に記憶されたマニュアルのうち前記判定部によって判定された障害の分類に対応付けられたマニュアルから対処方法を抽出する抽出部とを有する。 The monitoring device according to the embodiment includes a manual storage unit that stores a manual in which a failure classification of a monitoring target device connected via a network is associated with a countermeasure for the failure corresponding to the classification, and A history accumulation unit that accumulates history information in which failure information related to a failure of the monitoring target device is associated with a classification of a failure to which the failure information corresponds, and a failure included in each history information accumulated in the history accumulation unit A determination unit that determines a procedure for converting each piece of failure information into a data format represented by a vector using elements constituting information, and a history stored in the history storage unit according to the procedure determined by the determination unit A first conversion unit that converts the failure information included in the information into failure information in a data format of a vector representation, and the vector representation converted by the first conversion unit. A determination model to be applied to a determination process for determining the classification of the failure from the failure information input in the data format of the vector representation is generated using the failure information in the data format and the classification associated with the failure information as learning data. A generating unit; a monitoring unit that monitors a state of the monitoring target device; and a second unit that converts failure information generated by the monitoring unit when a failure occurs according to a procedure determined by the determining unit into a data format of vector representation A determination unit for determining a classification of a failure from the failure information converted into the data format of the vector representation by the second conversion unit using the determination model generated by the generation unit, and the manual storage Extracting a countermeasure from a manual associated with the failure classification determined by the determination unit among manuals stored in the unit With the door.
実施形態に係る監視装置の一つの態様によれば、事前設定なしにマニュアル検索の手間を削減できるという効果を奏する。 According to one aspect of the monitoring apparatus according to the embodiment, there is an effect that it is possible to reduce manual search labor without prior setting.
以下に、本発明の実施形態に係る監視装置、監視方法及び監視プログラムを図面に基づいて詳細に説明する。なお、この実施形態は本発明を限定するものではない。そして、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 Hereinafter, a monitoring device, a monitoring method, and a monitoring program according to an embodiment of the present invention will be described in detail based on the drawings. Note that this embodiment does not limit the present invention. And each embodiment can be suitably combined in the range which does not contradict a processing content.
[第1の実施形態]
[監視システム1の構成]
図1は、第1の実施形態に係る監視サーバを含む監視システムの構成を示す図である。図1に示す監視システム1には、監視サーバ10と、監視対象装置30A及び30Bと、監視端末50とが収容される。なお、図1の例では、2つの監視対象装置、1つの監視端末をそれぞれ図示したが、本システムは図示の構成に限定されず、監視システム1は任意の数の監視対象装置および監視端末を収容できる。以下では、監視対象装置30A及び30Bを区別なく総称する場合には「監視対象装置30」と呼ぶこととする。
[First Embodiment]
[Configuration of monitoring system 1]
FIG. 1 is a diagram illustrating a configuration of a monitoring system including a monitoring server according to the first embodiment. The
これら監視対象装置30、監視端末50及び監視サーバ10の間は、図示しないネットワークを介して相互に通信可能に接続される。また、監視対象装置30及び監視サーバ10間と、監視端末50及び監視サーバ10間とは、各々が異なる種類の通信網によって接続されることとしてもかまわない。なお、上記のネットワークには、有線または無線を問わず、インターネット(Internet)、LAN(Local Area Network)やVPN(Virtual Private Network)などの任意の種類の通信網を採用できる。
The monitoring target device 30, the
このうち、監視対象装置30は、監視サーバ10によってリソースの状態を監視する対象とされる装置である。監視対象装置30の一例としては、Webサービスを提供するWebサーバやDBMS(DataBase Management System)等を搭載するデータベースサーバなどのサーバ装置が挙げられる。これらWebサーバやデータベースサーバとしての機能はオンプレミスで実装することもできるし、また、クラウドとして実装することもできる。
Among these, the monitoring target device 30 is a device that is a target whose resource status is monitored by the
監視端末50は、監視対象装置30の保守者によって使用される端末装置である。かかる監視端末50の一例としては、パーソナルコンピュータ(PC:Personal Computer)を始めとする固定端末の他、携帯電話機、PHS(Personal Handyphone System)やPDA(Personal Digital Assistants)などの移動体端末も採用できる。
The
[監視サーバ10の構成]
監視サーバ10は、監視対象装置30の状態を監視し、障害発生時に障害に関する障害情報を監視端末50へ通知するサーバ装置である。図1に示すように、監視サーバ10は、監視部11と、出力部12と、マニュアル記憶部13と、検索部14と、取得部15aと、履歴蓄積部15bと、変換手順決定部16aと、変換手順記憶部16bと、第1の変換部17aと、モデル生成部18aと、第2の変換部17bと、判定部18bと、抽出部19とを有する。なお、監視サーバ10は、図1に示した機能部以外にも既知のサーバ装置が有する各種の機能部、例えば各種の入力デバイスや音声出力デバイスなどの機能部を有することとしてもかまわない。
[Configuration of the monitoring server 10]
The
このうち、監視部11は、監視対象装置30の状態を監視する処理部である。具体的には、監視部11は、SNMP(Simple Network Management Protocol)にしたがって監視対象装置30上で動作するアプリケーションのログや通信のログなどを監視情報として採取する。そして、監視部11は、監視対象装置30から採取した監視情報を用いて、監視対象装置30に障害が発生しているか否かを判定する。このとき、監視部11は、監視対象装置30に障害が発生している場合には、アプリケーションのログや通信のログから障害情報を生成する。その上で、監視部11は、上述のように生成した障害情報を出力部12及び第2の変換部17bへ出力する。
Among these, the
出力部12は、監視端末50に対する情報の出力を制御する処理部である。具体的には、出力部12は、監視部11によって障害情報が生成された場合に、障害情報及び障害の分類の対応付けに関する学習が一定の学習度に達したか否かを判定する。すなわち、一定の学習度に達していない場合には、モデル生成部18aによって生成される判定モデルを用いて、障害情報からその障害の分類を判定部18bに判定させたとしても、正答を得ることができるとは限らない。このため、出力部12は、例えば、モデル生成部18aによって判定モデルの生成に用いられた学習データのサンプル数、すなわち監視端末50から取得された障害対処の履歴情報の数が所定の閾値以上であるか否かによって一定の学習度に達したか否かを判定する。そして、出力部12は、一定の学習度に達している場合には、障害情報とともに抽出部19によって出力される障害の分類や対処方法を併せて監視端末50へ出力し、一定の学習度に達していない場合には、障害情報を監視端末50へ出力する。また、出力部12は、検索部14によってマニュアルの検索が実行された場合に、その検索結果を監視端末50へ出力する。
The
マニュアル記憶部13は、監視対象装置30の障害と当該障害への対処とを含むマニュアルを記憶する記憶部である。かかるマニュアル記憶部13は、障害分類番号、障害の分類及びマニュアル番号が対応付けられた障害分類情報と、マニュアル番号及び対処方法が対応付けられた対処情報とを記憶する。なお、上記の「障害分類番号」は、監視対象装置30で発生する障害の分類を識別する番号を指し、また、「マニュアル番号」は、マニュアルを識別する番号を指す。
The
図2は、障害分類情報の構成例を示す図である。図3は、対処情報の構成例を示す図である。図2に示すように、CPU関連のエラー「001」、MEMORY関連のエラー「002」及びWEBアプリ関連のエラー「005」に分類される障害がいずれもマニュアル番号「a」に対応し、図3に示すように、マニュアル番号「a」にはPCリブートが対応付けられている。これは、CPU関連のエラー「001」、MEMORY関連のエラー「002」及びWEBアプリ関連のエラー「005」に分類される障害への対処方法がいずれも共通し、コンピュータを再起動することによって対処すべき旨が定められていることを意味する。また、図2に示すように、DB関連のエラー「003」に分類される障害がマニュアル番号「b」に対応し、図3に示すように、マニュアル番号「b」にDBリブートが対応付けられている。これは、DB関連のエラーにはデータベースを再起動することによって対処すべき旨が定められていることを意味する。また、図2に示すように、HTTP関連のエラー「004」に分類される障害がマニュアル番号「c」に対応し、図3に示すように、マニュアル番号「c」にNWリブートが対応付けられている。これは、HTTP関連のエラーにはネットワークを再起動することによって対処すべき旨が定められていることを意味する。 FIG. 2 is a diagram illustrating a configuration example of failure classification information. FIG. 3 is a diagram illustrating a configuration example of the handling information. As shown in FIG. 2, failures classified into CPU-related error “001”, MEMORY-related error “002”, and WEB application-related error “005” all correspond to the manual number “a”. As shown in FIG. 4, the manual number “a” is associated with a PC reboot. This is a common solution to failures classified into CPU-related error “001”, MEMORY-related error “002”, and WEB application-related error “005”, and can be handled by restarting the computer. It means that it should be established. Further, as shown in FIG. 2, a failure classified as DB related error “003” corresponds to manual number “b”, and as shown in FIG. 3, DB reboot is associated with manual number “b”. ing. This means that it is determined that DB related errors should be dealt with by restarting the database. Further, as shown in FIG. 2, a failure classified as HTTP related error “004” corresponds to manual number “c”, and as shown in FIG. 3, NW reboot is associated with manual number “c”. ing. This means that it has been determined that HTTP related errors should be dealt with by restarting the network.
ここで、上記の図2の例では、障害分類情報として障害分類番号および障害の分類を記憶させる場合を例示したが、監視端末50によるキーワード検索にも対応する観点から、実際に生成された障害情報を構成する要素、例えば障害メッセージもしくは障害メッセージから抽出されたキーワード等が併せて記憶されることとする。なお、図2及び図3の例では、マニュアルに含まれる障害分類情報および対処情報の各々を別のテーブルとして構成する場合を例示したが、これら障害分類情報および対処情報を1つのテーブルとして構成することもできる。
Here, in the example of FIG. 2 described above, the failure classification number and the failure classification are stored as the failure classification information. However, from the viewpoint of corresponding to the keyword search by the monitoring
検索部14は、マニュアル記憶部13を用いて、監視端末50からのキー情報の指定をもとに当該キー情報に対応するマニュアルを検索する処理部である。具体的には、検索部14は、監視端末50からキーワード等のキー情報の指定を含む検索要求を受け付ける。すると、検索部14は、マニュアル記憶部13に記憶されたマニュアルのうち、当該検索要求で指定されたキーワードと部分一致または完全一致する障害メッセージもしくは障害メッセージから抽出されたキーワードを含むマニュアルを検索する。この結果、検索部14は、検索がヒットした場合には、検索がヒットしたマニュアルを検索結果として出力部12へ出力する。
The
取得部15aは、監視端末50から障害対処の履歴情報を取得する処理部である。具体的には、取得部15aは、監視端末50へ障害情報が通知された場合に、マニュアルの検索が実行されているか否かを判定する。このとき、取得部15aは、マニュアルの検索が実行されている場合には、マニュアルの検索結果のうち対処が選択されたマニュアルを選択可能な履歴入力画面を監視端末50へ出力する。そして、取得部15aは、監視端末50上に表示された履歴入力画面を介して入力された履歴情報、例えば障害情報が該当する障害の分類とともに出力部12によって出力された障害情報を取得する。一方、マニュアルの検索が実行されずに対処が実行された場合には、出力部12によって出力された障害情報、障害の分類および障害への対処方法がそのまま履歴情報として監視サーバ10へ返信される。このとき、監視端末50から障害情報、障害の分類および障害への対処方法の返信を受け付ける代わりに障害対処の完了通知を受け付け、かかる完了通知を受け付けた場合に、出力部12によって監視端末50へ出力された障害情報、障害の分類および障害への対処方法を履歴情報として取得することもできる。このように履歴情報を取得した後に、取得部15aは、監視端末50から取得した障害情報および障害の分類を含む履歴情報を履歴蓄積部15bへ格納する。
The
図4は、監視端末50に表示される履歴入力画面の一例を示す図である。図4に示すように、履歴入力画面200には、障害分類番号「001」〜「005」の5つの分類の障害とその対処方法とが対応付けられたマニュアルが表示されている。例えば、5つのマニュアルの左側にレイアウトされたラジオボタンのうち障害分類番号「004」のWEBアプリ関連のエラーに関するマニュアルが選択された状態で実行ボタン200Aが押下されると、出力部12によって履歴入力画面200とは別途通知された障害情報と、履歴入力画面200を介して入力された障害分類番号「004」とが対応付けられた履歴情報が監視端末50から監視サーバ10へ送信される。これによって、取得部15aは、障害情報と障害の分類との対応付けを取得することができる。
FIG. 4 is a diagram illustrating an example of a history input screen displayed on the
履歴蓄積部15bは、障害対処の履歴情報を蓄積する記憶部である。一例として、履歴蓄積部15bには、取得部15aによって履歴情報が取得される度に、当該履歴情報が追加登録される。他の一例として、履歴蓄積部15bは、障害情報を構成する要素、例えば障害メッセージからその障害情報の分類を判定するための判定モデルを生成するために、変換手順決定部16aによって参照される。
The
変換手順決定部16aは、履歴蓄積部15bを参照し、各履歴情報の障害情報を構成する要素を用いて、各障害情報をベクトルで表現されるデータ形式へ変換する手順を決定する処理部である。
The conversion
具体的に説明すると、変換手順決定部16aは、前回に障害情報及び障害の分類の対応付けに関する学習が実行されてから新規に登録された履歴情報が所定の閾値以上になった場合に処理を起動する。すなわち、変換手順決定部16aは、新規の履歴情報が閾値以上になった場合に、履歴蓄積部15bに蓄積された全ての履歴情報を読み出す。このように、履歴情報から生成される学習データが前回の学習時と大差がない場合に処理の起動を抑制するのは、高頻度に学習が実行されることによって監視サーバ10の処理負荷が増大するのを抑制するためである。なお、ここでは、新規の履歴情報が閾値以上になった場合に処理を起動する場合を例示したが、新規の履歴情報が追加される度に処理を起動することとしてもよいし、また、バッチ処理で処理を起動することとしてもかまわない。
More specifically, the conversion
続いて、変換手順決定部16aは、各履歴情報の障害情報を構成する要素、例えば障害メッセージに含まれる単語の種類数からベクトルの次元数を決定した上で当該ベクトルの各成分に単語を割り当てる。例えば、変換手順決定部16aは、先に読み出した各障害情報を構成する要素のうち障害メッセージに含まれる全単語を形態素解析等を実行することによって探索し、各障害メッセージ間で重複しない単語を抽出する。その後、変換手順決定部16aは、各障害メッセージ間で重複しない単語の総数をベクトルの次元数と決定する。続いて、変換手順決定部16aは、各障害メッセージ間で重複しない単語をベクトルの各成分へ順番に割り当てる。その上で、変換手順決定部16aは、各成分に割り当てられた単語が障害メッセージに含まれるか否かによってベクトルの各成分の値を導出する手順を定義する。以下では、ベクトルで表現されるデータ形式へ変換する手順のことを「変換手順」と呼ぶとともに、ベクトル表現のデータ形式へ変換する処理のことを「ベクトル化」と呼ぶ場合がある。その後、変換手順決定部16aは、上述のようにして定義された変換手順を変換手順記憶部16bへ保存する。
Subsequently, the conversion
なお、本実施形態では、障害情報をベクトルで表現されるデータ形式へ変換するにあたって障害情報を構成する要素のうち障害メッセージを用いて変換手順を定義する場合を例示するが、他の要素、例えば監視対象装置30のホスト名、監視方法、監視種別、OS、サーバ種別、日時、搭載システム名、監視ポート番号などを用いて変換手順を定義してもよいし、また、障害メッセージ及び他の要素を組み合わせて変換手順を定義することもできる。また、ここでは、各障害メッセージに含まれる全単語のうち重複しない単語をベクトルの成分に割り当てる場合を例示したが、必ずしも各障害メッセージ間で重複しない単語を全て割り当てる必要はない。例えば、障害メッセージに含まれる単語のうち出現頻度が上位から所定の順位までの単語に限ってベクトルの成分への割り当て対象とすることもできる。これによって、日付やWebサービスの内容などの障害の分類を識別するにあたってノイズとなる単語を割り当てから除外できる結果、障害メッセージおよび障害の分類の対応付けに関する学習精度を高めることができる。 In this embodiment, the case where the conversion procedure is defined using a failure message among the elements constituting the failure information when converting the failure information into a data format represented by a vector is exemplified. The conversion procedure may be defined by using the host name, monitoring method, monitoring type, OS, server type, date / time, installed system name, monitoring port number, etc. of the monitoring target device 30, and a failure message and other elements The conversion procedure can also be defined by combining. Also, here, the case where non-overlapping words among all the words included in each failure message are assigned to the vector component is illustrated, but it is not always necessary to assign all the non-overlapping words between the failure messages. For example, among words included in the failure message, only words having an appearance frequency from the top to a predetermined rank can be assigned to the vector components. As a result, a word that causes noise in identifying a failure classification such as a date or Web service content can be excluded from the assignment. As a result, the learning accuracy regarding the association between the failure message and the failure classification can be improved.
変換手順記憶部16bは、障害情報をベクトルで表現されるデータ形式へ変換する手順を記憶する記憶部である。一例として、変換手順記憶部16bには、変換手順決定部16aによって変換手順が決定された場合に、当該変換手順が更新登録される。他の一例として、変換手順記憶部16bは、履歴情報に含まれる障害情報をベクトル表現のデータ形式へ変換する場合に、第1の変換部17aによって参照される。更なる一例として、変換手順記憶部16bは、監視部11によって生成された障害情報をベクトル表現のデータ形式へ変換する場合に、第2の変換部17bによって参照される。
The conversion
第1の変換部17aは、変換手順記憶部16bに記憶された変換手順にしたがって履歴蓄積部15bに蓄積された履歴情報に含まれる障害情報をベクトル表現のデータ形式の障害情報へ変換する処理部である。
The
図5は、障害情報の変換方法の一例を示す図である。図5の上段には、3つの履歴情報を図示し、図5の中段には、変換手順の一例を図示し、図5の下段には、ベクトル表現のデータ形式へ変換後の障害情報を図示している。なお、図5の例では、説明の便宜上、3つの履歴情報の障害メッセージに含まれる単語を用いて変換手順を決定する場合を例示するが、変換手順の決定に使用される履歴情報の数は任意の数であってかまわない。 FIG. 5 is a diagram illustrating an example of a failure information conversion method. The upper part of FIG. 5 illustrates three pieces of history information, the middle part of FIG. 5 illustrates an example of a conversion procedure, and the lower part of FIG. 5 illustrates failure information after conversion into a vector representation data format. Show. In the example of FIG. 5, for the sake of convenience of explanation, the case where the conversion procedure is determined using words included in the failure message of three history information is illustrated, but the number of history information used for determining the conversion procedure is It can be any number.
図5の上段に示すように、履歴蓄積部15bから履歴1〜履歴3の3つの履歴情報が読み出されたとしたとき、各履歴情報に含まれる障害情報を構成する各障害メッセージに含まれる全単語を探索し、各障害メッセージ間で重複しない単語を抽出する。図5の例で言えば、全9語のうち「error」及び「apache」の2つが障害メッセージ間で重複するので、「postgres」、「error」、「xxxx」、「apache」、「yyyy」、「warning」及び「zzzz」の7つが抽出される。このように、各障害メッセージ間で重複しない単語の総数が7つであるので、ベクトルの次元数が「7」と決定される。続いて、ベクトルの成分1〜成分7に「postgres」、「error」、「xxxx」、「apache」、「yyyy」、「warning」、「zzzz」が順次割り当てられる。その上で、ベクトルの成分1〜成分7に割り当てられた単語が障害メッセージに含まれるか否かによってベクトルの各成分の値を導出する手順が定義される。例えば、ベクトルの成分1の例で言えば、障害メッセージに「postgres」が存在する場合に値「1」を付与し、障害メッセージに「postgres」が存在しない場合に値「0」を付与するという手順が定義される。このようにして障害メッセージをベクトル表現のデータ形式へ変換する変換手順が定義される。
As shown in the upper part of FIG. 5, when three pieces of
このような変換手順が定義された状況の下、履歴1〜履歴3の履歴情報の障害情報がベクトル化される。例えば、履歴1の場合には、障害情報を構成する障害メッセージが「postgres error xxxx」であるので、ベクトルの成分1〜成分3には値「1」が付与されるとともに、ベクトルの成分4〜成分7には値「0」が付与される。この結果、履歴1の変換後の障害情報(1,1,1,0,0,0,0)が得られる。また、履歴2の場合には、障害情報を構成する障害メッセージが「apache error yyyy」であるので、ベクトルの成分2、成分4及び成分5には値「1」が付与されるとともに、それ以外のベクトルの成分には値「0」が付与される。この結果、履歴2の変換後の障害情報(0,1,0,1,1,0,0)が得られる。また、履歴3の場合には、障害情報を構成する障害メッセージが「apache warning zzzz」であるので、ベクトルの成分4、成分6及び成分7には値「1」が付与されるとともに、それ以外のベクトルの成分には値「0」が付与される。この結果、履歴3の変換後の障害情報(0,0,0,1,0,1,1)が得られる。これら変換後の障害情報と障害分類番号との対応付けが判定モデルの生成時に学習データとして用いられる。
Under the situation where such a conversion procedure is defined, failure information of history information of
モデル生成部18aは、ベクトル表現のデータ形式で入力される障害情報から障害の分類を判定する判定処理に適用する判定モデルを生成する処理部である。一態様としては、モデル生成部18aは、第1の変換部17aによって変換されたベクトル表現のデータ形式の障害情報と当該障害情報に対応付けられた障害の分類とを学習データとし、サポートベクトルマシンやk近傍法などの各種の機械学習アルゴリズムによって実現される判定器に適用する判定モデルを生成する。
The
第2の変換部17bは、変換手順記憶部16bに記憶された変換手順にしたがって監視部11によって障害発生時に生成された障害情報をベクトル表現のデータ形式の障害情報へ変換する処理部である。かかる第2の変換部17bは、変換対象とする障害情報が履歴情報に含まれるものではなく、監視部11によって生成されたものであることを除けば第1の変換部17aと同様の処理を実行する。
The
判定部18bは、モデル生成部18aによって生成された判定モデルを用いて、第2の変換部17bによって変換されたベクトル表現のデータ形式の障害情報から障害の分類を判定する処理部である。一態様としては、判定部18bは、モデル生成部18aによって新たな判定モデルが生成される度に、障害情報の入力に応答して当該障害情報が該当する障害の分類の出力を返す判定器を再作成する。その上で、判定部18bは、第2の変換部17bによってベクトル表現のデータ形式の障害情報が入力されると、判定器によって判定された障害の分類を出力部12へ出力する。このとき、判定部18bは、障害の分類とともに障害情報が当該障害の分類に該当する尤度を出力する判定器を作成している場合には、尤度が所定の閾値以上である場合に限って障害の分類を出力することとしてもかまわない。
The
抽出部19は、マニュアル記憶部13に記憶されたマニュアルのうち判定部18bによって判定された障害の分類に対応付けられたマニュアルから対処方法を抽出する処理部である。具体的には、抽出部19は、判定部18bによって障害の分類が判定されると、マニュアル記憶部13に記憶された障害分類情報のうち当該障害の分類が対応付けられたマニュアル番号を抽出する。そして、抽出部19は、マニュアル記憶部13に記憶された対処情報のうち当該マニュアル番号に対応付けられた対処方法を抽出する。その上で、抽出部19は、障害の分類および対処方法を出力部12へ出力する。
The
なお、図1に示した監視部11、出力部12、検索部14、取得部15a、変換手順決定部16a、第1の変換部17a、第2の変換部17b、モデル生成部18a、判定部18b及び抽出部19などの各種の機能部には、各種の集積回路や電子回路を採用できる。例えば、集積回路としては、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)が挙げられる。また、電子回路としては、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などが挙げられる。
In addition, the
また、図1に示したマニュアル記憶部13、履歴蓄積部15b及び変換手順記憶部16bなどの各種の記憶部には、次のようなデバイスを採用できる。例えば、RAM(Random Access Memory)、ROM(Read Only Memory)やフラッシュメモリ(flash memory)などの半導体メモリ素子を採用できる。また、ハードディスク、光ディスクなどの記憶装置も採用できる。
In addition, the following devices may be employed for various storage units such as the
[処理の流れ]
続いて、本実施形態に係る監視サーバ10の処理の流れについて説明する。なお、ここでは、監視サーバ10によって実行される(1)判定モデルの生成処理を説明した後に(2)障害監視処理を説明することとする。
[Process flow]
Next, the process flow of the
(1)判定モデルの生成処理
図6は、第1の実施形態に係る判定モデルの生成処理の手順を示すフローチャートである。この生成処理は、監視サーバ10の電源がON状態である限り、繰り返し実行される処理である。
(1) Determination Model Generation Processing FIG. 6 is a flowchart illustrating a determination model generation processing procedure according to the first embodiment. This generation process is a process that is repeatedly executed as long as the power of the
図6に示すように、監視端末50から障害対処の履歴情報が取得されると(ステップS101,Yes)、監視サーバ10は、監視端末50から取得した障害情報および障害の分類を含む履歴情報を履歴蓄積部15bへ格納する(ステップS102)。
As illustrated in FIG. 6, when the failure handling history information is acquired from the monitoring terminal 50 (Yes in step S <b> 101), the monitoring
続いて、前回に障害情報及び障害の分類の対応付けに関する学習を実行されてから新規に登録された履歴情報が所定の閾値以上になるまで(ステップS103,No)、監視サーバ10は、上記のステップS101〜ステップS102の処理を繰り返し実行する。
Subsequently, until the newly registered history information becomes equal to or greater than a predetermined threshold after the previous learning about the association between the failure information and the failure classification (step S103, No), the monitoring
このとき、前回に障害情報及び障害の分類の対応付けに関する学習を実行されてから新規に登録された履歴情報が所定の閾値以上になった場合(ステップS103,Yes)には、監視サーバ10は、履歴蓄積部15bに蓄積された全ての履歴情報を読み出す(ステップS104)。
At this time, if the newly registered history information is equal to or greater than a predetermined threshold after the previous learning about the association between the failure information and the failure classification (step S103, Yes), the monitoring
続いて、監視サーバ10は、各履歴情報に含まれる障害情報を構成する障害メッセージに含まれる単語を用いて、各障害情報をベクトルで表現されるデータ形式へ変換する変換手順を決定する(ステップS105)。
Subsequently, the monitoring
そして、監視サーバ10は、ステップS105で決定された変換手順にしたがって履歴蓄積部15bに蓄積された履歴情報に含まれる障害情報をベクトル表現のデータ形式の障害情報へ変換する(ステップS106)。
Then, the monitoring
その上で、監視サーバ10は、ステップS106で変換されたベクトル表現のデータ形式の障害情報と当該障害情報に対応付けられた障害の分類とを学習データとし、サポートベクトルマシンやk近傍法などの各種の機械学習アルゴリズムによって実現される判定器に適用する判定モデルを生成する(ステップS107)。
After that, the monitoring
その後、監視サーバ10は、ステップS105で決定された変換手順を変換手順記憶部16bへ保存し(ステップS108)、上記のステップS101の処理へ移行する。
Thereafter, the monitoring
なお、図6に示すフローチャートでは、変換手順記憶部16bへの変換手順の登録をステップS108で実行する場合を例示したが、本発明はこれに限定されず、変換手順が決定されたS105よりも後であれば任意のタイミングで変換手順記憶部16bへの変換手順の登録を実行することができる。
In the flowchart shown in FIG. 6, the case where the conversion procedure is registered in the conversion
(2)障害監視処理
図7は、第1の実施形態に係る障害監視処理の手順を示すフローチャートである。この処理は、監視対象装置30における障害の発生が検知された場合に処理が起動する。
(2) Fault Monitoring Process FIG. 7 is a flowchart showing the procedure of the fault monitoring process according to the first embodiment. This process is started when the occurrence of a failure in the monitoring target device 30 is detected.
図7に示すように、監視サーバ10は、障害情報が生成されると(ステップS301)、変換手順記憶部16bに記憶された変換手順にしたがって障害情報をベクトル表現のデータ形式の障害情報へ変換する(ステップS302)。
As shown in FIG. 7, when the failure information is generated (step S301), the monitoring
続いて、監視サーバ10は、判定モデルを用いて、ステップS302で変換されたベクトル表現のデータ形式の障害情報から障害の分類を判定する(ステップS303)。そして、監視サーバ10は、マニュアル記憶部13に記憶された障害分類情報のうち当該障害の分類が対応付けられたマニュアル番号を特定する(ステップS304)。
Subsequently, the monitoring
そして、監視サーバ10は、マニュアル記憶部13に記憶された対処情報のうち当該マニュアル番号に対応付けられた対処方法を抽出する(ステップS305)。その上で、監視サーバ10は、障害情報、障害の分類および対処方法を監視端末50へ出力し(ステップS306)、処理を終了する。
And the monitoring
[実施例1の効果]
上述してきたように、本実施形態に係る監視サーバ10は、監視端末50から取得された履歴情報を用いて、ベクトル表現のデータ形式へ変換後の障害情報と障害の分類の対応付けを機械学習することによって判定モデルを生成し、監視対象装置30で障害が発生した場合には、当該判定モデルを用いて、ベクトル表現のデータ形式へ変換した障害情報から障害の分類を判定した上で障害の分類に対応する対処方法を監視端末50へ出力する。
[Effect of Example 1]
As described above, the monitoring
このため、本実施形態に係る監視サーバ10では、障害情報から障害を識別可能なキーワード等のエッセンスを抽出した上で対処方法に対応付ける煩雑な事前設定を行わずとも、機械学習によって障害情報を構成する要素、例えば障害メッセージからその障害への対処方法を抽出できる。さらに、本実施形態に係る監視サーバ10では、機械学習によって得られた障害の分類と対応付けられた障害への対処方法を抽出するので、保守者に提示されるマニュアルが1つに絞り込まれる。この結果、上記の従来技術のように、検索結果が多数ある場合にマニュアルを改めて検索し直す手間が生じることもない。
For this reason, in the
したがって、本実施形態に係る監視サーバ10によれば、事前設定なしにマニュアル検索の手間を削減できる。さらに、本実施形態に係る監視サーバ10では、上記の従来技術のようにキーワード等のキー情報を用いた検索を行う必要がなく、障害情報を構成する要素に含まれるキーワードが対処方法に含まれずとも、障害情報のベクトル化および機械学習による判定を通じて障害への対処方法を抽出できるので、自動検索によって対処方法を提示する場合よりも適用範囲を拡張することもできる。
Therefore, according to the
また、本実施形態に係る監視サーバ10は、各履歴情報に含まれる障害情報を構成する要素のうち障害メッセージに含まれる単語の種類数からベクトルの次元数を決定した後に当該ベクトルの各成分に単語を割り当てた上で、各成分に割り当てられた単語が障害メッセージに含まれるか否かによってベクトルの各成分の値を導出する手順を定義する。このため、本実施形態に係る監視サーバ10では、障害を識別可能なキーワード等のエッセンスを含んだ状態で障害情報をベクトル化できるので、障害情報を適切な障害の分類にカテゴライズすることができる結果、機械学習による判定精度を向上させることができる。
In addition, the monitoring
[第2の実施形態]
さて、これまで本発明の実施形態について説明したが、本発明は上述した実施形態以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施形態を説明する。
[Second Embodiment]
Although the embodiments of the present invention have been described so far, the present invention may be implemented in various different forms other than the above-described embodiments. Therefore, in the following, other embodiments included in the present invention will be described.
[マニュアルの追加]
上記の第1の実施形態では、特段の説明を行っていないが、マニュアル記憶部13に記憶されたマニュアルは任意に追加、更新または削除を行うことができる。例えば、履歴情報として、障害情報および障害の分類に加えて障害への対処方法をさらに取得し、取得した履歴情報に含まれる障害への対処方法がマニュアル記憶部13に登録されていない場合に新規のマニュアル番号を生成し、マニュアル記憶部13に記憶された障害分類情報に新規のマニュアル番号および当該履歴情報に含まれる障害分類番号を追加するとともに、マニュアル記憶部13に記憶された対処情報に新規のマニュアル番号および当該履歴情報に含まれる対処方法を追加することもできる。これによって、マニュアル記憶部13を手動設定によってメンテナンスせずとも、マニュアルの追加を自動化することができる。
[Add manual]
In the first embodiment, no special description is given, but the manual stored in the
[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、監視部11、出力部12、検索部14、取得部15a、変換手順決定部16a、第1の変換部17a、第2の変換部17b、モデル生成部18a、判定部18bまたは抽出部19のうち一部の機能部を監視サーバ10の外部装置としてネットワーク経由で接続するようにしてもよい。また、監視部11、出力部12、検索部14、取得部15a、変換手順決定部16a、第1の変換部17a、第2の変換部17b、モデル生成部18a、判定部18bまたは抽出部19を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の監視サーバ10の機能を実現するようにしてもよい。また、図1に示した第1の変換部17a及び第2の変換部17bは、変換部として1つの機能部に統合することもできる。
[Distribution and integration]
In addition, each component of each illustrated apparatus does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. For example, the
[監視プログラム]
図8は、第2の実施形態に係る監視プログラムによる情報処理がコンピュータを用いて具体的に実現されることを示す図である。図8に例示するように、コンピュータは、例えば、メモリと、CPUと、ハードディスクドライブインタフェースと、ディスクドライブインタフェースと、シリアルポートインタフェースと、ビデオアダプタと、ネットワークインタフェースとを有し、これらの各部はバスによって接続される。
[Monitoring program]
FIG. 8 is a diagram illustrating that the information processing by the monitoring program according to the second embodiment is specifically realized using a computer. As illustrated in FIG. 8, the computer includes, for example, a memory, a CPU, a hard disk drive interface, a disk drive interface, a serial port interface, a video adapter, and a network interface. Connected by.
メモリは、図8に例示するように、ROM及びRAMを含む。ROMは、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェースは、図8に例示するように、ハードディスクドライブに接続される。ディスクドライブインタフェースは、図8に例示するように、ディスクドライブに接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブに挿入される。シリアルポートインタフェースは、図8に例示するように、例えばマウス、キーボードに接続される。ビデオアダプタは、図8に例示するように、例えばディスプレイに接続される。 The memory includes a ROM and a RAM as illustrated in FIG. The ROM stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface is connected to the hard disk drive as illustrated in FIG. The disk drive interface is connected to the disk drive as illustrated in FIG. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive. The serial port interface is connected to, for example, a mouse and a keyboard as illustrated in FIG. The video adapter is connected to a display, for example, as illustrated in FIG.
ここで、図8に例示するように、ハードディスクドライブは、例えば、OS(Operating System)、アプリケーションプログラム、プログラムモジュール、プログラムデータを記憶する。すなわち、第2の実施形態に係る監視プログラムは、コンピュータによって実行される指令が記述されたプログラムモジュールとして、例えばハードディスクドライブに記憶される。具体的には、上記実施形態で説明した監視サーバの各種の機能部と同様の情報処理を実行する監視手順が記述されたプログラムモジュールが、ハードディスクドライブに記憶される。また、上記実施形態で説明した各種の記憶部に記憶されるデータのように、監視プログラムによる情報処理に用いられるデータは、プログラムデータとして、例えばハードディスクドライブに記憶される。そして、CPUが、ハードディスクドライブに記憶されたプログラムモジュールやプログラムデータを必要に応じてRAMに読み出し、監視手順を実行する。 Here, as illustrated in FIG. 8, the hard disk drive stores, for example, an OS (Operating System), an application program, a program module, and program data. That is, the monitoring program according to the second embodiment is stored in, for example, a hard disk drive as a program module in which a command to be executed by a computer is described. Specifically, a program module describing a monitoring procedure for executing information processing similar to the various functional units of the monitoring server described in the above embodiment is stored in the hard disk drive. In addition, data used for information processing by the monitoring program, such as data stored in the various storage units described in the above embodiment, is stored as program data in, for example, a hard disk drive. Then, the CPU reads program modules and program data stored in the hard disk drive into the RAM as necessary, and executes a monitoring procedure.
なお、監視プログラムに係るプログラムモジュールやプログラムデータは、ハードディスクドライブに記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPUによって読み出されてもよい。あるいは、監視プログラムに係るプログラムモジュールやプログラムデータは、LAN、WAN(Wide Area Network)等を介して接続された他のコンピュータに記憶され、ネットワークインタフェースを介してCPUによって読み出されてもよい。 Note that the program module and program data relating to the monitoring program are not limited to being stored in the hard disk drive, but may be stored in a removable storage medium, for example, and read out by the CPU via the disk drive or the like. Alternatively, the program module and program data relating to the monitoring program may be stored in another computer connected via a LAN, WAN (Wide Area Network), etc., and read by the CPU via the network interface.
1 監視システム
10 監視サーバ
11 監視部
12 出力部
13 マニュアル記憶部
14 検索部
15a 取得部
15b 履歴蓄積部
16a 変換手順決定部
16b 変換手順記憶部
17a 第1の変換部
17b 第2の変換部
18a モデル生成部
18b 判定部
19 抽出部
30A,30B 監視対象装置
50 監視端末
DESCRIPTION OF
Claims (5)
前記監視対象装置の障害に関する障害情報と、当該障害情報が該当する障害の分類とが対応付けられた履歴情報を蓄積する履歴蓄積部と、
前記履歴蓄積部に蓄積された各履歴情報に含まれる障害情報を構成する各障害メッセージに含まれる単語の全種類を抽出し、その種類の総数をベクトルの次元数と決定し、単語の各種類をベクトルの各成分に割りあて、各成分に割り当てられた単語が障害情報に含まれるか否かによって、ベクトルの各成分の値を導出するという手順を、各障害情報をベクトルで表現されるデータ形式へ変換する手順として決定する決定部と、
前記決定部によって決定された手順にしたがって前記履歴蓄積部に蓄積された履歴情報に含まれる障害情報をベクトル表現のデータ形式の障害情報へ変換する第1の変換部と、
前記障害情報と前記対処方法とを学習データとするのではなく、前記第1の変換部によって変換された前記ベクトル表現のデータ形式の障害情報と当該障害情報に対応付けられた分類とを学習データとし、ベクトル表現のデータ形式で入力される障害情報から前記障害の分類を判定する判定処理に適用する判定モデルを生成する生成部と、
前記監視対象装置の状態を監視する監視部と、
前記決定部によって決定された手順にしたがって前記監視部によって障害発生時に生成された障害情報をベクトル表現のデータ形式へ変換する第2の変換部と、
前記生成部によって生成された判定モデルを用いて、前記第2の変換部によってベクトル表現のデータ形式へ変換された障害情報から障害の分類を判定する判定部と、
前記マニュアル記憶部に記憶されたマニュアルのうち前記判定部によって判定された障害の分類に対応付けられたマニュアルから対処方法を抽出する抽出部と
を有することを特徴とする監視装置。 A manual in which a failure classification of a monitoring target device connected via a network is associated with a countermeasure for a failure corresponding to the classification, and the same even if the failure classification is different A manual storage unit for storing a manual including a combination with which a coping method is associated ;
A history storage unit that stores history information in which failure information related to a failure of the monitoring target device is associated with a classification of a failure to which the failure information corresponds;
Extract all types of words included in each failure message constituting failure information included in each history information stored in the history storage unit, determine the total number of types as the number of vector dimensions, and each type of word Is a data that expresses each failure information as a vector, in accordance with the procedure of deriving the value of each component of the vector depending on whether or not the failure information includes the word assigned to each component. A deciding unit that decides as a procedure to convert to a format;
A first conversion unit that converts the failure information included in the history information stored in the history storage unit according to the procedure determined by the determination unit into failure information in a data format of vector representation;
Instead of using the failure information and the coping method as learning data, the failure information in the data format of the vector representation converted by the first conversion unit and the classification associated with the failure information are learned data. And a generation unit that generates a determination model to be applied to a determination process for determining the classification of the failure from the failure information input in a data format of a vector representation,
A monitoring unit for monitoring the state of the monitoring target device;
A second conversion unit that converts failure information generated by the monitoring unit upon occurrence of a failure into a vector representation data format according to the procedure determined by the determination unit;
A determination unit for determining a classification of a failure from the failure information converted into a data format of a vector representation by the second conversion unit using the determination model generated by the generation unit;
A monitoring apparatus, comprising: an extraction unit that extracts a coping method from a manual associated with a failure classification determined by the determination unit among manuals stored in the manual storage unit.
前記抽出部は、前記マニュアル記憶部に記憶された障害分類情報を参照し、前記判定部によって判定された障害の分類が示す障害分類識別情報に対応するマニュアル識別情報を特定した上で前記マニュアル記憶部に記憶された対処情報を参照し、当該マニュアル識別情報に対応する対処方法を抽出することを特徴とする請求項1に記載の監視装置。 The manual storage unit includes failure identification information associated with manual identification information identifying the manual and failure classification identification information identifying the failure classification, and handling associated with the manual identification information and the coping method. Memorize manual including information,
The extraction unit refers to the failure classification information stored in the manual storage unit, specifies manual identification information corresponding to failure classification identification information indicated by the failure classification determined by the determination unit, and then stores the manual storage The monitoring apparatus according to claim 1, wherein a handling method corresponding to the manual identification information is extracted with reference to handling information stored in the unit.
前記取得部によって取得された履歴情報に含まれる障害への対処方法が前記マニュアル記憶部に登録されていない場合に新規のマニュアル識別情報を生成し、前記マニュアル記憶部に記憶された障害分類情報に前記新規のマニュアル識別情報および当該履歴情報に含まれる障害分類識別情報を追加するとともに、前記マニュアル記憶部に記憶された対処情報に前記新規のマニュアル識別情報および当該履歴情報に含まれる対処方法を追加する追加部をさらに有することを特徴とする請求項2に記載の監視装置。 An acquisition unit that acquires history information including the failure information, the failure classification identification information, and a method for dealing with the failure;
When a method for dealing with a failure included in the history information acquired by the acquisition unit is not registered in the manual storage unit, new manual identification information is generated, and the failure classification information stored in the manual storage unit The new manual identification information and the failure classification identification information included in the history information are added, and the new manual identification information and the handling method included in the history information are added to the handling information stored in the manual storage unit. The monitoring apparatus according to claim 2, further comprising an additional unit configured to perform the above operation.
ネットワークを介して接続される監視対象装置の障害に関する障害情報と、当該障害情報が該当する障害の分類とが対応付けられた履歴情報を蓄積する履歴蓄積部を参照し、各履歴情報に含まれる障害情報を構成する各障害メッセージに含まれる単語の全種類を抽出し、その種類の総数をベクトルの次元数と決定し、単語の各種類をベクトルの各成分に割りあて、各成分に割り当てられた単語が障害情報に含まれるか否かによって、ベクトルの各成分の値を導出するという手順を、各障害情報をベクトルで表現されるデータ形式へ変換する手順として決定する決定工程と、
前記決定工程によって決定された手順にしたがって前記履歴蓄積部に蓄積された履歴情報に含まれる障害情報をベクトル表現のデータ形式の障害情報へ変換する第1の変換工程と、
前記障害情報と対処方法とを学習データとするのではなく、前記第1の変換工程によって変換された前記ベクトル表現のデータ形式の障害情報と当該障害情報に対応付けられた分類とを学習データとし、ベクトル表現のデータ形式で入力される障害情報から前記障害の分類を判定する判定処理に適用する判定モデルを生成する生成工程と、
前記監視対象装置の状態を監視する監視工程と、
前記決定工程によって決定された手順にしたがって前記監視工程によって障害発生時に生成された障害情報をベクトル表現のデータ形式へ変換する第2の変換工程と、
前記生成工程によって生成された判定モデルを用いて、前記第2の変換工程によってベクトル表現のデータ形式へ変換された障害情報から障害の分類を判定する判定工程と、
前記監視対象装置の障害の分類と、前記分類に該当する障害への対処方法とが対応付けられたマニュアルであって、前記障害の分類が異なる場合であっても同一の対処方法が対応付けられている組み合わせを含むマニュアルを記憶するマニュアル記憶部を参照し、前記判定工程によって判定された障害の分類に対応付けられたマニュアルから対処方法を抽出する抽出工程と
を含んだことを特徴とする監視方法。 A monitoring method executed by a monitoring device,
Referring to a history storage unit that stores history information in which failure information related to a failure of a monitoring target device connected via a network is associated with a classification of a failure corresponding to the failure information, the history information is included in each history information Extract all types of words included in each failure message making up the failure information, determine the total number of types as the number of vector dimensions, assign each type of word to each component of the vector, and assign to each component A determination step of determining the procedure of deriving the value of each component of the vector as a procedure for converting each failure information into a data format represented by a vector, depending on whether or not the word is included in the failure information;
A first conversion step of converting the failure information included in the history information stored in the history storage unit into the failure information in the data format of vector representation according to the procedure determined in the determination step;
Instead of using the failure information and the coping method as learning data, the failure information in the data format of the vector representation converted by the first conversion step and the classification associated with the failure information are used as learning data. Generating a determination model to be applied to determination processing for determining the classification of the failure from failure information input in a data format of vector representation;
A monitoring step of monitoring a state of the monitoring target device;
A second conversion step of converting failure information generated at the time of failure occurrence by the monitoring step into a vector representation data format according to the procedure determined by the determination step;
A determination step of determining a classification of a failure from the failure information converted into the data format of the vector representation by the second conversion step using the determination model generated by the generation step;
A manual in which a failure classification of the monitoring target device is associated with a countermeasure for a failure corresponding to the classification, and the same countermeasure is associated even if the failure classification is different And an extraction step of extracting a coping method from a manual associated with the classification of the failure determined by the determination step with reference to a manual storage unit that stores a manual including a combination of Method.
前記決定ステップによって決定された手順にしたがって前記履歴蓄積部に蓄積された履歴情報に含まれる障害情報をベクトル表現のデータ形式の障害情報へ変換する第1の変換ステップと、
前記障害情報と対処方法とを学習データとするのではなく、前記第1の変換ステップによって変換された前記ベクトル表現のデータ形式の障害情報と当該障害情報に対応付けられた分類とを学習データとし、ベクトル表現のデータ形式で入力される障害情報から前記障害の分類を判定する判定処理に適用する判定モデルを生成する生成ステップと、
前記監視対象装置の状態を監視する監視ステップと、
前記決定ステップによって決定された手順にしたがって前記監視ステップによって障害発生時に生成された障害情報をベクトル表現のデータ形式へ変換する第2の変換ステップと、
前記生成ステップによって生成された判定モデルを用いて、前記第2の変換ステップによってベクトル表現のデータ形式へ変換された障害情報から障害の分類を判定する判定ステップと、
前記監視対象装置の障害の分類と、前記分類に該当する障害への対処方法とが対応付けられたマニュアルであって、前記障害の分類が異なる場合であっても同一の対処方法が対応付けられている組み合わせを含むマニュアルを記憶するマニュアル記憶部を参照し、前記判定ステップによって判定された障害の分類に対応付けられたマニュアルから対処方法を抽出する抽出ステップと
をコンピュータに実行させるための監視プログラム。 Referring to a history storage unit that stores history information in which failure information related to a failure of a monitoring target device connected via a network is associated with a classification of a failure corresponding to the failure information, the history information is included in each history information Extract all types of words included in each failure message making up the failure information, determine the total number of types as the number of vector dimensions, assign each type of word to each component of the vector, and assign to each component A determination step for determining a procedure for deriving the value of each component of the vector as a procedure for converting each failure information into a data format represented by a vector, depending on whether or not the word is included in the failure information;
A first conversion step of converting failure information included in the history information stored in the history storage unit according to the procedure determined in the determination step into failure information in a data format of vector representation;
Rather than using the failure information and the coping method as learning data, the failure information in the data format of the vector representation converted by the first conversion step and the classification associated with the failure information are used as learning data. Generating a determination model to be applied to determination processing for determining the classification of the failure from the failure information input in a data format of vector representation;
A monitoring step of monitoring a state of the monitoring target device;
A second conversion step of converting the failure information generated at the time of failure occurrence by the monitoring step into a data format of vector representation according to the procedure determined by the determination step;
A determination step of determining a failure classification from the failure information converted into the data format of the vector representation by the second conversion step using the determination model generated by the generation step;
A manual in which a failure classification of the monitoring target device is associated with a countermeasure for a failure corresponding to the classification, and the same countermeasure is associated even if the failure classification is different A monitoring program for causing a computer to execute an extraction step that refers to a manual storage unit that stores a manual including a combination that has been selected and extracts a countermeasure from a manual associated with the failure classification determined in the determination step .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012131285A JP5893513B2 (en) | 2012-06-08 | 2012-06-08 | Monitoring device, monitoring method and monitoring program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012131285A JP5893513B2 (en) | 2012-06-08 | 2012-06-08 | Monitoring device, monitoring method and monitoring program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013254451A JP2013254451A (en) | 2013-12-19 |
JP5893513B2 true JP5893513B2 (en) | 2016-03-23 |
Family
ID=49951870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012131285A Active JP5893513B2 (en) | 2012-06-08 | 2012-06-08 | Monitoring device, monitoring method and monitoring program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5893513B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6693010B2 (en) * | 2016-02-08 | 2020-05-13 | ブレインズコンサルティング株式会社 | Failure support device, failure support program and storage medium |
JP6515048B2 (en) * | 2016-03-14 | 2019-05-15 | 株式会社日立製作所 | Incident management system |
JP6868416B2 (en) * | 2017-02-21 | 2021-05-12 | 株式会社野村総合研究所 | Failure response support system |
US10482000B2 (en) * | 2017-04-24 | 2019-11-19 | Microsoft Technology Licensing, Llc | Machine learned decision guidance for alerts originating from monitoring systems |
JP7011527B2 (en) * | 2018-05-10 | 2022-01-26 | 株式会社エクサ | Defect countermeasure support system |
JP7031527B2 (en) * | 2018-08-07 | 2022-03-08 | 日本電信電話株式会社 | Operation sequence generator, operation sequence generation method and program |
JP7297609B2 (en) * | 2019-09-05 | 2023-06-26 | 株式会社野村総合研究所 | Incident diagnosis response support device |
JP7388926B2 (en) * | 2020-01-09 | 2023-11-29 | 株式会社日立製作所 | dialogue system |
JP7448815B2 (en) * | 2020-06-11 | 2024-03-13 | 株式会社バッファロー | Information processing system, storage device, host device, and program |
KR102509380B1 (en) * | 2022-05-04 | 2023-03-14 | (주)와치텍 | Methods for learning application transactions and predicting and resolving real-time failures through machine learning |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11145957A (en) * | 1997-11-13 | 1999-05-28 | Omron Corp | Multi-address communication system supporting method and device |
JP2001034509A (en) * | 1999-07-16 | 2001-02-09 | Hitachi Ltd | Fault recovering method of information processor |
JP2006023910A (en) * | 2004-07-07 | 2006-01-26 | Hitachi Ltd | Server fault recovery method and server fault recovery system |
-
2012
- 2012-06-08 JP JP2012131285A patent/JP5893513B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013254451A (en) | 2013-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5893513B2 (en) | Monitoring device, monitoring method and monitoring program | |
CN107317724B (en) | Data acquisition system and method based on cloud computing technology | |
US9710455B2 (en) | Feature text string-based sensitive text detecting method and apparatus | |
CN112559303B (en) | Log analysis in vector space | |
US8499195B2 (en) | Failure cause estimation device and failure cause estimation method | |
US10949765B2 (en) | Automated inference of evidence from log information | |
US20170206458A1 (en) | Computer-readable recording medium, detection method, and detection apparatus | |
CN111338693B (en) | Model construction-based target file generation method, server and storage medium | |
US9641595B2 (en) | System management apparatus, system management method, and storage medium | |
JP2019153890A (en) | Creation device, creation system, creation method and creation program | |
CN108111346B (en) | Method and device for determining frequent item set in alarm correlation analysis and storage medium | |
CN110502432B (en) | Intelligent test method, device, equipment and readable storage medium | |
US20240205721A1 (en) | Cleaning raw data generated by a telecommunications network for deployment in a deep neural network model | |
CN107908525B (en) | Alarm processing method, equipment and readable storage medium | |
US10445213B2 (en) | Non-transitory computer-readable storage medium, evaluation method, and evaluation device | |
JP6078485B2 (en) | Operation history analysis apparatus, method, and program | |
US11288158B2 (en) | Device identification device and device identification method | |
US20130151897A1 (en) | Diagnostic handling server, diagnostic handling method, and program for the same server | |
JP2018081403A (en) | Incident management system, incident management method and computer program | |
KR20180011183A (en) | How to Remove Message Notifications, Systems, and Servers | |
JP6060123B2 (en) | Influence range identification device, influence range identification method, and program | |
CN115729727A (en) | Fault repairing method, device, equipment and medium | |
CN108459940B (en) | Configuration information modification method and device of application performance management system and electronic equipment | |
JP2016212736A (en) | Operation assist device, operation assist program, and operation assist method | |
JP6586794B2 (en) | Information processing apparatus, failure management method, and failure management program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140509 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150320 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20151001 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160223 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5893513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |