JP6832890B2 - 監視装置、監視方法、及びコンピュータプログラム - Google Patents

監視装置、監視方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP6832890B2
JP6832890B2 JP2018106273A JP2018106273A JP6832890B2 JP 6832890 B2 JP6832890 B2 JP 6832890B2 JP 2018106273 A JP2018106273 A JP 2018106273A JP 2018106273 A JP2018106273 A JP 2018106273A JP 6832890 B2 JP6832890 B2 JP 6832890B2
Authority
JP
Japan
Prior art keywords
information
machine learning
risk
unit
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018106273A
Other languages
English (en)
Other versions
JP2019211919A (ja
Inventor
伸 佐分利
伸 佐分利
永田 尚志
尚志 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone West Corp
Original Assignee
Nippon Telegraph and Telephone West Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone West Corp filed Critical Nippon Telegraph and Telephone West Corp
Priority to JP2018106273A priority Critical patent/JP6832890B2/ja
Publication of JP2019211919A publication Critical patent/JP2019211919A/ja
Application granted granted Critical
Publication of JP6832890B2 publication Critical patent/JP6832890B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Description

本発明は、監視装置、監視方法、及びコンピュータプログラムに関する。
従来、システムの故障等を監視する監視センタにおける監視対象のシステムの異常検知や故障予測は、しきい値とその判断ルール(事前の静的な設定)により行われてきた。
「サーバー監視とは|具体的な監視方法や種類を解説」、平成30年5月29日検索、インターネット〈URL:https://boxil.jp/mag/a2622/〉 「サーバー監視ツール20選|機能・特徴を徹底比較」、平成30年5月29日検索、インターネット〈URL:https://boxil.jp/mag/a2573/〉 「正しいシステム運用のための監視要件定義」、平成30年5月29日検索、インターネット〈URL:https://thinkit.co.jp/story/2014/05/19/4996〉 「第1回 サーバ監視にSNMPを使う理由」、平成30年5月29日検索、インターネット〈URL:http://www.itmedia.co.jp/enterprise/articles/0705/07/news005.html〉
しかし、その監視対象としきい値、異常検知や故障予測の判断ルールは、過去事例と経験に基づき設計した後、運用段階で調整することがあり、専門家の見地が必要となっている。また、監視装置から発生する装置アラームは誤検知や発生原因不明のものがあり、専門家の判断なしに異常を判断することができない。さらに、サイレント故障については装置アラームやログ等に情報が残らないこともあるため、異常検知や原因追跡することができない。近年のシステムは、仮想化等により実装技術が多様化することで構成が複雑になってきているため、上記のような状況は増加しており、有スキル者の人的対応も不可能となってきている。
本発明は、異常や故障につながるリスクを評価する監視装置、監視方法、及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するため、第1の態様に係る発明は、監視装置であって、監視対象システムのシステム状態情報を収集するデータ収集部と、前記データ収集部によって収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態が学習された機械学習部と、前記データ収集部によって収集された現在のシステム状態情報と、前記機械学習部によって事前に学習された正常時の状態とに基づいて、前記監視対象システムのリスクを評価するリスク評価部とを備え、前記機械学習部は、前記システム状態情報から異常を表現づける特徴量を抽出し、前記リスク評価部は、特定の一時点の情報だけでなく過去の時系列情報を加え、その時系列特徴量として前記時系列情報の変化量と統計量の2つを利用してリスクを評価することで、メモリまたはCPUの使用率のしきい値では判断ができないサイレント故障の発生を予測することを要旨とする。
の態様に係る発明は、第の態様に係る発明において、前記リスク評価部が、前記監視対象システムの環境条件をセンサで取得することでリスクを複合的に評価することを要旨とする。
の態様に係る発明は、第1または第2の態様に係る発明において、前記リスク評価部が、複数の条件を複数の学習モデルで異常評価することで原因を追跡することを要旨とする。
の態様に係る発明は、監視方法であって、コンピュータが、監視対象システムのシステム状態情報を収集するデータ収集ステップと、前記データ収集ステップで収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態を学習する機械学習ステップと、前記データ収集ステップで収集された現在のシステム状態情報と、前記機械学習ステップで事前に学習された正常時の状態とに基づいて、前記監視対象システムのリスクを評価するリスク評価ステップとを実行し、前記機械学習ステップでは、前記システム状態情報から異常を表現づける特徴量を抽出し、前記リスク評価ステップでは、特定の一時点の情報だけでなく過去の時系列情報を加え、その時系列特徴量として前記時系列情報の変化量と統計量の2つを利用してリスクを評価することで、メモリまたはCPUの使用率のしきい値では判断ができないサイレント故障の発生を予測することを要旨とする。
の態様に係る発明は、第1から第のいずれか1つの態様に係る監視装置としてコンピュータを機能させるためのコンピュータプログラムであることを要旨とする。
本発明によれば、異常や故障につながるリスクを評価する監視装置、監視方法、及びコンピュータプログラムを提供することが可能である。
本発明の実施の形態における監視装置の適用例を示すシステム構成図である。 従来技術における監視装置を適用した場合のシーケンス図である。 本発明の実施の形態における監視装置を適用した場合のシーケンス図である。 本発明の実施の形態における監視装置の動作を示すフローチャートである。 本発明の実施の形態におけるデータ収集部の動作を示すフローチャートである。 本発明の実施の形態における機械学習部の動作を示すフローチャートである。 本発明の実施の形態におけるリスク評価部の動作を示すフローチャートである。 本発明の実施の形態における記憶部に記憶されるデータベース構成図である。 従来技術と本発明とを比較するための図である。 処理1を詳細に説明するための図である。 特徴量による分類例1を示す図である。 特徴量による分類例2を示す図である。 特徴量による分類例3を示す図である。 特徴量による分類例3を示す図である。 処理4を詳細に説明するための図である。 処理4を詳細に説明するための図である。
以下、図面を用いて本発明の実施の形態を説明する。以下の図面の記載において、同一または類似の部分には同一または類似の符号を付している。
<概要>
本発明の実施の形態は、数〜数十台のサーバで構成されるシステムの故障等を監視するセンタで収集管理されるシステムのリソース使用量やネットワークトラフィック、環境パラメータなどのシステム稼働情報から異常や故障につながるリスクを評価するものである。ここでいう“リスクの評価”には、異常検知や故障予測の意味も含まれる。技術分野は、システム停止などの事故を防ぐことを目的としたシステム監視技術に属する。なお、数〜数十台のサーバで構成されるシステムとしては、例えば、利用者が終日利用するリアルタイム処理が必要なWebサービスや基幹業務を提供するシステムが該当する。
<用語>
次に、本発明の実施の形態における用語について説明する。
システム状態情報とは、監視対象システムの状態情報である。具体的には、監視対象システムから取得した故障予兆を判断するステータス情報で、リソース情報(CPU使用率、メモリ使用量、ヒープメモリ使用量)、デバイス使用量(IOアクセス、ネットワーク接続数、トラフィック量)、及びセンサ情報(システムを設置しているラック内の温度・湿度・振動)からの時系列の測定値のことである。
特徴量とは、システム状態の特徴量である。具体的には、システム状態情報から故障予兆を判断するために抽出・変換したステータス情報のことである。
学習パラメータとは、機械学習における学習パラメータである。具体的には、機械学習(AI)により最適化された内部の重み係数のこと(機械学習で構成するニューラルネットワークにおける入力信号に対する重要度)である。
モデルとは、機械学習の構成モデルである。具体的には、システム状態情報から抽出した時系列な特徴量から異常判断するために故障原因毎に作成した機械学習の構成のことである。
<システム構成>
図1は、本発明の実施の形態における監視装置10の適用例を示すシステム構成図である。この図に示すように、監視対象システム1に通信網を介して監視装置10が接続され、監視装置10に通信網を介して表示等装置2が接続されている。監視装置10は、監視対象システム1の過去のリソース状態と環境情報からリスク評価に必要な情報を抽出し、事前に機械学習により学習パラメータを生成する。また、システム状態と学習パラメータを利用して、現時点でのリスクを評価し、異常として検出し、その検出結果を表示等装置2に通知する。
これにより、従来専門家の見地が必要であった、しきい値と判断ルールの生成が不要となる。また、しきい値や判断ルールの更新が追加の機械学習により可能となる。さらに、環境条件を元に評価する場合、単一状態でなく過去状態も含めた複数の環境条件を元に評価することができるようになり、検知精度が向上する。加えて、故障のアセスメント(予測結果)から事前に処置することが可能となり、システム稼働率の向上に貢献できる効果もある。
具体的には、監視装置10は、機械学習によるサーバシステムの異常検知/故障予知方法を実現するコンピュータであって、データ収集部11と、機械学習部13と、リスク評価部15と、記憶部12と、通知部16とを備える。もちろん、表示部や操作部など、一般的なコンピュータが備える様々な処理部を備えてもよい。また、各処理部は別々の装置として構成されていてもよい。
データ収集部11は、システム状態情報を収集する処理部である。具体的には、データ収集部11は、監視対象システム1のOSとセンサから取得できるCPU使用率・メモリ使用率等のシステム状態情報をネットワーク経由で取得し、時系列情報としてデータベースにて管理する。
機械学習部13は、機械学習を行う処理部である。具体的には、機械学習部13は、CPU使用率・メモリ使用率等のシステム状態情報の種類及び集計期間毎にN種類の学習パラメータWnを求め、N種類の学習パラメータWnをデータベースにて管理する。機械学習における学習パラメータWnの計算には、既存技術を利用することができる。
リスク評価部15は、リスクを評価する処理部である。具体的には、リスク評価部15は、現在のCPU使用率・メモリ使用率等のシステム状態情報を利用してN種類のモデルからリスク発生確率Pnを求め、系全体の発生確率PをPnの期待値としてリスクを判定する。
記憶部12は、システム状態情報や学習パラメータなどの各種情報を記憶する記憶装置である。記憶装置は、物理的に1つの装置であってもよいし、2つ以上の装置であってもよい。
通知部16は、各種情報を表示等装置2に通知する処理部である。
以上のような構成によれば、事前の機械学習により学習パラメータ(現行技術にあたるしきい値と判断ルール)を生成することができる。また、事前学習された学習パラメータと現在のシステム状態から正常性の評価を行い、異常であるかどうかを判断することができる。さらに、監視対象システム1から収集したシステム状態情報から特徴を抽出し、時系列の情報として管理することができる。
<従来技術のシーケンス>
図2は、従来技術における監視装置10を適用した場合のシーケンス図である。従来技術における監視装置10についても、本発明の実施の形態における監視装置10と同じ符号10を用いるが、両者の機能が異なることは言うまでもない。
運用前、監視装置10側でしきい値・判断ルールの設計・設定を行う(ステップS1)。
運用中、監視対象システム1は、システム状態情報を監視装置10に送信する(ステップS2)。このシステム状態情報はリソース情報である。監視装置10は、監視対象システム1から受信したリソース情報としきい値による異常の判断を行い、判断結果を表示等装置2に送信する(ステップS3)。表示等装置2は、監視装置10から受信した判断結果に基づいてアラーム等を通知する(ステップS4)。
<本発明の実施の形態のシーケンス>
図3は、本発明の実施の形態における監視装置10を適用した場合のシーケンス図である。
運用前及び運用中、監視対象システム1は、システム状態情報を監視装置10に送信する(ステップS11)。このシステム状態情報にはリソース情報だけでなく環境情報も含まれる。これにより、データ収集部11は、監視対象システム1からリソース情報・環境情報を受信する。また、機械学習部13は、データ収集部11によって受信されたリソース情報・環境情報から特徴抽出を行い、学習パラメータを生成(パラメータ学習)する(ステップS12)。
運用中も、監視対象システム1は、システム状態情報を監視装置10に送信する(ステップS13)。これにより、データ収集部11は、監視対象システム1からリソース情報・環境情報を受信する。また、リスク評価部15は、データ収集部11によって受信されたリソース情報・環境情報から特徴抽出を行い、特徴量に基づいてリスクの評価を行い、リスクの評価結果を表示等装置2に送信する(ステップS14)。表示等装置2は、監視装置10から受信したリスクの評価結果に基づいてアラーム等を通知する(ステップS15)。
<監視装置の動作>
図4は、本発明の実施の形態における監視装置10の動作を示すフローチャートである。ここでは、監視装置10の全体動作を説明することとし、各処理部の動作については後述する。
まず、データ収集部11は、監視対象システム1のシステム状態情報を収集し、システム状態情報を記憶部12に記憶する(ステップS21)。次いで、機械学習部13は、データ収集部11によって収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態を学習し、学習パラメータを記憶部12に記憶する(ステップS22)。次いで、リスク評価部15は、データ収集部11によって収集された現在のシステム状態情報と、機械学習部13によって事前に学習された正常時の状態とに基づいて、監視対象システム1のリスクを評価する(ステップS23)。最後に、通知部16は、リスク評価部15によって評価されたリスクを表示等装置2に通知する(ステップS24)。
<データ収集部の動作>
図5は、本発明の実施の形態におけるデータ収集部11の動作を示すフローチャートである。既に説明したように、データ収集部11は、監視対象システム1のOSとセンサから取得できるCPU使用率・メモリ使用率等のシステム状態情報をネットワーク経由で取得し、時系列情報としてデータベースにて管理する。
まず、監視対象システム1は、OS、アプリケーション、センサなどを備えている。温度・湿度・振動のセンサを付けたネットワーク接続されたオンボードマイコンを備えてもよい。これにより、リソース情報(CPU使用率、メモリ使用量、ヒープ使用量)、デバイス情報(IOアクセス、ネットワーク接続数、トラフィック)、センサ情報(温度、音)などのシステム状態情報をOSやセンサデバイスからネットワーク等を経由して例えば5分間隔で送信する。
データ収集部11は、現在のシステム状態情報を取得すると、時系列情報としてデータベース(記憶部12)に記憶する(ステップS31→S32→S33)。例えば、システム状態情報をx、システム状態情報xに対する測定値をxnとした場合、x1,x2,…,xnを記憶・管理することで、システムの時系列状態の情報を記憶することができる。
<機械学習部の動作>
図6は、本発明の実施の形態における機械学習部13の動作を示すフローチャートである。既に説明したように、機械学習部13は、CPU使用率・メモリ使用率等のシステム状態情報の種類及び集計期間毎にN種類の学習パラメータWnを求め、N種類の学習パラメータWnをデータベースにて管理する。
まず、機械学習部13は、時系列状態の情報を取得し(ステップS41)、特徴抽出1,2,…,Nを行う(ステップS42‐1,S42‐2,…,S42‐N)。例えば、CPU利用率(システムからのシステム状態情報=リソース情報、デバイス情報、センサ情報)を取得した場合、CPU利用率の1ヶ月の時間推移の統計量と変化量を算出する。このとき、取得したシステム状態から時系列データとして計算する。特徴量の抽出期間は、バッチ処理等の定期的に特異な動作となる期間を含めてモデル1,2,…,Nに追加する。統計量としては、平均、変化量、中央値、標準偏差などを用いることができる。
次いで、機械学習部13は、特徴結合1,2,…,Nを行う(ステップS43‐1,S43‐2,…,S43‐N)。例えば、統計量と変化量を1つのデータとして結合・圧縮(正規化)する。特徴情報を結合した結果を記憶する場合、T=[(平均値,中間値,標準偏差)、(周波数分析)]で表現される学習用の情報を記憶してもよい。
次いで、機械学習部13は、状態の機械学習1,2,…,Nを行う(ステップS44‐1,S44‐2,…,S44‐N)。例えば、以下の(1)(2)のように機械学習を行い、機械学習後の学習パラメータWnを記憶し、リスク評価部15で利用する。
(1)学習情報nをもとに機械学習(計算)し、重み(=学習パラメータ)Wnを算出する。学習結果はリスク値(=リスク発生確率)として出力するように処理する。
(2)算出した重みWnと学習情報nのm個目の特徴量Tm(学習用データ)からリスク評価部15と同様にリスク値Pnを計算し、最も大きい値をモデルnのリスクしきい値Rnとして算出する。
Rn=max(Pn(Wn・Tm))
最後に、機械学習部13は、状態の機械学習nで算出したリクスしきい値Rnから、リスク評価部15でのリスク判定のためのリスクしきい値Rを算出する(ステップS45)。
R=(v1・R1+v2・R2+…+vn・Rn)/N
算出したリスクしきい値Rはリスク評価部15で利用する。vnは各モデルに対するリスク発生の影響度になり、監視対象システム1の過去の故障履歴と発生要因から求める。
vn=Σ(モデルn起因の故障件数)/Σ(故障件数)
(影響度が均一の場合は、v1=v2=…=vn=1とする。)
<リスク評価部の動作>
図7は、本発明の実施の形態におけるリスク評価部15の動作を示すフローチャートである。既に説明したように、リスク評価部15は、現在のCPU使用率・メモリ使用率等のシステム状態情報を利用してN種類のモデルからリスク発生確率Pnを求め、系全体の発生確率PをPnの期待値としてリスクを判定する。
まず、リスク評価部15は、システム状態情報を取得し(ステップS51)、特徴抽出1,2,…,Nを行い(ステップS52‐1,S52‐2,…,S52‐N)、特徴結合1,2,…,Nを行う(ステップS53‐1,S53‐2,…,S53‐N)。この特徴抽出と特徴結合は、機械学習部13と同様であるため、ここでは詳しい説明を省略する。
次いで、リスク評価部15は、リスク1,2,…,Nを予測する(ステップS54‐1,S54‐2,…,S54‐N)。例えば、特徴量Tとモデルnの機械学習部13で求めた重みWからリスクを評価した結果(0〜1の値)をリスク値Pnとする。なお、記憶部12には、事前に機械学習部13で計算した学習パラメータW(i,j)が記憶されている。
Pn=P(W・T)
次いで、リスク評価部15は、リスク発生確率を計算する(ステップS55)。例えば、モデル1〜Nのリスク値Pnからリスク発生確率Pを計算する。Pを系全体のリスク発生確率(モデル1〜Nからの発生確率の重み付期待値)として求める。
P=(v1・P1+v2・P2+…+vn・Pn)/N
次いで、リスク評価部15は、リスクを判断する(ステップS56)。例えば、リスク発生確率PがRより大きい場合、max(P1,P2,…,Pn)であるモデルnを要因としてリスク発生あり(YES)と判断する。Rは、機械学習部13で求めたリスクしきい値である。
最後に、リスク評価部15は、リスク発生なし(NO)と判断した場合、正常通知を出すための処理を行う(ステップS57)。一方、リスク発生あり(YES)と判断した場合、異常通知を出すための処理を行う(ステップS58)。
<データベース構成>
図8は、本発明の実施の形態における記憶部12に記憶されるデータベース構成図である。図8(a)はシステム状態情報を示し、図8(b)は特徴情報(学習データ)を示し、図8(c)は学習パラメータを示している。
図8(a)に示すように、システム状態情報として、「時刻」と「システム状態情報ID」と「システム状態情報値」とを対応付けてもよい。また、「システム状態情報ID」と「システム状態情報名称」とを対応付けてもよい。「時刻」は、“YYYY/MM/DD HH:MM:SS”等の時刻である。「システム状態情報ID」は、システム状態情報を識別するためのID等の数値である。「システム状態情報値」は、監視対象システム1から取得した情報(数値)である。「システム状態情報名称」は、リソース等名称であって、リソース情報(CPU使用率、メモリ使用量、ヒープメモリ使用量)、デバイス使用量(IOアクセス、ネットワーク接続数、トラフィック量)、センサ情報(温度・湿度・振動)の情報区分である。
図8(b)に示すように、特徴情報(学習データ)として、「時刻」と「特徴ID」と「システム状態情報ID」と「特徴量(1,2,…N)」とを対応付けてもよい。また、「特徴ID」と「特徴量名称」とを対応付けてもよい。「特徴ID」は、特徴情報を識別するためのID等の数値である。「特徴量(1,2,…N)」は、システム状態情報を分析した結果(1,2,…N)の数値である。「特徴量名称」は、統計量(平均値、中央値、標準偏差)、時系列解析(FFT)の特徴抽出方法を示す名称である。
図8(c)に示すように、学習パラメータとして、「学習パラメータ(モデルID)」と「学習パラメータ値(1,1)…(L,M)」とを対応付けてもよい。「学習パラメータ(モデルID)」は、学習パラメータを識別するためのID等の数値である。「学習パラメータ値(1,1)…(L,M)」は、学習パラメータ値(数値)である。
<効果>
以上のように、本発明の実施の形態における監視装置10は、過去正常時の時系列状態情報から機械学習により特徴量区分毎に学習パラメータを生成する。現在のシステム状態をネットワーク等で随時取得した後、生成した学習パラメータにより評価することで異常やリスク検知の検知結果を通知する。これにより、以下のような効果がある。
・しきい値と判断ルールの設計のための経験・専門的見地の負担を軽減する。
・監視対象の判断ルールを機械学習により自動化する。
・サイレント故障の発生を予測する。
・リスクの要因(予測結果)の原因を特定する。
・運用に伴うしきい値等の変更を可能とする。
・アラームの誤検知発生を抑制する。
・観測が難しい故障発生時のデータを不要とする。
<従来技術との比較>
以下、従来技術と比較しながら、本発明を更に詳しく説明する。
図9は、従来技術と本発明とを比較するための図である。図9に示すように、従来技術においては、システムの故障等を監視するセンタにおけるシステムの異常検知やリスクの予測は、しきい値とその判断ルールにより行う(左図)。例えば、1)アラーム通知のルールとしきい値を事前に設定し、2)ルールとしきい値により現在の状態を判断する。この例では、AとBの時点でしきい値を超えた時間が連続30秒以上になったのでアラームログを作成している。
しかし、その監視対象としきい値、異常の判断ルールは、過去事例と経験に基づき設計した後、運用段階で調整することがあり、専門家の見地が必要となっている。また、監視装置10による発生アラームは誤検知や発生原因不明のものがあり、専門家の判断なしに異常を判断することができない。さらに、サイレント故障についてはアラームやログ等に情報が残らないこともあるため、検知や原因追跡することができない。
そこで、本発明では、異常や故障につながるリスクを機械学習により評価(検知・予測)する(右図)。例えば、1)正常時の状態をAIにより事前に学習し、2)現在の状態をAIでリスク評価(正常時からの違いを検出)する。
<本発明の特徴>
本発明は、機械学習を活用するための方式として、処理1〜4を採用している。以下、事例を示しながら具体的に説明する。
処理1:異常検知のため監視対象の状態情報から異常を表現づける特徴量を抽出する。
処理2:システムの環境条件をセンサで取得し、リスクを複合的に評価する。
処理3:特定の一時点の情報だけでなく過去の時系列情報を加えてリスクを評価する。
処理4:複数の条件を複数の学習モデルで異常評価することで要因の追跡を可能とする。
<処理1:特徴量>
図10は、処理1を詳細に説明するための図である。本発明では、メモリやCPUの使用率等のシステム状態情報から故障等のリスクを特徴づける変化量・平均値等の特徴量を利用する。図中の(1)の波形は、CPU使用率等のシステム状態情報(正常時)を示している。このシステム状態情報から変化量(周波数分析)を抽出した場合を(2−1)に示し、平均値・標準偏差・中央値を抽出した場合を(2−2)に示している。このような特徴量を利用すれば、従来のメモリやCPUの使用率等のしきい値では判断ができないサイレント故障などの事象を捉え易くなる(具体例は後述する)。この特徴をAIで比較することで正常時との差(異常かどうか)を判断することができる。
<事例1>
図11は、特徴量による分類例1を示す図である。ここでは、ヒープメモリ使用量が増加し、メモリ不足が発生している場合(サイレント故障)を例示している。
図中の(1)の波形は、メモリ使用率の時間変化を示している。しきい値(80%)は超えていないため、サイレント故障が発生している。このようなメモリ使用率の時間変化において、変化量を抽出した場合を(2−1)に示し、平均値・標準偏差を抽出した場合を(2−2)に示している。(2−1)に示すように、使用率の変化が通常(正常時)と異なる箇所がある。また、(2−2)に示すように、平均値・標準偏差とも大きな変化は見られない(平均は同じ、標準偏差は多少大)。
<事例2>
図12は、特徴量による分類例2を示す図である。ここでは、CPU負荷が徐々に上昇している場合(サイレント故障)を例示している。この事例はメモリリークの類似事象である。
図中の(1)の波形は、CPU使用率の時間変化を示している。しきい値(80%)は超えていないため、サイレント故障が発生している。このようなCPU使用率の時間変化において、変化量を抽出した場合を(2−1)に示し、平均値・標準偏差を抽出した場合を(2−2)に示している。(2−1)に示すように、変化量については大きな変化は見られない。また、(2−2)に示すように、平均値・標準偏差とも大きく異なる。
<事例3>
図13は、特徴量による分類例3を示す図(1/2)である。ここでは、バッチ処理等の定期的なCPU負荷上昇を例示している(一定時間間隔の負荷上昇)。
図中の(1)の波形は、CPU使用率の時間変化を示している。しきい値(80%)を超えると(一時的にCPUの使用率が上昇すると)、従来はアラームが発生する。このようなCPU使用率の時間変化において、変化量を抽出した場合を(2−1)に示し、平均値・標準偏差を抽出した場合を(2−2)に示している。(2−1)に示すように、変化量については大きな変化は見られない。また、(2−2)に示すように、平均値・標準偏差とも大きく異なる。
図中の(1)の波形のように2つの特徴を持つ場合、本来は正常であるにもかかわらず、異常として判断される可能性がある。そこで、本発明では、以下に説明するように、特徴区間を分割することで正常として学習するようにしている。
図14は、特徴量による分類例3を示す図(2/2)である。図14に示すように、バッチ処理等の定期的なCPU負荷上昇(一定時間間隔の負荷上昇)の場合、特徴区間を分割することで正常として学習することができる。
図中の(1)の波形は、CPU使用率の時間変化を示している。この例では、横軸(時間軸)が0〜250の区間を特徴区間1とし、250〜500の区間を特徴区間2としている。このようなCPU使用率の時間変化において、変化量を抽出した場合を(2−1)に示し、平均値・標準偏差を抽出した場合を(2−2)に示している。(2−1)に示すように、変化量については、特徴区間1では変化は見られず、特徴区間2では大きな変化は見られない。また、(2−2)に示すように、特徴区間1では平均値・標準偏差とも変化は見られず、特徴区間2では平均値が上昇(=使用率が全体的に上昇)している。
<処理2:環境条件>
監視対象システム1の環境条件をセンサで取得し、リスクを複合的に評価する。環境条件としては、例えば、動作温度・湿度・振動・消費電力等を挙げることができる。これにより、ソフト的な情報だけでなく物理的な情報を含めて複数の条件を機械学習で評価することで誤検知を抑制することが可能となる。温度上昇が故障に大きく影響する等の知見があるため、物理的な情報を含めることは非常に効果的である。
<処理3:時系列特徴量(正常時との差異を検出)>
時間変化のあるシステム情報量を特徴量の時系列変化として捉えるため、時系列の特徴量を機械学習の入力として利用する。時系列特徴量には、変化量と統計量(平均値、標準偏差、中央値)の2つを利用する。特徴量を[数1]とし、システム状態情報を[数2]とした場合、変化量は[数3]で表すことができ、統計量は[数4]で表すことができる。
<処理4:各条件を各AIで評価し、要因の追跡を可能とする>
図15は、処理4を詳細に説明するための図である。正常時のシステム固有の特徴量遷移を機械学習で学習し、正常時からの差で異常を判断する。具体的には、現在(時系列)の特徴が正常時の傾向と同じであるかを判定する(Autoencoderによる入力値と出力値の距離計算)。この判定の結果、現在の特徴と正常時の傾向とに差が発生した場合は、各モデルの判定結果で最も乖離のあるリソースを故障の要因と判定する。これにより、各条件を各AIで評価し、要因の追跡を可能とする。
ここでは、12個の組み合わせで故障リスクを判定する場合を例示している。この12個のモデルのうち、例えば、CPU使用率の変化率でリスク発生確率が最も高くなっている場合は、CPUの振れ幅に異常があると判定することができる。
図16は、各モデルのリスク発生確率を説明するための図である。この図に示すように、特徴空間の正常時分布をAutoencoderでモデル化し、異常の判断を入力値と出力値の距離(誤差)で判定する。各条件nでの正常時との推定差(=リスク発生確率Pn)は、次式で表すことができる。
<まとめ>
以上説明したように、本発明の実施の形態における監視装置10は、監視対象システム1のシステム状態情報を収集するデータ収集部11と、データ収集部11によって収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態が学習された機械学習部13と、データ収集部11によって収集された現在のシステム状態情報と、機械学習部13によって事前に学習された正常時の状態とに基づいて、監視対象システム1のリスクを評価するリスク評価部15とを備える。これにより、監視対象の状態から異常・リスクを機械学習により判断・検知するしくみを作ることができるため、異常や故障につながるリスクを評価することが可能となる。
具体的には、機械学習部13は、異常検知のため、システム状態情報から異常を表現づける特徴量を抽出してもよい。情報の時間的推移が異常検知に有効であるため、時系列データに対する変化の標準偏差と変化量を特徴として利用する。機械学習におけるデータの次元数削減、不要な情報を評価対象から除く観点から、特徴量への抽出が有効である。
また、リスク評価部15は、監視対象システム1の環境条件(動作温度・湿度・振動・消費電力等)をセンサで取得する(状態情報に物理情報を加味する)ことでリスクを複合的に評価してもよい。これにより、ソフト的な情報だけでなく物理的な情報を含めて複数の条件を機械学習で評価することで誤検知を抑制することが可能となる。温度上昇が故障に大きく影響する等の知見があるため、物理的な情報を含めることは非常に効果的である。
また、リスク評価部15は、特定の一時点の情報(静止点の情報)だけでなく過去の時系列情報を加えて評価することでサイレント故障の発生を予測(正常時の挙動と異なる点を検知)してもよい。従来技術では特定の一時点の情報で評価するため、特異点が誤検知につながっている。従来技術では検知できなかったサイレント故障を検知することが可能となる。
また、リスク評価部15は、複数の条件を複数の学習モデル(複数の機械学習)で異常評価することで原因を追跡してもよい。システム固有の定期処置等の特異点を学習モデルにすることで誤検知を抑制できる。これにより、機械学習の弱点である、結果までの過程が解析できない部分を解決することが可能となる。
なお、機械学習では一般に教師データ(故障発生時のデータ等)を必要とするが、正常状態を利用することで観測が難しい故障発生時のデータを不要とする。故障時のデータは取得が難しく、機械学習のためのデータ収集ができない課題を解決することが可能となる。
また、本発明は、このような監視装置10として実現することができるだけでなく、このような監視装置10が備える特徴的な処理部をステップとする監視方法として実現したり、それらのステップをコンピュータに実行させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、CD−ROM等の記録媒体やインターネット等の伝送媒体を介して配信することができるのはいうまでもない。
1…監視対象システム
2…表示等装置
10…監視装置
11…データ収集部
12…記憶部
13…機械学習部
15…リスク評価部
16…通知部

Claims (5)

  1. 監視対象システムのシステム状態情報を収集するデータ収集部と、
    前記データ収集部によって収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態が学習された機械学習部と、
    前記データ収集部によって収集された現在のシステム状態情報と、前記機械学習部によって事前に学習された正常時の状態とに基づいて、前記監視対象システムのリスクを評価するリスク評価部とを備え、前記システム状態情報は、メモリおよびCPUの使用量の少なくとも1つを含み、
    前記機械学習部は、前記システム状態情報から異常を表現づける特徴量を抽出し、
    前記リスク評価部は、特定の一時点の情報だけでなく過去の時系列情報を加え、その時系列特徴量として、前記時系列情報を周波数分析で抽出した変化量と、前記時系列情報の平均値、標準偏差および中央値の少なくとも1つを含む統計量とを利用してリスクを評価することで、前記メモリまたは前記CPUの使用率のしきい値では判断ができないサイレント故障の発生を予測することを特徴とする監視装置。
  2. 前記リスク評価部は、前記監視対象システムの環境条件をセンサで取得することでリスクを複合的に評価することを特徴とする請求項1に記載の監視装置。
  3. 前記リスク評価部は、複数の条件を複数の学習モデルで異常評価することで原因を追跡することを特徴とする請求項1または2に記載の監視装置。
  4. コンピュータが、
    監視対象システムのシステム状態情報を収集するデータ収集ステップと、
    前記データ収集ステップで収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態を学習する機械学習ステップと、
    前記データ収集ステップで収集された現在のシステム状態情報と、前記機械学習ステップで事前に学習された正常時の状態とに基づいて、前記監視対象システムのリスクを評価するリスク評価ステップとを実行し、前記システム状態情報は、メモリおよびCPUの使用量の少なくとも1つを含み、
    前記機械学習ステップでは、前記システム状態情報から異常を表現づける特徴量を抽出し、
    前記リスク評価ステップでは、特定の一時点の情報だけでなく過去の時系列情報を加え、その時系列特徴量として、前記時系列情報を周波数分析で抽出した変化量と、前記時系列情報の平均値、標準偏差および中央値の少なくとも1つを含む統計量とを利用してリスクを評価することで、前記メモリまたは前記CPUの使用率のしきい値では判断ができないサイレント故障の発生を予測することを特徴とする監視方法。
  5. 請求項1から3のいずれか1項に記載した監視装置としてコンピュータを機能させるためのコンピュータプログラム。
JP2018106273A 2018-06-01 2018-06-01 監視装置、監視方法、及びコンピュータプログラム Active JP6832890B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018106273A JP6832890B2 (ja) 2018-06-01 2018-06-01 監視装置、監視方法、及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018106273A JP6832890B2 (ja) 2018-06-01 2018-06-01 監視装置、監視方法、及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2019211919A JP2019211919A (ja) 2019-12-12
JP6832890B2 true JP6832890B2 (ja) 2021-02-24

Family

ID=68846816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018106273A Active JP6832890B2 (ja) 2018-06-01 2018-06-01 監視装置、監視方法、及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP6832890B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021161399A1 (ja) * 2020-02-10 2021-08-19 三菱電機株式会社 エネルギー管理装置、エネルギー管理方法、およびエネルギー管理プログラム
KR102403522B1 (ko) * 2021-06-29 2022-05-31 주식회사 에이텍 컴퓨터의 사전 탐지를 이용한 장애 예방장치 및 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11129145A (ja) * 1997-10-31 1999-05-18 Denso Corp 加工物の形状精度診断装置及び加工物の形状精度診断方法及び記録媒体
JP5808605B2 (ja) * 2011-08-17 2015-11-10 株式会社日立製作所 異常検知・診断方法、および異常検知・診断システム
JP5530020B1 (ja) * 2013-11-01 2014-06-25 株式会社日立パワーソリューションズ 異常診断システム及び異常診断方法
JP5946573B1 (ja) * 2015-08-05 2016-07-06 株式会社日立パワーソリューションズ 異常予兆診断システム及び異常予兆診断方法

Also Published As

Publication number Publication date
JP2019211919A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
US9292408B2 (en) Automated detection of a system anomaly
EP2759938B1 (en) Operations management device, operations management method, and program
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
KR102118670B1 (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
US7693982B2 (en) Automated diagnosis and forecasting of service level objective states
EP3051421B1 (en) An application performance analyzer and corresponding method
US8874642B2 (en) System and method for managing the performance of an enterprise application
JP4626852B2 (ja) 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
US8140454B2 (en) Systems and/or methods for prediction and/or root cause analysis of events based on business activity monitoring related data
US20110238376A1 (en) Automatic Determination of Dynamic Threshold for Accurate Detection of Abnormalities
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
KR20190021560A (ko) 빅데이터를 활용한 고장예지보전시스템 및 고장예지보전방법
JP2010526352A (ja) 統計的な分析を利用した性能障害管理システム及びその方法
JP2019502195A (ja) 時間的因果グラフにおける異常フュージョン
CN101902366A (zh) 一种业务行为异常检测方法和系统
JP5768983B2 (ja) 契約違反予測システム、契約違反予測方法および契約違反予測プログラム
US20150066431A1 (en) Use of partial component failure data for integrated failure mode separation and failure prediction
CN113196311A (zh) 用于识别和预测机器的异常感测行为模式的系统和方法
Chouliaras et al. Real-time anomaly detection of NoSQL systems based on resource usage monitoring
JP6832890B2 (ja) 監視装置、監視方法、及びコンピュータプログラム
CN115280337A (zh) 基于机器学习的数据监控
JP2009086896A (ja) コンピュータの障害予測システムおよび障害予測方法
CN117723106A (zh) 海缆状态监测系统
CN117391675A (zh) 一种数据中心基础设施运维管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190710

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200227

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20200227

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20200306

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20200310

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20200605

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20200609

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20200825

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

C302 Record of communication

Free format text: JAPANESE INTERMEDIATE CODE: C302

Effective date: 20201202

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20201221

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20210126

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210202

R150 Certificate of patent or registration of utility model

Ref document number: 6832890

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250