JP6832890B2 - 監視装置、監視方法、及びコンピュータプログラム - Google Patents
監視装置、監視方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6832890B2 JP6832890B2 JP2018106273A JP2018106273A JP6832890B2 JP 6832890 B2 JP6832890 B2 JP 6832890B2 JP 2018106273 A JP2018106273 A JP 2018106273A JP 2018106273 A JP2018106273 A JP 2018106273A JP 6832890 B2 JP6832890 B2 JP 6832890B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- machine learning
- risk
- unit
- state information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 23
- 238000012544 monitoring process Methods 0.000 title claims description 22
- 238000004590 computer program Methods 0.000 title claims description 6
- 238000010801 machine learning Methods 0.000 claims description 72
- 238000011156 evaluation Methods 0.000 claims description 44
- 238000012806 monitoring device Methods 0.000 claims description 36
- 230000008859 change Effects 0.000 claims description 35
- 230000005856 abnormality Effects 0.000 claims description 30
- 238000013480 data collection Methods 0.000 claims description 22
- 230000007613 environmental effect Effects 0.000 claims description 12
- 239000000284 extract Substances 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Landscapes
- Testing And Monitoring For Control Systems (AREA)
Description
本発明の実施の形態は、数〜数十台のサーバで構成されるシステムの故障等を監視するセンタで収集管理されるシステムのリソース使用量やネットワークトラフィック、環境パラメータなどのシステム稼働情報から異常や故障につながるリスクを評価するものである。ここでいう“リスクの評価”には、異常検知や故障予測の意味も含まれる。技術分野は、システム停止などの事故を防ぐことを目的としたシステム監視技術に属する。なお、数〜数十台のサーバで構成されるシステムとしては、例えば、利用者が終日利用するリアルタイム処理が必要なWebサービスや基幹業務を提供するシステムが該当する。
次に、本発明の実施の形態における用語について説明する。
図1は、本発明の実施の形態における監視装置10の適用例を示すシステム構成図である。この図に示すように、監視対象システム1に通信網を介して監視装置10が接続され、監視装置10に通信網を介して表示等装置2が接続されている。監視装置10は、監視対象システム1の過去のリソース状態と環境情報からリスク評価に必要な情報を抽出し、事前に機械学習により学習パラメータを生成する。また、システム状態と学習パラメータを利用して、現時点でのリスクを評価し、異常として検出し、その検出結果を表示等装置2に通知する。
図2は、従来技術における監視装置10を適用した場合のシーケンス図である。従来技術における監視装置10についても、本発明の実施の形態における監視装置10と同じ符号10を用いるが、両者の機能が異なることは言うまでもない。
図3は、本発明の実施の形態における監視装置10を適用した場合のシーケンス図である。
図4は、本発明の実施の形態における監視装置10の動作を示すフローチャートである。ここでは、監視装置10の全体動作を説明することとし、各処理部の動作については後述する。
図5は、本発明の実施の形態におけるデータ収集部11の動作を示すフローチャートである。既に説明したように、データ収集部11は、監視対象システム1のOSとセンサから取得できるCPU使用率・メモリ使用率等のシステム状態情報をネットワーク経由で取得し、時系列情報としてデータベースにて管理する。
図6は、本発明の実施の形態における機械学習部13の動作を示すフローチャートである。既に説明したように、機械学習部13は、CPU使用率・メモリ使用率等のシステム状態情報の種類及び集計期間毎にN種類の学習パラメータWnを求め、N種類の学習パラメータWnをデータベースにて管理する。
(1)学習情報nをもとに機械学習(計算)し、重み(=学習パラメータ)Wnを算出する。学習結果はリスク値(=リスク発生確率)として出力するように処理する。
(2)算出した重みWnと学習情報nのm個目の特徴量Tm(学習用データ)からリスク評価部15と同様にリスク値Pnを計算し、最も大きい値をモデルnのリスクしきい値Rnとして算出する。
最後に、機械学習部13は、状態の機械学習nで算出したリクスしきい値Rnから、リスク評価部15でのリスク判定のためのリスクしきい値Rを算出する(ステップS45)。
算出したリスクしきい値Rはリスク評価部15で利用する。vnは各モデルに対するリスク発生の影響度になり、監視対象システム1の過去の故障履歴と発生要因から求める。
(影響度が均一の場合は、v1=v2=…=vn=1とする。)
図7は、本発明の実施の形態におけるリスク評価部15の動作を示すフローチャートである。既に説明したように、リスク評価部15は、現在のCPU使用率・メモリ使用率等のシステム状態情報を利用してN種類のモデルからリスク発生確率Pnを求め、系全体の発生確率PをPnの期待値としてリスクを判定する。
次いで、リスク評価部15は、リスク発生確率を計算する(ステップS55)。例えば、モデル1〜Nのリスク値Pnからリスク発生確率Pを計算する。Pを系全体のリスク発生確率(モデル1〜Nからの発生確率の重み付期待値)として求める。
次いで、リスク評価部15は、リスクを判断する(ステップS56)。例えば、リスク発生確率PがRより大きい場合、max(P1,P2,…,Pn)であるモデルnを要因としてリスク発生あり(YES)と判断する。Rは、機械学習部13で求めたリスクしきい値である。
図8は、本発明の実施の形態における記憶部12に記憶されるデータベース構成図である。図8(a)はシステム状態情報を示し、図8(b)は特徴情報(学習データ)を示し、図8(c)は学習パラメータを示している。
以上のように、本発明の実施の形態における監視装置10は、過去正常時の時系列状態情報から機械学習により特徴量区分毎に学習パラメータを生成する。現在のシステム状態をネットワーク等で随時取得した後、生成した学習パラメータにより評価することで異常やリスク検知の検知結果を通知する。これにより、以下のような効果がある。
・しきい値と判断ルールの設計のための経験・専門的見地の負担を軽減する。
・監視対象の判断ルールを機械学習により自動化する。
・サイレント故障の発生を予測する。
・リスクの要因(予測結果)の原因を特定する。
・運用に伴うしきい値等の変更を可能とする。
・アラームの誤検知発生を抑制する。
・観測が難しい故障発生時のデータを不要とする。
以下、従来技術と比較しながら、本発明を更に詳しく説明する。
本発明は、機械学習を活用するための方式として、処理1〜4を採用している。以下、事例を示しながら具体的に説明する。
図10は、処理1を詳細に説明するための図である。本発明では、メモリやCPUの使用率等のシステム状態情報から故障等のリスクを特徴づける変化量・平均値等の特徴量を利用する。図中の(1)の波形は、CPU使用率等のシステム状態情報(正常時)を示している。このシステム状態情報から変化量(周波数分析)を抽出した場合を(2−1)に示し、平均値・標準偏差・中央値を抽出した場合を(2−2)に示している。このような特徴量を利用すれば、従来のメモリやCPUの使用率等のしきい値では判断ができないサイレント故障などの事象を捉え易くなる(具体例は後述する)。この特徴をAIで比較することで正常時との差(異常かどうか)を判断することができる。
図11は、特徴量による分類例1を示す図である。ここでは、ヒープメモリ使用量が増加し、メモリ不足が発生している場合(サイレント故障)を例示している。
図12は、特徴量による分類例2を示す図である。ここでは、CPU負荷が徐々に上昇している場合(サイレント故障)を例示している。この事例はメモリリークの類似事象である。
図13は、特徴量による分類例3を示す図(1/2)である。ここでは、バッチ処理等の定期的なCPU負荷上昇を例示している(一定時間間隔の負荷上昇)。
監視対象システム1の環境条件をセンサで取得し、リスクを複合的に評価する。環境条件としては、例えば、動作温度・湿度・振動・消費電力等を挙げることができる。これにより、ソフト的な情報だけでなく物理的な情報を含めて複数の条件を機械学習で評価することで誤検知を抑制することが可能となる。温度上昇が故障に大きく影響する等の知見があるため、物理的な情報を含めることは非常に効果的である。
時間変化のあるシステム情報量を特徴量の時系列変化として捉えるため、時系列の特徴量を機械学習の入力として利用する。時系列特徴量には、変化量と統計量(平均値、標準偏差、中央値)の2つを利用する。特徴量を[数1]とし、システム状態情報を[数2]とした場合、変化量は[数3]で表すことができ、統計量は[数4]で表すことができる。
図15は、処理4を詳細に説明するための図である。正常時のシステム固有の特徴量遷移を機械学習で学習し、正常時からの差で異常を判断する。具体的には、現在(時系列)の特徴が正常時の傾向と同じであるかを判定する(Autoencoderによる入力値と出力値の距離計算)。この判定の結果、現在の特徴と正常時の傾向とに差が発生した場合は、各モデルの判定結果で最も乖離のあるリソースを故障の要因と判定する。これにより、各条件を各AIで評価し、要因の追跡を可能とする。
以上説明したように、本発明の実施の形態における監視装置10は、監視対象システム1のシステム状態情報を収集するデータ収集部11と、データ収集部11によって収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態が学習された機械学習部13と、データ収集部11によって収集された現在のシステム状態情報と、機械学習部13によって事前に学習された正常時の状態とに基づいて、監視対象システム1のリスクを評価するリスク評価部15とを備える。これにより、監視対象の状態から異常・リスクを機械学習により判断・検知するしくみを作ることができるため、異常や故障につながるリスクを評価することが可能となる。
2…表示等装置
10…監視装置
11…データ収集部
12…記憶部
13…機械学習部
15…リスク評価部
16…通知部
Claims (5)
- 監視対象システムのシステム状態情報を収集するデータ収集部と、
前記データ収集部によって収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態が学習された機械学習部と、
前記データ収集部によって収集された現在のシステム状態情報と、前記機械学習部によって事前に学習された正常時の状態とに基づいて、前記監視対象システムのリスクを評価するリスク評価部とを備え、前記システム状態情報は、メモリおよびCPUの使用量の少なくとも1つを含み、
前記機械学習部は、前記システム状態情報から異常を表現づける特徴量を抽出し、
前記リスク評価部は、特定の一時点の情報だけでなく過去の時系列情報を加え、その時系列特徴量として、前記時系列情報を周波数分析で抽出した変化量と、前記時系列情報の平均値、標準偏差および中央値の少なくとも1つを含む統計量とを利用してリスクを評価することで、前記メモリまたは前記CPUの使用率のしきい値では判断ができないサイレント故障の発生を予測することを特徴とする監視装置。 - 前記リスク評価部は、前記監視対象システムの環境条件をセンサで取得することでリスクを複合的に評価することを特徴とする請求項1に記載の監視装置。
- 前記リスク評価部は、複数の条件を複数の学習モデルで異常評価することで原因を追跡することを特徴とする請求項1または2に記載の監視装置。
- コンピュータが、
監視対象システムのシステム状態情報を収集するデータ収集ステップと、
前記データ収集ステップで収集されたシステム状態情報に基づいて、事前に機械学習により正常時の状態を学習する機械学習ステップと、
前記データ収集ステップで収集された現在のシステム状態情報と、前記機械学習ステップで事前に学習された正常時の状態とに基づいて、前記監視対象システムのリスクを評価するリスク評価ステップとを実行し、前記システム状態情報は、メモリおよびCPUの使用量の少なくとも1つを含み、
前記機械学習ステップでは、前記システム状態情報から異常を表現づける特徴量を抽出し、
前記リスク評価ステップでは、特定の一時点の情報だけでなく過去の時系列情報を加え、その時系列特徴量として、前記時系列情報を周波数分析で抽出した変化量と、前記時系列情報の平均値、標準偏差および中央値の少なくとも1つを含む統計量とを利用してリスクを評価することで、前記メモリまたは前記CPUの使用率のしきい値では判断ができないサイレント故障の発生を予測することを特徴とする監視方法。 - 請求項1から3のいずれか1項に記載した監視装置としてコンピュータを機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018106273A JP6832890B2 (ja) | 2018-06-01 | 2018-06-01 | 監視装置、監視方法、及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018106273A JP6832890B2 (ja) | 2018-06-01 | 2018-06-01 | 監視装置、監視方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019211919A JP2019211919A (ja) | 2019-12-12 |
JP6832890B2 true JP6832890B2 (ja) | 2021-02-24 |
Family
ID=68846816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018106273A Active JP6832890B2 (ja) | 2018-06-01 | 2018-06-01 | 監視装置、監視方法、及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6832890B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021161399A1 (ja) * | 2020-02-10 | 2021-08-19 | 三菱電機株式会社 | エネルギー管理装置、エネルギー管理方法、およびエネルギー管理プログラム |
KR102403522B1 (ko) * | 2021-06-29 | 2022-05-31 | 주식회사 에이텍 | 컴퓨터의 사전 탐지를 이용한 장애 예방장치 및 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11129145A (ja) * | 1997-10-31 | 1999-05-18 | Denso Corp | 加工物の形状精度診断装置及び加工物の形状精度診断方法及び記録媒体 |
JP5808605B2 (ja) * | 2011-08-17 | 2015-11-10 | 株式会社日立製作所 | 異常検知・診断方法、および異常検知・診断システム |
JP5530020B1 (ja) * | 2013-11-01 | 2014-06-25 | 株式会社日立パワーソリューションズ | 異常診断システム及び異常診断方法 |
JP5946573B1 (ja) * | 2015-08-05 | 2016-07-06 | 株式会社日立パワーソリューションズ | 異常予兆診断システム及び異常予兆診断方法 |
-
2018
- 2018-06-01 JP JP2018106273A patent/JP6832890B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019211919A (ja) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9292408B2 (en) | Automated detection of a system anomaly | |
EP2759938B1 (en) | Operations management device, operations management method, and program | |
US20190228296A1 (en) | Significant events identifier for outlier root cause investigation | |
KR102118670B1 (ko) | Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법 | |
US7693982B2 (en) | Automated diagnosis and forecasting of service level objective states | |
EP3051421B1 (en) | An application performance analyzer and corresponding method | |
US8874642B2 (en) | System and method for managing the performance of an enterprise application | |
JP4626852B2 (ja) | 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム | |
CN111045894B (zh) | 数据库异常检测方法、装置、计算机设备和存储介质 | |
US8140454B2 (en) | Systems and/or methods for prediction and/or root cause analysis of events based on business activity monitoring related data | |
US20110238376A1 (en) | Automatic Determination of Dynamic Threshold for Accurate Detection of Abnormalities | |
JP2015028700A (ja) | 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体 | |
KR20190021560A (ko) | 빅데이터를 활용한 고장예지보전시스템 및 고장예지보전방법 | |
JP2010526352A (ja) | 統計的な分析を利用した性能障害管理システム及びその方法 | |
JP2019502195A (ja) | 時間的因果グラフにおける異常フュージョン | |
CN101902366A (zh) | 一种业务行为异常检测方法和系统 | |
JP5768983B2 (ja) | 契約違反予測システム、契約違反予測方法および契約違反予測プログラム | |
US20150066431A1 (en) | Use of partial component failure data for integrated failure mode separation and failure prediction | |
CN113196311A (zh) | 用于识别和预测机器的异常感测行为模式的系统和方法 | |
Chouliaras et al. | Real-time anomaly detection of NoSQL systems based on resource usage monitoring | |
JP6832890B2 (ja) | 監視装置、監視方法、及びコンピュータプログラム | |
CN115280337A (zh) | 基于机器学习的数据监控 | |
JP2009086896A (ja) | コンピュータの障害予測システムおよび障害予測方法 | |
CN117723106A (zh) | 海缆状态监测系统 | |
CN117391675A (zh) | 一种数据中心基础设施运维管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190524 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190710 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20191203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200227 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20200227 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20200306 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20200310 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20200605 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20200609 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20200825 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20201013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201130 |
|
C302 | Record of communication |
Free format text: JAPANESE INTERMEDIATE CODE: C302 Effective date: 20201202 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20201221 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20210126 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20210126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210202 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6832890 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |