JP6666489B1 - 障害予兆検知システム - Google Patents
障害予兆検知システム Download PDFInfo
- Publication number
- JP6666489B1 JP6666489B1 JP2019031822A JP2019031822A JP6666489B1 JP 6666489 B1 JP6666489 B1 JP 6666489B1 JP 2019031822 A JP2019031822 A JP 2019031822A JP 2019031822 A JP2019031822 A JP 2019031822A JP 6666489 B1 JP6666489 B1 JP 6666489B1
- Authority
- JP
- Japan
- Prior art keywords
- trace information
- failure
- event
- failure sign
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
また、従来の障害予兆を検知するシステムにおいては、センサで検出できない部位または種類の障害予兆を検知できない等の問題があった。さらには、センサ等のハードウェア部品の実装が必要であるため、コストが高くなってしまうという問題があった。
(第1実施形態)
まず、第1実施形態を説明する。
図1は、本実施形態の障害予兆検知システム1の一構成例を示す図である。
図1に示すように、障害予兆検知システム1は、障害予兆検出の対象となる単体または複数の同一機種であるターゲット機器10−1〜10−nと、ターゲット機器10−1〜10−nの障害予兆を検知する障害予兆検知装置20と、障害予兆検知装置20が検知した障害予兆を分析し、予防保全等の保守作業を実施する保守部30とで構成される。ターゲット機器10−1〜10−nと障害予兆検知装置20と、障害予兆検知装置20と保守部30とは、ネットワークによって接続される。以下、ターゲット機器10−1〜10−nを、ターゲット機器10と総称することがある。
図2に示すように、ターゲット機器10−1〜10−nは、組み込みソフトウェア100と、記憶部110と、トレース情報送信部120とを備える。
組み込みソフトウェア100は、ターゲット機器10−1〜10−n内のハードウェア制御を行うプログラムである。つまり、ターゲット機器10−1〜10−nは、組み込みソフトウェア100を実行するプロセッサを備えている。組み込みソフトウェア100には、関数の呼び出し回数(トレース情報111)をカウントするトレースポイントが設置されている。組み込みソフトウェア100は、カウントしたトレース情報111を記憶部110に保存する。トレース情報111については後述する(図5参照)。つまり、組み込みソフトウェア100は、トレース情報記録部としても機能する。
図3は、障害予兆検知装置20の部分ブロック図である。
トレース情報受信部200は、ターゲット機器10−1〜10−nのトレース情報送信部120から送信されたトレース情報111を受信する。記憶部210は、トレース情報受信部200によって受信されたトレース情報111が反映される、後述するトレース情報テーブル211(図7参照)を保持する。
予測部230は、記憶部210から読み込んだ未知トレース情報と学習モデルとを用いて、ターゲット機器10−1〜10−nに障害の予兆があるかどうかを予測し、障害が発生する確率を算出する。未知トレース情報は、後述する未知トレース情報テーブルから取り出されたトレース情報である。
学習モデル生成部220および予測部230は、メモリに格納されてプロセッサによって実行されるソフトウェアとして実現されてもよいし、電気回路などのハードウェアとして実現されてもよい。ここでは、学習モデル生成部220および予測部230は、ソフトウェアとして実現されていることを想定する。つまり、障害予兆検知装置20は、このソフトウェアを実行するプロセッサを備えている。
図4に示すように、保守部30は、障害予兆受信部300と、障害分析部門310と、保守実行部門330と、障害登録部門340と、トレース情報管理部350とを備える。
障害予兆受信部300は、障害予兆検知装置20の障害予兆通知部240から通知された障害予兆情報を受信する。障害分析部門310は、障害予兆受信部300によって受信された障害予兆情報から実際に障害の可能性があるかどうかを判断する。障害の可能性があると判断した場合、障害分析部門310は、保守実行部門330に保守作業の指示を出し、また、障害登録部門340に障害登録の指示を出す。
図5に示すように、トレース情報111は、機器ID、開始日、終了日、トレースポイントが設置された関数名、その関数がコールされた回数を保持している。
トレースポイントは、プログラムの関数内の先頭に設置される命令であり、この命令が実行されると、その命令に関連付けられたカウンタに1を加算することで関数の呼び出し回数を数えるものとする。カウンタは、記憶部110のトレース情報111に保持されており、トレースポイントが設置された関数名で検索することができる。関数名で検索して見つかれば、その関数名のカウンタに1を加算する。トレース情報111に関数名が見つからなければ、新たに当該関数名の列を追加しカウンタに1を設定する。
障害予兆検知装置20のトレース情報受信部200は、ターゲット機器10−1〜10−nよりトレース情報111を受信すると、記憶部210に保存されたトレース情報テーブル211に行を追加し、受信したトレース情報111の内容を記録する。なお、事象列には「正常」を記録し、関数名の列には関数名で検索して一致する列に関数の呼び出し回数を記録する。関数名が存在しない場合は、新たに関数名の列を追加し回数を記録するとともに、他の行には0を記録する。最後に、追加した行で関数呼び出し回数が空となっている箇所には0を記録する。また、詳細は後述するが、ターゲット機器10に障害が発生すると、トレース情報テーブル操作部250によって当該ターゲット機器10の機器IDの不調期間の行について、事象列が「正常」から「障害A」等の障害を表す事象に書き換えられる。
本実施形態においては、学習モデルとして機械学習の手法の一つであるランダムフォレストを用いる。ランダムフォレストとは、訓練データから多数の決定木を生成し、それぞれの決定木で予測し、それらの結果を多数決することによって予測精度を高めるアンサンブル学習と呼ばれる手法である。ランダムフォレストの特徴として、比較的精度が高く、学習および分類が高速であることに加え、訓練データの正規化といった前処理が不要であること、特徴量の寄与度を算出可能であること、分類結果の根拠を人間が解析しやすいことなどが挙げられ、本実施形態の学習モデルに適している。なお、サポートベクターマシンやニューラルネットワークといった他の機械学習手法を用いても、トレースポイントを用いた障害予兆の学習モデルを作成することは可能であるが、処理が重いため大規模データに向かない、訓練データの正規化といった前処理が必要になる、後述の第2実施形態において説明する特徴量の寄与度の算出が難しいといった欠点がある。
図8に示す学習モデル生成処理のフローチャートに従って、学習モデルの生成処理について説明する。
まず、学習モデル生成部220は、記憶部210に保持されるトレース情報テーブル211を参照し、最新日付より1周期前の日付について、レビジョン列に記録されたレビジョン毎に分類し、これをサンプルデータとする(ステップA1)。
決定木は、図10に示すような木構造であり、決定木学習アルゴリズムは、親集合を各ノードの分割条件によって子集合に分割していくことで分類する学習モデルである。決定木は訓練データを元に決定木学習アルゴリズムによって生成する。決定木学習アルゴリズムは一般に知られた手法である。図9と図10の例を用いて、決定木学習アルゴリズムを本実施形態におけるトレース情報111に適用する方法を説明する。
不純度とは、一般にエントロピーやジニ係数で計算される値であり、ある集合においてある1つの種類が大多数を占めるほど不純度が低くなり、逆に、ある集合内に多数の種類が混在しているほど不純度が高くなる。情報利得とは分割の良さを表す値であり、ある集合を分割する前の集合を親集合、2つに分割した後の集合を子集合としたとき、親集合とすべての子集合の不純度をそれぞれ計算し、親集合の不純度からすべての子集合の不純度を引くことで計算する。情報利得が大きい程、親集合をより純度の高い2つの子集合に分割できたことを表す。
図11は、分類処理のフローチャートを示し、図12は、ランダムフォレストによってターゲット機器10のトレース情報111から障害予兆を分類する様子を示す。
予測部230は、記憶部210が保持するトレース情報テーブル211から現在日時に最も近い開始日のトレース情報テーブルを抽出する。このトレース情報テーブルは学習モデルの生成には用いられていないため、ここでは未知トレース情報テーブルと呼ぶ。未知トレース情報テーブルから1行ずつターゲット機器のトレース情報(図12:未知トレース情報b1)を取り出す(図11:ステップB1)。
次に、保守部30について説明する。
(第2実施形態)
次に、第2実施形態を説明する。なお、第1実施形態と同一の構成要件については同一の符号を使用し、重複した説明を省略する。
図14に示すように、本実施形態の障害予兆検知システム1においては、第1実施形態の障害予兆検知システム1と比較して、さらに、保守部30と接続された開発部40を備える。
図15に示すように、開発部40は、保守部30の保守データベース320を参照するための保守データベース端末部400と、組み込みソフトウェア100の開発を実施する組み込みソフトウェア開発部門410とを備える。なお、組み込みソフトウェア開発部門410は、組み込みソフトウェア100の開発に携わる人員を含む各種リソースの総称である。
寄与度テーブル212は、組み込みソフトウェア100のレビジョンと、各レビジョンに設定されたトレースポイントと、そのトレースポイントが障害予兆検知にどれだけ寄与したかを示す寄与度とから構成されるテーブルである。
第1実施形態で用いた図9と図10を援用して寄与度の計算を具体的に説明する。
開発部40の組み込みソフトウェア開発部門410は、保守データベース端末部400を介して、保守部30の保守データベース320に保存されている寄与度テーブル212を参照することで、どのトレースポイントが障害予兆に寄与しているかを見ることができる。組み込みソフトウェア開発部門410は、次のレビジョンの組み込みソフトウェア100を作成する場合に、寄与度の低いトレースポイントを削除したり、寄与度が高いトレースポイントを含む関数と類似した関数にトレースポイントを追加したりする。
次に、第3実施形態を説明する。なお、第1実施形態と同一の構成要件については同一の符号を使用し、重複した説明を省略する。
障害予兆検知システム1では、正常データのサンプル数が多く、障害データのサンプル数が少ないというデータの不均衡が発生することが考えられる。データの不均衡がある場合、ランダムフォレストではラベル(本発明における事象)に重みを付けたり、サンプリングする正常データを減らすことでバランスを取る手法が知られている。しかし、組み込みソフトウェア100のレビジョンアップ直後などは、障害データが存在しないか少なすぎるため障害予兆検知の精度が低下することが考えられる。そこで、本実施形態では、不調な部品を実装した不調ターゲット機器を接続し、疑似ターゲット機器に対して様々なパターンの入力を行うことで、障害事象の訓練データを増やす。
図17に示すように、本実施形態の障害予兆検知システム1においては、第1実施形態の障害予兆検知システム1と比較して、さらに、障害予兆検知装置20に接続されたターゲット機器10−1〜10−nと同じ構成のターゲット機器10に不調な部品を故意に実装した不調ターゲット機器11と、不調ターゲット機器11と接続され種々のI/Oを発生可能なI/O発生装置50とを備える。
Claims (5)
- 第1装置と、
1以上の前記第1装置の障害予兆を検知する第2装置と、
を具備し、
前記第1装置は、
前記第1装置内のハードウェア制御を実行するプログラムに関する関数の呼び出し回数と、呼び出し回数の計数対象とする関数の一部または全部を変更するための前記プログラムの更新が行われるごとに値が増加する前記プログラムの改定番号とを含むトレース情報を記録するトレース情報記録部
を具備し、
前記第2装置は、
前記改定番号ごとに前記トレース情報を分類し、分類した前記トレース情報と、前記トレース情報に対して関連づけられた前記第1装置の事象とに基づき、1関数以上の前記関数の呼び出し回数から前記第1装置の事象を予測するための決定木の学習モデルを生成する学習モデル生成部と、
前記第1装置から新たに収集された前記トレース情報と前記学習モデルとを用いて、前記第1装置の事象を予測する予測部と、
を具備する障害予兆検知システム。 - 前記プログラムが更新された直後における前記学習モデル生成部による前記決定木の学習モデルの生成時、障害に相当する事象が予測されるべき前記トレース情報を収集するための不調の前記第1装置が増設される請求項1に記載の障害予兆検知システム。
- 第1装置と、
1以上の前記第1装置の障害予兆を検知する第2装置と、
障害に相当する前記第1装置の事象を予測した前記第2装置から前記第1装置の障害予兆が検知された旨を示す通知を受信する第3装置と、
を具備し、
前記第1装置は、
前記第1装置内のハードウェア制御を実行するプログラムに関する関数の呼び出し回数を含むトレース情報を記録するトレース情報記録部
を具備し、
前記第2装置は、
前記第1装置の事象の予測に対する1関数以上の前記関数の呼び出し回数の寄与度を算出し、前記トレース情報と、前記トレース情報に対して関連づけられた前記第1装置の事象とに基づき、1関数以上の前記関数の呼び出し回数から前記第1装置の事象を予測するための決定木の学習モデルを複数生成する学習モデル生成部と、
前記第1装置から新たに収集された前記トレース情報と、複数の前記学習モデルとを用いて、複数の前記学習モデルごとに前記第1装置の事象を予測し、複数の前記学習モデルそれぞれによる前記第1装置の事象の複数の予測結果に基づき、予測した前記第1装置の事象の確率を算出する予測部と、
を具備し、
前記第3装置は、
前記第1装置の事象とその復旧手順とを記憶する記憶部と、
前記第2装置から通知された前記第1装置の事象に対応する復旧手順を前記記憶部から取得して提示する提示部と、
を具備する障害予兆検知システム。 - 前記学習モデル生成部は、前記複数の決定木のそれぞれにおける1関数以上の前記関数の呼び出し回数の寄与度を算出し、かつ、前記複数の決定木の全体における1関数以上の前記関数の呼び出し回数の寄与度の平均値を算出することによって、前記第1装置の事象の予測に対する1関数以上の前記関数の呼び出し回数の寄与度を算出する請求項3に記載の障害予兆検知システム。
- 前記学習モデル生成部は、前記寄与度が閾値以下の関数の読み出し回数を除いて前記複数の決定木を再作成する請求項4に記載の障害予兆検知システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019031822A JP6666489B1 (ja) | 2019-02-25 | 2019-02-25 | 障害予兆検知システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019031822A JP6666489B1 (ja) | 2019-02-25 | 2019-02-25 | 障害予兆検知システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6666489B1 true JP6666489B1 (ja) | 2020-03-13 |
JP2020135739A JP2020135739A (ja) | 2020-08-31 |
Family
ID=70000435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019031822A Active JP6666489B1 (ja) | 2019-02-25 | 2019-02-25 | 障害予兆検知システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6666489B1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4148575A4 (en) * | 2020-10-08 | 2023-11-29 | Panasonic Intellectual Property Management Co., Ltd. | METHOD AND SYSTEM FOR PROVIDING MAINTENANCE SERVICE FOR A RECORDING MEDIUM INCLUDED IN AN ELECTRONIC DEVICE |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5214656B2 (ja) * | 2010-03-29 | 2013-06-19 | 株式会社東芝 | 評価装置および評価プログラム |
JP2014115768A (ja) * | 2012-12-07 | 2014-06-26 | Toshiba Corp | ログ判定システム、ログ判定基準構築装置及びログ判定方法 |
JP5948257B2 (ja) * | 2013-01-11 | 2016-07-06 | 株式会社日立製作所 | 情報処理システム監視装置、監視方法、及び監視プログラム |
JP6375200B2 (ja) * | 2014-10-23 | 2018-08-15 | 株式会社日立製作所 | 計算機システムの異常予兆検出装置および方法 |
JP6655361B2 (ja) * | 2015-11-11 | 2020-02-26 | 日立オートモティブシステムズ株式会社 | 車両制御装置 |
JP7054820B2 (ja) * | 2017-07-04 | 2022-04-15 | パナソニックIpマネジメント株式会社 | 眠気検知装置、眠気検知方法、及び、プログラム記録媒体 |
-
2019
- 2019-02-25 JP JP2019031822A patent/JP6666489B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020135739A (ja) | 2020-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9672085B2 (en) | Adaptive fault diagnosis | |
JP7158586B2 (ja) | ハードディスク故障発生時期の予測方法、装置及び記憶媒体 | |
JP4318643B2 (ja) | 運用管理方法、運用管理装置および運用管理プログラム | |
CN110413227B (zh) | 一种硬盘设备的剩余使用寿命在线预测方法和系统 | |
US20230385141A1 (en) | Multi-factor cloud service storage device error prediction | |
JP6233411B2 (ja) | 障害分析装置、障害分析方法、および、コンピュータ・プログラム | |
WO2014184934A1 (ja) | 障害分析方法、障害分析システム及び記憶媒体 | |
US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
CN102597966B (zh) | 运行管理装置以及运行管理方法 | |
KR101948634B1 (ko) | 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법 | |
CN112214369A (zh) | 基于模型融合的硬盘故障预测模型建立方法及其应用 | |
JP6988304B2 (ja) | 運用管理システム、監視サーバ、方法およびプログラム | |
Han et al. | Toward adaptive disk failure prediction via stream mining | |
Di et al. | Exploring properties and correlations of fatal events in a large-scale hpc system | |
KR20210108874A (ko) | 기계 학습을 사용하여 스토리지 장치 장애를 예측하는 시스템 및 장치 | |
CN111061581B (zh) | 一种故障检测方法、装置及设备 | |
CN112988437B (zh) | 一种故障预测方法、装置及电子设备和存储介质 | |
US11334410B1 (en) | Determining aberrant members of a homogenous cluster of systems using external monitors | |
JP6666489B1 (ja) | 障害予兆検知システム | |
WO2024118188A1 (en) | Computer application error root cause diagnostic tool | |
Nikiforov | Clustering-based anomaly detection for microservices | |
Shilpika et al. | Toward an in-depth analysis of multifidelity high performance computing systems | |
Soualhia et al. | Automated traces-based anomaly detection and root cause analysis in cloud platforms | |
JP6405851B2 (ja) | 予兆検知支援プログラム、方法、装置、及び予兆検知プログラム、 | |
Wang et al. | Identifying execution anomalies for data intensive workflows using lightweight ML techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191107 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200220 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6666489 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |