JP5287170B2 - 障害原因分析システム、障害原因分析方法 - Google Patents

障害原因分析システム、障害原因分析方法 Download PDF

Info

Publication number
JP5287170B2
JP5287170B2 JP2008297587A JP2008297587A JP5287170B2 JP 5287170 B2 JP5287170 B2 JP 5287170B2 JP 2008297587 A JP2008297587 A JP 2008297587A JP 2008297587 A JP2008297587 A JP 2008297587A JP 5287170 B2 JP5287170 B2 JP 5287170B2
Authority
JP
Japan
Prior art keywords
data
failure
deviation degree
module
behavior space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008297587A
Other languages
English (en)
Other versions
JP2010122134A (ja
Inventor
守一 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2008297587A priority Critical patent/JP5287170B2/ja
Publication of JP2010122134A publication Critical patent/JP2010122134A/ja
Application granted granted Critical
Publication of JP5287170B2 publication Critical patent/JP5287170B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Description

複数のモジュールによって動作するシステムにおいて発生した障害原因を分析する障害原因分析システム、障害原因分析方法に関する。
近年、複数のモジュールによって動作するシステムにおいて、システムの大規模化に伴い、障害原因を分析することが難しくなってきている。このようなシステムとしては、例えば、車両に搭載される車載システムがある。車載システムでは、複数のECU(Electronic Control Unit)が、CAN(Controller Area Network)などのネットワークを介して互いにデータの送受信を行い、協調して動作を行っている。その為、あるECUが故障すると、他のECUにも異常が伝搬してしまい、障害原因を分析することが難しい。
そこで、車載システムの障害原因を分析する仕組みが考えられている(特許文献1参照)。特許文献1における仕組みは、ある車両において発見された故障がどのような条件が揃った時に発生し易いかを解析するものである。所定の故障発生判定基準に基づいて故障が発生したと判定された車両の障害原因を分析する場合、その車両状態または車両属性(型式、車台番号、搭載部品、走行距離等)が類似する他の車両に対して、故障発生判定基準をより緩やかな基準へ変更する。そして、類似する他の車両の中で、変更した基準に基づいて故障が発生したと判定された車両に共通する車両状態、車両周辺環境の特徴を抽出する。
特開2006−349428号公報
しかしながら、特許文献1に記載された仕組みでは、故障発生判定基準のパラメータが連続的な値を取り、閾値によって故障か否かを判定することを前提としている。その為、例えば、走行中や一時停止中にエンジンが停止するといった故障の場合、故障発生判定基準をより緩やかな基準へと変更することはできず、特許文献1の仕組みを適用できない。また、故障発生判定基準を定義することができない障害、すなわち事前に想定できない障害には適用できない。
また、故障車両と類似する車両を実際に走行させて故障発生時に近い状態を再現することになる為、人命に関わるような障害に対しては、特許文献1の仕組みを適用できない。
本発明は、前述した問題点に鑑みてなされたもので、その目的は、事前に想定できない障害等であっても安全に障害原因を分析できる障害原因分析システムを提供することである。
前述した目的を達成するために第1の発明は、複数のモジュールによって動作するシステムにおいて発生した障害原因を分析する障害原因分析システムであって、前記システムが正常に動作しているときの動作データである第1の動作データを用いて、相関を考慮した距離を指標とした中心からの逸脱の度合いである逸脱度のヒストグラムである挙動空間データを生成し、モジュールごとの挙動空間を構築する挙動空間構築手段と、定期的に前記第1の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに前記第1の動作データを異常性データとして記憶する異常性データ収集手段と、障害検知信号を受信したときの動作データである第2の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを障害データとして記憶する障害データ収集手段と、前記異常性データ前記逸脱度および前記障害データ前記逸脱度を含む評価関数に基づいて障害原因を分析する障害原因分析手段と、を備えることを特徴とする障害原因分析システムである。
第1の発明によって、事前に想定できない障害等であっても安全に障害原因を分析できる。
第1の発明における前記挙動空間構築手段は、各モジュールの入力信号に係る第1の挙動空間と、各モジュールの入力信号および出力信号に係る第2の挙動空間との両方を構築することが望ましい。
また、第1の発明における前記異常性情報収集手段は、定期的に前記第1の動作データを取得して、前記第1の挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに前記第1の動作データを第1の異常性データとして記憶し、かつ前記第2の挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに第2の異常性データとして記憶するものであり、前記障害情報収集手段は、前記第2の動作データを取得して前記第1の挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを第1の障害データとして記憶し、かつ前記第2の挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを第2の障害データとして記憶するものであることが望ましい。
これによって、モジュールの入力信号の不整合が障害原因なのか、またはモジュールの機能が障害原因なのかを区別して分析することができる。
また、第1の発明における前記障害原因分析手段は、各モジュールの入力信号が障害原因か否かを分析する場合には、前記第1の障害データ前記逸脱度が大きいモジュールの入力信号は障害原因である可能性が高いと評価し、かつ前記第1の異常性データ前記逸脱度が大きい値となることが多いモジュールの入力信号は障害原因である可能性が低いと評価する評価関数を用いることが望ましい。
また、第1の発明における前記障害原因分析手段は、各モジュールの機能が障害原因か否かを分析する場合には、前記第2の障害データ前記逸脱度が大きいモジュールの機能は障害原因である可能性が高いと評価し、かつ前記第2の異常性データ前記逸脱度が大きい値となることが多いモジュールの機能は障害原因である可能性が低いと評価する評価関数を用いることが望ましい。
これによって、障害発生時に正常な挙動空間から離れていた入力信号または機能が障害を引き起こした可能性が高いと判断できる。また、障害未発生時に正常な挙動空間から離れることが多い入力信号または機能は、障害発生時に正常な挙動空間から離れていたとしても、障害を引き起こした可能性が低いと判断できる。
第2の発明は、複数のモジュールによって動作するシステムにおいて発生した障害原因を分析する障害原因分析方法であって、前記システムが正常に動作しているときの動作データである第1の動作データを用いて、相関を考慮した距離を指標とした中心からの逸脱の度合いである逸脱度のヒストグラムである挙動空間データを生成し、モジュールごとの挙動空間を構築するステップと、定期的に前記第1の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに前記第1の動作データを異常性データとして記憶するステップと、を含み、障害検知信号を受信したときの動作データである第2の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを障害データとして記憶し、前記異常性データ前記逸脱度および前記障害データ前記逸脱度を含む評価関数に基づいて障害原因を分析することを特徴とする障害原因分析方法である。
本発明により、事前に想定できない障害等であっても安全に障害原因を分析できる障害原因分析システムを提供することができる。
以下図面に基づいて、本発明の実施形態を詳細に説明する。
図1は、障害原因分析システム1の概略構成を示す図である。障害原因分析システム1は、複数のモジュールによって動作するシステムにおいて発生した障害原因を分析するためのシステムである。複数のモジュールによって動作するシステムとしては、複数のECUを搭載する車載システムなどがある。
図1に示すように、障害原因分析システム1は、挙動空間構築装置3、複数のモジュール5、異常性情報収集装置7、障害情報収集装置9、障害原因分析装置11等から構成される。挙動空間構築装置3、障害原因分析装置11は、例えばコンピュータであって、分析対象のシステムに搭載される必要はない。モジュール群は、分析対象のシステムを構成する。異常性情報収集装置7、障害情報収集装置9は、分析対象のシステムに搭載される。
挙動空間構築装置3は、モジュール5ごとの挙動空間を構築する。挙動空間については後述する。モジュール5は、分析対象のシステムの各機能を果たす。異常性情報収集装置7は、モジュール5の入力信号および出力信号の取得、後述する逸脱度の算出、異常性情報の収集等を行う。尚、モジュール5の入力信号および出力信号の取得、逸脱度の算出は、それぞれのモジュール5が行うようにしても良いが、以下では、異常性情報収集装置7が、モジュール5の入力信号および出力信号の取得、逸脱度の算出を行うものとして説明する。
障害情報収集装置9は、障害が検知された場合の逸脱度の算出、障害情報の収集等を行う。障害原因分析装置11は、異常性情報収集装置7、障害情報収集装置9の処理結果に基づいて障害原因の分析を行う。
図2は、挙動空間構築装置3を実現するコンピュータのハードウェア構成図である。尚、図2のハードウェア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
挙動空間構築装置3は、制御部21、記憶部22、メディア入出力部23、通信制御部24、入力部25、表示部26、周辺機器I/F部27等が、バス28を介して接続される。
制御部21は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、記憶部22、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス28を介して接続された各装置を駆動制御し、挙動空間構築装置3が行う後述する処理を実現する。
ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部22、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部21が各種処理を行う為に使用するワークエリアを備える。
記憶部22は、HDD(ハードディスクドライブ)であり、制御部21が実行するプログラム、プログラム実行に必要なデータ、OS(オペレーティングシステム)等が格納される。プログラムに関しては、OS(オペレーティングシステム)に相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。
これらの各プログラムコードは、制御部21により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
メディア入出力部23(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)、MOドライブ等のメディア入出力装置を有する。
通信制御部24は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク29間の通信を媒介する通信インタフェースであり、ネットワーク29を介して、他のコンピュータ間との通信制御を行う。
入力部25は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。
入力部25を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。
表示部26は、CRTモニタ、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。
周辺機器I/F(インタフェース)部27は、コンピュータに周辺機器を接続させるためのポートであり、周辺機器I/F部27を介してコンピュータは周辺機器とのデータの送受信を行う。周辺機器I/F部27は、USBやIEEE1394やRS−232C等で構成されており、通常複数の周辺機器I/Fを有する。周辺機器との接続形態は有線、無線を問わない。
バス28は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
図3は、モジュール5のハードウェア構成図である。尚、図3のハードウェア構成は一例であり、用途、目的に応じて様々な構成を採ることが可能である。
図3に示すように、モジュール5は、制御部31、記憶部32、通信インタフェース33等で構成される。
制御部31は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等で構成される。
CPUは、記憶部32、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、モジュール5全体を駆動制御する。
ROMは、不揮発性メモリであり、処理に必要なプログラム、データ等を恒久的に保持している。
RAMは、揮発性メモリであり、記憶部32、ROM等からロードしたプログラム、データ等を一時的に保持するとともに、制御部31が各種処理を行う為に使用するワークエリアを備える。
記憶部32は、制御部31が実行するプログラム、プログラム実行に必要なデータ等が格納される。これらの各プログラムコードは、制御部31により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
通信インタフェース33は、モジュール5とCAN(Controller Area Network)などの車載ネットワーク34間の通信を媒介する。
異常性情報収集装置7、障害情報収集装置9のハードウェア構成は、モジュール5のハードウェア構成と同様である。また、障害原因分析装置11のハードウェア構成は、挙動空間構築装置3のハードウェア構成と同様である。尚、挙動空間構築装置3と障害原因分析装置11は、同一の筐体として構成しても良い。また、異常性情報収集装置7と障害情報収集装置9は、同一の筐体として構成しても良い。
以下、図4から図10を参照しながら、挙動空間構築装置3、異常性情報収集装置7、障害情報収集装置9、障害原因分析装置11の動作の詳細について説明する。
最初に、挙動空間構築装置3の動作の詳細について説明する。
挙動空間構築装置3の制御部21は、記憶部22に保持するモジュール入出力関係データベースを参照し、動作データからモジュールごとの挙動空間を構築する。尚、動作データは、システムの動作中に取得され、媒体やネットワーク等を介して挙動空間構築装置3の記憶部22に記憶されているものとする。
図4は、モジュール入出力関係データベース41の一例を示す図である。図4に示すように、モジュール入出力関係データベース41は、モジュール名、入力信号、出力信号等の項目から成る。図4の例では、moduleAは、signal1、signal2を入力信号、signal4、signal8、signal9を出力信号とすることを示している。また、moduleBは、signal4、signal8、signal11を入力信号、signal5を出力信号とすることを示している。挙動空間構築装置3は、モジュール入出力関係データベース41を参照し、各モジュール5の入出力関係を取得する。
図5は、動作データ45の一例を示す図である。図5に示すように、動作データ45は、各信号の項目から成る。図5の例では、1番目のデータは、signal1が「0.357400」、signal2が「1」である。2番目のデータは、signal1が「0.000000」、signal2が「0」である。挙動空間構築装置3の制御部21は、図5に示す動作データ43を収集し、図4に示すモジュール入出力関係データベース41に基づいてモジュールごとに挙動空間を構築する。尚、挙動空間の構築に用いられる動作データ43は、診断対象のシステムが正常に動作しているときのデータである。
本実施の形態では、相関を考慮した距離であるマハラノビス距離を用いて挙動空間を構築する。例として、moduleAの入力信号(=signal1とsignal2)に係る挙動空間の構築について説明する。挙動空間構築装置3の制御部21は、図5に示す動作データ43から、moduleAの入力信号であるsignal1とsignal2のデータを取得する。次に、挙動空間構築装置3の制御部21は、signal1とsignal2の平均、分散を算出し、データの正規化を行う。そして、挙動空間構築装置3の制御部21は、次式によってマハラノビスの距離を算出する。
Figure 0005287170
但し、D:マハラノビス距離、X、Y:正規化後のsignal1、signal2、r:signal1、signal2の相関係数である。ここで、相関係数は、モジュールAの入力信号のデータ群から計算する。
図6は、挙動空間データ45の一例を示す図である。図6は、横軸がマハラノビス距離を指標とした中心からの逸脱度、縦軸がデータ数のヒストグラムである。図6の例は、moduleAの入力信号に係る挙動空間データ45を示している。図6に示すように、moduleAの入力信号に係る挙動空間データ45は、逸脱度が0〜3の範囲であり、更に逸脱度が0または1の範囲に入るデータが大部分を占めている。このように、挙動空間構築装置3の制御部21は、マハラノビス距離を指標とした中心からの逸脱度によって、挙動空間を構築する。
以上、変数が2次元の場合であるmoduleAの入力信号を例として説明したが、3次元以上についても同様にマハラノビス距離を算出し、挙動空間を構築することができる。また、挙動空間構築装置3の制御部21は、同様に各モジュールの入力信号および出力信号に係る挙動空間を構築することができる。例えば、moduleAの入力信号および出力信号に係る挙動空間であれば、図4に示す通り、入力信号がsignal1、signal2、出力信号がsignal4、signal8、signal9である。この場合、挙動空間構築装置3の制御部21は、5次元のマハラノビス距離を算出し、挙動空間を構築する。
次に、異常性情報収集装置7について説明する。
図7は、異常性情報収集装置7の動作の詳細を示すフローチャートである。前提として、異常性情報収集装置7は、モジュール入出力関係データベース41を記憶部32に保持している。
図7に示すように、異常性情報収集装置7の制御部31は、定期的に動作データを取得し(S101)、モジュール入出力関係データベース41を参照して、モジュールごとに挙動空間における逸脱度を算出する(S102)。
算出した逸脱度が所定の閾値を超えた場合(S103のYes)、異常性情報収集装置7の制御部31は、算出した逸脱度を異常性データとして記憶し(S104)、所定の時間を経過した後にS101から処理を繰り返す。所定の閾値は、挙動空間データ45に基づいて定める。
算出した逸脱度が所定の閾値を超えない場合(S104のYes)、異常性情報収集装置7の制御部31は、算出した逸脱度を異常性データとして記憶せず、所定の時間を経過した後にS101から処理を繰り返す。
図8は、異常性データ47の一例を示す図である。図8に示すように、異常性データ47は、モジュール名、パターン種別、逸脱度、データ、時刻、データID等の項目を有する。モジュール名は、逸脱度を算出したモジュール5を識別する名称である。パターン種別は、例えば、モジュール5の入力信号に係る異常性データ47の場合には「1」、モジュール5の入力信号および出力信号に係る異常性データ47の場合には「2」である。つまり、パターン種別は、異常性データ47がモジュール5の入力信号に係る挙動空間における逸脱度を算出したものか、またはモジュール5の入力信号および出力信号に係る挙動空間における逸脱度を算出したものかを識別する。時刻は、動作データを取得した時刻である。データIDは、逸脱度の算出に用いられた動作データ43を識別する番号である。つまり、モジュール名、パターン種別が異なっても、同時刻に取得された動作データ43に基づいて逸脱度を算出したデータ同士は、データIDが同じ値となる。
図8は、異常性データ47の一例を示す図である。図8には、moduleAの入力信号に係る異常性データが登録されていることから、異常性情報収集装置7の制御部31は、signal1、signal2の逸脱度を算出し、算出した逸脱度が所定の閾値を超えていると判定し、算出した逸脱度を異常性データ47として記憶部22に記憶したことになる。moduleAの入力信号に係る異常性データ47は、モジュール名が「moduleA」、パターン種別が「1」、逸脱度が「10」、データが「signal=0.975100、signal2=0」、時刻が「20:18:05」、データIDが「1」である。
以上、パターン種別が「1」、すなわちモジュール5の入力信号に係る挙動空間における逸脱度の算出および異常性情報の収集について説明したが、異常性情報収集装置7の制御部31は、パターン種別が「2」、すなわちモジュール5の入力信号および出力信号に係る挙動空間における逸脱度の算出および異常性情報の収集についても同様に行うことができる。
このように、異常性情報収集装置7の制御部31は、定期的に動作データを取得して、モジュール5の入力信号に係る挙動空間における逸脱度を算出し、算出した逸脱度が所定の閾値を超えた場合には、算出した逸脱度を異常性情報の逸脱度として記憶する。また、異常性情報収集装置7の制御部31は、モジュール5の入力信号および出力信号に係る挙動空間における逸脱度を算出し、算出した逸脱度が所定の閾値を超えた場合には、算出した逸脱度を異常性情報の逸脱度として記憶する。
次に、障害情報収集装置9について説明する。
図9は、障害情報収集装置9の動作の詳細を示すフローチャートである。前提として、障害情報収集装置9の制御部31は、モジュール入出力関係データベース41を記憶部32に保持している。
図9に示すように、障害情報収集装置9の制御部31は、障害が検知したことを示す障害検知信号を監視し(S201)、障害が発生した場合には(S202のYes)、動作データを取得する(S203)。障害が発生していない場合には、障害情報収集装置9の制御部31は、S201に戻る。障害検知信号は、例えば、図1に図示していない障害検知装置が障害を検知したときに送信されるように構成しても良い。また、障害検知信号は、診断対象のシステムのユーザが、図1に図示しない入力装置(車載システムであれば、計器盤に設けられたボタン等)を押下したときに送信されるように構成しても良い。
次に、障害情報収集装置9の制御部31は、取得した動作データから、逸脱度を算出し(S204)、算出した逸脱度を障害データとして記憶部32に記憶する(S205)。障害情報収集装置9の制御部31は、異常性データ47と異なり、閾値との比較をせずに、全てのモジュールについて2つのパターン種別の逸脱度を記憶部32に記憶する。
このように、障害情報収集装置9の制御部31は、障害が検知された場合には、動作データを取得して、モジュール5の入力信号に係る挙動空間における逸脱度を算出し、算出した逸脱度を障害情報の逸脱度として記憶する。また、障害情報収集装置9の制御部31は、障害が検知された場合には、動作データを取得して、モジュール5の入力信号および出力信号に係る挙動空間における逸脱度を算出し、算出した逸脱度を障害情報の逸脱度として記憶する。
次に、障害原因分析装置11について説明する。
障害原因分析装置11の制御部21は、異常性情報収集装置7が収集した異常性情報、および障害情報収集装置9が収集した障害情報を含む評価関数に基づいて障害原因を分析する。尚、異常性情報および障害情報は、媒体やネットワーク等を介して障害原因分析装置11の記憶部22に記憶されるものとする。
評価関数は、一般に次式で定義される。
Figure 0005287170
但し、Vip:障害原因である度合いを示す評価値、i:モジュール5を示す添え字、j:異常性データ47のデータIDを示す添え字、p:パターン種別を示す添え字、q:評価対象(モジュール5の入力信号、またはモジュール5の機能)を示す添え字、aip:障害発生時のモジュールi、パターン種別pの逸脱度(=障害情報の逸脱度)、nijp:障害未発生時のモジュールi、データIDj、パターン種別pの逸脱度(=異常性情報の逸脱度)、である。
図10は、原因分析データ49の一例を示す図である。原因分析データ49は、式(2)に示す評価関数に含まれる変数のデータである。尚、図10における「−」は、値がないことを意味するが、評価関数を計算する際には「0」の値として扱うものとする。
図10に示すように、例えば、障害未発生時のデータIDが「1」のデータは、moduleAの入力信号に関する逸脱度((=パターン種別が「1」)が「10」である。また、例えば、障害未発生時のデータIDが「2」のデータは、moduleBの入力信号および出力信号に関する逸脱度((=パターン種別が「2」)が「5」である。また、例えば、障害発生時のデータは、moduleAの入力信号に関する逸脱度((=パターン種別が「1」)が「1」である。表の右側に示すaip、nijpは、式(2)に対応している。
障害原因分析装置11の制御部21は、図10に示す原因分析データ49から式(2)に示す評価関数に基づいて評価値を算出し、どのモジュール5の入力信号が障害原因なのか、またはどのモジュール5の機能が障害原因なのかを分析する。
以下では、例として具体的な評価関数を示して、障害原因分析装置11の動作の詳細について説明する。
次式は、各モジュール5の入力信号が障害か否かを分析するときに用いる評価関数の一例である。
Figure 0005287170
式(3)に示す評価関数の評価値は、障害情報の逸脱度に比例する。これによって、式(3)に示す評価関数は、障害情報の逸脱度が大きいモジュール5の入力信号が障害原因である可能性が高いと評価する。すなわち、障害原因分析装置11の制御部21は、式(3)に示す評価関数を用いることによって、障害発生時に正常な挙動空間から離れていた入力信号が障害を引き起こした可能性が高いと判断できる。
また、式(3)に示す評価関数の評価値は、異常性情報の逸脱度が所定の閾値よりも大きいデータの個数に反比例する。これによって、式(3)に示す評価関数は、異常性情報の逸脱度が大きい値となることが多いモジュール5の入力信号が障害原因である可能性が低いと評価する。すなわち、障害原因分析装置11の制御部21は、式(3)に示す評価関数を用いることによって、障害未発生時に正常な挙動空間から離れることが多い入力信号は、障害発生時に正常な挙動空間から離れていたとしても、障害を引き起こした可能性が低いと判断できる。これは、狼少年を信用しないという思想に基づく。
次式は、各モジュール5の機能が障害か否かを分析するときに用いる評価関数の一例である。
Figure 0005287170
式(4)に示す評価関数の評価値は、入力信号および出力信号に関する障害情報の逸脱度に比例する。これによって、式(4)に示す評価関数は、入力信号および出力信号に関する障害情報の逸脱度が大きいモジュール5の機能が障害原因である可能性が高いと評価する。すなわち、障害原因分析装置11の制御部21は、式(4)に示す評価関数を用いることによって、障害発生時に正常な挙動空間から離れていた機能が障害を引き起こした可能性が高いと判断できる。
また、式(4)に示す評価関数の評価値は、入力信号および出力信号に関する異常性情報の逸脱度が所定の閾値よりも大きいデータの個数に反比例する。これによって、式(3)に示す評価関数は、入力信号および出力信号に関する異常性情報の逸脱度が大きい値となることが多いモジュール5の機能が障害原因である可能性が低いと評価する。すなわち、障害原因分析装置11の制御部21は、式(4)に示す評価関数を用いることによって、障害未発生時に正常な挙動空間から離れることが多い機能は、障害発生時に正常な挙動空間から離れていたとしても、障害を引き起こした可能性が低いと判断できる。これは、狼少年を信用しないという思想に基づく。
以上説明したように、本発明の実施の形態によれば、障害原因分析システム1は、最初にモジュールごとの挙動空間を構築する。次に、定期的に動作データを取得して挙動空間における逸脱度を算出し、算出した逸脱度が所定の閾値を超えた場合には、算出した逸脱度を異常性情報の逸脱度として記憶しておく。そして、障害が検知された場合には動作データを取得して挙動空間における逸脱度を算出し、算出した逸脱度を障害情報の逸脱度として記憶し、異常性情報の逸脱度および障害情報の逸脱度を含む評価関数に基づいて障害原因を分析する。
本発明の実施の形態に係る障害原因分析システム1では、障害が発生する前の情報(=異常性情報)と障害が発生した時の情報(=障害情報)に基づいて、障害原因の分析を行う。つまり、障害が発生した後に障害の再現を行う必要はなく、稀な条件によって発生した障害等に対しても、安全に障害を分析することができる。
また、本発明の実施の形態に係る障害原因分析システム1では、正常時の動作データからマハラノビス距離に基づいて構築した挙動空間から異常性情報を記憶するか否かを判定する閾値を決定し、閾値に従って異常性情報を収集する。また、障害情報は、障害が発生したときに収集する。そして、異常性情報および障害情報に基づいて障害分析を行う。従って、障害かどうかの判定基準を事前に決定する必要がないことから、事前に想定できない障害、及び障害かどうかの判定基準を決定できない障害などについても、障害原因を分析することができる。
また、本発明の実施の形態に係る障害原因分析システム1では、モジュール5ごとに、入力信号と、入力信号および出力信号との2種類の挙動空間を構築し、それぞれ異常性情報および障害情報を収集して障害原因を分析する。従って、モジュール5の入力信号の不整合が障害原因なのか、またはモジュール5の機能が障害原因なのかを区別して分析することができる。
以上、添付図面を参照しながら、本発明に係る障害原因分析システム等の好適な実施形態について説明したが、本発明はかかる例に限定されない。当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。
障害原因分析システム1の概略構成を示す図 挙動空間構築装置3を実現するコンピュータのハードウェア構成図 モジュール5のハードウェア構成図 モジュール入出力関係データベース41の一例を示す図 動作データ45の一例を示す図 挙動空間データ45の一例を示す図 異常性情報収集装置7の動作の詳細を示すフローチャート 異常性データ47の一例を示す図 障害情報収集装置9の動作の詳細を示すフローチャート 原因分析データ49の一例を示す図
符号の説明
1………障害原因分析システム
3………挙動空間構築装置
5………モジュール
7………異常性情報収集装置
9………障害情報収集装置
11………障害原因分析装置
41………モジュール入出力関係データベース
43………動作データ
45………挙動空間データ
47………異常性データ
49………原因分析データ

Claims (6)

  1. 複数のモジュールによって動作するシステムにおいて発生した障害原因を分析する障害原因分析システムであって、
    前記システムが正常に動作しているときの動作データである第1の動作データを用いて、相関を考慮した距離を指標とした中心からの逸脱の度合いである逸脱度のヒストグラムである挙動空間データを生成し、モジュールごとの挙動空間を構築する挙動空間構築手段と、
    定期的に前記第1の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに前記第1の動作データを異常性データとして記憶する異常性データ収集手段と、
    障害検知信号を受信したときの動作データである第2の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを障害データとして記憶する障害データ収集手段と、
    前記異常性データ前記逸脱度および前記障害データ前記逸脱度を含む評価関数に基づいて障害原因を分析する障害原因分析手段と、
    を備えることを特徴とする障害原因分析システム。
  2. 前記挙動空間構築手段は、各モジュールの入力信号に係る第1の挙動空間と、各モジュールの入力信号および出力信号に係る第2の挙動空間との両方を構築することを特徴とする請求項1に記載の障害原因分析システム。
  3. 前記異常性情報収集手段は、定期的に前記第1の動作データを取得して、前記第1の挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに前記第1の動作データを第1の異常性データとして記憶し、かつ前記第2の挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに第2の異常性データとして記憶するものであり、
    前記障害情報収集手段は、前記第2の動作データを取得して前記第1の挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを第1の障害データとして記憶し、かつ前記第2の挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを第2の障害データとして記憶するものであることを特徴とする請求項2に記載の障害原因分析システム。
  4. 前記障害原因分析手段は、各モジュールの入力信号が障害原因か否かを分析する場合には、前記第1の障害データ前記逸脱度が大きいモジュールの入力信号は障害原因である可能性が高いと評価し、かつ前記第1の異常性データ前記逸脱度が大きい値となることが多いモジュールの入力信号は障害原因である可能性が低いと評価する評価関数を用いることを特徴とする請求項3に記載の障害原因分析システム。
  5. 前記障害原因分析手段は、各モジュールの機能が障害原因か否かを分析する場合には、前記第2の障害データ前記逸脱度が大きいモジュールの機能は障害原因である可能性が高いと評価し、かつ前記第2の異常性データ前記逸脱度が大きい値となることが多いモジュールの機能は障害原因である可能性が低いと評価する評価関数を用いることを特徴とする請求項3に記載の障害原因分析システム。
  6. 複数のモジュールによって動作するシステムにおいて発生した障害原因を分析する障害原因分析方法であって、
    前記システムが正常に動作しているときの動作データである第1の動作データを用いて、相関を考慮した距離を指標とした中心からの逸脱の度合いである逸脱度のヒストグラムである挙動空間データを生成し、モジュールごとの挙動空間を構築するステップと、
    定期的に前記第1の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度が所定の閾値を超えた場合には、算出した前記逸脱度とともに前記第1の動作データを異常性データとして記憶するステップと、
    を含み、
    障害検知信号を受信したときの動作データである第2の動作データを取得して前記挙動空間における前記逸脱度を算出し、算出した前記逸脱度とともに前記第2の動作データを障害データとして記憶し、前記異常性データ前記逸脱度および前記障害データ前記逸脱度を含む評価関数に基づいて障害原因を分析することを特徴とする障害原因分析方法。
JP2008297587A 2008-11-21 2008-11-21 障害原因分析システム、障害原因分析方法 Expired - Fee Related JP5287170B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008297587A JP5287170B2 (ja) 2008-11-21 2008-11-21 障害原因分析システム、障害原因分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008297587A JP5287170B2 (ja) 2008-11-21 2008-11-21 障害原因分析システム、障害原因分析方法

Publications (2)

Publication Number Publication Date
JP2010122134A JP2010122134A (ja) 2010-06-03
JP5287170B2 true JP5287170B2 (ja) 2013-09-11

Family

ID=42323599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008297587A Expired - Fee Related JP5287170B2 (ja) 2008-11-21 2008-11-21 障害原因分析システム、障害原因分析方法

Country Status (1)

Country Link
JP (1) JP5287170B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5278498B2 (ja) * 2011-06-03 2013-09-04 株式会社デンソー データ記憶装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4661380B2 (ja) * 2005-06-14 2011-03-30 トヨタ自動車株式会社 故障診断装置、故障診断システム、故障診断方法、及び車載装置
JP4417318B2 (ja) * 2005-10-17 2010-02-17 三菱電機株式会社 設備診断装置

Also Published As

Publication number Publication date
JP2010122134A (ja) 2010-06-03

Similar Documents

Publication Publication Date Title
JP4413915B2 (ja) 異常兆候検出装置および方法
US10147048B2 (en) Storage device lifetime monitoring system and storage device lifetime monitoring method thereof
US9282008B2 (en) Systems and methods for monitoring system performance and availability
US9424157B2 (en) Early detection of failing computers
CN111459700A (zh) 设备故障的诊断方法、诊断装置、诊断设备及存储介质
JP5223413B2 (ja) Itシステムのトラブル対処装置、トラブル対処方法およびそのためのプログラム
JP6402541B2 (ja) 異常診断装置及びプログラム
JP5504658B2 (ja) 障害診断システム、障害診断装置および障害診断方法
JP2015026252A (ja) 異常検知装置及びプログラム
JP2015170121A (ja) 異常診断装置及びプログラム
EP2498186A1 (en) Operation management device and operation management method
CN102884486A (zh) 故障分析装置、故障分析方法和记录介质
US20170257304A1 (en) Systems and methods for monitoring system performance and availability
JP5771317B1 (ja) 異常診断装置及び異常診断方法
US10318364B2 (en) Methods and systems for problem-alert aggregation
CN113487086B (zh) 设备剩余使用寿命预测方法、装置、计算机设备和介质
US7823029B2 (en) Failure recognition, notification, and prevention for learning and self-healing capabilities in a monitored system
US20220163942A1 (en) Distributed System and Data Transmission Method
EP3999983B1 (en) Time-series data condensation and graphical signature analysis
JP5287170B2 (ja) 障害原因分析システム、障害原因分析方法
JP5157844B2 (ja) 故障箇所特定システム、故障箇所特定方法
JP5771318B1 (ja) 異常診断装置及び異常診断方法
CN116931843B (zh) 基于大语言模型的用户在线管理系统
KR102236802B1 (ko) 진단 모델용 데이터의 특징 추출 장치 및 방법
JP7000266B2 (ja) 分析フロー作成システムおよび分析フロー作成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130411

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130520

R151 Written notification of patent or utility model registration

Ref document number: 5287170

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees