JP4201027B2 - 複数の観測結果の間の差異を検出するシステムおよびその方法 - Google Patents

複数の観測結果の間の差異を検出するシステムおよびその方法 Download PDF

Info

Publication number
JP4201027B2
JP4201027B2 JP2006189301A JP2006189301A JP4201027B2 JP 4201027 B2 JP4201027 B2 JP 4201027B2 JP 2006189301 A JP2006189301 A JP 2006189301A JP 2006189301 A JP2006189301 A JP 2006189301A JP 4201027 B2 JP4201027 B2 JP 4201027B2
Authority
JP
Japan
Prior art keywords
data
series data
time
observation
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006189301A
Other languages
English (en)
Other versions
JP2008014912A (ja
Inventor
剛 井手
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006189301A priority Critical patent/JP4201027B2/ja
Priority to US11/768,967 priority patent/US20080010330A1/en
Publication of JP2008014912A publication Critical patent/JP2008014912A/ja
Priority to US12/264,556 priority patent/US7849124B2/en
Application granted granted Critical
Publication of JP4201027B2 publication Critical patent/JP4201027B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0218Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterised by the fault detection method dealing with either existing or incipient faults
    • G05B23/0224Process history based detection method, e.g. whereby history implies the availability of large amounts of data
    • G05B23/024Quantitative history assessment, e.g. mathematical relationships between available data; Functions therefor; Principal component analysis [PCA]; Partial least square [PLS]; Statistical classifiers, e.g. Bayesian networks, linear regression or correlation analysis; Neural networks

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Complex Calculations (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Description

本発明は、複数の観測結果の間の差異を検出するシステムおよびその方法に関する。特に、本発明は、得られた時系列データに対して統計的な処理を施すことによって当該差異を検出するシステムおよびその方法に関する。
自動車やコンピュータシステム、あるいは工場の生産設備といった動的システムの異常を検知することは工学的に重要な問題である。しかしながら、正規分布や多項分布を前提にした古典統計学的手法を除けば、その統計的手法は確立しているとは言えない。特に、実際のシステムから得られるデータは、正規分布などに従うことはむしろ稀である。このため、正規分布や多項分布など、予め確率モデルを定めてもシステムの異常を適切に検出できない場合が多い。
例えば、自動車の状態を診断するためには、以下のような点を考慮する必要がある。
1.自動車の各部から観測される観測値は、数十種類から数百種類の時系列データとして取得される
2.観測値の振る舞いは様々である。あるものは離散的な値をとり、またあるものは連続的な値をとる
3.それぞれの観測値の観測間隔(サンプリング周期)は観測値の種類によってさまざまである
4.開発者といえども各部の特徴に熟知していることは稀であり、データを観察しても有効な判断ができるとは限らない
下記各文献については実施例において参照する。
ギルバート・ストラング、線形代数とその応用、産業図書、1978 石井健一郎ほか、パターン認識、オーム社、1998 E. Keogh, K. Chakrabarti, M.J. Pazzani, S. Mehrotra, "Dimensionality reduction for fast similarity search in large time-series databases", Knowledge and Information Systems, 3 (2001) 263-286 A. C. Davison, D. V. Hinkley, "Bootstrap Methods and Their Application", Cambridge University Press (October 28, 1997) Tsuyoshi Ide and Keisuke Inoue, "Knowledge Discovery from Heterogeneous Dynamic Systems using Change-Point Correlations" in Proceedings of 2005 SIAM International Conference on Data Mining, April 21-23, 2005, pp.571-576.
これに対し、従来は、観測値のリミットチェック又はそれから派生した方法が採用されている場合が多い。例えば、「ある種類の観測値が予め定めた基準値以上であれば、異常が発生した旨を利用者に通知する」といったIF−THEN型のルールを定める方法である。しかしながら、自動車のように複雑な診断対象については、観測値の変化の傾向が動的に変化するため、異常判断の基準となる基準値を予め一意に定めることは難しい。また、異常判断の基準値は、その観測値の変化の傾向について熟知した開発者でなければ適切に定めることができない。さらに、異常を完全に検出できるルールを作成するのは難しく、想定外の状況が発生して重大な問題を引き起こす場合もある。したがって、このようなリミットチェックに代えて有効に機能し、又は、リミットチェックに加えて相補的に機能する異常検出の方法があれば、異常診断の手間が大幅に軽減されると考えられる。
以下、実際に自動車などの異常診断が行われる環境を具体的に例示して詳細な課題を説明する。観測値の収集は、あるサイクル毎に行われる。例えば自動車であればテストコース1周が1サイクルである。このサイクルをランと呼ぶ。自動車がテストコースをn周するとnランの観測値、即ち、それぞれの種類の観測値についてn個の時系列データが得られる。一般に、自動車等の大規模なシステムになると、各ランの実験条件を全く同一にするのは難しいので、それぞれのランで得られた時系列データは相互に僅かに相違することになる。従来の技術では、このような僅かな相違に妨害されてしまい、診断対象の本質的な状態を適切に把握できない場合が多い。
また、観測値の変動傾向は観測値の種類によって大きく異なる。例えば、自動車のシフト位置は完全に離散的な値をとるし、エンジンの回転数は連続的な値をとる。従来の技術では、このような変動の傾向を予め知ることができなければ、リミットチェックなどの基準値を適切に設定できない。しかし、このような変動の傾向は予め適切に知ることができない場合も多い。また、従来は、あらゆる種類の観測値の組み合わせについて網羅的に異常を検出していない。このため、リミットチェックを用いたルールが不完全な場合、そのルールの対象外の観測値に基づき異常を検出することはできない。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の第1の形態においては、複数の観測結果の間の差異を検出するシステムであって、ある観測対象を時間の経過に応じて観測した複数の観測値を含む第1時系列データと、観測対象を時間の経過に応じ観測した複数の観測値を含む第2時系列データとを取得する取得部と、第1時系列データから複数の観測値を反復復元抽出して当該第1時系列データの複製である第1複製データを生成する複製部と、第1複製データの累積確率分布と、第2時系列データの少なくとも一部を含む第2複製データの累積確率分布との間の、同一の観測値における確率値の差分に基づいて、第1時系列データと第2時系列データとの間の相違を示す指標値を算出して出力する算出部とを備えるシステムを提供する。また、このシステムとして情報処理装置を機能させる方法およびプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
本発明によれば、観測対象に生じた異常を精度良く検出することができる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、診断システム10の機能構成を示す。診断システム10は、取得部100と、正常時DB105と、複製部110と、算出部120と、判断部130と、表示部140とを備える。取得部100は、第1時系列データを外部から取得し、第2時系列データを正常時DB105内のデータに基づき取得する。第1時系列データは、ある観測対象を時間の経過に応じて観測した複数の観測値を含み、観測対象の異常を示唆しているかどうかを検出する対象となる。第2時系列データは、その観測対象を別の機会に時間の経過に応じて観測した複数の観測値を含む。正常時DB105は、その観測対象が正常な場合にその観測対象を観測した結果として得られる時系列データを、少なくとも1つ記憶している。
正常時DB105に記憶されている時系列データが複数の場合には、取得部100は、そのうちの1つを第2時系列データとして取得してもよいし、第1時系列データと比較して観測期間の長さが最も近い時系列データを第2時系列データとして取得してもよい。また、取得部100は、正常な観測対象から得られた複数の時系列データのそれぞれとの間で、時系列データを観測値のベクトルとみなした場合のベクトル間距離の2乗和を最小化する新たな時系列データを生成し、第2時系列データとして取得してもよい。
複製部110は、第1時系列データから複数の観測値を反復復元抽出して当該第1時系列データの複製である第1複製データを生成する。好ましくは、複製部110は、第1時系列データに含まれる観測値の数よりも多い数の観測値を反復復元抽出することにより第1複製データを生成する。さらに、複製部110は、第2時系列データから複数の観測値を反復復元抽出して当該第2時系列データの複製である第2複製データを生成してもよい。これに代えて、複製部110は、第1時系列データをそのまま第1複製データとして生成し、第2時系列データから複数の観測値を反復復元抽出して第2複製データを生成してもよい。
算出部120は、第1複製データの累積確率分布と、第2複製データの累積確率分布との間の、同一の観測値における確率値の差分に基づいて、第1時系列データと第2時系列データとの間の相違を示す指標値を算出して表示部140に出力する。第2複製データは、第2時系列データの少なくとも一部を含めばよく、第2時系列データそのものであってもよいし、複製部110によって第2時系列データから反復復元抽出されて生成された複製データであってもよい。また、指標値は、第1複製データの累積確率分布と、第2複製データの累積確率分布との間の、同一の観測値における確率値の差分に基づけば良く、それぞれの観測値における確率値の差分の最大値であってもよいし、それぞれの観測値における確率値の差分の平均または合計に基づく値であってもよい。このようにして算出される指標値は、第1時系列データおよび第2時系列データの相違を示す。本実施形態のように第2時系列データが正常時を代表する時系列データである場合には、この指標値は、観測対象に生じた異常の程度を示す。
判断部130は、復元抽出の反復により指標値が所定の値に収束したかどうかを判断する。即ち、複製部110は、第1時系列データおよび第2時系列データのそれぞれについて、抽出回数を増加させながら順次複数の複製データを生成している場合、算出部120には順次更新された複製データが供給される。この場合、算出部120は、複製データが更新される毎に指標値を算出しなおす。そして、判断部130は、前回に生成した第1複製データの累積確率分布と前回に生成した第2複製データの累積確率分布との間の、同一の観測値における差分に基づく前回の指標値と、今回に生成した第1複製データの累積確率分布と今回に生成した第2複製データの累積確率分布との間の、同一の観測値における差分に基づく今回の指標値との差分が、予め定められた基準値以下か否かを判断する。判断部130は、この指標値の差分が基準値以下であることを条件に、今回の指標値を表示部140に対し出力する。これに代えて、収束判断の結果に関わらず、算出部120は、抽出回数が予め定められた回数に達した時点で算出された指標値を出力してもよい。
以上の各部材は、複数種類の観測値のそれぞれについて同様の処理を行う。即ち、取得部100は、観測値の複数の種類のそれぞれについて、当該種類の観測値の第1時系列データおよび第2時系列データを取得する。複製部110は、観測値の複数の種類のそれぞれについて、当該種類の観測値の第1複製データおよび第2複製データを生成する。また、算出部120は、観測値の複数の種類のそれぞれについて、当該種類の観測値についての指標値を算出する。そして、表示部140は、算出された指標値の大きい順に優先して、観測値の種類を示す情報とその指標値とを対応付けて表示する。これにより、異常の生じた可能性の高い箇所や、異常の生じた箇所の組み合わせを利用者に把握させ易くすることができる。異常検出を更に容易にするために、算出部120は、複数の種類の観測値の間の関連性を示す指標を算出し、表示部140はその指標を併せて表示してもよい。そのような指標の算出方法については非特許文献5を参照されたい。
図2は、診断システム10によって異常の検出結果が生成される処理のフローチャートを示す。取得部100は、第1時系列データおよび第2時系列データを取得する(S200)。第2時系列データの取得方法の概略を図3に示す。
図3は、診断対象となる第1時系列データと正常時の第2時系列データとが比較される処理の概念図である。図3右上に図示するように、正常時の時系列データが4つ正常時DB105に記憶されている場合には、それらを利用して1つの第2時系列データを生成し、第1時系列データとの比較対象とすることが望ましい。一例として、取得部100は、これら4つの時系列データのそれぞれとの間で、時系列データを観測値のベクトルとみなした場合のベクトル間距離の2乗和を最小化する新たな時系列データを生成してもよい。その生成方法の具体例を以下に示す。
生成方法を一般化して説明するために、正常時DB105は、ある種類iの観測値について、m個の時系列データを記憶しているものとし、それぞれの時系列データをベクトル変数x (r)とおく。但し、rは1からmまでの整数値を採る。それぞれの時系列データx (r)は、p個の観測値を含む。なお、時系列データに含まれる観測値の数は時系列データ毎に異なることが多い。これは、観測期間や観測間隔が異なることに起因する。本実施の形態では、取得部100が前処理を行って、不足している観測値をその前後に観測された観測値に基づいて補完したり、不要な観測値を除外することによって、それぞれの時系列データがp個の観測値を含むようにするものとする。
以上の定義より、正常時の時系列データの集合Nは、以下の式(1)に示すp行m列の行列として表される。
Figure 0004201027
第2時系列データとして生成すべき時系列データを、p次元のベクトルuとおく。uは規格化条件U ・U=1を満たすものとする。ただし、U はUの転置を示す。このとき、元の時系列データx (r)のそれぞれとuとの差の2乗和は、x (r)のu方向の射影ベクトルとの相違の集積として、以下の式(2)のように定義される。
Figure 0004201027
この2乗和を最小化するuが求めるべき第2時系列データとなる。導出過程を以下の式(3)に示す。
Figure 0004201027
束縛条件U ・U=1をラグランジュ係数λで取り込むと、結局、式(4)に示す固有値問題に帰着する。求めるべきは最大固有値に対応する固有ベクトルで、これは要するに行列Hの最大左特異ベクトルを見出すことに他ならない。特異値分解についての詳細は、例えば、非特許文献1を参照されたい。また、このような特徴抽出手法は、Karhunen-Loeve変換などと呼ばれている(たとえば非特許文献2を参照。)。別の見方をすれば、これは、Nが記憶されたデータベースをインデキシングすることによって、情報を圧縮したことに当たる。即ち、xに関し、n個の時系列データが1個の時系列データuによって代表されたことを示す。
Figure 0004201027
なお、情報検索の分野ではこれはLatent Semantic Indexing法と呼ばれている。Nの規模が大きくなると特異値分解(SVD)にまつわる計算コストが問題になるが、データマイニングにおいて知られている他のインデキシング手法(離散フーリエ変換、ウェーブレット変換、Piecewise Aggregate Approximation)に比べて、同等の計算コストでSVDが実行できるアルゴリズムが知られている(たとえば非特許文献3を参照。)。即ち、取得部100は、このようなアルゴリズムによって特異値分解を行えば、式(4)に示す固有値問題を効率的に解くことができ、正常時DB105に記憶されたそれぞれの時系列データとの差の2乗和を最小化する第2時系列データを効率的に生成できる。
図2に戻る。複製部110は、予め定められた単位回数の反復復元抽出によって、第1複製データおよび第2複製データを生成する(S210)。この単位回数は、例えば観測値の数と等しい回数であってもよいし、観測値の数の2倍など所定の整数倍の回数であってもよい。反復復元抽出によって複製データを生成する技術の詳細については、非特許文献4を参照されたい。算出部120は、第1時系列データの累積確率分布と、第2時系列データの累積確率分布との間の、同一の観測値における確率値の差分に基づいて、第1時系列データと第2時系列データとの間の相違を示す指標値を算出する(S220)。算出処理の効率化のため、算出部120は、確率分布に差異が生じにくいものとして予め定められた観測値の範囲を除外して、第1複製データの累積確率分布と第2複製データの累積確率分布との間の、同一の観測値における確率値の差分を算出してもよい。例えば、準離散的変数について、予めある範囲の値は連続値となることが分かっている場合には、算出部120は、その範囲の値を除外して指標値を算出してもよい。
算出されるこの指標値は、Kolomogorov−Smirnov(KS)統計量として知られている指標値(以下、指標値Dと呼ぶ)であってもよい。KS統計量とは、具体的には、第1複製データの累積確率分布と第2複製データの累積確率分布との間の、それぞれの観測値における確率値の差分の最大値を表す。KS統計量は0から1までの値を採り、相違が無い場合には0を、相違が最も大きい場合には1を採る。指標値Dの定義を式(5)に示す。KS統計量を用いることで、観測環境の変化により観測時間がずれる場合や、何らかの状況変化によって観測値の大きさが所定の倍率となる場合、また、観測値に所定のオフセット値が加えられ(減じられ)て観測される場合であっても、本質的な状況変化を適切に捉えることができる。
Figure 0004201027
図4は、複製データに代えてもとの時系列データに基づき指標値Dを算出する過程の一例を示す。本図を参照して、複製データではなくもとの時系列データを用いた比較の問題点を指摘し、複製データを用いることの有効性を説明する。図4左上には第2時系列データの累積確率分布を実線で示し、図4左下に第1時系列データの累積確率分布を点線で示す。これらの累積確率分布は、グラフの中央付近で非連続に変化している。即ち、観測対象から観測された観測値がある値を採る確率は非常に高く、他の値を採る場合もあるもののその確率は非常に低い。このように観測値がある値に集中して観測される場合、その観測値を準離散的な観測値とよび、それを格納する変数を準離散的変数と呼ぶこととする。
準離散的な観測値は、自動車などの観測対象からは多数観測される。例えば、ギア位置やシフト位置などは本質的に離散的な値しか採り得ない。また、アクセル開度のように、通常の利用状況に照らせば0(アクセルを踏まない)および100(アクセルを完全に踏み込む)の値を採り易い観測値もある。また、本質的には連続値であるが有限の分解能により準離散的な値を採る場合もある。例えば、温度計の性能のため1度刻みでしか測定できない温度などである。このような準離散的変数は、平滑化やリサンプリング処理、またはノイズの混入が原因で、完全に離散的にならない場合もある。
なお、本実施の形態においては観測対象として自動車を例示しているが、このような準離散的な観測値が観測される対象であれば自動車以外の観測対象に対しても本実施の形態は有効である。例えば、診断システム10は、有限の分解能をもって提示される経済指標、例えば、国内総生産や、株式または債券の価格などを観測値として観測してもよい。この場合には、観測対象である国家・企業等の組織に生じた異常を検出できる。
図4右側には、第2時系列データの累積確率分布のグラフ(実線)と第1時系列データの累積確率分布のグラフ(点線)とを重ねて示す。第1時系列データのグラフと第2時系列データのグラフとはほぼ重なっている。しかしながら、グラフ中央に示すように、離散的に観測された観測値に僅かな相違が生じている。このような相違は上述のノイズなどが原因の場合が多く、第1時系列データと第2時系列データとの間の本質的な差異として検出するべきではない。しかしながら、第1時系列データの累積確率分布と第2時系列データの累積確率分布との差異をKS統計量である指標値Dによって評価すると、その差異は非常に大きいものとなってしまう。
これに対し、本実施の形態において算出部120は第1時系列データおよび第2時系列データに代えて第1複製データおよび第2複製データの間の相違を示すKS統計量を算出する。それぞれの複製データは対応する時系列データの観測値を反復復元抽出したものである。この抽出回数を充分に多くすれば、累積確率分布が平滑化されて勾配∞の部分が除去され、確率分布の本質的な特徴のみを抽出することができる。
図5は、指標値Dの算出過程の一例を示す。算出部120は、第1複製データの確率分布と、第2複製データの確率分布とを生成する。複製データを時間の経過に伴う観測値の変化として表すとすれば、その確率分布はそれぞれの観測値に対するその観測値を採りうる確率値として表される。そして、算出部120は、それぞれの確率分布の累積確率分布を生成する。累積確率分布は、それぞれの観測値に対する、その観測値以下の観測値を採る確率の累積値として表される。そして、算出部120は、第1複製データの累積確率分布と第2複製データの累積確率分布との間の、それぞれの観測値における確率値の差分の最大値を指標値Dとして算出する。
図2に戻る。判断部130は、S210からS240に至る前回の繰返しにおいてS220において生成された指標値と、S210からS240に至る今回の繰返しにおいてS220において生成された指標値との差分を算出する(S230)。そして、判断部130は、算出した差分が予め定められた基準値以下でないことを条件に(S240:NO)、S210に処理を戻す。即ち、複製部110は、反復復元抽出の抽出回数を増加させて、前回に生成した複製データに対し今回抽出した観測値を追加して新たな複製データを生成する。S230において算出する差分が基準値以下となるまでS210からS240までの処理が繰り返される。
指標値の差分値が基準値以下に収束したことを条件に(S240:YES)、算出部120は、算出した当該今回の指標値を表示部140に対し出力する(S250)。そして、表示部140は、算出された指標値を、第1時系列データおよび第2時系列データの差異の検出結果として表示する(S260)。また、表示部140は、この指標値が予め定められた閾値(たとえば0.4)を超えたことを条件に、閾値を超えたこの指標値に対応する観測値の種類を利用者に通知してもよい。以上の処理は、複数の種類の観測値のそれぞれについて繰り返され、それぞれの種類の観測値についての検出結果が一覧表示されてもよい。
図6は、反復復元抽出の回数増加に応じて指標値Dが収束する過程を示す。図6に図示するグラフの横軸は観測値の種類を示し、縦軸は反復復元抽出の反復回数が観測値の個数の何倍であるかを示し、高さ方向の軸は指標値Dを示す。図6を参照すると、何れの種類の観測値についても、反復回数が観測値の10倍を超えると指標値Dはほとんど変化しなくなっており、S210からS240までに示す反復の回数は観測値の数十倍程度であるのが分かる。また、図5に示す処理に代えて、複製部110は、収束判定の結果に関わらず、予め観測値の数十倍程度の反復復元抽出を行い、算出部120は、その結果生成された復元データに基づいて指標値Dを1回のみ算出してもよい。図6に示すように、観測値の数十回倍程度の反復復元抽出で充分に信頼性の高い指標値が算出されることが分かる。
図7は、表示部140によって検出結果を表示する画面700の例を示す。表示部140は、画面700において、複数の観測値の種類を示す情報と、その種類の観測値について算出されたKS統計量などの指標値とを、算出された指標値の大きい順に優先して表示する。図7の棒グラフでは、指標値の大きい観測値が左側から順に表示されている。具体的には、表示部140は、観測値の種類を示す識別番号8に対応付けて、その観測値のKS統計量を棒グラフ中のバー710の長さによって示す。また、その右隣に、表示部140は、観測値の種類を示す識別番号12に対応付けて、その観測値のKS統計量を棒グラフ中のバー720の長さによって示す。KS統計量は、識別番号8、12、55、13、2、60…の順に右側に行くにつれて小さくなっている。このように、表示部140の表示によれば、利用者は、異常の発生している可能性の高い箇所とその可能性の高さの順序を把握できる。これにより、自動車のエンジニアは、優先して詳細な調査をするべき箇所とその優先順序を適切に把握して、その後の障害対応の作業を効率化できる。
図8は、本実施の形態の変形例において異常の検出結果を表示する処理のフローチャートを示す。本変形例においては、観測対象の観測中に順次得られる観測値を用いて、上述のKS統計量などの指標値を動的に更新していく処理の例を説明する。この変形例は、観測値が追加される毎に新たな指標値を算出する場合であっても、毎回全ての観測値を用いて初めから計算を行うのではなく、前回の算出結果を利用して効率的に新たな指標値を算出することを目的とする。
取得部100は、観測対象を順次観測して、既に観測された観測値の時系列データに新たに観測された観測値の時系列データを順次追加することによって第1の時系列データを取得する(S800)。即ち、取得部100は、S800の処理毎に、新たな時系列データを含む新たな第1の時系列データを取得する。次に、複製部110は、取得された第1の時系列データのうち新たに観測された観測値のみを含む時系列データについて、その複製データを生成する(S810)。算出部120は、新たに観測された観測値を含む時系列データの複製データに基づく累積確率分布と、既に観測された観測値を含む時系列データの複製データに基づく累積確率分布とを合成することにより、第1の時系列データの複製データに基づく累積確率分布を生成する(S820)。
合成は、新たに観測された観測値の数と既に観測された観測値の数との比率に基づき行われる。例えば、各観測値に対応する確率値は、観測値の個数によって加重平均される。一例として、ある観測値に対して既に計算された確率値が0.4であり、新たに算出された確率値が0.5であり、既に観測された観測値が9000個であり、新たに観測された観測値が1000個であれば、観測値の比率である9:1に基づき加重平均されて確率値は0.41となる。
そして、算出部120は、合成された累積確率分布と、予め生成した第2複製データの累積確率分布との間の差異を示すKS統計量などの指標値を算出する(S830)。算出された指標値は、第1時系列データと第2時系列データとの差異の検出結果として表示される(S840)。観測値の観測が継続されている場合には、診断システム10はS800に処理を戻して引き続き指標値の更新を行う。
以上、本変形例によれば、観測対象の観測中にその状態をリアルタイムで把握することができる。更に、差異を示す指標値の計算は、前回の計算結果を利用して迅速に行うことができる。
図9は、本実施の形態又はその変形例において診断システム10として機能する情報処理装置500のハードウェア構成の一例を示す。情報処理装置500は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置500が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置500の起動時にCPU1000が実行するブートプログラムや、情報処理装置500のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置500に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置500にインストールされて実行される。プログラムが情報処理装置500等に働きかけて行わせる動作は、図1から図8において説明した診断システム10における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置500に提供してもよい。
以上、本実施形態において説明したように、診断システム10によれば、観測値の振る舞いについて予め充分な知識がなくとも、複数の種類の観測値について網羅的に、観測の対象について生じた異常を検出することができる。また、異常を示す指標値の算出にあたっては、時系列データから観測値を反復復元抽出することで、観測の環境の相違に伴う観測値の僅かな違いを排除して観測対象の本質的な状態を診断できる。これにより、従来のリミットチェックに代えて有効に機能し、又は、リミットチェックに加えて相補的に機能する異常検出を実現することができる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、診断システム10の機能構成を示す。 図2は、診断システム10によって異常の検出結果が生成される処理のフローチャートを示す。 図3は、診断対象となる第1時系列データと正常時の第2時系列データとが比較される処理の概念図である。 図4は、複製データに代えてもとの時系列データに基づき指標値を算出する過程の一例を示す。 図5は、指標値Dの算出過程の一例を示す。 図6は、反復復元抽出の回数増加に応じて指標値Dが収束する過程を示す。 図7は、表示部140によって検出結果を表示する画面700の例を示す。 図8は、本実施の形態の変形例において異常の検出結果を表示する処理のフローチャートを示す。 図9は、本実施の形態又はその変形例において診断システム10として機能する情報処理装置500のハードウェア構成の一例を示す。
符号の説明
10 診断システム
100 取得部
105 正常時DB
110 複製部
120 算出部
130 判断部
140 表示部
500 情報処理装置
700 画面
710 バー
720 バー

Claims (11)

  1. 複数の観測結果の間の差異を検出するシステムであって、
    ある観測対象を時間の経過に応じて観測した複数の観測値を含む第1時系列データと、前記観測対象を時間の経過に応じ観測した複数の観測値を含む第2時系列データとを取得する取得部と、
    前記第1時系列データから復元抽出の反復により複数の観測値を抽出して当該第1時系列データの複製である第1複製データを生成し、更に、前記第2時系列データから復元抽出の反復により複数の観測値を抽出して第2複製データを生成する複製部と、
    前記第1複製データの累積確率分布と、前記第2複製データの累積確率分布との間の、同一の観測値における確率値の差分に基づいて、前記第1時系列データと前記第2時系列データとの間の相違を示す指標値を算出して出力する算出部と
    を備えるシステム。
  2. 前記算出部は、前記第1複製データの累積確率分布と前記第2複製データの累積確率分布との間の、それぞれの観測値における確率値の差分の最大値を、前記第1時系列データと前記第2時系列データとの間の相違を示す前記指標値として算出する
    請求項1に記載のシステム。
  3. 前記複製部は、前記第1時系列データに含まれる観測値の数よりも多い数の観測値を復元抽出の反復により前記第1複製データを生成する
    請求項1に記載のシステム。
  4. 前記複製部は、前記第1時系列データおよび前記第2時系列データのそれぞれについて、抽出回数を増加させながら順次複数の複製データを生成し、
    前回に生成した第1複製データの累積確率分布と前回に生成した第2複製データの累積確率分布との間の、同一の観測値における差分に基づく前回の前記指標値と、今回に生成した第1複製データの累積確率分布と今回に生成した第2複製データの累積確率分布との間の、同一の観測値における差分に基づく今回の前記指標値との差分が、予め定められた基準値以下か否かを判断する判断部を更に備え、
    前記算出部は、前記指標値の差分が前記基準値以下であることを条件に前記今回の指標値を出力する
    請求項に記載のシステム。
  5. 前記取得部は、前記観測対象を順次観測して、既に観測された観測値の時系列データに新たに観測された観測値の時系列データを順次追加することによって前記第1時系列データを取得し、
    前記複製部は、取得された前記第1時系列データのうち新たに観測された観測値を含む時系列データの複製データを生成し、
    前記算出部は、新たに観測された観測値を含む時系列データの前記複製データに基づく累積確率分布と、既に観測された観測値を含む時系列データの複製データに基づく累積確率分布とを、新たに観測された観測値の数と既に観測された観測値の数との比率に基づき合成することにより、前記第1時系列データの複製データに基づく累積確率分布を生成する
    請求項1に記載のシステム。
  6. 前記算出部は、確率分布に差異が生じにくいものとして予め定められた観測値の範囲を除外して、第1複製データの累積確率分布と第2複製データの累積確率分布との間の、同一の観測値における確率値の差分を算出する
    請求項1に記載のシステム。
  7. 当該システムは、前記観測対象に生じた異常を検出するシステムであり、
    前記取得部は、正常な前記観測対象の観測結果に基づき予め生成された前記第2時系列データと、前記観測対象を新たに観測した観測値を含む第1時系列データとを取得し、
    前記算出部は、前記第1複製データの累積確率分布と前記第2複製データの累積確率分布との間の、同一の観測値における確率値の差分に基づいて、前記観測対象に生じた異常の程度を示す前記指標値を算出する
    請求項1に記載のシステム。
  8. 前記取得部は、観測値の複数の種類のそれぞれについて、当該種類の観測値の前記第1時系列データおよび前記第2時系列データを取得し、
    前記複製部は、観測値の複数の種類のそれぞれについて、当該種類の観測値の前記第1複製データおよび前記第2複製データを生成し、
    前記算出部は、観測値の複数の種類のそれぞれについて、当該種類の観測値についての前記指標値を算出し、
    算出された前記指標値の大きい順に優先して、観測値の種類を示す情報と前記指標値とを対応付けて表示する表示部を更に備える
    請求項に記載のシステム。
  9. 前記取得部は、正常な前記観測対象から得られた複数の時系列データのそれぞれとの間で、時系列データを観測値のベクトルとみなした場合のベクトル間距離の2乗和を最小化する新たな時系列データを生成し、前記第2時系列データとして取得する
    請求項に記載のシステム。
  10. 複数の観測結果の間の差異を検出する方法であって、
    ある観測対象を時間の経過に応じて観測した複数の観測値を含む第1時系列データと、前記観測対象を時間の経過に応じ観測した複数の観測値を含む第2時系列データとを取得するステップと、
    前記第1時系列データから復元抽出の反復により複数の観測値を抽出して当該第1時系列データの複製である第1複製データを生成し、更に、前記第2時系列データから復元抽出の反復により複数の観測値を抽出して第2複製データを生成するステップと、
    前記第1複製データの累積確率分布と、前記第2複製データの累積確率分布との間の、同一の観測値における確率値の差分に基づいて、前記第1時系列データと前記第2時系列データとの間の相違を示す指標値を算出して出力するステップと
    を備える方法。
  11. 複数の観測結果の間の差異を検出するシステムとして、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    ある観測対象を時間の経過に応じて観測した複数の観測値を含む第1時系列データと、前記観測対象を時間の経過に応じ観測した複数の観測値を含む第2時系列データとを取得する取得部と、
    前記第1時系列データから復元抽出の反復により複数の観測値を抽出して当該第1時系列データの複製である第1複製データを生成し、更に、前記第2時系列データから復元抽出の反復により複数の観測値を抽出して第2複製データを生成する複製部と、
    前記第1複製データの累積確率分布と、前記第2複製データの累積確率分布との間の、同一の観測値における確率値の差分に基づいて、前記第1時系列データと前記第2時系列データとの間の相違を示す指標値を算出して出力する算出部と
    して機能させるプログラム。
JP2006189301A 2006-07-10 2006-07-10 複数の観測結果の間の差異を検出するシステムおよびその方法 Expired - Fee Related JP4201027B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006189301A JP4201027B2 (ja) 2006-07-10 2006-07-10 複数の観測結果の間の差異を検出するシステムおよびその方法
US11/768,967 US20080010330A1 (en) 2006-07-10 2007-06-27 Method and system for detecting difference between plural observed results
US12/264,556 US7849124B2 (en) 2006-07-10 2008-11-04 Method and system for detecting difference between plural observed results

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006189301A JP4201027B2 (ja) 2006-07-10 2006-07-10 複数の観測結果の間の差異を検出するシステムおよびその方法

Publications (2)

Publication Number Publication Date
JP2008014912A JP2008014912A (ja) 2008-01-24
JP4201027B2 true JP4201027B2 (ja) 2008-12-24

Family

ID=38920272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006189301A Expired - Fee Related JP4201027B2 (ja) 2006-07-10 2006-07-10 複数の観測結果の間の差異を検出するシステムおよびその方法

Country Status (2)

Country Link
US (2) US20080010330A1 (ja)
JP (1) JP4201027B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7770072B2 (en) * 2007-01-16 2010-08-03 Xerox Corporation Method and system for analyzing time series data
US7774655B2 (en) * 2007-03-16 2010-08-10 Xerox Corporation Method and system for retrieving time series data
ES2354330B1 (es) * 2009-04-23 2012-01-30 Universitat Pompeu Fabra Método para calcular medidas de similitud entre señales temporales.
JP5434562B2 (ja) * 2009-12-18 2014-03-05 富士通株式会社 運用管理プログラム、運用管理装置および運用管理方法
JP5573743B2 (ja) 2011-03-22 2014-08-20 トヨタ自動車株式会社 車両データ解析装置、車両データ解析方法、及び故障診断装置
CN103502951B (zh) * 2011-03-23 2016-12-07 日本电气株式会社 操作管理系统、操作管理方法及其程序
US8909641B2 (en) * 2011-11-16 2014-12-09 Ptc Inc. Method for analyzing time series activity streams and devices thereof
JP5839970B2 (ja) 2011-12-05 2016-01-06 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation イベント系列のリスク評価値を算出する方法、装置及びコンピュータプログラム
KR20130091098A (ko) * 2012-02-07 2013-08-16 한국전자통신연구원 노드 탐색 메시지를 전송하기 위한 장치 및 방법
JP5998562B2 (ja) * 2012-03-27 2016-09-28 セイコーエプソン株式会社 半導体装置の製造方法及び監視装置
CN105027088B (zh) * 2013-02-18 2018-07-24 日本电气株式会社 系统分析设备和系统分析方法
US10366078B2 (en) * 2013-11-27 2019-07-30 The Regents Of The University Of California Data reduction methods, systems, and devices
US9635050B2 (en) * 2014-07-23 2017-04-25 Cisco Technology, Inc. Distributed supervised architecture for traffic segregation under attack
JP6008070B1 (ja) * 2014-12-22 2016-10-19 日本電気株式会社 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体
US10108978B2 (en) * 2015-03-31 2018-10-23 Adobe Systems Incorporated Methods and systems for collaborated change point detection in time series
US11151499B2 (en) * 2015-12-22 2021-10-19 International Business Machines Corporation Discovering linkages between changes and incidents in information technology systems
US20190163680A1 (en) * 2016-06-08 2019-05-30 Nec Corporation System analysis device, system analysis method, and program recording medium
JP7335154B2 (ja) * 2019-12-17 2023-08-29 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
CN113052455B (zh) * 2021-03-22 2024-04-19 广西电网有限责任公司 一种流域径流水文条件精细化评价的方法及装置
DE102021005214A1 (de) 2021-10-19 2022-01-05 Daimler Ag Verfahren der Transitionsanalyse zur Erkennung von Anomalien in Fahrzeugen

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US346593A (en) * 1886-08-03 dibble
JP2643422B2 (ja) * 1989-03-14 1997-08-20 松下電器産業株式会社 相関演算装置
US5257364A (en) * 1990-09-12 1993-10-26 Nec Research Institute, Inc. Method for generating a correlated sequence of variates with desired marginal distribution for testing a model of a communications system
JPH06197888A (ja) * 1993-01-06 1994-07-19 Mitsubishi Motors Corp 車両用居眠り警報装置
US6408321B1 (en) * 1999-03-24 2002-06-18 International Business Machines Corporation Method and apparatus for mapping components of descriptor vectors to a space that discriminates between groups
JP3821225B2 (ja) * 2002-07-17 2006-09-13 日本電気株式会社 時系列データに対する自己回帰モデル学習装置並びにそれを用いた外れ値および変化点の検出装置
JP2004354373A (ja) * 2003-05-08 2004-12-16 Mitsubishi Research Institute Inc 遺伝子型データ及び表現型データを用いた浸透率推定方法及びディプロタイプ形と表現型との関連性検定方法
US20050283511A1 (en) * 2003-09-09 2005-12-22 Wei Fan Cross-feature analysis
US7065534B2 (en) * 2004-06-23 2006-06-20 Microsoft Corporation Anomaly detection in data perspectives
US20060101402A1 (en) * 2004-10-15 2006-05-11 Miller William L Method and systems for anomaly detection
US7225103B2 (en) * 2005-06-30 2007-05-29 Oracle International Corporation Automatic determination of high significance alert thresholds for system performance metrics using an exponentially tailed model

Also Published As

Publication number Publication date
JP2008014912A (ja) 2008-01-24
US20080010330A1 (en) 2008-01-10
US7849124B2 (en) 2010-12-07
US20090132626A1 (en) 2009-05-21

Similar Documents

Publication Publication Date Title
JP4201027B2 (ja) 複数の観測結果の間の差異を検出するシステムおよびその方法
CN112955839B (zh) 异常检测装置、异常检测方法和程序
JP5868216B2 (ja) クラスタリング装置及びクラスタリングプログラム
US8630962B2 (en) Error detection method and its system for early detection of errors in a planar or facilities
JP6361175B2 (ja) 異常診断装置及びプログラム
JP5186322B2 (ja) 時系列データ解析システム、方法及びプログラム
US20120166142A1 (en) Anomaly Detection and Diagnosis/Prognosis Method, Anomaly Detection and Diagnosis/Prognosis System, and Anomaly Detection and Diagnosis/Prognosis Program
JP7126256B2 (ja) 異常診断装置、異常診断方法、及びプログラム
WO2013188145A1 (en) Generalized pattern recognition for fault diagnosis in machine condition monitoring
JP2015026252A (ja) 異常検知装置及びプログラム
JP5827426B1 (ja) 予兆診断システム及び予兆診断方法
KR20190072652A (ko) 정보 처리 장치 및 정보 처리 방법
CN113485302A (zh) 基于多元时序数据的车辆运行过程故障诊断方法及系统
JP5771317B1 (ja) 異常診断装置及び異常診断方法
Sun et al. Fine‐Grained Fault Diagnosis Method of Rolling Bearing Combining Multisynchrosqueezing Transform and Sparse Feature Coding Based on Dictionary Learning
Chen et al. Fault detection based on auto-regressive extreme learning machine for nonlinear dynamic processes
US20190163680A1 (en) System analysis device, system analysis method, and program recording medium
CN118174788A (zh) 一种光纤配线柜的故障检测方法、装置、设备及存储介质
Yassaie et al. Data-driven fault classification in large-scale industrial processes using reduced number of process variables
JP2016045853A (ja) 異常診断装置及び異常診断方法
CN115310499A (zh) 一种基于数据融合的工业设备故障诊断系统及方法
de Oliveira et al. Fault Detection and Isolation in Inertial Measurement Units Based on χ2‐CUSUM and Wavelet Packet
JP2017207878A (ja) 欠落データ推定方法、欠落データ推定装置および欠落データ推定プログラム
CN115249059A (zh) 模型训练及异常数据分析方法、装置及计算机存储介质
CN117609737B (zh) 一种惯性导航系统健康状态预测方法、系统、设备及介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080117

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20080130

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080716

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080924

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080925

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080929

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees