JP2009187293A - 時系列データ解析システム、方法およびプログラム - Google Patents
時系列データ解析システム、方法およびプログラム Download PDFInfo
- Publication number
- JP2009187293A JP2009187293A JP2008026651A JP2008026651A JP2009187293A JP 2009187293 A JP2009187293 A JP 2009187293A JP 2008026651 A JP2008026651 A JP 2008026651A JP 2008026651 A JP2008026651 A JP 2008026651A JP 2009187293 A JP2009187293 A JP 2009187293A
- Authority
- JP
- Japan
- Prior art keywords
- time
- correlation
- series
- data
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims description 27
- 230000008859 change Effects 0.000 claims abstract description 55
- 238000006243 chemical reaction Methods 0.000 claims abstract description 18
- 238000001514 detection method Methods 0.000 claims description 44
- 238000013144 data compression Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 9
- 238000007906 compression Methods 0.000 abstract description 9
- 230000006835 compression Effects 0.000 abstract description 7
- 238000005259 measurement Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
【課題】時系列データから簡潔な構造や関係性を効率的に抽出することができるデータ解析システムを提供する。
【解決手段】データ解析システムは、複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成するデータ圧縮・変換部10と、生成した圧縮データについて、部分空間上における頂点および辺として与えられる変数間の相関構造または相関関係を推定する構造関係推定部11と、推定した相関構造または相関関係の時系列な変化を推定する時系列構造推定部12と、推定した時系列な変化に基づいて相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、時系列データに内在する構造または関係性の変化を検出または予測する検出・予測部13と、を有する。
【選択図】図1
【解決手段】データ解析システムは、複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成するデータ圧縮・変換部10と、生成した圧縮データについて、部分空間上における頂点および辺として与えられる変数間の相関構造または相関関係を推定する構造関係推定部11と、推定した相関構造または相関関係の時系列な変化を推定する時系列構造推定部12と、推定した時系列な変化に基づいて相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、時系列データに内在する構造または関係性の変化を検出または予測する検出・予測部13と、を有する。
【選択図】図1
Description
本発明は、観測対象について収集したログ情報(時系列の順序性のあるデータからなるデータログ)やセンサ情報(測定データ)などの時系列データ群から有用な情報を取得し、その取得情報に基づいて、観測対象の構造や関係性についての変化を検出または予測する技術に関する。
自動車、ネットワークシステム、自然現象などの関係性診断分野では、診断対象に関する時系列データとして入力される各センサ情報やログ情報について、それぞれ閾値を設定し、入力データがその閾値を超えた状態を、診断対象の障害として検出する方法が、一般に用いられている。
近年、障害診断の対象となるシステムから、センサ情報やログ情報として膨大なデータを取得できるようになり、そのような膨大なデータを利用して、診断対象の構造や関係性の変化を検出するための技術として、いくつかの関連技術が提案されている。関連技術の一例として、非特許文献1、2には、診断対象の構造や関係性の変化を検出する検出システムが記載されている。
非特許文献1に記載の関係性検出システムは、変化点検出手段、距離尺度定義手段および多次元データ圧縮手段を有する。この関係性検出システムでは、変化点検出手段が、大量の時系列データのそれぞれに対して変化度スコアを求め、距離尺度定義手段が、その変化度スコア列をベクトルとして、お互いのベクトル間の距離を定める。そして、多次元データ圧縮手段が、そのベクトルを多次元尺度法により低次元空間にマッピングする。このマッピングによれば、類似した時系列データは、低次元空間の近い位置にマッピングされる。
非特許文献2に記載の構造変化検出システムは、次元圧縮手段、時系列構造推定手段および変化度スコア計算手段を有する。この関係性検出システムでは、次元圧縮手段が、大量の時系列データに対して、低次元における隠れた共通の性質を持つ時系列データを計算し、時系列構造推定手段が、その時系列データの変化に応じてモデルを適応的に学習する。そして、変化度スコア計算手段が、新たなデータが入ってきた場合に、過去のモデルに対して大きく外れた状態を計算するための変化度スコアを求め、その変化度に応じて異常やモデルの変化を検出する。
Tsuyoshi Ide and Keisuke Inoue, "Knowledge Discovery from Heterogeneous Dynamic Systems using Change-Point Correlations" Proceedings of 2005 SIAM International Conference on Data Mining (SDM 05), April 21-23, 2005, pp.571-576. Spiros Papadimitriou, Jimeng Sun, Christos Faloutsos, Streaming Pattern Discovery in Multiple Time-Series, VLDB 2005.
Tsuyoshi Ide and Keisuke Inoue, "Knowledge Discovery from Heterogeneous Dynamic Systems using Change-Point Correlations" Proceedings of 2005 SIAM International Conference on Data Mining (SDM 05), April 21-23, 2005, pp.571-576. Spiros Papadimitriou, Jimeng Sun, Christos Faloutsos, Streaming Pattern Discovery in Multiple Time-Series, VLDB 2005.
しかしながら、非特許文献1、2に記載の検出システムにおいては、データ間の簡潔な相関構造や相関関係を抽出するためのデータ圧縮処理や計算上の工夫がなされていないため、複数の時系列データに内在する構造や関係性を効率的に予測または検出することは困難である。
また、複数の時系列データに内在する構造や関係性の時系列な依存関係を陽に表現するようには構成されていない。このため、検出結果から構造や関係性の時系列な依存関係をとらえることは困難である。
本発明の目的は、上記問題を解決することのできる、データ解析システム、方法およびプログラムを提供することにある。
上記目的を達成するため、本発明の時系列データ解析システムは、
複数の時系列データを入力とし、該入力時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成するデータ圧縮・変換部と、
前記データ圧縮・変換部で生成した圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定する構造関係推定部と、
前記構造関係推定部で推定した前記相関構造または相関関係の時系列な変化を推定する時系列構造推定部と、
前記時系列構造推定部で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する検出・予測部と、を有することを特徴とする。
複数の時系列データを入力とし、該入力時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成するデータ圧縮・変換部と、
前記データ圧縮・変換部で生成した圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定する構造関係推定部と、
前記構造関係推定部で推定した前記相関構造または相関関係の時系列な変化を推定する時系列構造推定部と、
前記時系列構造推定部で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する検出・予測部と、を有することを特徴とする。
本発明の時系列データ解析方法は、
データ圧縮・変換部が、複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成し、
構造関係推定部が、前記データ圧縮・変換部にて生成された圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定し、
時系列構造推定部が、前記構造関係推定部で推定した前記相関構造または相関関係の時系列な変化を推定し、
検出・予測部が、前記時系列構造推定部で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する、ことを特徴とする。
データ圧縮・変換部が、複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成し、
構造関係推定部が、前記データ圧縮・変換部にて生成された圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定し、
時系列構造推定部が、前記構造関係推定部で推定した前記相関構造または相関関係の時系列な変化を推定し、
検出・予測部が、前記時系列構造推定部で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する、ことを特徴とする。
本発明のプログラムは、
複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成する第1の処理と、
前記第1の処理で生成された圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定する第2の処理と、
前記第2の処理で推定した前記相関構造または相関関係の時系列な変化を推定する第3の処理と、
前記第3の処理で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する第4の処理と、をコンピュータに実行させることを特徴とする。
複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成する第1の処理と、
前記第1の処理で生成された圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定する第2の処理と、
前記第2の処理で推定した前記相関構造または相関関係の時系列な変化を推定する第3の処理と、
前記第3の処理で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する第4の処理と、をコンピュータに実行させることを特徴とする。
本発明によれば、複数の時系列データ(多次元データ)は、該データに内在する構造および関係性を表すことができる低次元の部分空間に射影されることで圧縮され、その圧縮データ(低次元データ)に基づいて、相関構造や相関関係が推定される。このような圧縮データに基づいて推定される相関構造や相関関係は、人間が理解できるような抽象化されたモデルとして扱うことができる。このように、複数の時系列データに内在する構造または関係性を、人間が理解できる形で抽出して提供できる。
また、多次元データを低次元データに圧縮することで、相関構造や相関関係を抽出する上で不要となるデータを削除する。これにより、多次元データに内在する構造や関係性を効率的に予測または検出することができる。
また、複数の時系列データに内在する構造や関係性の時系列な依存関係を陽に表現することができるので、検出または予測の結果から、構造や関係性の時系列な依存関係を容易にとらえることができる。
次に、本発明の実施形態について図面を参照して説明する。
図1は、本発明の一実施形態であるデータ解析システムの構成を示すブロック図である。
図1を参照すると、データ解析システム100は、プログラムにより動作するコンピュータシステムであって、その主要部は、制御部1、通信部2、入力部3、出力部4、および記憶部5からなる。
記憶部5は、ハードディスクや半導体メモリなどの記憶装置より構成されるものであって、データ解析システム100を動作させるためのプログラムやデータが格納される。プログラムとして、制御部1の各機能部を実現するためのプログラム50が記憶部5に予め格納されている。プログラム50は、記録媒体を通じてユーザに提供されてもよく、また、インターネットに代表されるネットワークを通じてユーザに提供されてもよい。
通信部2は、外部データベースシステムや、各種センサの測定データを取り込むための外部入力装置との接続を行うためのインタフェースを備える。外部データベースシステムは、観測対象に関するデータをログ情報として格納したシステムである。ログ情報は、外部データベースシステムから通信部2を通じて制御部1に供給される。外部入力装置は、観測対象に関する観測データを、通信部2を通じて制御部1に供給する。観測データは、例えば、環境調査を対象とする場合は、温度センサ、湿度センサ、騒音センサ、自動車の速度を測定する速度センサ等の複数のセンサにより得られた複数の時系列データ(多次元データ)である。
入力部3は、キーボードやマウスなどに代表される入力装置である。出力部4は、ディスプレイ装置やプリンタに代表される出力装置である。
制御部1は、記憶部5に格納されたプログラムに従って動作し、入力部3からの入力を受け付けて各部の動作を制御するとともに、データ解析処理に必要な機能を提供する。制御部1は、プログラム50により提供される主要な機能部として、データ圧縮・変換部10、構造・関係性推定部11、時系列構造推定部12、および検出・予測部13を備える。
観測対象に関する複数の時系列データが外部データベースシステムまたは外部入力装置から通信部2を通じて制御部1に供給される。
データ圧縮・変換部10は、通信部2を通じて入力された複数の時系列データ(多次元データ)を、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影する圧縮処理を行う。例えば、データ圧縮・変換部10は、K次元の時系列データを、L(<K)次元の部分空間に展開する圧縮処理を行う。このデータ圧縮・変換部10による圧縮結果は、圧縮データ51として記憶部5に格納される。
構造・関係性推定部11は、記憶部5に格納された圧縮データ51について、低次元の部分空間上における上記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定する。構造・関係性推定部11による推定結果は、構造・関係性推定データ52として記憶部5に格納される。
時系列構造推定部12は、記憶部5に格納された構造・関係性推定データ52に基づいて、相関構造または相関関係の時系列な変化を推定する。時系列構造推定部12による推定結果は、推定・学習データ53として記憶部5に格納される。
検出・予測部13は、記憶部5に格納された推定・学習データ53に基づいて相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、複数の時系列データに内在する構造または関係性の変化を検出または予測する。
検出・予測部13は、構造変化検出・予測部13aおよび関係変化・予測部13bを有する。構造変化検出・予測部13aは、記憶部5に格納された推定・学習データ51に基づいて、構造パターンの変化を検出または予測する。この構造パターン変化の検出または予測の結果は、構造変化検出・予測部13aから出力部4に供給される。関係変化・予測部13bは、記憶部5に格納された推定・学習データ51に基づいて、関係パターンの変化を検出または予測する。この関係パターン変化の検出または予測の結果は、関係変化・予測部13bから出力部4に供給される。
次に、本実施形態のデータ解析システムの動作について具体的に説明する。
図2は、図1に示したデータ解析システム100にて行われるデータ解析処理の一手順を示すフローチャートである。以下、図1および図2を参照して、データ解析処理の手順を説明する。
まず、データ入力手段である通信部2により、観測対象に関する複数の時系列データを取り込む(ステップA1)。次に、データ圧縮・変換部10が、入力された複数の時系列データを低次元の部分空間に射影する圧縮処理を行う(ステップA2)。この圧縮結果は、圧縮データ51として記憶部5に格納される。
次に、構造・関係性推定部11が、記憶部5に格納された圧縮データ51に基づいて、低次元の部分空間上における頂点および辺として与えられる変数間の相関構造または相関関係を推定する(ステップA3)。例えば、構造関係推定部11は、相関構造または相関関係を属性とする木構造で部分空間の分布を表した確率モデルを作成する。この構造・関係性推定部11による推定結果(確率モデル)は、構造・関係性推定データ52として記憶部5に格納される。
次に、時系列構造推定部12が、記憶部5に格納された構造・関係性推定データ52に基づいて、相関構造または相関関係の時系列な変化(時間的な変化)を推定する(ステップA4)。例えば、時系列構造推定部12は、ステップA3にて構造関係推定部11が作成した確率モデルに基づいて、相関構造または相関関係の出現パターンに関する時系列構造を推定する。時系列構造推定部12による推定結果は、推定・学習データ53として記憶部5に格納される。
次に、検出・予測部13が、記憶部5に格納された推定・学習データ53に基づいて、相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、複数の時系列データに内在する構造または関係性の変化を検出または予測する(ステップA5)。例えば、検出・予測部13は、ステップA4にて時系列構造推定部12が推定した時系列構造の出現確率を計算し、該結果に基づいて、複数の時系列データに内在する構造または関係性の変化を検出または予測する。このステップA5の構造・関係性の変化の検出・予測の処理は、構造変化検出・予測部13aが、構造パターンの変化を検出または予測する構造変化検出・予測処理と、関係変化検出・予測13bが、関係パターンの変化を検出または予測する関係性変化検出・予測処理とを含む。
最後に、データ出力部4が、検出・予測部13による検出または予測の結果を出力する(ステップA6)。このステップA6のデータ出力では、検出・予測結果は、例えば表示部またはプリンタにて出力される。
次に、本実施形態のデータ解析システムの特徴となる、データ圧縮・変換部10、構造・関係性推定部11、時系列構造推定部12、および検出・予測部13の動作を具体的に説明する。ここでは、K個のセンサの測定値がそれぞれ時系列な測定データとして制御部1に供給された場合の動作を例に挙げて説明する。
入力される測定値の時系列をK次元のベクトルにしたものをytと表す。ここで、tは時刻を表す。データ圧縮・変換部10は、この測定値ベクトル系列yt(t=1・・・T)をL次元の部分空間xtに射影する。このとき、測定値ベクトル系列ytと部分空間xtとの間のK×L変換行列をAで表し、センサの測定値に対するノイズ項をεtとし、平均0、共分散行列Λの正規分布に従うとする。つまり、「εt〜N(0,Λ)」の条件に従う。このときの測定値ベクトル系列ytの確率分布は、
P(yt |xt) = N(yt |Axt,Λ)
と表すことができる。これは、部分空間xtが平均0、共分散行列I(単位行列)の分布に従うとすると、因子分析と同じモデルとなる。また、ノイズ項を無視すると主成分分析と同じモデルとなる。ここで、因子分析は、観測値が複数の値からなる多変量データを統計的に解析する多変量解析の1つである。主成分分析も、多変量解析の1つであって、複数の変数間の共分散(相関)を少数の合成変数で表す。ノイズ項は、センサの測定精度の誤差や、測定データに基づく読み取り精度の誤差等に相当する項目である。
P(yt |xt) = N(yt |Axt,Λ)
と表すことができる。これは、部分空間xtが平均0、共分散行列I(単位行列)の分布に従うとすると、因子分析と同じモデルとなる。また、ノイズ項を無視すると主成分分析と同じモデルとなる。ここで、因子分析は、観測値が複数の値からなる多変量データを統計的に解析する多変量解析の1つである。主成分分析も、多変量解析の1つであって、複数の変数間の共分散(相関)を少数の合成変数で表す。ノイズ項は、センサの測定精度の誤差や、測定データに基づく読み取り精度の誤差等に相当する項目である。
次に、構造・関係性推定部11による、効率的かつ確率的な構造(ネットワーク構造)および関係性を求める処理について説明する。ここでは、部分空間xtの分布において、L個の各変数が、独立ではなく、相関構造を持つと仮定する。この相関構造の表現式としては、色々考えられるが、ここでは、Chow-Liu Tree構造を用いる。
Chow-Liu Tree構造を用いた場合、部分空間xtの確率分布は、以下のように書くことができる。
T(xt)=Π(u,v)∈E Tuv(xt u,xt v) / Tu(xt u) Tv(xt v) Πv∈V Tv(xt v)
Chow-Liu Tree構造は、相関構造の計算速度にすぐれ、また、適切な事前分布を設定することで、森(Forest)構造を表すことができる。これは、複数の互いに相関のある部分相関構造を用いることで、全体の相関構造を表すことができることを意味する。部分相関構造をクラスタとみなせば、多数の変数をクラスタリングすることに相当する。
Chow-Liu Tree構造は、相関構造の計算速度にすぐれ、また、適切な事前分布を設定することで、森(Forest)構造を表すことができる。これは、複数の互いに相関のある部分相関構造を用いることで、全体の相関構造を表すことができることを意味する。部分相関構造をクラスタとみなせば、多数の変数をクラスタリングすることに相当する。
Chow-Liu式では、一つの全体相関構造しか表すことができないが、複数のグラフの組み合わせ(混合モデル)を考えることで、より複雑な全体相関構造の確率モデルを表すことができる。この混合モデルの状態を離散状態stで表すと、部分空間xtの分布は、
P(xt|st) = T(xt|st,θ)
と表すことができる。ここで、θは、Chow-Liu Tree構造を表すパラメータである。
P(xt|st) = T(xt|st,θ)
と表すことができる。ここで、θは、Chow-Liu Tree構造を表すパラメータである。
次に、時系列構造推定部12による時系列な構造の推定処理について具体的に説明する。この推定処理では、上述のようにして計算した構造および関係性について、時系列な変化を計算する。離散状態にマルコフ性を考慮すると、
P(st|st-1)= at,t-1
となる。ここで、at,t-1は遷移確率である。
P(st|st-1)= at,t-1
となる。ここで、at,t-1は遷移確率である。
以上の処理により得られたモデルをまとめると、
P(y)=Σs∫p(y|x)p(x|s)p(s)dx
となる。検出・予測部13は、このモデル計算式に基づき、EM(Expectation Maximization)アルゴリズムにより推定・学習することで、複数の時系列データに内在する構造または関係性の変化の検出または予測を行う。推定・学習を行うことにより、パラメータを含む確率モデル(グラフ)が求まり、その出現確率を計算することで、構造パターンの変化の検出または予測、関係パターンの変化の検出または予測を行うことができる。EMアルゴリズムは、繰り返し演算により最尤推定を求めるアルゴリズムである。パラメータは、グラフの各頂点の値(測定値の平均値や分散値)、頂点を結合する辺の大きさ(重み)、ノイズの大きさ等である。
P(y)=Σs∫p(y|x)p(x|s)p(s)dx
となる。検出・予測部13は、このモデル計算式に基づき、EM(Expectation Maximization)アルゴリズムにより推定・学習することで、複数の時系列データに内在する構造または関係性の変化の検出または予測を行う。推定・学習を行うことにより、パラメータを含む確率モデル(グラフ)が求まり、その出現確率を計算することで、構造パターンの変化の検出または予測、関係パターンの変化の検出または予測を行うことができる。EMアルゴリズムは、繰り返し演算により最尤推定を求めるアルゴリズムである。パラメータは、グラフの各頂点の値(測定値の平均値や分散値)、頂点を結合する辺の大きさ(重み)、ノイズの大きさ等である。
以下に、検出・予測部13による出現確率の計算について説明する。
上記のモデル計算式において、高次元のデータを射影するための低次元の部分空間の分布は「p(y|x)」の項目により規定される。図3に、低次元の部分空間の分布を模式的に示す。図3を参照すると、時系列データy(測定値ベクトル系列)を射影するための低次元の部分空間の分布は、複数の頂点x1〜x3とその頂点間を結ぶ辺によって表される。頂点x1〜x3のそれぞれの値と、辺による頂点の接続関係を表す関係性とを適宜に設定することで、複数のグラフ(混合モデル)を作成することができる。
混合モデルは、「p(x|s)」の項目により規定される。図4に、混合グラフの一例を示す。図4を参照すると、混合グラフは、頂点x1〜x3とその頂点間を結ぶ辺によって表される、二つのグラフG1、G2を含む。グラフG1においては、頂点x1と頂点x2が結合され、頂点x2と頂点x3が結合されている。グラフG2においては、頂点x1と頂点x3が結合され、頂点x3と頂点x2が結合されている。これらグラフにおいて、頂点x1〜x3とペアとなる頂点間を結ぶ辺について変数が設定される。例えば、グラフG2においては、変数として、頂点x1〜x3のそれぞれに、平均値2、4、3が設定され、頂点x1と頂点x3の辺に、重み10が設定され、頂点x3と頂点x2の辺に、重み20が設定されている。このグラフG2によれば、平均が2の確率分布に従うとき、2程度の値が出てくると予測することができる。
「p(x|s)」の項目により規定された混合グラフについて、「p(s)」の項目により規定された遷移確率に従って、どのグラフがどういった形(変数の値)で出てくるかを予測する。図5に、グラフ遷移の模式図を示す。図5を参照すると、図4に示したグラフG1、G2について、時刻tから時刻t+1の時区間におけるグラフ遷移の確率が示されている。時刻tにおいてグラフG1が検出された場合において、グラフG1が時刻t+1においても検出される確率をpとすると、グラフG2が時刻t+1において検出される確率は(1−p)である。一方、時刻tにおいてグラフG2が検出された場合において、グラフG2が時刻t+1においても検出される確率をqとすると、グラフG1が時刻t+1において検出される確率は(1−q)である。確率pが小さい場合は、時刻t+1においてグラフG2が出現すると予測することができる。また、確率qが小さい場合は、時刻t+1においてグラフG1が出現すると予測することができる。このようにして、出現確率に基づいて、グラフの構造パターンや関係パターンの変化の検出または予測を行うことができる。
以上説明した本実施形態のデータ解析システムにおいて、データ圧縮・変換部10が、大量の多次元データを低次元の部分空間に射影しつつ、構造・関係性推定部11が、低次元の部分空間上における変数間の相関構造または相関関係を推定する。さらに、構造・関係性推定部11が、その推定された相関構造または相関関係の時系列な変化を推定する。そして、検出・予測部13が、その推定した時系列な変化に基づいて相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、多次元データに内在する構造または関係性の変化を検出または予測する。
この構成によれば、複数の時系列データ(多次元データ)は、該データに内在する構造および関係性を表すことができる低次元の部分空間に射影されることで圧縮され、その圧縮データ(低次元データ)に基づいて、相関構造や相関関係が推定される。このような圧縮データに基づいて推定される相関構造や相関関係は、人間が理解できるような抽象化されたモデルとして扱うことができる。このように、複数の時系列データに内在する構造または関係性を、人間が理解できる形で抽出して提供できる。
また、多次元データを低次元データに圧縮することで、相関構造や相関関係を抽出する上で不要となるデータを削除する。これにより、多次元データに内在する構造や関係性を効率的に予測または検出することができる。
また、多次元データに内在する構造や関係性の時系列な依存関係を陽に表現することができるので、検出または予測の結果から、構造や関係性の時系列な依存関係を容易にとらえることができる。
例えば、多次元データとして、自動車の状態を観測した時系列データ(燃焼温度、速度、燃料消費量等の時系列データ)を取り扱う場合、本発明によれば、この多次元データに基づいて、構造や関係性の時系列な依存関係をとらえることで、アクセルの踏み具合についての予測結果を得られる。
また、高速道路上における渋滞情報を提供するシステムに本発明を適用した場合、各出口の道路上に一定の間隔で配置された複数の車両検出センサからの測定値が時系列データとして制御部1に供給される。多次元データに基づく、構造や関係性の時系列な依存関係をとらえることで、出口Aにおける渋滞を予測するとともに、その出口Aに隣接する出口Bにおける渋滞を予測することが可能である。このように、連動した渋滞の予測を行うことができる。
本発明によれば、自動車などの機械システムや、複数のコンピュータがネットワークにより接続された情報処理システムにおける、構造や関係性の変化の検出および予測といった用途に適用できる。また、道路やビルなどに設置されたセンサや気象観測所の観測システムから得られるデータ間の構造や関係性の変化検出および予測といった用途にも適用可能である。
1 制御部
2 通信部
3 入力部
4 出力部
5 記憶部
10 データ圧縮・変換部
11 構造・関係性推定部
12 時系列構造推定部
13 検出・予測部
13a 構造変化検出・予測部
13b 関係変化検出・予測部
100 データ解析システム
2 通信部
3 入力部
4 出力部
5 記憶部
10 データ圧縮・変換部
11 構造・関係性推定部
12 時系列構造推定部
13 検出・予測部
13a 構造変化検出・予測部
13b 関係変化検出・予測部
100 データ解析システム
Claims (4)
- 複数の時系列データを入力とし、該入力時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成するデータ圧縮・変換部と、
前記データ圧縮・変換部で生成した圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定する構造関係推定部と、
前記構造関係推定部で推定した前記相関構造または相関関係の時系列な変化を推定する時系列構造推定部と、
前記時系列構造推定部で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する検出・予測部と、を有する、時系列データ解析システム。 - 前記構造関係推定部は、前記相関構造または相関関係を属性とする木構造で前記部分空間の分布を表した確率モデルを作成し、
前記時系列構造推定部は、前記構造関係推定部で作成した確率モデルに基づいて前記相関構造または相関関係の出現パターンに関する時系列構造を推定し、
前記検出・予測部は、前記時系列構造推定部で推定した時系列構造の出現確率を計算し、該結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する、請求項1に記載の時系列データ解析システム。 - データ圧縮・変換部が、複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成し、
構造関係推定部が、前記データ圧縮・変換部にて生成された圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定し、
時系列構造推定部が、前記構造関係推定部で推定した前記相関構造または相関関係の時系列な変化を推定し、
検出・予測部が、前記時系列構造推定部で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する、時系列データ解析方法。 - 複数の時系列データのそれぞれを、独立して区別可能な複数の頂点の集合とそれら頂点間を結合する辺の集合とで定義される低次元の部分空間に射影して圧縮データを生成する第1の処理と、
前記第1の処理で生成された圧縮データについて、前記部分空間上における前記複数の頂点および辺として与えられる変数間の相関構造または相関関係を推定する第2の処理と、
前記第2の処理で推定した前記相関構造または相関関係の時系列な変化を推定する第3の処理と、
前記第3の処理で推定した前記時系列な変化に基づいて前記相関構造または相関関係の出現パターンを学習し、該学習結果に基づいて、前記複数の時系列データに内在する構造または関係性の変化を検出または予測する第4の処理と、をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008026651A JP2009187293A (ja) | 2008-02-06 | 2008-02-06 | 時系列データ解析システム、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008026651A JP2009187293A (ja) | 2008-02-06 | 2008-02-06 | 時系列データ解析システム、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009187293A true JP2009187293A (ja) | 2009-08-20 |
Family
ID=41070464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008026651A Pending JP2009187293A (ja) | 2008-02-06 | 2008-02-06 | 時系列データ解析システム、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009187293A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8444262B2 (en) | 2003-04-18 | 2013-05-21 | Mimaki Engineering Co., Ltd. | Inkjet printing system |
KR101381655B1 (ko) * | 2012-12-18 | 2014-04-04 | 전남대학교산학협력단 | 시계열 데이터의 비학습적 마이닝 방법 및 이를 지원하는 단말기 |
WO2014192299A1 (en) * | 2013-05-30 | 2014-12-04 | Nec Corporation | Data compression system |
WO2016111240A1 (ja) * | 2015-01-07 | 2016-07-14 | 日本電気株式会社 | 情報処理システム、変化点検出方法、および記録媒体 |
CN105787263A (zh) * | 2016-02-22 | 2016-07-20 | 中国科学院南京地理与湖泊研究所 | 一种大型浅水湖泊扰动强度空间格局的确定方法 |
EP3045889A4 (en) * | 2013-09-09 | 2017-08-09 | Nec Corporation | Information processing system, information processing method, and program |
JP2017146899A (ja) * | 2016-02-19 | 2017-08-24 | 株式会社日立製作所 | 歩留り予測装置および歩留り予測方法 |
KR101919076B1 (ko) | 2017-12-20 | 2018-11-19 | (주)지오시스템리서치 | 시계열 데이터 예측 시스템 |
JP2018195204A (ja) * | 2017-05-19 | 2018-12-06 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
WO2019187741A1 (ja) * | 2018-03-30 | 2019-10-03 | 株式会社小松製作所 | 状態分析装置および状態分析方法 |
KR20210027214A (ko) * | 2019-08-30 | 2021-03-10 | 울산과학기술원 | 데이터 예측 방법 및 장치 |
-
2008
- 2008-02-06 JP JP2008026651A patent/JP2009187293A/ja active Pending
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8444262B2 (en) | 2003-04-18 | 2013-05-21 | Mimaki Engineering Co., Ltd. | Inkjet printing system |
KR101381655B1 (ko) * | 2012-12-18 | 2014-04-04 | 전남대학교산학협력단 | 시계열 데이터의 비학습적 마이닝 방법 및 이를 지원하는 단말기 |
WO2014192299A1 (en) * | 2013-05-30 | 2014-12-04 | Nec Corporation | Data compression system |
JP2016524821A (ja) * | 2013-05-30 | 2016-08-18 | 日本電気株式会社 | データ圧縮システム |
US10078669B2 (en) | 2013-05-30 | 2018-09-18 | Nec Corporation | Data compression system |
US10228994B2 (en) | 2013-09-09 | 2019-03-12 | Nec Corporation | Information processing system, information processing method, and program |
EP3045889A4 (en) * | 2013-09-09 | 2017-08-09 | Nec Corporation | Information processing system, information processing method, and program |
WO2016111240A1 (ja) * | 2015-01-07 | 2016-07-14 | 日本電気株式会社 | 情報処理システム、変化点検出方法、および記録媒体 |
US11004002B2 (en) | 2015-01-07 | 2021-05-11 | Nec Corporation | Information processing system, change point detection method, and recording medium |
JP2017146899A (ja) * | 2016-02-19 | 2017-08-24 | 株式会社日立製作所 | 歩留り予測装置および歩留り予測方法 |
CN105787263A (zh) * | 2016-02-22 | 2016-07-20 | 中国科学院南京地理与湖泊研究所 | 一种大型浅水湖泊扰动强度空间格局的确定方法 |
CN105787263B (zh) * | 2016-02-22 | 2018-05-18 | 中国科学院南京地理与湖泊研究所 | 一种大型浅水湖泊扰动强度空间格局的确定方法 |
JP2018195204A (ja) * | 2017-05-19 | 2018-12-06 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
KR101919076B1 (ko) | 2017-12-20 | 2018-11-19 | (주)지오시스템리서치 | 시계열 데이터 예측 시스템 |
WO2019187741A1 (ja) * | 2018-03-30 | 2019-10-03 | 株式会社小松製作所 | 状態分析装置および状態分析方法 |
JP2019179379A (ja) * | 2018-03-30 | 2019-10-17 | 株式会社小松製作所 | 状態分析装置および状態分析方法 |
JP7043320B2 (ja) | 2018-03-30 | 2022-03-29 | 株式会社小松製作所 | 状態分析装置および状態分析方法 |
KR20210027214A (ko) * | 2019-08-30 | 2021-03-10 | 울산과학기술원 | 데이터 예측 방법 및 장치 |
KR102446854B1 (ko) * | 2019-08-30 | 2022-09-27 | 울산과학기술원 | 데이터 예측 방법 및 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009187293A (ja) | 時系列データ解析システム、方法およびプログラム | |
Lindemann et al. | A survey on anomaly detection for technical systems using LSTM networks | |
Yu et al. | Recursive principal component analysis-based data outlier detection and sensor data aggregation in IoT systems | |
Chen et al. | Outlier detection with the kernelized spatial depth function | |
Izakian et al. | Anomaly detection and characterization in spatial time series data: A cluster-centric approach | |
US8630962B2 (en) | Error detection method and its system for early detection of errors in a planar or facilities | |
Xu et al. | Probabilistic electrical load forecasting for buildings using Bayesian deep neural networks | |
Sharma et al. | Modeling and analytics for cyber-physical systems in the age of big data | |
Xiao et al. | L1 norm based KPCA for novelty detection | |
US20230316720A1 (en) | Anomaly detection apparatus, anomaly detection method, and program | |
CN112016834B (zh) | 异常驾驶行为检测方法、装置、设备及存储介质 | |
Jung et al. | Residual selection for fault detection and isolation using convex optimization | |
US20120296605A1 (en) | Method, computer program, and system for performing interpolation on sensor data for high system availability | |
Ramakrishnan et al. | Gaussian processes for active data mining of spatial aggregates | |
CN105307200A (zh) | 一种基于轨迹的无线传感器网络多维数据异常值检测方法 | |
US20200234158A1 (en) | Determining feature impact within machine learning models using prototypes across analytical spaces | |
Cui et al. | Learning global pairwise interactions with Bayesian neural networks | |
Chen et al. | Augmented dictionary learning for motion prediction | |
Lee et al. | Uncertainty-aware soft sensor using Bayesian recurrent neural networks | |
Liao et al. | A novel semi-supervised classification approach for evolving data streams | |
Zamry et al. | Unsupervised anomaly detection for unlabelled wireless sensor networks data | |
CN116615724A (zh) | 连续学习对象异常检测和状态分类模型的方法及其设备 | |
Adhikari et al. | Imputation using information fusion technique for sensor generated incomplete data with high missing gap | |
US20130268242A1 (en) | Sparse Representation for Dynamic Sensor Networks | |
Alshareef et al. | A case-based reasoning approach for pattern detection in Malaysia rainfall data |