JP4673123B2 - 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム - Google Patents

類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム Download PDF

Info

Publication number
JP4673123B2
JP4673123B2 JP2005123824A JP2005123824A JP4673123B2 JP 4673123 B2 JP4673123 B2 JP 4673123B2 JP 2005123824 A JP2005123824 A JP 2005123824A JP 2005123824 A JP2005123824 A JP 2005123824A JP 4673123 B2 JP4673123 B2 JP 4673123B2
Authority
JP
Japan
Prior art keywords
series data
time
distance
memory
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005123824A
Other languages
English (en)
Other versions
JP2006302027A (ja
Inventor
靖宏 藤原
一能 三井
雅司 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005123824A priority Critical patent/JP4673123B2/ja
Publication of JP2006302027A publication Critical patent/JP2006302027A/ja
Application granted granted Critical
Publication of JP4673123B2 publication Critical patent/JP4673123B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数の時系列データの中で類似したものを求める装置、方法、プログラムに関する。
類似した時系列データを高速に求める処理は様々な分野で利用される。例えば株のオンライントレーディングシステムは、大量の株価を監視して、値動きが類似した銘柄を高速に検索する。移動体位置管理システムは、走行している大量の車をセンシングして、似た移動軌跡しているものを高速に検知する。地震監視システムは、大数配置された地震計からの情報をもとに地震発生時の揺れ方が類似した地点を高速に見つける。
時系列データが類似しているかは、時系列データ間の距離があらかじめ決められた閾値ε以下になるかどうかで判断される。しかし、類似した時系列データを求める際に、総当りで距離を求めたのでは計算コストが高い。よって、高速に類似時系列データを求めるには計算コストの低い方法が必要である。
なお、ここで扱う時系列データは株価のような離散値と移動軌跡のような連続値がある。時系列データが離散値である場合、時系列データが類似しているかは離散値を用いて時系列データ間の距離が閾値内になるか調べればよい。また時系列データが連続値である場合は、時系列データは処理する際にサンプリングされ離散値になるので、結局は離散値の処理手法を用いる。
時系列データ間の距離関数としてはユークリッド距離を用いる。2つの時系列データをS(s1,s2,・・・,sn)とS′=(s′1,s′2,・・・,s′n)とし、n=n′であるときユークリッド距離D(S,S′)は次式で計算される。
Figure 0004673123
類似した時系列データを求める問題は、Whole MatchingとSubsequence Matchingの2つのタイプに分けられる。Whole Matchingは、等しい長さの時系列データから類似したものを求める問題である。またSubsequence Matchingは、問い合わせ時系列データSとそれより長い時系列データS′を比較し、時系列データS′の中で時系列データSと類似した部分を求める問題である。
Subseqquence MatchingはWhole Matchingへと置き換えることができる。これは、図6に示すように、時系列データS′に長さがnのl個の窓を逐次的に重ねて部分的な時系列データのコピーを作成すると、時系列データS′の部分的なコピーと時系列データSは等しい長さとなるからである。
類似した時系列データを求めるのに良く用いられるフレームワークとしてGEMINI(GEneric Multimedia INdexIng method)がある(非特許文献1)。GEMINIは、R*-tree(非特許文献2)やSR-tree(非特許文献3)等を用いて時系列データを多次元のインデクス構造に索引付け、類似時系列データを求める。時系列データを索引付けするのは、時系列データはn次元空間(nはある程度大きな数となることが多い)の1つのポイントとして捉えられるからである。
しかし、時系列データをn次元のまま索引付けしても計算コストを下げる効果は期待できない。多次元インデクス構造は次元数が10前後より多くなると性能が劣化するからである。そのため、GEMINIでは時系列データをN次元に次元圧縮して索引付けしている。
次元圧縮して類似時系列データを求める場合、誤差の発生に留意しなければならない。ここで誤差とは、false negativeとfalse positiveの2通りが考えられる。false negativeとは類似している時系列データを類似していないと判断することであり、false positiveとは類似していない時系列データを類似していると判断することである。2つの誤差のうちfalse negativeが発生しないことがより重要である。false negativeの発生は結果の正確性に影響するからである。
次元圧縮して類似時系列データを求めてもfalse negativeが発生しないことを保証する定理としてlower bounding lemmaが知られている。これは、次式(lower bounding condition)が成り立てばfalse negativeが発生しないという定理である。
Figure 0004673123
なお、lower bounding conditionが成り立つ次元圧縮手法として離散フーリエ変換(非特許文献1)、離散ウェブレット変換(非特許文献4)、特異値分解(非特許文献5)などが知られている。
GEMINIでは、search processとpost processの2つの処理を行って類似時系列データを求める。search processではlower bounding conditionが成り立つ次元圧縮手法によって構築した多次元インデクス構造を用いて類似時系列データを求める。search processの結果には多少のfalse positiveが含まれる。そのため、post processではsearch processの結果に対して次元圧縮前の時系列データ間の距離を計算して、false positiveを取り除く。
なお、ここで示した類似時系列データの計算方法は蓄積された時系列データが対象であったが、逐次流入してくる時系列データを対象にした計算方法としてStat Stream(非特許文献6)が挙げられる。Stat Streamで用いる多次元インデクス構造はgrid structureである。grid structureはR*-tree等と比較して高速に構築できる特徴がある。なおStat StreamではGEMINIにおけるpost processを行わないため結果に多少のfalse positiveが含まれる。
R.Agrawl, C.Faloutsos, and A.N.Swami. Efficient Similarity Search In Sequence Databases. In Proc. FODO, 1993 N.Beckmann, H.P.Kriegel, R.Schneider, B.Seeger. The R*-tree: An Efficient and Robust Access Method for Points and Rectangles. In Proc. SIGMOD, 1990 片山紀生,佐藤真、SR-tree:高次元点データに対する最近接検索のためのインデックス構造の提案、電子情報通信学会論文誌、1997 K.Chan, A.W.Fu. Efficient Time Series Matching by Wavelets. In Proc. ICDE, 1999 F.Korn, H.V.Jagadish, C.Faloutsos. Efficient Supporting Ad Hoc Queries in Large Datasets of Time Sequences. In Proc. SIGMOD, 1997 Y.zhu, D.Shasha. StatStream: Statistical Monitoring of Thousands of Data Streams in Real Time. In Proc, VLDB, 2002
post processは、search processの結果からfalse positiveを取り除くために行うが、問題点として計算コストが高いことが挙げられる。
post processの計算コストはm×n(「O(mn)」と称す。以下同じ)となる。ここで、mはsearch processにおいて類似候補とされた時系列データの組み合わせの数、nは時系列データが含むデータポイントの数である。計算コストがO(mn)となるのはsearch processにおいて類似候補とされた時系列データの組み合わせすべてに対して次元圧縮前の距離を計算するためである。
多くの長い時系列データの類似性を調べようとするとpost processにおける計算コストは高くなる。類似しているかを計算する時系列データの数が多くなるとmは結果的に大きな値となり、また類似しているかを計算する時系列データが長くなるとnは大きな値になるからである。
本発明は、上記に鑑みてなされたものであり、その課題とするところは、類似している時系列データを算出する際の計算コストを低く抑えることにある。
第1の本発明に係る類似時系列データ計算装置は、同じ要素数nを持つn次元の2つの時系列データ間の距離によって類似性を判定する類似時系列データ計算装置であって、時系列データを受信して第1メモリに記憶させる受信手段と、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以下となるように、時系列データの次元数を削減する第1の次元圧縮手法を用い、第1メモリから読み出された時系列データの次元圧縮後の時系列データ組の距離が閾値を超える時系列データ組を取り除き、類似判定の対象となる時系列データ組を第2メモリに記憶させる絞込手段と、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以上となるように、時系列データの次元数を削減する第2の次元圧縮手法を用い、第2メモリから読み出された時系列データを次元圧縮して第3メモリに記憶させる次元圧縮手段と、第3メモリから読み出された次元圧縮後の時系列データ間の距離を計算して第4メモリに記憶させる次元圧縮後距離計算手段と、第4メモリから読み出された距離が前記閾値以下の場合に類似と判定する第1判定手段と、を有し、前記第3メモリに記憶される次元圧縮された時系列データは、第2メモリから読み出された時系列データを一定フレームで分割したときのフレーム毎の平均、およびフレーム毎の標準偏差をフレーム順に並べた時系列データであることを特徴とする。
本発明にあっては、多次元インデクス構造を用いて絞り込まれた時系列データを次元圧縮し、次元圧縮後の時系列データ間の距離が所定の閾値以下の場合に類似と判定することで、次元圧縮後の時系列データを用いて類似判断するので、計算コストを低く抑えることができる。また、フレーム毎に時系列データの平均と標準偏差を計算することで、精度の高い次元圧縮を実現している。
本類似時系列データ計算装置において、前記次元圧縮後距離計算手段は、次元圧縮後の時系列データ組で対応する各フレームについて、2つの平均値の差の2乗と、2つの標準偏差の和の2乗の加算値に対し、全フレームにわたる前記加算値の総和の平方根に基づいて距離を計算することを特徴とする。
本発明にあっては、次元圧縮前の時系列データ間の距離が次元圧縮後の距離以下となるように次元圧縮することで、upper bounding conditionを満たす次元圧縮を行うことになるので、全て正しい類似判断の結果を得ることができる。
本類似時系列データ計算装置は、さらに第4メモリから読み出された距離が前記閾値よりも大きい場合に、第2メモリから読み出された次元圧縮前の時系列データ間の距離を計算して第5メモリに記憶させる次元圧縮前距離計算手段と、第5メモリから読み出された距離が前記閾値以下の場合に類似と判定する第2判定手段と、を有することを特徴とする。
本発明にあっては、次元圧縮後の時系列データを用いた類似判断が難しい場合に、次元圧縮前の時系列データを用いて類似判断を行うことで、全て正しくかつ見過ごしのない類似判断の結果を得ることができる。
第2の本発明に係る類似時系列データ計算方法は、同じ要素数nを持つn次元の2つの時系列データ間の距離によって類似性を判定する類似時系列データ計算方法であって、受信手段により、時系列データを受信して第1メモリに記憶させるステップと、絞込手段により、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以下となるように、時系列データの次元数を削減する第1の次元圧縮手法を用い、第1メモリから読み出された時系列データの次元圧縮後の時系列データ組の距離が閾値を超える時系列データ組を取り除き、類似判定の対象となる時系列データ組を第2メモリに記憶させるステップと、次元圧縮手段により、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以上となるように、時系列データの次元数を削減する第2の次元圧縮手法を用い、第2メモリから読み出された時系列データを次元圧縮して第3メモリに記憶させるステップと、次元圧縮後距離計算手段により、第3メモリから読み出された次元圧縮後の時系列データ間の距離を計算して第4メモリに記憶させるステップと、第1判定手段により、第4メモリから読み出された距離が前記閾値以下の場合に類似と判定するステップと、を有し、前記第3メモリに記憶される次元圧縮された時系列データは、第2メモリから読み出された時系列データを一定フレームで分割したときのフレーム毎の平均、およびフレーム毎の標準偏差をフレーム順に並べた時系列データであることを特徴とする。
第3の本発明に係る類似時系列データ計算プログラムは、同じ要素数nを持つn次元の2つの時系列データ間の距離によって類似性を判定する類似時系列データ計算プログラムであって、計算機に対して、時系列データを受信して第1メモリに記憶させるステップと、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以下となるように、時系列データの次元数を削減する第1の次元圧縮手法を用い、第1メモリから読み出された時系列データの次元圧縮後の時系列データ組の距離が閾値を超える時系列データ組を取り除き、類似判定の対象となる時系列データ組を第2メモリに記憶させるステップと、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以上となるように、時系列データの次元数を削減する第2の次元圧縮手法を用い、第2メモリから読み出された時系列データを次元圧縮して第3メモリに記憶させるステップと、第3メモリから読み出された次元圧縮後の時系列データ間の距離を計算して第4メモリに記憶させるステップと、第4メモリから読み出された距離が前記閾値以下の場合に類似と判定するステップと、を実行させ、前記第3メモリに記憶される次元圧縮された時系列データは、第2メモリから読み出された時系列データを一定フレームで分割したときのフレーム毎の平均、およびフレーム毎の標準偏差をフレーム順に並べた時系列データであることを特徴とする。
本発明によれば、類似している時系列データを算出する際の計算コストを低く抑えることができる。
以下、本発明の実施形態について図面を用いて説明する。
図1に示すように、本実施形態における類似時系列データ計算装置1は、データ受信部2、絞込部3、類似判断部4、計算結果送信部5を有する。
データ受信部2は、外部のセンサなどから時系列データを受信して、内蔵の第1メモリに記憶させる。絞込部3は、第1メモリから時系列データを読み出し、多次元インデクス構造などを用いて類似する時系列データの絞込みを行い、内蔵の第2メモリに記憶させる。この絞込部3の処理は、従来技術のsearch processに相当するものとしてもよい。類似判断部4は、絞込部3で絞り込まれた時系列データを精査し、類似する時系列データを正確に判断する。計算結果送信部5は、類似する時系列データの組み合わせを外部へ送信する。これらの各部の処理は、類似時系列データ計算装置にインストールされたプログラムによって実行される。
図2に示すように、類似判断部4は、データ受信部11、次元圧縮部12、第1距離計算部13、第2距離計算部14、計算結果送信部15を有する。これら各部の処理は、プログラムによって実行される。
データ受信部11は、絞込部3により第2メモリから読み出された時系列データの組み合わせを受信するとともに、データ受信部2により第1メモリから読み出された次元圧縮前の時系列データを受信する。
次元圧縮部12は、絞込部3から受信した時系列データを次元圧縮して内蔵の第3メモリに記憶させる。
第1距離計算部13では、後述するように次元圧縮後距離計算部により、次元圧縮後の時系列データを第3メモリから読み出し、この時系列データ間の距離を計算して第4メモリに記憶させる。詳細な処理については後述する。
第2距離計算部14では、後述するように次元圧縮前距離計算部により、第2メモリから読み出された次元圧縮前の時系列データ間の距離を計算して内蔵の第5メモリに格納する。詳細な処理については後述する。
計算結果送信部15は、第1距離計算部13、第2距離計算14により類似と判定された時系列データの組み合わせを出力する。
図3に示すように、次元圧縮部12は、データ受信部21、平均計算部23、標準偏差計算部24、保存部25、データ送信部27を有する。各部の処理は、プログラムによって実行される。
データ受信部21は、第2メモリから読み出された次元圧縮前の時系列データをデータ受信部11から受け取る。
平均計算部23は、時系列データを一定のフレームで分割したときの時系列データの平均をフレーム毎に計算して内蔵の第6メモリに記憶させる。
標準偏差計算部24は、時系列データを一定のフレームで分割したときの時系列データの標準偏差をフレーム毎に計算して内蔵の第7メモリに記憶させる。このように、本実施形態の次元圧縮とは、フレーム毎に平均および標準偏差を計算することをいう。
保存部25は、平均計算部23により計算された平均値、標準偏差計算部24により計算された標準偏差値を保存する。
データ送信部27は、保存部25から次元圧縮後の時系列データを読み出して出力する。
図4に示すように、第1距離計算部13は、データ受信部31、次元圧縮後距離計算部32、第1判定部33、データ送信部34を有する。各部の処理は、プログラムで実行される。
データ受信部31は、第3メモリから読み出された次元圧縮後の時系列データを受け取る。
次元圧縮後距離計算部32は、次元圧縮後の時系列データ間の距離を計算して内蔵の第4メモリに記憶させる。
第1判定部33は、第4メモリから距離を読み出すとともに別のメモリから所定の閾値を読み出し、この距離が閾値以下の場合に類似と判定する。
データ送信部34は、類似と判定された時系列データの組み合わせを計算結果送信部15に出力するとともに、距離が閾値よりも大きい時系列データの組み合わせを第2距離計算部14に出力する。
図5に示すように、第2距離計算部14は、データ受信部41、次元圧縮前距離計算部42、第2判定部43、データ送信部44を有する。各部の処理は、プログラムによって実行される。
データ受信部41は、第1距離計算部13から距離を計算すべき時系列データの組み合わせを受信するとともに、第2メモリから読み出された次元圧縮前の時系列データをデータ受信部11から受信する。
次元圧縮前距離計算部42は、受信した組み合わせについての次元圧縮前の時系列データ間の距離を計算して第5メモリに記憶させる。この距離は、例えばユークリッド距離とする。
第2判定部43は、第5メモリから距離を読み出すとともに、別のメモリから所定の閾値を読み出し、この距離が閾値以下の場合に類似と判定する。
データ送信部44は、類似と判断された時系列データの組み合わせを出力する。
次に、次元圧縮部12での処理について詳細に説明する。まず、次元圧縮部12で用いる次元圧縮手法が満たされなければならない条件upper bounding conditionについて説明する。
絞込部3が、類似していない時系列データを求め、これを除外することで絞り込みを行うのに対して、次元圧縮部12は類似している時系列データを求める。次元圧縮後距離計算部32が次元圧縮後の距離を用いて類似する時系列データを求めてもfalse positiveが発生しないことを保証する補助定理として新たにupper bounding lemmaを導入する。
upper bounding lemmaは、次式(upper bounding condition)が成立すればfalse positiveが発生しないという定理である。
Figure 0004673123
upper bounding lemmaは以下のように証明できる。upper bounding lemmaにおいてfalse positiveが発生しないことを保証するためには、Dreal(S,S′)>εであれば次式が成り立つ必要がある。
Figure 0004673123
ここでupper bounding conditionより次式が成り立つ。
Figure 0004673123
このようにupper bounding lemmaは証明できる。よって、false positiveの発生を防ぐためには、次元圧縮部12で用いる次元圧縮手法がupper bounding conditionを満たしていなければならない。このことから、次元圧縮部12は、次元圧縮前の時系列データ間の距離が次元圧縮後の時系列データ間の距離以下となるように次元圧縮する。
次に、次元圧縮部12で用いる次元圧縮手法PRA(Piecewise Range Approximation)について説明する。
図7に示すように、PRAではnデータポイントを有する時系列データをN個の等しいサイズのフレーム(n/Nデータポイント)に分割し、各フレームの平均と標準偏差を次元圧縮の係数とする。
次元圧縮後の時系列データは、次式のように係数のタプルとなる。
Figure 0004673123
ここで、j番目の係数のavsjは、j番目のフレームの平均であり、平均計算部23により次のように計算される。
Figure 0004673123
また、j番目の係数のsdsjは、j番目のフレームの標準偏差であり、標準偏差計算部24により次のように計算される。
Figure 0004673123
次に、次元圧縮後距離計算部32で行う次元圧縮後の時系列データ間距離の計算について説明する。次元圧縮した後の時系列データ間の距離を次のように定める。
Figure 0004673123
ここで定めた距離がupper bounding conditionを満たすことを説明する。
ユークリッド距離は次のように書き換えることができる。
Figure 0004673123
ここで、Δs=av−sとすると、次式が成り立つ。
Figure 0004673123
ここで次式が成り立つ。
Figure 0004673123
よって、次式が成り立つ。
Figure 0004673123
ここで、Δsをベクトルとみなしたとき、‖Δs‖をベクトルΔsの大きさとする。すると、内積の定義式と、標準偏差の定義式より次式となる。
Figure 0004673123
なお、θはベクトルΔsとベクトルΔs’のなす角である。ここで、次式が成り立つ。
Figure 0004673123
このことから次式が成り立つ。
Figure 0004673123
よって、PRAがupper bounding conditionを満たすことがわかる。
したがって、本実施の形態によれば、多次元インデクス構造を用いて絞り込まれた時系列データを次元圧縮し、次元圧縮後の時系列データ間の距離が所定の閾値以下の場合に類似と判定することで、次元圧縮後の時系列データを用いて類似判断するので、計算コストを低く抑えることができる。また、次元圧縮の手法として、フレーム毎に時系列データの平均と標準偏差を計算することで、精度の高い次元圧縮を実現することができる。
本実施の形態によれば、次元圧縮前の時系列データ間の距離が次元圧縮後の距離以下となるように次元圧縮することで、upper bounding conditionを満たす次元圧縮を行うことになるので、全て正しい類似判断の結果を得ることができる。
本実施の形態によれば、次元圧縮後の時系列データを用いた類似判断が難しい場合に、次元圧縮前の時系列データを用いて類似判断を行うことで、全て正しくかつ見過ごしのない類似判断の結果を得ることができる。
一実施の形態における類似時系列データ計算装置の構成を示すブロック図である。 上記類似時系列データ計算装置における類似判断部の構成を示すブロック図である。 上記類似判断部における次元圧縮部の構成を示すブロック図である。 上記類似判断部における第1距離計算部の構成を示すブロック図である。 上記類似判断部における第2距離計算部の構成を示すブロック図である。 Subsequence MatchingをWhole Matchingに置き換えることができることを説明するための図である。 次元圧縮を説明するための図である。
符号の説明
1…類似時系列データ計算装置
2…データ受信部,3…絞込部
4…類似判断部,5…計算結果送信部
11…データ受信部,12…次元圧縮部
13…第1距離計算部
14…第2距離計算部
15…計算結果送信部
21…データ受信部
23…平均計算部
24…標準偏差計算部
25…保存部
27…データ送信部
31…データ受信部
32…次元圧縮後距離計算部
33…第1判定部
34…データ送信部,41…データ受信部
42…次元圧縮前距離計算部
43…第2判定部,44…データ送信部

Claims (9)

  1. 同じ要素数nを持つn次元の2つの時系列データ間の距離によって類似性を判定する類似時系列データ計算装置であって、
    時系列データを受信して第1メモリに記憶させる受信手段と、
    次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以下となるように、時系列データの次元数を削減する第1の次元圧縮手法を用い、第1メモリから読み出された時系列データの次元圧縮後の時系列データ組の距離が閾値を超える時系列データ組を取り除き、類似判定の対象となる時系列データ組を第2メモリに記憶させる絞込手段と、
    次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以上となるように、時系列データの次元数を削減する第2の次元圧縮手法を用い、第2メモリから読み出された時系列データを次元圧縮して第3メモリに記憶させる次元圧縮手段と、
    第3メモリから読み出された次元圧縮後の時系列データ間の距離を計算して第4メモリに記憶させる次元圧縮後距離計算手段と、
    第4メモリから読み出された距離が前記閾値以下の場合に類似と判定する第1判定手段と、を有し、
    前記第3メモリに記憶される次元圧縮された時系列データは、第2メモリから読み出された時系列データを一定フレームで分割したときのフレーム毎の平均、およびフレーム毎の標準偏差をフレーム順に並べた時系列データであることを特徴とする類似時系列データ計算装置。
  2. 前記次元圧縮後距離計算手段は、次元圧縮後の時系列データ組で対応する各フレームについて、2つの平均値の差の2乗と、2つの標準偏差の和の2乗の加算値に対し、全フレームにわたる前記加算値の総和の平方根に基づいて距離を計算することを特徴とする請求項1記載の類似時系列データ計算装置。
  3. 第4メモリから読み出された距離が前記閾値よりも大きい場合に、第2メモリから読み出された次元圧縮前の時系列データ間の距離を計算して第5メモリに記憶させる次元圧縮前距離計算手段と、
    第5メモリから読み出された距離が前記閾値以下の場合に類似と判定する第2判定手段と、
    を有することを特徴とする請求項1又は2記載の類似時系列データ計算装置。
  4. 同じ要素数nを持つn次元の2つの時系列データ間の距離によって類似性を判定する類似時系列データ計算方法であって、
    受信手段により、時系列データを受信して第1メモリに記憶させるステップと、
    絞込手段により、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以下となるように、時系列データの次元数を削減する第1の次元圧縮手法を用い、第1メモリから読み出された時系列データの次元圧縮後の時系列データ組の距離が閾値を超える時系列データ組を取り除き、類似判定の対象となる時系列データ組を第2メモリに記憶させるステップと、
    次元圧縮手段により、次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以上となるように、時系列データの次元数を削減する第2の次元圧縮手法を用い、第2メモリから読み出された時系列データを次元圧縮して第3メモリに記憶させるステップと、
    次元圧縮後距離計算手段により、第3メモリから読み出された次元圧縮後の時系列データ間の距離を計算して第4メモリに記憶させるステップと、
    第1判定手段により、第4メモリから読み出された距離が前記閾値以下の場合に類似と判定するステップと、を有し、
    前記第3メモリに記憶される次元圧縮された時系列データは、第2メモリから読み出された時系列データを一定フレームで分割したときのフレーム毎の平均、およびフレーム毎の標準偏差をフレーム順に並べた時系列データであることを特徴とする類似時系列データ計算方法。
  5. 前記次元圧縮後距離計算手段は、次元圧縮後の時系列データ組で対応する各フレームについて、2つの平均値の差の2乗と、2つの標準偏差の和の2乗の加算値に対し、全フレームにわたる前記加算値の総和の平方根に基づいて距離を計算することを特徴とする請求項4記載の類似時系列データ計算方法。
  6. 前記類似と判定するステップの後に、
    次元圧縮前距離計算手段により、第4メモリから読み出された距離が前記閾値よりも大きい場合に、第2メモリから読み出された次元圧縮前の時系列データ間の距離を計算して第5メモリに記憶させるステップと、
    第2判定手段により第5メモリから読み出された距離が前記閾値以下の場合に類似と判定するステップと、
    を有することを特徴とする請求項4又は5記載の類似時系列データ計算方法。
  7. 同じ要素数nを持つn次元の2つの時系列データ間の距離によって類似性を判定する類似時系列データ計算プログラムであって、
    計算機に対して、
    時系列データを受信して第1メモリに記憶させるステップと、
    次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以下となるように、時系列データの次元数を削減する第1の次元圧縮手法を用い、第1メモリから読み出された時系列データの次元圧縮後の時系列データ組の距離が閾値を超える時系列データ組を取り除き、類似判定の対象となる時系列データ組を第2メモリに記憶させるステップと、
    次元圧縮後の時系列データ組の距離が次元圧縮前の時系列データ組の距離以上となるように、時系列データの次元数を削減する第2の次元圧縮手法を用い、第2メモリから読み出された時系列データを次元圧縮して第3メモリに記憶させるステップと、
    第3メモリから読み出された次元圧縮後の時系列データ間の距離を計算して第4メモリに記憶させるステップと、
    第4メモリから読み出された距離が前記閾値以下の場合に類似と判定するステップと、を実行させ、
    前記第3メモリに記憶される次元圧縮された時系列データは、第2メモリから読み出された時系列データを一定フレームで分割したときのフレーム毎の平均、およびフレーム毎の標準偏差をフレーム順に並べた時系列データであることを特徴とする類似時系列データ計算プログラム。
  8. 前記次元圧縮後距離計算手段は、次元圧縮後の時系列データ組で対応する各フレームについて、2つの平均値の差の2乗と、2つの標準偏差の和の2乗の加算値に対し、全フレームにわたる前記加算値の総和の平方根に基づいて距離を計算することを特徴とする請求項7記載の類似時系列データ計算プログラム。
  9. 前記類似と判定するステップの後に、
    第4メモリから読み出された距離が前記閾値よりも大きい場合に、第2メモリから読み出された次元圧縮前の時系列データ間の距離を計算して第5メモリに記憶させるステップと、
    第5メモリから読み出された距離が前記閾値以下の場合に類似と判定するステップと、
    を実行させることを特徴とする請求項7又は8記載の類似時系列データ計算プログラム。
JP2005123824A 2005-04-21 2005-04-21 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム Expired - Fee Related JP4673123B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005123824A JP4673123B2 (ja) 2005-04-21 2005-04-21 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005123824A JP4673123B2 (ja) 2005-04-21 2005-04-21 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム

Publications (2)

Publication Number Publication Date
JP2006302027A JP2006302027A (ja) 2006-11-02
JP4673123B2 true JP4673123B2 (ja) 2011-04-20

Family

ID=37470229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005123824A Expired - Fee Related JP4673123B2 (ja) 2005-04-21 2005-04-21 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム

Country Status (1)

Country Link
JP (1) JP4673123B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102080313B1 (ko) * 2019-03-06 2020-02-21 한화시스템 주식회사 프랙탈 차원을 이용한 표적 인식용 밀리미터파 탐색기 및 이를 이용한 표적 인식방법
WO2022113274A1 (ja) * 2020-11-27 2022-06-02 日本電信電話株式会社 時系列データ分析装置、時系列データ分析方法、及び時系列データ分析プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118290A (ja) * 2002-09-24 2004-04-15 Nippon Telegr & Teleph Corp <Ntt> 移動軌跡データ検索用インデックス生成装置及びその方法と、移動軌跡データ検索装置及びその方法と、移動軌跡データ検索用インデックス生成プログラム及びそのプログラムを記録した記録媒体と、移動軌跡データ検索プログラム及びそのプログラムを記録した記録媒体
JP2004252795A (ja) * 2003-02-21 2004-09-09 Hitachi Ltd 数値系列データの類似検索のための索引構造、およびそれを用いた類似検索法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004118290A (ja) * 2002-09-24 2004-04-15 Nippon Telegr & Teleph Corp <Ntt> 移動軌跡データ検索用インデックス生成装置及びその方法と、移動軌跡データ検索装置及びその方法と、移動軌跡データ検索用インデックス生成プログラム及びそのプログラムを記録した記録媒体と、移動軌跡データ検索プログラム及びそのプログラムを記録した記録媒体
JP2004252795A (ja) * 2003-02-21 2004-09-09 Hitachi Ltd 数値系列データの類似検索のための索引構造、およびそれを用いた類似検索法

Also Published As

Publication number Publication date
JP2006302027A (ja) 2006-11-02

Similar Documents

Publication Publication Date Title
US8719267B2 (en) Spectral neighborhood blocking for entity resolution
US20150356199A1 (en) Click-through-based cross-view learning for internet searches
US8510311B2 (en) Pattern search apparatus and method thereof
Zhang et al. A new time series representation model and corresponding similarity measure for fast and accurate similarity detection
EP2442273A1 (en) Object identification image database creating method, creating apparatus and creating process program
CN110674865B (zh) 面向软件缺陷类分布不平衡的规则学习分类器集成方法
US20070147519A1 (en) Time series data dimesional compression apparatus
US20190130525A1 (en) Methods and systems for real time 3d-space search and point-cloud registration using a dimension-shuffle transform
CN106649423A (zh) 一种基于内容相关度的检索模型计算方法
Zhang et al. Dynamic time warping under product quantization, with applications to time-series data similarity search
Bhute et al. Content based image indexing and retrieval
JP4275084B2 (ja) 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム
US10528578B2 (en) Method and device for data mining on compressed data vectors
CN110837555A (zh) 海量文本去重筛选的方法、设备和存储介质
JP4673123B2 (ja) 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム
Tatti Distances between Data Sets Based on Summary Statistics.
Sathe et al. AFFINITY: Efficiently querying statistical measures on time-series data
JP4451332B2 (ja) 類似時系列データ計算装置、および類似時系列データ計算プログラム
CN116401528A (zh) 一种基于全局-局部散度的多元时间序列无监督降维方法
Pham Hybrid LSH: faster near neighbors reporting in high-dimensional space
JP2007072752A (ja) 類似時系列データ計算方法、類似時系列データ計算装置、および類似時系列データ計算プログラム
Nam et al. Fast stochastic neighbor embedding: a trust-region algorithm
CN110210443B (zh) 一种优化投影对称性近似稀疏分类的手势识别方法
Balko et al. The Active Vertice method: a performant filtering approach to high-dimensional indexing
Zhou et al. NODI: Out-Of-Distribution Detection with Noise from Diffusion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110120

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140128

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees