JP5632862B2 - データ検索装置、データ検索方法、及びデータ検索プログラム - Google Patents

データ検索装置、データ検索方法、及びデータ検索プログラム Download PDF

Info

Publication number
JP5632862B2
JP5632862B2 JP2012028791A JP2012028791A JP5632862B2 JP 5632862 B2 JP5632862 B2 JP 5632862B2 JP 2012028791 A JP2012028791 A JP 2012028791A JP 2012028791 A JP2012028791 A JP 2012028791A JP 5632862 B2 JP5632862 B2 JP 5632862B2
Authority
JP
Japan
Prior art keywords
series data
time
similar
search
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012028791A
Other languages
English (en)
Other versions
JP2013164811A (ja
Inventor
央 倉沢
央 倉沢
浩史 佐藤
浩史 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012028791A priority Critical patent/JP5632862B2/ja
Publication of JP2013164811A publication Critical patent/JP2013164811A/ja
Application granted granted Critical
Publication of JP5632862B2 publication Critical patent/JP5632862B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するデータ検索装置、データ検索方法、及びデータ検索プログラムに関する。
時系列データは、時間的に連続して観測されたデータ系列である。時系列データは環境観測や設備監視、株価、統計情報、メディア処理などで利用されている。
時系列データの検索には、事前に蓄積されたデータに対して検索するものと、逐次流入してくるデータに対して検索するものとがある。前者の例としては、過去に定時観測した降水量のデータで類似したパターンを探す処理などがある。後者の例としては、リアルタイムに株価の変動を観測して目的のパターンと一致した瞬間に通知する処理などがある。本発明は後者のリアルタイムな処理を扱う。
リアルタイムな時系列データ検索の先行技術としては、以下のものが挙げられる。複数系列の同一時刻の時系列データのうち、類似した時系列データのペアを求める検索処理があった(例えば、特許文献1や非特許文献1参照)。特許文献1では閾値よりも類似度の高いペアを、非特許文献1では相関係数が閾値以上のものを探す課題を扱っている。これらの先行技術では、系列数が多いほど類似判定の計算コストが大きくなるため、類似度計算の削減のための次元圧縮や類似度計算回数削減のための索引技術を技術課題としていた。しかしながら、これらの先行技術は時系列データの終点が現在時刻のもののみを扱うという制限をもつ。つまり、時間的なずれのある類似した部分時系列データを対象とした検索には適用できない。
特開2006−244389号公報
Abdullah Mueen, Suman Nath and Jie Liu,"Fast Approximate Correlation for Massive Time−series Data", In Proceedings of the 2010 ACM SIGMOD international conference on Management of data, 2010. Yianilos, Peter N,"Data structures and algorithms for nearest neighbor search in general metric spaces", In Proceedings of the fourth annual ACM−SIAM Symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, pp.311−321, 1993.
上述のように、従来技術は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを求める検索処理を扱うことができない、つまり、時間的なずれのある類似した部分時系列データを複数系列の時系列データの中から検索することができない。このような検索例としては、1ヶ月間の複数銘柄の株価の時系列データから類似した部分時系列データを検索して、時間的なずれのある特徴的な株価の変動を見つけ出す処理がある。また、複数のセンサ値の時系列データから類似した部分時系列データを検索して、日射から地熱、気温といった時間的なずれの生じる現象を見つけ出す処理も検索例として挙げられる。上述のとおり、複数系列の時系列データを対象とした先行技術や、時間的なずれのある類似した部分時系列データを対象とした先行技術はあるが、この2つを同時に満たす時系列データ検索処理技術は発明されていない。
上記2つを同時に満たす時系列データ検索処理では、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データのペアを求める検索処理を扱うことになる。この検索処理は、距離計算コストを抑えることが求められており、類似度計算回数削減が解決すべき技術課題となっている。
つまり、時系列データの系列数が大きい、検索対象とする時系列データの時間が長い、もしくは時系列データの長さに対して部分時系列データが短いほど、類似度計算回数は大きくなる。類似度計算回数を削減するため、類似度の高い時系列データのペアに絞り込む検索索引が必要である。従来技術の検索索引は時系列データの終点が現在時刻のものを検索対象としていたが、上記2つを同時に満たす時系列データ検索処理では受信時刻の異なる部分時系列データも検索対象となり、類似判定の計算コストが大きくなるという課題がある。
本発明は、上記課題を解消するためになされたものであり、その目的は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置、データ検索方法、及びデータ検索プログラムを提供することにある。
本発明は、新しい受信時刻の部分時系列データの挿入と古い受信時刻の部分時系列データの削除が容易なデータ構造で、かつ、部分時系列データを受信時刻ごとに区別して枝刈るアルゴリズム採用することとした。ここで、「枝刈り」とは、検索対象とならないデータを予め除去しておくという意味である。
本発明に係る一のデータ検索装置は、逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記類似判定部が求めた前記類似度に基づき、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備える。
本発明に係る一のデータ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す。
本発明は、類似検索索引を受信時刻別につくることで、指定された時間範囲外の受信時刻の部分時系列データの索引からの削除と新しい部分時系列データの索引への追加の高速化、および、部分時系列データを受信時刻ごとに区別した枝刈りができるようになる。このため、本発明は、時系列データの系列数が大きいときに、部分時系列データの更新の高速化と類似度計算回数の削減を実現することができる。
従って、本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。
本発明に係る他のデータ検索装置は、逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似判定部が求めた前記類似度に基づく、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備える。
本発明に係る他のデータ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す。
本発明は、類似検索索引を各時系列データを受信時刻で区別可能な構造にしたうえで1つに集約することで、指定された時間範囲内の受信時刻つくられた複数の類似検索索引を検索のたびに探索する手間を削減できるようになる。このため、本発明は、検索対象とする時系列データの時間が長い、もしくは時系列データの長さに対して部分時系列データが短いときに、類似度計算回数の削減を実現することができる。
従って、本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。
本発明に係るデータ検索プログラムは、前記データ検索方法をコンピュータに実行させる。
本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。
類似部分時系列ペアを説明するイメージの図である。 本発明に係るデータ検索装置を説明する図である。 本発明に係るデータ検索方法を説明する図である。 本発明に係るデータ検索装置が時系列データを部分時系列データに分割するときのイメージの図である。 本発明に係るデータ検索方法における類似検索索引のキューを説明する図である。 本発明に係るデータ検索方法における類似検索索引構造を説明する図である。 本発明に係るデータ検索方法における類似検索索引を使った枝刈りのイメージの図である。 本発明に係るデータ検索装置を説明する図である。 本発明に係るデータ検索方法を説明する図である。 本発明に係るデータ検索方法における類似検索索引のキューを説明する図である。
添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。
図1は、類似部分時系列ペアのイメージの図である。実施形態1および実施形態2の装置では閾値よりも類似した部分時系列データペアを検索する。
(実施形態1)
図2は、本実施形態のデータ検索装置301を説明する図である。データ検索装置301は、逐次流入してくる複数系列の時系列データを受信する受信部11と、
受信部11が受信した前記時系列データを記憶する第1メモリ12と、
第1メモリ12から時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部13と、
区間分割部13が分割した前記部分時系列データについて互いの類似度を求める類似判定部14と、
類似判定部14が求めた前記類似度に基づき、区間分割部13で生成された部分時系列データの類似検索索引を作成する索引部15と、
索引部15で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリ16と、
区間分割部13で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて第2メモリ16から読み出す類似ペア検索部17と、
を備える。
図3は、データ検索装置301が行うデータ検索方法を説明する図である。本データ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し(ステップS101、S102)、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき(ステップS103)、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す(ステップS104)。
ステップS101において、受信部11は、逐次流入してくる複数系列の時系列データを受信して第1メモリ12に記憶させる。第1メモリ12の容量に制限がある場合は、指定された時間範囲外の受信時刻の時系列データを第1メモリ12から削除する。第1メモリ12の最低限必要な記憶容量は、検索対象とする部分時系列データ長をm、検索対象とする時間長をw、系列数をnとすると、n(m+w−1)の要素数を蓄積できる容量となる。
ステップS102において、区間分割部13は、第1メモリ12から時系列データを読みだして、指定された区間時間の部分時系列データに分割する。本実施形態における部分時系列データとは、逐次流入してくる時間的に連続したデータ系列のうち、指定された区間時間の連続したデータ系列をいう。区間分割部13は新しい時系列データを受信するたびに、各時系列データの直近の長さmの部分時系列データを分割して、索引部15と類似ペア検索部17に部分時系列データを入力する。また、類似ペア検索部17から指定された時間の長さmの部分時系列データを分割して返す。図4は、区間分割部13が時系列データを部分時系列データに分割するときのイメージの図である。図中の
Figure 0005632862
は受信時刻tにおける系列のIDがiの部分時系列データを表している。
ステップS103において、類似判定部14は部分時系列データ間の類似度を計算する。本実施形態における類似度とは、2つの部分時系列データがどの程度類似しているかを数値で表す指標である。特に、本実施形態においては、2つの部分時系列データ
Figure 0005632862
の類似度Distにユークリッド距離を採用し、以下の通り定義する。
Figure 0005632862
なお、本発明のいう類似度は、上記特徴を満たす様々な距離がその対象となるものであって、ユークリッド距離に限られない。具体的に一例を挙げると、Dynamic time warpingやEarth Mover’s Distance、編集距離、ハミング距離、Jaccard係数距離、コサイン類似度、マンハッタン距離、マハラノビス距離などを含む時系列データ間の類似度を表す距離であってよい。さらに、これらの距離に加えて、部分時系列のオフセットや振幅を調整したものに対する距離であってもよい。
ステップS103において、索引部15は第2メモリ16に指定された時間範囲内の受信時刻に生成された複数の類似検索索引をキュー構造で管理する。本実施形態における類似検索索引とは、クエリとして与えた部分時系列データと蓄積した部分時系列データ間の類似度すべてを判別することなく、クエリとの類似度が閾値以内の蓄積した部分時系列データを探すためのデータ構造である。索引部15は、区間分割部13で分割した最新の受信時刻の部分時系列データを基準とした類似検索索引を1つ新たにつくり、第2メモリ16の索引を蓄積するキューに追加する。同時に、指定された時間範囲外の受信時刻の類似検索索引を第2メモリ16の索引を蓄積するキューから削除する。図5は、類似検索索引のキューを説明する図である。
[類似検索索引の作成方法]
本実施形態における類似検索索引は、距離空間の類似検索索引Vantage Point Tree(VPT)(非特許文献2参照)を採用し、以下の手順で作成する。この索引は、基準となる部分時系列データ(基準部分時系列データ)1つと分割距離1つを定めて、基準部分時系列データからの距離と分割距離に基づいて索引対象の複数の部分時系列データを2つに分類することを繰り返して作成する。ここで、受信時刻tの部分時系列データ集合Sを2分類する例を説明する。基準となる系列pの部分時系列データS をSから一つ選び、Sを均等2分割できる距離をr としたとき、Sは、
Figure 0005632862
の2つの部分時系列データ集合SinとSoutに分類される。SinとSoutも同様にそれぞれで基準となる部分時系列データと分割距離を決めてさらに空間を2分類することを繰り返すことで、木構造の類似検索索引をつくる。この類似検索索引は、葉ノードと内部ノードという2種類のノードで構成される。葉ノードは木構造の末端のノードであり、内部ノードは末端以外に位置するノードをいう。分類のたびに必要となるS とr は、内部ノードを生成して管理する。十分に小さい数の部分時系列データ集合まで繰り返し分類して必要な数の内部ノードを生成した後は、葉ノードを生成してSを管理する。つまり、内部ノードは分類に必要な情報(S 、r )を管理し、葉ノードでは部分時系列データ集合を管理する。図6は、本実施形態の類似検索索引構造を説明する図である。
なお、本発明のいう類似検索索引は上記特徴を満たす様々なデータ構造がその対象となるものであって、VPTに限られない。具体的な一例を挙げると、他の距離空間の類似検索索引M−treeやPM−tree、MVP−tree、sa−tree、iDistance、List of Clusters、AESA、LAESA、GNAT、D−indexなどを含む。さらに、これらの距離空間の類似検索索引に加えて、多次元空間を対象とする類似検索索引のR−treeやPriority R−tree、文字列データの類似検索索引、集合データの類似検索索引であってもよい。さらに、本発明の範囲はこれに限るものでなく、これらの索引に次元圧縮技術を組み合わせることも可能である。具体的な一例を挙げると、DFT、SVD、PAA、SAXなどを含む。部分時系列データが長くなり、次元数の増加によるデータ量の増大(『次元の呪い』)で枝刈りが不十分である場合は、これら次元圧縮技術を採用することで距離の上限値と下限値を索引付けに利用できる。
[類似データ検索方法]
ステップS104において、類似ペア検索部17は、区間分割部13で分割した最新の受信時刻の部分時系列データをクエリとして、第2メモリ16にキュー構造で管理されている受信時刻ごとの類似検索索引を使って、閾値よりもクエリと類似した部分時系列データを検索する。そして、類似ペア検索部17は、類似部分時系列データペアを出力する。ここでのデータペアとは、最新時刻の部分時系列データとこれに類似する部分時系列データのペアを意味する。類似ペア検索部17は、以下の手順を行い、類似部分時系列データペアを出力する。
ここでは、上述のSがS とr によってSinとSoutの2つの部分時系列データ集合に分類されている構造を使った検索例を述べる。クエリとする時系列データ
Figure 0005632862
からrの距離の範囲にある時系列データを探したい場合を想定する。数5のクエリと空間分割の基準とした部分時系列データ
Figure 0005632862
との間の距離
Figure 0005632862
が、
1)
Figure 0005632862
のとき、Sinに含まれる部分時系列データを検索すれば十分で、Soutに含まれる時系列データ、つまりSoutを管理する内部ノードもしくは葉ノードは枝刈りできる。
2)
Figure 0005632862
のとき、Soutに含まれる時系列データを検索すれば十分で、Sinに含まれる時系列データ、つまりSinを管理する内部ノードもしくは葉ノードは枝刈りできる。
3) 上記1),2)のどちらの不等式も満たさない場合、SinとSoutの両方の時系列データを検索する必要がある。
このような枝刈りを再帰的に実行する。つまり、図6の内部ノードをある程度たどって、枝刈りできない内部ノードや葉ノードにおいて検索を行う。図7は、類似検索索引を使った枝刈りのイメージの図である。上述の1)の条件に該当して、Soutに含まれる時系列データを枝刈りできる様子を表している。
以上の手順で、データ検索装置301は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データペアを検索する。
(実施形態2)
図8は、本実施形態のデータ検索装置302を説明する図である。データ検索装置302は、逐次流入してくる複数系列の時系列データを受信する受信部11と、
受信部11が受信した前記時系列データを記憶する第1メモリ12と、
第1メモリ12から時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部13と、
区間分割部13が分割した前記部分時系列データについて互いの類似度を求める類似判定部14と、
前記部分時系列データを受信時刻で区別可能な構造を有し、類似判定部14が求めた前記類似度に基づく、区間分割部13で生成された部分時系列データの類似検索索引を作成する索引部15と、
索引部15で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリ16と、
区間分割部13で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて第2メモリ16から読み出す類似ペア検索部17と、
を備える。
図9は、データ検索装置302が行うデータ検索方法を説明する図である。本データ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき(ステップS201、S202)、
前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し(ステップS203〜ステップS205)、
検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す(ステップS206)。
データ検索装置302において、受信部11、区間分割部13、類似判定部14、類似ペア検索部17及び第1メモリ12は図2のデータ検索装置301と同じ動作を行う。
索引部15は、ステップS202で一度類似検索索引を構築し、その後は内部ノードを変更せずに葉ノードのみを更新する(ステップS203〜S205)。本実施形態における類似検索索引も実施形態1と同様、距離空間の類似検索索引VPTのデータ構造を採用する。
ステップ(S201〜S202)では、受信部11にてn(m+w−1)の要素数を蓄積した後に、1つの類似検索索引を構築する。区間分割部13で切り出せる部分時系列データ集合を“S”とする。基準となる系列IDがpで受信時刻がtの部分時系列データ
Figure 0005632862
を“S”から一つ選び、“S”を均等2分割できる距離を
Figure 0005632862
とおく。“S”は、
Figure 0005632862
の2つの部分時系列データ集合SinとSoutに分類される。
inとSoutも同様にそれぞれで基準となる部分時系列データと分割距離を決めてさらに空間を2分類することを繰り返すことで、木構造の索引をつくる。十分に小さい数の部分時系列データ集合まで分類した後は、葉ノードとして“S”を管理する。このとき、葉ノードでは部分時系列データを受信時刻別にアクセスしやすいキュー構造で管理する。
このようにして、木構造の内部ノードでは
Figure 0005632862
を管理し、葉ノードでは部分時系列データ集合を管理する。図10は、類似検索索引の葉ノードにおけるキューを説明する図である。
なお、本発明のいう類似検索索引は上記特徴を満たす様々なデータ構造がその対象となるものであって、VPTに限られず、実施形態1で示した類似検索索引であってもよい。さらに、これらの索引に実施形態1で示した次元圧縮技術を組み合わせることも可能である。
索引構築後、ステップS203〜S205でデータ検索装置302は、新しく追加する部分時系列S を、該当する葉ノードに追加する。つまり、数13を管理する内部ノードがあった場合は、
Figure 0005632862
ならばSinを担当するノードを、
Figure 0005632862
ならばSoutを担当するノードを探索することを繰り返して、該当する葉ノードを探索する。そして、葉ノードが見つかったら、部分時系列データを蓄積するキューにS を追加する。なお、所定時間が経過した部分時系列データは葉ノードにおけるキューから削除される。
ステップS206は図3で説明したステップS104と同様である。類似ペア検索部17は、区間分割部13で分割した最新の受信時刻の部分時系列データをクエリとして、第2メモリ16に管理されている類似検索索引を使い、図6の内部ノードをある程度たどって、枝刈りできない内部ノードや葉ノードにおいて、閾値よりもクエリと類似した部分時系列データを検索する。そして、類似ペア検索部17は、類似部分時系列データペアを出力する。
以上の手順で、データ検索装置302は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データペアを検索する。
11:受信部
12:第1メモリ
13:区間分割部
14:類似判定部
15:索引部
16:第2メモリ
17:類似ペア判定部
18:第3メモリ
301、302:データ検索装置

Claims (5)

  1. 逐次流入してくる複数系列の時系列データを受信する受信部と、
    前記受信部が受信した前記時系列データを記憶する第1メモリと、
    前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
    前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
    前記類似判定部が求めた前記類似度に基づき、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
    前記索引部で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリと、
    前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
    を備えるデータ検索装置。
  2. 逐次流入してくる複数系列の時系列データを受信する受信部と、
    前記受信部が受信した前記時系列データを記憶する第1メモリと、
    前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
    前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
    前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似判定部が求めた前記類似度に基づく、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
    前記索引部で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリと、
    前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
    を備えるデータ検索装置。
  3. 逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき、
    検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出すデータ検索方法。
  4. 逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき、
    前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し、
    検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出すデータ検索方法。
  5. 請求項3又は4に記載のデータ検索方法をコンピュータに実行させるデータ検索プログラム。
JP2012028791A 2012-02-13 2012-02-13 データ検索装置、データ検索方法、及びデータ検索プログラム Active JP5632862B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012028791A JP5632862B2 (ja) 2012-02-13 2012-02-13 データ検索装置、データ検索方法、及びデータ検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012028791A JP5632862B2 (ja) 2012-02-13 2012-02-13 データ検索装置、データ検索方法、及びデータ検索プログラム

Publications (2)

Publication Number Publication Date
JP2013164811A JP2013164811A (ja) 2013-08-22
JP5632862B2 true JP5632862B2 (ja) 2014-11-26

Family

ID=49176108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012028791A Active JP5632862B2 (ja) 2012-02-13 2012-02-13 データ検索装置、データ検索方法、及びデータ検索プログラム

Country Status (1)

Country Link
JP (1) JP5632862B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970090B1 (ko) 2015-01-22 2019-04-17 미쓰비시덴키 가부시키가이샤 시계열 데이터 검색 장치 및 기록 매체에 저장된 시계열 데이터 검색 프로그램
JP7129235B2 (ja) * 2018-06-15 2022-09-01 キヤノン株式会社 情報処理装置、その制御方法、プログラム、記憶媒体、及びシステム
CN111309846B (zh) * 2018-12-12 2023-09-05 中国移动通信集团四川有限公司 索引处理方法、装置、设备及介质
CN111859066B (zh) * 2020-06-03 2023-01-20 广东电网有限责任公司 一种运维工单的查询推荐方法及装置
CN115729981B (zh) * 2022-11-29 2024-02-13 中国长江电力股份有限公司 一种基于编辑距离的相似水情数据挖掘方法及其应用

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3204154B2 (ja) * 1997-02-21 2001-09-04 日本電気株式会社 時系列データ解析装置
JP3916813B2 (ja) * 1999-10-22 2007-05-23 株式会社日立製作所 データ系列検索装置および方法
JP4215386B2 (ja) * 2000-12-15 2009-01-28 三菱電機株式会社 類似オブジェクト検索方法及び類似オブジェクト検索装置
JP3960151B2 (ja) * 2002-07-09 2007-08-15 ソニー株式会社 類似時系列検出方法及び装置、並びにプログラム
JP4275084B2 (ja) * 2005-02-16 2009-06-10 日本電信電話株式会社 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム
JP2006338373A (ja) * 2005-06-02 2006-12-14 Toshiba Corp 多変数時系列データ分析装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2013164811A (ja) 2013-08-22

Similar Documents

Publication Publication Date Title
JP5678620B2 (ja) データ処理方法、データ処理システム、及びデータ処理装置
JP5711171B2 (ja) データ検索装置、データ検索方法、及びデータ検索プログラム
Yagoubi et al. Dpisax: Massively distributed partitioned isax
JP5632862B2 (ja) データ検索装置、データ検索方法、及びデータ検索プログラム
JP6183376B2 (ja) インデックス生成装置及び方法並びに検索装置及び検索方法
CN102693266B (zh) 搜索数据库的方法、生成索引结构的导航设备和方法
CN112765405B (zh) 空间数据搜索结果的聚类和查询的方法及系统
CN106897374B (zh) 一种基于轨迹大数据最近邻查询的个性化推荐方法
Wang et al. Durable queries over historical time series
WO2016006276A1 (ja) インデックス生成装置及びインデックス生成方法
JP6079270B2 (ja) 情報提供装置
US20170124162A1 (en) System and method for subset searching and associated search operators
CN103345509B (zh) 获取路网上复反向最远邻居的层次分区树方法及系统
JP2010277329A (ja) 近傍探索装置
Chen et al. Mining and clustering mobility evolution patterns from social media for urban informatics
US20160078071A1 (en) Large scale offline retrieval of machine operational information
CN111177190B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN103309951A (zh) 在网上搜索多媒体文件的方法和装置
He et al. Efficient and robust data augmentation for trajectory analytics: A similarity-based approach
KR101937989B1 (ko) 집합 기반 유사 시퀀스 매칭 장치 및 방법
Huang et al. Processing continuous K-nearest skyline query with uncertainty in spatio-temporal databases
CN110880005B (zh) 向量索引建立方法及装置和向量检索方法及装置
Beecks et al. Index support for content-based multimedia exploration
JP5953262B2 (ja) データ索引装置、データ索引方法及びプログラム
JP7239433B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141010

R150 Certificate of patent or registration of utility model

Ref document number: 5632862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150