JP2013164811A - Data retrieval device, data retrieval method, and data retrieval program - Google Patents
Data retrieval device, data retrieval method, and data retrieval program Download PDFInfo
- Publication number
- JP2013164811A JP2013164811A JP2012028791A JP2012028791A JP2013164811A JP 2013164811 A JP2013164811 A JP 2013164811A JP 2012028791 A JP2012028791 A JP 2012028791A JP 2012028791 A JP2012028791 A JP 2012028791A JP 2013164811 A JP2013164811 A JP 2013164811A
- Authority
- JP
- Japan
- Prior art keywords
- time
- series data
- similar
- search
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するデータ検索装置、データ検索方法、及びデータ検索プログラムに関する。 The present invention relates to a data search apparatus, a data search method, and a data search program for searching for a similar pair of partial time-series data from a plurality of series of time-series data that have flowed within a certain period in the past from the present.
時系列データは、時間的に連続して観測されたデータ系列である。時系列データは環境観測や設備監視、株価、統計情報、メディア処理などで利用されている。 The time series data is a data series observed continuously in time. Time series data is used for environmental observation, equipment monitoring, stock prices, statistical information, media processing, and so on.
時系列データの検索には、事前に蓄積されたデータに対して検索するものと、逐次流入してくるデータに対して検索するものとがある。前者の例としては、過去に定時観測した降水量のデータで類似したパターンを探す処理などがある。後者の例としては、リアルタイムに株価の変動を観測して目的のパターンと一致した瞬間に通知する処理などがある。本発明は後者のリアルタイムな処理を扱う。 There are two types of time-series data search: searching for data stored in advance and searching for data that flows in sequentially. As an example of the former, there is a process of searching for a similar pattern using precipitation data that has been regularly observed in the past. As an example of the latter, there is a process of observing a stock price change in real time and notifying the moment when it matches a target pattern. The present invention deals with the latter real-time processing.
リアルタイムな時系列データ検索の先行技術としては、以下のものが挙げられる。複数系列の同一時刻の時系列データのうち、類似した時系列データのペアを求める検索処理があった(例えば、特許文献1や非特許文献1参照)。特許文献1では閾値よりも類似度の高いペアを、非特許文献1では相関係数が閾値以上のものを探す課題を扱っている。これらの先行技術では、系列数が多いほど類似判定の計算コストが大きくなるため、類似度計算の削減のための次元圧縮や類似度計算回数削減のための索引技術を技術課題としていた。しかしながら、これらの先行技術は時系列データの終点が現在時刻のもののみを扱うという制限をもつ。つまり、時間的なずれのある類似した部分時系列データを対象とした検索には適用できない。
The prior art of real-time time series data search includes the following. There has been a search process for obtaining a pair of similar time-series data among a plurality of series of time-series data at the same time (see, for example,
上述のように、従来技術は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを求める検索処理を扱うことができない、つまり、時間的なずれのある類似した部分時系列データを複数系列の時系列データの中から検索することができない。このような検索例としては、1ヶ月間の複数銘柄の株価の時系列データから類似した部分時系列データを検索して、時間的なずれのある特徴的な株価の変動を見つけ出す処理がある。また、複数のセンサ値の時系列データから類似した部分時系列データを検索して、日射から地熱、気温といった時間的なずれの生じる現象を見つけ出す処理も検索例として挙げられる。上述のとおり、複数系列の時系列データを対象とした先行技術や、時間的なずれのある類似した部分時系列データを対象とした先行技術はあるが、この2つを同時に満たす時系列データ検索処理技術は発明されていない。 As described above, the conventional technology cannot handle a search process for obtaining a similar pair of partial time-series data from a plurality of series of time-series data that has flowed in a certain period in the past from the present, that is, time It is not possible to search similar partial time-series data having a misalignment from a plurality of time-series data. As an example of such a search, there is a process of searching for similar partial time-series data from the time-series data of stock prices of a plurality of issues for one month to find characteristic stock price fluctuations with a time lag. Another example of a search is a process of searching for similar partial time-series data from time-series data of a plurality of sensor values to find a phenomenon in which a time lag such as geothermal heat or air temperature occurs from solar radiation. As described above, there are prior arts for multiple series of time series data and prior arts for similar partial time series data with time lag, but time series data search that satisfies these two simultaneously Processing techniques have not been invented.
上記2つを同時に満たす時系列データ検索処理では、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データのペアを求める検索処理を扱うことになる。この検索処理は、距離計算コストを抑えることが求められており、類似度計算回数削減が解決すべき技術課題となっている。 The time-series data search process that satisfies the above two simultaneously deals with a search process for obtaining a pair of partial time-series data that is more similar to the threshold value from a plurality of time-series data that has flowed in from a present to a certain period in the past. It will be. This search process is required to reduce the cost of distance calculation, and a reduction in the number of similarity calculations is a technical problem to be solved.
つまり、時系列データの系列数が大きい、検索対象とする時系列データの時間が長い、もしくは時系列データの長さに対して部分時系列データが短いほど、類似度計算回数は大きくなる。類似度計算回数を削減するため、類似度の高い時系列データのペアに絞り込む検索索引が必要である。従来技術の検索索引は時系列データの終点が現在時刻のものを検索対象としていたが、上記2つを同時に満たす時系列データ検索処理では受信時刻の異なる部分時系列データも検索対象となり、類似判定の計算コストが大きくなるという課題がある。 That is, as the number of time-series data is larger, the time-series data to be searched is longer, or the partial time-series data is shorter than the time-series data, the number of similarity calculations increases. In order to reduce the number of similarity calculations, a search index that narrows down pairs of time-series data having a high similarity is necessary. Although the search index of the prior art used the time series data with the end point of the current time as the search target, in the time series data search processing that satisfies the above two simultaneously, the partial time series data with different reception times is also the search target. However, there is a problem that the calculation cost is increased.
本発明は、上記課題を解消するためになされたものであり、その目的は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置、データ検索方法、及びデータ検索プログラムを提供することにある。 The present invention has been made to solve the above-mentioned problems, and its purpose is to create a pair of similar partial time-series data from a plurality of series of time-series data that have flowed within a certain period in the past from the present. An object of the present invention is to provide a data search device, a data search method, and a data search program that can reduce the required distance calculation cost when searching.
本発明は、新しい受信時刻の部分時系列データの挿入と古い受信時刻の部分時系列データの削除が容易なデータ構造で、かつ、部分時系列データを受信時刻ごとに区別して枝刈るアルゴリズム採用することとした。ここで、「枝刈り」とは、検索対象とならないデータを予め除去しておくという意味である。 The present invention employs an algorithm that easily inserts partial time-series data at a new reception time and deletes partial time-series data at an old reception time, and distinguishes and prune the partial time-series data for each reception time. It was decided. Here, “pruning” means that data not to be searched is removed in advance.
本発明に係る一のデータ検索装置は、逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記類似判定部が求めた前記類似度に基づき、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備える。
One data search device according to the present invention includes a receiving unit that receives time-series data of a plurality of sequences that sequentially flows,
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
Based on the similarity obtained by the similarity determination unit, an index unit that creates a similarity search index of the partial time-series data generated by the section division unit;
A second memory for storing the similar search index created by the index unit in a queue structure for each reception time;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
Is provided.
本発明に係る一のデータ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す。 One data search method according to the present invention divides time-series data of a plurality of sequences that are sequentially input into partial time-series data of a predetermined time, obtains the similarity between the partial time-series data, and determines the similarity A similar search index is created and stored in a queue structure for each reception time, the partial time series data is used as a query at the time of search, and the partial time series data similar to a specified threshold is used as the query Read out.
本発明は、類似検索索引を受信時刻別につくることで、指定された時間範囲外の受信時刻の部分時系列データの索引からの削除と新しい部分時系列データの索引への追加の高速化、および、部分時系列データを受信時刻ごとに区別した枝刈りができるようになる。このため、本発明は、時系列データの系列数が大きいときに、部分時系列データの更新の高速化と類似度計算回数の削減を実現することができる。 The present invention creates a similar search index for each reception time, thereby speeding up deletion of partial time-series data of reception times outside the specified time range from the index and addition of new partial time-series data to the index, and Therefore, pruning can be performed by distinguishing partial time-series data for each reception time. Therefore, according to the present invention, when the number of series of time series data is large, it is possible to increase the speed of updating partial time series data and reduce the number of times of similarity calculation.
従って、本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。 Therefore, according to the present invention, it is possible to reduce the distance calculation cost required when searching for a pair of similar partial time-series data from a plurality of time-series data that has flowed in from the present within a certain period in the past. A data search device and a data search method can be provided.
本発明に係る他のデータ検索装置は、逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似判定部が求めた前記類似度に基づく、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備える。
Another data search device according to the present invention, a receiving unit that receives time-series data of a plurality of series that sequentially flows,
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
An index that has a structure in which the partial time-series data can be distinguished by reception time, and creates a similarity search index for the partial time-series data generated by the section division unit based on the similarity obtained by the similarity determination unit And
A second memory for storing the similar search index created by the index unit and adding the subsequent partial time series data as a queue to the similar search index while maintaining the structure of the similar search index;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
Is provided.
本発明に係る他のデータ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す。 Another data search method according to the present invention divides time-series data of a plurality of series that are sequentially input into partial time-series data of a predetermined time, obtains a similarity between the partial time-series data, and the partial time-series data The data has a structure that can be distinguished by reception time, and creates and stores one similar search index based on the similarity, and the subsequent partial time-series data is maintained while maintaining the structure of the similar search index. A queue is added to the similar search index, and the partial time series data similar to a specified threshold is read using the partial search data as a query at the time of search using the similar search index.
本発明は、類似検索索引を各時系列データを受信時刻で区別可能な構造にしたうえで1つに集約することで、指定された時間範囲内の受信時刻つくられた複数の類似検索索引を検索のたびに探索する手間を削減できるようになる。このため、本発明は、検索対象とする時系列データの時間が長い、もしくは時系列データの長さに対して部分時系列データが短いときに、類似度計算回数の削減を実現することができる。 In the present invention, a plurality of similar search indexes created at reception times within a specified time range are obtained by making the similar search indexes into a structure in which each time-series data can be distinguished by reception time and then consolidating them into one. It is possible to reduce the time and effort of searching for each search. Therefore, the present invention can realize a reduction in the number of times of similarity calculation when the time series data to be searched is long or when the partial time series data is short relative to the length of the time series data. .
従って、本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。 Therefore, according to the present invention, it is possible to reduce the distance calculation cost required when searching for a pair of similar partial time-series data from a plurality of time-series data that has flowed in from the present within a certain period in the past. A data search device and a data search method can be provided.
本発明に係るデータ検索プログラムは、前記データ検索方法をコンピュータに実行させる。 A data search program according to the present invention causes a computer to execute the data search method.
本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。 The present invention provides a data search that can reduce the required distance calculation cost when searching for a pair of similar partial time-series data from a plurality of time-series data that has flowed within a certain period in the past from the present. An apparatus and a data search method can be provided.
添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。 Embodiments of the present invention will be described with reference to the accompanying drawings. The embodiments described below are examples of the present invention, and the present invention is not limited to the following embodiments. In the present specification and drawings, the same reference numerals denote the same components.
図1は、類似部分時系列ペアのイメージの図である。実施形態1および実施形態2の装置では閾値よりも類似した部分時系列データペアを検索する。 FIG. 1 is a diagram of an image of similar partial time series pairs. In the apparatus according to the first and second embodiments, a partial time series data pair that is more similar than the threshold is searched.
(実施形態1)
図2は、本実施形態のデータ検索装置301を説明する図である。データ検索装置301は、逐次流入してくる複数系列の時系列データを受信する受信部11と、
受信部11が受信した前記時系列データを記憶する第1メモリ12と、
第1メモリ12から時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部13と、
区間分割部13が分割した前記部分時系列データについて互いの類似度を求める類似判定部14と、
類似判定部14が求めた前記類似度に基づき、区間分割部13で生成された部分時系列データの類似検索索引を作成する索引部15と、
索引部15で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリ16と、
区間分割部13で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて第2メモリ16から読み出す類似ペア検索部17と、
を備える。
(Embodiment 1)
FIG. 2 is a diagram illustrating the
A
An
A
An
A
A similar
Is provided.
図3は、データ検索装置301が行うデータ検索方法を説明する図である。本データ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し(ステップS101、S102)、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき(ステップS103)、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す(ステップS104)。
FIG. 3 is a diagram for explaining a data search method performed by the
ステップS101において、受信部11は、逐次流入してくる複数系列の時系列データを受信して第1メモリ12に記憶させる。第1メモリ12の容量に制限がある場合は、指定された時間範囲外の受信時刻の時系列データを第1メモリ12から削除する。第1メモリ12の最低限必要な記憶容量は、検索対象とする部分時系列データ長をm、検索対象とする時間長をw、系列数をnとすると、n(m+w−1)の要素数を蓄積できる容量となる。
In step S <b> 101, the receiving
ステップS102において、区間分割部13は、第1メモリ12から時系列データを読みだして、指定された区間時間の部分時系列データに分割する。本実施形態における部分時系列データとは、逐次流入してくる時間的に連続したデータ系列のうち、指定された区間時間の連続したデータ系列をいう。区間分割部13は新しい時系列データを受信するたびに、各時系列データの直近の長さmの部分時系列データを分割して、索引部15と類似ペア検索部17に部分時系列データを入力する。また、類似ペア検索部17から指定された時間の長さmの部分時系列データを分割して返す。図4は、区間分割部13が時系列データを部分時系列データに分割するときのイメージの図である。図中の
ステップS103において、類似判定部14は部分時系列データ間の類似度を計算する。本実施形態における類似度とは、2つの部分時系列データがどの程度類似しているかを数値で表す指標である。特に、本実施形態においては、2つの部分時系列データ
なお、本発明のいう類似度は、上記特徴を満たす様々な距離がその対象となるものであって、ユークリッド距離に限られない。具体的に一例を挙げると、Dynamic time warpingやEarth Mover’s Distance、編集距離、ハミング距離、Jaccard係数距離、コサイン類似度、マンハッタン距離、マハラノビス距離などを含む時系列データ間の類似度を表す距離であってよい。さらに、これらの距離に加えて、部分時系列のオフセットや振幅を調整したものに対する距離であってもよい。 It should be noted that the similarity referred to in the present invention is subject to various distances that satisfy the above characteristics, and is not limited to the Euclidean distance. Specifically, for example, distances representing similarity between time series data including Dynamic time warping, Earth Move's distance, editing distance, Hamming distance, Jaccard coefficient distance, cosine similarity, Manhattan distance, Mahalanobis distance, etc. It may be. Furthermore, in addition to these distances, distances to those adjusted for partial time series offset and amplitude may be used.
ステップS103において、索引部15は第2メモリ16に指定された時間範囲内の受信時刻に生成された複数の類似検索索引をキュー構造で管理する。本実施形態における類似検索索引とは、クエリとして与えた部分時系列データと蓄積した部分時系列データ間の類似度すべてを判別することなく、クエリとの類似度が閾値以内の蓄積した部分時系列データを探すためのデータ構造である。索引部15は、区間分割部13で分割した最新の受信時刻の部分時系列データを基準とした類似検索索引を1つ新たにつくり、第2メモリ16の索引を蓄積するキューに追加する。同時に、指定された時間範囲外の受信時刻の類似検索索引を第2メモリ16の索引を蓄積するキューから削除する。図5は、類似検索索引のキューを説明する図である。
In step S103, the
[類似検索索引の作成方法]
本実施形態における類似検索索引は、距離空間の類似検索索引Vantage Point Tree(VPT)(非特許文献2参照)を採用し、以下の手順で作成する。この索引は、基準となる部分時系列データ(基準部分時系列データ)1つと分割距離1つを定めて、基準部分時系列データからの距離と分割距離に基づいて索引対象の複数の部分時系列データを2つに分類することを繰り返して作成する。ここで、受信時刻tの部分時系列データ集合Stを2分類する例を説明する。基準となる系列pの部分時系列データSp tをStから一つ選び、Stを均等2分割できる距離をrp tとしたとき、Stは、
The similarity search index in this embodiment employs a similarity search index Vantage Point Tree (VPT) (see Non-Patent Document 2) in the metric space, and is created by the following procedure. This index defines one partial time series data (reference partial time series data) and one division distance as a reference, and a plurality of partial time series to be indexed based on the distance and division distance from the reference partial time series data Create data by repeatedly classifying data into two. Here, an example of 2 classify partial time-series data set S t of reception time t. The partial time-series data S p t in relation to the standard sequence p select one from S t, and the distance that can be evenly divided into two S t was r p t, S t is
なお、本発明のいう類似検索索引は上記特徴を満たす様々なデータ構造がその対象となるものであって、VPTに限られない。具体的な一例を挙げると、他の距離空間の類似検索索引M−treeやPM−tree、MVP−tree、sa−tree、iDistance、List of Clusters、AESA、LAESA、GNAT、D−indexなどを含む。さらに、これらの距離空間の類似検索索引に加えて、多次元空間を対象とする類似検索索引のR−treeやPriority R−tree、文字列データの類似検索索引、集合データの類似検索索引であってもよい。さらに、本発明の範囲はこれに限るものでなく、これらの索引に次元圧縮技術を組み合わせることも可能である。具体的な一例を挙げると、DFT、SVD、PAA、SAXなどを含む。部分時系列データが長くなり、次元数の増加によるデータ量の増大(『次元の呪い』)で枝刈りが不十分である場合は、これら次元圧縮技術を採用することで距離の上限値と下限値を索引付けに利用できる。 Note that the similar search index referred to in the present invention is intended for various data structures that satisfy the above characteristics, and is not limited to the VPT. Specific examples include similar search indexes for other metric spaces such as M-tree, PM-tree, MVP-tree, sa-tree, iDistance, List of Clusters, AESA, LAESA, GNAT, D-index, etc. . Furthermore, in addition to these metric space similar search indexes, there are similar search indexes R-tree and Priority R-tree for multi-dimensional spaces, similar search indexes for character string data, and similar search indexes for set data. May be. Further, the scope of the present invention is not limited to this, and it is possible to combine a dimensional compression technique with these indexes. Specific examples include DFT, SVD, PAA, SAX and the like. If partial time-series data is long and the pruning is insufficient due to an increase in the amount of data due to an increase in the number of dimensions ("curse of dimension"), the upper and lower limits of distance can be achieved by adopting these dimension compression techniques. Values can be used for indexing.
[類似データ検索方法]
ステップS104において、類似ペア検索部17は、区間分割部13で分割した最新の受信時刻の部分時系列データをクエリとして、第2メモリ16にキュー構造で管理されている受信時刻ごとの類似検索索引を使って、閾値よりもクエリと類似した部分時系列データを検索する。そして、類似ペア検索部17は、類似部分時系列データペアを出力する。ここでのデータペアとは、最新時刻の部分時系列データとこれに類似する部分時系列データのペアを意味する。類似ペア検索部17は、以下の手順を行い、類似部分時系列データペアを出力する。
[Similar data search method]
In step S104, the similar
ここでは、上述のStがSp tとrp tによってSinとSoutの2つの部分時系列データ集合に分類されている構造を使った検索例を述べる。クエリとする時系列データ
1)
2)
3) 上記1),2)のどちらの不等式も満たさない場合、SinとSoutの両方の時系列データを検索する必要がある。
Here, a search example using a structure in which the above-described S t is classified into two partial time-series data sets of S in and S out by S p t and r p t will be described. Time series data used as a query
1)
2)
3) When neither the inequality of 1) nor 2) is satisfied, it is necessary to search both time series data of S in and S out .
このような枝刈りを再帰的に実行する。つまり、図6の内部ノードをある程度たどって、枝刈りできない内部ノードや葉ノードにおいて検索を行う。図7は、類似検索索引を使った枝刈りのイメージの図である。上述の1)の条件に該当して、Soutに含まれる時系列データを枝刈りできる様子を表している。 Such pruning is performed recursively. In other words, the internal node shown in FIG. 6 is traced to some extent, and a search is performed for internal nodes and leaf nodes that cannot be pruned. FIG. 7 is a diagram of an image of pruning using a similar search index. And it satisfies the condition of the above 1), and represents a state capable of pruning time series data contained in the S out.
以上の手順で、データ検索装置301は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データペアを検索する。
With the above procedure, the
(実施形態2)
図8は、本実施形態のデータ検索装置302を説明する図である。データ検索装置302は、逐次流入してくる複数系列の時系列データを受信する受信部11と、
受信部11が受信した前記時系列データを記憶する第1メモリ12と、
第1メモリ12から時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部13と、
区間分割部13が分割した前記部分時系列データについて互いの類似度を求める類似判定部14と、
前記部分時系列データを受信時刻で区別可能な構造を有し、類似判定部14が求めた前記類似度に基づく、区間分割部13で生成された部分時系列データの類似検索索引を作成する索引部15と、
索引部15で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリ16と、
区間分割部13で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて第2メモリ16から読み出す類似ペア検索部17と、
を備える。
(Embodiment 2)
FIG. 8 is a diagram illustrating the
A
An
A
An index that has a structure in which the partial time-series data can be distinguished by reception time, and creates a similarity search index for the partial time-series data generated by the
A
A similar
Is provided.
図9は、データ検索装置302が行うデータ検索方法を説明する図である。本データ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき(ステップS201、S202)、
前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し(ステップS203〜ステップS205)、
検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す(ステップS206)。
FIG. 9 is a diagram for explaining a data search method performed by the
The subsequent partial time series data is added as a queue to the similar search index while maintaining the structure of the similar search index (steps S203 to S205),
Using the partial time-series data as a query at the time of search, partial time-series data similar to a specified threshold is read using the similar search index (step S206).
データ検索装置302において、受信部11、区間分割部13、類似判定部14、類似ペア検索部17及び第1メモリ12は図2のデータ検索装置301と同じ動作を行う。
In the
索引部15は、ステップS202で一度類似検索索引を構築し、その後は内部ノードを変更せずに葉ノードのみを更新する(ステップS203〜S205)。本実施形態における類似検索索引も実施形態1と同様、距離空間の類似検索索引VPTのデータ構造を採用する。
The
ステップ(S201〜S202)では、受信部11にてn(m+w−1)の要素数を蓄積した後に、1つの類似検索索引を構築する。区間分割部13で切り出せる部分時系列データ集合を“S”とする。基準となる系列IDがpで受信時刻がtxの部分時系列データ
SinとSoutも同様にそれぞれで基準となる部分時系列データと分割距離を決めてさらに空間を2分類することを繰り返すことで、木構造の索引をつくる。十分に小さい数の部分時系列データ集合まで分類した後は、葉ノードとして“S”を管理する。このとき、葉ノードでは部分時系列データを受信時刻別にアクセスしやすいキュー構造で管理する。 S in the S out also by repeating two more classifying that the space determined the partial time-series data and dividing the distance as a reference in each similarly, creating an index of the tree structure. After classifying a sufficiently small number of partial time-series data sets, “S” is managed as a leaf node. At this time, the leaf node manages the partial time series data in a queue structure that is easy to access for each reception time.
このようにして、木構造の内部ノードでは
なお、本発明のいう類似検索索引は上記特徴を満たす様々なデータ構造がその対象となるものであって、VPTに限られず、実施形態1で示した類似検索索引であってもよい。さらに、これらの索引に実施形態1で示した次元圧縮技術を組み合わせることも可能である。
The similar search index referred to in the present invention is intended for various data structures satisfying the above characteristics, and is not limited to the VPT, and may be the similar search index shown in the first embodiment. Furthermore, it is possible to combine the dimensional compression technique shown in
索引構築後、ステップS203〜S205でデータ検索装置302は、新しく追加する部分時系列Si tを、該当する葉ノードに追加する。つまり、数13を管理する内部ノードがあった場合は、
ステップS206は図3で説明したステップS104と同様である。類似ペア検索部17は、区間分割部13で分割した最新の受信時刻の部分時系列データをクエリとして、第2メモリ16に管理されている類似検索索引を使い、図6の内部ノードをある程度たどって、枝刈りできない内部ノードや葉ノードにおいて、閾値よりもクエリと類似した部分時系列データを検索する。そして、類似ペア検索部17は、類似部分時系列データペアを出力する。
Step S206 is the same as step S104 described in FIG. The similar
以上の手順で、データ検索装置302は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データペアを検索する。
With the above procedure, the
11:受信部
12:第1メモリ
13:区間分割部
14:類似判定部
15:索引部
16:第2メモリ
17:類似ペア判定部
18:第3メモリ
301、302:データ検索装置
11: receiving unit 12: first memory 13: section dividing unit 14: similarity determining unit 15: index unit 16: second memory 17: similar pair determining unit 18:
Claims (5)
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記類似判定部が求めた前記類似度に基づき、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備えるデータ検索装置。 A receiving unit for receiving time series data of a plurality of series that sequentially flows;
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
Based on the similarity obtained by the similarity determination unit, an index unit that creates a similarity search index of the partial time-series data generated by the section division unit;
A second memory for storing the similar search index created by the index unit in a queue structure for each reception time;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
A data search device comprising:
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似判定部が求めた前記類似度に基づく、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備えるデータ検索装置。 A receiving unit for receiving time series data of a plurality of series that sequentially flows;
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
An index that has a structure in which the partial time-series data can be distinguished by reception time, and creates a similarity search index for the partial time-series data generated by the section division unit based on the similarity obtained by the similarity determination unit And
A second memory for storing the similar search index created by the index unit and adding the subsequent partial time series data as a queue to the similar search index while maintaining the structure of the similar search index;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
A data search device comprising:
検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出すデータ検索方法。 A plurality of time series data that are sequentially input are divided into partial time series data of a predetermined time, the similarities of the partial time series data are obtained, and a similar search index based on the similarity is created for each reception time. In the queue structure,
A data search method for reading out partial time-series data similar to a specified threshold using the similar search index, using the partial time-series data as a query at the time of search.
前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し、
検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出すデータ検索方法。 The time series data of a plurality of series that are sequentially input is divided into partial time series data of a predetermined time, a similarity between the partial time series data is obtained, and the partial time series data can be distinguished by reception time. One similarity search index based on the similarity is created and stored,
The subsequent partial time series data is added as a queue to the similar search index while maintaining the structure of the similar search index,
A data search method for reading out partial time-series data similar to a specified threshold using the similar search index, using the partial time-series data as a query at the time of search.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012028791A JP5632862B2 (en) | 2012-02-13 | 2012-02-13 | Data search device, data search method, and data search program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012028791A JP5632862B2 (en) | 2012-02-13 | 2012-02-13 | Data search device, data search method, and data search program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013164811A true JP2013164811A (en) | 2013-08-22 |
JP5632862B2 JP5632862B2 (en) | 2014-11-26 |
Family
ID=49176108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012028791A Active JP5632862B2 (en) | 2012-02-13 | 2012-02-13 | Data search device, data search method, and data search program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5632862B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223069B2 (en) | 2015-01-22 | 2019-03-05 | Mitsubishi Electric Corporation | Time-series data search device and computer readable medium |
WO2019239964A1 (en) * | 2018-06-15 | 2019-12-19 | キヤノン株式会社 | Information processing device, control method therefor, program, storage medium, and system |
CN111309846A (en) * | 2018-12-12 | 2020-06-19 | 中国移动通信集团四川有限公司 | Index processing method, device, equipment and medium |
CN111859066A (en) * | 2020-06-03 | 2020-10-30 | 广东电网有限责任公司 | Query recommendation method and device for operation and maintenance work order |
CN115729981A (en) * | 2022-11-29 | 2023-03-03 | 中国长江电力股份有限公司 | Similar water regime data mining method based on editing distance and application thereof |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240716A (en) * | 1997-02-21 | 1998-09-11 | Nec Corp | Device for analyzing time sequential data and machine readable recording medium for recording program |
JP2001125903A (en) * | 1999-10-22 | 2001-05-11 | Real World Computing Partnership | Device and method for retrieving data sequence and recording medium |
JP2002183206A (en) * | 2000-12-15 | 2002-06-28 | Mitsubishi Electric Corp | Method and device for retrieving similar object |
JP2004045565A (en) * | 2002-07-09 | 2004-02-12 | Sony Corp | Method and device for detecting similar time series, program, and recording medium |
JP2006227835A (en) * | 2005-02-16 | 2006-08-31 | Nippon Telegr & Teleph Corp <Ntt> | Similar time series data computing apparatus, similar time series data computing method and similar time series data computing program |
JP2006338373A (en) * | 2005-06-02 | 2006-12-14 | Toshiba Corp | Multivariable time series data analyzing apparatus, method, and program |
-
2012
- 2012-02-13 JP JP2012028791A patent/JP5632862B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10240716A (en) * | 1997-02-21 | 1998-09-11 | Nec Corp | Device for analyzing time sequential data and machine readable recording medium for recording program |
JP2001125903A (en) * | 1999-10-22 | 2001-05-11 | Real World Computing Partnership | Device and method for retrieving data sequence and recording medium |
JP2002183206A (en) * | 2000-12-15 | 2002-06-28 | Mitsubishi Electric Corp | Method and device for retrieving similar object |
JP2004045565A (en) * | 2002-07-09 | 2004-02-12 | Sony Corp | Method and device for detecting similar time series, program, and recording medium |
US20040098225A1 (en) * | 2002-07-09 | 2004-05-20 | Mototsugu Abe | Similar time series detection method and apparatus, program and recording medium |
JP2006227835A (en) * | 2005-02-16 | 2006-08-31 | Nippon Telegr & Teleph Corp <Ntt> | Similar time series data computing apparatus, similar time series data computing method and similar time series data computing program |
JP2006338373A (en) * | 2005-06-02 | 2006-12-14 | Toshiba Corp | Multivariable time series data analyzing apparatus, method, and program |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223069B2 (en) | 2015-01-22 | 2019-03-05 | Mitsubishi Electric Corporation | Time-series data search device and computer readable medium |
WO2019239964A1 (en) * | 2018-06-15 | 2019-12-19 | キヤノン株式会社 | Information processing device, control method therefor, program, storage medium, and system |
JP2019219758A (en) * | 2018-06-15 | 2019-12-26 | キヤノン株式会社 | Processing device, its control method, program, storage medium, and system |
JP7129235B2 (en) | 2018-06-15 | 2022-09-01 | キヤノン株式会社 | Information processing device, its control method, program, storage medium, and system |
CN111309846A (en) * | 2018-12-12 | 2020-06-19 | 中国移动通信集团四川有限公司 | Index processing method, device, equipment and medium |
CN111309846B (en) * | 2018-12-12 | 2023-09-05 | 中国移动通信集团四川有限公司 | Index processing method, device, equipment and medium |
CN111859066A (en) * | 2020-06-03 | 2020-10-30 | 广东电网有限责任公司 | Query recommendation method and device for operation and maintenance work order |
CN111859066B (en) * | 2020-06-03 | 2023-01-20 | 广东电网有限责任公司 | Query recommendation method and device for operation and maintenance work order |
CN115729981A (en) * | 2022-11-29 | 2023-03-03 | 中国长江电力股份有限公司 | Similar water regime data mining method based on editing distance and application thereof |
CN115729981B (en) * | 2022-11-29 | 2024-02-13 | 中国长江电力股份有限公司 | Editing distance-based similar water condition data mining method and application thereof |
Also Published As
Publication number | Publication date |
---|---|
JP5632862B2 (en) | 2014-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yagoubi et al. | Dpisax: Massively distributed partitioned isax | |
JP5678620B2 (en) | Data processing method, data processing system, and data processing apparatus | |
CN100458779C (en) | Index and its extending and searching method | |
JP5632862B2 (en) | Data search device, data search method, and data search program | |
KR101266358B1 (en) | A distributed index system based on multi-length signature files and method thereof | |
CN102693266B (en) | Search for method, the navigation equipment and method of generation index structure of database | |
JP6183376B2 (en) | Index generation apparatus and method, search apparatus, and search method | |
JP5711171B2 (en) | Data search device, data search method, and data search program | |
CN112765405B (en) | Method and system for clustering and inquiring spatial data search results | |
CN106897374B (en) | Personalized recommendation method based on track big data nearest neighbor query | |
US11327985B2 (en) | System and method for subset searching and associated search operators | |
Wang et al. | Durable queries over historical time series | |
JP6079270B2 (en) | Information provision device | |
JPWO2016006276A1 (en) | Index generation apparatus and index generation method | |
Yadamjav et al. | Querying recurrent convoys over trajectory data | |
JP2010277329A (en) | Neighborhood retrieval device | |
Chen et al. | Mining and clustering mobility evolution patterns from social media for urban informatics | |
CN103309951A (en) | Method and device for searching multimedia file on the net | |
CN111177190B (en) | Data processing method, device, electronic equipment and readable storage medium | |
Huang et al. | Processing continuous K-nearest skyline query with uncertainty in spatio-temporal databases | |
Beecks et al. | Index support for content-based multimedia exploration | |
JP5953262B2 (en) | DATA INDEX DEVICE, DATA INDEX METHOD, AND PROGRAM | |
JP2013080403A (en) | Table partitioning device, method, and program | |
CN103309939B (en) | A kind of dynamic retrieval method based on metadata and device | |
Zhu et al. | Process matching: A structural approach for business process search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5632862 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |