JP2013164811A - Data retrieval device, data retrieval method, and data retrieval program - Google Patents

Data retrieval device, data retrieval method, and data retrieval program Download PDF

Info

Publication number
JP2013164811A
JP2013164811A JP2012028791A JP2012028791A JP2013164811A JP 2013164811 A JP2013164811 A JP 2013164811A JP 2012028791 A JP2012028791 A JP 2012028791A JP 2012028791 A JP2012028791 A JP 2012028791A JP 2013164811 A JP2013164811 A JP 2013164811A
Authority
JP
Japan
Prior art keywords
time
series data
similar
search
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012028791A
Other languages
Japanese (ja)
Other versions
JP5632862B2 (en
Inventor
Hiroshi Kurasawa
央 倉沢
Hiroshi Sato
浩史 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012028791A priority Critical patent/JP5632862B2/en
Publication of JP2013164811A publication Critical patent/JP2013164811A/en
Application granted granted Critical
Publication of JP5632862B2 publication Critical patent/JP5632862B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a data retrieval device, a data retrieval method, and a data retrieval program which are capable of reducing a distance calculation cost required for retrieving a pair of pieces of similar partial time-series data from time-series data of a plurality of series that has flowed in within a predetermined time from the past to the present.SOLUTION: An algorithm is employed which has a data structure easy for insertion of partial time-series data at a new receipt time and deletion of partial time-series data at an old receipt time, and discriminates the partial time-series data by the receipt time to prunes them.

Description

本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するデータ検索装置、データ検索方法、及びデータ検索プログラムに関する。   The present invention relates to a data search apparatus, a data search method, and a data search program for searching for a similar pair of partial time-series data from a plurality of series of time-series data that have flowed within a certain period in the past from the present.

時系列データは、時間的に連続して観測されたデータ系列である。時系列データは環境観測や設備監視、株価、統計情報、メディア処理などで利用されている。   The time series data is a data series observed continuously in time. Time series data is used for environmental observation, equipment monitoring, stock prices, statistical information, media processing, and so on.

時系列データの検索には、事前に蓄積されたデータに対して検索するものと、逐次流入してくるデータに対して検索するものとがある。前者の例としては、過去に定時観測した降水量のデータで類似したパターンを探す処理などがある。後者の例としては、リアルタイムに株価の変動を観測して目的のパターンと一致した瞬間に通知する処理などがある。本発明は後者のリアルタイムな処理を扱う。   There are two types of time-series data search: searching for data stored in advance and searching for data that flows in sequentially. As an example of the former, there is a process of searching for a similar pattern using precipitation data that has been regularly observed in the past. As an example of the latter, there is a process of observing a stock price change in real time and notifying the moment when it matches a target pattern. The present invention deals with the latter real-time processing.

リアルタイムな時系列データ検索の先行技術としては、以下のものが挙げられる。複数系列の同一時刻の時系列データのうち、類似した時系列データのペアを求める検索処理があった(例えば、特許文献1や非特許文献1参照)。特許文献1では閾値よりも類似度の高いペアを、非特許文献1では相関係数が閾値以上のものを探す課題を扱っている。これらの先行技術では、系列数が多いほど類似判定の計算コストが大きくなるため、類似度計算の削減のための次元圧縮や類似度計算回数削減のための索引技術を技術課題としていた。しかしながら、これらの先行技術は時系列データの終点が現在時刻のもののみを扱うという制限をもつ。つまり、時間的なずれのある類似した部分時系列データを対象とした検索には適用できない。   The prior art of real-time time series data search includes the following. There has been a search process for obtaining a pair of similar time-series data among a plurality of series of time-series data at the same time (see, for example, Patent Document 1 and Non-Patent Document 1). Patent Document 1 deals with a problem of searching for a pair having a higher degree of similarity than the threshold, and Non-Patent Document 1 searching for a correlation coefficient that is greater than or equal to the threshold. In these prior arts, the calculation cost for similarity determination increases as the number of series increases, and therefore, the technical problem is a dimensional compression for reducing similarity calculation and an index technique for reducing the number of similarity calculations. However, these prior arts have a limitation that only the end point of the time series data is the current time. That is, it cannot be applied to a search for similar partial time-series data having a time lag.

特開2006−244389号公報JP 2006-244389 A

Abdullah Mueen, Suman Nath and Jie Liu,“Fast Approximate Correlation for Massive Time−series Data”, In Proceedings of the 2010 ACM SIGMOD international conference on Management of data, 2010.Abdullah Muen, Sumna Nat and Jie Liu, “Fast Approximate Correlation for Massive Time-series of Data”, In Proceedings of the 20th Ace. Yianilos, Peter N,“Data structures and algorithms for nearest neighbor search in general metric spaces”, In Proceedings of the fourth annual ACM−SIAM Symposium on Discrete algorithms. Society for Industrial and Applied Mathematics Philadelphia, pp.311−321, 1993.Yianilos, Peter N, “Data structures and algorithms for nearest neighbors, search in general metric spaces, In Proceedings of theSimum in the AUM. Society for Industrial and Applied Materials Philadelphia, pp. 311-321, 1993.

上述のように、従来技術は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを求める検索処理を扱うことができない、つまり、時間的なずれのある類似した部分時系列データを複数系列の時系列データの中から検索することができない。このような検索例としては、1ヶ月間の複数銘柄の株価の時系列データから類似した部分時系列データを検索して、時間的なずれのある特徴的な株価の変動を見つけ出す処理がある。また、複数のセンサ値の時系列データから類似した部分時系列データを検索して、日射から地熱、気温といった時間的なずれの生じる現象を見つけ出す処理も検索例として挙げられる。上述のとおり、複数系列の時系列データを対象とした先行技術や、時間的なずれのある類似した部分時系列データを対象とした先行技術はあるが、この2つを同時に満たす時系列データ検索処理技術は発明されていない。   As described above, the conventional technology cannot handle a search process for obtaining a similar pair of partial time-series data from a plurality of series of time-series data that has flowed in a certain period in the past from the present, that is, time It is not possible to search similar partial time-series data having a misalignment from a plurality of time-series data. As an example of such a search, there is a process of searching for similar partial time-series data from the time-series data of stock prices of a plurality of issues for one month to find characteristic stock price fluctuations with a time lag. Another example of a search is a process of searching for similar partial time-series data from time-series data of a plurality of sensor values to find a phenomenon in which a time lag such as geothermal heat or air temperature occurs from solar radiation. As described above, there are prior arts for multiple series of time series data and prior arts for similar partial time series data with time lag, but time series data search that satisfies these two simultaneously Processing techniques have not been invented.

上記2つを同時に満たす時系列データ検索処理では、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データのペアを求める検索処理を扱うことになる。この検索処理は、距離計算コストを抑えることが求められており、類似度計算回数削減が解決すべき技術課題となっている。   The time-series data search process that satisfies the above two simultaneously deals with a search process for obtaining a pair of partial time-series data that is more similar to the threshold value from a plurality of time-series data that has flowed in from a present to a certain period in the past. It will be. This search process is required to reduce the cost of distance calculation, and a reduction in the number of similarity calculations is a technical problem to be solved.

つまり、時系列データの系列数が大きい、検索対象とする時系列データの時間が長い、もしくは時系列データの長さに対して部分時系列データが短いほど、類似度計算回数は大きくなる。類似度計算回数を削減するため、類似度の高い時系列データのペアに絞り込む検索索引が必要である。従来技術の検索索引は時系列データの終点が現在時刻のものを検索対象としていたが、上記2つを同時に満たす時系列データ検索処理では受信時刻の異なる部分時系列データも検索対象となり、類似判定の計算コストが大きくなるという課題がある。   That is, as the number of time-series data is larger, the time-series data to be searched is longer, or the partial time-series data is shorter than the time-series data, the number of similarity calculations increases. In order to reduce the number of similarity calculations, a search index that narrows down pairs of time-series data having a high similarity is necessary. Although the search index of the prior art used the time series data with the end point of the current time as the search target, in the time series data search processing that satisfies the above two simultaneously, the partial time series data with different reception times is also the search target. However, there is a problem that the calculation cost is increased.

本発明は、上記課題を解消するためになされたものであり、その目的は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置、データ検索方法、及びデータ検索プログラムを提供することにある。   The present invention has been made to solve the above-mentioned problems, and its purpose is to create a pair of similar partial time-series data from a plurality of series of time-series data that have flowed within a certain period in the past from the present. An object of the present invention is to provide a data search device, a data search method, and a data search program that can reduce the required distance calculation cost when searching.

本発明は、新しい受信時刻の部分時系列データの挿入と古い受信時刻の部分時系列データの削除が容易なデータ構造で、かつ、部分時系列データを受信時刻ごとに区別して枝刈るアルゴリズム採用することとした。ここで、「枝刈り」とは、検索対象とならないデータを予め除去しておくという意味である。   The present invention employs an algorithm that easily inserts partial time-series data at a new reception time and deletes partial time-series data at an old reception time, and distinguishes and prune the partial time-series data for each reception time. It was decided. Here, “pruning” means that data not to be searched is removed in advance.

本発明に係る一のデータ検索装置は、逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記類似判定部が求めた前記類似度に基づき、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備える。
One data search device according to the present invention includes a receiving unit that receives time-series data of a plurality of sequences that sequentially flows,
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
Based on the similarity obtained by the similarity determination unit, an index unit that creates a similarity search index of the partial time-series data generated by the section division unit;
A second memory for storing the similar search index created by the index unit in a queue structure for each reception time;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
Is provided.

本発明に係る一のデータ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す。   One data search method according to the present invention divides time-series data of a plurality of sequences that are sequentially input into partial time-series data of a predetermined time, obtains the similarity between the partial time-series data, and determines the similarity A similar search index is created and stored in a queue structure for each reception time, the partial time series data is used as a query at the time of search, and the partial time series data similar to a specified threshold is used as the query Read out.

本発明は、類似検索索引を受信時刻別につくることで、指定された時間範囲外の受信時刻の部分時系列データの索引からの削除と新しい部分時系列データの索引への追加の高速化、および、部分時系列データを受信時刻ごとに区別した枝刈りができるようになる。このため、本発明は、時系列データの系列数が大きいときに、部分時系列データの更新の高速化と類似度計算回数の削減を実現することができる。   The present invention creates a similar search index for each reception time, thereby speeding up deletion of partial time-series data of reception times outside the specified time range from the index and addition of new partial time-series data to the index, and Therefore, pruning can be performed by distinguishing partial time-series data for each reception time. Therefore, according to the present invention, when the number of series of time series data is large, it is possible to increase the speed of updating partial time series data and reduce the number of times of similarity calculation.

従って、本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。   Therefore, according to the present invention, it is possible to reduce the distance calculation cost required when searching for a pair of similar partial time-series data from a plurality of time-series data that has flowed in from the present within a certain period in the past. A data search device and a data search method can be provided.

本発明に係る他のデータ検索装置は、逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似判定部が求めた前記類似度に基づく、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備える。
Another data search device according to the present invention, a receiving unit that receives time-series data of a plurality of series that sequentially flows,
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
An index that has a structure in which the partial time-series data can be distinguished by reception time, and creates a similarity search index for the partial time-series data generated by the section division unit based on the similarity obtained by the similarity determination unit And
A second memory for storing the similar search index created by the index unit and adding the subsequent partial time series data as a queue to the similar search index while maintaining the structure of the similar search index;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
Is provided.

本発明に係る他のデータ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す。   Another data search method according to the present invention divides time-series data of a plurality of series that are sequentially input into partial time-series data of a predetermined time, obtains a similarity between the partial time-series data, and the partial time-series data The data has a structure that can be distinguished by reception time, and creates and stores one similar search index based on the similarity, and the subsequent partial time-series data is maintained while maintaining the structure of the similar search index. A queue is added to the similar search index, and the partial time series data similar to a specified threshold is read using the partial search data as a query at the time of search using the similar search index.

本発明は、類似検索索引を各時系列データを受信時刻で区別可能な構造にしたうえで1つに集約することで、指定された時間範囲内の受信時刻つくられた複数の類似検索索引を検索のたびに探索する手間を削減できるようになる。このため、本発明は、検索対象とする時系列データの時間が長い、もしくは時系列データの長さに対して部分時系列データが短いときに、類似度計算回数の削減を実現することができる。   In the present invention, a plurality of similar search indexes created at reception times within a specified time range are obtained by making the similar search indexes into a structure in which each time-series data can be distinguished by reception time and then consolidating them into one. It is possible to reduce the time and effort of searching for each search. Therefore, the present invention can realize a reduction in the number of times of similarity calculation when the time series data to be searched is long or when the partial time series data is short relative to the length of the time series data. .

従って、本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。   Therefore, according to the present invention, it is possible to reduce the distance calculation cost required when searching for a pair of similar partial time-series data from a plurality of time-series data that has flowed in from the present within a certain period in the past. A data search device and a data search method can be provided.

本発明に係るデータ検索プログラムは、前記データ検索方法をコンピュータに実行させる。   A data search program according to the present invention causes a computer to execute the data search method.

本発明は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、類似した部分時系列データのペアを検索するに際し、必要とする距離計算コストを抑えることができるデータ検索装置及びデータ検索方法を提供することができる。   The present invention provides a data search that can reduce the required distance calculation cost when searching for a pair of similar partial time-series data from a plurality of time-series data that has flowed within a certain period in the past from the present. An apparatus and a data search method can be provided.

類似部分時系列ペアを説明するイメージの図である。It is a figure of the image explaining a similar partial time series pair. 本発明に係るデータ検索装置を説明する図である。It is a figure explaining the data search device concerning the present invention. 本発明に係るデータ検索方法を説明する図である。It is a figure explaining the data search method which concerns on this invention. 本発明に係るデータ検索装置が時系列データを部分時系列データに分割するときのイメージの図である。It is a figure of an image when the data search device concerning the present invention divides time series data into partial time series data. 本発明に係るデータ検索方法における類似検索索引のキューを説明する図である。It is a figure explaining the queue of the similar search index in the data search method concerning the present invention. 本発明に係るデータ検索方法における類似検索索引構造を説明する図である。It is a figure explaining the similar search index structure in the data search method which concerns on this invention. 本発明に係るデータ検索方法における類似検索索引を使った枝刈りのイメージの図である。It is a figure of the image of pruning using the similar search index in the data search method which concerns on this invention. 本発明に係るデータ検索装置を説明する図である。It is a figure explaining the data search device concerning the present invention. 本発明に係るデータ検索方法を説明する図である。It is a figure explaining the data search method which concerns on this invention. 本発明に係るデータ検索方法における類似検索索引のキューを説明する図である。It is a figure explaining the queue of the similar search index in the data search method concerning the present invention.

添付の図面を参照して本発明の実施形態を説明する。以下に説明する実施形態は本発明の実施例であり、本発明は、以下の実施形態に制限されるものではない。なお、本明細書及び図面において符号が同じ構成要素は、相互に同一のものを示すものとする。   Embodiments of the present invention will be described with reference to the accompanying drawings. The embodiments described below are examples of the present invention, and the present invention is not limited to the following embodiments. In the present specification and drawings, the same reference numerals denote the same components.

図1は、類似部分時系列ペアのイメージの図である。実施形態1および実施形態2の装置では閾値よりも類似した部分時系列データペアを検索する。   FIG. 1 is a diagram of an image of similar partial time series pairs. In the apparatus according to the first and second embodiments, a partial time series data pair that is more similar than the threshold is searched.

(実施形態1)
図2は、本実施形態のデータ検索装置301を説明する図である。データ検索装置301は、逐次流入してくる複数系列の時系列データを受信する受信部11と、
受信部11が受信した前記時系列データを記憶する第1メモリ12と、
第1メモリ12から時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部13と、
区間分割部13が分割した前記部分時系列データについて互いの類似度を求める類似判定部14と、
類似判定部14が求めた前記類似度に基づき、区間分割部13で生成された部分時系列データの類似検索索引を作成する索引部15と、
索引部15で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリ16と、
区間分割部13で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて第2メモリ16から読み出す類似ペア検索部17と、
を備える。
(Embodiment 1)
FIG. 2 is a diagram illustrating the data search apparatus 301 according to the present embodiment. The data search device 301 includes a receiving unit 11 that receives time-series data of a plurality of sequences that sequentially flows,
A first memory 12 for storing the time-series data received by the receiving unit 11;
An interval division unit 13 that reads time-series data from the first memory 12 and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit 14 for obtaining a similarity between the partial time-series data divided by the section dividing unit 13;
An index unit 15 that creates a similarity search index of the partial time-series data generated by the section division unit 13 based on the similarity obtained by the similarity determination unit 14;
A second memory 16 for storing the similar search index created by the index unit 15 in a queue structure for each reception time;
A similar pair search unit 17 that reads out the partial time-series data similar to a specified threshold value from the second memory 16 using the similar search index, using the partial time-series data generated by the section dividing unit 13 as a query;
Is provided.

図3は、データ検索装置301が行うデータ検索方法を説明する図である。本データ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し(ステップS101、S102)、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき(ステップS103)、検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す(ステップS104)。   FIG. 3 is a diagram for explaining a data search method performed by the data search apparatus 301. The data search method divides time series data of a plurality of series that are sequentially input into partial time series data of a predetermined time (steps S101 and S102), obtains the similarity between the partial time series data, and calculates the similarity A similar search index based on the above is created and stored in a queue structure for each reception time (step S103), and the partial time series data similar to a specified threshold is used as a query at the time of search. Reading is performed using the similar search index (step S104).

ステップS101において、受信部11は、逐次流入してくる複数系列の時系列データを受信して第1メモリ12に記憶させる。第1メモリ12の容量に制限がある場合は、指定された時間範囲外の受信時刻の時系列データを第1メモリ12から削除する。第1メモリ12の最低限必要な記憶容量は、検索対象とする部分時系列データ長をm、検索対象とする時間長をw、系列数をnとすると、n(m+w−1)の要素数を蓄積できる容量となる。   In step S <b> 101, the receiving unit 11 receives a plurality of time series data that sequentially flows and stores the time series data in the first memory 12. When the capacity of the first memory 12 is limited, the time series data of the reception time outside the designated time range is deleted from the first memory 12. The minimum required storage capacity of the first memory 12 is the number of elements of n (m + w−1), where m is the partial time series data length to be searched, w is the time length to be searched, and n is the number of series. It becomes the capacity which can be stored.

ステップS102において、区間分割部13は、第1メモリ12から時系列データを読みだして、指定された区間時間の部分時系列データに分割する。本実施形態における部分時系列データとは、逐次流入してくる時間的に連続したデータ系列のうち、指定された区間時間の連続したデータ系列をいう。区間分割部13は新しい時系列データを受信するたびに、各時系列データの直近の長さmの部分時系列データを分割して、索引部15と類似ペア検索部17に部分時系列データを入力する。また、類似ペア検索部17から指定された時間の長さmの部分時系列データを分割して返す。図4は、区間分割部13が時系列データを部分時系列データに分割するときのイメージの図である。図中の

Figure 2013164811
は受信時刻tにおける系列のIDがiの部分時系列データを表している。 In step S102, the section dividing unit 13 reads the time series data from the first memory 12, and divides it into partial time series data of the designated section time. The partial time series data in the present embodiment refers to a continuous data series in a specified section time among temporally continuous data series that sequentially flow in. Every time new time series data is received, the section division unit 13 divides the partial time series data of the most recent length m of each time series data, and the partial time series data is sent to the index unit 15 and the similar pair search unit 17. input. In addition, the partial time-series data of the length m of time specified from the similar pair search unit 17 is divided and returned. FIG. 4 is a diagram of an image when the section dividing unit 13 divides time series data into partial time series data. In the figure
Figure 2013164811
The ID of the sequences in reception time t x represents a partial time-series data of i.

ステップS103において、類似判定部14は部分時系列データ間の類似度を計算する。本実施形態における類似度とは、2つの部分時系列データがどの程度類似しているかを数値で表す指標である。特に、本実施形態においては、2つの部分時系列データ

Figure 2013164811
の類似度Distにユークリッド距離を採用し、以下の通り定義する。
Figure 2013164811
In step S103, the similarity determination unit 14 calculates the similarity between the partial time series data. The similarity in the present embodiment is an index that expresses how similar two partial time-series data are numerically. In particular, in this embodiment, two partial time series data
Figure 2013164811
The Euclidean distance is adopted as the similarity degree Dist and is defined as follows.
Figure 2013164811

なお、本発明のいう類似度は、上記特徴を満たす様々な距離がその対象となるものであって、ユークリッド距離に限られない。具体的に一例を挙げると、Dynamic time warpingやEarth Mover’s Distance、編集距離、ハミング距離、Jaccard係数距離、コサイン類似度、マンハッタン距離、マハラノビス距離などを含む時系列データ間の類似度を表す距離であってよい。さらに、これらの距離に加えて、部分時系列のオフセットや振幅を調整したものに対する距離であってもよい。   It should be noted that the similarity referred to in the present invention is subject to various distances that satisfy the above characteristics, and is not limited to the Euclidean distance. Specifically, for example, distances representing similarity between time series data including Dynamic time warping, Earth Move's distance, editing distance, Hamming distance, Jaccard coefficient distance, cosine similarity, Manhattan distance, Mahalanobis distance, etc. It may be. Furthermore, in addition to these distances, distances to those adjusted for partial time series offset and amplitude may be used.

ステップS103において、索引部15は第2メモリ16に指定された時間範囲内の受信時刻に生成された複数の類似検索索引をキュー構造で管理する。本実施形態における類似検索索引とは、クエリとして与えた部分時系列データと蓄積した部分時系列データ間の類似度すべてを判別することなく、クエリとの類似度が閾値以内の蓄積した部分時系列データを探すためのデータ構造である。索引部15は、区間分割部13で分割した最新の受信時刻の部分時系列データを基準とした類似検索索引を1つ新たにつくり、第2メモリ16の索引を蓄積するキューに追加する。同時に、指定された時間範囲外の受信時刻の類似検索索引を第2メモリ16の索引を蓄積するキューから削除する。図5は、類似検索索引のキューを説明する図である。   In step S103, the index unit 15 manages a plurality of similar search indexes generated at the reception time within the time range specified in the second memory 16 in a queue structure. The similarity search index in the present embodiment is an accumulated partial time series in which the similarity with the query is within a threshold without determining all the similarities between the partial time series data given as a query and the accumulated partial time series data. A data structure for searching for data. The index unit 15 newly creates a similar search index based on the partial time-series data of the latest reception time divided by the section dividing unit 13 and adds the similar search index to the queue in which the index of the second memory 16 is accumulated. At the same time, the similar search index of the reception time outside the designated time range is deleted from the queue storing the index of the second memory 16. FIG. 5 is a diagram for explaining a queue of similar search indexes.

[類似検索索引の作成方法]
本実施形態における類似検索索引は、距離空間の類似検索索引Vantage Point Tree(VPT)(非特許文献2参照)を採用し、以下の手順で作成する。この索引は、基準となる部分時系列データ(基準部分時系列データ)1つと分割距離1つを定めて、基準部分時系列データからの距離と分割距離に基づいて索引対象の複数の部分時系列データを2つに分類することを繰り返して作成する。ここで、受信時刻tの部分時系列データ集合Sを2分類する例を説明する。基準となる系列pの部分時系列データS をSから一つ選び、Sを均等2分割できる距離をr としたとき、Sは、

Figure 2013164811
の2つの部分時系列データ集合SinとSoutに分類される。SinとSoutも同様にそれぞれで基準となる部分時系列データと分割距離を決めてさらに空間を2分類することを繰り返すことで、木構造の類似検索索引をつくる。この類似検索索引は、葉ノードと内部ノードという2種類のノードで構成される。葉ノードは木構造の末端のノードであり、内部ノードは末端以外に位置するノードをいう。分類のたびに必要となるS とr は、内部ノードを生成して管理する。十分に小さい数の部分時系列データ集合まで繰り返し分類して必要な数の内部ノードを生成した後は、葉ノードを生成してSを管理する。つまり、内部ノードは分類に必要な情報(S 、r )を管理し、葉ノードでは部分時系列データ集合を管理する。図6は、本実施形態の類似検索索引構造を説明する図である。 [How to create a similar search index]
The similarity search index in this embodiment employs a similarity search index Vantage Point Tree (VPT) (see Non-Patent Document 2) in the metric space, and is created by the following procedure. This index defines one partial time series data (reference partial time series data) and one division distance as a reference, and a plurality of partial time series to be indexed based on the distance and division distance from the reference partial time series data Create data by repeatedly classifying data into two. Here, an example of 2 classify partial time-series data set S t of reception time t. The partial time-series data S p t in relation to the standard sequence p select one from S t, and the distance that can be evenly divided into two S t was r p t, S t is
Figure 2013164811
Are classified into two partial time series data sets S in and S out . Similarly for S in and S out , a similar search index having a tree structure is created by repeatedly determining the partial time series data and the division distance as reference and further classifying the space into two. This similar search index is composed of two types of nodes, leaf nodes and internal nodes. The leaf node is a node at the end of the tree structure, and the internal node is a node located at a position other than the end. S p t and r p t required for each classification are generated by managing internal nodes. After iteratively classifying a sufficiently small number of partial time-series data sets and generating the required number of internal nodes, leaf nodes are generated and St is managed. That is, the internal node manages information (S p t , r p t ) necessary for classification, and the leaf node manages a partial time-series data set. FIG. 6 is a diagram for explaining the similar search index structure of the present embodiment.

なお、本発明のいう類似検索索引は上記特徴を満たす様々なデータ構造がその対象となるものであって、VPTに限られない。具体的な一例を挙げると、他の距離空間の類似検索索引M−treeやPM−tree、MVP−tree、sa−tree、iDistance、List of Clusters、AESA、LAESA、GNAT、D−indexなどを含む。さらに、これらの距離空間の類似検索索引に加えて、多次元空間を対象とする類似検索索引のR−treeやPriority R−tree、文字列データの類似検索索引、集合データの類似検索索引であってもよい。さらに、本発明の範囲はこれに限るものでなく、これらの索引に次元圧縮技術を組み合わせることも可能である。具体的な一例を挙げると、DFT、SVD、PAA、SAXなどを含む。部分時系列データが長くなり、次元数の増加によるデータ量の増大(『次元の呪い』)で枝刈りが不十分である場合は、これら次元圧縮技術を採用することで距離の上限値と下限値を索引付けに利用できる。   Note that the similar search index referred to in the present invention is intended for various data structures that satisfy the above characteristics, and is not limited to the VPT. Specific examples include similar search indexes for other metric spaces such as M-tree, PM-tree, MVP-tree, sa-tree, iDistance, List of Clusters, AESA, LAESA, GNAT, D-index, etc. . Furthermore, in addition to these metric space similar search indexes, there are similar search indexes R-tree and Priority R-tree for multi-dimensional spaces, similar search indexes for character string data, and similar search indexes for set data. May be. Further, the scope of the present invention is not limited to this, and it is possible to combine a dimensional compression technique with these indexes. Specific examples include DFT, SVD, PAA, SAX and the like. If partial time-series data is long and the pruning is insufficient due to an increase in the amount of data due to an increase in the number of dimensions ("curse of dimension"), the upper and lower limits of distance can be achieved by adopting these dimension compression techniques. Values can be used for indexing.

[類似データ検索方法]
ステップS104において、類似ペア検索部17は、区間分割部13で分割した最新の受信時刻の部分時系列データをクエリとして、第2メモリ16にキュー構造で管理されている受信時刻ごとの類似検索索引を使って、閾値よりもクエリと類似した部分時系列データを検索する。そして、類似ペア検索部17は、類似部分時系列データペアを出力する。ここでのデータペアとは、最新時刻の部分時系列データとこれに類似する部分時系列データのペアを意味する。類似ペア検索部17は、以下の手順を行い、類似部分時系列データペアを出力する。
[Similar data search method]
In step S104, the similar pair search unit 17 uses the latest reception time partial time-series data divided by the section division unit 13 as a query, and the similar search index for each reception time managed in the second memory 16 in a queue structure. Is used to search for partial time series data that is more similar to the query than the threshold. And the similar pair search part 17 outputs a similar partial time series data pair. The data pair here means a pair of partial time-series data at the latest time and similar partial time-series data. The similar pair search unit 17 performs the following procedure and outputs a similar partial time series data pair.

ここでは、上述のSがS とr によってSinとSoutの2つの部分時系列データ集合に分類されている構造を使った検索例を述べる。クエリとする時系列データ

Figure 2013164811
からrの距離の範囲にある時系列データを探したい場合を想定する。数5のクエリと空間分割の基準とした部分時系列データ
Figure 2013164811
との間の距離
Figure 2013164811
が、
1)
Figure 2013164811
のとき、Sinに含まれる部分時系列データを検索すれば十分で、Soutに含まれる時系列データ、つまりSoutを管理する内部ノードもしくは葉ノードは枝刈りできる。
2)
Figure 2013164811
のとき、Soutに含まれる時系列データを検索すれば十分で、Sinに含まれる時系列データ、つまりSinを管理する内部ノードもしくは葉ノードは枝刈りできる。
3) 上記1),2)のどちらの不等式も満たさない場合、SinとSoutの両方の時系列データを検索する必要がある。 Here, a search example using a structure in which the above-described S t is classified into two partial time-series data sets of S in and S out by S p t and r p t will be described. Time series data used as a query
Figure 2013164811
It is assumed that you want to find the time-series data is in the range of distances r q from. Partial time-series data based on 5 queries and space division
Figure 2013164811
Distance between
Figure 2013164811
But,
1)
Figure 2013164811
In this case, it is sufficient to search the partial time series data included in S in, and the time series data included in S out , that is, the internal node or leaf node that manages S out can be pruned.
2)
Figure 2013164811
When, it suffices to find the time-series data contained in the S out, the time-series data contained in the S in, ie internal nodes or leaf nodes to manage S in can be pruned.
3) When neither the inequality of 1) nor 2) is satisfied, it is necessary to search both time series data of S in and S out .

このような枝刈りを再帰的に実行する。つまり、図6の内部ノードをある程度たどって、枝刈りできない内部ノードや葉ノードにおいて検索を行う。図7は、類似検索索引を使った枝刈りのイメージの図である。上述の1)の条件に該当して、Soutに含まれる時系列データを枝刈りできる様子を表している。 Such pruning is performed recursively. In other words, the internal node shown in FIG. 6 is traced to some extent, and a search is performed for internal nodes and leaf nodes that cannot be pruned. FIG. 7 is a diagram of an image of pruning using a similar search index. And it satisfies the condition of the above 1), and represents a state capable of pruning time series data contained in the S out.

以上の手順で、データ検索装置301は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データペアを検索する。   With the above procedure, the data search device 301 searches for a partial time-series data pair that is more similar to the threshold value from a plurality of series of time-series data that has flowed in from the present within a certain period in the past.

(実施形態2)
図8は、本実施形態のデータ検索装置302を説明する図である。データ検索装置302は、逐次流入してくる複数系列の時系列データを受信する受信部11と、
受信部11が受信した前記時系列データを記憶する第1メモリ12と、
第1メモリ12から時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部13と、
区間分割部13が分割した前記部分時系列データについて互いの類似度を求める類似判定部14と、
前記部分時系列データを受信時刻で区別可能な構造を有し、類似判定部14が求めた前記類似度に基づく、区間分割部13で生成された部分時系列データの類似検索索引を作成する索引部15と、
索引部15で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリ16と、
区間分割部13で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて第2メモリ16から読み出す類似ペア検索部17と、
を備える。
(Embodiment 2)
FIG. 8 is a diagram illustrating the data search apparatus 302 according to this embodiment. The data search device 302 includes a receiving unit 11 that receives time-series data of a plurality of sequences that sequentially flows,
A first memory 12 for storing the time-series data received by the receiving unit 11;
An interval division unit 13 that reads time-series data from the first memory 12 and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit 14 for obtaining a similarity between the partial time-series data divided by the section dividing unit 13;
An index that has a structure in which the partial time-series data can be distinguished by reception time, and creates a similarity search index for the partial time-series data generated by the section division unit 13 based on the similarity obtained by the similarity determination unit 14 Part 15;
A second memory 16 for storing the similar search index created by the index unit 15 and adding the subsequent partial time series data as a queue to the similar search index while maintaining the structure of the similar search index;
A similar pair search unit 17 that reads out the partial time-series data similar to a specified threshold value from the second memory 16 using the similar search index, using the partial time-series data generated by the section dividing unit 13 as a query;
Is provided.

図9は、データ検索装置302が行うデータ検索方法を説明する図である。本データ検索方法は、逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき(ステップS201、S202)、
前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し(ステップS203〜ステップS205)、
検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出す(ステップS206)。
FIG. 9 is a diagram for explaining a data search method performed by the data search apparatus 302. This data search method divides time-series data of a plurality of series that are sequentially input into partial time-series data of a predetermined time, obtains a similarity between the partial time-series data, and determines the partial time-series data based on a reception time. One similar search index having a distinguishable structure and based on the similarity is created and stored (steps S201 and S202),
The subsequent partial time series data is added as a queue to the similar search index while maintaining the structure of the similar search index (steps S203 to S205),
Using the partial time-series data as a query at the time of search, partial time-series data similar to a specified threshold is read using the similar search index (step S206).

データ検索装置302において、受信部11、区間分割部13、類似判定部14、類似ペア検索部17及び第1メモリ12は図2のデータ検索装置301と同じ動作を行う。   In the data search device 302, the reception unit 11, the section division unit 13, the similarity determination unit 14, the similar pair search unit 17, and the first memory 12 perform the same operations as the data search device 301 in FIG.

索引部15は、ステップS202で一度類似検索索引を構築し、その後は内部ノードを変更せずに葉ノードのみを更新する(ステップS203〜S205)。本実施形態における類似検索索引も実施形態1と同様、距離空間の類似検索索引VPTのデータ構造を採用する。   The index unit 15 builds a similar search index once in step S202, and thereafter updates only the leaf node without changing the internal node (steps S203 to S205). Similar to the first embodiment, the similar search index in the present embodiment adopts the data structure of the similar search index VPT in the metric space.

ステップ(S201〜S202)では、受信部11にてn(m+w−1)の要素数を蓄積した後に、1つの類似検索索引を構築する。区間分割部13で切り出せる部分時系列データ集合を“S”とする。基準となる系列IDがpで受信時刻がtの部分時系列データ

Figure 2013164811
を“S”から一つ選び、“S”を均等2分割できる距離を
Figure 2013164811
とおく。“S”は、
Figure 2013164811
の2つの部分時系列データ集合SinとSoutに分類される。 In steps (S201 to S202), after the number of elements of n (m + w-1) is accumulated in the receiving unit 11, one similar search index is constructed. A partial time series data set that can be cut out by the section dividing unit 13 is assumed to be “S”. Partial time series data with reference series ID p and reception time t x
Figure 2013164811
Select one from “S” and set the distance that can divide “S” into two equal parts.
Figure 2013164811
far. “S” means
Figure 2013164811
Are classified into two partial time series data sets S in and S out .

inとSoutも同様にそれぞれで基準となる部分時系列データと分割距離を決めてさらに空間を2分類することを繰り返すことで、木構造の索引をつくる。十分に小さい数の部分時系列データ集合まで分類した後は、葉ノードとして“S”を管理する。このとき、葉ノードでは部分時系列データを受信時刻別にアクセスしやすいキュー構造で管理する。 S in the S out also by repeating two more classifying that the space determined the partial time-series data and dividing the distance as a reference in each similarly, creating an index of the tree structure. After classifying a sufficiently small number of partial time-series data sets, “S” is managed as a leaf node. At this time, the leaf node manages the partial time series data in a queue structure that is easy to access for each reception time.

このようにして、木構造の内部ノードでは

Figure 2013164811
を管理し、葉ノードでは部分時系列データ集合を管理する。図10は、類似検索索引の葉ノードにおけるキューを説明する図である。 In this way, in the internal node of the tree structure
Figure 2013164811
The leaf node manages a partial time series data set. FIG. 10 is a diagram for explaining a queue in the leaf node of the similar search index.

なお、本発明のいう類似検索索引は上記特徴を満たす様々なデータ構造がその対象となるものであって、VPTに限られず、実施形態1で示した類似検索索引であってもよい。さらに、これらの索引に実施形態1で示した次元圧縮技術を組み合わせることも可能である。   The similar search index referred to in the present invention is intended for various data structures satisfying the above characteristics, and is not limited to the VPT, and may be the similar search index shown in the first embodiment. Furthermore, it is possible to combine the dimensional compression technique shown in Embodiment 1 with these indexes.

索引構築後、ステップS203〜S205でデータ検索装置302は、新しく追加する部分時系列S を、該当する葉ノードに追加する。つまり、数13を管理する内部ノードがあった場合は、

Figure 2013164811
ならばSinを担当するノードを、
Figure 2013164811
ならばSoutを担当するノードを探索することを繰り返して、該当する葉ノードを探索する。そして、葉ノードが見つかったら、部分時系列データを蓄積するキューにS を追加する。なお、所定時間が経過した部分時系列データは葉ノードにおけるキューから削除される。 After the index built, the data search apparatus 302 in step S203~S205, the partial time series S i t the newly added, to add to the appropriate leaf node. In other words, if there is an internal node that manages the number 13,
Figure 2013164811
If the node in charge of S in,
Figure 2013164811
Then, the search for the node in charge of Sout is repeated to search for the corresponding leaf node. And, When you find leaf node, add the S i t in the queue for accumulating the partial time-series data. Note that the partial time series data for which a predetermined time has elapsed is deleted from the queue in the leaf node.

ステップS206は図3で説明したステップS104と同様である。類似ペア検索部17は、区間分割部13で分割した最新の受信時刻の部分時系列データをクエリとして、第2メモリ16に管理されている類似検索索引を使い、図6の内部ノードをある程度たどって、枝刈りできない内部ノードや葉ノードにおいて、閾値よりもクエリと類似した部分時系列データを検索する。そして、類似ペア検索部17は、類似部分時系列データペアを出力する。   Step S206 is the same as step S104 described in FIG. The similar pair search unit 17 uses the partial time-series data of the latest reception time divided by the section division unit 13 as a query and uses the similar search index managed in the second memory 16 to trace the internal nodes in FIG. 6 to some extent. Thus, in the internal node or leaf node that cannot be pruned, partial time series data that is more similar to the query than the threshold is searched. And the similar pair search part 17 outputs a similar partial time series data pair.

以上の手順で、データ検索装置302は、現在から過去の一定期間内に流入した複数系列の時系列データの中から、閾値よりも類似した部分時系列データペアを検索する。   With the above procedure, the data search device 302 searches for partial time-series data pairs that are more similar to the threshold value from a plurality of series of time-series data that have flowed in from the present within a certain period in the past.

11:受信部
12:第1メモリ
13:区間分割部
14:類似判定部
15:索引部
16:第2メモリ
17:類似ペア判定部
18:第3メモリ
301、302:データ検索装置
11: receiving unit 12: first memory 13: section dividing unit 14: similarity determining unit 15: index unit 16: second memory 17: similar pair determining unit 18: third memories 301 and 302: data search device

Claims (5)

逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記類似判定部が求めた前記類似度に基づき、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を受信時刻毎にキュー構造で記憶する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備えるデータ検索装置。
A receiving unit for receiving time series data of a plurality of series that sequentially flows;
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
Based on the similarity obtained by the similarity determination unit, an index unit that creates a similarity search index of the partial time-series data generated by the section division unit;
A second memory for storing the similar search index created by the index unit in a queue structure for each reception time;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
A data search device comprising:
逐次流入してくる複数系列の時系列データを受信する受信部と、
前記受信部が受信した前記時系列データを記憶する第1メモリと、
前記第1メモリから時系列データを読み出し、所定時間の部分時系列データに分割する区間分割部と、
前記区間分割部が分割した前記部分時系列データについて互いの類似度を求める類似判定部と、
前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似判定部が求めた前記類似度に基づく、前記区間分割部で生成された部分時系列データの類似検索索引を作成する索引部と、
前記索引部で作成された前記類似検索索引を記憶するとともに、前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記する第2メモリと、
前記区間分割部で生成された前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて前記第2メモリから読み出す類似ペア検索部と、
を備えるデータ検索装置。
A receiving unit for receiving time series data of a plurality of series that sequentially flows;
A first memory for storing the time-series data received by the receiving unit;
An interval dividing unit that reads time-series data from the first memory and divides the time-series data into partial time-series data of a predetermined time;
A similarity determination unit for obtaining a similarity between the partial time-series data divided by the section dividing unit;
An index that has a structure in which the partial time-series data can be distinguished by reception time, and creates a similarity search index for the partial time-series data generated by the section division unit based on the similarity obtained by the similarity determination unit And
A second memory for storing the similar search index created by the index unit and adding the subsequent partial time series data as a queue to the similar search index while maintaining the structure of the similar search index;
Using the partial time-series data generated by the section dividing unit as a query, a similar pair search unit that reads partial time-series data similar to a specified threshold value from the second memory using the similar search index;
A data search device comprising:
逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記類似度に基づく類似検索索引を作成して受信時刻毎にキュー構造で記憶しておき、
検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出すデータ検索方法。
A plurality of time series data that are sequentially input are divided into partial time series data of a predetermined time, the similarities of the partial time series data are obtained, and a similar search index based on the similarity is created for each reception time. In the queue structure,
A data search method for reading out partial time-series data similar to a specified threshold using the similar search index, using the partial time-series data as a query at the time of search.
逐次入力される複数系列の時系列データを所定時間の部分時系列データに分割し、前記部分時系列データについて互いの類似度を求め、前記部分時系列データを受信時刻で区別可能な構造を有し、前記類似度に基づく1つの類似検索索引を作成して記憶しておき、
前記類似検索索引の構造を維持したまま後続の前記部分時系列データを前記類似検索索引にキューとして追記し、
検索時に前記部分時系列データをクエリとして、指定された閾値よりも類似した部分時系列データを前記類似検索索引を用いて読み出すデータ検索方法。
The time series data of a plurality of series that are sequentially input is divided into partial time series data of a predetermined time, a similarity between the partial time series data is obtained, and the partial time series data can be distinguished by reception time. One similarity search index based on the similarity is created and stored,
The subsequent partial time series data is added as a queue to the similar search index while maintaining the structure of the similar search index,
A data search method for reading out partial time-series data similar to a specified threshold using the similar search index, using the partial time-series data as a query at the time of search.
請求項3又は4に記載のデータ検索方法をコンピュータに実行させるデータ検索プログラム。   A data search program for causing a computer to execute the data search method according to claim 3 or 4.
JP2012028791A 2012-02-13 2012-02-13 Data search device, data search method, and data search program Active JP5632862B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012028791A JP5632862B2 (en) 2012-02-13 2012-02-13 Data search device, data search method, and data search program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012028791A JP5632862B2 (en) 2012-02-13 2012-02-13 Data search device, data search method, and data search program

Publications (2)

Publication Number Publication Date
JP2013164811A true JP2013164811A (en) 2013-08-22
JP5632862B2 JP5632862B2 (en) 2014-11-26

Family

ID=49176108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012028791A Active JP5632862B2 (en) 2012-02-13 2012-02-13 Data search device, data search method, and data search program

Country Status (1)

Country Link
JP (1) JP5632862B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223069B2 (en) 2015-01-22 2019-03-05 Mitsubishi Electric Corporation Time-series data search device and computer readable medium
WO2019239964A1 (en) * 2018-06-15 2019-12-19 キヤノン株式会社 Information processing device, control method therefor, program, storage medium, and system
CN111309846A (en) * 2018-12-12 2020-06-19 中国移动通信集团四川有限公司 Index processing method, device, equipment and medium
CN111859066A (en) * 2020-06-03 2020-10-30 广东电网有限责任公司 Query recommendation method and device for operation and maintenance work order
CN115729981A (en) * 2022-11-29 2023-03-03 中国长江电力股份有限公司 Similar water regime data mining method based on editing distance and application thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240716A (en) * 1997-02-21 1998-09-11 Nec Corp Device for analyzing time sequential data and machine readable recording medium for recording program
JP2001125903A (en) * 1999-10-22 2001-05-11 Real World Computing Partnership Device and method for retrieving data sequence and recording medium
JP2002183206A (en) * 2000-12-15 2002-06-28 Mitsubishi Electric Corp Method and device for retrieving similar object
JP2004045565A (en) * 2002-07-09 2004-02-12 Sony Corp Method and device for detecting similar time series, program, and recording medium
JP2006227835A (en) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> Similar time series data computing apparatus, similar time series data computing method and similar time series data computing program
JP2006338373A (en) * 2005-06-02 2006-12-14 Toshiba Corp Multivariable time series data analyzing apparatus, method, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10240716A (en) * 1997-02-21 1998-09-11 Nec Corp Device for analyzing time sequential data and machine readable recording medium for recording program
JP2001125903A (en) * 1999-10-22 2001-05-11 Real World Computing Partnership Device and method for retrieving data sequence and recording medium
JP2002183206A (en) * 2000-12-15 2002-06-28 Mitsubishi Electric Corp Method and device for retrieving similar object
JP2004045565A (en) * 2002-07-09 2004-02-12 Sony Corp Method and device for detecting similar time series, program, and recording medium
US20040098225A1 (en) * 2002-07-09 2004-05-20 Mototsugu Abe Similar time series detection method and apparatus, program and recording medium
JP2006227835A (en) * 2005-02-16 2006-08-31 Nippon Telegr & Teleph Corp <Ntt> Similar time series data computing apparatus, similar time series data computing method and similar time series data computing program
JP2006338373A (en) * 2005-06-02 2006-12-14 Toshiba Corp Multivariable time series data analyzing apparatus, method, and program

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10223069B2 (en) 2015-01-22 2019-03-05 Mitsubishi Electric Corporation Time-series data search device and computer readable medium
WO2019239964A1 (en) * 2018-06-15 2019-12-19 キヤノン株式会社 Information processing device, control method therefor, program, storage medium, and system
JP2019219758A (en) * 2018-06-15 2019-12-26 キヤノン株式会社 Processing device, its control method, program, storage medium, and system
JP7129235B2 (en) 2018-06-15 2022-09-01 キヤノン株式会社 Information processing device, its control method, program, storage medium, and system
CN111309846A (en) * 2018-12-12 2020-06-19 中国移动通信集团四川有限公司 Index processing method, device, equipment and medium
CN111309846B (en) * 2018-12-12 2023-09-05 中国移动通信集团四川有限公司 Index processing method, device, equipment and medium
CN111859066A (en) * 2020-06-03 2020-10-30 广东电网有限责任公司 Query recommendation method and device for operation and maintenance work order
CN111859066B (en) * 2020-06-03 2023-01-20 广东电网有限责任公司 Query recommendation method and device for operation and maintenance work order
CN115729981A (en) * 2022-11-29 2023-03-03 中国长江电力股份有限公司 Similar water regime data mining method based on editing distance and application thereof
CN115729981B (en) * 2022-11-29 2024-02-13 中国长江电力股份有限公司 Editing distance-based similar water condition data mining method and application thereof

Also Published As

Publication number Publication date
JP5632862B2 (en) 2014-11-26

Similar Documents

Publication Publication Date Title
Yagoubi et al. Dpisax: Massively distributed partitioned isax
JP5678620B2 (en) Data processing method, data processing system, and data processing apparatus
CN100458779C (en) Index and its extending and searching method
JP5632862B2 (en) Data search device, data search method, and data search program
KR101266358B1 (en) A distributed index system based on multi-length signature files and method thereof
CN102693266B (en) Search for method, the navigation equipment and method of generation index structure of database
JP6183376B2 (en) Index generation apparatus and method, search apparatus, and search method
JP5711171B2 (en) Data search device, data search method, and data search program
CN112765405B (en) Method and system for clustering and inquiring spatial data search results
CN106897374B (en) Personalized recommendation method based on track big data nearest neighbor query
US11327985B2 (en) System and method for subset searching and associated search operators
Wang et al. Durable queries over historical time series
JP6079270B2 (en) Information provision device
JPWO2016006276A1 (en) Index generation apparatus and index generation method
Yadamjav et al. Querying recurrent convoys over trajectory data
JP2010277329A (en) Neighborhood retrieval device
Chen et al. Mining and clustering mobility evolution patterns from social media for urban informatics
CN103309951A (en) Method and device for searching multimedia file on the net
CN111177190B (en) Data processing method, device, electronic equipment and readable storage medium
Huang et al. Processing continuous K-nearest skyline query with uncertainty in spatio-temporal databases
Beecks et al. Index support for content-based multimedia exploration
JP5953262B2 (en) DATA INDEX DEVICE, DATA INDEX METHOD, AND PROGRAM
JP2013080403A (en) Table partitioning device, method, and program
CN103309939B (en) A kind of dynamic retrieval method based on metadata and device
Zhu et al. Process matching: A structural approach for business process search

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141010

R150 Certificate of patent or registration of utility model

Ref document number: 5632862

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150