JP6165367B2 - 時系列データ検索装置および時系列データ検索プログラム - Google Patents

時系列データ検索装置および時系列データ検索プログラム Download PDF

Info

Publication number
JP6165367B2
JP6165367B2 JP2016570424A JP2016570424A JP6165367B2 JP 6165367 B2 JP6165367 B2 JP 6165367B2 JP 2016570424 A JP2016570424 A JP 2016570424A JP 2016570424 A JP2016570424 A JP 2016570424A JP 6165367 B2 JP6165367 B2 JP 6165367B2
Authority
JP
Japan
Prior art keywords
segment
initial
value
training
initial segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016570424A
Other languages
English (en)
Other versions
JPWO2016117086A1 (ja
Inventor
隆顕 中村
隆顕 中村
誠 今村
誠 今村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2016117086A1 publication Critical patent/JPWO2016117086A1/ja
Application granted granted Critical
Publication of JP6165367B2 publication Critical patent/JP6165367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0264Control of logging system, e.g. decision on which data to store; time-stamping measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本発明は、時系列データを検索する技術に関するものである。
発電プラント、化学プラント、鉄鋼プラント、上下水道プラント等では、プラントのプロセスを制御するための制御システムが導入されている。ビルまたは工場等の設備でも、空調、電気、照明および給排水等を制御するための制御システムが導入されている。また、工場のラインの機器、自動車および鉄道車両には、機器の状態を把握するために、機器の状態を記録するロギングシステムが搭載されている。
これらのシステムでは、機器に取り付けられたセンサによって、時間の経過に従い得られた種々の時系列データが蓄積される。
時系列データは以下のように分析される。
最近の時系列データであるテスト時系列データから抽出した部分時系列データが過去の時系列データである訓練時系列データから抽出した部分時系列データと比較されて、訓練時系列データの部分時系列データと類似したテスト時系列データの部分時系列データが検索される。そして、この類似したテスト時系列データの部分時系列データの中でも、訓練時系列データの部分時系列データと最も類似しないテスト時系列データの部分時系列データが、特異点と検出される。そして、特異点の検出によって機器の異常が検出される。
部分時系列データは、時系列データからスライド時間窓幅の長さで抽出したデータであり、セグメントと呼ばれる。
テスト時系列データのセグメント毎に距離が最も近い訓練時系列データのセグメントを抽出し、訓練時系列データのセグメントとの距離が最も遠いテスト時系列データのセグメントが特異点である。セグメント間の距離の種類として、ユークリッド距離およびDTW距離が広く利用されている。DTWはDynamic Time Warpingの略称である。
ここで、上記の特異点検出方式を素朴な方式と呼ぶ。
素朴な方式では、訓練時系列データのセグメントとテスト時系列データのセグメントとの全ての組み合わせで距離を求めるため、計算量が大幅に増加する。
非特許文献1は、セグメント間の距離の計算よりも計算量が少ない指標を用いて距離の計算を打ち切ることによって、計算量を削減する方式を提案している。
非特許文献2は、テスト時系列データのセグメントと標本セグメントとを比較することによって、計算量を削減する方式を提案している。標本セグメントは、Exemplarと呼ばれ、訓練時系列データから類似したセグメントを集約して生成される。
非特許文献2の方式は、標本セグメントの数を十分に絞り込むことができれば、素朴な方式および非特許文献1の方式と比較して大幅に計算量を削減することができる。
しかし、非特許文献2の方式は、訓練時系列データを標本化することによって近似解を求める方式であるため、その誤差である近似誤差に注意する必要がある。
非特許文献2の方式において、標本セグメントとの距離が閾値以下のテストセグメントが存在する限り、そのテストセグメントと標本セグメントとの結合が繰り返される。その結果、近似誤差が増加し、近似誤差が許容範囲に収まることを保証できない。
また、標本セグメントに含まれる近似誤差を定量的に求めることもできないため、検索結果に含まれる誤差を評価することもできない。
非特許文献3は、セグメント間距離の閾値判定に用いる特徴量として複雑度を開示している。
Rakthanmanon, et al., Searching and mining trillions of time series subsequences under dynamic time warping, KDD ’12 Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining Pages 262−270. M Jones, et al., Anomaly Detection in Real−Valued Multidimensional Time Series, ASE Stanford University Conference, May 2014;Paper No. 027. Jesin Zakaria, Developing Efficient Algorithms for Data Mining Large Scale High Dimensional Data, UC Riverside Electronic Theses and Dissertations, 2013.,https://escholarship.org/uc/item/660316zp
本発明は、時系列データの検索に用いる標本セグメント集合を、近似誤差が許容範囲に収まることを保証した上で、高速に生成できるようにすることを目的とする。
本発明の時系列データ検索装置は、
時系列に並んだ複数のデータ値から成る訓練時系列データからW個のデータ値を時系列の順に抽出して得られる訓練セグメントを複数生成し、時系列の順に並んだ1つ以上の訓練セグメントから成る訓練一時セグメント集合を複数生成し、訓練一時セグメント集合のそれぞれの訓練セグメントに含まれるW個のデータ値がW次元の座標系の座標値として扱われた場合の訓練一時セグメント集合の重心の座標値、を表すW個のデータ値を初期セグメントとして訓練一時セグメント集合毎に算出し、訓練一時セグメント集合毎の初期セグメントから成る初期セグメント集合を生成する初期セグメント集合生成部と、
前記初期セグメント集合を、半径の条件である条件半径を有するW次元の図形毎に図形に含まれる座標値を表すデータ値から成る初期セグメントで構成される初期一時セグメント集合に分割し、初期一時セグメント集合の図形の重心の座標値を表すW個のデータ値から成る標本セグメントを初期一時セグメント集合毎に含む標本セグメント集合を生成する標本セグメント集合生成部と、を備える。
本発明によれば、時系列データの検索に用いる標本セグメント集合を高速に生成することができる。
実施の形態1における時系列データ検索装置100の機能構成図。 実施の形態1における時系列データ検索装置100のハードウェア構成図。 実施の形態1における時系列データ検索方法のフローチャート。 実施の形態1における初期セグメント集合生成処理(S110)のフローチャート。 実施の形態1における標本セグメント集合生成処理(S130)のフローチャート。 実施の形態1における標本セグメント集合生成処理(S130)の第2ループ処理(S132)のフローチャート。 実施の形態1における検索結果距離算出処理(S150)のフローチャート。 実施の形態7における初期セグメント集合生成処理(S110)のフローチャート。 実施の形態7における標本セグメント集合生成処理(S130)のフローチャート。 実施の形態7における標本セグメント集合生成処理(S130)の第2ループ処理(S132)のフローチャート。 各実施の形態における標本セグメントに関する概念図。 各実施の形態における標本セグメントに関する概念図。 各実施の形態における標本セグメントに関する概念図。 各実施の形態における標本セグメントに関する概念図。 各実施の形態における標本セグメントに関する概念図。 各実施の形態における標本セグメントに関する概念図。
実施の形態1.
時系列データの検索に用いる標本セグメント集合を高速に生成する形態について、図1から図7に基づいて説明する。
時系列データの類似検索の考え方について説明する。
時系列データから幅Wの窓によって切り出された部分時系列データは、W次元のベクトルとみなすことができる。よって、訓練時系列データの部分時系列データである訓練セグメントと、テスト時系列データの部分時系列データであるテストセグメントとの距離を求める処理は、W次元空間の2点の座標間の距離を求める処理とみなすことができる。
また、テスト時系列データの特異点検出は、訓練セグメントの集合から最も離れたテストセグメントを見つける処理とみなすことができる。
そして、時系列データの類似検索はW次元空間の近傍検索とみなすことができる。
時系列データが有する第1から第3の特性について説明する。
第1の特性はデータ値の連続性である。温度などの物理現象の計測値の多くは連続的に変化する。また、機械的に制御された機器の計測値は急激に変化しない。例えば、急な電圧の変化は機器の故障の原因になるため、機器にかける電圧は徐々に変化される。
第2の特性はデータ値の周期性である。機器の動作は人間の活動または気象現象に強い相関を持つ。そのような機器の時系列データは、1日、1週間または1年など単位で周期性を持つ。また、プログラムに従って反復動作する機器の時系列データにも、同じようなパターンが繰り返して現れる。
第3の特性はデータ値の局在性である。制御された機器の時系列データに含まれる計測値は所定範囲の値である。そのような時系列データのセグメントは、多次元空間の限られた領域に集中する。例えば、計測値が正の値になるように制御される機器の時系列データのセグメントは、多次元空間の全ての次元における正の領域に含まれる。
***構成の説明***
図1に基づいて、時系列データ検索装置100の機能構成について説明する。
時系列データ検索装置100は、時系列データ取得部110と、パラメータ取得部111と、初期セグメント集合生成部120と、初期セグメント集合ソート部130と、標本セグメント集合生成部140とを備える。さらに、時系列データ検索装置100は、標本セグメント集合ソート部150と、検索結果距離算出部160と、検索結果距離出力部161と、データ記憶部190とを備える。
時系列データ取得部110は、時系列データ検索装置100に入力される訓練時系列データSおよびテスト時系列データTを取得する。
訓練時系列データSおよびテスト時系列データTは、時系列に並んだ複数のデータ値から成る時系列データである。
パラメータ取得部111は、時系列データ検索装置100に入力されるスライド幅Wおよび近似誤差εを入力する。
スライド幅Wは、訓練時系列データSから抽出される訓練セグメントおよびテスト時系列データTから抽出されるテストセグメントに含まれるデータ値の個数である。スライド幅Wはスライド時間窓幅とも呼ばれる。
近似誤差εは許容される誤差の大きさである。パラメータ取得部111は近似誤差εを算出するためのパラメータを用いて近似誤差εを算出してもよい。
初期セグメント集合生成部120は、訓練時系列データSからW個のデータ値を時系列の順に抽出して得られる訓練セグメントを複数生成し、時系列の順に並んだ1つ以上の訓練セグメントから成る訓練一時セグメント集合を複数生成する。初期セグメント集合生成部120は、訓練一時セグメント集合毎に初期セグメントを算出する。初期セグメントは、訓練一時セグメント集合のそれぞれの訓練セグメントに含まれるW個のデータ値がW次元の座標系の座標値として扱われた場合の訓練一時セグメント集合の重心の座標値、を表すW個のデータ値である。そして、初期セグメント集合生成部120は、訓練一時セグメント集合毎の初期セグメントから成る初期セグメント集合Fを生成する。
訓練一時セグメント集合に複数の訓練セグメントが含まれる場合、複数の訓練セグメントのうちの時系列の順の先頭の訓練セグメントと残りの訓練セグメントとの距離は条件半径ε/2以下である。
初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメント毎に、初期セグメントに含まれるデータ値を用いて、初期セグメントの特徴量を算出する。そして、初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメントを特徴量の順にソートする。
標本セグメント集合生成部140は、初期セグメント集合Fを1つ以上の初期一時セグメント集合に分割する。初期一時セグメント集合は、半径の条件である条件半径ε/2を有するW次元の図形(後述する球B)毎に図形に含まれる座標値を表すデータ値から成る初期セグメントで構成される。そして、標本セグメント集合生成部140は、初期一時セグメント集合毎の標本セグメントを含む標本セグメント集合Eを生成する。標本セグメントは、初期一時セグメント集合の図形の重心の座標値を表すW個のデータ値から成る。図形の重心は図形の中心と言い換えることもできる。
初期一時セグメント集合は第1の図形に含まれる1つ以上の初期セグメントから成る。第1の図形はソート後の初期セグメント集合Fのうちの先頭の初期セグメントが表す座標値を含む図形である。
先頭の初期セグメントを除いて第1の初期一時セグメント集合に含まれる初期セグメントは初期セグメント判定によって判定される。初期セグメント判定は、先頭の初期セグメントの次の初期セグメントから順に、初期セグメントが第1の図形に含まれるか判定する処理である。
特徴量差が特徴量差の条件である特徴量差範囲に含まれる場合、選択された初期セグメントに対する初期セグメント判定が行われる。この特徴量差は、次の初期セグメントから順に選択された初期セグメントの特徴量と、第1の図形の重心である第1の重心の座標値から算出される第1の重心の特徴量との差である。
特徴量差が特徴量差範囲に含まれない場合、選択された初期セグメント以降の初期セグメントに対する初期セグメント判定が行われない。
選択された初期セグメントに対する初期セグメント判定において、選択された初期セグメントが表す座標値の座標と第1の重心の座標との距離が条件半径ε/2以下である場合に、選択された初期セグメントが第1の図形に含まれると判定される。
初期セグメントの特徴量は初期セグメントに含まれるデータ値の平均値である。
第1の重心の特徴量は第1の図形の重心の座標値がW個のデータ値として扱われた場合のデータ値の平均値である。
標本セグメント集合ソート部150は、標本セグメント集合Eに含まれる標本セグメント毎に、標本セグメントに含まれるデータ値を用いて、標本セグメントの特徴量を算出する。そして、標本セグメント集合ソート部150は、標本セグメント集合Eに含まれる標本セグメントを特徴量の順にソートする。
検索結果距離算出部160は、テスト時系列データTからW個のデータ値を時系列の順に抽出して得られるテストセグメントを複数生成する。検索結果距離算出部160は、テストセグメントと標本セグメント集合Eに含まれる標本セグメントとの組み合わせ毎にテストセグメントと標本セグメントとのセグメント間距離を算出する。そして、検索結果距離算出部160は、テストセグメント毎にテストセグメントといずれかの標本セグメントとのセグメント間距離を検索結果距離Zとして選択する。
検索結果距離Zは最小のセグメント間距離である。
検索結果距離出力部161は、テストセグメント毎の検索結果距離を出力する。
データ記憶部190は、時系列データ検索装置100が使用、生成または入出力するデータを記憶する。
図2に基づいて、時系列データ検索装置100のハードウェア構成例について説明する。
時系列データ検索装置100は、プロセッサ901、補助記憶装置902、メモリ903、通信装置904、入力インタフェース905、ディスプレイインタフェース906といったハードウェアを備えるコンピュータである。
プロセッサ901は信号線910を介して他のハードウェアと接続されている。入力インタフェース905はケーブル911を介して入力装置907に接続されている。ディスプレイインタフェース906はケーブル912を介してディスプレイ908に接続されている。
プロセッサ901は、プロセッシングを行うIC(Integrated Circuit)であり、他のハードウェアを制御する。例えば、プロセッサ901は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。
補助記憶装置902は、例えば、ROM(Read Only Memory)、フラッシュメモリ、HDD(Hard Disk Drive)である。
メモリ903は、例えば、RAM(Random Access Memory)である。
通信装置904は、データを受信するレシーバ9041と、データを送信するトランスミッタ9042とを備える。例えば、通信装置904は通信チップまたはNIC(Network Interface Card)である。
入力インタフェース905はケーブル911が接続されるポートであり、ポートの一例はUSB(Universal Serial Bus)端子である。
ディスプレイインタフェース906はケーブル912が接続されるポートであり、ポートの一例はUSB端子またはHDMI(High Definition Multimedia Interface)端子である。HDMIは登録商標である。
入力装置907は、例えば、マウス、キーボードまたはタッチパネルである。
ディスプレイ908は、例えば、LCD(Liquid Crystal Display)である。
補助記憶装置902には、OS(Operating System)が記憶されている。また、補助記憶装置902には、時系列データ検索装置100に備わる時系列データ取得部110、パラメータ取得部111、初期セグメント集合生成部120、初期セグメント集合ソート部130、標本セグメント集合生成部140、標本セグメント集合ソート部150、検索結果距離算出部160、検索結果距離出力部161といった「部」の機能を実現するプログラムが記憶されている。
OSの少なくとも一部はメモリ903にロードされ、プロセッサ901はOSを実行しながら「部」の機能を実現するプログラムを実行する。「部」の機能を実現するプログラムは、メモリ903にロードされ、プロセッサ901に読み込まれ、プロセッサ901によって実行される。
なお、時系列データ検索装置100が複数のプロセッサ901を備えて、複数のプロセッサ901が「部」の機能を実現するプログラムを連携して実行してもよい。
「部」の処理の結果を示すデータ、情報、信号値および変数値などは、メモリ903、補助記憶装置902、プロセッサ901内のレジスタ、または、プロセッサ901内のキャッシュメモリに記憶される。
「部」は「サーキットリ」で実装してもよい。「部」は「回路」、「工程」、「手順」または「処理」に読み替えてもよい。
「回路」及び「サーキットリ」は、プロセッサ901、ロジックIC、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)といった処理回路を包含する概念である。
***動作の説明***
図3に基づいて、時系列データ検索装置100の時系列データ検索方法を構成する各処理の概要を説明する。その後、各処理の詳細について説明する。
S110は初期セグメント集合生成処理である。
S110において、初期セグメント集合生成部120は、訓練時系列データSから初期セグメント集合Fを生成する。
S120は初期セグメント集合ソート処理である。
S120において、初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメント毎に特徴量を算出し、初期セグメント集合Fに含まれる初期セグメントを特徴量の昇順にソートする。
S130は標本セグメント集合生成処理である。
S130において、標本セグメント集合生成部140は、ソート後の初期セグメント集合Fから標本セグメント集合Eを生成する。
S140は標本セグメントソート処理である。
S140において、標本セグメント集合ソート部150は、標本セグメント集合Eに含まれる標本セグメント毎に特徴量を算出し、標本セグメント集合Eに含まれる標本セグメントを特徴量の昇順にソートする。
S150は検索結果距離算出処理である。
S150において、検索結果距離算出部160は、標本セグメント集合Eを用いて、テスト時系列データTに含まれるテストセグメント毎の検索結果距離Zを算出する。
S160は検索結果距離出力処理である。
S160において、検索結果距離出力部161は、テストセグメント毎の検索結果距離Zを出力する。
以降の説明に用いる表記について説明する。
訓練時系列データSは、データ長Mを用いて、S={S[0],S[1],・・・,S[M−1]}で表される。つまり、訓練時系列データSはS[0]からS[M−1]までのM個のデータ値から成る。
i番目の訓練セグメントSは、スライド幅Wを用いて、S=S[i:i+W−1]で表される。つまり、i番目の訓練セグメントSは、S[i]からS[i+W−1]までのW個のデータ値から成る。
テスト時系列データTは、データ長Nを用いて、T={T[0],T[1],・・・,T[N−1]}で表される。つまり、テスト時系列データTはT[0]からT[N−1]までのN個のデータ値から成る。
i番目のテストセグメントTは、スライド幅Wを用いて、T=T[i:i+W−1]で表される。つまり、i番目のテストセグメントTは、T[i]からT[i+W−1]までのW個のデータ値から成る。
図4に基づいて、初期セグメント集合生成処理(S110)について説明する。
S111において、初期セグメント集合生成部120は、初期セグメント集合Fを初期化する。初期化された初期セグメント集合Fは初期セグメントを含まない。
S112からS116までの処理は、変数iの値が0からインクリメントされてM−W+1になるまで繰り返し実行される。訓練セグメントSは変数iの値が示す番号の訓練セグメントである。M−W+1は最終の訓練セグメントの番号である。図4において、S112からS117までの処理のループを第1ループとする。
S112において、初期セグメント集合生成部120は、訓練一時セグメント集合Uを初期化し、訓練一時セグメント集合Uに訓練セグメントSを追加する。このとき、訓練一時セグメント集合Uは訓練セグメントSだけを含む。
S113からS115までの処理は、変数jの値がi+1からインクリメントされてM−W+1になるまで繰り返し実行される。訓練セグメントSは変数jの値が示す番号の訓練セグメントである。図4において、S113からS115までの処理のループを第2ループという。
S113において、初期セグメント集合生成部120は、訓練セグメントSと訓練セグメントSとのセグメント間距離dを算出する。このセグメント間距離dの種類はユークリッド距離である。
S114において、初期セグメント集合生成部120は、セグメント間距離dがε/2以下であるか判定する。
セグメント間距離dがε/2以下である場合(YES)、処理はS115に進む。
セグメント間距離dがε/2より大きい場合(NO)、処理はS116に進む。
S115において、初期セグメント集合生成部120は、訓練一時セグメント集合Uに訓練セグメントSを追加する。
S116において、初期セグメント集合生成部120は、訓練一時セグメント集合Uに含まれるそれぞれの訓練セグメントが表す座標の重心を算出する。この重心の座標を表すW個のデータ値が初期セグメントである。
訓練一時セグメント集合Uの重心Cent(U)は以下の式<1>で求められる。
式<1>において、Uは{S,S,・・・,S}であり、|U|はデータ長(h+1)である。また、F[j]は初期セグメントFのj番目の要素である。
Figure 0006165367
そして、初期セグメント集合生成部120は、初期セグメントを初期セグメント集合Fに追加する。
S116の後、処理は第2ループを抜けてS117に進む。
S117において、初期セグメント集合生成部120は変数iの値を変数jの値に更新する。
図4の処理によって、訓練時系列データSを先頭から末尾に向かって一方向に走査するだけで、初期セグメント集合Fを生成することができる。
初期セグメント集合生成処理(S110)は時系列データの第1の特性であるデータ値の連続性を利用した処理であり、連続するセグメント同士の座標の距離は近いと仮定される。よって、連続するセグメントを探索するだけでも、類似したセグメントを見つけることができる。
そして、訓練時系列データSが先頭から走査されて、半径がε/2である球に含まれる訓練セグメントの集合である訓練一時セグメント集合Uが抽出されて、訓練一時セグメント集合Uの重心が初期セグメントとして算出される。
初期セグメント集合ソート処理(S120)について説明する。
初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメント毎に特徴量を算出し、初期セグメント集合Fに含まれる初期セグメントを特徴量の昇順にソートする。
初期セグメントの特徴量は初期セグメントに含まれるW個のデータ値の平均値である。
初期セグメントFがF={F[0],F[1],・・・,F[W−1]}で表される場合、初期セグメントFの平均値Mean(F)は以下の式<2>で表すことができる。
初期セグメントFの平均値Mean(F)は、初期セグメントFの座標が以下の式<3>によって定義されるW次元空間の平面に位置することを意味する。式<3>において、Xはi番目の座標軸における座標値である。このW次元空間の平面は、W個の座標{(W*Mean(F),0,・・・,0)、(0,W*Mean(F),・・・,0)、・・・、(0,0,・・・,W*Mean(F))}を通る平面である。
Figure 0006165367
+x+・・・+xW−1=W*Mean(F) ・・・<3>
初期セグメント集合ソート処理(S120)は、時系列データの第2の特性であるデータ値の周期性を利用するための処理である。
初期セグメント集合Fに含まれる初期セグメントを平均値の昇順にソートすることによって、時間的には近くないが距離的には近い初期セグメント同士を近くに並べることができる。
図5に基づいて、標本セグメント集合生成処理(S130)について説明する。
S130−1において、標本セグメント集合生成部140は、標本セグメント集合Eを初期化する。初期化された標本セグメント集合Eは標本セグメントを含まない。
S131−1からS131−6までの処理は、変数iの値が0からインクリメントされて値rになるまで繰り返し実行される。値rは初期セグメント集合Fに含まれる最終の初期セグメントの番号である。但し、変数iの値が初期セグメント集合Fから除去された初期セグメントの番号である場合、除去された初期セグメントに対する処理はスキップされて、変数iの値はインクリメントされる。
初期セグメントFは変数iの値が示す番号の初期セグメントである。図5において、S131−1からS131−6までの処理のループを第1のループとする。
S131−1において、標本セグメント集合生成部140は、初期セグメントFを含む球Bの重心Cを決定する。球Bの半径はε/2である。
球Bの重心Cとして、以下の(1)から(3)に示す重心Cが挙げられる。
(1)初期セグメントFが表す座標値が重心Cである。
(2)初期セグメントFの座標値と初期セグメントFの座標値とのセグメント間距離dがε以下である場合、初期セグメントFの座標値と初期セグメントFの座標値との中間の座標値が重心Cである。初期セグメントFは、後述するセグメント間距離の条件を満たす最初の初期セグメントまたは最後の初期セグメントである。初期セグメントFは、セグメント間距離の条件を満たす初期セグメントのうち、最大のセグメント間距離の初期セグメントであってもよい。なお、初期セグメントFは初期セグメントFより後の初期セグメントである。
(3)時系列データは上記第3の特性であるデータ値の局在性を有する。そのため、W次元空間において、セグメントの座標は原点と座標(1,1,・・・,1)とを通る基本ベクトルVの周辺に分布すると考えられる。この場合、初期セグメントFの座標を通って基本ベクトルVと平行なベクトルに沿って、初期セグメントFの座標から正の方向にε/2だけ進んだ座標の座標値が重心Cである。この重心Cは初期セグメントF[l](0≦l<W)にε/(2*√W)を加えた値である。
S131−1において、球Bの重心Cを決定すると、標本セグメント集合生成部140は重心Cの特徴量D(C)を算出する。
重心Cの特徴量D(C)を算出する方法は、S120において初期セグメントFの特徴量を算出する方法と同じである。但し、上記の式<2>において、FはCに置き換えられる。
S131−2において、標本セグメント集合生成部140は、初期一時セグメント集合Uを初期化し、初期一時セグメント集合Uに初期セグメントFを追加する。このとき、初期一時セグメント集合Uは初期セグメントFだけを含む。
S131−3において、標本セグメント集合生成部140は、初期セグメントFを初期セグメント集合Fから除去する。
S131−4において、標本セグメント集合生成部140は、変数Skipに−1を設定する。変数Skipは、球Bに含まれなかった最初の初期セグメントFの番号を示す変数である。
S132において、標本セグメント集合生成部140は第2ループ処理を行う。第2ループ処理(S132)については後述する。
S131−5において、標本セグメント集合生成部140は、標本セグメント集合Eに重心Cを追加する。
S131−6において、標本セグメント集合生成部140は変数iの値を更新する。
変数Skipの値が正の値である場合、変数iの値は変数Skipの値に更新される。
変数Skipの値が負の値(−1)である場合、変数iの値は、第2ループ処理(S132)で設定される変数jの値に更新される。
図6に基づいて、第2ループ処理(S132)について説明する。
S132−1からS132−7までの処理は、変数jの値がi+1からインクリメントされて値rになるまで繰り返し実行される。但し、変数jの値が初期セグメント集合Fから除去された初期セグメントの番号である場合、除去された初期セグメントに対する処理はスキップされて、変数jの値はインクリメントされる。
初期セグメントFは変数jの値が示す番号の初期セグメントである。図6において、S132−1からS132−6までの処理のループを第2のループとする。
S132−1において、標本セグメント集合生成部140は、初期セグメントFの特徴量D(F)と重心Cの特徴量D(C)との特徴量差がε/(2*√W)より大きいか判定する(セグメント間距離の条件)。初期セグメントFの特徴量D(F)は初期セグメント集合ソート処理(S120)で算出された値である。
特徴量差がε/(2*√W)より大きい場合、初期セグメントFの座標を含む平面と重心Cの座標を含む平面との距離はε/2を超えるため、初期セグメントFの座標は球Bの外側に位置する。したがって、初期セグメントFの座標と重心Cの座標との距離を直接計算しなくても、球Bの外側に位置する座標の初期セグメントFを判定することができる。
S132−1における条件式|D(F)−D(C)|>ε/(2*√W)は、以下の式<4>および式<5>に基づいて得られる。
式<4>は、W次元空間において、平均値がDである第1の座標を含む平面と平均値がDである第2の座標を含む平面との距離を求める式である。
したがって、第1の座標と第2の座標との距離がdε以下であるためには、式<5>を満たす必要がある。
Figure 0006165367
特徴量差がε/(2*√W)より大きい場合(YES)、処理は第2ループを抜けてS131−5(図5参照)に進む。
特徴量差がε/(2*√W)以下である場合(NO)、処理はS132−2に進む。
S132−2において、標本セグメント集合生成部140は、重心Cの座標と初期セグメントFの座標との距離であるセグメント間距離dを算出する。このセグメント間距離dの種類はユークリッド距離である。
S132−3において、標本セグメント集合生成部140は、セグメント間距離dがε/2以下であるか判定する。
セグメント間距離dがε/2以下である場合(YES)、処理はS132−4に進む。
セグメント間距離dがε/2より大きい場合(NO)、処理はS132−6に進む。
S132−4において、標本セグメント集合生成部140は、初期一時セグメント集合Uに初期セグメントFを追加する。
S132−5において、標本セグメント集合生成部140は、初期セグメント集合Fから初期セグメントFを除去する。
S132−6において、変数Skipが負の値(−1)である場合、標本セグメント集合生成部140は変数Skipに変数jの値を設定する。負の値以外の場合は、何もしない。
図5および図6の処理によって、初期セグメント集合Fを先頭から末尾に向かって一方向に走査するだけで、標本セグメント集合Eを生成することができる。
標本セグメントソート処理(S140)について説明する。
標本セグメント集合ソート部150は、標本セグメント集合Eに含まれる標本セグメント毎に特徴量を算出し、標本セグメント集合Eに含まれる標本セグメントを特徴量の昇順にソートする。
標本セグメントEの特徴量を算出する方法は、S120において初期セグメントFの特徴量を算出する方法と同じである。但し、上記の式<2>において、FはEに置き換えられる。
図7に基づいて、検索結果距離算出処理(S150)について説明する。
S151からS154の処理は、変数iの値が0からインクリメントされてN−W+1になるまで繰り返し実行される。テストセグメントTは変数iの値が示す番号のテストセグメントである。N−W+1は最終のテストセグメントの番号である。検索結果距離Z[i]はテストセグメントTの検索結果距離Zである。図7において、S151からS154までの処理のループを第1ループとする。
S151において、検索結果距離算出部160は、検索結果距離Z[i]に無限大を設定する。
S152からS154までの処理は、変数jの値が0からインクリメントされて値eになるまで繰り返し実行される。値eは標本セグメント集合Eに含まれる最終の標本セグメントの番号である。図7において、S152からS154までの処理のループを第2ループとする。
S152において、検索結果距離算出部160は、テストセグメントTと標本セグメントEとのセグメント間距離dを算出する。このセグメント間距離dの種類はユークリッド距離である。但し、このセグメント間距離dの種類はDTW距離または他の種類の距離であってもよい。
S153において、検索結果距離算出部160は、セグメント間距離dが検索結果距離Z[i]より小さいか判定する。
セグメント間距離dが検索結果距離Z[i]より小さい場合(YES)、処理はS154に進む。
セグメント間距離dが検索結果距離Z[i]以上である場合(NO)、S154の処理は行われない。
S154において、検索結果距離算出部160は、検索結果距離Z[i]をセグメント間距離dで更新する。
検索結果距離出力処理(S160)について説明する。
検索結果距離出力部161は、テストセグメント毎の検索結果距離Zを出力する。
テストセグメントの検索結果距離Zが大きい場合、そのテストセグメントはいずれの標本セグメントとも類似しない。言い換えると、そのテストセグメントはいずれの訓練セグメントとも類似しない。
したがって、テストセグメントの検索結果距離Zが他のセグメントと比べて相対的に大きい場合、そのテストセグメントはテスト時系列データTの特異点とみなすことができる。
時系列データ検索方法において、近似誤差εを半径として有する球に含まれる座標のセグメントを代表する標本セグメントは、初期セグメントとして半径がε/2である球を求める初期セグメント集合生成処理(S110)と、半径がε/2である同一の球に含まれる初期セグメントを結合して標本セグメントを求める標本セグメント集合生成処理(S130)との2段階の処理によって求められた。
W次元空間において、標本セグメントは、近似誤差εを半径として有する多次元超球の重心であり、その球に含まれる座標を表す訓練セグメントを代表する。つまり、テストセグメントと標本セグメントとのセグメント間距離dは、テストセグメントと訓練セグメントとのセグメント距離がd±εの範囲に含まれることを意味する。
一方、テストセグメントと訓練セグメントとのセグメント間距離を標本セグメントを用いずに算出する場合、多くの計算量が必要になる。例えば、テストセグメントと訓練セグメントとのそれぞれの個数がNである場合、N個のセグメント間距離を計算する必要がある。そのため、標本セグメントの数が最小となるように、標本セグメントを選択するのが理想である。言い換えると、最適な半径を有する最適な球を選択するのが理想であるが、最適な半径を有する最適な球を多次元空間から選択するためには、セグメントの密度分布を調べるなど、多くの計算量が必要になる。最適な球の選択は、最終的な標本セグメントの数が最小になる球の選択の他に、球に含まれる標本セグメントの数が最大になる球の選択も意味する。
実施の形態では、最適な球の選択よりも、計算量の削減を優先した。
***効果の説明***
時系列データ検索装置100は、近似誤差εを厳密に半径として有する球に含まれる訓練セグメントの集合の代表として、標本セグメントを生成することができる。これにより、類似検索における近似誤差εを保証することができる。
また、時系列データ検索装置100は、訓練時系列データSを先頭から1回走査するだけで初期セグメント集合Fを生成して、初期セグメント集合Fを先頭から1回走査するだけで標本セグメント集合Eを生成することができる。
したがって、近似誤差εが保証された標本セグメントを訓練時系列データSから高速に抽出することができる。
実施の形態2.
平均値とは異なる特徴量を用いる形態について説明する。但し、実施の形態1と重複する説明は省略する。
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140は実施の形態1と以下のように異なる。
S120において、初期セグメントFの特徴量D(F)は、初期セグメントFが表すが座標値の座標と基準点との距離である。
基準点はW次元空間の原点0={0,0,・・・,0}である。その場合、初期セグメントFはD(F)を半径として有する球面に位置する。但し、基準点は原点0以外の座標であってもよい。
S130において、重心Cの特徴量D(C)は重心Cと基準点との距離である。
S132−1(図6参照)において、特徴量D(F)と特徴量D(C)との特徴量差がε/2より大きいか判定される。この条件式|D(F)−D(C)|>ε/2は、以下の式<6>および式<7>に基づいて得られる。
式<6>は、W次元空間において、基準点からの距離がDである第1の座標と基準点からの距離がDである第2の座標との距離の最小値を求める式である。
したがって、第1の座標と第2の座標との距離がdε以下であるためには、式<7>を満たす必要がある。
Figure 0006165367
基準点が原点0である場合、初期セグメントFの座標と重心Cの座標との距離の範囲は、以下の式<8>で表すことができる。
式<8>は、初期セグメントFが分散しているため初期セグメントFと基準点との距離が|D(F)+D(C)|を超えることが多い場合、S132−1において探索をより早く打ち切ることができることを意味する。
Figure 0006165367
S140において、標本セグメントEの特徴量D(E)は、標本セグメントEが表す座標値の座標と基準点との距離である。
***効果の説明***
初期セグメントが分散している場合、時系列データ検索装置100は、標本セグメントを生成するための探索を早く打ち切り、標本セグメント集合を高速に生成することができる。
実施の形態3.
平均値とは異なる特徴量を用いる形態について説明する。但し、実施の形態1と重複する説明は省略する。
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120およびS140は実施の形態1と以下のように異なる。
S120において、初期セグメントの特徴量は、初期セグメントから抽出される初期部分セグメントに含まれるデータ値を平均した部分平均値である。つまり、初期セグメント集合Fに含まれる初期セグメントは部分平均値の順にソートされる。
初期部分セグメントを抽出する方法として、以下の(1)および(2)の方法が挙げられる。
(1)初期セグメントF[i:i+W−1]の前半部分Fi(f)[i:(i+W−1)/2]または後半部分Fi(b)[(i+W−1)/2:i+W−1]が初期部分セグメントとして抽出される。
(2)初期セグメントF[i:i+W−1]を4等分して得られる第1部分Fi(1)[i:(i+W−1)/4]および第3部分Fi(3)[(i+W−1)/2:(i+W−1)*3/4]が初期部分セグメントとして抽出される。または、第2部分Fi(2)[(i+W−1)/4:(i+W−1)/2]および第4部分Fi(4)[(i+W−1)*3/4:i+W−1]が初期部分セグメントとして抽出される。
S140において、標本セグメントの特徴量は、標本セグメントから抽出される標本部分セグメントに含まれるデータ値を平均した部分平均値である。つまり、標本セグメント集合Eに含まれる標本セグメントは部分平均値の順にソートされる。
S130における初期セグメントの特徴量D(F)および重心の特徴量D(C)は、実施の形態1と同じである。
つまり、初期セグメントの特徴量D(F)は初期セグメントに含まれるデータ値を平均した全体平均値であり、重心の特徴量D(C)は重心の座標値がW個のデータ値として扱われた場合のデータ値を平均した重心平均値である。また、初期セグメントの特徴量D(F)と重心特徴量D(C)との特徴量差は全体平均値と重心平均値との差である。
S132−1(図6参照)における条件式は、実施の形態1と同じく、|D(F)−D(C)|>ε/(2*√W)である。
***効果の説明***
全体平均値が近い初期セグメントが多数存在する場合であっても、初期セグメント集合を部分平均値の順にソートすることによって、初期セグメントの探索範囲の拡大を抑止して、標本セグメント集合を高速に生成することができる。
実施の形態4.
平均値とは異なる特徴量を用いる形態について説明する。但し、実施の形態1と重複する説明は省略する。
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140の内容は実施の形態1と以下のように異なる。
S120において、初期セグメントFの特徴量D(F)は初期セグメントFの複雑度である。この複雑度は、初期セグメントFに連続して含まれる2つのデータ値毎のデータ値の差から算出される。
初期セグメントFの複雑度comp(F)は、以下の式<9>で算出される。
Figure 0006165367
S130において、重心Cの特徴量D(C)は重心セグメントの複雑度である。この複雑度は、重心Cの座標値がW個のデータ値から成る重心セグメントとして扱われた場合の重心セグメントに連続して含まれる2つのデータ値毎のデータ値の差から算出される。
重心セグメントの複雑度comp(C)を算出する方法は、S120において初期セグメントFの複雑度comp(F)を算出する方法と同じである。但し、上記の式<9>において、FはCに置き換えられる。
S132−1(図6参照)において、特徴量D(F)と特徴量D(C)との特徴量差がεより大きいか判定される。この条件式|D(F)−D(C)|>εは、以下の式<10>および式<11>に基づいて得られる。
第1の標本セグメントEの座標と第2の標本セグメントEの座標とのユークリッド距離dist(E,E)は、式<10>の範囲を満たす。
したがって、第1の標本セグメントEの座標と第2の標本セグメントEの座標との距離がdε以下であるためには、式<11>を満たす必要がある。
Figure 0006165367
S140において、標本セグメントEの特徴量D(E)は標本セグメントEの複雑度である。
標本セグメントEの複雑度comp(E)を算出する方法は、S120において初期セグメントFの複雑度comp(F)を算出する方法と同じである。但し、上記の式<9>において、FはEに置き換えられる。
***効果の説明***
実施の形態1と同じく、近似誤差εが保証された標本セグメントを訓練時系列データSから高速に抽出することができる。
実施の形態5.
平均値とは異なる特徴量を用いる形態について説明する。但し、実施の形態1と重複する説明は省略する。
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140は実施の形態1と以下のように異なる。
S120において、初期セグメントの特徴量は初期最短距離である。つまり、初期セグメント集合Fに含まれる初期セグメントは初期最短距離の順にソートされる。
初期最短距離は初期セグメント用の基準平面と、W次元空間の原点Oとの最短距離である。
初期セグメント用の基準平面は、実施の形態1の式<3>で表される平面である。
初期セグメントFの初期最短距離Feat(F)は、以下の式<12>で算出される。
Figure 0006165367
S130において、初期セグメントFの特徴量D(F)は初期最短距離および初期指標値である。初期指標値は、初期セグメントの座標軸毎の座標値と初期セグメント用の基準平面の座標軸毎の座標値との差から算出される値である。
初期セグメントFの初期指標値Feat(F)は、以下の式<13>で算出される。
Figure 0006165367
初期最短距離は、W次元空間の原点から初期セグメント用の基準平面まで降ろした垂線の足までの距離である。初期指標値は、W次元空間の原点から初期セグメント用の基準平面まで降ろした垂線の足から初期セグメントが表す座標値までの距離である。直感的には、初期指標値は、基準平面上の初期セグメントが表す座標値のずれを表している。
また、重心Cの特徴量D(C)は重心最短距離および重心指標値である。
重心最短距離はW次元空間の原点Oと重心用の基準平面との最短距離である。重心用の基準平面は実施の形態1の式<3>で表される平面である。但し、式<3>において、FはCに置き換えられる。重心Cの重心最短距離Feat(C)は上記の式<12>で算出される。但し、式<12>において、FはCに置き換えられる。
重心指標値は重心の座標軸毎の座標値と重心用の基準平面の座標軸毎の座標値との差から算出される値である。重心Cの重心指標値Feat(C)は上記の式<13>で算出される。但し、式<13>において、FはCに置き換えられる。
S132−1(図6参照)において、特徴量D(F)と特徴量D(C)との特徴量差がε/2より大きいか判定される。この特徴量差は、初期最短距離と重心最短距離との差と、初期指標値と重心指標値との差の合計である。S132−1における条件式|D(F)−D(C)|>ε/2は、以下の式<14>および式<15>に基づいて得られる。
第1の標本セグメントEの座標と第2の標本セグメントEの座標とのユークリッド距離dist(E,E)は、式<14>の範囲を満たす。
したがって、第1の標本セグメントEの座標と第2の標本セグメントEの座標との距離がdε以下であるためには、式<15>を満たす必要がある。
Figure 0006165367
S140において、標本セグメントの特徴量は標本最短距離である。つまり、標本セグメント集合Eに含まれる標本セグメントは標本最短距離の順にソートされる。
標本最短距離は標本セグメントが表す座標値の座標と初期セグメント用の基準平面との最短距離である。標本セグメント用の基準平面は実施の形態1の式<3>で表される平面である。但し、式<3>において、FはEに置き換えられる。標本セグメントEの標本最短距離Feat(E)は上記の式<12>で算出される。但し、式<12>において、FはEに置き換えられる。
なお、実施の形態1で説明した平均値による判定方法は、2平面間の距離に基づく判定と言い換えることができる。すなわち、実施の形態1において|D(F)−D(C)|は以下の式<16>に置き換えることができる。
Figure 0006165367
***効果の説明***
2平面間の最短距離を取る点からのずれを考慮することによって、距離を厳しく判定することができる。そして、初期セグメントの探索を早く打ち切って、標本セグメントを高速に抽出することができる。
実施の形態6.
条件によって特徴量の種類を選択する形態について説明する。但し、実施の形態1から実施の形態5と重複する説明は省略する。
<実施例1>
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
但し、正のデータ値と負のデータ値とのいずれかだけが訓練時系列データSに含まれる場合と、正のデータ値と負のデータ値との両方が訓練時系列データSに含まれる場合で、初期セグメントの特徴量の種類が異なる。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140は実施の形態1と以下のように異なる。
S120において、初期セグメント集合ソート部130は、実施の形態1から実施の形態5のそれぞれで説明した種類の特徴量を算出する。
また、初期セグメント集合ソート部130は、正負両方のデータ値が訓練時系列データSに含まれるか判定する。この判定を特徴量の算出と同時に行うことにより、判定のオーバーヘッドを小さくすることができる。
正負両方のデータ値が訓練時系列データSに含まれる場合、初期セグメント集合ソート部130は、実施の形態1、実施の形態3、実施の形態4または実施の形態5で説明した種類の特徴量を選択する。
正負いずれかのデータ値が訓練時系列データSに含まれる場合、初期セグメント集合ソート部130は、実施の形態2または実施の形態4で説明した種類の特徴量を選択する。
そして、初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメントを選択した特徴量の順にソートする。
S130およびS140は、選択された種類の特徴量について説明した実施の形態と同じである。
<実施例2>
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
但し、訓練セグメント毎の指標値から算出される分散値が分散値の条件である分散値範囲に含まれる場合と、分散値が分散値範囲に含まれない場合で、初期セグメントの特徴量の種類が異なる。
訓練セグメントの指標値は、訓練セグメントの座標軸毎の座標値と訓練セグメント用の基準平面の座標軸毎の座標値との差から算出される値である。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140は実施の形態1と以下のように異なる。
S120において、初期セグメント集合ソート部130は、実施の形態1から実施の形態5のそれぞれで説明した種類の特徴量を算出する。
また、初期セグメント集合ソート部130は訓練セグメントS毎に特徴量としてFeat(S)を算出する。この特徴量は実施の形態5で説明した指標値である。
さらに、初期セグメント集合ソート部130は訓練セグメント毎の特徴量の分散値を算出し、分散値が分散値範囲に含まれるか否かを閾値を用いて判定する。
分散値が閾値以下である場合、初期セグメント集合ソート部130は、実施の形態1、実施の形態3または実施の形態4で説明した種類の特徴量を選択する。
分散値が閾値より大きい場合、初期セグメント集合ソート部130は、実施の形態2、実施の形態4または実施の形態5で説明した種類の特徴量を選択する。
そして、初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメントを選択した特徴量の順にソートする。
S130およびS140は、選択された種類の特徴量について説明した実施の形態と同じである。
この実施例2は、実施の形態5で説明したFeat(E)用いる方法である。
時系列データの第3の特性によって、データ値の変化が緩やかな時系列データのセグメントはW次元空間の基本ベクトルの周辺に分布すると考えられる。基本ベクトルVは原点0と点(1,1,・・・,1)とを通るベクトルである。このFeat(E)は標本セグメントEが表す標本ベクトルEと基本ベクトルVとのずれを表す指標になる。そして、実施例2が導き出される。
<実施例3>
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
但し、訓練セグメント毎の指標値から算出される最大値が最大値の条件である最大値範囲に含まれる場合と、最大値が最大値範囲に含まれない場合で、初期セグメントの特徴量の種類が異なる。
訓練セグメントの指標値は、訓練セグメントの座標軸毎の座標値と訓練セグメント用の基準平面の座標軸毎の座標値との差から算出される値である。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140は、<実施例2>のS120からS140において分散値を最大値に置き換えた処理である。
<実施例4>
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
但し、訓練セグメント毎の指標値から算出される分散値が分散値の条件である分散値範囲に含まれる場合と、分散値が分散値範囲に含まれない場合で、初期セグメントの特徴量の種類が異なる。
訓練セグメントの指標値は、訓練セグメントの座標値を表すベクトルの偏角の大きさを示す値である。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140は実施の形態1と以下のように異なる。
S120において、初期セグメント集合ソート部130は、実施の形態1から実施の形態5のそれぞれで説明した種類の特徴量を算出する。
また、初期セグメント集合ソート部130は訓練セグメントS毎に特徴量として偏角φを算出する。偏角φは訓練ベクトルSと基本ベクトルVとの内積から求まる値である。訓練ベクトルSは原点0と訓練セグメントSの座標とを通るベクトルである。
偏角φは以下の式<17>および式<18>で算出される。ベクトルを表す符号には上部に矢印を付記している。
Figure 0006165367
さらに、初期セグメント集合ソート部130は訓練セグメント毎の特徴量の分散値を算出し、分散値が分散値範囲に含まれるか否かを閾値を用いて判定する。
分散値が閾値以下である場合、初期セグメント集合ソート部130は、実施の形態1、実施の形態3または実施の形態4で説明した種類の特徴量を選択する。
分散値が閾値より大きい場合、初期セグメント集合ソート部130は、実施の形態2、実施の形態4または実施の形態5で説明した種類の特徴量を選択する。
そして、初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメントを選択した特徴量の順にソートする。
S130およびS140は、選択された種類の特徴量について説明した実施の形態と同じである。
<実施例5>
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
但し、訓練セグメント毎の指標値から算出される最大値が最大値の条件である最大値範囲に含まれる場合と、最大値が最大値範囲に含まれない場合で、初期セグメントの特徴量の種類が異なる。
訓練セグメントの指標値は、訓練セグメントの座標値を表すベクトルの偏角の大きさを示す値である。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S120からS140は、<実施例4>のS120からS140において分散値を最大値に置き換えた処理である。
***効果の説明***
初期セグメントの距離判定において、実施の形態1から実施の形態4では1個の特徴量を用いて、実施の形態5では2個の特徴量を用いた。一般的に、特徴量の数が増えると、厳密な判定が可能になる一方で、計算量が増加する。
そこで、実施の形態6では、計算量の増加量よりも厳密な判定による探索範囲の削減量の方が大きいと考えられる場合に2個の特徴量を用いる。
つまり、実施の形態6は、時系列データの特性に応じて特徴量を選択し、標本セグメントを生成するための初期セグメントの探索を効率的に実行することができる。
実施の形態7.
初期一時セグメント集合Uに含まれる初期セグメントから標本セグメントを選択する形態について、図8から図10に基づいて説明する。但し、実施の形態1と重複する説明は省略する。
***構成の説明***
時系列データ検索装置100の機能構成は実施の形態1の図1と同じである。
但し、初期セグメント集合生成部120は以下のように機能する。
初期セグメント集合生成部120は、訓練時系列データSからW個のデータ値を時系列の順に抽出して得られる訓練セグメントを複数生成し、時系列の順に並んだ1つ以上の訓練セグメントを示す訓練一時セグメント集合を複数生成する。そして、初期セグメント集合生成部120は、訓練一時セグメント集合毎に訓練一時セグメント集合を初期セグメントとして示す初期セグメント集合Fを生成する。
訓練一時セグメント集合に複数の訓練セグメントが含まれる場合、複数の訓練セグメントのうちの時系列の順の先頭の訓練セグメントと残りの訓練セグメントとの距離は条件半径ε/2以下である。
また、標本セグメント集合生成部140は以下のように機能する。
標本セグメント集合生成部140は、初期セグメント集合Fを1つ以上の初期一時セグメント集合に分割する。初期一時セグメント集合は、半径の条件である条件半径ε/2を有するW次元の図形(球B)毎に図形に含まれる座標値を表すデータ値から成る初期セグメントで構成される。そして、標本セグメント集合生成部140は、初期一時セグメント集合の図形の重心の座標値に基づいて初期一時セグメント集合から訓練セグメントを標本セグメントとして選択し、初期一時セグメント集合毎の標本セグメントを示す標本セグメント集合Eを生成する。
***動作の説明***
時系列データ検索方法の処理の流れは実施の形態1の図3と同じである。
但し、S110からS130は実施の形態1と以下のように異なる。
図8に基づいて、初期セグメント集合生成処理(S110)について説明する。実施の形態1と異なる処理のステップ番号には符号Bを付ける。
S111において、初期セグメント集合生成部120は初期セグメント集合Fを初期化する。
S112Bにおいて、初期セグメント集合生成部120は、訓練一時セグメント集合Usを初期化し、訓練セグメントSそのものではなく、訓練セグメントSを識別するインデックスiを訓練一時セグメント集合Uに追加する。インデックスiは変数iの値である。以降、訓練セグメントSが必要な場合、インデックスiと訓練時系列データから、訓練セグメントSを復元することができることは明らかである。
S113において、初期セグメント集合生成部120は、訓練セグメントSと訓練セグメントSとのセグメント間距離dを算出する。
S114において、初期セグメント集合生成部120は、セグメント間距離dがε/2以下であるか判定する。
S115Bにおいて、初期セグメント集合生成部120は、インデックスjを訓練一時セグメント集合Uに追加する。インデックスjは変数jの値である。
S116Bにおいて、初期セグメント集合生成部120は、訓練一時セグメント集合Uを初期セグメント集合Fに追加する。
S117において、初期セグメント集合生成部120は変数iの値を変数jの値に更新する。
図8の処理によって、初期セグメントのインデックスから成る初期セグメント集合Fを生成することができる。初期セグメント集合Fはインデックスによって初期セグメントを識別する。
S120において、初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメント毎に初期セグメントに含まれるインデックスによって識別されるそれぞれの訓練セグメントが表す座標の重心を算出する。
初期セグメント集合ソート部130は初期セグメント毎に重心の特徴量を算出する。初期セグメント毎の特徴量が算出された後、初期セグメント毎の重心はメモリから破棄する。
そして、初期セグメント集合ソート部130は、初期セグメント集合Fに含まれる初期セグメントを特徴量の昇順にソートする。
図9に基づいて、標本セグメント集合生成処理(S130)について説明する。実施の形態1と異なる処理のステップ番号には符号Bを付ける。
S130−1において、標本セグメント集合生成部140は、標本セグメント集合Eを初期化する。
S131B−1において、標本セグメント集合生成部140は、初期セグメントFの重心を含む球Bの重心Cを決定する。球Bの半径はε/2である。
S131B−2において、標本セグメント集合生成部140は、初期一時セグメント集合Uを初期化し、初期セグメント[F]を初期一時セグメント集合Uに追加する。
初期セグメント[F]は初期セグメントFに含まれるインデックスによって識別される訓練セグメントを意味する。
S131−3において、標本セグメント集合生成部140は、初期セグメントFを初期セグメント集合Fから除去する。
S131−4において、標本セグメント集合生成部140は、変数Skipに−1を設定する。
S131B−5において、標本セグメント集合生成部140は、初期一時セグメント集合Uの重心Ctrueを算出する。Ctrueは、Uに含まれる訓練セグメントをインデックスによって呼び出し、式<1>と同様に計算することによって算出することができる。
標本セグメント集合生成部140は、初期一時セグメント集合Uに含まれる訓練セグメント毎に、訓練セグメントの座標と重心Ctrueの座標との距離σを算出する。
そして、標本セグメント集合生成部140は、距離σが最も小さい訓練セグメントのインデックスを標本セグメントの重心Cpseudoとして標本セグメント集合Eに追加する。
訓練セグメントが標本セグメントになるため、W次元のベクトルではなく、訓練セグメントのインデックスを記憶すればよい。
また、重心Ctrueと標本セグメントとの距離σを記憶しておくことにより、最終的な距離の誤差がε+σ以内であることを示すことができる。
図10に基づいて、標本セグメント集合生成処理(S130)の第2ループ処理(S132)について説明する。実施の形態1と異なる処理のステップ番号には符号Bを付ける。
S132−1において、標本セグメント集合生成部140は、初期セグメントFの特徴量D(F)と重心Cの特徴量D(C)との特徴量差がε/(2*√W)より大きいか判定する。
S132B−2において、標本セグメント集合生成部140は、初期セグメントFの重心Cを算出する。
そして、標本セグメント集合生成部140は、重心Cの座標と重心Cjの座標との距離であるセグメント間距離dを算出する。
S132−3において、標本セグメント集合生成部140は、セグメント間距離dがε/2以下であるか判定する。
S132B−4において、標本セグメント集合生成部140は、初期セグメント[F]を初期一時セグメント集合Uに追加する。
S132−5において、標本セグメント集合生成部140は、初期セグメント集合Fから初期セグメントFを除去する。
S132−6において、変数Skipが負の値(−1)である場合、標本セグメント集合生成部140は変数Skipに変数jの値を設定する。
標本セグメントになる訓練セグメントのインデックスをW次元のセグメントの代わりに用いることにより、標本セグメントの記憶に必要な記憶容量を約1/Wに削減することができる。つまり、記憶効率を向上させることができる。
***補足説明***
図11から図16に基づいて、標本セグメントに関する補足説明を行う。
図11において、時系列データから抽出された長さWのセグメントは、W次元空間上の座標に対応する。図中のWは2である。
図12において、W次元空間上の座標の平均値Aを用いて、その座標がx+X+・・・+X=A*Wで表される基準平面に位置するということが言える。W=2の場合、基準平面は直線に相当する。
図13において、座標pの基準平面とx軸との交点p’の距離はW*Aである。原点Oから座標pの基準平面までの距離はA*√Wである。すなわち、Aが大きい程、原点Oから遠い平面上に座標があることを意味する。
座標pと座標qとの距離(dist(p,q))は、座標pの基準平面と座標qの基準平面との距離以上になるため、dist(p,q)≧|Mean(p)*√W−Mean(q)*√W|が成り立つ。
よって、dist(p,q)≦ε/2となるためには、|Mean(p)*√W−Mean(q)*√W|≦ε/2、すなわち、|Mean(p)−Mean(q)|≦ε/(2*√W)を満たす必要がある。
図14において、初期セグメント集合は半径がε/2である球に含まれる。初期セグメント集合は先頭の訓練セグメントからの距離がε/2以下である訓練セグメントの集合である。
図15において、重心Cを中心として半径がε/2である球に含まれる初期セグメント集合の重心を集めると、集められた訓練セグメントは、全てCを中心として半径がεである球に含まれる。
よって、あるテストセグメントと重心Cとの距離がdである場合、そのテストセグメントと重心Cを中心とする球内の訓練セグメントとの距離はd±εの範囲に含まれる。
図中の(1)〜(6)はそれぞれ重心であり、平均値がCの平均値に近い重心(1)→(2)→(3)の順に距離を調べる。その後、Cとの平均値の差がε/2である重心(4)までが標本セグメントとしてマージする対象の候補になる。しかし、Cとの平均値の差がε/2より大きい重心(5)はマージの対象にならない。そして、重心(5)で閾値を超えたため、(6)以降の重心は調べる必要がない。
図16において、Featは座標系の原点から基準平面までの距離に対応する。Featは垂線の足(A,・・・,A)から実際の重心までのずれ幅に対応する。垂線の足は原点から基準平面に下した垂線の端点である。
dist(p,q)は図中の(1)の距離よりも長い。これは、式<14>の前半部分に相当する。また、dist(p,q)は図中の(2)の距離よりも短い。これは、式<14>の後半部分に相当する。
各実施の形態は、好ましい形態の例示であり、本発明の技術的範囲を制限することを意図するものではない。各実施の形態は、部分的に実施してもよいし、他の実施の形態と組み合わせて実施してもよい。
フローチャート等を用いて説明した処理手順は、時系列データ検索装置、時系列データ検索方法および時系列データ検索プログラムの処理手順の一例である。
100 時系列データ検索装置、110 時系列データ取得部、111 パラメータ取得部、120 初期セグメント集合生成部、130 初期セグメント集合ソート部、140 標本セグメント集合生成部、150 標本セグメント集合ソート部、160 検索結果距離算出部、161 検索結果距離出力部、190 データ記憶部、901 プロセッサ、902 補助記憶装置、903 メモリ、904 通信装置、9041 レシーバ、9042 トランスミッタ、905 入力インタフェース、906 ディスプレイインタフェース、907 入力装置、908 ディスプレイ、910 信号線、911 ケーブル、912 ケーブル、S 訓練時系列データ、T テスト時系列データ、W スライド幅、ε 近似誤差、F 初期セグメント集合、E 標本セグメント集合、Z 検索結果距離。

Claims (12)

  1. 時系列に並んだ複数のデータ値から成る訓練時系列データからW個のデータ値を時系列の順に抽出して得られる訓練セグメントを複数生成し、時系列の順に並んだ1つ以上の訓練セグメントから成る訓練一時セグメント集合を複数生成し、訓練一時セグメント集合のそれぞれの訓練セグメントに含まれるW個のデータ値がW次元の座標系の座標値として扱われた場合の訓練一時セグメント集合の重心の座標値、を表すW個のデータ値を初期セグメントとして訓練一時セグメント集合毎に算出し、訓練一時セグメント集合毎の初期セグメントから成る初期セグメント集合を生成する初期セグメント集合生成部と、
    前記初期セグメント集合を、半径の条件である条件半径を有するW次元の図形毎に図形に含まれる座標値を表すデータ値から成る初期セグメントで構成される初期一時セグメント集合に分割し、初期一時セグメント集合の図形の重心の座標値を表すW個のデータ値から成る標本セグメントを初期一時セグメント集合毎に含む標本セグメント集合を生成する標本セグメント集合生成部と、
    前記初期セグメント集合に含まれる初期セグメント毎に初期セグメントに含まれるデータ値を用いて初期セグメントの特徴量を算出し、前記初期セグメント集合に含まれる初期セグメントを特徴量の順にソートする初期セグメント集合ソート部とを備え、
    第1の初期一時セグメント集合は、ソート後の前記初期セグメント集合のうちの先頭の初期セグメントが表す座標値を含む図形である第1の図形に含まれる1つ以上の初期セグメントから成り、
    前記先頭の初期セグメントを除いて前記第1の初期一時セグメント集合に含まれる初期セグメントは、前記先頭の初期セグメントの次の初期セグメントから順に、初期セグメントが前記第1の図形に含まれるか判定する初期セグメント判定によって判定される
    時系列データ検索装置。
  2. 前記次の初期セグメントから順に選択された初期セグメントの特徴量と、前記第1の図形の重心である第1の重心の座標値から算出される前記第1の重心の特徴量との差である特徴量差が特徴量差の条件である特徴量差範囲に含まれる場合、選択された初期セグメントに対する前記初期セグメント判定が行われて、
    前記特徴量差が前記特徴量差範囲に含まれない場合、選択された初期セグメント以降の初期セグメントに対する前記初期セグメント判定が行われない
    請求項に記載の時系列データ検索装置。
  3. 選択された初期セグメントに対する前記初期セグメント判定において、選択された初期セグメントが表す座標値の座標と前記第1の重心の座標との距離が前記条件半径以下である場合に、選択された初期セグメントが前記第1の図形に含まれると判定される
    請求項に記載の時系列データ検索装置。
  4. 前記初期セグメントの特徴量は前記初期セグメントに含まれるデータ値の平均値であり、
    前記第1の重心の特徴量は前記第1の図形の重心の座標値がW個のデータ値として扱われた場合のデータ値の平均値である
    請求項に記載の時系列データ検索装置。
  5. 前記初期セグメントの特徴量は前記初期セグメントが表す座標値の座標と基準点との距離であり、
    前記第1の重心の特徴量は前記第1の重心と前記基準点との距離である
    請求項に記載の時系列データ検索装置。
  6. 前記初期セグメントの特徴量は、前記初期セグメントに含まれるデータ値を平均した全体平均値と、前記初期セグメントから抽出される初期部分セグメントに含まれるデータ値を平均した部分平均値とであり、
    前記第1の重心の特徴量は前記第1の重心の座標値がW個のデータ値として扱われた場合のデータ値を平均した重心平均値であり、
    前記初期セグメント集合に含まれる初期セグメントが部分平均値の順にソートされて、
    前記特徴量差が前記全体平均値と前記重心平均値との差である
    請求項に記載の時系列データ検索装置。
  7. 前記初期セグメントの特徴量は前記初期セグメントに連続して含まれる2つのデータ値毎のデータ値の差から算出される前記初期セグメントの複雑度であり、
    前記第1の重心の特徴量は前記第1の重心の座標値がW個のデータ値から成る第1の重心セグメントとして扱われた場合の前記第1の重心セグメントに連続して含まれる2つのデータ値毎のデータ値の差から算出される前記第1の重心セグメントの複雑度である
    請求項に記載の時系列データ検索装置。
  8. 前記初期セグメントの特徴量は、前記初期セグメントが表す座標値の座標と前記初期セグメント用の基準平面との最短距離である初期最短距離と、前記初期セグメントの座標軸毎の座標値と前記初期セグメント用の基準平面の座標軸毎の座標値との差から算出される初期指標値とであり、
    前記第1の重心の特徴量は、前記第1の重心の座標と前記第1の重心用の基準平面との重心最短距離である重心最短距離と、前記第1の重心の座標軸毎の座標値と前記第1の重心用の基準平面の座標軸毎の座標値との差から算出される重心指標値であり、
    前記初期セグメント集合に含まれる初期セグメントが初期最短距離の順にソートされて、
    前記特徴量差が、前記初期最短距離と前記重心最短距離との差と、前記初期指標値と前記重心指標値との差の合計である
    請求項に記載の時系列データ検索装置。
  9. 正のデータ値と負のデータ値とのいずれかだけが前記訓練時系列データに含まれる場合と、正のデータ値と負のデータ値との両方が前記訓練時系列データに含まれる場合で、前記初期セグメントの特徴量の種類が異なる
    請求項に記載の時系列データ検索装置。
  10. 訓練セグメント毎の指標値から算出される分散値が分散値の条件である分散値範囲に含まれる場合と、前記分散値が前記分散値範囲に含まれない場合で、前記初期セグメントの特徴量の種類が異なり、
    訓練セグメントの指標値が、前記訓練セグメントの座標軸毎の座標値と前記訓練セグメント用の基準平面の座標軸毎の座標値との座標軸毎の差から算出される値と、前記訓練セグメントの座標値を表すベクトルの偏角の大きさを示す値とのいずれかである
    請求項に記載の時系列データ検索装置。
  11. 訓練セグメント毎の指標値のうちの最大値が最大値の条件である最大値範囲に含まれる場合と、前記最大値が前記最大値範囲に含まれない場合で、前記初期セグメントの特徴量の種類が異なり、
    訓練セグメントの指標値が、前記訓練セグメントの座標軸毎の座標値と前記訓練セグメント用の基準平面の座標軸毎の座標値との座標軸毎の差から算出される値と、前記訓練セグメントの座標値を表すベクトルの偏角の大きさを示す値とのいずれかである
    請求項に記載の時系列データ検索装置。
  12. 時系列に並んだ複数のデータ値から成る訓練時系列データからW個のデータ値を時系列の順に抽出して得られる訓練セグメントを複数生成し、時系列の順に並んだ1つ以上の訓練セグメントから成る訓練一時セグメント集合を複数生成し、訓練一時セグメント集合のそれぞれの訓練セグメントに含まれるW個のデータ値がW次元の座標系の座標値として扱われた場合の訓練一時セグメント集合の重心の座標値、を表すW個のデータ値を初期セグメントとして訓練一時セグメント集合毎に算出し、訓練一時セグメント集合毎の初期セグメントから成る初期セグメント集合を生成する初期セグメント集合生成処理と、
    前記初期セグメント集合を、半径の条件である条件半径を有するW次元の図形毎に図形に含まれる座標値を表すデータ値から成る初期セグメントで構成される初期一時セグメント集合に分割し、初期一時セグメント集合の図形の重心の座標値を表すW個のデータ値から成る標本セグメントを初期一時セグメント集合毎に含む標本セグメント集合を生成する標本セグメント集合生成処理と、
    前記初期セグメント集合に含まれる初期セグメント毎に初期セグメントに含まれるデータ値を用いて初期セグメントの特徴量を算出し、前記初期セグメント集合に含まれる初期セグメントを特徴量の順にソートする初期セグメント集合ソート処理と
    をコンピュータに実行させる時系列データ検索プログラムであって、
    第1の初期一時セグメント集合は、ソート後の前記初期セグメント集合のうちの先頭の初期セグメントが表す座標値を含む図形である第1の図形に含まれる1つ以上の初期セグメントから成り、
    前記先頭の初期セグメントを除いて前記第1の初期一時セグメント集合に含まれる初期セグメントは、前記先頭の初期セグメントの次の初期セグメントから順に、初期セグメントが前記第1の図形に含まれるか判定する初期セグメント判定によって判定される
    時系列データ検索プログラム。
JP2016570424A 2015-01-22 2015-01-22 時系列データ検索装置および時系列データ検索プログラム Active JP6165367B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/051688 WO2016117086A1 (ja) 2015-01-22 2015-01-22 時系列データ検索装置および時系列データ検索プログラム

Publications (2)

Publication Number Publication Date
JPWO2016117086A1 JPWO2016117086A1 (ja) 2017-04-27
JP6165367B2 true JP6165367B2 (ja) 2017-07-19

Family

ID=56416651

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016570424A Active JP6165367B2 (ja) 2015-01-22 2015-01-22 時系列データ検索装置および時系列データ検索プログラム

Country Status (6)

Country Link
US (1) US10223069B2 (ja)
EP (1) EP3249549B1 (ja)
JP (1) JP6165367B2 (ja)
KR (1) KR101970090B1 (ja)
CN (1) CN107111643B (ja)
WO (1) WO2016117086A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11067973B2 (en) * 2016-11-30 2021-07-20 Hitachi, Ltd. Data collection system, abnormality detection method, and gateway device
DE112017005640T5 (de) 2017-07-31 2019-08-22 Mitsubishi Electric Corporation Informationsverarbeitungsvorrichtung und Informationsverarbeitungsverfahren
JP6661839B1 (ja) * 2018-07-23 2020-03-11 三菱電機株式会社 時系列データ診断装置、追加学習方法およびプログラム
KR102566084B1 (ko) * 2020-12-08 2023-08-10 미쓰비시덴키 가부시키가이샤 학습 장치, 불량 검지 장치, 및 불량 검지 방법
KR102457964B1 (ko) * 2021-02-18 2022-10-24 한국전자기술연구원 파편적 데이터 검색 장치 및 방법

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3260587B2 (ja) * 1995-04-17 2002-02-25 日本電気株式会社 時系列データ管理方式
JP2003141159A (ja) 2001-11-06 2003-05-16 Fujitsu Ltd 距離インデクスを用いた検索装置および方法
JP4355824B2 (ja) 2003-05-23 2009-11-04 日本電信電話株式会社 時系列データ距離算出装置、プログラム、および記録媒体
JP4275084B2 (ja) 2005-02-16 2009-06-10 日本電信電話株式会社 類似時系列データ計算装置、類似時系列データ計算方法、および類似時系列データ計算プログラム
JP4451332B2 (ja) 2005-03-07 2010-04-14 日本電信電話株式会社 類似時系列データ計算装置、および類似時系列データ計算プログラム
KR100998456B1 (ko) * 2006-07-06 2010-12-06 아사히 가라스 가부시키가이샤 클러스터링 시스템 및 결함 종류 판정 장치
EP2074505A4 (en) * 2006-10-05 2010-01-13 Splunk Inc CHRONOLOGICAL SERIES SEARCH ENGINE
JP4953239B2 (ja) 2006-12-11 2012-06-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 観測対象の異常を検出する技術
US8447705B2 (en) 2007-02-21 2013-05-21 Nec Corporation Pattern generation method, pattern generation apparatus, and program
JP4939349B2 (ja) 2007-09-12 2012-05-23 日本電信電話株式会社 トレンド検出方法、トレンド検出プログラムおよびトレンド検出装置
JP5060340B2 (ja) 2008-02-25 2012-10-31 日本電信電話株式会社 類似部分シーケンス検出方法、類似部分シーケンス検出プログラム、および、類似部分シーケンス検出装置
JP2009217555A (ja) * 2008-03-11 2009-09-24 Mitsubishi Electric Corp ネットワーク異常判定装置
JP5441554B2 (ja) 2009-08-03 2014-03-12 三菱電機株式会社 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法
JP5431235B2 (ja) * 2009-08-28 2014-03-05 株式会社日立製作所 設備状態監視方法およびその装置
WO2011036809A1 (ja) * 2009-09-28 2011-03-31 株式会社 東芝 異常判定システムおよびその方法
JP5632862B2 (ja) 2012-02-13 2014-11-26 日本電信電話株式会社 データ検索装置、データ検索方法、及びデータ検索プログラム
JP5711171B2 (ja) 2012-03-23 2015-04-30 日本電信電話株式会社 データ検索装置、データ検索方法、及びデータ検索プログラム
JP5498540B2 (ja) 2012-07-19 2014-05-21 株式会社日立製作所 異常検知方法及びシステム
JP5851378B2 (ja) 2012-10-17 2016-02-03 日本電信電話株式会社 時系列データ探索方法、装置、及びプログラム
JP5530019B1 (ja) * 2013-11-01 2014-06-25 株式会社日立パワーソリューションズ 異常予兆検知システム及び異常予兆検知方法

Also Published As

Publication number Publication date
KR20170107500A (ko) 2017-09-25
CN107111643B (zh) 2018-12-28
EP3249549A1 (en) 2017-11-29
CN107111643A (zh) 2017-08-29
EP3249549A4 (en) 2018-10-24
WO2016117086A1 (ja) 2016-07-28
US20180217812A1 (en) 2018-08-02
JPWO2016117086A1 (ja) 2017-04-27
KR101970090B1 (ko) 2019-04-17
EP3249549B1 (en) 2020-03-18
US10223069B2 (en) 2019-03-05

Similar Documents

Publication Publication Date Title
JP6165367B2 (ja) 時系列データ検索装置および時系列データ検索プログラム
JP4509860B2 (ja) データ分割装置、データ分割方法およびプログラム
JP7040851B2 (ja) 異常検知装置、異常検知方法及び異常検知プログラム
Bari et al. DNA encoding for splice site prediction in large DNA sequence
Arul et al. Data anomaly detection for structural health monitoring of bridges using shapelet transform
Kulczycki et al. An algorithm for reducing the dimension and size of a sample for data exploration procedures
Li et al. Extracting statistical graph features for accurate and efficient time series classification
CN109102008A (zh) 一种基于gpu的雷暴核识别方法
Pashaei et al. Splice site identification in human genome using random forest
Pashaei et al. Random forest in splice site prediction of human genome
JP5715445B2 (ja) 品質推定装置、品質推定方法及び品質推定方法をコンピュータに実行させるためのプログラム
Pashaei et al. A combined SVM and Markov model approach for splice site identification
Kulczycki et al. Bayes classification for nonstationary patterns
US11640553B2 (en) Method for analyzing time-series data based on machine learning and information processing apparatus
Ye et al. A shape based similarity measure for time series classification with weighted dynamic time warping algorithm
CN117575494A (zh) 多目标redd项目区域的聚合方法、系统、终端及介质
EP3920054A1 (en) Information processing apparatus, information processing method, and program
Chang et al. Multi-granularity visualization of trajectory clusters using sub-trajectory clustering
Gu et al. Curves that must be retraced
Rahman et al. Estimation of the number of clusters based on simplical depth
CN110825707A (zh) 数据压缩方法
Yu Breast cancer prediction using machine learning algorithm
KR20170074418A (ko) 서열의 유사도 측정을 위한 k-mer 변환 장치 및 방법
Hsiao et al. Robust Gaussian Kernel based approach for feature selection
Schiavina et al. Development of a new and open approach to dissolve polygons storing count data based on areal threshold

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161012

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170620

R150 Certificate of patent or registration of utility model

Ref document number: 6165367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250