JP2011034389A - 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法 - Google Patents
時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法 Download PDFInfo
- Publication number
- JP2011034389A JP2011034389A JP2009180546A JP2009180546A JP2011034389A JP 2011034389 A JP2011034389 A JP 2011034389A JP 2009180546 A JP2009180546 A JP 2009180546A JP 2009180546 A JP2009180546 A JP 2009180546A JP 2011034389 A JP2011034389 A JP 2011034389A
- Authority
- JP
- Japan
- Prior art keywords
- series data
- series
- time
- summary element
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】類似検索装置は、時系列データAと時系列データBとを、その波形が特徴的な区間a1〜a6,b1〜b8(均一特性区間)に区切り、それぞれの区間ごとに、その区間の時系列データを要約要素と呼ばれる要約情報aY1〜aY6,bY1〜bY8に変換する。類似検索装置は時系列データAと時系列データBとに対して、それぞれ要約要素系列Aと要約要素系列Bとを作成し、要約要素系列の類否を基準として時系列データどうしの類否を判定する。
【選択図】図1
Description
時系列データから、時間進行に対する所定の項目の変化を示す項目変化系列を生成する項目変化系列生成部と、
前記項目変化系列生成部によって生成された前記項目変化系列に基づいて、前記時系列データの期間を、区間内では前記所定の項目の変化が均一とみなされる均一特性区間ごとに分割する区間分割部と、
前記均一特性区間における前記時系列データの特徴を要約した情報を示す要約要素を前記均一特性区間ごとに生成し、生成された前記均一特性区間ごとの要約要素を時系列に配置した要約要素系列を生成する要約要素系列生成部と、
前記要約要素系列生成部によって生成された第1の要約要素系列と第2の要約要素系列との類似判定を実行する時系列データ類似判定部と
を備えたことを特徴とする。
図1〜図20を参照して実施の形態1における類似検索装置100A(時系列データ類似判定装置の一例)を説明する。
図1は、類似検索装置100Aによる時系列データの類似検索方式の基本となる、時系列データどうしの類似評価方式の処理イメージの図である。時系列データAと時系列データBとを、その波形が特徴的な区間a1〜a6,b1〜b8(後述の均一特性区間)に区切り、それぞれの区間ごとに、その区間の時系列データを要約要素と呼ばれる要約情報aY1〜aY6,bY1〜bY8に変換する。類似検索装置100Aは時系列データAと時系列データBとに対して、それぞれ要約情報aY1〜aY6からなる要約要素系列Aと要約要素bY1〜bY8からなる要約要素系列Bとを作成し、要約要素系列の類否を基準として時系列データA,Bどうしの類否を判定する。
特性評価部110は、要約指標値算出部2(項目変化系列生成部の一例)、変曲点検出部3(区間分割部の一例)、パルス検知部4、及び要約要素系列生成部111を備える。要約要素系列生成部111は、周波数評価部5、高周波特性評価部6、低周波特性評価部7、特性統合部8を備えている。
時系列データ類似判定部120は、反復類似判定部12、要約要素系列比較用候補生成部13(マッチング生成部の一例)、比較履歴バッファ14、要約要素系列類似評価部15、評価履歴バッファ16、多項目不定長要約要素類似評価部17(組合せ類似度算出部の一例)を備えている。
(1)新規時系列データバッファ1は、新規に発生した時系列データを一時蓄積するバッファである。
(2)要約指標値算出部2は、時系列データに対して、その特性が等しい部分範囲で区切る際の指標となる要約指標を算出し、要約指標値系列を生成する。
(3)変曲点検出部3は、時系列データの要約指標に大きな差が存在する箇所を探索し、変曲点とする。また、探索により得られた変曲点で囲まれた部分区間を、均一特性区間として抽出する。
(4)パルス検知部4は、各均一特性区間に対して、一時的に大きな外れ値をとるパルスノイズを検出し、存在する場合は、パルスノイズの情報を、要約要素の形式で登録する。
(5)周波数評価部5は、パルスノイズを除去した均一特性区間に対して、その周波数成分として高周波成分を含むか否かを判定する。
(6)高周波特性評価部6は、高周波成分を持つと判定された均一特性区間に対して、その周波数値や包絡線の情報を要約要素として生成して登録する。
(7)低周波特性評価部7では、均一特性区間の生値の変化の情報を要約要素として生成して登録する。
(8)特性統合部8は、得られているパルスノイズ、周波数値、包絡線、生値のそれぞれの情報を、均一特性区間と対応付け、元の時系列データに対応する要約要素系列を生成して出力する。
(9)新規要約要素系列バッファ9では、新規時系列データに対応する要約要素系列を格納する。
(10)要約要素管理部10は、要約要素系列蓄積DB11に蓄積された要約要素系列の追加や呼び出しを管理する。
(11)要約要素系列蓄積DB11は、複数の要約要素系列を蓄積する。
(12)反復類似判定部12は、2つの要約要素系列の類似性を反復評価する処理を管理する。
(13)要約要素系列比較用候補生成部13は、新規の要約要素系列Sと比較対象の要約要素系列Aとに対して、どのような対応関係(マッチング)で比較を行うかを決定する。
(14)比較履歴バッファ14は、過去に比較を行った対応関係を格納する。
(15)要約要素系列類似評価部15では、2つの要約要素系列を、指定された対応関係で類似性の比較を行う。
(16)評価履歴バッファ16は、類似性の判定結果を格納する。
(17)多項目不定長要約要素類似評価部17は、不定長の多項目(後述の図3の項目が複数種類あることを意味する)からなる要約要素同士の類似性比較に対して、重みを考慮した評価を実施し、類似評価値を返す。
(18)結果出力部18では、新規要約要素系列に類似していると判定される要約要素系列を、蓄積された要約要素系列から選別し、リストとして出力する。
図3は、要約要素の情報形式を示す図である。なお複数の要約要素からなる要約要素系列の具体例は図15等の説明で後述する。
ここで「要約要素」とは、均一特性区間(後述する)における時系列データの特徴を要約した情報である。前述のように図1のa1,a2,a3,・・・等が均一特性区間を示している。要約要素の時系列の並びを要約要素系列と呼ぶ。すなわち「要約要素系列」とは、均一特性区間ごとの要約要素を時系列に配置したものである。
「種類、変化、パラメータ、発生時間」
の4つの項目からなる。
種類の項目には、観測値、周波数、包絡線、パルスノイズのいずれかを示す記号が格納される。
変化の項目には、一定、単調変化、U字変化、ランダムのいずれかを示す記号が格納される。ここで一定、単調変化等の記号は、次の様である。
(1)一定とは対象とする値が一定であることを意味する。
(2)単調変化とは単調に変化することを意味する。
(3)U字変化とはU字型に推移することを意味する。なお、「U字変化」の意味は図13で後述している。
(4)ランダムとは以上のいずれにも属さないランダム変化を示す。
このように種類項目として、4種類で評価する。
パラメータの項目には、種類及び変化の項目に指定された内容に応じて、その変化を説明するための定量値のリストを格納する。パラメータ項目に指定する値は、変化項目が一定の場合は、その値分布の代表値、単調変化の場合は値の初期値と傾き、U字型の場合は初期値と初期傾きおよび変化の曲率、ランダムの場合はランダムに発生する値の幅の上限、下限の値とする。
発生時間の項目には、均一特性区間の開始日時と継続時間を格納する。
図4は、類似検索装置100Aによる要約要素系列の生成動作の概要を示すフローチャートである。図4を参照して、類似検索装置100Aによる要約要素系列の生成概要を説明する。
(2)S02において、要約指標値算出部2がこの時系列データから時間進行に対する所定の項目の変化を示す「要約指標値系列」を生成する。
(3)S03において、変曲点検出部3が生成された「要約指標値系列」に基づいて、前記時系列データの期間を、区間内では要約指標値変化が均一とみなされる均一特性区間ごとに分割する。
(4)S04において、要約要素系列生成部111が均一特性区間における時系列データの特徴を要約した情報を示す要約要素を均一特性区間ごとに生成し、生成された前記均一特性区間ごとの要約要素を時系列に配置した要約要素系列を生成する。さらに具体的には要約要素系列生成部111において高周波特性評価部6が均一特性区間のうち高周波特性を有する均一特性区間について、高周波に関する要約要素を生成し、高周波特性評価部6が均一特性区間について低周波に関する要約要素を生成する。そして、特性統合部8が、高周波に関する要約要素と低周波に関する要約要素とを統合して、時系列の要約要素系列を生成する。時系列データごとに作成された要約要素系列をもとに、時系列データ類似判定部120は、要約要素系列生成部111によって生成された第1の要約要素系列(S)を持つ第1の時系列データと、要約要素系列生成部111によって生成された第2の要約要素系列(A)を持つ第2の時系列データとの類似判定を、第1の要約要素系列(S)と第2の要約要素系列(A)との類似判定の結果に従って判定する。
図5は、新規の時系列データからその要約要素系列を生成する過程を示すフローチャートである。
図6は、新規に生成された要約要素系列と類似する他の要約要素系列の検索過程を示すフローチャートである。
図7は図6のフローチャートをシーケンス化した図である。
図5〜図7を参照して類似検索装置100Aの動作を説明する。
まず要約指標値算出部2が新規時系列データバッファ1から時系列データを読込み(S101)、時系列データに対応する要約指標値を算出し、要約指標値の時系列の並びである要約指標値系列を生成する(S102)。ここで「要約指標値」とは、後述の均一特性区間を決めるため、予め定められた所定の項目の値である。また、「要約指標値系列」(項目変化系列の一例)とは、時間進行に対する前記所定の項目(要約指標値)の変化を示す情報である。要約指標値系列の具体例は、後述の図9、図10等で説明する。この要約指標値(すなわち所定の項目の値)は、時系列データの値や傾き、曲率、局所周波数、振幅を求めたものなどが該当するが、それら全てを算出する必要はなく、実装にゆだねられる。また、要約指標として、移動平均値や局所的な標準偏差、回帰係数、回帰R値、特異値、特異係数のいずれかであってもよい。なお、要約指標値算出部2は新規時系列データの主要周波数成分の簡易計算を実行する。
次に、変曲点検出部3は、後述の図9、図10に示すような要約指標値算出部2によって得られた要約指標値系列の変曲点を算出する(S104)。変曲点は2階微分もしくは2階差分を求めた場合の正負が変化する箇所として算出するが、隣接する値の差が閾値以上の箇所を変曲点とする方法を使用してもよく、変曲点の候補の発生間隔を条件として、変曲点として採用するか否かを決定してもよく、変曲点の算出方式をこの方法に限定するものではない。それらの変曲点で区切られた時系列データの部分区間を、「均一特性区間」と呼ぶ。後述の図11で「均一特性区間」で述べる。「均一特性区間」とは要約指標値の変化が均一とみなされる区間である。以後の処理は、上記に述べた新規に入力された時系列データを対象とし、均一特性区間を最小単位として行われる。
パルス検知部4は、均一特性区間毎に、その内部にパルスノイズが存在するかどうかを評価する(S105)。評価方法としては、判定区間内の生値の平均値μと標準偏差σを求め、値がμ−3σ以下もしくはμ+3σ以上となる値を外れ値としたとき、外れ値が連続して3点以内であり、またその前後の区間の長さの5%の範囲で外れ値が発生していない場合に、その外れ値をパルスノイズとみなす。ここで、パルスノイズの判定基準は適用分野によって異なるため、μ±3σの各項の係数は1および3に限定するものではなく、また外れ値の連続数の閾値を3点に限定するものではなく、また前後に外れ値が発生しない範囲を、区間の長さの5%に限定するものではない。
周波数評価部5では、均一特性区間毎に、パルス検知部4にて検知されたパルスノイズを平均値で上書きして除去した後、ハイパスフィルタを通した後の信号から、高周波成分が存在するか否かを判定する(S106、107)。
高周波特性評価部6は、入力した時系列データのうち高周波成分を含む均一特性区間に対して、後述の図12に示すような、その周波数分布と包絡線との情報(高周波特徴情報)を含む要約要素(高周波成分を含む均一特性区間についての要約要素)を生成する(S108)。高周波特性評価部6では、周波数分布はフーリエ変換を用いて算出し、包絡線の抽出はローパスフィルタを用いて算出する。周波数分布と包絡線の情報は、図12に示すように、対応する要約要素の種類項目を設定し、算出した結果に対応する要約要素の変化項目、パラメータ項目、発生時間項目を設定する。
低周波特性評価部7は、均一特性区間に対して、観測値の情報(低周波特徴情報)を算出する(S109)。観測値の情報は、後述の図14のように、対応する要約要素の種類項目を設定し、算出した結果に対応する要約要素の変化項目、パラメータ項目、発生時間項目を設定する。
特性統合部8は、これまでに生成された要約要素を、新規時系列データにおいて対応する均一特性区間が現れる順に新規要約要素系列としてリスト形式に統合し(後述の図15)、新規要約要素系列バッファ9に格納する(S110)。また同時に、要約要素管理部10へ、新規要約要素系列の情報を転送する。
要約要素管理部10は、要約要素系列蓄積DB11に蓄積されている要約要素系列を、反復類似判定部12からの要求に応じて反復類似判定部12へ転送する。また、要約要素管理部10は、特性統合部8から受領した新規な要約要素系列を、要約要素系列蓄積DB11に追加し蓄積する。
反復類似判定部12は、新規要約要素系列バッファ9に格納された新規の要約要素系列と、要約要素管理部10に要求して得られた要約要素系列蓄積DB11に蓄積されている要約要素系列との間の類似性を判定する。以下の説明では、新規の要約要素系列を要約要素系列S(系列Sともいう。第1の要約要素系列の一例)と呼び、要約要素管理部10から受領した要約要素系列を要約要素系列A(系列Aともいう。第2の要約要素系列の一例)と呼ぶこととする。系列Aは新規に作成された系列Sの類似判定の対象である。反復類似判定部12は、系列Aと系列Sとを読み込み類似評価処理を実施する(S111)。反復類似判定部12は、系列Aとして選択されていない要約要素系列が要約要素系列蓄積DB11に存在している限り、選択されていない要約要素系列を新たな系列A(第2の要約要素系列)として選択し、順次に系列Sとの類似判定処理を行う。系列Sと系列Aとの類似判定処理は、以下の様に行う。
反復類似判定部12は、図7に示すように、要約要素系列比較用候補生成部13に系列Sが持つ複数の均一特性区間と、系列Aが持つ複数の均一特性区間に対して、どのようなマッチングで個々の均一特性区間に対応する要約要素の間の類似性を判定するかの提示を依頼する(S112)。なお要約要素系列比較用候補生成部13は依頼毎にマッチングM(具体例は後述する)を生成する。要約要素系列比較用候補生成部13は、比較履歴バッファ14に存在しない新しいマッチングMを算出し、反復類似判定部12に通知すると共に、マッチングMを比較履歴バッファ14に追加で格納する(S113)。反復類似判定部12は、マッチングMを受領すると系列S、系列AおよびマッチングMを要約要素系列類似評価部15へ送信する(S114)。
まず概要を説明する。要約要素系列類似評価部15は、系列Sと系列Aから、マッチングMで対応付けされている対応に従う均一特性区間のペアを選択し、対応する要約要素を多項目不定長要約要素類似評価部17へ送る(S115)。
多項目不定長要約要素類似評価部17は、系列Sの均一特性区間の要約要素と、系列Aの均一特性区間の要約要素との間の類似性を評価する(要約要素間の類似度。具体例は後述する)(S116)。類似性の評価は、要約要素の種類項目が同一のもの同士で行い、その変化項目、パラメータ項目、発生時間項目の内容の類似性を評価する。多項目不定長要約要素類似評価部17による類似性評価は、単純には変化項目の一致不一致の0−1フラグ、パラメータの値の距離、発生時間の距離に対して重み付き加算を行った値を類似性として判定する方法が考えられる。なお、類似性判定においては、変化項目が異なる値である場合に、その変化項目の値の組み合わせに応じて、パラメータ項目の値の距離に加える重みを変更するような評価をしてもよく、類似性判定の方式を限定するものではない。
要約要素系列類似評価部15は、系列Sと系列Aとの均一特性区間に対し、マッチングMで指定された全ての組み合わせに対して類似性を評価し、全組み合わせに対する類似性の逆数の総和したものの逆数を系列Sと系列AのマッチングMにおける類似性とする(S117)。全組み合わせに対する類似性の逆数の総和の際に、重み付けを行っても良い。要約要素系列類似評価部15は、系列Sと系列AとのマッチングMにおける類似性を算出した後、評価履歴バッファ16にマッチングMと類似性(系列間の類似度)をペアで追加し格納する。
反復類似判定部12は、要約要素系列比較用候補生成部13が与える全てのマッチングM(i)(iは1以上の整数)に対して、要約要素系列類似評価部15によるマッチング毎の類似性の評価を完了した後(S118)、評価履歴バッファに格納されたマッチングと類似性とのペアから、類似性が最大のペアを採用し、系列Sと系列Aとの類似性(系列間の類似度)とする(S119)。
結果出力部18は、反復類似判定部12において算出された系列Sと系列Aの類似性が、閾値よりも大きいものを出力する。
反復類似判定部12は、比較履歴バッファ14と評価履歴バッファ16との内容をクリアした後(S120)、要約要素管理部10から、未評価(未選択)の要約要素系列を一つ受領して新たな系列Aとし、系列Sと、この新たな系列Aとの類似性を判定し、結果出力部18が閾値に基づき出力する処理を、未評価の要約要素系列が無くなるまで反復する。未評価の要約要素系列が無くなった場合に処理を完了する(S121〜S123)。
図8は新規の時系列データを示す。新規時系列データバッファ1には新規の時系列データとして、図8に示す波形のデータが格納されているものとする。このとき、要約指標値算出部2は、図9に示す要約指標値系列や、図10に示す要約指標値系列を生成する。
図9は、要約指標値系列として、新規時系列データを10点ごと(10点ごととは図8の横軸を10刻みに区切ることを意味する)に区切った区間ごとに平均値をとった図である。
図10は、要約指標値系列として、10点ごとに区切った区間における主要周波数の値を示した図である。
変曲点検出部3は、図9の要約指標値系列に対しては、急峻な変動を示す60点目と100点目、および傾きが大きく変化する200点目と240点目および280点目を変曲点とする。図10の要約指標値系列に対しては、主要周波数が変動した後30点以上固定される100点目、120点目、200点目、240点目および280点目が変曲点として選ばれる。その結果、変曲点として算出された点は、60点目、100点目、120点目、200点目、240点目、280点目である。これらの変曲点について区切った区間を、均一特性区間とする。この例における均一特性区間に、左から順番に均一特性区間AからGまで名前をつけることとする。
図11は、新規の時系列データを(A)から(G)の7つの均一特性区間に分割した状態を示す図である。
次に、パルス検知部4は、それぞれの均一特性区間にパルスノイズが存在するかどうかを確認する。この例では、パルスノイズは確認されない。
次に、周波数評価部5は、周波数評価を要約指標値算出部2よりも詳細に解析を行う。その結果、高周波特性を持つ均一特性区間は図11において、「A,B,D,F」であることを確認する。
高周波特性評価部6は、「均一特性区間A,B,D,F」それぞれに対して、周波数と包絡線について評価を行い、図12に示す結果を生成する。
図12は、高周波成分を有すると判定された「均一特性区間A,B,D,F」のそれぞれの要約要素情報である。
ここでは、図12の上から3個までの要約要素について説明する。
(1)1個目の要約要素は、均一特性区間Aに対応するものであり、その波形の周波数について示すものである。変化項目がランダムであり、パラメータ項目に「2,5」が格納される。この意味は、均一特性区間Aの周波数は、最小値2、最大値5の範囲のランダム値という特性を持つことを意味する。発生時間項目の0,60は、それぞれ、均一特性区間の開始時刻0と継続時間60を意味する。発生時間項目については、以降の要約要素についても同様であるため、以後の説明では省略する。
(2)2個目の要約要素も同様に、均一特性区間Aに対応するものであり、その波形の包絡線について示すものである。変化項目が一定であり、パラメータ項目に0.3が格納される。これは振動時の包絡線が、中心値から0.3上下に分布していることを示す。この中心値は、低周波特性評価部7における評価で指定される。
(3)3個目の要約要素は、均一特性区間Bに対応するものであり、その波形の周波数について示すものである。変化項目がU字変化であり、パラメータ項目には「2,0.3,−0.03」が格納される。
図13は周波数の「U字変化」の意味を説明する図である。図13(a)は時系列データである。時系列データの範囲(1)と範囲(3)とは、範囲(2)に対して周波数が高い。この時間と周波数との関係を表したものが図13(b)である。範囲(2)に対して両隣の範囲(1)、範囲(4)の周波数がのでU字形状のグラフとなる。「U字変化」とはこの意味である。これは、均一特性区間Bの周波数は、「初期値2、初期傾き0.3、曲率−0.03」で変化することを意味する。なおここで示す曲率の定義は、区間開始からの経過時間Tにおける値の変化の傾きが、初期傾き+曲率×経過時間Tで表されることを意味するが、ここで述べた定義に曲率の定義を限定するものではない。従って、「初期値2、初期傾き0.3、曲率−0.03」で変化する周波数の最初の5単位時間の値を示すと、「2,2.3,2.57,2.81,3.02,3.2」となる。
4個目以降の要約要素についても、同様である。
一方、低周波特性評価部7は、全ての均一特性区間に対して、その観測値の特性について評価を行う。
図14は、低周波特性評価部7によって生成された低周波成分に関する要約要素を示す図である。ここでは、図14の上から4番目と5番目について説明を行う。
(1)4番目の要約要素は、均一特性区間Dに対応するものであり、その観測値の主要な変化について示すものである。変化項目が一定であり、パラメータ項目に0.75が格納される。これは、均一特性区間Dの観測値は、0.75で一定であることを意味する。高周波成分を含む区間について評価する場合は、ここで得られた値は中央値であり、この値を基準として高周波振動の成分が加算されることとなる。その高周波振動の情報は、高周波特性評価部6にて算出される。
(2)5番目の要約要素は、均一特性区間Eに対応するものであり、その観測値の特性について示すものである。変化項目が単調変化であり、パラメータには「0.75,−0.013」が格納される。これは、均一特性区間Eの観測値は、初期値0.75、傾き−0.013という特性を持つことを意味する。
特性統合部8は、図12および図14のように得られた高周波成分に関する要約要素と低周波成分に関する要約要素とを、対応する均一特性区間に対応付けて統合し、対応する時系列データの要約要素系列として生成する。
要約要素系列比較用候補生成部13は、反復類似判定部12からの問い合わせ(マッチング算出依頼)に応じて、系列SのN1〜N7と、系列AのC1〜C6との間で比較するペア(組み合わせともいう)を、均一特性区間を単位として決定する。すなわち、マッチングMは複数の組み合わせからなる。要約要素系列比較用候補生成部13は、マッチングMの生成に、例えばDPマッチング(Dynamic Programming マッチング)を用いる。要約要素系列比較用候補生成部13は、反復類似判定部12からの1回の問い合わせごとに一つのマッチングMを生成する。例えば、最初の問い合わせに対して、要約要素系列比較用候補生成部13は、「N1とC1」、「N2とC2」、「N3とC3」、「N4,N5,N6とC6」の組み合わせからなるマッチングM(1)を提示し、次の問い合わせには、「N2とC1」、「N3とC2」、「N4,N5,N6とC3,C4,C5」、「N7とC6」の組み合わせからなるマッチングM(2)を提示するとする。要約要素系列比較用候補生成部13は、一度提示したマッチングMは、比較履歴バッファ14に、その組み合わせの情報そのもの、もしくはフラグ情報を格納する。これにより、同一の組み合わせが提示されないようにする。
反復類似判定部12は、要約要素系列比較用候補生成部13へ要請し受領した組み合わせを、要約要素系列類似評価部15に渡し、その組み合わせに基づき類似判定の算出を要請する。要約要素系列類似評価部15は、受領した組み合わせに対応する要約要素のペア毎に、それらの間の類似性の算出を多項目不定長要約要素類似評価部17へ依頼し、得られた類似性評価値の逆数の総和の逆数を取り、要約要素系列N1〜N7とC1〜C6との間の、指定された組み合わせにおける類似性の評価値とする。
多項目不定長要約要素類似評価部17は、均一特性区間に属する要約要素系列を単位とした要約要素の間の類似性を評価する。
多項目不定長要約要素類似評価部17は、要約要素系列類似評価部15からマッチングM(1)及びマッチングM(2)を受信したとする。例えば、マッチングM(1)の場合、「N1とC1」の組み合わせの類似性を評価する場合、双方とも種類項目、変化項目、発生時間項目が同一であるが、パラメータが1.0,−0.03と0.0,0.15という差があるため、双方間のグラフ上のユークリッド距離12.27を求め、その距離の逆数0.0815を類似性評価値とする。距離の算出は初期値と傾き、継続時間から算出可能であるため、継続時間の長さによらず定数時間で演算可能である。例えば、2つの要約要素の種類項目が観測値、変化項目が単調変化で、パラメータ項目がそれぞれa,bとc,dであり、発生時間項目の継続時間がTであったとき、双方の要約要素の類似性は図20の式で表される。また、「N4,N5,N6とC6」の組み合わせにおいては、「N4とC6」との類似性は、種類項目が同一であるため評価が可能であるが、N5,N6のように種類項目に周波数や包絡線が存在する高周波成分を含む均一特性区間と、種類項目として周波数や包絡線を持たない均一特性区間との比較においては、両者の類似性の評価は低く(逆数を大きく)評価する。この場合の類似性評価値の低さは、用途に応じて調整が可能であるものとする。
またマッチングM(2)の場合の「N4,N5,N6とC3,C4,C5」の組み合わせのように、双方とも高周波成分を持つ均一特性区間同士の比較では、種類項目が同一種類の「N4とC3」、「N5とC4」、「N6とC5」のそれぞれに対して、類似性を評価する。観測値と包絡線については、その線の間のユークリッド距離の逆数を類似性の評価値とし、周波数については、その周波数の差の積分値の逆数を類似性の評価値とする。いずれの類似性評価値も、パラメータ項目の内容から、項目を展開せずに算出可能であるため、継続時間によらず定数時間で演算可能である。多項目不定長要約要素類似評価部17は、算出した類似性評価値を要約要素系列類似評価部15に通知する。なお、類似性評価値の算出方式については、上記で定義した方式に限定されるものではなく、用途に応じて類似評価の方式を変更しても良い。
このように、多項目不定長要約要素類似評価部17は、均一特性区間に属する要約要素系列を単位とした要約要素の間の類似性を評価することにより、系列Sのある均一特性区間と、系列Aの均一特性区間との類似度を判定する。
このように、多項目不定長要約要素類似評価部17は、要約要素系列比較用候補生成部13(マッチング生成部)によって生成された複数の組み合わせからなるマッチングMごとに、所定の算出方式に従うことにより組み合わせに含まれる要約要素系列Sの要約要素と、要約要素系列Aの要約要素との間の類似度を算出し、かつ、算出された要約要素同士の類似度に基づいて組み合わせの類似度を算出する。すなわち、マッチングM(1)における「N4,N5,N6とC6」の組み合わせにおいては、前記のように「N4とC6」とC6との要約要素間の類似性は、種類項目が同一であるため評価が可能であり要約要素間の類似度は大きくなり、N5,N6のように種類項目に周波数や包絡線が存在する高周波成分を含む均一特性区間と、種類項目として周波数や包絡線を持たないC6のような均一特性区間との比較においては、両者の類似性の評価は低く(逆数を大きく)評価する。多項目不定長要約要素類似評価部17は、要約要素間の類似度を算出し、この要約要素間の類似度に基づいて、「N4,N5,N6とC6」という組み合わせの類似度を算出する。組み合わせの類似度とは、その要約要素の対応する均一特性区間どうしの類似度を意味する。
要約要素系列類似評価部15は、系列Sと系列Aとの一つのマッチングMについて新たに算出した類似性評価値を、評価履歴バッファ16に格納されている系列Sと系列Aとのそれまでの他のマッチングによる類似性評価値と比較し、今回のマッチングMによる新しい類似性評価値の方が大きい場合(類似性が高い場合)には、双方の要約要素系列、その組み合わせおよびそのマッチングに対する類似性評価値の情報を評価履歴バッファ16に上書きする。評価履歴バッファへの格納時には、前の情報を消すのではなく、順序付けをして格納してもよい。
反復類似判定部12は、系列Sの要約要素「N1〜N7」と系列Aの要約要素「C1〜C6」に関して、要約要素系列比較用候補生成部13から提供される全ての組み合わせについて、要約要素系列類似評価部15による類似性評価が完了した後に、評価履歴バッファ16に格納された類似性評価値で最も大きいものを、双方の要約要素系列間の類似性評価値とし、閾値を超えているものを出力する。すなわち反復類似判定部12は、図6のS118においてS112に戻る内側ループ(IN)によって系列Sと系列Aとの間のマッチングMを切り替えると共に、S123においてS111に戻る外側ループ(OUT)によって、系列Sの判定相手である系列Aを切り替えてゆく。反復類似判定部12は、系列Sに類似する系列Aとして、類似性評価値の最も大きい系列Aを選択する。
図21を参照して実施の形態2の類似検索装置100Bを説明する。以下に、実施の形態1と相違する点のみを説明する。
(1)外部情報引用部19は、日付や場所の情報などから時系列データとの対応付けが可能な情報(対応情報)が存在する外部情報を蓄積している外部情報DB20から、反復類似判定部12で提示され、類似性評価値が閾値を超えるケースに対して、対応する日時・場所などの対応情報から外部情報を引用し、結果出力部18から出力する。
(2)学習部21は、多項目不定長要約要素類似評価部17での判定結果の分布情報を学習情報DB22に格納し、類似判定の分布が一様分布などの指定された分布になるよう、多項目不定長要約要素類似評価部17の判定手法の閾値や重みなどのパラメータを調整する。
(3)分布階層管理部23は、要約要素系列蓄積DB11に蓄積されている要約要素系列の情報を定期的に確認し、あらかじめ設定した日時など、検索を高速化するためのパーティショニングが設定されているキーDB項目の条件区切りごとに、種類項目や変化項目、パラメータ項目、発生時間項目の値がどの程度の頻度で存在するかを管理し、要約要素管理部10が要約要素系列蓄積DBから要約要素系列を引用する際に、キーDB項目を限定することで、要約要素系列蓄積DB11からの検索を高速化する。
例えば機械故障事例の検索などでは、故障に関係する可能性の高い情報を容易に取得できる。
図22、図23を参照して実施の形態3を説明する。実施の形態3は、類似検索装置100A(あるいは類似検索装置100B)をコンピュータで実現する場合を示す。類似検索装置100Aも類似検索装置100Bもコンピュータで実現する場合は同様の構成であるので類似検索装置100Aを想定して説明する。
時系列データに対して、波形が特徴的である区間を、その波形の種類、パラメータ、開始時点、継続時間からなる要約要素に変換する特性評価部と、
指定された検索元シーケンスと類似する部分データを、その要約要素を類似判定の基準とし、要約要素の種類に応じて類似性の判定方式を選択することを可能とする要約要素類似評価部と
を持つことを特徴とする類似検索装置を説明した。
特性評価部に高周波特性評価部と低周波特性評価部を持ち、要約要素の周波数特性について高周波成分が主であるか、低周波成分が主であるかに応じて、高周波成分が主である場合には周波数値に重みを置いた類似性判定、低周波成分が主である場合には実値に重みを置いた類似性判定を行うことを特徴とする類似検索装置を説明した。
要約要素類似評価部に多項目不定長要約要素類似評価部があり、検索対象の時系列データの一部分と検索シーケンスにおける要約要素の順番に飛びや重複があった場合にも、飛びや重複を類似性判定の一尺度として判定を行うことを特徴とした類似検索装置を説明した。
外部情報データベースから、検索された要約要素系列に対応する情報データを自動的に引用・表示する外部情報引用部を持つことを特徴とした類似検索装置を説明した。
要約要素とする閾値を適切に設定する学習部を持ち、可能なパラメータの分布から、カバー率の高い最小限の値範囲のパラメータを採用することを特徴とした類似検索装置を説明した。
要約要素の分布情報を階層的に管理することにより、検索速度を向上させる要約要素分布管理部を持つことを特徴とした類似検索装置を説明した。
Claims (9)
- 時系列データから、前記時系列データの時間進行に対する所定の項目の変化を示す項目変化系列を生成する項目変化系列生成部と、
前記項目変化系列生成部によって生成された前記項目変化系列に基づいて、前記時系列データの期間を、区間内では前記所定の項目の変化が均一とみなされる均一特性区間ごとに分割する区間分割部と、
前記均一特性区間における前記時系列データの特徴を要約した情報を示す要約要素を前記均一特性区間ごとに生成し、生成された前記均一特性区間ごとの要約要素を時系列に配置した要約要素系列を生成する要約要素系列生成部と、
前記要約要素系列生成部によって生成された第1の要約要素系列と第2の要約要素系列との類似判定を実行する時系列データ類似判定部と
を備えたことを特徴とする時系列データ類似判定装置。 - 前記要約要素系列生成部は、
前記均一特性区間の時系列データに高周波成分が含まれる場合には、前記高周波成分の特性を特徴付ける高周波特徴情報を含む要約要素を生成することを特徴とする請求項1記載の時系列データ類似判定装置。 - 前記要約要素系列生成部は、
前記均一特性区間の時系列データに低周波成分が含まれる場合には、前記低周波成分の特性を特徴付ける低周波特徴情報を含む要約要素を生成することを特徴とする請求項1または2のいずれかに記載の時系列データ類似判定装置。 - 前記時系列データ類似判定部は、
前記第1の要約要素系列の一つの均一特性区間に対応する少なくとも一つの要約要素と、前記第2の要約要素系列の一つの均一特性区間に対応する少なくとも一つの要約要素との間の組み合わせを複数有するマッチングMを少なくとも一つ生成するマッチング生成部と、
前記マッチング生成部によって生成された前記マッチングMごとに、所定の算出方式に従うことにより組み合わせに含まれる前記第1の要約要素系列の要約要素と、前記第2の要約要素系列の要約要素との間の類似度を算出し、かつ、算出された要約要素同士の類似度に基づいて前記組み合わせの類似度を算出する組合せ類似度算出部と、
組み合わせごとに算出された前記類似度に基づき、前記マッチングMにおける前記第1の要約要素系列と前記第2の要約要素系列との間の類似判定を実行する要約要素系列類似評価部と
を備えたことを特徴とする請求項1〜3のいずれかに記載の時系列データ類似判定装置。 - 前記時系列データ類似判定装置は、さらに、
時系列データ類似判定部によって前記第1の要約要素系列と前記第2の要約要素系列とが類似すると判定された場合に、前記第2の要約要素系列の元となる第2の時系列データに関連する第2時系列データ関連情報を格納している外部情報データベース装置から、前記第2時系列データ関連情報を取得する外部情報取得部を備えた
ことを特徴とする請求項1〜4のいずれかに記載の時系列データ類似判定装置。 - 前記時系列データ類似判定装置は、さらに、
情報を格納する学習情報格納部と、
前記組合せ類似度算出部によって算出された類似度の分布を示す分布情報を前記学習情報格納部に蓄積し、前記学習情報格納部に蓄積された分布情報に基づいて、前記組合せ類似度算出部による類似度の前記算出方式を調整する学習部と
を備えたことを特徴とする請求項4また5のいずれかに記載の時系列データ類似判定装置。 - コンピュータを、
(1)時系列データから、前記時系列データの時間進行に対する所定の項目の変化を示す項目変化系列を生成する項目変化系列生成部、
(2)前記項目変化系列生成部によって生成された前記項目変化系列に基づいて、前記時系列データの期間を、区間内では前記所定の項目の変化が均一とみなされる均一特性区間ごとに分割する区間分割部、
(3)前記均一特性区間における前記時系列データの特徴を要約した情報を示す要約要素を前記均一特性区間ごとに生成し、生成された前記均一特性区間ごとの要約要素を時系列に配置した要約要素系列を生成する要約要素系列生成部、
(4)前記要約要素系列生成部によって生成された第1の要約要素系列と第2の要約要素系列との類似判定を実行する時系列データ類似判定部、
として機能させるための時系列データ類似判定プログラム。 - 請求項7記載の時系列データ類似判定プログラムを記録したコンピュータ読み取り可能な記録媒体。
- (1)項目変化系列生成部が、
時系列データから、前記時系列データの時間進行に対する所定の項目の変化を示す項目変化系列を生成し、
(2)区間分割部が、
前記項目変化系列生成部によって生成された前記項目変化系列に基づいて、前記時系列データの期間を、区間内では前記所定の項目の変化が均一とみなされる均一特性区間ごとに分割し、
(3)要約要素系列生成部が、
前記均一特性区間における前記時系列データの特徴を要約した情報を示す要約要素を前記均一特性区間ごとに生成し、生成された前記均一特性区間ごとの要約要素を時系列に配置した要約要素系列を生成し、
(4)時系列データ類似判定部が、
前記要約要素系列生成部によって生成された第1の要約要素系列と第2の要約要素系列との類似判定を実行する
ことを特徴とする時系列データ類似判定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009180546A JP5441554B2 (ja) | 2009-08-03 | 2009-08-03 | 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009180546A JP5441554B2 (ja) | 2009-08-03 | 2009-08-03 | 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011034389A true JP2011034389A (ja) | 2011-02-17 |
JP5441554B2 JP5441554B2 (ja) | 2014-03-12 |
Family
ID=43763390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009180546A Expired - Fee Related JP5441554B2 (ja) | 2009-08-03 | 2009-08-03 | 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5441554B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016192024A (ja) * | 2015-03-31 | 2016-11-10 | 株式会社Screenホールディングス | 時系列データ処理方法、時系列データ処理プログラム、および、時系列データ処理装置 |
JP2017091096A (ja) * | 2015-11-06 | 2017-05-25 | 日本電信電話株式会社 | 信号探索方法、装置、及びプログラム |
KR101916934B1 (ko) * | 2018-01-30 | 2018-11-08 | 주식회사 인포리언스 | 데이터 탐색 장치 |
KR101946842B1 (ko) * | 2016-07-22 | 2019-02-11 | 주식회사 인포리언스 | 데이터 탐색 장치 |
US10223069B2 (en) | 2015-01-22 | 2019-03-05 | Mitsubishi Electric Corporation | Time-series data search device and computer readable medium |
US11042737B2 (en) | 2018-06-21 | 2021-06-22 | Mitsubishi Electric Corporation | Learning device, learning method and program |
US11137750B2 (en) | 2016-10-06 | 2021-10-05 | Mitsubishi Electric Corporation | Time-series data processing device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101786837B1 (ko) * | 2016-08-04 | 2017-10-18 | 주식회사 인포리언스 | 데이터 탐색 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07271372A (ja) * | 1994-04-01 | 1995-10-20 | Kawai Musical Instr Mfg Co Ltd | 電子楽器 |
JP2006338373A (ja) * | 2005-06-02 | 2006-12-14 | Toshiba Corp | 多変数時系列データ分析装置、方法およびプログラム |
JP2007206037A (ja) * | 2006-02-06 | 2007-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 信号測定分析装置 |
-
2009
- 2009-08-03 JP JP2009180546A patent/JP5441554B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07271372A (ja) * | 1994-04-01 | 1995-10-20 | Kawai Musical Instr Mfg Co Ltd | 電子楽器 |
JP2006338373A (ja) * | 2005-06-02 | 2006-12-14 | Toshiba Corp | 多変数時系列データ分析装置、方法およびプログラム |
JP2007206037A (ja) * | 2006-02-06 | 2007-08-16 | Nippon Telegr & Teleph Corp <Ntt> | 信号測定分析装置 |
Non-Patent Citations (1)
Title |
---|
小柳 佑介 他: "時系列データ圧縮のための類似部分区間探索手法", 第1回データ工学と情報マネジメントに関するフォーラム−DEIMフォーラム−論文集 [ONLINE], JPN7013001608, 9 May 2009 (2009-05-09), JP, pages 1 - 6, ISSN: 0002518749 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10223069B2 (en) | 2015-01-22 | 2019-03-05 | Mitsubishi Electric Corporation | Time-series data search device and computer readable medium |
JP2016192024A (ja) * | 2015-03-31 | 2016-11-10 | 株式会社Screenホールディングス | 時系列データ処理方法、時系列データ処理プログラム、および、時系列データ処理装置 |
JP2017091096A (ja) * | 2015-11-06 | 2017-05-25 | 日本電信電話株式会社 | 信号探索方法、装置、及びプログラム |
KR101946842B1 (ko) * | 2016-07-22 | 2019-02-11 | 주식회사 인포리언스 | 데이터 탐색 장치 |
US11137750B2 (en) | 2016-10-06 | 2021-10-05 | Mitsubishi Electric Corporation | Time-series data processing device |
KR101916934B1 (ko) * | 2018-01-30 | 2018-11-08 | 주식회사 인포리언스 | 데이터 탐색 장치 |
US11042737B2 (en) | 2018-06-21 | 2021-06-22 | Mitsubishi Electric Corporation | Learning device, learning method and program |
Also Published As
Publication number | Publication date |
---|---|
JP5441554B2 (ja) | 2014-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5441554B2 (ja) | 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法 | |
US10445374B2 (en) | Systems and methods for conducting and terminating a technology-assisted review | |
US8015190B1 (en) | Similarity-based searching | |
JP5440394B2 (ja) | 評価予測装置、評価予測方法、及びプログラム | |
JP6898561B2 (ja) | 機械学習プログラム、機械学習方法、および機械学習装置 | |
US11748351B2 (en) | Class specific query processing | |
US20150254568A1 (en) | Boosted Ensemble of Segmented Scorecard Models | |
EP1890257A2 (en) | Clustering for structured data | |
US10135723B2 (en) | System and method for supervised network clustering | |
EP3477643A1 (en) | Audio fingerprint extraction and audio recognition using said fingerprints | |
US8108452B2 (en) | Keyword based audio comparison | |
Ren et al. | Anomaly detection using piecewise aggregate approximation in the amplitude domain | |
Robu et al. | Mining frequent patterns in data using apriori and eclat: A comparison of the algorithm performance and association rule generation | |
Torres-Tramón et al. | Topic detection in Twitter using topology data analysis | |
US11151464B2 (en) | Forecasting data based on hidden cycle evidence | |
CN116635911A (zh) | 动作识别方法及相关装置,存储介质 | |
Li et al. | Internal leakage identification of hydraulic cylinder based on intrinsic mode functions with random forest | |
JP4544047B2 (ja) | Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
JP2023061477A (ja) | プログラム、データ処理方法及びデータ処理装置 | |
Itzhak et al. | Continuously predicting the completion of a time intervals related pattern | |
CN112085218A (zh) | 特征衍生方法、装置、电子设备以及计算机可读介质 | |
JP7059599B2 (ja) | 検索処理プログラム、検索処理方法および検索処理装置 | |
Gangwar et al. | An adaptive boosting technique to mitigate popularity bias in recommender system | |
CN113626090B (zh) | 一种服务器固件配置方法、装置、设备及可读介质 | |
JP3788254B2 (ja) | 情報フィルタリングシステムとそのフィルタリング方法、及び情報フィルタリングプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130531 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131217 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |