JP2003518310A

JP2003518310A - 時系列データベースにおけるウィンドウ構成の際に双対性を用いたサブシーケンスマッチング方法

Info

Publication number: JP2003518310A
Application number: JP2001547619A
Authority: JP
Inventors: ワン，キュヤン; ムーン，ヤンセ
Original assignee: Korea Advanced Institute of Science and Technology KAIST
Current assignee: Korea Advanced Institute of Science and Technology KAIST
Priority date: 1999-12-20
Filing date: 2000-12-14
Publication date: 2003-06-03
Anticipated expiration: 2020-12-14
Also published as: JP3648709B2; AU2029501A; WO2001046771A2; US6496817B1; EP1250636A2; WO2001046771A3; KR100344530B1; KR20010064977A

Abstract

(57)【要約】【解決手段】ウィンドウを構成する際に双対性を用いてデータシーケンスをディスジョイントウィンドウに分割するため、多次元索引に保存する点の個数を削減し、個別点を索引に直接保存することができ、質問シーケンスを分割したスライディングウィンドウを変換した個別点により索引を検索し、質問に使用された点と索引に保存された点とを比較することによって、錯誤解答を削減して性能を向上させることができるようにするとともに、データシーケンスをディスジョイントウィンドウに分割して索引構成過程での特性抽出関数の使用を削減することによって、特性抽出関数の使用に必要なＣＰＵ演算を大幅に短縮して既存方法に比べて迅速に索引を構成することができるようにする。ウィンドウを構成する際に双対性を用いる第１過程と、前記第１過程に基づいてデータシーケンスをディスジョイントウィンドウに分割する第２過程と、前記第１過程に基づいて質問シーケンスをスライディングウィンドウに分割する第３過程と、前記第２過程と第３過程とで分割されたウィンドウを用いてサブシーケンスマッチングを行なう第４過程とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

本発明は時系列データベースにおけるサブシーケンスマッチング方法に関する
ものであり、より詳細にはウィンドウを構成する際に双対性(duality) を用いて
サブシーケンスマッチングの性能を向上させた時系列データベースにおけるサブ
シーケンスマッチング方法に関するものである。

【０００２】

【従来の技術】

まず、以下の説明で使用される用語を定義する。長さがｎである「シーケンス」はｎ個のエントリーから構成された配列を意味
し、「時系列データ」は各時間別に測定した実数値を有するエントリーのシーケ
ンスを意味し、「時系列データベース」は時系列データを保存したデータベース
を意味する。

【０００３】また、「データシーケンス」は時系列データベースに保存された時系列データ
を意味し、「質問シーケンス」はユーザによって与えられるシーケンスを意味し
、「類似シーケンスマッチング」とは質問シーケンスと類似したデータシーケン
スを検索する方法を意味する。

【０００４】前記で、類似シーケンスマッチングの二つのシーケンス間の距離が、ユーザが
提示した「許容値」であるε以下であれば、二つのシーケンスは「類似」してい
るという。そして、シーケンスＸとＹとの間の距離がε以下であれば、ＸとＹと
はεマッチ（ε−match)であると定義し、長さがｎである二つのシーケンスの距
離を計算する演算を「ｎ次元距離計算」であると定義する。

【０００５】上記の距離計算において、本発明は特定の距離計算方法に限定されない。しか
し、本発明の技術に対する理解を助けるためにユークリッド距離計算方法に基づ
いて説明する。長さがｎである二つのシーケンスＸ＝｛Ｘ₀，Ｘ₁，．．．，Ｘ _n-1 ｝とＹ＝｛Ｙ₀，ｙ₁，．．．，Ｙ_n-1｝との「ユークリッド距離」は、

【０００６】

【数１】

【０００７】の式により定義する。

【０００８】シーケンスＳがシーケンスＡを含んでいる場合、即ちＡがＳの一部分である場
合、ＡはＳの「サブシーケンス」であるという。この時、類似シーケンスマッチ
ングは、全体マッチングとサブシーケンスマッチングとの２種類に区分される。
前記で「全体マッチング」とは、データシーケンスＳ₁，Ｓ₂，．．．，Ｓ_Nが
あって、質問シーケンスＱと許容値εとが与えられた時、Ｑとεマッチする全て
のデータシーケンスを探索する方法である。この時、データシーケンスと質問シ
ーケンスとの長さは同一である。また、前記で「サブシーケンスマッチング」と
は、それぞれ異なる長さを有するデータシーケンスＳ₁，Ｓ₂，．．．，Ｓ_Nが
あって、質問シーケンスＱと許容値εとが与えられた時、Ｑとεマッチするサブ
シーケンスを含むデータシーケンスＳ_iと当該サブシーケンスの位置とを探索す
る方法である。

【０００９】「ウィンドウ」は、シーケンスを分割する単位であり、分割する方法によって
スライディングウィンドウとディスジョイントウィンドウとに区分する。前記「
スライディングウィンドウ」は、シーケンスの可能な全ての位置を開始位置とし
て構成したウィンドウを意味するが、添付図面の図１ａはシーケンスを大きさ４
であるスライディングウィンドウに分割した例を表す。前記図１ａにおいて２０
１はシーケンスであり、２０２は長さ４であるスライディングウィンドウである
。また、前記「ディスジョイントウィンドウ」はウィンドウの大きさの倍数にな
る位置を開始位置として構成したウィンドウを意味するが、図１ｂはシーケンス
を大きさ４であるディスジョイントウィンドウに分割した例を表す。前記図１ｂ
において２０３はシーケンスであり、２０４はディスジョイントウィンドウであ
る。

【００１０】サブシーケンスマッチングにおける「錯誤棄却」は、与えられた質問シーケン
スとεマッチするサブシーケンスまたは錯誤によって棄却されるサブシーケンス
を意味し、「錯誤解答」は質問シーケンスとεマッチはしないが、錯誤によって
εマッチするものとして選択されたサブシーケンスを意味する。前記サブシーケ
ンスマッチングにおいては錯誤棄却と錯誤解答とが発生しなければならない。

【００１１】「特性抽出関数」は長さがｎであるシーケンスに対してｎよりも小さな個数の
特性ｆ個を抽出する関数を意味するが、前記特性抽出関数を類似シーケンスマッ
チングに使用するためには、これを使用することによる錯誤棄却がないようにす
べきである。前記錯誤棄却が無いことを保障するための特性抽出関数の条件は、
Agrawal 、R.、Faloutsos 、C.、and Swami 、A.、"Efficient Similarity Sear
ch in Sequence Databases、"In Proc. the 4th Int'l Conf. on Foundations o
f Data Organization and Algorithms、Chicago 、Illinois、pp. 69-84、Oct.19
93. ［参考文献１] 及びFaloutsos 、C.、Ranganathan 、M.、and Manolopoulos
、Y.、"Fast Subseqeunce Matching in Time-Series Databases 、"In Proc. In
t'l Conf. on Management of Data 、ACM SIGMOD、Minneapolis 、Minnesota 、
pp.419-429、 May1994.［参考文献２] に詳しく記載されている。

【００１２】また、以下の説明で使用される表記法を定義する。Ｌｅｎ（Ｓ）はシーケンスＳの長さを意味し、Ｓ［ｋ］はシーケンスＳのｋ番
目のエントリーであり、Ｓ［ｉ：ｊ］はシーケンスＳのｉ番目のエントリーから
ｊ番目のエントリーまでにより構成されたサブシーケンスを表す。この時、前記
Ｓ［ｉ：ｊ］は二つのサブシーケンスＳ［ｉ：ｋ］Ｓ［ｋ＋１：ｊ］で表現する
ことができる。また、Ｓ_iはシーケンスＳをディスジョイントウィンドウで分割
した時、ｉ番目のディスジョイントウィンドウを意味し、ωはスライディングウ
ィンドウ及びディスジョイントウィンドウの大きさを表す。

【００１３】近年、株式データ、企業の成長率、為替レート変動データ、医療データ、天気
変動データなどのように多様な分野で多くの量の時系列データが発生しているが
、コンピュータの計算及び記憶能力が発展することによって多くの量の時系列デ
ータを活用しようとする研究が活発になされている。特に、時系列データに対す
る類似シーケンスマッチングは、データベースの新しい応用分野であるデータマ
イニングの重要な分野として位置を占めている。

【００１４】以下、従来技術で時系列データに対する類似シーケンスマッチング方法を説明
する。

【００１５】［参考文献１] の従来技術ではデータシーケンスと質問シーケンスとの長さが
同一である場合の全体マッチング問題を解決するために次のような過程を行なう
。

【００１６】まず、特性抽出関数を使用して長さがｎであるデータシーケンスをｆ次元の点
に変換し、これをｆ次元索引に保存する。このように特性を抽出する理由は、多
次元索引の高次元問題(dimensionality curse)によって高次元のシーケンスを多
次元索引に直接保存することが難しいためである。その後、質問シーケンスもや
はり同一の関数を使用してｆ次元の点に変換し、変換した点と許容値εとを使用
して範囲質問(range query) を構成する。そして、構成した範囲質問で多次元索
引を検索してεマッチする全ての点を探索して候補集合(candidate set) を求め
る。このように候補集合を求めれば錯誤棄却は発生しないが、シーケンスの長さ
ｎの代りにｆ個の特性のみを使用することによって錯誤解答が発生し得る。

【００１７】従って、多次元索引に対する検索結果から得られた各点に対しては実際のデー
タシーケンスをアクセスし、質問シーケンスとの距離を調べて錯誤解答を除去す
るが、これを「後処理過程(post-processing step)」という。

【００１８】また、［参考文献２] の従来技術では［参考文献１] の全体マッチング問題を
一般化したサブシーケンスマッチング問題を解決するために次のような過程を行
なったが、本発明ではこの解決策を著者等の名前の頭文字を取って「ＦＲＭ」と
呼ぶ。

【００１９】サブシーケンスマッチングにおいて、質問シーケンスと類似したサブシーケン
スはデータシーケンスのどの位置にも現れるので、ＦＲＭでは全ての可能なサブ
シーケンスを調べるためにデータシーケンスの全ての可能な位置に対して一定の
大きさのスライディングウィンドウを構成し、質問シーケンスをスライディング
ウィンドウのような大きさのディスジョイントウィンドウに分割する方法を用い
た。ＦＲＭではデータシーケンスを分割した各スライディングウィンドウを低次
元空間の点に変換した。そして、変換した点の個数が多すぎて各点を個別に多次
元索引に保存することが難しいため、ヒューリスティックを使用していくつかの
点を含む最小包囲四角形（ＭＢＲ：minimum bounding rectangle) を構成し、個
別点を保存する代わりに、これらＭＢＲのみを多次元索引に保存し、これを利用
して多様な長さの質問シーケンスに対するサブシーケンスマッチングを試みた。

【００２０】前記ＦＲＭでは多様な長さの質問シーケンスに対するサブシーケンスマッチン
グのために下記のような２種類の定理を提示して使用した。

【００２１】＜定理１＞同一の長さのシーケンスＳとＱとを各々ｐ個のディスジョイントウィンドウＳ _i とｑ_i（１≦ｉ≦ｐ）とに分割した時、シーケンスＳとＱとがεマッチすると
、少なくとも一つ以上の（ｓ_i，ｑ_i）対がε／√ｐマッチする

【００２２】＜定理２＞同一の長さのシーケンスＳとＱとがεマッチすると、Ｓ［ｉ：ｊ］，Ｑ［ｉ：
ｊ］のいかなるサブシーケンス対もεマッチする。

【００２３】前記＜定理１＞と＜定理２＞とを使用してＦＲＭは質問シーケンスをｐ個のデ
ィスジョイントウィンドウに分割し、各ウィンドウをｆ次元の点に変換する。そ
して、変換した点とε／√ｐに戸を使用して範囲質問を構成し、多次元索引を検
索して候補集合を求める。その後、データベースからデータシーケンスを読み込
んでＬｅｎ（Ｑ）次元距離計算により候補集合に含まれる錯誤解答を除去する後
処理過程を行なう。

【００２４】前記サブシーケンスマッチングにおいて索引検索結果から求めた候補集合に錯
誤解答がより多く含まれれば、後処理過程のディスクアクセス及びＣＰＵ演算も
より増加し、その結果、性能が大きく低下するため、錯誤解答を削減させなけれ
ばならない。前記ＦＲＭにおいて索引検索結果から求めた候補集合に錯誤解答が
含まれる最大の原因は個別点を多次元索引に直接保存せずに、多数個の点を含む
ＭＢＲを構成してＭＢＲのみを索引に保存するためである。即ち、同一の範囲質
問に対して個別点を保存した時は候補にならないサブシーケンスが発生し、ＭＢ
Ｒのみを構成して保存した時は候補になる場合が多数発生するためである。

【００２５】

【発明が解決しようとする課題】

しかし、ＦＲＭにおいて個別点を直接保存する場合、全てのデータシーケンス
の長さの総計程度の多数のｆ次元点が生じる。この結果、本来のデータシーケン
スの記憶空間よりも約ｆ倍多い記憶空間が必要になる。また、これを保存する多
次元索引の高さが大きくなって性能が大きく低下する（［参考文献２] ）。従っ
て、ＦＲＭではＭＢＲを構成して保存するので、個別点を索引に直接保存し、こ
れを使用して点と点とを比較して錯誤解答を削減する効果、即ち、「点濾過効果
(point-filtering effect)」を得ることができなくなる。この結果、錯誤解答が
大きく増加し、性能が大きく低下するという問題点がある。

【００２６】

【課題を解決するための手段】本発明は、前記のような従来技術の問題点を解決するために案出したものであ
り、その目的はデータシーケンスをディスジョイントウィンドウに分割し、質問
シーケンスをスライディングウィンドウに分割するウィンドウ構成の双対性を利
用したデュアルマッチ(Dual Match:Duality-based subsequence Matching) 方法
を使用することによって、錯誤解答を大きく削減し、性能を改善した時系列デー
タベースにおけるサブシーケンスマッチング方法を提供することにある。

【００２７】また、本発明の他の目的は個別点を索引に直接保存し、これにより点濾過効果
を得ることによって、錯誤解答を顕著に削減して性能を大きく向上させる時系列
データベースにおけるサブシーケンスマッチング方法を提供することにある。

【００２８】また、本発明の更に他の目的は索引構成過程でＣＰＵオーバーヘッドの多くの
部分を占める特性抽出関数の使用を削減することによって迅速に索引を構成でき
る時系列データベースにおけるサブシーケンスマッチング方法を提供することに
ある。

【００２９】前記のような目的を達成するための本発明の第１の特徴によれば、ウィンドウ
を構成する際に双対性を用いる第１過程と、前記第１過程に基づいてデータシー
ケンスをディスジョイントウィンドウに分割する第２過程と、前記第１過程に基
づいて質問シーケンスをスライディングウィンドウに分割する第３過程と、前記
第２過程及び第３過程で構成されたウィンドウを用いてサブシーケンスマッチン
グを行なう第４過程とを含む時系列データベースにおけるサブシーケンスマッチ
ング方法を提供する。

【００３０】この時、本発明の付加的な特徴によれば、前記第４過程においては、点濾過効
果を得て錯誤解答を削減するために、データシーケンスを分割したディスジョイ
ントウィンドウを変換した個別点を索引に直接保存し、質問シーケンスを分割し
たスライディングウィンドウを変換した個別点を範囲質問に直接使用する過程を
含むことができる。

【００３１】この時、範囲質問の回数を削減するために、質問シーケンスを分割したスライ
ディングウィンドウを変換した個別点で直接質問せずに、多数個の点を含む最小
包囲四角形（ＭＢＲ）を使用して質問し、候補集合を求める過程を含むことが望
ましい。

【００３２】また、本発明の他の付加的な特徴によれば、前記第４過程では、索引構成に必
要な特性抽出関数の使用を削減して迅速に索引を構成するために、データシーケ
ンスをスライディングウィンドウに分割せずにディスジョイントウィンドウに分
割する過程を含むことができる。

【００３３】一方、前記のような目的を達成するための本発明の第２の特徴によれば、サブ
シーケンスマッチングを遂行するための多次元索引を構成する索引構成過程が含
まれる時系列データベースにおけるサブシーケンスマッチング方法において、前
記索引構成過程は、一つのｆ次元索引を生成し、これを初期化する第１過程と、
時系列データベースから一つのデータシーケンスを読み込む第２過程と、前記第
２過程で読み込んだデータシーケンスをディスジョイントウィンドウに分割する
第３過程と、前記第３過程で分割したディスジョイントウィンドウを特性抽出関
数を用いてｆ次元の点に変換する第４過程と、前記第４過程で変換した点と、当
該ウィンドウとが含まれるデータシーケンスの識別子と、当該ウィンドウの開始
位置とでレコードを構成する第５過程と、前記第５過程で構成したレコードをｆ
次元索引に挿入する第６過程と、全てのディスジョイントウィンドウに対して前
記第３、第４及び第５過程を反復した後、データベースから次に読み込むデータ
シーケンスがあるか否かを確認する第７過程と、前記第７過程でこれ以上読み込
むデータシーケンスがない場合は索引構成を終了し、読み込むデータシーケンス
がある場合はデータシーケンスを読み込んだ後、前記第３過程に戻るようにする
第８過程とを含む時系列データベースにおけるサブシーケンスマッチング方法を
提供する。

【００３４】また、前記のような目的を達成するための本発明の第３の特徴によれば、時系
列データベースと多次元索引とを用いて、ユーザが提示した質問シーケンスと類
似したサブシーケンスとを探索するサブシーケンスマッチング過程が含まれる時
系列データベースにおけるサブシーケンスマッチング方法において、前記サブシ
ーケンスマッチング過程は、サブシーケンスに含まれる最小ディスジョイントウ
ィンドウ個数を求める第１過程と、質問シーケンスをスライディングウィンドウ
に分割する第２過程と、前記第２過程で分割したスライディングウィンドウを特
性抽出関数を用いてｆ次元の点に変換する第３過程と、前記第３過程で変換した
点と、前記第１過程で求めた最小ディスジョイントウィンドウ個数と、ユーザが
提示した許容値とを用いて範囲質問を構成する第４過程と、前記第４過程で構成
した範囲質問を用いて多次元索引を検索し、検索結果に基づいて候補集合を構成
する第５過程と、全てのスライディングウィンドウに対して前記第３、第４、及
び第５過程を反復して候補集合が構成された後、候補集合に含まれる候補サブシ
ーケンスをメモリに読み込む第６過程と、前記第６過程で読み込んだ候補サブシ
ーケンスと質問シーケンスとの距離計算により候補集合に含まれる全ての候補サ
ブシーケンスに対して錯誤解答であるか否かを確認する第７過程とを含む時系列
データベースにおけるサブシーケンスマッチング方法を提供する。

【００３５】また、前記のような目的を達成するための本発明の第４の特徴によれば、時系
列データベースと多次元索引とを用いて、ユーザが提示した質問シーケンスと類
似したサブシーケンスとを探索する際に、範囲質問の回数を削減する改善された
サブシーケンスマッチング過程が含まれる時系列データベースにおけるサブシー
ケンスマッチング方法において、前記改善されたサブシーケンスマッチング過程
は、サブシーケンスに含まれる最小ディスジョイントウィンドウ個数を求める第
１過程と、質問シーケンスをスライディングウィンドウに分割し、特性抽出関数
を用いて各スライディングウィンドウをｆ次元の点に変換した後、多数個の点を
含む最小包囲四角形（ＭＢＲ）を構成する第２過程と、前記第２過程で構成した
ＭＢＲと、前記第１過程で求めた最小ディスジョイントウィンドウ個数と、ユー
ザが提示した許容値とを用いて範囲質問を構成する第３過程と、前記第３過程で
構成した範囲質問を用いて多次元索引を検索する第４過程と、前記第３過程で範
囲質問構成に用いたＭＢＲに含まれる各点と第４過程の検索結果で探索した各点
との間の距離計算により候補集合を構成する第５過程と、全てのＭＢＲに対して
前記第３、第４、及び第５過程を反復して候補集合が構成された後、候補集合に
含まれる候補サブシーケンスメモリに読み込む第６過程と、前記第６過程で読み
込んだ候補サブシーケンスと質問シーケンスとの距離計算により、候補集合に含
まれる全ての候補サブシーケンスに対して錯誤解答であるか否かを確認する第７
過程とを含む時系列データベースにおけるサブシーケンスマッチング方法を提供
する。

【００３６】本発明の詳述した目的と種々の長所はこの技術分野に熟練した人々により、添
付された図面を参照して後述される本発明の望ましい実施の形態からより明確に
なることであろう。

【００３７】前記のように本発明のデュアルマッチはデータシーケンスをディスジョイント
ウィンドウに分割し、質問シーケンスをスライディングウィンドウに分割する方
法を使用するが、従来技術のＦＲＭではデータシーケンスをスライディングウィ
ンドウに分割し、質問シーケンスをディスジョイントウィンドウに分割する方法
を使用する。この結果、デュアルマッチは従来技術の双対的接近法を使用して多
くの錯誤解答を除去して性能を向上させることができるようになる。

【００３８】前記ＦＲＭは索引に必要な記憶空間を削減するためにウィンドウが変換された
個別点の代わりに、多数個の点を含む最小包囲四角形（ＭＢＲ）のみを保存する
ことによって多くの錯誤解答を発生させるが、本発明のデュアルマッチはＦＲＭ
と類似した大きさの記憶空間に個別点を索引に直接保存することによって、この
問題を解決している。

【００３９】また、本発明では上記の通りに個別点を索引に直接保存し、保存された個別点
を使用して点と点とを直接比較することによって錯誤解答を削減する点濾過効果
を得ることができる。

【００４０】

【発明の実施の形態】

以下、本発明によるデュアルマッチが錯誤棄却を発生せずに、サブシーケンス
マッチングを正しく遂行することを証明するための理論的根拠を詳細に説明する
。

【００４１】まず、本発明によるデュアルマッチを説明するために用語を定義する。シーケンスＳを決められたディスジョイントウィンドウに分割した時、これら
のうちサブシーケンスＳ［ｉ：ｊ］に含まれるディスジョイントウィンドウをＳ
［ｉ：ｊ］の「包囲ウィンドウ」と定義する。そして、長さＬである全てのサブ
シーケンスの包囲ウィンドウ個数のうち、最小値を長さＬであるサブシーケンス
の「最小包囲ウィンドウ個数」と定義し、これをｐで表す。長さＬであるサブシ
ーケンスの最小包囲ウィンドウ個数がｐであるということは、長さＬである全て
のサブシーケンスはその位置に関係なく包囲ウィンドウ個数が、ｐ以上であるこ
とを意味する。最小包囲ウィンドウ個数は下記の＜定理３＞を利用して求めるこ
とができる。

【００４２】＜定理３＞シーケンスＳを大きさωであるディスジョイントウィンドウに分割した時、長
さＬであるＳのサブシーケンスの最小包囲ウィンドウ個数は「［（Ｌ＋１）／ω
］−１」である。

【００４３】前記＜定理３＞によれば、長さＬｅｎ（Ｑ）のＳのサブシーケンスは「［（ｌ
ｅｎ（Ｑ）＋１）／ω］−１」個以上のディスジョイントウィンドウを含む。こ
の時、前記Ｑは質問シーケンスを意味する。そして、デュアルマッチは下記の＜
定理４＞に基づいて錯誤棄却無しに類似サブシーケンスの候補集合を求めること
ができる。

【００４４】＜定理４＞データシーケンスＳを大きさωであるディスジョイントウィンドウに分割し、
質問シーケンスＱを同一の大きさのスライディングウィンドウに分割した時、長
さＬｅｎ（Ｑ）のＳのサブシーケンスＳ［ｉ：ｊ］とＱとがεマッチすると、少
なくとも１つ以上のディスジョイントウィンドウＳ［ｉ＋ｋ：ｉ＋ｋ＋ω−１］
（０≦ｋ≦Ｌｅｎ（Ｑ）−ω）とスライディングウィンドウＱ［ｋ：ｋ＋ω−１
］とがε／√ｐマッチする。ここで、ｐは＜定理３＞により求められるＬｅｎ（
Ｑ）のサブシーケンスの最小包囲ウィンドウ個数である。

【００４５】前記＜定理４＞は図２を利用して次の通りに証明することができる。図２で質問シーケンスＱとサブシーケンスＳ［ｉ：ｊ］とがεマッチするとす
る。この時、最小包囲ウィンドウ個数がｐであるので、Ｓ［ｉ：ｊ］はｐ個以上
のディスジョイントウィンドウを含む。図２でＳ［ｉ：ｊ］はｐ個のディスジョ
イントウィンドウＳ₁，．．．，Ｓ_Pを含んでおり、これらのディスジョイント
ウィンドウの前後にＳ_h（ｈはheadを意味する）とＳ_t（ｔはtailを意味する）
のサブシーケンスを含む。結局、Ｓ［ｉ：ｊ］は、Ｓ_hＳ₁，．．．，Ｓ_PＳ_t のように表すことができる。

【００４６】同様の方法で、質問シーケンスＱはｑ_hｑ₁，．．．，ｑ_Pｑ_tのように表す
ことができる。このように表した時、Ｓ［ｉ：ｊ］とＱとがεマッチすると、＜
定理２＞によってＳ₁，．．．，Ｓ_Pとｑ₁，．．．，ｑ_Pとがεマッチするよ
うになる。そして、再び＜定理１＞によってＳ₁，．．．，Ｓ_Pとｑ₁，．．．
，ｑ_Pとがεマッチすると、最小限一つのウィンドウ対Ｓ_k，ｑ_kがε／√ｐマ
ッチする。結局、Ｓ［ｉ：ｊ］とＱとがεマッチすると、Ｓ［ｉ：ｊ］は最小包
囲ウィンドウ個数（＝ｐ）以上のディスジョイントウィンドウを含んでおり、こ
のうち最小限一つのディスジョイントウィンドウＳ_kとＱのスライディングウィ
ンドウｑ_kとがε／√ｐマッチする。

【００４７】質問時には、質問シーケンスＱに対してスライディングウィンドウを構成する
ので、これらのうちには＜定理４＞のウィンドウｑ_kが含まれている。前記＜定
理４＞によって、データシーケンスを分割したディスジョイントウィンドウと質
問シーケンスとを分割した任意のスライディングウィンドウがε／√ｐマッチす
る時、即ち、＜定理４＞の必要条件が満足される時、当該ディスジョイントウィ
ンドウを含むサブシーケンスにより候補集合を構成すれば錯誤棄却無しに全ての
類似サブシーケンスを探索することができる。

【００４８】本発明によるデュアルマッチの最大ウィンドウ大きさは下記の＜定理５＞を使
用して求めることができる。

【００４９】＜定理５＞与えられた最小質問シーケンス長さをＭｉｎ（Ｑ）とすると、デュアルマッチ
の最大ウィンドウ大きさは、「［（Ｍｉｎ（Ｑ）＋１）／ω］」である。

【００５０】以下、本発明による望ましい一実施の形態を添付図面を参照して詳細に説明す
る。

【００５１】本発明のデュアルマッチは、索引構成とサブシーケンスマッチングとの二つの
過程からなる。この時、時系列データの記憶及び管理が可能で多次元索引構造を
支援するデータベース管理システム機能が必要である。

【００５２】本発明では、効率的なサブシーケンスマッチングを遂行するためには、図３に
示されているシステムが必要である。図３において、１０はコンピュータのメモ
リ、１５はコンピュータのＣＰＵである。この時、前記メモリ１０にはデータベ
ース管理システム２０とサブシーケンスマッチングシステム２５とが具備される
が、本発明のデュアルマッチは前記サブシーケンスマッチングシステム２５で具
現される。前記データベース管理システム２０はデータベース記憶装置３５に保
存された時系列データベース４０と多次元索引４５とを管理する。また、前記サ
ブシーケンスマッチングシステム２５はデータベース管理システム２０を通じて
時系列データベース４０と多次元索引４５とをアクセスし、使用する。

【００５３】デュアルマッチの索引構成過程においては、データシーケンスから構成された
時系列データベースを入力とし、サブシーケンスマッチングに用いる多次元索引
を構成するが、図４は索引構成過程のアルゴリズムを表す。

【００５４】図４を参照すれば、第１ステップＳ３０１では、一つのｆ次元索引を生成して
初期化する。第２ステップＳ３０２では、データベースから一つのデータシーケ
ンスをメモリに読み込む。第３ステップＳ３０３では、第２ステップＳ３０２ま
たは第８ステップＳ３０８で読み込んだデータシーケンスをディスジョイントウ
ィンドウに分割する。その後、第４ステップＳ３０４では、各ディスジョイント
ウィンドウをｆ次元の点に変換する。

【００５５】第５ステップＳ３０５では、ウィンドウを変換した点と、当該ウィンドウとが
含まれるデータシーケンスの識別子と、このデータシーケンスにおいて当該ウィ
ンドウの開始位置とでレコードを構成する。第６ステップＳ３０６では、ディス
ジョイントウィンドウを変換した点をキーとして第５ステップＳ３０５で構成し
たレコードを第１ステップＳ３０１で構成した多次元索引に挿入する。このよう
に第４過程（Ｓ３０４) から第６ステップＳ３０６までを反復して全てのディス
ジョイントウィンドウに対する索引構成を遂行する。

【００５６】第７ステップＳ３０７では、データベースから次に読み込むデータシーケンス
があるか否かを確認する。第７ステップＳ３０７での確認の結果、次に読み込む
データシーケンスがある場合は、第８ステップＳ３０８においてこのデータシー
ケンスを読み込んだ後、第３ステップＳ３０３に戻って索引構成を続ける。しか
し、第７ステップＳ３０７での確認の結果、これ以上読み込むデータシーケンス
がない場合は索引構成過程を終了する。

【００５７】一方、サブシーケンスマッチング過程では質問シーケンスｑと許容値εとを入
力とし、質問シーケンスｑと類似したサブシーケンスを探索する作業を行なう。
図５はサブシーケンスマッチング過程のアルゴリズムを表す。

【００５８】図５を参照すれば、第１ステップＳ５０１では、＜定理３＞により長さＬｅｎ
（Ｑ）のサブシーケンスに含まれる最小ディスジョイントウィンドウ個数「ｐ＝
「Ｌｅｎ（Ｑ）＋１／ω」−１」を求める。第２ステップＳ５０２では、質問シ
ーケンスをスライディングウィンドウに分割する。次に各スライディングウィン
ドウに対して次の第３ステップＳ５０３から第５ステップＳ５０５までを反復す
る。第３ステップＳ５０３では、特性抽出関数を用いてスライディングウィンド
ウをｆ次元の点に変換する。第４ステップＳ５０４では、スライディングウィン
ドウを変換した点とε／√ｐとで範囲質問を構成する。

【００５９】その後、第５ステップＳ５０５では、第４ステップＳ５０４で構成した範囲質
問により多次元索引を検索し、スライディングウィンドウを変換した点とε／√
ｐ距離内にある全ての点とを捜し出す。第５ステップＳ５０５では、スライディ
ングウィンドウに対する検索結果を用いて候補集合を構成するが、検索に用いた
点がｉ番目のスライディングウィンドウを変換した点であり、検索結果で捜し出
した点がデータシーケンスＳのｊ番目ディスジョイントウィンドウであれば、デ
ータシーケンスＳの（ｊ−ｉ）番目のエントリーから始まるサブシーケンスを候
補集合に含ませる。このように、第３ステップＳ５０３から第５ステップＳ５０
５の過程を全てのスライディングウィンドウに対して反復して候補集合を求める
。

【００６０】上記の過程により候補集合が求められると、候補集合に含まれる各候補サブシ
ーケンスに対して次の第６ステップＳ５０６及び第７ステップＳ５０７を行なう
。第６ステップＳ５０６では、各候補サブシーケンスをデータベースからメモリ
に読み込む。第７ステップＳ５０７では、読み込んだ候補サブシーケンスと質問
シーケンスとのＬｅｎ（Ｑ）次元距離を計算し、その距離がεより大きければ錯
誤解答であるので解答から除き、ε以下であれば類似サブシーケンスであるので
解答として出力する。

【００６１】前記のような索引構成過程とサブシーケンスマッチング過程とを用いればＦＲ
Ｍ方法で点濾過効果の欠如により発生した錯誤解答が現れないようになる。これ
は索引構成過程からデータシーケンスを変換した個別点を多次元索引に直接保存
し、サブシーケンスマッチング過程から質問シーケンスを変換した個別点に質問
するためである。即ち、索引構成及び検索において個別点を直接記憶及び使用す
ることによって点濾過効果を得ることができ、これにより錯誤解答を大きく削減
することができる。このように錯誤解答を削減することによって候補個数が大き
く削減され、ディスクアクセスとＬｅｎ（Ｑ）次元距離計算を削減して結局性能
を向上させることができる。

【００６２】前記で質問シーケンスをスライディングウィンドウに分割し、これを変換した
個別点各々に対して範囲質問を行なうために現れ得る性能低下の問題点を解決す
るために、本発明では下記のように範囲質問の回数を削減する改善されたサブシ
ーケンスマッチング過程を行うことができる。

【００６３】改善されたサブシーケンスマッチング過程においても質問シーケンスと許容値
とを入力とし、類似サブシーケンスを探索する作業を行なうが、図６は改善され
たサブシーケンスマッチング過程のアルゴリズムを表す。

【００６４】図６を参照すれば、第１ステップＳ６０１では、＜定理３＞により長さＬｅｎ
（Ｑ）のサブシーケンスに含まれる最小ディスジョイントウィンドウ個数「ｐ＝
［（Ｌｅｎ（Ｑ）＋１）／ω］−１」を求める。第２過程（Ｓ６０２) では、質
問シーケンスをスライディングウィンドウに分割した後、特性抽出関数を用いて
各ウィンドウをｆ次元の点に変換し、このような点を多数個含むＭＢＲを構成す
る。

【００６５】前記ＭＢＲを構成する方法としては、ＦＲＭ方法で用いたヒューリスティック
方法、固定個数の点によりＭＢＲを構成する方法、そして全ての点を一つのＭＢ
Ｒに含ませる方法などがあるが、質問シーケンスが短い場合（ウィンドウ大きさ
の３〜４倍以下) には、一つのＭＢＲを構成することが効果的であり、質問シー
ケンスがながい場合（ウィンドウ大きさの５倍以上) には、多数個のＭＢＲを構
成することが効果的であることを確認した。

【００６６】その後、前記構成した各ＭＢＲに対して第４ステップＳ６０４から第５ステッ
プＳ６０５までを反復する。第３ステップＳ６０３では、ＭＢＲとε／√ｐとで
範囲質問を構成する。第４ステップＳ６０４では、構成した範囲質問で多次元索
引を検索してＭＢＲとε／√ｐ距離内にある全ての点を捜し出す。第５ステップ
Ｓ６０５では、ＭＢＲに含まれる各点と検索結果で捜し出した各点との距離計算
により候補集合を構成する。

【００６７】もう少し詳細に説明すれば、ＭＢＲに含まれる一点がｉ番目のスライディング
ウィンドウを変換した点であり、検索結果で捜し出した一点がデータシーケンス
Ｓのｊ番目のディスジョイントウィンドウとする時、二点間の距離がε／√ｐ以
下であれば、データシーケンスＳの（ｊ−ｉ）番目のエントリーから始まるサブ
シーケンスを候補集合に含ませる。このように第３ステップＳ６０３から第５ス
テップＳ６０５までの過程を全てのＭＢＲに対して反復して候補集合を求める。
候補集合が求められると、候補集合に含まれる各候補サブシーケンスに対して次
の第６ステップＳ６０６及び第７ステップＳ６０７を行なう。第６ステップＳ６
０６では、候補サブシーケンスをデータベースからメモリに読み込む。第７ステ
ップＳ６０７では、読み込んだ候補サブシーケンスと質問シーケンスとのＬｅｎ
（Ｑ）次元距離を計算して、その距離がεより大きければ錯誤解答であるために
解答から除いて、ε以下であれば類似サブシーケンスであるから解答として出力
する。

【００６８】このように個別点の代わりにＭＢＲを構成して検索する改善されたサブシーケ
ンスマッチング過程を用いれば、範囲質問の回数を点の個数でＭＢＲの個数で削
減することができ、しかも個別点を質問に直接用いるサブシーケンスマッチング
過程と同一候補集合を求めることができる。これはＭＢＲにより検索した後に、
ＭＢＲに含まれる各点と検索結果から得た各点との間の距離計算を行ない、二点
間の距離がε／√ｐ以下である場合のみに、二点で構成されるサブシーケンスを
候補集合に含ませる「索引水準濾過(index-level filtering) 」を行なうためで
ある。即ち、ＭＢＲを構成して質問することによって追加的な候補サブシーケン
スを発生することができるが、ＭＢＲに含まれる各点と検索結果から得た各点と
の間のｆ次元距離計算を遂行することによってディスクアクセスとＬｅｎ（Ｑ）
次元距離計算以前に追加的な候補サブシーケンスを除去することができる。

【００６９】このように改善されたサブシーケンスマッチング過程を用いてＦＲＭ方法に比
べて候補集合の大きさを削減して性能を向上させることができる。

【００７０】本出願人による実験結果では、デュアルマッチはＦＲＭに比べて候補個数を最
大１／９，０００まで削減し、性能を最大１６０倍まで大きく向上させた。また
、デュアルマッチは、データシーケンスをディスジョイントウィンドウに分割す
ることにより、データシーケンスをスライディングウィンドウに分割するＦＲＭ
に比べて索引構成が１４乃至２３０倍迅速な特徴を有する。このような結果から
、デュアルマッチは、サブシーケンスマッチングの一般的な解決策として見なさ
れたＦＲＭを代替出来るものであることが判る。

【００７１】

【発明の効果】

以上に説明したように、本発明の時系列データベースにおけるサブシーケンス
マッチング方法によるデュアルマッチは、ウィンドウを構成する方法の双対性を
用いてデータシーケンスをディスジョイントウィンドウに分割するために索引に
保存すべき点の個数をＦＲＭの１／ω（ω＞１００）に大きく削減することによ
って、個別点を索引に直接保存することができ、質問シーケンスを分割したスラ
イディングウィンドウを変換した個別点により多次元索引を検索する。従って、
デュアルマッチは、質問に用いられた点と索引に保存された点とを比較すること
によって、点濾過効果を得ることができ、これにより錯誤解答を大幅に削減して
性能を大きく向上させることができる効果がある。

【００７２】また、本発明でのデュアルマッチは、データシーケンスをディスジョイントウ
ィンドウで分割するために索引構成過程における特性抽出関数の使用をＦＲＭの
約１／ω（ω＞１００）以上に削減することによって特性抽出関数の使用に必要
なＣＰＵ演算を大幅に短縮し、ＦＲＭに比べて迅速に索引を構成できる効果があ
る。

【００７３】以上では本発明を実施の形態によって詳細に説明したが、本発明は実施の形態
によって限定されず、本発明が属する技術分野において通常の知識を有するもの
であれば本発明の思想と精神を離れることなく、本発明を修正または変更できる
であろう。

【図面の簡単な説明】

【図１ａ】シーケンスをスライディングウィンドウに分割する方法を示す例示図である。

【図１ｂ】シーケンスをディスジョイントウィンドウに分割する方法を示す例示図である
。

【図２】ウィンドウを利用したサブシーケンス及び質問シーケンスの表現方法を示す例
示図である。

【図３】本発明によるサブシーケンスマッチング方法が具現されるシステムの概略的な
構成を示す例示図である。

【図４】本発明によるサブシーケンスマッチング方法で多次元索引を構成する索引構成
アルゴリズムを示す図面である。

【図５】本発明によるサブシーケンスマッチング方法で類似サブシーケンスを捜し出す
サブシーケンスマッチングアルゴリズムを示す図面である。

【図６】本発明によるサブシーケンスマッチング方法で類似サブシーケンスを探索する
が、範囲質問回数を削減する改善されたサブシーケンスマッチングアルゴリズム
を示す図面である。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ，ＴＲ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＭＺ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＧ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＢＺ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＤＺ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＭＺ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ【要約の続き】む。

Claims

【特許請求の範囲】

【請求項１】ａ）ウィンドウを構成する際に双対性を用いるステップと、ｂ）前記ａ）に基づいてデータシーケンスをディスジョイントウィンドウに分
割するステップと、ｃ）前記ａ）に基づいて質問シーケンスをスライディングウィンドウに分割す
るステップと、ｄ）前記ｂ）と前記ｃ）とで構成されたウィンドウを用いてサブシーケンスマ
ッチングを行なうステップとを含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
グ方法。
【請求項２】前記ｄ）は、錯誤解答を削減して点濾過効果を得るために、ａ）データシーケンスを分割したディスジョイントウィンドウを変換した個別
点を索引に直接保存するステップと、ｂ）質問シーケンスを分割したスライディングウィンドウを変換した個別点を
質問に直接用いるステップとを含むことを特徴とする請求項１に記載の時系列データベースにおけるサブシ
ーケンスマッチング方法。
【請求項３】範囲質問の回数を削減するために、質問シーケンスを分割し
たスライディングウィンドウを変換した個別点により直接質問せずに、多数個の
点を含む最小包囲四角形（ＭＢＲ）を構成して質問して候補集合を求めるステッ
プを含むことを特徴とする請求項２に記載の時系列データベースにおけるサブシ
ーケンスマッチング方法。
【請求項４】前記ｄ）は、索引構成に必要な特性抽出関数の使用を削減し
て迅速に索引を構成するために、データシーケンスをスライディングウィンドウ
に分割せずに、ディスジョイントウィンドウに分割するステップを含むことを特
徴とする請求項１に記載の時系列データベースにおけるサブシーケンスマッチン
グ方法。
【請求項５】サブシーケンスマッチングを行なうための多次元索引を構成
する索引構成ステップが含まれる時系列データベースにおけるサブシーケンスマ
ッチング方法において、前記索引構成ステップは、ａ）一つのｆ次元索引を生成してこれを初期化するステップと、ｂ）時系列データベースから一つのデータシーケンスを読み込むステップと、ｃ）前記ｂ）で読み込んだデータシーケンスをディスジョイントウィンドウに
分割するステップと、ｄ）前記ｃ）で分割したディスジョイントウィンドウを特性抽出関数を用いて
ｆ次元の点に変換するステップと、ｅ）前記ｄ）で変換した点と、当該ウィンドウが含まれるデータシーケンスの
識別子と、当該ウィンドウの開始位置とでレコードを構成するステップと、ｆ）前記ｅ）で構成したレコードをｆ次元索引に挿入するステップと、ｇ）全てのディスジョイントウィンドウに対して前記ｃ）、ｄ）及びｅ）を反
復するステップと、ｈ）データベースから次に読み込むデータシーケンスがあるか否かを確認する
ステップと、ｉ）前記ｈ）において、これ以上読み込むデータシーケンスがない場合は索引
構成を終了し、読み込むデータシーケンスがある場合はデータシーケンスを読み
込んだ後に前記ｃ）に戻るようにするステップとを含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
グ方法。
【請求項６】時系列データベースと多次元索引とを用いて、ユーザが提示
した質問シーケンスと類似したサブシーケンスを探索するサブシーケンスマッチ
ングステップが含まれる時系列データベースにおけるサブシーケンスマッチング
方法において、前記サブシーケンスマッチングステップは、ａ）サブシーケンスに含まれる最小ディスジョイントウィンドウ個数を求める
ステップと、ｂ）質問シーケンスをスライディングウィンドウに分割するステップと、ｃ）前記ｂ）で分割したスライディングウィンドウを特性抽出関数を用いてｆ
次元の点に変換するステップと、ｄ）前記ｃ）で変換した点と、前記ａ）で求めた最小ディスジョイントウィン
ドウ個数と、ユーザが提示した許容値とを用いて範囲質問を構成するステップと
、ｅ）前記ｄ）で構成した範囲質問を用いて多次元索引を検索し、検索結果に基
づいて候補集合を構成するステップと、ｆ）候補集合に含まれる候補サブシーケンスをメモリに読み込むステップと、ｇ）前記ｆ）で読み込んだ候補サブシーケンスと質問シーケンスとの距離計算
により候補集合に含まれる全ての候補サブシーケンスに対して錯誤解答であるか
否かを確認するステップとを含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
グ方法。
【請求項７】時系列データベースと多次元索引とを用いて、ユーザが提示
した質問シーケンスと類似したサブシーケンスを探索する際に、範囲質問の回数
を削減する改善されたサブシーケンスマッチングステップが含まれる時系列デー
タベースにおけるサブシーケンスマッチング方法において、前記改善されたサブシーケンスマッチングステップは、ａ）サブシーケンスに含まれる最小ディスジョイントウィンドウ個数を求める
ステップと、ｂ）質問シーケンスをスライディングウィンドウに分割し、特性抽出関数を用
いて各スライディングウィンドウをｆ次元の点に変換した後、多数個の点を含む
最小包囲四角形（ＭＢＲ）を構成するステップと、ｃ）前記ｂ）で構成したＭＢＲと、前記ａ）で求めた最小ディスジョイントウ
ィンドウ個数と、ユーザが提示した許容値とを用いて範囲質問を構成するステッ
プと、ｄ）前記ｃ）で構成した範囲質問を用いて多次元索引を検索するステップと、ｅ）前記ｃ）で範囲質問の構成に用いたＭＢＲに含まれる各点と前記ｄ）の検
索結果で探索した各点との間の距離計算により候補集合を構成するステップと、ｆ）候補集合に含まれる候補サブシーケンスをメモリに読み込むステップと、ｇ）前記ｆ）で読み込んだ候補サブシーケンスと質問シーケンスとの距離計算
により、候補集合に含まれる全ての候補サブシーケンスに対して錯誤解答である
か否かを確認するステップとを含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
グ方法。