JP2003518310A - 時系列データベースにおけるウィンドウ構成の際に双対性を用いたサブシーケンスマッチング方法 - Google Patents

時系列データベースにおけるウィンドウ構成の際に双対性を用いたサブシーケンスマッチング方法

Info

Publication number
JP2003518310A
JP2003518310A JP2001547619A JP2001547619A JP2003518310A JP 2003518310 A JP2003518310 A JP 2003518310A JP 2001547619 A JP2001547619 A JP 2001547619A JP 2001547619 A JP2001547619 A JP 2001547619A JP 2003518310 A JP2003518310 A JP 2003518310A
Authority
JP
Japan
Prior art keywords
sequence
index
window
subsequence
disjoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001547619A
Other languages
English (en)
Other versions
JP3648709B2 (ja
Inventor
ワン,キュヤン
ムーン,ヤンセ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Korea Advanced Institute of Science and Technology KAIST
Original Assignee
Korea Advanced Institute of Science and Technology KAIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Korea Advanced Institute of Science and Technology KAIST filed Critical Korea Advanced Institute of Science and Technology KAIST
Publication of JP2003518310A publication Critical patent/JP2003518310A/ja
Application granted granted Critical
Publication of JP3648709B2 publication Critical patent/JP3648709B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Abstract

(57)【要約】 【解決手段】 ウィンドウを構成する際に双対性を用いてデータシーケンスをディスジョイントウィンドウに分割するため、多次元索引に保存する点の個数を削減し、個別点を索引に直接保存することができ、質問シーケンスを分割したスライディングウィンドウを変換した個別点により索引を検索し、質問に使用された点と索引に保存された点とを比較することによって、錯誤解答を削減して性能を向上させることができるようにするとともに、データシーケンスをディスジョイントウィンドウに分割して索引構成過程での特性抽出関数の使用を削減することによって、特性抽出関数の使用に必要なCPU演算を大幅に短縮して既存方法に比べて迅速に索引を構成することができるようにする。ウィンドウを構成する際に双対性を用いる第1過程と、前記第1過程に基づいてデータシーケンスをディスジョイントウィンドウに分割する第2過程と、前記第1過程に基づいて質問シーケンスをスライディングウィンドウに分割する第3過程と、前記第2過程と第3過程とで分割されたウィンドウを用いてサブシーケンスマッチングを行なう第4過程とを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は時系列データベースにおけるサブシーケンスマッチング方法に関する
ものであり、より詳細にはウィンドウを構成する際に双対性(duality) を用いて
サブシーケンスマッチングの性能を向上させた時系列データベースにおけるサブ
シーケンスマッチング方法に関するものである。
【0002】
【従来の技術】
まず、以下の説明で使用される用語を定義する。 長さがnである「シーケンス」はn個のエントリーから構成された配列を意味
し、「時系列データ」は各時間別に測定した実数値を有するエントリーのシーケ
ンスを意味し、「時系列データベース」は時系列データを保存したデータベース
を意味する。
【0003】 また、「データシーケンス」は時系列データベースに保存された時系列データ
を意味し、「質問シーケンス」はユーザによって与えられるシーケンスを意味し
、「類似シーケンスマッチング」とは質問シーケンスと類似したデータシーケン
スを検索する方法を意味する。
【0004】 前記で、類似シーケンスマッチングの二つのシーケンス間の距離が、ユーザが
提示した「許容値」であるε以下であれば、二つのシーケンスは「類似」してい
るという。そして、シーケンスXとYとの間の距離がε以下であれば、XとYと
はεマッチ(ε−match)であると定義し、長さがnである二つのシーケンスの距
離を計算する演算を「n次元距離計算」であると定義する。
【0005】 上記の距離計算において、本発明は特定の距離計算方法に限定されない。しか
し、本発明の技術に対する理解を助けるためにユークリッド距離計算方法に基づ
いて説明する。長さがnである二つのシーケンスX={X0 ,X1 ,...,X n-1 }とY={Y0 ,y1 ,...,Yn-1 }との「ユークリッド距離」は、
【0006】
【数1】
【0007】 の式により定義する。
【0008】 シーケンスSがシーケンスAを含んでいる場合、即ちAがSの一部分である場
合、AはSの「サブシーケンス」であるという。この時、類似シーケンスマッチ
ングは、全体マッチングとサブシーケンスマッチングとの2種類に区分される。
前記で「全体マッチング」とは、データシーケンスS1 ,S2 ,...,SN
あって、質問シーケンスQと許容値εとが与えられた時、Qとεマッチする全て
のデータシーケンスを探索する方法である。この時、データシーケンスと質問シ
ーケンスとの長さは同一である。また、前記で「サブシーケンスマッチング」と
は、それぞれ異なる長さを有するデータシーケンスS1 ,S2 ,...,SN
あって、質問シーケンスQと許容値εとが与えられた時、Qとεマッチするサブ
シーケンスを含むデータシーケンスSi と当該サブシーケンスの位置とを探索す
る方法である。
【0009】 「ウィンドウ」は、シーケンスを分割する単位であり、分割する方法によって
スライディングウィンドウとディスジョイントウィンドウとに区分する。前記「
スライディングウィンドウ」は、シーケンスの可能な全ての位置を開始位置とし
て構成したウィンドウを意味するが、添付図面の図1aはシーケンスを大きさ4
であるスライディングウィンドウに分割した例を表す。前記図1aにおいて20
1はシーケンスであり、202は長さ4であるスライディングウィンドウである
。また、前記「ディスジョイントウィンドウ」はウィンドウの大きさの倍数にな
る位置を開始位置として構成したウィンドウを意味するが、図1bはシーケンス
を大きさ4であるディスジョイントウィンドウに分割した例を表す。前記図1b
において203はシーケンスであり、204はディスジョイントウィンドウであ
る。
【0010】 サブシーケンスマッチングにおける「錯誤棄却」は、与えられた質問シーケン
スとεマッチするサブシーケンスまたは錯誤によって棄却されるサブシーケンス
を意味し、「錯誤解答」は質問シーケンスとεマッチはしないが、錯誤によって
εマッチするものとして選択されたサブシーケンスを意味する。前記サブシーケ
ンスマッチングにおいては錯誤棄却と錯誤解答とが発生しなければならない。
【0011】 「特性抽出関数」は長さがnであるシーケンスに対してnよりも小さな個数の
特性f個を抽出する関数を意味するが、前記特性抽出関数を類似シーケンスマッ
チングに使用するためには、これを使用することによる錯誤棄却がないようにす
べきである。前記錯誤棄却が無いことを保障するための特性抽出関数の条件は、
Agrawal 、R.、Faloutsos 、C.、and Swami 、A.、"Efficient Similarity Sear
ch in Sequence Databases、"In Proc. the 4th Int'l Conf. on Foundations o
f Data Organization and Algorithms、Chicago 、Illinois、pp. 69-84、Oct.19
93. [参考文献1] 及びFaloutsos 、C.、Ranganathan 、M.、and Manolopoulos
、Y.、"Fast Subseqeunce Matching in Time-Series Databases 、"In Proc. In
t'l Conf. on Management of Data 、ACM SIGMOD、Minneapolis 、Minnesota 、
pp.419-429、 May1994.[参考文献2] に詳しく記載されている。
【0012】 また、以下の説明で使用される表記法を定義する。 Len(S)はシーケンスSの長さを意味し、S[k]はシーケンスSのk番
目のエントリーであり、S[i:j]はシーケンスSのi番目のエントリーから
j番目のエントリーまでにより構成されたサブシーケンスを表す。この時、前記
S[i:j]は二つのサブシーケンスS[i:k]S[k+1:j]で表現する
ことができる。また、Si はシーケンスSをディスジョイントウィンドウで分割
した時、i番目のディスジョイントウィンドウを意味し、ωはスライディングウ
ィンドウ及びディスジョイントウィンドウの大きさを表す。
【0013】 近年、株式データ、企業の成長率、為替レート変動データ、医療データ、天気
変動データなどのように多様な分野で多くの量の時系列データが発生しているが
、コンピュータの計算及び記憶能力が発展することによって多くの量の時系列デ
ータを活用しようとする研究が活発になされている。特に、時系列データに対す
る類似シーケンスマッチングは、データベースの新しい応用分野であるデータマ
イニングの重要な分野として位置を占めている。
【0014】 以下、従来技術で時系列データに対する類似シーケンスマッチング方法を説明
する。
【0015】 [参考文献1] の従来技術ではデータシーケンスと質問シーケンスとの長さが
同一である場合の全体マッチング問題を解決するために次のような過程を行なう
【0016】 まず、特性抽出関数を使用して長さがnであるデータシーケンスをf次元の点
に変換し、これをf次元索引に保存する。このように特性を抽出する理由は、多
次元索引の高次元問題(dimensionality curse)によって高次元のシーケンスを多
次元索引に直接保存することが難しいためである。その後、質問シーケンスもや
はり同一の関数を使用してf次元の点に変換し、変換した点と許容値εとを使用
して範囲質問(range query) を構成する。そして、構成した範囲質問で多次元索
引を検索してεマッチする全ての点を探索して候補集合(candidate set) を求め
る。このように候補集合を求めれば錯誤棄却は発生しないが、シーケンスの長さ
nの代りにf個の特性のみを使用することによって錯誤解答が発生し得る。
【0017】 従って、多次元索引に対する検索結果から得られた各点に対しては実際のデー
タシーケンスをアクセスし、質問シーケンスとの距離を調べて錯誤解答を除去す
るが、これを「後処理過程(post-processing step)」という。
【0018】 また、[参考文献2] の従来技術では[参考文献1] の全体マッチング問題を
一般化したサブシーケンスマッチング問題を解決するために次のような過程を行
なったが、本発明ではこの解決策を著者等の名前の頭文字を取って「FRM」と
呼ぶ。
【0019】 サブシーケンスマッチングにおいて、質問シーケンスと類似したサブシーケン
スはデータシーケンスのどの位置にも現れるので、FRMでは全ての可能なサブ
シーケンスを調べるためにデータシーケンスの全ての可能な位置に対して一定の
大きさのスライディングウィンドウを構成し、質問シーケンスをスライディング
ウィンドウのような大きさのディスジョイントウィンドウに分割する方法を用い
た。FRMではデータシーケンスを分割した各スライディングウィンドウを低次
元空間の点に変換した。そして、変換した点の個数が多すぎて各点を個別に多次
元索引に保存することが難しいため、ヒューリスティックを使用していくつかの
点を含む最小包囲四角形(MBR:minimum bounding rectangle) を構成し、個
別点を保存する代わりに、これらMBRのみを多次元索引に保存し、これを利用
して多様な長さの質問シーケンスに対するサブシーケンスマッチングを試みた。
【0020】 前記FRMでは多様な長さの質問シーケンスに対するサブシーケンスマッチン
グのために下記のような2種類の定理を提示して使用した。
【0021】 <定理1> 同一の長さのシーケンスSとQとを各々p個のディスジョイントウィンドウS i とqi (1≦i≦p)とに分割した時、シーケンスSとQとがεマッチすると
、少なくとも一つ以上の(si ,qi )対がε/√pマッチする
【0022】 <定理2> 同一の長さのシーケンスSとQとがεマッチすると、S[i:j],Q[i:
j]のいかなるサブシーケンス対もεマッチする。
【0023】 前記<定理1>と<定理2>とを使用してFRMは質問シーケンスをp個のデ
ィスジョイントウィンドウに分割し、各ウィンドウをf次元の点に変換する。そ
して、変換した点とε/√pに戸を使用して範囲質問を構成し、多次元索引を検
索して候補集合を求める。その後、データベースからデータシーケンスを読み込
んでLen(Q)次元距離計算により候補集合に含まれる錯誤解答を除去する後
処理過程を行なう。
【0024】 前記サブシーケンスマッチングにおいて索引検索結果から求めた候補集合に錯
誤解答がより多く含まれれば、後処理過程のディスクアクセス及びCPU演算も
より増加し、その結果、性能が大きく低下するため、錯誤解答を削減させなけれ
ばならない。前記FRMにおいて索引検索結果から求めた候補集合に錯誤解答が
含まれる最大の原因は個別点を多次元索引に直接保存せずに、多数個の点を含む
MBRを構成してMBRのみを索引に保存するためである。即ち、同一の範囲質
問に対して個別点を保存した時は候補にならないサブシーケンスが発生し、MB
Rのみを構成して保存した時は候補になる場合が多数発生するためである。
【0025】
【発明が解決しようとする課題】
しかし、FRMにおいて個別点を直接保存する場合、全てのデータシーケンス
の長さの総計程度の多数のf次元点が生じる。この結果、本来のデータシーケン
スの記憶空間よりも約f倍多い記憶空間が必要になる。また、これを保存する多
次元索引の高さが大きくなって性能が大きく低下する([参考文献2] )。従っ
て、FRMではMBRを構成して保存するので、個別点を索引に直接保存し、こ
れを使用して点と点とを比較して錯誤解答を削減する効果、即ち、「点濾過効果
(point-filtering effect)」を得ることができなくなる。この結果、錯誤解答が
大きく増加し、性能が大きく低下するという問題点がある。
【0026】
【課題を解決するための手段】 本発明は、前記のような従来技術の問題点を解決するために案出したものであ
り、その目的はデータシーケンスをディスジョイントウィンドウに分割し、質問
シーケンスをスライディングウィンドウに分割するウィンドウ構成の双対性を利
用したデュアルマッチ(Dual Match:Duality-based subsequence Matching) 方法
を使用することによって、錯誤解答を大きく削減し、性能を改善した時系列デー
タベースにおけるサブシーケンスマッチング方法を提供することにある。
【0027】 また、本発明の他の目的は個別点を索引に直接保存し、これにより点濾過効果
を得ることによって、錯誤解答を顕著に削減して性能を大きく向上させる時系列
データベースにおけるサブシーケンスマッチング方法を提供することにある。
【0028】 また、本発明の更に他の目的は索引構成過程でCPUオーバーヘッドの多くの
部分を占める特性抽出関数の使用を削減することによって迅速に索引を構成でき
る時系列データベースにおけるサブシーケンスマッチング方法を提供することに
ある。
【0029】 前記のような目的を達成するための本発明の第1の特徴によれば、ウィンドウ
を構成する際に双対性を用いる第1過程と、前記第1過程に基づいてデータシー
ケンスをディスジョイントウィンドウに分割する第2過程と、前記第1過程に基
づいて質問シーケンスをスライディングウィンドウに分割する第3過程と、前記
第2過程及び第3過程で構成されたウィンドウを用いてサブシーケンスマッチン
グを行なう第4過程とを含む時系列データベースにおけるサブシーケンスマッチ
ング方法を提供する。
【0030】 この時、本発明の付加的な特徴によれば、前記第4過程においては、点濾過効
果を得て錯誤解答を削減するために、データシーケンスを分割したディスジョイ
ントウィンドウを変換した個別点を索引に直接保存し、質問シーケンスを分割し
たスライディングウィンドウを変換した個別点を範囲質問に直接使用する過程を
含むことができる。
【0031】 この時、範囲質問の回数を削減するために、質問シーケンスを分割したスライ
ディングウィンドウを変換した個別点で直接質問せずに、多数個の点を含む最小
包囲四角形(MBR)を使用して質問し、候補集合を求める過程を含むことが望
ましい。
【0032】 また、本発明の他の付加的な特徴によれば、前記第4過程では、索引構成に必
要な特性抽出関数の使用を削減して迅速に索引を構成するために、データシーケ
ンスをスライディングウィンドウに分割せずにディスジョイントウィンドウに分
割する過程を含むことができる。
【0033】 一方、前記のような目的を達成するための本発明の第2の特徴によれば、サブ
シーケンスマッチングを遂行するための多次元索引を構成する索引構成過程が含
まれる時系列データベースにおけるサブシーケンスマッチング方法において、前
記索引構成過程は、一つのf次元索引を生成し、これを初期化する第1過程と、
時系列データベースから一つのデータシーケンスを読み込む第2過程と、前記第
2過程で読み込んだデータシーケンスをディスジョイントウィンドウに分割する
第3過程と、前記第3過程で分割したディスジョイントウィンドウを特性抽出関
数を用いてf次元の点に変換する第4過程と、前記第4過程で変換した点と、当
該ウィンドウとが含まれるデータシーケンスの識別子と、当該ウィンドウの開始
位置とでレコードを構成する第5過程と、前記第5過程で構成したレコードをf
次元索引に挿入する第6過程と、全てのディスジョイントウィンドウに対して前
記第3、第4及び第5過程を反復した後、データベースから次に読み込むデータ
シーケンスがあるか否かを確認する第7過程と、前記第7過程でこれ以上読み込
むデータシーケンスがない場合は索引構成を終了し、読み込むデータシーケンス
がある場合はデータシーケンスを読み込んだ後、前記第3過程に戻るようにする
第8過程とを含む時系列データベースにおけるサブシーケンスマッチング方法を
提供する。
【0034】 また、前記のような目的を達成するための本発明の第3の特徴によれば、時系
列データベースと多次元索引とを用いて、ユーザが提示した質問シーケンスと類
似したサブシーケンスとを探索するサブシーケンスマッチング過程が含まれる時
系列データベースにおけるサブシーケンスマッチング方法において、前記サブシ
ーケンスマッチング過程は、サブシーケンスに含まれる最小ディスジョイントウ
ィンドウ個数を求める第1過程と、質問シーケンスをスライディングウィンドウ
に分割する第2過程と、前記第2過程で分割したスライディングウィンドウを特
性抽出関数を用いてf次元の点に変換する第3過程と、前記第3過程で変換した
点と、前記第1過程で求めた最小ディスジョイントウィンドウ個数と、ユーザが
提示した許容値とを用いて範囲質問を構成する第4過程と、前記第4過程で構成
した範囲質問を用いて多次元索引を検索し、検索結果に基づいて候補集合を構成
する第5過程と、全てのスライディングウィンドウに対して前記第3、第4、及
び第5過程を反復して候補集合が構成された後、候補集合に含まれる候補サブシ
ーケンスをメモリに読み込む第6過程と、前記第6過程で読み込んだ候補サブシ
ーケンスと質問シーケンスとの距離計算により候補集合に含まれる全ての候補サ
ブシーケンスに対して錯誤解答であるか否かを確認する第7過程とを含む時系列
データベースにおけるサブシーケンスマッチング方法を提供する。
【0035】 また、前記のような目的を達成するための本発明の第4の特徴によれば、時系
列データベースと多次元索引とを用いて、ユーザが提示した質問シーケンスと類
似したサブシーケンスとを探索する際に、範囲質問の回数を削減する改善された
サブシーケンスマッチング過程が含まれる時系列データベースにおけるサブシー
ケンスマッチング方法において、前記改善されたサブシーケンスマッチング過程
は、サブシーケンスに含まれる最小ディスジョイントウィンドウ個数を求める第
1過程と、質問シーケンスをスライディングウィンドウに分割し、特性抽出関数
を用いて各スライディングウィンドウをf次元の点に変換した後、多数個の点を
含む最小包囲四角形(MBR)を構成する第2過程と、前記第2過程で構成した
MBRと、前記第1過程で求めた最小ディスジョイントウィンドウ個数と、ユー
ザが提示した許容値とを用いて範囲質問を構成する第3過程と、前記第3過程で
構成した範囲質問を用いて多次元索引を検索する第4過程と、前記第3過程で範
囲質問構成に用いたMBRに含まれる各点と第4過程の検索結果で探索した各点
との間の距離計算により候補集合を構成する第5過程と、全てのMBRに対して
前記第3、第4、及び第5過程を反復して候補集合が構成された後、候補集合に
含まれる候補サブシーケンスメモリに読み込む第6過程と、前記第6過程で読み
込んだ候補サブシーケンスと質問シーケンスとの距離計算により、候補集合に含
まれる全ての候補サブシーケンスに対して錯誤解答であるか否かを確認する第7
過程とを含む時系列データベースにおけるサブシーケンスマッチング方法を提供
する。
【0036】 本発明の詳述した目的と種々の長所はこの技術分野に熟練した人々により、添
付された図面を参照して後述される本発明の望ましい実施の形態からより明確に
なることであろう。
【0037】 前記のように本発明のデュアルマッチはデータシーケンスをディスジョイント
ウィンドウに分割し、質問シーケンスをスライディングウィンドウに分割する方
法を使用するが、従来技術のFRMではデータシーケンスをスライディングウィ
ンドウに分割し、質問シーケンスをディスジョイントウィンドウに分割する方法
を使用する。この結果、デュアルマッチは従来技術の双対的接近法を使用して多
くの錯誤解答を除去して性能を向上させることができるようになる。
【0038】 前記FRMは索引に必要な記憶空間を削減するためにウィンドウが変換された
個別点の代わりに、多数個の点を含む最小包囲四角形(MBR)のみを保存する
ことによって多くの錯誤解答を発生させるが、本発明のデュアルマッチはFRM
と類似した大きさの記憶空間に個別点を索引に直接保存することによって、この
問題を解決している。
【0039】 また、本発明では上記の通りに個別点を索引に直接保存し、保存された個別点
を使用して点と点とを直接比較することによって錯誤解答を削減する点濾過効果
を得ることができる。
【0040】
【発明の実施の形態】
以下、本発明によるデュアルマッチが錯誤棄却を発生せずに、サブシーケンス
マッチングを正しく遂行することを証明するための理論的根拠を詳細に説明する
【0041】 まず、本発明によるデュアルマッチを説明するために用語を定義する。 シーケンスSを決められたディスジョイントウィンドウに分割した時、これら
のうちサブシーケンスS[i:j]に含まれるディスジョイントウィンドウをS
[i:j]の「包囲ウィンドウ」と定義する。そして、長さLである全てのサブ
シーケンスの包囲ウィンドウ個数のうち、最小値を長さLであるサブシーケンス
の「最小包囲ウィンドウ個数」と定義し、これをpで表す。長さLであるサブシ
ーケンスの最小包囲ウィンドウ個数がpであるということは、長さLである全て
のサブシーケンスはその位置に関係なく包囲ウィンドウ個数が、p以上であるこ
とを意味する。最小包囲ウィンドウ個数は下記の<定理3>を利用して求めるこ
とができる。
【0042】 <定理3> シーケンスSを大きさωであるディスジョイントウィンドウに分割した時、長
さLであるSのサブシーケンスの最小包囲ウィンドウ個数は「[(L+1)/ω
]−1」である。
【0043】 前記<定理3>によれば、長さLen(Q)のSのサブシーケンスは「[(l
en(Q)+1)/ω]−1」個以上のディスジョイントウィンドウを含む。こ
の時、前記Qは質問シーケンスを意味する。そして、デュアルマッチは下記の<
定理4>に基づいて錯誤棄却無しに類似サブシーケンスの候補集合を求めること
ができる。
【0044】 <定理4> データシーケンスSを大きさωであるディスジョイントウィンドウに分割し、
質問シーケンスQを同一の大きさのスライディングウィンドウに分割した時、長
さLen(Q)のSのサブシーケンスS[i:j]とQとがεマッチすると、少
なくとも1つ以上のディスジョイントウィンドウS[i+k:i+k+ω−1]
(0≦k≦Len(Q)−ω)とスライディングウィンドウQ[k:k+ω−1
]とがε/√pマッチする。ここで、pは<定理3>により求められるLen(
Q)のサブシーケンスの最小包囲ウィンドウ個数である。
【0045】 前記<定理4>は図2を利用して次の通りに証明することができる。 図2で質問シーケンスQとサブシーケンスS[i:j]とがεマッチするとす
る。この時、最小包囲ウィンドウ個数がpであるので、S[i:j]はp個以上
のディスジョイントウィンドウを含む。図2でS[i:j]はp個のディスジョ
イントウィンドウS1 ,...,SP を含んでおり、これらのディスジョイント
ウィンドウの前後にSh (hはheadを意味する)とSt (tはtailを意味する)
のサブシーケンスを含む。結局、S[i:j]は、Sh 1 ,...,SP t のように表すことができる。
【0046】 同様の方法で、質問シーケンスQはqh 1 ,...,qP t のように表す
ことができる。このように表した時、S[i:j]とQとがεマッチすると、<
定理2>によってS1 ,...,SP とq1 ,...,qP とがεマッチするよ
うになる。そして、再び<定理1>によってS1 ,...,SP とq1 ,...
,qP とがεマッチすると、最小限一つのウィンドウ対Sk ,qk がε/√pマ
ッチする。結局、S[i:j]とQとがεマッチすると、S[i:j]は最小包
囲ウィンドウ個数(=p)以上のディスジョイントウィンドウを含んでおり、こ
のうち最小限一つのディスジョイントウィンドウSk とQのスライディングウィ
ンドウqk とがε/√pマッチする。
【0047】 質問時には、質問シーケンスQに対してスライディングウィンドウを構成する
ので、これらのうちには<定理4>のウィンドウqk が含まれている。前記<定
理4>によって、データシーケンスを分割したディスジョイントウィンドウと質
問シーケンスとを分割した任意のスライディングウィンドウがε/√pマッチす
る時、即ち、<定理4>の必要条件が満足される時、当該ディスジョイントウィ
ンドウを含むサブシーケンスにより候補集合を構成すれば錯誤棄却無しに全ての
類似サブシーケンスを探索することができる。
【0048】 本発明によるデュアルマッチの最大ウィンドウ大きさは下記の<定理5>を使
用して求めることができる。
【0049】 <定理5> 与えられた最小質問シーケンス長さをMin(Q)とすると、デュアルマッチ
の最大ウィンドウ大きさは、「[(Min(Q)+1)/ω]」である。
【0050】 以下、本発明による望ましい一実施の形態を添付図面を参照して詳細に説明す
る。
【0051】 本発明のデュアルマッチは、索引構成とサブシーケンスマッチングとの二つの
過程からなる。この時、時系列データの記憶及び管理が可能で多次元索引構造を
支援するデータベース管理システム機能が必要である。
【0052】 本発明では、効率的なサブシーケンスマッチングを遂行するためには、図3に
示されているシステムが必要である。図3において、10はコンピュータのメモ
リ、15はコンピュータのCPUである。この時、前記メモリ10にはデータベ
ース管理システム20とサブシーケンスマッチングシステム25とが具備される
が、本発明のデュアルマッチは前記サブシーケンスマッチングシステム25で具
現される。前記データベース管理システム20はデータベース記憶装置35に保
存された時系列データベース40と多次元索引45とを管理する。また、前記サ
ブシーケンスマッチングシステム25はデータベース管理システム20を通じて
時系列データベース40と多次元索引45とをアクセスし、使用する。
【0053】 デュアルマッチの索引構成過程においては、データシーケンスから構成された
時系列データベースを入力とし、サブシーケンスマッチングに用いる多次元索引
を構成するが、図4は索引構成過程のアルゴリズムを表す。
【0054】 図4を参照すれば、第1ステップS301では、一つのf次元索引を生成して
初期化する。第2ステップS302では、データベースから一つのデータシーケ
ンスをメモリに読み込む。第3ステップS303では、第2ステップS302ま
たは第8ステップS308で読み込んだデータシーケンスをディスジョイントウ
ィンドウに分割する。その後、第4ステップS304では、各ディスジョイント
ウィンドウをf次元の点に変換する。
【0055】 第5ステップS305では、ウィンドウを変換した点と、当該ウィンドウとが
含まれるデータシーケンスの識別子と、このデータシーケンスにおいて当該ウィ
ンドウの開始位置とでレコードを構成する。第6ステップS306では、ディス
ジョイントウィンドウを変換した点をキーとして第5ステップS305で構成し
たレコードを第1ステップS301で構成した多次元索引に挿入する。このよう
に第4過程(S304) から第6ステップS306までを反復して全てのディス
ジョイントウィンドウに対する索引構成を遂行する。
【0056】 第7ステップS307では、データベースから次に読み込むデータシーケンス
があるか否かを確認する。第7ステップS307での確認の結果、次に読み込む
データシーケンスがある場合は、第8ステップS308においてこのデータシー
ケンスを読み込んだ後、第3ステップS303に戻って索引構成を続ける。しか
し、第7ステップS307での確認の結果、これ以上読み込むデータシーケンス
がない場合は索引構成過程を終了する。
【0057】 一方、サブシーケンスマッチング過程では質問シーケンスqと許容値εとを入
力とし、質問シーケンスqと類似したサブシーケンスを探索する作業を行なう。
図5はサブシーケンスマッチング過程のアルゴリズムを表す。
【0058】 図5を参照すれば、第1ステップS501では、<定理3>により長さLen
(Q)のサブシーケンスに含まれる最小ディスジョイントウィンドウ個数「p=
「Len(Q)+1/ω」−1」を求める。第2ステップS502では、質問シ
ーケンスをスライディングウィンドウに分割する。次に各スライディングウィン
ドウに対して次の第3ステップS503から第5ステップS505までを反復す
る。第3ステップS503では、特性抽出関数を用いてスライディングウィンド
ウをf次元の点に変換する。第4ステップS504では、スライディングウィン
ドウを変換した点とε/√pとで範囲質問を構成する。
【0059】 その後、第5ステップS505では、第4ステップS504で構成した範囲質
問により多次元索引を検索し、スライディングウィンドウを変換した点とε/√
p距離内にある全ての点とを捜し出す。第5ステップS505では、スライディ
ングウィンドウに対する検索結果を用いて候補集合を構成するが、検索に用いた
点がi番目のスライディングウィンドウを変換した点であり、検索結果で捜し出
した点がデータシーケンスSのj番目ディスジョイントウィンドウであれば、デ
ータシーケンスSの(j−i)番目のエントリーから始まるサブシーケンスを候
補集合に含ませる。このように、第3ステップS503から第5ステップS50
5の過程を全てのスライディングウィンドウに対して反復して候補集合を求める
【0060】 上記の過程により候補集合が求められると、候補集合に含まれる各候補サブシ
ーケンスに対して次の第6ステップS506及び第7ステップS507を行なう
。第6ステップS506では、各候補サブシーケンスをデータベースからメモリ
に読み込む。第7ステップS507では、読み込んだ候補サブシーケンスと質問
シーケンスとのLen(Q)次元距離を計算し、その距離がεより大きければ錯
誤解答であるので解答から除き、ε以下であれば類似サブシーケンスであるので
解答として出力する。
【0061】 前記のような索引構成過程とサブシーケンスマッチング過程とを用いればFR
M方法で点濾過効果の欠如により発生した錯誤解答が現れないようになる。これ
は索引構成過程からデータシーケンスを変換した個別点を多次元索引に直接保存
し、サブシーケンスマッチング過程から質問シーケンスを変換した個別点に質問
するためである。即ち、索引構成及び検索において個別点を直接記憶及び使用す
ることによって点濾過効果を得ることができ、これにより錯誤解答を大きく削減
することができる。このように錯誤解答を削減することによって候補個数が大き
く削減され、ディスクアクセスとLen(Q)次元距離計算を削減して結局性能
を向上させることができる。
【0062】 前記で質問シーケンスをスライディングウィンドウに分割し、これを変換した
個別点各々に対して範囲質問を行なうために現れ得る性能低下の問題点を解決す
るために、本発明では下記のように範囲質問の回数を削減する改善されたサブシ
ーケンスマッチング過程を行うことができる。
【0063】 改善されたサブシーケンスマッチング過程においても質問シーケンスと許容値
とを入力とし、類似サブシーケンスを探索する作業を行なうが、図6は改善され
たサブシーケンスマッチング過程のアルゴリズムを表す。
【0064】 図6を参照すれば、第1ステップS601では、<定理3>により長さLen
(Q)のサブシーケンスに含まれる最小ディスジョイントウィンドウ個数「p=
[(Len(Q)+1)/ω]−1」を求める。第2過程(S602) では、質
問シーケンスをスライディングウィンドウに分割した後、特性抽出関数を用いて
各ウィンドウをf次元の点に変換し、このような点を多数個含むMBRを構成す
る。
【0065】 前記MBRを構成する方法としては、FRM方法で用いたヒューリスティック
方法、固定個数の点によりMBRを構成する方法、そして全ての点を一つのMB
Rに含ませる方法などがあるが、質問シーケンスが短い場合(ウィンドウ大きさ
の3〜4倍以下) には、一つのMBRを構成することが効果的であり、質問シー
ケンスがながい場合(ウィンドウ大きさの5倍以上) には、多数個のMBRを構
成することが効果的であることを確認した。
【0066】 その後、前記構成した各MBRに対して第4ステップS604から第5ステッ
プS605までを反復する。第3ステップS603では、MBRとε/√pとで
範囲質問を構成する。第4ステップS604では、構成した範囲質問で多次元索
引を検索してMBRとε/√p距離内にある全ての点を捜し出す。第5ステップ
S605では、MBRに含まれる各点と検索結果で捜し出した各点との距離計算
により候補集合を構成する。
【0067】 もう少し詳細に説明すれば、MBRに含まれる一点がi番目のスライディング
ウィンドウを変換した点であり、検索結果で捜し出した一点がデータシーケンス
Sのj番目のディスジョイントウィンドウとする時、二点間の距離がε/√p以
下であれば、データシーケンスSの(j−i)番目のエントリーから始まるサブ
シーケンスを候補集合に含ませる。このように第3ステップS603から第5ス
テップS605までの過程を全てのMBRに対して反復して候補集合を求める。
候補集合が求められると、候補集合に含まれる各候補サブシーケンスに対して次
の第6ステップS606及び第7ステップS607を行なう。第6ステップS6
06では、候補サブシーケンスをデータベースからメモリに読み込む。第7ステ
ップS607では、読み込んだ候補サブシーケンスと質問シーケンスとのLen
(Q)次元距離を計算して、その距離がεより大きければ錯誤解答であるために
解答から除いて、ε以下であれば類似サブシーケンスであるから解答として出力
する。
【0068】 このように個別点の代わりにMBRを構成して検索する改善されたサブシーケ
ンスマッチング過程を用いれば、範囲質問の回数を点の個数でMBRの個数で削
減することができ、しかも個別点を質問に直接用いるサブシーケンスマッチング
過程と同一候補集合を求めることができる。これはMBRにより検索した後に、
MBRに含まれる各点と検索結果から得た各点との間の距離計算を行ない、二点
間の距離がε/√p以下である場合のみに、二点で構成されるサブシーケンスを
候補集合に含ませる「索引水準濾過(index-level filtering) 」を行なうためで
ある。即ち、MBRを構成して質問することによって追加的な候補サブシーケン
スを発生することができるが、MBRに含まれる各点と検索結果から得た各点と
の間のf次元距離計算を遂行することによってディスクアクセスとLen(Q)
次元距離計算以前に追加的な候補サブシーケンスを除去することができる。
【0069】 このように改善されたサブシーケンスマッチング過程を用いてFRM方法に比
べて候補集合の大きさを削減して性能を向上させることができる。
【0070】 本出願人による実験結果では、デュアルマッチはFRMに比べて候補個数を最
大1/9,000まで削減し、性能を最大160倍まで大きく向上させた。また
、デュアルマッチは、データシーケンスをディスジョイントウィンドウに分割す
ることにより、データシーケンスをスライディングウィンドウに分割するFRM
に比べて索引構成が14乃至230倍迅速な特徴を有する。このような結果から
、デュアルマッチは、サブシーケンスマッチングの一般的な解決策として見なさ
れたFRMを代替出来るものであることが判る。
【0071】
【発明の効果】
以上に説明したように、本発明の時系列データベースにおけるサブシーケンス
マッチング方法によるデュアルマッチは、ウィンドウを構成する方法の双対性を
用いてデータシーケンスをディスジョイントウィンドウに分割するために索引に
保存すべき点の個数をFRMの1/ω(ω>100)に大きく削減することによ
って、個別点を索引に直接保存することができ、質問シーケンスを分割したスラ
イディングウィンドウを変換した個別点により多次元索引を検索する。従って、
デュアルマッチは、質問に用いられた点と索引に保存された点とを比較すること
によって、点濾過効果を得ることができ、これにより錯誤解答を大幅に削減して
性能を大きく向上させることができる効果がある。
【0072】 また、本発明でのデュアルマッチは、データシーケンスをディスジョイントウ
ィンドウで分割するために索引構成過程における特性抽出関数の使用をFRMの
約1/ω(ω>100)以上に削減することによって特性抽出関数の使用に必要
なCPU演算を大幅に短縮し、FRMに比べて迅速に索引を構成できる効果があ
る。
【0073】 以上では本発明を実施の形態によって詳細に説明したが、本発明は実施の形態
によって限定されず、本発明が属する技術分野において通常の知識を有するもの
であれば本発明の思想と精神を離れることなく、本発明を修正または変更できる
であろう。
【図面の簡単な説明】
【図1a】 シーケンスをスライディングウィンドウに分割する方法を示す例示図である。
【図1b】 シーケンスをディスジョイントウィンドウに分割する方法を示す例示図である
【図2】 ウィンドウを利用したサブシーケンス及び質問シーケンスの表現方法を示す例
示図である。
【図3】 本発明によるサブシーケンスマッチング方法が具現されるシステムの概略的な
構成を示す例示図である。
【図4】 本発明によるサブシーケンスマッチング方法で多次元索引を構成する索引構成
アルゴリズムを示す図面である。
【図5】 本発明によるサブシーケンスマッチング方法で類似サブシーケンスを捜し出す
サブシーケンスマッチングアルゴリズムを示す図面である。
【図6】 本発明によるサブシーケンスマッチング方法で類似サブシーケンスを探索する
が、範囲質問回数を削減する改善されたサブシーケンスマッチングアルゴリズム
を示す図面である。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE,TR),OA(BF ,BJ,CF,CG,CI,CM,GA,GN,GW, ML,MR,NE,SN,TD,TG),AP(GH,G M,KE,LS,MW,MZ,SD,SL,SZ,TZ ,UG,ZW),EA(AM,AZ,BY,KG,KZ, MD,RU,TJ,TM),AE,AG,AL,AM, AT,AU,AZ,BA,BB,BG,BR,BY,B Z,CA,CH,CN,CR,CU,CZ,DE,DK ,DM,DZ,EE,ES,FI,GB,GD,GE, GH,GM,HR,HU,ID,IL,IN,IS,J P,KE,KG,KP,KZ,LC,LK,LR,LS ,LT,LU,LV,MA,MD,MG,MK,MN, MW,MX,MZ,NO,NZ,PL,PT,RO,R U,SD,SE,SG,SI,SK,SL,TJ,TM ,TR,TT,TZ,UA,UG,UZ,VN,YU, ZA,ZW 【要約の続き】 む。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 a)ウィンドウを構成する際に双対性を用いるステップと、 b)前記a)に基づいてデータシーケンスをディスジョイントウィンドウに分
    割するステップと、 c)前記a)に基づいて質問シーケンスをスライディングウィンドウに分割す
    るステップと、 d)前記b)と前記c)とで構成されたウィンドウを用いてサブシーケンスマ
    ッチングを行なうステップと を含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
    グ方法。
  2. 【請求項2】 前記d)は、 錯誤解答を削減して点濾過効果を得るために、 a)データシーケンスを分割したディスジョイントウィンドウを変換した個別
    点を索引に直接保存するステップと、 b)質問シーケンスを分割したスライディングウィンドウを変換した個別点を
    質問に直接用いるステップと を含むことを特徴とする請求項1に記載の時系列データベースにおけるサブシ
    ーケンスマッチング方法。
  3. 【請求項3】 範囲質問の回数を削減するために、質問シーケンスを分割し
    たスライディングウィンドウを変換した個別点により直接質問せずに、多数個の
    点を含む最小包囲四角形(MBR)を構成して質問して候補集合を求めるステッ
    プを含むことを特徴とする請求項2に記載の時系列データベースにおけるサブシ
    ーケンスマッチング方法。
  4. 【請求項4】 前記d)は、索引構成に必要な特性抽出関数の使用を削減し
    て迅速に索引を構成するために、データシーケンスをスライディングウィンドウ
    に分割せずに、ディスジョイントウィンドウに分割するステップを含むことを特
    徴とする請求項1に記載の時系列データベースにおけるサブシーケンスマッチン
    グ方法。
  5. 【請求項5】 サブシーケンスマッチングを行なうための多次元索引を構成
    する索引構成ステップが含まれる時系列データベースにおけるサブシーケンスマ
    ッチング方法において、 前記索引構成ステップは、 a)一つのf次元索引を生成してこれを初期化するステップと、 b)時系列データベースから一つのデータシーケンスを読み込むステップと、 c)前記b)で読み込んだデータシーケンスをディスジョイントウィンドウに
    分割するステップと、 d)前記c)で分割したディスジョイントウィンドウを特性抽出関数を用いて
    f次元の点に変換するステップと、 e)前記d)で変換した点と、当該ウィンドウが含まれるデータシーケンスの
    識別子と、当該ウィンドウの開始位置とでレコードを構成するステップと、 f)前記e)で構成したレコードをf次元索引に挿入するステップと、 g)全てのディスジョイントウィンドウに対して前記c)、d)及びe)を反
    復するステップと、 h)データベースから次に読み込むデータシーケンスがあるか否かを確認する
    ステップと、 i)前記h)において、これ以上読み込むデータシーケンスがない場合は索引
    構成を終了し、読み込むデータシーケンスがある場合はデータシーケンスを読み
    込んだ後に前記c)に戻るようにするステップと を含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
    グ方法。
  6. 【請求項6】 時系列データベースと多次元索引とを用いて、ユーザが提示
    した質問シーケンスと類似したサブシーケンスを探索するサブシーケンスマッチ
    ングステップが含まれる時系列データベースにおけるサブシーケンスマッチング
    方法において、 前記サブシーケンスマッチングステップは、 a)サブシーケンスに含まれる最小ディスジョイントウィンドウ個数を求める
    ステップと、 b)質問シーケンスをスライディングウィンドウに分割するステップと、 c)前記b)で分割したスライディングウィンドウを特性抽出関数を用いてf
    次元の点に変換するステップと、 d)前記c)で変換した点と、前記a)で求めた最小ディスジョイントウィン
    ドウ個数と、ユーザが提示した許容値とを用いて範囲質問を構成するステップと
    、 e)前記d)で構成した範囲質問を用いて多次元索引を検索し、検索結果に基
    づいて候補集合を構成するステップと、 f)候補集合に含まれる候補サブシーケンスをメモリに読み込むステップと、 g)前記f)で読み込んだ候補サブシーケンスと質問シーケンスとの距離計算
    により候補集合に含まれる全ての候補サブシーケンスに対して錯誤解答であるか
    否かを確認するステップと を含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
    グ方法。
  7. 【請求項7】 時系列データベースと多次元索引とを用いて、ユーザが提示
    した質問シーケンスと類似したサブシーケンスを探索する際に、範囲質問の回数
    を削減する改善されたサブシーケンスマッチングステップが含まれる時系列デー
    タベースにおけるサブシーケンスマッチング方法において、 前記改善されたサブシーケンスマッチングステップは、 a)サブシーケンスに含まれる最小ディスジョイントウィンドウ個数を求める
    ステップと、 b)質問シーケンスをスライディングウィンドウに分割し、特性抽出関数を用
    いて各スライディングウィンドウをf次元の点に変換した後、多数個の点を含む
    最小包囲四角形(MBR)を構成するステップと、 c)前記b)で構成したMBRと、前記a)で求めた最小ディスジョイントウ
    ィンドウ個数と、ユーザが提示した許容値とを用いて範囲質問を構成するステッ
    プと、 d)前記c)で構成した範囲質問を用いて多次元索引を検索するステップと、 e)前記c)で範囲質問の構成に用いたMBRに含まれる各点と前記d)の検
    索結果で探索した各点との間の距離計算により候補集合を構成するステップと、 f)候補集合に含まれる候補サブシーケンスをメモリに読み込むステップと、 g)前記f)で読み込んだ候補サブシーケンスと質問シーケンスとの距離計算
    により、候補集合に含まれる全ての候補サブシーケンスに対して錯誤解答である
    か否かを確認するステップと を含むことを特徴とする時系列データベースにおけるサブシーケンスマッチン
    グ方法。
JP2001547619A 1999-12-20 2000-12-14 サブシーケンスマッチング方法 Expired - Fee Related JP3648709B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1019990059467A KR100344530B1 (ko) 1999-12-20 1999-12-20 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법
KR1999/59467 1999-12-20
PCT/KR2000/001458 WO2001046771A2 (en) 1999-12-20 2000-12-14 A subsequence matching method using duality in constructing windows in time-series databases

Publications (2)

Publication Number Publication Date
JP2003518310A true JP2003518310A (ja) 2003-06-03
JP3648709B2 JP3648709B2 (ja) 2005-05-18

Family

ID=19627347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001547619A Expired - Fee Related JP3648709B2 (ja) 1999-12-20 2000-12-14 サブシーケンスマッチング方法

Country Status (6)

Country Link
US (1) US6496817B1 (ja)
EP (1) EP1250636A2 (ja)
JP (1) JP3648709B2 (ja)
KR (1) KR100344530B1 (ja)
AU (1) AU2029501A (ja)
WO (1) WO2001046771A2 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7174340B1 (en) * 2000-08-17 2007-02-06 Oracle International Corporation Interval-based adjustment data includes computing an adjustment value from the data for a pending adjustment in response to retrieval of an adjusted data value from a database
US7146374B1 (en) * 2001-02-21 2006-12-05 Oracle Corporation Automated multi-line labeling of a time axis
US7283987B2 (en) * 2001-03-05 2007-10-16 Sap Ag Compression scheme for improving cache behavior in database systems
US6907426B2 (en) * 2001-05-17 2005-06-14 International Business Machines Corporation Systems and methods for identifying and counting instances of temporal patterns
KR100483321B1 (ko) * 2001-10-17 2005-04-15 한국과학기술원 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법
KR100472949B1 (ko) * 2001-10-18 2005-03-08 한국전자통신연구원 시계열 데이터베이스에서 서브시퀀스 매칭의 인덱스검색방법
KR20030032499A (ko) * 2001-10-18 2003-04-26 한국전자통신연구원 시퀀스 데이터베이스에서 타임 워핑 기반의 서브시퀀스매칭방법
US7080072B1 (en) * 2001-11-14 2006-07-18 Ncr Corp. Row hash match scan in a partitioned database system
US20030130996A1 (en) * 2001-12-21 2003-07-10 International Business Machines Corporation Interactive mining of time series data
US20040034633A1 (en) * 2002-08-05 2004-02-19 Rickard John Terrell Data search system and method using mutual subsethood measures
US20040024755A1 (en) * 2002-08-05 2004-02-05 Rickard John Terrell System and method for indexing non-textual data
US7580812B2 (en) * 2004-01-28 2009-08-25 Honeywell International Inc. Trending system and method using window filtering
US7447666B2 (en) 2004-04-09 2008-11-04 The Boeing Company System and method for analyzing a pattern in a time-stamped event sequence
US7624098B2 (en) * 2005-10-07 2009-11-24 International Business Machines Corporation Generating suitable data for statistical analysis
US20070097755A1 (en) * 2005-10-27 2007-05-03 Marndi Raj N Method for comparing a first data set with a second data set
US20080016157A1 (en) * 2006-06-29 2008-01-17 Centraltouch Technology Inc. Method and system for controlling and monitoring an apparatus from a remote computer using session initiation protocol (sip)
US8036971B2 (en) * 2007-03-30 2011-10-11 Palantir Technologies, Inc. Generating dynamic date sets that represent market conditions
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
US7685099B2 (en) * 2007-06-28 2010-03-23 Microsoft Corporation Forecasting time-independent search queries
US8090709B2 (en) * 2007-06-28 2012-01-03 Microsoft Corporation Representing queries and determining similarity based on an ARIMA model
US7685100B2 (en) 2007-06-28 2010-03-23 Microsoft Corporation Forecasting search queries based on time dependencies
US7689622B2 (en) * 2007-06-28 2010-03-30 Microsoft Corporation Identification of events of search queries
US7693908B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Determination of time dependency of search queries
US7693823B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Forecasting time-dependent search queries
US8484115B2 (en) 2007-10-03 2013-07-09 Palantir Technologies, Inc. Object-oriented time series generator
US20100070426A1 (en) 2008-09-15 2010-03-18 Palantir Technologies, Inc. Object modeling for exploring large data sets
US8429194B2 (en) 2008-09-15 2013-04-23 Palantir Technologies, Inc. Document-based workflows
US9177343B2 (en) * 2010-11-23 2015-11-03 At&T Intellectual Property I, L.P. Conservation dependencies
US8732574B2 (en) 2011-08-25 2014-05-20 Palantir Technologies, Inc. System and method for parameterizing documents for automatic workflow generation
US9348677B2 (en) 2012-10-22 2016-05-24 Palantir Technologies Inc. System and method for batch evaluation programs
US9069824B2 (en) 2012-11-15 2015-06-30 International Business Machines Corporation Accelerating time series data base queries using dictionary based representations
US9015183B2 (en) 2012-11-26 2015-04-21 International Business Machines Corporation Accelerating time series data base queries using dictionary based representations
KR101403949B1 (ko) * 2013-02-26 2014-06-09 한국과학기술원 모바일 상황 모니터링을 위한 효율적 데이터 처리를 수행하는 모바일 장치, 이를 이용하는 데이터 처리 방법, 이를 이용하는 상황 모니터링 방법 및 이를 포함하는 상황 모니터링 시스템
US8868486B2 (en) 2013-03-15 2014-10-21 Palantir Technologies Inc. Time-sensitive cube
US8903717B2 (en) 2013-03-15 2014-12-02 Palantir Technologies Inc. Method and system for generating a parser and parsing complex data
US8855999B1 (en) 2013-03-15 2014-10-07 Palantir Technologies Inc. Method and system for generating a parser and parsing complex data
US8909656B2 (en) 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
US8930897B2 (en) 2013-03-15 2015-01-06 Palantir Technologies Inc. Data integration tool
US8938686B1 (en) 2013-10-03 2015-01-20 Palantir Technologies Inc. Systems and methods for analyzing performance of an entity
US9105000B1 (en) 2013-12-10 2015-08-11 Palantir Technologies Inc. Aggregating data from a plurality of data sources
US9361329B2 (en) 2013-12-13 2016-06-07 International Business Machines Corporation Managing time series databases
US8924429B1 (en) 2014-03-18 2014-12-30 Palantir Technologies Inc. Determining and extracting changed data from a data source
CN105224543A (zh) * 2014-05-30 2016-01-06 国际商业机器公司 用于处理时间序列的方法和装置
WO2017035497A1 (en) * 2015-08-26 2017-03-02 Pivotal Software, Inc. Database acceleration through runtime code generation
CN106709336A (zh) * 2015-11-18 2017-05-24 腾讯科技(深圳)有限公司 识别恶意软件的方法和装置
KR101937989B1 (ko) 2017-12-29 2019-01-11 연세대학교 원주산학협력단 집합 기반 유사 시퀀스 매칭 장치 및 방법
KR102121304B1 (ko) * 2018-04-04 2020-06-11 한양대학교 산학협력단 시계열 데이터베이스의 서브 시퀀스 매칭 시스템 및 그 방법

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
JPH01183793A (ja) * 1988-01-18 1989-07-21 Toshiba Corp 文字認識装置
US5647058A (en) 1993-05-24 1997-07-08 International Business Machines Corporation Method for high-dimensionality indexing in a multi-media database
US5544352A (en) * 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5553279A (en) * 1993-10-08 1996-09-03 International Business Machines Corporation Lossless distribution of time series data in a relational data base network
US5819266A (en) * 1995-03-03 1998-10-06 International Business Machines Corporation System and method for mining sequential patterns in a large database
US5630051A (en) * 1995-03-06 1997-05-13 Motorola Inc. Method and apparatus for merging hierarchical test subsequence and finite state machine (FSM) model graphs
US5570370A (en) * 1995-04-28 1996-10-29 Industrial Technology Research Institute Frame timing acquisition method and system for cordless TDMA systems
US5664174A (en) * 1995-05-09 1997-09-02 International Business Machines Corporation System and method for discovering similar time sequences in databases
US5799301A (en) * 1995-08-10 1998-08-25 International Business Machines Corporation Apparatus and method for performing adaptive similarity searching in a sequence database
US6122759A (en) * 1995-10-10 2000-09-19 Lucent Technologies Inc. Method and apparatus for restoration of an ATM network
US5742811A (en) * 1995-10-10 1998-04-21 International Business Machines Corporation Method and system for mining generalized sequential patterns in a large database
US5832496A (en) * 1995-10-12 1998-11-03 Ncr Corporation System and method for performing intelligent analysis of a computer database
US5787422A (en) * 1996-01-11 1998-07-28 Xerox Corporation Method and apparatus for information accesss employing overlapping clusters
US6012062A (en) * 1996-03-04 2000-01-04 Lucent Technologies Inc. System for compression and buffering of a data stream with data extraction requirements
EP0797161A3 (en) * 1996-03-22 1998-05-27 Pilot Software Inc Computer system and computerimplemented process for applying database segment definitions to a database
US5781906A (en) * 1996-06-06 1998-07-14 International Business Machines Corporation System and method for construction of a data structure for indexing multidimensional objects
US5940825A (en) * 1996-10-04 1999-08-17 International Business Machines Corporation Adaptive similarity searching in sequence databases
US6092064A (en) * 1997-11-04 2000-07-18 International Business Machines Corporation On-line mining of quantitative association rules
US6301575B1 (en) * 1997-11-13 2001-10-09 International Business Machines Corporation Using object relational extensions for mining association rules
US5987468A (en) * 1997-12-12 1999-11-16 Hitachi America Ltd. Structure and method for efficient parallel high-dimensional similarity join
US6003036A (en) * 1998-02-12 1999-12-14 Martin; Michael W. Interval-partitioning method for multidimensional data
US6360188B1 (en) * 1998-10-27 2002-03-19 Brixx Limited Time-based modeling

Also Published As

Publication number Publication date
JP3648709B2 (ja) 2005-05-18
AU2029501A (en) 2001-07-03
WO2001046771A2 (en) 2001-06-28
US6496817B1 (en) 2002-12-17
EP1250636A2 (en) 2002-10-23
WO2001046771A3 (en) 2002-08-15
KR100344530B1 (ko) 2002-07-24
KR20010064977A (ko) 2001-07-11

Similar Documents

Publication Publication Date Title
JP2003518310A (ja) 時系列データベースにおけるウィンドウ構成の際に双対性を用いたサブシーケンスマッチング方法
US10671676B2 (en) Multiple index based information retrieval system
Park et al. Efficient searches for similar subsequences of different lengths in sequence databases
US9384224B2 (en) Information retrieval system for archiving multiple document versions
US6668263B1 (en) Method and system for efficiently searching for free space in a table of a relational database having a clustering index
US7603345B2 (en) Detecting spam documents in a phrase based information retrieval system
KR100725664B1 (ko) 2단계 n-gram 역색인 구조 및 그 구성 방법과 질의처리 방법 및 그 색인 도출 방법
CN103282902B (zh) 字尾数组候选选择和索引数据结构
Krishnan et al. Estimating alphanumeric selectivity in the presence of wildcards
Chen et al. Query by music segments: An efficient approach for song retrieval
JPH10320423A (ja) データベースシステムにおいて結合質問を実行する方法及び装置
EP1886239A1 (en) System and method for data sensitive filtering of patient demographic record queries
JP2002501256A (ja) データベース装置
CN101256579A (zh) 一种数据库范围查询数据组织的方法
JP2003515802A (ja) インデクスキーデータフィールドを抽出するためのシステムおよび方法
KR100472948B1 (ko) 시계열 데이터베이스에서 서브 시퀀스 매칭의 후처리최적화 방법
US7039646B2 (en) Method and system for compressing varying-length columns during index high key generation
KR100472949B1 (ko) 시계열 데이터베이스에서 서브시퀀스 매칭의 인덱스검색방법
JPH081642B2 (ja) キーワード検索方式
Keogh et al. Ensemble-index: A new approach to indexing large databases
KR100446639B1 (ko) 셀 기반의 고차원 데이터 색인 장치 및 그 방법
JP2003030040A (ja) オブジェクトデータベースシステムの複数ハッシュインデックスおよび非ユニークインデックス管理方式
JP2706021B2 (ja) 構造型データベースにおける検索高速化方法
CN114595255A (zh) 多源异构数据融合存储
CN117743497A (zh) 基于文档重排序的短文档列表交集查询方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090225

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100225

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100225

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110225

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees