JPH08339322A - データベース内の類似時間シーケンスを発見するシステム及び方法 - Google Patents
データベース内の類似時間シーケンスを発見するシステム及び方法Info
- Publication number
- JPH08339322A JPH08339322A JP8109957A JP10995796A JPH08339322A JP H08339322 A JPH08339322 A JP H08339322A JP 8109957 A JP8109957 A JP 8109957A JP 10995796 A JP10995796 A JP 10995796A JP H08339322 A JPH08339322 A JP H08339322A
- Authority
- JP
- Japan
- Prior art keywords
- windows
- window
- time
- sub
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
(57)【要約】
【課題】 大規模データベースに記憶される類似時間シ
ーケンスを発見するシステム及び方法を提供する。 【解決手段】 時間シーケンスのデータベース内の類似
時間シーケンスを発見するシステム及び方法が、最初に
各シーケンスを小さなウィンドウに分割するコンピュー
タ実行プログラムを含む。第1のシーケンスからのウィ
ンドウが第2のシーケンスからの選択ウィンドウと比較
されて、類似のウィンドウが決定される。類似サブシー
ケンス対を確立するための特定のスティッチング条件が
満足されるとき、類似ウィンドウ対が次に一緒にスティ
ッチされる。同様に類似サブシーケンス対が一緒にステ
ィッチされ、次にスティッチ化サブシーケンスの長さが
時間シーケンスの全長と比較されて、時間シーケンスが
類似性基準に合致するか否かが決定される。
ーケンスを発見するシステム及び方法を提供する。 【解決手段】 時間シーケンスのデータベース内の類似
時間シーケンスを発見するシステム及び方法が、最初に
各シーケンスを小さなウィンドウに分割するコンピュー
タ実行プログラムを含む。第1のシーケンスからのウィ
ンドウが第2のシーケンスからの選択ウィンドウと比較
されて、類似のウィンドウが決定される。類似サブシー
ケンス対を確立するための特定のスティッチング条件が
満足されるとき、類似ウィンドウ対が次に一緒にスティ
ッチされる。同様に類似サブシーケンス対が一緒にステ
ィッチされ、次にスティッチ化サブシーケンスの長さが
時間シーケンスの全長と比較されて、時間シーケンスが
類似性基準に合致するか否かが決定される。
Description
【0001】
【発明の属する技術分野】本発明は一般にデータ処理に
関し、より詳細には、類似時間シーケンスを発見する"
コンピュータ・データベース・マイニング"に関する。
特に、本発明は大規模データベース内における、データ
の時間シーケンス間のパターンの類似性の発見に関す
る。
関し、より詳細には、類似時間シーケンスを発見する"
コンピュータ・データベース・マイニング"に関する。
特に、本発明は大規模データベース内における、データ
の時間シーケンス間のパターンの類似性の発見に関す
る。
【0002】
【従来の技術】時間に渡る事象のシーケンス(以降で
は"時間シーケンス"と記す)は、しばしばデータベース
に電子的に記録される。本発明により認識されるよう
に、互いに類似する時間シーケンスを識別する能力は多
くの応用例を有し、それらには例えば、類似の利益及び
売上の成長パターンを有する会社を識別することなどが
含まれる。別の例では、製品の売上パターンの類似の時
間シーケンスの識別、或いは時間に渡り類似の価格推移
を有する株式の発見などに有利である。地震波の類似ま
たは異類の時間シーケンスの発見は、地質学的不規則性
を識別するなどの多くの有用な応用例を有する。
は"時間シーケンス"と記す)は、しばしばデータベース
に電子的に記録される。本発明により認識されるよう
に、互いに類似する時間シーケンスを識別する能力は多
くの応用例を有し、それらには例えば、類似の利益及び
売上の成長パターンを有する会社を識別することなどが
含まれる。別の例では、製品の売上パターンの類似の時
間シーケンスの識別、或いは時間に渡り類似の価格推移
を有する株式の発見などに有利である。地震波の類似ま
たは異類の時間シーケンスの発見は、地質学的不規則性
を識別するなどの多くの有用な応用例を有する。
【0003】類似の時間シーケンスを発見するためのマ
イニング・システムは、Agrawalらによる"Database Min
ing: A Performance Perspective"(Proc. of the Four
thInt'l Conf. on Foundations of Data Organization
and Algorithm、Chicago、1993)、及び Faloutsosらに
よる"Fast Sub-sequence Matching in Time-seriesData
bases"(Proc. of the ACM Sigmod Conf. on Managemen
t of Data、May 1994)の中で開示されている。しかし
ながら前記刊行物の中で開示されるシステム及び方法
は、それらの実際的なアプリケーションを制限する幾つ
かの欠点を共有する。こうした欠点には、これらの方法
が元来、幾つかのデータ特異性(anomalies)に過度に
感応的であることが挙げられる。更に前記参照方法は、
振幅スケーリング及びシーケンス変換の問題を解決しな
い。結果的にこれらの方法は、例えば2つの株式の内の
一方が10ドル近辺を変動し他方が75ドル近辺を変動
する場合、これらの株価シーケンスの類似性を効果的に
識別することができない。
イニング・システムは、Agrawalらによる"Database Min
ing: A Performance Perspective"(Proc. of the Four
thInt'l Conf. on Foundations of Data Organization
and Algorithm、Chicago、1993)、及び Faloutsosらに
よる"Fast Sub-sequence Matching in Time-seriesData
bases"(Proc. of the ACM Sigmod Conf. on Managemen
t of Data、May 1994)の中で開示されている。しかし
ながら前記刊行物の中で開示されるシステム及び方法
は、それらの実際的なアプリケーションを制限する幾つ
かの欠点を共有する。こうした欠点には、これらの方法
が元来、幾つかのデータ特異性(anomalies)に過度に
感応的であることが挙げられる。更に前記参照方法は、
振幅スケーリング及びシーケンス変換の問題を解決しな
い。結果的にこれらの方法は、例えば2つの株式の内の
一方が10ドル近辺を変動し他方が75ドル近辺を変動
する場合、これらの株価シーケンスの類似性を効果的に
識別することができない。
【0004】更に前記参照方法は、2つの類似の時間シ
ーケンスの小さな不一致領域を効果的に無視することが
できない。結果的にこれらの方法は、特定の実際に類似
の時間シーケンスを類似であると識別することができな
い。
ーケンスの小さな不一致領域を効果的に無視することが
できない。結果的にこれらの方法は、特定の実際に類似
の時間シーケンスを類似であると識別することができな
い。
【0005】更に時間シーケンスの類似性発見モデルに
おける従来のデータ処理方法は、幾つかの欠点を有す
る。類似時間シーケンスのマッチングに付随する時間シ
ーケンスの指標化のための従来のデータ処理方法の欠点
として、多くの誤ったマッチングが識別される傾向があ
る。また、従来の方法は計算集中型となる傾向があり、
これらは元来、ユーザが時間シーケンス類似性条件を定
義する基準を変更することを困難にする。
おける従来のデータ処理方法は、幾つかの欠点を有す
る。類似時間シーケンスのマッチングに付随する時間シ
ーケンスの指標化のための従来のデータ処理方法の欠点
として、多くの誤ったマッチングが識別される傾向があ
る。また、従来の方法は計算集中型となる傾向があり、
これらは元来、ユーザが時間シーケンス類似性条件を定
義する基準を変更することを困難にする。
【0006】
【発明が解決しようとする課題】従って本発明の目的
は、容易に変更され得る類似性基準を確立する大規模デ
ータベースに記憶される類似時間シーケンスを発見する
システム及び方法を提供することである。
は、容易に変更され得る類似性基準を確立する大規模デ
ータベースに記憶される類似時間シーケンスを発見する
システム及び方法を提供することである。
【0007】本発明の別の目的は、幾つかのデータ特異
性及び不一致領域の存在の下で類似時間シーケンスを識
別する、類似時間シーケンスを発見するシステム及び方
法を提供することである。
性及び不一致領域の存在の下で類似時間シーケンスを識
別する、類似時間シーケンスを発見するシステム及び方
法を提供することである。
【0008】本発明の更に別の目的は、ある時間シーケ
ンスの振幅スケーリングが他の時間シーケンスの振幅ス
ケーリングと著しく異なるときに、これら2つの時間シ
ーケンスを類似であると識別する類似時間シーケンスを
発見するシステム及び方法を提供することである。
ンスの振幅スケーリングが他の時間シーケンスの振幅ス
ケーリングと著しく異なるときに、これら2つの時間シ
ーケンスを類似であると識別する類似時間シーケンスを
発見するシステム及び方法を提供することである。
【0009】本発明の更に別の目的は、使用が容易であ
り、コスト的に有効な類似時間シーケンスを発見するシ
ステム及び方法を提供することである。
り、コスト的に有効な類似時間シーケンスを発見するシ
ステム及び方法を提供することである。
【0010】
【課題を解決するための手段】本発明は、時間シーケン
スの大規模データベース内で類似時間シーケンスを発見
するプロシジャに関する。
スの大規模データベース内で類似時間シーケンスを発見
するプロシジャに関する。
【0011】本発明は、デジタル処理装置により実行可
能な命令プログラムを具現化するクリティカル・マシン
・コンポーネントにおいて実現される。マシン・コンポ
ーネントはデジタル処理装置に、大規模データベース内
に記憶される類似時間シーケンスを発見するための方法
ステップを実行させる。以降では、マシン・コンポーネ
ントは"コンピュータ・プログラム製品"として参照され
る。
能な命令プログラムを具現化するクリティカル・マシン
・コンポーネントにおいて実現される。マシン・コンポ
ーネントはデジタル処理装置に、大規模データベース内
に記憶される類似時間シーケンスを発見するための方法
ステップを実行させる。以降では、マシン・コンポーネ
ントは"コンピュータ・プログラム製品"として参照され
る。
【0012】本発明によれば、本方法ステップは、各々
が複数のデータ要素を有する第1及び第3のサブシーケ
ンス・ウィンドウを識別するステップを含み、各データ
要素は少なくとも時間と大きさ(magnitude)とにより
特徴付けられる。第1及び第3の各ウィンドウは、第1
の時間シーケンスのサブセットである。ここで第2及び
第4のサブシーケンス・ウィンドウが第2の時間シーケ
ンスのサブセットであり、第1のウィンドウのデータ要
素の大きさと第2のウィンドウのデータ要素の大きさと
の差が所定値以下であり、かつ第3のウィンドウのデー
タ要素の大きさと第4のウィンドウのデータ要素の大き
さとの差が所定値以下のとき、第1及び第3のウィンド
ウは、それぞれ第2及び第4のウィンドウと類似である
と識別される。
が複数のデータ要素を有する第1及び第3のサブシーケ
ンス・ウィンドウを識別するステップを含み、各データ
要素は少なくとも時間と大きさ(magnitude)とにより
特徴付けられる。第1及び第3の各ウィンドウは、第1
の時間シーケンスのサブセットである。ここで第2及び
第4のサブシーケンス・ウィンドウが第2の時間シーケ
ンスのサブセットであり、第1のウィンドウのデータ要
素の大きさと第2のウィンドウのデータ要素の大きさと
の差が所定値以下であり、かつ第3のウィンドウのデー
タ要素の大きさと第4のウィンドウのデータ要素の大き
さとの差が所定値以下のとき、第1及び第3のウィンド
ウは、それぞれ第2及び第4のウィンドウと類似である
と識別される。
【0013】更に、第1及び第3のウィンドウと第2及
び第4のウィンドウがそれぞれの時間ギャップにより分
離され、各ギャップが所定値未満のとき、本方法ステッ
プは第1及び第3のウィンドウを結合して第1の時間シ
ーケンスを表す第1のサブシーケンスを確立するするス
テップを含む。更に、本方法ステップは第2及び第4の
ウィンドウを結合して、データベース内の繰り返しパタ
ーンを識別する第2の時間シーケンスを表す第2のサブ
シーケンスを確立するステップを含む。好適には、本方
法ステップは更に、第1及び第3のウィンドウが時間的
に第1のオーバラップ距離により互いにオーバラップ
し、かつ第2及び第4のウィンドウも時間的にその第1
のオーバラップ距離により互いにオーバラップすると
き、第1及び第2のサブシーケンスを確立するステップ
を含む。
び第4のウィンドウがそれぞれの時間ギャップにより分
離され、各ギャップが所定値未満のとき、本方法ステッ
プは第1及び第3のウィンドウを結合して第1の時間シ
ーケンスを表す第1のサブシーケンスを確立するするス
テップを含む。更に、本方法ステップは第2及び第4の
ウィンドウを結合して、データベース内の繰り返しパタ
ーンを識別する第2の時間シーケンスを表す第2のサブ
シーケンスを確立するステップを含む。好適には、本方
法ステップは更に、第1及び第3のウィンドウが時間的
に第1のオーバラップ距離により互いにオーバラップ
し、かつ第2及び第4のウィンドウも時間的にその第1
のオーバラップ距離により互いにオーバラップすると
き、第1及び第2のサブシーケンスを確立するステップ
を含む。
【0014】本発明によれば、第3及び第4のウィンド
ウ内の最早(earliest)データ要素の時間が、それぞれ
第1及び第2のウィンドウ内の最早データ要素の時間よ
りも遅いときにのみ、第1及び第2のサブシーケンスが
確立される。好適な態様では、第1及び第2の時間シー
ケンスをそれぞれ表す第3及び第4のサブシーケンスも
確立され、第3及び第4のサブシーケンス内の各データ
要素の時間は、それぞれ第1及び第2のサブシーケンス
内の各データ要素の時間よりも遅い。
ウ内の最早(earliest)データ要素の時間が、それぞれ
第1及び第2のウィンドウ内の最早データ要素の時間よ
りも遅いときにのみ、第1及び第2のサブシーケンスが
確立される。好適な態様では、第1及び第2の時間シー
ケンスをそれぞれ表す第3及び第4のサブシーケンスも
確立され、第3及び第4のサブシーケンス内の各データ
要素の時間は、それぞれ第1及び第2のサブシーケンス
内の各データ要素の時間よりも遅い。
【0015】結果的に、第1及び第3のサブシーケンス
が、あるギャップにより分離され、第2及び第4のサブ
シーケンスが、あるギャップにより分離される。ギャッ
プが所定値を超えなければ第1及び第3のサブシーケン
スが結合され、第2及び第4のサブシーケンスが結合さ
れる。
が、あるギャップにより分離され、第2及び第4のサブ
シーケンスが、あるギャップにより分離される。ギャッ
プが所定値を超えなければ第1及び第3のサブシーケン
スが結合され、第2及び第4のサブシーケンスが結合さ
れる。
【0016】本発明によれば、各サブシーケンス及び第
1及び第2の時間シーケンスがそれぞれの長さにより特
徴付けられ、本方法ステップは更に、サブシーケンスの
長さの合計を時間シーケンスの少なくとも1つの長さと
比較して、比較値を生成する。比較値が所定値に等しい
とき、第1及び第2の時間シーケンスが類似であると識
別される。好適な1つの態様では、各ウィンドウがω個
のデータ要素を含み、各ウィンドウがω次元を有する階
層データ・ツリー内のデータ・ポイントとして表され
る。
1及び第2の時間シーケンスがそれぞれの長さにより特
徴付けられ、本方法ステップは更に、サブシーケンスの
長さの合計を時間シーケンスの少なくとも1つの長さと
比較して、比較値を生成する。比較値が所定値に等しい
とき、第1及び第2の時間シーケンスが類似であると識
別される。好適な1つの態様では、各ウィンドウがω個
のデータ要素を含み、各ウィンドウがω次元を有する階
層データ・ツリー内のデータ・ポイントとして表され
る。
【0017】本発明の別の態様では、デジタル処理装置
により読出し可能で、実際に(tangibly)コンピュータ
・プログラムを具現化するコンピュータ・プログラム製
品が開示される。コンピュータ・プログラム製品は、コ
ンピュータ読出し可能媒体を、時間シーケンスのデータ
ベース内の類似時間シーケンスを発見するプログラム・
コード要素と結び付ける。
により読出し可能で、実際に(tangibly)コンピュータ
・プログラムを具現化するコンピュータ・プログラム製
品が開示される。コンピュータ・プログラム製品は、コ
ンピュータ読出し可能媒体を、時間シーケンスのデータ
ベース内の類似時間シーケンスを発見するプログラム・
コード要素と結び付ける。
【0018】本発明では、コード要素がコンピュータ読
出し可能媒体上に記憶されるプログラム内で具現化され
る。これらのコード要素は、第1及び第3のサブシーケ
ンス・ウィンドウを識別するコンピュータ読出し可能コ
ード手段を含む。ここで開示される原理によれば、各ウ
ィンドウは所定数のデータ要素を有し、各ウィンドウは
第1の時間シーケンスのサブセットである。第1のウィ
ンドウの各データ要素と第2のウィンドウの対応するデ
ータ要素との差が所定値以下であり、かつ第3のウィン
ドウの各データ要素と第4のウィンドウの対応するデー
タ要素との差が所定値以下のとき、第1及び第3のウィ
ンドウは、第2の時間シーケンス内のそれぞれ第2及び
第4のサブシーケンス・ウィンドウと類似であると識別
される。
出し可能媒体上に記憶されるプログラム内で具現化され
る。これらのコード要素は、第1及び第3のサブシーケ
ンス・ウィンドウを識別するコンピュータ読出し可能コ
ード手段を含む。ここで開示される原理によれば、各ウ
ィンドウは所定数のデータ要素を有し、各ウィンドウは
第1の時間シーケンスのサブセットである。第1のウィ
ンドウの各データ要素と第2のウィンドウの対応するデ
ータ要素との差が所定値以下であり、かつ第3のウィン
ドウの各データ要素と第4のウィンドウの対応するデー
タ要素との差が所定値以下のとき、第1及び第3のウィ
ンドウは、第2の時間シーケンス内のそれぞれ第2及び
第4のサブシーケンス・ウィンドウと類似であると識別
される。
【0019】更に、本発明のコンピュータ・プログラム
製品は、第1及び第3のウィンドウを結合して第1の時
間シーケンスを表す第1のサブシーケンスを確立するコ
ンピュータ読出し可能コード手段を含む。コンピュータ
読出し可能コード手段はまた、第2及び第4のウィンド
ウを結合する。上述の結合は、第1及び第3のウィンド
ウと第2及び第4のウィンドウがそれぞれのギャップに
より分離され、各ギャップが所定値未満のときに達成さ
れる。コンピュータ・プログラム製品は次に、第1及び
第2の時間シーケンスが類似であるか否かを識別する。
製品は、第1及び第3のウィンドウを結合して第1の時
間シーケンスを表す第1のサブシーケンスを確立するコ
ンピュータ読出し可能コード手段を含む。コンピュータ
読出し可能コード手段はまた、第2及び第4のウィンド
ウを結合する。上述の結合は、第1及び第3のウィンド
ウと第2及び第4のウィンドウがそれぞれのギャップに
より分離され、各ギャップが所定値未満のときに達成さ
れる。コンピュータ・プログラム製品は次に、第1及び
第2の時間シーケンスが類似であるか否かを識別する。
【0020】更に別の態様では、データベース・マイニ
ング・システムが、そこに記憶される第1の時間シーケ
ンスに対応して、それに類似する第2の時間シーケンス
を発見する。本発明のシステムは、第1及び第2のシー
ケンスをそれぞれ表す第1及び第2のサブシーケンス・
ウィンドウのセットを生成するマッチ決定機構(match
determiner)を含む。少なくとも1つのウィンドウが、
それぞれの正規化値により特徴付けられる。
ング・システムが、そこに記憶される第1の時間シーケ
ンスに対応して、それに類似する第2の時間シーケンス
を発見する。本発明のシステムは、第1及び第2のシー
ケンスをそれぞれ表す第1及び第2のサブシーケンス・
ウィンドウのセットを生成するマッチ決定機構(match
determiner)を含む。少なくとも1つのウィンドウが、
それぞれの正規化値により特徴付けられる。
【0021】本発明により意図されるように、マッチ決
定機構は、第1のサブシーケンス・ウィンドウ・セット
内のテスト・ウィンドウの値と、第2のサブシーケンス
・ウィンドウ・セット内のテスト・ウィンドウの値との
差が所定値以下のとき、これらのテスト・ウィンドウを
マッチさせる。更にマッチ決定機構は、第1のサブシー
ケンス・ウィンドウ・セットからのテスト・ウィンドウ
と、第2のサブシーケンス・ウィンドウ・セットからの
テスト・ウィンドウとを、1対のマッチ・ウィンドウと
して指定する。
定機構は、第1のサブシーケンス・ウィンドウ・セット
内のテスト・ウィンドウの値と、第2のサブシーケンス
・ウィンドウ・セット内のテスト・ウィンドウの値との
差が所定値以下のとき、これらのテスト・ウィンドウを
マッチさせる。更にマッチ決定機構は、第1のサブシー
ケンス・ウィンドウ・セットからのテスト・ウィンドウ
と、第2のサブシーケンス・ウィンドウ・セットからの
テスト・ウィンドウとを、1対のマッチ・ウィンドウと
して指定する。
【0022】更に本発明のシステムは、少なくとも2対
のマッチ・ウィンドウを結合して第1のサブシーケンス
を確立し、少なくとも2対のマッチ・ウィンドウを結合
して第2のサブシーケンスを確立する、ウィンドウ・ス
ティッチャ(stitcher)を含む。結合は、(1)第1の
サブシーケンス内の2つのウィンドウがオーバラップせ
ずに、あるギャップにより分離され、かつ第2のサブシ
ーケンス内の2つのウィンドウがオーバラップせずに、
あるギャップにより分離され、かつこれらの各ギャップ
が所定値未満であるとき、或いは(2)第1のサブシー
ケンス内の2つのウィンドウが互いにオーバラップする
量が、第2のサブシーケンス内の2つの対応するウィン
ドウが互いにオーバラップする量と同じとき、実行され
る。
のマッチ・ウィンドウを結合して第1のサブシーケンス
を確立し、少なくとも2対のマッチ・ウィンドウを結合
して第2のサブシーケンスを確立する、ウィンドウ・ス
ティッチャ(stitcher)を含む。結合は、(1)第1の
サブシーケンス内の2つのウィンドウがオーバラップせ
ずに、あるギャップにより分離され、かつ第2のサブシ
ーケンス内の2つのウィンドウがオーバラップせずに、
あるギャップにより分離され、かつこれらの各ギャップ
が所定値未満であるとき、或いは(2)第1のサブシー
ケンス内の2つのウィンドウが互いにオーバラップする
量が、第2のサブシーケンス内の2つの対応するウィン
ドウが互いにオーバラップする量と同じとき、実行され
る。
【0023】更に別の態様では、第1及び第2の時間シ
ーケンス間の類似性を発見するコンピュータ・ベースの
システムが開示される。本発明によれば、各時間シーケ
ンスがそれぞれ第1及び第2のサブシーケンス・ウィン
ドウのセットを有し、各ウィンドウがω個のデータ・ポ
イントを含む。各データ・ポイントは、少なくとも時間
及び大きさにより特徴付けられる。
ーケンス間の類似性を発見するコンピュータ・ベースの
システムが開示される。本発明によれば、各時間シーケ
ンスがそれぞれ第1及び第2のサブシーケンス・ウィン
ドウのセットを有し、各ウィンドウがω個のデータ・ポ
イントを含む。各データ・ポイントは、少なくとも時間
及び大きさにより特徴付けられる。
【0024】本発明によればシステムが階層データベー
スを含み、これはコンピュータによりアクセスされて、
ウィンドウをω次元空間内の対応するポイントとして電
子的に記憶する。また本システムは、1つ以上の第2の
ウィンドウがω次元空間において、対応する1つ以上の
第1のウィンドウから所定距離以内に存在するとき、第
2のウィンドウが第1のウィンドウに類似であると識別
する手段を含む。それにより1対の類似ウィンドウが確
立される。その他に、本システムは、ウィンドウが第1
及び第2の時間シーケンス内の類似性を識別する1つ以
上の所定のスティッチング基準を満足するとき、第1及
び第2のウィンドウ対を一緒にスティッチする手段を含
む。
スを含み、これはコンピュータによりアクセスされて、
ウィンドウをω次元空間内の対応するポイントとして電
子的に記憶する。また本システムは、1つ以上の第2の
ウィンドウがω次元空間において、対応する1つ以上の
第1のウィンドウから所定距離以内に存在するとき、第
2のウィンドウが第1のウィンドウに類似であると識別
する手段を含む。それにより1対の類似ウィンドウが確
立される。その他に、本システムは、ウィンドウが第1
及び第2の時間シーケンス内の類似性を識別する1つ以
上の所定のスティッチング基準を満足するとき、第1及
び第2のウィンドウ対を一緒にスティッチする手段を含
む。
【0025】便宜上、上述の開示は1シーケンスにつき
2つのウィンドウだけのマッチング及びスティッチング
について述べたが、本発明は1シーケンスにつき"n"
(n≧2)ウィンドウのマッチング及びスティッチング
を考慮するものである。
2つのウィンドウだけのマッチング及びスティッチング
について述べたが、本発明は1シーケンスにつき"n"
(n≧2)ウィンドウのマッチング及びスティッチング
を考慮するものである。
【0026】
【数1】 は以降ハットXと記載する。
【0027】図1を参照すると、類似時間シーケンスを
発見するために、データベースをマイニングするコンピ
ュータ・システム10が示される。図示の特定のアーキ
テクチャでは、システム10はクライアント・コンピュ
ータ12及びサーバ・コンピュータ14などの1つ以上
のデジタル処理装置を含む。1つの態様では、サーバ・
コンピュータ14はIBMより提供されるメインフレー
ム・コンピュータであり、MVSなどの商標の下で販売
されるオペレーティング・システムを使用する。或い
は、サーバ・コンピュータ14はUNIXコンピュー
タ、OS/2サーバ、ウィンドウズNTサーバ、または
AIX3.2.5を実行する128MBの主メモリを有
するIBM RS/6000 250ワークステーショ
ンであってもよい。サーバ・コンピュータ14は、DB
2またはORACLEなどのデータベース・システムを
所有したり、2GB SCSI3.5インチ・ドライブ
などのディスクまたはテープなどの特定のデータ記憶媒
体上に、ファイルとしてデータを有したりする。図示の
アーキテクチャ以外のアーキテクチャも使用され得るこ
とは理解されよう。例えばクライアント・コンピュータ
12の機能がサーバ・コンピュータ14内に組み込まれ
たり、或いはその逆であってもよい。
発見するために、データベースをマイニングするコンピ
ュータ・システム10が示される。図示の特定のアーキ
テクチャでは、システム10はクライアント・コンピュ
ータ12及びサーバ・コンピュータ14などの1つ以上
のデジタル処理装置を含む。1つの態様では、サーバ・
コンピュータ14はIBMより提供されるメインフレー
ム・コンピュータであり、MVSなどの商標の下で販売
されるオペレーティング・システムを使用する。或い
は、サーバ・コンピュータ14はUNIXコンピュー
タ、OS/2サーバ、ウィンドウズNTサーバ、または
AIX3.2.5を実行する128MBの主メモリを有
するIBM RS/6000 250ワークステーショ
ンであってもよい。サーバ・コンピュータ14は、DB
2またはORACLEなどのデータベース・システムを
所有したり、2GB SCSI3.5インチ・ドライブ
などのディスクまたはテープなどの特定のデータ記憶媒
体上に、ファイルとしてデータを有したりする。図示の
アーキテクチャ以外のアーキテクチャも使用され得るこ
とは理解されよう。例えばクライアント・コンピュータ
12の機能がサーバ・コンピュータ14内に組み込まれ
たり、或いはその逆であってもよい。
【0028】図示のように、サーバ・コンピュータ14
のオペレーティング・システムは類似時間シーケンス識
別子カーネル16を含み、これはサーバ・コンピュータ
14内のプロセッサにより一連のコンピュータ実行可能
命令として実行され得る。これらの命令は、例えばサー
バ・コンピュータ14のRAM内に存在する。
のオペレーティング・システムは類似時間シーケンス識
別子カーネル16を含み、これはサーバ・コンピュータ
14内のプロセッサにより一連のコンピュータ実行可能
命令として実行され得る。これらの命令は、例えばサー
バ・コンピュータ14のRAM内に存在する。
【0029】代わりに、命令が図2に示されるコンピュ
ータ・ディスケット15などのコンピュータ読出し可能
媒体を有するデータ記憶装置上に含まれてもよい。或い
は、命令がDASDアレイ、磁気テープ、通常のハード
ディスク・ドライブ、電子的読出し専用メモリ、光記憶
装置、または他の適切なデータ記憶装置上に記憶されて
もよい。本発明の図示の態様では、コンピュータ実行可
能命令はコンパイル済みC++言語コードのラインであっ
たりする。
ータ・ディスケット15などのコンピュータ読出し可能
媒体を有するデータ記憶装置上に含まれてもよい。或い
は、命令がDASDアレイ、磁気テープ、通常のハード
ディスク・ドライブ、電子的読出し専用メモリ、光記憶
装置、または他の適切なデータ記憶装置上に記憶されて
もよい。本発明の図示の態様では、コンピュータ実行可
能命令はコンパイル済みC++言語コードのラインであっ
たりする。
【0030】図3、図5、図7及び図9は、コンピュー
タ・プログラム内に具現化されるこうした命令の構造を
示す。当業者には、図3、図5、図7及び図9が、本発
明に従い機能するコンピュータ・プログラム・コード要
素の構造を示すことが理解されよう。明らかなように、
本発明はその本質的態様においてマシン・コンポーネン
トにより実現され、これはデジタル処理装置(すなわち
コンピュータ)に対してこれらの図に示される機能ステ
ップのシーケンスを実行するように命令する形式で、コ
ンピュータ・プログラム・コード要素を表現する。マシ
ン・コンポーネントが、コンピュータ読出し可能形式の
プログラム・コード要素A乃至Eの組み合わせとして図
2に示され、これらはコンピュータ・ディスケット上の
コンピュータ使用可能データ媒体17内に具現化され
る。しかしながら上述のように、こうした媒体は半導体
素子、磁気テープ、及び光ディスク上においても見い出
され得る。
タ・プログラム内に具現化されるこうした命令の構造を
示す。当業者には、図3、図5、図7及び図9が、本発
明に従い機能するコンピュータ・プログラム・コード要
素の構造を示すことが理解されよう。明らかなように、
本発明はその本質的態様においてマシン・コンポーネン
トにより実現され、これはデジタル処理装置(すなわち
コンピュータ)に対してこれらの図に示される機能ステ
ップのシーケンスを実行するように命令する形式で、コ
ンピュータ・プログラム・コード要素を表現する。マシ
ン・コンポーネントが、コンピュータ読出し可能形式の
プログラム・コード要素A乃至Eの組み合わせとして図
2に示され、これらはコンピュータ・ディスケット上の
コンピュータ使用可能データ媒体17内に具現化され
る。しかしながら上述のように、こうした媒体は半導体
素子、磁気テープ、及び光ディスク上においても見い出
され得る。
【0031】コード要素A乃至Eの各々は、デジタル処
理装置に本方法の特定部分を容易にするように指令す
る。たとえいずれの単一のコード要素A乃至Eも完全な
方法を含まなくても、2つ以上のコード要素が一緒にな
って本発明の実現を容易にするために必要な全てのプロ
グラム手段を含み得る。
理装置に本方法の特定部分を容易にするように指令す
る。たとえいずれの単一のコード要素A乃至Eも完全な
方法を含まなくても、2つ以上のコード要素が一緒にな
って本発明の実現を容易にするために必要な全てのプロ
グラム手段を含み得る。
【0032】図1は、識別子カーネル16が適切なデー
タ・アクセス・プログラム及びユーティリティ18を通
じて、データ・クロニクリング(chronicling)時間シ
ーケンスを含む1つ以上のデータベース20及び(また
は)フラット・ファイル(すなわちテキスト・ファイ
ル)22をアクセスする様子を示す。後述のステップを
実行の後、発見カーネルが、自身が発見した類似時間シ
ーケンスをクライアント・コンピュータ12によりアク
セスされ得る結果レポジトリ24に出力する。
タ・アクセス・プログラム及びユーティリティ18を通
じて、データ・クロニクリング(chronicling)時間シ
ーケンスを含む1つ以上のデータベース20及び(また
は)フラット・ファイル(すなわちテキスト・ファイ
ル)22をアクセスする様子を示す。後述のステップを
実行の後、発見カーネルが、自身が発見した類似時間シ
ーケンスをクライアント・コンピュータ12によりアク
セスされ得る結果レポジトリ24に出力する。
【0033】更に図1は、クライアント・コンピュータ
12が識別子カーネル・インタフェース26含むことを
示す。これは識別子カーネル16と同様、適切なコンピ
ュータ・コードにより実現され得る。とりわけインタフ
ェース26は、特定の変数を確立する入力機構として機
能する。こうした変数には、後述されるウィンドウ間の
最大距離ε、及び他の所定のまたはユーザ定義による入
力パラメータが含まれる。更に、クライアント・コンピ
ュータ12は、好適には結果をグラフィック表示装置3
0、印刷機構32またはデータ記憶媒体34に出力また
は表示するための出力モジュール28を含む。
12が識別子カーネル・インタフェース26含むことを
示す。これは識別子カーネル16と同様、適切なコンピ
ュータ・コードにより実現され得る。とりわけインタフ
ェース26は、特定の変数を確立する入力機構として機
能する。こうした変数には、後述されるウィンドウ間の
最大距離ε、及び他の所定のまたはユーザ定義による入
力パラメータが含まれる。更に、クライアント・コンピ
ュータ12は、好適には結果をグラフィック表示装置3
0、印刷機構32またはデータ記憶媒体34に出力また
は表示するための出力モジュール28を含む。
【0034】図3は、データベース20に記憶される第
1の時間シーケンスSと、同様にデータベース20に記
憶される第2の時間シーケンスTとの間の類似性を決定
する本発明の全体的方法を示す。図4は2つのこうした
時間シーケンスを図式的に示しており、図示の態様では
2つの株式の価格の時間グラフに相当する。シーケンス
S及びシーケンスTが、例えば地震活動や会社の売上成
長などの他のパラメータの時間シーケンスを表すことが
でき、そして実際上、あらゆる時間依存パターンを表す
ことが可能であることが理解されよう。
1の時間シーケンスSと、同様にデータベース20に記
憶される第2の時間シーケンスTとの間の類似性を決定
する本発明の全体的方法を示す。図4は2つのこうした
時間シーケンスを図式的に示しており、図示の態様では
2つの株式の価格の時間グラフに相当する。シーケンス
S及びシーケンスTが、例えば地震活動や会社の売上成
長などの他のパラメータの時間シーケンスを表すことが
でき、そして実際上、あらゆる時間依存パターンを表す
ことが可能であることが理解されよう。
【0035】また本発明が、ギャップ(図4にGで示さ
れる)が存在する状況においても、2つの時間シーケン
スS及びT間の類似性を識別できることが理解されよ
う。実際上、"ギャップ"Gは時間シーケンスS内のサブ
シーケンスであり、これは時間シーケンスT内の対応す
るサブシーケンスとは異類である("異類(dissimila
r)"については以降でユーザ定義基準を用いて定義され
る)。更に、システム10は、類似性が時間的に共存し
ない場合でも時間シーケンスSとTとの間の類似性を識
別できる。更にシステム10は、2つの時間シーケンス
S及びTが顕著に異なる平均値を有する(すなわち、S
が50ドル近辺の株取り引きを示し、Tが10ドル近辺
の株取り引きを示す)としても、時間シーケンスSとT
との間の類似性を識別できる。
れる)が存在する状況においても、2つの時間シーケン
スS及びT間の類似性を識別できることが理解されよ
う。実際上、"ギャップ"Gは時間シーケンスS内のサブ
シーケンスであり、これは時間シーケンスT内の対応す
るサブシーケンスとは異類である("異類(dissimila
r)"については以降でユーザ定義基準を用いて定義され
る)。更に、システム10は、類似性が時間的に共存し
ない場合でも時間シーケンスSとTとの間の類似性を識
別できる。更にシステム10は、2つの時間シーケンス
S及びTが顕著に異なる平均値を有する(すなわち、S
が50ドル近辺の株取り引きを示し、Tが10ドル近辺
の株取り引きを示す)としても、時間シーケンスSとT
との間の類似性を識別できる。
【0036】図3のブロック36から始まり、システム
10の識別子カーネル16が時間シーケンスT内の対応
するウィンドウにマッチする、時間シーケンスS内の全
てのウィンドウを見い出す。これについては以降で詳細
に開示される。従って、ブロック36は本質的に、第1
及び第2の時間シーケンスS及びTをそれぞれ表す第1
及び第2のウィンドウ・セットを生成するマッチ決定機
構である。更に、ブロック36により確立されるマッチ
決定機構は、後述のユーザ定義マッチ基準の発生に際し
て、第1の時間シーケンスS内のウィンドウを第2の時
間シーケンスT内のウィンドウとマッチさせる。
10の識別子カーネル16が時間シーケンスT内の対応
するウィンドウにマッチする、時間シーケンスS内の全
てのウィンドウを見い出す。これについては以降で詳細
に開示される。従って、ブロック36は本質的に、第1
及び第2の時間シーケンスS及びTをそれぞれ表す第1
及び第2のウィンドウ・セットを生成するマッチ決定機
構である。更に、ブロック36により確立されるマッチ
決定機構は、後述のユーザ定義マッチ基準の発生に際し
て、第1の時間シーケンスS内のウィンドウを第2の時
間シーケンスT内のウィンドウとマッチさせる。
【0037】本発明によれば、また図4に図式的に示さ
れるように、第1の時間シーケンスSの"ウィンドウ"
(WS)は、それが第2の時間シーケンスTの対応する
ウィンドウWTにマッチするとき、本質的にギャップの
無いアトミック・サブシーケンスである。本発明により
意図されるように、各ウィンドウWS及びWTは、時間的
に順次順序付けされるユーザ定義数ωのデータ要素DE
を含む。ここでω≧3であり、好適には5≦ω≦20で
ある。図4に示される例ではω=3である。各データ要
素DEは従って、少なくとも時間及び大きさにより特徴
付けられ、図4に示される例では、各データ要素DEの
大きさは対応する株式の価格を表し、各データ要素DE
の時間は日に対応する。
れるように、第1の時間シーケンスSの"ウィンドウ"
(WS)は、それが第2の時間シーケンスTの対応する
ウィンドウWTにマッチするとき、本質的にギャップの
無いアトミック・サブシーケンスである。本発明により
意図されるように、各ウィンドウWS及びWTは、時間的
に順次順序付けされるユーザ定義数ωのデータ要素DE
を含む。ここでω≧3であり、好適には5≦ω≦20で
ある。図4に示される例ではω=3である。各データ要
素DEは従って、少なくとも時間及び大きさにより特徴
付けられ、図4に示される例では、各データ要素DEの
大きさは対応する株式の価格を表し、各データ要素DE
の時間は日に対応する。
【0038】次にブロック38で、システム10の識別
子カーネル16が後述のユーザ定義スティッチング基準
の発生に際して、2対以上のマッチング・ウィンドウを
結合し、1対のサブシーケンスを生成する。従ってブロ
ック38は、所定のスティッチング基準に合致するとき
第1の時間シーケンスS内の少なくとも2つのウィンド
ウを結合し、第2の時間シーケンスT内の対応するウィ
ンドウを結合するウィンドウ・スティッチャを確立す
る。ところでここでの議論は、時間シーケンスS、Tに
つき2つのウィンドウをマッチ及びスティッチすること
に焦点をおくが、本発明は時間シーケンスSにつき任意
の数"n"(n≧2)のウィンドウが、時間シーケンスT
内の"n"個の対応するウィンドウにマッチすることを考
慮するものである。
子カーネル16が後述のユーザ定義スティッチング基準
の発生に際して、2対以上のマッチング・ウィンドウを
結合し、1対のサブシーケンスを生成する。従ってブロ
ック38は、所定のスティッチング基準に合致するとき
第1の時間シーケンスS内の少なくとも2つのウィンド
ウを結合し、第2の時間シーケンスT内の対応するウィ
ンドウを結合するウィンドウ・スティッチャを確立す
る。ところでここでの議論は、時間シーケンスS、Tに
つき2つのウィンドウをマッチ及びスティッチすること
に焦点をおくが、本発明は時間シーケンスSにつき任意
の数"n"(n≧2)のウィンドウが、時間シーケンスT
内の"n"個の対応するウィンドウにマッチすることを考
慮するものである。
【0039】次にブロック40で、時間シーケンスS及
びTに対して最長のマッチング長が決定されるように、
2対以上のサブシーケンスがスティッチされる。マッチ
ング長とシーケンスS及びTの少なくとも一方の全長と
の比率にもとづき、システム10の識別子カーネル16
が、第1の時間シーケンスSが第2の時間シーケンスT
に類似するか否かを決定する。従ってブロック40は、
第1の時間シーケンスS内の1つ以上のサブシーケンス
が第2の時間シーケンスT内の対応するサブシーケンス
に類似するか否かを識別するための類似性識別子を確立
し、次にシーケンスS及びTがユーザ定義類似性基準に
従い類似するか否かを識別する。
びTに対して最長のマッチング長が決定されるように、
2対以上のサブシーケンスがスティッチされる。マッチ
ング長とシーケンスS及びTの少なくとも一方の全長と
の比率にもとづき、システム10の識別子カーネル16
が、第1の時間シーケンスSが第2の時間シーケンスT
に類似するか否かを決定する。従ってブロック40は、
第1の時間シーケンスS内の1つ以上のサブシーケンス
が第2の時間シーケンスT内の対応するサブシーケンス
に類似するか否かを識別するための類似性識別子を確立
し、次にシーケンスS及びTがユーザ定義類似性基準に
従い類似するか否かを識別する。
【0040】図5を参照すると時間シーケンスS及びT
内の類似ウィンドウ対を識別する方法が示される。類似
ウィンドウ対を識別する1つのアプローチは、単にある
ウィンドウを他の全てのウィンドウと比較することであ
るが、本発明により認識されるようにこうしたアプロー
チは相当に長い計算時間を消費する。図5は、長い計算
時間を消費すること無しに類似ウィンドウ対を識別す
る、本発明の好適なアプローチを示す。
内の類似ウィンドウ対を識別する方法が示される。類似
ウィンドウ対を識別する1つのアプローチは、単にある
ウィンドウを他の全てのウィンドウと比較することであ
るが、本発明により認識されるようにこうしたアプロー
チは相当に長い計算時間を消費する。図5は、長い計算
時間を消費すること無しに類似ウィンドウ対を識別す
る、本発明の好適なアプローチを示す。
【0041】ブロック41で、システム10の識別子カ
ーネル16は、ウィンドウ内の各データ・ポイントの大
きさを−1と1との間の値に正規化することにより、各
ウィンドウを正規化する。ウィンドウを正規化するため
に、システム10の識別子カーネル16はウィンドウの
各データ・ポイントに対して次の変換を実行する。
ーネル16は、ウィンドウ内の各データ・ポイントの大
きさを−1と1との間の値に正規化することにより、各
ウィンドウを正規化する。ウィンドウを正規化するため
に、システム10の識別子カーネル16はウィンドウの
各データ・ポイントに対して次の変換を実行する。
【数2】 ハットW[i]=(W[i]-(Wmin+Wmax)/2)/(Wmax-Wmin)/2
【0042】ここでW[i]は変換されるデータ・ポイン
トの大きさであり、ハットW[i]は正規化データ・ポイ
ントの大きさであり、Wmin及びWmaxはそれぞれウィン
ドウ内の最小及び最大の大きさである。
トの大きさであり、ハットW[i]は正規化データ・ポイ
ントの大きさであり、Wmin及びWmaxはそれぞれウィン
ドウ内の最小及び最大の大きさである。
【0043】以降でより詳しく述べられるように、本発
明の原理の下では、2つのウィンドウであるハットW
1[i]及びハットW2[i]は、全てのiに対してハットW
1[i]−ハットW2[i]≦εのときにのみ類似である。ここ
でεはユーザ定義による所定値である。
明の原理の下では、2つのウィンドウであるハットW
1[i]及びハットW2[i]は、全てのiに対してハットW
1[i]−ハットW2[i]≦εのときにのみ類似である。ここ
でεはユーザ定義による所定値である。
【0044】ここで各ウィンドウ内に含まれるデータ・
ポイントの数はユーザ定義による所定の整数であり、こ
こではギリシャ文字ωにより示されることを想起された
い。このことを踏まえ、図5のブロック42では各正規
化ウィンドウがω次元空間内の単一のポイントとして見
なされる。ウィンドウの座標は正規化データ要素により
定義され、ウィンドウは階層データ・ツリー構造内に挿
入される。ω=2の場合のこうした構造の例が図6に示
される。上述の原理によれば、図6に示されるデータ・
ツリー構造は、図1に示される一方または両方のコンピ
ュータ12、14によりアクセスされ得る。
ポイントの数はユーザ定義による所定の整数であり、こ
こではギリシャ文字ωにより示されることを想起された
い。このことを踏まえ、図5のブロック42では各正規
化ウィンドウがω次元空間内の単一のポイントとして見
なされる。ウィンドウの座標は正規化データ要素により
定義され、ウィンドウは階層データ・ツリー構造内に挿
入される。ω=2の場合のこうした構造の例が図6に示
される。上述の原理によれば、図6に示されるデータ・
ツリー構造は、図1に示される一方または両方のコンピ
ュータ12、14によりアクセスされ得る。
【0045】好適な態様では、データ・ツリー構造は、
Sellisらによる"The R+-Tree: A Dynamic Index for Mu
ltidimensional Objects"、Proc. 13th Int'l Conf. on
VLDB、pp.507-518、England、1987で開示されるいわゆ
るR+ツリー構造であり、本明細書ではこの変形が開示
される。Sellisらにより開示されるように、R+ツリー
は、データが構造内に挿入されるとき、新たなデータ・
ノードを成長させるデータ構造である。データ値に依存
して、構造が成長するときにノードを分割及び(また
は)再構成することにより挿入されるデータをサポート
する。
Sellisらによる"The R+-Tree: A Dynamic Index for Mu
ltidimensional Objects"、Proc. 13th Int'l Conf. on
VLDB、pp.507-518、England、1987で開示されるいわゆ
るR+ツリー構造であり、本明細書ではこの変形が開示
される。Sellisらにより開示されるように、R+ツリー
は、データが構造内に挿入されるとき、新たなデータ・
ノードを成長させるデータ構造である。データ値に依存
して、構造が成長するときにノードを分割及び(また
は)再構成することにより挿入されるデータをサポート
する。
【0046】図6に示されるように、またSellisらによ
り開示されるように、R+ツリーは階層データ・ツリー
構造である。より詳細には図6を例に取り上げると、R
+ツリーは、親ノード46に従属する複数のリーフ・ノ
ード(leaf node)を含む(第1及び第2のリーフ・ノ
ード43及び44が示される)。同様に、追加のリーフ
・ノード48及び50は親ノード52に従属し、更に両
方の親ノード46及び52はルート・ノード54に従属
する。図6では4つのリーフ・ノード43、44及び4
8、50並びに3つの階層レベルだけしか示されていな
いが、本発明のデータ・ツリーは、より多くのリーフ・
ノード及びレベルを含み得ることが理解されよう。
り開示されるように、R+ツリーは階層データ・ツリー
構造である。より詳細には図6を例に取り上げると、R
+ツリーは、親ノード46に従属する複数のリーフ・ノ
ード(leaf node)を含む(第1及び第2のリーフ・ノ
ード43及び44が示される)。同様に、追加のリーフ
・ノード48及び50は親ノード52に従属し、更に両
方の親ノード46及び52はルート・ノード54に従属
する。図6では4つのリーフ・ノード43、44及び4
8、50並びに3つの階層レベルだけしか示されていな
いが、本発明のデータ・ツリーは、より多くのリーフ・
ノード及びレベルを含み得ることが理解されよう。
【0047】第1のリーフ・ノード43を例として取り
上げると、複数のデータ・ポイントDPが第1のリーフ
・ノード43に入力される。各データ・ポイントDPは
ウィンドウを表し、特定のリーフ・ノード、例えば第1
のリーフ・ノード43のデータ・ポイントDPは、比較
的一緒に接近している。
上げると、複数のデータ・ポイントDPが第1のリーフ
・ノード43に入力される。各データ・ポイントDPは
ウィンドウを表し、特定のリーフ・ノード、例えば第1
のリーフ・ノード43のデータ・ポイントDPは、比較
的一緒に接近している。
【0048】従って、例えば第1のリーフ・ノード43
は第1のデータ・ポイントDP1を含み、これは図6で
は、その高い値−0.9及び低い値−1を示す矩形とし
て図式的に表される。図示の例では、第1のリーフ・ノ
ード43は最後のデータ・ポイントDPLを含み、これ
は高い値−0.8及び低い値−0.9を示す矩形として
図式的に表される。
は第1のデータ・ポイントDP1を含み、これは図6で
は、その高い値−0.9及び低い値−1を示す矩形とし
て図式的に表される。図示の例では、第1のリーフ・ノ
ード43は最後のデータ・ポイントDPLを含み、これ
は高い値−0.8及び低い値−0.9を示す矩形として
図式的に表される。
【0049】R+ツリー・データ構造の原理によれば、
第1のリーフ・ノード43内の第1のデータ・ポイント
DP1と最後のデータ・ポイントDPLとの間のデータ・
ポイントが、最後のデータ・ポイントDPLの最高値
(−0.8)と、第1のデータ・ポイントDP1の最低
値(−1)の間の範囲に入るように、データ・ポイント
DPがそれらのそれぞれのリーフ・ノード内でグループ
化される。従って、第1のウィンドウ43は、ウィンド
ウ43内に含まれる最高及び最低のデータ・ポイント値
を示すマーカM1を含む。
第1のリーフ・ノード43内の第1のデータ・ポイント
DP1と最後のデータ・ポイントDPLとの間のデータ・
ポイントが、最後のデータ・ポイントDPLの最高値
(−0.8)と、第1のデータ・ポイントDP1の最低
値(−1)の間の範囲に入るように、データ・ポイント
DPがそれらのそれぞれのリーフ・ノード内でグループ
化される。従って、第1のウィンドウ43は、ウィンド
ウ43内に含まれる最高及び最低のデータ・ポイント値
を示すマーカM1を含む。
【0050】同様に、第2のウィンドウ44はウィンド
ウ44に含まれる最高及び最低データ・ポイント値を示
すマーカM2を含み、これらは図示の例ではそれぞれ−
0.2と−0.8に相当する。当業者には認識されるよ
うに、R+ツリーのリーフ・ノードは、あるリーフ・ノ
ードのデータ・ポイントの値が他のリーフ・ノード内の
あらゆるデータ・ポイントの値とオーバラップしないと
言う点で、オーバラップしない。実際、リーフ・ノード
の境界は接する必要はないが、代わりに、ノード内に含
まれるデータ・ポイントを包含するために必要な最小限
に制限される。また、パス内のデータ・ポイントの範囲
を示すために、図6に示されるように親ノード46はそ
れに従属するリーフ・ノードに含まれる最高及び最低値
(この場合には−0.2と−1)を示すマーカを含む。
ウ44に含まれる最高及び最低データ・ポイント値を示
すマーカM2を含み、これらは図示の例ではそれぞれ−
0.2と−0.8に相当する。当業者には認識されるよ
うに、R+ツリーのリーフ・ノードは、あるリーフ・ノ
ードのデータ・ポイントの値が他のリーフ・ノード内の
あらゆるデータ・ポイントの値とオーバラップしないと
言う点で、オーバラップしない。実際、リーフ・ノード
の境界は接する必要はないが、代わりに、ノード内に含
まれるデータ・ポイントを包含するために必要な最小限
に制限される。また、パス内のデータ・ポイントの範囲
を示すために、図6に示されるように親ノード46はそ
れに従属するリーフ・ノードに含まれる最高及び最低値
(この場合には−0.2と−1)を示すマーカを含む。
【0051】前記開示を鑑み、当業者には本発明のR+
ツリーがいわゆる"死空間(dead space)"、すなわち実
際のデータ・ポイント間の潜在的に大きな領域を記憶し
ないことが理解されよう。更に、R+ツリーはより高い
次元数に割合に柔軟に対応できる(ωが20までの範囲
を取り得て、実際にこれを越え得ることを想起された
い)。
ツリーがいわゆる"死空間(dead space)"、すなわち実
際のデータ・ポイント間の潜在的に大きな領域を記憶し
ないことが理解されよう。更に、R+ツリーはより高い
次元数に割合に柔軟に対応できる(ωが20までの範囲
を取り得て、実際にこれを越え得ることを想起された
い)。
【0052】しかしながら本発明により認識されるよう
に、Sellisらにより開示されるデータ構造における1つ
の問題は、構造のノード内で不均一なデータ・ポイント
の分布が発生し得ることであり、これにより内部リーフ
・ノードが低い充填状況となり、好ましくないツリーの
速い成長につながる。本発明は、成長の間のツリー内の
下方分割により低い充填状況のリーフ・ノードが生じる
とき、そのノードをツリーから解放することによりこの
問題を解決する。本発明の目的上、リーフ・ノードは4
0%以下の充填度のとき、低充填状況と見なされる。解
放されるノードのデータ・ポイントは、解放されるノー
ドの直接の親であったノードにおいて再度ツリーに挿入
される。同様に、隣接ノードをオーバラップさせるデー
タ・ポイントが挿入されるときこのデータ・ポイントは
記憶されて、続くノードの分割及びツリー再構成が、そ
のデータ・ポイントの既存のノードへのスムーズな挿入
を許容するときツリーに再挿入される。
に、Sellisらにより開示されるデータ構造における1つ
の問題は、構造のノード内で不均一なデータ・ポイント
の分布が発生し得ることであり、これにより内部リーフ
・ノードが低い充填状況となり、好ましくないツリーの
速い成長につながる。本発明は、成長の間のツリー内の
下方分割により低い充填状況のリーフ・ノードが生じる
とき、そのノードをツリーから解放することによりこの
問題を解決する。本発明の目的上、リーフ・ノードは4
0%以下の充填度のとき、低充填状況と見なされる。解
放されるノードのデータ・ポイントは、解放されるノー
ドの直接の親であったノードにおいて再度ツリーに挿入
される。同様に、隣接ノードをオーバラップさせるデー
タ・ポイントが挿入されるときこのデータ・ポイントは
記憶されて、続くノードの分割及びツリー再構成が、そ
のデータ・ポイントの既存のノードへのスムーズな挿入
を許容するときツリーに再挿入される。
【0053】全てのウィンドウが図6に示されるデータ
・ツリーに挿入された後、所与のウィンドウに対して、
それから距離ε以内にある他のデータ・ポイント(他の
ウィンドウを表す)を確認することにより類似のウィン
ドウが識別される。再度図5を参照して、システム10
の識別子カーネル16はブロック56に移行してデータ
・ツリーのノードの1つを選択することによりこれを達
成し、次に判断ブロック58に移行してテスト中のノー
ドが非リーフ・ノードであるか否かを判断する。非リー
フ・ノードの場合には、システム10の識別子カーネル
16はブロック60に移行し、リーフ・ノードに達する
までテスト中のノードの子孫(descendant)に対して図
5に示されるプロセスを再帰的に呼び出す。
・ツリーに挿入された後、所与のウィンドウに対して、
それから距離ε以内にある他のデータ・ポイント(他の
ウィンドウを表す)を確認することにより類似のウィン
ドウが識別される。再度図5を参照して、システム10
の識別子カーネル16はブロック56に移行してデータ
・ツリーのノードの1つを選択することによりこれを達
成し、次に判断ブロック58に移行してテスト中のノー
ドが非リーフ・ノードであるか否かを判断する。非リー
フ・ノードの場合には、システム10の識別子カーネル
16はブロック60に移行し、リーフ・ノードに達する
までテスト中のノードの子孫(descendant)に対して図
5に示されるプロセスを再帰的に呼び出す。
【0054】一方、システム10の識別子カーネル16
が判断ブロック58でテスト中のノードがリーフ・ノー
ドであると判断すると、識別子カーネル16はブロック
62とブロック64とに並列に移行し、ブロック62で
はこのノードが自身と結合され、ブロック64ではこの
ノードが距離ε以内のあらゆる他のノードと結合され
る。図6では第2のリーフ・ノード44の一部が第1の
リーフ・ノード43から距離ε以内に存在するので、ブ
ロック64で第1のリーフ・ノード43と結合される。
が判断ブロック58でテスト中のノードがリーフ・ノー
ドであると判断すると、識別子カーネル16はブロック
62とブロック64とに並列に移行し、ブロック62で
はこのノードが自身と結合され、ブロック64ではこの
ノードが距離ε以内のあらゆる他のノードと結合され
る。図6では第2のリーフ・ノード44の一部が第1の
リーフ・ノード43から距離ε以内に存在するので、ブ
ロック64で第1のリーフ・ノード43と結合される。
【0055】ブロック62及びブロック64から、シス
テム10の識別子カーネル16はブロック66へ移行
し、ここで識別子カーネル16は、互いに距離ε以内に
存在する、従って類似性に関するユーザ定義条件を満足
する全てのデータ・ポイント(すなわちウィンドウ)を
出力する。ブロック66から、システム10の識別子カ
ーネル16はブロック68に移行し、テストのための次
のノードを取り出してブロック56に移行する。
テム10の識別子カーネル16はブロック66へ移行
し、ここで識別子カーネル16は、互いに距離ε以内に
存在する、従って類似性に関するユーザ定義条件を満足
する全てのデータ・ポイント(すなわちウィンドウ)を
出力する。ブロック66から、システム10の識別子カ
ーネル16はブロック68に移行し、テストのための次
のノードを取り出してブロック56に移行する。
【0056】2つのリーフ・ノードが不必要に複数回結
合されないように祖先リスト(ancestor)が再帰呼出し
において使用され、順番が各ノードの子孫に課せられ
る。ブロック64において、テスト中のノードと結合す
るためにテストされる唯一のノードは、テスト中のノー
ドよりも順序的に後に来るノードである。
合されないように祖先リスト(ancestor)が再帰呼出し
において使用され、順番が各ノードの子孫に課せられ
る。ブロック64において、テスト中のノードと結合す
るためにテストされる唯一のノードは、テスト中のノー
ドよりも順序的に後に来るノードである。
【0057】更に計算を減らすためにブロック64で考
慮されるテスト中のノードと結合される、あるノード内
の唯一のデータ・ポイントは、その結合されるノードの
境界から距離ε以内にあるデータ・ポイントである。更
に所与のノード内のデータ・ポイントはそれら自身、1
つ以上の選択された次元により順序付けられる。従っ
て、ブロック62における自己結合(self_joined)ノ
ード内の第1のデータ・ポイントがそのノード内の第2
のデータ・ポイントと比較され、第2のデータ・ポイン
トが第1のデータ・ポイントから距離εよりも離れてい
ると判明すると、第1のデータ・ポイントは、第2のデ
ータ・ポイントに順序的に続くデータ・ポイント、従っ
て定義上第1のデータ・ポイントから距離εよりも離れ
たデータ・ポイントに対しては、テストされない。
慮されるテスト中のノードと結合される、あるノード内
の唯一のデータ・ポイントは、その結合されるノードの
境界から距離ε以内にあるデータ・ポイントである。更
に所与のノード内のデータ・ポイントはそれら自身、1
つ以上の選択された次元により順序付けられる。従っ
て、ブロック62における自己結合(self_joined)ノ
ード内の第1のデータ・ポイントがそのノード内の第2
のデータ・ポイントと比較され、第2のデータ・ポイン
トが第1のデータ・ポイントから距離εよりも離れてい
ると判明すると、第1のデータ・ポイントは、第2のデ
ータ・ポイントに順序的に続くデータ・ポイント、従っ
て定義上第1のデータ・ポイントから距離εよりも離れ
たデータ・ポイントに対しては、テストされない。
【0058】図7及び図8を参照すると、システム10
の識別子カーネル16が類似ウィンドウ対を一緒にステ
ィッチする方法が示される。図7のブロック70で開始
し、時間シーケンスS及びT内の類似ウィンドウ対のマ
ッチ・グラフが構成される。こうしたグラフの単純化さ
れた例が図8に示される。図8において各ウィンドウは
2つのいずれかの行内の直線により示され、上の行はシ
ーケンスS内のウィンドウSiを表し、下の行はシーケ
ンスT内の対応するマッチ・ウィンドウTiを表す。点
線はマッチ対、すなわち類似のウィンドウ対を示す。図
示の例では、4つのウィンドウ・セット間で5つのマッ
チA乃至Eが存在する。
の識別子カーネル16が類似ウィンドウ対を一緒にステ
ィッチする方法が示される。図7のブロック70で開始
し、時間シーケンスS及びT内の類似ウィンドウ対のマ
ッチ・グラフが構成される。こうしたグラフの単純化さ
れた例が図8に示される。図8において各ウィンドウは
2つのいずれかの行内の直線により示され、上の行はシ
ーケンスS内のウィンドウSiを表し、下の行はシーケ
ンスT内の対応するマッチ・ウィンドウTiを表す。点
線はマッチ対、すなわち類似のウィンドウ対を示す。図
示の例では、4つのウィンドウ・セット間で5つのマッ
チA乃至Eが存在する。
【0059】次に、図7のブロック72で、システム1
0の識別子カーネル16は、各マッチを対応する頂点M
i、...Mj、...により表し、テスト下の2つのウ
ィンドウ対Mi及びMjの間でスティッチング・アーク
(arc)を確立しようとする。スティッチング・アーク
が確立できるか否かを判断するために、システム10の
識別子カーネル16は判断ブロック74に移行し、Mj
により表される両方のウィンドウSj及びTj内の最早デ
ータ・ポイントの時間が、Miにより表される両方のウ
ィンドウSi及びTi内の最早データ・ポイントの時間よ
りも、それぞれ遅いか否かを判断する。
0の識別子カーネル16は、各マッチを対応する頂点M
i、...Mj、...により表し、テスト下の2つのウ
ィンドウ対Mi及びMjの間でスティッチング・アーク
(arc)を確立しようとする。スティッチング・アーク
が確立できるか否かを判断するために、システム10の
識別子カーネル16は判断ブロック74に移行し、Mj
により表される両方のウィンドウSj及びTj内の最早デ
ータ・ポイントの時間が、Miにより表される両方のウ
ィンドウSi及びTi内の最早データ・ポイントの時間よ
りも、それぞれ遅いか否かを判断する。
【0060】判断ブロック74でのテストが否定の場
合、システム10の識別子カーネル16はブロック76
に移行して次のテストを実行する。反対に、判断ブロッ
ク74のテストが肯定の場合には、システム10の識別
子カーネル16は判断ブロック78に移行し、ウィンド
ウSiまたはTiのいずれか一方が、その対応するウィン
ドウSjまたはTjとオーバラップするか否かを判断す
る。
合、システム10の識別子カーネル16はブロック76
に移行して次のテストを実行する。反対に、判断ブロッ
ク74のテストが肯定の場合には、システム10の識別
子カーネル16は判断ブロック78に移行し、ウィンド
ウSiまたはTiのいずれか一方が、その対応するウィン
ドウSjまたはTjとオーバラップするか否かを判断す
る。
【0061】判断ブロック78で、SiとSjとがオーバ
ラップせず、TiとTjとがオーバラップしないと判断さ
れると、システム10の識別子カーネル16は判断ブロ
ック80に移行し、ウィンドウSiとSj間のギャップ及
びウィンドウTiとTj間のギャップが、ユーザ定義値γ
よりも小さいか否かを判断する。一方、判断ブロック7
8で、SiとSjとがオーバラップし、TiとTjとがオー
バラップすると判断されると、システム10の識別子カ
ーネル16は判断ブロック82に移行し、SiとSjとが
オーバラップする距離が、TiとTjとがオーバラップす
る距離に等しいか否かを判断する。
ラップせず、TiとTjとがオーバラップしないと判断さ
れると、システム10の識別子カーネル16は判断ブロ
ック80に移行し、ウィンドウSiとSj間のギャップ及
びウィンドウTiとTj間のギャップが、ユーザ定義値γ
よりも小さいか否かを判断する。一方、判断ブロック7
8で、SiとSjとがオーバラップし、TiとTjとがオー
バラップすると判断されると、システム10の識別子カ
ーネル16は判断ブロック82に移行し、SiとSjとが
オーバラップする距離が、TiとTjとがオーバラップす
る距離に等しいか否かを判断する。
【0062】判断ブロック80または82のテストのい
ずれかが否定の場合、システム10の識別子カーネル1
6はブロック76に戻る。しかしながら、判断ブロック
80または82のテストのいずれかが肯定の場合にはシ
ステム10の識別子カーネル16はブロック84に移行
し、テスト下の頂点MiとMjとの間にアークを確立し、
頂点間にパスを確立する。
ずれかが否定の場合、システム10の識別子カーネル1
6はブロック76に戻る。しかしながら、判断ブロック
80または82のテストのいずれかが肯定の場合にはシ
ステム10の識別子カーネル16はブロック84に移行
し、テスト下の頂点MiとMjとの間にアークを確立し、
頂点間にパスを確立する。
【0063】上述のプロセスが図8を参照して理解され
得る。γの仮定値に対してアークA−Dは図7の判断ブ
ロック74、78及び80の基準に合致し、従って図示
のように確立される。同様に、アークA−C及びC−E
は図7の判断ブロック74、78及び80の基準に合致
し、アークE−Fは図7の判断ブロック74、78及び
82の基準に合致する。一方、アークB−Dは判断ブロ
ック74の条件を満たさないために存在せず、アークA
−Eは判断ブロック80の条件を満たさないために存在
せず、アークB−Fは判断ブロック82の条件を満たさ
ないために存在しない。
得る。γの仮定値に対してアークA−Dは図7の判断ブ
ロック74、78及び80の基準に合致し、従って図示
のように確立される。同様に、アークA−C及びC−E
は図7の判断ブロック74、78及び80の基準に合致
し、アークE−Fは図7の判断ブロック74、78及び
82の基準に合致する。一方、アークB−Dは判断ブロ
ック74の条件を満たさないために存在せず、アークA
−Eは判断ブロック80の条件を満たさないために存在
せず、アークB−Fは判断ブロック82の条件を満たさ
ないために存在しない。
【0064】図7のブロック84からシステム10の識
別子カーネル16はブロック86に移行し、ブロック8
4で見い出された最長パス内の頂点を一緒にスティッチ
し、それにより第1及び第2のサブシーケンスの対を確
立する。これらの各々は、関連シーケンスS及びTから
のスティッチ化ウィンドウを含む。例えば図8に示され
るグラフなどの、マッチ・グラフ内の最長パス(図8の
最長パスはA−C−E−F)を見い出すために、マッチ
・グラフは、例えばCarreによる"Graphs and networks"
(Claredon Press、Oxford、1978)で述べられるプロシ
ジャなどを用いて、逆トポロジ的ソート順序に従い横断
される。
別子カーネル16はブロック86に移行し、ブロック8
4で見い出された最長パス内の頂点を一緒にスティッチ
し、それにより第1及び第2のサブシーケンスの対を確
立する。これらの各々は、関連シーケンスS及びTから
のスティッチ化ウィンドウを含む。例えば図8に示され
るグラフなどの、マッチ・グラフ内の最長パス(図8の
最長パスはA−C−E−F)を見い出すために、マッチ
・グラフは、例えばCarreによる"Graphs and networks"
(Claredon Press、Oxford、1978)で述べられるプロシ
ジャなどを用いて、逆トポロジ的ソート順序に従い横断
される。
【0065】好適には、正規化スケールはサブシーケン
ス内の全てのウィンドウに対して同一またはほぼ同一で
ある。スティッチングの間、確立されるアークに対応す
るウィンドウのスケールは既にスティッチされたアーク
・ウィンドウに使用されたスケールと比較されて、ステ
ィッチングの発生を保証する。
ス内の全てのウィンドウに対して同一またはほぼ同一で
ある。スティッチングの間、確立されるアークに対応す
るウィンドウのスケールは既にスティッチされたアーク
・ウィンドウに使用されたスケールと比較されて、ステ
ィッチングの発生を保証する。
【0066】ウィンドウのマッチング対をスティッチし
て、サブシーケンスを確立した後、システム10の識別
子カーネル16は図9に移行し、サブシーケンスを一緒
にスティッチし、第1の時間シーケンスSが第2の時間
シーケンスTに類似するか否かを判断する。図9は図7
に示されるステップとは別の実行可能ステップのセット
を示しているが、これらのプロセスは結合され得ること
が理解されよう。
て、サブシーケンスを確立した後、システム10の識別
子カーネル16は図9に移行し、サブシーケンスを一緒
にスティッチし、第1の時間シーケンスSが第2の時間
シーケンスTに類似するか否かを判断する。図9は図7
に示されるステップとは別の実行可能ステップのセット
を示しているが、これらのプロセスは結合され得ること
が理解されよう。
【0067】図9のブロック88で開始し、上述の原理
に従ってマッチ・グラフが図7で見い出されたサブシー
ケンスから構成される。次にブロック90で、再度上述
の原理を用いて、各サブシーケンスがそれぞれの頂点M
i、Mj、...として表される。
に従ってマッチ・グラフが図7で見い出されたサブシー
ケンスから構成される。次にブロック90で、再度上述
の原理を用いて、各サブシーケンスがそれぞれの頂点M
i、Mj、...として表される。
【0068】ブロック90から、システム10の識別子
カーネル16は判断ブロック92に移行し、Mjにより
表される両方のサブシーケンスSj及びTj内の最早デー
タ・ポイントの時間が、Miにより表される両方のサブ
シーケンスSi及びTi内の最遅データ・ポイントの時間
よりもそれぞれ遅いかどうかを判断する。換言すると、
システム10の識別子カーネル16は、テスト下のサブ
シーケンスがオーバラップするか否かを判断する。テス
ト下のサブシーケンスがオーバラップする場合、システ
ム10の識別子カーネル16はブロック94に移行し、
次のテストを実行する。従って、ウィンドウ・スティッ
チングと対照的に、サブシーケンス・スティッチングに
おいてはオーバラップは許可されない。
カーネル16は判断ブロック92に移行し、Mjにより
表される両方のサブシーケンスSj及びTj内の最早デー
タ・ポイントの時間が、Miにより表される両方のサブ
シーケンスSi及びTi内の最遅データ・ポイントの時間
よりもそれぞれ遅いかどうかを判断する。換言すると、
システム10の識別子カーネル16は、テスト下のサブ
シーケンスがオーバラップするか否かを判断する。テス
ト下のサブシーケンスがオーバラップする場合、システ
ム10の識別子カーネル16はブロック94に移行し、
次のテストを実行する。従って、ウィンドウ・スティッ
チングと対照的に、サブシーケンス・スティッチングに
おいてはオーバラップは許可されない。
【0069】テスト下のサブシーケンスがオーバラップ
しない場合には、システム10の識別子カーネル16は
判断ブロック96に移行し、サブシーケンスSiとSj間
のギャップ、及びサブシーケンスTiとTj間のギャップ
が、ユーザ定義値γよりも小さいか否かを判断する。小
さい場合、システム10の識別子カーネル16はブロッ
ク98に移行し、テスト下の頂点MiとMjとの間にアー
クが確立される。そして全てのアークが確立されると、
マッチ・グラフ内の最長パスが、上述の原理を用いて決
定される。しかしながら、判断ブロック96のテスト条
件が満たされない場合には、システム10の識別子カー
ネル16はブロック94に戻る。
しない場合には、システム10の識別子カーネル16は
判断ブロック96に移行し、サブシーケンスSiとSj間
のギャップ、及びサブシーケンスTiとTj間のギャップ
が、ユーザ定義値γよりも小さいか否かを判断する。小
さい場合、システム10の識別子カーネル16はブロッ
ク98に移行し、テスト下の頂点MiとMjとの間にアー
クが確立される。そして全てのアークが確立されると、
マッチ・グラフ内の最長パスが、上述の原理を用いて決
定される。しかしながら、判断ブロック96のテスト条
件が満たされない場合には、システム10の識別子カー
ネル16はブロック94に戻る。
【0070】ブロック98で最長のマッチング・サブシ
ーケンス(ここではSSi及びTTiとして指定される)
が識別されると、システム10の識別子カーネル16は
ブロック100に移行し、最長マッチング・シーケンス
SSi及びTTiが、第1または第2の時間シーケンスS
及びTの少なくとも一方と所定の関係を有するか否かを
判断する。好適な態様では、ブロック100で、システ
ム10の識別子カーネル16は全てのサブシーケンスS
Siの長さ及び全てのサブシーケンスTTiの長さを合計
し、合計値を2つの時間シーケンスS及びTの長さの合
計により除算する。得られた商がユーザ定義による所定
しきい値ξ以上であると、システム10の識別子カーネ
ル16は出力ブロック102に移行し、シーケンスS及
びTを類似性に関するユーザ定義基準に合致したものと
して出力する。それ以外ではシステム10の識別子カー
ネル16はブロック94に戻る。代わりに、S及びTが
大きく異なる長さを有する場合には、ブロック100
で、システム10の識別子カーネル16はより短いシー
ケンスS及びTの長さの2倍を除数として使用すること
ができる。換言すると、ブロック100において、シス
テム10の識別子カーネル16は、スティッチ化サブシ
ーケンスが時間シーケンスS、Tの少なくとも一方と所
定の関係を有するとき、時間シーケンスSが時間シーケ
ンスTに類似すると識別する。
ーケンス(ここではSSi及びTTiとして指定される)
が識別されると、システム10の識別子カーネル16は
ブロック100に移行し、最長マッチング・シーケンス
SSi及びTTiが、第1または第2の時間シーケンスS
及びTの少なくとも一方と所定の関係を有するか否かを
判断する。好適な態様では、ブロック100で、システ
ム10の識別子カーネル16は全てのサブシーケンスS
Siの長さ及び全てのサブシーケンスTTiの長さを合計
し、合計値を2つの時間シーケンスS及びTの長さの合
計により除算する。得られた商がユーザ定義による所定
しきい値ξ以上であると、システム10の識別子カーネ
ル16は出力ブロック102に移行し、シーケンスS及
びTを類似性に関するユーザ定義基準に合致したものと
して出力する。それ以外ではシステム10の識別子カー
ネル16はブロック94に戻る。代わりに、S及びTが
大きく異なる長さを有する場合には、ブロック100
で、システム10の識別子カーネル16はより短いシー
ケンスS及びTの長さの2倍を除数として使用すること
ができる。換言すると、ブロック100において、シス
テム10の識別子カーネル16は、スティッチ化サブシ
ーケンスが時間シーケンスS、Tの少なくとも一方と所
定の関係を有するとき、時間シーケンスSが時間シーケ
ンスTに類似すると識別する。
【0071】上述されたデータベース内の類似時間シー
ケンスを発見する特定のシステム及び方法は、本発明の
上述の目的を完全に達成することができるが、これは本
発明の好適な態様であり、本発明により広範に考慮され
るテーマを代表するものである。従って本発明の範囲
は、当業者には明らかとなるであろう他の実施例につい
ても包含するものである。
ケンスを発見する特定のシステム及び方法は、本発明の
上述の目的を完全に達成することができるが、これは本
発明の好適な態様であり、本発明により広範に考慮され
るテーマを代表するものである。従って本発明の範囲
は、当業者には明らかとなるであろう他の実施例につい
ても包含するものである。
【0072】まとめとして、本発明の構成に関して以下
の事項を開示する。
の事項を開示する。
【0073】(1)デジタル処理装置により読出し可能
なコンピュータ・プログラム記憶装置と、データベース
に記憶される第1の時間シーケンスと、前記データベー
スに記憶される第2の時間シーケンスとの間の類似性を
識別し、それにより前記データベース内の繰り返しパタ
ーンを識別する方法ステップを実行する、前記デジタル
処理装置により実行可能な命令を含む前記プログラム記
憶装置上のプログラム手段と、を含むコンピュータ・プ
ログラム装置であって、前記方法が、 a)各々が複数のデータ要素を有し、前記第1の時間シ
ーケンスのサブセットである少なくとも第1及び第3の
サブシーケンス・ウィンドウが、各々が複数のデータ要
素を有し、前記第2の時間シーケンスのサブセットであ
る少なくとも第2及び第4のサブシーケンス・ウィンド
ウとそれぞれ類似であると識別するステップであって、
前記各データ要素が少なくとも時間と大きさとにより特
徴付けられるものにおいて、前記第1のウィンドウのデ
ータ要素の大きさと、前記第2のウィンドウのデータ要
素の大きさとの差が所定値以下であり、かつ前記第3の
ウィンドウのデータ要素の大きさと、前記第4のウィン
ドウのデータ要素の大きさとの差が所定値以下のとき、
前記第1及び第3のウィンドウがそれぞれ前記第2及び
第4のウィンドウと類似であると識別する、前記識別ス
テップと、 b)前記第1及び第3のウィンドウと、前記第2及び第
4のウィンドウがそれぞれの時間ギャップにより分離さ
れ、前記各ギャップが所定値未満のとき、前記第1及び
第3のウィンドウを結合して、前記第1の時間シーケン
スを表す第1のサブシーケンスを確立し、前記第2及び
第4のウィンドウを結合して、前記第2の時間シーケン
スを表す第2のサブシーケンスを確立することにより、
前記データベース内の繰り返しパターンを識別する、前
記結合ステップと、を含む、プログラム装置。 (2)前記方法ステップは、前記第1及び第3のウィン
ドウが時間的に第1のオーバラップ距離により互いにオ
ーバラップし、かつ前記第2及び第4のウィンドウが時
間的に前記第1のオーバラップ距離により互いにオーバ
ラップするとき、前記第1及び第2のサブシーケンスを
確立するステップを含む、前記(1)記載のプログラム
装置。 (3)前記第3及び第4のウィンドウ内の最早データ要
素の時間が、それぞれ前記第1及び第2のウィンドウ内
の最早データ要素の時間よりも遅いときにのみ、前記第
1及び第2のサブシーケンスが確立される、前記(2)
記載のプログラム記憶装置。 (4)前記方法ステップは、前記第1及び第2の時間シ
ーケンスをそれぞれ表す第3及び第4のサブシーケンス
を確立するステップであって、前記第3及び第4のサブ
シーケンス内の各データ要素の時間が、それぞれ前記第
1及び第2のサブシーケンス内の各データ要素の時間よ
りも遅く、前記第1及び第3のサブシーケンスが、ある
ギャップにより分離され、前記第2及び第4のサブシー
ケンスが、あるギャップにより分離されるようにする、
前記確立ステップと、前記ギャップが所定値を超えない
とき、前記第1及び第3のサブシーケンスと、前記第2
及び第4のサブシーケンスを結合するステップと、を含
む、前記(3)記載のプログラム記憶装置。 (5)前記各サブシーケンス並びに前記第1及び第2の
時間シーケンスがそれぞれの長さにより特徴付けられる
ものにおいて、前記方法ステップが、前記サブシーケン
スの長さの合計を前記時間シーケンスの少なくとも1つ
の長さと比較して、比較値を生成するステップと、前記
比較値が所定値以上のとき、前記第1及び第2の時間シ
ーケンスが類似であると識別するステップと、を含む、
前記(4)記載のプログラム記憶装置。 (6)前記識別するステップ以前に、少なくとも前記第
1及び第3のウィンドウ内の前記データ要素を正規化す
るステップを含む、前記(1)記載のプログラム記憶装
置。 (7)前記各ウィンドウがω個のデータ要素を含み、前
記各ウィンドウがω次元を有する階層データ・ツリー内
のデータ・ポイントとして表される、前記(5)記載の
プログラム記憶装置。 (8)コンピュータ・システム、中央処理ユニット、及
び前記中央処理ユニットに接続されてデータベースを記
憶する手段と共に使用され、前記データベースに記憶さ
れる類似時間シーケンスを識別するコンピュータ・プロ
グラム製品であって、前記データベース内の第1の時間
シーケンスが前記データベース内の第2の時間シーケン
スに類似するか否かを識別する、コンピュータ読出し可
能プログラム手段を有するコンピュータ使用可能媒体を
含むデータ記憶装置を含むものにおいて、前記コンピュ
ータ読出し可能コード手段が、各々が所定数のデータ要
素を有し、前記第1の時間シーケンスのサブセットであ
る第1及び第3のサブシーケンス・ウィンドウが、各々
が所定数のデータ要素を有し、前記第2の時間シーケン
スのサブセットである第2及び第4のサブシーケンス・
ウィンドウとそれぞれ類似であると識別するコンピュー
タ読出し可能コード手段であって、前記第1のウィンド
ウの各データ要素と、前記第2のウィンドウの対応する
前記データ要素との差が所定値以下であり、かつ前記第
3のウィンドウの各データ要素と、前記第4のウィンド
ウの対応する前記データ要素との差が所定値以下のと
き、前記第1及び第3のウィンドウがそれぞれ前記第2
及び第4のウィンドウと類似であると識別する、前記コ
ンピュータ読出し可能コード手段と、前記第1及び第3
のウィンドウと前記第2及び第4のウィンドウがそれぞ
れのギャップにより分離され、前記各ギャップが所定値
未満のときに、前記第1及び第3のウィンドウを結合し
て前記第1の時間シーケンスを表す第1のサブシーケン
スを確立し、前記第2及び第4のウィンドウを結合して
前記第2の時間シーケンスを表す第2のサブシーケンス
を確立し、前記第1及び第2の時間シーケンスが類似で
あるか否かを識別する、コンピュータ読出し可能コード
手段と、を含む、コンピュータ・プログラム製品。 (9)前記第1及び第3のウィンドウが第1のオーバラ
ップ距離により互いにオーバラップし、かつ前記第2及
び第4のウィンドウが前記第1のオーバラップ距離によ
り互いにオーバラップするとき、前記第1及び第2のサ
ブシーケンスを確立するコンピュータ読出し可能コード
手段を含む、前記(8)記載のプログラム製品。 (10)前記各ウィンドウ内の各データ要素が対応する
時間により特徴付けられ、前記第3及び第4のウィンド
ウ内の最早データ要素の時間が、それぞれ前記第1及び
第2のウィンドウ内の最早データ要素の時間よりも遅い
ときにのみ、前記コード手段が前記第1及び第2のサブ
シーケンスを確立する、前記(9)記載のプログラム製
品。 (11)前記第1及び第2の時間シーケンスをそれぞれ
表す第3及び第4のサブシーケンスを確立するコンピュ
ータ読出し可能コード手段であって、前記第3及び第4
のサブシーケンス内の各データ要素の時間が、それぞれ
前記第1及び第2のサブシーケンス内の各データ要素の
時間よりも遅く、前記第1及び第3のサブシーケンス
が、あるギャップにより分離され、前記第2及び第4の
サブシーケンスが、あるギャップにより分離されるよう
にする、コンピュータ読出し可能コード手段と、前記ギ
ャップが所定値を超えないとき、前記第1及び第3のサ
ブシーケンスと前記第2及び第4のサブシーケンスを結
合するコンピュータ読出し可能コード手段と、を含む、
前記(10)記載のプログラム製品。 (12)前記各サブシーケンス並びに前記第1及び第2
の時間シーケンスがそれぞれの長さにより特徴付けられ
るものにおいて、前記製品が、前記サブシーケンスの長
さの合計を、前記時間シーケンスの少なくとも1つの長
さと比較して、比較値を生成するコンピュータ読出し可
能コード手段と、前記比較値が所定値以上のとき、前記
第1及び第2の時間シーケンスが類似であると識別する
コンピュータ読出し可能コード手段と、を含む、前記
(11)記載のプログラム製品。 (13)前記識別するステップ以前に、少なくとも前記
第1及び第3のウィンドウ内の前記データ要素を正規化
するコンピュータ読出し可能コード手段を含む、前記
(8)記載のプログラム製品。 (14)前記各ウィンドウがω個のデータ要素を含み、
前記ウィンドウがω次元を有する階層データ・ツリー内
のデータ・ポイントとして表される、前記(12)記載
のプログラム製品。 (15)デジタル処理装置により読出し可能であり、デ
ータベースに記憶される第1及び第2の時間シーケンス
が類似であると識別する方法ステップを実行する、前記
デジタル処理装置により実行可能な命令プログラムを実
現するプログラム記憶装置であって、前記方法ステップ
が、 a)各々が複数のデータ要素を有し、前記第1の時間シ
ーケンスのサブセットである第1及び第3のサブシーケ
ンス・ウィンドウが、各々が複数のデータ要素を有し、
前記第2の時間シーケンスのサブセットである第2及び
第4のサブシーケンス・ウィンドウとそれぞれ類似であ
ると識別するステップであって、前記各データ要素が少
なくとも時間と大きさとにより特徴付けられるものにお
いて、前記第1のウィンドウのデータ要素の大きさと、
前記第2のウィンドウのデータ要素の大きさとの差が所
定値以下であり、かつ前記第3のウィンドウのデータ要
素の大きさと、前記第4のウィンドウのデータ要素の大
きさとの差が所定値以下のとき、前記第1及び第3のウ
ィンドウがそれぞれ前記第2及び第4のウィンドウと類
似であると識別する、前記識別ステップと、 b)前記第1及び第3のウィンドウと、前記第2及び第
4のウィンドウがそれぞれの時間ギャップにより分離さ
れ、前記各ギャップが所定値未満のとき、前記第1及び
第3のウィンドウを結合して、前記第1の時間シーケン
スを表す第1のサブシーケンスを確立し、前記第2及び
第4のウィンドウを結合して、前記第2の時間シーケン
スを表す第2のサブシーケンスを確立することにより、
前記第1及び第2の時間シーケンスが類似であるか否か
を識別する、前記結合ステップと、を含む、プログラム
記憶装置。 (16)前記第1及び第3のウィンドウが時間的に第1
のオーバラップ距離により互いにオーバラップし、かつ
前記第2及び第4のウィンドウが時間的に前記第1のオ
ーバラップ距離により互いにオーバラップするとき、前
記方法ステップが、前記第1及び第2のサブシーケンス
を確立するステップを含む、前記(15)記載のプログ
ラム記憶装置。 (17)前記各サブシーケンス並びに前記第1及び第2
の時間シーケンスがそれぞれの長さにより特徴付けられ
るものにおいて、前記方法ステップが、前記第1及び第
2の時間シーケンスをそれぞれ表す第3及び第4のサブ
シーケンスを確立するステップであって、前記第3及び
第4のサブシーケンス内の各データ要素の時間が、それ
ぞれ前記第1及び第2のサブシーケンス内の各データ要
素の時間よりも遅く、前記第1及び第3のサブシーケン
スが、あるギャップにより分離され、前記第2及び第4
のサブシーケンスが、あるギャップにより分離されるよ
うにする、前記確立ステップと、前記ギャップが所定値
を超えないとき、前記第1及び第3のサブシーケンスと
前記第2及び第4のサブシーケンスを結合するステップ
と、前記サブシーケンスの長さの合計を前記時間シーケ
ンスの少なくとも1つの長さと比較して、比較値を生成
するステップと、前記比較値が所定値以上のとき、前記
第1及び第2の時間シーケンスが類似であると識別する
ステップと、を含む、前記(16)記載のプログラム記
憶装置。 (18)前記方法ステップが、ω個のデータ要素を含む
前記各ウィンドウを、ω次元を有する階層データ・ツリ
ー内のデータ・ポイントとして表すステップを含む、前
記(17)記載のプログラム記憶装置。 (19)データベースに記憶される第1の時間シーケン
スに対応して、それに類似する第2の時間シーケンスを
発見するデータベース・マイニング・システムであっ
て、前記第1及び第2のシーケンスをそれぞれ表す第1
及び第2のサブシーケンス・ウィンドウ・セットを生成
するマッチ決定機構であって、少なくとも1つの前記ウ
ィンドウがそれぞれの正規化値により特徴付けられるも
のにおいて、前記マッチ決定機構が、前記第1のサブシ
ーケンス・ウィンドウ・セット内のテスト・ウィンドウ
の値と、前記第2のサブシーケンス・ウィンドウ・セッ
ト内のテスト・ウィンドウの値との差が所定値以下のと
き、前記テスト・ウィンドウをマッチさせ、前記第1の
サブシーケンス・ウィンドウ・セットからの前記テスト
・ウィンドウと、前記第2のサブシーケンス・ウィンド
ウ・セットからの前記テスト・ウィンドウとを、1対の
マッチ・ウィンドウとして指定する、前記マッチ決定機
構と、少なくとも2対の前記マッチ・ウィンドウを結合
して第1のサブシーケンスを確立し、少なくとも2対の
前記マッチ・ウィンドウを結合して第2のサブシーケン
スを確立するウィンドウ・スティッチャであって、前記
結合が、1)前記第1のサブシーケンス内の2つの前記
ウィンドウがオーバラップせずに、あるギャップにより
分離され、かつ前記第2のサブシーケンス内の2つの前
記ウィンドウがオーバラップせずに、あるギャップによ
り分離され、かつ前記ギャップが所定値未満であると
き、或いは、2)前記第1のサブシーケンス内の前記2
つのウィンドウが互いにオーバラップする量が、前記第
2のサブシーケンス内の対応する2つのウィンドウが互
いにオーバラップする量と同じとき実行される、前記ウ
ィンドウ・スティッチャと、を含む、データベース・マ
イニング・システム。 (20)前記第1及び第2のサブシーケンスがそれぞれ
前記第1及び第2のサブシーケンス・セットに挿入さ
れ、前記システムが、前記第1及び第2のサブシーケン
スが、前記第1または第2の時間シーケンスの少なくと
も一方と所定の関係を有するとき、前記第1の時間シー
ケンスが前記第2の時間シーケンスと類似であると識別
する類似性識別子を含む、前記(19)記載のデータベ
ース・マイニング・システム。 (21)各々がそれぞれ第1及び第2のサブシーケンス
・ウィンドウ・セットを有する第1及び第2の時間シー
ケンス間の類似性を発見するコンピュータ・ベースのシ
ステムであって、前記各ウィンドウがω個のデータ・ポ
イントを含み、前記各データ・ポイントが少なくとも時
間と大きさとにより特徴付けられるものにおいて、前記
ウィンドウをω次元空間内の対応するポイントとして電
子的に記憶する、前記コンピュータによりアクセス可能
な階層化データベースと、1つ以上の前記第2のウィン
ドウが、前記ω空間において対応する1つ以上の前記第
1のウィンドウから所定距離以内に存在するとき、前記
第2のウィンドウが前記第1のウィンドウに類似である
と識別し、それにより1対の類似ウィンドウを確立す
る、前記識別する手段と、前記ウィンドウが、前記第1
及び第2の時間シーケンス内の類似性を識別する1つ以
上の所定のスティッチング基準を満足するとき、前記第
1及び第2のウィンドウ対を一緒にスティッチする手段
と、を含む、コンピュータ・ベースのシステム。 (22)前記スティッチング基準が、 1)第1の対の第1のウィンドウが、第2の対の第1の
ウィンドウから、あるギャップにより分離され、前記第
1の対の第2のウィンドウが、前記第2の対の第2のウ
ィンドウから、あるギャップにより分離され、前記各ギ
ャップが所定値未満のとき、前記第1及び第2のウィン
ドウ対を一緒にスティッチするステップと、 2)前記第1の対の第1のウィンドウが、前記第2の対
の第1のウィンドウと第1の距離によりオーバラップ
し、前記第1の対の第2のウィンドウが、前記第2の対
の第2のウィンドウと第2の距離によりオーバラップ
し、前記第1の距離と前記第2の距離とが等しいとき、
前記第1及び第2のウィンドウ対を一緒にスティッチす
るステップと、を含む、前記(21)記載のシステム。
なコンピュータ・プログラム記憶装置と、データベース
に記憶される第1の時間シーケンスと、前記データベー
スに記憶される第2の時間シーケンスとの間の類似性を
識別し、それにより前記データベース内の繰り返しパタ
ーンを識別する方法ステップを実行する、前記デジタル
処理装置により実行可能な命令を含む前記プログラム記
憶装置上のプログラム手段と、を含むコンピュータ・プ
ログラム装置であって、前記方法が、 a)各々が複数のデータ要素を有し、前記第1の時間シ
ーケンスのサブセットである少なくとも第1及び第3の
サブシーケンス・ウィンドウが、各々が複数のデータ要
素を有し、前記第2の時間シーケンスのサブセットであ
る少なくとも第2及び第4のサブシーケンス・ウィンド
ウとそれぞれ類似であると識別するステップであって、
前記各データ要素が少なくとも時間と大きさとにより特
徴付けられるものにおいて、前記第1のウィンドウのデ
ータ要素の大きさと、前記第2のウィンドウのデータ要
素の大きさとの差が所定値以下であり、かつ前記第3の
ウィンドウのデータ要素の大きさと、前記第4のウィン
ドウのデータ要素の大きさとの差が所定値以下のとき、
前記第1及び第3のウィンドウがそれぞれ前記第2及び
第4のウィンドウと類似であると識別する、前記識別ス
テップと、 b)前記第1及び第3のウィンドウと、前記第2及び第
4のウィンドウがそれぞれの時間ギャップにより分離さ
れ、前記各ギャップが所定値未満のとき、前記第1及び
第3のウィンドウを結合して、前記第1の時間シーケン
スを表す第1のサブシーケンスを確立し、前記第2及び
第4のウィンドウを結合して、前記第2の時間シーケン
スを表す第2のサブシーケンスを確立することにより、
前記データベース内の繰り返しパターンを識別する、前
記結合ステップと、を含む、プログラム装置。 (2)前記方法ステップは、前記第1及び第3のウィン
ドウが時間的に第1のオーバラップ距離により互いにオ
ーバラップし、かつ前記第2及び第4のウィンドウが時
間的に前記第1のオーバラップ距離により互いにオーバ
ラップするとき、前記第1及び第2のサブシーケンスを
確立するステップを含む、前記(1)記載のプログラム
装置。 (3)前記第3及び第4のウィンドウ内の最早データ要
素の時間が、それぞれ前記第1及び第2のウィンドウ内
の最早データ要素の時間よりも遅いときにのみ、前記第
1及び第2のサブシーケンスが確立される、前記(2)
記載のプログラム記憶装置。 (4)前記方法ステップは、前記第1及び第2の時間シ
ーケンスをそれぞれ表す第3及び第4のサブシーケンス
を確立するステップであって、前記第3及び第4のサブ
シーケンス内の各データ要素の時間が、それぞれ前記第
1及び第2のサブシーケンス内の各データ要素の時間よ
りも遅く、前記第1及び第3のサブシーケンスが、ある
ギャップにより分離され、前記第2及び第4のサブシー
ケンスが、あるギャップにより分離されるようにする、
前記確立ステップと、前記ギャップが所定値を超えない
とき、前記第1及び第3のサブシーケンスと、前記第2
及び第4のサブシーケンスを結合するステップと、を含
む、前記(3)記載のプログラム記憶装置。 (5)前記各サブシーケンス並びに前記第1及び第2の
時間シーケンスがそれぞれの長さにより特徴付けられる
ものにおいて、前記方法ステップが、前記サブシーケン
スの長さの合計を前記時間シーケンスの少なくとも1つ
の長さと比較して、比較値を生成するステップと、前記
比較値が所定値以上のとき、前記第1及び第2の時間シ
ーケンスが類似であると識別するステップと、を含む、
前記(4)記載のプログラム記憶装置。 (6)前記識別するステップ以前に、少なくとも前記第
1及び第3のウィンドウ内の前記データ要素を正規化す
るステップを含む、前記(1)記載のプログラム記憶装
置。 (7)前記各ウィンドウがω個のデータ要素を含み、前
記各ウィンドウがω次元を有する階層データ・ツリー内
のデータ・ポイントとして表される、前記(5)記載の
プログラム記憶装置。 (8)コンピュータ・システム、中央処理ユニット、及
び前記中央処理ユニットに接続されてデータベースを記
憶する手段と共に使用され、前記データベースに記憶さ
れる類似時間シーケンスを識別するコンピュータ・プロ
グラム製品であって、前記データベース内の第1の時間
シーケンスが前記データベース内の第2の時間シーケン
スに類似するか否かを識別する、コンピュータ読出し可
能プログラム手段を有するコンピュータ使用可能媒体を
含むデータ記憶装置を含むものにおいて、前記コンピュ
ータ読出し可能コード手段が、各々が所定数のデータ要
素を有し、前記第1の時間シーケンスのサブセットであ
る第1及び第3のサブシーケンス・ウィンドウが、各々
が所定数のデータ要素を有し、前記第2の時間シーケン
スのサブセットである第2及び第4のサブシーケンス・
ウィンドウとそれぞれ類似であると識別するコンピュー
タ読出し可能コード手段であって、前記第1のウィンド
ウの各データ要素と、前記第2のウィンドウの対応する
前記データ要素との差が所定値以下であり、かつ前記第
3のウィンドウの各データ要素と、前記第4のウィンド
ウの対応する前記データ要素との差が所定値以下のと
き、前記第1及び第3のウィンドウがそれぞれ前記第2
及び第4のウィンドウと類似であると識別する、前記コ
ンピュータ読出し可能コード手段と、前記第1及び第3
のウィンドウと前記第2及び第4のウィンドウがそれぞ
れのギャップにより分離され、前記各ギャップが所定値
未満のときに、前記第1及び第3のウィンドウを結合し
て前記第1の時間シーケンスを表す第1のサブシーケン
スを確立し、前記第2及び第4のウィンドウを結合して
前記第2の時間シーケンスを表す第2のサブシーケンス
を確立し、前記第1及び第2の時間シーケンスが類似で
あるか否かを識別する、コンピュータ読出し可能コード
手段と、を含む、コンピュータ・プログラム製品。 (9)前記第1及び第3のウィンドウが第1のオーバラ
ップ距離により互いにオーバラップし、かつ前記第2及
び第4のウィンドウが前記第1のオーバラップ距離によ
り互いにオーバラップするとき、前記第1及び第2のサ
ブシーケンスを確立するコンピュータ読出し可能コード
手段を含む、前記(8)記載のプログラム製品。 (10)前記各ウィンドウ内の各データ要素が対応する
時間により特徴付けられ、前記第3及び第4のウィンド
ウ内の最早データ要素の時間が、それぞれ前記第1及び
第2のウィンドウ内の最早データ要素の時間よりも遅い
ときにのみ、前記コード手段が前記第1及び第2のサブ
シーケンスを確立する、前記(9)記載のプログラム製
品。 (11)前記第1及び第2の時間シーケンスをそれぞれ
表す第3及び第4のサブシーケンスを確立するコンピュ
ータ読出し可能コード手段であって、前記第3及び第4
のサブシーケンス内の各データ要素の時間が、それぞれ
前記第1及び第2のサブシーケンス内の各データ要素の
時間よりも遅く、前記第1及び第3のサブシーケンス
が、あるギャップにより分離され、前記第2及び第4の
サブシーケンスが、あるギャップにより分離されるよう
にする、コンピュータ読出し可能コード手段と、前記ギ
ャップが所定値を超えないとき、前記第1及び第3のサ
ブシーケンスと前記第2及び第4のサブシーケンスを結
合するコンピュータ読出し可能コード手段と、を含む、
前記(10)記載のプログラム製品。 (12)前記各サブシーケンス並びに前記第1及び第2
の時間シーケンスがそれぞれの長さにより特徴付けられ
るものにおいて、前記製品が、前記サブシーケンスの長
さの合計を、前記時間シーケンスの少なくとも1つの長
さと比較して、比較値を生成するコンピュータ読出し可
能コード手段と、前記比較値が所定値以上のとき、前記
第1及び第2の時間シーケンスが類似であると識別する
コンピュータ読出し可能コード手段と、を含む、前記
(11)記載のプログラム製品。 (13)前記識別するステップ以前に、少なくとも前記
第1及び第3のウィンドウ内の前記データ要素を正規化
するコンピュータ読出し可能コード手段を含む、前記
(8)記載のプログラム製品。 (14)前記各ウィンドウがω個のデータ要素を含み、
前記ウィンドウがω次元を有する階層データ・ツリー内
のデータ・ポイントとして表される、前記(12)記載
のプログラム製品。 (15)デジタル処理装置により読出し可能であり、デ
ータベースに記憶される第1及び第2の時間シーケンス
が類似であると識別する方法ステップを実行する、前記
デジタル処理装置により実行可能な命令プログラムを実
現するプログラム記憶装置であって、前記方法ステップ
が、 a)各々が複数のデータ要素を有し、前記第1の時間シ
ーケンスのサブセットである第1及び第3のサブシーケ
ンス・ウィンドウが、各々が複数のデータ要素を有し、
前記第2の時間シーケンスのサブセットである第2及び
第4のサブシーケンス・ウィンドウとそれぞれ類似であ
ると識別するステップであって、前記各データ要素が少
なくとも時間と大きさとにより特徴付けられるものにお
いて、前記第1のウィンドウのデータ要素の大きさと、
前記第2のウィンドウのデータ要素の大きさとの差が所
定値以下であり、かつ前記第3のウィンドウのデータ要
素の大きさと、前記第4のウィンドウのデータ要素の大
きさとの差が所定値以下のとき、前記第1及び第3のウ
ィンドウがそれぞれ前記第2及び第4のウィンドウと類
似であると識別する、前記識別ステップと、 b)前記第1及び第3のウィンドウと、前記第2及び第
4のウィンドウがそれぞれの時間ギャップにより分離さ
れ、前記各ギャップが所定値未満のとき、前記第1及び
第3のウィンドウを結合して、前記第1の時間シーケン
スを表す第1のサブシーケンスを確立し、前記第2及び
第4のウィンドウを結合して、前記第2の時間シーケン
スを表す第2のサブシーケンスを確立することにより、
前記第1及び第2の時間シーケンスが類似であるか否か
を識別する、前記結合ステップと、を含む、プログラム
記憶装置。 (16)前記第1及び第3のウィンドウが時間的に第1
のオーバラップ距離により互いにオーバラップし、かつ
前記第2及び第4のウィンドウが時間的に前記第1のオ
ーバラップ距離により互いにオーバラップするとき、前
記方法ステップが、前記第1及び第2のサブシーケンス
を確立するステップを含む、前記(15)記載のプログ
ラム記憶装置。 (17)前記各サブシーケンス並びに前記第1及び第2
の時間シーケンスがそれぞれの長さにより特徴付けられ
るものにおいて、前記方法ステップが、前記第1及び第
2の時間シーケンスをそれぞれ表す第3及び第4のサブ
シーケンスを確立するステップであって、前記第3及び
第4のサブシーケンス内の各データ要素の時間が、それ
ぞれ前記第1及び第2のサブシーケンス内の各データ要
素の時間よりも遅く、前記第1及び第3のサブシーケン
スが、あるギャップにより分離され、前記第2及び第4
のサブシーケンスが、あるギャップにより分離されるよ
うにする、前記確立ステップと、前記ギャップが所定値
を超えないとき、前記第1及び第3のサブシーケンスと
前記第2及び第4のサブシーケンスを結合するステップ
と、前記サブシーケンスの長さの合計を前記時間シーケ
ンスの少なくとも1つの長さと比較して、比較値を生成
するステップと、前記比較値が所定値以上のとき、前記
第1及び第2の時間シーケンスが類似であると識別する
ステップと、を含む、前記(16)記載のプログラム記
憶装置。 (18)前記方法ステップが、ω個のデータ要素を含む
前記各ウィンドウを、ω次元を有する階層データ・ツリ
ー内のデータ・ポイントとして表すステップを含む、前
記(17)記載のプログラム記憶装置。 (19)データベースに記憶される第1の時間シーケン
スに対応して、それに類似する第2の時間シーケンスを
発見するデータベース・マイニング・システムであっ
て、前記第1及び第2のシーケンスをそれぞれ表す第1
及び第2のサブシーケンス・ウィンドウ・セットを生成
するマッチ決定機構であって、少なくとも1つの前記ウ
ィンドウがそれぞれの正規化値により特徴付けられるも
のにおいて、前記マッチ決定機構が、前記第1のサブシ
ーケンス・ウィンドウ・セット内のテスト・ウィンドウ
の値と、前記第2のサブシーケンス・ウィンドウ・セッ
ト内のテスト・ウィンドウの値との差が所定値以下のと
き、前記テスト・ウィンドウをマッチさせ、前記第1の
サブシーケンス・ウィンドウ・セットからの前記テスト
・ウィンドウと、前記第2のサブシーケンス・ウィンド
ウ・セットからの前記テスト・ウィンドウとを、1対の
マッチ・ウィンドウとして指定する、前記マッチ決定機
構と、少なくとも2対の前記マッチ・ウィンドウを結合
して第1のサブシーケンスを確立し、少なくとも2対の
前記マッチ・ウィンドウを結合して第2のサブシーケン
スを確立するウィンドウ・スティッチャであって、前記
結合が、1)前記第1のサブシーケンス内の2つの前記
ウィンドウがオーバラップせずに、あるギャップにより
分離され、かつ前記第2のサブシーケンス内の2つの前
記ウィンドウがオーバラップせずに、あるギャップによ
り分離され、かつ前記ギャップが所定値未満であると
き、或いは、2)前記第1のサブシーケンス内の前記2
つのウィンドウが互いにオーバラップする量が、前記第
2のサブシーケンス内の対応する2つのウィンドウが互
いにオーバラップする量と同じとき実行される、前記ウ
ィンドウ・スティッチャと、を含む、データベース・マ
イニング・システム。 (20)前記第1及び第2のサブシーケンスがそれぞれ
前記第1及び第2のサブシーケンス・セットに挿入さ
れ、前記システムが、前記第1及び第2のサブシーケン
スが、前記第1または第2の時間シーケンスの少なくと
も一方と所定の関係を有するとき、前記第1の時間シー
ケンスが前記第2の時間シーケンスと類似であると識別
する類似性識別子を含む、前記(19)記載のデータベ
ース・マイニング・システム。 (21)各々がそれぞれ第1及び第2のサブシーケンス
・ウィンドウ・セットを有する第1及び第2の時間シー
ケンス間の類似性を発見するコンピュータ・ベースのシ
ステムであって、前記各ウィンドウがω個のデータ・ポ
イントを含み、前記各データ・ポイントが少なくとも時
間と大きさとにより特徴付けられるものにおいて、前記
ウィンドウをω次元空間内の対応するポイントとして電
子的に記憶する、前記コンピュータによりアクセス可能
な階層化データベースと、1つ以上の前記第2のウィン
ドウが、前記ω空間において対応する1つ以上の前記第
1のウィンドウから所定距離以内に存在するとき、前記
第2のウィンドウが前記第1のウィンドウに類似である
と識別し、それにより1対の類似ウィンドウを確立す
る、前記識別する手段と、前記ウィンドウが、前記第1
及び第2の時間シーケンス内の類似性を識別する1つ以
上の所定のスティッチング基準を満足するとき、前記第
1及び第2のウィンドウ対を一緒にスティッチする手段
と、を含む、コンピュータ・ベースのシステム。 (22)前記スティッチング基準が、 1)第1の対の第1のウィンドウが、第2の対の第1の
ウィンドウから、あるギャップにより分離され、前記第
1の対の第2のウィンドウが、前記第2の対の第2のウ
ィンドウから、あるギャップにより分離され、前記各ギ
ャップが所定値未満のとき、前記第1及び第2のウィン
ドウ対を一緒にスティッチするステップと、 2)前記第1の対の第1のウィンドウが、前記第2の対
の第1のウィンドウと第1の距離によりオーバラップ
し、前記第1の対の第2のウィンドウが、前記第2の対
の第2のウィンドウと第2の距離によりオーバラップ
し、前記第1の距離と前記第2の距離とが等しいとき、
前記第1及び第2のウィンドウ対を一緒にスティッチす
るステップと、を含む、前記(21)記載のシステム。
【図1】本発明の類似時間シーケンスを発見する機能ブ
ロック図である。
ロック図である。
【図2】部分的に切除された本発明を実現するマシン・
コンポーネントを示す図である。
コンポーネントを示す図である。
【図3】本発明の全体のオペレーションのフローチャー
トを示す図である。
トを示す図である。
【図4】類似性を決定することが所望される2つの時間
シーケンスの例のグラフを示す図である。
シーケンスの例のグラフを示す図である。
【図5】図6に示されるデータ・ツリーを用いて、2つ
のシーケンス内で類似ウィンドウを識別するためのステ
ップのフローチャートを示す図である。
のシーケンス内で類似ウィンドウを識別するためのステ
ップのフローチャートを示す図である。
【図6】本発明のR+データ・ツリーを示す図である。
【図7】ウィンドウを一緒にスティッチして、2つの類
似サブシーケンスを形成するステップのフローチャート
を示す図である。
似サブシーケンスを形成するステップのフローチャート
を示す図である。
【図8】図7に示されるスティッチング・プロセスの例
を示す図である。
を示す図である。
【図9】サブシーケンスを一緒にスティッチするステッ
プのフローチャートを示す図である。
プのフローチャートを示す図である。
10 コンピュータ・システム 12 クライアント・コンピュータ 14 サーバ・コンピュータ 15 ディスケット 16 コンピュータ・ディスケット 17 コンピュータ使用可能データ媒体 18 データ・アクセス・プログラム/ユーティリティ 20 データ・ベース 22 フラット・ファイル 24 結果リポジトリ 26 識別子カーネル・インタフェース 30 グラフィック表示装置 32 印刷機構 34 データ記憶媒体 28 出力モジュール 43、44、48、50 リーフ・ノード 46、52 親ノード 54 ルート・ノード
フロントページの続き (72)発明者 キン−イ・リン アメリカ合衆国20740、メリーランド州カ レッジ・パーク、ハリウッド・ロード 5119 (72)発明者 ハープリート・シン・ソウニィ アメリカ合衆国95120、カリフォルニア州 サンノゼ、スリーピィ・クリーク・ドライ ブ 7282 (72)発明者 キュセオク・シム アメリカ合衆国95136、カリフォルニア州 サンノゼ、ナンバー2214、スネル・アベニ ュー 4501
Claims (22)
- 【請求項1】デジタル処理装置により読出し可能なコン
ピュータ・プログラム記憶装置と、 データベースに記憶される第1の時間シーケンスと、前
記データベースに記憶される第2の時間シーケンスとの
間の類似性を識別し、それにより前記データベース内の
繰り返しパターンを識別する方法ステップを実行する、
前記デジタル処理装置により実行可能な命令を含む前記
プログラム記憶装置上のプログラム手段と、 を含むコンピュータ・プログラム装置であって、前記方
法が、 a)各々が複数のデータ要素を有し、前記第1の時間シ
ーケンスのサブセットである少なくとも第1及び第3の
サブシーケンス・ウィンドウが、各々が複数のデータ要
素を有し、前記第2の時間シーケンスのサブセットであ
る少なくとも第2及び第4のサブシーケンス・ウィンド
ウとそれぞれ類似であると識別するステップであって、
前記各データ要素が少なくとも時間と大きさとにより特
徴付けられるものにおいて、前記第1のウィンドウのデ
ータ要素の大きさと、前記第2のウィンドウのデータ要
素の大きさとの差が所定値以下であり、かつ前記第3の
ウィンドウのデータ要素の大きさと、前記第4のウィン
ドウのデータ要素の大きさとの差が所定値以下のとき、
前記第1及び第3のウィンドウがそれぞれ前記第2及び
第4のウィンドウと類似であると識別する、前記識別ス
テップと、 b)前記第1及び第3のウィンドウと、前記第2及び第
4のウィンドウがそれぞれの時間ギャップにより分離さ
れ、前記各ギャップが所定値未満のとき、前記第1及び
第3のウィンドウを結合して、前記第1の時間シーケン
スを表す第1のサブシーケンスを確立し、前記第2及び
第4のウィンドウを結合して、前記第2の時間シーケン
スを表す第2のサブシーケンスを確立することにより、
前記データベース内の繰り返しパターンを識別する、前
記結合ステップと、 を含む、プログラム装置。 - 【請求項2】前記方法ステップは、前記第1及び第3の
ウィンドウが時間的に第1のオーバラップ距離により互
いにオーバラップし、かつ前記第2及び第4のウィンド
ウが時間的に前記第1のオーバラップ距離により互いに
オーバラップするとき、前記第1及び第2のサブシーケ
ンスを確立するステップを含む、請求項1記載のプログ
ラム装置。 - 【請求項3】前記第3及び第4のウィンドウ内の最早デ
ータ要素の時間が、それぞれ前記第1及び第2のウィン
ドウ内の最早データ要素の時間よりも遅いときにのみ、
前記第1及び第2のサブシーケンスが確立される、請求
項2記載のプログラム記憶装置。 - 【請求項4】前記方法ステップは、前記第1及び第2の
時間シーケンスをそれぞれ表す第3及び第4のサブシー
ケンスを確立するステップであって、前記第3及び第4
のサブシーケンス内の各データ要素の時間が、それぞれ
前記第1及び第2のサブシーケンス内の各データ要素の
時間よりも遅く、前記第1及び第3のサブシーケンス
が、あるギャップにより分離され、前記第2及び第4の
サブシーケンスが、あるギャップにより分離されるよう
にする、前記確立ステップと、 前記ギャップが所定値を超えないとき、前記第1及び第
3のサブシーケンスと、前記第2及び第4のサブシーケ
ンスを結合するステップと、 を含む、請求項3記載のプログラム記憶装置。 - 【請求項5】前記各サブシーケンス並びに前記第1及び
第2の時間シーケンスがそれぞれの長さにより特徴付け
られるものにおいて、前記方法ステップが、 前記サブシーケンスの長さの合計を前記時間シーケンス
の少なくとも1つの長さと比較して、比較値を生成する
ステップと、 前記比較値が所定値以上のとき、前記第1及び第2の時
間シーケンスが類似であると識別するステップと、 を含む、請求項4記載のプログラム記憶装置。 - 【請求項6】前記識別するステップ以前に、少なくとも
前記第1及び第3のウィンドウ内の前記データ要素を正
規化するステップを含む、請求項1記載のプログラム記
憶装置。 - 【請求項7】前記各ウィンドウがω個のデータ要素を含
み、前記各ウィンドウがω次元を有する階層データ・ツ
リー内のデータ・ポイントとして表される、請求項5記
載のプログラム記憶装置。 - 【請求項8】コンピュータ・システム、中央処理ユニッ
ト、及び前記中央処理ユニットに接続されてデータベー
スを記憶する手段と共に使用され、前記データベースに
記憶される類似時間シーケンスを識別するコンピュータ
・プログラム製品であって、前記データベース内の第1
の時間シーケンスが前記データベース内の第2の時間シ
ーケンスに類似するか否かを識別する、コンピュータ読
出し可能プログラム手段を有するコンピュータ使用可能
媒体を含むデータ記憶装置を含むものにおいて、前記コ
ンピュータ読出し可能コード手段が、 各々が所定数のデータ要素を有し、前記第1の時間シー
ケンスのサブセットである第1及び第3のサブシーケン
ス・ウィンドウが、各々が所定数のデータ要素を有し、
前記第2の時間シーケンスのサブセットである第2及び
第4のサブシーケンス・ウィンドウとそれぞれ類似であ
ると識別するコンピュータ読出し可能コード手段であっ
て、前記第1のウィンドウの各データ要素と、前記第2
のウィンドウの対応する前記データ要素との差が所定値
以下であり、かつ前記第3のウィンドウの各データ要素
と、前記第4のウィンドウの対応する前記データ要素と
の差が所定値以下のとき、前記第1及び第3のウィンド
ウがそれぞれ前記第2及び第4のウィンドウと類似であ
ると識別する、前記コンピュータ読出し可能コード手段
と、 前記第1及び第3のウィンドウと前記第2及び第4のウ
ィンドウがそれぞれのギャップにより分離され、前記各
ギャップが所定値未満のときに、前記第1及び第3のウ
ィンドウを結合して前記第1の時間シーケンスを表す第
1のサブシーケンスを確立し、前記第2及び第4のウィ
ンドウを結合して前記第2の時間シーケンスを表す第2
のサブシーケンスを確立し、前記第1及び第2の時間シ
ーケンスが類似であるか否かを識別する、コンピュータ
読出し可能コード手段と、 を含む、コンピュータ・プログラム製品。 - 【請求項9】前記第1及び第3のウィンドウが第1のオ
ーバラップ距離により互いにオーバラップし、かつ前記
第2及び第4のウィンドウが前記第1のオーバラップ距
離により互いにオーバラップするとき、前記第1及び第
2のサブシーケンスを確立するコンピュータ読出し可能
コード手段を含む、請求項8記載のプログラム製品。 - 【請求項10】前記各ウィンドウ内の各データ要素が対
応する時間により特徴付けられ、前記第3及び第4のウ
ィンドウ内の最早データ要素の時間が、それぞれ前記第
1及び第2のウィンドウ内の最早データ要素の時間より
も遅いときにのみ、前記コード手段が前記第1及び第2
のサブシーケンスを確立する、請求項9記載のプログラ
ム製品。 - 【請求項11】前記第1及び第2の時間シーケンスをそ
れぞれ表す第3及び第4のサブシーケンスを確立するコ
ンピュータ読出し可能コード手段であって、前記第3及
び第4のサブシーケンス内の各データ要素の時間が、そ
れぞれ前記第1及び第2のサブシーケンス内の各データ
要素の時間よりも遅く、前記第1及び第3のサブシーケ
ンスが、あるギャップにより分離され、前記第2及び第
4のサブシーケンスが、あるギャップにより分離される
ようにする、コンピュータ読出し可能コード手段と、 前記ギャップが所定値を超えないとき、前記第1及び第
3のサブシーケンスと前記第2及び第4のサブシーケン
スを結合するコンピュータ読出し可能コード手段と、 を含む、請求項10記載のプログラム製品。 - 【請求項12】前記各サブシーケンス並びに前記第1及
び第2の時間シーケンスがそれぞれの長さにより特徴付
けられるものにおいて、前記製品が、 前記サブシーケンスの長さの合計を、前記時間シーケン
スの少なくとも1つの長さと比較して、比較値を生成す
るコンピュータ読出し可能コード手段と、 前記比較値が所定値以上のとき、前記第1及び第2の時
間シーケンスが類似であると識別するコンピュータ読出
し可能コード手段と、 を含む、請求項11記載のプログラム製品。 - 【請求項13】前記識別するステップ以前に、少なくと
も前記第1及び第3のウィンドウ内の前記データ要素を
正規化するコンピュータ読出し可能コード手段を含む、
請求項8記載のプログラム製品。 - 【請求項14】前記各ウィンドウがω個のデータ要素を
含み、前記ウィンドウがω次元を有する階層データ・ツ
リー内のデータ・ポイントとして表される、請求項12
記載のプログラム製品。 - 【請求項15】デジタル処理装置により読出し可能であ
り、データベースに記憶される第1及び第2の時間シー
ケンスが類似であると識別する方法ステップを実行す
る、前記デジタル処理装置により実行可能な命令プログ
ラムを実現するプログラム記憶装置であって、前記方法
ステップが、 a)各々が複数のデータ要素を有し、前記第1の時間シ
ーケンスのサブセットである第1及び第3のサブシーケ
ンス・ウィンドウが、各々が複数のデータ要素を有し、
前記第2の時間シーケンスのサブセットである第2及び
第4のサブシーケンス・ウィンドウとそれぞれ類似であ
ると識別するステップであって、前記各データ要素が少
なくとも時間と大きさとにより特徴付けられるものにお
いて、前記第1のウィンドウのデータ要素の大きさと、
前記第2のウィンドウのデータ要素の大きさとの差が所
定値以下であり、かつ前記第3のウィンドウのデータ要
素の大きさと、前記第4のウィンドウのデータ要素の大
きさとの差が所定値以下のとき、前記第1及び第3のウ
ィンドウがそれぞれ前記第2及び第4のウィンドウと類
似であると識別する、前記識別ステップと、 b)前記第1及び第3のウィンドウと、前記第2及び第
4のウィンドウがそれぞれの時間ギャップにより分離さ
れ、前記各ギャップが所定値未満のとき、前記第1及び
第3のウィンドウを結合して、前記第1の時間シーケン
スを表す第1のサブシーケンスを確立し、前記第2及び
第4のウィンドウを結合して、前記第2の時間シーケン
スを表す第2のサブシーケンスを確立することにより、
前記第1及び第2の時間シーケンスが類似であるか否か
を識別する、前記結合ステップと、 を含む、プログラム記憶装置。 - 【請求項16】前記第1及び第3のウィンドウが時間的
に第1のオーバラップ距離により互いにオーバラップ
し、かつ前記第2及び第4のウィンドウが時間的に前記
第1のオーバラップ距離により互いにオーバラップする
とき、前記方法ステップが、前記第1及び第2のサブシ
ーケンスを確立するステップを含む、請求項15記載の
プログラム記憶装置。 - 【請求項17】前記各サブシーケンス並びに前記第1及
び第2の時間シーケンスがそれぞれの長さにより特徴付
けられるものにおいて、前記方法ステップが、 前記第1及び第2の時間シーケンスをそれぞれ表す第3
及び第4のサブシーケンスを確立するステップであっ
て、前記第3及び第4のサブシーケンス内の各データ要
素の時間が、それぞれ前記第1及び第2のサブシーケン
ス内の各データ要素の時間よりも遅く、前記第1及び第
3のサブシーケンスが、あるギャップにより分離され、
前記第2及び第4のサブシーケンスが、あるギャップに
より分離されるようにする、前記確立ステップと、 前記ギャップが所定値を超えないとき、前記第1及び第
3のサブシーケンスと前記第2及び第4のサブシーケン
スを結合するステップと、 前記サブシーケンスの長さの合計を前記時間シーケンス
の少なくとも1つの長さと比較して、比較値を生成する
ステップと、 前記比較値が所定値以上のとき、前記第1及び第2の時
間シーケンスが類似であると識別するステップと、 を含む、請求項16記載のプログラム記憶装置。 - 【請求項18】前記方法ステップが、ω個のデータ要素
を含む前記各ウィンドウを、ω次元を有する階層データ
・ツリー内のデータ・ポイントとして表すステップを含
む、請求項17記載のプログラム記憶装置。 - 【請求項19】データベースに記憶される第1の時間シ
ーケンスに対応して、それに類似する第2の時間シーケ
ンスを発見するデータベース・マイニング・システムで
あって、 前記第1及び第2のシーケンスをそれぞれ表す第1及び
第2のサブシーケンス・ウィンドウ・セットを生成する
マッチ決定機構であって、少なくとも1つの前記ウィン
ドウがそれぞれの正規化値により特徴付けられるものに
おいて、前記マッチ決定機構が、前記第1のサブシーケ
ンス・ウィンドウ・セット内のテスト・ウィンドウの値
と、前記第2のサブシーケンス・ウィンドウ・セット内
のテスト・ウィンドウの値との差が所定値以下のとき、
前記テスト・ウィンドウをマッチさせ、前記第1のサブ
シーケンス・ウィンドウ・セットからの前記テスト・ウ
ィンドウと、前記第2のサブシーケンス・ウィンドウ・
セットからの前記テスト・ウィンドウとを、1対のマッ
チ・ウィンドウとして指定する、前記マッチ決定機構
と、 少なくとも2対の前記マッチ・ウィンドウを結合して第
1のサブシーケンスを確立し、少なくとも2対の前記マ
ッチ・ウィンドウを結合して第2のサブシーケンスを確
立するウィンドウ・スティッチャであって、前記結合
が、1)前記第1のサブシーケンス内の2つの前記ウィ
ンドウがオーバラップせずに、あるギャップにより分離
され、かつ前記第2のサブシーケンス内の2つの前記ウ
ィンドウがオーバラップせずに、あるギャップにより分
離され、かつ前記ギャップが所定値未満であるとき、或
いは、2)前記第1のサブシーケンス内の前記2つのウ
ィンドウが互いにオーバラップする量が、前記第2のサ
ブシーケンス内の対応する2つのウィンドウが互いにオ
ーバラップする量と同じとき実行される、前記ウィンド
ウ・スティッチャと、 を含む、データベース・マイニング・システム。 - 【請求項20】前記第1及び第2のサブシーケンスがそ
れぞれ前記第1及び第2のサブシーケンス・セットに挿
入され、前記システムが、 前記第1及び第2のサブシーケンスが、前記第1または
第2の時間シーケンスの少なくとも一方と所定の関係を
有するとき、前記第1の時間シーケンスが前記第2の時
間シーケンスと類似であると識別する類似性識別子を含
む、 請求項19記載のデータベース・マイニング・システ
ム。 - 【請求項21】各々がそれぞれ第1及び第2のサブシー
ケンス・ウィンドウ・セットを有する第1及び第2の時
間シーケンス間の類似性を発見するコンピュータ・ベー
スのシステムであって、前記各ウィンドウがω個のデー
タ・ポイントを含み、前記各データ・ポイントが少なく
とも時間と大きさとにより特徴付けられるものにおい
て、 前記ウィンドウをω次元空間内の対応するポイントとし
て電子的に記憶する、前記コンピュータによりアクセス
可能な階層化データベースと、 1つ以上の前記第2のウィンドウが、前記ω空間におい
て対応する1つ以上の前記第1のウィンドウから所定距
離以内に存在するとき、前記第2のウィンドウが前記第
1のウィンドウに類似であると識別し、それにより1対
の類似ウィンドウを確立する、前記識別する手段と、 前記ウィンドウが、前記第1及び第2の時間シーケンス
内の類似性を識別する1つ以上の所定のスティッチング
基準を満足するとき、前記第1及び第2のウィンドウ対
を一緒にスティッチする手段と、 を含む、システム。 - 【請求項22】前記スティッチング基準が、 1)第1の対の第1のウィンドウが、第2の対の第1の
ウィンドウから、あるギャップにより分離され、前記第
1の対の第2のウィンドウが、前記第2の対の第2のウ
ィンドウから、あるギャップにより分離され、前記各ギ
ャップが所定値未満のとき、前記第1及び第2のウィン
ドウ対を一緒にスティッチするステップと、 2)前記第1の対の第1のウィンドウが、前記第2の対
の第1のウィンドウと第1の距離によりオーバラップ
し、前記第1の対の第2のウィンドウが、前記第2の対
の第2のウィンドウと第2の距離によりオーバラップ
し、前記第1の距離と前記第2の距離とが等しいとき、
前記第1及び第2のウィンドウ対を一緒にスティッチす
るステップと、 を含む、請求項21記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/437,746 US5664174A (en) | 1995-05-09 | 1995-05-09 | System and method for discovering similar time sequences in databases |
US437746 | 1995-05-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08339322A true JPH08339322A (ja) | 1996-12-24 |
JP3329182B2 JP3329182B2 (ja) | 2002-09-30 |
Family
ID=23737713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10995796A Expired - Fee Related JP3329182B2 (ja) | 1995-05-09 | 1996-04-30 | データベース内の類似時間シーケンスを発見するシステムおよび方法、並びにデータベース・マイニング・システム |
Country Status (4)
Country | Link |
---|---|
US (2) | US5664174A (ja) |
EP (1) | EP0742525B1 (ja) |
JP (1) | JP3329182B2 (ja) |
DE (1) | DE69606794T2 (ja) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3049636B2 (ja) * | 1995-03-31 | 2000-06-05 | 株式会社日立製作所 | データ分析方法 |
US5664174A (en) * | 1995-05-09 | 1997-09-02 | International Business Machines Corporation | System and method for discovering similar time sequences in databases |
EP0863469A3 (en) * | 1997-02-10 | 2002-01-09 | Nippon Telegraph And Telephone Corporation | Scheme for automatic data conversion definition generation according to data feature in visual multidimensional data analysis tool |
US5848404A (en) * | 1997-03-24 | 1998-12-08 | International Business Machines Corporation | Fast query search in large dimension database |
US6185559B1 (en) * | 1997-05-09 | 2001-02-06 | Hitachi America, Ltd. | Method and apparatus for dynamically counting large itemsets |
DE19745665C1 (de) * | 1997-10-17 | 1999-05-12 | Deutsches Krebsforsch | Verfahren zur Eingruppierung von Sequenzen in Familien |
US6205444B1 (en) * | 1997-10-17 | 2001-03-20 | International Business Machines Corporation | Multiple sequence alignment system and method |
US6286005B1 (en) * | 1998-03-11 | 2001-09-04 | Cannon Holdings, L.L.C. | Method and apparatus for analyzing data and advertising optimization |
US6081624A (en) | 1998-06-01 | 2000-06-27 | Autodesk, Inc. | Spatial index compression through spatial subdivision encoding |
US6138117A (en) * | 1998-04-29 | 2000-10-24 | International Business Machines Corporation | Method and system for mining long patterns from databases |
US6324533B1 (en) | 1998-05-29 | 2001-11-27 | International Business Machines Corporation | Integrated database and data-mining system |
US6189005B1 (en) | 1998-08-21 | 2001-02-13 | International Business Machines Corporation | System and method for mining surprising temporal patterns |
US6721759B1 (en) * | 1998-12-24 | 2004-04-13 | Sony Corporation | Techniques for spatial representation of data and browsing based on similarity |
US6278997B1 (en) | 1999-02-05 | 2001-08-21 | International Business Machines Corporation | System and method for constraint-based rule mining in large, dense data-sets |
US6754388B1 (en) | 1999-07-01 | 2004-06-22 | Honeywell Inc. | Content-based retrieval of series data |
US6526405B1 (en) * | 1999-12-17 | 2003-02-25 | Microsoft Corporation | Determining similarity between event types in sequences |
KR100344530B1 (ko) * | 1999-12-20 | 2002-07-24 | 한국과학기술원 | 시계열 데이터베이스에서 윈도우 구성의 이원성을 사용한 서브시퀀스 매칭방법 |
US7194434B2 (en) * | 2000-06-15 | 2007-03-20 | Sergio Piccioli | Method for predictive determination of financial investment performance |
US6711577B1 (en) | 2000-10-09 | 2004-03-23 | Battelle Memorial Institute | Data mining and visualization techniques |
US7539677B1 (en) | 2000-10-09 | 2009-05-26 | Battelle Memorial Institute | Sequential pattern data mining and visualization |
US6907426B2 (en) * | 2001-05-17 | 2005-06-14 | International Business Machines Corporation | Systems and methods for identifying and counting instances of temporal patterns |
KR100472948B1 (ko) * | 2001-10-11 | 2005-03-08 | 한국전자통신연구원 | 시계열 데이터베이스에서 서브 시퀀스 매칭의 후처리최적화 방법 |
US20030130996A1 (en) * | 2001-12-21 | 2003-07-10 | International Business Machines Corporation | Interactive mining of time series data |
US7031969B2 (en) * | 2002-02-20 | 2006-04-18 | Lawrence Technologies, Llc | System and method for identifying relationships between database records |
US7426752B2 (en) * | 2004-01-05 | 2008-09-16 | International Business Machines Corporation | System and method for order-preserving encryption for numeric data |
US7680685B2 (en) * | 2004-06-05 | 2010-03-16 | Sap Ag | System and method for modeling affinity and cannibalization in customer buying decisions |
US20060059118A1 (en) * | 2004-08-10 | 2006-03-16 | Byrd Stephen A | Apparatus, system, and method for associating resources using a behavior based algorithm |
US7661135B2 (en) * | 2004-08-10 | 2010-02-09 | International Business Machines Corporation | Apparatus, system, and method for gathering trace data indicative of resource activity |
US20060036579A1 (en) * | 2004-08-10 | 2006-02-16 | Byrd Stephen A | Apparatus, system, and method for associating resources using a time based algorithm |
US7630955B2 (en) * | 2004-08-10 | 2009-12-08 | International Business Machines Corporation | Apparatus, system, and method for analyzing the association of a resource to a business process |
US7546601B2 (en) * | 2004-08-10 | 2009-06-09 | International Business Machines Corporation | Apparatus, system, and method for automatically discovering and grouping resources used by a business process |
US7487169B2 (en) * | 2004-11-24 | 2009-02-03 | International Business Machines Corporation | Method for finding the longest common subsequences between files with applications to differential compression |
US20060173668A1 (en) * | 2005-01-10 | 2006-08-03 | Honeywell International, Inc. | Identifying data patterns |
JP2007066202A (ja) * | 2005-09-01 | 2007-03-15 | Fujitsu Ltd | データ分析プログラム |
CN1955945A (zh) * | 2005-10-25 | 2007-05-02 | 国际商业机器公司 | 为软件测试过程自动生成测试执行序列的方法和装置 |
US20070112754A1 (en) * | 2005-11-15 | 2007-05-17 | Honeywell International Inc. | Method and apparatus for identifying data of interest in a database |
US20070112747A1 (en) * | 2005-11-15 | 2007-05-17 | Honeywell International Inc. | Method and apparatus for identifying data of interest in a database |
US20090018994A1 (en) * | 2007-07-12 | 2009-01-15 | Honeywell International, Inc. | Time series data complex query visualization |
US20100185672A1 (en) * | 2009-01-21 | 2010-07-22 | Rising Iii Hawley K | Techniques for spatial representation of data and browsing based on similarity |
US20110218978A1 (en) * | 2010-02-22 | 2011-09-08 | Vertica Systems, Inc. | Operating on time sequences of data |
WO2011142026A1 (ja) * | 2010-05-14 | 2011-11-17 | 株式会社日立製作所 | 時系列データ管理装置、システム、方法、およびプログラム |
US9177343B2 (en) * | 2010-11-23 | 2015-11-03 | At&T Intellectual Property I, L.P. | Conservation dependencies |
US10405008B2 (en) | 2013-05-31 | 2019-09-03 | Enseo, Inc. | Hospitality property management tool and system and method for use of same |
US11641490B2 (en) | 2014-02-05 | 2023-05-02 | Enseo, Llc | Geolocationing system and method for use of same |
US11641489B2 (en) | 2014-02-05 | 2023-05-02 | Enseo, Llc | Geolocationing system and method for use of same |
US11700401B2 (en) | 2014-02-05 | 2023-07-11 | Enseo, Llc | Geolocationing system and method for use of same |
US11700399B2 (en) | 2014-02-05 | 2023-07-11 | Enseo, Llc | Geolocationing system and method for use of same |
US11700400B2 (en) | 2014-02-05 | 2023-07-11 | Enseo, Llc | Geolocationing system and method for use of same |
US11683534B2 (en) | 2014-02-05 | 2023-06-20 | Enseo, Llc | Geolocationing system and method for use of same |
JP6154542B2 (ja) * | 2014-03-26 | 2017-06-28 | 株式会社日立製作所 | 時系列データ管理方法及び時系列データ管理システム |
CN105224543A (zh) * | 2014-05-30 | 2016-01-06 | 国际商业机器公司 | 用于处理时间序列的方法和装置 |
KR20180077689A (ko) * | 2016-12-29 | 2018-07-09 | 주식회사 엔씨소프트 | 자연어 생성 장치 및 방법 |
US20220103392A1 (en) * | 2017-09-08 | 2022-03-31 | Enseo, Llc | Hospitality property management tool and system and method for use of same |
US10666452B2 (en) | 2017-09-08 | 2020-05-26 | Enseo, Inc. | Hospitality property management tool and system and method for use of same |
US20220103391A1 (en) * | 2017-09-08 | 2022-03-31 | Enseo, Llc | Hospitality property management tool and system and method for use of same |
US12052459B2 (en) | 2017-09-22 | 2024-07-30 | Enseo, Llc | Thermostat with interactive features and system and method for use of same |
US10721518B2 (en) | 2017-09-22 | 2020-07-21 | Enseo, Inc. | Set-top box with interactive features and system and method for use of same |
CN113096619B (zh) * | 2021-03-24 | 2024-01-19 | 平安科技(深圳)有限公司 | 音乐相似度计算方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05204991A (ja) * | 1992-01-30 | 1993-08-13 | Hitachi Ltd | 時系列データ検索方法およびこれを用いた検索システム |
JPH06332881A (ja) * | 1993-05-27 | 1994-12-02 | Toshiba Corp | パターン認識型推論装置 |
JPH07230446A (ja) * | 1993-12-22 | 1995-08-29 | Toshiba Corp | パターン抽出方法及び装置 |
JPH07234861A (ja) * | 1994-02-24 | 1995-09-05 | Toshiba Corp | データ監視システム |
US5930789A (en) * | 1995-05-09 | 1999-07-27 | International Business Machines Corporation | System and method for discovering similar time sequences in databases |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60179797A (ja) * | 1983-10-27 | 1985-09-13 | 日本電気株式会社 | パタンマツチング装置 |
JPH01183793A (ja) * | 1988-01-18 | 1989-07-21 | Toshiba Corp | 文字認識装置 |
US5544352A (en) * | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
US5799301A (en) * | 1995-08-10 | 1998-08-25 | International Business Machines Corporation | Apparatus and method for performing adaptive similarity searching in a sequence database |
US5742811A (en) * | 1995-10-10 | 1998-04-21 | International Business Machines Corporation | Method and system for mining generalized sequential patterns in a large database |
-
1995
- 1995-05-09 US US08/437,746 patent/US5664174A/en not_active Expired - Lifetime
-
1996
- 1996-04-24 EP EP96302860A patent/EP0742525B1/en not_active Expired - Lifetime
- 1996-04-24 DE DE69606794T patent/DE69606794T2/de not_active Expired - Lifetime
- 1996-04-30 JP JP10995796A patent/JP3329182B2/ja not_active Expired - Fee Related
-
1997
- 1997-08-28 US US08/920,031 patent/US5930789A/en not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05204991A (ja) * | 1992-01-30 | 1993-08-13 | Hitachi Ltd | 時系列データ検索方法およびこれを用いた検索システム |
JPH06332881A (ja) * | 1993-05-27 | 1994-12-02 | Toshiba Corp | パターン認識型推論装置 |
JPH07230446A (ja) * | 1993-12-22 | 1995-08-29 | Toshiba Corp | パターン抽出方法及び装置 |
JPH07234861A (ja) * | 1994-02-24 | 1995-09-05 | Toshiba Corp | データ監視システム |
US5930789A (en) * | 1995-05-09 | 1999-07-27 | International Business Machines Corporation | System and method for discovering similar time sequences in databases |
Also Published As
Publication number | Publication date |
---|---|
EP0742525A3 (en) | 1998-02-04 |
DE69606794D1 (de) | 2000-04-06 |
US5930789A (en) | 1999-07-27 |
EP0742525B1 (en) | 2000-03-01 |
JP3329182B2 (ja) | 2002-09-30 |
EP0742525A2 (en) | 1996-11-13 |
DE69606794T2 (de) | 2000-09-07 |
US5664174A (en) | 1997-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH08339322A (ja) | データベース内の類似時間シーケンスを発見するシステム及び方法 | |
Burdick et al. | MAFIA: A maximal frequent itemset algorithm | |
JP3195233B2 (ja) | データベースにおける一般化された関連規則を発見するためのシステム及び方法 | |
US5978794A (en) | Method and system for performing spatial similarity joins on high-dimensional points | |
Savasere et al. | An E cient Algorithm for Mining Association Rules in Large Databases | |
Ozden et al. | Cyclic association rules | |
Dunkel et al. | Data organization and access for efficient data mining | |
Koudas et al. | High dimensional similarity joins: Algorithms and performance evaluation | |
Hinneburg et al. | A general approach to clustering in large databases with noise | |
KR100483321B1 (ko) | 하이퍼사각형 기반의 다차원 데이터 세그먼테이션을이용한 유사성 검색 장치와 그 방법 | |
Snir et al. | Quartets MaxCut: a divide and conquer quartets algorithm | |
Park et al. | Color image retrieval using hybrid graph representation | |
US20060242135A1 (en) | System and method for personalized search | |
KR100518781B1 (ko) | 하이퍼사각형 기반의 다차원 데이터 세그먼테이션 장치,클러스터링 장치 및 그 방법 | |
Zaki | Fast mining of sequential patterns in very large databases | |
Wu et al. | Interval query indexing for efficient stream processing | |
Mohamed et al. | Quantized ranking for permutation-based indexing | |
Tasoulis et al. | Unsupervised clustering on dynamic databases | |
Xiang et al. | Succinct summarization of transactional databases: an overlapped hyperrectangle scheme | |
Macko et al. | Local clustering in provenance graphs | |
JP2004127055A (ja) | データ検索システム、データ検索方法、コンピュータに対してデータ検索を実行させるためのプログラム、該プログラムを記憶したコンピュータ可読な記憶媒体、検索されたドキュメントを表示するためのグラフィカル・ユーザ・インタフェイス・システム、グラフィカル・ユーザ・インタフェイスを実現するためのコンピュータ実行可能なプログラムおよび該プログラムを記憶した記憶媒体 | |
Lin et al. | Improving the efficiency of interactive sequential pattern mining by incremental pattern discovery | |
Lin et al. | Interactive sequence discovery by incremental mining | |
KR100465111B1 (ko) | 분할 기반 고차원 유사 조인 방법 | |
JP2000035965A (ja) | 類似特徴量の検索方法及び装置及び類似特徴量の検索プログラムを格納した記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |