JPH0698770A

JPH0698770A - トークン列データベースにおけるトークンシーケンスの探索

Info

Publication number: JPH0698770A
Application number: JP16059793A
Authority: JP
Inventors: Andrea Califano; アンドレア・カリファノ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-07-31
Filing date: 1993-06-30
Publication date: 1994-04-12
Anticipated expiration: 2012-11-05
Also published as: ATE260486T1; DE69333422D1; US5577249A; EP0583559A1; JP2673091B2; DE69333422T2; EP0583559B1

Abstract

(57)【要約】【目的】１以上のオリジナル列を持つデータベース内
のトークンの１以上のオリジナル列でトークンの参照シ
ーケンスと同一または、類似のトークン・シーケンスを
見つけだす方法の改良。【構成】オリジナル・トークン列に対する１以上のオ
リジナル・タップルを作る工程と、オリジナル列に関連
したオリジナル・インデックスを作る工程と、トークン
の参照列から１以上の参照タップルを作る工程と、各参
照タップルに対する固有の参照インデックスを作る工程
と、１以上の参照インデックスを１以上のオリジナル・
インデックスと比較する工程と、上記参照インデックス
と上記オリジナル・インデックス間の照合を探知する工
程と、上記参照インデックスと上記オリジナル・インデ
ックス間の照合数に基づき、データベース内のオリジナ
ル・トークン列を選択する工程、等から構成。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はデータベースにおけるト
ークンシーケンスを探索する方法に関する。特に、本発
明はあらかじめ定めた参照トークンシーケンスと類似ま
たは同一のデータベースにおけるトークンシーケンスを
探索する方法および、そのコンピュータ・システムに関
する。

【０００２】

【従来の技術】従来、多くのトークン列のデータベース
で、参照シーケンスあるいは参照列と呼ばれている特定
のトークンシーケンスの発生を見つけるための多くの技
術がある。本明細書において、トークンとは文字、単
語、音、ビットパターン、のようなシンボル、あるいは
他のトークンでシーケンスを表わせる他の表記等を意味
する。こうした技術は、たとえばＤＮＡ（またはタンパ
ク質）分子からなるヌクレオチド（またはアミノ酸）の
長鎖におけるヌクレオチド（またはアミノ酸）の例のよ
うな、ある特定のトークンシーケンスと同一あるいは類
似のシーケンスを見つけだすことなどのように、特定の
仕事を行うために開発されたものである。（２つのシー
ケンスは、そのどちらか一方のトークンのあらかじめ設
定した数より少なく、挿入、削除、または訂正によって
同一とすることが可能なら、その２つのシーケンスは類
似である。）従来の照合技術の数件はＮｅｅｄｌｅｍａ
ｎｎ−ＷｕｎｓｃｈまたはオリジナルのＷｉｌｂｕｒ−
Ｌｉｐｍａｎアルゴリズム、ＦＡＳＴＡ，ＦＡＳＴＰお
よびＢＬＡＳＴ等を含む。

【０００３】Ｎｅｅｄｌｅｍａｎｎ−Ｗｕｎｓｃｈアル
ゴリズムは動的なプログラム技術である。比較対象の２
つのシーケンスにおける全てのトークンを、その２つの
シーケンス間の全ての考えられる候補アライメントを演
算するために、対にして考察する。コスト値は削除、挿
入、訂正等に関連する。最も小さい大域コスト値を発生
するアライメントが選択される。これは、必要な演算量
が比較する２つのシーケンスの長さの積に比例するので
高価な技術である。

【０００４】Ｗｉｌｂｕｒ−Ｌｉｐｍａｎアルゴリズム
は、オリジナルの列と参照列における短い長さの隣接タ
ップルを比較する。参照列から作ったルックアップ・テ
ーブルを使用して両シーケンスについて複数のタップル
を照合させる。各候補照合のスコアを演算し、最良のス
コアを選択する。それゆえ、新しいルックアップが各時
間ごとに作られ、新しい参照シーケンスがそのデータベ
ースに対して比較される。オリジナル列の全体集合をそ
のルックアップ・テーブルに対して比較させるので、２
Ｎヌクレオチドまたはアミノ酸を含有するデータベース
に対する照合に要する演算の量はＮヌクレオチドまたは
アミノ酸を含有するデータベースの倍になる。つまり、
必要なルックアップ・テーブルに対する比較回数は、全
オリジナル列に存在するヌクレオチドまたはアミノ酸の
全数量に少なくとも等しい。

【０００５】ＦＡＳＴＡ，ＦＡＳＴＰアルゴリズムはオ
リジナルのＷｉｌｂｕｒ−Ｌｉｐｍａｎ技術を洗練した
ものである。感度の増加はアライメントをスコアするた
めに置き換え可能なマトリックスによって得られる。進
展変化（ヌクレオチドの削除、挿入、置換）のおいて頻
繁に現われる変異は良好なスコアを与え、一方、頻度の
少ない変異はスコアが悪い。しかし、そのアプローチの
実態は、未だ逐次的である。

【０００６】ＢＬＡＳＴ技術は、オリジナル・シーケン
スと参照シーケンスが極めて早急に実施可能な初期最小
類似性テストを満たす際に、その両者の徹底した比較を
行う。これはＭＳＰ（最大セグメント対）の長さが所定
のしきい値より上であるかどうかを帰納法的に決定する
ことによって行われる。ＭＳＰは、変異に対する最上ス
コアを有する参照列とシーケンス列の同じ長さの部分列
対である。このテストが成功すれば、より完成度が高
く、コストの面で有利な同様の分析がＦＡＳＴＡ−ＦＡ
ＳＴＰタイプのアルゴリズムを使用して行われる。これ
は、初期参照を満たさない照合を逃すという危険がある
演算量を減らすことになる。Ｎｅｅｄｌｅｍａｎｎ−Ｗ
ｕｎｓｃｈアルゴリズムで検出した類似性の約２０％
は、ＢＬＡＳＴによって取り上げられない。また、いく
らかの演算をオリジナル列の集合内の各トークンに対し
て実施しなくてはならないので、このアプローチは本来
逐次的である。

【０００７】従来技術は１対１ベース、つまり逐次的に
２つのトークン・シーケンス（このトークンは特にヌク
レオチドまたはアミノ酸である）を効率的に比較して成
功してきた。しかし、多くの従来技術は、オリジナルの
トークン列のデータベースにおけるトークンの参照シー
ケンスの考えられる照合の全てあるいは大部分を、その
オリジナルシーケンスの各トークンあるいは大部分のト
ークンについての演算を行わずに探索する上で困難があ
った。現在のコンピュータ技術は、リーズナブルな時間
内で莫大なデータベースについてそうした仕事を実施す
るのは不可能である。

【０００８】したがって、トークンの参照列と、莫大な
データベース内のトークンの１以上のオリジナル列にお
けるトークン・シーケンスとの類似照合あるいは厳密な
照合を判定するインデックス方法の必要性を長いこと感
じていた。また、トークンのオリジナル列について類似
あるいは同一シーケンスの位置、および参照列に対する
類似の程度を早急かつ効率的に判定する必要もあった。
特に、遺伝子ゲノムの位置づけという領域では、現在の
コンピュータ技術を使用して４０億万にいたるヌクレオ
チドを含むデータベースにおけるヌクレオチド・シーケ
ンス間で類似性を検出するための方法が必要と感じられ
ていた。

【０００９】従来の技術は、トークンの参照列との照合
を探索する際に莫大なデータベースのオリジナル列のト
ークン・シーケンスを早急かつ効率的に位置決めするこ
とが欠落している。これは、従来技術が照合手続きでオ
リジナル列の全データベースを検索する必要があるとい
う理由による。従来技術は、可能性のある照合を含んだ
オリジナル列のみを早急かつ正確に特定するインデック
ス技術が欠落しているので、トークン列の照合を位置決
めするために全データベースを検索しなくてはならな
い。

【００１０】

【発明が解決しようとする課題】本発明の主たる目的
は、１以上のオリジナル列を持つデータベース内のトー
クンの１以上のオリジナル列でトークンの参照シーケン
スと同一または類似のトークン・シーケンスを見つけだ
すための改良した方法を提供することである。本発明の
他の目的は、インデックスおよびハッシュを使用して、
１以上のオリジナル列を持つデータベース内のトークン
のオリジナル列でトークンの参照シーケンスと同一また
は類似のトークン・シーケンスを見つけだすための改良
した方法を提供することである。また、本発明の他の目
的は、ＤＮＡ（またはタンパク質）分子を表わすヌクレ
オチド（またはアミノ酸）の複数のオリジナル列を有す
るデータベースにおけるヌクレオチド（またはアミノ
酸）の参照シーケンスと同一あるいは類似のヌクレオチ
ド（またはアミノ酸）のシーケンスを見つけだすための
改良した方法を提供することである。さらに、また本発
明の他の目的は、オリジナルな言語音素シーケンスのデ
ータベースにおける音素の参照シーケンスと同一あるい
は類似の音素シーケンスを見つけだすことによる言語認
識の改良した方法を提供することである。さらに、また
本発明の他の目的は、オリジナルの音調シーケンスのデ
ータベースにおける音調の参照シーケンスと同一あるい
は類似の音調シーケンスを見つけだすことによる音楽認
識の改良した方法を提供することである。

【００１１】

【課題を解決するための手段】上記目的を達成するため
の本発明による方法は、汎用コンピュータによって実施
され、オリジナルのトークン列のデータベース内の１以
上のオリジナルなトークン列のトークン・シーケンスが
他のトークン・シーケンス（参照シーケンスと称する）
に対する同一または類似の発生を見つけることが可能で
ある。本発明は、トークンの参照シーケンスと厳密（同
一）に照合あるいは類似的に照合するオリジナルのトー
クン列内のトークン・シーケンスの全ての発生を、速や
かに、かつ正確に見つける高い確率を有する。

【００１２】各オリジナル列に対して多数のインデック
スを生成し、ルックアップ・テーブルのオリジナル列に
関する情報記録を記憶するために使用する。認識の際、
多数のインデックスを参照列から形成させる。これはル
ックアップ・テーブルの情報を回復させるために使用
し、また１以上のオリジナル列の証拠を累積させるため
に使用する。この方法では、より迅速な認識時間を可能
にする認識以前に多量の処理を行うことができる。

【００１３】インデックスを形成するにあたって、この
方法では初めに「タップル」を形成する。すなわち、初
めに多数の隣接したトークンのオリジナルな部分列をデ
ータベース内のオリジナルなトークンシーケンスから選
択する。オリジナルな部分列のこの集合の各構成要素
は、長さでは比較的少数のトークンであるが、少なくと
も１トークンは長い。この集合構成要素は全てその長さ
方向の数を固定することができる。しかし、集合構成要
素の一部あるいは全ては、長さ方向のトークンの数を異
なったものにすることが可能である。オリジナルのトー
クン部分列の集合を使用して、タップルの集合を形成す
る。その集合内の１以上のタップルは、２以上の異なっ
て隣接してない集合構成要素を追加することによって形
成する。（このタップル内の他の部分列は隣接すること
があり、一方、タップルの集合内の他の部分列は隣接し
ないことがある。）これらタップルも「ｊ−タップル」
と称される。ここでｊはタップルを形成するに使用した
オリジナルな部分列の数である。オリジナル列から形成
したタップルをオリジナル・タップルと称する。

【００１４】次に、固有のインデックスを作成し、タッ
プル内のトークンの値に基づいて各タップルに割り当て
る。通常、アルゴリズムによってｊ−タップル内のトー
クンの値から、数（通常は整数）のような値の形を取る
オリジナルなインデックスを作る。各オリジナル・イン
デックスは、メモリ・ルックアップ構造（通常、アレ
イ）の固有セルと組み合わせる。このインデックスをル
ックアップ構造の組み合わせたセルを識別したりアクセ
スするために使用する。タップル（およびオリジナル・
インデックス）を作ったオリジナル列を書き表わした情
報記録を、そのインデックスに組み合わせたメモリ・ル
ックアップ構造セルに記憶させる。セルは情報記録の固
定数あるいは任意数を保持できる。例えば、セルに記憶
させた情報記録はオリジナル列の参照を含む。この参照
はここではポインタと称し、オリジナル列の１つを識別
する手段である。参照はオリジナル列の所定トークンの
ポインタ（メモリのアドレス）として、あるいはポイン
タのテーブルにおけるインデックスとして、あるいは当
業界で公知の他のインプリメンテーションとして履行可
能であることに注目を要する。ポインタ（参照）は、オ
リジナル・インデックスによって固有に決めたオリジナ
ル・タップルを引き出したデータベース内でオリジナル
列を位置決めする。ルックアップ構造も他の情報を含む
ことが可能である。この他の情報とは、例えば置き換え
情報であり、オリジナル列のタップル（インデックスを
発生させるために使用）の位置を示す。この位置情報
は、１．所定のオリジナル列位置（トークン）からタッ
プルを形成するために使用したトークンの第１オリジナ
ル部分列の第１トークンへの置き換え、あるいは２．同
じものをタップルを形成する全てのオリジナル部分列の
第１トークンの平均位置への置き換え、あるいは３．１
以上のオリジナル部分列に関するトークンの位置を使用
し、演算可能な他の置き換え、を含む。

【００１５】全ての所望のオリジナル列をこのように処
理した後、参照シーケンスをオリジナル列に照合させ
る。これを行うために、参照タップルと称するタップル
および固有に識別する参照インデックスを、上記と同じ
あるいは類似手順を使用した参照シーケンスから形成す
る。

【００１６】上記のルックアップ構造を使用して、参照
インデックスをオリジナル・インデックストと比較す
る。参照インデックスを使用してルックアップ構造内の
セルを示す。参照インデックスがオリジナル列に関する
１以上の情報記録を有するセルを示す時は、１以上の各
々の照合が成立する。情報を持たないセルを参照インデ
ックスが示す時は、照合は成立しない。

【００１７】参照インデックスによって索引されたセル
内に記憶した各情報記録に対し、票を所定のオリジナル
列に対する多数の照合を探知するために使用される証拠
集積表（ＥＩＴ）と称される第２データ構造に記録す
る。通常、これはハッシュ表である。この第２構造で配
置されたセルは、参照列と照合するオリジナル列につい
ての仮説に対応する。また、セルは、票を与えられた仮
説の回数を表わす値を含む。例えば、この第２構造の票
セルへ入った票は、オリジナルなデータベースのある列
への票に対応する。参照シーケンスがデータベースのオ
リジナル列におけるトークン・シーケンスに類似すれば
するほど、参照シーケンスの参照インデックスとオリジ
ナル列のオリジナル・インデックス間での照合の発生す
る確率は高くなる。参照列と類似あるいは同一のオリジ
ナル列に対応する第２メモリ構造の票セルは、比較的票
数が高くなる。逆に、参照シーケンスがオリジナル列の
トークン・シーケンスに類似しなくなるほど、オリジナ
ル列から形成した各タップルに固有に関連させたオリジ
ナル・インデックスと参照インデックス間での照合確率
は低くなる。こうしたケースでのＥＩＴの票セルは、票
数がわずかであるか、皆無となる。したがって、ＥＩＴ
の各々の票セルの票数は、参照シーケンスとセルによっ
て表示されたオリジナル列間の類似程度と直接関係を有
する。

【００１８】最終的に、ＥＩＴにおける情報をデータベ
ースのオリジナル列で参照シーケンスに（厳密に、また
は類似して）対応するトークン・シーケンスを位置決め
するために使用される。初めに、所定のしきい値より上
の値を有するＥＩＴのセルを選択する。次に、関連のポ
インタを使用してデータベース内の１ないし複数のオリ
ジナル列を位置決めする。そして、オリジナル列の照合
したトークン・シーケンスを、選択したインデックスに
関連した置き換え情報を使用して見つけだす。

【００１９】

【実施例】この方法は、所望のハッシュおよび本方法が
必要とするルックアップ機能を実行可能な、いかなる汎
用コンピュータでも実施できるように作られたものであ
る。また、コンピュータはオリジナル列の全てのトーク
ンや本方法で使用するデータ構造を記憶するに充分なメ
モリを必要とする。

【００２０】以下、本発明の方法で用いる各記号を説明
する表−１、表−２を示す。

【００２１】表−１Ｘデータベースを構成するオリジナル列
の集合 χｉオリジナル列のデータベースにおける
オリジナル列 χｒｅｆ参照列 χＯオリジナル列内のトークンのシーケン
ス χＯｒｅｆ参照列内のトークンのシーケンスＮχ データベース内のオリジナル列の全数
量 μ 部分列 τ 列または部分列内のトークンの値 τｉ列または部分列上の第ｉ番目の位置に
おけるトークンの値ｎτ 可能性のあるトークン値の数Ｐｉ列または部分列上の第ｉ番目の位置 μ（Ｐ，ｌ）大きい列のＰ位置で開始し、ｌトーク
ンの長さを有する部分列 Κ 大きい列を区切って得た集合のｊ−タ
ップルの数

【００２２】表−２Ｍ区切ることによって形成した部分列の
集合 ξ オリジナル・タップル ξｒｅｆ参照タップルｊ−ｔｕｐｊ個の部分列で形成したタップルで、
その少なくとも２個は隣接してない ξ（ｊ，Ｌ）長さＬでタップル順ｊのｊ−タップル ξｋ（ｊ，Ｌ）全長さＬの第ｋ番目のｊ−タップルＬｓ所定の列のトークンにおける長さ γ オリジナル・インデックス γｒｅｆ参照インデックス ρ ルックアップ構造における情報記録 α 情報記録におけるポインタ δ オリジナル・タップルについての置き
換え情報 Δ 参照タップルについての置き換え情報

【００２３】本発明の総括的方法を図１、図２のブロッ
ク図で示す。この方法は、データベースからオリジナル
列を選択することによって開始する（ステップ１０）。
この列を隣接したトークンの部分列に区切り（ステップ
１５）、そのうち少なくとも２個は非隣接的に追加さ
れ、オリジナル・タップルを形成する（ステップ２
０）。このオリジナル・タップルを使用してオリジナル
・インデックスを作る（ステップ２５）。オリジナル・
インデックスは次に、ルックアップ構造のセルにオリジ
ナル列とインデックスに関連した情報を記憶させるため
に使用される（ステップ３０）。このプロセスをデータ
ベースの各々のオリジナル列について繰り返す（ステッ
プ３２）。同様にして、参照インデックスを参照シーケ
ンスから作る。すなわち、参照シーケンスを区切って隣
接したトークンの部分列とし（ステップ３５）、その少
なくとも２個を非隣接的に追加して参照タップルを形成
する（ステップ４０）。オリジナル・タップルからオリ
ジナル・インデックスを作る方法と同じ方法を使用し
て、参照タップルから参照インデックスを作る（ステッ
プ４５）。次に、その参照インデックスをオリジナル・
インデックスと比較する（ステップ５０）。オリジナル
・インデックスと照合する参照インデックスの数を証拠
集積テーブル（ＥＩＴ）で探知する（ステップ５５）。
この照合と探知を、参照インデックスの全て（又は、あ
る部分集合）がオリジナル・インデックスと比較し終わ
るまで繰り返すことができる。オリジナル・インデック
スと参照インデックス間で照合した数の記録値を使用し
て、参照列に最も類似したオリジナル列を見つけだす
（ステップ６０）。オリジナル・インデックスに関連し
た他の情報を使用して、参照シーケンスに最も近く又は
正確に照合するトークン・シーケンスのオリジナル列上
の位置を決める（ステップ６５）。他の参照列を演算
し、同様の方法でオリジナル列に照合させる（ステップ
７０）。

【００２４】本発明による方法は、異なった（あるいは
同じ）長さのトークンのオリジナル列Ｘのデータベース
によって初めにスタートする。通常、それらシーケンス
はコンピュータ・メモリ内の位置にトークン・シーケン
スを記憶させる適切な方法で記憶させてある。例えば、
データベース内で多数のタンパク質列を表示するには、
そのタンパク質内で可能性のあるアミノ酸の各々をアル
ファベット文字に割り当てる。これらの文字はＡＳＣＩ
Ｉ（米国情報交換標準コード）が可能である。そして、
各タンパク質列を、コンピュータの連続的なメモリ位置
にＡＳＣＩＩ文字の列として表示する。１タンパク質列
の開始は、その列の開始ＡＳＣＩＩ文字（トークン）を
指摘するポインタによって示すことができ、一方、列の
終了は０という文字のように何らかの区切り文字によっ
て示すことができる。一般的に、データベースのオリジ
ナル列Ｘの集合はＸ｛χｉ；ｉ＝１，…，Ｎχ｝に
よって表わされる。

【００２５】次に、データベースＸ内の各オリジナル・
トークン列χは、２個以上の隣接したトークンμのオリ
ジナル部分列に区切られる。これを図示したものが図３
である。図３では、各トークン２０５から成るオリジナ
ル・トークン列χ、２００、はτによって示される。ト
ークンτｉ、２０７、はオリジナル・トークン列シーケ
ンス２００（又は、Ｐｉ）のｉ番目の位置２２０のトー
クンτを示す。また、図３において、μ（Ｐｉ、ｌ）
は、位置２２０（Ｐｉ）のトークンで開始し、トークン
長さｌ、２２５、を有するオリジナル列から取った隣接
し連続のトークン２１０のオリジナル部分列を示す。こ
のオリジナル列を区切ることにより、オリジナル部分列
２１０の集合を形成する。これはＭ μ（Ｐ１，ｌ
１），μ（Ｐ２，ｌ２），… μ（Ｐｋ，ｌｋ）で表わ
される。各オリジナル部分列はオリジナル列の位置Ｐｋ
でスタートし、各部分列はそれぞれ長さｌｋを有する。
例えば、オリジナル部分列μ（５、１４）は、オリジナ
ル列上の５番目の位置のトークンでスタートし、オリジ
ナル列の１３の次のトークンに続く、つまり部分列が１
４トークン長さを有するオリジナル列から取ったトーク
ンの部分列である。いくつかのケースでは、部分的ある
いは全オリジナル部分列の長さｌｋは、この集合内の他
のオリジナル部分列の長さに等しい。オリジナル部分列
は１トークン長さ以上でなくてはならない。

【００２６】ξｋで表わされるＫオリジナル・タップル
の集合はｊオリジナル部分列（ｊは２以上）を共に加え
ることによって形成される。その集合内の１個以上のタ
ップルは、２個以上の非隣接オリジナル部分列を共に加
えることによって形成する。他の隣接部分列をこのタッ
プルに追加することも、しないことも可能である。ま
た、この集合の他のタップルを隣接した部分列を共に追
加することによって形成することも、しないことも可能
である。図１のステップ２０を参照のこと。オリジナル
列における第２部分列の第１トークンが第１部分列の最
終トークンに続くなら、２個のシーケンスを隣接して考
察することになる。

【００２７】オリジナル部分列のｊ個によって形成され
たオリジナル・タップルはオリジナルｊ−タップルと称
する。長さＬのｊ−タップルはξ（ｊ，Ｌ）の記号で表
示する。また、ｊ−タップル内のオリジナル部分列はμ
（Ｐ１，ｌ１），μ（Ｐ２，ｌ２），… μ（Ｐｊ，ｌ
ｊ）で表わす。あるケースでは、オリジナル部分列の長
さは全て等しくすることが可能である。

【００２８】種々のアルゴリズムを使用して部分列を追
加することによりタップルを形成することが可能である
が、それらのアルゴリズムは蓋然論と決定論の２グルー
プに分けられる。蓋然論的アルゴリズムによって発生さ
せたタップルはランダム傾向にある、すなわち、オリジ
ナル列の同じ集合上の同じアルゴリズムを使用すること
は、そのアルゴリズムを使用する度にタップルの異なっ
た集合を発生することになる。一方、決定論的アルゴリ
ズムは、そのアルゴリズムを使用する度にオリジナル部
分列の所定集合からタップルの同じ集合を常に発生す
る。

【００２９】例として、蓋然論的アルゴリズムを使用し
て、各２トークンごとの１７部分列の集合から３タップ
ルの集合を作る（３部分列を追加することによって１タ
ップルを作る）。このアルゴリズムは１７部分列の１
個、残った１６部分列の１個、さらに残った１５部分列
の１個をランダムに選択し、その３個の選択した部分列
を共に追加して第１の３タップルの集合を形成する。こ
の手続きを任意の回数（次の集合と異なることが起こり得る。それにもかかわら
ず、このタイプの蓋然論的アルゴリズムは、本発明で使
用可能なｊ−タップルの集合を形成することになる。

【００３０】決定論的アルゴリズムは、この方法におけ
るタップルを発生する望ましいアルゴリズムである。長
さ２の１７オリジナル部分列から３−タップルを作るた
めに使用した決定論的アルゴリズムの一例は、そのオリ
ジナル列の１番目、５番目、ップルを形成するために追加した部分列の数（２以上）
を変え、部分列を追加する方法を変えて使用するこの特
性を有する多数の決定論的アルゴリズムは、本明細書で
示した方法により当業者が考えることができる。これら
の多くの変更例を使用することは、本発明の対象とな
る。

【００３１】しかし、現存する本発明用のタップルを発
生するより望ましい決定論的アルゴリズムがあり、所定
の正確レベルを得るために使用したタップルの数を制限
する上で有効な、この望ましいアルゴリズムは以下のよ
うに定義される。

【００３２】長さＬｓのシーケンス、長さＬのｊ−タッ
プル、および順位ｊのタップルに対し、一連の整数、つ
まり部分列長さ（ｌ１，ｌ２，…，ｌｊ）を決定するの
は、Σｌｍ＝Ｌ（ここで、ｍ＝１からｊ）である。そ
して、以下の式−１に記載のｊ−タップルのｋ集合の全
てを形成する。

【００３３】

【数１】

【００３４】式−１において、ｊ−タップルの集合の各
要素ｋに対し、オリジナル列から区切ってタップルを形
成する部分列の第１番目のトークン位置（ｐ１，ｐ２，
…，ｐｊ）は以下のルール１、２、３を満たすようにタ
ップルを選択する。

【００３５】

【数２】

【００３６】優先を定めたしきい値より低いｊ（ｊ−
１）の集合および高い集合λ_ab ^-とλ_ab ⁺を有する。ップルを形成するために使用した部分シーケンスの部分
列はＰａより大きい開始位置のみ有することができるこ
とを示す。つまり、タップル内の部分シーケンスの部分
列はオリジナル列の開始位置から、かなり離れて開始し
なくてはならない。これは順番付けしたタップルを発生
する。２．式２は、部分列がオリジナル列の全長を越えてし
まう位置では部分列は開まわらず、またλ_ab ⁺を下まわらず、異なることができ
ることを示す。式３はこのアルゴリズムで発生させるタ
ップルの数を制限するのに最も適している。

【００３８】このより望ましい決定論的アルゴリズムを
説明するために一例を示す。オリジナル列は１８トーク
ン長さを有する。つまり、Ｌｓ＝１８。３−タップルの
集合を、各々２トークンの長さを有する１７オリジナル
部分列の集合から形成する。こうして発生したオリジナ
ル・タップルの集合の全てのタップルは６トークンの長
さを有し（Ｌ＝６）、３部分列を追加して（ｊ＝３）形
成する。部分列集合は、トークン位置Ｐ＝１で開始する
第１部分列、Ｐ＝２で開始する第２部分列、ｅｔｃ．を
Ｐ＝１７で開始する最終部分列が選択されるまで選択す
ることにより作られるので、１７の部分列が存在するこ
とになる。すなわち、オリジナル部分列集合Ｍは１７の
部分列：μ（１、２）、μ（２、２）、…、μ（１７、
２）から成る。この１７の部分列集合かの３の隣接する
部分列および非隣接部分列の全ての可能性がある順位付
けした組合せを取ると、６８０の３−タップルを作るこ
とが可能である。これは、式−２で表わす。

【００３９】

【数３】

【００４０】しかし、上記の３つのルールに当てはめる
と、４２の３−タップルの決定論的集合は結合力の範囲
を式−３として定義することによって作られる。

【００４１】

【数４】

【００４２】これら３ルールの基準を使用して、与えら
れた３−タップルはξ（３、６）Ｇｏｏｄ＝μ（５、
２）＋μ（７、２）＋μ（８、２）であり、一方タップ
ルξ（３、６）Ｂａｄ＝μ（５、２）＋μ（９、２）＋
μ（１０、２）はＰ２−Ｐ１＝次のステップである図１のステップ２５は、オリジナル
列から作ったタップルの各々について固有のオリジナル
・インデックスを作ることである。この発明の説明によ
れば、オリジナル・タップルの各々用のオリジナル・イ
ンデックスを作るために使用することができるコンピュ
ータ・プログラム業界で開発された数多くの技術があ
る。そうした技術は通常、写像、ハッシュ・テーブル、
あるいはア望ましい実施例では、固有インデックスγは、オリジナ
ル列の可能性のある各トークン値に、数値のような値を
初めに割り当てることで発生させる。これを行うこと
で、オリジナル列、およびその部分列とタップルが、そ
れぞれのトークンを表示する数値のシーケンスとなる。
一般的に、０とｎτの間の固有の番号τｉ（０≦τｉ＜
ｎτ）が各トークン、τに対して選択される。例えば、
ヌクレオチド・トークンのＤＮＡシーケンスにおいて、
４つの可能性があるヌクレオチド・

【００４５】そして、インデックス発生アルゴリズムが
数値（トークン）のシーケンスを固有インデックスに変
換するものとして定められる。インデックス発生アルゴ
リズムは非制限例として提示されるもので、他の多くの
アルゴリズムが本発明の記載に基づき、当業者によって
開発可能である。使用した望ましいインデックス発生ア
ルゴリズムは、式−４によって示される。

【００４７】ＤＮＡの例については、インデックス発生
アルゴリズムは、式−５によって示される。

【００４８】

【数６】

【００４９】タンパク質の例では、インデックス発生ア
ルゴリズムは、式−６によって示される。

【００５０】

【数７】

【００５１】例えば、ＤＮＡ例のＡＡＴＣＧＴのような
ｊ−タップルは初めに００３１２３という数字シーケン
スに翻訳し、式−７に示す固有インデックスを有する。

【００５２】

【数８】

【００５３】インデックス発生アルゴリズムを使用し
て、関心のある選択したオリジナル列のオリジナル部分
列（図１のステップ２０参照）から形成したオリジナル
・タップルの集合ξｋ（ｊ，Ｌ）における各オリジナル
・タップルについての固有オリジナル・インデックスを
作る。同じアルゴリズムおよび手順を使用して、データ
ベース内の他の選択したオリジナル列の各々に対するオ
リジナル・タップルに関する固有オリジナル・インデッ
クスを作る。

【００５４】図１のステップ３０は、各オリジナル・タ
ップルに関係した情報がどのようにしてコンピュータ・
メモリ（通常、ハードディスクのような大容量の記憶装
置）に記憶させ、そのタップルに関係した固有のオリジ
ナル・インデックスを使用して後日のアクセス用にす
る。

【００５５】図４は本発明の望ましい実施例で使用した
第１データ・ルックアップ構造３００としての配列を示
し、各オリジナル・タップルに関係する情報を記憶させ
る。後のアクセス用の情報を記憶する他のインデックス
化の方法は当業界で公知であり、本発明でも対象となっ
ている。その方法は、情報記録のリストに対するポイン
タを有するベクトルから成る。

【００５６】図４に示したデータ・ルックアップ構造３
００は複数のセル３１０を有する配列である。このデー
タ・ルックアップ構造３００は少なくともｎLであり、
Ｌは使用した最も長いタップルの長さであり、ｎ＝ｎτ
はオリジナル列の可能性のあるトークン値の数である。
（ＤＮＡのケースでは、ｎ＝４は可能性がある４個のヌ
クレオチドの数的表示の数）。これを行うことで、発生
した各オリジナル・インデックスに固有な関係を有する
１以上のセルを保証する。この実施例では、発生させた
オリジナル・インデックスに関連のない多くのセルも存
在することに注意を要する。セルが発生したインデック
スと関連づけられるなら、インデックス３１２（γ）を
発生させたオリジナル列とタップルについての情報記録
３１４（ρ）の情報をセルに追加する。セル３１０は多
数の情報記録３１４、３２６を有する。最小限、この情
報記録はタップルを作ったデータベースのオリジナル列
に対するポインタ３１５を有する。情報記録はオリジナ
ル・タップルのオリジナル列上の位置についての情報３
２０も含むことが望ましい。さらに、タップルを発生さ
せるために追加した部分列の位置や、タップルそのもの
に関する追加情報もセルに入れることが望ましい。（以
下の説明を参照）。望ましい実施例では、発生したイン
デックスと無関係なセルは空白のままにして区別する。

【００５７】さらに、本発明の望ましい実施例では、セ
ル３１０が、発生した同一のインデックスを有する２以
上のオリジナル列に関する２以上の情報記録用のルーム
を有する。つまり、セルは各々がポインタ（３１５、３
２５）を含んだ多重情報記録のリスト３２８を有すると
いうことである。ポインタ３２５を含んだセル・リスト
３２８の各情報記録３２６は、そのポインタ３２５に関
連のある位置情報３３０も含むことができる。２以上の
オリジナル列が同じインデックスを発生させるなら、同
一のインデックス３１２を発生する各オリジナル列に関
する情報を、その共通インデックス３１２に関連した単
一セル３１０位置内の情報記録のリスト３２８に追加す
る。このリスト３２８は動的あるいは静的なものが可能
である。静的リストはオリジナル列の固定番号に適応し
た情報を記憶するためのルームを有し、割り当て量を超
過するスペースを要する情報は放出する。動的リスト
は、共通インデックスを発生するいかなるオリジナル列
の情報も含有する大きさに拡大する。

【００５８】配列タイプのルックアップ構造３００は少
数のインデックスに適しているが、多量のインデックス
を有する場合は多数のルックアップ構造セル３１０が必
要である。さらに、多くの場合、大部分のセル３１０は
発生インデックス３１２に関係がないので、情報を持た
ない。こうした状況では、散在した配列を処理する公知
の方法を使用する。たとえば、ハッシュ・テーブルであ
る。

【００５９】当業界で公知のハッシュ・テーブルの実施
例は多数存在する。しかし、例えば、図５はハッシュ・
テーブルの１タイプとして第１ルックアップ構造を示し
ている。この例はセル０からｎとしたｎセルの比較的小
さな配列である。各発生インデックスを素数、例えば７
で乗じて、得られた数値、モジュロｎ、は４０５であ
る。そして、発生ハッシュ・インデックス４１２を、識
別番号がモジュロ演算の値と照合するセル４１０と関連
づける。このインデックスに関連づけた情報記録４１４
をその選んだセルに位置させる。この方法は、各発生イ
ンデックスに固有に割り当てるに充分なセル４１０がハ
ッシュ・テーブル内にあることとする。発生インデック
スを、すでに他の異なったインデックスに割り当てたセ
ルに写像するなら、そのインデックスは作り直され再割
り当てされる。例えば、モジュロの値に７を乗じ、その
モジュロを再度使う。この結果は異なったセルを識別す
る数となる。これを空白のセルが見つかるまで繰り返
す。

【００６０】第１ルックアップ構造のセル内に記憶させ
た情報の説明をする。情報記録ρを使用して、証拠集積
テーブル（ＥＩＴ）と称する第２記憶構造内のある位置
へのアクセスを得る。少なくとも、情報記録はセル４１
２のインデックスを演算するのに使用したオリジナル列
に対するポインタ４１５、α、を含む。望ましい実施例
はポインタ４１５および置き換え４２０を記憶させる。
置き換え４２０、δ、は、ルックアップ構造セルに関連
したｊ−タップルを形成したオリジナル部分列のオリジ
ナル列上の位置に関する情報である。

【００６１】他の情報も必要に応じてセルに記憶させる
ことができる。これは他のポインタ４２５および置き換
え４３０情報を有する他の情報記録４２６を含むことに
なる。こうした情報記録４２６は必要に応じてセルに動
的に追加することが可能である。他の情報も含むことが
できる。例えば、セル４１０はｊ−タップルを形成する
部分列間の距離に関する情報を含む。

【００６２】参照／ポインタ等はコンピュータ業界にお
いて公知のことであり、本発明ではルックアップ構造セ
ルのようなメモリ位置に記憶させることができ、またオ
リジナル列を表わし、メモリに記憶させたトークンのシ
ーケンスを位置決めするために使用することのできる、
いかなるポインタも対象となる。参照／ポインタの一例
は、位置を示すオリジナル列の第１（または他の）トー
クンを含有するメモリ位置のアドレスである。あるい
は、望ましい参照／ポインタは、（整数）番号付けした
列のデータベース内のオリジナル列のインデックスに対
応する数字（整数）である。

【００６３】置き換え情報は、タップルを作るために使
用したオリジナル列が位置するトークンのオリジナル列
上の平均的あるいは厳密な位置を表示したものである。
その部分列の位置を推測する方法は多く存在する。たと
えば、オリジナル列χｉから導き出したタップルの置き
換え情報ξｋ（ｊ，Ｌ）はδｋで示される。この置き換
え情報δｋは、オリジナル列χｉの第１トークンτｉの
ようなある所定トークンから、メモリ構造のセルによっ
て固有に識別されるタップル（インデックス）を作るた
めに使用された第１部分列の第１トークン（または、第
２、第３、ｅｔｃ．）のような他のあるトークンへのト
ークン列における距離（偏り）とすることが可能であ
る。最も望ましい実施例は、オリジナル列の開始点から
タップルを発生するために使用した部分列の各々の開始
点のトークン列内の距離の平均を使用する。この平均は
δｋａｖｅと表示される。それゆえ、ｊ−タップルは、
オリジナル列の第１トークンからｊ部分列の各々におけ
る第１トークンへのトークン内の距離を平均化して求め
たδｋａｖｅを有する。

【００６４】関係のあるオリジナル列に対するオリジナ
ル・タップルおよび関連づけたオリジナル・インデック
スが発生し、また各発生オリジナル・インデックスに対
する情報記録を第１ルックアップ構造の各々のセルに記
憶させた後、参照タップルと関連の固有参照インデック
スを作る。図１、図２のステップ３５、４０、４５を参
照。これは、１．所定の参照列を２以上の隣接したトー
クンの参照部分列に区切ること、２．２以上の隣接しな
い参照部分列を共に加えて１以上の参照タップルを形成
すること、３．そのルックアップ構造内のインデックス
を発生するために使用した同じインデックス発生手段を
使用して参照インデックスを発生させること、によって
達成される。

【００６５】参照列χｒｅｆは、この参照列がデータベ
ースの１以上のオリジナル列のある部分（部分シーケン
ス）に正確に、あるいは類似的に照合するかどうか判定
するために、データベースのオリジナル列と比較するト
ークンのシーケンスである。

【００６６】図１のステップ３５に示したように、参照
タップルξｒｅｆ、つまり、この参照列から形成したタ
ップルを形成するために、参照列を初めに参照部分列と
称する隣接したトークンの部分列に区切る。この区切り
は、オリジナル部分列を区切るための前述のいかなる方
法によっても実行できる。この参照列は、オリジナル列
を区切った方法より多くの方法によって部分列に区切る
ことができる。しかし、望ましい実施例では、オリジナ
ル列と参照列の両者は同じ方法で区切ることが望まし
い。図１のステップ４０に示したように、参照タップル
ξｒｅｆは２以上の隣接しない参照部分列を共に加える
ことによって形成する。この参照部分列の追加は、オリ
ジナル・タップルを形成するためにオリジナル部分列を
加えた前述のいずれの方法によっても行われる。しか
し、参照部分列は、オリジナル・タップルを形成するた
めにオリジナル部分列を追加するという方法で参照タッ
プルに加えられなくてはならない訳ではない。

【００６７】図１のステップ４５に示したように、参照
インデックスγｒｅｆは参照タップルから作られる。前
述のように、各参照タップルは１個の固有参照インデッ
クスを持つ。実際、各参照タップルに対して作られた固
有参照インデックスは、上記のオリジナル・タップルか
らオリジナル・インデックスを作ったのと同じインデッ
クス発生アルゴリズムを使用することにより作られるべ
きである。

【００６８】参照置き換え情報Δも、参照タップルを作
るために使用した参照部分列の参照列上の位置を決める
ために演算される。どの一般方法、たとえばオリジナル
列に対する置き換え情報を発生させる上述の方法、も参
照部分列用の位置情報を作るために使用することができ
る。また、参照タップル用の置き換え情報を決定するた
めに使用した方法は、オリジナル・タップル用の置き換
え情報を決定するために使用した方法とまったく同じに
する。

【００６９】一度、参照インデックスを作り、それをオ
リジナル・インデックスと比較して照合するかどうか判
定する。図１のステップ５０に示すように、２つのイン
デックス（数字）あるいは２つのインデックスのリスト
（数字）を比較して照合を判定する公知のいかなる方法
でも、本発明で使用できる。しかし、参照インデックス
とオリジナル・インデックスを比較する望ましい方法は
ルックアップ構造を使う方法である。この方法を実施す
るために、各参照インデックスを使用して、基準インデ
ックスと等しいオリジナル・インデックス（３１２、４
１２）に関連したルックアップ構造のセル（図４の３１
０、図５の４１０）をアクセスする。アクセスしたセル
に１以上の情報記録（３２８または４２８）があるな
ら、参照インデックス（３５０または４５０）とアクセ
スしたセル（３１０または４１０）に関係した１以上の
オリジナル・インデックス（３１２または４１２）（タ
ップル）間の照合が存在する。そのセルに情報記録がな
ければ、照合もなく、この参照タップルに対する処理は
行われない。

【００７０】図２のステップ５５に示したように、参照
インデックスとオリジナル・インデックス間の照合を第
２メモリ記憶域ＥＩＴ内で探知する。ＥＩＴ５００内の
セル５１０（投票セル）に対するアクセスを、照合した
参照インデックスとオリジナル・インデックスと関連し
たルックアップ構造のセル（３１０または４１０）内の
情報記録（３１４または４１４）の一部、あるいは全て
を使用して発生させた投票インデックス５１２を使用し
て得る。一般的に、情報記録内の参照／ポインタ（３１
５または４１５）のみ投票インデックスとして、あるい
は投票インデックスを演算するために使用しなくてはな
らない。より望ましくは、情報記録内の参照／ポインタ
および参照タップルΔの置き換え情報を使用して、投票
インデックス５１２を演算する。しかし、投票テーブル
５００内のセルにアクセスするために投票インデックス
５１２を発生する最も望ましい方法は、参照／ポインタ
（３１５または４１５）および、情報記録（３２０また
は４２０）内で見つけた置き換え情報と参照タップルΔ
の置き換え情報間の微細な相違を使用することである。

【００７１】望ましい実施例の投票インデックス５１２
は、参照／ポインタ（３１５または４１５）α、および
照合の偏り（情報記録ρの置き換えδの差から、参照置
き換え情報Δを引いて計算した値）から演算する。照合
の偏りＤｏは、オリジナル列上の所定のトークン、たと
えば、第１オリジナル列トークンから、参照列上の所定
トークン、たとえば第１参照列トークンへのトークンの
距離に対応し、オリジナル列および参照列上の照合トー
クン・シーケンスは、その列が照合した偏り距離によっ
て示される時に整列させる。つまり、照合偏り（Ｄｏ＝
δａｖｅ −Δｋａｖｅによって算出）は、各々の照合
オリジナル・タップルと参照タップル（インデックス）
が導き出された照合シーケンスを整列させるためにオリ
ジナル列が参照列に対して移動しなくてはならないトー
クン内の距離を示す。

【００７２】一度、照合偏りＤｏが決定されると、投票
インデックス５１２がアルゴリズムによって作られる。
本発明の対象とする特性を有するインデックスを作る方
法は、従来より多く存在する。しかし、望ましい方法
は、情報記録（３２８または４２８）内の参照／ポイン
タ（３１５または４１５）αに最大の可能性のある照合
偏りに等しい定数を乗じ、また照合偏り値を加えること
である。定数は、ルックアップ構造情報記録から作るこ
とが可能な、各可能性のあるポインタと照合偏りの組合
せに対する固有投票インデックスをアルゴリズムが発生
するように選ぶ。そのアルゴリズムを逆にすることによ
り、参照／ポインタと照合偏り値を投票インデックスか
決定することができる。ＥＩＴ内の各セルは参照列に関
する所定の照合偏りで１オリジナル列を固有に識別す
る。

【００７３】投票インデックスによってアクセスするＥ
ＩＴ５００の投票セル５１０を使用して、上記したよう
にルックアップ構造および参照インデックスを使用する
ことによって対応の照合を登録する度に、所定照合偏り
のオリジナル列に対する票５１５を記憶させる。ＥＩＴ
５００の各投票セル５１０Ｃの値５１５は、該当セルの
投票インデックスが発生する度に更新される。照合が成
立する時、つまり、ルックアップ構造のセルが１個以上
の情報記録エントリを持つ時、情報記録内の参照／ポイ
ンタと算出した照合偏りを用いて投票インデックス５１
２を発生させる。参照／ポインタと照合偏りに関連した
固有の投票セルは投票インデックスによってアクセスさ
れ、その値ｃは所定量、通常は整数値１づつ増加する。
したがって、各投票セル内の値ｃ、５１５は、オリジナ
ル列および参照列が同一のインデックスおよび照合偏り
の同じ値を何回発生したのか直接示すものである。それ
ゆえ、本発明の望ましい実施例では、ｃの高い値を持つ
ＥＩＴ内のセルは、照合偏りによって表示される時に対
応するオリジナル列が参照列に類似あるいは同一となる
高い可能性を有することを示す。

【００７４】ＥＩＴの実施例については、配列、ベクト
ル、ハッシュテーブルの例のように公知の多数の構造が
ある。配列およびその１ディメンジョン部分列、ベクト
ル等は望ましい実施例を使用する膨大なデータベース用
に充分大きいことが要求される。これは、固有投票セル
が可能性のある各々のポインタと照合偏りの組合せに対
して必要とされることによる。これらセルの大部分は、
投票セル５１０の全てがオリジナルと参照タップル（イ
ンデックス）照合に関連づけられるということが極めて
希であるから、本発明の通常の適用ではアクセスされな
い。したがって、配列（ベクトル）は滅多に満たされる
ことなく、スペースの大部分が無駄になる。望ましい実
施例は記憶要求を減じるためにハッシュテーブルを使用
する。ハッシュテーブルの技術は公知であり、その例は
上記したとおりである。このハッシュテーブルは静的で
も動的でも可能であり、静的ハッシュテーブルは固定数
の投票セルを有し、一方、動的ハッシュテーブルは無、
あるいはわずかの投票セル、また、照合が成立する時に
始動し、より多くの投票セルを定義しテーブルに加え
る。望ましい実施例は動的ハッシュテーブルである。

【００７５】図１のステップ６０に示したように、所定
しきい値より上の値ｃを有するＥＩＴ内の全てのセル
は、オリジナル列の照合の指摘に応じて選択される。そ
して、ｃ値に直接比例する類似率が演算される。

【００７６】図１のステップ６５に示したように、セル
の投票インデックスの値を逆にすることにより、オリジ
ナル列に対する参照／ポインタ、および各々の照合偏り
を正確に決定することが可能である。

【００７７】オリジナル列χｏ内のトークン・シーケン
スと参照列χｏｒｅｆ内のトークン・シーケンス間で成
立可能な照合は基本的に２タイプある。つまり、厳密な
照合と類似的照合である。

【００７８】厳密な照合は、参照列のシーケンスの各々
のトークンχｏｒｅｆがオリジナル列χｏ内のシーケン
スの各々のトークンと同じ値を持つ時、また同じ順位に
ある時に成立する。厳密な照合については、各々の参照
タップル（インデックス）がそれによって指示されたセ
ル内の同一オリジナル列に対する１以上の参照／ポイン
タを見つけ出すことになる。したがって、同一のオリジ
ナル列に対応する投票セルの値ｃが極めて高く、また照
合トークンを使用して作った参照タップルの数に少なく
とも等しくなる。

【００７９】オリジナル列内の少数のトークンよりわず
かを挿入、削除、あるいは修正して、オリジナル列χｏ
が参照列に厳密に照合するように変更することができる
なら、類似照合が成立する。類似照合については、各々
の参照タップル（インデックス）がそれによって指示さ
れたセル内の類似オリジナル列に対する参照／ポインタ
を見つけ出すことは、滅多にない。しかし、オリジナル
と参照列間の類似性が大きければ、正確な照合数も増加
し、それによりＥＩＴ内のオリジナル列に対する票数も
大きくなる。ゆえに、所定参照列と比べる時、異なった
オリジナル列が受けるＥＩＴ内の票数を比較することに
より、各オリジナル列と参照列間の類似程度を確立する
ことができる。（全参照タップルを比較した後）ＥＩＴ
内の高い票数を受けるオリジナル列は、低い票数を受け
るオリジナル列よりその参照列との類似性が大きい。

【００８０】要約すると、オリジナル列の厳密な照合お
よび類似照合が判定された後、それをデータベースに位
置決めする。図１のステップ６０および６５に示したよ
うに、これを実行するには、所定しきい値より上の値ｃ
を有するＥＩＴ内のセルを選択する。そして、その選択
したセルの投票インデックスを逆にして、この票の原因
となったオリジナル列の位置（あるいは他の表示）、お
よび照合シーケンスを整列させるための参照列とオリジ
ナル列を整列させるために使用した置き換え情報等を決
定する。ルックアップ・テーブルの情報記録を使用し
て、票の原因となったオリジナル列とシーケンスの照合
をセル内で位置決めすることも可能である。ステップ７
０で示すように、比較する参照列がさらに存在するな
ら、このプロセスはステップ３５から再度、スタートす
る。

【００８１】例１本発明の方法を使用して列捜索の非制限例を説明する。
この例は、辞書やスペルチェックのような列認識方法の
応用である。オリジナル列はＨＯＴＥＬであり、参照列
はＨＯＳＴＥＬである。この両者の部分列は長さ方向に
おける１トークンの形で選ばれ、タップルは同様に３ト
ークンの形で選ばれる。したがって、オリジナル部分列
は、Ｈ，Ｏ，Ｔ，Ｅ，Ｌであり、参照部分列は、Ｈ，
Ｏ，Ｓ，Ｔ，Ｅ，Ｌである。タップル（オリジナルと参
照の両者）を発生させるために使用した決定論的アルゴ
リズムは、この３部分列の全ての可能性がある固有の組
合せの選択である。したがって、オリジナル・タップル
は、ＨＯＴ，ＨＯＥ，ＨＯＬ，ＨＴＥ，ＨＴＬ，ＨＥ
Ｌ，ＯＴＥ，ＯＴＬ，ＴＥＬである。参照タップルは、
ＨＯＳ，ＨＯＴ，ＨＯＥ，ＨＯＬ，ＨＳＴ，ＨＳＥ，Ｈ
ＳＬ，ＨＴＥ，ＨＴＬ，ＨＥＬ，ＯＳＴ，ＯＳＥ，ＯＳ
Ｌ，ＯＴＥ，ＯＴＬ，ＳＴＥ，ＳＴＬ，ＳＴＥ，ＳＴ
Ｌ，ＴＥＬである。

【００８２】理解を容易にするため、数インデックスは
このタップルから発生させない。情報記録はルックアッ
プ・テーブル内のセルに入れる。簡略にするため、情報
記録は、データベース内のオリジナル列ＨＯＴＥＬのス
タート位置を示すポインタのみ有する。

【００８３】オリジナル・タップルに各参照タップル
（インデックス）を比較した結果は、９個の照合があっ
た。この結果をＥＩＴに入れる。この例では、９個の照
合が高い相関関係を示している。ＳＯＬＩＤのような参
照列は照合が成立しない。

【００８４】これは、強い類似性を示すＨＯＴＥＬとい
う語について全体で９個の照合が成立する。３文字の隣
接したシーケンスを使用することは、ＴＥＬについて１
個の照合を生み出すことに注目すべきである。文字の部
分的変更（例えばＥがＡに）は隣接したシーケンスでは
まったく照合が成立せず、隣接しないケースでは３個の
照合が成立した。

【００８５】図７乃至図１２は、オリジナル・タップル
（インデックス）を作り、この参照列に照合するタップ
ル（インデックス）に関連させたオリジナル列を位置決
めするために、本発明が使用するコンピュータ・プログ
ラムのフローチャートである。図７乃至図９は、オリジ
ナル・タップル、オリジナル・インデックス、および関
連させた情報記録を作るコンピュータ・プログラムの一
続きのフローチャートを分けて示したものである。図１
０乃至図１２は、参照タップル、参照インデックスを作
り、また、参照インデックスとオリジナル・インデック
スを照合し、ＥＩＴを更新するコンピュータ・プログラ
ムの一続きのフローチャートを分けて示したものであ
る。

【００８６】図７乃至図９において、ステップ６１０で
は、任意の長さＬの１以上のトークンのシーケンスを、
オリジナル列χとしてコンピュータ・データベースＸ内
に入れる。各オリジナル列を、ポインタあるいはポイン
タに対するインデックスである参照値αで割り当てる。
ステップ６１５に示すように、統一性の最小範囲および
最大範囲もこの時点でメモリに記憶させる。ステップ６
２０では、上記のルールに基づいて、オリジナル列の範
囲外のオリジナル・タップルを作る一連の入れ子ループ
の外ループをスタートさせる。オリジナル列用のステッ
プ６２０への第１入口によって、オリジナル列の第１ト
ークンが選択される。ステップ６２５では、ルール２を
使用してこの時点でスタートした部分列の長さがオリジ
ナル列の長さを越えるかどうか判定する。もしそうな
ら、プログラムはこのオリジナル列に対して終了する。
もし否なら、プログラムはステップ６３０に進み、第２
の部分列開始位置を選択する。この位置は、これより前
にスタートしたトークン位置２の開始点よりオリジナル
列の開始点のはるか下流へ１トークンをスタートさせ
る。ルール１は、前の列のオリジナル列より下流で次の
列がスタートする限り満たされる。このステップは入れ
子ループの第２レベルをスタートさせる。ステップ６３
５はルール２を第２選択ループへ適応する。そのルール
が破られると、制御はステップ６２０か外入れ子ループ
へ戻る。ルールが満たされるなら、制御は入れ子ループ
の第２レベル内に留まり、ルール３の条件がステップ６
４０で適応される。ルール３の条件が失効するなら、第
２部分列用（入れ子ループの第２レベル内で）の別のス
タート位置が選択され、このプロセスは反復する。ステ
ップ６４５、６５０で、最終オリジナル部分列のスター
ト位置に到達するまでこのプロセスは繰り返される。本
来、ステップ６４５、６５０は、ｊ−タップルの所定数
ｊの部分列のルールを満たすｊ−タップルの組合せ全て
を作るために使用するサブループの任意の数を示す。２
つの部分列、つまりｊ＝２、のみを使用するなら、ステ
ップ６４５、６６５は削除できる。オリジナル列の最終
部分列でスタートすることによってタップルが作られる
時点で、このプロセスはステップ６５５へ移る。選択し
た列がステップ６６０でルール２を破るなら、制御は矢
印で示した外ループでステップ６５０に戻る。全てのル
ープによりこの列の終点に達したなら、制御はステップ
６２０の最も外側のループレベルに達し、ステップ６２
５の段階のプログラムが存在するまで、外ループへの流
れを維持する。

【００８７】ｊ番目の部分列について、ルール２、３の
条件をチェックし、上記と同じ方法によりステップ６６
０および６６５のオペレーションを行う。ステップ６７
０に示すように、ループによって選択されたｊ部分列の
全てはルール１、２、３と３つのルールを満たし、それ
を共に加えることによりタップルを形成する。ステップ
６７０で形成したタップルの固有オリジナル・インデッ
クスを、上記方法を使用してステップ６７５で作る。上
記のように、ｊ−タップルの置き換え情報をステップ６
８０で演算し、その情報記録をステップ６８５で演算す
る。ステップ６９０では、作ったｊ−タップルに関連し
た情報記録のリストをルックアップ・テーブルから引き
出す。そこに該当するものがないなら、新たな情報記録
をリストに加え、そのリストをルックアップ・テーブル
に再登録する。次に、制御はステップ６５５に戻り、こ
の入れ子ループのレベルで次のタップルを発生させる。
図７、８、９のフローチャートに示したプロセスは、デ
ータベースの各オリジナル列について繰り返し実行され
る。

【００８８】図１０乃至図１２に示すように、ステップ
７１０では、データベース内に対象となる参照列を記憶
する。ステップ７１５では、ＥＩＴ構造を作り、また統
一の最小範囲および最大範囲を選択する。ステップ７２
０から７７５では、上記した図７乃至図９でおこなった
オリジナル列に対する方法とまったく同じようにして、
参照列から参照タップルおよび参照インデックスを作
る。ステップ７８０は参照置き換え情報Δを演算する。
ステップ７９０では、発生させた参照インデックスを使
用し、情報記録／リストをその発生参照インデックスに
等しい値によって索引されるルックアップ構造のセル内
にアクセスする。ステップ７９５では、情報記録／リス
トが空かどうかチェックする。空なら、制御はステップ
７５５に戻り、次の参照インデックスを発生させるオペ
レーションを行う。セルが情報記録／リストを含んでい
るなら、ステップ８００でリストの第１情報記録を選択
する。投票（ＥＩＴ）インデックスをステップ８０５で
上記したように演算する。ＥＩＴのセルが、ステップ８
１０で上記したように投票インデックスを使用してアク
セスされる。セルが存在しなければ、ステップ８１５で
セルを作り、ｃ＝０の値をそのセルに入れる。セルがあ
れば、ステップ８２０でセル内のｃ値を１づつ増加させ
る。このプロセスは、リストの全情報記録を投票するま
でステップ８２５、８３０で繰り返される。さらに情報
記録が無い時は、制御はステップ７５５に戻り、次の参
照タップルを発生させる。本発明では、上記した方法以
外にも他に多くのアルゴリズムの変更例が使用可能であ
る。

【００８９】例２本発明の最も望ましい実施例は、生体、特に人体のゲノ
ム探査への応用であり、ＤＮＡ列のヌクレオチド・シー
ケンスや他の生物情報の位置や目的を見つけることにあ
る。この方法を使用することにより、従来の方法による
ものに比べ、この情報は極めて迅速、かつ正確に決定す
ることが可能である。非制限例を説明する。

【００９０】人間のゲノムの全ては符号化されないが、
ヌクレオチド・トークン・シーケンスに分解したＤＮＡ
鎖の部分列を有するデータベースが市販されている。こ
の情報は容易にコンピュータのデータベースへ入れるこ
とができ、データの参照／ポインタ指示さえも提供可能
である。上記したのと同様のアルゴリズムを使用して、
このＤＮＡのオリジナル列を上記３ルールに従うヌクレ
オチドの隣接部分列に区切る。この隣接部分列を用い
て、１以上のオリジナル・タップルの集合を形成する。
この集合内の１以上のオリジナル・タップルは、ヌクレ
オチド・トークンの２以上の非隣接部分列を加えること
によって作られる。他のヌクレオチド・トークンの隣接
部分列もこのタップルに加えることができる。次に、こ
のオリジナルＤＮＡ列に関連した固有のオリジナル・イ
ンデックスを作る（上記の例を参照）。参照ヌクレオチ
ド・シーケンスを選択する。ヌクレオチド・トークンの
参照タップルを上記のように作る。再度、２以上の非隣
接参照部分列を共に加えることにより、１以上の参照タ
ップルを作る。オリジナル・インデックスを作ったもの
と同じインデックス発生アルゴリズムを使用して固有参
照インデックスを作る。この参照インデックスとオリジ
ナル・インデックスをルックアップ・テーブルを使用し
て一般的方法によるのと同じように比較する。最も望ま
しいルックアップ・テーブルは配列である。第２メモリ
構造、ＥＩＴを使用して照合を探知する。最も望ましい
ＥＩＴは動的ハッシュ・テーブルである。ＤＮＡオリジ
ナル列は所定しきい値より上の値を有するＥＩＴないの
ｃの値を使用して選択する。

【００９１】本発明の方法を、約４００万のヌクレオチ
ドを含む大腸菌のゲノムに対するヌクレオチドの参照列
を照合させるための試験に使用した。もちろん、本発明
は他に多くの応用が可能であり、例えばタンパク質のア
ミノ酸シーケンスの照合、文字列の認識、言語認識、音
楽認識等の例がある。

【００９２】例３アミノ酸トークンから成るオリジナルタンパク質列に対
するアミノ酸トークン・シーケンスの照合の方法はＤＮ
Ａの場合と類似している。アミノ酸トークンから成るオ
リジナル・タンパク質列は、データベースとして市販の
ものが入手可能であり、またコンピュータ・メモリに自
力で入力することも可能である。前述したように、可能
性がある２０のアミノ酸トークンは固有に識別するため
にアルファベット文字を割り当てられる。これらの文字
は固有の数値を与えられ、アミノ酸トークンの列は数列
に変換できる。オリジナルと参照のタップルおよびイン
デックスが作られ、前述のように比較される。照合数を
ＥＩＴ内で追跡し、所定しきい値より上のｃ値を有する
投票セルを位置決めすることによって照合するオリジナ
ル列をアクセスする。

【００９３】例４文字列認識は同様にして行われる。各文字を固有の数値
に割り当てる。文字トークンの列を一般方法を使用して
オリジナルと参照のタップルおよびインデックスを作る
ために処理する数列に変換する。そのインデックスを比
較し、照合をおこない、追跡する。オリジナル文字列
は、所定しきい値より上のＥＩＴ内のｃ値を見つけだす
ことによってデータベースからアクセスされる。

【００９４】例５言語認識は同様の方法によっておこなわれる。はじめ
に、言語を従来の公知技術を使用して音素に変換する。
言語パターンを音素トークン列にし、各音素トークンを
固有の数値に割り当て、オリジナルと参照の音素列トー
クンを数列に変換する。そして、上記の一般的方法を適
用する。

【００９５】例６音楽認識も本発明の方法を使用して行われる。歌や楽譜
は音符トークンのシーケンスである。各音符を数値ある
いはアルファベット値に割り当てる。例えば、ハ長調の
音符はＣＤＥＦＧＡＢＣと表わされる。フラットやシャ
ープ、休符、音の長さ（４分音符、８分音符、等）も別
のアルファベット値を使用して示すことができる。他の
変換技術は従来方法を使用して開発可能である。上記方
法を用いてアルファベット文字のシーケンスとなる歌や
楽譜は、数のシーケンスに換えることができる。そし
て、本発明の一般的方法を使用してデータベース内で音
符の参照シーケンスを音符のオリジナル列と照合させ
る。

【００９６】

【発明の効果】本発明によって、１以上のオリジナル列
を持つデータベース内のトークンの１以上のオリジナル
列でトークンの参照シーケンスと同一または類似のトー
クン・シーケンスを見つけだすための改良された方法が
提供される。

【図面の簡単な説明】

【図１】本発明の方法を全体的に示すフローチャートの
前半部である。

【図２】本発明の方法を全体的に示すフローチャートの
後半部である。

【図３】トークンから成るオリジナル列と、オリジナル
列のＰｉ位置で開始し、ｌトークンの長さを有するトー
クンの部分列を示す概略図である。

【図４】ルックアップ構造の望ましい実施例を示す概略
説明図である。

【図５】ルックアップ構造の別の望ましい実施例を示す
概略説明図である。

【図６】証拠集積テーブル（ＥＩＴ）の望ましい実施例
を示す説明図である。

【図７】オリジナル・タップルとオリジナル・インデッ
クスを作り、ルックアップ構造に関連情報記録を記憶さ
せるコンピュータ・プログラムのフローチャートの一部
である。

【図８】図７のフローチャートの続きである。

【図９】図８のフローチャートの続きである。

【図１０】参照タップルと参照インデックスを作り、参
照インデックスとオリジナル・インデックスを照合さ
せ、ＥＩＴを更新するコンピュータ・プログラムのフロ
ーチャートの一部である。

【図１１】図１０のフローチャートの続きである。

【図１２】図１１のフローチャートの続きである。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁵ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 3/00 ５３１Ｚ 7627−5Ｈ

Claims

【特許請求の範囲】

【請求項１】データベース内で１以上のオリジナルなト
ークン列とトークンの参照列間の類似性を認識するため
の方法において、ａ．各オリジナル・トークン列を２以上の隣接するオリ
ジナル部分列に区切ることと、ｂ．オリジナル列に関連した１以上のオリジナル・タッ
プルを形成するために、オリジナル列の２以上の隣接し
ないオリジナル部分列を追加すること、によってデータ
ベース内の各オリジナル・トークン列に対する１以上の
オリジナル・タップルを作る工程と、オリジナル列から作った各オリジナル・タップルに対す
る固有のオリジナル・インデックスで、しかもオリジナ
ル・タップルを作ったオリジナル列に関連したオリジナ
ル・インデックスを作る工程と、ｃ．トークンの参照列を２以上の隣接したトークンの参
照部分列に区切ることと、ｄ．１以上の参照タップルを形成するために２以上の隣
接しない参照部分列を追加すること、によってトークン
の参照列から１以上の参照タップルを作る工程と、オリジナル・インデックスを作った方法と同じ方法で各
参照タップルに対する固有の参照インデックスを作る工
程と、１以上の参照インデックスを１以上のオリジナル・イン
デックスと比較する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合を探知する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合数に基づき、データベース内のオリジナル・ト
ークン列を選択する工程、等から構成したことを特徴と
するオリジナルなトークン列とトークンの参照列間の類
似性を認識するための方法。
【請求項２】データベース内で１以上のオリジナルなト
ークン列のトークンの参照列を認識およびアクセスする
方法において、ａ．各オリジナル・トークン列を２以上の隣接するオリ
ジナル部分列に区切ることと、ｂ．オリジナル列に関連した１以上のオリジナル・タッ
プルを形成するために、オリジナル列の２以上の隣接し
ないオリジナル部分列を追加すること、によってデータ
ベース内の各オリジナル・トークン列に対する１以上の
オリジナル・タップルを作る工程と、オリジナル列から作った各オリジナル・タップルに対す
る固有のオリジナル・インデックスで、しかもオリジナ
ル・タップルを作ったオリジナル列に関連したオリジナ
ル・インデックスを作る工程と、第１メモリ・ルックアップ構造のセルを示すためにオリ
ジナル・インデックスを使用し、またオリジナル列に関
連した情報記録をそのセルに記憶させる工程と、ｃ．トークンの参照列を２以上の隣接したトークンの参
照部分列に区切ることと、ｄ．１以上の参照タップルを形成するために２以上の隣
接しない参照部分列を追加すること、によってトークン
の参照列から１以上の参照タップルを作る工程と、オリジナル・インデックスを作った方法と同じ方法で各
参照タップルに対する固有の参照インデックスを作る工
程と、１以上の参照インデックスを、上記メモリ・ルックアッ
プ構造を使用して１以上のオリジナル・インデックスと
比較する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合を探知する工程と、上記探知結果を第２メモリ・ルックアップ構造に記憶さ
せる工程と、上記１以上の参照インデックスと上記１以上のオリジナ
ル・インデックス間の照合数に基づき、データベース内
のオリジナル・トークン列を選択する工程、等から構成
したことを特徴とするオリジナルなトークン列のトーク
ンの参照列を認識およびアクセスする方法。
【請求項３】データベース内で１以上のオリジナルなＤ
ＮＡ列のヌクレオチドの参照列を認識およびアクセスす
る方法において、ａ．各オリジナルＤＮＡ列を２以上の隣接するヌクレオ
チド部分列に区切ることと、ｂ．オリジナルＤＮＡ列に関連した１以上のオリジナル
・タップルを形成するために、オリジナル列の２以上の
隣接しないオリジナル部分列を追加すること、によって
データベース内の各オリジナルＤＮＡ列に対する１以上
のオリジナル・タップルを作る工程と、オリジナルＤＮＡ列から作った各オリジナル・タップル
に対する固有のオリジナル・インデックスで、しかもオ
リジナル・タップルを作ったオリジナルＤＮＡ列に関連
したオリジナル・インデックスを作る工程と、第１メモリ・ルックアップ構造にオリジナルＤＮＡ列に
関する情報記録を記憶させ、その記録はオリジナル・イ
ンデックスによってアクセスされる工程と、ｃ．ヌクレオチドの参照列を２以上の隣接したヌクレオ
チドの参照部分列に区切ることと、ｄ．１以上の参照タップルを形成するために２以上の隣
接しない参照部分列を追加すること、によってトークン
の参照列から１以上の参照タップルを作る工程と、オリジナル・インデックスを作った方法と同じ方法で各
参照タップルに対する固有の参照インデックスを作る工
程と、１以上の参照インデックスを、１以上のオリジナル・イ
ンデックスと比較し、両インデックスが照合することを
判断する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合を探知する工程と、上記探知結果を第２メモリ構造に記憶させる工程と、上記１以上の参照インデックスと上記１以上のオリジナ
ル・インデックス間の照合数に基づき、データベース内
のオリジナルＤＮＡ列を選択する工程、等から構成した
ことを特徴とするオリジナルなＤＮＡ列のヌクレオチド
の参照列を認識およびアクセスする方法。
【請求項４】データベース内で１以上のオリジナルなタ
ンパク質列のアミノ酸の参照列を認識およびアクセスす
る方法において、ａ．各オリジナル・タンパク質列を２以上の隣接するア
ミノ酸部分列に区切ることと、ｂ．オリジナル列の２以上の隣接しないオリジナル部分
列を追加することにより、オリジナル・タンパク質列に
関連した１以上のオリジナル・タップルを形成するこ
と、によってデータベース内の各オリジナルタンパク質
列に対する１以上のオリジナル・タップルを作る工程
と、オリジナル・タンパク質列から作った各オリジナル・タ
ップルに対する固有のオリジナル・インデックスで、し
かもオリジナル・タップルを作ったオリジナル・タンパ
ク質列に関連したオリジナル・インデックスを作る工程
と、第１メモリ・ルックアップ構造に、関連する情報記録と
共に上記オリジナル・インデックスを記憶させる工程
と、ｃ．アミノ酸の参照列を２以上の隣接したアミノ酸の参
照部分列に区切ること、とｄ．２以上の隣接しない参照部分列を追加することによ
り、１以上の参照タップルを形成すること、によってト
ークンの参照列から１以上の参照タップルを作る工程
と、オリジナル・インデックスを作った方法と同じ方法で各
参照タップルに対する固有の参照インデックスを作る工
程と、１以上の参照インデックスを、１以上のオリジナル・イ
ンデックスと比較する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合を探知する工程と、上記探知結果を第２メモリ構造に記憶させる工程と、上記１以上の参照インデックスと上記１以上のオリジナ
ル・インデックス間の照合数に基づき、データベース内
のオリジナルタンパク質列を選択する工程、等から構成
したことを特徴とするオリジナルなタンパク質列のアミ
ノ酸の参照列を認識およびアクセスする方法。
【請求項５】データベース内で１以上のオリジナルな文
字列の文字の参照列を認識およびアクセスする方法にお
いて、ａ．各オリジナル文字列を２以上の隣接する文字部分列
に区切ること、とｂ．オリジナル列の２以上の隣接しないオリジナル部分
列を追加することにより、オリジナル文字列に関連した
１以上のオリジナル・タップルを形成すること、によっ
てデータベース内の各オリジナル文字列に対する１以上
のオリジナル・タップルを作る工程と、オリジナル文字列から作った各オリジナル・タップルに
対する固有のオリジナル・インデックスで、しかもオリ
ジナル・タップルを作ったオリジナル文字列に関連した
オリジナル・インデックスを作る工程と、第１メモリ・ルックアップ構造に、関連する情報記録と
共に上記オリジナル・インデックスを記憶させる工程
と、ｃ．文字の参照列を２以上の隣接した文字の参照部分列
に区切ること、とｄ．２以上の隣接しない参照部分列を追加することによ
り、１以上の参照タップルを形成すること、によってト
ークンの参照列から１以上の参照タップルを作る工程
と、オリジナル・インデックスを作った方法と同じ方法で各
参照タップルに対する固有の参照インデックスを作る工
程と、１以上の参照インデックスを、１以上のオリジナル・イ
ンデックスと比較する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合を探知する工程と、上記探知結果を第２メモリ・ルックアップ構造に記憶さ
せる工程と、上記１以上の参照インデックスと上記１以上のオリジナ
ル・インデックス間の照合数に基づき、データベース内
のオリジナル文字列を選択する工程、等から構成したこ
とを特徴とするオリジナルな文字列の文字の参照列を認
識およびアクセスする方法。
【請求項６】データベース内で１以上のオリジナルな音
素列の音素の参照列を認識およびアクセスする方法にお
いて、ａ．各オリジナル音素列を２以上の隣接する音素部分列
に区切ること、とｂ．オリジナル列の２以上の隣接しないオリジナル部分
列を追加することにより、オリジナル音素列に関連した
１以上のオリジナル・タップルを形成すること、によっ
てデータベース内の各オリジナル音素列に対する１以上
のオリジナル・タップルを作る工程と、オリジナル音素列から作った各オリジナル・タップルに
対する固有のオリジナル・インデックスで、しかもオリ
ジナル・タップルを作ったオリジナル音素列に関連した
オリジナル・インデックスを作る工程と、第１メモリ・ルックアップ構造に、関連する情報記録と
共に上記オリジナル・インデックスを記憶させる工程
と、ｃ．音素の参照列を２以上の隣接した音素の参照部分列
に区切ること、とｄ．２以上の隣接しない参照部分列を追加することによ
り、１以上の参照タップルを形成すること、によってト
ークンの参照列から１以上の参照タップルを作る工程
と、オリジナル・インデックスを作った方法と同じ方法で各
参照タップルに対する固有の参照インデックスを作る工
程と、１以上の参照インデックスを、１以上のオリジナル・イ
ンデックスと比較する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合を探知する工程と、上記探知結果を第２メモリ・ルックアップ構造に記憶さ
せる工程と、上記１以上の参照インデックスと上記１以上のオリジナ
ル・インデックス間の照合数に基づき、データベース内
のオリジナル音素列を選択する工程、等から構成したこ
とを特徴とするオリジナルな音素列の音素の参照列を認
識およびアクセスする方法。
【請求項７】データベース内で１以上のオリジナルな音
符列の音符の参照列を認識およびアクセスする方法にお
いて、ａ．各オリジナル音符列を２以上の隣接する音符部分列
に区切ること、とｂ．オリジナル列の２以上の隣接しないオリジナル部分
列を追加することにより、オリジナル音符列に関連した
１以上のオリジナル・タップルを形成すること、によっ
てデータベース内の各オリジナル音符列に対する１以上
のオリジナル・タップルを作る工程と、オリジナル音符列から作った各オリジナル・タップルに
対する固有のオリジナル・インデックスで、しかもオリ
ジナル・タップルを作ったオリジナル音符列に関連した
オリジナル・インデックスを作る工程と、第１メモリ・ルックアップ構造に、関連する情報記録と
共に上記オリジナル・インデックスを記憶させる工程
と、ｃ．音符の参照列を２以上の隣接した音符の参照部分列
に区切ること、とｄ．２以上の隣接しない参照部分列を追加することによ
り、１以上の参照タップルを形成すること、によってト
ークンの参照列から１以上の参照タップルを作る工程
と、オリジナル・インデックスを作った方法と同じ方法で各
参照タップルに対する固有の参照インデックスを作る工
程と、１以上の参照インデックスを、１以上のオリジナル・イ
ンデックスと比較する工程と、上記参照インデックスと上記オリジナル・インデックス
間の照合を探知する工程と、上記探知結果を第２メモリ・ルックアップ構造に記憶さ
せる工程と、上記１以上の参照インデックスと上記１以上のオリジナ
ル・インデックス間の照合数に基づき、データベース内
のオリジナル音符列を選択する工程、等から構成したこ
とを特徴とするオリジナルな音符列の音符の参照列を認
識およびアクセスする方法。
【請求項８】データベース内で１以上のオリジナルなト
ークン列のトークンの参照列を認識およびアクセスする
コンピュータ・システムにおいて、オリジナルなトークン列の集合を有するデータベース
と；ａ．各オリジナル・トークン列を２以上の隣接するオリ
ジナル部分列に区切ることと、ｂ．オリジナル列の２以上の隣接しないオリジナル部分
列を追加することにより各オリジナル列に関連した１以
上のオリジナル・タップルを形成すること、によって上
記データベース内の各オリジナル・トークン列に対する
１以上のオリジナル・タップルを作る手段と；オリジナ
ル列から作った各オリジナル・タップルに対する固有の
オリジナル・インデックスで、しかもオリジナル・タッ
プルを作ったオリジナル列に関連した固有オリジナル・
インデックスと；上記オリジナル・タップルを作ったオ
リジナル列に関連した情報を有するセルで、かつ上記オ
リジナル・インデックスによってアクセスされるセルを
有する第１メモリ・ルックアップ構造と；ｃ．トークンの参照列を２以上の隣接したトークンの参
照部分列に区切ることと、ｄ．２以上の隣接しない参照部分列を追加することによ
り１以上の参照タップルを形成すること、によってトー
クンの参照列から作った１以上の参照タップルと；オリ
ジナル・インデックスを作った方法と同じ方法で作られ
た各参照タップルに対する固有の参照インデックスで、
１以上の参照インデックスを、１以上のオリジナル・イ
ンデックスと比較した固有の参照インデックスと；上記
参照インデックスと上記オリジナル・インデックス間の
照合を探知するための第２メモリ・ルックアップ構造
と、上記１以上の参照インデックスと上記１以上のオリ
ジナル・インデックス間の照合数に基づき、データベー
ス内のオリジナル・トークン列を選択する手段；等から
構成したことを特徴とするオリジナルなトークン列のト
ークンの参照列を認識およびアクセスするコンピュータ
・システム。