JPH0698770A - トークン列データベースにおけるトークンシーケンスの探索 - Google Patents

トークン列データベースにおけるトークンシーケンスの探索

Info

Publication number
JPH0698770A
JPH0698770A JP16059793A JP16059793A JPH0698770A JP H0698770 A JPH0698770 A JP H0698770A JP 16059793 A JP16059793 A JP 16059793A JP 16059793 A JP16059793 A JP 16059793A JP H0698770 A JPH0698770 A JP H0698770A
Authority
JP
Japan
Prior art keywords
original
index
sequence
token
tuples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP16059793A
Other languages
English (en)
Other versions
JP2673091B2 (ja
Inventor
Andrea Califano
アンドレア・カリファノ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0698770A publication Critical patent/JPH0698770A/ja
Application granted granted Critical
Publication of JP2673091B2 publication Critical patent/JP2673091B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/964Database arrangement
    • Y10S707/966Distributed
    • Y10S707/967Peer-to-peer
    • Y10S707/968Partitioning

Abstract

(57)【要約】 【目的】 1以上のオリジナル列を持つデータベース内
のトークンの1以上のオリジナル列でトークンの参照シ
ーケンスと同一または、類似のトークン・シーケンスを
見つけだす方法の改良。 【構成】 オリジナル・トークン列に対する1以上のオ
リジナル・タップルを作る工程と、オリジナル列に関連
したオリジナル・インデックスを作る工程と、トークン
の参照列から1以上の参照タップルを作る工程と、各参
照タップルに対する固有の参照インデックスを作る工程
と、1以上の参照インデックスを1以上のオリジナル・
インデックスと比較する工程と、上記参照インデックス
と上記オリジナル・インデックス間の照合を探知する工
程と、上記参照インデックスと上記オリジナル・インデ
ックス間の照合数に基づき、データベース内のオリジナ
ル・トークン列を選択する工程、等から構成。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はデータベースにおけるト
ークンシーケンスを探索する方法に関する。特に、本発
明はあらかじめ定めた参照トークンシーケンスと類似ま
たは同一のデータベースにおけるトークンシーケンスを
探索する方法および、そのコンピュータ・システムに関
する。
【0002】
【従来の技術】従来、多くのトークン列のデータベース
で、参照シーケンスあるいは参照列と呼ばれている特定
のトークンシーケンスの発生を見つけるための多くの技
術がある。本明細書において、トークンとは文字、単
語、音、ビットパターン、のようなシンボル、あるいは
他のトークンでシーケンスを表わせる他の表記等を意味
する。こうした技術は、たとえばDNA(またはタンパ
ク質)分子からなるヌクレオチド(またはアミノ酸)の
長鎖におけるヌクレオチド(またはアミノ酸)の例のよ
うな、ある特定のトークンシーケンスと同一あるいは類
似のシーケンスを見つけだすことなどのように、特定の
仕事を行うために開発されたものである。(2つのシー
ケンスは、そのどちらか一方のトークンのあらかじめ設
定した数より少なく、挿入、削除、または訂正によって
同一とすることが可能なら、その2つのシーケンスは類
似である。)従来の照合技術の数件はNeedlema
nn−WunschまたはオリジナルのWilbur−
Lipmanアルゴリズム、FASTA,FASTPお
よびBLAST等を含む。
【0003】Needlemann−Wunschアル
ゴリズムは動的なプログラム技術である。比較対象の2
つのシーケンスにおける全てのトークンを、その2つの
シーケンス間の全ての考えられる候補アライメントを演
算するために、対にして考察する。コスト値は削除、挿
入、訂正等に関連する。最も小さい大域コスト値を発生
するアライメントが選択される。これは、必要な演算量
が比較する2つのシーケンスの長さの積に比例するので
高価な技術である。
【0004】Wilbur−Lipmanアルゴリズム
は、オリジナルの列と参照列における短い長さの隣接タ
ップルを比較する。参照列から作ったルックアップ・テ
ーブルを使用して両シーケンスについて複数のタップル
を照合させる。各候補照合のスコアを演算し、最良のス
コアを選択する。それゆえ、新しいルックアップが各時
間ごとに作られ、新しい参照シーケンスがそのデータベ
ースに対して比較される。オリジナル列の全体集合をそ
のルックアップ・テーブルに対して比較させるので、2
Nヌクレオチドまたはアミノ酸を含有するデータベース
に対する照合に要する演算の量はNヌクレオチドまたは
アミノ酸を含有するデータベースの倍になる。つまり、
必要なルックアップ・テーブルに対する比較回数は、全
オリジナル列に存在するヌクレオチドまたはアミノ酸の
全数量に少なくとも等しい。
【0005】FASTA,FASTPアルゴリズムはオ
リジナルのWilbur−Lipman技術を洗練した
ものである。感度の増加はアライメントをスコアするた
めに置き換え可能なマトリックスによって得られる。進
展変化(ヌクレオチドの削除、挿入、置換)のおいて頻
繁に現われる変異は良好なスコアを与え、一方、頻度の
少ない変異はスコアが悪い。しかし、そのアプローチの
実態は、未だ逐次的である。
【0006】BLAST技術は、オリジナル・シーケン
スと参照シーケンスが極めて早急に実施可能な初期最小
類似性テストを満たす際に、その両者の徹底した比較を
行う。これはMSP(最大セグメント対)の長さが所定
のしきい値より上であるかどうかを帰納法的に決定する
ことによって行われる。MSPは、変異に対する最上ス
コアを有する参照列とシーケンス列の同じ長さの部分列
対である。このテストが成功すれば、より完成度が高
く、コストの面で有利な同様の分析がFASTA−FA
STPタイプのアルゴリズムを使用して行われる。これ
は、初期参照を満たさない照合を逃すという危険がある
演算量を減らすことになる。Needlemann−W
unschアルゴリズムで検出した類似性の約20%
は、BLASTによって取り上げられない。また、いく
らかの演算をオリジナル列の集合内の各トークンに対し
て実施しなくてはならないので、このアプローチは本来
逐次的である。
【0007】従来技術は1対1ベース、つまり逐次的に
2つのトークン・シーケンス(このトークンは特にヌク
レオチドまたはアミノ酸である)を効率的に比較して成
功してきた。しかし、多くの従来技術は、オリジナルの
トークン列のデータベースにおけるトークンの参照シー
ケンスの考えられる照合の全てあるいは大部分を、その
オリジナルシーケンスの各トークンあるいは大部分のト
ークンについての演算を行わずに探索する上で困難があ
った。現在のコンピュータ技術は、リーズナブルな時間
内で莫大なデータベースについてそうした仕事を実施す
るのは不可能である。
【0008】したがって、トークンの参照列と、莫大な
データベース内のトークンの1以上のオリジナル列にお
けるトークン・シーケンスとの類似照合あるいは厳密な
照合を判定するインデックス方法の必要性を長いこと感
じていた。また、トークンのオリジナル列について類似
あるいは同一シーケンスの位置、および参照列に対する
類似の程度を早急かつ効率的に判定する必要もあった。
特に、遺伝子ゲノムの位置づけという領域では、現在の
コンピュータ技術を使用して40億万にいたるヌクレオ
チドを含むデータベースにおけるヌクレオチド・シーケ
ンス間で類似性を検出するための方法が必要と感じられ
ていた。
【0009】従来の技術は、トークンの参照列との照合
を探索する際に莫大なデータベースのオリジナル列のト
ークン・シーケンスを早急かつ効率的に位置決めするこ
とが欠落している。これは、従来技術が照合手続きでオ
リジナル列の全データベースを検索する必要があるとい
う理由による。従来技術は、可能性のある照合を含んだ
オリジナル列のみを早急かつ正確に特定するインデック
ス技術が欠落しているので、トークン列の照合を位置決
めするために全データベースを検索しなくてはならな
い。
【0010】
【発明が解決しようとする課題】本発明の主たる目的
は、1以上のオリジナル列を持つデータベース内のトー
クンの1以上のオリジナル列でトークンの参照シーケン
スと同一または類似のトークン・シーケンスを見つけだ
すための改良した方法を提供することである。本発明の
他の目的は、インデックスおよびハッシュを使用して、
1以上のオリジナル列を持つデータベース内のトークン
のオリジナル列でトークンの参照シーケンスと同一また
は類似のトークン・シーケンスを見つけだすための改良
した方法を提供することである。また、本発明の他の目
的は、DNA(またはタンパク質)分子を表わすヌクレ
オチド(またはアミノ酸)の複数のオリジナル列を有す
るデータベースにおけるヌクレオチド(またはアミノ
酸)の参照シーケンスと同一あるいは類似のヌクレオチ
ド(またはアミノ酸)のシーケンスを見つけだすための
改良した方法を提供することである。さらに、また本発
明の他の目的は、オリジナルな言語音素シーケンスのデ
ータベースにおける音素の参照シーケンスと同一あるい
は類似の音素シーケンスを見つけだすことによる言語認
識の改良した方法を提供することである。さらに、また
本発明の他の目的は、オリジナルの音調シーケンスのデ
ータベースにおける音調の参照シーケンスと同一あるい
は類似の音調シーケンスを見つけだすことによる音楽認
識の改良した方法を提供することである。
【0011】
【課題を解決するための手段】上記目的を達成するため
の本発明による方法は、汎用コンピュータによって実施
され、オリジナルのトークン列のデータベース内の1以
上のオリジナルなトークン列のトークン・シーケンスが
他のトークン・シーケンス(参照シーケンスと称する)
に対する同一または類似の発生を見つけることが可能で
ある。本発明は、トークンの参照シーケンスと厳密(同
一)に照合あるいは類似的に照合するオリジナルのトー
クン列内のトークン・シーケンスの全ての発生を、速や
かに、かつ正確に見つける高い確率を有する。
【0012】各オリジナル列に対して多数のインデック
スを生成し、ルックアップ・テーブルのオリジナル列に
関する情報記録を記憶するために使用する。認識の際、
多数のインデックスを参照列から形成させる。これはル
ックアップ・テーブルの情報を回復させるために使用
し、また1以上のオリジナル列の証拠を累積させるため
に使用する。この方法では、より迅速な認識時間を可能
にする認識以前に多量の処理を行うことができる。
【0013】インデックスを形成するにあたって、この
方法では初めに「タップル」を形成する。すなわち、初
めに多数の隣接したトークンのオリジナルな部分列をデ
ータベース内のオリジナルなトークンシーケンスから選
択する。オリジナルな部分列のこの集合の各構成要素
は、長さでは比較的少数のトークンであるが、少なくと
も1トークンは長い。この集合構成要素は全てその長さ
方向の数を固定することができる。しかし、集合構成要
素の一部あるいは全ては、長さ方向のトークンの数を異
なったものにすることが可能である。オリジナルのトー
クン部分列の集合を使用して、タップルの集合を形成す
る。その集合内の1以上のタップルは、2以上の異なっ
て隣接してない集合構成要素を追加することによって形
成する。(このタップル内の他の部分列は隣接すること
があり、一方、タップルの集合内の他の部分列は隣接し
ないことがある。)これらタップルも「j−タップル」
と称される。ここでjはタップルを形成するに使用した
オリジナルな部分列の数である。オリジナル列から形成
したタップルをオリジナル・タップルと称する。
【0014】次に、固有のインデックスを作成し、タッ
プル内のトークンの値に基づいて各タップルに割り当て
る。通常、アルゴリズムによってj−タップル内のトー
クンの値から、数(通常は整数)のような値の形を取る
オリジナルなインデックスを作る。各オリジナル・イン
デックスは、メモリ・ルックアップ構造(通常、アレ
イ)の固有セルと組み合わせる。このインデックスをル
ックアップ構造の組み合わせたセルを識別したりアクセ
スするために使用する。タップル(およびオリジナル・
インデックス)を作ったオリジナル列を書き表わした情
報記録を、そのインデックスに組み合わせたメモリ・ル
ックアップ構造セルに記憶させる。セルは情報記録の固
定数あるいは任意数を保持できる。例えば、セルに記憶
させた情報記録はオリジナル列の参照を含む。この参照
はここではポインタと称し、オリジナル列の1つを識別
する手段である。参照はオリジナル列の所定トークンの
ポインタ(メモリのアドレス)として、あるいはポイン
タのテーブルにおけるインデックスとして、あるいは当
業界で公知の他のインプリメンテーションとして履行可
能であることに注目を要する。ポインタ(参照)は、オ
リジナル・インデックスによって固有に決めたオリジナ
ル・タップルを引き出したデータベース内でオリジナル
列を位置決めする。ルックアップ構造も他の情報を含む
ことが可能である。この他の情報とは、例えば置き換え
情報であり、オリジナル列のタップル(インデックスを
発生させるために使用)の位置を示す。この位置情報
は、1.所定のオリジナル列位置(トークン)からタッ
プルを形成するために使用したトークンの第1オリジナ
ル部分列の第1トークンへの置き換え、あるいは2.同
じものをタップルを形成する全てのオリジナル部分列の
第1トークンの平均位置への置き換え、あるいは3.1
以上のオリジナル部分列に関するトークンの位置を使用
し、演算可能な他の置き換え、を含む。
【0015】全ての所望のオリジナル列をこのように処
理した後、参照シーケンスをオリジナル列に照合させ
る。これを行うために、参照タップルと称するタップル
および固有に識別する参照インデックスを、上記と同じ
あるいは類似手順を使用した参照シーケンスから形成す
る。
【0016】上記のルックアップ構造を使用して、参照
インデックスをオリジナル・インデックストと比較す
る。参照インデックスを使用してルックアップ構造内の
セルを示す。参照インデックスがオリジナル列に関する
1以上の情報記録を有するセルを示す時は、1以上の各
々の照合が成立する。情報を持たないセルを参照インデ
ックスが示す時は、照合は成立しない。
【0017】参照インデックスによって索引されたセル
内に記憶した各情報記録に対し、票を所定のオリジナル
列に対する多数の照合を探知するために使用される証拠
集積表(EIT)と称される第2データ構造に記録す
る。通常、これはハッシュ表である。この第2構造で配
置されたセルは、参照列と照合するオリジナル列につい
ての仮説に対応する。また、セルは、票を与えられた仮
説の回数を表わす値を含む。例えば、この第2構造の票
セルへ入った票は、オリジナルなデータベースのある列
への票に対応する。参照シーケンスがデータベースのオ
リジナル列におけるトークン・シーケンスに類似すれば
するほど、参照シーケンスの参照インデックスとオリジ
ナル列のオリジナル・インデックス間での照合の発生す
る確率は高くなる。参照列と類似あるいは同一のオリジ
ナル列に対応する第2メモリ構造の票セルは、比較的票
数が高くなる。逆に、参照シーケンスがオリジナル列の
トークン・シーケンスに類似しなくなるほど、オリジナ
ル列から形成した各タップルに固有に関連させたオリジ
ナル・インデックスと参照インデックス間での照合確率
は低くなる。こうしたケースでのEITの票セルは、票
数がわずかであるか、皆無となる。したがって、EIT
の各々の票セルの票数は、参照シーケンスとセルによっ
て表示されたオリジナル列間の類似程度と直接関係を有
する。
【0018】最終的に、EITにおける情報をデータベ
ースのオリジナル列で参照シーケンスに(厳密に、また
は類似して)対応するトークン・シーケンスを位置決め
するために使用される。初めに、所定のしきい値より上
の値を有するEITのセルを選択する。次に、関連のポ
インタを使用してデータベース内の1ないし複数のオリ
ジナル列を位置決めする。そして、オリジナル列の照合
したトークン・シーケンスを、選択したインデックスに
関連した置き換え情報を使用して見つけだす。
【0019】
【実施例】この方法は、所望のハッシュおよび本方法が
必要とするルックアップ機能を実行可能な、いかなる汎
用コンピュータでも実施できるように作られたものであ
る。また、コンピュータはオリジナル列の全てのトーク
ンや本方法で使用するデータ構造を記憶するに充分なメ
モリを必要とする。
【0020】以下、本発明の方法で用いる各記号を説明
する表−1、表−2を示す。
【0021】表−1 X データベースを構成するオリジナル列
の集合 χi オリジナル列のデータベースにおける
オリジナル列 χref 参照列 χO オリジナル列内のトークンのシーケン
ス χOref 参照列内のトークンのシーケンス Nχ データベース内のオリジナル列の全数
量 μ 部分列 τ 列または部分列内のトークンの値 τi 列または部分列上の第i番目の位置に
おけるトークンの値 nτ 可能性のあるトークン値の数 Pi 列または部分列上の第i番目の位置 μ(P,l) 大きい列のP位置で開始し、lトーク
ンの長さを有する部分列 Κ 大きい列を区切って得た集合のj−タ
ップルの数
【0022】表−2 M 区切ることによって形成した部分列の
集合 ξ オリジナル・タップル ξref 参照タップル j−tup j個の部分列で形成したタップルで、
その少なくとも2個は隣接してない ξ(j,L) 長さLでタップル順jのj−タップル ξk(j,L) 全長さLの第k番目のj−タップル Ls 所定の列のトークンにおける長さ γ オリジナル・インデックス γref 参照インデックス ρ ルックアップ構造における情報記録 α 情報記録におけるポインタ δ オリジナル・タップルについての置き
換え情報 Δ 参照タップルについての置き換え情報
【0023】本発明の総括的方法を図1、図2のブロッ
ク図で示す。この方法は、データベースからオリジナル
列を選択することによって開始する(ステップ10)。
この列を隣接したトークンの部分列に区切り(ステップ
15)、そのうち少なくとも2個は非隣接的に追加さ
れ、オリジナル・タップルを形成する(ステップ2
0)。このオリジナル・タップルを使用してオリジナル
・インデックスを作る(ステップ25)。オリジナル・
インデックスは次に、ルックアップ構造のセルにオリジ
ナル列とインデックスに関連した情報を記憶させるため
に使用される(ステップ30)。このプロセスをデータ
ベースの各々のオリジナル列について繰り返す(ステッ
プ32)。同様にして、参照インデックスを参照シーケ
ンスから作る。すなわち、参照シーケンスを区切って隣
接したトークンの部分列とし(ステップ35)、その少
なくとも2個を非隣接的に追加して参照タップルを形成
する(ステップ40)。オリジナル・タップルからオリ
ジナル・インデックスを作る方法と同じ方法を使用し
て、参照タップルから参照インデックスを作る(ステッ
プ45)。次に、その参照インデックスをオリジナル・
インデックスと比較する(ステップ50)。オリジナル
・インデックスと照合する参照インデックスの数を証拠
集積テーブル(EIT)で探知する(ステップ55)。
この照合と探知を、参照インデックスの全て(又は、あ
る部分集合)がオリジナル・インデックスと比較し終わ
るまで繰り返すことができる。オリジナル・インデック
スと参照インデックス間で照合した数の記録値を使用し
て、参照列に最も類似したオリジナル列を見つけだす
(ステップ60)。オリジナル・インデックスに関連し
た他の情報を使用して、参照シーケンスに最も近く又は
正確に照合するトークン・シーケンスのオリジナル列上
の位置を決める(ステップ65)。他の参照列を演算
し、同様の方法でオリジナル列に照合させる(ステップ
70)。
【0024】本発明による方法は、異なった(あるいは
同じ)長さのトークンのオリジナル列Xのデータベース
によって初めにスタートする。通常、それらシーケンス
はコンピュータ・メモリ内の位置にトークン・シーケン
スを記憶させる適切な方法で記憶させてある。例えば、
データベース内で多数のタンパク質列を表示するには、
そのタンパク質内で可能性のあるアミノ酸の各々をアル
ファベット文字に割り当てる。これらの文字はASCI
I(米国情報交換標準コード)が可能である。そして、
各タンパク質列を、コンピュータの連続的なメモリ位置
にASCII文字の列として表示する。1タンパク質列
の開始は、その列の開始ASCII文字(トークン)を
指摘するポインタによって示すことができ、一方、列の
終了は0という文字のように何らかの区切り文字によっ
て示すことができる。一般的に、データベースのオリジ
ナル列Xの集合はX {χi; i=1,…,Nχ}に
よって表わされる。
【0025】次に、データベースX内の各オリジナル・
トークン列χは、2個以上の隣接したトークンμのオリ
ジナル部分列に区切られる。これを図示したものが図3
である。図3では、各トークン205から成るオリジナ
ル・トークン列χ、200、はτによって示される。ト
ークンτi、207、はオリジナル・トークン列シーケ
ンス200(又は、Pi)のi番目の位置220のトー
クンτを示す。また、図3において、μ(Pi、l)
は、位置220(Pi)のトークンで開始し、トークン
長さl、225、を有するオリジナル列から取った隣接
し連続のトークン210のオリジナル部分列を示す。こ
のオリジナル列を区切ることにより、オリジナル部分列
210の集合を形成する。これはM μ(P1,l
1),μ(P2,l2),… μ(Pk,lk)で表わ
される。各オリジナル部分列はオリジナル列の位置Pk
でスタートし、各部分列はそれぞれ長さlkを有する。
例えば、オリジナル部分列μ(5、14)は、オリジナ
ル列上の5番目の位置のトークンでスタートし、オリジ
ナル列の13の次のトークンに続く、つまり部分列が1
4トークン長さを有するオリジナル列から取ったトーク
ンの部分列である。いくつかのケースでは、部分的ある
いは全オリジナル部分列の長さlkは、この集合内の他
のオリジナル部分列の長さに等しい。オリジナル部分列
は1トークン長さ以上でなくてはならない。
【0026】ξkで表わされるKオリジナル・タップル
の集合はjオリジナル部分列(jは2以上)を共に加え
ることによって形成される。その集合内の1個以上のタ
ップルは、2個以上の非隣接オリジナル部分列を共に加
えることによって形成する。他の隣接部分列をこのタッ
プルに追加することも、しないことも可能である。ま
た、この集合の他のタップルを隣接した部分列を共に追
加することによって形成することも、しないことも可能
である。図1のステップ20を参照のこと。オリジナル
列における第2部分列の第1トークンが第1部分列の最
終トークンに続くなら、2個のシーケンスを隣接して考
察することになる。
【0027】オリジナル部分列のj個によって形成され
たオリジナル・タップルはオリジナルj−タップルと称
する。長さLのj−タップルはξ(j,L)の記号で表
示する。また、j−タップル内のオリジナル部分列はμ
(P1,l1),μ(P2,l2),… μ(Pj,l
j)で表わす。あるケースでは、オリジナル部分列の長
さは全て等しくすることが可能である。
【0028】種々のアルゴリズムを使用して部分列を追
加することによりタップルを形成することが可能である
が、それらのアルゴリズムは蓋然論と決定論の2グルー
プに分けられる。蓋然論的アルゴリズムによって発生さ
せたタップルはランダム傾向にある、すなわち、オリジ
ナル列の同じ集合上の同じアルゴリズムを使用すること
は、そのアルゴリズムを使用する度にタップルの異なっ
た集合を発生することになる。一方、決定論的アルゴリ
ズムは、そのアルゴリズムを使用する度にオリジナル部
分列の所定集合からタップルの同じ集合を常に発生す
る。
【0029】例として、蓋然論的アルゴリズムを使用し
て、各2トークンごとの17部分列の集合から3タップ
ルの集合を作る(3部分列を追加することによって1タ
ップルを作る)。このアルゴリズムは17部分列の1
個、残った16部分列の1個、さらに残った15部分列
の1個をランダムに選択し、その3個の選択した部分列
を共に追加して第1の3タップルの集合を形成する。こ
の手続きを任意の回数( 次の集合と異なることが起こり得る。それにもかかわら
ず、このタイプの蓋然論的アルゴリズムは、本発明で使
用可能なj−タップルの集合を形成することになる。
【0030】決定論的アルゴリズムは、この方法におけ
るタップルを発生する望ましいアルゴリズムである。長
さ2の17オリジナル部分列から3−タップルを作るた
めに使用した決定論的アルゴリズムの一例は、そのオリ
ジナル列の1番目、5番目、 ップルを形成するために追加した部分列の数(2以上)
を変え、部分列を追加する方法を変えて使用するこの特
性を有する多数の決定論的アルゴリズムは、本明細書で
示した方法により当業者が考えることができる。これら
の多くの変更例を使用することは、本発明の対象とな
る。
【0031】しかし、現存する本発明用のタップルを発
生するより望ましい決定論的アルゴリズムがあり、所定
の正確レベルを得るために使用したタップルの数を制限
する上で有効な、この望ましいアルゴリズムは以下のよ
うに定義される。
【0032】長さLsのシーケンス、長さLのj−タッ
プル、および順位jのタップルに対し、一連の整数、つ
まり部分列長さ(l1,l2,…,lj)を決定するの
は、Σlm= L(ここで、m=1からj)である。そ
して、以下の式−1に記載のj−タップルのk集合の全
てを形成する。
【0033】
【数1】
【0034】式−1において、j−タップルの集合の各
要素kに対し、オリジナル列から区切ってタップルを形
成する部分列の第1番目のトークン位置(p1,p2,
…,pj)は以下のルール1、2、3を満たすようにタ
ップルを選択する。
【0035】
【数2】
【0036】優先を定めたしきい値より低いj(j−
1)の集合および高い集合λab -とλab +を有する。 ップルを形成するために使用した部分シーケンスの部分
列はPaより大きい開始位置のみ有することができるこ
とを示す。つまり、タップル内の部分シーケンスの部分
列はオリジナル列の開始位置から、かなり離れて開始し
なくてはならない。これは順番付けしたタップルを発生
する。 2. 式2は、部分列がオリジナル列の全長を越えてし
まう位置では部分列は開 まわらず、またλab +を下まわらず、異なることができ
ることを示す。式3はこのアルゴリズムで発生させるタ
ップルの数を制限するのに最も適している。
【0038】このより望ましい決定論的アルゴリズムを
説明するために一例を示す。オリジナル列は18トーク
ン長さを有する。つまり、Ls=18。3−タップルの
集合を、各々2トークンの長さを有する17オリジナル
部分列の集合から形成する。こうして発生したオリジナ
ル・タップルの集合の全てのタップルは6トークンの長
さを有し(L=6)、3部分列を追加して(j=3)形
成する。部分列集合は、トークン位置P=1で開始する
第1部分列、P=2で開始する第2部分列、etc.を
P=17で開始する最終部分列が選択されるまで選択す
ることにより作られるので、17の部分列が存在するこ
とになる。すなわち、オリジナル部分列集合Mは17の
部分列:μ(1、2)、μ(2、2)、…、μ(17、
2)から成る。この17の部分列集合かの3の隣接する
部分列および非隣接部分列の全ての可能性がある順位付
けした組合せを取ると、680の3−タップルを作るこ
とが可能である。これは、式−2で表わす。
【0039】
【数3】
【0040】しかし、上記の3つのルールに当てはめる
と、42の3−タップルの決定論的集合は結合力の範囲
を式−3として定義することによって作られる。
【0041】
【数4】
【0042】これら3ルールの基準を使用して、与えら
れた3−タップルはξ(3、6)Good=μ(5、
2)+μ(7、2)+μ(8、2)であり、一方タップ
ルξ(3、6)Bad=μ(5、2)+μ(9、2)+
μ(10、2)はP2−P1= 次のステップである図1のステップ25は、オリジナル
列から作ったタップルの各々について固有のオリジナル
・インデックスを作ることである。この発明の説明によ
れば、オリジナル・タップルの各々用のオリジナル・イ
ンデックスを作るために使用することができるコンピュ
ータ・プログラム業界で開発された数多くの技術があ
る。そうした技術は通常、写像、ハッシュ・テーブル、
あるいはア 望ましい実施例では、固有インデックスγは、オリジナ
ル列の可能性のある各トークン値に、数値のような値を
初めに割り当てることで発生させる。これを行うこと
で、オリジナル列、およびその部分列とタップルが、そ
れぞれのトークンを表示する数値のシーケンスとなる。
一般的に、0とnτの間の固有の番号τi(0≦τi<
nτ)が各トークン、τに対して選択される。例えば、
ヌクレオチド・トークンのDNAシーケンスにおいて、
4つの可能性があるヌクレオチド・
【0045】そして、インデックス発生アルゴリズムが
数値(トークン)のシーケンスを固有インデックスに変
換するものとして定められる。インデックス発生アルゴ
リズムは非制限例として提示されるもので、他の多くの
アルゴリズムが本発明の記載に基づき、当業者によって
開発可能である。使用した望ましいインデックス発生ア
ルゴリズムは、式−4によって示される。
【0047】DNAの例については、インデックス発生
アルゴリズムは、式−5によって示される。
【0048】
【数6】
【0049】タンパク質の例では、インデックス発生ア
ルゴリズムは、式−6によって示される。
【0050】
【数7】
【0051】例えば、DNA例のAATCGTのような
j−タップルは初めに003123という数字シーケン
スに翻訳し、式−7に示す固有インデックスを有する。
【0052】
【数8】
【0053】インデックス発生アルゴリズムを使用し
て、関心のある選択したオリジナル列のオリジナル部分
列(図1のステップ20参照)から形成したオリジナル
・タップルの集合ξk(j,L)における各オリジナル
・タップルについての固有オリジナル・インデックスを
作る。同じアルゴリズムおよび手順を使用して、データ
ベース内の他の選択したオリジナル列の各々に対するオ
リジナル・タップルに関する固有オリジナル・インデッ
クスを作る。
【0054】図1のステップ30は、各オリジナル・タ
ップルに関係した情報がどのようにしてコンピュータ・
メモリ(通常、ハードディスクのような大容量の記憶装
置)に記憶させ、そのタップルに関係した固有のオリジ
ナル・インデックスを使用して後日のアクセス用にす
る。
【0055】図4は本発明の望ましい実施例で使用した
第1データ・ルックアップ構造300としての配列を示
し、各オリジナル・タップルに関係する情報を記憶させ
る。後のアクセス用の情報を記憶する他のインデックス
化の方法は当業界で公知であり、本発明でも対象となっ
ている。その方法は、情報記録のリストに対するポイン
タを有するベクトルから成る。
【0056】図4に示したデータ・ルックアップ構造3
00は複数のセル310を有する配列である。このデー
タ・ルックアップ構造300は少なくともnLであり、
Lは使用した最も長いタップルの長さであり、n=nτ
はオリジナル列の可能性のあるトークン値の数である。
(DNAのケースでは、n=4は可能性がある4個のヌ
クレオチドの数的表示の数)。これを行うことで、発生
した各オリジナル・インデックスに固有な関係を有する
1以上のセルを保証する。この実施例では、発生させた
オリジナル・インデックスに関連のない多くのセルも存
在することに注意を要する。セルが発生したインデック
スと関連づけられるなら、インデックス312(γ)を
発生させたオリジナル列とタップルについての情報記録
314(ρ)の情報をセルに追加する。セル310は多
数の情報記録314、326を有する。最小限、この情
報記録はタップルを作ったデータベースのオリジナル列
に対するポインタ315を有する。情報記録はオリジナ
ル・タップルのオリジナル列上の位置についての情報3
20も含むことが望ましい。さらに、タップルを発生さ
せるために追加した部分列の位置や、タップルそのもの
に関する追加情報もセルに入れることが望ましい。(以
下の説明を参照)。望ましい実施例では、発生したイン
デックスと無関係なセルは空白のままにして区別する。
【0057】さらに、本発明の望ましい実施例では、セ
ル310が、発生した同一のインデックスを有する2以
上のオリジナル列に関する2以上の情報記録用のルーム
を有する。つまり、セルは各々がポインタ(315、3
25)を含んだ多重情報記録のリスト328を有すると
いうことである。ポインタ325を含んだセル・リスト
328の各情報記録326は、そのポインタ325に関
連のある位置情報330も含むことができる。2以上の
オリジナル列が同じインデックスを発生させるなら、同
一のインデックス312を発生する各オリジナル列に関
する情報を、その共通インデックス312に関連した単
一セル310位置内の情報記録のリスト328に追加す
る。このリスト328は動的あるいは静的なものが可能
である。静的リストはオリジナル列の固定番号に適応し
た情報を記憶するためのルームを有し、割り当て量を超
過するスペースを要する情報は放出する。動的リスト
は、共通インデックスを発生するいかなるオリジナル列
の情報も含有する大きさに拡大する。
【0058】配列タイプのルックアップ構造300は少
数のインデックスに適しているが、多量のインデックス
を有する場合は多数のルックアップ構造セル310が必
要である。さらに、多くの場合、大部分のセル310は
発生インデックス312に関係がないので、情報を持た
ない。こうした状況では、散在した配列を処理する公知
の方法を使用する。たとえば、ハッシュ・テーブルであ
る。
【0059】当業界で公知のハッシュ・テーブルの実施
例は多数存在する。しかし、例えば、図5はハッシュ・
テーブルの1タイプとして第1ルックアップ構造を示し
ている。この例はセル0からnとしたnセルの比較的小
さな配列である。各発生インデックスを素数、例えば7
で乗じて、得られた数値、モジュロn、は405であ
る。そして、発生ハッシュ・インデックス412を、識
別番号がモジュロ演算の値と照合するセル410と関連
づける。このインデックスに関連づけた情報記録414
をその選んだセルに位置させる。この方法は、各発生イ
ンデックスに固有に割り当てるに充分なセル410がハ
ッシュ・テーブル内にあることとする。発生インデック
スを、すでに他の異なったインデックスに割り当てたセ
ルに写像するなら、そのインデックスは作り直され再割
り当てされる。例えば、モジュロの値に7を乗じ、その
モジュロを再度使う。この結果は異なったセルを識別す
る数となる。これを空白のセルが見つかるまで繰り返
す。
【0060】第1ルックアップ構造のセル内に記憶させ
た情報の説明をする。情報記録ρを使用して、証拠集積
テーブル(EIT)と称する第2記憶構造内のある位置
へのアクセスを得る。少なくとも、情報記録はセル41
2のインデックスを演算するのに使用したオリジナル列
に対するポインタ415、α、を含む。望ましい実施例
はポインタ415および置き換え420を記憶させる。
置き換え420、δ、は、ルックアップ構造セルに関連
したj−タップルを形成したオリジナル部分列のオリジ
ナル列上の位置に関する情報である。
【0061】他の情報も必要に応じてセルに記憶させる
ことができる。これは他のポインタ425および置き換
え430情報を有する他の情報記録426を含むことに
なる。こうした情報記録426は必要に応じてセルに動
的に追加することが可能である。他の情報も含むことが
できる。例えば、セル410はj−タップルを形成する
部分列間の距離に関する情報を含む。
【0062】参照/ポインタ等はコンピュータ業界にお
いて公知のことであり、本発明ではルックアップ構造セ
ルのようなメモリ位置に記憶させることができ、またオ
リジナル列を表わし、メモリに記憶させたトークンのシ
ーケンスを位置決めするために使用することのできる、
いかなるポインタも対象となる。参照/ポインタの一例
は、位置を示すオリジナル列の第1(または他の)トー
クンを含有するメモリ位置のアドレスである。あるい
は、望ましい参照/ポインタは、(整数)番号付けした
列のデータベース内のオリジナル列のインデックスに対
応する数字(整数)である。
【0063】置き換え情報は、タップルを作るために使
用したオリジナル列が位置するトークンのオリジナル列
上の平均的あるいは厳密な位置を表示したものである。
その部分列の位置を推測する方法は多く存在する。たと
えば、オリジナル列χiから導き出したタップルの置き
換え情報ξk(j,L)はδkで示される。この置き換
え情報δkは、オリジナル列χiの第1トークンτiの
ようなある所定トークンから、メモリ構造のセルによっ
て固有に識別されるタップル(インデックス)を作るた
めに使用された第1部分列の第1トークン(または、第
2、第3、etc.)のような他のあるトークンへのト
ークン列における距離(偏り)とすることが可能であ
る。最も望ましい実施例は、オリジナル列の開始点から
タップルを発生するために使用した部分列の各々の開始
点のトークン列内の距離の平均を使用する。この平均は
δkaveと表示される。それゆえ、j−タップルは、
オリジナル列の第1トークンからj部分列の各々におけ
る第1トークンへのトークン内の距離を平均化して求め
たδkaveを有する。
【0064】関係のあるオリジナル列に対するオリジナ
ル・タップルおよび関連づけたオリジナル・インデック
スが発生し、また各発生オリジナル・インデックスに対
する情報記録を第1ルックアップ構造の各々のセルに記
憶させた後、参照タップルと関連の固有参照インデック
スを作る。図1、図2のステップ35、40、45を参
照。これは、1.所定の参照列を2以上の隣接したトー
クンの参照部分列に区切ること、2.2以上の隣接しな
い参照部分列を共に加えて1以上の参照タップルを形成
すること、3.そのルックアップ構造内のインデックス
を発生するために使用した同じインデックス発生手段を
使用して参照インデックスを発生させること、によって
達成される。
【0065】参照列χrefは、この参照列がデータベ
ースの1以上のオリジナル列のある部分(部分シーケン
ス)に正確に、あるいは類似的に照合するかどうか判定
するために、データベースのオリジナル列と比較するト
ークンのシーケンスである。
【0066】図1のステップ35に示したように、参照
タップルξref、つまり、この参照列から形成したタ
ップルを形成するために、参照列を初めに参照部分列と
称する隣接したトークンの部分列に区切る。この区切り
は、オリジナル部分列を区切るための前述のいかなる方
法によっても実行できる。この参照列は、オリジナル列
を区切った方法より多くの方法によって部分列に区切る
ことができる。しかし、望ましい実施例では、オリジナ
ル列と参照列の両者は同じ方法で区切ることが望まし
い。図1のステップ40に示したように、参照タップル
ξrefは2以上の隣接しない参照部分列を共に加える
ことによって形成する。この参照部分列の追加は、オリ
ジナル・タップルを形成するためにオリジナル部分列を
加えた前述のいずれの方法によっても行われる。しか
し、参照部分列は、オリジナル・タップルを形成するた
めにオリジナル部分列を追加するという方法で参照タッ
プルに加えられなくてはならない訳ではない。
【0067】図1のステップ45に示したように、参照
インデックスγrefは参照タップルから作られる。前
述のように、各参照タップルは1個の固有参照インデッ
クスを持つ。実際、各参照タップルに対して作られた固
有参照インデックスは、上記のオリジナル・タップルか
らオリジナル・インデックスを作ったのと同じインデッ
クス発生アルゴリズムを使用することにより作られるべ
きである。
【0068】参照置き換え情報Δも、参照タップルを作
るために使用した参照部分列の参照列上の位置を決める
ために演算される。どの一般方法、たとえばオリジナル
列に対する置き換え情報を発生させる上述の方法、も参
照部分列用の位置情報を作るために使用することができ
る。また、参照タップル用の置き換え情報を決定するた
めに使用した方法は、オリジナル・タップル用の置き換
え情報を決定するために使用した方法とまったく同じに
する。
【0069】一度、参照インデックスを作り、それをオ
リジナル・インデックスと比較して照合するかどうか判
定する。図1のステップ50に示すように、2つのイン
デックス(数字)あるいは2つのインデックスのリスト
(数字)を比較して照合を判定する公知のいかなる方法
でも、本発明で使用できる。しかし、参照インデックス
とオリジナル・インデックスを比較する望ましい方法は
ルックアップ構造を使う方法である。この方法を実施す
るために、各参照インデックスを使用して、基準インデ
ックスと等しいオリジナル・インデックス(312、4
12)に関連したルックアップ構造のセル(図4の31
0、図5の410)をアクセスする。アクセスしたセル
に1以上の情報記録(328または428)があるな
ら、参照インデックス(350または450)とアクセ
スしたセル(310または410)に関係した1以上の
オリジナル・インデックス(312または412)(タ
ップル)間の照合が存在する。そのセルに情報記録がな
ければ、照合もなく、この参照タップルに対する処理は
行われない。
【0070】図2のステップ55に示したように、参照
インデックスとオリジナル・インデックス間の照合を第
2メモリ記憶域EIT内で探知する。EIT500内の
セル510(投票セル)に対するアクセスを、照合した
参照インデックスとオリジナル・インデックスと関連し
たルックアップ構造のセル(310または410)内の
情報記録(314または414)の一部、あるいは全て
を使用して発生させた投票インデックス512を使用し
て得る。一般的に、情報記録内の参照/ポインタ(31
5または415)のみ投票インデックスとして、あるい
は投票インデックスを演算するために使用しなくてはな
らない。より望ましくは、情報記録内の参照/ポインタ
および参照タップルΔの置き換え情報を使用して、投票
インデックス512を演算する。しかし、投票テーブル
500内のセルにアクセスするために投票インデックス
512を発生する最も望ましい方法は、参照/ポインタ
(315または415)および、情報記録(320また
は420)内で見つけた置き換え情報と参照タップルΔ
の置き換え情報間の微細な相違を使用することである。
【0071】望ましい実施例の投票インデックス512
は、参照/ポインタ(315または415)α、および
照合の偏り(情報記録ρの置き換えδの差から、参照置
き換え情報Δを引いて計算した値)から演算する。照合
の偏りDoは、オリジナル列上の所定のトークン、たと
えば、第1オリジナル列トークンから、参照列上の所定
トークン、たとえば第1参照列トークンへのトークンの
距離に対応し、オリジナル列および参照列上の照合トー
クン・シーケンスは、その列が照合した偏り距離によっ
て示される時に整列させる。つまり、照合偏り(Do=
δave −Δkaveによって算出)は、各々の照合
オリジナル・タップルと参照タップル(インデックス)
が導き出された照合シーケンスを整列させるためにオリ
ジナル列が参照列に対して移動しなくてはならないトー
クン内の距離を示す。
【0072】一度、照合偏りDoが決定されると、投票
インデックス512がアルゴリズムによって作られる。
本発明の対象とする特性を有するインデックスを作る方
法は、従来より多く存在する。しかし、望ましい方法
は、情報記録(328または428)内の参照/ポイン
タ(315または415)αに最大の可能性のある照合
偏りに等しい定数を乗じ、また照合偏り値を加えること
である。定数は、ルックアップ構造情報記録から作るこ
とが可能な、各可能性のあるポインタと照合偏りの組合
せに対する固有投票インデックスをアルゴリズムが発生
するように選ぶ。そのアルゴリズムを逆にすることによ
り、参照/ポインタと照合偏り値を投票インデックスか
決定することができる。EIT内の各セルは参照列に関
する所定の照合偏りで1オリジナル列を固有に識別す
る。
【0073】投票インデックスによってアクセスするE
IT500の投票セル510を使用して、上記したよう
にルックアップ構造および参照インデックスを使用する
ことによって対応の照合を登録する度に、所定照合偏り
のオリジナル列に対する票515を記憶させる。EIT
500の各投票セル510Cの値515は、該当セルの
投票インデックスが発生する度に更新される。照合が成
立する時、つまり、ルックアップ構造のセルが1個以上
の情報記録エントリを持つ時、情報記録内の参照/ポイ
ンタと算出した照合偏りを用いて投票インデックス51
2を発生させる。参照/ポインタと照合偏りに関連した
固有の投票セルは投票インデックスによってアクセスさ
れ、その値cは所定量、通常は整数値1づつ増加する。
したがって、各投票セル内の値c、515は、オリジナ
ル列および参照列が同一のインデックスおよび照合偏り
の同じ値を何回発生したのか直接示すものである。それ
ゆえ、本発明の望ましい実施例では、cの高い値を持つ
EIT内のセルは、照合偏りによって表示される時に対
応するオリジナル列が参照列に類似あるいは同一となる
高い可能性を有することを示す。
【0074】EITの実施例については、配列、ベクト
ル、ハッシュテーブルの例のように公知の多数の構造が
ある。配列およびその1ディメンジョン部分列、ベクト
ル等は望ましい実施例を使用する膨大なデータベース用
に充分大きいことが要求される。これは、固有投票セル
が可能性のある各々のポインタと照合偏りの組合せに対
して必要とされることによる。これらセルの大部分は、
投票セル510の全てがオリジナルと参照タップル(イ
ンデックス)照合に関連づけられるということが極めて
希であるから、本発明の通常の適用ではアクセスされな
い。したがって、配列(ベクトル)は滅多に満たされる
ことなく、スペースの大部分が無駄になる。望ましい実
施例は記憶要求を減じるためにハッシュテーブルを使用
する。ハッシュテーブルの技術は公知であり、その例は
上記したとおりである。このハッシュテーブルは静的で
も動的でも可能であり、静的ハッシュテーブルは固定数
の投票セルを有し、一方、動的ハッシュテーブルは無、
あるいはわずかの投票セル、また、照合が成立する時に
始動し、より多くの投票セルを定義しテーブルに加え
る。望ましい実施例は動的ハッシュテーブルである。
【0075】図1のステップ60に示したように、所定
しきい値より上の値cを有するEIT内の全てのセル
は、オリジナル列の照合の指摘に応じて選択される。そ
して、c値に直接比例する類似率が演算される。
【0076】図1のステップ65に示したように、セル
の投票インデックスの値を逆にすることにより、オリジ
ナル列に対する参照/ポインタ、および各々の照合偏り
を正確に決定することが可能である。
【0077】オリジナル列χo内のトークン・シーケン
スと参照列χoref内のトークン・シーケンス間で成
立可能な照合は基本的に2タイプある。つまり、厳密な
照合と類似的照合である。
【0078】厳密な照合は、参照列のシーケンスの各々
のトークンχorefがオリジナル列χo内のシーケン
スの各々のトークンと同じ値を持つ時、また同じ順位に
ある時に成立する。厳密な照合については、各々の参照
タップル(インデックス)がそれによって指示されたセ
ル内の同一オリジナル列に対する1以上の参照/ポイン
タを見つけ出すことになる。したがって、同一のオリジ
ナル列に対応する投票セルの値cが極めて高く、また照
合トークンを使用して作った参照タップルの数に少なく
とも等しくなる。
【0079】オリジナル列内の少数のトークンよりわず
かを挿入、削除、あるいは修正して、オリジナル列χo
が参照列に厳密に照合するように変更することができる
なら、類似照合が成立する。類似照合については、各々
の参照タップル(インデックス)がそれによって指示さ
れたセル内の類似オリジナル列に対する参照/ポインタ
を見つけ出すことは、滅多にない。しかし、オリジナル
と参照列間の類似性が大きければ、正確な照合数も増加
し、それによりEIT内のオリジナル列に対する票数も
大きくなる。ゆえに、所定参照列と比べる時、異なった
オリジナル列が受けるEIT内の票数を比較することに
より、各オリジナル列と参照列間の類似程度を確立する
ことができる。(全参照タップルを比較した後)EIT
内の高い票数を受けるオリジナル列は、低い票数を受け
るオリジナル列よりその参照列との類似性が大きい。
【0080】要約すると、オリジナル列の厳密な照合お
よび類似照合が判定された後、それをデータベースに位
置決めする。図1のステップ60および65に示したよ
うに、これを実行するには、所定しきい値より上の値c
を有するEIT内のセルを選択する。そして、その選択
したセルの投票インデックスを逆にして、この票の原因
となったオリジナル列の位置(あるいは他の表示)、お
よび照合シーケンスを整列させるための参照列とオリジ
ナル列を整列させるために使用した置き換え情報等を決
定する。ルックアップ・テーブルの情報記録を使用し
て、票の原因となったオリジナル列とシーケンスの照合
をセル内で位置決めすることも可能である。ステップ7
0で示すように、比較する参照列がさらに存在するな
ら、このプロセスはステップ35から再度、スタートす
る。
【0081】例 1 本発明の方法を使用して列捜索の非制限例を説明する。
この例は、辞書やスペルチェックのような列認識方法の
応用である。オリジナル列はHOTELであり、参照列
はHOSTELである。この両者の部分列は長さ方向に
おける1トークンの形で選ばれ、タップルは同様に3ト
ークンの形で選ばれる。したがって、オリジナル部分列
は、H,O,T,E,Lであり、参照部分列は、H,
O,S,T,E,Lである。タップル(オリジナルと参
照の両者)を発生させるために使用した決定論的アルゴ
リズムは、この3部分列の全ての可能性がある固有の組
合せの選択である。したがって、オリジナル・タップル
は、HOT,HOE,HOL,HTE,HTL,HE
L,OTE,OTL,TELである。参照タップルは、
HOS,HOT,HOE,HOL,HST,HSE,H
SL,HTE,HTL,HEL,OST,OSE,OS
L,OTE,OTL,STE,STL,STE,ST
L,TELである。
【0082】理解を容易にするため、数インデックスは
このタップルから発生させない。情報記録はルックアッ
プ・テーブル内のセルに入れる。簡略にするため、情報
記録は、データベース内のオリジナル列HOTELのス
タート位置を示すポインタのみ有する。
【0083】オリジナル・タップルに各参照タップル
(インデックス)を比較した結果は、9個の照合があっ
た。この結果をEITに入れる。この例では、9個の照
合が高い相関関係を示している。SOLIDのような参
照列は照合が成立しない。
【0084】これは、強い類似性を示すHOTELとい
う語について全体で9個の照合が成立する。3文字の隣
接したシーケンスを使用することは、TELについて1
個の照合を生み出すことに注目すべきである。文字の部
分的変更(例えばEがAに)は隣接したシーケンスでは
まったく照合が成立せず、隣接しないケースでは3個の
照合が成立した。
【0085】図7乃至図12は、オリジナル・タップル
(インデックス)を作り、この参照列に照合するタップ
ル(インデックス)に関連させたオリジナル列を位置決
めするために、本発明が使用するコンピュータ・プログ
ラムのフローチャートである。図7乃至図9は、オリジ
ナル・タップル、オリジナル・インデックス、および関
連させた情報記録を作るコンピュータ・プログラムの一
続きのフローチャートを分けて示したものである。図1
0乃至図12は、参照タップル、参照インデックスを作
り、また、参照インデックスとオリジナル・インデック
スを照合し、EITを更新するコンピュータ・プログラ
ムの一続きのフローチャートを分けて示したものであ
る。
【0086】図7乃至図9において、ステップ610で
は、任意の長さLの1以上のトークンのシーケンスを、
オリジナル列χとしてコンピュータ・データベースX内
に入れる。各オリジナル列を、ポインタあるいはポイン
タに対するインデックスである参照値αで割り当てる。
ステップ615に示すように、統一性の最小範囲および
最大範囲もこの時点でメモリに記憶させる。ステップ6
20では、上記のルールに基づいて、オリジナル列の範
囲外のオリジナル・タップルを作る一連の入れ子ループ
の外ループをスタートさせる。オリジナル列用のステッ
プ620への第1入口によって、オリジナル列の第1ト
ークンが選択される。ステップ625では、ルール2を
使用してこの時点でスタートした部分列の長さがオリジ
ナル列の長さを越えるかどうか判定する。もしそうな
ら、プログラムはこのオリジナル列に対して終了する。
もし否なら、プログラムはステップ630に進み、第2
の部分列開始位置を選択する。この位置は、これより前
にスタートしたトークン位置2の開始点よりオリジナル
列の開始点のはるか下流へ1トークンをスタートさせ
る。ルール1は、前の列のオリジナル列より下流で次の
列がスタートする限り満たされる。このステップは入れ
子ループの第2レベルをスタートさせる。ステップ63
5はルール2を第2選択ループへ適応する。そのルール
が破られると、制御はステップ620か外入れ子ループ
へ戻る。ルールが満たされるなら、制御は入れ子ループ
の第2レベル内に留まり、ルール3の条件がステップ6
40で適応される。ルール3の条件が失効するなら、第
2部分列用(入れ子ループの第2レベル内で)の別のス
タート位置が選択され、このプロセスは反復する。ステ
ップ645、650で、最終オリジナル部分列のスター
ト位置に到達するまでこのプロセスは繰り返される。本
来、ステップ645、650は、j−タップルの所定数
jの部分列のルールを満たすj−タップルの組合せ全て
を作るために使用するサブループの任意の数を示す。2
つの部分列、つまりj=2、のみを使用するなら、ステ
ップ645、665は削除できる。オリジナル列の最終
部分列でスタートすることによってタップルが作られる
時点で、このプロセスはステップ655へ移る。選択し
た列がステップ660でルール2を破るなら、制御は矢
印で示した外ループでステップ650に戻る。全てのル
ープによりこの列の終点に達したなら、制御はステップ
620の最も外側のループレベルに達し、ステップ62
5の段階のプログラムが存在するまで、外ループへの流
れを維持する。
【0087】j番目の部分列について、ルール2、3の
条件をチェックし、上記と同じ方法によりステップ66
0および665のオペレーションを行う。ステップ67
0に示すように、ループによって選択されたj部分列の
全てはルール1、2、3と3つのルールを満たし、それ
を共に加えることによりタップルを形成する。ステップ
670で形成したタップルの固有オリジナル・インデッ
クスを、上記方法を使用してステップ675で作る。上
記のように、j−タップルの置き換え情報をステップ6
80で演算し、その情報記録をステップ685で演算す
る。ステップ690では、作ったj−タップルに関連し
た情報記録のリストをルックアップ・テーブルから引き
出す。そこに該当するものがないなら、新たな情報記録
をリストに加え、そのリストをルックアップ・テーブル
に再登録する。次に、制御はステップ655に戻り、こ
の入れ子ループのレベルで次のタップルを発生させる。
図7、8、9のフローチャートに示したプロセスは、デ
ータベースの各オリジナル列について繰り返し実行され
る。
【0088】図10乃至図12に示すように、ステップ
710では、データベース内に対象となる参照列を記憶
する。ステップ715では、EIT構造を作り、また統
一の最小範囲および最大範囲を選択する。ステップ72
0から775では、上記した図7乃至図9でおこなった
オリジナル列に対する方法とまったく同じようにして、
参照列から参照タップルおよび参照インデックスを作
る。ステップ780は参照置き換え情報Δを演算する。
ステップ790では、発生させた参照インデックスを使
用し、情報記録/リストをその発生参照インデックスに
等しい値によって索引されるルックアップ構造のセル内
にアクセスする。ステップ795では、情報記録/リス
トが空かどうかチェックする。空なら、制御はステップ
755に戻り、次の参照インデックスを発生させるオペ
レーションを行う。セルが情報記録/リストを含んでい
るなら、ステップ800でリストの第1情報記録を選択
する。投票(EIT)インデックスをステップ805で
上記したように演算する。EITのセルが、ステップ8
10で上記したように投票インデックスを使用してアク
セスされる。セルが存在しなければ、ステップ815で
セルを作り、c=0の値をそのセルに入れる。セルがあ
れば、ステップ820でセル内のc値を1づつ増加させ
る。このプロセスは、リストの全情報記録を投票するま
でステップ825、830で繰り返される。さらに情報
記録が無い時は、制御はステップ755に戻り、次の参
照タップルを発生させる。本発明では、上記した方法以
外にも他に多くのアルゴリズムの変更例が使用可能であ
る。
【0089】例 2 本発明の最も望ましい実施例は、生体、特に人体のゲノ
ム探査への応用であり、DNA列のヌクレオチド・シー
ケンスや他の生物情報の位置や目的を見つけることにあ
る。この方法を使用することにより、従来の方法による
ものに比べ、この情報は極めて迅速、かつ正確に決定す
ることが可能である。非制限例を説明する。
【0090】人間のゲノムの全ては符号化されないが、
ヌクレオチド・トークン・シーケンスに分解したDNA
鎖の部分列を有するデータベースが市販されている。こ
の情報は容易にコンピュータのデータベースへ入れるこ
とができ、データの参照/ポインタ指示さえも提供可能
である。上記したのと同様のアルゴリズムを使用して、
このDNAのオリジナル列を上記3ルールに従うヌクレ
オチドの隣接部分列に区切る。この隣接部分列を用い
て、1以上のオリジナル・タップルの集合を形成する。
この集合内の1以上のオリジナル・タップルは、ヌクレ
オチド・トークンの2以上の非隣接部分列を加えること
によって作られる。他のヌクレオチド・トークンの隣接
部分列もこのタップルに加えることができる。次に、こ
のオリジナルDNA列に関連した固有のオリジナル・イ
ンデックスを作る(上記の例を参照)。参照ヌクレオチ
ド・シーケンスを選択する。ヌクレオチド・トークンの
参照タップルを上記のように作る。再度、2以上の非隣
接参照部分列を共に加えることにより、1以上の参照タ
ップルを作る。オリジナル・インデックスを作ったもの
と同じインデックス発生アルゴリズムを使用して固有参
照インデックスを作る。この参照インデックスとオリジ
ナル・インデックスをルックアップ・テーブルを使用し
て一般的方法によるのと同じように比較する。最も望ま
しいルックアップ・テーブルは配列である。第2メモリ
構造、EITを使用して照合を探知する。最も望ましい
EITは動的ハッシュ・テーブルである。DNAオリジ
ナル列は所定しきい値より上の値を有するEITないの
cの値を使用して選択する。
【0091】本発明の方法を、約400万のヌクレオチ
ドを含む大腸菌のゲノムに対するヌクレオチドの参照列
を照合させるための試験に使用した。もちろん、本発明
は他に多くの応用が可能であり、例えばタンパク質のア
ミノ酸シーケンスの照合、文字列の認識、言語認識、音
楽認識等の例がある。
【0092】例 3 アミノ酸トークンから成るオリジナルタンパク質列に対
するアミノ酸トークン・シーケンスの照合の方法はDN
Aの場合と類似している。アミノ酸トークンから成るオ
リジナル・タンパク質列は、データベースとして市販の
ものが入手可能であり、またコンピュータ・メモリに自
力で入力することも可能である。前述したように、可能
性がある20のアミノ酸トークンは固有に識別するため
にアルファベット文字を割り当てられる。これらの文字
は固有の数値を与えられ、アミノ酸トークンの列は数列
に変換できる。オリジナルと参照のタップルおよびイン
デックスが作られ、前述のように比較される。照合数を
EIT内で追跡し、所定しきい値より上のc値を有する
投票セルを位置決めすることによって照合するオリジナ
ル列をアクセスする。
【0093】例 4 文字列認識は同様にして行われる。各文字を固有の数値
に割り当てる。文字トークンの列を一般方法を使用して
オリジナルと参照のタップルおよびインデックスを作る
ために処理する数列に変換する。そのインデックスを比
較し、照合をおこない、追跡する。オリジナル文字列
は、所定しきい値より上のEIT内のc値を見つけだす
ことによってデータベースからアクセスされる。
【0094】例 5 言語認識は同様の方法によっておこなわれる。はじめ
に、言語を従来の公知技術を使用して音素に変換する。
言語パターンを音素トークン列にし、各音素トークンを
固有の数値に割り当て、オリジナルと参照の音素列トー
クンを数列に変換する。そして、上記の一般的方法を適
用する。
【0095】例 6 音楽認識も本発明の方法を使用して行われる。歌や楽譜
は音符トークンのシーケンスである。各音符を数値ある
いはアルファベット値に割り当てる。例えば、ハ長調の
音符はCDEFGABCと表わされる。フラットやシャ
ープ、休符、音の長さ(4分音符、8分音符、等)も別
のアルファベット値を使用して示すことができる。他の
変換技術は従来方法を使用して開発可能である。上記方
法を用いてアルファベット文字のシーケンスとなる歌や
楽譜は、数のシーケンスに換えることができる。そし
て、本発明の一般的方法を使用してデータベース内で音
符の参照シーケンスを音符のオリジナル列と照合させ
る。
【0096】
【発明の効果】本発明によって、1以上のオリジナル列
を持つデータベース内のトークンの1以上のオリジナル
列でトークンの参照シーケンスと同一または類似のトー
クン・シーケンスを見つけだすための改良された方法が
提供される。
【図面の簡単な説明】
【図1】本発明の方法を全体的に示すフローチャートの
前半部である。
【図2】本発明の方法を全体的に示すフローチャートの
後半部である。
【図3】トークンから成るオリジナル列と、オリジナル
列のPi位置で開始し、lトークンの長さを有するトー
クンの部分列を示す概略図である。
【図4】ルックアップ構造の望ましい実施例を示す概略
説明図である。
【図5】ルックアップ構造の別の望ましい実施例を示す
概略説明図である。
【図6】証拠集積テーブル(EIT)の望ましい実施例
を示す説明図である。
【図7】オリジナル・タップルとオリジナル・インデッ
クスを作り、ルックアップ構造に関連情報記録を記憶さ
せるコンピュータ・プログラムのフローチャートの一部
である。
【図8】図7のフローチャートの続きである。
【図9】図8のフローチャートの続きである。
【図10】参照タップルと参照インデックスを作り、参
照インデックスとオリジナル・インデックスを照合さ
せ、EITを更新するコンピュータ・プログラムのフロ
ーチャートの一部である。
【図11】図10のフローチャートの続きである。
【図12】図11のフローチャートの続きである。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.5 識別記号 庁内整理番号 FI 技術表示箇所 G10L 3/00 531 Z 7627−5H

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】データベース内で1以上のオリジナルなト
    ークン列とトークンの参照列間の類似性を認識するため
    の方法において、 a.各オリジナル・トークン列を2以上の隣接するオリ
    ジナル部分列に区切ることと、 b.オリジナル列に関連した1以上のオリジナル・タッ
    プルを形成するために、オリジナル列の2以上の隣接し
    ないオリジナル部分列を追加すること、によってデータ
    ベース内の各オリジナル・トークン列に対する1以上の
    オリジナル・タップルを作る工程と、 オリジナル列から作った各オリジナル・タップルに対す
    る固有のオリジナル・インデックスで、しかもオリジナ
    ル・タップルを作ったオリジナル列に関連したオリジナ
    ル・インデックスを作る工程と、 c.トークンの参照列を2以上の隣接したトークンの参
    照部分列に区切ることと、 d.1以上の参照タップルを形成するために2以上の隣
    接しない参照部分列を追加すること、によってトークン
    の参照列から1以上の参照タップルを作る工程と、 オリジナル・インデックスを作った方法と同じ方法で各
    参照タップルに対する固有の参照インデックスを作る工
    程と、 1以上の参照インデックスを1以上のオリジナル・イン
    デックスと比較する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合を探知する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合数に基づき、データベース内のオリジナル・ト
    ークン列を選択する工程、等から構成したことを特徴と
    するオリジナルなトークン列とトークンの参照列間の類
    似性を認識するための方法。
  2. 【請求項2】データベース内で1以上のオリジナルなト
    ークン列のトークンの参照列を認識およびアクセスする
    方法において、 a.各オリジナル・トークン列を2以上の隣接するオリ
    ジナル部分列に区切ることと、 b.オリジナル列に関連した1以上のオリジナル・タッ
    プルを形成するために、オリジナル列の2以上の隣接し
    ないオリジナル部分列を追加すること、によってデータ
    ベース内の各オリジナル・トークン列に対する1以上の
    オリジナル・タップルを作る工程と、 オリジナル列から作った各オリジナル・タップルに対す
    る固有のオリジナル・インデックスで、しかもオリジナ
    ル・タップルを作ったオリジナル列に関連したオリジナ
    ル・インデックスを作る工程と、 第1メモリ・ルックアップ構造のセルを示すためにオリ
    ジナル・インデックスを使用し、またオリジナル列に関
    連した情報記録をそのセルに記憶させる工程と、 c.トークンの参照列を2以上の隣接したトークンの参
    照部分列に区切ることと、 d.1以上の参照タップルを形成するために2以上の隣
    接しない参照部分列を追加すること、によってトークン
    の参照列から1以上の参照タップルを作る工程と、 オリジナル・インデックスを作った方法と同じ方法で各
    参照タップルに対する固有の参照インデックスを作る工
    程と、 1以上の参照インデックスを、上記メモリ・ルックアッ
    プ構造を使用して1以上のオリジナル・インデックスと
    比較する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合を探知する工程と、 上記探知結果を第2メモリ・ルックアップ構造に記憶さ
    せる工程と、 上記1以上の参照インデックスと上記1以上のオリジナ
    ル・インデックス間の照合数に基づき、データベース内
    のオリジナル・トークン列を選択する工程、等から構成
    したことを特徴とするオリジナルなトークン列のトーク
    ンの参照列を認識およびアクセスする方法。
  3. 【請求項3】データベース内で1以上のオリジナルなD
    NA列のヌクレオチドの参照列を認識およびアクセスす
    る方法において、 a.各オリジナルDNA列を2以上の隣接するヌクレオ
    チド部分列に区切ることと、 b.オリジナルDNA列に関連した1以上のオリジナル
    ・タップルを形成するために、オリジナル列の2以上の
    隣接しないオリジナル部分列を追加すること、によって
    データベース内の各オリジナルDNA列に対する1以上
    のオリジナル・タップルを作る工程と、 オリジナルDNA列から作った各オリジナル・タップル
    に対する固有のオリジナル・インデックスで、しかもオ
    リジナル・タップルを作ったオリジナルDNA列に関連
    したオリジナル・インデックスを作る工程と、 第1メモリ・ルックアップ構造にオリジナルDNA列に
    関する情報記録を記憶させ、その記録はオリジナル・イ
    ンデックスによってアクセスされる工程と、 c.ヌクレオチドの参照列を2以上の隣接したヌクレオ
    チドの参照部分列に区切ることと、 d.1以上の参照タップルを形成するために2以上の隣
    接しない参照部分列を追加すること、によってトークン
    の参照列から1以上の参照タップルを作る工程と、 オリジナル・インデックスを作った方法と同じ方法で各
    参照タップルに対する固有の参照インデックスを作る工
    程と、 1以上の参照インデックスを、1以上のオリジナル・イ
    ンデックスと比較し、両インデックスが照合することを
    判断する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合を探知する工程と、 上記探知結果を第2メモリ構造に記憶させる工程と、 上記1以上の参照インデックスと上記1以上のオリジナ
    ル・インデックス間の照合数に基づき、データベース内
    のオリジナルDNA列を選択する工程、等から構成した
    ことを特徴とするオリジナルなDNA列のヌクレオチド
    の参照列を認識およびアクセスする方法。
  4. 【請求項4】データベース内で1以上のオリジナルなタ
    ンパク質列のアミノ酸の参照列を認識およびアクセスす
    る方法において、 a.各オリジナル・タンパク質列を2以上の隣接するア
    ミノ酸部分列に区切ることと、 b.オリジナル列の2以上の隣接しないオリジナル部分
    列を追加することにより、オリジナル・タンパク質列に
    関連した1以上のオリジナル・タップルを形成するこ
    と、によってデータベース内の各オリジナルタンパク質
    列に対する1以上のオリジナル・タップルを作る工程
    と、 オリジナル・タンパク質列から作った各オリジナル・タ
    ップルに対する固有のオリジナル・インデックスで、し
    かもオリジナル・タップルを作ったオリジナル・タンパ
    ク質列に関連したオリジナル・インデックスを作る工程
    と、 第1メモリ・ルックアップ構造に、関連する情報記録と
    共に上記オリジナル・インデックスを記憶させる工程
    と、 c.アミノ酸の参照列を2以上の隣接したアミノ酸の参
    照部分列に区切ること、と d.2以上の隣接しない参照部分列を追加することによ
    り、1以上の参照タップルを形成すること、によってト
    ークンの参照列から1以上の参照タップルを作る工程
    と、 オリジナル・インデックスを作った方法と同じ方法で各
    参照タップルに対する固有の参照インデックスを作る工
    程と、 1以上の参照インデックスを、1以上のオリジナル・イ
    ンデックスと比較する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合を探知する工程と、 上記探知結果を第2メモリ構造に記憶させる工程と、 上記1以上の参照インデックスと上記1以上のオリジナ
    ル・インデックス間の照合数に基づき、データベース内
    のオリジナルタンパク質列を選択する工程、等から構成
    したことを特徴とするオリジナルなタンパク質列のアミ
    ノ酸の参照列を認識およびアクセスする方法。
  5. 【請求項5】データベース内で1以上のオリジナルな文
    字列の文字の参照列を認識およびアクセスする方法にお
    いて、 a.各オリジナル文字列を2以上の隣接する文字部分列
    に区切ること、と b.オリジナル列の2以上の隣接しないオリジナル部分
    列を追加することにより、オリジナル文字列に関連した
    1以上のオリジナル・タップルを形成すること、によっ
    てデータベース内の各オリジナル文字列に対する1以上
    のオリジナル・タップルを作る工程と、 オリジナル文字列から作った各オリジナル・タップルに
    対する固有のオリジナル・インデックスで、しかもオリ
    ジナル・タップルを作ったオリジナル文字列に関連した
    オリジナル・インデックスを作る工程と、 第1メモリ・ルックアップ構造に、関連する情報記録と
    共に上記オリジナル・インデックスを記憶させる工程
    と、 c.文字の参照列を2以上の隣接した文字の参照部分列
    に区切ること、と d.2以上の隣接しない参照部分列を追加することによ
    り、1以上の参照タップルを形成すること、によってト
    ークンの参照列から1以上の参照タップルを作る工程
    と、 オリジナル・インデックスを作った方法と同じ方法で各
    参照タップルに対する固有の参照インデックスを作る工
    程と、 1以上の参照インデックスを、1以上のオリジナル・イ
    ンデックスと比較する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合を探知する工程と、 上記探知結果を第2メモリ・ルックアップ構造に記憶さ
    せる工程と、 上記1以上の参照インデックスと上記1以上のオリジナ
    ル・インデックス間の照合数に基づき、データベース内
    のオリジナル文字列を選択する工程、等から構成したこ
    とを特徴とするオリジナルな文字列の文字の参照列を認
    識およびアクセスする方法。
  6. 【請求項6】データベース内で1以上のオリジナルな音
    素列の音素の参照列を認識およびアクセスする方法にお
    いて、 a.各オリジナル音素列を2以上の隣接する音素部分列
    に区切ること、と b.オリジナル列の2以上の隣接しないオリジナル部分
    列を追加することにより、オリジナル音素列に関連した
    1以上のオリジナル・タップルを形成すること、によっ
    てデータベース内の各オリジナル音素列に対する1以上
    のオリジナル・タップルを作る工程と、 オリジナル音素列から作った各オリジナル・タップルに
    対する固有のオリジナル・インデックスで、しかもオリ
    ジナル・タップルを作ったオリジナル音素列に関連した
    オリジナル・インデックスを作る工程と、 第1メモリ・ルックアップ構造に、関連する情報記録と
    共に上記オリジナル・インデックスを記憶させる工程
    と、 c.音素の参照列を2以上の隣接した音素の参照部分列
    に区切ること、と d.2以上の隣接しない参照部分列を追加することによ
    り、1以上の参照タップルを形成すること、によってト
    ークンの参照列から1以上の参照タップルを作る工程
    と、 オリジナル・インデックスを作った方法と同じ方法で各
    参照タップルに対する固有の参照インデックスを作る工
    程と、 1以上の参照インデックスを、1以上のオリジナル・イ
    ンデックスと比較する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合を探知する工程と、 上記探知結果を第2メモリ・ルックアップ構造に記憶さ
    せる工程と、 上記1以上の参照インデックスと上記1以上のオリジナ
    ル・インデックス間の照合数に基づき、データベース内
    のオリジナル音素列を選択する工程、等から構成したこ
    とを特徴とするオリジナルな音素列の音素の参照列を認
    識およびアクセスする方法。
  7. 【請求項7】データベース内で1以上のオリジナルな音
    符列の音符の参照列を認識およびアクセスする方法にお
    いて、 a.各オリジナル音符列を2以上の隣接する音符部分列
    に区切ること、と b.オリジナル列の2以上の隣接しないオリジナル部分
    列を追加することにより、オリジナル音符列に関連した
    1以上のオリジナル・タップルを形成すること、によっ
    てデータベース内の各オリジナル音符列に対する1以上
    のオリジナル・タップルを作る工程と、 オリジナル音符列から作った各オリジナル・タップルに
    対する固有のオリジナル・インデックスで、しかもオリ
    ジナル・タップルを作ったオリジナル音符列に関連した
    オリジナル・インデックスを作る工程と、 第1メモリ・ルックアップ構造に、関連する情報記録と
    共に上記オリジナル・インデックスを記憶させる工程
    と、 c.音符の参照列を2以上の隣接した音符の参照部分列
    に区切ること、と d.2以上の隣接しない参照部分列を追加することによ
    り、1以上の参照タップルを形成すること、によってト
    ークンの参照列から1以上の参照タップルを作る工程
    と、 オリジナル・インデックスを作った方法と同じ方法で各
    参照タップルに対する固有の参照インデックスを作る工
    程と、 1以上の参照インデックスを、1以上のオリジナル・イ
    ンデックスと比較する工程と、 上記参照インデックスと上記オリジナル・インデックス
    間の照合を探知する工程と、 上記探知結果を第2メモリ・ルックアップ構造に記憶さ
    せる工程と、 上記1以上の参照インデックスと上記1以上のオリジナ
    ル・インデックス間の照合数に基づき、データベース内
    のオリジナル音符列を選択する工程、等から構成したこ
    とを特徴とするオリジナルな音符列の音符の参照列を認
    識およびアクセスする方法。
  8. 【請求項8】データベース内で1以上のオリジナルなト
    ークン列のトークンの参照列を認識およびアクセスする
    コンピュータ・システムにおいて、 オリジナルなトークン列の集合を有するデータベース
    と; a.各オリジナル・トークン列を2以上の隣接するオリ
    ジナル部分列に区切ることと、 b.オリジナル列の2以上の隣接しないオリジナル部分
    列を追加することにより各オリジナル列に関連した1以
    上のオリジナル・タップルを形成すること、によって上
    記データベース内の各オリジナル・トークン列に対する
    1以上のオリジナル・タップルを作る手段と;オリジナ
    ル列から作った各オリジナル・タップルに対する固有の
    オリジナル・インデックスで、しかもオリジナル・タッ
    プルを作ったオリジナル列に関連した固有オリジナル・
    インデックスと;上記オリジナル・タップルを作ったオ
    リジナル列に関連した情報を有するセルで、かつ上記オ
    リジナル・インデックスによってアクセスされるセルを
    有する第1メモリ・ルックアップ構造と; c.トークンの参照列を2以上の隣接したトークンの参
    照部分列に区切ることと、 d.2以上の隣接しない参照部分列を追加することによ
    り1以上の参照タップルを形成すること、によってトー
    クンの参照列から作った1以上の参照タップルと;オリ
    ジナル・インデックスを作った方法と同じ方法で作られ
    た各参照タップルに対する固有の参照インデックスで、
    1以上の参照インデックスを、1以上のオリジナル・イ
    ンデックスと比較した固有の参照インデックスと;上記
    参照インデックスと上記オリジナル・インデックス間の
    照合を探知するための第2メモリ・ルックアップ構造
    と、上記1以上の参照インデックスと上記1以上のオリ
    ジナル・インデックス間の照合数に基づき、データベー
    ス内のオリジナル・トークン列を選択する手段;等から
    構成したことを特徴とするオリジナルなトークン列のト
    ークンの参照列を認識およびアクセスするコンピュータ
    ・システム。
JP16059793A 1992-07-31 1993-06-30 トークン列データベースにおけるトークンシーケンスの探索 Expired - Fee Related JP2673091B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US92320392A 1992-07-31 1992-07-31
US923203 1992-07-31

Publications (2)

Publication Number Publication Date
JPH0698770A true JPH0698770A (ja) 1994-04-12
JP2673091B2 JP2673091B2 (ja) 1997-11-05

Family

ID=25448300

Family Applications (1)

Application Number Title Priority Date Filing Date
JP16059793A Expired - Fee Related JP2673091B2 (ja) 1992-07-31 1993-06-30 トークン列データベースにおけるトークンシーケンスの探索

Country Status (5)

Country Link
US (1) US5577249A (ja)
EP (1) EP0583559B1 (ja)
JP (1) JP2673091B2 (ja)
AT (1) ATE260486T1 (ja)
DE (1) DE69333422T2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105574A (ja) * 1996-09-27 1998-04-24 Hitachi Software Eng Co Ltd 配列データ類似度演算装置
JP2003167883A (ja) * 2001-11-30 2003-06-13 Celestar Lexico-Sciences Inc 配列情報処理装置、配列情報処理方法、プログラム、および、記録媒体
JP2013541792A (ja) * 2010-11-04 2013-11-14 マカフィー,インコーポレイテッド データの特定の組合せを保護するシステム及び方法
US9195937B2 (en) 2009-02-25 2015-11-24 Mcafee, Inc. System and method for intelligent state management
US9313232B2 (en) 2009-03-25 2016-04-12 Mcafee, Inc. System and method for data mining and security policy management
US9374225B2 (en) 2003-12-10 2016-06-21 Mcafee, Inc. Document de-registration
US10367786B2 (en) 2008-08-12 2019-07-30 Mcafee, Llc Configuration management for a capture/registration system

Families Citing this family (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
US5970454A (en) * 1993-12-16 1999-10-19 British Telecommunications Public Limited Company Synthesizing speech by converting phonemes to digital waveforms
US5778371A (en) * 1994-09-13 1998-07-07 Kabushiki Kaisha Toshiba Code string processing system and method using intervals
US5799299A (en) * 1994-09-14 1998-08-25 Kabushiki Kaisha Toshiba Data processing system, data retrieval system, data processing method and data retrieval method
US6560349B1 (en) 1994-10-21 2003-05-06 Digimarc Corporation Audio monitoring using steganographic information
US8094949B1 (en) 1994-10-21 2012-01-10 Digimarc Corporation Music methods and systems
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US5715446A (en) * 1995-05-22 1998-02-03 Matsushita Electric Industrial Co., Ltd. Information searching apparatus for searching text to retrieve character streams agreeing with a key word
US7289643B2 (en) 2000-12-21 2007-10-30 Digimarc Corporation Method, apparatus and programs for generating and utilizing content signatures
US6829368B2 (en) 2000-01-26 2004-12-07 Digimarc Corporation Establishing and interacting with on-line media collections using identifiers in media signals
US7562392B1 (en) 1999-05-19 2009-07-14 Digimarc Corporation Methods of interacting with audio and ambient music
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US5799301A (en) * 1995-08-10 1998-08-25 International Business Machines Corporation Apparatus and method for performing adaptive similarity searching in a sequence database
US5668988A (en) * 1995-09-08 1997-09-16 International Business Machines Corporation Method for mining path traversal patterns in a web environment by converting an original log sequence into a set of traversal sub-sequences
US5909677A (en) * 1996-06-18 1999-06-01 Digital Equipment Corporation Method for determining the resemblance of documents
JP3148692B2 (ja) * 1996-09-04 2001-03-19 株式会社エイ・ティ・アール音声翻訳通信研究所 類似検索装置
US6108666A (en) * 1997-06-12 2000-08-22 International Business Machines Corporation Method and apparatus for pattern discovery in 1-dimensional event streams
US6373971B1 (en) 1997-06-12 2002-04-16 International Business Machines Corporation Method and apparatus for pattern discovery in protein sequences
US7689532B1 (en) 2000-07-20 2010-03-30 Digimarc Corporation Using embedded data with file sharing
US6223186B1 (en) * 1998-05-04 2001-04-24 Incyte Pharmaceuticals, Inc. System and method for a precompiled database for biomolecular sequence information
US6178531B1 (en) 1998-12-18 2001-01-23 Ncr Corporation Method and apparatus for remotely testing token ring local area networks
US6507788B1 (en) 1999-02-25 2003-01-14 Société de Conseils de Recherches et D'Applications Scientifiques (S.C.R.A.S.) Rational selection of putative peptides from identified nucleotide, or peptide sequences, of unknown function
AU777693B2 (en) 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
US8095796B2 (en) 1999-05-19 2012-01-10 Digimarc Corporation Content identifiers
US7302574B2 (en) 1999-05-19 2007-11-27 Digimarc Corporation Content identifiers triggering corresponding responses through collaborative processing
US6941317B1 (en) 1999-09-14 2005-09-06 Eragen Biosciences, Inc. Graphical user interface for display and analysis of biological sequence data
US7418431B1 (en) * 1999-09-30 2008-08-26 Fair Isaac Corporation Webstation: configurable web-based workstation for reason driven data analysis
AU7840300A (en) * 1999-09-30 2001-04-30 Hnc Software, Inc. Webstation: configurable web-based workstation for reason driven data analysis
US7212968B1 (en) 1999-10-28 2007-05-01 Canon Kabushiki Kaisha Pattern matching method and apparatus
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
US6694324B1 (en) * 1999-12-16 2004-02-17 Ncr Corporation Determination of records with a specified number of largest or smallest values in a parallel database system
US6633817B1 (en) 1999-12-29 2003-10-14 Incyte Genomics, Inc. Sequence database search with sequence search trees
US6470345B1 (en) 2000-01-04 2002-10-22 International Business Machines Corporation Replacement of substrings in file/directory pathnames with numeric tokens
AU2001229655A1 (en) * 2000-01-21 2001-07-31 Sandy C. Shaw Method for the manipulation, storage, modeling, visualization and quantificationof datasets
US7366719B2 (en) 2000-01-21 2008-04-29 Health Discovery Corporation Method for the manipulation, storage, modeling, visualization and quantification of datasets
US20050026199A1 (en) * 2000-01-21 2005-02-03 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20050079524A1 (en) * 2000-01-21 2005-04-14 Shaw Sandy C. Method for identifying biomarkers using Fractal Genomics Modeling
US20050158736A1 (en) * 2000-01-21 2005-07-21 Shaw Sandy C. Method for studying cellular chronomics and causal relationships of genes using fractal genomics modeling
EP1152349A1 (en) * 2000-05-06 2001-11-07 Deutsches Krebsforschungszentrum Stiftung des öffentlichen Rechts Method for aligning sequences
AU2001261330A1 (en) * 2000-05-10 2001-11-20 E.I. Du Pont De Nemours And Company Method of discovering patterns in symbol sequences
US20010042204A1 (en) * 2000-05-11 2001-11-15 David Blaker Hash-ordered databases and methods, systems and computer program products for use of a hash-ordered database
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
AU2001266948A1 (en) * 2000-06-14 2001-12-24 Douglas M. Blair Apparatus and method for providing sequence database comparison
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
US7853664B1 (en) 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
AU2000276398A1 (en) * 2000-09-30 2002-04-15 Intel Corporation (A Corporation Of Delaware) A method and apparatus for determining text passage similarity
JP4299963B2 (ja) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー 意味的まとまりに基づいて文書を分割する装置および方法
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US20020072982A1 (en) * 2000-12-12 2002-06-13 Shazam Entertainment Ltd. Method and system for interacting with a user in an experiential environment
US20020120403A1 (en) * 2000-12-21 2002-08-29 Wen-Hsuang Yao Method, system, and program of searching for a pair of fragments from two data sequences
US7359889B2 (en) 2001-03-02 2008-04-15 Landmark Digital Services Llc Method and apparatus for automatically creating database for use in automated media recognition system
US7046819B2 (en) 2001-04-25 2006-05-16 Digimarc Corporation Encoded reference signal for digital watermarks
US7076731B2 (en) * 2001-06-02 2006-07-11 Microsoft Corporation Spelling correction system and method for phrasal strings using dictionary looping
US7209932B2 (en) * 2002-03-25 2007-04-24 International Business Machines Corporation Method, system, and program for allocating tasks to a plurality of processors
US7366645B2 (en) * 2002-05-06 2008-04-29 Jezekiel Ben-Arie Method of recognition of human motion, vector sequences and speech
US20040024760A1 (en) * 2002-07-31 2004-02-05 Phonetic Research Ltd. System, method and computer program product for matching textual strings using language-biased normalisation, phonetic representation and correlation functions
US7472114B1 (en) * 2002-09-18 2008-12-30 Symantec Corporation Method and apparatus to define the scope of a search for information from a tabular data source
US8041719B2 (en) * 2003-05-06 2011-10-18 Symantec Corporation Personal computing device-based mechanism to detect preselected data
US7886359B2 (en) * 2002-09-18 2011-02-08 Symantec Corporation Method and apparatus to report policy violations in messages
AU2003270883A1 (en) * 2002-09-18 2004-04-08 Vontu, Inc. Detection of preselected data
US8661498B2 (en) 2002-09-18 2014-02-25 Symantec Corporation Secure and scalable detection of preselected data embedded in electronically transmitted messages
US7673344B1 (en) 2002-09-18 2010-03-02 Symantec Corporation Mechanism to search information content for preselected data
US8225371B2 (en) 2002-09-18 2012-07-17 Symantec Corporation Method and apparatus for creating an information security policy based on a pre-configured template
US7047254B2 (en) * 2002-10-31 2006-05-16 Hewlett-Packard Development Company, L.P. Method and apparatus for providing aggregate object identifiers
US7296011B2 (en) * 2003-06-20 2007-11-13 Microsoft Corporation Efficient fuzzy match for evaluating data records
US7203680B2 (en) * 2003-10-01 2007-04-10 International Business Machines Corporation System and method for encoding and detecting extensible patterns
US8700533B2 (en) * 2003-12-04 2014-04-15 Black Duck Software, Inc. Authenticating licenses for legally-protectable content based on license profiles and content identifiers
US9489687B2 (en) * 2003-12-04 2016-11-08 Black Duck Software, Inc. Methods and systems for managing software development
US20060116966A1 (en) * 2003-12-04 2006-06-01 Pedersen Palle M Methods and systems for verifying protectable content
US7552093B2 (en) * 2003-12-04 2009-06-23 Black Duck Software, Inc. Resolving license dependencies for aggregations of legally-protectable content
WO2005057464A1 (en) * 2003-12-05 2005-06-23 Council Of Scientific And Industrial Research A computer based versatile method for identifying protein coding dna sequences useful as drug targets
GB0400974D0 (en) * 2004-01-16 2004-02-18 Solexa Ltd Multiple inexact matching
US8011003B2 (en) * 2005-02-14 2011-08-30 Symantec Corporation Method and apparatus for handling messages containing pre-selected data
US20060184549A1 (en) * 2005-02-14 2006-08-17 Rowney Kevin T Method and apparatus for modifying messages based on the presence of pre-selected data
US7797245B2 (en) * 2005-03-18 2010-09-14 Black Duck Software, Inc. Methods and systems for identifying an area of interest in protectable content
US20060235845A1 (en) * 2005-04-15 2006-10-19 Argentar David R Identifying patterns of symbols in sequences of symbols using a binary array representation of the sequence
US7403943B2 (en) * 2005-04-15 2008-07-22 E. I. Du Pont De Nemours And Company Pattern discovery using PINA and PIBA arrays
US7424472B2 (en) * 2005-05-27 2008-09-09 Microsoft Corporation Search query dominant location detection
US8010538B2 (en) * 2006-05-08 2011-08-30 Black Duck Software, Inc. Methods and systems for reporting regions of interest in content files
US7739587B2 (en) * 2006-06-12 2010-06-15 Xerox Corporation Methods and apparatuses for finding rectangles and application to segmentation of grid-shaped tables
US20100192199A1 (en) * 2006-09-07 2010-07-29 Cwi International, Llc Creating and using a specific user unique id for security login authentication
US8010803B2 (en) 2006-10-12 2011-08-30 Black Duck Software, Inc. Methods and apparatus for automated export compliance
US7681045B2 (en) * 2006-10-12 2010-03-16 Black Duck Software, Inc. Software algorithm identification
US8745183B2 (en) * 2006-10-26 2014-06-03 Yahoo! Inc. System and method for adaptively refreshing a web page
US20080104502A1 (en) * 2006-10-26 2008-05-01 Yahoo! Inc. System and method for providing a change profile of a web page
US20080104257A1 (en) * 2006-10-26 2008-05-01 Yahoo! Inc. System and method using a refresh policy for incremental updating of web pages
US8065739B1 (en) 2008-03-28 2011-11-22 Symantec Corporation Detecting policy violations in information content containing data in a character-based language
US7996373B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for detecting policy violations in a data repository having an arbitrary data schema
US7996374B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for automatically correlating related incidents of policy violations
EP2277105A4 (en) * 2008-04-07 2012-09-19 Telecomm Systems Inc PROXIMITY SEARCH FOR POINT OF INTEREST NAMES COMBINING UNEXPECTED CHAIN CORRESPONDENCE WITH INCREASING RAY SEARCH
US8826443B1 (en) 2008-09-18 2014-09-02 Symantec Corporation Selective removal of protected content from web requests sent to an interactive website
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US9135396B1 (en) * 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
US8613040B2 (en) * 2008-12-22 2013-12-17 Symantec Corporation Adaptive data loss prevention policies
WO2010091021A2 (en) * 2009-02-03 2010-08-12 Complete Genomics, Inc. Oligomer sequences mapping
US8738296B2 (en) * 2009-02-03 2014-05-27 Complete Genomics, Inc. Indexing a reference sequence for oligomer sequence mapping
EP2394165A4 (en) * 2009-02-03 2013-12-11 Complete Genomics Inc ASSIGNMENT OF OLIGOMER SEQUENCES
US8935752B1 (en) 2009-03-23 2015-01-13 Symantec Corporation System and method for identity consolidation
WO2010127045A2 (en) * 2009-04-29 2010-11-04 Complete Genomics, Inc. Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence
US9137206B2 (en) * 2009-11-20 2015-09-15 International Business Machines Corporation Service registry for saving and restoring a faceted selection
US8745094B2 (en) 2010-03-01 2014-06-03 Protegrity Corporation Distributed tokenization using several substitution steps
US8650195B2 (en) * 2010-03-26 2014-02-11 Palle M Pedersen Region based information retrieval system
WO2011137368A2 (en) 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences
US8686271B2 (en) * 2010-05-04 2014-04-01 Shazam Entertainment Ltd. Methods and systems for synchronizing media
GB2495430A (en) * 2010-05-20 2013-04-10 Real Time Genomics Inc A method and system for evaluating sequences
US9268903B2 (en) 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
US9262397B2 (en) * 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
JP5884293B2 (ja) * 2011-04-28 2016-03-15 富士通株式会社 類似文字コード群検索支援方法、類似候補抽出方法、類似候補抽出プログラムおよび類似候補抽出装置
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US8954458B2 (en) 2011-07-11 2015-02-10 Aol Inc. Systems and methods for providing a content item database and identifying content items
US9407463B2 (en) * 2011-07-11 2016-08-02 Aol Inc. Systems and methods for providing a spam database and identifying spam communications
US8855997B2 (en) 2011-07-28 2014-10-07 Microsoft Corporation Linguistic error detection
US20130246431A1 (en) 2011-12-27 2013-09-19 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US9648011B1 (en) * 2012-02-10 2017-05-09 Protegrity Corporation Tokenization-driven password generation
US9158754B2 (en) 2012-03-29 2015-10-13 The Echo Nest Corporation Named entity extraction from a block of text
US9547679B2 (en) 2012-03-29 2017-01-17 Spotify Ab Demographic and media preference prediction using media content data analysis
US9406072B2 (en) 2012-03-29 2016-08-02 Spotify Ab Demographic and media preference prediction using media content data analysis
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
CN105637099B (zh) 2013-08-23 2020-05-19 深圳华大智造科技有限公司 使用短读段的长片段从头组装
US9977801B2 (en) 2013-11-21 2018-05-22 Sap Se Paged column dictionary
US9977802B2 (en) * 2013-11-21 2018-05-22 Sap Se Large string access and storage
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
GB201322057D0 (en) * 2013-12-13 2014-01-29 Qatar Foundation Descriptive and prescriptive data cleaning
US10235377B2 (en) 2013-12-23 2019-03-19 Sap Se Adaptive dictionary compression/decompression for column-store databases
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9798823B2 (en) 2015-11-17 2017-10-24 Spotify Ab System, methods and computer products for determining affinity to a content creator
CN107203567A (zh) * 2016-03-18 2017-09-26 伊姆西公司 用于搜索字串的方法和设备
CN109766893A (zh) * 2019-01-09 2019-05-17 北京数衍科技有限公司 适于购物小票的图片文字识别方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4753878A (en) * 1981-10-01 1988-06-28 Amb Systems Corp. Microorganism identification technique
US4922414A (en) * 1982-12-17 1990-05-01 Symbolics Inc. Symbolic language data processing system
US4670890A (en) * 1983-03-04 1987-06-02 Research Corporation Method of and/or apparatus for encoding and decoding sequential information in data handling systems
JPS6017564A (ja) * 1983-07-08 1985-01-29 Brother Ind Ltd 電子辞書
US4760523A (en) * 1984-06-29 1988-07-26 Trw Inc. Fast search processor
US4675829A (en) * 1984-07-27 1987-06-23 Intellicorp Corporation Method and apparatus for building knowledge-based systems
US4899128A (en) * 1985-12-11 1990-02-06 Yeda Research And Development Co., Ltd. Method and apparatus for comparing strings using hash values
US4908773A (en) * 1987-04-06 1990-03-13 Genex Corporation Computer designed stabilized proteins and method for producing same
US4811218A (en) * 1986-06-02 1989-03-07 Applied Biosystems, Inc. Real time scanning electrophoresis apparatus for DNA sequencing
US4853871A (en) * 1987-04-06 1989-08-01 Genex Corporation Computer-based method for designing stablized proteins
US4930071A (en) * 1987-06-19 1990-05-29 Intellicorp, Inc. Method for integrating a knowledge-based system with an arbitrary database system
US4939666A (en) * 1987-09-02 1990-07-03 Genex Corporation Incremental macromolecule construction methods
US4876541A (en) * 1987-10-15 1989-10-24 Data Compression Corporation Stem for dynamically compressing and decompressing electronic data
US4935877A (en) * 1988-05-20 1990-06-19 Koza John R Non-linear genetic algorithms for solving problems
US5008818A (en) * 1989-04-24 1991-04-16 Alexander K. Bocast Method and apparatus for reconstructing a token from a token fragment
US5276616A (en) * 1989-10-16 1994-01-04 Sharp Kabushiki Kaisha Apparatus for automatically generating index
US5051745A (en) * 1990-08-21 1991-09-24 Pkware, Inc. String searcher, and compressor using same
US5276741A (en) * 1991-05-16 1994-01-04 Trw Financial Systems & Services, Inc. Fuzzy string matcher

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10105574A (ja) * 1996-09-27 1998-04-24 Hitachi Software Eng Co Ltd 配列データ類似度演算装置
JP2003167883A (ja) * 2001-11-30 2003-06-13 Celestar Lexico-Sciences Inc 配列情報処理装置、配列情報処理方法、プログラム、および、記録媒体
US9374225B2 (en) 2003-12-10 2016-06-21 Mcafee, Inc. Document de-registration
US10367786B2 (en) 2008-08-12 2019-07-30 Mcafee, Llc Configuration management for a capture/registration system
US9195937B2 (en) 2009-02-25 2015-11-24 Mcafee, Inc. System and method for intelligent state management
US9313232B2 (en) 2009-03-25 2016-04-12 Mcafee, Inc. System and method for data mining and security policy management
JP2013541792A (ja) * 2010-11-04 2013-11-14 マカフィー,インコーポレイテッド データの特定の組合せを保護するシステム及び方法
US9794254B2 (en) 2010-11-04 2017-10-17 Mcafee, Inc. System and method for protecting specified data combinations
US10313337B2 (en) 2010-11-04 2019-06-04 Mcafee, Llc System and method for protecting specified data combinations
US10666646B2 (en) 2010-11-04 2020-05-26 Mcafee, Llc System and method for protecting specified data combinations
US11316848B2 (en) 2010-11-04 2022-04-26 Mcafee, Llc System and method for protecting specified data combinations

Also Published As

Publication number Publication date
ATE260486T1 (de) 2004-03-15
DE69333422D1 (de) 2004-04-01
US5577249A (en) 1996-11-19
EP0583559A1 (en) 1994-02-23
JP2673091B2 (ja) 1997-11-05
DE69333422T2 (de) 2004-12-16
EP0583559B1 (en) 2004-02-25

Similar Documents

Publication Publication Date Title
JP2673091B2 (ja) トークン列データベースにおけるトークンシーケンスの探索
CN100557606C (zh) 用于查找串的方法和设备
JP2832988B2 (ja) データ検索システム
US7698283B2 (en) System and method for organizing data
Robertson et al. Applications of n‐grams in textual information systems
Califano et al. FLASH: A fast look-up algorithm for string homology
US10521441B2 (en) System and method for approximate searching very large data
US5319779A (en) System for searching information using combinatorial signature derived from bits sets of a base signature
US20070294235A1 (en) Hashed indexing
US20060294092A1 (en) System and method for data sensitive filtering of patient demographic record queries
US10649997B2 (en) Method, system and computer program product for performing numeric searches related to biometric information, for finding a matching biometric identifier in a biometric database
JPH06131398A (ja) 複数の文書検索方法
Mäkinen et al. Transposition invariant string matching
US6691103B1 (en) Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
US20090125514A1 (en) Sequence Matching Algorithm
Vaddadi et al. Read mapping on genome variation graphs
JPH0869476A (ja) 検索システム
Wong et al. Predicting approximate protein-DNA binding cores using association rule mining
JP3370787B2 (ja) 文字配列検索方法
US6898530B1 (en) Method and apparatus for extracting attributes from sequence strings and biopolymer material
Malki Comprehensive study and comparison of information retrieval indexing techniques
CN110032621B (zh) 中文比对方法
Li et al. Seeding with minimized subsequence
Lee et al. A seriate coverage filtration approach for homology search
Kahveci et al. Progressive Searching of Biological Sequences.

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees