JP2002529817A

JP2002529817A - 配列相同性検出を形成するための方法および装置

Info

Publication number: JP2002529817A
Application number: JP2000580125A
Authority: JP
Inventors: フロラトス、アリス; リゴウトソス、イシドア・
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-10-30
Filing date: 1999-10-29
Publication date: 2002-09-10
Anticipated expiration: 2019-10-29
Also published as: EP1044417B1; WO2000026818A1; US6785672B1; WO2000026819A9; CN1108579C; JP3412618B2; WO2000026819A1; CA2315147C; CN1110761C; EP1057131A1; US6571199B1; CN1287641A; CN1289424A; DE69901544D1; DE69904435D1; DE69901544T2; DE69904435T2; CA2315147A1; JP2002529818A; EP1057131B1

Abstract

(57)【要約】【課題】【解決手段】本発明の配列相同性検出態様では、データベース内の複数の配列と照会配列との間の相同性を検出する、コンピュータに基づく方法に、以下のステップが含まれる。まず、この方法には、データベースに関連するパターンにアクセスするステップが含まれ、各パターンは、データベース内の１つまたは複数の配列の少なくとも一部を表す。次に、照会配列をパターンと比較して、照会配列の１つまたは複数の部分が、パターンによって表されるデータベースの配列の部分に対して相同であるかどうかを検出する。その後、照会配列に対して相同であることが検出された配列のそれぞれについてスコアを生成するが、配列スコアは、検出された配列の相同部分のそれぞれに従って生成された個々のスコアに基づき、配列スコアは、照会配列と検出された配列との間の相同性の度合を表す。

Description

【発明の詳細な説明】

【０００１】関連出願の相互参照本出願は、米国特許出願第６０／１０６２９５号明細書に対する優先を請求し
、参照によって本明細書に組み込まれる、本明細書と同時にA. FloratosおよびI
. Rigoutsos名義で出願された米国特許出願書「Methods and Apparatus for Per
forming Pattern Dictionary Formation for Use in Sequence Homology Detect
ion」に関する。

【０００２】

【発明の属する技術分野】

本発明は、全般的にはデータベース探索に関し、具体的には、たとえば遺伝子
研究などの所与のアプリケーションに関連する、照会配列とデータベース内の配
列との間の配列相同性を検出するための方法および装置に関する。

【０００３】

【従来の技術】

遺伝子研究の分野では、新しい遺伝子の配列決定の次の最初のステップは、そ
の遺伝子の機能を同定する作業である。この目標を達成するための最も一般的で
直裁な方法では、２つのペプチドの伸展が、配列レベルで十分な類似性を示す（
すなわち、わずかな数の挿入、削除またはアミノ酸変異によって一方からもう一
方を得ることができる）場合に、それらがおそらく生物学的に関連するという、
生物学的事実を利用する。そのような手法の例が、A.M. Lesk著、「Computation
al Molecular Biology」、Encyclopedia of Computer Science and Technology
、A.KentおよびJ.G. Williams編、31:101-165、Marcel Dekker刊、米国ニューヨ
ーク州、１９９４年と、R.F. Doolittle著、「What we have learned and will
learn from sequence databases」、Computers and DNA、G. BellおよびT. Marr
編集、21-31、Addison-Wesley刊、1990年と、C. Caskey、R. Eisenberg、E. Lan
derおよびJ. Straus著、「Hugo statement on patenting of DNA」、Genome Dig
est、2:6-9、1995年と、W.R. Pearson著、「Protein sequence comparison and
protein evolution」、Tutorial of Intelligent Systems in Molecular Biolog
y、英国ケンブリッジ、1995年に記載されている。

【０００４】この枠組みの中で、新しい遺伝子の機能に関するヒントを得るという問題は、
アミノ酸の列を同定する相同の１つになる。一般に、相同とは、複数の配列また
は列の間の類似性または関係を指す。したがって、照会配列Ｑ（たとえば新しい
遺伝子）と、明瞭に特徴を記述されたタンパク質の組Ｄを与えられ、Ｄに含まれ
る配列の領域に類似したＱのすべての領域を探すことになる。

【０００５】この作業を実現するために最初に使用された手法は、動的計画法と称する技法
に基づくものであった。この手法は、S.B. NeedlemanおよびC.D. Wunsch著、「A
General Method Applicable To The Search For Similarities In The Amino A
cid Sequence Of Two Proteins」、Journal Of Molecular Biology、48:443-453
、1970年と、T.F. SmithおよびM.S. Waterman著、「Identification Of Common
Molecular Subsequences」、Journal Of Molecular Biology、147:195-197、198
1年に記載されている。残念ながら、この方法の計算要件は、特に現在の典型で
ある巨大なデータベースを探索する時に、急速に非現実的になる。一般に、問題
は、動的計画法の変形が、最終的に重要ではなくなる相同の計算にかなりの時間
を費やすことである。

【０００６】この問題を回避するための努力において、示量的局所類似性だけの発見に焦点
を合わせた多数のアルゴリズムが提案されてきた。これらのアルゴリズムのうち
で最もよく知られているのが、ＦＡＳＴＡおよびＢＬＡＳＴと称するアルゴリズ
ムである。ＦＡＳＴＡアルゴリズムは、W.R. PearsonおよびD.J. Lipman著、「I
mproved tools for biological sequence comparison」、Proc.Natl.Acad.Sci.
、85:2444-2448、1988年と、D.J. LipmanおよびW.R. Pearson著、「Rapid and s
ensitive protein similarity searches」、Science、227:1435-1441、1989年に
記載されている。ＢＬＡＳＴアルゴリズムは、S. Altschul、W. Gish、W. Mille
r、E.W. MyersおよびD. Lipman著、「A basic local alignment search tool」
、J.Mol.Biology、215:403-410、1990年に記載されている。大多数の場合に、性
能向上は、まず「ギャップのない」相同すなわち、変異のみに起因し、挿入また
は削除に起因しない類似性を探すことによって達成される。この手法の背後にあ
る理論的基礎は、２つのペプチド列の間の実質的に「ギャップのある」相同にお
いて、少なくとも、一致部分にギャップが含まれない部分列の対が存在する見込
みがあるということである。これらの部分列（ギャップのない相同）の突きとめ
を、すべての（ギャップのある）相同を得るための第１ステップとして使用する
ことができる。

【０００７】しかし、照会配列とデータベース配列の間の類似する領域の同定は、この処理
の最初の部分（計算的に最も過酷な）でしかない。第２の部分（生物学者にとっ
て重要な部分）は、これらの類似性の評価すなわち、その類似性が、照会配列と
それに対応するデータ・ベース配列の間で推論された関係（機能的、構造的また
はそれ以外）を是認するのに十分確実であるかどうかの判断である。このような
評価は、通常は、生物学的情報と統計的推論を組み合わせることによって実行さ
れる。通常、類似性は、関係する領域の対のすべてについて計算されたスコアと
して定量化される。このスコアの計算には、ギャップ・コスト（ギャップのある
位置合せ）の使用と、所与のアミノ酸が別のアミノ酸に変化する進化的確率を与
える適当な変異行列の使用が含まれる。これらの行列の例が、ＰＡＭ行列（M.O.
Dayhoff、R.M. SchwartzおよびB.C. Orcutt著、「A model of evolutionary ch
ange in proteins」、Atlas of Protein Sequence and Structure、5:345-352、
1978年を参照されたい）と、BLOSUM行列（S. HenikoffおよびJ.G. Henikoff著、
「Amino acid substitution matrices from protein blocks」、Proc.Natl.Acad
.Sci.、89:915-919、1992年を参照されたい）である。その後、このコストの統
計的な重要性を、そのようなスコアが純粋に偶然によって発生する確率を（なん
らかの統計モデルの下で）計算することによって評価する。たとえば、S. Karli
n、A. DemboおよびT. Kawabata著、「Statistical composition of high-scorin
g segments from molecular sequences」、The Annals of Statistics、2:571-5
81、1990年と、S.KarlinおよびS.Altschul著、「Methods for assessing the st
atistical significance of molecular sequence features by using general s
coring schemes」、Proc.Natl.Acad.Sci.、87:2264-2268、1990年を参照された
い。使用される統計モデルに応じて、この確率は、照会配列の長さ、基礎になる
データベースのサイズなどの複数の要因に依存する可能性がある。しかし、どの
従来の統計モデルを使用する場合であっても、いわゆる「グレー領域」すなわち
、統計的に重要でないスコアが、実際には生物学的に重要な類似性を示す状況が
必ず存在する。残念ながら、これは回避不能でもある。結局、統計モデルによっ
て生物学的現実を近似できる程度には限界がある。

【０００８】統計的重要さに弱い類似性を付加することに固有の困難に対する代替策が、進
化的に離れた相同をモデル化する配列記述子の推論に生物学的知識を使用するこ
とである。ＢＬＯＣＫＳ（S. HenikoffおよびJ. Henikoff著、「Automatic Asse
mbly of Protein Blocks for Database Searching」、Nucleic Acids Research
、19:6565-6572、1991年を参照されたい）は、新しい遺伝子に機能的に注釈をつ
けるために、ＰＲＯＳＩＴＥ（S. HenikoffおよびJ. Henikoff著、「Protein Fa
mily Classification Based on Searching a Database of Blocks」、Genomics
、Vol.19、pp.97-107、1994年を参照されたい）データベースで定義されたタン
パク分類から得られるパターンによって誘導されたプロファイルを使用するシス
テムである。この場合の利益は、この分類が、関係することが既知のタンパクの
ファミリを扱う専門家によって編集されていることである。その結果、弱い類似
性であっても認識でき、注釈付け処理に使用できる。その一方で、どのタンパク
が実際に関係し、その結果、パターンによって表現可能であるかに関する知識は
それだけしかない。さらに、タンパクのファミリに、実際には現在要素であると
見なされていない要素が含まれるという危険性が常に存在する。これらの要素を
検討対象から排除することによって、ファミリに「オーバー・フィット（over f
it）」したパターンが得られる可能性がある、すなわち、未同定のファミリ要素
に対する外挿について厳密にすぎる。

【０００９】したがって、改良された配列相同性検出を可能にする独自の辞書形成技法を介
して改良されたパターン辞書を作成するための方法および装置の必要と、注釈付
きの配列だけの探索に制限されない、配列相同性検出自体のための方法および装
置の必要が存在することは明白である。

【００１０】

【発明が解決しようとする課題】

本発明は、以下で詳細に説明するように、改良されたパターン辞書形成技法お
よび改良された配列相同性検出技法を提供することによって、上記および他の必
要に対する解決策を提供する。

【００１１】

【課題を解決するための手段】

本発明の配列相同性検出態様では、データベース内の複数の配列と照会配列と
の間の相同性を検出する、コンピュータに基づく方法に、以下のステップが含ま
れる。まず、この方法には、データベースに関連するパターンにアクセスするス
テップが含まれ、各パターンは、データベース内の１つまたは複数の配列の少な
くとも一部を表す。次に、照会配列をパターンと比較して、照会配列の１つまた
は複数の部分が、パターンによって表されるデータベースの配列の部分に対して
相同であるかどうかを検出する。その後、照会配列に対して相同であることが検
出された配列のそれぞれについてスコアを生成するが、配列スコアは、検出され
た配列の相同部分のそれぞれに従って生成された個々のスコアに基づき、配列ス
コアは、照会配列と検出された配列との間の相同性の度合を表す。

【００１２】本発明の辞書形成態様では、データベース内の複数の配列を処理する、コンピ
ュータに基づく方法に、以下のステップが含まれる。まず、この方法には、各配
列を形成する文字を含む複数の配列のそれぞれを評価するステップが含まれる。
次に、データベース内の配列の少なくとも部分集合を表す文字のパターンを少な
くとも１つ生成する。このパターンは、統計的有意性を関連付けられており、パ
ターンの統計的有意性は、そのパターンがデータベース内でサポートする配列の
最小の個数を表す値によって決定される。

【００１３】したがって、従来技術の手法からの重要な離反において、本発明の方法論は、
データベースの以前の区分を必要としない、任意のデータ・ベースに対して実行
される監督されないパターン発見に基づく。ＢＬＯＣＫＳ手法では、データベー
スが、生物学的に関連する配列の部分集合に（外部の専門家によって）区分され
ていることが前提である。その後、プロファイルが、各部分集合を個別に処理す
ることによって得られる。この手法の結果として、ＢＬＯＣＫＳは、任意のデー
タベースを扱うことができない。というのは、そのようなデータベースのすべて
が、関係する部分集合に区分されてはいないからである。実際、ＢＬＯＣＫＳは
、本明細書で言及するＰＲＯＳＩＴＥデータベースに記述されたタンパク・グル
ープを使用して、やはり本明細書で言及するSwissProtデータベースに関しての
み機能する。その一方で、本発明は、その入力としてデータベース全体を使用す
ることが好ましく、どのパターンが重要でありどれが重要でないかを判断するた
めの自動化された方法論を提供する。

【００１４】さらに、本発明は、発見されたパターンの統計的重要性を評価するための新し
い統計的枠組みを提供する。既存の枠組みとは異なり、本発明の手法では、その
計算においてメモリの概念が導入される。すなわち、たとえば照会配列の領域Ａ
が、あるデータベース配列の領域Ｂと比較される時に、結果の類似性スコアは、
データベース内の他のすべての配列に対するＡの類似性を考慮することによって
評価される。

【００１５】本明細書で説明する機能強化された統計モデルを使用することによって、既存
の手法を使用した場合には未検出になるはずの重要な局所類似性の検出が可能に
なる。これによって、本発明のシステムが、従来技術のシステムで可能なレベル
より高いレベルの感度で類似性探索を実行できるようになる。

【００１６】さらに、本発明は、基礎になるデータベースＤで使用可能な部分的な注釈情報
を利用するための自動化された方法を提供する。この方法論を用いると、ユーザ
は、重要でないように見える類似性をより詳細に利用できるようになる。たとえ
ば、パターンが照会配列領域Ａと一致する時に、そのパターンに一致するデータ
ベース領域のすべてを検査することができる。これらのデータベース領域のすべ
て（またはより多く）が、同一の形で注釈を付けられている場合、この注釈を、
照会領域Ａに転送することができる。上の形で照会配列に部分的に注釈を付ける
ことが、総合的な配列注釈に対して有用であることを証明できる。

【００１７】本発明は、データベースを非常に相同性の高い配列のグループにクラスタ化す
るための詳細な方法論も提供する。遺伝子データ処理アプリケーションでは、こ
の方法論によって、複数領域タンパクの正しい扱いが可能になる。

【００１８】本明細書に記載の発明的概念は、たとえばインターネットなどのネットワーク
上で、クライアント／サーバ関係で実施できることも諒解されたい。これによっ
て、ユーザは、リモート位置のクライアント装置で照会配列を入力でき、この照
会配列は、ネットワークを介してサーバに送信され、サーバで処理される。その
後、サーバは、相同性探索の結果を、ネットワークを介してユーザのクライアン
ト装置に返す。

【００１９】本発明の上記および他の目的、特徴および長所は、添付図面と共に読まれるべ
き、以下の実施例の詳細な説明から明白になる。

【００２０】

【発明の実施の形態】

本発明を、例の遺伝子データ処理アプリケーションに関連して下で説明する。
しかし、本発明は、そのような特定のアプリケーションに制限されないことを理
解されたい。そうではなくて、本発明は、一般に、任意のデータベースからのパ
ターン辞書の作成（データベース・レコードを同等の配列表現に適宜変換した後
の）と、データベース内のデータに対する所与の照会レコードの制限されない相
同性探索の実行に適用可能である。

【００２１】まず図１を参照すると、本発明の実施例による配列相同性検出システムのブロ
ック図が示されている。例のシステム１００には、探索エンジン・モジュール１
１０、パターン辞書１２０、辞書形成モジュール１３０およびソース・データベ
ース１４０が含まれる。下で詳細に説明するように、探索エンジン１１０は、ユ
ーザから照会配列を受け取り、パターン辞書１２０の探索を実行して、何らかの
形で照会配列に類似する、データベース１４０からの配列を表す辞書に格納され
たパターンを突きとめることを試みる。照会の前に、辞書形成モジュール１３０
が、データベース１４０からパターン辞書１２０を作成する。この辞書形成処理
を、情報収集または情報マイニングと称する。探索エンジン１１０は、照会結果
（たとえば、データベースからの相同配列）の一部またはすべてをユーザに返す
。

【００２２】図２は、配列相同性検出システム１００の例のハードウェア実施形態のブロッ
ク図である。図からわかるように、システム１００は、プロセッサ２１０、メモ
リ２２０および入出力装置２３０に従って実施することができる。本明細書で使
用する用語「プロセッサ」は、たとえばＣＰＵ（中央処理装置）を含むものなど
、すべての処理装置を含むことが意図されていることを諒解されたい。本明細書
で使用する用語「メモリ」は、たとえばＲＡＭ、ＲＯＭ、固定メモリ装置（たと
えばハード・ドライブ）、取外し可能メモリ装置（たとえばディスケット）、フ
ラッシュ・メモリなど、プロセッサまたはＣＰＵに関連するメモリを含むことが
意図されている。さらに、本明細書で使用する用語「入出力装置」は、たとえば
キーボードなどの、照会を行うか処理装置にデータを入力するための１つまたは
複数の入力装置と、たとえばＣＲＴ表示装置またはプリンタなどの、照会結果ま
たは処理装置に関連する他の結果を提示するための１つまたは複数の出力装置と
を含むことが意図されている。また、用語「プロセッサ」が複数の処理装置を指
す場合があり、処理装置に関連するさまざまな要素が、他の処理装置によって共
用される場合があることを理解されたい。したがって、本明細書で説明する、本
発明の方法論を実行するための命令またはコードを含むソフトウェア構成要素は
、関連するメモリ装置（たとえばＲＯＭ、固定メモリまたは取外し可能メモリ）
のうちの１つまたは複数に格納することができ、利用の準備ができた時に、部分
的にまたは全体を（たとえばＲＡＭに）ロードでき、ＣＰＵによって実行できる
。

【００２３】図３は、本発明の配列相同性検出システムのネットワークベースの実施形態の
ブロック図である。図からわかるように、クライアント・コンピュータ・システ
ム３１０は、たとえばインターネットなどのネットワーク３３０を介して、サー
バ・コンピュータ・システム３２０と通信している。しかし、このネットワーク
は、私有ネットワークまたはローカル・ネットワークとすることもできる。図３
の実施形態によれば、図１に示されたシステム１００の要素のすべてまたは一部
が、サーバ３２０に常駐し、サーバ３３０によって実行される。たとえばパーソ
ナル・コンピュータ、ラップトップ機または他の種類のパーソナル処理装置など
の自分のクライアント・コンピュータ・システムでリモートに操作するユーザは
、たとえばウェブ・ブラウジング・ソフトウェアまたは探索エンジンに関連する
グラフィカル・ユーザ・インターフェースなど、そのコンピュータ・システム上
で走行するアプリケーション・ソフトウェアを介して照会配列を入力する。この
照会は、ネットワーク３３０を介して通常の形で渡され、サーバ３２０によって
処理される。サーバ３２０は、照会を受け取り、格納されたパターン辞書に従っ
て、本発明の探索エンジン方法論を実行する。辞書は、ソース・データベースに
従って、本発明の辞書形成モジュールによって形成しておくことができる。サー
バは、照会結果（たとえばデータベースからの相同配列）の一部またはすべてを
、ネットワークを介してクライアントに返す。サーバは、複数のコンピュータ・
システムを表す場合があることを理解されたい。すなわち、図１の要素のうちの
１つまたは複数が、たとえば独自のプロセッサ、メモリおよび入出力装置を有す
る、独自のコンピュータ・システムに常駐し、それによって実行される場合があ
る。

【００２４】本発明の配列相同性検出システムおよびさまざまな例のハードウェア実施形態
の要素の全般的な説明を示したので、これから、さまざまな発明的方法論を詳細
に説明する。

【００２５】探索エンジン・モジュール１１０および辞書形成モジュール１３０に関連する
めいめいの方法論を、下で、配列相同性検出システム１００に関連する例の実施
形態において、一緒に説明する。しかし、探索エンジン・モジュールに関連する
発明的方法論は、他の既知のパターン辞書と共に使用することができることを理
解されたい。同様に、辞書形成モジュールに関連する発明的方法論は、他の既知
の探索エンジンと共に使用するためのパターン辞書作成に使用することができる
。

【００２６】参照を容易にするために、残りの詳細な説明は、（Ｉ）定義、（ＩＩ）探索エ
ンジン、（ＩＩＩ）辞書形成および（ＩＶ）実験結果の４節に分割する。

【００２７】Ｉ．定義この節では、以下で本発明のさまざまな態様の説明に使用される表記の一部を
示す。

【００２８】 Σは、配列構成に使用される文字の集合を指す。生物学的設定（本明細書で好
ましく対処される設定）では、扱われる配列は、タンパクであり、集合Σは、２
０個のアミノ酸の集合である。用語「プロテイン」および「配列」は、以下では
交換可能に使用され、用語「文字」および「アミノ酸」についても同様である。

【００２９】Ｄは、パターンの集合（パターン辞書またはバイオ辞書）がそれに基づいて作
成される、基礎となるタンパクのデータベースを指す。この説明全体を通じて使
用される例のデータベースは、次の通りである（３つの配列が含まれる）。Ｄ＝｛ｓ₁、ｓ₂、ｓ₃｝、ここでｓ₁＝ＡＲＱＳＴＬＵＭＮＰＱｓ₂＝ＦＤＳＡＬＱＦＴＧＭＲＡｓ₃＝ＲＫＭＦＰＱＤＤＳＬＡ

【００３０】 Πは、パターンの集合すなわち、本明細書でバイオ辞書またはパターン辞書１
２０と称するものを指す。Πを得る正確な方法は、下の、「辞書形成」と題した
節で説明する。パターンは、ペプチドのファミリを記述した正規表現である。単
一のパターンによって表現されるポリペプチド・ファミリには、関連する（構造
的、機能的、進化的に）アミノ酸の伸展が含まれると期待される。具体的に言う
と、アミノ酸のアルファベットΣに対して、Πに含まれるパターンＰを、次の形
の正規表現として定義する。 Σ（Σ∪｛'．'｝）×Σ ここで、'．'（「ドント・ケア文字」と称する）は、任意の残留物が占めること
のできる位置を表す。正規表現であるから、すべてのパターンＰが、ドント・ケ
ア文字のそれぞれをΣからの任意の残留物によって置換することによってＰから
得ることのできるすべての列からなるポリペプチドの言語を定義する。また、Π
に含まれるＰのそれぞれが、Ｄに含まれる少なくともＫ_min個の配列と一致する
。Ｋ_minは、整数であり、その計算は、下の「辞書形成」の節で説明する。下の
説明では、特定の値を仮定する。データベース配列の、パターンＰに一致する領
域が、パターンＰのオフセット・リストＬ_D（Ｐ）に記録される。これは、パタ
ーンＰがデータベースのｊ番目の配列のオフセットｋで一致するすべての対（ｊ
、ｋ）を含むリストである。

【００３１】上で導入した例のデータベースについて、Ｋ_min＝２と仮定すると、パターン
の集合は、Ｐ＝｛Ａ．Ｑ．Ｔ、Ｍ．ＰＱ｝である。この集合の２つのパターンは
、次の入力配列に現れる（一致する位置を太字で示す）。

【表１】

【００３２】この２つのパターンのオフセット・リストは次のようになる。Ｌ_D（Ａ．Ｑ．Ｔ）＝｛（１，１），（２，４）｝Ｌ_D（Ｍ．ＰＱ）＝｛（１，８），（３、３）｝

【００３３】それぞれの小括弧内の最初の項が、配列番号であり、第２項が、オフセットで
あることを諒解されたい。配列内のいずれかの文字に対応するオフセットは、配
列の先頭からのその文字の距離である。たとえば、（２、４）は、配列がｓ₂で
あり、パターンＡ．Ｑ．Ｔが、配列ｓ₂の先頭から４文字の距離から始まること
を示す。

【００３４】Ｑは、照会タンパクを指す。本発明の探索エンジンの目的は、Ｄのデータベー
ス配列と、ユーザが供給することのできる照会配列Ｑとの間の配列相同性を識別
することである。１例として、照会Ｑ＝ＪＬＡＮＱＦＴＬＭＤＰＱＤＬＡを使用
する。この配列は、データベース配列との複数の相同領域を有する。下に、その
一部を示す（やはり、類似領域の対を太字で示す）。

【表２】

【００３５】したがって、探索エンジンは、上で示したものなどの類似性を識別する。等し
い長さの２つの領域が類似するのは、一方を他方の下に置いた時に、複数の一致
する文字がそろう場合である。類似性の正確な概念は、以下で正確に示すが、こ
こでは、可能な文字のすべての対のスコアが使用されると述べれば十分である。
そのようなスコアのすべてが、適応度の尺度であり、２つの文字がそろうことの
生物学的な確率がどの程度であるかが識別される。

【００３６】パターンＰに対して、Ｐの「バックボーン」は、Ｐのすべての残留物を文字「
１」で置換し、すべてのドント・ケア文字を文字「０」で置換することによって
Ｐから得られるアルファベット｛１、０｝上の文字列として定義される。たとえ
ば、パターンＰ＝「Ａ．．ＤＦＥ」のバックボーンは、文字列「１００１１１」
である。バックボーンによって、パターンの集合が、同一のバックボーンを共用
するすべてのパターンが各クラスに含まれる同等のクラスに区分される。

【００３７】本発明に従って使用することのできるもう１つの概念が、パターンの「密度」
である。一般に、密度は、Ｇ（Ｐ）の２つの要素の間の相同性の最小量を表し（
Ｇ（Ｐ）は、ドント・ケア文字のそれぞれをΣからの任意の残留物によって置換
することによってＰから得ることのできるすべての文字列からなるポリペプチド
の言語を指す）、２つの整数ＬおよびＷ（Ｌ≦Ｗ）によって定義される。パター
ンＰは、アミノ酸で始まり、アミノ酸で終わり、少なくともＷの長さを有するＰ
の部分列のすべてにＬ個以上の残留物が含まれる場合に、＜Ｌ、Ｗ＞の密度を有
する。そのようなパターンのすべてにおいて、パターンの長さに対する残留物の
数の比率は、少なくともＬ／Ｗである。整数ＬおよびＷは、本発明の好ましい方
法のパラメータであり、その値によって、実行される探索で許容される類似性の
量が制御される。これらのパラメータは、参照によってその開示を本明細書に組
み込まれる米国特許出願第６０／０４９４６１号明細書に対する優先権を請求さ
れている、「ＴＥＩＲＥＳＩＡＳ」アルゴリズムに対処する米国特許出願第０９
／０２３７５６号明細書に詳細に記載されている。定義により、＜Ｌ、Ｗ＞パタ
ーンは、少なくともＬ個の残留物を有することに留意されたい。

【００３８】さらに、パターンＰと配列Ｓに対して、Ｇ（Ｐ）に属するＳの部分列を、Ｐの
整合部位と呼ぶ。Ｐのオフセット・リストには、Ｐのすべての整合部位の最初の
文字のオフセットが含まれる。

【００３９】上の定義を仮定すれば、たとえばシステム１００（図１）に関連する、本発明
による改良された配列相同性検出に対する好ましい手法の一般的な説明を提供す
ることができる。配列相同性検出には、２つの別個の相すなわち、情報収集と探
索が含まれる。

【００４０】まず、探索を実行する前に、基礎となるデータベースＤをマイニングする。こ
のマイニング手順を、情報収集または辞書形成とも称する。このステップの間に
、有意の＜Ｌ、Ｗ＞パターンのすべてが収集され、そのようなパターンＰのそれ
ぞれが、そのオフセット・リストＬ_D（Ｐ）に関連付けられる（パターンが有意
であるか否かを判断するのに使用される特定の判断基準は、探索エンジンの節で
詳細に説明する）。

【００４１】第２ステップは、実際の探索である。照会配列Ｑに対して、Ｑに一致するすべ
てのパターンＰ（この処理の第１相で収集されたものの中から）を識別する。そ
のようなＰのすべてについて、Ｐと一致するＱの領域を、やはりＰと一致するす
べてのデータベース配列の対応する領域と対にする（これらの領域は、オフセッ
ト・リストＬ_D（Ｐ）を介して簡単にアクセスできる）。最後に、対にされた領
域を、両方向に拡張し、位置合せし、（ユーザ定義の）変異行列の使用によって
スコアを付け、最も高いスコアを有する一致を、暗示される位置合せと共に報告
する。

【００４２】ここで、情報収集相が、Ｄに対する１回の計算であることを指摘する価値があ
る。得られる結果は、ファイル（図１のパターン辞書１２０）に格納され、デー
タベースＤに対する探索セッションが実行されるたびに使用される。

【００４３】関連するポリペプチドの記述にパターンを使用することの背後にある動機は、
生物学的事実にある。具体的に言うと、タンパクがそれらから作られる基本構成
要素である多数の基本的要素（α螺旋、β鎖、ループなどの構造的性質であるか
、モチーフ、モジュール、領域などのより大きい機能的単位のいずれか）が存在
することが既知である。種の区別のために進化論によって使用される主要な機構
の１つが、タンパク配列内のアミノ酸の位置の変異である。しかし、機能的また
は構造的に重要な領域は、そのような変異に対してより強く抵抗する。したがっ
て、そのような生物学的に関連するポリペプチドを、（ａ）主構造での保存され
た位置と、（ｂ）再利用性の度合の高さとを発見することによって同定できると
期待することが合理的である。本明細書の用語法では、これらの特性は、予期さ
れない高さのサポートを有するパターンに対応する。

【００４４】しかし、重要なことなので繰り返すが、本明細書に記載の発明的探索エンジン
方法論を、他の既知のパターン辞書と共に使用することができる。同様に、発明
的辞書形成方法論を使用して、他の既知の探索エンジンと共に使用されるパター
ン辞書を作成することができる。

【００４５】この両方の方法論を、それぞれ下の節ＩＩおよび節ＩＩＩで説明することを諒
解されたい。辞書形成方法は、探索方法の前に適用されるが、説明を簡単にする
ために、この処理を逆の順序で説明し、探索エンジン方法から始めて、辞書形成
方法を後に回す。

【００４６】ＩＩ．探索エンジンここで図４を参照すると、本発明の１実施例による、探索エンジン方法論を示
す高水準流れ図が示されている。この方法論は、図１の探索エンジン１１０によ
って使用することができる。探索エンジンの動作は、２つの別個の相すなわち、
（ｉ）パターン照合および連鎖（ブロック４０２）と、（ｉｉ）スコアリング（
ブロック４０６）に分解できる。

【００４７】第１相では、ΠのすべてのパターンＰ（Πが、上で述べたパターン辞書１２０
を指すことを想起されたい）を照会配列Ｑに対して検査して、Ｑと一致するすべ
てのパターンを分離する。下で、この「一致に関する検査」処理を実行する特定
のアルゴリズムを説明するが、どのような照合アルゴリズムでも使用することが
できる。図４の相１の「複雑性検査」（ブロック４０４）に留意されたい。場合
によっては、パターンＰが照会Ｑと一致し、なおかつこの一致を考慮に入れるこ
とが望ましくないことがありえる。そのような例が、いわゆる「低複雑性」パタ
ーンである。そのようなパターンは、生物学的配列の性質に起因して時々生じる
。低複雑性パターンは、たとえばパターン「Ａ．Ａ．．ＡＡＡ．Ａ．Ａ」のよう
に、ほぼ完全に同一のアミノ酸だけから構成され、現れる。というのは、いくつ
かのタンパクが、反復するアミノ酸の長い領域を有するからである。しかし、そ
のようなパターンは、相同性検出の目的からは重要とみなされず、これらのパタ
ーンによって誘導される一致のすべてを無視することがよくなる可能性がある。
それを行うか否かの判断は、システム・ユーザに探索エンジン内の「複雑性検査
」構成要素を「オン」または「オフ」状態に設定させることによって、システム
・ユーザに委ねられる。ここでは、この構成要素が「オン」に設定されている場
合に、Ｐの一部のパターンが、照会配列Ｑに一致する場合であっても無視される
ことを覚えておけば十分である。下で、複雑性検査が「オン」の時にＱに一致す
るパターンＰが無視される正確な条件の説明を行う。

【００４８】相１の説明を続けると、Ｑに一致するすべてのパターンＰによって、Ｑと、や
はりＰに一致するデータベース領域のすべてとの間の局所相同性が生成される。
この後者の領域は、Ｐのオフセット・リストＬ_D（Ｐ）を介して簡単にアクセス
可能である。ＰがオフセットｉでＱに一致すると仮定すると、Ｌ_D（Ｐ）のすべ
ての領域（ｊ、ｋ）が、セグメント（ｉ、ｊ、ｋ、ｌ）を生じる。ここで、ｌは
パターンＰの長さである。これを、下で詳細に説明する。最後に、照合処理が進
行するにつれて、互換性のあるセグメントが、互いに連鎖され、より長いセグメ
ントが形成される（互換性のあるセグメントの概念ならびに連鎖の動作は、下で
説明する）。相１の終りに、Πの少なくとも１つのパターンＰと一致する、デー
タベースＤのすべての配列を含む集合Ｒが残され、このＰもＱと一致する。Ｒに
含まれる配列Ｓのそれぞれには、ＱとＳの間のパターンによって誘導された相同
性を記述したセグメントが付随する。

【００４９】上で導入した例を検討されたい。照会配列Ｑ＝ＪＬＡＮＱＦＴＬＭＤＰＱＤＬ
Ａは、ΠのパターンＰ１＝「Ａ．Ｑ．Ｔ」およびＰ２＝「Ｍ．ＰＱ」の両方と一
致する。Ｐ１がオフセット３でＱと一致し、Ｐ２がオフセット９でＱと一致する
ので、これらの２つの一致は、次の４つのセグメントを生じる。（３，１，１，５）（３，２，４，５）Ｌ_D（Ｐ１）から（９，１，８，４）（９，３，３，４）Ｌ_D（Ｐ２）からまた、集合Ｒは、Ｒ＝｛ｓ₁−−（３，１，１，５）（９，１，８，４）ｓ₂−−（３，２，４，５）ｓ₃−−（９，３，３，４）｝であり、Ｒの各配列ｓ_iは、セグメントのリストを伴う。この特定の例では、可
能な連鎖がないことに留意されたい。

【００５０】図４に示された探索エンジン方法論の相の２番目では、Ｒのすべての配列Ｓに
スコアを割り当てる。所与のＳ_jについてこのスコアを計算するための手法は複
数存在する。しかし、どの手法も、Ｓ_jに伴うすべてのセグメントのスコアリン
グから開始される。各セグメントは、スコアを受け取る（これらのスコアを「セ
グメント・スコア」と称する）。スコアリングは、変異行列Ｍに基づいて実行さ
れる。変異行列は、実数の２０×２０行列である。そのような行列の第（ｉ、ｊ
）項目は、ｉ番目のアミノ酸が、進化中にｊ番目のアミノ酸に変化した確率を示
す。ここでの目的のためには、Ｍが、Σ×Σ→Ｒからの関数であり、入力として
２つのアミノ酸Ａ１およびＡ２を与えられた時に、実数を返す関数であると仮定
すれば十分である。使用することのできる変異行列は多数存在するので、ユーザ
は、使用する特定の行列Ｍを選ぶ選択権を与えられる。

【００５１】たとえば、単項変異行列Ｍすなわち、すべてのアミノ酸Ａに対してＭ（Ａ、Ａ
）＝１であり、すべての別個のアミノ酸ＡおよびＢに対してＭ（Ａ、Ｂ）＝０で
ある行列を使用すると仮定する。上の集合Ｒの最初の配列すなわち、セグメント
（３、１、１、５）および（９、１、８、４）を伴う配列ｓ₁を検討されたい。
これら２つのセグメントのうちの最初のセグメントのスコアリングの方法を示す
（もう一方および集合Ｒのすべてのセグメントは、同様にスコアリングされる）
。このセグメントによって暗示される長さ５の２つのタンパク領域すなわち、Ｑ
のオフセット３とｓ₁のオフセット１から始まる領域を位置合せした（一方を他
方の下に）と想像されたい。ＡＮＱＦＴＬ（Ｑから）ＡＲＱＳＴＬ（ｓ₁から）その後、位置合せされたすべての列に対して、値Ｍ（Ｘ、Ｙ）を合計することに
よって、セグメントのスコアが計算される。ここで、Ｘ、Ｙは、所与の列の下で
互いに位置合せされた２つのアミノ酸である。上のセグメントの場合、スコアは
次のようになる。Ｍ(Ａ，Ａ)＋Ｍ(Ｎ，Ｒ)＋Ｍ(Ｑ，Ｑ)＋Ｍ(Ｆ，Ｓ)＋Ｍ(Ｔ，Ｔ)＋Ｍ(Ｌ，Ｌ)
＝１＋０＋１＋０＋１＋１＝４

【００５２】セグメントについて上で説明したスコアリング方式は、基本的なスコアリング
方式である。すなわち、システム・ユーザは、複数のオプションを設定して、セ
グメント・スコアを計算する方法を変更することができる。たとえば、システム
・パラメータextend（整数であり、下で説明する）に０より大きい値がセットさ
れている場合には、スコアリングで、セグメントによって記述されるタンパク領
域だけではなく、２つの領域の左右のextend個のアミノ酸の区域も考慮される（
スコアリングは正確に上で説明した通りに進行するが、より長い領域が検討され
る）。さらに、gapped_alignmentオプションがセットされている場合には、拡張
領域（すなわち、基本セグメントの左右の領域）の位置合せで、位置合せスコア
を最大にするためにギャップも使用する。

【００５３】上の処理の終りに（どのスコアリング変形形態を使用するかに無関係に）、セ
グメント・スコアが、集合Ｒのすべてのセグメントについて計算されていること
になる。これらのセグメント・スコアは、その後、スコアリング相の最終ステッ
プすなわち、ＱとＲのすべての配列Ｓ_jとの間の類似性の量の定量化に使用され
る。この定量化は、ＲのすべてのＳ_jにスコアを割り当てることによって実行さ
れる。このスコアを、Ｓの「配列スコア」と呼ぶ（セグメント・スコアと区別す
るために）。理想的には、配列Ｓ_jの配列スコアが高いほど、このＳ_jがＱに類似
するはずである。

【００５４】Ｓ_jのスコアリングでは、Ｓ_jに伴うセグメントのセグメント・スコアだけを考
慮した。ここでもいくつかのオプションがある。最も単純な場合には、Ｓ_jの配
列スコアは、Ｓ_jのセグメントの全セグメント・スコアの間の最大値として定義
される。第２の、より複雑な手法を下で説明する。ここでは、まず、スコアリン
グされる配列Ｓ_jについて、有向グラフを作成する。このグラフの頂点は、Ｓ_jに
伴う全セグメントである。すべての頂点に、その頂点に対応するセグメントのセ
グメント・スコアを割り当てる。セグメント（ｉ、ｊ、ｋ、ｌ）からセグメント
（ｉ'、ｊ、ｋ'、ｌ'）への辺は、ｉ≦ｉ' かつｋ≦ｋ' すなわち、２つのセグメントによって記述される２つの照会領域（領域Ｑ［ｉ．
．ｉ＋ｌ−１］とＱ［ｉ'．．ｉ'＋ｌ'−１］）の相対順序が、２つのセグメン
トによって記述されるＳ_jの２つの領域（領域Ｓ_j［ｋ．．ｋ＋ｌ−１］とＳ_j［
ｋ'．．ｋ'＋ｌ'−１］）の相対順序と同一である場合に配置される。頂点と同
様に、すべての辺にも、照会内の領域の変位（すなわち差ｉ'−ｉ）がＳ_j上の領
域の変位（すなわち差ｋ'−ｋ）に対して相対的にどの程度規則的であるかを表
すスコアが割り当てられる。変位の間の差（すなわち数｜（ｉ'−ｉ）−（ｋ'−
ｋ）｜）が大きいほど、辺のスコアは小さくなる。グラフを作成した後に、標準
的な最長経路アルゴリズムを適用して、最高のスコアを有する経路を識別するこ
とができる（経路のスコアは、その経路に含まれるすべての頂点および辺のスコ
アの合計として定義される）。このスコアが、Ｓ_jの配列スコアになる。

【００５５】上では、セグメント・スコアと配列スコアの両方を計算する複数の方法を説明
した。一般に、他の「生物学的に合理的な」スコアリング方式を、その代わりに
使用することができる。

【００５６】ここで図５、６および７を参照して、探索エンジン方法論４００のパターン照
合処理、連鎖処理およびスコアリング処理のより具体的な例を説明する。やはり
、探索エンジン１１０によって実施される探索相中に、照会タンパクＱが、シス
テムに供給され、Ｑに類似するデータベース配列Ｓ∈Ｄが、識別され、ユーザに
報告される。この探索相では、入力データベースＤのマイニングによって得られ
たパターンの集合Πを利用する。この例の目的のためには、Πが、上の「定義」
の節で説明した形の＜Ｌ、Ｗ＞パターンの集合であると仮定すれば十分である。
各パターンＰ∈Πは、そのオフセット・リストＬ_D（Ｐ）が付随し、Ｄ内で少な
くともＫ_minのサポートを有する。数Ｌ、ＷおよびＫ_minは、本発明の好ましい方
法のパラメータであり、これらを設定する方法は、下の「辞書形成」の節で説明
する。

【００５７】照会配列Ｑがシステムに供給された時に最初に行うべきことは、Ｑと一致する
すべてのＰ∈Πを突きとめることである。これは、D. Gusfield著、「Algorithm
s on strings, trees and sequences: Computer Science and Computational Bi
ology」、Cambridge University Press刊、62-63、1997年に提示された技法のハ
ッシュ変形形態を使用することによって非常に高速に行うことができる。具体的
に言うと、Ｑ内のすべての位置について、その位置から始まる長さ２、３、…、
（Ｗ＋１）の部分列のすべてについて１つのＷ個のハッシュ値を生成する。その
ような部分列のすべてについて、対応するハッシュ値は、部分列の最初の文字と
最後の文字ならびにこれら２つの文字の間の残留物の数だけに依存する。

【００５８】図５に、所与の照会配列に対する処理の例を示す。この例では、配列Ｑの位置
６から始まるＷ＝４部分列について生成されたハッシュ値が示されている。部分
列ｓのハッシュ値は、 H(s)=((av(first_char)-av('A'))+(av(last_char)-av('A'))*26)*W+gap である。ここで、ａｖ（ｃ）は、文字ｃのＡＳＣＩＩ値、first_charは、ｓの最
初の文字、last_charは、ｓの最後の文字、gapは、ｓの最初の文字と最後の文字
の間の残留物の数である。＜Ｌ、Ｗ＞密度制約があるので、gapが必ずＷより小
さいことに留意されたい。

【００５９】特定の値ｈに対応するハッシュ項目には、ｐから始まる部分列（長さが多くと
もＷ＋１の）が値ｈにハッシュされる、照会配列Ｑのオフセットｐのすべてが格
納される。図６に、特定の照会配列について生成されたハッシュ・テーブルの例
を示す。図６には、配列Ｑ＝ＡＦＧＨＩＫＬＰＮＭＫＡＭＧＨについて生成され
たハッシュ・テーブルのスナップショットが示されている。テーブル項目にラベ
ルを付けるために実際の数値のハッシュ値を使用する代わりに、特定のハッシュ
値にハッシュ化されるすべての文字列を記述するパターンを使用する。各ハッシ
ュ項目は、オフセットのリストをポイントする。そのリストのすべてのオフセッ
トが、関連するハッシュ項目にハッシュ化されるＱの部分列の先頭をマークして
いる。

【００６０】パターンＰ∈ΠがＱに一致するかどうかを検査するために、Ｑの長さに等しい
サイズのカウンタの配列Ｃ［１．．｜Ｑ｜］を使用する。当初は、この配列のす
べての要素に０をセットする。Ｐのオフセット１から始めて、最後の残留物に対
応するオフセットを除いて、残留物に対応するＰ内のすべてのオフセットｊを突
きとめる。そのようなｊのすべてについて、Ｆが、ｊから始まり、正確に２つの
残留物を含むＰの最短の部分列であるものとする。ＯＬが、Ｆに対応するハッシ
ュ・テーブル項目によってポイントされるＱのオフセットのリストを表すものと
する。ＯＬが空でない場合には、すべてのオフセットｐ∈ＯＬについて、カウン
タＣ［ｐ−ｊ＋１］を１つ増分する。パターンＰに、正確にｎ個の残留物が含ま
れる場合には、この処理の最後に、ＱがオフセットｉでＰと一致する場合に限っ
て、カウンタＣ［ｉ］が値（ｎ−１）を有する。上で説明した照合技法の長所は
、この技法に必要な時間が、通常は、照会配列Ｑのサイズに対してほぼ線形であ
り、パターンＰ内の残留物の個数だけに依存することである。

【００６１】Ｑのオフセットｉから始まる部分列に一致するパターンＰ∈Πが見つかった後
に、Ｑのその部分列を、やはりＰと一致するすべてのデータベース領域と関連さ
せる必要がある。これは、これらの領域を正確に含むオフセット・リストＬ_D（
Ｐ）を操作することによって簡単に行われる。具体的に言うと、各項目（ｊ、ｋ
）∈Ｌ_D（Ｐ）は、ｊ番目のデータベース配列Ｓ_jのオフセットｋから始まる部分
列がＧ（Ｐ）の要素であることを示す。その後、照会配列Ｑとデーターベース配
列Ｓ_jの間の局所類似性が、セグメントと称する４つ組（ｉ、ｊ、ｋ、ｌ）とし
て登録され、この４つ組がＳ_jに関連付けられる。数ｌ＝｜Ｐ｜は、局所類似性
の長さである。

【００６２】時には、両方ともＱと一致する２つの別個のパターンＰおよびＰ'とデータベ
ース配列Ｓ_jが、ＱとＳ_jの間の同一の局所類似性に対応する。そのような状況の
例を、図７に示す。そのような場合には、２つのパターンに対応する個々のセグ
メントを、１つに連鎖しなければならない。具体的に言うと、Ｓ_jに関連する２
つのセグメント（ｉ、ｊ、ｋ、ｌ）および（ｉ'、ｊ、ｋ'、ｌ'）は、ｋ≦ｋ' かつｋ＋ｌ＋ｗ＿ｌｅｎ＞ｋ' かつｋ'−ｋ＝ｉ'−ｉである場合に限って、互換性があるといわれる。ここで、w_lenは、ユーザによ
って定義される整数パラメータであり、w_lenによって、一方のセグメントが他
方の末尾の後、w_len位置を超えない位置から始まる限り、交差しないセグメン
トの連鎖が可能になる。（ｉ、ｊ、ｋ、ｌ）と（ｉ'、ｊ、ｋ'、ｌ'）を互いに
連鎖することから生じるセグメントは次の通りである。（ｉ，ｊ，ｋ，ｍａｘ（ｌ，ｋ'−ｋ＋ｌ'））

【００６３】互換性のあるセグメントの連鎖は、ＱとＳ_jの両方に一致するパターンＰ∈Π
を突きとめた結果として、新しいセグメントがデータベース配列Ｓ_jに関連付け
られるたびに行われる。新たに到着したセグメントと互換性を有する、すでにＳ _j に関連するセグメントがある場合には、新しいセグメントと既存セグメントの
関連する対が、破棄され、その連鎖の結果によって置換される。

【００６４】Ｑとデータベース配列の間の局所類似性のすべてを識別し終えたところで、こ
れらの類似性を評価する作業が残されている。これは、少なくとも１つのセグメ
ントに関連するデータベース配列Ｓ_jのすべてにスコアを割り当てる（ユーザ定
義のスコアリング行列を使用して）ことによって行われる。スコアリング機能に
ついて、複数のオプションが使用可能である。当業者は、本明細書に記載の発明
的教示を与えられれば、他のスコアリング方法を理解するであろう。

【００６５】上で述べたように、１つの手法は、Ｓ_jの各セグメントを個別にスコアリング
し、それらのスコアのうちの最高のものをＳ_jに割り当てることである。セグメ
ント（ｉ、ｊ、ｋ、ｌ）のスコアリングは、次の２つのいずれかの形で行うこと
ができる。

【００６６】「ギャップを許容しない」：この場合、スコアは、セグメントによって暗示さ
れるギャップのない位置合せすなわち、照会の領域Ｑ［ｉ、ｉ＋ｌ−１］と配列
の領域Ｓ_j［ｋ、ｋ＋ｌ−１］の位置合せから計算される。さらに、ユーザは、
変数extendをセットすることによって、セグメントの「前後」に位置合せを拡張
するオプションを与えられる。この変数の値が０より大きい場合には、スコアは
、領域Ｑ［ｉ−extend、ｉ＋ｌ−１＋extend］およびＳ_j［ｋ−extend、ｋ＋ｌ
−１＋extend］のギャップのない位置合せから計算される。

【００６７】「ギャップを許容する」：このオプションは、extend＞０である時に限って使
用可能であり、位置合せの領域内のギャップを許容することによって、セグメン
トの前後の区域のより微細なスコアリングを可能にする。

【００６８】上で述べたように、現在スコアリング中のデータベース配列Ｓ_jに関連するセ
グメントの相対順序を考慮に入れる、他のスコアリング・オプションも提供され
る。上で述べたように各セグメントを個別にスコアリングした後の手法の１つが
、図８に示された重みつき有向グラフを作成することである。このグラフの頂点
Ｖは、Ｓ_jに関連するセグメントであり、セグメント（ｉ、ｊ、ｋ、ｌ）と（ｉ'
、ｊ、ｋ'、ｌ'）の間には、ｉ≦ｉ' かつｋ≦ｋ' の場合に有向線分が存在する。すべての頂点に、対応するセグメントのスコアと
等しい重みが割り当てられ、すべての辺Ｅは、（ａ）２つのセグメントの近さす
なわち（ｉ'−ｉ−１）の値と、（ｂ）２つのセグメントの間の変位の規則正し
さすなわち、（ｉ'−ｉ）が（ｋ'−ｋ）とどれだけ違うかに基づいて重みが付け
られる。このグラフ内の経路のスコアは、その経路の頂点と辺のすべての重みの
合計である。その後、最大のスコアを有する経路が計算され、そのスコアがＳ_j
に割り当てられる。

【００６９】ここで図９および１０を参照すると、それぞれの流れ図に、本発明の探索エン
ジン・モジュールによって実行される２つの相の実施形態が要約して示されてい
る。図９は、照合および連鎖相の実施形態９００を示し、図１０は、スコアリン
グ相の実施形態１０００を示す。

【００７０】図９では、データベースＤのすべての配列Ｓ_jが、関連するセグメント・リス
トＳｅｇＬ（Ｓ_j）を有すると仮定する。当初、これらのリストは、すべてが空
である。集合Ｒも、当初は空である。図９の流れ図によって説明される計算が進
行するにつれて、配列Ｓ_jがＲに加えられる。そのような配列がＲに挿入される
際に、その配列にセグメント・リストＳｅｇＬ（Ｓ_j）が伴う。

【００７１】したがって、ΠのすべてのパターンＰについて（ブロック９０２）、探索エン
ジンは、以下の動作を実行する。ステップ９０４で、探索エンジンは、ＰがＱと
一致するかどうかを判定する。そうでない場合には、辞書の次のＰに移る。そう
である場合には、ステップ９０６で、探索エンジンは、複雑性検査構成要素がユ
ーザによって使用可能にされたかどうかを判定する。それが使用可能にされてい
る場合には、ステップ９０８で、エンジンは、Ｑに対するＰの一致が低複雑性一
致（後で詳細に説明する）であるかどうかを判定する。そうである場合には、エ
ンジンは、辞書の次のＰに移る。そうでない場合には、ＰがＱに一致するすべて
のオフセットｉについて（ブロック９１０）、また、Ｌ_D（Ｐ）のすべての（ｊ
、ｋ）について（ブロック９１２）、エンジンは以下の動作を実行する。ステッ
プ９１４で、エンジンは、セグメント（ｉ、ｊ、ｋ、｜Ｐ｜）を、ＳｅｇＬ（Ｓ _j ）のすべての互換性のあるセグメントと連鎖する。その後、エンジンは、結果
をＳｅｇＬ（Ｓ_j）に追加する。

【００７２】ステップ９１６で、エンジンは、Ｓ_jがＲに含まれるかどうかを判定する。そ
うである場合には、エンジンはステップ９１４に戻る。そうでない場合には、エ
ンジンは、Ｓ_jとＳｅｇＬ（Ｓ_j）をＲに追加する。ＰがＱに一致するすべてのオ
フセットｉについて、また、Ｌ_D（Ｐ）のすべての（ｊ、ｋ）について、ステッ
プ９１４ないし９１６を実行する。処理全体（ステップ９０４ないし９１６）が
、パターン辞書のすべてのＰについて反復される。

【００７３】照合と連鎖を実行したので、検索エンジンは、図１０のスコアリング動作を実
行する。したがって、Ｒのすべての配列Ｓ_jについて（ブロック１００２）、ま
た、Ｓ_jのすべてのセグメントｓについて（ブロック１００４）、エンジンは、
ステップ１００６でｓのセグメント・スコアを計算する。その後、Ｒのすべての
配列Ｓ_jについて（ブロック１００８）、エンジンは、ステップ１０１０でＳ_jの
配列スコアを計算する。最後に、ステップ１０１２で、エンジンは、Ｒに含まれ
るＳ_jの最高のスコアを、めいめいの配列スコアによって暗示される局所位置合
せと共に報告する。

【００７４】もう一度図４を参照すると、前に述べたように、探索エンジン・モジュール１
１０には、複雑性検査構成要素（たとえば図９のステップ９０６）を含めること
ができる。複雑性検査構成要素は、低複雑性領域が原因で生成される局所相同性
を破棄する責任を負う。まず、低複雑性検査は、２つの相すなわち、辞書作成相
（「辞書形成」の節）の間ならびに探索相（この節）の両方で発生する。

【００７５】辞書作成相の間に、低複雑性領域は、２つの形で扱われる。まず、入力データ
ベースでパターンを探す時に、同一のアミノ酸のＬ回以上の連続する出現からな
るタンパク領域のすべてを無視（すなわち入力から除去）する（Ｌは、辞書作成
相の間に設定される整数のパラメータである。ここでの目的のためには、Ｌがな
んらかの固定された値を有すると仮定すれば十分である）。これは、下の太字で
示されたものなどの低複雑性領域を処理する（ピリオドは、示された文字列の左
右にアミノ酸があることを示す）。

【表３】しかし、これは、低複雑性領域の１例にすぎない。さらに多くのケースが存在す
る。たとえば、次の領域の太字部分を検討されたい。

【表４】この種の（すなわち、一般化された反復組成の）領域を処理するために、所与の
パターンＰのオーバーラップする外見もすべて無視する。言い換えると、パター
ンＰが、データベース配列Ｓ_jにオフセットｋ₁およびｋ₂で一致し（ここで、ｋ₂ ＞ｋ₁）、ｋ₂−ｋ₁がＰの長さより小さい場合には、どちらのオフセットも、パ
ターンＰのオフセット・リストＬ_D（Ｐ）には配置されない。たとえば、上に示
した領域では、６の長さを有するパターン「Ｐ．Ｐ．ＰＡ」は、他の位置にもあ
るが、オフセット１２および１４すなわち、１４ー１２＝２で２＜６なのでオー
バーラップする位置に現れる。

【００７６】探索エンジン相の間に、低複雑性相同性を捕捉し、破棄する方法が２つある。
第１は、上で示した例の一般化である。手短に言うと、「言語的に豊か」でない
、すなわち、１つの特定のアミノ酸の多数の表現を示すすべてのパターンを破棄
したい。その目的のために、ユーザが、パラメータＶ（０と１の間の実数）の値
をセットできるようにする。照会配列Ｑに一致するパターンＰは、Ｐの変異性ｖ
（Ｐ）が値Ｖを超えない場合に限ってさらに検討される。具体的に言うと、パタ
ーンＰのそれぞれについて、その変異性ｖ（Ｐ）を次の形で定義する。

【数１】上で述べた変異性テストに合格した後であっても、第２レベルの検査が続く。こ
の第２レベルは、低複雑性のより捉えにくい概念を捕捉することが目的である。
その動作方法を理解するために、次の例を検討されたい。照会タンパクＱが、次
の単純な文字列であると仮定する。Ｑ＝ＦＲＧＤＳＡＡＡＢＢＢＢＡＡＢＢＳＪＩＥＫＬまた、パターンＰ＝「Ａ．．．Ｂ．．ＡＢ」であると仮定する。このパターンは
、下に示すように、オフセット７で照会と一致する。

【表５】一致とその直前および直後の領域は、低複雑性領域である（「Ａ」と「Ｂ」だけ
からなる）。しかし、パターンＰは、０．５の変異性を有する。この文字の低複
雑性領域を扱うために、ユーザが、整数marginおよびｍｉｎ＿ｍ（ｍｉｎ＿ｍ≦
２×margin）ならびに比率ｐｅｒｃを定義できるようにする。その後、実際の整
合部位（ここでは照会のオフセット７）の左側margin文字と右側margin文字で、
検討中のパターン（ここではパターン「Ａ．．．Ｂ．．ＡＢ」）の近似的な一致
を検査する。パターンＰが照会の所与のオフセットで近似的に一致するのは、そ
のオフセットに配置された時に、パターンの通常文字の少なくともｐｅｒｃ％が
、下にある照会の文字と一致する場合である。たとえば、ｐｅｒｃ＝７５％の場
合、パターン「Ａ．．．Ｂ．．ＡＢ」は、下からわかるように、オフセット６お
よび８でＱに近似的に一致する。

【表６】というのは、これらのオフセットのそれぞれで、パターンの通常文字の７５％（
すなわち、４文字のうちの３文字）が、対応する照会文字と一致するからである
。パラメータmargin、ｍｉｎ＿ｍおよびｐｅｒｃを定義したことによって、この
レベルの検査中に、照会とデータベース領域の間のパターンによって誘導された
局所相同性が、低複雑性と見なされる時を言う準備ができた。パターンＰが、照
会ＱにオフセットＸで一致し、データベース配列ＳにオフセットＹで一致すると
想定されたい。この一致は、（ｉ）パターンが、Ｘの左右２×margin文字のうち
の少なくともｍｉｎ＿ｍ文字で近似的に照会Ｑと一致するか、（ｉｉ）パターン
が、Ｙの左右２×margin文字のうちの少なくともｍｉｎ＿ｍ文字で近似的に配列
Ｓと一致する、のいずれかが真である場合に、低複雑性であるとみなされる。

【００７７】ＩＩＩ．辞書形成前に述べたように、好ましい実施例では、探索エンジンがユーザから照会配列
を受け取る前に、辞書形成方法論が実行される。これは、もう一度図１を参照す
ると、探索エンジン・モジュール１１０が、辞書形成モジュール１３０によって
形成されたパターン辞書１２０を利用することが好ましいからである。辞書形成
モジュール１３０は、下で説明する発明的データベース処理方法論を実施して、
パターン辞書（またはバイオ辞書）を形成する。しかし、やはり前に述べたよう
に、パターン辞書１２０を、本明細書に記載のもの以外の探索エンジンが使用す
ることができる。すなわち、既存の探索エンジンが、本発明に従ってソース・デ
ータベースからマイニングされたパターンを利用することができる。それにもか
かわらず、好ましい実施例によれば、本明細書に記載の発明的方法論に従って形
成されたパターン辞書が、やはり本明細書に記載の発明的探索エンジンによって
使用されることが仮定される。

【００７８】辞書形成相（情報収集相とも称する）の間に、検討中のデータベースＤで見つ
かった有意な＜Ｌ、Ｗ＞パターンのすべての集合Πが決定される。それは、本質
的に、本発明を用いてＤを探索してＤの配列の中の隠された関係を発見するデー
タ・マイニング手順である。要点は、予想されないと考えられる関係に焦点を合
わせることであり、その質のおかげで、それらの関係はおそらくは生物学的に適
切でもある。本発明の目的のために、パターンの有意性を、Ｄ内でのサポートに
よって記述する。具体的に言うと、少なくともＫ_minのサポートを有するすべて
のパターンが統計的に重要であることを示すことができる、数Ｋ_min（最少サポ
ート）の定義を探す。そのようなパターンのすべて（最少サポート要件を守らな
い少数の例外と共に）は、集合Πすなわち探索相への入力に含まれる。

【００７９】Ｋ_minの概念が、まず「定義」の節で導入されたことを想起されたい。「密度
」の概念も導入された。密度は、Ｇ（Ｐ）の２つの要素の間の相同性の最小量を
記述し（Ｇ（Ｐ）は、ドント・ケア文字のそれぞれをΣからの任意の残留物によ
って置換することによってＰから得ることのできるすべての文字列からなるポリ
ペプチドの言語を指す）、２つの整数ＬおよびＷ（Ｌ≦Ｗ）によって定義される
ことを想起されたい。パターンＰが＜Ｌ、Ｗ＞の密度を有するのは、あるアミノ
酸で始まり、終わり、少なくともＷの長さを有するＰのすべての部分列に、Ｌ個
以上の残留物が含まれる場合である。やはり、これらのパラメータは、「ＴＥＩ
ＲＥＳＩＡＳ」アルゴリズムを対象とする、上で組み込まれた米国特許出願第０
９／０２３７５６号明細書に記載されている。

【００８０】本発明の好ましい方法論では、パターン辞書Πの形成にパラメータＬおよびＷ
を使用するが、配列のグループの２つの要素の間の相同性の最小量を判定するた
めの他の既知の技法を使用することができることを諒解されたい。

【００８１】パラメータＬ、ＷおよびＫ_minの値の設定には、複数の、時には衝突する、相
互に連結された要因の検討が含まれる。たとえば、比Ｌ／Ｗによって、探索相の
間に、照会配列とＤのタンパクの間で許容される相同性の量が記述される。Ｌ／
Ｗが小さいと、弱い類似性の検出が可能になる。複数の値の対（Ｌ、Ｗ）が同一
の比Ｌ／Ｗにつながるので、ＬとＷの正確な設定はどうすべきか？大きい値の
Ｌの選択は、通常は、情報収集相の長い実行時間をもたらす（Ｌ／Ｗが１に近い
場合を除いて）。さらに、大きいＬを選択すると、対象のアミノ酸のうちの少数
のアミノ酸だけを有する（すなわち、通常は既存の類似性探索ツールによって見
落とされる）弱いパターンが無視される。その一方で、あまりに小さいＬを選択
すると（たとえば２または３）、その場合には、入力データベースＤの、Ｌ＋ｉ
個の残留物（小さいｉの場合）を有する＜Ｌ、Ｗ＞パターンの分布が、Ｄのアミ
ノ酸組成を有するランダム・データベースの対応する分布との有意な差を有しな
くなるので、有用ではない。ほとんどの一般的な場合には、値Ｌ、ＷおよびＫ_mi _n は、完全に任意に選択することができることを諒解されたい。しかし、発見さ
れるパターンが、統計的雑音のレベルより十分に上であることを実質的に保証す
るために、統計的枠組みを用いるパターン発見処理（すなわち、上で述べたパラ
メータを設定する方法）を説明する。

【００８２】上の点をより明瞭にするために、図１１ないし１４を検討されたい。図１１な
いし１４は、SwissProt Rel.34またはＳＰ３４として既知のテスト・データベー
ス（A. BairochおよびR. Apweiler著、「The SWISS-PROT protein sequence dat
a bank and its supplement TrEMBL in 1998」、Nucleic Acids Res.、26:38-42
、1998年を参照されたい）のパターンの分布と、対応するランダム分布を比較し
た図である。図１１ないし１４には、ＳＰ３４の所与のバックボーン構造を有す
るパターンの分布（この分布は「ｏ」記号によって示される）と、同一のバック
ボーンのランダム分布（この分布は「＋」記号によって示される）との比較が示
されている。バックボーンの概念が、まず上の「定義」の節で導入されたことを
想起されたい。曲線上の点（Ｘ、Ｙ）は、正確にＹ個のパターン（所与のバック
ボーン構造の）があり、これらのパターンのそれぞれが、サポートＸを有する、
すなわち、正確にＸ個の別個のデータベース配列に一致することを示す。ここに
示した結果は、ＳＰ３４の「クリーンアップ」された版（データベースのクリー
ン・アップは下で説明する）を使用して得られた。SwissProtについて、正確に
Ｌ個の残留物を有する各＜Ｌ、Ｗ＞パターンのサポートを計算した（図１１ない
し１４に示されたＬ、Ｗの値について）。その後、結果を表にし、可能なバック
ボーンのそれぞれについて１行を作成した。所与のバックボーンＢに対応する行
の第ｉ列は、SwissProt内でサポートｉを有する（バックボーン構造の）パター
ンの数を示す。ランダム分布は、Ｎ＝２０００のランダムにシャッフルされた版
のSwissProtについて正確に同一の手法に従うことによって得られた（図１６に
、シャッフルされた版のそれぞれを得るのに用いたシャッフル処理が記載されて
いる）。この場合、所与のバックボーンＢの行は、２０００個の表のすべてのＢ
に対応する行の平均をとることによって得られた。その結果、第ｉ列は、SwissP
rotの残留物組成を有するランダム・データ・ベース内の正確にｉ個の配列に現
れるバックボーンＢ内のパターンの平均数の十分に正確な推定値を与える。図１
１ないし１４では、選択されたバックボーンのSwissProt結果を、同一のバック
ボーンの平均値の分布に対してプロットした。提示される結果には特定のバック
ボーンが用いられているが、他のバックボーンを使用した場合の質的な変化はな
い。

【００８３】２０００個のサンプリング・ポイント（入力データベースのランダムにシャッ
フルされた版）を使用することに留意されたい。これは、例示のみの目的である
。サンプリング・ポイントの実際の数は、一般原則として、任意に設定すること
ができる。一般に、そのようなポイントの数が増えるにつれて、得られる推定値
が、その真の値により正確に集束する。計算される推定値の所望の信頼性レベル
を与えられれば、標準的な統計理論を使用して、使用するサンプリング・ポイン
トの数を決定することができる。

【００８４】図１１ないし１４からわかるように、まず、Ｌが５以上になる時に限って、Sw
issProtの組成バイアス（パターンに関する）をランダム・データベースに対し
て区別する。一般に、Ｌの値は、基礎となるデータベースＤのサイズに依存し、
データベースが大きいほど、この値を高くしなければならない。SwissProtにつ
いて図示されている結果は、値Ｌ＝６を使用して得られた。Ｗについては、値１
５を選択し、その結果、比Ｌ／Ｗ（すなわち許容される最小の相同性）は４０％
になる。

【００８５】ＬとＷの値を設定したので、残りは最少サポートＫ_minの値の決定である。よ
り大きいパターンのすべてに、正確に多数のアミノ酸を有する少なくとも１つの
部分パターンが含まれるので、正確にＬ個の残留物を有するパターンだけに焦点
を合わせる。１つの手法は、Ｋ_min以上の別個の配列にパターンが現れる確率が
小さくなるようにＫ_minを選択することである。しかし、図１４をよく観察する
と、この手法が厳密すぎる可能性があることが明らかになる。具体的には、Ｋ＝
１５のサポート・レベルを検討されたい。ランダム分布から、偶然だけによって
、サポートＫを有する１個と２個の間のパターンが期待されることが示される。
したがって、前述の判断基準によれば、SwissProt内でサポート１５を有するパ
ターンは、重要でないとみなされるはずである。しかし、この２つの分布は、そ
のサポート・レベルでは著しい相違を有する。具体的に言うと、Ｋ＝１５でのラ
ンダム分布の平均値は約１．５の値を有するが、SwissProtには、サポート１５
を有する約１８０個のパターンがある。

【００８６】したがって、パターンの確率を分離して検討する場合には、その結果は、上の
分布によれば雑音のレベルを超える多数のパターンを無視することになると思わ
れる。この観察から、有意性に関して異なる判断基準を使用することが発案され
た。

【００８７】ここで図１５ないし１８を参照すると、有意性判断基準を決定するための好ま
しい手法を示す流れ図が示されている。すなわち、Ｋ_minの値を計算するための
方法論が提供されている。Ｋ_minの値を与えられれば、パターン辞書Πは、サポ
ートとして少なくともその値Ｋ_minを有する、ソース・データベースＤ内のすべ
てのパターンをそれに含めることによって形成される。したがって、図１の辞書
形成モジュール１３０は、図１５ないし１８に示された処理を実行することがで
きることを理解されたい。

【００８８】一般に、本発明の手法では、個々のパターンを調べるのではなく、特定のバッ
クボーン構造のすべてのパターンを一緒に検討する。具体的に言うと、所与のバ
ックボーンＢと基礎になるデータベースＤに対して、Ｎ_B,Kが、Ｎ_B,K＝Ｄ内でサポートＫを有する、バックボーンＢを有するパターンの数であるものとする。また、Ｘ_B,Kが、Ｎ_B,Kに対応するランダム変数（Ｄのすべて
のシャッフルされた版の空間上で定義される）であるものとする。最小サポート
Ｋ_minは、次の不等式が真になる最初の数Ｋである。

【数２】ここで、thresholdは、上の不等式から得られる最小サポートＫ_minに対する信頼
性のレベルを強制する、ユーザ定義の確率である。小さいthresholdは、大きい
値のＫ_minにつながり、最終的に選択されるパターンのより大きい統計的重要性
につながる。

【００８９】したがって、有意性判断基準Ｋ_minを決定するための処理への入力として、ソ
ース・データベースＤ、整数パラメータＬおよびＷ、サンプルの数を表す整数Ｎ
、および、０と１の間の実数であるthresholdがある。もちろん、この処理の出
力として、サポートＫ_min以上を有するＤ内のすべてのパターンが、統計的に重
要になり、したがって、ユーザ照会の受取時に探索されるパターン辞書に含まれ
るようになる整数Ｋ_minが得られる。

【００９０】以下の流れ図の説明では、さまざまな表記が使用されるが、そのうちの一部は
上で導入した。しかし、明瞭にするために、以下の定義を適用する。パターンＰ
に対して、ＰのバックボーンＢ（Ｐ）は、Ｐのすべての通常文字を「１」と置換
し、Ｐのすべてのドント・ケア文字を「０」と置換したときに得られる｛１、０
｝上の文字列として定義され、たとえばＰ＝Ａ．．Ｆ．Ｇ．．Ｒの場合には、Ｂ
（Ｐ）＝１００１０１００１である。Ｂが任意のバックボーンであり、ＰがＢ（
Ｐ）＝Ｂになるパターンである場合には、ＰはＢパターンであると言う。その場
合、Ｎ_B,Kは、ＤでのサポートＫを有するＢパターンの数と言い、Ｘⁱ _B,Kは、ｉ
番目のランダム・データベースでサポートＫを有するＢパターンの数である。ｍ _B,K は、すべてのＸⁱ _B,Kの平均であり、ｓ_B,Kは、すべてのＸⁱ _B,Kの分散である。
ランダム変数Ｘ_B,Kの分布に関する分析的記述を有しないので、標準的なサンプ
リング技法を使用することを諒解されたい。したがって、所与のデータベースＤ
について、ランダム変数Ｘ_B,Kの平均ｍ_B,Kと分散（偏差）ｓ_B,Kの両方について
、正確な点推定値を実験的に計算することができる。

【００９１】まず図１５を参照すると、全体的な処理１２００は、ステップ１２０２で、Ｄ
に対してＴＥＩＲＥＳＩＡＳアルゴリズム（すなわち、上で組み込まれた米国特
許出願第０９／０２３７５６号明細書に記載のアルゴリズム）を走行させ、Ｎ_B, _K を計算することによって開始される。ＴＥＩＲＥＳＩＡＳアルゴリズムが好ま
しいが、Ｎ_B,Kは、他の従来の技法を使用して計算することができることを理解
されたい。その後、ｉ＝１ｔｏＮについて（ブロック１２０４）、以下のス
テップを実行する。

【００９２】ステップ１２０６で、ランダム・データベースＲ＿Ｄ_iを生成する。このステ
ップを、図１６に関連してさらに説明する。処理１３００に示されているように
、Ｒ＿Ｄ_i（ブロック１３０２）は、Ｄの配列Ｓのそれぞれについて（ブロック
１３０４）、Ｓの文字のランダムな置換を計算する（ステップ１３０６）ことに
よって生成される。Ｓの文字のランダムな置換を、Ｓ'と称する。Ｓ'は、Ｒ＿Ｄ _i に追加される（ステップ１３０８）。この処理は、Ｄのすべての配列Ｓが処理
されるまで繰り返される（ブロック１３１０）。したがって、Ｒ＿Ｄ_iには、す
べてのランダムな置換Ｓ'が含まれる。図１５に戻って、ステップ１２０８で、
Ｘⁱ _B,Kを計算するためにＲ＿Ｄ_iに対してＴＥＩＲＥＳＩＡＳを走行させる。ス
テップ１２０６および１２０８は、すべてのｉに対してすなわち、ｉ＝Ｎになる
まで実行される（ブロック１２１０）。

【００９３】その後、すべてのＢおよびＫについて（ブロック１２１２）、Ｘⁱ _B,Kを使用し
てｍ_B,Kおよびｓ_B,Kを計算する。このステップを、図１７に関連してさらに説明
する。処理１４００に示されているように、ｓ_B,Kには、まず０がセットされる
（ステップ１４０２）。その後、ｉ＝１ｔｏＮについて（ブロック１４０４
）、ｓ_B,KとＸⁱ _B,Kの和としてｓ_B,Kを計算する（ステップ１４０６）。この処理
を、すべてのｉについて繰り返し（ブロック１４０８）、最終的に、ｓ_B,KをＮ
で割ることによって、ｓ_B,Kが計算される（ステップ１４１０）。その後、偏差
ｍ_B,Kを、ステップ１４１２ないし１４２０で計算する。まず、ステップ１４１
２で、まずｍ_B,Kに０をセットする。その後、ｉ＝１ｔｏＮについて（ブロ
ック１４１４）、ｍ_B,Kと（Ｘⁱ _B,K−ｓ_B,K）²の和としてｍ_B,Kを計算する（ステ
ップ１４１６）。この処理を、すべてのｉについて繰り返し（ブロック１４１８
）、最終的に、ｍ_B,KをＮで割ることによって偏差ｍ_B,Kを計算する（ステップ１
４２０）。

【００９４】図１５に戻って、ステップ１２１６で、ｍ_B,Kとｓ_B,Kを使ってｐ_B,Kを計算す
る。このステップを、図１８に関連してさらに説明する。処理１５００に示され
ているように、ステップ１５０２で、

【数３】となるように実数Ｃを定義する。ここで、Ｎは、サンプルまたは試行の具体的な
数、たとえば２０００を表す。したがって、ステップ１５０４で、１／Ｃ²に等
しいものとしてｐ_B,Kを計算する。ｐ_B,Kは、確率Ｐｒ［Ｘ_B,K＞Ｎ_B,K］の上界で
あることを理解されたい。したがって、要約すると、サンプルの平均とＸ_B,Kの
偏差を使用して、考慮中のＮ_B,Kの値のためのＣを計算する。定数Ｃは、統計の
分野で周知の通り、チェビシェフの不等式に関連することを諒解されたい。定数
Ｃは、９５％の信頼性レベルを使用して計算されるが、これが必須ではないこと
に留意されたい。すなわち、他のどのような値でも適用可能である。

【００９５】図１５に戻って、ステップ１２１４（図１７）および１２１６（図１８）を、
すべてのＢおよびＫについて繰り返す。その後、ステップ１２２０で、ｍａｘ_B
｛ｐ_B,K｝≦thresholdになる最小のＫとして、Ｋ_minを決定する。次の節で提示
するテスト・ケース（SwissProt.Rel.34）では、thresholdの値は、Ｋ_min＝１５
すなわち、所与のバックボーン構造の１．５パターンだけが偶然によって期待さ
れるサポート・レベルになるように選択された。SwissProt内に存在する同一の
サポート・レベルの他のパターンによって暗示されるより多くの統計的に重要な
類似性を捕捉することができるようにするために、偶然の結果（上では１．５パ
ターン）になることのできる、少数のパターンによって誘導される局所相同性を
許容したいというトレード・オフが存在する。

【００９６】次の節で実験結果を提供する前に、まず、本発明の辞書形成方法論を実行する
前のデータベースのクリーン・アップの概念を説明する。この処理は、図１９に
示されており、図１の辞書形成モジュール１３０によって実施することもできる
。複数のデータベースに、非常に相同性の高い配列のグループ（たとえば、ヘモ
グロビンα鎖タンパク）が含まれる。そのようなグループは、膨大な数のパター
ンを導入することによってパターン発見処理の速度を低下させるだけではなく、
パターンの有意性を見掛け上高める可能性もある。これは、非常に相同性の高い
配列のファミリ内に何度も現れ、その外部ではほんの時折しか現れないパターン
の場合に発生する。

【００９７】この問題を処理するために、パターン発見処理を開始する前に、データベース
Ｄを「クリーン・アップ」することができる。図１９に示されているように、ク
リーン・アップ処理１６００には、非常に似たタンパクの識別とグループ化が含
まれる（ステップ１６０２）。２つの配列が同一のグループに配置されるのは、
最適に位置合せされた後に、短い方の配列の位置のＸ％（たとえば５０％）が、
長い方の配列の位置と同一である場合である。結果のグループを、冗長グループ
と称する。情報収集処理が実行される対象の集合Ｄ'は、（ａ）他のタンパクと
十分に相同であることが発見されなかった、Ｄの配列と、（ｂ）冗長グループの
それぞれからの最長の配列からなる（ステップ１６０４）。最後に、冗長グルー
プのそれぞれを、ＴＥＩＲＥＳＩＡＳアルゴリズムによって別々に処理して（ス
テップ１６０６）、グループのすべての配列がこれらのパターンのうちの少なく
とも１つと一致するまでパターンを収集する。この手法では、領域ごとに少なく
とも１つのパターンを生成することによって、複数領域タンパクを含むグループ
であっても正しく扱われることが保証される。冗長グループの処理から生じるパ
ターンは、通常は、非常に密（残留物の数が、ドント・ケア文字の数よりはるか
に多くなる）であり、長いことを指摘する価値がある。これは、グループ配列の
高い相同性の結果である。そのようなパターンについて、探索相の間の近似的な
一致を許容する。

【００９８】ＩＶ．実験結果この節では、本発明の好ましい実施例に関連する実験結果を論ずる。すなわち
、以下の結果は、上で詳細に説明した、本発明の辞書形成（情報収集）方法論お
よび探索エンジン方法論の両方を、テスト・データベースとしてSwissProt Rel.
34に関連して実施することによって生成された。情報収集相で発見されたパター
ンの定量的および定性的な記述は、下の最初の副節（Ａ）で、これらのパターン
がSwissProtに関した達成したカバレッジを分析することと、それらの最も頻繁
な発生に注釈を付けることによって与える。下の第２の副節（Ｂ）では、複数の
照会配列に対する探索相の結果を提示する。

【００９９】Ａ．情報収集 SwissProtの処理は、前の節で説明したクリーン・アップから始まる。この処
理の結果を、図２０に詳細に示す。SwissProtに対するクリーンアップ処理では
、非常に類似性の高い配列の９１６５個の冗長グループが生成される。クリーン
アップされたデータベース（情報収集相の操作対象になるデータベース）は、元
の入力から非常に類似した配列を除去し、各冗長グループから最長の配列を追加
することによって結果の集合を増補することによって形成される。

【０１００】クリーン・アップされたデータベースを使用可能にした後に、それに対してＴ
ＥＩＲＥＳＩＡＳを使用できるようにするために必要なことは、パラメータＬ、
ＷおよびＫ_minの値の設定である。すでに説明したように、Ｌ＝６およびＷ＝１
５の設定を使用する。さらに、ここで報告する結果では、偏差の計算で、１０^-1 ¹ のthreshold値と９５％の信頼性レベルを選択した。この設定について計算され
たＫ_minの値は、１５になることがわかった。上で指定したＬ、ＷおよびＫ_minの
値を用いて、クリーンアップされたデータベースに対してＴＥＩＲＥＳＩＡＳを
走行させることによって、５３４１８５パターンの集合Π（パターン辞書）が生
成された。

【０１０１】クリーンアップされたデータベースのマイニングは、情報収集相の第１ステッ
プにすぎない。９１６５個の冗長グループに対してパターン発見処理を適用する
ことも必要である。やはり、ＴＥＩＲＥＳＩＡＳを使用して、そのようなグルー
プのそれぞれを処理し、グループの各配列が少なくとも１つのパターンと一致す
ることを確実にするのに十分な＜６、１５＞パターンを収集する。これらのパタ
ーンは、その後、探索相によって使用される最終的なパターンの集合Πを形成す
るために、集合Πに追加される。図２１に、SwissProt Rel.34全体に対してこれ
らのパターンによって達成されたカバレッジに関する情報を示す。パターンによ
って「カバー」されるデータベース領域は、正確に、そのパターンに一致する部
分列である。密で長いパターン（ほとんどは冗長グループの処理からもたらされ
る）について、近似的な一致が許容され、パターンの「ほとんど」（具体的には
パターンの残留物の８０％）が、領域に一致することに留意されたい。カバーさ
れない配列のほとんどが、断片であることを指摘する価値がある。具体的に言う
と、２３１個だけが、５０を超えるサイズを有する。図２２および２３に、（ｉ
）SwissProt Rel.34パターンの長さと、（ｉｉ）アミノ酸または残留物の数とい
う、Πのパターンの特性に関する分布を示す。

【０１０２】図２１に例示したように、探索相の成功が後に続くための主要な目標の１つ（
すなわち、SwissProtのよい集束）が、達成された。解かなければならない残り
の問題は、発見されたパターンが生物的に適切であるかどうかである。これに対
処するための労力において、これらのパターンの間で最も頻繁に発生するものを
分析した。結果の注釈を、図２４および２５に示す。この分析から、パターン発
見処理が、生物学的に重要な配列特徴を識別することは（少なくとも試験された
パターンについて）明白である。

【０１０３】図２４および２５には、最も高いサポートを有する１００個のパターンが示さ
れている。可能な場合には、カテゴリ内のパターンを互いに位置合せした。小文
字の斜体は、便宜上使用されたものであり、以下の括弧付きの表現のプレースホ
ルダである。すなわち、ａ：［ＳＴＧＤＡＲ］、ｂ：［ＳＴＧＤＫ］、ｃ：［Ｓ
ＴＧＤＫＹ］、ｄ：［ＳＴＧＫ］、ｅ：［ＧＡＳＭＤＬ］、ｆ：［ＧＩＳＥＴＶ
］、ｇ：［ＬＩＶＭＦＹ］、ｈ：［ＬＩＶＭＦ］、ｉ：［ＬＩＶＭＡ］、ｊ：［
ＬＩＶＭＣ］、ｋ：［ＬＩＶＭＦ］、ｌ：［ＩＬＶＭＦ］、ｍ：［ＱＫＣＳ］、
ｎ：［ＫＲＱＡ］、ｏ：［ＩＶＴＮＦ］、ｐ：［ＱＫＣＡＳＮ］、ｑ：［ＱＫＩ
ＡＧＮ］、ｒ：［ＲＫＡＨＱＮ］、ｓ：［ＫＲＱＮＥ］、ｔ：［ＫＲＱＭＮ］、
ｕ：［ＬＦＹＩＭＳ］、ｖ：［ＡＧＳＰＥ］。括弧は、括弧内の残留物のうちの
いずれか１つによって占められる可能性がある位置を示す。

【０１０４】発見されたパターンのすべてが、そのような明瞭な機能的特異性を示すわけで
はないことを諒解されたい。発見されたパターンのうちのいくつかは、少なくと
もタンパクの機能的注釈の目的には重要でないと従来考えられていた領域（たと
えばループ、コイルドコイル、膜貫通）に対応する。しかし、時には、そのよう
な弱い類似性であっても、タンパク領域の特性記述の有用なヒントを提供する可
能性がある。この可能性を利用できるようにする機構を２つ実施した。まず、ユ
ーザは、照会配列に一致するすべてのパターンのリストを与えられる。専門家の
ユーザは、ほとんどの場合に、どのパターンが生物学的に重要であるかを識別す
ることができる。特定のパターンを選択すると、スコアリングが改善され、この
パターンによってカバーされるデータベースの区域だけに焦点を合わせるように
なる。第２に、基礎になるデータ・ベースに、さまざまなデータベース配列領域
の注釈が含まれる時には、有用な情報を抽出するために、この注釈をパターンと
併用する。これら２つの機構の使用の例を、次の副節で示す。

【０１０５】Ｂ．探索探索相を例示する（および、それを使用する方法を説明する）ために、２つの
照会配列を選択した。第１の配列は、十分に調査され、注釈を付けられたコア・
ヒストン３タンパク（SwissProt ID:H31_HUMAN）であり、第２の配列は、まだ特
徴を明らかにされていない、Methanococcus JannaschiiのＯＲＦ（SwissProt ID
:YZ28_METJA）である。

【０１０６】Ｈ３１＿ＨＵＭＡＮコア・ヒストンは、細胞内のＤＮＡのパッケージングにおける中心的な役割に
起因して、広範囲の研究の対象になってきた。これらの小さいタンパクは、負に
帯電したＤＮＡ二重螺旋への結合を助ける正に帯電したアミノ酸に富む。J.D. W
atson、N.H. Hopkins、J.W. Roberts、J. SteitzおよびA.M. Weiner著、「Molec
ular Biology of the Gene」、The Benjamin/Cummings Publishing Company刊、
Fourth Edition、1987年を参照されたい。４つのコア・ヒストン（Ｈ２Ａ、Ｈ２
Ｂ、Ｈ３およびＨ４）は、互いに結合して八量体構造（円筒形のくさびを思わせ
る）になり、これが、１４６ｂｐｓ長のＤＮＡセグメントが巻き付く基質をもた
らし、したがって、細胞クロマチン内のヌクレオソーム複合体を作る。

【０１０７】 SwissProt Rel.34データベースには、Histones 3として注釈される３３個の配
列があり、その中に、ヒトに見られるコア・ヒストン３タンパクであるＨ３１＿
ＨＵＭＡＮが含まれる。本発明による相同性検出ツールを用いるこの配列の探索
の上位スコア結果を、図２６の表に示す。各配列の隣に、その配列とＨ３１＿Ｈ
ＵＭＡＮの間での最高のスコアの局所位置合せの類似性スコアを示す。図２６の
スコアは、ＰＡＭ１３０行列（M.O. Dayhoff、R.M. SchwartzおよびB.C. Orcutt
著、「A model of evolutionary change in proteins」、Atlas of Protein Seq
uence and Structure、5:345-352、1978年を参照されたい)を使用して得たもの
であり、データベースからの一致する配列のすべてに、最も高いスコアを有する
セグメントのスコアが割り当てられている。

【０１０８】 SwissProt Rel.34の３３個のコアHistones 3のすべてが、Ｈ３１＿ＨＵＭＡＮ
に対する相同性を有するものとして正しく同定された。さらに、複数の他のタン
パク（ＹＢ２１＿ＣＡＥＥＬ、ＣＥＮＡ＿ＨＵＭＡＮ、ＣＳＥ４＿ＹＥＡＳＴ、
ＹＬ８２＿ＣＡＥＥＬ、ＣＥＮＡ＿ＢＯＶＩＮ、ＹＭＨ３＿ＣＡＥＥＬ）が、Ｈ
３１＿ＨＵＭＡＮとの示量的局所類似性を有することがわかった。これらのタン
パクに関する注釈の観察から、それらが既知のヒストン３様タンパクであること
が示される。最後に、Ｈ３＿ＮＡＲＰＳ（既知のヒストン３）は、断片としての
みSwissProtのリリース３４に現れ、それが、結果のリストでＨ３＿ＮＡＲＰＳ
が最低のスコアを有する理由である。

【０１０９】図２７に、照会配列Ｈ３１＿ＨＵＭＡＮについて生成された位置合せの選択さ
れた表示（高スコアと低スコアの両方の）を示す。図２７では、非常に類似する
タンパク（Ｈ３＿ＹＥＡＳＴ）と適度に類似するタンパク（ＣＥＮＡ＿ＨＵＭＡ
Ｎ）とのＨ３１＿ＨＵＭＡＮの局所位置合せが示されている。すべての配列につ
いて、複数の局所類似性が報告されている。そのような類似性のすべてにおいて
、関連する照会領域（「Query」）とデータ・ベース配列領域（「Seq」）は、結
果の一致領域を間に挟んで上下にリストされている。文字「＋」を使用して、化
学的に類似するアミノ酸を示す。

【０１１０】ＹＺ２８＿ＭＥＴＪＡＨ３１＿ＨＵＭＡＮは、それに対する非常に高い相同性を有する複数の配列が
データベースに含まれるので、ある意味では簡単なテスト・ケースである。興味
深い質問は、「ボーダーライン」配列すなわち、既知の相同性が存在しない配列
を提示された時に、本発明の方法論がどうなるかである。この質問に対処する労
力において、システムに、まだ注釈を付けられていない、M. jannaschiiの遺伝
子からの１２７２個の残留物を有する開いた読み枠である配列ＹＺ２８＿ＭＥＴ
ＪＡを提示した。

【０１１１】照会配列ＹＺ２８＿ＭＥＴＪＡを提示された時に本発明のシステムによって作
られた最高スコアの位置合せを、図２８に示す。使用された変異行列は、ＰＡＭ
１３０である。

【０１１２】ＹＺ２８＿ＭＥＴＪＡの機能的注釈の目的のためには、上で述べた結果は、非
常に啓発的ではない。というのは、データベース・ヒットに全く異なるタンパク
が含まれるからであり、最初の２つのタンパク（ＮＴＮＯ＿ＨＵＭＡＮ、ＮＴＮ
Ｏ＿ＢＯＶＩＮ）は、ナトリウム依存のノルアドレナリン輸送体であり、最後の
１つ（ＫＡＰＬ＿ＡＰＬＣＡ）は、キナーゼである。

【０１１３】これらの質問を念頭において、ＹＺ２８＿ＭＥＴＪＡとデータベースの配列の
間の類似性の詳細な検査に進んだ。この分析のために、ＹＺ２８＿ＭＥＴＪＡに
一致するすべてのパターンを、個別に細かく調べた。本発明の探索相では、ユー
ザが、考慮中の照会配列と照合されるパターンを選択でき、その特定のパターン
だけによって誘導される局所位置合せに焦点を合わせ、他のパターンのすべてを
無視することができることを諒解されたい。この機能が、ＹＺ２８＿ＭＥＴＪＡ
によって照合されるパターンのそれぞれについて使用された。本発明は、そのよ
うなパターンが１特定のタンパク・ファミリに固有であるかどうかを発見し、し
たがって、ＹＺ２８＿ＭＥＴＪＡの機能性に関するいとぐちを与えるためのもの
である。

【０１１４】判明したところによれば、キナーゼ・ファミリに非常に固有の３つのパターン
（すなわち、パターン「Ｙ．．Ｓ．．Ｉ．．．ＤＬＫ」、「ＮＩＬ．．．．．．
ＩＫＬ」および「Ｉ．Ｈ．ＤＬＫ．．．．．．Ｄ」）が存在する。図２９に、こ
れらのうちの最初の１つについて作られた最高のスコアを有する位置合せのうち
のいくつか、すなわち、パターン「Ｙ．．Ｓ．．Ｉ．．．ＤＬＫ」によって誘導
される、照会配列ＹＺ２８＿ＭＥＴＪＡに関する最高のスコアを有する局所位置
合せを示す。使用された変異行列は、ＰＡＭ１３０である。図３０に、その特定
のパターンを含むデータベース配列のすべての完全なリストが含まれる。図３１
および３２に、残りの２つのパターンの対応するリストを示す。図３３は、（ａ
）ＹＺ２８＿ＭＥＴＪＡに一致するすべてのパターンの分布と、（ｂ）３つのキ
ナーゼ固有のパターンによってカバーされる区域とのグラフィック表現である。

【０１１５】パターン「Ｙ．．Ｓ．．Ｉ．．．ＤＬＫ」は、SwissProt内で２４ヒットを生
成する。これらのタンパクのすべて（ナトリウム／胆汁酸共輸送体であるＮＡＢ
Ａ＿ＲＡＴを除く）が、大多数がセリン／スレオニン・キナーゼ・ファミリに属
するか、それに対する類似性を示す、タンパク質キナーゼ（そのうちの２つ「Ｋ
Ｄ８２＿ＳＣＨＰＯ」と「ＫＫＫ１＿ＹＥＡＳＴ」は、推定上／有望なキナーゼ
として特徴を表される）として注釈されている。さらに、「Ｙ．．Ｓ．．Ｉ．．
．ＤＬＫ」は、これらのタンパクのキナーゼ領域に属するだけではなく、実際に
その領域の活性部位（アミノ酸Ｄ）を含む。

【０１１６】図３０に、パターン「Ｙ．．Ｓ．．Ｉ．．．ＤＬＫ」を含むSwissProt Rel.34
配列が示されている。これらのすべてが、タンパク質キナーゼまたは推定上の／
有望なタンパク質キナーゼ（ほぼすべてがセリン／スレオニンの変種）として注
釈されている。唯一の例外が、ナトリウム／胆汁酸共輸送体として注釈されてい
るタンパク「ＮＡＢＡ＿ＲＡＴ」である。

【０１１７】図３１に示されているように、同様の結果が、３つのパターンのうちの第２の
パターンである「ＮＩＬ．．．．．．ＩＫＬ」について得られた。この場合、デ
ータベース・ヒットの数は３４であり、そのすべて（YeastとMycoplasma Homini
sからの注釈されていない２つのＯＲＦを除く）が、既知の（または有望な）タ
ンパク質キナーゼである。やはり、セリン／スレオニン・キナーゼが大多数であ
る。

【０１１８】最後に、第３のパターン「Ｉ．Ｈ．ＤＬＫ．．．．．．Ｄ」は、３０個のSwis
sProt Rel.34ヒットを生成し、そのすべてが、既知のまたは推定上のタンパク質
キナーゼである。これを図３２に示す。さらに、３つのパターンのうちの第１の
パターンの場合と同様に、パターン「Ｉ．Ｈ．ＤＬＫ．．．．．．Ｄ」には、キ
ナーゼ領域の活性部位が含まれる。

【０１１９】前述の３つのパターンのすべてが、以下の一般的なパターンの特定の実例（一
部）であることに留意することが興味深い。 [LIVMFYC].[HY].D[LIVMFY]K..N[LIVMFYCT][LIVMFYCT][LIVMFYCT] ここで、表記［ＸＹＺ］は、残留物Ｘ、ＹおよびＺのいずれかによって占められ
る可能性がある位置を示す。このより一般的なパターンは、受入番号ＰＳ００１
０８を有するＰＲＯＳＩＴＥデータベース項目すなわち、セリン／スレオニン・
タンパク質キナーゼ活性部位のサインである。このＰＲＯＳＩＴＥサインは、上
で試験した３つのパターンによってカバーされるＹＺ２８＿ＭＥＴＪＡの区域内
のキナーゼ触媒部位を選択するためには具体的にすぎることに留意されたい。こ
の状況（人工知能の用語で、トレーニング・セットの「オーバーリプリゼンテー
ション（overrepresentation）」として既知）は、全宇宙の有限な部分集合によ
ってトレーニングされた学習システムに典型的なものである。実例の集合（この
場合、ＰＲＯＳＩＴＥによって使用される既知のセリン／スレオニン・キナーゼ
の特定の集合）が偏っており、その結果、観察を説明する間に学習される特徴（
この場合はキナーゼのサイン）が、検討中のファミリの新しい実例に効果的に外
挿するのに十分に一般的でない（すなわち、「誤った否定（false negatives）
」がある）危険性が常に存在する。この問題の矯正法は、できる限り大きいトレ
ーニング・セットを使用することであり、これが、本明細書に提示される手法の
最重要点である。

【０１２０】前に述べたように、図３３には、（ａ）ＹＺ２８＿ＭＥＴＪＡに一致するすべ
てのパターンの分布と、（ｂ）３つのキナーゼ固有パターンによってカバーされ
る区域のグラフィック表現が示されている。

【０１２１】図３３の（ａ）には、ＹＺ２８＿ＭＥＴＪＡと一致する４１０個のパターンが
ある（情報収集相で発見されたパターンのうちの）。パターンが残留物位置を「
カバー」するのは、パターンがその位置またはその前から始まり、その位置また
はその後で終わる場合である。グラフには、残留物位置（ｘ軸）のそれぞれにつ
いて、その位置をカバーするパターンの数（ｙ軸）が示されている。図３３（ｂ
）からわかるように、本明細書で論じた３つのキナーゼ・パターンは、オフセッ
ト３５（パターン「Ｙ．．Ｓ．．Ｉ．．．ＤＬＫ」）、１１２（パターン「ＮＩ
Ｌ．．．．．．ＩＫＬ」）および１０５２（パターン「Ｉ．Ｈ．ＤＬＫ．．．．
．．Ｄ」）で配列に一致する。これらのオフセットは、図３３（ａ）のパターン
分布のスパイクに対して相対的に図示されている。

【０１２２】既存の注釈の使用ＹＺ２８＿ＭＥＴＪＡと一致した４１０パターンのうちで、上で分析した３つ
のパターンだけが、そのような明瞭な機能的特異性を示す。これは、残りの４０
７パターンが有用でないことを意味するものではない。２つの配列の局所類似性
から引き出すことのできる生物学的推論の種類は、必ずしも機能的性質を有する
ものではない。時には、相同性が、構造の保存を示し、別の場合には、相同性が
、比較される配列の総合的機能の指示的役割（たとえばＤＮＡ結合領域）の機能
単位に対応する場合がある。そのような弱い類似性を調査する労力において、基
礎となるデータベースで使用可能な注釈を利用する方法を設けた。下の説明では
、SwissProt注釈フォーマットを前提とする。

【０１２３】 SwissProtデータ・ベースでは、その配列の大半と、配列領域の注釈が関連付
けられる（ＦＴ行、A. BairochおよびR. Apweiler著、「The SWISS-PROT protei
n sequence data bank and its supplement TrEMBL in 1998」、Nucleic Acids
Res.、26:38-42、1998年を参照されたい）。通常の領域記述は次のようになる。 FT DOMAIN 528 779 PROTEIN KINASE ここで、キーワード「ＦＴ」は、これが領域記述行であることを示し、残りの行
は、その先頭位置および末尾位置（関連するデータ・ベース配列の残留物５２８
から残留物７７９まで）とその注釈（タンパク質キナーゼ領域）を与えることに
よって、その領域を記述する。

【０１２４】パターンＰを提示された時に、（すでに述べたように）オフセット・リストＬ _D （Ｐ）を使用して、Ｐと一致するデータベース内のすべての配列を突きとめる
ことができる。Ｓがそのような配列であり、Ｓ内のオフセットｊから、Ｐと一致
する部分列が始まると仮定する。Ｐが、Ｓの注釈付きの領域（全体的または部分
的のいずれか）に含まれる場合には、この領域をＰに関連付けることができる。
Ｐに一致するすべての配列Ｓに関してこの処理を実行すると、Ｐに関連する領域
の集合ＲＳ_D（Ｐ）がもたらされる。図３４に、上で説明した３つのキナーゼ・
パターンのうちの１つについて本発明のシステムによって作られた出力の一部の
例を示す。すなわち、図３４は、パターン「Ｉ．Ｈ．ＤＬＫ．．．．．．Ｄ」に
一致するデータベース配列の一部の、SwissProtの注釈を使用する個々のパター
ンの分析を示す。そのような配列のすべてについて、そのＩＤ行とＤＥ行が報告
され（A. BairochおよびR. Apweiler著、「The SWISS-PROT protein sequence d
ata bank and its supplement TrEMBL in 1998」、Nucleic Acids Res.、26:38-
42、1998年を参照されたい）、配列のSwissProt名と、その機能性の短い記述が
与えられる。その次に、一致が始まる配列内のオフセットがある。最後に、パタ
ーンによってカバーされる領域との交差を有する、注釈付きの領域のすべてのＦ
Ｔ行がある。

【０１２５】照会配列Ｑの部分配列Ａに一致するパターンＰを与えられた場合、問題は、Ａ
の特徴を表す際にＲＳ_D（Ｐ）を使用する方法になる。複数の手法を使用するこ
とができる。たとえば、ＲＳ_D（Ｐ）が十分に大きく、その要素の大多数が、機
能性で一致する場合には、Ａが同一の機能性を有する可能性が非常に高いと推論
することができる。もう１つの検討事項は、パターンＰと、ＦＴ行によって記述
される領域の相対的な長さである。たとえば、パターンＰが、１５残留物の広が
りを有し、Ｐを含む注釈付きの配列領域が、３００アミノ酸の長さを有する場合
には、その領域の注釈をＰに転送しようと思う者はいないであろう。結論として
、エンド・ユーザは、システムによって提供される情報を最もよく利用する方法
を決定する際に、自分の専門知識を適用することが期待される。

【０１２６】図３５は、ＹＺ２８＿ＭＥＴＪＡの領域に注釈を付けるために集合ＲＳ_D（Ｐ
）を使用し、したがって、図３３（ｂ）に示された絵を拡張するための、２つの
方法を示す図である。すなわち、図３５には、ＹＺ２８＿ＭＥＴＪＡのさまざま
なセグメントの、これらのセグメントと一致するパターンの注釈からの特徴の記
述が示されている。パターンの注釈は、やはりこれらのパターンに一致するデー
タベース配列のさまざまな領域について使用可能な情報を利用することによって
得られる。セグメントは、やはり、ＹＺ２８＿ＭＥＴＪＡ全体に対するパターン
の分布のスパイクに対して相対的に示されている。最初の手法（図３５の（ｂ）
）では、（ｉ）ＲＳ_D（Ｐ）のサイズが少なくとも１５であり、（ｉｉ）ＲＳ_D（
Ｐ）内の領域の大多数（８０％）がＸとして注釈を付けられており、（ｉｉｉ）
Ｘとして注釈を付けられたＲＳ_D（Ｐ）のすべての領域のうちの少なくとも５０
％が、Ｐによってカバーされる場合に、注釈Ｘ（たとえばＸ＝膜貫通領域）をパ
ターンＰに割り当てる。第２の手法（図３５の（ｃ））では、上の必要条件（ｉ
）および（ｉｉ）を共用するが、パターンによってカバーされる注釈付き領域の
比率を３０％以上とすることによって、（ｉｉｉ）を緩和している。

【０１２７】性能照会配列Ｑの相同性探索の実行時間は、（ｉ）使用されるパターンの集合Πの
サイズと、（ｉｉ）Ｑとデータベース配列の間の局所類似性（Ｑに一致するパタ
ーンによって誘導される）の実際の数とに依存する。本明細書で使用したSwissP
rot Rel.34の場合、約１０００個の残留物のサイズの照会タンパクに関する典型
的な探索は、２５６ＭＢのメモリを有するPentium 266MHzコンピュータで４ない
し６秒を要する。上で報告した実行時間は、すべてのプログラム・データ（パタ
ーンとそのオフセット・リスト）をメモリ内に保持することによって達成された
ことに言及する必要がある。SwissProtの場合、このデータは、約２００ＭＢを
占める。

【０１２８】本発明のさまざまな態様によれば、基礎となるタンパクのデータベースＤに対
するパターンの発見と、照会配列と考慮中のデータベースのタンパクとの間の相
同性の識別のためのこれらのパターンの使用とに基づく配列類似性探索を実行す
るための方法論が提供される。本明細書では、統計的な議論を使用して、探索さ
れるパターンの集合を正確に定義する方法を説明し、メモリを統計的計算に導入
することによって有意な相同性を識別する際の感度をパターンによって高める方
法を述べた。最後に、本方法論の使用を、テスト・ベッドとしてSwissProt Rel.
34データベースを使用して示し、本システムを照会配列の注釈付けに使用する方
法を示した。これに関連して、照会配列とデータ・ベース配列の間の弱い類似性
の特徴記述に向かって、基礎となるデータベースの注釈と共に発見されたパター
ンを利用する可能性も論じた。

【０１２９】有利なことに、本発明の配列相同性検出システムの、従来技術のパターン・ベ
ースの相同性検出用ツール（たとえばＢＬＯＣＫＳ）とそれを区別する１態様は
、使用されるパターンの集合の完全性である。パターンは、基礎となるデータベ
ースＤ内のすべてのタンパクの、非常に大きいトレーニング・セットから監督さ
れない形で学習される。配列を同一のファミリの要素とみなさ「なければならな
い」従来の偏りを生じる前提はない。その結果、発見されるパターンは、より敏
感であることが期待される。さらに、別個の機能性を持つ配列を一緒に検討する
ことによって、ファミリの境界をまたぐ弱い類似性（たとえば、膜貫通領域を記
述したパターン）を発見することができる。そのような類似性は、機能的注釈の
推論には不十分であるが、それでも、検査中の照会配列の異なる部分の役割に関
する有用な情報を与える。

【０１３０】本発明のシステムのもう１つの長所は、相同性探索について達成される実行時
間である。すべての探索についてデータベース全体を走査するのではなく、パタ
ーンを使用することによって得られる速度向上は、遺伝子データベースのサイズ
の増大がさらに速くなるにつれて（特に、公開サーバを使用するのではなく、イ
ンハウス・テストを走行したいユーザにとって）１つの要因になる。

【０１３１】本発明の実施例を、添付図面を参照して本明細書で説明したが、本発明がこれ
らの正確な実施形態に制限されず、本発明の範囲または主旨から逸脱せずに、当
業者がさまざまな他の変更および修正を行うことができることを理解されたい。

【図面の簡単な説明】

【図１】本発明の実施例による、配列相同性検出システムのブロック図である。

【図２】本発明の配列相同性検出システムの例のハードウェア実施形態のブロック図で
ある。

【図３】本発明の配列相同性検出システムのネットワークベースの実施形態のブロック
図である。

【図４】本発明の１実施例による、探索エンジン方法論を示す高水準流れ図である。

【図５】本発明の１実施例による、所与の照会配列のためのパターン照合処理の例を示
す図である。

【図６】本発明の１実施例による、特定の照会配列について生成されるハッシュ・テー
ブルの例を示す図である。

【図７】本発明の１実施例による、所与の照会配列に関する連鎖処理の例を示す図であ
る。

【図８】本発明の１実施例による、所与の照会配列に関するスコアリング処理に従って
生成される重みつき有向グラフの例を示す図である。

【図９】本発明の探索エンジン方法論の照合および連鎖相の実施形態を示す流れ図であ
る。

【図１０】本発明の探索エンジン方法論のスコアリング相の実施形態を示す流れ図である
。

【図１１】ＳＰ３４での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。

【図１２】ＳＰ３４での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。

【図１３】ＳＰ３４での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。

【図１４】ＳＰ３４での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。

【図１５】本発明の１実施例による辞書形成方法論を示す流れ図である。

【図１６】本発明の１実施例による辞書形成方法論を示す流れ図である。

【図１７】本発明の１実施例による辞書形成方法論を示す流れ図である。

【図１８】本発明の１実施例による辞書形成方法論を示す流れ図である。

【図１９】本発明の１実施例による、データベース・クリーン・アップ処理を示す流れ図
である。

【図２０】本発明に関連する実験結果を示す図である。

【図２１】本発明に関連する実験結果を示す図である。

【図２２】本発明に関連する実験結果を示す図である。

【図２３】本発明に関連する実験結果を示す図である。

【図２４】本発明に関連する実験結果を示す図である。

【図２５】本発明に関連する実験結果を示す図である。

【図２６】本発明に関連する実験結果を示す図である。

【図２７】本発明に関連する実験結果を示す図である。

【図２８】本発明に関連する実験結果を示す図である。

【図２９】本発明に関連する実験結果を示す図である。

【図３０】本発明に関連する実験結果を示す図である。

【図３１】本発明に関連する実験結果を示す図である。

【図３２】本発明に関連する実験結果を示す図である。

【図３３】本発明に関連する実験結果を示す図である。

【図３４】本発明に関連する実験結果を示す図である。

【図３５】本発明に関連する実験結果を示す図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者リゴウトソス、イシドア・アメリカ合衆国11103 ニューヨーク州アストリアサーティー・シックスス・ストリート 30−30 Ｆターム(参考） 4B024 AA20 HA11 5B075 ND02 PR06 QM02 QM08 UU19

Claims

【特許請求の範囲】

【請求項１】データベース内の複数の配列と照会配列との間の相同性を検出する、コンピュ
ータに基づく方法であって、各パターンが、前記データベース内の１つまたは複数の配列の少なくとも一部
を表す、前記データベースに関連するパターンにアクセスするステップと、前記照会配列の１つまたは複数の部分が、前記データベースの前記配列のうち
の前記パターンによって表される部分に相同であるかどうかを検出するために、
前記照会配列を前記パターンと比較するステップと、前記照会配列に相同であることが検出された配列のそれぞれのスコアを生成す
るステップであって、前記配列スコアが、前記検出された配列の相同部分のそれ
ぞれに従って生成される個々のスコアに基づき、前記配列スコアが、前記照会配
列と前記検出された配列との間の相同の度合を表す、スコアを生成するステップ
とを含む方法。
【請求項２】前記データベースが、既知の配列特徴と未知の配列特徴との両方を有する配列
を含む、請求項１に記載の方法。
【請求項３】前記配列が、タンパクを表す、請求項１に記載の方法。
【請求項４】前記比較するステップが、さらに、前記照会配列の部分と一致するパターンに
関連する前記データベースの領域のそれぞれについてセグメントを生成すること
を含む、請求項１に記載の方法。
【請求項５】前記セグメントが、値の組（ｉ、ｊ、ｋ、ｌ）として表現され、（ｊ、ｋ）が
、前記パターンに関連する前記データベースの前記領域を表し、ｋが、前記パタ
ーンが一致する前記データベース内の第ｊ配列のオフセットを表し、ｉが、前記
パターンが一致する前記照会配列のオフセットを表し、ｌが、前記パターンの長
さを表す、請求項４に記載の方法。
【請求項６】前記比較するステップが、さらに、複数のセグメントが生成される時に、拡張
セグメントを形成するために、互換性のあるセグメントを互いに連鎖することを
含む、請求項４に記載の方法。
【請求項７】前記比較するステップが、さらに、前記照会配列にも一致する少なくとも１つ
のパターンと一致する前記データベースの配列と、各配列について生成されたそ
れぞれのセグメントとを、１つの集合に集めることを含む、請求項４に記載の方
法。
【請求項８】前記スコアを生成するステップが、さらに、前記集合内の各配列に関連する前
記セグメントのそれぞれにスコアを割り当てることを含む、請求項７に記載の方
法。
【請求項９】スコアが、変異行列に基づいて各セグメントに割り当てられる、請求項８に記
載の方法。
【請求項１０】前記スコアを生成するステップが、さらに、前記配列に関連する前記セグメン
トに割り当てられた前記スコアに基づいて、前記集合内の各配列にスコアを割り
当てることを含む、請求項８に記載の方法。
【請求項１１】前記配列スコアを割り当てるステップが、さらに、有向グラフを形成すること
を含み、前記有向グラフの頂点が、前記配列に関連する前記セグメントを表し、
２つの頂点が、前記頂点によって表される２つのセグメントに関連するそれぞれ
のオフセットの相対順序に基づいて辺によって接続され、前記それぞれのオフセ
ットが、前記照会配列のオフセットと、前記スコアリングされる配列のオフセッ
トとを含む、請求項１０に記載の方法。
【請求項１２】重みが、前記セグメント・スコアに基づいて各頂点に割り当てられる、請求項
１１に記載の方法。
【請求項１３】重みが、前記関連する照会配列オフセットの変位と前記スコアリングされる配
列の前記オフセットの変位との差に基づいて各辺に割り当てられる、請求項１２
に記載の方法。
【請求項１４】前記辺の重みが、変位の間の前記差のサイズに逆に関係する、請求項１３に記
載の方法。
【請求項１５】前記配列スコア割り当てステップが、さらに、経路に含まれる頂点の重さおよ
び辺の重さの最高の組み合わされたスコアをもたらす前記有向グラフを介する前
記経路を識別することを含み、前記最高の組み合わされたスコアが、前記配列の
前記スコアを表す、請求項１４に記載の方法。
【請求項１６】低い複雑性を有するとして特徴を表される１つまたは複数の前記パターンが無
視される、請求項４に記載の方法。
【請求項１７】パターンが、少なくとも所定の個数の繰り返される文字を有する配列領域を表
す時に、前記パターンが低い複雑性を有するとして特徴を表される、請求項１６
に記載の方法。
【請求項１８】パターンが、同一の文字の組のオーバーラップする出現を有する配列領域を表
す時に、前記パターンが低い複雑性を有するとして特徴を表される、請求項１６
に記載の方法。
【請求項１９】パターンに関連する変異性に基づいて、前記パターンが低い複雑性を有すると
して特徴を表される、請求項１６に記載の方法。
【請求項２０】パターンの前記変異性が、パターン内の、文字によってカバーされる位置の総
数に対する前記パターン内に現れる前記文字の回数の比率である、請求項１９に
記載の方法。
【請求項２１】パターンが、前記照会配列に関連するオフセットの左右の少なくとも所定の数
の文字で前記照会配列に近似的に一致する時に、前記パターンが低い複雑性を有
するとして特徴を表される、請求項１６に記載の方法。
【請求項２２】パターンが、前記データベースからの前記配列に関連するオフセットの左右の
少なくとも所定の数の文字で前記データベースからの前記配列に近似的に一致す
る時に、前記パターンが低い複雑性を有するとして特徴を表される、請求項１６
に記載の方法。
【請求項２３】ネットワーク内のサーバでアクセスされるデータベース内の複数の配列と、前
記ネットワーク内のクライアント装置で入力される照会配列との間の相同性を検
出する、ネットワークに基づく方法であって、前記サーバで前記ネットワークから、前記クライアント装置で入力された前記
照会配列を得るステップと、前記サーバで、各パターンが前記データベース内の１つまたは複数の配列の少
なくとも一部を表す、前記データベースに関連するパターンにアクセスするステ
ップと、前記サーバで、前記照会配列の１つまたは複数の部分が、前記データベースの
前記配列のうちの前記パターンによって表される部分に相同であるかどうかを検
出するために、前記照会配列を前記パターンと比較するステップと、前記サーバで、前記照会配列に相同であることが検出された配列のそれぞれに
ついてスコアを生成するステップであって、前記配列スコアが、前記検出された
配列の各相同部分に従って生成される個々のスコアに基づき、前記配列スコアが
、前記照会配列と前記検出された配列との間の相同の度合を決定する、スコアを
生成するステップとを含む方法。
【請求項２４】前記ネットワークが、インターネットを含む、請求項２３に記載の方法。
【請求項２５】前記データベースが、既知の配列特徴と未知の配列特徴との両方を有する配列
を含む、請求項２３に記載の方法。
【請求項２６】前記配列が、タンパクを表す、請求項２３に記載の方法。
【請求項２７】データベース内の複数の配列とネットワークを介する照会配列との間の相同性
を検出する装置であって、前記照会配列を入力し、前記ネットワークを介して前記照会配列を送信するよ
うに構成されたクライアント装置と、前記ネットワークを介して前記クライアント装置に結合され、（ｉ）前記ネッ
トワークを介して前記クライアント装置から前記照会配列を得、（ｉｉ）各パタ
ーンが前記データベース内の１つまたは複数の配列の少なくとも一部を表す、前
記データベースに関連するパターンにアクセスし、（ｉｉｉ）前記照会配列の１
つまたは複数の部分が、前記データベースの前記配列のうちの前記パターンによ
って表される部分に相同であるかどうかを検出するために、前記照会配列を前記
パターンと比較し、（ｉｖ）前記照会配列と相同であることが検出された配列の
それぞれについてスコアを生成し、前記配列スコアが前記検出された配列の各相
同部分に従って生成される個々のスコアに基づき、前記配列スコアが前記照会配
列と前記検出された配列との間の相同の度合を決定し、（ｖ）前記検出結果の少
なくとも一部を前記ネットワークを介して前記クライアント装置に送信するよう
に構成された、サーバとを含む装置。
【請求項２８】データベース内の複数の配列と照会配列との間の相同性を検出する装置であっ
て、（ｉ）各パターンが前記データベース内の１つまたは複数の配列の少なくとも
一部を表す、前記データベースに関連するパターンにアクセスし、（ｉｉ）前記
照会配列の１つまたは複数の部分が、前記データベースの前記配列のうちの前記
パターンによって表される部分に相同であるかどうかを検出するために、前記照
会配列を前記パターンと比較し、（ｉｉｉ）前記照会配列に相同であることが検
出された配列のそれぞれについてスコアを生成するように動作する少なくとも１
つのプロセッサであって、前記配列スコアが、前記検出された配列の各相同部分
に従って生成される個々のスコアに基づき、前記配列スコアが、前記照会配列と
前記検出された配列との間の相同の度合を決定する、プロセッサを含む装置。
【請求項２９】データベース内の複数の配列と照会配列との間の相同性を検出する製造品であ
って、実行された時に、各パターンが前記データベースの１つまたは複数の配列の少なくとも一部を表
す、前記データベースに関連するパターンにアクセスするステップと、前記照会配列の１つまたは複数の部分が、前記データベースの前記配列のうち
の前記パターンによって表される部分に相同であるかどうかを検出するために、
前記照会配列を前記パターンと比較するステップと、前記照会配列に相同であることが検出された配列のそれぞれについてスコアを
生成するステップであって、前記配列スコアが、前記検出された配列の各相同部
分に従って生成される個々のスコアに基づき、前記配列スコアが、前記照会配列
と前記検出された配列との間の相同の度合を決定する、スコアを生成するステッ
プとを実施する１つまたは複数のプログラムを含む機械可読媒体を含む製造品。