JP2002529817A - 配列相同性検出を形成するための方法および装置 - Google Patents

配列相同性検出を形成するための方法および装置

Info

Publication number
JP2002529817A
JP2002529817A JP2000580125A JP2000580125A JP2002529817A JP 2002529817 A JP2002529817 A JP 2002529817A JP 2000580125 A JP2000580125 A JP 2000580125A JP 2000580125 A JP2000580125 A JP 2000580125A JP 2002529817 A JP2002529817 A JP 2002529817A
Authority
JP
Japan
Prior art keywords
sequence
pattern
database
score
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000580125A
Other languages
English (en)
Other versions
JP3412618B2 (ja
Inventor
フロラトス、アリス
リゴウトソス、イシドア・
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2002529817A publication Critical patent/JP2002529817A/ja
Application granted granted Critical
Publication of JP3412618B2 publication Critical patent/JP3412618B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S930/00Peptide or protein sequence
    • Y10S930/01Peptide or protein sequence
    • Y10S930/31Linker sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】 【課題】 【解決手段】 本発明の配列相同性検出態様では、データベース内の複数の配列と照会配列との間の相同性を検出する、コンピュータに基づく方法に、以下のステップが含まれる。まず、この方法には、データベースに関連するパターンにアクセスするステップが含まれ、各パターンは、データベース内の1つまたは複数の配列の少なくとも一部を表す。次に、照会配列をパターンと比較して、照会配列の1つまたは複数の部分が、パターンによって表されるデータベースの配列の部分に対して相同であるかどうかを検出する。その後、照会配列に対して相同であることが検出された配列のそれぞれについてスコアを生成するが、配列スコアは、検出された配列の相同部分のそれぞれに従って生成された個々のスコアに基づき、配列スコアは、照会配列と検出された配列との間の相同性の度合を表す。

Description

【発明の詳細な説明】
【0001】 関連出願の相互参照 本出願は、米国特許出願第60/106295号明細書に対する優先を請求し
、参照によって本明細書に組み込まれる、本明細書と同時にA. FloratosおよびI
. Rigoutsos名義で出願された米国特許出願書「Methods and Apparatus for Per
forming Pattern Dictionary Formation for Use in Sequence Homology Detect
ion」に関する。
【0002】
【発明の属する技術分野】
本発明は、全般的にはデータベース探索に関し、具体的には、たとえば遺伝子
研究などの所与のアプリケーションに関連する、照会配列とデータベース内の配
列との間の配列相同性を検出するための方法および装置に関する。
【0003】
【従来の技術】
遺伝子研究の分野では、新しい遺伝子の配列決定の次の最初のステップは、そ
の遺伝子の機能を同定する作業である。この目標を達成するための最も一般的で
直裁な方法では、2つのペプチドの伸展が、配列レベルで十分な類似性を示す(
すなわち、わずかな数の挿入、削除またはアミノ酸変異によって一方からもう一
方を得ることができる)場合に、それらがおそらく生物学的に関連するという、
生物学的事実を利用する。そのような手法の例が、A.M. Lesk著、「Computation
al Molecular Biology」、Encyclopedia of Computer Science and Technology
、A.KentおよびJ.G. Williams編、31:101-165、Marcel Dekker刊、米国ニューヨ
ーク州、1994年と、R.F. Doolittle著、「What we have learned and will
learn from sequence databases」、Computers and DNA、G. BellおよびT. Marr
編集、21-31、Addison-Wesley刊、1990年と、C. Caskey、R. Eisenberg、E. Lan
derおよびJ. Straus著、「Hugo statement on patenting of DNA」、Genome Dig
est、2:6-9、1995年と、W.R. Pearson著、「Protein sequence comparison and
protein evolution」、Tutorial of Intelligent Systems in Molecular Biolog
y、英国ケンブリッジ、1995年に記載されている。
【0004】 この枠組みの中で、新しい遺伝子の機能に関するヒントを得るという問題は、
アミノ酸の列を同定する相同の1つになる。一般に、相同とは、複数の配列また
は列の間の類似性または関係を指す。したがって、照会配列Q(たとえば新しい
遺伝子)と、明瞭に特徴を記述されたタンパク質の組Dを与えられ、Dに含まれ
る配列の領域に類似したQのすべての領域を探すことになる。
【0005】 この作業を実現するために最初に使用された手法は、動的計画法と称する技法
に基づくものであった。この手法は、S.B. NeedlemanおよびC.D. Wunsch著、「A
General Method Applicable To The Search For Similarities In The Amino A
cid Sequence Of Two Proteins」、Journal Of Molecular Biology、48:443-453
、1970年と、T.F. SmithおよびM.S. Waterman著、「Identification Of Common
Molecular Subsequences」、Journal Of Molecular Biology、147:195-197、198
1年に記載されている。残念ながら、この方法の計算要件は、特に現在の典型で
ある巨大なデータベースを探索する時に、急速に非現実的になる。一般に、問題
は、動的計画法の変形が、最終的に重要ではなくなる相同の計算にかなりの時間
を費やすことである。
【0006】 この問題を回避するための努力において、示量的局所類似性だけの発見に焦点
を合わせた多数のアルゴリズムが提案されてきた。これらのアルゴリズムのうち
で最もよく知られているのが、FASTAおよびBLASTと称するアルゴリズ
ムである。FASTAアルゴリズムは、W.R. PearsonおよびD.J. Lipman著、「I
mproved tools for biological sequence comparison」、Proc.Natl.Acad.Sci.
、85:2444-2448、1988年と、D.J. LipmanおよびW.R. Pearson著、「Rapid and s
ensitive protein similarity searches」、Science、227:1435-1441、1989年に
記載されている。BLASTアルゴリズムは、S. Altschul、W. Gish、W. Mille
r、E.W. MyersおよびD. Lipman著、「A basic local alignment search tool」
、J.Mol.Biology、215:403-410、1990年に記載されている。大多数の場合に、性
能向上は、まず「ギャップのない」相同すなわち、変異のみに起因し、挿入また
は削除に起因しない類似性を探すことによって達成される。この手法の背後にあ
る理論的基礎は、2つのペプチド列の間の実質的に「ギャップのある」相同にお
いて、少なくとも、一致部分にギャップが含まれない部分列の対が存在する見込
みがあるということである。これらの部分列(ギャップのない相同)の突きとめ
を、すべての(ギャップのある)相同を得るための第1ステップとして使用する
ことができる。
【0007】 しかし、照会配列とデータベース配列の間の類似する領域の同定は、この処理
の最初の部分(計算的に最も過酷な)でしかない。第2の部分(生物学者にとっ
て重要な部分)は、これらの類似性の評価すなわち、その類似性が、照会配列と
それに対応するデータ・ベース配列の間で推論された関係(機能的、構造的また
はそれ以外)を是認するのに十分確実であるかどうかの判断である。このような
評価は、通常は、生物学的情報と統計的推論を組み合わせることによって実行さ
れる。通常、類似性は、関係する領域の対のすべてについて計算されたスコアと
して定量化される。このスコアの計算には、ギャップ・コスト(ギャップのある
位置合せ)の使用と、所与のアミノ酸が別のアミノ酸に変化する進化的確率を与
える適当な変異行列の使用が含まれる。これらの行列の例が、PAM行列(M.O.
Dayhoff、R.M. SchwartzおよびB.C. Orcutt著、「A model of evolutionary ch
ange in proteins」、Atlas of Protein Sequence and Structure、5:345-352、
1978年を参照されたい)と、BLOSUM行列(S. HenikoffおよびJ.G. Henikoff著、
「Amino acid substitution matrices from protein blocks」、Proc.Natl.Acad
.Sci.、89:915-919、1992年を参照されたい)である。その後、このコストの統
計的な重要性を、そのようなスコアが純粋に偶然によって発生する確率を(なん
らかの統計モデルの下で)計算することによって評価する。たとえば、S. Karli
n、A. DemboおよびT. Kawabata著、「Statistical composition of high-scorin
g segments from molecular sequences」、The Annals of Statistics、2:571-5
81、1990年と、S.KarlinおよびS.Altschul著、「Methods for assessing the st
atistical significance of molecular sequence features by using general s
coring schemes」、Proc.Natl.Acad.Sci.、87:2264-2268、1990年を参照された
い。使用される統計モデルに応じて、この確率は、照会配列の長さ、基礎になる
データベースのサイズなどの複数の要因に依存する可能性がある。しかし、どの
従来の統計モデルを使用する場合であっても、いわゆる「グレー領域」すなわち
、統計的に重要でないスコアが、実際には生物学的に重要な類似性を示す状況が
必ず存在する。残念ながら、これは回避不能でもある。結局、統計モデルによっ
て生物学的現実を近似できる程度には限界がある。
【0008】 統計的重要さに弱い類似性を付加することに固有の困難に対する代替策が、進
化的に離れた相同をモデル化する配列記述子の推論に生物学的知識を使用するこ
とである。BLOCKS(S. HenikoffおよびJ. Henikoff著、「Automatic Asse
mbly of Protein Blocks for Database Searching」、Nucleic Acids Research
、19:6565-6572、1991年を参照されたい)は、新しい遺伝子に機能的に注釈をつ
けるために、PROSITE(S. HenikoffおよびJ. Henikoff著、「Protein Fa
mily Classification Based on Searching a Database of Blocks」、Genomics
、Vol.19、pp.97-107、1994年を参照されたい)データベースで定義されたタン
パク分類から得られるパターンによって誘導されたプロファイルを使用するシス
テムである。この場合の利益は、この分類が、関係することが既知のタンパクの
ファミリを扱う専門家によって編集されていることである。その結果、弱い類似
性であっても認識でき、注釈付け処理に使用できる。その一方で、どのタンパク
が実際に関係し、その結果、パターンによって表現可能であるかに関する知識は
それだけしかない。さらに、タンパクのファミリに、実際には現在要素であると
見なされていない要素が含まれるという危険性が常に存在する。これらの要素を
検討対象から排除することによって、ファミリに「オーバー・フィット(over f
it)」したパターンが得られる可能性がある、すなわち、未同定のファミリ要素
に対する外挿について厳密にすぎる。
【0009】 したがって、改良された配列相同性検出を可能にする独自の辞書形成技法を介
して改良されたパターン辞書を作成するための方法および装置の必要と、注釈付
きの配列だけの探索に制限されない、配列相同性検出自体のための方法および装
置の必要が存在することは明白である。
【0010】
【発明が解決しようとする課題】
本発明は、以下で詳細に説明するように、改良されたパターン辞書形成技法お
よび改良された配列相同性検出技法を提供することによって、上記および他の必
要に対する解決策を提供する。
【0011】
【課題を解決するための手段】
本発明の配列相同性検出態様では、データベース内の複数の配列と照会配列と
の間の相同性を検出する、コンピュータに基づく方法に、以下のステップが含ま
れる。まず、この方法には、データベースに関連するパターンにアクセスするス
テップが含まれ、各パターンは、データベース内の1つまたは複数の配列の少な
くとも一部を表す。次に、照会配列をパターンと比較して、照会配列の1つまた
は複数の部分が、パターンによって表されるデータベースの配列の部分に対して
相同であるかどうかを検出する。その後、照会配列に対して相同であることが検
出された配列のそれぞれについてスコアを生成するが、配列スコアは、検出され
た配列の相同部分のそれぞれに従って生成された個々のスコアに基づき、配列ス
コアは、照会配列と検出された配列との間の相同性の度合を表す。
【0012】 本発明の辞書形成態様では、データベース内の複数の配列を処理する、コンピ
ュータに基づく方法に、以下のステップが含まれる。まず、この方法には、各配
列を形成する文字を含む複数の配列のそれぞれを評価するステップが含まれる。
次に、データベース内の配列の少なくとも部分集合を表す文字のパターンを少な
くとも1つ生成する。このパターンは、統計的有意性を関連付けられており、パ
ターンの統計的有意性は、そのパターンがデータベース内でサポートする配列の
最小の個数を表す値によって決定される。
【0013】 したがって、従来技術の手法からの重要な離反において、本発明の方法論は、
データベースの以前の区分を必要としない、任意のデータ・ベースに対して実行
される監督されないパターン発見に基づく。BLOCKS手法では、データベー
スが、生物学的に関連する配列の部分集合に(外部の専門家によって)区分され
ていることが前提である。その後、プロファイルが、各部分集合を個別に処理す
ることによって得られる。この手法の結果として、BLOCKSは、任意のデー
タベースを扱うことができない。というのは、そのようなデータベースのすべて
が、関係する部分集合に区分されてはいないからである。実際、BLOCKSは
、本明細書で言及するPROSITEデータベースに記述されたタンパク・グル
ープを使用して、やはり本明細書で言及するSwissProtデータベースに関しての
み機能する。その一方で、本発明は、その入力としてデータベース全体を使用す
ることが好ましく、どのパターンが重要でありどれが重要でないかを判断するた
めの自動化された方法論を提供する。
【0014】 さらに、本発明は、発見されたパターンの統計的重要性を評価するための新し
い統計的枠組みを提供する。既存の枠組みとは異なり、本発明の手法では、その
計算においてメモリの概念が導入される。すなわち、たとえば照会配列の領域A
が、あるデータベース配列の領域Bと比較される時に、結果の類似性スコアは、
データベース内の他のすべての配列に対するAの類似性を考慮することによって
評価される。
【0015】 本明細書で説明する機能強化された統計モデルを使用することによって、既存
の手法を使用した場合には未検出になるはずの重要な局所類似性の検出が可能に
なる。これによって、本発明のシステムが、従来技術のシステムで可能なレベル
より高いレベルの感度で類似性探索を実行できるようになる。
【0016】 さらに、本発明は、基礎になるデータベースDで使用可能な部分的な注釈情報
を利用するための自動化された方法を提供する。この方法論を用いると、ユーザ
は、重要でないように見える類似性をより詳細に利用できるようになる。たとえ
ば、パターンが照会配列領域Aと一致する時に、そのパターンに一致するデータ
ベース領域のすべてを検査することができる。これらのデータベース領域のすべ
て(またはより多く)が、同一の形で注釈を付けられている場合、この注釈を、
照会領域Aに転送することができる。上の形で照会配列に部分的に注釈を付ける
ことが、総合的な配列注釈に対して有用であることを証明できる。
【0017】 本発明は、データベースを非常に相同性の高い配列のグループにクラスタ化す
るための詳細な方法論も提供する。遺伝子データ処理アプリケーションでは、こ
の方法論によって、複数領域タンパクの正しい扱いが可能になる。
【0018】 本明細書に記載の発明的概念は、たとえばインターネットなどのネットワーク
上で、クライアント/サーバ関係で実施できることも諒解されたい。これによっ
て、ユーザは、リモート位置のクライアント装置で照会配列を入力でき、この照
会配列は、ネットワークを介してサーバに送信され、サーバで処理される。その
後、サーバは、相同性探索の結果を、ネットワークを介してユーザのクライアン
ト装置に返す。
【0019】 本発明の上記および他の目的、特徴および長所は、添付図面と共に読まれるべ
き、以下の実施例の詳細な説明から明白になる。
【0020】
【発明の実施の形態】
本発明を、例の遺伝子データ処理アプリケーションに関連して下で説明する。
しかし、本発明は、そのような特定のアプリケーションに制限されないことを理
解されたい。そうではなくて、本発明は、一般に、任意のデータベースからのパ
ターン辞書の作成(データベース・レコードを同等の配列表現に適宜変換した後
の)と、データベース内のデータに対する所与の照会レコードの制限されない相
同性探索の実行に適用可能である。
【0021】 まず図1を参照すると、本発明の実施例による配列相同性検出システムのブロ
ック図が示されている。例のシステム100には、探索エンジン・モジュール1
10、パターン辞書120、辞書形成モジュール130およびソース・データベ
ース140が含まれる。下で詳細に説明するように、探索エンジン110は、ユ
ーザから照会配列を受け取り、パターン辞書120の探索を実行して、何らかの
形で照会配列に類似する、データベース140からの配列を表す辞書に格納され
たパターンを突きとめることを試みる。照会の前に、辞書形成モジュール130
が、データベース140からパターン辞書120を作成する。この辞書形成処理
を、情報収集または情報マイニングと称する。探索エンジン110は、照会結果
(たとえば、データベースからの相同配列)の一部またはすべてをユーザに返す
【0022】 図2は、配列相同性検出システム100の例のハードウェア実施形態のブロッ
ク図である。図からわかるように、システム100は、プロセッサ210、メモ
リ220および入出力装置230に従って実施することができる。本明細書で使
用する用語「プロセッサ」は、たとえばCPU(中央処理装置)を含むものなど
、すべての処理装置を含むことが意図されていることを諒解されたい。本明細書
で使用する用語「メモリ」は、たとえばRAM、ROM、固定メモリ装置(たと
えばハード・ドライブ)、取外し可能メモリ装置(たとえばディスケット)、フ
ラッシュ・メモリなど、プロセッサまたはCPUに関連するメモリを含むことが
意図されている。さらに、本明細書で使用する用語「入出力装置」は、たとえば
キーボードなどの、照会を行うか処理装置にデータを入力するための1つまたは
複数の入力装置と、たとえばCRT表示装置またはプリンタなどの、照会結果ま
たは処理装置に関連する他の結果を提示するための1つまたは複数の出力装置と
を含むことが意図されている。また、用語「プロセッサ」が複数の処理装置を指
す場合があり、処理装置に関連するさまざまな要素が、他の処理装置によって共
用される場合があることを理解されたい。したがって、本明細書で説明する、本
発明の方法論を実行するための命令またはコードを含むソフトウェア構成要素は
、関連するメモリ装置(たとえばROM、固定メモリまたは取外し可能メモリ)
のうちの1つまたは複数に格納することができ、利用の準備ができた時に、部分
的にまたは全体を(たとえばRAMに)ロードでき、CPUによって実行できる
【0023】 図3は、本発明の配列相同性検出システムのネットワークベースの実施形態の
ブロック図である。図からわかるように、クライアント・コンピュータ・システ
ム310は、たとえばインターネットなどのネットワーク330を介して、サー
バ・コンピュータ・システム320と通信している。しかし、このネットワーク
は、私有ネットワークまたはローカル・ネットワークとすることもできる。図3
の実施形態によれば、図1に示されたシステム100の要素のすべてまたは一部
が、サーバ320に常駐し、サーバ330によって実行される。たとえばパーソ
ナル・コンピュータ、ラップトップ機または他の種類のパーソナル処理装置など
の自分のクライアント・コンピュータ・システムでリモートに操作するユーザは
、たとえばウェブ・ブラウジング・ソフトウェアまたは探索エンジンに関連する
グラフィカル・ユーザ・インターフェースなど、そのコンピュータ・システム上
で走行するアプリケーション・ソフトウェアを介して照会配列を入力する。この
照会は、ネットワーク330を介して通常の形で渡され、サーバ320によって
処理される。サーバ320は、照会を受け取り、格納されたパターン辞書に従っ
て、本発明の探索エンジン方法論を実行する。辞書は、ソース・データベースに
従って、本発明の辞書形成モジュールによって形成しておくことができる。サー
バは、照会結果(たとえばデータベースからの相同配列)の一部またはすべてを
、ネットワークを介してクライアントに返す。サーバは、複数のコンピュータ・
システムを表す場合があることを理解されたい。すなわち、図1の要素のうちの
1つまたは複数が、たとえば独自のプロセッサ、メモリおよび入出力装置を有す
る、独自のコンピュータ・システムに常駐し、それによって実行される場合があ
る。
【0024】 本発明の配列相同性検出システムおよびさまざまな例のハードウェア実施形態
の要素の全般的な説明を示したので、これから、さまざまな発明的方法論を詳細
に説明する。
【0025】 探索エンジン・モジュール110および辞書形成モジュール130に関連する
めいめいの方法論を、下で、配列相同性検出システム100に関連する例の実施
形態において、一緒に説明する。しかし、探索エンジン・モジュールに関連する
発明的方法論は、他の既知のパターン辞書と共に使用することができることを理
解されたい。同様に、辞書形成モジュールに関連する発明的方法論は、他の既知
の探索エンジンと共に使用するためのパターン辞書作成に使用することができる
【0026】 参照を容易にするために、残りの詳細な説明は、(I)定義、(II)探索エ
ンジン、(III)辞書形成および(IV)実験結果の4節に分割する。
【0027】 I.定義 この節では、以下で本発明のさまざまな態様の説明に使用される表記の一部を
示す。
【0028】 Σは、配列構成に使用される文字の集合を指す。生物学的設定(本明細書で好
ましく対処される設定)では、扱われる配列は、タンパクであり、集合Σは、2
0個のアミノ酸の集合である。用語「プロテイン」および「配列」は、以下では
交換可能に使用され、用語「文字」および「アミノ酸」についても同様である。
【0029】 Dは、パターンの集合(パターン辞書またはバイオ辞書)がそれに基づいて作
成される、基礎となるタンパクのデータベースを指す。この説明全体を通じて使
用される例のデータベースは、次の通りである(3つの配列が含まれる)。 D={s1、s2、s3}、ここで s1=ARQSTLUMNPQ s2=FDSALQFTGMRA s3=RKMFPQDDSLA
【0030】 Πは、パターンの集合すなわち、本明細書でバイオ辞書またはパターン辞書1
20と称するものを指す。Πを得る正確な方法は、下の、「辞書形成」と題した
節で説明する。パターンは、ペプチドのファミリを記述した正規表現である。単
一のパターンによって表現されるポリペプチド・ファミリには、関連する(構造
的、機能的、進化的に)アミノ酸の伸展が含まれると期待される。具体的に言う
と、アミノ酸のアルファベットΣに対して、Πに含まれるパターンPを、次の形
の正規表現として定義する。 Σ(Σ∪{'.'})×Σ ここで、'.'(「ドント・ケア文字」と称する)は、任意の残留物が占めること
のできる位置を表す。正規表現であるから、すべてのパターンPが、ドント・ケ
ア文字のそれぞれをΣからの任意の残留物によって置換することによってPから
得ることのできるすべての列からなるポリペプチドの言語を定義する。また、Π
に含まれるPのそれぞれが、Dに含まれる少なくともKmin個の配列と一致する
。Kminは、整数であり、その計算は、下の「辞書形成」の節で説明する。下の
説明では、特定の値を仮定する。データベース配列の、パターンPに一致する領
域が、パターンPのオフセット・リストLD(P)に記録される。これは、パタ
ーンPがデータベースのj番目の配列のオフセットkで一致するすべての対(j
、k)を含むリストである。
【0031】 上で導入した例のデータベースについて、Kmin=2と仮定すると、パターン
の集合は、P={A.Q.T、M.PQ}である。この集合の2つのパターンは
、次の入力配列に現れる(一致する位置を太字で示す)。
【表1】
【0032】 この2つのパターンのオフセット・リストは次のようになる。 LD(A.Q.T)={(1,1),(2,4)} LD(M.PQ)={(1,8),(3、3)}
【0033】 それぞれの小括弧内の最初の項が、配列番号であり、第2項が、オフセットで
あることを諒解されたい。配列内のいずれかの文字に対応するオフセットは、配
列の先頭からのその文字の距離である。たとえば、(2、4)は、配列がs2
あり、パターンA.Q.Tが、配列s2の先頭から4文字の距離から始まること
を示す。
【0034】 Qは、照会タンパクを指す。本発明の探索エンジンの目的は、Dのデータベー
ス配列と、ユーザが供給することのできる照会配列Qとの間の配列相同性を識別
することである。1例として、照会Q=JLANQFTLMDPQDLAを使用
する。この配列は、データベース配列との複数の相同領域を有する。下に、その
一部を示す(やはり、類似領域の対を太字で示す)。
【表2】
【0035】 したがって、探索エンジンは、上で示したものなどの類似性を識別する。等し
い長さの2つの領域が類似するのは、一方を他方の下に置いた時に、複数の一致
する文字がそろう場合である。類似性の正確な概念は、以下で正確に示すが、こ
こでは、可能な文字のすべての対のスコアが使用されると述べれば十分である。
そのようなスコアのすべてが、適応度の尺度であり、2つの文字がそろうことの
生物学的な確率がどの程度であるかが識別される。
【0036】 パターンPに対して、Pの「バックボーン」は、Pのすべての残留物を文字「
1」で置換し、すべてのドント・ケア文字を文字「0」で置換することによって
Pから得られるアルファベット{1、0}上の文字列として定義される。たとえ
ば、パターンP=「A..DFE」のバックボーンは、文字列「100111」
である。バックボーンによって、パターンの集合が、同一のバックボーンを共用
するすべてのパターンが各クラスに含まれる同等のクラスに区分される。
【0037】 本発明に従って使用することのできるもう1つの概念が、パターンの「密度」
である。一般に、密度は、G(P)の2つの要素の間の相同性の最小量を表し(
G(P)は、ドント・ケア文字のそれぞれをΣからの任意の残留物によって置換
することによってPから得ることのできるすべての文字列からなるポリペプチド
の言語を指す)、2つの整数LおよびW(L≦W)によって定義される。パター
ンPは、アミノ酸で始まり、アミノ酸で終わり、少なくともWの長さを有するP
の部分列のすべてにL個以上の残留物が含まれる場合に、<L、W>の密度を有
する。そのようなパターンのすべてにおいて、パターンの長さに対する残留物の
数の比率は、少なくともL/Wである。整数LおよびWは、本発明の好ましい方
法のパラメータであり、その値によって、実行される探索で許容される類似性の
量が制御される。これらのパラメータは、参照によってその開示を本明細書に組
み込まれる米国特許出願第60/049461号明細書に対する優先権を請求さ
れている、「TEIRESIAS」アルゴリズムに対処する米国特許出願第09
/023756号明細書に詳細に記載されている。定義により、<L、W>パタ
ーンは、少なくともL個の残留物を有することに留意されたい。
【0038】 さらに、パターンPと配列Sに対して、G(P)に属するSの部分列を、Pの
整合部位と呼ぶ。Pのオフセット・リストには、Pのすべての整合部位の最初の
文字のオフセットが含まれる。
【0039】 上の定義を仮定すれば、たとえばシステム100(図1)に関連する、本発明
による改良された配列相同性検出に対する好ましい手法の一般的な説明を提供す
ることができる。配列相同性検出には、2つの別個の相すなわち、情報収集と探
索が含まれる。
【0040】 まず、探索を実行する前に、基礎となるデータベースDをマイニングする。こ
のマイニング手順を、情報収集または辞書形成とも称する。このステップの間に
、有意の<L、W>パターンのすべてが収集され、そのようなパターンPのそれ
ぞれが、そのオフセット・リストLD(P)に関連付けられる(パターンが有意
であるか否かを判断するのに使用される特定の判断基準は、探索エンジンの節で
詳細に説明する)。
【0041】 第2ステップは、実際の探索である。照会配列Qに対して、Qに一致するすべ
てのパターンP(この処理の第1相で収集されたものの中から)を識別する。そ
のようなPのすべてについて、Pと一致するQの領域を、やはりPと一致するす
べてのデータベース配列の対応する領域と対にする(これらの領域は、オフセッ
ト・リストLD(P)を介して簡単にアクセスできる)。最後に、対にされた領
域を、両方向に拡張し、位置合せし、(ユーザ定義の)変異行列の使用によって
スコアを付け、最も高いスコアを有する一致を、暗示される位置合せと共に報告
する。
【0042】 ここで、情報収集相が、Dに対する1回の計算であることを指摘する価値があ
る。得られる結果は、ファイル(図1のパターン辞書120)に格納され、デー
タベースDに対する探索セッションが実行されるたびに使用される。
【0043】 関連するポリペプチドの記述にパターンを使用することの背後にある動機は、
生物学的事実にある。具体的に言うと、タンパクがそれらから作られる基本構成
要素である多数の基本的要素(α螺旋、β鎖、ループなどの構造的性質であるか
、モチーフ、モジュール、領域などのより大きい機能的単位のいずれか)が存在
することが既知である。種の区別のために進化論によって使用される主要な機構
の1つが、タンパク配列内のアミノ酸の位置の変異である。しかし、機能的また
は構造的に重要な領域は、そのような変異に対してより強く抵抗する。したがっ
て、そのような生物学的に関連するポリペプチドを、(a)主構造での保存され
た位置と、(b)再利用性の度合の高さとを発見することによって同定できると
期待することが合理的である。本明細書の用語法では、これらの特性は、予期さ
れない高さのサポートを有するパターンに対応する。
【0044】 しかし、重要なことなので繰り返すが、本明細書に記載の発明的探索エンジン
方法論を、他の既知のパターン辞書と共に使用することができる。同様に、発明
的辞書形成方法論を使用して、他の既知の探索エンジンと共に使用されるパター
ン辞書を作成することができる。
【0045】 この両方の方法論を、それぞれ下の節IIおよび節IIIで説明することを諒
解されたい。辞書形成方法は、探索方法の前に適用されるが、説明を簡単にする
ために、この処理を逆の順序で説明し、探索エンジン方法から始めて、辞書形成
方法を後に回す。
【0046】 II.探索エンジン ここで図4を参照すると、本発明の1実施例による、探索エンジン方法論を示
す高水準流れ図が示されている。この方法論は、図1の探索エンジン110によ
って使用することができる。探索エンジンの動作は、2つの別個の相すなわち、
(i)パターン照合および連鎖(ブロック402)と、(ii)スコアリング(
ブロック406)に分解できる。
【0047】 第1相では、ΠのすべてのパターンP(Πが、上で述べたパターン辞書120
を指すことを想起されたい)を照会配列Qに対して検査して、Qと一致するすべ
てのパターンを分離する。下で、この「一致に関する検査」処理を実行する特定
のアルゴリズムを説明するが、どのような照合アルゴリズムでも使用することが
できる。図4の相1の「複雑性検査」(ブロック404)に留意されたい。場合
によっては、パターンPが照会Qと一致し、なおかつこの一致を考慮に入れるこ
とが望ましくないことがありえる。そのような例が、いわゆる「低複雑性」パタ
ーンである。そのようなパターンは、生物学的配列の性質に起因して時々生じる
。低複雑性パターンは、たとえばパターン「A.A..AAA.A.A」のよう
に、ほぼ完全に同一のアミノ酸だけから構成され、現れる。というのは、いくつ
かのタンパクが、反復するアミノ酸の長い領域を有するからである。しかし、そ
のようなパターンは、相同性検出の目的からは重要とみなされず、これらのパタ
ーンによって誘導される一致のすべてを無視することがよくなる可能性がある。
それを行うか否かの判断は、システム・ユーザに探索エンジン内の「複雑性検査
」構成要素を「オン」または「オフ」状態に設定させることによって、システム
・ユーザに委ねられる。ここでは、この構成要素が「オン」に設定されている場
合に、Pの一部のパターンが、照会配列Qに一致する場合であっても無視される
ことを覚えておけば十分である。下で、複雑性検査が「オン」の時にQに一致す
るパターンPが無視される正確な条件の説明を行う。
【0048】 相1の説明を続けると、Qに一致するすべてのパターンPによって、Qと、や
はりPに一致するデータベース領域のすべてとの間の局所相同性が生成される。
この後者の領域は、Pのオフセット・リストLD(P)を介して簡単にアクセス
可能である。PがオフセットiでQに一致すると仮定すると、LD(P)のすべ
ての領域(j、k)が、セグメント(i、j、k、l)を生じる。ここで、lは
パターンPの長さである。これを、下で詳細に説明する。最後に、照合処理が進
行するにつれて、互換性のあるセグメントが、互いに連鎖され、より長いセグメ
ントが形成される(互換性のあるセグメントの概念ならびに連鎖の動作は、下で
説明する)。相1の終りに、Πの少なくとも1つのパターンPと一致する、デー
タベースDのすべての配列を含む集合Rが残され、このPもQと一致する。Rに
含まれる配列Sのそれぞれには、QとSの間のパターンによって誘導された相同
性を記述したセグメントが付随する。
【0049】 上で導入した例を検討されたい。照会配列Q=JLANQFTLMDPQDL
Aは、ΠのパターンP1=「A.Q.T」およびP2=「M.PQ」の両方と一
致する。P1がオフセット3でQと一致し、P2がオフセット9でQと一致する
ので、これらの2つの一致は、次の4つのセグメントを生じる。 (3,1,1,5)(3,2,4,5) LD(P1)から (9,1,8,4)(9,3,3,4) LD(P2)から また、集合Rは、 R={s1−−(3,1,1,5)(9,1,8,4) s2−−(3,2,4,5) s3−−(9,3,3,4)} であり、Rの各配列siは、セグメントのリストを伴う。この特定の例では、可
能な連鎖がないことに留意されたい。
【0050】 図4に示された探索エンジン方法論の相の2番目では、Rのすべての配列Sに
スコアを割り当てる。所与のSjについてこのスコアを計算するための手法は複
数存在する。しかし、どの手法も、Sjに伴うすべてのセグメントのスコアリン
グから開始される。各セグメントは、スコアを受け取る(これらのスコアを「セ
グメント・スコア」と称する)。スコアリングは、変異行列Mに基づいて実行さ
れる。変異行列は、実数の20×20行列である。そのような行列の第(i、j
)項目は、i番目のアミノ酸が、進化中にj番目のアミノ酸に変化した確率を示
す。ここでの目的のためには、Mが、Σ×Σ→Rからの関数であり、入力として
2つのアミノ酸A1およびA2を与えられた時に、実数を返す関数であると仮定
すれば十分である。使用することのできる変異行列は多数存在するので、ユーザ
は、使用する特定の行列Mを選ぶ選択権を与えられる。
【0051】 たとえば、単項変異行列Mすなわち、すべてのアミノ酸Aに対してM(A、A
)=1であり、すべての別個のアミノ酸AおよびBに対してM(A、B)=0で
ある行列を使用すると仮定する。上の集合Rの最初の配列すなわち、セグメント
(3、1、1、5)および(9、1、8、4)を伴う配列s1を検討されたい。
これら2つのセグメントのうちの最初のセグメントのスコアリングの方法を示す
(もう一方および集合Rのすべてのセグメントは、同様にスコアリングされる)
。このセグメントによって暗示される長さ5の2つのタンパク領域すなわち、Q
のオフセット3とs1のオフセット1から始まる領域を位置合せした(一方を他
方の下に)と想像されたい。 ANQFTL (Qから) ARQSTL (s1から) その後、位置合せされたすべての列に対して、値M(X、Y)を合計することに
よって、セグメントのスコアが計算される。ここで、X、Yは、所与の列の下で
互いに位置合せされた2つのアミノ酸である。上のセグメントの場合、スコアは
次のようになる。 M(A,A)+M(N,R)+M(Q,Q)+M(F,S)+M(T,T)+M(L,L)
=1+0+1+0+1+1=4
【0052】 セグメントについて上で説明したスコアリング方式は、基本的なスコアリング
方式である。すなわち、システム・ユーザは、複数のオプションを設定して、セ
グメント・スコアを計算する方法を変更することができる。たとえば、システム
・パラメータextend(整数であり、下で説明する)に0より大きい値がセットさ
れている場合には、スコアリングで、セグメントによって記述されるタンパク領
域だけではなく、2つの領域の左右のextend個のアミノ酸の区域も考慮される(
スコアリングは正確に上で説明した通りに進行するが、より長い領域が検討され
る)。さらに、gapped_alignmentオプションがセットされている場合には、拡張
領域(すなわち、基本セグメントの左右の領域)の位置合せで、位置合せスコア
を最大にするためにギャップも使用する。
【0053】 上の処理の終りに(どのスコアリング変形形態を使用するかに無関係に)、セ
グメント・スコアが、集合Rのすべてのセグメントについて計算されていること
になる。これらのセグメント・スコアは、その後、スコアリング相の最終ステッ
プすなわち、QとRのすべての配列Sjとの間の類似性の量の定量化に使用され
る。この定量化は、RのすべてのSjにスコアを割り当てることによって実行さ
れる。このスコアを、Sの「配列スコア」と呼ぶ(セグメント・スコアと区別す
るために)。理想的には、配列Sjの配列スコアが高いほど、このSjがQに類似
するはずである。
【0054】 Sjのスコアリングでは、Sjに伴うセグメントのセグメント・スコアだけを考
慮した。ここでもいくつかのオプションがある。最も単純な場合には、Sjの配
列スコアは、Sjのセグメントの全セグメント・スコアの間の最大値として定義
される。第2の、より複雑な手法を下で説明する。ここでは、まず、スコアリン
グされる配列Sjについて、有向グラフを作成する。このグラフの頂点は、Sj
伴う全セグメントである。すべての頂点に、その頂点に対応するセグメントのセ
グメント・スコアを割り当てる。セグメント(i、j、k、l)からセグメント
(i'、j、k'、l')への辺は、 i≦i' かつ k≦k' すなわち、2つのセグメントによって記述される2つの照会領域(領域Q[i.
.i+l−1]とQ[i'..i'+l'−1])の相対順序が、2つのセグメン
トによって記述されるSjの2つの領域(領域Sj[k..k+l−1]とSj
k'..k'+l'−1])の相対順序と同一である場合に配置される。頂点と同
様に、すべての辺にも、照会内の領域の変位(すなわち差i'−i)がSj上の領
域の変位(すなわち差k'−k)に対して相対的にどの程度規則的であるかを表
すスコアが割り当てられる。変位の間の差(すなわち数|(i'−i)−(k'−
k)|)が大きいほど、辺のスコアは小さくなる。グラフを作成した後に、標準
的な最長経路アルゴリズムを適用して、最高のスコアを有する経路を識別するこ
とができる(経路のスコアは、その経路に含まれるすべての頂点および辺のスコ
アの合計として定義される)。このスコアが、Sjの配列スコアになる。
【0055】 上では、セグメント・スコアと配列スコアの両方を計算する複数の方法を説明
した。一般に、他の「生物学的に合理的な」スコアリング方式を、その代わりに
使用することができる。
【0056】 ここで図5、6および7を参照して、探索エンジン方法論400のパターン照
合処理、連鎖処理およびスコアリング処理のより具体的な例を説明する。やはり
、探索エンジン110によって実施される探索相中に、照会タンパクQが、シス
テムに供給され、Qに類似するデータベース配列S∈Dが、識別され、ユーザに
報告される。この探索相では、入力データベースDのマイニングによって得られ
たパターンの集合Πを利用する。この例の目的のためには、Πが、上の「定義」
の節で説明した形の<L、W>パターンの集合であると仮定すれば十分である。
各パターンP∈Πは、そのオフセット・リストLD(P)が付随し、D内で少な
くともKminのサポートを有する。数L、WおよびKminは、本発明の好ましい方
法のパラメータであり、これらを設定する方法は、下の「辞書形成」の節で説明
する。
【0057】 照会配列Qがシステムに供給された時に最初に行うべきことは、Qと一致する
すべてのP∈Πを突きとめることである。これは、D. Gusfield著、「Algorithm
s on strings, trees and sequences: Computer Science and Computational Bi
ology」、Cambridge University Press刊、62-63、1997年に提示された技法のハ
ッシュ変形形態を使用することによって非常に高速に行うことができる。具体的
に言うと、Q内のすべての位置について、その位置から始まる長さ2、3、…、
(W+1)の部分列のすべてについて1つのW個のハッシュ値を生成する。その
ような部分列のすべてについて、対応するハッシュ値は、部分列の最初の文字と
最後の文字ならびにこれら2つの文字の間の残留物の数だけに依存する。
【0058】 図5に、所与の照会配列に対する処理の例を示す。この例では、配列Qの位置
6から始まるW=4部分列について生成されたハッシュ値が示されている。部分
列sのハッシュ値は、 H(s)=((av(first_char)-av('A'))+(av(last_char)-av('A'))*26)*W+gap である。ここで、av(c)は、文字cのASCII値、first_charは、sの最
初の文字、last_charは、sの最後の文字、gapは、sの最初の文字と最後の文字
の間の残留物の数である。<L、W>密度制約があるので、gapが必ずWより小
さいことに留意されたい。
【0059】 特定の値hに対応するハッシュ項目には、pから始まる部分列(長さが多くと
もW+1の)が値hにハッシュされる、照会配列Qのオフセットpのすべてが格
納される。図6に、特定の照会配列について生成されたハッシュ・テーブルの例
を示す。図6には、配列Q=AFGHIKLPNMKAMGHについて生成され
たハッシュ・テーブルのスナップショットが示されている。テーブル項目にラベ
ルを付けるために実際の数値のハッシュ値を使用する代わりに、特定のハッシュ
値にハッシュ化されるすべての文字列を記述するパターンを使用する。各ハッシ
ュ項目は、オフセットのリストをポイントする。そのリストのすべてのオフセッ
トが、関連するハッシュ項目にハッシュ化されるQの部分列の先頭をマークして
いる。
【0060】 パターンP∈ΠがQに一致するかどうかを検査するために、Qの長さに等しい
サイズのカウンタの配列C[1..|Q|]を使用する。当初は、この配列のす
べての要素に0をセットする。Pのオフセット1から始めて、最後の残留物に対
応するオフセットを除いて、残留物に対応するP内のすべてのオフセットjを突
きとめる。そのようなjのすべてについて、Fが、jから始まり、正確に2つの
残留物を含むPの最短の部分列であるものとする。OLが、Fに対応するハッシ
ュ・テーブル項目によってポイントされるQのオフセットのリストを表すものと
する。OLが空でない場合には、すべてのオフセットp∈OLについて、カウン
タC[p−j+1]を1つ増分する。パターンPに、正確にn個の残留物が含ま
れる場合には、この処理の最後に、QがオフセットiでPと一致する場合に限っ
て、カウンタC[i]が値(n−1)を有する。上で説明した照合技法の長所は
、この技法に必要な時間が、通常は、照会配列Qのサイズに対してほぼ線形であ
り、パターンP内の残留物の個数だけに依存することである。
【0061】 Qのオフセットiから始まる部分列に一致するパターンP∈Πが見つかった後
に、Qのその部分列を、やはりPと一致するすべてのデータベース領域と関連さ
せる必要がある。これは、これらの領域を正確に含むオフセット・リストLD
P)を操作することによって簡単に行われる。具体的に言うと、各項目(j、k
)∈LD(P)は、j番目のデータベース配列Sjのオフセットkから始まる部分
列がG(P)の要素であることを示す。その後、照会配列Qとデーターベース配
列Sjの間の局所類似性が、セグメントと称する4つ組(i、j、k、l)とし
て登録され、この4つ組がSjに関連付けられる。数l=|P|は、局所類似性
の長さである。
【0062】 時には、両方ともQと一致する2つの別個のパターンPおよびP'とデータベ
ース配列Sjが、QとSjの間の同一の局所類似性に対応する。そのような状況の
例を、図7に示す。そのような場合には、2つのパターンに対応する個々のセグ
メントを、1つに連鎖しなければならない。具体的に言うと、Sjに関連する2
つのセグメント(i、j、k、l)および(i'、j、k'、l')は、 k≦k' かつ k+l+w_len>k' かつ k'−k=i'−i である場合に限って、互換性があるといわれる。ここで、w_lenは、ユーザによ
って定義される整数パラメータであり、w_lenによって、一方のセグメントが他
方の末尾の後、w_len位置を超えない位置から始まる限り、交差しないセグメン
トの連鎖が可能になる。(i、j、k、l)と(i'、j、k'、l')を互いに
連鎖することから生じるセグメントは次の通りである。 (i,j,k,max(l,k'−k+l'))
【0063】 互換性のあるセグメントの連鎖は、QとSjの両方に一致するパターンP∈Π
を突きとめた結果として、新しいセグメントがデータベース配列Sjに関連付け
られるたびに行われる。新たに到着したセグメントと互換性を有する、すでにS j に関連するセグメントがある場合には、新しいセグメントと既存セグメントの
関連する対が、破棄され、その連鎖の結果によって置換される。
【0064】 Qとデータベース配列の間の局所類似性のすべてを識別し終えたところで、こ
れらの類似性を評価する作業が残されている。これは、少なくとも1つのセグメ
ントに関連するデータベース配列Sjのすべてにスコアを割り当てる(ユーザ定
義のスコアリング行列を使用して)ことによって行われる。スコアリング機能に
ついて、複数のオプションが使用可能である。当業者は、本明細書に記載の発明
的教示を与えられれば、他のスコアリング方法を理解するであろう。
【0065】 上で述べたように、1つの手法は、Sjの各セグメントを個別にスコアリング
し、それらのスコアのうちの最高のものをSjに割り当てることである。セグメ
ント(i、j、k、l)のスコアリングは、次の2つのいずれかの形で行うこと
ができる。
【0066】 「ギャップを許容しない」:この場合、スコアは、セグメントによって暗示さ
れるギャップのない位置合せすなわち、照会の領域Q[i、i+l−1]と配列
の領域Sj[k、k+l−1]の位置合せから計算される。さらに、ユーザは、
変数extendをセットすることによって、セグメントの「前後」に位置合せを拡張
するオプションを与えられる。この変数の値が0より大きい場合には、スコアは
、領域Q[i−extend、i+l−1+extend]およびSj[k−extend、k+l
−1+extend]のギャップのない位置合せから計算される。
【0067】 「ギャップを許容する」:このオプションは、extend>0である時に限って使
用可能であり、位置合せの領域内のギャップを許容することによって、セグメン
トの前後の区域のより微細なスコアリングを可能にする。
【0068】 上で述べたように、現在スコアリング中のデータベース配列Sjに関連するセ
グメントの相対順序を考慮に入れる、他のスコアリング・オプションも提供され
る。上で述べたように各セグメントを個別にスコアリングした後の手法の1つが
、図8に示された重みつき有向グラフを作成することである。このグラフの頂点
Vは、Sjに関連するセグメントであり、セグメント(i、j、k、l)と(i'
、j、k'、l')の間には、 i≦i' かつ k≦k' の場合に有向線分が存在する。すべての頂点に、対応するセグメントのスコアと
等しい重みが割り当てられ、すべての辺Eは、(a)2つのセグメントの近さす
なわち(i'−i−1)の値と、(b)2つのセグメントの間の変位の規則正し
さすなわち、(i'−i)が(k'−k)とどれだけ違うかに基づいて重みが付け
られる。このグラフ内の経路のスコアは、その経路の頂点と辺のすべての重みの
合計である。その後、最大のスコアを有する経路が計算され、そのスコアがSj
に割り当てられる。
【0069】 ここで図9および10を参照すると、それぞれの流れ図に、本発明の探索エン
ジン・モジュールによって実行される2つの相の実施形態が要約して示されてい
る。図9は、照合および連鎖相の実施形態900を示し、図10は、スコアリン
グ相の実施形態1000を示す。
【0070】 図9では、データベースDのすべての配列Sjが、関連するセグメント・リス
トSegL(Sj)を有すると仮定する。当初、これらのリストは、すべてが空
である。集合Rも、当初は空である。図9の流れ図によって説明される計算が進
行するにつれて、配列SjがRに加えられる。そのような配列がRに挿入される
際に、その配列にセグメント・リストSegL(Sj)が伴う。
【0071】 したがって、ΠのすべてのパターンPについて(ブロック902)、探索エン
ジンは、以下の動作を実行する。ステップ904で、探索エンジンは、PがQと
一致するかどうかを判定する。そうでない場合には、辞書の次のPに移る。そう
である場合には、ステップ906で、探索エンジンは、複雑性検査構成要素がユ
ーザによって使用可能にされたかどうかを判定する。それが使用可能にされてい
る場合には、ステップ908で、エンジンは、Qに対するPの一致が低複雑性一
致(後で詳細に説明する)であるかどうかを判定する。そうである場合には、エ
ンジンは、辞書の次のPに移る。そうでない場合には、PがQに一致するすべて
のオフセットiについて(ブロック910)、また、LD(P)のすべての(j
、k)について(ブロック912)、エンジンは以下の動作を実行する。ステッ
プ914で、エンジンは、セグメント(i、j、k、|P|)を、SegL(S j )のすべての互換性のあるセグメントと連鎖する。その後、エンジンは、結果
をSegL(Sj)に追加する。
【0072】 ステップ916で、エンジンは、SjがRに含まれるかどうかを判定する。そ
うである場合には、エンジンはステップ914に戻る。そうでない場合には、エ
ンジンは、SjとSegL(Sj)をRに追加する。PがQに一致するすべてのオ
フセットiについて、また、LD(P)のすべての(j、k)について、ステッ
プ914ないし916を実行する。処理全体(ステップ904ないし916)が
、パターン辞書のすべてのPについて反復される。
【0073】 照合と連鎖を実行したので、検索エンジンは、図10のスコアリング動作を実
行する。したがって、Rのすべての配列Sjについて(ブロック1002)、ま
た、Sjのすべてのセグメントsについて(ブロック1004)、エンジンは、
ステップ1006でsのセグメント・スコアを計算する。その後、Rのすべての
配列Sjについて(ブロック1008)、エンジンは、ステップ1010でSj
配列スコアを計算する。最後に、ステップ1012で、エンジンは、Rに含まれ
るSjの最高のスコアを、めいめいの配列スコアによって暗示される局所位置合
せと共に報告する。
【0074】 もう一度図4を参照すると、前に述べたように、探索エンジン・モジュール1
10には、複雑性検査構成要素(たとえば図9のステップ906)を含めること
ができる。複雑性検査構成要素は、低複雑性領域が原因で生成される局所相同性
を破棄する責任を負う。まず、低複雑性検査は、2つの相すなわち、辞書作成相
(「辞書形成」の節)の間ならびに探索相(この節)の両方で発生する。
【0075】 辞書作成相の間に、低複雑性領域は、2つの形で扱われる。まず、入力データ
ベースでパターンを探す時に、同一のアミノ酸のL回以上の連続する出現からな
るタンパク領域のすべてを無視(すなわち入力から除去)する(Lは、辞書作成
相の間に設定される整数のパラメータである。ここでの目的のためには、Lがな
んらかの固定された値を有すると仮定すれば十分である)。これは、下の太字で
示されたものなどの低複雑性領域を処理する(ピリオドは、示された文字列の左
右にアミノ酸があることを示す)。
【表3】 しかし、これは、低複雑性領域の1例にすぎない。さらに多くのケースが存在す
る。たとえば、次の領域の太字部分を検討されたい。
【表4】 この種の(すなわち、一般化された反復組成の)領域を処理するために、所与の
パターンPのオーバーラップする外見もすべて無視する。言い換えると、パター
ンPが、データベース配列Sjにオフセットk1およびk2で一致し(ここで、k2 >k1)、k2−k1がPの長さより小さい場合には、どちらのオフセットも、パ
ターンPのオフセット・リストLD(P)には配置されない。たとえば、上に示
した領域では、6の長さを有するパターン「P.P.PA」は、他の位置にもあ
るが、オフセット12および14すなわち、14ー12=2で2<6なのでオー
バーラップする位置に現れる。
【0076】 探索エンジン相の間に、低複雑性相同性を捕捉し、破棄する方法が2つある。
第1は、上で示した例の一般化である。手短に言うと、「言語的に豊か」でない
、すなわち、1つの特定のアミノ酸の多数の表現を示すすべてのパターンを破棄
したい。その目的のために、ユーザが、パラメータV(0と1の間の実数)の値
をセットできるようにする。照会配列Qに一致するパターンPは、Pの変異性v
(P)が値Vを超えない場合に限ってさらに検討される。具体的に言うと、パタ
ーンPのそれぞれについて、その変異性v(P)を次の形で定義する。
【数1】 上で述べた変異性テストに合格した後であっても、第2レベルの検査が続く。こ
の第2レベルは、低複雑性のより捉えにくい概念を捕捉することが目的である。
その動作方法を理解するために、次の例を検討されたい。照会タンパクQが、次
の単純な文字列であると仮定する。 Q=FRGDSAAABBBBAABBSJIEKL また、パターンP=「A...B..AB」であると仮定する。このパターンは
、下に示すように、オフセット7で照会と一致する。
【表5】 一致とその直前および直後の領域は、低複雑性領域である(「A」と「B」だけ
からなる)。しかし、パターンPは、0.5の変異性を有する。この文字の低複
雑性領域を扱うために、ユーザが、整数marginおよびmin_m(min_m≦
2×margin)ならびに比率percを定義できるようにする。その後、実際の整
合部位(ここでは照会のオフセット7)の左側margin文字と右側margin文字で、
検討中のパターン(ここではパターン「A...B..AB」)の近似的な一致
を検査する。パターンPが照会の所与のオフセットで近似的に一致するのは、そ
のオフセットに配置された時に、パターンの通常文字の少なくともperc%が
、下にある照会の文字と一致する場合である。たとえば、perc=75%の場
合、パターン「A...B..AB」は、下からわかるように、オフセット6お
よび8でQに近似的に一致する。
【表6】 というのは、これらのオフセットのそれぞれで、パターンの通常文字の75%(
すなわち、4文字のうちの3文字)が、対応する照会文字と一致するからである
。パラメータmargin、min_mおよびpercを定義したことによって、この
レベルの検査中に、照会とデータベース領域の間のパターンによって誘導された
局所相同性が、低複雑性と見なされる時を言う準備ができた。パターンPが、照
会QにオフセットXで一致し、データベース配列SにオフセットYで一致すると
想定されたい。この一致は、(i)パターンが、Xの左右2×margin文字のうち
の少なくともmin_m文字で近似的に照会Qと一致するか、(ii)パターン
が、Yの左右2×margin文字のうちの少なくともmin_m文字で近似的に配列
Sと一致する、のいずれかが真である場合に、低複雑性であるとみなされる。
【0077】 III.辞書形成 前に述べたように、好ましい実施例では、探索エンジンがユーザから照会配列
を受け取る前に、辞書形成方法論が実行される。これは、もう一度図1を参照す
ると、探索エンジン・モジュール110が、辞書形成モジュール130によって
形成されたパターン辞書120を利用することが好ましいからである。辞書形成
モジュール130は、下で説明する発明的データベース処理方法論を実施して、
パターン辞書(またはバイオ辞書)を形成する。しかし、やはり前に述べたよう
に、パターン辞書120を、本明細書に記載のもの以外の探索エンジンが使用す
ることができる。すなわち、既存の探索エンジンが、本発明に従ってソース・デ
ータベースからマイニングされたパターンを利用することができる。それにもか
かわらず、好ましい実施例によれば、本明細書に記載の発明的方法論に従って形
成されたパターン辞書が、やはり本明細書に記載の発明的探索エンジンによって
使用されることが仮定される。
【0078】 辞書形成相(情報収集相とも称する)の間に、検討中のデータベースDで見つ
かった有意な<L、W>パターンのすべての集合Πが決定される。それは、本質
的に、本発明を用いてDを探索してDの配列の中の隠された関係を発見するデー
タ・マイニング手順である。要点は、予想されないと考えられる関係に焦点を合
わせることであり、その質のおかげで、それらの関係はおそらくは生物学的に適
切でもある。本発明の目的のために、パターンの有意性を、D内でのサポートに
よって記述する。具体的に言うと、少なくともKminのサポートを有するすべて
のパターンが統計的に重要であることを示すことができる、数Kmin(最少サポ
ート)の定義を探す。そのようなパターンのすべて(最少サポート要件を守らな
い少数の例外と共に)は、集合Πすなわち探索相への入力に含まれる。
【0079】 Kminの概念が、まず「定義」の節で導入されたことを想起されたい。「密度
」の概念も導入された。密度は、G(P)の2つの要素の間の相同性の最小量を
記述し(G(P)は、ドント・ケア文字のそれぞれをΣからの任意の残留物によ
って置換することによってPから得ることのできるすべての文字列からなるポリ
ペプチドの言語を指す)、2つの整数LおよびW(L≦W)によって定義される
ことを想起されたい。パターンPが<L、W>の密度を有するのは、あるアミノ
酸で始まり、終わり、少なくともWの長さを有するPのすべての部分列に、L個
以上の残留物が含まれる場合である。やはり、これらのパラメータは、「TEI
RESIAS」アルゴリズムを対象とする、上で組み込まれた米国特許出願第0
9/023756号明細書に記載されている。
【0080】 本発明の好ましい方法論では、パターン辞書Πの形成にパラメータLおよびW
を使用するが、配列のグループの2つの要素の間の相同性の最小量を判定するた
めの他の既知の技法を使用することができることを諒解されたい。
【0081】 パラメータL、WおよびKminの値の設定には、複数の、時には衝突する、相
互に連結された要因の検討が含まれる。たとえば、比L/Wによって、探索相の
間に、照会配列とDのタンパクの間で許容される相同性の量が記述される。L/
Wが小さいと、弱い類似性の検出が可能になる。複数の値の対(L、W)が同一
の比L/Wにつながるので、LとWの正確な設定はどうすべきか? 大きい値の
Lの選択は、通常は、情報収集相の長い実行時間をもたらす(L/Wが1に近い
場合を除いて)。さらに、大きいLを選択すると、対象のアミノ酸のうちの少数
のアミノ酸だけを有する(すなわち、通常は既存の類似性探索ツールによって見
落とされる)弱いパターンが無視される。その一方で、あまりに小さいLを選択
すると(たとえば2または3)、その場合には、入力データベースDの、L+i
個の残留物(小さいiの場合)を有する<L、W>パターンの分布が、Dのアミ
ノ酸組成を有するランダム・データベースの対応する分布との有意な差を有しな
くなるので、有用ではない。ほとんどの一般的な場合には、値L、WおよびKmi n は、完全に任意に選択することができることを諒解されたい。しかし、発見さ
れるパターンが、統計的雑音のレベルより十分に上であることを実質的に保証す
るために、統計的枠組みを用いるパターン発見処理(すなわち、上で述べたパラ
メータを設定する方法)を説明する。
【0082】 上の点をより明瞭にするために、図11ないし14を検討されたい。図11な
いし14は、SwissProt Rel.34またはSP34として既知のテスト・データベー
ス(A. BairochおよびR. Apweiler著、「The SWISS-PROT protein sequence dat
a bank and its supplement TrEMBL in 1998」、Nucleic Acids Res.、26:38-42
、1998年を参照されたい)のパターンの分布と、対応するランダム分布を比較し
た図である。図11ないし14には、SP34の所与のバックボーン構造を有す
るパターンの分布(この分布は「o」記号によって示される)と、同一のバック
ボーンのランダム分布(この分布は「+」記号によって示される)との比較が示
されている。バックボーンの概念が、まず上の「定義」の節で導入されたことを
想起されたい。曲線上の点(X、Y)は、正確にY個のパターン(所与のバック
ボーン構造の)があり、これらのパターンのそれぞれが、サポートXを有する、
すなわち、正確にX個の別個のデータベース配列に一致することを示す。ここに
示した結果は、SP34の「クリーンアップ」された版(データベースのクリー
ン・アップは下で説明する)を使用して得られた。SwissProtについて、正確に
L個の残留物を有する各<L、W>パターンのサポートを計算した(図11ない
し14に示されたL、Wの値について)。その後、結果を表にし、可能なバック
ボーンのそれぞれについて1行を作成した。所与のバックボーンBに対応する行
の第i列は、SwissProt内でサポートiを有する(バックボーン構造の)パター
ンの数を示す。ランダム分布は、N=2000のランダムにシャッフルされた版
のSwissProtについて正確に同一の手法に従うことによって得られた(図16に
、シャッフルされた版のそれぞれを得るのに用いたシャッフル処理が記載されて
いる)。この場合、所与のバックボーンBの行は、2000個の表のすべてのB
に対応する行の平均をとることによって得られた。その結果、第i列は、SwissP
rotの残留物組成を有するランダム・データ・ベース内の正確にi個の配列に現
れるバックボーンB内のパターンの平均数の十分に正確な推定値を与える。図1
1ないし14では、選択されたバックボーンのSwissProt結果を、同一のバック
ボーンの平均値の分布に対してプロットした。提示される結果には特定のバック
ボーンが用いられているが、他のバックボーンを使用した場合の質的な変化はな
い。
【0083】 2000個のサンプリング・ポイント(入力データベースのランダムにシャッ
フルされた版)を使用することに留意されたい。これは、例示のみの目的である
。サンプリング・ポイントの実際の数は、一般原則として、任意に設定すること
ができる。一般に、そのようなポイントの数が増えるにつれて、得られる推定値
が、その真の値により正確に集束する。計算される推定値の所望の信頼性レベル
を与えられれば、標準的な統計理論を使用して、使用するサンプリング・ポイン
トの数を決定することができる。
【0084】 図11ないし14からわかるように、まず、Lが5以上になる時に限って、Sw
issProtの組成バイアス(パターンに関する)をランダム・データベースに対し
て区別する。一般に、Lの値は、基礎となるデータベースDのサイズに依存し、
データベースが大きいほど、この値を高くしなければならない。SwissProtにつ
いて図示されている結果は、値L=6を使用して得られた。Wについては、値1
5を選択し、その結果、比L/W(すなわち許容される最小の相同性)は40%
になる。
【0085】 LとWの値を設定したので、残りは最少サポートKminの値の決定である。よ
り大きいパターンのすべてに、正確に多数のアミノ酸を有する少なくとも1つの
部分パターンが含まれるので、正確にL個の残留物を有するパターンだけに焦点
を合わせる。1つの手法は、Kmin以上の別個の配列にパターンが現れる確率が
小さくなるようにKminを選択することである。しかし、図14をよく観察する
と、この手法が厳密すぎる可能性があることが明らかになる。具体的には、K=
15のサポート・レベルを検討されたい。ランダム分布から、偶然だけによって
、サポートKを有する1個と2個の間のパターンが期待されることが示される。
したがって、前述の判断基準によれば、SwissProt内でサポート15を有するパ
ターンは、重要でないとみなされるはずである。しかし、この2つの分布は、そ
のサポート・レベルでは著しい相違を有する。具体的に言うと、K=15でのラ
ンダム分布の平均値は約1.5の値を有するが、SwissProtには、サポート15
を有する約180個のパターンがある。
【0086】 したがって、パターンの確率を分離して検討する場合には、その結果は、上の
分布によれば雑音のレベルを超える多数のパターンを無視することになると思わ
れる。この観察から、有意性に関して異なる判断基準を使用することが発案され
た。
【0087】 ここで図15ないし18を参照すると、有意性判断基準を決定するための好ま
しい手法を示す流れ図が示されている。すなわち、Kminの値を計算するための
方法論が提供されている。Kminの値を与えられれば、パターン辞書Πは、サポ
ートとして少なくともその値Kminを有する、ソース・データベースD内のすべ
てのパターンをそれに含めることによって形成される。したがって、図1の辞書
形成モジュール130は、図15ないし18に示された処理を実行することがで
きることを理解されたい。
【0088】 一般に、本発明の手法では、個々のパターンを調べるのではなく、特定のバッ
クボーン構造のすべてのパターンを一緒に検討する。具体的に言うと、所与のバ
ックボーンBと基礎になるデータベースDに対して、NB,Kが、 NB,K=D内でサポートKを有する、バックボーンBを有するパターンの数 であるものとする。また、XB,Kが、NB,Kに対応するランダム変数(Dのすべて
のシャッフルされた版の空間上で定義される)であるものとする。最小サポート
minは、次の不等式が真になる最初の数Kである。
【数2】 ここで、thresholdは、上の不等式から得られる最小サポートKminに対する信頼
性のレベルを強制する、ユーザ定義の確率である。小さいthresholdは、大きい
値のKminにつながり、最終的に選択されるパターンのより大きい統計的重要性
につながる。
【0089】 したがって、有意性判断基準Kminを決定するための処理への入力として、ソ
ース・データベースD、整数パラメータLおよびW、サンプルの数を表す整数N
、および、0と1の間の実数であるthresholdがある。もちろん、この処理の出
力として、サポートKmin以上を有するD内のすべてのパターンが、統計的に重
要になり、したがって、ユーザ照会の受取時に探索されるパターン辞書に含まれ
るようになる整数Kminが得られる。
【0090】 以下の流れ図の説明では、さまざまな表記が使用されるが、そのうちの一部は
上で導入した。しかし、明瞭にするために、以下の定義を適用する。パターンP
に対して、PのバックボーンB(P)は、Pのすべての通常文字を「1」と置換
し、Pのすべてのドント・ケア文字を「0」と置換したときに得られる{1、0
}上の文字列として定義され、たとえばP=A..F.G..Rの場合には、B
(P)=100101001である。Bが任意のバックボーンであり、PがB(
P)=Bになるパターンである場合には、PはBパターンであると言う。その場
合、NB,Kは、DでのサポートKを有するBパターンの数と言い、Xi B,Kは、i
番目のランダム・データベースでサポートKを有するBパターンの数である。m B,K は、すべてのXi B,Kの平均であり、sB,Kは、すべてのXi B,Kの分散である。
ランダム変数XB,Kの分布に関する分析的記述を有しないので、標準的なサンプ
リング技法を使用することを諒解されたい。したがって、所与のデータベースD
について、ランダム変数XB,Kの平均mB,Kと分散(偏差)sB,Kの両方について
、正確な点推定値を実験的に計算することができる。
【0091】 まず図15を参照すると、全体的な処理1200は、ステップ1202で、D
に対してTEIRESIASアルゴリズム(すなわち、上で組み込まれた米国特
許出願第09/023756号明細書に記載のアルゴリズム)を走行させ、NB, K を計算することによって開始される。TEIRESIASアルゴリズムが好ま
しいが、NB,Kは、他の従来の技法を使用して計算することができることを理解
されたい。その後、i=1 to Nについて(ブロック1204)、以下のス
テップを実行する。
【0092】 ステップ1206で、ランダム・データベースR_Diを生成する。このステ
ップを、図16に関連してさらに説明する。処理1300に示されているように
、R_Di(ブロック1302)は、Dの配列Sのそれぞれについて(ブロック
1304)、Sの文字のランダムな置換を計算する(ステップ1306)ことに
よって生成される。Sの文字のランダムな置換を、S'と称する。S'は、R_D i に追加される(ステップ1308)。この処理は、Dのすべての配列Sが処理
されるまで繰り返される(ブロック1310)。したがって、R_Diには、す
べてのランダムな置換S'が含まれる。図15に戻って、ステップ1208で、
i B,Kを計算するためにR_Diに対してTEIRESIASを走行させる。ス
テップ1206および1208は、すべてのiに対してすなわち、i=Nになる
まで実行される(ブロック1210)。
【0093】 その後、すべてのBおよびKについて(ブロック1212)、Xi B,Kを使用し
てmB,KおよびsB,Kを計算する。このステップを、図17に関連してさらに説明
する。処理1400に示されているように、sB,Kには、まず0がセットされる
(ステップ1402)。その後、i=1 to Nについて(ブロック1404
)、sB,KとXi B,Kの和としてsB,Kを計算する(ステップ1406)。この処理
を、すべてのiについて繰り返し(ブロック1408)、最終的に、sB,KをN
で割ることによって、sB,Kが計算される(ステップ1410)。その後、偏差
B,Kを、ステップ1412ないし1420で計算する。まず、ステップ141
2で、まずmB,Kに0をセットする。その後、i=1 to Nについて(ブロ
ック1414)、mB,Kと(Xi B,K−sB,K2の和としてmB,Kを計算する(ステ
ップ1416)。この処理を、すべてのiについて繰り返し(ブロック1418
)、最終的に、mB,KをNで割ることによって偏差mB,Kを計算する(ステップ1
420)。
【0094】 図15に戻って、ステップ1216で、mB,KとsB,Kを使ってpB,Kを計算す
る。このステップを、図18に関連してさらに説明する。処理1500に示され
ているように、ステップ1502で、
【数3】 となるように実数Cを定義する。ここで、Nは、サンプルまたは試行の具体的な
数、たとえば2000を表す。したがって、ステップ1504で、1/C2に等
しいものとしてpB,Kを計算する。pB,Kは、確率Pr[XB,K>NB,K]の上界で
あることを理解されたい。したがって、要約すると、サンプルの平均とXB,K
偏差を使用して、考慮中のNB,Kの値のためのCを計算する。定数Cは、統計の
分野で周知の通り、チェビシェフの不等式に関連することを諒解されたい。定数
Cは、95%の信頼性レベルを使用して計算されるが、これが必須ではないこと
に留意されたい。すなわち、他のどのような値でも適用可能である。
【0095】 図15に戻って、ステップ1214(図17)および1216(図18)を、
すべてのBおよびKについて繰り返す。その後、ステップ1220で、maxB
{pB,K}≦thresholdになる最小のKとして、Kminを決定する。次の節で提示
するテスト・ケース(SwissProt.Rel.34)では、thresholdの値は、Kmin=15
すなわち、所与のバックボーン構造の1.5パターンだけが偶然によって期待さ
れるサポート・レベルになるように選択された。SwissProt内に存在する同一の
サポート・レベルの他のパターンによって暗示されるより多くの統計的に重要な
類似性を捕捉することができるようにするために、偶然の結果(上では1.5パ
ターン)になることのできる、少数のパターンによって誘導される局所相同性を
許容したいというトレード・オフが存在する。
【0096】 次の節で実験結果を提供する前に、まず、本発明の辞書形成方法論を実行する
前のデータベースのクリーン・アップの概念を説明する。この処理は、図19に
示されており、図1の辞書形成モジュール130によって実施することもできる
。複数のデータベースに、非常に相同性の高い配列のグループ(たとえば、ヘモ
グロビンα鎖タンパク)が含まれる。そのようなグループは、膨大な数のパター
ンを導入することによってパターン発見処理の速度を低下させるだけではなく、
パターンの有意性を見掛け上高める可能性もある。これは、非常に相同性の高い
配列のファミリ内に何度も現れ、その外部ではほんの時折しか現れないパターン
の場合に発生する。
【0097】 この問題を処理するために、パターン発見処理を開始する前に、データベース
Dを「クリーン・アップ」することができる。図19に示されているように、ク
リーン・アップ処理1600には、非常に似たタンパクの識別とグループ化が含
まれる(ステップ1602)。2つの配列が同一のグループに配置されるのは、
最適に位置合せされた後に、短い方の配列の位置のX%(たとえば50%)が、
長い方の配列の位置と同一である場合である。結果のグループを、冗長グループ
と称する。情報収集処理が実行される対象の集合D'は、(a)他のタンパクと
十分に相同であることが発見されなかった、Dの配列と、(b)冗長グループの
それぞれからの最長の配列からなる(ステップ1604)。最後に、冗長グルー
プのそれぞれを、TEIRESIASアルゴリズムによって別々に処理して(ス
テップ1606)、グループのすべての配列がこれらのパターンのうちの少なく
とも1つと一致するまでパターンを収集する。この手法では、領域ごとに少なく
とも1つのパターンを生成することによって、複数領域タンパクを含むグループ
であっても正しく扱われることが保証される。冗長グループの処理から生じるパ
ターンは、通常は、非常に密(残留物の数が、ドント・ケア文字の数よりはるか
に多くなる)であり、長いことを指摘する価値がある。これは、グループ配列の
高い相同性の結果である。そのようなパターンについて、探索相の間の近似的な
一致を許容する。
【0098】 IV.実験結果 この節では、本発明の好ましい実施例に関連する実験結果を論ずる。すなわち
、以下の結果は、上で詳細に説明した、本発明の辞書形成(情報収集)方法論お
よび探索エンジン方法論の両方を、テスト・データベースとしてSwissProt Rel.
34に関連して実施することによって生成された。情報収集相で発見されたパター
ンの定量的および定性的な記述は、下の最初の副節(A)で、これらのパターン
がSwissProtに関した達成したカバレッジを分析することと、それらの最も頻繁
な発生に注釈を付けることによって与える。下の第2の副節(B)では、複数の
照会配列に対する探索相の結果を提示する。
【0099】 A.情報収集 SwissProtの処理は、前の節で説明したクリーン・アップから始まる。この処
理の結果を、図20に詳細に示す。SwissProtに対するクリーンアップ処理では
、非常に類似性の高い配列の9165個の冗長グループが生成される。クリーン
アップされたデータベース(情報収集相の操作対象になるデータベース)は、元
の入力から非常に類似した配列を除去し、各冗長グループから最長の配列を追加
することによって結果の集合を増補することによって形成される。
【0100】 クリーン・アップされたデータベースを使用可能にした後に、それに対してT
EIRESIASを使用できるようにするために必要なことは、パラメータL、
WおよびKminの値の設定である。すでに説明したように、L=6およびW=1
5の設定を使用する。さらに、ここで報告する結果では、偏差の計算で、10-1 1 のthreshold値と95%の信頼性レベルを選択した。この設定について計算され
たKminの値は、15になることがわかった。上で指定したL、WおよびKmin
値を用いて、クリーンアップされたデータベースに対してTEIRESIASを
走行させることによって、534185パターンの集合Π(パターン辞書)が生
成された。
【0101】 クリーンアップされたデータベースのマイニングは、情報収集相の第1ステッ
プにすぎない。9165個の冗長グループに対してパターン発見処理を適用する
ことも必要である。やはり、TEIRESIASを使用して、そのようなグルー
プのそれぞれを処理し、グループの各配列が少なくとも1つのパターンと一致す
ることを確実にするのに十分な<6、15>パターンを収集する。これらのパタ
ーンは、その後、探索相によって使用される最終的なパターンの集合Πを形成す
るために、集合Πに追加される。図21に、SwissProt Rel.34全体に対してこれ
らのパターンによって達成されたカバレッジに関する情報を示す。パターンによ
って「カバー」されるデータベース領域は、正確に、そのパターンに一致する部
分列である。密で長いパターン(ほとんどは冗長グループの処理からもたらされ
る)について、近似的な一致が許容され、パターンの「ほとんど」(具体的には
パターンの残留物の80%)が、領域に一致することに留意されたい。カバーさ
れない配列のほとんどが、断片であることを指摘する価値がある。具体的に言う
と、231個だけが、50を超えるサイズを有する。図22および23に、(i
)SwissProt Rel.34パターンの長さと、(ii)アミノ酸または残留物の数とい
う、Πのパターンの特性に関する分布を示す。
【0102】 図21に例示したように、探索相の成功が後に続くための主要な目標の1つ(
すなわち、SwissProtのよい集束)が、達成された。解かなければならない残り
の問題は、発見されたパターンが生物的に適切であるかどうかである。これに対
処するための労力において、これらのパターンの間で最も頻繁に発生するものを
分析した。結果の注釈を、図24および25に示す。この分析から、パターン発
見処理が、生物学的に重要な配列特徴を識別することは(少なくとも試験された
パターンについて)明白である。
【0103】 図24および25には、最も高いサポートを有する100個のパターンが示さ
れている。可能な場合には、カテゴリ内のパターンを互いに位置合せした。小文
字の斜体は、便宜上使用されたものであり、以下の括弧付きの表現のプレースホ
ルダである。すなわち、a:[STGDAR]、b:[STGDK]、c:[S
TGDKY]、d:[STGK]、e:[GASMDL]、f:[GISETV
]、g:[LIVMFY]、h:[LIVMF]、i:[LIVMA]、j:[
LIVMC]、k:[LIVMF]、l:[ILVMF]、m:[QKCS]、
n:[KRQA]、o:[IVTNF]、p:[QKCASN]、q:[QKI
AGN]、r:[RKAHQN]、s:[KRQNE]、t:[KRQMN]、
u:[LFYIMS]、v:[AGSPE]。括弧は、括弧内の残留物のうちの
いずれか1つによって占められる可能性がある位置を示す。
【0104】 発見されたパターンのすべてが、そのような明瞭な機能的特異性を示すわけで
はないことを諒解されたい。発見されたパターンのうちのいくつかは、少なくと
もタンパクの機能的注釈の目的には重要でないと従来考えられていた領域(たと
えばループ、コイルドコイル、膜貫通)に対応する。しかし、時には、そのよう
な弱い類似性であっても、タンパク領域の特性記述の有用なヒントを提供する可
能性がある。この可能性を利用できるようにする機構を2つ実施した。まず、ユ
ーザは、照会配列に一致するすべてのパターンのリストを与えられる。専門家の
ユーザは、ほとんどの場合に、どのパターンが生物学的に重要であるかを識別す
ることができる。特定のパターンを選択すると、スコアリングが改善され、この
パターンによってカバーされるデータベースの区域だけに焦点を合わせるように
なる。第2に、基礎になるデータ・ベースに、さまざまなデータベース配列領域
の注釈が含まれる時には、有用な情報を抽出するために、この注釈をパターンと
併用する。これら2つの機構の使用の例を、次の副節で示す。
【0105】 B.探索 探索相を例示する(および、それを使用する方法を説明する)ために、2つの
照会配列を選択した。第1の配列は、十分に調査され、注釈を付けられたコア・
ヒストン3タンパク(SwissProt ID:H31_HUMAN)であり、第2の配列は、まだ特
徴を明らかにされていない、Methanococcus JannaschiiのORF(SwissProt ID
:YZ28_METJA)である。
【0106】 H31_HUMAN コア・ヒストンは、細胞内のDNAのパッケージングにおける中心的な役割に
起因して、広範囲の研究の対象になってきた。これらの小さいタンパクは、負に
帯電したDNA二重螺旋への結合を助ける正に帯電したアミノ酸に富む。J.D. W
atson、N.H. Hopkins、J.W. Roberts、J. SteitzおよびA.M. Weiner著、「Molec
ular Biology of the Gene」、The Benjamin/Cummings Publishing Company刊、
Fourth Edition、1987年を参照されたい。4つのコア・ヒストン(H2A、H2
B、H3およびH4)は、互いに結合して八量体構造(円筒形のくさびを思わせ
る)になり、これが、146bps長のDNAセグメントが巻き付く基質をもた
らし、したがって、細胞クロマチン内のヌクレオソーム複合体を作る。
【0107】 SwissProt Rel.34データベースには、Histones 3として注釈される33個の配
列があり、その中に、ヒトに見られるコア・ヒストン3タンパクであるH31_
HUMANが含まれる。本発明による相同性検出ツールを用いるこの配列の探索
の上位スコア結果を、図26の表に示す。各配列の隣に、その配列とH31_H
UMANの間での最高のスコアの局所位置合せの類似性スコアを示す。図26の
スコアは、PAM130行列(M.O. Dayhoff、R.M. SchwartzおよびB.C. Orcutt
著、「A model of evolutionary change in proteins」、Atlas of Protein Seq
uence and Structure、5:345-352、1978年を参照されたい)を使用して得たもの
であり、データベースからの一致する配列のすべてに、最も高いスコアを有する
セグメントのスコアが割り当てられている。
【0108】 SwissProt Rel.34の33個のコアHistones 3のすべてが、H31_HUMAN
に対する相同性を有するものとして正しく同定された。さらに、複数の他のタン
パク(YB21_CAEEL、CENA_HUMAN、CSE4_YEAST、
YL82_CAEEL、CENA_BOVIN、YMH3_CAEEL)が、H
31_HUMANとの示量的局所類似性を有することがわかった。これらのタン
パクに関する注釈の観察から、それらが既知のヒストン3様タンパクであること
が示される。最後に、H3_NARPS(既知のヒストン3)は、断片としての
みSwissProtのリリース34に現れ、それが、結果のリストでH3_NARPS
が最低のスコアを有する理由である。
【0109】 図27に、照会配列H31_HUMANについて生成された位置合せの選択さ
れた表示(高スコアと低スコアの両方の)を示す。図27では、非常に類似する
タンパク(H3_YEAST)と適度に類似するタンパク(CENA_HUMA
N)とのH31_HUMANの局所位置合せが示されている。すべての配列につ
いて、複数の局所類似性が報告されている。そのような類似性のすべてにおいて
、関連する照会領域(「Query」)とデータ・ベース配列領域(「Seq」)は、結
果の一致領域を間に挟んで上下にリストされている。文字「+」を使用して、化
学的に類似するアミノ酸を示す。
【0110】 YZ28_METJA H31_HUMANは、それに対する非常に高い相同性を有する複数の配列が
データベースに含まれるので、ある意味では簡単なテスト・ケースである。興味
深い質問は、「ボーダーライン」配列すなわち、既知の相同性が存在しない配列
を提示された時に、本発明の方法論がどうなるかである。この質問に対処する労
力において、システムに、まだ注釈を付けられていない、M. jannaschiiの遺伝
子からの1272個の残留物を有する開いた読み枠である配列YZ28_MET
JAを提示した。
【0111】 照会配列YZ28_METJAを提示された時に本発明のシステムによって作
られた最高スコアの位置合せを、図28に示す。使用された変異行列は、PAM
130である。
【0112】 YZ28_METJAの機能的注釈の目的のためには、上で述べた結果は、非
常に啓発的ではない。というのは、データベース・ヒットに全く異なるタンパク
が含まれるからであり、最初の2つのタンパク(NTNO_HUMAN、NTN
O_BOVIN)は、ナトリウム依存のノルアドレナリン輸送体であり、最後の
1つ(KAPL_APLCA)は、キナーゼである。
【0113】 これらの質問を念頭において、YZ28_METJAとデータベースの配列の
間の類似性の詳細な検査に進んだ。この分析のために、YZ28_METJAに
一致するすべてのパターンを、個別に細かく調べた。本発明の探索相では、ユー
ザが、考慮中の照会配列と照合されるパターンを選択でき、その特定のパターン
だけによって誘導される局所位置合せに焦点を合わせ、他のパターンのすべてを
無視することができることを諒解されたい。この機能が、YZ28_METJA
によって照合されるパターンのそれぞれについて使用された。本発明は、そのよ
うなパターンが1特定のタンパク・ファミリに固有であるかどうかを発見し、し
たがって、YZ28_METJAの機能性に関するいとぐちを与えるためのもの
である。
【0114】 判明したところによれば、キナーゼ・ファミリに非常に固有の3つのパターン
(すなわち、パターン「Y..S..I...DLK」、「NIL......
IKL」および「I.H.DLK......D」)が存在する。図29に、こ
れらのうちの最初の1つについて作られた最高のスコアを有する位置合せのうち
のいくつか、すなわち、パターン「Y..S..I...DLK」によって誘導
される、照会配列YZ28_METJAに関する最高のスコアを有する局所位置
合せを示す。使用された変異行列は、PAM130である。図30に、その特定
のパターンを含むデータベース配列のすべての完全なリストが含まれる。図31
および32に、残りの2つのパターンの対応するリストを示す。図33は、(a
)YZ28_METJAに一致するすべてのパターンの分布と、(b)3つのキ
ナーゼ固有のパターンによってカバーされる区域とのグラフィック表現である。
【0115】 パターン「Y..S..I...DLK」は、SwissProt内で24ヒットを生
成する。これらのタンパクのすべて(ナトリウム/胆汁酸共輸送体であるNAB
A_RATを除く)が、大多数がセリン/スレオニン・キナーゼ・ファミリに属
するか、それに対する類似性を示す、タンパク質キナーゼ(そのうちの2つ「K
D82_SCHPO」と「KKK1_YEAST」は、推定上/有望なキナーゼ
として特徴を表される)として注釈されている。さらに、「Y..S..I..
.DLK」は、これらのタンパクのキナーゼ領域に属するだけではなく、実際に
その領域の活性部位(アミノ酸D)を含む。
【0116】 図30に、パターン「Y..S..I...DLK」を含むSwissProt Rel.34
配列が示されている。これらのすべてが、タンパク質キナーゼまたは推定上の/
有望なタンパク質キナーゼ(ほぼすべてがセリン/スレオニンの変種)として注
釈されている。唯一の例外が、ナトリウム/胆汁酸共輸送体として注釈されてい
るタンパク「NABA_RAT」である。
【0117】 図31に示されているように、同様の結果が、3つのパターンのうちの第2の
パターンである「NIL......IKL」について得られた。この場合、デ
ータベース・ヒットの数は34であり、そのすべて(YeastとMycoplasma Homini
sからの注釈されていない2つのORFを除く)が、既知の(または有望な)タ
ンパク質キナーゼである。やはり、セリン/スレオニン・キナーゼが大多数であ
る。
【0118】 最後に、第3のパターン「I.H.DLK......D」は、30個のSwis
sProt Rel.34ヒットを生成し、そのすべてが、既知のまたは推定上のタンパク質
キナーゼである。これを図32に示す。さらに、3つのパターンのうちの第1の
パターンの場合と同様に、パターン「I.H.DLK......D」には、キ
ナーゼ領域の活性部位が含まれる。
【0119】 前述の3つのパターンのすべてが、以下の一般的なパターンの特定の実例(一
部)であることに留意することが興味深い。 [LIVMFYC].[HY].D[LIVMFY]K..N[LIVMFYCT][LIVMFYCT][LIVMFYCT] ここで、表記[XYZ]は、残留物X、YおよびZのいずれかによって占められ
る可能性がある位置を示す。このより一般的なパターンは、受入番号PS001
08を有するPROSITEデータベース項目すなわち、セリン/スレオニン・
タンパク質キナーゼ活性部位のサインである。このPROSITEサインは、上
で試験した3つのパターンによってカバーされるYZ28_METJAの区域内
のキナーゼ触媒部位を選択するためには具体的にすぎることに留意されたい。こ
の状況(人工知能の用語で、トレーニング・セットの「オーバーリプリゼンテー
ション(overrepresentation)」として既知)は、全宇宙の有限な部分集合によ
ってトレーニングされた学習システムに典型的なものである。実例の集合(この
場合、PROSITEによって使用される既知のセリン/スレオニン・キナーゼ
の特定の集合)が偏っており、その結果、観察を説明する間に学習される特徴(
この場合はキナーゼのサイン)が、検討中のファミリの新しい実例に効果的に外
挿するのに十分に一般的でない(すなわち、「誤った否定(false negatives)
」がある)危険性が常に存在する。この問題の矯正法は、できる限り大きいトレ
ーニング・セットを使用することであり、これが、本明細書に提示される手法の
最重要点である。
【0120】 前に述べたように、図33には、(a)YZ28_METJAに一致するすべ
てのパターンの分布と、(b)3つのキナーゼ固有パターンによってカバーされ
る区域のグラフィック表現が示されている。
【0121】 図33の(a)には、YZ28_METJAと一致する410個のパターンが
ある(情報収集相で発見されたパターンのうちの)。パターンが残留物位置を「
カバー」するのは、パターンがその位置またはその前から始まり、その位置また
はその後で終わる場合である。グラフには、残留物位置(x軸)のそれぞれにつ
いて、その位置をカバーするパターンの数(y軸)が示されている。図33(b
)からわかるように、本明細書で論じた3つのキナーゼ・パターンは、オフセッ
ト35(パターン「Y..S..I...DLK」)、112(パターン「NI
L......IKL」)および1052(パターン「I.H.DLK....
..D」)で配列に一致する。これらのオフセットは、図33(a)のパターン
分布のスパイクに対して相対的に図示されている。
【0122】 既存の注釈の使用 YZ28_METJAと一致した410パターンのうちで、上で分析した3つ
のパターンだけが、そのような明瞭な機能的特異性を示す。これは、残りの40
7パターンが有用でないことを意味するものではない。2つの配列の局所類似性
から引き出すことのできる生物学的推論の種類は、必ずしも機能的性質を有する
ものではない。時には、相同性が、構造の保存を示し、別の場合には、相同性が
、比較される配列の総合的機能の指示的役割(たとえばDNA結合領域)の機能
単位に対応する場合がある。そのような弱い類似性を調査する労力において、基
礎となるデータベースで使用可能な注釈を利用する方法を設けた。下の説明では
、SwissProt注釈フォーマットを前提とする。
【0123】 SwissProtデータ・ベースでは、その配列の大半と、配列領域の注釈が関連付
けられる(FT行、A. BairochおよびR. Apweiler著、「The SWISS-PROT protei
n sequence data bank and its supplement TrEMBL in 1998」、Nucleic Acids
Res.、26:38-42、1998年を参照されたい)。通常の領域記述は次のようになる。 FT DOMAIN 528 779 PROTEIN KINASE ここで、キーワード「FT」は、これが領域記述行であることを示し、残りの行
は、その先頭位置および末尾位置(関連するデータ・ベース配列の残留物528
から残留物779まで)とその注釈(タンパク質キナーゼ領域)を与えることに
よって、その領域を記述する。
【0124】 パターンPを提示された時に、(すでに述べたように)オフセット・リストL D (P)を使用して、Pと一致するデータベース内のすべての配列を突きとめる
ことができる。Sがそのような配列であり、S内のオフセットjから、Pと一致
する部分列が始まると仮定する。Pが、Sの注釈付きの領域(全体的または部分
的のいずれか)に含まれる場合には、この領域をPに関連付けることができる。
Pに一致するすべての配列Sに関してこの処理を実行すると、Pに関連する領域
の集合RSD(P)がもたらされる。図34に、上で説明した3つのキナーゼ・
パターンのうちの1つについて本発明のシステムによって作られた出力の一部の
例を示す。すなわち、図34は、パターン「I.H.DLK......D」に
一致するデータベース配列の一部の、SwissProtの注釈を使用する個々のパター
ンの分析を示す。そのような配列のすべてについて、そのID行とDE行が報告
され(A. BairochおよびR. Apweiler著、「The SWISS-PROT protein sequence d
ata bank and its supplement TrEMBL in 1998」、Nucleic Acids Res.、26:38-
42、1998年を参照されたい)、配列のSwissProt名と、その機能性の短い記述が
与えられる。その次に、一致が始まる配列内のオフセットがある。最後に、パタ
ーンによってカバーされる領域との交差を有する、注釈付きの領域のすべてのF
T行がある。
【0125】 照会配列Qの部分配列Aに一致するパターンPを与えられた場合、問題は、A
の特徴を表す際にRSD(P)を使用する方法になる。複数の手法を使用するこ
とができる。たとえば、RSD(P)が十分に大きく、その要素の大多数が、機
能性で一致する場合には、Aが同一の機能性を有する可能性が非常に高いと推論
することができる。もう1つの検討事項は、パターンPと、FT行によって記述
される領域の相対的な長さである。たとえば、パターンPが、15残留物の広が
りを有し、Pを含む注釈付きの配列領域が、300アミノ酸の長さを有する場合
には、その領域の注釈をPに転送しようと思う者はいないであろう。結論として
、エンド・ユーザは、システムによって提供される情報を最もよく利用する方法
を決定する際に、自分の専門知識を適用することが期待される。
【0126】 図35は、YZ28_METJAの領域に注釈を付けるために集合RSD(P
)を使用し、したがって、図33(b)に示された絵を拡張するための、2つの
方法を示す図である。すなわち、図35には、YZ28_METJAのさまざま
なセグメントの、これらのセグメントと一致するパターンの注釈からの特徴の記
述が示されている。パターンの注釈は、やはりこれらのパターンに一致するデー
タベース配列のさまざまな領域について使用可能な情報を利用することによって
得られる。セグメントは、やはり、YZ28_METJA全体に対するパターン
の分布のスパイクに対して相対的に示されている。最初の手法(図35の(b)
)では、(i)RSD(P)のサイズが少なくとも15であり、(ii)RSD
P)内の領域の大多数(80%)がXとして注釈を付けられており、(iii)
Xとして注釈を付けられたRSD(P)のすべての領域のうちの少なくとも50
%が、Pによってカバーされる場合に、注釈X(たとえばX=膜貫通領域)をパ
ターンPに割り当てる。第2の手法(図35の(c))では、上の必要条件(i
)および(ii)を共用するが、パターンによってカバーされる注釈付き領域の
比率を30%以上とすることによって、(iii)を緩和している。
【0127】 性能 照会配列Qの相同性探索の実行時間は、(i)使用されるパターンの集合Πの
サイズと、(ii)Qとデータベース配列の間の局所類似性(Qに一致するパタ
ーンによって誘導される)の実際の数とに依存する。本明細書で使用したSwissP
rot Rel.34の場合、約1000個の残留物のサイズの照会タンパクに関する典型
的な探索は、256MBのメモリを有するPentium 266MHzコンピュータで4ない
し6秒を要する。上で報告した実行時間は、すべてのプログラム・データ(パタ
ーンとそのオフセット・リスト)をメモリ内に保持することによって達成された
ことに言及する必要がある。SwissProtの場合、このデータは、約200MBを
占める。
【0128】 本発明のさまざまな態様によれば、基礎となるタンパクのデータベースDに対
するパターンの発見と、照会配列と考慮中のデータベースのタンパクとの間の相
同性の識別のためのこれらのパターンの使用とに基づく配列類似性探索を実行す
るための方法論が提供される。本明細書では、統計的な議論を使用して、探索さ
れるパターンの集合を正確に定義する方法を説明し、メモリを統計的計算に導入
することによって有意な相同性を識別する際の感度をパターンによって高める方
法を述べた。最後に、本方法論の使用を、テスト・ベッドとしてSwissProt Rel.
34データベースを使用して示し、本システムを照会配列の注釈付けに使用する方
法を示した。これに関連して、照会配列とデータ・ベース配列の間の弱い類似性
の特徴記述に向かって、基礎となるデータベースの注釈と共に発見されたパター
ンを利用する可能性も論じた。
【0129】 有利なことに、本発明の配列相同性検出システムの、従来技術のパターン・ベ
ースの相同性検出用ツール(たとえばBLOCKS)とそれを区別する1態様は
、使用されるパターンの集合の完全性である。パターンは、基礎となるデータベ
ースD内のすべてのタンパクの、非常に大きいトレーニング・セットから監督さ
れない形で学習される。配列を同一のファミリの要素とみなさ「なければならな
い」従来の偏りを生じる前提はない。その結果、発見されるパターンは、より敏
感であることが期待される。さらに、別個の機能性を持つ配列を一緒に検討する
ことによって、ファミリの境界をまたぐ弱い類似性(たとえば、膜貫通領域を記
述したパターン)を発見することができる。そのような類似性は、機能的注釈の
推論には不十分であるが、それでも、検査中の照会配列の異なる部分の役割に関
する有用な情報を与える。
【0130】 本発明のシステムのもう1つの長所は、相同性探索について達成される実行時
間である。すべての探索についてデータベース全体を走査するのではなく、パタ
ーンを使用することによって得られる速度向上は、遺伝子データベースのサイズ
の増大がさらに速くなるにつれて(特に、公開サーバを使用するのではなく、イ
ンハウス・テストを走行したいユーザにとって)1つの要因になる。
【0131】 本発明の実施例を、添付図面を参照して本明細書で説明したが、本発明がこれ
らの正確な実施形態に制限されず、本発明の範囲または主旨から逸脱せずに、当
業者がさまざまな他の変更および修正を行うことができることを理解されたい。
【図面の簡単な説明】
【図1】 本発明の実施例による、配列相同性検出システムのブロック図である。
【図2】 本発明の配列相同性検出システムの例のハードウェア実施形態のブロック図で
ある。
【図3】 本発明の配列相同性検出システムのネットワークベースの実施形態のブロック
図である。
【図4】 本発明の1実施例による、探索エンジン方法論を示す高水準流れ図である。
【図5】 本発明の1実施例による、所与の照会配列のためのパターン照合処理の例を示
す図である。
【図6】 本発明の1実施例による、特定の照会配列について生成されるハッシュ・テー
ブルの例を示す図である。
【図7】 本発明の1実施例による、所与の照会配列に関する連鎖処理の例を示す図であ
る。
【図8】 本発明の1実施例による、所与の照会配列に関するスコアリング処理に従って
生成される重みつき有向グラフの例を示す図である。
【図9】 本発明の探索エンジン方法論の照合および連鎖相の実施形態を示す流れ図であ
る。
【図10】 本発明の探索エンジン方法論のスコアリング相の実施形態を示す流れ図である
【図11】 SP34での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。
【図12】 SP34での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。
【図13】 SP34での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。
【図14】 SP34での所与のバックボーン構造を有するパターンの分布と、同一のバッ
クボーンのランダム分布との比較を示す図である。
【図15】 本発明の1実施例による辞書形成方法論を示す流れ図である。
【図16】 本発明の1実施例による辞書形成方法論を示す流れ図である。
【図17】 本発明の1実施例による辞書形成方法論を示す流れ図である。
【図18】 本発明の1実施例による辞書形成方法論を示す流れ図である。
【図19】 本発明の1実施例による、データベース・クリーン・アップ処理を示す流れ図
である。
【図20】 本発明に関連する実験結果を示す図である。
【図21】 本発明に関連する実験結果を示す図である。
【図22】 本発明に関連する実験結果を示す図である。
【図23】 本発明に関連する実験結果を示す図である。
【図24】 本発明に関連する実験結果を示す図である。
【図25】 本発明に関連する実験結果を示す図である。
【図26】 本発明に関連する実験結果を示す図である。
【図27】 本発明に関連する実験結果を示す図である。
【図28】 本発明に関連する実験結果を示す図である。
【図29】 本発明に関連する実験結果を示す図である。
【図30】 本発明に関連する実験結果を示す図である。
【図31】 本発明に関連する実験結果を示す図である。
【図32】 本発明に関連する実験結果を示す図である。
【図33】 本発明に関連する実験結果を示す図である。
【図34】 本発明に関連する実験結果を示す図である。
【図35】 本発明に関連する実験結果を示す図である。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 リゴウトソス、イシドア・ アメリカ合衆国11103 ニューヨーク州ア ストリア サーティー・シックスス・スト リート 30−30 Fターム(参考) 4B024 AA20 HA11 5B075 ND02 PR06 QM02 QM08 UU19

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 データベース内の複数の配列と照会配列との間の相同性を検出する、コンピュ
    ータに基づく方法であって、 各パターンが、前記データベース内の1つまたは複数の配列の少なくとも一部
    を表す、前記データベースに関連するパターンにアクセスするステップと、 前記照会配列の1つまたは複数の部分が、前記データベースの前記配列のうち
    の前記パターンによって表される部分に相同であるかどうかを検出するために、
    前記照会配列を前記パターンと比較するステップと、 前記照会配列に相同であることが検出された配列のそれぞれのスコアを生成す
    るステップであって、前記配列スコアが、前記検出された配列の相同部分のそれ
    ぞれに従って生成される個々のスコアに基づき、前記配列スコアが、前記照会配
    列と前記検出された配列との間の相同の度合を表す、スコアを生成するステップ
    と を含む方法。
  2. 【請求項2】 前記データベースが、既知の配列特徴と未知の配列特徴との両方を有する配列
    を含む、請求項1に記載の方法。
  3. 【請求項3】 前記配列が、タンパクを表す、請求項1に記載の方法。
  4. 【請求項4】 前記比較するステップが、さらに、前記照会配列の部分と一致するパターンに
    関連する前記データベースの領域のそれぞれについてセグメントを生成すること
    を含む、請求項1に記載の方法。
  5. 【請求項5】 前記セグメントが、値の組(i、j、k、l)として表現され、(j、k)が
    、前記パターンに関連する前記データベースの前記領域を表し、kが、前記パタ
    ーンが一致する前記データベース内の第j配列のオフセットを表し、iが、前記
    パターンが一致する前記照会配列のオフセットを表し、lが、前記パターンの長
    さを表す、請求項4に記載の方法。
  6. 【請求項6】 前記比較するステップが、さらに、複数のセグメントが生成される時に、拡張
    セグメントを形成するために、互換性のあるセグメントを互いに連鎖することを
    含む、請求項4に記載の方法。
  7. 【請求項7】 前記比較するステップが、さらに、前記照会配列にも一致する少なくとも1つ
    のパターンと一致する前記データベースの配列と、各配列について生成されたそ
    れぞれのセグメントとを、1つの集合に集めることを含む、請求項4に記載の方
    法。
  8. 【請求項8】 前記スコアを生成するステップが、さらに、前記集合内の各配列に関連する前
    記セグメントのそれぞれにスコアを割り当てることを含む、請求項7に記載の方
    法。
  9. 【請求項9】 スコアが、変異行列に基づいて各セグメントに割り当てられる、請求項8に記
    載の方法。
  10. 【請求項10】 前記スコアを生成するステップが、さらに、前記配列に関連する前記セグメン
    トに割り当てられた前記スコアに基づいて、前記集合内の各配列にスコアを割り
    当てることを含む、請求項8に記載の方法。
  11. 【請求項11】 前記配列スコアを割り当てるステップが、さらに、有向グラフを形成すること
    を含み、前記有向グラフの頂点が、前記配列に関連する前記セグメントを表し、
    2つの頂点が、前記頂点によって表される2つのセグメントに関連するそれぞれ
    のオフセットの相対順序に基づいて辺によって接続され、前記それぞれのオフセ
    ットが、前記照会配列のオフセットと、前記スコアリングされる配列のオフセッ
    トとを含む、請求項10に記載の方法。
  12. 【請求項12】 重みが、前記セグメント・スコアに基づいて各頂点に割り当てられる、請求項
    11に記載の方法。
  13. 【請求項13】 重みが、前記関連する照会配列オフセットの変位と前記スコアリングされる配
    列の前記オフセットの変位との差に基づいて各辺に割り当てられる、請求項12
    に記載の方法。
  14. 【請求項14】 前記辺の重みが、変位の間の前記差のサイズに逆に関係する、請求項13に記
    載の方法。
  15. 【請求項15】 前記配列スコア割り当てステップが、さらに、経路に含まれる頂点の重さおよ
    び辺の重さの最高の組み合わされたスコアをもたらす前記有向グラフを介する前
    記経路を識別することを含み、前記最高の組み合わされたスコアが、前記配列の
    前記スコアを表す、請求項14に記載の方法。
  16. 【請求項16】 低い複雑性を有するとして特徴を表される1つまたは複数の前記パターンが無
    視される、請求項4に記載の方法。
  17. 【請求項17】 パターンが、少なくとも所定の個数の繰り返される文字を有する配列領域を表
    す時に、前記パターンが低い複雑性を有するとして特徴を表される、請求項16
    に記載の方法。
  18. 【請求項18】 パターンが、同一の文字の組のオーバーラップする出現を有する配列領域を表
    す時に、前記パターンが低い複雑性を有するとして特徴を表される、請求項16
    に記載の方法。
  19. 【請求項19】 パターンに関連する変異性に基づいて、前記パターンが低い複雑性を有すると
    して特徴を表される、請求項16に記載の方法。
  20. 【請求項20】 パターンの前記変異性が、パターン内の、文字によってカバーされる位置の総
    数に対する前記パターン内に現れる前記文字の回数の比率である、請求項19に
    記載の方法。
  21. 【請求項21】 パターンが、前記照会配列に関連するオフセットの左右の少なくとも所定の数
    の文字で前記照会配列に近似的に一致する時に、前記パターンが低い複雑性を有
    するとして特徴を表される、請求項16に記載の方法。
  22. 【請求項22】 パターンが、前記データベースからの前記配列に関連するオフセットの左右の
    少なくとも所定の数の文字で前記データベースからの前記配列に近似的に一致す
    る時に、前記パターンが低い複雑性を有するとして特徴を表される、請求項16
    に記載の方法。
  23. 【請求項23】 ネットワーク内のサーバでアクセスされるデータベース内の複数の配列と、前
    記ネットワーク内のクライアント装置で入力される照会配列との間の相同性を検
    出する、ネットワークに基づく方法であって、 前記サーバで前記ネットワークから、前記クライアント装置で入力された前記
    照会配列を得るステップと、 前記サーバで、各パターンが前記データベース内の1つまたは複数の配列の少
    なくとも一部を表す、前記データベースに関連するパターンにアクセスするステ
    ップと、 前記サーバで、前記照会配列の1つまたは複数の部分が、前記データベースの
    前記配列のうちの前記パターンによって表される部分に相同であるかどうかを検
    出するために、前記照会配列を前記パターンと比較するステップと、 前記サーバで、前記照会配列に相同であることが検出された配列のそれぞれに
    ついてスコアを生成するステップであって、前記配列スコアが、前記検出された
    配列の各相同部分に従って生成される個々のスコアに基づき、前記配列スコアが
    、前記照会配列と前記検出された配列との間の相同の度合を決定する、スコアを
    生成するステップと を含む方法。
  24. 【請求項24】 前記ネットワークが、インターネットを含む、請求項23に記載の方法。
  25. 【請求項25】 前記データベースが、既知の配列特徴と未知の配列特徴との両方を有する配列
    を含む、請求項23に記載の方法。
  26. 【請求項26】 前記配列が、タンパクを表す、請求項23に記載の方法。
  27. 【請求項27】 データベース内の複数の配列とネットワークを介する照会配列との間の相同性
    を検出する装置であって、 前記照会配列を入力し、前記ネットワークを介して前記照会配列を送信するよ
    うに構成されたクライアント装置と、 前記ネットワークを介して前記クライアント装置に結合され、(i)前記ネッ
    トワークを介して前記クライアント装置から前記照会配列を得、(ii)各パタ
    ーンが前記データベース内の1つまたは複数の配列の少なくとも一部を表す、前
    記データベースに関連するパターンにアクセスし、(iii)前記照会配列の1
    つまたは複数の部分が、前記データベースの前記配列のうちの前記パターンによ
    って表される部分に相同であるかどうかを検出するために、前記照会配列を前記
    パターンと比較し、(iv)前記照会配列と相同であることが検出された配列の
    それぞれについてスコアを生成し、前記配列スコアが前記検出された配列の各相
    同部分に従って生成される個々のスコアに基づき、前記配列スコアが前記照会配
    列と前記検出された配列との間の相同の度合を決定し、(v)前記検出結果の少
    なくとも一部を前記ネットワークを介して前記クライアント装置に送信するよう
    に構成された、サーバと を含む装置。
  28. 【請求項28】 データベース内の複数の配列と照会配列との間の相同性を検出する装置であっ
    て、 (i)各パターンが前記データベース内の1つまたは複数の配列の少なくとも
    一部を表す、前記データベースに関連するパターンにアクセスし、(ii)前記
    照会配列の1つまたは複数の部分が、前記データベースの前記配列のうちの前記
    パターンによって表される部分に相同であるかどうかを検出するために、前記照
    会配列を前記パターンと比較し、(iii)前記照会配列に相同であることが検
    出された配列のそれぞれについてスコアを生成するように動作する少なくとも1
    つのプロセッサであって、前記配列スコアが、前記検出された配列の各相同部分
    に従って生成される個々のスコアに基づき、前記配列スコアが、前記照会配列と
    前記検出された配列との間の相同の度合を決定する、プロセッサ を含む装置。
  29. 【請求項29】 データベース内の複数の配列と照会配列との間の相同性を検出する製造品であ
    って、実行された時に、 各パターンが前記データベースの1つまたは複数の配列の少なくとも一部を表
    す、前記データベースに関連するパターンにアクセスするステップと、 前記照会配列の1つまたは複数の部分が、前記データベースの前記配列のうち
    の前記パターンによって表される部分に相同であるかどうかを検出するために、
    前記照会配列を前記パターンと比較するステップと、 前記照会配列に相同であることが検出された配列のそれぞれについてスコアを
    生成するステップであって、前記配列スコアが、前記検出された配列の各相同部
    分に従って生成される個々のスコアに基づき、前記配列スコアが、前記照会配列
    と前記検出された配列との間の相同の度合を決定する、スコアを生成するステッ
    プと を実施する1つまたは複数のプログラムを含む機械可読媒体を含む製造品。
JP2000580125A 1998-10-30 1999-10-29 配列相同性検出を形成するための方法および装置 Expired - Fee Related JP3412618B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10629598P 1998-10-30 1998-10-30
US60/106,295 1998-10-30
PCT/US1999/025366 WO2000026818A1 (en) 1998-10-30 1999-10-29 Methods and apparatus for performing sequence homology detection

Publications (2)

Publication Number Publication Date
JP2002529817A true JP2002529817A (ja) 2002-09-10
JP3412618B2 JP3412618B2 (ja) 2003-06-03

Family

ID=22310644

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2000580126A Expired - Fee Related JP4250339B2 (ja) 1998-10-30 1999-10-29 配列相同性検出に使用するためのパターン辞書を形成するための方法および装置
JP2000580125A Expired - Fee Related JP3412618B2 (ja) 1998-10-30 1999-10-29 配列相同性検出を形成するための方法および装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2000580126A Expired - Fee Related JP4250339B2 (ja) 1998-10-30 1999-10-29 配列相同性検出に使用するためのパターン辞書を形成するための方法および装置

Country Status (7)

Country Link
US (2) US6785672B1 (ja)
EP (2) EP1057131B1 (ja)
JP (2) JP4250339B2 (ja)
CN (2) CN1108579C (ja)
CA (1) CA2315147C (ja)
DE (2) DE69904435T2 (ja)
WO (2) WO2000026818A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225689A (ja) * 2007-03-09 2008-09-25 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラム

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001086577A2 (en) 2000-05-10 2001-11-15 E. I. Du Pont De Nemours And Company Method of discovering patterns in symbol sequences
WO2002005133A1 (en) * 2000-07-07 2002-01-17 Kent Ridge Digital Labs A method and apparatus for searching a database containing biological information
JP3871301B2 (ja) * 2001-05-15 2007-01-24 インターナショナル・ビジネス・マシーンズ・コーポレーション データベース検索装置、及びプログラム
CA2387277C (en) * 2001-05-25 2015-03-03 Hitachi, Ltd. Information processing system using nucleotide sequence-related information
US20030125931A1 (en) * 2001-12-07 2003-07-03 Shannon Roy Campbell Method for matching strings
US6996558B2 (en) 2002-02-26 2006-02-07 International Business Machines Corporation Application portability and extensibility through database schema and query abstraction
US7110540B2 (en) * 2002-04-25 2006-09-19 Intel Corporation Multi-pass hierarchical pattern matching
US20040126840A1 (en) * 2002-12-23 2004-07-01 Affymetrix, Inc. Method, system and computer software for providing genomic ontological data
US8239400B2 (en) * 2003-08-21 2012-08-07 International Business Machines Corporation Annotation of query components
US7203680B2 (en) * 2003-10-01 2007-04-10 International Business Machines Corporation System and method for encoding and detecting extensible patterns
US7900133B2 (en) 2003-12-09 2011-03-01 International Business Machines Corporation Annotation structure type determination
US20060235845A1 (en) * 2005-04-15 2006-10-19 Argentar David R Identifying patterns of symbols in sequences of symbols using a binary array representation of the sequence
US7188032B2 (en) * 2005-06-30 2007-03-06 International Business Machines Corporation Incremental determination of Teiresias patterns
US7822759B2 (en) * 2005-12-13 2010-10-26 Microsoft Corporation Query-driven sharing and syndication
WO2007138593A1 (en) * 2006-05-30 2007-12-06 Yissum Research Development Company Of The Hebrew University Of Jerusalem Pattern matching
CN1932040B (zh) * 2006-09-21 2010-06-09 武汉大学 全基因组目标基因家族成员的自动化快速检测系统
US7970614B2 (en) * 2007-05-08 2011-06-28 Nuance Communications, Inc. Continuous adaptation in detection systems via self-tuning from target population subsets
US7693823B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Forecasting time-dependent search queries
US8090709B2 (en) * 2007-06-28 2012-01-03 Microsoft Corporation Representing queries and determining similarity based on an ARIMA model
US7685100B2 (en) * 2007-06-28 2010-03-23 Microsoft Corporation Forecasting search queries based on time dependencies
US7685099B2 (en) * 2007-06-28 2010-03-23 Microsoft Corporation Forecasting time-independent search queries
US7693908B2 (en) * 2007-06-28 2010-04-06 Microsoft Corporation Determination of time dependency of search queries
US7689622B2 (en) * 2007-06-28 2010-03-30 Microsoft Corporation Identification of events of search queries
US8290921B2 (en) * 2007-06-28 2012-10-16 Microsoft Corporation Identification of similar queries based on overall and partial similarity of time series
JP5193518B2 (ja) * 2007-07-13 2013-05-08 株式会社東芝 パターン探索装置及びその方法
US9775554B2 (en) * 2007-12-31 2017-10-03 Invention Science Fund I, Llc Population cohort-linked avatar
WO2009094649A1 (en) * 2008-01-24 2009-07-30 Sra International, Inc. System and method for variant string matching
CN101714187B (zh) * 2008-10-07 2011-09-28 中国科学院计算技术研究所 一种规模化蛋白质鉴定中的索引加速方法及相应的系统
US9135396B1 (en) * 2008-12-22 2015-09-15 Amazon Technologies, Inc. Method and system for determining sets of variant items
US8689172B2 (en) * 2009-03-24 2014-04-01 International Business Machines Corporation Mining sequential patterns in weighted directed graphs
CN109145033B (zh) * 2009-09-25 2022-09-13 阿德南·法科 计算机系统以及计算机实施方法
JP5790006B2 (ja) * 2010-05-25 2015-10-07 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN102682226B (zh) * 2012-04-18 2015-09-30 盛司潼 一种核酸测序信息处理系统及方法
US9092566B2 (en) 2012-04-20 2015-07-28 International Drug Development Institute Methods for central monitoring of research trials
US9348902B2 (en) 2013-01-30 2016-05-24 Wal-Mart Stores, Inc. Automated attribute disambiguation with human input
US10191929B2 (en) * 2013-05-29 2019-01-29 Noblis, Inc. Systems and methods for SNP analysis and genome sequencing
CN104636636B (zh) * 2015-02-02 2018-01-05 哈尔滨工业大学深圳研究生院 蛋白质远程同源性检测方法及装置
CN107239458B (zh) * 2016-03-28 2021-01-29 阿里巴巴集团控股有限公司 基于大数据推算开发对象关系的方法及装置
CN111178615B (zh) * 2019-12-24 2023-10-27 成都数联铭品科技有限公司 一种企业风险识别模型的构建方法及系统
CN111445962B (zh) * 2020-03-27 2022-12-16 上海祥耀生物科技有限责任公司 抗体库的构建方法及装置
US11715022B2 (en) * 2020-07-01 2023-08-01 International Business Machines Corporation Managing the selection and presentation sequence of visual elements

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US6303297B1 (en) * 1992-07-17 2001-10-16 Incyte Pharmaceuticals, Inc. Database for storage and analysis of full-length sequences
JPH0793370A (ja) * 1993-09-27 1995-04-07 Hitachi Device Eng Co Ltd 遺伝子データベース検索システム
JP3611601B2 (ja) * 1994-09-01 2005-01-19 富士通株式会社 リスト処理システムとその方法
US5940825A (en) * 1996-10-04 1999-08-17 International Business Machines Corporation Adaptive similarity searching in sequence databases
US6023659A (en) * 1996-10-10 2000-02-08 Incyte Pharmaceuticals, Inc. Database system employing protein function hierarchies for viewing biomolecular sequence data
US6189013B1 (en) * 1996-12-12 2001-02-13 Incyte Genomics, Inc. Project-based full length biomolecular sequence database
US5873052A (en) 1996-11-06 1999-02-16 The Perkin-Elmer Corporation Alignment-based similarity scoring methods for quantifying the differences between related biopolymer sequences
US6373971B1 (en) 1997-06-12 2002-04-16 International Business Machines Corporation Method and apparatus for pattern discovery in protein sequences
US6108666A (en) 1997-06-12 2000-08-22 International Business Machines Corporation Method and apparatus for pattern discovery in 1-dimensional event streams
US5977890A (en) 1997-06-12 1999-11-02 International Business Machines Corporation Method and apparatus for data compression utilizing efficient pattern discovery
US6029167A (en) * 1997-07-25 2000-02-22 Claritech Corporation Method and apparatus for retrieving text using document signatures
US6092065A (en) 1998-02-13 2000-07-18 International Business Machines Corporation Method and apparatus for discovery, clustering and classification of patterns in 1-dimensional event streams

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225689A (ja) * 2007-03-09 2008-09-25 National Institute Of Agrobiological Sciences 遺伝子クラスタリング装置、遺伝子クラスタリング方法およびプログラム

Also Published As

Publication number Publication date
EP1044417B1 (en) 2002-12-11
WO2000026818A1 (en) 2000-05-11
US6785672B1 (en) 2004-08-31
WO2000026819A9 (en) 2002-04-11
CN1108579C (zh) 2003-05-14
JP3412618B2 (ja) 2003-06-03
WO2000026819A1 (en) 2000-05-11
CA2315147C (en) 2004-12-28
CN1110761C (zh) 2003-06-04
EP1057131A1 (en) 2000-12-06
US6571199B1 (en) 2003-05-27
CN1287641A (zh) 2001-03-14
CN1289424A (zh) 2001-03-28
DE69901544D1 (de) 2002-06-27
DE69904435D1 (de) 2003-01-23
DE69901544T2 (de) 2003-01-16
DE69904435T2 (de) 2003-10-09
CA2315147A1 (en) 2000-05-11
JP2002529818A (ja) 2002-09-10
EP1057131B1 (en) 2002-05-22
JP4250339B2 (ja) 2009-04-08
EP1044417A1 (en) 2000-10-18

Similar Documents

Publication Publication Date Title
JP3412618B2 (ja) 配列相同性検出を形成するための方法および装置
Brāzma et al. Predicting gene regulatory elements in silico on a genomic scale
Przytycka et al. A protein taxonomy based on secondary structure
Pandey et al. Computational approaches for protein function prediction: A survey
Orengo et al. The CATH protein family database: a resource for structural and functional annotation of genomes
Karchin et al. Hidden Markov models that use predicted local structure for fold recognition: alphabets of backbone geometry
Hobohm et al. A sequence property approach to searching protein databases
Henaut et al. Analysis and predictions from Escherichia coli sequences, or E. coli in silico
Di Francesco et al. FORESST: fold recognition from secondary structure predictions of proteins.
Pasquier et al. PRED‐CLASS: Cascading neural networks for generalized protein classification and genome‐wide applications
US7047137B1 (en) Computer method and apparatus for uniform representation of genome sequences
Beiko et al. GANN: genetic algorithm neural networks for the detection of conserved combinations of features in DNA
US7991563B2 (en) Sequence pattern descriptors for transmembrane structural details
Floratos et al. Sequence homology detection through large scale pattern discovery
Guruprasad et al. Database of structural motifs in proteins
Floratos et al. DELPHI: A pattern-based method for detecting sequence similarity
Berryman et al. Review of signal processing in genetics
Siermala et al. On preprocessing of protein sequences for neural network prediction of polyproline type II secondary structures
Wu et al. Artificial neural system for gene classification using a domain database
Claverie Exon detection by similarity searches
Fan et al. Transcription Factor-DNA Binding Via Machine Learning Ensembles
Mukhopadhyay et al. Genetic sequence classification and its application to cross-species homology detection
Hunter Progress in computational molecular biology
Neel Efficiency and reliability of genomic information storage and retrieval in DNA-based memories with compaction
Rombo et al. Pattern discovery in biosequences: From simple to complex patterns

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090328

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees