JP2002535972A - ゲノム解析からタンパク質の機能および相互作用を決定 - Google Patents

ゲノム解析からタンパク質の機能および相互作用を決定

Info

Publication number
JP2002535972A
JP2002535972A JP2000596510A JP2000596510A JP2002535972A JP 2002535972 A JP2002535972 A JP 2002535972A JP 2000596510 A JP2000596510 A JP 2000596510A JP 2000596510 A JP2000596510 A JP 2000596510A JP 2002535972 A JP2002535972 A JP 2002535972A
Authority
JP
Japan
Prior art keywords
protein
proteins
amino acid
acid sequence
computer program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000596510A
Other languages
English (en)
Inventor
マテオ ペレグリニ
エドワード マルコッテ
マイケル トンプソン
デイビット アイゼンバーグ
ロバート グロッセ
トッド イェーテス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
THE REGENTS OF THE UNIVERSITY OF CARIFORNIA
Original Assignee
THE REGENTS OF THE UNIVERSITY OF CARIFORNIA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by THE REGENTS OF THE UNIVERSITY OF CARIFORNIA filed Critical THE REGENTS OF THE UNIVERSITY OF CARIFORNIA
Publication of JP2002535972A publication Critical patent/JP2002535972A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

(57)【要約】 計算方法の体系およびコンピュータプログラムが、ゲノム配列から機能的リンクを推定するために提供される。1つの方法は、タンパク質A’およびB’のいくつかの対が単一のタンパク鎖ABに融合した別の有機体に相同物を有するという観測に基づく。配列のトランスゲノム比較は、A’およびB 間の相互作用を解読するロゼッタストーン配列であり、これらのAB配列を明らかにすることができる。別の方法は、2つ以上の有機体のゲノム配列を比較して、すべてのゲノムにわたってその有無を示す各タンパク質に対する系統分類プロファイルを創出する。そのプロファイルは、タンパク質の異なる系統間の機能的リンクに関する情報を提供する。更に別の方法では、上記の2つの方法の組合わせを用いて、機能的リンクを予測する。

Description

【発明の詳細な説明】
【0001】 (米連邦支援研究に関する声明) アメリカ政府は、エネルギー省によって与えられる認可番号DE−FC03−
87ER60615、および国立衛生研究所によって与えられるGM31299
に従って、本発明における特定の権利を有する。
【0002】 (関連出願に対する相互参照) 本出願は、1999年1月29日出願の仮出願第60/117,844号、1
999年2月1日出願の仮出願第60/118,206号、1999年3月26
日出願の仮出願第60/126,593号、1999年5月14日出願の仮出願
第60/134,093号、および1999年5月14日出願の仮出願第60/
134,092号からの優先権を主張し、それら出願に対する優先権請求は、3
5U.S.C.の119(e)章に基づいて成される。これらの開示は参照によ
って本明細書へ組みこまれる。
【0003】 (技術の分野) 本発明は、タンパク質の機能を予測するための方法および装置に関する。特に
、本発明は、材料、ソフトウエア、自動化装置、およびタンパク質の機能を予測
するためにそれらを実行する方法に関する。
【0004】 (発明の背景) 近代生物学の核心は、遺伝情報が核酸ゲノムに存在するということにあり、か
かるゲノム(すなわち遺伝子型)に具体化される情報が細胞機能を方向付けると
いうことである。これは、有機体のゲノムにおけるさまざまな遺伝子の発現、お
よびかかる遺伝子の発現の調節を介して起きる。細胞や有機体の遺伝子の発現は
、細胞や有機体の物理的特性(すなわちその表現型)を定義する。これは遺伝子
からタンパク質への変換を通じて成し遂げられる。
【0005】 タンパク質(またはポリペプチド)は、アミノ酸の線状高分子である。タンパ
ク質を生産する重合反応は各アミノ酸から1分子の水の損失を生じ、従って、タ
ンパク質は、アミノ酸「残基」で構成されると言われることが多い。天然タンパ
ク質分子は、20種類程のさまざまなアミノ酸残基を含むことができ、それぞれ
が特徴的な側鎖を含む。タンパク質におけるアミノ酸残基のある種の線状配列は
、タンパク質の一次配列または一次構造を定義する。タンパク質の一次構造は、
周知の方法を用いて比較的容易に決定できる。
【0006】 さまざまな有機体に対する可能性のある治療、抗生物質および生物製剤をより
完全に理解し、判断するために、多くの有機体のゲノムを配列決定する努力が成
されている。例えば、ヒトゲノム解析計画は、ヒトゲノムの完全な配列を得て、
各遺伝子の生化学的機能を決定するという特定の目標を掲げて始まった。現在ま
でに、プロジェクトは、ヒトゲノムの相当な部分の配列をもたらした(J. Roach
, http://weber.u.Washington.edu/~roac/human_genome_progress2.html)(ギ
ブス、1995年)。少なくとも21の他のゲノムが既に配列決定されていて、
例えば、M.ゲニタリウム(M. genitalium)(フレーザー他、1995年)、M
.ジャンナッシ(M. jannaschii)(Bult他、1996年)、H.インフルエンザ(
H. influenza)(フライシュマン他、1995年)、E. Coli(E.coli)(ブラッ
トナー他、1997年)、および酵母菌(S. cerevisiae)(Mewes他、1997年
)を含む。著しい進歩が、C.エレガンス(C. elegans)、アラバドプシス(Araba
dopsis sp.)、およびD.メラノガスター(D. melanogaster)のマウス等のモデル
となる有機体のゲノムの配列決定において成されている。いくつかの機能的情報
の注釈が付いたゲノム情報を含む一部のデータベースは、異なる団体によって維
持され、インターネットを介してアクセス可能である。例えば、http://wwwtigr
.org/tdb, http://www.genetics.wisc.edu, http://genomewww.stanford.edu/
~ball, http://hiv-web.lanl.gov, http://www.ncbi.nlm.nih.gov, http://w
ww.ebi.ac.uk, http://Pasteur.fr/other/biology、および、http://www.genom
e.wi.init.eduである。ゲノムの原核酸配列は、利用可能な多数のアルゴリズム
の1つによって、タンパク質のアミノ酸配列に変換でき、それは細胞内プロセス
を莫大な配列で実行する。残念なことに、これらの原タンパク質配列データは、
タンパク質が細胞においてどのように機能するかについて直接的には記述しない
。(例えば代謝経路、分子間の信号、細胞分裂等の)さまざまな細胞のプロセス
の詳細を理解すること、そして、どのタンパク質がどのプロセスを実行するかが
、近代細胞生物学の中心課題である。
【0007】 進化を通じて、さまざまな生物のタンパク質配列は、変化する度合いを保存し
てきた。その結果、どの生物を取りあげても、他の生物のタンパク質と類似であ
ることが自明な多くのタンパク質を含む。同一祖先のタンパク質から派生してき
たかかる類似のタンパク質は、相同物と呼ばれる。
【0008】 タンパク質間の相同性の度合いは、新しいタンパク質配列へ生物学的機能を割
り当てる際に有用である。タンパク質に機能を割り当てるための最も直接的な方
法は、実験室での労力を要する実験による。しかし、特性が把握されていない特
定のタンパク質配列が実験室ですでに研究されたものに相同である場合、前者の
機能は、後者の機能と同等視できることが多い。
【0009】 残念なことに、相同性によってタンパク質に機能を割り当てる方法は完全では
ない。多くのタンパク質配列は、実験的に特性が得られた相同物を他の有機体に
おいて持たない。有機体によっては、ゲノムのタンパク質の3分の1から半分は
、相同性または他の利用可能な計算方法による機能割り当てができない。従って
、ゲノム配列からタンパク質の機能を予測する新しい方法が必要である。
【0010】 (発明の概要) ゲノム配列からタンパク質機能を決定することは、生物情報学の中心課題であ
る。ゲノム配列は、それらが暗号化するタンパク質の機能に関する明白な情報を
含んでいないが、それでも、この情報は医学や農業のバイオテクノロジにおいて
重要である。本発明は、材料、ソフトウエア、自動化装置、およびタンパク質機
能を予測するために有用な方法を提供する。例えば、かかる情報は、新しい遺伝
子を同定し、製薬化合物のための潜在的目標を同定するために有用である。
【0011】 一実施の形態において、本発明は、ある経路または構造的複合体において共に
機能するタンパク質が、単一のタンパク質に共に融合する別の有機体においても
見い出されることが多い、という考え方に基づく機能的リンク(例えばタンパク
質間のリンク)を予測するための方法を提供する。リンクまたは遺伝子融合のこ
れらのパターンを同定することによって、他の関連する(すなわち、機能的また
は物理的に関連する)タンパク質において見られる類似の配列情報に基づいて、
未知のタンパク質間の相互作用を予測することができる。配列比較によって、融
合されたタンパク質(本明細書において「ロゼッタストーン」タンパク質と呼ば
れる)を同定することができ、それは、互いに類似していない2つの別々のタン
パク質に対して、別の領域では類似している。これは、別の点では無関係な2つ
のタンパク質の機能的リンクを確定する。本発明者は、ロゼッタストーンタンパ
ク質を介して互いに関連するタンパク質が、機能的に強くリンクされる傾向があ
るということを発見した。
【0012】 別の実施例では、本発明は、共通の構造的複合体または代謝経路に参加するタ
ンパク質を検出する計算の方法を提供する。これらのグループ内のタンパク質は
、「機能的リンクを有する」として定義される。機能的リンクを有するタンパク
質は、関連した方法で進化し、従って、それらは有機体の同一部分集合の相同物
を有する。例えば、ベン毛を有するバクテリアにはベン毛(flagellar)タンパク
質が見つかるが、他の有機体にはないであろうと考えられる。簡単に言えば、2
つのタンパク質が、完全に(またはほとんど完全に)配列決定された有機体の同
一部分集合に相同体を有するが、他の有機体においては有しない場合、それらは
おそらく機能的リンクを有する。本発明は、この特性を用いてゲノムによって暗
号化されるすべてのタンパク質間の機能的相互作用を系統的にマップにする方法
を提供する。本方法は、機能的リンクを有するタンパク質の対が、一般に、アミ
ノ酸配列の類似性を互いに持たず、従って、従来の配列アラインメント法によっ
ては関連付けができないという問題を解決する。
【0013】 一実施の形態は、機能的リンクを有する多数のポリペプチドを同定する方法を
提供し、その方法は、明らかに非相同である多数のポリペプチドの一次アミノ酸
配列を、複数のタンパク質の一次アミノ酸配列に整列させることを含み、そして
、すべてのかかる明らかに非相同である多数のポリペプチドの一次アミノ酸配列
と、少なくとも一つのかかるタンパク質の一次アミノ酸配列との間に見られる任
意の整列に対して、多数のポリペプチド間の機能的リンクを示すものとして、少
なくとも1つのかかるタンパク質を同定する表示を出力することを含む。
【0014】 別の実施の形態においては、コンピュータプログラムが、機能的にリンクする
ようにタンパク質を同定するために提供される。コンピュータプログラムは、コ
ンピュータ装置に、明らかに非相同である多数のポリペプチドの一次アミノ酸配
列を、複数のタンパク質の一次アミノ酸配列に整列させ、そして、すべてのポリ
ペプチドの一次アミノ酸配列と、少なくとも一つのかかるタンパク質の一次アミ
ノ酸配列との間に見られる任意の整列に対して、かかるタンパク質同定の表示を
出力させるための命令を備える。
【0015】 更に別の実施の形態においては、本発明は、機能的リンクを有する複数のポリ
ペプチドを同定する方法を提供する。その方法は、タンパク質の一次アミノ酸配
列を、複数の明らかに非相同であるポリペプチドの各々の一次アミノ酸配列へ整
列させることを含み、少なくとも2つの明らかに非相同であるポリペプチドに類
似のアミノ酸配列を含むタンパク質の一次アミノ酸配列と、明らかに非相同であ
るポリペプチドの複数の一次アミノ酸配列との間に見られる任意の整列に対して
、機能的にリンクしている任意の明らかに非相同であるポリペプチドを同定する
表示を出力することを含む。
【0016】 別の実施の形態では、本発明は、複数のポリペプチドが機能的リンクを有する
と同定するためのコンピュータ可読の媒体に記憶されるコンピュータプログラム
を提供する。コンピュータプログラムは、コンピュータ装置にタンパク質の一次
アミノ酸配列を、明らかに非相同である複数のポリペプチドの各々の一次アミノ
酸配列へ整列させるための命令と、少なくとも2つの明らかに非相同であるポリ
ペプチドからのアミノ酸配列を含むタンパク質の一次アミノ酸配列と、明らかに
非相同であるポリペプチドの複数の一次アミノ酸配列との間に見られる任意の整
列に対して、機能的に関連している任意の明らかに非相同であるポリペプチドを
同定する表示を出力させる命令を備える。
【0017】 更に別の実施の形態においては、本発明は、多数のタンパク質が機能的リンク
を有すると同定するための方法を提供する。その方法は、少なくとも2つのゲノ
ムからのタンパク質のリストを含むデータ、タンパク質またはタンパク質族の各
々に対するタンパク質の系統分類プロファイルを形づくるためにタンパク質のリ
ストを比較するデータ、そして機能的リンクを示す類似プロファイルに基づいて
タンパク質のリストを分類するデータを得ることであり、ここで、タンパク質の
系統分類プロファイルは、タンパク質の相同性に基づく少なくとも2つのゲノム
の各々の特定のタンパク質族に帰属しているタンパク質の有無を示す。
【0018】 更に別の実施の形態において、本発明は、多数のポリペプチドが機能的リンク
を有すると同定するためのコンピュータ可読の媒体に記憶されるコンピュータプ
ログラムを提供する。コンピュータプログラムは、コンピュータ装置に下記のデ
ータを取得させるための命令を含む。すなわち、少なくとも2つのゲノムからの
タンパク質のリスト、タンパク質またはタンパク質族の各々に対するタンパク質
の系統分類プロファイルを形づくるためのデータ比較、ここで、タンパク質の系
統分類プロファイルは、タンパク質の相同性に基づく少なくとも2つのゲノムの
各々の特定のタンパク質族に帰属しているタンパク質の有無を示し、そして、機
能的にリンクされることを示す類似プロファイルに基づくタンパク質のリストの
グループ化である。
【0019】 更に別の実施の形態においては、本発明は、異なるタンパク質の系統分類プロ
ファイルを比較する際に、ゲノムからの単なる有無を越えた2つのタンパク質間
の進化の距離を決定するための方法を提供する。ここで、距離は付加情報として
用いられている。2つの配列を整列させることを含む方法は、条件付確率マトリ
クスp(aa aa')を作成することによって進化の確率プロセスを決定することを含
み、ここで、aaおよびaa' は任意のアミノ酸であり、前記条件付確率マトリクス
は、対数奇数マトリクスから前記条件付確率マトリクスへアミノ酸置換マトリク
スを変換することによって作成され、そして
【0020】
【数8】
【0021】 によって表される2つの配列のアラインメント中にある整列された各対に対する
条件付確率の積をとることによって、また、Pを最大にするパワーの式、p'=p(a
a aa')から進化の距離を決定することによって作成された条件付確率マトリクス
の観測されたアラインメントを明らかにすることを含む。
【0022】 更に別の実施の形態において、条件付確率マトリクスは、置換率を有するマル
コフ過程によって、固定した時間間隔全体にわたって定義される。
【0023】 更に別の実施の形態において、本発明は、少なくとも2つのポリペプチドの機
能的リンクを決定するための方法を提供する。本方法は、複数のタンパク質の一
次アミノ酸配列に多数の明らかに非相同であるポリペプチドの一次アミノ酸配列
を整列させることを含み、かかる多数の明らかに非相同であるポリペプチドのす
べての一次アミノ酸配列と、少なくとも1つのかかるタンパク質の一次アミノ酸
配列との間で見い出される任意のアラインメントに対して、少なくとも1つのか
かるタンパク質を、多数のポリペプチド間の機能的リンクを示すものとして同定
する表示を出力することを含み、少なくとも2つのゲノムからのポリペプチドの
リストを含むデータを取得することを含み、タンパク質またはタンパク質族の各
々に対するタンパク質の系統分類プロファイルを形づくるために少なくとも2つ
のゲノムからポリペプチドのリストを比較することを含み、ここで、タンパク質
の系統分類プロファイルは、ポリペプチドの相同性に基づく少なくとも2つの各
々において特定のタンパク質族に帰属しているポリペプチドの有無を示し、そし
て、類似プロファイルに基づいてポリペプチドのリストを分類することを含み、
ここで、類似プロファイルは、ポリペプチド間の機能的リンクを示し、最後に、
普通のリンクを決定するために、上記の同定された機能的リンクを比較すること
を含む。
【0024】 更に別の実施の形態において、本発明は、機能的リンクを、関連するタンパク
質のネットワークとして表示することを更に提供する。その表示は、機能的リン
クを有するタンパク質が、他のすべてのタンパク質より互いに近くになるように
、すべてのポリペプチドを線図上に配置し、線図上の群れに集まるタンパク質を
機能的に関連したグループとして同定することを含む。
【0025】 本発明の1つ以上の実施の形態の詳細は、付帯図面および下記説明に記載され
る。他の特徴、目的および本発明の利点は、説明書と図面から、そして請求項か
ら明らかであろう。
【0026】 (発明の詳細な説明) 本明細書および添付の請求の範囲で使用しているように、単数形「a」、「an
d」、および「the」は、文脈が明白に他を指示しない限り、複数の指示物を含む
。従って例えば、「(a)タンパク質」の参照は、複数のタンパク質を含み、「
(the)ポリペプチド」は普通一つ以上のポリペプチドの参照を含み、そして従
来技術に習熟した者にとってはそれについて周知であるに等しく、以下同様であ
る。
【0027】 特に定義しない限り、本明細書で用いられるすべての技術的かつ科学的な用語
は、本発明が属する技術分野に普通に習熟する者にとって普通に理解されるのと
同様の意味を有する。本明細書において記載されていることと同様な、または等
価な任意の方法、装置、および材料が、本発明の実行あるいは試験において用い
られてもよいが、好ましい方法、装置、および材料について以下に説明する。
【0028】 本明細書において言及されるすべての発行物は、データベース、タンパク質お
よび方法論を記載しかつ開示するために全てにわたって本明細書に引用して組み
込まれるものとする。それらは現在記載されている本発明と関連して使われるか
もしれない発行物に記載されている。上記の発行物はそのテキスト全体にわたっ
て、本出願の出願日以前の開示に対してのみ提供される。本明細書において、発
明者らに以前の発明によってかかる開示の日付けを早める権利を与えないことを
承認するものと解釈されるべきではない。
【0029】 (定義) 本明細書および添付の請求項において用いられる場合、次の用語は以下の意味
を有する。本明細書において特に定義されない用語は、それらの技術分野におい
て認められる意味を有する。
【0030】 「アミノ酸」は、中心の炭素原子(−炭素原子)が、水素原子、カルボン酸基
(本明細書では「カルボキシル炭素原子」と称される炭素原子)、アミノ基(本
明細書では「アミノ窒素原子」と称される窒素原子)、および側鎖群Rに連結さ
れる構造を有する分子である。ペプチド、ポリペプチドまたはタンパク質に組み
入れられる場合、アミノ酸は、1つのアミノ酸を別のものに結合する脱水反応で
そのアミノ酸のカルボン酸基の原子を1つ以上失う。その結果、タンパク質に組
み入れられる場合、アミノ酸は「アミノ酸残基」と呼ばれる。
【0031】 「タンパク質」は、ペプチド結合を介してリンクされる2つ以上の個々のアミ
ノ酸による任意のポリマーに関連する(自然に起きるかどうかは別にして)。1
つのアミノ酸の−炭素(またはアミノ酸残基)に結合されるカルボン酸基のカル
ボキシル炭素原子が、隣接のアミノ酸の−炭素へ結合されるアミノ基のアミノ窒
素原子へ共有結合される場合に起きる。用語「タンパク質」は、その意味におい
て用語「ポリペプチド」および「ペプチド」を含むものと理解される(本明細書
において交換可能として時に使用する)。加えて、多数のポリペプチドサブユニ
ット(例えば、DNAポリメラーゼIII、RNAポリメラーゼII)または他の成
分(例えば、テロメラーゼで起きるようなRNA分子)から成るタンパク質もま
た、本明細書において使われる「タンパク質」の意味に含まれると理解される。
同様に、タンパク質およびポリペプチドの断片もまた本発明の範囲内にあり、本
明細書において「タンパク質」と称されることもある。
【0032】 所与のタンパク質(すなわち、アミノ終点からカルボキシ終点まで書き込まれ
る場合、ポリペプチドの「一次構造」)の特定のアミノ酸配列は、mRNAの暗
号化部分のヌクレオチド配列によって決定される。次いで、それは、ゲノムDN
A(細胞小器官DNA、例えば、ミトコンドリアまたは葉緑体DNAを含む)で
ある遺伝情報により特定されるのが普通である。
【0033】 「機能的リンク」または「機能的リンクを有するポリペプチド」は、リンクさ
れると予測されるポリペプチドを意味する。例えば、普通の生化学や代謝経路に
おいては、関連したタンパク質複合体、物理的相互作用、または互いへの作用で
ある。
【0034】 (ロゼッタストーン法) この方法は、すべての既知のゲノム全体のタンパク質配列を比較して、1つの
有機体(または、2つの異なる有機体に別々に含まれる)において別々のタンパ
ク質が、他の有機体において、より大きな1つのタンパク質に接合される場合を
見つけ出す。そのような場合、2つの別々のタンパク質は、関連機能または順次
機能を実行し、より大きいタンパク質複合体の一部を形成することが多い。従っ
て、1つの成分(例えば、未知のタンパク質の1つ以上)の全体的な機能は、既
知の他の成分の機能から推定できる。加えて、本明細書で説明する方法を用いて
単にタンパク質のリンクを同定することは、リンクを形成するために用いる1つ
以上のタンパク質の機能が既知であるかどうかとは無関係に価値ある情報を提供
する。2つの成分は類似のアミノ酸配列を有しないので、配列類似性のみに基づ
いて一方の機能を他方から推定することはできない。
【0035】 本明細書において記載されている方法(すなわち「ロゼッタストーン法」)は
、共通の構造的複合体、代謝経路、生物学的プロセス、あるいは密接に関連する
生理的機能に参加するタンパク質が、機能的にリンクしているという発想に基づ
く。加えて、本方法はまた、物理的に互いに相互作用するタンパク質を同定する
ことができる。1つの有機体の機能的リンクを有するタンパク質が、異なる有機
体の単一のポリペプチド鎖に融合されて見い出せることが多い。同様に、1つの
有機体の融合されたタンパク質は、他の有機体の個別のタンパク質として見い出
せる。例えば、最初の有機体において、または2つの別々の有機体において、未
知の機能を有するリンクのないタンパク質「A」および「B」を同定することが
あるかもしれない。別の有機体において、一部は「A」に似て、一部は「B」に
似ている単一のタンパク質「AB」を見つけ出すこともある。タンパク質ABに
よって、「A」と「B」が機能的に関連していると予測することができる。ロゼ
ッタストーン法において各々の識別可能なタンパク質の特定の機能的活性は、そ
の方法を実行する前に既知である必要はない(すなわち、A、BまたはABの機
能が既知である必要はない)。未知のタンパク質を用いるロゼッタストーン法を
実行することは、タンパク質それ自身の機能的活性についての予備知識のない各
々のタンパク質の関係についての情報を提供できる。例えば、その情報(すなわ
ちリンク)は、タンパク質が関連プロセスまたは物理的相互作用において普通の
経路、機能の一部であるという情報を提供することができる。かかる情報は、個
々のタンパク質の生物学的機能に基づく必要はない。本発明の方法は、互いに機
能することが以前には知られていない、例えば、協調プロセスにおけるタンパク
質間の機能的リンクについての情報を提供することができる。例えば、特定の病
気状態を示すマーカーは、タンパク質の有無によって同定される(例えば、乳ガ
ン検出のHer2/neu)。かかるマーカーへタンパク質「B」と「C」をリ
ンクさせるような本発明の方法によって同定されるリンク(すなわち情報)は、
タンパク質「B」と「C」が、機能および物理的相互作用によって関連している
か、または、マーカーと共通の生物学的経路の一部であることを示唆する。かか
る情報は、診断をする際、薬品選択および治療法を判断する際に有用である。従
って、本発明のロゼッタストーン法は、例えば3つのタンパク質、すなわち互い
に異なるが別のタンパク質ABへの配列においては類似している2つのタンパク
質A’とB’について、不完全な「三角関係」を探すという配列比較により実行
される。三角関係の調査完了は、「三角形」を成す他のタンパク質に対するタン
パク質の生物学的機能、機能的相互作用、経路関係、または物理的関係に関する
有益な情報を提供する。
【0036】 実施例として、図1は、領域融合解析(すなわちロゼッタストーン法)によっ
て相互作用することを予測されたE. Coliタンパク質の5対の例を示す。各タン
パク質は、(ProDom領域データベースにおいて定義されるような)領域を
表す囲みで略図的に示される。各々の例では3つのタンパク質が図示される。そ
れらの相同物が第1のタンパク質(ロゼッタストーンタンパク質と呼ばれる)に
おいて融合するので、第2と第3のタンパク質は相互作用すると予測される。最
初の3つの予測は、実験から相互作用することが周知である(杉野他、Nucleic
Acids Res. 8、3865、1980年;イェーおよびオルストン、J. Biol. Ch
em. 256、1565、1981年;マッケンリーおよびクロー、J. Biol. Che
m. 254、1748、1979年)。最後の2つの例は、直接的な相互作用が
周知ではない同一経路(ヒスチジン生合成経路からの2つの不連続酵素、および
プロリン生合成経路の最初の2ステップ)からのタンパク質の対を示す。本発明
者は、3つのタンパク質のこのパターンが存在する場合、つまり、他の有機体か
らの単一のタンパク質の異なる部分へ相同である最初の有機体からの(または2
つの明らかに異なる有機体からの)2つの別々のタンパク質が存在する場合、2
つの別々のタンパク質は、偶然以上の高い確率で物理的にまたは機能的にリンク
されていることを示すデータに基づいて、通常「機能的にリンクされる」という
ことを認識した。従って本発明は、互いにアミノ酸配列の類似性を有せず、それ
故に従来の配列アラインメント法ではリンクすることができない場合でも、ロゼ
ッタストーン法によって見い出されるリンクされたタンパク質間の関係を提供す
ることによって、従来の方法の欠点を克服できる。
【0037】 本発明の方法は、ヌクレオチド配列とアミノ酸配列の両方に適用できる。アミ
ノ酸配列を用いて、本発明の方法を実行するのが普通である。しかし、核の配列
が用いられるべき場合は、核酸配列からアミノ酸配列に翻訳されるのが普通であ
る。暗号化配列が未知の場合、かかる翻訳が核酸配列のすべてのフレームで成さ
れてもよい。核酸配列を翻訳できるプログラムは、従来技術において周知である
。加えて、単純化のために本発明の記述は、ロゼッタストーンタンパク質の決定
に際して、タンパク質の「一対」を使用して説明するが、2つ以上(例えば、3
、4、5、10、100以上のタンパク質)が用いられてもよい。従って、「A
」がロゼッタストーンタンパク質によって「B」にリンクされ、「B」がロゼッ
タストーンタンパク質によって「C」にリンクされ、等のように、リンクされた
タンパク質の鎖を解析できる。この方法によって、機能的に関連したタンパク質
のグループが見い出され、それらの機能が同定される。
【0038】 一実施の形態において、本発明の方法は、その機能的関係が決定されるべき複
数のタンパク質に対して一次アミノ酸配列を同定することから始まる(例えばタ
ンパク質A’およびタンパク質B’)。上記のように、本発明の第一段階で用い
る核酸配列および/または推定されたアミノ酸配列のどちらかを含む多くのソー
スのデータベースが利用できる。試験されるすべての配列(「プローブ配列」)
を用いて、同時にまたは個別に、配列データベース(例えば、GenBank、
PFAMまたはProDom)を検索する。配列データベースのすべてのタンパ
ク質は、ロゼッタストーンタンパク質(すなわち、ポリペプチド配列、またはタ
ンパク質A’とタンパク質B’からの領域を含む単一のタンパク質)として作用
する能力を有するかどうか試験される。かかる配列検索を実行する多くのさまざ
まな方法は、従来技術において周知である。例えば、かかる配列アラインメント
法は、BLAST(Altschul他、1990年)、BLITZ(MPsrch)(
Sturrockおよびコリンズ、1993年)およびFASTA(パーソンおよびリッ
プマン、1988年)を含む。プローブ配列は、任意の長さでよい(例えば、1
000以上のアミノ酸残基に対する約50のアミノ酸残基)。
【0039】 単一のタンパク質(例えばABタンパク質)において見い出されるプローブ配
列(例えばポリペプチド配列または領域)は、そのタンパク質によって「リンク
される」として定義される。プローブ配列の対を個々に用いて、配列データベー
スを検索する。後続のプローブ配列によって検索する前に、配列データベースの
タンパク質において見い出される最初のプローブ配列に対して相同性を有するそ
れらのセグメントをマスキングしてもよい。この方法で、2つ以上のプローブ配
列間の可能性のある任意のオーバラップ配列を除外する。
【0040】 次いで、リンクされたタンパク質は、アミノ酸配列比較によって互いの類似性
について更に比較することができる。配列が高い相同性を有する場合、かかる発
見がホモ−2量体、−3量体等の形成を示すことがある。リンクされたタンパク
質が互いに非相同性を示す場合(例えば、ヘテロ2量体、3量体等)、ロゼッタ
ストーンにリンクされたタンパク質のみが保たれるのが普通である。
【0041】 本発明の方法の別の実施の形態においては、いかなる機能的情報も欠如してい
る潜在的融合タンパク質、および2つ以上の領域を有する疑いのあるもの(例え
ば潜在的ロゼッタストーンタンパク質)を用いて、同様の方法によってリンクの
あるタンパク質を検索できる。本実施の形態において、融合タンパク質の一次ア
ミノ酸が決定されて、プローブ配列として用いられる。このプローブ配列を用い
て、配列データベース(例えばGenBank、PFAMまたはProDom)
を検索できる。配列データベースのすべてのタンパク質は、潜在的融合タンパク
質(すなわち、潜在的融合タンパク質からのポリペプチド配列または領域を含む
多数のタンパク質)に相同性がないか調べられる。かかる配列検索を実行する多
くのさまざまな方法は、従来技術において周知である(例えばBLAST、BL
ITZ(MPsrch)およびFASTA)。
【0042】 1つを超えるタンパク質(例えばA’とB’タンパク質)に見られるプローブ
配列は、その領域を含むが他の領域は含まない領域につき少なくとも1つのタン
パク質がまた同定されれば、「リンクしている」として定義される。つまり複数
のタンパク質の少なくとも1つのタンパク質または領域はまた、配列データベー
スにおいて単独で見付けられなければならない。これはタンパク質または領域が
第1のタンパク質の全体ではなく、むしろそれ自身の機能特性を有する第2の独
立のタンパク質であることを証明する。
【0043】 統計的方法を用いて可能な一致の有意性を判断する。アラインメントスコアの
統計的有意性は、配列が均質である場合より高いスコアを得る確率Pによって記
述される。閾値Pを計算する1つの方法は、実行されるべき配列比較の総数を最
初に考慮することである。E. ColiにN個のタンパク質があり、他のすべてのゲ
ノムにM個がある場合、この数はN×Mである。ランダムな配列のこの数の比較
が、偶然に1/NMのP値を生むための1つの対をもたらす場合には、次いで閾
値として設定される。その閾値は、所望の精度に従って高く設定しても低く設定
してもよい。
【0044】 本発明の方法は、どのタンパク質が、有機体において物理的に相互作用するタ
ンパク質の部分集合に機能的にリンクされるかに関する情報を提供する(例えば
、関連した生物学的機能、共通の構造的複合体、代謝経路、信号経路、または他
の生物学的なプロセス)。
【0045】 図2は、本発明の2つの実施の形態の概略を示す動作フロー図である。 図2Aと図2Bは、タンパク質の機能的リンクまたは関係を予測するロゼッタ
ストーンタンパク質の使用を表す。図2Aを参照して、ステップ102では、少
なくとも2つの明らかに非相同であるポリペプチドの一次アミノ酸配列がコンピ
ュータへ入力される。2つのポリペプチドの生物学的機能は、既知であっても未
知であってもよい。ポリペプチドの一次配列は、手動で(すなわち、コンピュー
タに配列をタイプすることによって)入力してもよいし、または上記のようなさ
まざまなデータベースを介して利用できるタンパク質または核酸配列のデータベ
ースから導き出してもよい。「実質的に相同である」とは、アラインメントスコ
アのp値が統計学的に有意であるということを意味する。公開されて利用できる
多くのアラインメントプログラムを用いて、例えばBLASTやFASTAを含
む相同性を決定できる。ポリペプチド配列の比較は、ポリペプチドが非相同であ
ることを確認するために実行されることもある。その結果、明らかに非相同なポ
リペプチド領域を有するタンパク質だけが、それ以上の解析のために用いられる
【0046】 ステップ106では、明らかに非相同であるポリペプチド領域を有する入力ポ
リペプチド配列が、タンパク質配列データベースに含まれる配列と整合される。
タンパク質の生物学的機能は既知であっても未知であってもよい。タンパク質配
列を有するデータベースの例は、例えばGenBank、PFAM、スイスプロ
ットまたはProDomを含む。配列データベースのすべてのタンパク質は、第
1と第2のタンパク質に相同性がないか調べられる。かかる配列検索を実行する
多くのさまざまな方法は、従来技術において周知である(例えば、BLAST、
BLITZ(MPsrch)およびFASTA)。先に同定し、ステップ108
で示したように、普通は、一致は閾値pによって決定される。一致が見つからな
い場合、この決定はステップ110で示される。入力ポリペプチド配列は、デー
タベースのタンパク質と同時に整列されてもよいし、または順次整列されてもよ
い。順次アラインメントにおいて、以前に整列されたポリペプチドと一致するそ
れらのタンパク質は、マスキングされてもよい。ステップ102で入力されるす
べてのポリペプチドの配列を含むデータベースからのタンパク質(例えば、タン
パク質Aとタンパク質Bの両方からの配列を含む、すなわちロゼッタストーンタ
ンパク質)の一致は、ステップ114で同定され、リストがコンパイルされ、そ
して任意の一致するタンパク質が示される。一致したタンパク質の機能が既知で
ある場合、この機能を用いて未知のポリペプチド配列の可能な機能を決定する。
代替として、一致したタンパク質のアラインメントおよびコンパイルに続いて、
後述するように(フィルタリング法を参照)、一致したタンパク質にステップ1
12で更にフィルタをかけてもよい。本発明者は、ロゼッタストーンタンパク質
を介して互いに関連するタンパク質が、機能的に強くリンクされる傾向があると
いうことを発見した。
【0047】 次に図2Bを参照して、タンパク質の機能的リンクを決定するための代替の方
法が提供される。本実施の形態において、ある者は潜在的ロゼッタストーンタン
パク質から始めて、逆に仕事を進める。ステップ120において、ロゼッタスト
ーンタンパク質の一次アミノ酸配列は、コンピュータへ入力される。タンパク質
の一次配列は、手動で(すなわち、コンピュータに配列をタイプすることによっ
て)入力してもよいし、または上記のようなさまざまなデータベースを介して公
開されて利用できるタンパク質または核酸配列のデータベースから導き出しても
よい。
【0048】 ステップ122において、タンパク質配列は、タンパク質配列のデータベース
と整合される。配列データベースのすべてのタンパク質は、ロゼッタストーンタ
ンパク質の領域に相同性がないか調べられる。かかる配列検索を実行する多くの
さまざまな方法が、従来技術において周知である(例えば、BLAST、BLI
TZ(MPsrch)およびFASTA)。先に同定し、ステップ124で示し
たように、普通は、一致は閾値pによって決定される。一致が見つからない場合
、この決定はステップ126で示される。明らかに一致したタンパク質のリスト
は、コンパイルされて、ステップ130で示される。明らかに非相同であるポリ
ペプチドがロゼッタストーンタンパク質へ重なり合わないで確実に整列するよう
、明白なポリペプチドが相同性を決定するために比較される。これは、その領域
を含むが他の領域は含まない領域につき少なくとも一つのタンパク質の同定を確
実にする。つまり、データベースにある未知のタンパク質の少なくとも1つのタ
ンパク質または領域もまた、配列データベースにおいて単独で見付けられなけれ
ばならない。これは、第1の一致タンパク質が第2の一致タンパク質と相同でな
いことを証明する。
【0049】 (アラインメントアルゴリズム) 配列を整列させるために、配列における対応する残基間の良好な一致を生み出
す多くのさまざまな手順が用いられる。代表的には、スミス−ウォーターマンか
ニードルマン−ブンシュのアルゴリズムが使われる。しかし、先に説明したよう
に、例えばBLAST、FASTA、PSI−BLAST等のより高速な手順を
用いることができる。
【0050】 (フィルタリング法) 本明細書において説明されているロゼッタストーン法は、少なくとも2つの情
報を提供する。第1に、本方法は、どのタンパク質が機能的に関連しているかに
関する情報を提供する。第2に、本方法はどのタンパク質が物理的に関連してい
るかに関する情報を提供する。これら2つの情報の各々は、誤差および予測を生
むさまざまなソースを有する。第1のタイプの誤差は、多くの異なるタンパク質
で起き、多くの他のタンパク質配列によって対になったタンパク質配列によって
導入される。第2のタイプの誤差は、一つの有機体にパラログ(paralog)と呼ば
れる類似のタンパク質の多数のコピーがあることが多いことにより導入される。
一般に、ロゼッタストーン法は、結果にフィルタをかけることを必要とせずに、
機能的に関連したタンパク質を良好に予測する。しかし、第1か第2のタイプの
どちらかの情報と関連する誤差をフィルタにかけることが可能である。
【0051】 本発明者は、ロゼッタストーンタンパク質によって、僅かな領域が非常に多く
の他の領域へリンクされるということを認識した。本発明者は、例えば、95%
の領域が13個の他の領域よりもリンクが少ないことを認識した。しかし領域(
例えば、Src相同3(SH3)領域、またはATP結合カセット(ABC領域
))によっては、100個以上の他の領域とリンクしている。これらのリンクは
、これら5%の領域(すなわち、13個を超える他の領域とリンクされた領域)
を含んで発生する全てのリンクを除去することによりフィルタをかけられた。例
えば、E. Coliではフィルタをかけないで3531個のリンクが領域に基づく解
析を用いて同定されたが、フィルタをかけた後では749個のリンクだけが同定
された。この方法は、機能的にリンクされたタンパク質の予測を28%まで、物
理的にリンクされたタンパク質を47%まで改善した。従って、機能的リンクの
有意性を改善するために結果にフィルタをかける多くの方法がある。先に説明し
たように、機能的リンクの数が増加するにつれて、ロゼッタストーンタンパク質
を見つける機会がより高くなる。過度にリンクされたタンパク質を減らすことに
よって、ロゼッタストーンタンパク質の機会数を減らし、こうして機能的リンク
の有意性を増加させる。加えて、パラログが非常に類似の機能を通常有するので
、リンクされたタンパク質の多数のパラログによって導入される誤差は、機能的
予測にほとんど影響しないが、タンパク質−タンパク質相互作用の予測の信頼性
には影響を及ぼすということが認識された。この推定は、各々のリンクされたタ
ンパク質の対について計算され、概ね以下のように評価できる:
【0052】
【数9】
【0053】 ここでNは、パラログなタンパク質の対の数である。(例えば、BとB’でもそ
うであるが、AとA’がパラログである場合には、BにリンクされるA、B’に
リンクされるA’、B’にリンクされるA、そしてBにリンクされるA’となる
。また、関連しているタンパク質は上記のようにABである)。
【0054】 誤差はまた、1−Tとして評価できる。ここで、Tは、有機体のすべての領域
の対について計算される潜在的真の正の平均百分率である。ロゼッタストーンタ
ンパク質によってリンクされる各々の領域の対について、第1の領域を有するn
個のタンパク質があるが、第2にはない。そして第2の領域を有するm個のタン
パク質があるが、第1にはない。真の正であるTの百分率は従って、nまたはm
の小さい方をnかけるmで割ったものとして評価される。この誤差1−Tが、リ
ンクされた領域の各集合について計算できるように、任意の特定の予測された相
互作用における信頼を記述することができる。
【0055】 加えて、機能的リンクの誤差は、小さな保存された領域によって生じることが
あり、または複数の明らかに非相同であるポリペプチドによって、ロゼッタスト
ーンタンパク質において繰り返し同定されている共通のアミノ酸配列が繰り返さ
れる。この誤差を減らすために、ロゼッタストーンと明らかに非相同であるポリ
ペプチドとの間のアラインメント百分率、すなわち別の方に整列させ得る全配列
の割合、が測定できる。
【0056】 ロゼッタストーンと明らかなポリペプチドとの間の約50%から90%のアライ
ンメント百分率、より代表的には75%は、小さなペプチド配列に従属しないリ
ンクを示す。
【0057】 (系統分類プロファイル法) 系統分類プロファイル法は、すべてのまたは多くの既知のゲノム全体にわたっ
て、タンパク質配列を比較し、異なる有機体全体にわたる各々のタンパク質の継
承パターンを解析する。最も簡単な形では、各々のタンパク質は、各有機体にお
けるその有無によって単純に特徴づけられる。例えば、16個の既知のゲノムが
ある場合、各タンパク質は、16ビットコードまたは系統分類プロファイルを割
り当てられる。タンパク質が互いに機能し合い、(例えば、同一代謝経路におい
て、またはより大きい構造的複合体の一部として)、相関しながら進化するので
、それらは同一または類似の継承パターン、従って類似の系統分類プロファイル
、を持つべきである。従って、1つのタンパク質の機能は、その機能が既知の場
合、類似プロファイルを有する別のタンパク質の機能から推定できる。(上記の
)ロゼッタストーン法と同様に、1つのタンパク質の機能は、配列において異種
である別のタンパク質の機能から推定される。更に、2つのタンパク質のどちら
もが割り当てられた機能を有しないとしても、タンパク質間の予測されるリンク
は、例えば診断と治療学などの進歩における有用性を持つ。系統分類プロファイ
ル法は、関連した配列が、異なるゲノムにおいてどれくらい類似しているかにつ
いて記述するバイナリーコード(すなわち、有機体に与えられたタンパク質の有
無を記述する)または連続コードで実行できる。加えて、類似のタンパク質プロ
ファイルの分類がなされ、類似プロファイルが機能的に関連したタンパク質を表
すこともある。更に、類似性のための必要性は、類似のビットの必要性の差を変
化させることによる特定の基準に応じて、修正できる。例えば、プロファイルの
類似の程度が、同一視できる16ビットすべてを含むことを必要とする基準が設
定できるが、16ビット中の15ビットの類似性がタンパク質プロファイルの相
関性をも示すことができるように修正してもよい。統計的方法を用いて、2つの
パターンが関連するにはどれくらい類似でなければならないかを決定する。
【0058】 ここで説明される系統分類プロファイル法は、ウィルス、バクテリア、アルカ
エアル(archaeal)、または真核有機体を含む任意のゲノムにも適用可能である。
系統分類プロファイル分類の方法は、以前に特性が得られていないタンパク質に
ついての機能の予測を提供する。その方法はまた、特性が求められたタンパク質
についての新しい機能的役割の予測を可能にする。それはまた、特性が得られて
いないタンパク質間の潜在的な情報の連結(すなわちリンク)をも提供する。
【0059】 タンパク質の系統分類プロファイルの方法を、4つの完全に配列決定されたゲ
ノムを仮定した場合について、図3に略図として示し、7つのタンパク質(P1
からP7)の機能的関係を記載する。各々の仮定のE. Coliタンパク質について
プロファイルが作成され、どのゲノムがタンパク質の相同性について暗号化をす
るかについて示した。プロファイルの群またはグループは、どのタンパク質が同
じプロファイルを共有するかについて判定できるよう作り上げられた。同一の(
または類似の)プロファイルを有するタンパク質は、それらが機能的にリンクさ
れるべきであろうことを示すために四角で囲まれる。線によって結ばれる囲みは
、1ビットだけ異なり、密接と呼ばれる系統分類プロファイルを有する。
【0060】 一実施の形態において、計算方法は、共通の構造的複合体または代謝経路に参
加するタンパク質を検出する。これらのグループ内のタンパク質は、「機能的に
リンクされた」として定義される。機能的にリンクされたタンパク質は相関した
方法で進化し、従って、有機体の同一部分集合において相同物を有する。例えば
、ベン毛を有するバクテリアにはベン毛タンパク質が見つかるが、他の有機体に
はない。従って、2つのタンパク質が、完全に配列決定された有機体の同一部分
集合に相同物を有する場合、それらは機能的にリンクされてもよい。本発明の方
法は、ゲノムによって暗号化されるすべてのタンパク質間のリンクを系統的にマ
ップにするというこの考え方を用いる。機能的リンクを有するタンパク質は、普
通、互いにアミノ酸配列の類似性を有しないので、従来の配列アラインメント法
によってリンクすることができない。
【0061】 相同性を含む有機体の部分集合を表すために、系統分類プロファイルが各タン
パク質について作成される。タンパク質の系統分類の歴史を表す最も簡単な方法
は、各タンパク質についてバイナリの系統分類プロファイルを介することである
。このプロファイルは、各々1ビットを有するN項目からなるストリングであり
、ここで、Nはゲノムの数と一致する。ゲノムの数は、2以上の任意の数でよい
(例えば、2、3、4、5、10、100、1000以上まで)。n番目のゲノ
ムにおける所与のタンパク質に対する相同物の存在は、n番目の位置に1を入力
することによって示される(例えばバイナリーシステムでは1を入力)。相同物
が見つからない場合は、入力はゼロである。タンパク質は、それらの系統分類プ
ロファイルの類似性によって群を形成する。類似プロファイルは、相関する継承
パターンおよび定義によって機能的リンクを示す。本方法は、特性が得られてい
ないタンパク質の機能が、群(図3)の範囲内にあれば、特性が得られたタンパ
ク質と同様であるべきであろうと予測する。
【0062】 ゲノムが、別の特定のタンパク質に関するタンパク質を含むかどうかを判定す
るために、質問中のアミノ酸配列を、既知のアラインメントアルゴリズム(上記
を参照)を用いて、問題のゲノムからの各タンパク質と整列させる。任意のアラ
インメントスコアの統計的有意差を決定するため、配列が均質にされる場合より
高いスコアを得る確率pが記述される。閾値pを計算する1つの方法は、最初に
、整列している全配列数の比較を考慮することである。第1の有機体のゲノムに
N個のタンパク質があり、他のすべてのゲノムにM個のタンパク質がある場合、
この数はN×Mである。この数をランダムな配列と比較すると、1つの対が1/
NMのp値を生むと予想される。この値は閾値として設定できる。他の閾値を用
いてもよく、従来技術に習熟する者には理解されよう。
【0063】 別の実施の形態では、非バイナリの系統分類プロファイルが用いられる。本実
施の形態において、系統分類プロファイルは、N項目のストリングである。n番
目の項目は、n番目のゲノムにおける相同物に対する質問中のタンパク質の進化
の距離を表す。2つの配列間の進化の距離を定義するために、2つの配列間のア
ラインメントが実行される。かかるアラインメントは、当該技術で周知のどのア
ルゴリズムによっても実行できる(例えば上記を参照のこと)。進化は、固定し
た時間間隔全体にわたって、置換率を有するマルコフ過程によって表され、条件
付確率マトリクスによって与えられる:
【0064】
【数10】
【0065】 ここで、aaとaa'は、任意のアミノ酸である。かかるマトリクスを作成する1つ
の方法は、BLOSUM62アミノ酸置換マトリクス(または他の任意のアミノ
酸置換マトリクス、例えばPAM100、PAM250)を、対数奇数マトリク
スから条件付確率(または転移)マトリクスへ変換することである:
【0066】
【数11】
【0067】 P(i j)は、BLOSUM62 のスコアによる点変異を介して、アミノ酸iがア
ミノ酸jによって置換される確率である。pjはアミノ酸jの発生量であり、正
規化条件によって与えられる20個の線形方程式を解くことによって計算される
【0068】
【数12】
【0069】 このプロセスの確率は、各整列された対に対する条件付確率の積をとることによ
って観測されたアラインメントについて計量するために計算される:
【0070】
【数13】
【0071】 次いで、進化モデルの族は、条件付確率マトリクスのパワーをとることによって
試験される:p'=p(aa aa')。Pを最大にするパワーは進化の距離となるよう定
義される。
【0072】 多くの他の案が、2つの配列間の進化の距離を推定するよう考えられている。
例えば、2つのタンパク質が異なるアミノ酸を適合させた配列の位置の数を計数
するだけでよいかもしれない。
【0073】 有機体の系統分類の歴史はベクトルとして表されるが(上記のように)、系統
分類プロファイルがベクトルである必要はなく、マトリックスによって表される
。このマトリクスは、それぞれが異なる有機体からのものである一群の相同タン
パク質間のすべての対の賢明な距離を含む。同様に、系統分類プロファイルは、
相同タンパク質の進化のツリーとして表されてもよい。次いで、機能的タンパク
質は、ベクトルまたはマトリックスよりむしろ、類似のツリーを一致させること
によって群としてまとめたり、またはグループ化できる。
【0074】 機能を予測するために、異なるタンパク質は、それらの系統分類プロファイル
の類似性によってグループ化され、または群としてまとめられる。類似プロファ
イルは、相関のある継承パターン、およびその定義によって、機能的リンクを示
す。系統分類プロファイル法は、特性が得られていないタンパク質の機能が、群
またはグループ内の特性が得られているタンパク質と類似していそうであると予
測する。
【0075】 群またはグループ化は、さまざまな方法で達成される。最も単純なものは、2
つのプロファイル間のユークリッド距離を計算することである。別の方法は、2
つのプロファイル間の類似性を定量化するために相関係数を計算することである
。質問中のプロファイルの指定された距離内のすべてのプロファイルは、群また
はグループであると考えられる。
【0076】 ゲノムデータベースが配列情報のソースとして用いられるのが普通である。ゲ
ノムデータベースが核酸配列のみを含むところでは、核酸配列は、(既知であれ
ば)フレームにおける、または未知であればすべてのフレームにおけるアミノ酸
配列に翻訳される。2つ以上の有機体の核酸配列の直接比較が実行可能であるか
もしれないが、遺伝子暗号の縮退のためによりむずかしいと考えられる。核酸配
列を翻訳することができるプログラムは、従来技術において周知であり、または
技術に習熟する者によって容易にプログラムされて、各アミノ酸についてのコド
ン配列が認識される。
【0077】 図4は、系統分類経路法によって機能的に関連したタンパク質を決定する際に
用いられる基本アルゴリズムを説明するフロー図を表す。図4Aにおけるステッ
プ220から始まって、少なくとも2つの有機体からのタンパク質のリストを表
すデータが得られる。本明細書において説明されているように、データは手動で
入力されてもよく、またはデータベースからロードまたは取得してもよい。デー
タは、アミノ酸配列リストまたは核酸配列リストの形であるのが普通である。ス
テップ222で、タンパク質のリストは、系統分類プロファイルを作るために比
較される。系統分類プロファイルは、ある程度の相同性を共有する少なくとも2
つの各有機体のタンパク質の表示を提供する。かかる比較は、従来技術において
周知であるか、または従来技術に習熟する者によって容易に開発される任意の数
のアラインメントアルゴリズムによってなされる(例えばBLAST、FAST
Aその他の上記一覧を参照のこと)。加えて、必要とされる相同性の程度に関す
る閾値が設定される。次いで、各タンパク質は、類似の系統分類プロファイルを
共有する関連タンパク質について224でグループ化される。グループ化アルゴ
リズムは、例えば本明細書において説明されているものを含む。226では、類
似プロファイルを共有するタンパク質が示され、もしあれば既知の機能が同定さ
れる。
【0078】 図4Bを参照すると、図4Aの方法の修正が示されている。図4Bにおけるス
テップ320から始まって、少なくとも2つの有機体からのタンパク質のリスト
を表すデータが得られる。本明細書において説明されているように、データは手
動で入力されてもよく、またはデータベースからロードまたは取得してもよい。
データは、アミノ酸配列リストまたは核酸配列リストの形であるのが普通である
。ステップ322で、タンパク質のリストが、入力された有機体の各タンパク質
間で整列される。かかるアラインメントは、当該技術において周知か、または当
該技術に習熟する者によって容易に開発される任意の数のアラインメントアルゴ
リズムによってなされる(例えばBLAST、FASTAその他の上記一覧を参
照のこと)。ステップ324で、進化の距離の値は、上記した方法によって計算
される。進化の距離の閾値がステップ326で満たされる場合、進化の閾値を満
たしているそれらのタンパク質はステップ328で同定される、さもなければ、
一致はステップ327に示されない。
【0079】 (組合せ方式) ロゼッタストーン法による機能的にリンクされたタンパク質の予測は、例えば
、タンパク質の系統分類プロファイル法、または相関mRNA発現パターンの解
析等の、機能的にリンクされたタンパク質を予測する他の方法によってフィルタ
ーをかけることができる。これら3方法のうちの2つ以上により機能的リンクが
予測されたタンパク質酵母菌に対するロゼッタストーン予測についての、これら
2つの方法によるフィルタリングが、イースト2混成法、または共同免疫沈降法
のような実験技法によって、物理的相互作用が観察されたタンパク質と機能的に
関連しそうであったということが発見された。
【0080】 予測のこれらの方法の組合わせを用いて、非常に高い信頼性を有するタンパク
質間の機能的リンクを確定する。本発明の方法(すなわち、ロゼッタストーン法
と系統分類プロファイル法)は、もう一つの方法または当該技術で周知の他のタ
ンパク質予測方法(例えば、アイゼン他、「ゲノムに広がる発現パターンのクラ
スター分析および表示」、全米科学アカデミー会報、95:14863−8、1
998年を参照)と組み合わされる。
【0081】 (コンピュータ実行) 上記した本発明のさまざまな技術、方法および局面は、コンピュータによって
動作する装置および方法を用いて部分的または全面的に実行できる。加えて、コ
ンピュータによって動作する装置および方法を用いて、上記した機能性を増大さ
せたり高めたり、機能が実行される速度を高めたり、そして、この書類のどこか
に記載した本発明の一部としての、または追加された付加的特徴および局面を提
供したりすることができる。上記の技術に従っての各種のコンピュータによって
動作する装置、方法および実行を以下に示す。
【0082】 プロセッサに基づく装置は、主記憶装置、好ましくはランダムアクセスメモリ
(RAM)および2次記憶装置を含むことができる。2次記憶装置は例えば、ハ
ードディスク装置、および/またはフロッピー(登録商標)ディスクドライブ、 磁気テープドライブ、光ディスクドライブ等で代表されるリムーバブル記憶ドラ イブを含むことができる。リムーバブル記憶ドライブは、リムーバブル記憶媒体 を読みとり、および/または書き込む。リムーバブル記憶媒体は、フロッピーデ ィスク、磁気テープ、光ディスク等を表し、リムーバブル記憶ドライブによって 読みとられ、書き込まれる。リムーバブル記憶媒体が、コンピュータソフトウェ アおよび/またはデータを記憶したコンピュータが使用可能な記憶媒体を含むの は明らかである。
【0083】 代替の実施の形態において、2次記憶装置は、コンピュータプログラムまたは
他の命令をコンピュータ装置にロードすることを可能にする他の同様な手段を含
んでもよい。かかる手段は、例えばリムーバブル記憶装置およびインターフェー
スを含むことができる。そのような例は、プログラムカートリッジとカートリッ
ジインターフェース(例えばテレビゲーム装置で見られるもの)、移動可能メモ
リーチップ(例えばEPROMまたはPROM)と取付けのソケット、およびソ
フトウエアとデータをリムーバブル記憶装置からコンピュータ装置へ転送できる
他のリムーバブル記憶単位とインターフェースを含むことができる。
【0084】 コンピュータ装置はまた、通信インターフェースを含むことができる。通信イ
ンターフェースによって、ソフトウエアとデータは、コンピュータ装置と外部装
置との間で転送できる。通信インターフェースの実施例は、モデム、ネットワー
クインターフェース(例えばイーサネット(登録商標)カード)、通信ポート、 PCMCIAスロットとカード等を含むことができる。通信インターフェースを 介して転送されるソフトウェアとデータは、通信インターフェースによって受信 される電子式、電磁式、光学式、または他の信号である信号形式をとる。これら の信号は、信号を運ぶ能力があるチャネルを経て通信インターフェースへ提供さ れて、無線媒体、電線またはケーブル、光ファイバまたは他の通信媒体を使用し て実行される。チャネルのいくつかの実施例は、電話回線、セルラー電話リンク 、RFリンク、ネットワークインターフェースおよび他の通信チャネルを含む。
【0085】 この文書において、用語「コンピュータプログラム媒体」と「コンピュータが
使用可能な媒体」は、一般に、例えば、リムーバブル記憶装置、ディスクドライ
ブに組み込まれるディスク、およびチャネル上の信号等のメディアに関して用い
る。これらのコンピュータプログラム製品は、コンピュータ装置にソフトウエア
やプログラム命令を提供するための手段である。
【0086】 コンピュータプログラム(コンピュータコントロールロジックとも呼ばれる)
は、主記憶装置および/または2次記憶装置に記憶される。コンピュータプログ
ラムはまた、通信インターフェースを介して受信できる。かかるコンピュータプ
ログラムの実行時には、本明細書において検討されたように、コンピュータ装置
が本発明の特徴を実行することを可能にする。特に、コンピュータプログラム実
行されるときには、プロセッサに本発明の特徴を実行させるのを可能にする。従
って、かかるコンピュータプログラムは、コンピュータ装置のコントローラを表
している。
【0087】 要素がソフトウエアを用いて実施される実施の形態において、ソフトウエアは
、コンピュータプログラム製品に記憶されても、あるいはそれを介して送信され
てもよく、そして、リムーバブル記憶ドライブ、ハードディスクまたは通信イン
ターフェースを用いてコンピュータ装置にロードされる。コントロールロジック
(ソフトウエア)は、本明細書において説明したように、プロセッサによって実
行されるときにプロセッサに本発明の機能を実行させる。
【0088】 別の実施の形態では、要素は、例えば、PAL、特定用途向けIC(ASIC
)または他のハードウエア構成等を用いるハードウエア構成を用いて主としてハ
ードウエアで実行される。本明細書において説明されている機能を実行するため
のハードウエア構成のマシンによる実施は、関連技術に習熟した者にとっては明
らかであろう。更に別の実施の形態においては、要素はハードウエアとソフトウ
エアの組合わせを用いて移植される。
【0089】 別の実施の形態では、コンピュータによって動作する方法は、ウェブページを
経ての本発明の方法へのアクセスを提供することにより、ワールドワイドウェブ
を越えてアクセスしまたは実行できる。従って、ウェブページは、ユニバーサル
リソースロケータ(URL)により識別される。URLは、サーバー装置および
その装置上のファイルやページの両方を示す。本実施の形態において、消費者ま
たはクライアントのコンピュータ装置が、特定のURLを選ぶためにブラウザと
相互作用し、次にブラウザに、URLで識別されたサーバーへそのURLまたは
ページについての要求を送らせることが想像される。
【0090】 サーバーは、要求されたページを読み出し、そのページのデータをクライアン
トのコンピュータ装置へ送り返すことにより、要求に応答するのが普通である(
クライアント/サーバの相互作用は、ハイパーテキストトランスポートプロトコ
ル「HTTP」に従って実行されるのが普通である)。選択されたページは、次
いでクライアントの表示画面上でユーザーに表示される。クライアントは、次い
で、本発明のコンピュータプログラムを含むサーバーに、例えば、クライアント
によって提供される質問中の配列に基づいてロゼッタストーン解析または系統分
類プロファイル解析を実行するアプリケーションを起動させることができる。
【0091】 下記の実施例は、本発明の実施を図で示すために提供されるものであって、本
発明の範囲を制限するものではない。
【0092】 (実施例) (ロゼッタストーン法) E. ColiのDNAジラーゼ(Gyrase)のGyrAとGyrBサブユニット等の相
互作用をするタンパク質のあるものは、別の有機体、この場合にはイーストのト
ポイソメラーゼ(topoisomerase)IIの単一鎖へ融合される(Berger他、ネイチャ
ー379、225、1996年)。従って、トポイソメラーゼII (1429残基
)の異なるセグメントと類似のGyrA(804アミノ酸残基)(GyrBは8
75残基)の配列は、ロゼッタストーン法によって、GyrAとGyrBがE. C
oliにおいて相互作用するということを示唆する。
【0093】 E. Coliの他のこのような推定タンパク質相互作用を見付けるために、E. Coli
ゲノムの(合計4290の内の)3000のタンパク質配列が、調べられた(Bl
attner他、サイエンス277、1453、1997年)。タンパク質の3量体は
、ProDomまたはPfamデータベースのようなタンパク質領域データベー
スを用いて、見つけることができる(Corpet 他、Nucleic Acids Res. 26、3
23、1998年;ベイトマン他、Nucleic Acids Res. 27、260、199
9年)。ここで、53,597のProDom領域の各々を含むすべてのタンパ
ク質のリストと同じく、64,568のスイスプロットタンパク質の一個づつに
おけるすべてのProDom領域のリストが準備された。次いで、ProDom
のすべてのタンパク質は、その能力に対して、3量体でリンクしている構成要素
か、またはロゼッタストーンの構成要素であると見なされた。所与のタンパク質
Pの両方の構成要素である領域のすべての対は、2つの領域のうちの1つだけを
有する少なくとも1つのタンパク質が見つかる場合は、タンパク質Pによってリ
ンクされていると定義された。この方法によって、7,843のProDom西
洋スモモ(danson)間の14,899のリンクが、発見された。次いで、単一のゲ
ノム(例えばE. Coli)において、リンクされた領域を含むタンパク質のすべて
の非相同である対が、発見された。これらの対は、ロゼッタストーンタンパク質
によってリンクされている。E. Coliに対して、この方法で3,531対のタン
パク質を探し出した。タンパク質の3量体を発見する代替の方法は、アミノ酸配
列アラインメント法を用いて、アラインメントがロゼッタストーンタンパク質と
重ならないように、ロゼッタストーンタンパク質に整列する2つのタンパク質を
見つける。E. Coliに対して、この方法で、4,487対のタンパク質を探し出
した。そのうち1,209対はProDomサーチ方式によっても発見された(
さまざまな配列データベースが各方法に対して調べられたが)。6,809対の
非相同である配列、他のいくつかのゲノムの単一のタンパク質に対する著しい類
似性を有する構成要素の対の両方、が発見され、ロゼッタストーン配列と名付け
られた。なぜなら、その配列がタンパク質の対の間の相互作用を解読することが
できたからである。
【0094】 これらの6,809対の各々は、E. Coliにおける相互作用するタンパク質の
対の候補である。5つのかかる候補が図1に示される。E. Coliタンパク質の最
初の3対は、実際に相互作用するとして生化学文献から容易に判定されるものの
中にあった。タンパク質の最後の2対が相互作用することは周知でない。それら
は多くのそのような対の代表であり、現時点では、推定される相互作用は、試験
が可能な仮説として受け取られなければならない。
【0095】 ロゼッタストーン法による予測される相互作用についての3つの独立した試験
が考案され、各々は、妥当な部分が実際に相互作用をしているかもしれないとい
うことを示した。第1の方法は、スイスプロットデータベースで与えられるタン
パク質の注釈を用いる。相互作用しているタンパク質が両方とも注釈をつけられ
ている場合について、我々はそれらの注釈を比較し、構成要素の対の両方につい
て類似機能を探す。類似機能は、少なくとも機能的相互作用を意味する。既知の
機能の3,950対のE. Coliの中で、2,682対(68%)は、スイスプロ
ットの注釈(キーワード「仮説のタンパク質」を無視する)の少なくとも1つの
キーワードを共有し、機能的役割の関連を示唆する。E. Coliタンパク質の対が
無作為に選択された場合には、15%がキーワードを共有するに過ぎない。要す
るに、ロゼッタストーン法が、タンパク質−タンパク質の相互作用の候補として
探し出すE. Coliの対の半分を超えるものが、類似機能を有する構成要素を両方
に持つ。従って、その方法はタンパク質の機能のロバストな予言者となるように
思える。タンパク質の対の1つの構成要素の機能が既知の場合、他の構成要素の
機能が予測できる。イーストの類似の解析を実行すると、45,502対のタン
パク質が探し出される。既知の機能の9,857対の中で、32%が、タンパク
質が無作為に選択されたときの14%と比較したそれらの注釈における少なくと
も1つのキーワードを共有する。
【0096】 ロゼッタストーン法によって予測された相互作用の第2の試験は、相互作用タ
ンパク質のデータベースを確認するものとして用いられる(http://doe-mbi.ucl
a.edu)。これは、公開されたいくつかの実験で相互作用するとわかったタンパ
ク質の対を編集したものである。1998年12月現在、データベースは939
項目を含む。そして、そのうちの724項目がProDomデータベースにリス
トされた対の構成要素の両方を有する。これらの724対のうち、我々はロゼッ
タストーン配列によってリンクされる46対または6.4%を見つける。我々は
、より多くのゲノムが配列決定され、より多くのリンクされた配列を明らかにし
て、この百分率が上昇するのを期待する。
【0097】 ロゼッタストーン予測法の第3の試験は、相互作用を予測する別の計算方法に
よってであり(Pellegrini他、PNAS 96、4285、1999年)、系統分類
プロファイルの方法は、タンパク質の対の相関的な進化による機能的相互作用を
検出する。この方法は、E. Coliタンパク質についてのロゼッタストーン法によ
って予測された6,809の相互作用に適用された。これらのうちの321(約
5%)ほどは、系統分類プロファイル法によって相互作用していることが示され
た。無作為に選ばれた相互作用の集合に対する普通の相互作用よりも8倍も多い
。ロゼッタストーン法および系統分類プロファイル法が完全に異なる仮定に基礎
を置くなら、予測のオーバラップのこのレベルは、両方の方法の予測の能力を支
持する傾向がある。
【0098】 E. Coliのタンパク質間の多くの可能な対の相互作用の認識は、結合された相
互作用に対する検索のきっかけとなる。ここでAはBと相互作用すると予測され
、そしてBはCと、以下同様である。すなわち、ロゼッタストーン法がタンパク
質かタンパク質経路の複合体を探し出すことができるかどうかの判定が試験され
た。図5が示すように、経路および複合体双方に関する示唆的な情報は、E. Col
iタンパク質のリンクされた対から明らかになる。図5Aは、シキミ酸の生合成
のための経路を表し、図5Cはプリン生合成のための経路を表す。同一経路の他
の構成要素へのリンクが見い出されたこれらの経路の酵素は、太字で示される。
ロゼッタストーン配列によって示される正確なリンクは、図5Bと図5Dのパネ
ルに示される。リンクが発見されたこれらの幾つかは、経路にある連続的な酵素
の間にあり、他のものはマルチ酵素の複合体をおそらく示している更に明白な構
成要素の間にある。同じ調査の択一表現は、経路にある酵素が、表現の規則の補
助として、いくつかの有機体において融合した形で表現されているということで
ある。この場合、対のリンクされた構成要素が、互いに結合している必要は必ず
しもない(下記参照)。
【0099】 タンパク質相互作用のロゼッタストーン予測の信頼性を評価するために、その
方法が第一の場所で機能しなければならない理由を考えることは有益である。こ
れは、タンパク質の類似性の考察から明らかになる。タンパク質領域AとBの単
一のタンパク質鎖への融合が、AとBの有縁性を強く高めることができるという
ことを熱力学の法則からたどる。その理由は、融合がAとBの解離のエントロピ
を著しく減少させるということである。そして、それによってAの結合自由エネ
ルギーをBに減らす。エントロピのこの低減は、Bに関するAの有効な濃度の増
加として表されることが多い。E. Coli細胞のタンパク質の濃度は、ミクロモラ
ール(micromolar)の順序となる傾向を持ち(Pederson他、細胞14,179、1
978年)、融合されたタンパク質の有効濃度が〜mMまたはより大きくなる(
ロビンソン他、PNAS USA 95、5929、1998年)。別の方法で表現する
と、複合体からの解離タンパク質サブユニットの標準の自由エネルギーは、代表
的には27Cで、8〜20kcal/モルである(10-6〜10-14Mの解離定
数に一致する)(ホートンおよびルイス、Protein Sci. 1、169、1992
年)、そして、サブユニットが単一のタンパク質鎖に融合するとき、〜10kc
al/モルまで減らすことができる。AがBに融合するとき、タンパク質AとB
間の有縁性が非常に高められるので、図6に示すように、同じポリペプチド上の
相互作用している領域AとBを含んだ原始のタンパク質から、相互作用する幾つ
かのタンパク質の対は進化することができた。
【0100】 図6は、タンパク質−タンパク質の相互作用の進化のモデルを示す。ロゼッタ
ストーンモデルは遺伝子の融合で始まり、それは非相互作用する領域AとBにつ
いて暗号化し、融合された2領域タンパク質ABの表現に導く(J.S.リチャ
ードソン、Adv. Protein Chem. 34、167、1981年、の表IIを参照のこ
と)。真核有機体(eukaryotic)遺伝子は、原核生物(prokaryotic)遺伝子とは対
照的に、しばしばマルチ領域タンパク質について暗号化するということに注意の
こと。融合されたタンパク質において、その領域は比較的高い有効な濃度を有し
、比較的少ない突然変異は、連続した突然変異によって最適化される領域間の原
始的な結合場所をつくる。第2の線において、相互作用領域は、タンパク質Aと
Bが相互作用する対をつくるために別の遺伝子との再結合によって分離される。
相互作用しているタンパク質AとBの対は、タンパク質の融合によって作られる
。それにより、予備的な融合ステップは、ロゼッタストーン仮説にとって必須で
ない。下側の右手のステップは、別の可能な突然変異、すなわち領域交換された
ホモ2量体に至るループ削除を示す。ホモオリゴマー(homooligomer)に対するこ
の進化のパスは、ヘテロオリゴマー(heterooligomer)に対してここで示される進
化のパスのホモオリゴマーに対する類似性である。この経路は、タンパク質相互
作用の進化についてのロゼッタストーン仮説と呼ばれる。また、ロゼッタストー
ン経路の支持において、タンパク質−タンパク質のインターフェースが、単一の
タンパク質分子内の相互領域インターフェースに強い類似性を持つという観測が
ある(Tsai、およびNussinov、J. Mol Biol. 260、604、1996年)。
【0101】 ロゼッタストーン法が2つの明らかな予測をすることを実現することは重要で
ある。最初に、それは、関連する生物学的機能を有するタンパク質、すなわち、
共通する構造的複合体、代謝経路または生物学的プロセスに参加するタンパク質
、の対を予測する。機能の予測は強固である。すなわち、E. Coliに対して、全
体的な機能類似性は、試験が可能な予測の半分以上において観測された。第2に
、本方法は、可能性のあるなタンパク質−タンパク質の相互作用を予測する。こ
のより特殊な予測に対して、タンパク質有縁性および進化の考察は理解を助ける
。どの場合に、ロゼッタストーン法は、相互作用タンパク質の対を失うか(偽ネ
ガティブ)、そしてどの場合に、相互作用の対に対する間違った候補を探し出す
か(偽ポジティブ)。相互作用を失う1つの理由は、多くのタンパク質−タンパ
ク質の相互作用が、例えば、待機場所を進化させる突然変異の徐々の蓄積等のよ
うに、他の機構を介して進化してきたかもしれない。この場合、相互作用タンパ
ク質の融合は決してなかったので、ロゼッタストーンタンパク質を見つけること
はできない。第2に、他の場合でさえ、相互作用パートナーが一旦融合された場
合、融合されたタンパク質は、進化の道の間に消えてしまったかもしれず、それ
で結合パートナーシップを解読するために残っているロゼッタストーンの遺物が
全くない。しかし、より多くのゲノムが配列決定されているので、ロゼッタスト
ーンタンパク質を見つけ出す公算が高い。
【0102】 物理的な相互作用の間違った予測が、領域は融合されるが相互作用はしない場
合に、ロゼッタストーン法によって成されることもある。これは、共同表現また
はタンパク質信号を調節するためにタンパク質が融合されている場合にはそうで
あるかもしれない。これらの場合には、タンパク質の「相互作用」は、物理的な
相互作用よりむしろ機能的相互作用である。ロゼッタストーン法は、結合する相
同物と、結合しない相同物とを区別できないので、別の間違った予測が起きるこ
ともある。実施例として、信号領域SH2とSH3とを考える。src相同性キ
ナーゼのキナーゼ領域およびSH2とSH3領域は、src分子において互いに
相互作用する(Xu他、ネイチャー 385、595、1997年;Sicheri他、ネ
イチャー 385、602、1997年)、しかし、これらの領域の相同物は、
多くの他のタンパク質において見い出され、そして、すべてのSH2領域がすべ
てのSH3領域と相互作用することは確かに偽りである。類似の問題は、EGE
と免疫グロブリン領域によって生ずる。すなわち、ロゼッタストーン法が、「A
は機能的にBへリンクされる」という形のタンパク質機能のロバストな予測を与
えるにもかかわらず、これらの推定相互作用の部分集合だけが、タンパク質間の
物理的な相互作用を表す。
【0103】 タンパク質−タンパク質の相互作用を予測する際の誤差を定量化し、かつ減少
させるために、多くの異なるタンパク質に存在するSH3のような「混交の」領
域の発生が計算される。これらの領域は、領域融合解析(すなわちロゼッタスト
ーン法)の間、同定され除去されうる。領域のProDomデータベースでは、
各領域がロゼッタストーン法を用いてリンクされてもよい他の領域の数が計数さ
れた。
【0104】 図7に示すように、領域の約95%は、僅かな数の他の領域にのみリンクされ
る。我々がロゼッタストーンリンクを見つけることができるProDom領域デ
ータベースの7,872の領域については、約5%だけが「混交」である。そし
て、他の領域への25以上のリンクを作る。我々のロゼッタストーン法からのす
べての領域の5%だけにフィルターをかけることによって、大多数の間違って予
測される相互作用を除去できる。ProDom解析によって見つけ出されるE. C
oliの3,531のロゼッタストーンリンクへこの種のフィルタリングが適用さ
れる場合、その数は749まで減らされる。予測数を下げることになるが、この
フィルタリングのステップは、フィルタをかけてない予測の47%を越えるまで
、予測されたリンクが真の物理的な相互作用を表すという見込みを増大する。従
って、別のゲノムにおける単一の配列ABに対して共に相同であるタンパク質配
列A’とB’の多くの対のゲノムにおける同定は、A’とB’がパートナーを結
合して、A’とB’について機能的情報を提供するという可能性を示唆する。
【0105】 (系統分類プロファイル法) 我々は、BLASTアルゴリズムを使用して、(ゲノムリサーチ研究所のウェ
ブサイトで一覧を示された)他の完全に配列決定された16のゲノムからのタン
パク質を有する各タンパク質配列Piを整列させることによって、E. Coliゲノム
により暗号化された4,290のタンパク質について系統分類プロファイルを計
算した。それらのうちの1つが統計的に有意とみなされるスコアを有するPi
整列する場合、n番目のゲノムによって暗号化されたタンパク質は、Piの相同
物を含むとして定義される。
【0106】 類似の系統分類プロファイルを有するタンパク質が機能的にリンクしているか
どうかを検査するために、構造的複合体に参加していることが知られている2つ
のタンパク質、RL7リボゾーム(ribosome)タンパク質とFlgLベン毛構造の
タンパク質、および代謝経路に参加していることが知られているHISSヒスチ
ジン(histidine)生合成タンパク質が、調べられた。最初のステップとして、他
のすべてのE. Coliは、同一視された系統分類プロファイルを有する読み取りフ
レームを開き、次いで1ビットだけ異なるプロファイルを有するものが同定され
た。その結果は、図8(a)RL7、(b)FlgL、および(c)HIS5に
示される。リボゾーム・タンパク質RL7の相同物は、イーストの場合と同様に
、しかしアルカエ(archae)ゲノムの場合とは異なって、11のユーバクテリア(e
ubacteria)ゲノムのうちの10において見い出される。図8(a)において、R
L7系統分類プロファイル、または1ビットだけ異なるプロファイルを有するE.
Coliタンパク質の半分を超えるものが、リボゾームとの関連機能を有すること
が分かる。これらのタンパク質のどれもRL7に対してアミノ酸配列の有意の類
似性を持たないので、リボゾームとの機能的関係は、これまで知られていなかっ
たが、配列比較による推定はできない。この発見は、類似プロファイルを有する
タンパク質は、機能的にリンクされたタンパク質の共通のグループに属している
ようだという考え方を支持する。これらのプロファイルを有する他のいくつかの
タンパク質は、機能を割り当てられていないし、従って仮説としてリストされる
。系統分類プロファイルの群の調査可能な予測は、これらの未だ特性が得られて
いないタンパク質がリボゾームと関連する機能を有するということである。
【0107】 図8(b)において報告されたベン毛タンパク質の系統分類プロファイルの比
較は、更に類似プロファイルを有するタンパク質が機能的にリンクされているよ
うだという考え方を支持する。10のベン毛タンパク質は、共通のプロファイル
を共有する。それらの相同物は、5つのバクテリアのゲノムの部分集合で見い出
される。すなわち、アキフェクスアエオリカス(Aquifex aeolicus)、ボレリアブ
ルグドルフェリ(Borrelia burgdorferi)、枯草菌(Bacillus subtilis)、ヘリコ
バクターピロリ(Helicobacter pylori)、マイコバクテリウムツベルクロシス(My
cobacterium tuberculosis)である。隣接した群(共通プロファイルを共有する
タンパク質のグループ)に現れる他のタンパク質は、さまざまなベン毛タンパク
質および細胞壁維持タンパク質を含む。ベン毛および細胞壁維持タンパク質は、
生化学的にリンクしていることもある。なぜなら、ベン毛が細胞壁に嵌入してい
るからである。例えば、リチックムレイントランスグリコシラーゼ(lytic murei
n transglycosylase)(MltD)は、FlgLベン毛構造のタンパク質のそれ
から1ビットだけしか違わない系統分類プロファイルを有する。このトランスグ
リコシラーゼは、理由が知られていないが細胞壁を切断する。従って、別の予測
は、この酵素がベン毛アセンブリに参加しているかもしれないということである
【0108】 図8(a)と図8(b)は構造的複合体にタンパク質を含むが、図8(c)は
アミノ酸代謝に関係しているタンパク質を示す。His5ヒスチジン合成タンパ
ク質のそれと類似の(1ビット内の)系統分類プロファイルを有するタンパク質
の半分を超えるものが、アミノ酸代謝に関係していることを分かった
【0109】 図8の実施例は、質問中のタンパク質に対して類似の系統分類プロファイルを
有するタンパク質が、それと機能的にリンクされていそうであることを示す。逆
に、機能的にリンクされている既知のタンパク質のグループは、類似の系統分類
プロファイルを有することが多いことが示される。表Iにおいて、E. Coliタン
パク質のグループは、機能的にリンクされたタンパク質のよく知られた系統を反
映するよう、スイスプロット注釈における共通キーワードを共有するよう選ばれ
た。同一ゲノムによって暗号化された相同タンパク質が必然的に類似プロファイ
ルを有するので、それらはグループから削除された。各グループに対して、「隣
り合う」タンパク質の対の数が計算された。ここで隣り合うとはプロファイルが
3未満のビットだけ異なるタンパク質として定義される。Nのタンパク質のグル
ープに対して、最大で(N(N-1))/2の可能な隣り合う組み合わせがある。
【0110】
【表1】
【0111】 スイスプロットにおける類似キーワードに基づいてグループ化されるタンパク
質は、ランダムなタンパク質より類似した系統分類プロファイルを有する。コラ
ム2は、キーワードグループの非相同タンパク質数を与える。コラム3は、3未
満のビットだけ異なるプロファイルを有するキーワードグループのタンパク質の
対の数を与える。これらの対は、隣り合う、と呼ばれる。コラム4は、キーワー
ドグループと同一サイズのタンパク質のランダムなグループに対する平均に見ら
れる隣り合うものの数のリストを示す。一様にゼロである系統分類プロファイル
を持たない膜タンパク質のみが含まれた。テーブルの他の行と異なって、仮説の
タンパク質は、相同である対を含む。
【0112】 共通のキーワードを共有するタンパク質の系統分類プロファイルの類似性は、
統計的検定によって評価される。すなわち、我々のキーワードグループで見い出
される隣り合うものの数は、無作為に選択されたE. Coliタンパク質以外の、同
一サイズのグループで見い出される隣り合うものの平均数と比較された。我々は
、キーワードグループがすべての可能な隣り合う対の断片のみを含む場合であっ
ても、ランダムな集合は、キーワードグループと比較すると、平均して極めて少
ない隣り合うものを含むということを見い出した。このように、機能的にリンク
されるタンパク質は、無作為に選択されたタンパク質より、プロファイル空間に
おいて隣り合うことがはるかにありそうである。しかし、グループ内のすべての
可能な隣り合うものの断片だけは見付けられた。従って、すべての機能的リンク
を有するタンパク質が、類似プロファイルを有するというわけではない。すなわ
ち、それらは、プロファイル空間の多数の群に落ちこむことがある。仮説のタン
パク質はまた、多くの仮説のタンパク質が、特性が得られていない経路または複
合体の一部であることを示唆しているので、ランダムなタンパク質より、隣り合
うものとなりそうであることに注目するのは興味深い。
【0113】 機能的リンクを有するタンパク質が、類似の系統分類プロファイルを有しそう
であるという第2の示唆は、EcoCycライブラリ(E. Coli遺伝子および代
謝の百科事典)から得られるタンパク質のクラスの解析からもたらされる。10
を超える構成要素を含み、周知の生化学経路を表すいくつかのクラスが選ばれた
。これらの結果は、表IIにリストされる。その結果は、この解析がキーワード
グループによって見い出されたものと類似であることを示している。すなわち、
グループの構成要素は、無作為に選択されたコントロールグループより隣接した
プロファイルを有するということがはるかにありそうである。
【0114】
【表2】
【0115】 EcoCycクラスに基づいて代謝機能に従ってグループ化されたタンパク質
は、ランダムなタンパク質より類似した系統分類プロファイルを有する。コラム
2は、EcoCycクラスのタンパク質数を与える。コラム3は、3未満のビッ
トだけ異なるプロファイルを有するEcoCycクラスのタンパク質の対の数を
与える。これらの対は、隣り合うものと呼ばれる。コラム4は、キーワードグル
ープと同一サイズのタンパク質のランダムなグループについて平均して見られる
隣り合うものの数の一覧を示す。
【0116】 特性が得られていないタンパク質の機能を予測する方法の能力が試験された。
系統分類プロファイル空間のその隣り合うものを有するタンパク質の機能が同等
と見なされた。これは、スイスプロットデータベース内に見られるキーワード注
釈によって成し遂げられる。この方法がどれくらい効果的かについて検査するた
めに、特性が得られた各々のタンパク質のキーワードが、系統分類プロファイル
空間における隣り合うものと比較された。この場合、隣り合うものは、同一のプ
ロファイルを有する他のすべてのタンパク質であるか、またはユークリッド距離
が2進化単位内であるベクトル距離プロファイルを有するタンパク質であった。
平均して、隣り合うキーワードの43%が、質問中のタンパク質の既知のキーワ
ードと重なることが見い出された。比較すると、ランダムなタンパク質は、隣り
合うものの同一集合とわずか4%だけしかオーバラップしなかった。こうして、
E. Coliタンパク質の半分を超えるものについて、それらの系統分類プロファイ
ルの隣り合うものの機能を調べることによって、正しく全体的な機能を割り当て
ることができる、という概略の評価が下された。この評価はまた、特性が得られ
ていないタンパク質に機能を割り当てるために、系統分類プロファイルの能力を
維持すべきである。
【0117】 別の実施例として、イーストサッカロミケスセレビシア(yeast Saccharomyces
cerevisiae)のゲノムによって暗号化される6,217のタンパク質に対する系
統分類プロファイルが、E. Coliタンパク質について用いられたのと同一の方法
を用いて計算された。E. Coliのように、タンパク質の機能がすでに既知である
場合、予測された機能を試験できる。イーストにおいて、ランダムなタンパク質
に対してはオーバラップが8%であるのと比較して、隣り合うキーワードの平均
して29%が、質問中のタンパク質の既知のキーワードと重なり合うことが見い
出された。
【0118】 タンパク質の系統分類プロファイルは、有機体の相同物の有無を記述する。多
重結合の構造の複合体を形成するタンパク質は、類似プロファイルを有すると考
えられる。また、所与の生化学経路に参加することが既知であるタンパク質は、
系統分類プロファイル空間において隣り合うと考えられる。これは、プロファイ
ルを比較することが、タンパク質が参加する複合体または経路を同定するための
有効なツールであることを証明する。本発明の方法は、同一視される系統分類プ
ロファイルを有するタンパク質の機能を調べることによって特性が得られていな
いタンパク質の機能的割当てができる。
【0119】 完全に配列されたゲノムの数が増加する場合、科学者は、より長く、そしてよ
り有益なものとなる可能性を持つタンパク質の系統分類プロファイルを構築でき
るだろう。次の数ヶ月内に終了するよう進行中の少なくとも100のゲノムプロ
ジェクトがある。これらのデータは、16ビットよりむしろ長さ100のプロフ
ァイルの構造を可能にする。プロファイルパターンの数は、完全に配列決定され
たゲノムの数に従って指数的に成長するので、50ビット比較の結果は、16ビ
ットのものよりかなり多くの情報を与えるに違いない。更に、新しく配列決定さ
れたゲノムがいくつかの真核有機体を含むので、タンパク質の系統分類プロファ
イルはまた、これらのより高次の有機体の構造の複合体および代謝経路を研究す
るための有用なツールとなるに違いない。
【0120】 (組み合わせ法) 上記のように、系統分類プロファイルは、無関係であるが機能的には関連した
配列が互いにグループ化することを許す。同様の解析は、タンパク質の互いのそ
の機能が同時に細胞に存在するのが普通であるという制約を考慮することによっ
て実行できる。かかる方法は、様々な条件の下で育てられるイーストのmRNA
発現パターンを解析することによる同期タンパク質発現の要件を利用する。実際
に、類似のmRNA発現パターンを有するタンパク質はグループ化され、それら
は類似の機能を有することが多いことを示す(アイゼン他、Proc. Natl. Acad.
Sci. USA95、14863−8、1998年を参照のこと)。全く同様に、
タンパク質は、組織特定発現パターンまたは細胞区画特定発現パターンを解析す
ることによって空間的な表現パターンに従って分類できる。加えて、ロゼッタス
トーン法を用いて、別の有機体の単一のタンパク質へのそれらの融合によって、
1つの有機体の異なるタンパク質間の機能的相互作用を予測できる。利用可能な
実験データを用いるこれらの3つの独立した予測方法の組み合わせが、最初の大
規模な予測またはタンパク質機能を証明するためにここで呈示される。これらの
方法は、イーストサッカロミケスセレビシアにおける密接して関連する機能のタ
ンパク質間のリンクを確定した
【0121】 (実験的な相互作用) ペアをなすリンクは、共同免疫沈降のような技法およびイースト2混成法によ
り、相互作用するということが実験的な文献から知られているイーストタンパク
質の間で作られた。我々は、MIPSデータベース、およびコミュニティ−で開
発されたタンパク質−タンパク質の相互作用のデータベースである相互作用タン
パク質データベースからの相互作用データを結合した。
【0122】 (代謝経路が隣り合うもののリンク) E. Coliタンパク質のイースト相同物は、BLAST相同性検索によって見い
出された。ペアをなすリンクは、EcoCycデータベースにおいて定義されて
いるように、E. Coli相同物が代謝経路の順次反応(または更に離れて1反応ス
テップ)に触媒作用を及ぼすイーストタンパク質の間で、定義された。
【0123】 (相関している進化の算出) 系統分類プロファイルは、上記のように各イーストタンパク質について作成さ
れた。
【0124】 (相関しているmRNA発現の計算) 97の個々の公開されて利用できるDNAチップのイーストmRNA発現デー
タ集合の結果が、各イーストのオープンリーディングフレーム(ORF)と関連
付けられた97の数のストリングとして暗号化された。ORFは、そのオープン
リーディングフレームを含むmRNAが如何にして標準成長、ブドウ糖窮乏、胞
子形成、および変異した遺伝子の発現の間にレベルを変化させたかを記述する。
このストリングは、系統分類プロファイルの1つの有機体内ではアナログ的であ
る。97の実験の各々についてのmRNAレベルは正規化され、少なくとも一つ
の実験における平均から2標準偏差の変化を示した遺伝子だけが受け入れられた
。従って、どの実験においても発現レベルに変化を示さなかった遺伝子は無視し
た。相関している発現パターンを有するORFは、mRNA発現パターンに類似
性を記述する97次元のユークリッド距離を計算することによって互いにグルー
プ化された。ORFは、それらが所与の距離カットオフ内で、最も近い10の隣
り合うものの間にある場合、隣り合うもの同士のORF注釈の重なり合いを最大
にしたという条件で、リンクされていると考えられる。
【0125】 (相関している遺伝子融合イベントの計算) タンパク質は、タンパク質間の不完全な三角形関係と呼ばれるものの計算によ
るのと同様に、上記のようにロゼッタストーンパターンによってリンクされた。
アラインメントは、プログラムPsi−Blastによって見い出された。
【0126】 これらの方法を用いる解析は、相関している系統分類プロファイルからの20
,749のタンパク質−タンパク質リンク、相関しているmRNA発現パターン
からの26,013のリンク、およびロゼッタストーン配列からの45,502の
リンク、を同定した。図9に示すように、これらのリンクは、タンパク質相互作
用データベース、およびMIPSイーストゲノムデータベース(Mewes他、Nucle
ic Acids Res. 26、33〜37、1998年)からの、実験的に誘導された追
加の500のタンパク質−タンパク質相互作用、および代謝経路の順次反応に触
媒作用を及ぼすイーストタンパク質の中の2,391のリンクを組み合わせたも
のである。
【0127】 イーストタンパク質の4,701(77%)の中に見られた93,750の全機
能的リンクの中で、4,130は「最も高い信頼性」を持つと定義された(実験
的な技法によって正しいことが知られたか、または3つの予測技術の中の2つに
よって確認された)。すなわち、他の19,521は「高い信頼性」(系統分類
プロファイルによって予測された)として定義される。そして、残りは、相関し
ている遺伝子融合、または相関しているmRNA発現のいずれかによって予測さ
れたが、両方ともではない。
【0128】 リンクの質は、以下のように評価された:一群の機能的に関連したタンパク質
にタンパク質A’をリンクする場合、これらの他のタンパク質の共有機能は、A
’についての全体的な機能の手がかりを提供すると仮定する。A’の機能がすで
に既知の場合、予測された機能を試験できる。この試験のために、スイスプロッ
トデータベースの標準化されたキーワード注釈が選ばれ用いられて、すべての特
性が得られたイーストタンパク質の既知の機能を、本発明の方法によって予測さ
れる機能と比較したものである。多くのイーストタンパク質から選ばれた1つの
例を試験したので、デノボプリン生合成の第7ステップに触媒作用を及ぼす酵素
ADE1に対するスイスプロットキーワードは、「プリン生合成」および「リガ
ーゼ」である。どのキーワードがADE1にリンクされるタンパク質の注釈に現
れるかに関する頻度に基づいて、ADE1の全体機能がプリン生合成(13.6
%)、トランスフェラーゼ(11.4%)、リガーゼ(6.8%)およびリアーゼ
(13.6%)であるべきということが予測される。従って、全体的な生物学的
プロセスを予測するために本解析が用いられる。ここではADE1であるタンパ
ク質が、密接に関連する機能を持つ多くの他のタンパク質へそのタンパク質をリ
ンクするのと同様に、そのプロセスに参加する。信頼性レベル、データ範囲、お
よびランダムな試験に対する比較とともに、系統的キーワード解析の結果が、表
IIIに記載される。
【0129】 2つの独立した予測技術によって証明されるリンクは、実験的な相互作用デー
タと同じ信頼性をもって、かつランダムな試験のレベルの8倍を超えて、タンパ
ク質機能を予測する。
【0130】
【表3】
【0131】 これらのリンクは、未知の機能のタンパク質を特徴づける手段を提供する。
【0132】 イーストには特性が得られていない2,557のタンパク質があり(Mewes他、Nu
cleic Acids Res. 26:33−37、1998年)、タンパク質は実験的に研
究されず、既知の機能の強い相同物を有していない。これらの中の374または
15%は、高いか、または最も高い信頼性の機能的リンクから全体的な機能を割
り当てられることができる。そして、1,524または60%のものは、すべて
のリンクを用いて全体的な機能を割り当てられることができる。
【0133】 機能の割当ての特定の実施例は、良好に保存された未知の機能のタンパク質族
からのタンパク質(イーストオープンリーディングフレームYGR021W)に
ついて、図10に示される。ここで記載されている方法、およびそれらがカバー
しない機能的リンクに基づいて、この系統は、ミトコンドリアのタンパク質合成
に関する機能を割り当てられる。YGR021Wの機能的パートナーのうちの2
つはまた、未知の機能の保存されたタンパク質族である。すなわち、gidA族
およびC.エレガンスM02F4.4族である。これらの族もまた、ミトコンド
リア(またはバクテリアの)タンパク質合成にかかわることができる。トリオー
スリン酸イソメラーゼ(triose phosphate isomerase)(図10)へのリンクは、
ヒトの筋疾患(myopathy)への光明として特に興味深い。この疾患では、この酵素
の不足が大きく変化したミトコンドリアの構造と相関を持つ(Bardosi他、Acta N
europathol (Berl) 79、387-394、1990年)。
【0134】 2つの付加的なリンクの実施例が挙げられる。すなわち、イーストプリオンS
up35に対するもの(Wickner, R.B.、サイエンス264、566−569、
1994年)およびヒトの結腸ガンに関連する遺伝子のイースト相同物、MSH
6に対するものである。(Miyaki他、Nature struct. Biol.、17、271−2
72、1997年)。両方の場合において、全体的な機能はすでに既知である。
しかし、本発明の方法もまた、新しい機能的リンクを予測する。特に、図11に
おいて、非プリオン状態の変換終結因子として働くイーストプリオンSup35
は、新しく合成されたペプチド鎖を開放するようリボゾームと相互作用するSu
p35の一次役割によって始終一貫してタンパク質合成に関係している多くのタ
ンパク質にリンクされる(Kushirov他、Gene、66、45−54、1988年;
Stansfield他、EMBO J. 14、4365−4373、1995年)。タンパク質
を分類しおよび目標としている、Sup35へリンクされるタンパク質はまた、
発生期のタンパク質を最終的な細胞へ導く際の付属品的役割に始終一貫している
。Sup35は、相関している進化およびmRNA発現の両方を示し、新しく合
成されたアクチンおよびマイクロチューブ(microtubules)の折り曲げを助けると
考えられるCCTシャペロニン(CCT chaperonin)システム、イーストシャペロニ
ンシステムの構成要素を有する。
【0135】 我々がMSH6を調べるときに、新しいリンクがまた確定される。DNA不整
合は、ヒトの相同物が変異したときに、大多数の遺伝的な非ポリープ性結腸直腸
ガンを引き起こすタンパク質(ジョンソン他、J. Biol. Chem.271、7285
−7288、1996年)を修復する(以下において展望できる:Lynch他、N.
Y. Acad. Sci、833、1−28、1997年)。MSH6は、他のいくつかの
DNA不整合修復タンパク質と相同であり、図12において、配列に無関係なP
MS1DNA不整合修復タンパク質族にリンクされ、その突然変異はまたヒトに
おいて、結腸直腸ガンへ結び付けられる(Papadopolous他、サイエンス263、
1625−1629、1994年)。MSH6は、相同物MSH4を介して、メ
チレンテトリドロフォレートデヒドロゲナーゼ(methylenetetrhydrofolate dehy
drogenase)によってプリン生合成経路へ、そして2つのRNA修正酵素へ、更に
、特性が得られていないタンパク質族へと順番にリンクされ、それは、現在ガン
におけるDNA修復およびヒトの相同物の潜在的参加を考慮して調査することが
できる。
【0136】 本発明の多くの実施の形態が、説明された。 それにもかかわらず、さまざまな改変が本発明の要旨と範囲から逸脱することな
くなされることができると理解されよう。
【図面の簡単な説明】
【図1A】 機能的にリンクされているとロゼッタストーン法によって予測され
るE. Coliタンパク質の5つの対の例である。各々の例において、上のタンパク
質が「ロゼッタストーンタンパク質」であり、下の2つのタンパク質が機能的に
リンクされる。
【図1B】 ロゼッタストーン解析が、タンパク質(c)が2つの明らかに非相
同であるタンパク質(AおよびB)と異なる領域で類似している場合を見い出す
ことを示す。かかる状況では、機能的関係はAとBの間で推定される。ゲノムi
、jおよびkは、単一のゲノムまたは2つか3つの異なるゲノムを表す。
【図2A】 本発明のロゼッタストーン法を記載しているフロー図であり、未知
の機能を有する少なくとも2つのポリペプチドの一次配列で始まっている。
【図2B】 本発明の方法を記載しているフロー図であり、未知の機能を有する
ロゼッタストーンタンパク質の一次配列で始まっている。
【図3】 系統分類の経路の略図である。P1からP7は、明らかに非相同であ
るタンパク質である。
【図4A】 1ビット型のプロファイル法を用いる本発明の系統分類プロファイ
ル法を説明するフロー図を示す。
【図4B】 進化距離法を用いる本発明の系統分類プロファイル法を説明するフ
ロー図を示す。
【図5】 タンパク質のリンクされた対から経路と複合体に関する示唆的な情報
を示す。a.シキミ酸生合成の経路とプリン合成の経路を表す。 b. ロゼッタストーン法によって示唆されるリンクを説明する。 c. シキミ酸生合成の経路とプリン合成の経路を表す。 d. ロゼッタストーン法によって示唆されるリンクを説明する。
【図6】 タンパク質とタンパク質の相互作用の進化のモデルを示す。ロゼッタ
ストーンモデルは、相互作用しない領域AとBに対して暗号化する遺伝子の融合
で始まり、融合された2領域タンパク質ABの発現につながる。
【図7】 多くの異なるタンパク質において見い出され、従って、多くの異なる
領域にリンクされる混交タンパク質領域の発生を図示する。
【図8A】 系統分類プロファイル法のプロセスと結果を示す図である。各々の
場合において、質問中のタンパク質と同一のプロファイルを有するすべてのタン
パク質が見い出され(2重線の囲みの中)、次いで、1ビットだけ異なるプロフ
ァイルを有するすべてが見い出された(2番目の囲み)。太字のタンパク質は、
質問中のタンパク質として同一複合体または経路に参加し、イタリック体のもの
は、別の関連した複合体または経路に参加する。同一のプロファイルを有するタ
ンパク質は1つの囲みで示される。囲みの間の1本の線は、2つのプロファイル
間が1ビットの差であることを表す。質問中のタンパク質から1ビットだけプロ
ファイルが異なるすべての隣接したタンパク質が示される。相同タンパク質は、
破線によって結ばれているか、または字下げされている。各々のタンパク質は、
4桁のE. Coli番号、スイスプロット遺伝子名、および簡単な説明のラベル付け
がされている。囲みの中の、または線によって結ばれる囲みの中のタンパク質が
、類似の機能を有するということに注意して欲しい。仮説のタンパク質(すなわ
ち未知の機能の)は、機能的なそして構造的な研究の主要候補である。(a)、
(b)および(c)の2重の囲みのタンパク質は、それらの系統分類プロファイ
ルにおいて、計算の時に利用可能な17ゲノムに対して可能な16のうちから、
それぞれ11、6、および10個を有する。
【図8B】 系統分類プロファイル法のプロセスと結果を示す図である。各々の
場合において、質問中のタンパク質と同一のプロファイルを有するすべてのタン
パク質が見い出され(2重線の囲みの中)、次いで、1ビットだけ異なるプロフ
ァイルを有するすべてが見い出された(2番目の囲み)。太字のタンパク質は、
質問中のタンパク質として同一複合体または経路に参加し、イタリック体のもの
は、別の関連した複合体または経路に参加する。同一のプロファイルを有するタ
ンパク質は1つの囲みで示される。囲みの間の1本の線は、2つのプロファイル
間が1ビットの差であることを表す。質問中のタンパク質から1ビットだけプロ
ファイルが異なるすべての隣接したタンパク質が示される。相同タンパク質は、
破線によって結ばれているか、または字下げされている。各々のタンパク質は、
4桁のE. Coli番号、スイスプロット遺伝子名、および簡単な説明のラベル付け
がされている。囲みの中の、または線によって結ばれる囲みの中のタンパク質が
、類似の機能を有するということに注意して欲しい。仮説のタンパク質(すなわ
ち未知の機能の)は、機能的なそして構造的な研究の主要候補である。(a)、
(b)および(c)の2重の囲みのタンパク質は、それらの系統分類プロファイ
ルにおいて、計算の時に利用可能な17ゲノムに対して可能な16のうちから、
それぞれ11、6、および10個を有する。
【図8C】 系統分類プロファイル法のプロセスと結果を示す図である。各々の
場合において、質問中のタンパク質と同一のプロファイルを有するすべてのタン
パク質が見い出され(2重線の囲みの中)、次いで、1ビットだけ異なるプロフ
ァイルを有するすべてが見い出された(2番目の囲み)。太字のタンパク質は、
質問中のタンパク質として同一複合体または経路に参加し、イタリック体のもの
は、別の関連した複合体または経路に参加する。同一のプロファイルを有するタ
ンパク質は1つの囲みで示される。囲みの間の1本の線は、2つのプロファイル
間が1ビットの差であることを表す。質問中のタンパク質から1ビットだけプロ
ファイルが異なるすべての隣接したタンパク質が示される。相同タンパク質は、
破線によって結ばれているか、または字下げされている。各々のタンパク質は、
4桁のE. Coli番号、スイスプロット遺伝子名、および簡単な説明のラベル付け
がされている。囲みの中の、または線によって結ばれる囲みの中のタンパク質が
、類似の機能を有するということに注意して欲しい。仮説のタンパク質(すなわ
ち未知の機能の)は、機能的なそして構造的な研究の主要候補である。(a)、
(b)および(c)の2重の囲みのタンパク質は、それらの系統分類プロファイ
ルにおいて、計算の時に利用可能な17ゲノムに対して可能な16のうちから、
それぞれ11、6、および10個を有する。
【図9】 実施例で説明したように、機能的に関連したイーストタンパク質をリ
ンクするために用いる戦略を示す。
【図10】 多くの有機体に保存されたタンパク質族の一員であるが、完全に未
知の機能ではないイーストタンパク質YGR021Wに対する系統分類プロファ
イルによって見つけられた高信頼の機能的リンクを示す。
【図11A】 イーストプリオンSup35に対して確定された最も高信頼の機
能的リンクを示す。
【図11B】 Sup35(黒丸)とリンクするタンパク質(白丸)の中で発見
された高信頼(細線)および最も高信頼(太線)のリンクのネットワークを示す
図である。リンクのネットワークは、部分的な群れの度合いが高いことを示す。
【図12】 イーストDNA修理タンパク質MSH6に対して見つけられた高信
頼の、および最も高信頼の機能的リンクを示す。これはヒトの結腸直腸ガンを引
き起こすタンパク質に配列が類似している。各種の図面における同一の参照番号
は同一の要素を示す。
【手続補正書】
【提出日】平成13年9月14日(2001.9.14)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】0099
【補正方法】変更
【補正の内容】
【0099】 タンパク質相互作用のロゼッタストーン予測の信頼性を評価するために、その
方法が第一の場所で機能しなければならない理由を考えることは有益である。こ
れは、タンパク質の類似性の考察から明らかになる。タンパク質領域AとBの単
一のタンパク質鎖への融合が、AとBの有縁性を強く高めることができるという
ことを熱力学の法則からたどる。その理由は、融合がAとBの解離のエントロピ
を著しく減少させるということである。そして、それによってAの結合自由エネ
ルギーをBに減らす。エントロピのこの低減は、Bに関するAの有効な濃度の増
加として表されることが多い。E. Coli細胞のタンパク質の濃度は、マイクロモ
ルのオーダーとなる傾向を持ち(Pederson他、細胞14,179、1978年)
一方、融合されたタンパク質の有効濃度が〜mMまたはより大きくなる(ロビ
ンソン他、PNAS USA 95、5929、1998年)。別の方法で表現すると、
複合体からの解離タンパク質サブユニットの標準の自由エネルギーは、代表的に
は27Cで、8〜20kcal/モルである(10-6〜10-14Mの解離定数に
一致する)(ホートンおよびルイス、Protein Sci. 1、169、1992年)
、そして、サブユニットが単一のタンパク質鎖に融合するとき、〜10kcal
/モルまで減らすことができる。AがBに融合するとき、タンパク質AとB間の
有縁性が非常に高められるので、図6に示すように、同じポリペプチド上の相互
作用している領域AとBを含んだ原始のタンパク質から、相互作用する幾つかの
タンパク質の対は進化することができた。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0135
【補正方法】変更
【補正の内容】
【0135】 MSH6(このタンパク質は、DNA不整合修復(mismatch repair)タンパ
ク質であり(ジョンソン他、J. Biol. Chem.271、7285−7288、19 96年)、ヒトの相同物が変異すると、大多数の遺伝的な非ポリープ性結腸直腸 ガンを引き起こすことが知られている(以下の文献にレビューが掲載されている :Lynch他、N. Y. Acad. Sci、833、1−28、1997年))について我々 が調べるとき、新たなリンクが確立される。 MSH6は、他のいくつかのDNA
不整合修復タンパク質と相同であり、図12において、配列に無関係なPMS1
DNA不整合修復タンパク質族にリンクされ、その突然変異はまたヒトにおいて
、結腸直腸ガンへ結び付けられる(Papadopolous他、サイエンス263、162
5−1629、1994年)。MSH6は、相同物MSH4を介して、メチレン
テトリドロフォレートデヒドロゲナーゼ(methylenetetrhydrofolate dehydrogen
ase)によってプリン生合成経路へ、そして2つのRNA修正酵素へ、更に、特性
が得られていないタンパク質族へと順番にリンクされ、それは、現在ガンにおけ
るDNA修復およびヒトの相同物の潜在的参加を考慮して調査することができる
───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号 60/126,593 (32)優先日 平成11年3月26日(1999.3.26) (33)優先権主張国 米国(US) (31)優先権主張番号 60/134,092 (32)優先日 平成11年5月14日(1999.5.14) (33)優先権主張国 米国(US) (31)優先権主張番号 60/134,093 (32)優先日 平成11年5月14日(1999.5.14) (33)優先権主張国 米国(US) (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,US,UZ,VN,YU,ZA,ZW (72)発明者 マルコッテ エドワード アメリカ合衆国 カリフォルニア州 90064 ロサンゼルス サウス カルメリ ナ アベニュー 2230 (72)発明者 トンプソン マイケル アメリカ合衆国 カリフォルニア州 90404 サンタ モニカ ナンバー6 ナ インティーンス ストリート 1528 (72)発明者 アイゼンバーグ デイビット アメリカ合衆国 カリフォルニア州 90024 ロサンゼルス コムストック ア ベニュー 342 (72)発明者 グロッセ ロバート アメリカ合衆国 カリフォルニア州 90401 サンタ モニカ ナンバー9 ナ インス ストリート 1218 (72)発明者 イェーテス トッド アメリカ合衆国 カリフォルニア州 91301 アゴーラ ヒルズ キャザーウッ ド コート 29028 Fターム(参考) 2G045 DA12 DA13 DA14 DA36 JA01 4B024 AA11 AA20 BA80 CA01 GA11 HA01 HA14 HA19 5B075 ND20 UU19

Claims (77)

    【特許請求の範囲】
  1. 【請求項1】 機能的にリンクされるように多数のポリペプチドを同定する方
    法であって: a)複数のタンパク質の一次アミノ酸配列に、多数の明らかに非相同であるポ
    リペプチドの前記一次アミノ酸配列を整列させること;そして、 b)かかる多数の明らかに非相同であるポリペプチドすべての前記一次アミノ
    酸配列と、少なくとも1つのかかるタンパク質の前記一次アミノ酸配列との間に
    見られる任意のアラインメントに対して、前記少なくとも1つのかかるタンパク
    質を、前記多数のポリペプチド間の機能的リンクを示すものとして同定する指示
    を出力すること; を含む方法。
  2. 【請求項2】 前記整列はアルゴリズムによって実行される、 請求項1の方法。
  3. 【請求項3】 前記アルゴリズムは、スミス−ウォーターマンアルゴリズム、
    ニードルマン−ブンシュアルゴリズム、BLAST、FASTA、およびPSI
    −BLASTから成る群から選択される、 請求項2の方法。
  4. 【請求項4】 前記多数の明らかに非相同であるポリペプチドは、データベー
    スからもたらされる、 請求項1の方法。
  5. 【請求項5】 前記多数の明らかに非相同であるポリペプチドは、ゲノムデー
    タベースから核酸配列を変換することによって得られる、 請求項1の方法。
  6. 【請求項6】 前記複数のタンパク質は、既知の機能を有する、 請求項1の方法。
  7. 【請求項7】 前記多数の明らかに非相同であるポリペプチドの少なくとも1
    つは、既知の機能を有する、 請求項1の方法。
  8. 【請求項8】 前記多数の明らかに非相同であるポリペプチドの少なくとも1
    つは、未知の機能を有する、 請求項1の方法。
  9. 【請求項9】 前記アラインメントが、前記複数のタンパク質に対して前記多
    数の明らかに非相同であるポリペプチドの相同性の程度に基づく、 請求項1の方法。
  10. 【請求項10】 前記少なくとも1つのかかるタンパク質は、各々の前記多数
    の明らかに非相同であるポリペプチドの前記一次アミノ酸配列の断片を含む、 請求項1の方法。
  11. 【請求項11】 c)前記少なくとも1つのかかるタンパク質の有意性を、確
    率(p)の閾値を計算することにより判定すること; を更に含む、 請求項1の方法。
  12. 【請求項12】 前記確率の閾値は、実行されるべき配列比較の総数に基づい
    て前記値1/NMに関して設定され、ここで、Nは第1の有機体のゲノムのタン
    パク質数であり、Mは他のすべてのゲノムのタンパク質数である、 請求項11の方法。
  13. 【請求項13】 前記明らかに非相同であるポリペプチドの前記一次アミノ酸
    配列と、前記複数のタンパク質の少なくとも1つの一次アミノ酸配列との間に見
    られる任意のアラインメントに対して、1つの明らかに非相同であるポリペプチ
    ドと、他の明らかに非相同であるポリペプチドの過剰な数との間の過剰な機能的
    リンクにフィルタをかけること; を更に含む、 請求項1の方法。
  14. 【請求項14】 コンピュータ可読の媒体上に記憶されるコンピュータプログ
    ラムであって、機能的にリンクされるようにタンパク質を同定するために、コン
    ピュータ装置に: a)多数の明らかに非相同であるポリペプチドの一次アミノ酸配列を、複数の
    タンパク質の前記一次アミノ酸配列へ整列させ;そして、 b)すべてのポリペプチドの前記一次アミノ酸配列と、少なくとも1つのかか
    るタンパク質の前記一次アミノ酸配列との間に見られる任意のアラインメントに
    対して、かかるタンパク質の同定の表示を出力させる; 命令を含むコンピュータプログラム。
  15. 【請求項15】 前記整列は、アルゴリズムによって実行される、 請求項14のコンピュータプログラム。
  16. 【請求項16】 前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
    、ニードルマン−ブンシュアルゴリズム、BLAST、FASTA、およびPS
    I−BLASTから成る群から選択される、 請求項15のコンピュータプログラム。
  17. 【請求項17】 前記多数の明らかに非相同であるポリペプチドは、データベ
    ースからもたらされる、 請求項14のコンピュータプログラム。
  18. 【請求項18】 前記多数の明らかに非相同であるポリペプチドは、ゲノムデ
    ータベースから核酸配列を変換することによって得られる、 請求項14のコンピュータプログラム。
  19. 【請求項19】 前記複数のタンパク質は、既知の機能を有する、 請求項14のコンピュータプログラム。
  20. 【請求項20】 前記多数の明らかに非相同であるポリペプチドの少なくとも
    1つは既知の機能を有する、 請求項14の方法。
  21. 【請求項21】 前記多数の明らかに非相同であるポリペプチドの少なくとも
    1つは未知の機能を有する、 請求項14の方法。
  22. 【請求項22】 前記アラインメントが、前記複数のタンパク質に対して前記
    多数の明らかに非相同であるポリペプチドの相同性の程度に基づく、 請求項14のコンピュータプログラム。
  23. 【請求項23】 前記少なくとも1つのかかるタンパク質は、各々の前記多数
    の明らかに非相同であるポリペプチドの前記一次アミノ酸配列の断片を含む、 請求項14のコンピュータプログラム。
  24. 【請求項24】 前記コンピュータへ: c)前記少なくとも1つのかかるタンパク質の有意性を、確率(p)の閾値を
    計算することにより判定させる; ための命令を更に含む、 請求項14のコンピュータプログラム。
  25. 【請求項25】 前記確率は、実行されるべき配列比較の総数に基づいて前記
    値1/NMに関して設定され、ここで、Nは第1の有機体のゲノムのタンパク質
    数であり、Mは他のすべてのゲノムのタンパク質数である、 請求項24のコンピュータプログラム。
  26. 【請求項26】 前記明らかに非相同であるポリペプチドの前記一次アミノ酸
    配列と、前記複数のタンパク質の少なくとも1つの一次アミノ酸配列との間に見
    られる任意のアラインメントに対して、1つの明らかに非相同であるポリペプチ
    ドと、他の明らかに非相同であるポリペプチドの過剰な数との間の過剰な機能的
    リンクにフィルタをかけること; を更に含む、 請求項14のコンピュータプログラム。
  27. 【請求項27】 機能的リンクを有するように、複数のポリペプチドを同定す
    る方法であって: a)タンパク質の一次アミノ酸配列を、各々の複数の明らかに非相同であるポ
    リペプチドの前記一次アミノ酸配列へ整列させること;そして、 b)タンパク質の前記一次アミノ酸配列と、前記複数の明らかに非相同である
    ポリペプチドの前記一次アミノ酸配列との間に見られる任意のアラインメントに
    対して、機能的にリンクされるように、任意の明らかに非相同であるポリペプチ
    ドを同定している表示を出力すること、ここで、前記タンパク質の前記一次アミ
    ノ酸は、少なくとも2つの明らかに非相同であるポリペプチドからのアミノ酸配
    列を含む; を含む方法。
  28. 【請求項28】 前記整列はアルゴリズムによって実行される、 請求項27の方法。
  29. 【請求項29】 前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
    、ニードルマン−ブンシュアルゴリズム、BLAST、FASTA、およびPS
    I−BLASTから成る群から選択される、 請求項28の方法。
  30. 【請求項30】 前記タンパク質は既知の機能を有する、 請求項27の方法。
  31. 【請求項31】 前記複数のポリペプチドは、ゲノムデータベースから核酸配
    列を変換することによって得られる、 請求項27の方法。
  32. 【請求項32】 前記複数のポリペプチドは、データベース内に置かれる。 請求項27の方法。
  33. 【請求項33】 前記アラインメントは、前記タンパク質に対する前記複数の
    ポリペプチドの相同性の程度に基づく、 請求項27の方法。
  34. 【請求項34】 前記非相同ポリペプチドは、前記タンパク質の前記一次アミ
    ノ酸配列に対し、重なり合わないように整列する、 請求項27の方法。
  35. 【請求項35】 前記タンパク質の前記一次アミノ酸配列と、前記明らかに非
    相同であるポリペプチドの前記一次アミノ酸配列との間に見られる任意のアライ
    ンメントに対して、1つの明らかに非相同であるポリペプチドと、他の明らかに
    非相同であるポリペプチドの過剰な数との間の過剰な機能的リンクにフィルタを
    かけること; を更に含む、 請求項27の方法。
  36. 【請求項36】 コンピュータ可読の媒体上に記憶されるコンピュータプログ
    ラムであって、機能的リンクを有するように複数のポリペプチドを同定するため
    に、コンピュータ装置に: a) タンパク質の一次アミノ酸配列を、各々の複数の明らかに非相同である
    ポリペプチドの前記一次アミノ酸配列に、整列させ;そして、 b)タンパク質の前記一次アミノ酸配列と、前記複数の明らかに非相同である
    ポリペプチドの前記一次アミノ酸配列との間に見られる任意のアラインメントに
    対して、機能的にリンクされるように、任意の明らかに非相同であるポリペプチ
    ドを同定している表示を出力させる、ここで、前記タンパク質の前記一次アミノ
    酸は、少なくとも2つの明らかに非相同であるポリペプチドからのアミノ酸配列
    を含む; ための命令を含むコンピュータプログラム。
  37. 【請求項37】 前記整列はアルゴリズムによって実行される、 請求項36のコンピュータプログラム。
  38. 【請求項38】 前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
    、ニードルマン−ブンシュアルゴリズム、BLAST、FASTA、およびPS
    I−BLASTから成る群から選択される、 請求項36のコンピュータプログラム。
  39. 【請求項39】 前記タンパク質は、既知の機能を有する、 請求項36のコンピュータプログラム。
  40. 【請求項40】 少なくとも1つの前記明らかに非相同であるポリペプチドは
    、既知の機能を有する、 請求項36のコンピュータプログラム。
  41. 【請求項41】 少なくとも1つの前記明らかに非相同であるポリペプチドは
    、未知の機能を有する、 請求項36のコンピュータプログラム。
  42. 【請求項42】 前記複数のポリペプチドは、ゲノムデータベースからの核酸
    配列を変換することによって得られる、 請求項36のコンピュータプログラム。
  43. 【請求項43】 前記複数のポリペプチドは、データベースに配置される、 請求項36のコンピュータプログラム。
  44. 【請求項44】 前記アラインメントは、前記タンパク質に対する前記複数の
    ポリペプチドの相同性の程度に基づく、 請求項36のコンピュータプログラム。
  45. 【請求項45】 前記少なくとも2つの明らかに非相同であるポリペプチドは
    、前記タンパク質の重なり合わない一次配列を含む、 請求項36のコンピュータプログラム。
  46. 【請求項46】 コンピュータへ: 前記タンパク質の前記一次アミノ酸配列と、前記明らかに非相同であるポリペ
    プチドの前記一次アミノ酸配列との間に見られる任意のアラインメントに対して
    、1つの明らかに非相同であるポリペプチドと、他の非相同であるポリペプチド
    の過剰な数との間の過剰な機能的リンクにフィルタをかけさせる; ための命令を更に含む、 請求項36のコンピュータプログラム。
  47. 【請求項47】 機能的リンクを有するように、多数のタンパク質を同定する
    方法であって: a)少なくとも2つのゲノムからのタンパク質のリストを含むデータを得るこ
    と; b)各タンパク質についてのタンパク質の系統分類プロファイルを形づくるた
    めに前記タンパク質の前記リストを比較すること、ここで、タンパク質の系統分
    類プロファイルは、前記タンパク質の相同性に基づく前記少なくとも2つのゲノ
    ムの各々における特定のタンパク質族に帰属しているタンパク質の有無を示す;
    そして、 c)類似プロファイルに基づいてタンパク質の前記リストをグループ化するこ
    と、ここで、類似プロファイルを有するタンパク質は、機能的にリンクされてい
    ることが示される; を含む方法。
  48. 【請求項48】 前記データは、1つ以上のデータベースに存在する、 請求項47の方法。
  49. 【請求項49】 前記データは、核酸またはアミノ酸配列の形である、 請求項47の方法。
  50. 【請求項50】 任意の核酸配列は、アミノ酸配列に変換される、 請求項49の方法。
  51. 【請求項51】 前記比較は、アルゴリズムによって実行される、 請求項47の方法。
  52. 【請求項52】 前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
    、ニードルマン−ブンシュアルゴリズム、BLAST、FASTA、およびPS
    I−BLASTから成る群から選択される、 請求項51の方法。
  53. 【請求項53】 ステップ(b)は、確率(p)閾値を計算することによって
    前記タンパク質の前記相同性の前記有意性を決定すること、を更に含む、 請求項47の方法。
  54. 【請求項54】 前記確率は、実行されるべき配列比較の総数に基づいて、前
    記値1/NMに関して設定される、ここで、Nは前記第1の有機体のゲノムのタ
    ンパク質数であり、Mは他のすべてのゲノムのタンパク質数である、 請求項53の方法。
  55. 【請求項55】 前記有無は、進化の距離を計算することによってである、 請求項47の方法。
  56. 【請求項56】 前記進化の距離は: 前記タンパク質のリストからの2つの配列を整列させること; 条件付確率マトリクスp(aa aa')を作成することにより進化確率プロセスを決
    定すること、ここで、aaおよびaa'は、任意のアミノ酸であり、前記条件付確率
    マトリクスは、対数奇数マトリクスからのアミノ酸置換マトリクスを、前記条件
    付確率マトリクスへ変換することによって作成されている; 【数1】 によって表される、前記2つの配列の前記アラインメント中の各々の整列された
    対に対して前記条件付確率の積をとることによって、前記作成された条件付確率
    マトリクスの観測されたアラインメントを計数すること;そして、 Pを最大にするように、パワーの式p'=p(aan aa')から進化の距離を決定する
    こと; によって計算される、 請求項55の方法。
  57. 【請求項57】 前記系統分類プロファイルが、ベクトル、マトリクスまたは
    系統分類のツリーの形である、 請求項47の方法。
  58. 【請求項58】 コンピュータ可読の媒体上に記憶されるコンピュータプログ
    ラムであって、機能的リンクを有するように多数のポリペプチドを同定するため
    に、コンピュータ装置に: a) 少なくとも2つのゲノムからタンパク質のリストを含むデータを取得さ
    せる; b) 各々のタンパク質についてタンパク質の系統分類プロファイルを形づく
    るためにデータを比較させる、ここで、前記系統分類プロファイルが、前記タン
    パク質の相同性に基づいて前記少なくとも2つのゲノムの各々における特定のタ
    ンパク質族に帰属しているタンパク質の前記有無を示す;そして、 c) 類似プロファイルに基づいて前記タンパク質の前記リストをグループ化
    させる、 ここで、類似プロファイルは機能的リンクを示す; ための命令を含むコンピュータプログラム。
  59. 【請求項59】 前記データは、1つ以上のデータベースに呈示される、 請求項58のコンピュータプログラム。
  60. 【請求項60】 前記データは、核酸またはアミノ酸配列の形である、 請求項58のコンピュータプログラム。
  61. 【請求項61】 任意の核酸配列は、前記コンピュータプログラムによってア
    ミノ酸配列に変換される、 請求項60のコンピュータプログラム。
  62. 【請求項62】 前記比較はアルゴリズムによって実行される、 請求項58のコンピュータプログラム。
  63. 【請求項63】 前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
    、ニードルマン−ブンシュアルゴリズム、BLAST、FASTA、およびPS
    I−BLASTから成る群から選択される、 請求項62のコンピュータプログラム。
  64. 【請求項64】 ステップ(b)は、確率(p)閾値を計算することによって
    前記タンパク質の前記相同性の前記有意性を決定すること、を更に含む、 請求項63のコンピュータプログラム。
  65. 【請求項65】 前記確率の値は、実行されるべき配列比較の総数に基づいて
    、前記値1/NMに関して設定される、ここで、Nは前記第1の有機体のゲノム
    のタンパク質数であり、Mは他のすべてのゲノムのタンパク質数である、 請求項64のコンピュータプログラム。
  66. 【請求項66】 前記有無は、進化の距離を計算することによってである、 請求項58のコンピュータプログラム。
  67. 【請求項67】 前記系統分類プロファイルは、ベクトル、マトリクスまたは
    系統分類のツリーの形である、 請求項58のコンピュータプログラム。
  68. 【請求項68】 少なくとも2つのタンパク質の進化の距離を決定するための
    方法であって: a)2つのタンパク質配列を整列すること; b)条件付確率マトリクスp(aa→aa')を作成することによって進化確率プロセ
    スを決定すること、ここで、aaおよびaa' は任意のアミノ酸であり、前記条件付
    確率マトリクスは、対数奇数マトリクスから前記条件付確率マトリクスへアミノ
    酸置換マトリクスを変換することによって作成される; c) 【数2】 によって表される、前記2つのタンパク質配列の前記アラインメント中の、アミ
    ノ酸の各々の整列された対に対して前記条件付確率の前記積をとることによって
    、前記作成された条件付確率マトリクスの観測されたアラインメントを計数する
    こと;そして、 d) パワーの式から進化の距離αを決定すること、すなわち、Pを最大にす
    るように、p'=pα(aa→aa')を計算すること; を含む。
  69. 【請求項69】 前記条件付き確率マトリクスは、固定した時間間隔全体にわ
    たって置換率を有するマルコフ過程によって定義される、 請求項68の方法。
  70. 【請求項70】 アミノ酸置換マトリクスから条件付き確率マトリクスへの変
    換が、 【数3】 によって表され、ここで、BLOSUM62は、アミノ酸置換マトリクスであり
    、P(i→j)は、BLOSUM62スコアに従って、アミノ酸iがアミノ酸jに点
    変異によって置き換えられる確率である; 請求項68の方法。
  71. 【請求項71】 Pjはアミノ酸jの存在度であって、次式の正規化状態によ
    って与えられる複数の線形方程式を解くことによって計算される、 【数4】 請求項68の方法。
  72. 【請求項72】 コンピュータ可読の媒体上に記憶されるコンピュータプログ
    ラムであって、少なくとも2つのタンパク質間の進化の距離を決定するために、
    コンピュータ装置に: a) 2つのタンパク質配列を整列させる; b) 条件付確率マトリクスp(aa→aa')を作成することによって進化確率プロ
    セスを決定させる、ここで、aaおよびaa' は任意のアミノ酸であり、前記条件付
    確率マトリクスは、対数奇数マトリクスから前記条件付確率マトリクスへアミノ
    酸置換マトリクスを変換することによって作成される; c) 【数5】 によって表される、前記2つのタンパク質配列の前記アラインメント中の、各々
    の整列された対に対して前記条件付確率の前記積をとることによって、前記作成
    された条件付確率マトリクスの観測されたアラインメントを計数させる;そして
    、 d) パワーの式から進化の距離αを決定させる、すなわち、Pを最大にする
    ように、p'=pα(aa→aa')を計算させる; 命令を含む。
  73. 【請求項73】 前記条件付き確率マトリクスは、固定した時間間隔全体にわ
    たって置換率を有するマルコフ過程によって定義される、 請求項72のコンピュータプログラム。
  74. 【請求項74】 アミノ酸置換マトリクスから条件付き確率マトリクスへの変
    換が、 【数6】 によって表され、ここで、BLOSUM62は、アミノ酸置換マトリクスであり
    、P(i→j)は、BLOSUM62スコアに従って、アミノ酸iがアミノ酸jに点
    変異によって置き換えられる確率である; 請求項72のコンピュータプログラム。
  75. 【請求項75】 Pjはアミノ酸jの存在度であって、次式の正規化状態によ
    って与えられる複数の線形方程式を解くことによって計算される、 【数7】 請求項72のコンピュータプログラム。
  76. 【請求項76】 少なくとも2つのポリペプチド間の機能的リンクを決定する
    ための方法であって: a) 複数のタンパク質の前記一次アミノ酸配列に多数の明らかに非相同であ
    るポリペプチドの一次アミノ酸配列を整列させること; b) かかる多数の明らかに非相同であるポリペプチドすべての前記一次アミ
    ノ酸配列と、少なくとも1つのかかるタンパク質の前記一次アミノ酸配列との間
    に見られる任意のアラインメントの対して、 前記多数のポリペプチド間の機能
    的リンクを示すような少なくとも1つのかかるタンパク質を同定する表示を出力
    すること; c) 少なくとも2つのゲノムからのポリペプチドのリストを含むデータを得
    ること; d) 各々のタンパク質についてタンパク質の系統分類プロファイルを形づく
    るために少なくとも2つのゲノムから前記ポリペプチドの前記リストを比較する
    こと、ここで、前記タンパク質の前記系統分類プロファイルは、各々の前記少な
    くとも2つのゲノムの特定のタンパク質族に帰属しているポリペプチドの有無を
    、前記ポリペプチドの相同性に基づいて示す; e) 類似プロファイルに基づいて特定のタンパク質族からの前記ポリペプチ
    ドの前記リストをグループ化すること、ここで、類似プロファイルは、前記ポリ
    ペプチド間の機能的リンクを表す;そして、 f)ステップ(b)とステップ(e)またはその両方において同定された機能
    的リンクを、相関している発現のパターン、実験的に測定された相互作用、およ
    び機能的関係によって同定された機能的リンクと比較すること、 を含む。
  77. 【請求項77】 関連したタンパク質のネットワークとして前記機能的リンク
    を表示することを更に含み: g)機能的にリンクされたタンパク質が、他のすべてのタンパク質より互いに
    密接するように、線図にすべてのポリペプチドを配置すること;そして、 h)機能的に関連したグループとして前記線図の群に落ち込むタンパク質を同
    定すること; を含む、 請求項76の方法。
JP2000596510A 1999-01-29 2000-01-28 ゲノム解析からタンパク質の機能および相互作用を決定 Pending JP2002535972A (ja)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US11784499P 1999-01-29 1999-01-29
US60/117,844 1999-01-29
US11820699P 1999-02-01 1999-02-01
US60/118,206 1999-02-01
US12659399P 1999-03-26 1999-03-26
US60/126,593 1999-03-26
US13409299P 1999-05-14 1999-05-14
US13409399P 1999-05-14 1999-05-14
US60/134,092 1999-05-14
US60/134,093 1999-05-14
PCT/US2000/002246 WO2000045322A1 (en) 1999-01-29 2000-01-28 Determining protein function and interaction from genome analysis

Publications (1)

Publication Number Publication Date
JP2002535972A true JP2002535972A (ja) 2002-10-29

Family

ID=27537494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000596510A Pending JP2002535972A (ja) 1999-01-29 2000-01-28 ゲノム解析からタンパク質の機能および相互作用を決定

Country Status (6)

Country Link
US (2) US6466874B1 (ja)
EP (1) EP1155379A1 (ja)
JP (1) JP2002535972A (ja)
AU (1) AU2744200A (ja)
CA (1) CA2359898A1 (ja)
WO (1) WO2000045322A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012009008A (ja) * 2010-05-25 2012-01-12 Sony Corp 情報処理装置、情報処理方法及びプログラム

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6892139B2 (en) 1999-01-29 2005-05-10 The Regents Of The University Of California Determining the functions and interactions of proteins by comparative analysis
AU6300500A (en) * 1999-07-29 2001-02-19 European Molecular Biology Laboratory Method for identifying interacting proteins
AU1574801A (en) * 1999-10-26 2001-05-08 Genometrix Genomics Incorporated Process for requesting biological experiments and for the delivery of experimental information
EP1257961A1 (en) * 1999-11-12 2002-11-20 The Regents Of The University Of California Determining the functions and interactions of proteins by comparative analysis
EP1406996A2 (en) * 2001-03-19 2004-04-14 Hybrigenics Protein-protein interaction map inference using interacting domain profile pairs
US6691110B2 (en) * 2001-03-22 2004-02-10 International Business Machines Corporation System and method for discovering patterns with noise
GB0119890D0 (en) * 2001-08-15 2001-10-10 Proteom Ltd Apparatus and method for predicting rules of protein sequence interactions
US7623969B2 (en) 2002-01-31 2009-11-24 The Institute For Systems Biology Gene discovery for the system assignment of gene function
US20050100892A1 (en) * 2002-07-22 2005-05-12 Shea Terrance P.Jr. Method of selecting genes for crop improvement
JP4247026B2 (ja) * 2003-03-28 2009-04-02 日立ソフトウエアエンジニアリング株式会社 キーワード頻度算出方法及びそれを実行するプログラム
GB0310752D0 (en) * 2003-05-09 2003-06-11 European Molecular Biology Lab Embl Bioinformatic method
US20040236515A1 (en) * 2003-05-20 2004-11-25 General Electric Company System, method and computer product for predicting protein- protein interactions
US20050042663A1 (en) * 2003-08-19 2005-02-24 Blinov Michael L. Rule-based modeling of biochemical networks
US20070212719A1 (en) * 2006-03-10 2007-09-13 Los Alamos National Security Graphical rule based modeling of biochemical networks
US8050870B2 (en) * 2007-01-12 2011-11-01 Microsoft Corporation Identifying associations using graphical models
US8639445B2 (en) * 2007-07-23 2014-01-28 Microsoft Corporation Identification of related residues in biomolecular sequences by multiple sequence alignment and phylogenetic analysis
US20100217532A1 (en) * 2009-02-25 2010-08-26 University Of Delaware Systems and methods for identifying structurally or functionally significant amino acid sequences
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
CA2971589C (en) 2014-12-18 2021-09-28 Edico Genome Corporation Chemically-sensitive field effect transistor
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
WO2017201081A1 (en) 2016-05-16 2017-11-23 Agilome, Inc. Graphene fet devices, systems, and methods of using the same for sequencing nucleic acids
US20230395185A1 (en) * 2020-10-14 2023-12-07 The Regents Of The University Of California Systems for and methods of determining protein-protein interaction

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128587A (en) * 1997-01-14 2000-10-03 The Regents Of The University Of California Method and apparatus using Bayesian subfamily identification for sequence analysis

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012009008A (ja) * 2010-05-25 2012-01-12 Sony Corp 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
EP1155379A1 (en) 2001-11-21
AU2744200A (en) 2000-08-18
CA2359898A1 (en) 2000-08-03
US6564151B1 (en) 2003-05-13
US6466874B1 (en) 2002-10-15
WO2000045322A1 (en) 2000-08-03

Similar Documents

Publication Publication Date Title
JP2002535972A (ja) ゲノム解析からタンパク質の機能および相互作用を決定
Watson et al. Predicting protein function from sequence and structural data
Wojcik et al. Protein-protein interaction map inference using interacting domain profile pairs
Pazos et al. In silico two‐hybrid system for the selection of physically interacting protein pairs
Koehl Protein structure similarities
Sivashankari et al. Functional annotation of hypothetical proteins–A review
Kolesov et al. SNAPping up functionally related genes based on context information: a colinearity-free approach
Shahbaaz et al. Current advances in the identification and characterization of putative drug and vaccine targets in the bacterial genomes
Pappas et al. Virus bioinformatics
Haimovich Methods, challenges, and promise of next-generation sequencing in cancer biology
Harrington et al. Predicting biological networks from genomic data
Riley et al. Identifying cognate binding pairs among a large set of paralogs: the case of PE/PPE proteins of Mycobacterium tuberculosis
Lozada-Chávez et al. The role of DNA-binding specificity in the evolution of bacterial regulatory networks
Marcotte et al. Exploiting big biology: integrating large-scale biological data for function inference
Pellegrini Computational methods for protein function analysis
US6772069B1 (en) Determining protein function and interaction from genome analysis
Marsden et al. Exploiting protein structure data to explore the evolution of protein function and biological complexity
Redfern et al. Survey of current protein family databases and their application in comparative, structural and functional genomics
Grant Integrating computational protein function prediction into drug discovery initiatives
Elkin Primer on medical genomics part V: bioinformatics
US20030032066A1 (en) Protein-protein interaction map inference using interacting domain profile pairs
Vora et al. Computational Methods and Deep Learning for Elucidating Protein Interaction Networks
Si et al. TIM-Finder: A new method for identifying TIM-barrel proteins
Mou et al. In Silico Functional Annotation of VP 128 Hypothetical Protein from Vibrio parahaemolyticus
Le A computational framework to analyze human genomes

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040702

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040713

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041130