JP2002535972A

JP2002535972A - ゲノム解析からタンパク質の機能および相互作用を決定

Info

Publication number: JP2002535972A
Application number: JP2000596510A
Authority: JP
Inventors: マテオペレグリニ; エドワードマルコッテ; マイケルトンプソン; デイビットアイゼンバーグ; ロバートグロッセ; トッドイェーテス
Original assignee: THE REGENTS OF THE UNIVERSITY OF CARIFORNIA
Current assignee: THE REGENTS OF THE UNIVERSITY OF CARIFORNIA
Priority date: 1999-01-29
Filing date: 2000-01-28
Publication date: 2002-10-29
Also published as: EP1155379A1; AU2744200A; CA2359898A1; US6564151B1; US6466874B1; WO2000045322A1

Abstract

(57)【要約】計算方法の体系およびコンピュータプログラムが、ゲノム配列から機能的リンクを推定するために提供される。１つの方法は、タンパク質Ａ’およびＢ’のいくつかの対が単一のタンパク鎖ＡＢに融合した別の有機体に相同物を有するという観測に基づく。配列のトランスゲノム比較は、Ａ’およびＢ間の相互作用を解読するロゼッタストーン配列であり、これらのＡＢ配列を明らかにすることができる。別の方法は、２つ以上の有機体のゲノム配列を比較して、すべてのゲノムにわたってその有無を示す各タンパク質に対する系統分類プロファイルを創出する。そのプロファイルは、タンパク質の異なる系統間の機能的リンクに関する情報を提供する。更に別の方法では、上記の２つの方法の組合わせを用いて、機能的リンクを予測する。

Description

【発明の詳細な説明】

【０００１】（米連邦支援研究に関する声明）アメリカ政府は、エネルギー省によって与えられる認可番号ＤＥ−ＦＣ０３−
８７ＥＲ６０６１５、および国立衛生研究所によって与えられるＧＭ３１２９９
に従って、本発明における特定の権利を有する。

【０００２】（関連出願に対する相互参照）本出願は、１９９９年１月２９日出願の仮出願第６０／１１７，８４４号、１
９９９年２月１日出願の仮出願第６０／１１８，２０６号、１９９９年３月２６
日出願の仮出願第６０／１２６，５９３号、１９９９年５月１４日出願の仮出願
第６０／１３４，０９３号、および１９９９年５月１４日出願の仮出願第６０／
１３４，０９２号からの優先権を主張し、それら出願に対する優先権請求は、３
５Ｕ．Ｓ．Ｃ．の１１９（ｅ）章に基づいて成される。これらの開示は参照によ
って本明細書へ組みこまれる。

【０００３】（技術の分野）本発明は、タンパク質の機能を予測するための方法および装置に関する。特に
、本発明は、材料、ソフトウエア、自動化装置、およびタンパク質の機能を予測
するためにそれらを実行する方法に関する。

【０００４】（発明の背景）近代生物学の核心は、遺伝情報が核酸ゲノムに存在するということにあり、か
かるゲノム（すなわち遺伝子型）に具体化される情報が細胞機能を方向付けると
いうことである。これは、有機体のゲノムにおけるさまざまな遺伝子の発現、お
よびかかる遺伝子の発現の調節を介して起きる。細胞や有機体の遺伝子の発現は
、細胞や有機体の物理的特性（すなわちその表現型）を定義する。これは遺伝子
からタンパク質への変換を通じて成し遂げられる。

【０００５】タンパク質（またはポリペプチド）は、アミノ酸の線状高分子である。タンパ
ク質を生産する重合反応は各アミノ酸から１分子の水の損失を生じ、従って、タ
ンパク質は、アミノ酸「残基」で構成されると言われることが多い。天然タンパ
ク質分子は、２０種類程のさまざまなアミノ酸残基を含むことができ、それぞれ
が特徴的な側鎖を含む。タンパク質におけるアミノ酸残基のある種の線状配列は
、タンパク質の一次配列または一次構造を定義する。タンパク質の一次構造は、
周知の方法を用いて比較的容易に決定できる。

【０００６】さまざまな有機体に対する可能性のある治療、抗生物質および生物製剤をより
完全に理解し、判断するために、多くの有機体のゲノムを配列決定する努力が成
されている。例えば、ヒトゲノム解析計画は、ヒトゲノムの完全な配列を得て、
各遺伝子の生化学的機能を決定するという特定の目標を掲げて始まった。現在ま
でに、プロジェクトは、ヒトゲノムの相当な部分の配列をもたらした（J. Roach
, http://weber.u.Washington.edu/~roac/human_genome_progress2.html）（ギ
ブス、１９９５年）。少なくとも２１の他のゲノムが既に配列決定されていて、
例えば、Ｍ．ゲニタリウム(M. genitalium)（フレーザー他、１９９５年）、Ｍ
．ジャンナッシ(M. jannaschii)（Bult他、１９９６年）、Ｈ．インフルエンザ(
H. influenza)（フライシュマン他、１９９５年）、E. Coli(E.coli）（ブラッ
トナー他、１９９７年）、および酵母菌(S. cerevisiae)（Mewes他、１９９７年
）を含む。著しい進歩が、Ｃ．エレガンス(C. elegans)、アラバドプシス(Araba
dopsis sp.)、およびＤ．メラノガスター(D. melanogaster)のマウス等のモデル
となる有機体のゲノムの配列決定において成されている。いくつかの機能的情報
の注釈が付いたゲノム情報を含む一部のデータベースは、異なる団体によって維
持され、インターネットを介してアクセス可能である。例えば、http://wwwtigr
.org/tdb, http://www.genetics.wisc.edu, http://genomewww.stanford.edu/
~ball, http://hiv-web.lanl.gov, http://www.ncbi.nlm.nih.gov, http://w
ww.ebi.ac.uk, http://Pasteur.fr/other/biology、および、http://www.genom
e.wi.init.eduである。ゲノムの原核酸配列は、利用可能な多数のアルゴリズム
の１つによって、タンパク質のアミノ酸配列に変換でき、それは細胞内プロセス
を莫大な配列で実行する。残念なことに、これらの原タンパク質配列データは、
タンパク質が細胞においてどのように機能するかについて直接的には記述しない
。（例えば代謝経路、分子間の信号、細胞分裂等の）さまざまな細胞のプロセス
の詳細を理解すること、そして、どのタンパク質がどのプロセスを実行するかが
、近代細胞生物学の中心課題である。

【０００７】進化を通じて、さまざまな生物のタンパク質配列は、変化する度合いを保存し
てきた。その結果、どの生物を取りあげても、他の生物のタンパク質と類似であ
ることが自明な多くのタンパク質を含む。同一祖先のタンパク質から派生してき
たかかる類似のタンパク質は、相同物と呼ばれる。

【０００８】タンパク質間の相同性の度合いは、新しいタンパク質配列へ生物学的機能を割
り当てる際に有用である。タンパク質に機能を割り当てるための最も直接的な方
法は、実験室での労力を要する実験による。しかし、特性が把握されていない特
定のタンパク質配列が実験室ですでに研究されたものに相同である場合、前者の
機能は、後者の機能と同等視できることが多い。

【０００９】残念なことに、相同性によってタンパク質に機能を割り当てる方法は完全では
ない。多くのタンパク質配列は、実験的に特性が得られた相同物を他の有機体に
おいて持たない。有機体によっては、ゲノムのタンパク質の３分の１から半分は
、相同性または他の利用可能な計算方法による機能割り当てができない。従って
、ゲノム配列からタンパク質の機能を予測する新しい方法が必要である。

【００１０】（発明の概要）ゲノム配列からタンパク質機能を決定することは、生物情報学の中心課題であ
る。ゲノム配列は、それらが暗号化するタンパク質の機能に関する明白な情報を
含んでいないが、それでも、この情報は医学や農業のバイオテクノロジにおいて
重要である。本発明は、材料、ソフトウエア、自動化装置、およびタンパク質機
能を予測するために有用な方法を提供する。例えば、かかる情報は、新しい遺伝
子を同定し、製薬化合物のための潜在的目標を同定するために有用である。

【００１１】一実施の形態において、本発明は、ある経路または構造的複合体において共に
機能するタンパク質が、単一のタンパク質に共に融合する別の有機体においても
見い出されることが多い、という考え方に基づく機能的リンク（例えばタンパク
質間のリンク）を予測するための方法を提供する。リンクまたは遺伝子融合のこ
れらのパターンを同定することによって、他の関連する（すなわち、機能的また
は物理的に関連する）タンパク質において見られる類似の配列情報に基づいて、
未知のタンパク質間の相互作用を予測することができる。配列比較によって、融
合されたタンパク質（本明細書において「ロゼッタストーン」タンパク質と呼ば
れる）を同定することができ、それは、互いに類似していない２つの別々のタン
パク質に対して、別の領域では類似している。これは、別の点では無関係な２つ
のタンパク質の機能的リンクを確定する。本発明者は、ロゼッタストーンタンパ
ク質を介して互いに関連するタンパク質が、機能的に強くリンクされる傾向があ
るということを発見した。

【００１２】別の実施例では、本発明は、共通の構造的複合体または代謝経路に参加するタ
ンパク質を検出する計算の方法を提供する。これらのグループ内のタンパク質は
、「機能的リンクを有する」として定義される。機能的リンクを有するタンパク
質は、関連した方法で進化し、従って、それらは有機体の同一部分集合の相同物
を有する。例えば、ベン毛を有するバクテリアにはベン毛(flagellar)タンパク
質が見つかるが、他の有機体にはないであろうと考えられる。簡単に言えば、２
つのタンパク質が、完全に（またはほとんど完全に）配列決定された有機体の同
一部分集合に相同体を有するが、他の有機体においては有しない場合、それらは
おそらく機能的リンクを有する。本発明は、この特性を用いてゲノムによって暗
号化されるすべてのタンパク質間の機能的相互作用を系統的にマップにする方法
を提供する。本方法は、機能的リンクを有するタンパク質の対が、一般に、アミ
ノ酸配列の類似性を互いに持たず、従って、従来の配列アラインメント法によっ
ては関連付けができないという問題を解決する。

【００１３】一実施の形態は、機能的リンクを有する多数のポリペプチドを同定する方法を
提供し、その方法は、明らかに非相同である多数のポリペプチドの一次アミノ酸
配列を、複数のタンパク質の一次アミノ酸配列に整列させることを含み、そして
、すべてのかかる明らかに非相同である多数のポリペプチドの一次アミノ酸配列
と、少なくとも一つのかかるタンパク質の一次アミノ酸配列との間に見られる任
意の整列に対して、多数のポリペプチド間の機能的リンクを示すものとして、少
なくとも１つのかかるタンパク質を同定する表示を出力することを含む。

【００１４】別の実施の形態においては、コンピュータプログラムが、機能的にリンクする
ようにタンパク質を同定するために提供される。コンピュータプログラムは、コ
ンピュータ装置に、明らかに非相同である多数のポリペプチドの一次アミノ酸配
列を、複数のタンパク質の一次アミノ酸配列に整列させ、そして、すべてのポリ
ペプチドの一次アミノ酸配列と、少なくとも一つのかかるタンパク質の一次アミ
ノ酸配列との間に見られる任意の整列に対して、かかるタンパク質同定の表示を
出力させるための命令を備える。

【００１５】更に別の実施の形態においては、本発明は、機能的リンクを有する複数のポリ
ペプチドを同定する方法を提供する。その方法は、タンパク質の一次アミノ酸配
列を、複数の明らかに非相同であるポリペプチドの各々の一次アミノ酸配列へ整
列させることを含み、少なくとも２つの明らかに非相同であるポリペプチドに類
似のアミノ酸配列を含むタンパク質の一次アミノ酸配列と、明らかに非相同であ
るポリペプチドの複数の一次アミノ酸配列との間に見られる任意の整列に対して
、機能的にリンクしている任意の明らかに非相同であるポリペプチドを同定する
表示を出力することを含む。

【００１６】別の実施の形態では、本発明は、複数のポリペプチドが機能的リンクを有する
と同定するためのコンピュータ可読の媒体に記憶されるコンピュータプログラム
を提供する。コンピュータプログラムは、コンピュータ装置にタンパク質の一次
アミノ酸配列を、明らかに非相同である複数のポリペプチドの各々の一次アミノ
酸配列へ整列させるための命令と、少なくとも２つの明らかに非相同であるポリ
ペプチドからのアミノ酸配列を含むタンパク質の一次アミノ酸配列と、明らかに
非相同であるポリペプチドの複数の一次アミノ酸配列との間に見られる任意の整
列に対して、機能的に関連している任意の明らかに非相同であるポリペプチドを
同定する表示を出力させる命令を備える。

【００１７】更に別の実施の形態においては、本発明は、多数のタンパク質が機能的リンク
を有すると同定するための方法を提供する。その方法は、少なくとも２つのゲノ
ムからのタンパク質のリストを含むデータ、タンパク質またはタンパク質族の各
々に対するタンパク質の系統分類プロファイルを形づくるためにタンパク質のリ
ストを比較するデータ、そして機能的リンクを示す類似プロファイルに基づいて
タンパク質のリストを分類するデータを得ることであり、ここで、タンパク質の
系統分類プロファイルは、タンパク質の相同性に基づく少なくとも２つのゲノム
の各々の特定のタンパク質族に帰属しているタンパク質の有無を示す。

【００１８】更に別の実施の形態において、本発明は、多数のポリペプチドが機能的リンク
を有すると同定するためのコンピュータ可読の媒体に記憶されるコンピュータプ
ログラムを提供する。コンピュータプログラムは、コンピュータ装置に下記のデ
ータを取得させるための命令を含む。すなわち、少なくとも２つのゲノムからの
タンパク質のリスト、タンパク質またはタンパク質族の各々に対するタンパク質
の系統分類プロファイルを形づくるためのデータ比較、ここで、タンパク質の系
統分類プロファイルは、タンパク質の相同性に基づく少なくとも２つのゲノムの
各々の特定のタンパク質族に帰属しているタンパク質の有無を示し、そして、機
能的にリンクされることを示す類似プロファイルに基づくタンパク質のリストの
グループ化である。

【００１９】更に別の実施の形態においては、本発明は、異なるタンパク質の系統分類プロ
ファイルを比較する際に、ゲノムからの単なる有無を越えた２つのタンパク質間
の進化の距離を決定するための方法を提供する。ここで、距離は付加情報として
用いられている。２つの配列を整列させることを含む方法は、条件付確率マトリ
クスp(aa aa')を作成することによって進化の確率プロセスを決定することを含
み、ここで、aaおよびaa' は任意のアミノ酸であり、前記条件付確率マトリクス
は、対数奇数マトリクスから前記条件付確率マトリクスへアミノ酸置換マトリク
スを変換することによって作成され、そして

【００２０】

【数８】

【００２１】によって表される２つの配列のアラインメント中にある整列された各対に対する
条件付確率の積をとることによって、また、Ｐを最大にするパワーの式、p'=p(a
a aa')から進化の距離を決定することによって作成された条件付確率マトリクス
の観測されたアラインメントを明らかにすることを含む。

【００２２】更に別の実施の形態において、条件付確率マトリクスは、置換率を有するマル
コフ過程によって、固定した時間間隔全体にわたって定義される。

【００２３】更に別の実施の形態において、本発明は、少なくとも２つのポリペプチドの機
能的リンクを決定するための方法を提供する。本方法は、複数のタンパク質の一
次アミノ酸配列に多数の明らかに非相同であるポリペプチドの一次アミノ酸配列
を整列させることを含み、かかる多数の明らかに非相同であるポリペプチドのす
べての一次アミノ酸配列と、少なくとも１つのかかるタンパク質の一次アミノ酸
配列との間で見い出される任意のアラインメントに対して、少なくとも１つのか
かるタンパク質を、多数のポリペプチド間の機能的リンクを示すものとして同定
する表示を出力することを含み、少なくとも２つのゲノムからのポリペプチドの
リストを含むデータを取得することを含み、タンパク質またはタンパク質族の各
々に対するタンパク質の系統分類プロファイルを形づくるために少なくとも２つ
のゲノムからポリペプチドのリストを比較することを含み、ここで、タンパク質
の系統分類プロファイルは、ポリペプチドの相同性に基づく少なくとも２つの各
々において特定のタンパク質族に帰属しているポリペプチドの有無を示し、そし
て、類似プロファイルに基づいてポリペプチドのリストを分類することを含み、
ここで、類似プロファイルは、ポリペプチド間の機能的リンクを示し、最後に、
普通のリンクを決定するために、上記の同定された機能的リンクを比較すること
を含む。

【００２４】更に別の実施の形態において、本発明は、機能的リンクを、関連するタンパク
質のネットワークとして表示することを更に提供する。その表示は、機能的リン
クを有するタンパク質が、他のすべてのタンパク質より互いに近くになるように
、すべてのポリペプチドを線図上に配置し、線図上の群れに集まるタンパク質を
機能的に関連したグループとして同定することを含む。

【００２５】本発明の１つ以上の実施の形態の詳細は、付帯図面および下記説明に記載され
る。他の特徴、目的および本発明の利点は、説明書と図面から、そして請求項か
ら明らかであろう。

【００２６】（発明の詳細な説明）本明細書および添付の請求の範囲で使用しているように、単数形「ａ」、「an
d」、および「the」は、文脈が明白に他を指示しない限り、複数の指示物を含む
。従って例えば、「（ａ）タンパク質」の参照は、複数のタンパク質を含み、「
（the）ポリペプチド」は普通一つ以上のポリペプチドの参照を含み、そして従
来技術に習熟した者にとってはそれについて周知であるに等しく、以下同様であ
る。

【００２７】特に定義しない限り、本明細書で用いられるすべての技術的かつ科学的な用語
は、本発明が属する技術分野に普通に習熟する者にとって普通に理解されるのと
同様の意味を有する。本明細書において記載されていることと同様な、または等
価な任意の方法、装置、および材料が、本発明の実行あるいは試験において用い
られてもよいが、好ましい方法、装置、および材料について以下に説明する。

【００２８】本明細書において言及されるすべての発行物は、データベース、タンパク質お
よび方法論を記載しかつ開示するために全てにわたって本明細書に引用して組み
込まれるものとする。それらは現在記載されている本発明と関連して使われるか
もしれない発行物に記載されている。上記の発行物はそのテキスト全体にわたっ
て、本出願の出願日以前の開示に対してのみ提供される。本明細書において、発
明者らに以前の発明によってかかる開示の日付けを早める権利を与えないことを
承認するものと解釈されるべきではない。

【００２９】（定義）本明細書および添付の請求項において用いられる場合、次の用語は以下の意味
を有する。本明細書において特に定義されない用語は、それらの技術分野におい
て認められる意味を有する。

【００３０】「アミノ酸」は、中心の炭素原子（−炭素原子）が、水素原子、カルボン酸基
（本明細書では「カルボキシル炭素原子」と称される炭素原子）、アミノ基（本
明細書では「アミノ窒素原子」と称される窒素原子）、および側鎖群Ｒに連結さ
れる構造を有する分子である。ペプチド、ポリペプチドまたはタンパク質に組み
入れられる場合、アミノ酸は、１つのアミノ酸を別のものに結合する脱水反応で
そのアミノ酸のカルボン酸基の原子を１つ以上失う。その結果、タンパク質に組
み入れられる場合、アミノ酸は「アミノ酸残基」と呼ばれる。

【００３１】「タンパク質」は、ペプチド結合を介してリンクされる２つ以上の個々のアミ
ノ酸による任意のポリマーに関連する（自然に起きるかどうかは別にして）。１
つのアミノ酸の−炭素（またはアミノ酸残基）に結合されるカルボン酸基のカル
ボキシル炭素原子が、隣接のアミノ酸の−炭素へ結合されるアミノ基のアミノ窒
素原子へ共有結合される場合に起きる。用語「タンパク質」は、その意味におい
て用語「ポリペプチド」および「ペプチド」を含むものと理解される（本明細書
において交換可能として時に使用する）。加えて、多数のポリペプチドサブユニ
ット（例えば、ＤＮＡポリメラーゼIII、ＲＮＡポリメラーゼII）または他の成
分（例えば、テロメラーゼで起きるようなＲＮＡ分子）から成るタンパク質もま
た、本明細書において使われる「タンパク質」の意味に含まれると理解される。
同様に、タンパク質およびポリペプチドの断片もまた本発明の範囲内にあり、本
明細書において「タンパク質」と称されることもある。

【００３２】所与のタンパク質（すなわち、アミノ終点からカルボキシ終点まで書き込まれ
る場合、ポリペプチドの「一次構造」）の特定のアミノ酸配列は、ｍＲＮＡの暗
号化部分のヌクレオチド配列によって決定される。次いで、それは、ゲノムＤＮ
Ａ（細胞小器官ＤＮＡ、例えば、ミトコンドリアまたは葉緑体ＤＮＡを含む）で
ある遺伝情報により特定されるのが普通である。

【００３３】「機能的リンク」または「機能的リンクを有するポリペプチド」は、リンクさ
れると予測されるポリペプチドを意味する。例えば、普通の生化学や代謝経路に
おいては、関連したタンパク質複合体、物理的相互作用、または互いへの作用で
ある。

【００３４】（ロゼッタストーン法）この方法は、すべての既知のゲノム全体のタンパク質配列を比較して、１つの
有機体（または、２つの異なる有機体に別々に含まれる）において別々のタンパ
ク質が、他の有機体において、より大きな１つのタンパク質に接合される場合を
見つけ出す。そのような場合、２つの別々のタンパク質は、関連機能または順次
機能を実行し、より大きいタンパク質複合体の一部を形成することが多い。従っ
て、１つの成分（例えば、未知のタンパク質の１つ以上）の全体的な機能は、既
知の他の成分の機能から推定できる。加えて、本明細書で説明する方法を用いて
単にタンパク質のリンクを同定することは、リンクを形成するために用いる１つ
以上のタンパク質の機能が既知であるかどうかとは無関係に価値ある情報を提供
する。２つの成分は類似のアミノ酸配列を有しないので、配列類似性のみに基づ
いて一方の機能を他方から推定することはできない。

【００３５】本明細書において記載されている方法（すなわち「ロゼッタストーン法」）は
、共通の構造的複合体、代謝経路、生物学的プロセス、あるいは密接に関連する
生理的機能に参加するタンパク質が、機能的にリンクしているという発想に基づ
く。加えて、本方法はまた、物理的に互いに相互作用するタンパク質を同定する
ことができる。１つの有機体の機能的リンクを有するタンパク質が、異なる有機
体の単一のポリペプチド鎖に融合されて見い出せることが多い。同様に、１つの
有機体の融合されたタンパク質は、他の有機体の個別のタンパク質として見い出
せる。例えば、最初の有機体において、または２つの別々の有機体において、未
知の機能を有するリンクのないタンパク質「Ａ」および「Ｂ」を同定することが
あるかもしれない。別の有機体において、一部は「Ａ」に似て、一部は「Ｂ」に
似ている単一のタンパク質「ＡＢ」を見つけ出すこともある。タンパク質ＡＢに
よって、「Ａ」と「Ｂ」が機能的に関連していると予測することができる。ロゼ
ッタストーン法において各々の識別可能なタンパク質の特定の機能的活性は、そ
の方法を実行する前に既知である必要はない（すなわち、Ａ、ＢまたはＡＢの機
能が既知である必要はない）。未知のタンパク質を用いるロゼッタストーン法を
実行することは、タンパク質それ自身の機能的活性についての予備知識のない各
々のタンパク質の関係についての情報を提供できる。例えば、その情報（すなわ
ちリンク）は、タンパク質が関連プロセスまたは物理的相互作用において普通の
経路、機能の一部であるという情報を提供することができる。かかる情報は、個
々のタンパク質の生物学的機能に基づく必要はない。本発明の方法は、互いに機
能することが以前には知られていない、例えば、協調プロセスにおけるタンパク
質間の機能的リンクについての情報を提供することができる。例えば、特定の病
気状態を示すマーカーは、タンパク質の有無によって同定される（例えば、乳ガ
ン検出のＨｅｒ２／ｎｅｕ）。かかるマーカーへタンパク質「Ｂ」と「C」をリ
ンクさせるような本発明の方法によって同定されるリンク（すなわち情報）は、
タンパク質「Ｂ」と「C」が、機能および物理的相互作用によって関連している
か、または、マーカーと共通の生物学的経路の一部であることを示唆する。かか
る情報は、診断をする際、薬品選択および治療法を判断する際に有用である。従
って、本発明のロゼッタストーン法は、例えば３つのタンパク質、すなわち互い
に異なるが別のタンパク質ＡＢへの配列においては類似している２つのタンパク
質Ａ’とＢ’について、不完全な「三角関係」を探すという配列比較により実行
される。三角関係の調査完了は、「三角形」を成す他のタンパク質に対するタン
パク質の生物学的機能、機能的相互作用、経路関係、または物理的関係に関する
有益な情報を提供する。

【００３６】実施例として、図１は、領域融合解析（すなわちロゼッタストーン法）によっ
て相互作用することを予測されたE. Coliタンパク質の５対の例を示す。各タン
パク質は、（ＰｒｏＤｏｍ領域データベースにおいて定義されるような）領域を
表す囲みで略図的に示される。各々の例では３つのタンパク質が図示される。そ
れらの相同物が第１のタンパク質（ロゼッタストーンタンパク質と呼ばれる）に
おいて融合するので、第２と第３のタンパク質は相互作用すると予測される。最
初の３つの予測は、実験から相互作用することが周知である（杉野他、Nucleic
Acids Res. ８、３８６５、１９８０年；イェーおよびオルストン、J. Biol. Ch
em. ２５６、１５６５、１９８１年；マッケンリーおよびクロー、J. Biol. Che
m. ２５４、１７４８、１９７９年）。最後の２つの例は、直接的な相互作用が
周知ではない同一経路（ヒスチジン生合成経路からの２つの不連続酵素、および
プロリン生合成経路の最初の２ステップ）からのタンパク質の対を示す。本発明
者は、３つのタンパク質のこのパターンが存在する場合、つまり、他の有機体か
らの単一のタンパク質の異なる部分へ相同である最初の有機体からの（または２
つの明らかに異なる有機体からの）２つの別々のタンパク質が存在する場合、２
つの別々のタンパク質は、偶然以上の高い確率で物理的にまたは機能的にリンク
されていることを示すデータに基づいて、通常「機能的にリンクされる」という
ことを認識した。従って本発明は、互いにアミノ酸配列の類似性を有せず、それ
故に従来の配列アラインメント法ではリンクすることができない場合でも、ロゼ
ッタストーン法によって見い出されるリンクされたタンパク質間の関係を提供す
ることによって、従来の方法の欠点を克服できる。

【００３７】本発明の方法は、ヌクレオチド配列とアミノ酸配列の両方に適用できる。アミ
ノ酸配列を用いて、本発明の方法を実行するのが普通である。しかし、核の配列
が用いられるべき場合は、核酸配列からアミノ酸配列に翻訳されるのが普通であ
る。暗号化配列が未知の場合、かかる翻訳が核酸配列のすべてのフレームで成さ
れてもよい。核酸配列を翻訳できるプログラムは、従来技術において周知である
。加えて、単純化のために本発明の記述は、ロゼッタストーンタンパク質の決定
に際して、タンパク質の「一対」を使用して説明するが、２つ以上（例えば、３
、４、５、１０、１００以上のタンパク質）が用いられてもよい。従って、「Ａ
」がロゼッタストーンタンパク質によって「Ｂ」にリンクされ、「Ｂ」がロゼッ
タストーンタンパク質によって「Ｃ」にリンクされ、等のように、リンクされた
タンパク質の鎖を解析できる。この方法によって、機能的に関連したタンパク質
のグループが見い出され、それらの機能が同定される。

【００３８】一実施の形態において、本発明の方法は、その機能的関係が決定されるべき複
数のタンパク質に対して一次アミノ酸配列を同定することから始まる（例えばタ
ンパク質Ａ’およびタンパク質Ｂ’）。上記のように、本発明の第一段階で用い
る核酸配列および／または推定されたアミノ酸配列のどちらかを含む多くのソー
スのデータベースが利用できる。試験されるすべての配列（「プローブ配列」）
を用いて、同時にまたは個別に、配列データベース（例えば、ＧｅｎＢａｎｋ、
ＰＦＡＭまたはＰｒｏＤｏｍ）を検索する。配列データベースのすべてのタンパ
ク質は、ロゼッタストーンタンパク質（すなわち、ポリペプチド配列、またはタ
ンパク質Ａ’とタンパク質Ｂ’からの領域を含む単一のタンパク質）として作用
する能力を有するかどうか試験される。かかる配列検索を実行する多くのさまざ
まな方法は、従来技術において周知である。例えば、かかる配列アラインメント
法は、ＢＬＡＳＴ（Altschul他、１９９０年）、ＢＬＩＴＺ（ＭＰｓｒｃｈ）（
Sturrockおよびコリンズ、１９９３年）およびＦＡＳＴＡ（パーソンおよびリッ
プマン、１９８８年）を含む。プローブ配列は、任意の長さでよい（例えば、１
０００以上のアミノ酸残基に対する約５０のアミノ酸残基）。

【００３９】単一のタンパク質（例えばＡＢタンパク質）において見い出されるプローブ配
列（例えばポリペプチド配列または領域）は、そのタンパク質によって「リンク
される」として定義される。プローブ配列の対を個々に用いて、配列データベー
スを検索する。後続のプローブ配列によって検索する前に、配列データベースの
タンパク質において見い出される最初のプローブ配列に対して相同性を有するそ
れらのセグメントをマスキングしてもよい。この方法で、２つ以上のプローブ配
列間の可能性のある任意のオーバラップ配列を除外する。

【００４０】次いで、リンクされたタンパク質は、アミノ酸配列比較によって互いの類似性
について更に比較することができる。配列が高い相同性を有する場合、かかる発
見がホモ−２量体、−３量体等の形成を示すことがある。リンクされたタンパク
質が互いに非相同性を示す場合（例えば、ヘテロ２量体、３量体等）、ロゼッタ
ストーンにリンクされたタンパク質のみが保たれるのが普通である。

【００４１】本発明の方法の別の実施の形態においては、いかなる機能的情報も欠如してい
る潜在的融合タンパク質、および２つ以上の領域を有する疑いのあるもの（例え
ば潜在的ロゼッタストーンタンパク質）を用いて、同様の方法によってリンクの
あるタンパク質を検索できる。本実施の形態において、融合タンパク質の一次ア
ミノ酸が決定されて、プローブ配列として用いられる。このプローブ配列を用い
て、配列データベース（例えばＧｅｎＢａｎｋ、ＰＦＡＭまたはＰｒｏＤｏｍ）
を検索できる。配列データベースのすべてのタンパク質は、潜在的融合タンパク
質（すなわち、潜在的融合タンパク質からのポリペプチド配列または領域を含む
多数のタンパク質）に相同性がないか調べられる。かかる配列検索を実行する多
くのさまざまな方法は、従来技術において周知である（例えばＢＬＡＳＴ、ＢＬ
ＩＴＺ（ＭＰｓｒｃｈ）およびＦＡＳＴＡ）。

【００４２】１つを超えるタンパク質（例えばＡ’とＢ’タンパク質）に見られるプローブ
配列は、その領域を含むが他の領域は含まない領域につき少なくとも１つのタン
パク質がまた同定されれば、「リンクしている」として定義される。つまり複数
のタンパク質の少なくとも１つのタンパク質または領域はまた、配列データベー
スにおいて単独で見付けられなければならない。これはタンパク質または領域が
第１のタンパク質の全体ではなく、むしろそれ自身の機能特性を有する第２の独
立のタンパク質であることを証明する。

【００４３】統計的方法を用いて可能な一致の有意性を判断する。アラインメントスコアの
統計的有意性は、配列が均質である場合より高いスコアを得る確率Ｐによって記
述される。閾値Ｐを計算する１つの方法は、実行されるべき配列比較の総数を最
初に考慮することである。E. ColiにＮ個のタンパク質があり、他のすべてのゲ
ノムにＭ個がある場合、この数はＮ×Ｍである。ランダムな配列のこの数の比較
が、偶然に１／ＮＭのＰ値を生むための１つの対をもたらす場合には、次いで閾
値として設定される。その閾値は、所望の精度に従って高く設定しても低く設定
してもよい。

【００４４】本発明の方法は、どのタンパク質が、有機体において物理的に相互作用するタ
ンパク質の部分集合に機能的にリンクされるかに関する情報を提供する（例えば
、関連した生物学的機能、共通の構造的複合体、代謝経路、信号経路、または他
の生物学的なプロセス）。

【００４５】図２は、本発明の２つの実施の形態の概略を示す動作フロー図である。図２Ａと図２Ｂは、タンパク質の機能的リンクまたは関係を予測するロゼッタ
ストーンタンパク質の使用を表す。図２Ａを参照して、ステップ１０２では、少
なくとも２つの明らかに非相同であるポリペプチドの一次アミノ酸配列がコンピ
ュータへ入力される。２つのポリペプチドの生物学的機能は、既知であっても未
知であってもよい。ポリペプチドの一次配列は、手動で（すなわち、コンピュー
タに配列をタイプすることによって）入力してもよいし、または上記のようなさ
まざまなデータベースを介して利用できるタンパク質または核酸配列のデータベ
ースから導き出してもよい。「実質的に相同である」とは、アラインメントスコ
アのp値が統計学的に有意であるということを意味する。公開されて利用できる
多くのアラインメントプログラムを用いて、例えばＢＬＡＳＴやＦＡＳＴＡを含
む相同性を決定できる。ポリペプチド配列の比較は、ポリペプチドが非相同であ
ることを確認するために実行されることもある。その結果、明らかに非相同なポ
リペプチド領域を有するタンパク質だけが、それ以上の解析のために用いられる
。

【００４６】ステップ１０６では、明らかに非相同であるポリペプチド領域を有する入力ポ
リペプチド配列が、タンパク質配列データベースに含まれる配列と整合される。
タンパク質の生物学的機能は既知であっても未知であってもよい。タンパク質配
列を有するデータベースの例は、例えばＧｅｎＢａｎｋ、ＰＦＡＭ、スイスプロ
ットまたはＰｒｏＤｏｍを含む。配列データベースのすべてのタンパク質は、第
１と第２のタンパク質に相同性がないか調べられる。かかる配列検索を実行する
多くのさまざまな方法は、従来技術において周知である（例えば、ＢＬＡＳＴ、
ＢＬＩＴＺ（ＭＰｓｒｃｈ）およびＦＡＳＴＡ）。先に同定し、ステップ１０８
で示したように、普通は、一致は閾値ｐによって決定される。一致が見つからな
い場合、この決定はステップ１１０で示される。入力ポリペプチド配列は、デー
タベースのタンパク質と同時に整列されてもよいし、または順次整列されてもよ
い。順次アラインメントにおいて、以前に整列されたポリペプチドと一致するそ
れらのタンパク質は、マスキングされてもよい。ステップ１０２で入力されるす
べてのポリペプチドの配列を含むデータベースからのタンパク質（例えば、タン
パク質Ａとタンパク質Ｂの両方からの配列を含む、すなわちロゼッタストーンタ
ンパク質）の一致は、ステップ１１４で同定され、リストがコンパイルされ、そ
して任意の一致するタンパク質が示される。一致したタンパク質の機能が既知で
ある場合、この機能を用いて未知のポリペプチド配列の可能な機能を決定する。
代替として、一致したタンパク質のアラインメントおよびコンパイルに続いて、
後述するように（フィルタリング法を参照）、一致したタンパク質にステップ１
１２で更にフィルタをかけてもよい。本発明者は、ロゼッタストーンタンパク質
を介して互いに関連するタンパク質が、機能的に強くリンクされる傾向があると
いうことを発見した。

【００４７】次に図２Ｂを参照して、タンパク質の機能的リンクを決定するための代替の方
法が提供される。本実施の形態において、ある者は潜在的ロゼッタストーンタン
パク質から始めて、逆に仕事を進める。ステップ１２０において、ロゼッタスト
ーンタンパク質の一次アミノ酸配列は、コンピュータへ入力される。タンパク質
の一次配列は、手動で（すなわち、コンピュータに配列をタイプすることによっ
て）入力してもよいし、または上記のようなさまざまなデータベースを介して公
開されて利用できるタンパク質または核酸配列のデータベースから導き出しても
よい。

【００４８】ステップ１２２において、タンパク質配列は、タンパク質配列のデータベース
と整合される。配列データベースのすべてのタンパク質は、ロゼッタストーンタ
ンパク質の領域に相同性がないか調べられる。かかる配列検索を実行する多くの
さまざまな方法が、従来技術において周知である（例えば、ＢＬＡＳＴ、ＢＬＩ
ＴＺ（ＭＰｓｒｃｈ）およびＦＡＳＴＡ）。先に同定し、ステップ１２４で示し
たように、普通は、一致は閾値ｐによって決定される。一致が見つからない場合
、この決定はステップ１２６で示される。明らかに一致したタンパク質のリスト
は、コンパイルされて、ステップ１３０で示される。明らかに非相同であるポリ
ペプチドがロゼッタストーンタンパク質へ重なり合わないで確実に整列するよう
、明白なポリペプチドが相同性を決定するために比較される。これは、その領域
を含むが他の領域は含まない領域につき少なくとも一つのタンパク質の同定を確
実にする。つまり、データベースにある未知のタンパク質の少なくとも１つのタ
ンパク質または領域もまた、配列データベースにおいて単独で見付けられなけれ
ばならない。これは、第１の一致タンパク質が第２の一致タンパク質と相同でな
いことを証明する。

【００４９】（アラインメントアルゴリズム）配列を整列させるために、配列における対応する残基間の良好な一致を生み出
す多くのさまざまな手順が用いられる。代表的には、スミス−ウォーターマンか
ニードルマン−ブンシュのアルゴリズムが使われる。しかし、先に説明したよう
に、例えばＢＬＡＳＴ、ＦＡＳＴＡ、ＰＳＩ−ＢＬＡＳＴ等のより高速な手順を
用いることができる。

【００５０】（フィルタリング法）本明細書において説明されているロゼッタストーン法は、少なくとも２つの情
報を提供する。第１に、本方法は、どのタンパク質が機能的に関連しているかに
関する情報を提供する。第２に、本方法はどのタンパク質が物理的に関連してい
るかに関する情報を提供する。これら２つの情報の各々は、誤差および予測を生
むさまざまなソースを有する。第１のタイプの誤差は、多くの異なるタンパク質
で起き、多くの他のタンパク質配列によって対になったタンパク質配列によって
導入される。第２のタイプの誤差は、一つの有機体にパラログ(paralog)と呼ば
れる類似のタンパク質の多数のコピーがあることが多いことにより導入される。
一般に、ロゼッタストーン法は、結果にフィルタをかけることを必要とせずに、
機能的に関連したタンパク質を良好に予測する。しかし、第１か第２のタイプの
どちらかの情報と関連する誤差をフィルタにかけることが可能である。

【００５１】本発明者は、ロゼッタストーンタンパク質によって、僅かな領域が非常に多く
の他の領域へリンクされるということを認識した。本発明者は、例えば、９５％
の領域が１３個の他の領域よりもリンクが少ないことを認識した。しかし領域（
例えば、Ｓｒｃ相同３（ＳＨ３）領域、またはＡＴＰ結合カセット（ＡＢＣ領域
））によっては、１００個以上の他の領域とリンクしている。これらのリンクは
、これら５％の領域（すなわち、１３個を超える他の領域とリンクされた領域）
を含んで発生する全てのリンクを除去することによりフィルタをかけられた。例
えば、E. Coliではフィルタをかけないで３５３１個のリンクが領域に基づく解
析を用いて同定されたが、フィルタをかけた後では７４９個のリンクだけが同定
された。この方法は、機能的にリンクされたタンパク質の予測を２８％まで、物
理的にリンクされたタンパク質を４７％まで改善した。従って、機能的リンクの
有意性を改善するために結果にフィルタをかける多くの方法がある。先に説明し
たように、機能的リンクの数が増加するにつれて、ロゼッタストーンタンパク質
を見つける機会がより高くなる。過度にリンクされたタンパク質を減らすことに
よって、ロゼッタストーンタンパク質の機会数を減らし、こうして機能的リンク
の有意性を増加させる。加えて、パラログが非常に類似の機能を通常有するので
、リンクされたタンパク質の多数のパラログによって導入される誤差は、機能的
予測にほとんど影響しないが、タンパク質−タンパク質相互作用の予測の信頼性
には影響を及ぼすということが認識された。この推定は、各々のリンクされたタ
ンパク質の対について計算され、概ね以下のように評価できる：

【００５２】

【数９】

【００５３】ここでＮは、パラログなタンパク質の対の数である。（例えば、ＢとＢ’でもそ
うであるが、ＡとＡ’がパラログである場合には、ＢにリンクされるＡ、Ｂ’に
リンクされるＡ’、Ｂ’にリンクされるＡ、そしてＢにリンクされるＡ’となる
。また、関連しているタンパク質は上記のようにＡＢである）。

【００５４】誤差はまた、１−Ｔとして評価できる。ここで、Ｔは、有機体のすべての領域
の対について計算される潜在的真の正の平均百分率である。ロゼッタストーンタ
ンパク質によってリンクされる各々の領域の対について、第１の領域を有するｎ
個のタンパク質があるが、第２にはない。そして第２の領域を有するｍ個のタン
パク質があるが、第１にはない。真の正であるＴの百分率は従って、ｎまたはｍ
の小さい方をｎかけるｍで割ったものとして評価される。この誤差１−Ｔが、リ
ンクされた領域の各集合について計算できるように、任意の特定の予測された相
互作用における信頼を記述することができる。

【００５５】加えて、機能的リンクの誤差は、小さな保存された領域によって生じることが
あり、または複数の明らかに非相同であるポリペプチドによって、ロゼッタスト
ーンタンパク質において繰り返し同定されている共通のアミノ酸配列が繰り返さ
れる。この誤差を減らすために、ロゼッタストーンと明らかに非相同であるポリ
ペプチドとの間のアラインメント百分率、すなわち別の方に整列させ得る全配列
の割合、が測定できる。

【００５６】ロゼッタストーンと明らかなポリペプチドとの間の約５０％から９０％のアライ
ンメント百分率、より代表的には７５％は、小さなペプチド配列に従属しないリ
ンクを示す。

【００５７】（系統分類プロファイル法）系統分類プロファイル法は、すべてのまたは多くの既知のゲノム全体にわたっ
て、タンパク質配列を比較し、異なる有機体全体にわたる各々のタンパク質の継
承パターンを解析する。最も簡単な形では、各々のタンパク質は、各有機体にお
けるその有無によって単純に特徴づけられる。例えば、１６個の既知のゲノムが
ある場合、各タンパク質は、１６ビットコードまたは系統分類プロファイルを割
り当てられる。タンパク質が互いに機能し合い、（例えば、同一代謝経路におい
て、またはより大きい構造的複合体の一部として）、相関しながら進化するので
、それらは同一または類似の継承パターン、従って類似の系統分類プロファイル
、を持つべきである。従って、１つのタンパク質の機能は、その機能が既知の場
合、類似プロファイルを有する別のタンパク質の機能から推定できる。（上記の
）ロゼッタストーン法と同様に、１つのタンパク質の機能は、配列において異種
である別のタンパク質の機能から推定される。更に、２つのタンパク質のどちら
もが割り当てられた機能を有しないとしても、タンパク質間の予測されるリンク
は、例えば診断と治療学などの進歩における有用性を持つ。系統分類プロファイ
ル法は、関連した配列が、異なるゲノムにおいてどれくらい類似しているかにつ
いて記述するバイナリーコード（すなわち、有機体に与えられたタンパク質の有
無を記述する）または連続コードで実行できる。加えて、類似のタンパク質プロ
ファイルの分類がなされ、類似プロファイルが機能的に関連したタンパク質を表
すこともある。更に、類似性のための必要性は、類似のビットの必要性の差を変
化させることによる特定の基準に応じて、修正できる。例えば、プロファイルの
類似の程度が、同一視できる１６ビットすべてを含むことを必要とする基準が設
定できるが、１６ビット中の１５ビットの類似性がタンパク質プロファイルの相
関性をも示すことができるように修正してもよい。統計的方法を用いて、２つの
パターンが関連するにはどれくらい類似でなければならないかを決定する。

【００５８】ここで説明される系統分類プロファイル法は、ウィルス、バクテリア、アルカ
エアル(archaeal)、または真核有機体を含む任意のゲノムにも適用可能である。
系統分類プロファイル分類の方法は、以前に特性が得られていないタンパク質に
ついての機能の予測を提供する。その方法はまた、特性が求められたタンパク質
についての新しい機能的役割の予測を可能にする。それはまた、特性が得られて
いないタンパク質間の潜在的な情報の連結（すなわちリンク）をも提供する。

【００５９】タンパク質の系統分類プロファイルの方法を、４つの完全に配列決定されたゲ
ノムを仮定した場合について、図３に略図として示し、７つのタンパク質（Ｐ１
からＰ７）の機能的関係を記載する。各々の仮定のE. Coliタンパク質について
プロファイルが作成され、どのゲノムがタンパク質の相同性について暗号化をす
るかについて示した。プロファイルの群またはグループは、どのタンパク質が同
じプロファイルを共有するかについて判定できるよう作り上げられた。同一の（
または類似の）プロファイルを有するタンパク質は、それらが機能的にリンクさ
れるべきであろうことを示すために四角で囲まれる。線によって結ばれる囲みは
、１ビットだけ異なり、密接と呼ばれる系統分類プロファイルを有する。

【００６０】一実施の形態において、計算方法は、共通の構造的複合体または代謝経路に参
加するタンパク質を検出する。これらのグループ内のタンパク質は、「機能的に
リンクされた」として定義される。機能的にリンクされたタンパク質は相関した
方法で進化し、従って、有機体の同一部分集合において相同物を有する。例えば
、ベン毛を有するバクテリアにはベン毛タンパク質が見つかるが、他の有機体に
はない。従って、２つのタンパク質が、完全に配列決定された有機体の同一部分
集合に相同物を有する場合、それらは機能的にリンクされてもよい。本発明の方
法は、ゲノムによって暗号化されるすべてのタンパク質間のリンクを系統的にマ
ップにするというこの考え方を用いる。機能的リンクを有するタンパク質は、普
通、互いにアミノ酸配列の類似性を有しないので、従来の配列アラインメント法
によってリンクすることができない。

【００６１】相同性を含む有機体の部分集合を表すために、系統分類プロファイルが各タン
パク質について作成される。タンパク質の系統分類の歴史を表す最も簡単な方法
は、各タンパク質についてバイナリの系統分類プロファイルを介することである
。このプロファイルは、各々１ビットを有するＮ項目からなるストリングであり
、ここで、Ｎはゲノムの数と一致する。ゲノムの数は、２以上の任意の数でよい
（例えば、２、３、４、５、１０、１００、１０００以上まで）。ｎ番目のゲノ
ムにおける所与のタンパク質に対する相同物の存在は、ｎ番目の位置に１を入力
することによって示される（例えばバイナリーシステムでは１を入力）。相同物
が見つからない場合は、入力はゼロである。タンパク質は、それらの系統分類プ
ロファイルの類似性によって群を形成する。類似プロファイルは、相関する継承
パターンおよび定義によって機能的リンクを示す。本方法は、特性が得られてい
ないタンパク質の機能が、群（図３）の範囲内にあれば、特性が得られたタンパ
ク質と同様であるべきであろうと予測する。

【００６２】ゲノムが、別の特定のタンパク質に関するタンパク質を含むかどうかを判定す
るために、質問中のアミノ酸配列を、既知のアラインメントアルゴリズム（上記
を参照）を用いて、問題のゲノムからの各タンパク質と整列させる。任意のアラ
インメントスコアの統計的有意差を決定するため、配列が均質にされる場合より
高いスコアを得る確率ｐが記述される。閾値ｐを計算する１つの方法は、最初に
、整列している全配列数の比較を考慮することである。第１の有機体のゲノムに
Ｎ個のタンパク質があり、他のすべてのゲノムにＭ個のタンパク質がある場合、
この数はＮ×Ｍである。この数をランダムな配列と比較すると、１つの対が１／
ＮＭのｐ値を生むと予想される。この値は閾値として設定できる。他の閾値を用
いてもよく、従来技術に習熟する者には理解されよう。

【００６３】別の実施の形態では、非バイナリの系統分類プロファイルが用いられる。本実
施の形態において、系統分類プロファイルは、Ｎ項目のストリングである。ｎ番
目の項目は、ｎ番目のゲノムにおける相同物に対する質問中のタンパク質の進化
の距離を表す。２つの配列間の進化の距離を定義するために、２つの配列間のア
ラインメントが実行される。かかるアラインメントは、当該技術で周知のどのア
ルゴリズムによっても実行できる（例えば上記を参照のこと）。進化は、固定し
た時間間隔全体にわたって、置換率を有するマルコフ過程によって表され、条件
付確率マトリクスによって与えられる：

【００６４】

【数１０】

【００６５】ここで、aaとaa'は、任意のアミノ酸である。かかるマトリクスを作成する１つ
の方法は、ＢＬＯＳＵＭ６２アミノ酸置換マトリクス（または他の任意のアミノ
酸置換マトリクス、例えばＰＡＭ１００、ＰＡＭ２５０）を、対数奇数マトリク
スから条件付確率（または転移）マトリクスへ変換することである：

【００６６】

【数１１】

【００６７】Ｐ(i j)は、ＢＬＯＳＵＭ６２のスコアによる点変異を介して、アミノ酸ｉがア
ミノ酸ｊによって置換される確率である。ｐ_jはアミノ酸ｊの発生量であり、正
規化条件によって与えられる２０個の線形方程式を解くことによって計算される
：

【００６８】

【数１２】

【００６９】このプロセスの確率は、各整列された対に対する条件付確率の積をとることによ
って観測されたアラインメントについて計量するために計算される：

【００７０】

【数１３】

【００７１】次いで、進化モデルの族は、条件付確率マトリクスのパワーをとることによって
試験される：p'=p(aa aa'）。Ｐを最大にするパワーは進化の距離となるよう定
義される。

【００７２】多くの他の案が、２つの配列間の進化の距離を推定するよう考えられている。
例えば、２つのタンパク質が異なるアミノ酸を適合させた配列の位置の数を計数
するだけでよいかもしれない。

【００７３】有機体の系統分類の歴史はベクトルとして表されるが（上記のように）、系統
分類プロファイルがベクトルである必要はなく、マトリックスによって表される
。このマトリクスは、それぞれが異なる有機体からのものである一群の相同タン
パク質間のすべての対の賢明な距離を含む。同様に、系統分類プロファイルは、
相同タンパク質の進化のツリーとして表されてもよい。次いで、機能的タンパク
質は、ベクトルまたはマトリックスよりむしろ、類似のツリーを一致させること
によって群としてまとめたり、またはグループ化できる。

【００７４】機能を予測するために、異なるタンパク質は、それらの系統分類プロファイル
の類似性によってグループ化され、または群としてまとめられる。類似プロファ
イルは、相関のある継承パターン、およびその定義によって、機能的リンクを示
す。系統分類プロファイル法は、特性が得られていないタンパク質の機能が、群
またはグループ内の特性が得られているタンパク質と類似していそうであると予
測する。

【００７５】群またはグループ化は、さまざまな方法で達成される。最も単純なものは、２
つのプロファイル間のユークリッド距離を計算することである。別の方法は、２
つのプロファイル間の類似性を定量化するために相関係数を計算することである
。質問中のプロファイルの指定された距離内のすべてのプロファイルは、群また
はグループであると考えられる。

【００７６】ゲノムデータベースが配列情報のソースとして用いられるのが普通である。ゲ
ノムデータベースが核酸配列のみを含むところでは、核酸配列は、（既知であれ
ば）フレームにおける、または未知であればすべてのフレームにおけるアミノ酸
配列に翻訳される。２つ以上の有機体の核酸配列の直接比較が実行可能であるか
もしれないが、遺伝子暗号の縮退のためによりむずかしいと考えられる。核酸配
列を翻訳することができるプログラムは、従来技術において周知であり、または
技術に習熟する者によって容易にプログラムされて、各アミノ酸についてのコド
ン配列が認識される。

【００７７】図４は、系統分類経路法によって機能的に関連したタンパク質を決定する際に
用いられる基本アルゴリズムを説明するフロー図を表す。図４Ａにおけるステッ
プ２２０から始まって、少なくとも２つの有機体からのタンパク質のリストを表
すデータが得られる。本明細書において説明されているように、データは手動で
入力されてもよく、またはデータベースからロードまたは取得してもよい。デー
タは、アミノ酸配列リストまたは核酸配列リストの形であるのが普通である。ス
テップ２２２で、タンパク質のリストは、系統分類プロファイルを作るために比
較される。系統分類プロファイルは、ある程度の相同性を共有する少なくとも２
つの各有機体のタンパク質の表示を提供する。かかる比較は、従来技術において
周知であるか、または従来技術に習熟する者によって容易に開発される任意の数
のアラインメントアルゴリズムによってなされる（例えばＢＬＡＳＴ、ＦＡＳＴ
Ａその他の上記一覧を参照のこと）。加えて、必要とされる相同性の程度に関す
る閾値が設定される。次いで、各タンパク質は、類似の系統分類プロファイルを
共有する関連タンパク質について２２４でグループ化される。グループ化アルゴ
リズムは、例えば本明細書において説明されているものを含む。２２６では、類
似プロファイルを共有するタンパク質が示され、もしあれば既知の機能が同定さ
れる。

【００７８】図４Ｂを参照すると、図４Ａの方法の修正が示されている。図４Ｂにおけるス
テップ３２０から始まって、少なくとも２つの有機体からのタンパク質のリスト
を表すデータが得られる。本明細書において説明されているように、データは手
動で入力されてもよく、またはデータベースからロードまたは取得してもよい。
データは、アミノ酸配列リストまたは核酸配列リストの形であるのが普通である
。ステップ３２２で、タンパク質のリストが、入力された有機体の各タンパク質
間で整列される。かかるアラインメントは、当該技術において周知か、または当
該技術に習熟する者によって容易に開発される任意の数のアラインメントアルゴ
リズムによってなされる（例えばＢＬＡＳＴ、ＦＡＳＴＡその他の上記一覧を参
照のこと）。ステップ３２４で、進化の距離の値は、上記した方法によって計算
される。進化の距離の閾値がステップ３２６で満たされる場合、進化の閾値を満
たしているそれらのタンパク質はステップ３２８で同定される、さもなければ、
一致はステップ３２７に示されない。

【００７９】（組合せ方式）ロゼッタストーン法による機能的にリンクされたタンパク質の予測は、例えば
、タンパク質の系統分類プロファイル法、または相関ｍＲＮＡ発現パターンの解
析等の、機能的にリンクされたタンパク質を予測する他の方法によってフィルタ
ーをかけることができる。これら３方法のうちの２つ以上により機能的リンクが
予測されたタンパク質酵母菌に対するロゼッタストーン予測についての、これら
２つの方法によるフィルタリングが、イースト２混成法、または共同免疫沈降法
のような実験技法によって、物理的相互作用が観察されたタンパク質と機能的に
関連しそうであったということが発見された。

【００８０】予測のこれらの方法の組合わせを用いて、非常に高い信頼性を有するタンパク
質間の機能的リンクを確定する。本発明の方法（すなわち、ロゼッタストーン法
と系統分類プロファイル法）は、もう一つの方法または当該技術で周知の他のタ
ンパク質予測方法（例えば、アイゼン他、「ゲノムに広がる発現パターンのクラ
スター分析および表示」、全米科学アカデミー会報、９５：１４８６３−８、１
９９８年を参照）と組み合わされる。

【００８１】（コンピュータ実行）上記した本発明のさまざまな技術、方法および局面は、コンピュータによって
動作する装置および方法を用いて部分的または全面的に実行できる。加えて、コ
ンピュータによって動作する装置および方法を用いて、上記した機能性を増大さ
せたり高めたり、機能が実行される速度を高めたり、そして、この書類のどこか
に記載した本発明の一部としての、または追加された付加的特徴および局面を提
供したりすることができる。上記の技術に従っての各種のコンピュータによって
動作する装置、方法および実行を以下に示す。

【００８２】プロセッサに基づく装置は、主記憶装置、好ましくはランダムアクセスメモリ
（ＲＡＭ）および２次記憶装置を含むことができる。２次記憶装置は例えば、ハ
ードディスク装置、および／またはフロッピー（登録商標）ディスクドライブ、磁気テープドライブ、光ディスクドライブ等で代表されるリムーバブル記憶ドライブを含むことができる。リムーバブル記憶ドライブは、リムーバブル記憶媒体を読みとり、および／または書き込む。リムーバブル記憶媒体は、フロッピーディスク、磁気テープ、光ディスク等を表し、リムーバブル記憶ドライブによって読みとられ、書き込まれる。リムーバブル記憶媒体が、コンピュータソフトウェアおよび／またはデータを記憶したコンピュータが使用可能な記憶媒体を含むのは明らかである。

【００８３】代替の実施の形態において、２次記憶装置は、コンピュータプログラムまたは
他の命令をコンピュータ装置にロードすることを可能にする他の同様な手段を含
んでもよい。かかる手段は、例えばリムーバブル記憶装置およびインターフェー
スを含むことができる。そのような例は、プログラムカートリッジとカートリッ
ジインターフェース（例えばテレビゲーム装置で見られるもの）、移動可能メモ
リーチップ（例えばＥＰＲＯＭまたはＰＲＯＭ）と取付けのソケット、およびソ
フトウエアとデータをリムーバブル記憶装置からコンピュータ装置へ転送できる
他のリムーバブル記憶単位とインターフェースを含むことができる。

【００８４】コンピュータ装置はまた、通信インターフェースを含むことができる。通信イ
ンターフェースによって、ソフトウエアとデータは、コンピュータ装置と外部装
置との間で転送できる。通信インターフェースの実施例は、モデム、ネットワー
クインターフェース（例えばイーサネット（登録商標）カード）、通信ポート、ＰＣＭＣＩＡスロットとカード等を含むことができる。通信インターフェースを介して転送されるソフトウェアとデータは、通信インターフェースによって受信される電子式、電磁式、光学式、または他の信号である信号形式をとる。これらの信号は、信号を運ぶ能力があるチャネルを経て通信インターフェースへ提供されて、無線媒体、電線またはケーブル、光ファイバまたは他の通信媒体を使用して実行される。チャネルのいくつかの実施例は、電話回線、セルラー電話リンク、ＲＦリンク、ネットワークインターフェースおよび他の通信チャネルを含む。

【００８５】この文書において、用語「コンピュータプログラム媒体」と「コンピュータが
使用可能な媒体」は、一般に、例えば、リムーバブル記憶装置、ディスクドライ
ブに組み込まれるディスク、およびチャネル上の信号等のメディアに関して用い
る。これらのコンピュータプログラム製品は、コンピュータ装置にソフトウエア
やプログラム命令を提供するための手段である。

【００８６】コンピュータプログラム（コンピュータコントロールロジックとも呼ばれる）
は、主記憶装置および／または２次記憶装置に記憶される。コンピュータプログ
ラムはまた、通信インターフェースを介して受信できる。かかるコンピュータプ
ログラムの実行時には、本明細書において検討されたように、コンピュータ装置
が本発明の特徴を実行することを可能にする。特に、コンピュータプログラム実
行されるときには、プロセッサに本発明の特徴を実行させるのを可能にする。従
って、かかるコンピュータプログラムは、コンピュータ装置のコントローラを表
している。

【００８７】要素がソフトウエアを用いて実施される実施の形態において、ソフトウエアは
、コンピュータプログラム製品に記憶されても、あるいはそれを介して送信され
てもよく、そして、リムーバブル記憶ドライブ、ハードディスクまたは通信イン
ターフェースを用いてコンピュータ装置にロードされる。コントロールロジック
（ソフトウエア）は、本明細書において説明したように、プロセッサによって実
行されるときにプロセッサに本発明の機能を実行させる。

【００８８】別の実施の形態では、要素は、例えば、ＰＡＬ、特定用途向けＩＣ（ＡＳＩＣ
）または他のハードウエア構成等を用いるハードウエア構成を用いて主としてハ
ードウエアで実行される。本明細書において説明されている機能を実行するため
のハードウエア構成のマシンによる実施は、関連技術に習熟した者にとっては明
らかであろう。更に別の実施の形態においては、要素はハードウエアとソフトウ
エアの組合わせを用いて移植される。

【００８９】別の実施の形態では、コンピュータによって動作する方法は、ウェブページを
経ての本発明の方法へのアクセスを提供することにより、ワールドワイドウェブ
を越えてアクセスしまたは実行できる。従って、ウェブページは、ユニバーサル
リソースロケータ（ＵＲＬ）により識別される。ＵＲＬは、サーバー装置および
その装置上のファイルやページの両方を示す。本実施の形態において、消費者ま
たはクライアントのコンピュータ装置が、特定のＵＲＬを選ぶためにブラウザと
相互作用し、次にブラウザに、ＵＲＬで識別されたサーバーへそのＵＲＬまたは
ページについての要求を送らせることが想像される。

【００９０】サーバーは、要求されたページを読み出し、そのページのデータをクライアン
トのコンピュータ装置へ送り返すことにより、要求に応答するのが普通である（
クライアント／サーバの相互作用は、ハイパーテキストトランスポートプロトコ
ル「ＨＴＴＰ」に従って実行されるのが普通である）。選択されたページは、次
いでクライアントの表示画面上でユーザーに表示される。クライアントは、次い
で、本発明のコンピュータプログラムを含むサーバーに、例えば、クライアント
によって提供される質問中の配列に基づいてロゼッタストーン解析または系統分
類プロファイル解析を実行するアプリケーションを起動させることができる。

【００９１】下記の実施例は、本発明の実施を図で示すために提供されるものであって、本
発明の範囲を制限するものではない。

【００９２】（実施例）（ロゼッタストーン法） E. ColiのＤＮＡジラーゼ(Gyrase)のＧｙｒＡとＧｙｒＢサブユニット等の相
互作用をするタンパク質のあるものは、別の有機体、この場合にはイーストのト
ポイソメラーゼ(topoisomerase)IIの単一鎖へ融合される（Berger他、ネイチャ
ー３７９、２２５、１９９６年）。従って、トポイソメラーゼII (１４２９残基
）の異なるセグメントと類似のＧｙｒＡ（８０４アミノ酸残基）（ＧｙｒＢは８
７５残基）の配列は、ロゼッタストーン法によって、ＧｙｒＡとＧｙｒＢがE. C
oliにおいて相互作用するということを示唆する。

【００９３】 E. Coliの他のこのような推定タンパク質相互作用を見付けるために、E. Coli
ゲノムの（合計４２９０の内の）３０００のタンパク質配列が、調べられた（Bl
attner他、サイエンス２７７、１４５３、１９９７年）。タンパク質の３量体は
、ＰｒｏＤｏｍまたはＰｆａｍデータベースのようなタンパク質領域データベー
スを用いて、見つけることができる（Corpet 他、Nucleic Acids Res. ２６、３
２３、１９９８年；ベイトマン他、Nucleic Acids Res. ２７、２６０、１９９
９年）。ここで、５３,５９７のＰｒｏＤｏｍ領域の各々を含むすべてのタンパ
ク質のリストと同じく、６４,５６８のスイスプロットタンパク質の一個づつに
おけるすべてのＰｒｏＤｏｍ領域のリストが準備された。次いで、ＰｒｏＤｏｍ
のすべてのタンパク質は、その能力に対して、３量体でリンクしている構成要素
か、またはロゼッタストーンの構成要素であると見なされた。所与のタンパク質
Ｐの両方の構成要素である領域のすべての対は、２つの領域のうちの１つだけを
有する少なくとも１つのタンパク質が見つかる場合は、タンパク質Ｐによってリ
ンクされていると定義された。この方法によって、７，８４３のＰｒｏＤｏｍ西
洋スモモ(danson)間の１４,８９９のリンクが、発見された。次いで、単一のゲ
ノム（例えばE. Coli）において、リンクされた領域を含むタンパク質のすべて
の非相同である対が、発見された。これらの対は、ロゼッタストーンタンパク質
によってリンクされている。E. Coliに対して、この方法で３，５３１対のタン
パク質を探し出した。タンパク質の３量体を発見する代替の方法は、アミノ酸配
列アラインメント法を用いて、アラインメントがロゼッタストーンタンパク質と
重ならないように、ロゼッタストーンタンパク質に整列する２つのタンパク質を
見つける。E. Coliに対して、この方法で、４，４８７対のタンパク質を探し出
した。そのうち１，２０９対はＰｒｏＤｏｍサーチ方式によっても発見された（
さまざまな配列データベースが各方法に対して調べられたが）。６，８０９対の
非相同である配列、他のいくつかのゲノムの単一のタンパク質に対する著しい類
似性を有する構成要素の対の両方、が発見され、ロゼッタストーン配列と名付け
られた。なぜなら、その配列がタンパク質の対の間の相互作用を解読することが
できたからである。

【００９４】これらの６，８０９対の各々は、E. Coliにおける相互作用するタンパク質の
対の候補である。５つのかかる候補が図１に示される。E. Coliタンパク質の最
初の３対は、実際に相互作用するとして生化学文献から容易に判定されるものの
中にあった。タンパク質の最後の２対が相互作用することは周知でない。それら
は多くのそのような対の代表であり、現時点では、推定される相互作用は、試験
が可能な仮説として受け取られなければならない。

【００９５】ロゼッタストーン法による予測される相互作用についての３つの独立した試験
が考案され、各々は、妥当な部分が実際に相互作用をしているかもしれないとい
うことを示した。第１の方法は、スイスプロットデータベースで与えられるタン
パク質の注釈を用いる。相互作用しているタンパク質が両方とも注釈をつけられ
ている場合について、我々はそれらの注釈を比較し、構成要素の対の両方につい
て類似機能を探す。類似機能は、少なくとも機能的相互作用を意味する。既知の
機能の３，９５０対のE. Coliの中で、２，６８２対（６８％）は、スイスプロ
ットの注釈（キーワード「仮説のタンパク質」を無視する）の少なくとも１つの
キーワードを共有し、機能的役割の関連を示唆する。E. Coliタンパク質の対が
無作為に選択された場合には、１５％がキーワードを共有するに過ぎない。要す
るに、ロゼッタストーン法が、タンパク質−タンパク質の相互作用の候補として
探し出すE. Coliの対の半分を超えるものが、類似機能を有する構成要素を両方
に持つ。従って、その方法はタンパク質の機能のロバストな予言者となるように
思える。タンパク質の対の１つの構成要素の機能が既知の場合、他の構成要素の
機能が予測できる。イーストの類似の解析を実行すると、４５,５０２対のタン
パク質が探し出される。既知の機能の９，８５７対の中で、３２％が、タンパク
質が無作為に選択されたときの１４％と比較したそれらの注釈における少なくと
も１つのキーワードを共有する。

【００９６】ロゼッタストーン法によって予測された相互作用の第２の試験は、相互作用タ
ンパク質のデータベースを確認するものとして用いられる（http://doe-mbi.ucl
a.edu）。これは、公開されたいくつかの実験で相互作用するとわかったタンパ
ク質の対を編集したものである。１９９８年１２月現在、データベースは９３９
項目を含む。そして、そのうちの７２４項目がＰｒｏＤｏｍデータベースにリス
トされた対の構成要素の両方を有する。これらの７２４対のうち、我々はロゼッ
タストーン配列によってリンクされる４６対または６．４％を見つける。我々は
、より多くのゲノムが配列決定され、より多くのリンクされた配列を明らかにし
て、この百分率が上昇するのを期待する。

【００９７】ロゼッタストーン予測法の第３の試験は、相互作用を予測する別の計算方法に
よってであり（Pellegrini他、PNAS ９６、４２８５、１９９９年）、系統分類
プロファイルの方法は、タンパク質の対の相関的な進化による機能的相互作用を
検出する。この方法は、E. Coliタンパク質についてのロゼッタストーン法によ
って予測された６，８０９の相互作用に適用された。これらのうちの３２１（約
５％）ほどは、系統分類プロファイル法によって相互作用していることが示され
た。無作為に選ばれた相互作用の集合に対する普通の相互作用よりも８倍も多い
。ロゼッタストーン法および系統分類プロファイル法が完全に異なる仮定に基礎
を置くなら、予測のオーバラップのこのレベルは、両方の方法の予測の能力を支
持する傾向がある。

【００９８】 E. Coliのタンパク質間の多くの可能な対の相互作用の認識は、結合された相
互作用に対する検索のきっかけとなる。ここでＡはＢと相互作用すると予測され
、そしてＢはＣと、以下同様である。すなわち、ロゼッタストーン法がタンパク
質かタンパク質経路の複合体を探し出すことができるかどうかの判定が試験され
た。図５が示すように、経路および複合体双方に関する示唆的な情報は、E. Col
iタンパク質のリンクされた対から明らかになる。図５Ａは、シキミ酸の生合成
のための経路を表し、図５Ｃはプリン生合成のための経路を表す。同一経路の他
の構成要素へのリンクが見い出されたこれらの経路の酵素は、太字で示される。
ロゼッタストーン配列によって示される正確なリンクは、図５Ｂと図５Ｄのパネ
ルに示される。リンクが発見されたこれらの幾つかは、経路にある連続的な酵素
の間にあり、他のものはマルチ酵素の複合体をおそらく示している更に明白な構
成要素の間にある。同じ調査の択一表現は、経路にある酵素が、表現の規則の補
助として、いくつかの有機体において融合した形で表現されているということで
ある。この場合、対のリンクされた構成要素が、互いに結合している必要は必ず
しもない（下記参照）。

【００９９】タンパク質相互作用のロゼッタストーン予測の信頼性を評価するために、その
方法が第一の場所で機能しなければならない理由を考えることは有益である。こ
れは、タンパク質の類似性の考察から明らかになる。タンパク質領域ＡとＢの単
一のタンパク質鎖への融合が、ＡとＢの有縁性を強く高めることができるという
ことを熱力学の法則からたどる。その理由は、融合がＡとＢの解離のエントロピ
を著しく減少させるということである。そして、それによってＡの結合自由エネ
ルギーをＢに減らす。エントロピのこの低減は、Ｂに関するＡの有効な濃度の増
加として表されることが多い。E. Coli細胞のタンパク質の濃度は、ミクロモラ
ール(micromolar)の順序となる傾向を持ち（Pederson他、細胞１４,１７９、１
９７８年）、融合されたタンパク質の有効濃度が〜ｍＭまたはより大きくなる（
ロビンソン他、PNAS USA ９５、５９２９、１９９８年）。別の方法で表現する
と、複合体からの解離タンパク質サブユニットの標準の自由エネルギーは、代表
的には２７Ｃで、８〜２０ｋｃａｌ／モルである（１０^-6〜１０^-14Ｍの解離定
数に一致する）（ホートンおよびルイス、Protein Sci. １、１６９、１９９２
年）、そして、サブユニットが単一のタンパク質鎖に融合するとき、〜１０ｋｃ
ａｌ／モルまで減らすことができる。ＡがＢに融合するとき、タンパク質ＡとＢ
間の有縁性が非常に高められるので、図６に示すように、同じポリペプチド上の
相互作用している領域ＡとＢを含んだ原始のタンパク質から、相互作用する幾つ
かのタンパク質の対は進化することができた。

【０１００】図６は、タンパク質−タンパク質の相互作用の進化のモデルを示す。ロゼッタ
ストーンモデルは遺伝子の融合で始まり、それは非相互作用する領域ＡとＢにつ
いて暗号化し、融合された２領域タンパク質ＡＢの表現に導く（Ｊ．Ｓ.リチャ
ードソン、Adv. Protein Chem. ３４、１６７、１９８１年、の表IIを参照のこ
と）。真核有機体(eukaryotic)遺伝子は、原核生物(prokaryotic)遺伝子とは対
照的に、しばしばマルチ領域タンパク質について暗号化するということに注意の
こと。融合されたタンパク質において、その領域は比較的高い有効な濃度を有し
、比較的少ない突然変異は、連続した突然変異によって最適化される領域間の原
始的な結合場所をつくる。第２の線において、相互作用領域は、タンパク質Ａと
Ｂが相互作用する対をつくるために別の遺伝子との再結合によって分離される。
相互作用しているタンパク質ＡとＢの対は、タンパク質の融合によって作られる
。それにより、予備的な融合ステップは、ロゼッタストーン仮説にとって必須で
ない。下側の右手のステップは、別の可能な突然変異、すなわち領域交換された
ホモ２量体に至るループ削除を示す。ホモオリゴマー(homooligomer)に対するこ
の進化のパスは、ヘテロオリゴマー(heterooligomer)に対してここで示される進
化のパスのホモオリゴマーに対する類似性である。この経路は、タンパク質相互
作用の進化についてのロゼッタストーン仮説と呼ばれる。また、ロゼッタストー
ン経路の支持において、タンパク質−タンパク質のインターフェースが、単一の
タンパク質分子内の相互領域インターフェースに強い類似性を持つという観測が
ある（Tsai、およびNussinov、J. Mol Biol. ２６０、６０４、１９９６年）。

【０１０１】ロゼッタストーン法が２つの明らかな予測をすることを実現することは重要で
ある。最初に、それは、関連する生物学的機能を有するタンパク質、すなわち、
共通する構造的複合体、代謝経路または生物学的プロセスに参加するタンパク質
、の対を予測する。機能の予測は強固である。すなわち、E. Coliに対して、全
体的な機能類似性は、試験が可能な予測の半分以上において観測された。第２に
、本方法は、可能性のあるなタンパク質−タンパク質の相互作用を予測する。こ
のより特殊な予測に対して、タンパク質有縁性および進化の考察は理解を助ける
。どの場合に、ロゼッタストーン法は、相互作用タンパク質の対を失うか（偽ネ
ガティブ）、そしてどの場合に、相互作用の対に対する間違った候補を探し出す
か（偽ポジティブ）。相互作用を失う１つの理由は、多くのタンパク質−タンパ
ク質の相互作用が、例えば、待機場所を進化させる突然変異の徐々の蓄積等のよ
うに、他の機構を介して進化してきたかもしれない。この場合、相互作用タンパ
ク質の融合は決してなかったので、ロゼッタストーンタンパク質を見つけること
はできない。第２に、他の場合でさえ、相互作用パートナーが一旦融合された場
合、融合されたタンパク質は、進化の道の間に消えてしまったかもしれず、それ
で結合パートナーシップを解読するために残っているロゼッタストーンの遺物が
全くない。しかし、より多くのゲノムが配列決定されているので、ロゼッタスト
ーンタンパク質を見つけ出す公算が高い。

【０１０２】物理的な相互作用の間違った予測が、領域は融合されるが相互作用はしない場
合に、ロゼッタストーン法によって成されることもある。これは、共同表現また
はタンパク質信号を調節するためにタンパク質が融合されている場合にはそうで
あるかもしれない。これらの場合には、タンパク質の「相互作用」は、物理的な
相互作用よりむしろ機能的相互作用である。ロゼッタストーン法は、結合する相
同物と、結合しない相同物とを区別できないので、別の間違った予測が起きるこ
ともある。実施例として、信号領域ＳＨ２とＳＨ３とを考える。ｓｒｃ相同性キ
ナーゼのキナーゼ領域およびＳＨ２とＳＨ３領域は、ｓｒｃ分子において互いに
相互作用する（Xu他、ネイチャー３８５、５９５、１９９７年；Sicheri他、ネ
イチャー３８５、６０２、１９９７年）、しかし、これらの領域の相同物は、
多くの他のタンパク質において見い出され、そして、すべてのＳＨ２領域がすべ
てのＳＨ３領域と相互作用することは確かに偽りである。類似の問題は、ＥＧＥ
と免疫グロブリン領域によって生ずる。すなわち、ロゼッタストーン法が、「Ａ
は機能的にＢへリンクされる」という形のタンパク質機能のロバストな予測を与
えるにもかかわらず、これらの推定相互作用の部分集合だけが、タンパク質間の
物理的な相互作用を表す。

【０１０３】タンパク質−タンパク質の相互作用を予測する際の誤差を定量化し、かつ減少
させるために、多くの異なるタンパク質に存在するＳＨ３のような「混交の」領
域の発生が計算される。これらの領域は、領域融合解析（すなわちロゼッタスト
ーン法）の間、同定され除去されうる。領域のＰｒｏＤｏｍデータベースでは、
各領域がロゼッタストーン法を用いてリンクされてもよい他の領域の数が計数さ
れた。

【０１０４】図７に示すように、領域の約９５％は、僅かな数の他の領域にのみリンクされ
る。我々がロゼッタストーンリンクを見つけることができるＰｒｏＤｏｍ領域デ
ータベースの７，８７２の領域については、約５％だけが「混交」である。そし
て、他の領域への２５以上のリンクを作る。我々のロゼッタストーン法からのす
べての領域の５％だけにフィルターをかけることによって、大多数の間違って予
測される相互作用を除去できる。ＰｒｏＤｏｍ解析によって見つけ出されるE. C
oliの３，５３１のロゼッタストーンリンクへこの種のフィルタリングが適用さ
れる場合、その数は７４９まで減らされる。予測数を下げることになるが、この
フィルタリングのステップは、フィルタをかけてない予測の４７％を越えるまで
、予測されたリンクが真の物理的な相互作用を表すという見込みを増大する。従
って、別のゲノムにおける単一の配列ＡＢに対して共に相同であるタンパク質配
列Ａ’とＢ’の多くの対のゲノムにおける同定は、Ａ’とＢ’がパートナーを結
合して、Ａ’とＢ’について機能的情報を提供するという可能性を示唆する。

【０１０５】（系統分類プロファイル法）我々は、ＢＬＡＳＴアルゴリズムを使用して、（ゲノムリサーチ研究所のウェ
ブサイトで一覧を示された）他の完全に配列決定された１６のゲノムからのタン
パク質を有する各タンパク質配列Ｐ_iを整列させることによって、E. Coliゲノム
により暗号化された４，２９０のタンパク質について系統分類プロファイルを計
算した。それらのうちの１つが統計的に有意とみなされるスコアを有するＰ_iに
整列する場合、ｎ番目のゲノムによって暗号化されたタンパク質は、Ｐ_iの相同
物を含むとして定義される。

【０１０６】類似の系統分類プロファイルを有するタンパク質が機能的にリンクしているか
どうかを検査するために、構造的複合体に参加していることが知られている２つ
のタンパク質、ＲＬ７リボゾーム(ribosome)タンパク質とＦｌｇＬベン毛構造の
タンパク質、および代謝経路に参加していることが知られているＨＩＳＳヒスチ
ジン(histidine)生合成タンパク質が、調べられた。最初のステップとして、他
のすべてのE. Coliは、同一視された系統分類プロファイルを有する読み取りフ
レームを開き、次いで１ビットだけ異なるプロファイルを有するものが同定され
た。その結果は、図８（ａ）ＲＬ７、（ｂ）ＦｌｇＬ、および（ｃ）ＨＩＳ５に
示される。リボゾーム・タンパク質ＲＬ７の相同物は、イーストの場合と同様に
、しかしアルカエ(archae)ゲノムの場合とは異なって、１１のユーバクテリア(e
ubacteria)ゲノムのうちの１０において見い出される。図８（ａ）において、Ｒ
Ｌ７系統分類プロファイル、または１ビットだけ異なるプロファイルを有するE.
Coliタンパク質の半分を超えるものが、リボゾームとの関連機能を有すること
が分かる。これらのタンパク質のどれもＲＬ７に対してアミノ酸配列の有意の類
似性を持たないので、リボゾームとの機能的関係は、これまで知られていなかっ
たが、配列比較による推定はできない。この発見は、類似プロファイルを有する
タンパク質は、機能的にリンクされたタンパク質の共通のグループに属している
ようだという考え方を支持する。これらのプロファイルを有する他のいくつかの
タンパク質は、機能を割り当てられていないし、従って仮説としてリストされる
。系統分類プロファイルの群の調査可能な予測は、これらの未だ特性が得られて
いないタンパク質がリボゾームと関連する機能を有するということである。

【０１０７】図８（ｂ）において報告されたベン毛タンパク質の系統分類プロファイルの比
較は、更に類似プロファイルを有するタンパク質が機能的にリンクされているよ
うだという考え方を支持する。１０のベン毛タンパク質は、共通のプロファイル
を共有する。それらの相同物は、５つのバクテリアのゲノムの部分集合で見い出
される。すなわち、アキフェクスアエオリカス(Aquifex aeolicus)、ボレリアブ
ルグドルフェリ(Borrelia burgdorferi)、枯草菌(Bacillus subtilis)、ヘリコ
バクターピロリ(Helicobacter pylori)、マイコバクテリウムツベルクロシス(My
cobacterium tuberculosis)である。隣接した群（共通プロファイルを共有する
タンパク質のグループ）に現れる他のタンパク質は、さまざまなベン毛タンパク
質および細胞壁維持タンパク質を含む。ベン毛および細胞壁維持タンパク質は、
生化学的にリンクしていることもある。なぜなら、ベン毛が細胞壁に嵌入してい
るからである。例えば、リチックムレイントランスグリコシラーゼ(lytic murei
n transglycosylase)（ＭｌｔＤ）は、ＦｌｇＬベン毛構造のタンパク質のそれ
から１ビットだけしか違わない系統分類プロファイルを有する。このトランスグ
リコシラーゼは、理由が知られていないが細胞壁を切断する。従って、別の予測
は、この酵素がベン毛アセンブリに参加しているかもしれないということである
。

【０１０８】図８（ａ）と図８（ｂ）は構造的複合体にタンパク質を含むが、図８（ｃ）は
アミノ酸代謝に関係しているタンパク質を示す。Ｈｉｓ５ヒスチジン合成タンパ
ク質のそれと類似の（１ビット内の）系統分類プロファイルを有するタンパク質
の半分を超えるものが、アミノ酸代謝に関係していることを分かった

【０１０９】図８の実施例は、質問中のタンパク質に対して類似の系統分類プロファイルを
有するタンパク質が、それと機能的にリンクされていそうであることを示す。逆
に、機能的にリンクされている既知のタンパク質のグループは、類似の系統分類
プロファイルを有することが多いことが示される。表Ｉにおいて、E. Coliタン
パク質のグループは、機能的にリンクされたタンパク質のよく知られた系統を反
映するよう、スイスプロット注釈における共通キーワードを共有するよう選ばれ
た。同一ゲノムによって暗号化された相同タンパク質が必然的に類似プロファイ
ルを有するので、それらはグループから削除された。各グループに対して、「隣
り合う」タンパク質の対の数が計算された。ここで隣り合うとはプロファイルが
３未満のビットだけ異なるタンパク質として定義される。Ｎのタンパク質のグル
ープに対して、最大で（Ｎ(Ｎ-１)）/２の可能な隣り合う組み合わせがある。

【０１１０】

【表１】

【０１１１】スイスプロットにおける類似キーワードに基づいてグループ化されるタンパク
質は、ランダムなタンパク質より類似した系統分類プロファイルを有する。コラ
ム２は、キーワードグループの非相同タンパク質数を与える。コラム３は、３未
満のビットだけ異なるプロファイルを有するキーワードグループのタンパク質の
対の数を与える。これらの対は、隣り合う、と呼ばれる。コラム４は、キーワー
ドグループと同一サイズのタンパク質のランダムなグループに対する平均に見ら
れる隣り合うものの数のリストを示す。一様にゼロである系統分類プロファイル
を持たない膜タンパク質のみが含まれた。テーブルの他の行と異なって、仮説の
タンパク質は、相同である対を含む。

【０１１２】共通のキーワードを共有するタンパク質の系統分類プロファイルの類似性は、
統計的検定によって評価される。すなわち、我々のキーワードグループで見い出
される隣り合うものの数は、無作為に選択されたE. Coliタンパク質以外の、同
一サイズのグループで見い出される隣り合うものの平均数と比較された。我々は
、キーワードグループがすべての可能な隣り合う対の断片のみを含む場合であっ
ても、ランダムな集合は、キーワードグループと比較すると、平均して極めて少
ない隣り合うものを含むということを見い出した。このように、機能的にリンク
されるタンパク質は、無作為に選択されたタンパク質より、プロファイル空間に
おいて隣り合うことがはるかにありそうである。しかし、グループ内のすべての
可能な隣り合うものの断片だけは見付けられた。従って、すべての機能的リンク
を有するタンパク質が、類似プロファイルを有するというわけではない。すなわ
ち、それらは、プロファイル空間の多数の群に落ちこむことがある。仮説のタン
パク質はまた、多くの仮説のタンパク質が、特性が得られていない経路または複
合体の一部であることを示唆しているので、ランダムなタンパク質より、隣り合
うものとなりそうであることに注目するのは興味深い。

【０１１３】機能的リンクを有するタンパク質が、類似の系統分類プロファイルを有しそう
であるという第２の示唆は、ＥｃｏＣｙｃライブラリ（E. Coli遺伝子および代
謝の百科事典）から得られるタンパク質のクラスの解析からもたらされる。１０
を超える構成要素を含み、周知の生化学経路を表すいくつかのクラスが選ばれた
。これらの結果は、表ＩＩにリストされる。その結果は、この解析がキーワード
グループによって見い出されたものと類似であることを示している。すなわち、
グループの構成要素は、無作為に選択されたコントロールグループより隣接した
プロファイルを有するということがはるかにありそうである。

【０１１４】

【表２】

【０１１５】ＥｃｏＣｙｃクラスに基づいて代謝機能に従ってグループ化されたタンパク質
は、ランダムなタンパク質より類似した系統分類プロファイルを有する。コラム
２は、ＥｃｏＣｙｃクラスのタンパク質数を与える。コラム３は、３未満のビッ
トだけ異なるプロファイルを有するＥｃｏＣｙｃクラスのタンパク質の対の数を
与える。これらの対は、隣り合うものと呼ばれる。コラム４は、キーワードグル
ープと同一サイズのタンパク質のランダムなグループについて平均して見られる
隣り合うものの数の一覧を示す。

【０１１６】特性が得られていないタンパク質の機能を予測する方法の能力が試験された。
系統分類プロファイル空間のその隣り合うものを有するタンパク質の機能が同等
と見なされた。これは、スイスプロットデータベース内に見られるキーワード注
釈によって成し遂げられる。この方法がどれくらい効果的かについて検査するた
めに、特性が得られた各々のタンパク質のキーワードが、系統分類プロファイル
空間における隣り合うものと比較された。この場合、隣り合うものは、同一のプ
ロファイルを有する他のすべてのタンパク質であるか、またはユークリッド距離
が２進化単位内であるベクトル距離プロファイルを有するタンパク質であった。
平均して、隣り合うキーワードの４３％が、質問中のタンパク質の既知のキーワ
ードと重なることが見い出された。比較すると、ランダムなタンパク質は、隣り
合うものの同一集合とわずか４％だけしかオーバラップしなかった。こうして、
E. Coliタンパク質の半分を超えるものについて、それらの系統分類プロファイ
ルの隣り合うものの機能を調べることによって、正しく全体的な機能を割り当て
ることができる、という概略の評価が下された。この評価はまた、特性が得られ
ていないタンパク質に機能を割り当てるために、系統分類プロファイルの能力を
維持すべきである。

【０１１７】別の実施例として、イーストサッカロミケスセレビシア(yeast Saccharomyces
cerevisiae)のゲノムによって暗号化される６，２１７のタンパク質に対する系
統分類プロファイルが、E. Coliタンパク質について用いられたのと同一の方法
を用いて計算された。E. Coliのように、タンパク質の機能がすでに既知である
場合、予測された機能を試験できる。イーストにおいて、ランダムなタンパク質
に対してはオーバラップが８％であるのと比較して、隣り合うキーワードの平均
して２９％が、質問中のタンパク質の既知のキーワードと重なり合うことが見い
出された。

【０１１８】タンパク質の系統分類プロファイルは、有機体の相同物の有無を記述する。多
重結合の構造の複合体を形成するタンパク質は、類似プロファイルを有すると考
えられる。また、所与の生化学経路に参加することが既知であるタンパク質は、
系統分類プロファイル空間において隣り合うと考えられる。これは、プロファイ
ルを比較することが、タンパク質が参加する複合体または経路を同定するための
有効なツールであることを証明する。本発明の方法は、同一視される系統分類プ
ロファイルを有するタンパク質の機能を調べることによって特性が得られていな
いタンパク質の機能的割当てができる。

【０１１９】完全に配列されたゲノムの数が増加する場合、科学者は、より長く、そしてよ
り有益なものとなる可能性を持つタンパク質の系統分類プロファイルを構築でき
るだろう。次の数ヶ月内に終了するよう進行中の少なくとも１００のゲノムプロ
ジェクトがある。これらのデータは、１６ビットよりむしろ長さ１００のプロフ
ァイルの構造を可能にする。プロファイルパターンの数は、完全に配列決定され
たゲノムの数に従って指数的に成長するので、５０ビット比較の結果は、１６ビ
ットのものよりかなり多くの情報を与えるに違いない。更に、新しく配列決定さ
れたゲノムがいくつかの真核有機体を含むので、タンパク質の系統分類プロファ
イルはまた、これらのより高次の有機体の構造の複合体および代謝経路を研究す
るための有用なツールとなるに違いない。

【０１２０】（組み合わせ法）上記のように、系統分類プロファイルは、無関係であるが機能的には関連した
配列が互いにグループ化することを許す。同様の解析は、タンパク質の互いのそ
の機能が同時に細胞に存在するのが普通であるという制約を考慮することによっ
て実行できる。かかる方法は、様々な条件の下で育てられるイーストのｍＲＮＡ
発現パターンを解析することによる同期タンパク質発現の要件を利用する。実際
に、類似のｍＲＮＡ発現パターンを有するタンパク質はグループ化され、それら
は類似の機能を有することが多いことを示す（アイゼン他、Proc. Natl. Acad.
Sci. ＵＳＡ９５、１４８６３−８、１９９８年を参照のこと）。全く同様に、
タンパク質は、組織特定発現パターンまたは細胞区画特定発現パターンを解析す
ることによって空間的な表現パターンに従って分類できる。加えて、ロゼッタス
トーン法を用いて、別の有機体の単一のタンパク質へのそれらの融合によって、
１つの有機体の異なるタンパク質間の機能的相互作用を予測できる。利用可能な
実験データを用いるこれらの３つの独立した予測方法の組み合わせが、最初の大
規模な予測またはタンパク質機能を証明するためにここで呈示される。これらの
方法は、イーストサッカロミケスセレビシアにおける密接して関連する機能のタ
ンパク質間のリンクを確定した

【０１２１】（実験的な相互作用）ペアをなすリンクは、共同免疫沈降のような技法およびイースト２混成法によ
り、相互作用するということが実験的な文献から知られているイーストタンパク
質の間で作られた。我々は、ＭＩＰＳデータベース、およびコミュニティ−で開
発されたタンパク質−タンパク質の相互作用のデータベースである相互作用タン
パク質データベースからの相互作用データを結合した。

【０１２２】（代謝経路が隣り合うもののリンク） E. Coliタンパク質のイースト相同物は、ＢＬＡＳＴ相同性検索によって見い
出された。ペアをなすリンクは、ＥｃｏＣｙｃデータベースにおいて定義されて
いるように、E. Coli相同物が代謝経路の順次反応（または更に離れて１反応ス
テップ）に触媒作用を及ぼすイーストタンパク質の間で、定義された。

【０１２３】（相関している進化の算出）系統分類プロファイルは、上記のように各イーストタンパク質について作成さ
れた。

【０１２４】（相関しているｍＲＮＡ発現の計算）９７の個々の公開されて利用できるＤＮＡチップのイーストｍＲＮＡ発現デー
タ集合の結果が、各イーストのオープンリーディングフレーム（ＯＲＦ）と関連
付けられた９７の数のストリングとして暗号化された。ＯＲＦは、そのオープン
リーディングフレームを含むｍＲＮＡが如何にして標準成長、ブドウ糖窮乏、胞
子形成、および変異した遺伝子の発現の間にレベルを変化させたかを記述する。
このストリングは、系統分類プロファイルの１つの有機体内ではアナログ的であ
る。９７の実験の各々についてのｍＲＮＡレベルは正規化され、少なくとも一つ
の実験における平均から２標準偏差の変化を示した遺伝子だけが受け入れられた
。従って、どの実験においても発現レベルに変化を示さなかった遺伝子は無視し
た。相関している発現パターンを有するＯＲＦは、ｍＲＮＡ発現パターンに類似
性を記述する９７次元のユークリッド距離を計算することによって互いにグルー
プ化された。ＯＲＦは、それらが所与の距離カットオフ内で、最も近い１０の隣
り合うものの間にある場合、隣り合うもの同士のＯＲＦ注釈の重なり合いを最大
にしたという条件で、リンクされていると考えられる。

【０１２５】（相関している遺伝子融合イベントの計算）タンパク質は、タンパク質間の不完全な三角形関係と呼ばれるものの計算によ
るのと同様に、上記のようにロゼッタストーンパターンによってリンクされた。
アラインメントは、プログラムＰｓｉ−Ｂｌａｓｔによって見い出された。

【０１２６】これらの方法を用いる解析は、相関している系統分類プロファイルからの２０
,７４９のタンパク質−タンパク質リンク、相関しているｍＲＮＡ発現パターン
からの２６,０１３のリンク、およびロゼッタストーン配列からの４５,５０２の
リンク、を同定した。図９に示すように、これらのリンクは、タンパク質相互作
用データベース、およびＭＩＰＳイーストゲノムデータベース（Mewes他、Nucle
ic Acids Res. ２６、３３〜３７、１９９８年）からの、実験的に誘導された追
加の５００のタンパク質−タンパク質相互作用、および代謝経路の順次反応に触
媒作用を及ぼすイーストタンパク質の中の２,３９１のリンクを組み合わせたも
のである。

【０１２７】イーストタンパク質の４,７０１（７７％）の中に見られた９３,７５０の全機
能的リンクの中で、４,１３０は「最も高い信頼性」を持つと定義された（実験
的な技法によって正しいことが知られたか、または３つの予測技術の中の２つに
よって確認された）。すなわち、他の１９,５２１は「高い信頼性」（系統分類
プロファイルによって予測された）として定義される。そして、残りは、相関し
ている遺伝子融合、または相関しているｍＲＮＡ発現のいずれかによって予測さ
れたが、両方ともではない。

【０１２８】リンクの質は、以下のように評価された：一群の機能的に関連したタンパク質
にタンパク質Ａ’をリンクする場合、これらの他のタンパク質の共有機能は、Ａ
’についての全体的な機能の手がかりを提供すると仮定する。Ａ’の機能がすで
に既知の場合、予測された機能を試験できる。この試験のために、スイスプロッ
トデータベースの標準化されたキーワード注釈が選ばれ用いられて、すべての特
性が得られたイーストタンパク質の既知の機能を、本発明の方法によって予測さ
れる機能と比較したものである。多くのイーストタンパク質から選ばれた１つの
例を試験したので、デノボプリン生合成の第７ステップに触媒作用を及ぼす酵素
ＡＤＥ１に対するスイスプロットキーワードは、「プリン生合成」および「リガ
ーゼ」である。どのキーワードがＡＤＥ１にリンクされるタンパク質の注釈に現
れるかに関する頻度に基づいて、ＡＤＥ１の全体機能がプリン生合成（１３.６
％）、トランスフェラーゼ（１１.４％）、リガーゼ（６.８％）およびリアーゼ
（１３.６％）であるべきということが予測される。従って、全体的な生物学的
プロセスを予測するために本解析が用いられる。ここではＡＤＥ１であるタンパ
ク質が、密接に関連する機能を持つ多くの他のタンパク質へそのタンパク質をリ
ンクするのと同様に、そのプロセスに参加する。信頼性レベル、データ範囲、お
よびランダムな試験に対する比較とともに、系統的キーワード解析の結果が、表
ＩＩＩに記載される。

【０１２９】２つの独立した予測技術によって証明されるリンクは、実験的な相互作用デー
タと同じ信頼性をもって、かつランダムな試験のレベルの８倍を超えて、タンパ
ク質機能を予測する。

【０１３０】

【表３】

【０１３１】これらのリンクは、未知の機能のタンパク質を特徴づける手段を提供する。

【０１３２】イーストには特性が得られていない２,５５７のタンパク質があり（Mewes他、Nu
cleic Acids Res. ２６：３３−３７、１９９８年）、タンパク質は実験的に研
究されず、既知の機能の強い相同物を有していない。これらの中の３７４または
１５％は、高いか、または最も高い信頼性の機能的リンクから全体的な機能を割
り当てられることができる。そして、１,５２４または６０％のものは、すべて
のリンクを用いて全体的な機能を割り当てられることができる。

【０１３３】機能の割当ての特定の実施例は、良好に保存された未知の機能のタンパク質族
からのタンパク質（イーストオープンリーディングフレームＹＧＲ０２１Ｗ）に
ついて、図１０に示される。ここで記載されている方法、およびそれらがカバー
しない機能的リンクに基づいて、この系統は、ミトコンドリアのタンパク質合成
に関する機能を割り当てられる。ＹＧＲ０２１Ｗの機能的パートナーのうちの２
つはまた、未知の機能の保存されたタンパク質族である。すなわち、ｇｉｄＡ族
およびＣ．エレガンスＭ０２Ｆ４．４族である。これらの族もまた、ミトコンド
リア（またはバクテリアの）タンパク質合成にかかわることができる。トリオー
スリン酸イソメラーゼ(triose phosphate isomerase)（図１０）へのリンクは、
ヒトの筋疾患(myopathy)への光明として特に興味深い。この疾患では、この酵素
の不足が大きく変化したミトコンドリアの構造と相関を持つ(Bardosi他、Acta N
europathol (Berl) ７９、３８７-３９４、１９９０年)。

【０１３４】２つの付加的なリンクの実施例が挙げられる。すなわち、イーストプリオンＳ
ｕｐ３５に対するもの（Wickner, R.B.、サイエンス２６４、５６６−５６９、
１９９４年）およびヒトの結腸ガンに関連する遺伝子のイースト相同物、ＭＳＨ
６に対するものである。（Miyaki他、Nature struct. Biol.、１７、２７１−２
７２、１９９７年）。両方の場合において、全体的な機能はすでに既知である。
しかし、本発明の方法もまた、新しい機能的リンクを予測する。特に、図１１に
おいて、非プリオン状態の変換終結因子として働くイーストプリオンＳｕｐ３５
は、新しく合成されたペプチド鎖を開放するようリボゾームと相互作用するＳｕ
ｐ３５の一次役割によって始終一貫してタンパク質合成に関係している多くのタ
ンパク質にリンクされる（Kushirov他、Gene、６６、４５−５４、１９８８年；
Stansfield他、EMBO J. １４、４３６５−４３７３、１９９５年）。タンパク質
を分類しおよび目標としている、Ｓｕｐ３５へリンクされるタンパク質はまた、
発生期のタンパク質を最終的な細胞へ導く際の付属品的役割に始終一貫している
。Ｓｕｐ３５は、相関している進化およびｍＲＮＡ発現の両方を示し、新しく合
成されたアクチンおよびマイクロチューブ(microtubules)の折り曲げを助けると
考えられるＣＣＴシャペロニン(CCT chaperonin)システム、イーストシャペロニ
ンシステムの構成要素を有する。

【０１３５】我々がＭＳＨ６を調べるときに、新しいリンクがまた確定される。ＤＮＡ不整
合は、ヒトの相同物が変異したときに、大多数の遺伝的な非ポリープ性結腸直腸
ガンを引き起こすタンパク質（ジョンソン他、J. Biol. Chem.２７１、７２８５
−７２８８、１９９６年）を修復する（以下において展望できる：Lynch他、N.
Y. Acad. Sci、８３３、１−２８、１９９７年）。ＭＳＨ６は、他のいくつかの
ＤＮＡ不整合修復タンパク質と相同であり、図１２において、配列に無関係なＰ
ＭＳ１ＤＮＡ不整合修復タンパク質族にリンクされ、その突然変異はまたヒトに
おいて、結腸直腸ガンへ結び付けられる（Papadopolous他、サイエンス２６３、
１６２５−１６２９、１９９４年）。ＭＳＨ６は、相同物ＭＳＨ４を介して、メ
チレンテトリドロフォレートデヒドロゲナーゼ(methylenetetrhydrofolate dehy
drogenase)によってプリン生合成経路へ、そして２つのＲＮＡ修正酵素へ、更に
、特性が得られていないタンパク質族へと順番にリンクされ、それは、現在ガン
におけるＤＮＡ修復およびヒトの相同物の潜在的参加を考慮して調査することが
できる。

【０１３６】本発明の多くの実施の形態が、説明された。それにもかかわらず、さまざまな改変が本発明の要旨と範囲から逸脱することな
くなされることができると理解されよう。

【図面の簡単な説明】

【図１Ａ】機能的にリンクされているとロゼッタストーン法によって予測され
るE. Coliタンパク質の５つの対の例である。各々の例において、上のタンパク
質が「ロゼッタストーンタンパク質」であり、下の２つのタンパク質が機能的に
リンクされる。

【図１Ｂ】ロゼッタストーン解析が、タンパク質（ｃ）が２つの明らかに非相
同であるタンパク質（ＡおよびＢ）と異なる領域で類似している場合を見い出す
ことを示す。かかる状況では、機能的関係はＡとＢの間で推定される。ゲノムｉ
、ｊおよびｋは、単一のゲノムまたは２つか３つの異なるゲノムを表す。

【図２Ａ】本発明のロゼッタストーン法を記載しているフロー図であり、未知
の機能を有する少なくとも２つのポリペプチドの一次配列で始まっている。

【図２Ｂ】本発明の方法を記載しているフロー図であり、未知の機能を有する
ロゼッタストーンタンパク質の一次配列で始まっている。

【図３】系統分類の経路の略図である。Ｐ１からＰ７は、明らかに非相同であ
るタンパク質である。

【図４Ａ】１ビット型のプロファイル法を用いる本発明の系統分類プロファイ
ル法を説明するフロー図を示す。

【図４Ｂ】進化距離法を用いる本発明の系統分類プロファイル法を説明するフ
ロー図を示す。

【図５】タンパク質のリンクされた対から経路と複合体に関する示唆的な情報
を示す。ａ．シキミ酸生合成の経路とプリン合成の経路を表す。ｂ．ロゼッタストーン法によって示唆されるリンクを説明する。ｃ．シキミ酸生合成の経路とプリン合成の経路を表す。ｄ．ロゼッタストーン法によって示唆されるリンクを説明する。

【図６】タンパク質とタンパク質の相互作用の進化のモデルを示す。ロゼッタ
ストーンモデルは、相互作用しない領域ＡとＢに対して暗号化する遺伝子の融合
で始まり、融合された２領域タンパク質ＡＢの発現につながる。

【図７】多くの異なるタンパク質において見い出され、従って、多くの異なる
領域にリンクされる混交タンパク質領域の発生を図示する。

【図８Ａ】系統分類プロファイル法のプロセスと結果を示す図である。各々の
場合において、質問中のタンパク質と同一のプロファイルを有するすべてのタン
パク質が見い出され（２重線の囲みの中）、次いで、１ビットだけ異なるプロフ
ァイルを有するすべてが見い出された（２番目の囲み）。太字のタンパク質は、
質問中のタンパク質として同一複合体または経路に参加し、イタリック体のもの
は、別の関連した複合体または経路に参加する。同一のプロファイルを有するタ
ンパク質は１つの囲みで示される。囲みの間の１本の線は、２つのプロファイル
間が１ビットの差であることを表す。質問中のタンパク質から１ビットだけプロ
ファイルが異なるすべての隣接したタンパク質が示される。相同タンパク質は、
破線によって結ばれているか、または字下げされている。各々のタンパク質は、
４桁のE. Coli番号、スイスプロット遺伝子名、および簡単な説明のラベル付け
がされている。囲みの中の、または線によって結ばれる囲みの中のタンパク質が
、類似の機能を有するということに注意して欲しい。仮説のタンパク質（すなわ
ち未知の機能の）は、機能的なそして構造的な研究の主要候補である。（ａ）、
（ｂ）および（ｃ）の２重の囲みのタンパク質は、それらの系統分類プロファイ
ルにおいて、計算の時に利用可能な１７ゲノムに対して可能な１６のうちから、
それぞれ１１、６、および１０個を有する。

【図８Ｂ】系統分類プロファイル法のプロセスと結果を示す図である。各々の
場合において、質問中のタンパク質と同一のプロファイルを有するすべてのタン
パク質が見い出され（２重線の囲みの中）、次いで、１ビットだけ異なるプロフ
ァイルを有するすべてが見い出された（２番目の囲み）。太字のタンパク質は、
質問中のタンパク質として同一複合体または経路に参加し、イタリック体のもの
は、別の関連した複合体または経路に参加する。同一のプロファイルを有するタ
ンパク質は１つの囲みで示される。囲みの間の１本の線は、２つのプロファイル
間が１ビットの差であることを表す。質問中のタンパク質から１ビットだけプロ
ファイルが異なるすべての隣接したタンパク質が示される。相同タンパク質は、
破線によって結ばれているか、または字下げされている。各々のタンパク質は、
４桁のE. Coli番号、スイスプロット遺伝子名、および簡単な説明のラベル付け
がされている。囲みの中の、または線によって結ばれる囲みの中のタンパク質が
、類似の機能を有するということに注意して欲しい。仮説のタンパク質（すなわ
ち未知の機能の）は、機能的なそして構造的な研究の主要候補である。（ａ）、
（ｂ）および（ｃ）の２重の囲みのタンパク質は、それらの系統分類プロファイ
ルにおいて、計算の時に利用可能な１７ゲノムに対して可能な１６のうちから、
それぞれ１１、６、および１０個を有する。

【図８Ｃ】系統分類プロファイル法のプロセスと結果を示す図である。各々の
場合において、質問中のタンパク質と同一のプロファイルを有するすべてのタン
パク質が見い出され（２重線の囲みの中）、次いで、１ビットだけ異なるプロフ
ァイルを有するすべてが見い出された（２番目の囲み）。太字のタンパク質は、
質問中のタンパク質として同一複合体または経路に参加し、イタリック体のもの
は、別の関連した複合体または経路に参加する。同一のプロファイルを有するタ
ンパク質は１つの囲みで示される。囲みの間の１本の線は、２つのプロファイル
間が１ビットの差であることを表す。質問中のタンパク質から１ビットだけプロ
ファイルが異なるすべての隣接したタンパク質が示される。相同タンパク質は、
破線によって結ばれているか、または字下げされている。各々のタンパク質は、
４桁のE. Coli番号、スイスプロット遺伝子名、および簡単な説明のラベル付け
がされている。囲みの中の、または線によって結ばれる囲みの中のタンパク質が
、類似の機能を有するということに注意して欲しい。仮説のタンパク質（すなわ
ち未知の機能の）は、機能的なそして構造的な研究の主要候補である。（ａ）、
（ｂ）および（ｃ）の２重の囲みのタンパク質は、それらの系統分類プロファイ
ルにおいて、計算の時に利用可能な１７ゲノムに対して可能な１６のうちから、
それぞれ１１、６、および１０個を有する。

【図９】実施例で説明したように、機能的に関連したイーストタンパク質をリ
ンクするために用いる戦略を示す。

【図１０】多くの有機体に保存されたタンパク質族の一員であるが、完全に未
知の機能ではないイーストタンパク質ＹＧＲ０２１Ｗに対する系統分類プロファ
イルによって見つけられた高信頼の機能的リンクを示す。

【図１１Ａ】イーストプリオンＳｕｐ３５に対して確定された最も高信頼の機
能的リンクを示す。

【図１１Ｂ】Ｓｕｐ３５（黒丸）とリンクするタンパク質（白丸）の中で発見
された高信頼（細線）および最も高信頼（太線）のリンクのネットワークを示す
図である。リンクのネットワークは、部分的な群れの度合いが高いことを示す。

【図１２】イーストＤＮＡ修理タンパク質ＭＳＨ６に対して見つけられた高信
頼の、および最も高信頼の機能的リンクを示す。これはヒトの結腸直腸ガンを引
き起こすタンパク質に配列が類似している。各種の図面における同一の参照番号
は同一の要素を示す。

【手続補正書】

【提出日】平成１３年９月１４日（２００１．９．１４）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】００９９

【補正方法】変更

【補正の内容】

【００９９】タンパク質相互作用のロゼッタストーン予測の信頼性を評価するために、その
方法が第一の場所で機能しなければならない理由を考えることは有益である。こ
れは、タンパク質の類似性の考察から明らかになる。タンパク質領域ＡとＢの単
一のタンパク質鎖への融合が、ＡとＢの有縁性を強く高めることができるという
ことを熱力学の法則からたどる。その理由は、融合がＡとＢの解離のエントロピ
を著しく減少させるということである。そして、それによってＡの結合自由エネ
ルギーをＢに減らす。エントロピのこの低減は、Ｂに関するＡの有効な濃度の増
加として表されることが多い。E. Coli細胞のタンパク質の濃度は、マイクロモ
ルのオーダーとなる傾向を持ち（Pederson他、細胞１４,１７９、１９７８年）
、一方、融合されたタンパク質の有効濃度が〜ｍＭまたはより大きくなる（ロビ
ンソン他、PNAS USA ９５、５９２９、１９９８年）。別の方法で表現すると、
複合体からの解離タンパク質サブユニットの標準の自由エネルギーは、代表的に
は２７Ｃで、８〜２０ｋｃａｌ／モルである（１０^-6〜１０^-14Ｍの解離定数に
一致する）（ホートンおよびルイス、Protein Sci. １、１６９、１９９２年）
、そして、サブユニットが単一のタンパク質鎖に融合するとき、〜１０ｋｃａｌ
／モルまで減らすことができる。ＡがＢに融合するとき、タンパク質ＡとＢ間の
有縁性が非常に高められるので、図６に示すように、同じポリペプチド上の相互
作用している領域ＡとＢを含んだ原始のタンパク質から、相互作用する幾つかの
タンパク質の対は進化することができた。

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】０１３５

【補正方法】変更

【補正の内容】

【０１３５】ＭＳＨ６（このタンパク質は、ＤＮＡ不整合修復（mismatch repair）タンパ
ク質であり（ジョンソン他、J. Biol. Chem.２７１、７２８５−７２８８、１９９６年）、ヒトの相同物が変異すると、大多数の遺伝的な非ポリープ性結腸直腸ガンを引き起こすことが知られている（以下の文献にレビューが掲載されている：Lynch他、N. Y. Acad. Sci、８３３、１−２８、１９９７年））について我々が調べるとき、新たなリンクが確立される。ＭＳＨ６は、他のいくつかのＤＮＡ
不整合修復タンパク質と相同であり、図１２において、配列に無関係なＰＭＳ１
ＤＮＡ不整合修復タンパク質族にリンクされ、その突然変異はまたヒトにおいて
、結腸直腸ガンへ結び付けられる（Papadopolous他、サイエンス２６３、１６２
５−１６２９、１９９４年）。ＭＳＨ６は、相同物ＭＳＨ４を介して、メチレン
テトリドロフォレートデヒドロゲナーゼ(methylenetetrhydrofolate dehydrogen
ase)によってプリン生合成経路へ、そして２つのＲＮＡ修正酵素へ、更に、特性
が得られていないタンパク質族へと順番にリンクされ、それは、現在ガンにおけ
るＤＮＡ修復およびヒトの相同物の潜在的参加を考慮して調査することができる
。

───────────────────────────────────────────────────── フロントページの続き (31)優先権主張番号６０／１２６，５９３ (32)優先日平成11年３月26日(1999．3．26) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号６０／１３４，０９２ (32)優先日平成11年５月14日(1999．5．14) (33)優先権主張国米国（ＵＳ） (31)優先権主張番号６０／１３４，０９３ (32)優先日平成11年５月14日(1999．5．14) (33)優先権主張国米国（ＵＳ） (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＬ，ＳＺ，ＴＺ，ＵＧ，ＺＷ )，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＥ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＲ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＤＭ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＡ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＴＺ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＡ，ＺＷ (72)発明者マルコッテエドワードアメリカ合衆国カリフォルニア州 90064 ロサンゼルスサウスカルメリナアベニュー 2230 (72)発明者トンプソンマイケルアメリカ合衆国カリフォルニア州 90404 サンタモニカナンバー６ナインティーンスストリート 1528 (72)発明者アイゼンバーグデイビットアメリカ合衆国カリフォルニア州 90024 ロサンゼルスコムストックアベニュー 342 (72)発明者グロッセロバートアメリカ合衆国カリフォルニア州 90401 サンタモニカナンバー９ナインスストリート 1218 (72)発明者イェーテストッドアメリカ合衆国カリフォルニア州 91301 アゴーラヒルズキャザーウッドコート 29028 Ｆターム(参考） 2G045 DA12 DA13 DA14 DA36 JA01 4B024 AA11 AA20 BA80 CA01 GA11 HA01 HA14 HA19 5B075 ND20 UU19

Claims

【特許請求の範囲】

【請求項１】機能的にリンクされるように多数のポリペプチドを同定する方
法であって：ａ）複数のタンパク質の一次アミノ酸配列に、多数の明らかに非相同であるポ
リペプチドの前記一次アミノ酸配列を整列させること；そして、ｂ）かかる多数の明らかに非相同であるポリペプチドすべての前記一次アミノ
酸配列と、少なくとも１つのかかるタンパク質の前記一次アミノ酸配列との間に
見られる任意のアラインメントに対して、前記少なくとも１つのかかるタンパク
質を、前記多数のポリペプチド間の機能的リンクを示すものとして同定する指示
を出力すること；を含む方法。
【請求項２】前記整列はアルゴリズムによって実行される、請求項１の方法。
【請求項３】前記アルゴリズムは、スミス−ウォーターマンアルゴリズム、
ニードルマン−ブンシュアルゴリズム、ＢＬＡＳＴ、ＦＡＳＴＡ、およびＰＳＩ
−ＢＬＡＳＴから成る群から選択される、請求項２の方法。
【請求項４】前記多数の明らかに非相同であるポリペプチドは、データベー
スからもたらされる、請求項１の方法。
【請求項５】前記多数の明らかに非相同であるポリペプチドは、ゲノムデー
タベースから核酸配列を変換することによって得られる、請求項１の方法。
【請求項６】前記複数のタンパク質は、既知の機能を有する、請求項１の方法。
【請求項７】前記多数の明らかに非相同であるポリペプチドの少なくとも１
つは、既知の機能を有する、請求項１の方法。
【請求項８】前記多数の明らかに非相同であるポリペプチドの少なくとも１
つは、未知の機能を有する、請求項１の方法。
【請求項９】前記アラインメントが、前記複数のタンパク質に対して前記多
数の明らかに非相同であるポリペプチドの相同性の程度に基づく、請求項１の方法。
【請求項１０】前記少なくとも１つのかかるタンパク質は、各々の前記多数
の明らかに非相同であるポリペプチドの前記一次アミノ酸配列の断片を含む、請求項１の方法。
【請求項１１】ｃ）前記少なくとも１つのかかるタンパク質の有意性を、確
率（ｐ）の閾値を計算することにより判定すること；を更に含む、請求項１の方法。
【請求項１２】前記確率の閾値は、実行されるべき配列比較の総数に基づい
て前記値１/ＮＭに関して設定され、ここで、Ｎは第１の有機体のゲノムのタン
パク質数であり、Ｍは他のすべてのゲノムのタンパク質数である、請求項１１の方法。
【請求項１３】前記明らかに非相同であるポリペプチドの前記一次アミノ酸
配列と、前記複数のタンパク質の少なくとも１つの一次アミノ酸配列との間に見
られる任意のアラインメントに対して、１つの明らかに非相同であるポリペプチ
ドと、他の明らかに非相同であるポリペプチドの過剰な数との間の過剰な機能的
リンクにフィルタをかけること；を更に含む、請求項１の方法。
【請求項１４】コンピュータ可読の媒体上に記憶されるコンピュータプログ
ラムであって、機能的にリンクされるようにタンパク質を同定するために、コン
ピュータ装置に：ａ）多数の明らかに非相同であるポリペプチドの一次アミノ酸配列を、複数の
タンパク質の前記一次アミノ酸配列へ整列させ；そして、ｂ）すべてのポリペプチドの前記一次アミノ酸配列と、少なくとも１つのかか
るタンパク質の前記一次アミノ酸配列との間に見られる任意のアラインメントに
対して、かかるタンパク質の同定の表示を出力させる；命令を含むコンピュータプログラム。
【請求項１５】前記整列は、アルゴリズムによって実行される、請求項１４のコンピュータプログラム。
【請求項１６】前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
、ニードルマン−ブンシュアルゴリズム、ＢＬＡＳＴ、ＦＡＳＴＡ、およびＰＳ
Ｉ−ＢＬＡＳＴから成る群から選択される、請求項１５のコンピュータプログラム。
【請求項１７】前記多数の明らかに非相同であるポリペプチドは、データベ
ースからもたらされる、請求項１４のコンピュータプログラム。
【請求項１８】前記多数の明らかに非相同であるポリペプチドは、ゲノムデ
ータベースから核酸配列を変換することによって得られる、請求項１４のコンピュータプログラム。
【請求項１９】前記複数のタンパク質は、既知の機能を有する、請求項１４のコンピュータプログラム。
【請求項２０】前記多数の明らかに非相同であるポリペプチドの少なくとも
１つは既知の機能を有する、請求項１４の方法。
【請求項２１】前記多数の明らかに非相同であるポリペプチドの少なくとも
１つは未知の機能を有する、請求項１４の方法。
【請求項２２】前記アラインメントが、前記複数のタンパク質に対して前記
多数の明らかに非相同であるポリペプチドの相同性の程度に基づく、請求項１４のコンピュータプログラム。
【請求項２３】前記少なくとも１つのかかるタンパク質は、各々の前記多数
の明らかに非相同であるポリペプチドの前記一次アミノ酸配列の断片を含む、請求項１４のコンピュータプログラム。
【請求項２４】前記コンピュータへ：ｃ）前記少なくとも１つのかかるタンパク質の有意性を、確率（ｐ）の閾値を
計算することにより判定させる；ための命令を更に含む、請求項１４のコンピュータプログラム。
【請求項２５】前記確率は、実行されるべき配列比較の総数に基づいて前記
値１/ＮＭに関して設定され、ここで、Ｎは第１の有機体のゲノムのタンパク質
数であり、Ｍは他のすべてのゲノムのタンパク質数である、請求項２４のコンピュータプログラム。
【請求項２６】前記明らかに非相同であるポリペプチドの前記一次アミノ酸
配列と、前記複数のタンパク質の少なくとも１つの一次アミノ酸配列との間に見
られる任意のアラインメントに対して、１つの明らかに非相同であるポリペプチ
ドと、他の明らかに非相同であるポリペプチドの過剰な数との間の過剰な機能的
リンクにフィルタをかけること；を更に含む、請求項１４のコンピュータプログラム。
【請求項２７】機能的リンクを有するように、複数のポリペプチドを同定す
る方法であって：ａ）タンパク質の一次アミノ酸配列を、各々の複数の明らかに非相同であるポ
リペプチドの前記一次アミノ酸配列へ整列させること；そして、ｂ）タンパク質の前記一次アミノ酸配列と、前記複数の明らかに非相同である
ポリペプチドの前記一次アミノ酸配列との間に見られる任意のアラインメントに
対して、機能的にリンクされるように、任意の明らかに非相同であるポリペプチ
ドを同定している表示を出力すること、ここで、前記タンパク質の前記一次アミ
ノ酸は、少なくとも２つの明らかに非相同であるポリペプチドからのアミノ酸配
列を含む；を含む方法。
【請求項２８】前記整列はアルゴリズムによって実行される、請求項２７の方法。
【請求項２９】前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
、ニードルマン−ブンシュアルゴリズム、ＢＬＡＳＴ、ＦＡＳＴＡ、およびＰＳ
Ｉ−ＢＬＡＳＴから成る群から選択される、請求項２８の方法。
【請求項３０】前記タンパク質は既知の機能を有する、請求項２７の方法。
【請求項３１】前記複数のポリペプチドは、ゲノムデータベースから核酸配
列を変換することによって得られる、請求項２７の方法。
【請求項３２】前記複数のポリペプチドは、データベース内に置かれる。請求項２７の方法。
【請求項３３】前記アラインメントは、前記タンパク質に対する前記複数の
ポリペプチドの相同性の程度に基づく、請求項２７の方法。
【請求項３４】前記非相同ポリペプチドは、前記タンパク質の前記一次アミ
ノ酸配列に対し、重なり合わないように整列する、請求項２７の方法。
【請求項３５】前記タンパク質の前記一次アミノ酸配列と、前記明らかに非
相同であるポリペプチドの前記一次アミノ酸配列との間に見られる任意のアライ
ンメントに対して、１つの明らかに非相同であるポリペプチドと、他の明らかに
非相同であるポリペプチドの過剰な数との間の過剰な機能的リンクにフィルタを
かけること；を更に含む、請求項２７の方法。
【請求項３６】コンピュータ可読の媒体上に記憶されるコンピュータプログ
ラムであって、機能的リンクを有するように複数のポリペプチドを同定するため
に、コンピュータ装置に：ａ）タンパク質の一次アミノ酸配列を、各々の複数の明らかに非相同である
ポリペプチドの前記一次アミノ酸配列に、整列させ；そして、ｂ）タンパク質の前記一次アミノ酸配列と、前記複数の明らかに非相同である
ポリペプチドの前記一次アミノ酸配列との間に見られる任意のアラインメントに
対して、機能的にリンクされるように、任意の明らかに非相同であるポリペプチ
ドを同定している表示を出力させる、ここで、前記タンパク質の前記一次アミノ
酸は、少なくとも２つの明らかに非相同であるポリペプチドからのアミノ酸配列
を含む；ための命令を含むコンピュータプログラム。
【請求項３７】前記整列はアルゴリズムによって実行される、請求項３６のコンピュータプログラム。
【請求項３８】前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
、ニードルマン−ブンシュアルゴリズム、ＢＬＡＳＴ、ＦＡＳＴＡ、およびＰＳ
Ｉ−ＢＬＡＳＴから成る群から選択される、請求項３６のコンピュータプログラム。
【請求項３９】前記タンパク質は、既知の機能を有する、請求項３６のコンピュータプログラム。
【請求項４０】少なくとも１つの前記明らかに非相同であるポリペプチドは
、既知の機能を有する、請求項３６のコンピュータプログラム。
【請求項４１】少なくとも１つの前記明らかに非相同であるポリペプチドは
、未知の機能を有する、請求項３６のコンピュータプログラム。
【請求項４２】前記複数のポリペプチドは、ゲノムデータベースからの核酸
配列を変換することによって得られる、請求項３６のコンピュータプログラム。
【請求項４３】前記複数のポリペプチドは、データベースに配置される、請求項３６のコンピュータプログラム。
【請求項４４】前記アラインメントは、前記タンパク質に対する前記複数の
ポリペプチドの相同性の程度に基づく、請求項３６のコンピュータプログラム。
【請求項４５】前記少なくとも２つの明らかに非相同であるポリペプチドは
、前記タンパク質の重なり合わない一次配列を含む、請求項３６のコンピュータプログラム。
【請求項４６】コンピュータへ：前記タンパク質の前記一次アミノ酸配列と、前記明らかに非相同であるポリペ
プチドの前記一次アミノ酸配列との間に見られる任意のアラインメントに対して
、１つの明らかに非相同であるポリペプチドと、他の非相同であるポリペプチド
の過剰な数との間の過剰な機能的リンクにフィルタをかけさせる；ための命令を更に含む、請求項３６のコンピュータプログラム。
【請求項４７】機能的リンクを有するように、多数のタンパク質を同定する
方法であって：ａ）少なくとも２つのゲノムからのタンパク質のリストを含むデータを得るこ
と；ｂ）各タンパク質についてのタンパク質の系統分類プロファイルを形づくるた
めに前記タンパク質の前記リストを比較すること、ここで、タンパク質の系統分
類プロファイルは、前記タンパク質の相同性に基づく前記少なくとも２つのゲノ
ムの各々における特定のタンパク質族に帰属しているタンパク質の有無を示す；
そして、ｃ）類似プロファイルに基づいてタンパク質の前記リストをグループ化するこ
と、ここで、類似プロファイルを有するタンパク質は、機能的にリンクされてい
ることが示される；を含む方法。
【請求項４８】前記データは、１つ以上のデータベースに存在する、請求項４７の方法。
【請求項４９】前記データは、核酸またはアミノ酸配列の形である、請求項４７の方法。
【請求項５０】任意の核酸配列は、アミノ酸配列に変換される、請求項４９の方法。
【請求項５１】前記比較は、アルゴリズムによって実行される、請求項４７の方法。
【請求項５２】前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
、ニードルマン−ブンシュアルゴリズム、ＢＬＡＳＴ、ＦＡＳＴＡ、およびＰＳ
Ｉ−ＢＬＡＳＴから成る群から選択される、請求項５１の方法。
【請求項５３】ステップ（ｂ）は、確率（ｐ）閾値を計算することによって
前記タンパク質の前記相同性の前記有意性を決定すること、を更に含む、請求項４７の方法。
【請求項５４】前記確率は、実行されるべき配列比較の総数に基づいて、前
記値１／ＮＭに関して設定される、ここで、Ｎは前記第１の有機体のゲノムのタ
ンパク質数であり、Ｍは他のすべてのゲノムのタンパク質数である、請求項５３の方法。
【請求項５５】前記有無は、進化の距離を計算することによってである、請求項４７の方法。
【請求項５６】前記進化の距離は：前記タンパク質のリストからの２つの配列を整列させること；条件付確率マトリクスp(aa aa')を作成することにより進化確率プロセスを決
定すること、ここで、aaおよびaa'は、任意のアミノ酸であり、前記条件付確率
マトリクスは、対数奇数マトリクスからのアミノ酸置換マトリクスを、前記条件
付確率マトリクスへ変換することによって作成されている；【数１】によって表される、前記２つの配列の前記アラインメント中の各々の整列された
対に対して前記条件付確率の積をとることによって、前記作成された条件付確率
マトリクスの観測されたアラインメントを計数すること；そして、Ｐを最大にするように、パワーの式p'=p(aan aa')から進化の距離を決定する
こと；によって計算される、請求項５５の方法。
【請求項５７】前記系統分類プロファイルが、ベクトル、マトリクスまたは
系統分類のツリーの形である、請求項４７の方法。
【請求項５８】コンピュータ可読の媒体上に記憶されるコンピュータプログ
ラムであって、機能的リンクを有するように多数のポリペプチドを同定するため
に、コンピュータ装置に：ａ）少なくとも２つのゲノムからタンパク質のリストを含むデータを取得さ
せる；ｂ）各々のタンパク質についてタンパク質の系統分類プロファイルを形づく
るためにデータを比較させる、ここで、前記系統分類プロファイルが、前記タン
パク質の相同性に基づいて前記少なくとも２つのゲノムの各々における特定のタ
ンパク質族に帰属しているタンパク質の前記有無を示す；そして、ｃ）類似プロファイルに基づいて前記タンパク質の前記リストをグループ化
させる、ここで、類似プロファイルは機能的リンクを示す；ための命令を含むコンピュータプログラム。
【請求項５９】前記データは、１つ以上のデータベースに呈示される、請求項５８のコンピュータプログラム。
【請求項６０】前記データは、核酸またはアミノ酸配列の形である、請求項５８のコンピュータプログラム。
【請求項６１】任意の核酸配列は、前記コンピュータプログラムによってア
ミノ酸配列に変換される、請求項６０のコンピュータプログラム。
【請求項６２】前記比較はアルゴリズムによって実行される、請求項５８のコンピュータプログラム。
【請求項６３】前記アルゴリズムは、スミス−ウォーターマンアルゴリズム
、ニードルマン−ブンシュアルゴリズム、ＢＬＡＳＴ、ＦＡＳＴＡ、およびＰＳ
Ｉ−ＢＬＡＳＴから成る群から選択される、請求項６２のコンピュータプログラム。
【請求項６４】ステップ（ｂ）は、確率（ｐ）閾値を計算することによって
前記タンパク質の前記相同性の前記有意性を決定すること、を更に含む、請求項６３のコンピュータプログラム。
【請求項６５】前記確率の値は、実行されるべき配列比較の総数に基づいて
、前記値１／ＮＭに関して設定される、ここで、Ｎは前記第１の有機体のゲノム
のタンパク質数であり、Ｍは他のすべてのゲノムのタンパク質数である、請求項６４のコンピュータプログラム。
【請求項６６】前記有無は、進化の距離を計算することによってである、請求項５８のコンピュータプログラム。
【請求項６７】前記系統分類プロファイルは、ベクトル、マトリクスまたは
系統分類のツリーの形である、請求項５８のコンピュータプログラム。
【請求項６８】少なくとも２つのタンパク質の進化の距離を決定するための
方法であって：ａ）２つのタンパク質配列を整列すること；ｂ）条件付確率マトリクスp(aa→aa')を作成することによって進化確率プロセ
スを決定すること、ここで、aaおよびaa' は任意のアミノ酸であり、前記条件付
確率マトリクスは、対数奇数マトリクスから前記条件付確率マトリクスへアミノ
酸置換マトリクスを変換することによって作成される；ｃ）【数２】によって表される、前記２つのタンパク質配列の前記アラインメント中の、アミ
ノ酸の各々の整列された対に対して前記条件付確率の前記積をとることによって
、前記作成された条件付確率マトリクスの観測されたアラインメントを計数する
こと；そして、ｄ）パワーの式から進化の距離αを決定すること、すなわち、Ｐを最大にす
るように、p'=p^α(aa→aa')を計算すること；を含む。
【請求項６９】前記条件付き確率マトリクスは、固定した時間間隔全体にわ
たって置換率を有するマルコフ過程によって定義される、請求項６８の方法。
【請求項７０】アミノ酸置換マトリクスから条件付き確率マトリクスへの変
換が、【数３】によって表され、ここで、ＢＬＯＳＵＭ６２は、アミノ酸置換マトリクスであり
、Ｐ(i→j)は、ＢＬＯＳＵＭ６２スコアに従って、アミノ酸iがアミノ酸ｊに点
変異によって置き換えられる確率である；請求項６８の方法。
【請求項７１】Ｐjはアミノ酸ｊの存在度であって、次式の正規化状態によ
って与えられる複数の線形方程式を解くことによって計算される、【数４】請求項６８の方法。
【請求項７２】コンピュータ可読の媒体上に記憶されるコンピュータプログ
ラムであって、少なくとも２つのタンパク質間の進化の距離を決定するために、
コンピュータ装置に：ａ）２つのタンパク質配列を整列させる；ｂ）条件付確率マトリクスp(aa→aa')を作成することによって進化確率プロ
セスを決定させる、ここで、aaおよびaa' は任意のアミノ酸であり、前記条件付
確率マトリクスは、対数奇数マトリクスから前記条件付確率マトリクスへアミノ
酸置換マトリクスを変換することによって作成される；ｃ）【数５】によって表される、前記２つのタンパク質配列の前記アラインメント中の、各々
の整列された対に対して前記条件付確率の前記積をとることによって、前記作成
された条件付確率マトリクスの観測されたアラインメントを計数させる；そして
、ｄ）パワーの式から進化の距離αを決定させる、すなわち、Ｐを最大にする
ように、p'=p^α(aa→aa')を計算させる；命令を含む。
【請求項７３】前記条件付き確率マトリクスは、固定した時間間隔全体にわ
たって置換率を有するマルコフ過程によって定義される、請求項７２のコンピュータプログラム。
【請求項７４】アミノ酸置換マトリクスから条件付き確率マトリクスへの変
換が、【数６】によって表され、ここで、ＢＬＯＳＵＭ６２は、アミノ酸置換マトリクスであり
、Ｐ(i→j)は、ＢＬＯＳＵＭ６２スコアに従って、アミノ酸iがアミノ酸ｊに点
変異によって置き換えられる確率である；請求項７２のコンピュータプログラム。
【請求項７５】Ｐjはアミノ酸ｊの存在度であって、次式の正規化状態によ
って与えられる複数の線形方程式を解くことによって計算される、【数７】請求項７２のコンピュータプログラム。
【請求項７６】少なくとも２つのポリペプチド間の機能的リンクを決定する
ための方法であって：ａ）複数のタンパク質の前記一次アミノ酸配列に多数の明らかに非相同であ
るポリペプチドの一次アミノ酸配列を整列させること；ｂ）かかる多数の明らかに非相同であるポリペプチドすべての前記一次アミ
ノ酸配列と、少なくとも１つのかかるタンパク質の前記一次アミノ酸配列との間
に見られる任意のアラインメントの対して、前記多数のポリペプチド間の機能
的リンクを示すような少なくとも１つのかかるタンパク質を同定する表示を出力
すること；ｃ）少なくとも２つのゲノムからのポリペプチドのリストを含むデータを得
ること；ｄ）各々のタンパク質についてタンパク質の系統分類プロファイルを形づく
るために少なくとも２つのゲノムから前記ポリペプチドの前記リストを比較する
こと、ここで、前記タンパク質の前記系統分類プロファイルは、各々の前記少な
くとも２つのゲノムの特定のタンパク質族に帰属しているポリペプチドの有無を
、前記ポリペプチドの相同性に基づいて示す；ｅ）類似プロファイルに基づいて特定のタンパク質族からの前記ポリペプチ
ドの前記リストをグループ化すること、ここで、類似プロファイルは、前記ポリ
ペプチド間の機能的リンクを表す；そして、ｆ）ステップ（ｂ）とステップ（ｅ）またはその両方において同定された機能
的リンクを、相関している発現のパターン、実験的に測定された相互作用、およ
び機能的関係によって同定された機能的リンクと比較すること、を含む。
【請求項７７】関連したタンパク質のネットワークとして前記機能的リンク
を表示することを更に含み：ｇ）機能的にリンクされたタンパク質が、他のすべてのタンパク質より互いに
密接するように、線図にすべてのポリペプチドを配置すること；そして、ｈ）機能的に関連したグループとして前記線図の群に落ち込むタンパク質を同
定すること；を含む、請求項７６の方法。