JP2005503535A

JP2005503535A - 分子相互作用ネットワークの予測方法

Info

Publication number: JP2005503535A
Application number: JP2002564586A
Authority: JP
Inventors: ルゼツキー，アンドレイ; ロ，シャウ−ホワ; ゴメス，シャウン，エム．
Original assignee: ザトラスティースオブコロンビアユニバーシティインザシティオブニューヨーク
Priority date: 2001-02-09
Filing date: 2002-02-11
Publication date: 2005-02-03
Also published as: WO2002065119A9; EP1360483A1; US20030068610A1; EP1360483A4; EP2051177A1; CA2437878A1; WO2002065119A1

Abstract

本発明は、保存された特徴の集合としての分子の表現に基づいて、生体ネットワーク内の未知の分子相互作用を同定する方法に関する。そのような分子には、タンパク質中のドメインおよびモチーフなどの保存された特徴の集合として表すことができるタンパク質および核酸分子などがあるが、それらに限定されるものではない。本発明の方法は、分子間の誘引確率を計算し、次に生体ネットワークの確率を計算する段階を有する。本発明の方法は種間で適用することが可能であり、その場合に、１種類または数種類の種からの相互作用データを用いて、生物内または生物間での分子間の分子相互作用を推定することができる。本発明の方法を用いて、薬剤スクリーニング標的として役立ち得る分子相互作用を確認することができる。

Description

【技術分野】
【０００１】
本発明は、保存された特徴の集合としての分子の表現に基づいて、生体ネットワーク内の未知の分子相互作用を同定する方法に関する。そのような分子には、タンパク質におけるドメインおよびモチーフなどの保存された特徴の集合として表すことができるタンパク質および核酸分子などがあるが、それらに限定されるものではない。本発明の方法は、分子間の誘引確率を計算し、次に生体ネットワークの確率を計算する段階を有する。本発明の方法は、複数種間で適用可能であり、その場合に１種類の種または数種類の種からの相互作用データを用いて、生物内または生物間での分子間の分子相互作用を推定することができる。本発明の方法を用いて、薬剤スクリーニング標的として役立ち得る分子相互作用を同定することができる。
【背景技術】
【０００２】
細胞生物学の進歩とともに、ゲノム配列決定における最近の成果によって、生命の調節機構についての理解が深まると期待されている。しかしながら、直線的で一次元の遺伝子配列から統合された多次元の代謝および調節ネットワークモデルへの切り替えはまだ行われていない。重要ではあるが、既知遺伝子とタンパク質との間の相互作用については相対的にほとんど理解されておらず、主要な問題点は、機序、速度、さらには遺伝子およびタンパク質の存在に関するデータがないことにある。例えば高スループットの、ツーハイブリッド研究および相補的相互作用データベースが発展することで進歩があったが、それらの分子相互作用ネットワークを総合的に理解できているわけではない。実際、そのような大規模ネットワークの分析の裏付けとなるだけの十分なデータベースが使えるようになったのはごく最近のことである（Uetz et al., 2000, Nature 403: 623-627; Xenarios et al., 2000, Nucleic Acid Res. 28: 289-291）。
【発明の開示】
【発明が解決しようとする課題】
【０００３】
相同性研究に関する特殊なデータベースが遺伝子発見プロジェクトで最近利用されるようになり、近年では単一の「検索配列」とデータベースとの比較を行うために設計されたBLAST（Basic Local Alignment Search Tool）系統のプログラム（Altschul et al., 1990, J. Mol. Biol. 215: 403-410; Altschul et al., 1997, Nucleic Acids Res. 25: 3389-3402参照）、通常はタンパク質モチーフまたはドメインを表す１組の配置された配列とデータベースを比較するための隠れマルコフモデル法の系統（例えば、Krogh et al., 1994, J. Mol. Biol. 235: 1501-1531; Grundy et al., 1997, Biochem Biophys. Res. Commun. 231: 760-6）および他の各種比較手段（Wu et al., 1996, Comput. Appl. Biosci 12: 109-118 ; Neuwald et al., 1995, Protein Sci. 4: 1618-1632; Neuwald, 1997, Nucleic Acids Res. 25: 1665-1677) のような多くの効果的な配列比較手段が開発されている。
【０００４】
他の研究グループは、タンパク質の構造および機能を比較するよう設計されたプログラムの使用による分子間の相互作用を把握することを目指している（Kazic 1994, In : Molecular Modeling: From Virtual Tools to Real Problems, Kumosinski, T. and Liebman, M. N. (Eds.), American Chemical Society, Washington, D. C. pp. 486-494; Kazic, 1994, In: New Data Challenges in Our Information Age Glaesar, P. S. and Millward, M. T. L. (Eds.). Proceedings of the Thirteenth International CODATA Secretariat, Paris pp. C133-C140 ; Goto et al., 1997, Pac. Symp. Biocomput. p. 175-186; Bono et al., 1998, Genome Res. 8: 203-210; Selkov et al., 1996, Nucleic Acids Res. 24: 26-28）。
【課題を解決するための手段】
【０００５】
本発明は、特徴の集合としての分子の表現に基づいて生体ネットワーク内の未知の分子相互作用を同定する方法であって、各特徴が別の特徴との特異的相互作用に関与するものである方法に関する。簡潔に言えば、本明細書において本発明は、タンパク質相互作用に関して説明される。しかしながら、本発明の方法は別の種類の分子相互作用を同定するのにも用いることができる。
【０００６】
本発明の１実施形態では、保存されたドメインおよびモチーフの集合としてのタンパク質の表現に基づいて生体ネットワーク内の未知の分子相互作用を同定する方法であって、各ドメインが別のドメインとの特異的相互作用に関与する方法が提供される。特異的ドメイン−ドメイン相互作用が既知のタンパク質相互作用内で起こる頻度を特徴付けることにより、本発明の方法によって所定のドメインを有するいずれか２種類のタンパク質間での任意の相互作用に対して確率を割り当てることができる。ドメイン相互作用データには、生体ネットワークのトポロジーに関する情報を補充することができ、そのデータは、生理的により現実的なトポロジーを示すネットワークに対してより高い確率を割り当てることで前記方法に組み込まれる。本発明の別の実施形態では、マルコフ連鎖モンテカルロ法をタンパク質集合間の介入の事後確率予測に用いることができ、それによって大きいデータ集合にそれを応用することができる。本発明の方法は、複数種間で適用することができ、その場合に１種類または数種類の種からの相互作用データを用いて、タンパク質間の相互作用を推定することができる。さらにその方法は同様に、DNA分子およびRNA分子などの核酸分子のような他の分子にも応用することができる。
【発明を実施するための最良の形態】
【０００７】
生体ネットワークは、一次相互作用要素としてタンパク質、核酸および小分子を含む。ある分子が別の分子と相互作用する能力を与える機能性領域は、ドメインまたはモチーフと称される。例えば、特異的タンパク質が結合しているDNAの部分配列は、タンパク質内での結合活性に関与するアミノ酸部分配列のように、ある種のドメインである。遺伝子は情報の受動的キャリアであり、しかも酵素RNA分子や構造RNA分子は比較的少ないことから、重要な生理機能の大半がタンパク質によって行われる。タンパク質間の相互作用は、「活動性」生理機能の大半に関与することから特に興味深いものである。現時点では、タンパク質−タンパク質相互作用も、かなりの量の裏付けとなる実験データ集合がある支配的な種類の相互作用である。一次構造のレベルではアミノ酸の直線配列であるが、機能レベルではタンパク質は、機能ドメインまたは保存モチーフに相当する部分に分割することができる。アミノ酸と同様、３種類のドメインが個別の「文字」であり、その組み合わせがタンパク質の形態および機能の多様性を生じる。
【０００８】
本発明の目的に関しては、タンパク質間の物理的相互作用が関与している場合と関与していない場合を含むタンパク質間のネットワーク連結の存在が、それぞれのドメイン構成の関数である。簡便のため、非タンパク質ネットワークのノードを単一ドメインタンパク質として扱う。ネットワーク経路方向で考えると、上流タンパク質のドメインは、下流タンパク質のドメインとの相互作用しやすい。物理的連結だけでなく、「相互作用」という用語は、ドメイン間のより一般的な関係、すなわち情報の流れを表すこともできる。本発明の方法は、ある相互作用ペアが有効であると確認されたら、自然とそれが同じ生物内ならびに他の生物での他のネットワークにおいて再度使用される傾向があるという仮定に基づいたものである。そこでその方法は、既知ネットワークから得たデータから、タンパク質中のあるドメインが別のタンパク質の上流または下流に隣接して認められる頻度を量化することに基づいたものである。次にその情報を用いて、未知の相互作用の確率を推定する。
【０００９】
5.1. 方法の説明
本発明は、各ドメインが別のドメインとの特異的相互作用に関与している保存されたドメインおよびモチーフの集合としてのタンパク質の表現に基づいて、生体ネットワーク内の未知の分子相互作用を同定する方法に関する。その方法は、一定数の頂点から認められる可能な全てのネットワークに対して確率を割り当てるものであり、実際のネットワークに代表的なものより多くの特徴を有するネットワークがより高い確率を有するような形で、各ネットワークに確率値を与えるものである。
【００１０】
本発明の方法は、有向グラフＧ＝＜Ｖ，Ｅ＞（式中、頂点Ｖはタンパク質に相当し、エッジＥはタンパク質間の相互作用に相当する）としてネットワークを表す段階を有する。ネットワークの各頂点は、１以上のドメインまたはモチーフからなり、それらはPfam（Bateman et al., 2000, Nucleic Acids Res. 28: 263-6）などのタンパク質ドメインの既存のデータベースとの比較によって同定される。既知ネットワークの２つの連結された頂点におけるドメインｄ_ｍおよびｄ_ｎの個別の発生頻度を用いて、「誘引」確率ｐ（ｄ_ｍ，ｄ_ｎ）を推定する。すなわち、これらドメイン間に有向エッジが認められる。以下で詳細に説明するように、これらの確率を用いて、個々のタンパク質−タンパク質相互作用の確率を求める。
【００１１】
この方法は、独立した２つの確率的段階を有するものであり、個々のネットワークの確率は、これら２つの段階に関連する確率の積として得られる。第１の段階では、全てのタンパク質ペアｉおよびｊを、「誘引」確率ｐ_ｉｊで互いに連結するか、あるいは確率（１−ｐ_ｉｊ）で互いに連結しないようにすることができる。全ての頂点ペアについて、仮想的にバイアスされたコインを投げ、各コインが特定のタンパク質ペアに固有のものであるとする機械によって、このプロセスが行われると考えることができる。それが表である場合、２つの頂点間にエッジが形成される。それが裏である場合、それは形成されない。各頂点におけるドメインについての事前の情報によってコインがバイアスされたとすると、一部のエッジは0.5より高い確率を有し（誘引）、一部のエッジでは0.5より小さくなる（反発）。｜Ｖ｜個の頂点を有するネットワークの場合、有向エッジを有する可能なネットワークは２^{｜Ｖ｜｜Ｖ｜}個ある。特定の組み合わせのエッジＥを有する単一のネットワークの確率は下記のように定義される。
【数１】

このプロセスを用いると、１組の頂点間でのエッジのいずれの構成に対しても確率を割り当てることができる。多くの高確率エッジを有するネットワークが、相対的に高い確率Ｐ（Ｅ）を有する。
【００１２】
第２の段階では、ネットワークを、それぞれが特定の「ネットワークトポロジー」に相当する有限数のビンに分類する。その場合、「ネットワークトポロジー」とは、ネットワークの各頂点から出入りするエッジの特定の分布と定義される。ある数の頂点に関して、同じトポロジーによって特徴付けられる多数のエッジ構成を有することが可能であることから、各ビンは同一トポロジーを有するネットワークの集合を表す。有向グラフにおける頂点の入エッジの数または入度は、その頂点を末端とする有向エッジの数である。同様に、頂点の出度は、その頂点で始まる有向エッジの数である。単一の有向エッジと連結した一対のタンパク質の場合、上流タンパク質は１個の出エッジを有し、下流タンパク質は１個の入エッジを有する。各ネットワークについて、出度がゼロ（ｎ_０ ^ｏｕｔ）、１（ｎ_１ ^ｏｕｔ）、２（ｎ_１ ^ｏｕｔ）などからｎ_Ｎ ^ｏｕｔ（下付文字はエッジ数であり、Ｎはグラフにおける頂点の総数である）までを有する頂点数を計算する。同様に、入度０、１、２・・・Ｎを有する頂点の数を計算することができる。１個のビンの中には、同じ組み合わせ｛ｎ_ｘ ^ｉｎ｝および｛ｎ_ｙ ^ｏｕｔ｝を有する全てのネットワークを加える。各ビンについて、サンプリング確率Ｐ（｛ｎ_ｘ ^ｉｎ｝，｛ｎ_ｙ ^ｏｕｔ｝）は、下記の積として計算されるものと定義される。
【数２】

式中、
【数３】

である。
【００１３】
確率分布π_ｘ ^ｉｎおよびπ_ｙ ^ｏｕｔは、それぞれｘ個の入エッジおよびｙ個の出エッジを有するネットワークの確率を与える。これらの分布については、下記で詳細に説明する。最後に、確率Ｐ（｛ｎ_ｘ ^ｉｎ｝，｛ｎ_ｙ ^ｏｕｔ｝）を有するビンのランダム（多項）サンプリングと、次にそのビン内からのネットワークのランダム（均一）サンプリングで第２段階を終える（図１参照）。トポロジーレベルでは、（ａ）タンパク質１がｎ_ｉの入力を有しタンパク質２がｎ_ｊの入力を有する場合と（ｂ）タンパク質１がｎ_ｊの入力を有しタンパク質２がｎ_ｉの入力を有する場合との間を識別することは困難である。むしろ、区別は個々のエッジのレベルで行う。各個々のエッジはそれに関連した確率を有することから、あるネットワークＰ（Ｅ）を構成する完全な組み合わせのエッジを有する。その同じ組み合わせのエッジＥが与えられると、ネットワークトポロジーが自動的に規定される。しかしながら、この特定のトポロジーの確率は別個に求められ、生物的に実際のものである場合と実際のものではない場合がある。トポロジー的にはそれらは同一であることから、上記の（ａ）と（ｂ）の間で区別を行う必要はない。しかしながら、個々のエッジのレベルではそれらは同一ではない。（ａ）および（ｂ）におけるこれら各エッジは、それらに関連する異なる確率を有し、恐らく（ａ）または（ｂ）の一つのバージョンが正しく、従って最も好ましいものである。
【００１４】
前記の２つの確率的段階の積が所定のネットワークをサンプリングする確率を与えることを検証するため、下記の等式を用いることができる。
【数４】

好ましい組み合わせのエッジＥおよび好ましいトポロジーの両方を有するネットワークが最も高い確率を有する。
【００１５】
留意すべき重要な点として、実際の生体ネットワークは、非常に膨大な任意のランダムネットワークからそれらを区別する非常に特徴的なトポロジーを有する。従って、タンパク質ドメイン相互作用についての情報が完全なものからほど遠い状況では、許容されるネットワークトポロジーに関する制限を用いて、そこに記載されたアルゴリズムの予測能力を向上させる。
【００１６】
タンパク質は、各個々のドメインペアｄ_ｍおよびｄ_ｎが誘引確率ｐ（ｄ_ｍ，ｄ_ｎ）を有する「ドメイン集合」と見る。ｐ（ｄ_ｍ，ｄ_ｎ）＞0.5の場合、ドメインは互いに「引き合い（誘引）」、ｐ（ｄ_ｍ，ｄ_ｎ）＜0.5の場合にはドメインは互いに「反発する」。複数ドメインタンパク質ｉおよびｊのペアを考えると（ここで、ｖ_ｉおよびｖ_ｊは、各タンパク質におけるドメインの組み合わせである（ｉ番目のタンパク質が同じ種類の複数のドメインを有している場合であっても、各種類のドメインはｖ_ｉにおいて１回以下である））、これらタンパク質間の誘引確率（＝エッジ確率）は、ドメイン誘引確率に関して、次のように与えられる。
【数５】

このエッジ確率の定義は、頂点から出入りするエッジの数が相互作用するタンパク質のいずれかにおける別個のドメインの数と相関していない限りにおいて妥当である。
【００１７】
研究文献で発表されているタンパク質間の相互作用は、かなり異なる信頼性を有する。それは一部には、実験の否定的な結果を発表することが一般的ではないためである。その結果、タンパク質間に相互作用が存在することは多くの実験によって裏付けられるのが普通であるが、相互作用がないことは失敗実験とされたり、あるいは実験が全くなかったものとされる場合がある（この所見からの唯一の例外は、肯定的および否定的両方の全ての結果が報告される徹底的な２ハイブリッドスクリーニングである）。従って、２つのドメイン間での「誘引」の確率は、連結の非存在はデータなしと処理するが、既知の連結のカウントを用いて確率を推算するという形で計算すべきである。すなわち、ドメインｄ_ｍおよびｄ_ｎについて、誘引確率は下記式のように計算される。
【数６】

式中、Ψは正の実数値擬似カウントであり；ｋ_ｍｎは、エッジ始点の頂点に少なくとも１個のドメインｄ_ｍとエッジ終点の頂点に少なくとも１個のドメインｄ_ｎを有するトレーニング組み合わせにおけるエッジ数であり；ｋ_ｍは、少なくとも１個のドメインｄ_ｍを有する別個の頂点の数であり；ｋ_ｎは、少なくとも１個のドメインｄ_ｎを有する別個の頂点の数である。本明細書においてはΨ＝１を選択しているが、それは前の値が大きく変わる前により多くの量のデータを蓄積したい場合には、その値を増加（または減少）させることができる。例えば、ドメインｍを有する２つの上流タンパク質およびそれぞれに対してドメインｎを有する２つの下流タンパク質がある場合、タンパク質ドメインとエッジの存在の間の完全な一致によって、ｋ_ｍｎ＝４（全ての可能なエッジが存在する）、ｋ_ｍ＝２、ｋ_ｎ＝２およびｐ（ｄ_ｍ，ｄ_ｎ）＝0.9（Ψ＝１と仮定）となると考えられる。
【００１８】
その結果、この式は、既知の連結を有するエッジに対して50％より高い確率を割り当て、既知の連結を持たないエッジには50％に等しい確率を割り当てるものである。実験的所見がない場合には（ｋ_ｍ＝ｋ_ｎ＝ｋ_ｍｎ＝０）、いずれかの２つのドメイン間のエッジ形成の確率は正確に50％であり、従って各タンパク質におけるドメイン数とは無関係に、２種類のタンパク質間でのエッジ形成において50％の確率となる。データがないと、全てのネットワークが非ゼロの確率に割り当てられる可能性がある。そのモデルによって可能であるが、現在の方法（具体的には、式６）では、ドメイン−ドメイン相互作用に対して0.5未満の確率は生じない。確率範囲は０〜１で拡大できると考えられるが、0.5〜１の圧縮スケールは結果に影響しない。さらに、ドメイン間の「反発」効果をモデル形成するために適切なデータの集合（例えば、否定的な実験結果、適切なツー・ハイブリッドデータなど）を０〜0.5の範囲と組み合わせることで、この方法に変更を加えることができる。
【００１９】
本発明の方法は、｜Ｖ｜個の頂点を有する全ての可能なネットワークに対して確率を割り当てるものである。この確率は、局所および全体の両方のネットワーク特性に基づいたものである。局所レベルでは、別の頂点と相互作用を有する頂点の確率は、それぞれのドメイン構成に依存する。トレーニングデータによって以前決定したように、一つのタンパクにおけるドメインの組み合わせが別のタンパク質のものと引き合う可能性がある場合、２つの頂点間に存在するエッジの確率は、0.5より大きい値まで上昇する。上流と下流の両方の頂点に含まれるドメインの組み合わせについての相互作用の尤度に関して情報が得られていない場合、それら２つの間でのエッジ形成の確率は0.5とされる。そのネットワークの確率（専ら局所特性に基づいたもの）を、実際の生体ネットワークをどの程度良好に表すかに基づいて変える。例えば、生物学的により現実的なトポロジーを有するネットワーク（頂点当たりの入エッジおよび出エッジの分布）が相対的に高い尤度が与えられる。あるネットワークの確率は、局所確率と全体確率の両方の積である。
【００２０】
5.2. 実際のネットワークのトポロジーに関連するパラメータの推算
DIPデータ集合からのパラメータ｛π_ｘ ^ｉｎ｝および｛π_ｙ ^ｏｕｔ｝を計算したところ、両方の集合についての推定値は指数則分布に従うことが認められた（図３）。それは、対数座標では、頂点当たりの連結数とその多くの連結を有する頂点の割合との間の関係が、入エッジと出エッジの両方で直線であることを意味している。その指数則分布は、無スケール系の特徴である。それらの系は、スケール変化に対して不変の特性または挙動を有する。この現象は図４に示されており、その場合、基準対象を用いずに対象（この場合、カリフラワー）のスケールを決定することはできない。その特性は、社会的ネットワークおよび非生体ネットワークなどのネットワークでも認められている（Albert et al. 2000 Nature 406: 378-382 ; Barabasi and Albert, 1999 Science 286: 509-512）、その場合にｋ個の入エッジまたは出エッジを有する頂点の確率は、下記式によって与えられる。
【数７】

ただし、入エッジと出エッジについてγとｃの値は異なっている。ネットワークの出エッジの場合、対数スケールでの線形適合によって、ｃ＝0.30およびγ＝1.97の推定値が得られ、入エッジはｃ＝0.56およびγ＝2.80で分布する。本明細書に関しては、非ゼロのｋについてのみ指数則を用いた。π_０ ^ｉｎおよびπ_０ ^ｏｕｔの値は次のように計算した。
【数８】

あるネットワークの尤度に対するネットワークトポロジーの影響の例を図５に示してある。
【００２１】
６．例：タンパク質−タンパク質相互作用の予測
本明細書に記載のモデルの有効性を調べるため、多数の既知タンパク質−タンパク質相互作用を有するネットワークを用いた。本明細書では、相互作用タンパク質のデータベース（DIP；http://dip.doe-mbi.ucla.edu/）（Xenarios et al., 2000 Nucleic Acids Research 28: 289-291）から取ったサッカロミセス・セレビシエ、タンパク質−タンパク質相互作用を用いた。この分析時に2015個のドメインを照会した公開ソフトウェアツールであるhmmpfam（Bateman et al., 2000 Nucleic Acids Research 28: 263-6）を用いたタンパク質配列の分析によって、各相互作用に関与するドメインを決定した。計638のタンパク質−タンパク質相互作用（いずれも、少なくとも１個のドメインを有する）を分析し、それを用いてドメイン−ドメイン相互作用確率を求めた。ネットワークエッジ分布に対する頂点除去の効果を調べるのに用いたデータ（この場合、無向タンパク質−タンパク質相互作用のリスト）は、フィールズ・ラブ（Fields Lab）のホームページ（http://depts.washington.edu/sfields/）から得た。
【００２２】
酵素タンパク質ネットワークはスケールなしである。ネットワーク内のエッジ種類の分布について認められる指数則挙動がスケールなしの系を示唆することが知られている。別の検証手段を提供するため、大きいネットワーク（1823個の頂点）の値γを求めた。次に、200回の反復について、30個の頂点を無作為にネットワークから除去したブートストラップ法を行い、γ値および95％信頼区間をそれぞれについて求めた。それが完了した後、60個の頂点を除去し、そのプロセスを繰り返した。ネットワーク中の計113個の頂点を用いて最終的に200回の反復を行うまで、それを繰り返した。γに対する頂点除去の効果を図６に示してあり（γの平均および95％信頼区間を示してある）、そのネットワークが顕著にスケール一定であることが示されている。それは、ネットワークの小さい部分のトポロジーに関して知見が得られることで、完全なネットワークのトポロジーを推定する上での信頼性の高い手段が提供されるはずであることを示唆している。
【００２３】
交差バリデーション
交差バリデーションを用いて、ネットワーク構成全体を予測する上でのモデルの有効性を確認した。交差バリデーションは、統計アルゴリズムの有効性（従って、妥当性）を評価する一般的な方法である。その方法では代表的には、データ集合を２つの互いに非同一である小集合に分割し、そのうちの一方をトレーニング用に用い、他方をモデルバリデーションに用いる。完全なネットワークから１個の所定のエッジを除いたものからなる交差バリデーションのジャックナイフバージョンを用いた。完全なグラフ（モデルバリデーションデータ集合）の尤度を、１個のエッジを除いた完全グラフのものと比較した。完全ネットワークの尤度が低減ネットワークのものより大きかったら、そのエッジは肯定的と予測されると見なした。全てのエッジを検討するまで、この段階を繰り返し行った。被験ネットワークの分析から、そのモデルによって試験に用いた642個の既知エッジの93％が予測され、残りの７％が誤って否定的となることが明らかになった。偽肯定の割合も同様に、完全な既知ネットワークを用いて開始し、非連結頂点間に１個のエッジを加えるようにすることで〜10％と推定された。留意すべき点として、この偽肯定の評価基準は、真のネットワークに含まれない全てのエッジが存在しないはずであると仮定している。現在、存在しているとしても、偽肯定エッジのどれが真であるが現在未知である連結に相当するかを決定することはできない。トレーニング集合により多くのデータを包含させることで、さらに高い正確さを得ることはできるはずであるが、その結果は、モデルが妥当であり、妥当に正確な予測を行うことができることを示すものである。
【００２４】
マルコフ連鎖モンテカルロ
ほぼ全ての種において、生体経路内の多くの相互作用が現在未知である。本発明の方法によって１組の頂点を連結するエッジの全ての可能な配列についての確率を計算することができることから、マルコフ連鎖モンテカルロ（MCMC）シミュレーション手法（Gilks et al, （編者）, Markov chain Monte Carlo in Practice. Chapman & Hall, New York; Hastings, 1970 Biometrika 57: 97-109）を行うことができ、それによって厖大な数の可能なネットワークから効果的にサンプリングしながら、全てのエッジについての事後確率を計算することができる。
【００２５】
異なるネットワークを代替統計モデルとして処理して、ベイズのモデル選択に代表的である可逆ジャンプ法（Green, 1995 Biometrika 57 82 : 711-732）を実行した。追加情報がなければ、あるネットワークを別のネットワークより優先する理由がないことから、全てのネットワークについて均一な事前分布を選択した。任意のネットワークから開始して、アルゴリズムが等しい確率で、所定数のエッジを追加または除去する。追加または削除されるエッジはそれぞれ、選択されるエッジ数のみによって決まる所定エッジの選択確率を用いて、現在のネットワークから選択または除外されるエッジ群からサンプリングされる。このようにしてエッジを追加または除去して、システムはネットワークＸからネットワークＹにジャンプする。仮定された新たな状態Ｙを、仮定分布ｑ（ｂ｜ａ）からサンプリングする。次に、その新たなネットワークＹは下記の確率で許容される。
【数９】

式中、Ｌ（．）は所定のネットワークの尤度である。仮定された新たな状態が許容されるものである場合、ネットワークＹが現在のネットワークとなる。そうでない場合は、以前のネットワークＸが現在のモデルとして残る。この確率的プロセスは可能なネットワークの空間全体を移動し、概してそのエッジが正しいネットワークに存在するか非存在であるかの事後確率に比例して、オンまたはオフ状態に各エッジを維持する。
【００２６】
小スケールの例として、群の少なくとも１つの他の構成員と相互作用することが知られている11種類の酵母タンパク質の群を選択し、エッジの予測を試みた（図６）。ドメイン−ドメイン相互作用のみに基づいた所定のエッジの確率を、図中ａに示してある。留意すべき点として、（７，１）（ｘ軸，ｙ軸）を除く全てのエッジが生データに認められる。シミュレーションによって計算された事後確率を図中ｂに示してあり、（10，１）を除く全ての既知エッジが高信頼性で予測されている。この結果は図６ａのサンプリングバージョンであるだけでなく、むしろネットワークのトポロジーに対してエッジ分布によって加えられた制限を組み込んでいる。そこで、エッジ（７，１）および（10，１）は、ドメイン−ドメイン相互作用確率が低く、エッジ分布の影響があるために、高信頼性では裏付けられない。トポロジー制約の効果も認めることができ、低い確率の領域（例：（４，８）の付近）は高確率エッジをすでに有するタンパク質と関連している。第２のエッジの追加は可能性が低い。非対称パターンであるのは、出エッジ分布と入エッジ分布の間の差によるものである。これらは可能性の低いエッジとは容易に区別されるが、全ての可能性があるエッジが比較的低い事後確率を有する。
【００２７】
非常に小さい系では、所定の組み合わせの頂点間でのエッジ確率を見るだけで、非常に多くの情報を得ることができ、トポロジー情報由来の追加情報はほとんどない。しかしながら、本明細書に記載のMCMC法の使用は、大きいネットワークの予測に特に貴重であるはずである。この大きいネットワークでは、複雑なドメイン構造を有する（例えば、比較的高等な生物のもの）多量のタンパク質相互作用データおよび計算上かなりの数のネットワークトポロジーが普通である。
【００２８】
ドメイン−ドメイン相互作用情報利用のさらに別の例として、ヒトアポトーシス経路において機能することが知られている10種類のタンパク質を、KEGGデータベース（Goto et al., 1997 Pac Symp Biocomput 175-86）から選択した。図７から明らかなように、酵母トレーニングデータからは裏付けられるエッジはほとんどなかった。しかしながら、最も強く予測される相互作用は、それ自体と相互作用するApaf-1のものであった。信号伝達の文献を検索したところ、Apaf-1が実際に自己会合することが明らかになった（Benedict et al., 2000 J. Biochem Chem 275: 8461-8 ; Hu et al., 1998 J. Biol Chem 273: 33489-94）。現時点では、この会合は未知であり、KEGG内には記載されていなかった。その既知のネットワークを予測することはできないが、この例はトレーニング用に利用可能なドメイン−ドメイン相互作用データの量が少ないことを考慮すると顕著なものであり、生物間での相互作用を予測する上でこの方法を利用可能であることを示すものである。より複雑な生物からの相互作用の蓄積によって、これらの予測がかなり強化されるはずである。
【００２９】
ドメイン構成およびネットワークトポロジーの簡単な概念に基づいて、本発明により、所定の種内で、さらには可能性として種間で、既知および未知の両方のタンパク質相互作用に関して特性決定および予測の両方を行うことができる。前記のマルコフ連鎖モンテカルロ法は、指定ネットワークデータの事後確率を計算する計算上可能な方途を提供するものである。
【数１０】

さらに、遺伝子アルゴリズム、尤度最大化およびアニーリングシミュレーションを利用する方法を用いて、ネットワークの事後確率を計算することができる。そのような方法は当業者には公知である。全ての可能なネットワーク全体にわたって均一な事前分布が仮定されているが、本方法ではそれは必要ない。さらに、（事前情報の形での）別の情報を、それが利用可能となったら計算に加えることができる。
【００３０】
調節経路の研究において、本発明の方法によって、いくつかの最も可能性が高い仮説を確認することで、必要な実験の数を大幅に減らすことができると考えられる。そのような実験分析はそれ自体、モデルの妥当性評価を行う経験的方法であり、同様にバリデーションのための実験を設計する上で役立ち得るものである。改善される点としては、追加の相互作用データおよびタンパク質部分への割り当てのための追加ドメインの導入などがあると考えられる。本方法はさらに、ドメイン−ドメイン相互作用に対して0.5未満の確率を許容することで実行される反発力効果の導入を可能とすることによって、さらに強化することができる。この情報は、実験（過去および将来）ならびにその分野での専門家から収集することができる。さらに、非タンパク質系物質および小分子を特性決定するための擬似ドメインの作成によっても、ネットワーク内でのそれらの分析が可能になると考えられる。
【００３１】
各種分子パラメータに関するデータ（例：速度定数）がないにも拘わらず、この詳細レベルでのモデル化によって、かなりの効果を得ることができる。例えば、フォン・ダッソウら（Von Dassow et al., 2000 Nature 406: 188-92）は最近、ショウジョウバエ内での部分極性ネットワークのシミュレーションについて非線形微分方程式モデルを報告している。驚くべきことに彼らは、このネットワークの性能が特定の動力学的パラメータの値によって決まるのではなく、ネットワーク自体のトポロジーによって得られた安定性によって決まることを見出した。
【００３２】
特に興味深いものは、頂点の連結性が指数則分布に従い、スケールなしの挙動を示すように思われるという所見である。そのような挙動は、新たに追加されるタンパク質がネットワークに連結される箇所が、予め確立された連結の数が多いタンパク質で優先的に生じることを示唆している（すなわち、「富む者がますます富む」現象）。この現象は、代謝ネットワーク内で認められており、最も最近では、ジェオンら（Jeong and colleagues）による研究でも、本明細書に記載の酵母内でのタンパク質−タンパク質相互作用ネットワークのスケールなし特性が示されている（Jeong et al., Nature 411: 41-42; Jeong et al., 2000 Nature 407: 651-4）。多数の連結の存在は、基本的により重要な、またはより多用途のタンパク質機能を示し得る。可能な現実の例にはタンパク質p53がある。
【００３３】
７．例：ヒトタンパク質−タンパク質相互作用の予測
サッカロミセスセレビジエおよびホモサピエンスの両方についてのタンパク質−タンパク質相互作用データの組み合わせデータベースを用いた。Pfamデータベース（Pfam 6.2；2773個のドメイン）およびHMMERパッケージを用いて、各タンパク質内のドメインを決定した（0.01有意性閾値）。その酵母データについては、スタンレー・フィールド・ラブ（Stanley Field′s lab）のホームページ（http://depts.washington.edu/sfieldst）からダウンロードした総合的相互作用リストを用いた。このデータには、多くの入手源からの相互作用が含まれていた（Xenarios et al., 2001 Nucleic Acids Research 28: 289-91; Ito et al., 2000 Proc. Natl. Acad Sci. USA 97: 1143-7; Uetz et al., 2000 Nature 403: 623-7）。酵母から計708種類のタンパク質−タンパク質相互作用を分析し、その全てが少なくとも１個のドメインを有していた。ヒトデータについては、ミリアッド・ジェネティックス・プロネット・オンライン（Myriad Genetics Pronet Online）ウェブサイト（http://www.meriad-pronet.com/）からダウンロードした778種類の相互作用の集合を用いた。分析においては、連結されたネットワークを形成することがわかっており、元のトレーニングデータ集合に含まれていない40種類のヒトタンパク質の集合における相互作用を予測することを試みた。
【００３４】
一部のタンパク質がアポトーシスのプロセスに関与しており、完全に連結されたネットワークを形成すると知られる40種類のヒトタンパク質の集合間での相互作用を予測することを試みた。ネットワークの全てのタンパク質が少なくとも１個のドメインによって規定されなければならないという要件を除き、このネットワークを無作為に選択した。この分析で使用したタンパク質（および全ての図におけるそれらの表示）は、１）ANT2、２）APP（695）、３）B-CAT、４）BAG3、５）BAK、６）Bax-β、７）Bcl-xL、８）BCL2A1、９）Bc12-α、10）カルセニレン（Calsenilen）、11）CAV1、12）CHIP、13）CIB、14）D-CAT、15）DRAL、16）FLN1、17）FLNB、18）GAPCenA、19）GDI1、20）GDI2、21）GGTB、22）GTPBP1、23）HSPA4、24）HSPA8、25）KSR1、26）MCL1、27）MRJ、28）PSAP、29）PKP4、30）PLCG1、31）PS1（467）、32）PS2（448）、33）QM、34）RAB11A、35）RAB3A、36）RAB5A、37）RAB6、38）RAB6KIFL、39）TF、40）TTC1である。
【００３５】
ドメイン−ドメイン相互作用データのみに基づいたエッジ確率によって、97個のエッジが確率＞0.5を有することが示された（図９参照）。エッジが有向性ではなく、従ってここで示されたマトリクスが対称であると推定された。計44個のエッジが元のデータ集合にあった。これら44個のエッジ中、８個が確率＞0.5で予測された97個の中に認められる。８種類の相互作用からの３種類が、熱ショック経路に関与していた（図において（Ｙ軸，Ｘ軸）として読む）。それらはCHIP（12，12）自己相互作用、HSPA8-MRJ（24，27）およびHSPA8-PLCG1（24，30）であった。残りの５種類は、FLN1-KSR1（16，25）、PS2-CIB（32，13）、GDI2-RAB6（20，37）、RAB6-GAPCenA（37，18）およびRAB6-RAB6KIFL（37，38）などであった。
【００３６】
残りの89個の予測されたエッジのいずれが既知エッジを表すかを同定するため、簡単な文献検索を試みた。これらの結果を十分に評価するには、所定の経路においてかなりの専門知識が必要とされる場合が多いが、明らかな成功が得られる可能性がまだあった。Rabl11A、Rab3A、Rab5AおよびRab6（それぞれ頂点34、35、36、37）と相互作用するGDI1（グアニンヌクレオチド解離阻害剤、頂点19）の予測は実際に正しく、やはり元データにはない（Hutt et al., 2000 J. Biol Chem 275: 18511-9 ; Wu et al., 1998 J. Biol. Chem 273: 26931-26938; Ullrich et al., 1993 J. Biol. Chem 268 : 18143-50）。
【００３７】
テトラトリコペプチドドメインが一般的なタンパク質−タンパク質相互作用モチーフであり、多くのTPR含有タンパク質が熱ショックタンパク質ファミリーの構成員と相互作用することが知られていることから（Ballinger et al., 1999 Mol Cell Biol 19: 4535-45）、TTCI（テトラトリコペプチド反復ドメイン１）（12，40）と相互作用するCHIPの予測も理解できるものである（正確な予測ではない可能性があるが、それは元データでも疑問のある可能性がある）。純粋に推測的なものであるが、最近、フィラミンがカルシウム受容体および他の細胞信号伝達タンパク質と相互作用する骨格タンパク質であることが明らかになっていることから（Awata et al., 2001 J. Biol. Chem 4: 4）、CIB（カルシウムおよびインテグリン結合）タンパク質のFLN1（フィラミン）との相互作用は興味深いものである。
【００３８】
ネットワーク内の全てのエッジの事後確率を計算するためのマルコフ連鎖モンテカルロ（MCMC）シミュレーション手法（Gilks et al., 1996 Markov chain Monte Carlo in Practice New York : Chapman & Hall/CRC ; Hastings, 1970 Biometrika 57: 97-109）を用いた（プログラムについては、添付資料Ａ参照）。この手法は複雑な分布から事後情報を得る上で特に有用であり、それによって厖大な数のネットワーク構造（｜Ｖ｜個の頂点について、２^{｜Ｖ｜｜Ｖ｜}個の可能なネットワークがある）から十分なサンプリングを行うことができた.。この手法では、あるネットワークを別のネットワークより優先させると考えられる事前情報が知られていないことから、全てのネットワークにわたって均一な事前分布を用いた。任意のネットワークから開始し、可逆的ジャンプ法（Green, 1995 Biometrika 82: 711-732）を用いて、アルゴリズムの各反復でエッジの追加および除去の両方を行った。エッジの追加および除去によって、ネットワークは現在の状態Ｘから提案の状態Ｙに移動する。対称な提案分布を用いると、その新たな状態は下記の確率で許容される。
【数１１】

式中、Ｌ（．）はネットワークの尤度である。仮定の状態が許容される場合は、それが現在の状態となる。そこでこの方法は、事後確率に比例して各エッジを経時的に占有または非占有に維持しながら、全ての可能なネットワークの空間からネットワークをサンプリングするものである。
【００３９】
約10^７個のサンプルから得られた事後分布を図10Ａ〜Ｂに示してある。図10Ａでは、いくつかのエッジが容易に見られることが認められ、周囲のバックグラウンドからかなり高い。２つの最も高いピークは、HSPA8-MRJ相互作用のものである。これらのようなエッジはシミュレーションでただちに現れるが、低確率のエッジは、バックグラウンドからそれらを識別するにはかなり多くの量のサンプリングを必要とし得る。図10Ｂには、ネットワークの各エッジについての事後確率を示してある。頂点20および27を水平方向に走り、垂直方向には頂点27に平行に走っている低い方の確率（「暗い方」）「線」は、非対称エッジ分布の影響を示している。例えば、頂点27は高い確率連結を有することから、そのエッジ分布は新たなエッジの追加を同一頂点に抑制する傾向がある。当然のことながら、いずれの頂点も複数の入エッジおよび出エッジを有し得る。しかしながら、これらネットワークのスケールなし性のため、高度に連結された頂点は相対的に希である。
【００４０】
方法の説明で議論したように、現在は、多項分布を用いてネットワークの各頂点から出入りするエッジの分布を特徴付けており、ビン確率は酵母データへの適合から得たものである。例えば代謝ネットワーク（これも指数則挙動に従う）からのエッジ分布が種間で非常に類似していることが明らかになっていることから（Jeong et al., 2000 Nature 407: 651-4）、至適ではないが、酵母パラメータの使用は許容される初回通過試行であると思われた。理想的には、多くの種について分布を得たくなるものと考えられる。しかしながら、合理的に大きいデータ集合がないことが障害となり得ると思われ、不適切なエッジ分布によって、特に種間の予測において他の方法では認められると考えられる相互作用が隠されるかもしれない。従って、同じ平均を有するが分散が大きい分布では、十分に特性決定された系（例：酵母）からのパラメータを用いる。この要件は、下記式で定義されるシミュレーションに、負の多項分布（多項分布に代えて）を組み込むことで達成することができる。
【数１２】

図11Ａ〜Ｂでは、異なるパラメータPiを有する負の多項分布を示してあるが、図11Ｃには多項分布を示してある。Piを上昇させることによって、図11Ｃに示した多項分布と同じ期待値を維持しながら、分布の分散を上昇させることが可能であることがわかる。しかしながら、期待値を一致させることができるが、多項分布以上の分散のみを得ることができる。それは、分散が低下するに連れて負の二項分布がポアソン分布となる傾向があり、ポアソン分布は同じ平均を有する多項分布より大きい分散を有するのが普通であるためである。
【００４１】
実施の観点からすると、この手法は大きいネットワークを扱うことができる一方で、適切な計算情報源を使用することでかなり有効である。マットラブ（Matlab）における本発明者らの過去の実行よりかなり迅速であることが明らかになっている本発明の方法のＣプログラミング言語実行を行う。さらに、各ノードが２，１GHz CPOを有する５ノードのベオウルフ（Beowulf）クラスター実施（running）リナックスを有することが有利である。定常分布を確立し（この場合は１〜２日間）、事後分布を得る（低確率エッジの分解能を有する事後分布を得るには多くの日数）のにかなりの時間を要する可能性があることから、適切なハードウェアおよびソフトウェアが利用可能であることが非常に重要であった。
【００４２】
本発明の方法を改良するための一つの手段は、ドメイン間の「反発」相互作用を実行することである。それは、＜0.5のドメイン−ドメイン相互作用確率を決して存在しない相互作用に割り当てることで達成することができる。注意深い正規化と「魅力的な」確率とのバランスを取ることが必要であるが、その特徴は予測相互作用の高分解能（事後プロットにおける、相対的に大きいピークおよび深い谷）を提供するはずである。自体の好ましい特性および好ましくない特性の集合を有するが、ツーハイブリッドデータはこの手法に特に貴重であることがわかるはずである。
【００４３】
８．例：パラメータ推定の最新の方法
以下の例は、本発明の好ましい実施形態を例示するものである。この例では、下記式：
【数１３】

を用いずに、古い方法と比較してトレーニングデータから少なくとも２倍の情報を抽出できるようにするパラメータ｛ｐ_ｉｊ｝およびｐ（ｄ_ｒ，ｄ_ｓ）を推定するさらに最新の方法を用いた。
【００４４】
この例では、Ｐ（局所）の計算での３種類の異なるレベルのタンパク質構造を考える。最も高いレベルはPfamドメインに相当する。そのドメインは特異的であり、比較的長いことから、所定のタンパク質群内にあることは非常に希である。サッカロミセス−セレビジエ（パン酵母）プロテオームを試験系として用いて、0.001e−値カットオフレベルでHIMMER-2パッケージを用いて少なくとも一つのPfamドメインを有するタンパク質の特性決定を試みた（Eddy, 1998 Bioinformatics 14: 755-63）。少なくとも一つの相互作用を有することが知られている1771個のタンパク質を含むデータベースについて（スタンレー・フィールド・ラブ（Stanley Field′s lab）のホームページ：http://depts.washington.edu/sfields）、全ての酵母タンパク質の約30パーセントにおいてPfamドメインを提供することが可能であった。
【００４５】
最低レベルは、タンパク質の全長にわたる実行ウィンドウで認められる４つの隣接するアミノ酸に相当する。特徴空間の大きさを小さくするため、６個の「文字」からなる相対的に小さいアルファベットに20種類のアミノ酸をマッピングした（表１）。このマッピングは、テイラーのアミノ酸分類（1993, J Theor Biol 164: 65-83）に基づいたものであり、同様の物理化学特性を共有するアミノ酸は一緒に分類されている。このマッピングから、６^４＝1296個の固有の４元タプルを得ることができた。
【００４６】
表１：アミノ酸の群番号へのマッピング。特徴分類は、群の一般的特性を説明するものである。
【表１】

中間スケールの特徴は、やはり全タンパク質に広がる実行ウィンドウから取った10種類の隣接アミノ酸からなるものであった。この場合、正電荷、負電荷、疎水性、両親媒性、プロリン豊富性およびセリン豊富性などの６種類の特定の特性を見た。各10merについて、それら各特性の密度および６種類の各特性の強度を含めて得られる６要素の特徴ベクトルを分析した。この特徴ベクトルから、２種類の最も代表的な特性を選択して、その特定の10merを表し、複数の同じ最初の特性を有するベクトルがアルファベット順で選択される最初の２つの特徴を有するようにした。留意すべき点として、この表し方は10mer内のアミノ酸の順序に関して特有のものではなく、最初に１組の特性の密度を説明し、次にその10merに対して最も良好な２つのみを割り当てるものである。本明細書に記載のスケールおよび特徴は、各種の生物学的に妥当な方法で容易に選択されうるものと考えられる。例えば各アミノ酸ならびに各10merについて測定された疎水性、表面張力などの具体的な程度などによって、中間スケールを再調整することができると考えられる。選択される特徴は必ずしも至適なものではないが、現在の実行により、この分析レベルには十分な詳細データが得られる。
【００４７】
表２： 10 量体ウィンドウで認められるアミノ酸群についてのスコアの決定
「ｘ」は、所定の特徴群に入るアミノ酸の数である。
【表２】

相互作用の確率を次のように割り当てた。前述のように、何らかの組み合わせの特徴が、相互作用ペアにおける各タンパク質内で認められる相互作用に関与すると仮定した。その相互作用を生じる特徴の具体的なペアを確認し、次に情報がないタンパク質についての予測にその情報を翻訳するため、既知配列を有するタンパク質間の多数の既知相互作用からなるトレーニングデータを用いた。このトレーニングデータを用いて、相互作用する可能性があるタンパク質の特徴集合に関する分析に基づいて、１組のタンパク質間に相互作用が存在するか否かを推定することを試みた。留意すべき点として、タンパク質−タンパク質相互作用確率の割り当ては、過去の作業に関係するものであって、ここではトレーニングデータからの肯定（存在する相互作用）と否定（相互作用不在）の両方の情報を利用しているが、本明細書に記載の他の形態の手法では、否定の情報は廃棄している。
【００４８】
このモデルは、相互作用データが存在しない場合には、いずれの特徴ペアも0.5の確率で相互作用するように設定した。このモデルでは、この特徴−特徴相互作用の確率が0.5未満であるということは、特徴が「反発する」ことを示し、0.5より大きい確率は特徴が「引き付ける」ことを示している。互いに相互作用する一対の特徴（ｄ_ｉ，ｄ_ｊ）の確率は、以下のように計算される。
【数１４】

式中、ｎ^＋ _ｉｊは特徴ｊとの相互作用でｉが認められる回数（２つの相互作用するタンパク質が特徴ｉおよびｊをそれぞれ有する回数）であり、ｎ⁻ _ｉｊは特徴ｊとの相互作用でｉが認められない回数（２つの相互作用しないタンパク質が特徴ｉおよびｊをそれぞれ示す回数）である。最後に、γは否定および肯定の異なる種類のデータの不均一分布を反映するパラメータであり、コンピュータ科学において「ブースト」と呼ばれる概念に直接関係するものである。データがない場合にゼロ確率で複雑になるのを避けるため、式14の分子および分母にそれぞれΨ／２およびΨの値を加える。その場合にΨは、特徴−特徴相互作用確率がデータがない場合に0.5に設定されるようにする小さい正値（この試験では0.01に設定）である。
【００４９】
ブーストを使用する必要性を説明するため、代表的なトレーニングデータ集合における否定（相互作用なし）の種類と肯定（相互作用存在）の種類が認められる回数をカウントすることができる。あるトレーニングセット内の既知エッジ数は、非存在エッジ数よりはるかに小さい。頂点を有する代表的な分子ネットワークにはＶ^２個の可能な有向エッジがあるが、実際に認められる有向エッジ数Ｅは通常はＶ^２よりかなり小さい。さらに、それぞれ均一な密度ρ_ｘおよびρ_ｙを有するネットワーク頂点間に分布する仮想特徴ペアであるｘおよびｙを考える。従って、特徴ｘおよびｙを有する頂点間の存在するエッジの期待値はρ_ｘρ_ｙＥに等しく、特徴ｘおよびｙを有するがエッジを共有しない頂点ペアの期待値はρ_ｘρ_ｙ（Ｖ^２−Ｅ）に等しいということになる。
【００５０】
このモデルが統計的整合性を有するには、特徴ｘおよびｙが情報を含まない場合に、下記の関係が必要である。
【数１５】

この式においてＥ［］は期待値取得の演算子である。これは、ブーストパラメータγを１未満の適切な値に設定することで得ることができる。その性質を保証するγの推定量は下記のように定義される。
【数１６】

式16に変更を加えて、ネットワークを無向エッジと適合させることは非常に容易である。
【００５１】
さらに、１組の既知の特徴−特徴確率を考慮して、１対のタンパク質（ｖ_ｉ，ｖ_ｊ）間の相互作用の確率を計算する方法に変更を加えた。以前の例では、タンパク質−タンパク質相互作用確率Ｐ_ｉｊ（ハット）は、特徴−特徴相互作用確率の単純な平均ｐ（ｄ_ｋ，ｄ_l）（ハット）として計算した。本明細書では、この等式に変更を加えて、トレーニングデータにおける関連する特徴の相対頻度を考慮する。
【数１７】

式中、ｆ_ｉは特徴ｉの頻度である。留意すべき点として、導入された加重は、トレーニングデータ集合全体で認められる頻度が低い特徴ほど情報が多いという仮定に相当するものである。
【００５２】
次に、トレーニング集合を３種類全ての特徴集合を用いて分析し、それぞれの相対的情報内容量を比較した。
【００５３】
タプルなどの小スケールの特徴がPfamドメインなどの大スケールの特徴より小さい相互作用確率を有することが予想される。この予想は、図12Ａに示したように正しいように思われる。ここでは、全てのタプル−タプル相互作用の確率を示してあり、ｘ軸上の各タプルについて、そのタプルが他の各タプルと相互作用する確率を垂直方向の散布図として示している。このモデルから予想されるように、このプロットの密度は0.5を中心としたものである。ゼロへと向う確率の若干の「ドリフト」によって認められるように、タプルは肯定（誘引）より否定の情報（反発）を与えるようにも思われる。それとは対照的に、図12Ｂには、ドメイン−ドメイン相互作用の確率を示してある。留意すべき点として、一部にはカットオフＥ値が0.001に設定された場合に認められるPfamドメイン数が小さいために、これらの相互作用は非常にまばらである。合計で、126個のタンパク質−タンパク質相互作用しか認められず、両方のタンパク質が少なくとも一つのドメインを有していた。ドメインのレベルでは、それは448個の誘引および248553個の反発ドメイン−ドメイン相互作用となった。この図12におけるプロットと同様に、ほとんど全てのポイントがその線方向にあることから、それも0.5を中心としており、やはりほとんどのドメイン−ドメイン相互作用が、支持される情報を持たないことが示されている。しかしながら、ドメインがある相互作用で認められると、関与するドメインの種類についての知見から、さらに高い誘引および反発の確率が得られる。実際、一部のペアはかなり大きい強度を示し、0.9〜１または０〜0.1の範囲にある。ネットワーク内の非存在エッジ数が大きいことで予測されるように、否定または反発データが支配的である。図12Ｃでは、10merによって生じる特徴を示してある。729の可能な特徴中、122のみがデータ中に存在している。しかしながら、Pfamドメインのように、データ中で認められる特徴は、タプルの場合と比較して、肯定と否定の両方において強い相互作用シグナルを提供する。
【００５４】
特徴の組み合わせが誘引シグナルまたは反発シグナルを高める上で役立つか否かを確認するため、タプルとPfamドメインの間の相互作用を分析した。図12Ｄに示したように、特徴の組み合わせによって、いずれか単独の特徴の場合よりかなり多くの情報が得られている。やはり、垂直線方向の全ての点は、所定のタプルがｘ軸上に示されたドメインと相互作用するという確率を示している。確率は少なくとも一つのドメインを有するタンパク質についてのみ得られるが、特徴の組み合わせが、それを行わない場合よりはるかに多い情報を提供するように思われる。
【００５５】
タンパク質の特徴を、複数の長さスケールで定義および特性決定し、それらの相互作用確率を量化した。それぞれの情報包含量を決定して、それらの比較をより良好に行った。タンパク質ｖ_ｉがタンパク質ｖ_ｊと相互作用する確率ｐ（ｖ_ｉ，ｖ_ｊ）（ハット）を、記載された各特徴集合について計算する。一組の相互作用確率を生じる認められた特徴集合の総エントロピーを、下記式を適用することで求める。
【数１８】

式中、ｐ_ｉｊはタンパク質ｉがタンパク質ｊと相互作用する確率である。特定の相互作用が情報を提供しない事前確率は0.5であることから、一組のタンパク質相互作用の総情報包含量は下記のように定義される。
【数１９】

所定の種類の特徴集合に基づいた一組のタンパク質相互作用についての情報の包含量を表３に示してある。
【００５６】
表３：所定の特徴相互作用確率から得られた一組のタンパク質相互作用についての情報包含量
【表３】

全てのレベルからの情報を下記式を用いて結合する。
【数２０】

本明細書に記載の多スケールタンパク質特性決定の主要な利点は、トレーニングに関する全ての可能な相互作用データを使用することができるという点である。以前では、Pfamドメインのみを用いたタンパク質の特性決定は、大半のタンパク質相互作用を定義できないことを意味しており、それは他のモデルに影響を与える欠点であった。厳密性が低いＥ値カットオフを用いることは過度のノイズを発生させずにネットワーク内のドメイン数を増加させる上で有効であると考えられるが、かなり緩いカットオフであっても多くて60〜70％しか網羅できない。
【００５７】
４merタプルおよび10mer特徴ベクトルの両方について使用したアミノ酸／特徴マッピングによってかなりの情報が得られたが、いかなる数の他のマッピング、部分配列長さなども使用されている可能性があると考えられる。驚くべきことに、やや任意に選択された特徴ベクトルを用いて、かなりの情報を得ることが可能であった。他の選択によって、さらに良好な成績を提供することが可能であることは明らかである。タプルの形成に用いられる特定のマッピングおよび４merウィンドウを、それの管理可能な大きさ（標準的なアルファベットの20種類のアミノ酸を直接マッピングすることで、20^４個または160000個の別個のドメインが得られ、160000²種類のタプル−タプル相互作用の追跡が行われると考えられる）ならびに類似の特性を有するアミノ酸のそれの自然群分けの両方について選択した。特徴のベクトル（正電荷、負電荷、疎水性、脂肪族性、プロリンおよびセリン残基の延長）を、主として考え方の裏付けのために選択し、特徴は汎用性およびある程度の予測能力を有するものと考えた。10アミノ酸より大きいウィンドウを用いることが可能であることは明らかであり、それは恐らく、タンパク質間の相互作用を確立する上で重要な大スケール構造を検出する上で有用であると考えられる。この手法の関連する側面は、多スケールでの特徴の特性決定によって、小スケール効果を観察することが可能となり得るという希望である。例えば、新規な相互作用の機能形成または既存の相互作用の削除の得失を生じさせる置き換え事象を認めることが可能となる。小スケールの特徴での特性決定が、この種の分析に必要であると考えられる。ベクトル中のどの特定の種類の特徴が最も情報を提供したかについての決定について、現在評価中である。
【００５８】
本発明は、本明細書に記載の具体的な実施形態に限定されるものではない。実際に、本明細書に記載のもの以外の本発明の各種変形形態が前記説明および添付図から当業者には明らかになろう。そのような変更は、添付の特許請求の範囲に包含されるものである。本明細書においては各種参考文献を引用しているが、それらの開示内容は、その全体が参照によって本明細書に組み込まれる。
【図面の簡単な説明】
【００５９】
【図１】ネットワークのサンプリング。ネットワークトポロジーの分布を多項分布分布でモデル化している。個々のビンは同じトポロジーを有するネットワークの集合を含む。所定のビン内のネットワークは、エッジ構成に基づいて定義される確率を有する。
【図２】タンパク質当たりのドメイン数は、ネットワークの連結性を決定するものではない。データは、酵母ネットワーク相互作用データからのものである。（ａ）所定数のドメインを有するタンパク質の頻度。（ｂ）タンパク質から出る（「×」）またはタンパク質に入る（「○」）エッジの数は、ドメイン数から独立である。誤差バーは、１標準偏差を表すものである。回帰線は、出エッジおよび入エッジそれぞれについて0.024（切片＝0.96）および0.021（切片＝0.97）の勾配で示してある。９個のドメインを有するタンパク質から出るエッジの数に関して逸脱が大きいのは、３つのデータ点のみがその集合を含むためである。８以上のドメインを有する他の全ての点は、単一のサンプルからなる（従って、不定分散を有する）。
【図３】ｋ個の入（白抜き三角形）または出（黒円）エッジでの頂点の確率分布。エッジ分布は、DIPデータベースから計算し、それは1479個のエッジを有する1366個の頂点からなるものであった。
【図４】一般的なカリフラワー植物の目盛なし（自己相似）特性。別の目盛付き対象（比較相手）を加えない限り、完全な植物またはそれの部分の写真を見ているか否かを決定することは実質的に不可能である。（Ａ）完全な植物、（Ｂ）同じ植物の小さい部分、（Ｃ）図（Ｂ）に示した部分の小部分。用いなければ目盛なし構造であるものに対して目盛の観念を提供するために、３つの写真全てにおいて同じ比較相手を用いた。この考え方は、パイトゲンらの著作（Peitgen et al., 1992, Chaos and Fractals: New Frontiers of Science, New York, Springer-Verlag）から得たものである。写真は、対象をスキャナー（Compas S⁴ 100）で直接走査することで得たものである。
【図５】ネットワークトポロジーのみに基づいたネットワークのネットワーク尤度の対数。Ａ、Ｂはそれぞれ、高（過剰）連結ネットワークおよび最小連結ネットワークを表す。Ｃは、より現実的な（至適）形態を示す。Ｄは、（Ｃ）と同じエッジ数を有するが、入エッジおよび出エッジの配置がそれほど好ましくないネットワークを示す。対数スコアが負側であるネットワークほど可能性が高い。ネットワークは、キュートネット（Cutenet；Koike and Rzhetsky, 2000, Gene 259: 235-244）によって作成した。
【図６】頂点当たりのエッジの分布は、スケール不変である。95％信頼区間とともにγの平均（約-2.3）を示している。詳細については本文を参照する。
【図７】小さいネットワークのMCMCシミュレーション。頂点は、１−転写因子BAS1（gi|101447）、２−オキソグルタミン酸デヒドロゲナーゼ前駆物質（gi|1070439）、３−ジヒドロリポアミドＳ−スクシニルトランスフェラーゼ前駆物質（gi|2144399）、４−細胞分裂制御タンパク質CDC43（gi|2144611）、５−タンパク質ファルネシルトランスフェラーゼ鎖RAM2（gi|266880）、６−プレmRNAスプライシング因子PRP21（gi|280467）、７−仮想タンパク質YBL067C（gi|626480）、８−強力なサプレッサタンパク質SUP45（gi|626763）、９−サプレッサ２タンパク質（gi|72877）、10−転写因子GRF10（gi|82888）、11−ジヒドロリポアミドデヒドロゲナーゼ前駆物質（gi|82983）である。ａ．ドメイン−ドメイン誘引確率のみに基づいたネットワークのエッジ確率。ｂ．MCMCシミュレーションの10⁹回繰り返し後のネットワークの全てのエッジの事後確率。赤色および青色はそれぞれ、全エッジ確率の平均（白色）より上および下の確率を表す。留意すべき点として、頂点交差部での値（＋）のみが中間の平均面積を有し、内挿されており、単に勾配を示すためのものである。元データから存在することがわかるエッジは、｛（3,2）、（4,5）、（5,4）、（7,6）、（9,8）、（9,9）、（10,1）および（11,3）｝である。MCMC計算で除外されたエッジのパーセントは82％であった。
【図８】ヒトアポトーシス経路に関与する10種類のタンパク質間の相互作用の予測。ドメイン−ドメイン相互作用のみに基づいた確率だけを示してある。
【図９】既知エッジおよび予測エッジ。既知エッジは白抜き円で示してあり、予測エッジは「×」で示してある。
【図１０】ネットワーク事後確率。
【図１１】負多項分布は、多項分布に対する代替法である。図（ａ）および（ｂ）は、（ｃ）における多項分布と比較した負多項分布（それの相当する輪郭プロットより上の表面プロット）を示している。多項分布については、Pi＝0.25およびＮ＝14である。負多項式の場合、Piは定数の0.25倍に等しくなるように設定し、NPは一定に維持した。図（ａ）の場合、定数＝４であり、図（ｂ）では定数＝１×10^-6である。
【図１２】特徴間の相互作用の確率。12A：タプル−タプル。12B：Pfamドメイン−ドメイン。12C：特徴ベクトル。12D：タプル−Pfam。
【００６０】
添付資料Ａ

Claims

生体ネットワーク内の分子相互作用の確率を同定する方法において、
（ｉ）分子を保存された特徴の集合として表す段階；
（ii）前記特徴間の誘引確率を計算する段階；ならびに
（iv）段階（ii）の計算を用いて、生体ネットワーク内の分子相互作用の確率を同定する段階
を有することを特徴とする方法。
生体ネットワーク内のタンパク質相互作用の確率を同定する方法において、
（ｉ）タンパク質を保存された特徴の集合として表す段階；
（ii）前記特徴間の誘引確率を計算する段階；ならびに
（iv）段階（ii）の計算を用いて、生体ネットワーク内の分子相互作用の確率を同定する段階
を有することを特徴とする方法。
生体ネットワーク内のタンパク質相互作用の確率を同定する方法において、
（ｉ）タンパク質を保存された特徴の集合として表す段階；
（ii）前記特徴間の誘引確率を計算する段階；
（iii）タンパク質間の誘引確率を計算する段階；ならびに
（iv）段階（ii）および段階（iii）の計算を用いて、生体ネットワーク内の分子相互作用の確率を同定する段階
を有することを特徴とする方法。
生物学的により現実的なトポロジーを示すネットワークがより高い確率を割り当てられる、生体ネットワークのトポロジーを計算する段階をさらに有する請求項１、２または３に記載の方法。
前記保存された特徴がタンパク質のドメインまたはモチーフである請求項１、２または３に記載の方法。
前記保存された特徴が核酸分子モチーフである請求項１、２または３に記載の方法。
特徴間の前記誘引確率を、式６、14または16を用いて計算する請求項２または３に記載の方法。
タンパク質間の誘引確率を式５または17を用いて得る請求項２に記載の方法。
生体ネットワーク内の分子相互作用の確率の同定を式１を用いて行う請求項１に記載の方法。
生体ネットワーク内のタンパク質相互作用の確率の同定を式１を用いて行う請求項２または３に記載の方法。
生体ネットワークの前記トポロジーを、式２、３、４または７を用いて決定する請求項４に記載の方法。
１組の分子間の相互作用の事後確率を計算する段階をさらに有する請求項１に記載の方法。
１組のタンパク質間の相互作用の事後確率を計算する段階をさらに有する請求項２またはに記載の方法。
マルコフ連鎖モンテカルロ法を用いて、一組のタンパク質間の相互作用の事後確率を計算する請求項１２または１３に記載の方法。
式１を用いて、一組のタンパク質間の相互作用の事後確率を計算する請求項１２または１３に記載の方法。
少なくとも２種類のタンパク質間の相互作用を変えることができる化合物を同定するためのスクリーニング方法であって、
（ｉ）請求項２または３に記載の方法を用いて少なくとも２種類のタンパク質間の相互作用を同定する段階；
（ii）段階（ｉ）で同定された前記タンパク質を被験化合物と接触させる段階；
（iii）前記被験化合物存在下での前記タンパク質の相互作用を、前記被験化合物の非存在下での相互作用と比較する段階
を有し；
被験化合物非存在下での相互作用と比較した場合の前記被験化合物存在下での前記タンパク質の相互作用における差が、タンパク質間の前記相互作用を変えることができる化合物の同定を示すものである方法。
少なくとも２種類の分子間の相互作用を変えることができる化合物を同定するためのスクリーニング方法であって、
（ｉ）請求項１に記載の方法を用いて少なくとも分子間の相互作用を同定する段階；
（ii）段階（ｉ）で同定された前記分子を被験化合物と接触させる段階；
（iii）前記被験化合物存在下での前記分子の相互作用を、前記被験化合物の非存在下での相互作用と比較する段階
を有し；
被験化合物非存在下での相互作用と比較した場合の前記被験化合物存在下での前記分子の相互作用における差が、分子間の前記相互作用を変えることができる化合物の同定を示すものである方法。