JP2005503535A - 分子相互作用ネットワークの予測方法 - Google Patents

分子相互作用ネットワークの予測方法 Download PDF

Info

Publication number
JP2005503535A
JP2005503535A JP2002564586A JP2002564586A JP2005503535A JP 2005503535 A JP2005503535 A JP 2005503535A JP 2002564586 A JP2002564586 A JP 2002564586A JP 2002564586 A JP2002564586 A JP 2002564586A JP 2005503535 A JP2005503535 A JP 2005503535A
Authority
JP
Japan
Prior art keywords
interaction
probability
protein
network
proteins
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002564586A
Other languages
English (en)
Inventor
ルゼツキー,アンドレイ
ロ,シャウ−ホワ
ゴメス,シャウン,エム.
Original Assignee
ザ トラスティース オブ コロンビア ユニバーシティ イン ザ シティ オブ ニューヨーク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ザ トラスティース オブ コロンビア ユニバーシティ イン ザ シティ オブ ニューヨーク filed Critical ザ トラスティース オブ コロンビア ユニバーシティ イン ザ シティ オブ ニューヨーク
Publication of JP2005503535A publication Critical patent/JP2005503535A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2500/00Screening for compounds of potential therapeutic value
    • G01N2500/02Screening involving studying the effect of compounds C on the interaction between interacting molecules A and B (e.g. A = enzyme and B = substrate for A, or A = receptor and B = ligand for the receptor)

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Library & Information Science (AREA)
  • Biochemistry (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本発明は、保存された特徴の集合としての分子の表現に基づいて、生体ネットワーク内の未知の分子相互作用を同定する方法に関する。そのような分子には、タンパク質中のドメインおよびモチーフなどの保存された特徴の集合として表すことができるタンパク質および核酸分子などがあるが、それらに限定されるものではない。本発明の方法は、分子間の誘引確率を計算し、次に生体ネットワークの確率を計算する段階を有する。本発明の方法は種間で適用することが可能であり、その場合に、1種類または数種類の種からの相互作用データを用いて、生物内または生物間での分子間の分子相互作用を推定することができる。本発明の方法を用いて、薬剤スクリーニング標的として役立ち得る分子相互作用を確認することができる。

Description

【技術分野】
【0001】
本発明は、保存された特徴の集合としての分子の表現に基づいて、生体ネットワーク内の未知の分子相互作用を同定する方法に関する。そのような分子には、タンパク質におけるドメインおよびモチーフなどの保存された特徴の集合として表すことができるタンパク質および核酸分子などがあるが、それらに限定されるものではない。本発明の方法は、分子間の誘引確率を計算し、次に生体ネットワークの確率を計算する段階を有する。本発明の方法は、複数種間で適用可能であり、その場合に1種類の種または数種類の種からの相互作用データを用いて、生物内または生物間での分子間の分子相互作用を推定することができる。本発明の方法を用いて、薬剤スクリーニング標的として役立ち得る分子相互作用を同定することができる。
【背景技術】
【0002】
細胞生物学の進歩とともに、ゲノム配列決定における最近の成果によって、生命の調節機構についての理解が深まると期待されている。しかしながら、直線的で一次元の遺伝子配列から統合された多次元の代謝および調節ネットワークモデルへの切り替えはまだ行われていない。重要ではあるが、既知遺伝子とタンパク質との間の相互作用については相対的にほとんど理解されておらず、主要な問題点は、機序、速度、さらには遺伝子およびタンパク質の存在に関するデータがないことにある。例えば高スループットの、ツーハイブリッド研究および相補的相互作用データベースが発展することで進歩があったが、それらの分子相互作用ネットワークを総合的に理解できているわけではない。実際、そのような大規模ネットワークの分析の裏付けとなるだけの十分なデータベースが使えるようになったのはごく最近のことである(Uetz et al., 2000, Nature 403: 623-627; Xenarios et al., 2000, Nucleic Acid Res. 28: 289-291)。
【発明の開示】
【発明が解決しようとする課題】
【0003】
相同性研究に関する特殊なデータベースが遺伝子発見プロジェクトで最近利用されるようになり、近年では単一の「検索配列」とデータベースとの比較を行うために設計されたBLAST(Basic Local Alignment Search Tool)系統のプログラム(Altschul et al., 1990, J. Mol. Biol. 215: 403-410; Altschul et al., 1997, Nucleic Acids Res. 25: 3389-3402参照)、通常はタンパク質モチーフまたはドメインを表す1組の配置された配列とデータベースを比較するための隠れマルコフモデル法の系統(例えば、Krogh et al., 1994, J. Mol. Biol. 235: 1501-1531; Grundy et al., 1997, Biochem Biophys. Res. Commun. 231: 760-6)および他の各種比較手段(Wu et al., 1996, Comput. Appl. Biosci 12: 109-118 ; Neuwald et al., 1995, Protein Sci. 4: 1618-1632; Neuwald, 1997, Nucleic Acids Res. 25: 1665-1677) のような多くの効果的な配列比較手段が開発されている。
【0004】
他の研究グループは、タンパク質の構造および機能を比較するよう設計されたプログラムの使用による分子間の相互作用を把握することを目指している(Kazic 1994, In : Molecular Modeling: From Virtual Tools to Real Problems, Kumosinski, T. and Liebman, M. N. (Eds.), American Chemical Society, Washington, D. C. pp. 486-494; Kazic, 1994, In: New Data Challenges in Our Information Age Glaesar, P. S. and Millward, M. T. L. (Eds.). Proceedings of the Thirteenth International CODATA Secretariat, Paris pp. C133-C140 ; Goto et al., 1997, Pac. Symp. Biocomput. p. 175-186; Bono et al., 1998, Genome Res. 8: 203-210; Selkov et al., 1996, Nucleic Acids Res. 24: 26-28)。
【課題を解決するための手段】
【0005】
本発明は、特徴の集合としての分子の表現に基づいて生体ネットワーク内の未知の分子相互作用を同定する方法であって、各特徴が別の特徴との特異的相互作用に関与するものである方法に関する。簡潔に言えば、本明細書において本発明は、タンパク質相互作用に関して説明される。しかしながら、本発明の方法は別の種類の分子相互作用を同定するのにも用いることができる。
【0006】
本発明の1実施形態では、保存されたドメインおよびモチーフの集合としてのタンパク質の表現に基づいて生体ネットワーク内の未知の分子相互作用を同定する方法であって、各ドメインが別のドメインとの特異的相互作用に関与する方法が提供される。特異的ドメイン−ドメイン相互作用が既知のタンパク質相互作用内で起こる頻度を特徴付けることにより、本発明の方法によって所定のドメインを有するいずれか2種類のタンパク質間での任意の相互作用に対して確率を割り当てることができる。ドメイン相互作用データには、生体ネットワークのトポロジーに関する情報を補充することができ、そのデータは、生理的により現実的なトポロジーを示すネットワークに対してより高い確率を割り当てることで前記方法に組み込まれる。本発明の別の実施形態では、マルコフ連鎖モンテカルロ法をタンパク質集合間の介入の事後確率予測に用いることができ、それによって大きいデータ集合にそれを応用することができる。本発明の方法は、複数種間で適用することができ、その場合に1種類または数種類の種からの相互作用データを用いて、タンパク質間の相互作用を推定することができる。さらにその方法は同様に、DNA分子およびRNA分子などの核酸分子のような他の分子にも応用することができる。
【発明を実施するための最良の形態】
【0007】
生体ネットワークは、一次相互作用要素としてタンパク質、核酸および小分子を含む。ある分子が別の分子と相互作用する能力を与える機能性領域は、ドメインまたはモチーフと称される。例えば、特異的タンパク質が結合しているDNAの部分配列は、タンパク質内での結合活性に関与するアミノ酸部分配列のように、ある種のドメインである。遺伝子は情報の受動的キャリアであり、しかも酵素RNA分子や構造RNA分子は比較的少ないことから、重要な生理機能の大半がタンパク質によって行われる。タンパク質間の相互作用は、「活動性」生理機能の大半に関与することから特に興味深いものである。現時点では、タンパク質−タンパク質相互作用も、かなりの量の裏付けとなる実験データ集合がある支配的な種類の相互作用である。一次構造のレベルではアミノ酸の直線配列であるが、機能レベルではタンパク質は、機能ドメインまたは保存モチーフに相当する部分に分割することができる。アミノ酸と同様、3種類のドメインが個別の「文字」であり、その組み合わせがタンパク質の形態および機能の多様性を生じる。
【0008】
本発明の目的に関しては、タンパク質間の物理的相互作用が関与している場合と関与していない場合を含むタンパク質間のネットワーク連結の存在が、それぞれのドメイン構成の関数である。簡便のため、非タンパク質ネットワークのノードを単一ドメインタンパク質として扱う。ネットワーク経路方向で考えると、上流タンパク質のドメインは、下流タンパク質のドメインとの相互作用しやすい。物理的連結だけでなく、「相互作用」という用語は、ドメイン間のより一般的な関係、すなわち情報の流れを表すこともできる。本発明の方法は、ある相互作用ペアが有効であると確認されたら、自然とそれが同じ生物内ならびに他の生物での他のネットワークにおいて再度使用される傾向があるという仮定に基づいたものである。そこでその方法は、既知ネットワークから得たデータから、タンパク質中のあるドメインが別のタンパク質の上流または下流に隣接して認められる頻度を量化することに基づいたものである。次にその情報を用いて、未知の相互作用の確率を推定する。
【0009】
5.1. 方法の説明
本発明は、各ドメインが別のドメインとの特異的相互作用に関与している保存されたドメインおよびモチーフの集合としてのタンパク質の表現に基づいて、生体ネットワーク内の未知の分子相互作用を同定する方法に関する。その方法は、一定数の頂点から認められる可能な全てのネットワークに対して確率を割り当てるものであり、実際のネットワークに代表的なものより多くの特徴を有するネットワークがより高い確率を有するような形で、各ネットワークに確率値を与えるものである。
【0010】
本発明の方法は、有向グラフG=<V,E>(式中、頂点Vはタンパク質に相当し、エッジEはタンパク質間の相互作用に相当する)としてネットワークを表す段階を有する。ネットワークの各頂点は、1以上のドメインまたはモチーフからなり、それらはPfam(Bateman et al., 2000, Nucleic Acids Res. 28: 263-6)などのタンパク質ドメインの既存のデータベースとの比較によって同定される。既知ネットワークの2つの連結された頂点におけるドメインdおよびdの個別の発生頻度を用いて、「誘引」確率p(d,d)を推定する。すなわち、これらドメイン間に有向エッジが認められる。以下で詳細に説明するように、これらの確率を用いて、個々のタンパク質−タンパク質相互作用の確率を求める。
【0011】
この方法は、独立した2つの確率的段階を有するものであり、個々のネットワークの確率は、これら2つの段階に関連する確率の積として得られる。第1の段階では、全てのタンパク質ペアiおよびjを、「誘引」確率pijで互いに連結するか、あるいは確率(1−pij)で互いに連結しないようにすることができる。全ての頂点ペアについて、仮想的にバイアスされたコインを投げ、各コインが特定のタンパク質ペアに固有のものであるとする機械によって、このプロセスが行われると考えることができる。それが表である場合、2つの頂点間にエッジが形成される。それが裏である場合、それは形成されない。各頂点におけるドメインについての事前の情報によってコインがバイアスされたとすると、一部のエッジは0.5より高い確率を有し(誘引)、一部のエッジでは0.5より小さくなる(反発)。|V|個の頂点を有するネットワークの場合、有向エッジを有する可能なネットワークは2|V||V|個ある。特定の組み合わせのエッジEを有する単一のネットワークの確率は下記のように定義される。
【数1】
Figure 2005503535
このプロセスを用いると、1組の頂点間でのエッジのいずれの構成に対しても確率を割り当てることができる。多くの高確率エッジを有するネットワークが、相対的に高い確率P(E)を有する。
【0012】
第2の段階では、ネットワークを、それぞれが特定の「ネットワークトポロジー」に相当する有限数のビンに分類する。その場合、「ネットワークトポロジー」とは、ネットワークの各頂点から出入りするエッジの特定の分布と定義される。ある数の頂点に関して、同じトポロジーによって特徴付けられる多数のエッジ構成を有することが可能であることから、各ビンは同一トポロジーを有するネットワークの集合を表す。有向グラフにおける頂点の入エッジの数または入度は、その頂点を末端とする有向エッジの数である。同様に、頂点の出度は、その頂点で始まる有向エッジの数である。単一の有向エッジと連結した一対のタンパク質の場合、上流タンパク質は1個の出エッジを有し、下流タンパク質は1個の入エッジを有する。各ネットワークについて、出度がゼロ(n out)、1(n out)、2(n out)などからn out(下付文字はエッジ数であり、Nはグラフにおける頂点の総数である)までを有する頂点数を計算する。同様に、入度0、1、2・・・Nを有する頂点の数を計算することができる。1個のビンの中には、同じ組み合わせ{n in}および{n out}を有する全てのネットワークを加える。各ビンについて、サンプリング確率P({n in},{n out})は、下記の積として計算されるものと定義される。
【数2】
Figure 2005503535
式中、
【数3】
Figure 2005503535
である。
【0013】
確率分布π inおよびπ outは、それぞれx個の入エッジおよびy個の出エッジを有するネットワークの確率を与える。これらの分布については、下記で詳細に説明する。最後に、確率P({n in},{n out})を有するビンのランダム(多項)サンプリングと、次にそのビン内からのネットワークのランダム(均一)サンプリングで第2段階を終える(図1参照)。トポロジーレベルでは、(a)タンパク質1がnの入力を有しタンパク質2がnの入力を有する場合と(b)タンパク質1がnの入力を有しタンパク質2がnの入力を有する場合との間を識別することは困難である。むしろ、区別は個々のエッジのレベルで行う。各個々のエッジはそれに関連した確率を有することから、あるネットワークP(E)を構成する完全な組み合わせのエッジを有する。その同じ組み合わせのエッジEが与えられると、ネットワークトポロジーが自動的に規定される。しかしながら、この特定のトポロジーの確率は別個に求められ、生物的に実際のものである場合と実際のものではない場合がある。トポロジー的にはそれらは同一であることから、上記の(a)と(b)の間で区別を行う必要はない。しかしながら、個々のエッジのレベルではそれらは同一ではない。(a)および(b)におけるこれら各エッジは、それらに関連する異なる確率を有し、恐らく(a)または(b)の一つのバージョンが正しく、従って最も好ましいものである。
【0014】
前記の2つの確率的段階の積が所定のネットワークをサンプリングする確率を与えることを検証するため、下記の等式を用いることができる。
【数4】
Figure 2005503535
好ましい組み合わせのエッジEおよび好ましいトポロジーの両方を有するネットワークが最も高い確率を有する。
【0015】
留意すべき重要な点として、実際の生体ネットワークは、非常に膨大な任意のランダムネットワークからそれらを区別する非常に特徴的なトポロジーを有する。従って、タンパク質ドメイン相互作用についての情報が完全なものからほど遠い状況では、許容されるネットワークトポロジーに関する制限を用いて、そこに記載されたアルゴリズムの予測能力を向上させる。
【0016】
タンパク質は、各個々のドメインペアdおよびdが誘引確率p(d,d)を有する「ドメイン集合」と見る。p(d,d)>0.5の場合、ドメインは互いに「引き合い(誘引)」、p(d,d)<0.5の場合にはドメインは互いに「反発する」。複数ドメインタンパク質iおよびjのペアを考えると(ここで、vおよびvは、各タンパク質におけるドメインの組み合わせである(i番目のタンパク質が同じ種類の複数のドメインを有している場合であっても、各種類のドメインはvにおいて1回以下である))、これらタンパク質間の誘引確率(=エッジ確率)は、ドメイン誘引確率に関して、次のように与えられる。
【数5】
Figure 2005503535
このエッジ確率の定義は、頂点から出入りするエッジの数が相互作用するタンパク質のいずれかにおける別個のドメインの数と相関していない限りにおいて妥当である。
【0017】
研究文献で発表されているタンパク質間の相互作用は、かなり異なる信頼性を有する。それは一部には、実験の否定的な結果を発表することが一般的ではないためである。その結果、タンパク質間に相互作用が存在することは多くの実験によって裏付けられるのが普通であるが、相互作用がないことは失敗実験とされたり、あるいは実験が全くなかったものとされる場合がある(この所見からの唯一の例外は、肯定的および否定的両方の全ての結果が報告される徹底的な2ハイブリッドスクリーニングである)。従って、2つのドメイン間での「誘引」の確率は、連結の非存在はデータなしと処理するが、既知の連結のカウントを用いて確率を推算するという形で計算すべきである。すなわち、ドメインdおよびdについて、誘引確率は下記式のように計算される。
【数6】
Figure 2005503535
式中、Ψは正の実数値擬似カウントであり;kmnは、エッジ始点の頂点に少なくとも1個のドメインdとエッジ終点の頂点に少なくとも1個のドメインdを有するトレーニング組み合わせにおけるエッジ数であり;kは、少なくとも1個のドメインdを有する別個の頂点の数であり;kは、少なくとも1個のドメインdを有する別個の頂点の数である。本明細書においてはΨ=1を選択しているが、それは前の値が大きく変わる前により多くの量のデータを蓄積したい場合には、その値を増加(または減少)させることができる。例えば、ドメインmを有する2つの上流タンパク質およびそれぞれに対してドメインnを有する2つの下流タンパク質がある場合、タンパク質ドメインとエッジの存在の間の完全な一致によって、kmn=4(全ての可能なエッジが存在する)、k=2、k=2およびp(d,d)=0.9(Ψ=1と仮定)となると考えられる。
【0018】
その結果、この式は、既知の連結を有するエッジに対して50%より高い確率を割り当て、既知の連結を持たないエッジには50%に等しい確率を割り当てるものである。実験的所見がない場合には(k=k=kmn=0)、いずれかの2つのドメイン間のエッジ形成の確率は正確に50%であり、従って各タンパク質におけるドメイン数とは無関係に、2種類のタンパク質間でのエッジ形成において50%の確率となる。データがないと、全てのネットワークが非ゼロの確率に割り当てられる可能性がある。そのモデルによって可能であるが、現在の方法(具体的には、式6)では、ドメイン−ドメイン相互作用に対して0.5未満の確率は生じない。確率範囲は0〜1で拡大できると考えられるが、0.5〜1の圧縮スケールは結果に影響しない。さらに、ドメイン間の「反発」効果をモデル形成するために適切なデータの集合(例えば、否定的な実験結果、適切なツー・ハイブリッドデータなど)を0〜0.5の範囲と組み合わせることで、この方法に変更を加えることができる。
【0019】
本発明の方法は、|V|個の頂点を有する全ての可能なネットワークに対して確率を割り当てるものである。この確率は、局所および全体の両方のネットワーク特性に基づいたものである。局所レベルでは、別の頂点と相互作用を有する頂点の確率は、それぞれのドメイン構成に依存する。トレーニングデータによって以前決定したように、一つのタンパクにおけるドメインの組み合わせが別のタンパク質のものと引き合う可能性がある場合、2つの頂点間に存在するエッジの確率は、0.5より大きい値まで上昇する。上流と下流の両方の頂点に含まれるドメインの組み合わせについての相互作用の尤度に関して情報が得られていない場合、それら2つの間でのエッジ形成の確率は0.5とされる。そのネットワークの確率(専ら局所特性に基づいたもの)を、実際の生体ネットワークをどの程度良好に表すかに基づいて変える。例えば、生物学的により現実的なトポロジーを有するネットワーク(頂点当たりの入エッジおよび出エッジの分布)が相対的に高い尤度が与えられる。あるネットワークの確率は、局所確率と全体確率の両方の積である。
【0020】
5.2. 実際のネットワークのトポロジーに関連するパラメータの推算
DIPデータ集合からのパラメータ{π in}および{π out}を計算したところ、両方の集合についての推定値は指数則分布に従うことが認められた(図3)。それは、対数座標では、頂点当たりの連結数とその多くの連結を有する頂点の割合との間の関係が、入エッジと出エッジの両方で直線であることを意味している。その指数則分布は、無スケール系の特徴である。それらの系は、スケール変化に対して不変の特性または挙動を有する。この現象は図4に示されており、その場合、基準対象を用いずに対象(この場合、カリフラワー)のスケールを決定することはできない。その特性は、社会的ネットワークおよび非生体ネットワークなどのネットワークでも認められている(Albert et al. 2000 Nature 406: 378-382 ; Barabasi and Albert, 1999 Science 286: 509-512)、その場合にk個の入エッジまたは出エッジを有する頂点の確率は、下記式によって与えられる。
【数7】
Figure 2005503535
ただし、入エッジと出エッジについてγとcの値は異なっている。ネットワークの出エッジの場合、対数スケールでの線形適合によって、c=0.30およびγ=1.97の推定値が得られ、入エッジはc=0.56およびγ=2.80で分布する。本明細書に関しては、非ゼロのkについてのみ指数則を用いた。π inおよびπ outの値は次のように計算した。
【数8】
Figure 2005503535
あるネットワークの尤度に対するネットワークトポロジーの影響の例を図5に示してある。
【0021】
6.例:タンパク質−タンパク質相互作用の予測
本明細書に記載のモデルの有効性を調べるため、多数の既知タンパク質−タンパク質相互作用を有するネットワークを用いた。本明細書では、相互作用タンパク質のデータベース(DIP;http://dip.doe-mbi.ucla.edu/)(Xenarios et al., 2000 Nucleic Acids Research 28: 289-291)から取ったサッカロミセス・セレビシエ、タンパク質−タンパク質相互作用を用いた。この分析時に2015個のドメインを照会した公開ソフトウェアツールであるhmmpfam(Bateman et al., 2000 Nucleic Acids Research 28: 263-6)を用いたタンパク質配列の分析によって、各相互作用に関与するドメインを決定した。計638のタンパク質−タンパク質相互作用(いずれも、少なくとも1個のドメインを有する)を分析し、それを用いてドメイン−ドメイン相互作用確率を求めた。ネットワークエッジ分布に対する頂点除去の効果を調べるのに用いたデータ(この場合、無向タンパク質−タンパク質相互作用のリスト)は、フィールズ・ラブ(Fields Lab)のホームページ(http://depts.washington.edu/sfields/)から得た。
【0022】
酵素タンパク質ネットワークはスケールなしである。ネットワーク内のエッジ種類の分布について認められる指数則挙動がスケールなしの系を示唆することが知られている。別の検証手段を提供するため、大きいネットワーク(1823個の頂点)の値γを求めた。次に、200回の反復について、30個の頂点を無作為にネットワークから除去したブートストラップ法を行い、γ値および95%信頼区間をそれぞれについて求めた。それが完了した後、60個の頂点を除去し、そのプロセスを繰り返した。ネットワーク中の計113個の頂点を用いて最終的に200回の反復を行うまで、それを繰り返した。γに対する頂点除去の効果を図6に示してあり(γの平均および95%信頼区間を示してある)、そのネットワークが顕著にスケール一定であることが示されている。それは、ネットワークの小さい部分のトポロジーに関して知見が得られることで、完全なネットワークのトポロジーを推定する上での信頼性の高い手段が提供されるはずであることを示唆している。
【0023】
交差バリデーション
交差バリデーションを用いて、ネットワーク構成全体を予測する上でのモデルの有効性を確認した。交差バリデーションは、統計アルゴリズムの有効性(従って、妥当性)を評価する一般的な方法である。その方法では代表的には、データ集合を2つの互いに非同一である小集合に分割し、そのうちの一方をトレーニング用に用い、他方をモデルバリデーションに用いる。完全なネットワークから1個の所定のエッジを除いたものからなる交差バリデーションのジャックナイフバージョンを用いた。完全なグラフ(モデルバリデーションデータ集合)の尤度を、1個のエッジを除いた完全グラフのものと比較した。完全ネットワークの尤度が低減ネットワークのものより大きかったら、そのエッジは肯定的と予測されると見なした。全てのエッジを検討するまで、この段階を繰り返し行った。被験ネットワークの分析から、そのモデルによって試験に用いた642個の既知エッジの93%が予測され、残りの7%が誤って否定的となることが明らかになった。偽肯定の割合も同様に、完全な既知ネットワークを用いて開始し、非連結頂点間に1個のエッジを加えるようにすることで〜10%と推定された。留意すべき点として、この偽肯定の評価基準は、真のネットワークに含まれない全てのエッジが存在しないはずであると仮定している。現在、存在しているとしても、偽肯定エッジのどれが真であるが現在未知である連結に相当するかを決定することはできない。トレーニング集合により多くのデータを包含させることで、さらに高い正確さを得ることはできるはずであるが、その結果は、モデルが妥当であり、妥当に正確な予測を行うことができることを示すものである。
【0024】
マルコフ連鎖モンテカルロ
ほぼ全ての種において、生体経路内の多くの相互作用が現在未知である。本発明の方法によって1組の頂点を連結するエッジの全ての可能な配列についての確率を計算することができることから、マルコフ連鎖モンテカルロ(MCMC)シミュレーション手法(Gilks et al, (編者), Markov chain Monte Carlo in Practice. Chapman & Hall, New York; Hastings, 1970 Biometrika 57: 97-109)を行うことができ、それによって厖大な数の可能なネットワークから効果的にサンプリングしながら、全てのエッジについての事後確率を計算することができる。
【0025】
異なるネットワークを代替統計モデルとして処理して、ベイズのモデル選択に代表的である可逆ジャンプ法(Green, 1995 Biometrika 57 82 : 711-732)を実行した。追加情報がなければ、あるネットワークを別のネットワークより優先する理由がないことから、全てのネットワークについて均一な事前分布を選択した。任意のネットワークから開始して、アルゴリズムが等しい確率で、所定数のエッジを追加または除去する。追加または削除されるエッジはそれぞれ、選択されるエッジ数のみによって決まる所定エッジの選択確率を用いて、現在のネットワークから選択または除外されるエッジ群からサンプリングされる。このようにしてエッジを追加または除去して、システムはネットワークXからネットワークYにジャンプする。仮定された新たな状態Yを、仮定分布q(b|a)からサンプリングする。次に、その新たなネットワークYは下記の確率で許容される。
【数9】
Figure 2005503535
式中、L(.)は所定のネットワークの尤度である。仮定された新たな状態が許容されるものである場合、ネットワークYが現在のネットワークとなる。そうでない場合は、以前のネットワークXが現在のモデルとして残る。この確率的プロセスは可能なネットワークの空間全体を移動し、概してそのエッジが正しいネットワークに存在するか非存在であるかの事後確率に比例して、オンまたはオフ状態に各エッジを維持する。
【0026】
小スケールの例として、群の少なくとも1つの他の構成員と相互作用することが知られている11種類の酵母タンパク質の群を選択し、エッジの予測を試みた(図6)。ドメイン−ドメイン相互作用のみに基づいた所定のエッジの確率を、図中aに示してある。留意すべき点として、(7,1)(x軸,y軸)を除く全てのエッジが生データに認められる。シミュレーションによって計算された事後確率を図中bに示してあり、(10,1)を除く全ての既知エッジが高信頼性で予測されている。この結果は図6aのサンプリングバージョンであるだけでなく、むしろネットワークのトポロジーに対してエッジ分布によって加えられた制限を組み込んでいる。そこで、エッジ(7,1)および(10,1)は、ドメイン−ドメイン相互作用確率が低く、エッジ分布の影響があるために、高信頼性では裏付けられない。トポロジー制約の効果も認めることができ、低い確率の領域(例:(4,8)の付近)は高確率エッジをすでに有するタンパク質と関連している。第2のエッジの追加は可能性が低い。非対称パターンであるのは、出エッジ分布と入エッジ分布の間の差によるものである。これらは可能性の低いエッジとは容易に区別されるが、全ての可能性があるエッジが比較的低い事後確率を有する。
【0027】
非常に小さい系では、所定の組み合わせの頂点間でのエッジ確率を見るだけで、非常に多くの情報を得ることができ、トポロジー情報由来の追加情報はほとんどない。しかしながら、本明細書に記載のMCMC法の使用は、大きいネットワークの予測に特に貴重であるはずである。この大きいネットワークでは、複雑なドメイン構造を有する(例えば、比較的高等な生物のもの)多量のタンパク質相互作用データおよび計算上かなりの数のネットワークトポロジーが普通である。
【0028】
ドメイン−ドメイン相互作用情報利用のさらに別の例として、ヒトアポトーシス経路において機能することが知られている10種類のタンパク質を、KEGGデータベース(Goto et al., 1997 Pac Symp Biocomput 175-86)から選択した。図7から明らかなように、酵母トレーニングデータからは裏付けられるエッジはほとんどなかった。しかしながら、最も強く予測される相互作用は、それ自体と相互作用するApaf-1のものであった。信号伝達の文献を検索したところ、Apaf-1が実際に自己会合することが明らかになった(Benedict et al., 2000 J. Biochem Chem 275: 8461-8 ; Hu et al., 1998 J. Biol Chem 273: 33489-94)。現時点では、この会合は未知であり、KEGG内には記載されていなかった。その既知のネットワークを予測することはできないが、この例はトレーニング用に利用可能なドメイン−ドメイン相互作用データの量が少ないことを考慮すると顕著なものであり、生物間での相互作用を予測する上でこの方法を利用可能であることを示すものである。より複雑な生物からの相互作用の蓄積によって、これらの予測がかなり強化されるはずである。
【0029】
ドメイン構成およびネットワークトポロジーの簡単な概念に基づいて、本発明により、所定の種内で、さらには可能性として種間で、既知および未知の両方のタンパク質相互作用に関して特性決定および予測の両方を行うことができる。前記のマルコフ連鎖モンテカルロ法は、指定ネットワークデータの事後確率を計算する計算上可能な方途を提供するものである。
【数10】
Figure 2005503535
さらに、遺伝子アルゴリズム、尤度最大化およびアニーリングシミュレーションを利用する方法を用いて、ネットワークの事後確率を計算することができる。そのような方法は当業者には公知である。全ての可能なネットワーク全体にわたって均一な事前分布が仮定されているが、本方法ではそれは必要ない。さらに、(事前情報の形での)別の情報を、それが利用可能となったら計算に加えることができる。
【0030】
調節経路の研究において、本発明の方法によって、いくつかの最も可能性が高い仮説を確認することで、必要な実験の数を大幅に減らすことができると考えられる。そのような実験分析はそれ自体、モデルの妥当性評価を行う経験的方法であり、同様にバリデーションのための実験を設計する上で役立ち得るものである。改善される点としては、追加の相互作用データおよびタンパク質部分への割り当てのための追加ドメインの導入などがあると考えられる。本方法はさらに、ドメイン−ドメイン相互作用に対して0.5未満の確率を許容することで実行される反発力効果の導入を可能とすることによって、さらに強化することができる。この情報は、実験(過去および将来)ならびにその分野での専門家から収集することができる。さらに、非タンパク質系物質および小分子を特性決定するための擬似ドメインの作成によっても、ネットワーク内でのそれらの分析が可能になると考えられる。
【0031】
各種分子パラメータに関するデータ(例:速度定数)がないにも拘わらず、この詳細レベルでのモデル化によって、かなりの効果を得ることができる。例えば、フォン・ダッソウら(Von Dassow et al., 2000 Nature 406: 188-92)は最近、ショウジョウバエ内での部分極性ネットワークのシミュレーションについて非線形微分方程式モデルを報告している。驚くべきことに彼らは、このネットワークの性能が特定の動力学的パラメータの値によって決まるのではなく、ネットワーク自体のトポロジーによって得られた安定性によって決まることを見出した。
【0032】
特に興味深いものは、頂点の連結性が指数則分布に従い、スケールなしの挙動を示すように思われるという所見である。そのような挙動は、新たに追加されるタンパク質がネットワークに連結される箇所が、予め確立された連結の数が多いタンパク質で優先的に生じることを示唆している(すなわち、「富む者がますます富む」現象)。この現象は、代謝ネットワーク内で認められており、最も最近では、ジェオンら(Jeong and colleagues)による研究でも、本明細書に記載の酵母内でのタンパク質−タンパク質相互作用ネットワークのスケールなし特性が示されている(Jeong et al., Nature 411: 41-42; Jeong et al., 2000 Nature 407: 651-4)。多数の連結の存在は、基本的により重要な、またはより多用途のタンパク質機能を示し得る。可能な現実の例にはタンパク質p53がある。
【0033】
7.例:ヒトタンパク質−タンパク質相互作用の予測
サッカロミセスセレビジエおよびホモサピエンスの両方についてのタンパク質−タンパク質相互作用データの組み合わせデータベースを用いた。Pfamデータベース(Pfam 6.2;2773個のドメイン)およびHMMERパッケージを用いて、各タンパク質内のドメインを決定した(0.01有意性閾値)。その酵母データについては、スタンレー・フィールド・ラブ(Stanley Field′s lab)のホームページ(http://depts.washington.edu/sfieldst)からダウンロードした総合的相互作用リストを用いた。このデータには、多くの入手源からの相互作用が含まれていた(Xenarios et al., 2001 Nucleic Acids Research 28: 289-91; Ito et al., 2000 Proc. Natl. Acad Sci. USA 97: 1143-7; Uetz et al., 2000 Nature 403: 623-7)。酵母から計708種類のタンパク質−タンパク質相互作用を分析し、その全てが少なくとも1個のドメインを有していた。ヒトデータについては、ミリアッド・ジェネティックス・プロネット・オンライン(Myriad Genetics Pronet Online)ウェブサイト(http://www.meriad-pronet.com/)からダウンロードした778種類の相互作用の集合を用いた。分析においては、連結されたネットワークを形成することがわかっており、元のトレーニングデータ集合に含まれていない40種類のヒトタンパク質の集合における相互作用を予測することを試みた。
【0034】
一部のタンパク質がアポトーシスのプロセスに関与しており、完全に連結されたネットワークを形成すると知られる40種類のヒトタンパク質の集合間での相互作用を予測することを試みた。ネットワークの全てのタンパク質が少なくとも1個のドメインによって規定されなければならないという要件を除き、このネットワークを無作為に選択した。この分析で使用したタンパク質(および全ての図におけるそれらの表示)は、1)ANT2、2)APP(695)、3)B-CAT、4)BAG3、5)BAK、6)Bax-β、7)Bcl-xL、8)BCL2A1、9)Bc12-α、10)カルセニレン(Calsenilen)、11)CAV1、12)CHIP、13)CIB、14)D-CAT、15)DRAL、16)FLN1、17)FLNB、18)GAPCenA、19)GDI1、20)GDI2、21)GGTB、22)GTPBP1、23)HSPA4、24)HSPA8、25)KSR1、26)MCL1、27)MRJ、28)PSAP、29)PKP4、30)PLCG1、31)PS1(467)、32)PS2(448)、33)QM、34)RAB11A、35)RAB3A、36)RAB5A、37)RAB6、38)RAB6KIFL、39)TF、40)TTC1である。
【0035】
ドメイン−ドメイン相互作用データのみに基づいたエッジ確率によって、97個のエッジが確率>0.5を有することが示された(図9参照)。エッジが有向性ではなく、従ってここで示されたマトリクスが対称であると推定された。計44個のエッジが元のデータ集合にあった。これら44個のエッジ中、8個が確率>0.5で予測された97個の中に認められる。8種類の相互作用からの3種類が、熱ショック経路に関与していた(図において(Y軸,X軸)として読む)。それらはCHIP(12,12)自己相互作用、HSPA8-MRJ(24,27)およびHSPA8-PLCG1(24,30)であった。残りの5種類は、FLN1-KSR1(16,25)、PS2-CIB(32,13)、GDI2-RAB6(20,37)、RAB6-GAPCenA(37,18)およびRAB6-RAB6KIFL(37,38)などであった。
【0036】
残りの89個の予測されたエッジのいずれが既知エッジを表すかを同定するため、簡単な文献検索を試みた。これらの結果を十分に評価するには、所定の経路においてかなりの専門知識が必要とされる場合が多いが、明らかな成功が得られる可能性がまだあった。Rabl11A、Rab3A、Rab5AおよびRab6(それぞれ頂点34、35、36、37)と相互作用するGDI1(グアニンヌクレオチド解離阻害剤、頂点19)の予測は実際に正しく、やはり元データにはない(Hutt et al., 2000 J. Biol Chem 275: 18511-9 ; Wu et al., 1998 J. Biol. Chem 273: 26931-26938; Ullrich et al., 1993 J. Biol. Chem 268 : 18143-50)。
【0037】
テトラトリコペプチドドメインが一般的なタンパク質−タンパク質相互作用モチーフであり、多くのTPR含有タンパク質が熱ショックタンパク質ファミリーの構成員と相互作用することが知られていることから(Ballinger et al., 1999 Mol Cell Biol 19: 4535-45)、TTCI(テトラトリコペプチド反復ドメイン1)(12,40)と相互作用するCHIPの予測も理解できるものである(正確な予測ではない可能性があるが、それは元データでも疑問のある可能性がある)。純粋に推測的なものであるが、最近、フィラミンがカルシウム受容体および他の細胞信号伝達タンパク質と相互作用する骨格タンパク質であることが明らかになっていることから(Awata et al., 2001 J. Biol. Chem 4: 4)、CIB(カルシウムおよびインテグリン結合)タンパク質のFLN1(フィラミン)との相互作用は興味深いものである。
【0038】
ネットワーク内の全てのエッジの事後確率を計算するためのマルコフ連鎖モンテカルロ(MCMC)シミュレーション手法(Gilks et al., 1996 Markov chain Monte Carlo in Practice New York : Chapman & Hall/CRC ; Hastings, 1970 Biometrika 57: 97-109)を用いた(プログラムについては、添付資料A参照)。この手法は複雑な分布から事後情報を得る上で特に有用であり、それによって厖大な数のネットワーク構造(|V|個の頂点について、2|V||V|個の可能なネットワークがある)から十分なサンプリングを行うことができた.。この手法では、あるネットワークを別のネットワークより優先させると考えられる事前情報が知られていないことから、全てのネットワークにわたって均一な事前分布を用いた。任意のネットワークから開始し、可逆的ジャンプ法(Green, 1995 Biometrika 82: 711-732)を用いて、アルゴリズムの各反復でエッジの追加および除去の両方を行った。エッジの追加および除去によって、ネットワークは現在の状態Xから提案の状態Yに移動する。対称な提案分布を用いると、その新たな状態は下記の確率で許容される。
【数11】
Figure 2005503535
式中、L(.)はネットワークの尤度である。仮定の状態が許容される場合は、それが現在の状態となる。そこでこの方法は、事後確率に比例して各エッジを経時的に占有または非占有に維持しながら、全ての可能なネットワークの空間からネットワークをサンプリングするものである。
【0039】
約10個のサンプルから得られた事後分布を図10A〜Bに示してある。図10Aでは、いくつかのエッジが容易に見られることが認められ、周囲のバックグラウンドからかなり高い。2つの最も高いピークは、HSPA8-MRJ相互作用のものである。これらのようなエッジはシミュレーションでただちに現れるが、低確率のエッジは、バックグラウンドからそれらを識別するにはかなり多くの量のサンプリングを必要とし得る。図10Bには、ネットワークの各エッジについての事後確率を示してある。頂点20および27を水平方向に走り、垂直方向には頂点27に平行に走っている低い方の確率(「暗い方」)「線」は、非対称エッジ分布の影響を示している。例えば、頂点27は高い確率連結を有することから、そのエッジ分布は新たなエッジの追加を同一頂点に抑制する傾向がある。当然のことながら、いずれの頂点も複数の入エッジおよび出エッジを有し得る。しかしながら、これらネットワークのスケールなし性のため、高度に連結された頂点は相対的に希である。
【0040】
方法の説明で議論したように、現在は、多項分布を用いてネットワークの各頂点から出入りするエッジの分布を特徴付けており、ビン確率は酵母データへの適合から得たものである。例えば代謝ネットワーク(これも指数則挙動に従う)からのエッジ分布が種間で非常に類似していることが明らかになっていることから(Jeong et al., 2000 Nature 407: 651-4)、至適ではないが、酵母パラメータの使用は許容される初回通過試行であると思われた。理想的には、多くの種について分布を得たくなるものと考えられる。しかしながら、合理的に大きいデータ集合がないことが障害となり得ると思われ、不適切なエッジ分布によって、特に種間の予測において他の方法では認められると考えられる相互作用が隠されるかもしれない。従って、同じ平均を有するが分散が大きい分布では、十分に特性決定された系(例:酵母)からのパラメータを用いる。この要件は、下記式で定義されるシミュレーションに、負の多項分布(多項分布に代えて)を組み込むことで達成することができる。
【数12】
Figure 2005503535
図11A〜Bでは、異なるパラメータPiを有する負の多項分布を示してあるが、図11Cには多項分布を示してある。Piを上昇させることによって、図11Cに示した多項分布と同じ期待値を維持しながら、分布の分散を上昇させることが可能であることがわかる。しかしながら、期待値を一致させることができるが、多項分布以上の分散のみを得ることができる。それは、分散が低下するに連れて負の二項分布がポアソン分布となる傾向があり、ポアソン分布は同じ平均を有する多項分布より大きい分散を有するのが普通であるためである。
【0041】
実施の観点からすると、この手法は大きいネットワークを扱うことができる一方で、適切な計算情報源を使用することでかなり有効である。マットラブ(Matlab)における本発明者らの過去の実行よりかなり迅速であることが明らかになっている本発明の方法のCプログラミング言語実行を行う。さらに、各ノードが2,1GHz CPOを有する5ノードのベオウルフ(Beowulf)クラスター実施(running)リナックスを有することが有利である。定常分布を確立し(この場合は1〜2日間)、事後分布を得る(低確率エッジの分解能を有する事後分布を得るには多くの日数)のにかなりの時間を要する可能性があることから、適切なハードウェアおよびソフトウェアが利用可能であることが非常に重要であった。
【0042】
本発明の方法を改良するための一つの手段は、ドメイン間の「反発」相互作用を実行することである。それは、<0.5のドメイン−ドメイン相互作用確率を決して存在しない相互作用に割り当てることで達成することができる。注意深い正規化と「魅力的な」確率とのバランスを取ることが必要であるが、その特徴は予測相互作用の高分解能(事後プロットにおける、相対的に大きいピークおよび深い谷)を提供するはずである。自体の好ましい特性および好ましくない特性の集合を有するが、ツーハイブリッドデータはこの手法に特に貴重であることがわかるはずである。
【0043】
8.例:パラメータ推定の最新の方法
以下の例は、本発明の好ましい実施形態を例示するものである。この例では、下記式:
【数13】
Figure 2005503535
を用いずに、古い方法と比較してトレーニングデータから少なくとも2倍の情報を抽出できるようにするパラメータ{pij}およびp(d,d)を推定するさらに最新の方法を用いた。
【0044】
この例では、P(局所)の計算での3種類の異なるレベルのタンパク質構造を考える。最も高いレベルはPfamドメインに相当する。そのドメインは特異的であり、比較的長いことから、所定のタンパク質群内にあることは非常に希である。サッカロミセス−セレビジエ(パン酵母)プロテオームを試験系として用いて、0.001e−値カットオフレベルでHIMMER-2パッケージを用いて少なくとも一つのPfamドメインを有するタンパク質の特性決定を試みた(Eddy, 1998 Bioinformatics 14: 755-63)。少なくとも一つの相互作用を有することが知られている1771個のタンパク質を含むデータベースについて(スタンレー・フィールド・ラブ(Stanley Field′s lab)のホームページ:http://depts.washington.edu/sfields)、全ての酵母タンパク質の約30パーセントにおいてPfamドメインを提供することが可能であった。
【0045】
最低レベルは、タンパク質の全長にわたる実行ウィンドウで認められる4つの隣接するアミノ酸に相当する。特徴空間の大きさを小さくするため、6個の「文字」からなる相対的に小さいアルファベットに20種類のアミノ酸をマッピングした(表1)。このマッピングは、テイラーのアミノ酸分類(1993, J Theor Biol 164: 65-83)に基づいたものであり、同様の物理化学特性を共有するアミノ酸は一緒に分類されている。このマッピングから、6=1296個の固有の4元タプルを得ることができた。
【0046】
表1:アミノ酸の群番号へのマッピング。特徴分類は、群の一般的特性を説明するものである。
【表1】
Figure 2005503535
中間スケールの特徴は、やはり全タンパク質に広がる実行ウィンドウから取った10種類の隣接アミノ酸からなるものであった。この場合、正電荷、負電荷、疎水性、両親媒性、プロリン豊富性およびセリン豊富性などの6種類の特定の特性を見た。各10merについて、それら各特性の密度および6種類の各特性の強度を含めて得られる6要素の特徴ベクトルを分析した。この特徴ベクトルから、2種類の最も代表的な特性を選択して、その特定の10merを表し、複数の同じ最初の特性を有するベクトルがアルファベット順で選択される最初の2つの特徴を有するようにした。留意すべき点として、この表し方は10mer内のアミノ酸の順序に関して特有のものではなく、最初に1組の特性の密度を説明し、次にその10merに対して最も良好な2つのみを割り当てるものである。本明細書に記載のスケールおよび特徴は、各種の生物学的に妥当な方法で容易に選択されうるものと考えられる。例えば各アミノ酸ならびに各10merについて測定された疎水性、表面張力などの具体的な程度などによって、中間スケールを再調整することができると考えられる。選択される特徴は必ずしも至適なものではないが、現在の実行により、この分析レベルには十分な詳細データが得られる。
【0047】
表2: 10 量体ウィンドウで認められるアミノ酸群についてのスコアの決定
「x」は、所定の特徴群に入るアミノ酸の数である。
【表2】
Figure 2005503535
相互作用の確率を次のように割り当てた。前述のように、何らかの組み合わせの特徴が、相互作用ペアにおける各タンパク質内で認められる相互作用に関与すると仮定した。その相互作用を生じる特徴の具体的なペアを確認し、次に情報がないタンパク質についての予測にその情報を翻訳するため、既知配列を有するタンパク質間の多数の既知相互作用からなるトレーニングデータを用いた。このトレーニングデータを用いて、相互作用する可能性があるタンパク質の特徴集合に関する分析に基づいて、1組のタンパク質間に相互作用が存在するか否かを推定することを試みた。留意すべき点として、タンパク質−タンパク質相互作用確率の割り当ては、過去の作業に関係するものであって、ここではトレーニングデータからの肯定(存在する相互作用)と否定(相互作用不在)の両方の情報を利用しているが、本明細書に記載の他の形態の手法では、否定の情報は廃棄している。
【0048】
このモデルは、相互作用データが存在しない場合には、いずれの特徴ペアも0.5の確率で相互作用するように設定した。このモデルでは、この特徴−特徴相互作用の確率が0.5未満であるということは、特徴が「反発する」ことを示し、0.5より大きい確率は特徴が「引き付ける」ことを示している。互いに相互作用する一対の特徴(d,d)の確率は、以下のように計算される。
【数14】
Figure 2005503535
式中、n ijは特徴jとの相互作用でiが認められる回数(2つの相互作用するタンパク質が特徴iおよびjをそれぞれ有する回数)であり、n ijは特徴jとの相互作用でiが認められない回数(2つの相互作用しないタンパク質が特徴iおよびjをそれぞれ示す回数)である。最後に、γは否定および肯定の異なる種類のデータの不均一分布を反映するパラメータであり、コンピュータ科学において「ブースト」と呼ばれる概念に直接関係するものである。データがない場合にゼロ確率で複雑になるのを避けるため、式14の分子および分母にそれぞれΨ/2およびΨの値を加える。その場合にΨは、特徴−特徴相互作用確率がデータがない場合に0.5に設定されるようにする小さい正値(この試験では0.01に設定)である。
【0049】
ブーストを使用する必要性を説明するため、代表的なトレーニングデータ集合における否定(相互作用なし)の種類と肯定(相互作用存在)の種類が認められる回数をカウントすることができる。あるトレーニングセット内の既知エッジ数は、非存在エッジ数よりはるかに小さい。頂点を有する代表的な分子ネットワークにはV個の可能な有向エッジがあるが、実際に認められる有向エッジ数Eは通常はVよりかなり小さい。さらに、それぞれ均一な密度ρおよびρを有するネットワーク頂点間に分布する仮想特徴ペアであるxおよびyを考える。従って、特徴xおよびyを有する頂点間の存在するエッジの期待値はρρEに等しく、特徴xおよびyを有するがエッジを共有しない頂点ペアの期待値はρρ(V−E)に等しいということになる。
【0050】
このモデルが統計的整合性を有するには、特徴xおよびyが情報を含まない場合に、下記の関係が必要である。
【数15】
Figure 2005503535
この式においてE[]は期待値取得の演算子である。これは、ブーストパラメータγを1未満の適切な値に設定することで得ることができる。その性質を保証するγの推定量は下記のように定義される。
【数16】
Figure 2005503535
式16に変更を加えて、ネットワークを無向エッジと適合させることは非常に容易である。
【0051】
さらに、1組の既知の特徴−特徴確率を考慮して、1対のタンパク質(v,v)間の相互作用の確率を計算する方法に変更を加えた。以前の例では、タンパク質−タンパク質相互作用確率Pij(ハット)は、特徴−特徴相互作用確率の単純な平均p(d,dl)(ハット)として計算した。本明細書では、この等式に変更を加えて、トレーニングデータにおける関連する特徴の相対頻度を考慮する。
【数17】
Figure 2005503535
式中、fは特徴iの頻度である。留意すべき点として、導入された加重は、トレーニングデータ集合全体で認められる頻度が低い特徴ほど情報が多いという仮定に相当するものである。
【0052】
次に、トレーニング集合を3種類全ての特徴集合を用いて分析し、それぞれの相対的情報内容量を比較した。
【0053】
タプルなどの小スケールの特徴がPfamドメインなどの大スケールの特徴より小さい相互作用確率を有することが予想される。この予想は、図12Aに示したように正しいように思われる。ここでは、全てのタプル−タプル相互作用の確率を示してあり、x軸上の各タプルについて、そのタプルが他の各タプルと相互作用する確率を垂直方向の散布図として示している。このモデルから予想されるように、このプロットの密度は0.5を中心としたものである。ゼロへと向う確率の若干の「ドリフト」によって認められるように、タプルは肯定(誘引)より否定の情報(反発)を与えるようにも思われる。それとは対照的に、図12Bには、ドメイン−ドメイン相互作用の確率を示してある。留意すべき点として、一部にはカットオフE値が0.001に設定された場合に認められるPfamドメイン数が小さいために、これらの相互作用は非常にまばらである。合計で、126個のタンパク質−タンパク質相互作用しか認められず、両方のタンパク質が少なくとも一つのドメインを有していた。ドメインのレベルでは、それは448個の誘引および248553個の反発ドメイン−ドメイン相互作用となった。この図12におけるプロットと同様に、ほとんど全てのポイントがその線方向にあることから、それも0.5を中心としており、やはりほとんどのドメイン−ドメイン相互作用が、支持される情報を持たないことが示されている。しかしながら、ドメインがある相互作用で認められると、関与するドメインの種類についての知見から、さらに高い誘引および反発の確率が得られる。実際、一部のペアはかなり大きい強度を示し、0.9〜1または0〜0.1の範囲にある。ネットワーク内の非存在エッジ数が大きいことで予測されるように、否定または反発データが支配的である。図12Cでは、10merによって生じる特徴を示してある。729の可能な特徴中、122のみがデータ中に存在している。しかしながら、Pfamドメインのように、データ中で認められる特徴は、タプルの場合と比較して、肯定と否定の両方において強い相互作用シグナルを提供する。
【0054】
特徴の組み合わせが誘引シグナルまたは反発シグナルを高める上で役立つか否かを確認するため、タプルとPfamドメインの間の相互作用を分析した。図12Dに示したように、特徴の組み合わせによって、いずれか単独の特徴の場合よりかなり多くの情報が得られている。やはり、垂直線方向の全ての点は、所定のタプルがx軸上に示されたドメインと相互作用するという確率を示している。確率は少なくとも一つのドメインを有するタンパク質についてのみ得られるが、特徴の組み合わせが、それを行わない場合よりはるかに多い情報を提供するように思われる。
【0055】
タンパク質の特徴を、複数の長さスケールで定義および特性決定し、それらの相互作用確率を量化した。それぞれの情報包含量を決定して、それらの比較をより良好に行った。タンパク質vがタンパク質vと相互作用する確率p(v,v)(ハット)を、記載された各特徴集合について計算する。一組の相互作用確率を生じる認められた特徴集合の総エントロピーを、下記式を適用することで求める。
【数18】
Figure 2005503535
式中、pijはタンパク質iがタンパク質jと相互作用する確率である。特定の相互作用が情報を提供しない事前確率は0.5であることから、一組のタンパク質相互作用の総情報包含量は下記のように定義される。
【数19】
Figure 2005503535
所定の種類の特徴集合に基づいた一組のタンパク質相互作用についての情報の包含量を表3に示してある。
【0056】
表3:所定の特徴相互作用確率から得られた一組のタンパク質相互作用についての情報包含量
【表3】
Figure 2005503535
全てのレベルからの情報を下記式を用いて結合する。
【数20】
Figure 2005503535
本明細書に記載の多スケールタンパク質特性決定の主要な利点は、トレーニングに関する全ての可能な相互作用データを使用することができるという点である。以前では、Pfamドメインのみを用いたタンパク質の特性決定は、大半のタンパク質相互作用を定義できないことを意味しており、それは他のモデルに影響を与える欠点であった。厳密性が低いE値カットオフを用いることは過度のノイズを発生させずにネットワーク内のドメイン数を増加させる上で有効であると考えられるが、かなり緩いカットオフであっても多くて60〜70%しか網羅できない。
【0057】
4merタプルおよび10mer特徴ベクトルの両方について使用したアミノ酸/特徴マッピングによってかなりの情報が得られたが、いかなる数の他のマッピング、部分配列長さなども使用されている可能性があると考えられる。驚くべきことに、やや任意に選択された特徴ベクトルを用いて、かなりの情報を得ることが可能であった。他の選択によって、さらに良好な成績を提供することが可能であることは明らかである。タプルの形成に用いられる特定のマッピングおよび4merウィンドウを、それの管理可能な大きさ(標準的なアルファベットの20種類のアミノ酸を直接マッピングすることで、20個または160000個の別個のドメインが得られ、1600002種類のタプル−タプル相互作用の追跡が行われると考えられる)ならびに類似の特性を有するアミノ酸のそれの自然群分けの両方について選択した。特徴のベクトル(正電荷、負電荷、疎水性、脂肪族性、プロリンおよびセリン残基の延長)を、主として考え方の裏付けのために選択し、特徴は汎用性およびある程度の予測能力を有するものと考えた。10アミノ酸より大きいウィンドウを用いることが可能であることは明らかであり、それは恐らく、タンパク質間の相互作用を確立する上で重要な大スケール構造を検出する上で有用であると考えられる。この手法の関連する側面は、多スケールでの特徴の特性決定によって、小スケール効果を観察することが可能となり得るという希望である。例えば、新規な相互作用の機能形成または既存の相互作用の削除の得失を生じさせる置き換え事象を認めることが可能となる。小スケールの特徴での特性決定が、この種の分析に必要であると考えられる。ベクトル中のどの特定の種類の特徴が最も情報を提供したかについての決定について、現在評価中である。
【0058】
本発明は、本明細書に記載の具体的な実施形態に限定されるものではない。実際に、本明細書に記載のもの以外の本発明の各種変形形態が前記説明および添付図から当業者には明らかになろう。そのような変更は、添付の特許請求の範囲に包含されるものである。本明細書においては各種参考文献を引用しているが、それらの開示内容は、その全体が参照によって本明細書に組み込まれる。
【図面の簡単な説明】
【0059】
【図1】ネットワークのサンプリング。ネットワークトポロジーの分布を多項分布分布でモデル化している。個々のビンは同じトポロジーを有するネットワークの集合を含む。所定のビン内のネットワークは、エッジ構成に基づいて定義される確率を有する。
【図2】タンパク質当たりのドメイン数は、ネットワークの連結性を決定するものではない。データは、酵母ネットワーク相互作用データからのものである。(a)所定数のドメインを有するタンパク質の頻度。(b)タンパク質から出る(「×」)またはタンパク質に入る(「○」)エッジの数は、ドメイン数から独立である。誤差バーは、1標準偏差を表すものである。回帰線は、出エッジおよび入エッジそれぞれについて0.024(切片=0.96)および0.021(切片=0.97)の勾配で示してある。9個のドメインを有するタンパク質から出るエッジの数に関して逸脱が大きいのは、3つのデータ点のみがその集合を含むためである。8以上のドメインを有する他の全ての点は、単一のサンプルからなる(従って、不定分散を有する)。
【図3】k個の入(白抜き三角形)または出(黒円)エッジでの頂点の確率分布。エッジ分布は、DIPデータベースから計算し、それは1479個のエッジを有する1366個の頂点からなるものであった。
【図4】一般的なカリフラワー植物の目盛なし(自己相似)特性。別の目盛付き対象(比較相手)を加えない限り、完全な植物またはそれの部分の写真を見ているか否かを決定することは実質的に不可能である。(A)完全な植物、(B)同じ植物の小さい部分、(C)図(B)に示した部分の小部分。用いなければ目盛なし構造であるものに対して目盛の観念を提供するために、3つの写真全てにおいて同じ比較相手を用いた。この考え方は、パイトゲンらの著作(Peitgen et al., 1992, Chaos and Fractals: New Frontiers of Science, New York, Springer-Verlag)から得たものである。写真は、対象をスキャナー(Compas S4 100)で直接走査することで得たものである。
【図5】ネットワークトポロジーのみに基づいたネットワークのネットワーク尤度の対数。A、Bはそれぞれ、高(過剰)連結ネットワークおよび最小連結ネットワークを表す。Cは、より現実的な(至適)形態を示す。Dは、(C)と同じエッジ数を有するが、入エッジおよび出エッジの配置がそれほど好ましくないネットワークを示す。対数スコアが負側であるネットワークほど可能性が高い。ネットワークは、キュートネット(Cutenet;Koike and Rzhetsky, 2000, Gene 259: 235-244)によって作成した。
【図6】頂点当たりのエッジの分布は、スケール不変である。95%信頼区間とともにγの平均(約-2.3)を示している。詳細については本文を参照する。
【図7】小さいネットワークのMCMCシミュレーション。頂点は、1−転写因子BAS1(gi|101447)、2−オキソグルタミン酸デヒドロゲナーゼ前駆物質(gi|1070439)、3−ジヒドロリポアミドS−スクシニルトランスフェラーゼ前駆物質(gi|2144399)、4−細胞分裂制御タンパク質CDC43(gi|2144611)、5−タンパク質ファルネシルトランスフェラーゼ鎖RAM2(gi|266880)、6−プレmRNAスプライシング因子PRP21(gi|280467)、7−仮想タンパク質YBL067C(gi|626480)、8−強力なサプレッサタンパク質SUP45(gi|626763)、9−サプレッサ2タンパク質(gi|72877)、10−転写因子GRF10(gi|82888)、11−ジヒドロリポアミドデヒドロゲナーゼ前駆物質(gi|82983)である。a.ドメイン−ドメイン誘引確率のみに基づいたネットワークのエッジ確率。b.MCMCシミュレーションの109回繰り返し後のネットワークの全てのエッジの事後確率。赤色および青色はそれぞれ、全エッジ確率の平均(白色)より上および下の確率を表す。留意すべき点として、頂点交差部での値(+)のみが中間の平均面積を有し、内挿されており、単に勾配を示すためのものである。元データから存在することがわかるエッジは、{(3,2)、(4,5)、(5,4)、(7,6)、(9,8)、(9,9)、(10,1)および(11,3)}である。MCMC計算で除外されたエッジのパーセントは82%であった。
【図8】ヒトアポトーシス経路に関与する10種類のタンパク質間の相互作用の予測。ドメイン−ドメイン相互作用のみに基づいた確率だけを示してある。
【図9】既知エッジおよび予測エッジ。既知エッジは白抜き円で示してあり、予測エッジは「×」で示してある。
【図10】ネットワーク事後確率。
【図11】負多項分布は、多項分布に対する代替法である。図(a)および(b)は、(c)における多項分布と比較した負多項分布(それの相当する輪郭プロットより上の表面プロット)を示している。多項分布については、Pi=0.25およびN=14である。負多項式の場合、Piは定数の0.25倍に等しくなるように設定し、NPは一定に維持した。図(a)の場合、定数=4であり、図(b)では定数=1×10-6である。
【図12】特徴間の相互作用の確率。12A:タプル−タプル。12B:Pfamドメイン−ドメイン。12C:特徴ベクトル。12D:タプル−Pfam。
【0060】
添付資料A
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535
Figure 2005503535

Claims (17)

  1. 生体ネットワーク内の分子相互作用の確率を同定する方法において、
    (i)分子を保存された特徴の集合として表す段階;
    (ii)前記特徴間の誘引確率を計算する段階;ならびに
    (iv)段階(ii)の計算を用いて、生体ネットワーク内の分子相互作用の確率を同定する段階
    を有することを特徴とする方法。
  2. 生体ネットワーク内のタンパク質相互作用の確率を同定する方法において、
    (i)タンパク質を保存された特徴の集合として表す段階;
    (ii)前記特徴間の誘引確率を計算する段階;ならびに
    (iv)段階(ii)の計算を用いて、生体ネットワーク内の分子相互作用の確率を同定する段階
    を有することを特徴とする方法。
  3. 生体ネットワーク内のタンパク質相互作用の確率を同定する方法において、
    (i)タンパク質を保存された特徴の集合として表す段階;
    (ii)前記特徴間の誘引確率を計算する段階;
    (iii)タンパク質間の誘引確率を計算する段階;ならびに
    (iv)段階(ii)および段階(iii)の計算を用いて、生体ネットワーク内の分子相互作用の確率を同定する段階
    を有することを特徴とする方法。
  4. 生物学的により現実的なトポロジーを示すネットワークがより高い確率を割り当てられる、生体ネットワークのトポロジーを計算する段階をさらに有する請求項1、2または3に記載の方法。
  5. 前記保存された特徴がタンパク質のドメインまたはモチーフである請求項1、2または3に記載の方法。
  6. 前記保存された特徴が核酸分子モチーフである請求項1、2または3に記載の方法。
  7. 特徴間の前記誘引確率を、式6、14または16を用いて計算する請求項2または3に記載の方法。
  8. タンパク質間の誘引確率を式5または17を用いて得る請求項2に記載の方法。
  9. 生体ネットワーク内の分子相互作用の確率の同定を式1を用いて行う請求項1に記載の方法。
  10. 生体ネットワーク内のタンパク質相互作用の確率の同定を式1を用いて行う請求項2または3に記載の方法。
  11. 生体ネットワークの前記トポロジーを、式2、3、4または7を用いて決定する請求項4に記載の方法。
  12. 1組の分子間の相互作用の事後確率を計算する段階をさらに有する請求項1に記載の方法。
  13. 1組のタンパク質間の相互作用の事後確率を計算する段階をさらに有する請求項2またはに記載の方法。
  14. マルコフ連鎖モンテカルロ法を用いて、一組のタンパク質間の相互作用の事後確率を計算する請求項12または13に記載の方法。
  15. 式1を用いて、一組のタンパク質間の相互作用の事後確率を計算する請求項12または13に記載の方法。
  16. 少なくとも2種類のタンパク質間の相互作用を変えることができる化合物を同定するためのスクリーニング方法であって、
    (i)請求項2または3に記載の方法を用いて少なくとも2種類のタンパク質間の相互作用を同定する段階;
    (ii)段階(i)で同定された前記タンパク質を被験化合物と接触させる段階;
    (iii)前記被験化合物存在下での前記タンパク質の相互作用を、前記被験化合物の非存在下での相互作用と比較する段階
    を有し;
    被験化合物非存在下での相互作用と比較した場合の前記被験化合物存在下での前記タンパク質の相互作用における差が、タンパク質間の前記相互作用を変えることができる化合物の同定を示すものである方法。
  17. 少なくとも2種類の分子間の相互作用を変えることができる化合物を同定するためのスクリーニング方法であって、
    (i)請求項1に記載の方法を用いて少なくとも分子間の相互作用を同定する段階;
    (ii)段階(i)で同定された前記分子を被験化合物と接触させる段階;
    (iii)前記被験化合物存在下での前記分子の相互作用を、前記被験化合物の非存在下での相互作用と比較する段階
    を有し;
    被験化合物非存在下での相互作用と比較した場合の前記被験化合物存在下での前記分子の相互作用における差が、分子間の前記相互作用を変えることができる化合物の同定を示すものである方法。
JP2002564586A 2001-02-09 2002-02-11 分子相互作用ネットワークの予測方法 Pending JP2005503535A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US26797001P 2001-02-09 2001-02-09
US26922001P 2001-02-16 2001-02-16
US32360001P 2001-09-20 2001-09-20
US32359901P 2001-09-20 2001-09-20
PCT/US2002/004028 WO2002065119A1 (en) 2001-02-09 2002-02-11 A method for the prediction of molecular interaction networks

Publications (1)

Publication Number Publication Date
JP2005503535A true JP2005503535A (ja) 2005-02-03

Family

ID=27500923

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002564586A Pending JP2005503535A (ja) 2001-02-09 2002-02-11 分子相互作用ネットワークの予測方法

Country Status (5)

Country Link
US (1) US20030068610A1 (ja)
EP (2) EP1360483A4 (ja)
JP (1) JP2005503535A (ja)
CA (1) CA2437878A1 (ja)
WO (1) WO2002065119A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079923A (ja) * 2005-09-14 2007-03-29 Sony Corp 情報処理装置および情報処理方法、情報処理システム、プログラム、並びに、記録媒体
EP2431609A2 (en) 2010-09-21 2012-03-21 Fuji Jukogyo Kabushiki Kaisha Horizontal axis wind turbine

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2501111A1 (en) * 2001-11-02 2003-05-15 Gene Network Sciences, Inc. Methods and systems for the identification of components of mammalian biochemical networks as targets for therapeutic agents
US7415359B2 (en) 2001-11-02 2008-08-19 Gene Network Sciences, Inc. Methods and systems for the identification of components of mammalian biochemical networks as targets for therapeutic agents
US7451065B2 (en) * 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US9740817B1 (en) 2002-10-18 2017-08-22 Dennis Sunga Fernandez Apparatus for biological sensing and alerting of pharmaco-genomic mutation
US20040236515A1 (en) * 2003-05-20 2004-11-25 General Electric Company System, method and computer product for predicting protein- protein interactions
US20070174019A1 (en) * 2003-08-14 2007-07-26 Aditya Vailaya Network-based approaches to identifying significant molecules based on high-throughput data analysis
US8346482B2 (en) 2003-08-22 2013-01-01 Fernandez Dennis S Integrated biosensor and simulation system for diagnosis and therapy
US7580570B2 (en) * 2003-12-09 2009-08-25 Microsoft Corporation Accuracy model for recognition signal processing engines
US20050154535A1 (en) * 2004-01-09 2005-07-14 Genstruct, Inc. Method, system and apparatus for assembling and using biological knowledge
WO2007016703A2 (en) * 2005-08-01 2007-02-08 Mount Sinai School Of Medicine Of New York University Methods to analyze biological networks
CN117198426B (zh) * 2023-11-06 2024-01-30 武汉纺织大学 一种多尺度的药物-药物反应可解释预测方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1994019689A1 (en) * 1993-02-23 1994-09-01 The General Hospital Corporation A computer system and method for measuring an analyte concentration with an affinity assay
US5604100A (en) * 1995-07-19 1997-02-18 Perlin; Mark W. Method and system for sequencing genomes
US6132969A (en) * 1998-06-19 2000-10-17 Rosetta Inpharmatics, Inc. Methods for testing biological network models
US6203987B1 (en) * 1998-10-27 2001-03-20 Rosetta Inpharmatics, Inc. Methods for using co-regulated genesets to enhance detection and classification of gene expression patterns
US6772069B1 (en) * 1999-01-29 2004-08-03 University Of California, Los Angeles Determining protein function and interaction from genome analysis
WO2002011048A2 (en) * 2000-07-31 2002-02-07 Agilix Corporation Visualization and manipulation of biomolecular relationships using graph operators
US6594587B2 (en) * 2000-12-20 2003-07-15 Monsanto Technology Llc Method for analyzing biological elements

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007079923A (ja) * 2005-09-14 2007-03-29 Sony Corp 情報処理装置および情報処理方法、情報処理システム、プログラム、並びに、記録媒体
EP2431609A2 (en) 2010-09-21 2012-03-21 Fuji Jukogyo Kabushiki Kaisha Horizontal axis wind turbine

Also Published As

Publication number Publication date
WO2002065119A9 (en) 2004-01-15
EP1360483A1 (en) 2003-11-12
US20030068610A1 (en) 2003-04-10
EP1360483A4 (en) 2008-03-05
EP2051177A1 (en) 2009-04-22
CA2437878A1 (en) 2002-08-22
WO2002065119A1 (en) 2002-08-22

Similar Documents

Publication Publication Date Title
Badia-i-Mompel et al. Gene regulatory network inference in the era of single-cell multi-omics
Chowdhury et al. A review on multiple sequence alignment from the perspective of genetic algorithm
Liu et al. Network-based analysis of complex diseases
Eddy Computational analysis of conserved RNA secondary structure in transcriptomes and genomes
Han Understanding biological functions through molecular networks
Wong et al. DNA motif elucidation using belief propagation
Kiemer et al. WI‐PHI: a weighted yeast interactome enriched for direct physical interactions
Mahony et al. Transcription factor binding site identification using the self-organizing map
Krupa et al. Maximum likelihood calibration of the UNRES force field for simulation of protein structure and dynamics
Gomez et al. Towards the prediction of complete protein–protein interaction networks
JP2005503535A (ja) 分子相互作用ネットワークの予測方法
Zaborowski et al. A maximum-likelihood approach to force-field calibration
Balasubramanian et al. A graph-theoretic approach to testing associations between disparate sources of functional genomics data
WO2004081841A1 (en) Computational protein probing to identify binding sites
Godden et al. Recursive median partitioning for virtual screening of large databases
Katara et al. Phylogenetic footprinting: a boost for microbial regulatory genomics
Ivanov et al. Bioinformatics platform development: from gene to lead compound
He et al. De novo ChIP-seq analysis
Sukumar et al. Bio-and Chem-Informatics: where do the twain meet
Malard et al. Constrained de novo peptide identification via multi-objective optimization
Belda et al. Evolutionary computation and multimodal search: A good combination to tackle molecular diversity in the field of peptide design
EP1704412A2 (en) Estimating gene networks using inferential methods and biological constraints
Lihu et al. De novo motif prediction using the fireworks algorithm
Farah et al. DNA based disease prediction using pathway analysis
Lace et al. Characteristic topological features of promoter capture Hi-C interaction networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20081113

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20081120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090218

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090317