JP2005505031A - 多重破壊表現ライブラリから生成される遺伝子調節ネットワークを用いた生物学的発見 - Google Patents

多重破壊表現ライブラリから生成される遺伝子調節ネットワークを用いた生物学的発見 Download PDF

Info

Publication number
JP2005505031A
JP2005505031A JP2003530834A JP2003530834A JP2005505031A JP 2005505031 A JP2005505031 A JP 2005505031A JP 2003530834 A JP2003530834 A JP 2003530834A JP 2003530834 A JP2003530834 A JP 2003530834A JP 2005505031 A JP2005505031 A JP 2005505031A
Authority
JP
Japan
Prior art keywords
gene
genes
expression
network
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003530834A
Other languages
English (en)
Other versions
JP2005505031A5 (ja
Inventor
清哉 井元
多嘉緒 後藤
悟 宮野
康介 田代
ホーン マイケル デ
クリストファー ジェイ サヴォア
哲 久原
Original Assignee
株式会社ジーエヌアイ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ジーエヌアイ filed Critical 株式会社ジーエヌアイ
Publication of JP2005505031A publication Critical patent/JP2005505031A/ja
Publication of JP2005505031A5 publication Critical patent/JP2005505031A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/10Boolean models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

【課題】遺伝子間のネットワーク関連性を解明する方法を提供する。
【解決手段】本発明の実施形態は、遺伝子ネットワークを含む複雑な生物学的情報の解析に対する新しい推定方法の適用を含む。いくつかの実施形態においては、破壊データ及び/又は薬物誘発/抑制データは、生物内のいくつかの遺伝子に対して同時に得られる。新しい方法には、ブール推定法の修正されたものと、生物内の発現遺伝子間の関係を判断するためのこれらの方法の応用とが含まれる。付加的な新しい方法には、ベイズ推定法の修正されたものと、発現遺伝子間の原因及び効果の関係を判断するための、及びいくつかの実施形態においては調節された遺伝子の上流エフェクターを判断するためのこれらの方法の応用とが含まれる。ベイズ法の付加的な修正には、発現遺伝子のネットワークのグラフの推定を改善するために、不均一な分散とスプライン関数を含む様々な曲線当て嵌め方法との使用が含まれる。他の実施形態は、より正確に発現遺伝子間のネットワーク情報を提供するために、ブートストラッピング法の使用とエッジ効果の判断とを含む。本発明の方法は、従来の研究及び新しく行われた遺伝子発現研究から得た情報を用いて確認された。

Description

【技術分野】
【0001】
関連出願
本出願は、35U.S.C.セクション119(e)の下で、2001年9月26日出願の米国特許仮出願一連番号第60/325,016号、2001年11月29日出願の第60/334,372号、2001年11月29日出願の第60/334,255号、2001年11月29日出願の第60/334,230号、2002年4月8日出願の第60/370,824号、及び2002年7月19日出願の第60/397,458号に対する優先権を請求するものである。以上の米国特許仮出願の各々は、本明細書においてその全内容が引用により組み込まれる。
本発明の実施形態は、遺伝子間のネットワーク関連性を解明する方法に関する。本方法には、ブール論理、ベイズ推定、最大尤度解析、スプライン関数及び他の曲線当て嵌め法、及び機能的に相互に関連する遺伝子グループ間のエッジ関連性を判断する方法が含まれる。
【背景技術】
【0002】
戦略的ゲノムワイドな実験データから解明された遺伝子調節ネットワークは、既知及び未知の生物学的機能を有する遺伝子間の転写調節イベントを観察することから新しい遺伝子機能情報及び発現調節イベントを発見することを助けることができる。
遺伝子調節パスウェイを解明するように設計された方法は、以前に報告されている(1,2,3)。これらの研究で報告された推定のネットワークは、時間的経過、細胞周期、及び環境摂動から得られた遺伝子発現データセットから導かれたものであった(4,5)。しかし、このようなデータセットは、転写関連の調節制御機能を解明するように設計された包括的実験データに基づくものではないために、このようなデータセットから推定された制御関係は疑わしい。デノボ発現データセットから新規かつ複雑な遺伝子調節ネットワークを厳密かつ正確に識別するためには、適切な計算法と組み合わせたゲノム欠失変異体に関する発現実験の系統的かつ一体的戦略が必要である(6 9)
【0003】
推定調節ネットワークを作成するのに特に重要なことは、推定制御関係が導かれる発現実験の生物学的関連性である。競合的ハイブリッド形成破壊実験から生成されるゲノムワイドな発現データは、他の遺伝子の発現に対する遺伝子の存在又は不在の直接的効果の内部制御及び定量的測定という利点を提供する。制御関係を最大限に解明するために破壊実験を選択することは、有用な遺伝子調節情報を生成するためには価値があることである。
【0004】
【特許文献1】
米国特許仮出願一連番号第60/325,016号
【特許文献2】
米国特許仮出願一連番号第60/334,372号
【特許文献3】
米国特許仮出願一連番号第60/334,255号
【特許文献4】
米国特許仮出願一連番号第60/334,230号
【特許文献5】
米国特許仮出願一連番号第60/370,824号
【特許文献6】
米国特許仮出願一連番号第60/397,458号
【特許文献7】
米国特許仮出願一連番号第60/382,669号
【特許文献8】
米国特許仮出願一連番号第60/395,756号
【非特許文献1】
Friedman及びGoldszmidt、1998年
【非特許文献2】
Friedman他、2000年
【非特許文献3】
Konishi、2000
【非特許文献4】
Efron、1979年
【非特許文献5】
Efron及びTibshirani、1993年
【非特許文献6】
Daignan−forier及びFink、1992年
【非特許文献7】
Denis他、1998年
【非特許文献8】
Rolfes及びHinnebusch、1993年
【非特許文献9】
Nakao他、1999年
【非特許文献10】
Suzuki他、2001年
【非特許文献11】
Spellman他、1998年
【非特許文献12】
DeRisi他、1997年
【非特許文献13】
Hihara、2001年
【非特許文献14】
Liang他、1998年
【非特許文献15】
Akutsu他、2000年
【非特許文献16】
Anderson及びFinn、1996年
【非特許文献17】
Friedman及びSilverman、1989年
【非特許文献18】
Higuchi、1999年
【非特許文献19】
Akaike、1971年
【非特許文献20】
Priestly、1994年
【非特許文献21】
Hihara他、2001年
【非特許文献22】
Bustos及びGolden、1992年
【非特許文献23】
Anandan及びGolden、1997年
【非特許文献24】
G.M.Carman、1991年
【発明の開示】
【発明が解決しようとする課題】
【0005】
従って、遺伝子間のネットワーク関連性を解明する新しい方法が必要である。
【課題を解決するための手段】
【0006】
本発明は、システム内の遺伝子間又は遺伝子グループ間の相互関係の確立、例えば、システム内の遺伝子パスウェイ又は遺伝子ネットワークの確立に有用な方法を提供する。一実施形態においては、遺伝子ネットワーク又は遺伝子パスウェイは、本発明で提供されるように、改良ブール法、改良ベイズ法、又はブール法及びベイズ法の組合せを用いた遺伝子破壊発現プロファイルの解析に基づいて構成することができる。別の実施形態においては、遺伝子ネットワーク又は遺伝子パスウェイは、薬品、例えば薬物により影響された遺伝子の発現プロファイルの解析に基づいて構成することができる。更に別の実施形態においては、薬品により影響された遺伝子ネットワーク又は遺伝子パスウェイは、遺伝子破壊発現プロファイル及び薬品により影響された発現プロファイルから得られる遺伝子ネットワーク又は遺伝子パスウェイを解析することにより構成することができる。
【0007】
一般に、遺伝子破壊発現プロファイルは、各遺伝子が個々に又は例えば発現プロファイルをもたらす関連機能によって他の遺伝子と共に破壊された遺伝子ライブラリの発現プロファイルに基づいて得ることができる。例えば、1つの遺伝子ライブラリを選択することができる(例えば、ポリメラーゼ鎖反応(PCR)プライマーを含む他の判定基準に基づいて選択された全ゲノム又は一連のゲノム)。どのように遺伝子ライブラリを選択しても、一旦選択されれば、ライブラリの各遺伝子は、個々に及び/又は他の遺伝子と共に破壊することができ、各々が他の非破壊遺伝子と共に少なくとも1つの破壊遺伝子を包含するライブラリの集合がもたらされる。すなわち、100個の遺伝子を選択すれば、得られるライブラリは、少なくとも101個の異なるサブライブラリ、例えば、非破壊遺伝子又は野生型のサブライブラリが1つと、100個の遺伝子のそれぞれに対して少なくとも1つの破壊サブライブラリとから構成されることになる。すなわち、破壊遺伝子のライブラリを作成することができ、各サブライブラリ及び全ライブラリに対する発現プロファイルを得ることができる。
【0008】
薬品に影響された発現プロファイルは、選択遺伝子を含むシステムに1つ又はそれ以上の望ましい薬品を投与し、薬品投与の異なる投与量又は異なる時点での遺伝子の発現プロファイルを収集することにより得ることができる。薬品が遺伝子発現に何ら影響を及ぼさない場合もあり、薬品が抑制的である(例えば、遺伝子発現を減少させる)場合もあり、薬品が遺伝子発現を増大させる(例えば、誘発物質である)場合もある。
【0009】
遺伝子発現プロファイルは、任意の適切な手段、例えばマイクロアレイを用いて定量的な形で得ることができる。一実施形態においては、遺伝子発現プロファイルは、遺伝子発現行列、例えば、遺伝子を変質及び非変質に分類する2値行列に編成することができる。別の実施形態においては、データを正規化し、それによって遺伝子発現の定量的関係を明らかにする「同等セット」を導入することができる。同等セットから、遺伝子を互いに関連付けるネットワーク情報を作成することができる。次に、ネットワークを用いて遺伝子間の機能関係を判断することができる。次に、遺伝子間の推定された機能関係を用いて、薬物及び/又は生物学的影響を予測することができる。その後、これらの予測は、例えばマイクロアレイ実験を用いて実験的に試験することができる。このプロセスにより、本発明者が遺伝子発現の「最終共通パスウェイ」と呼ぶものをもたらすことができ、すなわち、1つの遺伝子の機能の変化は、変化した遺伝子から「下流」の遺伝子に影響を及ぼす。
【0010】
本発明の一実施形態によれば、本発明の改良ブール法を用いることにより、直接影響された遺伝子からの「下流」効果を解析することができる。本発明の別の実施形態によれば、本発明の改良ベイズ法を応用することにより、影響された遺伝子から「上流」に行くことができる。本発明は、非線形及び/又はノンパラメトリック回帰モデルを用いる、ベイズ遺伝子ネットワーク解析のための新しい手法を提供する。この手法を用いるということは、因果関係に関して何ら推測的仮説を立てる必要がなく、むしろ因果関係を推定することができ、それによって「上流」又は「初期パスウェイ」を提供し、これによって薬物又は治療により影響されるように観察された遺伝子が、影響が観察された遺伝子に対して上流の関係にある他の遺伝子によりその発現を変更させられることを意味する。本発明は、遺伝子ネットワークのベイズグラフを評価するための、本明細書でBNRCと呼ぶ改良判定基準を提供する。すなわち、遺伝子関係は、BNRC判定基準を最小にするように選択される。
【0011】
他の実施形態においては、データのガウス分布又は他の仮定された分散に依存しない他の新しい方法が提供される。むしろある特定の実施形態においては、データの分散を測定し、観察された分散を用いてBNRC判定基準に影響を及ぼすことができる。このような不均一誤差分散及び相互作用と共にノンパラメトリック回帰を用いて、得られたデータの曲線当て嵌めを最適化し、望ましい分散を有するデータを得るのに必要な実験数を予測することができる。このような方法を用いて、望ましい程度の精度及び信頼度を有し、上流及び下流効果の両方をもたらす遺伝子ネットワーク情報を得ることができる。いくつかの実施形態においては、新しいベイズモデル及び罰則付き最大尤度推定(PMLE)は、同様の結果を生じる。
【0012】
更に他の実施形態においては、2つの遺伝子間の関係は、1つの遺伝子の発現を別の遺伝子の発現と比較したグラフを解析することにより解明することができる。このようなグラフは、線形又は非線形とすることができる。関係を特徴付けるために、いくつかの実施形態においては、線形スプライン、B−スプライン、フーリエ変換、ウェーブレット変換、又は他の基底関数を用いることができる。いくつかの場合においては、B−スプラインを用いると便利である。
【0013】
他の遺伝子を調節するのに特定の遺伝子又は一連の遺伝子が重要であるか否かを判断することが非常に有用になる可能性がある。しかし、いくつかの場合においては、データの外れ値が結果の解釈を複雑にする可能性がある。この問題は、外れ値がネットワーク全体における遺伝子群の境界近くにある場合に、特に厄介になる可能性がある。すなわち、ある特定の実施形態においては、エッジ強度及びベイズ因果性の方向の信頼度を判断することができる境界効果を解明することができる。
他の実施形態においては、線形スプラインを用いて遺伝子発現の時間経過を判断することができる。スプラインを用いると、比較的鈍感な可能性がある従来技術の「フォールド・チェンジ」法よりも、時間順になったデータの解析の信頼度を向上させることができる。
【0014】
上述の一般的方法の1つ又はそれ以上を用いて、本発明は、有益であり、かつ酵母遺伝子に対する公知のいくつかの結果により確認される遺伝子ネットワーク情報を提供する。しかし、本方法は、任意の遺伝子ネットワーク(例えば、「トランスクリプトーム」)、及びタンパク質レベルでの相互作用(プロテオーム)にも広く応用可能である。更に、1つ又はそれ以上の新しい方法を用いて、抗真菌療法に関する機能遺伝子間の新しい関係が判断された。すなわち、本発明の方法を用いて、遺伝子発現の最初と最後の共通パスウェイの理解に基づき、推定治療ターゲットを予測することができる。
本発明をその特定の実施形態に関して説明する。
【発明を実施するための最良の形態】
【0015】
以下の説明は、酵母菌であるSarchomycesでの研究から取った特定の実施例を含む。酵母菌遺伝子間の関係を解析する方法は、真核生物、原核生物、及びウイルスを含む異なる種の遺伝子間の関係を解析するのにも等しく応用可能である。従って、以下の説明及び実施例は、例示的であり、本発明の範囲を限定しないものとする。
【0016】
I.多破壊完全ゲノム発現ライブラリから生成した酵母菌の遺伝子調節ネットワークを用いた生物学的発見
戦略的ゲノムワイドな実験データから解明された遺伝子調節ネットワークは、既知及び未知の生物学的機能の遺伝子間の転写調節イベントの観察からの新しい遺伝子機能情報及び発現調節イベントの発見を助けることができる。推定調節ネットワークの作成において特に重要なことは、推定制御関係を導いた発現実験の生物学的関連性である。競合的ハイブリッド形成破壊実験から生成したゲノムワイドな発現データは、他の遺伝子の発現に対する遺伝子の存在又は不在の直接的影響の内部制御及び定量的測定という利点を提供する。有用な遺伝子調節情報を生成するためには、制御関係が最大限に解明されるように破壊実験を選択することが重要である。転写調節に関与することが既知の120個の遺伝子に関する転写調節を解明するのに信頼性があって包括的なデータセットを作成するために、本発明は、既知の転写因子と以前には未知であったがこの発現ライブラリで発見された生物学的機能を有する他の遺伝子との間のいくつかの新しい調節関係を明らかにする。
【0017】
本発明では、図1に示すように、酵母菌ゲノムに対して全ゲノム生物学的発現実験と遺伝子調節推定とを組み合わせた系統的な反復性手法を実施した。いくつかの実施形態においては、実験毎に1つの遺伝子の発現を破壊する数百の全ゲノム発現実験のライブラリを作成するところから開始された。このデータから、計算的技術を用い、遺伝子発現調節関係の近似値を推測した。次に、コンピュータ可視化及びシミュレーションソフトウエアを用いて調節関係の生物学的関連性を調べ、他のデータベースを通じて、及び、組合せ破壊実験を含む更なる実験を通じて、新規又は生物学的に興味あるサブネットワークに関する本発明の発見を確認した。
【0018】
本発明は、全ゲノム酵母菌c−DNAマイクロアレイを用いて遺伝子発現データライブラリを構成する。このライブラリは、各々が相同的組換えにより破壊された1つの遺伝子を有する120個の酵母菌株に関する発現実験から成っていた。このライブラリ内の各遺伝子は、転写調節に関与する因子であると「酵母菌プロテオームデータベース(YPD)」内に報告されているので、実験にはこれを選択した。以前に報告された遺伝子調節ネットワークにおいては、遺伝子が、それ自体及び他の調節遺伝子と相互作用することができることが示されている(10)。この発現ライブラリから階層的な調節関係を再構成するために、いくつかの実施形態においては、一般的なループ調節関係に適応する新しいブールアルゴリズムが開発された。図2に示すように、本方法によりモデル化した遺伝子調節関係は、各発現実験で測定した5871個の遺伝子のうちの2つの任意の遺伝子間の遺伝子発現の上向き調節又は下向き調節の有向グラフとして示すことができる。本発明は、調節制御関係の552個の遺伝子メンバーモデルを構築し、次に、98個の公知の転写因子から成るサブネットワークモデルを更に限定した。図3に示すように、得られたモデルは、包含遺伝子とこれらの遺伝子間の2953個の推定調節リンクとを表す合計552個のノードを包含する。
【0019】
いくつかの実施形態においては、「YPD」に定めた細胞機能役割(CFR)によるネットワークモデル内の転写因子が分類された。図4は、ネットワーク内の分類した転写因子間の制御関係を示す。SKN7及びHMS2のみが、細胞周期に関連する遺伝子の発現に直接影響を及ぼしている。本発明は、「炭水化物代謝」遺伝子から発して全ての他の機能遺伝子グループまで至るいくつかの制御線を識別した。この発見は、多くの細胞プロセス及び代謝パスウェイのエネルギに依存する性質と一致する。
図4に示すように、際立った特徴は、液体脂肪酸代謝転写因子の発現レベルが、専ら炭水化物代謝転写因子の制御下にあったことである。この関係には、グルコース反応パスウェイを伴うリン脂質合成パスウェイに関与するタンパク質間の相互作用という説明が与えられ、脂質信号パスウェイ及び他の脂質合成パスウェイが報告されている(11)
【0020】
本発明の新しい方法を用いて、全ての遺伝子発現実験データから調節及び非調節遺伝子を有する転写因子のような発現調節遺伝子間の詳細な関係が更に調査された。既知の機能を有する遺伝子による及び/又はそれに対する発現制御により、未報告の生物学的機能を有する遺伝子の調節役割を特徴付けることができる。図5は、細胞分裂調節及びDNA複製/修復調節に関与する転写因子間の新しく解明された制御関係の例を示している。本発明は、細胞分裂調節及びDNA複製/修復に対応するサブネットワーク内の2つの別個の機能ブランチが、UME6及びMET28で結合されていることを見出したが、これは、これらの相互依存調節パスウェイの発現調節を調整する際にこの2つの転写因子が重要な役割を有することを示している。MET28は、その名前が示す通り、以前はメチオニン代謝に関する転写因子を含む特徴を有していた(12)。染色体分離の調節におけるMet28pの新しい推定役割は、交配型の2ハイブリッド検定における染色体分離タンパク質の大きなネクサスの一部として既知の染色体分離成分Smc1pとのその相互作用が報告されていることにより裏付けられている(13)
【0021】
上述のサブネットワーク内の遺伝子のコード配列及び上流領域の配列解析を通じて、転写因子及びそのターゲット遺伝子とDNA結合配列との間の配列レベル制御機構が検証された。多くの減数分裂遺伝子の全体的な転写調節として公知(14 15)のUME6及びその制御システムの場合は、本発明のモデル(16)のUME6によって制御される34個の遺伝子の上流領域の「モチーフ誘発のための多重期待値最大化(MEME)」解析が行われた。本発明は、2つのコンセンサス配列、TAGCCGCCGA(配列識別番号1)及びTGGGCGGCTA(配列識別番号2)を見出したが、これらは、34個の遺伝子にそれぞれ14.7%及び32.4%存在し、「MEME」検索によれば有意なP値を有していた。「TRANSFAC」データベースによれば、TAGCCGCCGAは、Ume6pの結合部位として形成され(14)、TCGGCGGCAは、CAR1のリプレッサーの結合部位として報告されており(17)、CAR1は、Ume6p(Ume6p、Sin3p、及びRpd3p)を含む3成分複合体により抑制された(18)。Ume6p関連結合モチーフ以外には、11個の減数分裂関連遺伝子の上流には他の「MEME」コンセンサス配列は存在せず、この発見は、これらの11個の遺伝子がUME6により専ら調節されており、Ume6pがその発現に直接影響を及ぼしていることを示唆している。2つの他の遺伝子のみが推定結合配列を有したが、本発明者の実験においては、UME6の計数に発現の影響は見られなかった。
【0022】
実験的に為された発現制御のネットワークモデルの発見は、入手可能な生物学的文献から容易に再構成されず、予め編集されたパスウェイデータベースにも存在しない遺伝子調節パスウェイに関連する特定の生物学的洞察を可能にする。本明細書は、新しい遺伝子機能情報、及び新しい調節機構を発見するのに、このようなシステムが有用であることを示している。本方法及び同様の戦略を用いて全ゲノム発現ライブラリから階層型調節パスウェイを解明することにより、合理的な薬物の発見及び農芸化学ターゲッティングに応用することができる転写調節の素早い洞察が可能になることになる。
【0023】
方法
ブールネットワーク推定アルゴリズム
一組の遺伝子破壊実験から遺伝子発現行列Eを作成する。行列要素E(a,b)の値は、遺伝子「」が遺伝子「a」の欠失により引き起こされる破壊体の正常状態に対する遺伝子「b」の発現比を示している。
(1)遺伝子発現行列Eを用いて、遺伝子「b」の強度が、所定の閾値θよりも高く変化した場合、又は遺伝子「a」の破壊により生じる所定の閾値1/θよりも低く変化した場合、遺伝子「a」は、遺伝子「b」に直接的又は間接的に影響すると定められ、2値行列R内の要素(a,b)の値は1、すなわち、R(a,b)=1に設定される。従って、2値行列Rは、閾値(θ又は1/θ)で遺伝子発現行列Eの各要素の値を分断することにより作成される。
(2)2値行列Rにおいては、遺伝子「a」及び「b」が互いに影響する場合、すなわち、R(a,b)=R(b,a)=1の場合は、どちらの遺伝子が上流に位置するかを判断することができない。これが、本方法の限界又は不利な点であるが、同等セットを導入すると、互いに影響する遺伝子から成るグループのセットを形成して、このグループが1つの遺伝子と仮定される。
(3)遺伝子の順序化(位相的分類):同等セットは、半順序関係を有し、同等セットを半順序化(位相的分類)して引き出してネットワークを推定することができる。
(4)骨格行列:同等セット間の半順序化接近可能性行列には、間接的影響が含まれる。これらを除去して骨格行列を作るために、各同等セットに対して以下のように定められたランクを設定した。ランク1に属する同等セットは、別の同等セットに間接的影響を及ぼさない。ランク3に属する同等セットは、ランク2のセットに直接的影響を及ぼし、ランク1のセットには間接的影響を及ぼす。各同等セットにランクを設定した後、半順序化接近可能性行列から全ての間接的影響を除去する。
(5)多重レベル有向グラフの作成:骨格行列内の各要素の値に基づいてノード間に線を引く。
【0024】
マイクロアレイ実験
遺伝子発現に関する情報は、当業技術で公知の任意の従来の方法を用いて得ることができる。例えば、各遺伝子に独自の相補的DNA(cDNA)が基板上に配置されて、そのcDNAの発現が測定されるマイクロアレイを用いることができる。サンプルから得られるRNAは、対応するcDNAにハイブリッド形成することにより解析することができ、様々な方法を用いて検出することができる。いくつかの実施形態においては、本明細書においてその全内容が引用により組み込まれる、2002年5月23日出願の米国特許仮出願一連番号第60/382,669号に説明されているようなマイクロアレイ検出装置及び/又は方法を用いることが望ましいとすることができる。
【0025】
本発明では、全ゲノム酵母菌cDNAマイクロアレイ(13)を用いて遺伝子発現データを収集した。BY4741(MATa、HIS3D1、LEU2D0、MET15D0、URA3D0)は、野生型株のように働いた。株BY4741に対する遺伝子破壊体は、リサーチ・ジェネティクス・インコーポレーテッドから購入した。細胞は、YRD(1%酵母菌抽出物、1%バクトペプトン、2%グルコース)内に接種し、30℃で対数増殖期のOD600が1.0になるまで増殖させ、遺伝子発現の検定を行うために細胞を収集してmRNAを単離した。親株は、各破壊体株に対して用いた対照であった。
【0026】
データの正規化
cDNAマイクロアレイ検定により、155個の破壊体から5871個のmRNA種の量を測定した。Cy3及びCy5間の蛍光強度の差により、発現量の比に偏りが生じる。各発現プロファイルの発現量比は正規化された。比の偏りは、各発見ブロックで一定の傾きであったために、直線回帰を計算して各ブロックの平均値比を1.0に正規化した。比の対数値を用いて標準発現レベルを示し、これによって比の対数値を見出し、これらの対数値の平均及び標準偏差を計算した(表1参照)。UME6がYPD(33)破壊体での「全体的調節因子」であると定められたUME6(YDR207C)破壊体発現アレイから発見された全遺伝子の発現レベルの標準偏差(SD)は、0.4931であり、従って、アレイデータに全体的なSDが0.5よりも大きい容認できない数の誤差が存在した可能性があると考えられる。従って、いくつかの実施形態においては、このような実験は解析から除外することができる。データのSDを異なる方法で選択することができることを認めることができる。0.5未満のSDを選択することにより、上述の種類の誤差が全体的な遺伝子ネットワーク推定に比較的影響を及ぼしにくいという点で、比較的保守的な手法をとることができる。しかし、0.4未満、0.3未満、0.2未満、0.1未満、約0.05未満、約0.01未満、約0.005未満、又は約0.001未満のSDを選択することができることを認めることができる。
【0027】
遺伝子の選択
YRDにおいては、314個の遺伝子が「転写因子」であると定められ、このうち98個は、これまでに制御機構の研究が為されている。この98個の「転写因子」により制御された遺伝子を含む552個の遺伝子の発現プロファイルデータを5871個のプロファイルから選択した。このようにして、120個の遺伝子破壊実験でのこれら552個の遺伝子の値に基づく発現プロファイルデータセットから遺伝子調節ネットワークが構成された。
【0028】
Figure 2005505031
Figure 2005505031
【0029】
II.ベイズネットワーク及びノンパラメトリック回帰を用いる遺伝子間の遺伝子ネットワーク及び機能構造の評価
1.序文
遺伝子工学の発達により、マイクロアレイ遺伝子発現データのような大量の有用なデータが提供されている。また、分子生物学及び生物情報学の分野においては、遺伝子間の関係を解析することに多大な関心が寄せられている。しかし、データの次元及び複雑性が原因で、ノイズに埋もれている構造を見つけることは容易な仕事ではない。生物学的データから有用な情報を抽出するために、統計的な観点から理論及び方法論が開発されることが期待されている。本発明の目的は、遺伝子間の関係をはっきりと理解するための新しい方法を確立することである。以下の実施例1においては、このような方法のための数学的基礎を提供する。
【0030】
本発明のいくつかの実施形態においては、グラフ理論手法からマイクロアレイ遺伝子発現データを用いて遺伝子ネットワークを構築するためにベイズネットワークを使用する。Friedman及びGoldszmidt(1998年)は、ベイズネットワークを用いることにより遺伝子リンクを構成するための興味ある方法を提唱した。彼らは、遺伝子の発現値を離散化し、多項分布に基づいてモデルを当て嵌めることを考えた。しかし、離散化に用いる閾値の選択(実験のみによるものではない)が依然として問題である。閾値は、結果の影響に確実に本質的な変化をもたらすものであり、閾値が適切でなければ、誤った結果に至る。一方、近年、Friedman他(2000年)は、離散化が情報の損失につながる可能性があると指摘した。発現データを連続値として用いるために、彼らは、直線回帰に基づいてガウスモデルを用いた。しかし、このモデルは、線形依存性しか検出することができず、関係の全体像を生成することはできない。本発明では、ベイズネットワークを用いて遺伝子ネットワークを構築するための新しい方法を開発した。遺伝子間の線形依存性のみでなく非線形構造も捉えるために、本発明は、ガウスノイズを有するノンパラメトリック回帰モデルを用いる。ノンパラメトリック回帰は、予め機能関係に関する知識なしに複雑な非線形形式の予期される応答を求めるために開発された。ベイズネットワークの新しい構造のために、モデルを評価するための適切な判定基準が必要であった。従って、本発明は、ベイズ統計学からの新しい判定基準を含む。これらの方法を用いることにより、本発明は、以前の方法の欠点を克服し、より多くの情報を獲得した。また、本発明の方法は、特別な場合として以前の方法も含む。本発明の方法は、S.cerevisiae細胞周期データを解析することにより確認された。
本発明者は、これらの方法に従ってベイズ解析を用いると、遺伝子間の上流使役関係が識別され、これによって潜在的治療ターゲットを特定することができることを発見した。
【0031】
2.ベイズネットワーク及びノンパラメトリック回帰
ベイズネットワークの枠組みを用いて、遺伝子を確率変数とみなし、同時確率を分解して条件付き確率の積にする。例えば、ランダムベクトルの一連の観測値があれば、任意の観測値を得る確率が条件付確率密度に依存する可能性があるということができる。いくつかの実施形態においては、変数間の関係を捉えるためにノンパラメトリック回帰モデルを用いることができる。様々なグラフィックツールを用いてこの関係を解明することができる。例えば、遺伝子関係のグラフを形成するのに多項式、フーリエ級数、回帰スプライン基底、B−スプライン基底、ウェーブレット基底などを用いることができる。適正なグラフを選択する際の困難な点の1つは、システム内の分散及びノイズを適正に評価することである。
【0032】
3.適正なグラフを選択するための判定基準
いくつかの実施形態においては、π(θG|λ)をハイパーパラメータベクトルλを有する未知のパラメータθGに対する事前分布とすることができ、logπ(θG|λ)=0(n)とすることができる。データXnの周辺確率は、パラメータ空間に亘って積分することにより得られ、本発明では、最も大きい事後確率を有するグラフGを選択する。Friedman及びGoldszmidt(1998)は、ベイズネットワークモデルとして多項分布を考え、また、パラメータθGにディリクレ事前を仮定した。この場合、ディリクレ事前は、共役事前であり、事後分布は、同じ分布クラスに属している。次に、(4)の積分の閉鎖形の解が得られ、これは、グラフを選択するためのBDeスコアと呼ばれる。BDeスコアは、多項モデルに限定されているが、本発明は、より一般的で様々な状況でグラフを選択するための判定基準を提唱する。
【0033】
上述のモデルベースの判定基準を構成する際の問題点は、積分をどのように計算するかということである。用いることができる方法のいくつかには、マルコフ連鎖及びモンテカルロ法が含まれる。本発明のいくつかの実施形態においては、積分に対するラプラス近似式を用いる。このようにして、実施例1の式(5)の判定基準BNRCが最小になるように最適なグラフを選択する。
この判定基準は、log(θG|λ)=0(n)で導かれる。log(θG|λ)=0(1)であれば、モードθGは、最大尤度推定値MLEに同等であり、判定基準は、高次項0(n-j)(j≧0)を除去することにより、BICとして公知のベイズ情報判定基準をもたらす。Konishi(2000)は、カルバック・ライブラー情報量及びベイズ手法に基づいて、モデル選択判定基準を構成するための一般的枠組みを提供した。以下の実施例1に見られるように、グラフは非周期的として構成されているために、最終的なグラフは、BNRCを最小にするものとして選択することができ、各ローカルスコアであるBNRCjを最小にする必要はない。
【0034】
4.BNRC判定基準を用いたグラフ及び関連構造の評価
例えば、本発明の方法は、図に示すことができる。本発明の方法の本質的な点は、ノンパラメトリック回帰と、ベイズ統計からグラフを選択するための新しい判定基準とを用いることである。実施例1の第2節のノンパラメトリック回帰に関しては、基底関数としてB−スプラインを用いる。実施例1の図1は、等距離節t1・・・,t10を有する次数3のB−スプラインの例である。バックフィッティングアルゴリズムを用いることにより、βjkの値が与えられると、このモードを得ることができる。バックフィッティングアルゴリズムは、以下の実施例1に示す。
【0035】
このモードは、ハイパーパラメータβjkに依存し、βjkには最適値を選択すべきである。本発明の方法においては、βjkの最適値は、BNRCjを最小にする値として選択される。
B−スプライン係数ベクトルは、実施例1の式(6)を最大にすることにより推定することができる。式(6)のモードは、罰則付き尤度推定値と同じであり、ハイパーパラメータλjk又はβjkを罰則付き尤度の平滑化パラメータとみなすことができる。従って、ハイパーパラメータは、曲線をデータに当て嵌めるのに重要な役割を演じる。
【0036】
5.計算実験
本発明では、モンテカルロシミュレーションを用いて本方法の特性を調べた。データは、人為的グラフ及び変数間の構造(実施例1の図2)から生成し、その後、次のように結果がまとめられた。判定基準BNRCは、データの線形及び非線形構造を検出することができる。BNRCスコアにおいては、グラフが増大しすぎる傾向がある場合がある。従って、本発明では、AICとして公知のアカイケの情報量判定基準を用い、両方の方法を用いる。AICは、元来、最大尤度法により推定された評価モデルのための判定基準として導入された。しかし、本方法により推定されたものは、最大罰則付き最大尤度推定と同じであり、これは、MLBではない。Sjkのトレースは、適合曲線の自由度を示すものであり、大いに役に立つ。すなわち、trSjkがほぼ2であれば、依存性は線形であるとみなすことができる。本発明は、親変数を加えるか否かを決めるためにBNRC及びAICの両方を用いる。
【0037】
これらの方法を検証するために、本発明では、Spellman他及びFriedman他により論じられているS.cerevisiae細胞周期データを解析した。データは、800個の遺伝子及び77回の実験から収集した。真のグラフの大きさに関する情報がないために、事前確率πGを定数として設定した。ノンパラメトリック回帰は、20個のB−スプラインで構成される。B−スプラインの数は、必要に応じて変化させることができる。ハイパーパラメータは、適合曲線の平滑性を制御し、B−スプラインが最小のデータに良好に適合するようにハイパーパラメータ及びB−スプラインの数を選択することが望ましいとすることができる。
【0038】
解析の結果は、次のようにまとめることができる。実施例1の図3は、1つの遺伝子によりCLN2、CDC5、及びSVS1を予想した時のBNRCスコアを示す。BRNCスコアが小さい遺伝子は、ターゲット遺伝子に作用を及ぼす可能性が高い。どの遺伝子がターゲット遺伝子と関連するかを観察することができ、ターゲット遺伝子の発現に強く依存する遺伝子のセットが見出される。実際、これらの情報を用いることにより簡潔なネットワークを構築することができる。最適なグラフは、相互作用の効果を考慮することにより、この簡潔なネットワークの修正版とみなすことができる。遺伝子間に線形依存性がある場合は、親子関係を逆にするとBNRCスコアが良好である。従って、特に、依存性がほぼ線形である場合は、グラフ内の因果関係の方向は厳密ではない。MCD1、CSI2、YOX1等のようなFriedman他の結果を媒介する遺伝子もある。これらの遺伝子のほとんどは、重要な役割を演じると報告されている。遺伝子間の関係の多数は、ほぼ線形である。しかし、本発明は、線形モデルがめったに見つけることができないいくつかの非線形依存性を見出すことができた。
【0039】
実施例1の図5は、細胞周期に入るプロセス及びその近傍により分類された遺伝子に関連する推定グラフを示す。図5ではいくつかのブランチを省略しているが、重要な情報は示している。本発明及びFriedman他により与えられたネットワークに関して、本発明者は、親子関係を確認し、2つのネットワークの両方が互いに類似することを観察した。特に、本発明のネットワークは、Friedman他により報告された典型的な関係を含む。両ネットワークの差に関しては、親であるSVS1に注目する。Friedman他は、親遺伝子であるSVS1としてCLN2及びCDC5を用いた。一方、本発明の結果においては、SVS1としてCSI2及びYKR090Wが得られる。本発明の候補親遺伝子は、Friedman他の親遺伝子よりも適切であることが見出された。本モデルは、実施例1の図4での両方の場合に適切に当て嵌まる。詳細には、Spellmanのデータの他の遺伝子に比較して、CDC5は、SVS1に弱い作用を及ぼすと結論される(実施例1の図3も参照)。実際、親遺伝子であるSVS1としては、CDC5のBNRCの順序は、247番目である。上述の状況を考慮すると、本発明の方法は、役立つ情報を理解可能で有用な形で提供することができる。
図6は、遺伝子ネットワークの関係を判断するための本発明の方法の概略図である。
【0040】
6.考察
ベイズネットワーク及びノンパラメトリック回帰を用いることにより、マイクロアレイ遺伝子発現データから遺伝子ネットワークを推定するための新しい方法において精度が改善する。本発明では、グラフを選択するための新しい判定基準を理論的に導き出し、細胞周期データを解析することによりその有効性を示した。本方法の利点には、(1)連続値として発現を利用することができる、(2)非線形構造も検出することができ、容易に理解可能に機能構造を視覚化することができる、及び(3)自動検索により最適なグラフを作成することができることが含まれる。
【0041】
Friedman他の方法は、試行錯誤により選択された離散化のための閾値及びディリクレ事前のハイパーパラメータのような既知のパラメータを保持しており、狭い意味で最適ではなかった。一方、本発明の方法は、しっかりした理論的基礎を有する判定基準に基づいて、どのようなパラメータも自動的かつ適切に推定することができる。
他の実施形態においては、より一般的な状況で判定基準BNRCを得ることができる。一例として、他の統計学的モデルに基づいてグラフ選択判定基準を構成することができる。
【0042】
III.ベイズネットワークによる遺伝子ネットワークの非線形モデル、及び、不均一誤差分散及び相互作用を伴うノンパラメトリック回帰
他の実施形態においては、ベイズネットワークに基づくマイクロアレイ遺伝子発現データから遺伝子ネットワークを構築するための異なる統計学的方法を用いることができる。これらの実施形態においては、各確率変数の条件付分布を推定する。遺伝子間の非線形構造を捉えるために、ノンパラメトリック回帰モデルを不均一誤差分散及び相互作用に当て嵌めることを考える。ベイズネットワーク及びノンパラメトリック回帰を用いてグラフを設定しても、依然として遺伝子間のシステムを最も良く表す最適なグラフを選択することに解決すべき問題が残る。ベイズ手法からグラフを選択するための新しい判定基準には、ベイズ法を用いてネットワークを推定するための従来の方法が含まれる。本発明では、100個の遺伝子を破壊することにより新しく得られたSaccharomyces cerevisiae遺伝子発現データを解析することにより、本方法の有効性を明らかにした。
【0043】
1.序文
ベイズネットワークを用いることは、多くの変数の同時分布を通じて現象をモデル化するのに有効な方法であるとすることができる。Friedman及びGoldszmidtは、発現値を離散化し、統計学的モデルの候補として多項分布を仮定した。Peter他は、離散化のための閾値を考察した。Friedman他は、データを連続なものとして解析する線形回帰モデルに適合すると考えられる情報が、離散化により多少失われる可能性を指摘した。しかし、親遺伝子が目的遺伝子に線形的に依存すると仮定することは、必ずしも正当であるわけではない。Imoto他は、遺伝子間の線形依存性だけでなく非線形関係も捉えるためのノンパラメトリック加法回帰モデルを用いることを説明した。
いくつかの実施形態においては、ベイズネットワーク及びノンパラメトリック不等分散回帰を用いるが、これは、外れ値の影響を受けにくいとすることができ、親遺伝子の相互作用の効果を捉えることができる。
【0044】
グラフを取得した後、全く未知の真のグラフに対する適合度又は接近度を評価する。適切な判定基準の構成が重要となる。Friedman及びGoldszmidtは、多項式モデル及びディリクレ事前に基づいてグラフを選択するための判定基準BDeを導き出した。しかし、ディリクレ事前には未知のハイパーパラメータが残り、その値は、経験的にしか設定することができない。本発明は、ベイズ手法からグラフを選択するための新しい判定基準を導き出した。この判定基準は、全てのパラメータのモデルを自動的に最適化し、最適なグラフを与える。更に、本方法は、ベイズネットワークにより遺伝子ネットワークを構築するための従来の方法も含む。新しい方法の有効性を示すために、本発明は、100個の遺伝子を破壊することにより、Saccharomyces cerevisiaeの遺伝子発現データを解析する。
【0045】
2.ベイズネットワーク及び相互作用のあるノンパラメトリック不等分散回帰 モデル
p次元の確率変数ベクトルX=(X1,・・・,XpTのπセットのデータ{x1,・・・・・,xn}があると仮定し、ここで、xi=(xi1,・・・xipTであり、xTは、xの転置を表す。マイクロアレイ遺伝子発現データにおいては、n及びpは、アレイ及び遺伝子の数に対応する。ベイズネットワーク枠組みにおいては、ノード間の有向非周期的グラフG及びマルコフ仮説を考えた。次に、結合密度関数を条件付密度に分解する。条件付密度が、パラメータベクトルθjによりパラメータ化されると仮定すると、有効な情報がこれらの確率モデルから抽出される。
【0046】
本発明では、次に、xijとpijとの間の非線形関係を捉えるためにノンパラメトリック回帰戦略を用いた。多くの場合、本方法は、目的の関係を良好に捉えることができる。しかし、データが、特に領域{pij}の境界近くに外れ値を有する場合は、ノンパラメトリック回帰モデルは、不適切な平滑推定値を誘導する可能性がある。すなわち、推定曲線は、外れ値のために偽の波形を示す。この問題を避けるために、異質誤差分散を有するノンパラメトリック回帰モデルを以下の実施例2に説明する。
【0047】
グラフを選択するための判定基準
グラフを設定すると、ベイズネットワーク及びノンパラメトリック回帰に基づく統計学的モデル(実施例2の式8)を構成し、これを適切な方法で評価することができる。しかし、更に複雑なモデルでは尤度値が大きくなるために、データの根底にあるシステムを最適に近似する最適なグラフを選択するためには、モデル選択判定基準として尤度関数を用いることは望ましくない。従って、一般化又は予測的誤差に基づく統計的手法であるカルバック・ライブラー情報量、ベイズ手法等(20)が望ましい可能性がある。従って、本発明では、ベイズ手法から本発明のモデル(実施例2の式8)に基づくグラフを評価するための判定基準を構成した。
【0048】
グラフの適合性を評価するための判定基準は、次のように、ベイズ理論的手法から構成することができる。
(1)グラフの事前確率πG及びデータの周辺確率の積によりグラフの事後確率を得る。
(2)標準化定数を除去する。グラフの事後確率は、実施例2の式9に比例する。
(3)ベイズ手法を用いて、π(G|Xn)が最大になるようにグラフを選択する。
(4)計算に高次積分を含めるか否かを判断する(実施例2の式9)。
(5)(4)で肯定の場合、実施例2の式11を用いる(積分に関しては実施例2の参考文献17及び26を参照)。
すなわち、判定基準BNRCが最小になるようにグラフが選択される。ラプラス法を用いることの利点は、共役事前分布を用いることを考える必要がないことである。従って、モデル及び事前のより大きなクラスの分布のモデル化が得られる。
【0049】
3.遺伝子ネットワークの推定
ノンパラメトリック回帰
上述の第2節に説明した方法に基づいて、遺伝子ネットワークを構築する方法を示す。ノンパラメトリック回帰(実施例2の式5)は、2つの成分を有し、すなわち、各親遺伝子の加法モデルにより表される主効果成分、及び相互作用成分である。加法モデルにおいては、B−スプラインにより各平滑関数mjk(’)を構成する(実施例2の式9)(参考文献18参照)。
相互作用の各項においては、ガウス動径基底関数を用いる。動径基底関数に基づく回帰モデルにおいては、中心zjl及び幅を推定するための2つの方法を用いた。このモデルは、「完全監視学習」と呼ぶことができる。代替の方法は、予め親観察データのみを用いることにより値を判断する。後者の方法を用いて、基底関数を構成するためにk平均クラスター化アルゴリズムを用いることができる。動径基底関数の詳細は、実施例2の参考文献7、21、及び23に更に説明されている。ハイパーパラメータは、基底関数間の重複の量を制御する。
【0050】
誤差分散においては、不等分散性の回帰モデルを考え、実施例2の式6に示す構造を推定する。定数の設計は、データの不等分散性を捕える精度に影響を及ぼす可能性がある。実施例2の式12により重みが設定された。ハイパーパラメータpが0に設定される場合は、分散は均一である。pに大きな値を用いる場合は、親変数の領域の境界近くに存在するデータの誤差分散は大きい。従って、境界近くに外れ値がある場合は、本方法は、その効果を減弱することにより適切に平滑化された推定値を得ることができる。
【0051】
4.実際のデータの解析
S.cerevisiae遺伝子発現データを解析することにより、上述の方法の有効性を明らかにする。遺伝子破壊により、マイクロアレイ上の遺伝子の発現レベルの変化が観察された。本方法を用いることにより、Saccharomyces cerevisiaeの遺伝子間の遺伝子調節ネットワークが明らかになった。遺伝子破壊実験から多くの発現プロファイルを収集し、遺伝子調節ネットワークを評価した。400個を超える変異体が保存され、遺伝子発現プロファイルが蓄積されている。
【0052】
マイクロアレイ上に発見した5871個の遺伝子の転写レベルをスキャナによりモニタした。本発明のデータベースには、400個を超える破壊体の発現プロファイルを集積した。マイクロアレイ上の全ての遺伝子の標準偏差(SD)を評価したが、SDの値は、ほぼ実験誤差を表すものであった。全ての遺伝子の発現比の標準偏差の臨界点として0.5という値が必要であった。400個のプロファイルから、転写因子が破壊された68個の変異体を含む107個の破壊体を選択した。
【0053】
100個のマイクロアレイを用い、上述のデータから521個の遺伝子の遺伝子ネットワークを構成した。調節遺伝子が同定されている94個の転写因子が見出され、5871個のプロファイルから、94個の因子により制御された421個の遺伝子のプロファイルを選択した。B−スプライン及び20個の動径基底関数を用いてノンパラメトリック回帰モデルを構築した。幾分多くの基底関数を用いるとハイパーパラメータが当て嵌めた曲線の平滑性を制御するために、様々な数の基底関数に対する平滑化した推定値の差を視覚的に発見することができないことを確認した。本発明では、2遺伝子効果を相互作用成分に応用した。従って、相互作用の効果は、当て嵌めた表面として得られ、視覚的に理解可能とすることができる。
【0054】
事前分布内のハイパーパラメータ及び重み定数の役割が示された。実施例2の図1(a)は、3つの異なる値により平滑化した推定値を伴うYGL237C及びYEL071Wの散布図を示す。平滑化した推定値は、ハイパーパラメータの値に依存する。実施例2の図1(b)は、図1(a)の2つの遺伝子のBNRC判定基準の挙動を示している。ハイパーパラメータの最適値は、BNRCを最小にするものとして選択することができ、最適な平滑化推定値(実線曲線)は、これらの遺伝子間の構造を良好に捉えることができる。破線及び点線の曲線は、それぞれ、ほぼ最大尤度推定及びパラメトリック線形当て嵌めである。重み定数w1j,・・・,wnjの効果は、実施例2の図2(a)に示している。等分散性回帰モデルを用いる場合は、左上端のデータの効果により幾分偽の波形を示す破線曲線が得られる。ハイパーパラメータpを実施例2の式12において調節することにより、推定曲線は、実線の曲線になった。BNRC判定基準を最小にすることにより、最適値p(実施例2の図2(b)参照)を選択した。平滑化した推定値が適切に得られる時、最適地pはゼロに近づく。
【0055】
本発明では、相互作用を有するノンパラメトリック回帰モデルを当て嵌めるために2段階の戦略を用いた。最初に、加法B−スプライン回帰により表される主効果を推定した。次に、その残差に相互作用成分を当て嵌める。実施例2の図3は、YIL094Cとその親遺伝子であるYKL152C及びYER055Cとの間の関係に当て嵌まる表面の例を示している。2つの親遺伝子の相互作用により、両親遺伝子が増大すると過剰発現となる。
【0056】
Saccharomyces cerevisiaeにおいては、GCN4遺伝子は、アミノ酸生合成の「一般制御」システムである少なくとも12個の異なる生合成パスウェイのネットワークの転写活性化因子をコード化する(実施例2の参考文献6)。「アミノ酸枯渇」信号に対する一般制御応答の結果は、GCN4pレベルに関するヒスチジン類似物質3−アミノトリアゾールにより誘発されることが実験により示された。GCN4は、アミノ酸枯渇又はtRNA合成酵素の活性化障害に応答して、11個のアミノ酸の生合成に関与する30個を超える遺伝子の転写を活性化する(実施例2の参考文献24を参照)。プリン生合成遺伝子ADE1、ADE4、ADE5、7、及びADE8は、アミノ酸枯渇に応答してGCN4−依存発現を示す[24]。GCN4は、アミノ酸又はプリンのいずれかの枯渇に応答して、アミノ酸及びプリンの生合成遺伝子の転写を活性化する[24]。これらの発現の結果から、プリン代謝とアミノ酸代謝との間にはGCN4を通して強力な関係があることが示される。本発明の関係のマップは、プリン代謝とアミノ酸代謝との間の公知の関係によく適合する。
【0057】
IV.ベイズネットワーク及びノンパラメトリック不等分散回帰を用いることによる遺伝子ネットワークのブートストラップ非線形モデリング
他の実施形態においては、上述の手法が修正された。ベイズネットワーク構成に関連する特徴は、各確率変数の条件付分布の推定にある。本発明では、不均一誤差分散を伴うノンパラメトリック回帰モデルをマイクロアレイ遺伝子発現データに当て嵌め、遺伝子間の非線形構造を捉えた。遺伝子間のシステムを最も良く表す最適なグラフを選択することに依然として解決すべき問題が残っていた。本発明では、一般状況でのベイズ手法から新しいグラフ選択判定基準を導き出した。本方法には、ベイズネットワークに基づく以前の方法が含まれる。また、推定遺伝子ネットワークでのエッジ強度及びベイズ因果関係の方向の信頼度を測定する方法も用いた。本発明では、100個の遺伝子を破壊することにより新しく得たSaccharomyces cerevisiae遺伝子発現データの解析を通して、本方法の有効性を明らかにした。
【0058】
グラフが設定された状態で、未知である真のグラフに対する適合度及び近接度を評価することが望ましい。本発明の方法においては、エッジ強度を測定する方法を確立する必要があった。この問題を解決するために、「ブートストラップ」法(Efron、1979年、Efron及びTibshirani、1993年)を用いた。本方法を用いることにより、エッジ強度だけでなく、ベイズ因果関係の信頼度も測定することができる。本方法の有効性を示すために、本発明では、100個の遺伝子を破壊することにより新しく得たSaccharomyces cerevisiaeの遺伝子発現データを解析した。
【0059】
1.遺伝子ネットワークの非線形モデリングのためのベイズネットワーク及びノンパラメトリック不等分散性回帰
1.1.非線形ベイズネットワークモデル
本出願の他の場所で説明したように、ベイズネットワーク枠組みにおいては、有向非周期的グラフG及びノード間のマルコフ仮定を考えることができる。次に、同時密度関数を分解して各変数の条件付密度にする。以下の実施例3の式1により、ベイズネットワークによる統計学的モデリングに関する焦点は、条件密度fjを構成することができる方法である。条件付密度fjがパラメータベクトルによりパラメータ化され、実施例3で更に説明するように、これらの確率モデルから情報が抽出されると仮定することができる。
【0060】
いくつかの実施形態においては、xijとPijとの間の非線形の関係を捉えるためにノンパラメトリック回帰戦略を用いることができ、遺伝子間には多くの非線形の関係があって線形モデルでは到底十分な結果が得られないことが示唆された。多くの場合、これらの方法は、客観的な関係をうまく捉えることができる。しかし、データが、特に領域の境界近くに外れ値を含む場合は、標準ノンパラメトリック回帰モデルは、不適切な平滑化推定値を誘導することがある、すなわち、推定曲線が、外れ値の影響により幾分偽の波形を示す。この問題を避けるために、本発明では、不均一誤差分散を伴うノンパラメトリック回帰モデルを当て嵌める。モデルのパラメータの数が、観察数よりも遥かに多い場合は、不安定なパラメータ推定値となる傾向がある。
【0061】
いくつかの場合には、線形回帰は、ベイズ因果関係の方向を評価することができず、多くの場合に誤った方向に誘導する可能性があるために、線形回帰の代わりにノンパラメトリック回帰モデルを用いることが望ましいとすることができる。本発明では、単純な例を用いて線形回帰に比較した新しいモデルの利点を示す。実施例3の図1(a)の遺伝子1及び遺伝子2のデータがあると仮定する。遺伝子1>遺伝子2、及び、遺伝子2>遺伝子1を含む2つのモデルを考えると、それぞれ、実施例3の図(b)及び図(c)に示す平滑化推定値が得られる。次に、以下の節で誘導する本発明の判定基準により、モデル(b:遺伝子1→遺伝子2)の方が(c:遺伝子2→遺伝子1)よりも優れていると判断することができる(モデルのスコアは、(b)120.6、(c)134.8)。このデータは、真のグラフ、遺伝子→遺伝子2から得たために、本方法においては、正確な結果が得られる。しかし、このデータに線形回帰モデルを当て嵌める場合は、モード(c)が選択される(線形モデルのスコアは、(b)156.0、(c)135.8である)。この場合は、線形回帰に基づく方法は不正確な結果をもたらすが、非線形回帰解析では正確な結果が得られる。
遺伝子間の関係がほぼ線形の場合でも、本発明の方法及び線形回帰は、適切にデータを当て嵌めることができる。しかし、線形モデルを用いると、ベイズ因果関係の方向を判断するのが困難である。
【0062】
本発明者は、既に判定基準BNRCを説明した。グラフを選択するための判定基準BNRCヘテロを一般的枠組みで導き出した。式(8)を用いることにより、グラフのBNRCヘテロスコアは、ローカルスコアBNRCヘテロを合計することにより得ることができる。最適なグラフは、判定基準BNRCヘテロ(実施例3の式7)が最小になるように選択する。ラプラス法の利点は、共役事前分布を用いることを考える必要がないことである。従って、モデル及び事前の分布の大きなクラスにおけるモデリングが達成される。遺伝子ネットワークは、実施例3に更に説明するように推定される。しかし、誤差分散に関しては、不等分散回帰モデルを考え、実施例3の式3に示す構造を仮定した。
【0063】
学習ネットワーク
ベイズネットワークの文献においては、最適なネットワークを判断することは、NP困難な問題である。ネットワークを解決するためには、以下のような「貪欲山登り法」アルゴリズムを用いることができる。
(1)段階1:(i,j)番目の要素が遺伝子i→遺伝子jグラフのBNRCヘテロスコアであるスコア行列を作る。
(2)段階2:各遺伝子に対して、エッジに対する3つの手順である追加、削除、逆転のうちの1つでBNRCヘテロが最も小さくなるものを実行する。
(3)段階3:BNRCヘテロがそれ以上減少しなくなるまで段階2を繰り返す。
(4)段階3で、遺伝子の計算順序を変えて学習順序の多くの候補を作る。
【0064】
段階4は、貪欲山登り法アルゴリズムが多くのローカル最小値を生成し、その結果が変数の計算順序に依存する状況では望ましいとすることができる。学習ネットワークの別の問題は、遺伝子の数が多い時には親遺伝子の検索空間が幅広いことである。このような状況においては、段階1で得られるスコア行列に基づいて候補親遺伝子のセットを制限することができる。
また、学習遺伝子ネットワークのためにこの学習戦略を用いることができ、モンテカルロシミュレーション法によりそれらの方法の有効性が示された。また、同じモンテカルロシミュレーションを用いて本発明の新しいモデルの効率も調べ、ノンパラメトリック不等分散回帰モデルによる改善が認められた。次の小節で、不等分散回帰モデルの有効性を示す。
【0065】
ハイパーパラメータ
実施例3の式4で定められたノンパラメトリック回帰モデルを考える。推定θjは、logπ(θj|Xn)のモードであり、用いたハイパーパラメータに依存することができる。20個のB−スプラインを用いてノンパラメトリック回帰モデルを構築した。様々な数の基底関数に対する平滑化推定値の差は、視覚的に検出することができないことを確認した。幾分多くの基底関数を用いた場合は、ハイパーパラメータが適合曲線の平滑性を制御する。(実施例3の図3(a)は、3つの異なる値のハイパーパラメータに対する平滑化推定値と共にYGL237C及びYEL071Wの散布図を示す。)データの詳細は、以下の節に示す。平滑化推定値は、パラメータの値に強く依存した。実施例3の図3(b)は、図3(a)の2つの遺伝子のBNRCヘテロ判定基準の挙動を示す。BNRCヘテロを最小にするものとしてハイパーパラメータの最適値及び最適平滑化推定値を選択することができる(図3(a)の実線曲線は、これらの遺伝子間の構造をうまく捉えることができる)。破線及び点線の曲線は、それぞれ、最大尤度推定値及びパラメトリック線形適合値に近い。
【0066】
実施例3の図4(a)は、重み定数wij,・・・wnjの影響を示す。等分散回帰モデルを用いる場合は、上部左端のデータの影響により幾分偽の波形を示す破線曲線が得られる。実施例3の式9のハイパーパラメータpjを調節することにより、推定曲線は、実線の曲線をもたらした。また、pjの最適値は、BNRCヘテロ判定基準を最小にすることによっても選択することができる(実施例3の図4(b)参照)。平滑化された判定基準が適切に得られると、pjの最適値はゼロに近づく。
【0067】
最後に、実施例3の第3節において、平滑化曲線を推定し、ハイパーパラメータを最適化するためのアルゴリズムが提供される。
段階1:ハイパーパラメータpjを固定する。
段階2:γjk=0,k−1,・・・,qjを初期化する。
段階3:段階3−1及び段階3−2を繰り返すことにより最適βjkを見出す。
段階3−1:固定βjkに対して、
Figure 2005505031
を計算する。
段階3−2:βjkの候補値に対して段階3−1を繰り返し、BNRCヘテロを最小にするβjkの最適値を選択することにより評価する。
段階4:適切な収束判定基準が満足されるまでk=1,・・・,qj,1,・・・,qj,1,・・・に対して段階3を繰り返すことにより収束させる。
段階5:候補値pjに対して段階1〜段階4を繰り返し、BNRCヘテロを最小にするpjの最適値を選択する。
【0068】
ブートストラップエッジ強度及びベイズ因果関係の信頼度
ブートストラップ法により、推定遺伝子ネットワークのエッジ強度及びベイズ因果関係の方向の信頼度を測定した。アルゴリズムは、以下のように表すことができる。
(1)本来の遺伝子発現データ{x1,・・・・,xn}から、置換しながらn回無作為にサンプリングすることにより、ブートストラップ遺伝子発現行列X* n={x* 1,・・・x* nTを作る。
(2)本方法に基づいて、X* nから遺伝子ネットワークを推定する。
(3)段階1及び段階2をT回繰り返す。
このアルゴリズムから、T個の遺伝子ネットワークが得られる。エッジのブートストラップ強度及びベイズ因果関係の方向を次のように定める。
【0069】
エッジ強度
遺伝子i→遺伝子j及び遺伝子j→遺伝子iのエッジが、それぞれT個のネットワークにt1及びt2回存在すれば、遺伝子iと遺伝子jとの間のブートストラップ遺伝子強度は、(t1+t2)/Tであると定める。
ベイズ因果関係の信頼度
1>t2ならば、遺伝子i→遺伝子jの方向を採用し、因果関係の信頼度はti/(t1+t2)と定める。しかし、ある一定の閾値を用いることもできる。例えば、実数δを設定し、ti/(t1+t2)>δであれば、遺伝子1→遺伝子2と決める。
【0070】
得られるネットワークを示すのに、少なくとも2つの方法を用いることができる。第1には、元の遺伝子ネットワークでエッジ強度及びベイズ因果関係の方向の信頼度を判断することが望ましいとすることができる。元のネットワークの各エッジに強度を加えることができる。このネットワークから、元のネットワークの信頼度を見出すことができる。第2には、ブートストラップネットワーク及び元のネットワークを重ね合わせることができる。しかし、重ね合わせたネットワークは、小さい強度を有するエッジ値を含む。従って、ある一定の閾値を設定し、強度が閾値未満のエッジ値を除去することができる。閾値を設定することは依然として問題であるが、これは、単に視覚化の問題である。重ね合わせたネットワークは、非周期的という仮定を保持しない場合があるが、このネットワークには多くの有効な情報が含まれることが分る。
【0071】
実際のデータの解析
Saccharomyces cerevisiae遺伝子発現データの解析を通じて本発明の方法の有効性を示す。マイクロアレイ上に発見した5871個の遺伝子の転写レベルをスキャナによりモニタした。400個を超える破壊体の発現プロファイルを本発明者のデータベースに保存した。マイクロアレイ上の全ての遺伝子のレベルの標準偏差(SD)を評価した。SD値は、ほぼ実験誤差を表す。本発明のデータにおいては、0.5という値を実験の精度の臨界点と考えた。全ての遺伝子の発現比の標準偏差に基づいて、これらのプロファイルの精度を評価した。400個のプロファイルから、転写因子が破壊された68個の変異株を含む107個の破壊体を選択することができた。
精度に対しては、他のSD値を臨界と考えることができることを認めることができる。例えば、SD値は、0.4、0.3、0.2、0.1、約0.05、約0.01、約0.005、約0.001、又は望ましい信頼度を有する情報を生成すると考えられる任意の他の値とすることができる。
【0072】
本発明では、100個のマイクロアレイを用い、上述のデータから521個の遺伝子の遺伝子ネットワークを構成した。調節遺伝子がはっきりと同定されている94個の転写因子が見つかった。これら94個の因子により制御された521個の遺伝子のプロファイルを5871個のプロファイルから選択した。
実施例3の表1は、高いブートストラップエッジ強度を有する遺伝子対を示す。「Inte.」及び「Dire.」は、それぞれ、ブートストラップエッジ強度及びベイズ因果関係の方向の信頼度を意味する。「F.」は、親遺伝子の機能であり、すなわち、「+」及び「−」は、それぞれ誘発及び抑制である。機能が誘発か抑制かを判断することができなければ、「F.」に「0」を入力した。実施例3の図5は、重ね合わせた100個のブートストラップネットワークにより得られた部分ネットワークを示している。線の幅はエッジ強度を表し、線に隣接する番号は、ベイズ因果関係の方向の信頼度である。
【0073】
表1から、以下のことが結論される。すなわち、表1の60%を超える遺伝子対は、生物学的知識と一致する。エッジ強度の値が1に等しい遺伝子セットの大半は、YPDデータベースの「関連タンパク質」と関係がある。ARO遺伝子及びPDR遺伝子のようないくつかの他の遺伝子セットは、同じ調節システムを有する。これらの結果から、遺伝子間に何らかの関係があることが示唆されたが、これは、以前は未知であり、本発明の方法を用いて初めて明らかになったことである。また、他の9つの遺伝子セットは、「機能ゲノム科学」の関係があることも認められた。「機能ゲノム科学」の関係があることから、関係のいくつかは、大きな群のタンパク質の特性を明らかにするように設計されたマイクロアレイ解析のような大規模な高性能実験由来の以前の情報により明らかになることが示された。
【0074】
Saccharomyces cerevisiaeにおけるプリン生合成パスウェイの調節に関する研究により、AMPデノボ生合成に必要な酵素をコード化する全ての遺伝子は、細胞外プリンが存在することにより転写レベルで抑制されることが明らかになった。ADE遺伝子(Daignan−forier及びFink、1992年)、及び、いくつかのヒスチジン生合成遺伝子(Denis他、1998年)の活性を調節するためには、Bas1p及びBas2pという名前の2つの転写因子が必要である。これらのADE1、ADE4、ADE5、7、及びADE8のようなプリン生合成遺伝子は、アミノ酸枯渇に応答し、GCN4に依存して発現する(Rolfes及びHinnebusch、1993年)。プリンが枯渇すると、アミノ酸枯渇細胞に働くのと同じ機構でGCN4転写が刺激され、GCN4転写活性のターゲットの1つであるHIS4の発現が実質的に増大することになる。図5は、これらのADE遺伝子及びヒスチジン生合成遺伝子が、BAS1及びGCN4の両方に関係することを示す。
本発明の方法の望ましい特徴には、遺伝子間の非線形関係と発現データの不等分散とを捉えるためのノンパラメトリック不等分散回帰の使用を伴う。従って、本方法は、ヒトゲノムや、他の真核生物、原核生物、及びウイルス由来のゲノムのような未知のシステムを解析する際に有用とすることができる。
【0075】
V.線形スプラインを用いる小さなセットの時間順序遺伝子発現データの統計的解析
近年、cDNAマイクロアレイ技術を用いて、少数の時点での遺伝子発現のレベルを測定することにより、環境の変化に対する遺伝子の時間的応答が調査されている。時系列解析に対する従来の技術は、このような短い系列の時間順序データには適していない。従って、遺伝子発現データの解析は、通常、系統的な統計的手法ではなく、フォールド・チェンジ解析に限定される。
本発明は、測定値から統計的に意味のある情報を推測するために、アカイケの情報判定基準と共に最大尤度法を用い、線形スプラインを小さいセットの時間順序遺伝子発現データに当て嵌める。測定した遺伝子発現データの有意性は、スチューデントのt検定を用いて評価する。
【0076】
シアノバクテリアのSymechocystis sp.PCC6803の以前の遺伝子発現測定を線形スプラインを用いて再び解析した。フォールド・チェンジ解析で欠落していた多くの遺伝子の時間的応答が同定された。本発明の統計的解析に基づいて、各時点で約4つの遺伝子発現測定値又はそれ以上が必要であることが分った。本明細書の以下の実施例4に、これらの結論及び更なる説明を見出すことができる。
【0077】
1.序文
近年、異なる条件下で遺伝子発現レベルを測定する多くのcDNAマイクロアレイ実験が行われている。測定された遺伝子発現データは、KEGGデータベースのような一般にアクセス可能なデータベースで広く利用可能になった(Nakao他、1999年)。
これらの実験のいくつかにおいては、いくつかの環境条件下で定常状態遺伝子発現レベルが測定されている。例えば、シアノバクテリアのSynechocystis sp.PCC6803及び変異体の発現レベルを異なる温度で測定し、このシアノバクテリアにおける潜在的なコールドセンサとして遺伝子Hik33が同定されている(Suzuki他、2001年)。
【0078】
他の実験においては、遺伝子発現の時間的パターンは、いくつかの時点で遺伝子発現レベルを測定することにより考慮される。周期的に変化する遺伝子発現レベルは、例えば、酵母菌Saccharomyces cerevisiaeの細胞周期の間に測定されている(Spellman他、1998年)。発酵から呼吸まで代謝がシフトする間に同じ酵母菌種の遺伝子発現レベルが測定された(DeRisi他、1997年)。これらの実験においては、環境条件は、時間が経つとゆっくりと変化した。逆に、突然に変化する環境に応答する遺伝子も測定することができる。例として、低光量から高光量まで突然シフトした後のいくつかの時点で、シアノバクテリアのSynechocystis sp.PPC6803の遺伝子発現レベルが測定された(Hihara、2001年)。
【0079】
cDNAマイクロアレイ実験においては、遺伝子発現レベルは、一般的に、少数の時点で測定される。フーリエ解析又は自己回帰又は移動平均モデリングのような従来技術の時系列解析は、このような少数のデータ点には適さない。代わりに、遺伝子発現データは、クラスター化技術によるか、又は遺伝子発現レベルのみの相対変化を考慮することにより解析されることが多い。このような「フォールド・チェンジ」解析は、遺伝子発現レベルの有意な変化を見落とす可能性があり、同時に、不注意に有意性をノイズが支配する測定値のせいにする場合がある。それに加えて、フォールド・チェンジ解析は、時間的遺伝子発現応答において重要な特徴を識別できない可能性がある。
【0080】
遺伝子発現データを解析するいくつかの技術、例えば、ブール又はベイズネットワークに由来するものがこれまでに用いられてきた(Liang他、1998年、Akutsu他、2000年、Friedman他、2000年)。調節ネットワークに関して遺伝子相互作用を説明することが望ましいことがあり、多くの時点で得られた遺伝子発現データからネットワークモデルの開発が利益を受ける場合がある。しかし、多くの遺伝子に対する多くの時点のデータは、現在利用可能ではない。任意の生物の遺伝子の数は、数千の程度であることもあるが、遺伝子発現レベルは、5又は10の時点でしか測定されないことが多い。
【0081】
これまでのところ、系統的方法には、少数の時間順序データからの遺伝子発現測定値を統計的に解析することが欠落していた。本発明では、最大尤度法及びアカイケの情報判定基準(Akaike、1971年)を用いて、線形スプライン関数を時間順序データに当て嵌めることに基づく戦略を開発した。遺伝子発現測定値の有意性は、スチューデントのt検定を適用することにより評価した。これによって、データの統計的有意性を考慮しながら、遺伝子発現測定値から情報を推察することができる。この種の解析は、遺伝子調節ネットワークを構築するための付加的な段階とみなすことができる。一例として、シアノバクテリアのSynechocystis sp.PCC6803の遺伝子発現測定値を再解析した(Hihara、2001年)。線形スプラインを用いると、情報を推定することができ、フォールド・チェンジのみを用いる方法で見落とされるデータを測定することができる。入手可能なデータのサブセットで本発明の解析を繰り返すことにより、線形スプライン関数を確実に推定するために各時点で何回の測定が必要であるか判断された。
【0082】
2.方法
スチューデントのt検定
測定した遺伝子発現比が1から有意な差があるか否かを評価した。特定の遺伝子に対して、全ての時点で測定した発現比が1から有意差がないと結論することができれば、その遺伝子にはもう解析を行う必要がない。有意性レベルは、各時点で別個にスチューデントのt検定を適用することにより確立することができる。各遺伝子に対して複数の比較が行われるために、有意性レベルαの値は、注意深く選択すべきである。
【0083】
任意の遺伝子に対して、任意時点tiで発現比が1に等しい仮説としてH0 (j)を定義し、任意の遺伝子に対して、全ての時点で発現比が1に等しい仮説としてH0を定義する。仮説H0を棄却する有意性レベルをαと表し、仮説H0 (i)を棄却する有意性レベルをα’と表す場合は、α’及びαは、1−α=(1−α’)aという関係があり、ここで、aは、遺伝子発現比を測定した時点の数である。右辺を一次テイラー級数に展開することにより、この式は、有意性レベルを調節するためのボンフェローニの方法に変形される(同じくAnderson及びFinn、1996年を参照)。
【0084】
有意性レベルとしてα’を用い、各遺伝子に対して各時点でスチューデントのt検定を行うことにより、H0 (i)が見出されることになり、従って、H0は棄却されることになる。H0が棄却されない場合は、この遺伝子が実験操作によって有意な影響を受けておらず、従って、次の解析に含めないようにする必要があると結論することができる。任意の遺伝子に対して帰無仮説H0が棄却される場合は、この遺伝子は、実験操作によって有意に影響を受けたと結論される。
【0085】
線形スプラインを用いる時間順序データの解析
次に、有意に影響を受けていることが見出された遺伝子に対する時間的遺伝子発現応答を解析した。測定した遺伝子発現比は、小さなセットの時間順序データを形成し、これに対して線形スプライン関数を当て嵌めた。線形スプライン関数は、ノードで互いに結合された区分的線形関数から成る連続関数である(Friedman及びSilverman、1989年、Higuchi、1999年)。3次スプラインを用いることが一般的であるが、少数のデータ点に対しては、より適切に線形スプライン関数を用いることができる。結び目t* 1、t* 2、t* 3、t* 4を有する線形スプライン関数の概念的な例を実施例4の図1に示す。gを線形スプライン関数、εjを平均値ゼロ及び分散σ2で正規分布する独立確率変数とする時、xj=g(tj)+εjの形のノンパラメトリック回帰モデルをこれらのデータに当て嵌めることが望まれる。
最大尤度法を用いて線形スプライン関数gが推定された。任意のtjでの1つのデータ点xjの確率分布を実施例4の式3に示す。n個のデータ点に対する対数尤度関数は、次に実施例4の式4により与えられる。分散σ2の最大尤度推定値は、σ2に関して対数尤度関数を最大化することにより見出すことができる。これによって、実施例4の式5が得られる。
【0086】
当て嵌めたモデルは、結び目qの数に依存する。結び目の数は、AICとして公知のアカイケの情報判定基準を用いて選択することができる(Akaike、1971年、同じくPriestly、1994年も参照)。実施例4に説明したように線形スプライン関数を当て嵌めた後、qの各値に対してAICの値を計算し、AICが最小値になるqの値を選択した。q=2の場合は、線形回帰に対応する。q=1という特別な場合は、データに平坦な線を当て嵌めることが有効であった。特定の遺伝子に対しては、最小AICが定数関数(q=1)で達成されることが分れば、遺伝子の発現レベルは、実験操作により影響を受けなかったと結論することができる。遺伝子発現データは、一般的に発現比という形で与えられる。時間ゼロにおいては、発現比は、定義により1に等しい。この固定点は、実施例4の式7を修正することにより本発明の方法に容易に組み込むことができる。□2の最小値は、実施例4の式17に示す線形スプライン関数を選択することにより達成することができる。
【0087】
3.結果
スチューデントのt検定
本明細書において、高光量(HL)に突然露出させた後のシアノバクテリア種PCC6808の測定遺伝子発現プロファイルを再解析することにより、スチューデントのt検定を用いて線形スプライン関数を当て嵌めることを説明する(Hihara他、2001年)。HLに露出したシアノバクテリア及び低光量(LL)状態のままであったシアノバクテリアの両方に対して、ゼロ、15分、1時間、6時間、及び15時間で3079個のORFの発現レベルを測定した。実施例4の表1は、各時点での測定数を示す。cDNA発現測定値からのデータは、KFGGデータベースから得られた(Nakano他、1999年)。
元の解析(Hihara、2001年)に用いたデータは、KFGGに提出された生データと同一でないこともある(Hihara、個人的連絡)。それに加えて、t=15分の時点での6つの測定値セットのうちの2つの測定値セットは、KFGGデータベースでは欠落している。生データから遺伝子発現比を再計算すると、以前に公開した結果と近い数になる。
【0088】
HL及びLLの生データからバックグラウンド信号強度を引いた後、全体的正規化を適用し、HLのLL信号強度に対する比を計算し、対照(LL)条件に対して遺伝子発現レベルの相対変化を求めた。フォールド・チェンジ解析においては、遺伝子の発現レベルが2倍又はそれ以上変化すれば、その遺伝子はHLにより影響されたとみなした。このような変化の統計的有意性は、測定値の標準偏差の大きさを考慮することにより発見的に評価した(Hihara、2001年)。
【0089】
各遺伝子の遺伝子発現比に関するスチューデントのt検定の結果は、別々に表2に示している。有意性レベルα=0.001においては、167個の遺伝子がHL条件によって有意に影響されていることが見出された。これら167個の遺伝子中に約3個のタイプ1誤差が予想されることに注意すべきである。対照的に、元の解析においては、164個のORFがHL条件により影響されたことが見出された(Hihara、2001年)。
【0090】
psbD2遺伝子(slr0927)に対してフォールド・チェンジを考慮することにより、それは、HLによって有意に誘発されないと結論された(Hihara、2001年)。この遺伝子は、シアノバクテリアのSynechococcus sp.PCC7942においてHLにより誘発可能であると報告されていたので(Bustos及びGolden、1992年、Anandan及びGolden、1997年)、これは注目すべきものであった。しかし、t=6時間でのpsbD2遺伝子の遺伝子発現データにスチ
ューデントのt検定を行うと、p=3.3×10-5となり、この遺伝子が実際にHLに影響されていることが示唆された。
【0091】
線形スプライン関数を用いる解析
次に、測定した遺伝子発現比に線形スプライン関数を当て嵌めた。結び目qの数は、1と5の間であり、固定結び目は時間ゼロで1に等しい。q=3及びq=4に対しては、線形スプラインの線形セグメント間の結び目の位置に対して3つの可能性が存在する。これらは、q=1、q=2、及びq=5の場合と共に、実施例4の図2に示されている。可能な結び目配置の数は、結び目の最大数qmaxに関して指数関数的に増大することに注意すべきである。
【0092】
フォールド・チェンジ解析においては、時間的遺伝子発現パターンは、実施例4の表3に列記されている6つのカテゴリーに分類された(Hihara、2001年)。測定した遺伝子発現データに線形スプライン関数を当て嵌めることにより、分類化よりもデータを柔軟に説明する方法が提供される。また、遺伝子発現応答パターンを数値的に説明することは、遺伝子調節ネットワークを誘導する重要な段階である。
【0093】
線形スプラインを用いる発現データの解析
次に、例を用いてAICの用法を説明する。フォールド・チェンジ解析においては、トレオニン合成酵素遺伝子thrC(slll688)は、ほぼ1時間で抑制されることが見出された。結び目の異なるセットに対するAICの計算値を表4に列記する。最小AICは、0、15分、1時間、及び15時間の結び目で達成された。実施例4の図3は、データに当て嵌めた線形スプラインと共に、測定した遺伝子発現レベルを示している。
【0094】
全ての遺伝子発現測定値に対してこの手順を行うと、これらのHLに対する時間依存応答に基づいて異なる遺伝子が分類される。この解析にどの遺伝子を含むかに関していくつかの選択を行うことができる。この元の解析においては、遺伝子は、その発現レベルが3079個のORFのうちの低い方の2000以内であれば、計算から除外された(Hihara、2001年)。代替的に、スチューデントのt検定により、遺伝子がHLによって有意に影響されていないことが示された場合は、この遺伝子を除外することができる。表5は、測定した発現レベルがこれらの異なる場合の各パターンに対応する遺伝子の数を示している。スチューデントのt検定には、有意性レベルq=0.001を用いた。
【0095】
本発明では、スチューデントのt検定でHLによって有意に影響されていると同定された167個の遺伝子と、164個のORFが同定されたフォールド・チェンジ解析から得られた結果(Hihara、2001年)とを比較した。最初に、外れ値がデータに存在する遺伝子を本発明の解析から除外した。外れ値は、任意の時点でデータの平均値から標準偏差の2倍を超えて偏位しているデータ点であると定める。測定した発現データが外れ値を含む遺伝子は1つしか見つからず、この発現データに当て嵌まる線形スプライン関数は平坦な線であった。他の遺伝子発現レベルには、平坦な線で説明されたものはなく、これは、スチューデントのt検定から得られた結果と一致する。
【0096】
次に、ノイズが目立つデータを用いないようにするために、発現レベルが低い方の2000以内に入る遺伝子を除外した。フォールド・チェンジ解析にも同じ手順が用いられている(Hihara、2001年)。これらの遺伝子を除去すると、HLによって有意に影響された107個の遺伝子が残った。
107個の遺伝子のうち42個の遺伝子は、フォールド・チェンジ解析(Hihara、2001年)では同定されていなかったものである。これらの遺伝子は、各遺伝子に対して見出した結び目の位置と共に、実施例4の表6に列記している。各線形スプライン関数に対して、当て嵌めの良さの尺度として、説明した百分率分散を計算した。一例として、図4は、遺伝子syIR(slr0329)の測定遺伝子発現比、及び、当て嵌めた線形スプライン関数を示しており、この関数は、ゼロ、15分、1時間、及び15時間において4つの結び目を有する。42個の遺伝子のうち、遺伝子xylR(slr329)は、最も大きな説明した百分率分散(98.7%)を有した。フォールド・チェンジ解析で同定された164個のORFのうちで、有意性レベルq=0.001のスチューデントのt検定によれば、39個のORFは、HLによって有意に影響を受けなかった。これらのORFは、実施例4の表7に列記されている。
【0097】
最後に、各時点での測定値の数が線形スプライン関数の結び目の配置を確実に判断するのに十分であるか否かを確立した。これを行うために、測定データのサブセットを用いて線形スプライン関数の推定を繰り返した。次に、データの完全なセットの代わりにデータのサブセットを用いる場合に、いくつの遺伝子で推定結び目位置が変化したかを計数した。各時点での4、3、及び2個のデータ点に対するこの数の平均値及び標準偏差を表8に示している。
2つのデータ点(1時間の時点で)のみが除外された場合でも、推定結び目位置が変化した場合の15%において、各時点で4つのデータ点が用いられる。すなわち、いくつかの実施形態においては、遺伝子発現測定値から確実に情報を推定するためには、各時点に対して4つ又はそれ以上のデータ点が必要である。
【0098】
考察
最大尤度法に基づいて、時間順序測定値のセットを解析するための戦略を説明した。測定した遺伝子発現データにスチューデントのt検定を適用することにより、最初に、測定した遺伝子のどれが実験操作によって有意に影響を受けたかを確立した。次に、線形スプライン関数を当て嵌めることにより、これらの遺伝子の発現応答を説明した。線形スプライン関数に用いる結び目の数は、「アカイケの情報判定基準(AIC)」を用いて判断した。
【0099】
線形スプライン関数を用いることにより、名目上の分類を用いる場合よりも測定した遺伝子発現の説明に柔軟性をもたせることができる。また、遺伝子調節ネットワークを設定するためには、遺伝子発現測定値から判断される時の遺伝子応答が数値の形で利用可能であることが望ましいとすることができる。最後に、結び目の位置により、遺伝子の発現が著しく変化するこのような時点が特定され、これは、その生物学的機能を同定するのに望ましいとすることができる。結び目の位置に基づく遺伝子発現応答の分類は、結び目での線形スプライン関数のマグニチュードを考慮するサブカテゴリーを作成することにより更に正確にすることができる。例えば、3つの結び目がある線形スプライン関数においては、遺伝子発現レベルの変化が(平坦、増大)、(平坦、減少)、(増大、平坦)、(減少、平坦)、(増大、減少)、又は(減少、増大)で説明される6つのサブカテゴリーを作成することを考えることができる。
【0100】
線形スプライン関数の技術を測定遺伝子発現データに適用することにより、実験操作によって有意に影響された遺伝子の時間的発現応答パターンを同定することができる。これらのうち42個の遺伝子の応答は、以前の発現データのフォールド・チェンジ解析では認められなかった。更に、フォールド・チェンジ解析で見られる発現応答レベルは、164個の遺伝子のうち33個の遺伝子においては、スチューデントのt検定で有意でなかった。いくつかの実施形態においては、遺伝子発現データは、ノイズが多い可能性があり、外れ値が厄介である。本明細書に説明するスチューデントのt検定及び最大尤度法は、ノイズが多いデータの統計的有意性を考慮するが、外れ値の問題は、別個に取り組む必要がある。外れ値を除外する簡単な手順として、各時点のデータの平均値及び標準偏差を計算し、平均値から標準偏差の2倍ほど偏位しているデータを除外した。
最後に、線形スプライン関数を確実に当て嵌めるために、各時点で必要な発現測定値の数は、いくつかのデータ点を除外して線形スプライン関数を新たに当て嵌めることにより判断した。時点毎の4つのデータ点を用いる場合、その約15%の場合で、結び目の位置が確実には推定されないことが見出された。従って、時点毎に4つを超える測定値を得ることが賢明である。
【0101】
VI.薬物ターゲットを同定して確認するための遺伝子ネットワークの利用
遺伝子ネットワークを用いることにより薬物ターゲットを同定して確認するための新しい方法を説明する。本発明では、薬物ターゲットを解明するために、新しく遺伝子を破壊し、薬物応答マイクロアレイ遺伝子発現データライブラリを作成した。遺伝子ネットワークを推定するために2種類のマイクロアレイ遺伝子発現データを用い、薬物ターゲットを識別した。推定遺伝子ネットワークは、薬物応答データを理解するのに有用であるとすることができ、この情報は、遺伝子発現解析の標準であるクラスター化解析法で達成することができる。いくつかの実施形態で遺伝子ネットワークを構築する際には、解析の異なる段階に対してブール及びベイズネットワークの両方を用い、その相対強度を利用した。Saccharomyces cerevisiae遺伝子発現及び薬物応答データの解析からの実際の例を用いて、遺伝子ネットワーク情報を創薬に応用するための本発明の戦略を確認した。
【0102】
1.序文
クラスター法は、マイクロアレイ発現データを解析するための標準手段となっている。しかし、本方法は、理論的な意味でも実際的な意味でも薬物ターゲットを識別するのに十分な情報を提供することができない。本発明は、ターゲット遺伝子を識別して確認し、新しい治療法を理解して開発するために、推定遺伝子ネットワークをどのように用いることができるかを判断する方法を提供する。遺伝子調節パスウェイ情報は、本発明の目的に望ましく、遺伝子発現プロファイルから遺伝子ネットワークを推定するためにブール及びベイズネットワークモデリング法の両方を用いた。薬物ターゲットを識別するための手順は、2つの部分に分けることができる。第1に、薬物に影響を受けた遺伝子を識別する。第2に、通常は遺伝子ネットワークにおいて薬物に影響された遺伝子の上流にある「ターゲット」遺伝子を探す。ブールネットワークモデルは、本明細書に説明されている「仮想遺伝子」遺伝子技術を用いることにより、薬物に影響された遺伝子を識別するのに有用であり、ベイズネットワークモデルは、解明された影響された遺伝子に関連する薬物可能遺伝子ターゲットを探すのに用いることができる。本発明では、120個の遺伝子破壊体、及び薬物に対するいくつかの投与量及び時間応答による発現実験から成る新しいSaccharomyces cerevisiae遺伝子発現データに本方法を応用した。
【0103】
2.薬物ターゲットを同定するための遺伝子ネットワーク
A.クラスター法
階層型クラスター化及び自己組織化マップのようなクラスター法は、生命情報科学の分野で遺伝子発現データ解析のための標準手段として広く用いられる。Eisenは、階層型クラスター化に着目し、遺伝子発現データをクラスター化解析するためのソフトウエアである「Cluster/TreeVew」を提供する。De Hoon他は、特にk平均クラスター化アルゴリズムにおいてこのソフトウエアを改良した。
【0104】
クラスター法は、発現パターンの類似性を通じて遺伝子群に関する情報を提供するのみである。しかし、薬品により影響された薬物ターゲットを検出するためのクラスター情報のみでなく、付加的な階層型パスウェイ情報を有することが望ましいとすることができる。本発明は、実際のデータの解析を通して薬物ターゲティング目的のためのクラスター化技術の限界を示す。
本発明は、遺伝子ネットワークを推定するための新しい2つの方法を用いる。この小節においては、両方法に関して簡単に紹介する。アルゴリズムの詳細な考察に関しては、参考文献の節の論文を参照することができる。
【0105】
B.ブールネットワーク
ブールネットワークモデルを推定するために、遺伝子発現値を0(非発現)及び1(発現)という2つのレベルに離散化することができる。u1,・・・ukをノードνの入力ノードであるとする。νの状態は、ψ(u1)をu1の状態又は発現パターンとすると、ブール関数fu(ψ(u1),・・・,ψ(uk))により求められる。時系列遺伝子発現データがあれば、状態は時間tに依存し、時間tでのノードの状態は、時間t−1での入力の状態に依存する。一方、遺伝子破壊により得られた遺伝子発現データがあるとする。Akutsu他は、時間遅延することなくブールネットワークモデルを推定するための理論及び方法を提唱している。Maki他は、ブールネットワーク及びSシステムに基づいて遺伝子ネットワークを推定するための「AIGNET」という名前のシステムを提供している。本発明は、ブールネットワークモデルを推定するために「AIGNET」システムを用いる。
【0106】
ブールネットワークモデルを用いることの利点は以下を含む。すなわち、a)このモデルは、簡単であり、容易に理解することができ、ブールネットワークモデルは、データの正確性及び情報が十分である場合は親子関係を正確に検出することができる、及び、b)バイオパスウェイシミュレーションのためのソフトウエアツールである「Genome Object Net」に推定ブールネットワークモデルを直接適用することができる。ブール法の欠点は、データを2つのレベルに離散化する必要があり、この定量化により情報が失われることである。更に、離散化のための閾値はパラメータであり、適切な判定基準で選択する必要がある。
【0107】
C.ベイズネットワーク
ベイズネットワークは、多くの確率変数の複雑な関係のグラフィック表示である。ベイズネットワークに関連してマルコフ関係のノードを有する有向非周期的グラフを考える。このようにして、確率変数の同時確率の代わりに条件付確率を用いることにより複雑な現象を説明することができる。本明細書の実施例5で更に詳細に説明する。
Friedman他は、遺伝子発現プロファイルから遺伝子ネットワークを推定するための手法を提唱した。彼らは、発現値を3つの値に離散化し、ベイズネットワークの条件付分布として多項分布を用いた。しかし、これは、離散化のための閾値を選択する問題を解決するものではなかった。
【0108】
本発明では、最適なグラフを選択するためのBNRCという名前の新しい判定基準と共に、定量化を必要としないソリューションを提供するノンパラメトリック回帰モデルを開発した。BNRCは、積分にラプラス近似を用いることによるグラフの事後確率の近似であるとして定義される。本発明では、本方法をSaccharomyces cerevisiae遺伝子発現データ及び推定遺伝子ネットワークに応用した。本方法の利点は、以下のようなものである。すなわち、a)マイクロアレイデータを連続データセットとして解析することができる。b)このモデルは、線形構造のみでなく、遺伝子間の非線形依存性も検出することができる。c)本発明の判定基準は、自動的にモデル内のパラメータ及びネットワークの構造を最適化することができる。
【0109】
ベイズネットワークは、推論の数学に基づくいくつかの利点を有しており、本発明では、ベイズネットワークを構築するために本方法を用いる。解析においてベイズ及びブールネットワークを組み合わせることにより、破壊体からの発現データと薬物応答実験との論理的結合から作成したデータから、循環調節及び調節効果の多重レベル有向モデルを構築することができる。従って、ブール及びベイズネットワークを共に用いることにより、互いに欠点を補うことができ、信頼性の高い情報を得ることができる。
【0110】
3.マイクロアレイデータへの応用
本発明では、Saccharomyces cerevisiae遺伝子実験プロファイルからマイクロアレイデータの2つのライブラリを作成した。一方は、120個の遺伝子を破壊することにより得たものであり、他方は、経口抗真菌剤に対する応答から成るものであった(4つの濃度及び5つの時点)。薬物ターゲットを同定するために酵母菌ゲノムから735個の遺伝子を選択した。YPDにおいては、314個の遺伝子が「転写因子」として定められており、このうち98個の遺伝子においては、その制御機構が既に研究されている。解析のために選択された735個の遺伝子のための発現プロファイルデータには、遺伝子発現調節の役目を有して一般的な薬物ターゲットである核受容体遺伝子に加えて測定された5871個の遺伝子種からのこれら98個の「転写因子」により制御された遺伝子が含まれていた。本発明では、120個の遺伝子破壊条件に亘って735個の遺伝子のデータセットからネットワークモデルを構築した。この破壊データの詳細は、Imoto他の文献にも説明されている。
【0111】
薬物応答マイクロアレイ遺伝子発現データに関しては、培養液内の薬用量10、25、50、100mgの抗真菌投薬で酵母菌培養液を培養し、薬品を加えた後の5つの時点(0、15、30、45、及び60分)で培養液の一定分量を取った。この場合、時間0とは、この観察の開始点を意味し、薬品に露出された直後である。次に、これらの実験から総RNAを抽出して、このRNAをcy5でラベルし、未処理細胞由来のcy3ラベルRNAと共にハイブリッド形成して全ゲノムcDNAマイクロアレイに付加することにより、薬物応答データに対して20個のマイクロアレイのデータセットを作成した。ここでは、これら140個のマイクロアレイを用いて、遺伝子ネットワークを用いる薬物ターゲットを解明する。
【0112】
4.結果
A.クラスター化解析
薬物ターゲットの同定においては、広く用いられているが問題のある従来技術の戦略は、多くの場合(0)と比較するためのベース摂動制御データのライブラリさえも共にクラスター化解析を用いることである。本発明では、2種類のマイクロアレイデータである遺伝子破壊及び薬物応答を有しているので、薬物応答パターンを破壊により引き起こされた遺伝子発現パターンと比較することができる。クラスター化解析においては、単一の破壊体又は破壊体群の発現パターンと薬物応答マイクロアレイとの間に有意で強度の類似性がある場合は、薬品が破壊された遺伝子と恐らく同じ役割を果たしていると結論することができる。更に、この破壊された遺伝子が既知の機能的役割を有する場合、薬品への応答に関する情報を更に多く得ることができる。
【0113】
残念なことには、このような実験ではよく見られるように、本発明のデータをクラスター化することからは、このような直接的な結果を得ることはできない。図1は、本発明のマイクロアレイデータの相関行列を表す図を示している。2種類のデータを組み合わせて行列Z=(X:Y)を作り、ここで、X及びYは、それぞれ、薬物応答及び遺伝子破壊マイクロアレイデータの行列である。ここで、各列は、1つのマイクロアレイから得られる発現パターンを示しており、平均値0及び分散1で標準化されている。従って、実施例5の図1は、pを遺伝子の数として相関行列R=ZTz/pの情報を示している。本方法を説明するために、735個の遺伝子に着目し、遺伝子ネットワークを推定して薬物ターゲットを同定する。
【0114】
実施例5の図1において、淡色及び暗色は、それぞれ、正及び負の高相関を表す。薬物応答マイクロアレイは、互いに高相関であり、遺伝子破壊アレイのいずれとも低相関である。このような状態においては、薬物応答に関連しては意味があるクラスター化解析から遺伝子破壊体と薬物応答との間の相互作用を同定することは困難な場合がある。本発明では、薬物応答マイクロアレイの階層型クラスター化を更に実行したが、これは1つのクラスターを生成し、この解析からは実際の薬物ターゲットに関してこれ以上の情報を抽出することができなかった。この結果は、他の距離測定法又はクラスター化技術を用いても本質的に変わらなかった。従って、クラスター法から意味のある薬物ターゲットを同定するための情報を得ることは困難である。
【0115】
B.ブールネットワーク解析
従来技術のクラスター法の欠点を克服するために、本発明では、遺伝子破壊及び薬物応答マイクロアレイを組み合わせて作成したマイクロアレイデータZを用いることにより遺伝子ネットワークを推定した。薬物応答データの条件は「仮想遺伝子」とみなされ、例えば、100mg/ml及び30分という条件は、遺伝子「YEXP100mg30min」として指定される。ブールネットワークモデルを用いることにより、これらの仮想遺伝子の子遺伝子が見出され、これらの子遺伝子に子孫世代順序で薬物が影響していた。本発明では、推定の薬物影響遺伝子、すなわち、仮想遺伝子(薬物の影響)の直接の影響下にある遺伝子として、親遺伝子として5つ又はそれ以上の仮想遺伝子を有する遺伝子に着目した。しかし、親遺伝子として1つの仮想遺伝子しか持たない遺伝子が、所定の薬品に対する作用のモードによっては、主要な薬物影響遺伝子である場合がある。仮想遺伝子技術は、薬物誘発発現影響下にある遺伝子に対する初期スクリーニングにおいて、ベイズネットワークモデルに比較してブールネットワークモデルを用いることを強調する。
【0116】
それに加えて、フォールド・チェンジ解析では、本発明の仮想遺伝子技術と同様の情報を提供することができる。本発明者は、フォールド・チェンジ解析により、ある一定の実験条件下で影響遺伝子を同定した。しかし、本発明の仮想遺伝子技術の方が、フォールド・チェンジ解析よりも優れた結果を得ることができた。遺伝子A及び遺伝子Bが薬物によって影響されていることをフォールド・チェンジ解析で見出すことを考える。フォールド・チェンジ解析においては、遺伝子Aと遺伝子Bとの間のベースライン相互作用を考慮することができない。すなわち、遺伝子Aと遺伝子Bとの間に遺伝子A→遺伝子Bという調節パスウェイがある場合、遺伝子Bは、薬物により直接影響されていない場合がある。むしろ、遺伝子Aに対する薬物の効果が、遺伝子Bに間接的効果をもたらす場合がある。仮想遺伝子技術は、遺伝子破壊データの情報を用いることによりこのような相互作用を考慮することができ、従って、利用可能な相互作用データが与えられたより可能性のあるターゲット遺伝子の検索セットに絞ることができる。
【0117】
薬品に最も影響を受けた遺伝子が、薬品によって「薬物化された」遺伝子であるという保証はなく、薬物化されたターゲットが、新しい薬物の介入のための最も生物学的に利用可能かつ有利な分子ターゲットを表すという何の保証もない。従って、可能性の高い作用の分子モードを同定した後でも、調節ネットワーク内の薬物に影響された遺伝子の上流に最も薬物可能なターゲット遺伝子を見出し、その後、これらのターゲットに対する薬物作用のための低分子量化合物をスクリーニングすることが望ましい。推定ブールネットワークにおいては、ネットワークの最上部に仮想遺伝子を配置することができる。従って、この推定ブールネットワークにおいては、薬物影響遺伝子に関する上流側情報を見出すことは困難であるか、又は時には不可能であるとすることができる。このような状況においては、有効な方法で薬物影響遺伝子の上流領域を探すためにベイズネットワークモデルを用いる。
【0118】
C.ベイズネットワーク解析
本発明は、BNRC最適化戦略と共にベイズネットワーク及びノンパラメトリック回帰法を用いることにより遺伝子ネットワークを推定することができることを見出した。120個の遺伝子を破壊することにより得られた本明細書に説明するようなSaccharomyces cerevisiaeマイクロアレイ遺伝子発現データが用いられ、ブールネットワーク解析から、薬物影響遺伝子の候補のセットが効果的に見出された。薬物可能遺伝子は、これらの薬物影響遺伝子に関連する薬物ターゲットであり、新しい手掛かりを開発するために、これを同定することが望まれる。ベイズネットワーク法により、推定遺伝子ネットワーク内の薬物影響遺伝子の上流領域で薬物可能遺伝子を探索した。本発明のノックアウト発現ライブラリから入手可能なベイズモデルのネットワーク調節データを用いて、薬物影響ターゲット発現に亘って既知の調節制御関係を有する薬物影響ターゲット遺伝子の上流を検索した。例えば、本発明は、薬物可能遺伝子として核受容体遺伝子に着目するが、その理由は、a)核受容体タンパク質は、有用な薬物ターゲットであることが分っており、共に現在の市場で医薬品に対するターゲットの20%以上を占め、b)核受容体は、cDNAマイクロアレイ実験で直接測定される転写調節効果に関与するからである。
【0119】
実施例5の図3は、薬物影響遺伝子(底部)、薬物可能遺伝子(上部)、及び中間遺伝子(中間)を含む部分的ネットワークを示している。勿論、薬物可能遺伝子から薬物影響遺伝子までのパスウェイは、より多くの中間遺伝子を認める場合には他にも見出すことができる。ベイズネットワークモデルを用いるために、エッジの強度を見つけることができ、信頼度の高いパスウェイを選択することができる。これは、適切な薬物可能ターゲットを探す際のベイズネットワークモデルの利点である。実施例5の図3においては、円内の薬物可能遺伝子が薬物影響遺伝子に直接結合し、他の薬物可能遺伝子は、薬物可能遺伝子1つにつき1つの中間遺伝子を有する。図3から、各薬物影響遺伝子に対して薬物可能遺伝子を同定し、例えば、実施例5の表1に示すMAL33及びCDC6に対して薬物可能遺伝子を見出した。
【0120】
5.考察
遺伝子ネットワークの計算モデルを用いて、薬物ターゲットを同定して確認する新しい戦略を説明する。ブール及びベイズネットワークは、マイクロアレイ遺伝子発現データから遺伝子ネットワークを推定するのに有用とすることができる。両方の方法を用いて、上述の方法のいずれかを用いる場合よりも信頼度の高い情報を得ることができる。ブールネットワークは、本明細書に示した仮想遺伝子技術を用いて薬物影響遺伝子を同定するのに適する。ベイズネットワークモデルは、薬物影響遺伝子の上流領域の情報を提供することができ、従って、候補薬物可能遺伝子のセットを得ることができる。本発明の新しい戦略は、2つのネットワーク方法の組合せを巧みに用いることに基づいて確立される。この戦略には、各ネットワーク方法の強みをはっきりと見ることができ、この統合された方法により、薬物ターゲットの同定及び確認における遺伝子ネットワーク推定に関する生物情報科学技術の実用化のための方法論的基礎を提供することができる。
【0121】
VII.遺伝子調節ネットワークを用いる薬物ターゲットの発見及び確認
遺伝子摂動変異細胞株からの全ゲノム発現ライブラリと共に発展した遺伝子調節ネットワークを用いて、薬物又はリード化合物分子の作用の分子機構を素早く効率的に同定することができる。本発明では、各々が単一遺伝子破壊を有する500個を超える酵母菌株に対する全ゲノムcDNAアレイデータから成る大きな酵母菌遺伝子発現ライブラリを開発した。このデータを用い、経口抗真菌剤グリセオフルビンの用量及び時間経過発現実験と組合せて、ブール及びベイズネットワーク発見技術を用いてこの薬物により発現が最も大きく影響を受ける遺伝子を判断した。正確な分子ターゲットが以前は知られていなかったグリセオフルビンは、酵母菌中で紡錘体形成に介入する。本発明のシステムを用いて、CIKIが、グリセオフルビン存在下で主に影響を受けたターゲット遺伝子であることが直接発見された。遺伝子ネットワーク発見によって判断された主に影響を受けたターゲットであるCIKIが欠失すると、薬品の場合と同様に、紡錘体形成に形態学的効果を生み出す。発現ライブラリからの基本階層型データ及びノンパラメトリックベイズネットワークモデリングを用いて、本発明は、グリセオフルビンと同じ分子応答を誘発する潜在的な代替分子ターゲットとして働くことができるCIKIの上流の代替リガンド依存転写因子及び他のタンパク質を同定することができた。ネットワークベース薬物発見のためのこのプロセスにより、合理的な薬物ターゲッティング決定を行うのに必要な時間及びリソースをかなり減らすことができる。
【0122】
1.序文
合理的薬物設計方法論は、以前は、所定の分子ターゲットに対して少数の分子を最大限に利用することに集中していた。現在の薬物発見に広く用いられている規範であるターゲット選択のための表現型スクリーニングに対するターゲットに至る無作為リードは、ゲノム情報が大規模に利用可能になって大処理量スクリーニングプロセスが出現しても、より効率的で正確なターゲット選択プロセスを提供することに失敗している(1,2,3)。ゲノム配列の利用可能性、全ゲノムマイクロアレイ、及び遺伝子ネットワーク推定の計算技術の近年の進歩により、ゲノムの分子間の全体的なネットワーク化された調節相互作用を考慮した薬物ターゲット選択のための新しい合理的規範が可能となる。遺伝子調節ネットワークデータの正確なモデルは、様々な計算推定技術(6,7)を用いることにより、破壊体に基づく発現データ(4,5)から生成することができる。ここでは、この遺伝子調節情報を用いて、所定の化合物により影響される分子ネットワーク及び遺伝子ターゲットを素早く判断することができる方法を示す。同じ情報により、遺伝子発現調節カスケード内の薬物ターゲット分子の上流又は下流で、代替の薬物可能分子ターゲットの同定及び選択が可能になる。
【0123】
本発明では、遺伝子調節ネットワークにより推進される対話式薬物ターゲット発見プロセスを開発した。この方法論においては、最初に、単一の遺伝子破壊細胞株に多くの遺伝子発現実験を行う。このデータを用いて、階層型遺伝子発現制御の計算推定マップを生成する。階層型調節情報は、薬物応答実験の評価や分子作用機構の仮説を生成するための基礎として用いる。薬物ターゲッティングのための候補分子を選択する前に、解明された調節サブネットワークに関する文献及び別の生物学的実験から得られた情報を用いて結果を理解して確認する。
【0124】
アスピリン及び他の一般的な医薬品を含む臨床的に用いるのに最も有効な薬物は、特定の分子ターゲットと相互作用するように合理的に設計されたものではない。すなわち、望ましい臨床効果又は表現型がこれらの薬物により達成される場合でも、作用の根底にある分子機構、従って薬物の副作用の機構は未知のままである。全ゲノム遺伝子発現実験は、薬物により影響される代替の遺伝子及びパスウェイを判断するのに有用であることが示されているが(8,9,10)、クラスター化のような標準的遺伝子発現解析法で数百の遺伝子に影響を及ぼす多くの薬物に対して主要な分子ターゲットを判断することは、薬物に対する潜在的ターゲットに関して経験的な情報がない場合は実用的ではない。ここでは、通常の一般的な抗真菌剤グリセオフルビンに対して以前から根底にある分子ターゲットを判断するために、薬物応答発現実験と共に全ゲノム発現ライブラリ及び遺伝子ネットワークモデリング技術から得た階層型遺伝子発現調節ネットワークの使用を明らかにする。
グリセオフルビンは、毛髪及び爪の重篤な真菌感染症に主に用いると指示されている広く処方される経口抗真菌剤である。グリセオフルビンの分子作用は知られていないが、この薬物は、真菌の紡錘体構造を破壊して中期停止をもたらす。
【0125】
2.方法
マイクロアレイ実験
この研究に用いた酵母菌株は、BY4741である。遺伝子発現プロファイルをモニタするために、細胞は、中間指数期になるまでYPD(2%ポリペプトン、1%酵母菌抽出物、及び2%グルコース)内で30℃で予め増殖させ、グリセオフルビンを濃度0、10、25、50、及び100mg/mlで培地に加えることによりグリセオフルビンに露出した。露出された細胞は、グリセオフルビンを加えた後、0、15、30、45、及び60分に収集されてRNA抽出に用いられた。総RNAは、ホットフェノール法により抽出された。
【0126】
ブールネットワーク推定アルゴリズム
他に報告された遺伝子発現実験のためのブール法に加えて(11)、本発明では、破壊体発現データと組み合わされた一組の薬物治療実験から遺伝子発現行列Eを作成した。薬物生成摂動がある場合は、遺伝子破壊に類似する薬物の影響を表す「仮想」遺伝子を作成した。こうして、本発明では、破壊に基づくデータ用に設計された標準的破壊行列アルゴリズムを用いることができた。
ベイズネットワーク推定アルゴリズム
本発明では、ノンパラメトリック調節及びベイズネットワークを実行し、本明細書に報告するアルゴリズム及び方法を用いてCIK1の上流に調節サブネットワークを形成した。
【0127】
データの正規化
cDNAマイクロアレイ検定により、20個の薬物処理株から5871個のmRNA種の量が測定された。Cy3、Cy5間の蛍光強度の差により、発現量比に偏りが生じる。本発明では、各発現プロファイルの発現量比を正規化した。比の偏りは、各発見ブロックで一定の傾きであったために、線形回帰を計算して各ブロックの平均値比を1.0に正規化した。この比の対数値を用いて標準発現レベルを示すことにより、比の対数値が求められ、これらの対数値の平均及び標準偏差が計算された(表1参照)。UME6がYPD(33)破壊体中の「全体的調節因子」として定義されるUME6(YDR207C)破壊体発現アレイからの全ての発見遺伝子の発現レベルの「標準偏差(SD)」は、0.4931であり、従って、アレイデータには、全体的SDが0.5よりも大きい許容不可能な数の誤差があることが認められ、このような実験は解析から除外された。
【0128】
モデリングのための遺伝子の選択
YPDにおいては、314個の遺伝子が「転写因子」と定められ、このうち98個の遺伝子は、以前に制御機構が研究されている。これら98個の「転写因子」により制御された遺伝子を含む552個の遺伝子の発現プロファイルデータを5871個のプロファイルから選択した。このようにして、本発明では、120回の遺伝子破壊実験及び20回の薬物処理実験で、これら552個の遺伝子の値に基づく発現プロファイルデータから遺伝子調節ネットワークを構成した。
【0129】
3.結果
10mlのDMF中に10、50、及び100mgの薬用量で酵母菌を培養し、グリセオフルビン添加後に5つの時点(0、15、30、45、及び60分)で培養液の一定量を取った。次に、これらの実験から総RNAを抽出し、このRNAをcy5でラベル付けして未処理細胞由来のcy3ラベルRNAと共にハイブリッド形成し、これを全ゲノムcDNAマイクロアレイに付加した。薬物処理及び正常の酵母菌間で発現に差がある552個の遺伝子のうち、2シグマ閾値に亘って183個の遺伝子が下方調節された(図7a)。薬物応答及び遺伝子破壊実験から得られた結合された発現ライブラリに標準階層型クラスター化方法論(図7b)を応用し、遺伝子を2つの主要グループ、すなわち、1番目はグリセオフルビンに影響された遺伝子グループ、2番目は破壊に影響された遺伝子グループにクラスター化した。グリセオフルビンクラスター内で、遺伝子は、薬用量又は時間経過により更にグループ分けされた。しかし、クラスター化は、所定の遺伝子及び薬物グリセオフルビンによる相関関係のある調節を顕著に示すいかなる遺伝子発現パターンも見出さなかった。この結果は、抗真菌剤が1つの個別の遺伝子のみの発現に影響してそれが最小限である場合を除き、予測されるものであろう(図7b)。
【0130】
しかし、遺伝子調節ネットワークモデルを薬物摂動データと共に用いると、薬物とトランスクリプトーム内の遺伝子との相互作用の階層型遺伝子調節図が得られる。この遺伝子ネットワーク薬物摂動データを生成するために、最初に、542個の単一遺伝子破壊変異体の全ゲノム発現ライブラリを作成した。このライブラリから120個のアレイデータを選択し、これをグリセオフルビン実験から生成したアレイ行列と論理的に結合した。次に、遺伝子ネットワーク解明(11 12)のために設計されたブール方法論を各時間経過に対する結合発現行列に応用し、各実験の階層型調節マップを各用量及び時点に対して生成した。本発明では、各薬用量及び時点の実験に対する結合ブール調節サブネットワークを生成した。ブールアルゴリズムは、結合行列の取り扱いに適しており、ループ調節プロセスを処理することができ、いくつかの次数の調節分離を有する階層型有向グラフの作成が容易であることにより選択した。このデータから、初期の摂動調節イベントにより開始された二次的なカスケードに対して、一次の薬物影響を識別することができた。
【0131】
各時間及び用量示差実験から得たブールデータを評価することにより、各時間及び薬物濃度での最初の効果として一貫して顕著に抑制された8個の遺伝子を同定することができた。これらの遺伝子のうち、CIK1は、発現実験を通して最も高い抑制効果を示した。CID1は、酵母菌プロテオームデータベース(YPD)において紡錘体形成及び核合体の集結(核移動)段階(13)に関与する紡錘体極体のコイルドコイルタンパク質と説明されているタンパク質に対してコード化する。グリセオフルビンの作用は、CIK1(14)の機能と一致して、紡錘体形成への影響であることが公知であるから、CIK1遺伝子を破壊した酵母菌株及びグリセオフルビンにより影響された酵母菌の病理的検査が行われた。通常の生理的薬用量のグリセオフルビン及びCIK1の破壊のいずれも致死的ではないが、いずれの培養物も、同様の形態的相違点及び増殖特性を示している。更に、グリセオフルビンで処理した酵母菌及びCIK1除去酵母菌での紡錘体構造の顕微鏡検査では、紡錘体及び周囲の組織的構造(15)に極めて類似する変化が見られた。
【0132】
本明細書に説明する方法論は、細胞に対する所定の化合物の作用の分子機構を素早く突き止めて確認するための遺伝子ネットワーク技術を用いる結合発現アレイ及び計算手法の有用性を明確に示している。このような技術を用いると、ポストゲノム時代の医薬開発のターゲット選択プロセスを合理化するのに役立つことになり、医薬業界での発見の効率性及び開発リスクの軽減に寄与することができる。更に、他の生物学的発見及び農芸化学ターゲッティングにも同じ技術を応用することができる。本発明者の研究室では、現在、ヒト及び他の生物系でこの発見モデルを再現している。更なる説明は、本明細書においてその全内容が引用により組み込まれる、2002年7月12日出願の米国特許仮出願一連番号第60/395,756号に見出すことができる。
【0133】
Figure 2005505031
Figure 2005505031
【0134】
VII.ネットワーク関係を発見するためのシステム及びその用途
他の実施形態においては、本明細書に説明する実施例6を含む遺伝子ネットワークを解明する方法を提供する。従って、望ましいシステムには、以下のようなシステムを含むことができる。
(1)ゲノム構造が解明される時にネットワークを解明することを可能にする実験データを収集することができるシステム。
(2)全ての関連遺伝子のデータを測定することができるシステム。
(3)遺伝子チップのような多くの実験に使用することができる多くのツールを有するシステム。
(4)摂動を加えた後に出力を測定し、多くの標準化データが得られるシステム。
(5)遺伝子関係の解析を判断することができるシステム。
【0135】
このようなシステムの例を実施例6の図1に示している。実施例6の図2は、生物から表現遺伝子に関するマイクロアレイデータを得る方法を概略的に示している。実施例6の図3は、特定の遺伝子が破壊されている変異細胞(破壊体)の遺伝子生成物(例えば、RNA)の量と、正常(野生型)細胞からの遺伝子生成物の量とを比較することにより、遺伝子の発現を評価して定量化する方法を概略的に示している。
【0136】
いくつかの実施形態においては、実施例6の図4に示すガイドラインを用いて大規模ネットワークの解析を達成することができる。また、時間経過研究を行うことができ、研究中の各遺伝子の発現を評価することができる。ブールネットワークモデルを準備することができ、ネットワークの動的モデルを作ることができる。正及び負の相互作用をマップし、それによって遺伝子ネットワークを生成することができる。また、多重レベル有向グラフ手法を取り、各遺伝子を破壊する(又は、発現を変化させる)効果を研究中の他の遺伝子と関連付けることができる。
【0137】
引用による組み込み
本出願に示した全ての特許、特許出願、及び参考文献は、本明細書においてその全内容が引用により組み込まれる。
以上の本発明の実施形態は、例証及び説明の目的で挙げたものであり、網羅的なものでもなければ、開示したものと正確に同じ形態に本発明を限定するものでもない。当業者には、多くの修正及び変形が明らかであろう。これらの実施形態は、本発明の原理及びその実際の応用が最も良く説明され、それによって他の当業者が本発明と想定される特定用途に適する様々な修正を有する様々な実施形態とを理解することができるように選択して説明したものである。本発明の範囲は、特許請求の範囲及びその均等物により規定されるものとする。
【0138】
実施例
以下の実施例は、本発明の実施形態を解説するために挙げたものである。本発明の精神から逸脱することなく、本特許出願の教示事項の他の特定の応用を用いることができる。本方法の他の修正を用いることができ、これも本発明の範囲内であると見なされる。
【実施例1】
【0139】
ベイズネットワーク及びノンパラメトリック回帰を用いることによる遺伝子ネットワーク及び遺伝子間の機能構造の評価
ベイズネットワークを用いることによって遺伝子発現データから遺伝子ネットワークを構築する新しい方法を提案する。本発明では、遺伝子間の非線形関係を捉えるためにノンパラメトリック回帰を用い、一般的な状況におけるネットワークを選択するための新しい判定基準を導出する。理論的には、本発明で提案する理論及び方法論には、ベイズ手法に基づく従来の方法が含まれる。本方法は、S.cerevisiae細胞周期データ13,20に応用され、従来の方法に比較した本方法の有効性が示される。
【0140】
1.序文
遺伝子工学の発達により、マイクロアレイ遺伝子発現データのような大量の有用なデータが提供されている。分子生物学及び生物情報学の分野においては、遺伝子間の関係を解析することに多大な関心が寄せられている。しかし、データの次元性及び複雑性が原因で、ノイズに埋もれている構造を見つけることは容易な仕事ではない。従って、生物学的データから有用な情報を抽出するために、統計的な観点から理論及び方法論が開発されることが期待されている。本発明の目的は、遺伝子間の関係を明確に理解するための新しい方法を確立することである。
【0141】
マイクロアレイ遺伝子発現データの解析においては、グラフ理論手法から遺伝子ネットワーク3,4,5,12を構成するためにベイズネットワークを使用する。Friedman及びGoldszmidt(1998)12は、ベイズネットワークを用いることにより遺伝子リンクを構成するための興味ある方法を提唱した。彼らは、遺伝子の発現値を離散化し、多項分布に基づいてモデルを当て嵌めることを考えた。しかし、実験のみによらない離散化のための閾値を選択する問題が依然として残る。閾値は、結果に確実に本質的な変化をもたらすものであり、閾値が適切でなければ、誤った結果に至る。一方、近年、Friedman他(2000)13は、離散化が情報の損失につながる可能性があると指摘した。従って、発現データを連続値として用いるために、彼らは、直線回帰に基づくガウスモデルを用いた。しかし、このモデルは、線形依存性しか検出することができず、十分な結果を得ることができない。
【0142】
本実施例では、ベイズネットワークを用いて遺伝子ネットワークを構築する新しい方法を提案する。遺伝子間の線形依存性のみでなく非線形構造も捉えるために、本発明では、ガウス分布ノイズを有するノンパラメトリック回帰モデル11,15,21,22を用いる。ノンパラメトリック回帰は、事前に関数関係に関する知識がない場合に複雑な非線形形式の予期応答を求めるために開発されたものである。ベイズネットワークが新しい構造であるために、モデルを評価するための適切な判定基準が必要であり、本発明では、ベイズ統計学から新しい判定基準を導出する。本方法を用いることにより、以前の方法の欠点が克服され、より多くの情報が獲得されることになる。本発明の方法はまた、特別な場合として以前の方法も含む。本発明で提案する方法は、S.cerevisiae細胞周期データの解析を通して明らかにされる。
【0143】
2.ベイズネットワーク及びノンパラメトリック回帰
X=(X1,X2,・・・,XpTをp次元のランダムベクトルとし、Gを有向非周期的グラフとする。ベイズネットワーク枠組みの下で、遺伝子を確率変数とみなし、同時確率を分解して条件付き確率の積にする。すなわち、
【数1】
Figure 2005505031
であり、ここで、Pj=(P(j) 1,P(j) 2,・・・,P(j) 4jTは、グラフGにおけるXjの親変数のqj次元のベクトルである。
ランダムベクトルのn個の観察値x1,・・・,xnがあり、Pjの観測値は、p1j,・・・,pnjで表され、pijは、k=1,・・・,qjに対してk番目の要素p(j) ikを有するqj次元のベクトルであると仮定する。例えば、Xnをn×p行列とし、ここで、
【数2】
Figure 2005505031
であり、xi Tは、ベクトルxiの転置であるとする。X1が、親ベクトルP1=(X2,X3Tを有する場合は、p11=(x12,x13T,・・・,Pn1=(xn2,xn3Tとなる。
(1)の確率測度Pを密度
【数3】
Figure 2005505031
で置換しても、この等式が成り立つことは直ちに見出される。次に為すべきことは、条件付密度
【数4】
Figure 2005505031
をどのように構成するかということだけである。
【0144】
本実施例では、xijとpij=(p(j) i1,・・・,p(j) i4jTとの間の関係を形式
【数5】
Figure 2005505031
で捉えるためにノンパラメトリック回帰モデルを用い、ここで、mk(k=1,・・・,qj)は、RからRまでの平滑関数であり、εij(i=1,・・・,n)は、独立にかつ正規的に平均値0及び分散σj 2に依存する。関数mkに関しては、
【数6】
Figure 2005505031
を仮定し、ここで、
【数7】
Figure 2005505031
は、基底関数(例えば、フーリエ級数、多項式基底、回帰スプライン基底、B−スプライン基底、ウェーブレット基底等)の所定のセットであり、係数
【数8】
Figure 2005505031
は、未知のパラメータであり、Mjkは、基底関数の数である。
【0145】
次に、ノンパラメトリック回帰モデルは、
【数9】
Figure 2005505031
の形の確率密度関数として書くことができ、ここで、
【数10】
Figure 2005505031
は、パラメータベクトルであり、ここで、
【数11】
Figure 2005505031
である。変数Xjが親変数でない場合は、平均μj及び分散σj 2の正規分布に基づくモデルを考える。
最後に、ガウス分布ノイズ
【数12】
Figure 2005505031
を伴うノンパラメトリック回帰モデルに基づくベイズネットワークモデルが得られ、ここで、
【数13】
Figure 2005505031
は、グラフGに含まれるパラメータベクトルであり、θjは、モデルfiのパラメータベクトル、すなわち、
【数14】
Figure 2005505031
である。
【0146】
3.グラフを選択する判定基準の提案
π(θG|λ)をハイパーパラメータベクトルλを伴う未知のパラメータθGに関する事前分布とし、logπ(θG|λ)=O(n)とする。データXnの周辺確率は、パラメータ空間に亘って積分することにより得られ、本発明では、最も大きい事後確率
【数15】
Figure 2005505031
を有するグラフGを選択し、ここで、πGは、Gの事前確率である。Friedman及びGoldszmidt(1998)12は、ベイズネットワークモデルf(xi;θG)として多項式分布を考え、パラメータθGにディリクレ事前も仮定した。この場合、ディリクレ事前は、共役事前であり、事後分布は、同じクラスの分布に属している。次に、(4)の積分の閉じた形の解が得られ、これは、グラフを選択するためのBDeスコアと呼ばれる6,16。BDeスコアが多項式モデルに限定されていることを考えて、本発明では、より一般的で様々な状況においてグラフを選択するための判定基準を提唱する。
【0147】
(4)に基づく判定基準を構成する際の本質的な問題は、積分をどのように計算するかということである。マルコフ連鎖モンテカルロのような積分を計算する方法を考えることができるが、本発明においては、積分にラプラス近似式を用いる7,17,23。Xnの周辺確率に対するラプラス近似は、
【数16】
Figure 2005505031
であり、ここで、rは、θGの次元数であり、
【数17】
Figure 2005505031
及び、θGは、lλ(θG|Xn)のモードである。次に、グラフを選択するための判定基準であるBNRCが以下のように得られる。
【数18】
Figure 2005505031
この判定基準BNRC(5)が最小になるように、最適なグラフを選択する。
【0148】
この判定基準は、logπ(θG|λ)=O(n)の下で導かれる。logπ(θG|λ)=O(1)であれば、モードθGは、最大尤度推定値MLEと同等であり、この判定基準は、高次項O(n-j)(j≧0)を除去することにより、BIC19として公知のベイズ情報判定基準をもたらす。Konishi(2000)18は、カルバック・ライブラー情報及びベイズ手法に基づき、モデル選択判定基準を構成するための一般的枠組みを提供した。
【0149】
事前密度π(θG|λ)は、θjに対する事前密度の積
【数19】
Figure 2005505031
に分解されると仮定する。従って、(5)の
【数20】
Figure 2005505031
及び、
【数21】
Figure 2005505031
は、それぞれ、
【数22】
Figure 2005505031
及び、
【数23】
Figure 2005505031
であり、ここで、
【数24】
Figure 2005505031
である。従って、BNRC(5)は、次のように、グラフのローカルスコアにより得ることができる。j番目の変数Xjに対するローカルBNRCを以下のように定義する。
【数25】
Figure 2005505031
ここで、πLjは、Xjに付随するローカル構造の事前確率である。また、ラプラス法をBNRCjに適用すると、BNRCは、以下のように得られる。
【数26】
Figure 2005505031
グラフが非周期的として構成されているために、最終的なグラフは、BNRCのミニマイザとして選択され、各ローカルスコアBNRCjを最小にする必要はないことに注意すべきである。
【0150】
4.BNRCを用いたグラフ及び関連構造の評価
この節においては、本発明の方法をより具体的に示す。本発明で提案する方法の本質的な点は、ノンパラメトリック回帰と、ベイズ統計学からグラフを選択するための新しい判定基準とを用いることである。
第2節のノンパラメトリック回帰に関しては、(2)における基底関数としてB−スプライン8を用いる。図1は、等距離結び目t1,・・・,t10を有する次数3のB−スプラインの例である。領域[最小i(pik (j)),最大i(pik (j))]をMjk−3の等距離間隔10に分割する結び目を配置し、Mjk個の次数3のB−スプラインを設定する。
【0151】
Figure 2005505031
図1:次数3の6つのB−スプラインの例である。t1,・・・,t10は結び目と呼ばれ、これらの結び目は等間隔である。
【0152】
パラメータベクトルθjに関する事前分布は、
【数27】
Figure 2005505031
であると仮定する。各事前分布πjk(γjk|λjk)は、
【数28】
Figure 2005505031
により与えられる特異Mjk変量正規分布であり、ここで、λjkはハイパーパラメータであり、KjkはMjk×Mjk行列
【数29】
Figure 2005505031
であり、|Kjk+は、KjkのMjk−2の非ゼロ固有値の積である。スコアBNRCj(7)は、
【数30】
Figure 2005505031
として得ることができ、ここで、
【数31】
Figure 2005505031
は、固定λjkに対して(6)で定めたlλ (j)(θj|Xn)のモードである。計算面に関しては、(9)のヘッセ行列の行列式の対数を、
【数32】
Figure 2005505031
によって近似し、ここで、Bjkは、
【数33】
Figure 2005505031
により定められるn×Mjk行列であり、また、
【数34】
Figure 2005505031
である。従って、(3)、(8)、及び(9)を組み合わせることにより、BNRCjは、
【数35】
Figure 2005505031
になり、ここで、βjk=σj 2λjkはハイパーパラメータ、また、
【数36】
Figure 2005505031
となる。逆当て嵌めアルゴリズム15を用いることにより、βjkの値が与えられると、モード
【数37】
Figure 2005505031
を得ることができる。逆当て嵌めアルゴリズムは、次のように表される。
段階1、初期設定:γjk=0,k=1,・・・,qj
段階2、サイクル:k=1,・・・,qj,1,・・・,qj,1,・・・
【数38】
Figure 2005505031
段階3:適切な収束判定基準が満たされるまで段階2を続ける。モード
【数39】
Figure 2005505031
は、
【数40】
Figure 2005505031
により与えられる。
【0153】
注意すべきことは、モード
【数41】
Figure 2005505031
及び
【数42】
Figure 2005505031
は、ハイパーパラメータβjkに依存し、βjkの最適値を選択する必要があることである。本発明の方法に関しては、βjkの最適値は、BNRCjを最小にする値として選択するのが自然な方法である。
B−スプライン係数ベクトルγjkは、(6)を最大にすることにより推定されることを想起すべきである。(6)のモードは、罰則付き尤度推定値と同じであり21,24、ハイパーパラメータλjk又はβjkを罰則付き尤度の平滑化パラメータとみなすことができる。従って、ハイパーパラメータは、曲線をデータに当て嵌めるのに重要な役割を演じる。
【0154】
Figure 2005505031
図2:モンテカルロシミュレーション
(左)真、(右)推定
【0155】
5.数値実験
実際のデータを解析する前に、モンテカルロシミュレーションを用いて、本方法の特性を調べた。データは、人為的グラフ及び変数間の構造(図2)から生成し、次に、以下のように結果をまとめることができる。本発明の判定基準BNRCは、データの線形及び非線形構造を極めて良好に検出することができる。しかし、BNRCスコアにおいては、グラフが増大しすぎる傾向がある。そこで、実際のデータの解析においては、AIC1,2として公知のアカイケの情報判定基準を用いることを考え、両方の方法が用いられた。AICは、元来、最大尤度法により推定された評価モデルのための判定基準として導入された。しかし、本発明の方法により推定されるものは、最大罰則付き尤度推定と同じであり、MLEではない。この場合、AICの修正版10は、
【数43】
Figure 2005505031
により与えられ、ここで、
【数44】
Figure 2005505031
である。Sjkのトレースは、当て嵌めた曲線の自由度を示すものであり、非常に役に立つ。すなわち、trSjkがほぼ2であれば、従属性は線形であるとみなすことができる。本発明では、親変数まで加算するか否かを決めるためにBNRC及びAICの両方を用いる。本方法を用いることにより、推定グラフ及び構造は、真のモデルに近づく。
【0156】
本発明では、Spellman他(1998)20及びFriedman他(2000)13により論じられているS.cerevisiae細胞周期データを解析した。データは、800個の遺伝子及び77回の実験から収集した。
【0157】
Figure 2005505031
図3:CNL2、CDC5、及びSVS1に対するBNRCスコア
【0158】
大きなグラフが許容不可能であるという理由はなく、真のグラフの大きさに関する情報もないために、事前確率πGは定数として設定する。ノンパラメトリック回帰により、20個のB−スプラインが構成される。実際には、B−スプラインの数もパラメータである。しかし、本発明では、幾分多くのB−スプラインを用い、ハイパーパラメータが当て嵌め曲線の滑らかさを制御し、様々な数のB−スプラインに対応する当て嵌め曲線間の差を視覚的に見出すことはできない。
【0159】
解析の結果は、次のようにまとめることができる。図3は、1つの遺伝子によりCLN2、CDC5、及びSVS1を予想した時のBNRCスコアを示す。BRNCスコアが小さい遺伝子は、ターゲット遺伝子を良好に発現させる。どの遺伝子がターゲット遺伝子に付随するかを観察することができ、ターゲット遺伝子の発現に強く依存する遺伝子セットが見出される。実際、これらの情報を用いることにより簡潔なネットワークを構築することができる。最適なグラフは、相互作用の効果を考慮することにより、この簡潔なネットワークの修正版とみなすことができる。遺伝子間に線形依存性がある場合は、親子関係を逆にしてもBNRCスコアが良好である。従って、特に、従属性がほぼ線形である場合は、グラフ内の因果関係の方向は厳密ではない。本発明の得た結果は、基本的に、Friedman他(2000)13の結果を支持するが、勿論、部分的には異なる点もある。MCD1、CSI2、YOX1等のようなFriedman他の結果を媒介する遺伝子もある。これらの遺伝子のほとんどは、重要な役割を演じると報告されている。遺伝子間の関係の多数は、ほぼ線形である。しかし、線形モデルではほとんど見出されない非線形依存性も見出すことができた。図5は、プロセスが細胞周期及びその近傍によって分類された遺伝子に関連する推定グラフを示す。本明細書においては、図5のいくつかのブランチを省略しているが、重要な情報はほぼ示している。本発明及びFriedman他13により与えられたネットワークに関して、本発明では、親子関係を確認し、2つのネットワークの両方が互いに類似することを観察した。特に、本発明のネットワークは、Friedman他13により報告された典型的な関係を含む。両ネットワークの差に関しては、SVS1の親に注目する。Friedman他13は、SVS1の親遺伝子としてCLN2及びCDC5を用いた。一方、本発明の結果では、SVS1に対してCSI2及びYKR090Wが得られる。これら2つの結果の差を検査した。結局、BNRC及びAICの意味においては、本発明の候補親遺伝子は、Friedman他13の親遺伝子よりも適切であることが見出された。この理由は、本発明のモデルが図4の両方の場合に適切に当て嵌まるので、離散化の効果であろう。特に、CDC5は、Spellman20のデータの場合のみに他の遺伝子に比較してSVS1に対して単に弱い影響を及ぼすと結論される(図3も参照)。実際に、SVS1の親遺伝子として、CDC5のBNRCの順序は247番目である。上述の状況を考慮すると、本発明の方法は、理解可能かつ有用な形で貴重な情報を提供することができる。
【0160】
Figure 2005505031
図4:細胞周期データ及び平滑化された推定値。(a)及び(b):Friedman他(2000)13、BNRC=57.71、AIC=167.96、(c)及び(d):本方法、BNRC=32.53、AIC=140.16。
【0161】
6.考察
本発明は、ベイズネットワーク及びノンパラメトリック回帰を用いることによりマイクロアレイ遺伝子発現データから遺伝子ネットワークを推定する新しい方法を提唱する。本発明は、グラフを選択するための新しい判定基準を理論的に導き出し、細胞周期データを解析することによりその有効性が示される。本方法の利点は、主に以下に示す通りである。すなわち、連続値として発現を利用することができ、線形依存性のみでなく、非線形構造も検出することができ、容易かつ理解可能に機能構造を視覚化することができる。また、完全な自動検索により最適なグラフの作成を達成することができる。
【0162】
本発明者はまた、Friedman他13の方法には、試行錯誤により選択され、狭い意味で最適化されない離散化のための閾値及びディリクレ事前のハイパーパラメータのような未知のパラメータが残ることを指摘した。一方、本発明の方法は、確固たる理論的根拠を有する本発明の判定基準案に基づき、どのようなパラメータも自動的かつ適切に推定することができる。その他にも、本方法は、特別な場合としてFriedman他13の方法を含む。
【0163】
本発明者は、将来の研究課題として以下の問題を考慮している。すなわち、(1)本発明は、ガウス分散に基づく統計的モデルを用いた。しかし、本発明では、より一般的な状況での判定基準BRNCが導かれた。実際に、他の統計モデルに基づいてグラフ選択判定基準を構成することができる。(2)外れ値が奇妙な結果を引き起こす場合もあり得る。すなわち、外れ値を検出する強力な方法及び技術の開発は、重要な課題である。(3)結合の強度は、ブートストラップ法9を用いることにより恐らく測定される。将来の論文でこのような問題を考察したい。
【0164】
Figure 2005505031
図5:細胞周期データ結果
【0165】
Figure 2005505031
【実施例2】
【0166】
ベイズネットワークと不均一誤差分散及び相互作用を有するノンパラメトリック回帰とによる遺伝子ネットワークの非線形モデリング
要約
ベイズネットワークに基づくマイクロアレイ遺伝子発現データから遺伝子ネットワークを構築するための新しい統計学的方法を提案する。ベイズネットワークにおいて、ネットワーク構成の本質的な点は、各確率変数の条件付分布を推定することにある。遺伝子間の非線形構造を捉えるために、不均一誤差分散及び相互作用を有するノンパラメトリック回帰モデルの当て嵌めを考える。ベイズネットワーク及びノンパラメトリック回帰を用いてグラフを設定した状態でも、遺伝子間のシステムを最も良く表す最適なグラフを選択することに依然として解決すべき問題が残る。本発明では、一般的状況でベイズ手法からグラフを選択するための新しい判定基準を理論的に導出する。本方法には、ベイズ法を用いてネットワークを推定する従来の方法が含まれる。本発明では、100個の遺伝子を破壊することにより新しく得られたSaccharomyces cerevisiae遺伝子発現データを解析することにより、本方法の有効性が明らかにされる。
キーワード:マイクロアレイ遺伝子発現データ、ベイズネットワーク、ノンパラメトリック回帰、不等分散性、相互作用、事後確率
【0167】
1.序文
マイクロアレイ技術の発展を受けて、現在では数千もの遺伝子発現データを一度に見ることができる。遺伝子発現データの解析において、ベイズネットワークの構築は、分子生物学及び生物情報科学の分野で多くの注目を集めている([3]、[4]、[5]、[12]、[13]、[18]、及び[22]参照)。しかし、データの次元性及び複雑性が原因となり、マイクロアレイ遺伝子発現データ解析の発展が妨げられている。すなわち、必要なデータは、ノイズを伴う大量のデータに埋もれている。本実施例は、遺伝子間の非線形関係でさえも明確に捉えることができる遺伝子ネットワークを構築するための新しい統計学的方法を提案する。
【0168】
ベイズネットワーク([19])は、多くの確率変数の同時分布を通じて現象をモデル化するのに有効な方法である。近年、ベイズネットワークを用いることにより、マイクロアレイ遺伝子発現データから遺伝子ネットワークを構築するいくつかの興味ある研究が行われた。Friedman及びGoldszmidt[12]は、発現値を離散化し、統計学的モデルの候補として多項分布を仮定した。Pe’er他[22]は、離散化のための閾値を考察した。一方、Friedman他[13]は、離散化によりデータの情報が恐らく失われることを指摘し、データを連続的に解析する線形回帰モデルを当て嵌めることを考えた。しかし、親遺伝子が目的遺伝子に線形的に依存するという仮定は、必ずしも保証されるわけではない。Imoto他[18]は、遺伝子間の線形依存性だけでなく非線形構造も捉えるためのノンパラメトリック加法回帰モデル([16]も参照)の使用を提案した。本実施例では、ベイズネットワーク及びノンパラメトリック不等分散性回帰モデルを用いることにより遺伝子ネットワークを構築する方法を提案するが、これは、外れ値の影響を受けにくく、親遺伝子の相互作用の効果を捉えることができる。
【0169】
グラフを設定した状態で、全く未知の真のグラフに対する適合度又は接近度を評価すべきである。従って、適切な判定基準の構成は、統計的遺伝子ネットワークモデリングで最も注目されることになる。Friedman及びGoldszmidt[12]は、多項式モデル及びディリクレ事前に基づきグラフを選択するための判定基準BDeを導き出した。しかし、ディリクレ事前には未知のハイパーパラメータが残り、その値は経験的に設定されるだけである。本発明は、統計的モデル選択としてのグラフ選択の問題又は評価の問題を考察し、ベイズ手法([8])からグラフを選択するための新しい判定基準を導き出した。この本発明の判定基準は、モデルの全てのパラメータを自動的に最適化し、最適なグラフを生成する。それに加えて、本方法は、ベイズネットワークにより遺伝子ネットワークを構築する従来の方法も含む。本方法の有効性を示すために、本発明では、100個の遺伝子を破壊することによりSaccharomyces cerevisiaeの遺伝子発現データを解析する。
【0170】
2.ベイズネットワーク及び相互作用のあるノンパラメトリック不等分散回帰モデル
2.1.ベイズネットワークにおける非線形モデル
p次元の確率変数ベクトルX=(X1,・・・,XpTのn組のデータ{x1,・・・・・,xn}があると仮定し、ここで、xi=(xi1,・・・xipTであり、xTは、xの転置を表すとする。マイクロアレイ遺伝子発現データでは、n及びpは、アレイ及び遺伝子の数に対応する。ベイズネットワーク枠組みの下で、ノード間の有向非周期的グラフG及びマルコフ仮説を考えた。次に、同時密度関数を各変数の条件付密度([10]も参照)に分解する。すなわち、
【数45】
Figure 2005505031
であり、ここで、
【数46】
Figure 2005505031
は、グラフGにおけるxijのqj次元親観察ベクトルである。P1=(X2,X3TがX1の親変数ベクトルである場合、pi1=(xi2,xi3T、(i=1、・・・、n)となる。式(1)により、ベイズネットワークによる統計的モデリングでの興味の中心は、どのようにして条件付密度fiを構成することができるかということである。条件付密度fiがパラメータベクトルθjによりパラメータ化され、有効な情報がこれらの確率モデルから抽出されると仮定する。
【0171】
Imoto他[18]は、xijとpijとの間の非線形関係を捉えるためにノンパラメトリック回帰戦略を用いた。多くの場合、本方法は、目的関係を良好に捉えることができる。しかし、データが、特に領域{pij}の境界近くに外れ値を有する場合は、ノンパラメトリック回帰モデルは、不適切な平滑推定値を誘導する可能性があり、すなわち、推定曲線が、外れ値のために偽の波形を示す。推定されるものが生物のシステムであるために、あまり複雑な関係は不適切である。事実、実際のデータ解析では、この不適切な場合が起こることがある。この問題を避けるために、不均一誤差分散を有するノンパラメトリック回帰モデル、
【数47】
Figure 2005505031
を当て嵌めることを考慮し、ここで、mj(・)は、RqjからRまでの平滑関数であり、N(μ,σ2)は、平均値μ及び分散σ2を有するガウス分布を示す。ここで、Rは実数のセットを表す。このモデルには、Imoto他[18]のモデルが含まれ、特別な場合として明らかに線形回帰モデルも含まれる。
【0172】
系統的成分mj(pij)を構成するための可能性のある手法の1つは、ノンパラメトリック加法リグレッサー[18]、
【数48】
Figure 2005505031
であり、これは、多重線形回帰の直接的延長である。一般に、各平滑関数mjk(・)は、n個の値
【数49】
Figure 2005505031
によって特徴付けられ、システム(3)は、n×qjパラメータを含む。次に、このモデル内のパラメータの数は、観察数よりも遥かに大きく、パラメータ推定が不安定になる傾向がある。本実施例では、基底関数手法である、
【数50】
Figure 2005505031
により平滑関数mjk(・)を構成し、ここで、
【数51】
Figure 2005505031
は、未知の係数パラメータであり、
【数52】
Figure 2005505031
は、基底関数である。このように表すと、n個のパラメータ
【数53】
Figure 2005505031
は、Mjk係数パラメータ
【数54】
Figure 2005505031
により再パラメータ化される。一方、本発明に必要なものは、相互作用の効果であり、相互作用モデル、
【数55】
Figure 2005505031
を構成することができ、ここで、Pij (j)は、Pijのサブベクトルである。すなわち、Pi1 (j)及びPi2 (j)の相互作用が必要な場合は、
【数56】
Figure 2005505031
を得る。また、
【数57】
Figure 2005505031
により、関数ψjl(・)を構成することができ、ここで、clk (j)(Pil (j))は基底関数であり、ξlk (j)はパラメータである。(3)及び(4)を組み合わせて、相互作用を有するノンパラメトリックリグレッサーは、一般に、
【数58】
Figure 2005505031
により得られる。
【0173】
誤差分散σij 2においては、以下の構造、
【数59】
Figure 2005505031
を仮定し、ここで、w1j、・・・、wnjは定数であり、σj 2は、未知のパラメータである。誤差分散の特徴を反映して定数w1j、・・・、wnjを設定することにより、データの不等分散性を表すことができる。(2)、(5)、及び(6)を組み合わせて、以下の不均一誤差分散及び相互作用を有するノンパラメトリック回帰モデルを得る。
【数60】
Figure 2005505031
ここで、γjk及びbjk(pik (j))は、それぞれ、
【数61】
Figure 2005505031
により与えられるMjk次元ベクトルであり、ξjl及びcjl(Pil (j))は、それぞれ、
【数62】
Figure 2005505031
により与えられるLil次元ベクトルである。従って、モデル(7)のパラメータは、
【数63】
Figure 2005505031
及びσj 2である。変数Xjが、グラフ中に親変数を持たない場合、平均値μj及び分散σj 2の正規分布に基づくモデルを指定する。従って、ベイズネットワークモデルは、
【数64】
Figure 2005505031
により与えられ、ここで、
【数65】
Figure 2005505031
は、グラフGに含まれるパラメータベクトルであり、θjは、条件付密度fi内のパラメータベクトルである。すなわち、
【数66】
Figure 2005505031
又は
【数67】
Figure 2005505031
である。
【0174】
2.2.グラフを選択するための判定基準
グラフを設定した状態で、ベイズネットワーク及びノンパラメトリック回帰に基づく統計学的モデル(8)を構成し、これを適切な方法で評価することができる。しかし、どのようにしてデータの下にあるシステムを最もよく近似する最適なグラフを選択することができるかという依然として解決すべき問題が残っている。より複雑なモデルでは、尤度値が大きくなるために、モデル選択判定基準として尤度関数を用いることができないことに注意すべきである。従って、一般化又は予測的誤差に基づく統計的手法であるカルバック・ライブラー情報量及びベイズ手法等([20])を考慮すべきである。この節において、ベイズ手法から本発明のモデル(8)に基づくグラフを評価するための判定基準を構成する。
【0175】
グラフを設定すると、グラフの適合性を評価するための判定基準は、次のようにベイズ理論的手法から構成することができる。すなわち、グラフの事後確率は、グラフの事前確率πG及びデータの周辺確率の積により得られる。標準化定数を除去することにより、グラフの事後確率は、
【数68】
Figure 2005505031
に比例し、ここで、Xn=(x1,・・・、xnTは、n×p遺伝子プロファイル行列、π(θG|λ)は、logπ(θG|λ)=O(n)を満たすパラメータθGに対する事前分布、λは、ハイパーパラメータベクトルである。ベイズ手法の下で、最適なグラフをπ(G|Xn)が最大になるように選択することができる。グラフの事後確率に基づき判定基準を構成する際の重大な問題点は、高次元積分の計算(9)である。Friedman及びGoldszmidt[12]は、積分を解くために共役事前を用い、閉じた形の解を出した。この高次積分を計算するために、積分に対するラプラスの近似([11]、[17]、及び[26])
【数69】
Figure 2005505031
を用い、ここで、rはθGの次元数であり、
【数70】
Figure 2005505031
であり、
【数71】
Figure 2005505031
は、lλ(θG|Xn)のモードである。次に、グラフを選択するための判定基準BNRCを得る。
【数72】
Figure 2005505031
最適なグラフは、判定基準BNRC(10)が最小になるように選択する。ラプラス法を用いることの利点は、共役事前分布を用いることを考える必要がないことである。従って、モデル及び事前のより大きなクラスの分布でモデル化が達成される。
【0176】
パラメータベクトルθjが互いに独立であるとすると、事前分布は、
【数73】
Figure 2005505031
に分解することができる。従って、(10)のlog|Jλ(θG|Xn)|及びnlλ(θG|Xn)は、それぞれ、
【数74】
Figure 2005505031
であり、ここで、
【数75】
Figure 2005505031
である。ここで、λjは、ハイパーパラメータベクトルである。従って、πLj
【数76】
Figure 2005505031
を満たす事前確率とする時、
【数77】
Figure 2005505031
を定義することにより、BNRCスコアは、ローカルBNRCスコアの合計、
【数78】
Figure 2005505031
により与えられる。ノンパラメトリック回帰に基づく平滑化推定値は、パラメータγj及びξjを、それぞれ
【数79】
Figure 2005505031
及び
【数80】
Figure 2005505031
で置換することにより得られる。logπ(θG|λ)=O(n)と仮定して判定基準BNRCを導いたことに注意すべきである。logπ(θG|λ)=O(1)を満たす事前密度を用いる場合、BNRC判定基準は、BIC又はSICとして公知のSchwarz[25]の判定基準になる。このような場合には、モード
【数81】
Figure 2005505031
は、最大尤度推定値と同等である。
【0177】
3.遺伝子ネットワークの推定
3.1.ノンパラメトリック回帰
この節では、第2節に説明した本発明の方法に基づいて遺伝子ネットワークを実際に構成する方法を示す。最初に、ノンパラメトリック回帰モデルについて説明する。ノンパラメトリック回帰(5)は、各親遺伝子の加法モデルにより表される主効果成分及び相互作用成分という2つの成分を有する。加法モデルにおいては、B−スプライン([9]及び[18])により各平滑関数mjk(・)を構成する。
【0178】
相互作用項には、ガウス動径基底関数
【数82】
Figure 2005505031
を用い、ここで、zjlは中心ベクトル、sjl 2は幅パラメータ、ζjlはハイパーパラメータである。動径基底関数に基づく回帰モデリングの関連では、中心zjl及び幅sjl 2を推定する2つの方法がある。第1に、zjl及びsjl 2は、二乗損失及び尤度のような適切な目的関数を最小化又は最大化することにより推定される。この方法は、完全監視学習と呼ばれる。一方、代替方法においては、事前に親観察データPjl (j)のみを用いることによりzjl及びsjl 2が判断される。本実施例では後者の方法を用い、基底関数を構成するためにk平均クラスター化アルゴリズムを用いる。動径基底関数の詳細は、[7]、[21]、及び[23]に示されている。ハイパーパラメータζjlは、基底関数間の重なりの量を制御する。
【0179】
誤差分散においては、不等分散回帰モデルを考え、構造(6)を仮定する。定数w1j,・・・、wnjの設定は、データの不等分散性を捉えるための重要な問題である。重みを
【数83】
Figure 2005505031
のように設定し、ここで、ρはハイパーパラメータ、
【数84】
Figure 2005505031
及び、
【数85】
Figure 2005505031
である。ρ=0に設定する場合は、重みは、w1j=・・・=wnj=1であり、このモデルは均一誤差分散を有する。ρに大きな値を用いる場合は、親変数の領域上の境界近くに存在するデータの誤差分散は大きい。従って、境界近くに外れ値がある場合は、ρに適切な値を用いることにより、その効果を減弱して適切に平滑化された推定値を得ることができる。
【0180】
3.2.事前
事前分布πj(θj|λj)が、
【数86】
Figure 2005505031
に因数分解されると仮定し、ここで、λjk及びνjlは、ハイパーパラメータである。γjkに関する事前分布として特異Mjk変量正規分布
【数87】
Figure 2005505031
を用い、ここで、Kjkは、
【数88】
Figure 2005505031
を満たすMjk×Mjkの正の対称半確定行列である。ξjlに関する事前分布は、
【数89】
Figure 2005505031
であり、ここで、νjlは、ξjlの次元数である。
【0181】
次に、グラフの事前確率πGを考える。Friedman及びGoldszmit[12]は、グラフのMDLコード化に基づく事前を用いた。本発明に関しては、データの周辺確率は、ハイパーパラメータにより調節されたII型の尤度のように見える。従って、グラフの事前確率πG
【数90】
Figure 2005505031
に設定する。この事前の正当性は、ABICとして公知のAkaike[2]のベイズ情報判定基準、及びAkaike[1]の情報判定基準AICに基づいている。
【0182】
3.3.判定基準
第2・2節においては、一般的な枠組みでグラフを選択するための判定基準BNRCを導き出した。等式(11)を用いることにより、グラフのBNRCスコアは、ローカルスコアBNRCjの合計で得ることができる。結果は、以下の定理にまとめられる。
定理1.
【数91】
Figure 2005505031
を(8)で与えられるベイズネットワーク及びノンパラメトリック回帰モデルとし、π(γjk|λjk)及びπ(ξjl|νjl)をそれぞれ(13)及び(14)で定義されたパラメータγjk及びξjlに関する事前密度とする。すると、グラフを評価するための判定基準は、
【数92】
Figure 2005505031
で与えられ、ここで、
【数93】
Figure 2005505031
であり、
【数94】
Figure 2005505031
である。ここで、
【数95】
Figure 2005505031
によりヘッセ行列を近似する。
【0183】
3.4.罰則付き尤度
(7)で定義されるノンパラメトリック回帰モデルを考える。推定法が、対数尤度関数
【数96】
Figure 2005505031
を最大にする最大尤度法である場合は、パラメータ推定が不安定になり、モデルの柔軟性のために過剰当て嵌めになる。本発明の方法では、推定値
【数97】
Figure 2005505031
は、lλ j(θj|Xn)のモードとして得られ、この推定法は、最大罰則付き尤度([14]及び[15])と同等であり、本方法は、特別な場合として最大尤度法を含む。
【0184】
モード
【数98】
Figure 2005505031
は、ハイパーパラメータに依存する。事実、ハイパーパラメータは、平滑化曲線を推定するのに重要な役割を演じる。本発明では、それぞれγjk及びξjlに関する事前分布として分布(13)及び(14)を用いる。次に、lλ j(θj|Xn)は、
【数99】
Figure 2005505031
になる。右辺の第1項は、対数尤度関数であり、第2及び第3項は、粗度罰則と呼ばれる。ハイパーパラメータλjk及びνjlは、平滑化パラメータと呼ばれ、当て嵌めた曲線の滑らかさを制御する。
【0185】
Figure 2005505031
図1:様々な値のハイパーパラメータによる平滑化推定値
【0186】
すなわち、平滑化パラメータが小さければ、推定曲線はデータに近くなり、いわゆる過剰当て嵌めとなる。一方、大きな値の平滑化パラメータを用いると、推定値は、ほぼ線形当て嵌めである。従って、ハイパーパラメータの選択は、遺伝子間の関係を捉えるのに重要な役割を演じる。ハイパーパラメータの実行を次の節に示す。
【0187】
4.実際のデータの解析
この節では、S.cerevisiae遺伝子発現データを解析することにより、本方法の有効性を実際に示す。本発明者の研究グループは、系統的実験法を導入し、遺伝子破壊によるマイクロアレイ上の遺伝子の発現レベルの変化を観察した。本方法を用いることにより、Saccharomyces cerevisiaeの5871個の遺伝子間の遺伝子調節ネットワークを明らかにすることを目的とするプロジェクトを開始した。他の研究所も同様のプロジェクトを報告している。本発明者は、遺伝子調節ネットワークを評価するために遺伝子破壊実験から多くの発現プロファイルを既に収集している。400個を超える変異体が保存され、遺伝子発現プロファイルが蓄積中である。
【0188】
Figure 2005505031
図2:重み定数の効果
【0189】
スキャナによりマイクロアレイ上に発見した5871個の遺伝子の転写レベルをモニタした。本発明のデータベースは、400を超える破壊体の発現プロファイルを集積している。マイクロアレイ上の全ての遺伝子の標準偏差(SD)を評価したが、SD値は、ほぼ実験誤差を表すものであった。本発明のデータにおいては、0.5という値が実験の精度の臨界点であると推定した。全ての遺伝子の発現比の標準偏差に基づき、これらのプロファイルの精度を評価した。400個のプロファイルから、転写因子が破壊された68個の変異体を含む107個の破壊体を選択することができた。
【0190】
Figure 2005505031
図3:相互作用を有するノンパラメトリック回帰による推定表面
【0191】
100個のマイクロアレイを用い、上述のデータから521個の遺伝子の遺伝子ネットワークを構成した。理由は、調節遺伝子が明確に同定された94個の転写因子が見出され、94個の因子により制御された521個の遺伝子のプロファイルが5871個のプロファイルから選択されたからである。本発明のモデルにおいては、20個のB−スプライン及び20個の動径基底関数を用いてノンパラメトリック回帰モデルを構築した。幾分多くの基底関数を用いるとハイパーパラメータが当て嵌め曲線の滑らかさを制御するために、様々な数の基底関数に対する平滑化推定値の差を視覚的に見つけることができないことが確認された。本発明では、2遺伝子効果を相互作用成分に応用した。従って、相互作用の効果は、当て嵌め表面として得られ、視覚的に理解可能とすることができる。
【0192】
この解析の結果を説明する前に、事前分布内のハイパーパラメータ及び重み定数の役割を示す。図1(a)は、3つの異なる値のハイパーパラメータにより平滑化した推定値を伴うYGL237C及びYEL071Wの散布図を示す。平滑化推定値は、明らかに、ハイパーパラメータの値に強く依存する。図1(b)は、図1(a)の2つの遺伝子のBNRC判定基準の挙動である。ハイパーパラメータの最適値は、BNRCのミニマイザとして選択することができ、最適な平滑化推定値(実線曲線)は、これらの遺伝子間の構造を良好に捉えることができる。破線及び点線の曲線は、それぞれ、ほぼ最大尤度推定及びパラメトリック線形当て嵌めである。重み定数w1j,・・・,wnjの効果を図2(a)に示す。等分散性回帰モデルを用いる場合は、左上端のデータの影響により幾分偽の波形を示す破線曲線が得られる。(12)のハイパーパラメータρを調節することにより、推定曲線は、実線の曲線をもたらす。BNRC判定基準を最小にすることにより、ρの最適値も選択された(図2(b)参照)。勿論、平滑化推定値が正しく得られる時、ρの最適値はゼロに近づく。
【0193】
Figure 2005505031
図4:521個のSaccharomyces cerevisiae遺伝子の解析で得られた部分的ネットワーク
【0194】
本発明では、相互作用を有するノンパラメトリック回帰モデルを当て嵌めるのに2段階の戦略を用いた。最初に、加法B−スプライン回帰により表される主効果を推定した。次に、その残余に対して相互作用成分を当て嵌める。図3は、YIL094Cとその親遺伝子であるYKL152C及びYER055Cとの間の関係に当て嵌めた表面の例を示している。2つの親遺伝子の相互作用により、両方の親遺伝子が増大すると過剰発現となることが明らかに示されている。
【0195】
解析結果及びその評価は、以下の通りである。Saccharomyces cerevisiaeにおいては、GCN4遺伝子が、アミノ酸生合成の「一般制御」システムである少なくとも12個の異なる生合成パスウェイのネットワーク[6]の転写活性化因子をコード化する。実験により、「アミノ酸枯渇」信号に関する一般制御応答の結果は、Gcn4pレベルに関してヒスチジン類似物質3−アミノトリアゾールにより誘発されることが示された。GCN4は、アミノ酸枯渇又はtRNAシンターゼの活性化障害に応答して、11個のアミノ酸の生合成に関与する30を超える遺伝子の転写を活性化する([24]を参照)。プリン生合成遺伝子ADE1、ADE4、ADE5、7、及びADE8は、アミノ酸枯渇に応答してGCN4依存の発現を示す[24]。GCN4は、アミノ酸又はプリンのいずれかの枯渇に応答して、アミノ酸及びプリンの生合成遺伝子の転写を活性化する[24]。これらの発現の結果から、プリン代謝とアミノ酸代謝との間にはGCN4による強力な関係があることが示される。本発明の関係マップは、プリン及びアミノ酸代謝間の多くの関係をよく再現する。
【0196】
5.結論
本実施例において、ベイズネットワーク及びノンパラメトリック回帰を用いることによりマイクロアレイ遺伝子発現データから遺伝子ネットワークを推定するための新しい統計学的方法を提案した。本方法の重要な考えは、遺伝子間の非線形関係及び発現データの不等分散性を捉えるためのノンパラメトリック不等分散性回帰モデルの利用である。ネットワーク構成のための本質的な問題は、グラフの評価にある。本発明では、この問題を統計的モデル選択又は評価の問題として考察し、ベイズ手法からグラフを選択するための新しい判定基準を導き出した。本方法は、ベイズネットワークを用いることによって遺伝子ネットワークを構築する以前の方法も含み、理論的及び方法論的にこれを改良したものである。本発明では、SAccharomyces cerevisiae遺伝子発現データを解析することにより本方法の有効性を示し、得られるネットワークを生物学的知識と比較することにより評価した。遺伝子ネットワークは、生物学的情報を用いずに構成される。それにもかかわらず、得られるネットワークは、生物学的知識と一致する多くの重要な関係を含む。従って、本方法は、ヒトゲノムのような完全に未知のシステムの解析に対して威力を発揮することができると期待される。
【0197】
Figure 2005505031
【実施例3】
【0198】
遺伝子ネットワークの非線形モデリングに対するベイズネットワーク及びノンパラメトリック不等分散回帰
要約
ベイズネットワークを用いることによりマイクロアレイ遺伝子発現データから遺伝子ネットワークを構築するための新しい統計学的方法を提案する。ベイズネットワーク構成の本質的な点は、各確率変数の条件付分布を推定することにある。遺伝子間の非線形構造を捉えるために、不均一誤差分散を有するノンパラメトリック回帰モデルをマイクロアレイ遺伝子発現データに当て嵌めることを考える。遺伝子間のシステムを最も良く表す最適グラフを選択することに依然として解決すべき問題が残っている。本発明では、一般的状況でベイズ手法からグラフを選択するための新しい判定基準を理論的に導出する。本方法には、ベイズネットワークに基づく従来の方法が含まれる。本方法の有効性は、100個の遺伝子を破壊することにより新しく得られたSaccharomyces cerevisiae遺伝子発現データを解析することにより明らかにされる。
【0199】
1.序文
マイクロアレイ技術の発展により、遺伝子ネットワークの構築は、分子生物学及び生物情報科学の分野において多くの注目を集めている[3、4、5、14、15、17、22、28]。しかし、データの次元性及び複雑性が原因となり、マイクロアレイ遺伝子発現データ解析の発展が妨げられている。すなわち、必要なデータがノイズを伴う大量のデータに埋もれている。本実施例は、遺伝子間の非線形関係さえも明確に捉えることができる遺伝子ネットワークを構築するための新しい統計学的方法を提案する。
【0200】
ベイズネットワーク[7,23]は、多くの確率変数の同時分布を通じて現象をモデル化するのに有効な方法である。近年、ベイズネットワークを用いることにより、マイクロアレイ遺伝子発現データから遺伝子ネットワークを構築するいくつかの興味ある研究が行われている。Friedman及びGoldszmidt[12,13,14]は、発現値を離散化し、統計学的モデルの候補として多項分布を仮定した。Pe’er他[28]は、離散化のための閾値を考察した。一方、Friedman他[15]は、離散化によってデータの情報が失われる可能性を指摘した。実際に、離散値の数及び閾値は、データから推定すべき未知のパラメータである。得られるネットワークは、その値に強く依存する。次に、Friedman他[15]は、データを連続的に解析する線形回帰モデルを当て嵌めることを考えた([20]も参照)。しかし、親遺伝子が目的遺伝子に線形依存するという仮定は、必ずしも保証されるわけではない。Imoto他[22]は、遺伝子間の線形依存性だけでなく非線形構造も捉えるためにノンパラメトリック加法回帰モデル([16,18]も参照)を用いることを提唱した。本実施例は、外れ値の効果を受けにくいベイズネットワーク及びノンパラメトリック不等分散回帰を用いることによって遺伝子ネットワークを構築する方法を提案する。
【0201】
グラフを設定した状態で、全く未知の真のグラフに対する適合度又は接近度を評価すべきである。従って、適切な判定基準の構成は、統計的遺伝子ネットワークモデリングで最も注目されることになる。Friedman及びGoldszmidt[14]は、元来、グラフを選択するために[21]により導出されたBDe判定基準を用いた。BDe判定基準は、多項式分布及びディリクレ事前に基づいてベイズネットワークモデルを評価するのみである。しかし、Friedman及びGoldszmidt[14]は、ディリクレ事前に未知のハイパーパラメータを残したので、本発明では、その値を経験的に設定するだけである。本発明は、統計的モデル選択としてのグラフ選択の問題又は評価の問題を考察し、ベイズ手法([6]参照)を用いてグラフを選択するための新しい判定基準を導き出した。本発明の判定基準は、モデルの全てのパラメータを自動的に最適化し、最適なグラフを作成する。本方法はまた、ベイズネットワークに基づいて遺伝子ネットワークを構築する従来の方法も含む。本方法の有効性を示すために、本発明では、モンテカルロシミュレーション法を用いる。また、100個の遺伝子を破壊することにより、Saccharomyces cerevisiaeの遺伝子発現データを解析する。
【0202】
2.ベイズネットワーク及びノンパラメトリック不等分散回帰モデル
2.1.非線形ベイズネットワークモデル
n組のp遺伝子のアレイデータ{x1,・・・・・,xn}があり、ここで、xi=(xi1,・・・xipTであり、xTは、xの転置を表すとする。ベイズネットワーク枠組みでは、ノード間の有向非周期的グラフG及びマルコフ仮説を考える。次に、同時密度関数を各変数の条件付密度に分解する。すなわち、
【数100】
Figure 2005505031
が得られ、ここで、
【数101】
Figure 2005505031
は、グラフGのxijのqj次元の親観察ベクトルである。遺伝子2及び遺伝子3が遺伝子1の親変数ベクトルである場合は、pi1=(xi2,xi3T、(i=1、・・・、n)となる。式(1)により、ベイズネットワークによる統計的モデリングでの興味の中心は、どのようにして条件付密度fiを構成することができるかということである。条件付密度fiが、パラメータベクトルθjによりパラメータ化され、情報は、これらの確率モデルから抽出されると仮定する。
【0203】
Imoto他[22]は、xijとpijとの間の非線形関係を捉えるためにノンパラメトリック回帰戦略を用いることを提唱し、遺伝子間には多くの非線形関係があって線形モデルでは十分な結果が得られないことを示唆した。多くの場合、この方法は、目的関係を良
好に捉えることができる。しかし、データが特に領域{pij}の境界近くに外れ値を有する場合、ノンパラメトリック回帰モデルは、不適切な平滑化推定値を誘導する可能性があり、すなわち、推定曲線が外れ値のために幾分偽の波形を示す。推定されるものが生物のシステムであるために、あまり複雑な関係は不適切である。事実、実際のデータの解析では、残念ながらこの不適切な場合が起こることがある。この問題を避けるために、不均一誤差分散を有するノンパラメトリック回帰モデル、
【数102】
Figure 2005505031
を当て嵌めることを考え、ここで、εijは、独立的かつ正規的に平均0及び分散σij 2に依存し、mjk(・)は、RからRまでの平滑関数である。ここで、Rは、実数のセットを表す。このモデルには、Imoto他[22]のモデルが含まれ、特別な場合として線形回帰も明らかに含まれる。一般に、各平滑関数mjk(・)は、n個の値
【数103】
Figure 2005505031
で特徴付けられ、システム(2)は、(n×qj+n)個のパラメータを含む。次に、このモデル内のパラメータの数は、観察数よりも遥かに多く、パラメータ推定が不安定になる傾向がある。本実施例では、基底関数手法の
【数104】
Figure 2005505031
により平滑関数mjk(・)を構成し、ここで、
【数105】
Figure 2005505031
は、未知の係数パラメータであり、
【数106】
Figure 2005505031
は、基底関数である。このように表すと、n個のパラメータ
【数107】
Figure 2005505031
は、Mjk係数パラメータ
【数108】
Figure 2005505031
により再パラメータ化される。
【0204】
線形回帰は、ベイズ因果関係の方向を決めることができないか又は多くの場合に誤った方向に導くために、本発明は、線形回帰の代わりにノンパラメトリック回帰を用いることを強く推奨する。本発明では、単純な例を用いて線形回帰に比較して本発明のモデルの利点を示す。図1(a)の遺伝子1及び遺伝子2のデータを持っていると仮定する。遺伝子1→遺伝子2及び遺伝子2→遺伝子1という2つのモデルを考えると、それぞれ図1(b)及び図1(c)に示す平滑化推定値が得られる。次に、後の節で誘導する本発明の判定基準により、モデル(b:遺伝子1→遺伝子2)の方が(c:遺伝子2→遺伝子1)よりも優れていると判断する(モデルのスコアは、(b)120.6、及び(c)134.8である)。このデータは、真のグラフ遺伝子1→遺伝子2から生成したために、本方法では、正確な結果が得られる。しかし、このデータに線形回帰モデルを当て嵌める場合は、モデル(c)が選択される(スコアは、(b)156.0、及び(c)135.8である)。この場合は、線形回帰に基づく方法は不正確な結果をもたらす。
関係がほぼ線形の場合を考える。本発明の方法及び線形回帰は、適切にデータを当て嵌めることができる。しかし、ベイズ因果関係の方向を決めるのが明らかに困難である。このような場合は、方向は厳密ではない。
【0205】
Figure 2005505031
図1:シミュレートしたデータ:真の因果関係は、遺伝子1→遺伝子2である。(a)シミュレートしたデータの散乱プロット、(b)グラフ遺伝子1→遺伝子2の平滑化曲線、及び(c)グラフ遺伝子2→遺伝子1の平滑化曲線。これらの曲線は、本方法により得られる。
【0206】
誤差分散σij 2においては、
【数109】
Figure 2005505031
という構造を仮定し、ここで、w1j,・・・,wnjは定数であり、σj 2は未知のパラメータである。誤差分散の特徴を反映して定数w1j,・・・,wnjを設定することにより、データの不等分散性を表すことができる。(2)及び(3)を組み合わせて、不均一誤差分散及び相互作用を有するノンパラメトリック回帰モデルを得る。
【数110】
Figure 2005505031
ここで、γjk及びbjk(Pik (j))は、それぞれ、
【数111】
Figure 2005505031
及び、
【数112】
Figure 2005505031
により与えられるMjk次元のベクトルである。j番目の遺伝子がグラフ内に親遺伝子を持たない場合は、平均μj及び分散σj 2の正規分布に基づくモデルを指定する。従って、非線形ベイズネットワークモデル、
【数113】
Figure 2005505031
を定義し、ここで、
【数114】
Figure 2005505031
は、グラフGに含まれるパラメータベクトルであり、θjは、条件付密度fi内のパラメータベクトル、すなわち、
【数115】
Figure 2005505031
又は
【数116】
Figure 2005505031
である。
【0207】
2.2.グラフを選択するための判定基準
グラフを設定した状態で、ベイズネットワーク及びノンパラメトリック回帰に基づく統計学的モデル(5)を構成し、これを適切な手順で評価することができる。しかし、どのようにしてデータの下にあるシステムに最もよく近似する最適なグラフを選択することができるかという依然として解決すべき問題が残っている。より複雑なモデルでは尤度値が大きくなるために、モデル選択判定基準として尤度関数を用いることができないことに注意すべきである。従って、一般化又は予測的誤差に基づく統計的手法であるカルバック・ライブラー情報量及びベイズ手法等(例えば、[1,24,25]参照)を考慮すべきである。この節において、ベイズ手法から本発明のモデル(5)に基づくグラフを評価するための判定基準を構成する。
【0208】
グラフの事後確率は、グラフの事前確率πG及びデータの周辺確率の積により得られる。標準化定数を除去することにより、グラフの事後確率は、
【数117】
Figure 2005505031
に比例し、ここで、Xn=(x1,・・・、xnTは、n×p遺伝子プロファイル行列、π(θG|λ)は、logπ(θG|λ)=O(n)を満たすパラメータθGに関する事前分布、λは、ハイパーパラメータベクトルである。ベイズ手法の下で、最適なグラフは、π(G|Xn)が最大になるようにグラフを選択することができる。グラフの事後確率に基づいて判定基準を構成する際の重大な問題点は、高次元積分の計算(6)である。Heckerman及びGeiger[20]は、積分を解くために共役事前を用いて閉じた形の解を与えた。この高次元積分を計算するために、積分にラプラスの近似[9,19,31]
【数118】
Figure 2005505031
を用い、ここで、rはθGの次元数であり、
【数119】
Figure 2005505031
であり、
【数120】
Figure 2005505031
は、lλ(θG|Xn)のモードである。次に、グラフを選択するためのBNRCヘテロという名前のベイズネットワーク及びノンパラメトリック不等分散回帰判定基準、
【数121】
Figure 2005505031
を定義する。最適なグラフは、判定基準BNRCヘテロ(7)が最小になるように選択する。ラプラス法を用いることの利点は、共役事前分布を用いることを考える必要がないことである。従って、モデル及び事前の分布のより大きなクラスでモデル化が達成される。
【0209】
パラメータベクトルθjが互いに独立であるとすると、事前分布は、
【数122】
Figure 2005505031
に分解することができる。従って、(7)のlog|Jλ(θG|Xn)|及びnlλ(θG|Xn)は、それぞれ、
【数123】
Figure 2005505031
になり、ここで、
【数124】
Figure 2005505031
である。ここで、λjは、ハイパーパラメータベクトルである。従って、πLj
【数125】
Figure 2005505031
を満たす事前確率とすると、
【数126】
Figure 2005505031
を定義することにより、BNRCヘテロスコアは、ローカルスコアの合計、
【数127】
Figure 2005505031
で与えられる。ノンパラメトリック回帰に基づく平滑化推定値は、パラメータγj
【数128】
Figure 2005505031
で置換することにより得られる。logπ(θG|λ)=O(n)と推定して判定基準BNRCヘテロを導いたことに注意すべきである。logπ(θG|λ)=O(1)を満たす事前密度を用いる場合は、BNRCヘテロスコアは、BIC又はSICとして公知のシュワルツの判定基準になる[30]。このような場合は、モード
【数129】
Figure 2005505031
は、最大尤度推定値と同等である。
【0210】
Figure 2005505031
図2:シミュレートしたデータに当て嵌めた曲線:細い曲線は、係数によって重み付けしたB−スプラインであり、太い曲線は、重み付けB−スプラインの線形組合せにより得られた平滑化推定値である。
【0211】
3.遺伝子ネットワークの推定
3.1.ノンパラメトリック回帰
この節では、上述の本発明の方法に基づいて遺伝子ネットワークを実際に構成する方法を示す。最初に、ノンパラメトリック回帰モデルについて説明する。加法モデルにおいては、B−スプライン[10,22]により各平滑関数mjk(・)を構成する。図2は、B−スプライン平滑化曲線の例である。細い曲線は、係数で重みを付けたB−スプラインであり、太い線は、重み付けB−スプラインの線形組合せにより得られた平滑化曲線である。
【0212】
誤差分散においては、不等分散回帰モデルを考え、構造(3)を仮定する。データの不等分散性を捉えるためには、定数w1j,・・・,wnjの選択が重要な問題である。本実施例では、重みを
【数130】
Figure 2005505031
のように設定し、ここで、ρjはハイパーパラメータであり、
【数131】
Figure 2005505031
及び、
【数132】
Figure 2005505031
である。ρj=0に設定する場合は、重みは、w1j=・・・=wnj=1であり、このモデルは均一誤差分散を有する。ρjに大きな値を用いる場合は、親変数の領域上の境界近くに存在するデータの誤差分散は大きい。従って、境界近くに外れ値がある場合は、ρjに適切な値を用いることにより、その効果を減弱して適切に平滑化された推定値を得ることができる。
【0213】
3.2.事前
事前分布πj(θj|λj)が、
【数133】
Figure 2005505031
のように因数分解されるものとし、ここで、λjkはハイパーパラメータである。γjkに関する事前分布として特異Mjk変量正規分布、
【数134】
Figure 2005505031
を用い、ここで、Kjkは、
【数135】
Figure 2005505031
を満たすMjk×Mjkの正の対称半確定行列である。
【0214】
次に、グラフの事前確率πGを考える。Friedman及びGoldszmit[14]は、グラフのMDLコード化に基づく事前を用いた。本発明に関しては、データの周辺確率は、ハイパーパラメータにより調節されたII型の尤度と同等である。従って、グラフの事前確率πGを、
πG=exp{−(ハイパーパラメータの数)}
【数136】
Figure 2005505031
と設定する。この事前の正当性は、ABIC[2]として公知のアカイケのベイズ情報判定基準、及びアカイケの情報判定基準AIC[1]に基づいている。
【0215】
3.3.判定基準
本発明者は、一般的な枠組みでグラフを選択するための判定基準BNRCヘテロを導き出した。等式(8)を用いることにより、グラフのBNRCヘテロスコアは、ローカルスコアBNRCヘテロ (j)の合計で得ることができる。結果は、以下の定理にまとめられる。
定理1.f(xi;θG)を(5)で与えられるベイズネットワーク及びノンパラメトリック不等分散回帰モデルとし、π(γjk|λjk)を(10)で定義されるパラメータγjkに関する事前密度とする。すると、グラフを評価するための判定基準は、
【数137】
Figure 2005505031
で与えられ、ここで、
【数138】
Figure 2005505031
であり、
【数139】
Figure 2005505031
である。ここで、
【数140】
Figure 2005505031
によってヘッセ行列を近似する。
【0216】
3.4.学習ネットワーク
ベイズネットワークの文献では、最適ネットワークの判断がNP困難な問題であると示されている。本実施例では、学習ネットワークに対して以下のような貪欲山登り法アルゴリズムが用いられる。
段階1:(i,j)番目の要素が遺伝子i→遺伝子jグラフのBNRCヘテロ (j)スコアであるスコア行列を作る。
段階2:各遺伝子に対して、エッジに対する3つの手順である「付加」、「削除」、「逆転」のうちの1つでBNRCヘテロが最も小さくなるものを実施する。
段階3:BNRCヘテロが減少しなくなるまで段階2を繰り返す。
【0217】
一般に、貪欲山登り法アルゴリズムは、多くの局小値を有し、その結果は、変数の計算順序に依存する。この問題を避けるために、遺伝子の計算順序を変えて、段階3で多くの候補学習順序を作る。学習ネットワークの別の問題は、遺伝子の数が多い時には、親遺伝子の検索空間の幅が極めて広いことである。そこで、段階1で得られるスコア行列に基づいて候補親遺伝子セットを制限する。
【0218】
Figure 2005505031
図3:ハイパーパラメータの様々な値による平滑化推定値。(a1):B−スプラインの係数の事前分布におけるハイパーパラメータβjkの効果。このパラメータは、当て嵌めた曲線の滑らかさを制御することができる。(b1)及び(c1):誤差分散のパラメータにおけるハイパーパラメータρjの効果。このパラメータは、データの不等分散性を捉えることができ、外れ値の影響を低減することができる。
【0219】
3.5.ハイパーパラメータ
(4)で定義されるノンパラメトリック回帰モデルを考える。推定値
【数141】
Figure 2005505031
は、lλ j(θj|Xn)のモードであり、ハイパーパラメータに依存する。実際に、ハイパーパラメータは、平滑化曲線を推定するための基本的な役割を演じる。
本発明のモデルにおいては、20個のB−スプラインを用いてノンパラメトリック回帰モデルを構築した。様々な数の基底関数に対する平滑化推定値の差は、視覚的に見つけることはできないことを確認した。理由は、幾分多くの基底関数を用いる場合は、ハイパーパラメータが当て嵌め曲線の滑らかさを制御するからである。図3(a1)は、3つの異なる値のハイパーパラメータに対する平滑化推定値と共にYGL237C及びYEL071Wの散布図を示す。データの詳細は、後の節に示す。明らかに、平滑化推定値はパラメータの値に強く依存する。図3(a2)は、図3(a1)の2つの遺伝子のBNRCヘテロ判定基準の挙動である。BNRCヘテロのミニマイザとしてハイパーパラメータの最適値を選択することができ、こうすると、最適平滑化推定値(図3(a1)の実線曲線)が、これらの遺伝子間の構造をうまく捉えることができる。破線及び点線の曲線は、それぞれ、ほぼ最大尤度推定及びパラメトリック線形当て嵌めである。
【0220】
図3(b1)及び(c1)には、重み定数wij,・・・wnjの効果を示す。ノンパラメトリック等分散回帰モデル[22]を用いる場合は、上部左端のデータの効果(b1)により幾分偽の波形を示す破線曲線が得られる。(9)のハイパーパラメータρjを調節することにより、推定曲線は、実線の曲線になる。また、ρjの最適値は、BNRCヘテロ判定基準を最小にすることによっても選択される(図3(b2)及び(c2)参照)。勿論、平滑化された判定基準が適切に得られると、ρjの最適値はゼロに近づく。
【0221】
最後に、平滑化曲線を推定してハイパーパラメータを最適化するためのアルゴリズムを示す。
段階1:ハイパーパラメータρjを固定する。
段階2:γjk=0,k=1,・・・,qjのように初期化する。
段階3:段階3−1及び段階3−2を繰り返すことにより最適βjkを見出す。
段階3−1:固定βjkに対して、
【数142】
Figure 2005505031
を計算する。
段階3−2:βjkの候補値に対して段階3−1を繰り返し、BNRCヘテロ (j)を最小にするβjkの最適値を選択することにより評価する。
段階4:適切な収束判定基準が満たされるまで、k=1,・・・,qj,1,・・・,qj,1,・・・に対して段階3を繰り返し、収束させる。
段階5:候補値ρjに対して段階1から段階4を繰り返し、BNRCヘテロ (j)を最小にするρjの最適値を選択する。
【0222】
4.数値実験
4.1.モンテカルロシミュレーション
本方法の有効性を示すために、モンテカルロシミュレーション法を用いる。データは、図4(a)の人為的ネットワークから生成し、ノード間の関数構造は以下の通りである。
【数143】
Figure 2005505031
ここで、sは定数である。親変数の観察値を平均0及び分散1に変換すると、子変数の観察値が生成される。
【0223】
この人為的ネットワークから100個の観察値を生成し、シミュレートしたデータから図4(a)のネットワークを再構成することが目的である。ノイズ分散の2つの異なる設定を用い、一方はs=0.2、他方はs=0.1である。ノイズs=0.2の設定からの観察値は、経験的に実際のマイクロアレイデータに類似する。モンテカルロシミュレーションを1000回繰り返し、本発明者は、正しい推定値の数に着目した。図4(b)及び(c)は、それぞれs=0.2及びs=0.1に対するモンテカルロシミュレーションの結果である。
【0224】
Figure 2005505031
表1:モンテカルロシミュレーションの偽陽性。ノード名の後に付いている番号は、方向情報のない推定関係の数であり、百分率は方向情報である。例えば、s=0.2では、本方法により、1000回のモンテカルロシミュレーションのうち15回に「X1→X4」又は「X1←X4」の関係が推定されたが、15回のうちの87%は、左から右(「X1→X4」)の方向を表す。
【0225】
モンテカルロシミュレーションの結果は、次のようにまとめることができる。ノイズ分散s=0.2の設定では、本発明のモデルにより非常に良好にターゲットネットワークを再構成することができる。表1は、モンテカルロシミュレーションの偽陽性を示しており、偽陽性の百分率は、ほぼ10%未満であることが分る。シミュレートしたデータは、s=0.2という設定において実際のマイクロアレイデータに類似するので、本発明のネットワーク推定法は、実際のデータの解析に有効に機能することができると予想される。図4(b)及び(c)と表1から、真の陰性の数は、偽陽性の数よりも遥かに少ない。この傾向は、探索的データ解析では好ましいと考えられる。s=0.1という設定では、本発明のモデルは、ターゲットネットワークを更に正確に再構成することができ、偽陽性の数は、s=0.2の結果と比較して減少する。
【0226】
Figure 2005505031
図4:モンテカルロシミュレーションの結果。(a)真のネットワーク。(b)s=0.2の結果。(c)s=0.1の結果。エッジに隣接する数字は、1000回のモンテカルロ実験から推定した関係の数を表す。百分率は、エッジ方向の情報を含む。例えば、s=0.2においては、X5とX1の間の関係は、1000回のモンテカルロ実験で958回現れ、その97%が正しい方向(X5からX1)である。
【0227】
4.2.実際のデータの解析
この節では、100個の遺伝子を破壊することにより新しく得たSaccharomyces cerevisiae遺伝子発現データを解析することにより、本発明の方法の有効性を示す。本発明者の研究グループは、遺伝子破壊によるマイクロアレイ上の遺伝子の発現レベルの変化を観察する系統的実験法を確立した。本方法を用いることにより、本発明者は、Saccharomyces cerevisiaeの5871個の遺伝子間の遺伝子調節ネットワークを明らかにすることを目的とするプロジェクトを開始した。多くの研究所でも同様のプロジェクトが報告されている。本発明者は、遺伝子調節ネットワークを評価するために遺伝子破壊実験から多くの発現プロファイルを既に収集している。400を超える変異体が保存され、遺伝子発現プロファイルが蓄積中である。
【0228】
スキャナによりマイクロアレイ上に発見した5871個の遺伝子の転写レベルがモニタされた。本発明者のデータベースには、400を超える破壊体の発現プロファイルが保存された。マイクロアレイ上の全ての遺伝子のレベルの標準偏差(SD)を評価した。SD値は、ほぼ実験誤差を表すものであった。本発明のデータにおいては、0.5という値が実験の精度の臨界点であると推定した。全ての遺伝子の発現比の標準偏差に基づいてこれらのプロファイルの精度を評価した。400個のプロファイルから、転写因子が破壊された68個の変異体を含む107個の破壊体を選択することができた。
100個のマイクロアレイを用い、上述のデータから521個の遺伝子の遺伝子ネットワークを構成した。調節遺伝子が明確に同定された94個の転写因子が発見された。5871個のプロファイルから、これら94個の因子により制御された521個の遺伝子のプロファイルを選択した。
【0229】
ヒスチジン生合成パスウェイにおいては、Bas1p及びBas2pはまた、3つの遺伝子の発現を活性化する。gcn4が背景にある場合は、BAS1又はBAS2機能が無効になった変異体は、ヒスチジン栄養要求性をもたらす。これまでの研究で、Bas1p及びBas2pは、HIS4及びGCN4のようなこれらのADE遺伝子の転写に必要なDNA結合タンパク質であることが示されている[8,11,29]。本実施例では、両方の遺伝子関係を明らかにした。図4は、これらのADE遺伝子及びヒスチジン生合成遺伝子が、GCN4よりもBAS1に直接関連することを示している。プリンリボヌクレオチドのリボース成分は、ペントース・リン酸サイクルの中間体であるリボース5−Pから誘導される。塩基部分の原子は、多くの化合物によって寄与されている。それらは、予め形成されたリボースに段階的に加えられる。ヒスチジン合成のパスウェイとの顕著な相互関係が存在する。
【0230】
Saccharomyces cerevisiaeにおけるプリン生合成パスウェイの調節に関する研究により、AMPデノボ生合成に必要な酵素をコード化する全ての遺伝子は、細胞外プリンが存在することにより転写レベルに抑制されることが明らかになった。ADE遺伝子は、いくつかのヒスチジン生合成遺伝子と同様に転写的に活性化される。特に、HIS4の発現がADE遺伝子と関連するということは公知である。本発明の調節ネットワークでは、HIS4は、いくつかのADE遺伝子と密接に関連し、いくつかのHIS遺伝子は、HIS4のようにADE遺伝子と関連する。必須アミノ酸ヒスチジンの生合成は、Saccharomyces cerevisiaeにおいてプリン代謝と密接な関係を示し、本発明の結果はこの事実と一致する。
【0231】
Figure 2005505031
図5:521個のSaccharomyces cerevisiae遺伝子の解析で得られた部分ネットワーク
【0232】
5.結論
本実施例では、ベイズネットワーク及びノンパラメトリック回帰を用いることによりマイクロアレイ遺伝子発現データから遺伝子ネットワークを推定するための新しい統計学的方法を提案した。本方法の重要な考えは、遺伝子間の非線形関係及び発現データの不等分散性を捉えるためのノンパラメトリック不等分散回帰モデルの利用である。遺伝子間の因果関係を示すネットワーク、例えば、「ゲノム・オブジェクト・ネット」[26,27]がある場合は、コンピュータ上で遺伝子システムをシミュレートすることができる。この段階においては、遺伝子間の関係が適切に推定されていることが必要である。この意味では、以前のモデルはシステムを不適切に推定することがあったので、本発明の不等分散性モデルは、本質的な改良を与えることができる。本発明者は、将来の研究として生物学的システムのシミュレーションを考えている。
【0233】
ネットワーク構成のための本質的な問題は、グラフの評価にある。本発明では、この問題を統計的モデル選択又は評価の問題として考察し、ベイズ手法からグラフを選択するための新しい判定基準を導き出した。本方法は、ベイズネットワークを用いることによる遺伝子ネットワークを構築する以前の方法も含み、理論的及び方法論的にこれを改良したものである。本方法は、有効な情報を抽出することに成功し、これらの情報は、得られた遺伝子ネットワークにおいて視覚的に見出すことができる。本発明では、学習ネットワークに関して簡単な貪欲アルゴリズムを用いる。しかし、このアルゴリズムは、最適なグラフを判断するのに長い時間が掛かる。従って、より良いアルゴリズムの開発は、重要な問題の1つであり、これは、将来の論文で検討するつもりである。
【0234】
本発明者は、モンテカルロシミュレーション及びSaccharomyces cerevisiae遺伝子発現データから本方法の有効性を示し、得られたネットワークを生物学的知識と比較することにより評価した。この遺伝子ネットワークは、生物学的情報を用いずに構成される。それにも関わらず、得られるネットワークは、生物学的知識に一致する多くの重要な関係を含む。従って、本方法は、ヒトゲノムのような完全に未知のシステムの解析に対して威力を発揮することができると期待される。
【0235】
Figure 2005505031
【実施例4】
【0236】
線形スプラインを用いる小さな時間順序遺伝子発現データセットの統計的解析
要約
動機:近年、少数の時点で遺伝子発現のレベルを測定することにより、cDNAマイクロアレイ技術を用いて環境の変化に対する遺伝子の時間的応答が調べられている。時系列解析のための従来の技術は、このような短い時系列の時間順序データには適していない。従って、遺伝子発現データの解析は、通常は系統的な統計的手法ではなくフォールド・チェンジ解析に限定されてきた。
方法:本発明では、アカイケの情報判定基準と共に最大尤度法を用い、測定値から統計的に意味のある情報を推測するために、線形スプラインを小さい時間順序遺伝子発現データセットに当て嵌める。測定した遺伝子発現データの有意性は、スチューデントのt検定を用いて評価する。
結果:線形スプラインを用いて、シアノバクテリアSymechocystis sp.PCC6803の以前の遺伝子発現測定値を再び解析した。フォールド・チェンジ解析では欠落していた多くの遺伝子の時間的応答が同定された。本発明の統計的解析に基づき、各時点で約4つの遺伝子発現測定値又はそれ以上が必要であることが見出された。
連絡先:mdehoon@ims.u−tokyo.ac.jp
【0237】
1.序文
近年、異なる条件下で遺伝子発現レベルを測定する多くのcDNAマイクロアレイ実験が行われている。測定された遺伝子発現データは、KEGGデータベースのような一般にアクセス可能なデータベースで広く利用可能になった(Nakao他、1999年)。
これらの実験のいくつかでは、いくつかの環境条件下で定常状態遺伝子発現レベルが測定されている。例えば、シアノバクテリアSynechocystis sp.PCC6803及び変異株の発現レベルを異なる温度で測定し、このシアノバクテリアにおける潜在的なコールドセンサとして遺伝子Hik33の同定をもたらしている(Suzuki他、2001年)。
【0238】
他の実験においては、遺伝子発現の時間的パターンは、限定された数の時点で遺伝子発現レベルを測定することにより考察される。周期的に変化する遺伝子発現レベルは、例えば、酵母菌Saccharomyces cerevisiaeの細胞周期の間に測定されている(Spellman他、1998年)。発酵から呼吸まで代謝がシフトする間の同じ酵母菌種の遺伝子発現レベルが測定されている(DeRisi他、1997年)。この実験では、環境条件は、時間の経過と共にゆっくりと変化した。逆に、突然に変化する環境に応答する遺伝子も測定することができる。例として、低光量から高光量まで突然シフトした後のいくつかの時点で、シアノバクテリアSynechocystis sp.PPC6803の遺伝子発現レベルが測定されている(Hihara、2001年)。
【0239】
cDNAマイクロアレイ実験においては、遺伝子発現レベルは、一般的に少数の時点で測定される。フーリエ解析や自己回帰又は移動平均モデリングのような従来の時系列解析の技術は、このような少数のデータ点には適さない。代わりに、遺伝子発現データは、クラスター化技術によるか、又は遺伝子発現レベルの相対変化のみを考慮することにより解析されることが多い。このようなフォールド・チェンジ解析は、遺伝子発現レベルの有意な変化を見落とす場合があり、一方、ノイズが支配する測定値に対して意図せずして有意性に寄与することもある。それに加えて、フォールド・チェンジ解析は、時間的遺伝子発現応答において重要な特徴を識別できない場合がある。
【0240】
遺伝子発現データを解析するいくつかの技術、例えば、ブール又はベイズネットワークに由来するものがこれまでに用いられてきた(Liang他、1998年、Akutsu他、2000年、Friedman他、2000年)。調節ネットワークに関して遺伝子相互作用を説明することは極めて重要であるが、ネットワークモデルの導出には、多くの時点で得られた遺伝子発現データが必要であり、これは、現在未だ利用可能ではないことが多い。任意の生物の遺伝子の数は、数千の程度であるが、遺伝子発現レベルは、5又は10個の時点でしか測定されないことが多いことに注意すべきである。
【0241】
これまでのところ、系統的方法には、少数の時間順序データからの遺伝子発現測定値を統計的に解析することが欠落していた。本実施例において、本発明者は、最大尤度法及びアカイケの情報判定基準(Akaike、1971年)を用いて、線形スプライン関数を時間順序データに当て嵌めることに基づく戦略を概説する。遺伝子発現測定値の有意性は、スチューデントのt検定を適用することにより評価した。これによって、データの統計的有意性を考慮しながら、遺伝子発現測定値から情報を推定することができる。この種の解析は、遺伝子調節ネットワークを構築するための第1段階と見るべきである。一例として、本発明者は、シアノバクテリアSynechocystis sp.PCC6803の遺伝子発現測定値(Hihara、2001年)を再解析した。フォールド・チェンジのみを考慮する場合は見落とされる測定データからの情報を推定することができることが示されている。本発明者は、入手可能なデータのサブセットで本発明の解析を繰り返すことにより、線形スプライン関数を確実に推定するのに各時点で何回の測定が必要かを判断することができた。
【0242】
2.方法
2.1.スチューデントのt検定
最初に、測定した遺伝子発現比が1から有意に異なるか否かを評価する。特定の遺伝子に対して、全ての時点で、測定した発現比が1から有意な差がないと結論することができれば、その遺伝子にはそれ以上解析を行う必要がない。有意性レベルは、各時点で別個にスチューデントのt検定を適用することにより確立することができる。各遺伝子に対して複数の比較が行われるために、有意性レベルαの値は、注意深く選択すべきである。
【0243】
任意の遺伝子に対して任意時点tiで発現比が1に等しいという仮説としてH0 (j)を定義し、任意の遺伝子に対して全ての時点で発現比が1に等しいという仮説としてH0を定義する。仮説H0を棄却する有意性レベルをαと表し、仮説H0 (i)を棄却する有意性レベルをα’と表す場合、α’及びαは、
1−α=(1−α’)a (1)
という関係があり、ここで、aは、遺伝子発現比を測定した時点の数である。右辺を一次テイラー級数に展開することにより、この等式は、有意性レベルを調節するためのボンフェローニの方法に変形されることに注意すべきである(同じくAnderson及びFinn、1996年を参照)。
【0244】
有意性レベルとしてα’を用い、各遺伝子に対して各時点でスチューデントのt検定を行うことにより、H0 (i)、従って、H0が却下されるべきか否かが見出されることになる。H0が却下されない場合、この遺伝子が実験操作により有意に影響を受けておらず、従って、更なる解析に含めるべきではないと結論することができる。任意の遺伝子に対して、帰無仮説H0が却下される場合、この遺伝子は、実験操作により有意に影響を受けたと結論される。
【0245】
2.2.線形スプラインを用いる時間順序データの解析
次に、有意に影響を受けていることが見出された遺伝子に対する時間的遺伝子発現応答を解析する。測定した遺伝子発現比は、線形スプライン関数を当て嵌めることができる小さな時間順序データセットを形成する。線形スプライン関数は、結び目で互いに接続する区分的線形関数から成る連続関数である(Friedman及びSilverman、1989年、Higuchi、1999年)。3次スプラインを用いることが一般的であるが、本発明が取り扱っている少数のデータ点に対しては、線形スプライン関数の方が適切である。結び目t* 1、t* 2、t* 3、t* 4を有する線形スプライン関数の概念的な例を図1に示す。
【0246】
データ点(tj,xj)、j∈{1,・・・,n}のセットを考える。これらのデータに、
j=g(tj)+εj (2)
の形のノンパラメトリック回帰モデルを当て嵌めることを考え、ここで、gは、線形スプライン関数であり、εjは、平均値ゼロ及び分散σ2の正規分布を有する独立確率変数である。
最大尤度法を用いて線形スプライン関数gを推定する。任意のtjでの1つのデータ点xjの確率分布は、
【数144】
Figure 2005505031
である。次に、n個のデータ点に対する対数尤度関数は、
【数145】
Figure 2005505031
で与えられる。
【0247】
Figure 2005505031
図1:測定データに当て嵌めた線形スプライン関数の概念図
【0248】
分散σ2の最大尤度推定値は、σ2に関して対数尤度関数を最大にすることにより見出すことができる。これによって、
【数146】
Figure 2005505031
が得られる。次に、対数尤度関数は、
【数147】
Figure 2005505031
の形に書くことができる。ここで、線形スプライン関数gの最大尤度推定値
【数148】
Figure 2005505031
は、
【数149】
Figure 2005505031
を最小にすることにより見出すことができる。
【数150】
Figure 2005505031
の最小値は、線形スプライン関数を、
【数151】
Figure 2005505031
のように選択すれば得られることを示すことができ、ここで、
【数152】
Figure 2005505031
は、結び目t* jにおける線形スプライン関数のq値を含むベクトルであり、
【数153】
Figure 2005505031
は、
【数154】
Figure 2005505031
及び、1<j<qに対して
【数155】
Figure 2005505031
及び、
【数156】
Figure 2005505031
及び、1≦i<qに対して
【数157】
Figure 2005505031
により与えられる三重対角対称行列であり、
は、
【数158】
Figure 2005505031
及び、1<i<qに対して
【数159】
Figure 2005505031
及び、
【数160】
Figure 2005505031
により与えられるベクトルである。
【0249】
この当て嵌めモデルは、結び目qの数に依存する。結び目の数は、以下のようにAICとして公知のアカイケの情報判定基準(Akaike、1971年、同じくPriestley、1994年も参照)を用いて選択することができる。
【数161】
Figure 2005505031
ここで、q+1は、推定パラメータの数であり、すなわち、
【数162】
Figure 2005505031
及び、推定ベクトル
【数163】
Figure 2005505031
のq個のエントリの数である。式(6)からの推定対数尤度関数を代入すると、
【数164】
Figure 2005505031
が得られ、ここで、
【数165】
Figure 2005505031
は、線形スプライン関数gに対して最大尤度推定値
【数166】
Figure 2005505031
を代入すると、式(5)により与えられる。
【0250】
上述のように線形スプライン関数を当て嵌めた後、qの各値に対してAICの値を計算し、AICが最小値になるqの値を選択する。q=2の場合は、線形回帰に対応する。q=1という特別な場合は、データに平坦な線を当て嵌めることが有効であった。特定の遺伝子に対しては、最小AICが定数関数(q=1)で達成されることが分れば、遺伝子の発現レベルは、実験操作により影響を受けなかったと結論することができる。
【0251】
遺伝子発現データは、一般的に発現比という形で与えられる。時間ゼロにおいては、発現比は、定義により1に等しい。この固定点は、式(7)を修正することにより本発明の方法に容易に組み込むことができる。ここで、
【数167】
Figure 2005505031
の最小値は、線形スプライン関数を、
【数168】
Figure 2005505031
のように選択することにより達成することができることを示すことができ、ここで、b2’≡b2−A21、及び
【数169】
Figure 2005505031
である。
【0252】
3.結果
3.1.スチューデントのt検定
高光量(HL)に突然露出させた後のシアノバクテリア種PCC6808の測定遺伝子発現プロファイルを再解析することにより、スチューデントのt検定を用いて線形スプライン関数を当て嵌めることを以下に説明する(Hihara他、2001年)。HLに露出したシアノバクテリア及び低光量(LL)状態のままであったシアノバクテリアの両方に対して、ゼロ、15分、1時間、6時間、及び15時間で3079個のORFの発現レベルを測定した。表1は、各時点での測定数を示す。cDNA発現測定値からのデータは、KFGGデータベースから得られた(Nakano他、1999年)。
【0253】
Figure 2005505031
【0254】
Figure 2005505031
【0255】
元の解析(Hihara、2001年)に用いたデータは、KFGGに提出された生データと同一でないこともある(Hihara、個人的連絡)ことを特記する必要がある。それに加えて、t=15分の時点での6つの測定値セットのうちの2つの測定値セットは、KFGGデータベースでは欠落している。しかし、生データから遺伝子発現比を再計算すると、以前に公開した結果と近い数になる。
HL及びLLの生データからバックグラウンド信号強度を引いた後、全体的正規化を適用し、HLのLL信号強度に対する比を計算し、対照(LL)条件に対して遺伝子発現レベルの相対変化を求めた。フォールド・チェンジ解析においては、遺伝子の発現レベルが2倍又はそれ以上変化すれば、その遺伝子はHLにより影響されたとみなした。このような変化の統計的有意性は、測定値の標準偏差の大きさを考慮することにより発見的に評価した(Hihara、2001年)。
【0256】
各遺伝子の遺伝子発現比に関するスチューデントのt検定の結果は、別々に表2に示している。有意性レベルα=0.001においては、167個の遺伝子がHL条件によって有意に影響されていることが見出された。これら167個の遺伝子中に約3個のタイプ1誤差が予想されることに注意すべきである。対照的に、元の解析においては、164個のORFがHL条件により影響されたことが見出された(Hihara、2001年)。
【0257】
psbD2遺伝子(slr0927)に対してフォールド・チェンジを考慮することにより、それは、HLによって有意に誘発されないと結論された(Hihara、2001年)。この遺伝子は、シアノバクテリアのSynechococcus sp.PCC7942においてHLにより誘発可能であると報告されていたので(Bustos及びGolden、1992年、Anandan及びGolden、1997年)、これは注目すべきものであった。しかし、t=6時間でのpsbD2遺伝子の遺伝子発現データにスチューデントのt検定を行うと、p=3.3×10-5となり、この遺伝子が実際にHLに影響されていることが示唆された。
【0258】
3.2.線形スプライン関数を用いる解析
次に、測定した遺伝子発現比に線形スプライン関数を当て嵌める。結び目qの数は、1と5の間であり、固定結び目は時間ゼロで1に等しいことになる。q=3及びq=4に対しては、線形スプラインの線形セグメント間の結び目の位置に対して3つの可能性が存在する。これらは、q=1、q=2、及びq=5の場合と共に図2に示されている。可能な結び目配置の数は、結び目の最大数qmaxに関して1+2qmax-2のように指数関数的に増大することに注意すべきである。
【0259】
フォールド・チェンジ解析においては、時間的遺伝子発現パターンは、表3に列記されている6つのカテゴリーに分類された(Hihara、2001年)。測定した遺伝子発現データに線形スプライン関数を当て嵌めることにより、分類化よりもデータを柔軟に説明する方法が提供される。また、遺伝子発現応答パターンを数値的に説明することは、遺伝子調節ネットワークを誘導する重要な最初の段階である。
【0260】
Figure 2005505031
図2:5つの時点における測定値の時間順序セットに対する結び目の可能な配置
【0261】
Figure 2005505031
【0262】
例を用いてAICの用法を以下に説明する。フォールド・チェンジ解析においては、トレオニンシンターゼ遺伝子thrC(slll688)は、ほぼ1時間で抑制されることが見出された。結び目の異なるセットに対するAICの計算値を表4に列記する。最小AICは、0、15分、1時間、及び15時間の結び目で達成された。図3は、データに当て嵌めた線形スプラインと共に、測定した遺伝子発現レベルを示している。
【0263】
全ての遺伝子発現測定値に対してこの手順を行うと、これらのHLに対する時間依存応答に基づいて異なる遺伝子が分類される。この解析にどの遺伝子を含むかに関していくつかの選択を行うことができる。この元の解析においては、遺伝子は、その発現レベルが3079個のORFのうちの低い方の2000以内であれば、計算から除外された(Hihara、2001年)。代替的に、スチューデントのt検定により、遺伝子がHLによって有意に影響されていないことが示された場合は、この遺伝子を除外することができる。表5は、測定した発現レベルがこれらの異なる場合の各応答パターンに対応する遺伝子の数を示している。スチューデントのt検定には、有意性レベルα=0.001を用いた。
【0264】
Figure 2005505031
【0265】
Figure 2005505031
図3:当て嵌めた線形スプラインと共に示すトレオニンシンターゼ遺伝子thrC(sll1688)に対する測定遺伝子発現レベル
【0266】
Figure 2005505031
【0267】
スチューデントのt検定でHLによって有意に影響されていると同定された167個の遺伝子と、164個のORFが同定されたフォールド・チェンジ解析から得られた結果(Hihara、2001年)とを比較することができる。最初に、外れ値がデータに存在する遺伝子を本発明の解析から除外した。外れ値は、任意の時点でデータの平均値から標準偏差の2倍を超えて偏位しているデータ点であると定める。測定した発現データが外れ値を含む遺伝子は1つしか見つからず、この発現データに当て嵌まる線形スプライン関数は平坦な線であった。他の遺伝子発現レベルには、平坦な線で説明されたものはなく、これは、スチューデントのt検定から得られた結果と一致する。
【0268】
次に、ノイズが主に支配するデータを用いないようにするために、発現レベルが低い方の2000以内に入る遺伝子を除外する。フォールド・チェンジ解析にも同じ手順が用いられている(Hihara、2001年)。これらの遺伝子を除去すると、HLによって有意に影響された107個の遺伝子が残った。
107個の遺伝子のうち42個の遺伝子は、フォールド・チェンジ解析(Hihara、2001年)では同定されていなかったものである。これらの遺伝子は、各遺伝子に対して見出した結び目の位置と共に表6に列記している。各線形スプライン関数に対して、当て嵌めの良さの尺度として、説明した百分率分散を計算した。一例として、図4は、遺伝子xyIR(slr0329)の測定遺伝子発現比、及び、当て嵌めた線形スプライン関数を示しており、この関数は、ゼロ、15分、1時間、及び15時間において4つの結び目を有する。42個の遺伝子のうち、遺伝子xylR(slr329)は、最も大きな説明した百分率分散(98.7%)を有した。
フォールド・チェンジ解析で同定された164個のORFのうちで、有意性レベルα=0.001のスチューデントのt検定によれば、39個のORFは、HLによって有意に影響を受けなかった。これらのORFは、表7に列記されている。
【0269】
Figure 2005505031
表6:HLにより有意に影響されたが、フォールド・チェンジ解析(Hihara、2001年)では同定されなかったORF。
【0270】
Figure 2005505031
図4:当て嵌めた線形スプラインと共に示す遺伝子xylR(slr0329)に対する測定遺伝子発現レベル。この遺伝子は、フォールド・チェンジ解析(Hihara、2001年)ではHLによって影響されないと考えられた。
【0271】
Figure 2005505031
表7:フォールド・チェンジ解析(Hihara、2001年)ではHLによって影響されたとして同定されたが、スチューデントのt検定により有意でないことが見出されたORF。
【0272】
Figure 2005505031
【0273】
最後に、各時点での測定値の数が線形スプライン関数の結び目の配置を確実に判断するのに十分であるか否かを確立する。これを行うために、測定データのサブセットを用いて線形スプライン関数の推定を繰り返した。次に、データの完全なセットの代わりにデータのサブセットを用いる場合に、いくつの遺伝子で推定結び目位置が変化したかを計数した。各時点での4、3、及び2個のデータ点に対するこの数の平均値及び標準偏差を表8に示している。
2つのデータ点(1時間の時点で)のみが除外される場合であっても、推定結び目位置が変化する場合の15%において、各時点で4つのデータ点が用いられる。これは、遺伝子発現測定値から確実に情報を推定するためには、各時点に対して4つ又はそれ以上のデータ点が必要であることを示唆している。
【0274】
4.考察
最大尤度法に基づいて、時間順序測定値のセットを解析するための戦略を説明した。測定した遺伝子発現データにスチューデントのt検定を適用することにより、最初に、測定した遺伝子のどれが実験操作によって有意に影響を受けたかを確立する。次に、線形スプライン関数を当て嵌めることにより、これらの遺伝子の発現応答を説明した。線形スプライン関数に用いる結び目の数は、「アカイケの情報判定基準(AIC)」を用いて判断した。
【0275】
線形スプライン関数を用いることにより、名目上の分類を用いる場合よりも測定した遺伝子発現の説明に柔軟性をもたせることができる。また、遺伝子調節ネットワークを設定するためには、遺伝子発現測定値から判断される時の遺伝子応答が数値の形で利用可能であることが重要である。最後に、結び目の位置により、遺伝子の発現が著しく変化するこのような時点が特定され、これは、その生物学的機能を同定するのに重要である。次の段階として、結び目の位置に基づく遺伝子発現応答の分類は、結び目での線形スプライン関数のマグニチュードを考慮するサブカテゴリーを作成することにより更に正確にすることができる。例えば、3つの結び目がある線形スプライン関数においては、遺伝子発現レベルの変化が(平坦、増大)、(平坦、減少)、(増大、平坦)、(減少、平坦)、(増大、減少)、又は(減少、増大)で説明される6つのサブカテゴリーを作成することを考えることができる。
【0276】
線形スプライン関数の技術を測定遺伝子発現データに適用することにより、実験操作によって有意に影響された遺伝子の時間的発現応答パターンを同定することができた。これらのうち42個の遺伝子の応答は、以前の発現データのフォールド・チェンジ解析では認められなかった。更に、フォールド・チェンジ解析で見られる発現応答レベルは、164個の遺伝子のうち33個の遺伝子においては、スチューデントのt検定で有意でなかった。
【0277】
遺伝子発現データは、ノイズが多い傾向があり、多くの場合に外れ値が厄介である。本明細書に説明するスチューデントのt検定及び最大尤度法は、ノイズが多いデータの統計的有意性を考慮するが、外れ値の問題は、別個に取り組む必要がある。外れ値を除外する簡単な手順として、各時点のデータの平均値及び標準偏差を計算し、平均値から標準偏差の2倍ほど偏位しているデータを除外した。
最後に、線形スプライン関数を確実に当て嵌めるために、各時点で必要な発現測定値の数は、いくつかのデータ点を除外して線形スプライン関数を新たに当て嵌めることにより判断した。時点毎の4つのデータ点を用いる場合、その約15%の場合で、結び目の位置が確実には推定されないことが見出された。従って、時点毎に4つを超える測定値を得ることが賢明である。
【0278】
Figure 2005505031
【0279】
キーワード:遺伝子発現データ、線形スプライン、AIC、時間順序データ、最大尤度法。
【実施例5】
【0280】
薬物ターゲットを同定して確認するための遺伝子ネットワークの利用
遺伝子ネットワークを用いることにより薬物ターゲットを同定して確認するための新しい方法論を提案する。本発明では、薬物ターゲットを解明するために、新しく遺伝子を破壊し、薬物応答マイクロアレイ遺伝子発現データライブラリを作成した。遺伝子ネットワークを推定するために2種類のマイクロアレイ遺伝子発現データを用い、薬物ターゲットを同定した。推定遺伝子ネットワークは、薬物応答データを理解するのに基本的な役割を演じ、この情報は、遺伝子発現解析の標準であるクラスター解析法で達成することができる。遺伝子ネットワークの構築においては、解析の異なる段階に対してブール及びベイズネットワークの両方を用い、その相対強度を利用する。Saccharomyces cerevisiae遺伝子発現及び薬物応答データの解析からの実際の例を用いて、遺伝子ネットワーク情報を創薬に応用するための具体的戦略を提案する。
【0281】
1.序文
近年、マイクロアレイ技術の発展により、様々な実験条件で大量の遺伝子発現データが生成されている。コンピュータ科学及び統計学の分野においては、遺伝子発現データから遺伝子ネットワークを構築することはかなり注目されており、遺伝子ネットワーク推定の方法論がいくつか提唱され、例えば、参考文献の節の文献1,2,3,4,9,11,13,14,16,20,22を参照することができる。遺伝子ネットワークを構築する新しい方法の開発が重要であり、かつ進歩すべきである。一方、推定遺伝子ネットワークを実社会に応用して医学的又は生物学的問題を解決することは、近年において関心を集めるようになってきた。本実施例では、遺伝子発現データに基づき、薬物ターゲットを同定して確認する方法論を導入する。
【0282】
クラスター法6,7,23は、マイクロアレイ発現データを解析するための標準手段となっている。しかし、それらは、理論的な意味でも実際的な意味でも薬物ターゲットを同定するのに十分な情報を提供することができない。本実施例は、新しい治療法を理解して開発するために、ターゲット遺伝子を同定して確認するための鍵として推定遺伝子ネットワークをどのように用いることができるかを示す。遺伝子調節パスウェイ情報は、本発明の目的に必須であり、遺伝子発現プロファイルから遺伝子ネットワークを推論する方法としてブール及びベイズネットワークの両方を用いる。薬物ターゲットを同定するための手順は、2つの部分に分けることができる。第1に、薬物に影響を受けた遺伝子を同定すべきである。第2に、薬物可能な遺伝子を探すが、これは、通常は遺伝子ネットワーク内で薬物に影響された遺伝子の上流にある。ブールネットワークモデルは、本明細書で示す「仮想遺伝子」技術を用いることにより、薬物に影響された遺伝子を同定するのに有用であり、ベイズネットワークモデルは、解明された影響された遺伝子に関連する薬物可能遺伝子ターゲットを探すのに有効に働くことができる。本発明では、120個の遺伝子破壊体の発現実験及び薬物に対するいくつかの投与量及び時間応答から成る新しいSaccharomyces cerevisiae遺伝子発現データに本発明の方法を応用する。また、この応用研究を通じて薬物ターゲッティングのために遺伝子を同定する具体的な戦略を明らかにする。
【0283】
2.薬物ターゲットを同定するための遺伝子ネットワーク
2.1.クラスター法
階層型クラスター化7及び自己組織化マップ23のようなクラスター法は、生命情報科学の分野で遺伝子発現データ解析のための標準手段として広く用いられる。Eisen8は、階層型クラスター化に着目し、遺伝子発現データをクラスター解析するためのソフトウエアである「Cluster/TreeVew」を提供している。DeHoon他5,6は、特にk平均クラスター化アルゴリズムにおいてこのソフトウエアを改良した。遺伝子発現データのクラスター解析においては、同様の発現パターンを有する遺伝子は、細胞内で同様の機能的役割を果たすと仮定される。従って、遺伝子機能を予想するためにクラスター法を用いることが多い。
【0284】
クラスター法の有用性は認めるが、クラスター法は、本発明の目的に対して十分な情報を提供することができない。クラスター法は、発現パターンの類似性を通じて遺伝子群に関する情報を提供するのみである。実際に、薬品に影響された薬物ターゲットを検出するためには、クラスター情報のみでなく、付加的な階層型パスウェイ情報が必要である。第3節においては、実際のデータの解析を通して薬物ターゲティングのためのクラスター化技術の限界を示す。
【0285】
2.2.ネットワーク法
遺伝子ネットワークを推定するために2つの方法を用いる。この小節においては、両方法に関して簡単に紹介する。アルゴリズムの詳細な考察に関しては、参考文献の節の文献1,2,3,4,9,11,13,14,16,20,22を参照することができる。
ブールネットワーク
いくつかのグループ1,2,3,4,16,22は、遺伝子ネットワーク構成法としてブールネットワークを提示している。ブールネットワークモデルを推定するためには、遺伝子発現値を0(非発現)及び1(発現)という2つのレベルに離散化する必要がある。u1,・・・ukが、ノードνの入力ノードであるとする。νの状態は、ブール関数fν(ψ(u1),・・・,ψ(uk))により求められ、ここで、ψ(u1)は、u1の状態又は発現パターンである。時系列遺伝子発現データがある場合は、状態は時間tに依存し、時間tでのノードの状態は時間t−1での入力の状態に依存する。一方、遺伝子破壊により得られた遺伝子発現データがある場合を考える。Akutsu他1は、時間遅延することなくブールネットワークモデルを推定するための理論及び方法を提唱している。Maki他16は、ブールネットワーク及びSシステム21に基づき遺伝子ネットワークを推定するための「AIGNET」という名前のシステムを提供している。本実施例では、ブールネットワークモデルを推定するために「AIGNET」システムを用いる。
【0286】
ブールネットワークモデルを用いる利点は、次のようなものである。a)このモデルは簡単であり、容易に理解することができる。b)ブールネットワークモデルにおいては、データの正確性及び情報が十分である場合は、親子関係を正確に検出することができる。c)バイオパスウェイシミュレーションのためのソフトウエアツールである「ゲノム・オブジェクト・ネット」10,18,19に推定ブールネットワークモデルを直接適用することができる。ブール法の不利な点は、発現値を2つのレベルに離散化する必要があり、この定量化により情報が失われる可能性があることである。更に、離散化のための閾値は、パラメータであり、これは、適切な判定基準で選択する必要がある。
【0287】
ベイズネットワーク
ベイズネットワーク15は、多くの確率変数の複雑な関係のグラフ表示である。ベイズネットワークに関しては、マルコフ関係のノードを有する有向非周期的グラフを考える。このようにして、確率変数の同時確率の代わりに条件付確率を用いることにより複雑な現象を説明することができる。すなわち、i=1,・・・,n,及びj=1,・・・,pに対して、i番目のアレイ及びj番目の遺伝子の遺伝子発現データxijがあるとすれば、
【数170】
Figure 2005505031
となり、ここで、
【数171】
Figure 2005505031
は、xijのqj次元の親観察ベクトルである。
【0288】
Friedman他9は、遺伝子発現プロファイルから遺伝子ネットワークを推定するための手法を提唱した。彼らは、発現値を3つの値に離散化し、ベイズネットワークの条件付分散として多項分散を用いた。しかし、これは、離散化のための閾値を選択する問題を解決するものではなかった。Imoto他13,14は、近年、定量化する必要がない解を与えるノンパラメトリック回帰モデル
【数172】
Figure 2005505031
を用い、ここで、εijは、独立的かつ正規的に平均0及び分散σij 2に依存し、mjk(・)は、k=1,・・・,qjに対して、
【数173】
Figure 2005505031
の形のB−スプラインにより構成された平滑関数である。ここで、
【数174】
Figure 2005505031
は、未知の係数であり、
【数175】
Figure 2005505031
は、B−スプラインである。Imoto他13,14は、最適なグラフを選択するためのBNRCという名前の新しい判定基準と共に、
【数176】
Figure 2005505031
の形の非線形ベイズネットワークモデルを提唱した。BNRCは、積分にラプラス近似を用いることによるグラフの事後確率の近似であると定義される。Imoto他13,14は、提案した方法をSaccharomyces cerevisiae遺伝子発現データに応用し、遺伝子ネットワークを推定した。この方法の利点は、以下のようなものである。すなわち、a)マイクロアレイデータを連続データセットとして解析することができる。b)このモデルは、遺伝子間の線形構造のみでなく、非線形依存性も検出することができる。c)提案された判定基準は、自動的にモデル内のパラメータ及びネットワークの構造を最適化することができる。
【0289】
ベイズネットワークは、推論の数学に関する理論的に有利な基礎を有しており、本実施例では、ベイズネットワークを構築するためにImoto他13,14により提唱された方法を用いる。残念なことに、ベイズネットワークは、周期的調節を構成することができず、破壊体及び薬物応答実験から得た発現データの論理結合により作成したデータから調節効果の多重レベル有向モデルを作成するのには有用でない。しかし、解析にベイズ及びブールネットワークを組み合わせることにより、この問題を回避することができる。従って、ブール及びベイズネットワークを共に用いることにより互いに欠点を補うことができ、両方のネットワーク方法を使用することにより信頼性の高い情報を得ることができる。
【0290】
3.応用
3.1.マイクロアレイデータ
本発明者は、Saccharomyces cerevisiae遺伝子実験プロファイルからマイクロアレイデータの2つのライブラリを生成した。一方は、120個の遺伝子を破壊することにより得たものであり、他方は、経口抗真菌剤に対する応答から成るものであった(4つの濃度及び5つの時点)。薬物ターゲットを同定するために酵母菌ゲノムから735個の遺伝子を選択した。YPDでは、314個の遺伝子が「転写因子」と定義されており、このうち98個の遺伝子では、その制御機構が既に研究されている。解析のために選択された735個の遺伝子のための発現プロファイルデータには、遺伝子発現調節の中心的役割を果たし、かつ一般的な薬物ターゲットである核内受容体遺伝子に加えて、測定した5871個の遺伝子種のうちこれら98個の「転写因子」により制御された遺伝子が含まれていた。本発明者は、120個の遺伝子破壊の条件に亘る735個の遺伝子のデータセットからネットワークモデルを構築した。この破壊データの詳細は、Imoto他14の文献にも説明されている。
【0291】
薬物応答マイクロアレイ遺伝子発現データに関しては、培養液内に薬用量10、25、50、及び100mgで抗真菌剤投薬した酵母菌培養液を培養し、薬品を加えた後の5つの時点(0、15、30、45、及び60分)で培養液の一定分量を取った。この場合、時間0は、この観察の開始点を意味し、薬品に露出された直後である。次に、これらの実験から総RNAを抽出して、このRNAをcy5でラベル付けし、未処理細胞由来のcy3ラベルRNAとハイブリッド形成して全ゲノムcDNAマイクロアレイに付加することにより、薬物応答データに対して20個のマイクロアレイのデータセットを生成した。本実施例では、これら140個のマイクロアレイを用い、遺伝子ネットワークを用いて薬物ターゲットを解明する。
【0292】
3.2.結果
クラスター化の結果
薬物ターゲットの同定において、広く用いられているが問題のある従来技術の戦略は、多くの場合、相関に基づいて薬物応答データと比較するためのベース摂動制御データのライブラリさえも共にしてクラスター解析12,17を用いることである。本発明では、遺伝子破壊及び薬物応答という2種類のマイクロアレイデータがあるので、薬物応答パターンを破壊により引き起こされた遺伝子発現パターンと比較することができる。クラスター解析においては、単一の破壊体又は破壊体群の発現パターンと任意の薬物応答マイクロアレイとの間に有意で強度の類似性がある場合、薬品は、破壊された遺伝子と恐らく同じ役割を果たしていると結論することができる。更に、この破壊された遺伝子が既知の機能的役割を有する場合、薬品への応答に関する情報を更に多く得ることができる。
【0293】
Figure 2005505031
図1:組合せ遺伝子発現データの相関行列Rの画像
【0294】
残念なことには、このような実験ではよく見られるように、本発明のデータをクラスター化することからはこのような直接的な結果を得ることはできない。図1は、本発明のマイクロアレイデータの相関行列を表す画像を示している。2種類のデータを組み合わせて、行列Z=(X:Y)作り、ここで、X及びYは、それぞれ、薬物応答及び遺伝子破壊マイクロアレイデータ行列である。ここで、各列は、1つのマイクロアレイから得られた発現パターンを示しており、これは、平均値0及び分散1で標準化されている。従って、図1は、相関行列R=ZTZ/pの情報であり、ここで、pは、遺伝子の数であり、735である。
【0295】
図1においては、淡色及び暗色は、それぞれ正及び負の高相関を表す。薬物応答マイクロアレイは、互いに高相関であり、遺伝子破壊マイクロアレイのいずれとも低相関である。このような状態においては、薬物応答では意味があるクラスター解析で遺伝子破壊体と薬物応答との間に何ら相互作用を見出すことはできない。本発明では、遺伝子破壊及び薬物応答マイクロアレイの階層型クラスター化を更に実施したが、薬物応答マイクロアレイから1つのクラスターが生成され、この解析からは実際の薬物ターゲットに関してこれ以上の情報を抽出することができない。この結果は、他の距離測定法又はクラスター化技術を用いても本質的に変わらなかった。従って、本発明のデータを用いるクラスター法からは、意味のある薬物ターゲットを同定するための情報を得ることはできない。
【0296】
ブールネットワークの結果
本発明では、遺伝子破壊及び薬物応答マイクロアレイを組み合わせて作成したマイクロアレイデータZを用いることにより遺伝子ネットワークを推定した。本発明では、仮想遺伝子技術と呼ばれる方法を導入する。薬物応答データの条件を「仮想遺伝子」として考え、例えば、100mg/ml及び30minという条件は、遺伝子YEXP100mg30minと指定される。ブールネットワークモデルを用いることにより、これらの仮想遺伝子の子遺伝子を見出すことができ、薬物は、これらの子遺伝子に子孫の世代順序で影響する。本発明では、推定の薬物影響遺伝子、すなわち、仮想遺伝子(薬物の影響)の直接の影響下にある遺伝子として、親遺伝子として5つ又はそれ以上の仮想遺伝子を有する遺伝子が着目される。しかし、親遺伝子として1つの仮想遺伝子しか持たない遺伝子が、所定の薬品に対する作用のモードによっては薬物に影響された主要な遺伝子である可能性もあり、これは、個別に解析すべきである。仮想遺伝子技術では、ベイズネットワークモデルに比較して、薬物誘導型発現の影響下にある遺伝子に対する初期スクリーニングにおけるブールネットワークモデルの利点を強調する。
【0297】
更に、フォールド・チェンジ解析は、本発明の仮想遺伝子技術と同様の情報を提供することができる。実際に、フォールド・チェンジ解析により、ある一定の実験条件で影響された遺伝子を得ることができる。しかし、本発明の仮想遺伝子技術の方がフォールド・チェンジ解析よりも優れた結果を得ることができる。フォールド・チェンジ解析で、遺伝子A及び遺伝子Bが薬物により影響されることが見出されたとする。フォールド・チェンジ解析では、遺伝子Aと遺伝子Bの間のベースライン相互作用を考慮することができない。すなわち、遺伝子Aと遺伝子Bの間に遺伝子A→遺伝子Bという調節パスウェイがある場合は、遺伝子Bは、恐らく薬物により直接影響されない。仮想遺伝子技術では、遺伝子破壊データの情報を用いることによりこのような相互作用を考慮することができ、従って、利用可能な相互作用データが与えられると、より可能性のあるターゲット遺伝子に検索セットを絞ることができる。
【0298】
薬品に最も影響を受けた遺伝子が、薬品により「薬物化された」遺伝子であるという保証はなく、薬物化されたターゲットが、新しい薬物の介入に対する最も生物学的に利用可能で有利な分子ターゲットであるという保証もない。従って、可能性の高い作用の分子モードを同定した後でも、調節ネットワーク内の薬物に影響された遺伝子の上流に最も薬物可能な遺伝子を見出し、その後、これらのターゲットに対する薬物作用のための低分子量化合物をスクリーニングすることが必要である。推定ブールネットワークにおいては、ネットワークの最上部に仮想遺伝子を配置すべきである。従って、この推定ブールネットワークにおいては、薬物影響遺伝子に関する上流側情報を見出すことは困難であるか、又は時には不可能である。この段階において、有効な方法で薬物影響遺伝子の上流領域を探すためにベイズネットワークモデルを用いることができる。
【0299】
Figure 2005505031
図2:仮想遺伝子YEXP100mg30minの下流パスウェイ
【0300】
ベイズネットワークの結果
遺伝子ネットワークは、BNRC最適化戦略13,14と共にベイズネットワーク及びノンパラメトリック回帰法を用いることにより推定される。本発明では、120個の遺伝子を破壊することにより得たSaccharomyces cerevisiaeマイクロアレイ遺伝子発現データを用いる。ブールネットワーク解析から、薬物に影響された遺伝子の候補セットを有効に見出すことができる。薬物可能遺伝子は、これらの薬物影響遺伝子に関連する薬物ターゲットであり、これを同定することにより、新しいリードを開発することが望ましい。ベイズネットワーク法により、推定遺伝子ネットワーク内の薬物影響遺伝子の上流領域で薬物可能遺伝子を探索することができる。本発明のノックアウト発現ライブラリから入手可能なネットワーク調節データのベイズモデルを用いて、薬物に影響されたターゲット発現に亘って既知の調節制御関係を有する遺伝子を、薬物に影響されたターゲットの上流で検索することができる。ここでは、a)核内受容体タンパク質が有用な薬物ターゲットであることが公知であり、現在の市場で医薬品に対するターゲットの20%を超える部分を占め、b)核内受容体がcDNAマイクロアレイ実験で直接測定される転写調節作用に関与するために、本発明では、薬物可能遺伝子として核内受容体遺伝子に着目する。
【0301】
Figure 2005505031
図3:薬物可能遺伝子(上部)、薬物影響遺伝子(下部)、及び中間遺伝子(中間)の間の部分ネットワーク
【0302】
図3は、薬物に影響された遺伝子(下部)、薬物可能な遺伝子(上部)、及び中間遺伝子(中間)を含む部分ネットワークを示す。勿論、他の中間遺伝子を認めれば、薬物可能遺伝子から薬物影響遺伝子までのパスウェイは、他にも見出すことができる。ベイズネットワークモデルを使用するために、エッジの強度を見つけることができ、また、より信頼できるパスウェイを選択することができる。これは、理想的な薬物可能ターゲットを検索する際のベイズネットワークモデルの利点である。図3では、円内の薬物可能遺伝子は、薬物影響遺伝子に直接関係し、他の薬物可能遺伝子は、薬物可能遺伝子1つにつき1つの中間遺伝子を有する。図3から、各薬物影響遺伝子に対して薬物可能遺伝子を見出すことができ、例えば、表1に示すMAL33及びCDC6に対する薬物可能遺伝子を見出すことができる。
【0303】
Figure 2005505031
【0304】
4.考察
本実施例では、遺伝子ネットワークの計算モデルを用いて薬物ターゲットを同定して確認する新しい戦略を提示した。クラスター法は、十分な情報を提供することができず、ネットワーク法により提供される種類の階層型相互作用データの必要性が存在することを示した。マイクロアレイ遺伝子発現データから遺伝子ネットワークを推定するために、ブール及びベイズネットワークに着目した。これら2つの方法は、本来異なる視点から提唱されたものであるが、相対的な強み及び弱点を有しており、解析に両方の方法を用いると、信頼度の高い情報を得ることができる。ブールネットワークは、上述の仮想遺伝子技術を用いることにより、薬物に影響された遺伝子を同定する際に用いるのに理想的である。また、本発明では、単純なフォールド・チェンジ解析から得られる結果に勝る仮想遺伝子技術の理論的利点も説明した。これは、ある一定の目的に対して、より単純なブールネットワークを用いることの利点である。しかし、ブールネットワークでは、推定ネットワークにおいて薬物影響遺伝子の上流で薬物可能遺伝子を探す場合に貴重な情報を与えることができないことが示された。本発明では、ベイズネットワークをこの問題に適用することによりこの欠点を解決する。ベイズネットワークモデルは、薬物に影響された遺伝子の上流領域の情報を効果的に提供することができ、従って、各薬物影響遺伝子に対して薬物可能候補遺伝子セットを得ることができる。本実施例で提唱する新しい戦略は、2つのネットワーク方法の組合せを巧みに用いることに基づいて確立される。各ネットワーク方法の強みは、この戦略に明確に見ることができ、統合された本発明の方法は、薬物ターゲットの同定及び確認における遺伝子ネットワーク推論のために生物情報科学技術を実用化する方法論的基礎を提供することができる。
【0305】
Figure 2005505031
【実施例6】
【0306】
ネットワーク関係を発見するためのシステム及びその利用
1)目的
ネットワーク関係を判断することは、創薬、ゲノミクス、プロテオミクス、計算ネットワーク、ヒトネットワーク、及び要素が互いに複雑に相互作用する他のシステムを含む多くの分野で極めて望ましい。
創薬で最も重要な点の1つは、リード化合物の作用部位を探すことである。薬物のスクリーニングには、1)リード化合物の合成及びそのスクリーニング、2)作用部位の検索及び疾病に対する直接的手法、3)優れた効果を有する薬物への改善、及び4)副作用の少ない薬物への改善というプロセスが含まれる。創薬のプロセスで今日利用可能でない重要な技術は、ゲノムを駆使した検定補助システムである。ヒトゲノムは既に解明されているが、ヒトゲノムを用いて補助システムを構成することは、現時点で極めて困難である。根本的に困難な点は、ノックイン/ノックアウト遺伝子を用いるモデルの構築が極めて困難であり、各臓器がその独自の特定の発現を有するために、それぞれの臓器に対するモデルを確立する必要があるという事実に基づいている。
【0307】
このような状況において、容易にモデル化することができて豊富なデータが蓄積された真核生物として酵母菌を用いて薬物のターゲット部位を判断し、ターゲット部位に関するネットワークの特徴を抽出するためのシステムを構成することは、副作用の少ない薬物を最も有効に開発するための有効なシステムであると考えられている。実際には、遺伝子間の発現の差は、各遺伝子のノックイン/ノックアウト効果を用いることにより蓄積され、このデータから発現制御ネットワークが構成される。次に、このネットワークを利用する酵母菌の培地にリード化合物を加え、遺伝子発現の差を蓄積データと比較することにより、このリード化合物のいかなる作用部位も推定される。GNIは、ゲノム検定補助システムを開発し、薬物のより正確で効率的な開発に関して製薬会社を補助する解析環境及びサービスを提供している。
【0308】
2)ネットワークを構築するための技術
20世紀で最も大きな分子生物学のプロジェクトの1つであると考えられているゲノムプロジェクトの成果として、多くのモデル動物のゲノム構造が解明され、ヒトゲノムの構造の解析も進行中である。従来の生化学及び遺伝学の方法では不可能であったゲノム構造の解析が急速に進歩したことにより、ゲノム機能の解明が可能になっている。最も進んだ結果には、全遺伝子の発現を調べるためのトランスクリプトーム、及び全タンパクの発現を調べるためのプロテオームが含まれる。このような結果に加え、これらのデータを解析して臓器を構成する全ての遺伝子の発現ネットワークを調べることにより、全ての細胞機能を解明することが実際に可能である。この事実に基づき、ゲノム構造を判断するための次のプロジェクトは、各臓器に関わるゲノム機能を解明することである。各ゲノムをその性質により分類して体系化することにより、臓器全体の機能を制御するための研究が開始された。その結果、観察したデータをゲノム機能の解明のために最終的に組み合わせて結合すべき新しい時代が始まっている。このような状況下では、単一の遺伝子を解析する従来の方法を用いて複数株の情報を収集及び解析することは不可能に近い。
【0309】
上述の目的を達成するために、新しい解析法が必要とされている。各関係を実験的に確認することによって構成された従来のモデルとは対照的に、このような大規模データから全体としてモデルを構築することを考える必要がある。例えば、遺伝子発現制御ネットワークは、様々な培養条件下での臓器の全遺伝子の発現プロファイル及び時間的経過を解析するか、又は遺伝子を破壊した変異株の発現プロファイルを解析することにより構成することができる。系統的な観点から図1に示すような研究が可能であり、入出力及び撹乱に関するデータからシステムの内部構造を仮定するための研究が可能になった。撹乱が遺伝子の破壊であると見なされる場合(遺伝子の発現はない)、入力が正常な全遺伝子の発現を意味し、出力が遺伝子の一部が破壊される時の全遺伝子の発現を意味すると仮定して遺伝子発現のシステムが推定できるか否かは、系統的な観点からは問題である。
【0310】
系統的な観点からのシステムの同定
ゲノム構造が解明されると、ネットワークを推定することを可能にする実験データを収集することができる。すなわち、
・全ての関連遺伝子のデータを測定することができる。
・多くの実験の実行を可能にする遺伝子チップのような多くのツールが開発された。
多くの標準化データが得るために撹乱を加えることによって出力を測定すると、以下の図のようになる。
【0311】
Figure 2005505031
図1:分子ネットワーク
【0312】
この発現プロファイルの解析を可能にした第1段階は、多くの種類のDNA又はRNA(発現プロファイル)の差を同時に測定することを可能にするマイクロアレイ1 2)又は「GeneChip」法3)の出現である。「Nature genetics、1999年、1月」は、遺伝子チップに関する特集号4)を発行した。この方法は、現在、生物学及び医学の分野で広く使用され始めており、多くのベンチャー企業が世界中に設立され、チップ及びトレイに関連する全体システムの販売が開始された(例えば、www.inmcite.com、及び、www.affimetrix.comを参照)。日本でも、DNAチップラボラトリーズ株式会社、宝酒造株式会社、及び北海道システムサイエンス株式会社がチップ製造に参入している。このような方法から大量の実験結果が得られることが予想されるために、新しい仮説及び解析法が必要とされることになる。このような方法は、個々の関係を実験的に確認することによって構成された従来のモデルを、大規模データから一挙に構成することができる新しいモデルで置換することを可能にするであろう。例えば、様々な環境で全遺伝子の発現プロファイルを解析することにより、遺伝子発現の制御ネットワークを構築することが可能である。包括的方法での検索は、疾病の原因遺伝子を探して疾病モデルを構築することを可能にする。
【0313】
遺伝子発現ネットワークの解析
(1)基本アレイ技術
アレイ実験には、基本的に、従来のサザンブロット法と同じ原理を用いる。アレイ技術に飛躍的な進歩をもたらした技術の開発には、良好な光学特性を有するスライドグラス上に高密度にDNAを結合させることによりサンプルと対照との間の定量比を正確に測定する測定装置の開発が含まれる。近年、米国スタンフォード大学のP.O.Brown博士他1)により開発された器具(アレイヤー又はスポッター)を用いて、スライドグラス上で10,000又はそれ以上のcDNAを発見することに成功した。サンプル及び2種類又はそれ以上の蛍光物質でラベル付けした基準DNAをスライド上のcDNAとハイブリッド形成することにより、遺伝子の発現の測定が可能になった。別の方法においては、オリゴヌクレオチドがグラスの表面上に高密度で直接合成される工業的に利用しやすい写真平板法を用いて「GeneChip」が製造されている。この方法は、現在、実際に用いられている3)。それ以外には、インクジェット機構を用いる方法が開発中であり、この方法は、高速かつ高密度にアレイを形成する可能性があると期待されている。
【0314】
(2)マイクロアレイの実施
以下に実際の実験の例を説明する。本発明者の実験室では、発芽酵母菌の遺伝子のいくつかを破壊するか又は過剰に発現させて全遺伝子の発現プロファイルを調べることにより、遺伝子の直接的及び間接的影響を包括的に収集している。図2及び図3を参照してマイクロアレイの実験手順を以下に説明する。
(I)最初に、調査する微生物の全遺伝子を用意する。通常、全遺伝子に対してPCR(ポリメラーゼ連鎖反応)プライマー(20個の塩基の長さを有する)のセットを用意し、ゲノム又はクローンにPCR反応を行って全遺伝子の増幅断片を得る。
(II)スポッター又はアレイヤーと呼ばれるロボットを用いて各増幅遺伝子のDNAをスライドグラス上に発見し、遺伝子を固定する。各発見スポットは、直径150μであり、1平方センチメートル当たり2,500個の遺伝子が見出される。
(III)次に、サンプルを用意する。発芽酵母菌の場合は、ゲノム解析後に選択した株及び特定の遺伝子を破壊した変異株を同じ条件で培養する。両方の株からmRNAを抽出する。これらのmRNAからcDNAを調製し、2種類の蛍光物質(互いに異なる励起波長及び蛍光波長を有する)でラベル付けする。各株から調製したcDNAの等量を混合する。混合物をマイクロアレイ上に載せると、cDNAは、相補的結合によりガラス表面上に固定されたプローブと結合する。スライドを洗って不特定に結合したcDNAを除去し、これによって1回の実験で約6,000個の全遺伝子の発現プロファイルを得る。
(IV)サンプルに結合したマイクロアレイを2波長蛍光光度計で定量し、サンプル対基準の比を計算する。スポットの大きさが非常に小さいために、蛍光光度計は高感度のものが必要である。
【0315】
Figure 2005505031
図2:マイクロアレイの調製の概要
【0316】
Figure 2005505031
図3:マイクロアレイを用いる発現プロファイルの測定。図中の変異細胞は、化学薬品で処理した細胞を意味する。プロファイル間の比較のために遺伝子発現プロファイルが作成され、その後、ネットワーク内のプロファイルの位置が同定される。
【0317】
3.情報技術による遺伝子発現ネットワークの解析
(1)データの種類
データは、単一の選択した時点で取得するか、又は、細胞が、培養中に所定の時間間隔でサンプリングされ、時間経過中のその時間の発現プロファイルデータが取得される。そうでなければ、できるだけ多くの発現プロファイルの変化を収集するために、時間軸の単一の時点で異なる実験条件による実験を行う。表1は、遺伝子破壊実験のデータがまとめられた「遺伝子発現行列」の一部を示している。表の列は、6,000個の遺伝子に関する遺伝子破壊実験の結果を野生型株に対する比として示しており、それぞれの破壊された株のデータは蓄積されたものである。
【0318】
Figure 2005505031
表1:遺伝子発現行列。列は、破壊された遺伝子名を示し、行は、遺伝子名を示す。数字は、正常レベルを1とした発現の相対量を表す。
【0319】
(2)解析モデル
アレイデータからのネットワークの決定
微生物の機能発現が、分子生物学のセントラルドグマに基づいて遺伝子発現情報により形成されるという予測によれば、発現ネットワークが調べられている生物の機能を解明するための情報ラインは、大規模な遺伝子発現データの解析によって得られると期待される。一般に、使用する方法は、クラスター法6,7,8)を用いたプロジェクトで出された遺伝子発現プロファイルからの同じ遺伝子発現パターンを有する遺伝子グループの解明を伴う。このような方法とは別に、遺伝子発現制御ネットワークを推測するための研究が世界中で始まっている。その基本的な目的は、遺伝子発現行列又は時間経過データから図4に示すような遺伝子発現制御ネットワークの構築図を形成するための計算方法を開発することである。
【0320】
Figure 2005505031
表4:遺伝子ネットワークの同定の概念図
【0321】
このようなモデルを用いるネットワークは、大きく2つのグループに分けられる。1つのグループでは、ブールモデルが用いられ、遺伝子間の関係は、一方の遺伝子が他方の遺伝子又は結び目により制御された2進状態で表される9,10)。別のモデルでは、実際の発現数を扱い、ほとんどのモデルは、連続値の力学に関連する微分方程式に基づいている11,12)。しかし、モデルに関わる反応定数は、全ゲノムに対して行われる発現制御ネットワーク解析において最適化される必要があるために、微分方程式に基づくモデルにはいくつかの工夫が必要である13)。これらの方法に加えて、ベイズネットワークを用いる解析方法が導入された14)
【0322】
2.本発明の試験
(1)発現プロファイル構成プログラム
今日では多次元データを容易に測定することができるようになり、ゲノムレベルの研究が可能になったために、遺伝子発現制御ネットワークを解明する目的で遺伝子破壊又は遺伝子過剰発現株の多くの発現プロファイルを収集することが必要であると考えられる。本発明では、表2に示すような転写関連の遺伝子、信号伝達関連の遺伝子、及び細胞周期関連遺伝子を主に含む遺伝子に対して多くの遺伝子破壊変異株も作成し、その発現プロファイルの収集を試みた。今日では、主に転移因子に関わる173個の変異体が作成され、今年は、発現プロファイルデータを明らかにするためのプログラムを用いてその発現プロファイルを構成中である。
【0323】
Figure 2005505031
【0324】
(2)ネットワークを同定するための試験
試験中の多重レベル有向グラフ法を以下に紹介する。ネットワークは、図5に示す方法で判断されるが、これには以下の段階が伴う。すなわち、(1)集めた遺伝子発現プロファイルデータから遺伝子発現行列GEを構成する。(2)演算により、もしあれば他の遺伝子のいずれかに対する1つの遺伝子の影響を調べ、発現比が著しく変化した遺伝子に対して1、他の遺伝子に対して0を割り当て、これによって2値行列を形成する。(3)この行列がサイクルを形成する部分を検索し、その部分を収集して新しい遺伝子グループB’と定義する。ループ制御構造の取り扱いが複雑なために、この部分は、共に収集されて再び新しい遺伝子グループとして定義される。(4)行列の列及び行を置き換えて、関連遺伝子を行列の右上部分に整列させる。これによって、互いに制御された遺伝子のネットワークトポロジーの大部分が明らかになる。(5)最後に、間接的に関係した部分を除去することにより、遺伝子発現ネットワークを更に定義することができる。本発明で構成した70個の遺伝子破壊株の発現プロファイルから本方法によって決定されたネットワークを図6に示す。
【0325】
Figure 2005505031
図5:多重レベル有向グラフ法の概要
【0326】
Figure 2005505031
図6:70個の破壊株から決定されたネットワークの一部
【0327】
4.今後の課題
最も大きな課題は、データに含まれる誤差である。現在利用可能な実験技術では、30%から40%程度の誤差を引き起こす場合があるので、このような誤差に基づいた情報科学技術の開発が必要である。しかし、このような大きな誤差を処理する方法は、現時点では十分ではない。従って、実験的に誤差を減少させることができる方法論、又はある程度まで誤差を推定する方法論が導入されることが期待される。
【0328】
膨大な数の遺伝子を処理するためには、結果の表示方法を開発することが重要である。6,000個の遺伝子間のネットワークを表示する必要があるので、解析用の転写因子が選択された。本発明では、調節制御関係の最初の552遺伝子メンバーモデルを構築し、次に、98個の既知の転写因子から成るサブネットワークを構成した。これらのモデルを作成する際には、Shoudan他Xが報告しているようなブール計算アルゴリズムを用いた。図7に本発明の方法の概要を示す。
【0329】
Figure 2005505031
図7:ブール法を用いる遺伝子調節サブネットワークモデルの構築。
【0330】
最初に、一組の遺伝子破壊実験から遺伝子発現行列を作成する。行列の各要素は、遺伝子発現比を示しており、2値関係行列は、遺伝子「a」が排除されて遺伝子「b」の強度が大きく変化する場合は、遺伝子「a」が遺伝子「b」に影響することを示す。遺伝子a及び遺伝子「b」が互いに影響する場合、それらは、ループ(強く関係した成分)を形成する。ループを論理的に遺伝子として扱う同等セットが導入される。同等セットは、互いに影響する遺伝子グループ又は1つのみの遺伝子である。次に、遺伝子を同等セットに分割する。同等セット間のこれらの半順序アクセス可能性行列は、セットの個々の遺伝子が互いに直接影響を及ぼさない場合でも同等セットグループとしての影響を説明する。下部の行にも含まれる関係を次に除去してネットワーク内に階層型関係を構成し、制御関係にある遺伝子のネットワークトポロジーを生成する。
【0331】
ブールモデルで構成した発現実験のネットワークモデルは、有糸分裂及び減数分裂パスウェイに関連する明確な調節転写因子サブネットワークをもたらす。図8は、この転写因子サブネットワークを詳細に示している。この図に見られるように、サブネットワークは、交配、減数分裂、及び、DNA構造及び修復機構に関与する転写因子間の特定の調節関係を説明する。例えば、機能は未だ報告されていない遺伝子のHAP2は、既知の交配応答遺伝子であるAlpha2に対して、特定の機能が同じく未知のTHI2という中間生成物を通じて間接的な調節影響を及ぼすことが示されている。更に、既知の減数分裂パスウェイに関係ないと考えられていた染色体構造及びDNA修復に関連する様々な要素が、MET28及びCIN5に影響される。この両方の結果は、生物学的に理解できるものである。すなわち、有性生殖を成功させるための誤差のないDNA複製への依存性、及び減数分裂と交配との間の関係が明白である。
【0332】
転写因子の様々な機能グループ間の一般的な調節関係を理解するために、ネットワークモデル内の転写因子をその「細胞役割」で分類した。本明細書における「細胞役割」は、YPDのタンパク質に関与する主要な生物学的プロセスであると定義される。本発明の転写因子ネットワークにおけるカテゴリー化のために10個のグループを形成した。図8aは、本発明のネットワーク内で分類した転写因子の相互関係を図に表したものであり、図8bは、グループ間の数値的関係を示すものである。
【0333】
図8aに見られるように、細胞周期転写因子は、転写因子の10個のカテゴリーのうちの僅か2つのカテゴリーと合計僅か3つの遺伝子とによって影響を受ける。細胞周期転写因子に独立に影響する3つの要素は、減数分裂、交配応答、及び細胞ストレス、すなわち、機能的な理由で細胞周期プロセスとの限定的な相互作用を必要とするプロセスに関連していた。真核生物は、控えめで高度に保存された細胞周期チェックポイントを用い、DNAが複製又は修復を行っている間は核分裂が抑制されることを確実にすることは公知である(35-37)
【0334】
同様に、脂質脂肪酸代謝転写因子が、炭水化物代謝転写因子に影響されたことも明らかである。本発明のデータは、例えば、INO4の発現であるUDFHGDHGが、RTG1であるJJHGDGGHにより影響されたことを明らかにしている。また、PDR1である「BIG HORSE」は、CAT8の発現である「SMALL DOG」に影響される。リン脂質合成パスウェイに関与するタンパク質と、グルコース応答パスウェイ、脂質信号パスウェイ、及び他の脂質合成パスウェイの遺伝子との間の他のこのような相互作用は、文献(26)で過去に十分説明されている。リン脂質生合成の多くの酵素をコード化する遺伝子は、全てそのプロモーター遺伝子にUASINOの変異株を含み、これらは、増殖期及び栄養枯渇に応答して調節されることは公知である(G.M.Carman、1991年)。特に、Snf1p/Snf4p及びIre1pでは、USEINO配列に結合するグルコース応答に関連した重要な分子が、UASINO含有遺伝子の抑制解除に必要であると報告されている。
【0335】
本発明のモデルの妥当性をゲノムワイドベースで確認するために、本発明の552遺伝子メンバー調節モデル内に以前に説明された調節関係が存在するか否かを文献から検索した。98個の既知の転写因子に関して、これらのうちの26個の上流及び下流の調節ネットワークは、文献に報告された相互作用から解明することができる。本発明者は、公知の遺伝子に対するこれらのパスウェイのいくつが本発明のモデルで再構成されたかを調べた。その結果、これらの関係の約27%は、本発明の発現データから明らかであることが見出された。
【0336】
ブール計算モデルと共に遺伝子破壊体ベースの発現プロファイルデータを用いる本発明の遺伝子調節ネットワーク構成により、パスウェイ生物学に関連する特定の予測を行ういくつかの遺伝子調節関係が解明された。更に、新しい生物学的見識によるこれらのモデルの調節、及びデータをタンパク質発現実験のような他の発現データと相関させることにより、特定のパスウェイ相互作用の分解能の増大を可能にすることになる。更に、本発明者は、発現プロファイルデータに含まれる確率論的な関係を調べるための「ベイズモデリング」のような他の計算方法論を現在調査している。このような戦略及び静的な発現データから動的な調節パスウェイを解明するための同様な戦略の使用は、新しい生物学的パスウェイ及び機構への良好な費用効率及び高処理能力に関する研究の新しい時代を可能にすることになる。
【0337】
図8は、細胞機能による遺伝子調節ネットワークを説明するものであり、図8aは、YPDデータベースで提供される情報に従って細胞機能でグループ分けした98個の転写因子の調節サブネットワークを示す。円の中の遺伝子は、所定の細胞機能カテゴリーにグループ分けされた遺伝子である。調節制御における階層的関係の線は、色付きの線で描かれており、その線は、調節影響を及ぼす遺伝子に向かって制御関係が発せられる遺伝子のカテゴリーと同じ色を有する。太い赤い線は、減数分裂/交配応答グループ内の遺伝子から派生する細胞周期に関連する転写因子の調節制御を示す。暗い青色の線は、脂質脂肪酸代謝グループ内の遺伝子に影響を及ぼす炭水化物代謝グループから発せられた制御関係を示す。この結果は、文献に裏付けられており、常識的でもある。この十分に保存された遺伝子調節関係により、甘いものを食べ過ぎると確実に太ることになる。図8bは、転写因子の機能カテゴリー間の制御関係の頻度を示す。行の見出しは、カテゴリーから始まる遺伝子制御応答を示し、列の見出しは、制御される遺伝子のカテゴリーを表す。数字は、一方のカテゴリーの遺伝子から開始され、他方のカテゴリーの遺伝子に制御を及ぼす控えめな制御関係の数を示す。太い赤い数字は、細胞周期転写因子に影響を及ぼす比較的希薄な制御関係を強調している。太い青い数字は、脂質脂肪酸代謝に制御を及ぼす比較的希薄な制御関係を強調しており、これらは、両方とも炭水化物代謝カテゴリーから発せられる。
【0338】
図9は、破壊体変異酵母菌株に行った遺伝子発現実験のブール解析から再構成した転写因子の遺伝子調節サブネットワークの詳細図である。黒い線は、調節関係を示しており、矢印は、発現影響の階層的方向を示す。ノードの色及び形状は、YPDデータベースの説明による遺伝子生成物の細胞機能の一般的カテゴリーを示す。細胞分裂機構に関連する遺伝子は、三角形ノードで示され、DNA修復及び染色体構造に関連する遺伝子は、正方形で描かれている。解明されたネットワークは、減数分裂、交配応答、及び、DNA構造及び修復機構に関連する遺伝子間の新しいトポロジー制御関係を示す。減数分裂及び交配応答遺伝子に関連する遺伝子は、INO2により調節されるカスケードの下流にあり、DNA修復及び構造に関連する遺伝子の更なるサブグループ化は、階層的にUME6の下流に現れる。
【0339】
図10は、本発明のネットワークを発見するためのシステムの概略図である。細胞(一行目:「A」)を増殖させ、介入有り及び無しで処理し、その処理の欠落を反映するmRNAを生成する。メッセンジャーRNAを逆転写してcDNAにし、アレイ上に発見されるようにする(上から2行目)。発現のレベルに関する情報を収集してデータベースに保存する。データベースからの情報を本発明のネットワークモデリングに従って解析し、異なる遺伝子間の関係のネットワークを生成する(ボックスの中)。次に、システムからの出力をモニタ又は他の視覚化ツール上に表示する。
ネットワークを判断する際の上述の手法は、以下に限定されるものではないが、ブール解析、ベイズ解析、グラフィカルモデリング、クラスター解析、最大尤度推定、罰則付き最大尤度推定、及び他の種類の解析方法を含む様々な線形及び非線形解析方法に応用することができる。
【0340】
Figure 2005505031
【0341】
Figure 2005505031
図8a
【0342】
Figure 2005505031
図8b
【0343】
Figure 2005505031
図9
【0344】
Figure 2005505031
図10
【産業上の利用可能性】
【0345】
遺伝子間のネットワーク関係を判断する方法は、遺伝子間の関係を得ることが望まれる製薬、医療、及び他の業界においてリード化合物を開発するのに有用である。本発明の推定方法は、データのグループ間に複雑な関係が望ましい統計的分析のいかなる分野にも用途が見出される。このような分野には、工学、経済学、及び生物学が含まれる。
【図面の簡単な説明】
【0346】
【図1】本発明のモデルベースの対話式生物学的発見法の概略図である。
【図2】図2Aは、行列の各要素が列の遺伝子と行の遺伝子との間の遺伝子発現の比を表す多くのプロファイルが統合された「遺伝子発現行列」を示す、本発明のブール法を用いた遺伝子調節サブネットワークモデルの構築図である。図2Bは、遺伝子「G1」が削除され、その結果遺伝子「G2」の強度が顕著に変化した場合に遺伝子「G1」が遺伝子「G2」に影響することを示す、「2値行列」を生成するための遺伝子間の2値関係を表す本発明のブール法を用いた遺伝子調節サブネットワークモデルの構築図である。図2Cは、遺伝子「G3」及び遺伝子「G4」が互いに影響し合う場合に、それらがループ(強力に結合された成分)調節を形成する、同定されたループ調節遺伝子の隣接行列を示す本発明のブール法を用いた遺伝子調節サブネットワークモデルの構築図である。図2Dは、同等セットが、互いに影響するか又はグループとして1つの個別遺伝子に影響する遺伝子のグループであり、ループを「仮想遺伝子」として論理的に処理する「同等セット」に遺伝子が分割された段階を示す、本発明のブール法を用いた遺伝子調節サブネットワークモデルの構築図である。図2Eは、階層型結合を構築するために最も短い経路関係が選択されるべきである仮想遺伝子間の骨格関係を示す、本発明のブール法を用いた遺伝子調節サブネットワークモデルの構築図である。図2Fは、骨格行列から形成された調節パスウェイを示す、本発明のブール法を用いた遺伝子調節サブネットワークモデルの構築図である。
【図3】552個のノードが包含遺伝子とこれらの遺伝子間の2953個の推定調節リンクとを表す、酵母菌での本発明の破壊体に基づく研究及び解析の結果を示す図である。
【図4】酵母菌における細胞機能役割(CFR)によって分類した本発明の転写因子調節ネットワークモデルを示す図である。このモデルにおいては、「酵母菌プロテオームデータベース」に提供された情報によって細胞機能役割でグループ分けされた98個の転写因子があった。円内の遺伝子は、所定の細胞機能カテゴリーにグループ分けされている。調節制御関係は、色付きの線で示す。色は、制御関係が発生する発生元の遺伝子のカテゴリーを示す。すなわち、青:炭水化物代謝、青味がかった紫:クロマチン/クロモゾーム構造、茶色:エネルギ発生、暗緑色:他の代謝、灰色:DNA修復、緑:脂質、脂肪酸代謝、淡緑色:アミノ酸代謝、オレンジ:細胞ストレス、赤:減数分裂/交配応答、ピンク:分化、及び、紫:細胞周期である。肉太の赤い線は、減数分裂/交配応答グループの遺伝子に由来する細胞周期に関連する転写因子の調節制御を示す。肉太の青い線は、脂質脂肪酸代謝グループの遺伝子に影響を及ぼす炭水化物代謝グループから発生する制御関係を示す。「炭水化物代謝」から発生するいくつかの制御線が示されている。これとは際立って対照的に、細胞周期関連遺伝子発現には、2つの個々の遺伝子であるSKN7及びHMS2のみが独立に影響を及ぼす。
【図5】破壊変異酵母菌株に行った遺伝子発現実験のブール解析から再構成した転写因子の遺伝子調節サブネットワークの詳細図である。黒い線は、調節関係を示しており、矢印は、発現の影響の方向を示している。ノードの色及び形状は、「YPD」での説明による遺伝子生成物の細胞機能の一般的カテゴリーを示す。細胞分裂機構に関連する遺伝子は、三角形のノードで示され、DNA修復及びクロモゾーム構造に関連する遺伝子は、正方形で示されている。解明されたネットワークは、UME6及びMET28を通じた減数分裂、交配応答、及び、DNA構造及び修復機構に関連する遺伝子間の新しい位相的制御関係を示す。減数分裂に関連する遺伝子及び交配応答遺伝子は、INO2によって調節されるカスケードの下流にあり、DNA修復及び構造に関連する遺伝子の更なるサブグループは、MET28の階層的下流に現れる。
【図6】ベイズ推定とBNRC判定基準の最小化とを用いて遺伝子間のネットワーク関係を推定する本発明の方法を示す流れ図である。
【図7a】発現レベルが1分間で100mgのグリセオフルビン露出によって有意に影響される酵母菌遺伝子のリスト(20回の実験のうちの1つ)を含む、薬物応答発現データを解析する従来の方法を示す図である。
【図7b】薬物応答及び遺伝子破壊実験から得た発現データの階層型クラスター化を示す、薬物応答発現データを解析する従来の方法を示す図である。

Claims (58)

  1. (a)遺伝子セット内の各遺伝子の破壊に基づく発現結果を含み、該遺伝子の相互に及ぼす各破壊の平均的効果及び変動性の尺度を定量化する、生物の遺伝子セットに対する定量的な破壊体データライブラリを準備する段階と、
    (b)前記ライブラリから遺伝子発現行列を作成する段階と、
    (c)前記遺伝子間のネットワーク関係を生成する段階と、
    (d)遺伝子の1つ又はそれ以上のグループが、該遺伝子グループの他のものと異なって発現するか否かを判断する段階と、
    を含むことを特徴とする、遺伝子ネットワークを構築する方法。
  2. (e)BNRC判定基準を最小にする段階を備えたベイズ計算モデルを準備する段階、
    を更に含むことを特徴とする請求項1に記載の方法。
  3. 前記BNRC判定基準を最小にする段階は、多項式基底、フーリエ級数、ウェーブレット基底、回帰スプライン基底、及びB−スプラインからなる群から選ばれる非線形曲線当て嵌め方法を用いる段階を含むことを特徴とする請求項2に記載の方法。
  4. 前記データライブラリは、遺伝子発現を変更する薬物を用いて作成されることを特徴とする請求項1に記載の方法。
  5. 前記BNRC判定基準を最小にする段階は、逆当て嵌めアルゴリズムを用いてベイズモードを選択する段階を更に含むことを特徴とする請求項2に記載の方法。
  6. 前記BNRC判定基準を最小にする段階は、アカイケの情報判定基準を用いる段階を更に含むことを特徴とする請求項2に記載の方法。
  7. 前記BNRC判定基準を最小にする段階は、最大尤度推定を用いる段階を更に含むことを特徴とする請求項2に記載の方法。
  8. 前記遺伝子は、細胞周期に関連することを特徴とする請求項1に記載の方法。
  9. 前記変動性の尺度は、分散であることを特徴とする請求項2に記載の方法。
  10. 前記非線形曲線当て嵌め方法は、ノンパラメトリック法であることを特徴とする請求項3に記載の方法。
  11. 前記BNRC判定基準を最小にするためのノンパラメトリック法は、不均一誤差分散を用いる段階を含むことを特徴とする請求項10に記載の方法。
  12. 前記BNRC判定基準を最小にする段階は、
    (1)(i,j)番目の要素が遺伝子i→遺伝子jグラフのBNRCj ヘテロスコアであるスコア行列を作る段階と、
    (2)最小BNRCヘテロをもたらす追加、削除、及び逆転のうちの1つ又はそれ以上を実施する段階と、
    (3)前記BNRCヘテロがそれ以上減少しなくなるまで段階(2)を繰り返す段階と、
    を更に含むことを特徴とする請求項11に記載の方法。
  13. 前記BNRC判定基準を最小にする段階は、BNRC(j) ヘテロを最小にするために山登り法アルゴリズムを適用する段階を更に含むことを特徴とする請求項11に記載の方法。
  14. エッジの強度が、ブートストラップ法を用いて判断されることを特徴とする請求項11に記載の方法。
  15. 前記ブートストラップ法は、
    (1)元の遺伝子ライブラリの発現データから、置換しながら多数回無作為にサンプリングすることにより、ブートストラップ遺伝子発現行列を準備する段階と、
    (2)遺伝子i及び遺伝子jに対する前記遺伝子ネットワークを推定する段階と、
    (3)段階(1)及び段階(2)をT回繰り返し、それによってT個の遺伝子ネットワークを生成する段階と、
    (4)遺伝子i及び遺伝子j間のブートストラップエッジ強度を(t1+t2)/Tとして計算する段階と、
    を含むことを特徴とする請求項14に記載の方法。
  16. (a)生物の複数の遺伝子に対して時間経過遺伝子発現データの生データライブラリを準備する段階と、
    (b)前記生データライブラリからバックグラウンド信号強度を差し引く段階と、
    (c)前記複数の遺伝子の各々に対する遺伝子発現の相対変化を計算する段階と、
    (d)スチューデントのt検定を用いて前記遺伝子発現の相対変化の統計学的有意性を解析する段階と、
    (e)前記遺伝子発現の変化を線形スプライン関数に当て嵌める段階と、
    を含むことを特徴とする、遺伝子ネットワークを解明する方法。
  17. 発現レベルが十分に低いために主としてノイズによって決められるような遺伝子を考慮から外す段階を更に含むことを特徴とする請求項16に記載の方法。
  18. グループ分けする段階が、前記遺伝子を1つ又はそれ以上の同等セットにグループ分けする段階を含むことを特徴とする請求項1に記載の方法。
  19. 遺伝子ネットワーク関係を推定し、該関係のハイパーパラメータを最適化する方法であって、
    (1)ハイパーパラメータpjを固定する段階と、
    (2)γjk=0,k−1,・・・,qjを初期化する段階と、
    (3)固定されたβjkに対して、
    Figure 2005505031
    を計算する段階(3−1)と、βjkの候補値に対して段階(3−1)を繰り返し、BNRCヘテロを最小にするβjkの最適値を選択する段階(3−2)とを繰り返すことにより最適βjkを見つける段階と、
    (4)適切な収束判定基準が満足されるまで、k=1,・・・,qj,1,・・・,qj,1,・・・に対して段階3を繰り返す段階と、
    (5)pjの候補値に対して段階1から段階4を繰り返し、前記BNRCヘテロを最小にするpjの最適値を選択する段階と、
    を含むことを特徴とする方法。
  20. 遺伝子のネットワークを包含するシステムの遺伝子ネットワークモデルを構築する方法であって、
    BNRC判定基準を最小にする段階を備えたベイズ計算モデルを用いる段階、
    を含むことを特徴とする方法。
  21. 前記BNRC判定基準を最小にする段階は、多項式基底、フーリエ級数、ウェーブレット基底、回帰スプライン基底、及びB−スプラインからなる群から選ばれる非線形曲線当て嵌め方法を用いる段階を含むことを特徴とする請求項20に記載の方法。
  22. 前記BNRC判定基準を最小にする段階は、逆当て嵌めアルゴリズムを用いてベイズモードを選択する段階を含むことを特徴とする請求項20に記載の方法。
  23. 前記BNRC判定基準を最小にする段階は、アカイケの情報判定基準を用いる段階を含むことを特徴とする請求項20に記載の方法。
  24. 前記BNRC判定基準を最小にする段階は、最大尤度推定値を用いる段階を含むことを特徴とする請求項20に記載の方法。
  25. 前記BNRC判定基準を最小にする段階は、非線形曲線当て嵌め方法を用いる段階を含み、
    前記非線形曲線当て嵌め方法は、ノンパラメトリック法である、
    ことを特徴とする請求項20に記載の方法。
  26. 前記ノンパラメトリック法は、不均一誤差分散を用いる段階を含むことを特徴とする請求項25に記載の方法。
  27. 前記BNRC判定基準を最小にする段階は、
    (1)(i,j)番目の要素が遺伝子i→遺伝子jグラフのBNRCj ヘテロスコアであるスコア行列を作る段階と、
    (2)最小BNRCヘテロをもたらす追加、削除、及び逆転のうちの1つ又はそれ以上を実施する段階と、
    (3)前記BNRCヘテロがそれ以上減少しなくなるまで段階(2)を繰り返す段階と、
    を更に含むことを特徴とする請求項26に記載の方法。
  28. 前記BNRC判定基準を最小にする段階は、BNRC(j) ヘテロを最小にするために山登り法アルゴリズムを適用する段階を更に含むことを特徴とする請求項26に記載の方法。
  29. エッジの強度が、ブートストラップ法を用いて判断されることを特徴とする請求項26に記載の方法。
  30. 前記ブートストラップ法は、
    (1)元の遺伝子ライブラリの発現データから、置換しながら多数回無作為にサンプリングすることにより、ブートストラップ遺伝子発現行列を準備する段階と、
    (2)遺伝子i及び遺伝子jに対する前記遺伝子ネットワークを推定する段階と、
    (3)段階(1)及び段階(2)をT回繰り返し、それによってT個の遺伝子ネットワークを生成する段階と、
    (4)遺伝子i及び遺伝子j間のブートストラップエッジ強度を(t1+t2)/Tとして計算する段階と、
    を含むことを特徴とする請求項29に記載の方法。
  31. 前記ベイズ計算モデルを用いて前記システムの遺伝子発現プロファイルを解析することを特徴とする請求項20に記載の方法。
  32. 前記遺伝子発現プロファイルは、前記システム内の各遺伝子の遺伝子発現のレベルを含むことを特徴とする請求項31に記載の方法。
  33. 前記システム内の少なくとも1つの遺伝子は、破壊されることを特徴とする請求項32に記載の方法。
  34. 前記遺伝子発現プロファイルは、サブ遺伝子発現プロファイルを含み、
    前記サブ遺伝子発現プロファイルは、前記システム内で少なくとも1つの遺伝子が破壊された時の該システム内の各遺伝子の遺伝子発現のレベルを含む、
    ことを特徴とする請求項32に記載の方法。
  35. 前記遺伝子発現プロファイルは、少なくとも2つの異なるサブ遺伝子発現プロファイルを含むことを特徴とする請求項34に記載の方法。
  36. 前記システムは、薬品で処理されることを特徴とする請求項32に記載の方法。
  37. 遺伝子のネットワークを包含するシステムの遺伝子ネットワークモデルを構築する方法であって、
    ベイズ計算モデル及びブール法を用いる段階、
    を含むことを特徴とする方法。
  38. 前記ベイズ計算モデルは、BNRC判定基準を最小にする段階を含むことを特徴とする請求項37に記載の方法。
  39. 前記ベイズ計算モデル及び前記ブール法を用いて前記システムの遺伝子発現プロファイルを解析することを特徴とする請求項37に記載の方法。
  40. 前記遺伝子発現プロファイルは、前記システム内の各遺伝子の遺伝子発現のレベルを含むことを特徴とする請求項39に記載の方法。
  41. 前記システム内の少なくとも1つの遺伝子は、破壊されることを特徴とする請求項40に記載の方法。
  42. 前記遺伝子発現プロファイルは、サブ遺伝子発現プロファイルを含み、
    前記サブ遺伝子発現プロファイルは、前記システム内で少なくとも1つの遺伝子が破壊された時の該システム内の各遺伝子の遺伝子発現のレベルを含む、
    ことを特徴とする請求項40に記載の方法。
  43. 前記遺伝子発現プロファイルは、少なくとも2つの異なるサブ遺伝子発現プロファイルを含むことを特徴とする請求項42に記載の方法。
  44. 前記システムは、薬品で処理されることを特徴とする請求項40に記載の方法。
  45. 請求項20に記載の方法によって構成された遺伝子ネットワークモデル、
    を含むことを特徴とするデータファイル。
  46. コンピュータ可読形式であることを特徴とする請求項45に記載のデータファイル。
  47. 遠隔位置からアクセス可能であることを特徴とする請求項45に記載のデータファイル。
  48. インターネットウェブの位置からアクセス可能であることを特徴とする請求項45に記載のデータファイル。
  49. 遺伝子ネットワークを包含するシステム内の薬品のターゲット遺伝子を同定する方法であって、
    (a)BNRC判定基準を最小にする段階を備えたベイズ計算モデルを用いて、第1及び第2の遺伝子ネットワークモデルを構築する段階、
    を含み、
    前記第1及び第2の遺伝子ネットワークモデルは、それぞれ、第1及び第2の遺伝子発現プロファイルを解析することにより得られ、
    前記第1の遺伝子発現プロファイルは、前記薬品で処理されていない前記システムから得られ、かつ、前記第2の遺伝子発現プロファイルは、前記薬品で処理された前記システムから得られ、
    (b)前記ベイズ計算モデルを用いて前記第1及び第2の遺伝子ネットワークモデルを解析する段階、
    を更に含み、
    前記薬品は、前記システムにおける遺伝子と見なされ、
    前記薬品のターゲット遺伝子は、同定される、
    ことを特徴とする方法。
  50. 前記ターゲット遺伝子は、前記薬品により直接的に影響された遺伝子であることを特徴とする請求項49に記載の方法。
  51. 前記ターゲット遺伝子は、前記薬品により間接的に影響された遺伝子であることを特徴とする請求項49に記載の方法。
  52. 請求項49に記載の方法によって得られた薬品の1つ又はそれ以上のターゲット遺伝子のアイデンティティを含むことを特徴とするデータファイル。
  53. コンピュータ可読形式であることを特徴とする請求項52に記載のデータファイル。
  54. 遠隔位置からアクセス可能であることを特徴とする請求項52に記載のデータファイル。
  55. インターネットウェブの位置からアクセス可能であることを特徴とする請求項52に記載のデータファイル。
  56. 当事者から薬品を受け取る段階と、
    請求項49に記載の方法によって前記当事者のために前記薬品のターゲット遺伝子を同定する段階と、
    を含むことを特徴とする、サービスを提供する方法。
  57. 薬品を受け取る段階は、該薬品のアイデンティティを受け取る段階を含むことを特徴とする請求項56に記載の方法。
  58. 当事者から薬品を受け取る段階と、
    請求項20に記載の方法によって構成された遺伝子ネットワークモデルを用いて、前記当事者のために前記薬品のターゲット遺伝子を同定する段階と、
    を含むことを特徴とする、サービスを提供する方法。
JP2003530834A 2001-09-26 2002-09-26 多重破壊表現ライブラリから生成される遺伝子調節ネットワークを用いた生物学的発見 Pending JP2005505031A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US32501601P 2001-09-26 2001-09-26
US33423001P 2001-11-29 2001-11-29
US33437201P 2001-11-29 2001-11-29
US33425501P 2001-11-29 2001-11-29
US37082402P 2002-04-08 2002-04-08
US39745802P 2002-07-19 2002-07-19
PCT/US2002/031093 WO2003027262A2 (en) 2001-09-26 2002-09-26 Biological discovery using gene regulatory networks generated from multiple-disruption expression libraries

Publications (2)

Publication Number Publication Date
JP2005505031A true JP2005505031A (ja) 2005-02-17
JP2005505031A5 JP2005505031A5 (ja) 2006-01-05

Family

ID=27559724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003530834A Pending JP2005505031A (ja) 2001-09-26 2002-09-26 多重破壊表現ライブラリから生成される遺伝子調節ネットワークを用いた生物学的発見

Country Status (8)

Country Link
US (1) US7430475B2 (ja)
EP (1) EP1436611A4 (ja)
JP (1) JP2005505031A (ja)
KR (1) KR20040048910A (ja)
CN (1) CN1592852A (ja)
CA (1) CA2461864A1 (ja)
NZ (1) NZ532120A (ja)
WO (1) WO2003027262A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198294A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 生命現象予測装置、生命現象予測方法、および生命現象予測プログラム
JP2013523154A (ja) * 2010-04-06 2013-06-17 マサチューセッツ・インスティトュート・オブ・テクノロジー 転写物測定値数が減少した、遺伝子発現プロファイリング

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040082532A1 (en) * 2002-07-12 2004-04-29 Savoie Christopher J. Antifungal therapeutic targets
US20040088116A1 (en) * 2002-11-04 2004-05-06 Gene Network Sciences, Inc. Methods and systems for creating and using comprehensive and data-driven simulations of biological systems for pharmacological and industrial applications
US20050055166A1 (en) * 2002-11-19 2005-03-10 Satoru Miyano Nonlinear modeling of gene networks from time series gene expression data
US7650272B2 (en) * 2003-10-23 2010-01-19 Hrl Laboratories, Llc Evaluation of Bayesian network models for decision support
AU2004296023A1 (en) 2003-11-26 2005-06-16 Genstruct, Inc. System, method and apparatus for causal implication analysis in biological networks
CA2549010A1 (en) * 2003-12-12 2005-06-30 Gni Ltd. Estimating gene networks using inferential methods and biological constraints
US20050154535A1 (en) * 2004-01-09 2005-07-14 Genstruct, Inc. Method, system and apparatus for assembling and using biological knowledge
DE102004030296B4 (de) * 2004-06-23 2008-03-06 Siemens Ag Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle
US7542854B2 (en) 2004-07-22 2009-06-02 International Business Machines Corporation Method for discovering gene regulatory models and genetic networks using relational fuzzy models
US7848566B2 (en) 2004-10-22 2010-12-07 Carnegie Mellon University Object recognizer and detector for two-dimensional images using bayesian network based classifier
CA2595627A1 (en) * 2004-10-29 2006-05-04 National Institute of Advanced Industrial Science and Tecnology Methods and systems for analyzing a network of biological functions
WO2006135596A2 (en) * 2005-06-06 2006-12-21 The Regents Of The University Of Michigan Prognostic meta signatures and uses thereof
WO2007110707A2 (en) * 2005-10-12 2007-10-04 Gni, Ltd. Methods and systems for modeling gene networks
JP2007249873A (ja) * 2006-03-17 2007-09-27 Toshiba Corp 分析モデル作成方法、分析モデル作成プログラムおよび分析モデル作成装置
US20070239043A1 (en) * 2006-03-30 2007-10-11 Patel Amisha S Method and Apparatus for Arrhythmia Episode Classification
CN101110095B (zh) * 2006-07-20 2010-06-30 中国科学院自动化研究所 一种对常见脑疾病易感基因的批量检测方法
US8285719B1 (en) 2008-08-08 2012-10-09 The Research Foundation Of State University Of New York System and method for probabilistic relational clustering
US20100299289A1 (en) * 2009-05-20 2010-11-25 The George Washington University System and method for obtaining information about biological networks using a logic based approach
US9551703B2 (en) 2009-08-04 2017-01-24 The Johns Hopkins University High precision quantitative assay composition and methods of use therefor
CN101719194B (zh) * 2009-12-03 2011-08-10 上海大学 人工基因调控网络的模拟方法
CN102859528A (zh) 2010-05-19 2013-01-02 加利福尼亚大学董事会 使用生物网络识别药物靶点的系统和方法
JP5838557B2 (ja) * 2010-07-05 2016-01-06 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
US10190986B2 (en) * 2011-06-06 2019-01-29 Abbott Laboratories Spatially resolved ligand-receptor binding assays
US8774909B2 (en) 2011-09-26 2014-07-08 Medtronic, Inc. Episode classifier algorithm
US8437840B2 (en) 2011-09-26 2013-05-07 Medtronic, Inc. Episode classifier algorithm
US11302422B2 (en) * 2014-05-09 2022-04-12 The Trustees Of Columbia University In The City Of New York Methods and systems for identifying a drug mechanism of action using network dysregulation
FR3021776A1 (fr) * 2014-05-28 2015-12-04 Vaiomer Procede d'identification d'une relation entre des elements physiques
US9760835B2 (en) 2014-08-20 2017-09-12 International Business Machines Corporation Reasoning over cyclical directed graphical models
US9613185B2 (en) 2014-08-20 2017-04-04 International Business Machines Corporation Influence filtering in graphical models
US9646264B2 (en) 2015-02-25 2017-05-09 International Business Machines Corporation Relevance-weighted forecasting based on time-series decomposition
US20190318802A1 (en) * 2016-10-13 2019-10-17 University Of Florida Research Foundation, Incorporated Method and apparatus for improved determination of node influence in a network
JP6851460B2 (ja) 2017-03-15 2021-03-31 富士フイルム株式会社 最適解判定方法、最適解判定プログラム、非一時的記録媒体及び最適解判定装置
US11636917B2 (en) * 2017-06-28 2023-04-25 The Regents Of The University Of California Simulating the metabolic pathway dynamics of an organism
CN107622185B (zh) * 2017-10-27 2020-08-21 领航基因科技(杭州)有限公司 一种数字pcr浓度计算方法
CN107656176B (zh) * 2017-11-09 2020-02-07 华北电力大学(保定) 一种基于改进贝叶斯Petri网的电网故障诊断方法
CN109063940B (zh) * 2018-02-05 2024-01-26 重庆邮电大学 基于变结构贝叶斯网络的智能车辆威胁估计系统及方法
WO2020146215A1 (en) * 2019-01-07 2020-07-16 Zymergen Inc. Prioritizing potential nodes for editing or potential edits to a node for strain engineering
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
CN111172092B (zh) * 2020-02-26 2022-05-24 华南理工大学 sll0528基因在提高集胞藻PCC6803氧化胁迫耐受性中的应用
CN112102876B (zh) * 2020-09-27 2023-03-28 西安交通大学 一种对基因线路和转录调控关系自动化建模的方法
CN112802543B (zh) * 2021-01-14 2024-04-30 东北大学 一种基于概率图的基因调控网络分析方法
CN115098836B (zh) * 2022-07-25 2022-11-11 天津医科大学总医院 一种评估多个环境因素对阴道微生态影响的方法及装置
WO2024077533A1 (zh) * 2022-10-12 2024-04-18 深圳华大基因科技服务有限公司 构建动态基因调控网络的方法和系统以及计算机设备
CN115798600A (zh) * 2023-02-03 2023-03-14 北京灵迅医药科技有限公司 基因组数据分析方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010198294A (ja) * 2009-02-25 2010-09-09 Fujitsu Ltd 生命現象予測装置、生命現象予測方法、および生命現象予測プログラム
JP2013523154A (ja) * 2010-04-06 2013-06-17 マサチューセッツ・インスティトュート・オブ・テクノロジー 転写物測定値数が減少した、遺伝子発現プロファイリング

Also Published As

Publication number Publication date
EP1436611A2 (en) 2004-07-14
CN1592852A (zh) 2005-03-09
US7430475B2 (en) 2008-09-30
US20030219764A1 (en) 2003-11-27
CA2461864A1 (en) 2003-04-03
WO2003027262A3 (en) 2003-11-27
KR20040048910A (ko) 2004-06-10
WO2003027262A2 (en) 2003-04-03
NZ532120A (en) 2006-03-31
EP1436611A4 (en) 2007-04-11

Similar Documents

Publication Publication Date Title
JP2005505031A (ja) 多重破壊表現ライブラリから生成される遺伝子調節ネットワークを用いた生物学的発見
Woolf et al. A fuzzy logic approach to analyzing gene expression data
Zomaya et al. Biomolecular networks: methods and applications in systems biology
US7243112B2 (en) Multidimensional biodata integration and relationship inference
Zhu et al. Increasing the power to detect causal associations by combining genotypic and expression data in segregating populations
Hartemink et al. Bayesian methods for elucidating genetic regulatory networks
Mitra et al. Genetic networks and soft computing
Nasir et al. Single and mitochondrial gene inheritance disorder prediction using machine learning
Gutiérrez-Avilés et al. Mining 3D patterns from gene expression temporal data: a new tricluster evaluation measure
Liñares Blanco et al. Differential gene expression analysis of RNA-seq data using machine learning for Cancer research
Zhou et al. A novel Bayesian factor analysis method improves detection of genes and biological processes affected by perturbations in single-cell CRISPR screening
En Chai et al. Current development and review of dynamic Bayesian network-based methods for inferring gene regulatory networks from gene expression data
Wang et al. Anfis-based fuzzy systems for searching dna-protein binding sites
Hibbs Advanced Bioinformatics Tools and Strategies
Madar et al. Learning global models of transcriptional regulatory networks from data
Xu et al. Bioinformatics and fuzzy logic
Dejori et al. Hunting drug targets by systems-level modeling of gene expression profiles
Vora et al. Computational Methods and Deep Learning for Elucidating Protein Interaction Networks
Gulla An integrated systems biology approach to investigate transcriptomic data of thyroid carcinoma
AU2002343465A1 (en) Biological discovery using gene regulatory networks generated from multiple-disruption expression libaries
Tiefei Learning gene network using bayesian network framework
Daud et al. Optimizing the Production of Valuable Metabolites using a Hybrid of Constraint-based Model and Machine Learning Algorithms: A Review
Sachs et al. Learning Signaling Pathway Structures
Jiao et al. Microarray image converted database-genetic algorithm application in bioinformatics
Lotsi et al. State-space modeling of dynamic genetic networks

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050922

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060509

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060509

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081106

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090304