JP2014522531A

JP2014522531A - ネットワークに基づく生物学的活性評価のためのシステムおよび方法

Info

Publication number: JP2014522531A
Application number: JP2014514108A
Authority: JP
Inventors: ユリアヘンク，; フロリアンマルティン，; マヌエルパイチ，; アランセーヴェル，
Original assignee: フィリップモリスプロダクツエスアー; ユリアヘンク，; フロリアンマルティン，; マヌエルパイチ，; アランセーヴェル，
Priority date: 2011-06-10
Filing date: 2012-06-11
Publication date: 2014-09-04
Anticipated expiration: 2032-06-11
Also published as: JP6335260B2; US20170235914A1; CN103765448A; JP2014522530A; CN106940758B; US20140114987A1; JP2017073161A; CN103827896B; CN106934253A; CN103765448B; CN106940758A; WO2012168481A1; CN106934253B; WO2012168483A1; US9558318B2; EP2718880A1; US20140172398A1; EP2608122A1; CN103827896A; JP6336020B2

Abstract

作用物質に応答した生物系の攪乱を定量化するためのシステムおよび方法が提供される。処置データおよびコントロールデータがプロセッサで受け取られ、生物系における生物学的実体の計算因果関係ネットワークモデルのノードについて活性尺度を計算するために使用される。攪乱スコアがこのモデルに対し生成され、それによって、該生物系に対する処置作用物質の効果が特徴づけられる。一態様では、本明細書に記載のシステムおよび方法は、作用物質に応答した生物系の攪乱を定量化するためのコンピュータ化された方法、および１つまたは複数のコンピュータプロセッサを対象とする。

Description

背景
人体は、長期間にわたって重大な健康危険要因となりうる潜在的に有害な作用物質への曝露によって常時攪乱されている。これらの作用物質への曝露で、人体内部の生物学的機構の正常な機能が損なわれる可能性がある。これらの攪乱（ｐｅｒｔｕｒｂａｔｉｏｎ）が人体に及ぼす作用を理解し、定量化するために、研究者らは、生物系が作用物質への曝露に応答する機構を研究している。いくつかのグループがｉｎｖｉｖｏ動物試験法を広範に利用してきた。しかし、動物試験法は、信頼性と目的適合性に関して疑念があるため、常に十分であるわけではない。異なる動物の生理機能には多くの相違が存在する。したがって、種が異なれば、作用物質への曝露に対する応答は異なることがある。それにより、動物試験から得られる応答がヒト生物学に外挿されうるかどうかに関して疑念がある。他の方法として、ヒトの志願者での臨床研究を通じて危険性を評価することが挙げられる。しかし、これらの危険性評価は、経験に基づいて実施され、また、疾患の兆候が現れるまでに何十年もかかることもあるため、これらの評価は、有害物質を疾患にリンクする機構を解明するのには十分でない場合がある。さらに他の方法として、ｉｎｖｉｔｒｏ実験が挙げられる。ｉｎｖｉｔｒｏの細胞および組織ベースの方法は、これに対応する動物ベースの方法に対する完全な、または部分的な代替方法として一般的な容認を受けているが、これらの方法は限られた価値を持つ。ｉｎｖｉｔｒｏ法は、細胞および組織の機構の特定の態様に焦点をあわせるものであるため、生物系全体に生じる複雑な相互作用を常に考慮するわけではない。

この１０年間のうちに、従来の用量依存的な効力および毒性アッセイと併せた核酸、タンパク質、および代謝物レベルのハイスループット測定が、多くの生物学的過程の作用機構を解明するための手段として登場した。研究者らは、これらの異なる測定結果からの情報を文献からの生物学的経路に関する知識と組み合わせて意味のある生物学的モデルを構築することを試みた。この目的のために、研究者らは、可能な生物学的作用機構を識別するためにクラスタリングおよび統計的方法などの大量のデータに対するデータマイニングを実行することができる数学的および計算技術を使用し始めた。

以前の研究では、生物学的過程への１つまたは複数の攪乱の結果生じる遺伝子発現の変化の特徴的シグネチャを明らかにすることの重要性、およびその過程の特定の活性の大きさの尺度として付加的なデータセットにおけるそのシグネチャの存在のその後のスコア化を調査した。この点に関する大半の研究は、疾患の表現型と相関するシグネチャを識別し、スコア化することを伴った。これらの表現型派生シグネチャは、著しい分類能力を備えるが、単一の特定の攪乱とシグネチャとの間の機械的関係または因果関係を欠いている。したがって、これらのシグネチャは、多くの場合未知の機構（１つまたは複数）により、同じ疾患の表現型に至るか、またはその結果生じる複数の異なる未知の攪乱を表しうる。

生物系におけるさまざまな個別の生物学的実体の活性が、異なる生物学的機構の活性化または抑制をどのように可能にするかを理解することには１つの難題が横たわっている。遺伝子などの個々の実体は複数の生物学的過程に関わり得るので（例えば、炎症および細胞増殖）、該遺伝子の活性を測定することは、その活性を誘導する基礎をなす（ｕｎｄｅｒｌｙｉｎｇ）生物学的過程を識別するには不十分である。現在の技法のどれも、生物学的実体の活性に関与する基礎をなす機構をマイクロスケールで識別するために適用されたこともなければ、潜在的に有害な作用物質および実験条件に応答した、これらの実体が役割を果たす様々な生物学的機構の活性化の定量的評価を行うために適用されたこともない。したがって、生物学的機構を考慮して系全体にわたる生物学的データを分析し、その系が作用物質または環境の変化に応答するときの生物系の変化を定量化するためのシステムおよび方法の改善が必要とされている。

要旨
一態様では、本明細書に記載のシステムおよび方法は、作用物質に応答した生物系の攪乱を定量化するためのコンピュータ化された方法、および１つまたは複数のコンピュータプロセッサを対象とする。

上記コンピュータ化された方法は、一態様では、第１のプロセッサで、作用物質に対する生物系の応答に対応する処置データの組を受け取るステップであって、ここで、該生物系が複数の生物学的実体を含む（ｉｎｃｌｕｄｅ）かまたは備え（ｃｏｍｐｒｉｓｅ）、それぞれの生物学的実体が、該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用するステップと、第２のプロセッサで、該作用物質に曝露されない生物系に対応するコントロールデータの組を受け取るステップと、第３のプロセッサで、該生物系を表すと共に、該生物学的実体を表すノード、該生物学的実体間の関係を表すエッジ、および該コントロールデータと該処置データの間の変化の予測方向を該ノードについて表す方向値（ｄｉｒｅｃｔｉｏｎｖａｌｕｅ）を含むかまたは備える、計算因果関係ネットワークモデルを提供するステップと、第４のプロセッサにより、該処置データと該コントロールデータの間の差異を表す活性尺度を該ノードについて計算するステップと、第５のプロセッサにより、少なくとも１つの重み値が少なくとも１つの他の重み値と異なる複数の重み値を該ノードについて計算するステップと、第６のプロセッサにより、該作用物質に対する該生物系の攪乱を表す計算モデルについてのスコアを生成するステップであって、ここで、該スコアは該方向値、該重み値および該活性尺度に基づくステップとを含む。上記生物系は、少なくとも１つの機構仮説によって表すことができる。上記生物系は、複数の計算因果関係ネットワークモデルによって、または複数の機構仮説を備える少なくとも１つの計算因果関係ネットワークモデルによって表すことができる。この方法はさらに、それぞれの上記計算モデルにおける測定可能なノードの数に基づいて上記スコアを正規化するステップを含み得る。

上記重み値により、処置データおよびコントロールデータの上記組の少なくとも１つにおける信頼度を表すことができる。上記重み値は、局所偽非発見率（ｌｏｃａｌｆａｌｓｅｎｏｎ−ｄｉｓｃｏｖｅｒｙｒａｔｅ）を含むかまたは備えてよい。この方法はさらに、第７のプロセッサにより、ノードの活性尺度の近似分布をモデルまたはモデルにおける機構仮説に関して計算するステップと、第８のプロセッサにより、該近似分布に関する活性尺度の予測値を計算するステップと、第９のプロセッサにより、該作用物質に対する生物系のサブセットの攪乱を表す計算モデルごとに、予測値に基づくスコアを生成するステップとを含み得る。上記近似分布は上記活性尺度に基づいてよい。いくつかの実装では、予測値を計算するステップは長方形近似を実施するステップを含み得る。この方法はさらに、第１０のプロセッサにより、上記モデルに関して上記活性尺度と上記方向値の間の一致性および不一致性をそれぞれ表す正の活性化距離および負の活性化距離を該活性尺度に基づいて計算するステップと、第１１のプロセッサにより、上記作用物質に対する上記生物系のサブセットの攪乱を表す計算モデルごとに、正および負の活性化スコアに基づくスコアを生成するステップとを含み得る。上記正の活性化距離、負の活性化距離、または両方は、局所偽非発見率に基づいてよい。上記活性尺度は倍率変化値でよく、ノードごとの倍率変化値は、それぞれの該ノードによって表された上記生物学的実体についての上記処置データと上記コントロールデータとの間の差異の対数を含むかまたは備える。上記生物系のサブセットは、細胞増殖機構、細胞性ストレス機構、細胞炎症機構、およびＤＮＡ修復機構のうちの少なくとも１つを含むかまたは備えてよい。上記作用物質は、タバコを加熱することによって発生したエアロゾル、タバコを燃焼させることによって発生したエアロゾル、タバコの煙、または紙巻きタバコの煙のうちの少なくとも１つを含むかまたは備え得る。上記作用物質は、上記生物系に存在しないし由来もしない分子もしくは実体が含まれる異物を含むかまたは備え得る。上記作用物質は、毒素、治療化合物、刺激物質、弛緩物質、天然物、製造物、および食物を含むかまたは備え得る。各測定可能ノードが第１の確率分布によって定義される複数の倍率変化値と、第２の確率分布によって定義される複数の重み値とを含むかまたは備えるように、処置データの組は、処置データの複数の組を含むかまたは備えてよい。各測定可能ノードが複数の倍率変化値およびその対応する重み値を含むかまたは備えるように、処置データの組は、処置データの複数の組を含むかまたは備えてよい。上記スコアを生成する上記ステップは、上記活性尺度、上記重み値および上記方向値の線形結合または非線形結合と、スケール係数による該結合の正規化とを含み得る。上記結合は算術結合でよく、該スケール係数は、その測定データが受け取られる生物学的実体の数の平方根である。上記スコアは、幾何学的攪乱指標スコア化技法、確率論的攪乱指標スコア化技法、または予測攪乱指標スコア化技法によって生成することができる。この方法はさらに、上記スコアについての信頼区間をパラメトリックまたは非パラメトリック計算ブートストラッピング技法に基づいて決定するステップを含み得る。

別の態様でまた、作用物質に応答した生物系の攪乱を定量化するためのコンピュータシステムが記載される。このシステムは、少なくとも１つのプロセッサを備え、該プロセッサは、作用物質に対する生物系の応答に対応する処置データの組を受け取るように構成または適合され、ここで、該生物系は、複数の生物学的実体を含むかまたは備え、それぞれの生物学的実体は、該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用し、該プロセッサは、該作用物質に曝露されない生物系に対応するコントロールデータの組を受け取るように構成または適合され、該プロセッサは、該生物系を表す計算因果関係ネットワークモデルを提供するように構成または適合され、かつ、該生物学的実体を表すノード、該生物学的実体間の関係を表すエッジ、および該コントロールデータと該処置データの間の変化の予測方向を該ノードについて表す方向値を含むかまたは備え、該プロセッサは、該処置データと該コントロールデータの間の差異を表す活性尺度を該ノードについて計算するように構成または適合され、該プロセッサは、少なくとも１つの重み値が少なくとも１つの他の重み値と異なる複数の重み値を該ノードについて計算するように構成または適合され、かつ該プロセッサは、該作用物質に対する該生物系の攪乱を表す該計算モデルについてのスコアであって、該スコアは該方向値、該重み値および該活性尺度に基づくスコアを生成するように構成または適合される。上記生物系は、少なくとも１つの機構仮説によって表すことができる。上記生物系は、複数の計算因果関係ネットワークモデルによって、または複数の機構仮説を備える少なくとも１つの計算因果関係ネットワークモデルによって表すことができる。このコンピュータシステムはさらに、それぞれの上記計算モデルにおけるスコア化可能な（ｓｃｏｒａｂｌｅ）ノードの数に基づいて上記スコアを正規化するステップを含み得る。上記重み値により、処置データおよびコントロールデータの上記組の少なくとも１つにおける信頼度を表すことができる。上記重み値は、局所偽非発見率を含むかまたは備えてよい。いくつかの実装では、このコンピュータシステムはさらに、ノードの活性尺度の近似分布をモデルまたはモデルにおける機構仮説に関して計算するステップと、第８のプロセッサにより、該近似分布に関する活性尺度の予測値を計算するステップと、上記作用物質に対する上記生物系のサブセットの攪乱を表す計算モデルごとに、予測値に基づくスコアを生成するステップとを含む。上記近似分布は上記活性尺度に基づいてよい。上記コンピュータシステムのいくつかの実装では、コンピュータシステムはさらに、予測値を計算するステップを含み得、長方形近似を実施するステップを含む。このシステムはさらに、上記モデルに関して上記活性尺度と上記方向値の間の一致性および不一致性をそれぞれ表す上記正の活性化距離および負の活性化距離を該活性尺度に基づいて計算するステップと、上記作用物質に対する上記生物系のサブセットの攪乱を表す計算モデルごとに、正および負の活性化スコアに基づくスコアを生成するステップとを含み得る。上記正の活性化距離、負の活性化距離、または両方は、局所偽非発見率に基づいてよい。上記活性尺度は倍率変化値でよく、ノードごとの該倍率変化値は、それぞれの該ノードによって表された上記生物学的実体についての上記処置データと上記コントロールデータとの間の差異の対数を含むかまたは備えてよい。上記生物系のサブセットは、細胞増殖機構、細胞性ストレス機構、細胞炎症機構、およびＤＮＡ修復機構のうちの少なくとも１つを含むかまたは備えてよい。上記作用物質は、タバコを加熱することによって発生したエアロゾル、タバコを燃焼させることによって発生したエアロゾル、タバコの煙、または紙巻きタバコの煙のうちの少なくとも１つを含むかまたは備え得る。上記作用物質は、上記生物系に存在しないし由来もしない分子もしくは実体が含まれる異物を含むかまたは備え得る。上記作用物質は、毒素、治療化合物、刺激物質、弛緩物質、天然物、製造物、および食物を含むかまたは備え得る。各測定可能ノードが第１の確率分布によって定義される複数の倍率変化値と、第２の確率分布によって定義される複数の重み値とを含むかまたは備えるように、処置データの組は、処置データの複数の組を含むかまたは備えてよい。各測定可能ノードが複数の倍率変化値およびその対応する重み値を含むかまたは備えるように、処置データの組は、処置データの複数の組を含むかまたは備えてよい。上記スコアを生成する上記ステップは、上記活性尺度、上記重み値および上記方向値の線形結合または非線形結合と、スケール係数による結合の正規化とを含み得る。上記結合は算術結合でよく、上記スケール係数は、その測定データが受け取られる生物学的実体の数の平方根である。上記スコアは、幾何学的攪乱指標スコア化技法、確率論的攪乱指標スコア化技法、または予測攪乱指標スコア化技法によって生成することができる。このシステムはさらに、上記スコアについての信頼区間をパラメトリックまたは非パラメトリック計算ブートストラッピング技法に基づいて決定するステップを含み得る。

いくつかの態様では、上記コンピュータ化された方法は、第１のプロセッサで、作用物質に対する生物系の応答に対応する処置データの組を受け取るステップであって、該生物系が複数の生物学的実体を含み、それぞれの生物学的実体が、該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用するステップと、第２のプロセッサで、該作用物質に曝露されない生物系に対応するコントロールデータの組を受け取るステップとを含み得る。上記コンピュータ化された方法は、第３のプロセッサで、上記生物系を表す計算因果関係ネットワークモデルを提供するステップを含み得る。この計算モデルは、生物学的実体を表すノード、該生物学的実体間の関係を表すエッジ、および上記コントロールデータと上記処置データの間の変化の予測方向を該ノードについて表す方向値を含むかまたは備えることができる。上記コンピュータ化された方法はさらに、第４のプロセッサにより、上記処置データと上記コントロールデータの間の差異を表す活性尺度を上記ノードについて計算するステップと、第５のプロセッサにより、少なくとも１つの重み値が少なくとも１つの他の重み値と異なる複数の重み値を上記ノードについて計算するステップとを含み得る。上記コンピュータ化された方法はまた、第６のプロセッサにより、上記作用物質に対する上記生物系の攪乱を表す上記計算モデルについてのスコアを生成するステップであって、該スコアは上記方向値、上記重み値および上記活性尺度に基づくステップを含むこともできる。いくつかの実装では、上記コンピュータ化された方法はさらに、それぞれの上記計算モデルにおけるノードの数に基づいて上記スコアを正規化するステップを含む。いくつかの実装では、上記第１から第６のプロセッサのそれぞれが、単一のプロセッサまたは単一の計算デバイスの中に含まれるか、または備えられる。他の実装では、上記第１から第６のプロセッサのうちの１つまたは複数が、複数のプロセッサまたは計算デバイスにまたがって分布している。

いくつかの実装では、上記計算因果関係ネットワークモデルは、潜在的原因を表すノードと測定量を表すノードとの間に存在する因果関係の組を含むかまたは備える。このような実装では、上記活性尺度は倍率変化を含み得る。上記倍率変化は、ノード測定値がコントロールデータと処置データの間で初期値から最終値までどれだけ変化するかを示す数としてよい。上記倍率変化数は、コントロール条件と処置条件の間における上記生物学的実体の活性の倍率変化の対数としてよい。各ノードについての活性尺度は、それぞれの該ノードによって表された上記生物学的実体についての上記処置データと上記コントロールデータとの間の差異の対数を含むかまたは備え得る。このような実装では、上記重み値により、上記ノードの倍率変化値に与えられるべき重みを表すことができる。上記重み値により、目的の特徴または結果に関して、測定された上記ノードの公知の生物学的有意性を表すことができる（例えば、がん研究における公知の発がん物質）。上記重み値により、攪乱データとコントロールデータの組の少なくとも１つにおける信頼度を表すことができる。より具体的には、上記重み値は、局所偽非発見率を含むかまたは備え得る。このような実装では、上記コンピュータ化された方法により上記計算モデルについてのスコアを生成することが、上記活性尺度に上記重み値および上記方向値を掛け、上記ノード全部について合計することによって可能である。いくつかの実装では、上記コンピュータ化された方法は、生成された上記スコアのそれぞれについての信頼区間をプロセッサにより生成するステップを含むかまたは備える。この信頼区間は、生成されたスコアの分布を近似することを含み得る。

別の態様では、本明細書に記載のシステムおよび方法は、作用物質に応答した生物系の攪乱を定量化するためのコンピュータ化された方法を対象とする。このコンピュータ化された方法は、第１のプロセッサで、作用物質に対する生物系の応答に対応する処置データの組を受け取るステップであって、ここで、この生物系が複数の生物学的実体を含むかまたは備え、それぞれの生物学的実体が該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用するステップと、第２のプロセッサで、該作用物質に曝露されない生物系に対応するコントロールデータの組を受け取るステップとを含み得る。上記コンピュータ化された方法は、第３のプロセッサで、上記生物系を表す計算因果関係ネットワークモデルを提供するステップを含み得る。この計算モデルは、上記生物学的実体を表すノード、該生物学的実体間の関係を表すエッジ、および上記コントロールデータと上記処置データの間の変化の予測方向を該ノードについて表す方向値を含むかまたは備えることができる。上記コンピュータ化された方法はさらに、第４のプロセッサにより、上記処置データと上記コントロールデータの間の差異を表す活性尺度を上記ノードについて計算するステップと、第５のプロセッサにより、この活性尺度の近似分布を該ノードにわたって計算するステップとを含み得る。上記コンピュータ化された方法はまた、第６のプロセッサにより、この近似分布の予測値を計算するステップを含むかまたは備え得る。上記コンピュータ化された方法はまた、第７のプロセッサにより、上記作用物質に対する上記生物系のサブセットの攪乱を表す計算モデルごとに、上記予測値に基づくスコアを生成するステップを含み得る。いくつかの実装では、上記第１から第７のプロセッサのそれぞれが、単一のプロセッサまたは単一の計算デバイスの中に含まれるか、または備えられる。他の実装では、上記第１から第７のプロセッサのうちの１つまたは複数が、複数のプロセッサまたは計算デバイスにまたがって分布している。

いくつかの実装では、上記計算因果関係ネットワークモデルは、潜在的原因を表すノードと測定量を表すノードとの間に存在する因果関係の組を含むかまたは備える。このような実装では、上記活性尺度は倍率変化を含むかまたは備え得る。上記倍率変化は、ノード測定値がコントロールデータと処置データの間で初期値から最終値までどれだけ変化するかを示す数としてよい。上記倍率変化数は、コントロール条件と処置条件の間における上記生物学的実体の活性の倍率変化の対数を表し得る。上記コンピュータ化された方法は、プロセッサにより、上記処置条件下の上記生物系で上記倍率変化値が取ることのできる値の組の近似値を表し得る該倍率変化密度についての値域を生成するステップを含むかまたは備え得る。上記プロセッサは、倍率変化値の近似確率分布を含むかまたは備え得る近似倍率変化密度（ａｐｐｒｏｘｉｍａｔｅｆｏｌｄ−ｃｈａｎｇｅｄｅｎｓｉｔｙ）を生成することができる。このような実装では、上記コンピュータ化された方法はさらに、上記近似倍率変化密度の近似予測値を計算するステップを含むかまたは備え得る。上記コンピュータ化された方法により、計算された上記予測値に基づいて上記計算モデルについての上記スコアを生成することができる。

いくつかの実装では、上記近似分布は一般に、上記活性尺度に基づいてよい。加えて、また必要に応じて、上記予測値は長方形近似値を含んでよい。いくつかの実装では、上記コンピュータ化された方法は、プロセッサにより、生成された上記スコアごとに信頼区間を生成するステップを含むかまたは備える。上記信頼区間を生成するステップは、パラメトリックブートストラッピング技法を実施するステップを含み得る。

さらに別の態様では、本明細書に記載のシステムおよび方法は、作用物質に応答した生物系の攪乱を定量化するためのコンピュータ化された方法を対象とする。このコンピュータ化された方法は、第１のプロセッサで、作用物質に対する生物系の応答に対応する処置データの組を受け取るステップであって、ここで、この生物系が複数の生物学的実体を含むかまたは備え、それぞれの生物学的実体が該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用するステップと、第２のプロセッサで、該作用物質に曝露されない生物系に対応するコントロールデータの組を受け取るステップとを含み得る。上記コンピュータ化された方法は、第３のプロセッサで、上記生物系を表す計算因果関係ネットワークモデルを提供するステップを含み得る。この計算モデルは、上記生物学的実体を表すノード、該生物学的実体間の関係を表すエッジ、および上記コントロールデータと上記処置データの間の変化の予測方向を該ノードについて表す方向値を含むかまたは備えることができる。上記コンピュータ化された方法はさらに、第４のプロセッサにより、上記処置データと上記コントロールデータの間の差異を表す活性尺度を上記ノードについて計算するステップと、第５のプロセッサにより、上記活性尺度と上記方向値の間の一致性および不一致性をそれぞれ表す正の活性化スコアおよび負の活性化スコアを該活性尺度に基づいて計算するステップとを含むことができる。上記コンピュータ化された方法はまた、第６のプロセッサにより、上記作用物質に対する上記生物系のサブセットの攪乱を表す計算モデルごとに、上記正および負の活性化スコアに基づくスコアを生成するステップを含み得る。いくつかの実装では、上記第１から第６のプロセッサのそれぞれが、単一のプロセッサまたは単一の計算デバイスの中に含まれるか、または備えられる。他の実装では、上記第１から第６のプロセッサのうちの１つまたは複数が、複数のプロセッサまたは計算デバイスにまたがって分布している。

いくつかの実装では、上記計算因果関係ネットワークモデルは、潜在的原因を表すノードと測定量を表すノードとの間に存在する因果関係の組を含むかまたは備える。このような実装では、上記活性尺度は倍率変化を含むかまたは備え得る。上記倍率変化は、ノード測定値がコントロールデータと処置データの間で初期値から最終値までどれだけ変化するかを示す数としてよい。その倍率変化数は、コントロール条件と処置条件の間における上記生物学的実体の活性の倍率変化の対数を表し得る。上記コンピュータ化された方法は、プロセッサにより、上記処置条件下の上記生物系でその倍率変化値が取ることのできる値の組の近似値を表し得る倍率変化密度の値域を生成するステップを含むかまたは備え得る。上記コンピュータ化された方法は、プロセッサにより、上記倍率変化値および上記方向値に基づく正の活性化スコアを計算するステップを含み得る。上記正および負の活性化スコアは、生物学的実体の観測された活性化／阻害が、変化の予測方向と一致しているか、それとも一致していないかを示すことができる。一例では、上記正の活性化スコアは、上記方向値が上記活性尺度と一致している確率である。上記負の活性化スコアは、上記方向値が上記活性尺度と一致していない確率であり得る。上記コンピュータ化された方法はさらに、上記正の活性化スコアと負の活性化スコアを結合することによって上記計算モデルについてのスコアを生成するステップを含むかまたは備え得る。いくつかの実装では、このスコアは局所偽非発見率に基づく。

いくつかの実装では、上記生物系のサブセットは、細胞増殖機構、細胞性ストレス機構、細胞炎症機構、およびＤＮＡ修復機構のうちの少なくとも１つを含むかまたは備える。上記作用物質は、タバコを加熱することによって発生したエアロゾル、タバコを燃焼させることによって発生したエアロゾル、タバコの煙、または紙巻きタバコの煙のうちの少なくとも１つを含むかまたは備え得る。上記作用物質は、カドミウム、水銀、クロム、ニコチン、タバコ特有のニトロソアミン類およびその代謝物（４−（メチルニトロソアミノ）−１−（３−ピリジル）−１−ブタノン（ＮＮＫ）、Ｎ’−ニトロソノルニコチン（ＮＮＮ）、Ｎ−ニトロソアナタビン（ＮＡＴ）、Ｎ−ニトロソアナバシン（ＮＡＢ）、および４−（メチルニトロソアミノ）−１−（３−ピリジル）−１−ブタノール（ＮＮＡＬ））を含み得る。いくつかの実装では、上記作用物質は、ニコチン置換療法に使用される生成物を含むかまたは備え得る。上記作用物質は、上記生物系に存在しないし由来もしない分子もしくは実体が含まれる異物を含むかまたは備え得る。上記作用物質はまた、毒素、治療化合物、刺激物質、弛緩物質、天然物、製造物、および食物を含むかまたは備え得る。いくつかの実装では、処置データの組は、生物学ネットワークモデルのいくつかのノードに対応する処置データの複数の組を含むかまたは備え、ここで、それぞれのこのようなノードは、第１の確率分布によって定義される複数の倍率変化値と、第２の確率分布によって定義される複数の重み値とに対応する。

さらに別の態様では、本明細書に記載のシステムおよび方法は、作用物質に応答した生物系の攪乱を定量化するためのコンピュータ化された方法、および１つまたは複数のコンピュータプロセッサを対象とする。このコンピュータ化された方法は、第１のプロセッサで、作用物質に対する生物系の応答に対応する処置データの組を受け取るステップであって、ここで、この生物系が複数の生物学的実体を含むかまたは備え、それぞれの生物学的実体が該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用するステップと、第２のプロセッサで、該作用物質に曝露されない生物系に対応するコントロールデータの組を受け取るステップとを含み得る。上記コンピュータ化された方法は、第３のプロセッサで、上記生物系を表す計算因果関係ネットワークモデルを提供するステップを含み得る。この計算モデルは、上記生物学的実体を表すノード、該生物学的実体間の関係を表すエッジ、および上記コントロールデータと上記処置データの間の変化の予測方向を該ノードについて表す方向値を含むかまたは備えることができる。上記コンピュータ化された方法はさらに、第４のプロセッサにより、上記処置データと上記コントロールデータの間の差異を表す活性尺度を上記ノードについて計算するステップを含み得る。上記コンピュータ化された方法はまた、第５のプロセッサにより、上記作用物質に対する上記生物系の攪乱を表す上記計算モデルについてのスコアを生成するステップであって、該スコアは上記方向値および上記活性尺度に基づくステップを含むこともできる。いくつかの実装では、上記コンピュータ化された方法はさらに、それぞれの上記計算モデルにおけるノードの数に基づいて上記スコアを正規化するステップを含む。上記コンピュータ化された方法はまた、第６のプロセッサにより、生成された上記スコアのそれぞれについての信頼区間を生成するステップを含み得る。この信頼区間は、生成された上記スコアの分布を近似することを含むことができ、生成されたスコアの近似分布の分散からｔ統計量を導き出すことができる。いくつかの実装では、第１から第６のプロセッサのそれぞれが、単一のプロセッサまたは単一の計算デバイスの中に含まれるか、または備えられる。他の実装では、第１から第６のプロセッサのうちの１つまたは複数が、複数のプロセッサまたは計算デバイスにまたがって分布している。

本明細書に記載されているコンピュータ化された方法は、それぞれが１つまたは複数のプロセッサを備える１つまたは複数のコンピューティングデバイスを有するコンピュータ化されたシステムで実装されうる。一般的に、本明細書に記載されているコンピュータ化されたシステムは、コンピュータ、マイクロプロセッサ、ロジックデバイス、またはハードウェア、ファームウェア、およびソフトウェアを用いて本明細書に記載されているコンピュータ化された方法のうちの１つまたは複数を実施するように構成された他のデバイスもしくはプロセッサなどの、１つまたは複数の処理デバイスを含むかまたは備え、１つまたは複数のエンジンを具備することができる。いくつかの実装では、上記コンピュータ化されたシステムは、システム応答プロファイルエンジン、ネットワークモデリングエンジン、およびネットワークスコア化エンジンを含むかまたは備える。上記エンジンは、ときどき相互接続することができ、攪乱データベース、測定可能要素データベース、実験データデータベース、および文献データベースを含む、１つまたは複数のデータベースにさらにときどき接続されうる。本明細書に記載されているコンピュータ化されたシステムは、ネットワークインターフェースを通じて通信する１つまたは複数のプロセッサおよびエンジンを有する分散型のコンピュータ化されたシステムを含むかまたは備えうる。このような実装は、複数の通信システム上で分散コンピューティングを実行するのに適し得る。さらなる態様では、本明細書に記載の方法を実施するように適合されたプログラムコードを含むコンピュータプログラム製品が記載される。さらなる態様では、上記コンピュータプログラム製品を含むコンピュータまたはコンピュータ記録可能な媒体もしくはデバイスが記載される。

本開示のさらなる特徴、その特質、およびさまざまな利点は、図面全体を通して類似の参照文字が類似の部品を指す付属の図面とともに、以下の詳細な記載を考察した後、明らかになる。

図１は、攪乱に対する生物学的ネットワークの応答を定量化するための例示的なコンピュータ化システムのブロック図である。図２は、ネットワーク攪乱振幅（ＮＰＡ）スコアを計算することによって攪乱に対する生物学的ネットワークの応答を定量化するための例示的なプロセスの流れ図である。図３は、２つの作用物質、２つのパラメータ、Ｎ個の生物学的実体についてのデータを含むシステム応答プロファイルの基礎となるデータのグラフ表示である。図４は、いくつかの生物学的実体およびこれらの関係を有する生物学的ネットワークの計算モデルの図である。図５は、幾何学的攪乱指標（ＧＰＩ）スコアを生成するための例示的なプロセスの流れ図である。図６は、確率論的攪乱指標（ＰＰＩ）スコアを生成するための例示的なプロセスの流れ図である。図７は、予測攪乱指標（ＥＰＩ）スコアを生成するための例示的なプロセスの流れ図である。図８は、幾何学的攪乱指標（ＧＰＩ）スコアについての信頼区間を生成するための例示的なプロセスの流れ図である。図９は、本明細書に開示されたシステムおよび方法を用いて分析された生物学的ネットワークモデルの図である。図１０〜１４は、ネットワークをベースとする生物学的機構についてのネットワーク攪乱振幅（ＮＰＡ）スコア化結果を示す図である。図１０〜１４は、ネットワークをベースとする生物学的機構についてのネットワーク攪乱振幅（ＮＰＡ）スコア化結果を示す図である。図１０〜１４は、ネットワークをベースとする生物学的機構についてのネットワーク攪乱振幅（ＮＰＡ）スコア化結果を示す図である。図１０〜１４は、ネットワークをベースとする生物学的機構についてのネットワーク攪乱振幅（ＮＰＡ）スコア化結果を示す図である。図１０〜１４は、ネットワークをベースとする生物学的機構についてのネットワーク攪乱振幅（ＮＰＡ）スコア化結果を示す図である。図１５は、生物学的攪乱の影響を定量化するための例示的な分散型コンピュータ化システムのブロック図である。図１６は、本明細書に記載のいずれかのコンピュータ化システムのあらゆる構成要素（ｃｏｍｐｏｎｅｎｔ）を実施するのに使用できる例示的な計算デバイスのブロック図である。

詳細な説明
「含む（ｉｎｃｌｕｄｉｎｇ）」「備える（ｃｏｍｐｒｉｓｉｎｇ）」という語は、他の要素またはステップを除外せず、不定冠詞の「１つの（ａ）」または「１つの（ａｎ）」は複数を除外しない。本明細書では、生物系が作用物質によって攪乱されるときの生物系内の変化の大きさを定量的に評価する計算システムおよび方法を記載する。いくつかの実装は、生物系の一部分内の変化の大きさを表現する数値を計算するための方法を含むか、または備える。この計算には入力として、作用物質によって上記生物系が攪乱される制御された実験の組から得られたデータの組が使用される。次に上記データは、上記生物系の特徴のネットワークモデルに適用される。このネットワークモデルは、シミュレーションおよび分析のための基盤として使用され、上記生物系において目的の特徴を可能なものにする生物学的な機構および経路を表す。この特徴、またはその機構および経路の一部は、疾患の病状および上記生物系の有害な健康への作用の一因となり得る。データベースで表される上記生物系についての従来の知識を用いて上記ネットワークモデルが構築され、このネットワークモデルには、正常状態下および作用物質による攪乱下を含む様々な状態のもとでの、多数の生物学的実体の状態についてのデータが格納される。使用される上記ネットワークモデルは、攪乱に応答した様々な生物学的実体の状態の変化を表すという点で動的であり、上記生物系に対する作用物質の影響についての定量的で客観的な評価を生み出すことができる。これらの計算方法を実行するためのコンピュータシステムもまた提供される。

本発明のコンピュータ化された方法によって生成される数値を使用して、（安全性評価または比較に関して）製造物、（効果の判定または健康上の利益に関して）栄養補助剤を含む治療化合物、および（長期間曝露の危険ならびに有害作用および疾患の発症との関係の予測に関して）環境的活性物質によって引き起こされる望ましい、または有害な生物学的作用の大きさを判定することができる。

一態様では、本明細書に記載のシステムおよび方法により、攪乱された生物系の変化の大きさを表す計算された数値が、攪乱された生物学的機構のネットワークモデルに基づいて得られる。本明細書でネットワーク攪乱振幅（ＮＰＡ）スコアと呼ばれる数値を使用して、規定された生物学的機構における様々な実体の状態変化を簡潔に表すことができる。様々な作用物質または様々な種類の攪乱について得られる数値は、それ自体生物系の特徴として機能できるまたは生物系の特徴として顕在化する生物学的機構に対する様々な作用物質または攪乱の影響を相対的に比較するのに使用することができる。すなわち、ＮＰＡスコアは、様々な攪乱に対する生物学的機構の応答を測定するのに使用することができる。「スコア」という用語は、本明細書では一般に、生物系の変化の大きさの定量的尺度を与える値または値の組を指す。このようなスコアは、当技術分野で公知の様々な数学的アルゴリズムおよび計算アルゴリズムのいずれかを使用することによって、また、サンプルまたは被験体から得られる１つまたは複数のデータセットを使用する本明細書で開示された方法により、計算される。上記ＮＰＡスコアは、診断、実験の設計、治療決定およびリスク評価を改善する上で、研究者および臨床医の助けになり得る。例えば、上記ＮＰＡスコアを用いて、毒物学分析の際に候補の生物学的機構の組を選別し、それによって、潜在的に有害な作用物質への曝露で最も影響を受ける可能性のあるものを識別することができる。攪乱に対するネットワーク応答の尺度を提供することによって、これらのＮＰＡスコアは、分子事象（実験データによって測定される）と、細胞、組織、器官または生物のレベルで生じる表現型または生物学的結果との相関を取ることができる。臨床医はＮＰＡ値を用いて、作用物質によって影響を受ける生物学的機構を患者の生理学的状態と比較し、それによって、その作用物質に曝露されたときにどのような健康上のリスクまたは利益をその患者が最も受ける可能性があるかを判定することができる（例えば、免疫無防備状態である患者は、強い免疫抑制応答を引き起こす作用物質に対して特に脆弱である可能性がある）。

図１は、攪乱に対するネットワークモデルの応答を定量化するためのコンピュータ化システム１００のブロック図である。詳細には、システム１００は、システム応答プロファイルエンジン１１０、ネットワークモデリングエンジン１１２、およびネットワークスコア化エンジン１１４を含むか、または備える。上記エンジン１１０、１１２および１１４は時々相互接続され、さらに、攪乱データベース１０２、測定可能物データベース１０４、実験データデータベース１０６および文献データベース１０８を含む１つまたは複数のデータベースと時々接続される。本明細書でエンジンは、コンピュータ、マイクロプロセッサ、論理デバイスなどの１つまたは複数の処理デバイス、または図１４に関して記載される１つまたは複数の他のデバイスを含むか、または備え、この処理デバイスは、１つまたは複数の計算作業を実行するためのハードウェア、ファームウェアおよびソフトウェアで構成される。

図２は、一実装による、ネットワーク攪乱振幅（ＮＰＡ）スコアを計算することによって攪乱に対する生物学的ネットワークの応答を定量化するためのプロセス２００の流れ図である。上記プロセス２００のステップは、図１のシステム１００のさまざまなコンポーネントによって実行されるように記述されるが、これらのステップはいずれも、ローカルもしくはリモートの好適なハードウェアコンポーネントまたはソフトウェアコンポーネントによって実行することができ、また適切な順序に配置され得るか、または並列実行されうる。ステップ２１０で、システム応答プロファイル（ＳＲＰ）エンジン１１０は、さまざまな異なるソースから生物学的データを受け取り、データそれ自体は、さまざまな異なる型のものであってよい。このデータは、生物学的システムが攪乱される実験からのデータ、ならびにコントロールデータを含む。ステップ２１２で、上記ＳＲＰエンジン１１０はシステム応答プロファイル（ＳＲＰ）を生成し、このプロファイルは、ある生物系内の１つまたは複数の実体が、その生物系に作用物質が与えられることに応答して変化する程度を表す。ステップ２１４で、ネットワークモデリングエンジン１１２は、複数のネットワークモデルを含む１つまたは複数のデータベースを提供し、これらネットワークモデルのうちの１つが上記作用物質と、または目的の特徴と関連があるものとして選択される。この選択は、上記系の生物学的機能の基礎をなす機構についての従来の知識に基づいて行うことができる。いくつかの実装では、上記ネットワークモデリングエンジン１１２は、上記システム応答プロファイル、上記データベースにおけるネットワーク、および以前に文献に記載されているネットワークを使用して上記系内の実体間の因果関係を抽出し、それによってネットワークモデルを生成、洗練または拡張することができる。ステップ２１６で、上記ネットワークスコア化エンジン１１４は、ステップ２１４で上記ネットワークモデリングエンジン１１２によって識別されたネットワークと、ステップ２１２で上記ＳＲＰエンジン１１０によって生成したＳＲＰとを使用して、攪乱ごとのＮＰＡスコアを生成する。ＮＰＡスコアにより、攪乱または処置に対する生物学的応答（ＳＲＰによって表される）が、上記生物学的実体間の基礎をなす関係（上記ネットワークによって表される）に即して定量化される。以下の記載は、限定するためではなく開示を明確にするために小区分に分割されている。

Ａ．生物系
本発明との関連での生物系は、機能的部分を含む、生物または生物の一部であり、該生物は本明細書では被験体と称される。上記被験体は、一般的に、ヒトを含む、哺乳類である。上記被験体は、ヒト集団における個別のヒトとすることができる。本明細書で使用されているような「哺乳類」という用語は、限定はしないが、ヒト、ヒト以外の霊長類、マウス、ラット、イヌ、ネコ、ウシ、ヒツジ、ウマ、およびブタを含むかまたは備える。ヒト以外の哺乳類は、有利には、ヒトの疾患のモデルを提供するために使用されうる被験体として使用されうる。ヒト以外の被験体は、非改変であるか、トランスジェニック動物であるか、遺伝子組み換え動物であるか、または１つもしくは複数の遺伝子変異またはサイレンシングされた遺伝子（１つまたは複数）を持つ動物）とすることができる。被験体は、オスまたはメスとすることができる。上記操作の目的に応じて、被験体は、目的の作用物質に曝露させた被験体とすることができる。被験体は、必要に応じて研究までの時間を含む、長期間にわたって作用物質に曝露させた被験体とすることができる。被験体は、一定の期間にわたって作用物質に曝露させたか、または該作用物質ともはや接触していない被験体とすることができる。被験体は、疾患を有しているものとして診断または識別された被験体とすることができる。被験体は、疾患または有害な健康状態の処置をすでに受けたか、または今受けている最中である被験体とすることができる。被験体は、特定の健康状態または疾患に対する１つまたは複数の症状もしくは危険因子を示す被験体とすることもできる。被験体は、疾患にかかりやすいが無症候性である被験体とすることができ、症状を示すか、または無症候性であるかのいずれかであってよい。いくつかの実装では、目的の疾患または健康状態は、作用物質への曝露、または長期間にわたる作用物質の使用に関連する。いくつかの実装によれば、上記システム１００（図１）は、攪乱の種類または目的とする転帰に関連する１つまたは複数の生物系およびその機能の機構（まとめて、「生物学的ネットワーク」または「ネットワークモデル」）のコンピュータ化されたモデルを含むか、またはそれを生成する。

上記操作の環境（ｃｏｎｔｅｘｔ）に応じて、生物系は、それが、集団における個別の生物、一般的に生物、器官、組織、細胞型、細胞小器官、細胞成分、または特定の個人の細胞（１つまたは複数）の機能に関係するとおりに異なるレベルで定義されうる。それぞれの生物系は、１つまたは複数の生物学的機構または経路を備え、上記操作はその系の機能的特徴として現れる。ヒト健康状態の定義された特徴を再現し、目的の作用物質への曝露について適している動物系は、好ましい生物系である。疾患の原因または病理に関わる細胞型および組織を反映する細胞および器官型系も、好ましい生物系である。ｉｎｖｉｖｏでヒト生物学をできる限り反復する初代細胞または器官培養物を優先することも可能である。また、ｉｎｖｉｔｒｏのヒト細胞培養物と動物モデルからｉｎｖｉｖｏで導出される最も等価の培養物とをマッチさせることも重要である。これは、基準系としてｉｎｖｉｔｒｏでマッチした系を使用してｉｎｖｉｖｏの動物モデルからヒト生物学への翻訳連続体（ｔｒａｎｓｌａｔｉｏｎａｌｃｏｎｔｉｎｕｕｍ）の創製を可能にする。したがって、本明細書に記載されているシステムおよび方法とともに使用することが企図されている生物系は、限定はしないが、機能的特徴（生物学的機能、生理学的機能、または細胞機能）、小器官、細胞型、組織種類、器官、発達段階、または上記の組み合わせによって定義されうる。生物系の例は、限定はしないが、肺系、外皮系、骨格系、筋肉系、神経系（中枢神経および末梢神経）、内分泌系、心血管系、免疫系、循環系、呼吸器系、泌尿器系、腎臓系、胃腸系、結腸直腸系、肝臓系、および生殖器系を含むか、それらを備える。生物系の他の例は、限定はしないが、上皮細胞、神経細胞、血液細胞、結合組織細胞、平滑筋細胞、骨格筋細胞、脂肪細胞、卵細胞、精子細胞、幹細胞、肺細胞、脳細胞、心臓細胞、喉頭細胞、咽頭細胞、食道細胞、胃細胞、腎細胞、肝細胞、乳腺細胞、前立腺細胞、膵臓細胞、島細胞、精巣細胞、膀胱細胞、頸部細胞、子宮細胞、結腸細胞、および直腸細胞のさまざまな細胞機能を含むか、それらを備える。これらの細胞のうちのいくつかは、ｉｎｖｉｔｒｏで培養されるか、または適切な培養条件の下で無期限にｉｎｖｉｔｒｏで維持される細胞系の細胞であるものとしてよい。細胞機能の例は、限定はしないが、細胞増殖（例えば、細胞分裂）、変性、再生、老化、核による細胞活性の制御、細胞間シグナル伝達、細胞分化、細胞脱分化、分泌、遊走、食作用、修復、アポトーシス、および発生プログラミングを含むか、それらを備える。生物系として考えることができる細胞成分の例は、限定はしないが、細胞質、細胞骨格、膜、リボソーム、ミトコンドリア、核、小胞体（ＥＲ）、ゴルジ体、リソソーム、ＤＮＡ、ＲＮＡ、タンパク質、ペプチド、および抗体を含むか、それらを備える。

Ｂ．攪乱
生物系における攪乱は、該生物系の１つまたは複数の部分を曝露させるか、または接触させることを通じて一定期間にわたって１つまたは複数の作用物質によって引き起こされうる。作用物質は、すべての構成成分が識別や特徴付けがなされるとは限らない混合物を含む、単一の物質または物質の混合物とすることができる。作用物質またはその構成成分の化学的および物理的特性は完全に特徴付けられない場合もある。作用物質は、その構造、その構成成分、またはある条件の下で該作用物質を生成する供給源によって定義されうる。作用物質の一例は、上記生物系中に存在も由来もしない分子もしくは実体であり、該生物系と接触した後にその作用物質から生成される任意の中間体または代謝産物である異物である。作用物質は、炭水化物、タンパク質、脂質、核酸、アルカロイド、ビタミン、金属、重金属、ミネラル、酸素、イオン、酵素、ホルモン、神経伝達物質、無機化合物、有機化合物、環境作用物質、微生物、粒子、環境条件、環境的影響力、または物理的力であってよい。作用物質の非限定的な例は、限定はしないが、栄養素、代謝廃棄物、毒物、麻薬、毒素、治療化合物、刺激物質、弛緩物質、天然物、製造物、食物、病原体（プリオン、ウイルス、細菌、真菌、原生生物）、寸法がマイクロメートル範囲またはそれ未満の粒子もしくは実体、上記のものの副産物、および上記のものの混合物を含むか備える。物理的作用物質の非限定的な例は、放射線、電磁波（太陽光を含む）、温度の上昇もしくは低下、剪断力、流体圧力、放電（１つまたは複数）またはそのシーケンス、あるいは外傷を含むか備える。

いくつかの作用物質は、閾値濃度で存在していない限り、または一定期間生物系と接触していない限り、またはその両方の組み合わせが生じていない限り生物系を攪乱しえない。攪乱を結果として引き起こす作用物質への曝露または接触は、用量に関して定量化されうる。したがって、攪乱は、作用物質への長期的曝露の結果生じうる。曝露の期間は、時間の単位で、曝露の頻度で、または上記被験体の実際のもしくは推定される寿命における時間のパーセンテージで表すことができる。攪乱は、生物系の１つまたは複数の部分に、作用物質の供給源から作用物質（上に記載されているような）を供給しないようにするか、または作用物質の供給を制限することによって引き起こされることもある。例えば、攪乱は、栄養素、水、炭水化物類、タンパク質、脂質、アルカロイド、ビタミン、ミネラル、酸素、イオン、酵素、ホルモン、神経伝達物質、抗体、サイトカイン、光の供給不足もしくは欠如によって、または生物のいくつかの部分の移動を制約することによって、または運動を抑圧もしくは要求することによって引き起こされうる。

作用物質は、上記生物系のどの部分（１つまたは複数）が曝露されるか、および曝露条件によって異なる攪乱を引き起こしうる。作用物質の非限定的な例は、タバコを加熱することによって発生したエアロゾル、タバコを燃焼させることによって発生したエアロゾル、タバコの煙、または紙巻きタバコの煙、およびこれらのガス状構成成分または粒子状構成成分のいずれかを含むかまたは備えうる。作用物質のさらなる非限定的な例は、カドミウム、水銀、クロム、ニコチン、タバコ特有のニトロソアミン類およびその代謝物（４−（メチルニトロソアミノ）−１−（３−ピリジル）−１−ブタノン（ＮＮＫ）、Ｎ’−ニトロソノルニコチン（ＮＮＮ）、Ｎ−ニトロソアナタビン（ＮＡＴ）、Ｎ−ニトロソアナバシン（ＮＡＢ）、４−（メチルニトロソアミノ）−１−（３−ピリジル）−１−ブタノール（ＮＮＡＬ））、およびニコチン置換療法のために使用される生成物を含むかまたは備えうる。作用物質または複合刺激物についての曝露処方計画は、毎日の設定における曝露の範囲および環境を反映すべきである。一群の標準的な曝露処方計画は、同様に定義の明確な（ｅｑｕａｌｌｙｗｅｌｌ−ｄｅｆｉｎｅｄ）実験系に体系的に適用されるように設計されうる。それぞれのアッセイは、初期と後期の事象の両方を捕らえ、代表的な用量範囲が確実にカバーされるように時間および用量依存のデータを収集するように設計することが可能である。しかし、当業者であれば、本明細書に記載されているシステムおよび方法が取り扱われる適用に適しているように適合され改変されうること、また本明細書において設計されているシステムおよび方法が他の好適な適用において使用されうること、またそのような他の追加および改変が本発明の範囲から逸脱しないことを理解する。

さまざまな実装において、遺伝子の発現、タンパク質の発現もしくはタンパク質の代謝回転、マイクロＲＮＡの発現もしくはマイクロＲＮＡの代謝回転、翻訳後修飾、タンパク質修飾、転座、抗体産生代謝産物プロファイル、または上記のうちの２つ以上のものの組み合わせに対する系全体にわたるハイスループット測定が、各対照を含むさまざまな条件の下で生成される。これらは、一般的に、上記評価のためのアンカーとして働き、疾患の原因における明確なステップを表すことができるので、機能転帰測定は、本明細書に記載されている方法において望ましい。

本明細書で使用されているような「サンプル」は、被験体または実験系（例えば、細胞、組織、器官、または動物全体）から分離される任意の生体サンプルを指す。サンプルは、限定はしないが、単細胞もしくは多細胞、細胞画分、組織生検、切除組織、組織抽出物、組織、組織培養抽出物、組織培養基、吐き出されたガス、全血、血小板、血清、血漿、赤血球、白血球、リンパ球、好中球、マクロファージ、Ｂ細胞もしくはそのサブセット、Ｔ細胞もしくはそのサブセット、造血細胞のサブセット、内皮細胞、滑液、リンパ液、腹水、間質液、骨髄、脳脊髄液、胸水、腫瘍浸潤物、唾液、粘液、痰、精液、汗、尿、または任意の他の体液を含むかまたは備えることができる。サンプルは、限定はしないが、静脈穿刺、排泄、生検、針吸引、洗浄、擦過、外科的切除、または当技術分野で公知の他の手段を含む手段によって被験体から得ることができる。

操作中に、所与の生物学的機構、転帰、攪乱、または上記の組み合わせについて、上記システム１００は、処置条件に応答してネットワークにおける生物学的実体のステータスの変化の定量的尺度である、ネットワーク振幅（ＮＰＡ）値を生成することができる。

上記システム１００（図１）は、目的の健康状態、疾患、または生物学的転帰に関連する１つまたは複数のコンピュータ化されたネットワークモデル（１つまたは複数）を備える。これらのネットワークモデルのうちの１つまたは複数は、以前の生物学的知識に基づいており、外部ソースからアップロードされ、該システム１００内で精選されうる。上記モデルは、測定結果に基づき上記システム１００内で新たに生成することもできる。測定可能な要素は、以前の知識を用いることで生物学的ネットワークモデルへと因果的に組み込まれる。以下では、ネットワークモデルを生成もしくは精密化するために使用されうる目的の生物系における変化を表す、または攪乱への応答を表すデータの型について記載する。

図２を再び参照すると、ステップ２１０で、上記システム応答プロファイル（ＳＲＰ）エンジン１１０は、生物学的データを受け取る。上記ＳＲＰエンジン１１０は、さまざまな異なるソースからこのデータを受け取ることができ、該データそれ自体は、さまざまな異なる型のものであり得る。上記ＳＲＰエンジン１１０によって使用される生物学的データは、文献、データベース（医薬品または医療デバイスの前臨床試験、臨床試験、および臨床後試験からのデータを含む）、ゲノムデータベース（ゲノム配列および発現データ、例えば、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎによるＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓまたはＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅによるＡｒｒａｙＥｘｐｒｅｓｓ（Ｐａｒｋｉｎｓｏｎら、２０１０年、Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．、ｄｏｉ：１０．１０９３／ｎａｒ／ｇｋｑｌ０４０．ＰｕｂｍｅｄＩＤ２１０７１４０５））、市販のデータベース（例えば、Ｇａｉｔｈｅｒｓｂｕｒｇ、ＭＤ、ＵＳＡのＧｅｎｅＬｏｇｉｃ）、または実験研究から取り出すことができる。上記データは、特定の処置条件の効果、または特定の作用物質への曝露の効果を研究するように特に設計されている１つまたは複数の種を用いてｉｎｖｉｔｒｏ実験、ｅｘｖｉｖｏ実験、またはｉｎｖｉｖｏ実験などの１つまたは複数の異なるソースからの生データを含むかまたは備えるものとしてよい。ｉｎｖｉｔｒｏ実験系は、ヒトの疾患の重要側面を表す組織培養または器官型培養（三次元培養）を含むかまたは備えうる。このような実装では、これらの実験のための作用物質の用量決定および曝露の処方計画は、通常の使用もしくは活性状態の間、または特別な使用もしくは活性状態の間、ヒトについて予想されうる曝露の範囲および環境を実質的に反映することができる。実験パラメータおよび試験条件は、上記作用物質および上記曝露条件の性質、問題の生物系の分子および経路、関与する細胞型および組織、目的の転帰、および疾患の原因の側面を反映することが望まれているとおりに選択されうる。特定の動物モデル由来分子、細胞、または組織は、特定のヒト分子、細胞または組織培養物とマッチさせて、動物ベースの所見の翻訳性（ｔｒａｎｓｌａｔａｂｉｌｉｔｙ）を改善することができる。

ハイスループットの実験技術によって多くが生成されるＳＲＰエンジン１１０によって受け取られるデータは、限定はしないが、核酸に関係するもの（例えば、特定ＤＮＡもしくはＲＮＡ種の絶対的または相対的な量、ＤＮＡ配列、ＲＮＡ配列の変化、三次構造の変化、または、配列決定によって決定されるようなメチル化パターン、特にマイクロアレイ上の核酸に対するハイブリダイゼーション、定量的ポリメラーゼ連鎖反応、あるいは当技術分野で公知の他の技術）、タンパク質／ペプチド（例えば、絶対的または相対的な量のタンパク質、タンパク質の特定の断片、ペプチド、二次または三次構造の変化、または当技術分野で公知の方法によって決定されるような翻訳後修飾）、および機能的活性（例えば、酵素活性、タンパク質分解活性、転写調節活性、輸送活性、いくつかの結合パートナーへの結合親和力）を、いくつかの条件の下で、とりわけ含むかまたは備える。タンパク質またはペプチドの翻訳後修飾を含む修飾は、限定はしないが、メチル化、アセチル化、ファルネシル化、ビオチン化、ステアロイル化、ホルミル化、ミリストイル化、パルミトイル化、ゲラニルゲラニル化、ペグ化、リン酸化、硫酸化、グリコシル化、糖修飾、脂質化、脂質修飾、ユビキチン化、スモイル化、ジスルフィド結合、システイニル化、酸化、グルタチオン化、カルボキシル化、グルクロン酸化、および脱アミドを含むかまたは備えることができる。それに加えて、タンパク質は、アマドリ反応、シッフ塩基反応、および糖化タンパク質生成物を生じるメイラード反応などの一連の反応によって翻訳後修飾されうる。

上記データは、限定はしないが、細胞レベルでは細胞増殖、発生的運命、および細胞死を含むもの、生理学的レベルでは、肺気量、血圧、運動熟達度などの、測定された機能的転帰も含むかまたは備えうる。上記データは、限定はしないが、腫瘍転移、腫瘍寛解、機能消失、および疾患の特定の段階における平均余命などの、疾患活性または疾患重症の尺度も含むかまたは備えうる。疾患活性は、臨床的評価によって測定することができ、その結果は、値であるか、または定められた条件の下での１体または複数体の被験体からサンプル（またはサンプルの集団）の評価から得ることができる値の組である。臨床的評価は、被験体による面接またはアンケートに対する回答に基づくものとすることもできる。

このデータは、システム応答プロファイルを決定する際に使用するため明示的に生成されている場合があるか、または以前の実験でもたらされたか、または文献に公開されている場合もある。一般的に、上記データは、分子、生物学的構造、生理学的状態、遺伝形質、または表現型に関係する情報を含むかまたは備える。いくつかの実装では、上記データは、分子の状態、配置、量、活性、または下部構造、生物学的構造、生理学的状態、遺伝形質、または表現型の記述を含むかまたは備える。後に記載するように、臨床現場では、上記データは、作用物質に曝露された、ヒト被験体から得られたサンプルに対して実施されたアッセイまたはヒト被験体に関する観察結果から得られる生データまたは処理済みデータを含むかまたは備えうる。

ステップ２１２で、上記システム応答プロファイル（ＳＲＰ）エンジン１１０は、ステップ２１２で受け取った生物学的データに基づいてシステム応答プロファイル（ＳＲＰ）を生成する。このステップは、バックグラウンド補正、正規化、倍率変化計算、有意性判定、および差次的応答（例えば、差次的に発現した遺伝子）の識別のうちの１つまたは複数を含むか、あるいは備えてよい。ＳＲＰは、生物系における１つまたは複数の測定された実体（例えば、分子、核酸、ペプチド、タンパク質、細胞など）が生物系に適用される攪乱（例えば、作用物質への曝露）に応答して個別に変化する程度を表す表現である。一例において、ＳＲＰを生成するために、上記ＳＲＰエンジン１１０は、所与の実験系（「システム処置」ペア）に適用されるパラメータの所与の組（例えば、処置もしくは攪乱条件）に対する測定結果の組を収集する。図３は、２つのＳＲＰ、つまり、可変パラメータ（例えば、第１の処置作用物質への曝露の用量および時間）を用いて第１の処置３０６を受けるＮ個の異なる生物学的実体についての生物活性データを含むかまたは備えるＳＲＰ３０２、および第２の処置３０８を受けるＮ個の異なる生物学的実体についての生物活性データを含むかまたは備える類似のＳＲＰ３０４を示している。ＳＲＰに含まれるかまたは備えられるデータは、生実験データ、処理済み実験データ（例えば、域外値を除外するためにフィルタリングされている、信頼度推定でマークされている、多数の試行にわたって平均がとられている）、計算生物学的モデルによって生成されたデータ、または科学文献から取ったデータであってよい。ＳＲＰは、絶対値、絶対変化、倍率変化、対数変化、関数、および表などの、さまざまな方法でデータを表すことができる。上記ＳＲＰエンジン１１０は、ＳＲＰをネットワークモデリングエンジン１１２に渡す。

前のステップで導出されたＳＲＰは、上記実験データからネットワーク攪乱の大きさが決定される、その実験データを表しているが、計算および解析のための基盤であるのは生物学的ネットワークモデルである。この解析は、上記生物系の特徴に関連する機構および経路の詳細なネットワークモデルの開発を必要とする。このようなフレームワークは、より古典的な遺伝子発現の解析で使用されている遺伝子リストの調査を超える機構的理解の層（ａｌａｙｅｒｏｆｍｅｃｈａｎｉｓｔｉｃｕｎｄｅｒａｔａｎｄｉｎｇ）を提供する。生物系のネットワークモデルは、動的生物系を表し、該生物系のさまざまな基本的特性に関する定量的情報をアセンブルすることによって構築される数学的構築体である。

このようなネットワークの構築は、反復プロセスである。上記ネットワークの境界の描写は、目的のプロセス（例えば、肺における細胞増殖）に関連する機構および経路の文献調査によって導かれる。これらの経路を記述する因果関係は、以前の知識から抽出されてネットワークの核をなす。文献ベースのネットワークは、関連する表現型エンドポイントを含むハイスループットデータセットを用いて検証されうる。ＳＲＰエンジン１１０を使用して上記データセットを解析することができ、この結果を使用してネットワークモデルを確認し、精密化し、または生成することができる。

Ｃ．ネットワーク
図２を再び参照すると、ステップ２１４で、上記ネットワークモデリングエンジン１１２は、目的の生物系の特徴の基礎をなす機構（１つまたは複数）または経路（１つまたは複数）に基づくネットワークモデルと共に上記ＳＲＰエンジン１１０からの上記システム応答プロファイルを使用する。ある態様では、上記ネットワークモデリングエンジン１１２は、ＳＲＰに基づいてすでに生成されているネットワークを識別するために使用される。上記ネットワークモデリングエンジン１１２は、モデルへの更新および変更を受け取るためのコンポーネントを含むかまたは備えることができる。上記ネットワークモデリングエンジン１１２はまた、新規データを組み込み、追加の、または精密化されたネットワークモデルを生成することによってネットワーク生成のプロセスを反復することができる。また上記ネットワークモデリングエンジン１１２は、１つもしくは複数のデータセットのマージまたは１つもしくは複数のネットワークのマージを円滑にすることもできる。データベースから取り出されたネットワークの組は、追加のノード、エッジ、または全く新しいネットワークによって（例えば、特定の生物学的実体によって直接調節される追加の遺伝子の記述について文献のテキストをマイニングすることによって）手動で補うことができる。これらのネットワークは、プロセススコア化を使用可能にすることができる特徴を含む。ネットワークトポロジーが維持され、因果関係のネットワークは、ネットワークにおける任意の地点から測定可能な実体まで追跡されうる。さらに、これらのモデルは動的であり、それらのモデルを組み立てる（ｂｕｉｌｄ）ために使用される仮定は、改変または言い換えることができ、異なる組織の環境および種に適合性を与えることができる。これは、新しい知識が利用可能になると反復試験および改善を可能にする。上記ネットワークモデリングエンジン１１２は、信頼度の低い、または科学文献に記載されている実験結果と食い違う対象となるノードまたはエッジを除去することができる。上記ネットワークモデリングエンジン１１２は、監督された学習または監督のない学習の方法（例えば、計量学習、行列補完、パターン認識）を用いて推論できる追加のノードまたはエッジを備えることもできる。

いくつかの態様において、生物系は、頂点（またはノード）と該ノード同士を接続するエッジからなる数学的なグラフとしてモデル化される。例えば、図４は、９個のノード（ノード４０２および４０４を含む）とエッジ（４０６および４０８）とを備える単純ネットワーク４００を示している。これらのノードは、それだけには限らないが、化合物、ＤＮＡ、ＲＮＡ、遺伝子、タンパク質、ペプチド、抗体、細胞、組織、器官、および細胞過程または分子過程などの、生物系内の生物学的実体または生物学的過程を表すことができる。この生物学的実体は、処置データまたはコントロールデータが受け取られるか、または入手可能である生物学的実体に必ずしも限定されない。すなわち、上記生物学的実体を表すノードは該複数の生物学的実体を含むか、または備えることができ、かつ１つまたは複数のさらなる生物学的実体を含むか、または備えてもよい。上記ノードの少なくとも一部はスコア化可能であり、上記スコアは該ノード（１つまたは複数）の活性レベルを表すことができる。上記ノードの多くが、上記活性レベルが測定可能である生物学的実体を表す。しかし、いくつかの実装（ｉｍｐｌａｎｔａｔｉｏｎ）では、上記コンピュータ化された方法において、すべてのこのような測定可能ノードについてのデータを必ずしも受け取る必要がない。すなわち、上記ノードはスコア化可能および／または測定可能である。いくつかの実装では、ノードのほとんどが測定可能である。測定可能ノードは、測定されたデータを含有するか、または備えてよい。上記エッジは、上記ノード間の関係を表しうる。上記グラフ内のエッジは、上記ノード間の関係を表しうる。例えば、エッジは、「に結合する」関係、「で表される」関係、「発現プロファイリングに基づいて共調節される」関係、「阻害する」関係、「原稿中に共出現する」関係、または「構造要素を共有する」関係を表しうる。一般的に、これらの種類の関係は、一対のノードの間の関係を記述する。上記グラフにおけるノードは、ノード間の関係も表しうる。したがって、上記グラフで表される、関係の間の関係（ｒｅｌａｔｉｏｎｓｈｉｐｓｂｅｔｗｅｅｎｒｅｌａｔｉｏｎｓｈｉｐｓ）、または１つの関係と別の種類の生物学的実体との間の関係を表すことが可能である。例えば、化学物質を表す２つのノードの間の関係は、反応を表すものとすることができる。この反応は、反応と反応を阻害する化学物質との間の関係のノードとすることができる。

グラフは、無向グラフであってもよく、それぞれのエッジに関連付けられている２つの頂点を区別しないことを意味する。代替的に、グラフのエッジは、一方の頂点から別の頂点へ有向であってもよい。例えば、生物学的な環境において、転写調節ネットワークおよび代謝ネットワークは、有向グラフとしてモデル化されうる。転写調節ネットワークのグラフモデルでは、ノードは遺伝子を表し、エッジはそれらの遺伝子の間の転写関係を示す。別の例として、タンパク質間相互作用ネットワークは、生物のプロテオームにおけるタンパク質間の直接的な物理的相互作用を記述し、そのようなネットワークにおける相互作用に関連付けられている方向はないことが多い。そのため、これらのネットワークは、無向グラフとしてモデル化することができる。いくつかのネットワークは、有向と無向の両方のエッジを有することができる。グラフを構成する実体および関係（つまり、上記ノードおよびエッジ）は、システム１００内のデータベースにおける相互に関連付けられているノードのウェブとして記憶されうる。

上記データベース内で表される知識は、さまざまな異なるソースから引き出される、さまざまな異なる種類の知識であってよい。例えば、特定のデータは、遺伝子に関する情報、および遺伝子間の関係を含む、ゲノムデータベースを表しうる。このような一例では、ノードは、がん遺伝子を表し、そのがん遺伝子ノードに接続されている別のノードは、該がん遺伝子を阻害する遺伝子を表すことができる。上記データは、タンパク質、およびタンパク質間の関係、疾患およびそれらの相互関係、ならびにさまざまな疾患状態を表すことができる。図形表現で組み合わせることができる多くの異なる型のデータが存在する。計算モデルは、例えば、ＤＮＡデータセット、ＲＮＡデータセット、タンパク質データセット、抗体データセット、細胞データセット、組織データセット、器官データセット、医療データセット、疫学データセット、化学データセット、毒物学データセット、患者データセット、および集団データセットにおける知識を表すノード間の関係のウェブを表すものとしてよい。本明細書で使用される場合、データセットは、定められた条件の下でサンプル（またはサンプルの群）の評価の結果得られる数値の集合である。データセットは、例えば、サンプルの定量化可能な実体を実験的に測定することによって、または代替的に、または研究所、臨床研究組織などのサービスプロバイダーから、または公開もしくは専用データベースから得ることができる。データセットは、データ、およびノードによって表される生物学的実体を含むことができ、該データセットのそれぞれにおけるノードは、同じデータセットにおける、または他のデータセットにおける他のノードと関係していてもよい。さらに、上記ネットワークモデリングエンジン１１２は、例えば、ＤＮＡ、ＲＮＡ、タンパク質、または抗体のデータセットにおける遺伝情報から、医療データセットにおける医療情報、患者データセットにおける、また集団全体では、疫学データセットにおける個別の患者に関する情報までを表す計算モデルを生成することができる。上に記載されているさまざまなデータセットに加えて、他の多くのデータセット、または計算モデルを生成するときに含めるかまたは備えさせることができる生物学的情報の種類がありうる。例えば、データベースはさらに、医療記録データ、構造／活性関係データ、伝染病理に関する情報、臨床試験に関する情報、曝露パターンデータ、生成物の使用履歴に関係するデータ、および他の任意の種類の生命科学関係の情報を含むかまたは備えることも可能である。

上記ネットワークモデリングエンジン１１２は、例えば、遺伝子間の調節相互作用、タンパク質間の相互作用、または細胞もしくは組織における複雑な生化学的相互作用を表す１つまたは複数のネットワークモデルを生成することができる。上記ネットワークモデリングエンジン１１２によって生成されたネットワークは、静的モデルおよび動的モデルを含むかまたは備えることができる。上記ネットワークモデリングエンジン１１２は、任意の適用可能な数学的スキームを使用して、ハイパーグラフおよび重みづけ二部構成グラフ（ｗｅｉｇｈｔｅｄｂｉｐａｒｔｉｔｅｇｒａｐｈ）などの、システムを表すことができ、そこでは、ノードの２つの種類が反応および化合物を表すために使用される。上記ネットワークモデリングエンジン１１２は、発現量に差のある遺伝子内の機能関係遺伝子の過剰表現に基づく解析、ベイジアンネットワーク解析、グラフィカルガウスモデル技術、または遺伝子関連性ネットワーク技術などの他の推論技術を用いてネットワークモデルを生成して、実験データの組（例えば、遺伝子発現、代謝産物濃度、細胞応答など）に基づき関連する生物学的ネットワークを識別することもできる。上記生物系は、計算因果関係ネットワークモデルを含む複数のネットワークモデルによって表すことができる。

上に記載されているように、上記ネットワークモデルは、生物系の機能的特徴の基礎をなす機構および経路に基づく。上記ネットワークモデリングエンジン１１２は、作用物質の長期的な健康上のリスクまたは健康上の利益の研究に関連する生物系の特徴に関する結果を表すモデルを生成するか、または含むことができる。したがって、上記ネットワークモデリングエンジン１１２は、細胞機能、特に、限定はしないが、細胞増殖、細胞性ストレス、細胞再生、アポトーシス、ＤＮＡ損傷／修復、または炎症応答を含む、生物系内の目的の特徴に関係するか、または寄与する機能の、さまざまな機構についてのネットワークモデルを生成するか、または含むことができる。他の実施形態では、上記ネットワークモデリングエンジン１１２は、急性全身毒性、発がん性、皮膚透過、心血管疾患、肺疾患、生態毒性、目の洗浄／腐食、遺伝毒性、免疫毒性、神経毒性、薬物動態、薬物代謝、器官毒性、生殖および発達毒性、皮膚刺激／腐食、または皮膚感作性に関連する、計算モデルを含むか、または生成することができる。一般的に、上記ネットワークモデリングエンジン１１２は、核酸（ＤＮＡ、ＲＮＡ、ＳＮＰ、ｓｉＲＮＡ、ｍｉＲＮＡ、ＲＮＡｉ）、タンパク質、ペプチド、抗体、細胞、組織、器官、および任意の他の生物学的実体のステータス、ならびにそれらの各相互作用についての計算モデルを含むか、または生成することができる。一例において、計算ネットワークモデルは、免疫応答または炎症反応の間の免疫系のステータスおよびさまざまな種類の白血球の機能を表すために使用されうる。他の例において、計算ネットワークモデルは、心血管系の性能ならびに内皮細胞の機能および代謝を表すために使用するとこも可能である。

本発明のいくつかの実装では、上記ネットワークは、生物学的因果関係知識のデータベースから引き出される。このデータベースは、異なる生物学的機構の実験研究を実施して、そのいくつかが因果関係であってもよい機構間の関係（例えば、活性化または阻害関係）を抽出することによって生成され、Ｃａｍｂｒｉｄｇｅ、Ｍａｓｓａｃｈｕｓｅｔｔｓ、ＵＳＡのＳｅｌｖｅｎｔａＩｎｃ．によって精選された、ＧｅｎｓｔｒｕｃｔＴｅｃｈｎｏｌｏｇｙＰｌａｔｆｏｒｍまたはＳｅｌｖｅｎｔａＫｎｏｗｌｅｄｇｅｂａｓｅなどの、市販のデータベースと組み合わせることができる。生物学的因果関係知識のデータベースを使用することで、上記ネットワークモデリングエンジン１１２は、攪乱１０２および測定可能要素１０４（ｍｅａｓｕｒａｂｌｅ１０４）をリンクするネットワークを識別することができる。いくつかの実装では、上記ネットワークモデリングエンジン１１２は、ＳＲＰエンジン１１０からのシステム応答プロファイルと文献においてすでに生成されているネットワークとを使用して生物学的実体の間の因果関係を抽出する。他の処理ステップのうちで、上記データベースをさらに処理して、論理的矛盾を取り除き、生物学的実体の異なる組の間に相同的推論を適用することによって新しい生物学に関する知識を生み出すことができる。

いくつかの実装では、上記データベースから抽出されたネットワークモデルは、逆因果的推論（ＲＣＲ）に基づくが、これは因果関係のネットワークを処理して機構仮説を立て、次いで、示差測定結果のデータセットに対してそれらの機構仮説を評価する自動化推論技術である。それぞれの機構仮説は、生物学的実体を、その実体が影響を及ぼしうる測定可能な量にリンクさせる。複数の機構仮説など、少なくとも１つの機構仮説を組み立てることができる。例えば、測定可能な量として、とりわけ、生物学的実体の濃度、個数、または相対存在量の増減、生物学的実体の活性化もしくは阻害、または生物学的実体の構造、機能、または論理の変化が挙げられ得る。ＲＣＲでは、計算のための基盤として生物学的実体の間の実験的に観察される因果的相互作用の有向ネットワークを使用する。上記有向ネットワークは、生物学的実体の間の相互関係を記録するための構文である、ＢｉｏｌｏｇｉｃａｌＥｘｐｒｅｓｓｉｏｎＬａｎｇｕａｇｅ（商標）（ＢＥＬ（商標））で表すことができる。上記ＲＣＲの計算では、限定はしないが、経路長（上流ノードと下流ノードとを接続するエッジの最大数）などのネットワークモデル生成、および上流ノードを下流ノードに接続する可能な因果的経路に対するいくつかの制約条件を指定する。ＲＣＲの出力は、関連性および精度を評価する統計量によって順位化された、実験測定結果の差異の上流制御機構（ｕｐｓｔｒｅａｍｃｏｎｔｒｏｌｌｅｒ）を表す機構仮説の組である。上記機構仮説出力をアセンブルして、因果連鎖およびより大きなネットワークを形成し、相互接続されている機構および経路のより高いレベルで上記データセットを解釈することができる。

機構仮説の一種は、潜在的原因を表すノード（上流ノードまたは制御機構）と測定された量を表すノード（下流ノード）との間に存在する因果関係の組を含む。この機構仮説は、上流ノードによって表されている実体の存在量が増えた場合に、因果増大関係によってリンクされる下流ノードが増大すると推論され、因果減少関係によってリンクされる下流ノードが減少すると推論されるなどの、予測を行うために使用することができる。

機構仮説は、例えば遺伝子発現データである測定データの組と、それらの遺伝子の公知のコントローラである生物学的実体との間の関係を表す。加えて、これらの関係は、上流の実体と下流の遺伝子の差次的発現との間の影響の符号（正または負）を含むか、または備える。ある仮説の下流の遺伝子は、文献精選した因果的生物学知識のデータベースから引き出される。計算可能な因果関係ネットワークモデルの形態で上記上流の実体を下流の遺伝子に結合する機構仮説の因果関係は、上記ＮＰＡスコア化法によってネットワーク変化を計算するための基盤になる。上記生物系は、複数の機構仮説など、少なくとも１つの機構仮説によって表すことができる。少なくとも１つの上記計算因果関係ネットワークモデルは、複数の機構仮説を備えてよい。

上記モデルにおける実体を表す個々の機構仮説を集め、すべての上記下流の遺伝子の接続部を、複合因果関係ネットワークモデル全体を表す単一の上流の過程に再編成することによって、生物学的実体のスコア化可能複合因果関係ネットワークモデルを単一因果関係ネットワークモデルに変換することが可能であり、この変換は本質的に、基礎となるグラフ構造の平坦化である。このようにして、上記ネットワークモデルによって示された上記生物学的実体の活性変化は、その個々の機構仮説の組合せによって、基礎となる遺伝子発現測定が全体として上記ネットワークに寄与するように評価することができる。

本発明の方法で使用するためのスコア化可能ネットワークを生成するために、参照ノードが最初に、開始（通常は複合）因果関係ネットワークモデルから選択される。上記参照ノードは、上記ネットワークにおける、そのレベルまたは活性が全体として該ネットワークの活性と正の関係がある任意の実体とすることができる（対照的には、例えば、その活性が上記ネットワーク活性と負の関係があるインヒビター）。次に、上記モデルにおける各ノードと上記参照ノードの間の因果関係が決定される。この決定は、上記モデルが「因果的に一貫している」ことを最初に要求することによって行うことができる。上記モデルにおけるノードごとに下流測定可能実体（この例では遺伝子発現）の調節の符号は、そのモデルノードと上記参照ノードの間の関係に基づいて調整される。例えば、上記参照ノードに対して正の因果関係があるモデルノード（すなわち、このノードは、該参照ノードが増加するときに正に調節されると予測される）の下流の遺伝子発現の符号は維持される。一方で、上記参照ノードに対して負の因果関係があるモデルノード（すなわち、このノードは、該参照ノードが増加するときに負に調節されると予測される）の下流の遺伝子発現の符号は反転される。次に、上記下流の遺伝子発現およびその符号すべてが単一の機構仮説に組み合わされ、（複数のモデルノードからの）相反する符号をもつ下流の遺伝子発現が機構仮説から除外される。

因果的に一貫しているべきネットワークモデルでは、上記モデルにおけるどのノードの増加に対しても、該モデルにおける１つおきのノードに「正の調節」または「負の調節」の符号を明白にマッピングすることが、該ノードを接続する因果関係を追跡することによって可能でなければならない。どのプロセスが上記機構仮説によってスコア化されているか、またどの符号で各ノードが効果的に上記参照ノードと関連づけられるかを考慮することによって、生物学的解釈を用いてあいまいさを解消し、それによって因果的に一貫しているモデルを構築することができる。例えば、負のフィードバックが元のモデルとつながるノードは、スコア化されているプロセスと特別な関係があり、該負のフィードバックによりこのノードを調節できるが、この関係は変わらないはずである。したがって、負のフィードバックループとこのノードの間の接続を上記モデルから取り除いて、公知の事実と適合するようにして因果一貫性を得ることができる。上記の手法の変形は、米国特許出願公開第２００７／０２２５９５６号および第２００９／００９９７８４号で論じられており、これらの特許文献は、参照によりその全体が本明細書に組み込まれる。例示的な因果関係ネットワークモデルは、Ｗｅｓｔｒａ７Ｗ、ＳｃｈｌａｇｅＷＫ、ＦｒｕｓｈｏｕｒＢＰ、ＧｅｂｅｌＳ．ＣａｔｌｅｔｔＮＬ、ＨａｎＷ、ＥｄｄｙＳＦ、ＨｅｎｇｓｔｅｒｍａｎｎＡ、ＭａｔｔｈｅｗｓＡＬ、ＭａｔｈｉｓＣら、ＣｏｎｓｔｒｕｃｔｉｏｎｏｆａＣｏｍｐｕｔａｂｌｅＣｅｌｌＰｒｏｌｉｆｅｒａｔｉｏｎＮｅｔｗｏｒｋＦｏｃｕｓｅｄｏｎＮｏｎ−ＤｉｓｅａｓｅｄＬｕｎｇＣｅｌｌｓ、ＢＭＣＳｙｓｔＢｉｏｌ、２０１１年、５巻：１０５頁に記載されており、同文献は、参照によりその全体が本明細書に組み込まれる。

いくつかの実装では、上記システム１００は、上記細胞が紙巻きタバコの煙に曝露されているときの細胞増殖の機構についてのコンピュータ化されたモデルを含むか、または生成することができる。このような一例では、上記システム１００は、限定はしないが、がん、肺疾患、および心血管疾患を含む、紙巻きタバコの煙の曝露に関連するさまざまな健康状態を表す１つまたは複数のネットワークモデルを含むか、または生成することもできる。いくつかの態様において、これらのネットワークモデルは、適用される攪乱（例えば、作用物質への曝露）、さまざまな条件の下での応答、目的の測定可能な量、調査されている転帰（例えば、細胞増殖、細胞性ストレス、炎症、ＤＮＡ修復）、実験データ、臨床データ、疫学データ、および文献のうちの少なくとも１つに基づく。

図示されている一例として、上記ネットワークモデリングエンジン１１２は、細胞性ストレスのネットワークモデルを生成するように構成されうる。上記ネットワークモデリングエンジン１１２は、文献データベースから公知のストレス応答に関わる関連する機構を記述するネットワークを受け取ることができる。上記ネットワークモデリングエンジン１１２は、肺および心血管の環境でのストレスに応答して動作することが公知の生物学的機構に基づいて１つまたは複数のネットワークを選択することができる。いくつかの実装では、上記ネットワークモデリングエンジン１１２は、生物系内の１つまたは複数の機能単位を識別し、より小さなネットワークをそれらの機能性に基づいて組み合わせることによってより大きなネットワークモデルを組み立てる。特に、細胞性ストレスモデルについては、上記ネットワークモデリングエンジン１１２は、酸化的ストレス、遺伝毒性ストレス、低酸素ストレス、浸透ストレス、生体異物ストレス、および剪断応力への応答に関係する機能単位を考慮することができる。したがって、細胞性ストレスモデルに対するネットワーク成分（ｎｅｔｗｏｒｋｃｏｍｐｏｎｅｎｔ）は、生体異物代謝応答、遺伝毒性ストレス、内皮剪断応力、低酸素応答、浸透ストレス、および酸化的ストレスを含むかまたは備えうる。上記ネットワークモデリングエンジン１１２は、特定の細胞群において実施されたストレス関連実験からの公に入手可能なトランスクリプトームデータの計算解析からの内容を受け取ることもできる。

生物学的機構のネットワークモデルを生成するときに、ネットワークモデリングエンジン１１２は、１つまたは複数のルールを含むかまたは備えることができる。このようなルールは、ネットワーク内容、ノードの種類などを選択するためのルールを含んでよい。上記ネットワークモデリングエンジン１１２は、ｉｎｖｉｔｒｏおよびｉｎｖｉｖｏの実験結果の組み合わせを含む、実験データのデータベース１０６から１つまたは複数のデータセットを選択することができる。上記ネットワークモデリングエンジン１１２は、実験データを利用して、文献において識別されているノードおよびエッジを検証することができる。細胞性ストレスのモデリングの例において、上記ネットワークモデリングエンジン１１２は、疾患のない肺または心血管組織において実験が生理学的に関連するストレスをどれほどうまく表しているかに基づき実験についてのデータセットを選択することができる。データセットの選択は、例えば、表現型ストレスのエンドポイントデータの利用可能性、遺伝子発現プロファイリング実験の統計的厳密さ、および通常の疾患のない肺または心血管の生物学との実験の環境との関連性に基づくものとすることができる。

関連するネットワークの集合を識別した後、上記ネットワークモデリングエンジン１１２はさらに、これらのネットワークを処理し、精密化することができる。例えば、いくつかの実装では、複数の生物学的実体およびそれらの接続は、グループ化され、新しい１つまたは複数のノードによって表されうる（例えば、クラスタリングまたは他の技術を使用して）。

上記ネットワークモデリングエンジン１１２はさらに、識別された上記ネットワークにおけるノードおよびエッジに関する記述的情報を含むか、または備えてよい。ノードは、その関連づけられた生物学的実体、関連づけられた該生物学的実体が測定可能な量であるかないかを表示するもの、または他の任意の該生物学的実体の記述子によって記述することができる。上記ノードの一部はスコア化可能であり、このスコアは、該ノード（１つまたは複数）の活性レベルを表すことができる。上記ノードの多くは、その活性レベルを測定することが可能な生物学的実体を表す。しかし、いくつかの実装では、上記コンピュータ化された方法が、すべてのこのような測定可能ノードについてのデータを受け取ることを必ずしも必要としない。すなわち、上記ノードはスコア化可能および／または測定可能である。いくつかの実装では、上記ノードのほとんどが測定可能である。測定可能ノードは、測定されたデータを含有するか、または備えてよい。エッジは、例えば、エッジが表す関係の種類（例えば、アップレギュレーションまたはダウンレギュレーション、相関、条件付き依存性、または非依存性などの因果関係）、その関係の強さ、またはその関係における統計的信頼度によって記述されうる。いくつかの実装では、それぞれの処置について、測定可能な実体を表すそれぞれのノードは、上記処置に応答する活性の変化の予測される方向（つまり、増加または減少）に関連付けられている。例えば、気管支上皮細胞が、腫瘍壊死因子（ＴＮＦ）などの作用物質に曝露される場合、特定の遺伝子の活性が増大しうる。この増大は、文献から公知である（またネットワークモデリングエンジン１１２によって識別されたネットワークのうちの１つで表される）直接的調節関係があるため、またはネットワークモデリングエンジン１１２によって識別されたネットワークのうちの１つまたは複数のエッジを通じて多数の調節関係（例えば、自己分泌シグナリング）を追跡することによって生じうる。いくつかの場合において、上記ネットワークモデリングエンジン１１２は、上記測定可能な実体のそれぞれについて、特定の攪乱に応答して、変化の予測される方向を識別することができる。上記ネットワークにおける異なる経路が特定の実体についての変化の相反する予測される方向を示す場合、それら２つの経路は、変化の正味の方向を決定するためにさらに詳しく調査されうるか、またはその特定の実体の測定結果が破棄されうる。いくつかの実施形態では、上記ノードに関する方向値により、上記コントロールデータと上記処置データの間の値の予測変化（ｅｘｐｅｃｔｅｄｃｈａｎｇｅｉｎｖａｌｕｅ）を表すことができる。いくつかの実施形態では、上記ノードに関する方向値により、コントロールデータと処置データの間の予測される値の変化を表すことができる。いくつかの実施形態では、ノードに関する方向値により、上記コントロールデータおよび上記処置データの値の予測される増加または減少を表すことができる。この変化は適切に、処置後の変化を表す。

Ｄ．ネットワーク攪乱振幅
本明細書に提示された計算方法およびシステムにより、ＳＲＰをＮＰＡスコアに変換する。ネットワークモデルにおける攪乱の下流の作用として識別される各実験測定値は、ネットワーク固有の応答スコアに統合される。したがって、ステップ２１６で、ネットワークスコア化エンジン１１４は、ステップ２１４でネットワークモデリングエンジン１１２によって識別されたネットワークと、ステップ２１２でＳＲＰエンジン１１０によって生成されたＳＲＰとを使用して、攪乱ごとのＮＰＡスコアを生成する。ＮＰＡスコア化により、定義された１つまたは複数のアルゴリズムが一連の処置とコントロールの比較からなる実験データセットに適用され、この実験データは、定義された生物学的ネットワークモデルに即して生物学の識別の範囲（例えば、遺伝子発現関係の識別の組）を表すようにフィルタリングされる。ＮＰＡスコアにより、処置に対する生物学的応答（ＳＲＰによって表される）が、生物学的実体間の基礎をなす関係（識別されたネットワークによって表される）に即して定量化される。ネットワークスコア化エンジン１１４は、ネットワークモデリングエンジン１１２内に収容された、またはネットワークモデリングエンジン１１２によって識別されたネットワークごとにＮＰＡスコアを生成するためのハードウェアおよびソフトウェアの構成要素を含むか、または備える。

ネットワークスコア化エンジン１１４は、いくつかのスコア化技法のどれでも実施するように構成することができる。このような技法には、スカラ値のスコアを生成するものが含まれる。このような技法にはまた、ベクトル値のスコアを生成するものも含まれる。ベクトル値のスコアは、攪乱に対するネットワークの応答の大きさおよび位相分布を表す。

記載されるスコア化技法の１つは、強度スコア化技法である。強度スコアはスカラ値のスコアであり、活性の平均値である。強度スコアは、ＳＲＰで表される様々な実体の活性観測結果の平均値である。ネットワーク応答の強度は次式により計算される。

ここでｄ_ｉは、ノードｉと関連づけられた実体の活性変化の予測方向を表し、β_ｉは、処置とコントロール条件の間の活性の倍率変化のログ（すなわち、量が初期値から最終値まで動いてどれだけ変化するかを表現する数）を表し、Ｎは、測定された生物学的実体と関連づけられたノードの数である。正の強度スコアは、ＳＲＰが、識別されたネットワークから導かれた予測活性変化に一致することを示し、負の強度スコアは、ＳＲＰが、予測活性変化に一致しないことを示す。

上記スコアは、幾何学的攪乱指標スコア化技法、確率論的攪乱指標スコア化技法、または予測攪乱指標スコア化技法によって生成することができる。スコア化技法の１つは、幾何学的攪乱指標（ＧＰＩ）スコア化技法である。図５は、ネットワークスコア化エンジン１１４によって実施できるＧＰＩスコア化技法の流れ図５００である。ステップ５０２で、ネットワークスコア化エンジンにより倍率変化ベクトルβをアセンブルする。倍率変化は、攪乱条件とコントロール条件の間などの様々な条件下で、測定可能要素（ｍｅａｓｕｒａｂｌｅ）が初期値から最終値まで動いてどれだけ変化するかを表現する数である。この倍率変化ベクトルは、測定される生物学的実体と関連づけられたネットワーク内のノードの数に対応するＮ個の成分を有する。いくつかの実装では、倍率変化ベクトルのｉ番目の成分β_ｉは、攪乱条件とコントロール条件の間のｉ番目に測定された生物学的実体の活性の倍率変化の対数（例えば、底２）を表す（すなわち、２つの条件の間で実体の活性を変化させる要素のログ）。そのため、β_ｉのゼロの値は、攪乱条件とコントロール条件の間に活性の変化が観測されなかったことを示す。対数演算は含まれる必要がなく、あるいは他の任意の線形関数または非線形関数に置き換えてもよい。例えば、いくつかの実装では、β_ｉは、対数演算を用いずに攪乱条件間の活性の倍率変化を表し、このような実装では、β_ｉの１の値は、攪乱条件とコントロール条件の間に活性の変化が観測されなかったことを示す。倍率変化は、本明細書に記載のネットワークスコア化技法と共に使用するための、活性を定量化する単なる１つの実行可能な手法であり、測定可能要素の変化を表現する他の任意の従来技法が用いられてもよいことを理解されたい。いくつかの実施形態では、上記スコアを生成する上記ステップは、上記活性尺度、上記重み値および上記方向値の線形または非線形の結合、ならびにこの結合をスケール係数によって正規化することを含んでよい。上記結合は算術結合でよく、該スケール係数は、その測定データが受け取られる生物学的実体の数の平方根でよい。いくつかの実施形態では、スコアはスカラ値のスコアではない。

ステップ５０４で、ネットワークスコア化エンジン１１４は、重みベクトルｒを生成する。重みベクトルｒもまた、倍率変化ベクトルβの成分のそれぞれに１つの、Ｎ個の成分を有する。重みベクトルｒのそれぞれの成分ｒ_ｉは、ｉ番目に観測された倍率変化β_ｉに与えられるべき重みを表す。いくつかの実施形態では、重みは、対象（例えば、がん研究で公知の発がん物質）の特徴または結果に関して、ｉ番目に測定された実体の公知の生物学的重要性を表す。いくつかの実装では、重みは、ノードと関連づけられた生物学的実体についての活性測定の信頼度を表す。信頼度推定値を用いてログ倍率変化を重みづけすることによって、信頼度が低い倍率変化β_ｉは、ＧＰＩスコアにあまり寄与しない。改善された実験室条件、増加した生物学的再現数、再現性がよりよいこと、分散がより小さいこと、および信号がより強いことがすべて、識別のβ_ｉにおいてより高い信頼度に寄与し得る。

重みづけに有利に使用されうる１つの値は、局所的偽不発見率（ｌｏｃａｌｆａｌｓｅｎｏｎ−ｄｉｓｃｏｖｅｒｙｒａｔｅ）ｆｎｄｒ_ｉ（つまり、場合によっては、観察されたｐ値を条件として、倍率変化値β_ｉがゼロ倍率変化の基礎となる帰無仮説からの逸脱を表す確率）であり、これはＳｔｒｉｍｍｅｒら、「Ａｇｅｎｅｒａｌｍｏｄｕｌａｒｆｒａｍｅｗｏｒｋｆｏｒｇｅｎｅｓｅｔｅｎｒｉｃｈｍｅｎｔａｎａｌｙｓｉｓ」、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ１０：４７、２００９年およびＳｔｒｉｍｍｅｒ、「Ａｕｎｉｆｉｅｄａｐｐｒｏａｃｈｔｏｆａｌｓｅｄｉｓｃｏｖｅｒｙｒａｔｅｅｓｔｉｍａｔｉｏｎ」、ＢＭＣＢｉｏｉｎｆｏｒｍａｔｉｃｓ９：３０３、２００８年に記載されているとおりであり、それぞれ参照によりその全体が本明細書に組み込まれている。いくつかの実施形態では、ｆｎｄｒ_ｉは次式により計算され、

ここでｆｄｒ_ｉは、局所偽発見率（すなわち、倍率変化値β_ｉがゼロ倍率変化の基本的帰無仮説からの逸脱を表さない確率）、ｖ_ｉはＢｅｎｊａｍｉｎｉ−Ｈｏｃｈｂｅｒｇ調整係数であり、これは、Ｂｅｎｊａｍｉｎｉら、「Ｃｏｎｔｒｏｌｌｉｎｇｔｈｅｆａｌｓｅｄｉｓｃｏｖｅｒｙｒａｔｅ：ａｐｒａｃｔｉｃａｌａｎｄｐｏｗｅｒｆｕｌａｐｐｒｏａｃｈｔｏｍｕｌｔｉｐｌｅｔｅｓｔｉｎｇ」、ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ、Ｂ巻５７号：２８９頁、１９９５年、に記載されており、同文献は、参照によりその全体が本明細書に組み込まれる。ｐは、実際に観測された倍率変化β_ｉと少なくとも同程度に極端な倍率変化が得られる確率であり（ゼロ倍率変化の帰無仮説が真であると仮定して）、ｔ_ｄｆは、ｄｆの自由度をもつｔ分布である。ｐはβ_ｉおよび標準偏差Ｓ_ｉの関数であり、その結果としてすべてのβ_ｉに基づくことに留意されたい。一代替実装では、複数の試験に対し調整が行われず、したがって、ｖ_ｉ（β_１，．．．，β_Ｎ）は１に等しく、重みベクトルｒ_ｉ＝１−ｐ（β_ｉ，Ｓ_ｉ（β_１，．．．，β_Ｎ））になる。

ステップ５０６で、ネットワークスコア化エンジン１１４は、重みベクトルｒを用いて倍率変化ベクトルβをスケーリングする。その結果は、スケーリングされた倍率変化ベクトルになり、各成分β_ｉに、その関連づけられた重み成分ｒ_ｉが掛けられている。このようなスケーリングを計算的に実現する１つの方法は、式３に示されるように、重み成分ｒ_ｉが対角にあるＮ×Ｎ対角行列を生成し、この行列にＮ×１ベクトルβを掛けることである。

ステップ５０８で、ネットワークスコア化エンジン１１４は、倍率変化ベクトルβの成分ごとに変化の予測方向を識別する。ネットワークスコア化エンジン１１４がそのようにすることは、ネットワークモデリングエンジン１１２を検索して変化の予測方向を因果生物学的ネットワークモデルから取り出すことによって可能である。次に、ネットワークスコア化エンジン１１４は、これらの変化の予測方向をアセンブルしてＮ成分のベクトルｄを作ることができ、この場合ベクトルｄのｉ番目の成分ｄ_ｉは、ｉ番目に測定された生物学的実体の変化の予測方向を表す（例えば、活性の増大は＋１、活性の減少は−１）。

ステップ５１０で、ネットワークスコア化エンジン１１４は、スケーリングされた倍率変化ベクトルの成分（ステップ５０６で生成）を、成分ごとの変化の予測方向（ステップ５０８で識別）と結合する。いくつかの実装では、上記結合は算術結合であり、該スケーリングされた倍率変化ｒ_ｉβ_ｉのそれぞれに、その対応する変化の予測方向ｄ_ｉが掛けられ、その結果がＮ個の生物学的実体すべてについて合計される。数学的には、このステップ５１０の実装を次式で表すことができる。

他の実装では、ベクトルｄ、ｒおよびβは、任意の線形または非線形の方法で結合することができる。

ステップ５１２で、ネットワークスコア化エンジン１１４は、ステップ５１０で結合したものを正規化する。いくつかの実装では、正規化は、所定のスケール係数を掛けることからなる。このようなスケール係数の１つは、生物学的実体の数Ｎの平方根である。この実装では、ＧＰＩスコアは次式で表すことができる。

所定のものであってもなくてもよい他のスケール係数もまた用いることができる。いくつかの実施形態では、因果関係ネットワークモデル（例えば、機構仮説）は、Ｎ次元の下流の測定可能な空間内（各次元が因果関係ネットワークモデルの、ここでは遺伝子発現である、下流の測定可能要素を表す）の単位符号ベクトルｓ＝（１，１，−１，１，．．．，−１）／√Ｎと理解することができる。下流の遺伝子発現に対する攪乱の観測された作用もまた、この空間内のベクトルになる。したがって、因果関係ネットワークモデルにおける攪乱の振幅は幾何学的に、差次的ｌｏｇ_２発現ベクトルを仮説単位ベクトルの上に投影することによって定量化することができる。しかし、因果関係ネットワークモデルの下流測定値は総称モデルから来る。ＮＰＡスコアを支持するデータの識別性を明確に処理するために、各下流には、局所偽非発見率（ｆｎｄｒ_ｉ＝（１−ｆｄｒ_ｉ））になるように設定される活性化の信念が割り当てられる。これは、各差次的発現の信念により下流の遺伝子発現空間の次元に重みづけすることに等しく、したがって、重みづけされたスカラ積を考慮して遺伝子発現空間の幾何形状を定義することに等しい：＜ｓ｜β＞_Ｗ＝ｓ^Ｔ・ｄｉａｇ（ｆｎｄｒ）・β。それゆえ、ＧＰＩ＝（Σｓ_ｉ・ｆｎｄｒ_ｉ・β_ｉ）／√Ｎになる。差次的ｌｏｇ２発現を偽非発見率で重みづけすることによって、信頼度がほとんどない個々の差次的発現値はゼロ（変化なし）により近く移動される一方で、より強い信頼度がある値は最小限の低減がされる。正のＧＰＩスコアは、機構仮説によって記述された処理の上方調節を示し、ゼロのＧＰＩスコアは、その処理が機構仮説の方向ｓに沿って変えられないことを示し、負のＧＰＩスコアは、その処理が下方調節されることを示す。

図６は、ネットワークスコア化エンジン１１４によって実施できる確率論的攪乱指標（ＰＰＩ）スコア化技法の流れ図６００である。ＳＲＰエンジン１１０（図１）、およびプロセス２００のステップ２１２（図２）に関して前に論じたように、各ＳＲＰは、ある処置条件下で測定された生物学的実体の活性（または活性の変化）を表す。次に、各ＳＲＰは、いくつかの測定された活性（測定された生物学的実体それぞれに１つ）と関連づけられる。ＰＰＩは、目的のネットワークによって表された生物学的機構が活性化される確率を、観測されたＳＲＰを前提として定量化したものである。

ステップ６０２で、ネットワークスコア化エンジン１１４は、倍率変化ベクトルβをアセンブルする。この倍率変化ベクトルは、Ｎ個の測定された生物学的実体の活性について観測された倍率変化を表し、図５に示された幾何学的攪乱指標（ＧＰＩ）スコア化技法のステップ５０２に関して前述されたようにアセンブルすることができる。ステップ６０４で、ネットワークスコア化エンジン１１４は、倍率変化密度の値域を生成する。倍率変化密度の値域は、処置条件下の生物系で倍率変化値が取ることのできる値の組の近似値を表し、値域［−Ｗ，Ｗ］で近似値を求めることができ、ここでＷは、理論的に予測されるｌｏｇ２倍率変化の最大絶対値である。このようにＷを選ぶことによって、観測されるすべての倍率変化が値域［−Ｗ，Ｗ］に入る。例えば、遺伝子チップの予測される最大信号（例えば、ｌｏｇ２スケールで１６）を値Ｗとして用いることができる。

ステップ６０６で、ネットワークスコア化エンジン１１４は、倍率変化ベクトルβの成分ごとの変化の予測方向を識別する。このステップは、図５に示されたＧＰＩスコア化技法のステップ５０８に関して前述したように実施することができ、それによって、観測された倍率変化β_ｉに対応する変化の予測方向ｄ_ｉの組が得られる。

ステップ６０８で、ネットワークスコア化エンジン１１４は、正の活性化距離を生成する。いくつかの実装では、正の活性化距離は、生物学的実体の観測された活性化／抑制がｄ_ｉで表された変化の予測方向と一致していることのＳＲＰが示す程度を表す。一致した挙動は、本明細書では「正の活性化」と呼ばれる。用いることができる正の活性化距離の１つは、１つまたは複数のネットワークが正の活性化をされる確率である。このような確率はＰＰＩ＋と呼ばれ、次式により計算することができる。

ここで

ここでｆｎｄｒ_ｉは、式１に関して前に論じた偽非発見率である。いくつかの実装では、ネットワークスコア化エンジン１１４は、０とＷの間のφの値を表すビンの組を用いて式６の式を数値積分するように構成される。用いることができるビンの組の１つはビン［ｄ_{（ｉ−１）}β_{（ｉ−１）}，ｄ_（ｉ）β_（ｉ）］であり、ここで（・）の下付き文字は、最小倍率変化から最大倍率変化まで順に取られる値を表し、慣習でｄ_（０）β_（０）＝０である。このような実装では、ネットワークスコア化エンジン１１４は、正の活性化距離ＰＰＩ^＋の近似値を次式により計算する。

ステップ６１０で、ネットワークスコア化エンジン１１４は、負の活性化距離を生成する。いくつかの実装では、負の活性化距離は、生物学的実体の観測された活性化／抑制が、ｄ_ｉで表された変化の予測方向と一致していないことの、ＳＲＰが示す程度を表す。一致していない挙動は、本明細書では「負の活性化」と呼ばれる。用いることができる負の活性化距離の１つは、１つまたは複数のネットワークが負の活性化をされる確率である。このような確率はＰＰＩ⁻と呼ばれ、次式により計算することができる。

ここで

ここでｆｎｄｒ_ｉは、式１および式７に関して前に論じた偽非発見率である。正の活性化距離に関して前述したように、いくつかの実装では、ネットワークスコア化エンジン１１４は、−Ｗと０の間のφの値を表すビンの組を用いて式９の式を数値積分するように構成される。用いることができるビンの組の１つはビン［ｄ_{（ｉ−１）}β_{（ｉ−１）}，ｄ_（ｉ）β_（ｉ）］であり、ここで（・）の下付き文字は、最小倍率変化から最大倍率変化まで順に取られる値を表し、慣習でｄ_（０）β_（０）＝０である。このような実装では、ネットワークスコア化エンジン１１４は、負の活性化距離ＰＰＩ⁻の近似値を次式により計算する。

ステップ６１２で、ネットワークスコア化エンジンは、正の活性化距離（ステップ６０８で生成）と負の活性化距離（ステップ６１０で生成）を結合して、確率論的攪乱指標またはＰＰＩと呼ばれる合成距離を生成する。ステップ６１２の結合は、任意の線形結合または非線形結合とすることができる。いくつかの実装では、ＰＰＩは、正の活性化距離と負の活性化距離との重みづけ線形結合である。例えば、ネットワークスコア化エンジン１１４は、次式によりＰＰＩを生成するように構成することができる。

ここでＰＰＩ^＋およびＰＰＩ⁻は、前述の正および負の活性化距離である。式１２により生成されたＰＰＩは、式５により計算されたＧＰＩと次式のように関連づけられる。

加えて、ネットワークスコア化エンジン１１４は、ｉ番目の成分が次式で定義されるベクトルのＬ１ノルムを計算することによって式１２のＰＰＩを算出できるように構成することができる。

図７は、ネットワークスコア化エンジン１１４によって実施できる予測攪乱指標（ＥＰＩ）スコア化技法の流れ図７００である。ＳＲＰエンジン１１０（図１）およびプロセス２００のステップ２１２（図２）に関して前に論じたように、各ＳＲＰは、ある処置条件下で測定された生物学的実体の活性（または活性の変化）を表す。次に、各ＳＲＰは、いくつかの測定された活性（測定された生物学的実体ごとに１つ）と関連づけられる。ＥＰＩは、ＳＲＰで表されるすべての生物学的実体についての平均の活性変化を定量化したものである。一般に、ＳＲＰで表される測定された活性は、測定された活性の分布から無作為に引き当てたものでよく、ＥＰＩがその分布の予測値を表す。倍率変化β_ｉのそれぞれが分布ｐ（・）から引き出される場合、その分布の予測値は次式となる。

真の理論的分布ｐ（・）は容易には分からないので、ネットワークスコア化エンジン１１４は、下記のステップを実行するように構成して、観測された活性、およびシステム１００から引き出された他の情報に基づいたＥＰＩ値の近似値を求めることができる。

ステップ７０２で、ネットワークスコア化エンジン１１４は、倍率変化ベクトルβをアセンブルする。この倍率変化ベクトルは、Ｎ個の測定された生物学的実体の活性について観測された倍率変化を表し、図５に示された幾何学的攪乱指標（ＧＰＩ）スコア化技法のステップ５０２に関して、または図６に示された確率論的攪乱指標（ＰＰＩ）スコア化技法のステップ６０２に関して前述されたようにアセンブルすることができる。ステップ７０４で、ネットワークスコア化エンジン１１４は、倍率変化密度の値域を生成する。ネットワークスコア化エンジン１１４は、図６に示されたＰＰＩスコア化技法のステップ６０４に関して前述されたように、倍率変化密度の値域を生成することができる。

ステップ７０６で、ネットワークスコア化エンジン１１４は、倍率変化ベクトルβの成分ごとの変化の予測方向を識別する。このステップは、図５に示されたＧＰＩスコア化技法のステップ５０８に関して前述したように実施することができ、それによって、観測された倍率変化β_ｉに対応する変化の予測方向ｄ_ｉの組が得られる。

ステップ７０８で、ネットワークスコア化エンジン１１４は、近似の倍率変化密度を生成する。倍率変化β_ｉのそれぞれが分布ｐ（・）から引き出される場合、分布ｐ（・）は近似的に次式で表すことができる。

ステップ７１０で、ネットワークスコア化エンジン１１４は、近似の倍率変化密度の近似予測値を生成し、それによってＥＰＩスコアが得られる。いくつかの実装では、ネットワークスコア化エンジン１１４は、計算補間技法（例えば、線形または非線形補間技法）を適用して式１６の分布から近似連続分布を生成し、次に、式１５の式を用いてその分布の予測値を計算する。他の実装では、ネットワークスコア化エンジン１１４は、連続分布の長方形近似として式１６の離散型分布を用いるように、かつ次式によりＥＰＩを計算するように構成される。

式１７で（・）の下付き文字は、最小倍率変化から最大倍率変化まで順に取られる値を表し、ｎ^＋は、処置に応答して活性が増加すると予測された実体の数であり（ｄ_ｉβ_ｉ＞＝０）（ステップ７０６で）、ｎ−は、処置に応答して活性が減少すると予測された実体の数である（ｄ_ｉβ_ｉ＜＝０）（ステップ７０６で）。ＥＰＩスコアでは、高い値の倍率変化が、低い値のものよりも多く考慮に入れられて、識別性が高い活性測定値が得られる。

ネットワークスコア化エンジン１１４はまた、ネットワークスコアまわりで信頼区間を決定するように構成することもできる。これらの信頼区間は、ネットワークスコアに反映される実験結果を評価するために臨床医または研究者によって使用されてよく、また別のデータ処理ステップでシステム１００の他の構成要素によって（例えば、集合エンジン１１０によって）使用されてもよい。信頼区間を決定する有効な方法の１つは、所与のタイプＩ（偽陽性）エラーリスクα（例えば、α＝０．０５）に対しゼロであるネットワークスコアの帰無仮説（または、処置条件とコントロール条件の間に活性の差がないことを表す他の適切なナル値）を評価することである。いくつかの実装では、ネットワークスコア化エンジン１１４は、パラメトリックまたは非パラメトリックブートストラッピング技法などの計算ブートストラッピング技法を用いて、計算されたメトリクスの分布を見積もる。多くのこのようなブートストラッピング技法が当技術分野で公知である。基礎をなす分布についての仮定をすることがほとんどできない場合、非パラメトリック技法を有利に用いることができる。基礎をなす分布が仮定される場合には、パラメトリック技法を有利に用いることができる。下記で論じられる例では、β_ｉは、ｔ_ｄｆ自由度に基づいた平均ゼロおよびサンプル分散Ｓ_ｉ ^２で、帰無仮説のもとで正規分布から生じると仮定される。ネットワークスコア化エンジンは、これらの量、ならびに「リマ（ｌｉｍｍａ）」Ｒパッケージの線形モデル手法によって生成されたｔ統計量および調整ｔ統計量などのβ_ｉを表すｔ統計量および調整ｔ統計量を、統計的見積試験手順を用いることによって生成することができる。この線形モデル手法は差次的遺伝子発現の分析において一般に用いられ、参照によりその全体が本明細書に組み込まれるＳｍｙｔｈ、「ＬｉｎｅａｒｍｏｄｅｌｓａｎｄｅｍｐｉｒｉｃａｌＢａｙｅｓｍｅｔｈｏｄｓｆｏｒａｓｓｅｓｓｉｎｇｄｉｆｆｅｒｅｎｔｉａｌｅｘｐｒｅｓｓｉｏｎｉｎｍｉｃｒｏａｒｒａｙｅｘｐｅｒｉｍｅｎｔｓ」、ＳｔａｔｉｓｔｉｃａｌＡｐｐｌｉｃａｔｉｏｎｓｉｎＧｅｎｅｔｉｃｓａｎｄＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ、３巻：３頁、２００４年に記載されている。例えば、ＥＰＩスコアの信頼区間を決定するために（図７に関して前に論じたように）、ネットワークスコア化エンジン１１４は、パラメトリックブートストラッピング技法を実施するように構成してβ_ｉの分布を、β_ｉが基本的正規分布から生じると仮定して見積もることができる。百分位数ブートストラッピング技法の適用に関する仮説に反するように見える、ＥＰＩを含むかまたは備えてよい実装では、ネットワークスコア化エンジン１１４はさらに、Ｅｆｒｏｎ、「Ｔｈｅｊａｃｋｋｎｉｆｅ，ｔｈｅｂｏｏｔｓｔｒａｐ，ａｎｄｏｔｈｅｒｒｅｓａｍｐｌｉｎｇｐｌａｎｓ」、ＳＩＡＭ、１９８２年、およびＤｉｃｉｃｃｉｏら、「Ａｒｅｖｉｅｗｏｆｂｏｏｔｓｔｒａｐｃｏｎｆｉｄｅｎｃｅｉｎｔｅｒｖａｌｓ」、ＪｏｕｒｎａｌｏｆｔｈｅＲｏｙａｌＳｔａｔｉｓｔｉｃａｌＳｏｃｉｅｔｙ、５０巻：３３８頁、１９８８年、に記載のバイアス補正百分位数法を適用することができる。これらの文献それぞれは、参照によりその全体が本明細書に組み込まれる。

いくつかの実装では、ネットワークスコア化エンジン１１４は、ブートストラッピング技法の代わりの、またはブートストラッピング技法と組み合わせた分析的手法を用いて、信頼区間を決定することができる。分析的に信頼区間を決定するためにネットワークスコア化エンジン１１４によって実施される識別の技法は、用いられる識別のネットワークスコア化技法と、β_ｉの基礎をなす統計的分布についての仮定とに依存する。

例えば、ネットワークスコア化エンジン１１４が（式１により）強度スコアを計算するように構成されている場合、ネットワークスコア化エンジン１１４は強度スコアを、独立した、ほぼ正規確率変数の重みづけされた合計からなる確率変数として処理する。結果として、強度スコアの分布は、ゼロ平均で分散が次式で計算されるほぼ正規確率変数になる。

ネットワークスコア化エンジン１１４は、分散Ｓ_{ｓｔｒｅｎｇｔｈ} ^２を用いて次式によりｔ統計量を導出することができる。

その自由度ｄｆは、Ｓａｔｔｅｒｔｈｗａｉｔｅ、「Ａｎａｐｐｒｏｘｉｍａｔｅｄｉｓｔｒｉｂｕｔｉｏｎｏｆｅｓｔｉｍａｔｅｓｏｆｖａｒｉａｎｃｅｃｏｍｐｏｎｅｎｔｓ」、Ｂｉｏｍｅｔｒｉｃｓ、２巻：１１０頁、１９４６年、およびＷｅｌｃｈ、「Ｔｈｅｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｓｔｕｄｅｎｔ’ｓｐｒｏｂｌｅｍｓｗｈｅｎｓｅｖｅｒａｌｄｉｆｆｅｒｅｎｔｐｏｐｕｌａｔｉｏｎｖａｒｉａｎｃｅｓａｒｅｉｎｖｏｌｖｅｄ」、Ｂｉｏｍｅｔｒｉｋａ、３４巻：２８頁、１９４７年、に記載されているＷｅｌｃｈ−Ｓａｔｔｅｒｔｈｗａｉｔｅ式を用いて近似値が求められる。これらの文献それぞれは、その全体が参照により本明細書に組み込まれる。これらの量を用いて、ネットワークスコア化エンジン１１４は、強度スコアの（１−α）−信頼区間を次式により生成することができる。

別の例として、ネットワークスコア化エンジン１１４が（図５に関して前に論じたように）ＧＰＩスコアを計算するように構成されている場合、ネットワークスコア化エンジン１１４はまた、ＧＰＩスコアの信頼区間を図８の流れ図８００のステップに従って計算するように構成することもできる。ステップ８０２で、ネットワークスコア化エンジン１１４は、式５で表されたＧＰＩスコアの１次テイラー展開をβ_ｉの関数として次式により行い、

ここでβ_ｉ ^∧ハットは、測定された倍率変化値である。ＧＰＩスコアの１次テイラー近似では、最初の２項を保持し、Ｏ（Ｎ^２）項を削除する。

ステップ８０４で、ネットワークスコア化エンジン１１４は、ＧＰＩ計算におけるβ_ｉ項の係数がβ_ｉの関数であるかどうかを評価する。これらの係数は、予測方向項ｄ_ｉおよび重みｒ_ｉを含むか、または備える。これらの係数がβ_ｉの値に依存しない場合、式２１の１次項はβ_ｉに対して定数値になり、ネットワークスコア化エンジン１１４はステップ８０８に進む。しかし、係数がβ_ｉの値に依存する場合、ネットワークスコア化エンジン１１４は、ステップ８０６に進んで式２１の１次項の近似値を求める。特に、重みベクトルｒがβ_ｉの関数であり、予測方向項ｄ_ｉがβ_ｉの関数ではない場合、１次項は次式で表すことができる。

特に、重みベクトルｒが、式２および図５のステップ５０４に関して前に論じたように、偽非発見率の値ｆｎｄｒ_ｉのベクトルである場合、ネットワークスコア化エンジン１１４は、式２２の導関数項に対して次式を用いることができる。

式２３で「項１」と標識された導関数は、Ｂｅｎｊａｍｉｎｉ−Ｈｏｃｈｂｅｒｇ調整係数の導関数を表し、「項２」と標識された積分は、ｉ番目の生物学的実体の倍率変化に対するｐ値を表す。Ｂｅｎｊａｍｉｎｉ−Ｈｏｃｈｂｅｒｇ項はｐ値が小さいときに最も関連性があるので、ネットワークスコア化エンジン１１４は、ステップ８０６で項１と項２の積をゼロに近似するように構成されてよい。結果として、ネットワークスコア化エンジン１１４は、計算の基礎定理を適用し、式２３の導関数項の次の近似式を用いることができる。

式２４の近似式を式２１の式に含めると、ＧＰＩスコアの次の近似式が得られる。

ステップ８０８で、ネットワークスコア化エンジン１１４は、前のステップで生成されたＧＰＩスコアの近似値を用いて、ＧＰＩスコアの近似分散を決定する。ＧＰＩスコアが（式２１のように）確率変数β_ｉのアフィン関数として近似されている場合、近似の分散は、次式で与えられるβ_ｉの各分散の重みづけされた合計になる。

ここでＳ_ｉ ^２はｉ番目の倍率変化β_ｉの分散である。したがって、式２５の近似式の分散は次式のように書き表すことができる。

ここでｄ_ｉ項は、ｄ_ｉ ^２＝１であるのでｄ_ｉ＝＋／−１のとき削除される。

ステップ８１０で、ネットワークスコア化エンジン１１４は、観測された倍率変化値でのＧＰＩスコアの分散（例えば、式２７で表されたもの）を評価する。ステップ８１２で、ネットワークスコア化エンジン１１４は、ＧＰＩスコアの信頼区間を次式により生成する。

ここで、Ｓ_ＧＰＩは、式２６および式２７に関して前述したように計算される。式２８は、観測された倍率変化値でのＰＰＩスコアの分散を決定するように必要に応じて適合されてよい。

ネットワークスコア化エンジン１１４は、上述のスカラ値のスコアに加えて、またはその代わりに、ベクトル値のスコアを生成することができる。ベクトル値のスコアの１つは、測定されたノードごとの活性の倍率変化または絶対変化のベクトルである。

いくつかの実装では、攪乱（例えば、既知または未知の作用物質に曝露すること）のそれぞれについて、ネットワークスコア化エンジン１１４は、複数のＮＰＡスコアを生成することができる。例えば、ネットワークスコア化エンジン１１４は、識別のネットワーク、識別の投与量の作用物質、および曝露された識別の時間に対するＮＰＡスコアを生成することができる。

Ｅ．実験結果
ネットワーク攪乱振幅（ＮＰＡ）スコアを計算することによって攪乱に対する生物学的ネットワークの応答を定量化するためのプロセス２００を、腫瘍壊死因子（ＴＮＦ）で処置された正常ヒト気管支上皮（ＮＨＢＥ）細胞をいくつかの因果関係ネットワークモデルを使用して分析するために用いた。上記ストレス応答および免疫応答転写因子ＮＦ−ｋＢ（活性化Ｂ細胞の核因子カッパ軽鎖エンハンサー）の活性化が、様々な系における腫瘍壊死因子アルファ（ＴＮＦα）誘導シグナル伝達の主要なメディエーターとして詳細に明らかにされている。正常ヒト気管支上皮（ＮＨＢＥ）細胞を４つの異なる用量のＴＮＦα（０．１、１、１０、および１００ｎｇ／ｍｌ）で処理し、処理後の４つの異なる時間（３０分、２時間、４時間、および２４時間）に全ＲＮＡをマイクロアレイ測定のために集めた。すべての処置物を、時間を一致させた偽の処理コントロールと比較して１６の対照（ｃｏｎｔｒａｓｔ）（４用量×４時点）を得た。正常ヒト気管支上皮細胞（ＬｏｎｚａＷａｌｋｅｒｓｖｉｌｌｅ，Ｉｎｃ．）を標準成長培地（Ｃｌｏｎｅｔｉｃｓ培地、ＬｏｎｚａＷａｌｋｅｒｓｖｉｌｌｅ，Ｉｎｃ．）で培養した。細胞をＴＮＦα（シグマ）またはビヒクルコントロール（ＨＢＳＳ）でのいずれか処理し、次に、所望の攪乱期間の後に回収した。直ちに細胞を氷の上に置き、３つの技術的反復物（ｔｅｃｈｎｉｃａｌｒｅｐｌｉｃａｔｅ）に分割し、これらから全ＲＮＡをＲＮｅａｓｙＭｉｃｒｏｋｉｔ（Ｑｉａｇｅｎ）を使用して抽出した。次に、処理されたＲＮＡ試料をＡｆｆｙｍｅｔｒｉｘＵ１３３Ｐｌｕｓ２．０マイクロアレイとハイブリッド形成させる。細胞生存率および細胞数をすべての条件について、２４時間後にＣｅｌｌＴｉｔｅｒ−Ｇｌｏ（登録商標）アッセイ（Ｐｒｏｍｅｇａ）で制御した。ＮＦ−ｋＢ核移行をＣｅｌｌｏｍｉｃｓＮＦ−ｋＢＡｃｔｉｖａｔｉｏｎＨＣＳＲｅａｇｅｎｔＫｉｔ（ＴｈｅｒｍｏＳｃｉｅｎｔｉｆｉｃ）を使用して測定した。データ処理およびＮＰＡ法をＲ統計環境において実施した。生のＲＮＡ発現データを、Ｒ統計環境で使用可能なマイクロアレイ分析ツールのＢｉｏｃｏｎｄｕｃｔｏｒ一式のアフィおよびリマパッケージを使用して分析した（ＧｅｎｔｌｅｍａｎＲ：ＢｉｏｉｎｆｏｒｍａｔｉｃｓａｎｄｃｏｍｐｕｔａｔｉｏｎａｌｂｉｏｌｏｇｙｓｏｌｕｔｉｏｎｓｕｓｉｎｇＲａｎｄＢｉｏｃｏｎｄｕｃｔｏｒ、ＮｅｗＹｏｒｋ：ＳｐｒｉｎｇｅｒＳｃｉｅｎｃｅ＋ＢｕｓｉｎｅｓｓＭｅｄｉａ、２００５年、ＧｅｎｔｌｅｍａｎＲＣ、ＣａｒｅｙＶＪ、ＢａｔｅｓＤＭ、ＢｏｌｓｔａｄＢ、ＤｅｔｔｌｉｎｇＭ、ＤｕｄｏｉｔＳ、ＥｌｌｉｓＢ、ＧａｕｔｉｅｒＬ、ＧｅＹ、ＧｅｎｔｒｙＪら、Ｂｉｏｃｏｎｄｕｃｔｏｒ：ｏｐｅｎｓｏｆｔｗａｒｅｄｅｖｅｌｏｐｍｅｎｔｆｏｒｃｏｍｐｕｔａｔｉｏｎａｌｂｉｏｌｏｇｙａｎｄｂｉｏｉｎｆｏｒｍａｔｉｃｓ、ＧｅｎｏｍｅＢｉｏｌ、２００４年、５巻：Ｒ８０頁）。ＲｏｂｕｓｔＭｉｃｒｏａｒｒａｙＡｎａｌｙｓｉｓ（ＲＭＡ）バックグラウンド補正および分位正規化を用いてプローブセット発現値を生成した（Ｉｒｉｚａｒｒｙら、Ｅｘｐｌｏｒａｔｉｏｎ，ｎｏｒｍａｌｉｚａｔｉｏｎ，ａｎｄｓｕｍｍａｒｉｅｓｏｆｈｉｇｈｄｅｎｓｉｔｙｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅａｒｒａｙｐｒｏｂｅｌｅｖｅｌｄａｔａ、Ｂｉｏｓｔａｔｉｓｔｉｃｓ、２００３年、４巻：２４９〜２６４頁）。全体線形モデルを複製物のすべての群についてのデータに適合させ、目的の識別的な対照（「処置された」条件と「コントロール」条件の比較）を評価して、発現アレイにおけるプローブセットごとに生のｐ値を生成した。その後、Ｂｅｎｊａｍｉｎｉ−Ｈｏｃｈｂｅｒｇ偽発見率（ＦＤＲ）を用いて生のｐ値を複数の試験効果（ｔｅｓｔｉｎｇｅｆｆｅｃｔ）に対して補正した。

プローブセットは、ＨＧ−Ｕ１３３＿Ｐｌｕｓ＿２．ｎａ３０プローブセットマッピングおよび以下の基準を使用して、ＳｅｌｖｅｎｔａＫｎｏｗｌｅｄｇｅｂａｓｅのＲＮＡＡｂｕｎｄａｎｃｅノードと一致させた。第１に、「ａｔ」または「ｓ＿ａｔ」プローブセットだけを考慮に入れた。第２に、複数の遺伝子に対して位置決めしたプローブセットを廃棄した。第３に、複数のプローブセットが同一の遺伝子に対して位置決めした場合、「ｓ＿ａｔ」プローブセットよりも「ａｔ」プローブセットを優先させた。最後に、同一の遺伝子に対して位置決めした複数のプローブセットが依然として残った場合、目的のすべての対照にわたって最小幾何平均ＦＤＲ補正ｐ値をもつプローブセットを選択した。次に、線形モデルを複製物のすべての群について、知識ベース（ｋｎｏｗｌｅｄｇｅｂａｓｅ）におけるＲＮＡＡｂｕｎｄａｎｃｅノードに対して位置決めするプローブセットのみに再適合させ、ＦＤＲ補正ｐ値を再計算した。上記ＳｅｌｖｅｎｔａＫｎｏｗｌｅｄｇｅｂａｓｅは、１５０万個を超えるノード（生物学的な概念および実体）および７５０万個を超えるエッジ（ノード間の因果関係および非因果関係についての主張）を含むリポジトリである。上記ＳｅｌｖｅｎｔａＫｎｏｗｌｅｄｇｅｂａｓｅにおける主張は、同等者により検閲された（ｐｅｅｒ−ｒｅｖｉｅｗｅｄ）科学文献、ならびに他の公開データベースおよび専有のデータベースに由来する。具体的には、各主張は、ヒト、マウス、およびラット種の環境についてｉｎｖｉｔｒｏまたはｉｎｖｉｖｏのいずれかで実施された実験の個々の実験観察結果を記載する。主張はまた、参照情報源についての情報（例えば、ＭＥＤＬＩＮＥに列挙されている学術論文についてのＰｕｂＭｅｄＩＤ（ＰＭＩＤ））、ならびに上記実験観測結果が導き出された種（ヒト、マウス、またはラット）および組織または細胞系を含む重要な関連情報も捕捉する。例示的な因果主張としては、ＮＦｋＢ（活性化Ｂ細胞の核因子カッパ軽鎖エンハンサー）の転写活性の増大がＣＸＣＬ１（ケモカイン（Ｃ−Ｘ−Ｃモチーフ）リガンド１）のｍＲＮＡ発現の増加を引き起こすことである［ＨｅＬａｃｅｌｌｌｉｎｅ、Ｈｕｍａｎ、ＰＭＩＤ１６４１４９８５］。この知識ベースは、健康な組織、ならびに炎症、代謝疾患、心血管傷害、肝臓傷害およびがんなどの疾患領域から導き出された因果関係を包含する。

上記ＧＰＩ、ＥＰＩおよびＰＰＩスコア化法は最初に、ＮＦ−ｋＢ活性化の識別の尺度になるように創製した因果関係ネットワークモデル（ＮＦ−ｋＢ直接モデル）を使用して調査した。このモデルは、（異なる２４７の参考文献から精選され、一部の遺伝子は複数の参考文献によって支持されている）ＮＦ−ｋＢによって直接調節されることが公知である１５５個の遺伝子（ＮＦ−ｋＢに依存するようにして発現が調節され、ＮＦ−ｋＢによってプロモータ配列が直接結合される遺伝子）からなる。両スコア化法でＴＮＦαに対する同じパターンの応答が示されて、常時の用量依存性応答と、概してもっと後の時間に飽和した時間依存性応答とが実証された（図１０ａ参照）。上記ＥＰＩ法は、ＥＰＩスコアが２時間から４時間まで、さらに２４時間まで連続して増加するのに対してＧＰＩスコアが４時間から２４時間まで横ばい状態であるという点で、ＧＰＩ法と定性的に異なった。また、上記ＥＰＩ法では、０．１ｎｇ／ｍＬのＴＮＦαでゼロに近いスコアが生じた。一般に、ＥＰＩスコアは、他の方法で比較的低い傾向があったスコアが０（または０近く）まで低減するようであった。上記ＥＰＩ法についての２時間の時点以外のすべてについての最少用量は、上記ＮＦ−κＢ直接ネットワークに特異的ではないことが見出された。

次に、ＮＦ−κＢ直接モデルスコアをＮＦ−κＢ核移行と比較した。活性化するとＮＦ−κＢは、それが多くの遺伝子の発現を調節するように働く核の中に輸送される。次に、一連のフィードバックループにより、ＮＦ−κＢが元の細胞質へと続いて移行することになり、この振動性のサイクル（ｏｓｃｉｌａｔｔｏｒｙｃｙｃｌｅ）が数回続く。ＮＦ−κＢ振動が集団内の別々の細胞においてわずかに異なる周期で起こるので、その１番目の振動は、ＮＦ−κＢ活性化の最も信頼性の高い集団基準（ｐｏｐｕｌａｔｉｏｎ−ｍｅａｓｕｒｅ）になり得る。上記１番目の振動の時間は用量に依存するが、ＴＮＦα処理後の３０分間は、使用された用量でのＮＦ−κＢ核移行を測定するための現実的な時間であり得る。３つのすべてのスコア化法により、スコアと核移行の間に単調で、場合によってほぼ線形の関係が得られ、上記ＧＰＩおよびＥＰＩスコア化法についてのピアソン相関係数は０．８５と０．９８の間にあった（図１１）。図１１は、３０分でのＮＦ−κＢ核移行に対してグラフ化した、３０分でのＮＦ−κＢ直接ＮＰＡスコアを示す。ＮＦ−κＢ核移行のエラーバーは、同じ細胞集団の異なる３つの視野での平均核移行の標準偏差を表す。興味深いことに、この用量依存関係は、ＴＮＦα処理後の別々の時間でも保存された（図１３）。これらの発見により、上記因果関係ネットワークモデルをベースとするＮＰＡスコアによりＮＦ−κＢ転写活性を定量化できることが実証される。

本発明のＮＰＡスコア化法に関する因果関係ネットワークモデルの範囲および構成の効果もまた調査した。まず、ＮＦ−κＢで調整されることが公知である測定値の組を特にＴＮＦαに依存するようにして、手作業で選択することの効果を評価した。逆転写酵素ポリメラーゼ連鎖反応（ＲＴ−ＰＣＲ）によってあらかじめ測定した２０個の遺伝子の組から副モデルを構築して、３Ｔ３マウス線維芽細胞のＴＮＦα処理に応答するＮＦ−κＢ活性を評価した（直接のヒトオルソログをもたない２つの遺伝子は除外）。これらの遺伝子を、ＴＮＦα（範囲が１００ｎｇ／ｍｌから０．００５ｎｇ／ｍｌの異なる１０種類の濃度）を１２時間の時間経過にわたって投与することで、３Ｔ３細胞においてＴＮＦαによって攪乱されたものとして測定した。この副モデルでは、上記ＮＦ−κＢ直接モデルと非常に類似した活性化のパターンが生じ（図１４）、それによって、ＴＮＦα依存性発現が直接検証されていない遺伝子を含むことが上記スコアの質に悪影響を及ぼすことはないと示唆された。図１４は、ＴＮＦα処理されたＮＨＢＥ細胞からのトランスクリプトームデータの結果を示し、このデータは、（ａ）ＮＦ−κＢ直接モデル、（ｂ）マウス３Ｔ３線維芽細胞においてＴＮＦα応答性であると報告された２０個のＮＦ−κＢにより調節される遺伝子（ＮＦＫＢＩＡ、ＣＡＳＰ４、ＣＣＬ５、ＴＮＦＡＩＰ３、ＣＣＬ２、ＺＦＰ３６、ＲＩＰＫ２、ＴＮＦＳＦ１０、ＮＦＫＢＩＥ、ＩＬ６、ＣＣＬ２０、ＩＣＡＭ１、ＴＮＦＲＳＦ１Ａ、ＴＮＦＲＳＦ１Ｂ、ＳＱＳＴＭ１、ＮＲＧ１、ＳＯＤ１、ＩＬ１ＲＬ１、ＨＩＦ１Ａ、ＥＲＢＢ２）からなる副モデル（Ｔａｙら、Ｓｉｎｇｌｅ−ｃｅｌｌＮＦ−ｋａｐｐａＢｄｙｎａｍｉｃｓｒｅｖｅａｌｄｉｇｉｔａｌａｃｔｉｖａｔｉｏｎａｎｄａｎａｌｏｇｕｅｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ、Ｎａｔｕｒｅ、２０１０年、４６６巻：２６７〜２７１頁）、についてＧＰＩおよびＥＰＩを使用してスコア化した。

次に、測定部のあまり近位にはない上流の生物学的実体に由来する因果関係ネットワークモデルを使用する効果を調査した。そうするために２つの追加モデル、すなわち、ＩκＢキナーゼ（ＩＫＫ）タンパク質からＮＦ−κＢ活性化に至るシグナル伝達の因果関係ネットワークモデルにおいて、タンパク質の攪乱によって調整されることが公知である９９２個の遺伝子（異なる４１４の参考文献から精選されたもの）からなるＩＫＫ／ＮＦ−κＢシグナル伝達モデルと（図９）、ＴＮＦαで細胞を処理することによって調整される（ｍｏｄｕｌａｔｅｄ）ことが公知である１７４１個の遺伝子（異なる５８９の参考文献から精選されたもの）からなるＴＮＦモデルとを構築した。上記ＮＦ−κＢ直接モデルは全体的に、単一の転写因子（ＮＦ−κＢ）によって発現が直接制御された遺伝子からなるのに対し、これら２つのモデルそれぞれは、直接の転写コントローラが必ずしも公知ではない遺伝子を含む。これらの遺伝子の発現は、上記モデルの構築に関与しない転写因子によって制御することができる。例えば、上記ＩＫＫ／ＮＦ−κＢシグナル伝達モデルの遺伝子は、上記ＩＫＫ／ＮＦ−κＢシグナル伝達因果関係ネットワークモデルにおけるタンパク質の攪乱によって調整されることが公知であるが、これらの遺伝子の一部は、ＮＦ−κＢによって直接調製される遺伝子のより小さいサブセットの発現の変化によって生じる二次効果として調節することができる。また、ＴＮＦαはリガンドであり、したがって、いかなる遺伝子の転写も直接媒介しない。ＴＮＦαで細胞を処理することにより無数の転写因子が活性化することになり、これらの転写因子のどれもが直接または間接的に（例えば、自己分泌シグナル伝達により）上記ＴＮＦモデルの各遺伝子の発現を変化させ得る。

図９は、全因果関係ネットワークモデル（上段）を基本モデル構築様式の概略図（中段）と共に示す。ＣＨＵＫ、ＩＫＢＫＢ、およびＩＫＢＫＧは、ＮＦＫＢＩＡ、ＮＦＫＢＩＢ、およびＮＦＫＢＩＥのインヒビターとして働き、それらはさらにはＮＦＫＢ１、ＮＦＫＢ２、およびＲＥＬＡのインヒビターでもある。このモデルにおいて使用されるノードは、それぞれのセクションの下に列記されている。太字のノードは、上記知識ベースに下流遺伝子発現の測定可能要素を有するノードを表し、測定可能要素の数は角括弧の中に示されている（同一の下流が複数のノードの下に見出されることがあるので、これら１２２７個の下流の測定可能要素が９９２個の固有の測定可能要素に対応する）。使用される表記法は次の通りである。「ＣＨＵＫＰ＠Ｓ」はセリンでリン酸化されたＣＨＵＫを表し（その残基が既知であれば示される）、「ＣＨＵＫＰ＠ＳＴ」はセリンまたはスレオニンでリン酸化されたＣＨＵＫを表し（その正確な残基は公知ではない）、「ｋａｏｆ（ＣＨＵＫ）」はＣＨＵＫのキナーゼ活性を表し、「ＣＨＵＫ：ＩＫＢＫＢ」はＣＨＵＫタンパク質とＩＫＢＫＢタンパク質の複合体を表し、「ＩｋａｐｐａＢｋｉｎａｓｅｃｏｍｐｌｅｘＨｓ」は、ホモサピエンス（Ｈｓ）の様々なＩκＢキナーゼ（ＣＨＵＫ、ＩＫＢＫＢ、およびＩＫＢＫＧ）の集合体を表し、「ｄｅｇｒａｄａｔｉｏｎｏｆ（ＮＦＫＢＩＡ）」はＮＦＫＢＩＡ分解の過程を表し、「ｔａｏｆ（ＮＦＫＢ１）」はＮＦＫＢ１の転写活性を表す。

上記ＩＫＫ／ＮＦ−κＢシグナル伝達モデルおよびＴＮＦモデルは、その測定値に対して異なるレベルの近さにおいて機構仮説の挙動への洞察を与える。上記ＩＫＫ／ＮＦ−κＢシグナル伝達モデルは主として、ＮＦ−κＢによって（直接または間接的に）調節される遺伝子からなり（図９）、上記ＮＦ−κＢ直接モデルと非常に類似している応答パターンを生じる（図１０（ｂ））。この類似した応答パターンにより、転写因子によって直接調節されることが公知である遺伝子の集団レベルの挙動と、直接の調節についての知識が公知ではない遺伝子の挙動との間に大きな相違がないことが示唆される。上記ＮＦ−κＢ直接モデルについて認められた時間および用量依存性応答は、上記ＴＮＦモデルでは、例えば３０分の時点において、いくぶん頑強さが少ないようであるが（図１０（ｃ））、それでもまたこれらの方法により非常に類似した応答が得られた。こうして、一般的な応答パターンが上記モデル間でよく保たれたが、小さくても注目すべき応答の差異が、測定が行われた実体にあまり近くないモデルで観測され得る。

関連するＴＮＦαシグナル伝達攪乱に特に応答する上記因果関係ネットワークモデルの能力を評価するために、重要な細胞周期成分である転写因子Ｅ２Ｆ１についての別のモデルが、Ｅ２Ｆ１がＮＦ−κＢと比較してＴＮＦαシグナル伝達のあまり直接的ではないエフェクターであるという仮定を用いて、構築された。上記Ｅ２Ｆ１直接モデルは、Ｅ２Ｆ１によって直接調節される（Ｅ２Ｆ１によって発現が制御され、Ｅ２Ｆ１によってプロモータ配列が結合される）ことが公知である８０個の遺伝子（異なる５４の参考文献から精選されたもの）からなる。ＮＦ−κＢシグナル伝達と直接関係がない生物学に関するＮＰＡ結果の比較を行うために、上記で導入された４つのモデル（ｍｄｏｅｌ）（ＮＦ−κＢ−直接、ＩＫＫ／ＮＦ−κシグナル伝達、ＴＮＦ、およびＥ２Ｆ１−直接）のＮＰＡ応答を、ＣＤＫインヒビターによる細胞周期進行の阻害に応じて評価した。具体的には、ＣＤＫインヒビターＲ５４７の異なる３つの濃度によるＨＣＴ１１６結腸がん細胞の処理に関する、公に入手可能なマイクロアレイデータセットを使用した（ＧＳＥ１５３９５）（Ｂｅｒｋｏｆｓｋｙ−Ｆｅｓｓｌｅｒら、Ｐｒｅｃｌｉｎｉｃａｌｂｉｏｍａｒｋｅｒｓｆｏｒａｃｙｃｌｉｎ−ｄｅｐｅｎｄｅｎｔｋｉｎａｓｅｉｎｈｉｂｉｔｏｒｔｒａｎｓｌａｔｅｔｏｃａｎｄｉｄａｔｅｐｈａｒｍａｃｏｄｙｎａｍｉｃｂｉｏｍａｒｋｅｒｓｉｎｐｈａｓｅＩｐａｔｉｅｎｔｓ、ＭｏｌＣａｎｃｅｒＴｈｅｒ、２００９年、８巻：２５１７〜２５２５頁）（図１２）。３つすべてのＮＰＡ法により、４時間、６時間および２４時間の時点において、用量および時間に依存するＥ２Ｆ１−直接モデルスコアの減少が実証された。上記ＴＮＦモデルは、上記Ｅ２Ｆ１直接モデルと同様の応答パターンを示した。対照的に、上記ＮＦ−κＢ−直接モデルおよびＩＫＫ／ＮＦ−κＢシグナル伝達モデルのスコアは、これと同一の、用量および時間に依存するパターンを呈さず、それによって、これら注目したモデルは潜在的に、細胞周期で調節される遺伝子をほとんど含まないことが示された。

Ｆ．ハードウェア
図１５は、生物学的攪乱の影響を定量化するための分散型のコンピュータ化されたシステム１５００のブロック図である。上記システム１５００のコンポーネントは、図１のシステム１００におけるものと同じであるが、該システム１００の配置構成は、それぞれのコンポーネントがネットワークインターフェース１５１０を通じて通信するような構成をとる。そのような実装は、「クラウドコンピューティング」パラダイムなどの共通ネットワークリソースへのアクセスを共有することができるワイヤレス通信システムを含む複数の通信システム上での分散コンピューティングに適している可能性がある。

図１６は、図１〜１０を参照しつつ記載されているプロセスを実行するための図１のシステム１００または図１３のシステム１３００のコンポーネントのうちのいずれかなどのコンピューティングデバイスのブロック図である。ＳＲＰエンジン１１０、ネットワークモデリングエンジン１１２、ネットワークスコア化エンジン１１４、集約エンジン１１６、ならびに転帰データベース、攪乱データベース、および文献データベースを含むデータベースのうちの１つまたは複数を備える、システム１００のコンポーネントのそれぞれは、１つまたは複数のコンピューティングデバイス１６００に実装されうる。いくつかの態様において、複数の上記のコンポーネントおよびデータベースは、１つコンピューティングデバイス１６００内に含めるかまたは備えることができる。いくつかの実装では、複数のコンピューティングデバイス１６００にまたがって１つのコンポーネントおよび１つのデータベースを実装することができる。

上記コンピューティングデバイス１６００は、少なくとも１つの通信インターフェースユニット、入力／出力コントローラ１６１０、システムメモリー、および１つまたは複数のデータ記憶デバイスを備える。上記システムメモリーは、少なくとも１つのランダムアクセスメモリー（ＲＡＭ１６０２）および少なくとも１つのリードオンリーメモリー（ＲＯＭ１６０４）を含むかまたは備える。これらの要素はすべて、中央処理装置（ＣＰＵ１６０６）と通信して、該コンピューティングデバイス１６００の動作を円滑に行わせる。上記コンピューティングデバイス１６００は、多くの異なる方法で構成されうる。例えば、上記コンピューティングデバイス１６００は、従来のスタンドアロン型コンピュータであってもよいが、代替的に、コンピューティングデバイス１６００の機能を複数のコンピュータシステムおよびアーキテクチャにまたがって分散させることもできる。上記コンピューティングデバイス１６００は、モデリング、スコア化、および集約演算の一部または全部を実行するように構成されうる。図１０では、上記コンピューティングデバイス１６００は、ネットワークまたはローカルネットワークを介して、他のサーバもしくはシステムにリンクされる。

上記コンピューティングデバイス１６００は、分散型アーキテクチャで構成することができ、データベースおよびプロセッサは、別のユニットまたは場所に収納される。いくつかのこのようなユニットは、一次処理機能を実行し、最低限、汎用コントローラまたはプロセッサおよびシステムメモリーを含む。このような一態様では、これらのユニットのそれぞれは、通信インターフェースユニット１６０８を介して、他のサーバ、クライアントもしくはユーザコンピュータおよび他の関係するデバイスとの一次通信リンクとして働く通信ハブまたはポート（図示せず）に接続する。上記通信ハブまたはポートは、通信ルーターとしてもっぱら使用される、最小処理機能をそれ自体有することができる。さまざまな通信プロトコルが、システムの一部であってもよく、これは、限定はしないがイーサネット（登録商標）（Ｅｔｈｅｒｎｅｔ（登録商標））、ＳＡＰ、ＳＡＳ（商標）、ＡＴＰ、ＢＬＵＥＴＯＯＴＨ（登録商標）、ＧＳＭ（登録商標）、およびＴＣＰ／ＩＰを含む。

上記ＣＰＵ１６０６は、１つまたは複数の従来のマイクロプロセッサなどのプロセッサ、および該ＣＰＵ１６０６の操作負荷をオフロードする数値演算コプロセッサ（ｍａｔｈｃｏ−ｐｒｏｃｅｓｓｏｒ）などの１つまたは複数の補助コプロセッサを備える。上記ＣＰＵ１６０６は、上記通信インターフェースユニット１６０８および上記入力／出力コントローラ１６１０と通信し、これを通じて該ＣＰＵ１６０６は他のサーバ、ユーザ端末、またはデバイスなどの他のデバイスと通信する。上記通信インターフェースユニット１６０８および上記入力／出力コントローラ１６１０は、例えば、他のプロセッサ、サーバ、またはクライアント端末と同時通信するための複数の通信チャネルを含むかまたは備えることができる。互いに通信するデバイスであっても、互いにひっきりなしに送信している必要はない。それと反対に、そのようなデバイスは、必要に応じて互いに送信するだけでもよく、実際には大半の時間においてデータの交換を差し控えることができ、該デバイス間の通信リンクを確立するために実行するのにいくつかのステップを必要とするものとしてよい。

上記ＣＰＵ１６０６は、上記データ記憶デバイスとも通信する。上記データ記憶デバイスとして、磁気メモリー、光メモリー、または半導体メモリーの適切な組み合わせを含み得、例えば、ＲＡＭ１６０２、ＲＯＭ１６０４、フラッシュドライブ、コンパクトディスクなどの光ディスク、またはハードディスクもしくはドライブを含むか備え得る。上記ＣＰＵ１６０６および上記データ記憶デバイスはそれぞれ、例えば、単一のコンピュータまたは他のコンピューティングデバイス内に丸ごと配置されるか、またはＵＳＢポート、シリアルポートケーブル、同軸ケーブル、イーサネット（登録商標）型ケーブル、電話回線、無線周波トランシーバ、または他の類似のワイヤレスもしくは有線媒体または上記のものの組み合わせなどの、通信媒体によって互いに接続されうる。例えば、上記ＣＰＵ１６０６は、上記通信インターフェースユニット１６０８を介して上記データ記憶デバイスに接続されうる。上記ＣＰＵ１６０６は、１つまたは複数の特定の処理機能を実行するように構成されうる。

上記データ記憶デバイスは、例えば、（ｉ）上記コンピューティングデバイス１６００用のオペレーティングシステム１６１２、（ｉｉ）本明細書に記載されているシステムおよび方法により、また特に上記ＣＰＵ１６０６に関して詳しく記載されているプロセスにより、該ＣＰＵ１６０６に指示するように適合された１つまたは複数のアプリケーション１６１４（例えば、コンピュータプログラムコードまたはコンピュータプログラム製品）、または（ｉｉｉ）上記プログラムが必要とする情報を記憶するために利用されうる情報を記憶するように適合されたデータベース（１つまたは複数）１６１６を記憶することができる。いくつかの態様では、上記データベース（１つまたは複数）は、実験データを記憶するデータベース、および公開文献モデルを含むかまたは備える。

上記オペレーティングシステム１６１２およびアプリケーション１６１４は、例えば、圧縮形式、非コンパイル形式、および暗号化形式で記憶され、コンピュータプログラムコードを含むかまたは備えることができる。上記プログラムの命令は、上記ＲＯＭ１６０４または上記ＲＡＭ１６０２などの、データ記憶デバイス以外のコンピュータ可読媒体から上記プロセッサのメインメモリーへと読み込むことができる。上記プログラムにおける命令のシーケンスの実行により上記ＣＰＵ１６０６が本明細書に記載されているプロセスステップを実行するが、ハード配線回路を、本発明のプロセスの実装のためのソフトウェア命令の代わりに、または該ソフトウェア命令と組み合わせて使用することができる。したがって、記載されているシステムおよび方法は、ハードウェアとソフトウェアとの特定の組み合わせに限定されない。

本明細書に記載されているようなモデリング、スコア化、および集約に関して１つまたは複数の機能を実行するのに適したコンピュータプログラムコードが提供されうる。上記プログラムは、オペレーティングシステム１６１２、データベース管理システム、および上記プロセッサが上記入力／出力コントローラ１６１０を介してコンピュータ周辺デバイス（例えば、ビデオディスプレイ、キーボード、コンピュータマウスなど）とインターフェースすることを可能にする「デバイスドライバ」などのプログラム要素を含むかまたは備えることができる。

本明細書で使用されているような「コンピュータ可読媒体」という用語は、実行のため命令を上記コンピューティングデバイス１６００（または本明細書に記載されているデバイスの任意の他のプロセッサ）のプロセッサに与えるか、または与えることに関わる任意の非一時的媒体を指す。このような媒体は、限定はしないが、不揮発性媒体および揮発性媒体を含む、多くの形態をとりうる。不揮発性媒体としては、例えば、光ディスク、磁気ディスク、もしくは光磁気ディスク、またはフラッシュメモリーなどの集積回路メモリーが含まれるかまたは備えられる。揮発性媒体としては、典型的にはメインメモリーを構成するダイナミックランダムアクセスメモリー（ＤＲＡＭ）が含まれるかまたは備えられる。コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、任意の他の光媒体、パンチカード、紙テープ、穴の形状を有する任意の他の物理的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭまたはＥＥＰＲＯＭ（電子的に消去可能なプログラム可能リードオンリーメモリー）、ＦＬＡＳＨ−ＥＥＰＲＯＭ、任意の他のメモリーチップもしくはカートリッジ、またはコンピュータが読み取ることができる任意の他の非一時的媒体が含まれるかまたは備えられる。

さまざまな形態のコンピュータ可読媒体が、実行のため１つまたは複数の命令の１つまたは複数のシーケンスを上記ＣＰＵ１６０６（または本明細書に記載されているデバイスの任意の他のプロセッサ）に伝えることに関与しうる。例えば、上記命令は、最初に、リモートコンピュータ（図示せず）の磁気ディスクで伝えることができる。上記リモートコンピュータは、命令をそのリモートコンピュータのダイナミックメモリーにロードし、モデムを使用してイーサネット（登録商標）接続、ケーブル線、さらには電話回線を介して該命令を送ることができる。コンピューティングデバイス１６００（例えば、サーバ）に対してローカルの通信デバイスは、各通信回線上でデータを受け取り、該データを上記プロセッサのシステムバス上に出すことができる。上記システムバスは、データをメインメモリーに伝え、上記プロセッサはそのメインメモリーから命令を取り出して実行する。メインメモリーに入った命令は、必要に応じて、上記プロセッサによる実行前または実行後にメモリーに記憶することができる。それに加えて、命令は、通信ポートを介して、電気信号、電磁気信号、または光信号として受け取ることができ、これらはさまざまな種類の情報を伝えるワイヤレス通信またはデータストリームの形態の例である。さらなる諸態様および諸実施形態を以下の項目に示す。
１．作用物質に応答した生物系の攪乱を定量化するためのコンピュータ化された方法であって、該方法は、第１のプロセッサで、作用物質に対する生物系の応答に対応する処置データの組を受け取るステップであって、ここで、該生物系が複数の生物学的実体を含むかまたは備え、それぞれの生物学的実体が、該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用するステップと、第２のプロセッサで、該作用物質に曝露されない生物系に対応するコントロールデータの組を受け取るステップと、第３のプロセッサで、該生物系を表すと共に、該生物学的実体を表すノード、該生物学的実体間の関係を表すエッジ、および該コントロールデータと該処置データの間の変化の予測方向を該ノードについて表す方向値を含むかまたは備える、計算因果関係ネットワークモデルを提供するステップと、第４のプロセッサにより、該処置データと該コントロールデータの間の差異を表す活性尺度を該ノードについて計算するステップと、第５のプロセッサにより、少なくとも１つの重み値が少なくとも１つの他の重み値と異なる複数の重み値を該ノードについて計算するステップと、第６のプロセッサにより、該作用物質に対する該生物系の攪乱を表す計算モデルについてのスコアを生成するステップであって、該スコアは該方向値、該重み値および該活性尺度に基づくステップとを含む。
２．それぞれの上記計算モデルにおけるノードの数に基づいて上記スコアを正規化するステップをさらに含む、項目１に記載のコンピュータ化された方法。
３．上記重み値が、処置データおよびコントロールデータの上記組の少なくとも１つにおける信頼度を表す、上記項目のいずれかに記載のコンピュータ化された方法。
４．上記重み値が局所偽非発見率を含む、上記項目のいずれかに記載のコンピュータ化された方法。
５．第７のプロセッサにより、上記活性尺度の近似分布を上記ノードわたって計算するステップと、第８のプロセッサにより、該近似分布の予測値を計算するステップと、第９のプロセッサにより、上記作用物質に対する上記生物系のサブセットの攪乱を表す計算モデルごとに、予測値に基づくスコアを生成するステップとをさらに含む、項目１に記載のコンピュータ化された方法。
６．上記近似分布が上記活性尺度に基づく、項目５に記載のコンピュータ化された方法。
７．予測値を計算するステップが長方形近似を実施するステップを含む、項目５〜６のいずれかに記載のコンピュータ化された方法。
８．第１０のプロセッサにより、上記活性尺度と上記方向値の間の一致性および不一致性をそれぞれ表す正の活性化スコアおよび負の活性化スコアを該活性尺度に基づいて計算するステップと、第１１のプロセッサにより、上記作用物質に対する上記生物系のサブセットの攪乱を表す計算モデルごとに、該正の活性化スコアおよび負の活性化スコアに基づくスコアを生成するステップとをさらに含む、項目１に記載のコンピュータ化された方法。
９．上記スコアが局所偽非発見率に基づく、項目８に記載のコンピュータ化された方法。
１０．上記活性尺度が倍率変化値であり、上記ノードごとの該倍率変化値が、それぞれの該ノードによって表された上記生物学的実体についての上記処置データと上記コントロールデータとの間の差異の対数を含む、項目８〜９のいずれかに記載のコンピュータ化された方法。
１１．上記生物系のサブセットが、細胞増殖機構、細胞性ストレス機構、細胞炎症機構、およびＤＮＡ修復機構のうちの少なくとも１つを含む、上記項目のいずれかに記載のコンピュータ化された方法。
１２．上記作用物質が、タバコを加熱することによって発生したエアロゾル、タバコを燃焼させることによって発生したエアロゾル、タバコの煙、または紙巻きタバコの煙のうちの少なくとも１つを含む、上記項目のいずれかに記載のコンピュータ化された方法。
１３．上記作用物質が、上記生物系に存在しないし由来もしない分子もしくは実体が含まれる異物を含む、上記項目のいずれかに記載のコンピュータ化された方法。
１４．上記作用物質が、毒素、治療化合物、刺激物質、弛緩物質、天然物、製造物、および食物を含む、上記項目のいずれかに記載のコンピュータ化された方法。
１５．上記処置データの組が処置データの複数の組を含み、各ノードが第１の確率分布によって定義される複数の倍率変化値と、第２の確率分布によって定義される複数の重み値とを含む、上記項目のいずれかに記載のコンピュータ化された方法。

本発明の諸実装を特定の例に関して詳細に示し記載したが、添付の特許請求の範囲に定義された本発明の趣旨および範囲から逸脱することなく、形態および細部の様々な変更を本発明に加えられることが当業者には理解されるはずである。すなわち、本発明の範囲は添付の特許請求の範囲によって示され、したがって、該特許請求の範囲の等価物の意味および範囲に入るすべての変更が包含されるべきものである。

Claims

作用物質に応答した生物系の攪乱を定量化するためのコンピュータ化された方法であって、
第１のプロセッサで、作用物質に対する生物系の応答に対応する処置データの組を受け取るステップであって、ここで、該生物系が複数の生物学的実体を含むかまたは備え、それぞれの生物学的実体が、複数の該生物学的実体のうちの少なくとも１つの他の実体と相互作用するステップと、
第２のプロセッサで、該作用物質に曝露されない該生物系に対応するコントロールデータの組を受け取るステップと、
第３のプロセッサで、該生物系を表すと共に、
該生物学的実体を表すノード、
該生物学的実体間の関係を表すエッジ、および
該コントロールデータと該処置データの間の変化の予測方向を該ノードについて表す方向値
を含むかまたは備える、計算因果関係ネットワークモデルを提供するステップと、
第４のプロセッサにより、該処置データと該コントロールデータの間の差異を表す活性尺度を該ノードについて計算するステップと、
第５のプロセッサにより、少なくとも１つの重み値が少なくとも１つの他の重み値と異なる複数の重み値を該ノードについて計算するステップと、
第６のプロセッサにより、該作用物質に対する該生物系の攪乱を表す該計算モデルについてのスコアを生成するステップであって、該スコアが該方向値、該重み値および該活性尺度に基づくステップと
を含む、コンピュータ化された方法。
前記生物系が少なくとも１つの機構仮説によって表される、請求項１に記載のコンピュータ化された方法。
前記生物系が複数の計算因果関係ネットワークモデルによって、または複数の機構仮説を備える少なくとも１つの計算因果関係ネットワークモデルによって表される、請求項１または請求項２に記載のコンピュータ化された方法。
それぞれの前記計算モデルにおける測定可能なノードの数に基づいて前記スコアを正規化するステップをさらに含む、前記請求項のいずれかに記載のコンピュータ化された方法。
前記重み値が、処置データおよびコントロールデータの前記組の少なくとも１つにおける信頼度を表す、前記請求項のいずれかに記載のコンピュータ化された方法。
前記重み値が局所偽非発見率を含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
第７のプロセッサにより、ノードの前記活性尺度の近似分布をモデルまたはモデルにおける機構仮説に関して計算するステップと、第８のプロセッサにより、該近似分布に関する活性尺度の予測値を計算するステップと、第９のプロセッサにより、前記作用物質に対する前記生物系のサブセットの攪乱を表す計算モデルごとに、予測値に基づくスコアを生成するステップとをさらに含む、前記請求項のいずれかに記載のコンピュータ化された方法。
前記近似分布が前記活性尺度に基づく、請求項７に記載のコンピュータ化された方法。
予測値を計算するステップが長方形近似を実施するステップを含む、請求項７または請求項８に記載のコンピュータ化された方法。
第１０のプロセッサにより、前記モデルに関して前記活性尺度と前記方向値の間の一致性および不一致性をそれぞれ表す正の活性化距離および負の活性化距離を該活性尺度に基づいて計算するステップと、第１１のプロセッサにより、前記作用物質に対する前記生物系のサブセットの攪乱を表す計算モデルごとに、正および負の活性化スコアに基づくスコアを生成するステップとをさらに含む、前記請求項のいずれかに記載のコンピュータ化された方法。
前記正の活性化距離、負の活性化距離、または両方が局所偽非発見率に基づく、前記請求項のいずれかに記載のコンピュータ化された方法。
前記活性尺度が倍率変化値であり、ノードごとの該倍率変化値が、それぞれの前記ノードによって表された前記生物学的実体についての前記処置データと前記コントロールデータとの間の差異の対数を含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
前記生物系のサブセットが、細胞増殖機構、細胞性ストレス機構、細胞炎症機構、およびＤＮＡ修復機構のうちの少なくとも１つを含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
前記作用物質が、タバコを加熱することによって発生したエアロゾル、タバコを燃焼させることによって発生したエアロゾル、タバコの煙、または紙巻きタバコの煙のうちの少なくとも１つを含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
前記作用物質が、前記生物系に存在しないし由来もしない分子もしくは実体が含まれる異物を含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
前記作用物質が、毒素、治療化合物、刺激物質、弛緩物質、天然物、製造物、および食物を含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
処置データの前記組が処置データの複数の組を含むかまたは備え、各測定可能ノードが第１の確率分布によって定義される複数の倍率変化値と、第２の確率分布によって定義される複数の重み値とを含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
処置データの前記組が処置データの複数の組を含むかまたは備え、各測定可能ノードが複数の倍率変化値およびその対応する重み値を含むかまたは備える、前記請求項のいずれかに記載のコンピュータ化された方法。
前記スコアを生成する前記ステップが、前記活性尺度、前記重み値および前記方向値の線形結合または非線形結合と、スケール係数による該結合の正規化とを含む、前記請求項のいずれかに記載のコンピュータ化された方法。
前記結合が算術結合であり、前記スケール係数が、その測定データが受け取られる生物学的実体の数の平方根である、請求項１９に記載のコンピュータ化された方法。
前記スコアが、幾何学的攪乱指標スコア化技法、確率論的攪乱指標スコア化技法、または予測攪乱指標スコア化技法によって生成する、前記請求項のいずれかに記載のコンピュータ化された方法。
前記スコアについての信頼区間をパラメトリックまたは非パラメトリック計算ブートストラッピング技法に基づいて決定するステップをさらに含む、前記請求項のいずれかに記載のコンピュータ化された方法。
作用物質に応答した生物系の攪乱を定量化するための、少なくとも１つのプロセッサを備えるコンピュータシステムであって、該プロセッサが、
作用物質に対する生物系の応答に対応する処置データの組を受け取るように構成または適合され、ここで、該生物系が複数の生物学的実体を含むかまたは備え、それぞれの生物学的実体が、該複数の生物学的実体のうちの少なくとも１つの他の実体と相互作用し、該プロセッサが、
該作用物質に曝露されない該生物系に対応するコントロールデータの組を受け取るように構成または適合され、該プロセッサが、計算因果関係ネットワークモデルであって、
該生物系を表すと共に、
該生物学的実体を表すノード、
該生物学的実体間の関係を表すエッジ、および
該コントロールデータと該処置データの間の変化の予測方向を該ノードについて表す方向値
を含むかまたは備える計算因果関係ネットワークモデルを提供するように構成または適合され、該プロセッサが、
該処置データと該コントロールデータの間の差異を表す活性尺度を該ノードについて計算するように構成または適合され、該プロセッサが、
少なくとも１つの重み値が少なくとも１つの他の重み値と異なる複数の重み値を該ノードについて計算するように構成または適合され、かつ該プロセッサが、
該作用物質に対する該生物系の攪乱を表す該計算モデルについてのスコアであって、該スコアが該方向値、該重み値および該活性尺度に基づくスコアを生成するように構成または適合された、コンピュータシステム。
請求項１から２２のいずれかに記載の方法を実施するように適合されたプログラムコードを含む、コンピュータプログラム製品。
請求項２４に記載のコンピュータプログラム製品を備えるコンピュータ、またはコンピュータ記録可能媒体もしくはデバイス。