詳細な説明
作用物質によって攪乱されたときに生物系内の変化の大きさを定量的に評価する計算システムおよび方法が本明細書に記載されている。いくつかの実装は、生物系の一部内の変化の大きさを表現する数値を計算するための方法を含む。この計算では、入力として、作用物質によって生物系が攪乱される制御された実験の組から得られたデータの組を使用する。次いで、データが、生物系の特徴のネットワークモデルに適用される。ネットワークモデルは、シミュレーションおよび分析のための基盤(substrate)として使用され、生物系内の目的の特徴を使用可能にする生物学的機構および経路を表す。この機構および経路の特徴または一部は、生物系の疾病および有害作用の病理に関与しうる。通常状態下および作用物質による攪乱下を含む、さまざまな条件の下での多数の生物学的実体のステータスに関するデータによって占められるネットワークモデルを構築するために、データベースで表されている生物系の従来の知識が使用される。使用されるネットワークモデルは、それが攪乱に応答するさまざまな生物学的実体のステータスの変化を表し、生物系に対する作用物質の影響の定量的および客観的評価を得ることができるという点で、動的である。これらの計算方法を運用するためのコンピュータシステムも提供される。
本開示のコンピュータ化された方法によって生成された数値は、とりわけ、製造された産物(安全性評価または比較のため)、栄養補強物を含む治療化合物(効力または健康上の利益の判定のため)、および環境作用物質(長期曝露の危険性ならびに有害作用および発症との関係の予測のため)によって引き起こされる望ましい、または有害な生物学的作用の大きさを判定するために使用されうる。
一態様では、本明細書に記載されているシステムおよび方法は、攪乱された生物学的機構のネットワークモデルに基づき、攪乱された生物系の変化の大きさを表す計算された数値を提供する。本明細書でネットワーク攪乱振幅(NPA)スコアと称される数値は、定義されている生物学的機構におけるさまざまな実体のステータスの変化の概略を表すために使用されうる。異なる作用物質または異なる種類の攪乱に対して得られた数値は、生物系の特徴としてそれ自体を使用可能にするか、またはそれ自体を現す生物学的機構に対する異なる作用物質または攪乱の影響を相対比較するために使用することができる。そこで、NPAスコアは、異なる攪乱に対する生物学的機構の応答を測定するために使用することができる。「スコア」という用語は、本明細書では、生物系における変化の大きさの量的尺度を与える値または値の組を一般的に指す。このようなスコアは、サンプルまたは被験体から得られた1つまたは複数のデータセットを使用して、当技術分野で公知の、本明細書で開示されている方法による、さまざまな数学的アルゴリズムおよび計算アルゴリズムのうちのいずれかを使用して計算される。
NPAスコアは、研究者および臨床医による診断、実験計画、治療決定、およびリスクアセスメントの改善を助けることができる。例えば、NPAスコアは、毒物学的分析において候補となる生物学的機構の組をスクリーニングして、潜在的に有害な作用物質への曝露で最も影響を受けそうなものを識別するために使用することができる。攪乱へのネットワークの応答の尺度を提供することによって、これらのNPAスコアは、細胞レベル、組織レベル、器官レベル、または生物レベルで出現する表現型または生物学的転帰との分子事象の相関(実験データによって測定されている場合)を可能にすることができる。臨床医は、NPA値を使用して、作用物質によって影響される生物学的機構を患者の生理学的状態と比較し、作用物質に曝露されたときに患者がどのような健康上の危険性または利益を受ける可能性が最も高いかを判定することができる(例えば、免疫無防備状態の(immuno−compromised)患者は、強い免疫抑制応答を引き起こす作用物質に対して特に脆弱であり得る)。
同じ生物学的ネットワーク上で異なる実験同士の比較を可能にするため生物学的機構の実験データおよびネットワークモデルを定量化するためのシステムおよび方法が本明細書にさらに記載されているが、これは本明細書において「比較可能性」と称されている。いくつかの実装では、比較可能性は、実験データセットにまたがってNPAまたは他の攪乱の定量化を比較する統計的距離(statistical metric)によって定量化される。比較可能性距離(comparability metric)は、例えば、2つの刺激物(TNFおよびIL1aなど)による特定の生物学的ネットワーク(NFKBなど)の活性化に対する効果が同じ基礎をなす生物学的特徴によって支持されたかどうかを識別するのに役立ちうる。図16は、類似している生物学的特徴(上段)と類似していない生物学的特徴(下段)とによる2つの実験の例示的な結果を示す図である。上段の結果において、実験1では、すべての測定されたノード間で実験2と比較される実験システムの応答の約2倍となり、これは実験2が、より少ない程度においてであっても、実験1と同じ基礎をなす生物学的特徴をもたらすことを示している。下段の結果において、実験1と実験2との間のそれぞれの測定についての実験システムの応答の間に相関はなく、2つの実験によってもたらされる生物学的特徴は(両方の実験から同じ平均的実験応答が誘発されるという事実にもかかわらず)比較可能でないことを示唆している。本明細書に記載されている比較可能性尺度は、異なる曝露、または異なる用量全体にわたっての同じ曝露を比較したときにネットワーク内の類似の、または類似していない生物学的特徴を識別するために使用されうる。このような尺度は、生物学者に、NPAスコアなどの、生物学的応答の実験結果または他の定量化を適切に理解するうえでより詳細な分析を必要とするネットワークの領域を指し示しうる。
生物学的機構の実験データおよびネットワークモデルを定量化し、種、系、または機構の間の類似の生物学的ネットワーク間の比較を可能にするためのシステムおよび方法が本明細書にさらに記載されているが、これは本明細書において「翻訳可能性」と称されている。翻訳可能性尺度は、そのような種、系、または機構の間の実験的攪乱データおよびスコア(NPAスコアなど)の適用性の指標を提供する。例えば、本明細書に記載されている翻訳可能性尺度は、in vivo実験とin vitro実験の比較、マウスの実験とヒトの実験との比較、ラットの実験とヒトの実験との比較、マウスの実験とラットの実験との比較、ヒト以外の霊長類の実験とヒトの実験との比較、および異なる処置に曝される(作用物質への曝露など)他の比較可能な種、系、または機構の比較のために使用されうる。
図1は、攪乱へのネットワークモデルの応答を定量化するためのコンピュータ化されたシステム100のブロック図である。特に、システム100は、システム応答プロファイルエンジン110、ネットワークモデリングエンジン112、およびネットワークスコア化エンジン114を備える。エンジン110、112、および114は、ときどき相互接続され、攪乱データベース102、測定可能要素データベース104、実験データデータベース106、および文献データベース108を含む、1つまたは複数のデータベースにときどきさらに接続される。本明細書で使用されているように、エンジンは、コンピュータ、マイクロプロセッサ、ロジックデバイス、またはハードウェア、ファームウェア、およびソフトウェアを用いて1つまたは複数の計算オペレーションを実行するように構成された、図14を参照しつつ記載されているような他の1つまたは複数のデバイスなどの、1つまたは複数の処理デバイスを備える。
図2は、一実装による、ネットワーク攪乱振幅(NPA)スコアを計算することによって攪乱への生物学的ネットワークの応答を定量化するためのプロセス200の流れ図である。プロセス200のステップは、図1のシステム100のさまざまなコンポーネントによって実行されるように記述されるが、これらのステップはいずれも、ローカルもしくはリモートの任意の好適なハードウェアコンポーネントまたはソフトウェアコンポーネントによって実行することができ、また任意の適切な順序に配置構成されるか、または並列実行されうる。ステップ210で、システム応答プロファイル(SRP)エンジン110は、さまざまな異なるソースから生物学的データを受け取り、データそれ自体は、さまざまな異なる型のものであってよい。データは、生物系が攪乱される実験からのデータ、さらには対照データを含む。ステップ212で、SRPエンジン110は、生物系内の1つまたは複数の実体が、生物系に対する作用物質の提示に応答して変化する程度の表現である、システム応答プロファイル(SRP)を生成する。ステップ214で、ネットワークモデリングエンジン112は、その1つが作用物質または目的の特徴に関連するものとして選択される複数のネットワークモデルを含む1つまたは複数のデータベースを提供する。この選択は、系の生物学的機能の基礎をなす機構の従来の知識に基づいてなされうる。いくつかの実装では、ネットワークモデリングエンジン112は、システム応答プロファイルを用いるシステム内の実体、データベース内のネットワーク、および文献にすでに記載されているネットワークの間の因果関係を抽出し、それにより、ネットワークモデルの生成、精密化、または拡張を行うことができる。ステップ216で、ネットワークスコア化エンジン114は、ネットワークモデリングエンジン112によってステップ214で識別されたネットワークおよびSRPエンジン110によってステップ212で生成されたSRPを使用してそれぞれの攪乱についてNPAスコアを生成する。NPAスコアは、生物学的実体(ネットワークによって表される)の間の基礎をなす関係の状況において攪乱または処置(SRPで表される)への生物学的応答を定量化する。開示をわかりやすくするため、また制限することなく、以下の記載を複数の節に分割する。
本開示との関連での生物系は、機能的部分を含む、生物または生物の一部であり、該生物は本明細書では被験体と称される。上記被験体は、一般的に、ヒトを含む、哺乳類である。上記被験体は、ヒト集団における個別のヒトとすることができる。本明細書で使用されているような「哺乳類」という用語は、限定はしないが、ヒト、ヒト以外の霊長類、マウス、ラット、イヌ、ネコ、ウシ、ヒツジ、ウマ、およびブタを含む。ヒト以外の哺乳類は、有利には、ヒトの疾患のモデルを提供するために使用されうる被験体として使用されうる。ヒト以外の被験体は、非改変であるか、または遺伝子組み換え動物(例えば、トランスジェニック動物、または1つもしくは複数の遺伝子変異またはサイレンシングされた遺伝子(1つまたは複数)を持つ動物)とすることができる。被験体は、オスまたはメスとすることができる。上記操作の目的に応じて、被験体は、目的の作用物質に曝露させた被験体とすることができる。被験体は、必要に応じて研究までの時間を含む、長期間にわたって作用物質に曝露させた被験体とすることができる。被験体は、一定の期間にわたって作用物質に曝露させたか、または該作用物質ともはや接触していない被験体とすることができる。被験体は、疾患を有しているものとして診断または識別された被験体とすることができる。被験体は、疾患または有害な健康状態の処置をすでに受けたか、または今受けている最中である被験体とすることができる。被験体は、特定の健康状態または疾患に対する1つまたは複数の症状もしくは危険因子を示す被験体とすることもできる。被験体は、疾患にかかりやすい被験体とすることができ、症状を示すか、または無症候性であるかのいずれかであってよい。いくつかの実装では、目的の疾患または健康状態は、作用物質への曝露、または長期間にわたる作用物質の使用に関連する。いくつかの実装によれば、上記システム100(図1)は、攪乱の種類または目的とする転帰に関連する1つまたは複数の生物系およびその機能の機構(まとめて、「生物学的ネットワーク」または「ネットワークモデル」)のコンピュータ化されたモデルを含むか、またはそれを生成する。
上記操作の環境(context)に応じて、生物系は、それが、集団における個別の生物、一般的に生物、器官、組織、細胞型、細胞小器官、細胞成分、または特定の個人の細胞(1つまたは複数)の機能に関係するとおりに異なるレベルで定義されうる。それぞれの生物系は、1つまたは複数の生物学的機構または経路を備え、上記操作はその系の機能的特徴として現れる。ヒト健康状態の定義された特徴を再現し、目的の作用物質への曝露について適している動物系は、好ましい生物系である。疾患の原因または病理に関わる細胞型および組織を反映する細胞および器官型系も、好ましい生物系である。in vivoでヒト生物学をできる限り反復する初代細胞または器官培養物を優先することも可能である。また、in vitroのヒト細胞培養物と動物モデルからin vivoで導出される最も等価の培養物とをマッチさせることも重要である。これは、基準系としてin vitroでマッチした系を使用してin vivoの動物モデルからヒト生物学への翻訳連続体(translational continuum)の創製を可能にする。したがって、本明細書に記載されているシステムおよび方法とともに使用することが企図されている生物系は、限定はしないが、機能的特徴(生物学的機能、生理学的機能、または細胞機能)、小器官、細胞型、組織種類、器官、発達段階、または上記の組み合わせによって定義されうる。生物系の例として、限定はしないが、肺系、外皮系、骨格系、筋肉系、神経系(中枢神経および末梢神経)、内分泌系、心血管系、免疫系、循環系、呼吸器系、泌尿器系、腎臓系、胃腸系、結腸直腸系、肝臓系、および生殖器系が挙げられる。生物系の他の例として、限定はしないが、上皮細胞、神経細胞、血液細胞、結合組織細胞、平滑筋細胞、骨格筋細胞、脂肪細胞、卵細胞、精子細胞、幹細胞、肺細胞、脳細胞、心臓細胞、喉頭細胞、咽頭細胞、食道細胞、胃細胞、腎細胞、肝細胞、乳腺細胞、前立腺細胞、膵臓細胞、島細胞、精巣細胞、膀胱細胞、頸部細胞、子宮細胞、結腸細胞、および直腸細胞のさまざまな細胞機能が挙げられる。これらの細胞のうちのいくつかは、in vitroで培養されるか、または適切な培養条件の下で無期限にin vitroで維持される細胞系の細胞であるものとしてよい。細胞機能の例として、限定はしないが、細胞増殖(例えば、細胞分裂)、変性、再生、老化、核による細胞活性の制御、細胞間シグナル伝達、細胞分化、細胞脱分化、分泌、遊走、食作用、修復、アポトーシス、および発生プログラミングが挙げられる。生物系として考えることができる細胞成分の例として、限定はしないが、細胞質、細胞骨格、膜、リボソーム、ミトコンドリア、核、小胞体(ER)、ゴルジ体、リソソーム、DNA、RNA、タンパク質、ペプチド、および抗体が挙げられる。
生物系における攪乱は、該生物系の1つまたは複数の部分を曝露させるか、または接触させることを通じて一定期間にわたって1つまたは複数の作用物質によって引き起こされうる。作用物質は、すべての構成成分が識別や特徴付けがなされるとは限らない混合物を含む、単一の物質または物質の混合物とすることができる。作用物質またはその構成成分の化学的および物理的特性は完全に特徴付けられない場合もある。作用物質は、その構造、その構成成分、またはある条件の下で該作用物質を生成する供給源によって定義されうる。作用物質の一例は、上記生物系中に存在も由来もしない分子もしくは実体であり、該生物系と接触した後にその作用物質から生成される任意の中間体または代謝産物である異物である。作用物質は、炭水化物、タンパク質、脂質、核酸、アルカロイド、ビタミン、金属、重金属、ミネラル、酸素、イオン、酵素、ホルモン、神経伝達物質、無機化合物、有機化合物、環境作用物質、微生物、粒子、環境条件、環境的影響力、または物理的力であってよい。作用物質の非限定的な例として、限定はしないが、栄養素、代謝廃棄物、毒物、麻薬、毒素、治療化合物、刺激物質、弛緩物質、天然物、製造物、食物、病原体(プリオン、ウイルス、細菌、真菌、原生生物)、寸法がマイクロメートル範囲またはそれ未満の粒子もしくは実体、上記のものの副産物、および上記のものの混合物が挙げられる。物理的作用物質の非限定的な例として、放射線、電磁波(太陽光を含む)、温度の上昇もしくは低下、剪断力、流体圧力、放電(1つまたは複数)またはそのシーケンス、あるいは外傷が挙げられる。
いくつかの作用物質は、閾値濃度で存在していない限り、または一定期間生物系と接触していない限り、またはその両方の組み合わせが生じていない限り生物系を攪乱しえない。攪乱を結果として引き起こす作用物質への曝露または接触は、用量に関して定量化されうる。したがって、攪乱は、作用物質への長期的曝露の結果生じうる。曝露の期間は、時間の単位で、曝露の頻度で、または上記被験体の実際のもしくは推定される寿命における時間のパーセンテージで表すことができる。攪乱は、生物系の1つまたは複数の部分に、作用物質の供給源から作用物質(上に記載されているような)を供給しないようにするか、または作用物質の供給を制限することによって引き起こされることもある。例えば、攪乱は、栄養素、水、炭水化物類、タンパク質、脂質、アルカロイド、ビタミン、ミネラル、酸素、イオン、酵素、ホルモン、神経伝達物質、抗体、サイトカイン、光の供給不足もしくは欠如によって、または生物のいくつかの部分の移動を制約することによって、または運動を抑圧もしくは要求することによって引き起こされうる。
作用物質は、上記生物系のどの部分(1つまたは複数)が曝露されるか、および曝露条件によって異なる攪乱を引き起こしうる。作用物質の非限定的な例は、タバコを加熱することによって発生したエアロゾル、タバコを燃焼させることによって発生したエアロゾル、タバコの煙、紙巻きタバコの煙、およびこれらのガス状構成成分または粒子状構成成分のいずれかを含みうる。作用物質のさらなる非限定的な例として、カドミウム、水銀、クロム、ニコチン、タバコ特有のニトロソアミン類およびその代謝物(4−(メチルニトロソアミノ)−1−(3−ピリジル)−1−ブタノン(NNK)、N’−ニトロソノルニコチン(NNN)、N−ニトロソアナタビン(NAT)、N−ニトロソアナバシン(NAB)、4−(メチルニトロソアミノ)−1−(3−ピリジル)−1−ブタノール(NNAL)など)、およびニコチン置換療法のために使用される生成物が挙げられる。作用物質または複合刺激物についての曝露処方計画は、毎日の設定における曝露の範囲および環境を反映すべきである。一群の標準的な曝露処方計画は、同様に定義の明確な(equally well−defined)実験系に体系的に適用されるように設計されうる。それぞれのアッセイは、初期と後期の事象の両方を捕らえ、代表的な用量範囲が確実にカバーされるように時間および用量依存のデータを収集するように設計することが可能である。しかし、当業者であれば、本明細書に記載されているシステムおよび方法が取り扱われる適用に適しているように適合され改変されうること、また本明細書において設計されているシステムおよび方法が他の好適な適用において使用されうること、またそのような他の追加および改変が本発明の範囲から逸脱しないことを理解する。
さまざまな実装において、遺伝子の発現、タンパク質の発現もしくはタンパク質の代謝回転、マイクロRNAの発現もしくはマイクロRNAの代謝回転、翻訳後修飾、タンパク質修飾、転座、抗体産生代謝産物プロファイル、または上記のうちの2つ以上のものの組み合わせに対する系全体にわたるハイスループット測定が、各対照を含むさまざまな条件の下で生成される。これらは、一般的に、上記評価のためのアンカーとして働き、疾患の原因における明確なステップを表すことができるので、機能転帰測定は、本明細書に記載されている方法において望ましい。
本明細書で使用されているような「サンプル」は、被験体または実験系(例えば、細胞、組織、器官、または動物全体)から分離される任意の生体サンプルを指す。サンプルは、限定はしないが、単細胞もしくは多細胞、細胞画分、組織生検、切除組織、組織抽出物、組織、組織培養抽出物、組織培養基、吐き出されたガス、全血、血小板、血清、血漿、赤血球、白血球、リンパ球、好中球、マクロファージ、B細胞もしくはそのサブセット、T細胞もしくはそのサブセット、造血細胞のサブセット、内皮細胞、滑液、リンパ液、腹水、間質液、骨髄、脳脊髄液、胸水、腫瘍浸潤物、唾液、粘液、痰、精液、汗、尿、または任意の他の体液を含むことができる。サンプルは、限定はしないが、静脈穿刺、排泄、生検、針吸引、洗浄、擦過、外科的切除、または当技術分野で公知の他の手段を含む手段によって被験体から得ることができる。
操作中に、所与の生物学的機構、転帰、攪乱、または上記の組み合わせについて、上記システム100は、処置条件に応答してネットワークにおける生物学的実体のステータスの変化の定量的尺度である、ネットワーク攪乱振幅(NPA)値を生成することができる。
上記システム100(図1)は、目的の健康状態、疾患、または生物学的転帰に関連する1つまたは複数のコンピュータ化されたネットワークモデル(1つまたは複数)を備える。これらのネットワークモデルのうちの1つまたは複数は、以前の生物学的知識に基づいており、外部ソースからアップロードされ、該システム100内で精選されうる。上記モデルは、測定結果に基づき上記システム100内で新たに生成することもできる。測定可能な要素は、以前の知識を用いることで生物学的ネットワークモデルへと因果的に組み込まれる。以下では、ネットワークモデルを生成もしくは精密化するために使用されうる目的の生物系における変化を表す、または攪乱への応答を表すデータの型について記載する。
図2を再び参照すると、ステップ210で、上記システム応答プロファイル(SRP)エンジン110は、生物学的データを受け取る。上記SRPエンジン110は、さまざまな異なるソースからこのデータを受け取ることができ、該データそれ自体は、さまざまな異なる型のものであり得る。上記SRPエンジン110によって使用される生物学的データは、文献、データベース(医薬品または医療デバイスの前臨床試験、臨床試験、および臨床後試験からのデータを含む)、ゲノムデータベース(ゲノム配列および発現データ、例えば、National Center for Biotechnology InformationによるGene Expression OmnibusまたはEuropean Bioinformatics InstituteによるArrayExpress(Parkinsonら、2010年、Nucl. Acids Res.、doi: 10.1093/nar/gkql040. Pubmed ID 21071405))、市販のデータベース(例えば、Gaithersburg、MD、USAのGene Logic)、または実験研究から取り出すことができる。上記データは、特定の処置条件の効果、または特定の作用物質への曝露の効果を研究するように特に設計されている1つまたは複数の種を用いてin vitro実験、ex vivo実験、またはin vivo実験などの1つまたは複数の異なるソースからの生データを含むものとしてよい。in vitro実験系は、ヒトの疾患の重要側面を表す組織培養または器官型培養(三次元培養)を含みうる。このような実装では、これらの実験のための作用物質の用量決定および曝露の処方計画は、通常の使用もしくは活性状態の間、または特別な使用もしくは活性状態の間、ヒトについて予想されうる曝露の範囲および環境を実質的に反映することができる。実験パラメータおよび試験条件は、上記作用物質および上記曝露条件の性質、問題の生物系の分子および経路、関与する細胞型および組織、目的の転帰、および疾患の原因の側面を反映することが望まれているとおりに選択されうる。特定の動物モデル由来分子、細胞、または組織は、特定のヒト分子、細胞または組織培養物とマッチさせて、動物ベースの所見の翻訳性(translatability)を改善することができる。
ハイスループットの実験技術によって多くが生成されるSRPエンジン110によって受け取られるデータは、限定はしないが、核酸に関係するもの(例えば、特定DNAもしくはRNA種の絶対的または相対的な量、DNA配列、RNA配列の変化、三次構造の変化、または、配列決定によって決定されるようなメチル化パターン、特にマイクロアレイ上の核酸に対するハイブリダイゼーション、定量的ポリメラーゼ連鎖反応、あるいは当技術分野で公知の他の技術)、タンパク質/ペプチド(例えば、絶対的または相対的な量のタンパク質、タンパク質の特定の断片、ペプチド、二次または三次構造の変化、または当技術分野で公知の方法によって決定されるような翻訳後修飾)、および機能的活性(例えば、酵素活性、タンパク質分解活性、転写調節活性、輸送活性、いくつかの結合パートナーへの結合親和力)を、いくつかの条件の下で、とりわけ含む。タンパク質またはペプチドの翻訳後修飾を含む修飾は、限定はしないが、メチル化、アセチル化、ファルネシル化、ビオチン化、ステアロイル化、ホルミル化、ミリストイル化、パルミトイル化、ゲラニルゲラニル化、ペグ化、リン酸化、硫酸化、グリコシル化、糖修飾、脂質化、脂質修飾、ユビキチン化、スモイル化、ジスルフィド結合、システイニル化、酸化、グルタチオン化、カルボキシル化、グルクロン酸化、および脱アミドを含むことができる。それに加えて、タンパク質は、アマドリ反応、シッフ塩基反応、および糖化タンパク質生成物を生じるメイラード反応などの一連の反応によって翻訳後修飾されうる。
上記データは、限定はしないが、細胞レベルでは細胞増殖、発生的運命、および細胞死を含むもの、生理学的レベルでは、肺気量、血圧、運動熟達度などの、測定された機能的転帰も含みうる。上記データは、限定はしないが、腫瘍転移、腫瘍寛解、機能消失、および疾患の特定の段階における平均余命などの、疾患活性または疾患重症の尺度も含みうる。疾患活性は、臨床的評価によって測定することができ、その結果は、値であるか、または定められた条件の下での1体または複数体の被験体からサンプル(またはサンプルの集団)の評価から得ることができる値の組である。臨床的評価は、被験体による面接またはアンケートに対する回答に基づくものとすることもできる。
このデータは、システム応答プロファイルを決定する際に使用するため明示的に生成されている場合があるか、または以前の実験でもたらされたか、または文献に公開されている場合もある。一般的に、上記データは、分子、生物学的構造、生理学的状態、遺伝形質、または表現型に関係する情報を含む。いくつかの実装では、上記データは、分子の状態、配置、量、活性、または下部構造、生物学的構造、生理学的状態、遺伝形質、または表現型の記述を含む。後に記載するように、臨床現場では、上記データは、作用物質に曝露された、ヒト被験体から得られたサンプルに対して実施されたアッセイまたはヒト被験体に関する観察結果から得られる生データまたは処理済みデータを含みうる。
ステップ212で、システム応答プロファイル(SRP)エンジン110は、ステップ212で受け取った生物学的データに基づいてシステム応答プロファイル(SRP)を生成する。このステップは、バックグラウンド補正、正規化、倍率変化計算、有意性決定、および差次的応答の識別(例えば、差次的に発現する遺伝子)のうちの1つまたは複数を含みうる。SRPは、生物系内の1つまたは複数の測定された実体(例えば、分子、核酸、ペプチド、タンパク質、細胞など)が生物系に適用される攪乱(例えば、作用物質への曝露)に応答して個別に変化する程度を表す表現である。一例において、SRPを生成するために、SRPエンジン110は、所与の実験系(「システム−処置」ペア)に適用されるパラメータの所与の組(例えば、処置もしくは攪乱条件)に対する測定値の組を収集する。図3は、2つのSRP、つまり、種々のパラメータ(例えば、第1の処置作用物質への曝露の用量および時間)を用いて第1の処置306を受けるN個の異なる生物学的実体についての生物活性データを含むSRP302、および第2の処置308を受けるN個の異なる生物学的実体についての生物活性データを含む類似のSRP304を示している。SRPに含まれるデータは、生の実験データ、処理済み実験データ(例えば、外れ値を除外するためにフィルタリングされている、信頼度推定でマークされている、多数の試行にわたって平均がとられている)、計算生物学的モデルによって生成されたデータ、または科学文献から取ったデータであってよい。SRPは、絶対値、絶対変化、倍率変化、対数変化、関数、および表などの、さまざまな方法でデータを表すことができる。SRPエンジン110は、SRPをネットワークモデリングエンジン112に渡す。
前のステップで導出されたSRPはネットワーク攪乱の大きさが、それによって決定されることになる実験データを表しているが、計算および解析のための基盤であるのは生物学的ネットワークモデルである。この解析は、生物系の特徴に関連する機構および経路の詳細なネットワークモデルの開発を必要とする。このようなフレームワークは、より古典的な遺伝子発現の解析で使用されている遺伝子リストの調査を超える機構的理解の1つの層を提供する。生物系のネットワークモデルは、動的生物系を表し、生物系のさまざまな基本的特性に関する定量的情報をアセンブルすることによって構築される数学的構築体である。
このようなネットワークの構築は、反復プロセスである。ネットワークの境界の線引きは、目的の過程(例えば、肺における細胞増殖)に関連する機構および経路の文献調査よって導かれる。これらの経路を記述する因果関係は、ネットワークの核をなす従来の知識から抽出される。文献ベースのネットワークは、関連する表現型端点を含むハイスループットデータセットを用いて検証されうる。SRPエンジン110はデータセットを解析するために使用することができ、この結果を使用してネットワークモデルを確認し、精密化し、または生成することができる。
図2を再び参照すると、ステップ214で、ネットワークモデリングエンジン112は、目的の生物系の特徴の基礎をなす機構(1つまたは複数)または経路(1つまたは複数)に基づくネットワークモデルとともにSRPエンジン110からのシステム応答プロファイルを使用している。いくつかの態様では、上記ネットワークモデリングエンジン112は、SRPに基づいてすでに生成されているネットワークを識別するために使用される。上記ネットワークモデリングエンジン112は、モデルへの更新および変更を受け取るためのコンポーネントを備えることができる。上記ネットワークモデリングエンジン112は、新規データを組み込み、追加の、または精密化されたネットワークモデルを生成して、ネットワーク生成のプロセスを反復することもできる。また上記ネットワークモデリングエンジン112は、1つもしくは複数のデータセットのマージまたは1つもしくは複数のネットワークのマージを円滑にすることもできる。データベースから取り出されたネットワークの組は、追加のノード、エッジ、または全く新しいネットワークによって(例えば、特定の生物学的実体によって直接調節される追加の遺伝子の記述について文献のテキストをマイニングすることによって)手動で補うことができる。これらのネットワークは、プロセススコア化を使用可能にすることができる特徴を含む。ネットワークトポロジーが維持され、因果関係のネットワークは、ネットワークにおける任意の地点から測定可能な実体まで追跡されうる。さらに、これらのモデルは動的であり、それらのモデルを組み立てる(build)ために使用される仮定は、改変または言い換えることができ、異なる組織の環境および種に適合性を与えることができる。これは、新しい知識が利用可能になると反復試験および改善を可能にする。上記ネットワークモデリングエンジン112は、信頼度の低い、または科学文献に記載されている実験結果と食い違う対象となるノードまたはエッジを除去することができる。上記ネットワークモデリングエンジン112は、監督された学習または監督のない学習の方法(例えば、計量学習、行列補完、パターン認識)を用いて推論できる追加のノードまたはエッジを備えることもできる。
いくつかの態様において、生物系は、頂点(またはノード)と該ノード同士を接続するエッジからなる数学的なグラフとしてモデル化される。例えば、図4は、9個のノード(ノード402および404を含む)とエッジ(406および408)とを備える単純ネットワーク400を示している。上記ノードは、限定はしないが、化合物、DNA、RNA、タンパク質、ペプチド、抗体、細胞、組織、および器官などの、生物系における生物学的実体を表すものとすることができる。上記エッジは、上記ノード間の関係を表しうる。上記グラフ内のエッジは、上記ノード間の関係を表しうる。例えば、エッジは、「に結合する」関係、「で表される」関係、「発現プロファイリングに基づいて共調節される」関係、「阻害する」関係、「原稿中に共出現する」関係、または「構造要素を共有する」関係を表しうる。一般的に、これらの種類の関係は、一対のノードの間の関係を記述する。上記グラフにおけるノードは、ノード間の関係も表しうる。したがって、上記グラフで表される、関係の間の関係(relationships between relationships)、または1つの関係と別の種類の生物学的実体との間の関係を表すことが可能である。例えば、化学物質を表す2つのノードの間の関係は、反応を表すものとすることができる。この反応は、反応と反応を阻害する化学物質との間の関係のノードとすることができる。
グラフは、無向グラフであってもよく、それぞれのエッジに関連付けられている2つの頂点を区別しないことを意味する。代替的に、グラフのエッジは、一方の頂点から別の頂点へ有向であってもよい。例えば、生物学的な環境において、転写調節ネットワークおよび代謝ネットワークは、有向グラフとしてモデル化されうる。転写調節ネットワークのグラフモデルでは、ノードは遺伝子を表し、エッジはそれらの遺伝子の間の転写関係を示す。別の例として、タンパク質間相互作用ネットワークは、生物のプロテオームにおけるタンパク質間の直接的な物理的相互作用を記述し、そのようなネットワークにおける相互作用に関連付けられている方向はないことが多い。そのため、これらのネットワークは、無向グラフとしてモデル化することができる。いくつかのネットワークは、有向と無向の両方のエッジを有することができる。グラフを構成する実体および関係(つまり、上記ノードおよびエッジ)は、システム100内のデータベースにおける相互に関連付けられているノードのウェブとして記憶されうる。
上記データベース内で表される知識は、さまざまな異なるソースから引き出される、さまざまな異なる種類の知識であってよい。例えば、特定のデータは、遺伝子に関する情報、および遺伝子間の関係を含む、ゲノムデータベースを表しうる。このような一例では、ノードは、がん遺伝子を表し、そのがん遺伝子ノードに接続されている別のノードは、該がん遺伝子を阻害する遺伝子を表すことができる。上記データは、タンパク質、およびタンパク質間の関係、疾患およびそれらの相互関係、ならびにさまざまな疾患状態を表すことができる。図形表現で組み合わせることができる多くの異なる型のデータが存在する。計算モデルは、例えば、DNAデータセット、RNAデータセット、タンパク質データセット、抗体データセット、細胞データセット、組織データセット、器官データセット、医療データセット、疫学データセット、化学データセット、毒物学データセット、患者データセット、および集団データセットにおける知識を表すノード間の関係のウェブを表すものとしてよい。本明細書で使用される場合、データセットは、定められた条件の下でサンプル(またはサンプルの群)の評価の結果得られる数値の集合である。データセットは、例えば、サンプルの定量化可能な実体を実験的に測定することによって、または代替的に、または研究所、臨床研究組織などのサービスプロバイダーから、または公開もしくは専用データベースから得ることができる。データセットは、データ、およびノードによって表される生物学的実体を含むことができ、該データセットのそれぞれにおけるノードは、同じデータセットにおける、または他のデータセットにおける他のノードと関係していてもよい。さらに、上記ネットワークモデリングエンジン112は、例えば、DNA、RNA、タンパク質、または抗体のデータセットにおける遺伝情報から、医療データセットにおける医療情報、患者データセットにおける、また集団全体では、疫学データセットにおける個別の患者に関する情報までを表す計算モデルを生成することができる。上に記載されているさまざまなデータセットに加えて、他の多くのデータセット、または計算モデルを生成するときに含めることができる生物学的情報の種類がありうる。例えば、データベースはさらに、医療記録データ、構造/活性関係データ、伝染病理に関する情報、臨床試験に関する情報、曝露パターンデータ、生成物の使用履歴に関係するデータ、および他の任意の種類の生命科学関係の情報を含むことも可能である。
上記ネットワークモデリングエンジン112は、例えば、遺伝子間の調節相互作用、タンパク質間の相互作用、または細胞もしくは組織における複雑な生化学的相互作用を表す1つまたは複数のネットワークモデルを生成することができる。上記ネットワークモデリングエンジン112によって生成されたネットワークは、静的モデルおよび動的モデルを含むことができる。上記ネットワークモデリングエンジン112は、任意の適用可能な数学的スキームを使用して、ハイパーグラフおよび重みづけ二部構成グラフ(weighted bipartite graph)などの、システムを表すことができ、そこでは、ノードの2つの種類が反応および化合物を表すために使用される。上記ネットワークモデリングエンジン112は、発現量に差のある遺伝子内の機能関係遺伝子の過剰表現に基づく解析、ベイジアンネットワーク解析、グラフィカルガウスモデル技術、または遺伝子関連性ネットワーク技術などの他の推論技術を用いてネットワークモデルを生成して、実験データの組(例えば、遺伝子発現、代謝産物濃度、細胞応答など)に基づき関連する生物学的ネットワークを識別することもできる。
上に記載されているように、上記ネットワークモデルは、生物系の機能的特徴の基礎をなす機構および経路に基づく。上記ネットワークモデリングエンジン112は、作用物質の長期的な健康上のリスクまたは健康上の利益の研究に関連する生物系の特徴に関する結果を表すモデルを生成するか、または含むことができる。したがって、上記ネットワークモデリングエンジン112は、細胞機能、特に、限定はしないが、細胞増殖、細胞性ストレス、細胞再生、アポトーシス、DNA損傷/修復、または炎症応答を含む、生物系内の目的の特徴に関係するか、または寄与する機能の、さまざまな機構についてのネットワークモデルを生成するか、または含むことができる。他の実施形態では、上記ネットワークモデリングエンジン112は、急性全身毒性、発がん性、皮膚透過、心血管疾患、肺疾患、生態毒性、目の洗浄/腐食、遺伝毒性、免疫毒性、神経毒性、薬物動態、薬物代謝、器官毒性、生殖および発達毒性、皮膚刺激/腐食、または皮膚感作性に関連する、計算モデルを含むか、または生成することができる。一般的に、上記ネットワークモデリングエンジン112は、核酸(DNA、RNA、SNP、siRNA、miRNA、RNAi)、タンパク質、ペプチド、抗体、細胞、組織、器官、および任意の他の生物学的実体のステータス、ならびにそれらの各相互作用についての計算モデルを含むか、または生成することができる。一例において、計算ネットワークモデルは、免疫応答または炎症反応の間の免疫系のステータスおよびさまざまな種類の白血球の機能を表すために使用されうる。他の例において、計算ネットワークモデルは、心血管系の性能ならびに内皮細胞の機能および代謝を表すために使用するとこも可能である。
本開示のいくつかの実装では、上記ネットワークは、生物学的因果関係知識のデータベースから引き出される。このデータベースは、異なる生物学的機構の実験研究を実施して、そのいくつかが因果関係であってもよい機構間の関係(例えば、活性化または阻害関係)を抽出することによって生成され、Cambridge、Massachusetts、USAのSelventa Inc.によって精選された、Genstruct Technology PlatformまたはSelventa Knowledgebaseなどの、市販のデータベースと組み合わせることができる。生物学的因果関係知識のデータベースを使用することで、上記ネットワークモデリングエンジン112は、攪乱102および測定可能要素104(measurable104)をリンクするネットワークを識別することができる。いくつかの実装では、上記ネットワークモデリングエンジン112は、SRPエンジン110からのシステム応答プロファイルと文献においてすでに生成されているネットワークとを使用して生物学的実体の間の因果関係を抽出する。他の処理ステップのうちで、上記データベースをさらに処理して、論理的矛盾を取り除き、生物学的実体の異なる組の間に相同的推論を適用することによって新しい生物学に関する知識を生み出すことができる。
いくつかの実装では、上記データベースから抽出されたネットワークモデルは、逆因果的推論(RCR)に基づくが、これは因果関係のネットワークを処理して機構仮説を立て、次いで、示差測定結果のデータセットに対してそれらの機構仮説を評価する自動化推論技術である。それぞれの機構仮説は、生物学的実体を、その実体が影響を及ぼしうる測定可能な量にリンクさせる。例えば、測定可能な量として、とりわけ、生物学的実体の濃度、個数、または相対存在量の増減、生物学的実体の活性化もしくは阻害、または生物学的実体の構造、機能、または論理の変化が挙げられ得る。RCRでは、計算のための基盤として生物学的実体の間の実験的に観察される因果的相互作用の有向ネットワークを使用する。上記有向ネットワークは、生物学的実体の間の相互関係を記録するための構文である、Biological Expression Language(商標)(BEL(商標))で表すことができる。上記RCRの計算では、限定はしないが、経路長(上流ノードと下流ノードとを接続するエッジの最大数)などのネットワークモデル生成、および上流ノードを下流ノードに接続する可能な因果的経路に対するいくつかの制約条件を指定する。RCRの出力は、関連性および精度を評価する統計量によって順位化された、実験測定結果の差異の上流制御機構(upstream controller)を表す機構仮説の組である。上記機構仮説出力をアセンブルして、因果連鎖およびより大きなネットワークを形成し、相互接続されている機構および経路のより高いレベルで上記データセットを解釈することができる。
機構仮説の一種は、潜在的原因を表すノード(上流ノードまたは制御機構)と測定された量を表すノード(下流ノード)との間に存在する因果関係の組を含む。この種類の機構仮説は、上流ノードによって表されている実体の存在量が増えた場合に、因果増大関係によってリンクされる下流ノードが増大すると推論され、因果減少関係によってリンクされる下流ノードが減少すると推論されるなどの、予測を行うために使用することができる。
機構仮説は、測定されたデータ、例えば、遺伝子発現データの組と、それらの遺伝子の公知の制御機構である生物学的実体との間の関係を表す。それに加えて、これらの関係は、上流実体と下流実体(例えば、下流遺伝子)の差示的発現との間の影響の符号(正または負)を含む。機構仮説の下流実体は、文献で精選されている生物学的因果関係知識のデータベースから引き出されうる。いくつかの実装では、計算可能な因果関係ネットワークモデルの形態の、上流実体を下流実体にリンクする機構仮説の因果関係は、上記NPAスコア化法によるネットワーク変化の計算のための基盤である。
いくつかの実施形態では、生物学的実体の複雑な因果関係ネットワークモデルは、該モデルにおける生物系のさまざまな特徴を表す個別の機構仮説を収集し、すべての上記下流実体(例えば、下流遺伝子)と単一の上流実体または過程との接続を再編成することによって単一の因果関係ネットワークモデルに変換され、これにより、複雑な因果関係ネットワークモデル全体を表すことができ、これは本質的に基礎をなすグラフ構造の平坦化である。したがって、ネットワークモデルで表されているような生物系の特徴および実体の変化は、個別の機構仮説を組み合わせることによって評価することができる。いくつかの実装では、因果ネットワークモデル内のノードのサブセット(本明細書では「バックボーンノード」と称される)は、測定されない、または簡便に、もしくは経済的に測定されえない実体に対応する生物学的実体の第1の組、例えば、生物系内の重要な主体(key actor)の生物学的機構または活動を表し、ノードの別のサブセット(本明細書では「サポーティングノード」と称される)は、測定することができ、また計算のため値が実験的に決定され、データセットで提示される生物系内の生物学的実体の第2の組、例えば、生物系内の複数の遺伝子の発現レベルを表す。図10は、4つのバックボーンノード1002、1004、1006、および1008、ならびにバックボーンノードの間の、またバックボーンノードからサポーティング遺伝子発現ノード1010、1012、および1014の群へのエッジを含む例示的なネットワークを示している。図10内のそれぞれのエッジは、有向であり(つまり、因果関係の方向を表す)、符号付き(つまり、正または負の調節を表す)である。このタイプのネットワークは、いくつかの生物学的実体または機構(例えば、特定の酵素の存在量または活性化の増大と同じくらい固有である量から増殖因子シグナル伝達経路のステータスを反映するものと同じくらい複雑である量までの範囲の)と、正または負に調節される他の下流の実体(例えば、遺伝子発現レベル)との間に存在する因果関係の組を表しうる。
いくつかの実装では、上記システム100は、上記細胞が紙巻きタバコの煙に曝露されているときの細胞増殖の機構についてのコンピュータ化されたモデルを含むか、または生成することができる。このような一例では、上記システム100は、限定はしないが、がん、肺疾患、および心血管疾患を含む、紙巻きタバコの煙の曝露に関連するさまざまな健康状態を表す1つまたは複数のネットワークモデルを含むか、または生成することもできる。いくつかの態様において、これらのネットワークモデルは、適用される攪乱(例えば、作用物質への曝露)、さまざまな条件の下での応答、目的の測定可能な量、調査されている転帰(例えば、細胞増殖、細胞性ストレス、炎症、DNA修復)、実験データ、臨床データ、疫学データ、および文献のうちの少なくとも1つに基づく。
図示されている一例として、上記ネットワークモデリングエンジン112は、細胞性ストレスのネットワークモデルを生成するように構成されうる。上記ネットワークモデリングエンジン112は、文献データベースから公知のストレス応答に関わる関連する機構を記述するネットワークを受け取ることができる。上記ネットワークモデリングエンジン112は、肺および心血管の環境でのストレスに応答して動作することが公知の生物学的機構に基づいて1つまたは複数のネットワークを選択することができる。いくつかの実装では、上記ネットワークモデリングエンジン112は、生物系内の1つまたは複数の機能単位を識別し、より小さなネットワークをそれらの機能性に基づいて組み合わせることによってより大きなネットワークモデルを組み立てる。特に、細胞性ストレスモデルについては、上記ネットワークモデリングエンジン112は、酸化的ストレス、遺伝毒性ストレス、低酸素ストレス、浸透ストレス、生体異物ストレス、および剪断応力への応答に関係する機能単位を考慮することができる。したがって、細胞性ストレスモデルに対するネットワーク成分(network component)は、生体異物代謝応答、遺伝毒性ストレス、内皮剪断応力、低酸素応答、浸透ストレス、および酸化的ストレスを含みうる。上記ネットワークモデリングエンジン112は、特定の細胞群において実施されたストレス関連実験からの公に入手可能なトランスクリプトームデータの計算解析からの内容を受け取ることもできる。
生物学的機構のネットワークモデルを生成するときに、ネットワークモデリングエンジン112は、1つまたは複数のルールを含むことができる。このようなルールは、ネットワーク内容、ノードの種類などを選択するためのルールを含んでよい。上記ネットワークモデリングエンジン112は、in vitroおよびin vivoの実験結果の組み合わせを含む、実験データのデータベース106から1つまたは複数のデータセットを選択することができる。上記ネットワークモデリングエンジン112は、実験データを利用して、文献において識別されているノードおよびエッジを検証することができる。細胞性ストレスのモデリングの例において、上記ネットワークモデリングエンジン112は、疾患のない肺または心血管組織において実験が生理学的に関連するストレスをどれほどうまく表しているかに基づき実験についてのデータセットを選択することができる。データセットの選択は、例えば、表現型ストレスのエンドポイントデータの利用可能性、遺伝子発現プロファイリング実験の統計的厳密さ、および通常の疾患のない肺または心血管の生物学との実験の環境との関連性に基づくものとすることができる。
関連するネットワークの集合を識別した後、上記ネットワークモデリングエンジン112はさらに、これらのネットワークを処理し、精密化することができる。例えば、いくつかの実装では、複数の生物学的実体およびそれらの接続は、グループ化され、新しい1つまたは複数のノードによって表されうる(例えば、クラスタリングまたは他の技術を使用して)。
上記ネットワークモデリングエンジン112はさらに、識別されたネットワークにおけるノードおよびエッジに関する記述的情報を含むものとしてよい。上に記載されているように、ノードは、その関連する生物学的実体、該関連する生物学的実体が測定可能な量であるか否かの指示、または該生物学的実体の任意の他の記述子によって記述され、その一方、エッジは、例えば、エッジが表す関係の種類(例えば、アップレギュレーションまたはダウンレギュレーション、相関、条件付き依存性、または非依存性などの因果関係)、その関係の強さ、またはその関係における統計的信頼度によって記述されうる。いくつかの実装では、それぞれの処置について、測定可能な実体を表すそれぞれのノードは、上記処置に応答する活性の変化の予測される方向(つまり、増加または減少)に関連付けられている。例えば、気管支上皮細胞が、腫瘍壊死因子(TNF)などの作用物質に曝露される場合、特定の遺伝子の活性が増大しうる。この増大は、文献から公知である(またネットワークモデリングエンジン112によって識別されたネットワークのうちの1つで表される)直接的調節関係があるため、またはネットワークモデリングエンジン112によって識別されたネットワークのうちの1つまたは複数のエッジを通じて多数の調節関係(例えば、自己分泌シグナリング)を追跡することによって生じうる。いくつかの場合において、上記ネットワークモデリングエンジン112は、上記測定可能な実体のそれぞれについて、特定の攪乱に応答して、変化の予測される方向を識別することができる。上記ネットワークにおける異なる経路が特定の実体についての変化の相反する予測される方向を示す場合、それら2つの経路は、変化の正味の方向を決定するためにさらに詳しく調査されうるか、またはその特定の実体の測定結果が破棄されうる。
本明細書において提示されている計算方法およびシステムは、実験データおよび計算ネットワークモデルに基づきNPAスコアを計算する。計算ネットワークモデルは、システム100によって生成されるか、システム100内にインポートされるか、またはシステム100内で(例えば、生物学的知識のデータベースから)識別されうる。ネットワークモデル内の攪乱の下流の効果として識別される実験測定値は、ネットワーク特有の応答スコアの生成において組み合わされる。したがって、ステップ216で、ネットワークスコア化エンジン114は、ネットワークモデリングエンジン112によってステップ214で識別されたネットワークおよびSRPエンジン110によってステップ212で生成されたSRPを使用してそれぞれの攪乱についてNPAスコアを生成する。NPAスコアは、生物学的実体(識別されたネットワークによって表される)の間の基礎をなす関係の状況において処置(SRPで表される)への生物学的応答を定量化する。ネットワークスコア化エンジン114は、ネットワークモデリングエンジン112内に含まれるか、またはネットワークモデリングエンジン112によって識別されたネットワークのそれぞれについてNPAスコアを生成するためのハードウェア構成要素およびソフトウェア構成要素を備えることができる。
ネットワークスコア化エンジン114は、攪乱に対するネットワークの応答の大きさおよびトポロジー分布を示すスカラー値またはベクトル値のスコアを生成する技術を含む、一群のスコア化技術のうちのいずれかを実装するように構成されうる。
追加のスコア化技術は、いくつかの用途において有利に応用することができ、また、同じ生物学的ネットワーク上の異なる実験同士の比較を可能にする(本明細書では「比較可能性」と称される)、または種、系、または機構の間の類似の生物学的ネットワーク同士の比較を可能にする(本明細書では「翻訳可能性」と称される)ように拡張されうる。次に、一群のスコア化技術について、比較可能性および翻訳可能性を評価するための技術と併せて記載する。
図5は、作用物質に応答する生物系の攪乱を定量化するための例示的なプロセス500の流れ図である。プロセス500は、例えば、ネットワークスコア化エンジン114、またはシステム100の任意の他の適切に構成された1つまたは複数のコンポーネントによって実装されうる。特に、生物学的実体の第1の組が測定されうる(つまり、生物学的実体の第1の組について処置データと対照データとが測定される)が、生物学的実体の第2の組は、測定されえない(つまり、生物学的実体の第2の組について処置データも対照データも測定されない)。データは、いくつもの理由から生物学的実体の第2の組について容易に入手可能であるとは限らない(または限られた量が入手可能であり得る)。例えば、生物学的実体の第2の組に対応するデータは、取得が特に困難であるか、または生物学的実体の第2の組は、生物学的実体の別の容易に測定可能な組に関係付けられ、これにより、データは測定可能な組から容易に推論することができる。
作用物質に応答する生物系の攪乱を定量化するために、ネットワークスコア化エンジン114は、攪乱への生物学的機構の応答を表す数値である、NPAスコアを計算することができる。NPAスコアを計算するための一方法では、直接的に測定されるデータ(つまり、上記の例における生物学的実体の第1の組に対応する)のみを使用する。しかし、このアプローチは、生物学的機構に対する攪乱の影響を判定するために潜在的に使用されうるデータのサブセットに制限される。特に、直接測定されない生物学的実体の別の組(つまり、上記の例における生物学的実体の第2の組に対応する)があってよいが、NPAスコアに対する情報を提供することができる。この場合、生物学的実体の未測定の組は、測定された組に関係していてもよく、それによりネットワークスコア化エンジン114は、この測定可能な組から未測定の組に関係するデータを推論することができる。そこで、NPAスコアは、測定されたデータ、推論されたデータ、または両方の組み合わせに基づくものとしてよい。図5のプロセス500は、推論されたデータに基づきNPAスコアを計算するための方法を記述する。
ステップ502で、ネットワークスコア化エンジン114は、生物系内の生物学的実体の第1の組に対する処置データおよび対照データを受け取る。処置データは、作用物質への生物学的実体の第1の組の応答に対応するが、対照データは、作用物質の非存在への生物学的実体の第1の組の応答に対応する。生物系は、生物学的実体の第1の組(処置データおよび対照データをステップ502で受け取る)、さらには生物学的実体の第2の組(処置データおよび対照データを受け取ることはできない)を含む。生物系内のそれぞれの生物学的実体は、生物系内の生物学的実体の他の少なくとも1つと相互作用し、特に、第1の組の少なくとも1つの生物学的実体は第2の組内の少なくとも1つの生物学的実体と相互作用する。生物系内の生物学的実体の間の関係は、生物学的実体の第1の組を表すノードの第1の組、生物学的実体の第2の組を表すノードの第2の組、およびノードを接続し生物学的実体の間の関係を表すエッジを含む計算ネットワークモデルによって表すことができる。計算ネットワークモデルは、ノードに対する方向値も含むことができ、これは対照データと処置データとの間の変化(例えば、活性化または抑制)の予想される方向を表す。このようなネットワークモデルの例は、上に詳しく記載されている。
ステップ504で、ネットワークスコア化エンジン114は、生物学的実体の第1の組における生物学的実体に対する活性尺度を計算する。活性尺度の第1の組におけるそれぞれの活性尺度は、第1の組内の特定の生物学的実体に対する処置データと対照データとの間の差を表す。計算ネットワークモデルにおける生物学的実体の第1の組とノードの第1の組との間に対応関係があるため、ステップ504は、計算ネットワークモデルにおけるノードの第1の組に対する活性尺度も計算する。いくつかの実装では、活性尺度は、倍率変化を含みうる。倍率変化は、対照データと処置データとの間、または異なる処置条件を表すデータの2つの組の間で、初期値から最終値までノード測定値がどれだけ変化するかを記述する数であるものとしてよい。倍率変化数は、これら2つの条件の間の生物学的実体の活性の倍率変化の対数を表すものとしてよい。それぞれのノードに対する活性尺度は、各ノードによって表される生物学的実体に対する処置データと対照データとの間の差の対数を含みうる。いくつかの実装では、コンピュータ化された方法は、プロセッサを使って、生成されたスコアのそれぞれについて信頼区間を生成するステップを含む。
ステップ506で、ネットワークスコア化エンジン114は、生物学的実体の第2の組における生物学的実体に対する活性値を生成する。第2の組における生物学的実体について処置データも対照データも受け取らなかったので、ステップ506で生成された活性値は、推論された活性値を表し、活性尺度の第1の組および計算ネットワークモデルに基づく。生物学的実体の第2の組(計算ネットワークモデルにおけるノードの第2の組に対応する)について推論された活性値は、一群の推論技術のうちのいずれかに従って生成することができ、いくつかの実装が、図6に関して以下に記載されている。ステップ506で測定されていない実体について生成される活性値は、ネットワークモデルによって提供される実体間の関係を使用して、直接測定されていない生物学的実体の挙動を明らかにする。
ステップ508で、ネットワークスコア化エンジン114は、ステップ506で生成された活性値に基づきNPAスコアを計算する。NPAスコアは、作用物質への生物系の攪乱を表し(対照データと処置データとの差に反映されるような)、ステップ506で生成された活性値および計算ネットワークモデルに基づく。いくつかの実装では、ステップ508で計算されたNPAスコアは、
に従って計算することができ、ただし、V0は、生物学的実体の第1の組を表し(つまり、処置データおよび対照データをステップ502で受け取ったもの)、f(x)は、生物学的実体xについてステップ508で生成された活性値を表し、sign(x→y)は、生物学的実体xを表すノードを生物学的実体yを表すノードに接続する計算ネットワークモデルにおけるエッジの方向値を表す。生物学的実体の第2の組と関連付けられている活性値のベクトルが、f2で表されるとすると、ネットワークスコア化エンジン114は、二次形式
を介してNPAスコアを計算するように構成することができ、ただし、
であり、diag(out)は、ノードの第2の組におけるそれぞれのノードの出次数を持つ対角行列を表し、diag(in)は、ノードの第2の組におけるそれぞれのノードの入次数を持つ対角行列を表し、Aは、第2の組のノードのみに限定され、
に従って定義されている計算ネットワークモデルの隣接行列を表す。Aが重み付け隣接行列である場合、Aの要素(x,y)に、重み因子w(x→y)を掛けることができる。
ステップ508は、NPAスコアに対する信頼区間を計算するステップも含みうる。いくつかの実装では、活性値f2は、多変量正規分布N(μ、Σ)に従うと仮定され、次いで、式2により計算されたNPAスコアは、以下の式に従って計算されうる関連する分散を有することになる。
いくつかの実装では、式5に従って動作するものなどにおいて、NPAスコアは、活性値に対する二次従属性を有する。ネットワークスコア化エンジン114は、式5に従って計算された分散を使用して、とりわけ、チェビシェフの不等式を適用するか、または中心極限定理に頼ることによって控えめな信頼区間を生成するようにさらに構成されうる。
図6は、ノードの組に対する活性値を生成するための例示的なプロセス600の流れ図である。例えば、プロセス600は、図5のプロセス500のステップ506で実行することができ、説明しやすくするためネットワークスコア化エンジン114によって実行されるものとして記述される。ステップ602で、ネットワークスコア化エンジン114は、差のステートメントを識別する。差のステートメントは、特定の生物学的実体の活性尺度または値と特定の生物学的実体が接続される生物学的実体の活性尺度または値との間の差を表す式または他の実行可能なステートメントであるものとしてよい。目的の生物系を表す計算ネットワークモデルの専門用語では、差のステートメントは、ネットワークモデルにおける特定のノードの活性尺度または値と特定のノードがエッジを介して接続されるノードの活性尺度または値との間の差を表す。差のステートメントは、計算ネットワークモデルにおけるノードの1つまたは複数のいずれかに依存するものとしてよい。いくつかの実施形態では、差のステートメントは、図5のステップ506に関して上に記載されているノードの第2の組におけるそれぞれのノード(つまり、処置データまたは対照データが利用可能でなく、活性値が他のノードおよび計算ネットワークモデルに関連付けられている処置データまたは対照データから推論されるノード)の活性値に依存する。
いくつかの実装では、ネットワークスコア化エンジン114は、ステップ602で以下の差のステートメント
を識別するが、ただし、f(x)は、活性値(ノードの第2の組におけるノードxに対する)または尺度(ノードの第1の組におけるノードxに対する)を表し、sign(x→y)は、生物学的実体xを表すノードを、生物学的実体yを表すノードに接続する計算ネットワークモデルにおけるエッジの方向値を表し、w(x→y)は、実体xおよびyを表すノードを接続するエッジに関連付けられている重みを表す。説明を簡単にするため、残りの説明では、w(x→y)は1に等しいと仮定するが、当業者であれば、式6の差のステートメントの説明を通して(つまり、式4を参照しつつ上に記載されているような重み付け隣接行列を使用することによって)、1以外の重みも容易にたどれる。
ネットワークスコア化エンジン114は、以下の等価なステートメントのいずれかを含む、多くの異なる方法で式6の差のステートメントを実装することができる。
ステップ604で、ネットワークスコア化エンジン114は、差の目標(difference objective)を識別する。差の目標は、ネットワークスコア化エンジン114が生物学的実体の第2の組に対する活性値を選択する際に向かう差のステートメントの値に対する最適化ゴールを表す。差の目標は、差のステートメントが最大化されるか、最小化されるか、または可能な限りターゲット値に近づけられることを指定することができる。差の目標は、活性値が選択される際の生物学的実体を指定することができ、それぞれの実体について許容される活性値の範囲に対して制約を課すことができる。いくつかの実装では、差の目標は、図5のステップ506を参照しつつ上に記載されているノードの第2の組におけるすべての生物学的実体にわたって式6の差のステートメントを最小化することであり、ただしその際に、生物学的実体の第1の組の活性(処置データおよび対照データが利用可能であるもの)が図5のステップ504で計算された活性尺度に等しいという制約が課される。この差の目標は、以下の計算最適化問題
として書くことができる。ただし、βは、第1の組における実体のそれぞれに対する図5のステップ504で計算された活性尺度を表す。
ステップ604で識別された差の目標を扱うために、ネットワークスコア化エンジン114は、ステップ606に進んで、差の目標に基づきネットワークモデルを計算により特徴付けるように構成される。生物系を表す計算ネットワークモデルは、いくつもの方法で特徴付けることができる(例えば、上に記載されているような重み付けまたは非重み付け隣接行列Aを介して)。異なる特徴付けが、異なる差の目標に適している場合もあり、NPAスコアを計算する際のネットワークスコア化エンジン114の性能を改善する。例えば、差の目標が、上記の式8に従って定式化されると、ネットワークスコア化エンジン114は、
に従って定義された符号付きラプラシアン行列を使用して計算ネットワークモデルを特徴付けるように構成されうる。この特徴付けが与えられた場合、式8の差の目標は、
として表すことができる。
ネットワークスコア化エンジン114は、ネットワークモデルを、ノードの第1の組内の接続、ノードの第1の組からノードの第2の組への接続、ノードの第2の組からノードの第1の組への接続、およびノードの第2の組内の接続の4つの構成要素に分割することによって第2のレベルで計算ネットワークモデルを特徴付けるように構成されうる。計算に関して、ネットワークスコア化エンジン114は、ラプラシアン行列を4つの部分行列に分割し(これらの構成要素のそれぞれについて1つ)、活性のベクトルfを2つの部分ベクトルに分割する(ノードの第1の組f1の活性に1つ、ノードの第2の組f2の活性に1つ)ことによってこの追加の特徴付けを実装することができる。式10の差のステートメントのこの再特徴付けは、
として書くことができる。
ステップ606で、ネットワークスコア化エンジン114は、差の目標を達成するか、または近似するために活性値を選択する。当技術分野では多くの異なる計算最適化ルーチンが公知であり、ステップ604で識別された任意の差の目標に適用されうる。式10の差の目標がステップ604で識別される実装では、ネットワークスコア化エンジン114は、f2に関して式11の(数値的または解析的)微分をとり、その導関数をゼロと置き、並べ替えてf2の式をくくり出すことによって式11の式を最小化するf2の値を選択するように構成されうる。
なので、ネットワークスコア化エンジン114は、
に従ってf2を計算するように構成されうる。
f1は、生物学的実体の第1の組に対する計算された活性尺度のベクトルなので(これに対して処置データおよび対照データが利用可能である)、生物学的実体の第2の組に対する活性値は、式13による計算された活性尺度の一次結合として表すことができる。式13のように、活性値は、ノードの第1の組におけるノードと第1の計算ネットワークモデル(つまり、L2)内のノードの第2の組におけるノードとの間のエッジに依存し、また計算因果ネットワークモデル(つまり、L3)内のノードの第2の組におけるノード間のエッジにも依存しうる。いくつかの実装では(式13に従って動作するものなど)、活性値は、計算ネットワークモデル内のノードの第1の組におけるノード間のエッジに依存しない。
ステップ608で、ネットワークスコア化エンジン114は、ステップ606で生成された活性値を提供する。いくつかの実装では、活性値は、ユーザーに対して表示される。いくつかの実装では、活性値は、上に記載されているようにNPAスコアを計算するために図5のステップ508で使用される。いくつかの実装では、この活性値に対する分散および信頼情報も、ステップ608で生成されうる。例えば、活性値および活性尺度は、おおよそ多変量正規分布N(μ,Σ)に従うものと仮定されうる場合、Afも、
となる多変量正規分布に従う。この場合、推論される活性値に対する信頼区間は、
として標準的な統計的手法を使用して計算できる。
図5のステップ504で計算された活性尺度および図5のステップ506で生成された活性値(例えば、図6のプロセス600による)は、異なる作用物質と同じ生物系に適用される処置条件との間の一致または不一致を反映する比較可能性情報を提供するために使用されうる。図7は、比較可能性情報を提供するための例示的なプロセス700の流れ図である。プロセス700は、図5のステップ506でノードの第2の組について活性値を生成した後に、例えば、ネットワークスコア化エンジン114、またはシステム100の任意の他の適切に構成された1つまたは複数のコンポーネントによって実行されうる。
ステップ702で、ネットワークスコア化エンジン114は、活性値の第1の組を第1の活性値ベクトルとして表す。この種の表現は、式11を参照しつつ上に記載されており、活性値の組は、ベクトルf2として表された。ステップ704で、ネットワークスコア化エンジン114は、第1の活性値ベクトルを第1の寄与するベクトルと第1の寄与しないベクトルとに分解する。第1の寄与するベクトルおよび第1の寄与しないベクトルは、活性値ベクトルとNPAスコアとの間の関係に依存する。NPAスコアが
NPA=g(h(v1)) (15)
となるように、第1の活性値ベクトルv1の変換gとして表される場合、v1は、ステップ704で
v1=v1c+v1nc (16)
および
g(v1nc)=0 (17)
となるように2つのベクトルv1cとv1ncとの和に分解されうる。数学的に、寄与しないベクトルv1ncは、gが厳密に正の符号に定まっている場合に変換hのカーネル内にあると言われ、寄与するベクトルv1cは、変換hの像空間内にあると言われる。標準的な計算手法を適用して、さまざまな種類の変換のカーネルおよび像空間を決定することができる。ネットワークスコア化エンジン114が、式5および13に従って活性値ベクトルv1からNPAスコアを計算する場合、そのNPAスコア変換のカーネルは、行列積
のカーネルであり、そのNPAスコア変換の像空間は、行列積
の像空間である。したがって、活性値ベクトルは、標準的な計算射影法を使用して、行列積
の像空間内の寄与する成分v1cと行列積
のカーネル内の寄与しない成分v1ncに分解することができ、NPAは、寄与しない成分v1ncに依存しえない。
NPAスコアは二次形式として計算できるので(上で示されているように)、ネットワークスコア化エンジン114は、入力データがモデルにおける機構の実際の攪乱を反映しないとしても有意な(生物学的変動に関して)スコアを生成することができる。ネットワークが実際に攪乱されるか(つまり、モデルに記述されている生物学がデータに反映されていること)を評価するために、随伴する統計量を使用して、抽出された信号がネットワーク構造に特有であるか、または収集されたデータに内在するかどうかを判定するのを補助することができる。いくつかの種類の並べ替え検定は、観察された信号が生物学的因果ネットワークモデルによって与えられるデータまたは構造に内在する特性をより適切に表現しているかどうかを評価する際に特に有益でありうる。
図11および12は、因果ネットワークモデルおよび特定のデータセットを与えられた場合に提案されているNPAスコアの統計的有意性を判定するためにネットワークスコア化エンジン114によって使用できるプロセス1100および1200を例示している。提案されているNPAスコアの統計的有意性を判定するステップは、ネットワークによってモデル化されている生物系が攪乱されたかどうかを示すために役立ちうる。提案されているNPAスコアの統計的有意性を判定するために、ネットワークスコア化エンジン114は、以下に記載されているようにデータに一方または両方の検定を適用することができる。
両方の検定(本明細書ではそれぞれ並べ替え検定と称されている)は、因果ネットワークモデルの1つまたは複数の態様のランダム置換を生成するステップと、その結果得られる検定モデルを使用して提案されているNPAスコアを生成したのと同じデータセットおよびアルゴリズムに基づき検定NPAスコアを計算するステップと、検定NPAスコアを、提案されているNPAスコアと比較するか、または順位付けして、提案されているNPAスコアの統計的有意性を判定するステップとに基づく。検定モデルを生成するためにランダムに類別されうる因果ネットワークモデルの態様は、サポーティングノードのラベル、バックボーンノードをサポーティングノードに接続するエッジ、またはバックボーンノード同士を接続するエッジを含む。
一実装では、本明細書で「O統計」検定と称されている並べ替え検定は、因果ネットワークモデル内のサポーティングノードの位置の重要度を評価する。プロセス1100は、計算されたNPAスコアの統計的有意性を評価するための方法を含む。特に、ステップ1102で、第1の提案されているNPAスコアは、無修正ネットワーク(unmodified network)とも称される、生物系内の実体の因果関係に関する知識に基づくネットワークに基づき計算される。ステップ1106で、遺伝子標識およびその結果として、それぞれのサポーティングノードの対応する値は、ネットワークモデル内のサポーティングノードの間にランダムに再割り当てされる。ランダムな再割り当ては、何回も、例えば、C回繰り返され、ステップ1112で、検定NPAスコアは、ランダムな再割り当てに基づき計算され、その結果、C個の検定NPAスコアが分布する。ネットワークスコア化エンジン114は、ネットワークに基づきNPAスコアを計算するために上に記載されている方法のいずれかに従って提案されたNPAスコアおよび検定NPAスコアを計算することができる。ステップ1114で、提案されたNPAスコアは、検定NPAスコアの分布と比較されるか、またはその分布と突き合わせて順位付けされ、これにより、提案されたNPAスコアの統計的有意性を判定する。
特定の植え込みにおいて、生物系の攪乱を定量化する方法は、因果ネットワークモデルに基づき提案されているNPAスコアを計算するステップと、スコアの統計的有意性を判定するステップとを含む。この有意性は、因果ネットワークモデルのサポーティングノードのラベルをランダムに再割り当てして検定モデルを作成するステップと、検定モデルに基づき検定NPAスコアを計算するステップと、提案されたNPAスコアと検定NPAスコアとを比較して生物系が攪乱されているかどうかを判定するステップとを含む方法によって計算されうる。サポーティングノードのラベルは、活性尺度に関連付けられる。
整数Cは、ネットワークスコア化エンジンによって決定される任意の数であり、ユーザー入力に基づくものとしてよい。整数Cは、ランダムな再割り当てに基づくNPAスコアの結果得られる分布がほぼ滑らかであるように十分に大きいものとしてよい。整数Cは、再割り当てが所定の回数だけ実行されるように固定されてもよい。あるいは、整数Cは、結果として得られるNPAスコアに応じて変化してもよい。例えば、整数Cは、繰り返し大きくすることができ、追加の再割り当ては、結果として得られるNPA分布が滑らかでない場合に実行されうる。それに加えて、分布がガウス分布または任意の他の好適な分布などの特定の形態に似てくるまでCを大きくするなどこの分布に対する任意の他の追加の要件を使用することもできる。いくつかの実装では、整数Cは、約500から約1000までの範囲内である。
ステップ1110で、ネットワークスコア化エンジン114は、ステップ1106で生成されたランダムな再割り当てに基づきC個のNPAスコアを計算する。特に、NPAスコアは、ステップ1106で生成されるそれぞれの再割り当てについて計算される。いくつかの実装では、C個すべての再割り当ては、最初に、ステップ1106で生成され、次いで、対応するNPAスコアが、ステップ1110でC個の再割り当てに基づき計算される。他の実装では、対応するNPAスコアは、再割り当てのそれぞれの組が生成された後に計算され、このプロセスは、C回繰り返される。後者のシナリオではメモリに関するコストを節約することができ、Cに対する値がすでに計算されているN個の値に依存する場合には望ましい場合がある。ステップ1112で、ネットワークスコア化エンジン114は、ステップ1106で生成されたランダムな再割り当てに対応して、結果として得られるC個のNPAスコアを集計して、NPA値の分布を形成または生成する。分布は、NPA値のヒストグラムまたはこのヒストグラムの正規化バージョンに対応しうる。
ステップ1114で、ネットワークスコア化エンジン114は、第1のNPAスコアをステップ1112で生成されたNPAスコアの分布と比較する。例えば、この比較は、提案されたNPAスコアと分布との間の関係を表す「p値」を決定するステップを含みうる。特に、p値は、提案されたNPAスコア値より高い、または低い分布のパーセンテージに対応しうる。小さい、例えば、0.5%未満、1%未満、5%未満、または任意の他の割合のp値は、提案されたNPAスコアが統計的に有意であることを示す。例えば、ステップ1114で計算された低いp値(例えば、<0.05または5%未満)を有する提案されたNPAスコアは、提案されたNPAスコアはランダムな遺伝子標識再割り当ての結果得られる有意な数の検定NPAスコアに関して高いことを示している。
特定の実装において、本明細書で「K統計」検定と称されている別の並べ替え検定は、因果ネットワークモデル内のバックボーンノードの構造の重要度を評価する。プロセス1200は、提案されたNPAスコアの統計的有意性を評価するための方法を含む。プロセス1200は、因果ネットワークモデルの一態様がランダムに類別され、これにより、複数の検定モデルを作成し、その後、複数の検定NPAスコアが計算されるという点でプロセス1100に類似している。生物系内の実体の因果関係の知識に基づき構築された因果ネットワークモデルは、無修正ネットワークとも称される。このようなモデルでは、エッジは、符号付きであるものとしてよく、したがって、エッジは、2つのバックボーンノード間の正または負の関係を表すことができる。したがって、因果ネットワークモデルは、結果として正の影響をもたらすバックボーンノードを接続するn個のエッジと、結果として負の影響をもたらすバックボーンノードを接続するm個のエッジとを備える。
ステップ1202で、提案されたNPAスコアは、生物系における実体の因果関係の知識に基づき構築されたネットワークに基づき計算される。次いで、ステップ1204で、個数nの負のエッジと個数mの正のエッジが決定される。ステップ1206で、バックボーンノードの対は、それぞれn個の負のエッジのうちの1つまたはm個の正のエッジのうちの1つとランダムに接続される。n+m個のエッジを持つランダムな接続を生成するこのプロセスは、C回繰り返される。すでに説明されているように、繰り返しの数Cは、ユーザー入力によって、または検定NPAスコアの分布の平滑度によって決定されうる。ステップ1212で、複数の検定NPAスコアは、他のバックボーンノードにランダムに接続されているバックボーンノードを含む複数の検定モデルに基づき計算される。ネットワークスコア化エンジン114は、ネットワークに基づきNPAスコアを計算するために上に記載されている方法のいずれかに従って提案されたNPAスコアおよび検定NPAスコアを計算することができる。ステップ1214で、提案されたNPAスコアは、検定NPAスコアの分布と比較されるか、またはその分布と突き合わせて順位付けされ、これにより、提案されたNPAスコアの統計的有意性を判定する。
ステップ1210で、ネットワークスコア化エンジン114は、ステップ1206で形成されたランダムな再接続に基づきC個のNPAスコアを計算する。ステップ1212で、ネットワークスコア化エンジン114は、ステップ1106で生成されたランダムな再接続の結果得られる検定モデルに基づき、検定NPA値の分布を生成するために結果として得られるC個のNPAスコアを集計する。分布は、NPA値のヒストグラムまたはこのヒストグラムの正規化バージョンに対応しうる。
ステップ1214で、ネットワークスコア化エンジン114は、提案されたNPAスコアをステップ1212で生成されたNPAスコアの分布と比較する。例えば、この比較は、提案されたNPAスコアと分布との間の関係を表す「p値」を決定するステップを含みうる。特に、p値は、提案されたNPAスコア値より高い、または低い分布のパーセンテージに対応しうる。小さい、例えば、0.1%未満、0.5%未満、1%未満、5%未満、または中間の割合のp値は、提案されたNPAスコアが統計的に有意であることを示す。例えば、ステップ1214で計算された低いp値(例えば、<0.05または5%未満)を有する提案されたNPAスコアは、提案されたNPAスコアはバックボーンノードのランダムな再接続の結果得られる有意な数の検定NPAスコアに関して高いことを示している。
いくつかの実装では、両方のp値(図11および12で計算された)は、提案されたNPAスコアが統計的に有意であるとみなされるためには低い値である必要がありうる。他の実装では、ネットワークスコア化エンジン114は、提案されたNPAスコアが有意であるとわかるために1つまたは複数のp値が低いことを要求しうる。
図13は、リーディングバックボーンおよび遺伝子ノードを識別するための例示的なプロセス1300の流れ図である。ステップ1302で、ネットワークスコア化エンジン114は、識別されたネットワークモデルに基づきバックボーン演算子(backbone
operator)を生成する。バックボーン演算子は、サポーティングノードの活性尺度のベクトルに作用し、バックボーン演算子は、バックボーンノードに対する活性値のベクトルを出力する。いくつかの実装における好適なバックボーン演算子は、上の式13で定義されている演算子Kである。
ステップ1304で、ネットワークスコア化エンジン114は、ステップ1302で生成されたバックボーン演算子を使用してリーディングバックボーンノードのリストを生成する。リーディングバックボーンノードは、処置および対照データならびに生物学的因果ネットワークモデルの解析時に識別される最も有意なバックボーンノードを表すものとしてよい。このリスト生成するために、ネットワークスコア化エンジン114は、バックボーン演算子を使用して、その後バックボーンノードに対する活性値のベクトルとそれ自体との内積で使用されうるカーネルを形成することができる。いくつかの実装では、ネットワークスコア化エンジン114は、リーディングバックボーンノードのリストを生成するのに、そのような内積の結果である和の中の項を降順に並べ替えるステップと、その和への最大の寄与因子に対応するノードの固定された数、または総和の指定されたパーセンテージ(例えば、60%)を達成するために必要な最も有意に寄与するノードの数のいずれかを選択するステップとを実行する。それと同等のことであるが、ネットワークスコア化エンジン114は、リーディングバックボーンノードのリストを生成するのに、式1の順序付けられた項の累積合計を計算することによってNPAスコアの80%を占めるバックボーンノードを含めるステップを実行することができる。上に記載されているように、この累積合計は、以下の内積(バックボーン演算子Kを使用する)
の項の累積合計として計算されうる。したがって、リーディングノードの識別は、活性尺度およびネットワークトポロジーの両方に依存する。
ステップ1306で、ネットワークスコア化エンジン114は、ステップ1302で生成されたバックボーン演算子を使用してリーディング遺伝子ノードのリストを生成する。式2で示されているように、NPAスコアは、倍率変化の二次形式として表されうる。そこで、いくつかの実装では、リーディング遺伝子リストは、以下のスカラー積
の順序付けられた和の項を識別することによって生成される。リーディング遺伝子リストの両端は、NPAスコアに負方向に寄与する遺伝子も生物学的有意性を有するので重要な場合がある。
いくつかの実装では、ネットワークスコア化エンジン114は、ステップ1306でそれぞれの遺伝子について構造的重要度値も生成する。構造的重要度値は、実験データとは無関係であり、いくつかの遺伝子がモデルにおける遺伝子の位置によりバックボーンノードの値を推論するうえで他の遺伝子より重要である可能性があるという事実を表す。構造的重要度は、遺伝子jについて
によって定義されうる。
リーディングバックボーンノードリスト内の生物学的実体およびリーディング遺伝子ノードリスト内の遺伝子は、(対照条件に対する)処置条件による基礎をなすネットワークの活性化のバイオマーカーに対する候補である。これら2つのリストは、将来の研究に対するターゲットを識別するために別々に、もしくは一緒に使用されうるか、または以下に記載されているように、他のバイオマーカー識別プロセスで使用されうる。
次に図7を参照すると、いくつかの実装では、ネットワークスコア化エンジン114は、ステップ704での第1の活性ベクトルを、以下のラプラシアン行列
のカーネルおよび像空間に基づきそれぞれ寄与しない成分と寄与する成分とに分解するが、そこでは、計算ネットワークモデルは、図5のステップ506を参照しつつ上に記載されているように生物学的実体の第2の組における生物学的実体に対応するノードに制限されている。ネットワークスコア化エンジン114は、以下に記載されているように、さらに分析するため「符号付き」拡散カーネルを式21のラプラシアンの行列指数として計算し、第1の活性値ベクトルをスペクトル成分上に射影して少なくとも1つの寄与する成分を生成するようにさらに構成されうる。
ステップ706で、ネットワークスコア化エンジン114は、第1の寄与するベクトル(ステップ704で決定される)を異なる実験からの活性値の第2の組から決定された第2の寄与するベクトルと比較する。この第2の寄与するベクトルを決定するために、ノードの第1の組に対して異なる処置および対照データを使用してステップ702および704を繰り返すことができる(図5により)。いくつかの実施形態では、第2の寄与するベクトルを決定するために、同じ処置および/または対照データが使用されうる。第2の寄与するベクトルは、異なる実験に対するNPAスコアに寄与する異なる処置(および適宜異なる対照データ)を伴う異なる実験から導出される活性値の成分を表す。両方の実験において目的の生物系は、同じであるので、基礎をなす計算ネットワークモデルは同じであり、したがって、第2の寄与しないベクトルおよび寄与するベクトルは、行列積
のカーネルおよび行列積
の像空間にそれぞれ依存する。
ステップ708で、ネットワークスコア化エンジン114は、ステップ706の比較結果に基づく比較可能性情報を提供する。いくつかの実装では、比較可能性情報は、第1の寄与するベクトルと第2の寄与するベクトルとの間の相関である。いくつかの実装では、比較可能性情報は、第1の寄与するベクトルと第2の寄与するベクトルとの間の距離である。ステップ708で比較可能性情報を提供するために、ベクトルを比較するための多くの技術のうちのどれでも使用することができる。
図5のステップ504で計算された活性尺度および図5のステップ506で生成された活性値(例えば、図6のプロセス600による)は、2つの異なる生物系が同じ作用物質または処置条件による攪乱に類似の応答を示す程度を反映する翻訳可能性情報を提供するために使用されうる。一例では、2つの異なる生物系は、in vitro系、in vivo系、マウス系、ラット系、ヒト以外の霊長類系、およびヒト系の任意の組み合わせであってよい。図8は、翻訳可能性情報を提供するための例示的なプロセス800の流れ図である。プロセス800は、図5のステップ506でノードの第2の組について活性値を生成した後に、例えば、ネットワークスコア化エンジン114、またはシステム100の任意の他の適切に構成された1つまたは複数のコンポーネントによって実行されうる。ステップ802で、ネットワークスコア化エンジン114は、第1の生物系における実体について活性値の第1の組を決定し、ステップ804で、ネットワークスコア化エンジン114は、第2の生物系における実体について活性値の第2の組を決定する。第1の生物系および第2の生物系のそれぞれは、対応する第1の計算ネットワークモデルおよび第2の計算ネットワークモデルによって表される。活性値は、例えば、図5のステップ506または図6のプロセス600により決定されうる。
ステップ806で、ネットワークスコア化エンジン114は、ステップ802で決定された活性値の第1の組をステップ804で決定された活性値の第2の組と比較する。いくつかの実装では、ネットワークスコア化エンジン114は、第1の生物系(V(1))に対する第1の活性値と第2の生物系(V(2))に対する第2の活性値との間の以下の関係
を解析するように構成されるが、ただし、h1およびh2は、それぞれ、活性尺度レベルにおける第1の生物系と第2の生物系との間のマッピング(例えば、第1の生物系における実験に対する処置および対照データから第2の生物系における実験に対する処置および対照データへのマッピング)、および推論された活性値レベルにおける第1の生物系と第2の生物系との間のマッピング(例えば、第1の生物系に対する推論された活性値から第2の生物系に対する推論された活性値へのマッピング)を表す。これらのマッピングは未知である可能性があるが、ネットワークスコア化エンジン114は、活性尺度レベルおよび推論された活性値レベルで比較を実行することによってこれらのマッピングに関する情報を決定するように構成されうる。例えば、いくつかの実装では、ネットワークスコア化エンジン114は、各行列積
の像空間内に射影されるか、または関連する行列(式21を参照しつつ上に記載されているラプラシアン行列など)のスペクトル成分上に射影される活性値の間の相関を計算するように構成される。いくつかの実装では、ネットワークスコア化エンジン114は、カーネル正準相関分析(KCCA)法を適用することによって活性値の第1の組と第2の組とを比較することができ、その多くは当技術分野で周知である。
ステップ808で、ネットワークスコア化エンジン114は、ステップ806における比較結果に基づく翻訳可能性情報を提供する。図7のステップ708で提供される比較可能性情報を参照しつつ上に記載されているように、ベクトルを比較するための多くの技術のうちのいずれかを使用して、ステップ808で比較可能性情報を提供することができる。例えば、いくつかの実装では、ネットワークスコア化エンジン114は、各行列積
の像空間内に射影されるか、または関連する行列(式21を参照しつつ上に記載されているラプラシアン行列など)のスペクトル成分上に射影される活性値の間の相関を計算するように構成される。いくつかの実装では、ネットワークスコア化エンジン114は、カーネル正準相関分析(KCCA)法を適用することによって活性値の第1の組と第2の組とを比較し、翻訳可能性情報を提供することができ、その多くは当技術分野で周知である。
図9は、活性値およびNPAスコアに対する信頼区間を計算するための例示的なプロセス900の流れ図である。ステップ902で、ネットワークスコア化エンジン114は、図5のステップ504を参照しつつ上に記載されているように活性化尺度(本明細書ではβで表す)を計算する。いくつかの実装では、活性尺度は、Limma R統計分析パッケージによって、または別の標準的な統計的手法によって決定される倍率変化値または重み付け倍率変化値(例えば、関連する偽不発見率を使用して重み付けされる)であってよい。ステップ904で、ネットワークスコア化エンジン114は、ステップ902で計算された活性尺度(または重み付け活性尺度)に関連付けられている分散を計算する。いくつかの実装では、行列Σは、ステップ904で、Σ=diag(var(β))として定義される。ステップ906で、ラプラシアン行列を生成するために、関連するネットワークの構造が使用される(例えば、式9を参照しつつ以下に記載されているように)。ネットワークは、重み付け、符号付き、および有向、またはこれらの組み合わせであるものとしてよい。ステップ908で、ネットワークスコア化エンジン114は、式12のラプラシアンの表現を、左辺がゼロに等しいと置いて解き、f2(活性値のベクトル)を生成する。ステップ910で、ネットワークスコア化エンジン114は、活性値のベクトルの分散を計算する。いくつかの実装では、このベクトルは、
により計算され、L2およびL3は、式11において定義されているとおりである。ステップ912で、ネットワークスコア化エンジン114は、
によりf2のそれぞれの入力の信頼区間を計算するが、ただし、
は、関連するN(0,1)分位数である(例えば、α=0.05ならば1.96)。ステップ914で、ネットワークスコア化エンジン114は、ステップ916で使用される二次形式行列を計算してステップ916でNPAスコアを計算する。いくつかの実装では、二次形式行列は、上記の式3により計算される。ステップ916で、ネットワークスコア化エンジン114は、式2による二次形式行列Qを使用してNPAスコアを計算する。ステップ918で、ネットワークスコア化エンジン114は、ステップ916で計算されたNPAスコアの分散を計算する。いくつかの実装では、この分散は、
により計算されるが、ただし、Σ2=var(f2)である。ステップ920で、ネットワークスコア化エンジン114は、ステップ916で計算されたNPAスコアの信頼区間を計算する。いくつかの実装では、信頼区間は、
または
により計算される。
図14は、生物学的攪乱の影響を定量化する分散型のコンピュータ化されたシステム1400のブロック図である。システム1400のコンポーネントは、図1のシステム100内のものと似ているが、システム100の配置構成は、それぞれのコンポーネントがネットワークインターフェース1410を通じて通信するような構成をとる。そのような実装は、「クラウドコンピューティング」パラダイムなどの共通ネットワークリソースへのアクセスを共有することができるワイヤレス通信システムを含む複数の通信システム上での分散コンピューティングに適している可能性がある。
図15は、本明細書において説明されているプロセスを実行するための図1のシステム100または図11のシステム1100のコンポーネントのうちのいずれかなどのコンピューティングデバイスのブロック図である。システム応答プロファイルエンジン110、ネットワークモデリングエンジン112、ネットワークスコア化エンジン114、集約エンジン116、ならびに転帰データベース、攪乱データベース、および文献データベースを含むデータベースのうちの1つまたは複数を備える、システム100のコンポーネントのそれぞれは、1つまたは複数のコンピューティングデバイス1500上に実装されうる。いくつかの態様において、複数の上記のコンポーネントおよびデータベースは、1つのコンピューティングデバイス1500内に収めることができる。いくつかの実装では、複数のコンピューティングデバイス1500にまたがって1つのコンポーネントおよび1つのデータベースを実装することができる。
上記コンピューティングデバイス1500は、少なくとも1つの通信インターフェースユニット、入力/出力コントローラ1510、システムメモリー、および1つまたは複数のデータ記憶デバイスを備える。上記システムメモリーは、少なくとも1つのランダムアクセスメモリー(RAM1502)および少なくとも1つのリードオンリーメモリー(ROM1504)を備える。これらの要素はすべて、中央処理装置(CPU1506)と通信して、該コンピューティングデバイス1500の動作を円滑に行わせる。上記コンピューティングデバイス1500は、多くの異なる方法で構成されうる。例えば、上記コンピューティングデバイス1500は、従来のスタンドアロン型コンピュータであってもよいが、代替的に、コンピューティングデバイス1500の機能を複数のコンピュータシステムおよびアーキテクチャにまたがって分散させることもできる。上記コンピューティングデバイス1500は、モデリング、スコア化、および集約演算の一部または全部を実行するように構成されうる。図15では、上記コンピューティングデバイス1500は、ネットワークまたはローカルネットワークを介して、他のサーバもしくはシステムにリンクされる。
上記コンピューティングデバイス1500は、分散型アーキテクチャで構成することができ、データベースおよびプロセッサは、別のユニットまたは場所に収納される。いくつかのこのようなユニットは、一次処理機能を実行し、最低限、汎用コントローラまたはプロセッサおよびシステムメモリーを含む。このような一態様では、これらのユニットのそれぞれは、通信インターフェースユニット1508を介して、他のサーバ、クライアントもしくはユーザコンピュータおよび他の関係するデバイスとの一次通信リンクとして働く通信ハブまたはポート(図示せず)に接続する。上記通信ハブまたはポートは、通信ルーターとしてもっぱら使用される、最小処理機能をそれ自体有することができる。さまざまな通信プロトコルが、システムの一部であってもよく、これは、限定はしないがイーサネット(登録商標)(Ethernet(登録商標))、SAP、SAS(商標)、ATP、BLUETOOTH(登録商標)、GSM(登録商標)、およびTCP/IPを含む。
上記CPU1506は、1つまたは複数の従来のマイクロプロセッサなどのプロセッサ、および該CPU1506の操作負荷をオフロードする数値演算コプロセッサ(math
co−processor)などの1つまたは複数の補助コプロセッサを備える。上記CPU1506は、上記通信インターフェースユニット1508および上記入力/出力コントローラ1510と通信し、これを通じて該CPU1506は他のサーバ、ユーザ端末、またはデバイスなどの他のデバイスと通信する。上記通信インターフェースユニット1508および上記入力/出力コントローラ1510は、例えば、他のプロセッサ、サーバ、またはクライアント端末と同時通信するための複数の通信チャネルを備えることができる。互いに通信するデバイスであっても、互いにひっきりなしに送信している必要はない。それと反対に、そのようなデバイスは、必要に応じて互いに送信するだけでもよく、実際には大半の時間においてデータの交換を差し控えることができ、該デバイス間の通信リンクを確立するために実行するのにいくつかのステップを必要とするものとしてよい。
上記CPU1506は、上記データ記憶デバイスとも通信する。上記データ記憶デバイスとして、磁気メモリー、光メモリー、または半導体メモリーの適切な組み合わせを含み得、例えば、RAM1502、ROM1504、フラッシュドライブ、コンパクトディスクなどの光ディスク、またはハードディスクもしくはドライブが挙げられる。上記CPU1506および上記データ記憶デバイスはそれぞれ、例えば、単一のコンピュータまたは他のコンピューティングデバイス内に丸ごと配置されるか、またはUSBポート、シリアルポートケーブル、同軸ケーブル、イーサネット(登録商標)型ケーブル、電話回線、無線周波トランシーバ、または他の類似のワイヤレスもしくは有線媒体または上記のものの組み合わせなどの、通信媒体によって互いに接続されうる。例えば、上記CPU1506は、上記通信インターフェースユニット1508を介して上記データ記憶デバイスに接続されうる。上記CPU1506は、1つまたは複数の特定の処理機能を実行するように構成されうる。
上記データ記憶デバイスは、例えば、(i)上記コンピューティングデバイス1500用のオペレーティングシステム1512、(ii)本明細書に記載されているシステムおよび方法により、また特に上記CPU1506に関して詳しく記載されているプロセスにより、該CPU1506に指示するように適合された1つまたは複数のアプリケーション1514(例えば、コンピュータプログラムコードまたはコンピュータプログラム製品)、または(iii)上記プログラムが必要とする情報を記憶するために利用されうる情報を記憶するように適合されたデータベース(1つまたは複数)1516を記憶することができる。いくつかの態様では、上記データベース(1つまたは複数)として、実験データを記憶するデータベース、および公開文献モデルが挙げられる。
上記オペレーティングシステム1512およびアプリケーション1514は、例えば、圧縮形式、非コンパイル形式、および暗号化形式で記憶され、コンピュータプログラムコードを含むことができる。上記プログラムの命令は、上記ROM1504または上記RAM1502などの、データ記憶デバイス以外のコンピュータ可読媒体から上記プロセッサのメインメモリーへと読み込むことができる。上記プログラムにおける命令のシーケンスの実行により上記CPU1506が本明細書に記載されているプロセスステップを実行するが、ハード配線回路を、本開示のプロセスの実装のためのソフトウェア命令の代わりに、または該ソフトウェア命令と組み合わせて使用することができる。したがって、記載されているシステムおよび方法は、ハードウェアとソフトウェアとの特定の組み合わせに限定されない。
本明細書に記載されているようなモデリング、スコア化、および集約に関して1つまたは複数の機能を実行するのに適したコンピュータプログラムコードが提供されうる。上記プログラムは、オペレーティングシステム1512、データベース管理システム、および上記プロセッサが上記入力/出力コントローラ1510を介してコンピュータ周辺デバイス(例えば、ビデオディスプレイ、キーボード、コンピュータマウスなど)とインターフェースすることを可能にする「デバイスドライバ」などのプログラム要素を含むことができる。
本明細書で使用されているような「コンピュータ可読媒体」という用語は、実行のため命令を上記コンピューティングデバイス1500(または本明細書に記載されているデバイスの任意の他のプロセッサ)のプロセッサに与えるか、または与えることに関わる任意の非一時的媒体を指す。このような媒体は、限定はしないが、不揮発性媒体および揮発性媒体を含む、多くの形態をとりうる。不揮発性媒体としては、例えば、光ディスク、磁気ディスク、もしくは光磁気ディスク、またはフラッシュメモリーなどの集積回路メモリーが挙げられる。揮発性媒体としては、典型的にはメインメモリーを構成するダイナミックランダムアクセスメモリー(DRAM)を含む。コンピュータ可読媒体の一般的な形態としては、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD−ROM、DVD、任意の他の光媒体、パンチカード、紙テープ、穴の形状を有する任意の他の物理的媒体、RAM、PROM、EPROMまたはEEPROM(電子的に消去可能なプログラム可能リードオンリーメモリー)、FLASH−EEPROM、任意の他のメモリーチップもしくはカートリッジ、またはコンピュータが読み取ることができる任意の他の非一時的媒体が挙げられる。
さまざまな形態のコンピュータ可読媒体が、実行のため1つまたは複数の命令の1つまたは複数のシーケンスを上記CPU1506(または本明細書に記載されているデバイスの任意の他のプロセッサ)に伝えることに関与しうる。例えば、上記命令は、最初に、リモートコンピュータ(図示せず)の磁気ディスクで伝えることができる。上記リモートコンピュータは、命令をそのリモートコンピュータのダイナミックメモリーにロードし、モデムを使用してイーサネット(登録商標)接続、ケーブル線、さらには電話回線を介して該命令を送ることができる。コンピューティングデバイス1500(例えば、サーバ)に対してローカルの通信デバイスは、各通信回線上でデータを受け取り、該データを上記プロセッサのシステムバス上に出すことができる。上記システムバスは、データをメインメモリーに伝え、上記プロセッサはそのメインメモリーから命令を取り出して実行する。メインメモリーに入った命令は、必要に応じて、上記プロセッサによる実行前または実行後にメモリーに記憶することができる。それに加えて、命令は、通信ポートを介して、電気信号、電磁気信号、または光信号として受け取ることができ、これらはさまざまな種類の情報を伝えるワイヤレス通信またはデータストリームの形態の例である。
本開示の実装は、特定の例を参照しつつ特に示され記載されているが、当業者であれば、添付の特許請求の範囲に定められているような本開示の範囲から逸脱することなく本開示において形態および細部にさまざまな変更を加えることができることを理解するべきである。ゆえに、本開示の範囲は、添付の特許請求の範囲によって示され、したがって、該特許請求の範囲の等価性の意味および範囲内にあるすべての変更は、包含されることが意図されている。
本明細書に記載されているシステムおよび方法は、よく理解されている細胞培養実験を使用して試験されている。正常ヒト気管支上皮(NHBE)細胞は、G1期で細胞を停止させるCDK4/6阻害剤(CDKI)である、PD−0332991に曝して処理された。処理された細胞は、次いで、培地からCDKIを取り除き、洗浄することによって細胞周期への再入が可能となった。細胞周期の再入は、CDKIが取り除かれ、細胞が洗浄されてから2、4、6、および8時間後のS期で細胞を蛍光標識することによって実験的に確認された。CDKIを取り除いてから2、4、6、および8時間後に試料採取された細胞の遺伝子転写プロファイルを得た。培地中でCDKIに連続的に曝露された細胞のプロファイルも得られた。CDKIが取り除かれたときに差次的に活性化された生物学的過程および機構を識別するために、さまざまな時点において得られた洗浄細胞の遺伝子転写プロファイルを使用してネットワーク攪乱振幅スコアが計算された。CDKIの取り除きに関連する攪乱に対するNPAスコアの計算のため、127個のノードと240個のエッジを備える細胞周期サブネットワークが使用された。これは、Schlageらの論文(参照によりその全体が本明細書に組み込まれている、2011年、「A computable cellular stress network model for non−diseased pulmonary and cardiovascular tissue」BMC Syst Biol.10月19日、5巻、168頁)で公開されている細胞増殖ネットワークモデルのサブネットワークである。
NPAスコア(図18)は、S期の細胞の数の対応する増加を示す蛍光活性化セルソーティング(FACS)分析(図17)の結果と一致する2時間の時点から8時間の時点までの時点の範囲にわたって増加することが判明した。NPAスコアは、P値<0.05において上に記載されているように2つの並べかえ検定を受けさせ、統計量(「O」および「K」統計量)は両方とも、実験のNHBE細胞におけるこの特定の生物系、つまり、細胞周期が、実際に攪乱されることを示した。この分析では、S期への進行に関わることが知られている重要な機構に正確に対応する細胞周期ネットワークモデルにおけるリーディングノードも識別した。E2Fタンパク質は、p53およびCHEK1の(間接的)制御の下でCdkによって順にリン酸化されるRbPとの複合体を形成する。また、Cdkと併せて、G1/S−サイクリンは、予想通り、リーディングノードの過程(leading nodes processes)の一部である。この方法によって識別されるリーディングノードは、taof(TFDP1)、taof(E2F2)、CHEK1、TFDP1、kaof(CHEK1)、taof(E2F3)、taof(E2F1)、taof(RB1)、有糸分裂細胞周期のG1/S移行、CDC2、E2F2、CCNA2、CCNE1、THAP1、CDKN1A、TP53 P@S20、E2F3、kaof(CDK2)である。Taofは、「transcriptional activity
of」(の転写活性)の略語であり、kaofは、「kinase activity of」(のキナーゼ活性)の略語である。TP53 P@S20は、TP53の位置20におけるセリンがリン酸化されていることに対する略語である。その結果は、遺伝子発現データと、因果ネットワークモデルに具体化される生物系の知識を活用する機構駆動アプローチ(mechanism−driven approach)との組み合わせを使用して生物系の攪乱を定量することができることを示す。
本発明は、以下の番号を振られている段落においてさらに定義される。
生物系の攪乱を定量化するためのコンピュータ化された方法であって、
第1のプロセッサで、第1の処置に対する生物学的実体の第1の組の応答に対応する処置データの第1の組を受け取るステップであって、第1の生物系は、生物学的実体の第1の組と生物学的実体の第2の組とを含む生物学的実体を備え、第1の生物系内のそれぞれの生物学的実体は、第1の生物系内の生物学的実体のうちの少なくとも1つの別のものと相互作用する、ステップと、
第2のプロセッサで、第1の処置と異なる第2の処置に対する生物学的実体の第1の組の応答に対応する処置データの第2の組を受け取るステップと、
第3のプロセッサで、第1の生物系を表す第1の計算因果ネットワークモデルを提供するステップであって、該モデルは、
生物学的実体の第1の組を表すノードの第1の組と、
生物学的実体の第2の組を表すノードの第2の組と、
ノードを接続し、生物学的実体の間の関係を表すエッジと、
第1の処置データと第2の処置データとの間の変化の予想される方向を表す、方向値とを含む、ステップと、
第4のプロセッサを使って、ノードの第1の組における対応するノードに対する第1の処置データと第2の処置データとの間の差を表す活性尺度の第1の組を計算するステップと、
第5のプロセッサを使って、第1の計算因果ネットワークモデルと活性尺度の第1の組とに基づき、ノードの第2の組における対応するノードに対する活性値の第2の組を生成するステップとを含む、コンピュータ化された方法。
第6のプロセッサを使って、第1の計算因果ネットワークモデルと活性値の第2の組とに基づき、第1および第2の処置への第1の生物系の攪乱を表す第1の計算因果ネットワークモデルに対するスコアを生成するステップをさらに含む、段落137に記載の方法。
段落137に記載の方法であって、活性値の第2の組を生成するステップは、ノードの第2の組におけるそれぞれの特定のノードについて、特定のノードの活性値と、該特定のノードが第1の計算因果ネットワークモデル内のエッジと接続されるノードの活性値または活性尺度との間の差を表す差のステートメント(difference statement)を最小化する活性値を識別するステップを含み、差のステートメントは、ノードの第2の組におけるそれぞれのノードの活性値に依存する、方法。
差のステートメントは、ノードの第2の組におけるそれぞれのノードの方向値にさらに依存する、段落139に記載の方法。
活性値の第2の組におけるそれぞれの活性値は、活性尺度の第1の組の活性尺度の一次結合である、段落137に記載の方法。
一次結合は、ノードの第1の組におけるノードと第1の計算因果ネットワークモデル内のノードの第2の組におけるノードとの間のエッジに依存し、かつ、第1の計算因果ネットワークモデル内のノードの第2の組におけるノード同士の間のエッジにも依存する、段落141に記載の方法。
一次結合は、第1の計算因果ネットワークモデル内のノードの第1の組におけるノード同士の間のエッジには依存しない、段落141に記載の方法。
スコアは、活性値の第2の組に対する二次従属性を有する、138に記載の方法。
活性尺度の第1の組のそれぞれの活性尺度に対する変動推定値の一次結合を形成することによって活性値の第2の組のそれぞれの活性値に対する変動推定値を提供するステップをさらに含む、段落137に記載の方法。
スコアに対する変動推定値は、活性値の第2の組に対する二次従属性を有する、段落138に記載の方法。
活性値の第2の組を第1の活性値ベクトルとして表すステップと、
第1の活性値ベクトルを第1の寄与するベクトルと第1の寄与しないベクトルとに分解するステップであって、第1の寄与するベクトルと第1の寄与しないベクトルとの和は、第1の活性値ベクトルとなる、ステップとをさらに含む、段落138に記載の方法。
スコアは、第1の寄与しないベクトルに依存しない、段落147に記載の方法。
スコアは、活性値の第2の組の二次関数として計算され、第1の寄与しないベクトルは、二次関数のカーネル内にある、段落148に記載の方法。
第1の寄与しないベクトルは、第1の計算因果ネットワークモデルと関連付けられている符号付きラプラシアンに基づく二次関数のカーネル内にある、段落147に記載の方法。
第1のプロセッサで、第3の処置に対する生物学的実体の第1の組の応答に対応する処置データの第3の組を受け取るステップと、
第2のプロセッサで、第4の処置に対する生物学的実体の第1の組の応答に対応する処置データの第4の組を受け取るステップと、
第4のプロセッサを使って、ノードの第1の組に対応する活性尺度の第3の組を計算するステップであって、活性尺度の第3の組におけるそれぞれの活性尺度はノードの第1の組における対応するノードに対する処置データの第3の組と処置データの第4の組との間の差を表す、ステップと、
第5のプロセッサを使って、活性値の第4の組を生成するステップであって、それぞれの活性値は第1の計算因果ネットワークモデルと活性尺度の第3の組とに基づきノードの第2の組における対応するノードに対する活性値を表す、ステップと、
活性値の第4の組を第2の活性値ベクトルとして表すステップと、
第2の活性値ベクトルを第2の寄与するベクトルと第2の寄与しないベクトルとに分解するステップであって、第2の寄与するベクトルと第2の寄与しないベクトルとの和が第2の活性値ベクトルとなる、ステップと、
第1の寄与するベクトルと第2の寄与するベクトルを比較するステップとをさらに含む、段落147に記載の方法。
第1と第2の寄与するベクトルを比較するステップは、第1と第2の寄与するベクトルの間の相関を計算して、処置データの第1および第3の組の比較可能性を示すステップを含む、段落151に記載の方法。
第1と第2の寄与するベクトルを比較するステップは、第1および第2の寄与するベクトルを計算ネットワークモデルの符号付きラプラシアンの像空間上に射影するステップを含む、段落151に記載の方法。
処置データの第2の組は、処置データの第4の組と同じ情報を含む、段落151に記載の方法。
前記第1のプロセッサで、第1の処置と異なる第3の処置に対する生物学的実体の第3の組の応答に対応する処置データの第3の組を受け取るステップであって、第2の生物系は、生物学的実体の第3の組と生物学的実体の第4の組とを含む複数の生物学的実体を備え、第2の生物系内のそれぞれの生物学的実体は、第2の生物系内の生物学的実体のうちの少なくとも1つの別のものと相互作用する、ステップと、
第2のプロセッサで、第3の処置と異なる第4の処置に対する生物学的実体の第3の組の応答に対応する処置データの第4の組を受け取るステップと、
第3のプロセッサで、第2の生物系を表す第2の計算因果ネットワークモデルを提供するステップであって、このモデルは、
生物学的実体の第3の組を表すノードの第3の組と、
生物学的実体の第4の組を表すノードの第4の組と、
ノードを接続し、生物学的実体の間の関係を表すエッジと、
第3の処置データと第4の処置データとの間の変化の予想される方向を表す、方向値とを含む、ステップと、
第4のプロセッサを使って、ノードの第3の組に対応する活性尺度の第3の組を計算するステップであって、活性尺度の第3の組におけるそれぞれの活性尺度は、ノードの第3の組における対応するノードに対する処置データの第3の組と処置データの第4の組との間の差を表す、ステップと、
第5のプロセッサを使って、活性値の第4の組を生成するステップであって、それぞれの活性値は、第2の計算因果ネットワークモデルと活性尺度の第3の組とに基づきノードの第4の組における対応するノードに対する活性値を表す、ステップと、
活性値の第4の組を活性値の第2の組と比較するステップとをさらに含む、段落137に記載の方法。
活性値の第4の組を活性値の第2の組と比較するステップは、第1の計算因果ネットワークモデルに関連付けられている符号付きラプラシアンと第2の計算因果ネットワークモデルに関連付けられている符号付きラプラシアンとに基づきカーネル正準相関分析を適用するステップを含む、段落155に記載の方法。
活性尺度は、倍率変化値であり、それぞれのノードに対する倍率変化値は、各ノードによって表される生物学的実体に対する処置データの対応する組の間の差の対数を含む、上記段落137〜156のいずれかに記載のコンピュータ化された方法。
生物系は、細胞増殖機構、細胞ストレス機構、細胞炎症機構、およびDNA修復機構のうちの少なくとも1つを含む、上記段落137〜157のいずれかに記載のコンピュータ化された方法。
第1の処置は、タバコを加熱することによって発生したエアロゾルへの曝露、タバコを燃焼させることによって発生したエアロゾルへの曝露、タバコの煙への曝露、および紙巻きタバコの煙への曝露、のうちの少なくとも1つを含む、上記段落137〜158のいずれかに記載のコンピュータ化された方法。
第1の処置は、生物系に存在も由来もしない分子または実体を含む、異物への曝露を含む、上記段落137〜159のいずれかに記載のコンピュータ化された方法。
第1の処置は、毒素、治療化合物、刺激物、弛緩物質、天然物、製造物および食物への曝露を含む、上記段落137〜160のいずれかに記載のコンピュータ化された方法。
第1の生物系および第2の生物系は、in vitro系、in vivo系、マウス系、ラット系、ヒト以外の霊長類系、およびヒト系からなる群の2つの異なる要素である、段落155および段落156のいずれかに記載のコンピュータ化された方法。
第1の処置データは、作用物質に曝露された第1の生物系に対応し、
第2の処置データは、作用物質に曝露されない第1の生物系に対応する、段落137に記載のコンピュータ化された方法。
生物系の攪乱を示すスコアの統計的有意性を判定するステップをさらに含む、段落138に記載のコンピュータ化された方法。
スコアの統計的有意性は、それぞれ複数のランダムに生成した試験の計算因果ネットワークモデルから計算される複数の検定スコアに対してスコアを比較することによって判定される、段落164に記載のコンピュータ化された方法。
ランダム生成検定計算因果ネットワークモデルは、第1の計算因果ネットワークモデルの1つまたは複数の態様をランダムに類別することによって生成される、段落165に記載のコンピュータ化された方法。
第1の計算因果ネットワークモデルの1つまたは複数の態様は、ノードの第1の組のラベル、ノードの第2の組をノードの第1の組に接続するエッジ、またはノードの第2の組同士を接続するエッジを備える、段落166に記載のコンピュータ化された方法。