JP6638030B2

JP6638030B2 - Ｐａｒａｄｉｇｍ薬剤反応ネットワーク

Info

Publication number: JP6638030B2
Application number: JP2018134932A
Authority: JP
Inventors: チャールズベンズ，ステファン; スゼト，クリストファー
Original assignee: ファイヴ３ゲノミクス，エルエルシー
Priority date: 2013-05-28
Filing date: 2018-07-18
Publication date: 2020-01-29
Anticipated expiration: 2034-05-28
Also published as: AU2014274224B2; JP2018190441A; CN107818242A; EP3564958A1; US20160103949A1; KR20200043486A; AU2014274224A1; DK3005199T3; CN107818242B; JP6374073B2; AU2016203009A1; IL260313B; JP2018022511A; JP2016532921A; IL242813B; CA2920608C; EP3005199A1; EP3005199A4; CA2920608A1; CN105556523A

Description

本出願は、２０１３年５月２８日付けで出願された米国仮出願第６１／８２８，１４５号および２０１３年１２月２０日付けで出願された米国仮出願第６１／９１９，２８９号に基づく優先権を主張する。

本発明の分野は、特に、治療推奨の開発のため役立つ経路要素を識別するために経路モデルのインシリコ調整に関する計算機モデル化および経路モデルの使用である。

背景技術の説明は、本発明を理解するのに役立つことがある情報を含む。この背景技術の説明は、背景技術の欄に記載された情報のいずれかが先行技術である、もしくは、本願請求項に係る発明に関連していること、または、具体的にもしくは黙示的に参照された刊行物が先行技術であることの自認ではない。

経路の計算機モデル化の様々なシステムおよび方法は、当該技術分野において公知である。例えば、いくつかのアルゴリズム（例えば、ＧＳＥＡ、ＳＰＩＡ、およびＰａｔｈＯｌｏｇｉｓｔ）は、文献により研究された経路を使用して着目中の変更された経路を巧く識別する能力がある。さらなるツールは、研究された文献における相互作用から因果関係グラフを構築し、発現プロフィールを説明するためにこれらのグラフを使用している。ＡＲＡＣＮＥ、ＭＩＮＤｙおよびＣＯＮＥＸＩＣのようなアルゴリズムは、１組のがん標本の全体で見込みのある転写ドライバをこのように識別するために、１組のがん標本の遺伝子転写情報（および、ＣＯＮＥＸＩＣの場合、コピー数）を考慮に入れる。しかしながら、これらのツールは、異なるドライバを着目中の特異標的を識別する機能的なネットワークに分類することを試みない。ＮｅｔＢｏｘおよびＭｕｔｕａｌＥｘｃｌｕｓｉｖｉｔｙＭｏｄｕｌｅｓｉｎＣａｎｃｅｒ（ＭＥＭｏ）のようないくつかのより新しい経路アルゴリズムは、がんにおけるデータ統合の問題を解法し、それによって、標本の発がん性の手掛かりである多数のデータタイプに亘ってネットワークを識別することを試みる。

このようなツールは、ネットワークを見つけるために経路全体に亘る少なくともいくつかの限定された統合を可能にするが、これらのツールは、概して、規制情報、および、当該経路もしくは経路のネットワークにおける１つまたは複数の効果とのこのような情報の関連性を提供できない。同様に、ＧＩＥＮＡは、単一の生物学的経路の中で調節不全遺伝子相互作用を探すが、経路のトポロジーまたは相互作用の向きもしくは性質に関する事前知識を考慮しない。その上、これらのモデル化システムのかなり不完全な性質のために、予測解析は、特に、多重経路および／または経路要素の相互作用が検査中である場合、不可能であることがよくある。

最近になって、インビボ経路のインシリコ経路モデルを取得する様々な改良されたシステムおよび方法について説明され、例示的なシステムおよび方法は、国際公開第２０１１／１３９３４５号および国際公開第２０１３／０６２５０５号に記載されている。このようなモデルのさらなる改良は、異なる経路要素および経路の間の相互相関を識別するのに役立つ方法を開示する国際公開第２０１４／０５９０３６号（本明細書においてまとめて「ＰＡＲＡＤＩＧＭ」と呼ばれる）において提供された。このようなモデルは、例えば、様々なシグナリング経路および様々な経路を通る信号の流れへの価値ある洞察を提供するが、このようなモデル化を使用する多数の態様は、認識されることがない、または、認められることさえない。

本明細書において特定された全ての刊行物は、個々の刊行物もしくは特許出願が参照によって組み込まれるように具体的にかつ個別に指示されているのと同じ程度に、参照によって組み込まれる。組み込まれた参考文献中での用語の定義もしくは使用が本明細書中に与えられたこの用語の定義に矛盾するもしくは反する場合、本明細書中に与えられたこの用語の定義が適用され、参考文献中でのこの用語の定義は適用されない。

それ故に、依然として、所望の治療結果を予測するのに役立つようにシミュレートされた条件（例えば、シミュレートされた治療的介入）に対する異常細胞もしくは組織内の１つまたは複数の経路のインシリコ反応を予測する改良された計算機モデルおよび方法を提供することが必要である。

本発明の主題は、患者標本からのオミックスデータおよび先験的な経路モデルを使用して、治療結果をインシリコ予測する装置、システム、および方法を対象とする。好ましい態様において、治療結果の予測は、治療アプローチをシミュレートするために経路モデルのインシリコ調整に基づき、シミュレーションの結果は、治療推奨を準備するために採用される。

本発明の主題の一態様において、発明者らは、その結果、細胞のオミックスデータに由来するデータセットのインシリコ解析の方法を検討する。好ましい方法は、具体的には、経路モデルデータベースを機械学習システムおよび経路解析エンジンに情報結合するステップを含み、経路モデルデータベースは、多数の区別できる異常細胞のオミックスデータにそれぞれ由来する多数の区別できるデータセットを記憶し、各データセットは、複数の経路要素データを備える。機械学習システムは、次に、複数の区別できるデータセットのうち少なくとも一部を受け取り、異常細胞の治療パラメータ（例えば、薬剤による治療）の状態（例えば、感受性または抵抗性）に関連付けられた区別できるデータセット内の決定的な経路要素を識別する。さらなるステップにおいて、経路解析エンジンは、次に、異常細胞から区別できるデータセットのうち少なくとも１つを受け取り、データセット内の決定的な経路要素は、次に、修正されたデータセットを生成するために経路解析エンジンにおいて調整される。機械学習システムは、次に、異常細胞に対する治療パラメータの状態の変化を識別するために、修正されたデータセットを使用する。望ましい場合、もしくは、必要とされる場合、この態様におけるシステムおよび方法は、データセットを前処理（例えば、特徴選択、データ変換、メタデータ変換、および／または、学習データセットおよび検証データセットへの分割）する付加的なステップをさらに含むことになることが検討される。

最も典型的には、区別できるデータセットのうち少なくとも１つは、腫瘍性疾患と診断された患者の患者標本から生成され、１つまたは複数の他のデータセットは、患者からではない細胞を含んでいる区別できる細胞培養から生成される。細胞培養からの細胞は、患者の腫瘍性疾患と同じ腫瘍性タイプ（例えば、患者に由来しない様々な乳がん細胞株、および、乳がん細胞もしくは組織）であることに注意すべきである。さらに、患者は、腫瘍性疾患の治療を受けていないことが認識されるべきである。別の観点から見ると、検討されたシステムおよび方法は、治療が始まる前であっても、患者オミックスデータに基づいて最適化された結果のための薬剤併用を予測するために適している。本発明の主題に限定することなく、患者に対する治療推奨を備える出力データが生成されることは、概して好ましい。それ故に、検討された方法は、状態の変化が所定の閾値を超えるとき、決定的な経路要素を標的にする薬剤を識別するステップをさらに含むことがある。

異なった観点から見ると、複数の区別できる異常細胞は、薬剤に対する細胞の感受性（または、放射線、温熱療法などを含む他の治療法）に関して互いに異なることになることが認識されるべきである。例えば、第１の区別できる異常細胞の組は、薬剤による治療に感受性があることがあるが、第２の区別できる異常細胞の組は、薬剤による治療に対して抵抗性があることがある。

オミックスデータに関して、全ての既知のオミックスデータが適当であると考えられ、好ましいオミックスデータは、特に、遺伝子コピー数データ、遺伝子突然変異データ、遺伝子メチル化データ、遺伝子発現データ、ＲＮＡスプライス情報データ、ｓｉＲＮＡデータ、ＲＮＡ翻訳データ、および／またはタンパク質活性データを含む。同様に、多数のデータフォーマットがここで用いるため適切であると考えられるが、特に好ましいデータフォーマットは、ＰＡＲＡＤＩＧＭデータセットである。決定的な経路要素は、かなり変化することがあるが、しかしながら、特に好ましい決定的な経路要素は、遺伝子の発現状態、タンパク質のタンパク質レベル、および／またはタンパク質のタンパク質活性を含む。

その結果、発明者らは、機械学習システムおよび経路解析エンジンに情報結合された経路モデルデータベースを含むことになる細胞のオミックスデータに由来するデータセットをインシリコ解析するシステムをさらに検討する。最も典型的には、経路モデルデータベースは、複数の区別できる異常細胞のオミックスデータにそれぞれ由来する複数の区別できるデータセットを記憶するようにプログラムされることになり、各データセットは、複数の経路要素データを備えることになる。機械学習システムは、次に、経路モデルデータベースから複数の区別できるデータセットを受け取るようにプログラムされ、異常細胞の治療パラメータの状態に関連付けられた複数の区別できるデータセット内の決定的な経路要素を識別するようにさらにプログラムされる。最も典型的には、経路解析エンジンは、異常細胞から区別できるデータセットのうち少なくとも１つを受け取るようにプログラムされ、異常細胞から修正されたデータセットを生成するために少なくとも１つの区別できるデータセット内の決定的な経路要素を調整するようにさらにプログラムされ、機械学習システムは、修正されたデータセットを使用して、異常細胞に対する治療パラメータの状態の変化を識別するようにプログラムされている。典型的には、システムは、患者に対する治療推奨を備える出力データを生成するようにさらにプログラムされている。

前述のとおり、区別できるデータセットのうち少なくとも１つは、腫瘍性疾患を有する患者の患者標本から生成されること、および、区別できるデータセットのうち多数の他のデータセットは、患者からではない細胞を含んでいる区別できる細胞培養から生成されることも検討されている。好ましくは、患者は、腫瘍性疾患の治療を受けていない。

異なった観点から見ると、発明者らは、経路モデルデータベースが機械学習システムおよび経路解エンジンに結合されているコンピュータシステムに、（ａ）複数の区別できる異常細胞のオミックスデータにそれぞれ由来し、各データセットが複数の経路要素データを備える複数の区別できるデータセットを経路モデルデータベースから機械学習システムに転送するステップと、（ｂ）機械学習システムによって、異常細胞の治療パラメータの状態に関連付けられた複数の区別できるデータセット内の決定的な経路要素を識別するステップと、（ｃ）経路解析エンジンによって、異常細胞から区別できるデータセットのうち少なくとも１つを受け取るステップと、（ｄ）経路解析エンジンによって、異常細胞から修正されたデータセットを生成するために少なくとも１つの区別できるデータセット内の決定的な経路要素を調整するステップと、（ｅ）機械学習システムによって、修正されたデータセットを使用して、異常細胞に対する治療パラメータの状態の変化を識別するステップと、を備える方法を実行させるプログラム命令を格納する非一時的なコンピュータ読み取り可能な媒体も検討した。

最も典型的には、オミックスデータは、遺伝子コピー数データ、遺伝子突然変異データ、遺伝子メチル化データ、遺伝子発現データ、ＲＮＡスプライス情報データ、ｓｉＲＮＡデータ、ＲＮＡ翻訳データ、および／またはタンパク質活性データを含むことがあり、区別できるデータセットがＰＡＲＡＤＩＧＭデータセットであることが特に検討されている。

本発明の課題の様々な目的、特徴、態様および利点は、類似する符号が類似するコンポーネントを表現する添付図面と併せて以下の好ましい実施形態の詳細な説明からより明らかになるであろう。

左パネルにおいて選択された薬剤（１Ａ：シスプラチン、１Ｂ：ゲルダナマイシン）に対する乳がん細胞株の感受性を描き、右パネルにおいて選択された薬剤に関係しているこれらの細胞株内の経路要素の活性を概略的に描く図である。左パネルにおいて選択された薬剤（１Ａ：シスプラチン、１Ｂ：ゲルダナマイシン）に対する乳がん細胞株の感受性を描き、右パネルにおいて選択された薬剤に関係しているこれらの細胞株内の経路要素の活性を概略的に描く図である。ＧＩ_５０において発現されたとおりのシスプラチンに対する種々の乳がん細胞株の感受性（上パネル）と、同じ細胞の遺伝子発現／調節に対する対応するヒートマップ（下パネル）とを描く図である。各遺伝子が統計学的因子グラフモデルとして表現されている経路モデルシステムを概略的に示す図である。図２Ａの経路要素のインシリコ調整および関連付けられたダウンストリーム効果を概略的に表す図である。例示的経路モデル化システムにおける薬剤介入シミュレーションを概略的に示す図である。本発明の主題による有意性解析およびシフト測定を概略的に示す図である。結腸がん細胞株内の遺伝子のインシリコノックダウンにおけるインビボ検証実験を概略的に示す図である。本発明の主題による作業の流れの概略図である。ＩＧＦＢＰ２がノックアウトされた様々ながん細胞株のインシリコ操作後のシスプラチン感受性の予測変化に対する例示的出力を示す図である。ＴＰ５３ＩＮＰ１がノックアウトされた様々ながん細胞株のインシリコ操作後のＧＳＫ９２３２９５感受性の予測変化に対する例示的出力を示す図である。ＡＲＨＧＥＦ２５がノックアウトされた様々ながん細胞株のインシリコ操作後のファスカプリシン感受性の予測変化に対する例示的出力を示す図である。

参照によって本明細書に組み込まれる国際公開第２０１１／１３９３４５号、国際公開第２０１３／０６２５０５号、および国際公開第２０１４／０５９０３６号に記載されているように最近開発された経路解析システムおよび方法に基づいて、発明者らは、今度は、条件、および特に腫瘍性疾患の治療関連パラメータ（例えば、薬剤抵抗性および／または特定治療に対する感受性）の決定因子である、もしくは、これらの治療関連パラメータに関連付けられた経路解析および経路モデル修正が、薬剤治療選択肢を識別するために、および／または、薬剤治療標的経路要素をシミュレートするためにインシリコで使用され得ることを検討する。

より具体的には、識別された経路要素は、所望の効果が達成されることがあり得るか否かを試験するために経路解析システムおよび方法を使用してインシリコで調整もしくは修正される。例えば、薬剤抵抗性の経路モデルがある特定の要素の過剰発現を条件（例えば、特定の薬剤に対する抵抗性）の開発に決定的であるとして識別するとき、この要素の発現レベルは、この要素のインシリコによる低減が細胞対薬剤感受性を反転する可能性があり得る場合、同じ経路解析システムおよび方法において試験するために、インシリコで低減されることがあり得る。このようなアプローチは、多数の考え得る腫瘍変異株を表現する多数の細胞株が既に利用可能であるとき、特に価値がある。このような場合、経路解析は、細胞株固有経路モデルのコレクションを取得するために細胞株の各々に対して細胞株毎に実行され得る。このようなコレクションは、患者標本のためのデータがコレクションと同じデータ空間の中で解析され得るので、患者標本から取得されたデータとの比較のため特に役立ち、このことは、最終的に、患者に対する治療標的の識別を可能にさせる。数ある利点の中で、検討されたシステムおよび方法は、その結果、患者が実際に薬剤治療を受ける前に、多剤治療を識別するために腫瘍標本から患者データの解析を可能にする。

その結果として、異なった観点から見て、発明者らは、患者の異常細胞および／または組織からの様々なオミックスデータが、種々の同様の異常細胞（例えば、乳がん細胞）における経路および／または経路要素の先験的な識別に基づく細胞および／または組織の感受性プロフィールを決定するために計算機アプローチにおいて使用され得ることを発見した。最も好ましくは、先験的に識別された経路（群）および／または経路要素（群）は、特定の薬剤介入および／または治療計画への抵抗性および／または感受性に関連付けられる。感受性プロフィールが規定されると、治療は、先験的に識別された経路（群）および／または経路要素（群）から直接予測される可能性があり、または、識別された経路および／または経路要素は、薬剤介入および／または治療計画に対する尤もらしい結果を予測するために、既知の経路モデル化システムおよび方法を使用してインシリコ調整される可能性がある。

コンピュータを対象にする言い回しは、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、または、個別もしくは集合的に動作する他の種類の計算装置を含む計算装置の適当な組み合わせを包含するように読まれるべきである。当業者は、計算装置が有形の、非一時的なコンピュータ読み取り可能な記憶媒体（例えば、ハード・ドライブ、ソリッド・ステート・ドライブ、ＲＡＭ、フラッシュ、ＲＯＭなど）に記憶されたソフトウェア命令を実行するように構成されたプロセッサを備えることを認識する。ソフトウェア命令は、好ましくは、開示された装置に関して後述されるように役割、責任、またはその他の機能性を提供するように計算装置を構成する。特に好ましい実施形態において、様々なサーバ、システム、データベース、またはインターフェースは、おそらく、ＨＴＴＰ、ＨＴＴＰＳ、ＡＥＳ、公開−秘密鍵交換、ウェブサービスＡＰＩ、既知の金融取引プロトコル、またはその他の電子情報交換方法に基づく標準化されたプロトコルもしくはアルゴリズムを使用してデータを交換する。データ交換は、好ましくは、パケット交換ネットワーク、インターネット、ＬＡＮ、ＷＡＮＴ、ＶＰＮまたはその他の種類のパケット交換ネットワークを通じて行われる。

殆どのがん患者は、単剤療法を受けることは稀であるが、特定の薬剤併用に対する反応の正確な予測は、がん治療における最も難解な課題の１つである。見込みのある薬剤併用の数は、多数であるので、現在のところ、特定のがんに対する所定の併用をサポートするために満足できる有意なデータはほとんどない。その代わり、現在の併用療法の大部分は、独立した経路を標的とするために手動で選択されている。残念ながら、併用療法を設計する現在の方法は、やや実践的であるが、これらの方法は、相乗的な２剤療法のための薬剤候補を識別するために正確な統計学的アプローチが存在しないので、通り一遍になる傾向がある。さらに、単剤療法予測を数値的に組み合わせることは、薬剤応答のメカニズムが必ずしも独立ではないため、併用の結果を正確に予測することにならない。

この欠点に取り組むために、発明者らは、今度は、単剤治療予測と共に経路情報に基づく学習を組み込むシステムおよび方法を開発した。より詳細に後述されるように、一般的には、既知の経路モデル化システム（好ましくは、ＰＡＲＡＤＩＧＭ）が（同じ腫瘍型の）治療抵抗性および治療感受性細胞の多数の細胞株データから経路活性を推定するために使用されるのが好ましい。このように開発された経路活性データは、より詳細にさらに後述されるように（トップモデル）、次に、アプローチにおける薬剤反応の予測モデルを構築するために使用され、各薬剤のトップ予測モデルは、どの遺伝子が抵抗性のため高く重み付けされることがよくあるのかを決定するために検査される。これらの遺伝子は、次に、既知の経路モデル化システム（好ましくは、ＰＡＲＡＤＩＧＭ）の中でオフ位置にインシリコでクランプされ、活性が再び推定され、これは、実際には、インビボ薬剤介入の予測される影響をインシリコでシミュレートする。トップモデルは、次に、新たに推定された介入後データを再評価するために使用される。容易に認識されるように、再評価が薬剤抵抗性から薬剤感受性へのシフトを示すとき、インシリコでシミュレートされた介入は、インビボ治療のための治療推奨に翻訳され得る。

以下、発明者らは、既知の乳がん細胞株データと、これらの細胞の単剤療法薬剤反応プロフィールの大型パネルとを使用するこのようなシステムおよび方法の実施可能性を実証した。２剤療法の効果をシミュレートするために、発明者らは、さらに後述されるように、経路モデル化システムデータで学習させられた非常に正確な薬剤反応モデルを使用し、抵抗性と推定的に関連付けられた遺伝子候補に対して、これらの経路モデル化システムに基づくモデルを検査した。これらの抵抗性関連特徴は、これらの遺伝子の作用に対する標的薬剤介入の効果をシミュレートする代わりに、経路モデル化システムにおいてインシリコで消された。このようにして取得されたモデルは、次に、感受性へ向けたシフトに対して介入後データセットを再評価するために使用された。シフトが観察された場合、推定は、モデルがインシリコで予測した薬剤反応が第１の薬剤を候補遺伝子に対する第２の論理的根拠に基づく標的薬剤療法と組み合わせることによりインビボで強化される可能性がある、というものである。

この方法における薬剤／特徴−ＫＯ併用の効果を予測することは、非常に正確な、線形分類器を必要とすることが認識されるべきである。最も好ましくは、このような分類器は、事前介入データおよび介入後データへの操作を要することなくこれらの適用を可能にするために、入力として経路モデル化システムデータ（好ましくは、ＰＡＲＡＤＩＧＭデータ）を使用する。その上、線形モデルは、特徴係数の検査が介入をシミュレートする対象である抵抗性関連特徴を選択することを可能にさせる。

薬剤応答予測器モデル構築：臨床状況で用いることを奨励される予測モデルは、高い性能を有する必要がある。このような予測モデルを開発するために、多くの競合モデルが典型的に作り出される。これらの多数の競合モデルの性能は、最高性能を選択するために比較される必要があるが、それにもかかわらず、これらの性能を比較する方法は、多くの場合、不十分であり、典型的に、比較と比較との間でパラメータは、非常に広範に変わるので、これらのパラメータは、実際上、無意味である。いくつかの機械学習比較ツールは、制御パラメータを管理するために開発されている。例えば、「ｓｃｉｋｉｔ−ｌｅａｒｎ」および「ＷＥＫＡ」のようなソフトウェアは、理論的な予測精度を非常に迅速に集めるために設計されている。しかしながら、実行時間を減少させるために、このようなソフトウェアは、データの最低限の表現を揮発性メモリに一時的に保持するだけである。これらの設計によって、新しい予測アルゴリズムは、このアルゴリズムを比較に追加するためにこれらのソフトウェアの内部に実装されなければならない。このことは、既存コードを機械学習パイプラインコードの言語（ｓｃｉｋｉｔ−ｌｅａｒｎに対するｐｙｔｈｏｎ、およびＷＥＫＡに対するＪａｖａ）に苦労して翻訳することを必要とすることがよくある。これらのソフトウェアツールの外側で開発されたアルゴリズムとの比較は、依然として極めて困難である。

少なくともいくつかのこれらの困難さを克服するために、発明者らは、今度は、データに適用された機械学習アルゴリズムからデータ管理を分離するツール（「トップモデル」）を開発し、このツールは、柔軟性のある高スループットパイプラインを提供する。トップモデルは、データを読み取り、学習および分割検証を実行し、全てのデータおよびメタデータ変換を実行し、次に、これらのデータを異種ソフトウェアパッケージによって要求された様々なフォーマットに書き込む。このようにして、全く同一の学習および検証データが異なった言語で実装された異なったアルゴリズムに晒される。トップモデルは、次に、結果を収集し、これらを統一フォーマットで表示する。つまり、トップモデルは、共通記憶フォーマットのいずれかで（局所的にまたはクラウド記憶サービスに）記憶されたデータにアクセスすることによりデータを集め、次に、データおよびメタデータがマルチスレッド化された前処理を受け、データが、次に、個別の機械学習パッケージによって要求されるファイルフォーマットに書き込まれる前処理ステップを実行する。この前処理は、フォーマット間で一貫性があり、シードされる（その結果、再現可能である）ことが注意されるべきである。さらに別のステップにおいて、各分類器が学習データで学習させられ、検証データで評価されて学習および評価が実行される。これは、好ましくは、クラスタに実行され、スループットを実質的に高める。評価モデルに加えて、完全に学習させられたモデルが入力データセット全体に基づいて構築される。さらなる記憶および表示ステップにおいて、各アルゴリズムおよびこれのパラメータが評価され、これらの評価は、（ユーザ・インターフェースから問い合わせ可能である）データベースに記憶され得る統一ファイルフォーマットに収集される。最後に、インターフェースは、新型のデータで完全に学習させられたモデルを動かす機能を定義し、ユーザは、インターフェースを介してこれらのデータをアップロードし、予測を受け取ることができる。

データ採集ステップに関して、予測モデルを構築するために、高品位データセットが関連付けられたメタデータと共に収集される必要があることが注目される。マイクロアレイデータの多くの集まりがパブリック・ドメインになっている。ＧｅｎｅＥｘｐｒｅｓｓｉｏｎＯｍｎｉｂｕｓ（ＧＥＯ）のようなサイトは、必要なメタデータが関連付けられた何百もの大型コホートのための事実上のデータ共有場所になっている。独自のデータ共有サービスを提供するＳＵ２ＣおよびＴＣＧＡのような大規模データ生成コンソーシアムも存在する。しかしながら、これらのデータセットを収集することは、各記憶サイトがこれらの独自の問い合わせシステム、ファイルフォーマット、利用規定などを有するので、かなりの努力を要求することが認識されるべきである。これらのシステムは、絶えずアップグレードされている。これらのデータセットに直接的にプログラムでアクセスすることは、極めて脆弱である。その結果、これらのデータ共有場所に直接的にアクセスする代わりに、トップモデルは、慣用フォーマットのうちいずれかからのデータおよびメタデータの両方を読み取るように構成されている。このトップモデルは、タブ区切りのファイルおよびＢＥＤファイルを読み取り、ｍｙＳＱＬデータベースにアクセスし、ＳＱＬｉｔｅデータベースを読み取る。さらに、トップモデルＣライブラリは、局所的にホストされたデータベースおよび遠隔的にホストされたデータベースの両方にアクセスすることができる。

データ前処理に関して、モデル性能比較が同等であるため、学習のため機械学習パッケージに晒されたデータは、一致することが注目される。データが一致することを保証するために、トップモデルは、データを機械学習パッケージに晒す前に全てのデータ前処理を実行する。データ前処理は、特徴選択、データ変換、およびメタデータ変換と、学習データセットおよび検証データセットへの分割とを含む。特徴選択は、堅牢性を高めるための共通戦略であることが認められるだろう。入力特徴空間を縮小させることは、信号ではなく雑音がモデル化される「次元の呪い」を軽減する可能性がある。特徴選択は、（特徴縮小とは対照的に）具体的には、現在のデータセットからの情報量の少ない特徴の淘汰である。現在のトップモデルの実施は、最小分散、分散のランク、最小情報利得比、および情報利得ランクによるフィルタリングをサポートする。さらに、発明者らは、着目中のサブグループ間の分散を増加させる空間へデータを変換することが予測性能を強化する可能性があることを認めた。新しい特徴空間へ変換するデータ変換は、好ましくは、特徴が追跡されることを可能にさせるためにトップモデルへの入力の前に実行される。しかしながら、トッポモデルは、元のデータセット特徴空間を維持する多くのデータ変換：符号、ランク、有意性閾値、およびブール式による離散化をサポートする。

容易に認められるように、臨床反応変数を翻訳する多くの方法が存在する。臨床反応変数の翻訳は、ＩＣ５０データのような連続変数をバイナリ分類アルゴリズムにおいて用いられるバイナリデータ（反応者対無反応者）に変換するときに、特に適切である。分割のための多数の異なる閾値は、均等に合理的な選択肢であるかもしれない。トップモデルは、その結果、メジアンの周りの分割と、上位４分の１および下位４分の１と、符号と、ランクと、ユーザ定義閾値と、ブール式とを含めて、多くのメタデータ離散化スキームをサポートするように構成されている。予測堅牢性を検証する多くの技術が存在する。さらに、異なる予測タスクは、異なる堅牢性基準を使用すべきである。例えば、ＬＯＯＣＶは、ＲＳＳより非常に小型のコホートに対してより適切である。トップモデルは、その結果、多くの異なる検証方法をサポートするようにさらに構成されている。堅牢性を測定するために使用される技術は、トップモデルパイプラインにおけるパラメータであると考えられる。

組み合わせて解釈されたとき、データソース、データ特徴選択、データ変換、およびメタデータ変換における選択肢と、検証方法とは、入力の大型潜在空間について記載する。これらの前処理ステップのための処理時間および記憶場所の必要性は、重大であり、トップモデルは、その結果、コンピュータクラスタにとって利用しやすい大型記憶システムを必要とする。トップモデルは、学習および検証ファイルを大容量でありかつ冗長性のあるハイブ記憶システムに出力する。ハイブは、コンピュータクラスタにとって利用しやすいようにも搭載され、これらのファイルが学習のため直接的に利用できるにようにさせる。トップモデルは、前処理時間を短縮するためにいくつかの技術を使用する。各モデルに対して毎回データセットをダウンロードする代わりに、トップモデルは、データを１回ダウンロードし、このデータをメモリ内に保持する。データの内部コピーは、特徴選択および変換を行うために使用される。これらのデータ操作ステップは、作業が繰り返されないように、連鎖させられる。付加的に、トップモデル前処理モジュールは、マルチスレッド化される。スレッド化は、前処理ステップが同時に動くことを許し、メモリを共有し続けながら、時間を節約し、このことは、作業を繰り返すことを回避する。

前処理は、調査されているパラメータの数に伴って指数関数的に増加する。多数の特徴選択方法および多数のデータ変換を使って多数のデータセットを調査するとき、前処理は、トップモードパイプラインにおけるボトルネックになる可能性がある。現在のマルチスレッド型アプローチは、数時間内に何千もの固有のデータセット操作を生み出すことができる。

学習および評価に関して、トップモデルは、モデルを構築および試験するために非常に単純な「学習」コマンドおよび「分類」コマンドを使用する、ならびに、トップモデル内の機械学習パッケージの全てがＵＮＩＸライクコマンドから動かされることが認識されるべきである。サポートされるパッケージは、２つの実行形式：学習コマンドおよび分類コマンドを有する必要がある。学習コマンドは、入力として、少なくとも１つのデータファイルを受け取り、少なくとも１つのモデルファイルを出力しなければならない。分類コマンドは、入力として、少なくとも１つのデータファイルおよび１つのモデルファイルを受け取り、少なくとも１つの結果ファイルを出力しなければならない。これは、容易にサポートされる機械学習アルゴリズムの非常に一般的なスキームである。例えば、「学習」実行形式および「分類」実行形式は、ｓｖｍ−ｌｉｇｈｔのためのボックスから出てくる。このようなコマンド行から実行されない他のアルゴリズムに対して、発明者らは、小さなラッパーを開発した。例えば、ｇｌｍｎｅｔモデル（すなわち、リッジ回帰、ラッソ、および弾性ネット）は、典型的に、Ｒの中から動くので、コマンド行インターフェースを有する必要がない。発明者らは、バッチモードにおいてＲを使用してコマンド行から動かされ得る２つの小さなＲモジュール、学習のための１つおよび分類のための１つを開発した。

学習モデル：学習モデルは、トップモデルパイプラインの中で最も計算コストが高いステップである。数千もの特徴をもつデータセットで複雑なモデル（例えば、多項式カーネル・サポートベクトルマシン）を学習させることは、我々のスウォーム・クラスタ・ノード（クアッドコアＩｎｔｅｌＸｅｏｎプロセッサ）で完了するために何時間も要する。トップモデル内のモデル毎に少なくとも２つの学習ジョブ：性能を評価する学習ジョブ（例えば、相互検証モデル）の組と、データセット全体を入力として使用する１つの完全に学習させられたモデルとが存在する。前処理ステップのため、モデルに学習させることは、完全に並列化され得る。全てのモデルは、我々のクラスタシステム内の独立したノードで学習させられる。これらの学習ジョブを分割することにより、何千ものモデルを生成するために要する時間は、クラスタのサイズによって殆ど制限される。

分類：トップモデル内にモデル毎に少なくとも３つの分類ジョブ：検証データセットでの評価のための分類ジョブの組と、学習データセットを再調査するための分類ジョブの組と、完全に学習させられたモデルを調査する１つの分類ジョブとが存在する。学習と同様に、全ての分類ステップは、（学習が終了した後に）クラスタ上で並列に動かされ得る。分類は、学習と比べてかなり少ない計算資源を使用する。

評価モデル：全ての分類が完了した後、トップモデル内のモジュールは、異種機械学習パッケージによって生成された結果ファイルを読み取り、この情報を統合報告書フォーマットに変換する。１つの報告書ファイルは、モデル毎に生成され、ハイブに記憶される。これは、モデル単位のステップであるので、クラスタ上でも動かすことができる。この報告書フォーマットは、どちらの標本が学習で使用されたか、分類アルゴリズムからの未加工の予測スコアが何であるか、ならびに、学習コホートおよび試験コホートの両方における予測の精度が何であるかについて記述する。線形モデルに対して、このフォーマットは、最大で２００個までの遺伝子名と予測モデル内でのこれらの係数とをさらに含む。

記憶結果：全ての評価が完了した後、トップモデル内のモジュールは、全ての結果を単一の統合報告書ファルに集める。このファイルは、全ての予測タスクと、特徴選択方法と、データ変換と、メタデータサブグループ化と、モデル統計値とについて記述する。これらの結果を収集するトップモデルモジュールは、各エントリーの一意性をチェックし、結果の中に重複が存在しないことを保証する。この報告書ファイルは、トップモデル結果のファイルベース・データベースとしての機能を果たす。好ましい態様において、トップモデル内の別のモジュールは、ウェブから問い合わせることができるデータベース内にこれらのトップモデル結果をミラー化する。データベースから問い合わされた結果の表示を可能にするユーザ・インターフェースが次に提供される。

トップモデルを使用する予測：完全に学習させられたモデルは、新規のユーザ提出データに基づいて予測するために使用され得る。トップモデル・ユーザ・インターフェースを使用して、ユーザは、これらの標本に対するタブ区切りのデータをアップロードできる。トップモデルＣＧＩは、これらのデータを局所的な一時的スクラッチ空間に保存する。トップモデルＣＧＩは、次に、ユーザデータからの特徴を要求されているモデルと照合する。ユーザデータの中に欠けている値が存在する場合、ヌル値が挿入される。要求されたモデルは、次に、トップモデルＣライブラリ内のモジュールを使用してユーザデータを採点するために使用される。スコアは、ＪＳＯＮフォーマットでトップモデルのユーザ・インターフェースに折り返し報告され、ユーザデータは、ディスクから一掃される。ＪＳＯＮフォーマットの予測スコアは、トップモデルのユーザ・インターフェースによって受け取られ、プロットで表される。このプロットに含まれているのは、ユーザ提出データと適用されているモデルとの間の特徴の重なり合いを示す円グラフである。付加的に、学習データセットからの予測スコアは、真陽性例および真陰性例からのコンテキストを与えるためにさらにプロットされる。

本発明の主題のさらに検討された態様において、特に、上記検討されたシステムおよび方法の観点から、システムおよび方法は、活性のメカニズムおよび／または新しい治療化合物の標的の識別のためにも適することが認識されるべきである。例えば、多数の区別できる細胞および／または組織（典型的には、異常細胞または組織）は、潜在的な治療効果を評価するために１つまたは複数の候補化合物に晒される。より典型的には、このような効果は、多数の区別できる細胞および／または組織の各々に対するＧＩ_５０、ＩＣ_５０、アポトーシスの誘導、発現型の変化などとして測定されるものであり、本明細書中に記載されたとおりの機械学習は、細胞および／または組織のデータセットの中の１つまたは複数の決定的な経路要素を識別するために用いられる。このような識別は、新しい治療化合物に対する潜在的な標的および／または活性のメカニズムを容易に導くであろう。付加的に、検討されたシステムおよび方法は、新しい治療化合物の効能を高めることがある二次薬剤（例えば、既知の化学療法薬剤）を識別するためにも適することになる。その結果として、本明細書に記載されたシステムおよび方法を使用すると、活性のモードおよび分子標的が新しい薬剤に対して識別され得ること、ならびに、相乗的な新しい薬剤／既知の薬剤の併用が識別され得ることが認められるべきである。

同様に、既存の薬剤に対して、医薬品が存在しない新しい標的が識別されることがあることも認められるべきである。例えば、本明細書中に提案されたシステムおよび方法が、現在の薬剤が存在しない治療成功のための決定的な経路要素として特定の経路要素を示すとき、合理的な薬剤設計は、決定的な経路要素として識別されたこれらを具体的に標的とするリード化合物およびより一層活性的な医薬品（例えば、抗体、酵素阻害剤など）を開発するために用いられることがある。

その結果として、発明者らは、薬剤標的および／または活性のメカニズムの識別のための細胞のオミックスデータに由来するデータセットのインシリコ解析の方法をさらに検討する。このような方法は、典型的に、候補化合物（例えば、化学療法薬剤、抗体、キナーゼ阻害剤など）を用いて治療された多数の区別できる細胞のオミックスデータにそれぞれ由来し、各データセットが複数の経路要素データを備える多数の区別できるデータセットを記憶する経路モデルデータベースを機械学習システムおよび経路解析エンジンに情報結合するステップを含むものである。機械学習システムは、次に、区別できるデータセットを受け取るものであり、機械学習システムは、本明細書中に記載されているとおり実質的に細胞への候補化合物の投与に関連付けられた区別できるデータセット内の決定的な経路要素を識別するものである。別のステップにおいて、経路解析エンジンは、細胞から区別できるデータセットのうち少なくとも１つを受け取り、区別できるデータセット内の決定的な経路要素を具体的な経路もしくはドラッガブルな標的と関連付けるものである。このようにして識別された具体的な経路もしくはドラッガブルな標的は、次に、候補化合物を具体的な経路もしくはドラッガブルな標的と相関させる出力で使用される（例えば、選択的にグラフィカル表現を使ってファイルを報告する）。この方法は、次に、既に記載されたとおり、このように識別された新しい情報を使用することがあることも認識されるべきである。例えば、経路解析エンジンは、細胞から修正されたデータセットを生成するために、データセット内で新たに識別された決定的な経路要素を調整するために使用されることがあり、機械学習システムは、次に、この細胞に対する治療パラメータの状態の変化を（修正されたデータセットに基づいて）識別することがある。

周知のとおり、異常組織（例えば、乳がん）の異なる細胞株は、特定の薬剤を用いる治療に反応して非常に異なる発現および調節環境を有する。例えば、いくつかの種類の乳がん（例えば、基底、非基底）は、図１Ａのプロットに示されるように、シスプラチンに向かって区別できる感受性を有するものであり、他の種類の乳がん（ＥＲＢＢ２ＡＭＰ、非ＥＲＲＢ２ＡＭＰ）は、図１Ｂのプロットに示されるように、ゲルダナマイシンに向かって区別できる感受性を有するものである。プロットの右側に位置する図１Ａおよび図１Ｂの対応する概略図は、それぞれの細胞／薬剤治療に対する対応する例示的経路情報を示し、実線は、転写活性化を示し、破線は、キナーゼ活性を表し、線の終わりにあるバーは、阻害効果を表す。

図１Ｃの上パネルは、シスプラチンに対する様々な乳がん細胞株の薬剤感受性のより詳細なビューを表し、下パネルは、がん細胞の経路の範囲内で様々な標的要素（ｙ軸に示されている、図１Ａの概略図も参照のこと）に関する同じ細胞株内の発現／調節のヒートマップ（ｘ軸に示されている）を表す。容易に認められるように、発現および遺伝子調節は、シスプラチンに対する感受性もしくは抵抗性に明白なパターンが関連付けられることなしに、細胞株と細胞株との間で実質的に異なる。その結果、大量のゲノム情報が利用可能であるが、当業者は、これらのデータからの効果的な、または、なお一層情報量の多いガイダンスを欠いているので、適当な治療戦略若しくは推奨を識別することができない。

本実施例のため、５０個の乳がん細胞株のパネルが本明細書において検討されたシステムおよび方法（トップモデル）の有効性を実証するのに適当なデータセットを提供するために使用された。いくつかのゲノム規模でのアッセイからのデータを有するのに加えて、１３８個の薬剤への反応がこれらの細胞株においてアッセイされた。その結果、多くの予測チャレンジがこのデータセット内で解析され得るが、コホート効果を一定に保ち続ける。より具体的には、アフィメトリクス・エクソン・マイクロアレイ発現データおよびアフィメトリクス・ゲノム・ワイドＳＮＰ６．０マイクロアレイコピー数が５０個の乳がん細胞株に対して取得され、これらのデータは、（国際公開第２０１１／１３９３４５号および国際公開第２０１３／０６２５０５号に記載されているとおり）既知の経路モデル化システムを使用して経路活性を推定するために使用された。このような発現データおよびコピー数データの変換の結果は、本明細書において検討されたシステムおよび方法（トップモデル）で用いるため適切な標本による経路特徴の行列である。ゲノミクスデータに加えて、１３８個の薬剤に対するＩＣ５０薬剤反応データ（ＧＩ５０、Ａｍａｘ、ＡＣａｒｅａ、フィルタ処理されたＡＣａｒｅａ、および最大投与量）が取得された。

これらのデータは、以下の表に記載されるとおり、トップモデルパイプライン内に薬剤反応分類器（感受性対抵抗性）を構築するために使用された。組み合わせて、これらのパラメータは、予想される１２９，１６８個の完全に学習させられたモデルについて記述する。各モデルは、５×３重の相互検証によって検証されるので、これは、完全に学習させられたモデル毎に、さらなる１５個のモデル、すなわち、１，９３７，５２０個の付加的な評価モデルを学習させることを必要とする。学習させられるべきモデルの総数は、２００万個を超える。

前述の乳がん細胞株データのため、（１３８個の利用可能な薬剤のうち）各薬剤に対して最も正確な線形モデルがさらなる解析のため選択され、各モデルに対して、最大で２００個の抵抗性関連特徴がこれらの線形モデル内の係数を調査し、最高ランキング特徴を報告することにより抽出された。経路内の１７，３２５個の特徴のうち５，０６５個は、抵抗性と関連しているとして、１３８個の薬剤反応モデルのうち少なくとも１つによって選択された。これらの５，０６５個の特徴のうち最も頻繁に抵抗性に関連付けられた２００個がインシリコでのノックアウトのため選択された。

インシリコ経路調整：国際公開２０１１／１３９３４５号、国際公開２０１３／０６２５０５号、および国際公開２０１４／０５９０３６号に記載されたように、好ましい経路モデル化システムは、観察された生物学的データ（オミックスデータ）を（典型的には、研究された先験的な既知の経路情報に基づいた）セントラル・ドグマ・モジュールに当てはめ、次に、多くのモジュールが安定状態に収束するまで信号を互いに伝搬させることを可能にすることによって、推定された経路活性を学習する。図２Ａは、遺伝子が統計学的因子グラフモデルによって表現される経路モデル（ＰＡＲＡＤＩＧＭ）の概略図を提供する。

このような経路モデル化システムは、標的介入の効果をシミュレートするためにも使用され得ることが容易に認められるであろう。例えば、図２Ｂに概略的に示されるように、遺伝子の遺伝子抑制のため、セントラル・ドグマ・モジュール内の標的ｍＲＮＡノードは、抑制された状態に押し込まれ、経路活性が再推定される可能性がある。付加的に、ノックダウンされたｍＲＮＡノードは、これの親ノードから切断される可能性があり、これは、ｍＲＮＡ状態がこのノードの抑制された状態を標的遺伝子の転写調節器に偽って逆伝搬するのを阻害することになる。さらなる概略実施例が図２Ｃに与えられ、パネル（ａ）において、例示的経路は、経路活性のモデル化および推定を可能にさせる点で有利である因子グラフとして表現される。証拠ノードは、発現データおよびコピー数データのようなゲノム規模でのアッセイに由来するデータ（典型的には、オミックスデータ）を使用して投入される。その結果、これらのノードからの信号は、因子グラフの中を通って伝搬させられる。パネル（ｂ）は、介入シミュレーションを概略的に表す。標的特徴（遺伝子発現のノックアウト）において、証拠ノードは、切断され、ｍＲＮＡノードは、下方制御された状態にクランプされる。

前述のシステムを使用して、介入シミュレーションが乳がん細胞株内の２００個全ての抵抗性関連特徴に対して行われ、これは、各々が標的遺伝子抑制の効果を表現する２００個の新しい「介入後」データセットを生成する。二重介入の効果を定量化するために、薬剤反応モデルは、介入前および介入後の両方のデータセットに適用され、予測された抵抗性のシフトが観察される。このシフトの大きさは、特徴介入が、モデルが予測する単剤療法反応と相互作用する程度を示唆する。

有意性解析およびシフト測定：以下の有意性解析は、結果をさらに微調整するために行われた。前述の乳がん実施例において、解析のため選択された各線形モデルは、抵抗性関連があるとして２００個の特徴を指定することができた。最上位２００個だけが指定された５，０００個以上の全リストから選択されたので、各線形モデルは、選択されたある一定の特徴と、選択されていない他の特徴とを収容していた。平均すると、所与の線形モデルは、２００個の抵抗性関連の組の中の３個の特徴を有する。それ故に、所与の反応モデルに対して、モデルに関係付けられず、経験的なヌル分布を作り出すために使用された約１９７個のシミュレートされたノックダウンデータセットのプールが存在する。各薬剤のためのトップモデルは、次に、全ての特徴ノックダウンデータセットに適用され、解析されている薬剤に関係付けられていないデータセットは、図２Ｄに概略的に示されるように、選択された各遺伝子の有意性を測定するために用いる背景モデルを作り出す。ここで、パネル（ａ）は、各々が抵抗性関連として事前に識別された最大で２００個の遺伝子を含んでいる薬剤反応モデルＡ、ＢおよびＣを概略的に示し、モデルＡ、ＢおよびＣの間にある遺伝子の一部は、重なり合うことがある。モデルＣから薬剤／特徴−ＫＯ組み合わせを解析するとき、全ての遺伝子ｘは、ヌルモデルにおいて、集合ｘ∈｛Ａ∪Ｂ−Ｃ｝から使用された。パネル（ｂ）において、モデルＣは、全ての遺伝子ｘ∈｛Ａ∪Ｂ−Ｃ｝および全ての標本ｉ∈Ｎに適用される。各特徴−ＫＯ／薬剤／標本の組み合わせに対するシフトの量Δ_{ｘ，ｃ，ｉ}は、背景モデルに記録される。モデルＣは、各遺伝子ｙ∈｛Ｃ｝に同様に適用され、シフトの量でΔ_{ｙ，ｃ，ｊ}が記録された。パネル（ｃ）に表されるように、選択された薬剤／遺伝子／標本の組み合わせにおけるシフトの量は、次に、関係付けられていない遺伝子からの背景分布に対する有意性について測定される。

このような計算機アプローチを検証するために、発明者らは、図３に概略的に表されるように、実験の組において結腸がん細胞株ＨＴ２９を使用した。第１のインビトロ実験において、ＧＦＰ（緑色蛍光タンパク質）に対するｓｉＲＮＡは、（ＨＴ２９細胞がＧＦＰを発現しないので）陰性対象として細胞内で発現させられ、ＧＮＡＩ３に対する第２のインビトロ実験において、ＳｉＲＮＡは、細胞内の陰性ＧＮＡＩ３発現をノックダウンするために発現させられた。オミックスデータ（遺伝子コピー数、発現レベル、プロテオミクスデータ）が両方のインビトロ実験に対して取得され、経路解析がＰＡＲＡＤＩＧＭを使用して行われた。独立したインシリコ実験において、ＧＮＡＩ３は、「発現なし」が人為的に設定され、対応のあるＴ検定は、インビトロＧＮＡＩ３−ノックダウン細胞内で観察された実験条件がインビトロＧＦＰ−ノックダウン細胞よりインシリコＧＮＡＩ３−ノックダウン細胞に密接して相関しているかどうかを調べるために図３に示されるように行われた。注目すべきは、インシリコ結果がかなり高い程度の統計学的有意性でインビトロ結果と同等であったことである。よって、前述のアプローチの潜在的な有用性が明確に示された。

前述の観点から、図４は、本明細書中に提案されたとおりの発明の主題の典型的な実施形態を概略的に示す。ここで、細胞タイプは同じであるが、薬剤感受性が異なる（好ましくは、ＰＡＲＡＤＩＧＭデータセットとしての）オミックスデータ（例えば、ＧＩ_５０値によって、および基づいて表現されるように感受性対抵抗性）は、前述されたように薬剤に対する抵抗性および／または感受性をもたらす推定経路要素を識別するために、トップモデルを使用して機械学習ファームにおいて機械学習解析を受ける。一旦識別されると、１つまたは複数の推定経路要素は、次に、人為的にインシリコで（ここでは、シミュレートされたノックダウンとして）調整させられ、このようにして取得されたデータセットは、調整が薬剤に対する感受性の変化を生じたか否か（および生じた程度）を予測するためにさらなる解析を受ける。解析の結果は、次に、薬剤抵抗性の望ましい変化をもたらす、もしくは、薬剤抵抗性の望ましい変化に寄与する経路要素の識別を可能にさせる出力フォーマットで提供される。図４の実施例において、乳がん細胞内のＩＧＦＢＰ２のノックダウン時にシスプラチンに対する感受性の計算された／シミュレートされた変化は、矢印を使用して細胞株毎に示されている。図５Ａから図５Ｃは、乳がん細胞の予め識別された経路要素の発現の計算された／シミュレートされた変化の関数として、薬剤感受性の変化の予測結果を表している。より具体的には、図５Ａは、シスプラチン感受性を表し、経路要素がＩＧＦＢ２であり、図５Ｂは、ＧＳＫ９２３２９５感受性を表し、経路要素がＴＰ５３ＩＮＰ１であり、図５Ｃは、ファスカプリシン感受性を表し、経路要素がＡＲＨＧＥＦ２５である。

当然ながら、前述の実施例は、本発明の主題の説明だけを与えるものであり、限定であると見なされるべきではないことが認識されるべきである。実際には、実施例は、単一の経路要素調整の解析を与えるに過ぎないが、多数の経路要素が同時に、または順次修正されてもよいことが認識されるべきである。さらに、ノックダウン変化が検討されているが、全ての修正（たとえば、上昇、下降、［異種もしくはそうでなければ組み換え］遺伝子発現）が本明細書において用いるため適すると考えられることが認められるべきである。このような修正は、核酸レベルの（例えば、ノックダウン、ノックアウト、削除、増強発現、増強安定性など）、および／または、タンパク質レベルの（例えば、抗体、組み換え発現、注入などによる）直接的な修正、または、調節コンポーネントを介する（例えば、発現シミュレータ、転写抑制体などを設けることによる）間接的な修正となり得る。

さらに、前述の実施例は、単一の経路もしくは経路ネットワークを妨げるために使用されるが、互いに機能的に関連付けられているか否かを問わずに、多数の経路に影響を与えるインシリコ操作およびインビボ操作が同様に検討されることに注意すべきである。同様に、経路操作は、望ましい結果が人為的に設定されるように行われることもあることと、後に続く解析は、次に、望ましい結果を導くように修正され得るパラメータを識別するために行われることとが認識されるべきである。その上、ＰＡＲＡＤＩＧＭは、特に好ましい経路モデルシステムであるが、全ての経路モデル化システムは、本明細書において用いるため適していると見なされることが認識されるべきである。非常に典型的に、このようなモデル化システムは、少なくとも先験的な既知コンポーネントを有するものである。

上述のように、薬剤反応ネットワークの方法の具体的な実施形態および適用が開示されている。前述の修正に加えてさらに多くの修正が本明細書における発明の概念から逸脱することなく可能であることは、当業者に明白であるはずである。本発明の主題は、その結果、請求項の趣旨を除いて限定されることがない。その上、明細書および請求項を両方共に解釈するとき、全ての用語は、文脈と一致するできる限り最も広義に解釈されるべきである。特に、用語「備える（ｃｏｍｐｒｉｓｅｓ）」および「備える（ｃｏｍｐｒｉｓｉｎｇ）」は、非排他的に要素、コンポーネント、またはステップに言及するものとして解釈されるべきであり、言及された要素、コンポーネント、またはステップが存在する、もしくは利用される、または、明示的に言及されていない他の要素、コンポーネント、もしくはステップと組み合わされることがあることを示す。明細書または請求項がＡ、Ｂ、Ｃ．．．およびＮよりなる群から選択されたもののうち少なくとも１つに言及するとき、文書は、ＡとＮ、または、ＢとＮなどではなく、この群からの唯一の要素を必要とするものとして解釈されるべきである。

Claims

細胞のオミックスデータに由来するデータセットのインシリコ解析の方法であって、
腫瘍性疾患を有する患者の患者標本のオミックスデータに由来し、複数の経路要素データを備えるデータセットを記憶する経路モデルデータベースを機械学習システムおよび経路解析エンジンに情報結合することと、
前記機械学習システムによって、前記データセットを受け取ることと、
前記機械学習システムによって、前記患者標本の治療パラメータの状態に関連付けられた前記データセット内の決定的な経路要素を識別することと、
前記経路解析エンジンによって、前記データセットを受け取ることと、
前記経路解析エンジンによって、前記患者標本から修正されたデータセットを生成するために、前記データセット内の前記決定的な経路要素を調整することと、
前記機械学習システムによって、前記修正されたデータセットを使用して、前記患者標本に対する前記治療パラメータの前記状態の変化を識別することと、
を備える方法。
前記経路モデルデータベースは、前記患者からではない複数の区別できる異常細胞のオミックスデータにそれぞれ由来する複数の区別できるデータセットをさらに記憶する、請求項１に記載の方法。
前記患者からではない区別できる異常細胞は、前記患者の腫瘍性疾患と同じ腫瘍性タイプである、請求項２に記載の方法。
前記複数の区別できる異常細胞は、薬剤に対する前記細胞の感受性に関して互いに異なる、請求項２に記載の方法。
第１の前記複数の区別できる異常細胞の組は、薬剤による治療に感受性があり、第２の前記複数の区別できる異常細胞の組は、前記薬剤による治療に対して抵抗性がある、請求項４に記載の方法。
前記患者に対する治療推奨を備える出力データを生成するステップをさらに備える、請求項１に記載の方法。
前記状態の変化が所定の閾値を超えるとき、前記決定的な経路要素を標的にする薬剤を識別するステップをさらに備える、請求項１に記載の方法。
前記オミックスデータは、遺伝子コピー数データ、遺伝子突然変異データ、遺伝子メチル化データ、遺伝子発現データ、ＲＮＡスプライス情報データ、ｓｉＲＮＡデータ、ＲＮＡ翻訳データ、およびタンパク質活性データよりなる群から選択される、請求項１に記載の方法。
前記データセットは、ＰＡＲＡＤＩＧＭデータセットである、請求項１に記載の方法。
前記決定的な経路要素は、遺伝子の発現状態、タンパク質のタンパク質レベル、および／またはタンパク質のタンパク質活性である、請求項１に記載の方法。
前記治療パラメータは、薬剤による治療であり、前記状態は、前記薬剤に対する感受性または前記薬剤に対する抵抗性である、請求項１に記載の方法。
前記状態の変化は、薬剤に対する抵抗性から前記薬剤に対する感受性への変化である、請求項１に記載の方法。
特徴選択、データ変換、メタデータ変換、および／または、学習データセットおよび検証データセットへの分割を含む前記データセットを前処理するステップをさらに備える、請求項１に記載の方法。
機械学習システムおよび経路解析エンジンに情報結合された経路モデルデータベースを備える、細胞のオミックスデータに由来するデータセットのインシリコ解析のシステムであって、
前記経路モデルデータベースは、腫瘍性疾患を有する患者の患者標本のオミックスデータに由来し、複数の経路要素データを備えるデータセットを記憶するようにプログラムされ、
前記機械学習システムは、前記経路モデルデータベースから前記データセットを受け取るようにプログラムされ、前記患者標本の治療パラメータの状態に関連付けられた前記データセット内の決定的な経路要素を識別するようにさらにプログラムされ、
前記経路解析エンジンは、前記データセットを受け取るようにプログラムされ、前記患者標本から修正されたデータセットを生成するために前記データセット内の前記決定的な経路要素を調整するようにさらにプログラムされ、
前記機械学習システムは、前記修正されたデータセットを使用して前記患者標本に対する前記治療パラメータの前記状態の変化を識別するようにプログラムされている、
システム。
前記経路モデルデータベースは、前記患者からではない複数の区別できる異常細胞のオミックスデータにそれぞれ由来する複数の区別できるデータセットをさらに記憶するようプログラムされている、請求項１４に記載のシステム。
前記患者からではない前記区別できる異常細胞は、前記患者の腫瘍性疾患と同じ腫瘍性タイプである、請求項１５に記載のシステム。
前記機械学習システムは、前記患者に対する治療推奨を備える出力データを生成するようにプログラムされている、請求項１４に記載のシステム。
経路モデルデータベースが機械学習システムおよび経路解析エンジンに結合されているコンピュータシステムに、
腫瘍性疾患を有する患者の患者標本のオミックスデータに由来し、複数の経路要素データを備えるデータセットを前記経路モデルデータベースから前記機械学習システムに転送するステップと、
前記機械学習システムによって、前記患者標本の治療パラメータの状態に関連付けられた前記データセット内の決定的な経路要素を識別するステップと、
前記経路解析エンジンによって、前記患者標本の治療パラメータの状態に関連付けられたデータセットを受け取るステップと、
前記経路解析エンジンによって、前記患者標本から修正されたデータセットを生成するために、前記データセット内の前記決定的な経路要素を調整するステップと、
前記機械学習システムによって、前記修正されたデータセットを使用して、前記異常細胞に対する前記治療パラメータの前記状態の変化を識別するステップと、
を備える方法を実行させるプログラム命令を格納する非一時的なコンピュータ読み取り可能な媒体。
前記オミックスデータは、遺伝子コピー数データ、遺伝子突然変異データ、遺伝子メチル化データ、遺伝子発現データ、ＲＮＡスプライス情報データ、ｓｉＲＮＡデータ、ＲＮＡ翻訳データ、およびタンパク質活性データよりなる群から選択される、請求項１８に記載の非一時的なコンピュータ読み取り可能な媒体。
前記データセットは、ＰＡＲＡＤＩＧＭデータセットである、請求項１８に記載の非一時的なコンピュータ読み取り可能な媒体。