背景の説明には、本発明を理解することに役立ち得る情報が含まれている。本明細書に提供される情報のいずれかが先行技術である、もしくは現在請求されている発明に関連している、または具体的にもしくは黙示的に参照されているいずれかの刊行物が先行技術であることを認めるものではない。
経路のコンピュータモデリングに関する種々のシステムおよび方法が当技術分野で知られている。例えば、いくつかのアルゴリズム(例えば、GSEA、SPIAおよびPathOlogist)は、文献から精選された経路を使用して、変化した関心の経路を効率よく特定できる。さらなるツールは、発現プロファイルを説明するために、文献中の精選した相互作用から因果グラフを構築し、これらのグラフを使用している。ARACNE、MINDyおよびCONEXICなどのアルゴリズムは、一式の癌試料にわたり可能性がある転写ドライバーをそのように同定するために、転写情報(およびCONEXICの場合はコピー数)を取り入れる。しかし、これらのツールは、関心の単一目標を同定する機能的ネットワークに異なるドライバーを分類するよう試みることはない。いくつかの新しい経路アルゴリズム、例えばNetBoxおよびMutual Exclusivity Modules in Cancer(MEMo)は、癌のデータ統合の問題を解決して、それによって発癌の可能性のある試料にとって鍵となる複数のデータ型にわたるネットワークを同定するよう試みる。
そのようなツールは経路にわたり少なくとも一部の限定された統合がネットワークを見つけることを可能にするが、これらのツールは概して、調節情報および、関連する経路または経路のネットワークにおける複数の効果とのそのような調節情報の関連を提供できない。性能を改善しようとする試みにおいて、GIENAは単一の生物学的経路内の調節不全の遺伝子相互作用を探すが、経路のトポロジーあるいは相互作用の方向性または性質についての事前知識を考慮しない。さらに、これらのモデリングシステムの比較的不完全な性質のため、特に複数の経路および/または経路要素の相互作用が調査中の場合、予測分析は不可能なことが多い。
最近になって、in vivo経路のインシリコ経路モデルを得るために改善されたシステムおよび方法が記載されており、代表的なシステムおよび方法は国際公開第2011/139345号および同第2013/062505号に記載される。そのようなモデルのさらなる精密化は、異なる経路要素および経路間の相互相関を特定することに役立つ方法を開示する、国際公開第2014/059036号(本明細書では総称的に「PARADIGM」と呼ぶ)で提供された。そのようなモデルは有益な洞察、例えば、種々のシグナル伝達経路の相互接続性および種々の経路を通るシグナルの流れに対する洞察を提供するが、そのようなモデリングを使用する多数の態様は理解されておらず、認識さえされていなかった。
本明細書ではすべての刊行物は、個々の刊行物または特許出願が参照により組み入れられることを具体的にかつ個々に示されるかのように、同程度に、参照により組み入れられる。組み入れた参考文献の用語の定義または用法が本明細書に示すその用語の定義と矛盾するまたは相反する場合、本明細書に示すその用語の定義が適用され、参考文献のその用語の定義は適用されない。
さらなる進展は、国際公開第2014/193982号に記載のようにPARADIGMからの洞察を用いてなされた。ここで、複数のモデルは、複数の異なるデータセットを受け取り、かつ疾患細胞の処置パラメータ(例えば薬物による処置)の状態(例えば感受性または抵抗性)に関連する異なるデータセット中の経路決定要素を特定する、機械学習システムから得られる。そのようなシステムは、可能性がある処置法に対する洞察を有利に提供する。しかし、機械学習システムから得られる極めて多くの潜在的に有効なモデルは、処置結果の単純な予想を難しくする。
一方で、米国特許出願第2004/0193019号に記載のように、判別分析に基づくパターン認識が、特定の生物学的プロファイル情報を処置結果情報と関連させるモデルを作成するために開示される。次いで、予測モデルを用いて、処置に対して起こり得る応答にランクを付ける。そのような方法は患者固有プロファイル情報に基づく可能性がある結果を評価するのに役立つが、分析は判別分析で用いられるパラメータによって一般的に偏る。さらに、そのような分析は、対応する薬物および病状の病歴データを考慮するだけであり、したがって他の関連のない病状でのみ効果的であることが知られている薬物の発見を限定する。加えて、対応する薬物および病状の病歴データの入手可能性は、そのような方法の有用性をさらに限定する傾向がある。
このように、薬物応答の予測のための種々のシステムおよび方法が当技術分野で周知であるが、高い信頼性で薬物について簡単で確固たる処置予測を可能にし、かつとらわれない方法で適切な薬物の同定を可能にするシステムおよび方法の必要性は依然として存在する。
本発明の主題は、複数の先験的な既知の細胞系ゲノミクスおよび薬物応答データを用いて、患者の処置のための薬物を同定するために統計的に制御された方法で実際の患者データで次いでテストされる多数の応答(治療結果)予測因子を構築する、種々の装置、システム、および方法に関する。異なる観点から見て、本発明者らは、患者の経路モデルを予測スコアのゲインが高い応答予測因子と一致させることにより、望ましく高い信頼性で処置の成功または成功が予測され得る1種または複数種の薬物が容易に同定されることを発見した。
さらに、意図されるシステムおよび方法はまた、それに関してその薬物が治療上効果的であるとこれまでに知られていなかった疾患での処置のための薬物の発見も可能にする。
本発明の主題の一態様において、本発見者らは、種々のシステム、方法、および患者において癌の処置のための薬物を同定するプログラム命令を含む非一時的コンピュータ可読媒体を意図する。最も好ましい態様において、機械学習システムは分析エンジンに情報的に連結され、および機械学習システムを用いて第1の薬物に対する第1の細胞の応答に関して第1の細胞について第1の応答予測因子を算出し、ここでは第1の応答予測因子が、第1の細胞の経路モデルと、第1の薬物に対する第1の細胞の既知の応答とを含む訓練データを用いて算出される。機械学習システムをさらに用いて、第2の薬物に対する第2の細胞の応答に関して第2の細胞について第2の応答予測因子を算出し、ここでは第2の応答予測因子が、第2の細胞の経路モデルと、第2の薬物に対する第2の細胞の既知の応答とを含む訓練データを用いて算出される。分析エンジンは第1および第2の応答予測因子についてそれぞれのヌルモデルを次いで算出し、患者の経路モデルを用いて第1および第2の応答予測因子によりそれぞれの処置応答をさらに算出する。さらに、分析エンジンはそれぞれのヌルモデルを用いて、それぞれの算出された処置応答に次いでランクを付け、そのランク付けを用いて、薬物を同定する。
意図される機械学習システムは、線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、および/またはNMF予測因子アルゴリズムを含む種々の分類子を用いることができる。さらに、注目すべきは、機械学習システムがそれぞれ複数の異なる第1の応答予測因子と、それぞれ複数の異なる第2の応答予測因子とを作成するために、好ましくは複数の異なる分類子を用いることに留意されたい。
本発明の主題を限定するものではないが、第1および第2の細胞は異なる癌細胞であり、および/または第1および第2の薬物は異なる薬物であることが意図される。経路モデルに関して、好適なモデルは、因子グラフベースのモデル(例えば、PARADIGM)、発現データの収集、および/またはコピー数の収集が含まれることが意図され、それらは因子グラフベースのモデルでさらに処理され得る。
最も一般的に、既知の応答は、薬物に対する処置感受性または薬物に対する処置抵抗性であり、およびヌルモデルは、第1および第2の応答予測因子の計算で用いられる訓練データ以外の訓練データを用いて算出される。第1および第2の応答予測因子が完全に訓練されたモデルであること、およびランクを付けるステップが、対応するヌルモデルと比較して算出された処置応答の精度ゲインを用いることがさらに好ましい。
本発明の主題の別の態様において、本発明者らは、種々のシステム、方法、および患者における癌の処置のための薬物を同定する方法のためのプログラム命令を含む非一時的コンピュータ可読媒体を意図する。ここでは、応答予測因子データベースは分析エンジンに連結され、および応答予測因子データベースは分析エンジンに複数の応答予測因子を提供する。応答予測因子の各々は、細胞の経路モデルと薬物に対する細胞の既知の応答とを含む訓練データを用いる機械学習システムによって算出されるのが好ましい。分析エンジンは、ランダムに選択された複数の経路モデルを次いで用いて複数の応予測因子についてそれぞれのヌルモデルを作成し、および患者経路モデルをさらに用いて複数の応答予測因子についてそれぞれのテストモデルを作成する。最も一般的に、分析エンジンは次いで、、それらの対応するヌルモデルと比較して予測スコアにおけるそれらのそれぞれのゲインによりそれぞれのテストモデルのランクを付け、およびランク付けしたテストモデルにおけるランクに基づいて薬物を同定する。
最も一般的には、必ずしもそうとは限らないが、複数の応答予測因子は、完全に訓練されたモデルでありおよび/または高精度ゲインモデルである。上述したように、機械学習システムは線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、およびNMF予測因子アルゴリズムを含む、種々の分類子を使用できると意図される。
最も一般的に、意図される経路モデルとしては、因子グラフベースのモデル(例えば、PARADIGM)、発現データの収集、および/またはコピー数の収集が挙げられる。経路モデルは癌および一致した正常組織データから作成され得ることが、さらに意図される。所望の場合には、ランダムに選択された経路モデルはそれぞれ異なった細胞から生成され、複数のランダムに選択された非患者経路モデルを用いて、複数の応答予測因子(それらは次いでヌルモデルで比較され得る)についてそれぞれ患者ヌルモデルを作成できる。
本発明の主題の種々の目的、特徴、態様および利点は、同じ番号が同じ部品を表す添付図面の図とともに、以下の発明を実施するための形態からより明らかになろう。
機械が学習した圧倒的な量の予測モデルは作成することが可能であり、種々のオミクスデータセットおよび/またはオミクスデータセットから作成される経路モデルに基づいて予測(例えば感受性)スコアの算出を可能にする。残念ながら、これらのモデルのすべては、例えば、機械学習および経路構造の基礎をなす数学的仮定、オミクスデータを得るための特定の細胞培養物または生検試料の使用、細胞培養物また生検試料ともに用いられる薬物などに起因して、種々の固有バイアスを有する。それにもかかわらず、これらのモデルのすべては、実際の細胞生物学的プロセスに基づいており、したがって少なくとも潜在的に有用な洞察を提供する。しかし、多様なモデルのいずれも、どのモデルが患者のオミクス試料との一致を提供するかに関して、または特定の薬物が患者において所望の処置結果をもたらす可能性があるかどうかを予測する経路モデルに関していかなるガイダンスも提供しない。
本発明者らは、今では、実際の患者デ−タ、特に患者のデータからの経路モデルを、対応するヌルモデルをこえる所望の精度の高いゲインを有する応答予測因子と一致させるためのシステムおよび方法を発見しており、それは次に、治療効果を有することが高い確率で予測される薬物の同定を可能にする。そのような状況において、図1Aに単純化したように、例示的な応答予測因子(予測モデル)は、感受性スコアまたは予測スコアを与える機械学習アルゴリズムから得られる多変量式として見なすことができる。より詳しくは、さらに図1Bに例示的に示すように、応答予測因子は、薬物に曝露された細胞培養物または組織から生成されたオミクスデータおよび/または経路モデルを用いる機械学習アルゴリズムを使用して作成される。図1Bに示すように、細胞および組織は薬物に曝露され、次いで感受性は、最も一般的には陰性対照群かそでなければ対比対照群(例えば薬物を用いない、または異なる細胞型を用いる)と比較して、観察される(例えば、IC50、EC50などとして定量化される、または感受性もしくは抵抗性として量的に評価される)。次いで、細胞/組織からのオミクスデータおよび/または経路モデルは、訓練データとして観察される因子とともに機械学習アルゴリズムで用いられて、応答予想因子に達する。もちろん、同じオミクスデータおよび/または経路モデルならびに観察された因子は訓練データとして複数の機械学習アルゴリズムで用いることが可能であることが理解されるべきであり、当然のことながら、すべての既知の機械学習アルゴリズムは本明細書での使用に適していると考えられる。したがって、一式のインビトロ実験は多様な訓練されたモデル(すなわち、それぞれ機械学習アルゴリズムによって作成される応答予測因子)を提供できることが理解されるべきである。また、当技術分野で周知のように、利用できるデータを訓練セットと評価セットに分けて、訓練されたモデルを得ることができ、またはすべてのデータを用いて完全に訓練されたモデルを得ることができる。異なる観点から見ると、および図1Cに模式的に示すように、応答予測因子は、薬物に対する細胞または組織の感受性がわかっている、薬物がわかっている、かつオミクスデータおよび/または経路モデルが細胞または組織から容易に得られる訓練データを用いる、機械学習アルゴリズムを使用して作成できる。そのようにして作成された訓練モデルは、前述のように、薬物に対する細胞または組織の感受性がわかっている、薬物がわかっている、オミクスデータおよび/または経路モデルが細胞または組織から容易に得られる訓練データと同じデータセットから得ることができる評価データを用いて確認できる。したがって、当然のことながら、多数のインビトロ検査は、患者のオミクスデータまたは経路モデルとともに次いで算出に用いることができる多種多様な応答予測因子の基礎を形成する。これらの応答予測因子と組み合わせて患者オミクスデータまたは経路モデルを用いることで、薬物に対する予測応答スコア(予測される処置結果、または予測される感受性)が次いで提供される。
最も有利には、意図されるシステムおよび方法は、薬物および細胞型または組織型に関連する、増え続ける数のオミクス情報を活用することを認識すべきである。そのような情報を使用して、非常に多くの個別応答予測因子を作成できる。応答予測因子の収集は特定の癌型および/または治療薬物にさえ限定される必要がないことを、さらに認識すべきである。例えば、さらに以下により詳細に説明するように、本発明者らは、経路モデルオミクスデータとして、一般公開されている情報(例えばCCLE式、CCLEコピー数、Sanger式、Sangerコピー数)から異なるオミクスデータセットを入手し、同オミクスデータを因子グラフベースの経路モデル(本明細書ではPARADIGM)でも用いて、最終的に139種の異なる薬物が報告された10の異なる入力データ収集に至った。これらの経路モデルおよび既知の薬物応答を次いで、13種の異なる機械学習アルゴリズム(線形カーネルSVM、一次多項式カーネルSVM、二次多項式カーネルSVM、リッジ回帰、Lasso、エラスティックネット、逐次最小問題最適化、ランダムフォレスト、J48ツリー、ナイーブベイズ、JRipルール、HyerPipesおよびNMF予測因子)にかけ、合計176,112の応答予測因子を得た。
これに関連して、各種の応答予測因子は、同一のデータで訓練された場合でも、得られる応答予測因子が他種の応答予測因子に対しどのように作用するかに影響を及ぼし得る、固有のバイアスまたは仮定を含むことに留意すべきである。したがって、同じ訓練データセットを使用する場合、異なる応答予測因子は異なる予測/精度ゲインを作成する。これまで、予測結果を改善する試みの中で、同じデータセットで正確な予測を増やすために単一の機械学習アルゴリズムを最適化した。しかし、アルゴリズムの固有のバイアスのため、そのような最適化によって予測性の精度(すなわち「コイントス」に対する正確な予測性能)が必ずしも上がるわけではない。そのようなバイアスは、関連するメタデータを有する疾患特異的データセット上の異なる基本原理および分類子を用いて多数の多様な応答予測因子を訓練することによって、および対応するヌルモデルについて所望の予測力を有する予測因子をそのように訓練された応答予測因子から選択することによって、克服可能である。
もちろん、当然のことながら、上記は例示的かつ比較的限定されたデータセットにすぎず、多数の追加のデータ(例えばインビトロデータ、臨床試験データ、研究データ、処置データなど)は、それぞれがそれぞれの薬物と組み合わせて用いられ、かつそれぞれが異なる機械学習アルゴリズムを用いて算出されて、極めて多くの数の(例えば100,000〜500,000の間、もしくは500,000と1,000,000の間、もしくは1,000,000と5,000,000の間、もしくは5,000,000と10,000,000の間、およびさらに多く)個別応答予測因子に達することが可能である。明らかなように、そのような算出は、コンピューティングインフラストラクチャーなしでは、複数回の人間の一生をはるかに超えてしまう。
また、容易に認識されるように、コンピューティングインフラストラクチャーがあっても、そのように大きなデータ量は、患者の実際のデータセット(オミクスデータまたは経路モデル)が細胞培養または組織培養のデータセットと並べられる、莫大な計算労力を必要とする。本発明者らは、今では、応答予測因子の大量の収集でも、シミュレートしたヌルセットおよび実際の患者データセット(オミクスデータまたは経路モデル)を用いて、単一の応答予測因子について2つの予測応答を算出することによって概念的に簡単な方法で、効果的かつ迅速に分析することができることを発見した。予測応答間の相違を次いで用いて、単一応答予測因子の性能を評価する。その方法では、比較的簡単な算出だけが必要であり、応答予測因子が比較的単純なので比較的わずかな時間で行なうことができる(図1Aおよび1Bを参照されたい)。
したがって、本明細書に示す本発明の主題は、ヒトの能力を超えて、膨大な量のデジタルデータ上で作用するコンピューティングデバイスの構築または構成を可能にすることに留意されたい。デジタルデータはオミクスデータおよび処置結果の機械訓練したコンピュータモデルを表すことができるが、当然のことながら、デジタルデータは、実際のアイテムではなく、そのような現実世界のアイテムのうちの1または複数のデジタルモデルを表す。むしろ、コンピュータデバイスのメモリ中のそのようなデジタルモデルのインスタンス化を介して、本明細書に開示するようにコンピューティングデバイスを適切に構成するまたはプログラムすることによって、コンピューティングデバイスは、ヒトの能力を超える方法でデジタルデータまたはモデルを管理できる。さらに、そのような構成なしではコンピューティングデバイスは先験的な機能を欠く。加えて、当然のことながら、本発明の主題は、複雑なオミクス算出のコンピュータ分析に固有の問題を大幅に改善/軽減する。
異なる観点から見ると、当然のことながら、本システムおよび方法をコンピュータ技術で用いて、オミクスデータのコンピューティングモデルに固有の問題を解決する。このように、コンピュータなしでは、問題、したがって本発明の主題は、存在しなかっただろう。より具体的には、本明細書に示すシステムおよび方法は、他よりも精度ゲインが大きい1または複数の応答予測因子モデルをもたらし、それによって実際の患者データに基づいて予測結果を作成する際に遅延時間が少なくなる。
コンピュータ、分析エンジン、または機械学習システムを対象とするいずれの語も、コンピューティングデバイス、例えばサーバ、インタフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、または個別にもしくは集合的に作動する他のタイプのコンピューティングデバイス、の任意の適切な組み合わせを含むものと解釈すべきであることに留意されたい。コンピューティングデバイスは有形の非一時的コンピュータ可読記憶媒体(例えば、ハードドライブ、FPGA、PLA、ソリッドステートドライブ、RAM、フラッシュ、ROMなど)上に格納されたソフトウェア命令を実行するように構成されたプロセッサを含むことを認識されたい。開示する装置に関して後述するように、ソフトウェア命令は、役割、責任または他の機能性を提供するために、コンピューティングデバイスを構成する、さもなければプログラムする。さらに、開示する技術は、コンピュータベースのアルゴリズム、プロセス、方法、または他の命令の実現と関連して開示されるステップをプロセッサに実行させるソフトウェア命令を格納する非一時的コンピュータ可読媒体を含む、コンピュ−タプログラム製品として具体化できる。いくつかの実施形態において、種々のサーバ、システム、データベースまたはインタフェースは、HTTP、HTTPS、AES、公開鍵/秘密鍵交換、ウェブサービスAPI、既知の金融取引プロトコル、または他の電子情報交換方法におそらく基づいて、標準プロトコルまたはアルゴリズムを使用してデータの交換を行う。デバイス間のデータ交換は、パケット交換ネットワーク、インターネット、LAN、WAN、VPN、または他の種類のパケット交換網、回線交換網、および/またはセル交換網上で行なわれてよい。
本明細書の記述および添付の特許請求の範囲を通して用いられるように、システム、エンジン、サーバ、デバイス、モジュール、または他の演算器がメモリ内のデータ上で機能を果たす、または実行するように構成されると記述される場合、「構成される」または「プログラムされる」の意味は、メモリに格納される目標データまたはデータオブジェクト上で一連の機能を実行する、または作動するように、演算器のメモリに格納される一連のソフトウェア命令によって、演算器の1または複数のプロセッサもしくはコアがプログラムされると定義される。
図2Aのフローチャートは上記を例示的に示し、図2Bは図2Aのチャートのより詳細な概要を示す。ここでは、多数の異なる既知の細胞系(例えば、肝細胞および膵細胞)が異なる薬物(例えば、D1、D2....Dn)を用いて試験され、それらの薬物に対する感受性または抵抗性が知られ、もしくは確立され、およびそれぞれの細胞培養について、オミクス分析および経路モデリングが対応する経路モデルに達するように(例えば、特定の薬物(D1)で処置された特定の細胞型(A)の肝細胞についてL−PMA1、など)行なわれた。この情報(例えば、特定の細胞についての薬物応答および経路モデル、一般的に陰性対照および/または他のパラメータと組み合わせて)を用いて、特定の応答予測因子(例えば、RP−LA1)が特定の機械学習アルゴリズムを使用して算出できる。上述したように、複数の異なる薬物、オミクスデータセット、経路モデリングおよび細胞型は、複数の異なる機械学習アルゴリズムとともに用いることができ、これにより利用可能な応答予測因子(図2Bの例には図示せず)の数は指数関数的に増加する。
このように作成された応答予測因子は次いで応答予測因子データベースへと結集される。
一旦応答予測因子が作成されると、予測品質が評価され、最も好ましくはランダム選択を超える予測力を有する応答予測因子が保持される。異なる観点から見て、モデルはそれらのゲインの精度について評価されてよい。精度を評価する多数の方法があり、特定の選択は、使用するアルゴリズムに少なくとも部分的に依存し得る。例えば、好適な測定基準としては、対応するモデルの精度値、精度ゲイン、性能測定基準、または他の測定尺度が挙げられる。さらなる測定基準の例としては、曲線下面積測定基準、R2、p値測定基準、シルエット係数、混同行列、または応答予測因子の性質に関する他の測定基準が挙げられる。応答予測因子の数または精度分布に応じて、当然のことながら、予測で用いられる応答予測因子は、最上位モデル(最高精度ゲインまたは最高精度スコアなどを有する)として、もしくは上位n−分位(三分位、四分位、五分位など)内にあるとして、もしくはすべてのモデルの上位n%(上位5%、上位10%など)内にあるとして選択されてよい。例えば、高精度ゲインモデルは、一般的に精度ゲインの上位四分位内にある。
このデータベースは次いで、データベース内のそれぞれの応答予測因子についてヌルモデルを用いて、実際の患者データについての高予測スコアとの一致の統計的選択で用いられる。より具体的には、ヌルモデルは、適度な数(例えば100〜500、もしくは500〜1,000、もしくは1,000〜10,000)のランダムに選択されたデータセット(例えば、応答予測因子の算出で使用されるが、それに対してヌルモデルが作成される応答予測因子の算出では使用されない、経路モデルまたはオミクスデータセット)を用いてそれぞれの応答予測因子について算出される。期待し得るように、ヌルモデルは、バックグラウンドシグナル分布(例えば、平均および標準偏差)を無関係な、またはあまり一致しない経路モデルまたはオミクスデータに提供する。次いで、実際の患者データをデータベースの応答予測因子で用いて、予測スコア(感受性スコアまたは抵抗性スコア)を作成し、したがって2つの結果がデータベースの各応答予測因子に利用できる。繰り返して、このような算出は、応答予測因子の単純化されたデータ構造のため迅速であり、一般に行われるような、患者データをインビトロモデルデータに適合させようとする機械学習プロセスを必要としない。
1つの応答予測因子が実際の患者データについての高予測スコア(例えば、高レベルの感受性または抵抗性)と、ランダムに選択されたデータセット(バックグラウンドシグナル)についての平均予測スコアとを予測する状況では、高スコアは生スコアとして記載され、次いでバックグラウンドシグナル分布を用いて調節されて、標準スコアに到達する。当然のことながら、この標準スコアは、元は特定の細胞または組織の薬物を用いて算出された応答予測因子の能力との患者データセットの一致を特徴付ける。したがって、患者データセット(経路モデルまたはオミクスデータ)を用いる応答予測因子のより高い予測スコアは、応答予測因子で用いた薬物による処置に対する患者の応答も正確に予測され得ることを示す。異なる観点から見ると、元の患者データセットが予測モデルの算出で用いられた元のデータセットにより類似している場合、より高い予測スコアが観察される(この予測モデルは特定の薬物に対する応答を予測するために最適化されているので)。図2は、ヌルモデルと対応するテストモデルまたはTopmodel(対応するモデルの中で最高の精度ゲインを有するモデル)との間の例示的な比較を提供し、生スコアでの差異、およびより好ましくは標準スコアでの差異が次いでランク付けに使用される。上位ランキングの応答予測因子およびその関連する薬物が同定され、そうして同定された薬物(アスタリスクが1つまたは2つ付いた)を処置のために次に提案するまたは使用することができる。
以下の表1に示すように、グリア芽細胞腫と診断された患者からのオミクスおよび経路データと異なる細胞型および薬物ならびに薬物に対する関連する感受性を用いて既知データから構築された応答予測因子とに基づいて、ダサチニブが患者に適した薬物として同定された。
上記を用いて、29,352の完全に訓練された薬物応答モデルが構築され、146,760のさらなる評価モデルが構築され(5倍CVで)、176,112の全モデルが分析された。患者由来のゲノムスケールデータを、マイクロアレイまたはシーケンシング技術を用いて個々の癌試料から収集した。いくつかの独立したアッセイを、同じ試料で実施して(例えば、発現プロファイリングおよびコピー数推定の両方)、どのデータ型が最良の予測を提供するかを評価した。これらのデータは、PARADIGMを用いて因子グラフベースのモデルに組み込んだ。−オミクスデータのエビデンスが与えられた経路ネットワークの最も可能性の高い状態が推定され、推測される経路活動(経路モデル)として報告される。したがって、意図されるシステムおよび方法は、単一モデルの予測最適化にも、選択されたオミックスパラメータと処置予測との最良の相関性の同定にも基づいていないことが、特に認識されるべきである。
このように構築された応答予測因子データベースおよび患者データを用いて、1,000のランダムに選択されたデータセットを有するそれぞれの応答予測因子についてヌルモデルを算出し、各ヌルモデルについて平均および標準偏差を記録した。それぞれの応答予測因子について患者データセットを使用してテストモデルも次いで算出し、それぞれのヌルモデルからの結果を用いて結果を標準化した。図3は、標準化スコアのランキングを例示的に示す。ここで、各垂直線は、特定の薬物によってグループ化された多数の応答予測因子の平均、最小、および最大の結果を表す。図3に示すように、左の応答予測因子はより一貫して正確に予測され、最も一貫して予測された薬物はダサチニブである。特に、ダサチニブはもともと経口Bcr−Ablチロシンキナーゼ阻害剤(「フィラデルフィア染色体」を阻害する)として開発され、慢性骨髄性白血病およびフィラデルフィア染色体陽性急性リンパ芽球性白血病患者の第一選択薬として承認されたことを理解すべきである。したがって、患者における薬物に対する応答は、オミクスデータ/経路モデルの特定のセットに応じて薬物応答を予測するよう各モデルが最適化された一群の予測モデルへの入力データとして用いる場合、患者のオミクスデータ/経路モデルに基づいて予測できることを理解すべきである。さらに、予測された結果をヌルモデルと比較することにより、バックグラウンドを上回る統計的に関連する予測が報告される。さらに、患者データが固有のバイアスを持ち込まないことを確実にするために、置換もまた患者データから作成されてよく、ヌルモデルについて記載の方法で次いで分類されて、患者データおよびヌルモデルが同様に分布されることを確実にする。
本明細書での使用に適したオミクスデータおよび経路モデルに関しては、すべてのオミクスデータおよび経路モデルが適切であるとみなされ、例示的なオミクスデータは全ゲノム配列データ、エクソム配列データなどの配列データ、特に腫瘍対正常のデータを含むことに留意されたい。さらに、適切なオミクスデータはまた、トランスクリプトミクスデータおよびプロテオミクスデータも含む。同様に、適切な経路モデルは、遺伝子セットエンリッチメント解析(GSEA,Broad Institute)に基づくモデル、シグナル伝達経路の影響分析(SPIA、Bioconductor)に基づくモデル、および病理医経路モデル(NCBI)、ならびに因子グラフベースのモデル、および国際公開第2011 /139345A2号、同第2013/062505A1号、および同第2014/059036号に記載の特にPARADIGMを含み、これらの国際公開のすべては参照により本明細書に組み込まれる。図4は、オミクスデータおよび経路モデル型の機能として平均精度を示す例示的な比較の結果を示す。明確に示されるように、最高の精度は、経路モデルを得るためのPARADIGMを用いて処理したSanger式を用いて達成された。同様に高精度が、Sanger式とコピー数データを用いて達成され、ここでも、対応する経路モデルを得るためにPARADIGMを用いて処理した。注目すべきことに、経路モデリングなしのSanger式データ単独でも、やや低いが、比較的高い精度をもたらした。コピー数オミクスデータのみは、それ自体でまたはPARADIGMを用いて処理され、やや低くランク付けた。
このようにして得られた予測の精度を、細胞系についてオミクスデータおよび経路モデルを用いてクロスチェックし、その結果を図5に示す。ここで、調節した感受性スコアをプロットし、黒丸は感受性データが利用できた予測を示し、白丸は感受性データが利用できなかった予測を示し、Xの標識は予測が不正確であることを示す。注目すべきことに、神経細胞系におけるダサチニブに関する予測精度は77.8%であり、これは神経膠芽腫患者に関する予測と一致した。同様に注目すべきは、ダサチニブ抵抗性は正確に予測することができ、ならびに図5から得ることができる。図6からわかるように、細胞系の訓練パネルに対応する組織でのTCGA試料からの主要な患者データを用いて同様のクロスチェックを行った。組織効果は細胞系と患者データの間で同様に作用することに留意されたい。例えば、神経系統と同様に、GBM患者試料は応答者および非応答者のサブセットを含むことが予測される。加えて、ダサチニブはヒト腎明細胞癌に対する優れた代替薬候補であり得ることに留意されたい。
本明細書の使用に適したさらなる考察は、2016年1月19日に出願の表題「Ensemble−Based Research Recommendation Systems and Methods」、国際公開第2014/193982号およびPCT/US国際出願第16/13959号に開示される。これらは参照により本明細書に組み込まれる。
既に説明したものの他に多くの修正が本明細の本発明の概念から逸脱することなく可能であることは当業者には明らかであろう。したがって、本発明の主題は、添付の特許請求の範囲を除いて限定されるものではない。さらに、明細書および特許請求の範囲の両方を解釈する際に、すべての用語は文脈と一致する最も広い可能な方法で解釈されるべきである。特に、「含む」および「含んでいる」という用語は、非排他的な方法で要素、成分またはステップを指すものとして解釈されるべきで、参照される要素、成分またはステップは存在しても、もしくは利用されても、もしくは明白に参照されてない他の要素、成分またはステップと組み合わせてもよいことを示す。ここで、明細書の特許請求の範囲は、A、B、C ....およびNからなる群から選択されるもののうちの少なくとも1つを指す場合、本文は、AプラスNまたはBプラスNなどではなく、その群からただ1つの要素を必要とすると解釈されるべきである。