JP2018173969A

JP2018173969A - アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法

Info

Publication number: JP2018173969A
Application number: JP2018112693A
Authority: JP
Inventors: ゼト，クリストファー; Szeto Christopher
Original assignee: Nantomics LLC
Current assignee: Nantomics LLC
Priority date: 2015-03-03
Filing date: 2018-06-13
Publication date: 2018-11-08
Also published as: KR101974769B1; AU2016226162B2; AU2018200276A1; KR20190047108A; KR20180008403A; JP6356359B2; JP2018513461A; AU2016226162A1; US20180039731A1; WO2016141214A1; AU2019208223A1; AU2018200276B2; CA2978708A1; IL254279A0; EP3265942A4; IL254279B; CN107980162A; EP3265942A1; IL258482A

Abstract

【課題】アンサンブルに基づいた機械学習エンジンを提供する。
【解決手段】リサーチプロジェクト・レコメンデーションシステム１００は、既知のゲノムデータ集合および対応する既知の臨床結果データ集合に対して訓練された訓練済み機械学習モデルのアンサンブルを生成する。各モデルは、その性能メトリックまたは訓練済みモデルの性質を示す他の属性に従って特徴付けられる。モデルの属性は、１つ以上の可能性のあるリサーチプロジェクトにも関連し、該リサーチプロジェクトは、場合により、薬剤反応研究、薬剤または化合物の研究、収集されるデータのタイプまたは他のトピックを含む。可能性のあるリサーチプロジェクトは、可能性のあるリサーチプロジェクトと共通する属性を有するモデルの性能または特性メトリックに従ってランク付けできる。モデルメトリックによる高いランキングを有するプロジェクトは、最も深い洞察が得られる可能性の高い対象とみなす。
【選択図】図１

Description

発明の分野

本願は、２０１５年３月３日に出願された米国特許仮出願第６２／１２７５４６号の優先権の利益を主張するものである。本明細書中、上記出願および他の全ての外部文献を参照により本願に取り込む。

本発明は、アンサンブルに基づいた機械学習技術に関するものである。

背景

背景技術に関する記載には、本発明の構成の理解に役立ち得る情報を含む。本明細書に記載の情報はいずれも、ここに述べる発明の構成に対する先行技術もしくは関連技術であると認めるものではなく、または明示的または暗示的に言及した任意の文献が従来技術であると認めるものでもない。

コンピュータに基づいた機械学習技術の使用は、「ビッグデータ」への関心に伴いここ数年増加し続け、データ集合は人間が吸収できる量を軽く凌駕している。機械学習アルゴリズムにより、研究者は、適度な時間でデータ集合の選別を行って、パターンを発見したり、または予測を行うことのできるデジタルモデルを構築したりすることができる。典型的には、研究者は、特定のタイプのアルゴリズムを用いて、特定の質問に回答する。このアプローチは、分析データ集合の性質がアルゴリズムに固有の基盤となる数学的仮説に整合する特定のタスクに対して、極めて有用である。例えば、２つのカテゴリに簡単に分類可能な大規模データ集合は、幾何学的仮説に基づいた分類に特化して設計されたサポートベクトルマシン（ＳＶＭ）によって分析を行うことが最良であろう。特定の分析タスクが特定のアルゴリズムの恩恵を受ける場合もあるものの、明確性の低い、または基盤となる数学的仮説とアルゴリズムとの整合が低いデータを有するより一般的なプロジェクトに対してこのようなアルゴリズムを適用した場合、問題が発生する可能性がある。

特定のアルゴリズムをより一般的なデータに対して用いた場合の１つの問題として、アルゴリズムの基盤となる数学的仮説が、アルゴリズムをデータに適用することで得られる結論に対して悪影響を与える恐れがある。換言すると、異なるタイプのアルゴリズムから得られた結果は、同じデータ集合に適用した場合であっても相互に異なる。そのため、アルゴリズムの仮説が出力に影響し、その結果、データの性質がアルゴリズムの基盤となる仮説と理想的に整合しない場合、研究者の結論が不明確または不確実になる可能性がある。このようなシナリオにおいて、研究者は、アルゴリズム仮説から不確実な結論が導き出される可能性を低減する技術を必要とする。

研究者がアルゴリズム仮説に起因する危険性を低減できると仮定したとしても、特に多くの異なるトピックについて様々なデータ集合に直面したとき、および限られたリソース（例えば、費用、時間、演算能力など）に鑑みてリサーチが行われるいくつもの可能性のある方向に直面したとき、そのリサーチにおいて１つ以上の大きな問題に遭遇する可能性が高い。以下に、研究者が多くの異なる薬剤研究に関連する数百個の異なる臨床データ集合へのアクセスを有するシナリオについて検討する。ここで、研究者は、どの薬剤が継続的リサーチの対象であるかを、利用可能なデータに基づいて判断する課題を有していると想定する。推奨される一連の行動を発見することは、極めて退屈な研究課題となる場合もある。研究者は、各薬剤研究について各データ集合を検討して、各データ集合に最適な機械学習アルゴリズムのタイプを決定できるであろう。研究者は、各データ集合を用いて、当該データ集合に対応する選択された特定の機械学習アルゴリズムを調整する。単純なことに、次に研究者がすることは、得られた調整モデルの予測精度を相互に比較し、最も高精度と思われる調整モデルを有する薬剤を選択することである。

残念なことに、各訓練されたアルゴリズムは、なおも、その固有の仮説に関連する危険性にさらされている。研究者は最適なアルゴリズムをデータ集合と整合させようとするものの、このようなマッチングが理想的であることは稀であり、この場合でも未だ、意図的ではないにしろ研究者の先入観の影響を受ける。さらに、単一のデータ集合に対する訓練されたアルゴリズムの精度は、交差分割検証を考慮したとしても、訓練されたアルゴリズムが過学習の場合、信頼性に欠ける恐れがある。例えば、訓練されたアルゴリズムは、調整データに対して１００％の精度を持ち得るものの、それでもなお、現実を高精度に反映できないかもしれない。多数のデータ集合が存在し、関心を持つべき方向も多数存在する場合、可能性が最も高い学習利得が得られる方向において洞察を得られることが望ましい。より良いアプローチとして、使用するアルゴリズムを選択する際の考えられる研究者の先入観を排除しつつ、過学習となり得るアルゴリズムをさらに考慮して、アルゴリズム仮説に関連する危険性を低減させる。

特定のトピックに対して最良の情報を提供し得るモデルを決定するために、ある取り組みが提案されている。例えば、米国特許出願公開公報第２０１４／０１９９２７３号（Ｃｅｓａｎｏ他による、発明「ＭｅｔｈｏｄｓｆｏｒＤｉａｇｎｏｓｉｓ，Ｐｒｏｇｎｏｓｉｓ，ａｎｄＭｅｔｈｏｄｓｏｆＴｒｅａｔｍｅｎｔ」、２０１３年１１月２１日出願）において、ヘルスケア設定における予測または予後予想において用いられるモデルの選択について検討している。Ｃｅｓａｎｏは、複数のモデルからあるモデルを選択することについて検討しているものの、Ｃｅｓａｎｏの場合、単なる予測出力の範囲を越えていかにモデルを活用できるかについての洞察を提示していない。

米国特許出願公開公報第２０１２／００１０８６６号（Ｒａｍｎａｒａｙａｎによる発明「ＵｓｅｏｆＣｏｍｐｕｔａｔｉｏｎａｌｌｙＤｅｒｉｖｅｄＰｒｏｔｅｉｎＳｔｒｕｃｔｕｒｅｓｏｆＧｅｎｅｔｉｃＰｏｌｙｍｏｒｐｈｉｓｍｓｉｎＰｈａｒｍａｃｏｇｅｎｏｍｉｃｓｆｏｒＤｒｕｇＤｅｓｉｇｎａｎｄＣｌｉｎｉｃａｌＡｐｐｌｉｃａｔｉｏｎｓ」、２０１１年４月２６日出願）に記載のように、予測モデルではなくコンピュータに基づいた分子構造モデルの使用において、さらなる進歩があったように見受けられる。Ｒａｍｎａｒａｙａｎは、タンパク質構造変異体の３Ｄモデルの生成と、変異体に十分に整合し得る薬剤の決定とについて検討している。その結果、これらのモデルを用いて、薬剤モデルがいかに良好にタンパク質に整合するかに基づいて、見込みのある薬剤候補をランク付けすることができる。しかし、Ｒａｍｎａｒａｙａｎも、リサーチリソースの割当て先の決定に活用可能な予測結果モデルの生成ではなく、依然として、３Ｄモデル自体およびその使用法に焦点を当てている。

米国特許出願公開公報第２００４／０１９３０１９号（Ｗｅｉによる出願「ＭｅｔｈｏｄｆｏｒＰｒｅｄｉｃｔｉｎｇａｎＩｎｄｉｖｉｄｕａｌ’ｓＣｌｉｎｉｃａｌＴｒｅａｔｍｅｎｔＯｕｔｃｏｍｅｆｒｏｍＳａｍｐｌｉｎｇａＧｒｏｕｐｏｆＰａｔｉｅｎｔ’ｓＢｉｏｌｏｇｉｃａｌＰｒｏｆｉｌｅｓ」、２００３年３月２４日出願）において、結果モデルのより典型的な使用例について検討している。Ｗｅｉは、判別分析に基づいたパターン認識を用いて、生物学的プロファイル情報を治療結果情報と相関付けるモデルを生成することを検討している。この予想モデルは、治療に対して起こり得る反応をランク付けするために用いられる。Ｗｅｉの場合、単に、予測結果モデルを構築して、患者固有のプロファイル情報に基づいて想定される結果の評価を作成する。また、Ｗｅｉは、モデルが出力だけでなく数値も有して、単に生成されたモデルから得られた出力を利用するのではなく、数値を提供し得るリサーチの種別についてより深い洞察を提示することについて評価していない。

研究者または他の利害関係者は、最もリターンの大きいと思われる予想される方向の目安となる上にモデル間の仮定も改善し得るアンサンブル予測モデル（すなわち、訓練されたアルゴリズム）から得られる別の情報にアクセスできることが理想的である。そのため、多くの異なるタイプの予測モデルから生成されたモデルのアンサンブルの性質に基づく最も多くの情報を提供し、多くのデータ集合に関連するリサーチプロジェクトについての洞察を提供可能な機械学習システムが、なおも求められている。

本明細書中に特定される全ての公開文献は、個々の公開文献または特許出願が具体的かつ個別に参照により取り込まれるのと同程度まで、参照により取り込む。取り込んだ文献における定義または用語の使用が本明細書中に記載される当該用語の定義と矛盾したり逆の定義であったりする場合、本明細書中に記載の当該用語の定義を適用し、当該文献中の用語の定義は適用しない。

いくつかの実施形態において、例えば、成分、濃度などの特性および反応条件の数量を表す数値が本発明の構成の特定の実施形態を説明し請求の範囲に記載するために用いられ、いくつかの例において「約」という用語によって修正されるものと理解されたい。よって、いくつかの実施形態において、本明細書および添付の特許請求の範囲に記載の数値パラメータは近似値であり、特定の実施形態によって得られるであろう所望の特性に応じて変化する場合もある。いくつかの実施形態において、これらの数値パラメータは、記載した有効桁数に鑑みて、また通常の丸め方式を適用して解釈すべきである。記載の数値範囲およびパラメータ設定に関わらず、本発明の構成の広範にわたるいくつかの実施形態の範囲は近似値であり、特定の例に記載される数値は、実行可能なものとして正確に報告される。本発明の構成のいくつかの実施形態で示される数値は特定の誤差を含む場合があるが、これらの誤差は、必ずしも各試験測定に見受けられる標準偏差から得られたものではない。

文脈上特に指示しない限り、本明細書中に記載の全ての範囲値は、その端点を含むものと解釈すべきであり、端点のない範囲とは、商業的に実施可能な値のみを含むものと解釈すべきである。同様に、リスト表示した数値は全て、特に明記しない限り、中間値を含むものとみなすべきである。

本明細書の記載および後述の特許請求の範囲全体において用いられるように、単数扱いの用語は、非特定と特定とを問わず、文脈上特に指示しない限り、複数の対象を含むものとする。また、本明細書の記載において用いられるように、「〜の中に」とは、文脈上特に指示しない限り、「〜の中に」および「〜に接して」を含む。

本明細書において、値の範囲の記載は、その範囲内に収まる個別の値を個々に言及する簡略的手段の役割を果たすことを意図しているにすぎない。本明細書中に特に明記しない限り、それぞれの個別の値は、それが本明細書中に個々に記載されているかの如く、本明細書中に組み入れる。本明細書中に記載した方法はすべて、本明細書中に特に明記しない限り、または文脈から明らかに矛盾しない限り、任意の適切な順序で行うことが可能である。任意の全ての例、または例示的な表現（例えば、「など」）が本明細書中の特定の実施形態に対して用いられた場合、それはあくまで本発明の構成をより明確にすることを意図しているにすぎず、特に明記しない限り、本発明の構成の範囲を制限するものではない。本明細書中のいずれの表現も、特許請求の範囲に記載はないが本発明の構成の実施に不可欠な何らかの要素を示すものと解釈すべきではない。

本明細書に開示される本発明の構成の代替的要素もしくは実施形態を分類することを限定と解釈すべきではない。各群構成要素は、個別に、あるいはその群の他の構成要素もしくは本明細書に記載される他の構成要素との任意の組合せにおいて、言及し、または請求項に記載してもよい。ある群の１つ以上の構成要素を、便宜的理由および／または特許性の理由から他の群に含めてもよく、または除外してもよい。なんらかのこのような包含または除外がなされた場合、本明細書は修正された群を含むものとみなし、よって、添付の特許請求の範囲に用いられる全てのマーカッシュタイプの群の記載を満たすものとする。

概要

本発明の構成は、機械学習コンピュータシステムが、生成された訓練された機械学習モデルのアンサンブルに基づいて、可能性のあるリサーチプロジェクト（例えば、薬剤分析など）に関するランキングまたは推奨を生成することを可能にする装置、システムおよび方法を提供するものである。本発明の構成の１つの態様は、リサーチプロジェクト機械学習コンピュータシステム（例えば、コンピュータ装置、協働する分散型コンピュータ装置）を含み、リサーチプロジェクト機械学習コンピュータシステムは、少なくとも１つの非一時的コンピュータ可読メモリ（例えば、フラッシュメモリ、ＲＡＭ、ＨＤＤ、ＳＳＤ、ＲＡＩＤ、ＳＡＮ、ＮＡＳなど）、少なくとも１つのプロセッサ（例えば、ＣＰＵ、ＧＰＵ、Ｉｎｔｅｌ（登録商標）ｉ７（登録商標）、ＡＭＤ（登録商標）Ｏｐｔｅｒｏｎ（登録商標）、ＡＳＩＣ、ＦＰＧＡなど）および少なくとも１つのモデリングコンピュータまたはエンジンを含む。メモリは、ヘルスケアデータに関連する情報を表す１つ以上のデータ集合を保存するように構成される。より詳細には、これらのデータ集合は、コーホート患者母集団に関連する１つ以上の組織試料から得られるゲノム情報を表すゲノムデータ集合を含んでいてもよい。よって、ゲノムデータ集合は、数百人、数千人またはそれ以上の数の患者から得たゲノムデータを含むこともできよう。また、データ集合は、コーホートに対する治療結果を示す１つ以上の臨床結果データ集合を含んでいてもよい。例えば、臨床結果データ集合は、ゲノムデータがゲノムデータ集合中にも存在する１人以上の患者の薬剤反応データ（例えば、ＩＣ５０、ＧＩ５０など）を含んでいてもよい。さらに、データ集合は、１つ以上の可能性のあるリサーチプロジェクト、すなわち、分析研究の種類、収集するデータのタイプ、予測研究、薬剤、または他の対象となるリサーチトピックに関連する１つ以上の側面を表すメタデータまたは他の特性を含んでいてもよい。モデリングエンジンまたはコンピュータは、メモリに保存されたソフトウェア命令に従ってプロセッサ上で動作して、少なくともゲノムデータ集合および臨床結果データ集合から予測モデルのアンサンブルを構築するように構成される。モデリングエンジンは、可能性のある機械学習アルゴリズム（例えば、クラスタリングアルゴリズム、分類アルゴリズム、神経回路網）の実現体を示す１つ以上の予測モデルテンプレートを取得するように構成される。モデリングエンジンまたはコンピュータは、ゲノムデータ集合および臨床結果データ集合を予測モデルテンプレートに対する訓練入力として用いることにより、訓練された臨床結果予測モデルのアンサンブルを生成する。いくつかの実施形態において、アンサンブルは、数千個、数万個またはさらには数十万個以上の訓練されたモデルを含むこともできよう。訓練されたモデルはそれぞれ、各モデルの１つ以上の性能測定または他の属性を示すモデル特性メトリックを含んでいてもよい。モデル特性メトリックは、対応するモデルの性質を表すものと考えることができる。メトリックの例として、精度、精度利得、シルエット係数または他のタイプの性能メトリックがある。次に、このようなメトリックは、入力データ集合の性質または属性と相関付けてもよい。ゲノムデータ集合および臨床結果データ集合がこのような属性を可能性のあるリサーチプロジェクトと共有する点に鑑みれば、これらのモデルから得られたメトリックを用いて、可能性のあるリサーチプロジェクトをランク付けすることができる。モデル特性メトリック、特にアンサンブルメトリックに従ってリサーチプロジェクトをランク付けすることにより、生成されたモデルによって証明されるような有用な情報をどのプロジェクトが生成できるのかの表示を与えることができる。

本発明の構成の様々な目的、特徴、態様および利点については、以下の好適な実施形態の詳細な説明ならびに添付図面から、より明確になるであろう。図中、類似の参照符号は、類似の構成要素を指す。

リサーチプロジェクト・レコメンデーションシステムの概要図である。結果予測モデルのアンサンブルの生成を示す図である。多数の薬剤に関する検証データ集合から生成されたモデルの平均精度によってランク付けされた薬剤反応の予測可能性を示す図である。多数の薬剤に関する検証データ集合から生成されたモデルの平均精度によって再ランク付けし、図３Ａで得られた薬剤反応の予測可能性を示し、また、Ｄａｓａｔｉｎｉｂが興味深いリサーチ対象であることを示唆する図である。Ｄａｓａｔｉｎｉｂに関連するデータを示すモデルのアンサンブル中のモデルの平均精度のヒストグラムである。図４Ａから得られたデータを、Ｄａｓａｔｉｎｉｂに関連するデータを示すモデルのアンサンブル中のモデルの平均精度利得のヒストグラムとして示す図である。Ｄａｓａｔｉｎｉｂに対するあるタイプのゲノムデータ集合の予測可能性を精度のヒストグラムとして示す図である。図５Ａから得られたデータを単純に精度の棒グラフとして示す図である。図５Ａから得られたデータを示し、Ｄａｓａｔｉｎｉｂに対するあるタイプのゲノムデータ集合の予測可能性を精度利得のヒストグラムとして示す図である。図５Ｃから得られたデータを単純に精度利得の棒グラフとして示す図である。

詳細な説明

コンピュータについて言及する場合、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、または個々もしくは集合的に動作する他のタイプのコンピュータ装置を含むコンピュータ装置の任意の適切な組み合わせを含むものとして読むべきである点に留意されたい。コンピュータ装置は、実体的な非一時的コンピュータ可読記憶媒体（例えば、ハードドライブ、ＲＡＩＤ、ＮＡＳ、ＳＡＮ、ＦＰＧＡ、ＰＬＡ、ソリッドステートドライブ、ＲＡＭ、フラッシュメモリ、ＲＯＭなど）上に保存されたソフトウェア命令を実行するように構成された、少なくとも１つのプロセッサを含むことを理解されたい。ソフトウェア命令は、コンピュータ装置を構成して、または換言すればプログラムして、開示した装置に関して後述するような役割、責任または他の機能を提供する。さらに、本開示の技術は、コンピュータに基づいたアルゴリズム、処理、メソッドまたは他の命令の実現体に関連する開示したステップをプロセッサに実行させるソフトウェア命令を保存する非一時的コンピュータ可読媒体を含むコンピュータプログラム製品として具現化することができる。いくつかの実施形態において、様々なサーバ、システム、データベースまたはインターフェースは、標準プロトコルまたはアルゴリズムを用いて、できればＨＴＴＰ、ＨＴＴＰＳ、ＡＥＳ、公開／秘密鍵交換、ウェブサービスＡＰＩ、公知の金融取引プロトコルまたは他の電子情報交換方法に基づいて、データ交換を行う。装置間のデータ交換は、パケット交換ネットワーク、インターネット、ＬＡＮ、ＷＡＮ、ＶＰＮ、または他のタイプのパケット交換ネットワーク、回線交換ネットワーク、セル交換ネットワーク、または他のタイプのネットワークを介して行ってもよい。

本明細書の記載および後述の特許請求の範囲において用いられるように、システム、エンジン、サーバ、装置、モジュールまたは他のコンピューティング要素がメモリ中のデータに対して機能を実施または実行するように構成されたものとして記述される場合、「〜するように構成される」または「〜するようにプログラムされる」という表現は、１つ以上のプロセッサまたはコンピューティング要素のコアが、対象データまたはメモリに保存されたデータオブジェクトに対して１組の機能を実行するように、コンピューティング要素のメモリに保存された１組のソフトウェア命令によってプログラムされていることを意味する。

以下の記載では、本発明の構成の様々な実施形態の例を提示する。各実施形態は本発明の要素の単一の組み合わせを示しているが、本発明の構成は、開示の要素の可能な組み合わせを全て含むものと考えられる。よって、ある実施形態が要素Ａ、ＢおよびＣを含み、別の実施形態が要素ＢおよびＤを含む場合、本発明の構成も、たとえ明確に開示されていなくても、Ａ、Ｂ、ＣまたはＤからなる他の残りの組み合わせを含むものと考えられる。

本明細書において用いられるように、文脈上特に指示しない限り、用語「〜に接続される」は、直接的な接続（２つの要素が互いに接触して相互につながれる）および間接的な接続（少なくとも１つの別の要素が２つの要素間に配置されている）のどちらも含むことを意図している。よって、用語「〜に接続される」および「〜と接続される」は同義に用いられる。さらに、ネットワークコンピュータ装置の関連において、用語「〜に接続される」および「〜と接続される」は、複数の装置が相互の接続（例えば、有線、無線など）を介して通信を行える伝達を意図している。

開示した技術は、数々の入力訓練データ集合に基づいて訓練された予測結果モデルを生成する協働プロセッサを含む多くの技術的利点を有することが理解されよう。コンピューティングシステムのメモリは、多数の装置間にわたって分散して入力訓練データ集合を保存するように仕切ることにより、全装置が協働してモデルのアンサンブルを生成してもよい。いくつかの実施形態において、本発明の構成は、複数のコンピュータが連係して通信を行い、機械学習環境の支援を行なえるようにする分散型コンピューティングシステムの構築に重点をおいているものと考えられる。さらに、開示の本発明の構成の技術的効果は、訓練されたモデルのアンサンブルなどを含む１つ以上の訓練されたモデルの性能メトリックとターゲットリサーチの対象とを相関付けることを含むものと考えられる。このような相関は、解釈が困難なデータと機械学習モデルのタイプごとの可能性のある固有の対向バイアスとに基づいて、このような対象が成功する裕度を増加させるものと考えられる。

開示の本発明の構成の目的は、コンピュータ装置を構築または構成して、極めて多量のデジタルデータに対して人間の能力を越えて動作できるようにすることである。デジタルデータはゲノムおよび治療結果の機械訓練されたコンピュータモデルを表すことが可能であるが、デジタルデータは、実際のアイテムではなく、このような実世界のアイテムの１つ以上のデジタルモデルを示すものであることが理解されよう。すなわち、本明細書に開示するように、装置を適切に構成またはプログラムし、コンピュータ装置のメモリ中のこのようなデジタルモデルをインスタンス化することで、コンピュータ装置は、デジタルデータまたはモデルを人間の能力を越えて管理することができる。さらに、コンピュータ装置は、このような構成なしに先験的な能力を持つことはない。開示したコンピュータに基づいたツールを生成することにより、ツールが、有益な洞察または結果をもたらす可能性のあるリサーチ領域において根拠に基づく洞察を得ることに関し、このようなツールを持たないコンピュータ装置のユーザに対してさらなる有用性をもたらす。

以下の開示において、ゲノムデータから様々なリサーチ状況（例えば、薬剤反応、収集するデータのタイプなど）下における可能性のある治療結果への対応性を示す多数の訓練されたモデルをインスタンス化するように構成され、またはプログラムされた、コンピュータに基づいた機械学習システムについて述べる。これらのモデルは、大量のデータについて訓練される。例えば、多数の患者から得たゲノムデータを同じ患者の治療結果と組み合わせて、訓練データ集合を生成する。訓練データ集合は、１つ以上のモデルテンプレートに供給され、機械学習アルゴリズムが実現される。これにより、機械学習システムは、対応する訓練されたモデルを生成し、これらのモデルは、新しいゲノムデータに基づいて可能性のある治療結果を予測するために用いることもできよう。しかし、本発明の構成は、結果予測ではなく、訓練されたモデルのアンサンブルに焦点を当てている。可能性のある治療結果の予測の域を越えて、訓練されたモデルの集合、より厳密には訓練されたモデルのアンサンブルによって洞察を得ることができ、リサーチ状況またはプロジェクトから、訓練されたモデルのアンサンブルにおいて測定された１つ以上のモデル性能メトリックまたは他の特性メトリックによって決定された最も洞察的な情報を生成し得ることが理解されよう。よって、開示のシステムは、モデルの予測結果ではなくモデルのアンサンブルに関し、コンパイルされた統計に基づいた最高値であろうリサーチプロジェクトを推奨することができる。

図１は、コンピュータベースのリサーチプロジェクト・レコメンデーションシステム１００を示す。図では、単一のメモリおよび単一のプロセッサを含んでいるが、メモリ１２０は、複数のコンピュータ装置間に分散した分散型メモリを含んでいてもよいことは理解されよう。メモリ１２０の例を挙げると、ＲＡＭ、フラッシュメモリ、ＳＳＤ、ＨＤＤ、ＳＡＮ、ＮＡＳ、ＲＡＩＤ、ディスクアレイまたは他のタイプの非一時的コンピュータ可読媒体がある。同様に、プロセッサ１５０を単一のユニットとして図示しているが、プロセッサ１５０は、シングルコア、マルチコア、プロセッサモジュール（例えば、サーバブレードなど）、または、さらにはネットワークコンピュータプロセッサなどの他のプロセッサ構成を婉曲的に指す。システム１００は、場合によりＡｐａｃｈｅ（登録商標）Ｈａｄｏｏｐに基づいて、分散型コンピューティングシステムで実現することも可能であろう。このようなシステムでは、Ｈａｄｏｏｐ分散型ファイルシステム（ＨＤＦＳ）を、関連するネットワークコンピュータのメモリと共にサポートする記憶装置がメモリ１２０として動作するであろう。さらに、クラスタの各コンピュータのプロセッサはそれぞれ、プロセッサ１５０として一体的に動作する。開示のシステムによって処理されたデータ集合の大部分が極めて大きい（例えば、サイズが１００ＧＢを超える）場合があることを考えると、開示のコンピューティングシステムは、このようなツールを、複数のコンピュータ間に仕事量を分散させるオープンソースの分散型リソースバッチ処理システムであるグリッドエンジンとして利用することができる。また、開示のシステムは、クラウド方式で実現される有償サービスとしても動作可能であることも理解されよう。このような動作をサポートできるクラウドベースのインフラストラクチャの例を挙げると、ＡｍａｚｏｎＡＷＳ、ＭｉｃｒｏｓｏｆｔＡｚｕｒｅ、ＧｏｏｇｌｅＣｌｏｕｄ、または他のタイプのクラウドコンピューティングシステムがある。本明細書に記載の例は、Ｐｙｔｈｏｎにおいて実現されるＰｙｐｅｌｉｎｅと呼ばれる特許で保護されたワークロードマネージャに基づいて生成されたものであり、Ｓｌｕｒｍワークロードマネージャ（ＵＲＬ：ｓｌｕｒｍ．ｓｃｈｅｄｍｄ．ｃｏｍを参照）を利用する。

メモリ１２０は、複数のデータ集合の保存場所として動作するように構成される。データ集合は、プロセッサ１５０にとって局所的な記憶装置上に保存してもよいし、あるいは、場合により、ネットワーク（図示せず；例えば、ＬＡＮ、ＷＡＮ、ＶＰＮ、インターネット、イントラネットなど）を介するプロセッサ１５０が利用可能な複数の記憶装置間に保存してもよいことは理解されよう。２つの特定のデータ集合は、ゲノムデータ集合１２３および臨床結果データ集合１２５を含む。どちらのデータ集合も、組み合わせた場合、訓練データを作成し、訓練データは、以下に述べるような訓練されたモデルの生成に用いられる。

ゲノムデータ集合１２３は、例えば乳癌患者の群であるコーホートから採取した組織試料を示すゲノム情報を示す。また、ゲノムデータ集合１２３は、ゲノム情報の異なる側面を含んでいてもよい。いくつかの実施形態において、ゲノムデータ集合１２３は、以下のタイプのデータ、すなわち、全ゲノム解析（ＷＧＳ）、全エクソーム解析（ＷＥＳ）データ、マイクロアレイ発現データ、マイクロアレイコピー数データ、ＰＡＲＡＤＩＧＭデータ、ＳＮＰデータ、ＲＮＡｓｅｑデータ、タンパク質マイクロアレイデータ、エクソーム解析データ、または他のタイプのゲノムデータのうちの１つ以上含んでいてもよいであろう。一例として、ゲノムデータ１２３は、１００人、１０００人、もしくはそれ以上の患者から得た乳癌腫瘍のＷＧＳを含んでいてもよいであろう。ゲノムデータ集合１２３は健康な組織に関連するゲノム情報をさらに含んでいてもよく、よって、ゲノムデータ集合１２３は、疾病組織についての情報を、マッチした平均値と共に含んでいてもよい。多数のファイルフォーマットを用いてゲノムデータ集合１２３を保存することも可能であり、フォーマットの例をいくつか挙げると、ＶＣＦ、ＳＡＭ、ＢＡＭ、ＧＡＲ、ＢＡＭＢＡＭなどがある。ＰＡＲＡＤＩＧＭおよび経路モデルの生成および使用については、米国特許出願公開公報ＵＳ２０１２／００４１６８３号（Ｖａｓｋｅ他による発明「ＰａｔｈｗａｙＲｅｃｏｇｎｉｔｉｏｎＡｌｇｏｒｉｔｈｍＵｓｉｎｇＤａｔａＩｎｔｅｇｒａｔｉｏｎｏｎＧｅｎｏｍｉｃＭｏｄｅｌｓ（ＰＡＲＡＤＩＧＭ）」、２０１１年４月２９日出願）、米国特許出願公開公報ＵＳ２０１２／０１５８３９１号（Ｖａｓｋｅ他による発明「ＰａｔｈｗａｙＲｅｃｏｇｎｉｔｉｏｎＡｌｇｏｒｉｔｈｍＵｓｉｎｇＤａｔａＩｎｔｅｇｒａｔｉｏｎｏｎＧｅｎｏｍｉｃＭｏｄｅｌｓ（ＰＡＲＡＤＩＧＭ）」、２０１１年１０月２６日出願）、および国際特許出願公開公報ＷＯ２０１４／１９３９８２号（Ｂｅｎｚ他による発明「ＰＡＲＡＤＩＧＭＤｒｕｇＲｅｓｐｏｎｓｅＮｅｔｗｏｒｋ」、２０１４年５月２８日出願）に記載されている。ＢＡＭＢＡＭ技術については、米国特許出願公開公報第２０１２／００５９６７０号（「ＢＡＭＢＡＭ：ＰａｒａｌｌｅｌＣｏｍｐａｒａｔｉｖｅＡｎａｌｙｓｉｓｏｆＨｉｇｈ−ＴｈｒｏｕｇｈｐｕｔＳｅｑｕｅｎｃｉｎｇＤａｔａ」、２０１１年５月２５日出願）、および第２０１２／００６６００１号（「ＢＡＭＢＡＭ：ＰａｒａｌｌｅｌＣｏｍｐａｒａｔｉｖｅＡｎａｌｙｓｉｓｏｆＨｉｇｈ−ＴｈｒｏｕｇｈｐｕｔＳｅｑｕｅｎｃｉｎｇＤａｔａ」、２０１１年１１月１８日出願）に記載されている。

また、臨床結果データ集合１２５はコーホートに関連し、治療後、例えば新規薬剤の投与後のコーホートの組織試料の測定された臨床結果を示す。臨床結果データ集合１２５は、コーホート内の多数の患者から得たデータを含むことも可能であり、また患者識別子によってインデックスを付けて、臨床結果データ集合１２５の患者の結果データが確実にゲノムデータ集合１２３の同一患者のゲノムデータと正確に同期されるようにすることも可能である。ゲノムデータ集合１２３を構成可能な多数の異なるタイプのゲノムデータがあるように、多様な臨床結果データ集合もある。例えば、臨床結果データ集合１２５は、薬剤反応データ、生存データ、または他のタイプの結果データを含んでいてもよいであろう。いくつかの実施形態において、薬剤反応データは、ＩＣ５０データ、ＧＩ５０データ、Ａｍａｘデータ、ＡＣａｒｅａデータ、フィルタＡＣａｒｅａデータ、最大投与データなどを含んでいてもよいであろう。さらに、臨床結果データ集合は、多数の臨床試験において適用された１００種類、１５０種類、２００種類またはそれ以上の薬剤から得られた薬剤反応データを含んでいることもあるであろう。より具体的な例として、タンパク質データは、ＭＤアンダーソンがんセンターから得たＭＤＡＲＰＰＡコアプラットフォームを含んでいてもよいであろう。

データの他の側面の中でも、特に各データ集合は、臨床またはリサーチプロジェクトの側面を示す。ゲノムデータ集合１２３について、収集されたデータの性質またはタイプは、対応するリサーチプロジェクトのパラメータを示す。同様に、臨床結果データ集合１２５について、対応するリサーチプロジェクトパラメータは、収集する薬剤反応データのタイプ（例えば、ＩＣ５０、ＧＩ５０）、研究中の薬剤、あるいは対応するリサーチプロジェクトに関連する他のパラメータまたは属性を含んでいてもよいであろう。このような要素は将来注目され得る分野であるため、これらの要素に留意されたい。訓練されたモデルのアンサンブルの生成後、これらの要素をアンサンブル統計に関し分析して、どの要素が可能性のある候補を示すかという洞察を得ることができる。

図１に示す例において、メモリ１２０に保存されたリサーチプロジェクト１５０は、可能性のあるリサーチの態様を示すデータ構造または記録オブジェクトを示す。いくつかの実施形態において、リサーチプロジェクト１５０は、１組の属性値ペアに基づいて定義してもよい。属性値ペアは名前空間に関連するものでよく、名前空間は、可能性のあるリサーチプロジェクトを記述し、パラメータまたは属性をゲノムデータ集合１２３または臨床結果データ集合１２５と共有する。データ集合間において共通の名前空間を利用することにより、データ集合間の可能性のある相関を得ることが可能になる。さらに、リサーチプロジェクト１５０は、メタデータと考えられる属性値ペアを含んでいてもよく、メタデータは、収集されたデータの実際の性質に直接関連するのではなく、むしろデータ集合とは少なくとも逸脱して関連するリサーチタスクまたは予測タスクに、より直接的に関係している。リサーチタスクメタデータの例を挙げると、データ収集、予測学習、研究者、許可情報、または他のリサーチプロジェクト情報に係る費用が含まれる場合もある。構築可能なモデルの予測研究に関し、予測研究には広い分野の研究が含まれていてもよく、例えば、薬剤反応研究、ゲノム発現研究、生存性研究、サブタイプ分析研究、サブタイプ差研究、分子サブタイプ研究、病態研究または他の種類の研究が含まれていてもよい。開示のアプローチを用いれば、入力訓練データの性質を共有属性またはブリッジング属性を介して可能性のあるリサーチプロジェクトの性質へ接続することが可能になることを理解されたい。

メモリ１２０またはメモリ１２０の一部は、１つ以上の予測モデルテンプレート１４０も含んでいてもよい。予測モデルテンプレート１４０は、特定の特徴がありながら対応するアルゴリズムの実現体を示す未訓練の、すなわち「空白の」モデルを示す。モデルテンプレートの一例として、ＳＶＭライブラリまたは実現可能なモジュールとして保存されたサポートベクトルマシン（ＳＶＭ）クラシファイヤを含み得る。システム１００がゲノムデータ集合１２３および臨床結果データ集合１２５を利用してＳＶＭモデルを訓練する場合、システム１００は、既知のゲノムデータ集合１２３および既知の結果データ集合１２５に基づいて訓練され、またはさらには十分に訓練されたＳＶＭモデルをインスタンス化するものと考えられる。したがって、十分に訓練されたモデルの構成パラメータは、訓練されたモデルのインスタンスとしてメモリ１２０に保存することができる。構成パラメータは、モデルのタイプによって異なるが、要素重みの集合と考えられる。いくつかの実施形態において、予測モデルテンプレート１４０は、少なくとも異なる５タイプのモデル、少なくとも異なる１０タイプのモデル、またはさらには１５タイプを超える異なるモデルを含む。例示的なモデルのタイプを挙げると、線形回帰モデルテンプレート、クラスタリングモデルテンプレート、クラシファイヤモデル、教師なしモデルテンプレート、人工神経回路網テンプレート、またはさらには準教師付きモデルテンプレートがある。

予測モデルテンプレート１４０の少なくともいくつかのソースは、ｓｃｉｋｉｔ−ｌｅａｒｎ（ＵＲＬ：ｗｗｗ．ｓｃｉｋｉｔ−ｌｅａｒｎ．ｏｒｇを参照）によって利用可能なものを含み、ｓｃｉｋｉｔ−ｌｅａｒｎは、様々なクラシファイヤなどを含む様々な異なるモデルテンプレートを含む。クラシファイヤのタイプも極めて多岐にわたり、線形クラシファイヤ、ＮＭＦベースのクラシファイヤ、グラフィカルベースのクラシファイヤ、ツリーベースのクラシファイヤ、ベイジアンベースのクラシファイヤ、規則ベースのクラシファイヤ、ネットベースのクラシファイヤ、ｋＮＮクラシファイヤまたは他のタイプのクラシファイヤのうちの１つ以上を含んでいてもよい。より詳細な例を挙げると、ＮＭＦ予測器（線形）、ＳＶＭｌｉｇｈｔ（線形）、ＳＶＭｌｉｇｈｔ一次多項式カーネル（ｄ次多項式）、ＳＶＭｌｉｇｈｔ二次多項式カーネル（ｄ次の多項式）、ＷＥＫＡＳＭＯ（線形）、ＷＥＫＡｊ４８ツリー（ツリーベース）、ＷＥＫＡハイパーパイプ（分布ベース）、ＷＥＫＡランダムフォレスト（ツリーベース）、ＷＥＫＡ単純ベイズ（確率的／ベイズ）、ＷＥＫＡＪＲｉｐ（規則ベース）、ｇｌｍｎｅｔｌａｓｓｏ（疎線形）、ｇｌｍｎｅｔリッジ回帰（疎線形）、ｇｌｍｎｅｔエラスティックネット（疎線形）、人工神経回路網（例えば、ＡＮＮ、ＲＮＮ、ＣＮＮなど）などがある。予測モデルテンプレート１４０の他のソースを挙げると、ＭｉｃｒｏｓｏｆｔのＣＮＴＫ（ＵＲＬ：ｇｉｔｈｕｂ．ｃｏｍ／Ｍｉｃｒｏｓｏｆｔ／ｃｎｔｋを参照）、ＴｅｎｓｏｒＦｌｏｗ（ＵＲＬ：ｗｗｗ．ｔｅｎｓｏｒｆｌｏｗ．ｃｏｍを参照）、ＰｙＢｒａｉｎ（ＵＲＬ：ｐｙｂｒａｉｎ．ｏｒｇを参照）、または他のソースがある。

それぞれのタイプのモデルは、得られる訓練されたモデルが同一データに対して訓練されたとしても、他のタイプの訓練されたモデルに対してどのように機能するかを左右し得る固有のバイアスまたは仮説を含むことが理解されよう。発明者らは、できるだけ多くの合理的なモデルを利用することにより、モデルを選択する際に、このような仮説またはバイアスへの露出を低減する助けとなることを認識した。したがって、本発明の構成は、特にモデルテンプレート仮説の影響を受け易いリサーチ対象に対し、１０タイプ以上のモデルテンプレートを使用することを含むものと考える。

メモリ１２０またはメモリ１２０の一部は、１つ以上のプロセッサ１５０上で実行可能な１つ以上のモデリングコンピュータまたはエンジン１３５を表すモデリングエンジンソフトウェア命令１３０も含んでいてもよい。モデリングエンジン１３５は、多数の訓練された予測結果モデルを予測モデルテンプレート１４０から生成する役割を持つ。基本的な例として、予測モデルテンプレートが２タイプのモデル、すなわち、ＳＶＭクラシファイヤおよびＮＭＦ予測器を含むシナリオについて考えてみる（米国仮特許出願第６１／９１９，２８９号：２０１３年１２月２０日出願、および対応する国際出願ＷＯ２０１４／１９３９８２号：２０１４年５月２８日出願を参照）。ここで、ゲノムデータ集合１２３および臨床結果データ集合１２５が１５０種類の薬剤から得られたデータを示すものとする。モデリングエンジン１３５は、コーホートデータ集合を用いて、１５０種類の薬剤全てに対する１組の訓練されたＳＶＭモデルと、１５０種類の薬剤全てに対する１組の訓練されたＮＭＦ予測器モデルとを生成する。よって、モデリングエンジン１３５は、２つのモデルテンプレートから、３００個の訓練された予測モデルを生成するか、または他の場合、インスタンス化する。モデリングエンジン１３５の一例は、国際特許出願公開公報ＷＯ２０１４／１９３９８２号（「ＰａｒａｄｉｇｍＤｒｕｇＲｅｓｐｏｎｓｅＮｅｔｗｏｒｋ」、２０１４年５月２８日出願）に記載されたものを含む。

モデリングエンジン１３５は、プロセッサ１５０を構成して、モデル生成器および分析システムとして動作させる。モデリングエンジン１３５は、１つ以上の予測モデルテンプレート１４０を取得する。図示の例において、予測モデルテンプレート１４０は、あらかじめメモリ１２０内に存在する。しかし、他の実施形態では、予測モデルテンプレート１４０は、アプリケーションプログラム・インターフェース（ＡＰＩ）によって取得可能なものでよく、場合により、ウェブサービスに基づいて、ＡＰＩを介して対応する１組のモジュールまたはライブラリにアクセスする。他の実施形態において、ユーザは、利用可能な予測モデルテンプレート１４０をレポジトリ（例えば、データベース、ファイルシステム、ディレクトリなど）に配置することも可能であり、レポジトリを介して、モデリングエンジン１３５は、ファイルの読み出しもしくはインポート、さらに／またはデータベースへの問い合わせを行うことにより、テンプレートにアクセスすることができる。このアプローチによって、予測モデルテンプレートの経時的増加が得られるため、当該アプローチは有利であると考えられる。さらに、各テンプレートに対し、対応するアルゴリズムが立てた仮説、最適な用途、命令または他のデータなど、基盤となる性質を示すメタデータによって注釈を付けることができる。そのため、メタデータに基づいてモデルテンプレートをインデックス付けして、リサーチプロジェクト（例えば、反応研究、データ収集、予測タスクなど）の選択基準を満たすメタデータを有するモデルを選択することにより、研究者が仕事に最適なモデルを選択できるようにしてもよい。典型的には、全てではないにしろ、ほとんど全てのモデルテンプレートがアンサンブル構築に用いられることが期待される。

モデリングエンジン１３５は、引き続き、訓練されたモデル１４３Ａ〜１４３Ｎ（訓練されたモデル１４３と総称する）によって代表される訓練された臨床結果予測モデルのアンサンブルを生成する。各モデルは、特性メトリック１４７Ａおよび１４７Ｎ（メトリック１４７と総称する）も含む。モデリングエンジン１３５は、予測モデルテンプレート１４０を使用し、ゲノムデータ集合１２３（例えば、初期の既知のデータ）および臨床結果データ集合１２５（例えば、最終的な既知のデータ）においてテンプレートを訓練することにより、訓練されたモデル１４３をインスタンス化する。訓練されたモデル１４３は予測モデルを示し、当該予測モデルは、必要に応じて、特定の患者のゲノムデータを訓練されたモデルを通じて走行させることにより、個別治療または予測結果の臨床設定に用いて予測結果を生成できよう。しかし、２つの点に注意されたい。第１に、本願の発明の構成が焦点を当てているのは単なる予測結果ではなく、主にモデルのアンサンブルに対してである。第２に、訓練されたモデル１４３のアンサンブルは、単に十分に訓練されたモデルの他に、評価モデルを含んでいてもよく、評価モデルはデータ集合の一部についてのみ訓練されたものであり、十分に訓練されたモデルは、データ集合全体について訓練されたものである。評価モデルは、十分に訓練されたモデルが値を持つかまたは持ち得るかを示す補助となる。いくつかの意味において、評価モデルは、半ば、交差分割検証時に生成された訓練されたモデルとも考えられる。

図１では訓練されたモデル１４３を２つだけ示しているが、訓練されたモデルの数は、１０，０００個、１００，０００個、２００，０００個、またはさらには１，０００，０００個より多く含んでいてもよいことは理解されよう。実際、いくつかの実施例において、アンサンブルは、２，０００，０００個を超える訓練されたモデルを含んでいた。いくつかの実施形態において、データ集合の性質に応じて、訓練されたモデル１４３は、図２について述べたような２００，０００個超の十分に訓練されたモデルを有する訓練された臨床結果モデル１４５のアンサンブルを含んでいてもよいであろう。

また、訓練されたモデル１４３はそれぞれ、対応する訓練されたモデルに関するメトリック１４７Ａおよび１４７Ｎによって示されるモデル特性メトリック１４７を含んでいてもよい。モデル特性メトリック１４７は、対応する訓練されたモデル１４３の性質または能力を示す。特性メトリックの例を挙げると、精度、精度利得、性能メトリック、または対応するモデルの他の測定値がある。性能メトリックとしてさらに、曲線メトリック下の領域、Ｒ^２、ｐ値メトリック、シルエット係数、混同行列、またはモデルの性質もしくはそれに対応するモデルテンプレートに関連する他のメトリックが含まれている場合もあるであろう。例えば、クラスタベースのモデルテンプレートはシルエット係数を有する場合もあるが、これに対しＳＶＭクラシファイヤの訓練済みモデルはシルエット係数を有さない。ＳＶＭクラシファイヤの訓練済みモデルは、例えばＡＵＣまたはｐ値を使用する場合もある。特性メトリック１４７は、モデルそのものの出力と考えられないことは理解されよう。むしろ、モデル特性メトリック１４７は、訓練済みモデルの性質、例えば、訓練データ集合に基づいた予測がどれだけ高精度かを示す。さらに、モデル特性メトリック１４７は、性能メトリック以外の他のタイプの属性および関連する値を含んでいる場合もある。訓練済みモデル１４３に関連するメトリックとして使用可能な他の属性を挙げると、モデルテンプレートのソース、モデルテンプレート識別子、モデルテンプレートの仮説、バージョン番号、ユーザ識別子、特徴選択、ゲノム訓練データ属性、患者識別子、薬剤情報、結果訓練データ属性、時間スタンプ、または他のタイプの属性がある。モデル特性メトリック１４７は、高いポータビリティ、操作性、または以下に述べるような他のタイプの管理もしくは分析を可能にするｎ個のタプルまたはベクトルの値として表されることもある。よって、各モデルは、そのソースに関する情報を含んでいてもよく、ゲノムデータ集合１２３、臨床結果データ集合１２５およびリサーチプロジェクト１５０に関連する同一の名前空間に対応する属性を含んでいてもよい。訓練済みモデル１４３および対応するモデル特性メトリック１４７はどちらも、場合によりＪＳＯＮ、ＹＡＭＬまたはＸＭＬフォーマットに基づいて、最終的な訓練済みモデルインスタンスとしてメモリ１２０に保存してもよい。これにより、訓練済みモデルをアーカイブして、後日取り出すことができる。

個々のモデル特性メトリック１４７が個々の訓練済みモデル１４３Ａ〜１４３Ｎに対してそれぞれ利用できること以外に、モデリングエンジン１３５は、訓練済み臨床結果モデル１４５のアンサンブルの属性を示すアンサンブルメトリック１４９を生成することもできる。アンサンブルメトリック１４９は、例えば、アンサンブル中の全モデル間の精度分布または精度利得分布を含む場合もある。さらに、アンサンブルメトリック１４９は、アンサンブル中のモデル数、アンサンブル性能、アンサンブル所有者、アンサンブル内のモデルタイプの分布、アンサンブル生成に要する電力、モデル当たりの電力、モデル当たりのコスト、アンサンブルに関連する他の一般的な情報を含んでいることもある。

モデルの精度は、既知のゲノムデータ集合および対応する既知の臨床結果データ集合から構築された評価モデルを使用して導き出すことができる。特定のモデルテンプレートについて、モデリングエンジン１３５は、入力された既知のデータ集合に対して訓練および検証された複数の評価モデルを構築してもよい。例えば、訓練済み評価モデルを入力データの８０％に基づいて訓練することができる。評価モデルを訓練した後に、残りの２０％のゲノムデータを評価モデルによって走行させて、残りの２０％の既知の臨床結果データに類似するか最も近い予測データを生成するか、確認することができる。これにより、訓練済み評価モデルの精度は、結果の合計数に対する正しい予測数の比と考えられる。評価モデルの訓練は、１つ以上の交差分割検証技術を用いて行うことができる。

ゲノムデータ集合１２３および臨床結果データ集合１２５が５００人の患者のコーホートを示すシナリオについて考える。モデリングエンジン１３５は、データ集合を、例えば、４００個の患者試料を含む１つ以上の評価訓練集合の群に区分けしてもよい。モデリングエンジンは、４００個の患者試料に基づいて、訓練済み評価モデルを生成する。次に、訓練済み評価モデルを残りの１００人の患者のゲノムデータ集合に対して実行して１００個の予測結果を生成することにより、訓練済み評価モデルを検証することができる。さらに、これら１００個の予測結果を、臨床結果データ集合１２５中の患者データから得られた実際の１００個の結果と比較する。訓練済み評価モデルの精度は、結果の合計数に対する正しい予測結果（すなわち、真の正数および真の負数）の数である。訓練済み評価モデルが、１００個の予測結果から、患者データより得られた実際の、または既知の臨床結果に整合する８５個の正しい結果を生成した場合、訓練済み評価モデルの精度は８５％と考えられる。残りの１５個の正しくない結果は、偽の正数および偽の負数と考えられる。

モデリングエンジン１３５は、訓練試料と検証システムとの間のコーホートデータの分割様態を変更するだけで、コーホートデータおよびモデルテンプレートの特定のインスタンスについて多数の訓練済み評価モデルを生成することができることが理解されよう。例えば、いくつかの実施形態において、５ｘ３交差分割検証を利用することができ、これにより１５個の評価モデルを得ることができるであろう。１５個の訓練済み評価モデルはそれぞれ、固有の精度メトリック（例えば、合計数に対する正確な予測の数）を有するであろう。評価モデルから得られた精度がモデルの集合が有用である（例えば、見込み閾値を超えている、多数決クラシファイヤを超えているなど）旨を示すと仮定すると、十分に訓練済みのモデルは、１００％のデータに基づいて構築することができる。すなわち、１つのアルゴリズムに対する総モデル集合体は、１つの十分に訓練済みのモデルおよび１５個の評価モデルを含み得る。その場合、十分に訓練済みのモデルの精度は、その訓練済み評価モデルの平均と考えられるであろう。よって、十分に訓練済みのモデルの精度は、平均値、スプレッド、アンサンブル中の対応する訓練済みモデルの数、最大精度、最小精度、または訓練済み評価モデルの統計から得られる他のメトリックを含み得る。よって、リサーチプロジェクトは、関連する十分に訓練済みのモデルの精度に基づいてランク付けすることができる。

精度に関連する別のメトリックは精度利得を含む。精度利得は、モデルの精度と「多数決クラシファイヤ」の精度との間の演算差として定義され得る。その結果得られるメトリックは、正または負をとり得る。精度利得は、可能性のある既知の結果についての見込みに対するモデルの性能と考えられる。モデルの精度利得が高い（正の側に）ほど、訓練データから得られ、または学習できる情報も多くなる。モデルの精度利得が低い（負の側に）ほど、見込みを超えた洞察を得ることができないため、モデルが持つ関連性も低くなる。精度と同様に、十分に訓練されたモデルの精度利得は、評価モデルから得られた精度利得の分布を含んでいてもよい。よって、十分に訓練されたモデルの精度利得は、平均、スプレッド、最小、最大または他の値を含み得る。統計的にいうと、関心の高いリサーチプロジェクトは、精度利得分布がゼロよりも大きく高い精度利得を有している可能性が最も高いであろう。

訓練済み臨床結果モデル１４５のアンサンブル内のモデルがモデル生成に用いられるデータの性質またはモデルのソースに関連する属性もしくはメトリック情報を保持することを考慮すると、モデリングエンジン１３５は、アンサンブルに関する情報を類似の属性を有するリサーチプロジェクト１５０と相関付けることができる。よって、モデリングエンジン１３５は、モデル特性メトリック１４７またはさらにはアンサンブルメトリック１４９に基づくランキング基準に従って、例えばリサーチプロジェクト１５０から、可能性のあるリサーチプロジェクトのランク付けされたリスト、可能性のあるランク付けされたリサーチプロジェクト１６０を生成することができる。アンサンブルが１００個超の薬剤反応研究に関する訓練済みモデル１４３を含む状況について考える。モデリングエンジン１３５は、各研究の対応するモデルの精度または精度利得により、薬剤反応研究をランク付けすることができる。ランク付けされたリストは、ランク付けされた１組の薬剤反応、薬剤、ゲノムデータ集合のタイプ、収集された薬剤反応データのタイプ、予測タスク、遺伝子発現、臨床課題（例えば、生存性）、結果統計、または他のタイプのリサーチトピックを含み得る。

モデリングエンジン１３５がランク付けされた可能性のあるリサーチプロジェクト１６０をコンパイルすると、モデリングエンジン１３５は、装置（例えば、携帯電話、タブレット、コンピュータ、ウェブサーバなど）上で、ランク付けされたリストを利害関係者へ提示させることも可能である。ランク付けされたリストは、モデルの性質または集合中のモデルが学習できる様態に基づいて最も深い洞察が得られるプロジェクト、タスク、トピックまたは領域に関する推奨を実質的に表す。例えば、アンサンブルの精度利得は、どのモデル領域が最も情報の豊富な洞察を提供したかということに関する測定値と考えられる。このような領域は、既知の実世界のゲノムデータ集合１２３、および対応する実世界の既知の臨床結果データ集合１２５から生成された訓練済みモデルによって証明されるような研究費または診断努力の候補と考えられるであろう。

図２は、訓練された臨床結果予測モデル２４５のアンサンブルの生成に関する詳細をさらに提供する。図示の例において、モデリングエンジンは、既知のゲノムデータ集合２２５、および既知の臨床結果データ集合２２３を含むデータ集合２２０によって示される訓練データを取得する。本例において、データ集合２２０は、単一の薬剤に関連する薬剤反応研究を表すデータを含む。しかし、１００種類を超える薬剤、１５０種類を超える薬剤、２００種類を超える薬剤など、複数の薬剤から得られたデータ集合を訓練データ集合中に含めることも可能であろう。さらに、モデリングエンジンは、訓練されていない機械学習モジュールを表す１つ以上の予測モデルテンプレート２４０を取得することも可能である。数タイプのモデルテンプレートを利用することにより、関連するテンプレートまたはアルゴリズムが全て使用されるため、それぞれのテンプレートの基盤となる仮説の影響を低減させ、研究者の先入観の排除を促進できる。

モデリングエンジンは、訓練データ集合を用いて、多数の訓練済みモデルをモデルテンプレート２４０から生成するものであり、訓練済みモデルは、訓練済み臨床結果予測モデル２４５のアンサンブルを形成する。モデル２４５のアンサンブルは、大量の訓練されたモジュールを含んでいてもよい。図示の例において、研究者が２００種類の薬剤に関連する訓練データにアクセスできるシナリオについて検討する。各薬剤の訓練データは、６タイプの既知の臨床結果データ（例えば、ＩＣ５０データ、ＧＩ５０データ、Ａｍａｘデータ、ＡＣａｒｅａデータ、フィルタリングされたＡＣａｒｅａデータ、および最大投与データ）、ならびに３タイプの既知のゲノムデータ集合（例えば、ＷＧＳ、ＲＮＡｓｅｑ、タンパク質発現データ）を含み得る。４つの特徴選択方法および約１４タイプの異なるモデルがある場合、モデリングエンジンは、２００，０００個を超える訓練済みモデルをアンサンブル中に生成して、各可能性のある構成パラメータに対して１つのモデルを設けることも可能であろう。

モデル２４５のアンサンブル中の個々のモデルはそれぞれ、モデルの性質を特徴付けるメタデータをさらに含む。上述したように、メタデータは、性能メトリック、モデルの訓練に用いられるタイプデータ、モデルの訓練に用いられる特徴、またはリサーチプロジェクトの名前空間における属性および対応する値とみなし得る他の情報を含んでいてもよい。このアプローチにより、名前空間の属性によって決まる選択基準を満たすモデルの群の選択が可能になる。例えば、収集されたＷＧＳデータに従って訓練された全てのモデル、または特定の薬剤に関連するデータについて訓練された全てのモデルを選択することができよう。個々のモデルは、その基盤となるテンプレートの性質に応じて記憶装置、すなわち場合に応じて訓練されたモデルの係数もしくは他のパラメータの特定の値ならびに関連する属性、性能メトリックまたは他のメタデータを保存するＪＳＯＮ、ＹＡＭＬ、またはＸＭＬファイルに保存してもよい。必要に応じて、または希望により、対応するファイルのモデル訓練の値または重みを読み取り、対応するテンプレートのパラメータを読み取った値に設定するだけで、モデルを再インスタンス化することができる。

モデル２４５のアンサンブルが形成または生成されると、性能メトリックまたは他の属性を用いて、可能性のあるリサーチプロジェクトのランク付けされたリストを生成することができる。２００，０００個を超えるモデルが生成されるシナリオについて考える。臨床医が特定の薬剤の薬剤反応研究に関連するモデルを選択する場合、選択されるモデルは約１０００〜５０００個になる可能性がある。そのため、モデリングエンジンは、選択されたモデルの性能メトリック（例えば、精度、精度利得など）を用いて、ゲノムデータのタイプ（例えば、ＷＧＳ、発現、ＲＮＡｓｅｑなど）をランク付けして収集することができるであろう。これは、モデリングエンジンが収集されたゲノムデータのタイプに応じてモデルを結果集合に区分することにより、達成される。各結果集合に対する選択された性能メトリック（または他の属性値）を算出することができる（例えば、平均精度利得）。よって、対応する算出されたモデルの性能メトリックに基づいて、各結果集合をランク付けすることができる。本例において、収集するそれぞれのタイプのゲノムデータは、対応するモデルの平均精度利得に従ってランク付けすることができるであろう。このようなランキングにより、モデルの性質がモデル情報の洞察が最も深いところを示唆するため、特定の薬剤を投与された患者に関し収集する最良と思われるゲノムデータのタイプに対する洞察が臨床医に提供される。いくつかの実施形態において、本ランキングは、収集するゲノムデータのタイプ（場合により、マイクロアレイ発現データ、マイクロアレイコピー数データ、ＰＡＲＡＤＩＧＭデータ、ＳＮＰデータ、全ゲノム解析（ＷＧＳ）データ、全エクソーム解析データ、ＲＮＡｓｅｑデータ、タンパク質マイクロアレイデータ、または他のタイプのデータを含む）を示唆する。また、ランク付けされたリストは、第２の、またはさらには第３のメトリックによってランク付けしてもよい。収集するデータタイプのコストおよび／または対応するデータの処理時間が２つの例として挙げられるであろう。このアプローチにより、研究者がアンサンブルのメトリックに基づいて深い洞察を得られる可能性の高いトピックまたはプロジェクト構成を確認することができるため、研究者はターゲットリサーチトピックまたはプロジェクトの最良の一連の行動を決定することができる。

さらに別の例は、モデルメトリックによる薬剤反応のランク付けを含み得る。このような場合、ランク付けされた薬剤反応研究により、追求するターゲットリサーチプロジェクトとして最も興味深いと思われる薬剤反応の領域または化合物についての洞察が得られる。さらに、ランキングは、収集する臨床結果データのタイプを示唆してもよく、なるべくならば、ＩＣ５０データ、ＧＩ５０データ、Ａｍａｘデータ、ＡＣａｒｅａデータ、フィルタリングされたＡＣａｒｅａデータ、最大投与データ、または他のタイプの結果データを含む。さらに、ランキングは、最も興味深いと思われる予測研究の種類を示唆してもよく、場合により、薬剤反応研究、ゲノム発現研究、生存性研究、サブタイプ分析研究、サブタイプ差研究、分子サブタイプ研究、病態研究または他の研究のうちの１つ以上を含む。

以降の各図は、実世界において訓練された１００，０００個超の訓練済みモデル、既知のゲノムデータ集合、およびその対応する既知の臨床結果データ集合のアンサンブルから得られた精度または精度利得性能メトリックに基づいた、様々なリサーチトピックのランキングを示す。以下の図におけるこれらの結果は実世界の例であり、ＢｒｏａｄＩｎｓｔｉｔｕｔｅ´ｓＣａｎｃｅｒＣｅｌｌＬｉｎｅＥｎｃｙｃｌｏｐｅｄｉａ（ＣＣＬＥ；ＵＲＬ：ｗｗｗ．ｂｒｏａｄｉｎｓｔｉｔｕｔｅ．ｏｒｇ／ｃｃｌｅ／ｈｏｍｅを参照）およびＳａｎｇｅｒＩｎｓｔｉｔｕｔｅ´ｓＣａｎｃｅｒＧｅｎｏｍｅＰｒｏｊｅｃｔ（ＣＧＰ；ＵＲＬ：ｗｗｗ．ｓａｎｇｅｒ．ａｃ．ｕｋ／ｓｃｉｅｎｃｅ／ｇｒｏｕｐｓ／ｃａｎｃｅｒ−ｇｅｎｏｍｅ−ｐｒｏｊｅｃｔを参照）から得られた実世界のデータに基づいて本出願人が生成したものである。

図３Ａは、多数の薬剤反応研究に関連する実世界データを含み、薬剤に対応する検証データ集合から生成されたモデルの平均精度によって決定された薬剤反応の予測可能性を示す。精度のみに基づいた場合、全ての訓練されたモデルの平均精度が最高であるため、モデルのアンサンブルがＰＨＡ−６６４７５２に関するデータから学習すべき実質的な情報が存在する旨を示していることから、データは、小分子ｃ−Ｍｅｔ抑制剤であるＰＨＡ−６６５７５２が、さらなる研究の候補となる可能性が高い旨を示唆している。このような候補を追求するための決定は、コスト、精度利得、時間またはパラメータなどを含む他のメトリックまたは要因によってバランスをとることができる。図示の分布は、評価モデルではなく多くの十分に訓練されたモデル間に分布する精度値を表していることが理解されよう。さらに、研究者は、モデリングエンジンと連係して、１つ以上の評価モデルならびに必要に応じて対応するメトリックまたはメタデータまで掘り下げることも可能であろう。

図３Ａにおいて第７位にランク付けされたＤａｓａｔｉｎｉｂに注目されたい。図３Ｂは、図３Ａのデータと同じデータを示す。しかし、これらの薬剤は、精度利得によってランク付けされている。この場合、ＰＨＡ−６６５７５２は、一群の中間まで順位が下り、平均精度利得はほぼゼロである。しかし、チロシンキナーゼ抑制剤であるＤａｓａｔｉｎｉｂは、平均精度利得がゼロよりもはるかに高い約１５％であるため、第７位から第１位へ移動している。このデータは、モデルのアンサンブルが高精度および高い精度利得をもたらす点に鑑みると、Ｄａｓａｔｉｎｉｂがさらなるリソース割当てのより有力な候補である可能性が高いことを示唆している。

図４Ａは、モデルのアンサンブルから得られたメトリックの挙動様態をさらに明確に示す。図４Ａは、モデルのＤａｓａｔｉｎｉｂアンサンブル内のモデルの平均精度のヒストグラムである。モードが比較的高く、Ｄａｓａｔｉｎｉｂがさらなるリソースの適用に好適な候補となり得ることを示している点に留意されたい。換言すれば、Ｄａｓａｔｉｎｉｂに関連するこれらの１８０個のモデルは、集合体のモデルが平均的に十分に学習したことを示す。

図４Ｂは、図４Ａのデータと同一のデータを、モデルのＤａｓａｔｉｎｉｂアンサンブルから得られた平均精度利得をヒストグラムとして示す。ここでも、モードはおよそ２０％と比較的高く、少数のモデルがゼロを下回っている点に留意されたい。薬剤反応研究または薬剤をモデルメトリックに従ってランク付けする本開示のアプローチを用いることは有利であると考えられるが、それは、製薬会社がデータをいかにうまく学習に利用できるかに基づいてリソースを割り当てることについて、エビデンスベースの表示を得られるからである。

Ｄａｓａｔｉｎｉｂの掘り下げの継続に関し、図５Ａは、モデル精度に対してゲノムデータのタイプ（例えば、ＰＡＲＡＤＩＧＭ、発現、ＣＮＶ−コピー数の変化など）の予測を行う様子を示す。データは、ＰＡＲＡＤＩＧＭおよび発現データがＣＮＶよりも有用であることを示唆している。よって、臨床医は、コスト、時間または他の要因を得ることを条件として、集合ＣＮＶに対して、Ｄａｓａｔｉｎｉｂを用いた治療を受けている患者のＰＡＲＡＤＩＧＭまたは発現データを収集する方がより有意義であることを示唆するであろう。

図５Ｂは、図５Ａのデータと同一のデータをよりコンパクトな形で棒グラフとして示す。本グラフでは、高精度で一貫性のある（すなわち、分布が狭い）モデルが得られることから、発現データは収集する最良のタイプのデータである可能性が高いことを明確にしている。

図５Ｃは、精度利得をヒストグラムとして示している点以外、図５Ａのデータと同一のデータを示している。精度利得データを棒グラフで示す図５Ｄによりさらに明確となり、これにより、Ｄａｓａｔｉｎｉｂについて収集する最も有用なデータは発現データである点が強調される。

上記の実施形態の例は特定の薬剤研究から得られたデータを反映するものであり、データは初期状態（例えば、コピー数変化、発現データなど）から最終状態（例えば、薬剤に対する反応）を示す。記載の例において、最終段階は同じままであり、すなわち、治療結果である。しかし、開示の技術は、治療結果のみではなく、患者データに関連する任意の２つの異なる状態に対して等しく適用できる点を理解されたい。例えば、ＷＧＳおよび治療結果のみについてモデルのアンサンブルを訓練するのではなく、例えばＷＧＳおよび中間生物学的プロセス状態または免疫状態、タンパク質発現についてアンサンブルを訓練することができる。よって、本発明の構成は、治療結果のみを必要とするのではなく、より綿密な状態精度を反映するデータ集合からモデルのアンサンブルを構築することも含むものと考えられる。より詳細には、多くの生物学的状態を示す患者データは、治療結果などの巨視的効果によって実際のＤＮＡ配列から収集することができる。企図される生物学的状態情報は、遺伝子配列、突然変異（例えば、単一のヌクレオチド多形性、コピー数変化など）、ＲＮＡｓｅｑ、ＲＮＡ、ｍＲＮＡ、ｍｉＲＮＡ、ｓｉＲＮＡ、ｓｈＲＮＡ、ｔＲＮＡ、遺伝子発現、ヘテロ接合度の欠損、タンパク質発現、メチル化、細胞内相互作用、細胞内活性、試料画像、レセプタ活性、チェックポイント活性、抑制剤活性、Ｔ細胞活性、Ｂ細胞活性、ナチュラルキラー細胞活性、組織相互作用、腫瘍状態（例えば、サイズが減少、変化無し、成長したなど）を含んでいてもよい。特に、これらのうちの任意の２つが、訓練データ集合の構築の基礎として用いられ得る。いくつかの実施形態において、良好に定義されたクラスへデータをクリーニングできない場合、準教師付きまたは教師なしの学習アルゴリズム（例えば、ｋ−ｍｅａｎｓクラスタリングなど）を用いることができる。データの適切なソースは、ＴｈｅＣａｎｃｅｒＧｅｎｏｍｅＡｔｌａｓ（ＵＲＬ：ｔｃｇａ−ｄａｔａ．ｎｃｉ．ｎｉｈ．ｇｏｖ／ｔｃｇａを参照）から入手可能である。

対応するモデルアンサンブルを構築することにより、各生物学的状態（すなわち、初期状態）から得たデータを相互に比較した後、生物学的状態（すなわち、最終状態）と比較することができる。このアプローチが有利であると考えられる理由は、観察される相関に因果関係が発生し得る点についてより深い洞察が得られるからである。さらに、このようなきめ細かいアプローチを用いた場合、どの状態がアンサンブル学習観察に基づいた研究に最も適しているかの一時的な理解を強化することも可能になる。別の観点からは、各状態間の可能性のある相関に対してより高い可視性を与えることにより、任意の２つの状態のモデルアンサンブルを構築することは、発見の機会を提供するものと考えてもよい。このような可視性は、単に相関の観察を行う以上のことに基づいていると理解されたい。すなわち、可視性および／または発見は、上記したような対応するアンサンブルの性能メトリックによって証明される。

治療結果に対し、遺伝子突然変異について研究するシナリオについて検討する。特定の薬剤について、治療結果と比較すると、モデルのアンサンブルが特定の遺伝子に関する任意の有意な学習の証拠に欠ける場合がある。この段階でデータ分析を中止した場合、さらなる洞察が得られなくなる。開示のきめ細かなアプローチを利用すれば、場合によりタンパク質発現またはＴ細胞チェックポイント抑制剤活性を含む様々な異なる生物学的状態においてデータを収集することが可能になる。これらの２つの状態を分析して明らかにすることで、特定の薬剤が存在する場合に、タンパク質発現およびＴ細胞チェックポイント抑制剤活性は相関されるだけでなく、高精度利得の機械学習を高度に修正することも可能であろう。このような洞察は、遺伝子突然変異についてではなく、これらの相関についてさらに研究がなされることが保証される可能性があることを示しているということである。

ここで述べたこと以外に、本願における本発明の概念から逸脱することなくさらに多くの変更が可能であることは、当業者であれば理解されよう。したがって、本発明の構成は、添付の特許請求の範囲の精神以外において限定されるべきものではない。さらに、本明細書および特許請求の範囲のいずれの解釈においても、全ての用語は、文脈に従って最大限広範な様態で解釈されるべきである。とくに、用語「含む」および「含んでいる」は、要素、構成要素または工程を非限定的に指すものと解釈すべきであり、記載した要素、構成要素または工程が存在し、あるいは利用され、または明記されていない他の要素、構成要素または工程と組み合わされてもよいことを示す。本明細書または特許請求の範囲においてＡ、Ｂ、Ｃ・・・およびＮからなる群から選択されたもののうちの少なくとも１つを指す場合、Ａ＋ＮまたはＢ＋Ｎなどではなく、当該群から選択された唯一の要素を必要とするものとして解釈すべきである。

Claims

少なくとも１つのプロセッサと、
該プロセッサと接続された少なくとも１つのメモリとを含み、該少なくとも１つのメモリは、
コーホートから採取された組織試料を示すゲノムデータ集合と、
前記コーホートに関連し治療後の前記組織試料の臨床結果を示す臨床結果データ集合とを保存するように構成され、
前記ゲノムデータ集合および前記臨床結果データは、可能性のある複数のリサーチプロジェクトに関連し、さらに、
前記少なくとも１つのメモリに保存されたソフトウェア命令に従って前記少なくとも１つのプロセッサ上で実行可能な少なくとも１つのモデリングエンジンを含み、該少なくとも１つのモデリングエンジンは、
１組の予測モデルテンプレートを取得し、
該１組の予測モデルテンプレートに基づき、かつ前記ゲノムデータ集合および前記臨床結果データ集合の関数として、訓練された臨床結果予測モデルのアンサンブルを生成し、各訓練された臨床結果予測モデルは、対応する訓練された臨床結果予測モデルの属性を示すモデル特性メトリックを含み、
前記複数の訓練された臨床結果予測モデルの前記予測モデル特性メトリックに応じて、前記可能性のある複数のリサーチプロジェクトから選択された、可能性のあるリサーチプロジェクトのランク付けされたリストをランキング基準に従って生成し、
前記可能性のあるリサーチプロジェクトの前記ランク付けされたリストを装置に提示させるように前記プロセッサを設定することを特徴とする臨床リサーチプロジェクトの機械学習コンピュータシステム。
前記１組の予測モデルテンプレートは、少なくとも１０タイプの予測モデルを含むことを特徴とする請求項１に記載のシステム。
前記１組の予測モデルテンプレートは、線形回帰アルゴリズム、クラスタリングアルゴリズムおよび人工神経回路網の実現体を少なくとも１つ含むことを特徴とする請求項１に記載のシステム。
前記１組の予測モデルテンプレートは、分類アルゴリズムの実現体を少なくとも１つ含むことを特徴とする請求項１に記載のシステム。
前記分類アルゴリズムの前記実現体のうちの少なくとも１つは、準教師付きクラシファイヤを示すことを特徴とする請求項４に記載のシステム。
前記分類アルゴリズムの前記実現体のうちの少なくとも１つは、線形クラシファイヤ、ＮＭＦベースのクラシファイヤ、グラフィカルベースのクラシファイヤ、ツリーベースのクラシファイヤ、ベイジアンベースのクラシファイヤ、規則ベースのクラシファイヤ、ネットベースのクラシファイヤおよびｋＮＮクラシファイヤのうちの少なくとも１つを示すことを特徴とする請求項４に記載のシステム。
前記モデル特性メトリックはモデル精度測定値を含むことを特徴とする請求項１に記載のシステム。
前記モデル精度測定はモデル精度利得を含むことを特徴とする請求項６に記載のシステム。
前記モデル特性メトリックは以下のモデル性能メトリック、すなわち曲線下領域（ＡＵＣ）メトリック、Ｒ^２メトリック、ｐ値、およびシルエット係数のうちの少なくとも１つを含むことを特徴とする請求項１に記載のシステム。
前記ランキング基準は、前記モデル特性メトリックから導出されたアンサンブルメトリックに従って設定されることを特徴とする請求項１に記載のシステム。
前記訓練された臨床結果予測モデルのアンサンブルは、前記ゲノムデータ集合および前記臨床結果データ集合から選択された十分なコーホートデータ集合に対して訓練された、少なくとも１つの十分に訓練された臨床結果予測モデルを含むことを特徴とする請求項１に記載のシステム。
前記臨床結果データは薬剤反応結果データを含むことを特徴とする請求項１に記載のシステム。
前記薬剤反応結果データは、前記複数の薬剤について、ＩＣ５０データ、ＧＩ５０データ、Ａｍａｘデータ、ＡＣａｒｅａデータ、フィルタリングされたＡＣａｒｅａデータおよび最大投与データのうちの少なくとも１つを含むことを特徴とする請求項１２に記載のシステム。
前記薬剤反応結果データは、少なくとも１００種類の薬剤に関するデータを含むことを特徴とする請求項１２に記載のシステム。
前記薬剤反応結果データは、少なくとも１５０種類の薬剤に関するデータを含むことを特徴とする請求項１４に記載のシステム。
前記薬剤反応結果データは、少なくとも２００種類の薬剤に関するデータを含むことを特徴とする請求項１５に記載のシステム。
前記ゲノムデータ集合は、マイクロアレイ発現データ、マイクロアレイコピー数データ、ＰＡＲＡＤＩＧＭデータ、ＳＮＰデータ、全ゲノム配列（ＷＧＳ）データ、ＲＮＡｓｅｑデータ、およびタンパク質マイクロアレイデータのうちの少なくとも１つを含むことを特徴とする請求項１に記載のシステム。
前記可能性のあるリサーチプロジェクトは、前記ゲノムデータ集合に関連して収集されるタイプのゲノムデータを含むことを特徴とする請求項１に記載のシステム。
前記収集されるタイプのゲノムデータは、マイクロアレイ発現データ、マイクロアレイコピー数データ、ＰＡＲＡＤＩＧＭデータ、ＳＮＰデータ、全ゲノム配列（ＷＧＳ）データ、全エクソーム解析データ、ＲＮＡｓｅｑデータ、およびタンパク質マイクロアレイデータのうちの少なくとも１つを含むことを特徴とする請求項１５に記載のシステム。
前記可能性のあるリサーチプロジェクトは、前記臨床結果データ集合に関連して収集されるタイプの臨床結果データを含むことを特徴とする請求項１に記載のシステム。
前記収集されるタイプの臨床結果データは、ＩＣ５０データ、ＧＩ５０データ、Ａｍａｘデータ、ＡＣａｒｅａデータ、フィルタリングされたＡＣａｒｅａデータ、および最大投与データを含むことを特徴とする請求項２０に記載のシステム。
前記可能性のあるリサーチプロジェクトは１種類の予測研究を含むことを特徴とする請求項１のシステム。
前記予測研究の種類は、薬剤反応研究、ゲノム発現研究、生存性研究、サブタイプ分析研究、サブタイプ差研究、分子サブタイプ研究、および病態研究のうちの少なくとも１つを含むことを特徴とする請求項１９に記載のシステム。
前記少なくとも１つのメモリはディスクアレイを含むことを特徴とする請求項１に記載のシステム。
前記少なくとも１つのプロセッサは、ネットワーク上に分散した複数のプロセッサを含むことを特徴とする請求項１に記載のシステム。
非一時的コンピュータ可読メモリに訓練データ集合を保存し、該訓練データ集合は、
ａ）コーホートから採取した組織試料を示すゲノムデータ集合と、
ｂ）前記コーホートに関連する治療後の前記組織試料の臨床結果を示す臨床結果データ集合とを含み、前記訓練データ集合は、可能性のある複数のリサーチプロジェクトに関連し、さらに、
モデリングコンピュータを介して１組の予測モデルテンプレートを取得し、
前記モデリングコンピュータを介して、前記予測モデルテンプレートを前記ゲノムデータ集合および前記臨床結果データ集合の関数として訓練することにより訓練された臨床結果予測モデルのアンサンブルを生成し、各訓練された臨床結果予測モデルは、対応する訓練された臨床結果予測モデルの属性を示すモデル特性メトリックを含み、さらに、
前記モデリングコンピュータを介して、前記複数の訓練された臨床結果予測モデルの前記予測モデル特性メトリックによって決定されたランキング基準に従って、前記可能性のある複数のリサーチプロジェクトから選択された可能性のあるリサーチプロジェクトのランク付けされたリストを生成し、
前記モデリングコンピュータを介して、前記可能性のあるリサーチプロジェクトの前記ランク付けされたリストを装置に提示させることを含むことを特徴とする機械学習結果を生成する方法。
訓練された臨床結果予測モデルのアンサンブルを生成する工程は、前記ゲノムデータ集合および前記臨床結果データ集合に対する機械学習アルゴリズムの複数の実現体を訓練することを含むことを特徴とする請求項２６に記載の方法。
前記機械学習アルゴリズムの複数の実現体は、少なくとも１０タイプの機械学習アルゴリズムを含むことを特徴とする請求項２７に記載の方法。
前記予測モデル特性メトリックは以下の性能メトリック、すなわち曲線下領域（ＡＵＣ）メトリック、Ｒ^２メトリック、ｐ値、精度、精度利得、およびシルエット係数のうちの少なくとも１つを含むことを特徴とする請求項２６に記載の方法。
前記予測モデル特性メトリックはアンサンブルメトリックを含むことを特徴とする請求項２６に記載の方法。
前記可能性のあるリサーチプロジェクトのランク付けされたリストを生成する工程は、前記アンサンブルメトリックに従って前記可能性のあるリサーチプロジェクトをランク付けすることを含むことを特徴とする請求項３０に記載の方法。