JP2018173969A - アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法 - Google Patents

アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法 Download PDF

Info

Publication number
JP2018173969A
JP2018173969A JP2018112693A JP2018112693A JP2018173969A JP 2018173969 A JP2018173969 A JP 2018173969A JP 2018112693 A JP2018112693 A JP 2018112693A JP 2018112693 A JP2018112693 A JP 2018112693A JP 2018173969 A JP2018173969 A JP 2018173969A
Authority
JP
Japan
Prior art keywords
data
model
trained
data set
ensemble
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2018112693A
Other languages
English (en)
Inventor
ゼト,クリストファー
Szeto Christopher
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantomics LLC
Original Assignee
Nantomics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantomics LLC filed Critical Nantomics LLC
Publication of JP2018173969A publication Critical patent/JP2018173969A/ja
Abandoned legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Primary Health Care (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

【課題】アンサンブルに基づいた機械学習エンジンを提供する。
【解決手段】リサーチプロジェクト・レコメンデーションシステム100は、既知のゲノムデータ集合および対応する既知の臨床結果データ集合に対して訓練された訓練済み機械学習モデルのアンサンブルを生成する。各モデルは、その性能メトリックまたは訓練済みモデルの性質を示す他の属性に従って特徴付けられる。モデルの属性は、1つ以上の可能性のあるリサーチプロジェクトにも関連し、該リサーチプロジェクトは、場合により、薬剤反応研究、薬剤または化合物の研究、収集されるデータのタイプまたは他のトピックを含む。可能性のあるリサーチプロジェクトは、可能性のあるリサーチプロジェクトと共通する属性を有するモデルの性能または特性メトリックに従ってランク付けできる。モデルメトリックによる高いランキングを有するプロジェクトは、最も深い洞察が得られる可能性の高い対象とみなす。
【選択図】図1

Description

発明の分野
本願は、2015年3月3日に出願された米国特許仮出願第62/127546号の優先権の利益を主張するものである。本明細書中、上記出願および他の全ての外部文献を参照により本願に取り込む。
本発明は、アンサンブルに基づいた機械学習技術に関するものである。
背景
背景技術に関する記載には、本発明の構成の理解に役立ち得る情報を含む。本明細書に記載の情報はいずれも、ここに述べる発明の構成に対する先行技術もしくは関連技術であると認めるものではなく、または明示的または暗示的に言及した任意の文献が従来技術であると認めるものでもない。
コンピュータに基づいた機械学習技術の使用は、「ビッグデータ」への関心に伴いここ数年増加し続け、データ集合は人間が吸収できる量を軽く凌駕している。機械学習アルゴリズムにより、研究者は、適度な時間でデータ集合の選別を行って、パターンを発見したり、または予測を行うことのできるデジタルモデルを構築したりすることができる。典型的には、研究者は、特定のタイプのアルゴリズムを用いて、特定の質問に回答する。このアプローチは、分析データ集合の性質がアルゴリズムに固有の基盤となる数学的仮説に整合する特定のタスクに対して、極めて有用である。例えば、2つのカテゴリに簡単に分類可能な大規模データ集合は、幾何学的仮説に基づいた分類に特化して設計されたサポートベクトルマシン(SVM)によって分析を行うことが最良であろう。特定の分析タスクが特定のアルゴリズムの恩恵を受ける場合もあるものの、明確性の低い、または基盤となる数学的仮説とアルゴリズムとの整合が低いデータを有するより一般的なプロジェクトに対してこのようなアルゴリズムを適用した場合、問題が発生する可能性がある。
特定のアルゴリズムをより一般的なデータに対して用いた場合の1つの問題として、アルゴリズムの基盤となる数学的仮説が、アルゴリズムをデータに適用することで得られる結論に対して悪影響を与える恐れがある。換言すると、異なるタイプのアルゴリズムから得られた結果は、同じデータ集合に適用した場合であっても相互に異なる。そのため、アルゴリズムの仮説が出力に影響し、その結果、データの性質がアルゴリズムの基盤となる仮説と理想的に整合しない場合、研究者の結論が不明確または不確実になる可能性がある。このようなシナリオにおいて、研究者は、アルゴリズム仮説から不確実な結論が導き出される可能性を低減する技術を必要とする。
研究者がアルゴリズム仮説に起因する危険性を低減できると仮定したとしても、特に多くの異なるトピックについて様々なデータ集合に直面したとき、および限られたリソース(例えば、費用、時間、演算能力など)に鑑みてリサーチが行われるいくつもの可能性のある方向に直面したとき、そのリサーチにおいて1つ以上の大きな問題に遭遇する可能性が高い。以下に、研究者が多くの異なる薬剤研究に関連する数百個の異なる臨床データ集合へのアクセスを有するシナリオについて検討する。ここで、研究者は、どの薬剤が継続的リサーチの対象であるかを、利用可能なデータに基づいて判断する課題を有していると想定する。推奨される一連の行動を発見することは、極めて退屈な研究課題となる場合もある。研究者は、各薬剤研究について各データ集合を検討して、各データ集合に最適な機械学習アルゴリズムのタイプを決定できるであろう。研究者は、各データ集合を用いて、当該データ集合に対応する選択された特定の機械学習アルゴリズムを調整する。単純なことに、次に研究者がすることは、得られた調整モデルの予測精度を相互に比較し、最も高精度と思われる調整モデルを有する薬剤を選択することである。
残念なことに、各訓練されたアルゴリズムは、なおも、その固有の仮説に関連する危険性にさらされている。研究者は最適なアルゴリズムをデータ集合と整合させようとするものの、このようなマッチングが理想的であることは稀であり、この場合でも未だ、意図的ではないにしろ研究者の先入観の影響を受ける。さらに、単一のデータ集合に対する訓練されたアルゴリズムの精度は、交差分割検証を考慮したとしても、訓練されたアルゴリズムが過学習の場合、信頼性に欠ける恐れがある。例えば、訓練されたアルゴリズムは、調整データに対して100%の精度を持ち得るものの、それでもなお、現実を高精度に反映できないかもしれない。多数のデータ集合が存在し、関心を持つべき方向も多数存在する場合、可能性が最も高い学習利得が得られる方向において洞察を得られることが望ましい。より良いアプローチとして、使用するアルゴリズムを選択する際の考えられる研究者の先入観を排除しつつ、過学習となり得るアルゴリズムをさらに考慮して、アルゴリズム仮説に関連する危険性を低減させる。
特定のトピックに対して最良の情報を提供し得るモデルを決定するために、ある取り組みが提案されている。例えば、米国特許出願公開公報第2014/0199273号(Cesano他による、発明「Methods for Diagnosis, Prognosis, and Methods of Treatment」、2013年11月21日出願)において、ヘルスケア設定における予測または予後予想において用いられるモデルの選択について検討している。Cesanoは、複数のモデルからあるモデルを選択することについて検討しているものの、Cesanoの場合、単なる予測出力の範囲を越えていかにモデルを活用できるかについての洞察を提示していない。
米国特許出願公開公報第2012/0010866号(Ramnarayanによる発明「Use of Computationally Derived Protein Structures of Genetic Polymorphisms in Pharmacogenomics for Drug Design and Clinical Applications」、2011年4月26日出願)に記載のように、予測モデルではなくコンピュータに基づいた分子構造モデルの使用において、さらなる進歩があったように見受けられる。Ramnarayanは、タンパク質構造変異体の3Dモデルの生成と、変異体に十分に整合し得る薬剤の決定とについて検討している。その結果、これらのモデルを用いて、薬剤モデルがいかに良好にタンパク質に整合するかに基づいて、見込みのある薬剤候補をランク付けすることができる。しかし、Ramnarayanも、リサーチリソースの割当て先の決定に活用可能な予測結果モデルの生成ではなく、依然として、3Dモデル自体およびその使用法に焦点を当てている。
米国特許出願公開公報第2004/0193019号(Weiによる出願「Method for Predicting an Individual’s Clinical Treatment Outcome from Sampling a Group of Patient’s Biological Profiles」、2003年3月24日出願)において、結果モデルのより典型的な使用例について検討している。Weiは、判別分析に基づいたパターン認識を用いて、生物学的プロファイル情報を治療結果情報と相関付けるモデルを生成することを検討している。この予想モデルは、治療に対して起こり得る反応をランク付けするために用いられる。Weiの場合、単に、予測結果モデルを構築して、患者固有のプロファイル情報に基づいて想定される結果の評価を作成する。また、Weiは、モデルが出力だけでなく数値も有して、単に生成されたモデルから得られた出力を利用するのではなく、数値を提供し得るリサーチの種別についてより深い洞察を提示することについて評価していない。
研究者または他の利害関係者は、最もリターンの大きいと思われる予想される方向の目安となる上にモデル間の仮定も改善し得るアンサンブル予測モデル(すなわち、訓練されたアルゴリズム)から得られる別の情報にアクセスできることが理想的である。そのため、多くの異なるタイプの予測モデルから生成されたモデルのアンサンブルの性質に基づく最も多くの情報を提供し、多くのデータ集合に関連するリサーチプロジェクトについての洞察を提供可能な機械学習システムが、なおも求められている。
本明細書中に特定される全ての公開文献は、個々の公開文献または特許出願が具体的かつ個別に参照により取り込まれるのと同程度まで、参照により取り込む。取り込んだ文献における定義または用語の使用が本明細書中に記載される当該用語の定義と矛盾したり逆の定義であったりする場合、本明細書中に記載の当該用語の定義を適用し、当該文献中の用語の定義は適用しない。
いくつかの実施形態において、例えば、成分、濃度などの特性および反応条件の数量を表す数値が本発明の構成の特定の実施形態を説明し請求の範囲に記載するために用いられ、いくつかの例において「約」という用語によって修正されるものと理解されたい。よって、いくつかの実施形態において、本明細書および添付の特許請求の範囲に記載の数値パラメータは近似値であり、特定の実施形態によって得られるであろう所望の特性に応じて変化する場合もある。いくつかの実施形態において、これらの数値パラメータは、記載した有効桁数に鑑みて、また通常の丸め方式を適用して解釈すべきである。記載の数値範囲およびパラメータ設定に関わらず、本発明の構成の広範にわたるいくつかの実施形態の範囲は近似値であり、特定の例に記載される数値は、実行可能なものとして正確に報告される。本発明の構成のいくつかの実施形態で示される数値は特定の誤差を含む場合があるが、これらの誤差は、必ずしも各試験測定に見受けられる標準偏差から得られたものではない。
文脈上特に指示しない限り、本明細書中に記載の全ての範囲値は、その端点を含むものと解釈すべきであり、端点のない範囲とは、商業的に実施可能な値のみを含むものと解釈すべきである。同様に、リスト表示した数値は全て、特に明記しない限り、中間値を含むものとみなすべきである。
本明細書の記載および後述の特許請求の範囲全体において用いられるように、単数扱いの用語は、非特定と特定とを問わず、文脈上特に指示しない限り、複数の対象を含むものとする。また、本明細書の記載において用いられるように、「〜の中に」とは、文脈上特に指示しない限り、「〜の中に」および「〜に接して」を含む。
本明細書において、値の範囲の記載は、その範囲内に収まる個別の値を個々に言及する簡略的手段の役割を果たすことを意図しているにすぎない。本明細書中に特に明記しない限り、それぞれの個別の値は、それが本明細書中に個々に記載されているかの如く、本明細書中に組み入れる。本明細書中に記載した方法はすべて、本明細書中に特に明記しない限り、または文脈から明らかに矛盾しない限り、任意の適切な順序で行うことが可能である。任意の全ての例、または例示的な表現(例えば、「など」)が本明細書中の特定の実施形態に対して用いられた場合、それはあくまで本発明の構成をより明確にすることを意図しているにすぎず、特に明記しない限り、本発明の構成の範囲を制限するものではない。本明細書中のいずれの表現も、特許請求の範囲に記載はないが本発明の構成の実施に不可欠な何らかの要素を示すものと解釈すべきではない。
本明細書に開示される本発明の構成の代替的要素もしくは実施形態を分類することを限定と解釈すべきではない。各群構成要素は、個別に、あるいはその群の他の構成要素もしくは本明細書に記載される他の構成要素との任意の組合せにおいて、言及し、または請求項に記載してもよい。ある群の1つ以上の構成要素を、便宜的理由および/または特許性の理由から他の群に含めてもよく、または除外してもよい。なんらかのこのような包含または除外がなされた場合、本明細書は修正された群を含むものとみなし、よって、添付の特許請求の範囲に用いられる全てのマーカッシュタイプの群の記載を満たすものとする。
概要
本発明の構成は、機械学習コンピュータシステムが、生成された訓練された機械学習モデルのアンサンブルに基づいて、可能性のあるリサーチプロジェクト(例えば、薬剤分析など)に関するランキングまたは推奨を生成することを可能にする装置、システムおよび方法を提供するものである。本発明の構成の1つの態様は、リサーチプロジェクト機械学習コンピュータシステム(例えば、コンピュータ装置、協働する分散型コンピュータ装置)を含み、リサーチプロジェクト機械学習コンピュータシステムは、少なくとも1つの非一時的コンピュータ可読メモリ(例えば、フラッシュメモリ、RAM、HDD、SSD、RAID、SAN、NASなど)、少なくとも1つのプロセッサ(例えば、CPU、GPU、Intel(登録商標)i7(登録商標)、AMD(登録商標)Opteron(登録商標)、ASIC、FPGAなど)および少なくとも1つのモデリングコンピュータまたはエンジンを含む。メモリは、ヘルスケアデータに関連する情報を表す1つ以上のデータ集合を保存するように構成される。より詳細には、これらのデータ集合は、コーホート患者母集団に関連する1つ以上の組織試料から得られるゲノム情報を表すゲノムデータ集合を含んでいてもよい。よって、ゲノムデータ集合は、数百人、数千人またはそれ以上の数の患者から得たゲノムデータを含むこともできよう。また、データ集合は、コーホートに対する治療結果を示す1つ以上の臨床結果データ集合を含んでいてもよい。例えば、臨床結果データ集合は、ゲノムデータがゲノムデータ集合中にも存在する1人以上の患者の薬剤反応データ(例えば、IC50、GI50など)を含んでいてもよい。さらに、データ集合は、1つ以上の可能性のあるリサーチプロジェクト、すなわち、分析研究の種類、収集するデータのタイプ、予測研究、薬剤、または他の対象となるリサーチトピックに関連する1つ以上の側面を表すメタデータまたは他の特性を含んでいてもよい。モデリングエンジンまたはコンピュータは、メモリに保存されたソフトウェア命令に従ってプロセッサ上で動作して、少なくともゲノムデータ集合および臨床結果データ集合から予測モデルのアンサンブルを構築するように構成される。モデリングエンジンは、可能性のある機械学習アルゴリズム(例えば、クラスタリングアルゴリズム、分類アルゴリズム、神経回路網)の実現体を示す1つ以上の予測モデルテンプレートを取得するように構成される。モデリングエンジンまたはコンピュータは、ゲノムデータ集合および臨床結果データ集合を予測モデルテンプレートに対する訓練入力として用いることにより、訓練された臨床結果予測モデルのアンサンブルを生成する。いくつかの実施形態において、アンサンブルは、数千個、数万個またはさらには数十万個以上の訓練されたモデルを含むこともできよう。訓練されたモデルはそれぞれ、各モデルの1つ以上の性能測定または他の属性を示すモデル特性メトリックを含んでいてもよい。モデル特性メトリックは、対応するモデルの性質を表すものと考えることができる。メトリックの例として、精度、精度利得、シルエット係数または他のタイプの性能メトリックがある。次に、このようなメトリックは、入力データ集合の性質または属性と相関付けてもよい。ゲノムデータ集合および臨床結果データ集合がこのような属性を可能性のあるリサーチプロジェクトと共有する点に鑑みれば、これらのモデルから得られたメトリックを用いて、可能性のあるリサーチプロジェクトをランク付けすることができる。モデル特性メトリック、特にアンサンブルメトリックに従ってリサーチプロジェクトをランク付けすることにより、生成されたモデルによって証明されるような有用な情報をどのプロジェクトが生成できるのかの表示を与えることができる。
本発明の構成の様々な目的、特徴、態様および利点については、以下の好適な実施形態の詳細な説明ならびに添付図面から、より明確になるであろう。図中、類似の参照符号は、類似の構成要素を指す。
リサーチプロジェクト・レコメンデーションシステムの概要図である。 結果予測モデルのアンサンブルの生成を示す図である。 多数の薬剤に関する検証データ集合から生成されたモデルの平均精度によってランク付けされた薬剤反応の予測可能性を示す図である。 多数の薬剤に関する検証データ集合から生成されたモデルの平均精度によって再ランク付けし、図3Aで得られた薬剤反応の予測可能性を示し、また、Dasatinibが興味深いリサーチ対象であることを示唆する図である。 Dasatinibに関連するデータを示すモデルのアンサンブル中のモデルの平均精度のヒストグラムである。 図4Aから得られたデータを、Dasatinibに関連するデータを示すモデルのアンサンブル中のモデルの平均精度利得のヒストグラムとして示す図である。 Dasatinibに対するあるタイプのゲノムデータ集合の予測可能性を精度のヒストグラムとして示す図である。 図5Aから得られたデータを単純に精度の棒グラフとして示す図である。 図5Aから得られたデータを示し、Dasatinibに対するあるタイプのゲノムデータ集合の予測可能性を精度利得のヒストグラムとして示す図である。 図5Cから得られたデータを単純に精度利得の棒グラフとして示す図である。
詳細な説明
コンピュータについて言及する場合、サーバ、インターフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、または個々もしくは集合的に動作する他のタイプのコンピュータ装置を含むコンピュータ装置の任意の適切な組み合わせを含むものとして読むべきである点に留意されたい。コンピュータ装置は、実体的な非一時的コンピュータ可読記憶媒体(例えば、ハードドライブ、RAID、NAS、SAN、FPGA、PLA、ソリッドステートドライブ、RAM、フラッシュメモリ、ROMなど)上に保存されたソフトウェア命令を実行するように構成された、少なくとも1つのプロセッサを含むことを理解されたい。ソフトウェア命令は、コンピュータ装置を構成して、または換言すればプログラムして、開示した装置に関して後述するような役割、責任または他の機能を提供する。さらに、本開示の技術は、コンピュータに基づいたアルゴリズム、処理、メソッドまたは他の命令の実現体に関連する開示したステップをプロセッサに実行させるソフトウェア命令を保存する非一時的コンピュータ可読媒体を含むコンピュータプログラム製品として具現化することができる。いくつかの実施形態において、様々なサーバ、システム、データベースまたはインターフェースは、標準プロトコルまたはアルゴリズムを用いて、できればHTTP、HTTPS、AES、公開/秘密鍵交換、ウェブサービスAPI、公知の金融取引プロトコルまたは他の電子情報交換方法に基づいて、データ交換を行う。装置間のデータ交換は、パケット交換ネットワーク、インターネット、LAN、WAN、VPN、または他のタイプのパケット交換ネットワーク、回線交換ネットワーク、セル交換ネットワーク、または他のタイプのネットワークを介して行ってもよい。
本明細書の記載および後述の特許請求の範囲において用いられるように、システム、エンジン、サーバ、装置、モジュールまたは他のコンピューティング要素がメモリ中のデータに対して機能を実施または実行するように構成されたものとして記述される場合、「〜するように構成される」または「〜するようにプログラムされる」という表現は、1つ以上のプロセッサまたはコンピューティング要素のコアが、対象データまたはメモリに保存されたデータオブジェクトに対して1組の機能を実行するように、コンピューティング要素のメモリに保存された1組のソフトウェア命令によってプログラムされていることを意味する。
以下の記載では、本発明の構成の様々な実施形態の例を提示する。各実施形態は本発明の要素の単一の組み合わせを示しているが、本発明の構成は、開示の要素の可能な組み合わせを全て含むものと考えられる。よって、ある実施形態が要素A、BおよびCを含み、別の実施形態が要素BおよびDを含む場合、本発明の構成も、たとえ明確に開示されていなくても、A、B、CまたはDからなる他の残りの組み合わせを含むものと考えられる。
本明細書において用いられるように、文脈上特に指示しない限り、用語「〜に接続される」は、直接的な接続(2つの要素が互いに接触して相互につながれる)および間接的な接続(少なくとも1つの別の要素が2つの要素間に配置されている)のどちらも含むことを意図している。よって、用語「〜に接続される」および「〜と接続される」は同義に用いられる。さらに、ネットワークコンピュータ装置の関連において、用語「〜に接続される」および「〜と接続される」は、複数の装置が相互の接続(例えば、有線、無線など)を介して通信を行える伝達を意図している。
開示した技術は、数々の入力訓練データ集合に基づいて訓練された予測結果モデルを生成する協働プロセッサを含む多くの技術的利点を有することが理解されよう。コンピューティングシステムのメモリは、多数の装置間にわたって分散して入力訓練データ集合を保存するように仕切ることにより、全装置が協働してモデルのアンサンブルを生成してもよい。いくつかの実施形態において、本発明の構成は、複数のコンピュータが連係して通信を行い、機械学習環境の支援を行なえるようにする分散型コンピューティングシステムの構築に重点をおいているものと考えられる。さらに、開示の本発明の構成の技術的効果は、訓練されたモデルのアンサンブルなどを含む1つ以上の訓練されたモデルの性能メトリックとターゲットリサーチの対象とを相関付けることを含むものと考えられる。このような相関は、解釈が困難なデータと機械学習モデルのタイプごとの可能性のある固有の対向バイアスとに基づいて、このような対象が成功する裕度を増加させるものと考えられる。
開示の本発明の構成の目的は、コンピュータ装置を構築または構成して、極めて多量のデジタルデータに対して人間の能力を越えて動作できるようにすることである。デジタルデータはゲノムおよび治療結果の機械訓練されたコンピュータモデルを表すことが可能であるが、デジタルデータは、実際のアイテムではなく、このような実世界のアイテムの1つ以上のデジタルモデルを示すものであることが理解されよう。すなわち、本明細書に開示するように、装置を適切に構成またはプログラムし、コンピュータ装置のメモリ中のこのようなデジタルモデルをインスタンス化することで、コンピュータ装置は、デジタルデータまたはモデルを人間の能力を越えて管理することができる。さらに、コンピュータ装置は、このような構成なしに先験的な能力を持つことはない。開示したコンピュータに基づいたツールを生成することにより、ツールが、有益な洞察または結果をもたらす可能性のあるリサーチ領域において根拠に基づく洞察を得ることに関し、このようなツールを持たないコンピュータ装置のユーザに対してさらなる有用性をもたらす。
以下の開示において、ゲノムデータから様々なリサーチ状況(例えば、薬剤反応、収集するデータのタイプなど)下における可能性のある治療結果への対応性を示す多数の訓練されたモデルをインスタンス化するように構成され、またはプログラムされた、コンピュータに基づいた機械学習システムについて述べる。これらのモデルは、大量のデータについて訓練される。例えば、多数の患者から得たゲノムデータを同じ患者の治療結果と組み合わせて、訓練データ集合を生成する。訓練データ集合は、1つ以上のモデルテンプレートに供給され、機械学習アルゴリズムが実現される。これにより、機械学習システムは、対応する訓練されたモデルを生成し、これらのモデルは、新しいゲノムデータに基づいて可能性のある治療結果を予測するために用いることもできよう。しかし、本発明の構成は、結果予測ではなく、訓練されたモデルのアンサンブルに焦点を当てている。可能性のある治療結果の予測の域を越えて、訓練されたモデルの集合、より厳密には訓練されたモデルのアンサンブルによって洞察を得ることができ、リサーチ状況またはプロジェクトから、訓練されたモデルのアンサンブルにおいて測定された1つ以上のモデル性能メトリックまたは他の特性メトリックによって決定された最も洞察的な情報を生成し得ることが理解されよう。よって、開示のシステムは、モデルの予測結果ではなくモデルのアンサンブルに関し、コンパイルされた統計に基づいた最高値であろうリサーチプロジェクトを推奨することができる。
図1は、コンピュータベースのリサーチプロジェクト・レコメンデーションシステム100を示す。図では、単一のメモリおよび単一のプロセッサを含んでいるが、メモリ120は、複数のコンピュータ装置間に分散した分散型メモリを含んでいてもよいことは理解されよう。メモリ120の例を挙げると、RAM、フラッシュメモリ、SSD、HDD、SAN、NAS、RAID、ディスクアレイまたは他のタイプの非一時的コンピュータ可読媒体がある。同様に、プロセッサ150を単一のユニットとして図示しているが、プロセッサ150は、シングルコア、マルチコア、プロセッサモジュール(例えば、サーバブレードなど)、または、さらにはネットワークコンピュータプロセッサなどの他のプロセッサ構成を婉曲的に指す。システム100は、場合によりApache(登録商標)Hadoopに基づいて、分散型コンピューティングシステムで実現することも可能であろう。このようなシステムでは、Hadoop分散型ファイルシステム(HDFS)を、関連するネットワークコンピュータのメモリと共にサポートする記憶装置がメモリ120として動作するであろう。さらに、クラスタの各コンピュータのプロセッサはそれぞれ、プロセッサ150として一体的に動作する。開示のシステムによって処理されたデータ集合の大部分が極めて大きい(例えば、サイズが100GBを超える)場合があることを考えると、開示のコンピューティングシステムは、このようなツールを、複数のコンピュータ間に仕事量を分散させるオープンソースの分散型リソースバッチ処理システムであるグリッドエンジンとして利用することができる。また、開示のシステムは、クラウド方式で実現される有償サービスとしても動作可能であることも理解されよう。このような動作をサポートできるクラウドベースのインフラストラクチャの例を挙げると、AmazonAWS、Microsoft Azure、Google Cloud、または他のタイプのクラウドコンピューティングシステムがある。本明細書に記載の例は、Pythonにおいて実現されるPypelineと呼ばれる特許で保護されたワークロードマネージャに基づいて生成されたものであり、Slurmワークロードマネージャ(URL:slurm.schedmd.comを参照)を利用する。
メモリ120は、複数のデータ集合の保存場所として動作するように構成される。データ集合は、プロセッサ150にとって局所的な記憶装置上に保存してもよいし、あるいは、場合により、ネットワーク(図示せず;例えば、LAN、WAN、VPN、インターネット、イントラネットなど)を介するプロセッサ150が利用可能な複数の記憶装置間に保存してもよいことは理解されよう。2つの特定のデータ集合は、ゲノムデータ集合123および臨床結果データ集合125を含む。どちらのデータ集合も、組み合わせた場合、訓練データを作成し、訓練データは、以下に述べるような訓練されたモデルの生成に用いられる。
ゲノムデータ集合123は、例えば乳癌患者の群であるコーホートから採取した組織試料を示すゲノム情報を示す。また、ゲノムデータ集合123は、ゲノム情報の異なる側面を含んでいてもよい。いくつかの実施形態において、ゲノムデータ集合123は、以下のタイプのデータ、すなわち、全ゲノム解析(WGS)、全エクソーム解析(WES)データ、マイクロアレイ発現データ、マイクロアレイコピー数データ、PARADIGMデータ、SNPデータ、RNAseqデータ、タンパク質マイクロアレイデータ、エクソーム解析データ、または他のタイプのゲノムデータのうちの1つ以上含んでいてもよいであろう。一例として、ゲノムデータ123は、100人、1000人、もしくはそれ以上の患者から得た乳癌腫瘍のWGSを含んでいてもよいであろう。ゲノムデータ集合123は健康な組織に関連するゲノム情報をさらに含んでいてもよく、よって、ゲノムデータ集合123は、疾病組織についての情報を、マッチした平均値と共に含んでいてもよい。多数のファイルフォーマットを用いてゲノムデータ集合123を保存することも可能であり、フォーマットの例をいくつか挙げると、VCF、SAM、BAM、GAR、BAMBAMなどがある。PARADIGMおよび経路モデルの生成および使用については、米国特許出願公開公報US2012/0041683号(Vaske他による発明「Pathway Recognition Algorithm Using Data Integration on Genomic Models (PARADIGM)」、2011年4月29日出願)、米国特許出願公開公報US2012/0158391号(Vaske他による発明「Pathway Recognition Algorithm Using Data Integration on Genomic Models (PARADIGM)」、2011年10月26日出願)、および国際特許出願公開公報WO2014/193982号(Benz他による発明「PARADIGM Drug Response Network」、2014年5月28日出願)に記載されている。BAMBAM技術については、米国特許出願公開公報第2012/0059670号(「BAMBAM: Parallel Comparative Analysis of High−Throughput Sequencing Data」、2011年5月25日出願)、および第2012/0066001号(「BAMBAM: Parallel Comparative Analysis of High−Throughput Sequencing Data」、2011年11月18日出願)に記載されている。
また、臨床結果データ集合125はコーホートに関連し、治療後、例えば新規薬剤の投与後のコーホートの組織試料の測定された臨床結果を示す。臨床結果データ集合125は、コーホート内の多数の患者から得たデータを含むことも可能であり、また患者識別子によってインデックスを付けて、臨床結果データ集合125の患者の結果データが確実にゲノムデータ集合123の同一患者のゲノムデータと正確に同期されるようにすることも可能である。ゲノムデータ集合123を構成可能な多数の異なるタイプのゲノムデータがあるように、多様な臨床結果データ集合もある。例えば、臨床結果データ集合125は、薬剤反応データ、生存データ、または他のタイプの結果データを含んでいてもよいであろう。いくつかの実施形態において、薬剤反応データは、IC50データ、GI50データ、Amaxデータ、ACareaデータ、フィルタACareaデータ、最大投与データなどを含んでいてもよいであろう。さらに、臨床結果データ集合は、多数の臨床試験において適用された100種類、150種類、200種類またはそれ以上の薬剤から得られた薬剤反応データを含んでいることもあるであろう。より具体的な例として、タンパク質データは、MDアンダーソンがんセンターから得たMDA RPPAコアプラットフォームを含んでいてもよいであろう。
データの他の側面の中でも、特に各データ集合は、臨床またはリサーチプロジェクトの側面を示す。ゲノムデータ集合123について、収集されたデータの性質またはタイプは、対応するリサーチプロジェクトのパラメータを示す。同様に、臨床結果データ集合125について、対応するリサーチプロジェクトパラメータは、収集する薬剤反応データのタイプ(例えば、IC50、GI50)、研究中の薬剤、あるいは対応するリサーチプロジェクトに関連する他のパラメータまたは属性を含んでいてもよいであろう。このような要素は将来注目され得る分野であるため、これらの要素に留意されたい。訓練されたモデルのアンサンブルの生成後、これらの要素をアンサンブル統計に関し分析して、どの要素が可能性のある候補を示すかという洞察を得ることができる。
図1に示す例において、メモリ120に保存されたリサーチプロジェクト150は、可能性のあるリサーチの態様を示すデータ構造または記録オブジェクトを示す。いくつかの実施形態において、リサーチプロジェクト150は、1組の属性値ペアに基づいて定義してもよい。属性値ペアは名前空間に関連するものでよく、名前空間は、可能性のあるリサーチプロジェクトを記述し、パラメータまたは属性をゲノムデータ集合123または臨床結果データ集合125と共有する。データ集合間において共通の名前空間を利用することにより、データ集合間の可能性のある相関を得ることが可能になる。さらに、リサーチプロジェクト150は、メタデータと考えられる属性値ペアを含んでいてもよく、メタデータは、収集されたデータの実際の性質に直接関連するのではなく、むしろデータ集合とは少なくとも逸脱して関連するリサーチタスクまたは予測タスクに、より直接的に関係している。リサーチタスクメタデータの例を挙げると、データ収集、予測学習、研究者、許可情報、または他のリサーチプロジェクト情報に係る費用が含まれる場合もある。構築可能なモデルの予測研究に関し、予測研究には広い分野の研究が含まれていてもよく、例えば、薬剤反応研究、ゲノム発現研究、生存性研究、サブタイプ分析研究、サブタイプ差研究、分子サブタイプ研究、病態研究または他の種類の研究が含まれていてもよい。開示のアプローチを用いれば、入力訓練データの性質を共有属性またはブリッジング属性を介して可能性のあるリサーチプロジェクトの性質へ接続することが可能になることを理解されたい。
メモリ120またはメモリ120の一部は、1つ以上の予測モデルテンプレート140も含んでいてもよい。予測モデルテンプレート140は、特定の特徴がありながら対応するアルゴリズムの実現体を示す未訓練の、すなわち「空白の」モデルを示す。モデルテンプレートの一例として、SVMライブラリまたは実現可能なモジュールとして保存されたサポートベクトルマシン(SVM)クラシファイヤを含み得る。システム100がゲノムデータ集合123および臨床結果データ集合125を利用してSVMモデルを訓練する場合、システム100は、既知のゲノムデータ集合123および既知の結果データ集合125に基づいて訓練され、またはさらには十分に訓練されたSVMモデルをインスタンス化するものと考えられる。したがって、十分に訓練されたモデルの構成パラメータは、訓練されたモデルのインスタンスとしてメモリ120に保存することができる。構成パラメータは、モデルのタイプによって異なるが、要素重みの集合と考えられる。いくつかの実施形態において、予測モデルテンプレート140は、少なくとも異なる5タイプのモデル、少なくとも異なる10タイプのモデル、またはさらには15タイプを超える異なるモデルを含む。例示的なモデルのタイプを挙げると、線形回帰モデルテンプレート、クラスタリングモデルテンプレート、クラシファイヤモデル、教師なしモデルテンプレート、人工神経回路網テンプレート、またはさらには準教師付きモデルテンプレートがある。
予測モデルテンプレート140の少なくともいくつかのソースは、scikit−learn(URL:www.scikit−learn.orgを参照)によって利用可能なものを含み、scikit−learnは、様々なクラシファイヤなどを含む様々な異なるモデルテンプレートを含む。クラシファイヤのタイプも極めて多岐にわたり、線形クラシファイヤ、NMFベースのクラシファイヤ、グラフィカルベースのクラシファイヤ、ツリーベースのクラシファイヤ、ベイジアンベースのクラシファイヤ、規則ベースのクラシファイヤ、ネットベースのクラシファイヤ、kNNクラシファイヤまたは他のタイプのクラシファイヤのうちの1つ以上を含んでいてもよい。より詳細な例を挙げると、NMF予測器(線形)、SVMlight(線形)、SVMlight一次多項式カーネル(d次多項式)、SVMlight二次多項式カーネル(d次の多項式)、WEKASMO(線形)、WEKAj48ツリー(ツリーベース)、WEKAハイパーパイプ(分布ベース)、WEKAランダムフォレスト(ツリーベース)、WEKA単純ベイズ(確率的/ベイズ)、WEKAJRip(規則ベース)、glmnet lasso(疎線形)、glmnetリッジ回帰(疎線形)、glmnetエラスティックネット(疎線形)、人工神経回路網(例えば、ANN、RNN、CNNなど)などがある。予測モデルテンプレート140の他のソースを挙げると、MicrosoftのCNTK(URL:github.com/Microsoft/cntkを参照)、TensorFlow(URL:www.tensorflow.comを参照)、PyBrain(URL:pybrain.orgを参照)、または他のソースがある。
それぞれのタイプのモデルは、得られる訓練されたモデルが同一データに対して訓練されたとしても、他のタイプの訓練されたモデルに対してどのように機能するかを左右し得る固有のバイアスまたは仮説を含むことが理解されよう。発明者らは、できるだけ多くの合理的なモデルを利用することにより、モデルを選択する際に、このような仮説またはバイアスへの露出を低減する助けとなることを認識した。したがって、本発明の構成は、特にモデルテンプレート仮説の影響を受け易いリサーチ対象に対し、10タイプ以上のモデルテンプレートを使用することを含むものと考える。
メモリ120またはメモリ120の一部は、1つ以上のプロセッサ150上で実行可能な1つ以上のモデリングコンピュータまたはエンジン135を表すモデリングエンジンソフトウェア命令130も含んでいてもよい。モデリングエンジン135は、多数の訓練された予測結果モデルを予測モデルテンプレート140から生成する役割を持つ。基本的な例として、予測モデルテンプレートが2タイプのモデル、すなわち、SVMクラシファイヤおよびNMF予測器を含むシナリオについて考えてみる(米国仮特許出願第61/919,289号:2013年12月20日出願、および対応する国際出願WO2014/193982号:2014年5月28日出願を参照)。ここで、ゲノムデータ集合123および臨床結果データ集合125が150種類の薬剤から得られたデータを示すものとする。モデリングエンジン135は、コーホートデータ集合を用いて、150種類の薬剤全てに対する1組の訓練されたSVMモデルと、150種類の薬剤全てに対する1組の訓練されたNMF予測器モデルとを生成する。よって、モデリングエンジン135は、2つのモデルテンプレートから、300個の訓練された予測モデルを生成するか、または他の場合、インスタンス化する。モデリングエンジン135の一例は、国際特許出願公開公報WO2014/193982号(「Paradigm Drug Response Network」、2014年5月28日出願)に記載されたものを含む。
モデリングエンジン135は、プロセッサ150を構成して、モデル生成器および分析システムとして動作させる。モデリングエンジン135は、1つ以上の予測モデルテンプレート140を取得する。図示の例において、予測モデルテンプレート140は、あらかじめメモリ120内に存在する。しかし、他の実施形態では、予測モデルテンプレート140は、アプリケーションプログラム・インターフェース(API)によって取得可能なものでよく、場合により、ウェブサービスに基づいて、APIを介して対応する1組のモジュールまたはライブラリにアクセスする。他の実施形態において、ユーザは、利用可能な予測モデルテンプレート140をレポジトリ(例えば、データベース、ファイルシステム、ディレクトリなど)に配置することも可能であり、レポジトリを介して、モデリングエンジン135は、ファイルの読み出しもしくはインポート、さらに/またはデータベースへの問い合わせを行うことにより、テンプレートにアクセスすることができる。このアプローチによって、予測モデルテンプレートの経時的増加が得られるため、当該アプローチは有利であると考えられる。さらに、各テンプレートに対し、対応するアルゴリズムが立てた仮説、最適な用途、命令または他のデータなど、基盤となる性質を示すメタデータによって注釈を付けることができる。そのため、メタデータに基づいてモデルテンプレートをインデックス付けして、リサーチプロジェクト(例えば、反応研究、データ収集、予測タスクなど)の選択基準を満たすメタデータを有するモデルを選択することにより、研究者が仕事に最適なモデルを選択できるようにしてもよい。典型的には、全てではないにしろ、ほとんど全てのモデルテンプレートがアンサンブル構築に用いられることが期待される。
モデリングエンジン135は、引き続き、訓練されたモデル143A〜143N(訓練されたモデル143と総称する)によって代表される訓練された臨床結果予測モデルのアンサンブルを生成する。各モデルは、特性メトリック147Aおよび147N(メトリック147と総称する)も含む。モデリングエンジン135は、予測モデルテンプレート140を使用し、ゲノムデータ集合123(例えば、初期の既知のデータ)および臨床結果データ集合125(例えば、最終的な既知のデータ)においてテンプレートを訓練することにより、訓練されたモデル143をインスタンス化する。訓練されたモデル143は予測モデルを示し、当該予測モデルは、必要に応じて、特定の患者のゲノムデータを訓練されたモデルを通じて走行させることにより、個別治療または予測結果の臨床設定に用いて予測結果を生成できよう。しかし、2つの点に注意されたい。第1に、本願の発明の構成が焦点を当てているのは単なる予測結果ではなく、主にモデルのアンサンブルに対してである。第2に、訓練されたモデル143のアンサンブルは、単に十分に訓練されたモデルの他に、評価モデルを含んでいてもよく、評価モデルはデータ集合の一部についてのみ訓練されたものであり、十分に訓練されたモデルは、データ集合全体について訓練されたものである。評価モデルは、十分に訓練されたモデルが値を持つかまたは持ち得るかを示す補助となる。いくつかの意味において、評価モデルは、半ば、交差分割検証時に生成された訓練されたモデルとも考えられる。
図1では訓練されたモデル143を2つだけ示しているが、訓練されたモデルの数は、10,000個、100,000個、200,000個、またはさらには1,000,000個より多く含んでいてもよいことは理解されよう。実際、いくつかの実施例において、アンサンブルは、2,000,000個を超える訓練されたモデルを含んでいた。いくつかの実施形態において、データ集合の性質に応じて、訓練されたモデル143は、図2について述べたような200,000個超の十分に訓練されたモデルを有する訓練された臨床結果モデル145のアンサンブルを含んでいてもよいであろう。
また、訓練されたモデル143はそれぞれ、対応する訓練されたモデルに関するメトリック147Aおよび147Nによって示されるモデル特性メトリック147を含んでいてもよい。モデル特性メトリック147は、対応する訓練されたモデル143の性質または能力を示す。特性メトリックの例を挙げると、精度、精度利得、性能メトリック、または対応するモデルの他の測定値がある。性能メトリックとしてさらに、曲線メトリック下の領域、R、p値メトリック、シルエット係数、混同行列、またはモデルの性質もしくはそれに対応するモデルテンプレートに関連する他のメトリックが含まれている場合もあるであろう。例えば、クラスタベースのモデルテンプレートはシルエット係数を有する場合もあるが、これに対しSVMクラシファイヤの訓練済みモデルはシルエット係数を有さない。SVMクラシファイヤの訓練済みモデルは、例えばAUCまたはp値を使用する場合もある。特性メトリック147は、モデルそのものの出力と考えられないことは理解されよう。むしろ、モデル特性メトリック147は、訓練済みモデルの性質、例えば、訓練データ集合に基づいた予測がどれだけ高精度かを示す。さらに、モデル特性メトリック147は、性能メトリック以外の他のタイプの属性および関連する値を含んでいる場合もある。訓練済みモデル143に関連するメトリックとして使用可能な他の属性を挙げると、モデルテンプレートのソース、モデルテンプレート識別子、モデルテンプレートの仮説、バージョン番号、ユーザ識別子、特徴選択、ゲノム訓練データ属性、患者識別子、薬剤情報、結果訓練データ属性、時間スタンプ、または他のタイプの属性がある。モデル特性メトリック147は、高いポータビリティ、操作性、または以下に述べるような他のタイプの管理もしくは分析を可能にするn個のタプルまたはベクトルの値として表されることもある。よって、各モデルは、そのソースに関する情報を含んでいてもよく、ゲノムデータ集合123、臨床結果データ集合125およびリサーチプロジェクト150に関連する同一の名前空間に対応する属性を含んでいてもよい。訓練済みモデル143および対応するモデル特性メトリック147はどちらも、場合によりJSON、YAMLまたはXMLフォーマットに基づいて、最終的な訓練済みモデルインスタンスとしてメモリ120に保存してもよい。これにより、訓練済みモデルをアーカイブして、後日取り出すことができる。
個々のモデル特性メトリック147が個々の訓練済みモデル143A〜143Nに対してそれぞれ利用できること以外に、モデリングエンジン135は、訓練済み臨床結果モデル145のアンサンブルの属性を示すアンサンブルメトリック149を生成することもできる。アンサンブルメトリック149は、例えば、アンサンブル中の全モデル間の精度分布または精度利得分布を含む場合もある。さらに、アンサンブルメトリック149は、アンサンブル中のモデル数、アンサンブル性能、アンサンブル所有者、アンサンブル内のモデルタイプの分布、アンサンブル生成に要する電力、モデル当たりの電力、モデル当たりのコスト、アンサンブルに関連する他の一般的な情報を含んでいることもある。
モデルの精度は、既知のゲノムデータ集合および対応する既知の臨床結果データ集合から構築された評価モデルを使用して導き出すことができる。特定のモデルテンプレートについて、モデリングエンジン135は、入力された既知のデータ集合に対して訓練および検証された複数の評価モデルを構築してもよい。例えば、訓練済み評価モデルを入力データの80%に基づいて訓練することができる。評価モデルを訓練した後に、残りの20%のゲノムデータを評価モデルによって走行させて、残りの20%の既知の臨床結果データに類似するか最も近い予測データを生成するか、確認することができる。これにより、訓練済み評価モデルの精度は、結果の合計数に対する正しい予測数の比と考えられる。評価モデルの訓練は、1つ以上の交差分割検証技術を用いて行うことができる。
ゲノムデータ集合123および臨床結果データ集合125が500人の患者のコーホートを示すシナリオについて考える。モデリングエンジン135は、データ集合を、例えば、400個の患者試料を含む1つ以上の評価訓練集合の群に区分けしてもよい。モデリングエンジンは、400個の患者試料に基づいて、訓練済み評価モデルを生成する。次に、訓練済み評価モデルを残りの100人の患者のゲノムデータ集合に対して実行して100個の予測結果を生成することにより、訓練済み評価モデルを検証することができる。さらに、これら100個の予測結果を、臨床結果データ集合125中の患者データから得られた実際の100個の結果と比較する。訓練済み評価モデルの精度は、結果の合計数に対する正しい予測結果(すなわち、真の正数および真の負数)の数である。訓練済み評価モデルが、100個の予測結果から、患者データより得られた実際の、または既知の臨床結果に整合する85個の正しい結果を生成した場合、訓練済み評価モデルの精度は85%と考えられる。残りの15個の正しくない結果は、偽の正数および偽の負数と考えられる。
モデリングエンジン135は、訓練試料と検証システムとの間のコーホートデータの分割様態を変更するだけで、コーホートデータおよびモデルテンプレートの特定のインスタンスについて多数の訓練済み評価モデルを生成することができることが理解されよう。例えば、いくつかの実施形態において、5x3交差分割検証を利用することができ、これにより15個の評価モデルを得ることができるであろう。15個の訓練済み評価モデルはそれぞれ、固有の精度メトリック(例えば、合計数に対する正確な予測の数)を有するであろう。評価モデルから得られた精度がモデルの集合が有用である(例えば、見込み閾値を超えている、多数決クラシファイヤを超えているなど)旨を示すと仮定すると、十分に訓練済みのモデルは、100%のデータに基づいて構築することができる。すなわち、1つのアルゴリズムに対する総モデル集合体は、1つの十分に訓練済みのモデルおよび15個の評価モデルを含み得る。その場合、十分に訓練済みのモデルの精度は、その訓練済み評価モデルの平均と考えられるであろう。よって、十分に訓練済みのモデルの精度は、平均値、スプレッド、アンサンブル中の対応する訓練済みモデルの数、最大精度、最小精度、または訓練済み評価モデルの統計から得られる他のメトリックを含み得る。よって、リサーチプロジェクトは、関連する十分に訓練済みのモデルの精度に基づいてランク付けすることができる。
精度に関連する別のメトリックは精度利得を含む。精度利得は、モデルの精度と「多数決クラシファイヤ」の精度との間の演算差として定義され得る。その結果得られるメトリックは、正または負をとり得る。精度利得は、可能性のある既知の結果についての見込みに対するモデルの性能と考えられる。モデルの精度利得が高い(正の側に)ほど、訓練データから得られ、または学習できる情報も多くなる。モデルの精度利得が低い(負の側に)ほど、見込みを超えた洞察を得ることができないため、モデルが持つ関連性も低くなる。精度と同様に、十分に訓練されたモデルの精度利得は、評価モデルから得られた精度利得の分布を含んでいてもよい。よって、十分に訓練されたモデルの精度利得は、平均、スプレッド、最小、最大または他の値を含み得る。統計的にいうと、関心の高いリサーチプロジェクトは、精度利得分布がゼロよりも大きく高い精度利得を有している可能性が最も高いであろう。
訓練済み臨床結果モデル145のアンサンブル内のモデルがモデル生成に用いられるデータの性質またはモデルのソースに関連する属性もしくはメトリック情報を保持することを考慮すると、モデリングエンジン135は、アンサンブルに関する情報を類似の属性を有するリサーチプロジェクト150と相関付けることができる。よって、モデリングエンジン135は、モデル特性メトリック147またはさらにはアンサンブルメトリック149に基づくランキング基準に従って、例えばリサーチプロジェクト150から、可能性のあるリサーチプロジェクトのランク付けされたリスト、可能性のあるランク付けされたリサーチプロジェクト160を生成することができる。アンサンブルが100個超の薬剤反応研究に関する訓練済みモデル143を含む状況について考える。モデリングエンジン135は、各研究の対応するモデルの精度または精度利得により、薬剤反応研究をランク付けすることができる。ランク付けされたリストは、ランク付けされた1組の薬剤反応、薬剤、ゲノムデータ集合のタイプ、収集された薬剤反応データのタイプ、予測タスク、遺伝子発現、臨床課題(例えば、生存性)、結果統計、または他のタイプのリサーチトピックを含み得る。
モデリングエンジン135がランク付けされた可能性のあるリサーチプロジェクト160をコンパイルすると、モデリングエンジン135は、装置(例えば、携帯電話、タブレット、コンピュータ、ウェブサーバなど)上で、ランク付けされたリストを利害関係者へ提示させることも可能である。ランク付けされたリストは、モデルの性質または集合中のモデルが学習できる様態に基づいて最も深い洞察が得られるプロジェクト、タスク、トピックまたは領域に関する推奨を実質的に表す。例えば、アンサンブルの精度利得は、どのモデル領域が最も情報の豊富な洞察を提供したかということに関する測定値と考えられる。このような領域は、既知の実世界のゲノムデータ集合123、および対応する実世界の既知の臨床結果データ集合125から生成された訓練済みモデルによって証明されるような研究費または診断努力の候補と考えられるであろう。
図2は、訓練された臨床結果予測モデル245のアンサンブルの生成に関する詳細をさらに提供する。図示の例において、モデリングエンジンは、既知のゲノムデータ集合225、および既知の臨床結果データ集合223を含むデータ集合220によって示される訓練データを取得する。本例において、データ集合220は、単一の薬剤に関連する薬剤反応研究を表すデータを含む。しかし、100種類を超える薬剤、150種類を超える薬剤、200種類を超える薬剤など、複数の薬剤から得られたデータ集合を訓練データ集合中に含めることも可能であろう。さらに、モデリングエンジンは、訓練されていない機械学習モジュールを表す1つ以上の予測モデルテンプレート240を取得することも可能である。数タイプのモデルテンプレートを利用することにより、関連するテンプレートまたはアルゴリズムが全て使用されるため、それぞれのテンプレートの基盤となる仮説の影響を低減させ、研究者の先入観の排除を促進できる。
モデリングエンジンは、訓練データ集合を用いて、多数の訓練済みモデルをモデルテンプレート240から生成するものであり、訓練済みモデルは、訓練済み臨床結果予測モデル245のアンサンブルを形成する。モデル245のアンサンブルは、大量の訓練されたモジュールを含んでいてもよい。図示の例において、研究者が200種類の薬剤に関連する訓練データにアクセスできるシナリオについて検討する。各薬剤の訓練データは、6タイプの既知の臨床結果データ(例えば、IC50データ、GI50データ、Amaxデータ、ACareaデータ、フィルタリングされたACareaデータ、および最大投与データ)、ならびに3タイプの既知のゲノムデータ集合(例えば、WGS、RNAseq、タンパク質発現データ)を含み得る。4つの特徴選択方法および約14タイプの異なるモデルがある場合、モデリングエンジンは、200,000個を超える訓練済みモデルをアンサンブル中に生成して、各可能性のある構成パラメータに対して1つのモデルを設けることも可能であろう。
モデル245のアンサンブル中の個々のモデルはそれぞれ、モデルの性質を特徴付けるメタデータをさらに含む。上述したように、メタデータは、性能メトリック、モデルの訓練に用いられるタイプデータ、モデルの訓練に用いられる特徴、またはリサーチプロジェクトの名前空間における属性および対応する値とみなし得る他の情報を含んでいてもよい。このアプローチにより、名前空間の属性によって決まる選択基準を満たすモデルの群の選択が可能になる。例えば、収集されたWGSデータに従って訓練された全てのモデル、または特定の薬剤に関連するデータについて訓練された全てのモデルを選択することができよう。個々のモデルは、その基盤となるテンプレートの性質に応じて記憶装置、すなわち場合に応じて訓練されたモデルの係数もしくは他のパラメータの特定の値ならびに関連する属性、性能メトリックまたは他のメタデータを保存するJSON、YAML、またはXMLファイルに保存してもよい。必要に応じて、または希望により、対応するファイルのモデル訓練の値または重みを読み取り、対応するテンプレートのパラメータを読み取った値に設定するだけで、モデルを再インスタンス化することができる。
モデル245のアンサンブルが形成または生成されると、性能メトリックまたは他の属性を用いて、可能性のあるリサーチプロジェクトのランク付けされたリストを生成することができる。200,000個を超えるモデルが生成されるシナリオについて考える。臨床医が特定の薬剤の薬剤反応研究に関連するモデルを選択する場合、選択されるモデルは約1000〜5000個になる可能性がある。そのため、モデリングエンジンは、選択されたモデルの性能メトリック(例えば、精度、精度利得など)を用いて、ゲノムデータのタイプ(例えば、WGS、発現、RNAseqなど)をランク付けして収集することができるであろう。これは、モデリングエンジンが収集されたゲノムデータのタイプに応じてモデルを結果集合に区分することにより、達成される。各結果集合に対する選択された性能メトリック(または他の属性値)を算出することができる(例えば、平均精度利得)。よって、対応する算出されたモデルの性能メトリックに基づいて、各結果集合をランク付けすることができる。本例において、収集するそれぞれのタイプのゲノムデータは、対応するモデルの平均精度利得に従ってランク付けすることができるであろう。このようなランキングにより、モデルの性質がモデル情報の洞察が最も深いところを示唆するため、特定の薬剤を投与された患者に関し収集する最良と思われるゲノムデータのタイプに対する洞察が臨床医に提供される。いくつかの実施形態において、本ランキングは、収集するゲノムデータのタイプ(場合により、マイクロアレイ発現データ、マイクロアレイコピー数データ、PARADIGMデータ、SNPデータ、全ゲノム解析(WGS)データ、全エクソーム解析データ、RNAseqデータ、タンパク質マイクロアレイデータ、または他のタイプのデータを含む)を示唆する。また、ランク付けされたリストは、第2の、またはさらには第3のメトリックによってランク付けしてもよい。収集するデータタイプのコストおよび/または対応するデータの処理時間が2つの例として挙げられるであろう。このアプローチにより、研究者がアンサンブルのメトリックに基づいて深い洞察を得られる可能性の高いトピックまたはプロジェクト構成を確認することができるため、研究者はターゲットリサーチトピックまたはプロジェクトの最良の一連の行動を決定することができる。
さらに別の例は、モデルメトリックによる薬剤反応のランク付けを含み得る。このような場合、ランク付けされた薬剤反応研究により、追求するターゲットリサーチプロジェクトとして最も興味深いと思われる薬剤反応の領域または化合物についての洞察が得られる。さらに、ランキングは、収集する臨床結果データのタイプを示唆してもよく、なるべくならば、IC50データ、GI50データ、Amaxデータ、ACareaデータ、フィルタリングされたACareaデータ、最大投与データ、または他のタイプの結果データを含む。さらに、ランキングは、最も興味深いと思われる予測研究の種類を示唆してもよく、場合により、薬剤反応研究、ゲノム発現研究、生存性研究、サブタイプ分析研究、サブタイプ差研究、分子サブタイプ研究、病態研究または他の研究のうちの1つ以上を含む。
以降の各図は、実世界において訓練された100,000個超の訓練済みモデル、既知のゲノムデータ集合、およびその対応する既知の臨床結果データ集合のアンサンブルから得られた精度または精度利得性能メトリックに基づいた、様々なリサーチトピックのランキングを示す。以下の図におけるこれらの結果は実世界の例であり、Broad Institute´s Cancer Cell Line Encyclopedia(CCLE;URL:www.broadinstitute.org/ccle/homeを参照)およびSanger Institute´s Cancer Genome Project(CGP;URL:www.sanger.ac.uk/science/groups/cancer−genome−projectを参照)から得られた実世界のデータに基づいて本出願人が生成したものである。
図3Aは、多数の薬剤反応研究に関連する実世界データを含み、薬剤に対応する検証データ集合から生成されたモデルの平均精度によって決定された薬剤反応の予測可能性を示す。精度のみに基づいた場合、全ての訓練されたモデルの平均精度が最高であるため、モデルのアンサンブルがPHA−664752に関するデータから学習すべき実質的な情報が存在する旨を示していることから、データは、小分子c−Met抑制剤であるPHA−665752が、さらなる研究の候補となる可能性が高い旨を示唆している。このような候補を追求するための決定は、コスト、精度利得、時間またはパラメータなどを含む他のメトリックまたは要因によってバランスをとることができる。図示の分布は、評価モデルではなく多くの十分に訓練されたモデル間に分布する精度値を表していることが理解されよう。さらに、研究者は、モデリングエンジンと連係して、1つ以上の評価モデルならびに必要に応じて対応するメトリックまたはメタデータまで掘り下げることも可能であろう。
図3Aにおいて第7位にランク付けされたDasatinibに注目されたい。図3Bは、図3Aのデータと同じデータを示す。しかし、これらの薬剤は、精度利得によってランク付けされている。この場合、PHA−665752は、一群の中間まで順位が下り、平均精度利得はほぼゼロである。しかし、チロシンキナーゼ抑制剤であるDasatinibは、平均精度利得がゼロよりもはるかに高い約15%であるため、第7位から第1位へ移動している。このデータは、モデルのアンサンブルが高精度および高い精度利得をもたらす点に鑑みると、Dasatinibがさらなるリソース割当てのより有力な候補である可能性が高いことを示唆している。
図4Aは、モデルのアンサンブルから得られたメトリックの挙動様態をさらに明確に示す。図4Aは、モデルのDasatinibアンサンブル内のモデルの平均精度のヒストグラムである。モードが比較的高く、Dasatinibがさらなるリソースの適用に好適な候補となり得ることを示している点に留意されたい。換言すれば、Dasatinibに関連するこれらの180個のモデルは、集合体のモデルが平均的に十分に学習したことを示す。
図4Bは、図4Aのデータと同一のデータを、モデルのDasatinibアンサンブルから得られた平均精度利得をヒストグラムとして示す。ここでも、モードはおよそ20%と比較的高く、少数のモデルがゼロを下回っている点に留意されたい。薬剤反応研究または薬剤をモデルメトリックに従ってランク付けする本開示のアプローチを用いることは有利であると考えられるが、それは、製薬会社がデータをいかにうまく学習に利用できるかに基づいてリソースを割り当てることについて、エビデンスベースの表示を得られるからである。
Dasatinibの掘り下げの継続に関し、図5Aは、モデル精度に対してゲノムデータのタイプ(例えば、PARADIGM、発現、CNV−コピー数の変化など)の予測を行う様子を示す。データは、PARADIGMおよび発現データがCNVよりも有用であることを示唆している。よって、臨床医は、コスト、時間または他の要因を得ることを条件として、集合CNVに対して、Dasatinibを用いた治療を受けている患者のPARADIGMまたは発現データを収集する方がより有意義であることを示唆するであろう。
図5Bは、図5Aのデータと同一のデータをよりコンパクトな形で棒グラフとして示す。本グラフでは、高精度で一貫性のある(すなわち、分布が狭い)モデルが得られることから、発現データは収集する最良のタイプのデータである可能性が高いことを明確にしている。
図5Cは、精度利得をヒストグラムとして示している点以外、図5Aのデータと同一のデータを示している。精度利得データを棒グラフで示す図5Dによりさらに明確となり、これにより、Dasatinibについて収集する最も有用なデータは発現データである点が強調される。
上記の実施形態の例は特定の薬剤研究から得られたデータを反映するものであり、データは初期状態(例えば、コピー数変化、発現データなど)から最終状態(例えば、薬剤に対する反応)を示す。記載の例において、最終段階は同じままであり、すなわち、治療結果である。しかし、開示の技術は、治療結果のみではなく、患者データに関連する任意の2つの異なる状態に対して等しく適用できる点を理解されたい。例えば、WGSおよび治療結果のみについてモデルのアンサンブルを訓練するのではなく、例えばWGSおよび中間生物学的プロセス状態または免疫状態、タンパク質発現についてアンサンブルを訓練することができる。よって、本発明の構成は、治療結果のみを必要とするのではなく、より綿密な状態精度を反映するデータ集合からモデルのアンサンブルを構築することも含むものと考えられる。より詳細には、多くの生物学的状態を示す患者データは、治療結果などの巨視的効果によって実際のDNA配列から収集することができる。企図される生物学的状態情報は、遺伝子配列、突然変異(例えば、単一のヌクレオチド多形性、コピー数変化など)、RNAseq、RNA、mRNA、miRNA、siRNA、shRNA、tRNA、遺伝子発現、ヘテロ接合度の欠損、タンパク質発現、メチル化、細胞内相互作用、細胞内活性、試料画像、レセプタ活性、チェックポイント活性、抑制剤活性、T細胞活性、B細胞活性、ナチュラルキラー細胞活性、組織相互作用、腫瘍状態(例えば、サイズが減少、変化無し、成長したなど)を含んでいてもよい。特に、これらのうちの任意の2つが、訓練データ集合の構築の基礎として用いられ得る。いくつかの実施形態において、良好に定義されたクラスへデータをクリーニングできない場合、準教師付きまたは教師なしの学習アルゴリズム(例えば、k−meansクラスタリングなど)を用いることができる。データの適切なソースは、The Cancer Genome Atlas(URL:tcga−data.nci.nih.gov/tcgaを参照)から入手可能である。
対応するモデルアンサンブルを構築することにより、各生物学的状態(すなわち、初期状態)から得たデータを相互に比較した後、生物学的状態(すなわち、最終状態)と比較することができる。このアプローチが有利であると考えられる理由は、観察される相関に因果関係が発生し得る点についてより深い洞察が得られるからである。さらに、このようなきめ細かいアプローチを用いた場合、どの状態がアンサンブル学習観察に基づいた研究に最も適しているかの一時的な理解を強化することも可能になる。別の観点からは、各状態間の可能性のある相関に対してより高い可視性を与えることにより、任意の2つの状態のモデルアンサンブルを構築することは、発見の機会を提供するものと考えてもよい。このような可視性は、単に相関の観察を行う以上のことに基づいていると理解されたい。すなわち、可視性および/または発見は、上記したような対応するアンサンブルの性能メトリックによって証明される。
治療結果に対し、遺伝子突然変異について研究するシナリオについて検討する。特定の薬剤について、治療結果と比較すると、モデルのアンサンブルが特定の遺伝子に関する任意の有意な学習の証拠に欠ける場合がある。この段階でデータ分析を中止した場合、さらなる洞察が得られなくなる。開示のきめ細かなアプローチを利用すれば、場合によりタンパク質発現またはT細胞チェックポイント抑制剤活性を含む様々な異なる生物学的状態においてデータを収集することが可能になる。これらの2つの状態を分析して明らかにすることで、特定の薬剤が存在する場合に、タンパク質発現およびT細胞チェックポイント抑制剤活性は相関されるだけでなく、高精度利得の機械学習を高度に修正することも可能であろう。このような洞察は、遺伝子突然変異についてではなく、これらの相関についてさらに研究がなされることが保証される可能性があることを示しているということである。
ここで述べたこと以外に、本願における本発明の概念から逸脱することなくさらに多くの変更が可能であることは、当業者であれば理解されよう。したがって、本発明の構成は、添付の特許請求の範囲の精神以外において限定されるべきものではない。さらに、本明細書および特許請求の範囲のいずれの解釈においても、全ての用語は、文脈に従って最大限広範な様態で解釈されるべきである。とくに、用語「含む」および「含んでいる」は、要素、構成要素または工程を非限定的に指すものと解釈すべきであり、記載した要素、構成要素または工程が存在し、あるいは利用され、または明記されていない他の要素、構成要素または工程と組み合わされてもよいことを示す。本明細書または特許請求の範囲においてA、B、C・・・およびNからなる群から選択されたもののうちの少なくとも1つを指す場合、A+NまたはB+Nなどではなく、当該群から選択された唯一の要素を必要とするものとして解釈すべきである。

Claims (31)

  1. 少なくとも1つのプロセッサと、
    該プロセッサと接続された少なくとも1つのメモリとを含み、該少なくとも1つのメモリは、
    コーホートから採取された組織試料を示すゲノムデータ集合と、
    前記コーホートに関連し治療後の前記組織試料の臨床結果を示す臨床結果データ集合とを保存するように構成され、
    前記ゲノムデータ集合および前記臨床結果データは、可能性のある複数のリサーチプロジェクトに関連し、さらに、
    前記少なくとも1つのメモリに保存されたソフトウェア命令に従って前記少なくとも1つのプロセッサ上で実行可能な少なくとも1つのモデリングエンジンを含み、該少なくとも1つのモデリングエンジンは、
    1組の予測モデルテンプレートを取得し、
    該1組の予測モデルテンプレートに基づき、かつ前記ゲノムデータ集合および前記臨床結果データ集合の関数として、訓練された臨床結果予測モデルのアンサンブルを生成し、各訓練された臨床結果予測モデルは、対応する訓練された臨床結果予測モデルの属性を示すモデル特性メトリックを含み、
    前記複数の訓練された臨床結果予測モデルの前記予測モデル特性メトリックに応じて、前記可能性のある複数のリサーチプロジェクトから選択された、可能性のあるリサーチプロジェクトのランク付けされたリストをランキング基準に従って生成し、
    前記可能性のあるリサーチプロジェクトの前記ランク付けされたリストを装置に提示させるように前記プロセッサを設定することを特徴とする臨床リサーチプロジェクトの機械学習コンピュータシステム。
  2. 前記1組の予測モデルテンプレートは、少なくとも10タイプの予測モデルを含むことを特徴とする請求項1に記載のシステム。
  3. 前記1組の予測モデルテンプレートは、線形回帰アルゴリズム、クラスタリングアルゴリズムおよび人工神経回路網の実現体を少なくとも1つ含むことを特徴とする請求項1に記載のシステム。
  4. 前記1組の予測モデルテンプレートは、分類アルゴリズムの実現体を少なくとも1つ含むことを特徴とする請求項1に記載のシステム。
  5. 前記分類アルゴリズムの前記実現体のうちの少なくとも1つは、準教師付きクラシファイヤを示すことを特徴とする請求項4に記載のシステム。
  6. 前記分類アルゴリズムの前記実現体のうちの少なくとも1つは、線形クラシファイヤ、NMFベースのクラシファイヤ、グラフィカルベースのクラシファイヤ、ツリーベースのクラシファイヤ、ベイジアンベースのクラシファイヤ、規則ベースのクラシファイヤ、ネットベースのクラシファイヤおよびkNNクラシファイヤのうちの少なくとも1つを示すことを特徴とする請求項4に記載のシステム。
  7. 前記モデル特性メトリックはモデル精度測定値を含むことを特徴とする請求項1に記載のシステム。
  8. 前記モデル精度測定はモデル精度利得を含むことを特徴とする請求項6に記載のシステム。
  9. 前記モデル特性メトリックは以下のモデル性能メトリック、すなわち曲線下領域(AUC)メトリック、Rメトリック、p値、およびシルエット係数のうちの少なくとも1つを含むことを特徴とする請求項1に記載のシステム。
  10. 前記ランキング基準は、前記モデル特性メトリックから導出されたアンサンブルメトリックに従って設定されることを特徴とする請求項1に記載のシステム。
  11. 前記訓練された臨床結果予測モデルのアンサンブルは、前記ゲノムデータ集合および前記臨床結果データ集合から選択された十分なコーホートデータ集合に対して訓練された、少なくとも1つの十分に訓練された臨床結果予測モデルを含むことを特徴とする請求項1に記載のシステム。
  12. 前記臨床結果データは薬剤反応結果データを含むことを特徴とする請求項1に記載のシステム。
  13. 前記薬剤反応結果データは、前記複数の薬剤について、IC50データ、GI50データ、Amaxデータ、ACareaデータ、フィルタリングされたACareaデータおよび最大投与データのうちの少なくとも1つを含むことを特徴とする請求項12に記載のシステム。
  14. 前記薬剤反応結果データは、少なくとも100種類の薬剤に関するデータを含むことを特徴とする請求項12に記載のシステム。
  15. 前記薬剤反応結果データは、少なくとも150種類の薬剤に関するデータを含むことを特徴とする請求項14に記載のシステム。
  16. 前記薬剤反応結果データは、少なくとも200種類の薬剤に関するデータを含むことを特徴とする請求項15に記載のシステム。
  17. 前記ゲノムデータ集合は、マイクロアレイ発現データ、マイクロアレイコピー数データ、PARADIGMデータ、SNPデータ、全ゲノム配列(WGS)データ、RNAseqデータ、およびタンパク質マイクロアレイデータのうちの少なくとも1つを含むことを特徴とする請求項1に記載のシステム。
  18. 前記可能性のあるリサーチプロジェクトは、前記ゲノムデータ集合に関連して収集されるタイプのゲノムデータを含むことを特徴とする請求項1に記載のシステム。
  19. 前記収集されるタイプのゲノムデータは、マイクロアレイ発現データ、マイクロアレイコピー数データ、PARADIGMデータ、SNPデータ、全ゲノム配列(WGS)データ、全エクソーム解析データ、RNAseqデータ、およびタンパク質マイクロアレイデータのうちの少なくとも1つを含むことを特徴とする請求項15に記載のシステム。
  20. 前記可能性のあるリサーチプロジェクトは、前記臨床結果データ集合に関連して収集されるタイプの臨床結果データを含むことを特徴とする請求項1に記載のシステム。
  21. 前記収集されるタイプの臨床結果データは、IC50データ、GI50データ、Amaxデータ、ACareaデータ、フィルタリングされたACareaデータ、および最大投与データを含むことを特徴とする請求項20に記載のシステム。
  22. 前記可能性のあるリサーチプロジェクトは1種類の予測研究を含むことを特徴とする請求項1のシステム。
  23. 前記予測研究の種類は、薬剤反応研究、ゲノム発現研究、生存性研究、サブタイプ分析研究、サブタイプ差研究、分子サブタイプ研究、および病態研究のうちの少なくとも1つを含むことを特徴とする請求項19に記載のシステム。
  24. 前記少なくとも1つのメモリはディスクアレイを含むことを特徴とする請求項1に記載のシステム。
  25. 前記少なくとも1つのプロセッサは、ネットワーク上に分散した複数のプロセッサを含むことを特徴とする請求項1に記載のシステム。
  26. 非一時的コンピュータ可読メモリに訓練データ集合を保存し、該訓練データ集合は、
    a)コーホートから採取した組織試料を示すゲノムデータ集合と、
    b)前記コーホートに関連する治療後の前記組織試料の臨床結果を示す臨床結果データ集合とを含み、前記訓練データ集合は、可能性のある複数のリサーチプロジェクトに関連し、さらに、
    モデリングコンピュータを介して1組の予測モデルテンプレートを取得し、
    前記モデリングコンピュータを介して、前記予測モデルテンプレートを前記ゲノムデータ集合および前記臨床結果データ集合の関数として訓練することにより訓練された臨床結果予測モデルのアンサンブルを生成し、各訓練された臨床結果予測モデルは、対応する訓練された臨床結果予測モデルの属性を示すモデル特性メトリックを含み、さらに、
    前記モデリングコンピュータを介して、前記複数の訓練された臨床結果予測モデルの前記予測モデル特性メトリックによって決定されたランキング基準に従って、前記可能性のある複数のリサーチプロジェクトから選択された可能性のあるリサーチプロジェクトのランク付けされたリストを生成し、
    前記モデリングコンピュータを介して、前記可能性のあるリサーチプロジェクトの前記ランク付けされたリストを装置に提示させることを含むことを特徴とする機械学習結果を生成する方法。
  27. 訓練された臨床結果予測モデルのアンサンブルを生成する工程は、前記ゲノムデータ集合および前記臨床結果データ集合に対する機械学習アルゴリズムの複数の実現体を訓練することを含むことを特徴とする請求項26に記載の方法。
  28. 前記機械学習アルゴリズムの複数の実現体は、少なくとも10タイプの機械学習アルゴリズムを含むことを特徴とする請求項27に記載の方法。
  29. 前記予測モデル特性メトリックは以下の性能メトリック、すなわち曲線下領域(AUC)メトリック、Rメトリック、p値、精度、精度利得、およびシルエット係数のうちの少なくとも1つを含むことを特徴とする請求項26に記載の方法。
  30. 前記予測モデル特性メトリックはアンサンブルメトリックを含むことを特徴とする請求項26に記載の方法。
  31. 前記可能性のあるリサーチプロジェクトのランク付けされたリストを生成する工程は、前記アンサンブルメトリックに従って前記可能性のあるリサーチプロジェクトをランク付けすることを含むことを特徴とする請求項30に記載の方法。


JP2018112693A 2015-03-03 2018-06-13 アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法 Abandoned JP2018173969A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562127546P 2015-03-03 2015-03-03
US62/127,546 2015-03-03

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017546211A Division JP6356359B2 (ja) 2015-03-03 2016-03-03 アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法

Publications (1)

Publication Number Publication Date
JP2018173969A true JP2018173969A (ja) 2018-11-08

Family

ID=56849144

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017546211A Active JP6356359B2 (ja) 2015-03-03 2016-03-03 アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法
JP2018112693A Abandoned JP2018173969A (ja) 2015-03-03 2018-06-13 アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017546211A Active JP6356359B2 (ja) 2015-03-03 2016-03-03 アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法

Country Status (9)

Country Link
US (1) US20180039731A1 (ja)
EP (1) EP3265942A4 (ja)
JP (2) JP6356359B2 (ja)
KR (2) KR20190047108A (ja)
CN (1) CN107980162A (ja)
AU (3) AU2016226162B2 (ja)
CA (1) CA2978708A1 (ja)
IL (2) IL254279B (ja)
WO (1) WO2016141214A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102120214B1 (ko) * 2019-11-15 2020-06-08 (주)유엠로직스 앙상블 기계학습 기법을 이용한 사이버 표적공격 탐지 시스템 및 그 탐지 방법
CN111367798A (zh) * 2020-02-28 2020-07-03 南京大学 一种持续集成及部署结果的优化预测方法
US11101038B2 (en) 2015-01-20 2021-08-24 Nantomics, Llc Systems and methods for response prediction to chemotherapy in high grade bladder cancer

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200294642A1 (en) * 2018-08-08 2020-09-17 Hc1.Com Inc. Methods and systems for a pharmacological tracking and reporting platform
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US10871536B2 (en) 2015-11-29 2020-12-22 Arterys Inc. Automated cardiac volume segmentation
US10552002B1 (en) * 2016-09-27 2020-02-04 Palantir Technologies Inc. User interface based variable machine modeling
US10552432B2 (en) 2016-10-12 2020-02-04 Salesforce.Com, Inc. Ranking search results using hierarchically organized machine learning based models
US11056241B2 (en) * 2016-12-28 2021-07-06 Canon Medical Systems Corporation Radiotherapy planning apparatus and clinical model comparison method
US10902598B2 (en) 2017-01-27 2021-01-26 Arterys Inc. Automated segmentation utilizing fully convolutional networks
US11062792B2 (en) 2017-07-18 2021-07-13 Analytics For Life Inc. Discovering genomes to use in machine learning techniques
US11139048B2 (en) 2017-07-18 2021-10-05 Analytics For Life Inc. Discovering novel features to use in machine learning techniques, such as machine learning techniques for diagnosing medical conditions
KR101953762B1 (ko) * 2017-09-25 2019-03-04 (주)신테카바이오 이종 특성정보 병합 데이터 기반 인공지능 딥러닝 모델을 이용한 약물 적응증 및 반응 예측 시스템 및 방법
WO2019103912A2 (en) * 2017-11-22 2019-05-31 Arterys Inc. Content based image retrieval for lesion analysis
KR102327062B1 (ko) * 2018-03-20 2021-11-17 딜로이트컨설팅유한회사 임상시험 결과 예측 장치 및 방법
GB201805302D0 (en) * 2018-03-29 2018-05-16 Benevolentai Tech Limited Ensemble Model Creation And Selection
US11475995B2 (en) * 2018-05-07 2022-10-18 Perthera, Inc. Integration of multi-omic data into a single scoring model for input into a treatment recommendation ranking
US11574718B2 (en) 2018-05-31 2023-02-07 Perthera, Inc. Outcome driven persona-typing for precision oncology
US10922362B2 (en) * 2018-07-06 2021-02-16 Clover Health Models for utilizing siloed data
CN109064294B (zh) * 2018-08-21 2021-11-12 重庆大学 一种融合时间因素、文本特征和相关性的药品推荐方法
US11250346B2 (en) * 2018-09-10 2022-02-15 Google Llc Rejecting biased data using a machine learning model
US20210104321A1 (en) * 2018-11-15 2021-04-08 Ampel Biosolutions, Llc Machine learning disease prediction and treatment prioritization
JP6737519B1 (ja) * 2019-03-07 2020-08-12 株式会社テンクー プログラム、学習モデル、情報処理装置、情報処理方法および学習モデルの生成方法
US11195270B2 (en) 2019-07-19 2021-12-07 Becton Dickinson Rowa Germany Gmbh Measuring and verifying drug portions
KR102270303B1 (ko) 2019-08-23 2021-06-30 삼성전기주식회사 적층형 커패시터 및 그 실장 기판
US20210110926A1 (en) * 2019-10-15 2021-04-15 The Chinese University Of Hong Kong Prediction models incorporating stratification of data
MX2022009999A (es) * 2020-02-14 2023-01-19 Caris Mpi Inc Puntuacion de prevalencia genomica panomica.
US11308436B2 (en) * 2020-03-17 2022-04-19 King Fahd University Of Petroleum And Minerals Web-integrated institutional research analytics platform
CN113821332B (zh) * 2020-06-19 2024-02-13 富联精密电子(天津)有限公司 自动机器学习系统效能调优方法、装置、设备及介质
CN111930350B (zh) * 2020-08-05 2024-04-09 深轻(上海)科技有限公司 一种基于计算模板的精算模型建立方法
WO2022235876A1 (en) * 2021-05-06 2022-11-10 January, Inc. Systems, methods and devices for predicting personalized biological state with model produced with meta-learning
US20220398055A1 (en) * 2021-06-11 2022-12-15 The Procter & Gamble Company Artificial intelligence based multi-application systems and methods for predicting user-specific events and/or characteristics and generating user-specific recommendations based on app usage
US11881315B1 (en) 2022-08-15 2024-01-23 Nant Holdings Ip, Llc Sensor-based leading indicators in a personal area network; systems, methods, and apparatus
CN115458045B (zh) * 2022-09-15 2023-05-23 哈尔滨工业大学 一种基于异构信息网络和推荐系统的药物对相互作用预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005521138A (ja) * 2002-03-15 2005-07-14 パシフィック エッジ バイオテクノロジー リミティド 遺伝子発現データを使用する適応学習システムの医療適用
US7899764B2 (en) * 2007-02-16 2011-03-01 Siemens Aktiengesellschaft Medical ontologies for machine learning and decision support
US8386401B2 (en) * 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
US8484225B1 (en) * 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors
JP2015502740A (ja) * 2011-10-21 2015-01-29 ネステク ソシエテ アノニム 炎症性腸疾患の診断を改善するための方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1579383A4 (en) * 2002-10-24 2006-12-13 Univ Duke MODELING OF A BINARY PREVISIONAL TREE WITH SEVERAL PREDICTORS, AND ITS USE IN CLINICAL AND GENOMIC APPLICATIONS
US20050210015A1 (en) * 2004-03-19 2005-09-22 Zhou Xiang S System and method for patient identification for clinical trials using content-based retrieval and learning
US20060173663A1 (en) * 2004-12-30 2006-08-03 Proventys, Inc. Methods, system, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
EP2102651A4 (en) * 2006-11-30 2010-11-17 Navigenics Inc GENERALYSIS SYSTEMS AND METHODS
WO2012122127A2 (en) * 2011-03-04 2012-09-13 Kew Group, Llc Personalized medical management system, networks, and methods
US9934361B2 (en) * 2011-09-30 2018-04-03 Univfy Inc. Method for generating healthcare-related validated prediction models from multiple sources
US9767526B2 (en) * 2012-05-11 2017-09-19 Health Meta Llc Clinical trials subject identification system
US20140143188A1 (en) * 2012-11-16 2014-05-22 Genformatic, Llc Method of machine learning, employing bayesian latent class inference: combining multiple genomic feature detection algorithms to produce an integrated genomic feature set with specificity, sensitivity and accuracy
AU2014239852A1 (en) * 2013-03-15 2015-11-05 The Cleveland Clinic Foundation Self-evolving predictive model

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005521138A (ja) * 2002-03-15 2005-07-14 パシフィック エッジ バイオテクノロジー リミティド 遺伝子発現データを使用する適応学習システムの医療適用
US7899764B2 (en) * 2007-02-16 2011-03-01 Siemens Aktiengesellschaft Medical ontologies for machine learning and decision support
US8386401B2 (en) * 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
US8484225B1 (en) * 2009-07-22 2013-07-09 Google Inc. Predicting object identity using an ensemble of predictors
JP2015502740A (ja) * 2011-10-21 2015-01-29 ネステク ソシエテ アノニム 炎症性腸疾患の診断を改善するための方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANDREA CORNERO ET AL.: "Design of a multi-signature ensemble classifier predicting neuroblastoma patients' outcome", BMC BIOINFORMATICS, vol. 13, JPN6018016602, 2012, pages 1 - 12, ISSN: 0004109196 *
R SHOUVAL ET AL.: "Application of machine learning algorithms for clinical predictive modeling: a data-mining approach", BONE MARROW TRANSPLANTATION, vol. 49, JPN6018016598, 2014, pages 332 - 337, XP055309918, ISSN: 0004109195, DOI: 10.1038/bmt.2013.146 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11101038B2 (en) 2015-01-20 2021-08-24 Nantomics, Llc Systems and methods for response prediction to chemotherapy in high grade bladder cancer
KR102120214B1 (ko) * 2019-11-15 2020-06-08 (주)유엠로직스 앙상블 기계학습 기법을 이용한 사이버 표적공격 탐지 시스템 및 그 탐지 방법
CN111367798A (zh) * 2020-02-28 2020-07-03 南京大学 一种持续集成及部署结果的优化预测方法

Also Published As

Publication number Publication date
IL254279B (en) 2018-05-31
JP6356359B2 (ja) 2018-07-11
CN107980162A (zh) 2018-05-01
CA2978708A1 (en) 2016-09-09
IL258482A (en) 2018-05-31
KR101974769B1 (ko) 2019-05-02
IL254279A0 (en) 2017-10-31
EP3265942A1 (en) 2018-01-10
WO2016141214A1 (en) 2016-09-09
AU2018200276A1 (en) 2018-02-22
AU2016226162B2 (en) 2017-11-23
US20180039731A1 (en) 2018-02-08
AU2016226162A1 (en) 2017-09-21
KR20190047108A (ko) 2019-05-07
KR20180008403A (ko) 2018-01-24
AU2018200276B2 (en) 2019-05-02
AU2019208223A1 (en) 2019-08-15
JP2018513461A (ja) 2018-05-24
EP3265942A4 (en) 2018-12-26

Similar Documents

Publication Publication Date Title
JP6356359B2 (ja) アンサンブルに基づいたリサーチ・レコメンデーションシステムおよび方法
Li et al. Cumulus provides cloud-based data analysis for large-scale single-cell and single-nucleus RNA-seq
AU2017202808B2 (en) Paradigm drug response networks
JP6382459B1 (ja) 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
Wang et al. Random forests on Hadoop for genome-wide association studies of multivariate neuroimaging phenotypes
US20180039732A1 (en) Dasatinib response prediction models and methods therefor
Sibieude et al. Fast screening of covariates in population models empowered by machine learning
Rashid et al. Knowledge management overview of feature selection problem in high-dimensional financial data: Cooperative co-evolution and MapReduce perspectives
Tran et al. A novel method for cancer subtyping and risk prediction using consensus factor analysis
Nguyen et al. Semi-supervised network inference using simulated gene expression dynamics
Burkovski et al. Rank aggregation for candidate gene identification
Lachmann et al. PrismExp: predicting human gene function by partitioning massive RNA-seq co-expression data
Wissel et al. Survboard: standardised benchmarking for multi-omics cancer survival models
Bazlur Rashid et al. Knowledge management overview of feature selection problem in high-dimensional financial data: Cooperative co-evolution and Map Reduce perspectives
Bhavani et al. Parallel Data Mining Techniques for Breast Cancer Prediction
Patel et al. Prediction of Cancer Microarray and DNA Methylation Data using Non-negative Matrix Factorization

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180703

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191210

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20200203

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20200210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200403

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20200514