JP6382459B1 - 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法 - Google Patents

細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法 Download PDF

Info

Publication number
JP6382459B1
JP6382459B1 JP2017564869A JP2017564869A JP6382459B1 JP 6382459 B1 JP6382459 B1 JP 6382459B1 JP 2017564869 A JP2017564869 A JP 2017564869A JP 2017564869 A JP2017564869 A JP 2017564869A JP 6382459 B1 JP6382459 B1 JP 6382459B1
Authority
JP
Japan
Prior art keywords
response
model
drug
predictors
analysis engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017564869A
Other languages
English (en)
Other versions
JP2018527644A (ja
Inventor
ゼトー,クリストファー
Original Assignee
ナントミクス,エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ナントミクス,エルエルシー filed Critical ナントミクス,エルエルシー
Application granted granted Critical
Publication of JP6382459B1 publication Critical patent/JP6382459B1/ja
Publication of JP2018527644A publication Critical patent/JP2018527644A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medicinal Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Physiology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

意図されるシステムおよび方法は、複数の異なる細胞型および薬物にわたり応答予測因子のライブラリーを構築するために、先験的な既知の細胞系ゲノミクスおよび薬物応答データを用いる。予測力においてかなりのゲインを有する応答予測因子を同定するために実際の患者データを用いて選択された応答予測因子の統計的分析が次いで使用され、応答予測因子が薬物に対して感受性を示す場合に同定された応答予測因子に関連する薬物が処置のために次いで選択される。【選択図】図2A

Description

本出願は、2015年6月15日に出願の米国仮出願番号第62/175940号に優先権を主張し、この仮出願は参照によって本明細書に組み入れる。
本発明の分野は、オミクス情報を使用して、薬物応答を予測するシステムおよび方法である。
背景の説明には、本発明を理解することに役立ち得る情報が含まれている。本明細書に提供される情報のいずれかが先行技術である、もしくは現在請求されている発明に関連している、または具体的にもしくは黙示的に参照されているいずれかの刊行物が先行技術であることを認めるものではない。
経路のコンピュータモデリングに関する種々のシステムおよび方法が当技術分野で知られている。例えば、いくつかのアルゴリズム(例えば、GSEA、SPIAおよびPathOlogist)は、文献から精選された経路を使用して、変化した関心の経路を効率よく特定できる。さらなるツールは、発現プロファイルを説明するために、文献中の精選した相互作用から因果グラフを構築し、これらのグラフを使用している。ARACNE、MINDyおよびCONEXICなどのアルゴリズムは、一式の癌試料にわたり可能性がある転写ドライバーをそのように同定するために、転写情報(およびCONEXICの場合はコピー数)を取り入れる。しかし、これらのツールは、関心の単一目標を同定する機能的ネットワークに異なるドライバーを分類するよう試みることはない。いくつかの新しい経路アルゴリズム、例えばNetBoxおよびMutual Exclusivity Modules in Cancer(MEMo)は、癌のデータ統合の問題を解決して、それによって発癌の可能性のある試料にとって鍵となる複数のデータ型にわたるネットワークを同定するよう試みる。
そのようなツールは経路にわたり少なくとも一部の限定された統合がネットワークを見つけることを可能にするが、これらのツールは概して、調節情報および、関連する経路または経路のネットワークにおける複数の効果とのそのような調節情報の関連を提供できない。性能を改善しようとする試みにおいて、GIENAは単一の生物学的経路内の調節不全の遺伝子相互作用を探すが、経路のトポロジーあるいは相互作用の方向性または性質についての事前知識を考慮しない。さらに、これらのモデリングシステムの比較的不完全な性質のため、特に複数の経路および/または経路要素の相互作用が調査中の場合、予測分析は不可能なことが多い。
最近になって、in vivo経路のインシリコ経路モデルを得るために改善されたシステムおよび方法が記載されており、代表的なシステムおよび方法は国際公開第2011/139345号および同第2013/062505号に記載される。そのようなモデルのさらなる精密化は、異なる経路要素および経路間の相互相関を特定することに役立つ方法を開示する、国際公開第2014/059036号(本明細書では総称的に「PARADIGM」と呼ぶ)で提供された。そのようなモデルは有益な洞察、例えば、種々のシグナル伝達経路の相互接続性および種々の経路を通るシグナルの流れに対する洞察を提供するが、そのようなモデリングを使用する多数の態様は理解されておらず、認識さえされていなかった。
本明細書ではすべての刊行物は、個々の刊行物または特許出願が参照により組み入れられることを具体的にかつ個々に示されるかのように、同程度に、参照により組み入れられる。組み入れた参考文献の用語の定義または用法が本明細書に示すその用語の定義と矛盾するまたは相反する場合、本明細書に示すその用語の定義が適用され、参考文献のその用語の定義は適用されない。
さらなる進展は、国際公開第2014/193982号に記載のようにPARADIGMからの洞察を用いてなされた。ここで、複数のモデルは、複数の異なるデータセットを受け取り、かつ疾患細胞の処置パラメータ(例えば薬物による処置)の状態(例えば感受性または抵抗性)に関連する異なるデータセット中の経路決定要素を特定する、機械学習システムから得られる。そのようなシステムは、可能性がある処置法に対する洞察を有利に提供する。しかし、機械学習システムから得られる極めて多くの潜在的に有効なモデルは、処置結果の単純な予想を難しくする。
一方で、米国特許出願第2004/0193019号に記載のように、判別分析に基づくパターン認識が、特定の生物学的プロファイル情報を処置結果情報と関連させるモデルを作成するために開示される。次いで、予測モデルを用いて、処置に対して起こり得る応答にランクを付ける。そのような方法は患者固有プロファイル情報に基づく可能性がある結果を評価するのに役立つが、分析は判別分析で用いられるパラメータによって一般的に偏る。さらに、そのような分析は、対応する薬物および病状の病歴データを考慮するだけであり、したがって他の関連のない病状でのみ効果的であることが知られている薬物の発見を限定する。加えて、対応する薬物および病状の病歴データの入手可能性は、そのような方法の有用性をさらに限定する傾向がある。
このように、薬物応答の予測のための種々のシステムおよび方法が当技術分野で周知であるが、高い信頼性で薬物について簡単で確固たる処置予測を可能にし、かつとらわれない方法で適切な薬物の同定を可能にするシステムおよび方法の必要性は依然として存在する。
本発明の主題は、複数の先験的な既知の細胞系ゲノミクスおよび薬物応答データを用いて、患者の処置のための薬物を同定するために統計的に制御された方法で実際の患者データで次いでテストされる多数の応答(治療結果)予測因子を構築する、種々の装置、システム、および方法に関する。異なる観点から見て、本発明者らは、患者の経路モデルを予測スコアのゲインが高い応答予測因子と一致させることにより、望ましく高い信頼性で処置の成功または成功が予測され得る1種または複数種の薬物が容易に同定されることを発見した。
さらに、意図されるシステムおよび方法はまた、それに関してその薬物が治療上効果的であるとこれまでに知られていなかった疾患での処置のための薬物の発見も可能にする。
本発明の主題の一態様において、本発見者らは、種々のシステム、方法、および患者において癌の処置のための薬物を同定するプログラム命令を含む非一時的コンピュータ可読媒体を意図する。最も好ましい態様において、機械学習システムは分析エンジンに情報的に連結され、および機械学習システムを用いて第1の薬物に対する第1の細胞の応答に関して第1の細胞について第1の応答予測因子を算出し、ここでは第1の応答予測因子が、第1の細胞の経路モデルと、第1の薬物に対する第1の細胞の既知の応答とを含む訓練データを用いて算出される。機械学習システムをさらに用いて、第2の薬物に対する第2の細胞の応答に関して第2の細胞について第2の応答予測因子を算出し、ここでは第2の応答予測因子が、第2の細胞の経路モデルと、第2の薬物に対する第2の細胞の既知の応答とを含む訓練データを用いて算出される。分析エンジンは第1および第2の応答予測因子についてそれぞれのヌルモデルを次いで算出し、患者の経路モデルを用いて第1および第2の応答予測因子によりそれぞれの処置応答をさらに算出する。さらに、分析エンジンはそれぞれのヌルモデルを用いて、それぞれの算出された処置応答に次いでランクを付け、そのランク付けを用いて、薬物を同定する。
意図される機械学習システムは、線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、および/またはNMF予測因子アルゴリズムを含む種々の分類子を用いることができる。さらに、注目すべきは、機械学習システムがそれぞれ複数の異なる第1の応答予測因子と、それぞれ複数の異なる第2の応答予測因子とを作成するために、好ましくは複数の異なる分類子を用いることに留意されたい。
本発明の主題を限定するものではないが、第1および第2の細胞は異なる癌細胞であり、および/または第1および第2の薬物は異なる薬物であることが意図される。経路モデルに関して、好適なモデルは、因子グラフベースのモデル(例えば、PARADIGM)、発現データの収集、および/またはコピー数の収集が含まれることが意図され、それらは因子グラフベースのモデルでさらに処理され得る。
最も一般的に、既知の応答は、薬物に対する処置感受性または薬物に対する処置抵抗性であり、およびヌルモデルは、第1および第2の応答予測因子の計算で用いられる訓練データ以外の訓練データを用いて算出される。第1および第2の応答予測因子が完全に訓練されたモデルであること、およびランクを付けるステップが、対応するヌルモデルと比較して算出された処置応答の精度ゲインを用いることがさらに好ましい。
本発明の主題の別の態様において、本発明者らは、種々のシステム、方法、および患者における癌の処置のための薬物を同定する方法のためのプログラム命令を含む非一時的コンピュータ可読媒体を意図する。ここでは、応答予測因子データベースは分析エンジンに連結され、および応答予測因子データベースは分析エンジンに複数の応答予測因子を提供する。応答予測因子の各々は、細胞の経路モデルと薬物に対する細胞の既知の応答とを含む訓練データを用いる機械学習システムによって算出されるのが好ましい。分析エンジンは、ランダムに選択された複数の経路モデルを次いで用いて複数の応予測因子についてそれぞれのヌルモデルを作成し、および患者経路モデルをさらに用いて複数の応答予測因子についてそれぞれのテストモデルを作成する。最も一般的に、分析エンジンは次いで、、それらの対応するヌルモデルと比較して予測スコアにおけるそれらのそれぞれのゲインによりそれぞれのテストモデルのランクを付け、およびランク付けしたテストモデルにおけるランクに基づいて薬物を同定する。
最も一般的には、必ずしもそうとは限らないが、複数の応答予測因子は、完全に訓練されたモデルでありおよび/または高精度ゲインモデルである。上述したように、機械学習システムは線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、およびNMF予測因子アルゴリズムを含む、種々の分類子を使用できると意図される。
最も一般的に、意図される経路モデルとしては、因子グラフベースのモデル(例えば、PARADIGM)、発現データの収集、および/またはコピー数の収集が挙げられる。経路モデルは癌および一致した正常組織データから作成され得ることが、さらに意図される。所望の場合には、ランダムに選択された経路モデルはそれぞれ異なった細胞から生成され、複数のランダムに選択された非患者経路モデルを用いて、複数の応答予測因子(それらは次いでヌルモデルで比較され得る)についてそれぞれ患者ヌルモデルを作成できる。
本発明の主題の種々の目的、特徴、態様および利点は、同じ番号が同じ部品を表す添付図面の図とともに、以下の発明を実施するための形態からより明らかになろう。
A−C。応答予測因子の例示的な態様を模式的に示す。 本発明の主題によるプロセスを例示的にかつ模式的に示す。 本発明の主題によるプロセスを例示的にかつ模式的に示す。 ヌルモデルに対しより高精度のゲインを有する応答/モデルをより低精度ゲインを有するそれの左に配置した、算出した処置応答/テストモデルのランク付けリストを例示的に示す。左端の算出された処置応答/テストモデルは、最高精度ゲインでダサチニブへの患者の感受性を予測した。 異なる経路モデルを用いる異なる算出についての精度ゲインの例示的な結果を表す。 細胞系型によって分類されたダサチニブ感受性を例示的に示す。 ヒトTCGA腫瘍型によって分類されたダサチニブ感受性を例示的に示す。
機械が学習した圧倒的な量の予測モデルは作成することが可能であり、種々のオミクスデータセットおよび/またはオミクスデータセットから作成される経路モデルに基づいて予測(例えば感受性)スコアの算出を可能にする。残念ながら、これらのモデルのすべては、例えば、機械学習および経路構造の基礎をなす数学的仮定、オミクスデータを得るための特定の細胞培養物または生検試料の使用、細胞培養物また生検試料ともに用いられる薬物などに起因して、種々の固有バイアスを有する。それにもかかわらず、これらのモデルのすべては、実際の細胞生物学的プロセスに基づいており、したがって少なくとも潜在的に有用な洞察を提供する。しかし、多様なモデルのいずれも、どのモデルが患者のオミクス試料との一致を提供するかに関して、または特定の薬物が患者において所望の処置結果をもたらす可能性があるかどうかを予測する経路モデルに関していかなるガイダンスも提供しない。
本発明者らは、今では、実際の患者デ−タ、特に患者のデータからの経路モデルを、対応するヌルモデルをこえる所望の精度の高いゲインを有する応答予測因子と一致させるためのシステムおよび方法を発見しており、それは次に、治療効果を有することが高い確率で予測される薬物の同定を可能にする。そのような状況において、図1Aに単純化したように、例示的な応答予測因子(予測モデル)は、感受性スコアまたは予測スコアを与える機械学習アルゴリズムから得られる多変量式として見なすことができる。より詳しくは、さらに図1Bに例示的に示すように、応答予測因子は、薬物に曝露された細胞培養物または組織から生成されたオミクスデータおよび/または経路モデルを用いる機械学習アルゴリズムを使用して作成される。図1Bに示すように、細胞および組織は薬物に曝露され、次いで感受性は、最も一般的には陰性対照群かそでなければ対比対照群(例えば薬物を用いない、または異なる細胞型を用いる)と比較して、観察される(例えば、IC50、EC50などとして定量化される、または感受性もしくは抵抗性として量的に評価される)。次いで、細胞/組織からのオミクスデータおよび/または経路モデルは、訓練データとして観察される因子とともに機械学習アルゴリズムで用いられて、応答予想因子に達する。もちろん、同じオミクスデータおよび/または経路モデルならびに観察された因子は訓練データとして複数の機械学習アルゴリズムで用いることが可能であることが理解されるべきであり、当然のことながら、すべての既知の機械学習アルゴリズムは本明細書での使用に適していると考えられる。したがって、一式のインビトロ実験は多様な訓練されたモデル(すなわち、それぞれ機械学習アルゴリズムによって作成される応答予測因子)を提供できることが理解されるべきである。また、当技術分野で周知のように、利用できるデータを訓練セットと評価セットに分けて、訓練されたモデルを得ることができ、またはすべてのデータを用いて完全に訓練されたモデルを得ることができる。異なる観点から見ると、および図1Cに模式的に示すように、応答予測因子は、薬物に対する細胞または組織の感受性がわかっている、薬物がわかっている、かつオミクスデータおよび/または経路モデルが細胞または組織から容易に得られる訓練データを用いる、機械学習アルゴリズムを使用して作成できる。そのようにして作成された訓練モデルは、前述のように、薬物に対する細胞または組織の感受性がわかっている、薬物がわかっている、オミクスデータおよび/または経路モデルが細胞または組織から容易に得られる訓練データと同じデータセットから得ることができる評価データを用いて確認できる。したがって、当然のことながら、多数のインビトロ検査は、患者のオミクスデータまたは経路モデルとともに次いで算出に用いることができる多種多様な応答予測因子の基礎を形成する。これらの応答予測因子と組み合わせて患者オミクスデータまたは経路モデルを用いることで、薬物に対する予測応答スコア(予測される処置結果、または予測される感受性)が次いで提供される。
最も有利には、意図されるシステムおよび方法は、薬物および細胞型または組織型に関連する、増え続ける数のオミクス情報を活用することを認識すべきである。そのような情報を使用して、非常に多くの個別応答予測因子を作成できる。応答予測因子の収集は特定の癌型および/または治療薬物にさえ限定される必要がないことを、さらに認識すべきである。例えば、さらに以下により詳細に説明するように、本発明者らは、経路モデルオミクスデータとして、一般公開されている情報(例えばCCLE式、CCLEコピー数、Sanger式、Sangerコピー数)から異なるオミクスデータセットを入手し、同オミクスデータを因子グラフベースの経路モデル(本明細書ではPARADIGM)でも用いて、最終的に139種の異なる薬物が報告された10の異なる入力データ収集に至った。これらの経路モデルおよび既知の薬物応答を次いで、13種の異なる機械学習アルゴリズム(線形カーネルSVM、一次多項式カーネルSVM、二次多項式カーネルSVM、リッジ回帰、Lasso、エラスティックネット、逐次最小問題最適化、ランダムフォレスト、J48ツリー、ナイーブベイズ、JRipルール、HyerPipesおよびNMF予測因子)にかけ、合計176,112の応答予測因子を得た。
これに関連して、各種の応答予測因子は、同一のデータで訓練された場合でも、得られる応答予測因子が他種の応答予測因子に対しどのように作用するかに影響を及ぼし得る、固有のバイアスまたは仮定を含むことに留意すべきである。したがって、同じ訓練データセットを使用する場合、異なる応答予測因子は異なる予測/精度ゲインを作成する。これまで、予測結果を改善する試みの中で、同じデータセットで正確な予測を増やすために単一の機械学習アルゴリズムを最適化した。しかし、アルゴリズムの固有のバイアスのため、そのような最適化によって予測性の精度(すなわち「コイントス」に対する正確な予測性能)が必ずしも上がるわけではない。そのようなバイアスは、関連するメタデータを有する疾患特異的データセット上の異なる基本原理および分類子を用いて多数の多様な応答予測因子を訓練することによって、および対応するヌルモデルについて所望の予測力を有する予測因子をそのように訓練された応答予測因子から選択することによって、克服可能である。
もちろん、当然のことながら、上記は例示的かつ比較的限定されたデータセットにすぎず、多数の追加のデータ(例えばインビトロデータ、臨床試験データ、研究データ、処置データなど)は、それぞれがそれぞれの薬物と組み合わせて用いられ、かつそれぞれが異なる機械学習アルゴリズムを用いて算出されて、極めて多くの数の(例えば100,000〜500,000の間、もしくは500,000と1,000,000の間、もしくは1,000,000と5,000,000の間、もしくは5,000,000と10,000,000の間、およびさらに多く)個別応答予測因子に達することが可能である。明らかなように、そのような算出は、コンピューティングインフラストラクチャーなしでは、複数回の人間の一生をはるかに超えてしまう。
また、容易に認識されるように、コンピューティングインフラストラクチャーがあっても、そのように大きなデータ量は、患者の実際のデータセット(オミクスデータまたは経路モデル)が細胞培養または組織培養のデータセットと並べられる、莫大な計算労力を必要とする。本発明者らは、今では、応答予測因子の大量の収集でも、シミュレートしたヌルセットおよび実際の患者データセット(オミクスデータまたは経路モデル)を用いて、単一の応答予測因子について2つの予測応答を算出することによって概念的に簡単な方法で、効果的かつ迅速に分析することができることを発見した。予測応答間の相違を次いで用いて、単一応答予測因子の性能を評価する。その方法では、比較的簡単な算出だけが必要であり、応答予測因子が比較的単純なので比較的わずかな時間で行なうことができる(図1Aおよび1Bを参照されたい)。
したがって、本明細書に示す本発明の主題は、ヒトの能力を超えて、膨大な量のデジタルデータ上で作用するコンピューティングデバイスの構築または構成を可能にすることに留意されたい。デジタルデータはオミクスデータおよび処置結果の機械訓練したコンピュータモデルを表すことができるが、当然のことながら、デジタルデータは、実際のアイテムではなく、そのような現実世界のアイテムのうちの1または複数のデジタルモデルを表す。むしろ、コンピュータデバイスのメモリ中のそのようなデジタルモデルのインスタンス化を介して、本明細書に開示するようにコンピューティングデバイスを適切に構成するまたはプログラムすることによって、コンピューティングデバイスは、ヒトの能力を超える方法でデジタルデータまたはモデルを管理できる。さらに、そのような構成なしではコンピューティングデバイスは先験的な機能を欠く。加えて、当然のことながら、本発明の主題は、複雑なオミクス算出のコンピュータ分析に固有の問題を大幅に改善/軽減する。
異なる観点から見ると、当然のことながら、本システムおよび方法をコンピュータ技術で用いて、オミクスデータのコンピューティングモデルに固有の問題を解決する。このように、コンピュータなしでは、問題、したがって本発明の主題は、存在しなかっただろう。より具体的には、本明細書に示すシステムおよび方法は、他よりも精度ゲインが大きい1または複数の応答予測因子モデルをもたらし、それによって実際の患者データに基づいて予測結果を作成する際に遅延時間が少なくなる。
コンピュータ、分析エンジン、または機械学習システムを対象とするいずれの語も、コンピューティングデバイス、例えばサーバ、インタフェース、システム、データベース、エージェント、ピア、エンジン、コントローラ、モジュール、または個別にもしくは集合的に作動する他のタイプのコンピューティングデバイス、の任意の適切な組み合わせを含むものと解釈すべきであることに留意されたい。コンピューティングデバイスは有形の非一時的コンピュータ可読記憶媒体(例えば、ハードドライブ、FPGA、PLA、ソリッドステートドライブ、RAM、フラッシュ、ROMなど)上に格納されたソフトウェア命令を実行するように構成されたプロセッサを含むことを認識されたい。開示する装置に関して後述するように、ソフトウェア命令は、役割、責任または他の機能性を提供するために、コンピューティングデバイスを構成する、さもなければプログラムする。さらに、開示する技術は、コンピュータベースのアルゴリズム、プロセス、方法、または他の命令の実現と関連して開示されるステップをプロセッサに実行させるソフトウェア命令を格納する非一時的コンピュータ可読媒体を含む、コンピュ−タプログラム製品として具体化できる。いくつかの実施形態において、種々のサーバ、システム、データベースまたはインタフェースは、HTTP、HTTPS、AES、公開鍵/秘密鍵交換、ウェブサービスAPI、既知の金融取引プロトコル、または他の電子情報交換方法におそらく基づいて、標準プロトコルまたはアルゴリズムを使用してデータの交換を行う。デバイス間のデータ交換は、パケット交換ネットワーク、インターネット、LAN、WAN、VPN、または他の種類のパケット交換網、回線交換網、および/またはセル交換網上で行なわれてよい。
本明細書の記述および添付の特許請求の範囲を通して用いられるように、システム、エンジン、サーバ、デバイス、モジュール、または他の演算器がメモリ内のデータ上で機能を果たす、または実行するように構成されると記述される場合、「構成される」または「プログラムされる」の意味は、メモリに格納される目標データまたはデータオブジェクト上で一連の機能を実行する、または作動するように、演算器のメモリに格納される一連のソフトウェア命令によって、演算器の1または複数のプロセッサもしくはコアがプログラムされると定義される。
図2Aのフローチャートは上記を例示的に示し、図2Bは図2Aのチャートのより詳細な概要を示す。ここでは、多数の異なる既知の細胞系(例えば、肝細胞および膵細胞)が異なる薬物(例えば、D、D....D)を用いて試験され、それらの薬物に対する感受性または抵抗性が知られ、もしくは確立され、およびそれぞれの細胞培養について、オミクス分析および経路モデリングが対応する経路モデルに達するように(例えば、特定の薬物(D)で処置された特定の細胞型(A)の肝細胞についてL−PMA1、など)行なわれた。この情報(例えば、特定の細胞についての薬物応答および経路モデル、一般的に陰性対照および/または他のパラメータと組み合わせて)を用いて、特定の応答予測因子(例えば、RP−LA1)が特定の機械学習アルゴリズムを使用して算出できる。上述したように、複数の異なる薬物、オミクスデータセット、経路モデリングおよび細胞型は、複数の異なる機械学習アルゴリズムとともに用いることができ、これにより利用可能な応答予測因子(図2Bの例には図示せず)の数は指数関数的に増加する。
このように作成された応答予測因子は次いで応答予測因子データベースへと結集される。
一旦応答予測因子が作成されると、予測品質が評価され、最も好ましくはランダム選択を超える予測力を有する応答予測因子が保持される。異なる観点から見て、モデルはそれらのゲインの精度について評価されてよい。精度を評価する多数の方法があり、特定の選択は、使用するアルゴリズムに少なくとも部分的に依存し得る。例えば、好適な測定基準としては、対応するモデルの精度値、精度ゲイン、性能測定基準、または他の測定尺度が挙げられる。さらなる測定基準の例としては、曲線下面積測定基準、R、p値測定基準、シルエット係数、混同行列、または応答予測因子の性質に関する他の測定基準が挙げられる。応答予測因子の数または精度分布に応じて、当然のことながら、予測で用いられる応答予測因子は、最上位モデル(最高精度ゲインまたは最高精度スコアなどを有する)として、もしくは上位n−分位(三分位、四分位、五分位など)内にあるとして、もしくはすべてのモデルの上位n%(上位5%、上位10%など)内にあるとして選択されてよい。例えば、高精度ゲインモデルは、一般的に精度ゲインの上位四分位内にある。
このデータベースは次いで、データベース内のそれぞれの応答予測因子についてヌルモデルを用いて、実際の患者データについての高予測スコアとの一致の統計的選択で用いられる。より具体的には、ヌルモデルは、適度な数(例えば100〜500、もしくは500〜1,000、もしくは1,000〜10,000)のランダムに選択されたデータセット(例えば、応答予測因子の算出で使用されるが、それに対してヌルモデルが作成される応答予測因子の算出では使用されない、経路モデルまたはオミクスデータセット)を用いてそれぞれの応答予測因子について算出される。期待し得るように、ヌルモデルは、バックグラウンドシグナル分布(例えば、平均および標準偏差)を無関係な、またはあまり一致しない経路モデルまたはオミクスデータに提供する。次いで、実際の患者データをデータベースの応答予測因子で用いて、予測スコア(感受性スコアまたは抵抗性スコア)を作成し、したがって2つの結果がデータベースの各応答予測因子に利用できる。繰り返して、このような算出は、応答予測因子の単純化されたデータ構造のため迅速であり、一般に行われるような、患者データをインビトロモデルデータに適合させようとする機械学習プロセスを必要としない。
1つの応答予測因子が実際の患者データについての高予測スコア(例えば、高レベルの感受性または抵抗性)と、ランダムに選択されたデータセット(バックグラウンドシグナル)についての平均予測スコアとを予測する状況では、高スコアは生スコアとして記載され、次いでバックグラウンドシグナル分布を用いて調節されて、標準スコアに到達する。当然のことながら、この標準スコアは、元は特定の細胞または組織の薬物を用いて算出された応答予測因子の能力との患者データセットの一致を特徴付ける。したがって、患者データセット(経路モデルまたはオミクスデータ)を用いる応答予測因子のより高い予測スコアは、応答予測因子で用いた薬物による処置に対する患者の応答も正確に予測され得ることを示す。異なる観点から見ると、元の患者データセットが予測モデルの算出で用いられた元のデータセットにより類似している場合、より高い予測スコアが観察される(この予測モデルは特定の薬物に対する応答を予測するために最適化されているので)。図2は、ヌルモデルと対応するテストモデルまたはTopmodel(対応するモデルの中で最高の精度ゲインを有するモデル)との間の例示的な比較を提供し、生スコアでの差異、およびより好ましくは標準スコアでの差異が次いでランク付けに使用される。上位ランキングの応答予測因子およびその関連する薬物が同定され、そうして同定された薬物(アスタリスクが1つまたは2つ付いた)を処置のために次に提案するまたは使用することができる。
以下の表1に示すように、グリア芽細胞腫と診断された患者からのオミクスおよび経路データと異なる細胞型および薬物ならびに薬物に対する関連する感受性を用いて既知データから構築された応答予測因子とに基づいて、ダサチニブが患者に適した薬物として同定された。
Figure 0006382459
上記を用いて、29,352の完全に訓練された薬物応答モデルが構築され、146,760のさらなる評価モデルが構築され(5倍CVで)、176,112の全モデルが分析された。患者由来のゲノムスケールデータを、マイクロアレイまたはシーケンシング技術を用いて個々の癌試料から収集した。いくつかの独立したアッセイを、同じ試料で実施して(例えば、発現プロファイリングおよびコピー数推定の両方)、どのデータ型が最良の予測を提供するかを評価した。これらのデータは、PARADIGMを用いて因子グラフベースのモデルに組み込んだ。−オミクスデータのエビデンスが与えられた経路ネットワークの最も可能性の高い状態が推定され、推測される経路活動(経路モデル)として報告される。したがって、意図されるシステムおよび方法は、単一モデルの予測最適化にも、選択されたオミックスパラメータと処置予測との最良の相関性の同定にも基づいていないことが、特に認識されるべきである。
このように構築された応答予測因子データベースおよび患者データを用いて、1,000のランダムに選択されたデータセットを有するそれぞれの応答予測因子についてヌルモデルを算出し、各ヌルモデルについて平均および標準偏差を記録した。それぞれの応答予測因子について患者データセットを使用してテストモデルも次いで算出し、それぞれのヌルモデルからの結果を用いて結果を標準化した。図3は、標準化スコアのランキングを例示的に示す。ここで、各垂直線は、特定の薬物によってグループ化された多数の応答予測因子の平均、最小、および最大の結果を表す。図3に示すように、左の応答予測因子はより一貫して正確に予測され、最も一貫して予測された薬物はダサチニブである。特に、ダサチニブはもともと経口Bcr−Ablチロシンキナーゼ阻害剤(「フィラデルフィア染色体」を阻害する)として開発され、慢性骨髄性白血病およびフィラデルフィア染色体陽性急性リンパ芽球性白血病患者の第一選択薬として承認されたことを理解すべきである。したがって、患者における薬物に対する応答は、オミクスデータ/経路モデルの特定のセットに応じて薬物応答を予測するよう各モデルが最適化された一群の予測モデルへの入力データとして用いる場合、患者のオミクスデータ/経路モデルに基づいて予測できることを理解すべきである。さらに、予測された結果をヌルモデルと比較することにより、バックグラウンドを上回る統計的に関連する予測が報告される。さらに、患者データが固有のバイアスを持ち込まないことを確実にするために、置換もまた患者データから作成されてよく、ヌルモデルについて記載の方法で次いで分類されて、患者データおよびヌルモデルが同様に分布されることを確実にする。
本明細書での使用に適したオミクスデータおよび経路モデルに関しては、すべてのオミクスデータおよび経路モデルが適切であるとみなされ、例示的なオミクスデータは全ゲノム配列データ、エクソム配列データなどの配列データ、特に腫瘍対正常のデータを含むことに留意されたい。さらに、適切なオミクスデータはまた、トランスクリプトミクスデータおよびプロテオミクスデータも含む。同様に、適切な経路モデルは、遺伝子セットエンリッチメント解析(GSEA,Broad Institute)に基づくモデル、シグナル伝達経路の影響分析(SPIA、Bioconductor)に基づくモデル、および病理医経路モデル(NCBI)、ならびに因子グラフベースのモデル、および国際公開第2011 /139345A2号、同第2013/062505A1号、および同第2014/059036号に記載の特にPARADIGMを含み、これらの国際公開のすべては参照により本明細書に組み込まれる。図4は、オミクスデータおよび経路モデル型の機能として平均精度を示す例示的な比較の結果を示す。明確に示されるように、最高の精度は、経路モデルを得るためのPARADIGMを用いて処理したSanger式を用いて達成された。同様に高精度が、Sanger式とコピー数データを用いて達成され、ここでも、対応する経路モデルを得るためにPARADIGMを用いて処理した。注目すべきことに、経路モデリングなしのSanger式データ単独でも、やや低いが、比較的高い精度をもたらした。コピー数オミクスデータのみは、それ自体でまたはPARADIGMを用いて処理され、やや低くランク付けた。
このようにして得られた予測の精度を、細胞系についてオミクスデータおよび経路モデルを用いてクロスチェックし、その結果を図5に示す。ここで、調節した感受性スコアをプロットし、黒丸は感受性データが利用できた予測を示し、白丸は感受性データが利用できなかった予測を示し、Xの標識は予測が不正確であることを示す。注目すべきことに、神経細胞系におけるダサチニブに関する予測精度は77.8%であり、これは神経膠芽腫患者に関する予測と一致した。同様に注目すべきは、ダサチニブ抵抗性は正確に予測することができ、ならびに図5から得ることができる。図6からわかるように、細胞系の訓練パネルに対応する組織でのTCGA試料からの主要な患者データを用いて同様のクロスチェックを行った。組織効果は細胞系と患者データの間で同様に作用することに留意されたい。例えば、神経系統と同様に、GBM患者試料は応答者および非応答者のサブセットを含むことが予測される。加えて、ダサチニブはヒト腎明細胞癌に対する優れた代替薬候補であり得ることに留意されたい。
本明細書の使用に適したさらなる考察は、2016年1月19日に出願の表題「Ensemble−Based Research Recommendation Systems and Methods」、国際公開第2014/193982号およびPCT/US国際出願第16/13959号に開示される。これらは参照により本明細書に組み込まれる。
既に説明したものの他に多くの修正が本明細の本発明の概念から逸脱することなく可能であることは当業者には明らかであろう。したがって、本発明の主題は、添付の特許請求の範囲を除いて限定されるものではない。さらに、明細書および特許請求の範囲の両方を解釈する際に、すべての用語は文脈と一致する最も広い可能な方法で解釈されるべきである。特に、「含む」および「含んでいる」という用語は、非排他的な方法で要素、成分またはステップを指すものとして解釈されるべきで、参照される要素、成分またはステップは存在しても、もしくは利用されても、もしくは明白に参照されてない他の要素、成分またはステップと組み合わせてもよいことを示す。ここで、明細書の特許請求の範囲は、A、B、C ....およびNからなる群から選択されるもののうちの少なくとも1つを指す場合、本文は、AプラスNまたはBプラスNなどではなく、その群からただ1つの要素を必要とすると解釈されるべきである。

Claims (38)

  1. 患者における癌の処置のための薬物を同定する方法であって、
    機械学習システムを分析エンジンに情報的に連結させることと、
    第1の薬物に対する第1の細胞の応答に関して前記第1の細胞についての第1の応答予測因子を算出するために機械学習システムを用いることであって、前記第1の応答予測因子が前記第1の細胞の経路モデルと、前記第1の薬物に対する前記第1の細胞の既知の応答とを含む訓練データを用いて算出されること、
    第2の薬物に対する第2の細胞の応答に関して前記第2の細胞についての第2の応答予測因子を算出するために機械学習システムを用いることであって、前記第2の応答予測因子が前記第2の細胞の経路モデルと、前記第2の薬物に対する前記第2の細胞の既知の応答とを含む訓練データを用いて算出されること、
    前記第1および前記第2の応答予測因子についてそれぞれのヌルモデルを、前記分析エンジンによって算出することと、
    前記患者の経路モデルを用いる前記第1および前記第2の応答予測因子によるそれぞれの処置応答を、前記分析エンジンによって算出すること、および前記それぞれのヌルモデルを用いてそれぞれの算出された処置応答を、前記分析エンジンによってランク付けることと、
    前記薬物を同定するために前記ランク付けを使用することと、
    を含む、方法。
  2. 前記機械学習システムが線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、およびNMF予測因子アルゴリズムからなる群から選択される分類子を用いる、請求項1に記載の方法。
  3. 前記機械学習システムがそれぞれ複数の異なる第1の応答予測因子とそれぞれ複数の異なる第2の応答予測因子とを作成するために複数の異なる分類子を用いる、請求項1〜2のいずれか1項に記載の方法。
  4. 前記第1および第2の細胞が異なる癌細胞である、請求項1〜3のいずれか1項に記載の方法。
  5. 前記第1および第2の薬物が異なる薬物である、請求項1〜4のいずれか1項に記載の方法。
  6. 前記経路モデルが因子グラフベースのモデル、発現データの収集、またはコピー数の収集である、請求項1〜5のいずれか1項に記載の方法。
  7. 前記因子グラフベースのモデルがPARADIGMである、請求項6に記載の方法。
  8. 前記既知の応答が薬物に対する処置感受性または前記薬物に対する処置抵抗性である、請求項1〜7のいずれか1項に記載の方法。
  9. 前記ヌルモデルが前記第1および第2の応答予測因子の算出で用いられる訓練データ以外の訓練データを用いて算出される、請求項1〜8のいずれか1項に記載の方法。
  10. 前記第1および第2の応答予測因子が完全に訓練されたモデルである、請求項1〜9のいずれか1項に記載の方法。
  11. 前記ランク付けるステップが前記対応するヌルモデルと比較して算出された処置応答の精度ゲインを用いる、請求項1〜10のいずれか1項に記載の方法。
  12. 患者における癌の処置のための薬物を同定する方法であって、
    応答予測因子データベースを分析エンジンに情報的に連結させることと、
    前記分析エンジンに複数の応答予測因子を、前記応答予測因子データベースによって提供することであって、前記応答予測因子のそれぞれが細胞の経路モデルと、薬物に対する前記細胞の既知の応答とを含む訓練データを用いる機械学習システムによって算出されること、
    前記複数の応答予測因子に対してそれぞれのヌルモデルを作成するためにランダムに選択された複数の経路モデルを、前記分析エンジンによって用いることと、
    前記複数の応答予測因子に対してそれぞれのテストモデルを前記分析エンジンによって作成するために患者経路モデルを、前記分析エンジンによって用いることと、
    それらの対応するヌルモデルと比較して予測スコアにおけるそれらのそれぞれのゲインによるそれぞれのテストモデルを、前記分析エンジンによってランク付けることと、
    前記ランク付けしたテストモデルにおけるランクに基づいて薬物を、前記分析エンジンによって同定することと、
    を含む、方法。
  13. 前記複数の応答予測因子が完全に訓練されたモデルである、請求項12に記載の方法。
  14. 前記複数の応答予測因子が高精度ゲインモデルである、請求項1213のいずれか1項に記載の方法。
  15. 前記機械学習システムが線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、およびNMF予測因子アルゴリズムからなる群から選択される分類子を用いる、請求項1214のいずれか1項に記載の方法。
  16. 前記経路モデルが因子グラフベースのモデル、発現データの収集、またはコピー数の収集である、請求項1215のいずれか1項に記載の方法。
  17. 前記経路モデルが癌および一致した正常組織データから作成される、請求項1216のいずれか1項に記載の方法。
  18. 前記ランダムに選択された経路モデルがそれぞれ異なる細胞から生成される、請求項1217のいずれか1項に記載の方法。
  19. 複数の応答予測因子についてそれぞれの患者ヌルモデルを作成するためにランダムに選択された複数の非患者経路モデルを、前記分析エンジンによって用いるステップ、および前記患者ヌルモデルを前記ヌルモデルと比較するステップをさらに含む、請求項1218のいずれか1項に記載の方法。
  20. 患者における癌の処置のための薬物を同定するためのシステムであって、
    前記システムが分析エンジンに情報的に連結される機械学習システムを含み
    前記機械学習システムが第1の薬物に対する第1の細胞の応答に関して前記第1の細胞について第1の応答予測因子を算出するようにプログラムされ
    前記第1の応答予測因子が前記第1の細胞の経路モデルと、前記第1の薬物に対する前記第1の細胞の既知の応答とを含む訓練データを用いて算出され
    前記機械学習システムが第2の薬物に対する第2の細胞の応答に関して前記第2の細胞について第2の応答予測因子を算出するようにプログラムされ
    前記第2の応答予測因子が前記第2の細胞の経路モデルと、前記第2の薬物に対する前記第2の細胞の既知の応答とを含む訓練データを用いて算出され
    前記分析エンジンが前記第1および第2の応答予測因子についてそれぞれのヌルモデルを算出するようにプログラムされ
    前記分析エンジンが前記第1および第2の応答予測因子によるそれぞれの処置応答を患者の経路モデルを用いて算出するように、および前記それぞれの算出された処置応答を前記それぞれのヌルモデルを用いてランク付けるようにさらにプログラムされ
    前記分析エンジンが前記ランク付けを用いて前記薬物を同定するようにさらにプログラムされる、システム。
  21. 前記機械学習システムが線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、およびNMF予測因子アルゴリズムからなる群から選択される分類子を用いる、請求項20に記載のシステム。
  22. 前記機械学習システムがそれぞれ複数の異なる第1の応答予測因子とそれぞれ複数の異なる第2の応答予測因子とを作成するために複数の異なる分類子を用いる、請求項2021のいずれか1項に記載のシステム。
  23. 前記第1および第2の細胞が異なる癌細胞である、請求項2022のいずれか1項に記載のシステム。
  24. 前記第1および第2の薬物が異なる薬物である、請求項2023のいずれか1項に記載のシステム。
  25. 前記経路モデルが因子グラフベースのモデル、発現データの収集、またはコピー数の収集である、請求項2024のいずれか1項に記載のシステム。
  26. 前記因子グラフベースのモデルがPARADIGMである、請求項25に記載の方法。
  27. 前記既知の応答が薬物に対する処置感受性または前記薬物に対する処置抵抗性である、請求項2026のいずれか1項に記載のシステム。
  28. 前記ヌルモデルが前記第1および第2の応答予測因子の算出で用いられる訓練データ以外の訓練データを用いて算出される、請求項2027のいずれか1項に記載のシステム。
  29. 前記第1および第2の応答予測因子が完全に訓練されたモデルである、請求項2028のいずれか1項に記載のシステム。
  30. 前記ランク付けるステップが対応するヌルモデルと比較して算出された処置応答の精度ゲインを用いる、請求項2029のいずれか1項に記載のシステム。
  31. 患者における癌の処置のための薬物を同定するためのシステムであって、
    前記システムが分析エンジンに情報的に連結される応答予測因子データベースを含み
    前記応答予測因子データベースが前記分析エンジンに複数の応答予測因子を提供するようにプログラムされ、前記応答予測因子の各々が細胞の経路モデルと、薬物に対する前記細胞の既知の応答とを含む訓練データを用いて機械学習システムによって算出され
    前記分析エンジンが前記複数の応答予測因子についてそれぞれヌルモデルを作成するために複数のランダムに選択される経路モデルを用いるようにプログラムされ
    前記分析エンジンが前記複数の応答予測因子についてそれぞれテストモデルを作成するために患者経路モデルを用いるようにプログラムされ
    前記分析エンジンがそれらの対応するヌルモデルと比較して予測スコアにおけるそれらのそれぞれのゲインによって前記それぞれのテストモデルをランク付けるようにプログラムされ
    前記分析エンジンが前記ランク付けテストモデルにおけるランクに基づいて薬物を同定するようにさらにプログラムされる、システム。
  32. 前記複数の応答予測因子が完全に訓練されたモデルである、請求項31に記載のシステム。
  33. 前記複数の応答予測因子が高精度ゲインモデルである、請求項3132のいずれか1項に記載のシステム。
  34. 前記機械学習システムが線形カーネルサポートベクターマシン、一次または二次多項式カーネルサポートベクターマシン、リッジ回帰、エラスティックネットアルゴリズム、逐次最小問題最適化アルゴリズム、ランダムフォレストアルゴリズム、ナイーブベイズアルゴリズム、およびNMF予測因子アルゴリズムからなる群から選択される分類子を用いる、請求項3133のいずれか1項に記載のシステム。
  35. 前記経路モデルが因子グラフベースのモデル、発現データの収集、またはコピー数の収集である、請求項3134のいずれか1項に記載のシステム。
  36. 前記経路モデルが癌および一致した正常組織データから作成される、請求項3135のいずれか1項に記載のシステム。
  37. 前記ランダムに選択された経路モデルがそれぞれ異なる細胞から作成される、請求項3136のいずれか1項に記載のシステム。
  38. 前記複数の応答予測因子についてそれぞれの患者ヌルモデルを作成するためにランダムに選択された複数の非患者経路モデルを、前記分析エンジンによって用いるステップ、および前記患者ヌルモデルを前記ヌルモデルと比較するステップをさらに含む、請求項3137のいずれか1項に記載のシステム。
JP2017564869A 2015-06-15 2016-06-15 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法 Active JP6382459B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562175940P 2015-06-15 2015-06-15
US62/175,940 2015-06-15
PCT/US2016/037641 WO2016205377A1 (en) 2015-06-15 2016-06-15 Systems and methods for patient-specific prediction of drug responses from cell line genomics

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018145013A Division JP6609355B2 (ja) 2015-06-15 2018-08-01 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法

Publications (2)

Publication Number Publication Date
JP6382459B1 true JP6382459B1 (ja) 2018-08-29
JP2018527644A JP2018527644A (ja) 2018-09-20

Family

ID=57546065

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017564869A Active JP6382459B1 (ja) 2015-06-15 2016-06-15 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
JP2018145013A Active JP6609355B2 (ja) 2015-06-15 2018-08-01 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2018145013A Active JP6609355B2 (ja) 2015-06-15 2018-08-01 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法

Country Status (9)

Country Link
US (1) US20180190381A1 (ja)
EP (1) EP3308310A4 (ja)
JP (2) JP6382459B1 (ja)
KR (1) KR20180071243A (ja)
CN (1) CN108292329A (ja)
AU (1) AU2016280074B2 (ja)
CA (1) CA2989815A1 (ja)
IL (2) IL256370B (ja)
WO (1) WO2016205377A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11915832B2 (en) * 2018-12-24 2024-02-27 Medirita Apparatus and method for processing multi-omics data for discovering new drug candidate substance
US11721441B2 (en) * 2019-01-15 2023-08-08 Merative Us L.P. Determining drug effectiveness ranking for a patient using machine learning
WO2020250597A1 (ja) * 2019-06-12 2020-12-17 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
CN110223786B (zh) * 2019-06-13 2021-08-13 重庆亿创西北工业技术研究院有限公司 基于非负张量分解的药物-药物相互作用预测方法及系统
CN110491443B (zh) * 2019-07-23 2022-04-01 华中师范大学 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
KR102388998B1 (ko) * 2019-08-02 2022-04-22 재단법인 전통천연물기반 유전자동의보감 사업단 항암제의 내성을 극복하기 위한 민감제(sensitizer)를 예측하는 전산학적 방법 및 이를 위한 시스템
KR102182091B1 (ko) * 2019-10-07 2020-11-23 한국과학기술원 면역항암제에 대한 저항성을 예측하는 방법 및 분석장치
KR102482793B1 (ko) * 2019-12-12 2022-12-29 (주)유에스티21 인공지능데이터베이스서버에서 사용자 단말기에게 실시간으로 개별화된 건강관리정보를 제공하는 시스템 및 방법
CN111524554B (zh) * 2020-04-24 2023-03-24 上海海洋大学 基于lincs-l1000扰动信号的细胞活性预测方法
JPWO2021251331A1 (ja) * 2020-06-08 2021-12-16
GB202010922D0 (en) * 2020-07-15 2020-08-26 Univ London Queen Mary Method
CN113362895A (zh) * 2021-06-15 2021-09-07 上海基绪康生物科技有限公司 一种预测抗癌药物反应相关基因的综合分析方法
US20220406471A1 (en) * 2021-06-21 2022-12-22 International Business Machines Corporation Pathogenic vector dynamics based on digital twin
CN116110509B (zh) * 2022-11-15 2023-08-04 浙江大学 基于组学一致性预训练的药物敏感性预测方法和装置
CN117745717B (zh) * 2024-02-08 2024-04-26 江南大学附属医院 一种剂量学与深度学习特征预测放射性肺炎的方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021240A1 (en) * 2000-11-02 2005-01-27 Epigenomics Ag Systems, methods and computer program products for guiding selection of a therapeutic treatment regimen based on the methylation status of the DNA
CA2715825C (en) * 2008-02-20 2017-10-03 Mcmaster University Expert system for determining patient treatment response
EP2318548B1 (en) * 2008-08-15 2013-10-16 Merrimack Pharmaceuticals, Inc. Methods and systems for predicting response of cells to a therapeutic agent
US10192641B2 (en) * 2010-04-29 2019-01-29 The Regents Of The University Of California Method of generating a dynamic pathway map
CN104838372B (zh) * 2012-10-09 2018-11-02 凡弗3基因组有限公司 用于生物路径中的调控互动的学习和识别的系统和方法
BR112015017954A2 (pt) * 2013-01-29 2017-07-11 Molecular Health Gmbh sistemas e métodos para o suporte de decisão clínica
CA2920608C (en) * 2013-05-28 2018-07-24 Five3 Genomics, Llc Paradigm drug response networks
US20150342960A1 (en) * 2014-05-29 2015-12-03 Memorial Sloan Kettering Cancer Center Drug combinations for treatment of melanoma and other cancers

Also Published As

Publication number Publication date
EP3308310A1 (en) 2018-04-18
JP2019016361A (ja) 2019-01-31
JP2018527644A (ja) 2018-09-20
AU2016280074B2 (en) 2020-03-19
AU2016280074A1 (en) 2018-01-25
IL256370B (en) 2018-10-31
IL256370A (en) 2018-01-31
CN108292329A (zh) 2018-07-17
US20180190381A1 (en) 2018-07-05
WO2016205377A1 (en) 2016-12-22
JP6609355B2 (ja) 2019-11-20
CA2989815A1 (en) 2016-12-22
IL262048A (en) 2019-02-28
KR20180071243A (ko) 2018-06-27
EP3308310A4 (en) 2019-01-30

Similar Documents

Publication Publication Date Title
JP6609355B2 (ja) 細胞系ゲノミクスからの薬物応答の患者特異的予測のためのシステムおよび方法
KR101974769B1 (ko) 앙상블-기반 연구 추천 시스템 및 방법
JP6638030B2 (ja) Paradigm薬剤反応ネットワーク
Sofer et al. A-clustering: a novel method for the detection of co-regulated methylation regions, and regions associated with exposure
US11101038B2 (en) Systems and methods for response prediction to chemotherapy in high grade bladder cancer
JP2019527894A (ja) ダサチニブ反応予測モデルおよびその方法
US20170277826A1 (en) System, method and software for robust transcriptomic data analysis
JP2020501240A (ja) 汎がんゲノムにおけるdnaアクセシビリティを予測するための方法及びシステム
Wang et al. Random forests on Hadoop for genome-wide association studies of multivariate neuroimaging phenotypes
KR102601304B1 (ko) 유전자 기능 모듈을 학습한 뉴럴 네트워크를 활용한 암의 진단과 치료 결정 방법 및 그 장치
US20230253115A1 (en) Methods and systems for predicting in-vivo response to drug therapies
Jindalertudomdee Breadth-first Search Based Approach to Enumerating Chemical Compounds Containing Outerplanar Fused Benzene Ring Substructures

Legal Events

Date Code Title Description
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180801

R150 Certificate of patent or registration of utility model

Ref document number: 6382459

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250