JP7429539B2 - 薬効を評価するためのシステム及び方法 - Google Patents

薬効を評価するためのシステム及び方法 Download PDF

Info

Publication number
JP7429539B2
JP7429539B2 JP2019566271A JP2019566271A JP7429539B2 JP 7429539 B2 JP7429539 B2 JP 7429539B2 JP 2019566271 A JP2019566271 A JP 2019566271A JP 2019566271 A JP2019566271 A JP 2019566271A JP 7429539 B2 JP7429539 B2 JP 7429539B2
Authority
JP
Japan
Prior art keywords
expression
feature
training
machine learning
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019566271A
Other languages
English (en)
Other versions
JP2021505976A (ja
Inventor
シレ・ジャン
メンチ・ワン
アーロン・ワイズ
ハン・カン
ヴィトール・フェレイラ・オヌチッチ
クリスティーナ・クルグルヤク
Original Assignee
イルミナ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イルミナ インコーポレイテッド filed Critical イルミナ インコーポレイテッド
Publication of JP2021505976A publication Critical patent/JP2021505976A/ja
Application granted granted Critical
Publication of JP7429539B2 publication Critical patent/JP7429539B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Peptides Or Proteins (AREA)

Description

関連出願の相互参照
本出願は、2017年12月1日出願の米国仮特許出願第62/593,802号の優先権を主張し、その全内容をこれにより本明細書に組み込む。
体内の異常性又はがん性細胞を検出することは、免疫系における重要な課題である。関与する1つの機構は、免疫チェックポイントである。例えば、プログラム細胞死タンパク質1(PD-1)及び細胞傷害性Tリンパ球関連タンパク質4(CTLA-4)チェックポイントは、T細胞上で、免疫機能をネガティブに制御し、過剰反応を防ぐ(即ち、免疫系の自己認識を促進する)。しかし、この機構は、腫瘍細胞に利用されて、免疫攻撃を免れ得る。PD-1阻害(例えば、抗PD1抗体)及びCTLA-4(例えば、CTLA-4抗体)のような免疫療法は、チェックポイント活性を遮断し、これによりT細胞が疾患又は腫瘍細胞それ自体を同定することを容易とする。
しかし、免疫チェックポイント療法は、有効であり得るが、すべてのがん患者における応答性は、保証されない。従来のがん治療と比較して、免疫チェックポイント療法は、種々のがんを有する患者の長期生存の向上を示した。しかし、がん患者の一部のみが、抗CTLA-4抗体(例えば、イピリムマブ)を含む現在承認されているチェックポイント阻害薬、及び抗PD-1抗体(例えば、ニボルマブ)又は抗プログラム死リガンド1(抗PD-L1)抗体(例えば、アテゾリズマブ)のようなPD-1チェックポイント経路を標的とする治療に応答する。従って、特定のチェックポイント療法に応答し得る患者を選択すること、及びいずれのチェックポイント標的が最良の結果を特定の患者にもたらし得るかを予測することが可能となることは、利点となり得る。
多種多様なゲノム及び細胞の特徴は、特定の個人のための免疫療法の有効性に寄与し得る。例えば、腫瘍変異頻度(TMB、tumor mutation burden)が高くなると、腫瘍細胞上の抗原提示が増加することにより応答率がポジティブに影響され、PD-1が遮断される場合にT細胞による認識が増加することとなり得る。CD4/CD8/CD19を発現する白血球腫瘍浸潤は、このような細胞が腫瘍細胞の免疫的攻撃及び引き続く抗原放出を助けるため、より良い臨床結果と相関する。骨髄由来抑制細胞及び制御性T細胞(Treg)は、T細胞の有効性を抑制して、様々な患者における生存の悪化に相関する。これらが、相互に作用する次世代シーケンシング(NGS)データから検出可能かつ導出可能な特徴であるため、それらの免疫療法応答に対する関係を調べ、チェックポイント阻害のような療法又は他の癌治療に対する応答性の予測を立て、他の個人の応答性に基づき、個人の多因子性コンテキストを考慮しながら、特定の個人において協働する多くの特徴のコンテキストを組み込む、機械学習アプリケーションを構築することが重要である。
更に、特定の個人がチェックポイント阻害に対してポジティブに応答するかどうかを判定するために相互作用し得る、潜在的多数の相互作用するゲノム、細胞、及び他の特徴を考慮すると、応答性予測をレポートする方法の向上が必要とされる。例えば、多種多様な特徴が、応答性の予測において組み合わせ的に相互作用し得る。機械学習方法を適用して、患者が所与のチェックポイント阻害に高く応答し得るか又は低く応答し得るかを評価する場合、様々な個人において、一部の特徴が、他よりも高いか又は低い重要性を有すると判定され、種々の特徴が、それぞれが応答性に影響し得ることを示唆するレベルと種々の程度で異なり、種々の因子が、種々のチェックポイント阻害治療に対する患者の応答性が高いか又は低いかを示し得る。従って、応答性の予測において重要であり予測の有効性における方向性を示す特徴の識別を含む、特定の患者の応答性のコンテキストレポートが、必要とされている。しかし、予測レポートのこのようなすべての潜在的側面を提示するスペースが限られていることを考慮すると、現在のレポート方法は、不十分なものである。従って、関連する応答性予測の多数の要素をレポートするための新規の方法が、求められている。
Gaujouxら(2013) CellMix: a comprehensive toolbox for gene expression deconvolution、Bioinformatics 29:2211~2212頁 F Finotelloら(2018)、Quantifying tumor-infiltrating immune cells from transcriptomics data、Cancer Immunology、Immunotherapy 67:1031~1040頁 Barbieら(2009)、Systematic RNA interference reveals that oncogenic KRAS-driven cancers require TBK1、Nature 462:108~112頁 Hugoら(2016) Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma. Cell. 2016;165(1):35~44頁(doi:10.1016/j.cell.2016.02.065) Van Allenら(2015) Genomic correlates of response to CTLA-4 blockade in metastatic melanoma. Science 350:207~211頁(doi: 10.1126/science.aad0095)
本開示は、上記及び他の不足点を当技術分野において克服することを対象とする。
ある態様では、訓練した機械学習分類器に非訓練対象のゲノム情報を入力する工程であって、非訓練対象のゲノム情報が、非訓練対象から得られる腫瘍プロファイル由来の特徴を含み、訓練した機械学習分類器が、複数の訓練対象のゲノム情報、及びチェックポイント阻害を含む治療に対する複数の訓練対象のぞれぞれの応答性について訓練され、複数の訓練対象のゲノム情報が、複数の訓練対象のそれぞれから得られる腫瘍試料の特徴を含み、機械学習分類器が、治療に対する応答性を予想するように訓練される、工程と、訓練した機械学習分類器を使用して、非訓練対象についてチェックポイント阻害応答性分類を生成する工程であって、チェックポイント阻害応答性分類が、非訓練対象がチェックポイント阻害に対して応答することを予測する、工程と、非訓練対象のチェックポイント阻害応答性分類を、グラフィカルユーザインターフェースを使用してレポートする工程とを含む、コンピュータ実行方法を開示する。ある例では、非訓練対象から得られる腫瘍プロファイル由来の特徴の少なくとも一部、又は訓練対象の1人又は複数から得られる腫瘍プロファイル由来の特徴の少なくとも一部は、次の特徴の群から選択される:すべての変異からなる総変異頻度、非同義変異からなる総変異頻度、ベータ2ミクログロブリン(B2M)発現、プロテアソームサブユニットベータ10(PSMB10)発現、抗原ペプチドトランスミッター1(TAP1)発現、抗原ペプチド輸送体2(TAP2)発現、ヒト白血球抗原A(HLA-A)発現、主要組織適合複合体クラスI B(HLA-B)発現、主要組織適合複合体クラスI C(HLA-C)発現、主要組織適合複合体クラスII DQアルファ1(HLA-DQA1)発現、HLAクラスII組織適合抗原DRB1ベータ鎖(HLA-DRB1)発現、HLAクラスI組織適合抗原アルファ鎖E(HLA-E)発現、ナチュラルキラー細胞顆粒タンパク質7(NKG7)発現、ケモカイン様受容体(CMKLR1)発現、表面抗原分類8(CD8)を発現する細胞による腫瘍浸潤、表面抗原分類4(CD4)を発現する細胞による腫瘍浸潤、表面抗原分類19(CD19)を発現する細胞による腫瘍浸潤、グランザイムA(GZMA)発現、パーフォリン1(PRF1)発現、細胞傷害性Tリンパ球関連タンパク質4(CTLA4)発現、プログラム細胞死タンパク質1(PD1)発現、プログラム死リガンド1(PDL1)発現、プログラム細胞死1リガンド2(PDL2)発現、リンパ球活性化遺伝子3(LAG3)発現、Ig及びITIMドメインを有するT細胞免疫受容体(TIGIT)発現、表面抗原分類276(CD276)発現、ケモカイン(C-Cモチーフ)リガンド5(CCL5)、CD27発現、ケモカイン(C-X-Cモチーフ)リガンド9(CXCL9)発現、C-X-Cモチーフケモカイン受容体6(CXCR6)、インドールアミン2,3-ジオキシゲナーゼ(IDO)発現、シグナル伝達兼転写活性化因子1(STAT1)発現、3-フコシル-N-アセチル-ラクトサミン(CD15)発現、インターロイキン2受容体アルファ鎖(CD25)発現、siglec-3(CD33)、表面抗原分類39(CD39)発現、表面抗原分類118(CD118)発現、フォークヘッドボックスP3(FOXP3)発現、及び前述の2つ以上の任意の組合せ。
別の例では、訓練特徴の少なくとも一部、又は非訓練特徴の少なくとも一部は、遺伝子セットを含む。更なる例では、遺伝子セットは、単一サンプル遺伝子セットの濃縮解析を使用して選択された。また別の例では、機械学習分類器は、ランダムフォレストである。また更なる例では、少なくとも50,000の木が、機械学習分類器の訓練において使用される。尚更なる例では、チェックポイント阻害応答性分類は、予測スコア及び1つ又は複数の特徴識別子を含み、1つ又は複数の特徴識別子は、特徴価、特徴重要度、及び特徴重みからなる群から選択される。
別の例では、グラフィカルユーザインターフェースは、特徴識別子を環状扇形の各側面としてレポートし、環状扇形の角度が特徴重要度をレポートし、環状扇形の外半径が特徴重みをレポートし、環状扇形の色が特徴価をレポートする。更なる例では、ある特徴の特徴重要度は、特徴のジニ指数の減少を含む。更に別の例では、グラフィカルユーザインターフェースは、特徴の特徴重要度が閾値を超える場合かつその場合に限り、特徴の識別子をレポートする。また別の例では、特徴の特徴重要度は、特徴の特徴重要度の2乗が0.1を超えない場合、閾値を超えない。また更なる例では、各環状扇形は内弧を含み、環状扇形の内弧は円を形成するように配置される。
別の例は、治療に対する非訓練対象の応答性を訓練した機械学習分類器に入力する工程と、機械学習分類器を更に訓練する工程とを更に含み、更に訓練する工程は、訓練した機械学習分類器を、非訓練対象から得られる腫瘍試料の特徴、及び治療に対する非訓練対象の応答性について訓練することを含む。また別の例は、生成されたチェックポイント阻害応答性分類に基づいて治療を選択する工程を更に含む。
別の態様では、1つ又は複数のマイクロプロセッサと、訓練した機械学習分類器、及び非訓練対象のゲノム情報を記憶するための1つ又は複数のメモリであって、訓練した機械学習分類器が、複数の訓練対象のゲノム情報、及びチェックポイント阻害を含む治療に対する複数の訓練対象のそれぞれの応答性について訓練され、複数の訓練対象のゲノム情報が、複数の訓練対象のそれぞれから得られる腫瘍プロファイルの特徴を含み、機械学習分類器が、治療に対する応答性を予測するように訓練され、非訓練対象のゲノム情報が、非訓練対象から得られる腫瘍プロファイル由来の特徴を含む、メモリとを含むコンピュータシステムであって、1つ又は複数のメモリが、1つ又は複数のマイクロプロセッサにより実行される場合、コンピュータシステムに、訓練した機械学習分類器を使用してチェックポイント阻害応答性分類を非訓練対象について生成させ、非訓練対象のチェックポイント阻害応答性分類を、グラフィカルユーザインターフェースを使用してレポートさせる、命令を記憶し、チェックポイント阻害応答性分類が、非訓練対象がチェックポイント阻害に対して応答することを予測する、コンピュータシステムを開示する。
ある例では、非訓練対象から得られる腫瘍プロファイル由来の少なくとも一部の特徴、又は1つ又は複数の訓練対象から得られる腫瘍プロファイル由来の少なくとも一部の特徴は、次の群から選択される:すべての変異からなる総変異頻度、非同義変異からなる総変異頻度、ベータ2ミクログロブリン(B2M)発現、プロテアソームサブユニットベータ10(PSMB10)発現、抗原ペプチドトランスミッター1(TAP1)発現、抗原ペプチド輸送体2(TAP2)発現、ヒト白血球抗原A(HLA-A)発現、主要組織適合複合体クラスI B(HLA-B)発現、主要組織適合複合体クラスI C(HLA-C)発現、主要組織適合複合体クラスII DQアルファ1(HLA-DQA1)発現、HLAクラスII組織適合抗原DRB1ベータ鎖(HLA-DRB1)発現、HLAクラスI組織適合抗原アルファ鎖E(HLA-E)発現、ナチュラルキラー細胞顆粒タンパク質7(NKG7)発現、ケモカイン様受容体(CMKLR1)発現、表面抗原分類8(CD8)を発現する細胞による腫瘍浸潤、表面抗原分類4(CD4)を発現する細胞による腫瘍浸潤、表面抗原分類19(CD19)を発現する細胞による腫瘍浸潤、グランザイムA(GZMA)発現、パーフォリン1(PRF1)発現、細胞傷害性Tリンパ球関連タンパク質4(CTLA4)発現、プログラム細胞死タンパク質1(PD1)発現、プログラム死リガンド1(PDL1)発現、プログラム細胞死1リガンド2(PDL2)発現、リンパ球活性化遺伝子3(LAG3)発現、Ig及びITIMドメインを有するT細胞免疫受容体(TIGIT)発現、表面抗原分類276(CD276)発現、ケモカイン(C-Cモチーフ)リガンド5(CCL5)、CD27発現、ケモカイン(C-X-Cモチーフ)リガンド9(CXCL9)発現、C-X-Cモチーフケモカイン受容体6(CXCR6)、インドールアミン2,3-ジオキシゲナーゼ(IDO)発現、シグナル伝達兼転写活性化因子1(STAT1)発現、3-フコシル-N-アセチル-ラクトサミン(CD15)発現、インターロイキン2受容体アルファ鎖(CD25)発現、siglec-3(CD33)、表面抗原分類39(CD39)発現、表面抗原分類118(CD118)発現、フォークヘッドボックスP3(FOXP3)発現、及び前述の2つ以上の任意の組合せ。
別の例では、訓練特徴の少なくとも一部、又は非訓練特徴の少なくとも一部は、遺伝子セットを含む。また別の例では、遺伝子セットは、単一サンプル遺伝子セットの濃縮解析を使用して選択された。更に別の例では、機械学習分類器は、ランダムフォレストである。更なる例では、少なくとも50,000の木が、機械学習分類器の訓練において使用される。また更なる例では、チェックポイント阻害応答性分類は、予測スコア及び1つ又は複数の特徴識別子を含み、1つ又は複数の特徴識別子は、特徴価、特徴重要度、及び特徴重みからなる群から選択される。命令は、1つ又は複数のマイクロプロセッサにより実行される場合、グラフィカルユーザインターフェースに環状扇形の各側面として特徴識別子をレポートさせ、環状扇形の角度が特徴重要度をレポートし、環状扇形の外半径が特徴重みをレポートし、環状扇形の色が特徴価をレポートする。
別の例では、特徴の特徴重要度は、特徴のジニ指数の減少を含む。また別の例では、命令は、1つ又は複数のマイクロプロセッサにより実行される場合、グラフィカルユーザインターフェースに、特徴の特徴重要度が閾値を超える場合かつその場合に限り、特徴の識別子をレポートさせる。また更なる例では、特徴の特徴重要度は、特徴の特徴重要度の2乗が0.1を超えない場合、閾値を超えない。更に別の例では、命令は、1つ又は複数のマイクロプロセッサにより実行される場合、グラフィカルユーザインターフェースに、各環状扇形の内弧、及び環状扇形の内弧を含む円をレポートさせる。尚更なる例では、命令は、1つ又は複数のマイクロプロセッサにより実行される場合、コンピュータシステムに機械学習分類器を更に訓練させ、更に訓練させることは、訓練した機械学習分類器を非訓練対象から得られる腫瘍試料の特徴、及び治療に対する非訓練対象の応答性について訓練することを含む。
また別の態様では、免疫チェックポイント応答性の分類のための機械学習に基づく分類器であって、多数のプロセッサ上で実行し、免疫チェックポイント阻害治療に対する非訓練対象の応答性を予測するように訓練される、機械学習に基づく分類器であって、機械学習に基づく分類器が、機械学習に基づく分類器に、複数の訓練対象のゲノム情報、及び治療に対する複数の訓練対象のそれぞれの応答性を入力することにより訓練され、複数の訓練対象のゲノム情報が、複数の訓練対象のそれぞれから得られる腫瘍プロファイルの特徴を含む、機械学習に基づく分類器と、機械学習に基づく分類器に、非訓練対象から得られる腫瘍試料の特徴を入力する入力プロセッサであって、機械学習に基づく分類器が、非訓練対象についてチェックポイント阻害応答性分類を生成するように構成されており、チェックポイント阻害応答性分類が、対象がチェックポイント阻害治療に対して応答することを予測する、入力プロセッサと、チェックポイント阻害応答性分類をレポートする出力プロセッサとを含む、機械学習に基づく分類器を開示する。ある例では、チェックポイント阻害応答性分類は、予測スコア及び複数の識別子を含む。
上記及び他の本開示の特徴、態様、及び利点は、次の詳細な説明を読解し、ここに添付の図面を参照すれば、より良く理解されるようになるであろう。
本開示の態様による方法を実施するためのオプションを示すウェブダイアグラムである。 分類器の訓練及び治療に対する患者の応答性の予測に本開示の態様に従って関連し得る特徴の非限定的な例の一部である。 分類器を訓練する方法を本開示の態様に従って、どのように実施し得るかの例を示すウェブダイアグラムである。 訓練した分類器を使用して治療に対する対象の応答性を予測する方法を本開示の態様に従って、どのように実施し得るかの例を示すウェブダイアグラムである。 訓練した機械学習に基づく分類器により、本開示の態様に従って予測する場合の治療に対する対象の応答性をレポートする方法の例である。 訓練した機械学習に基づく分類器により、本開示の態様に従って予測する場合の治療に対する対象の応答性をレポートする方法の例である。 訓練した機械学習に基づく分類器により、本開示の態様に従って予測する場合の種々の治療に対する対象の応答性をレポート及び比較する方法の例である。 訓練した機械学習に基づく分類器により、本開示の態様に従って予測する場合の種々の治療に対する対象の応答性をレポート及び比較する方法の例である。 遺伝子セットを特徴として含まないか又は含む、訓練した機械学習に基づいた分類器により、本開示の態様に従って予測する場合の種々の治療に対する対象の応答性をレポート及び比較する方法の例である。 訓練した機械学習に基づく分類器により、本開示の態様に従って予想する場合の治療に対する対象の応答性をレポートする方法の例である。 38の特徴を使用すると、単一因子を使用した場合と比較して優れた分類器性能が生まれることを実証する、比較したグラフ及び図である。 38の特徴を使用すると、単一因子を使用した場合と比較して優れた分類器性能が生まれることを実証する、比較したグラフ及び図である。 遺伝子セットを用いない38の特徴を使用するか、又は遺伝子セットを用いた44の特徴を使用して、機械学習分類器の性能を比較するグラフ及び図である。 遺伝子セットを用いない38の特徴を使用するか、又は遺伝子セットを用いた44の特徴を使用して、機械学習分類器の性能を比較するグラフ及び図である。 遺伝子セットを用いない38の特徴を使用するか、又は遺伝子セットを用いた44の特徴を使用して、機械学習分類器の性能を比較するグラフ及び図である。 遺伝子セットを用いない38の特徴を使用するか、又は遺伝子セットを用いた44の特徴を使用して、機械学習分類器の性能を比較するグラフ及び図である。
本開示は、チェックポイント阻害物質による治療又は他のがん治療に対して個人が応答し得るかどうかの予測を得るための機械学習方法に関する。様々な個人が、所与の治療に対して応答するか否かはわからない。治療に対する応答性は、所与の特徴又は定量的量の所与の特徴の存在だけでなく非存在にもそれぞれ依存し得る。むしろ、多数の特徴が、個人の間で差次的に複合して、所与の治療に応答する可能性が高められる個人もあれば、低められる個人もあり得る。単一の特徴、又はほんの一部の特徴に基づいて患者の応答性を予想する標準的方法では、互いに独立して変化し得る多数の因子がこのように協働する状況下で応答性を正確には予測しない。
機械学習方法は、一般的診断予測方法のこの欠点に対する新規の解決法を提示する。教師あり機械学習では、例えば、多くの個人の多数の特徴を表し、所与の治療に対する各個人の既知の応答性と組み合わせる大量のデータセットは、コンピュータメモリ記憶装置上にロードすることができる。コンピュータの記憶媒体は、コンピュータプロセッサに個人の特徴情報及び応答性を処理するよう指示して、個人が所与の治療に応答性である尤度の高低を示す特徴情報のパターンを識別する命令を含む。このような解析のために機械学習方法を使用する利点は、特徴のパターンの識別と、コンピュータシステムのデータ記憶及び検索の高い能力なしでは不可能な、治療に対する応答性の予測に対するその適合と、大量の情報を処理するその能力とを可能とすることである。コンピュータ実行機械学習システムは、数十若しくは数百以上の特徴、又は数十若しくは数百以上の対象を処理して、特徴のパターン、及び個人の応答性との集約したその相関性を識別することができる。このように識別したパターンは、さもなければ検出不可能であり、コンピュータシステムが、一連の複合的情報の大量のデータ処理を実行することが必要とされ得る。
個人の特徴を決定するために、個人、例えば、がんを有する個人の組織試料を入手し、このような組織の特性を決定し得る。一部の例では、入手する組織は、腫瘍から採取される細胞の試料であり得る。他の例では、入手する組織は、個人から得られる非腫瘍組織であり得る。
本明細書では、チェックポイント阻害は、腫瘍細胞が、免疫系における自己認識経路を活性化し、これにより免疫細胞攻撃及び腫瘍細胞の細胞溶解を妨げるプロセスを遮断する治療を指す。このような経路の腫瘍細胞による活性化は、例えば、腫瘍細胞を認識及び標的化するように免疫細胞を改変する場合、がん免疫治療に対する一部の患者の不応性に寄与すると考えられる。チェックポイント阻害の例としては、CTLA4経路が挙げられる。CTLA4は、制御性T細胞上に発現するタンパク質受容体である。これはまた、がんにおいてよく見られるように、活性化された後、通常のT細胞上に発現し得る。CTLA4がCD80又はCD87を結合すると、タンパク質は、抗原提示細胞の表面上に発現し、免疫抑制が生じる。健常細胞では、この機構により自己認識が促進され、自己細胞の免疫的攻撃を防ぐ。しかし、がんでは、この経路の上方制御により、腫瘍細胞が免疫系による検出及び攻撃を逃れることが助長される。この経路を阻害するチェックポイント阻害治療の例(例えば、抗CTLA4抗体であるイピリムマブ)は、例えば、抗腫瘍免疫応答性を刺激する他のがん免疫治療と組み合わせる場合、腫瘍細胞を標的化及び破壊する免疫系の能力を促進し得る。
同様に、チェックポイント阻害の別の例は、PD-1経路である。自己細胞上に発現するPD1-L1受容体にT細胞上のPD-1が結合すると、免疫抑制応答が生じる。CTLA4経路と同様に、この経路はまた、腫瘍細胞が免疫系による検出及び攻撃を逃れるのに利用される。この経路を阻害するチェックポイント阻害治療の例(例えば、抗PD-1抗体であるペムブロリズマブ、ニボルマブ、及びセミプリマブ(cemiplimab)並びに抗PD-L1抗体であるアテゾリズマブ、アベルマブ、及びデュルバルマブ)は、例えば、抗腫瘍免疫応答性を刺激する他のがん免疫治療と組み合わせる場合、免疫系が腫瘍細胞を標的化及び破壊する能力を促進し得る。
本明細書において使用する場合、チェックポイント阻害物質又はチェックポイント阻害治療等の用語は、このような治療、並びにCTLA4若しくはPD-1の、これらの同族リガンド若しくは受容体との相互作用、又はこれらの下流シグナル伝達続発症若しくは細胞機能の活性化を防ぐことにより機能する、他の抗体又は医薬組成物による治療を含む、チェックポイント阻害経路を阻害する他の治療を含む。
多くの特徴は、所与の治療に対して個人が応答性であるかどうかの予測の生成において関連し得る。例としては、個人から得られる細胞のゲノムに含まれる遺伝子配列情報、個人の細胞のゲノムから転写されるRNAに発現する遺伝子配列情報、試料中の対応するRNA転写若しくはそのタンパク質産物の量に反映され得るゲノム配列の転写物の発現量、又は試料中に存在する種々の細胞が挙げられる。試料が個人由来の腫瘍組織又は細胞を含む例では、このような情報は、母集団若しくは個人の非腫瘍細胞又は遺伝子配列決定パラダイムにおいて言及される対照ゲノムと比較した、腫瘍細胞、即ち、1つ又は複数の修飾ゲノム配列を有する細胞の特性を示し得る。腫瘍形成は、ヌクレオチド配列における1つの変異若しくは2つ以上の変異、及び/又はゲノムDNAにおける2つ以上の配列の変異から生じ得る。一部の場合では、例えば、複数のこのような配列修飾の蓄積は、細胞を非疾患細胞から腫瘍細胞へ変換するように相互に機能し得る。他の場合では、1つ又は一部のこのような修飾の細胞における初期の蓄積は、このような修飾を細胞に更に蓄積させ得る。更に他の場合では、このような修飾の細胞における増殖は、特定の任意の修飾が、腫瘍の増殖に直接関与するか、又はその原因となるとは限らないことを示し得る。むしろ、腫瘍形成プロセスにより、細胞の腫瘍細胞への形質転換を直接誘導する、一部の修飾を生じ得るが、細胞の腫瘍細胞への形質転換を直接誘導しない他の修飾をも生じ得る。
従って、このような修飾をゲノムDNA配列に多数有し得る個人の腫瘍細胞も存在すれば、このような修飾がわずかであり得る個人の腫瘍細胞も存在する。その中でも、一部の腫瘍細胞は、ゲノム修飾の結果として改変されたアミノ酸配列を有する転写物又はタンパク質産物を生じる可能性があり、例えば、ゲノムDNAにおいてDNA配列を修飾すると、修飾が起こらなければ産生されたはずのものと異なる配列を有する、タンパク質又はRNA分子が産生される場合がある。このような修飾は、非同義変異と呼ばれる。他の修飾は、非コードDNAの修飾であり得るか、又はタンパク質アミノ酸配列を変異させないコードDNAの修飾であり得る。例えば、イントロン配列又は非転写DNAへの修飾が、同一の修飾を保持しないゲノムから産生されるタンパク質のアミノ酸配列とアミノ酸配列が異なるタンパク質産物を生じない可能性がある。このような修飾は、同義変異と呼ばれる。従って、種々の腫瘍は、種々の総数の非同義変異、種々の数の同義変異、又は種々の数の両方の変異を含む(又は同一の総数のゲノム変異を含むが、種々の数の同義変異及び種々の数の非同義変異を含まない)、種々の総数の修飾をゲノムDNAに含み得る。細胞が保持する変異の数は、その変異頻度又は総変異頻度と呼ばれ、一方、その細胞が保持する非同義変異の総数は、その非同義変異頻度と呼ばれ、その細胞が保持する同義変異の数は、その同義変異頻度と呼ばれる。
非腫瘍細胞から腫瘍細胞への細胞の変換は、このような修飾のゲノムDNAへの蓄積に対応し得る。このような蓄積は、同義変異の蓄積、非同義変異の蓄積、又は両方のタイプの蓄積であり得る。いずれにせよ、総変異頻度は、非腫瘍細胞から腫瘍細胞へ変換するまで、非腫瘍細胞から腫瘍細胞へ変換する際、及び非腫瘍細胞から腫瘍細胞へ変換した後に増加し得る。更に、腫瘍細胞の変異頻度は、チェックポイント阻害が、免疫系による抗腫瘍応答の刺激に有効である可能性があるかどうかに影響し得る。腫瘍細胞が多くの変異を保持するほど、チェックポイント阻害を抑制すると、腫瘍細胞を疾患細胞として認識して攻撃することから免疫系を脱抑制し得る確率が増大する。特に、非同義腫瘍変異頻度は、抗腫瘍免疫応答を脱抑制するチェックポイント阻害の能力とポジティブに相関し得る。非同義変異の結果として産生される、変異アミノ酸配列を有するタンパク質は、細胞において異常として同定され、細胞内で発生する病態の兆候として細胞膜上に存在し得る。例えば、腫瘍は、新生抗原と呼ばれる、変異アミノ酸配列を有するタンパク質を発現し得る。このような新生抗原を発現する腫瘍細胞は、このような新生抗原の変異断片をその細胞膜上に発現し得る。
このような新生抗原が提示されると、細胞が病変している(例えば、腫瘍細胞)との免疫系による認識が刺激され、免疫系がこのような細胞を標的化して破壊することが促進され得る。しかし、腫瘍の相殺プロセスは、チェックポイント経路を利用して免疫検出を逃れ得る。従って、チェックポイント経路阻害物質が、がん免疫治療の強化を補助し得るかどうかは、腫瘍の変異頻度に依存し得る。頻度が高いことは、新生抗原提示のレベルが高いことに対応する可能性があり、チェックポイント阻害治療が行われる場合に抗腫瘍免疫原性を刺激する確率を増加させる。概して、総変異頻度が高いことは、非同義変異頻度が高いことを示し得るため、総変異頻度が高いことは、新生抗原の発現が増大することを示し得る。更に、非同義腫瘍変異頻度が高いこともまた、新生抗原の発現が増大することを示し得るため、チェックポイント阻害が有効であり得る尤度が高いことを示し得る。同義腫瘍変異頻度が、チェックポイント阻害に対する応答性と相関し得ること、並びに/又は同義及び非同義腫瘍変異頻度の一部の組合せが、総変異頻度に反映され得るように、チェックポイント阻害に対する応答性と相関し得ることもまた、あり得る。従って、総変異頻度、非同義腫瘍変異頻度、同義腫瘍変異頻度、又はこれらの2つ以上の任意の組合せは、チェックポイント応答性を予測することができ、本明細書に開示の機械学習方法に含まれる1つ又は複数の特徴であり得る。
変異が同義であるか又は非同義であるかの他に、又はそれに加えて、他の又は追加の変異特性も存在する可能性があり、その数又はタイプは、1つ又は複数の変異が同義であるか又は非同義であるかと同様に、治療に対する応答性の予測において関連し得る。例えば、ノンストップ変異と呼ばれる、一部の変異は、終止コドンにおける変異であり、RNA転写物の変異部分により、さもなければ終止するところを超えて継続するRNA産物の翻訳を生じる。変異の別の形態は、フレームシフト変異であり、3つ組で分割不可能な多数の近接するヌクレオチドの挿入(フレームシフト挿入)又は欠失(フレームシフト欠失)(例えば、単一のヌクレオチドの挿入又は欠失)を含む。これはコドンの読み配列のずれを生じ、従って産生されたRNA転写物の翻訳において種々のtRNA分子の動員が生じ、従って翻訳タンパク質のアミノ酸配列が変異する。他の変異は、スプライス部位変異であり、これは、スプライス部位で、又はその近傍で発生し、従って正常なmRNAのスプライシングを修飾し、修飾RNA転写物が生じ得る。又は、変異は、ミスセンス変異であり、この場合、単一ヌクレオチドが変異し、これによりその単一ヌクレオチドを含むコドンが変異して、翻訳において様々な種類のtRNAを動員し、従って異なるアミノ酸配列を有するタンパク質を産生し得る。
別の起こり得る変異は、スタート変異であり、転写開始部位へ又は開始コドンへの変異であり、転写又は翻訳を開始する部位における変異をそれぞれ生じ得る。例えば、開始部位の変異は、その開始部位からの転写の開始を妨げ得る。又は、変異は、それまでに存在しなかった転写開始部位を生成し得る。転写開始部位の変異は、さもなければ産生されたはずのRNA転写物と異なる長さであるが、転写が変異の非存在下で生じるためにインフレームであるか、又はそのためにフレーム外であり得る、RNA転写物の転写を生じ得る。開始コドンへの類似の変異もまた発生し、翻訳の開始が発生しないか、又はそれまでに開始しなかった部位から翻訳の開始が発生する、RNA産物の転写を生じ得る。このような終止コドン変異は、インフレームであるか、又はフレーム外でもあり得る。又は、変異は、ナンセンス変異、即ち、未成熟終止コドンを有するRNA転写物を生じる変異であり得る。前述の変異のいずれかは、一塩基多型(SNP)であり得る。前述の種々の変異のいずれか1つ又は複数は、所与の治療、例えば、所与のチェックポイント阻害物質に対する個人の応答性の予測に関連する特徴であり得る。
別の例では、リンパ球による腫瘍の浸潤の量により、チェックポイント阻害物質に対する応答性を予測することができる。腫瘍は、非腫瘍細胞から腫瘍細胞へ形質転換した細胞だけでなく、他の非形質転換細胞をも含む。例としては、腫瘍内の形質転換細胞に対する免疫応答を刺激する役割を果たしている、又は果たし得る免疫系の細胞が挙げられる。腫瘍内で形質転換細胞と混合する免疫細胞、特に、リンパ球は、腫瘍浸潤リンパ球を指す。腫瘍浸潤リンパ球、及びリンパ球表現型の識別子として作用する種々のマーカーを発現する腫瘍浸潤リンパ球のレベルにより、腫瘍試料を採取した対象が、チェックポイント阻害に対して応答性であり得るかどうかを予測することができる。腫瘍が、例えば、腫瘍細胞と腫瘍浸潤リンパ球の異種混合物であるため、これは、試料中に存在する腫瘍浸潤リンパ球上で発現するリンパ球マーカー、及び形質転換腫瘍細胞のような腫瘍試料中の他の細胞上で潜在的に発現するリンパ球マーカーを識別するための利点となり得る。
例えば、腫瘍浸潤リンパ球は、表面抗原分類8(CD8)、表面抗原分類4(CD4)又は表面抗原分類19(CD19)をコードする遺伝子の転写物(例えば、RNA)を発現する可能性があり、このそれぞれは、細胞において発現する場合、リンパ球表現型のマーカーとして作用し得る。従って、CD8、CD4、CD19、又は前述のいずれか2つ以上の任意の組合せの発現レベルは、腫瘍試料から判定することができる。従って、例えば、RNAの量は、試料から判定することができる。このような判定が、腫瘍浸潤リンパ球によるその発現だけでなく、形質転換腫瘍細胞のような腫瘍試料中の他の細胞をも反映し得るため、これは、その発現の検出量が、腫瘍浸潤リンパ球による発現にどの程度起因し得るか、及びどの程度起因し得ないかを判定するための利点となり得る。そのように判定するために、デンコンボリューションプロセスを適用することができ、これにより、腫瘍浸潤リンパ球による発現レベルを他の細胞による発現に対して判定することができる。腫瘍浸潤リンパ球のデコンボリューションを実施するための種々のオプションが利用可能であり、例えば、Gaujouxら(2013) CellMix: a comprehensive toolbox for gene expression deconvolution、Bioinformatics 29:2211~2212頁、及びF Finotelloら(2018)、Quantifying tumor-infiltrating immune cells from transcriptomics data、Cancer Immunology、Immunotherapy 67:1031~1040頁に記載のものを含む。デコンボリューション解析は、非限定的な例として、Rプログラミング言語で実施することができる。
特に、腫瘍浸潤リンパ球デコンボリューションと呼ばれるプロセスにより、所与のリンパ球転写物(例えば、CD8、CD4又はCD19)の発現レベルを使用して、腫瘍試料においてリンパ球細胞のCD4又はCD8又はCD19を発現している割合を判定することができる。即ち、腫瘍において同定され得る所与のリンパ球転写物の量により表される、腫瘍のリンパ球浸潤の量を単に示すにとどまらず、腫瘍浸潤リンパ球デコンボリューションは、発現する転写物の種類により識別されるリンパ球のタイプを示すこと、腫瘍浸潤全体に占める割合を更に提供することができる。腫瘍のリンパ球浸潤の総量は、チェックポイント阻害物質のような所与の治療に対して個人が応答性であり得るかどうかの予測において関連する可能性があり、所与の転写物(例えば、これらに限定されないが、CD4又はCD8又はCD19)を発現するリンパ球により生じる腫瘍のリンパ球浸潤の具体的寄与もまた、このような予測を立てる上で関連する可能性がある。
他の種々の特徴は、チェックポイント阻害に対して個人が応答性であり得るかどうかの予測において関連し得る。このような特徴は、一般に、チェックポイント阻害物質が、がん免疫応答の促進又は強化において有効であり得るか否かに理論的に関するプロセスに従って分類することができる。例えば、一部の特徴は、腫瘍細胞が変異タンパク質の抗原をその細胞表面上に発現し、これにより抗腫瘍免疫応答の確率を増加させる可能性が高くなり得るか又は低くなり得るか、及びどの程度まで高くなり得るか又は低くなり得るかに関し得る。既に考察されているこのような特徴の例としては、種々の腫瘍変異頻度、例えば、総腫瘍変異頻度又は非同義腫瘍変異頻度が挙げられる。他の例としては、種々のタンパク質、又は抗原提示に関与して免疫応答を刺激することで知られるタンパク質をコードする、遺伝子の転写物の発現レベルが挙げられる。一部の非限定的な例としては、ベータ2ミクログロブリン(B2M)、プロテアソームサブユニットベータ10(PSMB10)、抗原ペプチドトランスミッター1(TAP1)、抗原ペプチド輸送体2(TAP2)、ヒト白血球抗原A(HLA-A)、主要組織適合複合体クラスI B(HLA-B)発現、主要組織適合複合体クラスI C(HLA-C)、主要組織適合複合体クラスII DQアルファ1(HLA-DQA1)、及びHLAクラスII組織適合抗原DRB1ベータ鎖(HLA-DRB1)が挙げられる。このような遺伝子産物は、タンパク質断片、又は抗原、又は細胞表面の提示及び免疫T細胞による認識において種々の工程を踏むことで知られている。
このような遺伝子産物のいずれか1つ、又はその2つ以上の任意の組合せ、又はそのいずれかの腫瘍における発現レベルは、腫瘍細胞の表面上の抗原の発現レベルを示し得る。例えば、このような産物の発現は、非同義変異を有するゲノムDNAのタンパク質産物の細胞表面上での提示の程度に影響し得る。発現が抗原提示を増加させる場合、T細胞が疾患細胞を示すものとして認識し、抗腫瘍免疫応答を結果的に引き起こす可能性がある、変異抗原を提示する尤度は、所与のチェックポイント阻害物質が、対象において応答を生じるのに有効であり得る確率を増加させ得る。従って、前述のいずれか又はその2つ以上の組合せの発現レベルが、腫瘍試料における細胞上の抗原提示の程度とポジティブ又はネガティブに相関する場合、このような発現レベルは、その腫瘍を採取した対象が、所与のチェックポイント阻害物質に対して応答し得る尤度と、ポジティブ又はネガティブにそれぞれ相関し得る。
別のタイプの特徴は、対象から採取される腫瘍試料中に存在するT細胞又はNK細胞の発現レベルを含むことができ、これはまた、チェックポイント阻害のような治療に対する応答性の予測に関連し得る。例えば、HLAクラスI組織適合抗原アルファ鎖E(HLA-E)、ナチュラルキラー細胞顆粒タンパク質7(NKG7)、ケモカイン様受容体1(CMKLR1)、又はこれらの2つ以上の任意の組合せの発現のレベルはまた、チェックポイント阻害物質に対する応答を予測し得る。従って、特徴は、このような産物又はそのRNA転写物の1つ又は複数の発現の尺度を含み得る。
別のタイプの特徴は、抗腫瘍免疫応答により促進され得るか又はこのような活性を阻害し得るような細胞溶解活性の強化に関するか又はこれを意味する、タンパク質又はそれによる転写物の発現の存在又はレベルに関し得る。上記に考察する腫瘍浸潤リンパ球デコンボリューションの尺度は、このような特徴の例であり得る(例えば、表面抗原分類8(CD8)、表面抗原分類4(CD4)、又は表面抗原分類19(CD19)を発現する細胞による腫瘍浸潤のデコンボリューション)。このカテゴリーの特徴の他の非限定的例としては、グランザイムA(GZMA)若しくはパーフォリン1(PRF1)若しくは前述の2つ以上の任意の組合せ、又はそれらによるRNA転写物の発現のレベルが挙げられ得る。
更に他の特徴は、抗腫瘍免疫応答性のチェックポイント阻害のプロセス又は機能に関し得る。対象由来の腫瘍試料におけるチェックポイント阻害に寄与する種々のタンパク質産物又はそれによる転写物の発現のレベルは、対象が、チェックポイント阻害治療のようながん治療による治療に対して応答し得るかどうかの予測において関連し得る。このような特徴の例としては、細胞傷害性Tリンパ球関連タンパク質4(CTLA-4)、プログラム細胞死タンパク質1(PD1)、プログラム死リガンド1(PDL1)、プログラム細胞死1リガンド2(PDL2)、リンパ球活性化遺伝子3(LAG3)、Ig及びITIMドメインを有するT細胞免疫受容体(TIGIT)、表面抗原分類276(CD276)、又は前述のいずれか2つ以上の発現、又はそれらのRNA転写物の発現が挙げられ得る。
個人が治療に対して応答し得るかどうかの予測において関連し得る他の特徴は、その発現がインターフェロンγの放出及びそれによる受容体での活性の下流にある産物のような、インターフェロンγ活性に関するタンパク質又はそれによるRNA転写物の発現を含む。このタイプの特徴の例としては、ケモカイン(C-Cモチーフ)リガンド5(CCL5)、CD27、ケモカイン(C-X-Cモチーフ)リガンド9(CXCL9)、C-X-Cモチーフケモカイン受容体6(CXCR6)、インドールアミン2,3-ジオキシゲナーゼ(IDO)、シグナル伝達兼転写活性化因子1(STAT1)、又は前述の2つ以上の任意の組合せの発現、又はそれらによるRNA転写物の発現が挙げられ得る。インターフェロンγ活性の他の指標はまた、チェックポイント阻害のような治療に対する応答性を予測することができる。
個人が治療に対して応答し得るかどうかの予測において関連し得る他の特徴は、骨髄由来抑制細胞(MDSC)又は制御性T細胞(Treg)に関するタンパク質又はそれによるRNA転写物の発現を含み、これは、抗腫瘍免疫応答性に免疫抑制作用を付与する可能性があり、がん免疫治療の有効性を鈍らせるか又は妨げる可能性がある。このような特徴の例としては、対象の腫瘍由来の腫瘍試料における、3-フコシル-N-アセチル-ラクトサミン(CD15)、インターロイキン2受容体アルファ鎖(CD25)、siglec-3(CD33)、表面抗原分類39(CD39)、表面抗原分類118(CD118)、フォークヘッドボックスP3(FOXP3)、又は前述の2つ以上の任意の組合せの発現が挙げられ得る。このような細胞の存在又はそれらの活性を意味する、他の種類のタンパク質又は対応するRNA転写物の腫瘍発現レベルはまた、チェックポイント阻害治療又はがんのための他の療法に対して個人が応答し得るかどうかに関連し得る。
任意の前述の特徴のいずれか1つ又は複数は、チェックポイント阻害物質による治療を含む、所与のがん治療による治療に対して個人が応答し得るかどうかについて予測を立てるのに種々の程度で関連し得る。特徴のいずれかは、採取して、特徴の判定についてテストした対象の腫瘍に関するゲノム情報に関連するか又はそれを具体化し得る。この場合、ゲノムの用語は、ゲノムDNAにおけるヌクレオチドの配列に関する情報だけでない特徴(例えば、変異頻度に関する特徴等)を含むために使用する。本明細書では、特徴の尺度により表されるゲノム情報はまた、ゲノム転写物、又はこのような転写物から産生されるタンパク質産物の種々の産物の発現レベルの尺度を含む。従って、上記の種々のタンパク質産物、若しくは詳細に同定されたもののような同様の経路に関与する他のタンパク質産物のいずれかの発現レベル、又はそれらによるRNA転写物の発現レベルは、本明細書に開示の予想的特徴に関するため、ゲノム情報に含むことができる。また、特徴に関するゲノム情報に含まれるものは、腫瘍浸潤リンパ球デコンボリューションの特徴の尺度であり得る。
個人の特徴の尺度に加えて、所与の経路若しくは機能若しくは細胞型に関することで知られるか、又はそのように考えられている特徴の相関する発現レベルのパターンはまた、チェックポイント阻害又は他のがん治療に対する応答性に関連する特徴であり得る。例えば、前述の特徴の中でも、経路の共有する一部の共通性、又は細胞の若しくは生理的応答性、又は細胞表現型を示す群は、識別することができ、それらが群として、協調的に上方制御若しくは下方制御されるか、又はより一般的に発現するか、又はさもなければ特定の対象の腫瘍由来の試料中に高若しくは低レベルで相関して群として存在するかの個人の特徴の測定に基づいて、判定がなされ得る。一部の例では、群化された特徴のこのような一般化された測定の尺度は、個人の特徴に加えて、それ自体を特徴として入力して、機械学習分類器を訓練し、チェックポイント阻害若しくは他の治療、又は両方に対する対象の応答性を予測することができる。本明細書では、群全体の発現レベル等を表す追加の特徴を得るための、このような特徴群は、遺伝子セットと呼ばれる。従って、遺伝子セットは、ゲノム変異の存在、特定のRNA転写物の発現レベル、同定された細胞型の存在等の相関性を示すものを表す尺度の組合せを含み得る。
非限定的な例では、前述の特徴の中でも、一部は、抗原提示に関し、これにより腫瘍のような細胞は、タンパク質断片をそれらの細胞膜上に発現させて、免疫系によりモニタリングされる。上記のように、抗原提示は、例えば、チェックポイント阻害物質により抗腫瘍免疫応答を刺激する尤度を増加させ得る。このような特徴の一部の例としては、総変異頻度、非同義変異頻度、若しくは他の変異頻度(ノンストップ変異頻度、フレームシフト変異頻度(挿入性、欠失性、又はいずれか)、スプライス部位変異頻度、ミスセンス変異頻度、スタート変異頻度(インフレーム、フレーム外、又はいずれか)、ナンセンス変異頻度、開始コドン変異頻度(開始コドンSNP又はその他を含む)、インフレーム挿入変異頻度、インフレーム欠失性変異頻度、又は他のSNP変異頻度)、又は前述の2つ以上の任意の組合せが挙げられ得る。抗原提示に関係する特徴の他の非限定的な例としては、ベータ2ミクログロブリン(B2M)、プロテアソームサブユニットベータ10(PSMB10)、抗原ペプチドトランスミッター1(TAP1)、抗原ペプチド輸送体2(TAP2)、ヒト白血球抗原A(HLA-A)、主要組織適合複合体クラスI B(HLA-B)発現、主要組織適合複合体クラスI C(HLA-C)、主要組織適合複合体クラスII DQアルファ1(HLA-DQA1)、及びHLAクラスII組織適合抗原DRB1ベータ鎖(HLA-DRB1)が挙げられ得る。前述の特徴の中からの個々の例に関する存在又は発現レベル等に関する特徴に加えて、追加の特徴は、前述の一部若しくはすべてが協調的に上方若しくは下方制御されるか、又はさもなければ対象の腫瘍内に高若しくは低レベルで存在する、程度を表し得る(機械学習分類器の訓練のためであろうと予測のためであろうと)。
別の非限定的な例として、一部の特徴は、対象から採取される腫瘍試料中に存在するT細胞又はNK細胞の発現レベルに関し、これはまた、チェックポイント阻害のような治療に対する応答性の予測に関連し得る。例えば、HLAクラスI組織適合抗原アルファ鎖E(HLA-E)、ナチュラルキラー細胞顆粒タンパク質7(NKG7)、ケモカイン様受容体1(CMKLR1)、又はこれらの2つ以上の任意の組合せの発現レベルはまた、チェックポイント阻害物質に対する応答を予測し得る。前述の特徴の中からの個々の例に関する存在又は発現レベル等に関する特徴に加えて、追加の特徴は、前述の一部若しくはすべてが協調的に上方若しくは下方制御されるか、又はさもなければ対象の腫瘍内に高若しくは低レベルで存在する、程度を表し得る(機械学習分類器の訓練のためであろうと予測のためであろうと)。
別の非限定的な例として、免疫応答により、対象から採取される腫瘍試料中に存在する、腫瘍細胞のような細胞の細胞死及び細胞溶解が促進される場合のように、一部の特徴は、免疫的刺激による細胞溶解の指標に関し、これはまた、チェックポイント阻害のような治療に対する応答性の予測に関連し得る。例えば、デコンボリューションされたCD8発現、デコンボリューションされたCD4発現、デコンボリューションされたCD19発現(比例的に寄与するCD8、CD4、又はCD19発現細胞を表すデコンボリューションは、腫瘍試料中に存在する腫瘍浸潤リンパ球の数に対してそれぞれ表す)、グランザイムA(GZMA)若しくはパーフォリン1(PRF1)、又は前述の2つ以上の任意の組合せ、或いはそれらによるRNA転写物の発現レベルはまた、チェックポイント阻害物質に対する応答を予測し得る。前述の特徴の中からの個々の例に関する存在又は発現レベル等に関する特徴に加えて、追加の特徴は、前述の一部若しくはすべてが協調的に上方若しくは下方制御されるか、又はさもなければ対象の腫瘍内に高若しくは低レベルで存在する、程度を表し得る(機械学習分類器の訓練のためであろうと予測のためであろうと)。
別の非限定的な例として、一部の特徴は、対象から採取される腫瘍試料中に存在するチェックポイント阻害機能に関与する細胞及び分子プロセスに関し、これはまた、チェックポイント阻害のような治療に対する応答性の予測に関連し得る。このような特徴の非限定的な例として、細胞傷害性Tリンパ球関連タンパク質4(CTLA4)、プログラム細胞死タンパク質1(PD1)、プログラム死リガンド1(PDL1)、プログラム細胞死1リガンド2(PDL2)、リンパ球活性化遺伝子3(LAG3)、Ig及びITIMドメインを有するT細胞免疫受容体(TIGIT)、表面抗原分類276(CD276)、若しくは前述のいずれか2つ以上の発現、又はそれらによるRNA転写物の発現が挙げられ得る。前述の特徴の中からの個々の例に関する存在又は発現レベル等に関する特徴に加えて、追加の特徴は、前述の一部若しくはすべてが協調的に上方若しくは下方制御されるか、又はさもなければ対象の腫瘍内に高若しくは低レベルで存在する、程度を表し得る(機械学習分類器の訓練のためであろうと予測のためであろうと)。
別の非限定的な例として、一部の特徴は、対象から採取される腫瘍試料中に存在するインターフェロンγ活性に関与する、指標又は細胞及び分子経路に関し、これらはまた、チェックポイント阻害のような治療に対する応答性の予測に関連し得る。このような特徴の非限定的な例としては、ケモカイン(C-Cモチーフ)リガンド5(CCL5)、CD27、ケモカイン(C-X-Cモチーフ)リガンド9(CXCL9)、C-X-Cモチーフケモカイン受容体6(CXCR6)、インドールアミン2,3-ジオキシゲナーゼ(IDO)、シグナル伝達兼転写活性化因子1(STAT1)、又は前述の2つ以上の任意の組合せの発現、又はそれらによるRNA転写物の発現が挙げられ得る。前述の特徴の中からの個々の例に関する存在又は発現レベル等に関する特徴に加えて、追加の特徴は、前述の一部若しくはすべてが協調的に上方若しくは下方制御されるか、又はさもなければ対象の腫瘍内に高若しくは低レベルで存在する、程度を表し得る(機械学習分類器の訓練のためであろうと予測のためであろうと)。
別の非限定的な例として、一部の特徴は、対象から採取される腫瘍試料中に存在する、MDSC又はTregの存在又は活性に関し、これはまた、チェックポイント阻害のような治療に対する応答性の予測に関連し得る。このような特徴の非限定的な例としては、対象の腫瘍由来の腫瘍試料における、3-フコシル-N-アセチル-ラクトサミン(CD15)、インターロイキン2受容体アルファ鎖(CD25)、siglec-3(CD33)、表面抗原分類39(CD39)、表面抗原分類118(CD118)、フォークヘッドボックスP3(FOXP3)、又は前述の2つ以上の任意の組合せの発現が挙げられ得る。前述の特徴の中からの個々の例に関する存在又は発現レベル等に関する特徴に加えて、追加の特徴は、前述の一部若しくはすべてが協調的に上方若しくは下方制御されるか、又はさもなければ対象の腫瘍内に高若しくは低レベルで存在する、程度を表し得る(機械学習分類器の訓練のためであろうと予測のためであろうと)。
従って、一部の例では、1つ又は複数の遺伝子セットを同定することができ、このような遺伝子セットに関する特徴の、対象の腫瘍における上方又は下方制御が協調又は相関する程度の尺度は、機械学習分類器を訓練するか、或いはチェックポイント阻害若しくは他の治療又は両方に対する対象の応答性を予測するための追加の特徴として提供され得る。遺伝子セットの例としては、抗原提示、T細胞及びNK細胞の特性、細胞溶解の指標、チェックポイント阻害、インターフェロンγ、及びMSDC/Tregの存在又は活性に関する遺伝子セットが挙げられる。一部の場合では、1つ又は複数のこのような遺伝子セットは、上記に考察する他の個人の特徴のいずれかの1つ又は複数と共に、チェックポイント阻害若しくは他の治療に対する患者の応答性の予測に使用される、訓練又は機械学習分類器に含むことができる。遺伝子セットの特徴における特徴がどのように協調的に上方若しくは下方制御されるか、又はさもなければ高若しくは低レベルで協調的に若しくは相関して発現若しくは存在するか、の一般化された尺度の確認において種々の方法を利用することができる。一例としては、単一試料遺伝子セット濃縮解析(ssGSEA、single sample gene set enrichment analysis)と呼ばれる解析が挙げられ得る。ssGSEAでは、例えば、Barbieら(2009)、Systematic RNA interference reveals that oncogenic KRAS-driven cancers require TBK1、Nature 462:108~112頁に記載のように、経験的累積分布関数を使用して、このような群化した遺伝子セットの濃縮を確認する。ssGSEAは、非限定的な例として、Rプログラミング言語で実施することができる。
前述の特徴では、一部、又はいずれか2つ以上の任意の組合せは、機械学習分類器を訓練するため、並びに訓練した機械学習分類器を使用して、例えば、チェックポイント阻害物質による治療に対して対象が応答し得るかどうか、又はその可能性がどの程度かを予測するための両方に使用することができる。しかし、前述の特徴のすべてを使用して機械学習分類器を訓練する必要はない。機械学習分類器は、前述のすべてを含むか、又は前述のいずれか1つ又は複数を除外する、一連の特徴により訓練することができる。この任意選択の包含及び除外により示唆されるすべての組合せ及び順列は、必ずしも明示的かつ逐語的に列挙しないが、その全体をこれにより組み込む。当業者は、前述の特徴により起こり得る、部分集合、組合せ、部分的組合せ、及び順列を概念化することが可能であろう。同様に、追加の特徴はまた、前述のすべて若しくは単なる組合せ、部分的組合せ、順列、又は前述の特徴のすべてより少数の他の混合に加えてのいずれかにより含むことができる。このようなすべての種々の例は、本開示に明確に含まれる。
一部の例では、機械学習分類器の訓練に使用する任意の対象の特徴は、他のあらゆる対象について、機械学習分類器の訓練において使用する特徴と同一である。しかし、他の例では、種々の特徴は、機械学習分類器を訓練するのに用いられる異なる対象について提供することができる。言い換えれば、一部の対象は、他の対象の訓練セット由来の特徴に含まれない、その対象の一連の訓練に含まれる特徴を有し得る。同様に、一部の例では、治療に対する対象の応答性に関する予測を機械学習分類器から得るために、対象由来の腫瘍試料から予測を得るために得られる特徴は、分類器の訓練に使用する特徴と同一であり得る。即ち、機械学習分類器の訓練に使用する、すべての対象由来の特徴は、すべて相互に同一であり、また、機械学習分類器からの予測が求められる対象の特徴と同一であり得る。他の例では、機械学習分類器の訓練に使用する訓練した対象の特徴と、機械学習分類器からの予測が求められる対象の特徴との間で不適合が存在し得る。機械学習分類器の訓練に使用する、一部又はすべての対象由来の特徴は、機械学習分類器からの予測が求められる対象由来の対応する特徴が存在しない特徴を含み得る。
一部の例では、機械学習分類器からの予測が求められる対象は、機械学習分類器の訓練に用いられる1人又は一部又はすべての対象由来の特徴に対応する特徴が不足し得る。他の例では、対象は、類似の特徴を有し得るが、同一の特徴は有さず、類似の特徴は、対象の存在しない同一の特徴の代わりに使用することができる。例えば、機械学習分類器は、少なくとも一部の訓練対象について、1つ又は複数の遺伝子セットの特徴、例えば、上記のssGSEAを使用して得ることができる遺伝子セットの特徴を含む、特徴について訓練されていてもよい。機械学習分類器の訓練に遺伝子セットを使用した訓練対象の一部では、このようなセットの一部は、同一の基礎をなす個人の特徴から得ていてもよい。例えば、抗原提示関連遺伝子セットの特徴の遺伝子セットは、機械学習分類器の訓練に用いられるすべての対象について、同一の基礎をなす特徴から得ていてもよい。他の例では、ある訓練対象のための一部の抗原提示関連遺伝子セットは、別の訓練対象由来の抗原提示関連遺伝子セットの確認に含まれなかったこのような特徴の一部を含む、基礎をなす特徴に基づき得る。これは、他の遺伝子セットにも当てはまる。更に、訓練した機械学習分類器からの予測が求められる、遺伝子セットの特徴の対象は、予測の取得に用いることができ、遺伝子セットの特徴の値は、訓練対象の1人又は複数についての対応する遺伝子セットの特徴の値の取得に使用しており、機械学習分類器の訓練に使用している、少なくとも1つ又は複数の基礎をなす特徴を含まない、対象由来の個人の特徴の基礎をなすセットから得ていてもよい。
特徴は、生体試料における、遺伝子シーケンシングデータ又はタンパク質若しくはRNA転写物の発現レベルを定量する公知の方法により確認することができる。例えば、次世代シーケンシング技術を使用して得られ得る相当量のヌクレオチド配列情報は、所与の特徴を得るために使用する次世代シーケンシングのタイプに応じて、ゲノム関連の特徴(例えば、総変異頻度等)と、例えば、RNA転写物の発現レベルの両方をもたらし得る。適切な方法の例としては、全ゲノムシーケンシング、全エクソームシーケンシング、全トランスクリプトームシーケンシング、mRNAシーケンシング、遺伝子アレイ解析、RNAアレイ解析、タンパク質アレイのようなタンパク質解析、又は本開示の態様による機械学習分類器からの予測の訓練及び/若しくは取得に使用される特徴の存在若しくはレベル若しくは量を確認するための他の関連する方法が挙げられる。一部の例では、一連の同一の技術を使用して、機械学習分類器を訓練するためのすべての訓練対象から、及び予測が求められる対象から特徴を得ることができる。他の例では、特徴若しくは一部の特徴を種々の訓練対象について決定した方法、及び/又は予測を得るために使用する特徴を予測が求められる対象について得た方法との間で方法論的な差が存在し得る。
訓練対象由来の特徴を用いた機械学習分類器の訓練に加えて、治療に対する訓練対象の応答性もまた、機械学習分類器にロードされる。従って、訓練対象は、機械学習分類器を訓練するために特徴及び応答性を提供する対象である。応答性は、例えば、訓練対象が、治療に対して応答したものとして分類される場合、対象が、寿命の延長、腫瘍の収縮、部分的又は完全な寛解等を含む、所定の応答を示したかどうかのような、2項分類であり得る。他の例では、応答性は、応答性が得られたか否かの2項評価ではなく、得られる応答性の程度に基づくスコア又は値であり得る。例えば、本開示による機械学習分類器は、求められる予測のタイプに応じて、非限定的な例として、分類木及び回帰木を含むことができる。
機械学習分類器は、コンピュータに基づく機械学習に適する任意の分類器であり得る。非限定的な例としては、ランダムフォレスト機械学習分類器が挙げられる。ランダムフォレスト機械学習分類器では、訓練対象の特徴及び治療の値に対する応答性に基づく決定木は、分類決定点を表すノード、及び訓練された入力に基づく結果を表す葉と共に作成する。ランダムフォレスト分類器は、特徴のサブセット及び訓練対象のサブセットを使用して複数の木を生成して、多数の木を作成し、次いで集約することができる。入力のサブセットを含む、このような複数の決定木は、過訓練を防ぎ、予測におけるエラー及びバイアスを減少させる。一部の例では、より正確な機械学習分類器の訓練において、より多くの決定木を作成することができる。一部の例では、5,000~500,000のいずれかの決定木を訓練において作成することができる。例えば、5,000、10,000、15,000、20,000、25,000、30,000、50,000、75,000、90,000、100,000、125,000、150,000、175,000、200,000、225,000、250,000、275,000、300,000、325,000、350,000、375,000、400,000、425,000、450,000、475,000又は500,000の決定木を実行し、ランダムフォレスト機械学習分類器に集約することができる。このような例示的な可能性のある範囲で数えられ得る数よりも、多い又は少ない木を実行することができる。
多数のオプションが、ランダムフォレスト訓練の実施、及びランダムフォレスト分類器からの予測の生成に利用可能である。非限定的な例として、Rプログラミング言語を使用することができる。他の分類器はまた、本開示の態様に従って使用することもでき、ニューラルネットワーク分類器、サポートベクターマシン、最大エントロピー分類器、超勾配ブースティング分類器、及びランダムファーン(random fern)分類器を含むが、これらに限定されない。
本明細書に開示の方法によれば、特徴は、何人もの訓練対象のそれぞれから、このような各対象の応答性として得られる。このような特徴及び応答性、又は入力は、コンピュータメモリ記憶装置、例えば、ハードドライブ、サーバ、又は他のメモリ構成要素に入力する。また、このようなコンピュータのメモリ記憶装置機能上に記憶されたものは、ソフトウェアに含まれる命令であり、これは1つ又は複数のマイクロプロセッサに指示する。命令は、訓練対象由来の入力を使用して機械学習分類器を作成するための命令を含む。次いで、訓練した機械学習分類器は、1つ又は複数のコンピュータメモリに記憶され、続いて、応答性についての予測が求められる対象由来の特徴について実行され得る。
非限定的な例として、命令は、1つ又は複数のマイクロプロセッサを指示して、ランダムフォレスト訓練を実施し、訓練対象の入力から決定木を作成して、種々の特徴の存在、非存在、レベル等が、治療に対する応答性を示し、多数の決定木を訓練したランダムフォレスト機械学習分類器に集約する可能性が高いか又は低いかを確認し得る。次いで、特徴及び応答性を命令に従って処理する場合に1つ又は複数のマイクロプロセッサにより生成される決定木の集約に基づく、本例による訓練した機械学習分類器は、1つ又は複数のメモリに記憶することができる。続いて、非訓練対象(即ち、訓練した機械学習分類器の訓練に特徴の値を使用しなかった対象)が、特定のチェックポイント阻害物質のような治療に対して応答性であり得るかどうかについて予測する場合、この非訓練対象の腫瘍試料から得られる特徴は、1つ又は複数のメモリ内にロードすることができる。1つ又は複数のマイクロプロセッサは、命令を処理して、1つ又は複数のマイクロプロセッサにより1つ又は複数のメモリからアクセスされる、訓練した機械学習分類器により非訓練対象の特徴を解析し、対象の応答性についての予測をレポートすることができる。
このような例では、機械学習分類器は、複数の訓練対象のそれぞれから得られる腫瘍試料の特徴、及びチェックポイント阻害を含む治療に対する複数の訓練対象のそれぞれの応答性について訓練された、訓練した機械学習分類器であり、機械学習分類器は、治療に対する応答性を予測するように訓練された。更に、対象腫瘍プロファイル由来の非訓練の特徴を含む非訓練対象のゲノム情報、又は特徴の値のセットは、訓練した機械学習分類器に入力して、非訓練対象についての治療応答性分類、例えば、非訓練対象が治療に対してどのように応答し得るかの予測を示す分類又はスコアを生成した。治療は、チェックポイント阻害であり得る。
訓練した機械学習分類器により生成される、非訓練対象についてのチェックポイント阻害応答性は、ユーザにレポートすることができる。レポートは、非訓練対象が治療に対して応答すると予測されるか否かを2項評価で示す、対象の分類を含むことができる。他の例では、段階評価による数値スコアは、非訓練対象が応答すると予測されるか否かの2項分類に加えて、又はその2項分類ではなく、応答性の確率を示し得る。他の例では、応答性の特定の程度をレポートすることができる。例えば、レポートは、高い尤度の応答性を示すことができるが、応答性は、持続時間又は程度について限定され得る。他の例では、レポートは、比較的低い尤度の応答性の予測を示すことができるが、このような非訓練対象が応答すると予測される場合、より長大な持続時間又は程度の応答性の予測を示し得る。
予測のレポートは、応答する可能性がないものとは対照的に、応答する可能性があるスコア又は2項予測として、グラフィカルユーザインターフェース(GUI)によりレポートすることができる。例えば、1つ又は複数のメモリ及び1つ又は複数のマイクロプロセッサに接続されており、特徴の値の非訓練対象のプロファイルを入力し、訓練した機械学習分類器により解析した、コンピュータ又はコンピュータシステムは、予測が視覚的にレポートされるディスプレイ装置に更に接続することができる。GUIは、多くの形態のいずれかをとることができる。例えば、GUIは、予測の生成において高度の重要度又は重みを有する、特徴又は特徴のサブセット、並びにこのような各因子が、非訓練対象が治療に対して応答する尤度を高く示したか又は低く示したか(即ち、特徴の価)の種々の側面を、以下に更に説明するように非訓練対象についての特徴の値を考慮して、表形式化することであり得る。又は、レポートは、このような情報をレポートするために、種々の形状、影、又は色彩設計を含み得る。
本明細書に開示の一連の特徴を使用する予測分類のレポートは、治療に対する応答性を予測するための従来の方法から本明細書に開示の主題を区別するものである。従来の治療予測方法とは異なって、組み合わせた方法を利用する方法を本明細書において開示し、この場合、一部の例では、予測の生成において1つ又はほんの少数が分離しているのではなく相互に関連して、多数の特徴を検索することができる。従来の方法を超える、本明細書に開示のこのような特質は、これまで正確性及び一般化可能性が非常に制限され、限られた数の特徴に基づいていた、チェックポイント阻害物質のような所与の治療に対して個人が応答し得るかどうかを予測する、これまでの試みにおいて利点を有する。本明細書において開示するように、多数の因子の寄与、並びにそれぞれが独立して及び他と協調して予測にどのように影響するかを評価するための新規の機械学習プロセスは、予測における従来の試みのこのような制限を克服する。
応答性予測を確認するための従来の方法は、治療に対する応答性の尤度が高いか又は低いかを示し得る、特徴又は限られた数の特徴の識別に関していた。対照的に、本明細書では、機械学習分類器を使用して潜在的多数の特徴の相対的寄与を評価するか、又は相互により同時に関連して予測を立てる、新規の方法を開示する。機械学習分類器の新規適用による、このような多因子性の方法は、現在利用可能な方法を超える大きな利点を提供する。
応答性予測をレポートするための一部のGUIの例の有益な特徴は、レポートされる予測に関連する特徴に関する多面的な情報を比較的狭小なスペースに表示して、ユーザが有用な情報をコンパクトに確認できることにあり得る。特に、本開示に従って使用するGUIの特定の例の利点は、限られた若しくは小型化したサイズのディスプレイのため、又は相当量の他の情報をまた表示するのに必要とするか、若しくは望ましいディスプレイのための、そのサイズ設定及び配置であり得る。本開示による予測分類をレポートするためのGUIは、予測分類を容易に認識及び把握できる大量のファセット、及び/又はその生成に関連する特徴を、限られた表示サイズ又は限られた比率のディスプレイ内に収めるように機能し得る。このようなコンパクトなレポート機能は、ディスプレイが、電話又は他の無線通信機器のような携帯型電子機器(例えば、タブレット型コンピュータ又は電話又は他の携帯型の有線若しくは無線機器)のスクリーンである場合のように、これがレポートの受信及び解釈を促進し、他の目的又はその限られた能力のために必要とされ得る表示スペースを確保するという点において、ユーザの、レポートを提供するコンピュータシステムとの接続を向上させる。特徴の大量の特性及び側面を制約されたスペース内に凝縮し、更に、迅速かつ容易に確認可能のままである大量の情報を迅速に伝える能力を保持する、GUIによりレポートを示す例では、より多くの表示スペースが追加の目的のために引き続き同時に利用可能であるか、又はより小型のディスプレイ上での使用が引き続き可能である点において、コンピュータシステムの有用性は向上する。
レポートは、特徴識別子、又は応答性分類の生成において使用する一部若しくはすべての特徴の側面若しくは特性を含むことができる。例えば、レポートは、特徴の価の指示、即ち、ユーザのプロファイルにおけるその値が、対象が治療に対して応答し得る尤度の増加又は減少を示したかどうかを含むことができる。即ち、非訓練対象のプロファイルでは、特徴は、ポジティブな価又はネガティブな価を有し得る。ポジティブ価は、訓練対象における特徴の値が治療に対する応答性とポジティブに相関する傾向にあり、その特徴についての非訓練対象の値が高かったか、又は訓練対象における特徴の値が治療に対する応答性とネガティブに相関する傾向にあり、その特徴についての非訓練対象の値が低かったことを意味し得る。
別の識別子は、所与の機械学習分類器についての予測の生成における特徴の重要度の指示であり得る。重要度又は特徴は、訓練に使用する他の特徴に対して、いずれかの方向に予測を推進する可能性が高いことを示し得る。例えば、一部の例では、ジニ減少指数は、訓練中に1つ又は複数の特徴について確認することができる。ジニ減少指数は、予測の生成の推進において他の特徴が有する影響の程度に対して、それが分類器の機能性に対する特徴の有効性が占める割合を示すという点において、特徴の重要度を示す。ジニ減少指数は、種々のソフトウェアパッケージを使用して、例えば、Rプログラミング言語を使用することにより決定することができる。一部の例では、特徴の重要度のジニ減少指数を使用して、予測スコアとは別に、又はそれに加えて、どの特徴の識別子をレポートに含むかを決定することができる。例えば、GUIの形態の所与のレポートでは、GUIは、特徴の重要度が、所定の最小重要度閾に見合うか又は超えるような特徴のみを表示することができる。例えば、レポートは、特徴の重要度が、ジニ減少指数として数値的に表され、2乗して0.1を超えるような特徴のみの識別子を含み得る。ストリンジェントな最小重要度閾は、予測スコアと共に含まれることが望ましい情報の程度に応じて、所与のレポートの代わりに、又はそれに変更して、高く又は低く設定することができる。最小重要度閾が高くなるほど、レポートに含まれ得る特徴の識別子は少なくなり、逆の場合も同様である。例えば、最小重要度閾は、数値的重要度(例えば、ジニ減少指数)の2乗が、0.01~0.5のいずれかを超える閾値であり得る。他の最小重要度閾は、この範囲の間又はこの範囲外のいずれかから選択され得る。
レポートに含まれ得る特徴識別子の別の例は、特徴の重みである。特徴の重みは、対象のその特徴の値が、対象が治療に対して応答し得るか否かをそのまま示唆し得る程度の尺度である。例えば、各特徴について、単一因子の決定境界を決定することができる。単一因子決定境界は、訓練対象が治療に応答するか否かを最も良好に区別する、その特徴についての値である。例えば、治療に応答する訓練対象のすべてが所与の量を超える特徴についての値を有したが、応答しない治療対象のすべてがその量未満の値を有した場合、その量は、単一因子決定境界であり得る。一部の他の例では、一部の応答する訓練対象が、一部の応答しない訓練対象を超える特徴の値を有する可能性もあれば、他の応答する訓練対象が、その訓練対象未満の特徴の値を有する可能性もある。従って、一部の例では、応答者と非応答者との間で明解に区別される特徴の値についての輝線が存在する可能性もあれば、一方、他の例では、応答者と非応答者との間の特徴の値の境界において、より多くの重複が存在する可能性もある。後者の例では、単一因子決定境界は、訓練対象のセットにおいて、応答者と非応答者との間で起こり得る最大の差をもたらす値として選択され得る。
特徴の重みは、非訓練対象についての特徴の値が、その特徴についての単一特徴の決定境界とどの程度まで異なるかの、尺度又は指示である。非訓練対象についての特徴の値が、訓練対象に基づく特徴についての単一因子決定境界と異なるほど、応答性分類予測の判定において特徴が有し得る重みは大きくなる。例えば、特徴は、ネガティブ価を有する可能性があり、これは、非訓練対象が、訓練対象における応答性とポジティブに相関する特徴について低い値、又は訓練対象における応答性とネガティブに相関する特徴について高い値を有することを意味する。その特徴についての非訓練対象の値が、その特徴についての単一因子決定境界と実質的に異なる場合、その特徴の重みは、大きくなり得る。しかし、別の特徴が、高い重要性、及びポジティブ価(即ち、非訓練対象について高い値及び訓練対象における応答性とのポジティブな相関性、又は非訓練対象において低い値及び訓練対象における応答性とのネガティブな相関性)を有する場合、たとえその値が、単一因子決定境界とあまり異ならない(即ち、重みが小さい)としても、応答性予測分類に対するこの影響は、比例的に強力となり得る。
応答性予測レポート及びGUIの構成要素として特徴識別子を示すために、多数の可能な方法が存在し得る。いくつかの特定の例を本明細書において少し詳しく示す。ただし、当業者は、特徴の価、重み、及び重要性をGUIレポートにおいてレポートするために、他の多くの可能な方法が存在し得ること、並びに本明細書において提供する例は、制限しないものであり、又はそれぞれがそのままで、いかなる方法であれ明確に必須であることを理解するであろう。
GUIは、行及び列により表形式化した特徴を示すことができる。特徴は、例えば、行により示すことができ、所与の特徴の種々の特性は、複数の列により示すことができる。例えば、種々の列は、特徴の重要度、その価、その特徴の単一因子決定境界、非訓練対象のその特徴の値を示すことができ、任意選択で、非訓練対象のその特徴の値が、その特徴の単一因子決定境界とどの程度異なるか、及び予測がその特徴のみに基づいていた場合、非訓練対象が応答すると予測され得るかどうかを可視的に指示する。表形式のGUIは、前述の2つ以上の任意の組合せを含むことができる。表形式のGUIレポートはまた、総体的予測スコアを含むことができる。
GUIはまた、ヒストグラムであり得る。例えば、柱は、非訓練対象についての所与の特徴の値を示し、線はまた、その特徴の単一因子決定境界を示し得る。非訓練対象についての特徴の値と単一因子決定境界を示す線との間の差は、その特徴の重みの識別子である。線はまた、柱の高さと単一因子決定境界を示す線との間に描かれ得る。2つの間の線の長さはまた、重みの識別子である。価は、柱の下に記号で示し得る。例えば、正又は負の記号は、ポジティブ又はネガティブ価をそれぞれ示し得る。他の対は、上方及び下方を指す矢印、上方向及び下方向を指す三角形等を含むことができ、この場合、一方向は、その特徴のポジティブ価を示し、他方向は、ネガティブ価を示す。価はまた、柱の色又は影により示し、ある色又は影のパターンの柱は、ある価(ポジティブ又はネガティブ)を示し、異なる色又は影のパターンの柱は、反対の価を示し得る。ヒストグラムにおける非訓練対象の特徴の値とその特徴の単一因子決定境界との間の線の色又は影はまた、価を示し得る。例えば、特徴の値が、訓練対象の応答性とネガティブに相関し、非訓練対象の特徴の値が、単一因子決定境界よりも少ない場合、その特徴のヒストグラムレポートのバーにおける非訓練対象の値と単一因子決定境界とを結ぶ線は、ポジティブ価を示す、色又は影であり得る。一方、特徴の値が、訓練対象の応答性とポジティブに相関し、非訓練対象のその特徴の値が、単一因子決定境界よりも少ない場合、その特徴のヒストグラムレポートのバーにおける非訓練対象の値と単一因子決定境界とを結ぶ線は、ネガティブ価を示す、色又は影であり得る。両方の場合において、非訓練対象のその特徴の値は、その特徴の単一因子決定境界よりも少ないが、特徴が、訓練対象の応答性とネガティブ(ポジティブ価)又はポジティブ(ネガティブ価)に相関したかどうかに応じて、その価は、異なることに留意されたい。逆もまた当てはまり得る(即ち、特徴の単一因子決定境界が、非訓練対象のその特徴の値よりも少ないかどうかにかかわらず、特徴が、訓練対象の応答性とポジティブ又はネガティブにそれぞれ相関する傾向にあるかどうかに応じて、ポジティブ又はネガティブ価を有し得る)。
特徴の重要度は、ヒストグラムにおけるその特徴について柱の近傍、内、又は下に記号又は他の指標により示すことができる。例えば、特徴についてのバーの下の記号のサイズは、その重要度を示すことができる。又は、重要度は、このように色又は影を付けて重要度の程度を示す、バー又は付随する記号により、色分けすることができる。入力すると、色又は影を付けたスペクトルを示すヒストグラムと関連することができ、重要度の高さは、一方の端のスペクトルにより類似する色又は影によって示し、重要度の低さは、他方の端のスペクトルにより類似する色又は影のパターンによって示す。一部の例では、例えば、非訓練対象の特徴についてのヒストグラムGUIレポートにおいてバーの下に配置された記号は、特徴の値が、訓練対象における応答性とネガティブ又はポジティブに相関したかどうかを示し得る。例えば、正符号及び負符号、上方矢印及び下方矢印、上方向を指す三角形及び下方向を指す三角形、又は他の対は、ポジティブ及びネガティブに相関する特徴を示す。このような場合では、このような記号の相対的サイズは、その相対的重要度を示し得る。
別の例では、GUIレポートは、特徴の識別子を伝える形状を含む。例えば、識別子をGUIレポートに含む各特徴は、寸法、色、影、又は他の側面が種々の識別子を示し得る形状により表すことができる。例えば、特徴はそれぞれ、四角形により表し、幅は重要度を、高さは重みを表す。四角形の色、影又は輪郭のパターンは、価を示すことができる。又は、特徴は、三角形により表すことができ、底辺は重要度を、高さは重みを、又はその逆を表す。三角形は、ポジティブ価を有する特徴を際立たせることができ、その逆も可能である。又は、三角形の色、又は影のパターン、又はその輪郭を描く線のパターンは、価を示すことができる。
別の例では、特徴の識別子は、環状の扇形、又は環状扇形の形状で示すことができる。環状扇形の角度は重要度を、その外半径はその重みを、又はその逆を示し得る。価は、環状扇形の色、若しくは影を付けるパターン、又はその輪郭を描く線にパターンを付けることにより示すことができる。他の例では、扇の形、又は扇形は、特徴の識別子を表すことができ、角度及び半径は、重要度及び重み、又はその逆を表し、色又は影等は、例えば、上記の環状扇形の価を表す。特徴識別子を環状扇形により表す場合、一部の例では、このようなすべての環状扇形は、同一の内半径を有するように描くことができ、環状扇形は、その内弧が共に内円を形成するように配置することができる。内円それ自体において、予測スコア、他の総体的概要、又は応答性予測若しくは分類の指示を示すことができる。この内円の色又は影は、応答性分類予測が、非訓練対象が応答する可能性があるか否かを予測するかどうかを示すことができる。例えば、予測が、非訓練対象が応答する可能性があるという場合、内円は、ある色若しくは影のパターンを有するか、又はあるパターンの線で描くことができ、一方、予測が、非訓練対象が応答しない可能性があるという場合、内円は、異なる色又は影のパターンを有することができる。他の例では、内円ではなく、別の形状、例えば、正方形、星、三角形、五角形又は他の形状が内側に存在し得る。内側の形状のサイズは、予測の強度を示し、内側の形状が大きければ、予測の信頼が高いことを示し、その逆も示し得る。
GUIレポートはまた、より多くの情報を求めるか、又はGUIでレポートされる特定の特徴の関心に応じて追加のソフトウェアアプリケーションを起動する機会をユーザに提供することができる。例えば、GUIは、ユーザが、特徴の識別子上にマウスを移動させる等で装置に入力することにより、又はタッチスクリーンに触れることにより制御可能な、ポインタ又は他の要素をホバリングすることができるように構成され得る。要素を方向づけるか、又はディスプレイの特徴に触れると、更に選択可能なオプションを有するドロップダウンメニューを開くことができる。例えば、ドロップダウンメニューは、特徴の値のような、非訓練対象に特異的な特徴の側面、或いは特徴のコホート範囲、訓練データに存在する値の範囲に対して、又は非訓練対象が応答すると予測されたような方法で応答した訓練対象について、若しくは他の訓練対象についての訓練データのみと比較して、表した非訓練対象の特徴の値の割合、或いは特徴の単一因子決定境界、或いは特徴の重要度又は他の治療に対する応答性との相関性、或いは前述の2つ以上の任意の組合せを表示することができる。ドロップダウンメニューはまた、1つ又は複数のマイクロプロセッサによりアクセス可能な他のプログラムへのリンクを示して、特徴又は非訓練対象の予測スコアを更に評価することができ、例えば、異なる機械学習分類器を実行することができる。このような双方向性をGUIレポートに圧縮することにより、相当なスペース及び計算的リソースを確保することができ、ユーザのコンピュータシステムとの双方向性を大幅に強化する。例えば、ドロップダウンメニューオプションにアクセスする間のGUIレポートの同時連続的表示のために必要とされる表示スペースは、減少する。更に、時間及び計算リソースを確保することができ、例えば、双方向性により、表示スクリーン間又はアプリケーション間で切り換えることなく、複数のコンピュータ機能にアクセスすることが可能となり得る。
一部の例では、訓練した機械学習分類器は、更に訓練することができる。例えば、治療に対する非訓練対象の応答性が確認されると、機械学習分類器は、訓練対象の特徴の値、特徴の値に加えて最初に訓練した応答性、予測を提供した非訓練対象についての応答性、及び得られた応答性を含む特徴について再訓練することができる。他の例では、訓練した機械学習分類器は、訓練した機械学習分類器から予測を得られなかった非訓練対象の、追加の特徴の値及び応答性により再訓練することができる。
一部の例では、対象についての応答予測分類を得る際、所与のチェックポイント阻害治療を適用するか否かの判定がなされ得る。本明細書に開示のように訓練した機械学習分類器から得られる特定のチェックポイント治療についての予測スコアが高い場合は、機械学習分類器を訓練して応答性を予測した治療により対象を治療する判定となり得る。又は、スコアが低い場合は、このような治療を適用しない判定となり得る。本明細書に開示の方法、システム、又は機械学習分類器に従って得られた、応答性の尤度が好適に高い応答予測分類又はスコア、このような応答予測分類又はスコアの結果として対象を治療する指示を得る者は、その治療により対象を治療することができる。このような治療に対して対象が応答し得ることを示す、本開示に従って生成される、応答予測分類又は予測スコアを得ることに応じてチェックポイント阻害治療を施すことにより、対象においてがんを治療すること、又はこのような応答予測分類若しくは予測スコアを得た者への指示に基づいてこのような治療を施すことを本開示に含む。
次の実施例は、本開示の特定の実施形態を説明することを意図するが、その範囲を制限することは決して意図しない。
図1は、本開示の態様による方法を実施するためのオプションを示すウェブダイアグラムである。特徴の値のソース、例えば、がんゲノムアトラス(TCGA、the cancer genome atlas)、又は臨床試験(例えば、抗PD1治療による治療、抗CTLA4治療若しくは他のチェックポイント阻害治療又は他の癌治療の試験)由来のデータの潜在的な非限定的例を示す。特徴の値の決定に使用する特徴情報を得るために使用し得る、アッセイの一部の非限定的な例をまた示し、例えば、2つの非限定的例のような、RNAseq及び全エクソームシーケンシング(WES)がある。種々の特徴の種々の非限定的な例をまた示し、例えば、試験する例のもの、又はこのような特徴の値の確認に適切な尺度がアッセイにより提供され得るものである。例としては、HLA、遺伝子発現、ssGSEA、腫瘍変異頻度、腫瘍浸潤リンパ球(デコンボリューション後)によるもののような細胞溶解性浸潤、CGA、新生抗原、クローン及び/又はサブクローン変異(即ち、所与の変異を最初に示す細胞の子孫に存在する変異、及び後に別の変異を得た、最初に変異した細胞由来の細胞の子孫の他の変異)の存在等が挙げられる。特徴は、機械学習(ML)モデルにより処理し、これにより機械学習分類器を訓練し、非訓練対象の特徴の値を訓練した機械学習分類器に入力し、その上で患者応答を得て、治療に対して応答する可能性があるものか否かとして非訓練患者を標識する。
図2は、本開示の態様による、分類器の訓練及び治療に対する患者の応答性の予測に関連し得る特徴の非限定的な例の一部を示す。当業者に理解され得るように、図2に定める特徴は、非限定的な例である。これらはまた、すべてが必要であるとは限らない。図2に示すもの以外の他の特徴を利用することができるが、示す一部は、本開示の態様による方法の実施において省略し得る。本明細書における特徴は、機能、細胞若しくは分子経路又は応答等に応じて群化したものとして示す。このような群の例としては、抗原提示、T細胞又はNK細胞の特性、免疫媒介性細胞溶解の特性、チェックポイント経路関連物質、インターフェロンγ経路関連物質、及びMDSC/Treg特性が挙げられる。他の機能又は細胞若しくは分子プロセス等を表す他の群は、本明細書に示すもののうちのいずれかに加えて、又はその代わりに非限定的な例として含むことができる。
図3は、分類器を訓練する方法を本開示の態様に従って、どのように実施し得るかの例を示すウェブダイアグラムである。当業者に理解され得るように、図3に定める特徴は、非限定的な例である。これらはまた、すべてが必要であるとは限らない。図3に示すもの以外の他の特徴を利用することができるが、示す一部は、本開示の態様による方法の実施において省略し得る。本明細書における特徴は、機能、細胞若しくは分子経路又は応答等に応じて群化したものとして示す。このような群の例としては、抗原提示、T細胞又はNK細胞の特性、免疫媒介性細胞溶解の特性、チェックポイント経路関連物質、インターフェロンγ経路関連物質、及びMDSC/Treg特性が挙げられる。訓練では、図3に示すように、訓練対象由来の特徴、例えば、ここに示すものは、ランダムフォレスト分類器のような機械学習分類器に、訓練した対象が、チェックポイント阻害治療のような所与の治療にどのように応答したかに対応する標識として入力する。このような方法で、分類器を訓練する。開示するように、他の機械学習分類器をも使用することができる。
図4は、訓練した分類器を使用して治療に対する対象の応答性を予測する方法を本開示の態様に従って、どのように実施し得るかの例を示すウェブダイアグラムを示す、図3の拡張である。特徴(その非限定的な例を本明細書において例として示す)について訓練した機械学習分類器(この非限定的な例では、ランダムフォレスト分類器)は、非訓練対象から得られる更なる入力を受信する。特に、非訓練対象由来の特徴の値を機械学習分類器に入力する。次いで、訓練した機械学習分類器は、応答性の尤度を示すスコア(本明細書において免疫スコアとして示す)を含み得る応答予測分類及び/又は特徴の識別子を予測のレポートにおいて生成する。
特徴及びPD-1阻害に対する応答性は、Hugoら(2016) Genomic and Transcriptomic Features of Response to Anti-PD-1 Therapy in Metastatic Melanoma. Cell. 2016;165(1):35~44頁(doi:10.1016/j.cell.2016.02.065)から取得した。この試験では、メラノーマを有する26人の患者由来の腫瘍試料から得られる、全エクソームシーケンシングデータ及びRNAseqデータを、PD-1チェックポイント経路の阻害物質による治療(抗PD-1抗体治療(ニボルマブ)又は抗PD-L1抗体治療(ペムブロリズマブ))の前後に得た。生データは、公的に入手可能であり、本明細書の例のためにアクセスした。RNAsepにより得たトランスクリプトームのデータ(試料中の転写物の発現レベルを含む)は、米国立バイオテクノロジー情報センター(NCBI、National Center for Biotechnology Information)の遺伝子発現オムニバス(Gene Expression Omnibus)から受託番号GSE78220でオンラインにより入手可能であった(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE78220)。NGS法により得た全エクソームシーケンシングデータは、NCBI配列解読アーカイブ(NCBI Sequence Read Archive)(https://www.ncbi.nlm.nih.gov/sra)から受託番号SRA:SRP067938及びSRA:SRP090294によりオンラインで入手可能であった。このようなデータが入手可能であった患者の応答性はまた、公表された試験の結果から得た。このようなソースからデータを選択して、機械学習分類器を訓練して抗PD1チェックポイント経路阻害物質に対する応答性を予測するための、訓練対象についての特徴及び訓練対象についての応答性を作成した。訓練した機械学習分類器から予測を得るための特徴のデータをまた、このようなソースから得た。
特徴及びCTLA-4阻害に対する応答性は、Van Allenら(2015) Genomic correlates of response to CTLA-4 blockade in metastatic melanoma. Science 350:207~211頁(doi: 10.1126/science.aad0095)から取得した。この試験では、メラノーマを有する30人の患者由来の腫瘍試料から得られる、全エクソームシーケンシングデータ及びRNAseqデータを、CTLA-4の阻害物質(イピリムマブ)による治療の前後に得た。生データは、公的に入手可能であり、本明細書の例のためにアクセスした。NGS法により得た、全エクソームシーケンシングデータ及びトランスクリプトームデータは、遺伝子型及び表現型のNCBIデータベース(dbGaP、NCBI database of Genotypes and Phenotypes)から受託番号phs000452.v2.plでオンラインにより入手可能であった(https://www.ncbi.nlm.nih.gov/gap/?term=phs000452.v2.p1)。このようなデータが入手可能であった患者の応答性はまた、公表された試験の結果からから得た。このようなソースからデータを選択して、機械学習分類器を訓練して抗CTLA4チェックポイント経路阻害物質に対する応答性を予測するための、訓練対象についての特徴及び訓練対象についての応答性を作成した。訓練した機械学習分類器から予測を得るための特徴のデータをまた、このようなソースから得た。
両方の試験から得られるデータから、データを前処理して、訓練のために機械学習分類器への特徴の入力を作成した。次いで、このような入力を受信したランダムフォレスト機械学習分類器を、訓練データについて訓練した。次いで、一部の対象由来の特徴を使用して一方又は両方の訓練した分類器から予測を生成し、予測スコア及び特徴の識別子を含む、応答性予測分類をGUIによりレポートした。図1は、上記のように、このような例において使用する一部の方法の例の概要を示す。図2は、機械学習分類器に入力するために選択された38の特徴を示す。特徴は、このような特徴の役割についての現在の理解に基づいて、対象がチェックポイント阻害に対して応答するか否かの予測に、これらが関し得るという予想に基づいて選択された。allMutは、すべてが変異する腫瘍変異頻度を指し、nonSynMutは、非同義変異に起因し得る腫瘍変異頻度を指す。cd8_dec、cd4_dec及びcd19_decは、それぞれCD8、CD4及びCD19についての腫瘍浸潤リンパ球デコンボリューション尺度を指す。図2に定める残りの特徴は、RNAseqデータから取得し、相対発現レベルの尺度を含んだ。一部の例では、ssGSEAはまた、一連の特徴(抗原提示、T細胞/NK細胞特性、免疫細胞溶解特性、チェックポイント経路、インターフェロンγ及びMDSC/Treg特性)のために得た。このような例では、一部の機械学習分類器は、オリジナルの38の特徴のみについて訓練し、他の機械学習分類器は、オリジナルの38の特徴にssGSEA解析により得た遺伝子セットを加えて、結果として総計44の特徴について訓練した。
特徴の1つの値あたりの対象のデータは、それらの値を要求する順位により、セットのうちのその特徴について、すべての対象の値の、値の範囲に対する1特徴あたりの各値の割合として正規化した。このような例における訓練のための応答性は、2項評価であり、対象は、応答性(部分的応答性と完全応答性の両方、又は各基礎的試験においてレポートされる、治療による長期的有効性を含む)又は非応答性であるもの(治療に応答する疾患進行を有し、基礎的試験においてレポートされる、治療の有効性を有しないとしてレポートされる対象を含む)として標識した。
1つ又は複数のメモリ記憶装置及び1つ又は複数のマイクロプロセッサを含むコンピュータシステムに特徴を入力した。1つ又は複数のメモリ記憶装置は、1つ又は複数のマイクロプロセッサにより実行する場合、Rプログラミング言語を使用してランダムフォレスト機械学習分類器を訓練する命令を含んだ。対象の特徴は、1つ又は複数のメモリ記憶装置上に記憶し、1つ又は複数のマイクロプロセッサにより命令に従って解析した。このような例では、50,000の木を使用した。訓練後、コンピュータシステムの1つ又は複数のメモリ記憶装置上に記憶されるように、訓練した機械学習分類器に対象の特徴を入力して、応答予測分類スコアを生成し、コンピュータディスプレイ上のGUIによりレポートした。訓練の例を図3に示し、予測生成の例を図4に示す。
最終的な予想スコアは、分類の確率により生成し、0~10のスコアに調整した。例として、説明のために、所与の免疫療法に対して「応答する」確率0.75の分類は、7.5の応答性予測スコアに置き換えた。更に、各特徴では、単一因子決定境界は、分類精度を最大化する値で決定した。特徴が、応答性である場合の分類とポジティブ又はネガティブに相関したかどうかの相関の方向性は、特徴と応答との間のスピアマンの相関により決定した。全試料を使用して、訓練及び非訓練対象を分離せずに、前述の解析を行った。性能解析を別々に行った。3分割交差検証並びに曲線下面積(AUC)プロット、Rプログラミング言語パッケージ「caret」及び「cvAUC」をデフォルト機能及びパラメータで使用した。
図5は、応答分類予測スコア及び特徴識別子をレポートするGUI500のレポートの例を示す。このような例では、特徴の識別子は、特徴の重要度(特徴のジニ指数の減少により決定される重要度)の2乗が0.1よりも大きい場合にのみ示された。図5は、抗PD1治療(例えば、抗PD1又はPD1-L1抗体)に対する応答性を予測するように訓練した機械学習分類器上で実行した抗PD1試験について、データが得られた対象についてのGUIレポートを示す。最小重要度閾を超える重要度を有する15の特徴は、FEATURES列510に示す。特徴の重要度は、IMP.列520に示す。特徴が図2のものと関連する群は、GROUP列530に示す。特徴の応答性とのポジティブ又はネガティブな相関性は、CORR列540に示す。この例では、三角形を使用して相関性の方向を示しており、上方を指す三角形は、特徴の値と応答性との間のポジティブな相関性を示し、下方を指す三角形は、特徴の値と応答性との間のネガティブな相関性を示す。特徴の単一因子決定境界は、1FDB列550に示す。この例では、単一因子決定境界は、応答者と非応答者との間で得られる最も高い差を提供した、その試料についての対象の上及び下の値(即ち、応答性及び非応答性対象の間の区別において割合の精度が総体的に低い、上又は下の値)の範囲における割合として数値的に定める。単一因子決定境界はまた、1FDB列の各特徴のセル内に左から右へ影を付けることにより示し、単一因子決定境界により示す割合を表す(即ち、境界の値に比例して、割合が低いと影が薄く、割合が高いと影が濃い)。各特徴についての対象の値は、INPUT列560に示す(このPT5 INPUTの場合、ここで予測をレポートする患者を、患者番号5又はPT5として識別している)。PT5 INPUT列560の数は、所与の特徴についての対象の値を示し、並びに影は、訓練対象についての値の範囲に対する、その対象の特徴の値の割合の順位を示す。
所与の特徴の値のみに基づいて対象が治療に対して応答すると予測され得たかどうかを1F.PRED列570にレポートする。従って、ポジティブに相関する特徴では、PT5 Input560の値が1FDB550の値を超える場合、1F.PRED570は、YESを示す(特徴が、対象が治療に対して応答する可能性があると予測し得ることを意味する)。ポジティブに相関する特徴では、PT5 Input560の値が1FDB550の値未満である場合、1F.PRED570は、NOを示す(特徴が、対象が治療に対して応答しない可能性があると予測し得ることを意味する)。ネガティブに相関する特徴では、PT5 Input560の値が1FDB550の値を超える場合、1F.PRED570は、NOを示す(特徴が、対象が治療に対して応答しない可能性があると予測し得ることを意味する)。また、ネガティブに相関する特徴では、PT5 Input560の値が1FDB550の値未満である場合、1F.PRED570は、YESを示す(特徴が、対象が治療に対して応答する可能性があると予測し得ることを意味する)。この例では、1F.PRED570のセルはまた、特徴のみが応答性を予測し得るかどうかに応じて色分けすることができる。YESのセルは、緑に着色し得るが、例えば(R)のように、NOのセルは、赤(R)に着色し得る。最終行のFULL MODEL(全モデル)580は、この場合は5.5の応答分類スコアをレポートする。カットオフは、上又は下の値で決定することができ、治療が有効であるか否かを予測し得る。例えば、5.0未満のスコアは、治療がこの患者に作用しない可能性があると予測すると考えることができ、5.0を超えるスコアは、治療がこの患者に作用する可能性があると示すと考えることができる。このように、5を超えるスコアによって治療がこの患者に作用する可能性があると示すと考えられる場合、本明細書に開示の機械学習分類器を訓練及び使用する有用性により、GUIレポートに指標が示される1つの特徴のみに基づいて基礎的に予測し得るものよりも大幅に向上した、予測のための基礎が、一部の特徴(重要度が最も高い特徴を含む)のみでは非応答性であると予測したが、機械学習分類器では、患者が応答し得ると総体的に予測するという点において、もたらされることを理解することができる。
この例では、応答予測スコアは、GUIレポートに含まれる各特徴の指標として、GUIによりレポートし、重み(PT5 INPUT560と1FDB550との間の比較を提示することにより)、重要度520、及び1F.PREDの価を含む。一部の例では、ユーザは、例えば、GUIレポートの一部に対応するタッチスクリーンディスプレイの一部に触れるか、或いはカーソルのようなグラフィック要素を、マウスのような装置で特徴又は関連する指標又はそのスコア上を移動させて、追加情報にアクセスするか、又は1つ若しくは複数のマイクロプロセッサに対する、1つ若しくは複数のメモリ記憶装置上に記憶される種々のプログラミング命令により実行することができる、追加の解析から選択することによって、GUIの種々の側面からドロップダウンメニューにアクセスするオプションを有し得る。
この対象についての別のGUIレポート610を図6に示す。複数のGUIレポートを、図6に示す例において単一のレポートにまとめる。図6の上部は、環状扇形610の輪を示し、図5で説明するように、重要度が最小重要度閾を超える特徴にそれぞれ対応する。環状扇形がそれぞれ対応する特徴はまた、記述により示す。例えば、特徴HLA.Bに対応する環状扇形は、630により示す。環状扇形はそれぞれ角度、外半径、及び内半径、並びに内弧を有する。この例では、角度は、特徴の重要度に対応する。この例では、特徴の角度は、相互に比例しており、目視比較が直接可能となる。また、この例では、外半径と内半径との間の差は、その重み(即ち、対象の特徴の値と単一因子決定境界との差)に対応する。この例における特徴の価はまた、特徴の環状扇形の輪郭を描く線の種類によりレポートする。環状扇形が対象についてポジティブ価を有する特徴(例えば、総腫瘍変異頻度640について)は、実線で輪郭を描くが、環状扇形が対象についてネガティブ価を有する特徴(例えば、HLA.B630について)は、点線で輪郭を描く。
この例では、内弧は、内円を形成するように配置する。また、この例では、内円において、この患者についての応答性予測分類スコアは、この場合5.5とレポートされる。また、この例では、総体的予測は、内円を形成する実線により示し、対象の応答予測分類スコアが、応答性と非応答性との予測を区別する、所定のレベルを超えることを意味する。他の例では、点線は、応答予測分類スコアが、このような所定のスコア閾値未満であった場合、内円を形成し得る。他の例では、環状扇形及び/若しくは内円における色若しくは影のパターンの差、並びに/又は環状扇形若しくは内円の輪郭の着色の差は、価を示し得る。
この例では、600の図6に示すGUIレポートの上部610は、応答予測分類スコアのレポートを含み、特徴の重要度、価、及び重みを示す。このようなGUIレポート1010の別の例は、図10に示す。特徴についての環状扇形は、円を形成するその内弧と共にではなく個別に示す。外弧1002、内弧1001、及び外半径と内半径との差1003の例は、CD15の環状扇形について示し、環状扇形1004の角度は、例示のためにHLA.B 1030の環状扇形の下に示す。特徴の外半径(又は内半径と外半径との差)は、重みをレポートし、角度は、重要度をレポートし、環状扇形の輪郭を描く線のパターンは、特徴が、ポジティブ(実線、例えば、総腫瘍変異頻度all_tmb 1040についての環状扇形)又はネガティブ(点線、例えば、CD15についての環状扇形)な価を有するかについてレポートする。応答予測分類スコアは、ここに示さないが、このようなGUIレポート1010にまた任意選択で含む。種々のパターンの輪郭ではなく、種々の色又は影のパターンを使用して、特徴の価を示すことができる。環状扇形以外の形状をまた使用することができる。例えば、特徴は、四角形としてレポートして、重要度及び重みは、幅及び高さにより表すか、又は、例えば、三角形としてレポートして、底辺の幅は、重要度を反映し、高さは、重みを表し、方向性は、価を表すことができる。当業者は、本開示の態様によるレポートGUIの複数の特徴の複数の指標をレポートするために、多数の可能な方法が適応可能であることを理解するであろう。
図6に示すGUIレポート600に戻って、環状扇形610を含むレポートの上部の下は、GUIレポート620のヒストグラム部分である。GUIレポートは、このような部分の両方若しくは片方のみを有し得るか、又はいずれも有しない。ヒストグラム620は、対象についてレポートされる値が、その特徴について設定した最小重要度閾を超える各特徴の柱を示す。左側の目盛650は、各特徴についての対象の値の割合の順位を示す。各特徴の柱は、訓練対象の値についての値の範囲の割合として、その特徴についての対象の特徴の値を表す。対象の値の例として、特徴CD15 660を示す。また、各柱について、その特徴についての単一特徴の決定境界として、この場合は水平線を示す。単一特徴決定境界の例として、特徴CD15 670を示す。各柱の下の三角形は、特徴が、応答性とポジティブ(上方を指す三角形)に又はネガティブ(下方を指す三角形)に相関するかどうかを示す。例として、CD15の680を指す。三角形はまた、高い重要度を表す大きな三角形、及び低い重要度を表す小さな三角形を割り当てて、各特徴の相対的重要度を反映する。対象の特徴の値とその特徴についての単一因子決定境界との間の線は、その特徴の重みを示す。特徴についての重みのレポートの例として、特徴CD15 690を示す。特徴についての価は、重みの線が実線(ポジティブ価)であるか又は点線(ネガティブ価)であるかにより示す。当業者に理解され得るように、種々の特徴の種々の指示をレポートするための、このような特定の各例は、省略するか、又は種々のグラフィック表示で置き換えることができる。色及び影は、特徴についての価及び/又は相関性を表し、矢印又は他の方向指示形状は、価又は相関性を表し、重要度は、目盛を付けた色分け設計等により表し得る。
一部の例では、遺伝子セットを使用して、機械学習分類器を訓練し、訓練した機械学習分類器から予測を生成した。ssGSEAにより生成する遺伝子セットの例を図7に示す。遺伝子セットを決定するために使用する個人の特徴により群化した6セットを示す。例としては、抗原プロセシング経路、即ち、抗原提示(710)に関するもの、T細胞及びNK細胞特性720、細胞溶解特性730、チェックポイント経路740、インターフェロンガンマ750、及びMSDC/Treg特性760が挙げられる。細胞セットを含む、各特徴についての相関性及び重要度は、PD1及びCTLA4機械学習分類器を訓練するために使用する場合、770及び780にそれぞれ示す。一部の例では、遺伝子セットの値がssGSEAを使用して決定された場合の個人の任意の特徴よりも高い相関性又は高い重要度のいずれかを生じた遺伝子セットを、破線の囲みで輪郭を描いたセルにおいて強調し、特徴として遺伝子セットを含む値を示す。ssGSEAを含む場合の有用性をまた図9に示す。図9は、2つの異なる訓練した機械学習分類器を使用した、同一の対象についての応答性予測に関する2つのGUIレポートを示す。左側の予測910は、訓練又は予測においてssGSEA遺伝子セットを特徴として使用せずに、予測を生成することにより得た。右側の予測920は、訓練又は予測においてssGSEA遺伝子セットを特徴として使用して、予測を生成することにより得た。ssGSEAによる遺伝子セットを含む場合、一部の遺伝子セット(定義により、遺伝子セットを用いずに得た予測910に含まれなかったもの)を含み、総体的予測を断念することなく、最小閾値境界を超えた特徴は少なかった(11対15)(例えば、対象の応答者としての分類を開始させる、最小応答予測分類スコアとして設定したスコア5.0を予測が超えた両方の場合において)。
図8は、2つの異なる機械学習分類器を使用して予測を生成した同一の患者から得られる2つのGUIレポートを示し、一方の810は、抗CTLA4治療に対する応答性を予測するように訓練し、他方の820は、抗PD1に対する応答性を予測するように訓練し、共に図2に示す特徴を使用した。抗CTLA4機械学習分類器810は、3.8の応答予測分類スコアを生成し、対象が抗CTLA4治療に対して応答しない可能性があることを予測した(5.0の応答予測分類スコア閾値を使用して)。この810の場合、応答性予測分類スコアの価(非応答性)は、応答予測分類スコアを示す内円815の周囲に点線で示す。このような予測の精度は、臨床試験ソース(Van Allenら)からこの患者が、「疾患進行」として応答分類され、対象が抗CTLA4治療に対して非応答性であったことが示されることにより実証される。しかし、抗PD1機械学習分類器820は、6.7の応答予測分類スコアを生成し、対象が抗PD1(例えば、抗PD1又は抗PD-L1抗体)治療に対して応答する可能性があることを予測した(再び5.0の応答予測分類スコア閾値を使用して)。この820の場合、応答予測分類スコア(応答性)は、応答予測分類スコアを示す内円817の周囲に実線で示す。
使用する機械学習分類器に応じた種々の応答予測分類スコア(並びに対応する、種々の特徴の価、重み、及び重要度の差)は、本明細書に開示の方法の能力を反映する。例えば、HLA.Aをレポートする指標830は、抗CTLA4治療に対するこの患者の応答性の予測についてネガティブ価を有するが、抗PD1治療に対するこの対象の応答性の予測についてポジティブ価を有することを示す。更に、非同義腫瘍変異頻度及び総腫瘍変異頻度についての特徴の値は、抗CTLA4機械学習分類器では、最小重要度閾を超えなかったが、抗PD1機械学習分類器840では、最小重要度閾を超えた。
図5に示す例と同様に、図6、図8、図9及び図10に示す例示的GUIレポートは、ユーザ双方向性を含み得る。従って、一部の例では、ユーザは、例えば、GUIレポートの一部に対応するタッチスクリーンディスプレイの一部に触れるか、又はカーソルのようなグラフィック要素を、マウスのような装置で特徴(例えば、ヒストグラムの環状扇形若しくは柱又は他の指標)上を移動させて、追加情報にアクセスするか、又は1つ又は複数のマイクロプロセッサに対する、1つ又は複数のメモリ記憶装置上に記憶される種々のプログラミング命令により実行することができる、追加の解析から選択することによって、GUIの種々の側面からドロップダウンメニューにアクセスするオプションを有し得る。
図11A~図11Dは、図2に示す38の特徴のすべてを使用すると、単一因子を使用する場合よりも分類器の性能が生まれることを実証する。これは、抗PD1又は抗CTLA4治療のいずれに対する応答性を予測するように訓練したかにかかわらず、機械学習分類器に当てはまった。図11Aは、機械学習分類器を訓練及びテストして、例えば、抗PD1治療に対する応答性を予測するように38の特徴すべてを使用すると、交差検証(CV)なしで機械学習分類器を過訓練させる場合、1.00の偽陽性対真陽性の受信者操作特性(auROC、Receiver Operator Characteristic)のAUCが得られ、図11Bに示すように、単一因子の平均について1.00auROC対0.64auROCに達したことを示す。図11C及び図11Dは、図2に示す38の特徴を使用すると、単一因子の特徴の上位の3つすべてである、HLA-B、nonSyn_tmb及びall_tmbよりも正確であることを更に示す。
図12A~図12Dは、分類器性能を有したssGSEAにより取得する、遺伝子セットを使用する場合の有効性を示すグラフである。ssGSEAの性能は、図2に示す38の特徴を使用した場合に匹敵する。図12A、図12B及び図12Cは、図2に示す38の特徴を使用して抗PD1(図12A)若しくは抗CTLA4(図12B)治療に対する応答性を予測する場合、又は38の特徴に加えて図7に示す6つの遺伝子セットを使用して抗PD1治療(図12C)に対する応答性を予測する場合についての3分割交差検証auROCをレポートする。ssGSEAにより得た6つの遺伝子セットを含む場合、性能は、抗PD1治療予測について0.69~0.64に低下したが(図12A~図12Cを比較して)、最小重要度閾を超えた重要度を有する特徴の数は、15~11に減少した(上記に考察するように、例えば、図8を参照)。図12Dは、機械学習分類器の応答予測分類スコアによる偽陽性及び真陽性結果についての比較可能なt検定の結果を示す(交差検証なし)。従って、一部の例では、特徴として含む遺伝子セットは、分類器の総体的な安定性を向上させ、過訓練の回避を助け、これによる重要な特徴及び指標のより明快な解釈を可能とし得る。
このような例において使用するデータは、チェックポイント阻害物質である、抗CTLA4抗体、抗PD1抗体、及び抗PD1-L1抗体の有効性を、メラノーマを有する患者においてテストする試験に登録した対象由来であった。しかし、当業者に理解され得るように、チェックポイント阻害に基づく役割は、他のがんのがん免疫治療の有効性の鈍化において作用することで知られており、チェックポイント経路機能、本明細書に開示の方法、システム、及び分類器における、本明細書に含むもののような特徴の役割は、このようなチェックポイント阻害物質に対する対象の応答性の予測を生成するのに、乳がん、消化器系のがん、肝がん、膀胱がん、リンパ腫、白血病、骨組織のがん、神経系のがん、肺がん、膵がん、又はその他を含む、他のがんにおいても等しく有用及び有効であり得る。更に、当業者にまた理解され得るように、チェックポイント阻害物質に対する応答性もまた、本明細書に開示する前述の例において特異的に使用するものに加えて、本明細書に開示の方法、システム、及び分類器を使用して予測することができ、これらは単にその適応性の非限定的な例として扱う。
この性能解析の落とし穴は、試料サイズが小さいことである。多数の特徴を用いたとしても、過訓練は避けられない。一方、分割交差検証の結果は、非常に不安定であり、連続曲線ではなくauROC点の離散化を示す。しかし、本発明者らが有する制限において、全モデルによる解析は、単一因子による解析よりも明白に性能が優れている。
好ましい実施形態を本明細書において詳細に表示及び記載したが、本開示の趣旨に逸脱することなく、種々の修飾、追加、置換等をなすことが可能であり、従って、以下の特許請求の範囲に定義するように、これらが本開示の範囲内にあるとみなされることが、関連分野の当業者に明らかとなるであろう。
本明細書においてより詳細に検討する前述の概念及び追加の概念のすべての組合せが(このような概念が相互に矛盾しなければ)、本明細書に開示の、本発明の主題の一部であると考えられることが理解されるべきである。特に、本開示の最後に現れる、主張する主題のすべての組合せは、本明細書に開示の、本発明の主題の一部であると考えられる。
GSE 78220
SRA SRP067938
SRA SRP090294
dbGaP phs000452.v2.pl

Claims (27)

  1. 訓練した機械学習分類器に非訓練対象のゲノム情報を入力する工程であって、非訓練対象のゲノム情報が、非訓練対象から得られる腫瘍プロファイル由来の特徴を含み、
    訓練した機械学習分類器が、複数の訓練対象のゲノム情報、及びチェックポイント阻害を含む治療に対する複数の訓練対象のそれぞれの応答性について訓練され、複数の訓練対象のゲノム情報が、複数の訓練対象のそれぞれから得られる腫瘍プロファイルの特徴を含み、機械学習分類器が、治療に対する応答性を予測するように訓練される、工程と、
    訓練した機械学習分類器を使用して、非訓練対象についてチェックポイント阻害応答性分類を生成する工程であって、チェックポイント阻害応答性分類が、非訓練対象がチェックポイント阻害に対して応答することを予測する、工程と、
    非訓練対象のチェックポイント阻害応答性分類を、グラフィカルユーザインターフェースを使用してレポートする工程と
    を含む、コンピュータ実行方法であって、
    非訓練対象から得られる腫瘍プロファイル由来の特徴の少なくとも一部、又は訓練対象の1人又は複数から得られる腫瘍プロファイル由来の特徴の少なくとも一部が、すべての変異からなる総変異頻度、非同義変異からなる総変異頻度、ベータ2ミクログロブリン(B2M)発現、プロテアソームサブユニットベータ10(PSMB10)発現、抗原ペプチドトランスミッター1(TAP1)発現、抗原ペプチド輸送体2(TAP2)発現、ヒト白血球抗原A(HLA-A)発現、主要組織適合複合体クラスI B(HLA-B)発現、主要組織適合複合体クラスI C(HLA-C)発現、主要組織適合複合体クラスII DQアルファ1(HLA-DQA1)発現、HLAクラスII組織適合抗原DRB1ベータ鎖(HLA-DRB1)発現、HLAクラスI組織適合抗原アルファ鎖E(HLA-E)発現、ナチュラルキラー細胞顆粒タンパク質7(NKG7)発現、ケモカイン様受容体(CMKLR1)発現、表面抗原分類8(CD8)を発現する細胞による腫瘍浸潤、表面抗原分類4(CD4)を発現する細胞による腫瘍浸潤、表面抗原分類19(CD19)を発現する細胞による腫瘍浸潤、グランザイムA(GZMA)発現、パーフォリン1(PRF1)発現、プログラム細胞死1リガンド2(PDL2)発現、リンパ球活性化遺伝子3(LAG3)発現、Ig及びITIMドメインを有するT細胞免疫受容体(TIGIT)発現、表面抗原分類276(CD276)発現、ケモカイン(C-Cモチーフ)リガンド5(CCL5)、CD27発現、ケモカイン(C-X-Cモチーフ)リガンド9(CXCL9)発現、C-X-Cモチーフケモカイン受容体6(CXCR6)、インドールアミン2,3-ジオキシゲナーゼ(IDO)発現、シグナル伝達兼転写活性化因子1(STAT1)発現、3-フコシル-N-アセチル-ラクトサミン(CD15)発現、インターロイキン2受容体アルファ鎖(CD25)発現、siglec-3(CD33)、表面抗原分類39(CD39)発現、表面抗原分類118(CD118)発現、フォークヘッドボックスP3(FOXP3)発現、及び前述の2つ以上の任意の組合せからなる群から選択される、コンピュータ実行方法。
  2. 非訓練対象から得られる腫瘍プロファイル由来の特徴の少なくとも一部、又は訓練対象の1人又は複数から得られる腫瘍プロファイル由来の特徴の少なくとも一部が、細胞傷害性Tリンパ球関連タンパク質4(CTLA4)発現、プログラム細胞死タンパク質1(PD1)発現、もしくはプログラム死リガンド1(PDL1)発現の一つ又は複数をさらに含む、請求項1に記載の方法。
  3. 訓練特徴の少なくとも一部、又は非訓練特徴の少なくとも一部が、遺伝子セットを含む、請求項1に記載の方法。
  4. 遺伝子セットが、単一サンプル遺伝子セットの濃縮解析を使用して選択された、請求項3に記載の方法。
  5. 機械学習分類器が、ランダムフォレストである、請求項1に記載の方法。
  6. 少なくとも50,000の木が、機械学習分類器の訓練において使用される、請求項5に記載の方法。
  7. チェックポイント阻害応答性分類が、予測スコア及び1つ又は複数の特徴識別子を含み、1つ又は複数の特徴識別子が、特徴価、特徴重要度、及び特徴重みからなる群から選択される、請求項1に記載の方法。
  8. グラフィカルユーザインターフェースが、特徴識別子を環状扇形の各側面としてレポートし、環状扇形の角度が特徴重要度をレポートし、環状扇形の外半径が特徴重みをレポートし、環状扇形の色が特徴価をレポートする、請求項7に記載の方法。
  9. 特徴の特徴重要度が、特徴のジニ指数の減少を含む、請求項8に記載の方法。
  10. グラフィカルユーザインターフェースが、特徴の特徴重要度が閾値を超える場合かつその場合に限り、特徴の識別子をレポートする、請求項9に記載の方法。
  11. 特徴の特徴重要度が、特徴の特徴重要度の2乗が0.1を超えない場合、閾値を超えない、請求項10に記載の方法。
  12. 各環状扇形が内弧を含み、環状扇形の内弧が円を形成するように配置される、請求項10に記載の方法。
  13. 治療に対する非訓練対象の応答性を、訓練した機械学習分類器に入力する工程と、機械学習分類器を更に訓練する工程とを更に含み、更に訓練する工程が、訓練した機械学習分類器を、非訓練対象から得られる腫瘍試料の特徴、及び治療に対する非訓練対象の応答性について訓練することを含む、請求項1に記載の方法。
  14. 生成されたチェックポイント阻害応答性分類に基づいて治療を選択する工程を更に含む、請求項1に記載の方法。
  15. 1つ又は複数のマイクロプロセッサと、
    訓練した機械学習分類器、及び非訓練対象のゲノム情報を記憶するための1つ又は複数のメモリであって、訓練した機械学習分類器が、複数の訓練対象のゲノム情報、及びチェックポイント阻害を含む治療に対する複数の訓練対象のそれぞれの応答性について訓練され、複数の訓練対象のゲノム情報が、複数の訓練対象のそれぞれから得られる腫瘍プロファイルの特徴を含み、機械学習分類器が、治療に対する応答性を予測するように訓練され、非訓練対象のゲノム情報が、非訓練対象から得られる腫瘍プロファイル由来の特徴を含む、メモリと
    を含むコンピュータシステムであって、
    1つ又は複数のメモリが、1つ又は複数のマイクロプロセッサにより実行される場合、コンピュータシステムに、訓練した機械学習分類器を使用してチェックポイント阻害応答性分類を非訓練対象について生成させ、非訓練対象のチェックポイント阻害応答性分類を、グラフィカルユーザインターフェースを使用してレポートさせる、命令を記憶し、前記チェックポイント阻害応答性分類が、非訓練対象がチェックポイント阻害に対して応答することを予測し、
    非訓練対象から得られる腫瘍プロファイル由来の特徴の少なくとも一部、又は訓練対象の1人又は複数から得られる腫瘍プロファイル由来の特徴の少なくとも一部が、すべての変異からなる総変異頻度、非同義変異からなる総変異頻度、ベータ2ミクログロブリン(B2M)発現、プロテアソームサブユニットベータ10(PSMB10)発現、抗原ペプチドトランスミッター1(TAP1)発現、抗原ペプチド輸送体2(TAP2)発現、ヒト白血球抗原A(HLA-A)発現、主要組織適合複合体クラスI B(HLA-B)発現、主要組織適合複合体クラスI C(HLA-C)発現、主要組織適合複合体クラスII DQアルファ1(HLA-DQA1)発現、HLAクラスII組織適合抗原DRB1ベータ鎖(HLA-DRB1)発現、HLAクラスI組織適合抗原アルファ鎖E(HLA-E)発現、ナチュラルキラー細胞顆粒タンパク質7(NKG7)発現、ケモカイン様受容体(CMKLR1)発現、表面抗原分類8(CD8)を発現する細胞による腫瘍浸潤、表面抗原分類4(CD4)を発現する細胞による腫瘍浸潤、表面抗原分類19(CD19)を発現する細胞による腫瘍浸潤、グランザイムA(GZMA)発現、パーフォリン1(PRF1)発現、プログラム細胞死1リガンド2(PDL2)発現、リンパ球活性化遺伝子3(LAG3)発現、Ig及びITIMドメインを有するT細胞免疫受容体(TIGIT)発現、表面抗原分類276(CD276)発現、ケモカイン(C-Cモチーフ)リガンド5(CCL5)、CD27発現、ケモカイン(C-X-Cモチーフ)リガンド9(CXCL9)発現、C-X-Cモチーフケモカイン受容体6(CXCR6)、インドールアミン2,3-ジオキシゲナーゼ(IDO)発現、シグナル伝達兼転写活性化因子1(STAT1)発現、3-フコシル-N-アセチル-ラクトサミン(CD15)発現、インターロイキン2受容体アルファ鎖(CD25)発現、siglec-3(CD33)、表面抗原分類39(CD39)発現、表面抗原分類118(CD118)発現、フォークヘッドボックスP3(FOXP3)発現、及び前述の2つ以上の任意の組合せからなる群から選択される、コンピュータシステム。
  16. 非訓練対象から得られる腫瘍プロファイル由来の特徴の少なくとも一部、又は訓練対象の1人若しくは複数から得られる腫瘍プロファイル由来の特徴の少なくとも一部が、細胞傷害性Tリンパ球関連タンパク質4(CTLA4)発現、プログラム細胞死タンパク質1(PD1)発現、もしくはプログラム死リガンド1(PDL1)発現の一つ又は複数をさらに含む、請求項15に記載のシステム。
  17. 訓練特徴の少なくとも一部、又は非訓練特徴の少なくとも一部が、遺伝子セットを含む、請求項15に記載のシステム。
  18. 遺伝子セットが、単一サンプル遺伝子セットの濃縮解析を使用して選択された、請求項17に記載のシステム。
  19. 機械学習分類器が、ランダムフォレストである、請求項15に記載のシステム。
  20. 少なくとも50,000の木が、機械学習分類器の訓練において使用される、請求項19に記載のシステム。
  21. チェックポイント阻害応答性分類が、予測スコア及び1つ又は複数の特徴識別子を含み、1つ又は複数の特徴識別子が、特徴価、特徴重要度、及び特徴重みからなる群から選択される、請求項15に記載のシステム。
  22. 命令が、1つ又は複数のマイクロプロセッサにより実行される場合、グラフィカルユーザインターフェースに特徴識別子を環状扇形の各側面としてレポートさせ、環状扇形の角度が特徴重要度をレポートし、環状扇形の外半径が特徴重みをレポートし、環状扇形の色が特徴価をレポートする、請求項21に記載のシステム。
  23. 特徴の特徴重要度が、特徴のジニ指数の減少を含む、請求項22に記載のシステム。
  24. 命令が、1つ又は複数のマイクロプロセッサにより実行される場合、グラフィカルユーザインターフェースに、特徴の特徴重要度が閾値を超える場合かつその場合に限り、特徴の識別子をレポートさせる、請求項23に記載のシステム。
  25. 特徴の特徴重要度が、特徴の特徴重要度の2乗が0.1を超えない場合、閾値を超えない、請求項24に記載のシステム。
  26. 命令が、1つ又は複数のマイクロプロセッサにより実行される場合、グラフィカルユーザインターフェースに、各環状扇形の内弧、及び環状扇形の内弧を含む円をレポートさせる、請求項24に記載のシステム。
  27. 命令が、1つ又は複数のマイクロプロセッサにより実行される場合、コンピュータシステムに機械学習分類器を更に訓練させ、更に訓練させることが、訓練した機械学習分類器を、非訓練対象から得られる腫瘍試料の特徴、及び治療に対する非訓練対象の応答性について訓練することを含む、請求項15に記載のシステム。
JP2019566271A 2017-12-01 2018-12-03 薬効を評価するためのシステム及び方法 Active JP7429539B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762593802P 2017-12-01 2017-12-01
US62/593,802 2017-12-01
PCT/US2018/063658 WO2019109089A1 (en) 2017-12-01 2018-12-03 Systems and methods for assessing drug efficacy

Publications (2)

Publication Number Publication Date
JP2021505976A JP2021505976A (ja) 2021-02-18
JP7429539B2 true JP7429539B2 (ja) 2024-02-08

Family

ID=64734247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566271A Active JP7429539B2 (ja) 2017-12-01 2018-12-03 薬効を評価するためのシステム及び方法

Country Status (11)

Country Link
EP (1) EP3616205A1 (ja)
JP (1) JP7429539B2 (ja)
KR (1) KR20200093437A (ja)
CN (1) CN110678930B (ja)
AU (1) AU2018375214A1 (ja)
BR (1) BR112019024537A2 (ja)
CA (1) CA3061736A1 (ja)
MX (1) MX2019014285A (ja)
SG (1) SG11201910041WA (ja)
WO (1) WO2019109089A1 (ja)
ZA (1) ZA201907298B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640508B (zh) * 2020-05-28 2023-08-01 上海市生物医药技术研究院 基于高通量测序数据和临床表型构建的泛肿瘤靶向药敏感性状态评估模型的方法及应用
CN111863126B (zh) * 2020-05-28 2024-03-26 上海市生物医药技术研究院 构建结直肠肿瘤状态评估模型的方法及应用
CN111755073B (zh) * 2020-05-31 2022-11-15 复旦大学 基于转录组的pd-1疗法治疗效果预测系统
CN113095440B (zh) * 2020-09-01 2022-05-17 电子科技大学 基于元学习者的训练数据生成方法及因果效应异质反应差异估计方法
AU2022327751A1 (en) * 2021-08-11 2024-03-21 OncoHost Ltd. Predicting patient response
CN114694745A (zh) * 2022-03-24 2022-07-01 至本医疗科技(上海)有限公司 预测免疫疗效的方法、装置、计算机设备和存储介质
WO2023230321A1 (en) * 2022-05-27 2023-11-30 Cofactor Genomics, Inc. Machine learning systems and methods for gene set enrichment analysis and scoring

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015184061A2 (en) 2014-05-28 2015-12-03 Dana-Farber Cancer Institute, Inc. Activating jak kinase biomarkers predictive of anti-immune checkpoint inhibitor response
WO2017167942A1 (en) 2016-03-31 2017-10-05 Pamgene Bv Method for predicting the response of melanoma patients to a medicament
WO2017201165A1 (en) 2016-05-17 2017-11-23 Genecentric Diagnostics, Inc. Methods for subtyping of lung adenocarcinoma

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106740A1 (en) * 2002-05-24 2011-05-05 University Of South Florida Tissue classification method for diagnosis and treatment of tumors
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015184061A2 (en) 2014-05-28 2015-12-03 Dana-Farber Cancer Institute, Inc. Activating jak kinase biomarkers predictive of anti-immune checkpoint inhibitor response
WO2017167942A1 (en) 2016-03-31 2017-10-05 Pamgene Bv Method for predicting the response of melanoma patients to a medicament
WO2017201165A1 (en) 2016-05-17 2017-11-23 Genecentric Diagnostics, Inc. Methods for subtyping of lung adenocarcinoma
JP2019516407A (ja) 2016-05-17 2019-06-20 ジーンセントリック セラピューティクス, インコーポレイテッド 肺腺癌のサブタイピングのための方法

Also Published As

Publication number Publication date
BR112019024537A2 (pt) 2020-06-09
WO2019109089A1 (en) 2019-06-06
RU2019135697A (ru) 2022-01-04
NZ759413A (en) 2022-03-25
CA3061736A1 (en) 2019-06-06
MX2019014285A (es) 2020-01-27
EP3616205A1 (en) 2020-03-04
SG11201910041WA (en) 2019-11-28
KR20200093437A (ko) 2020-08-05
CN110678930B (zh) 2023-06-20
CN110678930A (zh) 2020-01-10
ZA201907298B (en) 2023-06-28
AU2018375214A1 (en) 2019-12-12
JP2021505976A (ja) 2021-02-18

Similar Documents

Publication Publication Date Title
JP7429539B2 (ja) 薬効を評価するためのシステム及び方法
Kardos et al. Claudin-low bladder tumors are immune infiltrated and actively immune suppressed
Karasaki et al. An immunogram for the cancer-immunity cycle: towards personalized immunotherapy of lung cancer
Charoentong et al. Pan-cancer immunogenomic analyses reveal genotype-immunophenotype relationships and predictors of response to checkpoint blockade
Griffiths et al. Circulating immune cell phenotype dynamics reflect the strength of tumor–immune cell interactions in patients during immunotherapy
Lee et al. Comprehensive immunoproteogenomic analyses of malignant pleural mesothelioma
CN111164700A (zh) 使用下一代测序的免疫-肿瘤学应用
AU2020251324A1 (en) Aryl hydrocarbon receptor (AHR) activation signature and methods for determining AHR signaling status
McCoach et al. The evolving understanding of immunoediting and the clinical impact of immune escape
Zhao et al. Identification of immune cell infiltration landscape and their prognostic significance in uveal melanoma
McCann et al. Targeting the tumor mutanome for personalized vaccination in a TMB low non-small cell lung cancer
US20200176083A1 (en) Systems and methods for assessing drug efficacy
CA3227993A1 (en) Predicting patient response
Kim et al. MHC II immunogenicity shapes the neoepitope landscape in human tumors
US20230160009A1 (en) Predictive response biomarker discovery process
Bendall et al. Specific human endogenous retroviruses predict metastatic potential in uveal melanoma
Noviello et al. Guadecitabine plus ipilimumab in unresectable melanoma: five-year follow-up and integrated multi-omic analysis in the phase 1b NIBIT-M4 trial
Liu et al. Landscape of immune microenvironment in epithelial ovarian cancer and establishing risk model by machine learning
Naulaerts et al. Immunogenomic, single-cell and spatial dissection of CD8+ T cell exhaustion reveals critical determinants of cancer immunotherapy
Shin et al. IL-7 receptor alpha defines heterogeneity and signature of human effector memory CD8+ T cells in high dimensional analysis
RU2797170C9 (ru) Системы и способы оценки эффективности лекарственного средства
RU2797170C2 (ru) Системы и способы оценки эффективности лекарственного средства
Zhang et al. Pan-cancer evaluation of regulated cell death to predict overall survival and immune checkpoint inhibitor response
NZ759413B2 (en) Systems and methods for assessing drug efficacy
Feng et al. Identification and validation of an emt-related lncrna signature for hnscc to predict survival and immune landscapes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230719

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230925

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231110

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20231120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240129

R150 Certificate of patent or registration of utility model

Ref document number: 7429539

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150