JP7217711B2 - 新生抗原の特定、製造、及び使用 - Google Patents

新生抗原の特定、製造、及び使用 Download PDF

Info

Publication number
JP7217711B2
JP7217711B2 JP2019556988A JP2019556988A JP7217711B2 JP 7217711 B2 JP7217711 B2 JP 7217711B2 JP 2019556988 A JP2019556988 A JP 2019556988A JP 2019556988 A JP2019556988 A JP 2019556988A JP 7217711 B2 JP7217711 B2 JP 7217711B2
Authority
JP
Japan
Prior art keywords
allele
mhc
peptide
presentation
neoantigens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019556988A
Other languages
English (en)
Other versions
JP2020519246A (ja
Inventor
トーマス バウチャー
ブレンダン ブリク-スリバン
ジェニファー バスビー
ローマン ヤレンスカイ
Original Assignee
グリットストーン バイオ インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グリットストーン バイオ インコーポレイテッド filed Critical グリットストーン バイオ インコーポレイテッド
Publication of JP2020519246A publication Critical patent/JP2020519246A/ja
Priority to JP2023008973A priority Critical patent/JP2023055775A/ja
Application granted granted Critical
Publication of JP7217711B2 publication Critical patent/JP7217711B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/0005Vertebrate antigens
    • A61K39/0011Cancer antigens
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K35/00Medicinal preparations containing materials or reaction products thereof with undetermined constitution
    • A61K35/12Materials from mammals; Compositions comprising non-specified tissues or cells; Compositions comprising non-embryonic stem cells; Genetically modified cells
    • A61K35/14Blood; Artificial blood
    • A61K35/17Lymphocytes; B-cells; T-cells; Natural killer cells; Interferon-activated or cytokine-activated lymphocytes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/46Cellular immunotherapy
    • A61K39/461Cellular immunotherapy characterised by the cell type used
    • A61K39/4611T-cells, e.g. tumor infiltrating lymphocytes [TIL], lymphokine-activated killer cells [LAK] or regulatory T cells [Treg]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/46Cellular immunotherapy
    • A61K39/463Cellular immunotherapy characterised by recombinant expression
    • A61K39/4632T-cell receptors [TCR]; antibody T-cell receptor constructs
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K39/46Cellular immunotherapy
    • A61K39/464Cellular immunotherapy characterised by the antigen targeted or presented
    • A61K39/4643Vertebrate antigens
    • A61K39/4644Cancer antigens
    • A61K39/464401Neoantigens
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/5005Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells
    • G01N33/5008Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics
    • G01N33/5044Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving human or animal cells for testing or evaluating the effect of chemical or biological compounds, e.g. drugs, cosmetics involving specific cell types
    • G01N33/5047Cells of the immune system
    • G01N33/505Cells of the immune system involving T-cells
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K2039/51Medicinal preparations containing antigens or antibodies comprising whole cells, viruses or DNA/RNA
    • A61K2039/515Animal cells
    • A61K2039/5158Antigen-pulsed cells, e.g. T-cells
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K39/00Medicinal preparations containing antigens or antibodies
    • A61K2039/58Medicinal preparations containing antigens or antibodies raising an immune response against a target which is not the antigen used for immunisation
    • A61K2039/585Medicinal preparations containing antigens or antibodies raising an immune response against a target which is not the antigen used for immunisation wherein the target is cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Immunology (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Cell Biology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Microbiology (AREA)
  • Epidemiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Veterinary Medicine (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mycology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Medical Informatics (AREA)
  • Zoology (AREA)
  • Oncology (AREA)
  • Hematology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Biochemistry (AREA)
  • Urology & Nephrology (AREA)
  • Bioethics (AREA)
  • Virology (AREA)
  • Developmental Biology & Embryology (AREA)

Description

腫瘍特異的な新生抗原に基づく治療用ワクチンは、次世代の個別化がん免疫療法として極めて有望である。1~3非小細胞肺癌(NSCLC)及びメラノーマなどの遺伝子変異量が多いがんは、新生抗原を生じる尤度が比較的高いことから、かかる治療法の特に有望な標的である。4,5初期の証拠により、新生抗原に基づいたワクチン接種がT細胞応答を誘発し、新生抗原を標的とした細胞療法が、選択された患者において腫瘍退縮を引き起こしうることが示されている。MHCクラスI及びMHCクラスIIはいずれもT細胞の応答に影響を及ぼす70~71
新生抗原ワクチンの設計に関する1つの問題は、対象とする腫瘍に存在する多数のコーディング変異のうちのどれが「最良の」治療用新生抗原(例えば、抗腫瘍免疫を誘発し、腫瘍退縮を引き起こすことができる抗原)を生じることができるか、ということである。
次世代シークエンシング、RNA遺伝子発現、及び新生抗原ペプチド候補のMHC結合親和性の予測を用いた、変異に基づいた分析を取り入れた初期の方法が提案されている。しかしながら、これらの提案されている方法では、遺伝子発現及びMHC結合に加えて多くの段階(例えば、TAP輸送、プロテアソーム切断、MHC結合、ペプチド-MHC複合体の細胞表面への輸送、及び/またはMHC-IのTCRによる認識;エンドサイトーシスまたはオートファジー、細胞外またはリソソームプロテアーゼ(例えばカテプシン)による切断、HLA-DMにより触媒されるHLA結合に対するCLIPペプチドとの競合、ペプチド-MHC複合体の細胞表面への輸送、及び/またはMHC-IIのTCRによる認識)を含むエピトープ生成プロセスの全体をモデル化することはできない。したがって、既存の方法は、陽性適中率(PPV)が低いという問題を有する傾向がある(図1A)。
実際、複数のグループによって実施された、腫瘍細胞により提示されるペプチドの分析は、遺伝子発現及びMHC結合親和性を用いて提示されることが予測されたペプチドの5%未満しか腫瘍表面のMHC上に見られないことを示している10,11(図1B)。結合予測とMHC提示との間のこのような低い相関性は、変異の数単独に対してチェックポイント阻害剤反応について結合に制限された新生抗原の予測精度の向上が認められないという最近の知見によって、さらに裏打ちされている12
提示を予測するための既存の方法のこのような低い陽性適中率(PPV)は、新生抗原に基づいたワクチンの設計において問題を提示する。PPVの低い予測を用いてワクチンが設計される場合、大部分の患者で治療に役立つ新生抗原が投与される可能性が低くなり、複数の新生抗原が投与される患者はさらに少なくなるものと考えられる(提示されるペプチドのすべてが免疫原性であると仮定したとしても)。したがって、現行の方法による新生抗原ワクチン接種は、腫瘍を有する対象の相当数において奏功する可能性は低い(図1C)。
さらに、これまでのアプローチは、シス作用性の変異のみを用いて新生抗原候補を生成するものであり、複数の腫瘍タイプで生じ、多くの遺伝子で異常スプライシングにつながるスプライシング因子の変異13、及びプロテアーゼ切断部位を生じるかまたは除去する変異を含む、新生ORFのさらなるソースをほとんどの場合で考慮していなかった。
最後に、腫瘍ゲノム及びトランスクリプトーム解析に対する標準的アプローチは、ライブラリ構築、エクソーム及びトランスクリプトームの捕捉、シークエンシング、またはデータ分析における最適に満たない条件のために、新生抗原候補を生ずる体細胞突然変異を見逃す可能性がある。同様に、標準的な腫瘍分析のアプローチでは、配列アーチファクトまたは生殖系列多型を新生抗原として誤って助長してしまう場合があり、それぞれワクチン能の非効率的な利用または自己免疫のリスクにつながりうる。
本明細書では、個別化がんワクチン用の新生抗原を特定及び選択するための最適化されたアプローチが開示される。第1に、次世代シークエンシング(NGS)を用いて新生抗原候補を特定するための最適化された腫瘍エクソーム及びトランスクリプトーム解析アプローチに取り組む。これらの方法は、すべてのクラスのゲノム変化にわたって最も感度及び特異度の高い新生抗原候補が開発されるように、NGSによる腫瘍解析の標準的アプローチに立脚したものである。第2に、特異度の問題を克服し、ワクチン添加用に開発される新生抗原が抗腫瘍免疫をより誘発しやすくするために高PPVの新生抗原選択に対する新規アプローチが提供される。これらのアプローチには、実施形態に応じて、ペプチド-アレルマッピングを共にモデル化する訓練された統計学的回帰または非線形ディープラーニングモデル、ならびに異なる長さのペプチドにわたって統計学的効力を共有する、複数の長さのペプチドについてのアレルごとのモチーフが含まれる。特に非線形ディープラーニングモデルは、同じ細胞内の異なるMHCアレルを独立したものとして扱うように設計及び訓練することができ、それによって、線形モデル同士が互いに干渉する線形モデルに伴う問題に取り組む。最後に、新生抗原に基づいた個別化ワクチンの設計及び製造に関するさらなる懸案事項に取り組む。
[本発明1001]
対象の1つまたは複数の腫瘍細胞に由来する、前記腫瘍細胞の表面上に提示される可能性の高い1つ以上の新生抗原を特定することによって、個別化されたがんワクチンを構築するための出力を生成するための方法であって、
前記対象の前記腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記ヌクレオチドシークエンシングデータを用いて、前記腫瘍細胞由来のヌクレオチドシークエンシングデータと前記正常細胞由来のヌクレオチドシークエンシングデータとの比較により特定された新生抗原のセットの各新生抗原のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、前記ペプチド配列を前記対象の前記正常細胞から特定された対応する野生型ペプチド配列とは異なるものとする少なくとも1つの変化を含む、工程;
前記新生抗原のそれぞれの前記ペプチド配列を、対応する数値ベクトルにエンコードする工程であって、各数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、工程;
コンピュータのプロセッサを使用して前記数値ベクトルをディープラーニング提示モデルに入力して、前記新生抗原のセットについての提示尤度のセットを生成する、工程であって、前記セット内の各提示尤度が、対応する新生抗原が1つ以上のクラスII MHCアレルによって前記対象の前記腫瘍細胞の前記表面上に提示される尤度を表し、前記ディープラーニング提示モデルが、少なくとも訓練データセットに基づいて特定される複数のパラメータ、ならびに、入力として受け取られた前記数値ベクトルと、前記数値ベクトル及び前記パラメータに基づいた出力として生成される前記提示尤度との間の関係を表す関数を含み、
前記訓練データセットが、
複数の試料のうちの少なくとも1つに存在すると特定された、少なくとも1つのクラスII MHCアレルに結合したペプチドの存在を測定する質量分析によって得られた、ラベル、
数値ベクトルとしてエンコードされた訓練ペプチド配列であって、前記数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、訓練ペプチド配列、及び
前記訓練ペプチド配列に関連付けられた、少なくとも1つのHLAアレル
を含む、工程;
前記提示尤度のセットに基づいて前記新生抗原のセットのサブセットを選択して、選択された新生抗原のセットを生成する、工程;ならびに
前記選択された新生抗原のセットに基づいて、前記個別化されたがんワクチンを構築するための前記出力を生成する工程
を含む、前記方法。
[本発明1002]
前記ペプチド配列をエンコードする工程が、ワンホットエンコーディングスキームを用いて前記ペプチド配列をエンコードすることを含む、本発明1001の方法。
[本発明1003]
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
前記新生抗原の前記ペプチド配列に前記ディープラーニング提示モデルを適用して、前記ペプチド配列の特定の位置の特定のアミノ酸に基づいて、前記1つ以上のクラスII MHCアレルのそれぞれについての依存性スコアを生成することであって、前記依存性スコアが、前記クラスII MHCアレルが前記新生抗原を提示するかどうかを示す、こと
を含む、本発明1001または1002の方法。
[本発明1004]
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
前記依存性スコアを変換して、各クラスII MHCアレルについての対応するアレルごとの尤度を生成することであって、前記アレルごとの尤度が、対応するクラスII MHCアレルが前記対応する新生抗原を提示する尤度を示す、こと、及び
前記アレルごとの尤度を組み合わせて、前記新生抗原の前記提示尤度を生成する、こと
をさらに含む、本発明1003の方法。
[本発明1005]
前記依存性スコアを変換することが、前記新生抗原の提示を、前記1つ以上のクラスII MHCアレルにわたって相互排他的なものとしてモデル化する、本発明1004の方法。
[本発明1006]
前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、前記依存性スコアの組み合わせを変換して前記提示尤度を生成することをさらに含み、
前記依存性スコアの組み合わせを変換することが、前記新生抗原の提示を、前記1つ以上のクラスII MHCアレル間で干渉するものとしてモデル化する、
本発明1003の方法。
[本発明1007]
前記提示尤度のセットが、少なくとも1つ以上のアレル非相互作用特性によってさらに特定され、前記方法が、
前記アレル非相互作用特性に前記提示モデルを適用して、前記アレル非相互作用特性に基づいて、前記アレル非相互作用特性についての依存性スコアを生成する工程であって、前記依存性スコアが、前記対応する新生抗原のペプチド配列が提示されるかどうかを示す、工程
をさらに含む、本発明1003の方法。
[本発明1008]
前記1つ以上のクラスII MHCアレルの各クラスII MHCアレルについての前記依存性スコアを、前記アレル非相互作用特性についての前記依存性スコアと組み合わせること;
各クラスII MHCアレルについての前記組み合わされた依存性スコアを変換して、各クラスII MHCアレルについてのアレルごとの尤度を生成することであって、前記アレルごとの尤度が、前記対応するクラスII MHCアレルが前記対応する新生抗原を提示する尤度を示す、こと;及び
前記アレルごとの尤度を組み合わせて、前記提示尤度を生成する、こと
をさらに含む、本発明1007の方法。
[本発明1009]
前記クラスII MHCアレルのそれぞれについての前記依存性スコアと、前記アレル非相互作用特性についての前記依存性スコアとの組み合わせを変換して、前記提示尤度を生成する、こと
をさらに含む、本発明1008の方法。
[本発明1010]
前記1つ以上のクラスII MHCアレルが、2つ以上のクラスII MHCアレルを含む、本発明1001~1009のいずれかの方法。
[本発明1011]
前記少なくとも1つのクラスII MHCアレルが、2つ以上の異なるタイプのクラスII MHCアレルを含む、本発明1001~1010のいずれかの方法。
[本発明1012]
前記複数の試料が、
(a)1つのMHCクラスIIアレルを発現するように操作された1つ以上の細胞株、
(b)複数のMHCクラスIIアレルを発現するように操作された1つ以上の細胞株、
(c)複数の患者から得られた、または複数の患者に由来する1つ以上のヒト細胞株、
(d)複数の患者から得られた新鮮なまたは凍結された腫瘍試料、及び
(e)複数の患者から得られた新鮮なまたは凍結された組織試料
のうちの少なくとも1つを含む、本発明1001~1011のいずれかの方法。
[本発明1013]
前記訓練データセットが、
(a)単離されたペプチドの少なくとも1つについてのペプチド-MHC結合親和性の測定値に関連するデータ、及び
(b)単離されたペプチドの少なくとも1つについてのペプチド-MHC結合安定性の測定値に関連するデータ
のうちの少なくとも1つをさらに含む、本発明1001~1012のいずれかの方法。
[本発明1014]
前記提示尤度のセットが、少なくとも、前記対象における前記1つ以上のクラスII MHCアレルの発現レベルによって、さらに特定され、前記発現レベルがRNA-seqまたは質量分析により測定される、本発明1001~1013のいずれかの方法。
[本発明1015]
前記提示尤度のセットが、少なくともアレル相互作用特性によってさらに特定され、前記アレル相互作用特性が、
(a)前記新生抗原のセット内の新生抗原と前記1つ以上のMHCアレルとの間の予想される親和性、及び
(b)前記新生抗原によりコードされるペプチド-MHC複合体の予想される安定性
のうちの少なくとも1つを含む、本発明1001~1014のいずれかの方法。
[本発明1016]
前記数値的尤度のセットが、少なくともMHC-アレル非相互作用特性によってさらに特定され、前記MHC-アレル非相互作用特性が、
(a)そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するC末端側配列、及び
(b)そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するN末端側配列
のうちの少なくとも1つを含む、本発明1001~1015のいずれかの方法。
[本発明1017]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記腫瘍細胞表面上に提示される尤度が高い新生抗原を選択することを含む、本発明1001~1016のいずれかの方法。
[本発明1018]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において腫瘍特異的な免疫応答を誘導することができる尤度が高い新生抗原を選択することを含む、本発明1001~1017のいずれかの方法。
[本発明1019]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、プロフェッショナル抗原提示細胞(APC)によってナイーブT細胞に提示されることができる尤度が高い新生抗原を選択することを含み、任意で、前記APCが樹状細胞(DC)である、本発明1001~1018のいずれかの方法。
[本発明1020]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、中枢性寛容または末梢性寛容によって阻害される尤度が低い新生抗原を選択することを含む、本発明1001~1019のいずれかの方法。
[本発明1021]
前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において正常組織に対する自己免疫応答を誘導することができる尤度が低い新生抗原を選択することを含む、本発明1001~1020のいずれかの方法。
[本発明1022]
前記1つまたは複数の腫瘍細胞が、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、T細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群より選択される、本発明1001~1021のいずれかの方法。
[本発明1023]
腫瘍を有する対象を治療する方法であって、本発明1001~1022のいずれかの工程を行うことを含み、前記選択された新生抗原のセットを含む腫瘍ワクチンを得ること、及び前記腫瘍ワクチンを前記対象に投与することをさらに含む、前記方法。
[本発明1024]
腫瘍ワクチンを製造する方法であって、本発明1001~1022のいずれかの工程を行うことを含み、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するかまたは生産したことをさらに含む、前記方法。
[本発明1025]
前記サブセットの中の前記新生抗原のうちの少なくとも1つに対して抗原特異的な1つ以上のT細胞を同定する工程をさらに含む、本発明1001~1024のいずれかの方法。
[本発明1026]
前記同定する工程が、前記1つ以上の抗原特異的T細胞を拡大増殖させる条件下で前記1つ以上のT細胞を前記サブセットの中の前記新生抗原のうちの1つ以上と共培養することを含む、本発明1025の方法。
[本発明1027]
前記同定する工程が、前記1つ以上のT細胞を、前記サブセットの中の前記新生抗原のうちの1つ以上を含むテトラマーと、前記T細胞と前記テトラマーとの結合が可能な条件下で接触させることを含む、本発明1025の方法。
[本発明1028]
前記1つ以上の同定されたT細胞の1つ以上のT細胞受容体(TCR)を同定する工程をさらに含む、本発明1025~1027のいずれかの方法。
[本発明1029]
前記1つ以上のT細胞受容体を同定する工程が、前記1つ以上の同定されたT細胞のT細胞受容体配列をシークエンシングすることを含む、本発明1028の方法。
[本発明1030]
本発明1001~1028のいずれかの前記サブセットの中の少なくとも1つの選択された新生抗原に対して抗原特異的な、単離されたT細胞。
[本発明1031]
前記1つ以上の同定されたT細胞受容体の少なくとも1つを発現するように複数のT細胞を遺伝子操作する工程、
前記複数のT細胞を拡大増殖させる条件下で前記複数のT細胞を培養する工程、及び
前記拡大増殖させたT細胞を前記対象に注入する工程
をさらに含む、本発明1028または1029の方法。
[本発明1032]
前記1つ以上の同定されたT細胞受容体のうちの少なくとも1つを発現するように前記複数のT細胞を遺伝子操作する工程が、
前記1つ以上の同定されたT細胞の前記T細胞受容体配列を発現ベクターにクローニングすること、及び
前記複数のT細胞のそれぞれに前記発現ベクターをトランスフェクトすること
を含む、本発明1031の方法。
[本発明1033]
前記1つ以上の同定されたT細胞を拡大増殖させる条件下で前記1つ以上の同定されたT細胞を培養する工程、及び
前記拡大増殖させたT細胞を前記対象に注入する工程
をさらに含む、本発明1025~1029及び本発明1031~1032のいずれかの方法。
本発明のこれら及び他の特徴、態様、及び側面は、以下の説明文及び添付の図面に関してより深い理解が得られるであろう。
新生抗原の特定に対する現在の臨床的アプローチを示す。 予測された結合ペプチドのうち、腫瘍細胞上に提示されるものは5%未満であることを示す。 新生抗原予測の特異性の問題の影響を示す。 結合予測が、新生抗原の特定に充分ではないことを示す。 ペプチド長の関数としてのMHC-Iによる提示の確率を示す。 Promega社のダイナミックレンジ標準から生成された、例示的なペプチドスペクトルを示す。SEQ ID NO:1を開示する。 特性の追加が、いかにモデルの陽性適中率を向上させるかを示す。 一実施形態による、患者におけるペプチド提示の尤度を特定するための環境の概略である。 一実施形態による、提示情報を取得する方法を説明する。SEQ ID NO:3を開示する。 一実施形態による、提示情報を取得する方法を説明する。SEQ ID NO:3~8をそれぞれ、示される順序で開示する。 一実施形態による、提示特定システムのコンピュータ論理構成要素を説明する、ハイレベルブロック図である。 一実施形態による、訓練データの例示的なセットを説明する。「ペプチド配列」をSEQ ID NO:10~13として、また、「C-隣接配列」をSEQ ID NO:14、19~20、及び20として、示される順序でそれぞれ開示する。 MHCアレルに関連した例示的なネットワークモデルを説明する。 一実施形態による、MHCアレルによって共有される例示的なネットワークモデルNN(・)を説明する。 別の実施形態による、MHCアレルによって共有される例示的なネットワークモデルNN(・)を説明する。 例示的なネットワークモデルを用いた、MHCアレルに関連したペプチドの提示尤度の生成を説明する。 例示的なネットワークモデルを用いた、MHCアレルに関連したペプチドの提示尤度の生成を説明する。 例示的なネットワークモデルを用いた、MHCアレルに関連したペプチドの提示尤度の生成を説明する。 例示的なネットワークモデルを用いた、MHCアレルに関連したペプチドの提示尤度の生成を説明する。 例示的なネットワークモデルを用いた、MHCアレルに関連したペプチドの提示尤度の生成を説明する。 例示的なネットワークモデルを用いた、MHCアレルに関連したペプチドの提示尤度の生成を説明する。 質量分析を用いた、ヒト腫瘍細胞上及び腫瘍浸潤リンパ球(TIL)上のクラスII MHCアレルから溶出されたペプチドの長さのヒストグラムである。 2つの例示的なデータセットについてmRNA定量化と残基当たりの提示ペプチドとの依存関係を示す。 2つの例示的なデータセットを用いて訓練及び試験した例示的な提示モデルの性能結果を比較したものである。 HLAクラスII分子を含む合計39種の試料の各試料について質量分析を用いてシークエンシングしたペプチドの量を示すヒストグラムである。 特定のMHCクラスII分子のアレルが同定された試料の量を示すヒストグラムである。 合計で39種の試料中でMHCクラスII分子によって提示されるペプチドの割合を、一定範囲のペプチド長の各ペプチド長について示したものである。 39種の試料中に存在する遺伝子について、遺伝子発現とMHCクラスII分子による遺伝子発現産物の提示の発生率との間の関係を示す線グラフである。 ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの入力の異なる同じモデルの性能を比較した線グラフである。 ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの4つの異なる提示モデルの性能を比較した線グラフである。 2つの異なる基準を用いたベスト・イン・クラスの従来モデルと、2つの異なる入力を有する本明細書に開示される提示モデルの、ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの性能を比較した線グラフである。 図1及び3に示した実体を実施するための例示的なコンピュータを説明する。
詳細な説明
I.定義
全般的に、特許請求の範囲及び明細書において使用される用語は、当業者により理解される通常の意味を有するものとして解釈されるものとする。特定の用語を、さらなる明確性を与えるために以下に定義する。通常の意味と与えられる定義との間に矛盾が存在する場合、与えられる定義が用いられるものとする。
本明細書で使用するところの「抗原」という用語は、免疫反応を誘導する物質のことである。
本明細書で使用するところの「新生抗原」という用語は、例えば、腫瘍細胞の変異、または腫瘍細胞に特異的な翻訳後修飾によって、抗原を、対応する野生型の親抗原とは異なるものとする少なくとも1つの変化を有する抗原のことである。新生抗原は、ポリペプチド配列またはヌクレオチド配列を含んでよい。変異は、フレームシフトもしくは非フレームシフト挿入欠失(indel)、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ORFを生じる任意のゲノム変化もしくは発現変化を含むことができる。変異はまた、スプライス変異体も含むことができる。腫瘍細胞に特異的な翻訳後修飾は、異常リン酸化を含むことができる。腫瘍細胞に特異的な翻訳後修飾はまた、プロテアソームによって生成されるスプライス抗原も含むことができる。Liepe et al.,A large fraction ofHLAclass I ligandsare proteasome- generated spliced peptides;Science.2016 Oct 21;354(6310):354-358を参照されたい。
本明細書で使用するところの「腫瘍新生抗原」という用語は、対象の腫瘍細胞または組織中に存在するが、対象の対応する正常細胞または組織中には存在しない新生抗原のことである。
本明細書において使用される場合、「新生抗原ベースのワクチン」という用語は、1つ以上の新生抗原、例えば複数の新生抗原に基づいたワクチンコンストラクトのことである。
本明細書において使用される場合、「新生抗原候補」という用語は、新生抗原を表しうる新たな配列を生じる変異または他の異常のことである。
本明細書において使用される場合、「コード領域」という用語は、遺伝子における、タンパク質をコードする部分のことである。
本明細書において使用される場合、「コード変異」という用語は、コード領域で生じる変異のことである。
本明細書において使用される場合、「ORF」という用語は、オープンリーディングフレームを意味する。
本明細書において使用される場合、「新生ORF」という用語は、変異または他の異常(例えば、スプライシング)により生じる腫瘍特異的なORFのことである。
本明細書において使用される場合、「ミスセンス変異」という用語は、1つのアミノ酸から別のアミノ酸への置換を引き起こす変異である。
本明細書において使用される場合、「ナンセンス変異」という用語は、アミノ酸から終止コドンへの置換を引き起こす変異である。
本明細書において使用される場合、「フレームシフト変異」という用語は、タンパク質のフレームに変更を引き起こす変異である。
本明細書において使用される場合、「挿入欠失」という用語は、1つ以上の核酸の挿入または欠失である。
本明細書において使用される場合、2つ以上の核酸またはポリペプチドの配列との関連での「同一性」(%)という用語は、下記の配列比較アルゴリズム(例えば、BLASTP及びBLASTN、または当業者が利用可能な他のアルゴリズム)のうちの1つを用いて、または目視検査により測定される、最大の一致について比較し、整列させた場合に、ヌクレオチドまたはアミノ酸残基の特定の比率(%)が同じである2つ以上の配列または部分配列のことを指す。用途に応じて、「同一性」(%)は、比較される配列の領域にわたって、例えば、機能ドメインにわたって存在するか、あるいは、比較される2つの配列の完全長にわたって存在することができる。
配列比較では、一般的に、1つの配列が、試験配列が比較される参照配列として機能する。配列比較アルゴリズムを用いる場合、試験配列及び参照配列をコンピュータに入力し、必要な場合には部分配列座標を指定し、配列アルゴリズムプログラムのパラメータを指定する。次いで、配列比較アルゴリズムが、指定されたプログラムパラメータに基づいて、参照配列に対する試験配列の配列同一性(%)を算出する。あるいは、配列の類似性または相違性は、選択された配列位置(例えば、配列モチーフ)における特定のヌクレオチドの、または翻訳後の配列ではアミノ酸の有無の組み合わせによって確立することもできる。
比較を行うための配列の最適なアラインメントは、例えば、Smith & Waterman,Adv.Appl.Math.2:482(1981)の局所相同性アルゴリズムによって、Needleman & Wunsch,J.Mol.Biol.48:443(1970)の相同性アラインメントアルゴリズムによって、Pearson & Lipman,Proc.Nat’l.Acad.Sci.USA 85:2444(1988)の類似性の探索法によって、これらのアルゴリズムのコンピュータ処理による実行(Wisconsin Genetics Software Package,Genetics Computer Group,575 Science Dr.,Madison,Wis.におけるGAP、BESTFIT、FASTA、及びTFASTA)によって、または目視検査によって実施することができる(一般的には、下記のAusubel et al.を参照)。
配列同一性(%)及び配列類似性(%)を決定するのに適したアルゴリズムの1つの例として、Altschul et al.,J.Mol.Biol.215:403-410(1990)に記載されるBLASTアルゴリズムがある。BLAST解析を行うためのソフトウェアは、National Center for Biotechnology Informationを通して公に入手可能である。
本明細書において使用される場合、「ノンストップまたはリードスルー」という用語は、天然の終止コドンの除去を引き起こす変異のことである。
本明細書において使用される場合、「エピトープ」という用語は、抗体またはT細胞受容体が一般的に結合する、抗原の特異的な部分のことである。
本明細書において使用される場合、「免疫原性」という用語は、例えば、T細胞、B細胞、またはその両方を介して免疫応答を誘発する能力のことである。
本明細書において使用される場合、「HLA結合親和性」、「MHC結合親和性」という用語は、特異的な抗原と特異的なMHCアレルとの結合の親和性を意味する。
本明細書において使用される場合、「ベイト」という用語は、DNAまたはRNAの特異的な配列を試料から濃縮するために使用される核酸プローブのことである。
本明細書において使用される場合、「変異」という用語は、対象の核酸と、対照として使用される参照ヒトゲノムとの差である。
本明細書において使用される場合、「変異コール」という用語は、典型的にはシークエンシングからの、変異の存在のアルゴリズム的決定である。
本明細書において使用される場合、「多型」という用語は、生殖細胞系列変異、すなわち、個体のすべてのDNA保有細胞において見出される変異である。
本明細書において使用される場合、「体細胞変異」という用語は、個体の非生殖系列細胞において生じる変異である。
本明細書において使用される場合、「アレル」という用語は、遺伝子の1つのバージョンまたは遺伝子配列の1つのバージョンまたはタンパク質の1つのバージョンのことである。
本明細書において使用される場合、「HLA型」という用語は、HLA遺伝子アレルの相補体のことである。
本明細書において使用される場合、「ナンセンス変異依存分解機構」または「NMD」という用語は、未成熟な終止コドンに起因する細胞によるmRNAの分解のことである。
本明細書において使用される場合、「トランカル変異(truncal mutation)」という用語は、腫瘍の発生の初期に生じ、腫瘍の細胞の大部分に存在する変異である。
本明細書において使用される場合、「サブクローナル変異」という用語は、腫瘍の発生において後期に生じ、腫瘍の細胞の一部のみに存在する変異である。
本明細書において使用される場合、「エクソーム」という用語は、タンパク質をコードするゲノムのサブセットである。エクソームは、ゲノムの集合的なエクソンでありうる。
本明細書において使用される場合、「ロジスティック回帰」という用語は、従属変数が1に等しい確率のロジットが従属変数の線形関数としてモデル化される、統計からのバイナリデータ用の回帰モデルである。
本明細書において使用される場合、「ニューラルネットワーク」という用語は、多層の線形変換に続いて一般的に確率的勾配降下法及び逆伝搬により訓練された要素ごとの非線形変換を行うことからなる分類または回帰のための機械学習モデルである。
本明細書において使用される場合、「プロテオーム」という用語は、細胞、細胞の群、または個体によって発現される、及び/または翻訳されるすべてのタンパク質のセットのことである。
本明細書において使用される場合、「ペプチドーム」という用語は、細胞表面上のMHC-IまたはMHC-IIによって提示されるすべてのペプチドのセットのことである。ペプチドームは、細胞または細胞の集合の性質を指す場合もある(例えば、腫瘍ペプチドームは、腫瘍を含むすべての細胞のペプチドームの和集合を意味する)。
本明細書において使用される場合、「ELISPOT」という用語は、ヒト及び動物において免疫応答を観察するための一般的な方法である、酵素結合免疫吸着スポットアッセイを意味する。
本明細書において使用される場合、「デキストラマー」という用語は、フローサイトメトリーにおいて抗原特異的T細胞染色に使用される、デキストランベースのペプチド-MHCマルチマーである。
本明細書において使用される場合、「寛容または免疫寛容」という用語は、1つ以上の抗原、例えば、自己抗原に対する免疫不応答の状態のことである。
本明細書において使用される場合、「中枢性寛容」という用語は、自己反応性T細胞クローンを欠失させること、または自己反応性T細胞クローンの免疫抑制性制御性T細胞(Treg)への分化を促進することのいずれかにより、胸腺において与えられる寛容である。
本明細書において使用される場合、「末梢性寛容」という用語は、中枢性寛容を生き延びた自己反応性T細胞を下方制御もしくはアネルギー化すること、またはこれらのT細胞のTregへの分化を促進することにより、末梢系において与えられる寛容である。
「試料」という用語は、静脈穿刺、排泄、射精、マッサージ、生検、針吸引、洗浄試料、擦過、外科的切開、もしくは介入、または当技術分野において公知の他の手段を含む手段によって対象から採取された、単一細胞、または複数の細胞、または細胞の断片、または体液のアリコートを含むことができる。
「対象」という用語は、インビボ、エクスビボ、またはインビトロ、雄または雌のいずれかの、細胞、組織、または生物体、ヒトまたは非ヒトを包含する。対象という用語は、ヒトを含む哺乳動物を含める。
「哺乳動物」という用語は、ヒト及び非ヒトの両方を包含し、ヒト、非ヒト霊長類、イヌ、ネコ、マウス、ウシ、ウマ、及びブタを含むが、それらに限定されない。
「臨床的因子」という用語は、対象の状態、例えば、疾患の活性または重症度の測定を指す。「臨床的因子」は、非試料マーカーを含む、対象の健康状態のすべてのマーカー、ならびに/または、非限定的に年齢及び性別などの、対象の他の特徴を包含する。臨床的因子は、対象または所定の条件下の対象由来の試料(または試料の集団)の評定から取得され得るスコア、値、または値のセットであることができる。臨床的因子はまた、マーカー、及び/または遺伝子発現代替物などの他のパラメータによっても予測することができる。臨床的因子は、腫瘍タイプ、腫瘍サブタイプ、及び喫煙歴を含むことができる。
略語:MHC:主要組織適合性複合体;HLA:ヒト白血球抗原、またはヒトMHC遺伝子座;NGS:次世代シークエンシング;PPV:陽性適中率;TSNA:腫瘍特異的新生抗原;FFPE:ホルマリン固定パラフィン包埋;NMD:ナンセンス変異依存分解機構;NSCLC:非小細胞肺癌;DC:樹状細胞。
本明細書及び添付の特許請求の範囲において使用される場合、単数形「a」、「an」、及び「the」は、文脈によってそうでない旨が明示されない限り、複数の指示物を含む点に留意されたい。
本明細書において直接定義されていない用語は、本発明の技術分野の範囲内で理解されるような、一般的にそれらに付随する意味を有するものとして理解されるべきである。本発明の態様の組成物、装置、方法など、ならびにそれらの製造または使用法を説明するうえで実施者にさらなる手引きを与える目的で特定の用語が本明細書で検討される。同じものについて複数の言い方がなされうる点は認識されるであろう。したがって、代替的な語及び同義語が、本明細書で検討される用語の任意の1つ以上について用いられる場合がある。本明細書においてある用語が詳述または検討されているか否かに重きが置かれるべきではない。いくつかの同義語または代用可能な方法、材料などが提供される。1つまたは数個の同義語または均等物の記載は、明確に述べられない限り、他の同義語または均等物の使用を除外しない。用語の例を含む例の使用は、あくまで説明を目的としたものにすぎず、本明細書における発明の態様の範囲及び意味を限定しない。
本明細書の本文において引用されるすべての参照文献、発行特許、及び特許出願は、あらゆる目的でそれらの全容を参照により本明細書に援用するものである。
II.新生抗原を特定する方法
本明細書では、腫瘍、または樹状細胞のようなプロフェッショナル抗原提示細胞を含む免疫細胞の細胞表面上に提示される可能性が高い、かつ/または免疫原性を有する可能性が高い、対象の腫瘍由来の新生抗原を特定するための方法を開示する。例として、かかる1つの方法は、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つを得る工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて、新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも1つの変化を含む、工程;各新生抗原のペプチド配列を1つ以上の提示モデルに入力して、対象の腫瘍細胞の腫瘍細胞表面上の1つ以上のMHCアレルによって、または腫瘍内に存在する細胞によって各新生抗原が提示される数値的尤度のセットを生成する、工程であって、前記数値的尤度のセットが、受け取った質量分析データに少なくとも基づいて特定される、工程;ならびに、前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択して、選択された新生抗原のセットを生成する、工程、を含む方法を開示する。
提示モデルは、対応するラベルのセットを含む参照データのセット(訓練データセットとも呼ばれる)で訓練された、統計学的回帰または機械学習(例えば、ディープラーニング)モデルを含むことができ、前記参照データのセットは、場合により一部の対象が腫瘍を有しうる複数の別個の対象の各々から取得され、また、前記参照データのセットは、腫瘍組織由来のエクソームヌクレオチド配列を表すデータ、正常組織由来のエクソームヌクレオチド配列を表すデータ、腫瘍組織由来のトランスクリプトームヌクレオチド配列を表すデータ、腫瘍組織由来のプロテオーム配列を表すデータ、及び腫瘍組織由来のMHCペプチドーム配列を表すデータ、及び正常組織由来のMHCペプチドーム配列を表すデータのうちの少なくとも1つを含む。参照データは、合成タンパク質、正常及び腫瘍ヒト細胞株、ならびに新鮮な及び凍結された初代試料に対してその後曝露される所定のMHCアレルを発現するように操作された単一アレル細胞株の質量分析データ、シークエンシングデータ、RNAシークエンシングデータ、及びプロテオミクスデータ、ならびにT細胞アッセイ(例えば、ELISPOT)をさらに含むことができる。特定の態様では、参照データのセットは、参照データの各形態を含む。
提示モデルは、参照データのセットに少なくとも一部由来する特性のセットを含むことができ、前記特性のセットは、アレル依存的特性及びアレル非依存的特性のうちの少なくとも1つを含む。特定の態様では、各特性が含まれる。
本明細書ではまた、対象の1つまたは複数の腫瘍細胞に由来する、腫瘍細胞の表面上に提示される可能性の高い1つ以上の新生抗原を特定することによって、個別化がんワクチンを構築するための出力を生成するための方法も開示される。例として、かかる1つの方法は、前記対象の前記腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記ヌクレオチドシークエンシングデータを用いて、前記腫瘍細胞由来のヌクレオチドシークエンシングデータと前記正常細胞由来のヌクレオチドシークエンシングデータとを比較することにより特定された新生抗原のセットの各新生抗原のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、前記ペプチド配列を前記対象の前記正常細胞から特定された対応する野生型ペプチド配列とは異なるものとする少なくとも1つの変化を含む、工程;前記新生抗原のそれぞれの前記ペプチド配列を対応する数値ベクトルにエンコードする工程であって、各数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、工程;コンピュータのプロセッサを使用して前記数値ベクトルをディープラーニング提示モデルに入力して、前記新生抗原のセットについての提示尤度のセットを生成する、工程であって、前記セット内の各提示尤度が、対応する新生抗原が1つ以上のクラスII MHCアレルによって前記対象の前記腫瘍細胞の表面上に提示される尤度を表す、工程;前記提示尤度のセットに基づいて前記新生抗原のセットのサブセットを選択して、選択された新生抗原のセットを生成する、工程;ならびに、前記選択された新生抗原のセットに基づいて前記個別化されたがんワクチンを構築するための前記出力を生成する工程、を含むことができる。
いくつかの実施形態では、提示モデルは、少なくとも訓練データセットに基づいて特定される複数のパラメータ;ならびに、入力として受け取られた数値ベクトルと、数値ベクトル及び前記パラメータに基づいた出力として生成される提示尤度との間の関係を表す関数を含む。特定の実施形態では、訓練データセットは、複数の試料のうちの少なくとも1つに存在するものとして特定された少なくとも1つのクラスII MHCアレルに結合したペプチドの存在を測定する質量分析によって得られたラベルと、ペプチド配列を構成する複数のアミノ酸及びペプチド配列におけるアミノ酸の位置のセットに関する情報を含む数値ベクトルとしてエンコードされた訓練ペプチド配列と、訓練ペプチド配列に関連付けられた少なくとも1つのHLAアレルと、を含む。
ナイーブT細胞に対する樹状細胞提示の特性は、以下のうちの少なくとも1つを含むことができる。すなわち、上記の特性。ワクチン中の抗原の用量及び種類(例えば、ペプチド、mRNA、ウイルスなど):(1)樹状細胞(DC)が抗原タイプを取り込む経路(例えば、エンドサイトーシス、マイクロピノサイトーシス);及び/または(2)抗原がDCにより取り込まれる効率。ワクチン中のアジュバントの用量及び種類。ワクチン抗原配列の長さ。ワクチン投与の回数及び部位。ベースラインの患者の免疫機能(例えば、最近の感染の既往歴、血球数などによって測定される)。RNAワクチンについては、(1)樹状細胞内のmRNAタンパク質産物の代謝回転速度、(2)インビトロまたはインビボ実験により測定される、樹状細胞による取り込み後のmRNAの翻訳速度、ならびに/または(3)インビボまたはインビトロ実験により測定される、樹状細胞による取り込み後のmRNAの翻訳の数またはラウンド。場合により、樹状細胞で典型的に発現しているプロテアーゼ(例えばRNA-seqまたは質量分析によって測定される)にさらなる重みを与える、ペプチド内のプロテアーゼ切断モチーフの存在。典型的な活性化樹状細胞におけるプロテアソーム及びイムノプロテアソームの発現のレベル(RNA-seq、質量分析、免疫組織化学、または他の標準的な技法によって測定することができる)。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、対象とされる個体における特定のMHCアレルの発現レベル(例えばRNA-seqまたは質量分析によって測定される)。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、特定のMHCアレルを発現する他の個体における当該特定のMHCアレルによるペプチド提示の確率。場合により活性化樹状細胞または他の免疫細胞で具体的に測定される、他の個体における同じ分子のファミリー(例えば、HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)のMHCアレルによるペプチド提示の確率。
免疫寛容回避特性は、以下のうちの少なくとも1つを含むことができる。すなわち、1つまたはいくつかの細胞タイプに対して行われるタンパク質質量分析による自己ペプチドームの直接測定。自己タンパク質の全kマー(例えば、5~25)の部分文字列の和集合を取ることによる、自己ペプチドームの推定。場合により生殖細胞系列変異を説明する、すべての非変異自己タンパク質に適用された上記の提示モデルに類似した提示のモデルを用いた、自己ペプチドームの推定。
ランク付けは、数値的尤度に少なくとも一部基づく少なくとも1つのモデルによって与えられる複数の新生抗原を用いて行うことができる。ランク付けの後に、選択を行ってランク付けされた新生抗原のサブセットを選択基準にしたがって選択することができる。選択後に、ランク付けされたペプチドのサブセットを出力として与えることができる。
選択された新生抗原のセットの数は、20個とすることができる。
提示モデルは、MHCアレルのうちの特定の1つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、ペアのMHCアレルのうちの特定の1つによる、特定の位置に特定のアミノ酸を含むかかるペプチド配列の腫瘍細胞表面上の提示の尤度との間の依存性を表すことができる。
本明細書に開示される方法はまた、前記1つ以上の提示モデルを、前記対応する新生抗原のペプチド配列に適用して、前記対応する新生抗原のペプチド配列のアミノ酸の少なくとも位置に基づいて、前記1つ以上のMHCアレルのそれぞれについての依存性スコア(前記MHCアレルが前記対応する新生抗原を提示するかどうかを示す)を生成することを含んでもよい。
本明細書に開示される方法はまた、依存性スコアを変換して、各MHCアレルについての対応するアレルごとの尤度(対応するMHCアレルが前記対応する新生抗原を提示する尤度を示す)を生成する、工程;及び、アレルごとの尤度を組み合わせて数値的尤度を生成する工程を含んでもよい。
依存性スコアを変換することは、対応する新生抗原のペプチド配列の提示を、相互排他的なものとしてモデル化することができる。
本明細書に開示される方法はまた、依存性スコアの組み合わせを変換して、数値的尤度を生成する、工程をさらに含んでもよい。
依存性スコアの組み合わせを変換することは、対応する新生抗原のペプチド配列の提示を、MHCアレル間で干渉するものとしてモデル化することができる。
数値的尤度のセットは、少なくともアレル非相互作用特性によってさらに特定することができ、本明細書に開示する方法はまた、1つ以上の提示モデルのうちのアレル非相互作用モデルをアレル非相互作用特性に適用して、アレル非相互作用特性に基づいて、アレル非相互作用特性についての依存性スコア(対応する新生抗原のペプチド配列が提示されるかどうかを示す)を生成する、ことを含んでもよい。
本明細書に開示される方法はまた、1つ以上のMHCアレルの各MHCアレルについての依存性スコアを、アレル非相互作用特性についての依存性スコアと組み合わせる工程;各MHCアレルについての組み合わされた依存性スコアを変換して、MHCアレルについての対応するアレルごとの尤度(対応するMHCアレルが対応する新生抗原を提示する尤度を示す)を生成する、工程;及び、アレルごとの尤度を組み合わせて数値的尤度を生成する工程、を含んでもよい。
本明細書に開示される方法はまた、MHCアレルの各々についての依存性スコアと、アレル非相互作用特性についての依存性スコアとの組み合わせを変換して、数値的尤度を生成する、工程を含んでもよい。
提示モデルについての数値的パラメータのセットは、複数の試料中に存在すると特定された訓練ペプチド配列のセット、及び各訓練ペプチド配列に関連する1つ以上のMHCアレルを少なくとも含む訓練データセットに基づいて訓練することができ、訓練ペプチド配列は、複数の試料に由来するMHCアレルから溶出された単離ペプチドの質量分析により特定される。
試料はまた、単一のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数の患者から得られた、または複数の患者に由来するヒト細胞株を含んでもよい。
試料はまた、複数の患者から得られた新鮮な、または凍結された腫瘍試料を含んでもよい。
試料はまた、複数の患者から得られた新鮮な、または凍結された組織試料を含んでもよい。
試料はまた、T細胞アッセイを用いて特定されたペプチドも含んでもよい。
訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量;試料における訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。
訓練データセットは、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって生成することができ、訓練タンパク質配列のセットは、訓練ペプチド配列よりも長く、かつ訓練ペプチド配列を含む。
訓練データセットは、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのシークエンシングデータのうちの少なくとも1つを取得するために細胞株に対してヌクレオチドシークエンシングを行うか、またはヌクレオチドシークエンシングがこれまでに行われていることに基づいて生成されてもよく、シークエンシングデータは、変化を含む少なくとも1つのヌクレオチド配列を含む。
訓練データセットは、正常組織試料からエクソーム、トランスクリプトーム、または全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得することに基づいて生成されてもよい。
訓練データセットは、試料に関連するプロテオーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するMHCペプチドーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド-MHC結合親和性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド-MHC結合安定性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するトランスクリプトームに関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するゲノムに関連するデータをさらに含んでもよい。
訓練ペプチド配列は、kマー(kは、MHCクラスIの場合は8~15であり、MHCクラスIIの場合は6~30である)の範囲内の長さとすることができる。
本明細書に開示する方法はまた、ワンホット(one-hot)エンコーディングスキームを用いてペプチド配列をエンコードすることを含んでもよい。
本明細書に開示される方法はまた、レフトパディング(left-padded)ワンホットエンコーディングスキームを用いて訓練ペプチド配列をエンコードすることを含んでもよい。
請求項1に記載の工程を行うことを含み、選択された新生抗原のセットを含む腫瘍ワクチンを得る工程と、腫瘍ワクチンを対象に投与する工程と、をさらに含む、腫瘍を有する対象を治療する方法。
本明細書に開示される方法はまた、サブセットの中の新生抗原のうちの少なくとも1つに対して抗原特異的な1つ以上のT細胞を同定する工程をさらに含むことができる。いくつかの実施形態では、同定は、1つ以上の抗原特異的T細胞を拡大増殖させる条件下で1つ以上のT細胞をサブセットの中の新生抗原のうちの1つ以上と共培養することを含む。更なる実施形態では、同定は、1つ以上のT細胞を、サブセットの中の新生抗原のうちの1つ以上を含むテトラマーと、T細胞とテトラマーとの結合が可能な条件下で接触させることを含む。いっそうさらなる実施形態では、本明細書に開示される方法はまた、前記1つ以上の同定されたT細胞の1つ以上のT細胞受容体(TCR)を同定する工程をさらに含むことができる。特定の実施形態では、1つ以上のT細胞受容体を同定することは、前記1つ以上の同定されたT細胞のT細胞受容体配列をシークエンシングすることを含む。本明細書に開示される方法は、前記1つ以上の同定されたT細胞受容体のうちの少なくとも1つを発現するように複数のT細胞を遺伝子操作することと、前記複数のT細胞を拡大増殖させる条件下で前記複数のT細胞を培養することと、前記拡大増殖させたT細胞を対象に注入することと、をさらに含むことができる。いくつかの実施形態では、1つ以上の同定されたT細胞受容体の少なくとも1つを発現するように複数のT細胞を遺伝子操作することは、前記1つ以上の同定されたT細胞の前記T細胞受容体配列を発現ベクターにクローニングすることと、前記複数のT細胞のそれぞれに発現ベクターをトランスフェクトすることと、を含む。特定の実施形態では、本明細書に開示される方法は、さらに、前記1つ以上のT細胞を拡大増殖させる条件下で前記1つ以上の同定されたT細胞を培養することと、拡大増殖させたT細胞を対象に注入することと、をさらに含む。
本明細書ではまた、前記サブセットの中の少なくとも1つの選択された新生抗原に対して抗原特異的である単離T細胞も開示される。
本明細書ではまた、腫瘍ワクチンを製造するための方法であって、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも1つの変異を含む、工程;各新生抗原のペプチド配列を1つ以上の提示モデルに入力して、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の1つ以上のMHCアレルによって提示される数値的尤度のセットを生成する、工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程;前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択して、選択された新生抗原のセットを生成する、工程;ならびに、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している工程、を含む方法も開示される。
本明細書ではまた、対象の腫瘍細胞から、エクソーム、トランスクリプトーム、または全ゲノムの腫瘍ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記腫瘍ヌクレオチドシークエンシングデータを用いて新生抗原のセットの各々のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、ペプチド配列を対応する野生型の親ペプチド配列とは異なるものにする少なくとも1つの変異を含む、工程;各新生抗原のペプチド配列を1つ以上の提示モデルに入力して、前記新生抗原のそれぞれが前記対象の前記腫瘍細胞の前記腫瘍細胞表面上の1つ以上のMHCアレルによって提示される数値的尤度のセットを生成する、工程であって、前記数値的尤度のセットが、受け取られた質量分析データに少なくとも基づいて特定されたものである、工程;前記新生抗原のセットのサブセットを、前記数値的尤度のセットに基づいて選択して、選択された新生抗原のセットを生成する、工程;ならびに、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するか、またはこれまでに生産している、工程、を含む方法を実行することによって選択された、選択された新生抗原のセットを含む腫瘍ワクチンも提供される。
腫瘍ワクチンは、ヌクレオチド配列、ポリペプチド配列、RNA、DNA、細胞、プラスミド、またはベクターのうちの1つ以上を含んでもよい。
腫瘍ワクチンは、腫瘍細胞表面上に提示される1つ以上の新生抗原を含んでもよい。
腫瘍ワクチンは、対象において免疫原性を示す1つ以上の新生抗原を含んでもよい。
腫瘍ワクチンは、対象において正常組織に対する自己免疫応答を誘導する、1つ以上の新生抗原を含まなくともよい。
腫瘍ワクチンは、アジュバントを含んでもよい。
腫瘍ワクチンは、賦形剤を含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、腫瘍細胞表面上に提示される尤度が高い新生抗原を選択することを含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、対象において腫瘍特異的な免疫応答を誘導することができる尤度が高い新生抗原を選択することを含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、プロフェッショナル抗原提示細胞(APC)によってナイーブT細胞に提示されることができる尤度が高い新生抗原を選択することを含んでもよく、場合により、APCは樹状細胞(DC)である。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、中枢性寛容または末梢性寛容によって阻害される尤度が低い新生抗原を選択することを含んでもよい。
本明細書に開示される方法はまた、提示モデルに基づいて選択されない新生抗原に比べて、対象において正常組織に対する自己免疫応答を誘導することができる尤度が低い新生抗原を選択することを含んでもよい。
エクソームまたはトランスクリプトームのヌクレオチドシークエンシングデータは、腫瘍組織でシークエンシングを行うことによって取得することができる。
シークエンシングは、次世代シークエンシング(NGS)または任意の大規模並列処理シークエンシングアプローチであってもよい。
数値的尤度のセットは、以下のうちの少なくとも1つを含む少なくともMHCアレル相互作用特性によってさらに特定することができる。すなわち、MHCアレルと新生抗原によりコードされるペプチドとが結合する予測親和性;新生抗原によりコードされるペプチド-MHC複合体の予測安定性;新生抗原によりコードされるペプチドの配列及び長さ;質量分析プロテオミクスまたは他の手段によって評価される、特定のMHCアレルを発現する他の個体由来の細胞の類似配列を有する新生抗原によりコードされるペプチドの提示の確率;対象とされる対象の特定のMHCアレルの発現レベル(例えば、RNA-seqまたは質量分析によって測定される);全体的な新生抗原によりコードされるペプチドの配列とは独立した、特定のMHCアレルを発現する他の別個の個体における当該特定のMHCアレルによる提示の確率;他の別個の対象における、同じ分子のファミリー(例えば、HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)のMHCアレルによる提示の、全体的な新生抗原によりコードされるペプチド配列とは独立した確率。
数値的尤度のセットは、以下のうちの少なくとも1つを含む少なくともMHCアレル非相互作用特性によってさらに特定される。すなわち、そのソースタンパク質配列内の、新生抗原によりコードされるペプチドに隣接するC末端側及びN末端側の配列;場合により、腫瘍細胞内の対応するプロテアーゼの発現(RNA-seqまたは質量分析によって測定される)にしたがって重み付けされる、新生抗原によりコードされるペプチド内のプロテアーゼ切断モチーフの存在;適切な細胞タイプにおいて測定されるソースタンパク質の代謝回転速度;RNA-seqもしくはプロテオーム質量分析によって測定される、または、DNAもしくはRNA配列データにおいて検出される生殖細胞系列もしくは体細胞系列スプライシング変異のアノテーションから予測される、腫瘍細胞に最も高発現している特定のスプライス変異体(「アイソフォーム」)を場合により考慮した、ソースタンパク質の長さ;腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベル(RNA-seq、プロテオーム質量分析、または免疫組織化学によって測定することができる);新生抗原によりコードされるペプチドのソース遺伝子の発現(例えば、RNA-seqまたは質量分析によって測定される);細胞周期の異なる段階における新生抗原によりコードされるペプチドのソース遺伝子の典型的な組織特異的発現;例えば、uniProtまたはPDB http://www.rcsb.org/pdb/home/home.doにみることができるような、ソースタンパク質及び/またはそのドメインの特性の包括的なカタログ;ペプチドを含むソースタンパク質のドメインの性質を説明する特性、例えば、二次構造または三次構造(例えば、βシートに対するαヘリックス);選択的スプライシング;他の別個の対象における、対象とされる新生抗原によりコードされるペプチドのソースタンパク質に由来するペプチドの提示の確率;ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表される確率;腫瘍細胞、間質、または腫瘍浸潤リンパ球(TIL)の状態について情報を与える、RNASeqによって測定される、種々の遺伝子モジュール/経路の発現(ペプチドのソースタンパク質を含む必要はない);腫瘍細胞内の新生抗原によりコードされるペプチドのソース遺伝子のコピー数;ペプチドがTAPに結合する確率、またはTAPに対するペプチドの測定または予測される結合親和性;腫瘍細胞におけるTAPの発現レベル(RNA-seq、プロテオーム質量分析、免疫組織化学によって測定することができる);以下を含むがただしこれらに限定されない、腫瘍変異の有無:EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3などの公知のがんドライバー遺伝子におけるドライバー変異、及び抗原提示機構に関与するタンパク質をコードする遺伝子(例えば、B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOB、HLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)における変異。その提示が、腫瘍において機能喪失変異を生じやすい抗原提示機構の構成要素に依存するペプチドは、提示の確率が低い;以下を含むがただしこれらに限定されない、機能的生殖細胞系列多型の有無:抗原提示機構に関与するタンパク質をコードする遺伝子(例えば、B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOB、HLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)における多型;腫瘍タイプ(例えば、NSCLC、メラノーマ);臨床的腫瘍サブタイプ(例えば、扁平上皮肺癌対非扁平上皮);喫煙歴;場合によりドライバー変異によって層別化される、関連する腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の典型的な発現。
少なくとも1つの変異は、フレームシフトもしくは非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ORFを生じる任意のゲノム変化もしくは発現変化であってよい。
腫瘍細胞は、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びT細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群より選択することができる。
本明細書に開示される方法はまた、選択された新生抗原のセットまたはそのサブセットを含む腫瘍ワクチンを得ることを含んでもよく、場合により腫瘍ワクチンを対象に投与する工程をさらに含む。
選択された新生抗原のセット内の新生抗原の少なくとも1つは、ポリペプチド形態である場合、以下のうちの少なくとも1つを含んでもよい:IC50値が1000nM未満のMHCとの結合親和性、MHCクラスIのポリペプチドではアミノ酸8~15個、8、9、10、11、12、13、14、または15個の長さ、MHCクラスIIのポリペプチドではアミノ酸6~30、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30個の長さ、プロテアソーム切断を促進する、親タンパク質配列中のポリペプチド内またはその近くの配列モチーフの存在、及び、TAP輸送を促進する配列モチーフの存在。MHCクラスIIでは、細胞外またはリソソームプロテアーゼ(例えば、カテプシン類)による切断またはHLA-DMにより触媒されるHLA結合を促進するペプチド内またはその近くの配列モチーフの存在。
本明細書ではまた、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い1つ以上の新生抗原を特定するためのモデルを生成するための方法であって、複数の試料に由来する主要組織適合性複合体(MHC)から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程;試料中に存在する訓練ペプチド配列のセット及び各訓練ペプチド配列に関連する1つ以上のMHCを少なくとも特定することにより、訓練データセットを取得する工程;前記訓練ペプチド配列を含む訓練データセットを用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の1つ以上のMHCアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程、を含む方法も開示される。
提示モデルは、ペプチド配列の特定の位置の特定のアミノ酸の存在と、特定の位置に特定のアミノ酸を有するペプチド配列の、腫瘍細胞上のMHCアレルのうちの1つによる提示の尤度との間の依存性を表すことができる。
試料はまた、単一のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数のMHCクラスIまたはクラスIIアレルを発現するように操作された細胞株を含んでもよい。
試料はまた、複数の患者から得られた、または複数の患者に由来するヒト細胞株を含んでもよい。
試料はまた、複数の患者から得られた新鮮な、または凍結された腫瘍試料を含んでもよい。
試料はまた、T細胞アッセイを用いて特定されたペプチドも含んでもよい。
訓練データセットは、試料中に存在する訓練ペプチドのセットのペプチド存在量;試料中の訓練ペプチドのセットのペプチド長に関連するデータをさらに含むことができる。
本明細書に開示される方法はまた、既知のタンパク質配列のセットを含むデータベースとのアラインメントにより訓練ペプチド配列のセットを比較することによって、訓練ペプチド配列に基づいて、訓練ペプチド配列よりも長くかつ訓練ペプチド配列を含む訓練タンパク質配列のセットを取得することを含んでもよい。
本明細書に開示される方法はまた、細胞株からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも1つを取得するために、細胞株に対して質量分析を行うかまたは質量分析がこれまでに行われていることを含んでもよく、前記ヌクレオチドシークエンシングデータは、変異を含む少なくとも1つのタンパク質配列を含む。
本明細書に開示される方法はまた、ワンホット(one-hot)エンコーディングスキームを用いて訓練ペプチド配列をエンコードすることを含んでもよい。
本明細書に開示される方法はまた、正常組織試料からエクソーム、トランスクリプトーム、及び全ゲノムの正常ヌクレオチドシークエンシングデータのうちの少なくとも1つを取得すること;ならびに、前記正常ヌクレオチドシークエンシングデータを用いて、提示モデルのパラメータのセットを訓練すること、を含むことができる。
訓練データセットは、試料に関連するプロテオーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するMHCペプチドーム配列に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド-MHC結合親和性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、単離されたペプチドのうちの少なくとも1つについてのペプチド-MHC結合安定性の測定値に関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するトランスクリプトームに関連するデータをさらに含んでもよい。
訓練データセットは、試料に関連するゲノムに関連するデータをさらに含んでもよい。
本明細書に開示される方法はまた、パラメータのセットのロジスティック回帰を行うことを含んでもよい。
訓練ペプチド配列は、kマー(kは、MHCクラスIの場合は8~15以下であり、MHCクラスIIの場合は6~30である)の範囲内の長さとすることができる。
本明細書に開示される方法はまた、レフトパディング(left-padded)ワンホットエンコーディングスキームを用いて訓練ペプチド配列をエンコードすることを含んでもよい。
本明細書に開示される方法はまた、ディープラーニングアルゴリズムを用いてパラメータのセットについて値を決定することを含んでもよい。
本明細書では、腫瘍細胞の腫瘍細胞表面上に提示される可能性が高い1つ以上の新生抗原を特定するための方法であって、複数の新鮮なまたは凍結得様試料に由来する主要組織適合性複合体(MHC)から溶出された複数の単離ペプチドに関連するデータを含む質量分析データを受け取る工程;腫瘍試料中に存在し、各訓練ペプチド配列に関連する1つ以上のMHCアレル上に提示される訓練ペプチド配列のセットを少なくとも特定することにより、訓練データセットを取得する工程;前記訓練ペプチド配列に基づいて、訓練タンパク質配列のセットを取得する工程;前記訓練タンパク質配列及び前記訓練ペプチド配列を用いて、提示モデルの数値的パラメータのセットを訓練する工程であって、前記提示モデルが、腫瘍細胞表面上の1つ以上のMHCアレルによって腫瘍細胞由来のペプチド配列が提示される複数の数値的尤度を与える、工程、を含む方法が開示される。
提示モデルは、MHCアレルのうちの特定の1つとペプチド配列の特定の位置の特定のアミノ酸とのペアの存在と、前記ペアの前記MHCアレルのうちの特定の1つによる、前記特定の位置に前記特定のアミノ酸を含むそのようなペプチド配列が腫瘍細胞表面上で提示される尤度と、の間の依存関係を表すことができる。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、腫瘍の細胞表面上に提示される尤度が高いために選択される。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、対象において腫瘍特異的な免疫応答を誘導することができる尤度が高いために選択される。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、プロフェッショナル抗原提示細胞(APC)によってナイーブT細胞に提示されることができる尤度が高いために選択され、場合により、APCは樹状細胞(DC)である。
本明細書に開示される方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、中枢性寛容または末梢性寛容により阻害される尤度が低いために選択される。
本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれが1つ以上の別個の腫瘍新生抗原に対して、対象において正常組織に対する自己免疫応答を誘導することができる尤度が低いために選択される。
本明細書に開示する方法はまた、新生抗原のサブセットを選択することを含んでもよく、新生抗原のサブセットは、それぞれがAPCに対して腫瘍細胞において差次的に翻訳後修飾される尤度が低いために選択され、場合により、APCは樹状細胞(DC)である。
本明細書における方法の実施においては、特に断らない限り、当該技術分野における技能の範囲内のタンパク質化学、生化学、組換えDNA技術及び薬理学の従来の方法を使用する。かかる技術は文献に充分な説明がなされている。例えば、T.E.Creighton,Proteins:Structures and Molecular Properties(W.H.Freeman and Company,1993);A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,current addition);Sambrook,et al.,Molecular Cloning:A Laboratory Manual(2nd Edition,1989);Methods In Enzymology(S.Colowick and N.Kaplan eds.,Academic Press,Inc.);Remington’s Pharmaceutical Sciences,18th Edition(Easton,Pennsylvania:Mack Publishing Company,1990);Carey and Sundberg Advanced Organic Chemistry 3rd Ed.(Plenum Press)Vols A and B(1992)を参照されたい。
III.新生抗原における腫瘍特異的変異の特定
また、ある特定の変異(例えば、がん細胞中に存在する変異またはアレル)の特定のための方法も、本明細書に開示する。特に、これらの変異は、がんを有する対象のがん細胞のゲノム、トランスクリプトーム、プロテオーム、またはエクソーム中に存在し得るが、対象由来の正常組織には存在し得ない。
腫瘍における遺伝子変異は、それらが腫瘍において排他的にタンパク質のアミノ酸配列における変更をもたらす場合、腫瘍の免疫学的ターゲティングに有用と考えることができる。有用な変異は、以下を含む:(1)タンパク質において異なるアミノ酸をもたらす非同義変異;(2)C末端に新規の腫瘍特異的配列を有する、より長いタンパク質の翻訳をもたらす、終止コドンが修飾されているかまたは欠失しているリードスルー変異;(3)成熟mRNAにおけるイントロンの包含、したがってユニークな腫瘍特異的タンパク質配列をもたらす、スプライス部位変異;(4)2種類のタンパク質の接合部に腫瘍特異的配列を有するキメラタンパク質を生じる、染色体再編成(すなわち、遺伝子融合);(5)新規の腫瘍特異的タンパク質配列を有する新たなオープンリーディングフレームをもたらす、フレームシフト変異または欠失。変異はまた、非フレームシフト挿入欠失、ミスセンスもしくはナンセンス置換、スプライス部位変化、ゲノム再編成もしくは遺伝子融合、または、新生ORFを生じる任意のゲノム変化もしくは発現変化のうちの1つ以上も含むことができる。
例えば、腫瘍細胞におけるスプライス部位、フレームシフト、リードスルー、または遺伝子融合の変異から生じた、変異を有するペプチドまたは変異したポリペプチドは、腫瘍対正常細胞において、DNA、RNA、またはタンパク質をシークエンシングすることによって特定することができる。
また、変異は、以前に特定された腫瘍特異的変異を含むことができる。公知の腫瘍変異は、Catalogue of Somatic Mutations in Cancer(COSMIC)データベースで見出すことができる。
様々な方法を、個体のDNAまたはRNAにおいて特定の変異またはアレルの存在を検出するために利用可能である。この分野における進歩は、正確で、容易な、かつ安価な大規模SNP遺伝子型判定を提供している。例えば、動的アレル特異的ハイブリダイゼーション(DASH)、マイクロプレートアレイ対角線ゲル電気泳動(MADGE)、パイロシークエンシング、オリゴヌクレオチド特異的ライゲーション、TaqManシステム、及びAffymetrix SNPチップなどの種々のDNA「チップ」技術を含むいくつかの技法が、記載されている。これらの方法は、典型的にはPCRによる、標的遺伝子領域の増幅を利用する。さらに他の方法は、侵襲性切断による小さなシグナル分子の生成及びその後の質量分析、または、固定化されたパッドロックプローブ及びローリングサークル増幅に基づく。特異的な変異を検出するための、当技術分野において公知の方法のいくつかを、下記に要約する。
PCRベースの検出手段は、複数のマーカーの多重増幅を同時に含むことができる。例えば、サイズがオーバーラップせず、同時に解析することができるPCR産物を生成するようにPCRプライマーを選択することが、当技術分野において周知である。あるいは、差次的にラベル化され、したがって、各々を差次的に検出することができるプライマーで異なるマーカーを増幅することが可能である。当然、ハイブリダイゼーションベースの検出手段により、試料における複数のPCR産物の差次的な検出が可能になる。複数のマーカーの多重解析を可能にする他の技法が、当技術分野において公知である。
いくつかの方法が、ゲノムDNAまたは細胞RNAにおける単一ヌクレオチド多型の解析を容易にするために開発されている。例えば、一塩基多型は、例えば、Mundy,C.R.(米国特許第4,656,127号)において開示されているような、特化されたエキソヌクレアーゼ抵抗性ヌクレオチドを用いることによって検出することができる。この方法にしたがって、多型部位のすぐ3’のアレル配列に対して相補的なプライマーを、特定の動物またはヒトから取得された標的分子に対してハイブリダイズさせる。標的分子上の多型部位が、存在する特定のエキソヌクレアーゼ抵抗性ヌクレオチド誘導体に対して相補的であるヌクレオチドを含有する場合、その誘導体は、ハイブリダイズされたプライマーの末端上に組み込まれる。そのような組み込みのために、プライマーはエキソヌクレアーゼに対して抵抗性になり、それによってその検出が可能になる。試料のエキソヌクレアーゼ抵抗性誘導体の同一性は既知であるため、プライマーがエキソヌクレアーゼに対して抵抗性になったという知見により、標的分子の多型部位に存在するヌクレオチドが、反応において使用されたヌクレオチド誘導体のものに対して相補的であることが明らかになる。この方法は、多量の外来性配列データの決定を必要としないという利点を有する。
多型部位のヌクレオチドの同一性を決定するために、溶液ベースの方法を使用することができる(Cohen,D.et al.(フランス国特許第2,650,840号;PCT出願第WO91/02087号)。米国特許第4,656,127号のMundyの方法におけるように、多型部位のすぐ3’のアレル配列に対して相補的であるプライマーを使用する。この方法は、多型部位のヌクレオチドに対して相補的である場合は、プライマーの末端上に組み込まれるようになる、ラベル化ジデオキシヌクレオチド誘導体を用いて、その部位のヌクレオチドの同一性を決定する。
Genetic Bit AnalysisまたはGBAとして公知である代替的な方法が、Goelet,P.et al.(PCT出願第92/15712号)により記載されている。Goelet,P.et al.の方法は、ラベル化ターミネーターと、多型部位の3’の配列に対して相補的であるプライマーとの混合物を使用する。Goelet,P.et al.の方法は、ラベル化ターミネーターと、多型部位の3’の配列に対して相補的であるプライマーとの混合物を使用する。Cohen et al.(フランス国特許第2,650,840号;PCT出願第WO91/02087号)の方法とは対照的に、Goelet,P.et al.の方法は、プライマーまたは標的分子が固相に固定化される、不均一相アッセイであることができる。
DNAにおいて多型部位をアッセイするための、いくつかのプライマーガイドヌクレオチド組み込み手順が、記載されている(Komher,J.S.et al.,Nucl.Acids.Res.17:7779-7784(1989);Sokolov,B.P.,Nucl.Acids Res.18:3671(1990);Syvanen,A.-C.,et al.,Genomics 8:684-692(1990);Kuppuswamy,M.N.et al.,Proc.Natl.Acad.Sci.(U.S.A.)88:1143-1147(1991);Prezant,T.R.et al.,Hum.Mutat.1:159-164(1992);Ugozzoli,L.et al.,GATA 9:107-112(1992);Nyren,P.et al.,Anal.Biochem.208:171-175(1993))。これらの方法は、それらが、多型部位で塩基間を識別するためにラベル化デオキシヌクレオチドの組み込みを利用する点で、GBAとは異なる。そのような形式において、シグナルは、組み込まれたデオキシヌクレオチドの数に比例するため、同じヌクレオチドのランにおいて起こる多型は、ランの長さに比例するシグナルを結果としてもたらすことができる(Syvanen,A.-C.,et al.,Amer.J.Hum.Genet.52:46-59(1993))。
数多くのイニシアティブは、DNAまたはRNAの何百万もの個々の分子から並行して直接、配列情報を取得する。リアルタイムの単一分子の合成によるシークエンシング技術は、シークエンシングされる鋳型に対して相補的であるDNAの新生鎖の中に組み込まれる際の、蛍光ヌクレオチドの検出に依拠する。1つの方法において、長さが30~50塩基のオリゴヌクレオチドを、ガラスのカバーガラスに、5’端で共有結合性に固着させる。これらの固着した鎖は、2つの機能を果たす。第1に、それらは、鋳型が、表面結合オリゴヌクレオチドに対して相補的な捕捉尾部を有して構成されている場合に、標的鋳型鎖の捕捉部位として作用する。それらはまた、配列読み取りの基礎を形成する、鋳型指向性プライマー伸長のためのプライマーとしても作用する。捕捉プライマーは、複数サイクルの合成、検出、及び、色素を除去するための色素-リンカーの化学的切断を用いた、配列決定のための、固定された位置部位として機能する。各サイクルは、ポリメラーゼ/ラベル化ヌクレオチド混合物の添加、リンス、画像化、及び色素の切断からなる。代替的な方法において、ポリメラーゼは、蛍光ドナー分子で修飾されてスライドガラス上に固定化され、他方、各ヌクレオチドは、γ-ホスファートに付着したアクセプター蛍光部分で色分けされている。ヌクレオチドが、新規の鎖の中に組み込まれるようになる際に、システムが、蛍光タグ付加されたポリメラーゼと蛍光修飾されたヌクレオチドとの間の相互作用を検出する。他の合成によるシークエンシング技術もまた、存在する。
任意の適している合成によるシークエンシングプラットフォームを、変異を特定するために使用することができる。上記のように、4種類の主要な合成によるシークエンシングプラットフォームを、現在利用可能である:Roche/454 Life Sciencesより販売されるGenome Sequencer、Illumina/Solexaより販売される1G Analyzer、Applied BioSystemsより販売されるSOLiDシステム、及びHelicos Bioscienceより販売されるHeliscopeシステム。合成によるシークエンシングプラットフォームはまた、Pacific BioSciences及びVisiGen Biotechnologiesによっても記載されている。いくつかの実施形態において、シークエンシングされる複数の核酸分子は、支持体(例えば、固体支持体)に結合している。核酸を支持体上に固定化するために、捕捉配列/万能プライミング部位を、鋳型の3’端及び/または5’端に付加することができる。核酸は、支持体に共有結合性に付着した相補的配列に対して捕捉配列をハイブリダイズすることによって、支持体に結合させることができる。捕捉配列(万能捕捉配列とも呼ばれる)は、万能プライマーとして二重に働き得る、支持体に付着した配列に対して相補的な核酸配列である。
捕捉配列に対する代替物として、カップリングペア(例えば、抗体/抗原、受容体/リガンド、または、例えば米国特許出願第2006/0252077号に記載されているようなアビジン-ビオチンペアなど)のメンバーを、各断片に連結させて、そのカップリングペアのそれぞれの第2のメンバーでコーティングされた表面上に捕捉させることができる。
捕捉に続いて、配列を、例えば、鋳型依存性の合成によるシークエンシングを含む、例えば、実施例及び米国特許第7,283,337号に記載されているような、単一分子検出/シークエンシングによって解析することができる。合成によるシークエンシングにおいて、表面に結合した分子は、ポリメラーゼの存在下で、複数のラベル化ヌクレオチド三リン酸に曝露される。鋳型の配列は、成長する鎖の3’端の中に組み込まれるラベル化ヌクレオチドの順序によって決定される。これは、リアルタイムで行うことができ、ステップ・アンド・リピートモードで行うことができる。リアルタイム解析のために、各ヌクレオチドに対して異なる光ラベルを組み込むことができ、複数のレーザーを、組み込まれたヌクレオチドの刺激のために利用することができる。
シークエンシングはまた、他の大規模並列処理シークエンシング、または次世代シークエンシング(NGS)技法及びプラットフォームも含むことができる。大規模並列処理シークエンシング技法及びプラットフォームの追加的な例は、Illumina HiSeqまたはMiSeq、ThermoPGMまたはProton、Pac Bio RS IIまたはSequel、QiagenのGene Reader、及びOxford Nanopore MinIONである。追加的な類似した現在の大規模並列処理シークエンシング技術、及びこれらの技術の将来世代を、使用することができる。
任意の細胞タイプまたは組織を利用して、本明細書に記載した方法における使用のための核酸試料を取得することができる。例えば、DNAまたはRNA試料を、腫瘍または体液、例えば、公知の技法(例えば、静脈穿刺)によって取得された血液、もしくは唾液から取得することができる。あるいは、核酸試験を、乾燥試料(例えば、髪または皮膚)に対して行うことができる。加えて、試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常組織が腫瘍と同じ組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。試料を、シークエンシングのために腫瘍から取得することができ、別の試料を、正常試料が腫瘍とは別個の組織タイプのものである場合に、シークエンシングのために正常組織から取得することができる。
腫瘍は、肺癌、黒色腫、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、及びT細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌のうちの1つ以上を含むことができる。
あるいは、タンパク質質量分析を使用して、腫瘍細胞上のMHCタンパク質に結合した変異したペプチドの存在を特定または実証することができる。ペプチドは、腫瘍細胞から、または腫瘍から免疫沈降させたHLA分子から酸溶出することができ、次いで、質量分析を用いて特定することができる。
IV.新生抗原
新生抗原は、ヌクレオチドまたはポリヌクレオチドを含むことができる。例えば、新生抗原は、ポリペプチド配列をコードするRNA配列であることができる。したがって、ワクチンにおいて有用な新生抗原は、ヌクレオチド配列またはポリペプチド配列を含むことができる。
本明細書に開示する方法によって特定された腫瘍特異的変異を含む単離されたペプチド、公知の腫瘍特異的変異を含むペプチド、および、本明細書に開示する方法によって特定された変異ポリペプチドまたはその断片を、本明細書に開示する。新生抗原ペプチドは、新生抗原が関連するポリペプチド配列をコードするヌクレオチド配列(例えば、DNAまたはRNA)を含む場合に、それらのコード配列の文脈において記載することができる。
新生抗原ヌクレオチド配列によってコードされる1つ以上のポリペプチドは、以下のうちの少なくとも1つを含むことができる:1000nM未満のIC50値でのMHCとの結合親和性、MHCクラスIペプチドについてはアミノ酸8~15個、8、9、10、11、12、13、14、または15個の長さ、プロテアソーム切断を促進するペプチド内またはその近くの配列モチーフの存在、及び、TAP輸送を促進する配列モチーフの存在。MHCクラスIIのポリペプチドではアミノ酸6~30、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、または30個の長さ、細胞外またはリソソームプロテアーゼ(例えば、カテプシン類)による切断またはHLA-DMにより触媒されるHLA結合を促進するペプチド内またはその近くの配列モチーフの存在。
1つ以上の新生抗原は、腫瘍の表面上に存在することができる。
1つ以上の新生抗原は、腫瘍を有する対象において免疫原性であることができ、例えば、対象においてT細胞応答またはB細胞応答を惹起することができ得る。
対象において自己免疫応答を誘導する1つ以上の新生抗原は、腫瘍を有する対象のためのワクチン生成の文脈において、考察から排除することができる。
少なくとも1つの新生抗原ペプチド分子のサイズは、約5個、約6個、約7個、約8個、約9個、約10個、約11個、約12個、約13個、約14個、約15個、約16個、約17個、約18個、約19個、約20個、約21個、約22個、約23個、約24個、約25個、約26個、約27個、約28個、約29個、約30個、約31個、約32個、約33個、約34個、約35個、約36個、約37個、約38個、約39個、約40個、約41個、約42個、約43個、約44個、約45個、約46個、約47個、約48個、約49個、約50個、約60個、約70個、約80個、約90個、約100個、約110個、約120個、またはそれよりも多いアミノ分子残基、及びこれらの範囲から導出される任意の範囲を含むことができるが、それらに限定されない。具体的な実施形態において、新生抗原ペプチド分子は、アミノ酸50個以下である。
新生抗原ペプチド及びポリペプチドは、MHCクラスIについては長さが15残基以下で、通常約8~約11残基の間からなり、特に9または10残基であることができ;MHCクラスIIについては、6~30残基であることができる。
望ましい場合、より長いペプチドを、いくつかのやり方において設計することができる。1つの例において、HLAアレル上のペプチドの提示尤度が予測されるかまたは公知である場合、より長いペプチドは、(1)各々の対応する遺伝子産物のN末端側及びC末端側に向かって2~5アミノ酸の伸長を有する個々の提示されるペプチド;(2)各々について伸長した配列を有する、提示されるペプチドのいくつかまたはすべての連鎖のいずれかからなることができる。別の例において、シークエンシングにより、腫瘍中に存在する長い(10残基より長い)新生エピトープ配列(例えば、新規のペプチド配列をもたらすフレームシフト、リードスルー、またはイントロンの包含による)が明らかになる場合、より長いペプチドは、(3)新規の腫瘍特異的アミノ酸のストレッチ全体からなることになり、したがって、最強のHLAに提示されるより短いペプチドの計算的なまたはインビトロ試験ベースの選択の必要を回避する。いずれの例においても、より長いペプチドの使用によって、患者細胞による内因性のプロセシングが可能になり、より有効な抗原提示及びT細胞応答の誘導がもたらされ得る。
新生抗原ペプチド及びポリペプチドは、HLAタンパク質上に提示されることができる。いくつかの態様において、新生抗原ペプチド及びポリペプチドは、野生型ペプチドよりも強い親和性でHLAタンパク質上に提示される。いくつかの態様において、新生抗原ペプチドまたはポリペプチドは、少なくとも5000nM未満、少なくとも1000nM未満、少なくとも500nM未満、少なくとも250nM未満、少なくとも200nM未満、少なくとも150nM未満、少なくとも100nM未満、少なくとも50nM未満、またはそれよりも小さいIC50を有することができる。
いくつかの態様において、新生抗原ペプチド及びポリペプチドは、対象に投与された場合に、自己免疫応答を誘導せず、かつ/または免疫寛容を引き起こさない。
また、少なくとも2種類以上の新生抗原ペプチドを含む組成物も提供する。いくつかの実施形態において、組成物は、少なくとも2種類の異なるペプチドを含有する。少なくとも2種類の異なるペプチドは、同じポリペプチドに由来することができる。異なるポリペプチドとは、ペプチドが、長さ、アミノ酸配列、またはその両方において異なることを意味する。ペプチドは、腫瘍特異的変異を含有することが知られているか、または見出されている任意のポリペプチドに由来する。新生抗原ペプチドが由来することができる、適しているポリペプチドは、例えば、COSMICデータベースにおいて見出すことができる。COSMICは、ヒトがんにおける体細胞性変異についての総合的な情報の管理を行う。ペプチドは、腫瘍特異的変異を含有する。いくつかの態様において、腫瘍特異的変異は、特定のがんタイプについてのドライバー変異である。
望ましい活性または性質を有する新生抗原ペプチド及びポリペプチドは、望ましいMHC分子に結合して適切なT細胞を活性化する非改変ペプチドの生物学的活性を増強するかまたは実質的にそのすべてを少なくとも保持しつつ、特定の望ましい属性、例えば、改善された薬理学的特徴を与えるように改変することができる。例として、新生抗原ペプチド及びポリペプチドを、保存的または非保存的のいずれかの置換などの、種々の改変にさらに供することができ、そのような改変は、改善されたMHC結合、安定性、または提示などの、それらの使用におけるある特定の利点を提供し得る。保存的置換とは、アミノ酸残基を、生物学的及び/または化学的に類似している別のもので、例えば、1つの疎水性残基を別の疎水性残基、または1つの極性残基を別の極性残基で置き換えることを意味する。置換は、Gly、Ala;Val、Ile、Leu、Met;Asp、Glu;Asn、Gln;Ser、Thr;Lys、Arg;及びPhe、Tyrなどの組み合わせを含む。単一アミノ酸置換の効果はまた、D-アミノ酸を用いて探査してもよい。そのような改変は、例えば、Merrifield,Science 232:341-347(1986),Barany & Merrifield,The Peptides,Gross & Meienhofer,eds.(N.Y.,Academic Press),pp.1-284(1979);及びStewart & Young,Solid Phase Peptide Synthesis,(Rockford,Ill.,Pierce),2d Ed.(1984)に記載されているように、周知のペプチド合成手順を用いて行うことができる。
種々のアミノ酸模倣物または非天然アミノ酸でのペプチド及びポリペプチドの改変は、インビボでのペプチド及びポリペプチドの安定性の向上に特に有用である場合がある。安定性は多くの方法でアッセイすることができる。例として、ペプチダーゼ、ならびに、ヒト血漿及び血清などの種々の生物学的媒質が、安定性を試験するために使用されている。例えば、Verhoef et al.,Eur.J.Drug Metab Pharmacokin.11:291-302(1986)を参照されたい。ペプチドの半減期は、25%ヒト血清(v/v)アッセイを用いて好都合に決定することができる。プロトコールは、概して以下のようなものである。プールしたヒト血清(AB型、非熱不活性化)を、使用前に遠心分離によって脱脂する。次いで、血清を、RPMI組織培養培地で25%に希釈し、ペプチド安定性を試験するために使用する。あらかじめ決定された時間間隔で、少量の反応溶液を取り出して、6%水性トリクロロ酢酸またはエタノールのいずれかに添加する。濁った反応試料を15分間冷却(4℃)し、次いで、スピンして沈降血清タンパク質を沈殿させる。次いで、ペプチドの存在を、安定性特異的クロマトグラフィー条件を用いた逆相HPLCによって決定する。
ペプチド及びポリペプチドを、改善された血清半減期以外の望ましい属性を提供するために修飾することができる。例として、CTL活性を誘導するペプチドの能力を、Tヘルパー細胞応答を誘導することができる少なくとも1つのエピトープを含有する配列への連結によって増強することができる。免疫原性ペプチド/Tヘルパーコンジュゲートは、スペーサー分子によって連結することができる。スペーサーは、典型的には、生理学的条件下で実質的に無電荷である、アミノ酸またはアミノ酸模倣物などの相対的に小さな中性分子から構成される。スペーサーは、典型的には、例えば、Ala、Gly、または、非極性アミノ酸もしくは中性極性アミノ酸の他の中性スペーサーから選択される。任意で存在するスペーサーは、同じ残基から構成される必要はなく、したがって、ヘテロオリゴマーまたはホモオリゴマーであり得ることが、理解されるであろう。存在する場合、スペーサーは、通常、少なくとも1または2残基、より通常は、3~6残基であろう。あるいは、ペプチドを、スペーサーなしでTヘルパーペプチドに連結することができる。
新生抗原ペプチドは、ペプチドのアミノ末端またはカルボキシ末端のいずれかで、直接またはスペーサーを介してのいずれかでTヘルパーペプチドに連結することができる。新生抗原ペプチドまたはTヘルパーペプチドのいずれかのアミノ末端を、アシル化することができる。例示的なTヘルパーペプチドは、破傷風毒素の830~843、インフルエンザの307~319、マラリアスポロゾイトの周囲382~398及び378~389を含む。
タンパク質またはペプチドは、標準的な分子生物学的技法を通したタンパク質、ポリペプチド、もしくはペプチドの発現、天然由来源からのタンパク質もしくはペプチドの単離、またはタンパク質もしくはペプチドの化学合成を含む、当業者に公知の任意の技法によって作製することができる。種々の遺伝子に対応する、ヌクレオチドならびにタンパク質、ポリペプチド及びペプチドの配列は、以前に開示されており、当業者に公知のコンピュータ処理されたデータベースで見出すことができる。1つのそのようなデータベースは、National Institutes of Healthのウェブサイトに位置する、National Center for Biotechnology InformationのGenbank及びGenPeptデータベースである。公知の遺伝子のコード領域は、本明細書に開示する技法を用いて、または当業者に公知であるように、増幅及び/または発現させることができる。あるいは、タンパク質、ポリペプチド、及びペプチドの種々の商業的調製物が、当業者に公知である。
さらなる態様において、新生抗原は、新生抗原ペプチドまたはその一部をコードする核酸(例えば、ポリヌクレオチド)を含む。ポリヌクレオチドは、例えば、DNA、cDNA、PNA、CNA、RNA(例えば、mRNA)、例えば、ホスホロチオアートバックボーンを有するポリヌクレオチドなどの、ポリヌクレオチドの一本鎖及び/もしくは二本鎖、または天然形態もしくは安定化形態のいずれか、または、それらの組み合わせであることができ、イントロンを含有してもよく、または含有しなくてもよい。またさらなる態様は、ポリペプチドまたはその一部を発現することができる発現ベクターを提供する。様々な細胞タイプ用の発現ベクターが、当技術分野において周知であり、過度の実験なしで選択することができる。概して、DNAを、プラスミドなどの発現ベクター中に、発現のための適正な方向及び正確なリーディングフレームで挿入する。必要な場合は、DNAを、望ましい宿主によって認識される適切な転写及び翻訳調節性制御ヌクレオチド配列に連結することができるが、そのような制御は、概して発現ベクターにおいて利用可能である。次いで、ベクターを、標準的な技法を通して宿主中に導入する。手引きは、例えば、Sambrook et al.(1989)Molecular Cloning,A Laboratory Manual,Cold Spring Harbor Laboratory,Cold Spring Harbor,N.Y.において見出すことができる。
IV.ワクチン組成物
また、特異的な免疫応答、例えば、腫瘍特異的な免疫応答を生じることができる免疫原性組成物、例えば、ワクチン組成物も、本明細書に開示する。ワクチン組成物は、典型的に、例えば、本明細書に記載した方法を用いて選択された複数の新生抗原を含む。ワクチン組成物はまた、ワクチンと呼ぶこともできる。
ワクチンは、1~30種類のペプチド、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、もしくは30種類の異なるペプチド、6、7、8、9、10、11、12、13、もしくは14種類の異なるペプチド、または12、13、もしくは14種類の異なるペプチドを含有することができる。ペプチドは、翻訳後修飾を含むことができる。ワクチンは、1~100種類もしくはそれよりも多いヌクレオチド配列、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100種類もしくはそれよりも多い異なるヌクレオチド配列、6、7、8、9、10、11、12、13、もしくは14種類の異なるヌクレオチド配列、または12、13、もしくは14種類の異なるヌクレオチド配列を含有することができる。ワクチンは、1~30種類の新生抗原配列、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100種類もしくはそれよりも多い異なる新生抗原配列、6、7、8、9、10、11、12、13、もしくは14種類の異なる新生抗原配列、または12、13、もしくは14種類の異なる新生抗原配列を含有することができる。
一実施形態では、異なるペプチド及び/もしくはポリペプチド、またはそれらをコードするヌクレオチド配列は、ペプチド及び/またはポリペプチドが、異なるMHCクラスI分子及び/または異なるMHCクラスII分子などの異なるMHC分子と結合することができるように選択される。いくつかの態様において、1つのワクチン組成物は、最も頻繁に存在するMHCクラスI分子及び/またはMHCクラスII分子と結合することができるペプチド及び/またはポリペプチドのコード配列を含む。したがって、ワクチン組成物は、少なくとも2種類の好ましい、少なくとも3種類の好ましい、または少なくとも4種類の好ましいMHCクラスI分子及び/またはMHCクラスII分子と結合することができる異なる断片を含むことができる。
ワクチン組成物は、特異的な細胞傷害性T細胞応答、及び/または特異的なヘルパーT細胞応答を生じることができる。
ワクチン組成物は、アジュバント及び/または担体をさらに含むことができる。有用なアジュバント及び担体の例を、本明細書の下記に示す。組成物は、例えば、タンパク質などの担体、または、例えば、T細胞に対してペプチドを提示することができる樹状細胞(DC)などの抗原提示細胞と結合することができる。
アジュバントは、ワクチン組成物中へのその混合が、新生抗原に対する免疫応答を増強させるか、または別の方法で修飾する任意の物質である。担体は、新生抗原がそれに結合することができる足場構造、例えば、ポリペプチドまたは多糖であることができる。任意で、アジュバントは、共有結合性または非共有結合性にコンジュゲートされる。
抗原に対する免疫応答を増強させるアジュバントの能力は、典型的に、免疫媒介性反応の有意なもしくは実質的な増強、または疾患症候の低減によって明示される。例えば、体液性免疫の増強は、典型的に、抗原に対して生じた抗体の力価の有意な上昇によって明示され、T細胞活性の増強は、典型的に、細胞増殖、または細胞性細胞傷害、またはサイトカイン分泌の増加において明示される。アジュバントはまた、例えば、主として体液性またはTh応答を、主として細胞性またはTh応答へと変更することによって、免疫応答を変化させ得る。
適しているアジュバントは、1018 ISS、アラム、アルミニウム塩、Amplivax、AS15、BCG、CP-870,893、CpG7909、CyaA、dSLIM、GM-CSF、IC30、IC31、イミキモド、ImuFact IMP321、IS Patch、ISS、ISCOMATRIX、JuvImmune、LipoVac、MF59、モノホスホリル脂質A、Montanide IMS 1312、MontanideISA206、Montanide ISA 50V、Montanide ISA-51、OK-432、OM-174、OM-197-MP-EC、ONTAK、PepTelベクターシステム、PLGマイクロ粒子、レシキモド、SRL172、ビロソーム及び他のウイルス様粒子、YF-17D、VEGFトラップ、R848、β-グルカン、Pam3Cys、サポニンに由来するAquila’s QS21 stimulon(Aquila Biotech、Worcester、Mass.、USA)、マイコバクテリア抽出物及び合成細菌細胞壁模倣物、及びRibi’s Detox.QuilまたはSuperfosなどの他の専売アジュバントを含むが、それらに限定されない。不完全フロインドまたはGM-CSFなどのアジュバントが、有用である。樹状細胞に特異的ないくつかの免疫学的アジュバント(例えば、MF59)及びそれらの調製物が、以前に記載されている(Dupuis M,et al.,Cell Immunol.1998;186(1):18-27;Allison A C;Dev Biol Stand.1998;92:3-11)。また、サイトカインを使用することもできる。いくつかのサイトカインは、リンパ組織に対する樹状細胞の遊走への影響(例えば、TNF-α)、Tリンパ球に対する効率的な抗原提示細胞への樹状細胞の成熟の加速化(例えば、GM-CSF、IL-1、及びIL-4)(具体的にその全体が参照により本明細書に組み入れられる、米国特許第5,849,589号)、及び免疫アジュバントとしての作用(例えば、IL-12)に直接結び付けられている(Gabrilovich D I,et al.,J ImmunotherEmphasis Tumor Immunol.1996(6):414-418)。
CpG免疫刺激性オリゴヌクレオチドもまた、ワクチン設定においてアジュバントの効果を増強することが報告されている。TLR 7、TLR 8、及び/またはTLR 9に結合するRNAなどの他のTLR結合分子がまた、使用されてもよい。
有用なアジュバントの他の例は、化学的に修飾されたCpG(例えば、CpR、Idera)、Poly(I:C)(例えば、polyi:CI2U)、非CpG細菌DNAまたはRNA、ならびに、治療的に及び/またはアジュバントとして作用し得る、シクロホスファミド、スニチニブ、ベバシズマブ、セレブレックス、NCX-4016、シルデナフィル、タダラフィル、バルデナフィル、ソラフィニブ、XL-999、CP-547632、パゾパニブ、ZD2171、AZD2171、イピリムマブ、トレメリムマブ、及びSC58175などの免疫活性小分子及び抗体を含むが、それらに限定されない。アジュバント及び添加物の量及び濃度は、当業者が過度の実験なしで容易に決定することができる。追加的なアジュバントは、顆粒球マクロファージコロニー刺激因子(GM-CSF、サルグラモスチム)などのコロニー刺激因子を含む。
ワクチン組成物は、1種類よりも多い異なるアジュバントを含むことができる。さらに、治療用組成物は、上記の任意またはそれらの組み合わせを含む、任意のアジュバント物質を含むことができる。ワクチン及びアジュバントを、任意の適切な配列において、一緒にまたは別々に投与できることもまた、企図される。
担体(または賦形剤)は、アジュバントから独立して存在することができる。担体の機能は、例えば、活性または免疫原性を増強させるため、安定性を与えるため、生物学的活性を増強させるため、または血清半減期を増大させるために、特に変異体の分子量を増大させることであり得る。さらに、担体は、T細胞に対してペプチドを提示するのを助けることができる。担体は、当業者に公知の任意の適している担体、例えば、タンパク質または抗原提示細胞であることができる。担体タンパク質は、キーホールリンペットヘモシアニン、トランスフェリンなどの血清タンパク質、ウシ血清アルブミン、ヒト血清アルブミン、サイログロブリンもしくはオボアルブミン、免疫グロブリン、またはインスリンなどのホルモン、またはパルミチン酸であることができるが、それらに限定されない。ヒトの免疫化のためには、担体は概して、ヒトに許容されかつ安全な、生理学的に許容される担体である。しかし、破傷風トキソイド及び/またはジフテリアトキソイドは、適している担体である。あるいは、担体は、デキストラン、例えばセファロースであることができる。
細胞傷害性T細胞(CTL)は、無傷の外来抗原自体よりも、MHC分子に結合したペプチドの形態において抗原を認識する。MHC分子自体は、抗原提示細胞の細胞表面に位置する。したがって、CTLの活性化は、ペプチド抗原、MHC分子、及びAPCの三量体複合体が存在する場合に可能である。対応して、ペプチドがCTLの活性化のために使用される場合だけではなく、追加的にそれぞれのMHC分子を有するAPCが添加される場合に、それは免疫応答を増強し得る。したがって、いくつかの実施形態において、ワクチン組成物は、追加的に、少なくとも1つの抗原提示細胞を含有する。
新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス(例えば、Tatsis et al.,Adenoviruses,Molecular Therapy(2004)10,616-629を参照されたい)、または、第2、第3、もしくはハイブリッド第2/第3世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス(例えば、Hu et al.,Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases,Immunol Rev.(2011)239(1):45-61、Sakuma et al.,Lentiviral vectors:basicto translational,Biochem J.(2012)443(3):603-18、Cooper et al.,Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter,Nucl.AcidsRes.(2015)43(1):682-690、Zufferey et al.,Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery,J.Virol.(1998)72(12):9873-9880を参照されたい)などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、1つ以上の新生抗原ペプチドをコードする1つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする1つもしくは複数の配列が先行していてもよい(例えば、Gros et al.,Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients,Nat Med.(2016)22(4):433-8、Stronen et al.,Targeting of cancer neoantigens with donor-derived T cell receptor repertoires,Science.(2016)352(6291):1337-41、Lu et al.,Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions,Clin Cancer Res.(2014)20( 13):3401-10を参照されたい)。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それによって、ペプチドに対する宿主免疫(例えば、CTL)応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第4,722,848号に記載されている。別のベクターは、BCG(カルメット・ゲラン桿菌)である。BCGベクターは、Stover et al.(Nature 351:456-460(1991))に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌(Salmonella typhi)ベクターなどが、本明細書における記載から当業者に明らかであろう。
IV.A.ワクチン設計及び製造のさらなる考慮事項
IV.A.1.すべての腫瘍サブクローンをカバーするペプチドのセットの決定
すべての、または大部分の腫瘍サブクローンによって提示されるものを意味するトランカルペプチド(truncal peptide)が、ワクチン中への包含について優先される53。任意で、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドがない場合、または、高い確率で提示されかつ免疫原性であることが予測されるトランカルペプチドの数が、追加的な非トランカルペプチドをワクチンに含めることができるほど少ない場合には、腫瘍サブクローンの数及び同一性を推定すること、及びワクチンによってカバーされる腫瘍サブクローンの数を最大化するようにペプチドを選ぶことによって、さらなるペプチドを優先順位付けすることができる54
IV.A.2.新生抗原の優先順位決定
上記の新生抗原フィルターのすべてを適用した後、ワクチン技術が対応できるよりも多くの新生抗原候補が、依然としてワクチン包含に利用可能である可能性がある。追加的に、新生抗原解析の種々の態様についての不確定度が残っている可能性があり、候補ワクチン新生抗原の様々な性状の間にトレードオフが存在する可能性がある。したがって、選択プロセスの各段階でのあらかじめ決定されたフィルターの代わりに、少なくとも以下の軸を有する空間に新生抗原候補を置き、積分アプローチを用いて選択を最適化する、積分多次元モデルを考えることができる。
1. 自己免疫または寛容のリスク(生殖細胞系列のリスク)(典型的には自己免疫のリスクが低い方が好ましい)
2. シークエンシングアーチファクトの確率(典型的にはアーチファクトの確率が低い方が好ましい)
3. 免疫原性の確率(典型的には免疫原性の確率が高い方が好ましい)
4. 提示の確率(典型的には提示の確率が高い方が好ましい)
5. 遺伝子発現(典型的には発現が高い方が好ましい)
6. HLA遺伝子のカバレッジ(新生抗原のセットの提示に関与する、より多い数のHLA分子は、腫瘍が、HLA分子の下方制御または変異を介して免疫攻撃を回避する確率を低くする可能性がある)
HLAクラスのカバレッジ(HLA-I及びHLA-IIの両方をカバーすることで、治療応答の確率が高まり、腫瘍の免疫回避の確率が低くなる可能性がある)
さらに、場合によっては、新生抗原が患者の腫瘍のすべてまたは一部において喪失するかまたは不活性化されたHLAアレルによって提示されることが予想される場合には、これらの新生抗原のワクチン接種における優先順位を下げる(例えば除外)することができる。HLAアレルの喪失は、体細胞変異、ヘテロ接合性の喪失、または遺伝子座のホモ接合欠失のいずれかによって生じうる。HLAアレルの体細胞変異の検出方法は当該技術分野では周知のものである(例えば、Shukla et al.,2015)。体細胞LOH及びホモ接合欠失(HLA遺伝子座を含む)の検出方法についても同様に述べられている(Carter et al.,2012;McGranahan et al.,2017;Van Loo et al.,2010)。
V.治療方法及び製造方法
本明細書に開示する方法を用いて特定された複数の新生抗原などの1つ以上の新生抗原を対象に投与することにより、対象において腫瘍特異的な免疫応答を誘導し、腫瘍に対するワクチン接種を行い、対象のがんの症状を治療及び/または緩和する方法も提供される。
いくつかの態様において、対象は、がんと診断されているか、またはがんを発症するリスクにある。対象は、ヒト、イヌ、ネコ、ウマ、または、腫瘍特異的な免疫応答が望ましい任意の動物であることができる。腫瘍は、乳、卵巣、前立腺、肺、腎臓、胃、結腸、精巣、頭頸部、膵臓、脳、黒色腫、及び他の組織器官の腫瘍などの、任意の固形腫瘍、ならびに、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、T細胞リンパ球性白血病、及びB細胞リンパ腫を含むリンパ腫及び白血病などの、血液腫瘍であることができる。
新生抗原は、CTL応答を誘導するのに十分な量で投与することができる。
新生抗原は、単独で、または他の治療用物質との組み合わせで投与することができる。治療用物質は、例えば、化学療法剤、放射線、または免疫療法である。特定のがんのための任意の適している治療的処置を、施すことができる。
加えて、対象に、チェックポイント阻害因子などの抗免疫抑制性/免疫刺激性物質をさらに投与することができる。例えば、対象に、抗CTLA抗体または抗PD-1または抗PD-L1をさらに投与することができる。抗体によるCTLA-4またはPD-L1の遮断は、患者においてがん性細胞に対する免疫応答を増強することができる。特に、CTLA-4遮断は、ワクチン接種プロトコールを採用した場合に有効であることが示されている。
ワクチン組成物に含まれるべき各新生抗原の最適量、及び最適投薬レジメンを、決定することができる。例えば、新生抗原またはその変異体は、静脈内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹腔内(i.p.)注射、筋肉内(i.m.)注射のために調製することができる。注射の方法は、s.c.、i.d.、i.p.、i.m.、及びi.v.を含む。DNAまたはRNA注射の方法は、i.d.、i.m.、s.c.、i.p.、及びi.v.を含む。ワクチン組成物の投与の他の方法は、当業者に公知である。
ワクチンは、組成物中に存在する新生抗原の選択、数、及び/または量が、組織、がん、及び/または患者に特異的であるように編集することができる。例として、ペプチドの厳密な選択は、所定の組織における親タンパク質の発現パターンによって手引きされ得る。選択は、がんの特異的なタイプ、疾患の状態、より早期の処置レジメン、患者の免疫状態、及び当然、患者のHLAハロタイプに依存し得る。さらに、ワクチンは、特定の患者の個人的な必要にしたがって、個別化された構成要素を含有することができる。例は、特定の患者における新生抗原の発現にしたがって新生抗原の選択を変えること、または、処置の第1のラウンドまたはスキームの後の二次的処置についての調整を含む。
がんのためのワクチンとして使用されるべき組成物について、正常組織において多量に発現している類似した正常な自己ペプチドを有する新生抗原は、本明細書に記載した組成物において、避けられるか、または少量で存在することができる。他方で、患者の腫瘍が、多量のある特定の新生抗原を発現することが公知である場合、このがんの処置のためのそれぞれの薬学的組成物は、多量に存在することができ、及び/または、この特定の新生抗原もしくはこの新生抗原の経路に特異的な1種類よりも多い新生抗原を含めることができる。
新生抗原を含む組成物を、既にがんを患っている個体に投与することができる。治療的適用において、組成物は、腫瘍抗原に対する有効なCTL応答を惹起し、かつ、症候及び/または合併症を治癒するかまたは少なくとも部分的に停止するのに十分な量で、患者に投与される。これを達成するのに妥当な量を、「治療的有効用量」として定義する。この用途のために有効な量は、例えば、組成物、投与の様式、処置される疾患の病期及び重症度、患者の体重及び健康の全身状態、ならびに処方医の判断に依存するであろう。組成物は、概して、重篤な疾患状態、すなわち、命に関わるか、または潜在的に命に関わる状況、特にがんが転移している場合に使用できることを、心に留めるべきである。そのような例において、外来性物質の最小化、及び新生抗原の相対的な非毒性の性質を考慮して、実質的過剰量のこれらの組成物を投与することが、可能であり、かつ処置する医師が望ましいと感じることができる。
治療用途のために、投与は、腫瘍の検出または外科的除去時に始めることができる。これに、少なくとも症候が実質的に減ずるまで、及びその後ある期間にわたって、ブースト用量が続く。
治療的処置のための薬学的組成物(例えば、ワクチン組成物)は、非経口、局部、経鼻、経口、または局所投与について意図される。薬学的組成物は、非経口的に、例えば、静脈内、皮下、皮内、または筋肉内に投与することができる。組成物は、腫瘍に対する局所免疫応答を誘導するために、外科的切除の部位に投与することができる。新生抗原の溶液を含む非経口投与用の組成物を、本明細書に開示し、ワクチン組成物は、許容される担体、例えば、水性担体に溶解または懸濁される。様々な水性担体、例えば、水、緩衝水、0.9%食塩水、0.3%グリシン、ヒアルロン酸などを使用することができる。これらの組成物は、従来の周知の滅菌技法によって滅菌することができ、または滅菌濾過することができる。結果として生じた水溶液を、そのままで使用のためにパッケージングするか、または凍結乾燥することができ、凍結乾燥調製物は、投与前に滅菌溶液と組み合わされる。組成物は、pH調整剤及び緩衝剤、等張化剤、湿潤剤など、例えば、酢酸ナトリウム、乳酸ナトリウム、塩化ナトリウム、塩化カリウム、塩化カルシウム、ソルビタンモノラウラート、トリエタノールアミンオレアートなどのような、生理学的条件に近づけるために必要とされる、薬学的に許容される補助物質を含有してもよい。
新生抗原はまた、それらをリンパ組織などの特定の細胞組織にターゲティングする、リポソームを介して投与することもできる。リポソームはまた、半減期を増大させるのにも有用である。リポソームは、エマルジョン、フォーム、ミセル、不溶性単層、液晶、リン脂質分散物、ラメラ層などを含む。これらの調製物において、送達されるべき新生抗原は、単独で、または、CD45抗原に結合するモノクローナル抗体などの、例えば、リンパ系細胞の間で優性な受容体に結合する分子、または他の治療用組成物もしくは免疫原性組成物と共に、リポソームの一部として組み込まれる。したがって、所望の新生抗原で満たされたリポソームは、リンパ系細胞の部位へ方向付けられることができ、そこで、リポソームは次いで、選択された治療用/免疫原性組成物を送達する。リポソームは、概して、中性及び負電荷を有するリン脂質、及びコレステロールなどのステロールを含む、標準的な小胞形成脂質から形成され得る。脂質の選択は、概して、例えば、リポソームサイズ、酸不安定性、及び血流におけるリポソームの安定性の考慮により手引きされる。例えば、Szoka et al., Ann.Rev.Biophys.Bioeng.9;467 (1980)、米国特許第4,235,871号、第4,501,728号、第4,501,728号、第4,837,028号、及び第5,019,369号に記載されているように、様々な方法を、リポソームを調製するために利用可能である。
免疫細胞へのターゲティングのために、リポソーム中に組み込まれるべきリガンドは、例えば、所望の免疫系細胞の細胞表面決定基に特異的な抗体またはその断片を含むことができる。リポソーム懸濁液は、とりわけ、投与の様式、送達されるペプチド、及び処置される疾患の病期にしたがって変動する用量で、静脈内、局所、局部などに投与することができる。
治療目的または免疫化目的で、本明細書に記載したペプチド、及び任意でペプチドの1つ以上をコードする核酸をまた、患者に投与することもできる。数多くの方法が、核酸を患者に送達するために好都合に使用される。例として、核酸を、「裸のDNA」として直接送達することができる。このアプローチは、例として、Wolff et al., Science 247:1465-1468 (1990)、ならびに米国特許第5,580,859号及び第5,589,466号に記載されている。核酸はまた、例として、米国特許第5,204,253号に記載されているような弾道送達を用いて投与することもできる。単にDNAからなる粒子を、投与することができる。あるいは、DNAを、金粒子などの粒子に接着させることができる。核酸配列を送達するためのアプローチは、エレクトロポレーションを伴うかまたは伴わない、ウイルスベクター、mRNAベクター、及びDNAベクターを含むことができる。
核酸はまた、カチオン性脂質などのカチオン性化合物に複合体化させて送達することもできる。脂質媒介性遺伝子送達法は、例として、9618372WOAWO 96/18372;9324640WOAWO 93/24640;Mannino & Gould-Fogerite, BioTechniques 6(7): 682-691 (1988);米国特許第5,279,833号 Rose、米国特許第5,279,833号;9106309WOAWO 91/06309;及びFelgner et al., Proc.Natl.Acad.Sci.USA 84: 7413-7414 (1987)に記載されている。
新生抗原はまた、ワクシニア、鶏痘、自己複製アルファウイルス、マラバウイルス、アデノウイルス(例えば、Tatsis et al., Adenoviruses, Molecular Therapy (2004) 10, 616-629を参照されたい)、または、第2、第3、もしくはハイブリッド第2/第3世代のレンチウイルス、及び特異的な細胞タイプもしくは受容体を標的とするように設計された任意の世代の組換えレンチウイルスを含むがそれらに限定されないレンチウイルス(例えば、Hu et al., Immunization Delivered by Lentiviral Vectors for Cancer and Infectious Diseases, Immunol Rev.(2011) 239(1): 45-61、Sakuma et al., Lentiviral vectors:basicto translational, Biochem J.(2012) 443(3):603-18、Cooper et al., Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containing the human ubiquitin C promoter, Nucl.AcidsRes.(2015) 43 (1): 682-690、Zufferey et al., Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo Gene Delivery,J.Virol.(1998) 72 (12): 9873-9880を参照されたい)などの、ウイルスベクターベースのワクチンプラットフォームに含めることもできる。上述のウイルスベクターベースのワクチンプラットフォームのパッケージング能力に依存して、このアプローチは、1つ以上の新生抗原ペプチドをコードする1つ以上のヌクレオチド配列を送達することができる。配列は、非変異配列が隣接していてもよく、リンカーによって分離されていてもよく、または、細胞内区画を標的とする1つもしくは複数の配列が先行していてもよい(例えば、Gros et al.,Prospective identification of neoantigen-specific lymphocytes in the peripheral blood of melanoma patients,Nat Med.(2016) 22 (4):433-8、Stronen et al.,Targeting of cancer neoantigens with donor-derived T cell receptor repertoires,Science.(2016) 352 (6291):1337-41、Lu et al.,Efficient identification of mutated cancer antigens recognized by T cells associated with durable tumor regressions,Clin Cancer Res.(2014) 20( 13):3401-10を参照されたい)。宿主中への導入時に、感染した細胞は、新生抗原を発現し、それによって、ペプチドに対する宿主免疫(例えば、CTL)応答を惹起する。免疫化プロトコールにおいて有用なワクシニアベクター及び方法は、例えば、米国特許第4,722,848号に記載されている。別のベクターは、BCG(カルメット・ゲラン桿菌)である。BCGベクターは、Stover et al.(Nature 351:456-460 (1991))に記載されている。新生抗原の治療的投与または免疫化に有用な、多種多様の他のワクチンベクター、例えば、チフス菌ベクターなどが、本明細書における記載から当業者に明らかであろう。
核酸を投与する手段は、1つ以上のエピトープをコードするミニ遺伝子構築物を使用する。ヒト細胞における発現のための、選択されたCTLエピトープをコードするDNA配列(ミニ遺伝子)を作製するために、エピトープのアミノ酸配列を逆翻訳する。各アミノ酸に対するコドン選択を手引きするために、ヒトコドン使用頻度表を使用する。これらのエピトープをコードするDNA配列を、直接隣り合わせて、連続的なポリペプチド配列を作製する。発現及び/または免疫原性を最適化するために、追加の要素を、ミニ遺伝子設計中に組み入れることができる。逆翻訳して、ミニ遺伝子配列に含めることができるアミノ酸配列の例は、ヘルパーTリンパ球エピトープ、リーダー(シグナル)配列、及び小胞体保持シグナルを含む。加えて、CTLエピトープのMHC提示は、CTLエピトープに近接した合成の(例えば、ポリアラニン)または天然に存在する隣接配列を含むことによって、改善することができる。ミニ遺伝子配列は、ミニ遺伝子のプラス鎖及びマイナス鎖をコードするオリゴヌクレオチドをアセンブルすることによって、DNAに変換される。オーバーラップするオリゴヌクレオチド(30~100塩基長)を、周知の技法を用いて適切な条件下で、合成し、リン酸化し、精製し、アニーリングする。オリゴヌクレオチドの端は、T4DNAリガーゼを用いて連結する。CTLエピトープポリペプチドをコードするこの合成ミニ遺伝子を、次いで、望ましい発現ベクター中にクローニングすることができる。
精製プラスミドDNAは、様々な製剤を用いて、注射のために調製することができる。これらのうちでもっとも単純なものは、滅菌リン酸緩衝食塩水(PBS)における凍結乾燥DNAの再構成である。様々な方法が記載されており、新たな技法が利用可能になり得る。上記で言及したように、核酸は、カチオン性脂質で好都合に製剤化される。加えて、糖脂質、融合性リポソーム、ペプチド、及び保護的、相互作用的、非縮合性(PINC)と集合的に呼ばれる化合物もまた、精製プラスミドDNAと複合体化させて、安定性、筋肉内分散、または特異的な器官もしくは細胞タイプへの輸送などの変数に影響を及ぼすことができる。
また、本明細書に開示する方法の工程を行うこと;及び、複数の新生抗原または複数の新生抗原のサブセットを含む腫瘍ワクチンを生産する工程を含む、腫瘍ワクチンを製造する方法も、本明細書に開示する。
本明細書に開示する新生抗原は、当技術分野において公知の方法を用いて製造することができる。例えば、本明細書に開示する新生抗原またはベクター(例えば、1つ以上の新生抗原をコードする少なくとも1つの配列を含むベクター)を生産する方法は、新生抗原またはベクターを発現するのに適している条件下で宿主細胞を培養する工程であって、宿主細胞が、新生抗原またはベクターをコードする少なくとも1つのポリヌクレオチドを含む工程、及び、新生抗原またはベクターを精製する工程を含むことができる。標準的な精製法は、クロマトグラフィー技法、電気泳動技法、免疫学的技法、沈降技法、透析技法、濾過技法、濃縮技法、及びクロマトフォーカシング技法を含む。
宿主細胞は、チャイニーズハムスター卵巣(CHO)細胞、NS0細胞、酵母、またはHEK293細胞を含むことができる。宿主細胞は、本明細書に開示する新生抗原またはベクターをコードする少なくとも1つの核酸配列を含む、1つ以上のポリヌクレオチドで形質転換することができ、任意で、単離されたポリヌクレオチドは、新生抗原またはベクターをコードする少なくとも1つの核酸配列に機能的に連結されたプロモーター配列をさらに含む。ある特定の実施形態において、単離されたポリヌクレオチドは、cDNAであることができる。
V.A.MHC/ペプチド標的反応性T細胞及びTCRの同定
T細胞は、患者の血液、リンパ節、または腫瘍から単離することができる。T細胞は、例えば、抗原-MHCテトラマー結合細胞を分取することにより、またはT細胞と抗原でパルスした抗原提示細胞とのインビトロ共培養物中で刺激した活性化された細胞を分取することにより、抗原特異的T細胞について濃縮することができる。抗原ロードテトラマー及び他のMHCベースの試薬をはじめとする、抗原特異的T細胞の同定のためのさまざまな試薬が当該技術分野で知られている。
抗原関連αβ(またはγδ)TCRダイマーを、抗原特異的T細胞のTCRのシングルセルシークエンシングによって同定することができる。また、抗原特異的T細胞のバルクTCRシークエンシングを行ってもよく、マッチングの確率が高いαβのペアを当該技術分野では周知のTCRペアリング法を用いて決定することができる。
これに代えるかまたはこれに加えて、健康なドナーから得たナイーブT細胞のインビトロプライミングによって抗原特異的T細胞を得ることもできる。PBMC、リンパ節、または臍帯血から得られたT細胞を抗原でパルスした抗原提示細胞によって繰り返し刺激することにより、抗原経験T細胞の分化を開始させることができる。この後、TCRを患者からの抗原特異的T細胞について上記に述べたのと同様にして同定することができる。
VI.新生抗原の特定
VI.A.新生抗原候補の特定
腫瘍及び正常のエクソーム及びトランスクリプトームのNGS解析のための研究法を、新生抗原の特定のスペースに記載し、適用している6,14,15。下記の例は、臨床設定における新生抗原の特定について、より大きな感度及び特異度のためのある特定の最適化を考慮している。これらの最適化は、実験室プロセスに関連するもの及びNGSデータ解析に関連するものの、2つの区域にグループ化することができる。
VI.A.1.実験室プロセスの最適化
本明細書に提示したプロセスの改善は、標的とされるがんパネルにおける信頼できるがんドライバー遺伝子の評価について開発された概念16を、新生抗原の特定のために必要な全エクソーム設定及び全トランスクリプトーム設定に拡大することによって、低い腫瘍含量及び少ない体積の臨床標本からの高精度の新生抗原の発見における難題に対処する。具体的には、これらの改善は、以下を含む:
1.低い腫瘍含量またはサブクローン状態のいずれかにより、低い変異体アレル頻度で存在する変異を検出するための、腫瘍エクソームにわたる深い(500xよりも大きい)ユニークな平均カバレッジのターゲティング。
2.可能性のある新生抗原の見逃しが最も少ないように、100x未満でカバーされる塩基が5%未満である、例として、
a. 個々のプローブQCを有するDNAベースの捕捉プローブの使用17
b.十分にカバーされていない領域についての追加的なベイトの包含
3.可能性のある新生抗原が体細胞性/生殖細胞系列ステータスについて分類されていないままである(したがってTSNAとして使用可能ではない)ことが最も少ないように、20x未満でカバーされる塩基が5%未満である、正常エクソームにわたる均一カバレッジのターゲティング。
4.必要とされるシークエンシングの総量を最小化するために、配列捕捉プローブは、非コードRNAは新生抗原を生じることができないことから、遺伝子のコード領域のみについて設計される。追加的な最適化は、以下を含む:
a.GCリッチであり、標準的なエクソームシークエンシングでは十分に捕捉されないHLA遺伝子についての補充的プローブ18
b.不十分な発現、プロテアソームによる最適に満たない消化、または異例の配列特性などの要因により、新生抗原候補を少ししかまたは全く生成しないと予測される遺伝子の排除。
5.変異検出、遺伝子及びスプライス変異体(「アイソフォーム」)発現の定量、ならびに融合物検出を可能にするために、腫瘍RNAが同様に、高深度(100Mリードよりも大きい)でシークエンシングされる。FFPE試料由来のRNAは、DNAにおいてエクソームを捕捉するために使用されるのと同じまたは類似したプローブで、プローブベース濃縮19を用いて抽出される。
VI.A.2.NGSデータ解析の最適化
解析法の改善は、一般的な研究変異コーリングアプローチの最適に満たない感度及び特異性に対処し、具体的には、臨床設定における新生抗原の特定のために関連するカスタマイズ化を考慮する。これらは、以下を含む:
1.アラインメントのための、HG38参照ヒトゲノムまたはより後のバージョンの使用(それが、以前のゲノムリリースとは対照的に、集団多型をより良好に反映する複数のMHC領域アセンブリーを含有するため)。
2.様々なプログラムからの結果をマージすることによる、単一変異コーラー20の限界の克服。
a.単一ヌクレオチド変異及び挿入欠失は、以下を含む一連のツールで、腫瘍DNA、腫瘍RNA、及び正常DNAから検出される:Strelka21及びMutect22などの、腫瘍及び正常DNAの比較に基づくプログラム;ならびに、低純度の試料において特に有利である23、UNCeqRなどの、腫瘍DNA、腫瘍RNA、及び正常DNAを組み入れるプログラム。
b.挿入欠失は、Strelka及びABRA24などの、局所リアセンブリーを行うプログラムで決定される。
c.構造的再編成は、Pindel25またはBreakseq26などの専用のツールを用いて決定される。
3.試料スワップを検出して阻止するために、同じ患者についての試料由来の変異コールが、選ばれた数の多型部位で比較される。
4.例として、以下による、人工的コールの広範囲のフィルタリングが行われる:
a.潜在的に、低いカバレッジの例においては緩やかな検出パラメータで、及び挿入欠失の例においては許容的な近接基準での、正常DNAにおいて見出される変異の除去。
b.低いマッピング品質または低い塩基品質による変異の除去27
c.たとえ対応する正常において観察されないとしても、再出現するシークエンシングアーチファクトから生じる変異の除去27。例は、主として1本の鎖上に検出される変異を含む。
d.無関連の対照のセットにおいて検出される変異の除去27
5.seq2HLA28、ATHLATES29、またはOptitypeのうちの1つを使用する、かつまた、エクソーム及びRNAシークエンシングデータを組み合わせる28、正常エクソームからの正確なHLAコーリング。追加的な潜在的最適化は、ロングリードDNAシークエンシングなどの、HLAタイピングのための専用アッセイの採用30、または、RNA断片を連結して連続性を保持するための方法の適応31を含む。
6.腫瘍特異的スプライス変異体から生じた新生ORFの堅牢な検出は、CLASS32、Bayesembler33、StringTie34、またはそのリファレンスガイドモードにおける類似したプログラム(すなわち、各実験からそれらの全体の転写産物を再作製するように試みるよりもむしろ、公知の転写産物構造を用いる)を用いて、RNA-seqデータから転写産物をアセンブルすることによって、行われる。Cufflinks35が、この目的で一般的に使用されるが、それは頻繁に、信じ難いほど多数のスプライス変異体を産生し、それらの多くは、完全長遺伝子よりもはるかに短く、単純な陽性対照をリカバーすることができない場合がある。コード配列及び潜在的なナンセンス変異依存分解機構は、変異体配列を再導入した、SpliceR36及びMAMBA37などのツールで決定される。遺伝子発現は、Cufflinks35またはExpress(Roberts and Pachter,2013)などのツールで決定される。野生型及び変異体特異的な発現カウント及び/または相対レベルは、ASE38またはHTSeq39などの、これらの目的で開発されたツールで決定される。潜在的なフィルタリング段階は、以下を含む:
a.不十分に発現されていると考えられる候補新生ORFの除去。
b.ナンセンス変異依存分解機構(NMD)を引き起こすと予測される候補新生ORFの除去。
7.腫瘍特異的と直接検証することができない、RNAにおいてのみ観察される新生抗原候補(例えば、新生ORF)は、例として以下を考慮することにより、追加的なパラメータにしたがって、腫瘍特異的である可能性が高いとして分類される:
a.腫瘍DNAのみのシス作用性フレームシフトまたはスプライス部位変異の支持の存在。
b.スプライシング因子における腫瘍DNAのみのトランス作用性変異の確証の存在。例として、R625変異体SF3B1での3つの独立して公開された実験において、最も差次的にスプライシングを呈する遺伝子は、1つの実験がブドウ膜黒色腫患者を検討し40、第2の実験がブドウ膜黒色腫細胞株を検討し41、及び第3の実験が乳がん患者を検討した42にもかかわらず、一致していた。
c.新規のスプライシングアイソフォームについては、RNASeqデータにおける「新規の」スプライス-ジャンクションリードの確証の存在。
d.新規の再編成については、正常DNAには存在しない腫瘍DNAにおけるエクソン近傍リードの確証の存在。
e.GTEx43などの遺伝子発現大要からの欠如(すなわち、生殖細胞系列起源の可能性をより低くする)。
8.アラインメント及びアノテーションベースのエラー及びアーチファクトを直接避けるために、アセンブルされたDNAの腫瘍及び正常リード(またはそのようなリード由来のkマー)を比較することによる、参照ゲノムアラインメントベースの解析の補完(例えば、生殖細胞系列変異またはリピートコンテクスト挿入欠失の近くに生じる体細胞性変異について)。
ポリアデニル化RNAを有する試料において、RNA-seqデータにおけるウイルスRNA及び微生物RNAの存在は、患者の応答を予測し得る追加的因子の特定に向かって、RNA CoMPASS44または類似した方法を用いて評価される。
VI.B.HLAペプチドの単離及び検出
HLAペプチド分子の単離は、組織試料の溶解及び可溶化後に、古典的な免疫沈降(IP)法を用いて行った55~58。清澄化した溶解物を、HLA特異的IPに使用した。
免疫沈降は、抗体がHLA分子に特異的である、ビーズにカップリングした抗体を用いて行った。汎クラスI HLA免疫沈降のためには、汎クラスI CR抗体を使用し、クラスII HLA-DRのためには、HLA-DR抗体を使用する。抗体を、一晩インキュベーション中に、NHS-セファロースビーズに共有結合で付着させる。共有結合性の付着後、ビーズを洗浄して、IPのために等分した59、60。ビーズに共有結合されていない抗体を用いて免疫沈降を行うこともできる。一般的に、これは、抗体をカラムに保持するためにProteinA及び/またはProteinGでコーティングしたセファロースまたは磁気ビーズを使用して行われる。MHC/ペプチド複合体を選択的に濃縮するために使用することができるいくつかの抗体を下記に示す。
Figure 0007217711000001
清澄化した組織溶解物を、免疫沈降のために抗体ビーズに添加する。免疫沈降後、ビーズを溶解物から除去し、追加的なIPを含む追加的な実験のために、溶解物を保存する。標準的な技法を用いて、IPビーズを洗浄して非特異的結合を除去し、HLA/ペプチド複合体をビーズから溶出する。分子量スピンカラムまたはC18分画を用いて、タンパク質構成要素をペプチドから除去する。結果として生じたペプチドを、SpeedVac蒸発によって乾燥させ、いくつかの場合には、MS解析の前に-20℃で保存する。
乾燥したペプチドを、逆相クロマトグラフィーに適しているHPLC緩衝液において再構成し、Fusion Lumos質量分析計(Thermo)における勾配溶出のために、C-18マイクロキャピラリーHPLCカラム上にロードする。ペプチド質量/電荷(m/z)のMS1スペクトルを、Orbitrap検出器において高解像度で収集し、その後、MS2低解像度スキャンを、選択イオンのHCDフラグメンテーション後にイオントラップ検出器において収集した。追加的に、MS2スペクトルは、CIDもしくはETDフラグメンテーション法、または、ペプチドのより大きなアミノ酸カバレッジを獲得するための3つの技法の任意の組み合わせのいずれかを用いて、取得することができる。MS2スペクトルはまた、Orbitrap検出器において高解像度質量精度で測定することもできる。
各解析由来のMS2スペクトルを、Comet61、62を用いてタンパク質データベースに対して検索し、ペプチド特定を、Percolator63~65を用いてスコア化する。PEAKS studio(Bioinformatics Solutions Inc.)及び他のサーチエンジンを用いてさらなるシークエンシングを行うか、またはスペクトルマッチング及びデノボシークエンシング75を含むシークエンシング法を用いることができる。
VI.B.1.総合的HLAペプチドシークエンシングのためのMS検出限界の研究
ペプチドYVYVADVAAK(SEQ ID NO:1)を用いて、何が検出の限界かを、LCカラム上にロードした様々な量のペプチドを用いて決定した。試験したペプチドの量は、1pmol、100fmol、10fmol、1fmol、及び100amolであった。(表1)結果を図1Fに示す。これらの結果は、検出の最低限界(LoD)がアトモルの範囲(10-18)にあること、ダイナミックレンジが5桁に及ぶこと、及び、シグナル対ノイズが、低いフェムトモル範囲(10-15)でシークエンシングに十分であるように見えることを示す。
Figure 0007217711000002
VII.提示モデル
VII.A.システムの概要
図2Aは、1つの実施形態にしたがう、患者におけるペプチド提示の尤度を特定するための環境100の概要である。環境100は、それ自体が提示情報記憶装置165を含む提示特定システム160を導入するコンテクストを提供する。
提示特定システム160は、図14に関して下記で議論されるようなコンピュータ計算システムにおいて具現化された、1つまたはコンピュータモデルであり、MHCアレルのセットに関連するペプチド配列を受け取り、ペプチド配列が、関連するMHCアレルのセットの1つ以上によって提示される尤度を決定する。提示特定システム160はクラスI及びクラスII MHCアレルの両方に適用することができる。これは、様々なコンテクストにおいて有用である。提示特定システム160の1つの具体的な用途の例は、患者110の腫瘍細胞由来のMHCアレルのセットに関連する新生抗原候補のヌクレオチド配列を受け取り、新生抗原候補が、腫瘍の関連するMHCアレルの1つ以上によって提示され、及び/または患者110の免疫系において免疫原性応答を誘導する尤度を決定することができることである。システム160によって決定された際に高い尤度を有するそれらの新生抗原候補を、ワクチン118における包含のために選択することができ、そのような抗腫瘍免疫応答が、腫瘍細胞を提供する患者110の免疫系から惹起され得る。
提示特定システム160は、1つ以上の提示モデルを通して提示尤度を決定する。具体的には、提示モデルは、所定のペプチド配列が、関連するMHCアレルのセットについて提示されるかどうかの尤度を生成し、尤度は、記憶装置165に保存された提示情報に基づいて生成される。例えば、提示モデルは、ペプチド配列「YVYVADVAAK(SEQ ID NO:1)」が、試料の細胞表面上のアレルのセットHLA-A*02:01、HLA-A*03:01、HLA-B*07:02、HLA-B*08:03、HLA-C*01:04について提示されるかどうかの尤度を生成し得る。提示情報165は、MHCアレルによってペプチドが提示されるようにこれらのペプチドが様々なタイプのMHCアレルに結合するかどうかについての情報を含有し、これは、モデルにおいて、ペプチド配列中のアミノ酸の位置に応じて決定される。提示モデルは、提示情報165に基づいて、認識されていないペプチド配列が、MHCアレルの関連するセットと結合して提示されるかどうかを予測することができる。上記に述べたように、提示モデルはクラスI及びクラスII MHCアレルの両方に適用することができる。
VII.B.提示情報
図2は、1つの実施形態にしたがう、提示情報を取得する方法を説明する。提示情報165は、2つの一般的部類の情報:アレル相互作用情報及びアレル非相互作用情報を含む。アレル相互作用情報は、MHCアレルのタイプに依存する、ペプチド配列の提示に影響を及ぼす情報を含む。アレル非相互作用情報は、MHCアレルのタイプに非依存的な、ペプチド配列の提示に影響を及ぼす情報を含む。
VII.B.1.アレル相互作用情報
アレル相互作用情報は、主として、ヒト、マウスなど由来の1つ以上の特定されたMHC分子によって提示されていることが公知である、特定されたペプチド配列を含む。注目すべきことに、これは、腫瘍試料から取得されたデータを含んでもよく、または含まなくてもよい。提示されたペプチド配列は、単一のMHCアレルを発現する細胞から特定されてもよい。この例において、提示されたペプチド配列は、概して、あらかじめ決定されたMHCアレルを発現するように操作されてその後合成タンパク質に曝露された単一アレル細胞株から収集される。MHCアレル上に提示されたペプチドは、酸溶出などの技法によって単離され、質量分析により特定される。図2Bは、あらかじめ決定されたMHCアレルHLA-DRB1*12:01上に提示された例示的なペプチド
Figure 0007217711000003
が単離され、質量分析により特定される、この例を示す。この状況においては、ペプチドが、単一のあらかじめ決定されたMHCタンパク質を発現するように操作された細胞を通して特定されるため、提示されたペプチドとそれが結合したMHCタンパク質との間の直接の関連が、決定的に既知である。
提示されたペプチド配列はまた、複数のMHCアレルを発現する細胞から収集されてもよい。典型的にヒトにおいては、6種類の異なるタイプのMHC I分子及び最大で12種類の異なるタイプのMHC II分子が細胞で発現している。そのような提示されたペプチド配列は、複数のあらかじめ決定されたMHCアレルを発現するように操作されている複数アレル細胞株から特定されてもよい。そのような提示されたペプチド配列はまた、正常組織試料または腫瘍組織試料のいずれかの、組織試料から特定されてもよい。この例において特に、MHC分子は、正常組織または腫瘍組織から免疫沈降させることができる。複数のMHCアレル上に提示されたペプチドは、同様に、酸溶出などの技法によって単離され、質量分析により特定されることができる。図2Cは、6種類の例示的なペプチド
Figure 0007217711000004
が、特定されたクラスI MHCアレルHLA-A*01:01、HLA-A*02:01、HLA-B*07:02、HLA-B*08:01、及びクラスII MHCアレルHLA-DRB1*10:01、HLA-DRB1:11:01上に提示されており、単離され、質量分析により特定される、この例を示す。単一アレル細胞株とは対照的に、結合したペプチドが、特定される前のMHC分子から単離されるため、提示されたペプチドとそれが結合したMHCタンパク質との間の直接の関連は、未知である可能性がある。
アレル相互作用情報はまた、ペプチド-MHC分子複合体の濃度、及びペプチドのイオン化効率の両方に依存する、質量分析イオン電流も含むことができる。イオン化効率は、配列依存性様式で、ペプチドごとに変動する。概して、イオン効率は、およそ2桁にわたってペプチドごとに変動し、他方、ペプチド-MHC複合体の濃度は、それよりも大きい範囲にわたって変動する。
アレル相互作用情報はまた、所定のMHCアレルと所定のペプチドとの間の結合親和性の測定値または予測値も含むことができる。1つ以上の親和性モデルが、そのような予測値を生成することができる(72,73,74)。例えば、図1Dに示した例に戻ると、提示情報165は、ペプチドYEMFNDKSF(SEQ ID NO:3)とクラスIアレルHLA-A01:01との間の1000nMの結合親和性予測値を含み得る。IC50>1000nMであるペプチドは、わずかしかMHCによって提示されず、より低いIC50値は、提示の確率を高める。提示情報165は、ペプチドKNFLENFIESOFIとクラスIIアレルHLA-DRB1:11:01との間の結合親和性予測値を含み得る。
アレル相互作用情報はまた、MHC複合体の安定性の測定値または予測値も含むことができる。1つ以上の安定性モデルが、そのような予測値を生成することができる。より安定なペプチド-MHC複合体(すなわち、より長い半減期を有する複合体)は、腫瘍細胞上、及びワクチン抗原に遭遇する抗原提示細胞上に高コピー数で提示される可能性がより高い。例えば、図2Cに示した例に戻ると、提示情報165は、クラスI分子HLA-A*01:01について1時間の半減期の安定性予測値を含み得る。提示情報165はクラスII分子HLA-DRB1:11:01の半減期の安定性予測値も含み得る。
アレル相互作用情報はまた、ペプチド-MHC複合体の形成反応の、測定されたかまたは予測された速度も含むことができる。より速い速度で形成する複合体は、高濃度で細胞表面上に提示される可能性がより高い。
アレル相互作用情報はまた、ペプチドの配列及び長さも含むことができる。MHCクラスI分子は典型的に、8~15ペプチドの長さを有するペプチドを提示することを好む。提示されたペプチドの60~80%は、長さ9を有する。MHCクラスII分子は一般的にペプチド6~30個の長さを有するペプチドを提示する傾向にある。
アレル相互作用情報はまた、新生抗原によりコードされるペプチド上のキナーゼ配列モチーフの存在、及び新生抗原によりコードされるペプチド上の特異的な翻訳後修飾の有無も含むことができる。キナーゼモチーフの存在は、MHC結合を増強または干渉し得る、翻訳後修飾の確率に影響を及ぼす。
アレル相互作用情報はまた、(RNA seq、質量分析、または他の方法によって測定されたかまたは予測された際の)翻訳後修飾のプロセスに関与するタンパク質、例えば、キナーゼの発現または活性レベルも含むことができる。
アレル相互作用情報はまた、質量分析プロテオミクスまたは他の手段によって評価された際の、特定のMHCアレルを発現する他の個体由来の細胞における、類似した配列を有するペプチドの提示の確率も含むことができる。
アレル相互作用情報はまた、問題の個体における特定のMHCアレルの発現レベル(例えば、RNA-seqまたは質量分析によって測定される)も含むことができる。高レベルで発現しているMHCアレルに最も強く結合するペプチドは、低レベルで発現しているMHCアレルに最も強く結合するペプチドよりも、提示される可能性がより高い。
アレル相互作用情報はまた、特定のMHCアレルを発現する他の個体における、特定のMHCアレルによる提示の、全体的な新生抗原によりコードされるペプチド配列非依存的確率も含むことができる。
アレル相互作用情報はまた、他の個体における同じファミリーの分子(例えば、HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)のMHCアレルによる提示の、全体的なペプチド配列に非依存的な確率も含むことができる。例えば、HLA-C分子は典型的に、HLA-AまたはHLA-B分子よりも低いレベルで発現しており、したがって、HLA-Cによるペプチドの提示は、HLA-AまたはHLA-B IIによる提示よりも先験的に確率が低い。別の例として、HLA-DPは一般的にHLA-DRまたはHLA-DQよりも低いレベルで発現されることから、HLA-DPによるペプチドの提示はHLA-DRまたはHLA-DQによる提示よりもより確率が低いものと推測される。
アレル相互作用情報はまた、特定のMHCアレルのタンパク質配列も含むことができる。
下記のセクションに列挙される任意のMHCアレル非相互作用情報もまた、MHCアレル相互作用情報としてモデル化することができる。
VII.B.2.アレル非相互作用情報
アレル非相互作用情報は、そのソースタンパク質配列内の、新生抗原によりコードされるペプチドに隣接するC末端側配列を含むことができる。MHC-Iでは、C末端側隣接配列は、ペプチドのプロテアソームプロセシングに影響を及ぼし得る。しかし、C末端側隣接配列は、ペプチドが小胞体に輸送され、細胞の表面上のMHCアレルと遭遇する前に、プロテアソームによってペプチドから切断される。その結果、MHC分子は、C末端側隣接配列についてのいかなる情報も受け取らず、したがって、C末端側隣接配列の効果は、MHCアレルタイプに応じて変動することができない。例えば、図2Cに示した例に戻ると、提示情報165は、ペプチドのソースタンパク質から特定された、提示されたペプチドFJIEJFOESS(SEQ ID NO:5)のC末端側隣接配列
Figure 0007217711000005
を含み得る。
アレル非相互作用情報はまた、mRNA定量測定値も含むことができる。例えば、mRNA定量データは、質量分析訓練データを提供する同じ試料について取得することができる。図13Gに関して後に記載するように、RNA発現は、ペプチド提示の強い予測因子であると特定された。一実施形態では、mRNA定量測定値は、ソフトウェアツールRSEMから特定される。RSEMソフトウェアツールの詳細な実行は、Bo Li and Colin N.Dewey.RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome.BMC Bioinformatics,12:323,August 2011で見出すことができる。一実施形態では、mRNA定量は、100万個のマップされたリードあたりの転写産物のキロ塩基あたりの断片の単位(FPKM)で測定される。
アレル非相互作用情報はまた、そのソースタンパク質配列内の、ペプチドに隣接するN末端側配列も含むことができる。
アレル非相互作用情報はペプチド配列のソース遺伝子も含むことができる。ソース遺伝子はペプチド配列のEnsemblタンパク質ファミリーとして定義することができる。他の例では、ソース遺伝子はペプチド配列のソースDNAまたはソースRNAとして定義することができる。ソース遺伝子は、例えば、タンパク質をコードするヌクレオチドのストリングとして表すか、またはその代わりに、特定のタンパク質をコードしていることが知られている既知のDNAまたはRNA配列の命名されたセットに基づいてよりカテゴリー化された形で表すことができる。別の例では、アレル非相互作用情報は、EnsemblまたはRefSeqのようなデータベースから抽出されたペプチド配列のソース転写産物もしくはアイソフォームまたは潜在的なソース転写産物もしくはアイソフォームのセットも含むことができる。
アレル非相互作用情報はまた、(RNA-seqまたは質量分析によって測定された際の)任意で、腫瘍細胞における対応するプロテアーゼの発現にしたがって重み付けされる、ペプチドにおけるプロテアーゼ切断モチーフの存在も含むことができる。プロテアーゼ切断モチーフを含有するペプチドは、プロテアーゼによってより容易に分解され、したがって細胞内で安定性がより低いことになるため、提示される可能性がより低い。
アレル非相互作用情報はまた、適切な細胞タイプにおいて測定された際の、ソースタンパク質の代謝回転速度も含むことができる。より速い代謝回転速度(すなわち、より低い半減期)は提示の確率を高めるが、類似していない細胞タイプにおいて測定された場合、この特性の予測力は低い。
アレル非相互作用情報はまた、RNA-seqもしくはプロテオーム質量分析によって測定された際、または、DNAもしくはRNA配列データにおいて検出される生殖細胞系列もしくは体細胞性スプライシング変異のアノテーションから予測された際の、任意で、腫瘍細胞において最も高発現している特異的なスプライス変異体(「アイソフォーム」)を考慮する、ソースタンパク質の長さも含むことができる。
アレル非相互作用情報はまた、(RNA-seq、プロテオーム質量分析、または免疫組織化学によって測定され得る)腫瘍細胞におけるプロテアソーム、イムノプロテアソーム、胸腺プロテアソーム、または他のプロテアーゼの発現のレベルも含むことができる。異なるプロテアソームは、異なる切断部位の好みを有する。その発現レベルに比例して、より大きい重みが、プロテアソームの各タイプの切断の好みに与えられる。
アレル非相互作用情報はまた、(例えば、RNA-seqまたは質量分析によって測定された際の)ペプチドのソース遺伝子の発現も含むことができる。可能な最適化は、腫瘍試料内の間質細胞及び腫瘍浸潤リンパ球の存在を説明する、測定された発現を調整することを含む。より高発現している遺伝子由来のペプチドは、提示される可能性がより高い。検出不可能なレベルの発現を有する遺伝子由来のペプチドは、考察から排除することができる。
アレル非相互作用情報はまた、新生抗原によりコードされるペプチドのソースmRNAが、ナンセンス変異依存分解機構のモデル、例えば、Rivas et al,Science 2015からのモデルによって予測されるようなナンセンス変異依存分解機構に供される確率も含むことができる。
アレル非相互作用情報はまた、細胞周期の種々の段階の最中の、ペプチドのソース遺伝子の典型的な組織特異的発現も含むことができる。(RNA-seqまたは試料分析プロテオミクスによって測定された際に)全体的に低いレベルで発現しているが、細胞周期の特異的な段階の最中に高レベルで発現していることが公知である遺伝子は、非常に低いレベルで安定に発現している遺伝子よりも、より提示されるペプチドを産生する可能性が高い。
アレル非相互作用情報はまた、例えば、uniProtまたはPDB http://www.rcsb.org/pdb/home/home.doにおいて与えられるような、ソースタンパク質の特性の総合的なカタログも含むことができる。これらの特性は、とりわけ、タンパク質の二次構造及び三次構造、細胞内局在化11、遺伝子オントロジー(GO)用語を含み得る。具体的には、この情報は、タンパク質のレベルで作用するアノテーション、例えば、5’UTR長、及び特異的残基のレベルで作用するアノテーション、例えば、残基300~310のヘリックスモチーフを含有し得る。これらの特性はまた、ターンモチーフ、シートモチーフ、及び無秩序残基も含むことができる。
アレル非相互作用情報はまた、ペプチドを含有するソースタンパク質のドメインの性状を説明する特性、例えば、二次構造または三次構造(例えば、αヘリックス対βシート);選択的スプライシングも含むことができる。
アレル非相互作用情報はまた、ペプチドのソースタンパク質におけるペプチドの位置での提示ホットスポットの有無を説明する特性も含むことができる。
アレル非相互作用情報はまた、他の個体における問題のペプチドのソースタンパク質由来のペプチドの提示の確率(それらの個体におけるソースタンパク質の発現レベル、及びそれらの個体の様々なHLAタイプの影響を調整した後)も含むことができる。
アレル非相互作用情報はまた、ペプチドが、技術的バイアスのために質量分析によって検出されないか、または過剰に表される確率も含むことができる。
腫瘍細胞、間質、または腫瘍浸潤リンパ球(TIL)の状態について情報を与える、RNASeq、マイクロアレイ、Nanostringなどの標的化パネルなどの、遺伝子発現アッセイ、または、RT-PCRなどのアッセイによって測定される遺伝子モジュールを代表する単一/複数遺伝子によって測定された際の、種々の遺伝子モジュール/経路の発現(ペプチドのソースタンパク質を含有する必要はない)。
アレル非相互作用情報はまた、腫瘍細胞におけるペプチドのソース遺伝子のコピー数も含むことができる。例えば、腫瘍細胞においてホモ接合性欠失に供される遺伝子由来のペプチドは、提示確率=ゼロを割り当てることができる。
アレル非相互作用情報はまた、ペプチドがTAPに結合する確率、または、測定されたかもしくは予測された、TAPに対するペプチドの結合親和性も含むことができる。TAPに結合する可能性がより高いペプチド、またはより高い親和性でTAPに結合するペプチドは、MHC-Iによって提示される可能性がより高い。
アレル非相互作用情報はまた、(RNA-seq、プロテオーム質量分析、免疫組織化学によって測定され得る)腫瘍細胞におけるTAPの発現レベルも含むことができる。MHC-Iでは、より高いTAP発現レベルは、すべてのペプチドの提示の確率を高める。
アレル非相互作用情報はまた、以下を含むがそれらに限定されない、腫瘍変異の有無も含むことができる:
i.EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3などの公知のがんドライバー遺伝子におけるドライバー変異。
ii.抗原提示機構に関与するタンパク質をコードする遺伝子(例えば、B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)におけるもの。その提示が、腫瘍において機能喪失変異の影響下にある抗原提示機構の構成要素に依拠するペプチドは、提示の確率が低減している。
以下を含むがそれらに限定されない、機能的生殖細胞系列多型の有無:
i.抗原提示機構に関与するタンパク質をコードする遺伝子(例えば、B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5、または、プロテアソームもしくはイムノプロテアソームの構成要素をコードする遺伝子のいずれか)におけるもの。
アレル非相互作用情報はまた、腫瘍タイプ(例えば、NSCLC、黒色腫)も含むことができる。
アレル非相互作用情報はまた、例としてHLAアレル接尾辞によって反映されるような、HLAアレルの公知の機能性も含むことができる。例えば、アレル名HLA-A*24:09NにおけるNの接尾辞は、発現せず、したがってエピトープを提示する可能性が低いヌルアレルを示し;完全なHLAアレル接尾辞の命名法は、https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.htmlに記載されている。
アレル非相互作用情報はまた、臨床的腫瘍サブタイプ(例えば、扁平上皮肺癌対非扁平上皮)も含むことができる。
アレル非相互作用情報はまた、喫煙歴も含むことができる。
アレル非相互作用情報はまた、日焼け、日光曝露、または他の変異原に対する曝露の経歴も含むことができる。
アレル非相互作用情報はまた、任意でドライバー変異によって層別化される、関連性のある腫瘍タイプまたは臨床的サブタイプにおけるペプチドのソース遺伝子の局部的発現も含むことができる。関連性のある腫瘍タイプにおいて典型的に高レベルで発現している遺伝子は、提示される可能性がより高い。
アレル非相互作用情報はまた、すべての腫瘍における、または同じタイプの腫瘍における、または少なくとも1つの共有されたMHCアレルを有する個体由来の腫瘍における、または少なくとも1つの共有されたMHCアレルを有する個体中の同じタイプの腫瘍における、変異の頻度も含むことができる。
変異した腫瘍特異的ペプチドの例において、提示確率を予測するために使用される特性の一覧はまた、変異のアノテーション(例えば、ミスセンス、リードスルー、フレームシフト、融合など)、または、変異がナンセンス変異依存分解機構(NMD)を結果としてもたらすと予測されるかどうかも含み得る。例えば、ホモ接合性早期終止変異のために腫瘍細胞において翻訳されないタンパク質セグメント由来のペプチドは、提示確率=ゼロを割り当てることができる。NMDは、提示確率を低下させる、mRNA翻訳の減少を結果としてもたらす。
VII.C.提示特定システム
図3は、1つの実施形態による、提示特定システム160のコンピュータ論理構成要素を説明する、ハイレベルブロック図である。この例示的実施形態において、提示特定システム160は、データ管理モジュール312、エンコーディングモジュール314、訓練モジュール316、及び予測モジュール320を含む。提示特定システム160はまた、訓練データ記憶装置170及び提示モデル記憶装置175から構成される。モデル管理システム160のいくつかの実施形態は、本明細書に記載したものとは異なるモジュールを有する。同様に、機能は、本明細書に記載したものは異なる様式で、モジュールの間に分配され得る。
VII.C.1.データ管理モジュール
データ管理モジュール312は、提示情報165から訓練データ170のセットを生成する。各々の訓練データのセットは、複数のデータインスタンスを含有し、各データインスタンスiは、少なくとも、提示されるかまたは提示されないペプチド配列pと、ペプチド配列pと結合する1つ以上の関連するMHCアレルaと、提示特定システム160が、独立変数の新たな値を予測することに関与するという情報を表す従属変数yとを含む、独立変数zのセットを含有する。
本明細書の残りの部分を通じて言及される1つの特定の実現形態において、従属変数yは、ペプチドpが1つ以上の関連するMHCアレルaによって提示されたかどうかを示す、バイナリーラベルである。しかし、他の実現形態において、従属変数yは、提示特定システム160が、独立変数zに依存して予測することに関与するという任意の他の種類の情報を表し得ることが、認識される。例えば、別の実現形態において、従属変数yは、データインスタンスについて特定された質量分析イオン電流を示す数値であってもよい。
データインスタンスiについてのペプチド配列pは、k個のアミノ酸の配列であり、kは、データインスタンスiの間で、ある範囲内で変動し得る。例えば、その範囲は、MHCクラスIについては8~15、またはMHCクラスIIについては6~30であり得る。システム160の1つの具体的な実現形態において、訓練データセット中のすべてのペプチド配列pは、同じ長さ、例えば9を有し得る。ペプチド配列中のアミノ酸の数は、MHCアレルのタイプ(例えば、ヒトにおけるMHCアレルなど)に応じて変動し得る。データインスタンスiについてのMHCアレルaは、どのMHCアレルが対応するペプチド配列pと結合して存在したかを示す。
データ管理モジュール312はまた、訓練データ170に含有されるペプチド配列p及び結合したMHCアレルaと共に、結合親和性b及び安定性sの予測値などの追加的なアレル相互作用変数も含み得る。例えば、訓練データ170は、ペプチドpと、aにおいて示される結合したMHC分子の各々との間の結合親和性予測値bを含有し得る。別の例として、訓練データ170は、aにおいて示されるMHCアレルの各々についての安定性予測値sを含有し得る。
データ管理モジュール312はまた、ペプチド配列pと共に、C末端側隣接配列及びmRNA定量測定値などのアレル非相互作用変数wも含み得る。
データ管理モジュール312はまた、MHCアレルによって提示されないペプチド配列も特定して、訓練データ170を生成する。概して、これは、提示の前に、提示されるペプチド配列を含むソースタンパク質の「より長い」配列を特定することを含む。提示情報が、操作された細胞株を含有する場合、データ管理モジュール312は、細胞に曝露した合成タンパク質における、細胞のMHCアレル上に提示されなかった一連のペプチド配列を特定する。提示情報が組織試料を含有する場合、データ管理モジュール312は、提示されたペプチド配列の起源であるソースタンパク質を特定して、ソースタンパク質における、組織試料細胞のMHCアレル上に提示されなかった一連のペプチド配列を特定する。
データ管理モジュール312はまた、ランダムなアミノ酸配列を有するペプチドを人工的に生成し、生成された配列を、MHCアレル上に提示されないペプチドとして特定する。これは、ペプチド配列をランダムに生成することによって達成することができ、MHCアレル上に提示されないペプチドについての多量の合成データをデータ管理モジュール312が容易に生成することを可能にする。実際には、小さなパーセンテージのペプチド配列はMHCアレルによって提示されるため、合成で生成されたペプチド配列は、たとえそれらが細胞によってプロセシングされたタンパク質に含まれたとしても、MHCアレルによって提示されない可能性が非常に高い。
図4は、1つの実施形態による、訓練データ170Aの例示的なセットを説明する。具体的には、訓練データ170Aにおける最初の3つのデータインスタンスは、アレルHLA-C*01:03を含む単一アレル細胞株、ならびに3種類のペプチド配列
Figure 0007217711000006
からのペプチド提示情報を示す。訓練データ170Aにおける4番目のデータインスタンスは、アレルHLA-B*07:02、HLA-C*01:03、HLA-A*01:01を含む複数アレル細胞株、及びペプチド配列QIEJOEIJE(SEQ ID NO:13)からのペプチド情報を示す。最初のデータインスタンスは、ペプチド配列QCEIOWARE(SEQ ID NO:10)が、アレルHLA-DRB3:01:01によって提示されなかったことを示す。前の2つの段落において議論したように、ネガティブなラベルを付けられれたペプチド配列は、データ管理モジュール312によってランダムに生成されてもよいし、提示されるペプチドのソースタンパク質から特定されてもよい。訓練データ170Aはまた、ペプチド配列-アレルのペアについて、1000nMの結合親和性予測値及び1時間の半減期の安定性予測値も含む。訓練データ170Aはまた、ペプチド
Figure 0007217711000007
のC末端側隣接配列、及び10TPMのmRNA定量測定値などの、アレル非相互作用変数も含む。4番目のデータインスタンスは、ペプチド配列QIEJOEIJE(SEQ ID NO:13)が、アレルHLA-B*07:02、HLA-C*01:03、またはHLA-A*01:01のうちの1つによって提示されたことを示す。訓練データ170Aはまた、アレルの各々についての結合親和性予測値及び安定性予測値、ならびに、ペプチドのC末端側隣接配列及びペプチドについてのmRNA定量測定値も含む。
VII.C.2.エンコーディングモジュール
エンコーディングモジュール314は、訓練データ170に含有される情報を、1つ以上の提示モデルを生成するために使用することができる数値的表示へとエンコードする。一実現形態では、エンコーディングモジュール314は、配列(例えば、ペプチド配列またはC末端側隣接配列)を、あらかじめ決定された20文字のアミノ酸アルファベットについて、ワンホットでエンコードする。具体的には、k個のアミノ酸を有するペプチド配列pは、20・k要素の行ベクトルとして表され、ペプチド配列のj番目の位置のアミノ酸のアルファベットに対応するp 20・(j-1)+1,p 20・(j-1)+2,...,p 20・jの中の単一要素は、1の値を有する。その以外の、残りの要素は、0の値を有する。例として、所定のアルファベット{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}について、データインスタンスiの3個のアミノ酸のペプチド配列EAFは、60個の要素の行ベクトル
Figure 0007217711000008
によって表され得る。C末端側隣接配列c、ならびに、MHCアレルについてのタンパク質配列d、及び提示情報における他の配列データは、同様に、上記のようにエンコードすることができる。
訓練データ170が、異なる長さのアミノ酸の配列を含有する場合、エンコーディングモジュール314は、さらに、あらかじめ決定されたアルファベットを拡張するようにPAD文字を追加することによって、ペプチドを同等の長さのベクトルへとエンコードし得る。例えば、これは、ペプチド配列の長さが、訓練データ170において最大の長さを有するペプチド配列に達するまで、ペプチド配列をPAD文字でレフトパディングすることによって行われ得る。したがって、最大の長さを有するペプチド配列がk最大個のアミノ酸を有する場合、エンコーディングモジュール314は、各配列を、(20+1)・k最大個の要素の行ベクトルとして数値的に表す。例として、拡張されたアルファベット{PAD,A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}及びk最大=5の最大アミノ酸長について、3個のアミノ酸の同じ例示的なペプチド配列EAFは、105要素の行ベクトル
Figure 0007217711000009
によって表され得る。C末端側隣接配列cまたは他の配列データは、同様に、上記のようにエンコードすることができる。したがって、ペプチド配列pまたはcにおける各々の独立変数または列は、配列の特定の位置の特定のアミノ酸の存在を表す。
配列データをエンコードする上記の方法は、アミノ酸配列を有する配列に関して記載したが、方法を、同様に、例えば、DNAまたはRNAの配列データなどの、他のタイプの配列データに拡張することができる。
エンコーディングモジュール314はまた、データインスタンスiについての1つ以上のMHCアレルaを、m要素の行ベクトルへとエンコードし、各要素h=1,2,...,mは、ユニークな特定されたMHCアレルに対応する。データインスタンスiについて特定されたMHCアレルに対応する要素は、1の値を有する。その以外の、残りの要素は、0の値を有する。例として、m=4のユニークな特定されたMHCアレルタイプ{HLA-A*01:01,HLA-C*01:08,HLA-B*07:02,HLA-DRB1*10:01}の中の、複数アレル細胞株に対応するデータインスタンスiについてのアレルHLA-B*07:02及びHLA-DRB1*10:01は、4要素の行ベクトルa=[0 0 1 1]によって表され得、a =1及びa =1である。4種類の特定されたMHCアレルタイプでの例を、本明細書に記載するが、MHCアレルタイプの数は、実際には数百または数千であることができる。上記で述べたように、各データインスタンスiは、典型的に、ペプチド配列pに関連して最大で6種類の異なるMHCクラスIアレルタイプを、及び/またはペプチド配列pに関連して最大で4種類の異なるMHCクラスII DRアレルタイプを、及び/またはペプチド配列pに関連して最大で12種類の異なるMHCクラスIIアレルタイプを含む。
エンコーディングモジュール314はまた、各データインスタンスiについてのラベルyを、{0,1}のセットからの値を有するバイナリー変数としてエンコードし、1の値は、ペプチドxが、関連するMHCアレルaのうちの1つによって提示されたことを示し、0の値は、ペプチドxが、関連するMHCアレルaのいずれによっても提示されなかったことを示す。従属変数yが、質量分析イオン電流を表す場合、エンコーディングモジュール314は、[0,∞]の間のイオン電流値について[-∞,∞]の範囲を有するlog関数などの種々の関数を用いて、値を追加的にスケール調整し得る。
エンコーディングモジュール314は、ペプチドp及び関連するMHCアレルhについてのアレル相互作用変数x のペアを、アレル相互作用変数の数値的表示が次々に連結されている行ベクトルとして表し得る。例えば、エンコーディングモジュール314は、x を、[p]、[p ]、[p ]、または[p ]と同等の行ベクトルとして表し得、b は、ペプチドpi及び関連するMHCアレルhについての結合親和性予測値であり、同様に、s は、安定性についてのものである。あるいは、アレル相互作用変数の1つ以上の組み合わせは、個々に(例えば、個々のベクトルまたは行列として)保存されてもよい。
1つの例において、エンコーディングモジュール314は、結合親和性について測定されたかまたは予測された値をアレル相互作用変数x に組み入れることによって、結合親和性情報を表す。
1つの例において、エンコーディングモジュール314は、結合安定性について測定されたかまたは予測された値をアレル相互作用変数x に組み入れることによって、結合安定性情報を表す。
1つの例において、エンコーディングモジュール314は、結合オンレートについて測定されたかまたは予測された値をアレル相互作用変数x に組み入れることによって、結合オンレート情報を表す。
1つの例において、クラスI MHC分子によって提示されるペプチドについて、エンコーディングモジュール314はペプチド長をベクトル
Figure 0007217711000010
(ここで、
Figure 0007217711000011
は指標関数であり、Lはペプチドpの長さを意味する)として表す。ベクトルTを、アレル相互作用変数x に含めることができる。別の例では、クラスIIのMHC分子によって提示されるペプチドについて、エンコーディングモジュール314はペプチド長をベクトル
Figure 0007217711000012
(ここで、
Figure 0007217711000013
は指標関数であり、Lはペプチドpの長さを意味する)として表す。ベクトルTを、アレル相互作用変数x に含めることができる。
1つの例において、エンコーディングモジュール314は、MHCアレルのRNA-seqベースの発現レベルをアレル相互作用変数xhiに組み入れることによって、MHCアレルのRNA発現情報を表す。
同様に、エンコーディングモジュール314は、アレル非相互作用変数wを、アレル非相互作用変数の数値的表示が次々に連鎖している行ベクトルとして表し得る。例えば、wは、[c]または[c]と同等の行ベクトルであってもよく、wは、ペプチドpiのC末端側隣接配列及びペプチドに関連するmRNA定量測定値mに加えて任意の他のアレル非相互作用変数を表す、行ベクトルである。あるいは、アレル非相互作用変数の1つ以上の組み合わせは、個々に(例えば、個々のベクトルまたは行列として)保存されてもよい。
1つの例において、エンコーディングモジュール314は、代謝回転速度または半減期をアレル非相互作用変数wに組み入れることによって、ペプチド配列についてのソースタンパク質の代謝回転速度を表す。
1つの例において、エンコーディングモジュール314は、タンパク質長をアレル非相互作用変数wに組み入れることによって、ソースタンパク質またはアイソフォームの長さを表す。
1つの例において、エンコーディングモジュール314は、β1、β2、β5サブユニットを含むイムノプロテアソーム特異的プロテアソームサブユニットの平均発現を、アレル非相互作用変数wに組み入れることによって、イムノプロテアソームの活性化を表す。
1つの例において、エンコーディングモジュール314は、(RSEMなどの技法によってFPKM、TPMの単位で定量された)ペプチド、またはペプチドの遺伝子もしくは転写産物のソースタンパク質のRNA-seq存在量を、ソースタンパク質の存在量をアレル非相互作用変数wに組み入れることによって表す。
1つの例において、エンコーディングモジュール314は、例えば、Rivas et.al.Science,2015におけるモデルによって推定されるような、ペプチドの起源の転写産物がナンセンス変異依存分解機構(NMD)を受ける確率を、この確率をアレル非相互作用変数wに組み入れることによって表す。
1つの例において、エンコーディングモジュール314は、RNA-seqを介して評価された遺伝子モジュールまたは経路の活性化状況を、例えば、経路における遺伝子の各々について、例えばRSEMを用いてTPMの単位で、経路における遺伝子の発現を定量すること、次いで、経路における遺伝子にわたる要約統計量、例えば平均値をコンピュータ計算することによって表す。平均を、アレル非相互作用変数wに組み入れることができる。
1つの例において、エンコーディングモジュール314は、ソース遺伝子のコピー数を、コピー数をアレル非相互作用変数wに組み入れることによって表す。
1つの例において、エンコーディングモジュール314は、(例えば、ナノモル単位での)測定されたかまたは予測されたTAP結合親和性をアレル非相互作用変数wに含むことによって、TAP結合親和性を表す。
1つの例において、エンコーディングモジュール314は、RNA-seqによって測定され(かつ、例えばRSEMによってTPMの単位で定量された)TAP発現レベルをアレル非相互作用変数wに含むことによって、TAP発現レベルを表す。
1つの例において、エンコーディングモジュール314は、腫瘍変異を、アレル非相互作用変数wにおける指標変数のベクトル(すなわち、ペプチドpがKRAS G12D変異を有する試料に由来するならばd=1、それ以外は0)として表す。
1つの例において、エンコーディングモジュール314は、抗原提示遺伝子における生殖細胞系列多型を、指標変数のベクトル(すなわち、ペプチドpがTAPにおいて特異的な生殖細胞系列多型を有する試料に由来するならばd=1)として表す。
これらの指標変数を、アレル非相互作用変数wに含めることができる。
1つの例において、エンコーディングモジュール314は、腫瘍タイプを、腫瘍タイプ(例えば、NSCLC、黒色腫、大腸癌など)のアルファベットについての長さ1のワンホットエンコードされたベクトルとして表す。これらのワンホットエンコードされた変数を、アレル非相互作用変数wに含めることができる。
1つの例において、エンコーディングモジュール314は、MHCアレル接尾辞を、4桁のHLAアレルを様々な接尾辞で処理することによって表す。例えば、HLA-A*24:09Nは、モデルの目的で、HLA-A*24:09とは異なるアレルと考えられる。あるいは、N接尾辞で終わるHLAアレルは発現しないため、N接尾辞のMHCアレルによる提示の確率は、すべてのペプチドについてゼロに設定することができる。
1つの例において、エンコーディングモジュール314は、腫瘍サブタイプを、腫瘍サブタイプ(例えば、肺腺癌、肺扁平上皮細胞癌など)のアルファベットについての長さ1のワンホットエンコードされたベクトルとして表す。これらのワンホットエンコードされた変数を、アレル非相互作用変数wに含めることができる。
1つの例において、エンコーディングモジュール314は、喫煙歴を、アレル非相互作用変数wに含めることができる、バイナリー指標変数(患者が喫煙歴を有するならばd=1、それ以外は0)として表す。あるいは、喫煙歴を、喫煙の重症度のアルファベットについての長さ1のワンホットエンコードされた変数としてエンコードすることができる。例えば、喫煙状況を、1が非喫煙者を示し、5が現在の大量喫煙者を示す、1~5のスケールに査定することができる。喫煙歴は、主として肺腫瘍と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が喫煙の経歴を有し、かつ腫瘍タイプが肺腫瘍であるならば1と同等であり、それ以外はゼロであると定義することもできる。
1つの例において、エンコーディングモジュール314は、日焼け歴を、アレル非相互作用変数wに含めることができる、バイナリー指標変数(患者が重症の日焼けの経歴を有するならばd=1、それ以外は0)として表す。重症の日焼けは、主として黒色腫と関連性があるため、複数の腫瘍タイプに対するモデルを訓練する場合、この変数は、患者が重症の日焼けの経歴を有し、かつ腫瘍タイプが黒色腫であるならば1と同等であり、それ以外はゼロであると定義することもできる。
1つの例において、エンコーディングモジュール314は、ヒトゲノムにおける各遺伝子または転写産物についての特定の遺伝子または転写産物の発現レベルの分布を、TCGAなどの参照データベースを用いることによって、発現レベルの分布の要約統計量(例えば、平均値、中央値)として表す。具体的には、腫瘍タイプ黒色腫を有する試料におけるペプチドpについて、ペプチドpの起源の遺伝子または転写産物の、測定された遺伝子または転写産物の発現レベルをアレル非相互作用変数wに含むことができるだけでなく、TCGAによって測定された際の、黒色腫におけるペプチドpの起源の遺伝子または転写産物の、平均値及び/または中央値の遺伝子または転写産物発現も含むことができる。
1つの例において、エンコーディングモジュール314は、変異タイプを、変異タイプ(例えば、ミスセンス、フレームシフト、NMD誘導性など)のアルファベットについての長さ1のワンホットエンコードされた変数として表す。これらのワンホットエンコードされた変数を、アレル非相互作用変数wに含めることができる。
1つの例において、エンコーディングモジュール314は、タンパク質のタンパク質レベルの特性を、ソースタンパク質のアノテーション(例えば、5’UTR長)の値として、アレル非相互作用変数wにおいて表す。別の例において、エンコーディングモジュール314は、ペプチドpiについてのソースタンパク質の残基レベルのアノテーションを、ペプチドpiがヘリックスモチーフとオーバーラップするならば1と同等であり、それ以外は0であるか、または、ペプチドpiがヘリックスモチーフ内に完全に含有されるならば1と同等である指標変数を、アレル非相互作用変数wiに含むことによって表す。別の例において、ヘリックスモチーフアノテーション内に含有されるペプチドpiにおける残基の割合を表す特性を、アレル非相互作用変数wに含めることができる。
1つの例において、エンコーディングモジュール314は、ヒトプロテオームにおけるタンパク質またはアイソフォームのタイプを、ヒトプロテオームにおけるタンパク質またはアイソフォームの数と同等の長さを有する指標ベクトルoとして表し、対応する要素o は、ペプチドpがタンパク質iに由来するならば1であり、それ以外は0である。
1つの例において、エンコーディングモジュール314は、ペプチドpのソース遺伝子G=gene(p)をL個の可能なカテゴリーを有するカテゴリー変数として表す(ただし、Lは添え字を付したソース遺伝子の数の上限1,2,...,Lを示す)。
エンコーディングモジュール314はまた、ペプチドp及び関連するMHCアレルhについての変数zの全体的なセットを、アレル相互作用変数x及びアレル非相互作用変数wの数値的表示が次々に連鎖している行ベクトルとしても表し得る。例えば、エンコーディングモジュール314は、z を、[x ]または[w ]と同等の行ベクトルとして表し得る。
VIII.訓練モジュール
訓練モジュール316は、ペプチド配列に関連するMHCアレルによってペプチド配列が提示されるかどうかの尤度を生成する、1つ以上の提示モデルを構築する。具体的には、ペプチド配列p及びペプチド配列pに関連するMHCアレルaのセットを与えられ、各提示モデルは、ペプチド配列pが、関連するMHCアレルaのうちの1つ以上によって提示される尤度を示す、推定値uを生成する。
VIII.A.概要
訓練モジュール316は、165に保存された提示情報から生成された、記憶装置170に保存された訓練データセットに基づいて、1つ以上の提示モデルを構築する。概して、提示モデルの具体的なタイプに関わらず、提示モデルのすべては、損失関数が最小化されるように、訓練データ170における独立変数と従属変数との間の依存性を捕捉する。具体的には、損失関数(yi∈S,ui∈S;θ)は、訓練データ170における1つ以上のデータインスタンスSについての従属変数yi∈Sの値と、提示モデルによって生成されたデータインスタンスSについての推定された尤度ui∈Sとの間の矛盾を表す。本明細書の残りの部分を通じて言及される1つの特定の実現形態において、損失関数(yi∈S,ui∈S;θ)は、以下の等式(1a)によって与えられる負のlog尤度関数である。
Figure 0007217711000014
しかし、実際には、別の損失関数が使用されてもよい。例えば、質量分析イオン電流について予測がなされる場合、損失関数は、以下の等式1bによって与えられる平均二乗損失である。
Figure 0007217711000015
提示モデルは、1つまたは複数のパラメータθが、独立変数と従属変数との間の依存性を数学的に明記する、パラメトリックモデルであり得る。典型的に、損失関数(yi∈S,ui∈S;θ)を最小化するパラメトリックタイプの提示モデルの種々のパラメータは、例えば、バッチ勾配アルゴリズム、確率的勾配アルゴリズムなどの、勾配ベースの数値的最適化アルゴリズムを通して決定される。あるいは、提示モデルは、モデル構造が、訓練データ170から決定され、固定されたパラメータのセットに厳密には基づかない、ノンパラメトリックモデルであり得る。
VIII.B.アレルごとのモデル
訓練モジュール316は、アレルごとベースでペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール316は、単一のMHCアレルを発現する細胞から生成された訓練データ170におけるデータインスタンスSに基づいて、提示モデルを訓練し得る。
一実現形態では、訓練モジュール316は、特定のアレルhについてのペプチドpの推定提示尤度uを、
Figure 0007217711000016
によってモデル化し、式中、ペプチド配列x は、ペプチドp及び対応するMHCアレルhについてのエンコードされたアレル相互作用変数を意味し、f(・)は、任意の関数であり、記載の便宜上、本明細書中を通して変換関数と呼ばれる。さらに、g(・)は、任意の関数であり、記載の便宜上、本明細書中を通して依存性関数と呼ばれ、MHCアレルhについて決定されたパラメータθのセットに基づいて、アレル相互作用変数x についての依存性スコアを生成する。各MHCアレルhについてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、ここでiは、単一のMHCアレルhを発現する細胞から生成された訓練データ170のサブセットSにおける各インスタンスである。
依存性関数g(x ;θ)の出力は、MHCアレルhが、少なくともアレル相互作用特性x に基づいて、及び特に、ペプチドpのペプチド配列のアミノ酸の位置に基づいて、対応する新生抗原を提示するかどうかを示す、MHCアレルhについての依存性スコアを表す。例えば、MHCアレルhについての依存性スコアは、MHCアレルhが、ペプチドpを提示する可能性が高い場合に、高い値を有し得、提示の可能性が高くない場合に、低い値を有し得る。変換関数f(・)は、入力を変換し、より具体的には、この例においてg(x ;θ)によって生成された依存性スコアを、ペプチドpがMHCアレルによって提示される尤度を示す適切な値に変換する。
本明細書の残りの部分を通じて言及される1つの特定の実現形態において、f(・)は、適切なドメイン範囲について[0,1]内の範囲を有する関数である。1つの例において、f(・)は、
Figure 0007217711000017
によって与えられるexpit関数である。
別の例として、f(・)はまた、ドメインzの値が0以上である場合、
Figure 0007217711000018
によって与えられる双曲線正接関数であることもできる。あるいは、予測が、範囲[0,1]の外側の値を有する質量分析イオン電流についてなされる場合、f(・)は、例えば、恒等関数、指数関数、log関数などの任意の関数であることができる。
したがって、ペプチド配列pがMHCアレルhによって提示されるアレルごとの尤度は、MHCアレルhについての依存性関数g(・)をペプチド配列pのエンコードされたバージョンに適用して、対応する依存性スコアを生成することによって、生成することができる。依存性スコアは、ペプチド配列pがMHCアレルhによって提示されるアレルごとの尤度を生成するように、変換関数f(・)によって変換されてもよい。
VIII.B.1 アレル相互作用変数についての依存性関数
本明細書を通して言及される1つの特定の実現形態において、依存性関数g(・)は、x における各アレル相互作用変数を、関連するMHCアレルhについて決定されたパラメータθのセットにおける対応するパラメータと線形結合する、
Figure 0007217711000019
によって与えられるアフィン関数である。
本明細書を通して言及される別の特定の実現形態において、依存性関数g(・)は、1つ以上の層において配置された一連のノードを有するネットワークモデルNN(・)によって表される、
Figure 0007217711000020
によって与えられるネットワーク関数である。ノードは、パラメータθのセットにおける関連するパラメータを各々有する接続を通して、他のノードに接続され得る。1つの特定のノードでの値は、特定のノードに関連する活性化関数によってマッピングされた関連するパラメータによって重み付けられた、特定のノードに接続されたノードの値の和として表され得る。アフィン関数と対照的に、ネットワークモデルは、提示モデルが非線形性、及び異なる長さのアミノ酸配列を有するプロセスデータを組み入れることができるため、有利である。具体的には、非線形モデリングを通して、ネットワークモデルは、ペプチド配列中の異なる位置のアミノ酸間の相互作用、及びこの相互作用がペプチド提示にいかに影響を及ぼすかを捕捉することができる。
概して、ネットワークモデルNN(・)は、人工ニューラルネットワーク(ANN)、畳み込みニューラルネットワーク(CNN)、深層ニューラルネットワーク(DNN)などのフィードフォワードネットワーク、及び/または、長・短期記憶ネットワーク(LSTM)、双方向再帰型ネットワーク、深層双方向再帰型ネットワークなどの再帰型ネットワークなどとして、構造化され得る。
本明細書の残りの部分を通じて言及される1つの例において、h=1,2,...,mにおける各MHCアレルは、別々のネットワークモデルに関連し、NN(・)は、MHCアレルhに関連するネットワークモデルからの出力を意味する。
図5は、任意のMHCアレルh=3に関連した例示的なネットワークモデルNN(・)を説明する。図5に示すように、MHCアレルh=3についてのネットワークモデルNN(・)は、層l=1での3種類の入力ノード、層l=2での4種類のノード、層l=3での2種類のノード、及び層l=4での1種類の出力ノードを含む。ネットワークモデルNN(・)は、10種類のパラメータθ(1),θ(2),...,θ(10)のセットに関連している。ネットワークモデルNN(・)は、MHCアレルh=3についての3種類のアレル相互作用変数x (1)、x (2)、及びx (3)についての入力値(エンコードされたポリペプチド配列データ及び使用される任意の他の訓練データを含む、個々のデータインスタンス)を受け取り、値NN(x )を出力する。ネットワーク関数は、異なるアレル相互作用変数をそれぞれが入力として取る1つ以上のネットワークモデルを含んでもよい。
別の例において、特定されたMHCアレルh=1,2,...,mは、単一ネットワークモデルNN(・)に関連しており、NN(・)は、MHCアレルhに関連する単一ネットワークモデルの1つ以上の出力を意味する。そのような例において、パラメータθのセットは、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθのセットは、すべてのMHCアレルによって共有され得る。
図6Aは、MHCアレルh=1,2,...,mによって共有される例示的なネットワークモデルNN(・)を説明する。図6Aに示すように、ネットワークモデルNN(・)は、MHCアレルに各々対応する、m個の出力ノードを含む。ネットワークモデルNN(・)は、MHCアレルh=3についてのアレル相互作用変数x を受け取り、MHCアレルh=3に対応する値NN(x )を含む、m個の値を出力する。
さらに別の例において、単一ネットワークモデルNN(・)は、MHCアレルhのアレル相互作用変数x 及びエンコードされたタンパク質配列dを与えられて依存性スコアを出力する、ネットワークモデルであり得る。そのような例において、パラメータθのセットは、再び、単一ネットワークモデルについてのパラメータのセットに対応し得、したがって、パラメータθのセットは、すべてのMHCアレルによって共有され得る。したがって、そのような例において、NNh(・)は、単一ネットワークモデルに対して入力[x ]を与えられた、単一ネットワークモデルNN(・)の出力を意味する。そのようなネットワークモデルは、訓練データにおいて未知であったMHCアレルについてのペプチド提示確率を、単にそれらのタンパク質配列を特定することによって正しく予測することができるため、有利である。
図6Bは、MHCアレルによって共有される例示的なネットワークモデルNN(・)を説明する。図6Bに示すように、ネットワークモデルNN(・)は、MHCアレルh=3のアレル相互作用変数及びタンパク質配列を入力として受け取り、MHCアレルh=3に対応する依存性スコアNN(x )を出力する。
さらに別の例において、依存性関数g(・)は、
Figure 0007217711000021
として表すことができ、式中、g’(x ;θ’)は、パラメータθ’のセットを伴うアフィン関数、ネットワーク関数などであり、MHCアレルhについての提示のベースライン確率を表す、MHCアレルのアレル相互作用変数についてのパラメータのセットにおけるバイアスパラメータθ を伴う。
別の実現形態において、バイアスパラメータθ は、MHCアレルhの遺伝子ファミリーにしたがって共有されてもよい。すなわち、MHCアレルhについてのバイアスパラメータθ はθ遺伝子(h) と同等であり得、遺伝子(h)は、MHCアレルhの遺伝子ファミリーである。例えば、クラスI MHCアレルHLA-A*02:01、HLA-A*02:02、及びHLA-A*02:03は、「HLA-A」の遺伝子ファミリーに割り当てられてもよく、これらのMHCアレルの各々についてのバイアスパラメータθ が共有されてもよい。別の例として、クラスII MHCアレルHLA-DRB1:10:01、HLA-DRB1:11:01、及びHLA-DRB3:01:01を「HLA-DRB」の遺伝子ファミリーに割り当て、これらのMHCアレルのそれぞれのバイアスパラメータθ を共有することができる。
例として、等式(2)に戻ると、アフィン依存性関数g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドpが提示される尤度は、
Figure 0007217711000022
によって生成することができ、式中、x は、MHCアレルh=3について特定されたアレル相互作用変数であり、θは、損失関数最小化を通してMHCアレルh=3について決定されたパラメータのセットである。
別の例として、別々のネットワーク変換関数gh(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドpが提示される尤度は、
Figure 0007217711000023
によって生成することができ、式中、x は、MHCアレルh=3について特定されたアレル相互作用変数であり、θは、MHCアレルh=3に関連するネットワークモデルNN(・)について決定されたパラメータのセットである。
図7は、例示的なネットワークモデルNN(・)を用いて、MHCアレルh=3に関連するペプチドpの提示尤度を生成することを説明する。図7に示すように、ネットワークモデルNN(・)は、MHCアレルh=3についてのアレル相互作用変数x を受け取り、出力NN(x )を生成する。この出力は、関数f(・)によってマッピングされて、推定提示尤度uを生成する。
VIII.B.2.アレル非相互作用変数を伴うアレルごと
一実現形態では、訓練モジュール316は、アレル非相互作用変数を組み入れて、
Figure 0007217711000024
によって、ペプチドpの推定提示尤度uをモデル化し、式中、wは、ペプチドpについてのエンコードされたアレル非相互作用変数を意味し、g(・)は、アレル非相互作用変数について決定されたパラメータθのセットに基づく、アレル非相互作用変数wについての関数である。具体的には、各MHCアレルhについてのパラメータθのセット及びアレル非相互作用変数についてのパラメータθのセットの値を、θ及びθに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各インスタンスである。
依存性関数g(w;θ)の出力は、アレル非相互作用変数の影響に基づいて、1つ以上のMHCアレルによってペプチドpが提示されるかどうかを示す、アレル非相互作用変数についての依存性スコアを表す。例えば、アレル非相互作用変数についての依存性スコアは、ペプチドpの提示に正の影響を及ぼすことが公知であるC末端側隣接配列とペプチドpが結合している場合は、高い値を有し得、ペプチドpの提示に負の影響を及ぼすことが公知であるC末端側隣接配列とペプチドpが結合している場合は、低い値を有し得る。
等式(8)によると、ペプチド配列pがMHCアレルhによって提示されるアレルごとの尤度は、MHCアレルhについての関数g(・)を、ペプチド配列pのエンコードされたバージョンに適用して、アレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。また、アレル非相互作用変数についての関数g(・)も、アレル非相互作用変数のエンコードされたバージョンに適用されて、アレル非相互作用変数についての依存性スコアが生成される。両方のスコアが組み合わされ、組み合わされたスコアが変換関数f(・)によって変換されて、MHCアレルhによってペプチド配列pが提示されるアレルごとの尤度が生成される。
あるいは、訓練モジュール316は、等式(2)においてアレル非相互作用変数wをアレル相互作用変数x に付加することにより、予測におけるアレル非相互作用変数wを含んでもよい。したがって、提示尤度は、
Figure 0007217711000025
によって与えられ得る。
VIII.B.3 アレル非相互作用変数についての依存性関数
アレル相互作用変数についての依存性関数g(・)と同様に、アレル非相互作用変数についての依存性関数g(・)は、アフィン関数、または別々のネットワークモデルがアレル非相互作用変数wに関連しているネットワーク関数であり得る。
具体的には、依存性関数g(・)は、wにおけるアレル非相互作用変数を、パラメータθのセットにおける対応するパラメータと線形結合する、
Figure 0007217711000026
によって与えられるアフィン関数である。
依存性関数g(・)はまた、パラメータθのセットにおける関連するパラメータを有するネットワークモデルNN(・)によって表される、
Figure 0007217711000027
によって与えられるネットワーク関数である。ネットワーク関数は、異なるアレル非相互作用変数をそれぞれが入力として取る1つ以上のネットワークモデルを含んでもよい。
別の例において、アレル非相互作用変数についての依存性関数g(・)は、
Figure 0007217711000028
によって与えられ得、式中、g’(w;θ’)は、アレル非相互作用パラメータθ’のセットを伴うアフィン関数、ネットワーク関数などであり、mは、ペプチドpについてのmRNA定量測定値であり、h(・)は、定量測定値を変換する関数であり、かつθ は、mRNA定量測定値についての依存性スコアを生成するようにmRNA定量測定値と組み合わされる、アレル非相互作用変数についてのパラメータのセットにおけるパラメータである。本明細書の残りの部分を通じて言及される1つの特定の実施形態において、h(・)はlog関数であるが、実際には、h(・)は、様々な異なる関数のうちのいずれか1つであり得る。
さらに別の例において、アレル非相互作用変数についての依存性関数g(・)は、
Figure 0007217711000029
によって与えられ、式中、g’(w;θ’)は、アレル非相互作用パラメータθ’のセットを伴うアフィン関数、ネットワーク関数などであり、oは、ペプチドpについてヒトプロテオームにおけるタンパク質及びアイソフォームを表す、セクションVII.C.2で述べた指標ベクトルであり、かつθ は、指標ベクトルと組み合わされるアレル非相互作用変数についてのパラメータのセットにおける、パラメータのセットである。1つのバリエーションにおいて、o及びパラメータθ のセットの次元が有意に高い場合、
Figure 0007217711000030
(ただし、
Figure 0007217711000031
は、L1ノルム、L2ノルム、組み合わせなどを表す)などのパラメータ正則化項を、パラメータの値を決定する時に損失関数に加えることができる。ハイパーパラメータλの最適値を、適切な方法を通して決定することができる。
さらに別の例において、アレル非相互作用変数に対する依存性関数g(・)は下式により与えられる。すなわち、
Figure 0007217711000032
ただし、g’(w;θ’)は、アレル非相互作用パラメータθ’のセットを伴うアフィン関数、ネットワーク関数などであり、
Figure 0007217711000033
は、ペプチドpがアレル非相互作用変数に関して上記に述べたソース遺伝子lに由来するものである場合に1に等しいインジケータ関数であり、θ はソース遺伝子lの「抗原性」を示すパラメータである。1つのバリエーションにおいて、Lが充分に大きく、したがって、パラメータの数θ l=1, 2,...,Lが充分に大きい場合、
Figure 0007217711000034
(ただし、
Figure 0007217711000035
は、L1ノルム、L2ノルム、組み合わせなど)などのパラメータ正則化項をパラメータの値を決定する際に損失関数に加えることができる。ハイパーパラメータλの最適値は適当な方法によって決定することができる。
実際には、式(10)、(11)、及び(12)のいずれかの追加項を組み合わせることによってアレル非相互作用変数に関する依存性関数g(・)を生成することができる。例えば、式(10)のmRNA定量測定値を示す項h(・)と式(12)のソース遺伝子の抗原性を示す項とを他の任意のアフィン関数またはネットワーク関数とともに互いに加え合わせることにより、アレル非相互作用変数に関する依存性関数を生成することができる。
例として、等式(8)に戻ると、アフィン変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドpが提示される尤度は、
Figure 0007217711000036
によって生成することができ、式中、wは、ペプチドpについて特定されたアレル非相互作用変数であり、θは、アレル非相互作用変数について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=3によってペプチドpが提示される尤度は、
Figure 0007217711000037
によって生成することができ、式中、wは、ペプチドpについて特定されたアレル相互作用変数であり、θは、アレル非相互作用変数について決定されたパラメータのセットである。
図8は、例示的なネットワークモデルNN(・)及びNN(・)を用いた、MHCアレルh=3に関連したペプチドpの提示尤度の生成を説明する。図8に示すように、ネットワークモデルNN(・)は、MHCアレルh=3についてのアレル相互作用変数x を受け取り、出力NN(x )を生成する。ネットワークモデルNN(・)は、ペプチドpについてのアレル非相互作用変数wを受け取り、出力NN(w)を生成する。出力は、組み合わされ、関数f(・)によってマッピングされて、推定提示尤度uを生成する。
VIII.C.複数アレルモデル
訓練モジュール316はまた、2つ以上のMHCアレルが存在する複数アレル設定においてペプチドの提示尤度を予測するための提示モデルを構築し得る。この例において、訓練モジュール316は、単一のMHCアレルを発現する細胞、複数のMHCアレルを発現する細胞、またはそれらの組み合わせから生成された訓練データ170におけるデータインスタンスSに基づいて、提示モデルを訓練し得る。
VIII.C.1.実施例1:アレルごとのモデルの最大値
一実現形態では、訓練モジュール316は、複数のMHCアレルHのセットに関連したペプチドpの推定提示尤度uを、等式(2)~(11)と共に上記で説明したような、単一アレルを発現する細胞に基づいて決定されたセットHにおけるMHCアレルhの各々について決定された提示尤度u h∈Hの関数としてモデル化する。具体的には、提示尤度uは、u h∈Hの任意の関数であることができる。一実現形態では、等式(12)に示すように、関数は最大値関数であり、提示尤度uは、セットHにおける各MHCアレルhについての提示尤度の最大値として決定することができる。
Figure 0007217711000038
VIII.C.2.実施例2.1:和の関数モデル
一実現形態では、訓練モジュール316は、ペプチドpの推定提示尤度uを、
Figure 0007217711000039
によってモデル化し、式中、要素a は、ペプチド配列pに関連する複数のMHCアレルHについて1であり、x は、ペプチドp及び対応するMHCアレルについてのエンコードされたアレル相互作用変数を意味する。各MHCアレルhについてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各インスタンスである。依存性関数gは、セクションVIII.B.1.において上記で導入された依存性関数gのいずれかの形態であり得る。
等式(13)によると、ペプチド配列pが1つ以上のMHCアレルhによって提示される提示尤度は、依存性関数g(・)を、MHCアレルHの各々についてペプチド配列pのエンコードされたバージョンに適用して、アレル相互作用変数についての対応するスコアを生成することによって、生成することができる。各MHCアレルhについてのスコアが組み合わされて、ペプチド配列pがMHCアレルHのセットによって提示される提示尤度を生成するように変換関数f(・)によって変換される。
等式(13)の提示モデルは、各ペプチドpについての関連するアレルの数が1よりも大きいことができる点で、等式(2)のアレルごとのモデルとは異なる。換言すると、a における複数の要素が、ペプチド配列pに関連する複数のMHCアレルHについて1の値を有することができる。
例として、アフィン変換関数g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000040
によって生成することができ、式中、x 、x は、MHCアレルh=2、h=3について特定されたアレル相互作用変数であり、θ、θは、MHCアレルh=2、h=3について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000041
によって生成することができ、式中、NN(・)、NN(・)は、MHCアレルh=2、h=3について特定されたネットワークモデルであり、θ、θは、MHCアレルh=2、h=3について決定されたパラメータのセットである。
図9は、例示的なネットワークモデルNN(・)及びNN(・)を用いた、MHCアレルh=2、h=3に関連したペプチドpの提示尤度の生成を説明する。図9に示すように、ネットワークモデルNN(・)は、MHCアレルh=2についてのアレル相互作用変数x を受け取り、出力NN(x )を生成し、ネットワークモデルNN(・)は、MHCアレルh=3についてのアレル相互作用変数x を受け取り、出力NN(x )を生成する。出力は、組み合わされ、関数f(・)によってマッピングされて、推定提示尤度uを生成する。
VIII.C.3.実施例2.2:アレル非相互作用変数を伴う和の関数モデル
一実現形態では、訓練モジュール316は、アレル非相互作用変数を組み入れて、
Figure 0007217711000042
によって、ペプチドpの推定提示尤度uをモデル化し、式中、wは、ペプチドpについてのエンコードされたアレル非相互作用変数を意味する。具体的には、各MHCアレルhについてのパラメータθのセット及びアレル非相互作用変数についてのパラメータθのセットの値を、θ及びθに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各インスタンスである。依存性関数gは、セクションVIII.B.3.において上記で導入された依存性関数gのいずれかの形態であり得る。
したがって、等式(14)によると、1つ以上のMHCアレルHによってペプチド配列pが提示される提示尤度は、関数g(・)を、MHCアレルHの各々についてペプチド配列pのエンコードされたバージョンに適用して、各MHCアレルhのアレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。また、アレル非相互作用変数についての関数g(・)も、アレル非相互作用変数のエンコードされたバージョンに適用されて、アレル非相互作用変数についての依存性スコアが生成される。これらのスコアが組み合わされて、組み合わされたスコアが変換関数f(・)によって変換されて、MHCアレルHによってペプチド配列pが提示される提示尤度が生成される。
等式(14)の提示モデルにおいて、各ペプチドpについての関連するアレルの数は、1よりも大きいことができる。換言すると、a における複数の要素が、ペプチド配列pに関連する複数のMHCアレルHについて1の値を有することができる。
例として、アフィン変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000043
によって生成することができ、式中、wは、ペプチドpについて特定されたアレル非相互作用変数であり、θは、アレル非相互作用変数について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000044
によって生成することができ、式中、wは、ペプチドpについて特定されたアレル相互作用変数であり、θは、アレル非相互作用変数について決定されたパラメータのセットである。
図10は、例示的なネットワークモデルNN(・)、NN(・)、及びNN(・)を用いた、MHCアレルh=2、h=3に関連したペプチドpの提示尤度の生成を説明する。図10に示すように、ネットワークモデルNN(・)は、MHCアレルh=2についてのアレル相互作用変数x を受け取り、出力NN(x )を生成する。ネットワークモデルNN(・)は、MHCアレルh=3についてのアレル相互作用変数x を受け取り、出力NN(x )を生成する。ネットワークモデルNN(・)は、ペプチドpについてのアレル非相互作用変数wを受け取り、出力NN(w)を生成する。出力は、組み合わされ、関数f(・)によってマッピングされて、推定提示尤度uを生成する。
あるいは、訓練モジュール316は、等式(15)においてアレル非相互作用変数wをアレル相互作用変数x に付加することにより、予測におけるアレル非相互作用変数wを含んでもよい。したがって、提示尤度は、
Figure 0007217711000045
によって与えられ得る。
VIII.C.4.実施例3.1:潜在的なアレルごとの尤度を用いたモデル
別の実現形態において、訓練モジュール316は、ペプチドpの推定提示尤度uを、
Figure 0007217711000046
によってモデル化し、式中、要素a は、ペプチド配列pに関連する複数のMHCアレルh∈Hについて1であり、u’ は、MHCアレルhについての潜在的なアレルごとの提示尤度であり、ベクトルvは、要素vがa ・・・u’ に対応するベクトルであり、s(・)は、vの要素をマッピングする関数であり、かつr(・)は、入力の値を所定の範囲にクリップするクリッピング関数である。より詳細に下記に記載するように、s(・)は総和関数または二次関数であってもよいが、他の実施形態では、s(・)は、最大値関数などの任意の関数であり得ることが認識される。潜在的なアレルごとの尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各インスタンスである。
等式(17)の提示モデルにおける提示尤度は、潜在的なアレルごとの提示尤度u’ (各々が、個々のMHCアレルhによってペプチドpが提示される尤度に対応する)の関数としてモデル化される。潜在的なアレルごとの尤度は、潜在的なアレルごとの尤度についてのパラメータが、単一アレル設定に加えて、提示されるペプチドと対応するMHCアレルとの間の直接の関連が未知である複数アレル設定から学習され得る点で、セクションVIII.Bのアレルごとの提示尤度とは異なる。したがって、複数アレル設定において、提示モデルは、ペプチドpが全体としてMHCアレルHのセットによって提示されるかどうかを推定できるだけではなく、どのMHCアレルhがペプチドpを提示した可能性が最も高いかを示す個々の尤度u’ h∈Hも提供することができる。これの利点は、提示モデルが、単一のMHCアレルを発現する細胞についての訓練データを用いずに潜在的な尤度を生成できることである。
本明細書の残りの部分を通じて言及される1つの特定の実現形態において、r(・)は、範囲[0,1]を有する関数である。例えば、r(・)は、クリップ関数:
r(z)=min(max(z,0),1)
であってもよく、zと1の間の最小値が、提示尤度uとして選ばれる。別の実現形態において、r(・)は、
r(z)=tanh(z)
として与えられる双曲線正接関数であり、ドメインzの値は0以上である。
VIII.C.5.実施例3.2:関数の和モデル
1つの特定の実現形態において、s(・)は総和関数であり、提示尤度は、潜在的なアレルごとの提示尤度を総和することによって与えられる。
Figure 0007217711000047
1つの実現形態では、MHCアレルhについての潜在的なアレルごとの提示尤度を、
Figure 0007217711000048
によって生成して、提示尤度が、
Figure 0007217711000049
によって推定されるようにする。
等式(19)によると、1つ以上のMHCアレルHによってペプチド配列pが提示される提示尤度は、関数g(・)を、MHCアレルHの各々についてペプチド配列pのエンコードされたバージョンに適用して、アレル相互作用変数についての対応する依存性スコアを生成することによって、生成することができる。最初に、各依存性スコアが関数f(・)によって変換されて、潜在的なアレルごとの提示尤度u’ が生成される。アレルごとの尤度u’ が組み合わされ、組み合わされた尤度に、値を範囲[0,1]中にクリップするためのクリッピング関数が適用されて、ペプチド配列pがMHCアレルHのセットによって提示される提示尤度が生成され得る。依存性関数gは、セクションVIII.B.1.において上記で導入された依存性関数gのいずれかの形態であり得る。
例として、アフィン変換関数g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000050
によって生成することができ、式中、x 、x は、MHCアレルh=2、h=3について特定されたアレル相互作用変数であり、θ、θは、MHCアレルh=2、h=3について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000051
によって生成することができ、式中、NN(・)、NN(・)は、MHCアレルh=2、h=3について特定されたネットワークモデルであり、θ、θは、MHCアレルh=2、h=3について決定されたパラメータのセットである。
図11は、例示的なネットワークモデルNN(・)及びNN(・)を用いた、MHCアレルh=2、h=3に関連したペプチドpの提示尤度の生成を説明する。図9に示すように、ネットワークモデルNN(・)は、MHCアレルh=2についてのアレル相互作用変数x を受け取り、出力NN(x )を生成し、ネットワークモデルNN(・)は、MHCアレルh=3についてのアレル相互作用変数x を受け取り、出力NN(x )を生成する。各出力は、関数f(・)によってマッピングされ、組み合わされて、推定提示尤度uを生成する。
別の実現形態において、予測が、質量分析イオン電流のlogについてなされる場合、r(・)はlog関数であり、f(・)は指数関数である。
VIII.C.6.実施例3.3:アレル非相互作用変数を伴う関数の和モデル
1つの実現形態では、MHCアレルhについての潜在的なアレルごとの提示尤度を、
Figure 0007217711000052
によって生成して、提示尤度が、
Figure 0007217711000053
によって生成されるようにして、ペプチド提示に、アレル非相互作用変数の影響を組み入れる。
等式(21)によると、1つ以上のMHCアレルHによってペプチド配列pが提示される提示尤度は、次のように生成することができる。MHCアレルHの各々についてペプチド配列pのエンコードされたバージョンに関数g(・)を適用して、各MHCアレルhのアレル相互作用変数についての対応する依存性スコアを生成する。また、アレル非相互作用変数についての関数g(・)を、アレル非相互作用変数のエンコードされたバージョンに適用して、アレル非相互作用変数についての依存性スコアを生成する。アレル非相互作用変数のスコアを、アレル相互作用変数の依存性スコアの各々に組み合わせる。組み合わせたスコアの各々を関数f(・)によって変換して、潜在的なアレルごとの提示尤度を生成する。潜在的な尤度を組み合わせて、組み合わせた出力にクリッピング関数を適用して値を範囲[0,1]内にクリップし、MHCアレルHによってペプチド配列pが提示される提示尤度を生成し得る。依存性関数gは、セクションVIII.B.3.において上記で導入された依存性関数gのいずれかの形態であり得る。
例として、アフィン変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000054
によって生成することができ、式中、wは、ペプチドpについての特定されたアレル非相互作用変数であり、θは、アレル非相互作用変数についての決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g(・)、g(・)を用いた、m=4の異なる特定されたMHCアレルの中でMHCアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000055
によって生成することができ、式中、wは、ペプチドpについて特定されたアレル相互作用変数であり、θは、アレル非相互作用変数について決定されたパラメータのセットである。
図12は、例示的なネットワークモデルNN(・)、NN(・)、及びNN(・)を用いた、MHCアレルh=2、h=3に関連したペプチドpの提示尤度の生成を説明する。図12に示すように、ネットワークモデルNN(・)は、MHCアレルh=2についてのアレル相互作用変数x を受け取り、出力NN(x )を生成する。ネットワークモデルNN(・)は、ペプチドpについてのアレル非相互作用変数wを受け取り、出力NN(w)を生成する。出力は、組み合わされ、関数f(・)によってマッピングされる。ネットワークモデルNN(・)は、MHCアレルh=3についてのアレル相互作用変数x を受け取り、出力NN(x )を生成し、これも、同じネットワークモデルNN(・)の出力NN(w)と組み合わされ、関数f(・)によってマッピングされる。両方の出力が組み合わされて、推定提示尤度uを生成する。
別の実現形態では、MHCアレルhについての潜在的なアレルごとの提示尤度を、
Figure 0007217711000056
によって生成して、提示尤度が、
Figure 0007217711000057
によって生成されるようにする。
VIII.C.7.実施例4:二次モデル
一実現形態では、s(・)は、二次関数であり、ペプチドpの推定提示尤度uは、
Figure 0007217711000058
によって与えられ、式中、要素u’ は、MHCアレルhについての潜在的なアレルごとの提示尤度である。潜在的なアレルごとの尤度についてのパラメータθのセットの値は、θに関する損失関数を最小化することによって決定することができ、iは、単一のMHCアレルを発現する細胞及び/または複数のMHCアレルを発現する細胞から生成された訓練データ170のサブセットSにおける各インスタンスである。潜在的なアレルごとの提示尤度は、上記の等式(18)、(20)、及び(22)において示すいずれかの形態であり得る。
一態様において、等式(23)のモデルは、ペプチド配列pが、2つのMHCアレルによって同時に提示される可能性が存在し、2つのHLAアレルによる提示は統計学的に独立していることを意味し得る。
等式(23)によると、1つ以上のMHCアレルHによってペプチド配列pが提示される提示尤度は、潜在的なアレルごとの提示尤度を合算すること、及び、MHCアレルの各ペアがペプチドpを同時に提示する尤度を総和から差し引いて、MHCアレルHによってペプチド配列pが提示される提示尤度を生成することによって、生成することができる。
例として、アフィン変換関数g(・)を用いた、m=4の異なる特定されたHLAアレルの中でHLAアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000059
によって生成することができ、式中、x 、x は、HLAアレルh=2、h=3について特定されたアレル相互作用変数であり、θ、θは、HLAアレルh=2、h=3について決定されたパラメータのセットである。
別の例として、ネットワーク変換関数g(・)、g(・)を用いた、m=4の異なる特定されたHLAアレルの中でHLAアレルh=2、h=3によってペプチドpが提示される尤度は、
Figure 0007217711000060
によって生成することができ、式中、NN(・)、NN(・)は、HLAアレルh=2、h=3について特定されたネットワークモデルであり、θ、θは、HLAアレルh=2、h=3について決定されたパラメータのセットである。
IX.実施例5:予測モジュール
予測モジュール320は、配列データを受け取って、提示モデルを用いて配列データ中の新生抗原候補を選択する。具体的には、配列データは、患者の腫瘍組織細胞から抽出されたDNA配列、RNA配列、及び/またはタンパク質配列であってよい。予測モジュール320は、配列データを、MHC-Iについては8~15個のアミノ酸を有する、またはMHC-IIについては6~30個のアミノ酸を有する複数のペプチド配列pに処理する。例えば、予測モジュール320は、所定の配列「IEFROEIFJEF」(SEQ ID NO:15)を、9個のアミノ酸を有する3種類のペプチド配列「IEFROEIFJ」(SEQ ID NO:16)、「EFROEIFJE」(SEQ ID NO:17)、及び「FROEIFJEF」(SEQ ID NO:18)に処理することができる。一実施形態では、予測モジュール320は、患者の正常組織細胞から抽出された配列データをその患者の腫瘍組織細胞から抽出された配列データと比較して1つ以上の変異を有する部分を特定することによって、変異したペプチド配列である新生抗原候補を特定することができる。
提示モジュール320は、提示モデルの1つ以上を処理されたペプチド配列に適用してペプチド配列の提示尤度を推定する。具体的には、予測モジュール320は、提示モデルを新生抗原候補に適用することによって、腫瘍HLA分子上に提示される可能性が高い1つ以上の新生抗原候補のペプチド配列を選択することができる。一実現形態では、提示モジュール320は、あらかじめ決定された閾値を上回る推定提示尤度を有する新生抗原候補配列を選択する。別の実現形態では、提示モデルは、最も高い推定提示尤度を有するN個の新生抗原候補配列を選択する(Nは、一般的に、ワクチン中で送達することができるエピトープの最大数である)。所定の患者について選択された新生抗原候補を含むワクチンを患者に注射して免疫応答を誘導することができる。
X.実施例6:例示的な提示モデルの性能を示す実験結果
上記の種々の提示モデルの妥当性を、提示モデルを訓練するために使用されなかった訓練データ170のサブセット、または、訓練データ170と類似した変数及びデータ構造を有する訓練データ170とは別々のデータセットであった、試験データTに対して試験した。
提示モデルの性能を示す関連性のある測定基準は、
Figure 0007217711000061
であり、これは、関連するHLAアレル上に提示されると正確に予測されたペプチドインスタンスの数の、当該HLAアレル上に提示されると予測されたペプチドインスタンスの数に対する比率を示す。一実現形態では、試験データTにおけるペプチドpは、対応する尤度推定値uが、所定の閾値t以上である場合に、1つ以上の関連するHLAアレル上に提示されると予測された。提示モデルの性能を示す別の関連性のある測定基準は、
Figure 0007217711000062
であり、これは、関連するHLAアレル上に提示されると正確に予測されたペプチドインスタンスの数の、当該HLAアレル上に提示されることが公知であったペプチドインスタンスの数に対する比率を示す。提示モデルの性能を示す別の関連性のある測定基準は、受信者動作特性(ROC)の曲線下面積(AUC)である。ROCは、
Figure 0007217711000063
によって与えられる、偽陽性率(FPR)に対するリコールをプロットする。
X.A.質量分析データに対する提示モデルの性能
X.A.1.実施例1
図13Aは、質量分析を用いたヒト腫瘍細胞及び腫瘍浸潤リンパ球(TIL)上のクラスII MHCアレルから溶出されたペプチドの長さのヒストグラムである。具体的には、HLA-DRB1*12:01ホモ接合体アレル(「データセット1」)及びHLA-DRB1*12:01、HLA-DRB1*10:01の複数アレル試料(「データセット2」)に対して質量分析ペプチドミクスを行った。結果は、クラスII MHCアレルから溶出されたペプチドの長さはアミノ酸6~30個の範囲であることを示している。図13Aに示される頻度分布は、参考文献69の図1Cに示される、最新の質量分析法を用いてクラスII MHCから溶出されたペプチドの長さと同様である。
図13Bは、データセット1及びデータセット2についてmRNA定量化と残基当たりの提示ペプチドとの依存関係を示す。結果は、mRNAの発現とクラスII MHCアレルのペプチド提示との間には強い依存関係があることを示している。
具体的には、図13Bの横軸は、log10(ビン100万個当たりの転写物(TPM))で表したmRNAの発現を示す。図13Bの縦軸は、残基当たりのペプチド提示量を、10-2<log10TPM<10-1の間のmRNA発現量に対応した最も低いビンの倍数として示したものである。一方の実線は、データセット1のmRNA定量化及びペプチド提示に関連したプロットであり、別の実線はデータセット2のものである。図13Bに示されるように、mRNA発現量と対応する遺伝子内の残基当たりのペプチド提示量との間には強い相関がある。具体的には、RNA発現量が10-2<log10TPM<10-1の範囲である遺伝子からのペプチドは、最低のビンと比較して5倍以上提示される可能性が高い。
結果は、mRNA定量測定値がペプチド提示を強く予測するため、これらの測定値を組み入れることによって提示モデルの性能を大きく改善できることを示す。
図13Cは、データセット1及びデータセット2を用いて訓練及び試験した例示的な提示モデルの性能結果を比較したものである。例示的な提示モデルのモデル特性の各セットについて、図13Cは、そのモデル特性のセットの中の特性がアレル相互作用特性として分類される場合、あるいはそのモデル特性のセットの中の特性がアレル非相互作用特性変数として分類される場合の10%リコールでのPPV値を示している図13Cにみられるように、例示的な提示モデルのモデル特性の各セットについて、そのモデル特性のセットの中の特性がアレル相互作用特性として分類される場合に特定された10%リコールでのPPV値が左側に示され、そのモデル特性のセットの中の特性がアレル非相互作用特性として分類される場合に特定された10%リコールでのPPV値が右側に示されている。ペプチド配列の特性は、図13Cの目的では常にアレル相互作用特性として分類された点に注目されたい。結果は、この提示モデルによって14%~29%の範囲の10%リコールでのPPV値が実現され、この値はランダム予想におけるPPVよりも有意に高い(およそ500倍)ことを示している。
この実験では、9~20個の長さのペプチド配列を検討した。データを、訓練、検証、及び試験セットに分けた。データセット1及びデータセット2の両方からの50個の残基のペプチドのブロックを訓練セット及び試験セットに割り当てた。プロテオーム内のどこかで複製されたペプチドを除去し、訓練セットと試験セットの両方に現れるペプチド配列がないようにした。訓練セット及び試験セットにおけるペプチド提示の発生率は、非提示ペプチドを除去することにより50倍増加した。これは、データセット1及びデータセット2が、細胞の一部のみがクラスII HLAアレルであるヒト腫瘍試料由来のものであり、クラスII HLAアレルの純粋な試料よりもおよそ10倍低いペプチド収率となり、それでもなお、不完全な質量分析の感度による過小評価であることによる。訓練セットは、1064個の提示ペプチド及び3,810,070個の非提示ペプチドを含んでいた。試験セットは、314個の提示ペプチド及び807,400個の非提示ペプチドを含んでいた。
モデル例1は、ネットワーク依存性関数gh(・)、expit関数f(・)、及びアイデンティティー関数r(・)を用いた式(22)の関数の総和モデルとした。ネットワーク依存性関数gh(・)は、256個の隠れノード及び正規化線形ユニット(ReLU)活性化を伴う多層パーセプトロン(MLP)として構造化した。ペプチド配列以外に、アレル相互作用変数wは、ワンホットエンコードされたC末端側及びN末端側隣接配列、ペプチドpiのソース遺伝子の添え字G=gene(pi)を示すカテゴリー変数、及びmRNA定量測定値を示す変数を含んでいた。モデル例2は、C末端側及びN末端側隣接配列をアレル相互作用変数から省略した点以外は、モデル例1と同じものとした。モデル例3は、ソース遺伝子の添え字をアレル相互作用変数から省略した点以外は、モデル例1と同じものとした。モデル例4は、mRNA測定値をアレル相互作用変数から省略した点以外は、モデル例1と同じものとした。
モデル例5は、ネットワーク依存性関数gh(・)、expit関数f(・)、アイデンティティー関数r(・)、及び式(12)の依存性関数gw(・)を用いた式(20)の関数の総和モデルとした。依存性関数gw(・)は、mRNA定量測定値を入力とし、16個の隠れノード及び正規化線形ユニット(ReLU)活性化を伴うMLPとして構造化したネットワークモデル、及びC末端側隣接配列を入力とし、32個の隠れノード及び正規化線形ユニット(ReLU)活性化を伴うMLPとして構造化したネットワークモデルも含んでいた。ネットワーク依存性関数gh(・)は、256個の隠れノード及び正規化線形ユニット(ReLU)活性化を伴う多層パーセプトロンとして構造化した。モデル例6は、C末端側及びN末端側隣接配列のネットワークモデルを省略した点以外は、モデル例5と同じものとした。モデル例7は、ソース遺伝子の添え字をアレル非相互作用変数から省略した点以外は、モデル例5と同じものとした。モデル例8は、mRNA定量測定値のネットワークモデルを省略した点以外は、モデル例5と同じものとした。
試験セット内の提示ペプチドの発生率はおよそ1/2400であり、したがって、ランダム予想のPPVもおよそ1/2400=0.00042となるであろう。図13Cに示されるように、最も精度のよい提示モデルではおよそ29%のPPV値が実現され、この値はランダム予想のPPV値よりもおよそ500倍良好である。
X.A.2.実施例2
図13Dは、HLAクラスII分子を含む合計39種の試料の各試料について質量分析を用いてシークエンシングしたペプチドの量を示すヒストグラムである。さらに、複数の試料の各試料について、図13Dに示されるヒストグラムは、異なるq値の閾値で質量分析を用いてシークエンシングしたペプチドの量を示している。具体的には、複数の試料の各試料について、図13Dは、0.01未満のq値、0.05未満のq値、及び0.2未満のq値で質量分析を用いてシークエンシングしたペプチドの量を示している。
上記に述べたように、図39Dの39種の試料の各試料は、HLAクラスII分子を含んでいた。より具体的には、図13Dの39種の試料の各試料はHLA-DR分子を含んでいた。HLA-DR分子は、HLAクラスII分子の一種である。さらにより具体的には、図13Dの39種の試料の各試料は、HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子、及び/またはHLA-DRB5分子を含んでいた。HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子、及びHLA-DRB5分子は、HLA-DR分子の種類である。
この特定の実験は、HLA-DR分子、特にHLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子、及びHLA-DRB5分子を含む試料を用いて行ったが、代替的な実施形態では、この実験はHLAクラスII分子の任意の種類(複数可)のうちの1つ以上を含む試料を用いて行うことができる。例えば、代替的な実施形態では、HLA-DP及び/またはHLA-DQ分子を含む試料を用いて同じ実験を行うことができる。同じ方法を用いて任意の種類(複数可)のMHCクラスII分子をモデル化し、なおも信頼性の高い結果を得ることが可能であることは、当業者には周知である。例えば、Jensen、Kamilla Kjaergaard et al.(76)は、HLA-DR分子に対する、ならびにHLA-DP及びHLA-DQ分子に対する結合親和性をモデル化するために同じ方法を用いている最近の科学論文の一例である。したがって、当業者であれば、本明細書に記載される実験及びモデルを用いることで、HLA-DR分子のみでなく、他の任意のMHCクラスII分子を別々または同時にモデル化し、なおも信頼性の高い結果を得ることができる点は理解されよう。
合計39種の試料の各試料のペプチドをシークエンシングすため、各試料について質量分析を行った。試料について得られた質量スペクトルをCometで検索し、Percolatorでスコアリングしてペプチドをシークエンシングした。次いで、試料中でシークエンシングされたペプチドの量を複数の異なるPercolatorのq値の閾値について特定した。具体的には、その試料について、0.01未満のPercolatorのq値、0.05未満のPercolatorのq値、及び0.2未満のPercolatorのq値を用いてシークエンシングしたペプチドの量を決定した。
39種の試料の各試料について、異なるPercolatorのq値の閾値のそれぞれでシークエンシングしたペプチドの量を図13Dに示す。例えば、図13Dにみられるように、第1の試料では、0.2未満のq値で、質量分析を用いておよそ4000種のペプチドがシークエンシングされ、0.05未満のq値で、質量分析を用いておよそ2800種のペプチドがシークエンシングされ、0.01未満のq値で、質量分析を用いておよそ2300種のペプチドがシークエンシングされた。
全体として、図13Dは、質量分析を用いてMHCクラスII分子を含有する試料から大量のペプチドを、低いq値でシークエンシングすることができることを示している。換言すると、図13Dに示されるデータは、質量分析を用いて、MHCクラスII分子によって提示されうるペプチドを高い信頼度でシークエンシングすることができることを実証するものである。
図13Eは、特定のMHCクラスII分子のアレルが同定された試料の量を示すヒストグラムである。より具体的には、図13Eは、HLAクラスII分子を含む合計で39種の試料について、特定のMHCクラスII分子が同定された試料の量を示している。
図13Dに関して上記に述べたように、図13Dの39種の試料の各試料は、HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子、及び/またはHLA-DRB5分子を含んでいた。したがって、図13Eは、HLA-DRB1分子、HLA-DRB3分子、HLA-DRB4分子、及びHLA-DRB5分子について特定のアレルが同定された試料の量を示している。試料中に存在するHLAアレルを同定するには、その試料についてHLAクラスII DRのタイピングを行う。次いで、特定のHLAアレルが同定された試料の量を特定するには、HLAクラスII DRのタイピングを用いてHLAアレルが同定された試料の数を単純に合計する。例えば、図13Eに示されるように、合計で39種の試料のうちの19種の試料が、HLAクラスII分子のアレルHLA-DRB4*01:03を含んでいた。換言すると、合計で39種の試料のうちの19種の試料がHLA-DRB4分子についてアレルHLA-DRB4*01:03を含んでいた。全体として、図13Eは、HLAクラスII分子を含む39種の試料から広範囲のHLAクラスII分子のアレルを同定することができることを示している。
図13Fは、合計で39種の試料中でMHCクラスII分子によって提示されるペプチドの割合を、一定範囲のペプチド長の各ペプチド長について示したものである。合計で39種の試料の各試料中の各ペプチドの長さを決定するため、各ペプチドを図13Dに関して上記に述べたような質量分析を用いてシークエンシングし、次いでシークエンシングしたペプチド中の残基の数を単純に定量した。
上記に述べたように、MHCクラスII分子は、一般的にはアミノ酸9~20個の長さを有するペプチドを提示する。したがって、図13Fは、アミノ酸9~20個の各ペプチド長について39種の試料中のMHCクラスII分子によって提示されるペプチドの割合を示している。例えば、図13Fに示されるように、39種の試料中のMHCクラスII分子によって提示されるペプチドのおよそ22%がアミノ酸14個の長さを有している。
図13Fに示されるデータに基づけば、39種の試料中のMHCクラスII分子によって提示されるペプチドの最頻長は、アミノ酸14個及び15個の長さと特定された。39種の試料中のMHCクラスII分子によって提示されるペプチドについて特定されたこれらの最頻長は、MHCクラスII分子によって提示されるペプチドの最頻長についての以前の報告と一致する。さらに、やはり以前の報告と一致するように、図13Fのデータは、39種の試料に由来するMHCクラスII分子によって提示されるペプチドの60%超がアミノ酸14個及び15個以外の長さを有することを示している。換言すれば、図13Fは、MHCクラスII分子によって提示されるペプチドは最も高頻度でアミノ酸14個または15個の長さであるが、MHCクラスII分子によって提示されるペプチドの大きな割合がアミノ酸14個でも15個でもない長さであることを示している。したがって、すべての長さのペプチドが、MHCクラスII分子によって提示される等しい確率を有する、またはアミノ酸14個または15個の長さを有するペプチドのみがMHCIIクラス分子によって提示されると仮定することは正確でない仮定である。図13Jに関して下記に詳細に述べるように、これらの誤った仮定は、MHCクラスII分子による提示を予測するための多くの最新のモデルで現在用いられており、したがって、これらのモデルにより予想される提示尤度はしばしば信頼性が低い。
図13Gは、39種の試料中に存在する遺伝子について、遺伝子発現とMHCクラスII分子による遺伝子発現産物の提示の発生率との間の関係を示す線グラフである。より具体的には、図13Gは、遺伝子発現と、MHCクラスII分子によって提示されるペプチドのN末端を形成する、その遺伝子発現より生ずる残基の割合との間の関係を示している。合計で39種の試料の各試料中の遺伝子発現を定量化するため、各試料中に含まれるRNAにRNAシークエンシングを行う。図13Gでは、遺伝子発現は、100万当たりの転写物(transcripts per million)(TPM)の単位でRNAシークエンシングによって測定されている。39種の試料の各試料について遺伝子発現の提示の発生率を特定するため、HLAクラスII DRペプチドームデータの同定を各試料について行った。
図13Gに示されるように、39種の試料について、遺伝子発現レベルと、MHCクラスII分子による発現遺伝子産物の残基の提示との間には強い相関が認められる。具体的には、図13Gに示されるように、発現レベルの最も低い遺伝子の発現から生じるペプチドは、発現レベルの最も高い遺伝子の発現から生じるペプチドと比較して、100倍以上、MHCクラスII分子によって提示されにくい。より簡単に言えば、より高度に発現される遺伝子の産物はMHCクラスII分子によってより高頻度で提示される。
図13H~Jは、ペプチドの試験データセット内のペプチドが、試験データセット内に存在するMHCクラスII分子の少なくとも1つによって提示される尤度を予想するうえでの異なる提示モデルの性能を比較した線グラフである。図13H~Jに示されるように、あるペプチドが試験データセット内に存在するMHCクラスII分子の少なくとも1つによって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成される各予想について偽陽性率に対する真の陽性率の比を特定することにより決定される。所定のモデルについて特定されたこれらの比は、ROC(receiver operator characteristic)(受信者動作特性)曲線として、x軸が偽陽性率を定量化し、y軸が真の陽性率を定量化した線グラフにおいて可視化することが可能である。曲線下面積(AUC)を用いてモデルの性能を定量化する。具体的には、AUCが大きいモデルほど、AUCが小さいモデルと比較してより高い性能(すなわちより高い精度)を有する。図13H~Iにおいて、傾き1の黒い破線(偽陽性率に対する真の陽性率の比が1)は、ランダムに推定されたペプチド提示の尤度の予想曲線を示す。破線のAUCは0.5である。ROC曲線及びAUCの計測については、上記のセクションXの前半部分に関して詳細な考察がなされている。
図13Hは、アレル相互作用及びアレル非相互作用変数の異なるセットが与えられた場合に、ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの5つのモデル例の性能を比較した線グラフである。換言すれば、図13Hは、ペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの異なるアレル相互作用及びアレル非相互作用変数の相対的な重要度を定量化するものである。
図13Hの線グラフのROC曲線を作成するために用いた5つのモデル例の各例示的提示モデルのモデルアーキテクチャは、5つのシグモイド総和モデルの集合からなる。集合内の各シグモイド総和モデルは、試料当たり最大で4つのユニークなHLA-DRアレルについてペプチド提示をモデル化するように構成した。さらに、集合内の各シグモイド総和モデルは、以下のアレル相互作用及びアレル非相互作用変数、すなわち、ペプチド配列、隣接配列、TPM単位のRNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を行うように構成した。集合内の各シグモイド総和モデルのアレル相互作用成分は、256個の隠れユニットとしてReLU活性化を伴う1隠れ層のMLPであった。
ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度をモデル例を用いて予想するのに先立って、モデル例を訓練及び検証した。モデル例を訓練、検証、及び最終的に試験するため、39種の試料について上記に述べたデータを訓練、検証、及び試験データセットに分けた。
訓練、検証、及び試験データセットのうちの複数のデータセットにペプチドが現れないようにするため、以下の手順を行った。最初に、プロテオーム内の複数の位置に現れた、合計39種の試料に由来するすべてのペプチドを除去した。次いで、合計39種の試料に由来するペプチドを10個の隣接するペプチドのブロックに分割した。合計39種の試料に由来するペプチドの各ブロックを、訓練データセット、検証データセット、または試験データセットに個々に割り当てた。これにより、訓練、検証、及び試験データセットの複数のデータセットに現れるペプチドはなくなった。
合計39種の試料中の28,081,944種のペプチドのうち、訓練データセットは、合計39種の試料のうちの38種に由来するMHCクラスII分子によって提示された21,077種のペプチドで構成されていた。訓練データセットに含まれる21,077種のペプチドは、アミノ酸9~20個の長さであった。図13HのROCカーブを作成するために用いたモデル例を、ADAM optimizer及び早期終了(early stopping)を用いて訓練データセット上で訓練した。
検証データセットは、訓練データセットで用いられた同じ38種の試料に由来するMHCクラスII分子によって提示された2,346種のペプチドで構成されていた。検証セットは、早期停止のためだけに用いた。
試験データセットは、質量分析を用いて腫瘍試料から同定されたMHCクラスII分子によって提示されたペプチドで構成されていた。具体的には、試験データセットは、腫瘍試料から同定されたMHCクラスII分子、具体的には、HLA-DRB1*07:01, HLA-DRB1*15:01, HLA-DRB4*01:03, 及びHLA-DRB5*01:01分子によって提示された203種のペプチドで構成されていた。試験データセットに含まれるペプチドは、上記に述べた訓練データセットからは除外されていた。
上記に述べたように、図13Hは、ペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの異なるアレル相互作用変数及びアレル非相互作用変数の相対的な重要度を定量化するものである。やはり上記に述べたように、図13Hの線グラフのROC曲線を作成するために用いたモデル例は、以下のアレル相互作用及びアレル非相互作用変数、すなわち、ペプチド配列、隣接配列、TPM単位のRNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を行うように構成した。ペプチドがMHCクラスII分子によって提示される尤度を予想するためにこれら5つの変数(ペプチド配列、隣接配列、RNA発現、及び遺伝子識別子)のうちの4つの変数の相対的な重要度を定量化するため、上記に述べた5つのモデル例の各モデル例を、4つの変数の異なる組み合わせを用いて、試験データセットからのデータを用いて試験した。具体的には、試験データセットの各ペプチドについて、モデル例1は、RNA発現を除いた、ペプチド配列、隣接配列、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。同様に、試験データセットの各ペプチドについて、モデル例2は、隣接配列を除いた、ペプチド配列、RNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。同様に、試験データセットの各ペプチドについて、モデル例3は、ペプチド配列を除いた、隣接配列、RNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。同様に、試験データセットの各ペプチドについて、モデル例4は、遺伝子識別子を除いた、隣接配列、RNA発現、ペプチド配列、及び試料識別子に基づいてペプチド提示尤度の予想を生成した。最後に、試験データセットの各ペプチドについて、モデル例5は、隣接配列、RNA発現、ペプチド配列、遺伝子識別子、及び試料識別子の5つの変数のすべてに基づいてペプチド提示尤度の予想を生成した。
これら5つのモデル例のそれぞれの性能を図13Hの線グラフに示す。具体的には、5つのモデル例のそれぞれは、モデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すROC曲線に関連付けられる。例えば、図13Hは、RNA発現を除いた、ペプチド配列、隣接配列、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例1の曲線を示している。図13Hは、隣接配列を除いた、ペプチド配列、RNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例2の曲線を示している。図13Hはまた、ペプチド配列を除いた、隣接配列、RNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例3の曲線も示している。図13Hはまた、遺伝子識別子を除いた、隣接配列、RNA発現、ペプチド配列、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例4の曲線も示している。そして最後に、図13Hは、隣接配列、RNA発現、ペプチド配列、試料識別子、及び遺伝子識別子の5つの変数のすべてに基づいてペプチド提示尤度の予想を生成したモデル例5の曲線を示している。
上記に述べたように、あるペプチドがMHCクラスII分子によって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すROC曲線のAUCを特定することによって定量化される。AUCが大きいモデルほど、AUCが小さいモデルと比較してより高い性能(すなわちより高い精度)を有する。図13Hに示されるように、隣接配列、RNA発現、ペプチド配列、試料識別子、及び遺伝子識別子の5つの変数のすべてに基づいてペプチド提示尤度の予想を生成したモデル例5の曲線は0.98と最も高いAUCを実現した。したがって、ペプチド提示の予想を生成するために5つの変数すべてを用いたモデル例5は、最良の性能を実現した。隣接配列を除いた、ペプチド配列、RNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例2の曲線は、0.97と2番目に高いAUCを実現した。したがって、隣接配列は、ペプチドがMHCクラスII分子によって提示される尤度を予想するうえで最も重要度の低い変数として特定することができる。遺伝子識別子を除いた、隣接配列、RNA発現、ペプチド配列、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例4の曲線は、0.96と3番目に高いAUCを実現した。したがって、遺伝子識別子は、ペプチドがMHCクラスII分子によって提示される尤度を予想するうえで2番目に重要度の低い変数として特定することができる。ペプチド配列を除いた、隣接配列、RNA発現、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例3の曲線は、0.88と最も低いAUCを実現した。したがって、ペプチド配列は、ペプチドがMHCクラスII分子によって提示される尤度を予想するうえで最も重要な変数として特定することができる。RNA発現を除いた、ペプチド配列、隣接配列、遺伝子識別子、及び試料識別子に基づいてペプチド提示尤度の予想を生成したモデル例1の曲線は、0.95と2番目に低いAUCを実現した。したがって、RNA発現は、ペプチドがMHCクラスII分子によって提示される尤度を予想するうえで2番目に重要な変数として特定することができる。
図13Iは、ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの4つの異なる提示モデルの性能を比較した線グラフである。
図13Iで試験される第1のモデルは、本明細書では「完全非相互作用モデル」と呼ばれる。完全非相互作用モデルは、アレル非相互作用変数w及びアレル相互作用変数x が例えばニューラルネットワークのような別々の依存性関数に入力された後、これらの別々の依存性関数の出力が加え合わされる、上記に述べた提示モデルの一実施形態である。具体的には、完全非相互作用モデルは、アレル非相互作用変数wが依存性関数gに入力され、アレル相互作用変数x が別の依存性関数gに入力され、依存性関数gと依存性関数gの出力が互いに加え合わされる、上記に述べた提示モデルの一実施形態である。したがって、いくつかの実施形態では、完全非相互作用モデルは、上記に示した式8を用いてペプチド提示の尤度を決定する。さらに、アレル非相互作用変数wが依存性関数gに入力され、アレル相互作用変数x が別の依存性関数gに入力され、依存性関数gと依存性関数gの出力が加え合わされる完全非相互作用モデルの実施形態は、セクションVIII.B.2.の前半部分、セクションVIII.B.3.の後半部分、セクションVIII.C.3.の前半部分、及びセクションVIII.C.6.の前半部分に関して上記に詳細に述べられている。
図13Iで試験される第2のモデルは、本明細書では「完全相互作用モデル」と呼ばれる。完全相互作用モデルは、例えばニューラルネットワークのような別々の依存性関数に入力される前にアレル非相互作用変数wがアレル相互作用変数x と直接連結される、上記に述べた提示モデルの一実施形態である。したがって、いくつかの実施形態では、完全相互作用モデルは、上記に示した式9を用いてペプチド提示の尤度を決定する。さらに、変数が依存性関数に入力される前にアレル非相互作用変数wがアレル相互作用変数x と連結される完全相互作用モデルの実施形態は、セクションVIII.B.2.の後半部分、セクションVIII.C.2.の後半部分、及びセクションVIII.C.5.の後半部分に関して上記に詳細に述べられている。
図13Iで試験される第3のモデルは、本明細書では「CNNモデル」と呼ばれる。CNNモデルは、畳み込みニューラルネットワークで構成され、上記に述べた完全非相互作用モデルと類似している。しかしながら、CNNモデルの畳み込みニューラルネットワークの層は、完全非相互作用モデルのニューラルネットワークの層とは異なっている。具体的には、CNNモデルの畳み込みニューラルネットワークの入力層は、20マーペプチドストリングを受け入れ、続いてこの20マーペプチドストリングを(n,20,21)テンソルとして埋め込む。CNNモデルの畳み込みニューラルネットワークの次の各層は、ストライドが1でサイズ5の1D畳み込みカーネル層、グローバル最大プーリング層、p=0.2のドロップアウト層、及び最後にReLu活性化を伴う全結合34ノード層からなる。
図13Iで試験される第4及び最後のモデルは、本明細書では「LSTMモデル」と呼ばれる。LSTMモデルは、長期短期記憶ニューラルネットワークで構成される。LSTMモデルの長期短期記憶ニューラルネットワークの入力層は、20マーペプチドストリングを受け入れ、続いてこの20マーペプチドストリングを(n,20,21)テンソルとして埋め込む。LSTMモデルの長期短期記憶ニューラルネットワークの次の各層は、128個のノードを有する長期短期記憶層、p=0.2のドロップアウト層、及び最後にReLu活性化を伴う全結合34ノード層からなる。
ペプチドのデータセット内のペプチドがMHCクラスII分子によって提示される尤度を予想するために図13Iの4つのモデルのそれぞれを使用するのに先立って、各モデルを上記に述べた38種の試料の訓練データセットを用いて訓練し、上記に述べた検証データセットを用いて検証した。各モデルのこの訓練及び検証に続き、4つのモデルのそれぞれを上記に述べた除外された39番目の試料の試験データセットを用いて試験した。具体的には、4つのモデルのそれぞれについて、試験データセットの各ペプチドをモデルに入力し、続いてモデルがそのペプチドの提示尤度を出力した。
これら4つのモデルのそれぞれの性能を図13Iの線グラフに示す。具体的には、4つのモデルのそれぞれは、モデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すROC曲線に関連付けられる。例えば、図13Iは、CNNモデルのROC曲線、完全相互作用モデルのROC曲線、LSTMモデルのROC曲線、及び完全非相互作用モデルのROC曲線を示している。
上記に述べたように、あるペプチドがMHCクラスII分子によって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すROC曲線のAUCを特定することによって定量化される。AUCが大きいモデルほど、AUCが小さいモデルと比較してより高い性能(すなわちより高い精度)を有する。図13Iに示されるように、完全相互作用モデルの曲線は0.982と最も高いAUCを実現した。したがって、完全相互作用モデルは最良の性能を実現した。完全非相互作用モデルの曲線は、0.977と2番目に高いAUCを実現した。したがって、完全非相互作用モデルは2番目に良好な性能を実現した。CNNモデルの曲線は、0.947と最も低いAUCを実現した。したがって、CNNモデルは最も悪い性能となった。LSTMモデルの曲線は、0.952と2番目に低いAUCを実現した。したがって、LSTMモデルは2番目に悪い性能となった。しかしながら、図13Iで試験したすべてのモデルが0.9よりも大きいAUCを有している点に注目されたい。したがって、モデル間のアーキテクチャの相違にもよらず、図13Iで試験したすべてのモデルは、ペプチド提示の比較的正確な予想を実現することが可能である。
図13Jは、2つの異なる基準が与えられた2つの例示的なベスト・イン・クラスの従来モデル、ならびにアレル相互作用変数及びアレル非相互作用変数の2つの異なるセットが与えられた2つの実施例提示モデルの、ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度を予想するうえでの性能を比較した線グラフである。具体的には、図13Jは、予想を生成するうえで最小NetMHCII2.3で予想された結合親和性を基準として用いる実施例のベスト・イン・クラス従来モデル(モデル例1)、予想を生成するうえで最小NetMHCII2.3で予想された結合ランクを基準として用いる実施例のベスト・イン・クラス従来モデル(モデル例2)、MHCクラスII分子のタイプ及びペプチド配列に基づいてペプチド提示尤度の予想を生成するモデル例(モデル例4)、ならびに、MHCクラスII分子のタイプ、ペプチド配列、RNA発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度の予想を生成するモデル例(モデル例3)の性能を比較した線グラフである。
図13Jにおいてモデル例1及びモデル例2として用いられているベスト・イン・クラス従来モデルは、NetMHCII2.3モデルである。NetMHCII2.3モデルは、MHCクラスII分子のタイプ及びペプチド配列に基づいてペプチド提示尤度の予想を生成する。NetMHCII2.3モデルは、NetMHCII2.3のウェブサイト(www.cbs.dtu.dk/services/NetMHCII/, PMID 29315598)76を用いて試験した。
上記に述べたように、NetMHCII2.3モデルは2つの基準にしたがって試験した。具体的には、モデル例1は、最小NetMHCII2.3で予想された結合親和性にしたがってペプチド提示尤度の予想を生成し、モデル例2は、最小NetMHCII2.3で予想された結合ランクにしたがってペプチド提示尤度の予想を生成した。
モデル例3及びモデル例4として用いられている提示モデルは、質量分析によって得られたデータを用いて訓練される、本明細書に開示される提示モデルの実施形態である。上記に述べたように、提示モデルは、アレル相互作用及びアレル非相互作用変数の2つの異なるセットに基づいてペプチド提示尤度の予想を生成した。具体的には、モデル例4は、MHCクラスII分子のタイプ及びペプチド配列(NetMHCII2.3モデルで用いたものと同じ変数)に基づいてペプチド提示尤度の予想を生成し、モデル例3は、MHCクラスII分子のタイプ、ペプチド配列、RNA発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度の予想を生成した。
ペプチドの試験データセット内のペプチドがMHCクラスII分子によって提示される尤度を図13Jの例示的モデルを用いて予想するのに先立って、各モデルを訓練及び検証した。NetMHCII2.3モデル(モデル例1及びモデル例2)は、免疫エピトープデータベース(IEDB, www.iedb.org)に蓄積されたHLAペプチド結合親和性アッセイに基づいてそれ自体の訓練及び検証データセットを用いて訓練及び検証した。NetMHCII2.3モデルを訓練するために使用される訓練データセットは、ほとんど15マーペプチドのみで構成されることが知られている。これに対して、モデル例3及び4は、図13Hに関して上記に述べた訓練データセットを用いて訓練し、図13Hに関して上記に述べた検証データセットを用いて検証した。
各モデルの訓練及び検証に続き、モデルのそれぞれを試験データセットを用いて試験した。上記に述べたように、NetMHCII2.3モデルはほとんど15マーペプチドのみで構成されたデータセットで訓練されるが、これはNetMHCII3.2が異なる重さのペプチドに異なる優先順位を与えることができないことを意味し、これにより、すべての長さのペプチドを含むHLAクラスIIの提示の質量分析データに対するNetMHCII3.2の予想性能が低下する。したがって、変動するペプチド長によって影響されないモデル間の適正な比較を与えるため、試験データセットは15マーペプチドのみを含むものとした。具体的には、試験データセットは、933種の15マーペプチドで構成されるものとした。試験データセット内の933種のペプチドのうちの40種は、MHCクラスII分子により、具体的には、HLA-DRB1*07:01、HLA-DRB1*15:01、HLA-DRB4*01:03、及びHLA-DRB5*01:01分子により提示された。試験データセットに含まれるペプチドは、上記に述べた訓練データセットからは除外されていた。
試験データセットを用いて各モデル例を試験するため、モデル例のそれぞれについて、試験データセット内の933種のペプチドの各ペプチドについて、モデル によってペプチドの提示尤度の予想を生成した。具体的には、試験データセット内の各ペプチドについて、モデル例1は、MHCクラスII分子によるそのペプチドの提示スコアを、MHCクラスII分子のタイプ及びペプチド配列を用い、試験データセット内の4つのHLAクラスII DRアレルにわたって最小NetMHCII2.3により予想された結合親和性によってペプチドをランク付けすることにより生成した。同様に、試験データセット内の各ペプチドについて、モデル例2は、MHCクラスII分子によるそのペプチドの提示スコアを、MHCクラスII分子のタイプ及びペプチド配列を用い、試験データセット内の4つのHLAクラスII DRアレルにわたって最小NetMHCII2.3により予想された結合ランク(すなわち、quantile正規化した結合親和性)によってペプチドをランキングすることにより生成した。試験データセット内の各ペプチドについて、モデル例4は、MHCクラスII分子のタイプ及びペプチド配列に基づいてMHCクラスII分子によるそのペプチドの提示尤度を生成した。同様に、試験データセット内の各ペプチドについて、モデル例3は、MHCクラスII分子のタイプ、ペプチド配列、RNA発現、遺伝子識別子、及び隣接配列に基づいてMHCクラスII分子によるそのペプチドの提示尤度を生成した。
これら4つのモデル例のそれぞれの性能を図13Jの線グラフに示す。具体的には、4つのモデル例のそれぞれは、モデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すROC曲線に関連付けられる。例えば、図13Jは、予想を生成するために最小NetMHCII2.3により予想された結合親和性を用いたモデル例1のROC曲線、予想を生成するために最小NetMHCII2.3により予想された結合ランクを用いたモデル例2のROC曲線、MHCクラスII分子のタイプ及びペプチド配列に基づいてペプチド提示尤度を生成したモデル例4のROC曲線、ならびに、MHCクラスII分子のタイプ、ペプチド配列、RNA発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成したモデル例3のROC曲線を示している。
上記に述べたように、あるペプチドがMHCクラスII分子によって提示される尤度を予想するうえでのモデルの性能は、そのモデルによって生成された各予想について偽陽性率に対する真の陽性率の比を示すROC曲線のAUCを特定することによって定量化される。AUCが大きいモデルほど、AUCが小さいモデルと比較してより高い性能(すなわちより高い精度)を有する。図13Jに示されるように、MHCクラスII分子のタイプ、ペプチド配列、RNA発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成したモデル例3の曲線は、0.95と最も高いAUCを実現した。したがって、MHCクラスII分子のタイプ、ペプチド配列、RNA発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成したモデル例3は、最も良好な性能を実現した。MHCクラスII分子のタイプ及びペプチド配列に基づいてペプチド提示尤度を生成したモデル例4の曲線は、0.91と2番目に高いAUCを実現した。したがって、MHCクラスII分子のタイプ及びペプチド配列に基づいてペプチド提示尤度を生成したモデル例4は、2番目に良好な性能を実現した。予想を生成するために最小NetMHCII2.3により予想した結合親和性を用いたモデル例1の曲線は、0.75と最も低いAUCとなった。したがって、予想を生成するために最小NetMHCII2.3により予想した結合親和性を用いたモデル例1の曲線は、最も悪い性能となった。予想を生成するために最小NetMHCII2.3により予想した結合ランクを用いたモデル例2の曲線は、0.76と2番目に低いAUCとなった。したがって、予想を生成するために最小NetMHCII2.3により予想した結合ランクを用いたモデル例2の曲線は、2番目に悪い性能となった。
図13Jに示されるように、モデル例1及び2とモデル例3及び4との間の性能の隔たりは大きい。具体的には、NetMHCII2.3モデル(最小NetMHCII2.3により予想した結合親和性、または最小NetMHCII2.3により予想した結合ランクのいずれかの基準を用いるもの)の性能は、本明細書に開示される提示モデル(MHCクラスII分子の種類及びペプチド配列、またはMHCクラスII分子の種類、ペプチド配列、RNA発現、遺伝子識別子、及び隣接配列に基づいてペプチド提示尤度を生成するもの)の性能よりもほぼ25%低い。したがって、図13Jは、本明細書に開示される提示モデルは、現在のベスト・イン・クラスの従来モデルであるNetMHCII2.3モデルよりも大幅に正確な提示予想を実現することが可能であることを示すものである。
いっそうさらには、上記で述べたように、NetMHCII2.3モデルは、ほとんど15マーペプチドのみで構成された訓練データセットで訓練される。その結果、NetMHCII2.3モデルは、どのペプチド長がMHCクラスII分子によってより提示されやすいかを学習するようには訓練されない。したがって、NetMHCII2.3モデルは、MHCクラスII分子によるペプチド提示の尤度のその予想を、ペプチドの長さにしたがって重み付けしない。換言すれば、NetMHCII2.3モデルは、MHCクラスII分子によるペプチド提示の尤度のその予想をアミノ酸15個の最頻ペプチド長の外側の長さを有するペプチドについては変更しない。その結果、NetMHCII2.3モデルは、アミノ酸15個よりも長いかまたは短い長さを有するペプチドの提示の尤度を過大に予測する。
これに対して、本明細書に開示される提示モデルは、質量分析によって得られたペプチドデータを用いて訓練されることから、すべての異なる長さのペプチドを含む訓練データセットで訓練することができる。その結果、本明細書に開示される開示モデルは、どのペプチド長がMHCクラスII分子によってより提示されやすいかを学習することができる。したがって、本明細書に開示される提示モデルは、MHCクラスII分子によるペプチド提示の尤度のその予想を、ペプチドの長さにしたがって重み付けすることができる。換言すれば、本明細書に開示される提示モデルは、MHCクラスII分子によるペプチド提示の尤度のそれらの予想をアミノ酸15個の最頻ペプチド長の外側の長さを有するペプチドについて変更することができる。その結果、本明細書に開示される提示モデルは、現在のベスト・イン・クラスの従来モデルであるNetMHCII2.3モデルと比較して、アミノ酸15個よりも長いかまたは短い長さを有するペプチドについて、大幅に正確な提示予想を実現することが可能である。これは、MHCクラスII分子によるペプチド提示の尤度を予想するために本明細書に開示される提示モデルを用いることの利点の1つである。
X.B.MHCアレルについて求められるパラメータの例
以下は、クラスII MHCアレルであるHLA- DRB1*12:01及びHLA-DRB1*10:01についての潜在的なアレルごとの提示尤度を生成する複数アレル提示モデル(式(16))のバリエーションについて求められるパラメータのセットを示す。
Figure 0007217711000064
式中、relu(・)は、正規化線形ユニット(ReLU)関数、W、b、W、及びbは、モデルについて求められたパラメータθのセットである。アレル相互作用変数Xは、入力ペプチド当たり1行のワンホットエンコードされ、中間パッド化された(middle-padded)ペプチド配列からなる(1×399)行列に含まれる。Wの次元は(399×256)、bの次元は(1×256)、Wの次元は(256×2)、bの次元は(1×2)である。出力の第1の列は、アレルHLA-DRB1*12:01によるそのペプチド配列の潜在的なアレルごとの提示の確率を示し、出力の第2の列は、アレルHLA-DRB1*10:01によるそのペプチド配列の潜在的なアレルごとの提示の確率を示す。デモンストレーションの目的で、b、b、W、及びWの値を以下に示す。
Figure 0007217711000065
Figure 0007217711000066
Figure 0007217711000067
Figure 0007217711000068
Figure 0007217711000069
Figure 0007217711000070
Figure 0007217711000071
Figure 0007217711000072
Figure 0007217711000073
Figure 0007217711000074
Figure 0007217711000075
Figure 0007217711000076
Figure 0007217711000077
Figure 0007217711000078
Figure 0007217711000079
Figure 0007217711000080
Figure 0007217711000081
Figure 0007217711000082
Figure 0007217711000083
Figure 0007217711000084
Figure 0007217711000085
Figure 0007217711000086
Figure 0007217711000087
Figure 0007217711000088
Figure 0007217711000089
Figure 0007217711000090
Figure 0007217711000091
Figure 0007217711000092
Figure 0007217711000093
Figure 0007217711000094
Figure 0007217711000095
Figure 0007217711000096
Figure 0007217711000097
Figure 0007217711000098
Figure 0007217711000099
Figure 0007217711000100
Figure 0007217711000101
Figure 0007217711000102
Figure 0007217711000103
Figure 0007217711000104
Figure 0007217711000105
Figure 0007217711000106
Figure 0007217711000107
Figure 0007217711000108
Figure 0007217711000109
Figure 0007217711000110
Figure 0007217711000111
Figure 0007217711000112
Figure 0007217711000113
Figure 0007217711000114
Figure 0007217711000115
Figure 0007217711000116
Figure 0007217711000117
Figure 0007217711000118
Figure 0007217711000119
Figure 0007217711000120
Figure 0007217711000121
Figure 0007217711000122
Figure 0007217711000123
Figure 0007217711000124
Figure 0007217711000125
Figure 0007217711000126
Figure 0007217711000127
Figure 0007217711000128
Figure 0007217711000129
Figure 0007217711000130
Figure 0007217711000131
Figure 0007217711000132
Figure 0007217711000133
Figure 0007217711000134
Figure 0007217711000135
Figure 0007217711000136
Figure 0007217711000137
Figure 0007217711000138
Figure 0007217711000139
Figure 0007217711000140
Figure 0007217711000141
Figure 0007217711000142
Figure 0007217711000143
Figure 0007217711000144
Figure 0007217711000145
Figure 0007217711000146
Figure 0007217711000147
Figure 0007217711000148
Figure 0007217711000149
Figure 0007217711000150
Figure 0007217711000151
Figure 0007217711000152
Figure 0007217711000153
Figure 0007217711000154
Figure 0007217711000155
Figure 0007217711000156
Figure 0007217711000157
Figure 0007217711000158
Figure 0007217711000159
Figure 0007217711000160
Figure 0007217711000161
Figure 0007217711000162
Figure 0007217711000163
Figure 0007217711000164
Figure 0007217711000165
Figure 0007217711000166
Figure 0007217711000167
Figure 0007217711000168
Figure 0007217711000169
Figure 0007217711000170
Figure 0007217711000171
Figure 0007217711000172
Figure 0007217711000173
Figure 0007217711000174
Figure 0007217711000175
Figure 0007217711000176
Figure 0007217711000177
Figure 0007217711000178
Figure 0007217711000179
Figure 0007217711000180
Figure 0007217711000181
Figure 0007217711000182
Figure 0007217711000183
Figure 0007217711000184
Figure 0007217711000185
Figure 0007217711000186
Figure 0007217711000187
Figure 0007217711000188
Figure 0007217711000189
Figure 0007217711000190
Figure 0007217711000191
Figure 0007217711000192
Figure 0007217711000193
Figure 0007217711000194
Figure 0007217711000195
Figure 0007217711000196
Figure 0007217711000197
Figure 0007217711000198
Figure 0007217711000199
Figure 0007217711000200
Figure 0007217711000201
Figure 0007217711000202
Figure 0007217711000203
Figure 0007217711000204
Figure 0007217711000205
Figure 0007217711000206
Figure 0007217711000207
Figure 0007217711000208
Figure 0007217711000209
Figure 0007217711000210
Figure 0007217711000211
Figure 0007217711000212
Figure 0007217711000213
Figure 0007217711000214
Figure 0007217711000215
Figure 0007217711000216
Figure 0007217711000217
Figure 0007217711000218
Figure 0007217711000219
Figure 0007217711000220
Figure 0007217711000221
Figure 0007217711000222
Figure 0007217711000223
Figure 0007217711000224
Figure 0007217711000225
Figure 0007217711000226
Figure 0007217711000227
Figure 0007217711000228
Figure 0007217711000229
Figure 0007217711000230
Figure 0007217711000231
Figure 0007217711000232
Figure 0007217711000233
Figure 0007217711000234
Figure 0007217711000235
Figure 0007217711000236
Figure 0007217711000237
Figure 0007217711000238
Figure 0007217711000239
Figure 0007217711000240
Figure 0007217711000241
Figure 0007217711000242
Figure 0007217711000243
Figure 0007217711000244
Figure 0007217711000245
Figure 0007217711000246
Figure 0007217711000247
Figure 0007217711000248
Figure 0007217711000249
Figure 0007217711000250
Figure 0007217711000251
Figure 0007217711000252
Figure 0007217711000253
Figure 0007217711000254
Figure 0007217711000255
Figure 0007217711000256
Figure 0007217711000257
Figure 0007217711000258
Figure 0007217711000259
Figure 0007217711000260
Figure 0007217711000261
Figure 0007217711000262
Figure 0007217711000263
Figure 0007217711000264
Figure 0007217711000265
Figure 0007217711000266
Figure 0007217711000267
Figure 0007217711000268
Figure 0007217711000269
Figure 0007217711000270
Figure 0007217711000271
Figure 0007217711000272
Figure 0007217711000273
Figure 0007217711000274
Figure 0007217711000275
Figure 0007217711000276
Figure 0007217711000277
Figure 0007217711000278
Figure 0007217711000279
Figure 0007217711000280
Figure 0007217711000281
Figure 0007217711000282
Figure 0007217711000283
Figure 0007217711000284
Figure 0007217711000285
Figure 0007217711000286
Figure 0007217711000287
Figure 0007217711000288
Figure 0007217711000289
Figure 0007217711000290
Figure 0007217711000291
Figure 0007217711000292
Figure 0007217711000293
Figure 0007217711000294
Figure 0007217711000295
Figure 0007217711000296
Figure 0007217711000297
Figure 0007217711000298
Figure 0007217711000299
Figure 0007217711000300
Figure 0007217711000301
Figure 0007217711000302
Figure 0007217711000303
Figure 0007217711000304
Figure 0007217711000305
Figure 0007217711000306
Figure 0007217711000307
Figure 0007217711000308
Figure 0007217711000309
Figure 0007217711000310
Figure 0007217711000311
Figure 0007217711000312
Figure 0007217711000313
Figure 0007217711000314
Figure 0007217711000315
Figure 0007217711000316
Figure 0007217711000317
Figure 0007217711000318
Figure 0007217711000319
Figure 0007217711000320
Figure 0007217711000321
Figure 0007217711000322
Figure 0007217711000323
Figure 0007217711000324
Figure 0007217711000325
Figure 0007217711000326
Figure 0007217711000327
Figure 0007217711000328
Figure 0007217711000329
Figure 0007217711000330
Figure 0007217711000331
Figure 0007217711000332
Figure 0007217711000333
Figure 0007217711000334
Figure 0007217711000335
Figure 0007217711000336
Figure 0007217711000337
Figure 0007217711000338
Figure 0007217711000339
Figure 0007217711000340
Figure 0007217711000341
Figure 0007217711000342
Figure 0007217711000343
Figure 0007217711000344
Figure 0007217711000345
Figure 0007217711000346
Figure 0007217711000347
Figure 0007217711000348
Figure 0007217711000349
Figure 0007217711000350
Figure 0007217711000351
Figure 0007217711000352
Figure 0007217711000353
Figure 0007217711000354
Figure 0007217711000355
Figure 0007217711000356
Figure 0007217711000357
Figure 0007217711000358
Figure 0007217711000359
Figure 0007217711000360
Figure 0007217711000361
Figure 0007217711000362
Figure 0007217711000363
Figure 0007217711000364
Figure 0007217711000365
Figure 0007217711000366
Figure 0007217711000367
Figure 0007217711000368
Figure 0007217711000369
Figure 0007217711000370
Figure 0007217711000371
Figure 0007217711000372
Figure 0007217711000373
Figure 0007217711000374
Figure 0007217711000375
Figure 0007217711000376
Figure 0007217711000377
Figure 0007217711000378
Figure 0007217711000379
Figure 0007217711000380
Figure 0007217711000381
Figure 0007217711000382
Figure 0007217711000383
Figure 0007217711000384
Figure 0007217711000385
Figure 0007217711000386
Figure 0007217711000387
Figure 0007217711000388
Figure 0007217711000389
Figure 0007217711000390
Figure 0007217711000391
Figure 0007217711000392
Figure 0007217711000393
Figure 0007217711000394
Figure 0007217711000395
Figure 0007217711000396
Figure 0007217711000397
Figure 0007217711000398
Figure 0007217711000399
Figure 0007217711000400
Figure 0007217711000401
Figure 0007217711000402
Figure 0007217711000403
Figure 0007217711000404
Figure 0007217711000405
Figure 0007217711000406
Figure 0007217711000407
Figure 0007217711000408
Figure 0007217711000409
Figure 0007217711000410
Figure 0007217711000411
Figure 0007217711000412
XI.例示的なコンピュータ
図14は、図1及び図3に示した実体を実施するための例示的なコンピュータ1400を説明する。コンピュータ1400は、チップセット1404に連結された少なくとも1つのプロセッサ1402を含む。チップセット1404は、メモリコントローラハブ1420及び入力/出力(I/O)コントローラハブ1422を含む。メモリ1406及びグラフィックスアダプタ1412は、メモリコントローラハブ1420に連結されており、ディスプレイ1418は、グラフィックスアダプタ1412に連結されている。記憶デバイス1408、入力装置1414、及びネットワークアダプタ1416は、I/Oコントローラハブ1422に連結されている。コンピュータ1400の他の実施形態は、異なるアーキテクチャを有する。
記憶デバイス1408は、ハードドライブ、コンパクトディスク読み出し専用メモリ(CD-ROM)、DVD、またはソリッドステートメモリ装置などの、非一時的なコンピュータ可読の記憶媒体である。メモリ1406は、プロセッサ1402によって使用される命令及びデータを保持する。入力インターフェイス1414は、タッチスクリーンインターフェイス、マウス、トラックボール、もしくは他のタイプのポインティングデバイス、キーボード、またはそれらのいくつかの組み合わせであり、データをコンピュータ1400中に入力するために使用される。いくつかの実施形態において、コンピュータ1400は、ユーザーからのジェスチャーを介して、入力インターフェイス1414からの入力(例えば、コマンド)を受け取るように構成されていてもよい。グラフィックスアダプタ1412は、ディスプレイ1418上に画像及び他の情報を表示する。ネットワークアダプタ1416は、コンピュータ1400を、1つ以上のコンピュータネットワークに連結する。
コンピュータ1400は、本明細書に記載した機能性を提供するためのコンピュータプログラムモジュールを遂行するように適合している。本明細書において使用される場合、「モジュール」という用語は、特定の機能性を提供するために使用されるコンピュータプログラム論理を指す。したがって、モジュールは、ハードウェア、ファームウェア、及び/またはソフトウェアにおいて実行されることができる。一実施形態では、プログラムモジュールは、記憶デバイス1408に保存され、メモリ1406中にロードされ、プロセッサ1402によって遂行される。
図1の実体によって使用されるコンピュータ1400のタイプは、実体によって必要とされる実施形態及びプロセシングパワーに応じて変動することができる。例えば、提示特定システム160は、単一のコンピュータ1400、または、例えばサーバーファームにおいてネットワークを通して互いに通信する複数のコンピュータ1400において、起動することができる。コンピュータ1400は、グラフィックスアダプタ1412及びディスプレイ1418などの、上記の構成要素のうちのいくつかを欠いてもよい。
参考文献
Figure 0007217711000413
Figure 0007217711000414
Figure 0007217711000415
Figure 0007217711000416
Figure 0007217711000417

Claims (32)

  1. 対象の1つまたは複数の腫瘍細胞に由来する、前記腫瘍細胞の表面上に提示される可能性の高い1つ以上の新生抗原を特定することによって、個別化されたがんワクチンを構築するための出力を生成するための方法であって、
    前記対象の前記腫瘍細胞及び正常細胞からエクソーム、トランスクリプトーム、または全ゲノムのヌクレオチドシークエンシングデータのうちの少なくとも1つを取得する工程であって、前記ヌクレオチドシークエンシングデータを用いて、前記腫瘍細胞由来のヌクレオチドシークエンシングデータと前記正常細胞由来のヌクレオチドシークエンシングデータとの比較により特定された新生抗原のセットの各新生抗原のペプチド配列を表すデータが取得され、各新生抗原のペプチド配列が、前記ペプチド配列を前記対象の前記正常細胞から特定された対応する野生型ペプチド配列とは異なるものとする少なくとも1つの変化を含む、工程;
    前記新生抗原のそれぞれの前記ペプチド配列を、対応する数値ベクトルにエンコードする工程であって、各数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、工程;
    コンピュータのプロセッサを使用して前記数値ベクトルをディープラーニング提示モデルに入力して、前記新生抗原のセットについての提示尤度のセットを生成する、工程であって、前記セット内の各提示尤度が、対応する新生抗原が1つ以上のクラスII MHCアレルによって前記対象の前記腫瘍細胞の前記表面上に提示される尤度を表し、前記ディープラーニング提示モデルが、少なくとも訓練データセットに基づいて特定される複数のパラメータ、ならびに、入力として受け取られた前記数値ベクトルと、前記数値ベクトル及び前記パラメータに基づいた出力として生成される前記提示尤度との間の関係を表す関数を含み、
    前記訓練データセットが、
    複数の試料のうちの少なくとも1つに存在すると特定された、少なくとも1つのクラスII MHCアレルに結合したペプチドの存在を測定する質量分析によって得られた、ラベル、
    数値ベクトルとしてエンコードされた訓練ペプチド配列であって、前記数値ベクトルが、前記ペプチド配列を構成する複数のアミノ酸と、前記ペプチド配列における前記アミノ酸の位置のセットとに関する情報を含む、訓練ペプチド配列、及び
    前記訓練ペプチド配列に関連付けられた、少なくとも1つのHLAアレル
    を含む、工程;
    前記提示尤度のセットに基づいて前記新生抗原のセットのサブセットを選択して、選択された新生抗原のセットを生成する、工程;ならびに
    前記選択された新生抗原のセットに基づいて、前記個別化されたがんワクチンを構築するための前記出力を生成する工程
    を含む、前記方法。
  2. 前記ペプチド配列をエンコードする工程が、ワンホットエンコーディングスキームを用いて前記ペプチド配列をエンコードすることを含む、請求項1に記載の方法。
  3. 前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
    前記新生抗原の前記ペプチド配列に前記ディープラーニング提示モデルを適用して、前記ペプチド配列の特定の位置の特定のアミノ酸に基づいて、前記1つ以上のクラスII MHCアレルのそれぞれについての依存性スコアを生成することであって、前記依存性スコアが、前記クラスII MHCアレルが前記新生抗原を提示するかどうかを示す、こと
    を含む、請求項1または2に記載の方法。
  4. 前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、
    前記依存性スコアを変換して、各クラスII MHCアレルについての対応するアレルごとの尤度を生成することであって、前記アレルごとの尤度が、対応するクラスII MHCアレルが前記対応する新生抗原を提示する尤度を示す、こと、及び
    前記アレルごとの尤度を組み合わせて、前記新生抗原の前記提示尤度を生成する、こと
    をさらに含む、請求項3に記載の方法。
  5. 前記依存性スコアを変換することが、前記新生抗原の提示を、前記1つ以上のクラスII MHCアレルにわたって相互排他的なものとしてモデル化する、請求項4に記載の方法。
  6. 前記数値ベクトルを前記ディープラーニング提示モデルに入力することが、前記依存性スコアの組み合わせを変換して前記提示尤度を生成することをさらに含み、
    前記依存性スコアの組み合わせを変換することが、前記新生抗原の提示を、前記1つ以上のクラスII MHCアレル間で干渉するものとしてモデル化する、
    請求項3に記載の方法。
  7. 前記提示尤度のセットが、少なくとも1つ以上のアレル非相互作用特性によってさらに特定され、前記方法が、
    前記アレル非相互作用特性に前記提示モデルを適用して、前記アレル非相互作用特性に基づいて、前記アレル非相互作用特性についての依存性スコアを生成する工程であって、前記依存性スコアが、前記対応する新生抗原のペプチド配列が提示されるかどうかを示す、工程
    をさらに含む、請求項3に記載の方法。
  8. 前記1つ以上のクラスII MHCアレルの各クラスII MHCアレルについての前記依存性スコアを、前記アレル非相互作用特性についての前記依存性スコアと組み合わせること;
    各クラスII MHCアレルについての前記組み合わされた依存性スコアを変換して、各クラスII MHCアレルについてのアレルごとの尤度を生成することであって、前記アレルごとの尤度が、前記対応するクラスII MHCアレルが前記対応する新生抗原を提示する尤度を示す、こと;及び
    前記アレルごとの尤度を組み合わせて、前記提示尤度を生成する、こと
    をさらに含む、請求項7に記載の方法。
  9. 前記クラスII MHCアレルのそれぞれについての前記依存性スコアと、前記アレル非相互作用特性についての前記依存性スコアとの組み合わせを変換して、前記提示尤度を生成する、こと
    をさらに含む、請求項8に記載の方法。
  10. 前記1つ以上のクラスII MHCアレルが、2つ以上のクラスII MHCアレルを含む、請求項1~9のいずれか一項に記載の方法。
  11. 前記少なくとも1つのクラスII MHCアレルが、2つ以上の異なるタイプのクラスII MHCアレルを含む、請求項1~10のいずれか一項に記載の方法。
  12. 前記複数の試料が、
    (a)1つのMHCクラスIIアレルを発現するように操作された1つ以上の細胞株、
    (b)複数のMHCクラスIIアレルを発現するように操作された1つ以上の細胞株、
    (c)複数の患者から得られた、または複数の患者に由来する1つ以上のヒト細胞株、
    (d)複数の患者から得られた新鮮なまたは凍結された腫瘍試料、及び
    (e)複数の患者から得られた新鮮なまたは凍結された組織試料
    のうちの少なくとも1つを含む、請求項1~11のいずれか一項に記載の方法。
  13. 前記訓練データセットが、
    (a)単離されたペプチドの少なくとも1つについてのペプチド-MHC結合親和性の測定値に関連するデータ、及び
    (b)単離されたペプチドの少なくとも1つについてのペプチド-MHC結合安定性の測定値に関連するデータ
    のうちの少なくとも1つをさらに含む、請求項1~12のいずれか一項に記載の方法。
  14. 前記提示尤度のセットが、少なくとも、前記対象における前記1つ以上のクラスII MHCアレルの発現レベルによって、さらに特定され、前記発現レベルがRNA-seqまたは質量分析により測定される、請求項1~13のいずれか一項に記載の方法。
  15. 前記提示尤度のセットが、少なくともアレル相互作用特性によってさらに特定され、前記アレル相互作用特性が、
    (a)前記新生抗原のセット内の新生抗原と前記1つ以上のMHCアレルとの間の予想される親和性、及び
    (b)前記新生抗原によりコードされるペプチド-MHC複合体の予想される安定性
    のうちの少なくとも1つを含む、請求項1~14のいずれか一項に記載の方法。
  16. 前記提示尤度のセットが、少なくともMHC-アレル非相互作用特性によってさらに特定され、前記MHC-アレル非相互作用特性が、
    (a)そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するC末端側配列、及び
    (b)そのソースタンパク質配列内の、前記新生抗原によりコードされるペプチドに隣接するN末端側配列
    のうちの少なくとも1つを含む、請求項1~15のいずれか一項に記載の方法。
  17. 前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記腫瘍細胞表面上に提示される尤度が高い新生抗原を選択することを含む、請求項1~16のいずれか一項に記載の方法。
  18. 前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において腫瘍特異的な免疫応答を誘導することができる尤度が高い新生抗原を選択することを含む、請求項1~17のいずれか一項に記載の方法。
  19. 前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、プロフェッショナル抗原提示細胞(APC)によってナイーブT細胞に提示されることができる尤度が高い新生抗原を選択することを含み、任意で、前記APCが樹状細胞(DC)である、請求項1~18のいずれか一項に記載の方法。
  20. 前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、中枢性寛容または末梢性寛容によって阻害される尤度が低い新生抗原を選択することを含む、請求項1~19のいずれか一項に記載の方法。
  21. 前記選択された新生抗原のセットを選択することが、前記提示モデルに基づいて選択されない新生抗原に比べて、前記対象において正常組織に対する自己免疫応答を誘導することができる尤度が低い新生抗原を選択することを含む、請求項1~20のいずれか一項に記載の方法。
  22. 前記1つまたは複数の腫瘍細胞が、肺癌、メラノーマ、乳癌、卵巣癌、前立腺癌、腎臓癌、胃癌、結腸癌、精巣癌、頭頸部癌、膵臓癌、脳癌、B細胞リンパ腫、急性骨髄性白血病、慢性骨髄性白血病、慢性リンパ球性白血病、T細胞リンパ球性白血病、非小細胞肺癌、及び小細胞肺癌からなる群より選択される、請求項1~21のいずれか一項に記載の方法。
  23. 腫瘍ワクチンを製造する方法であって、請求項1~22のいずれか一項に記載の工程を行うことを含み、前記選択された新生抗原のセットを含む腫瘍ワクチンを生産するかまたは生産したことをさらに含む、前記方法。
  24. 前記サブセットの中の前記新生抗原のうちの少なくとも1つに対して抗原特異的な1つ以上のT細胞を同定する工程をさらに含む、請求項1~23のいずれか一項に記載の方法。
  25. 前記同定する工程が、前記1つ以上の抗原特異的T細胞を拡大増殖させる条件下で前記1つ以上のT細胞を前記サブセットの中の前記新生抗原のうちの1つ以上と共培養することを含む、請求項24に記載の方法。
  26. 前記同定する工程が、前記1つ以上のT細胞を、前記サブセットの中の前記新生抗原のうちの1つ以上を含むテトラマーと、前記T細胞と前記テトラマーとの結合が可能な条件下で接触させることを含む、請求項24に記載の方法。
  27. 前記1つ以上の同定されたT細胞の1つ以上のT細胞受容体(TCR)を同定する工程をさらに含む、請求項24~26のいずれか一項に記載の方法。
  28. 前記1つ以上のT細胞受容体を同定する工程が、前記1つ以上の同定されたT細胞のT細胞受容体配列をシークエンシングすることを含む、請求項27に記載の方法。
  29. 請求項1~27のいずれか一項に記載の工程を行う工程を含み;および
    前記サブセットの中の前記新生抗原のうちの少なくとも1つに対して抗原特異的な1つ以上のインビトロもしくはエクスビボT細胞を同定する工程をさらに含む、
    少なくとも1つの選択された新生抗原に対して抗原特異的なインビトロもしくはエクスビボT細胞を製造する方法。
  30. 前記1つ以上の同定されたT細胞受容体の少なくとも1つを発現するように複数のT細胞を遺伝子操作する工程、及び
    前記複数のT細胞を拡大増殖させる条件下で前記複数のT細胞を培養する工程、
    をさらに含む、請求項27または28に記載の方法。
  31. 前記1つ以上の同定されたT細胞受容体のうちの少なくとも1つを発現するように前記複数のT細胞を遺伝子操作する工程が、
    前記1つ以上の同定されたT細胞の前記T細胞受容体配列を発現ベクターにクローニングすること、
    を含む、請求項30に記載の方法。
  32. 前記1つ以上の同定されたT細胞を拡大増殖させる条件下で前記1つ以上の同定されたT細胞を培養する工程、
    をさらに含む、請求項24~28及び請求項30~31のいずれか一項に記載の方法。
JP2019556988A 2017-04-19 2018-04-19 新生抗原の特定、製造、及び使用 Active JP7217711B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023008973A JP2023055775A (ja) 2017-04-19 2023-01-24 新生抗原の特定、製造、及び使用

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762487469P 2017-04-19 2017-04-19
US62/487,469 2017-04-19
PCT/US2018/028438 WO2018195357A1 (en) 2017-04-19 2018-04-19 Neoantigen identification, manufacture, and use

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023008973A Division JP2023055775A (ja) 2017-04-19 2023-01-24 新生抗原の特定、製造、及び使用

Publications (2)

Publication Number Publication Date
JP2020519246A JP2020519246A (ja) 2020-07-02
JP7217711B2 true JP7217711B2 (ja) 2023-02-03

Family

ID=63857025

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019556988A Active JP7217711B2 (ja) 2017-04-19 2018-04-19 新生抗原の特定、製造、及び使用
JP2023008973A Pending JP2023055775A (ja) 2017-04-19 2023-01-24 新生抗原の特定、製造、及び使用

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023008973A Pending JP2023055775A (ja) 2017-04-19 2023-01-24 新生抗原の特定、製造、及び使用

Country Status (14)

Country Link
US (1) US20210113673A1 (ja)
EP (1) EP3612965A4 (ja)
JP (2) JP7217711B2 (ja)
KR (1) KR20190140935A (ja)
CN (1) CN110636852A (ja)
AU (2) AU2018254526B2 (ja)
BR (1) BR112019021782A2 (ja)
CA (1) CA3060569A1 (ja)
CO (1) CO2019012345A2 (ja)
IL (1) IL269855B2 (ja)
MX (1) MX2019012433A (ja)
RU (1) RU2019136762A (ja)
SG (1) SG11201909652WA (ja)
WO (1) WO2018195357A1 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014180490A1 (en) 2013-05-10 2014-11-13 Biontech Ag Predicting immunogenicity of t cell epitopes
WO2016128060A1 (en) 2015-02-12 2016-08-18 Biontech Ag Predicting t cell epitopes useful for vaccination
KR20180107102A (ko) 2015-12-16 2018-10-01 그릿스톤 온콜로지, 인코포레이티드 신생항원 동정, 제조, 및 용도
CN116693695A (zh) 2017-02-12 2023-09-05 百欧恩泰美国公司 基于hla的方法和组合物及其用途
WO2019012296A1 (en) * 2017-07-14 2019-01-17 The Francis Crick Institute Limited ANALYSIS OF HLA ALLELS IN TUMORS AND USES THEREOF
CN111465989A (zh) 2017-10-10 2020-07-28 磨石肿瘤生物技术公司 使用热点进行的新抗原鉴别
EP3714275A4 (en) 2017-11-22 2021-10-27 Gritstone bio, Inc. REDUCTION OF JUNCTION EPITOPIC PRESENTATION FOR NEOANTIGENS
US20220153871A1 (en) 2018-01-04 2022-05-19 Iconic Therapeutics, Inc. Anti-Tissue Factor Antibodies, Antibody-Drug Conjugates, and Related Methods
US20210181188A1 (en) * 2018-08-24 2021-06-17 The Regents Of The University Of California Mhc-ii genotype restricts the oncogenic mutational landscape
US10936768B2 (en) * 2018-10-15 2021-03-02 Aible, Inc. Interface for visualizing and improving model performance
US20220125919A1 (en) * 2018-11-07 2022-04-28 Gritstone Bio, Inc. Alphavirus neoantigen vectors and interferon inhibitors
CN113382747A (zh) 2019-01-03 2021-09-10 伊沃逊生物科技股份公司 靶向肿瘤表位的疫苗
CN111621564B (zh) * 2019-02-28 2022-03-25 武汉大学 一种鉴定有效肿瘤新抗原的方法
AU2020232844A1 (en) * 2019-03-06 2021-10-28 Gritstone Bio, Inc. Identification of neoantigens with MHC class II model
EP3937973A1 (en) 2019-03-11 2022-01-19 Evaxion Biotech A/S Nucleic acid vaccination using neo-epitope encoding constructs
US20220130489A1 (en) * 2019-03-12 2022-04-28 Syntekabio,Inc. System and method for providing neoantigen immunotherapy information by using artificial-intelligence-model-based molecular dynamics big data
EP4198513A1 (en) * 2019-05-03 2023-06-21 Epivax Therapeutics, Inc. Neoantigens in cancer
WO2021003348A1 (en) * 2019-07-02 2021-01-07 Gritstone Oncology, Inc. Hiv antigens and mhc complexes
CA3145791A1 (en) 2019-07-16 2021-01-21 Gilead Sciences, Inc. Hiv vaccines and methods of making and using
EP4028763A1 (en) 2019-09-13 2022-07-20 Evaxion Biotech A/S Method for identifying t-cell epitopes
US20230072079A1 (en) 2019-12-18 2023-03-09 Evaxion Biotech A/S Nucleic acid vaccination using neo-epitope encoding constructs
WO2021141374A1 (ko) * 2020-01-07 2021-07-15 한국과학기술원 신생항원을 스크리닝하는 방법, 시스템 및 그의 용도
WO2021204911A1 (en) 2020-04-07 2021-10-14 Evaxion Biotech A/S Neoepitope immunotherapy with apc targeting unit
EP4168569A1 (en) * 2020-06-18 2023-04-26 Personalis, Inc. Machine-learning techniques for predicting surface-presenting peptides
EP4181949A1 (en) 2020-07-14 2023-05-24 Evaxion Biotech A/S Apc targeting units for immunotherapy
EP4002383A3 (en) 2020-11-13 2022-08-03 Tokyo Institute of Technology Information processing device, information processing method, recording medium recording information processing program, and information processing system
JP7057003B1 (ja) 2021-02-26 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
JP7057004B1 (ja) 2021-03-05 2022-04-19 国立大学法人東京工業大学 予測装置、学習済みモデルの生成装置、予測方法、学習済みモデルの生成方法、予測プログラム、及び学習済みモデルの生成プログラム
CA3216276A1 (en) 2021-04-29 2022-11-03 Yardena Samuels T cell receptors directed against ras-derived recurrent neoantigens and methods of identifying same
CN113762416B (zh) * 2021-10-15 2023-05-30 南京澄实生物科技有限公司 基于多模态深度编码的抗原免疫原性预测方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016521128A (ja) 2013-05-10 2016-07-21 バイオエヌテック アーゲーBioNTech AG T細胞エピトープの免疫原性の予測

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112012029066A2 (pt) * 2010-05-14 2020-09-01 The General Hospital Corporation composições e processos de identificação de neoantígenos específicos de tumor.
KR20230145545A (ko) * 2013-04-07 2023-10-17 더 브로드 인스티튜트, 인코퍼레이티드 개인맞춤화 신생물 백신을 위한 조성물 및 방법
KR20180107102A (ko) * 2015-12-16 2018-10-01 그릿스톤 온콜로지, 인코포레이티드 신생항원 동정, 제조, 및 용도
US20190346442A1 (en) * 2016-04-18 2019-11-14 The Broad Institute, Inc. Improved hla epitope prediction
CN110799196B (zh) * 2017-03-31 2024-02-13 行动基因(智财)有限公司 致免疫性的癌症特异抗原决定位的排名系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016521128A (ja) 2013-05-10 2016-07-21 バイオエヌテック アーゲーBioNTech AG T細胞エピトープの免疫原性の予測

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Andreatta, N. et.al.,Accurate pan-specifc prediction of peptide-MHC class II binding affinity with improved binding core identification,Immunogenetics,2015年,Vol.67,pp.641-650
Luo, H. et.al.,Machine learning mdethods for predicting HLA-peptide binding activity,Bioinfomatics and biology insights,2015年,vol.9 (S3),pp.21-29
Nielsen, M. et.al.,Quantitative predictions of peptide binding to any HLA-DR molecule of known sequence: NetMHCIIpan,PLoS Computational Biology,2008年,Vol.4, Issue 7, e1000107,pp.1-10

Also Published As

Publication number Publication date
EP3612965A1 (en) 2020-02-26
MX2019012433A (es) 2019-12-11
US20210113673A1 (en) 2021-04-22
EP3612965A4 (en) 2021-01-13
AU2018254526B2 (en) 2024-02-15
IL269855B2 (en) 2023-05-01
RU2019136762A (ru) 2021-05-19
CA3060569A1 (en) 2018-10-25
KR20190140935A (ko) 2019-12-20
JP2023055775A (ja) 2023-04-18
WO2018195357A1 (en) 2018-10-25
BR112019021782A2 (pt) 2020-08-18
CN110636852A (zh) 2019-12-31
AU2018254526A1 (en) 2019-11-14
IL269855A (en) 2019-11-28
SG11201909652WA (en) 2019-11-28
CO2019012345A2 (es) 2020-01-17
AU2024202903A1 (en) 2024-05-23
IL269855B1 (en) 2023-01-01
JP2020519246A (ja) 2020-07-02

Similar Documents

Publication Publication Date Title
JP7217711B2 (ja) 新生抗原の特定、製造、及び使用
JP7114477B2 (ja) 新生抗原の特定、製造、および使用
AU2018279627B2 (en) Neoantigen identification, manufacture, and use
US11885815B2 (en) Reducing junction epitope presentation for neoantigens
IL273030B1 (en) Neoantigen identification for T-CELL therapy

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191224

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210409

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210707

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230124

R150 Certificate of patent or registration of utility model

Ref document number: 7217711

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150