CN110214275A

CN110214275A - 肿瘤抗原性加工和呈递

Info

Publication number: CN110214275A
Application number: CN201780084143.7A
Authority: CN
Inventors: 安德鲁·纽伦; 约翰·扎卡里·桑伯恩; 查尔斯·约瑟夫·瓦斯克; 沙赫鲁兹·拉比扎德; 卡伊万·尼亚兹; 派翠克·松吉翁; 斯蒂芬·查尔斯·本茨
Original assignee: Nant Holdings IP LLC; Nantomics LLC
Current assignee: Nant Holdings IP LLC; Nantomics LLC
Priority date: 2016-12-01
Filing date: 2017-11-30
Publication date: 2019-09-06
Anticipated expiration: 2037-11-30
Also published as: CA3045811A1; US20200082906A1; JP2020507557A; AU2017367696A1; IL267013A; TW201908491A; CN110214275B; US20220165353A1; KR20190083671A; US11276479B2; EP3548897A2; WO2018102613A2; EP3548897A4

Abstract

提出了基于HLA等位基因类型和肿瘤抗原中存在的突变靶向肿瘤抗原用于免疫治疗的方法。患者的HLA等位基因类型和衍生自癌症驱动基因突变的肿瘤抗原可以与对同一肿瘤抗原具有最小亲和力的占多数的等位基因类型相匹配，或者与多个具有癌症治疗史的患者相匹配。在匹配后，可以选择针对肿瘤抗原的癌症治疗并施用于患者以达到期望的效果。

Description

肿瘤抗原性加工和呈递

本申请要求2016年12月1日提交的序列号为62/428945的美国临时申请的优先权，该申请通过引用并入本文。

发明领域

本发明的领域是用以预测治疗选项的组学数据的计算分析，特别是当涉及基于新表位的免疫疗法中靶表位的选择时的组学数据的计算分析。

发明背景

背景描述包括可用于理解本发明的信息。并非承认本文提供的任何信息是现有技术或与当前要求保护的发明相关，或者具体地或隐含地引用的任何出版物是现有技术。

本文中所有出版物和专利申请均通过引用并入本文，其程度如同每个单独的出版物或专利申请被具体和单独地指出通过引用将其并入。如果并入的引用中术语的定义或用法与本文提供的术语的定义不一致或相反，则适用本文提供的该术语的定义，且不适用引用中的该术语的定义。

靶向特定癌症常见的某些抗原的癌症免疫疗法在一些患者中引起显著反应。不幸的是，尽管明显表达相同的抗原或存在可以产生抗原的特异性突变，许多患者仍无法对这种免疫疗法产生响应。这种失败的一个可能的原因是抗原可能变化，换句话说，抗原可能在不同患者中包含不同的点突变，以使得设计用于靶向具有一种突变类型的抗原的治疗方法可能无法有效地靶向具有另一种突变类型的抗原。另一个可能的原因可能是患者中的人白细胞抗原(HLA)变异性可能导致抗原和/或显示在细胞表面上的抗原的不充分加工，使得抗原可能无法暴露于治疗和/或免疫系统。

为了增加免疫疗法的特异性靶标的选择，已经尝试在一种或多于一种特定癌症相关基因中引入随机突变以产生可以触发溶细胞性T细胞应答的肿瘤特异性抗原(新表位)的文库或组。此外，已经进行了一些努力以确定使用由各种等位基因编码的MHC蛋白是否可能呈递由随机突变产生的这些新表位。例如，Hacohen的美国专利公开第2016/0339090号公开了使用netMHCpan预测了通过随机突变(错义突变)产生的9聚体(mer)肽或10聚体肽对慢性淋巴性白血病患者的9种不同的已知HLA同种异型的结合亲和力，发现了其中的大多数9聚体肽或10聚体肽对不同的已知HLA同种异型的亲和力低于500nM。

其他人还试图鉴别肿瘤类型和突变序列与不同种族中以不同频率存在的各种HLA等位基因的关联。例如，Fritsch的国际专利申请第PCT/US2016/033452号公开了一组野生型和突变的9聚体肽抗原与特定类型的HLA同种异型以不同的结合亲和力结合，其中一些优先或更常见于特定种族(例如高加索人、亚洲人等)。Fritsch还鉴别了一种或多于一种潜在的HLA同种异型，其通过以预测的低于500nM的亲和力与抗原结合，可能呈递具有癌症相关基因的特定突变序列的抗原。然而，这些尝试主要限于分析关于多个HLA同种异型的衍生自单个基因的单个抗原。因此，不能容易地确定具有衍生自单个基因的不同突变的任何一种抗原是否有资格作为患者免疫疗法的治疗有效靶标。换句话说，已知技术不能容易地在患者的抗原中提供用于有效免疫疗法的优先靶标。

因此，尽管本领域已知多种鉴别优先结合特定HLA同种异型的新表位的方法，但它们中的全部或几乎全部都存在一个或多个缺点。因此，期望具有用于肿瘤抗原鉴别的改进的系统和方法，以增加免疫疗法中治疗响应的可能性。

发明内容

本发明的主题涉及各种系统和方法，以鉴别预测会呈递在患者肿瘤细胞上的肿瘤抗原，从而可以通过靶向肿瘤抗原来有效地设计和实施癌症免疫疗法。最典型地，基于患者的HLA等位基因类型和患者肿瘤中癌症驱动基因的突变，通过将它们与群体中常见并与突变结合的HLA等位基因进行比较或匹配来选择靶抗原。因此，在一个特别优选的方面，发明人考虑了一种靶向患者肿瘤抗原用于癌症免疫治疗的方法。在该方法中，从患者的肿瘤组织获得患者的组学数据，并且可以使用患者的组学数据来鉴别产生肿瘤抗原的癌症驱动基因中至少一种突变的存在。还确定患者的HLA等位基因类型，优选根据患者的肿瘤组织来确定。然后，患者的HLA等位基因类型和肿瘤抗原可以与对同一肿瘤抗原具有最小亲和力的占多数的等位基因类型匹配。匹配后，可以向患者施用靶向肿瘤抗原的癌症疫苗。

最典型地，占多数的等位基因类型表示不同种族、不同地理位置、不同性别或家族来源中的占多数的等位基因类型。在一个优选的实施方案中，占多数的等位基因类型在多个种族或至少一个种族中具有至少0.1％的群体频率。或者，占多数的等位基因类型在多个种族中或在至少一个种族中具有处于前四分位数的群体频率。对于这些占多数的等位基因类型，优选通过比较关于多个HLA等位基因对肿瘤抗原的亲和力来确定最小亲和力。或者，可以通过等于或小于100nM的K_d来确定最小亲和力。

在本发明主题的另一方面，发明人考虑了一种靶向患者肿瘤抗原用于癌症免疫治疗的方法。在该方法中，从患者的肿瘤组织获得患者的组学数据，并且可以使用患者的组学数据鉴别产生肿瘤抗原的癌症驱动基因中至少一种突变的存在。还确定患者的HLA等位基因类型，优选根据患者的肿瘤组织来确定。然后，可以将患者的HLA等位基因类型和肿瘤抗原与已经被诊断患有至少一种类型的癌症并接受至少一种癌症治疗的多个患者的HLA等位基因类型和突变序列相匹配。在匹配后，可以基于匹配向患者施用癌症治疗。

根据以下优选实施方案的详细描述以及附图，本发明主题的各种目的、特征、方面和优点将变得更加明显，同时附图中相同的数字表示相同的组分。

附图简要说明

图1是描绘癌症驱动基因和乘客基因中新表位百分比的柱状图。

图2显示了具有相同HLA同种异型的不同新抗原的分子建模，从而产生具有不同稳定性的两种复合物。

图3是包括使用经鉴别的新抗原产生多表位新抗原疫苗、向患者施用疫苗、以及监测患者的免疫应答的工作流程图。

具体实施方式

HLA是高度多态性的基因复合物，其编码人类的主要组织相容性复合体(MHC)蛋白。到目前为止，已鉴别出人类基因中的超过4000个HLA等位基因，其提供了个体中大量多样的HLA等位基因。最近，人口统计学研究表明，各种HLA等位基因的频率可以根据主要种族、群体的地理区域或家族遗传进行分层，表明在这些种族、地理区域或家族中对常见癌症类型或免疫相关疾病的易感性可能与这些群体中存在的常见HLA等位基因类型密切相关。

如此多种多样的HLA等位基因源于编码MHC蛋白抗原结合结构域的核酸片段的多态性变异。由此，本发明人研究了由不同HLA等位基因编码的各种HLA同种异型是否可能导致在癌细胞上差异呈递各种癌抗原，以使得可以针对具有相同突变的肿瘤细胞触发差异免疫应答。发明人发现由不同HLA等位基因编码的HLA同种异型对同一肿瘤抗原显示出不同的结合亲和力。本发明人还出人意料地发现，由不同HLA等位基因编码的HLA同种异型可显示出在衍生自癌症驱动基因突变的各种肿瘤抗原中优先结合一种肿瘤抗原。

由此，本发明人现已发现，可通过靶向高概率呈递在具有患者特异性HLA等位基因类型的患者肿瘤细胞上的肿瘤抗原来进一步改善基于癌症抗原的免疫治疗或基于新表位的免疫治疗。发明人还发现，可以通过将患者的HLA等位基因信息与频繁存在于一组群体中的至少一个或多个HLA等位基因进行匹配来确定或预测高概率，所述至少一个或多个HLA等位基因与更频繁存在于该组群体中的一种或多于一种类型的癌症相关。

如本文所用，术语“肿瘤”指的是可以位于或存在于人体的一个或多于一个解剖位置的一种或多于一种癌细胞、癌组织、恶性肿瘤细胞或恶性肿瘤组织，并且可以与它们互换使用。

如本文所用，术语“结合”指的是两个分子之间以K_D等于或小于10^-6M、或等于或小于10^-7M的高亲和力进行的相互作用，并且可以与术语“识别”和/或“检测”互换使用。

如本文所用，术语“提供”是指并且包括任何制造、产生、放置、能够使用或准备使用的行为。

癌症驱动基因和突变

如本文所用，肿瘤抗原包括由肿瘤细胞表达的任何肽抗原或非肽抗原(例如脂质抗原等)，其在肿瘤细胞表面上表达时可引发患者的免疫应答。预期肿瘤抗原可由癌症驱动基因或癌症乘客基因编码。如本文所用，癌症驱动基因是指其突变触发或增加细胞生长，优选净肿瘤细胞生长的基因。因此，例如癌症驱动基因可以是抑癌基因、癌基因、受体基因、一种或多于一种信号转导基因、转录调节基因或细胞周期相关基因。相反，癌症乘客基因是指其突变不直接触发或增加细胞生长，优选净细胞生长的基因。例如，乘客基因可包括参与细胞代谢、运输、亚细胞器结构基因等的一些类型的基因。

如图1所示，发现大多数肿瘤抗原(例如，新抗原)衍生自乘客基因，而显著少于10％的肿瘤抗原衍生自癌症驱动基因。虽然癌症驱动基因抗原的比例很小，但是预期靶向癌症驱动基因会提供增强的治疗效果，因为针对癌症驱动基因编码的蛋白质的免疫应答不仅促进了针对肿瘤细胞的基于细胞的细胞毒性效应，而且促进了对癌症驱动基因编码的蛋白质的功能干扰。例如，在癌症驱动基因是KIT(肥大/干细胞生长因子受体)并且包括肿瘤抗原的情况下，与KIT肿瘤抗原结合的抗体不仅可以标记该蛋白以被NK细胞、NKT细胞或T细胞的细胞毒性破坏，而且还可以抑制通过受体途径的信号传导，从而抑制癌症驱动功能。因此，免疫疗法靶向的最优选的肿瘤抗原是那些位于由已知、预测或怀疑具有已知或预测突变的癌症驱动基因编码的蛋白质或多肽中的抗原。

预期肿瘤驱动基因与至少一种或多于一种癌症类型相关，使得一种癌症驱动基因中的一种或多于一种突变可以存在于一种癌症中，而不是存在于另一种癌症中。例如，BRCA1基因的突变在乳腺癌患者的乳腺肿瘤中比在其他类型的癌症类型中更常见。合适的癌症类型包括BLCA、BRCA、CESC、COAD、DLBC、GBM、HNSC、KICH、KIRC、KIRP、LAML、LGG、LIHC、LUAD、LUSC、OV、PRAD、READ、SARC、SKCM、STAD、THCA和UCEC。

关于作为癌症驱动基因的基因的鉴别或其他确定(例如预测)，各种方法和预测算法是本领域已知的，并且被认为适用于本文。例如，合适的算法包括MutsigCV(Nature2014,505(7484):495–501)、ActiveDriver(Mol Syst Biol 2013,9:637)、MuSiC(GenomeRes 2012,22(8):1589–1598)、OncodriveClust(Bioinformatics 2013,29(18):2238–2244)、OncodriveFM(Nucleic Acids Res2012,40(21):e169)、OncodriveFML(Genome Biol2016,17(1):128)、Tumor Suppressor and Oncogenes(TUSON)(Cell 2013,155(4):948–962)、20/20+(https://github.com/KarchinLab/2020plus)、和oncodriveROLE(Bioinformatics(2014)30(17):i549-i555)。

还可以使用概率途径分析工具鉴别癌症驱动基因，并且特别优选的工具包括PARADIGM(Bioinformatics,2010,vol.26(pg.i237-i245))。PARADIGM通过从观察数据集D中得出推论，在遗传路径图φ的背景下评估基因的活性。路径图φ描述了隐藏的基因表达变量、它们相应的观察数据以及任何调控的输入和输出之间的联系。变量通过因子相互连接，该因子编码约束相互连接变量的概率相关性。PARADIGM然后使用来自φ的因子图上的置信传播算法，通过结合基因表达、拷贝数和基因相互作用来计算每个基因、复合体、蛋白质家族和细胞过程的推断途径水平(IPL)。正IPL反映了相对于正常人该基因在肿瘤中有活性的可能性有多大(因此可能是癌症驱动基因)，而负IPL反映了该基因在肿瘤中无活性的可能性有多大。这些方法可以通过计算Shift(PARADIGM-SHIFT)得分进一步改进，该得分基于将观察到的基因活动的下游结果与其他地方描述的从其调控输入中预期的结果进行比较的直观判断(Bioinformatics(2012)28(18):i640-i646)。

可选地或另外地，癌症驱动基因的鉴别还可以采用已知癌症驱动基因的各种来源及其与特定癌症的关联。例如，驱动突变的Intogen目录(2016.5；URL：www.intogen.org)包含通过癌症基因组解释器(Cancer Genome Interpreter)在28种肿瘤类型的泛癌组群的6792个外显子组中进行的驱动分析的结果。根据现有技术的临床和实验数据鉴别经验证的致癌突变，而通过OncodriveMUT方法预测未知显著性的突变的影响。同样，Intogen癌症驱动因子数据库(2014.12；URL:www.intogen.org)包含Rubio-Perez和Tamborero等人确定为驱动因子的基因信息(Cancer Cell 27(2015),第382-396页)。

癌症驱动基因的示例性列表显示在表1中。

表1

用于特定癌症且适合与本文提供的教导结合使用的其他示例性癌症驱动基因包括以下：

ALL(急性淋巴细胞白血病)驱动基因包括CNOT1、CNOT3、FBXW7、FLT3、KRAS、NF1、NRAS、PTEN、RB1、RPL5、SH2B3和TP53。

AML(急性髓性白血病)驱动基因包括ASXL1、BCOR、CBFB、CEBPA、CHD4、CUL1、DIS3、DNMT3A、EGFR、EZH2、FLT3、IDH1、IDH2、KDM6A、KIT、KRAS、MED12、NF1、NPM1、NRAS、PHF6、PRPF8、PTPN11、RAD21、RUNX1、STAG2、SUZ12、TET2、THRAP3、TP53、U2AF1和WT1。

BLCA(膀胱癌)驱动基因包括ACSL6、ACTB、ACTG1、ADAM10、AFF4、AHNAK、AHR、ANK3、APC、AQR、ARFGAP1、ARFGEF2、ARHGAP26、ARHGAP35、ARID1A、ARID1B、ATR、BAP1、BCLAF1、BCOR、BLM、BMPR2、BRAF、BRCA1、CAD、CARM1、CASP8、CAST、CAT、CCAR1、CCT5、CDH1、CDK12、CDKN1A、CDKN1B、CDKN2A、CEP290、CHD3、CHD9、CHEK2、CIC、CLASP2、CLSPN、CLTC、CNOT1、COPS2、CSDE1、CTCF、CTNNB1、CUL2、DDX3X、DDX5、DICER1、DIS3、DLG1、EEF1B2、EIF2AK3、EIF4A2、EIF4G1、ELF1、ELF3、EP300、ERBB2IP、ERBB3、ERCC2、FAM123B、FAT1、FBXW7、FGFR2、FGFR3、FKBP5、FLT3、FN1、FUS、G3BP2、GNAS、GOLGA5、GPS2、HLA-A、HNRPDL、HRAS、HSP90AA1、HSP90AB1、HSPA8、IDH1、IREB2、IRS2、KDM6A、KEAP1、KLF6、LIMA1、MAP3K1、MAP3K4、MAP4K3、MECOM、MED12、MED24、MET、MGA、MLH1、MLL2、MLL3、MTOR、MYH10、MYH11、NAP1L1、NCF2、NCOR2、NDRG1、NFE2L2、NOTCH1、NRAS、NUP107、NUP98、PCDH18、PCSK6、PHF6、PIK3CB、PIP5K1A、PTEN、PTPRU、RAD21、RASA1、RB1、RBM5、RHOA、RPSAP58、SETD2、SETDB1、SF3A3、SF3B1、SFPQ、SMAD4、SMC1A、SOS1、SOS2、STAG1、STAG2、STK4、SUZ12、TAF1、TAOK1、TAOK2、TBL1XR1、TBX3、TGFBR2、THRAP3、TNPO1、TP53、TP53BP1、TRIO、TSC1、TXNIP、ZFP36L2、ZMYM2和ZNF814。

BRCA(乳腺癌)驱动基因包括ACO1、ACSL6、ACTB、ACVR1B、AFF4、AHNAK、AKAP9、AKT1、ANK3、APC、AQR、ARFGEF2、ARHGAP35、ARID1A、ARID2、ARID4B、ARNTL、ASH1L、ASPM、ATF1、ATIC、ATM、ATR、BAP1、BCOR、BMPR2、BNC2、BPTF、BRAF、BRCA1、BRCA2、CAD、CARM1、CASP8、CAST、CBFB、CCAR1、CCT5、CDH1、CDK12、CDKN1B、CEP290、CHD4、CHD9、CHEK2、CIC、CLASP2、CLSPN、CLTC、CNOT3、CSDE1、CSNK1G3、CTCF、CUL1、DDX3X、DDX5、DHX15、DIS3、EGFR、EIF1AX、EIF2C3、EIF4A2、EIF4G1、ELF1、EP300、ERBB2、ERBB2IP、ERCC2、FBXW7、FLT3、FMR1、FN1、FOXA1、FOXP1、FUBP1、FUS、G3BP2、GATA3、GOLGA5、GPS2、HCFC1、HLA-A、HLF、HNRPDL、HSPA8、IDH1、ITSN1、KALRN、KDM5C、KEAP1、KLF4、KRAS、LCP1、LPHN2、LRP6、MACF1、MAP2K4、MAP3K1、MAX、MECOM、MED12、MED23、MED24、MGA、MKL1、MLH1、MLL、MLL2、MLL3、MLLT4、MSR1、MTOR、MUC20、MYB、MYH11、MYH14、MYH9、NCOR1、NDRG1、NF1、NF2、NOTCH1、NOTCH2、NR4A2、NRAS、NSD1、NUP107、NUP98、PAX5、PBRM1、PCDH18、PCSK6、PHF6、PIK3CA、PIK3CB、PIK3R1、PIK3R3、PIP5K1A、POLR2B、PRKAR1A、PRKCZ、PTEN、PTGS1、PTPRU、RB1、RBBP7、RBM5、RFC4、RHEB、RPGR、RPL5、RUNX1、SEC24D、SETD2、SETDB1、SF3B1、SFPQ、SMAD4、SMARCA4、SOS1、SOS2、SPTAN1、SRGAP1、STAG1、STAG2、STIP1、STK11、STK4、SUZ12、SVEP1、TAF1、TBL1XR1、TBX3、TCF12、TCF7L2、TFDP1、TGFBR2、THRAP3、TNPO1、TOM1、TP53、TRIO、ZFP36L1和ZFP36L2。

CLL(慢性淋巴细胞白血病)驱动基因包括ACTG1、ANK3、ARID1A、ATM、BCOR、CLSPN、CNOT3、CREBBP、DDX3X、EGFR、EP300、ERBB2IP、FBXW7、FGFR2、FGFR3、HNRPDL、IDH1、IRF2、KDM6A、KRAS、MED12、MLL、MLL2、MLL3、MTOR、MYD88、NCOR1、NF1、NOTCH1、NRAS、PBRM1、PLCB1、RB1、SETDB1、SF3B1、STAG2、TP53和XPO1。

CM(皮肤黑色素瘤)驱动基因包括ACO1、ACSL3、ACTG1、ACTG2、ACVR1B、ACVR2A、AFF4、AHCTF1、AHNAK、AHR、AKT1、ANK3、AQR、ARFGAP1、ARFGEF2、ARHGAP26、ARHGAP29、ARHGAP35、ARHGEF2、ARHGEF6、ARID1B、ARID2、ASPM、ATF1、ATIC、ATP6AP2、ATRX、B2M、BAP1、BAZ2B、BCLAF1、BLM、BMPR2、BNC2、BPTF、BRAF、BRCA1、BRWD1、C15orf55、CASP1、CASP8、CAST、CAT、CBFB、CCAR1、CCT5、CDC73、CDH1、CDK4、CDKN1A、CDKN2A、CEP290、CHD1L、CHD3、CHD6、CHD9、CHEK2、CIC、CLASP2、CLCC1、CLOCK、CLSPN、CLTC、CNOT3、COL1A1、COPS2、CRTC3、CSDA、CSNK1G3、CTCF、CTNNB1、CUL1、CUL2、CUL3、CYLD、CYTH4、DDX3X、DDX5、DHX15、DICER1、DIS3、DLG1、DNMT3A、EIF1AX、EIF2AK3、EIF4A2、EIF4G1、EIF4G3、ELF1、ELF3、EP300、ERBB2IP、ERBB3、EZH2、FAF1、FANCI、FAS、FBXW7、FCRL4、FGFR3、FMR1、FN1、FOXP1、FUBP1、FXR1、G3BP2、GATA3、GNG2、GOLGA5、HDAC3、HDAC9、HLA-A、HLA-B、HLF、HNRPDL、HRAS、HSPA8、IDH1、IDH2、IREB2、IRF7、ITGA9、ITSN1、JMY、KDM5C、KDM6A、KLF4、KLF6、KRAS、LCP1、LDHA、LNPEP、LRP6、LRPPRC、MAGI2、MAP2K1、MAP2K4、MAP3K1、MAP3K11、MAP3K4、MAP4K3、MAT2A、MCM3、MCM8、MECOM、MED17、MED24、MEN1、MFNG、MKL1、MLH1、MLL3、MSR1、NCF2、NCKAP1、NCOR1、NDRG1、NF1、NF2、NFATC4、NFE2L2、NOTCH1、NPM1、NR2F2、NR4A2、NRAS、NTN4、NUP107、NUP98、PAX5、PCDH18、PER1、PHF6、PIK3C2B、PIK3CA、PIK3CB、PIK3R1、PIK3R3、PIP5K1A、PLCB1、POLR2B、POM121、PPP2R1A、PPP2R5A、PPP2R5C、PPP6C、PRRX1、PSMA6、PTEN、PTGS1、RAC1、RAD21、RAD23B、RASA1、RASA2、RB1、RBBP7、RGS3、RHEB、RHOA、RHOT1、RPL22、RPL5、RTN4、RUNX1、SEC24D、SETDB1、SF3A3、SF3B1、SFPQ、SMAD2、SMAD4、SMC1A、SMURF2、SOS1、SOS2、SOX9、SPOP、STAG1、STAG2、STK11、SUZ12、SVEP1、SYK、SYNCRIP、TAOK1、TBX3、TCF12、TCF4、TFDP1、TFDP2、TGFBR2、TJP2、TNPO1、TP53、TRERF1、USP6、VHL、VIM、WASF3、WIPF1、WNK1、WT1、XRN1、YBX1、ZC3H11A、ZFP36L2、ZMYM2、ZNF638和ZNF814。

COREAD(结肠直肠腺癌)驱动基因包括ACO1、ACSL6、ACVR1B、AKAP9、APC、ARID1A、ARNTL、ASPM、ATM、ATRX、AXIN2、BCOR、BMPR2、BPTF、BRAF、BRWD1、CAD、CASP8、CDC73、CDK12、CDKN1B、CEP290、CHD4、CHD9、CLSPN、CNOT1、CREBBP、CTCF、CTNNB1、CUL1、DIS3、DNMT3A、EGFR、ELF3、FAM123B、FBXW7、FN1、FOXP1、FXR1、GATA3、GNAS、GOLGA5、IDH2、ITSN1、KRAS、LPHN2、MAP2K1、MAP3K4、MECOM、MED12、MED24、MGA、MLL2、MSR1、MYH10、NF1、NR2F2、NR4A2、NRAS、NTN4、NUP107、NUP98、PCBP1、PIK3CA、PIK3R1、POLR2B、PPP2R1A、PTEN、PTGS1、PTPN11、PTPRU、RAD21、RBM10、RTN4、RUNX1、SF3B1、SMAD2、SMAD4、SMC1A、SOS2、SOX9、SRGAP3、STAG2、SYNCRIP、TAF1、TBX3、TCF12、TCF7L2、TGFBR2、TP53、TP53BP1、TRIO、WIPF1、WT1和ZC3H11A。

DLBC(弥散性大B细胞淋巴瘤)驱动基因包括ACTB、AKAP9、ARID1A、CHD4、CREBBP、FBXO11、MLL2、MYC、SMARCA4和TP53。

ESCA(食管癌)驱动基因包括ACO1、ACSL6、ACVR1B、ADAM10、AFF4、AHR、ARFGEF2、ARHGAP26、ARHGAP35、ARID1A、ARID2、ARNTL、ASPM、ATM、ATR、ATRX、BAP1、BCLAF1、BLM、BPTF、CAPN7、CDH1、CDKN1B、CDKN2A、CEP290、CHD4、CIC、CLTC、CNOT1、CNOT3、CREBBP、CSNK1G3、CTNNB1、CUL3、DDX5、DLG1、EEF1A1、EGFR、EIF2AK3、EIF4G1、ELF3、EP300、ERBB2IP、ERCC2、EZH2、FBXW7、FGFR2、FLT3、HGF、HLA-B、IREB2、IRS2、ITSN1、KALRN、KDM6A、LRP6、MACF1、MAP2K4、MAP3K4、MED12、MET、MGA、MLL2、MSR1、MTOR、NCKAP1、NFE2L2、NSD1、NUP107、NUP98、PAX5、PIK3CA、PTPRU、RAD21、RBM10、RHOA、RTN4、SETD2、SF3B1、SHMT1、SMAD4、SMARCA4、SMC1A、SOX9、SPTAN1、SRGAP3、SYNCRIP、TAF1、TAOK1、TAOK2、TBX3、TP53、TP53BP1、TRIO、WT1、ZC3H11A、ZFP36L2和ZNF814。

GBM(多形性胶质母细胞瘤)驱动基因包括ACAD8、ADAM10、AKAP9、ANK3、AQR、ARFGEF2、ARHGAP35、ARHGEF6、ARID1A、ARID2、ATRX、BAP1、BPTF、BRAF、BRCA1、CAD、CARM1、CASP1、CHD8、CLOCK、CLTC、CNOT1、CSDE1、CUL1、DIS3、EGFR、EZH2、FAT1、FN1、HDAC9、HSP90AB1、IDH1、KALRN、KDM5C、KDM6A、KDR、KRAS、LRP6、MAP3K4、MAP4K3、MAX、MEN1、MET、MLL、NCF2、NCOR1、NEDD4L、NF1、NFATC4、NR2F2、NUP107、PAX5、PBRM1、PCDH18、PIK3CA、PIK3CB、PIK3R1、PRPF8、PTEN、PTPN11、RB1、RPL5、RPSAP58、SF3B1、SIN3A、SOS1、SOX9、SPTAN1、STAG2、TGFBR2、TJP1、TP53、TRIO、WT1和ZNF814。

HC(肝癌)驱动基因包括ACVR2A、APC、ARHGAP35、ARID1A、ARID1B、ARID2、ASH1L、ATRX、BLM、BPTF、CEP290、CNOT1、CTNNB1、FLT3、IDH1、ITSN1、MACF1、MLL3、MYH10、NF1、NFATC4、NFE2L2、PBRM1、PIK3CA、PTEN、RTN4、SETDB1、SF3B1、TBL1XR1和TP53。

HNSC(头颈部鳞状细胞癌)驱动基因包括ACAD8、ACTB、ACTG1、ACVR2A、ADAM10、AHR、AKT1、APAF1、APC、ARFGAP1、ARFGEF2、ARHGAP35、ARHGEF6、ARID1B、ARID2、ATIC、ATM、ATP6AP2、ATR、ATRX、B2M、BAP1、BAZ2B、BCL11A、BMPR2、BNC2、BPTF、BRAF、BRCA1、BRWD1、CAD、CARM1、CASP1、CASP8、CAT、CCAR1、CCT5、CDH1、CDK12、CDKN1B、CDKN2A、CEP290、CHD9、CIITA、CLASP2、CLSPN、CNOT4、COL1A1、CSNK2A1、CTCF、CTNNB1、CUL1、CUL3、CYLD、DDX3X、DICER1、DNMT3A、EEF1A1、EGFR、EIF2C3、ELF1、ELF4、EP300、EPHA2、EZH2、FAT1、FAT2、FBXW7、FGFR2、FLT3、FMR1、FN1、FOXP1、FUBP1、G3BP2、GNAS、GPSM2、HLA-A、HLA-B、HNRPDL、HRAS、HSPA8、IREB2、IRF6、IRS2、KALRN、KDM5C、KDM6A、KLF6、LAMA2、LPHN2、MACF1、MAP3K1、MAP4K3、MED17、MEF2C、MEN1、MGA、MGMT、MLL、MLL2、MSR1、MTOR、MUC20、MYH9、NCF2、NCKAP1、NCOR1、NEDD4L、NF1、NFATC4、NFE2L2、NOTCH1、NOTCH2、NR4A2、NSD1、NUP107、PABPC3、PAX5、PBRM1、PCDH18、PIK3CA、PIK3R1、PIK3R3、POLR2B、PPP2R1A、PPP2R5C、PRPF8、PRRX1、PSIP1、RAC1、RAD21、RASA1、RASGRP1、RHOA、RPL22、RPSAP58、RUNX1、SEC24D、SF3B1、SIN3A、SMAD2、SMARCA4、SMC1A、SOX9、SPOP、SPTAN1、STAG2、STIP1、TAOK1、TAOK2、TBL1XR1、TBX3、TCF12、TCF4、TFDP1、TFDP2、TGFBR2、THRAP3、TJP2、TP53、TRIO、TRIP10、U2AF1、WHSC1、ZC3H11A和ZNF750。

LGG(低级胶质瘤)驱动基因包括ACO1、ARFGEF2、ARHGAP26、ARHGEF6、ARID1A、ARID1B、ARID2、ATRX、CAD、CDK12、CHEK2、CIC、DDX3X、EEF1B2、EGFR、EIF1AX、FAM123B、FAT1、FUBP1、HGF、IDH1、IDH2、KAT6B、MAX、MECOM、MET、MLL、MLL2、MTOR、NCOR1、NEDD4L、NF1、NF2、NOTCH1、PIK3CA、PIK3R1、PTEN、PTPN11、RASA1、RB1、SETD2、SMARCA4、TAF1、TCF12、TJP1、TP53、TRIO、ZMYM2、ZNF292和ZNF814。

LUAD(肺腺癌)驱动基因包括ACAD8、ACO1、ACTG1、ACTG2、ACVR1B、ACVR2A、ADAM10、AFF4、AKT1、ARFGAP1、ARHGAP26、ARID1A、ATIC、ATP6AP2、BAP1、BAZ2B、BLM、BMPR2、BRAF、BRWD1、CAPN7、CARM1、CASP8、CAT、CCAR1、CCT5、CDH1、CDK12、CDKN1B、CDKN2A、CHD1L、CHEK2、CIC、CLASP2、CLSPN、CNOT3、CNOT4、COL1A1、COPS2、CREBBP、CRNKL1、CSNK1G3、CTCF、CTNNB1、CUL2、CUL3、CYLD、DDX3X、DDX5、DHX15、DNMT3A、EEF1B2、EFTUD2、EGFR、EIF2AK3、EIF2C3、EIF4A2、EIF4G1、EP300、EPHA4、EPHB2、ERBB2IP、ERCC2、EZH2、FAT1、FBXW7、FGFR2、FMR1、FN1、FUBP1、FXR1、G3BP1、G3BP2、GNAI1、GNG2、GPSM2、HLA-A、HSP90AA1、HSP90AB1、HSPA8、IDH1、IREB2、IRS2、KDM6A、KDR、KEAP1、KLF6、KRAS、LCP1、LDHA、LPHN2、MAP2K1、MAP2K4、MAP3K1、MAP3K4、MAP4K1、MAP4K3、MAX、MED17、MED24、MEN1、MET、MGA、MKL1、MLH1、MLL、MLL3、MMP2、MSR1、MYB、MYH10、NCK1、NCKAP1、NEDD4L、NF1、NF2、NFE2L2、NPM1、NRAS、NTN4、NTRK2、NUP107、NUP98、PAX5、PBRM1、PCSK6、PHF6、PIK3R1、PIK3R3、PIP5K1A、POLR2B、PPP2R1A、PPP2R5A、PRPF8、PRRX1、PSMA6、PSMD11、PTEN、PTGS1、PTPN11、RAD23B、RASA1、RB1、RBM10、RBM5、RHEB、RTN4、SETD2、SETDB1、SF3B1、SFPQ、SHMT1、SIN3A、SMAD2、SMAD4、SMARCA4、SMC1A、SOX9、SPRR3、STAG1、STIP1、STK11、STK4、SVEP1、SYNCRIP、TAOK1、TAOK2、TBL1XR1、TCF12、TCF4、TCF7L2、TFDP1、TGFBR2、TNPO1、TOM1、TP53、TP53BP1、U2AF1、UPF3B、ZMYM2和ZNF814。

LUSC(肺小细胞癌)驱动基因包括ABL2、ACAD8、ACO1、ACSL6、ACTG2、ACVR1B、ADAM10、AFF4、AQR、ARFGEF2、ARHGEF6、ARID1A、ARID1B、ARNTL、B2M、BLM、CASP8、CAST、CCAR1、CDC73、CDH1、CDKN1A、CDKN2A、CHD1L、CHD3、CHEK2、CIC、CLASP2、CLOCK、CNOT3、CNOT4、COPS2、CSDA、CSDE1、CTNNB1、CTTN、CUL1、DDX3X、DHX15、DHX9、DLG1、EEF1A1、EGFR、EIF2C3、EIF4A2、ELF1、ERBB2IP、EZH2、FGFR2、FGFR3、FMR1、FN1、FOXP1、FUBP1、FXR1、G3BP2、GATA3、GNAI1、GOLGA5、GPSM2、HLA-A、HLF、HRAS、HSP90AA1、HSP90AB1、HSPA8、IDH1、IREB2、IRS2、ITSN1、KDM5C、KEAP1、KRAS、MAP2K1、MAP3K1、MAP3K4、MED17、MED24、MEN1、MET、MKL1、MLH1、MLL、MLL2、MUC20、MYB、NCF2、NCK1、NDRG1、NF1、NFATC4、NFE2L2、NOTCH1、NR4A2、NTN4、NUP107、NUP98、PAX5、PCDH18、PCSK6、PHF6、PIK3CA、PIK3CB、PIK3R3、PIP5K1A、PPP2R5C、PRPF8、PTEN、PTPN11、RAD21、RASA1、RB1、RBM10、RGS3、RPL5、RTN4、SEC24D、SETD2、SETDB1、SF3A3、SF3B1、SIN3A、SMAD2、SMAD4、SPTAN1、SRGAP3、STAG1、STK11、STK4、SUZ12、SYNCRIP、TAOK2、TBL1XR1、TBX3、TFDP1、TFDP2、TGFBR2、THRAP3、TJP2、TNPO1、TOM1、TP53、UPF3B、WIPF1、WT1、ZC3H11A和ZFP36L2。

MB(髓母细胞瘤)驱动基因包括ARID1A、ARID1B、ARID2、BCLAF1、BCOR、CCAR1、CREBBP、CTNNB1、DDX3X、FBXW7、FMR1、KDM6A、MGA、MLL2、MLL3、NF1、PIK3CA、PRKAR1A、PTCH1、SMARCA4、SMO、TAF1、TCF4和TP53。

MM(多发性骨髓瘤)驱动基因包括APC、ARHGAP35、ARID2、BRAF、CASP8、CEP290、CHD9、DDX3X、FAM46C、FXR1、KRAS、MECOM、NF1、NRAS、NSD1、PIK3CA、SF3B1和TP53。

NB(成神经细胞瘤)驱动基因包括AHR、ALK、ANK3、ARID1A、ATM、ATRX、CEP290、COL1A1、CREBBP、EIF2C3、KLF4、LRP6、MACF1、MECOM、MET、MLL2、MYCN、NF1、NOTCH1、NRAS、PBRM1、PIK3CA、PIK3CB、PTPN11、STAG1、TAF1和TRIO。

NSCLC(非小细胞肺癌)驱动基因包括AKAP9、APC、HGF、KALRN、KEAP1、KRAS、MLL3、RB1、SEC24D、SMARCA4和TP53。

OV(卵巢癌)驱动基因包括ACO1、ACTG1、AFF4、ARID1A、ASH1L、ASPM、ATF1、ATIC、ATR、ATRX、BAP1、BAZ2B、BMPR2、BRAF、BRCA1、BRCA2、CASP1、CCAR1、CCT5、CDK12、CHD1L、CHD4、CLASP2、CLSPN、CSDE1、CTNNB1、CUL2、DDX5、DLG1、DNMT3A、EIF2AK3、EIF4A2、ERBB2IP、F8、FAM123B、FBXW7、FLT3、FMR1、GNAS、GOLGA5、GPS2、HDAC3、HGF、HSP90AA1、ITSN1、KRAS、LPHN2、MAP3K4、MAP4K3、MECOM、MED12、MKL1、MLH1、MLL2、MYH10、NCKAP1、NDRG1、NF1、NOTCH1、NR4A2、NRAS、NSD1、PIK3CA、POLR2B、PTEN、RB1、RHOA、SETD2、SETDB1、SIN3A、SOS1、STAG1、STAG2、TBX3、TCF7L2、TFDP1、TGFBR2、TJP1、TOM1、TP53、TP53BP1、TRIO和YBX1。

PAAD(胰腺癌)驱动基因包括ACVR1B、AHNAK、ANK3、ARHGAP35、ARID1A、ARID2、ATM、CREBBP、EP300、EPC1、KRAS、MAP2K4、MLL3、PBRM1、PCDH18、PCSK6、SF3B1、SMAD4、SMARCA4、TGFBR2和TP53。

PRAD(前列腺腺癌)驱动基因包括ADCY1、AHNAK、AKAP9、APC、AQR、ARFGAP3、ARID1B、ATIC、ATM、ATRX、BCLAF1、BCOR、BNC2、BPTF、BRAF、CASP1、CAT、CDC27、CDH1、CDKN1B、CEP290、CHD1L、CHD3、CHD4、CHEK2、CNOT1、CNOT3、CNTNAP1、CTNNB1、CUL2、CUL3、EEF1B2、EGFR、EIF2AK3、EIF4G1、EP300、ERCC2、FAT1、FGFR2、FIP1L1、FN1、FRG1、G3BP2、GNAS、HGF、HNF1A、HRAS、HSP90AB1、HSPA8、IDH1、IRS2、KDM6A、KEAP1、MECOM、MED12、MLL2、MYH10、NAP1L1、NKX3-1、NOTCH1、NOTCH2、NUP98、PCDH18、PIK3CB、PLXNA1、PRPF8、PTEN、RPSAP58、SCAI、SETDB1、SMAD4、SMARCA1、SMARCB1、SPOP、SVEP1、TAOK2、TBL1XR1、TBX3、THRAP3、TJP1、TJP2、TP53、TP53BP1、TRIO、WHSC1L1、WNT5A、ZFHX3和ZNF814。

RCCC(肾透明细胞癌)驱动基因包括ACO1、ACTG1、AHR、AKT1、ARHGAP26、ARID1A、ARID1B、ARID2、ASH1L、ATF1、ATM、BAP1、BCLAF1、BCOR、BMPR2、CAD、CAT、CCAR1、CDC73、CDH1、CHEK2、CLTC、CNOT3、CNOT4、COPS2、CSDA、CTCF、CUL1、DDX3X、DDX5、DHX15、DICER1、DIS3、EEF1A1、EGFR、EIF2AK3、EIF2C3、EIF4A2、EIF4G1、ELF1、ERBB2IP、EZH2、FAM123B、FLT3、FMR1、FUS、G3BP2、HDAC9、HLF、HNRPDL、HSP90AB1、IDH1、ITSN1、KDM5C、KDM6A、KEAP1、LCP1、LPHN2、LRP6、MAX、MED17、MED24、MET、MGA、MKL1、MLL3、MTOR、NCOR1、NFE2L2、NTN4、NUP98、PABPC1、PBRM1、PCDH18、PCSK6、PHF6、PIK3R1、PIP5K1A、PPP2R1A、PSMA6、PSME3、PTEN、RASA1、RPL22、RPL5、SEC24D、SETD2、SHMT1、SIN3A、SMAD2、SMC1A、SOX9、SRGAP3、TAOK2、TBL1XR1、TCF12、TJP1、TJP2、TP53BP1、TRIO、VHL、WHSC1L1、WT1、ZFP36L2和ZNF814。

SCLC(小细胞肺癌)驱动基因包括AHNAK、AHR、AKAP9、ANK3、ARID1A、ARID1B、ARID2、ASH1L、ASPM、ATR、ATRX、BAZ2B、BCLAF1、BMPR2、BNC2、BRWD1、CCT5、CDK12、CHD1L、CHEK2、CLSPN、CREBBP、DICER1、EIF2AK3、EP300、FAM123B、FAT1、FN1、GNAS、HGF、HSP90AB1、ITSN1、KALRN、KDM6A、MED12、MLL、MLL2、MLL3、MNDA、MSR1、MTOR、MYB、NCKAP1、NF1、NOTCH1、NR4A2、NUP107、PIK3CA、PTEN、PTPRU、RAD21、RB1、SIN3A、SOS1、SOS2、SPTAN1、TAF1、TBX3、TJP1、TP53和ZC3H11A。

STAD(胃腺癌)驱动基因包括ACAD8、ACSL6、ACTG2、ACVR1B、ACVR2A、ADAM10、AFF4、AKAP9、ANK3、APC、AQR、ARFGEF1、ARHGAP26、ARHGAP35、ARHGEF6、ARID1A、ARID1B、ARID4A、ASH1L、ATIC、ATP6AP2、ATR、ATRX、BAP1、BCOR、BPTF、BRAF、BRCA1、CAD、CAPN7、CASP8、CAT、CCAR1、CCT5、CDC73、CDH1、CDKN2A、CEP290、CHD1L、CHD3、CHEK2、CLASP2、CLOCK、CLTC、CNOT1、CNOT4、COL1A1、COPS2、CSDA、CSDE1、CSNK1G3、CTNNB1、CUL1、CUL2、CUL3、CYLD、DDX5、DHX15、DIS3、DLG1、DNMT3A、EEF1A1、EGFR、EIF2AK3、EIF4A2、EIF4G1、ELF3、EPHA1、ERBB2IP、ERCC2、EZH2、FAM123B、FAS、FGFR2、FLT3、FOXP1、FUBP1、G3BP2、GATA3、GNA11、GNAI1、GOLGA5、HDAC3、HLA-A、HLA-B、HNRPDL、HSP90AB1、IREB2、IRF2、IRS2、KDM6A、KLF4、KLF6、KRAS、LCP1、LPHN2、MACF1、MAP2K1、MAP2K4、MAP3K1、MECOM、MED12、MED17、MET、MKL1、MLH1、MSR1、MYH11、MYH9、NAP1L1、NCK1、NCKAP1、NEDD4L、NFE2L2、NR2F2、NR4A2、NSD1、NUP107、NUP98、PCSK5、PHF6、PIK3CA、PIK3CB、PIK3R1、PIP5K1A、POLR2B、PPP2R1A、PRRX1、PTEN、PTGS1、PTPN11、PTPRF、PTPRU、RAD21、RASA1、RBBP7、RBM5、RHOA、RPL22、RTN4、RUNX1、SETD2、SF3B1、SIN3A、SMAD2、SMAD4、SMARCA4、SMC1A、SOS1、SOS2、SOX9、SPOP、SRGAP3、STARD13、STIP1、STK4、SUZ12、TAF1、TAOK2、TBL1XR1、TBX3、TCF4、TCF7L2、TFDP1、THRAP3、TJP1、TJP2、TNPO1、TNPO2、TP53、TP53BP1、WIPF1、WT1、ZC3H11A和ZMYM2。

THCA(甲状腺癌)驱动基因包括AHNAK、AKAP9、ARHGAP26、ARID2、BPTF、BRAF、CDK12、CHD3、CTNNB1、DICER1、EIF1AX、GNAS、HNRPDL、HRAS、KRAS、LDHA、MLL、MLL3、NCK1、NRAS、NSD1、PIK3CA、PPM1D、PPP2R1A、PRPF8、PTEN、RPSAP58、TJP1、TP53、TRIO、WIPF1和ZC3H11A。

UCEC(子宫体内膜样癌)驱动基因包括ACACA、ACTB、ACTG1、AHR、AKT1、ALK、ANK3、ARAP3、ARHGAP35、ARHGEF6、ARID1A、ARID5B、ARNTL、ATF1、ATIC、ATM、ATR、AXIN1、BAZ2B、BCLAF1、BMPR2、BRAF、BRCA1、CAPN7、CARM1、CAST、CAT、CCND1、CDKN1B、CHD3、CHD4、CHD9、CHEK2、CLOCK、CLTC、CNOT4、CSNK1G3、CTCF、CTNNB1、CTNND1、CUL1、CUX1、DEPDC1B、DHX15、DHX35、DICER1、DIS3、DNMT3A、EGFR、EIF1AX、EIF2AK3、EIF2C3、EIF4A2、EIF4G1、EP300、ERBB3、FAM123B、FAS、FBXW7、FGFR2、FLT3、FOXA2、FUBP1、FXR1、G3BP2、GNAI1、GPS2、GPSM2、HDAC3、HGF、IDH1、ING1、INPP4A、INPPL1、IREB2、KDM6A、KLF4、KRAS、MAP2K4、MAP3K1、MAX、MED17、MET、MGA、MKL1、MLH1、MLH3、MUC20、MYB、MYH10、NCF2、NCKAP1、NCOR1、NDRG1、NEDD4L、NF2、NFE2L2、NR2F2、NRAS、NUP93、PCDH18、PGR、PHF6、PIK3CA、PIK3R1、PIK3R3、PLCG1、PLXNB2、PPP2R1A、PPP2R5A、PPP2R5C、PRPF8、PRRX1、PTEN、PTPN11、RAD21、RAD23B、RBBP7、RBM5、RHEB、ROBO2、RPL22、RPL5、RTN4、RUNX1、SEC31A、SHMT1、SMAD2、SMC1A、SOX17、SPOP、SRGAP3、STIP1、SUZ12、SYNCRIP、TBL1XR1、TBX3、TFDP1、TGFBR2、TP53、TP53BP1、U2AF1、VHL、WIPF1、ZC3H11A、ZFHX3、ZFP36L2、ZMYM2和ZNF814。

考虑任何合适的方法和来源来鉴别癌症驱动抗原。在一种考虑的方法中，可以在优选使用患者肿瘤材料(例如新鲜活检、冷冻或以其他方式保存的组织或细胞样品、循环肿瘤细胞、外排体、各种体液(尤其是血液)等)的过程中鉴定癌症驱动抗原或新表位。然后可以对患者样品进行组学分析，以获得组学数据，最典型的是基因组数据(例如全基因组序列数据、全外显子组数据等)、转录组学数据(尤其是RNA序列数据)和/或蛋白质组学数据(可以是定性或定量的)。因此，组学分析的合适方法包括核酸测序，特别是对DNA进行操作的NGS方法(例如，Illumina测序、离子洪流测序、454焦磷酸测序、纳米孔测序等)、RNA测序(例如，RNA序列、基于逆转录的测序等)、以及蛋白质测序或基于质谱的测序(例如，SRM、MRM、CRM等)。

在本发明主题的一个特别优选的方面，通过肿瘤和匹配的正常样品的全基因组测序和/或外显子组测序(通常在至少10x、更通常至少20x的覆盖深度)进行DNA分析。或者，也可以从先前序列测定中已经建立的序列记录(例如，SAM、BAM、FASTA、FASTQ或VCF文件)中提供DNA数据。因此，数据集可以包括未处理或经处理的数据集，并且示例性数据集包括具有BAMBAM格式、SAMBAM格式、FASTQ格式或FASTA格式的数据集。然而，特别优选的是，数据集以BAMBAM格式或作为BAMBAM diff对象提供(参见例如US2012/0059670A1和US2012/0066001A1)。此外，应该注意的是，数据集反映了同一患者的肿瘤和匹配的正常样品，从而获得患者和肿瘤特异性信息。因此，可以排除不产生肿瘤的遗传种系改变(例如，沉默突变、SNP等)。当然，应该认识到肿瘤样品可能来自初始肿瘤、治疗开始时的肿瘤、复发性肿瘤或转移部位等。在大多数情况下，患者的匹配的正常样品可能是血液、或来自与肿瘤相同组织类型的非患病组织。

本领域有许多已知的转录组学分析方法，并且认为所有已知方法都适用于本文。例如，优选的材料包括mRNA和初级转录物(hnRNA)，并且RNA序列信息可以从逆转录的polyA⁺-RNA获得，该polyA⁺-RNA从肿瘤样品和匹配的同一患者的正常(健康)样品获得。同样地，应当注意，虽然polyA⁺-RNA通常优选作为转录物组的代表，但其他形式的RNA(hn-RNA，非多聚腺苷酸化的RNA、siRNA、miRNA等)也被认为适用于本文。优选的方法包括定量RNA(hnRNA或mRNA)分析和/或定量蛋白质组学分析，尤其包括RNA测序。在其他方面，使用基于RNA测序、qPCR和/或rtPCR的方法进行RNA定量和测序，但认为各种替代方法(例如，基于固相杂交的方法)也是合适的。从另一个角度来看，转录组学分析可能适合(单独或与基因组分析组合)用于对具有癌症特异性和患者特异性突变的基因进行鉴别和定量。

类似地，可以以多种方式进行蛋白质组学分析以确定新表位的RNA的实际翻译，并且本文考虑了所有已知的蛋白质组学分析方式。然而，特别优选的蛋白质组学方法包括基于抗体的方法和质谱法。此外，应该注意的是，蛋白质组学分析不仅可以提供关于蛋白质本身的定性或定量信息，还可以包括蛋白质具有催化活性或其他功能活性的蛋白质活性数据。用于进行蛋白质组学测定的示例性技术描述于US 7473532中，其通过引用并入本文。鉴别和甚至对蛋白质表达进行定量的其他合适的方法包括各种质谱分析(例如，选择性反应监测(SRM)、多重反应监测(MRM)和连续反应监测(CRM))。因此，应当理解，上述方法将提供患者特异性和肿瘤特异性新表位，其可以通过含有新表位的蛋白质的亚细胞定位(例如，膜位置)、表达强度(例如，与匹配的同一患者的正常样品相比的过表达)等来进一步筛选。

同样，可以以多种方式进行序列数据的计算分析。然而，在最优选的方法中，使用BAM文件和BAM服务器通过例如US2012/0059670A1和US2012/0066001A1所公开的肿瘤和正常样品的位置引导同步比对来进行计算机分析。这种分析有利地减少了假阳性新表位并显著降低了对存储器和计算资源的需求。

应当注意，针对计算机的任何语言应被解读为包括计算设备的任何合适的组合，该计算设备包括服务器、接口、系统、数据库、代理、对等设备、引擎、控制器或其他类型的单独或共同操作的计算设备。应当理解，计算设备包括处理器，该处理器被配置为执行存储在有形、非暂时性的计算机可读存储介质(例如，硬盘驱动器、固态驱动器、RAM、闪存、ROM等)上的软件指令。软件指令优选地将计算设备配置为提供如下文讨论的关于所公开的装置的作用、职责或其他功能。此外，所公开的技术可以体现为计算机程序产品，该计算机程序产品包括存储软件指令的非暂时性计算机可读介质，该软件指令使处理器执行与基于计算机的算法、过程、方法或其他指令的实现相关联的所公开的步骤。在特别优选的实施方案中，各种服务器、系统、数据库或接口使用标准化协议或算法来交换数据，其可能基于HTTP、HTTPS、AES、公钥-私钥交换、web服务API、已知金融交易协议或其他电子信息交换方式。设备之间的数据交换可以通过分组交换网、因特网、LAN、WAN、VPN或其他类型的分组交换网、电路交换网、信元交换网或其他类型的网络来进行。

另外并且任选地，可以获得匹配的非肿瘤材料(例如，患者的非肿瘤组织如血液、来自健康个体的非肿瘤匹配组织等)以比较肿瘤组织的组学数据和匹配组织的组学数据，使得在患者肿瘤材料中鉴别的任何突变对肿瘤细胞是特异性的。

或者，也可以从先前序列测定中已经建立的序列记录(例如，SAM、BAM、FASTA、FASTQ或VCF文件)中提供患者组学数据。例如，可以以多种方式进行DNA或RNA序列数据、或其他组学数据的计算分析，以鉴别癌症驱动基因突变。然而，在最优选的方法中，使用BAM文件(包括BAM格式的数据或序列记录的计算机文件)和BAM服务器(例如，包括被配置为处理BAM文件的处理器的服务器)，通过例如US2012/0059670A1和US2012/0066001A1所公开肿瘤和正常样品的位置引导同步比对来进行计算机分析。这种分析有利地减少了假阳性突变(例如，通过随机多态性等)并且显著降低了对存储器和计算资源的需求。因此，组学数据集可以包括未处理或经处理的数据集，并且示例性数据集包括具有BAM格式、SAM格式、FASTQ格式或FASTA格式的数据集。

任选地，来自患者样品的癌症驱动基因突变的鉴别可以限于最常见或与至少一种癌症类型强烈相关的预定数量的基因。例如，当患者被诊断患有非小细胞肺癌时，不是获得患者肿瘤细胞中整个基因组或整个编码基因的组学数据以鉴别任何可能的癌症驱动基因突变，而是可以获得在非小细胞肺癌患者中发现的最常见突变或已知相关(通过临床或通过体外研究等)的少于5个基因、少于10个基因、少于15个基因、少于20个基因、少于30个基因、少于50个基因的组学数据。

或者，在一些实施方案中，可以通过用具有多个最常见的突变基因的癌症面板(panel)对患者肿瘤样品进行预筛选来确定基因的数量和基因的类型，以确定患者肿瘤样品中哪个基因是突变的或可能突变的。可以使用任何合适的可商购获得的或定制的癌症面板。示例性多癌症面板包括但不限于Invitae Multi-Cancer Panel^TM、靶向NGS面板、NovoPM^TM癌症面板等。这种可选的预筛选过程可以减少组学数据分析的时间和数量，该组学数据分析可以包括基因组、RNA序列或蛋白质组中基本上不会影响肿瘤发展或癌症预后的其他突变或变化。

本发明人考虑，可以根据先验已知的分子变异来过滤所获得的关于癌症驱动基因突变的组学数据，从而可以确定任何可能不是肿瘤特异性的假阳性肿瘤抗原。例如，可以将癌症驱动基因突变与包含已知人序列(例如患者或患者集合)的数据库进行比较，以避免使用与人序列相同的序列。此外，过滤还可以包括去除由于患者中的SNP引起的癌症驱动基因突变序列，其中SNP存在于肿瘤和匹配的正常序列中。例如，dbSNP(单核苷酸多态性数据库)是由美国国家生物技术信息中心(NCBI)与美国国家人类基因组研究所(NHGRI)合作开发和主持的不同物种内的和不同物种间的遗传变异的免费公共档案。虽然数据库的名称仅表示一类多态性的集合(单核苷酸多态性(SNP))，但它实际上包含相对广泛的分子变异：(1)SNP、(2)短缺失和插入多态性(插入缺失/DIP)、(3)微卫星标记或短串联重复序列(STR)、(4)多核苷酸多态性(MNP)、(5)杂合序列、和(6)命名变体。dbSNP接受明显中性的多态性、对应于已知表型的多态性和无变异的区域。使用如上所述的这种数据库和其他过滤选项，可以过滤经鉴别的癌症驱动基因的可变序列以除去那些已知序列，从而产生具有多个假阳性大幅减少的新表位序列的序列组。

来自癌症驱动基因突变的可变肿瘤抗原

预期肿瘤抗原，尤其是肿瘤新表位，可以表征为产生独特和肿瘤特异性抗原的肿瘤细胞中表达的随机突变。因此，从不同的角度来看，肿瘤抗原(或肿瘤新表位)可以包括不同类型的突变(例如，缺失、插入、颠换、转移、易位)，并且可以基于突变(例如，无义、错义、移码等)对编码抗原具有不同的影响。通常优选的肿瘤细胞表面上呈递的肿瘤抗原(或肿瘤新表位)是长度为5聚体至30聚体、12聚体至25聚体或更典型地7聚体至11聚体的相对较短的多肽，其中存在氨基酸序列的变化。例如，当肿瘤抗原由MHC-I复合体呈递时，典型的新表位长度为约8个氨基酸至11个氨基酸，而通过MHC-II复合体呈递的肿瘤抗原的典型长度为约13个氨基酸至17个氨基酸。

通常，编码肿瘤抗原的DNA序列中的一个或多于一个突变由肿瘤抗原的蛋白质序列中的一个或多于一个改变的氨基酸表示。例如，癌症驱动基因中的突变可导致癌症驱动基因编码的蛋白质的至少一部分中的单个氨基酸变化。然而，应当理解的是，蛋白质中的单个氨基酸变化可能不一定产生具有改变的氨基酸的单一类型的抗原。最典型地，预期改变的氨基酸将位于中心氨基酸位置处或位于中心氨基酸位置附近。然而，肿瘤抗原(或肿瘤新表位)中改变的氨基酸的位置可能并非是中心。例如，典型的新表位可以具有A₄-N-A₄、或A₃-N-A₅、或A₂-N-A₇、或A₅-N-A₃、或A₇-N-A₂的结构，其中A是蛋白氨基酸，而N是改变的氨基酸(相对于野生型或相对于匹配的正常样品)。因此，应当理解的是，取决于改变的氨基酸的位置，在包括改变的氨基酸的许多肿瘤抗原序列中可以存在单个氨基酸改变。换句话说，取决于突变蛋白质的哪些区段被加工以产生肿瘤抗原，甚至可以从单个突变产生各种肿瘤抗原。

发明人发现，各种肿瘤抗原在触发针对肿瘤抗原的免疫系统时可能具有不同的效果，即使它们源自相同的单个点突变。这种不同作用的可能原因之一是这种不同的作用可能是由于抗原对由特定HLA等位基因编码的MHC分子的不同结合亲和力所致。另一种可能性是不同的抗原(即，在不同位置共享相同的突变)可引起抗原-MHC分子复合体的不同构象变化。发明人预期，抗原-MHC分子复合体的一些构象变化可能导致复合体在细胞表面上的呈递失败、或者减少复合体与免疫细胞(例如，与T细胞受体等)之间的相互作用。例如，图2显示了衍生自KRAS G12V突变的两种不同9聚体新抗原的分子建模：VVGAVGVGK和YKLVVVGAV(G12V突变以下划线标出)，该新抗原形成由HLA-A*11:01等位基因编码的MHC蛋白的复合体。如图2的A至B所示，肿瘤抗原VVGAVGVGK与HLA-A*11:01等位基因编码的MHC蛋白稳定结合并形成复合体。相反，如图2的C至D所示，肿瘤抗原YKLVVVGAV和由HLA-A*11:01等位基因编码的MHC蛋白的复合体显示出不稳定性，从而表明来自相同基因的相同突变的不同肿瘤抗原对于触发针对肿瘤细胞的免疫应答可能具有不同的有效性。因此，取决于癌症的类型和阶段，应当注意的是，当靶向经鉴别的肿瘤抗原时，并非所有经鉴别的肿瘤抗原都必然使患者在治疗上产生同样有效的反应。

HLA同种异型

当癌细胞的MHC分子与肿瘤抗原匹配时，可以实现肿瘤抗原在肿瘤细胞表面上的有效呈递。从另一个角度来看，如果患者A和患者B具有不同的HLA等位基因编码的MHC分子，则可以在患者A的肿瘤细胞上有效呈递的肿瘤抗原可能不能呈递在患者B的肿瘤细胞上。因此，发明人考虑可以将患者的HLA等位基因类型确定为用于免疫疗法的可变因子。考虑了确定各种MHC类型或HLA等位基因类型的任何合适方法，包括但不限于任何化学方法(例如，肽测序、结合测定等)或任何基于计算机的方法。在优选的实施方案中，可以基于组学数据(整个基因组学数据、整个外显子组数据、RNA序列数据、蛋白质组学数据)确定患者的HLA等位基因类型。例如，在根据本发明主题的一种优选方法中，通过数据库或测序仪提供相对大量的映射到染色体6p21.3(或发现HLA等位基因的任何其他位置或附近位置)的患者序列读取。最典型地，序列读取的长度为约100个至300个碱基并且包括元数据，该元数据包括读取质量、比对信息、取向、位置等。例如，合适的格式包括SAM、BAM、FASTA、GAR等。不限制本发明的主题，通常优选的是，患者序列读取提供至少5x、更通常至少10x、甚至更通常至少20x、最通常至少30x的覆盖深度。

除了患者序列读取之外，考虑的方法还使用一种或多于一种包括多种已知和不同的HLA等位基因的序列的参考序列。例如，典型的参考序列可以是合成的(没有相应的人或其他哺乳动物对应物)序列，该合成序列包括至少一种HLA类型的序列区段，该序列区段具有该HLA类型的多种HLA等位基因。例如，合适的参考序列包括至少50种不同HLA-A等位基因的已知基因组序列的集合。可选地或另外地，参考序列还可包括HLA-A的至少50个不同等位基因的已知RNA序列的集合。当然，并且如下进一步更详细讨论的，参考序列不限于HLA-A的50个等位基因，而是可以具有关于HLA-类型和等位基因的数量/组成的替代组成。最典型地，参考序列将是计算机可读格式，并且将由数据库或其他数据存储设备提供。例如，合适的参考序列格式包括FASTA、FASTQ、EMBL、GCG、或GenBank格式，并且可以直接从公共数据库(例如，IMGT、国际免疫遗传学信息系统、或等位基因频率网数据库、EUROSTAM，URL：www.allelefrequencies.net)的数据获得或构建。或者，参考序列也可以基于一种或多于一种的预定标准例如等位基因频率、种族等位基因分布、常见或稀有等位基因类型等从各个已知的HLA等位基因构建。

使用参考序列，现在可以通过de Bruijn图处理患者序列读取以鉴别具有最佳拟合的等位基因。在这种情况下，应该注意的是，每个个体携带每种HLA-类型的两个等位基因，并且这些等位基因可以非常相似，或者在某些情况下甚至相同。这种高度相似性对常规比对方案造成了显著问题。发明人现在已经发现，可以使用以下方法来解析HLA等位基因和甚至非常密切相关的等位基因：通过将序列读取分解成相对小的k聚体(通常具有10个至20个碱基的长度)并通过实施加权投票过程来构建de Bruijn图，其中每个患者序列读取基于与等位基因序列匹配的序列读取的k聚体为每个等位基因提供投票(“定量读取支持”)。然后，等位基因的累积最高投票表明了预测的最可能的HLA等位基因。另外，通常优选的是，与等位基因匹配的每个片段也用于计算该等位基因的总覆盖度和覆盖深度。

可以根据需要进一步改进或优化得分，尤其是在许多最高命中相似的情况下(例如，在其得分的很大一部分来自高度共享的k聚体组的情况下)。例如，得分优化可以包括加权方案，其中将与当前最高命中基本上相似(例如，>99％或其他预定值)的等位基因从未来的考虑中移除。然后通过因子(例如，0.5)对最高命中所使用的k聚体的计数重新加权，并且通过对这些加权计数求和来重新计算每个HLA等位基因的得分。重复该选择过程以找到新的最高命中。使用RNA序列数据可以更进一步提高方法的准确性，该RNA序列数据允许鉴别肿瘤表达的等位基因且有时可以是DNA中存在的2个等位基因中的1个。在考虑的系统和方法的进一步有利的方面，可以处理DNA或RNA、或DNA和RNA的组合以进行高度准确的HLA预测，并且DNA或RNA、或DNA和RNA的组合可以来源于肿瘤或血液DNA或RNA。在国际专利申请PCT/US16/48768中描述了用于高准确度的计算机HLA分型的其他方面、合适的方法和考虑因素，该文献通过引用并入本文。

最典型地，使用上述方法的HLA-类型确定包括至少三种MHC-I亚型(例如，HLA-A、HLA-B、HLA-C)和至少三种MHC-II亚型(例如，HLA-DP、HLA-DQ、HLA-DR、HLA-DM、HLA-DOA、HLA-DOB)。在一些实施方案中，可以通过至少2位深度或至少4位深度将人的HLA-类型分类为每个亚型。在该实施方案中，在2位深度或4位深度后具有任何序列差异的HLA等位基因可以被分类为相同的亚型，因为预期由这种HLA等位基因编码的MHC肽的结合亲和力或特异性基本相同。然而，在一些其他实施方案中，本文还考虑了更高的深度(例如，6位、8位)。

鉴别匹配的肿瘤抗原以设计癌症免疫疗法

当从患者的组学数据中鉴别出患者的一个或多于一个癌症驱动基因的患者的HLA-类型和突变时，发明人考虑可以进行进一步的计算分析以鉴别最合适的肿瘤抗原表位序列以设计有效的免疫疗法。在一个实施方案中，发明人考虑例如使用NetMHC(例如，NetMHC3.4)，将含有点突变(例如，单个氨基酸置换，例如EGFR L858R等)的9聚体或10聚体的肿瘤抗原表位的所有可能组合分析为将新表位对接至患者HLA同种异型并确定最佳结合物(例如，最低K_D，例如，小于500nM、或小于250nM、或小于150nM、或小于50nM)。当然，应该理解的是，可以使用除NetMHC之外的系统来完成患者的HLA-类型与肿瘤抗原表位的匹配，并且合适的系统包括NetMHC II、NetMHCpan、IEDB分析资源(URL immuneepitope.org)、RankPep、PREDEP、SVMHC、Epipredict、HLABinding等(参见例如J Immunol Methods 2011；374:1–4)。在一些实施方案中，可以基于结合亲和力对肿瘤抗原表位(9聚体或10聚体)进行分级。发明人进一步考虑了更高等级的肿瘤抗原表位(例如，对患者的MHC-类型具有更高的亲和力)更可能与患者的MHC分子形成稳定的复合物，因此可能呈递在细胞表面上并且这样最有可能引发具有治疗效果的免疫应答。

在另一个优选的实施方案中，可以通过将患者的HLA等位基因类型和肿瘤抗原与对同一肿瘤抗原具有最小亲和力的占多数的等位基因类型进行匹配来预测优选的肿瘤抗原。如本文所用，最小亲和力是指由K_d确定的亲和力等于或小于300nM，优选等于或小于100nM，更优选等于或小于50nM的肿瘤抗原与HLA等位基因的亲和力。

优选地，占多数的等位基因类型是不同种族(高加索人、亚洲人、黑人、西班牙裔、美洲印第安人等)、不同的地理位置(例如，北美、南美、东南亚、北欧、远东等)、不同的性别或家族来源(血缘、家庭关系等)中的一种或多于一种代表性HLA等位基因类型。在一些实施方案中，可以基于群体中等位基因的频率来确定占多数的等位基因类型。例如，亚洲群体中的占多数的等位基因类型可以是可存在于至少0.05％、至少0.1％、至少0.3％、至少0.5％或至少1％的HLA等位基因类型已知或已分析的亚洲群体中的HLA等位基因类型。在其他实施方案中，占多数的等位基因类型也可以通过群体中所有其他等位基因中的等位基因的四分位数来确定。例如，在西班牙裔群体中存在1000种HLA等位基因类型的情况下，该群体中的占多数的等位基因类型可以定义为基于群体中的HLA等位基因频率的前0.5％、前1％、前2％或前5％。

基于种族、地理位置或其他条件对群体进行分组是基于这样的发现：这些群体对不同类型的癌症显示不同的癌症发病率，这可能表明对不同类型的癌症的不同易感性。而且，即使在同一癌症类型的患者中，这些群体通常也显示出基因突变的不同类型和频率。表2显示了一个示例性统计数据，该统计数据显示了根据地理位置在肺腺癌患者中癌症驱动基因突变的发生率。在亚洲，在肺腺癌患者中鉴别出的EGFR突变比在美国肺腺癌患者中高3.5倍。相反，在美国，检测到KRAS基因的突变比在亚洲患者中高2倍至3倍。因此，即使对于相同类型的癌症，不同地理区域(或种族、性别、家族遗传等)的患者可能表现出不同甚至可能优先的导致或促成肿瘤进展的遗传倾向，这表明免疫治疗的靶标可能不同，并且还可以根据这些群体推断免疫治疗的靶标。

表2

还应该指出的是，HLA等位基因类型在不同群体中的差异很大，这些群体按种族、地理位置、性别或家族来源分组。发明人考虑，不同群体组中HLA等位基因类型的这种变化表明，即使在相同基因中具有相同类型突变的相同类型癌症的患者中，可靶向的肿瘤抗原序列也可能是不同的。因此，发明人发现可以基于HLA等位基因类型及其在群体中的频率来鉴别候选肿瘤抗原序列。从另一个角度来看，可以从确定的HLA等位基因类型和任选地从患者的种族、地理位置、性别或家族来源推断或预测用于设计患者的免疫疗法的优选肿瘤抗原序列。

为了鉴别可以作为具有不同HLA等位基因的患者的免疫治疗靶标的优选肿瘤抗原序列，本发明人检查了已知癌症驱动突变(单个点突变)的所有排列与不同种族群体中经常发现的HLA等位基因的亲和力。表3至表6提供了来自不同癌症驱动突变的肿瘤抗原及其与从一个或多于一个种族来源鉴别的各种HLA等位基因类型的关系的一些实例。在这些实例中，显示了对任何HLA等位基因具有等于或低于500nM的K_d的亲和力的抗原。例如，表3提供了衍生自EGFR L585R(氨基酸位点585处亮氨酸变为精氨酸的点突变)突变的肿瘤抗原及其与各种HLA等位基因和种族的关系的实例。如图所示，在不同来源的不同群体频率下显示出不同的HLA等位基因。例如，HLA等位基因A*31:01可以在三个不同的种族中找到，包括美洲印第安人、高加索人、混血人种和亚洲人。在这四个种族中，显示的这种HLA等位基因的最高频率为0.19％。在其中占多数的等位基因被确定为在至少0.1％或多于0.1％的人群中发现且最小亲和力等于或小于100nM的HLA等位基因的实施方案中，HLA等位基因A*31:01是占多数的等位基因并且对HVKITDFGR的肿瘤抗原序列具有令人满意的K_d值为12nM的最小亲和力。因此，如果患者是在肿瘤细胞中具有EGFRL585R突变，且具有A*31:01的HLA等位基因的亚洲人，则HVKITDFGR的肿瘤抗原序列可以是以患者的MHC分子高概率呈递在患者肿瘤细胞表面上的序列，并且可以是免疫治疗的理想靶标。

表3

对于另一个实例，表4提供了源自KRAS G12D突变的肿瘤抗原及其与各种HLA等位基因和种族的关系的实例。在该实例中，表明具有相同类型的癌症和相同基因突变但具有不同HLA等位基因的患者在靶向相同肿瘤抗原的免疫疗法中可能具有非常不同的结果。例如，即使两名患者具有相同类型的癌症、相同的KRAS G12D突变和相同的西班牙裔种族，靶向LVVVGADGV的肿瘤抗原序列的免疫疗法可能对一名具有A*02:06的HLA等位基因的患者有效(因为具有22nM的结合亲和力)，但对于具有A*68:02的HLA等位基因的另一患者可能无效(因为具有277nM的结合亲和力)。因此，换句话说，如果患者具有A*68:02的HLA等位基因，则可能不会将具有LVVVGADGV序列的肿瘤抗原预测为免疫疗法的有效靶标。

表4

在另一个实例中，表5提供了源自KRAS G12V突变的肿瘤抗原及其与各种HLA等位基因和种族的关系的实例。在该实例中，表明基于用于免疫疗法的患者的HLA等位基因类型，一种肿瘤抗原可能优于另一种肿瘤抗原(具有相同突变)。例如，当癌症患者被鉴别为具有KRAS G12V突变并且具有A*02:50的HLA等位基因类型时，具有AVGVGKSAL或LVVVGAVGV序列的两种肿瘤抗原可被认为是免疫疗法的靶标，并且具有LVVVGAVGV序列的肿瘤抗原将是优选的且推荐的，因为在给定相同的最高群体频率的情况下，与其他肿瘤抗原(AVGVGKSAL)的344nM亲和力相比，此序列显示出18nM的更强亲和力。

表5

在又一个实例中，表6提供了源自TP53E271K突变的肿瘤抗原及其与各种HLA等位基因和种族的关系的实例。

表6

从不同的角度来看，发明人考虑到，对于在几种类型癌症中几种最常见的突变，可以基于高频HLA等位基因和对这些高频HLA等位基因具有高亲和力的肿瘤抗原序列来制备癌症疫苗组。例如，KRAS G12V突变是美国患者中最常发生的腺癌突变之一。理论上，在肿瘤抗原为9聚体的情况下，可以有9种不同的包括KRAS G12V突变的肿瘤抗原序列。因此，可以基于那些不同的抗原序列制备9种可能不同的癌症疫苗。然而，基于表5，仅5种肿瘤抗原序列可以结合任何HLA等位基因或通常发现的HLA等位基因，其中K_d等于或低于500nM。换句话说，鉴于HLA等位基因的频率和抗原对这些等位基因的亲和力，与其余4种肿瘤可能性抗原相比，可能更需要针对衍生自KRAS G12V突变的5种肿瘤抗原序列的癌症疫苗。

因此，在这样的实施方案中，通过将患者的等位基因类型和肿瘤抗原与对同一肿瘤抗原具有最小亲和力的占多数的等位基因类型相匹配，具有最常见突变之一的肿瘤的癌症患者可以容易地鉴别可用的癌症疫苗。例如，如果患者具有KRAS G12V突变并且具有HLA等位基因类型A*02:11，则针对具有YKLVVVGAV序列的肿瘤抗原的癌症疫苗可以与患者的遗传特征(癌症驱动突变和HLA等位基因类型)相匹配。根据这种匹配，可以向患者施用癌症疫苗，而不需要制备可能需要额外时间和成本的定制的癌症疫苗。如本文所用，术语“施用”癌症疫苗是指直接和间接施用癌症疫苗。癌症疫苗的直接施用通常由健康护理专业人员(例如医生、护士等)进行，而间接施用通常包括提供或制备可供健康护理专业人员直接施用的化合物和组合物的步骤。

因此，可以预先制备现成的癌症免疫治疗剂，其中多数同种异型(例如，具有至少0.1、或至少0.2、或至少0.3、或至少0.5的群体频率)的新抗原被鉴别出具有等于或小于300nM、或等于或小于200nM、或等于或小于100nM的预定亲和力。然后可将治疗剂(例如，通常为病毒、酵母、细菌或肽疫苗)提供给具有与新抗原相同的HLA同种异型的患者。例如，使用上表4的KRAS G12D突变数据，可以将现成的癌症免疫治疗剂施用于患者以靶向新抗原LVVVGADGV，其中患者的HLA类型是A*02:06。

可选地并且另外地，发明人还考虑，患者的遗传特征(癌症驱动突变和HLA等位基因类型)可以与同这些患者的遗传特征相关联的其他的患者治疗信息相匹配。例如，数据库可以包括已经被诊断为患有至少一种或多于一种类型的癌症并且用至少一种或多于一种类型的癌症治疗进行治疗的多个患者的治疗信息数据。在一些实施方案中，多个患者按种族、地理位置、性别或家族来源分层或分组为若干组。

通常，治疗信息数据包括癌症驱动突变类型(例如，KRAS G12V突变等)和多个患者的HLA等位基因类型。优选地，治疗信息数据还包括在每个患者的癌症治疗之后的癌症治疗结果和/或肿瘤的预后。预期共享基本上相似的遗传特征的患者可能类似地响应癌症治疗，尤其是靶向遗传特异性标志物(例如，突变特异性的肿瘤抗原等)的癌症治疗。因此，将患者的遗传特征与其他的患者数据相匹配允许选择或匹配在其他类似患者(共享遗传特征)中呈现最积极结果的任何癌症治疗(例如，癌症疫苗等)，以向患者提供治疗肿瘤的成功率更高的癌症治疗。

本发明人还考虑，匹配遗传特征和治疗结果将为患者提供成功可能性更高的治疗选项，其中患者的肿瘤细胞表达多于一种癌症驱动基因突变。例如，当患者A和B的肿瘤细胞在癌症驱动基因C中具有共同突变并且在癌症驱动基因D中具有另一种常见突变时，如果患者A和B的HLA等位基因类型不同，则患者A和B在通过靶向这些癌症驱动基因中的一种来治疗肿瘤时可能不会表现出相同的效果。相反，患者A和B的突变可以与具有相同HLA等位基因类型的其他多个患者的突变和治疗结果相匹配，并将患者A和B的突变进一步被列为治疗候选。例如，在与患者A具有相同HLA等位基因的多个患者(例如，至少30％、至少50％、至少70％等)中，靶向基因A的癌症治疗显示出更好的结果(例如，更长的预期寿命、更少的转移、减小的肿瘤尺寸、更少的症状等)，然后基因C作为可以设计癌症治疗的候选可以排在基因D之前。

癌症疫苗

在鉴别与常见的HLA等位基因编码的MHC分子特异性结合的癌症驱动抗原后，可以使用癌症驱动肿瘤抗原的序列信息制备一种或多于一种免疫治疗剂。虽然考虑了任何合适形式的免疫治疗剂，但在一个优选的实施方案中，可以将经鉴别的癌症驱动抗原配制成癌症疫苗。癌症疫苗可包含基因工程细菌(细菌疫苗)、基因工程酵母(酵母疫苗)和基因工程病毒(病毒疫苗)，产生所述癌症疫苗以包括编码癌症驱动抗原的重组核酸。在此类实施方案中，可将编码癌症驱动抗原的重组核酸作为组件置于合适的表达细菌载体、酵母载体或病毒载体中。

在一些实施方案中，编码癌症驱动抗原的重组核酸可包括编码一种或多于一种个体化新抗原的一个或多于一个核酸区段，以使得重组核酸可编码多表位抗原。例如，如图3所示，多表位抗原可包括衍生自癌症驱动基因突变(例如，KRAS、EGFR)的抗原和多种个体化的新抗原。发明人考虑，个体化新抗原可以是抗原肽或肽片段，可以是一种或多于一种炎症相关肽抗原、自身免疫疾病(例如，系统性红斑狼疮、乳糜泻、1型糖尿病、格雷夫斯病、炎症性肠病、多发性硬化症、银屑病、类风湿性关节炎等)相关肽抗原、与器官移植排斥相关的肽抗原、肿瘤相关肽抗原和癌症新表位。优选地，抗原肽或肽片段是患者特异性的和/或组织特异性的。

关于细菌疫苗，发明人考虑，细菌可以用作快速且方便的载体以在体内表达人类疾病相关抗原，从而局部地或全身地引发免疫应答。一种优选的细菌是大肠杆菌(E.coli)，因其生长迅速(例如，一个完整的细胞周期在20分钟内)并且在诱导时可获得许多针对蛋白质过度表达而优化的菌株(例如，用IPTG诱导lac启动子等)。然而，大多数细菌菌株被认为不适合引入血流或移植到器官或组织中，因为细菌通常表达脂多糖，所述脂多糖触发免疫应答并引起内毒素反应，这可能导致患者潜在的致命脓毒症(例如CD-14介导的脓毒症)。因此，一种特别优选的细菌菌株基于遗传修饰的细菌，其在引入人体时表达内毒素的水平足够低，不会在人体细胞中引起内毒素反应和/或不足以诱导CD-14介导的脓毒症。

一种具有经修饰的脂多糖的示例性细菌菌株包括BL21(DE3)电感受态细胞。此细菌菌株是具有基因型F-ompT hsdSB(rB-mB-)gal dcm lonλ(DE3[lacIlacUV5-T7基因1ind1sam7nin5])msbA148ΔgutQΔkdsDΔlpxLΔlpxMΔpagPΔlpxPΔeptA的BL21。在这种情况下，应当理解的是，几个特定的缺失突变(ΔgutQΔkdsDΔlpxLΔlpxMΔpagPΔlpxPΔeptA)编码了LPS至脂质IV_A的修饰，而一个额外的补偿突变(msbA148)使细胞能够在LPS脂质前体IVA存在的情况下保持活力。这些突变导致LPS中寡糖链的缺失。更具体地，六个酰基链中的两个是缺失的。LPS的六个酰基链是Toll样受体4(TLR4)与髓样分化因子2(MD-2)复合物识别的触发因子，从而引起的激活和促炎细胞因子的产生。仅含有四个酰基链的脂质IV_A不被TLR4识别，因此不会引发内毒素反应。虽然提供了电感受态BL21细菌作为实例，但发明人考虑遗传修饰的细菌也可以是化学感受态细菌。

关于酵母疫苗，发明人考虑了可用于产生如上所述的肿瘤抗原多肽的任何酵母菌株。因为非致病性酵母菌株对施用酵母载体的个体的任何不利影响最小，优选地，酵母是非致病性菌株，例如酿酒酵母。然而，如果使用药物干预可以抵消酵母的致病性，也可以使用致病性酵母。例如，酵母菌株的合适属包括酵母属(Saccharomyces)、假丝酵母属(Candida)、隐球菌属(Cryptococcus)、汉逊酵母属(Hansenula)、克鲁维酵母属(Kluyveromyces)、毕赤酵母属(Pichia)、红酵母属(Rhodotorula)、裂殖酵母属(Schizosaccharomyces)和亚罗酵母属(Yarrowia)。

关于病毒疫苗，发明人考虑了可以表达如上所述的肿瘤抗原多肽的任何合适的病毒载体。特别优选的表达载体可包括可携带至少1k，优选2k，更优选5k碱基对的组件大小的载体。因此，在一个实施方案中，优选的表达载体包括病毒载体(例如，任选地具有缺失或非功能性E1和/或E2b基因的非复制型重组腺病毒基因组)。

本发明人还考虑，具有如上所述重组核酸的重组病毒、细菌或酵母还可以配制于任何药学上可接受的载体中(例如，优选配制成无菌可注射组合物)，以形成药物组合物。当药物组合物包含重组病毒时，优选组合物的病毒滴度为每剂量单位10⁴个至10¹²个病毒颗粒。然而，替代制剂也被认为适用于本文，并且本文考虑了所有已知的给药途径和方式。当药物组合物包含重组细菌时，优选组合物的细菌滴度为每剂量单位10²个至10³个、10³个至10⁴个、10⁴个至10⁵个细菌细胞。当药物组合物包含重组酵母时，优选组合物的酵母滴度为每剂量单位10²个至10³个、10³个至10⁴个、10⁴个至10⁵个酵母细胞。在一些实施方案中，病毒、细菌或酵母制剂通过全身注射给药，包括真皮下注射、皮下注射或静脉内注射。在其他实施方案中，在全身注射可能不是有效的情况下(例如，对于脑肿瘤等)，考虑通过瘤内注射施用制剂。

或者，免疫治疗不需要依赖病毒，但可以进行核酸疫苗接种，或使用在期望细胞、尤其是免疫活性细胞中导致癌症抗原表达的其他重组载体(例如，作为单肽、串联小基因等)，从而实现免疫治疗。

发明人还考虑，癌症疫苗可包括遗传修饰的免疫活性细胞。免疫活性细胞包括但不限于NK细胞、经修饰的NK细胞(例如，可从NantKwest,9920Jefferson Blvd.CulverCity,CA 90232商购获得的aNK细胞、haNK细胞、或taNK细胞)、NKT细胞(例如，CD1d限制性iNKT细胞等)、T细胞等，以表达对肿瘤抗原特异的嵌合抗原受体(CAR)。在一些实施方案中，遗传修饰的免疫活性细胞可包括嵌合蛋白，该嵌合蛋白具有特异性结合肿瘤抗原的胞外单链变体片段、胞内激活结构域、和将胞外单链变体片段偶联至胞内激活结构域的跨膜接头。优选地，胞外单链变体片段包括重链可变区(V_H)和轻链可变区(V_L)，它们被编码短间隔肽片段(例如，至少10个氨基酸、至少20个氨基酸、至少30个氨基酸等)的接头序列隔开。

考虑了任何合适的方法来鉴别对肿瘤新表位、肿瘤相关抗原或自身脂质具有特异性的V_H和V_L核酸序列。例如，可以从具有已知特异性和对肿瘤表位的结合亲和力的单克隆抗体序列数据库中鉴别V_H和V_L的核酸序列。或者，可以通过候选序列的计算机分析(例如，通过IgBLAST序列分析工具等)鉴别V_H和V_L的核酸序列。在一些实施方案中，可以通过大规模筛选与肿瘤新表位、肿瘤相关抗原或自身脂质具有各种亲和力的肽，通过任何合适的体外分析(例如流式细胞术、SPR分析、动力学排阻分析等)来鉴别V_H和V_L的核酸序列。虽然V_H和V_L的核酸序列可以根据肿瘤表位的特征而变化，但优选的是，V_H和V_L的最佳核酸序列编码对肿瘤表位具有亲和力的细胞外单链变体片段，该亲和力至少为K_D至少等于或小于10^-6M，优选至少等于或小于10^-7M，更优选至少等于或小于10^-8M。或者，也可以通过噬菌体淘选或RNA展示获得肿瘤表位的合成结合物。

在其他实施方案中，遗传修饰的免疫活性细胞可包括具有α链T细胞受体、β链T细胞受体、至少一部分CD3δ和至少一部分CD3γ的遗传修饰的T细胞受体复合物。优选地，α链T细胞受体或β链T细胞受体的至少一部分对肿瘤抗原是特异性的。特别优选的是，遗传修饰的T细胞受体复合物的细胞外结构域对肿瘤抗原的亲和力至少为K_D至少等于或小于10^-6M，优选至少等于或小于10^-7M，更优选至少等于或小于10^-8M。在这些实施方案中，优选胞内激活结构域包括一个或多于一个ITAM活化基序(基于免疫受体酪氨酸的活化基序，YxxL/I-X_6-8-YXXL/I)，其在表达这些基序的细胞中触发信号级联。因此，在与肿瘤抗原结合后，遗传修饰的T细胞受体复合物触发下游信号级联的激活，从而触发免疫活性细胞的细胞毒性。

发明人还考虑，癌症疫苗可以包括肽形式的肿瘤抗原、或肿瘤抗原的一部分。任选地，肿瘤抗原肽可以与载体蛋白偶联。如本文所用，载体蛋白可以是可以稳定地携带负载(一种或多于一种肿瘤抗原肽)的任何合适的多肽，并且当向患者施用载体蛋白时，载体蛋白优选地提供进入肿瘤微环境的途径(例如，通过gp60介导的胞吞转运白蛋白)。因此，优选的载体蛋白包括白蛋白、再折叠的白蛋白和对抗体部分具有亲和力的其他蛋白(例如，蛋白A、蛋白G、蛋白Z)。

在一些实施方案中，肿瘤抗原与锚分子偶联，通过该锚分子，肿瘤抗原可与载体蛋白偶联。例如，当载体蛋白是白蛋白时，锚定分子可以是任何合适大小的疏水肽或糖脂，以适合白蛋白的Sudlow位点I和II之一或白蛋白的任何其它疏水区域。例如，锚分子可包括疏水肽(长度为至少10个氨基酸、15个氨基酸、20个氨基酸、30个氨基酸等)。在这些实施方案中，可以考虑肿瘤抗原和疏水肽的各种构型。例如，一种肿瘤抗原可以直接与疏水肽连接，或多种肿瘤抗原可以直接与疏水肽连接。或者，一种肿瘤抗原可以直接与多种疏水性肽连接，或多种肿瘤抗原可以直接与多种疏水性肽连接。

可选地或另外地，一种或多于一种肿瘤抗原可与具有与载体蛋白结合的锚定部分的中间分子偶联。在一个优选的实施方案中，发明人考虑，中间分子为肿瘤抗原提供多个结合位点，以使得多个肿瘤抗原可以通过载体蛋白上的单个结合位点来携带。合适的中间分子可包括不对天然组织提供任何显著毒性的任何蛋白质、糖脂、有机分子或无机分子。例如，合适的中间分子可包括纳米颗粒(例如，量子点、金纳米颗粒、磁性纳米颗粒、纳米管、聚合物纳米颗粒、树枝状大分子等)、或珠(例如，聚苯乙烯珠、乳胶珠、Dynabead等)。优选地，纳米颗粒和/或珠的尺寸小于1μm，优选小于100nm。纳米颗粒可以交联到疏水性尾部或部分涂覆有疏水性尾部，该疏水性尾部为载体蛋白(例如白蛋白)提供锚定。一种或多于一种肿瘤抗原也可以交联到或部分涂覆在纳米颗粒上(例如，通过用于交联的连接到肿瘤抗原的额外尾结构域等)。

此外，还应该认识到，一旦新表位被鉴别为癌症驱动新表位，就可以选择靶向由癌症驱动基因编码、携带癌症驱动新表位的蛋白质的药物。例如，在癌症驱动基因编码受体的情况下，可以施用针对受体(或其配体)的且对受体具有特异性的受体拮抗剂或抑制剂或抗体。类似地，在癌症驱动基因编码激酶的情况下，可以向患者施用激酶抑制剂。因此，应当理解的是，癌症驱动新表位的鉴别可以提供使用免疫系统和突变蛋白质的功能靶向突变蛋白质的组合治疗选项。

在一些实施方案中，发明人考虑，可以将癌症疫苗与一种或多于一种共刺激分子、免疫刺激细胞因子和/或干扰或下调检查点抑制的蛋白质共同施用。合适的共刺激分子包括但不限于CD80、CD86、CD30、CD40、CD30L、CD40L、ICOS-L、B7-H3、B7-H4、CD70、OX40L、4-1BBL，而作用机制较不明确(或理解)的其他刺激分子包括GITR-L、TIM-3、TIM-4、CD48、CD58、TL1A、ICAM-1、LFA3和SLAM家族的成员。此外，考虑了任何合适类型的细胞因子以增强免疫应答。特别优选的细胞因子和细胞因子类似物包括IL-2、IL-15和IL-a5超激动剂(ALT-803)、IL-21、IPS1和LMP1。

关于干扰或下调检查点抑制的蛋白质，考虑与检查点受体结合的任何合适的肽配体。最典型地，结合将抑制或至少减少通过受体的信号传导，并且特别考虑的受体包括CTLA-4(特别针对CD8⁺细胞)、PD-1(特别针对CD4⁺细胞)、TIM1受体、2B4和CD160。例如，合适的肽结合剂可包括抗体片段且尤其是scFv、以及特异性结合受体的小分子肽配体(例如，通过RNA展示或噬菌体淘选而分离的)。再次，应当理解的是，优选地协调肽分子的表达，使得新表位或多表位与一种或多于一种的肽配体同时表达。因此，通常考虑，例如使用内部核糖体进入位点或2A序列由单个转录物(其可以包括或不包括编码多表位的序列部分)或由多个转录物产生肽配体。

任选地和另外地，发明人还考虑，在施用癌症疫苗后可以监测和记录患者的治疗结果。监测可以包括评估可以引发针对表达肿瘤抗原的细胞的免疫应答的各种免疫活性细胞的质量和/或数量。因此，在一个实施方案中，监测包括在用癌症疫苗治疗患者后，例如疫苗治疗后至少1天、至少3天、至少5天、至少7天、至少14天、至少28天，从患者中分离各种免疫活性细胞(例如，CD8+T细胞、CD4+T细胞、CD3+T细胞、NK细胞、NKT细胞等)。在该实施方案中，可以定性地(例如，通过T细胞受体或NK细胞受体的肽测序等)并定量地(例如，通过结合分析计算对肿瘤抗原特异的免疫活性细胞的比率或数量等)评估表达特异性结合肿瘤抗原的T细胞受体或NK细胞受体的免疫活性细胞。

本文中对数值范围的描述仅旨在用作单独提到落入该范围内的每个单独值的简写方法。除非本文另有说明，将每个单独的值并入本说明书中，如同其在本文中单独描述一样。除非本文另有说明或上下文明显矛盾，否则本文所述的所有方法均可以任何合适的顺序进行。关于本文的一些实施方案提供的任何和所有实例或示例性语言(例如，“例如”)的使用仅旨在更好地说明本发明，而不是对要求保护的本发明的范围造成限制。说明书中的任何语言都不应解释为表示放弃对于本发明的实践必不可少的任何要素的保护。

对于本领域技术人员显而易见的是，在不脱离本文的发明构思的情况下，除了已经描述的那些之外的更多修改是可能的。因此，除了所附权利要求的范围之外，本发明的主题不受限制。此外，在解释说明书和权利要求时，所有术语应以与上下文一致的最广泛的方式解释。特别地，术语“包括”和“包含”应该被解释为以非排他的方式引用元素、组件或步骤，从而表示所引用的元素、组件或步骤可以存在，或者被利用或与未明确引用的其他元素、组件或步骤组合。当说明书和权利要求涉及选自A、B、C……和N中的至少一种时，文本应解释为只需要其中的一个元素，而不是A加N，或B加N等。

Claims

1.一种靶向患者的肿瘤抗原用于癌症免疫治疗的方法，其包括：

从患者获得来自肿瘤组织的组学数据，并使用组学数据鉴别产生肿瘤抗原的癌症驱动基因中至少一种突变的存在；

确定患者的HLA等位基因类型；

将患者的等位基因类型和肿瘤抗原与对同一肿瘤抗原具有最小亲和力的占多数的等位基因类型进行匹配；和

在匹配后，施用靶向患者的肿瘤抗原的癌症疫苗。

2.根据权利要求1所述的方法，其中所述组学数据包括选自全基因组测序数据、全外显子组测序数据、RNA测序数据和定量蛋白质组学数据中的至少一种组学数据。

3.根据前述权利要求中任一项所述的方法，其还包括通过选自单核苷酸多态性、短缺失和插入多态性、微卫星标记、短串联重复、杂合序列、多核苷酸多态性和命名变体的先验已知分子变异中的至少一种来过滤至少一种突变的步骤。

4.根据前述权利要求中任一项所述的方法，其中所述癌症驱动基因存在于选自以下的癌症中：ALL、AML、BLCA、BRCA、CLL、CM、COREAD、ESCA、GBM、HC、HNSC、LUAD、LUSC、MB、NB、NSCLC、OV、PRAD、RCCC、SCLC、STAD、THCA和UCEC。

5.根据前述权利要求中任一项所述的方法，其中所述癌症驱动基因是表1中列出的基因中的一种。

6.根据前述权利要求中任一项所述的方法，其中所述占多数的等位基因类型表示不同种族、不同地理位置、不同性别或家族来源中的等位基因类型。

7.根据权利要求6所述的方法，其中所述占多数的等位基因类型在至少一个种族中具有至少0.1％的群体频率。

8.根据权利要求6至7中任一项所述的方法，其中所述占多数的等位基因类型在至少一个种族中具有处于前四分位数的群体频率。

9.根据前述权利要求中任一项所述的方法，其中通过比较关于多个HLA等位基因对肿瘤抗原的亲和力来确定最小亲和力。

10.根据前述权利要求中任一项所述的方法，其中所述最小亲和力确定为K_d等于或小于100nM。

11.根据前述权利要求中任一项所述的方法，其中所述癌症疫苗是重组病毒疫苗、重组细菌疫苗、重组酵母疫苗、编码肿瘤抗原的核酸、与载体分子偶联的肿瘤抗原和遗传修饰的免疫细胞组合物中的一种。

12.根据权利要求11所述的方法，其中所述遗传修饰的免疫细胞组合物包含表达对肿瘤抗原特异的嵌合抗原受体的遗传修饰的T细胞、遗传修饰的NK细胞、遗传修饰的NKT细胞中的至少一种。

13.根据权利要求11至12中任一项所述的方法，其中所述重组病毒疫苗、所述重组细菌疫苗和所述重组酵母疫苗包含编码肿瘤抗原的重组核酸。

14.根据前述权利要求中任一项所述的方法，其还包括基于与肿瘤抗原的结合亲和力，在多个HLA等位基因类型中对患者的HLA等位基因类型进行分级。

15.根据前述权利要求中任一项所述的方法，其中肿瘤抗原的长度为7个至20个氨基酸。

16.根据前述权利要求中任一项所述的方法，其还包括共同施用共刺激分子、免疫刺激细胞因子、和干扰或下调检查点抑制的蛋白质中的至少一种。

17.根据权利要求16所述的方法，其中所述共刺激分子选自CD80、CD86、CD30、CD40、CD30L、CD40L、ICOS-L、B7-H3、B7-H4、CD70、OX40L、4-1BBL、GITR-L、TIM-3、TIM-4、CD48、CD58、TL1A、ICAM-1和LFA3。

18.根据权利要求16至17中任一项所述的方法，其中所述免疫刺激细胞因子选自IL-2、IL-12、IL-15、IL-15超激动剂(ALT803)、IL-21、IPS1和LMP1。

19.根据权利要求16至18中任一项所述的方法，其中干扰的蛋白质是CTLA-4、PD-1、TIM1受体、2B4或CD160的抗体或拮抗剂。

20.一种靶向患者的肿瘤抗原用于癌症免疫治疗的方法，其包括：

确定患者的HLA等位基因类型；

将患者的等位基因类型和肿瘤抗原与已被诊断患有至少一种癌症并用至少一种癌症治疗方法治疗的多个患者的HLA等位基因类型和突变序列进行匹配；和

在匹配后，基于匹配对患者施用癌症治疗。

21.根据权利要求20所述的方法，其中所述组学数据包括选自全基因组测序数据、全外显子组测序数据、RNA测序数据和定量蛋白质组学数据中的至少一种组学数据。

22.根据权利要求20至21中任一项所述的方法，其还包括通过选自单核苷酸多态性、短缺失和插入多态性、微卫星标记、短串联重复、杂合序列、多核苷酸多态性和命名变体的先验已知分子变异中的至少一种来过滤至少一种突变的步骤。

23.根据权利要求20至22中任一项所述的方法，其中所述癌症驱动基因存在于选自以下的癌症中：ALL、AML、BLCA、BRCA、CLL、CM、COREAD、ESCA、GBM、HC、HNSC、LUAD、LUSC、MB、NB、NSCLC、OV、PRAD、RCCC、SCLC、STAD、THCA和UCEC。

24.根据权利要求20至23中任一项所述的方法，其中所述癌症驱动基因是表1中列出的基因中的一种。

25.根据权利要求20至24中任一项所述的方法，其中所述匹配还包括基于HLA等位基因类型和至少一种癌症治疗的治疗结果对肿瘤抗原进行分级。

26.根据权利要求20至25中任一项所述的方法，其中肿瘤抗原的长度为7个至20个氨基酸。

27.根据权利要求20至26中任一项所述的方法，其中所述癌症治疗是靶向肿瘤抗原的癌症疫苗。

28.根据权利要求27所述的方法，其中所述癌症疫苗是重组病毒疫苗、重组细菌疫苗、重组酵母疫苗、编码肿瘤抗原的核酸、与载体分子偶联的肿瘤抗原和遗传修饰的免疫细胞组合物中的一种。

29.根据权利要求28所述的方法，其中所述遗传修饰的免疫细胞组合物包含表达对肿瘤抗原特异的嵌合抗原受体的遗传修饰的T细胞、遗传修饰的NK细胞、遗传修饰的NK细胞衍生物、遗传修饰的NKT细胞中的至少一种。

30.根据权利要求28至29中任一项所述的方法，其中所述重组病毒疫苗、所述重组细菌疫苗和所述重组酵母疫苗包含编码肿瘤抗原的重组核酸。

31.根据权利要求20至30中任一项所述的方法，其还包括共同施用共刺激分子、免疫刺激细胞因子、和干扰或下调检查点抑制的蛋白质中的至少一种。

32.根据权利要求31所述的方法，其中所述共刺激分子选自CD80、CD86、CD30、CD40、CD30L、CD40L、ICOS-L、B7-H3、B7-H4、CD70、OX40L、4-1BBL、GITR-L、TIM-3、TIM-4、CD48、CD58、TL1A、ICAM-1和LFA3。

33.根据权利要求31至32中任一项所述的方法，其中所述免疫刺激细胞因子选自IL-2、IL-12、IL-15、IL-15超激动剂(ALT803)、IL-21、IPS1和LMP1。

34.根据权利要求31至33中任一项所述的方法，其中干扰的蛋白质是CTLA-4、PD-1、TIM1受体、2B4或CD160的抗体或拮抗剂。

35.根据权利要求20至34中任一项所述的方法，其中通过性别、种族和地理位置中的至少一种对多个患者进行分层。