CN103608033A

CN103608033A - 用于癌症的个体化疫苗

Info

Publication number: CN103608033A
Application number: CN201280029551.XA
Authority: CN
Inventors: 乌尔·沙欣; 塞巴斯蒂安·克赖特尔; 穆斯塔法·迪肯; 扬·狄克曼; 米夏埃尔·科斯洛夫斯基; 采德里克·布里滕; 约翰·卡斯特勒; 马丁·勒韦尔; 贝恩哈德·雷纳; 塔纳·欧莫科科; 约翰内斯·亨德里克斯·德格拉夫
Original assignee: Debiotech SA; TRON Translationale Onkologie an der Universitaetsmedizin der Johannes Gutenberg Universitaet Mainz gGmbH
Current assignee: John Gutenberg University Mainz Medical University Translational Oncology Co; Debiotech SA
Priority date: 2011-05-24
Filing date: 2012-05-23
Publication date: 2014-02-26
Anticipated expiration: 2032-05-23
Also published as: ES2746233T8; JP6444171B2; CN103608033B; DK3892295T3; RU2670745C9; JP6456888B2; US10738355B2; PL3892295T3; CN105999250A; CA2836494C; LT3892295T; JP7297715B2; CA2836494A1; CN105999250B; AU2017213515B2; HRP20230443T1; HRP20211595T1; RS64230B1; PT3892295T; JP2017018129A

Abstract

本发明涉及提供对患者肿瘤特异并且可用于免疫治疗原发肿瘤及肿瘤转移的疫苗。在一个方面中，本发明涉及一种用于提供个体化癌症疫苗的方法，其包括以下步骤：(a)鉴定癌症患者肿瘤样本中的癌症特异性体细胞突变以提供所述患者的癌症突变标记(signature)；以及(b)提供以步骤(a)中获得的所述癌症突变标记为特征(featuring)的疫苗。在另一个方面中，本发明涉及可通过所述方法获得的疫苗。

Description

用于癌症的个体化疫苗

技术领域

本发明涉及提供对患者肿瘤特异并且可用于免疫治疗原发肿瘤及肿瘤转移的疫苗。

背景技术

癌症是死亡的主要原因，占所有死亡的四分之一。传统上，癌症治疗基于平均定律，即对最大数目患者而言作用最佳的癌症治疗。然而，由于癌症的分子异质性(heterogeneity)，常常只有低于25％的受治疗个体从经批准的疗法中获益。基于患者的定制治疗的个体化医疗被认为是解决药物开发革新中的低效和高成本的潜在方法。

抗原特异性免疫治疗的目的在于加强或诱导患者中的特异性免疫应答并且已经成功用于控制癌症疾病。T细胞在人和动物的细胞介导免疫中发挥核心作用。在T细胞表面上表达的T细胞受体(TCR)介导特定抗原的识别和结合。T细胞的T细胞受体(TCR)能够与结合于主要组织相容性复合体(MHC)分子并且在靶细胞表面上呈递的免疫原性肽(表位)相互作用。TCR的特异性结合触发T细胞内的信号级联，导致增殖和分化成成熟的效应T细胞。

越来越多的病原体相关抗原和肿瘤相关抗原(TAA)的鉴定产生了大批用于免疫治疗的合适靶标。可通过主动或被动免疫策略特异性靶向呈递源于这些抗原的免疫原性肽(表位)的细胞。主动免疫可倾向于诱导患者的抗原特异性T细胞并使其扩增，所述T细胞能够特异性识别和杀死病变细胞。可用于肿瘤疫苗接种的不同抗原形式包括全癌症细胞、蛋白质、肽或免疫载体如RNA、DNA或病毒载体，其可在体内直接施用或在体外通过脉冲(pulse)DC随后转移入患者。

癌症可由基因组突变和表观遗传学变化的积累所引起，其中的一部分可能起致病性作用。除了肿瘤相关抗原之外，人癌症平均携带100～120个非同义突变，其中的许多可由疫苗靶向。肿瘤中超过95％的突变是独特的且患者特异的(Weide等2008：J.Immunother.31，180-188)。改变蛋白质的体细胞突变(可产生肿瘤特异性T细胞表位)的数目为30至400个。计算机预测每位患者有40至60个HLA I类限制性表位来源于肿瘤特异性体细胞突变(Azuma等1993：Nature366，76-79)。另外，从头免(de novo)疫原性HLA II类限制性表位可能也是由肿瘤相关突变造成的，但是它们的数目仍未知。

特别地，一些非同义突变以致病性的方式参与恶性转化，其对于维持致癌表型(驱动突变(driver mutation))是至关重要的，并且可代表癌症细胞的潜在“阿喀琉斯之踵(Achilles’heel)”。因为这种非同义突变不经受中枢免疫耐受，所以它们可以是个体癌症疫苗开发的理想候选物。在原发肿瘤中发现的突变也可存在于转移中。然而，若干研究表明患者的转移瘤需要个体肿瘤进展中的额外的基因突变，这些突变常常是临床相关的(Suzuki等2007：Mol.Oncol.1(2)，172-180；Campbell等2010：Nature467(7319)，1109-1113)。另外，许多转移的分子特征也与原发肿瘤的显著不同。

本发明的技术问题是提供高效的个体化癌症疫苗。

本发明基于鉴定患者特异性癌症突变以及靶向患者的个体癌症突变“标记(signature)”。特别地，本发明涉及基于基因组测序、优选外显子组测序或转录组测序的个体化免疫治疗方法，其目的在于免疫治疗性靶向癌症中的多个个体突变。使用新一代测序(NGS)的测序使得能够快速和节约成本地鉴定患者特异性癌症突变。

鉴定导致将由患者主要组织相容性复合体(MHC)分子呈递的氨基酸变化的非同义点突变提供了对患者癌症特异但在患者正常细胞中没有发现的新表位(novel epitope或neo-epitope)。收集一系列来自癌症细胞如循环肿瘤细胞(circulating tumor cell，CTC)的突变使得能够提供诱导可靶向原发肿瘤(即使包含遗传上不同的亚类群)以及肿瘤转移之免疫应答的疫苗。对于疫苗接种，根据本申请鉴定的这种新表位以包含所述新表位的多肽的形式在患者中提供，在适当加工和被MHC分子呈递后，新表位被展示于患者的免疫系统用于刺激适当的T细胞。

优选地，这种多肽通过施用编码该多肽的RNA而在患者中提供。在多种动物模型中成功测试了通过不同免疫途径将体外转录的RNA(IVT-RNA)直接注射至患者中的策略。RNA可在经转染细胞中被翻译并且加工后的表达蛋白质在细胞表面的MHC分子上呈递，以引发免疫应答。

使用RNA作为一种可逆基因治疗的优点包括瞬时表达和非转化性特性。RNA不需要进入核以被表达，另外不会整合至宿主基因组中，从而消除了致癌的风险。用RNA可得到的转染率相当高。另外，所获得蛋白质的量相当于生理性表达中的量。

用于免疫治疗性靶向多个个体突变的依据是(i)这些突变被专门地表达，(ii)可以预计对于T细胞免疫治疗而言突变表位是理想的，这是因为识别它们的T细胞不经历胸腺选择，(iii)可例如通过靶向对肿瘤表型高度相关的“驱动突变”来减少肿瘤免疫逃逸，和(iv)多表位免疫应答产生改进的临床益处的可能性更高。

发明内容

本发明涉及用于提供个体化重组癌症疫苗的有效方法，所述疫苗诱导癌症患者的有效和特异性免疫应答并且可靶向原发肿瘤及肿瘤转移。当向患者施用时，根据本发明提供的癌症疫苗提供了一批对患者肿瘤特异的适合用于刺激、启动(priming)和／或扩增T细胞的MHC呈递表位，所述T细胞针对表达所述MHC呈递表位所来源之抗原的细胞。因此，本文中描述的疫苗优选地能够诱导或促进细胞应答(优选细胞毒性T细胞活性)，所述细胞应答针对特征为用I类MHC呈递一种或更多种癌症表达抗原的癌症疾病。由于根据本发明提供的疫苗将靶向癌症特异性突变，所以其将对患者肿瘤特异。

在一个方面中，本发明涉及一种用于提供个体化癌症疫苗的方法，其包括以下步骤：

(a)鉴定癌症患者肿瘤样本中的癌症特异性体细胞突变，以提供所述患者的癌症突变标记(signature)；以及

(b)提供以步骤(a)中获得的所述癌症突变标记为特征的疫苗。

在一个实施方案中，本发明的方法包括以下步骤：

i)提供来自癌症患者的肿瘤样本和优选地来源于所述癌症患者的非致瘤性(non-tumorigenous)样本；

ii)鉴定所述肿瘤样本的基因组、外显子组和/或转录组与所述非致瘤性样本的基因组、外显子组和/或转录组之间的序列差异；

iii)设计多肽，其包含整合步骤(ii)中确定的所述序列差异的表位；

iv)提供步骤(iii)中设计的所述多肽或编码所述多肽的核酸(优选RNA)；以及

v)提供包含步骤(iv)中提供的所述多肽或核酸的疫苗。

根据本发明，肿瘤样本涉及来源于包含或预期包含肿瘤或癌症细胞之患者的任何样品，例如身体样品。所述身体样品可以是任何组织样品，例如血液、获自原发肿瘤或肿瘤转移的组织样品、或者包含肿瘤或癌症细胞的任何其他样品。优选地，身体样品为血液，并且在包含于血液中的一个或更多个循环肿瘤细胞(CTC)中确定癌症特异性体细胞突变或序列差异。在另一个实施方案中，肿瘤样本涉及一个或更多个分离的肿瘤或癌症细胞如循环肿瘤细胞(CTC)，或者包含一个或更多个分离的肿瘤或癌症细胞如循环肿瘤细胞(CTC)的样品。

非致瘤性样本涉及来源于患者或优选地与所述患者为同一物种的另一个体(优选不包含或预期不包含肿瘤或癌症细胞的健康个体)的任何样品，例如身体样品。所述身体样品可以是任何组织样品例如血液或来自非致瘤性组织的样品。

根据本发明，术语“癌症突变标记(signature)”可指存在于患者的一个或更多个癌症细胞中的所有癌症突变，或者其可指存在于患者的一个或更多个癌症细胞中的癌症突变的仅一部分。因此，本发明可涉及鉴定存在于患者的一个或更多个癌症细胞中的所有癌症特异性突变，或者其可涉及鉴定存在于患者的一个或更多个癌症细胞中的癌症特异性突变的仅一部分。通常，本发明的方法提供了多个突变的鉴定，其提供足够数目的待包含至疫苗中的新表位。“癌症突变”涉及包含于癌症细胞中的核酸与包含于正常细胞中的核酸之间的序列差异。

优选地，在根据本发明的方法中所鉴定的突变是非同义突变，优选为在肿瘤或癌症细胞中表达的蛋白质的非同义突变。

在一个实施方案中，在肿瘤样本的基因组(优选整个基因组)中确定癌症特异性体细胞突变或序列差异。因此，本发明的方法可包括鉴定一个或更多个癌症细胞基因组(优选整个基因组)的癌症突变标记。在一个实施方案中，鉴定癌症患者肿瘤样本中癌症特异性体细胞突变的步骤包括鉴定全基因组癌症突变谱。

在一个实施方案中，在肿瘤样本的外显子组(优选整个外显子组)中确定癌症特异性体细胞突变或序列差异。外显子组是由外显子形成的生物体基因组的一部分，它们是表达基因的编码部分。所述外显子组提供了在蛋白质和其他功能性基因产物的合成中所使用的基因蓝图(geneticblueprint)。它在功能上是基因组的最相关部分，从而最可能对生物体的表型有作用。估计人基因组的外显子组包含总基因组的1.5％(Ng，PC等，PLoS Gen.，4(8)：1-15，2008)。因此，本发明的方法可包括鉴定一个或更多个癌症细胞的外显子组(优选整个外显子组)的癌症突变标记。在一个实施方案中，鉴定癌症患者肿瘤样本中癌症特异性体细胞突变的步骤包括鉴定全外显子组癌症突变谱。

在一个实施方案中，在肿瘤样本的转录组(优选整个转录组)中确定癌症特异性体细胞突变或序列差异。转录组是所有RNA分子的集合，包括在一个细胞或细胞类群中产生的mRNA、rRNA、tRNA和其他非编码RNA。在本发明的上下文中，转录组意指在某个时间点在给定个体的一个细胞、细胞类群(优选癌症细胞类群)或全部细胞中所产生的所有RNA分子的集合。因此，本发明的方法可包括鉴定一个或更多个癌症细胞的转录组(优选整个转录组)的癌症突变标记。在一个实施方案中，鉴定癌症患者肿瘤样本中癌症特异性体细胞突变的步骤包括鉴定全转录组癌症突变谱。

在一个实施方案中，鉴定癌症特异性体细胞突变或鉴定序列差异的步骤包括一个或更多个、优选2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或甚至更多个癌症细胞的单细胞测序。因此，本发明的方法可包括鉴定所述一个或更多个癌症细胞的癌症突变标记。在一个实施方案中，所述癌症细胞是循环肿瘤细胞。可在单细胞测序之前分离癌症细胞例如循环肿瘤细胞。

在一个实施方案中，鉴定癌症特异性体细胞突变或鉴定序列差异的所述步骤涉及使用新一代测序(NGS)。

在一个实施方案中，鉴定癌症特异性体细胞突变或鉴定序列差异的所述步骤包括对肿瘤样本的基因组DNA和/或RNA进行测序。

为了揭示癌症特异性体细胞突变或序列差异，优选地将从肿瘤样本中获得的序列信息与参照(例如通过对可获自所述患者或不同个体之正常非癌性细胞(例如，生殖系细胞(germline cell))的核酸(例如DNA或RNA)进行测序所获得的序列信息)进行比较。在一个实施方案中，从外周血单核细胞(PBMC)获得正常基因组生殖系DNA。

根据本发明的方法提供的疫苗涉及这样的疫苗，当向患者施用时其优选地提供一批整合了基于经鉴定突变或序列差异之序列变化的MHC呈递表位，例如2个或更多个、5个或更多个、10个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个以及优选多至60个、多至55个、多至50个、多至45个、多至40个、多至35个或多至30个MHC呈递表位。这种整合基于经鉴定突变或序列差异之序列变化的MHC呈递表位在本文中也称为“新表位”。这些表位通过患者细胞(特别是抗原呈递细胞)的呈递优选地在与MHC相结合时导致T细胞靶向所述表位，从而靶向表达MHC呈递表位所来源之抗原并且在肿瘤细胞表面上呈递相同表位的患者肿瘤(优选原发肿瘤及肿瘤转移)。

为了提供疫苗，本发明的方法可包括使足够数目的新表位(优选地以编码核酸形式)任意包含在疫苗中，或者其可包括确定表位中经鉴定突变用于癌症疫苗接种之可用性的其他步骤。因此，其他步骤可涉及下述中的一个或更多个：(i)评估所述序列变化是否位于已知或预测的MHC呈递表位中，(ii)体外和/或计算机(in silico)测试所述序列变化是否位于MHC呈递表位中，例如测试所述序列变化是否为加工至MHC呈递表位和／或作为MHC呈递表位呈递的肽序列的一部份，以及(iii)体外测试所研究的突变表位(尤其是当在其天然序列环境中呈递时(例如，当侧翼的氨基酸序列也在天然蛋白质的所述表位的侧翼时)和当在抗原呈递细胞中表达时)是否能够刺激具有期望特异性的患者的T细胞。这种侧翼序列各自可包含3个或更多个、5个或更多个、10个或更多个、15个或更多个、20个或更多个且优选多至50个、多至45个、多至40个、多至35个或多至30个氨基酸，并且可在表位序列的N末端和/或C末端侧翼。

根据本发明确定的突变或序列差异可依据其作为表位用于癌症疫苗接种的可用性进行分级(rank)。因此，在一个方面中，本发明的方法包括手动或基于计算机的分析过程，其中针对在待提供的各疫苗中的可用性分析并选择经鉴定的突变。在一个优选的实施方案中，所述分析过程是基于计算算法的过程。优选地，所述分析过程包括下述步骤中的一个或更多个、优选全部：

-通过例如分析转录本来鉴定表达的修饰蛋白质的突变；

-鉴定具有潜在免疫原性的突变，即通过将所获得的数据与经确证免疫原性表位的可用数据集相比较，所述数据集例如在公共免疫表位数据库(例如，即http:／／www.immunoepitope.org的IMMUNE EPITOPEDATABASE AND ANALYSIS RESOURCE)中包含的那些。

鉴定具有潜在免疫原性之突变的步骤可包括根据对其MHC结合能力(优选MHC I类结合能力)的预测对表位进行确定和/或分级。

在本发明的另一个实施方案中，可通过使用其他参数例如蛋白质影响(protein impact)、相关基因表达、序列独特性、预测的呈递可能性和癌基因相关性来对所述表位进行选择和/或分级。

多个CTC分析也使得能够对突变进行选择和优先化(prioritization)。例如，与在较少部分CTC中发现的突变相比，可更高地优先化在较大部分CTC中发现的突变。

根据本发明鉴定并且由本发明疫苗提供的基于突变的新表位集合优选地以包含所述新表位之多肽(多表位多肽)或编码所述多肽的核酸(特别是RNA)的形式存在。另外，所述新表位可存在于疫苗序列形式的多肽中，即存在于其天然序列环境中，例如侧翼的氨基酸序列也在天然蛋白质的所述表位的侧翼。这种侧翼序列各自可包含5个或更多个、10个或更多个、15个或更多个、20个或更多个以及优选多至50个、多至45个、多至40个、多至35个或多至30个氨基酸，并且可在所述表位序列的N末端和／或C末端侧翼。因此，疫苗序列可包含20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个或更多个并且优选多至50个、多至45个、多至40个、多至35个或多至30个氨基酸。在一个实施方案中，所述新表位和/或疫苗序列在所述多肽中从头至尾排列。

在一个实施方案中，所述新表位和／或疫苗序列通过接头(特别是中性接头(neutral linker))分开。根据本发明的术语“接头”涉及在两个肽结构域例如表位或疫苗序列之间以连接所述肽结构域的添加的肽。关于所述接头序列没有特定的限制。然而，优选的是所述接头序列降低两个肽结构域之间的空间位阻，被良好地翻译，以及支持或允许表位的加工。另外，所述接头应不具有或仅具有极少的免疫原性序列元件。优选地，接头不应产生可产生不期望免疫反应的非内源性新表位，像由相邻新表位之间的汇合点接缝(junction suture)所产生的那些。因此，多表位疫苗应优选地包含这样的接头序列，其能够降低不期望的MHC结合汇合点表位(binding junction epitope)的数目。Hoyt等(EMBO J.25(8)，1720-9，2006)和Zhang等(J.Biol.Chem.，279(10)，8635-41，2004)已经证明富含甘氨酸的序列损害蛋白酶体的加工，因此使用富含甘氨酸的接头序列以尽可能减少可被蛋白酶体加工的包含接头的肽的数目。另外，观察到甘氨酸抑制MHC结合沟位置处的强结合(Abastado等，J.Immunol.151(7)，3569-75，1993)。Schlessinger等(Proteins，61(1)，115-26，2005)已经发现包含在氨基酸序列中的氨基酸甘氨酸和丝氨酸产生了更具柔性的蛋白质，其被更有效地翻译和被蛋白酶体加工，使得能够更好地接近编码的新表位。所述接头各自可包含3个或更多个、6个或更多个、9个或更多个、10个或更多个、15个或更多个、20个或更多个以及优选多至50个、多至45个、多至40个、多至35个或多至30个氨基酸。优选地，所述接头富含甘氨酸和/或丝氨酸氨基酸。优选地，所述接头中至少50％、至少60％、至少70％、至少80％、至少90％或至少95％的氨基酸是甘氨酸和/或丝氨酸。在一个优选的实施方案中，接头基本上由甘氨酸和丝氨酸氨基酸构成。在一个实施方案中，所述接头包含氨基酸序列(GGS)_a(GSS)_b(GGG)_c(SSG)_d(GSG)_e，其中a、b、c、d和e独立地为选自0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20的数字，并且其中a+b+c+d+e不为0且优选为2或更多、3或更多、4或更多或者5或更多。在一个实施方案中，所述接头包含本文中描述的序列，所述序列包含实施例中所述的接头序列，例如序列GGSGGGGSG。

在本发明的另一个实施方案中，根据本发明鉴定的和由本发明疫苗提供的基于突变的新表位的集合优选地以在不同多肽上包含所述新表位的多肽集合(其中所述多肽各包含一个或更多个新表位(也可重叠))或编码所述多肽的核酸(特别是RNA)集合的形式存在。

在一个特别优选的实施方案中，根据本发明的多表位多肽以核酸(优选RNA，例如体外转录的RNA或合成RNA，其可在患者细胞例如抗原呈递细胞中表达以产生多肽)的形式向患者施用。本发明还考虑了施用一种或更多种多表位多肽(其对于本发明的目的而言包含在术语“多表位多肽”中)，优选地为核酸(优选RNA，例如体外转录的RNA或合成RNA，其可在患者细胞例如抗原呈递细胞中表达以产生一种或更多种多肽，其可在患者细胞例如抗原呈递细胞中表达以产生一种或更多种多肽)的形式。在施用多于一种多表位多肽的情况中，由不同多表位多肽所提供的新表位可以不同或部分重叠。一旦在患者细胞例如抗原呈递细胞中呈递，根据本发明的多肽被加工以产生根据本发明鉴定的新表位。施用根据本发明提供的疫苗可提供MHC II类呈递表位，其能够针对表达MHC呈递表位所来源之抗原的细胞引发CD4+辅助T细胞应答。可替换地或另外地，施用根据本发明提供的疫苗可提供MHC I类呈递表位，其能够针对表达MHC呈递表位所来源之抗原的细胞引发CD8+T细胞应答。另外，施用根据本发明提供的疫苗可提供一个或更多个新表位(包括已知的新表位和根据本发明鉴定的新表位)以及不包含癌症特异性体细胞突变但由癌症细胞表达并且优选地诱导针对癌症细胞的免疫应答(优选癌症特异性免疫应答)的一个或更多个表位。在一个实施方案中，施用根据本发明提供的疫苗提供为MHC II类呈递表位和/或能够针对表达MHC呈递表位所来源之抗原的细胞引发CD4+辅助T细胞应答的新表位，以及为MHC I类呈递表位和/或能够针对表达MHC呈递表位所来源之抗原的细胞引发CD8+T细胞应答的不包含癌症特异性体细胞突变的表位。在一个实施方案中，不包含癌症特异性体细胞突变之表位来源于肿瘤抗原。在一个实施方案中，新表位和不包含癌症特异性体细胞突变之表位在治疗癌症中具有协同效应。优选地，根据本发明提供的疫苗可用于细胞毒性和/或辅助T细胞应答的多表位刺激。

在又一个方面中，本发明提供了可通过根据本发明之方法获得的疫苗。因此，本发明涉及包含重组多肽或编码所述多肽的核酸的疫苗，所述重组多肽包含基于突变的新表位，所述新表位是由癌症患者肿瘤样本中的癌症特异性体细胞突变所造成的。这种重组多肽还可包含这样的表位，其不包含如上所述的癌症特异性体细胞突变。在本发明方法的上下文中，这种疫苗的一些优选实施方案如上所述。

根据本发明提供的疫苗可包含可药用载体以及可任选地包含一种或更多种佐剂、稳定剂等。所述疫苗可以是治疗或预防疫苗的形式。

另一个方面涉及用于在患者中诱导免疫应答的方法，其包括向所述患者施用根据本发明提供的疫苗。

另一个方面涉及治疗癌症患者的方法，其包括下述步骤：

(a)提供通过根据本发明的方法的个体化癌症疫苗；和

(b)向所述患者施用所述疫苗。

另一个方面涉及治疗癌症患者的方法，其包括向所述患者施用根据本发明的疫苗。

在又一些方面中，本发明提供了用于本文所述治疗方法、特别是用于治疗或预防癌症的本文所述疫苗。

本文所述的癌症治疗可与手术切除和/或照射和/或传统化疗联合。

本发明的另一个方面涉及基于新一代测序数据确定错误发现率(falsediscovery rate)的方法，所述方法包括：

取得来自动物或人的遗传物质第一样品；

取得来自动物或人的遗传物质第二样品；

取得来自肿瘤细胞的遗传物质第一样品；

取得来自所述肿瘤细胞的遗传物质第二样品；

通过对既包含在肿瘤中又包含在所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品的至少之一中的参照基因组的全部碱基进行计数来确定共同覆盖肿瘤比较(common coveragetumor comparison)；

通过对同时被所述来自动物或人的遗传物质第一样品与所述来自动物或人的遗传物质第二样品覆盖的参照基因组的全部碱基进行计数来确定共同覆盖相同-相同比较(common coverage same vs.samecomparison)；

将所述共同覆盖肿瘤比较除以所述共同覆盖相同-相同比较以形成归一化；

通过以下来确定错误发现率：将1)在所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述遗传物质第一样品和来自所述肿瘤细胞的所述遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目，以及3)将结果乘以所述归一化。

在一个实施方案中，所述遗传物质为DNA。

在一个实施方案中，通过以下来确定Q：

建立一组品质特性S=(s₁、...、s_n)，其中当对于所有i＝1、...、n s_i>t_i时，S优于T=(t₁、...、t_n)，表示为S>T，；

通过以下来确定中间错误发现率：将1)在所述来自动物或人的第一DNA样品和所述来自动物或人的第二DNA样品的比较中品质评分S>T的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述第一DNA样品和来自所述肿瘤细胞的所述第二DNA样品的比较中品质评分S>T的单核苷酸变异的数目，以及3)将结果乘以所述归一化；

对于各自具有n个品质特性的m个突变的每一特性确定值范围；

从所述值范围中抽取多至p个值；

产生所抽取品质值的每种可能组合，得到pⁿ个数据点；

使用所述数据点的随机样作为随机森林训练的预测子；

使用相应的中间错误发现率值作为所述随机森林训练的响应，

其中所述随机森林训练得到的回归评分为Q。

在一个实施方案中，所述来自动物或人的第二DNA样品对于所述来自动物或人的第一DNA样品是同种异体的(allogenic)。在一个实施方案中，所述来自动物或人的第二DNA样品对于所述来自动物或人的第一DNA样品是自体的。在一个实施方案中，所述来自动物或人的第二DNA样品对于所述来自动物或人的第一DNA样品是异种的(xenogenic)。

在一个实施方案中，所述遗传物质为RNA。

在一个实施方案中，通过以下来确定Q：

通过以下来确定中间错误发现率：将1)在所述来自动物或人的第一RNA样品和所述来自动物或人的第二RNA样品的比较中品质评分S>T的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述第一RNA样品和来自所述肿瘤细胞的所述第二RNA样品的比较中品质评分S>T的单核苷酸变异的数目，以及3)将结果乘以所述归一化；

从所述值范围中抽取多至p个值；

产生所抽取品质值的每种可能组合，得到pⁿ个数据点；

使用所述数据点的随机样作为随机森林训练的预测子；

其中所述随机森林训练得到的回归评分为Q。

在一个实施方案中，所述来自动物或人的第二RNA样品对于所述来自动物或人的第一RNA样品是同种异体的。在一个实施方案中，所述来自动物或人的第二RNA样品对于所述来自动物或人的第一RNA样品是自体的。在一个实施方案中，所述来自动物或人的第二RNA样品对于所述来自动物或人的第一RNA样品是异种的。

在一个实施方案中，所述错误发现率用于制造疫苗制剂。在一个实施方案中，所述疫苗可经静脉内递送。在一个实施方案中，所述疫苗可经皮递送。在一个实施方案中，所述疫苗可经肌肉递送。在一个实施方案中，所述疫苗可经皮下递送。在一个实施方案中，所述疫苗为特定患者定制。

在一个实施方案中，所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品之一来自所述特定患者。

在一个实施方案中，通过对既包含在肿瘤中又包含在所述来自动物或人的遗传物质第一样品及所述来自动物或人的遗传物质第二样品至少之一中的参照基因组的全部碱基进行计数来确定共同覆盖肿瘤比较的所述步骤使用自动化系统以对所有碱基进行计数。

在一个实施方案中，通过对同时被所述来自动物或人的遗传物质第一样品与所述来自动物或人的遗传物质第二样品覆盖的参照基因组的全部碱基进行计数来确定共同覆盖相同-相同比较的所述步骤使用所述自动化系统。

在一个实施方案中，将所述共同覆盖肿瘤比较除以所述共同覆盖相同-相同比较以形成归一化的所述步骤使用所述自动化系统。

在一个实施方案中，通过以下确定错误发现率的所述步骤使用所述自动化系统：将1)在所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述遗传物质第一样品和来自所述肿瘤细胞的所述遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目，以及3)将结果乘以所述归一化。

本发明的另一个方面涉及确定估计的接受者操作曲线(receiveroperating curve，ROC)的方法，所述方法包括：

获得突变的数据集，每个突变与错误发现率(FDR)相关；以及

对于每个突变：

通过从1中减去所述FDR来确定真阳性率(TPR)；和

通过将假阳性率(FPR)设定为等于所述FDR来确定假阳性率(FPR);以及

通过以下形成估计的ROC：对于每个突变，在至所述突变为止的累积TPR和FPR值除以所有TPR和FPR值总和处绘制点。

本发明的其他特点和优点从以下详细的描述和权利要求中将显而易见。

发明详述

虽然在下面详细描述本发明，但是应当理解的是，本发明并不限于本文所描述的特定方法，方案和试剂，因为它们可有变化。还应当理解的是，本文使用的术语仅以描述特定实施方案为目的，并不是为了限制本发明的范围，其仅由所附权利要求限制。除非另有定义，否则本文使用的所有技术和科学术语具有与本领域技术人员通常理解的相同的含义。

在下文中，将描述本发明的要素。这些要素是通过特定的实施方案列出的，然而应当理解的是它们可以以任何方式和任何数目组合以创建另外的实施方案。描述的多种实施例和优选的实施方案不应该被解释为仅将本发明限制到明确描述的实施方案。此描述应被理解为支持和涵盖了具有任何数量的公开和／或优选要素的明确描述的实施方式的实施方案。此外，除非文中另有说明，否则应当认为任何在本申请中所有描述的要素的排列和组合是本申请说明书所披露的。例如，如果在一个优选的实施方案中，RNA包含由120个核苷酸组成的聚(A)尾，在另一个优选的实施方案中，RNA分子包含5’帽类似物，那么在一个优选的实施方案中，RNA包含由120个核苷酸组成的聚(A)尾和5’帽类似物。

优选地，本文使用的术语例如A multilingual glossary ofbiotechnological terms：(IUPAC Recommendations)，H.G.W.Leuenberger,B.Nagel和H.

编，(1995)Helvetica Chimica Acta，CH-4010Basel，Switzerland.所描述的进行定义。

除非另有说明，否则本发明的实施将用本领域文献(参见例如Molecular Cloning：A Laboratory Manual，第二版，J.Sambrook等编，ColdSpring Harbor Laboratory Press,Cold Spring Harbor1989)中所解释的生物化学、细胞生物学、免疫学和重组DNA技术的常规方法。

在整个说明书和随后的权利要求书中，除非上下文另有要求，否则词语“包含”应当理解为意指包括所述的成员、整数或步骤或者成员、整数或步骤的组，但不排除任何其他成员、整数或者成员、整数或步骤的组，虽然在一些实施方案中，这样的其他成员、整数或步骤或者成员、整数或步骤的组可被排除，即该主题由所述的成员、整数或步骤或成员、整数或步骤的组组成。除非本文另有指明或者与上下文明显相矛盾，否则描述本发明的上下文中(尤其是在权利要求书的上下文中)不使用数量词修饰时解释为包括单数和复数。本文列举的数值的范围仅意在充当单独指代落入该范围内的每个独立数值的快捷方法。除非本文另有指明，每个单独的值均如同在本文中被单独涉及一样而被并入本说明书中。

除非本文另有说明或通过上下文明显矛盾，否则本文所描述的所有方法均可以以任何适当的顺序执行。本文所提供的任何和所有实施例，或示例性语言(例如，“例如”)的使用，其目的仅是为了更好地说明本发明，并不构成本发明范围的限制(由权利要求限制)。在本说明书中没有语言应当解释为表示任何未要求权利的要素对本发明的实现是必须的。

本说明书的整个文件中引用了几篇文献。本文引用的每篇文献(包括所有专利、专利申请、科学出版物、制造商说明、说明书，等等)(无论上文或下文)均通过整体引用并入本文。本文中任何信息均不应解释为承认本发明无权通过在先发明而早于这些公开。

根据本发明提供的疫苗为重组疫苗。

本发明上下文中的术语“重组”意指“通过基因改造制成”。优选地，在本发明的上下文中“重组实体”例如重组多肽不是天然的，优选地为自然中未组合的实体(例如氨基酸或核酸序列)组合的结果。例如，在本发明的上下文中重组多肽可包含通过例如肽键或适当接头融合在一起的来源于不同蛋白质或同一蛋白质之不同部分的若干氨基酸序列如新表位或疫苗序列。

本文中使用的术语“天然”指的是物质可在自然界被发现的事实。例如，存在于生物体(包括病毒)中并且可从天然来源中分离且没有在实验室中被人有意改造的肽或核酸是天然的。

根据本发明，术语“疫苗”涉及药物制备物(药物组合物)或产品，其在施用后诱导识别并攻击病原体或病变细胞如癌症细胞的免疫应答，特别是细胞免疫应答。疫苗可用于预防或治疗疾病。术语“个体化癌症疫苗”涉及特定的癌症患者并且意指癌症疫苗适合于个体癌症患者的需要或特殊情况。

术语“免疫应答”指的是对抗原的综合身体应答，优选指细胞免疫应答或细胞和体液免疫应答。免疫应答可以是保护性／防止性/预防性和/或治疗性的。

“诱导免疫应答”可指在诱导前对特定抗原没有免疫应答，但它也可指在诱导前针对特定抗原有一定水平的免疫应答，并且在诱导后所述免疫应答得到增强。因此，“诱导免疫应答”也包括“增强免疫应答”。优选地，在对象中诱导免疫应答之后，所述对象被保护免于发生疾病(例如癌症疾病)或者通过诱导免疫应答使疾病状况得到改善。例如，对肿瘤所表达抗原的免疫应答可在患有癌症疾病的患者中或者在有风险发生癌症疾病的对象中被诱导。在这种情况下，诱导免疫应答可意味着对象的疾病状况得到改善，对象没有发生转移，或者有风险发生癌症疾病的对象没有发生癌症疾病。

“细胞免疫应答”、“细胞应答”、“针对抗原的细胞应答”或者类似的术语意于包括这样的细胞应答，其针对特征为用I类或II类MHC呈递抗原的细胞。细胞应答涉及称为T细胞或T-淋巴细胞的细胞，其作为“辅助者”或“杀伤者”。辅助T细胞(也被称为CD4⁺T细胞)通过调节免疫应答发挥核心作用，杀伤细胞(也被称为细胞毒性T细胞、细胞裂解性T细胞、CD8⁺T细胞或CTL)杀伤病变细胞(例如癌症细胞)，防止产生更多的病变细胞。在一些优选的实施方案中，本发明涉及刺激抗肿瘤CTL应答，其针对表达一种或更多种肿瘤表达抗原并且优选地用I类MHC呈递这种肿瘤表达抗原的肿瘤细胞。

根据本发明的“抗原”涵盖将引发免疫应答的任何物质。特别是，“抗原”涉及任何物质，优选为与抗体或T淋巴细胞(T细胞)特异性反应的肽或蛋白质。根据本发明，术语“抗原”包括包含至少一个表位的任何分子。优选地，在本发明的上下文中抗原是这样的分子，其(任选地在加工后)诱导优选地对抗原(包括表达该抗原的细胞)特异的免疫反应。根据本发明，可使用对于免疫反应而言为候选物的任何合适的抗原，其中所述免疫反应优选地为细胞免疫反应。在本发明的一些实施方案的情况下，抗原优选地被细胞、优选被抗原呈递细胞(包括病变细胞、特别是癌症细胞，在MHC分子的环境下)呈递，这导致针对该抗原的免疫反应。优选地，抗原是对应于或来源于天然抗原的产物。这种天然抗原包括肿瘤抗原。

在一个优选的实施方案中，抗原是肿瘤抗原，即肿瘤细胞的一部分，例如可来源于胞质、细胞表面或细胞核的肿瘤细胞中表达的蛋白质或肽，尤其是主要在细胞内存在或作为肿瘤细胞表面抗原的那些。例如，肿瘤抗原包括癌胚抗原、α1-胎蛋白、异铁蛋白和胎儿磺基糖蛋白(fetalsulphoglycoprotein)、α2-H-铁蛋白以及γ-胎蛋白。根据本发明，肿瘤抗原优选地包括在肿瘤或癌症以及肿瘤或癌症细胞中表达并且任选地表征其类型和／或表达水平的任何抗原。在一个实施方案中，术语“肿瘤抗原”或“肿瘤相关抗原”涉及这样的蛋白质，其在正常条件下在有限数目的组织和／或器官中或者在特定的发育阶段中特异性表达(例如，肿瘤抗原可在正常条件下在胃组织中(优选在胃粘膜中)、在生殖器官中(例如，在睾丸中)、在滋养层组织(例如，在胎盘)或在生殖系细胞中特异性表达)，并且在一种或更多种肿瘤或癌组织中表达或异常表达。在此上下文中，“有限数目”优选是指不超过3，更优选不超过2。本发明的上下文中的肿瘤抗原包括，例如，分化抗原，优选细胞类型特异性分化抗原，即在正常条件下在一定分化阶段的某些细胞类型中特异性表达的蛋白质；癌症／睾丸抗原，即在正常情况下在睾丸以及有时在胎盘中特异性表达的蛋白质；和生殖系特异性抗原。优选地，肿瘤抗原或肿瘤抗原的异常表达鉴定癌症细胞。在本发明的上下文中，对象(例如，患有癌症疾病的患者)的癌症细胞表达的肿瘤抗原优选地是所述对象的自身蛋白质。在一些优选的实施方案中，本发明的上下文中的肿瘤抗原在正常条件下在非必需的组织或器官中(即当被免疫系统损伤时不导致对象死亡或者免疫系统不可及或难以触及的身体器官或结构中的组织或器官)特异性表达。

根据本发明，术语“肿瘤抗原”、“肿瘤表达抗原”、“癌症抗原”和“癌症表达抗原”是等同的并且在本文中可互换使用。

术语“免疫原性”涉及抗原诱导免疫反应的相对效力。

根据本发明的“抗原肽”优选地涉及抗原的一部分或片段，其能够刺激免疫应答，优选为针对抗原或特征为表达该抗原以及优选地呈递该抗原之细胞(例如病变细胞，尤其是癌症细胞)的细胞应答。优选地，抗原肽能够刺激针对特征为用I类MHC呈递抗原的细胞的细胞应答，并且优选地能够刺激抗原响应性细胞毒性T淋巴细胞(CTL)。优选地，根据本发明的抗原肽是MHC I类和/或II类呈递的肽或者可被加工以产生MHC I类和/或II类呈递的肽。优选地，抗原肽包含基本上对应于抗原片段之氨基酸序列的氨基酸序列。优选地，所述抗原片段为MHC I类和/或II类呈递的肽。优选地，根据本发明的抗原肽包含基本上对应于这种片段之氨基酸序列并且被加工以产生这种片段(即来源于抗原的MHC I类和/或II类呈递的肽)的氨基酸序列。

如果肽被直接呈递(即未经加工，尤其是未经切割)，它具有适合用于结合MHC分子(特别是I类MHC分子)的长度，优选长度是7～20个氨基酸，更优选长度是7～12个氨基酸，更优选长度是8～11个氨基酸，尤其是长度为9或10个氨基酸。

如果肽是包含额外序列之较大实体(例如疫苗序列或多肽)的一部份，并且将在加工后(尤其是切割后)呈递，则通过加工产生的肽具有适合用于结合MHC分子(特别是I类MHC分子)的长度，优选长度是7～20个氨基酸，更优选长度是7～12个氨基酸，更优选长度是8～11个氨基酸，尤其是长度为9或10个氨基酸。优选地，待经过加工后呈递肽的序列来源于抗原的氨基酸序列，即，其序列基本上对应于抗原片段并优选地与其完全一致。因此，在一个实施方案中根据本发明的抗原肽或疫苗序列包含长度是7～20个氨基酸、更优选长度是7～12个氨基酸、优选长度是8～11个氨基酸、尤其是长度为9或10个氨基酸的序列，所述序列基本上对应于抗原片段并优选地与其完全一致，并且在加工后，所述抗原肽或疫苗序列构成呈递的肽。根据本发明，通过加工产生的这种肽包含经鉴定的序列变化。

根据本发明，在疫苗中可存在作为较大实体(例如，包含多于一个抗原肽或表位的疫苗序列和／或多肽)之一部份的抗原肽或表位。在合适的加工之后产生呈递的抗原肽或表位。

氨基酸序列基本上对应于由I类MHC呈递之肽的序列的肽可在一个或更多个残基上不同，所述残基对于由I类MHC呈递之肽的TCR识别或者对于肽与MHC的结合不是必要的。这种基本上对应的肽也能够刺激抗原响应性CTL并且可被认为是免疫等价物。如下的肽可改善抗原肽的免疫原性并可在本文中被称为“优化的肽”，其氨基酸序列在不影响TCR识别但改善与MHC结合之稳定性的残基上与呈递的肽不同。利用这些残基哪些更可能影响与MHC或TCR结合的现有知识，可使用设计基本上对应的肽的合理方法。所得的功能性肽被考虑作为抗原肽。

当抗原肽被MHC呈递时其应该可以被T细胞受体识别。优选地，如果抗原肽被T细胞受体识别，则在适当的共刺激信号存在的情况下，其能够诱导携带特异性识别抗原肽之T细胞受体的T细胞的克隆增殖。优选地，抗原肽(尤其是如果在MHC分子的环境中呈递)能够刺激免疫应答，优选为针对其所来源的抗原或特征为表达该抗原以及优选地特征为呈递该抗原的细胞的细胞应答。优选地，抗原肽能够刺激针对特征为用I类MHC呈递抗原的细胞的细胞应答，并且优选地能够刺激抗原响应性CTL。这种细胞优选地是靶细胞。

“抗原加工”或“加工”是指多肽或抗原到加工产物(为所述多肽或抗原之片段)的降解(例如，多肽到肽的降解)以及这些片段中的一个或更多个与MHC分子的相关联(例如，通过结合)来被细胞(优选抗原呈递细胞)呈递到特异性T细胞。

“抗原呈递细胞”(APC)是在其细胞表面展示与MHC分子相关联之蛋白质抗原的肽片段的细胞。一些APC可活化抗原特异性T细胞。

专门的抗原呈递细胞在内化抗原(通过吞噬作用或通过受体介导的内吞作用)然后在它们的膜上显示抗原片段(与II类MHC分子结合)方面是非常有效的。T细胞识别抗原呈递细胞膜上的抗原-II类MHC分子复合物并与其相互作用。然后抗原呈递细胞产生额外的共刺激信号，导致T细胞的活化。共刺激分子的表达是专门的抗原呈递细胞的限定性特征。

专门的抗原呈递细胞的主要类型是树突细胞(其具有最广范围的抗原呈递并且可能是最重要的抗原呈递细胞)、巨噬细胞、B细胞和某些活化的上皮细胞。

树突细胞(DC)是这样的白细胞类群，其通过MHC II类和I类抗原呈递途径呈递在外周组织中捕获的抗原给T细胞。公知树突细胞是免疫应答的强诱导物，并且这些细胞的活化是诱导抗肿瘤免疫的关键步骤。

树突细胞通常归类为“未成熟”和“成熟”的细胞，这可用作区分两个良好表征的表型的简单方式。但是，此术语不应该被解释为排除分化的所有可能的中间阶段。

未成熟树突细胞的特征为具有高的抗原摄取和加工能力的抗原呈递细胞，其与Fcγ受体和甘露糖受体的高表达相关。成熟表型通常特征为这些标志物的较低表达而负责T细胞活化的细胞表面分子例如I类和II类MHC、粘附分子(例如，CD54和CD11)和共刺激分子(例如，CD40、CD80、CD86和4-1BB)的高表达。

树突细胞成熟指的是该抗原呈递树突细胞导致T细胞启动(priming)的树突细胞活化的状态，而由未成熟树突细胞进行的呈递导致耐受。树突细胞成熟主要由以下引起：被先天受体检测到的具有微生物特征的生物分子(细菌DNA、病毒RNA、内毒素等)，促炎性细胞因子(TNF、IL-1、IFN)，树突细胞表面上通过CD40L的CD40连接，以及从正在经历应激细胞死亡的细胞中释放的物质。树突细胞可通过用细胞因子(如粒细胞-巨噬细胞集落刺激因子(GM-CSF)和肿瘤坏死因子α)体外培养骨髓细胞而衍生。

非专门的抗原呈递细胞不组成型表达与幼稚T细胞相互作用所需的MHC II类蛋白质；这些仅在某些细胞因子(例如，IFNγ)刺激非专门抗原呈递细胞时才表达。

可通过用编码包含待呈递肽的肽或多肽的核酸、优选RNA(例如编码抗原的核酸)转导细胞来使“抗原呈递细胞”装载MHC I类呈递的肽。

在一些实施方案中，可向患者施用包含靶向树突细胞或其他抗原呈递细胞之基因递送载剂的本发明的药物组合物，导致在体内发生转染。树突细胞的体内转染例如通常可使用本领域中已知的任何方法进行，例如WO97／24447中描述的那些，或由Mahvi等，Immunology and cell Biology75：456-460，1997描述的基因枪方法。

根据本发明，术语“抗原呈递细胞”还包括靶细胞。

“靶细胞”意指为免疫应答例如细胞免疫应答之靶标的细胞。靶细胞包括呈递抗原或抗原表位(即来源于抗原的肽片段)的细胞，并且包括任何不期望的细胞例如癌症细胞。在一些优选的实施方案中，靶细胞是表达本文所述抗原并优选用I类MHC呈递所述抗原的细胞。

术语“表位”是指在分子(例如，抗原)中的抗原决定簇，即，是指免疫系统识别(例如，由T细胞识别，特别是在MHC分子的环境中呈递时)的分子的一部份或片段。蛋白质(例如，肿瘤抗原)的表位优选地包含所述蛋白质的连续或不连续部分，且优选长度为5至100，优选5至50，更优选8至30，最优选10至25个氨基酸，例如，表位的长度可优选地为9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个氨基酸。特别优选地，本发明上下文中的表位是T细胞表位。

根据本发明，表位可与MHC分子(例如，细胞表面上的MHC分子)相结合，并且因此可以是“MHC结合肽”或“抗原肽”。术语“MHC结合肽”涉及结合到MHC I类和/或MHC II类分子的肽。在I类MHC／肽复合物的情况下，虽然更长或更短的肽可以是有效的，但结合肽通常长度是8～10个氨基酸。在II类MHC／肽复合物的情况下，尽管更长或更短的肽可以是有效的，但结合肽通常长度是10～25个氨基酸，特别是13～18个氨基酸。

术语“表位”、“抗原肽”、“抗原表位”、“免疫原性肽”和“MHC结合肽”在本文中可互换使用，并优选涉及抗原的不完整呈现，其优选能够引发针对抗原或者表达或包含且优选地呈递抗原之细胞的免疫应答。优选地，该术语涉及抗原的免疫原性部分。优选地，它是被T细胞受体识别(即，特异性结合)的抗原的一部分(特别是如果在MHC分子的环境中呈递)。优选地这种免疫原性部分结合至MHC I类或II类分子。如本文所使用的，如果使用本领域中已知的任何测定可检测到这种结合，则认为免疫原性部分“结合至”MHC I或II类分子。

本文中使用的术语“新表位”是指没有存在于参照(例如，正常的非癌性细胞或生殖系细胞)中但是发现于癌症细胞中的表位。这尤其包括这样的状况，其中，在正常非癌性细胞或生殖系细胞中发现相应表位，然而，由于癌症细胞中的一个或更多个突变改变了该表位的序列从而以产生新表位。

术语“部分(portion)”是指段(fraction)。对于特定的结构例如氨基酸序列或蛋白质，术语其“部分”可指所述结构的连续或不连续段。优选地，氨基酸序列的部分包含至少1％、至少为5％、至少10％、至少20％、至少30％、优选至少40％、优选至少50％、更优选至少60％、更优选至少70％、甚至更优选至少80％并且最优选至少90％的所述氨基酸序列的氨基酸。优选地，如果该部分是不连续段，所述不连续段由2、3、4、5、6、7、8个或更多个结构部份构成，每部份是所述结构的连续元件。例如，氨基酸序列的不连续段可由2、3、4、5、6、7、8个或更多个(优选不超过4个)的所述氨基酸序列部份构成，其中每个部份优选包含所述氨基酸序列的至少5个连续氨基酸，至少10个连续氨基酸，优选至少20个连续氨基酸，优选至少30个连续氨基酸。

术语“部份(part)”和“片段”在本文中可互换使用，是指连续的元件。例如，结构(如氨基酸序列或蛋白质)的部份是指所述结构的连续元件。结构的部分，部份或片段优选包含一个或更多个所述结构的功能特性。例如，表位、肽或蛋白质的部分，部份或片段优选与其所来源的表位、肽或蛋白质是免疫学等价的。在本发明的上下文中，结构(例如氨基酸序列)的“部份”优选包含至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少85％、至少90％、至少92％、至少94％、至少96％、至少98％、至少99％的整个结构或氨基酸序列，优选地由其组成。

本发明的上下文中的术语“免疫反应性细胞”涉及在免疫反应过程中显示效应子功能的细胞。“免疫反应性细胞”优选能够结合抗原或特征为呈递抗原或来自抗原的抗原肽的细胞，以及介导免疫应答。例如，这样的细胞分泌细胞因子和／或趋化因子，分泌抗体，识别癌性细胞并且任选地消除这样的细胞。例如，免疫反应性细胞包括T细胞(细胞毒性T细胞，辅助T细胞，肿瘤浸润T细胞)，B细胞，自然杀伤细胞，嗜中性粒细胞，巨噬细胞和树突细胞。优选地，在本发明的上下文中，“免疫反应性细胞”是T细胞，优选CD4⁺和／或CD8⁺T细胞。

优选地，“免疫反应性细胞”以某种程度的特异性识别抗原或来自抗原的抗原肽(特别是如果其在MHC分子的环境下呈递，例如在抗原呈递细胞或病变细胞(例如，癌症细胞)的表面上)。优选地，所述识别能够使识别抗原或来自该抗原的抗原肽的细胞具有响应性或反应性。如果该细胞是带有识别在II类MHC分子的环境下的抗原或来自抗原之抗原肽的受体的辅助T细胞(CD4⁺T细胞)，这样的响应性或反应性可涉及细胞因子的释放和/或CD8⁺淋巴细胞(CTL)和/或B细胞的激活。如果该细胞是CTL，这样的响应性或反应性可涉及消除在I类MHC分子的环境下呈递的细胞(即特征为用I类MHC呈递抗原的细胞，例如通过凋亡或穿孔蛋白(perforin)介导的细胞裂解)。根据本发明，CTL响应性可包括持续的钙通量，细胞分裂，细胞因子(如IFN-γ和TNF-α)的产生，活化标志物(例如CD44和CD69)的上调，以及表达抗原的靶细胞的特异性细胞裂解性杀伤。CTL响应性也可使用准确指示CTL响应性的人工报告子来确定。这种识别抗原或来自抗原的抗原肽并且具有响应性或反应性的CTL在本文中也被称为“抗原响应性CTL”。如果该细胞是B细胞，这种响应性可涉及免疫球蛋白的释放。

术语“T细胞”和“T淋巴细胞”在本文中互换使用并且包括T辅助细胞(CD4+T细胞)和包括细胞裂解性T细胞的细胞毒性T细胞(CTL，CD8+T细胞)。

T细胞属于被称为淋巴细胞的一类白血细胞，并在细胞介导的免疫中发挥核心作用。通过它们细胞表面称为T细胞受体(TCR)的特殊受体的存在，可将它们区别于其他的淋巴细胞类型(如B细胞和自然杀伤细胞)。胸腺是负责T细胞成熟的主要器官。已经发现几种不同的T细胞亚群，每一个都具有不同的功能。

T辅助细胞在免疫过程中协助其他白血细胞，包括B细胞到浆细胞的成熟以及细胞毒性T细胞和巨噬细胞的活化等功能。这些细胞也被称为CD4⁺T细胞，因为它们在其表面表达CD4蛋白。当它们被通过II类MHC分子(在抗原呈递细胞(APC)的表面上表达)呈递肽抗原时，辅助T细胞被激活。一旦被激活，它们迅速分裂并分泌调节或协助活化的免疫应答的称为细胞因子的小蛋白。

细胞毒性T细胞破坏病毒感染的细胞和肿瘤细胞，并且也参与移植排斥。由于它们在其表面上表达CD8糖蛋白，这些细胞也被称为CD8+T细胞。这些细胞通过结合与I类MHC(存在于身体几乎每个细胞表面上)相关联的抗原来识别其靶标。

大多数T细胞具有作为几种蛋白质的复合物存在的T细胞受体(TCR)。实际的T细胞受体由两个单独的肽链构成，它们由独立的T细胞受体α和β(TCRα和TCRβ)基因产生并被称为α-和β-TCR链。γδT细胞(gamma delta T细胞)代表在其表面具有独特的T细胞受体(TCR)的T细胞的小亚型。然而，在γδT细胞中，TCR由一个γ-链和一个δ链构成。这组T细胞较αβT细胞不常见得多(总T细胞的2％)。

通过T细胞受体与另一细胞上的主要组织相容性复合体(MHC)呈递的短肽的结合提供T细胞激活中的第一个信号。这确保了只激活具有对该肽特异的TCR的T细胞。伴侣细胞通常是专门的抗原呈递细胞(APC)，在幼稚应答(

response)的情况中通常是树突细胞，但是B细胞和巨噬细胞可以是重要的APC。由MHC I类分子呈递到CD8+T细胞的肽长度通常为8～10个氨基酸；由于MHC II类分子的结合槽(binding cleft)的末端打开，所以由MHC II类分子呈递到CD4+T细胞的肽通常更长。

根据本发明，如果T细胞受体对于预先确定的靶标有显著的亲和力并在标准测定中结合至所述预先确定的靶标，则其能够结合至该预先确定的靶标。“亲和力”或“结合亲和力”往往通过平衡解离常数(K_D)测量。如果T细胞受体对靶标没有显著的亲和力并且在标准测定中不显著结合至该靶标，则其(基本上)不能结合至所述靶标。

T细胞受体优选地能够特异性结合至预先确定的靶标。如果T细胞受体能够结合至预先确定的靶标而其(基本上)不能结合至其他靶标(即对其他靶标没有显著的亲和力并且在标准测定中不显著地结合至其他靶标)，则其对于所述预先确定的靶标是特异的。

可通过在体内将抗原或抗原肽整合入抗原呈递细胞来在体内产生细胞毒性T淋巴细胞。抗原或抗原肽可被表现为蛋白质、DNA(例如，在载体内)或RNA。抗原可被加工以产生用于MHC分子的肽伴侣，而其片段可以不需要进一步加工而被呈递。如果后者可与MHC分子相结合，则其特别是这种情况。通常，可通过皮内注射向患者施用。但是，也可通过结内注射进入淋巴结来进行(Maloy等(2001)，Proc Natl Acad Sci USA98：3299-303)。所得细胞呈递目的复合体并被自体细胞毒性T淋巴细胞识别，之后细胞毒性T淋巴细胞增殖。

CD4+或CD8+T细胞的特异性活化可以以多种不同的方式检测。用于检测特异性T细胞活化的方法包括检测T细胞增殖，细胞因子(例如，淋巴因子)的产生，或细胞裂解活性的产生。对于CD4+T细胞，一个优选的检测特异性T细胞活化的方法是T细胞增殖的检测。对于CD8+T细胞，一个优选的检测特异性T细胞活化的方法是检测细胞裂解活性的产生。

术语“主要组织相容性复合体”和缩写“MHC”包括MHC I类和MHCII类分子，并涉及存在于所有脊椎动物的基因的复合体。MHC蛋白或分子在免疫反应中对于淋巴细胞和抗原呈递细胞或病变细胞之间的信号转导很重要，其中MHC蛋白或分子结合肽并且呈递它们以被T细胞受体识别。由MHC编码的蛋白质在细胞的表面上表达，并向T细胞显示自身抗原(来自细胞本身的肽片段)和非自身抗原(例如，入侵微生物的片段)。

MHC区分为3个亚类，I类、II类和III类。MHC I类蛋白包含α-链和β2-微球蛋白(不是由15号染色体编码的MHC的一部分)。它们呈递抗原片段给细胞毒性T细胞。在大多数免疫系统细胞中，特别是在抗原呈递细胞中，MHC II类蛋白包含α-和β-链，并且它们呈递抗原片段给T辅助细胞。MHC III类区编码其他的免疫成分，例如补体成分并且一些编码细胞因子。

在人中，编码细胞表面上之抗原呈递蛋白的MHC区基因被称为人白细胞抗原(HLA)基因。然而，缩写MHC经常用于指HLA基因产物。HLA基因包括9个所谓的经典MHC基因：HLA-A、HLA-B、HLA-C、HLA-DPA1、HLA-DPB1、HLA-DQA1、HLA-DQB1、HLA-DRA和HLA-DRB1。

在本发明所有方面的一个优选的实施方案中，MHC分子是HLA分子。

“特征为呈递抗原的细胞”或“呈递抗原的细胞”或者类似表述意指在MHC分子的环境中(尤其是MHC I类分子)呈递其表达之抗原或来源于所述抗原之片段(例如通过加工抗原)的细胞例如病变细胞(如癌症细胞)或抗原呈递细胞。类似地，术语“特征为呈递抗原的疾病”表示这样的疾病，其涉及特征为呈递抗原(特别是通过I类MHC)的细胞。通过细胞的抗原呈递可通过使用核酸(如编码抗原的RNA)转染细胞而实现。

所谓“呈递的抗原的片段”或类似表述意指该片段可由MHC I类或II类(优选MHC I类)呈递，例如当直接加入到抗原呈递细胞中时。在一个实施方案中，该片段是表达抗原的细胞自然呈递的片段。

术语“免疫学上等同”是指免疫学上等同的分子，例如，显示出相同或基本相同的免疫学性质和／或发挥相同的或基本上相同的免疫效果的免疫学上等同的氨基酸序列，例如，关于免疫效果的类型，例如诱导体液和／或细胞免疫应答，诱导免疫反应的强度和／或持续时间，或诱导免疫反应的特异性。在本发明的上下文中，术语“免疫学上等同的”优选用于免疫所用肽的免疫效果或性质。例如，如果当暴露于对象的免疫系统时，氨基酸序列诱导具有与参照氨基酸序列反应的特异性的免疫反应，则所述氨基酸序列与参照氨基酸序列免疫学上等同。

在本发明的上下文中的术语“免疫效应子功能”包括通过免疫系统的组分介导的导致以下的任何功能：例如，肿瘤细胞的杀伤，或肿瘤生长的抑制和／或肿瘤发生的抑制，包括肿瘤传播和转移的抑制。优选地，本发明上下文中的免疫效应子功能是T细胞介导的效应子功能。这样的功能就辅助T细胞(CD4⁺T细胞)来说，包括由T细胞受体识别MHC II类分子环境下的抗原或来自抗原的抗原肽，细胞因子的释放和/或CD8⁺淋巴细胞(CTL)和/或B-细胞的活化，并且就CTL来说，包括由T细胞受体识别MHC I类分子环境下的抗原或来自抗原的抗原肽，消除在MHC I类分子的环境下呈递的细胞(即，特征为用I类MHC呈递抗原的细胞)(例如，通过凋亡或穿孔蛋白介导的细胞裂解)，生成细胞因子(如IFN-γ和TNF-α)，以及表达抗原的靶细胞的特异性细胞裂解性杀伤。

术语“基因组”涉及生物体或细胞的染色体中遗传信息的总量。术语“外显子组”是指基因组的编码区。术语“转录组”涉及所有RNA分子的集合。

根据本发明的“核酸”优选地是脱氧核糖核酸(DNA)或核糖核酸(RNA)，更优选RNA，最优选体外转录的RNA(IVT RNA)或合成的RNA。根据本发明，核酸包括基因组DNA、cDNA、mRNA、重组产生的和化学合成的分子。根据本发明，核酸可以以单链或双链的以及线性或共价环状闭合的分子存在。根据本发明的核酸可以是分离的。根据本发明，术语“分离的核酸”意指所述核酸为(i)体外扩增的，例如通过聚合酶链反应(PCR)，(ii)通过克隆重组产生的，(iii)纯化的，例如通过切割和经凝胶电泳分离，或(iv)合成的，例如通过化学合成。可用核酸引入(即转染)细胞，尤其是，可通过体外转录从DNA模板制备的RNA形式。RNA还可在应用之前通过稳定序列、加帽和聚腺苷酸化进行修饰。

术语“遗传物质”是指分离的核酸(DNA或RNA)、双螺旋的一段、染色体的一段或者生物体或细胞的整个基因组，特别是其外显子组或转录组。

术语“突变”是指与参照相比核酸序列的变化或差异(核苷酸替换、添加或删除)。“体细胞突变”可在除生殖细胞(精子和卵子)以外的任何身体细胞中发生，从而不会传递给子代。这些改变可(但不总是)引起癌症或其他疾病。优选地，突变是非同义突变。术语“非同义突变”是指确实导致翻译产物中氨基酸变化(例如，氨基酸替换)的突变，优选核苷酸替换。

根据本发明，术语“突变”包括点突变、插入-缺失(Indel)、融合、染色体碎裂(chromothripsis)和RNA编辑(RNA edit)。

根据本发明，术语“插入-缺失”描述了特定的突变类型，其定义为导致共定位的(colocalized)插入和缺失以及核苷酸净增加或损失的突变。在基因组的编码区，除非插入-缺失的长度是3的倍数，否则它们产生移框突变。插入-缺失可与点突变形成对比；其中插入-缺失从序列中插入和缺失核苷酸，而点突变是替代一个核苷酸的一种替换形式。

融合可产生从两个先前单独的基因形成的杂合基因。这可以是易位、中间缺失或染色体倒位(chromosomal inversion)的结果。融合基因常常是癌基因。致癌融合基因可产生具有新功能或与两个融合伴侣不同功能的基因产物。或者，原癌基因与强启动子相融合，从而致癌功能被设定成通过由上游融合伴侣之强启动子所造成的上调来发挥功能。致癌融合转录本也可通过反式剪接(trans-splicing)或通读事件(read-through event)造成。

根据本发明，术语“染色体碎裂”是指一种遗传现象，其中通过单个破坏性事件染色体的特定区域被打碎，之后连接在一起。

根据本发明，术语“RNA编辑”(RNA edit或RNA editing)是指分子加工，其中RNA分子中的信息内容通过碱基组成中的化学变化而改变。RNA编辑包括核苷修饰例如胞苷(C)修饰成尿苷(U)和腺苷(A)修饰成肌苷(I)脱氨基作用以及非模板化的核苷酸添加和插入。mRNA中的RNA编辑有效地改变编码蛋白质的氨基酸序列，使得其不同于通过基因组DNA序列所预测的序列。

术语“癌症突变标记(cancer mutation signature)”是指与非癌性参照细胞相比时存在于癌症细胞中的一组突变。

根据本发明，“参照”可用于关联并比较在本发明之方法中获得的来自肿瘤样本的结果。通常，可在一个或更多个正常样本(特别是没有被癌症疾病影响的样本)的基础上获得“参照”，所述样本获自患者或者一个或更多个不同个体(优选健康个体，特别是同一物种的个体)。可通过测试足够大数目的正常样本来在经验上确定“参照”。

根据本发明可使用任何合适的测序方法，优选新一代测序(NGS)技术。第三代测序方法可能在将来取代NGS技术用于使本方法的测序步骤加速。为了清楚目的：在本发明的上下文中，术语“新一代测序”或“NGS”意指所有新的高通量测序技术，其与已知为Sanger化学的“常规”测序方法不同，通过使整个基因组破碎成小片段来沿着整个基因组随机地并行阅读核酸模板。这种NGS技术(也称为大规模平行测序技术(massivelyparallel sequencing technology))能够在非常短的时间内(例如，1～2周内、优选1～7天内或最优选小于24小时内)递送全基因组、外显子组、转录组(基因组的所有经转录序列)或甲基化组(methylome)(基因组的所有经甲基化序列)的核酸序列信息并且原则上允许单细胞测序法。在本发明的上下文中，可使用市售或文献中所提及的多种NGS平台，例如在Zhang等2011：The impact of next-generation sequencing on genomics.J.Genet Genomics38(3)，95-109中；或在Voelkerding等2009：Nextgeneration sequencing：From basic research to diagnostics.Clinicalchemistry55，641-658中详细描述的那些。这种NGS技术／平台的非限制性实例是：

1)在例如Roche-associated company454Life Sciences(Branford，Connecticut)的GS-FLX454基因组测序仪^TM中实施的称作焦磷酸测序的边合成边测序技术(sequencing-by-synthesis technology)，首次描述于Ronaghi等1998：Asequencing method based on real-time pyrophosphate".Science281(5375)，363-365中。该技术使用乳剂PCR，其中将单链DNA结合珠通过剧烈涡旋封装至包含油环绕之PCR反应物的水性胶束中用于乳剂PCR扩增。在焦磷酸测序过程中，随着聚合酶合成DNA链，记录核苷酸整合期间从磷酸分子发射的光。

2)由Solexa(现在是Illumina Inc.，San Diego，California的一部分)开发的边合成边测序法，其是基于可逆染料终止剂并且在例如Illumina／Solexa基因组分析仪^TM和Illumina HiSeq2000基因组分析仪^TM中实施。在该技术中，所有四种核苷酸与DNA聚合酶一起在流动细胞通道中同时添加至寡引物化的簇片段中。桥式扩增(bridge amplification)用所有四种经荧光标记的核苷酸延伸簇链用于测序。

3)边连接边测序法(Sequencing-by-ligation approach)，在例如Applied Biosystems(现在是Life Technologies Corporation，Carlsbad，California)的SOLid^TM平台中实施。在该技术中，根据测序位置标记固定长度的所有可能寡核苷酸的合并物。将寡核苷酸退火并连接；对于匹配序列通过DNA连接酶的优先连接产生该位置核苷酸的信号信息。在测序前，通过乳液PCR扩增DNA。所得珠子(各自仅包含同一DNA分子的拷贝)置于载玻片上。作为第二实例，Dover Systems(Salem，NewHampshire)的Polonator^TM G.007平台也采用通过使用随机排列的、基于珠子的乳液PCR以扩增DNA片段用于并行测序的边连接边测序法。

4)单分子测序技术，例如在Pacific Biosciences(Menlo Park，California)的PacBio RS系统中或在Helicos Biosciences(Cambridge，Massachusetts)的HeliScope^TM平台中实施的。该技术的独特特征是其能够对单个DNA或RNA分子进行测序而不进行扩增，将其定义为单分子实时(SMRT)DNA测序。例如，HeliScope使用高灵敏度荧光检测系统以在其合成时直接检测各核苷酸。基于荧光共振能量转移(FRET)的类似方法由Visigen Biotechnology(Houston，Texas)开发。其他基于荧光的单分子技术来自美国Genomics(GeneEngine^TM)和Genovoxx(AnyGene^TM)。

5)单分子测序的纳米技术，其中使用例如布置在芯片上的多个纳米结构以在复制期间监测聚合酶分子在单链上的运动。基于纳米技术之方法的非限制性实例为Oxford Nanopore Technologies(Oxford，UK)的GridON^TM平台、由Nabsys(Providence，Rhode Island)开发的杂交辅助纳米孔测序(HANS^TM)平台和用DNA纳米球(DNB)技术的基于专有连接酶的DNA测序平台(称作组合型探针-锚连接(cPAL^TM))。

6)单分子测序的基于电子显微镜的技术，例如由LightSpeedGenomics(Sunnyvale，California)和Halcyon Molecular(Redwood City,California)开发的那些。

7)离子半导体测序，其是基于检测在DNA聚合期间释放的氢离子。例如，Ion Torrent Systems(San Francisco，California)使用微加工孔的高密度阵列以用大规模并行方式进行该生化过程。每个孔装有不同的DNA模板。孔的下方是离子敏感层，再下方是专有离子传感器。

优选地，DNA和RNA制备物充当NGS的起始材料。这种核酸可容易地获自诸如生物材料的样品，例如来自新鲜的、快速冷冻的或福尔马林固定的石蜡包埋肿瘤组织(FFPE)或者来自新鲜分离细胞或来自CTC(存在于患者外周血中)。可从正常的体细胞组织中提取正常的非突变基因组DNA或RNA，然而在本发明的上下文中优选生殖系细胞。从患有非血液恶性肿瘤患者的外周血单核细胞(PBMC)中提取生殖系DNA或RNA。尽管从FFPE组织或新鲜分离的单细胞中提取的核酸被高度片段化，但是它们适合用于NGS应用。

外显子组测序的数种靶向NGS方法描述于文献中(综述参见例如Teer and Mullikin2010：Human Mol Genet19(2)，R145-51)，其中所有可用于与本发明结合。在这些方法中许多(例如作为基因组捕获、基因组分割、基因组富集等描述)使用杂交技术并且包括基于阵列的(例如，Hodges等2007：Nat.Genet.39，1522-1527)和基于流体的(例如，Choi等2009：Proc.Natl.Acad.Sci USA106，19096-19101)杂交方法。用于DNA样品制备和随后外显子捕获的商业试剂盒也是可获得的：例如，Illumina Inc.(San Diego，California)提供TruSeq^TM DNA样品制备试剂盒和ExomeEnrichment Kit TruSeq^TM外显子组富集试剂盒。

当将例如肿瘤样品序列与参照样品序列(例如，生殖系样品序列)进行比较时，为了减少在检测癌症特异性体细胞突变或序列差异中假阳性发现的数目，优选地在这些样品类型的一种或两种的重复中确定序列。因此，优选的是对参照样品序列(例如，生殖系样品序列)确定两次、三次或更多次。可替换地或另外，对肿瘤样品序列确定两次、三次或更多次。还可通过对所述参照样品和／或所述肿瘤样品至少一次确定基因组DNA中的序列和至少一次确定RNA中的序列来多于一次地确定参照样品序列(例如，生殖系样品序列)和/或肿瘤样品序列。例如，通过确定参照样品(例如，生殖系样品)的重复之间的变异，可估计体细胞突变作为统计数量的预期假阳性率(FDR)。样品的技术重复应产生一致的结果并且该“相同-相同比较”中的任何检测突变是假阳性的。特别是，为了确定相对于参照样品在肿瘤样品中体细胞突变检测的错误发现率，参照样品的技术重复可用作参照以评估假阳性的数目。也可使用机器学习法将多种品质相关度量(例如，覆盖或SNP品质)组合成单一品质评分。对于给定的体细胞变异，可计数具有更高品质评分的所有其他变异，这使得能够在数据集中对所有变异进行分级(ranking)。

根据本发明，可使用高通量全基因组单细胞基因分型方法。

在高通量全基因组单细胞基因分型的一个实施方案中，可使用Fluidigm平台。这种方法可包括以下步骤：

1.从给定的患者中采集肿瘤组织／细胞和健康组织。

2.从癌性细胞和健康细胞中提取遗传物质，之后使用标准新一代测序(NGS)方案对其外显子组(DNA)进行测序。NGS的覆盖是这样的，使得可检测具有至少5％频率的杂合子等位基因。还从癌症细胞中提取转录组(RNA)，转化成cDNA并测序以确定哪些基因由癌症细胞表达。

3.如本文中描述地鉴定非同义表达的单核苷酸变异(SNV)。滤出健康组织中SNP的位点。

4.跨越不同频率选择来自(3)的N=96个突变。对于这些突变，设计基于荧光检测的SNP基因分型测定并合成(这种测定的实例包括：LifeTechnologies的基于TaqMan的SNP测定或Fluidigm的SNPtype测定)。测定将包括特异性靶标扩增(STA)引物以扩增包含给定SNV的扩增子(这在TaqMan和SNPtype测定中是标准的)。

5.通过激光显微切割(LMD)或通过解聚从肿瘤和从健康组织中使个体细胞分离成单细胞悬液，然后如前所述进行分选(Dalerba P.等(2011)Nature Biotechnology29：1120-1127)。可在不进行预选择的情况下选择细胞(即，无偏向性)，或可替换地，可富集癌性细胞。富集方法包括：特异性染色、通过细胞大小分选、LMD期间的组织学检查，等。

6.在包含具有STA引物之预混物(master mix)的PCR管中分离个体细胞并且扩增包含SNV的扩增子。或者，通过如前所述的全基因组扩增(WGA)来扩增单细胞的基因组(Frumkin D.等(2008)Cancer Research68：5924)。通过95℃加热步骤或通过专用裂解缓冲液来实现细胞裂解。

7.稀释STA扩增样品并加样至Fluidigm基因分型阵列上。

8.来自健康组织的样品将用作阳性对照以确定纯合子等位基因簇(无突变)。因为NGS数据表明纯合子突变是极其稀有的，所以通常仅两个簇是预期的：XX和XY，其中X=健康。

9.不限制可进行的阵列的数目，实际上允许多至～1000个待测定的单细胞(～10个阵列)。如果在384板中进行，那么样品制备可减少至数天。

10.之后确定每个细胞的SNV。

在高通量全基因组单细胞基因分型的另一个实施方案中，可使用NGS平台。这种方法可包括以下步骤：

1.上述步骤1至6是一样的，除了N(所测定SNV的数目)可比96大得多。在WGA的情况中，之后将进行若干循环的STA。STA引物在各个引物上包含两个通用标签序列。

2.STA之后，标记(barcode)引物将被PCR扩增至扩增子中。标记引物包含独特的标记序列和上述通用标签序列。每个细胞从而包含独特的标记。

3.混合来自所有细胞的扩增子并通过NGS进行测序。对可被多重化之细胞的数目的实际限制是可制备之板的数目。因为可在384板中制备样品，所以实际极限应是～5000个细胞。

4.基于序列数据，检测个体细胞的SNV(或其他结构异常)。

对于优先抗原，可根据本发明使用基于单细胞基因分型的肿瘤系统发育重建(“系统发育抗原优先化”)。除了基于标准(例如表达、突变类型(非同义突变相对于其他)、MHC结合特征等)的抗原优先化之外，可使用旨在处理肿瘤内和肿瘤间异质性以及活检偏向性的用于优先化的又一参数，例如以下所述。

1.鉴定最丰富的抗原

可基于上述单细胞测定结合高通量全基因组单细胞基因分型方法准确地评估各个SNV的频率并且可选择存在的最丰富SNV用于提供癌症个体化疫苗(IVAC)。

2.基于有根树分析鉴定原发基本抗原(primary basal antigen)

来自肿瘤的NGS数据表明纯合子突变(在两个等位基因中均有)是稀有事件。因此不需要单体型分型并且可从单细胞SNV数据集中创建肿瘤体细胞突变的系统发育树。生殖系序列将用于使树有根。使用再现祖先序列的算法，再现接近树根之节点的序列。这些序列包含预期存在于原发肿瘤中的最早突变(本文中定义为原发基础突变/抗原)。由于两个突变在基因组同一位置中的相同等位基因上发生的低概率，所以预测祖先序列中的突变在肿瘤中是固定的。

优先化原发基础抗原不等于优先化活检中最频繁突变(尽管预计原发基础突变在活检中最频繁当中)。原因如下：假如两个SNV显示出存在于来源于活检的所有细胞中(并且因而具有相同频率-100％)，但是一个突变是基础的而另一个不是，那么应选择该基础突变用于IVAC。这是因为，基础突变可能存在于肿瘤的所有区域中，而后一种突变可能是偶尔在进行活检之区域中固定的较新突变。另外，基础抗原可能存在于来源于原发肿瘤的转移瘤中。因此，通过优先化基础抗原用于IVAC，可极大地提高IVAC能够根除整个肿瘤而不仅仅是肿瘤之一部分的机会。

如果继发性肿瘤存在并且这些也被采样，那么可评估所有肿瘤的进化树。这可改进树的稳定性并且使得能够检测对所有肿瘤为基础的突变。

3.鉴定最大程度跨越肿瘤的抗原

获得最大覆盖所有肿瘤位点之抗原的另一种方法是从肿瘤取得若干活检。一个策略应选择通过NGS分析鉴定为存在于所有活检中的抗原。为了改进经鉴定基础突变的机会，可进行基于来自所有活检之单细胞突变的系统发育分析。

在转移的情况中，可获得来自所有肿瘤的活检并且可选择通过NGS鉴定的对于所有肿瘤是共同的突变。

4.使用CTC优先化抑制转移的抗原

认为转移瘤来源于单细胞。因此，通过对提取自给定患者之不同肿瘤的个体细胞进行基因分型结合对患者的循环肿瘤细胞(CTC)进行基因分型，可重建癌症的进化史。预期观察从原始肿瘤通过来源于原发肿瘤之CTC进化枝进化的转移肿瘤。

以下(鉴定、计数和在遗传上用探针探查CTC的无偏向性方法)，我们描述了上述高通量全基因组单细胞基因型分型方法对无偏向性分离和基因组分析CTC的延伸。使用上述分析，可重建原发肿瘤、CTC和由转移(如果它们存在)所导致继发性肿瘤的系统发育树。基于该树，可鉴定在CTC首次从原发肿瘤分离时或紧接其后发生的突变(过客或驱动)。预期的是，由原发肿瘤所产生的CTC的基因组与继发性肿瘤基因组相比进化地更类似于原发肿瘤基因组。另外，预期由原发肿瘤所产生的CTC的基因组将包含在继发性肿瘤中固定或将可能固定(如果将来形成继发性肿瘤)的独特突变。可优先化这些独特突变用于IVAC以靶向(或预防)转移。

相对于原发基础突变优先化CTC突变的优点是，来源于CTC的抗原可使T细胞移动以特异性靶向转移，从而将与靶向原发肿瘤之T细胞相独立的一支(使用不同抗原)。另外，如果有很少(或没有)继发性肿瘤，那么预计来自CTC来源抗原之免疫逃逸的机会较低，因为肿瘤逃逸的可能性应该用携带给定抗原之癌症细胞的数目来衡量。

5.鉴定同一细胞上共发生的抗原(“鸡尾酒”IVAC)

认为肿瘤因免疫系统和治疗的选择压力而进化以抑制突变。靶向多抗原(其在同一细胞上共发生并且在肿瘤中也是频繁的)的癌症疫苗具有较大的机会压倒肿瘤逃逸机制，因此降低了复发的机会。这种“鸡尾酒疫苗”类似于HIV+患者的抗逆转录病毒联合治疗。可通过系统发育分析或通过检查所有细胞的SNV比对来鉴定共发生突变。

另外，根据本发明，可使用用于鉴定、计数和在遗传上用探针探查CTC的无偏向性方法。这种方法可包括以下步骤：

1.获得肿瘤的活检并且确定体细胞突变的图谱。

2.选项1：选择N≥96个突变用于基于之前所建立优先化方案的进一步研究。

选项2：进行单细胞试验(参见上述高通量全基因组单细胞基因分型方法)然后进行系统发育分析以选择N≥96个原发基础突变和可能较新近的突变以最大化多样性。前一种突变可用于鉴定CTC(参见下文)，后者用于产生系统发育分析(参见“鉴定同一细胞上共发生的抗原(“鸡尾酒”IVAC)”部分)。

3.从癌症患者获得全血。

4.裂解红细胞。

5.通过消耗CD45+细胞移除白血细胞(例如，通过分选、缀合抗CD45抗体的磁珠，等)以富集CTC。

6.通过DNA酶消化移除自由DNA。自由DNA的来源可以是存在于血液中的DNA或来自死亡细胞的DNA。

7.将剩余细胞分选至PCR管中，进行STA(基于经选择的突变)并且用Fluidigm(上述高通量全基因组单细胞基因分型方法)筛选。CTC通常应是多个SNV阳性。

8.之后可基于一系列所筛选的SNV在系统发育上进一步分析鉴定为癌性的细胞(=CTC)(参见“鉴定同一细胞上共发生的抗原(“鸡尾酒”IVAC)”部分)。

对于分离的CTC而言还可将该方法与之前建立的方法组合。例如，可分选EpCAM+细胞或对细胞角蛋白呈阳性的细胞(Rao CG.等(2005)International journal of oncology27：49；Allard WJ.等(2004)ClinicalCancer Research10：6897-6904)。之后可用Fluidigm／NGS对这些假定的CTC进行确证／谱分析以导出其突变。

该方法可用于计数CTC。因为该方法不依赖一个可以或可以不通过癌症细胞表达的特定标记物，而是依赖在对患者而言独特癌症体细胞突变的突变谱，这是检测和列举CTC的无偏向性方法。

根据本发明，可使用涉及基于单细胞基因分型之肿瘤系统发育重建以富集驱动突变的方法(“系统发育过滤”)。

在该方法的一个实施方案中，进行用于恢复驱动突变的泛肿瘤系统发育分析。

例如，可检测来自n=1种肿瘤的驱动突变。

在上述“基于有根树分析鉴定原发基础抗原”部分中，我们描述了恢复祖先序列和／或鉴定具有接近树根之序列的细胞的方法。预计突变在这些序列中的数目显著小于突变在癌症大块样品中的数目，因为按照定义，这些是接近树根的序列。因此，通过选择接近树根的序列，预计许多过客突变被“系统发育过滤”出来。该过程可极大地富集驱动突变。之后，驱动突变可用于鉴定／选择用于患者的治疗或者可用作新疗法的引导。

在另一个实例中，可检测来自给定类型之n>1种肿瘤的驱动突变。

通过重建来自特定类型之许多肿瘤的原发基础突变，可极大地提高检测驱动突变的机会。因为接近树根的基础序列滤出了许多过客突变，所以预计检测驱动突变中的信噪比极大地提高。因此该方法可检测(1)较低频繁的驱动突变(2)来自较少样品的频繁驱动突变。

在涉及基于单细胞基因分型之肿瘤系统发育重建以富集驱动突变的方法(“系统发育过滤”)的另一个实施方案中，进行系统发育分析以恢复引起转移的驱动突变。

在上述“使用CTC以优先化抑制转移的抗原”部分中，我们描述了检测CTC相关突变的方法。该方法还可用于富集导致转移的驱动突变。例如，通过对原发肿瘤、继发性肿瘤和CTC的组合系统发育进行作图，来源于原发肿瘤的CTC应在原发继发性肿瘤的进化枝之间连接。该系统发育分析可帮助精确找到在原发和继发性肿瘤之间的该过渡处独特的突变。这些突变的一部分可以是驱动突变。另外，通过比较来自同一癌症(即，n>1种肿瘤)之不同实例的独特CTC突变，可进一步富集引起转移的独特驱动突变。

根据本发明，可使用鉴定相对于继发性肿瘤之原发肿瘤的系统发育分析。

在转移的情况中，如果采集所有肿瘤，有根树可用于预测肿瘤出现的时间顺序：哪个肿瘤是原发肿瘤(最接近树根的节点)并且哪个肿瘤是最新近的肿瘤。在难以确定哪一种肿瘤是原发的情况中这可以是有帮助的。

在本发明的上下文中，术语“RNA”涉及包含至少一个核糖核苷酸残基并且优选完全或基本上由核糖核苷酸残基构成的分子。“核糖核苷酸”涉及在β-D-核糖呋喃基的2’-位置具有羟基的核苷酸。术语“RNA”包括双链RNA、单链RNA、分离的RNA(例如部分纯化或完全纯化的RNA)、基本上纯的RNA、合成RNA和重组产生的RNA(例如修饰的RNA，其通过一个或更多个核苷酸的添加、删除、替换和／或改变而区别于天然的RNA)。这样的改变可包括例如向RNA的末端或内部(例如，在RNA的一个或更多个核苷酸)添加非核苷酸物质。RNA分子中的核苷酸还可以包括非标准核苷酸，例如非天然的核苷酸或化学合成的核苷酸或脱氧核苷酸。这些改变的RNA可被称为类似物或天然RNA的类似物。

根据本发明，术语“RNA”包括并且优选涉及“mRNA”。术语“mRNA”意指“信使RNA”并且涉及通过使用DNA模板产生并编码肽或多肽的“转录本”。通常，mRNA包含5’-UTR、蛋白质编码区和3’-UTR。mRNA在细胞内和体外仅具有有限的半衰期。在本发明的上下文中，可通过体外转录从DNA模板产生mRNA。体外转录方法对技术人员而言是已知的。例如，有多种市售的体外转录试剂盒。

根据本发明，RNA的稳定性和翻译效率可以根据需要进行调节。例如，可以通过具有稳定效果和/或增加RNA翻译效率的一个或更多个修饰来稳定RNA和增加其翻译。这样的修饰在例如通过引用并入本文的PCT／EP2006／009448中描述。为了增加根据本发明使用的RNA的表达，其可在编码区域内对其进行修饰(即编码所表达的肽或蛋白质的序列，优选不改变所表达肽或蛋白质的序列)以便增加GC含量以提高mRNA稳定性并进行密码子优化从而加强在细胞中的翻译。

在本发明中使用RNA的上下文中，术语“修饰”包括不天然存在于RNA中的所述RNA的任何修饰。

在本发明的一个实施方案中，根据本发明使用的RNA不具有非加帽5′-三磷酸酯。可通过用磷酸酶处理RNA来实现去除这种非加帽5′-三磷酸酯。

根据本发明的RNA可具有经修饰的核糖核苷酸以提高其稳定性和／或减少细胞毒性。例如，在一个实施方案中，在根据本发明使用的RNA中，5-甲基胞苷部分地或完全地、优选完全地替换胞苷。可替换地或另外，在一个实施方案中，在根据本发明使用的RNA中，假尿苷部分地或完全地、优选完全地替换尿苷。

在一个实施方案中，术语“修饰”涉及提供具有5’-帽或5’-帽类似物的RNA。术语“5’-帽”是指在mRNA分子的5’-末端发现的帽结构并且通常由通过不常见5′至5′三磷酸酯键与mRNA相连接的鸟苷核苷酸组成。在一个实施方案中，该鸟苷在7-位被甲基化。术语“常规5’-帽”是指天然的RNA5’-帽，优选于7-甲基鸟苷帽(m⁷G)。在本发明的上下文中，术语“5’-帽”包括5’-帽类似物，其类似RNA帽结构并且被修饰以优选地在体内和／或细胞中具有稳定RNA和/或加强RNA翻译(如果与其连接)的能力。

优选地，RNA的5’末端包括具有下述通式的帽结构：

其中，R₁和R₂独立地为羟基或甲氧基，并且W^-、X^-和Y^-独立地为氧、硫、硒或BH₃。在一个优选的实施方案中，R₁和R₂为羟基，并且W^-、X^-和Y^-为氧。在又一个优选的实施方案中，R₁和R₂之一优选R₁为羟基，另一个为甲氧基，并且W^-、X^-和Y^-为氧。在又一个优选的实施方案中，R₁和R₂为羟基并且W^-、X^-和Y^-之一优选X^-为硫、硒或BH₃，优选硫，而其他为氧。在又一个优选的实施方案中，R₁和R₂之一优选R₂为羟基，另一个为甲氧基，并且W^-、X^-和Y^-之一优选X^-是硫、硒或BH₃，优选硫，而其他为氧。

在上式中，右手边的核苷酸通过其3’基团与RNA链相连接。

其中W^-、X^-和Y^-中至少一个为硫(即其具有硫代磷酸酯部分)的这些帽状结构以不同非对映异构体形式存在(全部包含在本文中)。此外，本发明包括上式所有的互变异构体和立体异构体。

例如，具有上述结构的帽结构(其中R₁为甲氧基，R₂为羟基，X^-为硫，并且W^-和Y^-为氧)以两种非对映异构体形式(Rp和Sp)存在。这些可通过反相HPLC进行拆分并且根据其从反相HPLC柱中的洗脱顺序被称为D1和D2。根据本发明，m₂ ^7，2’-OGppspG的D1异构体是尤其优选的。

可在5’-帽或5’-帽类似物存在的情况下通过体外转录DNA模板来提供具有所述5’-帽或5’-帽类似物的RNA，其中所述5’-帽通过共转录并入生成的RNA链中或者可以例如通过体外转录生成RNA，转录后可使用加帽酶(例如，痘苗病毒的加帽酶)使5’-帽连接于RNA。

RNA可包含另一些修饰。例如，本发明中所使用RNA的进一步修饰可以是天然的聚(A)尾的延长或截短或者5’-或3’-非翻译区(UTR)的改变，例如引入与所述RNA的编码区无关的UTR，例如插入一个或更多个、优选两个拷贝的来源于珠蛋白(例如α2-珠蛋白、α1-珠蛋白、β-珠蛋白、优选β-珠蛋白、更优选人β-珠蛋白)基因的3'-UTR或用其替换现有3’-UTR。

具有未屏蔽的聚-A序列的RNA比具有屏蔽的聚-A序列的RNA更有效地翻译。术语“聚(A)尾”或“聚-A序列”涉及腺嘌呤(A)残基的序列，其通常位于RNA分子的3’-末端，并且“未屏蔽的聚-A序列”意指RNA分子3’端的聚-A序列以聚-A序列的A结尾而其后没有除位于聚-A序列3’端(即下游)的A以外的核苷酸。此外，约120个碱基对的长聚-A序列导致RNA的最佳转录稳定性和翻译效率。

因此，为了增加本发明使用的RNA的稳定性和/或表达，其可被修饰从而与聚-A序列结合的形式存在，聚-A序列的优选长度为10至500、更优选为30至300、甚至更优选为65至200并且特别是100至150个腺苷残基。在一个特别优选的实施方案中，聚-A序列的长度为约120个腺苷残基。为了进一步增加根据本发明使用的RNA的稳定性和/或表达，聚-A序列可以被取消屏蔽。

此外，引入3’-非翻译区(UTR)到RNA分子的3’-非翻译区可以导致翻译效率的增强。可通过引入两个或更多个这样的3’-非翻译区来实现协同效应。3’-非翻译区对于它们引入到其中的RNA可以是自体的或异源的。在一个特定的实施方案中，3’-非翻译区来源于人β-珠蛋白基因。

上述修饰的组合(即聚-A序列的引入、聚-A序列的取消屏蔽以及一个或更多个3′-非翻译区的引入)对RNA的稳定性和翻译效率的增加具有协同作用。

术语RNA的“稳定性”涉及RNA的“半衰期”。“半衰期”涉及消除一半的分子活性、量或数目所需要的时间。在本发明的上下文中，RNA的半衰期表示所述RNA的稳定性。RNA的半衰期可影响RNA的“表达持续时间”。可预期具有长半衰期的RNA将表达延长的时间。

当然，如果根据本发明，希望降低RNA的稳定性和/或翻译效率，则可以修饰RNA以干扰如上所述增加RNA的稳定性和/或翻译效率的元件的功能。

根据本发明，术语“表达”以其最广的意义被使用并且包括通过例如转录和/或翻译产生RNA和/或肽或多肽。对于RNA，术语“表达”或“翻译”特别涉及肽或多肽的产生。其还包括核酸的部分表达。另外，表达可以是瞬时的或稳定的。

根据本发明，术语表达还包括“异常表达”或“不正常表达”。根据本发明，“异常表达”或“不正常表达”意指与参照(例如未患有与某种蛋白质(例如，肿瘤抗原)异常或不正常表达相关之疾病的对象的状态)相比表达改变(优选升高)。表达的升高是指升高至少10％，尤其是至少20％，至少50％或至少100％，或更多。在一个实施方案中，表达仅见于病变组织中，而在健康组织中的表达受到遏制。

术语“特异性表达”意指蛋白基本上仅在特定的组织或器官中表达。例如，肿瘤抗原特异性地在胃粘膜上表达意味着所述蛋白主要在胃粘膜上表达并且在其他组织中不表达或在其他组织或器官类型中未表达到显著程度。因此，仅在胃粘膜细胞表达并以显著更低的程度在任何其他组织(如睾丸)中表达的蛋白质在胃粘膜细胞中特异性表达。在一些实施方案中，肿瘤抗原也可在正常条件下在多于一种的组织类型或器官中(如在2种或3种组织类型或器官中)特异性表达，但优选不超过3种不同的组织或器官类型。在这种情况下，则肿瘤抗原在这些器官特异性表达。例如，如果肿瘤抗原在正常条件下在肺和胃中以优选大致相等的程度表达，那么该肿瘤抗原在肺和胃中特异性表达。

在本发明的上下文中，术语“转录”涉及这样的过程，其中DNA序列中的遗传密码被转录成RNA。随后，RNA可以被翻译成蛋白质。根据本发明，术语“转录”包括“体外转录”，其中术语“体外转录”涉及这样的过程，其中RNA(特别是mRNA)在无细胞系统中体外合成，优选地使用适当的细胞提取物进行。优选地，使用克隆载体用于生成转录本。这些克隆载体一般被指定作为转录载体，并且根据本发明涵盖在术语“载体”中。根据本发明，本发明中使用的RNA优选地为体外转录的RNA(IVT-RNA)并且可以通过适当DNA模板的体外转录获得。控制转录的启动子可以是用于任何RNA聚合酶的任何启动子。RNA聚合酶的具体实例是T7、T3和SP6RNA聚合酶。优选地，通过T7或SP6启动子控制根据本发明的体外转录。可以通过核酸(特别是cDNA)的克隆获得用于体外转录的DNA模板，并将其引入到用于体外转录的适当载体。cDNA可以通过RNA的逆转录获得。

根据本发明的术语“翻译”涉及在细胞的核糖体内的过程，通过该过程，信使RNA的链指导氨基酸的序列组装以制造肽或多肽。

根据本发明可以与核酸功能性连接的表达控制序列或调控序列可以对于该核酸是同源的或异源的。如果编码序列和调控序列相互共价结合，使得编码序列的转录或翻译受调控序列的控制或影响，则它们是“功能性地”连接的。如果编码序列待被翻译成功能性蛋白，则当调控序列与编码序列功能性连接时，诱导该调控序列导致该编码序列的转录，而不会引起该编码序列的阅读框移码(reading frame shift)或者该编码序列被翻译成期望的蛋白质或肽的能力丧失。

根据本发明，术语“表达控制序列”或“调控序列”包括启动子、核糖体结合序列和其他控制核酸转录或衍生RNA翻译的控制元件。在本发明的某些实施方案中，可控制调控序列。调控序列的确切结构可根据物种或根据细胞类型而不同，但通常包含5’-非转录以及5’-和3’-非翻译序列，其参与转录或翻译的起始，例如TATA盒、加帽序列、CAAT序列等。特别是，5’-非转录调控序列包括启动子区，其包含用于对功能性连接基因进行转录控制的启动子序列。调控序列还可以包括增强子序列或上游激活子序列。

优选地，根据本发明，将待在细胞中表达的RNA引入所述细胞中。在根据本发明之方法的一个实施方案中，通过体外转录适当的DNA模板来获得待引入到细胞中的RNA。

根据本发明，术语例如“能够表达的RNA”和“RNA编码”在本文中可互换使用并且对于特定肽或多肽意指RNA(如果存在于适当的环境中，优选在细胞内)可以被表达以产生所述肽或多肽。优选地，根据本发明的RNA能够与细胞翻译装置相互作用以提供能够表达的肽或多肽。

术语例如“转移”、“引入”或“转染”在本文中可互换使用并且涉及使核酸(特别是外源性或异源性核酸(特别是RNA))引入到细胞中。根据本发明，细胞可形成器官、组织和／或生物体的一部分。根据本发明，以裸核酸或与施用试剂组合的形式来实现核酸的施用。优选地，以裸核酸的形式施用核酸。优选地，RNA与稳定化物质(例如，RNA酶抑制剂)联合施用。本发明还预期将核酸重复地引入到细胞中以允许持续表达延长的时期。

可用可与RNA相关联(例如通过与RNA形成复合物或形成其中封闭或包封RNA的囊泡)的任何载体转染细胞，导致与裸RNA相比RNA的稳定性提高。根据本发明可用的载体包括例如包含脂质的载体如阳离子脂质、脂质体(特别是阳离子脂质体)和胶束以及纳米颗粒。阳离子脂质可与带负电荷的核酸形成复合物。根据本发明可使用任何阳离子脂质。

优选地，使编码肽或多肽的RNA引入到细胞(特别是引入体内存在的细胞)中导致所述肽或多肽在细胞中表达。在一些特定的实施方案中，将核酸靶向特定细胞是优选的。在一些这样的实施方案中，用于向细胞施用核酸所使用的载体(例如，逆转录病毒或脂质体)展现出靶向分子。例如，分子例如对靶细胞上表面膜蛋白特异的抗体或靶细胞上受体的配体可被引入核酸载体或可与其相结合。在通过脂质体施用核酸的情况中，结合至与内吞作用有关之表面膜蛋白的蛋白质可被引入到脂质体制剂中以使得能够靶向和／或摄取。这样的蛋白质包括对特定细胞类型特异的衣壳蛋白或其片段，针对被内化之蛋白质的抗体、靶向细胞内位置的蛋白质等。

根据本发明，术语“肽”是指包含通过肽键共价连接的两个或更多个、优选3个或更多个、优选4个或更多个、优选6个或更多个、优选8个或更多个、优选10个或更多个、优选13个或更多个、优选16个更多个、优选21个或更多个以及多至优选8、10、20、30、40或50个(尤其是100个)氨基酸的物质。术语“多肽”或“蛋白质”是指大的肽，优选地是指具有超过100个氨基酸残基的肽，但一般来说，术语“肽”、“多肽”和“蛋白质”是同义词，并可在本文中互换使用。

根据本发明，术语“序列变化”对于肽或蛋白质是指氨基酸插入变体、氨基酸添加变体、氨基酸缺失变体和氨基酸替换变体，优选氨基酸替换变体。根据本发明的所有这些序列变化可潜在地产生新的表位。

氨基酸插入变体包含在特定的氨基酸序列中插入一个或两个或更多个氨基酸。

氨基酸添加变体包含一个或更多个氨基酸的氨基和／或羧基末端融合，例如1、2、3、4或5个或者更多个氨基酸。

氨基酸缺失变体的特征为从序列中去除一个或更多个氨基酸(例如去除1、2、3、4或5个或者更多个氨基酸)。

氨基酸替换变体的特征为序列中至少一个残基被去除并且在其位置中插入另一残基。

根据本发明，术语“来源”(derived)意指特定的实体(尤其是特定的序列)存在于其来源的对象中，特别是生物体或分子。在氨基酸序列的情况下(尤其是特定的序列区域)，“来源”特别是意指相关氨基酸序列来源于其存在的氨基酸序列。

术语“细胞”或“宿主细胞”优选地是完整细胞，即具有未释放其正常胞内成分(例如酶、细胞器或遗传物质)之完整膜的细胞。完整细胞优选地是有活力细胞(viable cell)，即能够进行其正常的代谢功能的活细胞(livingcell)。根据本发明，所述术语优选地涉及可用外源性核酸转化或转染的任何细胞。根据本发明，术语“细胞”包括原核细胞(例如，大肠杆菌(E.coli))或真核细胞(例如，树突细胞、B细胞、CHO细胞、COS细胞、K562细胞、HEK293细胞、HELA细胞、酵母细胞和昆虫细胞)。外源性核酸可以以下方式见于细胞内部(i)本身自由分散，(ii)并入重组载体中，或(iii)整合进入宿主细胞基因组或线粒体DNA中。尤其优选哺乳动物细胞，例如来自人、小鼠、仓鼠、猪、山羊和灵长类动物的细胞。该细胞可以来源于大量组织类型并且包括原代细胞和细胞系。具体的实例包括角质化细胞、外周血白细胞、骨髓干细胞和胚胎干细胞。在又一些实施方案中，细胞是抗原呈递细胞，特别是树突细胞、单核细胞或巨噬细胞。

包含核酸分子的细胞优选地表达由该核酸所编码的肽或多肽。

术语“克隆扩增”是指其中特定实体被扩增的方法。在本发明的上下文中，该术语优选地用于免疫学应答的上下文中，其中淋巴细胞被抗原刺激，增殖，然后识别该抗原的特异性淋巴细胞被扩增。优选地，克隆扩增导致淋巴细胞的分化。

术语例如“降低”或“抑制”涉及引起水平总体降低优选5％或更高、10％或更高、20％或更高、更优选为50％或更高并且最优选75％或更高的能力。术语“抑制”或类似的词语包括完全或基本上完全的抑制，即降低到零或基本上降低到零。

术语例如“升高”、“增强”、“促进”或“延长”优选地涉及升高、增强、促进或延长约至少10％、优选至少20％、优选至少30％、优选至少40％、优选至少50％、优选至少80％、优选至少100％、优选至少200％并且特别是至少300％。这些术语还可涉及从零或者不可测量或不可检测的水平升高、增强、促进或延长到超过零的水平或者可测量或可检测的水平。

本文中描述的试剂、组合物和方法可用于治疗患有疾病(例如，以存在表达抗原并呈递抗原肽之病变细胞为特征的疾病)的对象。尤其优选的疾病为癌症疾病。本文所描述的试剂、组合物和方法也可用于免疫或疫苗接种以预防本文描述的疾病。

根据本发明，术语“疾病”是指任何病理状态，包括癌症疾病，特别是本文中描述的那些形式的癌症疾病。

术语“正常”是指健康状态或者健康对象或组织中的状况，即非病理状况，其中“健康”优选地意指非癌性的。

根据本发明，“涉及表达抗原之细胞的疾病”意指检测到抗原在病变组织或器官之细胞中的表达。与健康组织或器官中的状态相比，病变组织或器官之细胞中的表达可增加。增加是指增加至少10％，特别是至少20％、至少50％、至少100％、至少200％、至少500％、至少1000％、至少10000％或甚至更多。在一个实施方案中，表达仅见于病变组织中，而在健康组织中表达受到遏制。根据本发明，涉及表达抗原之细胞或与其相关的疾病包括癌症疾病。

癌症(医学术语为恶性瘤)是一类疾病，其中一组细胞展现出不受控制地生长(分裂超出了正常限制)、侵袭(侵入和破坏邻近的组织)和有时转移(通过淋巴或血液扩散到身体中的其他位置)。这三个癌症的恶性特点将其与良性肿瘤区分开来，良性肿瘤是自限的、不侵入或转移。大多数癌症形成肿瘤，但是一些(像白血病)不是这样的。

恶性肿瘤基本上是与癌症同义的。恶性化、恶性瘤(malignantneoplasm)和恶性肿瘤基本上是与癌症同义的。

根据本发明，术语“肿瘤”或“肿瘤疾病”是指细胞(称为赘生细胞、致瘤细胞或肿瘤细胞)的不正常生长，优选地形成肿胀或损伤。“肿瘤细胞”意指这样的不正常细胞，其以快速、不受控的细胞增殖进行生长并且在引发新生长的刺激终止后仍继续增长。肿瘤显示出部分或完全缺乏结构组织性以及与正常组织的功能协调性，并且通常形成单独的组织块，该组织块可以是良性的、前恶性的或恶性的。

良性肿瘤是缺乏癌症的所有三个恶性特点的肿瘤。因此，通过定义，良性肿瘤不以无限制的、攻击性的方式生长，不侵入周围组织，并且不会扩散到非临近组织(转移)。

赘生物(neoplasm)是瘤形成导致的不正常组织块。瘤形成(希腊语中的新的生长)是细胞的不正常增殖。细胞的生长超过并不协调于其周围之正常组织的细胞生长。即使刺激停止后，生长以相同的过度方式持续。这通常会导致肿块或肿瘤。赘生物可以是良性的、前恶性的或恶性的。

根据本发明的“肿瘤的生长”或“肿瘤生长”涉及肿瘤大小增加的趋势和/或肿瘤细胞增殖的趋势。

对于本发明的目的而言，术语“癌症”和“癌症疾病”可与术语“肿瘤”和“肿瘤疾病”互换使用。

通过类似肿瘤的细胞的类型对癌进行分类，从而组织被假定为肿瘤的来源。这些分别是组织学的和位置的。

根据本发明的术语“癌症”包括白血病、精原细胞瘤、黑色素瘤、畸胎瘤、淋巴瘤、神经母细胞瘤、胶质细胞瘤、直肠癌症、子宫内膜癌症、肾癌症、肾上腺癌症、甲状腺癌症、血液癌症、皮肤癌症、脑癌症、子宫颈癌症、肠道癌症(intestinal cancer)、肝癌症、结肠癌症、胃癌症、肠癌症(intestine cancer)、头颈癌症、胃肠癌症、淋巴结癌症、食管癌症、结直肠癌症、胰腺癌症、耳鼻喉(ENT)癌症、乳腺癌症(breast cancer)、前列腺癌症、子宫癌症、卵巢癌症和肺癌症及其转移。其实例有肺癌(lungcarcinomas)、乳癌(mamma carcinomas)、前列腺癌(prostatecarcinomas)、结肠癌(colon carcinomas)、肾细胞癌(renal cellcarcinomas)、子宫颈癌(cervical carcinomas)或上述癌类型或肿瘤的转移。根据本发明的术语癌症还包括癌转移和癌的复发。

肺癌的主要类型有小细胞肺癌(SCLC)和非小细胞肺癌(NSCLC)。非小细胞肺癌有三种主要的亚型：鳞状细胞肺癌、腺癌和大细胞肺癌。腺癌占肺癌的约10％。与倾向于更加位于中心位置的小细胞肺癌和鳞状细胞肺癌相反，腺癌常见于肺的外周。

皮肤癌是皮肤上的恶性生长。最常见的皮肤癌是基底细胞癌、鳞状细胞癌和黑色素瘤。恶性黑色素瘤是皮肤癌的严重类型。它是由色素细胞(称为黑色素细胞)的失控生长所造成的。

根据本发明，“癌(carcinoma)”来源于上皮细胞的恶性肿瘤。该类代表最常见的癌症，包括乳腺癌症、前列腺癌症、肺癌症和结肠癌症的常见形式。

“支气管癌”是肺的癌，被认为来源于终末细支气管的上皮，其中赘生组织沿肺泡壁延伸，并在肺泡中长成小团块。在一些细胞中和在肺泡中的物质中(也包括裸露的细胞(denuded cell))，可被证实有粘蛋白(mucin)。

“腺癌”是来源于腺组织的癌症。该组织也是称为上皮组织的更大组织分类中的一部分。上皮组织包括皮肤、腺体以及构成身体的腔和器官的壁的多种其他组织。上皮从胚胎学上来源于外胚层、内胚层和中胚层。分类为腺癌的细胞不一定是腺体的一部分，只要它们具有分泌特性即可。这种类型的癌可在一些高等哺乳动物(包括人)中发生。分化良好的腺癌倾向于与它们来源的腺组织类似，而分化差的则不是如此。通过对来自活检的细胞染色，病理学医师将确定肿瘤是否为腺癌或一些其他种类的癌症。由于体内腺体广泛分布的特性，因此腺癌可在身体的多种组织中发生。尽管每种腺体可不分泌相同的物质，但只要细胞具有外分泌功能，就认为是腺性的并且其恶性形式因此被称为腺癌。恶性腺癌侵袭其他组织，并且在时间充足的情况下常常发生转移。卵巢腺癌是最常见的卵巢癌类型。它包括浆液性和粘液性腺癌、明细胞腺癌和子宫内膜样腺癌。

肾细胞癌也称为肾细胞癌症或肾细胞腺癌，是来源于近曲小管壁的肾癌，所述近曲小管是肾中过滤血液并除去废物的非常小的管。肾细胞癌目前已成为成体中最常见的肾癌症类型和所有泌尿生殖系统肿瘤中最具致死性的。肾细胞癌的独有亚型是明细胞肾细胞癌和乳头状肾细胞癌。明细胞肾细胞癌是最常见的肾细胞癌类型。当在显微镜下观察时，构成明细胞肾细胞癌的细胞显得很苍白或透明。乳头状肾细胞癌是第二常见的亚型。在一些(如果不是大多数的话)肿瘤中，这些癌症形成小的手指样突起物(称为乳头)。

淋巴瘤和白血病是来源于造血(血液形成)细胞的恶性肿瘤。

胚肿瘤或胚细胞瘤是类似于不成熟或胚胎组织的肿瘤(通常为恶性)。许多这些肿瘤最常见于儿童。

“转移”意指癌症细胞从其原发位置扩散到身体的另一部分。转移的形成是非常复杂的过程，其依赖于恶性细胞从原发肿瘤脱离、对细胞外基质的侵袭、穿透内皮基底膜进入体腔和血管、以及之后经血液转运后浸润靶器官。最后，新肿瘤(即，继发性肿瘤或转移性肿瘤)在靶部位的生长有赖于血管生成。即使移除原发肿瘤之后，肿瘤转移也常会发生，这是因为肿瘤细胞或组分可保留并发展出转移能力。在一个实施方案中，根据本发明的术语“转移”是指“远端转移”，其涉及远离原发肿瘤和局部淋巴结系统的转移。

继发性或转移性肿瘤的细胞与原发肿瘤中的类似。这意味着，例如如果卵巢癌转移到肝，则继发性肿瘤由不正常的卵巢细胞(而非不正常的肝细胞)构成。肝中的肿瘤则被称为转移性卵巢癌，而非肝癌。

在卵巢癌中，转移可以以如下方式发生：通过直接接触或延伸，其可侵入位于卵巢附近或周围的邻近组织或器官，例如输卵管、子宫、膀胱、直肠等；通过接种(seeding)或脱落进入腹腔，这是卵巢癌扩散的最常见方式。癌症细胞脱离卵巢肿块的表面并“落入”腹部的其他结构(例如，肝、胃、结肠或膈膜)中；通过从卵巢肿块中松动，侵入淋巴管，并随后运送到身体的其他区域或远端器官(例如肺或肝)；通过从卵巢肿块中松动，侵入血液系统，并运送到身体的其他区域或远端器官。

根据本发明，转移性卵巢癌症包括输卵管中的癌症、在腹部器官中的癌症(例如，肠道中的癌症、子宫中的癌症、膀胱中的癌症、直肠中的癌症、肝中的癌症、胃中的癌症、结肠中的癌症、隔膜中的癌症、肺中的癌症、腹或骨盆壁(腹膜)中的癌症和脑中的癌症)。类似地，转移性肺癌症是指从肺扩散到身体的远端和／或多个部位的癌症，包括肝中的癌症、肾上腺中的癌症、骨中的癌症和脑中的癌症。

术语“循环肿瘤细胞”或“CTC”涉及从原发肿瘤或肿瘤转移中脱离并在血流中循环的细胞。CTC可构成接种物(seed)用于不同组织中另外肿瘤(转移)的继发生长。在患有转移疾病的患者中每mL全血中以大约1～10个CTC的频率发现循环肿瘤细胞。已经开发用于分离CTC的研究方法。本领域已经描述了数种分离CTC的研究方法，例如使用上皮细胞一般表达细胞粘附蛋白EpCAM(其在正常血细胞中缺乏)这一事实的技术。基于免疫磁珠的捕获涉及用针对EpCAM的与磁性颗粒缀合的抗体处理血液样本，然后在磁场中分离经标记的细胞。之后将分离细胞用针对另一上皮标志物、细胞角蛋白、以及常见白细胞标志物CD45的抗体进行染色，以便以从杂质白血细胞中区分稀有的CTC。该稳定和半自动化的方法鉴定平均产率为约1CTC／mL并且纯度为0.1％的CTC(Allard等，2004：Clin Cancer Res10，6897-6904)。分离CTC的第二种方法使用基于微流体的CTC捕获设备，其涉及使全血流过嵌入有80,000个微柱(micropost)的室，其通过包被针对EpCAM的抗体而赋予功能。之后CTC用针对细胞角蛋白或组织特异性标志物(例如，前列腺癌中的PSA或乳腺癌中的HER2)的二抗进行染色并且通过在多平面中沿着三维坐标自动扫描微柱来进行可视化。CTC芯片能够在患者中鉴定细胞角蛋白阳性的循环肿瘤细胞，其中值产率为50个细胞／ml并且纯度为1～80％(Nagrath等，2007：Nature450，1235-1239)。分离CTC的另一可能是使用Veridex，LLC(Raritan，NJ)的CellSearch^TM循环肿瘤细胞(CTC)测试，其在血液的管中捕获、鉴定并计数CTC。CellSearch^TM系统是美国食品和药物监督管理局(FDA)批准的用于在全血中计算CTC的方法，其是基于免疫磁性标记和自动化数字显微镜的组合。还有其他分离CTC的方法描述于文献中，其全部均可与本发明结合使用。

当人再次被先前所患病症所影响时，则发生复发或重现。例如，如果患者已患有肿瘤疾病，并已接受所述疾病的成功治疗，而再次发生所述疾病，则所述新发疾病可被认为是复发或重现。然而，根据本发明，肿瘤疾病的复发或重现可以(但不是必须地)发生在最初肿瘤疾病的部位。因此，例如，如果患者已患有卵巢肿瘤，并已接受成功的治疗，则复发或重现可以是发生卵巢肿瘤或发生非卵巢部位的肿瘤。肿瘤的复发或重现还包括肿瘤发生在不同于最初肿瘤部位的部位以及最初肿瘤部位的情况。优选地，最初肿瘤(患者已针对其接受了治疗)是原发肿瘤，而部位不同于最初肿瘤部位的肿瘤是继发或转移性肿瘤。

“治疗”意指向对象施用本文中描述的化合物或组合物以预防或消除疾病，包括使对象中的肿瘤的大小或肿瘤的数目降低；阻滞或减缓对象中的疾病；抑制或减缓对象中新疾病的发生；降低目前患有或之前曾患有疾病之对象中的症状和/或复发的频率或严重程度；和/或延长(即，提高)所述对象的寿命。特别是，术语“疾病的治疗”包括疾病或其症状的治愈、缩短持续时间、改善、防止、减缓或抑制进展或恶化，或者预防或延缓发生。

“有风险”意指鉴定为与一般群体相比具有高于正常发病(特别是癌症)机会的对象(即患者)。此外，已患有或目前患有疾病(特别是癌症)的对象是具有升高的发病风险的对象，因为这样的对象可继续发病。目前已患有或曾患有癌症的对象还具有升高的癌转移风险。

术语“免疫治疗”是指涉及活化特异性免疫反应的治疗。在本发明的上下文中，术语例如“保护”、“预防”、“预防性(prophylactic)”、“防止性(preventive)”或“保护性(protective)”涉及在对象中预防或治疗(或二者兼有)疾病的发生和／或传播，并且特别是使对象发生疾病的机会降到最低或延迟疾病发展。例如，如上所述有患肿瘤风险的人将是预防肿瘤治疗的候选人。

预防性施用免疫治疗(例如，预防性施用本发明的组合物)优选地对接受者进行保护以避免发生疾病。治疗性施用免疫治疗(例如，治疗性施用本发明的组合物)可导致抑制疾病的进展／生长。这包括使疾病的进展／生长减速(特别是破坏疾病的进展)，这优选地导致疾病的消除。

免疫治疗可以使用多种技术中的任意技术进行，其中本文提供的试剂发挥功能以从患者中去除病变细胞。这种去除可由于患者中对抗原或表达抗原之细胞特异的免疫应答的增强或诱导而发生。

在某些实施方案中，免疫治疗可以是主动免疫治疗，其中治疗有赖于通过施用免疫应答调节剂(例如本文提供的多肽和核苷酸)在体内刺激内源性宿主免疫系统针对病变细胞的反应。

本文提供的试剂和组合物可单独使用或与常规治疗方案联合使用，所述常规治疗方案例如外科手术、照射、化学治疗和／或骨髓移植(自体，同基因(syngeneic)，同种异体或不相关)。

术语“免疫”或“疫苗接种”描述以诱导用于治疗性或预防性原因的免疫应答为目的治疗对象的过程。

术语“体内”涉及对象中的状况。

可互换地使用术语“对象”、“个体”、“生物体”或“患者”，其表示脊椎动物，优选哺乳动物。例如，在本发明的情况中，哺乳动物是人、非人灵长类、家养的动物(例如，犬、猫、绵羊、牛、山羊、猪、马等)、实验动物(例如，小鼠、大鼠、兔、豚鼠等)以及圈养的动物(例如，动物园中的动物)。本文中使用的术语“动物”还包括人。术语“对象”还可包括患者，即，患有疾病(优选本文描述的疾病)的动物(优选人)。

术语“自体(autologous)”用于描述来源于相同对象的任意物质。例如，“自体移植”是指来源于相同对象的组织或器官的移植。这样的过程是有利的，因为它们克服了免疫屏障，否则会导致排斥。

术语“异源(heterologous)”用于描述由多种不同元素组成的某种物质。例如，一个个体的骨髓转移到不同个体中构成了异源移植。异源基因是来源于非所述对象来源的基因。

作为用于免疫或疫苗接种的组合物的一部分，优选将本文所述的一种或更多种试剂与一种或更多种佐剂一起使用，用于诱导免疫应答或用于提高免疫应答。术语“佐剂”表示延长或增强或加速免疫应答的化合物。本发明的组合物优选地无需添加佐剂而发挥其作用。尽管如此，本申请的组合物可包含任何已知的佐剂。佐剂包含异质化合物的组，例如油乳剂(例如，弗氏佐剂)、无机化合物(例如，明矾)、细菌产物(例如，百日咳毒素杆菌(Bordetella pertussis)毒素)、脂质体和免疫刺激复合物。佐剂的实例是单磷酰基-脂质-A(MPL SmithKline Beecham)，皂苷例如QS21(SmithKline Beecham)、DQS21(SmithKline Beecham；WO96／33739)、QS7、QS17、QS18和QS-L1(So等，1997，Mol.Cells7：178-186)，不完全弗氏佐剂，完全弗氏佐剂，维生素E，montanid，明矾，CpG寡核苷酸(Krieg等，1995，Nature374：546-549)和多种以生物可降解的油(例如，角鲨烯和/或生育酚)制备的油包水型乳剂。

也可施用刺激患者免疫应答的其他物质。例如，因为细胞因子对淋巴细胞的调节特性，可在疫苗接种中使用细胞因子。这样的细胞因子包括例如白介素-12(IL-12，证明其提高疫苗的保护性作用)(参见Science268：1432-1434，1995)、GM-CSF和IL-18。

有很多增强免疫应答并因此可用于疫苗接种的化合物。所述化合物包括以蛋白质或核酸形式提供的共刺激分子，例如B7-1和B7-2(分别CD80和CD86)。

根据本发明，“肿瘤样本”是包含肿瘤或癌症细胞(例如循环肿瘤细胞(CTC))的样品(例如身体样品)，特别是组织样品(包括体液)和/或细胞样品。根据本发明，“非致瘤样本”是不包含肿瘤或癌症细胞(例如循环肿瘤细胞(CTC))的样品(例如身体样品)，特别是组织样品(包括体液)和／或细胞样品。这样的身体样品可以以常规方式获得，例如通过组织活检(包括穿刺活检)以及通过取血、支气管吸出物、痰、尿、粪便或其他体液。根据本发明，术语“样品”还包括处理过的样品，例如生物样品的级分或分离物，例如核酸或细胞的分离物。

本文中描述的治疗活性试剂、疫苗和组合物可通过任意常规途径进行施用，包括通过注射或输注施用。施用可例如通过口服、静脉内、腹膜内、肌内、皮下或经皮来进行。在一个实施方案中，施用通过节内(例如，通过注射到淋巴结中)进行。施用的其他形式预想用本文中描述的核酸体外转染抗原呈递细胞(例如，树突细胞)，然后施用该抗原呈递细胞。

以有效量施用本文中描述的试剂。“有效量”是指单独地或与其他施用一起地实现期望反应或期望作用的量。在治疗特定疾病或特定病症时，期望的反应优选涉及疾病进程的抑制。这包括减缓疾病进展，尤其是干扰或逆转疾病进展。在疾病或病症的治疗中，期望的反应也可以是推迟或防止所述疾病或所述病症的发病。

本文中描述的试剂的有效量将取决于所要治疗的病症、疾病的严重程度、患者的个体参数(包括年龄、生理状况、体型和体重、治疗持续时间、伴随治疗的类型(如果有的话)、施用的特定途径以及类似因素。因此，所施用的本文描述的试剂的剂量可取决于多种这样的参数。当初始剂量引起的患者反应不足时，可使用更高剂量(或通过不同的、更局部的施用途径实现有效的更高剂量)。

本发明的药物组合物优选地是无菌的并包含有效量的治疗活性物质，以产生期望的反应或期望的作用。

本发明的药物组合物一般以药学相容性的量和药学相容性的制剂来施用。术语“药学相容性”是指无毒物质，其不与药物组合物的活性组分的作用发生相互作用。这类制剂通常可包含盐、缓冲物质、防腐剂、载体、补充的免疫增强物质(例如佐剂(如CpG寡核苷酸、细胞因子、趋化因子、皂苷、GM-CSF和/或RNA))以及适当地其他治疗活性化合物。当用于药物时，盐应为药学相容性的。然而，药学不相容的盐可用于制备药学相容性盐，并且包括在本发明中。此类药理学和药学相容性盐非限制性地包括由以下的酸所制备的盐：氢氯酸、氢溴酸、硫酸、硝酸、磷酸、马来酸、醋酸、水杨酸、柠檬酸、甲酸、丙二酸、琥珀酸等。药学相容性盐也可制备成碱金属盐或碱土金属盐，例如钠盐、钾盐或钙盐。

本发明的药物组合物可包含药学相容性载体。术语“载体”是指天然或合成性质的有机或无机组分，其中组合了活性组分从而有利于应用。根据本发明，术语“药学相容性载体”包括一种或更多种相容性固体或液体填充剂、稀释剂或包封物质，所述载体适于施用给患者。本发明药物组合物的组分一般不发生显著损害期望药物疗效的相互作用。

本发明的药物组合物可包含合适的缓冲物质，例如盐中的醋酸、盐中的柠檬酸、盐中的硼酸和盐中的磷酸。

适当时，所述药物组合物还可包含合适的防腐剂，例如苯扎氯铵、氯丁醇、对羟基苯甲酸酯和硫柳汞。

通常以均一剂型提供所述药物组合物，并可通过本身已知的方式制备。本发明的药物组合物可为例如胶囊、片剂、锭剂、溶液剂、混悬剂、糖浆剂、酏剂的形式，或是乳剂的形式。

适合用于肠胃外施用的组合物通常包含活性化合物的无菌水性或非水性的制剂，所述制剂优选与接受者的血液等渗。相容性载体和溶剂的实例有林格氏溶液和等渗氯化钠溶液。此外，通常无菌的固定油被用作溶液或混悬剂介质。

通过如下的附图和实施例对本发明进行详细地描述，所述附图和实施例仅用作举例说明，而不旨在限制。基于以下描述和实施例，本领域技术人员可获得同样包括于本发明中的其他实施方案。

附图说明

图1：

上图：在大量肿瘤样品中发现并优先化可能的免疫原性体细胞突变的过程。下图：适用于B16和Black6系统的过程。

图2：Kif18b中经验证突变的实例

在基因Kif18b中通过由Sanger测序所确证NGS外显子组测序鉴定的突变。在野生型细胞中，序列为T／T。在肿瘤细胞中，序列为T／G的混合。

图3：针对突变序列的免疫学反应性

用突变肽序列(100μg+50μg聚I：C；s.c.)免疫小鼠(n=5)两次(d0，d7)。在第12天，处死小鼠并且获得脾细胞。使用5×10⁵个脾细胞／孔作为效应子和5×10⁴个装载肽(2μg／ml，在37℃和5％CO₂下进行2小时)的骨髓树突细胞作为靶细胞进行IFNγELISpot。针对突变肽、野生型肽和对照肽(水泡性口炎(vesiculo stomatitis)病毒核蛋白，VSV-NP，aa52～59)测试效应子脾细胞。显示出平均测量点数目，其中对于每只小鼠减去针对VSV-NP的背景点(空的圆：用野生型肽免疫的小鼠；填充的框：用突变肽免疫的小鼠)。示出了每只小鼠的数据并且描述了平均值±SEM。

图4：用新鉴定突变肽序列疫苗接种小鼠的存活益处

在d0皮下接种B16F10细胞(7.5×10⁴)。在第4天、第+2天、第+9天用肽30(Jerini Peptide Technologies(Berlin)；100μg肽+50μg聚I：Cs.c.(Invivogen))疫苗接种小鼠。对照组仅接受聚I：C(50μg s.c.)。监测肿瘤生长直到第十16天*，在对数分级(log-rank)(Mantel-Cox)检验中p<0.05。

图5：

(A)用对于稳定性和翻译效率所优化RNA之增强蛋白质表达(左eGFP，右萤光素酶)的实例；(B)用针对有效抗原途径所优化RNA之多表位扩增抗原特异性CD8+和CD4+T细胞的实例(参照Kreiter,Konrad，Sester等，Cancer Immunol.Immunother.56：1577-1587，2007)。T(C)使用编码单表位(OVA-SIINFEKL)的RNA疫苗临床前证明B16黑素瘤模型中抗肿瘤效力的实例。对于单独用疫苗或疫苗与佐剂结合治疗的小鼠，获得了存活数据。(D)个体化多新表位疫苗设计。疫苗载剂整合了增强表达和优化免疫原性的功能要素。在其天然序列环境中，每分子可整合通过接头分开的最多30个突变表位。

图6：构建体设计

(A)RNA多表位构建体的示意图。Cap：帽类似物；5′UTR：5′非翻译区；L：接头；Seq.1：编码含有突变aa之肽的RNA序列；3′UTR：3′非翻译序列；poly-A：聚-A尾。(B)编码2个包含来自B16F10之突变aa的aa序列的RNA构建体序列。起始密码子和终止密码子以及信号肽和MITD序列不是示意图的一部分，其用“...”表示。

图7：RNA多表位的功能性

(A～C)每孔使用5×10⁵个脾细胞作为效应子和5×10⁴个BMDC作为靶细胞的IFNγELISpot的数据。使BMDC装载肽(2μg／ml，在37℃和5％CO₂下进行2小时)或通过电穿孔转染RNA(20μg)。对照RNA为eGFP(左图)或编码包含突变aa的由接头分开的2个不相关肽的RNA构建体。数据示为平均值±SEM。(A)示出了突变肽30、野生型肽30和编码突变30及31之RNA的数据。(B)示出了突变肽12、野生型肽12和编码突变12及39之RNA的数据。(C)示出了来自(B)中所示读出之单一小鼠的代表性ELISpot扫描。

图8：显示汇合点表位之RNA多新表位疫苗的两个实施方案

可用(上)或不用(下)突变编码肽之间的接头来构建RNA疫苗。良好表位包含含有体细胞突变(“*”)并且与MHC分子相结合的那些。不良表位包含与MHC分子相结合但含有两个肽之一部分(下)或肽和接头序列之一部分(上)的表位。

图9：“T细胞可成药突变组”的开发和表征

(A)流程图给出了从B16F10和C57BL／6样品开始到ELISPOT读出的实验程序的概述。(B)示出了对于选择用于DNA确认和免疫原性测试的突变而言每个评价步骤和过程的采集数目。对于确认和免疫原性试验所选择的突变是预测为免疫原性的并且在以RPKM>10所表达之基因中的那些。(C)将T细胞可成药突变组作图到B16F10的基因组。从外到内的环表示以下子集：(1)存在于所有一式三份中，(2)具有FDR<0.05，(3)位于蛋白质编码区中，(4)引起非同义变化，(5)位于经表达的基因中，和(6)在经验证的集中。小鼠染色体(外圈)、基因密度(绿色)、基因表达(绿色(低)/黄色／红色(高))和体细胞突变(橙色)。

图10：通过用代表长合成肽的突变疫苗接种小鼠来体内引发免疫应答

(A、B)来自用突变编码肽所疫苗接种小鼠之T细胞效应子的IFN-γELISPOT分析。柱表示每组5只小鼠的平均值(±SEM)。星号表示针对突变和野生型肽之反应性的统计上显著差异(学生t检验，值p<0.05)。(A)用转染了用于疫苗接种之突变编码肽、相应野生型肽和无关对照肽(VSV-NP)的BMDC再刺激经免疫接种小鼠的脾细胞。(B)对于针对经内源性加工突变的T细胞反应性的分析，用转染了对照RNA(eGFP)或编码指定突变之RNA的BMDC再刺激经免疫接种小鼠的脾细胞。(C)突变30(基因Kif18B，蛋白质Q6PFD6，突变p.K739N)。Sanger测序轨迹和突变的序列(上)。蛋白质结构域和突变位置(下)。

图11：在具有侵略性生长B16F10肿瘤的小鼠中突变肽疫苗的抗肿瘤作用

(A)用7.5×10⁴个B16F10细胞通过s.c.至小鼠侧腹中来接种C57BL／6小鼠(n=7)。在肿瘤接种后第3天和第10天，用100μg MUT30或MUT44肽+50μg聚(I：C)或者仅用佐剂疫苗接种小鼠。(B)在第-4天C57BL／6小鼠(n=5)接受100μg MUT30肽+50μg聚(I：C)的一次免疫。在第0天通过s.c.至小鼠侧腹中来接种7.5×10⁴个B16F10细胞。在第2天和第9天用MUT30肽(+聚(I：C))进行加强免疫。Kaplan-Meier存活图(左)。肿瘤生长动力学(右)。

图12：用突变编码RNA的疫苗接种导致CD4⁺和CD8⁺T细胞应答

来自用突变编码RNA所疫苗接种小鼠的CD4⁺和CD8⁺T细胞效应子中IFN-γ的细胞内细胞因子染色分析数据。RNA编码1个(单表位，上行)、2个(双表位，中行)或16个(多表位，下行)不同突变。点表示每组3只小鼠的平均值。星号表示针对突变和对照肽(VSV-NP)之反应性的统计上显著差异(学生t检验，值p<0.05)。FACS图显示出对于每个突变而言来自最高IFN-γ分泌动物的效应子并且表明T细胞应答的表型。

图13：用突变编码多表位RNA的疫苗接种针对数个突变导致T细胞应答

来自用包含16个不同突变之突变编码多表位所疫苗接种小鼠的T细胞效应子的IFN-γELISPOT分析。柱表示每组3只小鼠的平均值(±SEM)。图片显示出来自用指定肽再刺激的一个示例性动物的细胞的一式三份孔。

图14：用由一个RNA所编码之5个不同模型表位的疫苗接种针对所有编码表位导致免疫应答

A)来自用包含5个不同模型表位(SIINFEKL、Trp2、VSV-NP、Inf-NP、OVA II类)之突变编码模型多表位所疫苗接种小鼠的T细胞效应子的IFN-γELISPOT分析。用指定肽再刺激脾细胞。点表示来自每组5只小鼠的一式三份孔的平均值。B)一只对照小鼠和一只经模型多表位所免疫小鼠的血液淋巴细胞的五聚物染色。经Inf-NP五聚物染色的CD8⁺细胞对Inf-NP肽是特异的。

图15：诱导突变的CD4⁺T细胞可以在与弱CD8⁺T细胞表位的协同中针对B16F10黑素瘤诱导有效的抗肿瘤作用

用I×10⁵个B16F10细胞通过s.c.至小鼠侧腹中来接种C57BL／6小鼠(n=8)。在肿瘤接种后第3天、第10天和第17天，用100μg MUT30、Trp2或两种肽+50μg聚(I：C)疫苗接种小鼠。A)显示出每组的平均肿瘤生长动力学。在第28天，单一治疗组和未治疗组和组合组之间的平均值有统计上差异(Mann-Whitney检验，p值<0.05)。B)不同组的Kaplan-Meyer存活图。经MUT30和MUT30+Trp2疫苗接种小鼠的存活曲线有统计上差异(对数分级检验，p值=0.0029)。

图16：发现B16中体细胞突变之过程的概述

作为一个实例给出与一个black6样品相比一个B16样品的独立步骤的数目。“外显子”是指由所有蛋白质编码RefSeq转录本所定义的外显子坐标。

图17：显示出体细胞变异在分别由单个、两种或所有三种软件工具所发现的编码蛋白质之外显子中数目的维恩(Venn)图

数目是在过滤后计算的并且表示所有三种样品的共有。

图18：A单核苷酸变异发现的实例：体细胞突变见于所有三个B16样品中(左)，非体细胞突变见于所有B16和black6样品中(中)，以及突变仅见于一个black6样品中(右)。B对于其中选择经验证突变之数据集的经计算FDR分布；使分布可视化为在均匀采样位置的两个参数中对于平均值给出95％置信区间的具有灰色条的平均估计ROC曲线。对于所有可能的18个组合，平均值获自FDR的估计ROC曲线的分布(参见本文)。

图19：A三种不同软件工具之比较的估计ROC曲线(一式两份，38×覆盖)。B不同平均测序深度之比较的估计ROC曲线(samtools，无重复)。38×表示通过实验获得的覆盖，而其他覆盖以该数据起始进行降低采样(downsample)。C使实验重复的效果可视化的估计ROC曲线(38×覆盖，samtools)。D不同测序方案的估计ROC曲线(samtools，无重复)。使用2×100nt文库的结果计算曲线。

图20：A使用2396个变异的最终集合中的参数之最佳集合选择具有最低FDR的十个经验证突变。这些突变之中均不存在于dbSNP(128版，基因组组装mm9)中。B对于数据集中所有变体和经验证突变分别标绘在与A相同之数据集中所见变异对给定FDR截取的相对量。为了视觉上清晰，仅示出了0至10％FDR的值。

图21：突变编码多表位RNA疫苗的抗肿瘤活性

用1×10⁵个B16F10细胞通过s.c.至小鼠侧腹中来接种C57BL／6小鼠(n=10)。在肿瘤接种后第3天、第6天、第10天、第17天和第21天，用多表位RNA配制的脂质体RNA转染试剂疫苗接种小鼠。对照组接受没有RNA的脂质体。图示出了不同组的Kaplan-Meyer存活图。存活曲线有统计上差异(对数分级检验，p值=0.0008)。

实施例

本文中使用的技术和方法在本文中描述或者以本身已知并且在例如在Sambrook等，Molecular Cloning：A Laboratory Manual，第2版(1989)Cold Spring Harbor Laboratory Press，Cold Spring Harbor,N.Y中描述的方式实施。包括试剂盒和试剂之使用的所有方法均根据制造商的信息进行，除非特别说明。

实施例1：突变检测和优先化

我们首先表明了用于以无偏向性方式鉴定体细胞突变的肿瘤样品和正常样品的序列谱分析。我们表明其不仅用于大块(bulk)肿瘤样品，而且首次用于从个体循环肿瘤细胞中鉴定突变的能力。接下来，我们基于预测的突变的免疫原性优先化在多新表位中包含的突变，并且表明经鉴定的突变确实具有免疫原性。

突变检测

使用CTC的原理：检测来自癌症患者外周血的循环肿瘤细胞(CTC)是肿瘤临床病程的公认独立预后标志(Pantel等，Trends Mol Med2010；16(9)：398-406)。多年以来，CTC的临床显著性已经是肿瘤学中激烈的科学和临床研究的主题。已经表明在患有转移性乳腺癌、前列腺癌和结直肠癌之患者血液中CTC的检测具有预后相关性，提供了对常规成像技术和其他预后肿瘤生物标志物而言额外的信息。用治疗剂(系统的或靶向的)治疗之前、治疗早期期间和治疗后取自患者的顺序血液样品对治疗响应／失败提供了信息。耐药性CTC的分子分析可提供个体患者中抗性机制的进一步理解(例如，特异性信号转导途径中的突变或靶标表达的丧失)。来自CTC的谱分析(profiling)和遗传表征的额外可能性是鉴定用于开发新靶向治疗的新癌症靶标。该新的诊断策略被称为“液体肿瘤活检”。由于该谱分析可快速和重复地进行，仅需要患者的血液而不用进行手术，所以这将提供对肿瘤状态的“实时”观察。

来自肿瘤细胞的突变：我们表明，我们能够使用B16黑素瘤细胞鉴定突变，进行外显子组捕获以提取蛋白质编码区，使用我们的HiSeq2000进行新一代测序，然后使用我们的“iCAM”软件流水线进行生物信息学分析(图1)。我们鉴定了2448个非同义突变并选择了50个用于确证。我们能够确证所有50个体细胞突变。

以下是B16黑素瘤细胞中所发现体细胞突变之蛋白质影响(proteinimpact)的实例：

Kif18b，NM_197959，外显子3

突变(+15aa)

SPSKPSFQEFVDWENVSPELNSTDQPFLPS

野生型(+15aa)

SPSKPSFQEFVDWEKVSPELNSTDQPFLPS

来自个体循环肿瘤细胞(CTC)的突变：接下来，我们能够从来自单个CTC之RNA的NGS谱分析中鉴定肿瘤特异性体细胞突变。将经标记的B16黑素瘤细胞静脉内注射至小鼠尾中，处死小鼠，心脏采血，细胞分选，以取回经标记的循环B16细胞(CTC)，RNA提取，进行基于SMART的cDNA合成和非特异性扩增，然后是NGS RNA-Seq测定和随后数据分析(以下)。

我们对八个个体CTC进行了谱分析并鉴定了体细胞突变。另外，八个细胞中，八个鉴定出了之前鉴定的体细胞突变。在多种情况中，数据在个体细胞水平上示出了异质性。例如，在2号染色体的144078227位置(组装mm9)上，在基因Snx15中，两个细胞示出了参照核苷酸(C)，而两个细胞示出了突变核苷酸(T)。

这表明，我们能够对个体CTC进行谱分析以鉴定体细胞突变(“实时”iVAC(个体化疫苗)的根本途径)，其中重复地对患者进行谱分析并且结果反映了当前患者状态而非较早时间点的状态。这还表明，我们能够鉴定存在于肿瘤细胞子集中的异质性体细胞突变，这使得能够评价突变频率，例如用于识别主要突变和稀有突变。

方法

样品：对于谱分析实验，样品包括来自C57BL／6小鼠(“Black6”)的5～10mm尾样品和高度攻击性B16F10鼠黑素瘤细胞(“B16”)(最初来源于Black6小鼠)。

使用荧光标记的B16黑素瘤细胞产生循环肿瘤细胞(CTC)。将B16细胞重悬于PBS中并将等体积新鲜制备的CFSE溶液(PBS中5μM)添加至细胞中。样品通过涡旋温和地混合，然后在室温下孵育10分钟。为了停止标记反应，将等量的含有20％FSC的PBS添加至样品中并通过涡旋温和地混合。在室温下孵育20分钟后，将细胞使用PBS洗涤两次。最后，使细胞重悬于PBS中并经静脉内(i.v.)注射到小鼠中。3分钟后处死小鼠并采血。

通过每100μl血液添加1.5ml新鲜制备的PharmLyse溶液(BecktonDickinson)来裂解来自血液样品的红细胞。一个洗涤步骤之后，将7-AAD添加至样品中并在室温下孵育5分钟。孵育后进行两个洗涤步骤，然后使样品重悬于500μl PBS中。

用Aria I细胞分选器(BD)分选CFSE标记的循环B16细胞。在具有50μl／孔RLT缓冲液(Quiagen)的96孔v底板上分选单细胞。分选结束后，将板储存于-80℃直到开始核酸提取和样品制备。

核酸提取和样品制备：用Qiagen DNeasy血液和组织试剂盒(DNA)和Qiagen RNeasy Micro试剂盒(RNA)提取B16细胞和Black6尾组织(DNA)的核酸(DNA和RNA)。

对于经分选的个体CTC，提取RNA并进行基于SMART的cDNA合成和非特异性扩增。根据供应商的说明，用RNeasy Micro试剂盒(Qiagen，Hilden，Germany)提取来自经分选CTC细胞的RNA。将改进的BD SMART方案用于cDNA合成：Mint逆转录酶(Evrogen，Moscow,Russia)与寡聚(dT)-T-长引物(引发第一链的合成反应)和TS-short(Eurogentec S.A.，Seraing，Belgium)(引入寡(riboG)序列，以使得通过逆转录酶末端转移酶活性产生延伸的模板和用于模板转换[Chenchik，A.，Y.等1998.Generation and use of high quality cDNA from small amounts oftotal RNA by SMART PCR.In Gene Cloning and Analysis by RT-PCR.P.L.J.Siebert,编BioTechniques Books，MA，Natick.305-319])组合。根据制造商的说明，在200μM dNTP的存在下，用5U PfuUltra HotstartHigh-Fidelity DNA聚合酶(Stratagene，La Jolla，CA)和0.48μM引物TS-PCR引物经历35个扩增循环(循环条件：95℃2分钟，94℃30秒，65℃30秒，72℃1分钟，72℃6分钟的最终延伸)合成的第一链cDNA。用特异性引物监测肌动蛋白和GAPDH来对照CTC基因的成功扩增。

新一代测序，DNA测序：使用基于Agilent Sure-Select溶液的捕获测定[Gnirke A等：Solution hybrid selection with ultra-long oligonucleotidesfor massively parallel targeted sequencing.Nat Biotechnol2009,27：182-189]来进行用于DNA再测序的外显子组捕获，在这种情况中其设计用于捕获所有的小鼠蛋白质编码区。

简要地，使用Covaris S2超声设备将3μg经纯化的基因组DNA片段化成150～200bp。使用T4DNA聚合酶、Klenow DNA聚合酶对gDNA片段进行末端修复并且使用T4多核苷酸激酶对其进行5’磷酸化。使用Klenow片段(缺乏3’至5’外切活性)对平端gDNA片段进行3’腺苷酸化。使用T4DNA连接酶将3’单T悬挂(overhang)Illumina经配对末端适配体连接至gDNA片段(使用适配体与基因组DNA插入物的10：1摩尔比)。在捕获前富集经适配体连接的gDNA片段，然后使用Illumina PEPCR引物1.0和2.0以及Herculase II聚合酶(Agilent)使用4个PCR循环来增加流动细胞特异性序列。

在65℃下使500ng经适配体连接的PCR富集的gDNA片段与经Agilent's SureSelect生物素化的小鼠全外显子组RNA文库诱饵杂交24小时。使用链霉亲和素包被的磁珠移出杂交的gDNA／RNA诱饵复合物。洗涤gDNA／RNA诱饵复合物，然后在洗脱期间在SureSelect洗脱缓冲液中切除RNA诱饵，从而留下经捕获的、经适配体连接的、PCR富集的gDNA片段。捕获后使用Herculase II DNA聚合酶(Agilent)和SureSelect GAPCR引物进行10个循环来PCR扩增gDNA片段。

使用1.8×体积的AMPure XP磁珠(Agencourt)进行所有清除。使用Invitrogen’s Qubit HS测定进行所有的品质控制并且使用Agilent的2100Bioanalyzer HS DNA测定确定片段大小。

用cBot、使用Truseq SR簇试剂盒v2.5、使用7pM使富集外显子组的gDNA文库成簇，然后用Illumina HiSeq2000、使用Truseq SBS试剂盒-HS50bp测序50bp。

新一代测序，RNA测序(RNA-Seq)：使用Illumina mRNA-seq方案的改进版本从5μg总RNA中制备标签化(Barcoded)mRNA-seq cDNA文库。使用Seramag寡聚(dT)磁珠(Thermo Scientific)分离mRNA。使用二价阳离子并加热使经分离的mRNA片段化，产生160～220bp的片段。使用随机引物和SuperScriptII(Invitrogen)将经片段化mRNA转化成cDNA，然后使用DNA聚合酶I和RNA酶H进行第二链合成。使用T4DNA聚合酶、Klenow DNA聚合酶对cDNA进行末端修复并且使用T4多核苷酸激酶对其进行5’磷酸化。使用Klenow片段(缺乏3’至5’外切活性)对平端cDNA进行3’腺苷酸化。使用T4DNA连接酶连接3’单T悬挂Illumina多重特异性适配体(使用适配体与cDNA插入物的10：1摩尔比)。

使用E-Gel2％SizeSelect凝胶(Invitrogen)纯化cDNA文库并且选择200～220bp大小。通过使用Phusion DNA聚合酶(Finnzymes)的PCR进行富集、增加Illumina六碱基标志(six base index)和流动细胞特异性序列。使用1.8×体积的AgencourtAMPure XP磁珠进行所有清除。使用Invitrogen's Qubit HS测定进行所有的品质控制并且使用Agilent的2100Bioanalyzer HS DNA测定确定片段大小。

用cBot、使用Truseq SR簇试剂盒v2.5、使用7pM使标签化的RNA-Seq文库成簇，然后用Illumina HiSeq2000、使用Truseq SBS试剂盒-HS50bp测序50bp。

CTC：对于CTC的RNA-Seq谱分析，使用该方案的改进版本，其中使用500～700ng经SMART扩增的cDNA，连接经配对的末端适配体，然后使用Illumina PE PCR引物1.0和2.0进行PCR富集。

NGS数据分析，基因表达：为了确定表达值，根据Illumina标准方案预处理来自Illumina HiSeq2000的源自RNA样品的输出序列读取(read)。这包括低品质读取的过滤和去多重化(demultiplexing)。对于RNA-Seq转录组分析，使用bowtie(0.12.5版)[Langmead B.等Ultrafastand memory-efficient alignment of short DNA sequences to the humangenome.Genome Biol10：R25]使用参数“-v2-best”用于基因组比对和默认参数用于转录本比对将序列读取与参照基因组序列[Mouse GenomeSequencing Consortium.Initial sequencing and comparative analysis of themouse genome.Nature,420，520-562(2002)]进行比对。将比对坐标与RefSeq转录本的外显子坐标[Pruitt KD.等NCBI Reference Sequence(RefSeq)：a curated non-redundant sequence database of genomes，transcripts and proteins.Nucleic Acids Res.2005Jan1；33(Databaseissue)：D501-4]进行比较，并且对于每个转录本记录重叠比对的计数。将不可与基因组序列比对的序列读取与RefSeq转录本之所有可能外显子-外显子汇合点序列的数据库进行比对。对于每个转录本，将与剪接汇合点匹配的读取计数聚集在之前步骤中获得的相对转录本计数中并且归一化成RPKM(每百万作图读取中每千碱基外显子模型的所作图之读取的数目[Mortazavi，A.等(2008).Mapping and quantifying mammaliantranscriptomes by rna-seq.Nat Methods，5(7)：621-628])。基于分别重叠各个基因或外显子之读取的归一化数目计算基因表达值和外显子表达值二者。

突变发现，大块肿瘤：使用bwa(0.5.8c版)[Li H.和Durbin R.(2009)Fast and accurate short read alignment with Burrows-Wheeler Transform.Bioinformatics，25：1754-60]使用默认选项将来自Illumina HiSeq2000的50nt单端读取与参照小鼠基因组组装mm9进行比对。去除模糊读取-作图到基因组多个位置的那些读取，分选剩余比对，索引并转化成二进制和压缩格式(BAM)，使用shell脚本将读取品质评分从Illumina标准phred+64转化成标准Sanger品质评分。

对于每个测序通道，使用三种软件程序鉴定突变：包括samtools(0.1.8版)[Li H.Improving SNP discovery by base alignment quality.Bioinformatics.2011Apr15；27(8)：1157-8.Epub2011Feb13]、GATK(1.0.4418版)[McKenna A.等The Genome Analysis Toolkit：a MapReduceframework for analyzing next-generation DNA sequencing data.GenomeRes.2010Sep；20(9)：1297-303.Epub2010Jul19]和SomaticSniper(http:／／genome.wustl.edu／software／somaticsniper)。对于samtools，使用作者推荐的选项和过滤器标准，包括第一轮过滤，最大覆盖200。对于samtools第二轮过滤，最小插入-缺失品质评分为50，点突变最小品质为30。对于GATK突变调入(calling)，我们根据在GATK用户手册上提供的经作者设计的最佳实践指南(http:／／www.broadinstitute.org／gsa／wiki／index.php／The_Genome_Analysis_Toolkit)。变体评分再校准步骤被缺省并且被硬过滤选项替换。对于SomaticSniper突变调入，使用默认选项，并且仅进一步考虑具有“体细胞评分”为30或更大的预测突变。

突变发现，CTC：根据大块肿瘤iCAM过程，使用bwa((0.5.8c版)[5])使用默认选项将来自Illumina HiSeq2000的50nt单端读取与参照小鼠基因组组装mm9进行比对。由于CTC NGS读取来源于RNA-Seq测定，也使用bowtie(上述)将读取与转录组序列(包括外显子-外显子汇合点)进行比对。使用所有比对，将来自读取的核苷酸序列与参照基因组和大块肿瘤来源之B16突变二者进行比较。使用perl脚本和手动地使用软件程序samtools与使结果成像之IGV(Integrated Genome Viewer)来评估经鉴定的突变。

“突变发现”的输出是从样品到NGS数据到突变列表的肿瘤细胞中体细胞突变的鉴定。在B16样品中，我们使用外显子组再测序鉴定了2448个体细胞突变。

突变优先化

接下来，我们证明了用于疫苗引入的突变优先化流水线的可行性。该方法称作“个体癌症突变检测流水线”(iCAM)，其通过整合多种前沿算法和生物信息学方法的一系列步骤来鉴定并优先化体细胞突变。该过程的输出是基于免疫原性可能性而优先化的体细胞突变列表。

体细胞突变鉴定：对于B16和Black6样品(突变发现，上述)二者，使用三种不同的算法鉴定突变。第一iCAM步骤是组合每种算法的输出列表以产生体细胞突变的高置信列表。GATK和samtools报告了相对于参照基因组的在一个样品中的变体。为了对于给定样品(即，肿瘤样品或正常样品)选择具有很少假阳性的高置信突变，选择在所有重复中鉴定的突变。然后，选择存在于肿瘤样品中而不存在于正常样品中的变体。SomaticSniper自动地报告了肿瘤和正常数据对的潜在体细胞变异。我们通过交叉从重复中所获得的结果对结果进一步过滤。为了去除尽可能多的假阳性调入，我们交叉了来源于使用所有三种算法和所有重复之突变的列表。对于每个体细胞突变的最后步骤是基于覆盖深度、SNP品质、共有品质和作图品质，给每个突变分配置信值(p值)。

突变影响(Mutation impact)：通过iCaM突变流水线内的脚本来确定经过滤共有体细胞突变的影响。首先，因为去除了与多个位置比对的序列读取，所以从分析中排除在基因组内非独特的基因组区域中发生(例如，对于一些蛋白质同源物(paralog)和假基因发生)的突变。第二，确定突变是否在转录本中发生。第三，确定突变是否在蛋白质编码区中发生。第四，翻译具有或没有突变的转录本序列以确定氨基酸序列中是否有变化。

突变表达：iCAM流水线选择了在肿瘤细胞中所表达的基因和外显子中发现的体细胞突变。通过肿瘤细胞的NGS RNA-Seq(上述)来确定表达水平。重叠基因和外显子之读取的数目表示表达水平。将这些计数归一化成RPKM(每百万作图读取中每千碱基外显子模型的读取，[MortazaviA.等Mapping and quantifying mammalian transcriptomes by RNA-Seq.Nat Methods.2008Jul；5(7)：621-8.Epub2008May30])，然后选择表达超过10RPKM的那些。

MHC结合：为了确定包含突变肽之表位与MHC分子相结合的可能性，iCAM流水线运行来自Immune Epitope Database(http:／／www.iedb.org／)的MHC预测软件的改进版本。本地安装包括修改以通过算法优化数据流。对于B16和Black6数据，使用所有可用black6MHC I类等位基因和各肽长度的所有表位运行预测。鉴于所有MHC等位基因和重叠突变的所有可能表位，选择落在IEDB训练数据(http:／／mhcbindingpredictions.immuneepitope.org／dataset.html)之第95百分位预测评分分布中所分级的表位中的突变。

突变选择标准：通过下述标准来选择体细胞突变：a)具有独特序列组成，b)通过所有三种程序鉴定，c)高突变置信，d)非同义蛋白质变化，e)高转录本表达，和f)有利的MHC I类结合预测。

该过程的输出是基于可能免疫原性而优先化的体细胞突变列表。在B16黑素瘤细胞中，有2448个体细胞突变。这些突变中的1247个发现于基因转录本中。其中734个引起非同义蛋白质变化。其中，149个在肿瘤细胞所表达的基因中。其中，所表达这些非同义突变中的102个预测在MHC分子上呈递。之后，将这102个可能免疫原性突变进行突变确证(下文)。

突变确证

通过两种方法(突变区再测序和RNA-Seq分析)之一来确证来自DNA外显子组再测序的体细胞突变。

对于通过再测序的突变确证，通过标准PCR从50ng肿瘤DNA和正常对照DNA二者中扩增包含突变的基因组区域。扩增产物的大小为150至400nt。通过在Qiaxel设备(Qiagen)上装载PCR产物来对照反应的特异性。使用minElute PCR纯化试剂盒(Qiagen)纯化PCR产物。使用标准Sanger测序法(Eurofins)对特定PCR产物进行测序，然后进行电泳图分析。

还通过检查肿瘤RNA来完成突变确证。从RNA-Seq(RNA的NGS)产生肿瘤基因和外显子表达值，该RNA-Seq产生了作图到转录本并计数的核苷酸序列。我们检查了序列数据本身以鉴定肿瘤样品中的突变[Berger MF.等Integrative analysis of the melanoma transcriptome.Genome Res.2010Apr；20(4)：413-27.Epub2010Feb23]，提供了DNA来源的经鉴定体细胞突变的独立确证。

表1：包含50个经验证突变的基因列表

包含50个经鉴定并经确证的体细胞突变的基因，以及关于基因符号、基因名称和预测位置及功能的注释。

实施例2：IVAC选择算法能够检测免疫原性突变

为了研究是否可针对来自B16F10黑素瘤细胞的经确证突变诱导特异性T细胞应答，用包含突变aa序列或野生型aa序列(参见表2)的100μg肽(+50μg聚I：C作为佐剂)通过皮下对幼稚C57BL／6小鼠(n=5只／肽)免疫两次(d0，d7)。所有肽的长度为27个aa，其中突变／野生型aa在中央位置。在第12天处死小鼠并获取脾细胞。作为读出方法，使用5×10⁵个脾细胞／孔作为效应子和5×10⁴个装载肽(2μg／ml)的骨髓树突细胞作为靶细胞进行IFNγELISpot。针对突变肽、野生型肽和对照肽(水泡性口炎((vesiculostomatitis)病毒核蛋白，VSV-NP)测试效应子脾细胞。

在测试的44个序列中，我们观察到它们中的6个仅针对突变序列而不针对野生型肽诱导T细胞免疫(图3)。

数据表明，在抗原幼稚小鼠中经鉴定和经优先化的突变在用作肽疫苗后可用于诱导肿瘤特异性T细胞免疫。

表2：诱导对相对于野生型肽之突变肽特异的T细胞反应性的突变序列的列表。下划线表示氨基酸替换。

实施例3：经鉴定的突变可提供治疗性抗肿瘤免疫

为了验证在对幼稚小鼠疫苗接种后经鉴定的突变是否可赋予抗肿瘤免疫，我们用显示诱导突变选择性T细胞反应性之突变编号30的肽来研究该问题。在d0天，皮下接种B16F10细胞(7.5×10⁴)。在第-4天、第+2天和第+9天用肽30(参见表1；100μg肽+50μg聚I：C，s.c.)疫苗接种小鼠。对照组仅接受聚I：C(50μg，s.c.)。每隔一天监测肿瘤生长。在第+16天，我们观察到肽疫苗组中5只小鼠中仅1只发生肿瘤，而在对照组中5只小鼠中有4只显示出肿瘤生长。

数据表明，引入B16F10特异性突变的肽序列可赋予能够有效破坏肿瘤细胞的抗肿瘤免疫(参见图4)。由于B16F10是强攻击性的肿瘤细胞系，用于鉴定并优先化突变的方法最终使得能够选择本身作为疫苗已经有强效的突变，这一发现对于整个过程的概念而言是重要的证据。

实施例4：支持多表位抗原呈递的数据

将来自患者蛋白质编码区的经验证突变构成库(pool)，从中可选择候选物用于组装多新表位疫苗(poly-neo-epitope vaccine)模板以用作RNA疫苗的GMP制备前体。已经描述了作为疫苗骨架的合适载体盒(Holtkamp，S.等，Blood，108：4009-4017，2006；Kreiter,S.等，CancerImmunol.Immunother.，56：1577-1587，2007；Kreiter,S.等，J.Immunol.，180：309-318，2008)。优选的载体盒在其编码区和非翻译区(UTR)中被修饰并且确保编码蛋白尽可能长地翻译延长的时期(Holtkamp，S.等，Blood，108：4009-4017，2006；Kuhn，A.N.等，Gene Ther.，17：961-971，2010)。另外，载体骨架包含用于同时扩增细胞毒性T细胞及辅助T细胞的抗原途径模块(antigen routing modules)(Kreiter,S.等，CancerImmunol.Immunother.，56：1577-1587，2007；Kreiter,S.等，J.Immunol.，180：309-318，2008；Kreiter,S.等，Cancer Research，70(22)，9031-9040，2010)(图5)。重要地是，我们已经表明，这种RNA疫苗可用于同时呈递多个MHC I类和II类表位。

可从多至30个中央包含突变的氨基酸的延伸中建立IVAC多新表位RNA疫苗序列。这些序列通过短接头头尾相连，以形成编码多至30个或更多个经选择突变及其侧翼区的多新表位疫苗。这些患者特异性单独定制的插入物被密码子优化并且克隆至上述RNA骨架中。这种构建体的品质控制包括在细胞中的体外转录和表达，用于验证功能性转录和翻译。用针对c末端靶结构域的抗体进行翻译分析。

实施例5：对于RNA多新表位构建体概念的科学证据

RNA多新表位概念基于长的体外转录mRNA，其由编码经接头序列连接之突变肽的顺序排列序列组成(参见图6)。编码序列选自非同义突变并且总是由侧翼为来自原始序列环境之30至75个碱基对区域的突变氨基酸的密码子构建。接头序列编码优选不被细胞抗原加工装置加工的氨基酸。体外转录构建体基于pST1-A120载体，其包含T7启动子、串联β珠蛋白3’UTR序列和120bp聚(A)尾，已经显示该构建体提高稳定性和RNA的翻译效率，从而增强经编码抗原的T细胞刺激能力(Holtkamp S.等，Blood2006；PMID：16940422)。另外，插入了MHC I类信号肽片段以及包含侧翼连接用于克隆表位之多接头序列的终止密码子的跨膜结构域和胞质结构域(MHC I类运输信号或MITD)(Kreiter S.等，J.Immunol.，180：309-318，2008)。已经显示后者提高抗原呈递，从而增强抗原特异性CD8+和CD4+T细胞的扩增以及改进效应子功能。

对于概念的第一个证据，使用双表位载体，即编码包含两个突变表位的一个多肽。设计并由商业供应商(Geneart，Regensburg，Germany)合成经密码子优化的序列，其编码(i)20至50个氨基酸的突变表位，(ii)富含甘氨酸／丝氨酸的接头，(iii)20至50个氨基酸的第二突变表位，和(iv)另外的富含甘氨酸／丝氨酸之接头-侧翼为用于限制性核酸内切酶的合适识别位点以克隆至上述基于pST1的构建体中。验证序列之后，将这些克隆至基于pST1的载体骨架中，以获得图6所示的构建体。

上述基于pST1-A120的质粒用IIs类限制性核酸内切酶进行线性化。经线性化的质粒DNA通过酚氯仿提取和乙醇沉淀来进行纯化。线性化载体DNA通过分光光度法定量并进行基本上如Pokrovskaya和Gurevich(1994，Anal.Biochem.220：420-423)所述的体外转录。将帽类似物添加至转录反应中以获得具有经相应修饰的5′帽结构的RNA。在反应中，GTP以1.5mM存在，而帽类似物以6.0mM存在。所有其他的NTP以7.5mM存在。在转录反应结束时，在37℃下用0.1U／μl TURBO DNA酶(Ambion，Austin／TX，USA)将线性化载体DNA消化15分钟。使用MEGAclear试剂盒(Ambion，Austin／TX，USA)，根据制造商的方法从这些反应物中纯化RNA。通过分光光度法评估RNA浓度和质量并且用2100Bioanalyzer(Agilent，Santa Clara，CA，USA)进行分析。

为了证明并入突变氨基酸并且5′侧翼及3′侧翼为接头序列的序列可以被抗原特异性T细胞加工、呈递和识别，我们使用来自经肽免疫接种之小鼠的T细胞作为效应细胞。在IFNγELISpot中，我们测试了由上述肽疫苗接种诱导的T细胞是否能够识别用肽脉冲(2μg／ml，在37℃和5％CO₂下进行2小时)或者用RNA(如上所述产生的20μg)通过电穿孔转染的靶细胞(骨髓树突细胞，BMDC)。如图7示例，对于突变12和30(参见表2)，我们可观察到RNA构建体能够产生由突变特异性T细胞识别的表位。

根据所提供的数据，我们可表明，RNA编码的含有富含甘氨酸／丝氨酸之接头的多新表位可在抗原呈递细胞中被翻译和加工，从而使得呈递由抗原特异性T细胞识别的正确表位。

实施例6：多新表位疫苗设计-接头的相关性

多新表位RNA构建体包含骨架构建体，其中具有与接头肽序列连接的多个体细胞突变编码肽。除了由于骨架的密码子优化以及提高的RNA稳定性和翻译效率，RNA多新表位疫苗的一个实施方案包含设计用于提高抗原肽之MHC I类和II类呈递并降低有害表位之呈递的接头。

接头：设计接头序列用于连接多个含有突变的肽。接头应能够产生并呈递突变表位，同时阻碍产生有害表位，例如在相邻肽之间或接头序列与内源性肽之间的汇合点接缝产生的那些。这些“汇合点(iunction)”表位不仅可以与预期表位竞争在细胞表面的呈递(降低疫苗功效)，而且还可以产生不期望的自身免疫反应。因此，我们设计接头序列以a)避免产生与MHC分子相结合的“汇合点”肽，b)避免蛋白酶体加工以产生“汇合点”肽，c)被有效翻译和被蛋白酶体加工。

为了避免产生结合HMC分子的“汇合点”肽，我们比较了不同的接头序列。例如，甘氨酸抑制MHC结合沟位置中的强结合[Abastado JP.等，JImmunol.1993Oct1；151(7)：3569-75]。我们检查了多个接头序列和多个接头长度，并且计算了结合MHC分子的“汇合点”肽的数目。我们使用免疫表位数据库(Immune Epitope Database)(IEDB，http:／／www.immuneepitope.org／)的软件工具以计算给定肽序列包含将结合MHC I类分子之配体的可能性。

在B16模型中，我们鉴定了预测在MHC I类分子上呈递的102个经表达的非同义体细胞突变。使用50个经确证的突变，我们通过计算机设计了不同的疫苗构建体(包括不使用接头或使用不同接头序列)，并且使用IEDB算法计算了有害“汇合点”肽的数目(图8)。

表5示出了若干不同接头、不同接头长度以及不使用接头和使用5种接头的结果。对于9个aa和10个aa表位预测(上和中)，MHC结合汇合点肽的数目为2至91。接头的大小影响汇合点肽的数目(下)。对于该序列，对7aa接头序列GGSGGGG预测了最少9aa表位。

在实验测试的RNA多新表位疫苗构建体中使用的接头1和接头2(参见下文)也具有有利的低数目的经预测汇合点新表位。对于预测9-mer和10-mer预测也是如此。

这表明，接头的序列对产生不良HMC结合表位至关重要。接头序列的长度还影响不良MHC结合表位的数目。我们发现，富含G的序列阻碍产生MHC结合配体。

表3.接头的影响(10aa表位)。对于每个肽接头，定义为包含汇合点序列之MHC I类结合表位的不良表位的预测数目。这里，考虑10个氨基酸的表位。富含甘氨酸的接头具有最少的汇合点表位。

表4.接头部分的影响(9aa表位)。对于每个肽接头，定义为包含汇合点序列之MHC I类结合表位的不良表位的预测数目。这里，考虑可9个氨基酸的表位。富含甘氨酸的接头具有最少的汇合点表位。

表5.接头部分的影响。对于每个肽接头，定义为包含汇合点序列之MHCI类结合表位的不良表位的预测数目。这里，考虑了9个氨基酸的表位。上：对于无接头和5种不同接头的9aa汇合点表位的数目。中：对于无接头和5种不同接头的10aa汇合点表位的数目。下：不同长度的类似接头的99aa汇合点表位的数目。富含甘氨酸的接头具有最少的汇合点表位。

为了避免可以产生“汇合点”肽的蛋白酶体加工，我们研究了不同氨基酸在接头中的使用。富含甘氨酸的序列损害蛋白酶体加工[Hoyt MA等(2006).EMBO J25(8)：1720-9；Zhang M.和Coffino P.(2004)J BiolChem279(10)：8635-41]。因此，富含甘氨酸的接头序列作用于尽可能减少可通过蛋白酶体加工的含有接头之肽的数目。

接头应使得含有突变的肽能够有效地被翻译和被蛋白酶体加工。氨基酸甘氨酸和丝氨酸是柔性的[Schlessinger A和Rost B.，Proteins.2005Oct1；61(1)：115-26]；在接头包括它们中产生更具柔性的蛋白质。我们将甘氨酸和丝氨酸引入接头中以提高蛋白质的柔性，这应允许更有效的翻译和通过蛋白酶体的加工，继而能够更好地接近经编码的抗原肽。

因此，接头应是富含甘氨酸的，以阻碍产生MHC结合不良表位；应阻碍蛋白酶体加工接头肽的能力，这可通过包含甘氨酸来实现；以及应是柔性的以提高对含突变的肽接近，这可通过组合甘氨酸和丝氨酸氨基酸来实现。因此，在本发明之疫苗构建体的一个实施方案中，优选地包括序列GGSGGGGSGG和GGSGGGSGGS作为接头序列。

实施例7：RNA多新表位疫苗

RNA多新表位疫苗构建体基于pST1-A120载体，其包含T7启动子、串联β珠蛋白3’UTR序列和120bp聚(A)尾，已经显示该构建体提高RNA的稳定性和翻译效率，从而增强所编码抗原的T细胞刺激能力(HoltkampS.等，Blood2006；PMID：16940422)。另外，插入了MHC I类信号肽片段以及包含侧翼连接用于克隆表位之多接头序列的终止密码子的跨膜结构域和胞质结构域(MHC I类运输信号或MITD)(Kreiter S.等，J.Immunol.，180：309-318，2008)。已经显示后者提高抗原呈递，从而增强抗原特异性CD8+和CD4+T细胞的扩增以及改进效应子功能。

为了提供B16F10之50个经鉴定并经验证突变的RNA多新表位构建体，产生了3个RNA构建体。构建体由经密码子优化的序列组成，该序列编码(i)25个氨基酸的突变表位，(ii)富含甘氨酸／丝氨酸的接头，(iii)突变表位序列然后是富含甘氨酸／丝氨酸之接头的重复。包含突变表位之序列和接头的链侧翼连接用于限制性核酸内切酶的合适识别位点以克隆至上述基于pST1之构建体中。设计疫苗构建体并由GENEART合成。验证序列后，将这些克隆至基于pST1的载体骨架中以获得RNA多新表位疫苗构建体。

临床方法的描述

临床应用将包括以下步骤：

·合格的患者必须同意通过新一代测序进行DNA分析。

·将获得从常规诊断程序获得的肿瘤样本(石蜡包埋的福尔马林固定组织)和外周血细胞并将其用于上述的突变分析。

·将确证发现的突变。

·将设计基于优先化的疫苗。对于RNA疫苗，将通过基因合成和克隆产生主质粒模板(master plasmid template)。

·质粒将用于RNA疫苗的临床级RNA生产、品质控制和释放。

·将疫苗药品送至各试验中心用于临床应用。

·RNA疫苗可用作制剂缓冲液中的裸疫苗或者包封至纳米颗粒或脂质体中用于例如通过s.c.、i.v.、i.m.直接注射至淋巴结中。或者，RNA疫苗可用于体外转染例如树突细胞用于过继转移。

整个临床过程进行少于6周。患者知情同意和可获得药物之间的“停滞期”将通过临床试验方案小心地处理，包括允许标准治疗方案持续直到研究药品可获得。

实施例8：肿瘤突变的鉴定和开发它们用于肿瘤疫苗接种

我们将NGS外显子组再测序施用于B16F10鼠黑素瘤细胞系中的突变发现并且鉴定了962个非同义体细胞点突变，其中563个在表达的基因中。潜在的驱动突变在传统的肿瘤抑制基因(Pten、Trp53、Tp62、Pml)和参与控制细胞增殖(例如，Mdm1，Pdgfra)、细胞黏附和迁移(例如，Fdz7，Fat1)或凋亡(Casp9)的原癌信号转导途径的基因中发生。另外，B16F10包含Aim1和Trrap中的突变，之前描述它们在人黑素瘤中经常改变。

使用经编码突变表位之长肽免疫的C57BL／6小鼠测定50个经确证突变的免疫原性和特异性。它们当中的三分之一(16／50)显示有免疫原性。其中，与野生型序列相比，60％优先地针对突变序列引发免疫应答。

我们测试了肿瘤移植模型中的假设。用肽免疫在预防和治疗设定中赋予了体内肿瘤控制，使得包含单氨基酸替换的突变疫苗成为有效疫苗。

动物

在Mainz大学根据对于动物研究的联邦和州政策饲养C57BL／6小鼠(Jackson Laboratories)。

细胞

在2010年从美国典型培养物中心(American Type CultureCollection)购买了B16F10黑素瘤细胞系(产品：ATCC CRL-6475，批号：58078645)。细胞的早期(第3代、第4代)传代用于肿瘤实验。将细胞常规测试支原体(Mycoplasma)。收到后没有进行细胞的再认证。

新一代测序

核酸提取和样品制备：使用Qiagen DNeasy血液和组织试剂盒(DNA用)和Qiagen RNeasy Micro试剂盒(RNA用)一式三份地从大块B16F10细胞中提取DNA和RNA以及从C57BL／6尾组织中提取DNA。

DNA外显子组测序：使用Agilent Sure-Select小鼠基于溶液的捕获测定(Gnirke A等，Nat Biotechnol2009；27：182-9)(设计用于捕获所有的小鼠蛋白质编码区)一式三份地进行DNA再测序的外显子捕获。使用Covaris S2超声设备将3μg经纯化基因组DNA(gDNA)片段化成150～200bp。根据生产商说明，对片段进行末端修复以及进行5’磷酸化和3’腺苷酸化。使用适配体与gDNA的10：1摩尔比将Illumina配对末端适配体连接至gDNA片段。在捕获前富集，然后使用Illumina PE PCR引物1.0和2.0进行4个PCR循环来增加流动细胞特异性序列。在65℃下使500ng经适配体连接的PCR富集的gDNA片段与Agilent的SureSelect生物素化小鼠全外显子组RNA文库诱饵杂交24小时。使用链霉亲和素包被的磁珠移出杂交的gDNA／RNA诱饵复合物，洗涤，然后在洗脱期间在SureSelect洗脱缓冲液中切除RNA诱饵。捕获后，PCR扩增这些经洗脱的gDNA片段10个循环。用cBot、使用Truseq SR簇试剂盒v2.5、使用7pM使富集的外显子组的gDNA文库成簇，然后用Illumina HiSeq2000使用Truseq SBS试剂盒-HS50bp测序50bp。

RNA基因表达“转录组”谱分析(RNA-Seq)：从5μg总RNA中一式三份地制备标记的mRNA-seq cDNA文库(改进的Illumina mRNA-seq方案)。使用Seramag聚(dT)磁珠(Thermo Scientific)分离mRNA，然后使用二价阳离子并加热使其片段化。使用随机引物和SuperScriptII(Invitrogen)然后使用DNA聚合酶I和RNA酶H进行第二链合成将所得片段(160～220bp)转化成cDNA。根据生产商说明，对cDNA进行末端修复以及进行5’磷酸化和3’腺苷酸化。用T4DNA连接酶连接3’单T悬挂Illumina多重特异性适配体(使用适配体与cDNA插入物的10：1摩尔比)。纯化cDNA文库并以200～220bp选择大小(E-Gel2％SizeSelect凝胶，Invitrogen)。使用Phusion DNA聚合酶(Finnzymes)的PCR进行富集、增加Illumina六碱基标记和流动细胞特异性序列。用1.8×体积的AgencourtAMPure XP磁珠进行直到该步骤的所有清除。使用Invitrogen's Qubit HS测定进行所有的品质控制并且使用Agilent's2100Bioanalyzer HS DNA测定确定片段大小。如上所述将标记化的RNA-Seq文库制备成簇并测序。

NGS数据分析，基因表达：根据Illumina标准方案预处理来自RNA样品的输出序列读取，包括低质量读取的过滤。用bowtie(0.12.5版)(Langmead B等，Genome Biol2009；10：R25)使序列读取与mm9参照基因组序列(Waterston RH等，Nature2002；420：520-62)进行比对。对于基因组比对，两个错配是允许的并且仅记录最佳比对(“-v2-best”)；对于转录组比对，使用默认参数。将不可与基因组序列比对的读取与RefSeq转录本之所有可能外显子-外显子汇合点序列的数据库(Pruitt KD等，Nucleic Acids Res2007；35：D61-D65)进行比对。通过使读取坐标与RefSeq转录本的那些交叉来确定表达值，计数重叠外显子和汇合点读取，以及归一化成RPKM表达单位(每百万作图读取中每千碱基外显子模型的所作图的读取)(Mortazavi A等，Nat Methods2008；5：621-8)。

NGS数据分析，体细胞突变发现：如实施例9所述鉴定了体细胞突变。使用bwa(默认选项，0.5.8c版)(Li H和Durbin R，Bioinformatics2009；25：1754-60)将50个核苷酸(nt)的单端读取与mm9参照小鼠基因组进行比对。去除作图到基因组多个位置的模糊读取。使用三种软件程序鉴定突变：samtools(0.1.8版)(Li H，Bioinformatics2011；27：1157-8)、GATK(1.0.4418版)(McKenna A等，Genome Res2010；20：1297-303)和SomaticSniper(http：／／genome.wustl.edu／software／somaticsniper)(Ding L等，Hum Mol Genet2010；19：R188-R196)。给所有B16F10一式三份中所鉴定的潜在变异分配“错误发现率”(FDR)置信值(参见实施例9)。

突变选择、验证和功能

选择：突变必须满足以下选择标准：(i)存在于所有B16F10中并且在所有C57BL／6一式三份中缺失，(ii)FDR≤0.05，(iii)在C57BL／6中是纯和(homogeneous)的，(iv)在RefSeq转录本中发生，以及(v)引起作为真实突变而计分的非同义变化。验证和免疫原性测试的选择需要的是突变是经表达的基因(在重复中中值RPKM>10)。

验证：如果通过Sanger测序或B16F10RNA-Seq读取确认，则DNA来源的突变被分类为经过确证的。使用侧翼引物从50ng B16F10细胞和C57BL/6尾组织的DNA中扩增所有经选择的变体，使产物可视化(QIAxcel系统，Qiagen)，然后进行纯化(QIAquick PCR纯化试剂盒，Qiagen)。从凝胶中切离预期大小的扩增子，纯化(QIAquick GelExtraction Kit，Qiagen)，然后用用于PCR扩增的正向引物进行Sanger测序(Eurofins MWG Operon，Ebersberg，Germany)。

功能影响：使用程序SIFT(Kumar P等，Nat Protoc2009；4：1073-81)和POLYPHEN-2(Adzhubei IA等，Nat Methods2010；7：248-9)(基于蛋白质结构域位置和跨物种序列保守性预测氨基酸对蛋白质功能的功能显著性)以评估经选择突变的影响。使用独创的IPA工具以推测基因功能。合成肽和佐剂

所有肽均购自Jerini Peptide Technologies(Berlin，Germany)，包括卵清蛋白I类(OVA_258-265)、卵清蛋白II类(OVA II类_330-338)、流感核蛋白(Inf-NP_366-374)、水泡性口炎病毒核蛋白(VSV-NP_52-59)和酪氨酸酶相关蛋白2(Trp2_180-188)。合成肽为在14位具有突变(MUT)或野生型(WT)氨基酸的27个氨基酸长度。聚肌甘酸：聚胞甘酸(聚(I：C)，InvivoGen)用作皮下注射的佐剂。对Inf-NP_366-374肽特异的MHC五聚体购自ProImmune Ltd.。

小鼠的免疫

对年龄匹配的雌性小鼠C57BL／6小鼠用在PBS(200μl总体积)中配制的100μg肽和50μg聚(I：C)皮下注射至侧腹(lateral flank)中(每组5只小鼠)。在第0天和第7天每组经两种不同的突变编码肽免疫，每个侧腹一种肽。初次注射后十二天，处死小鼠并分离脾细胞用于免疫学试验。

或者，对年龄匹配的雌性小鼠C57BL／6小鼠用200μl总注射体积的PBS中20μl Lipofectamine^TM RNAiMAX(Invitrogen)配制的20μg体外转录RNA进行静脉内注射(每组3只小鼠)。在第0、3、7、14和18天免疫每组。初次注射后23天，处死小鼠并分离脾细胞用于免疫学试验。使用在25位(双表位)具有突变的50个氨基酸(aa)或在14位(单表位和多表位)具有突变的27个aa构建代表一个(单表位)、两个(双表位)或16个(多表位)突变的DNA序列，它们由9aa的甘氨酸／丝氨酸接头分开，然后被克隆至pST1-2BgUTR-A120骨架中(Holtkamp等，Blood2006；108：4009-17)。之前描述了该模板的体外转录和纯化(Kreiter等，Cancer Immunol Immunother2007；56：1577-87)。

酶联免疫点测定(Enzyme-linked immunospot assay)

之前描述了酶联免疫点(ELISPOT)测定(Kreiter S等，Cancer Res2010；70：9031-40)和同基因(syngeneic)骨髓来源之树突细胞(BMDC)作为刺激物的产生(Lutz MB等，J Immunol Methods1999；223：77-92)。BMDC是肽脉冲的(2μg／ml)或者经体外转录(IVT)的编码指定突变的RNA或对照RNA(eGFP-RNA)转染。将表示两个突变的序列(各包含在25位具有突变的50个氨基酸并且由9aa的甘氨酸／丝氨酸接头分开)克隆至pST1-2BgUTR-A120骨架中(Holtkamp S等，Blood2006；108：4009-17)。之前描述了该模板的体外转录和纯化(Kreiter S等，Cancer Immunol Immunother2007；56：1577-87)。对于测定，将经5×10⁴个肽或RNA改造的BMDC在包被有抗IFN-γ抗体(10μg／mL，克隆AN18；Mabtech)的微量滴定板中与5×10⁵个新鲜分离的脾细胞一起孵育。在37℃下18小时后，用抗IFN-γ抗体(克隆R4-6A2；Mabtech)检测细胞因子分泌。用

S5Versa ELISPOT分析仪、ImmunoCaptureTM Image Acquisition软件和Analysis软件第5版计数并分析点数目。通过学生t检验和Mann-Whitney检验(非参数检验)进行统计分析。当测试给出p值<0.05并且平均点数目>30个点／5×10⁵个效应细胞时，则认为应答显著。通过平均点数目评估反应性(-：<30；+：>30；++：>50；+++>200个点／孔)。

细胞内细胞因子测定

将用于ELISPOT测定所制备的脾细胞等分试样经受通过细胞内流式细胞术的细胞因子产生的分析。为此，在96孔板中将2×10⁶个脾细胞／样品置于补充有高尔基体抑制剂布雷菲德菌素A(10μg／mL)的培养基(RPMI+10％FCS)中。在37℃下用2×10⁵个肽脉冲的BMDC再刺激来自每个动物的细胞5小时。孵育后，将细胞用PBS洗涤，重悬于50μlPBS中，然后在4℃下用下述抗小鼠抗体细胞外染色20分钟：抗CD4FITC、抗CD8APC-Cy7(BD Pharmingen)。孵育后，将细胞用PBS洗涤，随后在4℃下重悬于100μL Cytofix／Cytoperm(BD Bioscience)溶液中20分钟用于透化外膜。透化后，将细胞用Perm／Wash-Buffer(BDBioscience)洗涤，以50μL／样品重悬于Perm／Wash-Buffer中，然后在4℃下用下述抗小鼠抗体细胞外染色30分钟：抗IFN-γPE、抗TNF-αPE-Cy7、抗IL2APC(BD Pharmingen)。用Perm／Wash-Buffer洗涤后，将细胞重悬于含有1％仲甲醛的PBS中用于流式细胞术分析。使用BDFACSCanto^TM II细胞计数器和FlowJo(7.6.3版)分析样品。

B16黑素瘤模型

对于肿瘤疫苗接种实验，将7.5×10⁴个B16F10黑素瘤细胞通过s.c.接种至C57BL／6小鼠的侧腹中。在预防性设定中，在肿瘤接种前4天以及其后第2天和第9天用突变特异性肽进行免疫。对于治疗实验，在肿瘤注射后第3天和第10天施用肽疫苗。每三天测量肿瘤大小并且当肿瘤直径达到10mm时处死小鼠。

或者，对于肿瘤疫苗接种实验，将1×10⁵个B16F10黑素瘤细胞通过s.c.接种至年龄匹配的雌性C57BL／6小鼠的侧腹中。在肿瘤接种后第3、10和17天进行肽疫苗接种，其中将在PBS(200μl总体积)中配制的100μg肽和50μg聚(I：C)皮下注射至侧腹中。使用200μl总注射体积中的PBS中用20μl Lipofectamine^TM RNAiMAX(Invitrogen)配制的20μg体外转录突变编码RNA进行RNA免疫。作为对照，一组动物用PBS中的RNAiMAX(Invitrogen)进行注射。在肿瘤接种后第3、6、10、17和21天对动物进行免疫。使用卡尺每三天测量肿瘤大小并且当肿瘤直径达到15mm时处死小鼠。

鉴定B16F10小鼠黑素瘤中的非同义突变

我们的目的是通过NGS鉴定B16F10小鼠黑素瘤中的潜在免疫原性体细胞点突变，以及通过肽疫苗接种小鼠由ELISPOT测定测量引发的T细胞应答来测试它们体内免疫原性(图9A)。我们对C57BL／6野生型背景基因组和B16F10细胞的外显子组进行了测序，其中各自一式三份进行提取和捕获。对于每个样品，产生了超过100百万的单端50nt读取。其中80％与小鼠mm9基因组独特比对并且49％在靶标上比对，这表明了成功的靶标富集并且在各个一式三份样品中对70％的靶标核苷酸产生超过20倍的覆盖。也一式三份地对B16F10细胞的RNA-Seq进行谱分析，产生中值30百万单端50nt读取，其中80％与小鼠转录组比对。

分析B16F10和C57BL／6的DNA读取(外显子捕获)以鉴定体细胞突变。拷贝数目变异分析(Sathirapongsasuti JF等，Bioinformatics2011；27：2648-54)表明了B16F10中的DNA扩增和缺失，包括肿瘤抑制基因Cdkn2a(细胞周期蛋白依赖性激酶抑制剂2A，p16Ink4A)的纯合性缺失。针对用于鉴定可能免疫原性突变的点突变，我们以FDR≤0.05鉴定了3570个体细胞点突变(图9B)。突变最频繁类型是C>T／G>A转换，通常是由紫外线所造成的(Pfeifer GP等，Mutat Res2005；571：19-31)。在这些体细胞突变当中，1392个在转录本中发生，其中126个突变在非翻译区中。在编码区的1266个突变当中，962个引起非同义蛋白质变化并且这些当中的563个在表达基因中发生(图9B)。

经鉴定突变至载体基因的分配和验证

值得注意地是，许多突变基因(包含非同义体细胞点突变的962个基因)之前与癌症表型相关联。在经确定的肿瘤抑制基因中发现的突变包括Pten、Trp53(也称为p53)和Tp63。在Trp53(最良好确立的肿瘤抑制基因(Zilfou JT等，Cold Spring Harb Perspect Biol2009；1：a001883))中，在蛋白质127位的天冬酰胺到天门冬氨酸突变(p.N127D)位于DNA结合结构域中并且通过SIFT预测改变功能。Pten包含两个突变(p.A39V，p.T131P)，预测它们二者均对蛋白质功能有有害影响。p.T131P突变与示出降低磷酸酶活性的突变(p.R130M)相邻(Dey N等，Cancer Res2008；68：1862-71)。另外，突变发现于与DNA修复途径有关的基因中，例如Brca2(乳腺癌2，早发)、Atm(共济失调毛细血管扩张突变)、Ddb1(损伤特异性DNA结合蛋白1)和Rad9b(RAD9同源物B)。此外，突变存在于其他肿瘤相关基因中，包括Aim1(肿瘤抑制基因“黑素瘤缺乏因子1“)、Flt1(癌基因Vegr1，fms相关酪氨酸激酶1)、Pml(肿瘤抑制基因“早幼粒细胞白血病”)、Fat1(“FAT肿瘤抑制基因同源物1”)、Mdm1(TP53结合核蛋白)、Mta3(转移相关1家族，成员3)和Alk(间变性淋巴瘤受体酪氨酸激酶)。我们发现在之前在肿瘤中鉴定的Pdgfra(血小板衍生生长因子受体，α多肽)(MAPK／ERK途径的细胞膜结合受体酪氨酸激酶)(Verhaak RG等，Cancer Cell2010；17：98-110)中的p.S144F突变。突变在Casp9(胱天蛋白酶9，凋亡相关半胱氨酸肽酶)的p.L222V发生。CASP9通过蛋白水解切割聚(ADP-核糖)聚合酶(PARP)，调节凋亡，并且与数种癌症有关(Hajra KM等，Apoptosis2004；9：691-704)。我们发现的突变可潜在地影响PARP和凋亡信号转导。最有趣地是，在Braf、c-Kit、Kras或Nras中没有发现突变。然而，在Rassf7(RAS相关蛋白)(p.S90R)、Ksr1(ras1的激酶抑制基因)(p.L301V)和Atm(PI3K途径)(p.K91T)中鉴定了突变，预测它们均对蛋白质功能具有显著影响。今年早些时候在人黑素瘤样本中鉴定了作为新潜在黑素瘤靶标的Trrap(转化／转录结构域相关蛋白)(Wei X等，Nat Genet2011；43：442-6)。在B16F10中，Trrap突变在p.K2783R发生并且预计妨碍重叠的磷脂酰肌醇激酶(PIK)相关激酶FAT结构域。

从使用NGS鉴定的962个非同义突变中，我们选择了50个突变(包括FDR<0.05的41个)用于基于PCR的验证和免疫原性测试。选择标准为定位在表达的基因(RPKM>10)和预测的免疫原性。值得注意地是，我们能够确证所有50个突变(表6，图9B)。

表6：选择用于确证的突变。左起：分配的ID、基因符号、氨基酸替换和位置、基因名称、预测的亚细胞定位以及类型(独创性)。

图9C示出了B16F10染色体、基因密度、基因表达、突变和经过滤突变(内环)的定位。

用呈现突变之长肽进行免疫原性测试的体内测试

为了提供用于这些突变之免疫原性测试的抗原，我们采用了长肽，其与用于免疫的其他肽相比具有许多优点(Melief CJ和van der Burg SH，Nat Rev Cancer2008；8：351-60)。长肽能够诱导抗原特异性CD8+以及CD4+T细胞(Zwaveling S等，Cancer Res2002；62：6187-93；Bijker MS等，J Immunol2007；179：5033-40)。另外，长肽需要加工以在MHC分子上呈递。这种摄取最有效地通过树突细胞进行，其在用于引发强T细胞应答方面是最佳的。与此相反，匹配肽(fitting peptide)不需要修剪并且外源地装载在所有表达MHC分子的细胞(包括非活化B细胞和T细胞)上，从而导致诱导耐受性和互相残杀(fratricide)(Toes RE等，J Immunol1996；156：3911-8；Su MW等，J Immunol1993；151：658-67)。对于50个经验证突变中的每一个，我们设计具有位于中央之突变或野生型氨基酸的27个氨基酸长度的肽。因此，可由该前体肽加工任何携带突变之8至14个氨基酸长度的潜在MHC I类和II类表位。作为用于肽疫苗接种的佐剂，我们使用聚(I：C)，已知其促进交叉呈递并且提高疫苗功效(Datta SK等，JImmunol2003；170：4102-10；Schulz O等，Nature2005；433：887-92)。在小鼠中体内测试50个突变的T细胞诱导。令人印象深刻的是，发现50个突变编码肽中的16个在经免疫的小鼠中引发免疫应答。经诱导的T细胞展现出不同的反应性模式(表7)。

表7：用突变编码肽疫苗接种的结果所确定的T细胞反应性的总结。通过学生t检验和Mann-Whitney检验(非参数检验)进行统计分析。当测试给出p值<0.05并且平均点数目>30个点／5×10⁵个效应细胞时，则认为应答显著。通过平均点数目评估反应性-：<30；+：>30；++：>50；+++>200个点／孔。

11个肽诱导了优先识别突变表位的免疫应答。对于经突变30(MUT30，Kif18b)和36(MUT36，Plod2)免疫的小鼠对此进行示例(图10A)。ELISPOT测试揭示了强突变特异性免疫应答而没有针对野生型肽或不相关对照肽(VSV-NP)的交叉反应性。对于五个肽(包括突变05(MUT05，Eef2)和25(MUT25，Plod2)(图10A))，获得了对突变肽和野生型肽相当的识别的免疫应答。大部分突变肽不能诱导如突变01(MUT01，Fzd7)、02(MUT02，Xpot)和07(MUT07，Trp53)示例的显著T细胞应答。由数种所发现突变诱导的免疫应答很好地在以下免疫原性范围内(500个点／5×10⁵个细胞)：用已描述的来自鼠黑素瘤肿瘤抗原酪氨酸酶相关蛋白2(Trp2180-188，图10A)的MHC I类表位作为阳性对照免疫小鼠所产生的免疫原性范围(Bloom MB等，Exp Med1997；185：453-9；Schreurs MW等Cancer Res2000；60：6995-7001)。对于诱导强突变特异性T细胞应答的经选择肽，我们通过独立方法确证了免疫识别。替换长肽，将编码突变肽片段MUT17、MUT30和MUT44的体外转录RNA(IVT RNA)用于免疫学读出。用编码突变之RNA或无关RNA转染的BMDC充当ELISPOT测定中的抗原呈递细胞(APC)，而经免疫小鼠的脾细胞充当效应细胞群体。用编码MUT17、MUT30和MUT44之mRNA转染的BMDC特异性地并且有力地被经各长肽免疫之小鼠的脾细胞识别(图10B)。记录到了针对转染对照RNA之BMDC的显著更低的反应性，这可能由于通过单链RNA非特异性活化BMDC(学生t检验；MUT17：p=0.0024，MUT30：p=0.0122，MUT44：p=0.0075)。这些数据确证了经诱导的突变特异性T细胞实际上识别内源性加工肽。引起优先识别突变表位的两个突变在基因Actn4和Kif18b中。ACTN4(辅肌动蛋白，α4)中的体细胞突变位于钙结合“EF-手”蛋白结构域中的p.F835V。虽然SIFT和POLYPHEN二者预测该突变对蛋白功能具有显著影响，但是该基因不是确定的癌基因。然而，针对ACTN4的突变特异性T细胞最近被与阳性患者结果相关联(Echchakir H等，Cancer Res2001；61：4078-83)。KIF18B(驱动蛋白家族成员18B)是具有微管驱动活性和ATP以及核苷酸结合的驱动蛋白，参与调节细胞分裂(Lee YM等，Gene2010；466：16-25)(图10C)。在编码p.K739的位置的DNA序列在参照C57BL／6中是纯和的，而B16F10DNA读取揭示了杂合的体细胞突变。两种核苷酸均在B16F10RNA-Seq读取中被检测并且通过Sanger测序验证。KIF18B之前未与癌症表型相关联。突变p.K739N没有定位于已知功能性或保守性蛋白质结构域中(图10C，下)，从而最可能是过客突变(passenger)而非驱动突变。这些实例表明诱导识别突变之免疫应答的能力与功能性或免疫学相关性之间的缺乏关联。

体内评估疫苗候选物的抗肿瘤活性

为了评估免疫应答是否在患有肿瘤的小鼠中引发抗肿瘤作用的体内翻译，我们选择了MUT30(Kif18b中的突变)和MUT44作为实例。这些突变已经显示出优先地针对突变肽诱导强免疫反应并且被内源性加工(图10A、B)。通过在移植7.5×10⁵个B16F10后3天和10天用MUT30或MUT44和佐剂免疫小鼠来研究用突变肽疫苗接种的治疗潜力。与对照组相比，肿瘤生长被两种肽疫苗接种所抑制(图11A)。由于B16F10是非常具有攻击性的生长肿瘤，我们还测试了保护性免疫应答。小鼠经MUT30肽免疫，4天后通过s.c.接种7.5×10⁵个B16F10细胞，肿瘤攻击后2天和9天用MUT30加强。观察到经MUT30处理之小鼠的完全肿瘤保护和40％存活，而对照处理组中的所有小鼠在44天内死亡(图11B左)。在尽管用MUT30免疫也发生肿瘤的那些小鼠中，肿瘤生长较慢，从而与对照组相比导致中值存活延长6天(图11b右)。这些数据暗示，针对单突变的疫苗接种能够赋予抗肿瘤作用。

用突变编码RNA进行免疫

来自B16F10黑素瘤细胞系的50个经验证突变用于构建不同的RNA疫苗。使用在25位具有突变的50个氨基酸(aa)(双表位)或14位具有突变的27aa(单表位或多表位)构建呈现一个(单表位)、两个(双表位)或16个不同突变(多表位)的DNA序列，它们由9aa的甘氨酸／丝氨酸接头分开。将这些构建体克隆至pST1-2BgUTR-A120骨架中用于体外转录mRNA(Holtkamp等，Blood2006；108：4009-17)。

为了测试针对不同的RNA疫苗诱导体内T细胞应答的能力，通过用RNAiMAX lipofectamine制备的RNA和随后静脉内注射来免疫三只C57BL／6小鼠的组。5次免疫后处死小鼠，然后在用相应突变编码肽或对照肽(VSV-NP)再刺激后使用细胞内细胞因子染色和IFN-γELISPOT分析对于突变特异性T细胞应答分析脾细胞。

图12示出了每种疫苗设计的一个实例。在上行中，小鼠经编码MUT30(Kif18b中的突变)的单表位RNA疫苗接种，诱导MUT30特异性CD4⁺T细胞(参见示例性FACS图)。在中行中，图表和FACS图示出了经编码MUT33和MUT08的双表位免疫后MUT08特异性(Ddx23中的突变)CD4⁺T细胞的诱导。在下行中，小鼠经编码16个不同突变(包含MUT08、MUT33和MUT27)的多表位免疫(参见表8)。图表和FACS图说明MUT27反应性T细胞具有CD8表型。

表8.由单表位、双表位和多表位RNA疫苗所编码突变和基因名称的概述。

同一多表位用于产生图13所示的数据。图表显示出用对照(VSV-NP)、MUT08、MUT27和MUT33肽再刺激脾细胞后的ELISPOT数据，证明多表位疫苗可针对数种不同的突变诱导特异性T细胞应答。

总之，数据显示可使用RNA编码单表位、双表位和多表位诱导突变特异性T细胞。数据还显示CD4⁺和CD8⁺T细胞的诱导和来自一个构建体的数种不同特异性的诱导。

用模型表位免疫

为了进一步表征多表位RNA疫苗设计，构建了DNA序列，其包含含有一个MHC II类表位的五个不同已知模型表位(卵清蛋白I类(SIINFEKL)、卵清蛋白II类(OVA II类)、流感核蛋白(Inf-NP)、水泡性口炎病毒核蛋白(VSV-NP)和酪氨酸酶相关蛋白2(Trp2))。采用用于突变多表位的相同9aa甘氨酸／丝氨酸接头来分开表位。将该构建体克隆至pST1-2BgUTR-A120骨架中用于体外转录mRNA。

通过节内免疫将经体外转录的RNA用于疫苗接种五只C57BL／6小鼠(用20μg RNA四次免疫至腹股沟淋巴结中)。最后一次免疫后五天，从小鼠中取得血液样品和脾细胞用于分析。图14A示出了经指定肽再刺激之脾细胞的IFN-γELISPOT分析。可清楚地看出，所有三种MHC I类表位(SIINFEKL、Trp2和VSV-NP)诱导了非常高数目的抗原特异性CD8⁺T细胞。MHC II类表位OVA II类也诱导了强烈的CD4⁺T细胞应答。通过用荧光标记的五聚MHC肽复合物(五聚体)对Inf-NP特异性CD8⁺T细胞进行染色来分析第四MHC I类表位(图14B)。

这些数据证明，使用甘氨酸／丝氨酸接头分开不同免疫原性MHC I类和II类表位的多表位设计能够针对每个编码表位诱导特异性T细胞，而不管其免疫显性。

用突变编码的多表位RNA疫苗治疗后的抗肿瘤应答

使用图13中对于免疫原性分析的同一多表位研究编码突变之RNA针对B16F10肿瘤细胞的抗肿瘤活性。详细地，将1×10⁵个B16F10黑素瘤细胞施用至侧腹中来皮下接种C57BL／6小鼠的组(n=10)。在第3、6、10、17和21天，小鼠经使用脂质体转染试剂的多表位RNA免疫。对照组仅注射脂质体。

图21示出了组的存活曲线，揭示了27天的强改进的中值存活，其中与对照组中18.5天中值存活相比，10只中有1只小鼠存活且没有肿瘤。用突变肽和正常肽的组合治疗后的抗肿瘤应答

通过使用MUT30作为肽疫苗的体内治疗性肿瘤实验来评估经验证突变的抗肿瘤活性。详细地，将1×10⁵个B16F10黑素瘤细胞施用至侧腹中来皮下接种C57BL／6小鼠的组(n=8)。在第3、10和17天，使用聚I：C作为佐剂用MUT30、酪氨酸酶相关蛋白2(Trp2_180-188)或两种肽的组合免疫小鼠。Trp2是由B16F10黑素瘤细胞表达的已知CD8⁺表位。

图15A示出了组的平均肿瘤生长。可清楚地看出，直到第28天，在经已知CD8⁺T细胞表位和诱导CD4⁺T细胞之MUT30的组合免疫的组中，肿瘤生长几乎完全受到了抑制。已知Trp2表位单独不足以在该设定中提供良好的抗肿瘤作用，但是从实验开始直到第25天，与未治疗组相比，但两个单治疗组(MUT30和Trp2)仍提供了肿瘤生长抑制。这些数据由图15B中所示存活曲线得到加强体现。清楚地，通过用单肽注射的小鼠中值存活提高，其中在用Trp2疫苗接种的组中有1／8小鼠存活。此外，用两种肽治疗的组显示出甚至更好的中值存活，其中2／8小鼠存活。

综上，两种表位以协同方式作用以提供强抗肿瘤作用。

实施例9：基于置信的体细胞突变检测框架和至B16-F10黑素瘤细胞的施用

NGS是无偏向性的，因为它能够高通量发现整个基因组或靶向区域(例如，编码蛋白质的外显子)内的变异。

然而，尽管是革命性的，但是NGS平台仍倾向于导致错误变异调入(call)的误差。另外，结果的品质取决于实验设计参数和分析方法。虽然变异调入通常包括旨在从错误中区分真实变异的评分，但是这些评分的使用尚未完全被理解，其对于实验的优化的解释也尚未完全被理解。当比较组织状态(例如比较肿瘤和正常的体细胞突变)时这尤其如此。因此，研究人员只得依赖于个人经验以确定用于选择突变的实验参数和任意(arbitrary)过滤阈值。

我们的实验目的在于a)建立用于比较参数和用于鉴定体细胞突变的方法的框架，以及b)将置信值分配至经鉴定突变。我们对C57BL／6小鼠和B16-F10黑素瘤细胞系的一式三份样品进行测序。使用这些数据，我们用公式表示了经检测体细胞突变的错误发现率，之后我们用这一指标评估现有的突变发现软件和实验室方案。

多种实验的和算法的因素影响通过NGS发现的变异的假阳性率[Nothnagel，M.等，Hum.Genet.2011Feb23[Epub ahead of print]]。误差来源包括PCR假象、引发的偏向性[Hansen，K.D.，等，Nucleic.Acids.Res.38，e131(2010)；Taub，M.A.等，Genome Med.2，87(2010)]和靶向的富集[Bainbridge，M.N.等，Genome Biol.11，R62(2010)]、序列影响[Nakamura，K.等，Acids Res.(2011)首次网络公开May16，2011doi：10.1093／nar／gkr344]、导致测序误差的碱基调入[Kircher,M.等，Genome Biol.10，R83(2009).Epub2009Aug14]和读取比对[Lassmann，T.等，Bioinformatics27，130-131(2011)]，导致覆盖的变异，以及影响进一步下游分析的测序误差(例如，缺失／插入周围的变体调入[Li，H.，Bioinformatics27，1157-1158(2011])。

尚未描述通用统计模型以描述不同误差来源对体细胞突变调入的影响；仅覆盖了个别方面而没有去除所有偏向性。测量假阳性突变调入之预期量的现有计算方法包括利用一系列变异的转换／颠换率[Zhang，Z.，Gerstein，M.，Nucleic Acids Res31，5338-5348(2003)；DePristo，M.A.等，Nature Genetics43，491-498(2011)]、机器学习[DePristo，M.A.等，NatureGenetics43，491-498(2011]和当用家族基因组工[Ewen，K.R.等，Am.J.Hum.Genet.67，727-736(2000)]或合并样品[Druley，T.E.等，NatureMethods6，263-265(2009)；Bansal，V.，Bioinformatics26，318-324(2010)]作时的遗传误差。对于优化目的而言，Druley等[Druley，T.E.等，NatureMethods6，263-265(2009)]依赖于短质粒序列片段，然而其可能不代表样品。对于一组单核苷酸变异(SNV)和选择的实验，与通过其他技术所鉴定SNV的比较是可行的[Van Tassell，C.P.等，Nature Methods5，247-252(2008)]，但是难以评价新体细胞突变。

使用外显子组测序项目作为实例，我们提议仅基于NGS数据计算错误发现率(FDR)。该方法不仅适用于诊断靶标和治疗靶标的选择和优先化，而且通过允许我们定义类似实验之置信驱动推荐来支持算法和方法开发。

为了发现突变，各一式三份地富集三只C57BL／6(black6)小鼠(同窝仔畜)尾组织的DNA和B16-F10(B16)黑素瘤细胞的DNA获得编码蛋白质的外显子(Agilent Sure Select Whole Mouse Exome)，从而产生6个样品。从B16细胞中一式三份地提取RNA。用Illumina HiSeq2000产生单端50nt(1×50nt)读取和配对端100nt(2×100nt)读取。将每个样品上样到各个通道中，每个通道产生平均104百万读取。使用bwa[Li，H.Durbin，R.，Bioinformatics25，1754-1760(2009)]将DNA读取与小鼠参照基因组比对以及用bowtie[Langmead，B.等，Genome Biol.10，R25(2009)]比对RNA读取。对于1×50nt文库，实现97％靶向区域的38倍平均覆盖，而2×100nt实验对于98％靶向区域产生了165倍平均覆盖。

通过使用软件包SAMtools[Li，H.等，Bioinformatics25，2078-2079(2009)]、GATK[DePristo，M.A.等，Nature Genetics43，491-498(2011]和SomaticSNiPer[Ding，L.等，Hum.Mol.Genet(2010)first published onlineSeptember15，2010](图16)将B16样品中所发现的单核苷酸变异与black6样品中的相应基因座(B16细胞最初来源于black6小鼠)进行比较来独立地鉴定体细胞变异。根据各软件作者的推荐(SAMtools和GATK)或者通过选择SomaticSNiPer体细胞评分的适当较低阈值来分别过滤潜在的突变。

为了产生突变发现的错误发现率(FDR)，我们首次交叉突变位点并获得了在所有三个程序当中共有的1,355个高品质体细胞突变(图17)。然而，在所施用软件工具的结果中观察到的差异是大量的。为了避免错误结论，我们开发了一种使用重复将FDP分配至每个突变的方法。样品的技术重复应产生相同的结果，并且在该“相同-相同比较(same vs.samecomparison)”中的任何检测突变是假阳性的。因此，为了在肿瘤样品相对于正常样品(“肿瘤比较”)中确定用于体细胞突变检测的错误发现率，我们可使用正常样品的技术重复作为参考以评估假阳性的数目。

图18A显示出在black6／B16数据中所发现变异的实例，包括体细胞突变(左)、针对参照的非体细胞变异(中)和可能的假阳性(右)。每个体细胞突变可与品质评分Q相关联。假阳性在肿瘤比较中的数目指示假阳性在相同-相同比较中的数目。因此，对于具有在肿瘤比较中检测的品质评分Q的给定突变，我们通过计算以下来评估错误发现率：具有评分Q或更好的相同-相同突变与在具有评分为Q或更好的肿瘤比较中所发现突变之总数的比率。

在定义Q中遇到了挑战，因为大部分突变检测框架计算多个品质评分。本文中，我们使用随机森林分类器(random forest classifier)[Breiman，L.，Statist.Sci.16，199-231(200D]以将多个评分组合至单个品质评分Q中。品质评分和FDR计算的详细内容参照方法部分。

在比较方法中的潜在的偏向性是不同的覆盖；因此我们用覆盖归一化错误发现率：

我们通过分别计数由肿瘤样品和正常样品二者或者由两个“相同-相同”样品覆盖的参照基因组的所有碱基来计算共同覆盖。

通过评估每个FDR上假阳性和阳性的数目(参见方法)，我们产生了接受者操作特征(ROC)曲线并且对于每个突变发现方法计算AUC(曲线下面积)，从而产生用于突变发现的比较策略(图18B)。

另外，参照数据的选择可影响FDR的计算。使用可用的black6／B16数据，可产生18个三重(triplet)(black6相比于black6与black6相比于b16的组合)。当比较对于体细胞突变之集合的所得FDR分布时，结果一致(图18B)。

使用该错误发现率的定义，我们建立了通用框架以用于评估许多实验和算法参数对所得体细胞突变集合的影响。接下来，我们使用该框架以研究软件工具、覆盖、配对端测序和技术重复次数对体细胞突变鉴定的影响。

首先，软件工具的选择对经鉴定的体细胞突变具有明显的影响(图19A)。在经测试的数据中，SAMtools在由FDR分级的体细胞突变集合中产生最高的真阳性富集。然而，我们注意到，所有工具均对个体突变提供了许多参数和品质评分。本文中，我们已经使用了如算法开发者说明的默认设定；我们预计参数可被优化并且强调本文中所定义FDR框架被设计用于运行和评价这样的优化。

对于描述的B16测序实验，我们在各流动细胞通道中对每个样品进行了测序，并且对个体样品实现了38倍的目标区域平均碱基覆盖。然而，获得同样良好的体细胞突变集合可以不需要该覆盖，这可降低成本。最近还研究了覆盖深度对全基因组SNV检测的影响[Aiay，S.S.等，Genome Res.21，1498-1505(2011)]。为了研究覆盖对外显子捕获数据的影响，我们将每个1×50nt文库的比对数据读取的数目降低采样，以分别产生5、10和20的近似覆盖，之后再使用突变调入算法。如所预计地，更高覆盖导致更好(即，更低假阳性)的体细胞突变集合，但是从20倍覆盖到最大的改进很小(图19B)。

使用可用的数据和框架对不同的实验设置模拟并分级是直接的。将一式两份与一式三份相比较，与一式两份相比，一式三份没有提供益处(图19C)，而一式两份与没有任何重复的研究相比提供了明显的改进。对于体细胞突变在给定集合中比率的方面，我们看到从没有重复运行的24.2％到一式两份的71.2％和一式三份的85.8％的5％FDR的富集。尽管富集，但是使用一式三份的交叉去除与具有高FDR之突变相比更多的具有低FDR之突变，如较低ROC AUC和曲线向左的移动所示(图19C)：以较低灵敏性为代价特异性稍微增加。

额外测序的2×100nt文库用于通过计算机去除第二读取和/或3’和5’端读取来分别模拟1×100、两个2×50和两个1×50nt文库，从而产生总共5个模拟文库。使用预测突变的计算FDR来比较这些文库(图19D)。尽管有高得多的平均覆盖(超过77相比于38)，使用2×50nt5’和1×100nt文库所发现的体细胞突变具有较低ROC AUC并且因此比1×50nt文库具有更差FDR分布。该现象由高FDR突变在低覆盖区域中的积累所导致，因为所发现的低FDR突变的集合高度类似。结果是，最佳测序长度很小使得测序碱基集中在捕获探针序列周围(但可能失去关于非覆盖区域中突变的体细胞状态的信息)；或者应接近片段长度(在我们的情况中对于～250nt片段而言2×100nt=200nt总长度)，有效地填充覆盖间隙。这由以下来支持：尽管3’读取端的较低碱基品质，但是2×50nt3’文库(通过仅使用2×100nt文库的3’端来模拟)的ROC AUC比2×50nt5’文库(通过仅使用2×100nt文库的5’端来模拟)之一的ROC AUC更高。

这些观察使得我们能够定义用于发现体细胞突变的最佳实践方法。在所有经评估的参数中，两个样品中的20倍覆盖和使用一式两份技术重复在这些相对同源的样品中实现接近于最佳的结果，同时还考虑了成本。产生约100百万读取的1×50nt文库似乎是实现该覆盖的最具操作性的选择。在所有可能的数据集配对中也是如此。我们回顾性使用这些参数设定，对原始变体调入没有使用额外的过滤，并从图17所示所有三种方法的交叉中计算50个经选择突变的FDR。通过Sanger再测序与B16RNA-Seq测序读取的组合确证了所有突变。使用5％的FDR截断值(cutoff)发现了这些突变中的44个(图20)。作为阴性对照，我们对具有高FDR(>50％)的44个预测突变的基因座进行再测序并且检查了RNA-Seq数据中的相应序列。我们发现这些突变中的37个没有被验证，而潜在突变的其余七个基因座没有被RNA-Seq读取覆盖并且没有在无测序反应中产生。

虽然我们显示出框架对四个具体问题的应用，但绝不意味着限于这些参数，其可施用于研究所有实验的或算法的参数的影响，例如比对软件的影响、突变度量的选择或者对外显子组选择的供应商(vendor)选择。

我们在B16黑素瘤细胞实验的设定中进行了所有的实验；然而，所述方法并不限于这些数据。唯一的要求是“相同-相同”参照数据集的可获得性，即对于每个新方案应进行非肿瘤样品的至少一个技术重复。而我们的实验表明，所述方法对于某些限度内技术重复的选择是稳定的，使得重复在每个单一实验中未必需要。然而，该方法确实需要的是，参照数据集与其余数据集之间多种品质衡量是可比较的。

在该贡献中，我们率先提出了用于错误发现率驱动之体细胞突变检测的统计框架。该框架不仅可适用于诊断或治疗靶标的选择，而且允许在产生准真实数据(quasi ground truth data)方面对实验和计算方案步骤进行通用比较。本文中，我们使用该想法对软件工具、覆盖、重复以及配对端测序做出方案决定。

方法

文库捕获和测序

新一代测序，DNA测序：使用Agilent Sure-Selec t基于溶液的捕获测定[Gnirke，A.，等，Nat.Biotechnol.27，182-189(2009)]来进行DNA再测序的外显子组捕获，在这种情况中旨在捕获所有的已知小鼠外显子。

使用Covaris S2超声设备将3μg经纯化的基因组DNA片段化成150～200nt。使用T4DNA聚合酶、Klenow DNA聚合酶对gDNA片段进行末端修复并且使用T4多核苷酸激酶对其进行5’磷酸化。使用Klenow片段(缺乏3’至5’外切活性)对平端gDNA片段进行3’腺苷酸化。使用T4DNA连接酶将3’单T悬挂Illumina经配对末端适配体连接至gDNA片段(使用适配体与基因组DNA插入物的10：1摩尔比)。在捕获前富集经适配体连接的gDNA片段，然后使用Illumina PE PCR引物1.0和2.0以及Herculase II聚合酶(Agilent)使用4个PCR循环来增加流动细胞特异性序列。

在65℃下使500ng适配体连接的PCR富集gDNA片段与经AgilentSureSelect生物素化的小鼠全外显子组RNA文库诱饵杂交24小时。使用链霉亲和素包被的磁珠移出杂交的gDNA／RNA诱饵复合物。洗涤gDNA／RNA诱饵复合物，然后在洗脱期间在SureSelect洗脱缓冲液中切除RNA诱饵，从而留下经捕获的、经适配体连接的、PCR富集的gDNA片段。捕获后使用Herculase II DNA聚合酶(Agilent)和SureSelect GAPCR引物进行10个循环来PCR扩增gDNA片段。

使用1.8×体积的AMPure XP磁珠(Agencourt)进行清除。对于品质控制，我们使用Invitrogen的Qubit HS测定，并且使用Agilent的2100Bioanalyzer HS DNA测定确定片段大小。

用cBot、使用Truseq SR簇试剂盒v2.5、使用7pM使富集外显子组的gDNA文库成簇，然后用Illumina HiSeq2000、使用Truseq SBS试剂盒进行测序。

外显子组数据分析

使用bwa(0.5.8c版)[Li，H.Durbin，R.，Bioinformatics25，1754-1760(2009)]使用默认选项将序列读取与参照小鼠基因组组装mm9[MouseGenome Sequencing Consortium，Nature420，520-562(2002)]进行比对。去除模糊读取-作图到bwa输出所提供基因组之多个位置的那些读取。分选剩余比对、索引并转换成二进制和压缩格式(BAM)，然后使用shell脚本将读取品质评分从Illumina标准phred+64转换成标准Sanger品质评分。

对于每个测序通道，使用三种软件程序鉴定突变：SAMtools pileup(0.1.8版)[Li，H.等，Bioinformatics25，2078-2079(2009)]、GATK(1.0.4418版)[DePristo，M.A.等，Nature Genetics43，491-498(2011]和SomaticSniper[Ding，L.等，Hum.Mol.Genet(2010)first published onlineSeptember15，2010]。对于samtools，使用作者推荐的选项和过滤器标准(http:／／sourceforge.net／apps／mediawiki／SAMtools／index.php?title=SAM FAQ；获得于2011年9月)，包括第一轮过滤，最大覆盖200。对于SAMtools第二轮过滤，最小插入-缺失品质评分为50，点突变最小品质为30。对于GATK突变调入，我们根据在GATK用户手册上提供的经作者设计的最佳实践指南(http:／／www.broadinstitute.org/gsa／wiki／index.php／ The Genome Analysis Toolkit；获得于2010年10月)。对于每个样品，进行插入-缺失位点周围的局部比对，然后进行碱基品质再校准。对所得比对数据文件使用UnifiedGenotyper模块。当需要时，对于各个步骤提供dbSNP的已知多态性[Sherry，S.T.等，Nucleic Acids Res.29，308-311(2009)](mm9的128版)。变体评分再校准步骤被缺省并且被硬过滤选项替换。对于SomaticSniper突变调入，使用默认选项，并且仅进一步考虑具有“体细胞评分”为30或更多的预测突变。另外，对于每个潜在的突变基因座，我们需要正常组织中的非零覆盖并且去除位于重复序列中的所有突变(由UCSC Genome Browser的RepeatMasker轨迹对于小鼠基因组组装mm9所定义的)[Fujita，P.A.等，Nucleic Acids Res.39，876-882(2011)]。

RNA-Seq

使用Illumina mRNA-seq方案的改进版本从5μg总RNA中制备经标记mRNA-seq cDNA文库。使用Seramag寡聚(dT)磁珠(ThermoScientific)分离mRNA。使用二价阳离子并加热使经分离的mRNA片段化，产生160～220bp的片段。使用随机引物和SuperScriptII(Invitrogen)然后使用DNA聚合酶I和RNA酶H进行第二链合成将经片段化mRNA转化成cDNA。使用T4DNA聚合酶、Klenow DNA聚合酶对cDNA片段进行末端修复并且使用T4多核苷酸激酶对其进行5’磷酸化。使用Klenow片段(缺乏3’至5’外切活性)对平端cDNA片段进行3’腺苷酸化。使用T4DNA连接酶在eDNA片段上连接3’单T悬挂Illumina多重特异性适配体。使用E-Gel2％SizeSelect凝胶(Invitrogen)纯化cDNA文库并且选择300bp的大小。富集，通过使用Phusion DNA聚合酶(Finnzymes)的PCR增加Illumina六碱基标签和流动细胞特异性序列。使用1.8×体积的AgencourtAMPure XP磁珠进行所有清除。

用cBot、使用Truseq SR簇试剂盒v2.5、使用7pM将经标记RNA-seq文库成簇，然后用Illumina HiSeq2000、使用Truseq SBS试剂盒进行测序。

根据Illumina标准方案处理HiSeq的原始输出数据，包括去除低品质读取和去多重化。之后使用bowtie[Langmead，B.等，Genome Biol.10，R25(2009)]将序列读取与参照基因组序列[Mouse Genome SequencingConsortium，Nature420，520-562(2002)]进行比对。将比对坐标与RefSeq转录本的外显子坐标[Pruitt，K.D.等，Nucleic Acids Res.33，501-504(2005)]相比较，并且对于每个转录本记录重叠比对的计数。将没有与基因组序列比对的序列读取与RefSeq转录本的所有可能外显子-外显子汇合点序列的数据库[Pruitt，K.D.等，Nucleic Acids Res.33，501-504(2005)]进行比对。对于每个转录本，将比对坐标与RefSeq外显子和汇合点坐标相比较，计数读取，并且归一化成RPKM(每百万作图读取的转录本中每千碱基核苷酸的所作图之读取的数目[Mortazavi，A.等，Nat.Methods5，621-628(2008)])。

SNV的验征

我们选择SNV用于通过Sanger再测序和RNA进行验证。鉴定了由所有三种程序预测的、非同义的，并且见于具有最小10RPKM之转录本中的SNV。其中，我们选择了具有由程序所提供最高SNP品质评分的50个。作为阴性对照，选择了44个SNV，其具有50％或更高的FDR，仅存在于一个细胞系样品中，并且仅由一个突变调入程序预测。使用DNA，经选择的变体通过使用50ng DNA区域的PCR扩增然后Sanger测序(Eurofins MWG Operon，Ebersberg，Germany)来验证。分别对于阳性和阴性对照的50个和32个基因座而言反应是成功的。还通过检查肿瘤RNA-Seq读取来进行验证。

FDR的计算和机器学习

随机森林品质评分计算：通用突变调入算法(DePristo，M.A.等，Nature Genetics43，491-498(2011)，Li，H.等，Bioinformatics25，2078-2079(2009)，Ding，L.等，Hum.Mol.Genet(2010)首次在线发表于2010年9月15日)输出多个评分，其均潜在影响突变调入的品质。这些包括-但不限于-如由仪器分配的目的碱基的品质、该位置的品质比对、覆盖该位置之读取的数目，或者在该位置所比较的两个基因组之间差异的评分。对于错误发现率的计算，我们需要对突变排序，然而对于所有突变而言这不是直接可行的，因为我们可从多种品质评分中得到矛盾的信息。

我们使用以下策略以实现完整排序。在第一步骤中，我们通过以下采用了非常严格的优越性(superiority)，即假定当并且仅当一个突变在所有类别中均优越时其品质才高于另一突变。所以如果对于所有i＝1、...、n s_i>t_i，一组品质特性S=(s₁、...、s_n)优于T=(t₁、...、t_n)，表示为S>T。我们如下定义中间FDR(IFDR)

然而，我们将IFDR仅作为中间步骤，因为在许多密切相关的情况中，没有比较可用，从而我们没有从巨大量的可用数据中获得益处。因此，我们利用随机森林回归的良好概括化特性[Breiman，L.，Statist.Sci.16，199-231(2001)]并如R中实施的训练随机森林(R Development Core Team.R：A language and environment for statistical computing.R Foundationfor Statistical Computing，Vienna，Austria，2010，Liaw,A.，Wiener,M.，RNews2，18-22(2002))。

对于各自具有n个品质特性的m个输入突变，确定各个特性的值范围，并且在该范围中使用统一间距取样最多p个值；当品质特性的值集合小于p时，使用该集合而非取样的集合。之后创建经取样或经选择品质值的每个可能组合，其在n维品质空间中产生最多pⁿ个数据点。这些点中1％的随机样品和相应IFDR值分别用作随机森林训练的预测子和响应。

所得回归评分是我们概括化的品质评分Q；其可被认为是个体品质评分的局部加权组合。其使得能够直接、单值比较任意两个突变并且计算实际错误发现率：

对于训练用于产生该研究之结果的随机森林模型，我们在选择随机1％子集之前对所有样品的体细胞突变计算样品IFDR。这确保整个可用品质空间对FDR值的作图。我们分别使用品质特性“SNP品质”、“覆盖深度”、“共有品质”和“RMS作图品质”(SAMtools，p=20)；“SNP品质”、“覆盖深度”、“变体置信／未过滤深度”和“RMS作图品质”(GATK，p=20)；或者“SNP品质”、“覆盖深度”、“共有品质”、“RMS作图品质”和“体细胞评分”(SomaticSNiPer,p=12)。p的不同值确保相当量级的集合大小。

共同覆盖计算：可能的突变调入的数目可在错误发现率的定义中引入大的偏向性。只有我们对于我们的突变比较以及我们的相同-相同比较具有相同数目的突变可能位置时，所调入突变的数目才是可比较的并且可充当错误发现率计算的基础。为了矫正该潜在偏向性，我们使用共同覆盖率。作为共同覆盖，我们定义了覆盖用于突变调入之两个样品中至少一个的碱基数目。我们单独计算肿瘤比较以及相同-相同比较的共同覆盖。

ROC评估

接受者操作特征(ROC)曲线和相应的曲线下面积(AUC)用于组织分类器并可视化其性能[Fawcett，T.，Pattern Recogn.Lett.27，861-874(2006)]。我们延伸该概念用于评估实验和计算方法的性能。然而，绘制ROC图需要知晓数据集中所有真阳性和假阳性(TP和FP)实例，该信息通常没有给出并且对于高通量数据(例如，NGS数据)而言难以建立。因此，我们使用经计算的FDR以评估相应TP和FP率以及绘制ROC图表并计算AUC。中心思想是单突变在数据集中的FDR给出了这样的比例，有多少该突变分别贡献TP/FP突变的总和。另外，对于对TP和FP随机分配的列表，用我们的方法所得ROC AUC将等于0.5，表明完全随机预测。我们以两个条件开始：

FDR = \frac{FPR}{FPR + TPR} - - - [1]

和

FPR+TPR＝1 [2]

其中，FPR和TPR分别是所需的假阳性真阳性比率，对于给定的突变，定义ROC空间中的相应点。[1]和[2]可重排成

TPR=1-FPR [3]

和

FPR=FDR [4]

为了获得估计的ROC曲线，数据集中的突变通过FDR分选，并且对于每个突变，在分别除以所有TPR和TPR值总和的直到该突变的累积TPR和FPR值处绘制点。通过计算曲线和x轴之间所有连续四边形之面积的总数来计算AUC。

Claims

1.用于提供个体化癌症疫苗的方法，其包括以下步骤：

(a)鉴定癌症患者肿瘤样本中的癌症特异性体细胞突变，以提供所述患者的癌症突变标记；以及

(b)提供以步骤(a)获得的所述癌症突变标记为特征的疫苗。

2.根据权利要求1所述的方法，其中所述鉴定癌症特异性体细胞突变的步骤包括鉴定一个或更多个癌症细胞的外显子组的癌症突变标记。

3.根据权利要求1或2所述的方法，其中所述鉴定癌症特异性体细胞突变的步骤包括一个或更多个癌症细胞的单细胞测序。

4.根据权利要求3所述的方法，其中所述癌症细胞为循环肿瘤细胞。

5.根据权利要求1至4中任一项所述的方法，其中所述鉴定癌症特异性体细胞突变的步骤涉及使用新一代测序(NGS)。

6.根据权利要求1至5中任一项所述的方法，其中所述鉴定癌症特异性体细胞突变的步骤包括对所述肿瘤样本的基因组DNA和／或RNA进行测序。

7.根据权利要求6所述的方法，其中所述鉴定癌症特异性体细胞突变的步骤至少以一式两份的方式重复。

8.根据权利要求1至7中任一项所述的方法，其包括确定鉴定出的突变在用于癌症疫苗接种之表位中的可用性的另外步骤。

9.根据权利要求1至8中任一项所述的方法，其中以所述患者的突变标记为特征的所述疫苗包含多肽或编码所述多肽的核酸，所述多肽包含基于突变的新表位。

10.根据权利要求9所述的方法，其中所述多肽包含多至30个基于突变的新表位。

11.根据权利要求9或10所述的方法，其中所述多肽还包含由癌症细胞表达的不含癌症特异性体细胞突变的表位。

12.根据权利要求9至11中任一项所述的方法，其中所述表位在其天然序列环境中以形成疫苗序列。

13.根据权利要求12所述的方法，其中所述疫苗序列的长度为约30个氨基酸。

14.根据权利要求9至13中任一项所述的方法，其中所述新表位、表位和/或疫苗序列头尾连接地排列。

15.根据权利要求9至14中任一项所述的方法，其中所述新表位、表位和/或疫苗序列通过接头分隔开。

16.根据权利要求1至15中任一项所述的方法，其中所述疫苗为RNA疫苗。

17.根据权利要求1至15中任一项所述的方法，其中所述疫苗为预防性和/或治疗性疫苗。

18.可通过根据权利要求1至17中任一项所述之方法获得的疫苗。

19.包含重组多肽或编码所述多肽的核酸的疫苗，所述重组多肽包含基于突变的新表位，所述新表位因癌症患者肿瘤样本中的癌症特异性体细胞突变而产生。

20.根据权利要求19所述的疫苗，其中所述多肽还包含由癌症细胞表达的不含癌症特异性体细胞突变的表位。

21.治疗癌症患者的方法，其包括以下步骤：

(a)通过根据权利要求1至17中任一项所述的方法提供个体化癌症疫苗；和

(b)向所述患者施用所述疫苗。

22.治疗癌症患者的方法，其包括向所述患者施用根据权利要求18至20中任一项所述的疫苗。

23.用于基于新一代测序数据确定错误发现率的方法，所述方法包括：

取得来自动物或人的遗传物质第一样品；

取得来自动物或人的遗传物质第二样品；

取得来自肿瘤细胞的遗传物质第一样品；

取得来自所述肿瘤细胞的遗传物质第二样品；

通过对既包含在所述肿瘤中又包含在所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品的至少之一中的参照基因组的全部碱基进行计数来确定共同覆盖肿瘤比较；

通过对同时被所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品覆盖的参照基因组的全部碱基进行计数来确定共同覆盖相同-相同比较；

用所述共同覆盖肿瘤比较除以所述共同覆盖相同-相同比较以形成归一化；

通过以下来确定错误发现率：用1)在所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述遗传物质第一样品和来自所述肿瘤细胞的所述遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目，以及3)将结果乘以所述归一化。

24.根据权利要求23所述的方法，其中所述遗传物质为DNA。

25.根据权利要求23所述的方法，其中通过以下来确定Q：

建立一组品质特性S=(s₁、...、s_n)，其中当对于所有i＝1、...、n，s_i>t_i时，S优于T=(t₁、...、t_n)，表示为S>T，；

通过以下来确定中间错误发现率：用1)在所述来自动物或人的第一DNA样品和所述来自动物或人的第二DNA样品的比较中品质评分S>T的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述第一DNA样品和来自所述肿瘤细胞的所述第二DNA样品的比较中品质评分S>T的单核苷酸变异的数目，以及3)将结果乘以所述归一化；

从所述值范围中抽取多至p个值；

产生所抽取品质值的每种可能组合，得到pⁿ个数据点；

使用所述数据点的随机样作为随机森林训练的预测子；

其中所述随机森林训练得到的回归评分为Q。

26.根据权利要求24所述的方法，其中所述来自动物或人的第二DNA样品对于所述来自动物或人的第一DNA样品是同种异体的。

27.根据权利要求24所述的方法，其中所述来自动物或人的第二DNA样品对于所述来自动物或人的第一DNA样品是自体的。

28.根据权利要求24所述的方法，其中所述来自动物或人的第二DNA样品对于所述来自动物或人的第一DNA样品是异种的。

29.根据权利要求23所述的方法，其中所述遗传物质为RNA。

30.根据权利要求29所述的方法，通过以下来确定Q：

通过以下来确定中间错误发现率：用1)在所述来自动物或人的第一RNA样品和所述来自动物或人的第二RNA样品的比较中品质评分S>T的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述第一RNA样品和来自所述肿瘤细胞的所述第二RNA样品的比较中品质评分S>T的单核苷酸变异的数目，以及3)将结果乘以所述归一化；

从所述值范围中抽取多至p个值；

产生所抽取品质值的每种可能组合，得到pⁿ个数据点；

使用所述数据点的随机样品作为随机森林训练的预测子；

其中所述随机森林训练得到的回归评分为Q。

31.根据权利要求30所述的方法，其中所述来自动物或人的第二RNA样品对于所述来自动物或人的第一RNA样品是同种异体的。

32.根据权利要求30所述的方法，其中所述来自动物或人的第二RNA样品对于所述来自动物或人的第一RNA样品是自体的。

33.根据权利要求30所述的方法，其中所述来自动物或人的第二RNA样品对于所述来自动物或人的第一RNA样品是异种的。

34.根据权利要求23所述的方法，其中所述错误发现率用于制造疫苗制剂。

35.根据权利要求34所述的方法，其中所述疫苗可静脉内递送。

36.根据权利要求34所述的方法，其中所述疫苗可经皮递送。

37.根据权利要求34所述的方法，其中所述疫苗可经肌肉递送。

38.根据权利要求34所述的方法，其中所述疫苗可经皮下递送。

39.根据权利要求34所述的方法，其中所述疫苗是针对特定患者定制的。

40.根据权利要求39所述的方法，其中所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品之一来自所述特定患者。

41.根据权利要求23所述的方法，其中通过对既包含在所述肿瘤中又包含在所述来自动物或人的遗传物质第一样品及所述来自动物或人的遗传物质第二样品的至少之一中的参照基因组的全部碱基进行计数来确定共同覆盖肿瘤比较的所述步骤使用自动化系统以对全部碱基进行计数。

42.根据权利要求41所述的方法，其中通过对同时被所述来自动物或人的遗传物质第一样品与所述来自动物或人的遗传物质第二样品覆盖的参照基因组的全部碱基进行计数来确定共同覆盖相同-相同比较的所述步骤使用所述自动化系统。

43.根据权利要求41所述的方法，其中用所述共同覆盖肿瘤比较除以所述共同覆盖相同-相同比较以形成归一化的所述步骤使用所述自动化系统。

44.根据权利要求41所述的方法，其中通过以下来确定错误发现率的所述步骤使用所述自动化系统：用1)在所述来自动物或人的遗传物质第一样品和所述来自动物或人的遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目除以2)在来自所述肿瘤细胞的所述遗传物质第一样品和来自所述肿瘤细胞的所述遗传物质第二样品的比较中品质评分大于Q的单核苷酸变异的数目，以及3)将结果乘以所述归一化。

45.用于确定估计的接受者操作曲线(ROC)的方法，所述方法包括：

接收突变的数据集，每个突变与错误发现率(FDR)相关联；和

对于每个突变：

通过从1中减去所述FDR来确定真阳性率(TPR)；和

通过将假阳性率(FPR)设定为等于所述FDR来确定假阳性率(FPR)；以及