CN111328420B

CN111328420B - 用于预防和治疗微卫星不稳定(msi)癌症的基于共有肿瘤新抗原的通用疫苗

Info

Publication number: CN111328420B
Application number: CN201880046801.8A
Authority: CN
Inventors: 阿尔弗雷多·尼科西亚; 埃莉萨·斯卡尔塞利; 圭多·莱昂尼; 阿明·拉姆
Original assignee: Nouscom AG
Current assignee: Nouscom AG
Priority date: 2017-07-12
Filing date: 2018-07-12
Publication date: 2023-07-25
Anticipated expiration: 2038-07-12
Also published as: US11578109B2; AU2018298849A1; PT3652606T; ES2940087T3; EP3652606B1; US20200222519A1; JP7274223B2; EP3652606A1; KR20200029443A; DK3652606T3; FI3652606T3; NZ759940A; RU2019144505A; JP2020532288A; IL271966A; CA3069047A1; BR112020000590A2; CN111328420A; PL3652606T3; WO2019012082A1

Abstract

本发明涉及选择移码肽的集合(CFSP)以产生通用癌症疫苗肽集合(CVP)的方法，该通用癌症疫苗肽集合用于预防和治疗患有遗传性和散发性微卫星不稳定性(MSI)肿瘤的患者。本发明还涉及通过从CFSP中选择移码肽(FSP)的子集并任选地修饰FSP的氨基酸(aa)序列以产生修饰的FSP(mFSP)来产生CVP的方法。本发明还涉及在也可以同时使用的一种或多于一种疫苗载体中编码FSP和/或mFSP的CVP的核酸集合。这些CVP、核酸和载体可用于预防或治疗MSI癌症。

Description

用于预防和治疗微卫星不稳定(MSI)癌症的基于共有肿瘤新抗原的通用疫苗

本发明涉及选择移码肽的集合(CFSP)以制备通用癌症疫苗肽集合(CVP)的方法，该通用癌症疫苗肽集合用于预防和治疗遗传性和散发性微卫星不稳定性(MSI)肿瘤的患者。本发明还涉及通过从CFSP中选择移码肽(FSP)的子集并任选地修饰FSP的氨基酸(aa)序列以产生修饰的FSP(mFSP)来制备CVP的方法。本发明还涉及在也可以同时使用的一种或多于一种疫苗载体中编码具有FSP和/或mFSP的CVP的核酸集合。这些CVP、核酸和载体可用于预防或治疗MSI癌症。

发明背景

癌症疫苗领域长期以来一直专注于靶向与肿瘤相关的抗原，以及最近的肿瘤特异性抗原。后者可在癌细胞中由致癌病毒蛋白或编码基因的体细胞突变引起，导致肿瘤新抗原的产生，之所以如此定义是因为正常细胞中不存在这种新抗原。虽然肿瘤新抗原因为自身耐受和自身免疫的风险较低而更具吸引力，但肿瘤新抗原在特定患者的癌细胞之间以及在整个人群中差异很大，从而阻碍了基于共有肿瘤新抗原的有效通用癌症疫苗的开发。

但是，由于存在的一组癌症的潜在的生物学特性，其不遵循该一般规则：经常由DNA错配修复基因(MMR)突变引起的微卫星不稳定(MSI)肿瘤。有缺陷的MMR系统会导致在称为微卫星的重复核苷酸序列区域中的突变积累。编码基因的微卫星上的突变可导致翻译阅读框的移位，从而导致C端由称为移码肽(FSP)的新型非自身肽组成的嵌合蛋白。与大多数癌症不同，MSI肿瘤中的突变优先出现在由单核苷酸重复(MNR)组成的微卫星中。在编码区内，此类突变主要由1个核苷酸缺失组成，并影响有限数量的基因，因此在患者之间共有(Kim，T.M.等人(2013)Cell 155(4)：858-868)。

因此，与MSI相关的癌症为基于共有肿瘤新抗原设计通用疫苗提供了独特的机会。MSI肿瘤包括分别由MMR基因中的体细胞和种系突变引起的散发性和遗传性癌症。林奇综合症(LS)是一种属于第二组的罕见疾病(ORPHA144)。特别是，MMR通路的MSH2或MLH1基因(约90％的遗传LS携带者)中具有杂合种系突变的个体患癌的风险更高。具体而言，有＞50％的病例在他们一生中倾向于患上结肠癌或子宫内膜癌(Boland，C.R.和A.Goel(2010)Gastroenterology 138(6)：p.2073-2087 e3)。

总而言之，本文描述的发明涉及在MSI肿瘤中鉴定共有的FSP新抗原，并涉及基于衍生自CFSP的FSP和修饰的FSP的子集(定义为CVP)的通用疫苗的开发，用于MSI癌症的治疗和其预防，特别是在LS携带者中。这些CVP尤其可以提供以下优势：(i)对多种MSI癌症有良好的治疗和/或预防性免疫应答；(ii)一种即用的现成的疫苗，由于其编码大量共有的FSP，因此可以在大量患者中使用并且有效；(iii)可以以适合于治疗和预防任何MSI癌症的方式选择特定的CVP，这在预防情况下特别有用；(iv)由于排除了潜在的自身表位，因此没有自身免疫应答的风险。

据发明人所知，本发明的方法的特征在于以前未知的各种特征，包括：

(i)各种保障措施，例如

a)从所选肿瘤类型中平均表达高于阈值的基因中选择移码肽，

b)选择健康对象的组织中不存在或非常罕见的移码肽，

c)排除移码肽中与正常人蛋白质中长度为8个或多于8个氨基酸的区段相同的区段，和

c)使用大量癌症样品。

(ii)包含比最小假定CD8+T细胞表位(8聚体)短的移码肽。这是通过添加最多4个野生型氨基酸以生成至少8个氨基酸的肽来实现的。

(iii)选择要包含在疫苗中的移码肽的最佳集合，以使每个单独的癌症样品(癌症样品代表疫苗靶向的群体)均包含由疫苗编码的移码肽的一部分并且在该部分中代表的移码肽的总长度为至少400个氨基酸。针对靶向病毒抗原的疫苗的临床试验表明，平均需要400个氨基酸的病毒抗原，即像移码肽一样的非自身抗原，才能在每位患者中产生至少1个免疫原性T细胞应答。尽管对于每个癌症样品，所覆盖的移码肽的一部分将有所不同(即，每个癌症样品包含移码突变的不同子集，因此，最佳集合中存在不同的移码肽子集)，但是以每个肿瘤样品中覆盖的移码肽的部分具有至少400个氨基酸的总长度这样的方式选择最佳集合。因此，将该400个氨基酸规则整合到所公开的选择方法中，从而确保针对疫苗靶向群体的肿瘤中存在的FSP诱导T细胞。

发明内容

在第一方面，本发明涉及一种选择移码肽的集合(CFSP)以制备通用的微卫星不稳定性(MSI)癌症疫苗肽集合(CVP)的方法，以用于预防或治疗患有癌症或具有发展成这种癌症的风险的患者，该癌症包括遗传性和散发性MSI癌症，该方法包括以下步骤：

(i)选择核酸的集合(CFSM)，每个核酸包含移码突变(FSM)，每个FSM存在于至少M个癌症样品(CS)的一个或多于一个中，每个癌症样品的患者均不同，其中患者的癌症包括具有MSI表型的癌细胞；

其中所选的至少50％的FSM满足标准(a)、(b)、(c)和/或(d)：

(a)FSM存在于长度等于或大于6个核苷酸的编码基因的单核苷酸重复(MNR)中；

(b)FSM对应于1个核苷酸的缺失；

(c)与匹配的正常样品相比，肿瘤样品中带有FSM的DNA测序读取的数目明显更高(经FDR校正的Fisher检验p值等于或小于0.05)；

(d)FSM存在于匹配的正常样品中，其等位基因频率低于25％，

(ii)选择X个不同的移码肽(FSP)，其中每个选定的FSP是包含至少4个氨基酸长度的CFSM的FSM的核酸的蛋白质编码片段的完整翻译产物，所述至少4个氨基酸长度从与没有FSM的相应野生型(wt)核酸的翻译产物不同的编码第一个氨基酸的密码子开始，

其中X至少为20，更优选至少为35，且M至少为5。

在第二方面，本发明涉及一种确定包含在CVP中的肽的氨基酸序列或编码包含在CVP中的该肽的核酸序列的氨基酸序列的方法，其包括以下步骤：

(a)从根据本发明的第一方面选择的CFSP中选择至少Y个FSP或其至少8个氨基酸长的片段；

(b)修饰那些满足以下条件的一个或多于一个或所有FSP的氨基酸序列：(i)FSP的长度为4个至9个氨基酸，和/或(ii)FSP包含一种或多于一种相同的8个或多于8个氨基酸的连续片段，其存在于由相同FSM编码的多于一种FSP中和/或(iii)FSP包含一种或多于一种8个或多于8个氨基酸的连续片段，其也存在于wt人蛋白质中，

其中根据(i)的FSP的氨基酸序列通过在FSP的N端添加野生型(wt)氨基酸序列的1个至4个氨基酸来进行修饰，该野生型(wt)氨基酸序列紧邻FSP的上游，并且其中修饰的FSP(mFSP)的长度至少为8个氨基酸；根据(ii)的FSP的氨基酸序列通过从除最长FSP之外的所有FSP中除去这些连续片段来进行修饰，条件是在除去连续片段后长度小于4个氨基酸的FSP被排除在CVP之外；和/或根据(iii)的FSP的氨基酸序列通过除去这些片段来进行修饰；除去连续序列后长度小于4个氨基酸的修饰的FSP被排除在CVP之外，和

其中CVP的氨基酸序列包括在步骤a)中选择和/或在步骤(b)中修饰的FSP或其片段的氨基酸序列；

并且其中Y为至少20，更优选至少35。

在第三方面，本发明涉及一种产生CVP或编码CVP的核酸集合的方法，其包括以下步骤：

(i)获得在本发明的第二方面的方法中确定的氨基酸或核酸序列信息；和

(ii)合成一种或多于一种多肽中的CVP的氨基酸序列或具有该序列的核酸集合，并任选地将核酸集合插入一种或多于一种表达盒和/或表达载体的集合中。

在第四方面，本发明涉及CVP或编码可通过本发明的第三方面的方法产生的所述CVP的肽的核酸的集合。

在第五方面，CVP包含Y个不同的FSP和/或mFSP或由其组成，其中每个FSP或被修饰成mFSP的FSP是包含FSM的核酸的蛋白质编码片段的片段或完整翻译产物，所述包含FSM的核酸从与没有FSM的相应wt核酸的翻译产物不同的编码第一个氨基酸的密码子开始，所述FSM在任何情况下具有至少4个氨基酸长度，并且其中至少50％的FSP或修饰为mFSP的FSP满足以下一个或多于一个条件：

(a)FSP由观察到具有癌症类型特异性频率(CF)的FSM编码，所述癌症类型特异性频率(CF)是对于特定类型癌症的CS子集观察到的，该子集是M个不同CS的集合的一部分，也就是CS中存在的至少一种癌症类型至少为5％；和/或

(b)编码FSP的具有FSM的基因的平均mRNA表达水平在描述CS中每个蛋白质编码基因的平均mRNA表达值的分布的前80个百分点中；和/或

(c)在一组没有癌症的对象的正常组织中观察到产生FSP的FSM少于2％。

其中一种或多于一种或所有FSP的氨基酸序列满足以下条件：(i)FSP的长度为4个至9个氨基酸，和/或(ii)FSP包含一种或多于一种相同的8个或多于8个氨基酸的连续片段，其存在于由相同FSM编码的多于一种FSP中，和/或(iii)FSP包含一种或多于一种8个或多于8个氨基酸的连续片段，其也存在于wt人蛋白质中，

对于根据(i)的FSP，通过在FSP的N端添加1个至4个野生型(wt)氨基酸序列的氨基酸来进行修饰，该野生型(wt)氨基酸序列紧邻FSP的上游，并且其中修饰的FSP(mFSP)的长度至少为8个氨基酸；对于根据(ii)的FSP，通过从除最长FSP之外的所有FSP中除去这些连续片段来进行修饰，条件是在除去连续片段后长度小于4个氨基酸的FSP被排除在CVP之外；和/或对于根据(iii)的FSP，通过除去这些片段来进行修饰；除去连续序列后长度少于4个氨基酸的修饰的FSP被排除在CVP之外；

且其中Y至少为20，更优选至少为35，且M至少为5。

在第六方面，本发明涉及编码本发明第五方面的CVP的核酸集合。

在第七方面，本发明涉及一种或多于一种表达载体的集合，每个表达载体包含本发明第四方面或第六方面的全部或部分核酸集合，其中所述表达载体的集合的整体包含本发明第四方面或第六方面的所有核酸集合。

第八方面，本发明涉及本发明第四方面或第五方面的CVP、本发明第四方面或第六方面的核酸集合、本发明第七方面的表达载体集合用于预防或治疗患有包含具有MSI表型的癌细胞的癌症或具有发展成这种癌症的风险的患者，其中所述癌症优选选自结肠直肠癌、胃癌、子宫内膜癌、小肠癌、肝胆道癌、肝癌、神经内分泌癌、宫颈癌、卵巢癌、子宫肉瘤、脑癌和皮肤癌。

在第九方面，本发明涉及本发明的第四方面或第六方面的核酸集合和/或本发明的第七方面的表达载体集合用于预防或治疗患有包含具有MSI表型的癌细胞的癌症或具有发展成这种癌症的风险的患者，其中核酸集合和/或表达载体集合以异源初免-加强疫苗接种方案进行施用，优选初免使用腺病毒载体且一种或多于一种加强免疫使用MVA载体。

附图说明

图1：抗原长度决定了疫苗诱导的免疫原性表位的数量。

图2：Nous-209在MSI细胞系中的免疫原性覆盖。

图3：MUS CRC活检中Nous-209的免疫原性覆盖。

图4：MSI患者活检中由Nous-209产生的预期的MHC-1结合表位的数量。

图5：与Nous-209中包含的对应于SEQ ID NO：123的FSP在HLA.A02转基因小鼠中具有体内免疫原性。通过干扰素γ(IFN-γ)的细胞内染色(ICS)测量在5只动物中对FSP SEQID NO：123中存在的HLA-A02九聚体的代表性CD8 T细胞应答(图A)。来自这些小鼠之一的IFN-γ+CD8 T细胞的门控策略的FACS图显示了FSP应答性T细胞的显著百分比(5.6％)(图B)。

图6：由IUPRED预测的在布局A和B中包含Nous-209 FSP的八种人工多肽的失调谱。

图7：表达盒的示意图。

图8：GAd20-209-FSP/MVA-209-FSP初免/加强方案在小鼠中的免疫原性。在GAd20-209-FSP初免(GAd)后2周和MVA-209-FSP加强(GAd/MVA)后1周测量IFNγELISpot反应。显示的是针对覆盖由疫苗编码的209个FSP多肽序列的16个合成肽库(P1-P16)的应答(每百万个脾细胞中产生IFNγ的T细胞数)。

图9：针对覆盖209个FSP序列的16个库中每个库的免疫应答的测量。在接种GAd20-209-FSP/MVA-209-FSP的小鼠脾细胞加强免疫后，测量了IFNγELISpot应答。显示的是针对覆盖由疫苗编码的209个FSP多肽序列的16个合成肽库(P1至P16)的每个库的应答(每百万个脾细胞中产生IFNγ的T细胞数)。

图10：疫苗诱导的针对由单个载体编码的FSP的免疫应答不受载体共施用的影响。在用载体混合物或单个载体免疫的小鼠中，在初免后(第2周，灰色柱)和加强后(第3周，黑色柱)测量IFNγELISpot应答。显示了对覆盖由载体FSPA1编码的FSP序列的4个合成肽库(P1至P4)(A)和对覆盖由载体FSPA2编码的FSP序列的4个合成肽库(P5至P8)(B)的应答(每百万个脾细胞产生IFNγ的T细胞数量)。通过非参数曼-惠特尼U检验计算统计量(ns＝p＞0.05)。

图11：Nous-209中包含的对应于SEQ ID NO：123的FSP(FSP肽)在HLA.A02转基因小鼠体内具有免疫原性。A)IFNγ+CD8+FSP特异性T细胞应答的百分比以及针对DMSP对照观察到的应答。B)来自用于DMSO对照(上)和FSP肽(下)的一只代表性小鼠样品的IFN-γ+CD8 T细胞的门控策略的FACS图。

具体实施方式

在下面详细描述本发明之前，应理解本发明不限于本文所述的特定方法、方案和试剂，因为它们可以变化。还应理解，本文使用的术语仅用于描述特定实施方案的目的，并不旨在限制本发明的范围，本发明的范围仅受所附权利要求的限制。除非另外定义，否则本文使用的所有技术和科学术语具有与本领域普通技术人员通常理解的含义相同的含义。

优选地，本文所用的术语如“A multilingual glossary of biotechnologicalterms：(IUPAC Recommendations)”(Leuenberger，H.G.W，Nagel，B.和Klbl，H.编辑(1995)，Helvetica Chimica Acta，CH-4010 Basel，Switzerland)和如Axel Kleemann和JurgenEngel的“Pharmaceutical Substances：Syntheses，Patents，Applications”，ThiemeMedical Publishing，1999；Susan Budavari等人编辑的“Merck Index：An Encyclopediaof Chemicals，Drugs，and Biologicals”，CRC Press，1996和the United StatesPharmcopeial Convention，Inc.出版的the United States Pharmacopeia-25/NationalFormulary-20，Rockville Md.，2001中所述进行定义。

在整个本说明书和随后的权利要求书中，除非上下文需要，否则词语“包含”将被理解为意味着收录所陈述的特征、整数或步骤或特征、整数或步骤组，但不排除任何其他特征、整数或步骤或特征、整数或步骤组。在以下段落中，更详细地定义了本发明的不同方面。如此定义的每个方面可以与任何其他一个或多于一个方面结合，除非明确的相反指示。特别地，指示为优选或有利的任何特征可以与指示为优选或有利的任何其他一个或多于一个特征组合。

在本说明书的全文中引用了若干文献。无论是上文还是下文，本文引用的每个文件(包括所有专利、专利申请、科学出版物、制造商的说明书、说明书等)均通过引用整体并入本文。本文中的任何内容均不应被解释为承认本发明无权凭借在先发明而先于此类公开内容。

定义

在下文中，提供了本说明书中经常使用的术语的一些定义。在说明书的其余部分中，这些术语在其使用的每种情况下分别具有定义的含义和优选的含义。

如本文所使用的，术语“分离的”指基本上不含与其天然缔合的其他分子。特别地，分离指分子不在动物体或动物体样品中。因此，分离的分子不含其在动物体内会遇到或接触的其他分子。分离并不意味着与本文所述的其它相关组分分离，例如，不与包含该分子的组合物的其他组分分离，或与包含该分子的载体或细胞分离。

术语“多核苷酸”和“核酸”在本文中可互换使用，并被理解为由核苷酸单体制成的聚合物或寡聚大分子。核苷酸单体由核碱基、五碳糖(例如但不限于核糖或2′-脱氧核糖)和一个至三个磷酸基团组成。通常，核苷酸通过各个核苷酸单体之间的磷酸二酯键形成。在本发明的上下文中，优选的核酸分子包括但不限于核糖核酸(RNA)、修饰的RNA、脱氧核糖核酸(DNA)及其混合物，例如RNA-DNA杂交体。核酸可以是例如化学合成的，例如按照磷酸三酯法(参见，例如，Uhlmann，E.和Peyman，A.(1990)Chemical Reviews，90，543-584)。

在本发明的上下文中使用的术语“开放阅读框”缩写为“ORF”，其指可以翻译成连续的氨基酸串的核苷酸序列。通常，在给定的阅读框中，ORF包含起始密码子、长度通常是3个核苷酸的倍数的后续区域，但不包含终止密码子(TAG、TAA、TGA、UAG、UAA或UGA)。ORF编码蛋白质，其中ORF可以翻译成的氨基酸形成肽连接的链。

如本文所使用的，术语“蛋白质”、“肽”和“多肽”全文可互换使用。本发明上下文中使用的这些术语指天然存在的肽，例如天然存在的蛋白质和合成的肽，其可以包括天然或非天然存在的氨基酸。也可以通过修饰天然或非天然存在的氨基酸的侧链或游离氨基或羧基末端来化学修饰肽。该化学修饰包括添加其他化学部分以及修饰氨基酸侧链中的官能团，例如糖基化。肽是优选具有至少3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个或至少100个氨基酸，最优选至少8个或至少30个氨基酸的聚合物。

在本发明的上下文中使用的术语“移码突变”(缩写为“FSM”)指编码蛋白质的ORF内的核酸序列的改变，这导致突变的下游阅读框的改变，从而产生与野生型蛋白质相比序列改变的蛋白质。如果在ORF中插入或缺失了不能被3整除的多个核苷酸，则会发生移码突变。通常，如果缺失或插入一个或两个核苷酸，则会发生FSM。缺失比插入更频繁。如果在ORF的密码子内缺失一个或两个核苷酸，则顺着受影响的密码子的3′的一个或两个核苷酸形成改变的密码子。除非该改变的密码子是终止密码子，否则ORF的翻译产物将由改变的密码子和直到下一个终止密码子的改变的密码子的3’的替代ORF决定。如果将一个或两个核苷酸插入密码子，则会产生一个新的密码子，该密码子将包含先前核苷酸的两个或一个核苷酸以及一个或两个插入的核苷酸。除非该新的密码子是终止密码子，否则ORF的翻译产物将由新的密码子和直到下一个终止密码子的新的密码子3’的替代ORF决定。

在本发明的上下文中使用的术语“移码密码子”(缩写为“FC”)指FSM的3′的第一个密码子，该密码子与wt序列相比编码不同的氨基酸。

在本发明的上下文中使用的术语“包含FSM的核酸的集合”(缩写为“CFSM”)指单独的核苷酸序列的列表，每个核苷酸序列包括可以代表在例如结肠直肠癌、子宫内膜癌或胃癌的特定MSI癌症类型或两种或多于两种MSI癌症中观察到的所有FSM的FSM，或根据下面详细概述的一种或多于一种标准选择的FSM亚组。

在本发明的上下文中使用的术语“移码肽”(缩写为“FSP”)指包含从FC开始的CFSM的FSM的核酸的蛋白质编码区段的完整翻译产物。

在本发明的上下文中使用的术语“移码肽的集合”(缩写为“CFSP”)指FSP的氨基酸序列的列表，其可以代表在例如结肠直肠癌、子宫内膜癌或胃癌的特定MSI癌症类型或两种或多于两种MSI癌症中观察到的所有FSP，或根据下面详细概述的一种或多于一种标准选择的FSP亚组。

在本发明的上下文中使用的术语“修饰的FSP”(缩写为“mFSP”)指如下所述的肽，其氨基酸序列基于FSP，但与FSP相比，通过添加或缺失氨基酸进行修饰，以使特定的FSP更适合包含在形成癌症疫苗肽集合的肽集合中。下面详细概述了可以从修饰和特定修饰中受益的选择FSP的标准。

在本发明的上下文中使用的术语“癌症疫苗肽集合”缩写为“CVP”，其指单独肽形式或彼此连接的FSP和/或mFSP。优选地，两个或多于两个不同的FSP和/或mFSP通过形成多肽的肽键彼此连接。连接可以直接进行或通过一个或多于一个接头氨基酸实现，例如小的柔性氨基酸，例如Gly、Ser或Ala。为了避免另外的抗原的产生，优选将肽彼此直接连接。优选将FSP和/或mFSP连接在一起以形成多肽。已知非常长的mRNA的翻译效率降低，因此优选将包含总长度大于1000个氨基酸，更优选大于1500个氨基酸的FSP和mFSP的CVP分成单独的多肽。例如，如果CVP包含约6000个氨基酸的FSP和/或mFSP，则优选将FSP和/或mFSP连接形成四个单独的多肽，每个多肽包含总长度约1500个氨基酸的FSP和/或mFSP。

术语“微卫星不稳定性”(缩写为“MSI”)定义为由于微卫星区域中一个或多于一个重复单元的缺失或插入而导致的微卫星长度的变化。当与来自同一个体的正常/生殖系细胞中的基因组DNA相比时，这产生了肿瘤细胞基因组DNA总长度改变的新微卫星等位基因。遗传超变异性的这种状况是由DNA错配修复(MMR)受损引起的。MMR是一种纠正DNA复制过程中基因组DNA中发生的自发突变的机制。通常，突变是短核苷酸插入或缺失的单碱基错配。如果后两种情况发生在ORF中，并且如果插入或缺失的核苷酸序列的长度不能被三整除，则可能发生移码突变(参见上文对FSM的定义)。

术语“MSI表型”指对重复核苷酸长度变化的诊断，最常见的是GT/CA重复。这些重复出现在健康对象的整个基因组DNA中，约占人基因组的3％。技术人员很清楚如何确定样品中的MSI表型。根据美国国家癌症研究所(NCI)微卫星不稳定性研讨会期间制定的指南，一种优选的方法是使用Promega(Madison，WI)MSI分析系统(v 1.2)，该系统包含7个标记物。

在本发明的上下文中使用术语“新表位”指不存在于正常/生殖系细胞中，但存在于癌前和/或癌细胞中的，特别是具有MSI表型的由肿瘤编码的表位。

在本发明的上下文中使用的术语“表达盒”指可操作地连接到转录和翻译控制序列的包含至少一个待表达的核酸序列的核酸分子，例如编码本发明CVP或其一部分的核酸。优选地，表达盒包括用于有效表达给定基因例如启动子、起始位点和/或多腺苷酸化位点的顺式调节元件。优选地，表达盒包含患者细胞中表达核酸所需的所有其他元件。因此，典型的表达盒包含与待表达的核酸序列有效连接的启动子，以及转录物、核糖体结合位点和翻译终止的有效多腺苷酸化所需的信号。盒的附加元件可以包括例如增强子。表达盒还优选在结构基因的下游包含转录终止区，以提供有效的终止。终止区可以从与启动子序列相同的基因获得，或者可以从不同的基因获得。

在本发明的上下文中使用的术语“可操作地连接”指元件的布置，其中如此描述的部件被配置为执行其通常的功能。当核酸被置于与另一个核酸序列的功能关系中时，它被“可操作地连接”。例如，如果启动子影响一个或多于一个转基因的转录，则其可操作地连接至一个或多于一个转基因。此外，可操作地连接至编码序列的控制元件能够实现编码序列的表达。控制元件不必与编码序列邻接，只要它们起到指导其表达的作用即可。因此，例如，在启动子序列和编码序列之间可以存在介于中间的未翻译但仍被转录的序列，并且仍然可以认为该启动子序列与编码序列“可操作地连接”。

术语“表达载体”指多核苷酸或多核苷酸和蛋白质的混合物，其能够被引入或能够将本发明的核酸集合或作为本发明核酸集合一部分的一种核酸引入细胞，优选哺乳动物细胞。载体的实例包括但不限于质粒、黏粒、噬菌体、病毒或人工染色体。特别地，使用载体将启动子和核酸集合或作为本发明核酸集合一部分的一种核酸转移到合适的宿主细胞中。表达载体可以包含有助于表达载体在宿主细胞中自主复制的“复制子”多核苷酸序列。进入宿主细胞后，表达载体可以独立于宿主染色体DNA复制或与宿主染色体DNA同时复制，并且可以产生载体及其插入的DNA的几个拷贝。在使用无复制能力的表达载体的情况下——这通常是出于安全原因——载体可能不复制，而只是直接表达核酸。取决于表达载体的类型，表达载体可以从细胞中丢失，即仅瞬时表达由核酸编码的CVP，或者可以在细胞中稳定。表达载体通常包含表达盒，即允许核酸转录成mRNA分子的必需元件。

在本发明的上下文中，术语“抗原”用于指由免疫应答的分子识别的任何结构，例如抗体、T细胞受体(TCR)等。优选的抗原是与特定疾病相关的细胞蛋白。抗原被适应性免疫系统的高度可变的抗原受体(B细胞受体或T细胞受体)识别，并可能引发体液或细胞免疫应答。引起这种应答的抗原也称为免疫原。不论细胞内的一部分蛋白质是外来的还是细胞的，它们都被加工成较小的肽，并由主要的组织相容性复合物(MHC)呈递。如果小肽片段被T细胞受体结合，则会引发细胞免疫应答。

在本发明的上下文中使用的术语“表位”称为抗原决定簇，其指抗原的片段，优选由免疫系统分子，例如B细胞受体、T细胞受体或抗体结合的肽。与抗体或B细胞结合的表位称为“B细胞表位”，与T细胞结合的表位称为“T细胞表位”。在本文中，术语“结合”优选地涉及特异性结合，其被定义为抗体或T细胞受体(TCR)和相应表位之间的结合常数，该结合常数为1×10^5M-1或高于1×10^5M-1，优选为1x10^6M-1、1x10^7M-1、1x10^8M-1或高于1x10^8M-1。本领域技术人员非常了解如何确定结合常数(参见例如Caoili，S.E.(2012)Advancesin Bioinformatics卷2012)。优选地，抗体与表位的特异性结合是由抗体的Fab(片段，抗原结合)区介导的，B细胞的特异性结合是由B细胞受体所包含的抗体的Fab区介导的，并且T细胞的特异性结合是由T细胞受体的可变(V)区介导的。T细胞表位存在于抗原呈递细胞的表面，并与主要组织相容性(MHC)分子结合。存在至少三种不同类别的MHC分子，分别称为I类、II类和III类MHC分子。通过MHC-I途径呈递的表位引起细胞毒性T淋巴细胞(CD8+细胞)应答，而通过MHC-II途径呈递的表位引起T辅助细胞(CD4+细胞)应答。由I类MHC分子呈递的T细胞表位通常是长度为8个至11个氨基酸的肽，而由II类MHC分子呈递的T细胞表位通常是长度为13个至17个氨基酸的肽。III类MHC分子还呈递非肽表位，例如糖脂。因此，术语“T细胞表位”优选指可以由I类MHC或II类MHC分子呈递的8个至11个或13个至17个氨基酸长的肽。表位通常由具有化学活性的氨基酸表面基团组成，该基团可以携带或不携带糖侧链，并且通常具有特定的三维结构特征以及特定的电荷特征。构象和非构象表位的区别在于，在变性溶剂的存在下失去与前者的结合而非失去与后者的结合。

在本发明的上下文中使用的术语“连接表位”指不存在于给定CVP的分离的FSP、mFSP和/或其抗原片段中但包含在通过肽键连接两个肽例如两个FSP时形成的氨基酸序列的表位。例如，可以创建具有8个连续氨基酸的组装肽的所有潜在连接表位的列表，其中包括第一肽的1个至7个氨基酸和来自第二肽的7个至1个氨基酸，涵盖连接肽键。然后将该列表与CVP的所有FSP和mFSP的氨基酸序列进行比较，以识别所有潜在的连接表位。

术语“非MSI癌症表位”指在癌细胞中特异性表达但不是由于FSM引起的蛋白质的表位。如果这样的表位在癌细胞中的丰度比在健康细胞中的丰度至少高十倍，则被认为是特异性的。这种表位的实例是在癌细胞中表达上调的蛋白质，例如黑色素瘤中的酪氨酸酶或乳腺癌中的Her-2受体，或在某些癌症中突变的蛋白质，例如p53。

术语“免疫原性覆盖”指疫苗可能在患者体内引起的预期免疫原性表位数目。编码在患者肿瘤中累积长度为400个氨基酸的一组FSP的疫苗预计平均可引发3个免疫原性表位，并提供良好的免疫原性覆盖。

在本发明的上下文中使用的术语“其抗原性片段”指抗原的片段，优选FSP或mFSP，其中该片段也是抗原性的，即能够引发哺乳动物B细胞和/或T细胞的免疫应答。优选地，抗原性“FSP和/或mFSP的片段”是如上文和下文更详细定义的FSP和mFSP的至少8个氨基酸长的连续片段。mFSP的片段包含mFSP所基于的FSP的至少4个氨基酸。

术语“编码CVP的核酸集合”在本发明的上下文中用于指一种或多于一种连续核酸序列，其编码包含CVP的所有FSP和/或mFSP或其抗原片段的多肽，其编码包含CVP的所有FSP和/或mFSP的2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种，优选四种多肽。因此，在一个实施方案中，该术语包括编码CVP的单个核酸，并且在另一个最极端的实施方案中，核酸的集合包括针对每种FSP和/或mFSP或其抗原性片段的单独的核酸。

在本发明上下文中使用的术语“制剂”和“组合物”旨在包括活性化合物，例如本发明的VLP与载剂和/或赋形剂的制剂。

在本发明的上下文中使用的“药学上可接受的”指由联邦或州政府的管理机构批准或在美国药典或其他公认的药典中列出的用于动物，更特别是人的药物。

如本文所使用的，术语“载体”指药学上无活性的物质，例如但不限于稀释剂、赋形剂、表面活性剂、稳定剂、生理缓冲溶液或与治疗性活性成分一起施用的载剂。这些药物载体可以是液体或固体。液体药物载体包括但不限于无菌液体，例如水和油中的盐溶液，包括但不限于石油、动物、植物或合成来源的那些，例如花生油、大豆油、矿物油、芝麻油等。也可以将盐溶液和葡萄糖水溶液和甘油溶液用作液体载体，特别是用于可注射溶液。当静脉内施用药物组合物时，盐溶液是优选的载体。合适的药物载体的实例描述于E.W.Martin的“Remington′s Pharmaceutical Sciences”中。

合适的药物“赋形剂”包括淀粉、葡萄糖、乳糖、蔗糖、明胶、麦芽、大米、面粉、白垩、硅胶、硬脂酸钠、单硬脂酸甘油酯、滑石、氯化钠、脱脂乳、甘油、丙烯、乙二醇、水、乙醇等。

“表面活性剂”包括阴离子、阳离子和非离子表面活性剂，例如但不限于脱氧胆酸钠、十二烷基硫酸钠、Triton X-100、和聚山梨酯例如聚山梨酯20、聚山梨酯40、聚山梨酯60、聚山梨酯65和聚山梨酯80。

“稳定剂”包括但不限于甘露醇、蔗糖、海藻糖、白蛋白以及蛋白酶和/或核酸酶拮抗剂。

可以在本发明的上下文中使用的“生理缓冲溶液”包括但不限于氯化钠溶液、除盐水、以及合适的有机或无机缓冲溶液，例如但不限于磷酸盐缓冲液、柠檬酸盐缓冲液、tris缓冲液(三(羟甲基)氨基甲烷)、HEPES缓冲液([4(2羟乙基)哌嗪并]乙磺酸)或MOPS缓冲剂(3吗啉代-1丙磺酸)。相应缓冲液的选择通常取决于期望的缓冲液摩尔浓度。磷酸盐缓冲液适用于例如注射和输注溶液。

术语“佐剂”指在细胞或体液水平上增强、刺激、激活、加强或调节对组合物活性成分的免疫应答的试剂，例如免疫佐剂刺激免疫系统对实际抗原的应答，但自身没有免疫作用。这类佐剂的实例包括但不限于无机佐剂(例如无机金属盐，例如磷酸铝或氢氧化铝)、有机佐剂(例如皂苷或角鲨烯)、基于油的佐剂(例如弗氏完全佐剂和弗氏不完全佐剂)、细胞因子(例如IL-1β、IL-2、IL-7、IL-12、IL-18、GM-CFS和INF-γ)、颗粒佐剂(例如免疫刺激复合物(ISCOMS)、脂质体或可生物降解的微球)、病毒体、细菌佐剂(例如单磷酰脂质A或胞壁酰肽)、合成佐剂(例如非离子嵌段共聚物、胞壁酰肽类似物、或合成脂质A)、或合成多核苷酸佐剂(例如聚精氨酸或聚赖氨酸)。

“有效量”或“治疗有效量”是足以达到预期目的的治疗剂的量。给定治疗剂的有效量将随例如药剂的性质、施用途径、接受治疗剂的动物的大小和种类以及施用目的等因素而变化。每种个体情况下的有效量可以由技术人员根据本领域已建立的方法凭经验确定。

本文所使用的疾病或病症的“治疗”、“处理”、“护疗”或“疗法”指实现以下一项或多于一项：(a)减轻病症的严重程度；(b)限制或预防所治疗病症的症状发展；(c)抑制所治疗病症的症状特征的恶化；(d)限制或预防先前患有该病症的个体的病症复发；和(e)限制或预防先前有病症的症状的个体的症状复发。

本发明的方面及优选实施方案

在第一方面，本发明涉及一种选择移码肽的集合(CFSP)以产生通用的微卫星不稳定性(MSI)癌症疫苗肽集合(CVP)的方法，以用于预防或治疗患有癌症或具有发展成这种癌症的风险的患者，癌症包括遗传性和散发性MSI癌症，该方法包括以下步骤：

(i)选择核酸的集合(CFSM)，每个核酸包含移码突变(FSM)，每个FSM存在于至少M个癌症样品(CS)的一种或多于一种中，每个癌症样品的患者均不同，其中患者的癌症包括具有MSI表型的癌细胞；

其中所选的至少50％的FSM满足标准(a)、(b)、(c)和/或(d)：

(b)FSM对应于1个核苷酸的缺失；

(d)FSM存在于匹配的正常样品中，其等位基因频率低于25％，

其中X至少为20，更优选至少为35，且M至少为5。

通过根据第一方面的方法选择一定数量和类型的FSP，通过疫苗接种确保了针对多种FSP诱导T细胞。基于400aa规则的T细胞免疫原性表位的预期数目是每400aa至少有一个免疫原性表位，因此编码总长度为6021aa的疫苗至少有16个免疫原性表位。发明人确实在小鼠模型中证明了用总长度为6021aa的209种FSP的疫苗接种能够针对至少16种不同FSP诱导T细胞应答，对应于每376aa至少1种(图9)，这证实了免疫原性规则。与肽疫苗接种不同，基于遗传载体选择的疫苗接种平台确保疫苗中存在的另一种FSP不会抑制单个FSP的免疫原性。本发明人在小鼠模型中证明了，与施用四种疫苗载体的混合物相比，仅施用四种疫苗载体中的一种产生了实际上相同的应答，因此竞争并未发生。

在一个实施方案中，在步骤(ii)中选择的FSP可以被描述为用于产生通用MSI CVP的候选FSP，所述通用MSI CVP用于预防或治疗患有包括遗传性和散发性MSI癌症在内的癌症或处于发展这种癌症的风险的患者。“候选”指FSP潜在地具有预防或治疗作用。可以根据选择过程及它们的结构来预期。

选择标准(c)要求给定的FSM的发生率显著更高，即在一种或多于一种肿瘤样品的基因组DNA中比在一个或多个健康对象的匹配正常样品中更普遍。在本文中，术语“显著更高”指根据等于或小于0.1，更优选小于0.05，更优选小于0.01，甚至更优选小于0.005的错误发现率(FDR)校正的Fisher试验p值，与正常样品相比，肿瘤样品中给定FSM的普遍性相对于wt未突变MNR的普遍性明显更高。值越低，FSM就更适合包含在CFSM中，因为刺激针对健康组织的有害免疫应答的可能性降低了。通过对样品中的基因组DNA或cDNA进行测序，可以评估该标准。优选地，为CFSM选择的FSM中的50％满足标准(c)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(c)。

标准(c)与给定FSM的相对普遍性有关，而标准(d)与正常样品的等位基因中给定FSM的绝对普遍性有关。优选地，为CFSM选择的FSM在正常样品的等位基因中具有较低的总体普遍性。优选地，正常样品中的等位基因频率低于40％，更优选低于35％，更优选低于30％，更优选低于25％，更优选低于20％，甚至更优选低于10％。优选地，为CFSM选择的FSM中的50％满足标准(d)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(d)。

优选地，为CFSM选择的FSM同时满足标准(c)和(d)。优选地，为CFSM选择的FSM中的50％满足标准(c)和(d)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(c)和(d)。优选地，至少50％还满足标准(a)和/或(b)。

在另一个优选实施方案中，为CFSM选择的FSM满足标准(a)。优选地，为CFSM选择的FSM中的50％满足标准(a)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(a)。

在另一个优选实施方案中，为CFSM选择的FSM满足标准(b)。优选地，为CFSM选择的FSM中的50％满足标准(b)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(b)。

在另一个优选实施方案中，为CFSM选择的FSM满足标准(a)、(c)和(d)。优选地，为CFSM选择的FSM中的50％满足标准(a)、(c)和(d)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(a)、(c)和(d)。

在另一个优选实施方案中，为CFSM选择的FSM满足标准(b)、(c)和(d)。优选地，为CFSM选择的FSM中的50％满足标准(b)、(c)和(d)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(b)、(c)和(d)。

在另一个优选实施方案中，为CFSM选择的FSM满足标准(a)、(b)、(c)和(d)。优选地，为CFSM选择的FSM中的50％满足标准(a)、(b)、(c)和(d)，更优选至少60％，更优选至少70％，更优选至少80％，更优选至少90％，更优选至少95％，最优选至少100％满足标准(a)、(b)、(c)和(d)。

本发明的方法提供了不仅适用于治疗特定患者的MSI癌症，而且适用于治疗许多患有MSI癌症的不同患者的CVP，即用于治疗MSI癌症的通用CVP。由于相同的原因，对MSI癌症的发展也具有预防作用也是合适的。因此，在本发明的方法中对FSM的选择不是基于仅来自一名患者的癌症样品的分析，而是使用来自不同患者的几种癌症样品的信息。为了获得适当的多样性，分析了不同患者的至少5个癌症样品(CS)，以确定FSM。如上所述，这优选通过全基因组测序、外显子组测序或对从样品中分离的mRNA产生的cDNA进行测序来完成。使用患有MSI癌症的患者的癌症样品。这可以通过检测包含在癌症样品的细胞中的MSI表型来确定。CS可以是相同的MSI癌症，即源自相同的组织，或源自两种或多于两种不同的MSI癌症。如果在选择过程中使用两种或多于两种不同MSI癌症的MSI癌症的CS，则特别优选并提供特别广泛使用的CVP。衍生样品的优选的MSI癌症是结肠直肠癌和胃癌、结肠直肠癌和子宫内膜癌、胃癌和子宫内膜癌、以及胃癌、结肠直肠癌和子宫内膜癌。

基于FSM概述的选择过程也可以基于由包含FSM的特定核酸编码的FSP进行，即也可以通过比较分别编码的氨基酸序列而不是核酸序列来评估标准(c)和(d)。对于本领域技术人员明显的是，还可以通过在FSP的C端而不是在野生型蛋白质序列C端确定包含FSP的编码蛋白质氨基酸序列的数量来评估癌症或正常样品中FSM的存在。

本发明人还设想通过使用以下一个或多于一个标准来选择包括在CFSP中的FSP：

优选地，至少50％的包括在CFSP中的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。优选地，60％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少70％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少80％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少90％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少95％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)和最优选地，至少100％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。

关于标准(a)，优选地，FSP由观察到具有CF的FSM编码，所述CF是对于特定类型癌症的CS子集观察到的，该子集是M个不同CS的集合的一部分，该集合针对CS中存在的至少一种或所有癌症类型至少为5％，针对CS中存在的至少一种或所有癌症类型优选至少为10％，优选至少为15％，优选至少为20％，优选至少为25％，优选至少为30％，更优选至少为35％，更优选至少为40％。

关于标准(b)，优选地，编码FSP的具有FSM的基因的平均mRNA表达水平在描述CS中优选特定类型的癌症CS中的每个蛋白质编码基因的平均mRNA表达值的分布的前75个百分点中，优选前70个百分点中，优选前65个百分点中，优选前60个百分点中，优选前55个百分点中，更优选前50个百分点中，更优选前40个百分点中，更优选前30个百分点中。FSP的相对丰度越高，免疫应答的诱导就越有可能有效治疗或预防MSI癌症。为了清楚起见，短语“前80个百分点”指具有包括最高表达的mRNA的表达水平的并且仅排除了最低表达的19％的mRNA的所有FSM。因此，“前30个百分点”指具有包括最高表达的mRNA的表达水平的并且排除了最低表达的69％的mRNA的所有FSM。

标准(a)和(b)的优选组合是CF为至少5％且具有FSM的基因的mRNA表达水平在描述CS中优选特定类型的癌症CS中的每个蛋白质编码基因的平均mRNA表达值的分布的前75个百分点中，优选前70个百分点中，优选前65个百分点中，优选前60个百分点中，优选前55个百分点中，更优选前50个百分点中，更优选前40个百分点中，更优选前30个百分点中。标准(a)和(b)的其他优选组合是CF为至少10％且具有FSM的基因的mRNA表达水平在描述CS中优选特定类型的癌症CS中的每个蛋白质编码基因的平均mRNA表达值的分布的前75个百分点中，优选前70个百分点中，优选前65个百分点中，优选前60个百分点中，优选前55个百分点中，更优选前50个百分点中，更优选前40个百分点中，更优选前30个百分点中。标准(a)和(b)的其他优选组合是CF为至少15％且具有FSM的基因的mRNA表达水平在描述CS中优选特定类型的癌症CS中的每个蛋白质编码基因的平均mRNA表达值的分布的前75个百分点中，优选前70个百分点中，优选前65个百分点中，优选前60个百分点中，优选前55个百分点中，更优选前50个百分点中，更优选前40个百分点中，更优选前30个百分点中。标准(a)和(b)的其他优选组合是CF为至少20％且具有FSM的基因的mRNA表达水平在描述CS中优选特定类型的癌症CS中的每个蛋白质编码基因的平均mRNA表达值的分布的前75个百分点中，优选前70个百分点中，优选前65个百分点中，优选前60个百分点中，优选前55个百分点中，更优选前50个百分点中，更优选前40个百分点中，更优选前30个百分点中。

关于标准(c)，优选的是，在没有癌症的一组患者的正常组织中，观察到产生FSP的FSM少于2％，更优选少于1.9％、少于1.8％、少于1.7％、少于1.6％、少于1.5％、少于1.4％、少于1.3％、少于1.2％、少1.1％、少于1.0％或更少。

在本发明的第一方面的方法的优选实施方案中：

(i)CS来自患有MSI肿瘤的患者，MSI肿瘤优选是结肠直肠癌和/或胃癌和/或子宫内膜癌，更优选是结肠直肠癌、胃癌和子宫内膜癌；和/或

(ii)M为至少30，优选至少50，更优选至少100，更优选至少200，最优选至少300；和/或

(iii)X为至少50，优选至少100，更优选至少200，最优选至少300。

优选地，M为至少30且X为至少50，优选为至少100，更优选为至少200，更优选为至少300，优选地，M为至少50且X为至少50，优选为至少100，更优选为至少200，更优选为至少300，M为至少100且X为至少50，优选为至少100，更优选为至少200，更优选为至少300，M为至少200且X为至少50，优选为至少100，更优选为至少200，并且更优选为至少300，甚至更优选M为至少300且X为至少50，优选为至少100，更优选为至少200，更优选为至少300。

样品数量M的增加确定了CVP的适用范围更广，即更通用的适用性。但是，由于FSM的统计分布，对于给定数量的样品，在特定MSI癌症类型中发生的所有FSM的确定结果的完整性将渐近达到最大值。因此，当包含多于400个特定MSI癌症类型的样品时，将不会获得显著改善。为了改善MSI癌症类型中存在的FSM的广泛覆盖，优选使用两种或多于两种MSI癌症的CS。可同时治疗和预防的优选MSI癌症是结肠直肠癌和胃癌、结肠直肠癌和子宫内膜癌、胃癌和子宫内膜癌、以及结肠直肠癌、胃癌和子宫内膜癌。

(a)从根据本发明的第一方面选择的CFSP中选择至少Y个FSP或其抗原性片段；

(b)修饰满足以下条件的一种或多于一种或所有FSP的氨基酸序列：(i)FSP的长度为4个至9个氨基酸，和/或(ii)FSP包含一种或多于一种相同的8个或多于8个氨基酸的连续片段，其存在于由相同FSM编码的多于一种FSP中，和/或(iii)FSP包含一种或多于一种8个或多于8个氨基酸的连续片段，其也存在于wt人蛋白质中，

其中根据(i)的FSP的氨基酸序列通过在FSP的N端添加野生型(wt)氨基酸序列的1个、2个、3个或4个，优选4个氨基酸来进行修饰，该野生型(wt)氨基酸序列紧邻FSP的上游，并且其中修饰的FSP(mFSP)的长度为至少8个氨基酸；根据(ii)的FSP的氨基酸序列通过从除最长FSP之外的所有FSP中除去这些连续片段来进行修饰，条件是在除去连续片段后长度小于4个氨基酸的FSP被排除在CVP之外；和/或根据(iii)的FSP的氨基酸序列通过除去这些片段来进行修饰；除去连续序列后长度少于4个氨基酸的修饰的FSP被排除在CVP之外，和

其中CVP的氨基酸序列包括在步骤a)中选择和/或在步骤(b)中修饰的FSP或其抗原性片段的氨基酸序列；

并且其中Y为至少20，更优选为至少35。

在第二方面的上下文中，应注意的是，如在步骤(b)中明显的，使用术语“确定”不是指“识别”肽序列(例如通过测序)，而是指“定义”、“固定”、“编码”或“修饰”。

在一个实施方案中，步骤(b)中修饰的FSP中的至少一种是或预期是i)免疫原性的，和ii)存在于患者肿瘤中。优选地，该FSP的免疫原性不被选择或修饰的另一FSP抑制。

在另一个实施方案中，在步骤(b)中修饰的FSP是用于产生通用MSI CVP的候选FSP，通用MSI CVP用于预防或治疗患有包括遗传性和散发性MSI癌症在内的癌症或处于发展这种癌症的风险的患者。

根据步骤(b)对FSP进行修饰服务于改善FSP抗原性的目的。优选地，至少50％的满足标准(i)、(ii)、(iii)、(i)+(ii)、(i)+(iii)、(ii)+(iii)或(i)+(ii)+(iii)的FSP被修饰，更优选地，至少60％的满足标准(i)、(ii)、(iii)、(i)+(ii)、(i)+(iii)、(ii)+(iii)或(i)+(ii)+(iii)的FSP被修饰，至少70％的满足标准(i)、(ii)、(iii)、(i)+(ii)、(i)+(iii)、(ii)+(iii)或(i)+(ii)+(iii)的FSP被修饰，更优选地，至少80％的满足标准(i)、(ii)、(iii)、(i)+(ii)、(i)+(iii)、(ii)+(iii)或(i)+(ii)+(iii)的FSP被修饰，更优选地，至少90％的满足标准(i)、(ii)、(iii)、(i)+(ii)、(i)+(iii)、(ii)+(iii)或(i)+(ii)+(iii)的FSP被修饰，更优选地，至少95％的满足标准(i)、(ii)、(iii)、(i)+(ii)、(i)+(iii)、(ii)+(iii)或(i)+(ii)+(iii)的FSP被修饰，和最优选地，至少100％的满足标准(i)、(ii)、(iii)、(i)+(ii)、(i)+(iii)、(ii)+(iii)或(i)+(ii)+(iii)的FSP被修饰。

在本发明第二方面的优选实施方案中，在步骤(a)中选择FSP和mFSP，其中FSP连续选自CFSP，并且在每个选择步骤中，从CFSP中选择新的FSP，其增加低于阈值的FSP氨基酸总长度的累积量(CAFSPL)，以在最大癌症样品数的处达到阈值，并且任选地，如果多于一种FSP增加了最大癌症样品数的CAFSPL，且CAFSPL仍低于阈值，将选择得分最高的FSP。

在本发明第二方面的优选实施方案中：

(i)通过将已经是CVP的一部分的FSP的氨基酸长度与来自CFSP的新FSP的氨基酸长度相加来确定每个癌症样品的CAFSPL，其中相应的FSM存在于癌症样品中；和/或

(ii)其中阈值是针对属于特定癌症类型的CS外样品的每个子集分别定义的；和/或

(iii)其中将得分定义为FSP的氨基酸长度与在CS中观察到生成FSP的FSM的总频率之间的乘积，任选地不计算其中CF低于5％，更优选低于4％，更优选低于3％的癌症类型的CS中的FSM，和/或

(iv)其中癌症样品子集包括来自肿瘤类型的所有癌症样品，其中存在CF大于或等于5％，更优选大于或等于10％、大于或等于15％的FSM；和/或

(v)其中由总频率低于5％，更优选低于4％，更优选低于3％的FSM产生的FSP被排除在选择之外；和/或

(vi)其中继续添加新的FSP和/或修饰的FSP，直到没有其他包含在CVP中会增加任何癌症样品的CAFFSP的FSP可用，其中任何癌症样品的CAFFSP仍然低于阈值(TV)或CVP中存在的所有FSP的累积长度已经达到V氨基酸最大值；和/或

(vii)其中源自同一FSM的FSP被视为一种FSP，其中综合得分被计算为各种FSP得分的总和。

标准(i)至(vii)的目的是通过为患有一种或多于一种类型MSI癌症的一组患者提供高免疫原性，从而改善为CVP选择的FSP的通用性。另外，标准(vi)还允许通过限制疫苗中可编码的抗原总量来选择在实践上可行的CVP。计分系统的使用确保将具有较高观察频率(因此预期存在于大量患者中)和较长总氨基酸长度(即具有较高总体免疫原性的FSP)的FSP包括在CVP中。

在优选的实施方案中，至少50％、更优选至少60％、至少70％、至少80％、至少90％、至少95％的FSP满足标准(i)+(iii)+(vi)。

因此，优选地，优选地基于标准(i)+(iii)+(vi)，更优选地基于标准(i)+(ii)+(iii)+(vi)、(i)+(iii)+(iv)+(vi)、(i)+(iii)+(v)+(vi)或(i)+(iii)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(vi)、(i)+(ii)+(iii)+(v)+(vi)、(i)+(ii)+(iii)+(vi)+(vii)、(i)+(iii)+(iv)+(v)+(vi)、(i)+(iii)+(iv)+(vi)+(vii)或(i)+(iii)+(v)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)、(i)+(ii)+(iii)+(iv)+(vi)+(vii)、(i)+(ii)+(iii)+(v)+(vi)+(vii)或(i)+(iii)+(iv)+(v)+(vi)+(vii)，最优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)+(vii)，选择至少50％的FSP；更有选地，优选基于标准(i)+(iii)+(vi)，更优选基于标准(i)+(ii)+(iii)+(vi)、(i)+(iii)+(iv)+(vi)、(i)+(iii)+(v)+(vi)或(i)+(iii)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(vi)、(i)+(ii)+(iii)+(v)+(vi)、(i)+(ii)+(iii)+(vi)+(vii)、(i)+(iii)+(iv)+(v)+(vi)、(i)+(iii)+(iv)+(vi)+(vii)或(i)+(iii)+(v)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)、(i)+(ii)+(iii)+(iv)+(vi)+(vii)、(i)+(ii)+(iii)+(v)+(vi)+(vii)或(i)+(iii)+(iv)+(v)+(vi)+(vii)，最优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)+(vii)，选择至少60％的FSP；更优选地，优选基于标准(i)+(iii)+(vi)，更优选基于标准(i)+(ii)+(iii)+(vi)、(i)+(iii)+(iv)+(vi)、(i)+(iii)+(v)+(vi)或(i)+(iii)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(vi)、(i)+(ii)+(iii)+(v)+(vi)、(i)+(ii)+(iii)+(vi)+(vii)、(i)+(iii)+(iv)+(v)+(vi)、(i)+(iii)+(iv)+(vi)+(vii)或(i)+(iii)+(v)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)、(i)+(ii)+(iii)+(iv)+(vi)+(vii)、(i)+(ii)+(iii)+(v)+(vi)+(vii)或(i)+(iii)+(iv)+(v)+(vi)+(vii)，最优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)+(vii)，选择至少70％的FSP；更优选地，优选基于标准(i)+(iii)+(vi)，更优选基于标准(i)+(ii)+(iii)+(vi)、(i)+(iii)+(iv)+(vi)、(i)+(iii)+(v)+(vi)或(i)+(iii)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(vi)、(i)+(ii)+(iii)+(v)+(vi)、(i)+(ii)+(iii)+(vi)+(vii)、(i)+(iii)+(iv)+(v)+(vi)、(i)+(iii)+(iv)+(vi)+(vii)或(i)+(iii)+(v)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)、(i)+(ii)+(iii)+(iv)+(vi)+(vii)、(i)+(ii)+(iii)+(v)+(vi)+(vii)或(i)+(iii)+(iv)+(v)+(vi)+(vii)，最优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)+(vii)，选择至少80％的FSP；更优选地，优选基于标准(i)+(iii)+(vi)，更优选基于标准(i)+(ii)+(iii)+(vi)、(i)+(iii)+(iv)+(vi)、(i)+(iii)+(v)+(vi)或(i)+(iii)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(vi)、(i)+(ii)+(iii)+(v)+(vi)、(i)+(ii)+(iii)+(vi)+(vii)、(i)+(iii)+(iv)+(v)+(vi)、(i)+(iii)+(iv)+(vi)+(vii)或(i)+(iii)+(v)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)、(i)+(ii)+(iii)+(iv)+(vi)+(vii)、(i)+(ii)+(iii)+(v)+(vi)+(vii)或(i)+(iii)+(iv)+(v)+(vi)+(vii)，最优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)+(vii)，选择至少90％的FSP；和最优选地，优选基于标准(i)+(iii)+(vi)，更优选基于标准(i)+(ii)+(iii)+(vi)、(i)+(iii)+(iv)+(vi)、(i)+(iii)+(v)+(vi)或(i)+(iii)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(vi)、(i)+(ii)+(iii)+(v)+(vi)、(i)+(ii)+(iii)+(vi)+(vii)、(i)+(iii)+(iv)+(v)+(vi)、(i)+(iii)+(iv)+(vi)+(vii)或(i)+(iii)+(v)+(vi)+(vii)，更优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)、(i)+(ii)+(iii)+(iv)+(vi)+(vii)、(i)+(ii)+(iii)+(v)+(vi)+(vii)或(i)+(iii)+(iv)+(v)+(vi)+(vii)，最优选基于标准(i)+(ii)+(iii)+(iv)+(v)+(vi)+(vii)，选择至少100％的FSP。

对于本领域技术人员明显的是，该得分也可以以替代方式定义，例如仅基于产生FSP的FSM的总频率、FSP的长度或倒数长度，或者作为癌症特异性得分的总和，或者在从该得分的计算中排除一种或多于一种癌症类型之后的癌症特异性得分的总和。替代得分还可以包括或仅基于每个FSP内预测的I类MHC和/或II类MHC表位的数目。对于技术人员而言还明显的是，如果已知包含FSM的特定mRNA同种型的表达水平，则可以修改标准(vii)。在这种情况下，可以从选择中排除由相同FSM产生的一种或多于一种FSP，或者可以根据观察到的同种型的相对表达水平对由包含FSM的各个mRNA同种型产生的FSP的得分进行加权。

在本发明第二方面的优选实施方案中：

(i)继续添加新的FSP，直到不再有其他包含在CVP中会增加任何癌症样品的CAFSPL的FSP可用，其中任何癌症样品的CAFSPL仍低于TV；和/或

(ii)源自同一FSM的FSP被视为一种FSP，其中综合得分被计算为各种FSP得分的总和。

在本发明第二方面的优选实施方案中

(a)TV为至少400个氨基酸，优选至少600个氨基酸，更优选至少800个氨基酸；或

(b)TV是：

(i)针对结肠直肠癌和胃癌至少400个氨基酸，优选至少600个氨基酸，更优选至少800个氨基酸；和

(ii)针对子宫内膜癌至少200个氨基酸，优选至少300个氨基酸，更优选至少400个氨基酸。

对于本领域技术人员明显的是，TV的值可以扩展到在包括不同类型的癌症的CS中进行选择的任何情况，该不同类型的癌症例如是来自结肠直肠、胃癌、子宫内膜癌、小肠癌、肝胆道癌、肝癌、神经内分泌癌、宫颈癌、卵巢癌、子宫肉瘤、脑癌和/或皮肤癌的样品组合。

在本发明第二方面的优选实施方案中：

(i)CVP包含选自CFSP的每个FSP的至少4个氨基酸；和/或

(ii)选择Y，使得作为CVP一部分的所有肽的累积氨基酸长度V为至少280个氨基酸，优选至少6000个氨基酸；

(iii)Y为至少35，优选至少50，优选至少100，更优选至少200，和/或

(iv)CVP包括选自根据SEQ ID NO：1至1087的FSP和/或mFSP，优选选自根据SEQ IDNO：1至209的FSP和/或mFSP的FSP和/或mFSP。

FSP和如果被修饰的mFSP或其CVP的抗原片段的合成可以通过编码FSP和如果被修饰的mFSP或其抗原片段的核酸的集合的重组表达来进行，或通过化学合成来进行。类似地，编码CVP的肽的核酸集合的合成可以通过包括固相化学合成在内的已知方法进行。

在第四方面，本发明涉及可通过本发明第二方面的方法产生的CVP或编码所述CVP的肽的核酸的集合。

在第五方面，CVP包含Y个不同的FSP和/或mFSP或具有至少8个氨基酸的长度的FSP和/或mFSP的抗原片段或由其组成，其中每个FSP或被修饰为mFSP的FSP是包含FSM的核酸的蛋白质编码片段的完整翻译产物，包含FSM的核酸从与没有FSM的相应wt核酸的翻译产物不同的编码第一个氨基酸的密码子开始，FSM在任何情况下具有至少4个氨基酸长度，并且其中至少50％的FSP或修饰为mFSP的FSP满足以下一个或多于一个条件：

(a)FSP由观察到具有癌症类型特异性频率(CF)的FSM编码，癌症类型特异性频率(CF)是对于特定类型癌症的CS子集观察到的，该子集是M个不同CS的集合的一部分，也就是CS中存在的至少一种癌症类型至少为5％；和/或

其中满足以下条件的一种或多于一种或所有FSP的氨基酸序列：(i)由包含从由FC编码的氨基酸开始的FSM的核酸所编码的FSP的长度为4个至9个氨基酸，和/或(ii)FSP包含一种或多于一种相同的8个或多于8个氨基酸的连续片段，其存在于由相同FSM编码的多于一种FSP中，和/或(iii)FSP包含一种或多于一种8个或多于8个氨基酸的连续片段，其也存在于wt人蛋白质中，

对于根据(i)的FSP，通过在FSP的N端添加野生型(wt)氨基酸序列的1个至4个氨基酸来进行修饰，该野生型(wt)氨基酸序列紧邻FSP的上游，并且其中修饰的FSP(mFSP)的长度至少为8个氨基酸；对于根据(ii)的FSP，通过从除最长FSP之外的所有FSP中除去这些连续片段来进行修饰，条件是在除去连续片段后长度小于4个氨基酸的FSP被排除在CVP之外；和/或对于根据(iii)的FSP，通过除去这些片段来进行修饰；除去连续序列后长度少于4个氨基酸的修饰的FSP被排除在CVP之外；

且其中Y至少为20，更优选至少为35，且M至少为5。

优选地，至少50％的包括在CVP中的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。优选地，60％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少70％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少80％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少90％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。更优选地，至少95％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)和最优选地，至少100％的为CFSP选择的FSP满足标准(a)、(b)、(c)、(a)+(b)、(a)+(c)、(b)+(c)或(a)+(b)+(c)。

关于标准(a)，优选地，FSP由观察到具有CF的FSM编码，该CF是对于特定类型癌症的CS子集观察到的，该子集是M个不同CS的集合的一部分，也就是CS中存在的至少一种或所有癌症类型至少为10％，优选至少为15％，优选至少为20％，优选至少为25％，优选至少为30％，更优选至少为35％，更优选至少为40％。

关于标准(b)，优选地，具有编码FSP的FSM的基因的平均mRNA表达水平在描述CS中的每个蛋白质编码基因的平均mRNA表达值的分布的前75个百分点中，优选前70个百分点中，优选前65个百分点中，优选前60个百分点中，优选前55个百分点中，更优选前50个百分点中，更优选前40个百分点中，更优选前30个百分点中。FSP的相对丰度越高，免疫应答的诱导就越有可能有效治疗或预防MSI癌症。为了清楚起见，短语“前80个百分点”指具有包括最高表达的mRNA的表达水平并且仅排除了最低表达的19％的mRNA的所有FSM。因此，“前30个百分点”指具有包括最高表达的mRNA的表达水平并且排除了最低表达的69％的mRNA的所有FSM。

关于标准(c)，优选的是，在没有癌症的一组患者的正常组织中，观察到产生FSP的FSM少于2％，更优选少于1.9％、少于1.8％、少于1.7％、少于1.6％、少于1.5％、少于1.4％、少于1.3％、少于1.2％、少于1.1％、少于1.0％或更少。

在一个优选的实施方案中，本发明的第五方面的CVP：

(i)CS来自患有MSI肿瘤的患者，MSI肿瘤优选地是结肠直肠癌和/或胃癌和/或子宫内膜癌，更优选地是结肠直肠癌、胃癌和子宫内膜癌；和/或

(ii)M为至少10，优选至少20，优选至少30，优选至少50，更优选至少100，更优选至少200，最优选至少300；和/或

(iii)Y为至少35，优选至少50，优选至少100，更优选至少200；和/或

(iv)CVP包含每个FSP的至少4个，优选至少6个，更优选至少8个氨基酸；和/或

(v)选择Y，使得作为CVP一部分的所有FSP和/或mFSP或其抗原性片段的累积氨基酸长度V为至少280个氨基酸，优选至少500个氨基酸，优选至少1000个氨基酸，优选至少1500个氨基酸，优选至少2000个氨基酸，优选至少2500个氨基酸，优选至少3000个氨基酸，优选至少3500个氨基酸，优选至少4000个氨基酸，优选至少4500个氨基酸，优选至少5000个氨基酸，优选至少5500个氨基酸，更优选至少6000个氨基酸；和/或

(vi)CVP的FSP和/或mFSP选自根据SEQ ID NO：1至1087的FSP和/或mFSP，优选选自根据SEQ ID NO：1至209的FSP和/或mFSP。

优选地，M为至少30且Y为至少50，优选为至少100，更优选为至少200，更优选为至少300，优选地，M为至少50且Y为至少50，优选为至少100，更优选为至少200，更优选为至少300，M为至少100且Y为至少50，优选为至少100，更优选为至少200，更优选为至少300，M为至少200且Y为至少50，优选至少100，更优选至少200，且更优选至少300，甚至更优选M为至少300且Y为至少50，优选至少100，更优选至少200，更优选至少300。

在本发明的一个实施方案中，本发明的第五方面的CVP还包含一种或多于一种非MSI癌症特异性抗原。优选地，此类抗原还对一种或多于一种待治疗的癌症类型具有特异性。

在一个优选的实施方案中，CVP的至少35个，优选至少50个，优选至少100个，更优选至少200个，更优选至少209个FSP和/或mFSP或其抗原片段选自根据SEQ ID NO：1至1087的FSP和/或mFSP，优选选自根据SEQ ID NO：1至209的FSP和/或mFSP。

根据SEQ ID NO：1至1087的FSP和mFSP的顺序为1至1087，该顺序与预防或治疗MSI肿瘤，特别是结肠直肠癌、胃癌和子宫内膜癌的相关性递减。特别合适的子集包括FSP和mFSP或由其组成，其氨基酸序列为SEQ ID NO：1至50、SEQ ID NO：1至75、SEQ ID NO：1至100、SEQ ID NO：1至125、SEQ ID NO：1至150、SEQ ID NO：1至175、SEQ ID NO：1至200，特别优选为SEQ ID NO：1至209、SEQ ID NO：1至225、SEQ ID NO：1至250、SEQ ID NO：1至275、SEQID NO：1至300、SEQ ID NO：1至325、SEQ ID NO：1至350、SEQ ID NO：1至375、SEQ ID NO：1至400、SEQ ID NO：1至450、SEQ ID NO：1至500、SEQ ID NO：1至550、SEQ ID NO：1至600、SEQID NO：1至650、SEQ ID NO：1至700、SEQ ID NO：1至750、SEQ ID NO：1至800、SEQ ID NO：1至850、SEQ ID NO：1至900、SEQ ID NO：1至950、SEQ ID NO：1至1000、SEQ ID NO：1至1050或SEQ ID NO：1至1087。尽管优选的是，子集恰好包括分别指示的FSP和/或mFSP或由其组成，但是本领域技术人员应当理解的是，这些FSP和/或mFSP中的1％至10％可以从集合中省略而其活性没有任何实质性损失。类似地，并且如“包含”语言所暗示的，包括例如SEQ ID NO：1至200的氨基酸序列的子集可另外包含1个至100个或多于100个的SEQ ID NO：201至1087的FSP或mFSP和/或一种或多于一种其他FSP或mFSP或非MSI癌症特异性抗原。

在一个优选的实施方案中，本发明的第五方面的CVP，已经从CFSP中连续选择了CVP的FSP，并且其中在每个选择步骤中，从CFSP中选择新的FSP或其抗原性片段来增加低于最大癌症样品数中的阈值的CAFSPL以达到该阈值，并且任选地，如果多于一种FSP增加了最大癌症样品数的CASPL，且CASPL仍然低于阈值，则选择得分最高的FSP。

在一个优选的实施方案中，本发明的第五方面的CVP：

(i)通过将已经是CVP的一部分的FSP的氨基酸长度与来自CFSPP的新FSP的氨基酸长度相加来确定每个癌症样品的CAFSPL，其中相应的FSM存在于癌症样品中；和/或

(ii)阈值是针对属于特定癌症类型的CS外样品的每个子集分别定义的；和/或

(iii)将得分定义为FSP的氨基酸长度与在CS中观察到生成FSP的FSM的总频率之间的乘积；和/或

(iv)继续添加新的FSP，直到不再有其他包含在CVP中会增加任何癌症样品的CAFSPL的FSP可用，其中任何癌症样品的CAFSPL仍低于阈值(TV)；和/或

(v)其中源自同一FSM的FSP被视为一种FSP，其中综合得分被计算为各种FSP得分的总和。

在一个优选的实施方案中，本发明的第五方面的CVP，

(i)其中通过将已经是CVP的一部分的FSP的氨基酸长度与来自CFSP的新FSP的氨基酸长度相加来确定每个癌症样品的CAFSPL，其中相应的FSM存在于癌症样品中；和/或

(iii)其中将得分定义为FSP的氨基酸长度与产生FSP的FSM的总频率之间的乘积，其中CF低于5％，更优选低于4％，更优选低于3％的癌症类型的癌症样品中的FSM；和/或

(iv)其中癌症样品子集包括来自肿瘤类型的所有癌症样品，其中存在CF大于或等于5％，更优选大于或等于10％大于或等于15％的FSM；和/或

(vi)其中继续添加新的FSP，直到没有其他包含在CVP中会增加任何癌症样品的CAFFSP的FSP可用，其中任何癌症样品的CAFFSP仍然低于TV或CVP中存在的所有FSP的累积长度已经达到V氨基酸最大值；和/或

(vii)并且其中源自同一FSM的FSP被视为一种FSP，其中综合得分被计算为各种FSP得分的总和。

本领域技术人员应当理解的是，可以通过第一方面和第二方面的方法来设计根据第五方面的CVP，因此，关于第一方面和第二方面概述的选择步骤和标准可以等同地用于表征第五方面的CVP。因此，在优选的实施方案中，至少50％、更优选至少60％、至少70％、至少80％、至少90％、至少95％的FSP满足标准(i)+(iii)+(vi)。

在一个优选实施方案中，本发明的第五方面的CVP：

(b)TV是：

在一个优选的实施方案中，本发明的第五方面的CVP，CVP的肽是分开的，或至少两个FSP和/或mFSP包含在一种或多于一种多肽中。当将两个或多于两个FSP和/或mFSP连接成多肽时，优选该连接是直接用肽键连接的，即没有氨基酸接头。

还优选的是，在连接多肽内的两个FSP和/或mFSP之前，评估所得的连接序列是否包含也存在于wt人类蛋白质中的一种或多于一种8个或多于8个氨基酸的连续片段。如果是这样的话，那两个肽就不以这种方式连接。因此，连接的FSP和/或mFSP的所得多肽将不包含也存在于wt人蛋白质中的一种或多于一种8个或多于8个氨基酸的连续片段。取决于CVP中包含的FSP和/或mFSP的总长度，FSP和/或mFSP可以包含在两种、三种、四种、五种、六种或多于六种多肽中。

本发明人已经将SEQ ID NO：1至209的209个FSP和mFSP或其抗原性片段组装在四种多肽中，并且发现这是提供这些抗原的特别合适的方式。四种多肽中的SEQ ID NO：1至209的FSP和mFSP的优选排列由以下四种多肽组成或包含以下四种多肽，其氨基酸序列分别为SEQ ID NO：1088至1091(布局A)、SEQ ID NO：1092至1095(布局B)、SEQ ID NO：1155至1158(布局C)或SEQ ID NO：1159至1162(布局D)。

优选的是，在随后几轮施用相同的CVP，即包含相同的FSP和mFSP的CVP的过程中，包含例如根据SEQ ID NO：1至209的FSP和mFSP的多肽以不同的顺序排列。这再次使针对连接表位的不希望的免疫反应最小化。例如，优选组合施用多肽布局A与多肽布局B的CVP、布局A与布局C的CVP、布局A与布局D的CVP、布局B与布局C的CVP、布局B与布局D的CVP、布局C与布局D的CVP、布局A与布局B和布局C的CVP、布局A与布局B和布局D的CVP、布局B与布局C和布局D的CVP、布局A与布局B、布局C和布局D的CVP。

因此，本发明还包含2种、3种、4种、5种、6种或多于6种不同的多肽布局，其中每组包括一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种、10种或多于10种多肽，该多肽包含相同FSP和mFSP或其抗原性片段或由其组成，即相同的CVP。因此，每组之间的差异不是FSP、mFSP或其抗原性片段的氨基酸序列，而是FSP、mFSP或其抗原性片段在相应数目的多肽中的排列。特别优选地，给定的CVP以两种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种多肽，最优选4种多肽，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成；以三种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种多肽，最优选4种多肽，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成；以四种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种多肽，最优选4种多肽，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成；以五种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种多肽，最优选4种多肽，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成。优选地，每个不同的布局通过不同的连接顺序与其他布局区分开，即两个布局不包括相同的一个FSP或mFSP至下一个FSP或mFSP的N端至C端链之间的链。

通常分别对患者施用每个布局，因此，不同的布局也可以视为相同CVP的单独组合。

在一个优选的实施方案中，本发明第五方面的CVP，优选通过肽键将CVP的一个或多于一个FSP和/或mFSP或包含两个或多于两个FSP和/或mFSP的多肽连接至一种或多于一种增强CVP免疫原性的以下元件：恒定链序列或其片段；组织型纤溶酶原激活剂；PEST序列；细胞周期蛋白破坏盒；泛素化信号；SUMO化信号；白介素，优选白介素2、白介素12或白介素15；检查点蛋白特异性配体，优选抗PD1抗体或其PD1结合片段、抗CTLA4抗体或其抗CTLA4结合片段、抗LAG3抗体或抗LAG3结合片段、抗TIM3抗体或其抗TIM3结合片段。

在一个优选的实施方案中，在N端添加分选信号(人组织纤溶酶原激活物信号肽(hTPA；被分类为hTPA的SEQ ID NO：1104或其功能片段)或人恒定链(hINV；被分类为hINV的SEQ ID NO：1105或其功能片段)，任选地，在SEQ ID NO：1088至1091(布局A)、SEQ ID NO：1092至1095(布局B)、SEQ ID NO：1155至1158(布局C)或SEQ ID NO：1159至1162(布局D)的多肽的C端添加流感HA标签序列(SEQ ID NO：1106)。

如此构建的多肽的优选氨基酸序列提供为针对hTPA的SEQ ID NO：1107至1110(布局A)、SEQ ID NO：1111至1114(布局B)、SEQ ID NO：1171至1174(布局C)和SEQ ID NO：1179至1182(布局D)以及针对hINV的SEQ ID NO：1115至1118(布局A)、SEQ ID NO：1119至1122(布局B)、SEQ ID NO：1175至1178(布局C)和SEQ ID NO：1183至1186(布局D)。

在第六方面，本发明涉及编码本发明第五方面的CVP的核酸的集合。核酸可以优选地是DNA、RNA或修饰的RNA以增加血清半衰期。

对于上述有关CVP的原因，优选使用1种、2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种包含FSP、mFPS或其抗原片段的多肽的2种、3种、4种、5种、6种、7种、8种、9种、10种或多于10种，优选4种不同布局。一致地，编码相应数目的多肽的核酸的集合具有不同的布局。在一个优选的实施方案中，编码FSB和/或mFSB的核酸的集合编码根据SEQ ID NO：1088至1091(布局A)、SEQ ID NO：1092至1095(布局B)、SEQ ID NO：1155至1158(布局C)或SEQ ID NO：1159至1162(布局D)的四种多肽，并且基于人密码子使用进行了密码子优化。

当以编码给定CVP的核酸的集合的形式施用CVP时，优选使用2种、3种、4种、5种、6种或多于6种不同的核酸的布局，其中每种布局包括一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种、10种或多于10种核酸，该核酸编码包含相同FSP和mFSP或其抗原性片段或由其组成的多肽，即编码相同的CVP。特别优选地，编码本发明的第四方面或第五方面的CVP的核酸的给定集合以两种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种编码多肽的核酸，最优选4种编码多肽的核酸，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成；以三种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种编码多肽的核酸，最优选4种编码多肽的核酸，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成；以四种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种编码多肽的核酸，最优选4种编码多肽的核酸，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成；以五种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种编码多肽的核酸，最优选4种编码多肽的核酸，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成；以六种不同的布局提供，并且包含一种或多于一种，优选2种、3种、4种、5种、6种、7种、8种、9种或10种或多于10种编码多肽的核酸，最优选4种编码多肽的核酸，该多肽包含相同的FSP和mFSP或其抗原片段或由其组成。

编码相同CVP的编码SEQ ID NO：1至209的FSP和mFSP的但具有不同布局的此类核酸集合的其他实例以具有hTPA的布局A的SEQ ID NO：1123至1126和布局C的SEQ ID NO：1187至1190提供；具有hTPA的布局B的SEQ ID NO：1127至1130和布局D的SEQ ID NO：1191至1194提供；具有hINV的布局A的SEQ ID NO：1131至1134和布局C的SEQ ID NO：1195至1198提供，以及具有hINV的布局B的SEQ ID NO：1135至1138和布局D的SEQ ID NO：1199至1202提供。

在一个优选的实施方案中，可以将Kozak序列(CGCGACTTCGCCGCC)直接置于根据本发明的第四方面或第六方面的核酸集合的起始密码子的上游，以允许有效的翻译起始，并且将TAA终止密码子置于HA标签的下游。最后，优选地，核酸的集合包含两个侧翼区段，该两个侧翼区段包含独特的限制性位点以促进盒的亚克隆，并且分别添加在核苷酸序列的5′端和3′端(图7)。

本发明第四方面和第六方面的核酸的集合也可以包含在表达盒中。

在第七方面，本发明涉及一种或多于一种表达载体的集合，每种表达载体包含本发明第四方面或第六方面的核酸集合的全部或部分，其中表达载体的集合的整体包括本发明第四方面或第六方面的所有核酸集合，即其中表达载体的集合包括编码给定CVP的所有FSP、mFSP或其抗原性片段的核酸。

优选的表达载体的集合包含一种或多于一种增强表达载体的免疫原性的元件。优选地，这样的元件被表达为与FSP、mFSP或其抗原性片段的融合体，或者由载体，优选表达盒中包含的另一种核酸编码。

在一个优选的实施方案中，增强CVP的免疫原性的元件选自恒定链序列或其免疫刺激片段；组织型纤溶酶原激活剂；PEST序列；细胞周期蛋白破坏盒；泛素化信号；SUMO化信号；白介素，优选白介素2、白介素12或白介素15；检查点蛋白特异性配体，优选抗PD1抗体或其PD1结合片段、抗CTLA4抗体或其抗CTLA4结合片段、抗LAG3抗体或抗LAG3结合片段、抗TIM3抗体或其抗TIM3结合片段。

在第七方面的表达载体的一个优选的实施方案中，所述集合的每个表达载体独立地选自质粒；黏粒；RNA；用佐剂配制的RNA；用脂质体颗粒配制的RNA；自扩增RNA(SAM)；用佐剂配制的SAM；配制在脂质体颗粒中的SAM；病毒载体；优选α病毒载体、委内瑞拉马脑炎(VEE)病毒载体、辛德毕斯(SIN)病毒载体、森林脑炎病毒(SFV)病毒载体，还优选优选来自黑猩猩或倭黑猩猩或大猩猩的具有复制能力或无复制能力的腺病毒载体、痘病毒载体、牛痘病毒载体或修饰的安卡拉牛痘病毒(MVA)载体、类人猿或人巨细胞病毒(CMV)载体、淋巴细胞脉络丛脑膜炎病毒(LCMV)载体、逆转录病毒或慢病毒载体。优选的是，在一个集合中使用的所有表达载体是相同类型的，例如无复制能力的腺病毒载体。

最优选的表达载体是腺病毒载体，特别是衍生自人或非人类人猿的腺病毒载体。优选的衍生腺病毒的类人猿是黑猩猩(Pan)、大猩猩(Gorilla)和猩猩(Pongo)，优选倭黑猩猩(Pan paniscus)和普通黑猩猩(Pan troglodytes)。通常，从相应类人猿的粪便样品中分离天然存在的非人类人猿腺病毒。最优选的载体是基于hAd5、hAd11、hAd26、hAd35、hAd49、ChAd3、ChAd4、ChAd5、ChAd6、ChAd7、ChAd8、ChAd9、ChAd10、ChAd11、ChAd16、ChAd17、ChAd19、ChAd20、ChAd22、ChAd24、ChAd26、ChAd30、ChAd31、ChAd37、ChAd38、ChAd44、ChAd55、ChAd63、ChAd73、ChAd82、ChAd83、ChAd146、ChAd147、PanAd1、PanAd2和PanAd3载体的无复制能力的腺病毒载体或具有复制能力的Ad4和Ad7载体。人腺病毒hAd4、hAd5、hAd7、hAd11、hAd26、hAd35和hAd49是本领域众所周知的。基于天然存在的ChAd3、ChAd4、ChAd5、ChAd6、ChAd7、ChAd8、ChAd9、ChAd10、ChAd11、ChAd16、ChAd17、ChAd19、ChAd20、ChAd22、ChAd24、ChAd26、ChAd30、ChAd31、ChAd37、ChAd38、ChAd44、ChAd63和ChAd82的载体在WO 2005/071093中详细描述。在WO 2010/086189中详细描述了基于天然存在的PanAd1、PanAd2、PanAd3、ChAd55、ChAd73、ChAd83、ChAd146和ChAd147的载体。

在一个特定的实施方案中，腺病毒载体是Gad20(也称为GADNOU20，SEQ ID NO：1219)或由其衍生。在一个实施方案中，由其衍生表示腺病毒载体与SEQ ID NO：1219具有至少85％，优选至少90％、95％、96％、97％、98％或99％的序列同一性。但是，在一个优选的实施方案中，其含义是：

腺病毒载体编码腺病毒六邻体蛋白，其包含：

(i)第一高变区HVR1，其包含由SEQ ID NO：1219的核苷酸第19386至19472位编码的氨基酸(aa)序列，或具有至少85％aa序列同一性的其变体，其中在aa27位不为A，优选为V，

(ii)第二高变区HVR2，其包含由SEQ ID NO：1219的核苷酸第19527至19571位编码的aa序列，或具有至少85％aa序列同一性的其变体，其中在aa1位不为L，优选为I，

(iii)第三高变区HVR3，其包含由SEQ ID NO：1219的核苷酸第19623至19643位编码的aa序列，或具有至少85％aa序列同一性的其变体，其中在aa7位不为V，优选为A，

(iv)第四高变区HVR4，其包含由SEQ ID NO：1219的核苷酸第19737至19772编码的aa序列，或具有至少85％aa序列同一性的其变体，

(v)第五高变区HVR5，其包含由SEQ ID NO：1219的核苷酸第19794至19838编码的aa序列，或具有至少85％aa序列同一性的其变体，

(vi)第六高变区HVR6，其包含由SEQ ID NO：1219的核苷酸第19908至19934编码的aa序列，或具有至少85％aa序列同一性的其变体，和

(vii)第七高变区HVR7，其包含由SEQ ID NO：1219的核苷酸第20259至20336位编码的aa序列，或具有至少85％aa序列同一性的其变体，其中在aa1位不为I，优选为V。

在一个优选的实施方案中，HVR变体具有至少90％，更优选至少95％的序列同一性。除了通过序列同一性的百分比水平来定义之外，可以将HVR变体定义为相对于编码序列具有一定数量的氨基酸突变。突变的数量如下：代替至少85％的序列同一性，在HVR1中至多4个突变，在HVR2中至多2个突变，在HVR3中至多1个突变，在HVR4中至多1个突变，在HVR5中至多2个突变，在HVR6中至多1个突变，在HVR7中至多3个突变；代替至少90％的序列同一性，在HVR1中至多2个突变，在HVR2中至多1个突变，在HVR3中至多1个突变，优选没有突变，在HVR4中至多1个突变，在HVR5中至多1个突变，在HVR6中至多1个突变，优选没有突变，在HVR7中至多2个突变；代替至少95％的序列同一性，在HVR1中至多有1个突变，在HVR2中至多有1个突变，优选没有突变，在HVR3中至多有1个突变，优选没有突变，在HVR4中至多有1个突变，优选没有突变，在HVR5中至多1个突变，优选没有突变，在HVR6中至多1个突变，优选没有突变，在HVR7中至多1个突变。

如本领域已知的，例如根据Bradley等人(J Virol.，2012 Jan；86(2)：1267-72)，腺病毒中和抗体靶向六邻体高变区，并通过用血清流行性置换腺病毒的HVR区来使腺病毒逃避免疫宿主的免疫系统。因此，尽管上述HVR可以与下面定义的各自的六邻体蛋白一起使用，但是它们具有与那些六邻体蛋白以及下面的五邻体和纤维蛋白无关的效用，即通过在具有其他六邻体、五邻体和/或纤维蛋白的不同腺病毒中替换六邻体HVR。

在一个优选的实施方案中，六邻体蛋白包含由SEQ ID NO：1219的核苷酸第18981至21845位编码的氨基酸序列，或具有至少85％序列同一性的其变体。

在一个优选的实施方案中，六邻体变体具有至少90％，优选至少95％、96％、97％、98％或99％的序列同一性。除了通过序列同一性的百分比水平来定义之外，可以将六邻体变体定义为相对于编码序列具有一定数量的氨基酸突变。突变的数量如下：代替至少85％的序列同一性，至多143个突变；代替至少90％的序列同一性，至多95个突变；代替至少95％的序列同一性，至多47个突变；代替至少96％的序列同一性，至多38个突变；代替至少97％的序列同一性，至多28个突变；代替至少98％的序列同一性，至多19个突变；代替至少99％的序列同一性，至多9个突变。应当理解的是，与针对以上各个HVR所定义的突变相比，六邻体变体在其HVR中不具有更小的序列同一性，或也不具有更多的突变。

在一个实施方案中，腺病毒载体还编码腺病毒五邻体蛋白，其包含由SEQ ID NO：1219的核苷酸第14021至15973位编码的氨基酸序列，或具有至少85％序列同一性的其变体。在一个优选的实施方案中，五邻体变体相较于编码序列具有至少90％，优选至少95％、96％、97％、98％或99％的序列同一性。除了通过序列同一性的百分比水平来定义之外，可以将五邻体变体定义为具有一定数量的氨基酸突变。突变的数量如下：代替至少85％的序列同一性，至多97个突变；代替至少90％的序列同一性，至多65个突变；代替至少95％的序列同一性，至多32个突变；代替至少96％的序列同一性，至多26个突变；代替至少97％的序列同一性，至多19个突变；代替至少98％的序列同一性，至多13个突变；代替至少99％的序列同一性，至多6个突变。

优选地，五邻体变体在289位不为D，优选为G，并且在341位不为D，优选为N。

在另一个实施方案中，腺病毒载体还(即毗邻六邻体和可能的五邻体蛋白)编码包含由SEQ ID NO：1219的核苷酸第32163至33956位编码的氨基酸序列或具有至少85％序列同一性的其变体的腺病毒纤维蛋白。在一个优选的实施方案中，纤维变体具有至少90％，优选至少95％、96％、97％、98％或99％的序列同一性。除了通过序列同一性的百分比水平来定义之外，可以将纤维变体定义为相对于编码序列具有一定数量的氨基酸突变。突变的数量如下：代替至少85％的序列同一性，至多89个突变；代替至少90％的序列同一性，至多59个突变；代替至少95％的序列同一性，至多29个突变；代替至少96％的序列同一性，至多23个突变；代替至少97％的序列同一性，至多17个突变；代替至少98％的序列同一性，至多11个突变；代替至少99％的序列同一性，至多5个突变。

优选地，纤维变体在氨基酸第181位不为A，优选为P，在氨基酸第474位不为V，优选为I，和/或在氨基酸第4位和5位之间没有S的插入，并且优选没有氨基酸插入。

在另一个实施方案中，腺病毒载体还(即毗邻六邻体和可能的五邻体和/或纤维蛋白)编码包含根据SEQ ID NO：1219的核苷酸10724至10897的核苷酸序列或具有至少85％序列同一性的核苷酸序列变体的VA RNA II非编码RNA。替代地或另外地，其可以编码包含根据SEQ ID NO：1219的核苷酸10492至10659的核苷酸序列或具有至少85％序列同一性的核苷酸序列变体的VA RNA I非编码RNA。在一个优选的实施方案中，VA RNA变体具有至少90％，优选至少95％、96％、97％、98％或99％的序列同一性。除了通过序列同一性的百分比水平来定义之外，可以将VA RNA变体定义为具有一定数量的核苷酸突变。突变的数量如下：代替至少85％的序列同一性，在VA RNA I中至多25个突变且在VA RNA II中至多26个突变；代替至少90％的序列同一性，在VA RNA I中至多16个突变且在VA RNA II中至多17个突变；代替至少95％的序列同一性，在VA RNA中至多8个突变；代替至少96％的序列同一性，在VARNA中至多6个突变；代替至少97％的序列同一性，在VA RNA中至多5个突变；代替至少98％的序列同一性，在VA RNA中至多3个突变；代替至少99％的序列同一性，在VA RNA中至多1个突变。

优选地，VA RNA II变体(a)在79位不为C和/或在80位不为A，优选在79位为T和/或在80位为G，且(b)在81位不为A，优选在81位为G。VA RNA I变体优选在80位不为G，优选在80位为A。

根据本发明的VA RNA导致改进的腺病毒产生。

优选的是，腺病毒载体还包含其他腺病毒基因和核苷酸片段，其以SEQ ID NO：1219为参照，与腺病毒基因组中的六邻体、五邻体和/或纤维基因相邻。特别优选的是，腺病毒载体还包含将多核苷酸包装成腺病毒颗粒所需的序列。

通常，优选地，腺病毒载体包含以下至少一种：

(a)腺病毒5′端，优选腺病毒5′反向末端重复序列；

(b)腺病毒Ela区或其片段，其选自13S、12S和9S区；

(c)腺病毒E1b区或其片段，其选自小T、大T和IX区；

(d)腺病毒VA RNA区域；或其片段，其选自VA RNA I区和VA RNA II区；

(e)腺病毒E2b区；或其片段，其选自小pTP、聚合酶和IVa2区；

(f)腺病毒L1区或其片段，所述片段编码选自28.1kD蛋白、聚合酶、agnoprotein、52/55kDa蛋白和IIIa蛋白的腺病毒蛋白；

(g)腺病毒L2区或其片段，所述片段编码选自上述定义的五邻体蛋白、VII、V和X蛋白的腺病毒蛋白；

(h)腺病毒L3区或其片段，所述片段编码选自VI蛋白、如上定义的六邻体蛋白和内切蛋白酶的腺病毒蛋白；

(i)腺病毒E2a区或其片段，所述片段编码由DBP蛋白组成的腺病毒蛋白；

(j)腺病毒L4区或其片段，所述片段编码选自100kD蛋白质、22kD同源物、33kD同源物和蛋白质VIII的腺病毒蛋白质。

(k)腺病毒E3区或其片段，其选自E3 ORF1、E3 ORF2、E3 ORF3、E3 ORF4、E3 ORF5、E3 ORF6、E3 ORF7、E3 ORF8和E3 ORF9；

(l)腺病毒L5区或其片段，所述片段编码如上定义的纤维蛋白；

(m)腺病毒E4区或其片段，其选自E4 ORF6/7、E4 ORF6、E4 ORF5、E4 ORF4、E4ORF3、E4 ORF2和E4 ORF1；

(n)腺病毒3′端，优选腺病毒3′反向末端重复序列；和/或

(o)腺病毒E1区。

这些元件可以来自与根据SEQ ID NO：1219的相同的腺病毒，或来自不同的腺病毒，特别是来自不同物种中的一种，例如人腺病毒，以形成嵌合腺病毒。

在腺病毒载体的一些实施方案中，可能希望其不包含一个或多于一个如上所述的基因组区域(如(a)至(m)中所述)。特别地，其可能不包含E1、E3和/或E4区，和/或包含腺病毒基因，该腺病毒基因包含使至少一个基因无功能的缺失和/或突变。在这些优选的实施方案中，合适的腺病毒区域被修饰为不包括上述区域/基因，或者使所选区域/基因丧失功能。使它们失去功能的一种可能性是将一种或多于一种人工终止密码子(例如TAA)引入这些基因的开放阅读框中。使病毒复制缺陷的方法是本领域众所周知的(参见例如Brody等人，1994 Ann NY Acad Sci.，716：90-101)。缺失可以留出空间以插入转基因，优选在表达盒例如小基因盒内插入转基因。此外，如本领域众所周知的，缺失可用于产生腺病毒载体，该腺病毒载体在不使用包装细胞系或辅助病毒的情况下不能复制。包含一种或多于一种特定基因/区域缺失或功能丧失的突变的这种重组腺病毒可以为例如基因治疗或疫苗接种提供更安全的重组腺病毒。

尽管腺病毒载体可能不包含本文概述的至少一个基因组区域/基因(例如区域E1、E3和/或E4)，特别是E1A、E1B、E2A、E2B、E3 ORF1、E3 ORF2、E3 ORF3、E3 ORF4、E3 ORF5、E3ORF6、E3 ORF7、E3 ORF8、E3 ORF9、E4 ORF6/7、E4 ORF6、E4 ORF5、E4 ORF4、E4 ORF3、E4ORF2和/或E4 ORF1，优选E1A、E1B、E2A、E2B、E3和/或E4，和/或包含腺病毒基因，该腺病毒基因包含使至少一个基因丧失功能的缺失和/或突变，但希望保留完整的Ela和/或Elb区域。这种完整的E1区可以位于其在腺病毒基因组中的天然位置，或者位于天然腺病毒基因组中的缺失位点(例如，在E3区)。

在一个优选的实施方案中，腺病毒载体还编码一种或多于一种，优选所有以下腺病毒蛋白：蛋白VI、蛋白VIII、蛋白IX、蛋白IIIa和蛋白IVa2。

腺病毒领域的普通技术人员非常了解如何确定编码上述腺病毒蛋白的开放阅读框。他还了解腺病毒基因组的结构，并且可以在不产生过多负担的情况下将本文概述的单个腺病毒区域和ORF映射到任何腺病毒基因组。

术语“六邻体蛋白”是指腺病毒中包含的六邻体(II)蛋白。根据本发明的六邻体蛋白或其变体与传染性腺病毒病毒体中的六邻体蛋白或其片段具有相同的功能。因此，包含所述六邻体或其变体的优选作为衣壳蛋白的腺病毒能够进入宿主细胞。美国专利5922315中描述了产生六邻体蛋白变体的合适方法。在这种方法中，腺病毒六邻体的至少一个环区域被另一种腺病毒血清型的至少一个环区域改变。可以容易地确定重组腺病毒是否可以进入宿主细胞。例如，在使宿主细胞与腺病毒接触后，可以洗涤和裂解重组宿主细胞，并且可以使用例如腺病毒RNA和/或DNA特异性的合适杂交探针来确定在宿主细胞中是否发现腺病毒RNA和/或DNA。替代地或另外地，与重组腺病毒接触后，可以洗涤、裂解宿主细胞和例如使用具有蛋白质印迹法用腺病毒特异性抗体的探针标记宿主细胞。在又一个替代方案中，例如在体内，观察宿主细胞在被重组腺病毒感染时是否表达基因产物，例如荧光蛋白，所述重组腺病毒包含合适的表达盒以在宿主细胞中表达基因产物。

术语“高变区”(HVR)是指菌株间序列差异较大的结构域，其位于六邻体蛋白暴露于溶剂的表面，因此暴露于病毒衣壳的外部。它们是中和抗体的主要决定因素。可以例如通过与其他六邻体蛋白的序列比对来鉴定HVR。

“腺病毒五邻体蛋白”是指腺病毒中包含的五邻体碱基(III)蛋白。腺病毒五邻体蛋白的特征在于其位于衣壳的二十面体对称的角。根据本发明的五邻体蛋白或其变体与传染性腺病毒病毒体中的五邻体蛋白具有相同的功能。因此，包含所述五邻体或其变体的优选作为衣壳蛋白的腺病毒能够进入宿主细胞，其可以如上所述地进行测试。此外，功能性五邻体对腺病毒纤维蛋白具有亲和力。普通技术人员非常了解如何测试蛋白质-蛋白质亲和力。为了确定第一蛋白质是否能够结合第二蛋白质，他可以使用例如遗传酵母双杂交测定法或生物化学测定法，例如下拉法、酶联免疫吸附测定法(ELISA)、基于荧光激活细胞分选(FACS)的分析或等离子共振分析。当使用下拉或等离子共振测定法时，如生物化学领域所熟知的，将至少一种蛋白质融合至亲和标签例如HIS标签、GST标签或其他标签上是有用的。

术语“纤维蛋白”是指腺病毒中包含的带节纤维(IV)蛋白。根据本发明的纤维蛋白或其片段与传染性腺病毒病毒体中的纤维蛋白或其片段具有相同的功能。因此，包含所述纤维或纤维变体的优选作为衣壳蛋白的腺病毒能够进入宿主细胞，其可以如上所述地进行测试。此外，功能性纤维蛋白对腺病毒五邻体蛋白具有亲和力。而且，糖基化形式的功能性腺病毒纤维蛋白能够三聚。因此，还优选变体能够被糖基化和/或形成三聚体。包括三聚作用在内的亲和性可以如上所述进行测试，并且糖基化测定法也是本领域众所周知的。

“VA(病毒相关)RNA”是腺病毒中发现的一种非编码类型。其在调节翻译中发挥作用。该RNA有两个拷贝，称为VAI或VA RNA I和VAII或VA RNA II。这两个VA RNA基因是腺病毒基因组中的不同基因。VA RNA I是表达的主要物质而VA RN AII表达水平较低。两种转录物均未被多腺苷酸化，并且均被PolIII转录。

术语“同一性”或“同一的”在多核苷酸、多肽或蛋白质序列的上下文中，是指两个序列中为了最大对应而比对时相同的残基数目。具体而言，两个序列无论是核酸序列还是氨基酸序列的序列同一性百分比是两个比对序列之间精确匹配的数目除以较短序列的长度再乘以100。可以用于比对两个序列的比对工具是本领域技术人员众所周知的，并且可以例如在万维网上获得，例如Clustal Omega(http：//www.ebi.ac.uk/Tools/msa/clustalo/)以用于多肽比对或MUSCLE(http：//www.ebi.ac.uk/Tools/msa/muscle/)或MAFFT(http：//www.ebi.ac.uk/Tools/msa/mafft/)以用于多核苷酸比对、或WATER(http：//www.ebi.ac.uk/Tools/psa/emboss_water/)以用于多核苷酸和多肽比对。两个序列之间的比对可以使用默认的参数设置来进行，例如，对于MAFFT，优选：Matrix：Blosum62、Gap Open 1.53、Gap Extend 0.123，对于WATER多核苷酸，优选：MATRIX：DNAFULL、GapOpen：10.0、Gap Extend 0.5，对于WATER多肽，优选MATRIX：BLOSUM62、Gap Open：10.0、GapExtend：0.5。本领域技术人员理解，可能有必要以任一顺序引入空位以产生令人满意的比对。“最佳序列比对”被定义为产生最大数量的比对相同残基，同时具有最小数量的空位的比对。优选地，其是在比对中的每个序列中包括每个残基的全局比对。

就多肽而言，术语“变体”通常指多肽的修饰版本，例如突变，因此多肽的一种或多于一种氨基酸可以缺失、插入、修饰和/或置换。通常，该变体是功能性的，意味着包含该功能性变体的腺病毒能够感染宿主细胞。本文定义了更具体的功能，并且优先于一般定义。“突变”或“氨基酸突变”可以是氨基酸置换、缺失和/或插入(如果存在多于一个突变，则可以适用“和”)。优选地，其为置换(即保守或非保守氨基酸置换)，更优选地是保守氨基酸置换。在一些实施方案中，置换还包括将天然存在的氨基酸与非天然存在的氨基酸交换。保守置换包括用化学性质类似于被置换的氨基酸的另一种氨基酸置换氨基酸。优选地，保守置换是选自以下的置换：

(i)用另一种不同的碱性氨基酸置换碱性氨基酸；

(ii)用另一种不同的酸性氨基酸置换酸性氨基酸；

(iii)用另一种不同的芳香族氨基酸置换芳香族氨基酸；

(iv)用另一种不同的非极性脂肪族氨基酸置换非极性脂肪族氨基酸；和

(v)用另一种不同的极性的不带电荷的氨基酸置换极性的不带电荷的氨基酸。

碱性氨基酸优选选自精氨酸、组氨酸和赖氨酸。酸性氨基酸优选为天冬氨酸或谷氨酸。芳香族氨基酸优选选自苯丙氨酸、酪氨酸和色氨酸。非极性脂族氨基酸优选选自甘氨酸、丙氨酸、缬氨酸、亮氨酸、蛋氨酸和异亮氨酸。极性不带电荷的氨基酸优选选自丝氨酸、苏氨酸、半胱氨酸、脯氨酸、天冬酰胺和谷氨酰胺。与保守氨基酸置换相反，非保守氨基酸置换是一个氨基酸与不属于上述保守置换(i)至(v)的任何氨基酸的交换。

上面描述了确定序列同一性的手段。

蛋白质的氨基酸也可以被修饰，例如化学修饰。例如，蛋白质或多肽的侧链或氨基酸的游离氨基或羧基末端可以通过例如糖基化、酰胺化、磷酸化、泛素化等进行修饰。如本领域众所周知的，化学修饰也可以在体内进行，例如在宿主细胞中。例如，合适的化学修饰基序例如蛋白质氨基酸序列中存在的糖基化序列基序将导致蛋白质被糖基化。除非修饰导致修饰氨基酸同一性的改变(例如置换或缺失)，否则修饰多肽属于所述多肽的范围，即它不是本文定义的变体。

就多肽而言，术语“变体”通常指多核苷酸的修饰版本，例如突变，因此可以缺失、插入、修饰和/或置换。多核苷酸的一个或多于一个核苷酸通常，该变体是功能性的，意味着包含该功能性变体的腺病毒能够感染宿主细胞。本文定义了更具体的功能，并且优先于一般定义。“突变”可以是核苷酸置换、缺失和/或插入(如果存在多个突变，则可以适用“和”)。优选地，其为置换，更优选地其引起氨基酸置换，最优选地是保守氨基酸置换。

通常，优选地，表达载体集合中的所有表达载体，即包含编码相应CVP的所有FSP、mFSP及其抗原性片段的核酸的表达载体的集合是一种类型，例如具有复制能力的腺病毒。在其中使用相同CVP的不同布局或编码该CVP的核酸的本发明的实施方案中，每个布局将包含在表达载体的单独集合中。因此，每个布局可以包含在相同的表达载体或不同的表达载体中。在表达载体本身对患者是抗原性.的那些情况下，后者是优选的。因此，在相同CVP的两次或多于两次的重复施用之间，优选在不同布局中，表达载体类型的改变增加了在患者中表达CVP的机会。

本发明还涉及本发明第四方面或第五方面的CVP、本发明第四方面或第六方面的核酸的集合、或本发明第七方面的表达载体集合，以用于医疗。

本发明还涉及包含本发明第四方面或第五方面的CVP、本发明第四方面或第六方面的核酸的集合、或本发明第七方面的表达载体集合的药物组合物。

如果在同源或异源初免-加强施用方案(见下文)中使用相同CVP的不同布局、编码相同CVP的不同布局的核酸的不同布局或包含具有不同布局的核酸的表达载体的不同布局，术语“药物组合物”还包括两种物理上分离的组合物，其允许分开施用相同CVP、编码相同CVP的不同布局的核酸或包含具有不同布局的核酸的表达载体。

在优选的实施方案中，药物组合物还包含药学上可接受的载体和/或赋形剂、以及任选地一种或多于一种其他活性物质。优选地，第五方面的组合物包含治疗有效量的化合物，优选以纯化形式、以及适量的载体和/或赋形剂，以提供用于向患者适当施用的形式。制剂应适合施用方式。

药物组合物可以采取溶液、悬浮剂、乳剂、片剂、丸剂、胶囊剂、散剂、缓释制剂等形式。药物组合物可以配制成具有常规的黏合剂和药物载体例如甘油三酯的栓剂。

为了制备本发明的药物组合物，药学上可接受的药物载体可以是固体或液体。固体形式的组合物包括散剂、片剂、丸剂、胶囊剂、锭剂、扁囊剂、栓剂和可分散的颗粒剂。固体赋形剂可以是一种或多于一种物质，其也可以用作稀释剂、调味剂、黏合剂、防腐剂、片剂崩解剂或包封材料。在散剂中，赋形剂优选是细碎的固体，其与本发明的细碎抑制剂混合。在片剂中，将活性成分与具有必要黏合性能的药物载体以合适的比例混合，并压制成所需的形状和大小。合适的赋形剂是碳酸镁、硬脂酸镁、滑石、糖、乳糖、果胶、糊精、淀粉、明胶、黄芪胶、甲基纤维素、羧甲基纤维素钠、低熔点蜡、可可脂等。为了制备栓剂，首先熔化低熔点蜡例如脂肪酸甘油酯或可可脂的混合物，并通过搅拌将活性组分均匀地分散在其中。然后将熔融的均匀混合物倒入适当大小的模具中，使其冷却，从而固化。片剂、散剂、胶囊剂、丸剂、扁囊剂和锭剂可用作适于口服施用的固体剂型。

液体形式的组合物包括溶液、悬浮剂和乳剂，例如水、盐水溶液、葡萄糖水溶液、甘油溶液或水/丙二醇溶液。对于肠胃外注射(例如静脉内输液、动脉内输液、骨内输液、肌肉内注射、皮下注射、腹膜内注射、皮内注射和鞘内注射)，液体制剂可以配制成溶液例如聚乙二醇水溶液。当静脉内施用药物组合物时，盐溶液是优选的药物载体。

优选地，药物组合物为单位剂型。在这种形式中，组合物可以细分为含有适量活性成分的单位剂量。单位剂型可以是包装的组合物，包装含有离散量的组合物，例如包装的片剂、胶囊剂、和小瓶或安瓿中的散剂。此外，单位剂型可以是胶囊剂、注射小瓶、片剂、扁囊剂或锭剂本身，或者其可以是包装形式中的任何这些的适当数量。

如果需要，组合物还可含有少量的润湿剂或乳化剂、或pH缓冲剂。

此外，这类药物组合物还可包含其他药学活性物质，例如但不限于佐剂和/或其他活性成分。本发明背景下的佐剂包括但不限于无机佐剂、有机佐剂、油基佐剂、细胞因子、微粒佐剂、病毒体、细菌佐剂、合成佐剂或合成多核苷酸佐剂。

第八方面，本发明涉及本发明第四方面或第五方面的CVP、本发明第四方面或第六方面的核酸的集合、或本发明第七方面的表达载体的集合，以用于预防或治疗患有包含具有MSI表型的癌细胞的癌症或具有发展成这种癌症的风险的患者，其中所述癌症优选选自结肠直肠癌、胃癌、子宫内膜癌、小肠癌、肝胆道癌、肝癌、神经内分泌癌、宫颈癌、卵巢癌、子宫肉瘤、脑癌和皮肤癌。

如上所述，本发明的通用疫苗的一个特别的优点是它提供了不止一种癌症类型的预防或治疗的事实。因此，根据第八方面，优选为至少两种类型的MSI癌症，更优选至少三种类型的MSI癌症提供预防或疗法。优选地，结肠直肠癌、胃癌、子宫内膜癌、小肠癌、肝胆道癌、肝癌、神经内分泌癌、宫颈癌、卵巢癌、子宫肉瘤、脑癌和皮肤癌。

在本发明的上下文中，预防优选用于根据临床指南已知有发展MSI癌症风险的患者，包括在错配修复系统(MMR)例如MLH-1、MSH-2、MSH-6、PMS2和TACSTD1/EPCAM中涉及的基因中具有种系突变的患者。根据最新的临床指南，在诊断出MSI状况后，在任何组织中发生的所有阶段(I-IV)的癌症患者均应接受治疗。这种疫苗的用途旨在用于治疗具有MSI状态的癌症，该状态可以是自发的或药理学诱导的。

在许多情况下，单次施用CVP不足以产生有效保护肿瘤疾病或治疗肿瘤疾病所需的持久免疫细胞数量。因此，需要针对特定疾病特异性的生物制剂反复攻击以建立针对所述疾病的持久和保护性免疫力或治愈特定疾病。包括重复施用CVP、编码此类CVP的核酸的集合或包含此类核酸的表达载体的集合的施用方案在本文中被称为“初免-加强疫苗接种方案”。优选地，初免-加强疫苗接种方案涉及至少两次施用CVP、编码这种CVP的核酸的集合或包含这种核酸的表达载体的集合。CVP、编码此类CVP的核酸的集合或包含此类核酸的表达载体的集合的首次施用被称为“初免”，而相同CVP、编码此类CVP的核酸的集合或包含这种核酸的表达载体的集合的任何后续施用被称为“加强”。从以上解释可以理解，在CVP、编码这种CVP的核酸集合或包含这种核酸的表达载体集合的随后的每次施用中，仍然可以以不同的布局施用相同的CVP。

因此，在本发明的优选实施方案中，初免-加强疫苗接种方案涉及CVP、编码该CVP的核酸的集合或包含用于初免免疫应答的此类核酸的表达载体的集合的一次施用，以及用于加强免疫应答的至少一种随后施用。应当理解的是，本发明也考虑了用于加强免疫应答的2次、3次、4次或甚至5次施用。

初免和加强之间的时间段优选为1周、2周、4周、6周或8周。更优选为4周或8周。如果进行了一次以上的加强，则优选在先前的加强之后1周、2周、4周、6周或8周施用随后的加强。更优选地，任何两次加强之间的间隔是4周或8周。

本发明的初免-加强疫苗接种方案可以是同源或异源的。在同源的初免-加强方案中，使用施用CVP、编码这种CVP的核酸集合或包含这种核酸的表达载体集合的相同方法，进行初免和至少一次加强免疫。在异源初免-加强方案中，使用了不同的初免和加强免疫应答的方法。在本发明的上下文中，异源初免-加强方案可以例如包括用于初免免疫应答的痘病毒载体和用于加强免疫应答的不同表达载体或CPV。

在本发明的一个优选实施方案中，初免-加强接种方案是同源的，在本发明的另一优选实施方案中，初免-加强接种方案是异源的。

因此，一方面，本发明涉及本发明的第四方面或第六方面的核酸的集合和/或本发明的第七方面的表达载体的集合，以用于预防或治疗患有包含具有MSI表型的癌细胞的癌症或具有发展成这种癌症的风险的患者，其中核酸的集合和/或表达载体的集合以异源的初免-加强疫苗接种方案进行施用，优选初免用腺病毒载体，一次或多于一次的加强免疫用痘病毒载体，优选MVA载体。

实施例

实施例1：MSI肿瘤样品的蛋白质编码基因中单核苷酸重复(MNR)突变的选择

突变注释格式(MAF)文件基于完整外显子组序列数据(发布日期为4.0-2016年10月31日)并可从TCGA数据门户网站(https：//gdc-portal.nci.nih.gov/)获得，针对位于蛋白质编码基因的外显子组的蛋白质编码片段内等于或长于6个核苷酸的MNR中移码突变(FSM)的存在进行分析。分析中仅考虑了TCGA样品注释数据中定义的具有MSI表型的肿瘤。该组包括总共320个肿瘤和匹配的正常对照样品，分别对应于69个高MSI(MSI-H)结肠直肠癌(CRC)、85个MSI胃癌和166个MSI子宫内膜癌(EC)。在第二个过滤步骤中，仅接受衍生自1个核苷酸缺失的FSM，因为这种类型的FSM在CRC和EC肿瘤中最常见(1)。通过仅接受那些满足以下条件的FSM，进一步完善了结果列表：(i)与匹配的正常样品相比，在肿瘤中带有突变的读取的数显著更高(FDR校正的Fisher检验p值≤0.05)；(ii)在匹配的正常样品中，FSM的等位基因频率≤25％。通过仅保留三种分析的肿瘤类型(CRC、胃癌、EC)之一中肿瘤样品中存在至少5％的那些FSM，进一步过滤剩余的FSM。在最后的选择步骤中，属于以下类别的FSM被排除在外，因为它们不适合用于疫苗：(i)正常样品集合(EXAC数据库http：// exac.broadinstitute.org/)的样品中存在≥2％的FSM，和/或(ii)考虑到所有三种肿瘤类型(CRC、EC和胃癌)，携带FSM的基因的mRNA表达(RSEM log₂表达值)在所有表达的蛋白质编码基因(TCGA基因水平的mRNA表达数据)的后20个百分点中。如此获得的列表包括1283个FSM，并代表这些肿瘤的CFSM。

实施例2：选择具有可接受特性的移码肽列表

然后使用ANNOVAR将实施例1中选择的CFSM的每个FSM映射到来自NCBI REFSEQ数据库的相应mRNA序列(或多个序列)上(Wang K，等人(2010)NAR，38：e164)，并将野生型(wt)和产生的突变的mRNA翻译成蛋白质。比较wt和突变的蛋白质序列可以确定相应移码肽(FSP)的氨基酸(aa)序列。当FSM由于存在多个mRNA同种型而产生具有不同长度和/或aa序列的多个FSP时，所有得到的FSP均被保留。过滤所得列表以排除所有短于4aa的FSP，其不能产生潜在的CD8T新表位。

此外，如果满足以下条件，则通过添加或缺失氨基酸来修饰包含在CVP中的FSP的氨基酸序列(或不满足某些条件的FSP在修饰后被排除)：(i)如果FSP短于10aa，则将由FC编码的氨基酸的N端天然存在的4 wt aa添加到FSP的N端以确保肽(其被称为mFSP，因为它不同于本发明上下文中定义的FSP，其是包含FSM的核酸的蛋白质编码片段的完整翻译产物，所述FSM从与没有FSM的相应野生型(wt)核酸的翻译产物不同的编码第一个氨基酸的密码子开始)达到假定的CD8 T细胞新表位的最小长度(8聚体至10聚体)。衍生自相同FSM的多个FSP之间共有的氨基酸序列仅保留在最长的FSP中，即在较短的FSP中，这些氨基酸片段缺失。在最后一步中，将wt人蛋白质组(NCBI REFSEQ数据库)中也存在的8个或多于8个连续氨基酸的任何片段从FSP中移除，以最大程度地降低诱导自身免疫的风险。如果在排除wt片段后，所得的FSP短于4aa，则将其从列表中排除。由此获得的最终组FSP包含由1059个FSM(表1)编码的1087个氨基酸序列(SEQ ID NO：1至1087)，并被称为CVP。

表1

对于1087个FSP中的每一个，将SEQ ID NO与生成FSP的FSM的基因组坐标(hg19组装体)一起报告。

/>

实施例3：为具有高“免疫原性”的MSI疫苗选择最佳FSP子集

SEQ ID NO：1至1087指示可以包括在本发明的CVP中的FSP和mFSP的氨基酸序列。该示例性CFSP包括1087个FSP和mFSP。如果更改实施例1和实施例2中概述的标准，则CFSP将包括额外或更少的FSP，因此CVP将包括额外或更少的FSP和mFSP。取决于施用CVP的方式，例如病毒载体、裸露的DNA/RNA，生成如此大量FSP和mFSP的CVP可能不切实际或不经济。因此，本发明人开发了进一步的选择标准，以从如实施例1和2中的概述产生的CFSP中选择合适数量的衍生自CFSP的FSP的FSP的mFSP，以包括在CVP中，以获得大多数患有特定MSI癌症的患者的最佳免疫接种或可能发展为MSI癌症的患者的最佳预防。在下文中，描述了本发明人用来确定要包括在优选的CVP中的FSP和mFSP的子集的这种附加选择标准。

在先前针对接种了不同病毒抗原的人对象的研究中，显示约400aa的抗原序列平均包含3种免疫原性表位(最小1，最大12)(图1)(Borthwick，N.，等人(2017)PLoS One 12(4)，Swadling，L.，等人(2014)Sci Transl Med 6(261))。因此，为了获得良好的“免疫原性覆盖”，即这里预期的平均3种免疫原性表位，期望为疫苗选择的FSP在每个患者的肿瘤中的总长度为至少400aa。因此，本发明人已经开发了一种算法，该算法从CFSP中选择FSP，其方式是对于所检查的MSI肿瘤的最大数目，达到根据经验确定的最小免疫原性覆盖阈值400aa。只要可行，本发明人旨在达到800aa的目标免疫原性覆盖，以补偿一定比例的FSP未翻译或未呈现在肿瘤细胞上的可能性。这些标准应确保：(i)在大量患者中诱导有效免疫应答的可能性高；(ii)给定患者体内的大量癌细胞将被疫苗诱导的免疫靶向。

在算法中施加了额外的约束，以使最终疫苗集中的所有FSP的最大总长度达到6000aa。该长度截断反映了疫苗载体的优选总数(n＝4)，其给定编码约1500aa的连续连接的FSP和/或mFSP的每个载体的最大插入片段大小为约4500个核苷酸。

对于在CVSP集合中生成FSP的1059个FSM中的每一个，基于320个TCGA MSI肿瘤(69个MSI-H大肠结肠直肠癌、85个MSI胃癌和166个MSI子宫内膜癌)中FSM的存在与否，值分别为1或0。对于每种肿瘤类型，频率＜5％的FSM被赋值为零，以支持纳入每个肿瘤组中共有的这些FSM的疫苗列表。

第一步，该算法根据得分对1059个FSM进行排名，该得分是每个FSM生成的所有FSP的总长度与该FSM在320个MSI肿瘤中观察到的频率之间的乘积(aa长度×包含FSM的样品数/总样品数)。

疫苗清单中包括的第一FSM是得分最高的FSM。随后，该算法以循环方式进行，在每一轮选择能够使最大数量的肿瘤增加其免疫原性覆盖的FSM。如果不止一个FSM满足此条件，则选择得分最高的FSM。当选择了FSM时，该FSM编码的所有FSP都将添加到疫苗列表中，并通过添加相应FSP的全长aa来相应地更新带有所选FSM的样品的免疫原性覆盖。样品达到目标免疫原性覆盖阈值(在本例中，结肠直肠癌和胃癌选择为800aa，子宫内膜癌选择为400aa)后，用于选择后续的FSM时该算法不再计算该样品，同时只考虑那些尚未达到目标覆盖的样品。

算法继续将FSP或mFSP添加到疫苗列表中，即形成CVP的氨基酸序列，直到满足以下三个条件之一：(i)由所选FSM编码的所有所选FSP的总aa长度超过6000aa；(ii)所有癌症样品的免疫原性覆盖≥目标阈值或者(iii)不再有将样品低于阈值的免疫原性覆盖增加的FSM。

用所述算法选择的FSP的最终子集包含来自204个FSM的209个FSP，总长度为6021aa，并被称为Nous-209(SEQ ID NO：1至209)。该FSP子集为98％TCGA结肠直肠癌样品提供了≥400aa的免疫原性覆盖，其中每个样品的中位数为50个FSP，免疫原性覆盖中位数为1322aa。同样，Nous-209中的FSP在95％的胃癌样品中具有≥400aa的免疫原性覆盖，其中每个样品的中位数为46个FSP，覆盖中位数为1178aa。最后，TCGA子宫内膜癌的免疫原性覆盖≥400aa，每个样品的中位数为21个FSP，覆盖中位数为512aa。当计算目标值为800aa时，结肠直肠癌和胃癌的免疫原性覆盖仍然很高(分别为93％和83％)。

实施例4：验证Nous-209作为具有高免疫原性覆盖的候选MSI癌症疫苗

作为Nous-209中包含的FSP和mFSP列表的第一步验证步骤，发明人在一组MSI细胞系(7个CRC和1个EC)上进行了下一代测序(NGS)。在基因组水平(外显子组测序)，在每个细胞系中检测到的FSM数量也包括在Nous-209中，以使所有细胞系都显著超过了400aa的最小免疫原性覆盖阈值，平均覆盖(FSP累积长度)为2037aa(图2A)。

其次，发明人通过RNA测序分析了相同的细胞系，以确定在外显子组测序中检测到的Nous-209中有多少FSM也在转录水平上表达。值得注意的是，所有细胞系的RNA测序水平也保持400aa以上的免疫原性覆盖(图2B)。

通过对六个新鲜的冷冻MSI结肠直肠癌匹配活检样品(肿瘤样品和正常组织)进行外显子组测序，获得了与MSI细胞系相似的结果。对于所有分析的患者，免疫原性覆盖均高于最小阈值400aa，平均覆盖为926aa。6个样品中有4个超过了800aa的目标阈值(图3)。

此外，为了估计Nous-209的免疫原性潜力，发明人计算了MSI CRC活检样品中预计有多少疫苗编码的FSP产生与MHC-I分子具有良好结合特征的表位(IC₅₀≤500nM)。为此，本发明人首先从6名患者的活检样品的测序数据中获得了他们的HLA单体型。随后，发明人使用IEDB软件(http：//www.iedb.org/)对每个患者中存在的疫苗编码的FSP的子集进行了HLA-1匹配的患者特异性结合预测。预计每个MSI患者平均有67种表位(最少29种，最多141种)会结合自己的HLA-I单倍型(图4)。

综上所述，这些结果表明，可以通过FSP子集实现高免疫原性覆盖，该FSP子集例如MSI细胞系和原发性肿瘤活检中Nous-209所包含的子集。

发明人随后验证了Nous-209中针对FSP的免疫原性应答是否可以在体内测量。为此，发明人用Nus-209 FSP的子集免疫了HLA-A02⁺转基因小鼠。基于对HLA-A02的结合预测，使用选自这些FSP的九聚体，通过细胞荧光法(FACS)评估了疫苗诱导的免疫应答。图5显示了通过干扰素γ(IFN-γ)的细胞内染色(ICS)测量的在5只动物中对衍生自FSP的对应于SEQ ID NO：123的HLA-A02九聚体的代表性CD8 T细胞应答(图A)。图B中描绘了来自这些小鼠之一的IFN-γ⁺CD8 T细胞的门控策略的FACS图，显示了FSP应答性T细胞的显著百分比(5.6％)。

实施例5：Nous-209核酸盒的构建

Nous-209中的FSP被分成4个子集以生成长度为约4500个核苷酸的人工基因，每个基因编码约1500aa，其适合克隆到以下病毒主链中：类人猿腺病毒(GAd)和改良的安卡拉牛痘病毒疫苗(MVA)。通过将FSP序列一个接一个地连接而无需任何接头来组装每个基因。根据实施例3中描述的算法，209个FSM以确保每个基因包含大约相同数量的具有相似排名水平的FSM分布在4个基因中，并且包含相应的FSM在三种癌症类型中具有相似的观察频率的总体分布的FSP。此过程产生：

基因1＝1507aa(46个FSP)

基因2＝1501aa(54个FSP)

基因3＝1506aa(59个FSP)

基因4＝1507aa(51个FSP)。

每个人工基因以四种不同的布局(A、B、C和D)组装在一起，分别对应于FSP的不同顺序(表2)。基于异源初免-加强疫苗接种方案，使用布局A和C中的基因构建GAd载体，而将布局B和D中的基因克隆到MVA主链中。将布局A和布局B之间以及布局C和布局D之间的FSP干扰序列设计成避免GAd和MVA在相邻FSP之间都编码相同的连接aa序列，这可能会加强针对连接表位的免疫应答。为了选择两种布局中每个基因的FSP顺序，发明人使用了产生50000种不同多肽的程序，其中FSP以随机顺序连接。其中，发明人选择了在前50aa中具有不同连接点和无序序列的两种(平均无序趋势＞0.50，由IUPRED软件估算(Dosztányi Z.，等人(2005)Bioinformatics 21，3433)(图6)。后一种选择是基于这样的观念，即无序的N端有利于蛋白酶体的加工，因此应增加FHC衍生的表位在MHC-I分子上呈递的机会。随后，通过计算机筛选人工多肽与人参考蛋白的相似性，以避免产生与人蛋白质组交叉反应的区域。布局A、B、C和D中的四个多FSP串的aa序列列为对应于FSP的不同顺序的SEQ ID NO：1088至1091(布局A)、SEQ ID NO：1092至1095(布局B)、SEQ ID NO：1155至1158(布局C)和SEQ ID NO：1159至1162(布局D)(表2)。基于异源初免-加强疫苗接种方案，使用布局A和C中的基因构建GAd载体，而将布局B和D中的基因克隆到MVA主链中。分别设计了布局A和B之间以及布局C和D之间的FSP干扰序列。它们相应的nt序列是SEQ ID NO：1096至1099(布局A)、SEQ ID NO：1100至1103(布局B)、SEQ ID NO：1163至1166(布局C)和SEQ ID NO：1167至1170(布局D)。

为了构建表达盒，在每个多肽序列的N端添加了一个分选信号(人组织纤溶酶原激活物信号肽(hTPA；SEQ ID NO：1104)或人恒定链(hINV；SEQ ID NO：1105)并在C端添加了流感病毒HA标签序列(SEQ ID NO：1106)(图7)。如此构建的多肽的延伸序列提供为针对hTPA的SEQ ID NO：1107至1110(布局A)、SEQ ID NO：1111至1114(布局B)、SEQ ID NO：1171至1174(布局C)和SEQ ID NO：1179至1182(布局D)以及针对hINV的SEQ ID NO：1115至1118(布局A)、SEQ ID NO：1119至1122(布局B)、SEQ ID NO：1175至1178(布局C)和SEQ ID NO：1183至1186(布局D)。基于人密码子使用，对相应的nt序列进行密码子优化，以产生指示的多FSP串(针对hTPA的布局A的SEQ ID NO：1123至1126、布局B的SEQ ID NO：1127至1130、布局C的SEQ ID NO：1187至1190、和布局D的SEQ ID NO：1191至1194：针对hINV的布局A的SEQ IDNO：1131至1134、布局B的SEQ ID NO：1135至1138、布局C的SEQ ID NO：1195至1198和布局D的SEQ ID NO：1199至1202)。另外，将Kozak序列(CGCGACTTCGCCGCC)直接置于起始密码子的上游以允许有效的翻译起始，并将TAA终止密码子置于HA标签的下游。最后，两个侧翼区段包含独特的限制性位点以促进盒的亚克隆，并且分别添加在核苷酸序列的5′端和3′端(图7)。代表人工基因的nt序列(针对hTPA的布局A的SEQ ID NO：1139至1142、布局B的SEQ IDNO：1143至1146、布局C的SEQ ID NO：1203至1206、布局D的SEQ ID NO：1207至1210；针对hTPA的布局A的SEQ ID NO：1147至1150、布局B的SEQ ID NO：1151至1154、布局C的SEQ IDNO：1211至1214、布局D的SEQ ID NO：1215至1218)通过标准寡核苷酸合成方法产生，并在TetO-CMV启动子(具有Tet阻遏物结合位点的hCMV启动子)和BGH(牛生长激素)polyA之间亚克隆。

表2

布局A、B、C和D中用于基因1、基因2、基因3和基因4的组装多肽的FSP组成。在每种情况下，列出的FSP的SEQ ID NO均基于它们在组装多肽中的位置(N端到C端)。

/>

实施例6：免疫原性的确认

在小鼠(CB6F1小鼠品系)中评估了包含布局A中4个基因(多肽序列SEQ ID NO：1107至1110、核苷酸序列SEQ ID NO：1139至1142)的4个GAd载体(GAd20-209-FSP)和包含布局B中4个基因(多肽序列SEQ ID NO：1111至1114、核苷酸序列SEQ ID NO：1143至1146)的4个MVA载体(MVA-209-FSP)的免疫原性。根据缺失了区域E3且区域E1被基因置换的GAd20(SEQ ID NO：1219)构建GAd20-209-FSP。通过对以每种载体10^8病毒颗粒(vp)的剂量对GAd20-209-FSP进行单次肌内免疫来免疫小鼠，两周后以10^7噬菌斑形成单位(pfu)的剂量通过MVA-209-FSP加强免疫小鼠。使用覆盖209个FSP序列的合成肽，通过ELIspot分析测量了针对疫苗编码FSP的T细胞应答的诱导。将合成肽在DMSO中稀释并混合以形成16个库。在初免后2周和加强免疫后1周分析了免疫应答(每百万个脾细胞中产生干扰素-γ(IFN-γ)的T细胞数)。数据显示，用GAd20-209-FSP初免后诱导T细胞介导的免疫应答，并在施用MVA-209-FSP后获得有效加强的免疫应答(图8)。当针对16个肽库中的每一个肽库检测时，应答针对分布在疫苗构建体上的多个FSP(图9)。重要的是，载体共施用不会影响针对单个载体编码的FSP的免疫应答，因此排除了在FSP疫苗混合物存在下的免疫干扰(图10)。最后，通过使用两个肽库(库1和库3)通过细胞内染色(ICS)评估了T细胞应答的质量，并显示了FSP特异性CD4和CD8 IFNγ+T细胞的诱导(图11)。

如实施例4中所解释的，验证了是否还可以在体内测量Nous-209中针对FSP的免疫原性应答。用Nous-209 FSP的一个子集(30种FSP)或DMSO阴性对照对HLA-A02+转基因小鼠进行免疫。基于对HLA-A02的结合预测，使用选自30种FSP的九聚体，通过细胞荧光法(FACS)评估了疫苗诱导的免疫应答。图11显示了如通过干扰素γ(IFN-γ)的细胞内染色(ICS)所测量的，在5只动物中对FSP SEQ ID NO：123中存在的HLA-A02九聚体的代表性CD8 T细胞应答(图A)。图B中描绘了来自这些小鼠之一的IFN-γ+CD8 T细胞的门控策略的FACS图，显示了FSP应答性T细胞的显著百分比(5.6％)。

综上所述，这些结果表明

i)构建体是高度免疫原性的，并诱导CD4和CD8免疫应答。ii)免疫应答针对16个不同的肽库，因此识别至少16种不同的表位(每个库一个)。结果表明，即使在近交小鼠(实际上在基因上相同的小鼠)中，400aa中的至少一个表位的规则得到了证实，因为在6000aa的疫苗中有16种表位，平均对应于375aa中的至少一个免疫原性表位。

iii)没有明显的干扰作用，特别是在各个载体之间没有抑制作用，因为无论载体1是单独使用还是与其他三种载体组合使用，均测量了针对载体1编码的抗原的可比免疫应答。类似地，无论载体2是单独使用还是与其他三种结合使用，测量了针对载体2编码的抗原的可比免疫应答。

Claims

1.一种选择移码肽的集合(CFSP)以产生通用的微卫星不稳定性(MSI)癌症疫苗肽集合(CVP)的方法，以用于预防或治疗患有癌症或具有发展成所述癌症的风险的患者，所述癌症包括遗传性和散发性微卫星不稳定性癌症，所述方法包括以下步骤：

(i)选择核酸的集合(CFSM)，每个核酸包含移码突变(FSM)，每个移码突变存在于至少M个癌症样品(CS)的一个或多于一个中，每个癌症样品的患者均不同，其中患者的癌症包括具有微卫星不稳定性表型的癌细胞；

其中所选的至少50％的移码突变满足标准(a)、(b)、(c)和(d)：

(a)移码突变存在于长度等于或大于6个核苷酸的编码基因的单核苷酸重复(MNR)中；

(b)移码突变对应于1个核苷酸的缺失；

(c)与匹配的正常样品相比，肿瘤样品中带有移码突变的DNA测序读取的数目明显更高，其中经FDR校正的Fisher检验p值等于或小于0.05；

(d)移码突变存在于匹配的正常样品中，其等位基因频率低于25％，

(ii)选择X个不同的移码肽(FSP)，其中每个选定的移码肽是包含至少4个氨基酸长度的核酸的集合的移码突变的核酸的蛋白质编码片段的完整翻译产物，所述至少4个氨基酸长度从与没有移码突变的相应野生型(wt)核酸的翻译产物不同的编码第一个氨基酸的密码子开始，

其中X为至少20，且M为至少5。

2.根据权利要求1所述的方法，其中至少50％的被选择的移码肽满足以下一个或多于一个标准：

(a)移码肽由观察到具有癌症类型特异性频率(CF)的移码突变编码，所述癌症类型特异性频率(CF)是对于特定类型癌症的癌症样品子集观察到的，所述子集是M个不同癌症样品的集合的一部分，即对于癌症样品中存在的至少一种癌症类型，癌症类型特异性频率至少为5％；和/或

(b)具有编码移码肽的移码突变的基因的平均mRNA表达水平在描述癌症样品中每个蛋白质编码基因的平均mRNA表达值的分布的前80个百分点中；和/或

(c)在一组没有癌症的对象的正常组织中观察到产生移码肽的移码突变少于2％，

其中：

(i)癌症样品来自患有微卫星不稳定性肿瘤的患者；和/或

(ii)M为至少10；和/或

(iii)X为至少35。

3.根据权利要求2所述的方法，其中微卫星不稳定性肿瘤是结肠直肠癌、胃癌和/或子宫内膜癌。

4.一种确定包含在疫苗肽集合中的肽的氨基酸序列或编码包含在疫苗肽集合中的肽的核酸序列的氨基酸序列的方法，其包括以下步骤：

(a)从根据权利要求1至3中任一项所选择的移码肽的集合中选择至少Y个移码肽或其至少8个氨基酸长的片段；

(b)修饰满足以下标准的一种或多于一种或所有移码肽的氨基酸序列：(i)移码肽的长度为4个至9个氨基酸，和/或(ii)移码肽包含一种或多于一种相同的8个或多于8个氨基酸的连续片段，其存在于由相同移码突变编码的多于一种移码肽中，和/或(iii)移码肽包含一种或多于一种8个或多于8个氨基酸的连续片段，其也存在于wt人蛋白质中，

其中根据(i)的移码肽的氨基酸序列通过在移码肽的N端添加野生型(wt)氨基酸序列的1个至4个氨基酸来进行修饰，所述野生型(wt)氨基酸序列紧邻移码肽的上游，并且其中修饰的移码肽(mFSP)的长度为至少8个氨基酸；根据(ii)的移码肽的氨基酸序列通过从除最长移码肽之外的所有移码肽中除去这些连续片段来进行修饰，条件是在除去连续片段后长度少于4个氨基酸的移码肽被排除在疫苗肽集合之外；和/或根据(iii)的移码肽的氨基酸序列通过除去这些片段来进行修饰；除去连续片段后长度少于4个氨基酸的修饰的移码肽被排除在疫苗肽集合之外，

其中疫苗肽集合的氨基酸序列包含在步骤a)中选择和/或在步骤(b)中修饰的移码肽或其片段的氨基酸序列；

并且其中Y为至少20。

5.根据权利要求4所述的方法，其中在步骤(a)中，从移码肽的集合中连续地选择疫苗肽集合的移码肽，并且在每个选择步骤中，从移码肽的集合中选择新的移码肽，其增加低于阈值(TV)的移码肽氨基酸总长度的累积量(CAFSPL)，以在最大癌症样品数中达到阈值(TV)，并且任选地，如果多于一种移码肽增加了最大癌症样品数的移码肽氨基酸总长度的累积量，且移码肽氨基酸总长度的累积量仍低于阈值，则选择得分最高的移码肽，

其中：

(a)阈值为至少400个氨基酸；或

(b)阈值：

(i)针对结肠直肠癌和胃癌为至少400个氨基酸；和

(ii)针对子宫内膜癌为至少200个氨基酸。

6.根据权利要求4或5所述的方法，其中：

(i)通过将已经是疫苗肽集合的一部分的移码肽的氨基酸长度与来自移码肽的集合的新移码肽的氨基酸长度相加来确定每个癌症样品的移码肽氨基酸总长度的累积量，其中相应的移码突变存在于癌症样品中；和/或

(ii)其中阈值是针对属于预定癌症类型的癌症样品中样品的每个子集分别定义的；和/或

(iii)其中将得分定义为移码肽的氨基酸长度与在癌症样品中观察到生成移码肽的移码突变的总频率之间的乘积，任选地不计算其中特异性频率低于5％的癌症类型的癌症样品中的移码突变，和/或

(iv)其中癌症样品的子集包括来自肿瘤类型的所有癌症样品，其中存在特异性频率大于或等于5％的移码突变；和/或

(v)其中由总频率低于5％的移码突变产生的移码肽被排除在选择之外；和/或

(vi)其中继续添加新的移码肽和/或修饰的移码肽，直到没有其他包含在疫苗肽集合中会增加任何癌症样品的移码肽氨基酸总长度的累积量的移码肽可用，其中所述任何癌症样品的移码肽氨基酸总长度的累积量仍低于阈值或疫苗肽集合中存在的所有移码肽的累积长度已经达到V个氨基酸的最大值；和/或

(vii)其中源自同一移码突变的移码肽被视为一种移码肽，其中综合得分被计算为各种移码肽得分的和。

7.根据权利要求5所述的方法，其中继续添加新的移码肽，直到不再有其他包含在疫苗肽集合中会增加任何癌症样品的移码肽氨基酸总长度的累积量的移码肽可用，其中所述任何癌症样品的移码肽氨基酸总长度的累积量仍低于阈值；和/或

其中源自同一移码突变的移码肽被视为一种移码肽，其中综合得分被计算为各种移码肽得分的和。

8.根据权利要求4或5所述的方法，其中：

(i)疫苗肽集合包含选自移码肽的集合的每个移码肽的至少4个氨基酸；和/或

(ii)选择Y，使得作为疫苗肽集合一部分的所有肽的累积氨基酸长度V为至少280个氨基酸；

(iii)Y为至少35，和/或

(iv)疫苗肽集合包括的移码肽和/或修饰的移码肽选自根据SEQ ID NO：1至1087的移码肽和/或修饰的移码肽。

9.根据权利要求8所述的方法，其中疫苗肽集合包括的移码肽和/或修饰的移码肽选自根据SEQ ID NO：1至209的移码肽和/或修饰的移码肽。

10.一种产生疫苗肽集合或编码所述疫苗肽集合的核酸的集合的方法，其包括以下步骤：

(i)获得在根据权利要求4至9中任一项所述的方法中确定的氨基酸序列信息或核酸序列信息；和

(ii)合成一种或多于一种多肽中的疫苗肽集合的氨基酸序列或具有所述序列的核酸的集合，并任选地将核酸的集合插入一种或多于一种表达盒和/或表达载体的集合中。

11.一种通过根据权利要求10所述的方法能够产生的疫苗肽集合或编码所述疫苗肽集合的肽的核酸的集合。

12.一种包含Y个不同的移码肽和/或修饰的移码肽或其片段或由Y个不同的移码肽和/或修饰的移码肽或其片段组成的疫苗肽集合，其长度为至少8个氨基酸，其中每个移码肽或被修饰成修饰的移码肽的移码肽是包含移码突变的核酸的蛋白质编码片段的片段或完整翻译产物，所述包含移码突变的核酸从与没有移码突变的相应wt核酸的翻译产物不同的编码第一个氨基酸的密码子开始，所述移码突变在任何情况下具有至少4个氨基酸长度，并且其中至少50％的移码肽或被修饰为修饰的移码肽的移码肽满足以下一个或多于一个标准：

(a)移码肽由观察到具有癌症类型特异性频率(CF)的移码突变编码，所述癌症类型特异性频率(CF)是对于特定类型癌症的癌症样品的子集观察到的，所述子集是M个不同癌症样品的集合的一部分，即对于癌症样品中存在的至少一种癌症类型，癌症类型特异性频率至少为5％；和/或

其中满足以下标准的一种或多于一种或所有移码肽的氨基酸序列：(i)由包含从由FC编码的氨基酸开始的移码突变的核酸所编码的移码肽的长度为4个至9个氨基酸，和/或(ii)移码肽包含一种或多于一种相同的8个或多于8个氨基酸的连续片段，其存在于由相同移码突变编码的多于一种移码肽中，和/或(iii)移码肽包含一种或多于一种8个或多于8个氨基酸的连续片段，其也存在于wt人蛋白质中，

对于根据(i)的移码肽，通过在移码肽的N端添加野生型(wt)氨基酸序列的1个至4个氨基酸来进行修饰，所述野生型(wt)氨基酸序列紧邻移码肽的上游，并且其中修饰的移码肽(mFSP)的长度为至少8个氨基酸；对于根据(ii)的移码肽，通过从除最长移码肽之外的所有移码肽中除去这些连续片段来进行修饰，条件是在除去连续片段后长度少于4个氨基酸的移码肽被排除在疫苗肽集合之外；和/或对于根据(iii)的移码肽，通过除去这些片段来进行修饰；除去连续片段后长度少于4个氨基酸的修饰的移码肽被排除在疫苗肽集合之外；

且其中Y为至少20，且M为至少5。

13.根据权利要求12所述的疫苗肽集合，其中：

(i)癌症样品来自患有微卫星不稳定性肿瘤的患者；和/或

(ii)M为至少10；和/或

(iii)Y为至少35；和/或

(iv)疫苗肽集合包含每个移码肽的至少4个氨基酸；和/或

(v)选择Y，使得作为疫苗肽集合一部分的所有肽的累积氨基酸长度V为至少280个氨基酸；和/或

(vi)疫苗肽集合的移码肽和/或修饰的移码肽选自根据SEQ ID NO：1至1087的移码肽和/或修饰的移码肽。

14.根据权利要求13所述的疫苗肽集合，其中微卫星不稳定性肿瘤是结肠直肠癌、胃癌和/或子宫内膜癌。

15.根据权利要求13或14所述的疫苗肽集合，其中疫苗肽集合的移码肽和/或修饰的移码肽选自根据SEQ ID NO：1至209的移码肽和/或修饰的移码肽。

16.根据权利要求12或13所述的疫苗肽集合，其中已经从移码肽的集合中连续选择了疫苗肽集合的移码肽，并且其中在每个选择步骤中，从移码肽的集合中选择新的移码肽来增加低于阈值的移码肽氨基酸总长度的累积量，以在最大癌症样品数中达到所述阈值，并且任选地，如果多于一种移码肽增加了最大癌症样品数的移码肽氨基酸总长度的累积量，且移码肽氨基酸总长度的累积量仍低于阈值，则选择得分最高的移码肽。

17.根据权利要求16所述的疫苗肽集合，其中：

(ii)阈值是针对属于预定癌症类型的癌症样品中样品的每个子集分别定义的；和/或

(iii)将得分定义为移码肽的氨基酸长度与在癌症样品中观察到生成移码肽的移码突变的总频率之间的乘积；和/或

(iv)继续添加新的移码肽，直到不再有其他包含在疫苗肽集合中会增加任何癌症样品的移码肽氨基酸总长度的累积量的移码肽可用，其中所述任何癌症样品的移码肽氨基酸总长度的累积量仍低于阈值(TV)；和/或

(v)其中源自同一移码突变的移码肽被视为一种移码肽，其中综合得分被计算为各种移码肽得分的和。

18.根据权利要求16所述的疫苗肽集合，

(i)其中通过将已经是疫苗肽集合的一部分的移码肽的氨基酸长度与来自移码肽的集合的新移码肽的氨基酸长度相加来确定每个癌症样品的移码肽氨基酸总长度的累积量，其中相应的移码突变存在于癌症样品中；和/或

(iii)其中将得分定义为移码肽的氨基酸长度与产生移码肽的移码突变的总频率之间的乘积，其中不计算特异性频率低于5％的癌症类型的癌症样品中的移码突变；和/或

(vi)其中继续添加新的移码肽，直到没有其他包含在疫苗肽集合中会增加任何癌症样品的移码肽氨基酸总长度的累积量的移码肽可用，其中所述任何癌症样品的移码肽氨基酸总长度的累积量仍低于阈值或疫苗肽集合中存在的所有移码肽的累积长度已经达到V个氨基酸的最大值；和/或

19.根据权利要求16所述的疫苗肽集合，其中所述阈值为：

(a)阈值为至少400个氨基酸；或

(b)阈值：

(i)针对结肠直肠癌和胃癌为至少400个氨基酸；和

(ii)针对子宫内膜癌为至少200个氨基酸。

20.根据权利要求12或13所述的疫苗肽集合，其中所述疫苗肽集合的肽是分开的或至少两种包含在一种或多于一种多肽中。

21.根据权利要求12或13所述的疫苗肽集合，其中所述疫苗肽集合由以下四种多肽组成或包含以下四种多肽，所述四种多肽的氨基酸序列为SEQ ID NO：1088至1091(布局A)、SEQ ID NO：1092至1095(布局B)、SEQ ID NO：1155至1158(布局C)或SEQ ID NO：1159至1162(布局D)。

22.根据权利要求12或13所述的疫苗肽集合，其中将所述疫苗肽集合的一种或多于一种肽连接至一种或多于一种增强疫苗肽集合的免疫原性的以下元件：恒定链序列或其片段；组织型纤溶酶原激活剂；PEST序列；细胞周期蛋白破坏盒；泛素化信号；SUMO化信号；白介素；检查点蛋白特异性配体。

23.根据权利要求22所述的疫苗肽集合，其中通过肽键将所述疫苗肽集合的一种或多于一种肽连接至一种或多于一种元件。

24.根据权利要求22所述的疫苗肽集合，其中白介素是白介素2、白介素12或白介素15。

25.根据权利要求22所述的疫苗肽集合，其中检查点蛋白特异性配体是抗PD1抗体或其PD1结合片段、抗CTLA4抗体或其抗CTLA4结合片段、抗LAG3抗体或抗LAG3结合片段、抗TIM3抗体或其抗TIM3结合片段。

26.一种编码根据权利要求12或13所述的疫苗肽集合的核酸的集合。

27.一种或多于一种表达载体的集合，所述表达载体各自包含根据权利要求11或26所述的核酸的全部或一部分，其中所述表达载体的集合的整体包含根据权利要求11或26所述的核酸的集合的全部。

28.根据权利要求27所述的表达载体的集合，其中至少一种表达载体包含增强表达载体的免疫原性的一种或多于一种元件。

29.根据权利要求27或28所述的表达载体的集合，其中至少一种表达载体包含一种或多于一种核酸，所述核酸编码增强疫苗肽集合的免疫原性的元件：恒定链序列或其片段；组织型纤溶酶原激活剂；PEST序列；细胞周期蛋白破坏盒；泛素化信号；SUMO化信号；白介素；检查点蛋白特异性配体。

30.根据权利要求29所述的表达载体的集合，其中白介素是白介素2、白介素12或白介素15。

31.根据权利要求29所述的表达载体的集合，其中检查点蛋白特异性配体是抗PD1抗体或其PD1结合片段、抗CTLA4抗体或其抗CTLA4结合片段、抗LAG3抗体或抗LAG3结合片段、抗TIM3抗体或其抗TIM3结合片段。

32.根据权利要求27或28所述的表达载体的集合，其中每种表达载体选自质粒；黏粒；RNA；用佐剂配制的RNA；在脂质体颗粒中配制的RNA；自扩增RNA(SAM)；用佐剂配制的SAM；在脂质体颗粒中配制的SAM；病毒载体。

33.根据权利要求32所述的表达载体的集合，其中病毒载体是α病毒载体、委内瑞拉马脑炎(VEE)病毒载体、辛德毕斯(SIN)病毒载体、塞姆利基森林病毒(SFV)病毒载体，具有复制能力或无复制能力的腺病毒载体、痘病毒载体、牛痘病毒载体或修饰的安卡拉牛痘病毒(MVA)载体、类人猿或人巨细胞病毒(CMV)载体、淋巴细胞脉络丛脑膜炎病毒(LCMV)载体、逆转录病毒或慢病毒载体。

34.根据权利要求33所述的表达载体的集合，其中具有复制能力或无复制能力的腺病毒载体来自黑猩猩或倭黑猩猩或大猩猩。

35.根据权利要求11至25中任一项所述的疫苗肽集合、根据权利要求11或26所述的核酸的集合、根据权利要求27至34中任一项所述的表达载体的集合在制备用于预防或治疗患有包含具有微卫星不稳定性表型的癌细胞的癌症或具有发展成这种癌症的风险的患者的药物中的用途。

36.根据权利要求35所述的用途，其中根据临床指南，预防用于已知有发展为微卫星不稳定性癌症风险的患者，包括在错配修复系统(MMR)所涉及的基因中具有种系突变的患者。

37.根据权利要求36所述的用途，其中错配修复系统(MMR)是MLH-1、MSH-2、MSH-6、PMS2和TACSTD1/EPCAM。

38.根据权利要求35或36所述的用途，其中治疗用于所有阶段(I-IV)的癌症患者，癌症在根据最新临床指南诊断微卫星不稳定性状态后出现在任何组织中。

39.根据权利要求35或36所述的用途，其中疫苗的使用旨在治疗具有微卫星不稳定性状态的癌症，所述微卫星不稳定性状态是自发的或药理学诱导的。

40.根据权利要求35或36所述的用途，其中所述癌症选自结肠直肠癌、胃癌、子宫内膜癌、小肠癌、肝胆道癌、肝癌、神经内分泌癌、宫颈癌、卵巢癌、子宫肉瘤、脑癌和皮肤癌。

41.根据权利要求11或26所述的核酸的集合和/或根据权利要求27至34中任一项所述的表达载体集合在制备用于预防或治疗患有包含具有微卫星不稳定性表型的癌细胞的癌症或具有发展成这种癌症的风险的患者的药物中的用途，其中核酸的集合和/或表达载体的集合以异源的初免-加强疫苗接种方案施用。

42.根据权利要求41所述的用途，其中初免是用腺病毒载体，且一种或多于一种加强是用痘病毒载体。

43.根据权利要求42所述的用途，其中痘病毒载体是MVA载体。

44.根据权利要求41或42所述的用途，其中根据临床指南，预防用于已知有发展为微卫星不稳定性癌症风险的患者，包括在错配修复系统(MMR)所涉及的基因中具有种系突变的患者。

45.根据权利要求44所述的用途，其中错配修复系统(MMR)是MLH-1、MSH-2、MSH-6、PMS2和TACSTD1/EPCAM。

46.根据权利要求41或42所述的用途，其中治疗用于所有阶段(I-IV)的癌症患者，癌症在根据最新临床指南诊断微卫星不稳定性状态后出现在任何组织中。

47.根据权利要求41或42所述的用途，其中疫苗的使用旨在治疗具有微卫星不稳定性状态的癌症，所述微卫星不稳定性状态是自发的或药理学诱导的。

48.根据权利要求41或42所述的用途，其中所述癌症选自结肠直肠癌、胃癌、子宫内膜癌、小肠癌、肝胆道癌、肝癌、神经内分泌癌、宫颈癌、卵巢癌、子宫肉瘤、脑癌和皮肤癌。