CN116406472A

CN116406472A - 用于鉴定经预测以激发免疫原性响应的一种或多种源蛋白的一个或多个候选区的方法和系统以及用于产生疫苗的方法

Info

Publication number: CN116406472A
Application number: CN202180043559.0A
Authority: CN
Inventors: 鲍里斯·西莫夫斯基; 克莱门特·莫林; 理查德·斯特拉特福德; 特雷弗·克兰西
Original assignee: Nec Orkmnet
Current assignee: Nec Orkmnet
Priority date: 2020-04-20
Filing date: 2021-04-20
Publication date: 2023-07-07
Also published as: CA3176326A1; JP2023522358A; US20230178174A1; WO2021214071A1; EP4139921A1

Abstract

公开了鉴定经预测以在多种人类白细胞抗原HLA类型中激发适应性免疫原性响应的一种或多种源蛋白的一个或多个候选区的计算机实施的方法，其中一种或多种源蛋白具有氨基酸序列。所述方法包括(a)获取所述一种或多种源蛋白的氨基酸序列；(b)获取HLA类型的集合；(c)预测所述氨基酸序列内的多个候选表位针对所述HLA类型的集合中的每一个的免疫原性潜力；(d)将所述氨基酸序列分成多个氨基酸子序列；(e)对于所述多个氨基酸子序列中的每一个，生成指示所述氨基酸子序列在所述HLA类型的集合中激发免疫原性响应的预测能力的区域度量，其中所述区域度量基于所述多个候选表位针对所述HLA类型的集合中的每一个的预测免疫原性潜力；以及(f)应用统计模型来鉴定生成的区域度量中的任一个是否是统计上显著的，由此被鉴定为具有统计上显著的区域度量的氨基酸子序列对应于经预测以在所述HLA类型的集合的至少一个子集中激发免疫原性响应的氨基酸序列的候选区。还公开了相应的系统以及用于产生疫苗的方法。

Description

用于鉴定经预测以激发免疫原性响应的一种或多种源蛋白的一个或多个候选区的方法和系统以及用于产生疫苗的方法

引言

疫苗，众所周知为一种流行病学控制的有效形式，在帮助降低与诸如天花和脊髓灰质炎的病毒性感染有关的感染和死亡率方面取得了重大成功。然而，其他感染，例如由冠状病毒科，如严重急性呼吸综合征冠状病毒(SARS-CoV)、SARS-CoV-2和中东呼吸综合征冠状病毒(MERS-CoV)引起的那些感染已被证明更难针对其进行疫苗接种。

迄今为止，全球开发冠状病毒科疫苗的大部分工作主要集中在刺激针对作为病毒上暴露最多的结构蛋白的暴露的刺突糖蛋白(S蛋白)的抗体响应。然而，尽管对SARS-CoV的S蛋白的响应已显示出在小鼠中提供短期保护(Yang等人,2004,Nature 428(6982):561-4)，但在恢复期患者中对相同结构的中和抗体响应通常是低滴度和短暂的(Channappanavar等人,2014,Immunol Res 88(19):11034-44)(Yang等人,2006,ClinImmunol 120(2)171-8)。此外，在一些动物模型中，对SARS-CoV中的S蛋白的抗体响应的诱导与有害影响有关，从而引发了可能的安全性担忧。例如，在猕猴模型中，观察到抗S蛋白抗体与严重急性肺损伤相关(Liu等人,2019JCI Insight 4(4))，而来自SARS-CoV患者的血清也显示，在那些死于该疾病的患者中，观察到抗S蛋白抗体升高。

当考虑抗体依赖性增强(ADE)的可能性时，产生了对以S蛋白为中心的方法的进一步担忧，ADE是一种生物现象，其中抗体促进病毒进入宿主细胞并增强病毒的感染性(Tirado&Yoon 2003,Viral Immunol16(1)69-86)。已经表明，中和抗体可结合冠状病毒的S蛋白，引发促进病毒进入的构象变化(Wan等人,J Virol 2020,94(5))。。

由于这些问题，因此需要开发针对疫苗设计的另外策略，如使用经设计以激发接受者体内广泛T细胞免疫应答的T细胞抗原。

然而，当考虑经设计以激发广泛T细胞响应的疫苗时，在个体和更广泛的群体中存在对人类白细胞抗原(HLA)限制的进一步挑战。HLA系统是人类中的编码主要组织相容性复合物(MHC)蛋白的基因复合体，负责调控个体的免疫系统，以及在感染细胞表面处特异性呈递表位，并引发针对来自细胞内病原体的表位和以疫苗的形式递送至所述个体的表位的免疫应答的能力(Marsh等人,2010Tissue Antigens75(4):291-455)。

HLA等位基因的高多态性和随后的个体间免疫系统变异性导致了群体中多种不同的“HLA类型”。作为附加的复杂化因素，此类HLA类型可能对不同个体之间潜在的预防性病毒疫苗组合物的效力具有显著影响。因此，与HLA类型的特定亚组相容的基于表位的疫苗的设计和生成可能证明对包括不同HLA类型的个体的很大比例的全球人口无效。

因此，需要开发用于设计和产生在显著比例的全球人群中具有刺激广泛适应性免疫应答的潜力的疫苗的方法。

发明概述

根据本发明的第一方面，提供了鉴定经预测以在多种人类白细胞抗原HLA类型中激发适应性免疫原性响应的一种或多种源蛋白的一个或多个候选区的计算机实施的方法，其中所述一种或多种源蛋白具有氨基酸序列，所述方法包括：(a)获取所述一种或多种源蛋白的氨基酸序列；(b)获取HLA类型的集合；(c)预测所述氨基酸序列内的多个候选表位针对所述HLA类型的集合中的每一个的免疫原性潜力；(d)将所述氨基酸序列分成多个氨基酸子序列；(e)对于所述多个氨基酸子序列中的每一个，生成指示所述氨基酸子序列在所述HLA类型的集合中激发免疫原性响应的预测能力的区域度量，其中所述区域度量基于所述多个候选表位针对所述HLA类型的集合中的每一个的预测免疫原性潜力；以及(f)应用统计模型来鉴定所生成的区域度量中的任一个是否是统计上显著的，由此被鉴定为具有统计上显著的区域度量的氨基酸子序列对应于经预测以在所述HLA类型的集合的至少一个子集中激发免疫原性响应的氨基酸序列的候选区。

本发明的方法有利地使用统计模型来定量分析在氨基酸子序列内一个或多个候选表位在一组不同的HLA类型中的预测免疫原性潜力—换句话说，一个或多个候选表位激发免疫原性响应的预测能力。通过定量统计分析鉴定的氨基酸序列的候选区(或“热点”)可代表最有可能成为可行的疫苗靶点并可用于疫苗设计和产生的一个或多个源蛋白的区(如区域)。特别地，鉴定的候选区可能含有一个或多个可行的T细胞表位(“预测表位”)，其可在其中具有一组不同HLA类型的群体中激发广泛的T细胞免疫应答。

本文所用的术语“表位”是指抗原的被任何抗体、B细胞或T细胞识别的任何部分。“抗原”是指能够被抗体、B细胞或T细胞结合的分子，并且可由一个或多个表位组成。因此，术语表位和抗原可在本文中互换使用。表位也可以由它们所结合的分子来指代，如“T细胞表位”，或更具体地说，“MHC I类表位”或“MHC II类表位”。

人类白细胞抗原(HLA)系统是编码人类MHC蛋白的基因复合体。由于HLA基因的高度多态性性质，由不同HLA基因编码的每个人类个体的精确MHC蛋白可能不同，以微调适应性免疫系统，其中术语“多态性”是指不同等位基因的高度变异性。已经识别了HLA分子的成百上千种不同的等位基因。术语HLA类型和HLA等位基因在本文中可互换使用。

氨基酸子序列的区域度量指示了氨基酸子序列内的一个或多个候选表位在测试的HLA类型的集合中的预测免疫原性潜力。因此，“相对较好”的区域度量指示了该氨基酸子序列中的一个或多个候选表位被共同预测为在大部分的HLA类型中激发免疫原性响应。“相对较差”的区域度量指示了该氨基酸子序列中的一个或多个候选表位未被共同预测为在分析中的大部分的HLA类型中激发免疫原性响应。

应用统计模型以鉴定具有统计上显著的区域度量的那些氨基酸子序列。特别地，应用统计模型以鉴定偶然比预期更好的任何区域度量。如技术人员所理解的，可以例如基于候选表位的预测免疫原性潜力的感知准确性相应地选择统计建模的显著性阈值。

候选区可包含经预测以在多种HLA类型中激发免疫原性响应的单一候选表位(“可行”或“预测”表位)。此类表位可以被称为与多种HLA类型“重叠”。然而，更典型的是，候选区包括多个候选表位，这些表位被预测为激发免疫原性相应并且共同地与大部分分析的HLA类型重叠。例如，候选区内的一个可行表位可与n种HLA类型重叠，并且候选区内的不同可行表位可与m种HLA类型重叠，使得预测候选区会在(m+n)种HLA类型中激发免疫原性响应。

设想预测的表位彼此之间的长度可不同，并且可彼此重叠。例如，候选区可包含除了另一个长度为25个氨基酸的预测表位之外的一个长度为8个氨基酸的预测表位，其中所述长度为25个氨基酸的预测表位可以与长度为8个氨基酸的预测表位的部分重叠或完全包含长度为8个氨基酸的预测表位。

通常，该方法还可包括针对HLA类型的集合中每一个为每个氨基酸指定表位评分的步骤，其中表位评分基于包含该氨基酸的一个或多个候选表位针对该HLA类型的预测免疫原性潜力；并且其中区域度量中的每一个基于HLA类型的集合中的各自氨基酸子序列内的氨基酸的表位评分生成。

因此，通过基于各自氨基酸子序列内氨基酸的表位评分生成区域度量(这继而指示了相应候选表位的免疫原性潜力)，每个区域度量指示了氨基酸子序列在HLA类型的集合中激发免疫原性响应的能力。

区域度量可以是HLA类型的集合中在各自的氨基酸子序列内氨基酸表位评分的平均值。

在实施方案中，表位评分的至少一个子集可以通过以下指定：(i)在所述氨基酸序列中鉴定具有第一(通常是固定的)长度的第一多个候选表位；(ii)针对所述HLA类型的集合中的每一个，为所述第一多个候选表位中的每一个生成表位评分，所述表位评分指示所述各自候选表位针对该HLA类型的预测免疫原性潜力；(iii)在所述氨基酸序列中鉴定具有第二(通常是固定的)长度的第二多个候选表位；(iv)针对所述HLA类型的集合中的每一个，为所述第二多个候选表位中的每一个生成表位评分，所述表位评分指示所述各自候选表位针对该HLA类型的预测免疫原性潜力；以及(v)针对所述HLA类型的集合中的每一个，为所述氨基酸序列的每个氨基酸，指定所述候选表位的表位评分，针对该HLA类型，所述候选表位经预测具有所有包含该氨基酸的所述第一和第二候选表位的最佳免疫原性潜力。

首先，第一多个候选表位在氨基酸序列中进行鉴定，优选在固定长度的氨基酸的“移动窗口”中。在此类“移动窗口”方法中，连续候选表位之间的步长小于候选表位的长度，使得连续候选表位重叠。通常，步长是一个氨基酸。这是针对每种HLA类型进行的。对于第一多个的候选表位中的每一个，针对各自的HLA类型，生成指示该候选表位的免疫原性潜力的表位评分。我们将在后面更详细考虑这些表位评分是如何生成的。

随后，针对每种HLA类型，在氨基酸序列中鉴定第二多个候选表位。同样，这优选使用“移动窗口方法”进行。针对各自的HLA类型，第二表位中的每一个也被指定了表位评分，指示该表位的免疫原性潜力。

然后，针对每种HLA类型，对每个氨基酸指定候选表位的表位评分，预测该候选表位在所有包括该氨基酸的候选表位中具有最佳的免疫原性潜力。因此，对于特定的HLA类型，如果候选表位“A”和候选表位“B”都包含特定的氨基酸“X”，则氨基酸“X”就会被指定了以预测是候选表位“A”还是“B”具有最佳的免疫原性潜力为准的表位评分。换句话说，对于给定的HLA类型，分配给氨基酸的表位评分对应于通过与该氨基酸重叠的候选表位获得的最佳评分。

第一多个的候选表位和第二多个的候选表位具有不同的长度。

该方法通常扩展到以同样的方式鉴定第三多个或更多多个的候选表位。例如，当考虑I类HLA类型时，可以基于相关的预测免疫原性潜力鉴定长度为8、9、10、11和12个氨基酸的候选表位并进行评分。因此，在实施方案中，可鉴定氨基酸序列中的多个8-mer候选表位并对它们进行评分，然后可鉴定多个9-mer、多个10-mer、多个11-mer和12-mer并对它们进行评分。然后，每个氨基酸可以被分配表位评分，所述表位评分对应于由包含该氨基酸的鉴定的候选表位之一获得的最佳评分。

优选地，候选表位的长度为至少8个氨基酸，优选地其中候选表位的长度为8、9、10、11、12或15个氨基酸。通常，鉴定针对I类HLA类型的候选表位的长度为8至12个氨基酸，并且鉴定针对II类HLA类型的候选表位的长度为15个氨基酸，尽管也可以使用其他长度。

在优选的实施方案中，针对特定HLA类型的候选表位的预测免疫原性潜力基于以下中的一个或多个：鉴定的候选表位的预测结合亲和力和预测加工。

优选地，候选表位的预测免疫原性潜力(或“免疫原性”)基于候选表位的预测结合亲和力和加工两者。预测结合亲和力和预测加工的组合可称为候选表位的预测呈递。然而，如果预测免疫原性潜力基于这些度量之一，仍然可以获得良好的结果(如，对于II类HLA类型，当候选表位按百分等级结合亲和力评分预测时，已获得良好的结果)。

此类预测可以使用抗原呈递或结合亲和力预测算法、实验数据或两者进行。可用于此类预测的可公开获得的数据库和工具的实例包括免疫表位数据库(Immune EpitopeDatabase，IEDB)(https://www.iedb.org/)、NetMHC预测工具(http://www.cbs.dtu.dk/services/NetMHC/)、TepiTool预测工具(http://tools.iedb.org/tepitool/)、MHCflurry预测工具、NetChop预测工具(http://www.cbs.dtu.dk/services/NetChop/)和MHC-NP预测工具(http://tools.immuneepitope.org/mhcnp/.)。其他技术公开于WO2020/070307和WO2017/186959中。

在特别优选的实施方案中，从机器学习模型预测抗原呈递，该模型将来自几个HLA结合预测因子(如，通过ic50nm结合亲和力数据训练的)和多个不同的抗原处理预测因子(如，通过质谱数据训练的)的机器学习层信息集成在一个集合中。

免疫原性潜力可基于测量刺激候选表位的免疫应答的异物性或能力的其他手段。此类实例可能包括比较候选表位，以确定它们与病原体数据库的相似程度，或尝试了解免疫原性表位和非免疫原性肽之间的物理化学差异的预测模型。

在实施方案中，候选表位的免疫原性潜力可进一步基于候选表位与人类蛋白的相似性。因此，如果候选表位与人类蛋白相似，则候选表位可能会被罚分(如，指定较低的评分)。

本发明的有利特征是该方法不仅鉴定了包括可结合HLA分子的表位的候选区，而且还鉴定了由细胞抗原处理机制自然处理并呈现在宿主感染细胞表面上的那些CD8表位。

该方法还可包括将指定表位评分进行数字化(“二进制化”)，其中将满足预定标准的每个表位评分转换为“1”，并且将不满足预定标准的每个表位评分转换为“0”。然后，氨基酸子序列的区域度量可以通常计算为在HLA类型的集合中具有指定的值“1”的子序列中氨基酸数量的平均值。

在数字化过程之后，指定表位评分为“1”的氨基酸可被认为包含经预测会激发免疫原性响应的可行表位的一部分。因此，指定评分为“1”的氨基酸区域可含有经预测结合多种HLA类型的一个或多个(可能重叠)候选表位。

优选地，HLA类型的集合包括主要组织相容性复合物MHC I类的HLA类型和MHC II类的HLA类型。以这种方式，该方法能够有利地预测经预测以在CD8+和CD4+T细胞类型中激发广泛T细胞响应的候选区。然而，如果HLA类型的集合仅包括MHC I类的HLA类型或仅包括MHC II类的HLA类型，则可获得有用的结果。

HLA类型的集合可以包括恰好代表一种人类群组的HLA类型。群组可以是民族群组(如高加索人、非洲人、亚洲人)或地理群组(如伦巴第、武汉)。因此，本发明可用于鉴定特定群组的候选区。因此，对许多不同群组来说是共同的经鉴定的候选区特别有利地用于产生疫苗。

在实施方案中，HLA类型的集合可以包括代表不同人类群组的HLA类型。以这种方式，本发明的方法可以有益地用于鉴定经预测以在很大比例的人群中提供免疫原性响应的候选区。

在优选的实施方案中，HLA类型的集合包括代表人群的HLA类型。以这种方式，经预测以在此类HLA类型的集合中的大多数(或全部)HLA类型中激发免疫原性响应的候选区可以是用于“通用”疫苗的可行候选物。

HLA类型的集合可包括人群或人群组中前N种最常见的HLA类型，优选地其中N是至少5、更优选地至少50并且甚至更优选地N＝100。本发明的统计模型特别有利，因为它允许为大量(如100种)的HLA类型鉴定候选区。以这种方式，本发明可用于设计和产生在显著比例的全球群体中具有刺激广泛适应性免疫应答的潜力的疫苗。

虽然本发明对鉴定经预测在大部分人群中提供免疫原性响应的候选区有特别的益处，但它也可用于为个体生产个性化疫苗(如用于新抗原领域的癌症治疗性疫苗)。因此，在实施方案中，HLA类型的集合可以代表给定的个体。

应理解，基于所使用的HLA类型的集合，可以通过本发明的方法鉴定不同的候选区。

统计模型通常可以基于一个或多个参数分布(如二项式分布、泊松分布或超几何分布)或抽样方法，以便鉴定统计上显著的氨基酸子序列。在特别优选的实施方案中，应用统计模型包括应用蒙特卡洛模拟来估计每个生成的区域度量的p值。然后，估计的p值用于鉴定统计上显著的氨基酸子序列，并且随后鉴定候选区。蒙特卡洛算法的使用是特别有利的，因为它允许将产生表位评分的复杂性反映在零模型中。

统计建模的零模型通常被定义为针对每种HLA类型的表位评分的集合的生成模型，如果它们是偶然生成的话。特定HLA类型的表位评分的集合可被称为“HLA轨迹”。蒙特卡洛模拟可用于迭代生成一组随机化的HLA轨迹和多个相关的模拟区域度量，从中可以估计区域度量的p值，从而估计统计学显著性。

优选的是零模型反映了表位评分生成背后的复杂性。因此，优选地，应用蒙特卡洛模拟包括：(i)对于每种HLA类型，基于表位评分的分布，将表位评分排列至多个表位区段和表位空位中；以及(ii)对于每种HLA类型，迭代生成表位区段和表位空位的随机排列。

将每种HLA类型的表位评分(每个HLA轨迹的排列)排列到多个表位区段和表位空位(epitope gap)中反映了该氨基酸是否是基于其指定的评分预测具有良好免疫原性潜力的候选表位的一部分。因此，表位区段是分配给经预测具有良好免疫原性潜力的表位内的氨基酸(通常至少8)的表位评分的连续序列。此类由“表位氨基酸”序列组成的表位区段可以被认为是含有可能彼此重叠或可能彼此不重叠的一个或多个预测表位的氨基酸区。表位空位是分配给不是此类预测表位的一部分的氨基酸的一个或多个连续评分。通过迭代随机化表位区段和表位空位，而不是单个氨基酸表位评分，零模型更忠实地反映了区域度量背后的方法，从而提供了更可靠的结果。

该方法可以进一步包括将错误发现率FDR程序应用至统计模型的结果，优选地其中FDR程序是Benjamin-Hochberg程序或Benjamini-Yekutieli程序。

在实施方案中，表位评分可以根据HLA类型的集合内各自HLA类型的人群频率进行加权。因此，经预测以在最常见的HLA类型中激发免疫原性响应的候选表位可被给予优先加权，这反映在氨基酸的表位评分中。

统计上显著的氨基酸子序列被鉴定为可能成为可行疫苗靶标的候选区。因此，氨基酸子序列的大小通常是基于预期的疫苗平台来选择的。优选地，每个氨基酸子序列具有相同的长度。例如，在该方法的步骤(b)中，可将氨基酸序列划分为长度为20至50个氨基酸的多个氨基酸子序列，用于肽疫苗平台，其中可合成一个或多个鉴定的候选区。基于将一个或多个候选区编码为相应的DNA或RNA序列，较长的氨基酸子序列(如50至150个氨基酸)可用于疫苗平台。还设想，经鉴定具有大T细胞表位群体的蛋白质结构域可用于疫苗中。此类结构域可提供构象抗体响应。

特别优选的是氨基酸子序列大小是27个氨基酸、50个氨基酸或100个氨基酸。

尽管通常选择具有相同长度的氨基酸子序列，但也可以选择具有不同长度的氨基酸子序列。氨基酸子序列可以彼此重叠，使得它们以如上文讨论的“移动窗口”方法跨越氨基酸子序列。然而，为了减少运行统计模型所需的计算资源，可以选择不重叠的氨基酸子序列，如它们可以以连续的方式排列在氨基酸序列中。

预期到目前为止所解释的方法中所鉴定的候选区含有可行的T细胞表位，其可以在其中具有不同HLA类型的集合的群体中激发广泛的T细胞免疫应答。在优选的实施方案中，区域度量中的每一个可进一步指示各自氨基酸子序列的预测B细胞响应潜力。换句话说，区域度量可指示在氨基酸子序列中任何B细胞表位的存在。在一些实施方案中，每个指定的表位评分可进一步基于各自氨基酸的预测B细胞响应潜力(如在预测的B细胞表位内)。

另外地或可选地，所述方法还可包括分析一种或多种源蛋白的每个候选区中B细胞表位的存在。

B细胞响应预测可以基于B细胞结合预测算法、实验数据或两者。可在此类实施方案中使用的预测工具的一个实例是BepiPred预测工具(http://www.cbs.dtu.dk/services/BepiPred/)。

在实施方案中，该方法还可包括将每个鉴定的候选区与至少一个人类蛋白序列进行比较，以便确定相似程度，以及基于与所述人类蛋白中的至少一种的相似程度大于预定阈值来对所述候选区进行排序、过滤或丢弃。

这些技术有利地比较了鉴定的候选区与在不同关键器官中表达的蛋白质表达谱的相似性，以便避免对基于此类候选区的疫苗的不良响应。可以使用不同的预定阈值。例如，如果候选区含有一个或多个与人类蛋白完全匹配的表位，则可以丢弃该候选区。

该方法可包括基于一个或多个相邻的氨基酸子序列来调整候选区。例如，如果鉴定了候选区，但已知相邻氨基酸子序列在两个子序列之间的边界附近具有预测的T细胞表位，则候选区的氨基酸序列可以扩展以包括另外的表位。还应当理解鉴定的候选区可以组合在一起。例如，两个50个氨基酸的候选区可以组合以形成100个氨基酸的候选区，用于疫苗中。

一种或多种源蛋白优选是病毒、细菌、寄生虫或肿瘤的一种或多种蛋白质，或者其片段。一种或多种源蛋白可包括新抗原。例如，一种或多种源蛋白可以是刺突(S)蛋白、核蛋白(N)、膜(M)蛋白、包膜(E)蛋白，以及开放阅读框如ORF10、ORF1AB、ORF3A、ORF6、ORF7A、ORF8中的一种或多种。因此，本发明的方法可应用于整个病毒蛋白质组。这对于鉴定用于疫苗设计的候选区特别有益。在实施方案中，源蛋白可以是冠状病毒，优选SARS-CoV-2病毒的一种或多种蛋白。

一种或多种源蛋白可以是或包含一种或多种源蛋白的多个变异，(和/或该方法可应用于一个或多个源蛋白的多个变异)。例如，每种变异可以是病毒蛋白质的突变。以这种方式，本发明的方法可以有利地用于分析(如病毒的)多个不同蛋白质序列中所有非同义变异的免疫原性。该方法可有利地包括过滤一个或多个候选区，以便在一种或多种蛋白质的保守区(即不太可能出现突变的区域)中选择一个或多个候选区。保守区可以使用本领域已知的技术来鉴定。

一种或多种源蛋白的氨基酸序列可以通过以下方法中的一种获得：寡核苷酸杂交方法、基于核酸扩增的方法(包括但不限于基于聚合酶链式反应的方法)、基于DNA或RNA测序的自动预测、从头肽测序、Edman测序或质谱。氨基酸序列可以从诸如UniProt(www.uniprot.org)的生物信息库(bioinformatic depository)下载。

该方法还可包括合成一个或多个鉴定的候选区和/或在一个或多个鉴定的候选区内的一个或多个预测的(“可行”)表位。

该方法还可包括将一个或多个鉴定的候选区，和/或一个或多个鉴定区内的一个或多个预测(“可行”)表位编码为相应的DNA或RNA序列。可以将此类DNA或RNA序列掺入到递送系统中以用于疫苗中(如使用裸DNA或封装的DNA，或封装的RNA)。该方法可包括将DNA或RNA序列掺入到细菌或病毒递送系统的基因组中以产生疫苗。

因此，根据本发明的第二方面，提供了产生疫苗的方法，其包括：通过上文公开的第一方面的任一方法鉴定至少一种源蛋白的至少一个候选区；以及合成至少一个候选区和/或至少一个候选区内的至少一个预测表位，或者将至少一个候选区和/或至少一个候选区内的至少一个预测表位编码为相应的DNA或RNA序列。此类DNA或RNA序列可以以裸的形式或封装的形式递送，或者掺入到细菌或病毒递送系统的基因组中以产生疫苗。此外，细菌载体可用于将DNA递送至接种疫苗的宿主细胞中。对于肽疫苗，一个或多个候选区和/或一个或多个表位通常可以合成为氨基酸序列或“串”。

根据本发明的第三方面，提供了用于鉴定经预测以在多种人类白细胞HLA等位基因类型中激发免疫原性响应的一种或多种源蛋白的一个或多个候选区的系统，其中所述一种或多种源蛋白具有氨基酸序列，所述系统包括与至少一个存储器设备通信的至少一个处理器，所述至少一个存储器设备具有存储在其上的用于导致所述至少一个处理器执行上文公开的第一方面的方法中的任一种的指令。

根据本发明的第四方面，提供了计算机可读介质，其具有存储在其上的用于实施上文公开的第一方面的方法中的任一种的计算机可执行指令。

在本发明的另一方面，提供了创建诊断性测定法以确定患者是否感染了或之前已经感染了病原体(和例如已经发展了保护性免疫应答)的方法，其中所述诊断性测定法是对从受试者获得的生物样品进行的，其包括使用上文公开的第一方面的方法中的任一种鉴定所述病原体的至少一种源蛋白的至少一个候选区；并且其中所述诊断性测定法包括在所述生物样品内利用或鉴定所述至少一个鉴定的候选区和/或所述至少一个候选区内的至少一个预测表位。

以这种方式，本发明可有利地用于创建快速诊断测试或测定。可以在实验室测试中进一步分析其中的一个或多个候选区或者一个或多个表位，以便创建此类诊断测试或测定，从而与传统的实验室方法相比，大大缩短开发测试所花费的时间。

如本文所用的术语利用意在意指至少一个鉴定区和/或至少一个鉴定区内的至少一个预测表位在测定中用于鉴定患者中的(如保护性)免疫应答。在该上下文中，一个或多个鉴定区和/或其中的一个或多个表位不是测定的靶标，而是所述测定的组成部分。

体外诊断性测定法可包括生物样品内识别所述至少一个鉴定的候选区和/或至少一个候选区内的至少一个预测表位的免疫系统组分的鉴定。以这种方式，诊断性测定法可利用至少一个鉴定的候选区和/或至少一个预测的表位。通常，诊断性测定法将包含(如合成的)至少一个鉴定的候选区和/或预测表位。在一个优选的实施方案中，免疫系统组分可以是T细胞，因此诊断性测定法可包括T细胞测定法。在另一个优选的实施方案中，免疫系统组分可以是B细胞。例如，测定法可包括鉴定抗体或B细胞，其识别至少一个候选区内的预测B细胞表位。

作为此类诊断用途的实例，可分析从患者中分离的样品，优选血液样品是否在生物样品内存在识别并结合被鉴定为本发明的一部分的候选表位内的表位以及测定中所包含的T细胞、B细胞或抗体。预测被鉴定为本发明一部分的T细胞表位由HLA分子呈递，因此能够被T细胞识别。此类(如T细胞)诊断响应将向技术人员表明，患者是否已经暴露于病原体感染并已经发展了保护性免疫应答，其中所述感染导致可观察到的细胞免疫和/或免疫记忆水平。

合适的诊断性测定法将为技术人员所理解，但可包括酶联免疫吸附斑点(ELISPOT)测定法、酶联免疫吸附测定法(ELISA)、细胞因子捕获测定法、细胞内染色测定法、四聚体染色测定法或有限稀释培养测定法。

在创建诊断性测试的方法中，可以基于待测试的期望响应选择一种或多种源蛋白(从中鉴定至少一个候选区)的氨基酸序列。例如，一种或多种源蛋白可以是冠状病毒，如SARS-CoV-2病毒的一种或多种源蛋白(或其片段)。在这种情况下，本发明可用于创建诊断性测试，以确定患者是否感染了或之前已经感染了SARS-CoV-2病毒。然而，如技术人员将理解的，一种或多种源蛋白可来自任何病原体(如病毒或细菌)。

本文中进一步公开的是确定患者是否感染了或之前已经感染了病原体的诊断性测定法，其中所述诊断性测定法是对从受试者获得的生物样品进行的，并且其中所述诊断性测定法包括在所述生物样品内利用或鉴定已经使用上文讨论的第一方面的方法中的任一种鉴定的病原体的至少一种源蛋白中的至少一个候选区和/或所述至少一个候选区内的至少一个预测表位。所述诊断性测定法可以包括鉴定所述生物样品内的识别所述至少一个鉴定的候选区和/或所述至少一个候选区内的至少一个预测表位的免疫系统组分(如T细胞或B细胞)。

附图简述

现在将参考附图仅以示例的方式详细描述实施方案，其中：

图1A和1B说明了SARS-CoV-2病毒的S蛋白在人群中最常见的HLA-A、HLA-B和HLA-DRB等位基因上的表位图。在这些表位图中，数据经过了转换，使得针对CD8的阳性结果与0.7或以上相关，并且与10％(图中用0.1表示)或以下相关(对于II类)。CD8和CD4的广泛覆盖用重叠的B细胞抗体支持证明；

图2显示了针对SARS-CoV-2病毒的S蛋白的HLA-A和HLA-B等位基因中的I类CD8表位的表位图的二进制转换的分层聚类；

图3说明了使用对保守肽和人类自身肽的过滤程序在SARS-CoV-2病毒的整个病毒蛋白质组中捕获的来自蒙特卡洛分析的表位热点；

图4是显示了突变型AP评分相对于其野生型AP评分蛋白质变体的散点图；

图5说明了蒙特卡洛表位热点预测在不同地理位置的10条突变病毒序列中的应用；

图6说明了显示针对病毒基因组中蛋白质的热点保守性评分的分布的散点图；

图7是显示该方法的优选实施方案的步骤的流程图；

图8是适于实施所示方法的实施方案的系统的实例；以及

图9是合适服务器的实例。

附图详述

根据本文所述的某些实施方案，提出了用于鉴定经预测以在多种HLA类型中激发适应性免疫原性响应的一种或多种源蛋白的一个或多个候选区的方法和系统。此类候选区可以被称为“热点”，并且术语“候选区”和“热点”在本文中可以互换使用。在实施方案中，鉴定的热点和/或其中鉴定的表位可用于疫苗设计和产生中。

我们现在描述了可以鉴定用于鉴定此类热点的优选实施方案。尽管以下描述涉及SAR-Cov-2病毒的整个蛋白质组的分析，但应理解本发明可用于分析不同的病毒、肿瘤、细菌或寄生虫或其片段(如新抗原)。

全局表位图和氨基酸评分的生成

对于给定的HLA等位基因，分配给氨基酸的评分对应于通过与该氨基酸重叠的表位预测获得的最佳评分。对于I类HLA等位基因，表位长度优选为8、9、10和11及12，并预测病毒肽对宿主感染的细胞表面的抗原呈递(AP)或免疫呈递(IP)。可以使用各种方法和工具来预测AP，例如可公开获得的NETCHop和NETMHC预测工具，以及在本文概述部分中讨论的那些。这些I类评分的范围为0至1，其中1是最佳评分(即，天然呈递在细胞表面的可能性更高)。在该实施方案中，对于II类HLA等位基因，我们已经对15mer进行了预测。II类预测是百分等级结合亲和力评分(不是抗原呈递)，所以较低评分是最好的(评分范围为0至100，其中0是最佳评分)。

用于检测不同HLA群体中表位热点表位区的统计框架

输入数据

输入到统计框架的数据集是针对所有研究对象(如100个HLA等位基因)的一种或多种源蛋白(如SARS-CoV-2蛋白质组中的所有蛋白质)中的每个氨基酸位置生成的表位图。任何给定氨基酸的评分被确定为与该氨基酸重叠的肽(候选表位)在表位图中获得的最大AP或IP评分。处理为8-11个氨基酸大小(对于I类)和为15个氨基酸大小(对于II类)的所有肽长度，从而每种病毒蛋白生成一个HLA数据集。数据集中的每行代表针对一种HLA类型预测的氨基酸表位评分。

统计框架

统计框架试图回答的中心问题是：“相对于给定的HLA类型的集合，给定病毒蛋白中富含较高免疫原性评分的特定区域比偶然预期的要多？”

HLA轨迹

首先将原始输入数据集(如AP或百分等级结合亲和力评分)转换为二进制轨迹。对于每个I类HLA数据集，表位评分被转换为二进制(0和1)值，使得预测表位评分大于0.7(对于AP)和大于0.5(对于IP)的氨基酸位置被赋值为1(阳性预测表位)，并且其余的被赋值为0。类似地，对于II类HLA数据集，预测表位评分小于10的氨基酸位置被赋值为1，否则为0。这些阈值是相对保守的，并且基于原始数据生成的技术和置信度，可以选择其他阈值。每条二进制轨迹都可以有效地表示为连续一个区段的间隔列表，其间有连续的零，从而形成区段间或空位。

检验统计量

对于一组k个HLA二进制轨迹，计算给定大小m的每个binbi的检验统计量(“区域度量”)Si，从而将蛋白质分成n个bin(如，对于较大的蛋白质，m＝100个氨基酸)。对于单个HLA轨迹，计算每个bin b_i的检验统计量s_i：

其中权重默认为1，但也可代表被分析群体中HLA轨迹的频率。然后，对于i＝1..n，

其是在选定的HLA类型中，预测为bin bi的表位(表位富集)的氨基酸的平均数。

零模型

一种估计观察到的HLA轨迹的统计显著性的有效方法是基于蒙特卡洛的模拟。如果HLA轨迹是偶然生成的，则零模型被定义为HLA轨迹的生成模型。根据零模型，通过抽样，产生检验统计量Si的零分布。零模型必须反映HLA轨迹本质背后的复杂性。一个HLA轨迹中的表位氨基酸将总是形成长度为至少8的连续组(在预测框架中使用的最小肽大小)。类似地，具有低表位评分的氨基酸也将聚集在一起。

P值估计

为了从零模型中抽样，k个HLA轨迹中的每一个都被分成区段和空位，然后被打乱以产生随机化的HLA轨迹。在该实施方案中，将这重复10000次，以为每个bin产生10000个Si统计量样品。对于每个bin，p值估计为等于或大于真正观察到的富集的样品的比例。此外，使用Benjamini–Yekutieli程序调整生成的p值用于多重检验，以控制0.05的错误发现率(FDR)，尽管应理解可使用其他多种测试程序(如Benjamini Hochberg)。可以实现不同的错误发现率。

表位热点保守性评分

现在描述生成保守性量度的实例。对于病毒基因组内的每种蛋白质，独特氨基酸序列的集合是从截止2020年3月29日的GISAID数据库可获得的所有毒株汇编的(Shu,Y.和J.McCauley,GISAID:Global initiative on sharing all influenza data-from visionto reality.Euro Surveill,2017.22(13))。使用Clustal Omega(v1.2.4)(Sievers,F.和D.G.Higgins,Clustal Omega for making accurate alignments of many proteinsequences.Protein Sci,2018.27(1):p.135-145)软件经由命令行界面以默认参数设置对这些集合进行单独处理。该软件输出了含有蛋白质序列中每个氨基酸的保守信息的共有序列。因此，在共有序列中位置i处被描绘为“*”的氨基酸转化为在所有输入序列中位置i处保守的该氨基酸(Sievers,F.和D.G.Higgins,Clustal Omega for making accuratealignments of many protein sequences.Protein Sci,2018.27(1):p.135-145)。

然后使用热点偏移提取其各自的共有子序列。对于每个热点，保守性评分被计算为其共有子序列内的“*”与子序列总长度的比率。因此，每个热点被赋值0至1的保守性评分，其中1代表所有可用毒株中的完美保守性。

通过从蛋白质的整个共有序列中抽样1000个等于热点大小的子序列，计算中值保守性评分。每个样品被指定保守性评分，并计算来自所有1,000个保守性评分的中值。使用滑动窗口方法计算最小保守性评分，其中窗口大小等于热点大小。对于每个增量，计算保守性评分，并保留得到的最小保守性评分。

我们现在描述了将本发明的方法应用于SARS-CoV-2病毒蛋白质组的实例。然而，如上文已经讨论的，该方法可以应用于许多不同的源蛋白，如不同的病毒、细菌、肿瘤或寄生虫。该方法可应用于新抗原。

SARS-CoV-2的免疫原性情形揭示了人群中不同HLA组之间的多样性

我们对整个SARS-CoV-2病毒蛋白质组进行了表位作图。从机器学习模型中预测抗原呈递(AP)，该模型将来自几个HLA结合预测因子(在ic50nm结合亲和力数据上训练的三个不同HLA结合预测因子的情况下)和13个不同的抗原处理预测因子(所有通过质谱数据训练的)的机器学习层信息集成在一个集合中。输出的AP评分范围为0至1，并用作输入以计算表位图中的免疫呈递(IP)。IP评分惩罚当与人类蛋白组相比时具有“与人类相似性”程度的那些呈递肽，并奖励不太相似的肽。所得的IP评分代表那些HLA呈递肽，所述肽可能被外周中的循环T细胞，即未被缺失或失能的T细胞识别，因此最有可能具有免疫原性。

AP和IP表位预测都是“泛”HLA或HLA-无关的(HLA-agnostic)，并且可以对人群中的任何等位基因进行，然而，为了本研究的目的，我们将分析限制在人群中100个最常见的HLA-A、HLA-B和HLA-DR等位基因。II类HLA结合预测也被并入IEDB共识工具(IEDBconsensus of tools)的大规模表位筛选中(Dhanda,S.K.,等人，IEDB-AR:immune epitopedatabase-analysis resource in 2019.Nucleic Acids Res,2019.47(W1):p.W502-W506)，并且B细胞表位预测使用BepiPred进行(Dhanda,S.K.等人，IEDB-AR:immuneepitope database-analysis resource in 2019.Nucleic Acids Res,2019.47(W1):p.W502-W506)。所得的表位图允许使用全球人群中最常见的HLA-A、HLA-B和HLA-DR等位基因鉴定病毒蛋白质组中最可能由宿主感染的细胞呈递的区域。

为所有病毒蛋白创建了表位图，并且基于S蛋白的IP评分的实例描绘于图1A中且AP描绘于图1B中，并说明了S蛋白的含有100个最常见的人HLA-A、HLA-B和HLA-DR等位基因的候选CD8和CD4表位的不同区域。这个HLA类型的集合在图1A中指示为100。有趣的是，预测的B细胞表位通常作图至含有高密度预测的T细胞表位的蛋白质区，因此热图提供了可用于开发疫苗的SARS-CoV-2病毒的最相关区域的概述。从图1明显看出，不同的HLA等位基因具有不同的I类AP和II类结合特性。这强烈表明，正如人们可能预期的那样，SARS-CoV-2抗原呈递情形在不同的人类HLA等位基因谱中聚类为不同群组。这一趋势在AP评分已经被二值化后在图2所呈现的分层聚类图中进一步说明。图2清楚地表明，一些等位基因簇向人类免疫系统呈递许多病毒靶标，而其他仅呈递少数靶标，并且有些则不能呈递任何靶标。图2说明了在蒙特卡洛模拟中，对于每种HLA类型，可能被打乱的表位区段和表位空位。这意味着人群中具有不同HLA的不同组将对由病毒肽组成的T细胞驱动疫苗有差异地响应。因此，为了设计在广泛的人群中利用T细胞免疫的益处的最佳疫苗，需要预测病毒蛋白质组中的“表位热点”。这些热点是病毒中富含重叠表位，和/或可以被人群中的多种HLA类型识别的空间上非常接近的表位的区域。

在发现在人群中具有最广泛覆盖范围的此类表位热点之前，我们验证了基于T细胞的AP和IP评分预测可行靶标，达到根据有限数量的验证的SARS-CoV病毒表位是可能的程度。我们从最初的SARS-CoV病毒中鉴定出I类表位，其与当前的SARS-CoV-2共有≥90％的序列同一性。不幸的是，许多公开的表位是使用ELISPOT在来自恢复期患者和/或健康供体(或人源化小鼠模型)的PBMC上鉴定的，其中限制性HLA未被明确解卷积。为了规避这个问题，我们鉴定了5个表位的子集，其中使用四聚体已经鉴定了最小表位和HLA限制(Grifoni,A.等人，A Sequence Homology and Bioinformatic Approach Can Predict CandidateTargets for Immune Responses to SARS-CoV-2.Cell Host Microbe,2020)。

5个测试表位中的4个被鉴定为阳性，即IP评分高于0.5(参见表1)，表明精确度为80％。虽然这是一个非常小的测试数据集，但这为我们提供了一定程度的信心，即NEC免疫谱分析器(NEC Immune Profiler)预测管线可以准确地鉴定出良好的免疫原性候选物，并通过该分析和随后的分析鉴定出的表位热点代表了用于疫苗开发的感兴趣的靶标。

肽	序列相似性	亲本蛋白	IP评分
				FIAGLIAIV	100％	刺突糖蛋白	0.54
MEVTPSGTWL	100％	核蛋白	0.61
				RLNEVAKNL	100％	刺突糖蛋白	0.39
TLACFVLAAV	100％	膜蛋白	0.54
				KLPDDFTGCV	90％	刺突糖蛋白	0.58

表1

稳健的统计分析鉴定了广泛T细胞响应的表位热点.

为了鉴定有可能成为绝大多数人群的可行免疫原性靶标的表位热点，我们首先对之前生成的表位图(S蛋白的图1中示例的武汉参考序列)进行了蒙特卡洛随机抽样程序，以使用上述方法鉴定SARS-CoV-2蛋白质组中最有可能成为表位热点的特定区域。研究了潜在表位热点的三个bin大小：27、50和100。计算来自100个HLA集合中蛋白质的每个定义子集区(bin)的统计量。然后使用蒙特卡洛模拟方法估计每个bin的p值，由此每个bin代表候选表位热点。从模拟中出现的统计上显著的bin代表了所分析的每种蛋白的表位热点或感兴趣区域。

表位热点是建立在各个表位评分、表位长度和它们所包含的每个氨基酸之上的。这些评分是针对人群中所有最常见的100个HLA等位基因的热点内的每个氨基酸产生的。根据蒙特卡洛分析，显著的热点是错误发现率(FDR)低于5％的那些，并代表最有可能含有可被人群中的多种HLA类型识别的可行T细胞驱动的疫苗靶标的区域。图3中描绘了在整个病毒谱中鉴定的表位热点的概述，并揭示了病毒的靶向全球人口中最常见的人类HLA等位基因的最具免疫原性的区域存在于上文若干种病毒蛋白中以及超出抗体暴露的结构蛋白，如S蛋白。

保守性分析鉴定了SARS-CoV-2中稳健的表位热点

通用疫苗蓝图还应该理想地能够保护群体免受SARS-COV-2病毒的不同的新兴分支的感染，因此我们将GISAID数据库中3400条病毒序列的AP潜力与武汉Genbank参考序列的AP潜力进行了比较。该比较结果示于图4中，并提示了以下一种趋势，其中SARS-COV-2突变似乎减少了其被宿主免疫系统呈递并随后检测的可能性。在诸如HPV和HIV的慢性感染中已经观察到类似的趋势。

为了评估这些表位热点在所有测序和突变的SARS-CoV-2毒株中是否足够稳健，我们接下来使用表位热点蒙特卡洛统计框架，并分析了来自不同地理区域的10条最多突变的病毒序列的10条病毒序列(Shu,Y.和J.McCauley,GISAID:Global initiative on sharingall influenza data-from vision to reality.Euro Surveill,2017.22(13))。绝大多数热点存在于所有测序的病毒中，但偶尔热点被消除和/或在这些相异毒株中出现新热点。这在图5中示出。图5说明了蒙特卡洛表位热点预测方法在不同地理位置的10个突变病毒序列中的应用。与武汉参考序列相比，10个突变序列的热点在x轴上，表位热点的频率在y轴上。显示了三个不同的热点bin长度的频率；27(左)、50(中)和100(右)。很明显，表位热点在突变序列中是稳健的，而在不同地理位置中在一些序列中偶尔会出现新的表位热点。

尽管鉴定的热点似乎在不同的病菌毒株中是稳健的，但为了设计有望对新出现的SARS-COV-2病毒分支提供广泛保护的最稳健的疫苗蓝图，对表位热点进行了序列保守性分析。该分析的目标是鉴定出似乎不太容易在数千条病毒序列中发生突变的热点。我们使用上文讨论的技术，基于蛋白质的共有序列计算每个热点的保守性评分。图6显示了使用不同的bin大小基于IP鉴定的热点的保守性评分。仅保留呈现保守性评分高于中值保守性评分的表位热点用于进一步分析。这允许我们过滤掉50和100个氨基酸的bin大小的大约一半的热点以及27个氨基酸的bin大小的>70％的热点。此外，为了降低针对宿主组织的脱靶自体免疫应答的可能性，我们去除了含有与人类蛋白组中的蛋白质完全序列匹配的bin。

在SARS-CoV-2中的突变序列的变体免疫原性潜力

我们下载了截至2020年3月31日的GISAID数据库(Shu,Y.和J.McCauley,GISAID:Global initiative on sharing all influenza data-from vision to reality.EuroSurveill,2017.22(13))中可获得的所有毒株，并使它们通过Nexstrain/Augur软件套件以默认参数运行(Hadfield,J.,等人，Nextstrain:real-time tracking of pathogenevolution.Bioinformatics,2018.34(23):p.4121-4123)。我们分析了得到的系统发育树，以获得所有的蛋白质变体。对于每种，我们计算了HLA-A*02:01的野生型评分和突变型抗原呈递(AP)评分。突变型评分是包括该变体的九种可能的9-mer肽中的最大AP评分。野生型评分是参考毒株中相同位置处9-mer的最大AP评分。

图7是总结本发明的优选实施方案的步骤的流程图，所述步骤已在上文更详细地讨论。

在步骤S201，获得了一种或多种源蛋白的氨基酸序列。这些可以是例如病毒、细菌、寄生虫或肿瘤的一种或多种源蛋白。

在步骤S203，在氨基酸序列内鉴定了多个候选表位。例如，这些候选表位可具有的长度为8、9、10、11、12或15个氨基酸并且可以在“移动窗口”方法中鉴定。

在步骤S205，预测每个候选表位针对HLA类型的集合(如代表人群)中的每一个的免疫应答潜力。免疫应答潜力可以是如上文所讨论的抗原呈递(AP)或免疫呈递(IP)评分。

在步骤S207，基于针对HLA类型具有最佳预测免疫原性潜力的重叠候选表位，针对每种HLA类型为每个氨基酸指定表位评分。表位评分可以是例如AP或IP值。

在步骤S208，基于预定阈值，将表位评分数字化为表位区段和表位空位中。表位区段指示HLA类型的可行表位。

在步骤S209，将氨基酸序列分成多个氨基酸子序列或“bin”。例如，这些可以根据预期疫苗平台具有不同的长度。

在步骤S211，基于氨基酸子序列内指定的表位评分，计算每个氨基酸子序列的区域度量。

在步骤S213，使用统计模型(如蒙特卡洛模拟)来鉴定具有统计上显著的区域度量的候选区(或“热点”)。

在步骤S215，可以对鉴定的候选区进行过滤，以使出现在保守区中的那些优先。例如，可以分析病毒序列的不同序列，并且可以优先不同分析中的保守区中鉴定的候选区。

在本文档中，我们提供了该方法在疫苗设计中的清楚使用。然而，应理解，本文描述的技术可以同样适用于设计识别鉴定的候选区(“热点”)中的一个或多个表位的T细胞。类似地，该技术也可用于鉴定肿瘤中的新抗原负荷，其中新抗原负荷被用作生物标志物，即预测对疗法的响应。

现在转到图8，显示了适用于实施该方法的实施方案的系统的实例。系统1100包括至少一个服务器1110，其与参考数据存储器1120通信。服务器还可以例如通过通信网络1140与自动肽合成设备1130通信。

在某些实施方案中，服务器可以例如使用参考数据存储器获得一种或多种源蛋白的氨基酸序列以及与HLA类型的集合相关的数据。然后，服务器可以使用上述步骤鉴定氨基酸序列的一个或多个候选热点。

候选区(或者候选区内的一个或多个预测表位)可以被发送到自动肽合成设备1130来合成候选区或表位。此类肽合成对于长度高达30个氨基酸的候选区或表位是特别相关的。自动肽合成的技术在本领域中是众所周知的，并且应当理解可以使用任何已知的技术。通常，候选区或表位是使用标准的固相合成肽化学合成的，并使用反相高效液相色谱法纯化，然后配制成水溶液。如果用于疫苗接种，则在施用之前，肽溶液通常与佐剂混合，然后施用至患者。

肽合成技术已经存在了20多年，但近年来经历了快速的改进，达到了现在在商用机器上合成只需几分钟。为了简洁起见，我们没有详细描述此类机器，但它们的操作对于本领域技术人员来说是可以理解的，并且此类常规机器可以适于从服务器接收候选区或表位。

服务器可包括上述功能，以鉴定氨基酸序列上的候选区。当然，应理解，这些功能可以在计算机网络的不同处理实体和彼此通信的不同处理模块之间进行细分。

用于鉴定候选区的技术可以整合到更广泛的生态系统中，用于定制疫苗开发(如，使用针对个体的HLA类型的本发明的方法)。示例疫苗开发生态系统在本领域中是众所周知的，并且为了上下文而在高水平上进行描述，但为了简洁起见，我们没有详细描述生态系统。

在示例生态系统中，第一样品步骤可以是从肿瘤活检和匹配的健康组织对照中分离DNA。在第二序列步骤中，对数据进行测序，并鉴定变异，即突变。在免疫分析器步骤中，相关的突变肽可《在计算机中》生成。

使用相关的突变肽和本文描述的技术，可以预测和选择候选区，并鉴定靶表位用于疫苗设计。即，基于其预测的结合亲和力选择的候选肽序列使用本文所述的技术确定。

然后使用如上所述的常规技术合成性地生成靶表位。在施用之前，肽溶液通常与佐剂混合，然后施用至患者(接种疫苗)。在替代方案中，靶表位可以被工程化成DNA或RNA，或者被工程化至细菌或病毒的基因组中，如同任何常规疫苗一样。

通过本文所述方法预测的候选区也可用于产生除了基于肽的疫苗以外的其他类型的疫苗。例如，候选区(或其中的预测表位)可以被编码成相应的DNA或RNA序列，并用于给患者接种疫苗。注意，通常将DNA插入质粒构建体中。可选地，可以将DNA掺入到细菌或病毒递送系统的基因组中(也可以是RNA，这取决于病毒递送系统)-其可以用来给患者接种疫苗–在遗传工程化病毒或细菌中制造的疫苗也是如此，其在患者中(即体内)免疫后制造靶标。

合适的服务器1110的实例显示于图9中。在该实例中，服务器包括至少一个微处理器1200、存储器1201、可选的输入/输出设备1202(如键盘和/或显示器)和外部接口1203(如所示通过总线1204互连)。在该实例中，可以使用外部接口1203将服务器1110连接到外围设备，如通信网络1140、参考数据存储器1120、其他存储设备等。尽管显示了单个外部接口1203，但这仅用于示例的目的，并且在实践中，可以提供使用各种方法的多个接口(如以太网、串行、USB、无线等)。

在使用中，微处理器1200以存储在存储器1201中的应用程序软件的形式执行指令，以允许执行所需的过程，包括与参考数据存储器1120通信以便接收和处理输入数据，和/或与客户端设备通信以接收一种或多种源蛋白的序列数据，并根据上述方法生成免疫原性潜力预测(如，包括预测的结合亲和力和处理)。应用程序软件可以包括一个或多个软件模块，并且可以在合适的执行环境，如操作系统环境等中执行。

因此，应理解，服务器1200可以由任何合适的处理系统组成，如适当编程的客户端设备、PC、网页服务器、网络服务器等。在一个特定的实例中，服务器1200是标准处理系统，如基于英特尔架构的处理系统，其执行存储在非易失性(如硬盘)存储装置上的软件应用程序，尽管这不是必要的。然而，还应理解，处理系统可以是任何电子处理设备，如微处理器、微芯片处理器、逻辑门配置、任选地与执行逻辑相关联的固件如FPGA(现场可编程门阵列(Field Programmable Gate Array))、或者任何其他电子设备、系统或装置(arrangement)。因此，虽然使用了术语服务器，但这只是为了示例的目的，并不意在是限制性的。

虽然服务器1200显示为单个实体，但应理解服务器1200可以分布在许多地理上分开的位置，例如通过使用作为基于云的环境的一部分提供的处理系统和/或数据库1201。因此，上述描述的装置不是必需的，并且可以使用其他合适的配置。

如已在上文讨论的，本发明方法的用途是设计疫苗。该方法也可用于设计和创建体外诊断性测试或测定。例如，此类诊断性测定可用于鉴定生物样品内识别并结合测定中所含的已使用本发明的技术鉴定的“热点”和/或表位的T细胞或B细胞。对此类诊断性测定的诊断性响应将向技术人员表明患者是否已经暴露于感兴趣病原体(如SARS-CoV-2病毒)的感染，以及患者是否已经发展了保护性免疫。

Claims

1.鉴定经预测以在多种人类白细胞抗原HLA类型中激发适应性免疫原性响应的一种或多种源蛋白的一个或多个候选区的计算机实施的方法，其中所述一种或多种源蛋白具有氨基酸序列，所述方法包括：

(a)获取所述一种或多种源蛋白的氨基酸序列；

(b)获取HLA类型的集合；

(c)预测所述氨基酸序列内的多个候选表位针对所述HLA类型的集合中的每一个的免疫原性潜力；

(d)将所述氨基酸序列分成多个氨基酸子序列；

(e)对于所述多个氨基酸子序列中的每一个，生成指示所述氨基酸子序列在所述HLA类型的集合中激发免疫原性响应的预测能力的区域度量，其中所述区域度量基于所述多个候选表位针对所述HLA类型的集合中的每一个的预测免疫原性潜力；以及

(f)应用统计模型来鉴定生成的区域度量中的任一个是否是统计上显著的，由此被鉴定为具有统计上显著的区域度量的氨基酸子序列对应于经预测以在所述HLA类型的集合的至少一个子集中激发免疫原性响应的氨基酸序列的候选区。

2.如权利要求1所述的计算机实施的方法，其还包括针对所述HLA类型的集合中每一个为每个氨基酸指定表位评分的步骤，其中所述表位评分基于包含该氨基酸的一个或多个候选表位针对该HLA类型的预测免疫原性潜力；并且其中

所述区域度量中的每一个基于在所述HLA类型的集合中各自氨基酸子序列内的氨基酸的表位评分生成。

3.如权利要求1或权利要求2所述的计算机实施的方法，其中所述表位评分的至少一个子集通过以下指定：

(i)在所述氨基酸序列中鉴定具有第一长度的第一多个候选表位；

(ii)针对所述HLA类型的集合中的每一个，为所述第一多个候选表位中的每一个生成表位评分，所述表位评分指示所述各自候选表位针对该HLA类型的预测免疫原性潜力；

(iii)在所述氨基酸序列中鉴定具有第二长度的第二多个候选表位；

(iv)针对所述HLA类型的集合中的每一个，为所述第二多个候选表位中的每一个生成表位评分，所述表位评分指示所述各自候选表位针对该HLA类型的预测免疫原性潜力；以及

(v)针对所述HLA类型的集合中的每一个，为所述氨基酸序列的每个氨基酸指定所述候选表位的表位评分，针对该HLA类型，所述候选表位经预测具有所有包含该氨基酸的第一和第二候选表位的最佳免疫原性潜力。

4.如前述权利要求中任一项所述的计算机实施的方法，其中所述候选表位的长度为至少8个氨基酸，优选地其中所述候选表位的长度为8个、9个、10个、11个、12个或15个氨基酸。

5.如前述权利要求中任一项所述的计算机实施的方法，其中候选表位针对特定HLA类型的预测免疫原性潜力基于鉴定的候选表位的预测结合亲和力和预测加工中的一种或多种。

6.如前述权利要求中任一项所述的计算机实施的方法，其中所述候选表位的免疫原性潜力进一步基于所述候选表位与人类蛋白的相似性。

7.如权利要求2至6中任一项所述的计算机实施的方法，其还包括对指定的表位评分进行数字化，其中将满足预定标准的每个表位评分转换为“1”，并且将不满足所述预定标准的每个表位评分转换为“0”。

8.如前述权利要求中任一项所述的计算机实施的方法，其中所述HLA类型的集合包括主要组织相容性复合物MHC I类的HLA型和MHCII类的HLA类型。

9.如前述权利要求中任一项所述的计算机实施的方法，其中所述HLA类型的集合包括代表至少一个人群组的HLA类型，优选地其中所述HLA类型的集合代表所述人群。

10.如前述权利要求中任一项所述的计算机实施的方法，其中所述HLA类型的集合包括所述人群或人群组中前N种最常见的HLA类型，优选地其中N是至少5，更优选地至少50并且甚至更优选地至少100。

11.如权利要求1至8中任一项所述的计算机实施的方法，其中所述HLA类型的集合代表给定个体。

12.如前述权利要求中任一项所述的计算机实施的方法，其中应用所述统计模型包括应用蒙特卡洛模拟来估计每个所述生成的区域度量的p值。

13.如从属于至少权利要求2时的权利要求12所述的计算机实施的方法，其中应用所述蒙特卡洛模拟包括：

(i)对于每种HLA类型，基于所述表位评分的分布，将所述表位评分排列至多个表位区段和表位空位中；以及

(ii)对于每种HLA类型，迭代生成所述表位区段和表位空位的随机排列。

14.如前述权利要求中任一项所述的计算机实施的方法，其还包括将错误发现率FDR程序应用至所述统计模型的结果，优选地其中所述FDR程序是Benjamini-Hochberg程序或Benjamini-Yekutieli程序。

15.如权利要求2至14中任一项所述的计算机实施的方法，其还包括根据所述HLA类型的集合内各自HLA类型的人群频率对所述表位评分进行加权。

16.如前述权利要求中任一项所述的计算机实施的方法，其中每个氨基酸子序列包含至少8个氨基酸，优选20至50个氨基酸，更优选50至150个氨基酸。

17.如前述权利要求中任一项所述的计算机实施的方法，其中所述区域度量中的每一个进一步指示所述各自氨基酸子序列的预测B细胞响应潜力。

18.如从属于权利要求2时的权利要求17所述的计算机实施的方法，其中每个指定的表位评分进一步基于所述各自氨基酸的预测B细胞响应潜力。

19.如前述权利要求中任一项所述的计算机实施的方法，其还包括分析所述一种或多种源蛋白的每个候选区中B细胞表位的存在。

20.如前述权利要求中任一项所述的计算机实施的方法，其还包括将每个鉴定的候选区与至少一个人类蛋白序列进行比较，以便确定相似程度，以及

基于与所述人类蛋白中的至少一种的相似程度大于预定阈值来对所述候选区进行排序或丢弃。

21.如前述权利要求中任一项所述的计算机实施的方法，其还包括基于一个或多个相邻的氨基酸子序列来调整候选区。

22.如前述权利要求中任一项所述的计算机实施的方法，其中所述一种或多种源蛋白是病毒、肿瘤、细菌或寄生虫的一种或多种蛋白，或者其片段，包括新抗原。

23.如前述权利要求中任一项所述的计算机实施的方法，其中所述一种或多种源蛋白是冠状病毒，优选SARS-CoV-2病毒的一种或多种蛋白。

24.如前述权利要求中任一项所述的计算机实施的方法，其中所述一种或多种源蛋白包含一种或多种蛋白的多个变异。

25.如权利要求24所述的计算机实施的方法，其还包括过滤所述一个或多个候选区，以便在保守区域中选择一个或多个候选区。

26.产生疫苗的方法，其包括：

通过前述权利要求中任一项所述的方法鉴定至少一种源蛋白的至少一个候选区；以及

合成所述至少一个候选区和/或所述至少一个候选区内的至少一个预测表位，或者将所述至少一个候选区和/或所述至少一个候选区内的至少一个预测表位编码为相应的DNA或RNA序列。

27.用于鉴定经预测以在多种人类白细胞HLA等位基因类型中激发免疫原性响应的一种或多种源蛋白的一个或多个候选区的系统，其中所述一种或多种源蛋白具有氨基酸序列，所述系统包括与至少一个存储器设备通信的至少一个处理器，所述至少一个存储器设备具有存储在其上的用于导致所述至少一个处理器执行权利要求1至25中任一项所述的方法的指令。

28.计算机可读介质，其具有存储在其上的用于实施权利要求1至25中任一项所述的方法的计算机可执行指令。

29.创建诊断性测定法以确定患者是否感染了或之前已经感染了病原体的方法，其中所述诊断性测定法是对从受试者获得的生物样品进行的，其包括使用权利要求1至25中任一项所述的方法鉴定所述病原体的至少一种源蛋白的至少一个候选区；其中

所述诊断性测定法包括在所述生物样品内利用或鉴定所述至少一个鉴定的候选区和/或所述至少一个候选区内的至少一个预测表位。

30.确定患者是否感染了或之前已经感染了病原体的诊断性测定法，其中所述诊断性测定法是对从受试者获得的生物样品进行的，并且其中所述诊断性测定法包括在所述生物样品内利用或鉴定已经使用权利要求1至25中任一项所述的方法鉴定的病原体的至少一种源蛋白中的至少一个候选区和/或所述至少一个候选区内的至少一个预测表位。

31.如权利要求29所述的方法，其中所述诊断性测定法包括鉴定所述生物样品内的识别所述至少一个鉴定的候选区和/或所述至少一个候选区内的至少一个预测表位的免疫系统组分。

32.如权利要求30所述的诊断性测定法，其中所述诊断性测定法包括鉴定所述生物样品内的识别所述至少一个鉴定的候选区和/或所述至少一个候选区内的至少一个预测表位的免疫系统组分。