CN110809716B

CN110809716B - 基于hla的方法和组合物及其用途

Info

Publication number: CN110809716B
Application number: CN201880024774.4A
Authority: CN
Inventors: 詹尼弗·格雷斯·阿贝林; 罗伯·卡尔·奥斯隆德; 尼尔·哈科恩; 杜米尼克·巴特尔梅; 迈克尔·鲁尼
Original assignee: Aetna Usa Inc
Current assignee: Aetna Usa Inc
Priority date: 2017-02-12
Filing date: 2018-02-12
Publication date: 2023-07-07
Anticipated expiration: 2038-02-12
Also published as: EP4287191A3; JP7370861B2; CN110809716A; CN116693695A; FI3580561T3; JP2023126614A; SI3580561T1; JP2020511121A; EP3580561A1; KR20200015454A; US11965892B2; HUE065174T2; KR20230119735A; BR112019016657A2; RU2019128435A; US20230384320A1; KR102565256B1; US11650211B2; DK3580561T3; EP3580561B1

Abstract

本公开提供了用于从细胞中分离HLA‑肽的组合物和方法。本公开提供了用于对HLA‑肽组进行概况分析的通用平台和方法，使得能够从表达任何可能的I或II类构建体的细胞系中鉴定内源性呈递的HLA‑肽。

Description

基于HLA的方法和组合物及其用途

交叉引用

本申请要求2017年2月12日提交的第62/457,978号美国临时申请和2017年2月20日提交的第62/461,162号美国临时申请的优先权，其中每一个通过引用整体并入本文。

背景技术

主要组织相容性复合物(MHC)是编码人类白细胞抗原(HLA)基因的基因复合物。HLA基因被表达为在人类细胞表面上展示给循环T细胞的蛋白质异二聚体。HLA基因是高度多态性的，允许其微调适应性免疫系统。适应性免疫应答部分地取决于T细胞鉴别并消除展示与人类白细胞抗原(HLA)异二聚体结合的疾病相关肽抗原的细胞的能力。

在人类中，内源性和外源性蛋白质可以被蛋白酶体以及被胞质和内体/溶酶体蛋白酶和肽酶加工成肽，并由MHC编码的两类细胞表面蛋白质呈递。这些细胞表面蛋白质被称为人类白细胞抗原(HLA I类和II类)，与它们结合并引发免疫应答的一组肽被称为HLA表位。HLA表位是使免疫系统能够探测到危险信号如病原体感染和自身转化的关键成分。循环CD8+T细胞识别来源于内源性加工途径并展示在几乎所有有核细胞上的I类MHC(HLA-A、HLA-B和HLA-C)表位。CD4+T细胞识别展示在抗原呈递细胞(APC)如树突细胞和巨噬细胞上的II类MHC(HLA-DR、HLA-DQ和HLA-DP)表位。HLA II类肽呈递激活辅助性T细胞，随后促进B细胞分化和抗体产生以及CTL应答。活化的辅助性T细胞还分泌激活并诱导其它T细胞分化的细胞因子和趋化因子。

编码HLA异二聚体的基因是高度多态性的，在整个人类群体中鉴定出超过12,000个I类和超过4,000个II类等位基因变体。对于I类和II类HLA基因座中的每一个，个体可以从母本和父本HLA单倍型继承不同的等位基因。I类HLA分子是由I类HLA基因所编码的重α-链和β-2-微球蛋白(B2M)组成的异二聚体。II类HLA分子是均由II类HLA基因编码的α链和β链的异二聚体。由于α链和β链配对组合，HLA异二聚体的群体非常复杂。另外，估计每个HLA异二聚体以等位基因特异性结合偏好结合数千个肽。实际上，估计每个HLA等位基因结合并向T细胞呈递约1,000-10,000个独特的肽；占来自人类蛋白质编码基因的约1000万个潜在9mer肽中的≤0.1％。考虑到HLA结合的这种多样性，对肽是否可能与特定HLA等位基因结合的准确预测非常具有挑战性。对HLA II类分子的等位基因特异性肽结合特性知之甚少，这是因为α和β链配对的异质性，数据的复杂性限制了确信地指定核心结合表位的能力，以及缺乏高分辨率生化分析所需的免疫沉淀等级的等位基因特异性抗体。此外，当在细胞表面呈现多个HLA等位基因时，分析源自给定HLA等位基因的肽表位会引起不确定性。

了解每种HLA异二聚体的结合偏好是成功预测哪些新抗原可能引发肿瘤特异性T细胞应答的关键。显然，对鉴定和分离特定I类和II类HLA关联肽(例如，新抗原肽)的方法存在需求。这样的方法和分离的分子可用于例如HLA关联肽的研究以及治疗剂的开发，包括但不限于基于免疫的治疗剂。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。

发明内容

本文描述的方法和组合物可用于广泛的应用中。例如，本文描述的方法和组合物用来鉴定免疫原性抗原肽，并且可以用来开发药物，如个性化药物。

本文提供了一种表征HLA-肽复合物的方法，其包括：提供细胞群体，其中所述细胞群体中的一个或多个细胞包含多核酸，所述多核酸包含编码亲和受体标记的I类或II类HLA等位基因的序列，其中编码亲和受体标记的HLA的序列包含与编码亲和受体肽的序列可操作地连接的编码重组I类或II类HLA等位基因的序列；在所述细胞群体的一个或多个细胞中的至少一个细胞中表达亲和受体标记的HLA，从而在所述至少一个细胞中形成亲和受体标记的HLA-肽复合物；富集所述亲和受体标记的HLA-肽复合物；以及表征HLA-肽复合物。在一些实施方案中，所编码的亲和受体标记的I类或II类HLA等位基因是可溶性亲和受体标记的I类或II类HLA等位基因。

在一些实施方案中，所述表征包括表征与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽。在一些实施方案中，所述方法包括对两个或更多个I类和/或II类HLA等位基因进行该方法的步骤。在一些实施方案中，所述两个或更多个I类和/或II类HLA等位基因包含至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17，18、19、20、25、30、35、40、45或50个I类和/或II类HLA等位基因。在一些实施方案中，所述亲和受体标记的HLA-肽复合物包含跨膜结构域。在一些实施方案中，所述亲和受体标记的HLA-肽复合物包含细胞内结构域。在一些实施方案中，所述亲和受体标记的HLA-肽复合物不被排出。在一些实施方案中，所述亲和受体标记的HLA-肽复合物在表达时并入细胞膜中。在一些实施方案中，所述亲和受体标记的HLA-肽复合物是可溶性亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体标记的HLA-肽复合物不是可溶性亲和受体标记的HLA-肽复合物。在一些实施方案中，所述方法进一步包括生成HLA等位基因特异性肽数据库。在一些实施方案中，所述重组I类或II类HLA等位基因是单个重组I类或II类HLA等位基因。

在一些实施方案中，所述方法包括：提供细胞群体，每个细胞群体包含一个或多个包含亲和受体标记的HLA的细胞，其中所述亲和受体标记的HLA包含与亲和受体肽可操作地连接的由不同HLA等位基因编码的不同重组多肽；富集亲和受体标记的HLA-肽复合物；以及表征与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽或其部分。

在一些实施方案中，所述方法包括将一种或多种肽引入细胞群体。在一些实施方案中，所述引入包括使所述细胞群体与所述一种或多种肽接触或在所述细胞群体中表达所述一种或多种肽。在一些实施方案中，所述引入包括使所述细胞群体与编码所述一种或多种肽的一种或多种核酸接触。在一些实施方案中，所述编码一种或多种肽的一种或多种核酸是DNA。在一些实施方案中，所述编码一种或多种肽的一种或多种核酸是RNA，任选地其中该RNA是mRNA。在一些实施方案中，所述富集不包括使用四聚体试剂。

在一些实施方案中，所述表征包括确定与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽或其部分的序列，任选地确定肽或其部分是否被修饰。在一些实施方案中，所述确定包括生化分析、质谱分析、MS分析、MS/MS分析、LC-MS/MS分析或其组合。在一些实施方案中，所述表征包括评价与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽或其部分的结合亲和力或稳定性。在一些实施方案中，所述表征包括确定与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽或其部分是否含有一个或多个突变。在一些实施方案中，所述表征包括评价所述亲和受体标记的HLA-肽复合物中的肽与HLA分子的缔合。

在一些实施方案中，所述方法包括在细胞群体中表达肽文库，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，所述方法包括使肽文库或编码肽的序列文库与细胞群体接触，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该文库包含与疾病或状况相关的肽的文库。在一些实施方案中，该文库包含衍生自多肽药物如生物制剂(例如抗体药物)的肽的文库。

在一些实施方案中，所述疾病或状况是癌症、传染原的感染或自身免疫反应。在一些实施方案中，所述方法包括将传染原或其部分引入细胞群体中的一个或多个细胞中。在一些实施方案中，所述方法包括将多肽药物如生物制剂(例如抗体药物)或其部分引入细胞群体中的一个或多个细胞中。在一些实施方案中，所述方法包括表征来自HLA-肽复合物的一种或多种肽，任选地其中所述肽来自传染原或多肽药物的一种或多种靶蛋白。在一些实施方案中，所述方法包括表征来自传染原或多肽药物的一种或多种靶蛋白的肽的一个或多个区域。

在一些实施方案中，所述方法包括鉴定来自由传染原衍生的HLA-肽复合物的肽。在一些实施方案中，所述细胞群体来自患有疾病或状况的受试者的生物样品。在一些实施方案中，所述细胞群体是细胞系。在一些实施方案中，所述细胞群体是原代细胞群体。在一些实施方案中，所述重组I类或II类HLA等位基因与患有疾病或状况的受试者匹配。

在一些实施方案中，当被抗原呈递细胞呈递时，来自亲和受体标记的HLA-肽复合物的肽能够激活来自受试者的T细胞。在一些实施方案中，所述表征包括将来自癌细胞的HLA-肽复合物与来自非癌细胞的HLA-肽复合物进行比较。在一些实施方案中，所述细胞群体包含多个细胞群体，每个细胞群体表达不同的重组I类或II类HLA等位基因。在一些实施方案中，所述多个细胞群体中的每个细胞群体在相同或分开的容器中。

在一些实施方案中，所述方法进一步包括在表征之前从亲和受体标记的HLA-肽复合物中分离肽。在一些实施方案中，使用抗HLA抗体分离HLA-肽复合物。在一些情况下，使用抗HLA抗体分离具有或不具有亲和标签的HLA-肽复合物。在一些情况下，从细胞培养物的培养基中分离具有或不具有亲和标签的可溶性HLA(sHLA)。在一些情况下，使用抗HLA抗体分离具有或不具有亲和标签的可溶性HLA(sHLA)。例如，可以使用含有抗HLA抗体的珠子或柱子分离HLA，如具有或不具有亲和标签的可溶性HLA(sHLA)。在一些实施方案中，使用抗HLA抗体分离肽。在一些情况下，使用抗HLA抗体分离具有或不具有亲和标签的可溶性HLA(sHLA)。在一些情况下，使用含有抗HLA抗体的柱子分离具有或不具有亲和标签的可溶性HLA(sHLA)。在一些实施方案中，所述方法进一步包括从与亲和受体标记的HLA-肽复合物结合的肽的末端去除一个或多个氨基酸。

在一些实施方案中，所述细胞群体是低细胞表面HLA I类或II类表达细胞的群体。在一些实施方案中，所述细胞群体表达一个或多个内源HLA等位基因。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因和内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是一个或多个HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是一个或多个HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除和所有HLAII类等位基因的敲除。在一些实施方案中，所述编码重组I类或II类HLA等位基因的序列编码I类HLA。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C、HLA-E、HLA-F和HLA-G。在一些实施方案中，所述编码重组I类或II类HLA等位基因的序列编码II类HLA。在一些实施方案中，所述II类HLA选自HLA-DR、HLA-DQ和HLA-DP。在一些实施方案中，所述II类HLA包含HLA II类α链、HLA II类β链或其组合。在一些实施方案中，每个序列编码至少两个不同的I类和/或II类HLA等位基因。

在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因各自可操作地连接至编码亲和受体肽的序列。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因各自可操作地连接至编码不同的亲和受体肽的序列。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因各自可操作地连接至编码亲和受体肽的序列。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因中的一个或多个可操作地连接至编码第一亲和受体肽的序列，并且所述至少两个不同的I类和/或II类HLA等位基因中的一个或多个可操作地连接至编码第二亲和受体肽的序列。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因各自可操作地连接至编码不同的亲和受体肽的序列。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因中的每一个均可操作地连接至编码不同的亲和受体肽的序列。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因各自可操作地连接至编码亲和标签的序列。在一些实施方案中，所述方法包括施用至少第二多核酸，该第二多核酸包含与相同或不同的亲和受体肽可操作地连接的编码不同的重组HLA等位基因的序列。

在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的细胞外部分的序列。在一些实施方案中，所编码的亲和受体肽在细胞外表达。在一些实施方案中，所编码的亲和受体肽位于重组I类或II类HLA等位基因的细胞外位点。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的N-末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的细胞内部分的序列。在一些实施方案中，所编码的亲和受体肽在细胞内表达。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的C-末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的内部序列，如柔性环序列。在一些实施方案中，编码亲和受体肽的序列通过连接体可操作地连接至编码重组I类或II类HLA等位基因的序列。在一些实施方案中，富集包括富集表达亲和受体标记的HLA-肽复合物的完整细胞。在一些实施方案中，所述方法不包括在富集之前裂解细胞。在一些实施方案中，所述方法进一步包括在富集之前裂解所述一个或多个细胞。在一些实施方案中，富集包括使亲和受体肽结合分子与亲和受体标记的HLA-肽复合物接触，其中所述亲和受体肽结合分子与所述亲和受体肽特异性结合。

在一些实施方案中，所述亲和受体肽包含标签序列，该标签序列包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签、分选酶标签、与珠子形成共价肽键的标签，或其组合；任选地，其中所述亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，所述亲和受体肽结合分子是生物素或对所述亲和受体肽具有特异性的抗体。在一些实施方案中，所述富集包括使亲和分子与亲和受体标记的HLA-肽复合物接触，其中所述亲和分子与所述亲和受体肽结合分子特异性结合。

在一些实施方案中，所述亲和分子包含与生物素结合的分子。例如，所述亲和分子可以包含链霉亲和素、NeutrAvidin，包括来自其它生物体的蛋白质同源物及其衍生物。

在一些实施方案中，富集包括免疫沉淀亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体肽结合分子附着于固体表面。在一些实施方案中，所述亲和分子附着于固体表面。在一些实施方案中，该固体表面是珠子。在一些实施方案中，富集包括用特异性结合亲和受体肽的亲和受体肽结合分子免疫沉淀亲和受体标记的HLA-肽复合物。

在一些实施方案中，所述亲和受体肽结合分子不与所编码的重组I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，富集包括接触对重组I类或II类HLA等位基因的细胞外部分具有特异性的亲和分子。在一些实施方案中，富集包括接触对重组I类或II类HLA等位基因的N-末端部分具有特异性的亲和分子。

在一些实施方案中，提供包括使所述细胞群体与所述多核酸接触。在一些实施方案中，接触包括转染或转导。在一些实施方案中，提供包括使所述细胞群体与包含所述多核酸的载体接触。在一些实施方案中，所述载体是病毒载体。在一些实施方案中，所述多核酸被稳定地整合到所述细胞群体的基因组中。

在一些实施方案中，编码重组I类或II类HLA的序列包含编码HLA I类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码β2微球蛋白的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码HLA I类α链的序列。在一些实施方案中，编码β2微球蛋白的序列通过连接体连接至编码HLA I类α链的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码第二亲和受体肽的序列。在一些实施方案中，编码重组I类或II类HLA的序列包含编码HLA II类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码HLA II类β链的序列。在一些实施方案中，编码HLA II类β链的序列连接至编码HLA II类α链的序列。在一些实施方案中，编码HLA II类β链的序列通过连接体连接至编码HLA II类α链的序列。在一些实施方案中，编码HLA II类β链的序列连接至编码第二亲和受体肽的序列。

在一些实施方案中，第二亲和受体肽不同于第一亲和受体肽，并且选自生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签及其组合；任选地，其中第一或第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，所述连接体包含编码可切割连接体的多核酸序列。在一些实施方案中，该可切割连接体是核糖体跳跃位点或内部核糖体进入位点(IRES)元件。在一些实施方案中，当在细胞中表达时，该核糖体跳跃位点或IRES被切割。在一些实施方案中，该核糖体跳跃位点选自F2A、T2A、P2A和E2A。在一些实施方案中，该IRES元件选自常见的细胞或病毒IRES序列。

在一些实施方案中，所述确定包括进行生化分析或质谱分析，如串联质谱分析。在一些实施方案中，所述确定包括从肽数据库获得与从富集的亲和受体标记的HLA-肽复合物中分离的一种或多种肽的MS/MS谱相对应的肽序列；其中获得的一个或多个序列鉴定所述一种或多种肽的序列。在一些实施方案中，所述肽数据库是无酶特异性的肽数据库，如无修饰的数据库或有修饰的数据库。在一些实施方案中，所述方法进一步包括使用反向数据库搜索策略搜索肽数据库。在一些实施方案中，所述细胞群体是细胞系。在一些实施方案中，所述细胞群体是人细胞系。在一些实施方案中，所述细胞群体是小鼠细胞系。在一些实施方案中，所述细胞群体是CHO细胞系。在一些实施方案中，所述细胞群体是选自HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat、Hep G2、SH-SY5Y、CACO-2、U937、U-2OS、ExpiCHO、CHO和THP1的细胞系。

在一些实施方案中，用一种或多种细胞因子、检查点抑制剂、表观遗传活性药物、IFN-γ、改变抗原加工的试剂(如肽酶抑制剂、蛋白酶体抑制剂和TAP抑制剂)或其组合处理所述细胞群体。在一些实施方案中，用一种或多种调节细胞的代谢途径或代谢状态的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调节细胞的细胞蛋白质组的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的细胞表达或转录的试剂(例如，AIRE或其CREB结合蛋白或其调节剂)处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的转录因子的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的HLA的细胞表达或转录的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的蛋白质组的细胞表达或转录的试剂处理所述细胞群体。

在一些实施方案中，所述细胞群体包含至少10⁵个细胞、至少10⁶个细胞或至少10⁷个细胞。在一些实施方案中，所述细胞群体是树突细胞、巨噬细胞、癌细胞或B细胞的群体。在一些实施方案中，所述细胞群体包含肿瘤细胞。在一些实施方案中，在从所述一个或多个细胞中分离所述HLA-肽复合物之前，使所述细胞群体与试剂接触。在一些实施方案中，所述试剂是炎性细胞因子、化学试剂、佐剂、治疗剂或辐射。

在一些实施方案中，所述HLA等位基因是突变的HLA等位基因。在一些实施方案中，编码HLA等位基因的序列包含条形码序列。在一些实施方案中，所述方法进一步包括测定亲和受体标记的I类或II类HLA等位基因的表达。在一些实施方案中，所述测定包括对亲和受体标记的I类或II类HLA等位基因进行测序，检测亲和受体标记的I类或II类HLA等位基因RNA，检测亲和受体标记的I类或II类HLA等位基因蛋白质，或其组合。在一些实施方案中，测定表达可以包括Western印迹测定、荧光激活细胞分选(FACS)、质谱法(MS)、微阵列杂交测定、RNA-seq测定、聚合酶链反应测定、LAMP测定、连接酶链反应测定、Southern印迹测定、Northern印迹测定或酶联免疫吸附测定(ELISA)。

在一些实施方案中，所述方法包括对不同的HLA等位基因进行该方法的步骤。在一些实施方案中，每个不同的HLA等位基因包含独特的条形码序列。在一些实施方案中，每个编码不同HLA等位基因的多核酸包含独特的条形码序列。

本文提供了通过进行本文描述的方法获得的HLA等位基因特异性结合肽序列数据库。本文提供了两个或更多个HLA等位基因特异性结合肽序列数据库的组合，这些数据库通过每次使用不同的HLA等位基因重复进行本文描述的方法而获得。本文提供了一种生成用于鉴定HLA等位基因特异性结合肽的预测算法的方法，其包括用本文所述的肽序列数据库或本文所述的组合训练机器。

在一些实施方案中，所述机器组合一个或多个线性模型、支持向量机、决策树和神经网络。在一些实施方案中，用来训练所述机器的变量包括一个或多个选自下组的变量：肽序列、氨基酸物理性质、肽物理性质、细胞内肽的来源蛋白质的表达水平、蛋白质稳定性、蛋白质翻译速率、泛素化位点、蛋白质降解速率、来自核糖体概况分析的翻译效率、蛋白质可切割性、蛋白质定位、促进TAP转运的宿主蛋白质的基序、经历自噬的宿主蛋白质、有利于核糖体停顿的基序和有利于NMD的蛋白质特征。

在一些实施方案中，有利于核糖体停顿的基序包含聚脯氨酸或聚赖氨酸段。在一些实施方案中，有利于NMD的蛋白质特征选自长3’UTR、最后一个外显子：外显子连接上游超过50个核酸的终止密码子和肽可切割性。

本文提供了一种鉴定HLA等位基因特异性结合肽的方法，其包括使用已经用肽序列数据库训练的机器分析肽的序列，该肽序列数据库是通过进行本文针对HLA等位基因描述的方法而获得的。在一些实施方案中，该方法包括确定细胞内该肽的来源蛋白质的表达水平；并且其中来源蛋白质表达是所述机器使用的预测变量。在一些实施方案中，所述表达水平通过测量来源蛋白质的量或编码所述来源蛋白质的RNA的量来确定。

本文提供了一种包含重组多核酸的组合物，该重组多核酸包含两个或更多个序列，每个序列编码亲和受体标记的HLA，其中编码所述亲和受体标记的HLA的序列包含编码不同的重组HLA I类α链等位基因的序列、编码亲和受体肽的序列以及可选的编码β2微球蛋白的序列；其中(a)和(b)以及可选的(c)的序列可操作地连接。

本文提供了一种包含重组多核酸的组合物，该重组多核酸包含两个或更多个序列，每个序列包含编码亲和受体标记的HLA的序列，其中编码所述亲和受体标记的HLA的序列包含编码重组HLA II类α链等位基因的序列、编码亲和受体肽的序列以及可选的编码HLAII类β链的序列；其中(a)和(b)以及可选的(c)的序列可操作地连接。在一些实施方案中，所述重组多核酸是分离的。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C、HLA-E、HLA-F和HLA-G。在一些实施方案中，所述II类HLA选自HLA-DR、HLA-DQ和HLA-DP。

在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的细胞外部分的序列。在一些实施方案中，编码亲和受体分子的序列可操作地连接至编码重组HLA等位基因的序列的N-末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的细胞内部分的序列。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的序列的C-末端。在一些实施方案中，编码亲和受体肽的序列通过连接体可操作地连接至编码重组HLA等位基因的序列。

在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列从同一多核苷酸表达。在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列从不同的多核苷酸表达。在一些实施方案中，所编码的亲和受体肽与亲和受体肽结合分子特异性结合。在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列包含两个或更多个亲和受体肽。在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列包含编码亲和受体标记的HLA的三个或更多个序列，其中所述编码亲和受体标记的HLA的三个或更多个序列中的至少两个序列包含相同的亲和受体肽。在一些实施方案中，对于所述编码亲和受体标记的HLA的两个或更多个序列中的每一个，所述两个或更多个亲和受体肽是独特的。

在一些实施方案中，所编码的亲和受体肽选自生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱-结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签及其组合；任选地，其中第一或第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，所述亲和受体肽结合分子是生物素或对所述亲和受体肽具有特异性的抗体。在一些实施方案中，所述亲和受体肽结合分子与亲和分子特异性结合。在一些实施方案中，所述亲和分子是链霉亲和素、NeutrAvidin或其衍生物。在一些实施方案中，所述亲和受体肽结合分子不与重组I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，对于两个或更多个重组多核酸：编码所述亲和受体标记的HLA的序列被稳定地整合到细胞的基因组中。在一些实施方案中，编码β2微球蛋白的序列或编码HLA II类β链的序列连接至编码第二亲和受体肽的序列。在一些实施方案中，第二亲和受体肽包含HA标签。在一些实施方案中，编码β2微球蛋白的序列或编码HLA II类β链的序列通过连接体连接至编码重组HLA和亲和受体肽的序列。

本文提供了一种组合物，其包含两个或更多个由本文所述组合物的多核酸编码的分离的多肽分子。本文提供了一种包含细胞群体的组合物，该细胞群体包含两个或更多个由本文所述组合物的多核酸编码的多肽分子。本文提供了一种包含细胞群体的组合物，该细胞群体包含本文所述的组合物。本文提供了一种包含细胞群体的组合物，该细胞群体包含一个或多个包含本文所述的组合物的细胞。

在一些实施方案中，所述细胞群体表达一个或多个内源I类或II类HLA等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏一个或多个内源HLA I类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏内源HLA I类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏一个或多个内源HLA II类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏内源HLA II类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏一个或多个内源HLA I类等位基因和一个或多个内源HLA II类等位基因。在一些实施方案中，所述细胞群体是低细胞表面HLA I类或II类表达细胞的群体。在一些实施方案中，使用肽或编码对患者的HLA类型具有特异性的肽的多核酸来配制所述组合物。本文提供了一种制备细胞的方法，该方法包括用本文所述的组合物的两个或更多个多核酸转导或转染两个或更多个细胞。

本文提供了根据本文描述的方法鉴定的肽。本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的多核酸。本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的肽。本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用包含含有本文所述的肽序列的肽的细胞。本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用包含有效量的多核酸的细胞，该多核酸包含编码包含本文所述肽序列的肽的序列。在一些实施方案中，所述细胞将所述肽以HLA-肽复合物的形式呈递。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含编码本文所述肽的序列的多核酸。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的肽。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含含有本文所述肽序列的肽的细胞。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含多核酸的细胞，该多核酸包含编码包含本文所述肽序列的肽的序列。

在一些实施方案中，所述免疫应答是T细胞免疫应答。在一些实施方案中，所述免疫应答是CD8 T细胞应答。在一些实施方案中，所述免疫应答是CD4 T细胞应答。在一些实施方案中，所述免疫应答是体液免疫应答。

本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含编码本文所述肽的序列的多核酸。本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的肽。本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含含有本文所述肽序列的肽的细胞。本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含多核酸的细胞，该多核酸包含编码包含本文所述肽序列的肽的序列。在一些实施方案中，所述疾病是癌症。在一些实施方案中，所述疾病是传染原的感染。在一些实施方案中，该传染原是病原体，任选地是病毒或细菌，或寄生虫。

在一些实施方案中，所述病毒选自：BK病毒(BKV)、登革病毒(DENV-1、DENV-2、DENV-3、DENV-4、DENV-5)、巨细胞病毒(CMV)、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、EB病毒(EBV)、腺病毒、人类免疫缺陷病毒(HIV)、人类T细胞淋巴营养性病毒(HTLV-1)、流感病毒、RSV、HPV、狂犬病、腮腺炎风疹病毒、脊髓灰质炎病毒、黄热病、甲型肝炎、乙型肝炎、轮状病毒、水痘病毒、人乳头瘤病毒(HPV)、天花、带状疱疹及其任何组合。

在一些实施方案中，所述细菌选自：克雷伯氏菌属(Klebsiella)的种、惠普尔吸收障碍菌(Tropheryma whipplei)、麻风分枝杆菌(Mycobacterium leprae)、Mycobacteriumlepromatosis和结核分枝杆菌(Mycobacterium tuberculosis)、伤寒、肺炎球菌、脑膜炎球菌、嗜血杆菌B、炭疽、破伤风类毒素、脑膜炎球菌B组、卡介苗(bcg)、霍乱及其任何组合。

在一些实施方案中，所述寄生虫是蠕虫或原生动物。在一些实施方案中，所述寄生虫选自：利什曼原虫属(Leishmania)的种、疟原虫属(Plasmodium)的种、克氏锥虫(Trypanosoma cruzi)、似蚓蛔线虫(Ascaris lumbricoides)、鞭形鞭虫(Trichuristrichiura)、美洲板口线虫(Necator americanus)、血吸虫属(Schistosoma)的种及其任何组合。

本文提供了一种富集免疫原性肽的方法，其包括：提供细胞群体，该细胞群体包含一个或多个表达亲和受体标记的HLA的细胞，其中该亲和受体标记的HLA包含与重组HLA等位基因所编码的重组HLA可操作地连接的亲和受体肽；以及富集包含该亲和受体标记的HLA的HLA-肽复合物。在一些实施方案中，该方法进一步包括确定从所述HLA-肽复合物分离的免疫原性肽的序列。在一些实施方案中，所述确定包括使用LC-MS/MS。

本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用有效量的包含编码本文所述肽的序列的多核酸。本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用有效量的包含本文所述的肽序列的肽。本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用有效量的包含含有本文所述肽序列的肽的细胞。本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用包含有效量的多核酸的细胞，该多核酸包含编码包含本文所述肽序列的肽的序列。

本文提供了一种为患有疾病或状况的受试者开发治疗剂的方法，该方法包括提供来源于患有疾病或状况的受试者的细胞群体，在该细胞群体的一个或多个细胞中表达亲和受体标记的I类或II类HLA等位基因，这是通过向所述一个或多个细胞中引入编码以下序列的多核酸，该序列包含：与编码亲和受体肽的序列可操作地连接的编码重组I或II类HLA等位基因的序列，从而在所述一个或多个细胞中形成亲和受体标记的HLA-肽复合物；富集并表征所述亲和受体标记的HLA-肽复合物；并且任选地，基于所述表征开发治疗剂。

本文提供了一种鉴定至少一种受试者特异性免疫原性抗原并制备包含所述至少一种受试者特异性免疫原性抗原的受试者特异性免疫原性组合物的方法，其中该受试者患有疾病，并且所述至少一种受试者特异性免疫原性抗原对该受试者和该受试者的疾病是特异性的，所述方法包括：提供来源于患有疾病或状况的受试者的细胞群体，在来自该受试者的细胞群体的一个或多个细胞中表达亲和受体标记的I类或II类HLA等位基因，这是通过向所述一个或多个细胞中引入编码以下序列的多核酸，该序列包含：与编码亲和受体肽的序列可操作地连接的编码重组I或II类HLA等位基因的序列，从而在所述一个或多个细胞中形成亲和受体标记的HLA-肽复合物；从所述一个或多个细胞中富集亲和受体标记的HLA-肽复合物；从富集的亲和受体标记的HLA-肽复合物中鉴定对该受试者和该受试者的疾病具有特异性的免疫原性肽；以及基于一种或多种鉴定出的受试者特异性免疫原性肽来配制受试者特异性免疫原性组合物。

在一些实施方案中，所述治疗剂或受试者特异性免疫原性组合物包含来自所富集的亲和受体标记的HLA-肽复合物的肽或编码来自所富集的亲和受体标记的HLA-肽复合物的多肽的多核苷酸。在一些实施方案中，所述治疗剂或受试者特异性免疫原性组合物包含表达T细胞受体(TCR)的T细胞，该T细胞受体与来自所富集的亲和受体标记的HLA-肽复合物的多肽特异性结合。在一些实施方案中，所述受试者特异性免疫原性组合物包含嵌合抗原受体(CAR)T细胞，该T细胞表达与来自所富集的亲和受体标记的HLA-肽复合物的多肽特异性结合的受体。

在一些实施方案中，所述方法进一步包括向受试者施用另一种治疗剂，任选地，免疫检查点抑制剂。在一些实施方案中，所述方法进一步包括向受试者施用佐剂，任选地，聚-ICLC。

在一些实施方案中，所述疾病或病症是癌症。在一些实施方案中，所述疾病或病症是自身免疫性疾病。在一些实施方案中，所述疾病或病症是感染。在一些实施方案中，所述感染是传染原的感染。在一些实施方案中，该传染原是病原体，病毒、细菌或寄生虫。

在一些实施方案中，所述细菌选自：克雷伯氏菌属的种、惠普尔吸收障碍菌、麻风分枝杆菌、Mycobacterium lepromatosis和结核分枝杆菌、伤寒、肺炎球菌、脑膜炎球菌、嗜血杆菌B、炭疽、破伤风类毒素、脑膜炎球菌B组、卡介苗(bcg)、霍乱及其组合。

在一些实施方案中，所述寄生虫是蠕虫或原生动物。在一些实施方案中，所述寄生虫选自：利什曼原虫属的种、疟原虫属的种、克氏锥虫、似蚓蛔线虫、鞭形鞭虫、美洲板口线虫、血吸虫属的种及其任何组合。

本文提供了一种为患有疾病或状况的受试者开发治疗剂的方法，该方法包括：提供细胞群体，其中该细胞群体的一个或多个细胞包含多核酸，该多核酸包含编码至少两个亲和受体标记的I类或II类HLA等位基因的序列，其中所述编码至少两个亲和受体标记的I类或II类HLA等位基因的序列包含第一重组序列和第二重组序列，第一重组序列包含与编码第一亲和受体肽的序列可操作地连接的编码第一I类或II类HLA等位基因的序列，第二重组序列包含与编码第二亲和受体肽的序列可操作地连接的编码第二I类或II类HLA等位基因的序列；在所述细胞群体的一个或多个细胞的至少一个细胞中表达所述至少两个亲和受体标记的HLA，从而在所述至少一个细胞中形成亲和受体标记的HLA-肽复合物；富集所述亲和受体标记的HLA-肽复合物；以及从富集的亲和受体标记的HLA-肽复合物中鉴定肽；以及基于鉴定出的一种或多种肽配制免疫原性组合物，其中所述第一和第二重组I类或II类HLA等位基因与受试者的HLA单元型匹配。在一些实施方案中，所述受试者患有疾病或状况。

在一些实施方案中，第一重组I类或II类HLA等位基因不同于第二重组I类或II类HLA等位基因。在一些实施方案中，第一亲和受体肽与第二亲和受体肽相同。在一些实施方案中，所述方法包括表征与来自所述富集的第一和/或第二亲和受体标记的HLA-肽复合物结合的肽。在一些实施方案中，所述至少两个亲和受体标记的I类或II类HLA等位基因包含至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45或50个I类和/或II类HLA等位基因。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物包含跨膜结构域。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物包含细胞内结构域。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物不被排出。在一些实施方案中，当被表达时，第一和/或第二亲和受体标记的HLA-肽复合物并入细胞膜中。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物不是可溶性亲和受体标记的HLA-肽复合物。

在一些实施方案中，所述方法进一步包括生成HLA等位基因特异性肽数据库。在一些实施方案中，所述方法包括将一种或多种外源肽引入细胞群体。在一些实施方案中，所述引入包括使所述细胞群体与所述一种或多种外源肽接触或在所述细胞群体中表达所述一种或多种外源肽。在一些实施方案中，所述引入包括使所述细胞群体与编码所述一种或多种外源肽的一种或多种核酸接触。

在一些实施方案中，编码所述一种或多种肽的所述一种或多种核酸是DNA。在一些实施方案中，编码所述一种或多种肽的所述一种或多种核酸是RNA，任选地其中该RNA是mRNA。

在一些实施方案中，所述富集不包括使用四聚体试剂。在一些实施方案中，所述方法包括确定与来自所述富集的所述第一和/或第二亲和受体标记的HLA-肽复合物结合的肽或其部分的序列。在一些实施方案中，所述确定包括生化分析、质谱分析、MS分析、MS/MS分析、LC-MS/MS分析或其组合。

在一些实施方案中，所述方法包括评价与来自所述富集的第一和/或第二亲和受体标记的HLA-肽复合物结合的肽或其部分的结合亲和力或稳定性。在一些实施方案中，所述方法包括确定与来自所述富集的第一和/或第二亲和受体标记的HLA-肽复合物结合的肽或其部分是否含有一个或多个突变。在一些实施方案中，所述方法包括评价第一和/或第二亲和受体标记的HLA-肽复合物中的肽与HLA分子的缔合。

在一些实施方案中，所述方法包括在细胞群体中表达肽文库，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，所述方法包括使肽文库或编码肽的序列文库与细胞群体接触，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该文库包含与疾病或状况相关的肽的文库。

在一些实施方案中，所述疾病或状况是癌症或传染原的感染。在一些实施方案中，所述方法包括将传染原或其部分引入细胞群体中的一个或多个细胞中。在一些实施方案中，所述方法包括表征来自第一和/或第二HLA-肽复合物的一种或多种肽，任选地其中所述肽来自传染原的一种或多种靶蛋白。在一些实施方案中，所述方法包括表征来自传染原的一种或多种靶蛋白的肽的一个或多个区域。在一些实施方案中，所述方法包括鉴定来自由传染原衍生的第一和/或第二HLA-肽复合物的肽。

在一些实施方案中，所述细胞群体来自患有疾病或状况的受试者的生物样品。在一些实施方案中，所述细胞群体是细胞系。在一些实施方案中，所述细胞群体是原代细胞群体。在一些实施方案中，当被抗原呈递细胞呈递时，来自第一和/或第二亲和受体标记的HLA-肽复合物的肽能够激活来自受试者的T细胞。在一些实施方案中，所述方法包括将来自病变细胞的HLA-肽复合物与来自非病变细胞的HLA-肽复合物进行比较。在一些实施方案中，所述方法进一步包括在鉴定之前从第一和/或第二亲和受体标记的HLA-肽复合物中分离肽。在一些实施方案中，所述细胞群体是低细胞表面HLA I类或II类表达细胞的群体。

在一些实施方案中，所述细胞群体表达一个或多个内源HLA等位基因。在一些实施方案中，所述细胞群体表达通常由所述细胞群体表达的内源HLA等位基因。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因和内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是一个或多个HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是一个或多个HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除和所有HLA II类等位基因的敲除。在一些实施方案中，编码所述至少两个亲和受体标记的I类或II类HLA等位基因的序列编码I类HLA。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C、HLA-E、HLA-F和HLA-G。在一些实施方案中，第一重组I类或II类HLA等位基因是第一I类HLA等位基因，并且第二重组I类或II类HLA等位基因是第二I类HLA等位基因。在一些实施方案中，编码所述至少两个亲和受体标记的I类或II类HLA等位基因的序列编码II类HLA。在一些实施方案中，所述II类HLA选自HLA-DR、HLA-DQ和HLA-DP。在一些实施方案中，所述II类HLA包含HLA II类α链、HLA II类β链或其组合。在一些实施方案中，第一重组I类或II类HLA等位基因是第一II类HLA等位基因，并且第二重组I类或II类HLA等位基因是第二II类HLA等位基因。

在一些实施方案中，第一序列和第二序列各自可操作地连接。在一些实施方案中，第一序列和第二序列被包含在不同的多核苷酸分子上。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的细胞外部分的序列。在一些实施方案中，第一和/或第二编码的亲和受体肽在细胞外表达。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列的N-末端。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的细胞内部分的序列。在一些实施方案中，所编码的第一和/或第二亲和受体肽在细胞内表达。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列的C-末端。在一些实施方案中，编码第一和/或第二亲和受体肽的序列通过连接体可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列。

在一些实施方案中，富集包括富集表达第一和/或第二亲和受体标记的HLA-肽复合物的完整细胞。在一些实施方案中，所述方法不包括在富集之前裂解细胞。在一些实施方案中，所述方法进一步包括在富集之前裂解所述一个或多个细胞。在一些实施方案中，富集包括使亲和受体肽结合分子与第一和/或第二亲和受体标记的HLA-肽复合物接触，其中所述亲和受体肽结合分子与第一和/或第二亲和受体肽特异性结合。

在一些实施方案中，第一和/或第二亲和受体肽包含标签序列，该标签序列包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚-半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1 Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP))标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签或其组合；任选地，其中第一和/或第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，所述亲和受体肽结合分子是生物素或对第一和/或第二亲和受体肽具有特异性的抗体。在一些实施方案中，所述富集包括使亲和分子与第一和/或第二亲和受体标记的HLA-肽复合物接触，其中所述亲和分子与所述亲和受体肽结合分子特异性结合。在一些实施方案中，所述亲和分子是链霉亲和素、NeutrAvidin或其衍生物。在一些实施方案中，富集包括免疫沉淀第一和/或第二亲和受体标记的HLA-肽复合物。

在一些实施方案中，所述亲和受体肽结合分子附着于固体表面。在一些实施方案中，所述亲和分子附着于固体表面。在一些实施方案中，该固体表面是珠子。

在一些实施方案中，富集包括用与第一和/或第二亲和受体肽特异性结合的亲和受体肽结合分子免疫沉淀第一和/或第二亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体肽结合分子不与所编码的第一和/或第二I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，富集包括接触对第一和/或第二I类或II类HLA等位基因的细胞外部分具有特异性的亲和分子。在一些实施方案中，富集包括接触对第一和/或第二I类或II类HLA等位基因的N-末端部分具有特异性的亲和分子。

在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码HLA I类α链的序列。在一些实施方案中，第一重组I类或II类HLA等位基因是第一HLA I类α链，并且第二重组I类或II类HLA等位基因是第二HLA I类α链。

在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码β2微球蛋白的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码第一和/或第二I类或II类HLA的序列。在一些实施方案中，编码β2微球蛋白的序列通过连接体连接至编码第一和/或第二I类或II类HLA的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码第三亲和受体肽的序列。

在一些实施方案中，第三亲和受体肽不同于第一和/或第二亲和受体肽。在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码HLA II类α链和/或HLA II类β链的序列。在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码第一HLAII类α链和第二HLA II类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码HLA II类β链的序列。在一些实施方案中，编码第一HLA II类α链和第二HLA II类α链HLA的序列连接至编码HLA II类β链的序列。在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码第一HLA II类β链和第二HLA II类β链的序列。

在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码HLAII类α链的序列。在一些实施方案中，编码第一HLA II类β链和第二HLA II类β链的序列通过连接体连接至编码HLA II类α链的序列。在一些实施方案中，编码HLA II类β链或HLA II类α链的序列连接至编码第三亲和受体肽的序列。在一些实施方案中，第三亲和受体肽不同于第一和/或第二亲和受体肽。

在一些实施方案中，第三亲和受体肽不同于第一亲和受体肽，并且选自生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸2甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签及其组合；任选地，其中第一或第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，所述方法包括进行生化分析或质谱分析，如串联质谱分析。在一些实施方案中，所述方法包括从肽数据库获得与从富集的亲和受体标记的HLA-肽复合物中分离的一种或多种肽的MS/MS谱相对应的肽序列；其中获得的一个或多个序列鉴定所述一种或多种肽的序列。

在一些实施方案中，所述细胞群体是选自HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat、Hep G2、SH-SY5Y、CACO-2、U937、U-2 OS、ExpiCHO、CHO和THP1的细胞系。在一些实施方案中，用一种或多种细胞因子、检查点抑制剂、表观遗传活性药物、IFN-γ或其组合处理该细胞系。在一些实施方案中，所述细胞群体包含至少10⁵个细胞、至少10⁶个细胞或至少10⁷个细胞。在一些实施方案中，所述细胞群体是树突细胞、巨噬细胞、癌细胞或B细胞的群体。在一些实施方案中，所述细胞群体包含肿瘤细胞。

在一些实施方案中，在从所述一个或多个细胞中分离第一和/或第二HLA-肽复合物之前，使所述细胞群体与试剂接触。在一些实施方案中，所述试剂是炎性细胞因子、化学试剂、佐剂、治疗剂或辐射。

在一些实施方案中，第一和/或第二HLA等位基因是突变的HLA等位基因。在一些实施方案中，编码第一和/或第二HLA等位基因的序列包含条形码序列。在一些实施方案中，所述方法进一步包括测定第一和/或第二亲和受体标记的I类或II类HLA等位基因的表达。

在一些实施方案中，所述测定包括对第一和/或第二亲和受体标记的I类或II类HLA等位基因进行测序，检测编码第一和/或第二亲和受体标记的I类或II类HLA等位基因RNA的RNA，检测第一和/或第二亲和受体标记的I类或II类HLA等位基因蛋白质，或其组合。在一些实施方案中，第一和第二亲和受体标记的I类或II类HLA等位基因包含独特的条形码序列。在一些实施方案中，第一序列和第二序列包含独特的条形码序列。

附图说明

在所附权利要求书中具体阐述了本公开内容的特征。通过参考以下对利用了本发明原理的说明性实施方案加以阐述的详细描述以及附图，将会对本公开内容的特征和优点获得更好的理解，在附图中：

图1A是通用免疫纯化和数据生成流程的代表性示意图。将I类和/或II类HLA分子引入任何细胞，包括不表达I类或II类HLA的细胞中，以便在细胞中表达特定的I类或II类HLA等位基因。收获经遗传工程化的表达HLA的细胞群体，裂解，标记(例如，生物素化)它们的HLA-肽复合物，并免疫纯化(例如，使用生物素-链霉亲和素相互作用)。可以从其标记的(例如，生物素化的)复合物中洗脱对单HLA具有特异性的HLA关联肽，并进行评价(例如，使用高分辨率LC-MS/MS进行测序)。

图1B是HLA II类分子-DP、-DQ和-DR的结构的示意图。HLA-DR分子是含有恒定α链和可变β链的异二聚体。HLA-DQ和HLA-DP分子是含有可变α链和可变β链的异二聚体。

图2是为了在培养的细胞系中表达HLA I类和II类而设计的构建体的代表性示意图。HLA-A*02:01构建体代表使用生物素受体肽(BAP)以供生物素化和免疫纯化的HLA I类设计。DRB1*11:01构建体代表使用生物素受体肽(BAP)以供生物素化和免疫纯化的HLA II类设计。

图3是可用来生成表达HLA I类和II类构建体的稳定细胞系的示例性慢病毒载体的示意图。

图4A是I类或II类HLA构建体的基于转染的引入的代表性示意图，其用于通过LC-MS/MS进行通用IP和HLA关联肽测序。

图4B是以下过程的代表性示意图：I类或II类HLA构建体的基于转染的引入，随后是选择过程，例如，包含抗生素抗性基因。然后可以提交选定的细胞通过LC-MS/MS进行通用IP和HLA关联肽测序。

图5是I类和II类HLA的通用免疫纯化的示意图。转染或转导诸如HEK293T(人胚肾)的细胞，以表达具有用于免疫纯化的亲和标签的单个I类或II类HLA等位基因。收获HLA标记的表达细胞，裂解，并使用生物素-链霉亲和素相互作用对其HLA-肽复合物进行生物素化和免疫纯化。从其生物素化的复合物中洗脱对单HLA具有特异性的HLA关联肽，并进行分析(例如，使用高分辨率LC-MS/MS进行测序)。

图6A是Western印迹(抗生物素化)，其比较了采用用于基于生物素化的免疫沉淀的HLA-A*02:01构建体的模拟、GFP和空质粒转染，证明了I类HLA等位基因在HEK293T细胞中的表达。

图6B是丽春红染色的凝胶，其用作Western印迹分析的加样对照。

图6C是用来生成在图6A和图6B中成像的工程化HEK293T细胞的I类HLA构建体的示意图。

图7A是生物素化时程实验的Western印迹(上图)和加样对照(下图)图像，证明I类和II类HLA-BAP表达细胞在10分钟内完成C-和N-末端标记的HLA-BAP生物素化。结果显示了HEK293T细胞表达的I类和II类HLA-BAP等位基因的转染和生物素化优化。

图7B是来自表达N-末端和C-末端BAP标记的I类和II类HLA构建体的细胞的针对抗BAP(上图)和加样对照(下图)的Western印迹。

图7C是用于转染和生物素化优化的N-末端和C-末端BAP标记的I类(HLA-A*02:01)和II类(HLA-DRβ*11:01)构建体的示意图。

图8A是Western印迹图像(抗链霉亲和素用于BAP标记，抗HA用于HA标记)和加样对照(丽春红S)，其显示了用于HLA免疫沉淀的生物素化I类和II类HLA构建体在HEK293T细胞中的表达。在添加生物素之前(-生物素)、添加生物素之后(+生物素输入)以及生物素化并随后用链霉亲和素珠下拉(pulldown)之后(+生物素FT)分析了裂解物。+生物素FT泳道中信号的减少表明，生物素化的MHC正从裂解物中去除，并与链霉亲和素珠结合。

图8B是Western印迹图像(抗链霉亲和素用于BAP标记，抗HA用于HA标记)和加样对照(丽春红S)，其显示了用于HLA免疫沉淀的生物素化I类和II类HLA构建体在HeLa(人宫颈癌)细胞中的表达。在添加生物素之前(-生物素)、添加生物素之后(+生物素输入)以及生物素化并随后用链霉亲和素珠下拉之后(+生物素FT)分析了裂解物。+生物素FT泳道中信号的减少表明，生物素化的MHC正从裂解物中去除，并与链霉亲和素珠结合。

图8C是Western印迹图像(抗链霉亲和素用于BAP标记，抗HA用于HA标记)和加样对照(丽春红S)，其显示了用于HLA免疫沉淀的生物素化I类和II类HLA构建体在A375(人恶性黑素瘤)细胞中的的表达。在添加生物素之前(-生物素)、添加生物素之后(+生物素输入)以及生物素化并随后用链霉亲和素珠下拉之后(+生物素FT)分析了裂解物。+生物素FT泳道中信号的减少表明，生物素化的MHC正从裂解物中去除，并与链霉亲和素珠结合。

图8D是Western印迹图像(抗链霉亲和素用于BAP标记，抗HA用于HA标记)和加样对照(丽春红S)，其显示了用于HLA免疫沉淀的生物素化I类和II类HLA构建体在Expi293细胞(针对高密度培养和蛋白质表达而遗传修饰的人胚肾)中的表达。在添加生物素之前(-生物素)、添加生物素之后(+生物素输入)以及生物素化并随后用链霉亲和素珠下拉之后(+生物素FT)分析了裂解物。+生物素FT泳道中信号的减少表明，生物素化的MHC正从裂解物中去除，并与链霉亲和素珠结合。

图9A是使用通用HLA免疫沉淀(通用IP)流程分离的HLA关联肽的示例性LC-MS/MS分析的条形图。显示了从多种细胞类型(A375：灰色，HEK293T：橙色，HeLa：蓝色)中鉴定出的表达在通用IP流程中使用的亲和标记的I类和II类HLA构建体的总独特HLA关联肽的条形图表示。

图9B是柱状图，显示了来自通过LC-MS/MS进行的I类HLA单等位基因肽概况分析的代表性数据。每个柱代表从使用亲和标记的HLA构建体的I类单等位基因实验中鉴定出的独特HLA关联肽的总数。

图9C是柱状图，显示了来自通过LC-MS/MS进行的II类HLA单等位基因肽概况分析的代表性数据。每个柱代表从实施亲和标记的HLA构建体的II类单等位基因实验中鉴定出的独特HLA关联肽的总数。

图10A是使用通用IP流程发现的I类和II类HLA关联肽的特征的示例性示意图。显示了使用通用IP平台分离并测序的I类HLA-A*02:01关联肽和II类HLA-DRβ*11:01关联肽的示例性序列标识表示。

图10B是显示HLA关联肽长度分布的条形图，其比较了使用通用IP流程鉴定的I类(红色；HLA-A*02:01)和II类(蓝色；HLA-DRβ*11:01)HLA关联肽。使用通用IP鉴定的I类和II类HLA关联肽的长度分布均遵循预期的趋势。

图11A是针对被不同细胞类型表达以用于通用IP流程而工程化的II类HLA构建体的示意图。

图11B是II型HLA复合物的示意图，该复合物可以在表达内源II类HLAα链和β链亚单位的细胞系中表达图11A所示的构建体时形成。II类HLA复合物通过各自用不同亲和手柄(handle)标记的α链和β链的配对而形成。

图12A是系列通用IP策略的示意图，该策略可用于图11B中所示的II类HLAα链和β链配对的解卷积以及肽结合向特定II类HLA复合物的明确指定，并证实了含有多个亲和标签的II类HLA复合物的系列通用IP的验证。将表达双亲和标记的II类HLA构建体的细胞裂解，生物素化，并与偶联有抗HA抗体的珠子一起孵育。使用HA肽(例如，YPYDVPDYA)，对具有HA标记的亚单位的II类HLA复合物进行分离、洗涤和洗脱。然后将洗脱液与偶联有NeutrAvidin或链霉亲和素的珠子一起孵育，以分离HA标记的和生物素标记的II类HLA复合物。然后洗脱与双标记的II类HLA复合物结合的肽，并通过LC-MS/MS进行测序。

图12B是系列通用IP策略在表达双标记的HLA-DRB*11:01构建体的HEK293T中的Western印迹验证。使用抗HA抗体来跟踪系列富集过程。显示了加样对照(丽春红S染色的凝胶)。

图12C代表来自示例性阴性对照实验的结果，其中将表达双亲和标记的II类HLA构建体HLA-DRB*11:01的细胞裂解并与偶联有抗HA抗体的珠子一起孵育，而不进行生物素化。显示了Western印迹和加样对照(丽春红S染色的凝胶)，证明了系列通用IP流程的特异性。当从系列通用IP方案中除去生物素化步骤时，未观察到富集。

图13是概述能够鉴定核心结合表位的HLA II类修剪实验的示意图。HLA II类分子结合由相同来源蛋白质生成的嵌套组的肽，通常长度为12-18个氨基酸。更长的肽从HLA II类分子的N-和C-末端侧突出，而核心表位与肽结合沟的相互作用最强。使用对N-末端和C-末端具有特异性的肽酶修剪与HLA II类分子结合的肽。修剪后，使用LC-MS/MS对核心肽表位进行测序。

图14A是使用生物素亲和标签的单等位基因HLA-肽组概况分析方法的示意图。本公开的示例性实施方案利用了通过BirA酶在赖氨酸(K)残基上生物素化的生物素受体肽(BAP)。BAP肽序列含有在添加BirA酶、生物素和ATP后被生物素化的赖氨酸残基。生物素化产物对链霉亲和素/NeutrAvidin展现出高亲和力。链霉亲和素/NeutrAvidin珠可用来富集生物素化的BAP肽序列。

图14B是遗传工程化HLA分子的基于生物素的免疫纯化的示意图。例如通过转染或转导质粒，将在HLA蛋白的N-或C-末端具有BAP序列的特异性HLA等位基因引入细胞中。请注意，该质粒含有DNA条形码，该DNA条形码允许使用基于PCR的方法针对每个等位基因监测细胞系。条形码长度可以是至少5个碱基对、至少10个碱基对、至少15个碱基对、至少20个碱基对或更长。表达HLA-BAP蛋白的细胞被裂解并被生物素化。从复合物裂解物混合物中免疫纯化HLA-BAP-肽复合物，可对其进行LC-MS/MS分析以鉴定肽。

图15是用于目标表位验证和发现的通用IP平台的示例性应用的示意图。目的细胞系被工程化为表达等位基因特异性的HLA标记的(例如，BAP)构建体。表达HLA标记的(例如，BAP)分子的细胞被遗传工程化为表达单个表位或多个表位。裂解表达表位的细胞，并免疫纯化HLA-BAP-肽复合物。分离的肽抗原可以通过任何合适的手段进行检查，例如通过LC-MS/MS进行测序，并且由引入的表位生成的肽片段可以用作HLA等位基因匹配的抗原加工和呈递的高通量读数。

图16是通用IP流程内的HLA等位基因多重化(multiplexing)的示意图。可以从单个HLA构建体表达多个I类和II类等位基因。例如，可以将多个重链包含在I类构建体中，并且可以将多个β-链和/或α-链包含在II类构建体中。通过在单个构建体中包含多个HLA等位基因，可以在目的细胞系中递送并表达多个HLA分子。等位基因多重化能够允许与患者HLA类型的匹配以及个性化的肽抗原读出，其应用通用IP流程以及随后的复合物和/或肽分析，例如LC-MS/MS读出。

图17是HLA配体概况分析中的多等位基因和单等位基因方法的示意图。在多等位基因方法中，HLA配体直接从患者材料或细胞系中与HLA异二聚体共免疫沉淀(上图)。因为这些细胞自然表达多个HLA等位基因，所以如果HLA类型已知，则必须对由这类多等位基因方法鉴定的肽进行解卷积，以进行特定HLA异二聚体的结合指定。在单等位基因方法中，HLA配体从为了仅表达单个HLA等位基因而遗传修饰的细胞系中与HLA异二聚体共免疫沉淀(下图)。因此，从单等位基因方法鉴定的肽对于HLA异二聚体结合指定不需要解卷积。

图18A是显示在MHC上呈递的突变新抗原肽的图示。

图18B是开发如本文所述的个性化新抗原靶向疗法的示意性方法。

图19示出了显示不同HLA配体概况分析的不同实验方法的示意图。生化肽：MHC(p：MHC)结合试验缓慢且通量低，并且对加工无了解。多等位基因质谱分析是高通量的，并且具有学习加工规则的能力；然而，它需要计算机估算(in silico imputation)来将肽指定给等位基因。单等位基因质谱分析提供了一种快速、无偏且干净的方法，用于定义不同MHC等位基因之间的肽结合基序。单等位基因质谱分析能够快速且系统性地填充等位基因覆盖缺口，并有可能利用等位基因特异的肽长度偏好。

图20A显示了使用单等位基因方法发现的针对A*01:01、B*51:01、A*29:02和B*54:01等位基因的示例性HLA结合肽的表格。单等位基因方法发现了NetMHCpan评分较差但在生物化学上被证实为强结合物的HLA结合肽。

图20B是条形图，显示了在100个模拟解卷积中的错误指定率。生成了随机的六等位基因患者HLA基因型(HLA-A、HLA-B和HLA-C各2个等位基因，以US等位基因频率采样)。对于每个等位基因，对500个来自相关单等位基因实验的肽进行采样，并合并以创建模拟的、3000个肽的多等位基因数据集。将每个肽指定给产生最佳NetMHCpan％等级评分的等位基因，以确定被NetMHCpan错误指定的肽的百分比。重复该过程100次。

图21是使用MS数据针对不同单独MHC I类等位基因的MHC呈递预测器的示意图。对非重叠的来源蛋白质进行模型训练和评价。MS观察到的肽根据来源蛋白质被分配进行训练/测试。评价方法采用相对于真正结合物5000∶1过量的诱饵。

图22是显示在加工和等位基因特异的结合方面均显著改善的预测的条形图。

具体实施方式

以下描述和实例详细说明了本公开的实施方案。应当理解，本公开不限于本文所述的特定实施方案，而是可以变化。本领域技术人员将会认识到，本公开存在许多变化和修改，这些均涵盖在本公开内容的范围内。

所有术语均应按照它们将被本领域技术人员所理解的那样来理解。除非另有定义，否则本文使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。

本文使用的章节标题仅用于组织结构目的，不应解释为限制所描述的主题。

尽管可以在单个实施方案的语境中描述本公开的各种特征，但是这些特征也可以单独提供或以任何合适的组合提供。相反，尽管为了清楚起见，本文可以在单独的实施方案的语境中描述本公开，但是本公开也可以在单个实施方案中实现。

以下定义补充了本领域中的定义，并且针对本申请，而不应归于任何相关或不相关的情况，例如任何共同拥有的专利或申请。本文描述了示例性材料和方法，但是与本文描述的方法和材料类似或等同的任何方法和材料可以在测试本公开的实践中使用。因此，本文使用的术语仅仅是为了描述特定实施方案的目的，而并非旨在限制。

定义

在本申请中，除非另外明确指出，否则单数的使用包括复数。必须指出，除非上下文另有明确说明，否则如在本说明书中所用的，单数形式“一个”、“一种”和“该”包括复数指示物。在本申请中，除非另外指出，否则“或”的使用意指“和/或”。此外，术语“包括”以及其它形式如“包含”、“含有”和“具有”的使用并非限制性的。

术语“一个或多个”或“至少一个”，例如一组成员中的一个或多个或至少一个成员，本身是清楚的，通过进一步举例说明，该术语尤其包括提及任何一个所述成员，或任何两个或更多个所述成员，例如，所述成员中的任意≥3、≥4、≥5、≥6或≥7个等，直至所有所述成员。

本说明书中对“一些实施方案”、“实施方案”、“一个实施方案”或“其它实施方案”的提及意指关于该实施方案描述的特征、结构或特性包含在本公开的至少一些实施方案中，但不一定包含在所有实施方案中。

如在本说明书和权利要求书中所用的，词语“包含”(和任何形式的包含)、“具有”(和任何形式的具有)、“包括”(和任何形式的包括)或“含有”(和任何形式的含有)是包含性的或开放式的，并不排除其它未列举的要素或方法步骤。可以想到，本说明书中讨论的任何实施方案可以采用本公开的任何方法或组合物来实施，反之亦然。此外，本公开的组合物可以用来实现本公开的方法。

当涉及诸如参数、量、持续时间等可测量的值时，如本文所用的术语“约”或“大约”旨在涵盖指定值的+/-20％或更小、+/-10％或更小、+/-5％或更小或+/-1％或更小的变化，只要这样的变化适合在本公开中进行。应当理解，修饰语“约”或“大约”所指的值本身也被具体公开。

术语“免疫应答”包括受T细胞共刺激调节影响的T细胞介导的和/或B细胞介导的免疫应答。示例性的免疫应答包括T细胞应答，例如细胞因子的产生和细胞的细胞毒性。另外，术语免疫应答包括受T细胞活化间接影响的免疫应答，例如抗体产生(体液应答)和细胞因子应答性细胞例如巨噬细胞的活化。

“受体”应被理解为是指能够结合配体的生物分子或分子分组。受体可以用来在细胞、细胞形成或生物体中传递信息。受体包含至少一个受体单元，并且可以含有两个或更多个受体单元，其中每个受体单元可以由蛋白质分子例如糖蛋白分子组成。受体具有与配体的结构互补的结构，并且可以作为结合配偶体与配体复合。信号信息可以通过受体与细胞表面上的配体结合后的构象变化来传递。根据本公开，受体可以指能够与配体例如适当长度的肽或肽片段形成受体/配体复合物的MHC I类和II类蛋白质。

“条形码”序列可以是可编码与序列有关的信息条目的核酸序列，该信息例如是条形码所附接的序列的身份或衍生出序列的样品的身份。

“配体”是指能够与受体形成复合物的分子。根据本公开，配体应被理解为是指例如在其氨基酸序列中具有合适的长度和合适的结合基序的肽或肽片段，从而该肽或肽片段能够与MHC I类或MHC II类蛋白质形成复合物。

“抗原”是能够刺激免疫应答的分子，并且可以由癌细胞或传染原或自身免疫性疾病产生。被T细胞(无论是辅助性T淋巴细胞(T辅助(T_H)细胞)还是细胞毒性T淋巴细胞(CTL))识别的抗原不是作为完整蛋白质被识别，而是作为与细胞表面上的I类或II类MHC蛋白质缔合的小肽被识别。在自然发生的免疫应答的过程中，与抗原呈递细胞(APC)上的II类MHC分子缔合而被识别的抗原从细胞外获取，内化，并加工成与II类MHC分子缔合的小肽。APC还可以通过加工外源抗原并将加工后的抗原呈递给I类MHC分子来交叉呈递肽抗原。产生与I类MHC分子缔合而被识别的蛋白质的抗原通常是在细胞内产生的蛋白质，并且这些抗原被加工并与I类MHC分子缔合。现已理解，与给定的I类或II类MHC分子缔合的肽被表征为具有共同的结合基序，并且已经确定了针对大量不同的I类和II类MHC分子的结合基序。也可以合成与给定抗原的氨基酸序列相对应并含有针对给定I类或II类MHC分子的结合基序的合成肽。然后可以将这些肽添加至适当的APC，并且可以使用该APC在体外或体内刺激T辅助细胞或CTL应答。结合基序、合成肽的方法和刺激T辅助细胞或CTL应答的方法都是本领域普通技术人员已知的并且容易获得。

在本说明书中，术语“肽”与“突变肽”和“新抗原肽”可互换使用。类似地，在本说明书中，术语“多肽”与“突变多肽”和“新抗原多肽”可互换使用。“新抗原”或“新表位”是指由表达的蛋白质中的肿瘤特异性突变产生的一类肿瘤抗原或肿瘤表位。本公开进一步包括包含肿瘤特异性突变的肽，包含已知肿瘤特异性突变的肽，以及通过本公开的方法鉴定的突变多肽或其片段。这些肽和多肽在本文中被称为“新抗原肽”或“新抗原多肽”。这些多肽或肽可具有多种长度，可以是其中性(不带电荷的)形式，也可以是盐形式，并且不含修饰，如糖基化、侧链氧化、磷酸化或任何翻译后修饰，或含有这些修饰，条件是该修饰不会破坏本文所述的多肽的生物学活性。在一些实施方案中，本公开的新抗原肽可包括：对于MHC I类，长度为22个或更少的残基，例如，约8个至约22个残基，约8个至约15个残基，或9或10个残基；对于MHC II类，长度为40个或更少的残基，例如，长度为约8个至约40个残基，长度为约8个至约24个残基，约12个至约19个残基，或约14个至约18个残基。在一些实施方案中，新抗原肽或新抗原多肽包含新表位。

术语“表位”包括能够与本文所定义的抗体、抗体肽和/或抗体样分子(包括但不限于T细胞受体)特异性结合的任何蛋白质决定簇。表位决定簇通常由分子的化学活性表面基团如氨基酸或糖侧链组成，并且通常具有特定的三维结构特征以及特定的电荷特征。

“T细胞表位”是指这样的肽序列，其可以以呈递肽的MHC分子或MHC复合物的形式被I或II类MHC分子结合，然后以这种形式分别被细胞毒性T淋巴细胞或T辅助细胞识别并结合。

如本文所用的术语“抗体”包括IgG(包括IgG1、IgG2、IgG3和IgG4)、IgA(包括IgA1和IgA2)、IgD、IgE或IgM和IgY，并且意在包括完整抗体，包括单链完整抗体，及其抗原结合(Fab)片段。抗原结合抗体片段包括但不限于Fab、Fab′和F(ab′)₂、Fd(由VH和CH1组成)、单链可变片段(scFv)、单链抗体、二硫键连接的可变片段(dsFv)和包含VL或VH结构域的片段。抗体可以来自任何动物来源。抗原结合抗体片段，包括单链抗体，可以包含单独的或与以下全部或部分组合的可变区：铰链区、CH1、CH2和CH3结构域。还包括可变区和铰链区、CH1、CH2和CH3结构域的任何组合。抗体可以是例如特异性结合HLA关联多肽或HLA-肽复合物的单克隆抗体、多克隆抗体、嵌合抗体、人源化抗体以及人单克隆和多克隆抗体。本领域技术人员将会认识到，多种免疫亲和技术适合于富集可溶性蛋白质，如可溶性HLA-肽复合物或膜结合的HLA关联多肽，例如，其已通过蛋白水解从膜上切割下来。这包括以下技术，其中(1)将一种或多种能够与可溶性蛋白质特异性结合的抗体固定在固定的或可移动的基底(例如，塑料孔或树脂、乳胶或顺磁珠)上，以及(2)使含有来自生物样品的可溶性蛋白质的溶液通过抗体包被的基底，从而使可溶性蛋白质与抗体结合。从溶液中分离具有抗体和结合的可溶性蛋白质的基底，并且任选地例如通过改变浸浴抗体的溶液的pH和/或离子强度和/或离子组成来使抗体和可溶性蛋白质解离。或者，可以使用免疫沉淀技术，其中将抗体和可溶性蛋白质组合并形成大分子聚集体。该大分子聚集体可通过大小排阻技术或通过离心从溶液中分离。

术语“免疫纯化(IP)”(或免疫亲和纯化或免疫沉淀)是本领域公知的方法，并广泛应用于从样品中分离所需抗原。通常，该方法包括使含有所需抗原的样品与亲和基质接触，该亲和基质包含共价附接至固相的针对该抗原的抗体。样品中的抗原通过免疫化学键与亲和基质结合。然后洗涤亲和基质以除去任何未结合的物质。通过改变与亲和基质接触的溶液的化学组成，从亲和基质中取出抗原。免疫纯化可以在含有亲和基质的柱上进行，在这种情况下溶液是洗脱液。或者，免疫纯化可以是分批过程，在这种情况下，亲和基质保持为溶液中的悬浮液。该过程中的重要步骤是从基质中取出抗原。这通常通过增加与亲和基质接触的溶液的离子强度来实现，例如通过添加无机盐。pH的改变也可以有效地解离抗原与亲和基质之间的免疫化学键。

“药剂”是指任何小分子化合物、抗体、核酸分子或多肽或其片段。

“改变”或“变化”是指增加或降低。改变可能少至1％、2％、3％、4％、5％、10％、20％、30％或40％、50％、60％，甚至多达70％、75％、80％、90％或100％。

“生物样品”是指来源于生物体的任何组织、细胞、流体或其它物质。如本文所用的，术语“样品”包括生物样品，例如来源于生物体的任何组织、细胞、流体或其它物质。“特异性结合”是指识别并结合分子(例如，多肽)但基本上不识别并结合样品(例如，生物样品)中的其它分子的化合物(例如，肽)。

“捕获试剂”是指特异性结合分子(例如，核酸分子或多肽)以选择或分离该分子(例如，核酸分子或多肽)的试剂。

如本文所用的，术语“确定”、“评估”、“测定”、“测量”、“检测”及其语法等同语是指定量和定性确定，因此，术语“确定”与“测定”、“测量”等在本文中可互换使用。在意欲定量确定的情况下，使用短语“确定分析物等的量”。在意欲定性和/或定量确定的情况下，使用短语“确定分析物的水平”或“检测”分析物。

“片段”是指与参考蛋白质或核酸基本相同的蛋白质或核酸的一部分。在一些实施方案中，该部分保留本文所述参考蛋白质或核酸的生物学活性的至少50％、75％或80％或90％、95％，乃至99％。

术语“分离的”、“纯化的”、“生物学纯的”及其语法等同语是指从在其天然状态下通常与其伴随的组分中不同程度地释放出来的物质。“分离”表示与原始来源或环境的分离程度。“纯度”表示高于分离的分离程度。“纯化的”或“生物学纯的”蛋白质充分不含其它物质，使得任何杂质均不会实质性地影响该蛋白质的生物学性质或引起其它不利后果。即，如果当通过重组DNA技术生产时基本上不含细胞材料、病毒材料或培养基，或者当化学合成时基本上不含化学前体或其它化学品，则本公开的核酸或肽是纯化的。纯度和均质性通常使用分析化学技术来确定，例如聚丙烯酰胺凝胶电泳或高效液相色谱法。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中基本上产生一个条带。对于可以进行修饰例如磷酸化或糖基化的蛋白质，不同的修饰可以产生不同的分离的蛋白质，可以将其分别纯化。

“分离的”多肽(例如，来自HLA-肽复合物的肽)或多肽复合物(例如，HLA-肽复合物)是指已经与天然伴随的组分分离的本公开的多肽或多肽复合物。通常，当多肽或多肽复合物至少60重量％不含与之天然关联的蛋白质和天然存在的有机分子时，其为分离的。该制品可以是按重量计至少75％、至少90％或至少99％的本公开的多肽或多肽复合物。本公开的分离的多肽或多肽复合物可以例如通过从天然来源中提取、通过表达编码该多肽或多肽复合物的一种或多种组分的重组核酸或通过化学合成该多肽或该多肽复合物的一种或多种组分而获得。纯度可以通过任何适当的方法来测量，例如柱色谱法、聚丙烯酰胺凝胶电泳或通过HPLC分析。

术语“载体”是指能够转运或介导异源核酸表达的核酸分子。质粒是术语“载体”所涵盖的种类中的一种。载体通常是指含有复制起点和在宿主细胞中复制和/或维持所必需的其它实体的核酸序列。能够指导与其可操作地连接的基因和/或核酸序列的表达的载体在本文中被称为“表达载体”。通常，有用的表达载体通常是“质粒”的形式，其是指环状双链DNA分子，其在载体形式下不与染色体结合，并且通常包含用于稳定或瞬时表达的实体或编码的DNA。可以在本文公开的方法中使用的其它表达载体包括但不限于质粒、附加体、细菌人工染色体、酵母人工染色体、噬菌体或病毒载体，并且此类载体可以整合到宿主的基因组中或在细胞中自主复制。载体可以是DNA或RNA载体。也可以使用本领域技术人员已知的发挥等效功能的其它形式的表达载体，例如，自我复制的染色体外载体或能够整合到宿主基因组中的载体。示例性载体是能够自主复制和/或表达与其连接的核酸的载体。

“分子概况”是指两种或更多种标志物(例如，多肽或多核苷酸)的表达或表达水平的表征。

对于融合蛋白使用的术语“间隔体”或“连接体”是指连接包含融合蛋白的蛋白质的肽。通常，间隔体除了连接或保持蛋白质或RNA序列之间的某种最小距离或其它空间关系以外，没有具体的生物学活性。然而，在一些实施方案中，可以选择间隔体的组成氨基酸以影响分子的某些性质，如分子的折叠、净电荷或疏水性。供本公开的实施方案使用的合适的连接体是本领域技术人员公知的，并且包括但不限于直链或支链碳连接体、杂环碳连接体或肽连接体。连接体用来将两个抗原肽分开一定的距离，该距离足以确保在一些实施方案中每个抗原肽正确地折叠。示例性的肽连接体序列采用柔性的延伸构象，并且不表现出发展有序二级结构的倾向。柔性蛋白质区域中的典型氨基酸包括Gly、Asn和Ser。实际上，预期含有Gly、Asn和Ser的氨基酸序列的任何排列都将满足上述针对连接体序列的标准。其它接近中性的氨基酸，如Thr和Ala，也可以在连接体序列中使用。在Maratea等人(1985)，Gene40：39-46、Murphy等人(1986)Proc.Nat′l.Acad.Sci.USA 83：8258-62、美国专利4,935,233和美国专利4,751,180中公开了可用作连接体的其它氨基酸序列。

术语“瘤形成”是指导致不适当地高水平的细胞分裂、不适当地低水平的凋亡或两者或由其引起的任何疾病。胶质母细胞瘤是瘤形成或癌症的一个非限制性实例。术语“癌症”或“肿瘤”或“过度增殖性病症”是指具有致癌细胞的典型特征如不受控制的增殖、无限增殖性、转移潜能、快速生长和增殖速率以及某些特有形态特征的细胞的存在。癌细胞通常为肿瘤形式，但此类细胞可以单独存在于动物体内，也可以是非致瘤性癌细胞，如白血病细胞。癌症包括但不限于B细胞癌症，例如，多发性骨髓瘤、瓦尔登斯特伦巨球蛋白血症(Waldenstrom′s macroglobulinemia)、重链病(例如α链疾病、γ链疾病及μ链疾病)、良性单克隆丙种球蛋白病和免疫细胞淀粉样变性、黑素瘤、乳腺癌、肺癌、支气管癌、结直肠癌、前列腺癌(例如，转移性、激素难治性前列腺癌)、胰腺癌、胃癌、卵巢癌、膀胱癌、脑或中枢神经系统癌症、周围神经系统癌、食管癌、宫颈癌、子宫癌或子宫内膜癌、口腔或咽部的癌症、肝癌、肾癌、睪丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织的癌症等。适用于本公开所涵盖的方法的癌症类型的其它非限制性实例包括人类肉瘤及癌，例如，纤维肉瘤、粘液肉瘤、脂肪肉瘤、软骨肉瘤、骨肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因瘤(Ewing′s tumor)、平滑肌肉瘤、横纹肌肉瘤、结肠癌、结直肠癌、胰腺癌、乳腺癌、卵巢癌、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、囊腺癌、髓样癌、支气管癌、肾细胞癌、肝细胞瘤、胆管癌、肝癌、绒毛膜癌、精原细胞瘤、胚胎性癌、维尔姆斯瘤(Wilms′tumor)、宫颈癌、骨癌、脑瘤、睾丸癌、肺癌、小细胞肺癌、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突胶质细胞瘤、脑膜瘤、黑素瘤、神经母细胞瘤、视网膜母细胞瘤；白血病，例如，急性淋巴细胞白血病及急性髓细胞性白血病(成髓细胞性、早幼粒细胞性、粒单核细胞性、单核细胞性和红白血病)；慢性白血病(慢性髓细胞性(粒细胞性)白血病及慢性淋巴细胞白血病)；以及真性红细胞增多症、淋巴瘤(霍奇金病及非霍奇金病)、多发性骨髓瘤、瓦尔登斯特伦巨球蛋白血症和重链病。在一些实施方案中，该癌症是上皮癌，例如但不限于膀胱癌、乳腺癌、宫颈癌、结肠癌、妇科癌症、肾癌、喉癌、肺癌、口腔癌、头颈癌、卵巢癌、胰腺癌、前列腺癌或皮肤癌。在其它实施方案中，该癌症是乳腺癌、前列腺癌、肺癌或结肠癌。在另外其它的实施方案中，该上皮癌是非小细胞肺癌、非乳头状肾细胞癌、宫颈癌、卵巢癌(例如，浆液性卵巢癌)或乳腺癌。上皮癌可以用各种其它方式表征，包括但不限于浆液性、子宫内膜样、粘液性、透明细胞、布伦纳型(brenner)或未分化的。在一些实施方案中，本公开用于淋巴瘤或其亚型(包括但不限于套细胞淋巴瘤)的治疗、诊断和/或预后。淋巴组织增生性病症也被认为是增殖性疾病。

术语“疫苗”应被理解为是指用于产生免疫力以预防和/或治疗疾病(例如，瘤形成/肿瘤/传染原/自身免疫性疾病)的组合物。因此，疫苗是包含抗原的药物，并且旨在用于人类或动物中以通过接种产生特异性防御和保护性物质。“疫苗组合物”可以包含药学上可接受的赋形剂、载体或稀释剂。本公开的方面涉及该技术在制备基于抗原的疫苗中的应用。在这些实施方案中，疫苗是指一种或多种疾病特异性抗原肽(或编码它们的相应核酸)。在一些实施方案中，基于抗原的疫苗含有至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少10种、至少11种、至少12种、至少13种、至少14种、至少15种、至少16种、至少17种、至少18种、至少19种、至少20种、至少21种、至少22种、至少23种、至少24种、至少25种、至少26种、至少27种、至少28种、至少29种、至少30种或更多种抗原肽。在一些实施方案中，基于抗原的疫苗含有2至100、2至75、2至50、2至25、2至20、2至19、2至18、2至17、2至16、2至15、2至14、2至13、2至12、2至10、2至9、2至8、2至7、2至6、2至5、2至4、3至100、3至75、3至50、3至25、3至20、3至19、3至18、3至17、3至16、3至15、3至14、3至13、3至12、3至10、3至9、3至8、3至7、3至6、3至5、4至100、4至75、4至50、4至25、4至20、4至19、4至18、4至17、4至16、4至15、4至14、4至13、4至12、4至10、4至9、4至8、4至7、4至6、5至100、5至75、5至50、5至25、5至20、5至19、5至18、5至17、5至16、5至15、5至14、5至13、5至12、5至10、5至9、5至8或5至7种抗原肽。在一些实施方案中，基于抗原的疫苗含有2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20种抗原肽。在一些情况下，该抗原肽是新抗原肽。在一些情况下，该抗原肽包含一种或多种新表位。

术语“药学上可接受的”是指由联邦或州政府的监管机构批准或可批准，或在美国药典或其它公认的药典中列出用于动物，包括人类。“药学上可接受的赋形剂、载体或稀释剂”是指可以与药剂一起施用于受试者并且不会破坏其药理活性并且当以足以递送治疗量的药剂的剂量施用时无毒的赋形剂、载体或稀释剂。如本文所述，合并的疾病特异性抗原的“药学上可接受的盐”可以是本领域中通常认为适用于与人类或动物组织接触而没有过度毒性、刺激性、变态反应或其它问题或并发症的酸式盐或碱式盐。这样的盐包括碱性残基如胺的无机和有机酸盐，以及酸性残基如羧酸的碱金属或有机盐。具体的药物盐包括但不限于诸如以下酸的盐：盐酸、磷酸、氢溴酸、苹果酸、乙醇酸、富马酸、硫酸、对氨基磺酸、氨基苯磺酸、甲酸、甲苯磺酸、甲烷磺酸、苯磺酸、乙烷二磺酸、2-羟乙基磺酸、硝酸、苯甲酸、2-乙酰氧基苯甲酸、柠檬酸、酒石酸、乳酸、硬脂酸、水杨酸、谷氨酸、抗坏血酸、帕莫酸、琥珀酸、富马酸、马来酸、丙酸、羟基马来酸、氢碘酸、苯乙酸、链烷酸如乙酸、HOOC-(CH2)n-COOH，其中n为0-4，等等。类似地，药学上可接受的阳离子包括但不限于钠、钾、钙、铝、锂和铵。本领域普通技术人员从本公开内容和本领域中的知识将会认识到，本文提供的合并的疾病特异性抗原的其它药学上可接受的盐，包括Remington′s Pharmaceutical Sciences，第17版，MackPublishing Company，Easton，PA，p.1418(1985)列出的那些。通常，可通过任何常规化学方法由含有碱性或酸性部分的母体化合物合成药学上可接受的酸式盐或碱式盐。简言之，可以通过在合适的溶剂中使这些化合物的游离酸或碱形式与化学计量量的适当碱或酸反应来制备这类盐。

可用于本公开的方法的核酸分子包括编码本公开的多肽或其片段的任何核酸分子。这样的核酸分子不必与内源核酸序列100％相同，但是通常显示出实质的同一性。与内源序列具有实质同一性的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”是指在各种严格性条件下在互补的多核苷酸序列或其部分之间配对形成双链分子。(参见，例如，Wahl，G.M.和S.L.Berger(1987)Methods Enzymol.152：399；Kimmel，A.R.(1987)Methods Enzymol.152：507)。例如，严格的盐浓度通常可以小于约750mM NaCl和75mM柠檬酸三钠，小于约500mM NaCl和50mM柠檬酸三钠，或小于约250mM NaCl和25mM柠檬酸三钠。在不存在有机溶剂例如甲酰胺的情况下可以获得低严格性杂交，而在至少约35％的甲酰胺或至少约50％的甲酰胺的存在下可以获得高严格性杂交。严格的温度条件通常可以包括至少约30℃、至少约37℃或至少约42℃的温度。改变其它参数，如杂交时间，例如十二烷基硫酸钠(SDS)的去污剂的浓度，以及载体DNA的包含或排除，是本领域技术人员公知的。通过根据需要组合这些各种条件来实现各种严格性水平。在一个示例性实施方案中，杂交可以在30℃下在750mM NaCl、75mM柠檬酸三钠和1％SDS中发生。在另一个示例性实施方案中，杂交可以在37℃下在500mM NaCl、50mM柠檬酸三钠、1％SDS、35％甲酰胺和100μg/ml变性鲑精DNA(ssDNA)中进行。在另一个示例性实施方案中，杂交可以在42℃下在250mM NaCl、25mM柠檬酸三钠、1％SDS、50％甲酰胺和200μg/ml ssDNA中发生。关于这些条件有用的变化对于本领域技术人员将是显而易见的。对于大多数应用，杂交后的洗涤步骤在严格性上也可能有所不同。洗涤严格性条件可以通过盐浓度和温度来定义。如上所述，可以通过降低盐浓度或通过提高温度来提高洗涤严格性。例如，洗涤步骤的严格盐浓度可以小于约30mM NaCl和3mM柠檬酸三钠，或小于约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格温度条件可以包括至少约25℃、至少约42℃或至少约68℃的温度。在示例性实施方案中，洗涤步骤可以在25℃下在30mM NaCl、3mM柠檬酸三钠和0.1％SDS中进行。在其它示例性实施方案中，洗涤步骤可以在42℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中进行。在另一个示例性实施方案中，洗涤步骤可以在68℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1％SDS中进行。这些条件的其它变化对于本领域技术人员将是显而易见的。杂交技术是本领域技术人员公知的，并且描述于例如Benton和Davis(Science 196：180，1977)；Grunstein和Hogness(Proc.Natl.Acad.Sci.，USA 72：3961，1975)；Ausubel等人(Current Protocols inMolecular Biology，Wiley Interscience，New York，2001)；Berger和Kimmel(Guide toMolecular Cloning Techniques，1987，Academic Press，New York)；和Sambrook等人，Molecular Cloning：A Laboratory Manual，Cold Spring Harbor Laboratory Press，NewYork。

“基本上相同”是指与参考氨基酸序列(例如，本文所述的任何一种氨基酸序列)或核酸序列(例如，本文所述的任何一种核酸序列)显示出至少50％同一性的多肽或核酸分子。这样的序列在氨基酸水平或核酸水平上与用于比较的顺序可以至少60％、80％或85％、90％、95％、96％、97％、98％乃至99％或更高水平地相同。通常使用序列分析软件(例如，Sequence Analysis Software Package of the Genetics Computer Group，Universityof Wisconsin Biotechnology Center，1710 University Avenue，Madison，Wis.53705，BLAST，BESTFIT，GAP，或PILEUP/PRETTYBOX程序)来测量序列同一性。这样的软件通过将同源性程度指定给各种置换、缺失和/或其它修饰来匹配相同或相似的序列。保守置换通常包括以下组内的置换：甘氨酸、丙氨酸；缬氨酸、异亮氨酸、亮氨酸；天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺；丝氨酸、苏氨酸；赖氨酸、精氨酸；和苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中，可以使用BLAST程序，其中e-3与e-m°之间的概率得分表示密切相关的序列。“参考”是指比较标准。

术语“受试者”或“患者”是指作为治疗、观察或实验对象的动物。仅作为示例，受试者包括但不限于哺乳动物，包括但不限于人类或非人类哺乳动物，如非人类灵长类、鼠、牛、马、犬、绵羊或猫。

术语“治疗”、“处理”等意指减少、预防或改善病症和/或与之相关的症状(例如，瘤形成或肿瘤或传染原或自身免疫性疾病)。“治疗”可以指在疾病(例如，癌症或传染原的感染或自身免疫性疾病)发作或怀疑发作之后向受试者施用治疗。“治疗”包括“减轻”的概念，后者是指降低与疾病有关的任何症状或其它不良作用和/或与治疗相关的副作用的发生或复发频率或严重程度。术语“治疗”还涵盖“管理”的概念，后者是指降低患者中的疾病或病症的严重程度，例如，延长该疾病患者的寿命或延长其生存期，或延迟其复发，例如，延长已罹患该疾病的患者的缓解期。应当理解，尽管不排除，但治疗疾病或状况并不需要完全消除该病症、状况或与其相关的症状。

如本文所用的，术语“预防”、“防止”及其语法等同语是指在开始施用药剂或化合物时尚未发展出此类症状的受试者中避免或延迟与疾病或状况相关的症状的发作。

术语“治疗效果”是指病症(例如，瘤形成、肿瘤或传染原的感染或自身免疫性疾病)的一种或多种症状或其相关病理学的一定程度的减轻。如本文所用的“治疗有效量”是指在向细胞或受试者单次或多次剂量施用后有效延长此类病症患者的生存期、减轻该病症的一种或多种体征或症状、预防或延迟等超出在没有此类治疗的情况下所预期的程度的药剂量。“治疗有效量”旨在限定达到治疗效果所需的量。本领域具有普通技能的医师或兽医可以容易地确定并开出所需药物组合物的“治疗有效量”(例如，ED₅₀)。例如，医师或兽医可以以低于获得所需治疗效果所需水平的水平开始在药物组合物中使用的本发明化合物的剂量，并逐渐增加剂量直至获得所需效果。疾病、状况和病症在本文中可互换使用。

在一些实施方案中，编码HLA等位基因的核酸序列还包含可用来免疫纯化HLA蛋白的肽标签、亲和标签、表位标签或亲和受体标签。本领域普通技术人员将会认识到，术语“肽标签”、“亲和标签”、“表位标签”或“亲和受体标签”在本文中可互换使用。如本文所用的，术语“亲和受体标签”是指允许例如通过亲和纯化容易地检测或纯化所标记的蛋白质的氨基酸序列。亲和受体标签通常(但不是必须)放置在HLA等位基因N-或C-末端处或附近。各种肽标签是本领域公知的。非限制性实例包括聚组氨酸标签(例如，4至15个连续的His残基，如8个连续的His残基)；聚组氨酸-甘氨酸标签；HA标签(例如，Field等人，Mol.Cell.Biol.，8：2159，1988)；c-myc标签(例如，Evans等人，Mol.Cell.Biol.，5：3610，1985)；单纯疱疹病毒糖蛋白D(gD)标签(例如，Paborsky等人，Protein Engineering，3：547，1990)；FLAG标签(例如，Hopp等人，BioTechnology，6：1204，1988；美国专利4,703,004号和第4,851,341)；KT3表位标签(例如，Martine等人，Science，255：192，1992)；微管蛋白表位标签(例如，Skinner，Biol.Chem.，266：15173，1991)；T7基因10蛋白肽标签(例如，Lutz-Freyemuth等人，Proc.Natl.Acad.Sci.USA，87：6393，1990)；链霉亲和素标记(StrepTag^TM或StrepTagII^TM；参见，例如，Schmidt等人，J.Mol.Biol.，255(5)：753-766，1996或美国专利5,506,121；也可以从Sigma-Genosys商购获得)；或衍生自水疱性口炎病毒糖蛋白的VSV-G表位标签；或衍生自猿猴病毒5(SV5)副粘病毒P和V蛋白上发现的小表位(Pk)的V5标签。在一些实施方案中，亲和受体标签是“表位标签”，这是一种类型的肽标签，其向HLA蛋白添加可识别的表位(抗体结合位点)以提供相应抗体的结合，从而允许鉴定或亲和纯化所标记的蛋白质。表位标签的非限制性实例是可与IgG结合的蛋白A或蛋白G。在一些实施方案中，IgG Sepharose 6Fast Flow色谱树脂的基质与人IgG共价偶联。该树脂允许高流速，快速且方便地纯化用蛋白A标记的蛋白质。许多其它标签部分是普通技术人员已知的并且可以设想的，并且在此想到。可以使用任何肽标签，只要它能够被表达为亲和受体标记的HLA-肽复合物的元件即可。

如本文所用的，术语“亲和分子”是指以化学特异性与亲和受体肽结合的分子或配体。化学特异性是蛋白质结合位点结合特定配体的能力。蛋白质可以结合的配体越少，其特异性越高。特异性描述了给定蛋白质与配体之间的结合的强度。这种关系可以通过解离常数(K_D)来描述，该常数表征蛋白质-配体系统的结合状态与未结合状态之间的平衡。

术语“亲和受体标记的HLA-肽复合物”是指包含与包含亲和受体肽的单等位基因重组I类或II类HLA肽特异性结合的HLA I类或II类关联肽或其部分的复合物。

当用于亲和分子和亲和受体标签或表位与HLA肽的相互作用时，术语“特异结合”或“特异性结合”是指该相互作用取决于蛋白质上的特定结构(即，抗原决定簇或表位)的存在；换句话说，亲和分子识别并结合特定的亲和受体肽结构，而不是总体上结合蛋白质。

如本文所用的，术语“亲和力”是指结合对的两个成员(例如，“亲和受体标签”和“亲和分子”以及HLA结合肽和I类或II类HLA)之间的结合强度的量度。K_D是解离常数并且具有摩尔浓度的单位。亲和常数是解离常数的倒数。亲和常数有时用作描述该化学实体的通用术语。它是结合能量的直接量度。亲和力可以例如使用市售Biacore SPR单元通过表面等离子体共振(SPR)经实验确定。亲和力也可以被表示为抑制浓度50(IC₅₀)，即50％的肽被替代时的浓度。同样，ln(IC₅₀)是指IC_s0的自然对数。K_off是指解离速率常数，例如，亲和分子从亲和受体标记的HLA-肽复合物上解离的速率常数。

在一些实施方案中，亲和受体标记的HLA-肽复合物包含生物素受体肽(BAP)，并使用链霉亲和素/NeutrAvidin珠从复合细胞混合物中免疫纯化。生物素-亲和素/链霉亲和素结合是自然界中已知的最强非共价相互作用。该性质作为生物学工具用于广泛的应用，例如与生物素共价连接的蛋白质的免疫纯化。在一个示例性实施方案中，编码HLA等位基因的核酸序列将生物素受体肽(BAP)作为用于免疫纯化的亲和受体标签使用。BAP可以在体内或体外在标签内的单个赖氨酸残基处进行特异性生物素化(例如，美国专利5,723,584；5,874,239；和5,932,433；以及英国专利GB2370039)。BAP通常长15个氨基酸，并且含有一个赖氨酸作为生物素受体残基。在一些实施方案中，将BAP置于单等位基因HLA肽的N-或C-末端处或附近。在一些实施方案中，将BAP置于I类HLA肽的重链结构域和β2微球蛋白结构域之间。在一些实施方案中，将BAP置于II类HLA肽的β链结构域和α链结构域之间。在一些实施方案中，将BAP置于I类HLA重链的α1、α2和α3结构域之间的环区域中，或者分别位于II类HLA的α链和β链的α1与α2和β1与β2结构域之间的环区域中。图2中描述了针对HLA I和II类表达而设计的示例性构建体，其使用用于生物素化和免疫纯化的BAP。

如本文所用的，术语“生物素”是指化合物生物素本身及其类似物、衍生物和变体。因此，术语“生物素”包括生物素(顺式六氢-2-氧代-1H-噻吩并[3，4]咪唑-4-戊酸)及其任何衍生物和类似物，包括生物素样化合物。这类化合物包括例如生物素-e-N-赖氨酸、生物胞素酰肼、2-亚氨基生物素和生物素基-E-氨基己酸-N-羟基琥珀酰亚胺酯的氨基或巯基衍生物、磺基琥珀酰亚胺亚氨基生物素、生物素溴乙酰基酰肼、对重氮苯甲酰基生物胞素、3-(N-马来酰亚胺基丙酰基)生物胞素、脱硫生物素等。术语“生物素”还包括可以与Rhizavidin、亲和素、链霉亲和素、tamavidin部分或其它亲和素样肽中的一种或多种特异性结合的生物素变体。

HLA配体概况分析方法

用于HLA表位发现的生化肽-MHC结合试验是NetMHC的基础，NetMHC是使用人工神经网络的等位基因特异性预测器；然而，缓慢的生化p：MHC结合试验是一种低通量方法(图19)。从细胞系和患者来源的材料进行概况分析的内源加工并呈递的HLA配体通常是多等位基因的，这意味着从这些样品生成的LC-MS/MS数据含有可与同时表达的多个HLA等位基因之一结合的配体的混合群体，如图17和图19所示。多等位基因数据集需要解卷积才能确定哪些肽与个体呈现的不同HLA异二聚体结合。因此，必须使用(1)用现有数据训练的结合预测器，或(2)利用在大型配体数据集中表示的HLA等位基因之间的重叠的解卷积算法，将来自多等位基因数据集的配体指定给其相应的HLA异二聚体。重要的是要注意，只有具有可用HLA分型信息的LC-MS/MS数据集才能被可信地解卷积。实际上，免疫表位数据库(IEDB)中多等位基因研究报告的与HLA I类复合物结合的接近40％的天然加工配体，由于缺少HLA分型信息或无法解卷积而缺乏HLA等位基因特异的指定，使得使用该数据子集进行等位基因特异的表位预测具有挑战性。另外，由于没有足够的带注释数据用于解卷积，因此难以鉴定与罕见的I类HLA异二聚体和许多II类HLA异二聚体结合的肽。该多等位基因数据生成方法还限制了新结合基序的发现，因为其解卷积依赖于现有知识。尽管对使用多等位基因数据集进行等位基因特异的表位预测有一些担心，但是它们对于确定需要多个等位基因共表达的配体呈递模式以及验证表位预测算法非常有价值。

一种用于生成多等位基因数据及随后进行解卷积的正交方法是创建单等位基因数据集，从中鉴定单HLA等位基因所呈递的肽群体(图17和图19)。一种生成单等位基因数据的方法利用了缺乏HLA表达的细胞系。这些细胞可以用单HLA等位基因转染或转导，因此可以通过LC-MS/MS对配体进行概况分析，以生成等位基因特异性配体文库。还可以从细胞培养基中分离与可溶性HLA(sHLA)分子结合的肽，并通过LC-MS/MS进行概况分析，以产生单等位基因数据。单等位基因数据集的主要优点是，它们不需要解卷积，并且能够在没有现有数据的情况下进行可信的肽-HLA等位基因指定。单等位基因方法还可以快速提供先前未表征的HLA等位基因的数据——这是只有在大型数据集中存在足够的重叠时，多等位基因数据才能完成的任务。另外，使用单等位基因系统可以轻松发现新的肽结合基序，因为可信的HLA结合指定无需任何先前的知识。当解卷积方法无法做到这一点时，甚至可以利用单等位基因数据从多等位基因数据集指定配体。

当前可用的单等位基因方法的限制因素是它需要HLA缺陷细胞系。本公开的关键创新特征是，单等位基因数据生成不需要HLA缺陷细胞系。可以将本文提供的亲和标记的构建体放入任何呈递内源HLA-肽复合物的细胞系中，以使用亲和标签分离目的等位基因。本公开的另一个优点是，相同的试剂可以用于文库中的任何I类或II类等位基因，只要它具有相同的亲和标签，使得当前公开的方法可扩展(自动化)。在一些实施方案中，该方法包括在细胞群体中表达肽文库，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该方法包括使肽文库或编码肽的序列文库与细胞群体接触，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该文库包含与疾病或状况相关的肽的文库。在一些实施方案中，该疾病或状况是癌症。在一些实施方案中，该细胞群体来自患有疾病或状况的受试者的生物样品。

在一些实施方案中，所述方法进一步包括在表征之前从亲和受体标记的HLA-肽复合物中分离肽。在一些实施方案中，使用抗HLA抗体分离肽。在一些情况下，使用抗HLA抗体分离具有亲和标签的可溶性HLA(sHLA)。在一些情况下，使用含有抗HLA抗体的柱子分离具有亲和标签的可溶性HLA(sHLA)。

方法和组合物

本文提供了一种表征HLA-肽复合物的方法，其包括：提供细胞群体，其中该细胞群体中的一个或多个细胞包含多核酸，该多核酸包含编码亲和受体标记的I类或II类HLA等位基因的序列，其中编码亲和受体标记的HLA的序列包含与编码亲和受体肽的序列可操作地连接的编码重组I类或II类HLA等位基因的序列；在该细胞群体的一个或多个细胞中的至少一个细胞中表达亲和受体标记的HLA，从而在所述至少一个细胞中形成亲和受体标记的HLA-肽复合物；富集亲和受体标记的HLA-肽复合物；以及表征HLA-肽复合物。

在一些实施方案中，所述表征包括表征来自亲和受体标记的HLA-肽复合物的肽。在一些实施方案中，所述方法包括对不同的I类和/或II类HLA等位基因进行该方法的步骤。在一些实施方案中，所述方法包括使用多于一个I类和/或II类HLA等位基因。在一些实施方案中，所述细胞群体来源于受试者(例如，患有疾病的患者)。在一些实施方案中，所述细胞群体是I类和/或II类阴性细胞系。在一些实施方案中，所述方法进一步包括生成HLA等位基因特异性肽数据库。

本文提供了一种生成HLA等位基因特异性肽数据库的方法，其包括：提供第一和第二细胞群体，每个细胞群体包含一个或多个包含亲和受体标记的HLA的细胞，其中该亲和受体标记的HLA的序列包含与亲和受体肽可操作地连接的由不同HLA等位基因编码的不同重组多肽；富集亲和受体标记的HLA-肽复合物；表征与来自该富集的亲和受体标记的HLA-肽复合物结合的肽或其部分；以及生成HLA等位基因特异性肽数据库。

在一些实施方案中，所述富集不包括使用四聚体试剂。

在一些实施方案中，所述表征包括确定与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽或其部分的序列。在一些实施方案中，所述表征包括确定该肽或其部分是否被修饰(例如，翻译后修饰)。在一些实施方案中，所述确定包括生化分析。在一些实施方案中，所述确定包括质谱分析。在一些实施方案中，该质谱分析是MS分析、MS/MS分析、LC-MS/MS分析或其组合。在一些实施方案中，使用MS分析确定完整肽的质量。例如，所述确定可以包括确定完整肽的质量(例如，MS分析)。在一些实施方案中，使用MS/MS分析确定肽片段的质量。例如，所述确定可以包括确定肽片段的质量，后者可以用来确定肽或其部分的氨基酸序列(例如，MS/MS分析)。在一些实施方案中，使用肽片段的质量来确定该肽内的氨基酸序列。在一些实施方案中，使用LC-MS/MS分析来分离复杂的肽混合物。例如，所述确定可以包括例如通过液相色谱法分离复杂的肽混合物，以及确定完整肽的质量、肽片段的质量或其组合(例如，LC-MS/MS分析)。该数据可用于例如肽测序。

在一些实施方案中，所述表征包括评价与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽或其部分的结合亲和力或稳定性。在一些实施方案中，所述表征包括确定与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽或其部分是否含有一个或多个突变。在一些实施方案中，所述表征包括确定该肽或其部分是否被修饰(例如，翻译后修饰)。在一些实施方案中，所述表征包括评价亲和受体标记的HLA-肽复合物的肽与HLA等位基因的缔合。

在一些实施方案中，所述方法包括在细胞群体中表达肽文库，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，所述方法包括使肽文库或编码肽的序列文库与细胞群体接触，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该文库包含与疾病或状况相关的肽的文库。在一些实施方案中，该疾病或状况是癌症。在一些实施方案中，所述细胞群体来自患有疾病或状况的受试者的生物样品。

在一些实施方案中，所述细胞群体是细胞系。在一些实施方案中，所述细胞群体是原代细胞群体。

在一些实施方案中，所述重组I类或II类HLA等位基因与患有疾病或状况的受试者匹配。在一些实施方案中，包含与亲和受体标记的HLA-肽复合物结合的肽或其突变体的抗原呈递细胞对来自受试者的表达T细胞受体的T细胞具有反应性。在一些实施方案中，所述表征包括将来自癌细胞的HLA-肽复合物与来自非癌细胞的HLA-肽复合物进行比较。

在一些实施方案中，所述细胞群体是一个或多个HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是一个或多个HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLAII类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除和所有HLA II类等位基因的敲除。在一些实施方案中，HLA I类或II类等位基因的敲除包括消除HLA I类或II类等位基因的功能。在一些实施方案中，通过基因编辑实现HLA I类或II类等位基因的敲除。在一些实施方案中，通过向有需要的个体施用核酸酶来进行基因编辑，其中该核酸酶靶向待敲除的HLA I类等位基因或II类等位基因。在一些实施方案中，该核酸酶是CRISPR相关蛋白(例如Cas蛋白(例如Cas9)、锌指核酸酶(ZFN)、转录激活因子样效应核酸酶(TALEN)或大范围核酸酶。在一些实施方案中，通过向有需要的个体施用CRISPR-Cas9系统来实现基因编辑。在一些实施方案中，使用诱导切口或双链断裂为所需识别位点的任何合适的核酸酶。在一些实施方案中，使用天然存在的或天然的核酸酶。在一些实施方案中，使用修饰的或工程化的核酸酶。

在一些实施方案中，所述细胞群体是一个或多个HLA I类等位基因的敲减。在一些实施方案中，所述细胞群体是一个或多个HLA II类等位基因的敲减。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲减。在一些实施方案中，所述细胞群体是所有HLAII类等位基因的敲减。在一些实施方案中，所述细胞群体是所有HLAI类等位基因的敲减和所有HLA II类等位基因的敲除。在一些实施方案中，HLA I类或II类等位基因的敲减包括降低HLAI类或II类等位基因的表达。在一些实施方案中，通过向有需要的个体施用治疗有效量的小双链干扰RNA(siRNA)、微小RNA(miRNA)、短发夹RNA(shRNA)来实现HLA I类或II类等位基因的敲减，其中该siRNA、miRNA、shRNA靶向待敲减的HLA I类等位基因或II类等位基因。在一些实施方案中，与HLA I类等位基因或II类等位基因没有被敲减时相比，HLA I类或II类等位基因的表达降低约99％、约95％、约90％、约85％、约80％、约75％、约70％、约65％、约60％、约55％、约50％、约45％、约40％、约35％、约30％、约25％或约20％。

在一些实施方案中，所述细胞群体包含已经被富集或分选以用于HLA I类等位基因、HLA II类等位基因或其组合的细胞表面表达的细胞，例如通过荧光激活的细胞分选(FACS)。在一些实施方案中，使用荧光激活的细胞分选(FACS)来分选细胞群体。在一些实施方案中，使用荧光激活的细胞分选(FACS)来分选细胞群体以用于HLA I类等位基因、HLA II类等位基因或其组合的细胞表面表达。在一些实施方案中，使用FACS来富集或分选低细胞表面HLA I类或II类表达细胞。

在一些实施方案中，所述细胞群体包含多个细胞群体，每个细胞群体表达不同的重组I类或II类HLA等位基因。在一些实施方案中，所述多个细胞群体的每个细胞群体在分开的容器中。

在一些实施方案中，所述方法进一步包括在表征之前从亲和受体标记的HLA-肽复合物中分离肽。在一些实施方案中，所述方法进一步包括修剪与HLA-肽复合物结合的肽的末端(图13)。

在一些实施方案中，所述细胞群体表达一个或多个内源HLA等位基因。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因和内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，编码重组I类或II类HLA等位基因的序列编码I类HLA。在一些实施方案中，编码重组I类或II类HLA等位基因的序列编码II类HLA。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C。在一些实施方案中，所述I类HLA是非经典I-b类组。在一些实施方案中，所述I类HLA选自HLA-E、HLA-F和HLA-G。在一些实施方案中，所述I类HLA是选自HLA-E、HLA-F和HLA-G的非经典I-b类组。在一些实施方案中，所述II类HLA包含HLA II类α链、HLA II类β链或其组合。

在一些实施方案中，编码不同的I类和/或II类HLA等位基因的每个序列可操作地连接至编码不同亲和受体肽的序列。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列，后者编码重组I类或II类HLA等位基因的细胞外部分。在一些实施方案中，所编码的亲和受体肽在细胞外表达。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的N-末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列，后者编码重组I类或II类HLA等位基因的细胞内部分。在一些实施方案中，所编码的亲和受体肽在细胞内表达。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的C-末端。

在一些实施方案中，编码亲和受体肽的序列通过连接体可操作地连接至编码重组I类或II类HLA等位基因的序列。

在一些实施方案中，所述富集包括富集表达亲和受体标记的HLA-肽复合物的完整细胞。

在一些实施方案中，所述方法不包括在富集之前裂解一个或多个细胞。在一些实施方案中，所述方法进一步包括在富集之前裂解一个或多个细胞。

在一些实施方案中，所述富集包括使亲和受体肽结合分子与亲和受体标记的HLA-肽复合物接触，其中该亲和受体肽结合分子与该亲和受体肽特异性结合。在一些实施方案中，该亲和受体肽可包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、ProfinityeXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签或其组合；任选地，其中该亲和受体肽包含标签序列的两个或更多个重复。在一些实施方案中，该亲和受体肽结合分子是生物素或对该亲和受体肽具有特异性的抗体。

在一些实施方案中，所述富集包括使亲和分子与亲和受体标记的HLA-肽复合物接触，其中该亲和分子与该亲和受体肽结合分子特异性结合。在一些实施方案中，该亲和分子是链霉亲和素、NeutrAvidin或其衍生物。在一些实施方案中，所述富集包括免疫沉淀亲和受体标记的HLA-肽复合物。在一些实施方案中，该亲和受体肽结合分子附着于固体表面。在一些实施方案中，该亲和分子附着于固体表面。在一些实施方案中，该固体表面是珠子。

在一些实施方案中，所述富集包括用特异性结合亲和受体肽的亲和受体肽结合分子免疫沉淀亲和受体标记的HLA-肽复合物。在一些实施方案中，该亲和受体肽结合分子不与所编码的重组I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，所述富集包括接触对HLA-肽复合物的细胞外部分具有特异性的亲和分子。在一些实施方案中，所述富集包括接触对HLA-肽复合物的N-末端部分具有特异性的亲和分子。

在一些实施方案中，所述提供包括使细胞群体与包含编码亲和受体标记的HLA的序列的多核酸接触。在一些实施方案中，所述接触包括转染或转导。在一些实施方案中，所述提供包括使细胞群体与包含多核酸的载体或质粒接触，该多核酸包含编码亲和受体标记的HLA的序列。在一些实施方案中，该载体是病毒载体。

任何合适的生化试验均可用来确定在细胞(例如，工程化细胞系)中表达的HLA。确定在细胞(例如，工程化细胞系)中表达的HLA等位基因的身份的示例性方法包括Western印迹分析，例如，确定HLA等位基因的类别(I类或II类)，序列分析，例如，对单个等位基因进行测序(例如，使用不同的引物鉴定相似序列的不同等位基因)。在一些实施方案中，编码HLA等位基因的多核酸包含条形码序列。该条形码序列可用来鉴定在细胞中表达的HLA等位基因。在一些实施方案中，该条形码序列对于单个HLA是独特的。在一些实施方案中，该条形码序列对于单个HLA I类或II类等位基因是独特的。

在一些实施方案中，包含编码亲和受体标记的HLA的序列的多核酸被稳定地整合到细胞群体的基因组中。在一些实施方案中，编码重组I类或II类HLA的序列包含编码HLA I类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码β2微球蛋白的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码HLAI类α链的序列。在一些实施方案中，编码β2微球蛋白的序列通过连接体连接至编码HLA I类α链的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码第二亲和受体肽的序列。

在一些实施方案中，编码重组I类或II类HLA的序列包含编码HLA II类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码HLA II类β链的序列。在一些实施方案中，编码HLA II类β链的序列连接至编码HLA II类α链的序列。在一些实施方案中，编码HLA II类β链的序列通过连接体连接至编码HLA II类α链的序列。在一些实施方案中，编码HLA II类β链的序列连接至编码第二亲和受体肽的序列。

在一些实施方案中，第二亲和受体肽不同于第一亲和受体肽，并且可以包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签或其组合。

在一些实施方案中，所述确定包括进行质谱分析，如串联质谱分析。在一些实施方案中，所述确定包括从肽数据库获得与从富集的亲和受体标记的HLA-肽复合物中分离的一种或多种肽的MS/MS谱相对应的肽序列；其中获得的一个或多个序列鉴定所述一种或多种肽的序列。

在一些实施方案中，所述细胞群体是选自HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat、Hep G2、SH-SY5Y、CACO-2、U937、U-2 OS、ExpiCHO、CHO和THP1的细胞系。在一些实施方案中，用一种或多种细胞因子、检查点抑制剂、表观遗传活性药物、IFN-γ、改变抗原加工的试剂(例如，肽酶抑制剂、蛋白酶体抑制剂、TAP抑制剂等)或其组合处理该细胞系。在一些实施方案中，所述肽数据库是无酶特异性的肽数据库，如无修饰的数据库或有修饰(例如，磷酸化或半胱氨酸化)的数据库。在一些实施方案中，所述肽数据库是多肽数据库。在一些实施方案中，该多肽数据库是蛋白质数据库。在一些实施方案中，所述方法进一步包括使用反向数据库搜索策略搜索肽数据库。在一些实施方案中，所述方法进一步包括使用反向数据库搜索策略搜索蛋白质数据库。在一些实施方案中，进行从头搜索，例如，以发现不包含在正常肽或蛋白质数据库中的新肽。

在一些实施方案中，所述细胞群体包含至少10⁵个细胞、至少10⁶个细胞或至少10⁷个细胞。在一些实施方案中，所述细胞群体是树突细胞、巨噬细胞、癌细胞或B细胞的群体。在一些实施方案中，所述细胞群体包含肿瘤细胞或被传染原或其部分感染的细胞。

在一些实施方案中，在从所述一个或多个细胞中分离所述HLA-肽复合物之前，使细胞群体与试剂接触。在一些实施方案中，该试剂是炎性细胞因子、化学试剂、佐剂、治疗剂或辐射。

在一些实施方案中，所述HLA等位基因是突变的HLA等位基因。

在一些实施方案中，所述方法包括对不同的HLA等位基因进行该方法的步骤。

本文提供了通过进行本文描述的方法获得的HLA等位基因特异性结合肽序列数据库。本文提供了两个或更多个HLA等位基因特异性结合肽序列数据库的组合，这些数据库通过每次使用不同的HLA等位基因重复进行本文描述的方法而获得。本文提供了一种生成用于鉴定HLA等位基因特异性结合肽的预测算法的方法，其包括用本文所述的肽序列数据库训练机器。在一些实施方案中，该机器组合一个或多个线性模型、支持向量机、决策树和神经网络。

通过训练机器来生成预测算法是公知的技术。机器训练中最重要的是用于训练的数据库的质量。通常，所述机器组合一个或多个线性模型、支持向量机、决策树和/或神经网络。

在一些实施方案中，用来训练机器或算法的变量包括一个或多个选自下组的变量：肽序列、氨基酸物理性质、肽物理性质、细胞内肽的来源蛋白质的表达水平、蛋白质稳定性、蛋白质翻译速率、泛素化位点、蛋白质降解速率、来自核糖体概况分析的翻译效率、蛋白质可切割性、蛋白质定位、促进TAP转运的宿主蛋白质的基序、经历自噬的宿主蛋白质、有利于核糖体停顿的基序(例如，聚脯氨酸或聚赖氨酸段)、有利于NMD的蛋白质特征(例如长3’UTR、最后一个外显子：外显子连接上游＞50nt的终止密码子和肽可切割性)。

本文提供了一种包含第一和第二重组多核酸的组合物，所述重组多核酸各自包含编码亲和受体标记的HLA的序列，其中编码亲和受体标记的HLA的序列包含(a)编码不同的重组HLA I类α链等位基因的序列，(b)编码亲和受体肽的序列，以及可选的(c)编码β2微球蛋白的序列；其中(a)和(b)以及可选的(c)的序列可操作地连接。

本文提供了一种包含第一和第二重组多核酸的组合物，所述重组多核酸各自包含编码亲和受体标记的HLA的序列，其中编码亲和受体标记的HLA的序列包含(a)编码重组HLAII类α链等位基因的序列，(b)编码亲和受体肽的序列，以及可选的(c)编码HLA II类β链的序列；其中(a)和(b)以及可选的(c)的序列可操作地连接。

在一些实施方案中，第一和第二重组多核酸是分离的。

在一些实施方案中，所述序列编码重组I类或II类HLA等位基因。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C。在一些实施方案中，所述I类HLA是非经典I-b类组。在一些实施方案中，所述I类HLA选自HLA-E、HLA-F和HLA-G。在一些实施方案中，所述I类HLA是选自HLA-E、HLA-F和HLA-G的非经典I-b类组。

在一些实施方案中，对于第一和第二重组多核酸两者：编码亲和受体肽的序列可操作地连接至编码不同重组HLA等位基因的序列，后者编码不同重组HLA等位基因的细胞外部分。在一些实施方案中，对于第一和第二重组多核酸两者：编码亲和受体分子的序列可操作地连接至编码不同重组HLA等位基因的序列的N-末端。在一些实施方案中，对于第一和第二重组多核酸两者：编码亲和受体肽的序列可操作地连接至编码不同重组HLA等位基因的序列，后者编码不同重组HLA等位基因的细胞内部分。在一些实施方案中，对于第一和第二重组多核酸两者：编码亲和受体肽的序列可操作地连接至编码不同重组HLA等位基因的序列的C-末端。在一些实施方案中，对于第一和第二重组多核酸两者：编码亲和受体肽的序列通过连接体可操作地连接至编码不同重组HLA等位基因的序列。在一些实施方案中，所编码的亲和受体肽与亲和受体肽结合分子特异性结合。在一些实施方案中，第一和第二重组多核酸的亲和受体肽是不同的。

在一些实施方案中，所编码的亲和受体肽可以包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸2甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E2标签、S2标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签或其组合；任选地，其中所述亲和受体肽包含标签序列的两个或更多个重复。在一些实施方案中，所述亲和受体肽结合分子是生物素或对所述亲和受体肽具有特异性的抗体。在一些实施方案中，所述亲和受体肽结合分子与亲和分子特异性结合。在一些实施方案中，所述亲和分子是链霉亲和素、NeutrAvidin或其衍生物。在一些实施方案中，所述亲和受体肽结合分子不与所编码的重组I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，对于第一和第二重组多核酸两者：编码亲和受体标记的HLA的序列被稳定地整合到细胞的基因组中。在一些实施方案中，编码β2微球蛋白的序列或编码HLA II类β链的序列连接至编码第二亲和受体肽的序列。

在一些实施方案中，第二亲和受体肽包含HA标签。在一些实施方案中，第二亲和受体肽可以包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签或其组合；任选地，其中第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，对于第一和第二重组多核酸两者：编码β2微球蛋白的序列或编码HLA II类β链的序列通过连接体连接至编码不同的重组HLA和亲和受体肽的序列。在一些实施方案中，该连接体包含编码可切割连接体的多核酸序列。在一些实施方案中，该可切割连接体是核糖体跳跃位点或内部核糖体进入位点(IRES)元件。在一些实施方案中，当在细胞中表达时，该核糖体跳跃位点或IRES被切割。在一些实施方案中，该核糖体跳跃位点选自F2A、T2A、P2A和E2A。在一些实施方案中，该IRES元件选自常见的细胞或病毒IRES序列。

本文提供了一种组合物，其包含分别由本文所述组合物的第一和第二多核酸编码的第一和第二分离的多肽分子。本文提供了一种包含第一和第二细胞的组合物，所述细胞包含分别由本文所述组合物的第一和第二多核酸编码的第一和第二多肽分子。本文提供了一种包含第一和第二细胞的组合物，所述细胞分别包含本文所述组合物的第一和第二多核酸。本文提供了一种包含第一和第二细胞群体的组合物，所述细胞群体包含一个或多个分别包含本文所述组合物的第一和第二多核酸的细胞。

在一些实施方案中，第一和第二细胞群体表达一个或多个内源I类或II类HLA等位基因。在一些实施方案中，第一和第二细胞群体被工程改造为缺乏一个或多个内源HLA I类等位基因。在一些实施方案中，第一和第二细胞群体被工程改造为缺乏内源HLA I类等位基因。在一些实施方案中，第一和第二细胞群体被工程改造为缺乏一个或多个内源HLA II类等位基因。在一些实施方案中，第一和第二细胞群体被工程改造为缺乏内源HLA II类等位基因。在一些实施方案中，第一和第二细胞群体被工程改造为缺乏内源HLA I类等位基因和内源HLA II类等位基因。

本文提供了一种制备细胞的方法，其包括分别用本文所述组合物的第一和第二多核酸转导或转染第一和第二细胞。

本文提供了根据本文所述的方法鉴定的肽。

人类白细胞抗原(HLA)系统

免疫系统可以被分类为两个功能子系统：先天性免疫系统和适应性免疫系统。先天性免疫系统是抵抗感染的第一道防线，大多数潜在病原体会在引起例如明显感染之前被该系统快速中和。适应性免疫系统对入侵生物体的分子结构(称为抗原)起反应。与先天性免疫系统不同，适应性免疫系统对病原体是高度特异性的。适应性免疫还可以提供持久的保护；例如，从麻疹中康复的人现在终生免受麻疹的侵害。有两种类型的适应性免疫反应，包括体液免疫反应和细胞介导的免疫反应。在体液免疫反应中，由B细胞分泌到体液中的抗体与病原体衍生的抗原结合，导致病原体通过多种机制被消除，例如补体介导的裂解。在细胞介导的免疫反应中，能够破坏其它细胞的T细胞被激活。例如，如果与疾病相关的蛋白质存在于细胞中，它们会在细胞内被蛋白水解破碎成肽。然后，特定的细胞蛋白质自身附着于以这种方式形成的抗原或肽，并将其转运至细胞表面，在此呈递给体内T细胞中的分子防御机制。细胞毒性T细胞识别这些抗原并杀死带有该抗原的细胞。

术语“主要组织相容性复合物(MHC)”、“MHC分子”或“MHC蛋白”是指这样的蛋白质，其能够结合由蛋白质抗原的蛋白水解切割产生并代表潜在的T细胞表位的肽，将其转运至细胞表面，并将它们在那里呈递给特定细胞，例如在细胞毒性T淋巴细胞或T辅助细胞中。人类MHC也被称为HLA复合物。因此，术语“人类白细胞抗原(HLA)系统”、“HLA分子”或“HLA蛋白”是指编码人类MHC蛋白的基因复合物。术语MHC在鼠类物种中被称为”H-2”复合物。本领域普通技术人员将会认识到，术语“主要组织相容性复合物(MHC)”、“MHC分子”、“MHC蛋白”和“人类白细胞抗原(HLA)系统”、“HLA分子”、“HLA蛋白”在本文中可互换使用。

HLA蛋白被分类为两种类型，被称为HLA I类和HLA II类。两种HLA类型的蛋白质的结构非常相似；但是，它们具有非常不同的功能。I类HLA蛋白存在于身体几乎所有细胞的表面，包括大多数肿瘤细胞。I类HLA蛋白负载有抗原，这些抗原通常起源于内源性蛋白质或细胞内存在的病原体，然后被呈递给幼稚或细胞毒性T淋巴细胞(CTL)。HLA II类蛋白存在于抗原呈递细胞(APC)上，包括但不限于树突细胞、B细胞和巨噬细胞。它们主要向辅助T细胞呈递从外部抗原来源即细胞外部加工的肽。被HLA I类蛋白结合的大多数肽都起源于在生物体自身的健康宿主细胞中产生的胞质蛋白质，并且通常不会刺激免疫反应。

I类HLA分子由重链和轻链组成，并且能够结合约7至13个氨基酸(例如，约8至11个氨基酸，或9或10个氨基酸)的肽——如果该肽具有合适的结合基序，并将其呈递给细胞毒性T淋巴细胞。被I类HLA分子结合的肽起源于内源性蛋白质抗原。I类HLA分子的重链可以是HLA-A、HLA-B或HLA-C单体，而轻链是β-2-微球蛋白。I类HLA作为由三个结构域——α1、α2和α3——组成的α链出现。该链通常被称为I类重链，并且在本文中被称为I类α链。α1存在于非HLA分子β2微球蛋白(在人类第15号染色体上编码)的单元上。α3结构域是跨膜的，将HLA I类分子锚定至细胞膜。所呈递的肽被肽结合沟的底部保持在α1/α2异二聚体(由两个不同的亚单位组成的分子)的中心区域。I类HLA-A、HLA-B或HLA-C是高度多态性的。Ib类HLA表现出有限的多态性、表达模式和呈递的抗原。该组被再分为在HLA基因座内编码的组，例如HLA-E、HLA-F、HLA-G，以及不在其中编码的那些，例如应激配体，如ULBP、Rael和H60。这些分子中许多分子的抗原/配体仍然未知，但它们可以与CD8+T细胞、NKT细胞和NK细胞相互作用。

在一些实施方案中，本公开利用非经典的I类HLA-E等位基因。HLA-E是被自然杀伤(NK)细胞和CD8⁺ T细胞识别的非经典I类分子之一。HLA-E在几乎所有组织中表达，包括肺、肝、皮肤和胎盘细胞。在实体瘤(例如，骨肉瘤和黑素瘤)中也检测到HLA-E表达。HLA-E与CD8⁺ T细胞上表达的TCR结合，导致T细胞活化。还已知HLA-E结合在NK细胞和CD8⁺ T细胞上表达的CD94/NKG2受体。CD94可以与NKG2的几种不同的同种型配对，以形成具有抑制(NKG2A、NKG2B)或促进(NKG2C)细胞活化的潜力的受体。HLA-E可以结合由大多数HLA-A、-B、-C和-G分子前导序列的氨基酸残基3-11衍生的肽，但不能结合其自身的前导肽。还已经证明HLA-E呈递由类似于HLA-A、-B和-C等位基因的内源性蛋白质衍生的肽。在生理条件下，CD94/NKG2A与负载有来自HLA I类前导序列的肽的HLA-E的接合通常会诱导抑制信号。巨细胞病毒(CMV)通过表达UL40糖蛋白(模拟HLA-A前导序列)利用逃避NK细胞免疫监视的机制。然而，也报道了CD8⁺ T细胞可以识别负载有来源于CMV Toledo株的UL40肽的HLA-E，并在防御CMV中起作用。大量研究揭示了HLA-E在感染性疾病和癌症中的几个重要功能。

肽抗原在呈递于细胞表面上之前，通过内质网内的竞争性亲和力结合将自身附接到HLA I类分子上。在此，单个肽抗原的亲和力与其氨基酸序列以及在氨基酸序列内限定位置上特异性结合基序的存在直接相关。如果这样的肽的序列是已知的，则可以使用例如肽疫苗来操纵免疫系统对抗病变细胞。

II类HLA分子具有两条链：α和β，它们各自具有两个结构域——α1和α2以及β1和β2——每条链分别具有跨膜结构域：α2和β2，将HLA II类分子锚定至细胞膜。肽结合沟由α1和β1的异二聚体形成。被II类HLA分子结合的肽通常起源于细胞外源性蛋白质抗原。α链和β链在HLA-DR、HLA-DQ和HLA-DP单体中(图1B)。II类HLA分子具有六个同种型。经典分子将肽呈递给CD4+淋巴细胞。具有细胞内功能的非经典分子，附件，不在细胞膜上暴露，而是暴露在溶酶体的内膜中，通常将抗原肽加载到经典HLA II类分子上。

在HLA II类中，吞噬细胞如巨噬细胞和未成熟的树突细胞通过向吞噬体中的吞噬作用摄取实体——尽管B细胞表现出更普遍的向内体中的内吞作用——吞噬体与溶酶体融合，溶酶体的酸性酶将摄取的蛋白质裂解成许多不同的肽。自噬是HLA II类肽的另一个来源。通过与宿主携带的HLA II类变体(在宿主基因组中编码)的分子相互作用的物理化学动力学，特定的肽表现出免疫显性并负载在HLA II类分子上。它们被运输到细胞表面并在细胞表面外化。研究最多的II类HLA亚类基因是：HLA-DPA1、HLA-DPB1、HLA-DQA1、HLA-DQB1、HLA-DRA和HLA-DRB1。

HLA II类分子向CD4+辅助T细胞呈递肽是对外来抗原的免疫应答所必需的(Roche和Furuta，2015)。一旦被激活，CD4+T细胞就会促进B细胞分化和抗体产生，以及CD8+T细胞(CTL)应答。CD4+T细胞还分泌激活并诱导其它免疫细胞分化的细胞因子和趋化因子。HLAII类分子是α和β链的异二聚体，α和β链相互作用以形成比I类肽结合沟更开放的肽结合沟(Unanue等人，2016)。与HLA II类分子结合的肽被认为具有9个氨基酸的结合核心，该结合核心在N端或C端侧具有从结合沟突出的侧翼残基(Jardetzky等人，1996；Stern等人，1994)。这些肽的长度通常为12-16个氨基酸，并且通常在结合部分的P1、P4、P6/7和P9位置处含有3-4个锚残基(Rossjohn等人，2015)。

HLA等位基因以共显性方式表达，这意味着从父母双方继承的等位基因(变体)同等地表达。例如，每个人携带3个I类基因(HLA-A、HLA-B和HLA-C)中每个基因的2个等位基因，因此可以表达六种不同类型的II类HLA。在II类HLA基因座中，每个人继承一对HLA-DP基因(DPA1和DPB1，编码α和β链)、一对HLA-DQ基因(对于α和β链为DQA1和DQB1)、一个HLA-DRα基因(DRA1)和一个或多个HLA-DRβ基因(DRB1和DRB3、-4或-5)。这意味着一个杂合个体可以继承六个或八个功能性II类HLA等位基因，每个亲本三个或更多个。因此，HLA基因是高度多态性的；群体内的不同个体中存在许多不同的等位基因。编码HLA蛋白的基因具有许多可能的变异，从而使每个人的免疫系统能够对众多外来入侵物发生反应。一些HLA基因具有数百个已鉴定的形式(等位基因)，给予每个形式特定的编号。在一些实施方案中，I类HLA等位基因是HLA-A*02:01、HLA-B*14:02、HLA-A*23:01、HLA-E*01:01(非经典的)。在一些实施方案中，II类HLA等位基因是HLA-DRB*01:01、HLA-DRB*01:02、HLA-DRB*11:01、HLA-DRB*15:01和HLA-DRB*07:01。

受试者的受试者特异性HLA等位基因或HLA基因型可以通过本领域已知的任何方法来确定。在示例性实施方案中，通过在国际专利申请PCT/US2014/068746(2015年6月11日公开为WO2015085147)中描述的任何方法确定HLA基因型。简言之，所述方法包括确定多态性基因类型，其可以包括产生从测序数据集提取的读取与包含多态性基因的等位基因变体的基因参考集的比对，在比对中确定每个等位基因变体的第一后验概率或由后验概率得出的评分，将具有最大第一后验概率或由后验概率得出的评分的等位基因变体鉴定为第一等位基因变体，鉴定与第一等位基因变体和一个或多个其它等位基因变体比对的一个或多个重叠读取，使用权重因子对所述一个或多个其它等位基因变体确定第二后验概率或由后验概率得出的评分，通过选择具有最大第二后验概率或由后验概率得出的评分的等位基因变体来确定第二等位基因变体，第一和第二等位基因变体定义了多态性基因的基因类型，并提供第一和第二等位基因变体的输出。

如本文所述，在动物和人类中都有大量证据表明突变的表位可有效诱导免疫应答，并且肿瘤自发消退或长期存活的病例与对突变表位的CD8+T细胞应答相关(Buckwalter和Srivastava PK.“It is the antigen(s)，stupid”and other lessons from over adecade of vaccitherapy of human cancer.Seminars in immunology 20：296-300(2008)；Karanikas等人，High frequency of cytolytic T lymphocytes directedagainst a tumor-specific mutated antigen detectable with HLA tetramers in theblood of a lung carcinoma patient with long survival.Cancer Res.61：3718-3724(2001)；Lennerz等人.The response of autologous T cells to a human melanoma isdominated by mutated neoantigens.Proc Natl Acad Sci U S A.102：16013(2005))，并且“免疫编辑”可以追溯到小鼠和人类中显性突变抗原的表达的改变(Matsushita等人，Cancer exome analysis reveals a T-cell-dependent mechanism of cancerimmunoediting Nature 482：400(2012)；DuPage等人，Expression of tumor-specificantigens underlies cancer immunoediting Nature 482：405(2012)；和Sampson等人，Immunologic escape after prolonged progression-free survival with epidermalgrowth factor receptor variant III peptide vaccination in patients with newlydiagnosed glioblastoma J Clin Oncol.28：4722-4729(2010))。

测序技术揭示，每个肿瘤含有多个患者特异性突变，这些突变改变基因的蛋白质编码内容。此类突变产生改变的蛋白质，范围从单氨基酸改变(由错义突变引起)到由于移码、终止密码子的通读或内含子区域的翻译(新的开放阅读框突变；neoORF)而增加新氨基酸序列的长区域。这些突变蛋白质是宿主对肿瘤的免疫应答的有价值的靶标，因为与天然蛋白质不同，它们不受自身耐受性的免疫抑制作用的影响。因此，与患者的正常细胞相比，突变的蛋白质更可能具有免疫原性，并且对肿瘤细胞也更具特异性。

术语“T细胞”包括CD4+T细胞和CD8+T细胞。术语T细胞还包括T辅助1型T细胞和T辅助2型T细胞。本文所用的T细胞通常按功能和也有助于T细胞受体与抗原结合的细胞表面抗原(簇分化抗原或CD)分类为两大类：辅助性T(T_H)细胞和细胞毒性T淋巴细胞(CTL)。

成熟的辅助性T(T_H)细胞表达表面蛋白质CD4，并且被称为CD4+T细胞。在T细胞发育后，成熟的幼稚T细胞离开胸腺并开始在全身扩散，包括淋巴结。幼稚T细胞是从未暴露于它们被编程以对其发生应答的抗原的T细胞。像所有T细胞一样，它们表达T细胞受体-CD3复合物。T细胞受体(TCR)由恒定区和可变区组成。可变区决定了T细胞可以对什么抗原发生应答。CD4+T细胞具有对II类MHC具有亲和力的TCR，CD4参与确定胸腺成熟过程中的MHC亲和力。II类MHC蛋白通常仅可见于特化抗原呈递细胞(APC)的表面上。特化抗原呈递细胞(APC)主要是树突细胞、巨噬细胞和B细胞，尽管树突细胞是组成型(始终)表达MHC II类的唯一一组细胞。一些APC也将天然(或未加工的)抗原结合到它们的表面，如滤泡树突细胞，但是未加工的抗原不与T细胞相互作用，也不参与其活化。与MHC I类蛋白结合的肽抗原通常比与MHC II类蛋白结合的肽抗原短。

细胞毒性T淋巴细胞(CTL)，也被称为细胞毒性T细胞、溶细胞性T细胞、CD8+T细胞或杀伤性T细胞，是指在所靶向的细胞中诱导凋亡的淋巴细胞。CTL通过TCR与靶细胞表面上加工的抗原(Ag)的相互作用，与靶细胞形成抗原特异性偶联物，从而导致靶细胞凋亡。凋亡小体被巨噬细胞消除。术语“CTL应答”用于指由CTL细胞介导的原发性免疫应答。细胞毒性T淋巴细胞在其表面上具有T细胞受体(TCR)和CD8分子两者。T细胞受体能够识别并结合与HLA I类分子复合的肽。每个细胞毒性T淋巴细胞表达独特的T细胞受体，该T细胞受体能够结合特定的MHC/肽复合物。大多数细胞毒性T细胞表达可以识别特定抗原的T细胞受体(TCR)。为了使TCR与I类MHC分子结合，前者必须伴有被称为CD8的糖蛋白，CD8与I类MHC分子的恒定部分结合。因此，这些T细胞被称为CD8+T细胞。CD8与MHC分子之间的亲和力使T细胞和靶细胞在抗原特异性激活过程中紧密结合在一起。CD8+T细胞一旦被激活，就被识别为T细胞，并且通常被分类为在免疫系统中具有预定的细胞毒性作用。然而，CD8+T细胞也具有产生某些细胞因子的能力。

“T细胞受体(TCR)”是参与T细胞响应于抗原呈递而活化的细胞表面受体。TCR通常由α和β两条链构成，这两条链装配形成异二聚体，并与CD3转导亚单位缔合以形成存在于细胞表面上的T细胞受体复合物。TCR的每条α和β链由免疫球蛋白样N-末端可变(V)和恒定(C)区、疏水性跨膜结构域和短胞质区组成。至于免疫球蛋白分子，α和β链的可变区是通过V(D)J重组产生的，从而在T细胞群体中产生极大多样性的抗原特异性。然而，与识别完整抗原的免疫球蛋白相比，T细胞被与MHC分子缔合的加工的肽片段激活，从而为T细胞对抗原的识别引入了额外的维度，被称为MHC限制。通过T细胞受体识别供体与受体之间的MHC差异会导致T细胞增殖和GVHD的潜在发展。已经表明，TCR的正常表面表达依赖于复合物所有七种组分的协调合成和装配(Ashwell和Klusner 1990)。TCRα或TCRβ的失活可以导致TCR从T细胞表面消除，从而阻止同种抗原的识别，因而防止GVHD。然而，TCR破坏通常导致CD3信号传导成分的消除，并改变进一步T细胞扩充的方式。

术语“HLA肽组”是指与特定HLA类别特异性相互作用的一组肽，并且可以包含数千种不同的序列。HLA肽组包括多样化的肽，它们来源于在细胞中表达的正常和异常蛋白质。因此，可以研究HLA肽组以鉴定癌症特异性肽，以供开发肿瘤免疫疗法，并作为关于癌细胞内蛋白质合成和降解方案的信息来源。在一些实施方案中，HLA肽组是一组可溶性HLA分子(sHLA)。在一些实施方案中，HLA肽组是一组膜HLA(mHLA)。

术语“抗原呈递细胞”或“APC”包括专职抗原呈递细胞(例如，B淋巴细胞、巨噬细胞、单核细胞、树突细胞、朗格汉斯细胞)，以及其它抗原呈递细胞(例如，角质形成细胞、内皮细胞、星形胶质细胞、成纤维细胞、少突细胞、胸腺上皮细胞、甲状腺上皮细胞、神经胶质细胞(脑)、胰腺β细胞和血管内皮细胞)。“抗原呈递细胞”或“APC”是表达主要组织相容性复合物(MHC)分子并可以在其表面上展示与MHC复合的外来抗原的细胞。

通用IP流程：通用单等位基因HLA-肽复合物鉴定平台

适应性免疫应答部分地依赖于细胞毒性CD8⁺ T细胞识别并消除展示与人类白细胞抗原(HLA)I类分子结合的疾病相关抗原的细胞的能力。HLA I类蛋白(HLA-A、B和C)在人体中几乎所有有核细胞的表面上表达，是呈递短肽以被CD8⁺ T细胞受体检测到所必需的。HLA结合的肽来自于在被I类HLA蛋白加载并展示之前被蛋白酶体和ER肽酶裂解的内源性或外来蛋白质。HLA基因是整个人类群体中最具多态性的基因，迄今为止已鉴定出超过10,000个HLA I类等位基因变体(Robinson等人，2015)。估计每个HLA等位基因结合并向T细胞呈递约1,000-10,000个独特的肽；占来自人类蛋白质编码基因的约1000万个潜在9mer肽中的≤0.1％(Bassani-Sternberg等人，2015；Hunt等人，1992；Rammensee等人，1995，1999；Rock等人；Vita等人，2015；Walz等人，2015)。

与I类不同，HLA II类蛋白(HLA-DR、DQ和DP)响应于炎性信号仅在抗原呈递细胞(APC)以及上皮、血管和结缔组织细胞的表面上表达。HLA II类分子向CD4+T细胞呈递最常衍生自外源蛋白质的肽是对外来抗原的免疫应答所必需的(Roche和Furuta，2015)。一旦被激活，CD4+T细胞就会促进B细胞分化和抗体产生，以及CD8+T细胞应答。CD4+T细胞还分泌激活并诱导其它免疫细胞分化的细胞因子和趋化因子。HLA II类分子是α和β链的异二聚体，α和β链相互作用以形成比I类肽结合沟更开放的肽结合沟(Unanue等人，2016)。与HLAII类分子结合的肽被认为具有9个氨基酸的结合核心，该结合核心在N端或C端侧具有从结合沟突出的侧翼残基(Jardetzky等人，1996；Stern等人，1994)。这些肽的长度通常为12-16个氨基酸，并且通常在结合部分的P1、P4、P6/7和P9位置处含有3-4个锚残基(Rossjohn等人，2015)。对HLA II类分子的等位基因特异性肽结合特性知之甚少，这是因为α和β链配对的异质性，数据的复杂性限制了确信地指定核心结合表位的能力，以及缺乏高分辨率生化分析所需的免疫沉淀等级的等位基因特异性抗体。

肽结合规则已针对HLA等位基因的子集进行了广泛研究(Vita等人，2015)，并在预测结合的基于神经网络的高级算法中进行了编码(Hoof等人，2009；Lundegaard等人，2008)。然而，若干因素限制了预测在HLA等位基因上呈递的肽的能力。首先，训练这些算法所使用的肽数据的来源是多样性的，其范围从肽文库筛查到内源加工并呈递的肽的Edman降解以及基于质谱法的测序(Boen等人，2000；Rammensee等人，1995，1999；Vita等人，2015)。基于质谱法的肽鉴定占IEDB中全部鉴定的约30％。由于Donald F.Hunt及其同事的开创性工作(Cobbold等人，2013；Hunt等人，1992；MeadowS等人，1997；Mohammed等人，2008；Zarling等人，2000，2006)，以及过去二十年来许多研究小组对仪器的改进(Bassani-Sternberg等人，2015；Caron等人，2015；Mommen等人，2014)，质谱法已成为HLA关联肽测序的一种理想方法。其次，许多现有的预测算法专注于预测结合，但是可能没有完全考虑结合之前生成并转运肽的内源性过程(Larsen等人，2007)。第三，许多HLA等位基因的结合肽数量太少，以致无法开发可靠的预测器。然而，到目前为止，需要过分大量的输入细胞材料的低效方案以及缺乏用于HLA肽测序的数据库搜索工具阻碍了高质量资源数据集的生成(Caron等人，2015；Hoof等人，2009；Lundegaard等人，2008；Vita等人，2015)。

本文公开了从活细胞和细胞裂解物中富集肽-HLA I类和II类复合物的独特生化富集策略。含有N-末端或C-末端标签序列(例如，BAP或HA)的HLA分子可以在细胞表面上或细胞裂解物中标记。例如，含有N-末端或C-末端生物素受体肽(BAP)序列的HLA分子可以在细胞表面上或细胞裂解物中用生物素以酶法标记。例如，含有N-末端或C-末端HA序列的HLA分子可以使用HA特异性抗体从复杂的细胞混合物中富集。在一个示例性实施方案中，使用链霉亲和素/NeutrAvidin珠从复杂的细胞混合物中富集生物素标记的HLA-肽复合物，并且分析或表征所富集的HLA-肽复合物。在一个示例性实施方案中，使用HA特异性抗体从复杂的细胞混合物中富集HA标记的HLA-肽复合物，并且分析或表征所富集的HLA-肽复合物。例如，关联的肽可以通过LC-MS/MS洗脱并测序。重要的是，当前公开的方法提供了一种用于分析并表征HLA-肽复合物的通用平台。例如，当前公开的方法提供了一种用于从表达所有可能的I或II类构建体的细胞系中鉴定内源呈递的肽的通用平台。

本文公开了能够实现明确的肽：等位基因指定的单HLA I类和II类等位基因表达细胞系(Shimizu和DeMars，1989；Shimizu等人，1986)。这是对当前HLA结合肽检测方法的改进，因为大多数基于MS的研究涉及对与多个HLA-A、B和C分子结合的配体的杂乱混合物进行洗脱并测序，这需要亲和力预测，有时需要对等位基因指定进行解卷积(Bassani-Sternberg和Gfeller，2016)。用可溶性HLA转染的细胞系进行的研究已经能够得出单HLA等位基因的肽结合表位，但是迄今为止最全面的实验仅鉴定了＜200种独特的肽，并且需要高若干数量级的起始细胞材料(Hawkins等人，2008)。通过消除肽：HLA指定的不确定性，当前公开的方法有助于对HLA-肽配体组和与肽抗原加工有关的规则进行更深入且更精确的评价，并且比以前的工作使用的细胞材料更少。

本文所述的方法和组合物包括，例如，化学标记的可变β链(生物素化)以区分由细胞呈递的II类HLA异二聚体，这允许改善表位作图。在N-或C-末端含有标签如生物素受体肽序列(BAP)的HLA I类和II类构建体可以在本文所述的方法中使用。N-和C-末端亲和标记使得能够从表达内源HLA的细胞中进行HLA等位基因选择性免疫纯化。N-末端亲和标记使得能够对在细胞表面上呈递的复合物进行HLA等位基因选择性免疫纯化。例如，在转染或转导后，N-末端生物素化使得能够区分在细胞表面上呈递的HLA复合物与细胞裂解物中的所有HLA-肽复合物之间。例如，完整细胞表面(不裂解)上HLA-肽复合物的生物素化使得能够对内源性加工并呈递的肽进行无偏质谱(MS)测序方法。本文公开的富集方法，如免疫沉淀富集方法，使细胞样品的高通量分析成为可能。

本文提供了一种表征HLA-肽复合物的方法，其包括：提供细胞群体，其中所述细胞群体中的一个或多个细胞包含多核酸，所述多核酸包含编码亲和受体标记的I类或II类HLA等位基因的序列，其中编码亲和受体标记的HLA的序列包含与编码亲和受体肽的序列可操作地连接的编码重组I类或II类HLA等位基因的序列；在所述细胞群体的一个或多个细胞中的至少一个细胞中表达亲和受体标记的HLA，从而在所述至少一个细胞中形成亲和受体标记的HLA-肽复合物；富集所述亲和受体标记的HLA-肽复合物；以及表征HLA-肽复合物。

在一些实施方案中，所述表征包括表征与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽。

在一些实施方案中，所述方法包括对两个或更多个I类和/或II类HLA等位基因进行该方法的步骤。在一些实施方案中，所述两个或更多个I类和/或II类HLA等位基因包含至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17，18、19、20、25、30、35、40、45或50个I类和/或II类HLA等位基因。

在一些实施方案中，所述亲和受体标记的HLA-肽复合物包含跨膜结构域。在一些实施方案中，所述亲和受体标记的HLA-肽复合物包含细胞内结构域。在一些实施方案中，所述亲和受体标记的HLA-肽复合物不被排出。在一些实施方案中，所述亲和受体标记的HLA-肽复合物在表达时并入细胞膜中。在一些实施方案中，所述亲和受体标记的HLA-肽复合物不是可溶性亲和受体标记的HLA-肽复合物。

在一些实施方案中，所述方法进一步包括生成HLA等位基因特异性肽数据库。

在一些实施方案中，所述重组I或II类HLA等位基因是单个重组I类或II类HLA等位基因。

在一些实施方案中，所述方法包括将一种或多种肽引入细胞群体。

在一些实施方案中，所述引入包括使所述细胞群体与所述一种或多种肽接触或在所述细胞群体中表达所述一种或多种肽。在一些实施方案中，所述引入包括使所述细胞群体与编码所述一种或多种肽的一种或多种核酸接触。在一些实施方案中，所述编码一种或多种肽的一种或多种核酸是DNA。在一些实施方案中，所述编码一种或多种肽的一种或多种核酸是RNA，任选地其中该RNA是mRNA。

在一些实施方案中，所述富集不包括使用四聚体试剂。

在一些实施方案中，所述方法包括在细胞群体中表达肽文库，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，所述方法包括使肽文库或编码肽的序列文库与细胞群体接触，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该文库包含与疾病或状况相关的肽的文库。在一些实施方案中，该疾病或状况是癌症、传染原的感染或自身免疫反应。在一些实施方案中，所述方法包括将传染原或其部分引入细胞群体中的一个或多个细胞中。在一些实施方案中，所述方法包括表征来自HLA-肽复合物的一种或多种肽，任选地其中所述肽来自传染原的一种或多种靶蛋白。在一些实施方案中，所述方法包括表征来自传染原的一种或多种靶蛋白的肽的一个或多个区域。在一些实施方案中，所述方法包括鉴定来自由传染原衍生的HLA-肽复合物的肽。

在一些实施方案中，所述细胞群体来自患有疾病或状况的受试者的生物样品。在一些实施方案中，所述细胞群体是细胞系。在一些实施方案中，所述细胞群体是原代细胞群体。在一些实施方案中，所述重组I类或II类HLA等位基因与患有疾病或状况的受试者匹配。

在一些实施方案中，所述方法包括针对药物(例如，生物制剂)超敏性进行筛选。在一些实施方案中，所述方法包括评估所施用的生物制剂(例如，蛋白质、肽或抗体药物)、所施用的生物制剂的片段或经加工的生物片段是否呈递给T细胞。这些表位可在受试者中引起不良反应，因此应当监测所施用的生物制剂在受试者中是如何加工的。例如，HIV药物(例如，阿巴卡韦(Abacavir))可以与HLA分子结合并改变某些HLA等位基因(例如HLA-B5701)的肽结合基序。

在一些实施方案中，当被抗原呈递细胞呈递时，来自亲和受体标记的HLA-肽复合物的肽能够激活来自受试者的T细胞。在一些实施方案中，所述表征包括将来自癌细胞的HLA-肽复合物与来自非癌细胞的HLA-肽复合物进行比较。

在一些实施方案中，所述细胞群体包含多个细胞群体，每个细胞群体表达不同的重组I类或II类HLA等位基因。在一些实施方案中，所述多个细胞群体中的每个细胞群体在相同或分开的容器中。

在一些实施方案中，所述方法进一步包括在表征之前从亲和受体标记的HLA-肽复合物中分离肽。在一些实施方案中，所述方法进一步包括从与亲和受体标记的HLA-肽复合物结合的肽的末端去除一个或多个氨基酸。

在一些实施方案中，所述细胞群体是低细胞表面HLA I类或II类表达细胞的群体。在一些实施方案中，所述细胞群体表达一个或多个内源HLA等位基因。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因和内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是一个或多个HLA I类等位基因的敲除。

在一些实施方案中，所述细胞群体是一个或多个HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除和所有HLA II类等位基因的敲除。在一些实施方案中，所述编码重组I类或II类HLA等位基因的序列编码I类HLA。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C、HLA-E、HLA-F和HLA-G。在一些实施方案中，所述编码重组I类或II类HLA等位基因的序列编码II类HLA。在一些实施方案中，所述II类HLA选自HLA-DR、HLA-DQ和HLA-DP。在一些实施方案中，所述II类HLA包含HLA II类α链、HLA II类β链或其组合。

在一些实施方案中，每个序列编码至少两个不同的I类和/或II类HLA等位基因。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因各自可操作地连接至编码不同的亲和受体肽的序列。在一些实施方案中，所述至少两个不同的I类和/或II类HLA等位基因各自可操作地连接至编码亲和受体肽的序列。

在一些实施方案中，所述方法包括施用至少第二多核酸，该第二多核酸包含与相同或不同的亲和受体肽可操作地连接的编码不同的重组HLA等位基因的序列。

在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的细胞外部分的序列。

在一些实施方案中，所编码的亲和受体肽在细胞外表达。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的N-末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的细胞内部分的序列。在一些实施方案中，所编码的亲和受体肽在细胞内表达。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的C-末端。在一些实施方案中，编码亲和受体肽的序列通过连接体可操作地连接至编码重组I类或II类HLA等位基因的序列。

在一些实施方案中，富集包括富集表达亲和受体标记的HLA-肽复合物的完整细胞。在一些实施方案中，所述方法不包括在富集之前裂解细胞。在一些实施方案中，所述方法进一步包括在富集之前裂解所述一个或多个细胞。在一些实施方案中，富集包括使亲和受体肽结合分子与亲和受体标记的HLA-肽复合物接触，其中所述亲和受体肽结合分子与所述亲和受体肽特异性结合。

在一些实施方案中，所述亲和受体肽包含标签序列，该标签序列包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签，或其组合；任选地，其中该亲和受体肽包含标签序列的两个或更多个重复。在一些实施方案中，该亲和受体肽结合分子是生物素或对该亲和受体肽具有特异性的抗体。在一些实施方案中，所述富集包括使亲和分子与亲和受体标记的HLA-肽复合物接触，其中该亲和分子与该亲和受体肽结合分子特异性结合。在一些实施方案中，该亲和分子是链霉亲和素、NeutrAvidin或其衍生物。在一些实施方案中，富集包括免疫沉淀亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体肽结合分子附着于固体表面。在一些实施方案中，所述亲和分子附着于固体表面。在一些实施方案中，该固体表面是珠子。在一些实施方案中，富集包括用特异性结合亲和受体肽的亲和受体肽结合分子免疫沉淀亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体肽结合分子不与所编码的重组I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，富集包括接触对重组I类或II类HLA等位基因的细胞外部分具有特异性的亲和分子。在一些实施方案中，富集包括接触对重组I类或II类HLA等位基因的N-末端部分具有特异性的亲和分子。

在一些实施方案中，提供包括使所述细胞群体与所述多核酸接触。在一些实施方案中，接触包括转染或转导。在一些实施方案中，提供包括使所述细胞群体与包含所述多核酸的载体接触。在一些实施方案中，该载体是病毒载体。在一些实施方案中，该多核酸被稳定地整合到所述细胞群体的基因组中。

在一些实施方案中，编码重组I类或II类HLA的序列包含编码HLA I类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码β2微球蛋白的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码HLA I类α链的序列。在一些实施方案中，编码β2微球蛋白的序列通过连接体连接至编码HLA I类α链的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码第二亲和受体肽的序列。在一些实施方案中，编码重组I类或II类HLA的序列包含编码HLA II类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码HLA II类β链的序列。在一些实施方案中，编码HLA II类β链的序列连接至编码HLA II类α链的序列。在一些实施方案中，编码HLA II类β链的序列通过连接体连接至编码HLA II类α链的序列。

在一些实施方案中，编码HLA II类β链的序列连接至编码第二亲和受体肽的序列。在一些实施方案中，第二亲和受体肽不同于第一亲和受体肽，并且选自生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签及其组合；任选地，其中第一或第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，所述确定包括进行生化分析或质谱分析，如串联质谱分析。在一些实施方案中，所述确定包括从肽数据库获得与从富集的亲和受体标记的HLA-肽复合物中分离的一种或多种肽的MS/MS谱相对应的肽序列；其中获得的一个或多个序列鉴定所述一种或多种肽的序列。

在一些实施方案中，所述细胞群体是选自HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat、Hep G2、SH-SY5Y、CACO-2、U937、U-2 OS、ExpiCHO、CHO和THP1的细胞系。在一些实施方案中，用一种或多种细胞因子、检查点抑制剂、表观遗传活性药物、IFN-γ、改变抗原加工的试剂(如肽酶抑制剂、蛋白酶体抑制剂和TAP抑制剂)或其组合处理该细胞系。

在一些实施方案中，所述肽数据库是无酶特异性的肽数据库，如无修饰的数据库或有修饰的数据库。在一些实施方案中，所述方法进一步包括使用反向数据库搜索策略搜索肽数据库。

在一些实施方案中，所述细胞群体包含至少10⁵个细胞、至少10⁶个细胞或至少10⁷个细胞。在一些实施方案中，所述细胞群体是树突细胞、巨噬细胞、癌细胞或B细胞的群体。在一些实施方案中，所述细胞群体包含肿瘤细胞。在一些实施方案中，在从所述一个或多个细胞中分离所述HLA-肽复合物之前，使所述细胞群体与试剂接触。在一些实施方案中，该试剂是炎性细胞因子、化学试剂、佐剂、治疗剂或辐射。

在一些实施方案中，所述HLA等位基因是突变的HLA等位基因。

在一些实施方案中，编码HLA等位基因的序列包含条形码序列。在一些实施方案中，所述方法进一步包括测定亲和受体标记的I类或II类HLA等位基因的表达。在一些实施方案中，所述测定包括对亲和受体标记的I类或II类HLA等位基因进行测序，检测亲和受体标记的I类或II类HLA等位基因RNA，检测亲和受体标记的I类或II类HLA等位基因蛋白质，或其组合。

在一些实施方案中，所述方法包括对不同的HLA等位基因进行该方法的步骤。在一些实施方案中，每个不同的HLA等位基因包含独特的条形码序列。在一些实施方案中，编码不同HLA等位基因的每个多核酸包含独特的条形码序列。

本文提供了通过进行本文描述的方法获得的HLA等位基因特异性结合肽序列数据库。本文提供了两个或更多个HLA等位基因特异性结合肽序列数据库的组合，这些数据库通过每次使用不同的HLA等位基因重复进行本文描述的方法而获得。本文提供了一种生成用于鉴定HLA等位基因特异性结合肽的预测算法的方法，其包括用本文所述的肽序列数据库或本文所述的组合训练机器。在一些实施方案中，所述机器组合一个或多个线性模型、支持向量机、决策树和神经网络。在一些实施方案中，用来训练机器的变量包括一个或多个选自下组的变量：肽序列、氨基酸物理性质、肽物理性质、细胞内肽的来源蛋白质的表达水平、蛋白质稳定性、蛋白质翻译速率、泛素化位点、蛋白质降解速率、来自核糖体概况分析的翻译效率、蛋白质可切割性、蛋白质定位、促进TAP转运的宿主蛋白质的基序、经历自噬的宿主蛋白质、有利于核糖体停顿的基序和有利于NMD的蛋白质特征。在一些实施方案中，有利于核糖体停顿的基序包含聚脯氨酸或聚赖氨酸段。在一些实施方案中，有利于NMD的蛋白质特征选自长3’UTR、最后一个外显子：外显子连接上游超过50nt的终止密码子和肽可切割性。本文提供了一种鉴定HLA等位基因特异性结合肽的方法，其包括使用已经用肽序列数据库训练的机器分析肽的序列，该肽序列数据库是通过进行本文针对HLA等位基因描述的方法而获得的。在一些实施方案中，该方法包括确定细胞内该肽的来源蛋白质的表达水平；并且其中来源蛋白质表达是所述机器使用的预测变量。在一些实施方案中，所述表达水平通过测量来源蛋白质的量或编码所述来源蛋白质的RNA的量来确定。

本文提供了一种包含重组多核酸的组合物，该重组多核酸包含两个或更多个序列，每个序列编码亲和受体标记的HLA，其中编码所述亲和受体标记的HLA的序列包含(a)编码不同的重组HLA I类α链等位基因的序列，(b)编码亲和受体肽的序列，以及可选的(c)编码β2微球蛋白的序列；其中(a)和(b)以及可选的(c)的序列可操作地连接。

本文提供了一种包含重组多核酸的组合物，该重组多核酸包含两个或更多个序列，每个序列包含编码亲和受体标记的HLA的序列，其中编码所述亲和受体标记的HLA的序列包含(a)编码重组HLA II类α链等位基因的序列，(b)编码亲和受体肽的序列，以及可选的(c)编码HLA II类β链的序列；其中(a)和(b)以及可选的(c)的序列可操作地连接。在一些实施方案中，所述重组多核酸是分离的。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C、HLA-E、HLA-F和HLA-G。在一些实施方案中，所述II类HLA选自HLA-DR、HLA-DQ和HLA-DP。

在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的细胞外部分的序列。在一些实施方案中，编码亲和受体分子的序列可操作地连接至编码重组HLA等位基因的序列的N-末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的细胞内部分的序列。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的序列的C-末端。

在一些实施方案中，编码亲和受体肽的序列通过连接体可操作地连接至编码重组HLA等位基因的序列。

在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列从同一多核苷酸表达。在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列从不同的多核苷酸表达。

在一些实施方案中，所编码的亲和受体肽与亲和受体肽结合分子特异性结合。

在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列包含两个或更多个亲和受体肽。在一些实施方案中，所述编码亲和受体标记的HLA的两个或更多个序列包含编码亲和受体标记的HLA的三个或更多个序列，其中所述编码亲和受体标记的HLA的三个或更多个序列中的至少两个包含相同的亲和受体肽。在一些实施方案中，对于所述编码亲和受体标记的HLA的两个或更多个序列中的每一个，所述两个或更多个亲和受体肽是独特的。在一些实施方案中，所编码的亲和受体肽选自生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱-结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签及其组合；任选地，其中第一或第二亲和受体肽包含标签序列的两个或更多个重复。在一些实施方案中，所述亲和受体肽结合分子是生物素或对所述亲和受体肽具有特异性的抗体。在一些实施方案中，所述亲和受体肽结合分子与亲和分子特异性结合。在一些实施方案中，所述亲和分子是链霉亲和素、NeutrAvidin或其衍生物。在一些实施方案中，所述亲和受体肽结合分子不与重组I类或II类HLA的氨基酸序列特异性相互作用。

在一些实施方案中，对于两个或更多个重组多核酸：编码所述亲和受体标记的HLA的序列被稳定地整合到细胞的基因组中。

在一些实施方案中，编码β2微球蛋白的序列或编码HLA II类β链的序列连接至编码第二亲和受体肽的序列。在一些实施方案中，第二亲和受体肽包含HA标签。在一些实施方案中，编码β2微球蛋白的序列或编码HLA II类β链的序列通过连接体连接至编码重组HLA和亲和受体肽的序列。在一些实施方案中，所述连接体包含编码可切割连接体的多核酸序列。在一些实施方案中，该可切割连接体是核糖体跳跃位点或内部核糖体进入位点(IRES)元件。在一些实施方案中，当在细胞中表达时，该核糖体跳跃位点或IRES被切割。在一些实施方案中，该核糖体跳跃位点选自F2A、T2A、P2A和E2A。在一些实施方案中，该IRES元件选自常见的细胞或病毒IRES序列。

在一些实施方案中，所述细胞群体表达一个或多个内源I类或II类HLA等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏一个或多个内源HLA I类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏内源HLA I类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏一个或多个内源HLA II类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏内源HLA II类等位基因。在一些实施方案中，所述细胞群体被工程改造为缺乏一个或多个内源HLA I类等位基因和一个或多个内源HLA II类等位基因。在一些实施方案中，所述细胞群体是低细胞表面HLA I类或II类表达细胞的群体。在一些实施方案中，使用肽或编码对患者的HLA类型具有特异性的肽的多核酸来配制所述组合物。

本文提供了一种制备细胞的方法，其包括用本文所述的组合物的两个或更多个多核酸转导或转染两个或更多个细胞。本文提供了根据本文描述的方法鉴定的肽。

本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的多核酸。本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的肽。本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用包含含有本文所述的肽序列的肽的细胞。本文提供了一种在哺乳动物中诱导抗肿瘤应答的方法，其包括向该哺乳动物施用包含有效量的多核酸的细胞，该多核酸包含编码包含本文所述肽序列的肽的序列。在一些实施方案中，所述细胞将所述肽以HLA-肽复合物的形式呈递。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含编码本文所述肽的序列的多核酸。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的肽。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含含有本文所述肽序列的肽的细胞。本文提供了一种在哺乳动物中诱导免疫应答的方法，其包括向该哺乳动物施用有效量的包含多核酸的细胞，该多核酸包含编码包含本文所述肽序列的肽的序列。

本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含编码本文所述肽的序列的多核酸。本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含本文所述的肽序列的肽。本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含含有本文所述肽序列的肽的细胞。本文提供了一种治疗患有疾病的哺乳动物的方法，其包括向该哺乳动物施用有效量的包含多核酸的细胞，该多核酸包含编码包含本文所述肽序列的肽的序列。

在一些实施方案中，所述疾病是癌症。在一些实施方案中，所述疾病是传染原的感染。在一些实施方案中，该传染原是病原体，任选地是病毒或细菌，或寄生虫。在一些实施方案中，该病毒选自：BK病毒(BKV)、登革病毒(DENV-1、DENV-2、DENV-3、DENV-4、DENV-5)、巨细胞病毒(CMV)、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、EB病毒(EBV)、腺病毒、人类免疫缺陷病毒(HIV)、人类T细胞淋巴营养性病毒(HTLV-1)、流感病毒、RSV、HPV、狂犬病、腮腺炎风疹病毒、脊髓灰质炎病毒、黄热病、甲型肝炎、乙型肝炎、轮状病毒、水痘病毒、人乳头瘤病毒(HPV)、天花、带状疱疹及其任何组合。在一些实施方案中，该细菌选自：克雷伯氏菌属的种、惠普尔吸收障碍菌、麻风分枝杆菌、Mycobacterium lepromatosis和结核分枝杆菌、伤寒、肺炎球菌、脑膜炎球菌、嗜血杆菌B、炭疽、破伤风类毒素、脑膜炎球菌B组、卡介苗(bcg)、霍乱及其任何组合。在一些实施方案中，该寄生虫是蠕虫或原生动物。在一些实施方案中，该寄生虫选自：利什曼原虫属的种、疟原虫属的种、克氏锥虫、似蚓蛔线虫、鞭形鞭虫、美洲板口线虫、血吸虫属的种及其任何组合。

HLA-肽复合物的富集

编码HLA I类和II类糖蛋白的基因是人类基因组中最具多态性的编码序列。然而，每个HLA I类重链以及HLA II类α和β链都有相对恒定或不变的区域，抗体可以靶向这些区域，以选择性捕获任何HLA I类重链或HLA II类α或β链。然而，由于α和β链通常在体内彼此缔合，因此完整可溶性HLA的α链的免疫纯化可以共沉淀β链，反之亦然。用于富集HLA关联多肽的目的的抗HLA II类抗体可以识别在α或β链上呈现的保守表位。

采用HLA等位基因特异性抗体或利用非HLA特异性试剂的富集方法是本领域公知的。例如，HLA-C多肽通常由个体以低于HLA-A和HLA-B的水平表达。因此，为了增强使用抗体对HLA-C的检测，除了其它纯化方法之外，提供使用HLA-C特异性抗体对HLA-C的特异性免疫纯化可能是有利的。与单个HLA链特异性结合的单克隆或多克隆抗体的许多实例是可商购的。

本文提供了一种用于富集一种或多种单等位基因HLA多肽复合物的通用免疫纯化(IP)流程。这类用于富集HLA关联多肽的方法的示例是一种包括免疫纯化步骤的方法。通用IP流程包括通用IP构建体，该通用IP构建体由编码通过细胞转染或转导从表达载体表达的亲和标记的HLA I类或II类等位基因的DNA构建体组成。表达载体的非限制性实例是慢病毒载体。

将用通用IP构建体转染或转导的细胞扩充，或选择并然后扩充，之后进行LC-MS/MS序列分析。用于转染或转导的合适的细胞群体包括，例如，其中表达单个HLA I类等位基因的I类缺陷细胞系，其中表达一对HLA II类等位基因的II类缺陷细胞系，或其中表达单个HLA I类和/或一对II类等位基因的I类和I类II型缺陷细胞系。作为示例性实施方案，I类缺陷B细胞系是B721.221。在一些实施方案中，所述细胞是A375或HEK293T、HeLa或expi293。然而，对于技术人员而言清楚的是，可以产生I类和/或II类缺陷的其它细胞群体。产生I类和/或II类缺陷细胞以及I类和/或II类缺陷细胞系的方法是本领域已知的，并且用于删除/灭活内源I类或II类基因的示例性方法包括CRISPR-Cas9介导的基因组编辑，例如在THP-1细胞中。在一些实施方案中，所述细胞群体是专职抗原呈递细胞，如巨噬细胞、B细胞和树突细胞。所述细胞可以是B细胞或树突细胞。在一些实施方案中，所述细胞是肿瘤细胞或来自肿瘤细胞系的细胞。在一些实施方案中，所述细胞是从患者中分离的细胞。在一些实施方案中，所述细胞含有传染原或其一部分。

在一些实施方案中，通用IP构建体包含含有亲和受体标签和亲和分子的I类或II类HLA构建体。在一些实施方案中，通用IP构建体包含至少一个特异性结合的亲和受体标签和亲和分子。在一些实施方案中，亲和受体标签是聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、衍生自水疱性口炎病毒糖蛋白的VSV-G表位标签，或衍生自猿猴病毒5(SV5)副粘病毒P和V蛋白上发现的小表位(Pk)的V5标签。在一些实施方案中，所述亲和受体标签可以包括标签序列的多个重复(例如3x聚组氨酸标签、3xFLAG标签)。在一些实施方案中，所述亲和受体标签可以包括标签序列的多个重复(例如3x聚组氨酸标签、3xFLAG标签)。在一些实施方案中，所述亲和受体标签是“表位标签”，这是一种类型的肽标签，其向HLA蛋白添加可识别的表位(抗体结合位点)以提供相应抗体的结合，从而允许鉴定或亲和纯化所标记的蛋白质。表位标签的非限制性实例是可与IgG结合的蛋白A或蛋白G。在一些实施方案中，亲和受体标签包括生物素受体肽(BAP)或人类流感血凝素(HA)肽序列。许多其它标签部分是普通技术人员已知的并且可以设想的，并且在此想到。可以使用任何肽标签，只要它能够被表达为亲和受体标记的HLA-肽复合物的元件即可。

亲和标签可以放置在HLA等位基因的N-末端或C-末端。切割序列，如F2A，或内部核糖体进入位点(IRES)，可以放置在α链与β2-微球蛋白之间(I类)，或者α链与β链之间(II类)。在一些实施方案中，单个I类HLA等位基因是HLA-A*02:01、HLA-A*23:01和HLA-B*14:02或HLA-E*01:01，而II类HLA等位基因是HLA-DRB*01:01、HLA-DRB*01:02和HLA-DRB*11:01、HLA-DRB*15:01或HLA-DRB*07:01。在一些实施方案中，切割序列是T2A、P2A、E2A或F2A序列。例如，切割序列可以是EGRGSLLTCGDVEENPGP(T2A)、ATNFSLLKQAGDVEENPGP(P2A)、QCTNYALLKLAGDVESNPGP(E2A)或VKQTLNFDLLKLAGDVESNPGP(F2A)。

在一些实施方案中，HLA-肽复合物免疫纯化是基于生物素的。在一些实施方案中，HLA-肽复合物免疫纯化是基于链霉亲和素或NeutrAvidin的。在一些实施方案中，还可以通过色谱技术如HPLC从生物样品中富集HLA-肽复合物。在一些实施方案中，可以利用高丰度血清蛋白质的消耗来富集HLA-肽复合物。在一些实施方案中，去除丰富血清蛋白质的方法包括染料配体(对于白蛋白)、蛋白A和G(对于γ-球蛋白)或特异性抗体，它们以高亲和力结合并从样品中选择性地消耗这些物质(Govorukhina，Reijmers等人.2006)。这样的策略将增加在单个质谱分析中鉴定的源自HLA的肽序列的数目。

优化从生物样品中解析特定HLA序列所需的富集程度取决于生物样品中HLA序列的初始浓度，以及样品中其它非HLA蛋白的浓度和性质。

为了富集生物样品中的HLA-肽复合物，经典蛋白质纯化技术可以单独使用，也可以与本文提供的通用IP流程方法结合使用。经典的蛋白质分离(纯化)技术基于；大小差异(超滤、凝胶过滤或大小排阻色谱法)；电荷差异(pi)(阴离子/阳离子交换色谱法或疏水相互作用色谱法)；以及大小和电荷差异的组合(1D或2D电泳)。免疫纯化选项包括使用特异性结合HLA蛋白的单克隆或多克隆抗体。其它蛋白质亲和纯化选项包括使用已知可结合HLA的蛋白质，这些蛋白质包括：与所有HLA I类蛋白的α3结构域结合的CD8；与所有HLA II类蛋白结合的CD4；自体T细胞受体；以及以高亲和力结合HLA的抗原肽(可以使用计算机建模算法来预测肽/HLA结合特性)。这些高HLA亲和力蛋白质选项中的任何一种都可以固定在不溶性固体支持物上，以制备亲和基质，该基质可用来从液体生物样品中捕获HLA。适当的洗脱条件将导致样品中HLA内容物的浓缩和纯化(分离)。

在一些实施方案中，所述富集包括富集表达亲和受体标记的HLA-肽复合物的完整细胞。在一些实施方案中，所述方法不包括在富集之前裂解细胞。在一些实施方案中，所述方法进一步包括在富集之前裂解所述一个或多个细胞。在一些实施方案中，所述富集包括使亲和受体肽结合分子与亲和受体标记的HLA-肽复合物接触，其中该亲和受体肽结合分子与该亲和受体肽特异性结合。在一些情况下，所述富集不包括使用四聚体试剂。

疾病特异性抗原

在一些实施方案中，至少一种抗原肽分子的大小可以包括但不限于约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约21、约22、约23、约24、约25、约26、约27、约28、约29、约30、约31、约32、约33、约34、约35、约36、约37、约38、约39、约40、约41、约42、约43、约44、约45、约46、约47、约48、约49、约50、约60、约70、约80、约90、约100、约110、约120个或更多个氨基分子残基以及其中可得到的任何范围。

在一些实施方案中，所述抗原肽分子等于或小于50个氨基酸。在一些实施方案中，所述抗原肽分子等于约20个至约30个氨基酸。可以以几种方式设计更长的肽。例如，当HLA结合区被预测或已知时，较长的肽可以由向每个相应基因产物的N-和C-末端延伸0-10个氨基酸的单个结合肽组成。较长的肽也可以由一些或所有结合肽与每个结合肽的延伸序列的连接组成。在另一种情况下，当测序揭示病变组织中存在长(＞10个残基)表位序列时(例如由于移码、通读或内含子包含导致新的肽序列)，较长的肽可以由新疾病特异性氨基酸的整个序列段组成。在这两种情况下，使用较长的肽需要通过专职抗原呈递细胞如树突细胞进行内源性加工，并且可以导致更有效的抗原呈递和T细胞应答的诱导。在一些实施方案中，改变延伸序列以改善多肽的生物化学性质(诸如溶解性或稳定性的性质)或改善肽的有效蛋白酶体加工的可能性。

所述抗原肽和多肽可以结合HLA蛋白。在一些实施方案中，所述抗原肽可以以比相应的天然/野生型肽更高的亲和力结合HLA蛋白。所述抗原肽可以具有约小于1000nM、约小于500nM、约小于250nM、约小于200nM、约小于150nM、约小于100nM或约小于50nM的IC50。在一些实施方案中，当施用于受试者时，所述抗原肽不诱导自身免疫应答和/或引起免疫耐受。

本公开还提供了包含多种抗原肽的组合物。对抗原肽的提及包括可导致将肽引入受试者的细胞中的任何合适的递送方式(例如，核酸)。在一些实施方案中，该组合物包含至少3种或更多种抗原肽。在一些实施方案中，该组合物含有至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50种不同的肽。在一些实施方案中，该组合物含有至少20种不同的肽。在一些实施方案中，该组合物含有至多20种不同的肽。根据本公开，2种或更多种不同的肽可以衍生自相同的多肽。例如，如果抗原突变编码多肽，则两种或更多种抗原肽可以衍生自该多肽。在一些实施方案中，衍生自多肽的两种或更多种抗原肽可以包含跨越该多肽的平铺阵列(例如，抗原肽可以包含跨该越多肽的一部分或全部的一系列重叠抗原肽)。抗原肽可以来源于任何蛋白质编码基因。抗原肽可以来源于人类癌症中的突变或来源于传染原或自身免疫性疾病。

可以进一步修饰抗原肽、多肽和类似物以含有通常不是蛋白质的一部分的其它化学部分。那些衍生化的部分可以改善溶解性、生物半衰期、蛋白质的吸收或结合亲和力。该部分还可以减少或消除蛋白质等的任何不期望的副作用。这些部分的概述可见于Remington′s Pharmaceutical Sciences，第20版，Mack Publishing Co.，Easton，PA(2000)。例如，可以在必要时修饰具有期望的活性的抗原肽和多肽以提供某些期望的属性，例如改善的药理学特性，同时增加或至少保留未修饰肽的基本上所有生物活性以结合期望的MHC分子并激活合适的T细胞。例如，抗原肽和多肽可以经受各种改变，如保守或非保守置换，其中这样的改变可以在其使用中提供某些优点，如改善的MHC结合。这样的保守置换可以包括将氨基酸残基替换为生物学和/或化学上相似的另一个氨基酸残基，例如，用一个疏水残基替代另一个疏水残基，或用一个极性残基替代另一个极性残基。也可以使用D-氨基酸探测单氨基酸置换的作用。这样的修饰可以使用公知的肽合成程序进行，如在例如，Merrifield，Science232：341-347(1986)，Barany&Merrifield，The Peptides，Gross&Meienhofer编著(N.Y.，Academic Press)，第1至284页(1979)；以及Stewart&Young，SolidPhase Peptide Synthesis，(Rockford，III.，Pierce)第2版(1984)中所描述的。

还可以通过延长或减少化合物的氨基酸序列(例如通过氨基酸的添加或缺失)来修饰抗原肽。还可以通过改变某些残基的顺序或组成来修饰抗原肽、多肽或类似物。技术人员将会理解，对于生物活性必需的某些氨基酸残基，例如在关键接触位点的残基或保守残基，通常可在不对生物活性产生不利影响的情况下进行改变。非关键氨基酸不必限于蛋白质中天然存在的那些，如L-a-氨基酸或它们的D-异构体，而是也可以包括非天然氨基酸，如β-γ-δ-氨基酸，以及L-a-氨基酸的许多衍生物。

可以通过使用具有单氨基酸置换的一系列肽来优化抗原肽以确定静电荷、疏水性等对MHC结合的影响。例如，可以沿肽的长度进行一系列带正电荷(例如Lys或Arg)或带负电荷(例如Glu)的氨基酸置换，从而揭示对各种MHC分子和T细胞受体的不同敏感模式。另外，可以采用使用小的相对中性的部分如Ala、Gly、Pro或类似残基的多重置换。该置换可以是同源寡聚体或异源寡聚体。置换或添加的残基的数目和类型取决于必需接触点与所寻求的某些功能属性(例如，疏水性与亲水性)之间必需的间隔。与亲本肽的亲和力相比，通过这样的置换也可以实现对MHC分子或T细胞受体的结合亲和力增加。在任何情况下，这样的置换应该采用选择的氨基酸残基或其它分子片段以避免例如可能破坏结合的空间干扰和电荷干扰。氨基酸置换通常是单残基的。可以将置换、缺失、插入或其任何组合进行组合以得到最终的肽。

可以修饰抗原肽以提供所需的属性。例如，可以通过与含有至少一个能够诱导T辅助细胞应答的表位的序列连接来增强肽诱导CTL活性的能力。在一些实施方案中，免疫原性肽/T辅助偶联物通过间隔体分子进行连接。在一些实施方案中，间隔体包含在生理条件下基本上不带电荷的相对较小的中性分子，如氨基酸或氨基酸模拟物。间隔体可以选自例如Ala、Gly或非极性氨基酸或中性极性氨基酸的其它中性间隔体。应当理解，任选存在的间隔体不必包含相同的残基，因此可以是异源寡聚体或同源寡聚体。抗原肽可以直接或经由肽的氨基或羧基末端的间隔体连接至T辅助肽。抗原肽或T辅助肽的氨基末端可以被酰化。示例性T辅助肽包括破伤风类毒素830-843、流感307-319、疟疾环子孢子382-398及378-389。

单等位基因HLA细胞系

可以通过用编码单个HLA等位基因的多核酸(例如载体)转导或转染合适的细胞群体来生成表达单个I类HLA等位基因、一对II类HLA等位基因或单个I类HLA等位基因和一对II类HLA等位基因的单等位基因细胞系。合适的细胞群体包括，例如，其中表达单个HLA I类等位基因的I类缺陷细胞系，其中表达一对HLA II类等位基因的II类缺陷细胞系，或其中表达单个HLA I类和/或一对II类等位基因的I类和I类II型缺陷细胞系。作为示例性实施方案，I类缺陷B细胞系是B721.221。然而，对于技术人员而言清楚的是，可以产生I类和/或II类缺陷的其它细胞群体。用于删除/灭活内源I类或II类基因的示例性方法包括CRISPR-Cas9介导的基因组编辑，例如在THP-1细胞中。在一些实施方案中，所述细胞群体是专职抗原呈递细胞，如巨噬细胞、B细胞和树突细胞。所述细胞可以是B细胞或树突细胞。在一些实施方案中，所述细胞是肿瘤细胞或来自肿瘤细胞系的细胞。在一些实施方案中，所述细胞是从患者中分离的细胞。在一些实施方案中，所述细胞含有传染原或其一部分。在一些实施方案中，所述细胞群体包含至少107个细胞。在一些实施方案中，所述细胞群体被进一步修饰，例如通过增加或减少至少一个基因的表达和/或活性。在一些实施方案中，该基因编码免疫蛋白酶体的成员。已知免疫蛋白酶体参与HLA I类结合肽的加工，并且包括LMP2(β1i)、MECL-1(β2i)和LMP7(β5i)亚单位。免疫蛋白酶体也可以被干扰素-γ诱导。因此，在一些实施方案中，所述细胞群体可以与一种或多种细胞因子、生长因子或其它蛋白质接触。可以用诸如干扰素-γ、IL-10、IL-6和/或TNF-α等炎性细胞因子刺激所述细胞。所述细胞群体也可以经受各种环境条件，如应激(热应激、缺氧、葡萄糖饥饿、DNA破坏剂等)。在一些实施方案中，使细胞与化疗药物、放射疗法、靶向疗法、免疫疗法中的一种或多种接触。因此，本文公开的方法可以用来研究各种基因或条件对HLA肽加工和呈递的影响。在一些实施方案中，选择所使用的条件以匹配待鉴定其HLA-肽群体的患者的状况。

可以使用基于病毒的系统(例如，腺病毒系统、腺相关病毒(AAV)载体、痘病毒或慢病毒)来编码并表达本公开的单个HLA等位基因。先前已经描述了可用于腺相关病毒、腺病毒和慢病毒递送的质粒(参见，例如，美国专利6,955,808和6,943,019，以及美国专利申请20080254008，在此引入作为参考)。在可以在本公开的实践中使用的载体中，利用逆转录病毒基因转移方法可以实现向细胞的宿主基因组中的整合，通常导致所插入的转基因的长期表达。在一个示例性实施方案中，该逆转录病毒是慢病毒。另外，已经在许多不同的细胞类型和靶组织中观察到高转导效率。逆转录病毒的向性可以通过并入外来包膜蛋白、扩充靶细胞的潜在目标群体来改变。逆转录病毒也可以被工程改造以允许所插入的转基因的条件表达，使得仅有某些细胞类型被慢病毒感染。细胞类型特异性启动子可用来靶向在特定细胞类型中的表达。慢病毒载体是逆转录病毒载体(因此慢病毒和逆转录病毒载体均可以在本公开的实践中使用)。此外，慢病毒载体能够转导或感染非分裂细胞并且通常产生高病毒滴度。可用来产生被转导以表达HLA I类和II类的稳定细胞系的示例性慢病毒载体在图3中示出。

逆转录病毒基因转移系统的选择可以取决于靶组织。逆转录病毒载体由顺式作用长末端重复序列组成，其包装能力可达6-10kb的外来序列。最小顺式作用LTR足以复制和包装载体，然后用其将所需核酸整合到靶细胞中以提供永久表达。可以在本公开的实践中使用的广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的载体(参见，例如，Buchscher等人(1992)J.Virol.66：2731-2739；Johann等人(1992)J.Virol.66：1635-1640；Sommnerfelt等人(1990)Virol.176：58-59；Wilson等人(1998)J.Virol.63：2374-2378；Miller等人(1991)J.Virol.65：2220-2224；PCT/US94/05700)。另外，在本公开的实践中有用的是最小的非灵长类动物慢病毒载体，如基于马传染性贫血病毒(EIAV)的慢病毒载体(参见，例如，Balagaan，(2006)J Gene Med；8：275-285，于2005年11月21日在线发表于Wiley InterScience DOI：10.1002/jgm.845)。所述载体可以具有驱动靶基因表达的巨细胞病毒(CMV)启动子。因此，本公开涉及可用于实施本公开内容的一种或多种载体：病毒载体，包括逆转录病毒载体和慢病毒载体。

任何HLA等位基因均可以在细胞群体中表达。在一个示例性实施方案中，该HLA等位基因是I类HLA等位基因。在一些实施方案中，该I类HLA等位基因是HLA-A等位基因或HLA-B等位基因。在一些实施方案中，该HLA等位基因是II类HLA等位基因。I类和II类HLA等位基因的序列可见于IPD-IMGT/HLA数据库中。示例性的HLA等位基因包括但不限于HLA-A*02:01、HLA-B*14:02、HLA-A*23:01、HLA-E*01:01、HLA-DRB*01:01、HLA-DRB*01:02、HLA-DRB*11:01、HLA-DRB*15:01和HLA-DRB*07:01。

在一些实施方案中，选择HLA等位基因以对应于目的基因型。在一些实施方案中，该HLA等位基因是突变的HLA等位基因，其可以是患病患者中非天然存在的等位基因或天然存在的等位基因。本文公开的方法具有为与各种疾病相关的HLA等位基因以及以低频率存在的等位基因鉴定HLA结合肽的进一步的优点。因此，在一些实施方案中，HLA等位基因以低于1％的频率存在于群体如高加索人群体中。

在一些实施方案中，编码HLA等位基因的核酸序列进一步包含可用来免疫纯化HLA蛋白的亲和受体标签。合适的标签是本领域公知的。在一些实施方案中，亲和受体标签是聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、衍生自水疱性口炎病毒糖蛋白的VSV-G表位标签，或衍生自猿猴病毒5(SV5)副粘病毒P和V蛋白上发现的小表位(Pk)的V5标签。在一些实施方案中，所述亲和受体标签是“表位标签”，这是一种类型的肽标签，其向HLA蛋白添加可识别的表位(抗体结合位点)以提供相应抗体的结合，从而允许鉴定或亲和纯化所标记的蛋白质。表位标签的非限制性实例是可与IgG结合的蛋白A或蛋白G。在一些实施方案中，亲和受体标签包括生物素受体肽(BAP)或人类流感血凝素(HA)肽序列。许多其它标签部分是普通技术人员已知的并且可以设想的，并且在此想到。可以使用任何肽标签，只要它能够被表达为亲和受体标记的HLA-肽复合物的元件即可。

本文提供的方法包括从用通用IP HLA构建体转染或转导的细胞中分离HLA-肽复合物。在一些实施方案中，可以使用本领域已知的标准免疫沉淀技术与市售抗体分离复合物。可以先裂解细胞。可以使用HLA I类特异性抗体如W6/32抗体分离HLA I类-肽复合物，而使用HLA II类特异性抗体如M5/114.15.2单克隆抗体分离HLA II类-肽复合物。在一些实施方案中，单个(或一对)HLA等位基因被表达为具有肽标签的融合蛋白，并且使用识别该肽标签的结合分子分离HLA-肽复合物。

所述方法进一步包括从所述HLA-肽复合物中分离肽并对该肽进行测序。通过本领域技术人员已知的任何方法，如酸洗脱，从复合物中分离肽。尽管可以使用任何测序方法，但是在一些实施方案中，采用使用质谱法的方法，如液相色谱-质谱法(LC-MS或LC-MS/MS，或者HPLC-MS或HPLC-MS/MS)。这些测序方法是技术人员公知的，并且在Medzihradszky KF和Chalkley RJ.Mass Spectrom Rev.2015年1月-2月；34(1)：43-63中进行了综述。

在一些实施方案中，所述细胞群体表达一个或多个内源HLA等位基因。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA II类等位基因的工程化细胞群体或缺乏内源HLA I类等位基因和内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体包含已经富集或分选的细胞，例如通过荧光激活细胞分选(FACS)。在一些实施方案中，使用荧光激活的细胞分选(FACS)来分选细胞群体。在一些实施方案中，预先针对I类或II类HLA或I类和II类HLA两者的细胞表面表达对细胞群体进行FACS分选。例如，可以使用FACS针对HLA I类等位基因、HLA II类等位基因或其组合的细胞表面表达分选细胞群体。

亲和受体标记的HLA构建体文库

如本文所用的术语“文库”是指核酸分子(环状或线性)的集合。在一个实施方案中，文库可以包含多个(即，两个或更多个)核酸分子，这些核酸分子可以来自共同的来源生物体、器官、组织或细胞。在一些实施方案中，文库代表生物体的核酸内容物的全部或部分或重要部分(“基因组”文库)，或代表在细胞、组织、器官或生物体中表达的核酸分子(cDNA文库或从其衍生的区段)的全部或部分或重要部分的一组核酸分子。文库还可以包含通过从头合成、诱变一个或多个序列等产生的随机序列。这类文库可以包含在一个或多个载体中。本文提供的亲和受体标记的HLA构建体的文库包含编码HLA等位基因、亲和受体肽或连接体的元件的DNA序列。合适的分子生物学技术可见于Sambrook等人(Molecular Cloning；A Laboratory Manual，New York：Cold Spring Harbor Laboratory Press，1989)。几种促进核酸区段克隆的方法已经描述于例如以下参考文献中：Ferguson，J.等人，Gene16：191(1981)和Hashimoto-Gotoh，T.等人，Gene 41：125(1986)。如本文所用的，在重组核酸技术以及分子和细胞生物学领域中使用的其它术语如适用领域的普通技术人员所通常理解的。

重组HLA等位基因的各个元件或结构域可以以任何顺序排列在重组HLA等位基因的N-末端与C-末端之间。与另一元件或结构域相比与重组HLA等位基因编码的重组多肽的N-末端更接近的元件或结构域被称为在所述另一元件或结构域的”N端”。类似地，与另一个元件或结构域相比与重组HLA等位基因编码的重组多肽的C-末端更接近的的元件或结构域被称为在所述另一个元件或结构域的“C端”。除非另有明确说明，否则由重组HLA等位基因编码的重组多肽的不同元件或结构域不需要相邻(即，没有一个或多个居间元件或结构域)。在一些实施方案中，由重组HLA等位基因编码的重组多肽的不同元件或结构域可以是相邻的。

由重组HLA等位基因编码的重组多肽可包括一个或多个可选的元件，如一个或多个连接体、肽标签(如表位标签)或蛋白酶识别位点。在一些实施方案中，肽标签是亲和受体肽。连接体是分隔重组蛋白的其它元件或结构域的相对较短的一系列氨基酸。在一些实施方案中，连接体的长度为1至100个氨基酸；例如，长度为5至75、10至60、15至50、15至40或1至50个氨基酸。

在异源表达系统中表达蛋白质的方法是本领域公知的。通常，使用诸如本文所述的方法获得编码全部或部分目的蛋白质(如重组HLA I类或II类亲和受体标记的肽)的核酸分子。使用标准重组DNA程序，将编码蛋白质的核酸序列克隆到适合特定目的宿主细胞的表达载体中。表达载体包含(除其它元件外)调节序列(例如启动子)，该调节序列可以可操作地连接至所需的编码蛋白质的核酸分子，以引起此类核酸分子在宿主细胞中的表达。调节序列和编码蛋白质的核酸序列合在一起是“表达盒”。表达载体还可以包含复制起点、在转化细胞中提供表型选择的标记基因、一个或多个其它启动子以及含有若干用于插入异源核酸序列的限制酶切位点的多连接体区域。

可用于在多种宿主细胞中表达异源蛋白质的表达载体是本领域公知的，并且本文提供了一些具体实例。使用适合于特定宿主细胞的任何方法，用表达载体转染(或用含有表达载体的病毒感染)宿主细胞。这样的转染方法也是本领域公知的，并且本文描述了非限制性示例性方法。被转染或转导的宿主细胞能够表达由表达盒中的相应核酸序列编码的蛋白质。

在一些实施方案中，I类或II类HLA构建体在N-末端或C-末端包含亲和受体标签和亲和分子。在一些实施方案中，I类或II类HLA构建体包含至少一个特异性结合的亲和受体标签和亲和分子。在一些实施方案中，亲和受体标签是聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、衍生自水疱性口炎病毒糖蛋白的VSV-G表位标签，或衍生自猿猴病毒5(SV5)副粘病毒P和V蛋白上发现的小表位(Pk)的V5标签。在一些实施方案中，所述亲和受体标签可以包括标签序列的多个重复(例如3x聚组氨酸标签、3xFLAG标签)。在一些实施方案中，所述亲和受体标签可以包括标签序列的多个重复(例如3x聚组氨酸标签、3xFLAG标签)。在一些实施方案中，所述亲和受体标签是“表位标签”，这是一种类型的肽标签，其向HLA蛋白添加可识别的表位(抗体结合位点)以提供相应抗体的结合，从而允许鉴定或亲和纯化所标记的蛋白质。表位标签的非限制性实例是可与IgG结合的蛋白A或蛋白G。

在一些实施方案中，亲和受体标签包括生物素受体肽(BAP)或人类流感血凝素(HA)肽序列。许多其它标签部分是普通技术人员已知的并且可以设想的，并且在此想到。可以使用任何肽标签，只要它能够被表达为亲和受体标记的HLA-肽复合物的元件即可。

亲和标签可以放置在HLA等位基因的N-末端或C-末端。在一些实施方案中，将亲和标签放置在HLA等位基因的C-末端，以使HLA-肽能够相对于ER定位于细胞表面。在一些实施方案中，将亲和标签放置在HLA等位基因的N-末端，以使得能够从表达多个内源HLA等位基因的细胞系中分离出单个HLA。在又一个实施方案中，将亲和标签添加至可变β链以免疫纯化特定的II类HLA异二聚体。

在一些实施方案中，切割序列，如F2A，或内部核糖体进入位点(IRES)，可以放置在α链与β2-微球蛋白之间(I类)，或者α链与β链之间(II类)。在一些实施方案中，单个I类HLA等位基因是HLA-A*02:01、HLA-A*23:01和HLA-B*14:02或HLA-E*01:01，而II类HLA等位基因是HLA-DRB*01:01、HLA-DRB*01:02和HLA-DRB*11:01、HLA-DRB*15:01或HLA-DRB*07:01。

非限制性的示例性亲和受体标记的HLA构建体在图2、图6C和图7C中示出。

治疗方法

已经描述了使用肿瘤特异性肽的个性化免疫疗法(Ott等人，Hematol.Oncol.Clin.N.Am.28(2014)559-569)。有效地选择使用哪些特定肽作为免疫原需要具有预测哪些肿瘤特异性肽将有效地结合患者中存在的HLA等位基因的能力。开发治愈性且肿瘤特异性免疫疗法的关键障碍之一是鉴定和选择用以避免自身免疫的高度特异性且受限制的肿瘤抗原。由恶性细胞内的遗传改变(例如，倒位、易位、缺失、错义突变、剪接位点突变等)引起的肿瘤新抗原代表最具肿瘤特异性的一类抗原。由于鉴定新抗原、选择优化的抗原和产生用于疫苗或免疫原性组合物的新抗原的技术困难，新抗原很少用于癌症疫苗或免疫原性组合物。这些问题可以通过以下方法解决：鉴定肿瘤中以DNA水平存在但不存于来自高比例癌症受试者的匹配种系样品中的瘤形成/肿瘤中的突变；用一种或多种肽-MHC结合预测算法分析所鉴定的突变，以生成在瘤形成/肿瘤内表达以及与高比例的患者HLA等位基因结合的多种新抗原T细胞表位；以及合成多种选自所有新抗原肽和预测的结合肽的组的新抗原肽，以用于适用于治疗高比例的癌症受试者的癌症疫苗或免疫原性组合物(图18A和图18B)

例如，将肽测序信息翻译成治疗性疫苗可以包括预测可以结合高比例个体的HLA分子的突变肽。有效地选择使用哪些特定突变作为免疫原需要具有预测哪些突变肽将有效地结合高比例的患者的HLA等位基因的能力。最近，采用经验证的结合和非结合肽的基于神经网络的学习方法提高了主要HLA-A和HLA-B等位基因的预测算法的准确性。然而，即使使用先进的基于神经网络的算法来编码HLA-肽结合规则，若干因素仍然限制了预测HLA等位基因上呈现的肽的能力。

例如，将肽测序信息翻译成治疗性疫苗可以包括将药物配制为长肽的多表位疫苗。靶向实际上尽可能多的突变表位利用了免疫系统的巨大能力，通过下调免疫靶向基因产物来防止免疫逃逸的机会，并补偿表位预测方法的已知不准确性。合成肽提供了有效制备多种免疫原以及快速地将突变表位的鉴定转化为有效的疫苗的有用方法。肽可轻松化学合成且易于使用不含污染细菌或动物物质的试剂进行纯化。小尺寸允许清楚地聚焦蛋白质的突变区域并且还减少了与其它组分(未突变的蛋白质或病毒载体抗原)的不相关的抗原竞争。

例如，将肽测序信息翻译成治疗性疫苗可以包括与强疫苗佐剂的组合。有效的疫苗可能需要强佐剂来引发免疫应答。例如，聚-ICLC——TLR3以及MDA5和RIG3的RNA解旋酶结构域的激动剂，已显示出疫苗佐剂的几种期望的性质。这些性质包括诱导体内免疫细胞的局部和全身活化、产生刺激性趋化因子和细胞因子以及通过DC刺激抗原呈递。此外，聚-ICLC可以在人体中诱导持久的CD4+和CD8+应答。重要的是，在接种聚2ICLC的受试者和接受过高效、具有复制能力的黄热病疫苗的志愿者中观察到转录和信号转导途径上调的惊人相似性。此外，在最近的1期研究中，＞90％的(除Montanide外还)使用聚-ICLC联合NYESO21肽疫苗免疫的卵巢癌患者显示出CD4+和CD8+T细胞的诱导以及对肽的抗体应答。同时，聚-ICLC迄今已在超过25项临床试验中进行了广泛测试，并表现出相对良好的毒性概况。

在一些实施方案中，可以从来自患有疾病或状况的受试者的细胞中鉴定免疫原性肽。在一些实施方案中，免疫原性肽可以对患有疾病或状况的受试者是特异性的。在一些实施方案中，免疫原性肽可以结合与患有疾病或状况的受试者的HLA单元型匹配的HLA。

在一些实施方案中，肽文库可以在细胞中表达。在一些实施方案中，该细胞包含待鉴定或表征的肽。在一些实施方案中，待鉴定或表征的肽是内源肽。在一些实施方案中，该肽是外源肽。例如，可以从编码肽文库的多个序列表达待鉴定或表征的肽。

在本说明书公开之前，大多数对HLA肽组进行的LC-MS/MS研究使用表达多个HLA分子的细胞，这需要使用现有的生物信息学预测器将肽指定给多达6个I类等位基因中的1个或“解卷积”(Bassani-Sternberg和Gfeller，2016年)。因此，不能可信地将与已知基序不紧密匹配的肽报告为给定HLA等位基因的结合物。

本文提供了预测可以结合个体的HLA分子的肽如突变肽的方法。在一些实施方案中，本申请提供了从给定的一组包含抗原的肽中鉴定最合适的肽以供制备用于受试者的免疫原性组合物的方法，所述方法包括从给定的一组肽中选择能够结合受试者的HLA蛋白的多个肽，其中所述结合HLA蛋白的能力通过用已经用肽序列数据库训练的机器分析肽的序列来确定，该肽序列数据库对应于所述受试者的每个HLA等位基因的特定HLA结合肽。本文提供了从给定的一组包含抗原的肽中鉴定最合适的肽以供制备用于受试者的免疫原性组合物的方法，所述方法包括从给定的一组肽中选择被确定为能够结合受试者的HLA蛋白的多个肽，结合HLA蛋白的能力通过用已经用肽序列数据库训练的机器分析肽的序列来确定，该肽序列数据库是通过进行本文以上描述的方法而获得的。因此，在一些实施方案中，本公开提供了鉴定用于制备受试者特异性免疫原性组合物的多个受试者特异性肽的方法，其中该受试者具有肿瘤，并且所述受试者特异性肽对该受试者和该受试者的肿瘤是特异性的，所述方法包括：对受试者的肿瘤样品和受试者的非肿瘤样品进行测序；基于核酸测序确定：在受试者的癌细胞基因组中存在但在受试者的正常组织中不存在的非沉默突变，以及受试者的HLA基因型；以及从鉴定的非沉默突变中选择多个受试者特异性肽，每个肽具有不同的肿瘤表位，该肿瘤表位是对受试者的肿瘤特异的表位，并且每个肽被鉴定为能够结合受试者的HLA蛋白，如通过在本文所述的预测HLA结合的方法中分析源自非沉默突变的肽的序列所确定的。

在一些实施方案中，本文公开了一种表征对个体特异的HLA-肽复合物的方法。

在一些实施方案中，表征个体特异性HLA-肽复合物的方法用来在有需要的个体如患有状况或疾病的个体中开发免疫治疗剂。

本文提供了一种在哺乳动物中提供抗肿瘤免疫力的方法，其包括向该哺乳动物施用多核苷酸，该多核酸包含编码根据所述方法鉴定的肽的序列。本文提供了一种在哺乳动物中提供抗肿瘤免疫力的方法，其包括向该哺乳动物施用有效量的肽，该肽具有根据本文所述方法鉴定的肽的序列。本文提供了一种在哺乳动物中提供抗肿瘤免疫力的方法，其包括向该哺乳动物施用包含肽的细胞，该肽包含根据本文所述方法鉴定的肽的序列。本文提供了一种在哺乳动物中提供抗肿瘤免疫力的方法，其包括向该哺乳动物施用包含多核酸的细胞，该多核酸包含编码包含根据本文所述方法鉴定的肽序列的肽的序列。在一些实施方案中，该细胞将该肽以HLA-肽复合物的形式呈递。

本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用多核酸，该多核酸包含编码根据本文所述的方法鉴定的肽的序列。本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用有效量的肽，该肽包含根据本文所述的方法鉴定的肽的序列。本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用包含肽的细胞，该肽包含根据本文所述的方法鉴定的肽的序列。本文提供了一种治疗受试者的疾病或病症的方法，该方法包括向该受试者施用包含多核酸的细胞，该多核酸包含编码包含根据本文所述方法鉴定的肽序列的肽的序列。在一些实施方案中，其中所述疾病或病症是癌症。在一些实施方案中，该方法进一步包括向受试者施用免疫检查点抑制剂。

在一些实施方案中，本文公开了通过表征HLA-肽复合物为有需要的个体开发免疫治疗剂的方法，该方法包括：a)提供来源于有需要的个体的细胞群体，其中该细胞群体的一个或多个细胞包含多核酸，该多核酸包含编码亲和受体标记的I类或II类HLA等位基因的序列，其中编码亲和受体标记的HLA等位基因的序列包含：i)编码重组I类或II类HLA等位基因的序列，其可操作地连接至ii)编码亲和受体肽的序列；b)在所述细胞群体的一个或多个细胞中的至少一个细胞中表达亲和受体标记的HLA，从而在所述至少一个细胞中形成亲和受体标记的HLA-肽复合物；c)富集所述亲和受体标记的HLA-肽复合物；表征对有需要的个体特异的HLA-肽复合物；以及d)基于对有需要的个体特异的HLA-肽复合物开发免疫治疗剂；其中该个体患有疾病或状况。

在一些实施方案中，所述免疫治疗剂是核酸或肽治疗剂。

在一些实施方案中，所述方法包括将一种或多种肽引入细胞群体。在一些实施方案中，所述方法包括使所述细胞群体与所述一种或多种肽接触或在所述细胞群体中表达所述一种或多种肽。在一些实施方案中，所述引入包括使所述细胞群体与编码所述一种或多种肽的一种或多种核酸接触。

在一些实施方案中，所述方法包括引入对患者特异的一个或多个HLA。在一些实施方案中，所述方法包括引入对患者特异的所有HLA。在一些实施方案中，可以将患者特异性HLA作为单个等位基因引入。在一些实施方案中，可以引入多个患者特异性HLA。在一些实施方案中，所述方法包括基于结合患者特异性HLA鉴定的肽开发免疫治疗剂。在一些实施方案中，所述细胞群体来源于有需要的个体。

在一些实施方案中，所述方法包括在细胞群体中表达肽文库，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，所述方法包括使肽文库或编码肽的序列文库与细胞群体接触，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该文库包含与疾病或状况相关的肽的文库。在一些实施方案中，该疾病或状况是癌症或传染原的感染或自身免疫性疾病。在一些实施方案中，所述方法包括将传染原或其部分引入细胞群体中的一个或多个细胞中。在一些实施方案中，所述方法包括从对有需要的个体特异的HLA-肽复合物中表征一种或多种肽，任选地，其中所述肽来自传染原或自身免疫性疾病的一种或多种靶蛋白。在一些实施方案中，所述方法包括从传染原或自身免疫性疾病的一种或多种靶蛋白表征肽的一个或多个区域。在一些实施方案中，所述方法包括从衍生自传染原或自身免疫性疾病的HLA-肽复合物中鉴定肽。

在一些实施方案中，所述传染原是病原体。在一些实施方案中，该病原体是病毒、细菌或寄生虫。

在一些实施方案中，所述病毒选自：BK病毒(BKV)、登革病毒(DENV-1、DENV-2、DENV-3、DENV-4、DENV-5)、巨细胞病毒(CMV)、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、EB病毒(EBV)、腺病毒、人类免疫缺陷病毒(HIV)、人类T细胞淋巴营养性病毒(HTLV21)、流感病毒、RSV、HPV、狂犬病、腮腺炎风疹病毒、脊髓灰质炎病毒、黄热病、甲型肝炎、乙型肝炎、轮状病毒、水痘病毒、人乳头瘤病毒(HPV)、天花、带状疱疹及其组合。

在一些实施方案中，所述细菌选自：克雷伯氏菌属的种、惠普尔吸收障碍菌、麻风分枝杆菌、Mycobacterium lepromatosis和结核分枝杆菌。在一些实施方案中，所述细菌选自：伤寒、肺炎球菌、脑膜炎球菌、嗜血杆菌B、炭疽、破伤风类毒素、脑膜炎球菌B组、卡介苗(bcg)、霍乱及其组合。

在一些实施方案中，所述寄生虫是蠕虫或原生动物。在一些实施方案中，所述寄生虫选自：利什曼原虫属的种(例如，硕大利什曼原虫(L.major)、婴儿利什曼原虫(L.infantum)、巴西利什曼原虫(L.braziliensis)、杜氏利什曼原虫(L.donovani)、恰氏利什曼原虫(L.chagasi)、墨西哥利什曼原虫(L.mexicana))、疟原虫属的种(例如，恶性疟原虫(P.falciparum)、间日疟原虫(P.vivax)、卵形疟原虫(P.ovale)、三日疟原虫(P.malariae))、克氏锥虫、似蚓蛔线虫、鞭形鞭虫、美洲板口线虫和血吸虫属的种(曼森血吸虫(S.rmansoni)、埃及血吸虫(S.haematobium)、日本血吸虫(S.japonicum))。

在一些实施方案中，所述免疫治疗剂是工程化受体。在一些实施方案中，该工程化受体是嵌合抗原受体(CAR)、T细胞受体(TCR)或B细胞受体(BCR)、过继性T细胞治疗(ACT)或其衍生物。在其它方面，该工程化受体是嵌合抗原受体(CAR)。在一些方面，该CAR是第一代CAR。在其它方面，该CAR是第二代CAR。在另外其它方面，该CAR是第三代CAR。

在一些方面，所述CAR包含细胞外部分、跨膜部分和细胞内部分。在一些方面，该细胞内部分包含至少一个T细胞共刺激结构域。在一些方面，该T细胞共刺激结构域选自CD27、CD28、TNFRS9(4-1BB)、TNFRSF4(OX40)、TNFRSF8(CD30)、CD40LG(CD40L)、ICOS、ITGB2(LFA-1)、CD2、CD7、KLRC2(NKG2C)、TNFRS18(GITR)、TNFRSF14(HVEM)或其任何组合。

在一些方面，所述工程化受体结合靶标。在一些方面，该结合对于从表征对患有疾病或状况的个体特异的HLA-肽复合物的方法鉴定的肽是特异性的。

在一些方面，所述免疫治疗剂是如本文所详述的细胞。在一些方面，该免疫治疗剂是包含特异性结合从表征对患有疾病或状况的个体特异的HLA-肽复合物的方法鉴定的肽的受体的细胞。在一些方面，该免疫治疗剂是与本发明所述的肽/核酸联合使用的细胞。在一些实施方案中，该细胞是患者细胞。在一些实施方案中，该细胞是T细胞。在一些实施方案中，该细胞是肿瘤浸润淋巴细胞。

在一些方面，基于受试者的T细胞受体组库(repertoire)治疗患有状况或疾病的受试者。在一些实施方案中，基于受试者的T细胞受体组库选择抗原疫苗。在一些实施方案中，用表达对使用本文所述方法鉴定的抗原或肽具有特异性的TCR的T细胞治疗受试者。在一些实施方案中，用使用本文所述方法鉴定的对TCR(例如受试者特异性TCR)具有特异性的抗原或肽治疗受试者。在一些实施方案中，用使用本文所述方法鉴定的对表达TCR(例如，受试者特异性TCR)的T细胞具有特异性的抗原或肽治疗受试者。在一些实施方案中，用使用本文所述方法鉴定的对受试者特异性TCR具有特异性的抗原或肽治疗受试者。

在一些实施方案中，基于在受试者中鉴定的TCR选择免疫原性抗原组合物或疫苗。在一个实施方案中，使用T细胞组库的鉴定和在功能分析中的测试来确定待施用于患有状况或疾病的受试者的免疫原性组合物或疫苗。在一些实施方案中，该免疫原性组合物是抗原疫苗。在一些实施方案中，该抗原疫苗包含受试者特异性抗原肽。在一些实施方案中，基于与抗原结合的受试者特异性TCR的定量来选择待包含在抗原疫苗中的抗原肽。在一些实施方案中，基于肽与TCR的结合亲和力选择抗原肽。在一些实施方案中，该选择基于量和结合亲和力的组合。例如，在功能分析中与抗原强力结合但在TCR组库中没有高度代表性的TCR可能是抗原疫苗的良好候选者，因为表达TCR的T细胞将有利地扩增。

在一些实施方案中，基于与TCR的结合来选择供施用于受试者的抗原。在一些实施方案中，可以扩充T细胞，如来自患有疾病或状况的受试者的T细胞。经扩充的表达对使用本文所述方法鉴定的免疫原性抗原肽具有特异性的TCR的T细胞可以施用回受试者。在一些实施方案中，用多核苷酸转导或转染合适的细胞，例如，PBMC，以用于表达对使用本文所述方法鉴定的免疫原性抗原肽具有特异性的TCR，并将其施用于受试者。可以扩充表达对使用本文所述方法鉴定的免疫原性抗原肽具有特异性的TCR的T细胞并将其施用回受试者。在一些实施方案中，可以扩充在与自体病变组织一起孵育时产生细胞溶解活性且表达对使用本文所述方法鉴定的免疫原性抗原肽具有特异性的TCR的T细胞，并将其施用于受试者。在一些实施方案中，可以扩充在功能分析中使用的导致与使用本文所述方法鉴定的免疫原性抗原肽结合的T细胞，并将其施用于受试者。在一些实施方案中，可以在T细胞中表达已经确定与使用本文所述方法鉴定的受试者特异性免疫原性抗原肽结合的TCR并将其施用于受试者。

本文所述的方法可涉及对选定抗原如肿瘤或病原体相关抗原具有特异性的免疫系统细胞如T细胞的过继转移。可以采用各种策略，通过改变T细胞受体(TCR)的特异性，例如通过向新的TCRα和β链引入对使用本文所述方法鉴定的免疫原性抗原肽的特异性，来遗传修饰T细胞(参见，例如，美国专利8,697,854；PCT专利公开：WO2003020763、WO2004033685、WO2004044004、WO2005114215、WO2006000830、WO2008038002、WO2008039818、WO2004074322、WO2005113595、WO2006125962、WO2013166321、WO2013039889、WO2014018863、WO2014083173；美国专利8,088,379)。

可以使用嵌合抗原受体(CAR)生成对所选靶标具有特异性的免疫应答细胞，如T细胞，该靶标例如是使用本文所述的方法鉴定的免疫原性抗原肽，该细胞具有多种受体嵌合构建体(参见，例如，美国专利5,843,728；5,851,828；5,912,170；6,004,811；6,284,240；6,392,013；6,410,014；6,753,162；8,211,422；以及PCT公开W09215322)。可替代的CAR构建体可以被表征为属于连续的世代。第一代CAR通常由对抗原具有特异性的抗体的单链可变片段组成，例如，包含与特异性抗体的VH连接的VL，其通过柔性连接体，例如通过CD8a铰链结构域和CD8a跨膜结构域，连接至CD3ζ或FcRy或scFv-FcRy的跨膜和胞内信号传导域(参见，例如，美国专利7,741,465；美国专利5,912,172；美国专利5,906,936)。第二代CAR将一个或多个共刺激分子如CD28、OX40(CD134)或4-1BB(CD137)的胞内结构域并入内结构域内，例如scFv-CD28/OX40/4-lBB-CD3(参见，例如，美国专利8,911,993；8,916,381；8,975,071；9,101,584；9,102,760；9,102,761)。第三代CAR包括共刺激性内域的组合，如CD3C-链、CD97、GDI la-CD18、CD2、ICOS、CD27、CD154、CDS、OX40、4-1BB或CD28信号域，例如scFv-CD28-4-lBB-CD3C或scFv-CD28-OX40-CD3Q(参见，例如，美国专利8,906,682；美国专利8,399,645；美国专利5,686,281；PCT公开WO2014134165；PCT公开WO2012079000)。在一些实施方案中，可以通过在抗原特异性T细胞中表达CAR来协调共刺激，该细胞被选择为在例如与专职抗原呈递细胞上的抗原相互作用后被激活并扩充。可以在免疫应答性细胞上提供其它工程化受体，例如，以改善T细胞攻击的靶向和/或使副作用最小化。

可使用替代技术转化目标免疫应答性细胞，如原生质体融合、脂质转染、转染或电穿孔。可以使用各种各样的载体，如逆转录病毒载体、慢病毒载体、腺病毒载体、腺相关病毒载体、质粒或转座子，如睡美人(Sleeping Beauty)转座子(参见美国专利6,489,458；7,148,203；7,160,682；7,985,739；和5,243,337)，可用来引入CAR，例如使用通过CD3ζ和CD28或CD137的第二代抗原特异性CAR信号传导。例如，病毒载体可以包括基于HIV、SV40、EBV、HSV或BPV的载体。

例如，作为转化目标的细胞可以包括T细胞、自然杀伤(NK)细胞、细胞毒性T淋巴细胞(CTL)、调节性T细胞、人胚胎干细胞、肿瘤浸润淋巴细胞(TIL)或可以由其分化出淋巴样细胞的多能干细胞。表达期望的CAR的T细胞可以例如通过与γ-辐射的活化和繁殖细胞(APC)共培养来选择，所述细胞共表达癌症抗原和共刺激分子。例如可以通过在可溶性因子如IL-2和IL-21的存在下在APC上共培养来扩充工程化CAR T细胞。例如，可以进行这种扩充以提供记忆性CAR T细胞(例如，其通过非酶数字阵列和/或多组流式细胞术来测定)。以这种方式，可以提供对带有抗原的肿瘤具有特异性细胞毒活性的CAR T细胞(任选地与所需趋化因子如干扰素-γ的产生相结合)。这种CAR T细胞可以例如在动物模型中使用，例如威胁肿瘤异种移植物。

诸如前述的方法可以适合于提供治疗患有疾病如瘤形成或病原性感染的受试者和/或增加其生存期的方法，例如通过施用有效量的包含结合选定抗原的抗原识别受体的免疫应答性细胞，其中所述结合激活免疫应答性细胞，从而治疗或预防该疾病(如瘤形成、病原体感染、自身免疫性疾病或同种异体移植反应)。在CAR T细胞疗法中的给药可以例如包括以10⁶至10⁹个细胞/kg的剂量施用，进行或不进行淋巴消耗过程，例如使用环磷酰胺。

为了防止可能的不良反应，工程化免疫应答性细胞可以配备转基因安全开关，其形式为使细胞易于暴露于特定信号的转基因。例如，单纯疱疹病毒胸苷激酶(TK)基因可以以这种方式使用，例如通过在干细胞移植后引入作为供体淋巴细胞输注使用的同种异体T淋巴细胞中。在此类细胞中，施用诸如更昔洛韦或阿昔洛韦等核苷前药会导致细胞死亡。备选的安全开关构建体包括可诱导的胱天蛋白酶9，例如通过施用将两个无功能icasp9分子聚集在一起形成活性酶的小分子二聚体而触发。已经描述了用于实施细胞增殖控制的多种替代方法(参见，例如，美国专利公开20130071414；PCT专利公开WO2011146862；PCT专利公开WO2014011987；PCT专利公开WO2013040371)。在过继疗法的进一步改进中，可以使用基因组编辑使免疫应答性细胞适应替代实施方式，例如提供编辑的CAR T细胞。

细胞治疗方法还可以涉及T细胞的离体活化和扩充。在一些实施方案中，T细胞可以在施用于有需要的受试者之前被激活。这些类型的治疗的实例包括使用肿瘤浸润淋巴细胞(TIL)(参见美国专利5,126,132)、细胞毒性T细胞(参见美国专利6,255,073和美国专利5,846,827)、扩充的肿瘤引流淋巴结细胞(参见美国专利6,251,385)和各种其它淋巴细胞制品(参见美国专利6,194,207；美国专利5,443,983；美国专利6,040,177；和美国专利5,766,920)。

离体激活的T细胞群体可以处于最大程度地协调对癌症、感染性疾病或其它疾病状态例如自身免疫性疾病状态的免疫应答的状态。为了激活，可以将至少两个信号传递至T细胞。通常，第一个信号通常通过T细胞表面的T细胞受体(TCR)传递。TCR第一信号通常在TCR与抗原呈递细胞(APC)表面上与MHC复合物一起表达的肽抗原相互作用时触发。第二个信号通常通过T细胞表面的共刺激受体传递。共刺激受体通常由APC表面上表达的相应配体或细胞因子触发。

预期可以获得对使用本文所述方法鉴定的免疫原性抗原肽具有特异性的T细胞，并将其用于治疗或预防疾病的方法中。就此而言，本公开提供了一种治疗或预防受试者的疾病或状况的方法，其包括以有效治疗或预防受试者的疾病的量向该受试者施用包含对使用本文所述方法鉴定的免疫原性抗原肽具有特异性的细胞的细胞群体。在一些实施方案中，治疗或预防受试者的疾病的方法包括以有效治疗或预防哺乳动物的癌症的量向受试者施用富含疾病反应性T细胞的细胞群体。所述细胞可以是与所述受试者同种异体或自体的细胞。

本公开进一步提供了一种通过向受试者施用抗原肽或疫苗在受试者中诱导疾病特异性免疫应答、针对疾病进行疫苗接种、治疗和/或减轻疾病症状的方法。

本公开的肽或组合物可以以足以诱导CTL应答的量施用。抗原肽或疫苗组合物可以单独施用或与其它治疗剂联合施用。示例性治疗剂包括但不限于化学治疗剂或生物治疗剂、放射或免疫疗法。可以施用对特定疾病合适的任何治疗性治疗。化学治疗剂和生物治疗剂的实例包括但不限于阿地白介素、六甲蜜胺、氨磷汀、天冬酰胺酶、博来霉素、卡培他滨、卡铂、卡莫司汀、克拉屈滨、西沙必利、顺铂、环磷酰胺、阿糖胞苷、达卡巴嗪(DTIC)、更生霉素、多西他赛、多柔比星、屈大麻酚、红细胞生成素α、依托泊苷、非格司亭、氟达拉滨、氟尿嘧啶、吉西他滨、格拉司琼、羟基脲、伊达比星、异环磷酰胺、干扰素α、伊立替康、兰索拉唑、左旋咪唑、醛氢叶酸、甲地孕酮、美司钠、甲氨蝶呤、甲氧氯普胺、丝裂霉素、米托坦、米托蒽醌、奥美拉唑、昂丹司琼、紫杉醇

毛果芸香碱、丙氯拉嗪、利妥昔单抗、他莫昔芬、秦素、盐酸拓扑替康、曲妥珠单抗、长春碱、长春新碱和酒石酸长春瑞滨。另外，可以进一步向受试者施用抗免疫抑制剂或免疫刺激剂。例如，可以进一步向受试者施用抗CTLA抗体或抗PD-1或抗PD-L1。

将要包含在疫苗组合物中的每种肽的量和给药方案可以由本领域技术人员确定。例如，可以制备肽或其变化形式用于静脉内(i.v.)注射、皮下(s-c.)注射、皮内(i.d.)注射、腹膜内(i.p.)注射、肌肉内(i.m.)注射。肽注射的示例性方法包括s.c.、i.d.、i.p.、i.m.和i.v.。DNA注射的示例性方法包括i.d.、i.m.、s.c.、i.p.和i.v.。疫苗组合物的其它给药方法是本领域技术人员已知的。

可以调整药物组合物，使得该组合物中存在的肽的选择、数目和/或量是疾病和/或患者特异性的。例如，可以由亲本蛋白质在给定组织中的表达模式指导肽的确切选择，以避免副作用。该选择可以取决于疾病的具体类型、疾病的状态、早先的治疗方案、患者的免疫状态以及患者的HLA单元型。此外，根据特定患者的个人需求，本公开的疫苗可以含有个性化的组分。实例包括根据特定患者中相关抗原的表达、由于个人变态反应或其它治疗导致的不良副作用以及在第一轮治疗或治疗方案后对二次治疗的调整来改变肽的量。

疾病特异性抗原的产生

本公开至少部分地基于向患者的免疫系统呈递一种或多种疾病特异性抗原的能力。本领域技术人员从本公开内容和本领域的知识将会理解，存在多种产生这类疾病特异性抗原的方式。通常，这类疾病特异性抗原可以在体外或体内产生。疾病特异性抗原可以在体外作为肽或多肽产生，随后可以将其配制成疫苗或免疫原性组合物并施用于受试者。如本文进一步详细描述的，这样的体外生产可以通过本领域技术人员已知的多种方法进行，例如肽合成或在多种细菌、真核或病毒重组表达系统中的任一种中从DNA或RNA分子表达肽/多肽，然后纯化所表达的肽/多肽。或者，可以通过将编码疾病特异性抗原的分子(例如，DNA、RNA、病毒表达系统等)引入受试者中，由此表达所编码的疾病特异性抗原，从而在体内产生疾病特异性抗原。本文还进一步描述了在体外和体内产生抗原的方法，因为其涉及药物组合物和治疗的递送方法。

在一些实施方案中，本公开包括修饰的抗原肽。修饰可以包括不改变抗原肽本身的一级氨基酸序列的共价化学修饰。修饰可以产生具有期望的性质(例如，延长体内半衰期、增加稳定性、降低清除率、改变免疫原性或变应原性、能够产生特定抗体、细胞靶向、抗原摄取、抗原加工、MHC亲和力、MHC稳定性或抗原呈递)的肽。可以进行的抗原肽的改变包括但不限于与载体蛋白偶联、与配体偶联、与抗体偶联、PEG化、聚唾液酸化、HES化、重组PEG模拟物、Fc融合、白蛋白融合、纳米颗粒附着、纳米颗粒包封、胆固醇融合、铁融合、酰化、酰胺化、糖基化、侧链氧化、磷酸化、生物素化、添加表面活性物质、添加氨基酸模拟物或添加非天然氨基酸。

可以通过各种修饰来克服与短血浆半衰期或对蛋白酶降解的易感性相关的问题，包括将多肽序列与多种非蛋白质聚合物(例如聚乙二醇(PEG)、聚丙二醇或聚氧化烯)中的任何一种进行偶联或连接(参见，例如，通常经由与蛋白质和非蛋白质聚合物例如PEG共价结合的连接部分)。这类PEG偶联的生物分子已经显示出具有临床上有用的性质，包括更好的物理和热稳定性、防止对酶促降解的易感性、增加的溶解性、更长的体内循环半衰期和降低的清除率、降低的免疫原性和抗原性以及降低的毒性。

适合与多肽序列偶联的PEG通常在室温下可溶于水，并且具有通式R(O-CH₂-CH₂)nO-R，其中R为氢或保护基团如烷基或烷醇基团，并且其中n为1至1000的整数。当R为保护基团时，其通常具有1至8个碳。与多肽序列偶联的PEG可以是直链的或支链的。本公开设想了支链PEG衍生物、“星形-PEG”及多臂PEG。

本公开还设想了偶联物的组合物，其中PEG具有不同的n值，因此各种不同的PEG以一定比例存在。例如，一些组合物包含偶联物的混合物，其中n＝1、2、3和4。在一些组合物中，n＝1的偶联物的百分比为18％-25％，n＝2的偶联物的百分比为50％-66％，n＝3的偶联物的百分比为12％-16％，n＝4的偶联物的百分比高达5％。这类组合物可以通过本领域已知的反应条件和纯化方法产生。例如，可以使用阳离子交换色谱法分离偶联物，然后鉴定含有附接有例如所需数目的PEG的级分，纯化为不含未修饰的蛋白质序列且不含附接有其它数目的PEG的偶联物。

PEG可以经由末端反应性基团(“间隔体”)与本公开的多肽结合。间隔体是，例如，介导一种或多种多肽序列的游离氨基或羧基与聚乙二醇之间的键的末端反应性基团。具有可与游离氨基结合的间隔体的PEG包括可通过用N-羟基琥珀酰亚胺活化聚乙二醇的琥珀酸酯而制备的N-羟基琥珀酰亚胺聚乙二醇。可以与游离氨基结合的另一种活化的聚乙二醇是可以通过使聚乙二醇单甲醚与氰尿酰氯反应而制备的2，4-双(O-甲氧基聚乙二醇)-6-氯-s-三嗪。与游离羧基结合的活化的聚乙二醇包括聚氧乙烯二胺。

本公开的一种或多种多肽序列与具有间隔体的PEG的偶联可以通过各种常规方法进行。例如，该偶联反应可以在pH为5至10的溶液中、在4℃至室温的温度下、利用4∶1至30∶1的试剂与蛋白质的摩尔比进行30分钟至20小时。可以选择反应条件以引导反应主要产生所需的置换度。通常，低温、低pH(例如，pH＝5)和短反应时间往往减少附接的PEG的数目，而高温、中性至高pH(例如，pH＞7)和更长的反应时间往往增加附接的PEG的数目。可以使用本领域已知的各种方法终止反应。在一些实施方案中，通过酸化反应混合物并在例如-20℃下冷冻来终止反应。

本公开还设想了使用PEG模拟物。已经开发了保留PEG的属性(例如，延长的血清半衰期)同时赋予几种额外的优势性质的重组PEG模拟物。举例来说，能够形成类似于PEG的延伸构象的简单多肽链(包括例如Ala、Glu、Gly、Pro、Ser和Thr)可以重组产生且已经融合成目的肽或蛋白质药物(例如，Amunix的XTEN技术；Mountain View，CA)。这消除了对制备过程中其它偶联步骤的需要。此外，已建立的分子生物学技术能够控制多肽链的侧链组成，从而优化免疫原性和制备性质。

糖基化可以影响蛋白质的物理性质，并且在蛋白质稳定性、分泌和亚细胞定位中也至关重要。适当的糖基化对于生物活性可能是重要的。事实上，来自真核生物的一些基因，当在缺乏对蛋白质进行糖基化的细胞过程的细菌(例如，大肠杆菌)中表达时，回收到由于缺乏糖基化而没有或几乎没有活性的蛋白质。可以通过改变氨基酸序列来实现糖基化位点的添加。多肽的改变可以例如通过添加或置换一个或多个丝氨酸或苏氨酸残基(用于O-连接的糖基化位点)或天冬酰胺残基(用于N-连接的糖基化位点)来进行。在每种类型中发现的N-连接及O-连接的寡糖和糖残基的结构可以是不同的。通常在两者上均发现的一种类型的糖是N-乙酰神经氨酸(下文称为唾液酸)。唾液酸通常是N-连接和O-连接的寡糖的末端残基，并且由于其负电荷，可赋予糖蛋白酸性。本公开的实施方案包括N-糖基化变体的生成和使用。

本公开的多肽序列可任选地通过DNA水平的改变而改变，特别是通过在预选的碱基处突变编码多肽的DNA，从而生成将转化为所需氨基酸的密码子。增加多肽上碳水化合物部分的数目的另一种方法是通过糖苷与多肽的化学或酶促偶联。可以通过化学或酶促方式或通过置换编码糖基化的氨基酸残基的密码子来完成碳水化合物的去除。化学去糖基化技术是已知的，并且可以通过使用各种内切糖苷酶及外切糖苷酶来实现多肽上碳水化合物部分的酶促切割。

用于偶联的其它合适的组分和分子包括，例如，用于靶向淋巴系统的分子，甲状腺球蛋白；诸如人血清白蛋白(HAS)的白蛋白；破伤风类毒素；白喉类毒素；诸如聚(D-赖氨酸：D-谷氨酸)的聚氨基酸；轮状病毒的VP6多肽；流感病毒血凝素，流感病毒核蛋白；匙孔

血蓝蛋白(KLH)；以及B型肝炎病毒核心蛋白和表面抗原；或者前述的任何组合。

白蛋白与本公开的一种或多种多肽的融合可以例如通过遗传操作实现，以使得编码HSA的DNA或其片段与编码一种或多种多肽序列的DNA连接。之后，可以用例如合适的质粒形式的融合核苷酸序列转化或转染合适的宿主，以便表达融合多肽。表达可以在体外从例如原核或真核细胞实现，或在体内从例如转基因生物体实现。在本公开的一些实施方案中，融合蛋白的表达在哺乳动物细胞系例如CHO细胞系中进行。转化在本文中广泛用于指由外源遗传物质(外源DNA)从其周围环境直接摄取、掺入和表达并通过细胞膜吸收而导致的细胞遗传改变。转化在某些细菌物种中天然存在，但也可以在其它细胞中通过人工方式实现。此外，可以修饰白蛋白本身以延长其循环半衰期。通过上述遗传操作技术或通过化学偶联可以实现修饰的白蛋白与一种或多种多肽的融合；得到的融合分子具有超过未修饰白蛋白的融合物的半衰期。(参见WO2011/051489)。已经开发了几种白蛋白结合策略作为直接融合的替代，包括通过偶联的脂肪酸链结合白蛋白(酰化)。由于血清白蛋白是脂肪酸的转运蛋白，这些具有白蛋白结合活性的天然配体已被用于小蛋白质治疗的半衰期延长。例如，一种被批准用于糖尿病的产品，地特胰岛素(LEVEMIR)，包含与遗传修饰的胰岛素偶联的肉豆蔻基链，得到长效胰岛素类似物。

另一种类型的修饰是在多肽序列的N-和/或C-末端偶联(例如，连接)一个或多个其它的组分或分子，诸如另一种蛋白质(例如，具有与主题蛋白质异源的氨基酸序列的蛋白质)或载体分子。因此，示例性多肽序列可以作为与另一种组分或分子的偶联物提供。

偶联物修饰可以导致多肽序列保留具有第二分子的其它或互补功能或活性的活性。例如，多肽序列可以与分子偶联，例如，以提高溶解性、促进储存、增加体内或存储半衰期或稳定性、降低免疫原性、体内延迟或控制释放等。其它功能或活性包括：相对于未偶联的多肽序列降低毒性的偶联物、比未偶联的多肽序列更有效地靶向一类细胞或器官的偶联物或还抵抗与本文所述的病症或疾病(例如，糖尿病)相关的原因或作用的药物。

多肽也可以偶联至大的、代谢缓慢的大分子，如蛋白质；多糖，如琼脂糖凝胶、琼脂糖、纤维素、纤维素珠；聚氨基酸，如聚谷氨酸、聚赖氨酸；氨基酸共聚物；灭活的病毒颗粒；灭活的细菌毒素，如来自白喉、破伤风、霍乱、白细胞毒素分子的类毒素；灭活的细菌；和树突细胞。

用于偶联的其它候选组分和分子包括适用于分离或纯化的那些。具体的非限制性实例包括结合分子，如生物素(生物素-亲和素特异性结合对)、抗体、受体、配体、凝集素或包含固体支持物的分子，包括例如塑料或聚苯乙烯珠子、板或珠子、磁珠、测试条和膜。诸如阳离子交换色谱法的纯化方法可以用于通过电荷差异分离偶联物，其有效地将偶联物分离成各种分子量。通过阳离子交换色谱法获得的级分的含量可以使用常规方法通过分子量来鉴定，例如，质谱法、SDS-PAGE或用于通过分子量分离分子实体的其它已知方法。

在一些实施方案中，本公开的多肽序列的氨基或羧基末端可以与免疫球蛋白Fc区(例如，人Fc)融合以形成融合偶联物(或融合分子)。已示出Fc融合偶联物增加生物药物的系统半衰期，因此生物制药产品可能需要较低频率的施用。

Fc结合内衬于血管的内皮细胞中的新生Fc受体(FcRn)，并且在结合后，保护Fc融合分子免于降解并重新释放到循环中，使分子在循环中保持更长时间。这种Fc结合被认为是内源IgG保持其长血浆半衰期的机制。与传统的Fc-融合偶联物相比，最近的Fc-融合技术将生物药物的单拷贝与抗体的Fc区连接，以优化生物药物的药代动力学和药效学性质。

本公开设想使用多肽的当前已知或未来开发的其它修饰来改善一种或多种性质。这种延长循环半衰期、增加稳定性、降低清除率或改变本公开的多肽的免疫原性或变应原性的方法包括通过羟乙基淀粉化(hesylation)修饰多肽序列，其利用与其它分子连接的羟乙基淀粉衍生物来修饰分子的特性。在例如申请号为2007/0134197及2006/0258607的美国专利申请中描述了羟乙基淀粉化的各个方面。

体外肽/多肽合成

蛋白质或肽可以通过本领域技术人员已知的任何技术制备，包括通过标准分子生物学技术表达蛋白质、多肽或肽、从天然来源分离蛋白质或肽、体外翻译或化学合成蛋白质或肽。

肽可以使用不含污染细菌或动物物质的试剂轻松化学合成(Merrifield RB：Solid phase peptide synthesis.I.The synthesis of atetrapeptide.J.Am.Chem.Soc.85：2149-54，1963)。在一些实施方案中，通过以下步骤制备抗原肽：(1)使用均匀合成和切割条件在多通道仪器上平行固相合成；(2)用RP-HPLC柱纯化，柱洗出；以及在多肽之间重新洗涤，但不替代；然后(3)使用有限的一组最具信息性的试验进行分析。良好生产规范(GMP)足迹可以针对个体患者的一组肽来定义，因此仅在针对不同患者的肽的合成之间需要适当的转换程序。

或者，编码本公开的抗原肽的核酸(例如，多核苷酸)可以用来在体外产生抗原肽。该多核苷酸可以是例如DNA、cDNA、PNA、CNA、RNA、单链和/或双链的或天然或稳定形式的多核苷酸，例如具有硫代磷酸骨架的多核苷酸，或其组合，并且只要它编码肽，它可以含有内含子。在一个实施方案中，利用体外翻译来产生肽。存在本领域技术人员可以利用的许多示例性系统(例如，Retic Lysate IVT Kit，Life Technologies，Waltham，MA)。还可以制备能够表达多肽的表达载体。用于不同细胞类型的表达载体是本领域已知的，并且可以在无需过多试验的情况下进行选择。通常，将DNA以适当的方向及正确的阅读框插入表达载体如质粒中。如有必要，DNA可以连接至被期望的宿主(例如细菌)识别的适当的转录和翻译调节控制核苷酸序列，尽管这样的控制通常可在表达载体中获得。然后使用标准技术将载体引入至宿主细菌中以供克隆(参见，例如，Sambrook等人(1989)Molecular Cloning，ALaboratory Manual，Cold Spring Harbor Laboratory，Cold Spring Harbor，N.Y.)。

还设想了包含分离的多核苷酸的表达载体以及含有该表达载体的宿主细胞。抗原肽可以以编码所需抗原肽的RNA或cDNA分子的形式提供。本公开的一种或多种抗原肽可以由单个表达载体编码。

在一些实施方案中，多核苷酸可以包含疾病特异性抗原肽的编码序列，该编码序列在相同阅读框中融合至有助于例如从宿主细胞表达和/或分泌多肽的多核苷酸(例如，起到控制多肽从细胞转运的分泌序列的作用的前导序列)。具有前导序列的多肽是前蛋白，并且可以具有被宿主细胞切割以形成多肽的成熟形式的前导序列。

在一些实施方案中，多核苷酸可以包含疾病特异性抗原肽的编码序列，该编码序列在相同的阅读框中融合至允许例如纯化编码的多肽的标记序列，然后可以将其并入个性化的疾病疫苗或免疫原性组合物中。例如，在细菌宿主的情况下，该标记序列可以是由pQE-9载体提供的六组氨酸标签，以提供与标志物融合的成熟多肽的纯化，或者当使用哺乳动物宿主(例如，COS-7细胞)时，该标记序列可以是来源于流感血凝素蛋白的血凝素(HA)标签。其它标签包括但不限于钙调蛋白标签、FLAG标签、Mvc标签、S标签、SBP标签、Softag 1、Softag 3、V5标签、Xpress标签、Isopeptag、SpyTag、生物素羧基载体蛋白(BCCP)标签、GST标签、荧光蛋白标签(例如，绿色荧光蛋白标签)、麦芽糖结合蛋白标签、Nus标签、Strep-标签、硫氧还蛋白标签、TC标签、Ty标签等。

在一些实施方案中，多核苷酸可以包含在相同阅读框中融合的一种或多种疾病特异性抗原肽的编码序列，以创建能够产生多种抗原肽的单个多抗原肽构建体。

在一些实施方案中，可以提供具有与编码本公开的疾病特异性抗原肽的多核苷酸至少60％相同、至少65％相同、至少70％相同、至少75％相同、至少80％相同、至少85％相同、90％相同、至少95％相同或至少96％、97％、98％或99％相同的核苷酸序列的分离的核苷酸分子。

本文所述的分离的疾病特异性抗原肽可以通过本领域已知的任何合适的方法在体外(例如，在实验室中)产生。这类方法的范围从直接蛋白质合成方法到构建编码分离的多肽序列的DNA序列并在合适的转化宿主中表达这些序列。在一些实施方案中，使用重组技术通过分离或合成编码目的野生型蛋白质的DNA序列来构建DNA序列。任选地，可以通过位点特异性诱变来诱变序列以提供其功能类似物。参见，例如，Zoeller等人，Proc.Nat’l.Acad.Sci.USA 81：5662-5066(1984)和美国专利4,588,585。

在一些实施方案中，使用寡核苷酸合成仪通过化学合成构建编码目的多肽的DNA序列。可以基于所需多肽的氨基酸序列设计这样的寡核苷酸，并选择在产生目的重组多肽的宿主细胞中有利的那些密码子。可以应用标准方法合成编码分离的目的多肽的分离的多核苷酸序列。例如，完整的氨基酸序列可以用于构建反向翻译的基因。此外，可以合成含有编码特定分离多肽的核苷酸序列的DNA寡聚体。例如，可以合成编码所需多肽的部分的几种小寡核苷酸然后将其连接。单个寡核苷酸通常含有用于互补装配的5′或3′突出端。

一旦装配(例如，通过合成、位点诱变或另一种方法)，将编码特定分离的目的多肽的多核苷酸序列插入表达载体中，并任选地将其可操作地连接至适合于在所需宿主中表达蛋白质的表达控制序列。可以通过核苷酸测序、限制酶切作图和生物活性多肽在合适宿主中的表达来证实正确的装配。如本领域已知的，为了在宿主中获得转染基因的高表达水平，该基因可以可操作地连接至在所选表达宿主中起作用的转录和翻译表达控制序列。

重组表达载体可以用来扩增并表达编码疾病特异性抗原肽的DNA。重组表达载体是可复制的DNA构建体，其具有编码疾病特异性抗原肽或生物等效类似物的合成的或cDNA衍生的DNA片段，该DNA片段可操作地连接至来源于哺乳动物、微生物、病毒或昆虫基因的合适的转录或翻译调节控制元件。如本文所详述的，转录单元通常包含以下元件的装配体：(1)遗传元件或在基因表达中具有调节作用的元件，例如，转录启动子或增强子，(2)转录成mRNA并翻译成蛋白质的结构序列或编码序列，以及(3)适当的转录和翻译起始和终止序列。这类调节元件可以包括控制转录的操纵基因序列。可以另外并入通常由复制起点赋予的、在宿主中复制的能力，以及促进转化体识别的选择基因。当DNA区域在功能上彼此相关时，它们可操作地连接。例如，如果信号肽(分泌前导序列)的DNA被表达为参与多肽分泌的前体，则其可操作地连接至该多肽的DNA；如果启动子控制序列的转录，则启动子可操作地连接至编码序列；或者如果核糖体结合位点被定位以允许翻译，则其可操作地连接至编码序列。通常，可操作地连接意味着是连续的，并且在分泌前导序列的情况下，意味着连续且在阅读框中。打算用于酵母表达系统的结构元件包括能够使宿主细胞在细胞外分泌所翻译的蛋白质的前导序列。或者，当重组蛋白在没有前导或转运序列的情况下表达时，其可以包括N-末端甲硫氨酸残基。随后可任选地从表达的重组蛋白上切下该残基以提供最终产物。

用于真核宿主，尤其是哺乳动物或人的有用的表达载体包括，例如，包含来自SV40、牛乳头瘤病毒、腺病毒和巨细胞病毒的表达控制序列的载体。用于细菌宿主的有用的表达载体包括已知的细菌质粒，诸如来自大肠杆菌的质粒(包括pCR 1、pBR322、pMB9及其衍生物)、更宽的宿主范围的质粒，如M13和丝状单链DNA噬菌体。

用于表达多肽的合适的宿主细胞包括在适当启动子控制下的原核生物、酵母、昆虫或高等真核细胞。原核生物包括革兰氏阴性或革兰氏阳性生物体，例如大肠杆菌或杆菌。高等真核细胞包括哺乳动物来源的已建立的细胞系。也可以使用无细胞翻译系统。适用于细菌、真菌、酵母和哺乳动物细胞宿主的克隆和表达载体是本领域已知的(参见Pouwels等人，Cloning Vectors：A Laboratory Manual，Elsevier，N.Y.，1985)。

也有利地采用各种哺乳动物或昆虫细胞培养系统来表达重组蛋白。可以进行重组蛋白在哺乳动物细胞中的表达，因为这类蛋白质通常被正确折叠、适当修饰并且完全是功能性的。合适的哺乳动物宿主细胞系的实例包括由Gluzman(Cell 23：175，1981)描述的猴肾细胞的COS-7系，以及能够表达适当载体的其它细胞系，包括，例如，L细胞、C127、3T3、中国仓鼠卵巢(CHO)、293、HeLa和BHK细胞系。哺乳动物表达载体可包含非转录元件，如复制起点，与待表达基因连接的合适的启动子和增强子，以及5’或3’侧翼非翻译序列，如必需的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点以及转录终止序列。Luckow和Summers，Bio/Technology 6：47(1988)综述了用于在昆虫细胞中产生异源蛋白质的杆状病毒系统。

可以根据任何合适的方法纯化由转化宿主产生的蛋白质。这类标准方法包括色谱法(例如，离子交换、亲和和大小分级柱色谱法等)，离心、差异溶解性或用于蛋白质纯化的任何其它标准技术。诸如六组氨酸、麦芽糖结合域、流感病毒外壳序列、谷胱甘肽-S-转移酶等亲和标签可以附接至该蛋白质上，以允许通过合适的亲和柱轻松纯化。还可以使用诸如蛋白水解、核磁共振和x射线晶体学等技术来物理表征分离的蛋白质。例如，可以首先使用市售的蛋白质浓缩过滤器，例如Amicon或Millipore Pellicon超滤单元，浓缩来自将重组蛋白分泌到培养基中的系统的上清液。在浓缩步骤之后，可以将浓缩物施加至合适的纯化基质上。或者，可以使用阴离子交换树脂，例如具有悬垂二乙基氨基乙基(DEAE)基团的基质或基底。该基质可以是丙烯酰胺、琼脂糖、葡聚糖、纤维素或蛋白质纯化中常用的其它类型。或者，可以使用阳离子交换步骤。合适的阳离子交换剂包括各种包含磺丙基或羧甲基的不溶性基质。最后，可以使用一个或多个采用疏水性RP-HPLC介质例如具有悬垂甲基或其它脂族基团的硅胶的反相高效液相色谱(RP-HPLC)步骤进一步纯化癌症干细胞蛋白-Fc组合物。也可以使用各种组合的一些或所有前述纯化步骤来提供均质的重组蛋白。

可以分离在细菌培养物中产生的重组蛋白，例如，通过从细胞团中初步提取，随后进行一次或多次浓缩、盐析、水性离子交换或大小排阻色谱步骤。可使用高效液相色谱法(HPLC)进行最终纯化步骤。在表达重组蛋白中使用的微生物细胞可以通过任何方便的方法破坏，包括冷冻-融化循环、超声波处理、机械破碎或使用细胞裂解剂。

体内肽/多肽合成

本公开还设想使用核酸分子作为媒介物，以供在体内以例如DNA/RNA疫苗的形式将抗原肽/多肽递送至有需要的受试者(参见，例如，WO2012/159643和WO2012/159754，其全部内容通过引用并入本文。

在一些实施方案中，可以通过使用质粒将抗原施用于有需要的患者。这些质粒通常包含强病毒启动子，以驱动目的基因(或互补DNA)的体内转录和翻译(Mor等人(1995).The Journal of Immunology 155(4)：2039-2046)。有时可包括内含子A以改善mRNA稳定性并因此增加蛋白质表达(Leitner等人(1997).The Journal of Immunology 159(12)：6112-6119)。质粒还包含强聚腺苷酸化/转录终止信号，如牛生长激素或兔β-球蛋白聚腺苷酸化序列(Alarcon等人(1999).Adv.Parasitol.Advances in Parasitology 42：343-410；Robinson等人(2000).Adv.Virus Res.Advances in Virus Research 55：1-74；

等人(1996).Journal of Immunological Methods 193(1)：29-40)。有时构建多顺反子载体以表达超过一种免疫原或表达免疫原和免疫刺激蛋白(Lewis等人(1999).Advances inVirus Research(Academic Press)54：129-88)。

可以通过许多不同的方法将质粒引入动物组织中。两种最常用的方法是使用标准皮下注射针在盐水中注射DNA以及基因枪递送。在Scientific American(Weiner等人(1999)Scientific American 281(1)：34-41)中说明了DNA疫苗质粒构建及其随后通过这两种方法递送到宿主中的示意性概述。盐水中的注射通常在骨骼肌中肌肉内(IM)或皮内(ID)进行，或将DNA递送至细胞外空间。这可以由电穿孔通过肌肉毒素如布比卡因暂时损伤肌肉纤维来辅助；或者通过使用盐水或蔗糖的高渗溶液来辅助(Alarcon等人(1999).Adv.Parasitol.Advances in Parasitology 42：343-410)。对这种递送方法的免疫应答可能受许多因素的影响，包括针类型、针排列、注射速度、注射量、肌肉类型以及所注射动物的年龄、性别和生理状况(Alarcon等人(1999).Adv.Parasitol.Advances inParasitology 42：343-410)。

另一种常用的递送方法——基因枪递送，使用压缩氦气作为促进剂，以弹道学方式加速已经吸附到金或钨微粒上的质粒DNA(pDNA)进入靶细胞(Alarcon等人(1999).Adv.Parasitol.Advances in Parasitology 42：343-410；Lewis等人(1999).Advancesin Virus Research(Academic Press)54：129-88)。

替代的递送方法可包括在粘膜表面如鼻粘膜和肺粘膜上气雾剂滴注裸DNA(Lewis等人(1999).Advances in Virus Research (Academic Press)54：129-88)以及将pDNA局部施用到眼睛粘膜和阴道粘膜(Lewis等人(1999)Advances in Virus Research(AcademicPress)54：129-88)。使用阳离子脂质体-DNA制剂、可生物降解的微球、用于口服施用至肠粘膜的减毒志贺氏杆菌或李斯特杆菌载体以及重组腺病毒载体也已实现了粘膜表面递送。在轻微机械破坏细胞膜，暂时使细胞透化后，DNA或RNA也可以被递送至细胞。膜的这种温和的机械破坏可以通过轻微地迫使细胞通过小孔来完成(Ex Vivo Cytosolic Delivery ofFunctional Macromolecules to Immune Cells，Sharei等人，PLOS ONE|DOI：10.1371/journal.pone.0118803，2015年4月13日)。

在一些实施方案中，疾病特异性疫苗或免疫原性组合物可包括编码例如根据本公开鉴定的一种或多种抗原肽/多肽的单独的DNA质粒。如本文所讨论的，表达载体的确切选择可取决于待表达的肽/多肽，并且完全在普通技术人员的技能范围内。DNA构建体(例如，在肌细胞中以附加型、非复制型、非整合型)的预期持久性预计提供延长的保护持续时间。

可以使用基于病毒的系统(例如，腺病毒系统、腺相关病毒(AAV)载体、痘病毒或慢病毒)在体内编码和表达本公开的一种或多种抗原肽。在一个实施方案中，疾病疫苗或免疫原性组合物可包括用于有需要的人患者的基于病毒的载体，例如腺病毒(参见，例如，Baden等人.First-in-human evaluation of the safety and immunogenicity of arecombinant adenovirus serotype 26HIV-1Env vaccine(IPCAVD 001).J InfectDis.2013年1月15日；207(2)：240-7，在此全文引入作为参考)。先前已经描述了可用于腺相关病毒、腺病毒和慢病毒递送的质粒(参见例如，美国专利6,955,808和6,943,019以及申请号为20080254008的美国专利申请，其引入人为参考)。

本公开的肽和多肽还可以被载体表达，该载体例如是如本文所讨论的核酸分子，例如RNA或DNA质粒，病毒载体，如痘病毒，例如，正痘病毒、禽痘病毒，或腺病毒、AAV或慢病毒。该方法涉及使用载体表达编码本公开的肽的核苷酸序列。在引入急性或慢性感染的宿主或未感染的宿主中后，该载体表达免疫原性肽，从而引发宿主CTL应答。

在可以在本公开的实践中使用的载体中，利用逆转录病毒基因转移方法可以在细胞的宿主基因组中整合，通常导致所插入的转基因的长期表达。在一些实施方案中，该逆转录病毒是慢病毒。另外，已经在许多不同的细胞类型和靶组织中观察到高转导效率。逆转录病毒的向性可以通过并入外来包膜蛋白、扩充靶细胞的潜在目标群体来改变。逆转录病毒也可以被工程改造以允许所插入的转基因的条件表达，使得仅有某些细胞类型被慢病毒感染。细胞类型特异性启动子可用来靶向在特定细胞类型中的表达。慢病毒载体是逆转录病毒载体(因此慢病毒和逆转录病毒载体均可以在本公开的实践中使用)。此外，慢病毒载体能够转导或感染非分裂细胞并且通常产生高病毒滴度。因此，逆转录病毒基因转移系统的选择可取决于靶组织。逆转录病毒载体由顺式作用长末端重复序列组成，其包装能力可达6-10kb的外来序列。最小顺式作用LTR足以复制和包装载体，然后用其将所需核酸整合到靶细胞中以提供永久表达。可以在本公开的实践中使用的广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的载体(参见，例如，Buchscher等人(1992)J.Virol.66：2731-2739；Johann等人(1992)J.Virol.66：1635-1640；Sommnerfelt等人(1990)Virol.176：58-59；Wilson等人(1998)J.Virol.63：2374-2378；Miller等人(1991)J.Virol.65：2220-2224；PCT/US94/05700)。

另外，在本公开的实践中有用的是最小的非灵长类动物慢病毒载体，如基于马传染性贫血病毒(EIAV)的慢病毒载体(参见，例如，Balagaan，(2006)J Gene Med；8：275-285，于2005年11月21日在线发表于Wiley InterScience DOI：10.1002/jgm.845)。所述载体可以具有驱动靶基因表达的巨细胞病毒(CMV)启动子。因此，本公开涉及可用于实施本公开内容的一种或多种载体：病毒载体，包括逆转录病毒载体和慢病毒载体。

慢病毒载体已在帕金森病的治疗中公开，参见，例如，美国专利公开20120295960和美国专利7303910和7351585。慢病毒载体也已公开用于递送至脑，参见，例如，美国专利公开US20110293571、US20040013648、US20070025970、US20090111106和美国专利US7259015。在另一个实施方案中，慢病毒载体用来将载体递送至正被治疗疾病的那些人的大脑。关于可用于实施本公开内容的慢病毒载体系统，可提及美国专利6428953、6165572、6013516、5994136、6312682和7,198,784以及其中引用的文件。在本文的一个实施方案中，该递送是经由慢病毒进行的。Zou等人通过鞘内导管施用了约10μL滴度为1 x 10⁹转导单位(TU)/ml的重组慢病毒。这些剂量水平可以调整或外推至本公开中逆转录病毒或慢病毒载体的使用。对于在诸如脑的组织中的转导，必须使用非常小的体积，因此通过超速离心浓缩病毒制剂。可以使用其它浓缩方法，如超滤或与基质结合和从基质上洗脱。在其它实施方案中，施用的慢病毒的量可以是1x10⁵或约1x10⁵噬斑形成单位(PFU)、5x10⁵或约5x10⁵PFU、1x10⁶或约1x10⁶PFU、5x10⁶或约5x10⁶PFU、1x10⁷或约1x10⁷PFU、5x10⁷或约5x10⁷PFU、1x10⁸或约1x10⁸PFU、5x10⁸或约5x10⁸PFU、1x10⁹或约1x10⁹PFU、5x10⁹或约5x10⁹PFU、1x10¹⁰或约1x10¹⁰PFU或5x10¹⁰或约5x10¹⁰PFU，其作为75kg普通人的总单剂量或根据受试者的体重和大小及物种进行调整。本领域技术人员可以确定合适的剂量。可以凭经验确定病毒的合适剂量。

腺病毒载体也可用于本公开的实践中。一个优点是重组腺病毒在各种哺乳动物细胞和组织中在体内或者体外有效转移和表达重组基因的能力，导致所转移的核酸的高表达。此外，有效感染静息细胞的能力扩展了重组腺病毒载体的实用性。此外，高表达水平确保该核酸的产物将表达至足以生成免疫应答的水平(参见，例如，美国专利7,029,848，其引入作为参考)。关于可用于实施本公开内容的腺病毒载体，可提及美国专利6,955,808。使用的腺病毒载体可选自Ad5、Ad35、Ad11、C6和C7载体。已公布了腺病毒5(“Ad5”)基因组的序列。(Chroboczek，J.，Bieber，F.和Jacrot，B.(1992)The Sequence of the Genome ofAdenovirus Type 5and Its Comparison with the Genome of Adenovirus Type 2，Virology 186，280-285；其内容在此引入作为参考)。Ad35载体在美国专利6,974,695、6,913,922和6,869,794中描述。Ad11载体在美国专利6,913,922中描述。C6腺病毒载体在美国专利6,780,407、6,537,594、6,309,647、6,265,189、6,156,567、6,090,393、5,942,235和5,833,975中描述。C7载体在美国专利6,277,558中描述。也可以使用E1缺陷或缺失、E3缺陷或缺失和/或E4缺陷或缺失的腺病毒载体。某些具有E1区突变的腺病毒具有改善的安全范围，因为E1缺陷腺病毒突变体在非允许细胞中是复制缺陷的，或者至少是高度减毒的。在E3区具有突变的腺病毒可以通过破坏腺病毒下调MHC I类分子的机制来增强免疫原性。由于抑制晚期基因表达，具有E4突变的腺病毒可能具有降低的腺病毒载体的免疫原性。当期望使用相同载体重复再接种时，这样的载体可能特别有用。可以根据本公开内容使用在E1、E3、E4、E1和E3以及E1和E4中缺失或突变的腺病毒载体。此外，根据本公开内容，也可以使用所有病毒基因都缺失的“无内容”腺病毒载体。这类载体需要辅助病毒进行复制，并且需要表达E1a和Cre两者的特殊的人293细胞系，此条件在天然环境中不存在。这样的“无内容”载体是非免疫原性的，因此该载体可以多次接种以用于再接种。“无内容”腺病毒载体可用于插入异源插入物/基因，如本公开的转基因，甚至可用于大量异源插入物/基因的共递送。在一些实施方案中，该递送是经由腺病毒进行的，该腺病毒可以是单一加强剂量。在一些实施方案中，该腺病毒经由多剂量递送。就体内递送而言，AAV因为其低毒性及由于其不整合到宿主基因组中引起插入诱变的低可能性而优于其它病毒载体。AAV的包装限制为4.5Kb或4.75Kb。大于4.5Kb或4.75Kb的构建体可显著减少病毒产生。有许多启动子可用于驱动核酸分子表达。AAV ITR可用作启动子并且有利于消除对其它启动子元件的需要。对于全身性的表达，可以使用以下启动子：CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等。对于脑表达，可以使用以下启动子：所有神经元的突触蛋白I、兴奋性神经元的CaMKIIα、用于γ-氨基丁酸能神经元的GAD67或GAD65或VGAT等。用于驱动RNA合成的启动子可包括：Pol III启动子，如U6或H1。Pol II启动子和内含子盒的使用可用于表达向导RNA(gRNA)。关于可用于实施本公开内容的AAV载体，可提及美国专利5658785、7115391、7172893、6953690、6936466、6924128、6893865、6793926、6537540、6475769和6258595以及其中引用的文件。关于AAV，该AAV可以是AAV1、AAV2、AAV5或其任何组合。可以针对待靶向的细胞选择AAV；例如，可以选择AAV血清型1、2、5或杂合衣壳AAV1、AAV2、AAV5或其任何组合用于靶向脑或神经细胞；并且可以选择AAV4用于靶向心脏组织。AAV8可用于递送至肝脏。在一些实施方案中，该递送是经由AAV进行的。可以调整剂量以平衡治疗益处与任何副作用。

在一些实施方案中，可以通过在非病原微生物中的疫苗或免疫原性组合物中表达相关抗原来实现有效激活针对疾病疫苗或免疫原性组合物的细胞免疫应答。这类微生物的已知的实例是牛分枝杆菌BCG、沙门氏菌和假单胞菌(参见，美国专利6,991,797，其通过引用整体并入本文)。

在一些实施方案中，痘病毒在疾病疫苗或免疫原性组合物中使用。这些包括正痘病毒、禽痘、牛痘、MVA、NYVAC、金丝雀痘、ALVAC、禽痘、TROVAC等(参见例如，Verardi等人，Hum Vaccin Immunother.2012Jul；8(7)：961-70；以及Moss，Vaccine.2013；31(39)：4220-4222)。痘病毒表达载体于1982年描述，并迅速广泛用于疫苗开发以及许多领域的研究。该载体的优点包括简单构建、适应大量外来DNA的能力和高表达水平。关于可用于实施本公开内容的痘病毒如脊椎动物痘病毒亚科(Chordopoxvirinae)痘病毒(脊椎动物的痘病毒)，例如，正痘病毒和禽痘病毒，例如牛痘病毒(例如，Wyeth株、WR株(例如，

VR-1354)、哥本哈根(Copenhagen)株、NYVAC、NYVAC.1、NYVAC.2、MVA、MVA-BN)、金丝雀痘病毒(例如，Wheatley C93株、ALVAC)，禽痘病毒(例如，FP9株、Webster株、TROVAC)、鸽痘(dovepox)、鸽痘(pigeonpox)、鹌鹑痘(quailpox)和浣熊痘，尤其是其合成或非天然存在的重组体、其用途以及制备和使用这类重组体的方法的信息可以在科学和专利文献中找到。

在一些实施方案中，牛痘病毒在疾病疫苗或免疫原性组合物中使用以表达抗原(Rolph等人，Recombinant viruses as vaccines and immunological tools.Curr OpinImmunol 9：517-524，1997)。重组牛痘病毒能够在感染的宿主细胞的细胞质内复制，因此目的多肽可以诱导免疫应答。此外，痘病毒已广泛用作疫苗或免疫原性组合物载体，这不仅是因为其能够通过直接感染免疫细胞(特别是抗原呈递细胞)经由I类主要组织相容性复合物途径靶向编码的抗原，而且也是因为其能够自我辅助。

在一些实施方案中，ALVAC用作疾病疫苗或免疫原性组合物中的载体。ALVAC是一种可以被修饰以表达外来转基因的金丝雀痘病毒，并且已被用作针对原核和真核抗原的疫苗接种方法(Horig H，Lee DS，Conkright W等人.Phase I clinical trial of arecombinant canarypoxvirus(ALVAC)vaccine expressing human carcinoembryonicantigen and the B7.1co-stimulatory molecule.Cancer Immunol Immunother 2000；49：504-14；yon Mehren M，Arlen P，Tsang KY等人.Pilot study of a dual generecombinant avipox vaccine containing both carcinoembryonic antigen(CEA)andB7.1 transgenes in patients with recurrent CEA-expressingadenocarcinomas.Clin Cancer Res 2000；6：2219-28；Musey L，Ding Y，Elizaga M等人.HIV-1 vaccination administered intramuscularly can induce both systemic andmucosal T cell immunity in HIV-1-uninfected individuals.J Immunol 2003；171：1094-101；Paoletti E.Applications of pox virus vectors to vaccination：anupdate.Proc Natl Acad Sci U S A 1996；93：11349-53；美国专利7,255,862)。在I期临床试验中，表达肿瘤抗原CEA的ALVAC病毒显示出极好的安全性并且导致所选患者的CEA特异性T细胞应答增加；然而，没有观察到客观的临床反应(Marshall JL，Hawkins MJ，Tsang KY等人.Phase I study in cancer patients of a replication-defective avipoxrecombinant vaccine that expresses human carcinoembryonic antigen.J ClinOncol 1999；17：332-7)。

在一些实施方案中，修饰的安卡拉牛痘(MVA)病毒可用作抗原疫苗或免疫原性组合物的病毒载体。MVA是正痘病毒家族的成员，并且已经通过牛痘病毒(CVA)的安卡拉株在鸡胚成纤维细胞中的约570次连续传代产生(综述参见，Mayr，A.等人，Infection 3，6-14，1975)。由于这些传代，所得的MVA病毒含有的基因组信息比CVA少31千碱基，并且是高度限制的宿主细胞(Meyer，H.等人，J.Gen.Virol.72，1031-1038，1991)。MVA的特征在于其极度衰减，即减弱的毒力或感染能力，但仍具有优异的免疫原性。当在各种动物模型中进行测试时，MVA被证明是无毒的，甚至在免疫抑制的个体中也是无毒的。此外，

-HER2是一种用于治疗HER-2阳性乳腺癌的候选免疫治疗，并且目前正在进行临床试验(Mandl等人，Cancer Immunol Immunother.Jan 2012；61(1)：19-29)。已经描述了制备和使用重组MVA的方法(例如，参见美国专利8,309,098和5,185,146，其整体并入本文)。

在一些实施方案中，将疫苗或免疫原性组合物的重组病毒颗粒施用于有需要的患者。

本文提供了一种为患有疾病或状况的受试者开发治疗剂的方法，其包括提供来源于患有疾病或状况的受试者的细胞群体，在该细胞群体的一个或多个细胞中表达亲和受体标记的I类或II类HLA等位基因，这是通过向所述一个或多个细胞中引入编码以下序列的多核酸，该序列包含：与编码亲和受体肽的序列可操作地连接的编码重组I或II类HLA等位基因的序列，从而在所述一个或多个细胞中形成亲和受体标记的HLA-肽复合物；富集并表征所述亲和受体标记的HLA-肽复合物；并且任选地，基于所述表征开发治疗剂。

在一些实施方案中，所述治疗剂或受试者特异性免疫原性组合物包含来自所富集的亲和受体标记的HLA-肽复合物的肽或编码来自所富集的亲和受体标记的HLA-肽复合物的多肽的多核苷酸。

在一些实施方案中，所述治疗剂或受试者特异性免疫原性组合物包含表达T细胞受体(TCR)的T细胞，该T细胞受体与来自所富集的亲和受体标记的HLA-肽复合物的多肽特异性结合。在一些实施方案中，所述受试者特异性免疫原性组合物包含嵌合抗原受体(CAR)T细胞，该T细胞表达与来自所富集的亲和受体标记的HLA-肽复合物的多肽特异性结合的受体。在一些实施方案中，所述方法进一步包括向受试者施用另一种治疗剂，任选地，免疫检查点抑制剂。在一些实施方案中，所述方法进一步包括向受试者施用佐剂，任选地，聚-ICLC。

在一些实施方案中，所述疾病或病症是癌症。在一些实施方案中，所述疾病或病症是自身免疫性疾病。在一些实施方案中，所述疾病或病症是感染。在一些实施方案中，该感染是传染原的感染。在一些实施方案中，该传染原是病原体，病毒、细菌或寄生虫。在一些实施方案中，该病毒选自：BK病毒(BKV)、登革病毒(DENV-1、DENV-2、DENV-3、DENV-4、DENV-5)、巨细胞病毒(CMV)、乙型肝炎病毒(HBV)、丙型肝炎病毒(HCV)、EB病毒(EBV)、腺病毒、人类免疫缺陷病毒(HIV)、人类T细胞淋巴营养性病毒(HTLV-1)、流感病毒、RSV、HPV、狂犬病、腮腺炎风疹病毒、脊髓灰质炎病毒、黄热病、甲型肝炎、乙型肝炎、轮状病毒、水痘病毒、人乳头瘤病毒(HPV)、天花、带状疱疹及其任何组合。在一些实施方案中，该细菌选自：克雷伯氏菌属的种、惠普尔吸收障碍菌、麻风分枝杆菌、Mycobacterium lepromatosis和结核分枝杆菌、伤寒、肺炎球菌、脑膜炎球菌、嗜血杆菌B、炭疽、破伤风类毒素、脑膜炎球菌B组、卡介苗(bcg)、霍乱及其组合。在一些实施方案中，该寄生虫是蠕虫或原生动物。在一些实施方案中，该寄生虫选自：利什曼原虫属的种、疟原虫属的种、克氏锥虫、似蚓蛔线虫、鞭形鞭虫、美洲板口线虫、血吸虫属的种及其任何组合。

本文提供了一种为患有疾病或状况的受试者开发治疗剂的方法，其包括：提供细胞群体，其中该细胞群体中的一个或多个细胞包含多核酸，该多核酸包含编码至少两个亲和受体标记的I类或II类HLA等位基因的序列，其中所述编码至少两个亲和受体标记的I类或II类HLA等位基因的序列包含第一重组序列和第二重组序列，第一重组序列包含与编码第一亲和受体肽的序列可操作地连接的编码第一I类或II类HLA等位基因的序列，第二重组序列包含与编码第二亲和受体肽的序列可操作地连接的编码第二I类或II类HLA等位基因的序列；在所述细胞群体的一个或多个细胞的至少一个细胞中表达所述至少两个亲和受体标记的HLA，从而在所述至少一个细胞中形成亲和受体标记的HLA-肽复合物；富集所述亲和受体标记的HLA-肽复合物；以及从富集的亲和受体标记的HLA-肽复合物中鉴定肽；以及基于鉴定出的一种或多种肽配制免疫原性组合物，其中所述第一和第二重组I类或II类HLA等位基因与受试者的HLA单元型匹配。

在一些实施方案中，所述受试者患有疾病或状况。在一些实施方案中，第一重组I类或II类HLA等位基因不同于第二重组I类或II类HLA等位基因。在一些实施方案中，第一亲和受体肽与第二亲和受体肽相同。在一些实施方案中，所述方法包括表征与来自所述富集的第一和/或第二亲和受体标记的HLA-肽复合物结合的肽。在一些实施方案中，所述至少两个亲和受体标记的I类或II类HLA等位基因包含至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17，18、19、20、25、30、35、40、45或50个I类和/或II类HLA等位基因。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物包含跨膜结构域。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物包含细胞内结构域。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物不被排出。在一些实施方案中，当被表达时，第一和/或第二亲和受体标记的HLA-肽复合物并入细胞膜中。在一些实施方案中，第一和/或第二亲和受体标记的HLA-肽复合物不是可溶性亲和受体标记的HLA-肽复合物。在一些实施方案中，所述方法进一步包括生成HLA等位基因特异性肽数据库。在一些实施方案中，所述方法包括将一种或多种外源肽引入细胞群体。在一些实施方案中，所述引入包括使所述细胞群体与所述一种或多种外源肽接触或在所述细胞群体中表达所述一种或多种外源肽。在一些实施方案中，所述引入包括使所述细胞群体与编码所述一种或多种外源肽的一种或多种核酸接触。在一些实施方案中，编码所述一种或多种肽的所述一种或多种核酸是DNA。在一些实施方案中，编码所述一种或多种肽的所述一种或多种核酸是RNA，任选地其中该RNA是mRNA。在一些实施方案中，所述富集不包括使用四聚体试剂。在一些实施方案中，所述方法包括确定与来自所述富集的所述第一和/或第二亲和受体标记的HLA-肽复合物结合的肽或其部分的序列。在一些实施方案中，所述确定包括生化分析、质谱分析、MS分析、MS/MS分析、LC-MS/MS分析或其组合。在一些实施方案中，所述方法包括评价与来自所述富集的第一和/或第二亲和受体标记的HLA-肽复合物结合的肽或其部分的结合亲和力或稳定性。

在一些实施方案中，所述方法包括确定与来自所述富集的第一和/或第二亲和受体标记的HLA-肽复合物结合的肽或其部分是否含有一个或多个突变。在一些实施方案中，所述方法包括评价第一和/或第二亲和受体标记的HLA-肽复合物中的肽与HLA分子的缔合。

在一些实施方案中，所述方法包括在细胞群体中表达肽文库，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，所述方法包括使肽文库或编码肽的序列文库与细胞群体接触，从而形成亲和受体标记的HLA-肽复合物文库。在一些实施方案中，该文库包含与疾病或状况相关的肽的文库。在一些实施方案中，该疾病或状况是癌症或传染原的感染。

在一些实施方案中，所述方法包括将传染原或其部分引入细胞群体中的一个或多个细胞中。在一些实施方案中，所述方法包括表征来自第一和/或第二HLA-肽复合物的一种或多种肽，任选地其中所述肽来自传染原的一种或多种靶蛋白。在一些实施方案中，所述方法包括表征来自传染原的一种或多种靶蛋白的肽的一个或多个区域。在一些实施方案中，所述方法包括鉴定来自由传染原衍生的第一和/或第二HLA-肽复合物的肽。

在一些实施方案中，所述细胞群体来自患有疾病或状况的受试者的生物样品。在一些实施方案中，所述细胞群体是细胞系。在一些实施方案中，所述细胞群体是原代细胞群体。

在一些实施方案中，当被抗原呈递细胞呈递时，来自第一和/或第二亲和受体标记的HLA-肽复合物的肽能够激活来自受试者的T细胞。在一些实施方案中，所述方法包括将来自病变细胞的HLA-肽复合物与来自非病变细胞的HLA-肽复合物进行比较。

在一些实施方案中，所述方法进一步包括在鉴定之前从第一和/或第二亲和受体标记的HLA-肽复合物中分离肽。

在一些实施方案中，所述细胞群体是低细胞表面HLA I类或II类表达细胞的群体。在一些实施方案中，所述细胞群体表达一个或多个内源HLA等位基因。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏一个或多个内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是缺乏内源HLA I类等位基因和内源HLA II类等位基因的工程化细胞群体。在一些实施方案中，所述细胞群体是一个或多个HLA I类等位基因的敲除。在一些实施方案中，所述细胞群体是一个或多个HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除。

在一些实施方案中，所述细胞群体是所有HLA II类等位基因的敲除。在一些实施方案中，所述细胞群体是所有HLA I类等位基因的敲除和所有HLA II类等位基因的敲除。

在一些实施方案中，编码所述至少两个亲和受体标记的I类或II类HLA等位基因的序列编码I类HLA。在一些实施方案中，所述I类HLA选自HLA-A、HLA-B、HLA-C、HLA-E、HLA-F和HLA-G。在一些实施方案中，第一重组I类或II类HLA等位基因是第一I类HLA等位基因，并且第二重组I类或II类HLA等位基因是第二I类HLA等位基因。在一些实施方案中，编码所述至少两个亲和受体标记的I类或II类HLA等位基因的序列编码II类HLA。在一些实施方案中，所述II类HLA选自HLA-DR、HLA-DQ和HLA-DP。在一些实施方案中，所述II类HLA包含HLA II类α链、HLA II类β链或其组合。在一些实施方案中，第一重组I类或II类HLA等位基因是第一II类HLA等位基因，并且第二重组I或II类HLA等位基因是第二II类HLA等位基因。

在一些实施方案中，第一序列和第二序列各自可操作地连接。在一些实施方案中，第一序列和第二序列被包含在不同的多核苷酸分子上。

在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的细胞外部分的序列。在一些实施方案中，第一和/或第二编码的亲和受体肽在细胞外表达。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列的N-末端。

在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的细胞内部分的序列。在一些实施方案中，所编码的第一和/或第二亲和受体肽在细胞内表达。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列的C-末端。在一些实施方案中，编码第一和/或第二亲和受体肽的序列通过连接体可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列。

在一些实施方案中，富集包括富集表达第一和/或第二亲和受体标记的HLA-肽复合物的完整细胞。在一些实施方案中，所述方法不包括在富集之前裂解细胞。在一些实施方案中，所述方法进一步包括在富集之前裂解所述一个或多个细胞。

在一些实施方案中，富集包括使亲和受体肽结合分子与第一和/或第二亲和受体标记的HLA-肽复合物接触，其中所述亲和受体肽结合分子与第一和/或第二亲和受体肽特异性结合。在一些实施方案中，第一和/或第二亲和受体肽包含标签序列，该标签序列包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚-半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1 Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP))标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签或其组合；任选地，其中第一和/或第二亲和受体肽包含标签序列的两个或更多个重复。在一些实施方案中，所述亲和受体肽结合分子是生物素或对第一和/或第二亲和受体肽具有特异性的抗体。

在一些实施方案中，所述富集包括使亲和分子与第一和/或第二亲和受体标记的HLA-肽复合物接触，其中该亲和分子与亲和受体肽结合分子特异性结合。在一些实施方案中，该亲和分子是链霉亲和素、NeutrAvidin或其衍生物。在一些实施方案中，富集包括免疫沉淀第一和/或第二亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体肽结合分子附着于固体表面。在一些实施方案中，所述亲和分子附着于固体表面。在一些实施方案中，该固体表面是珠子。

在一些实施方案中，提供包括使所述细胞群体与所述多核酸接触。在一些实施方案中，接触包括转染或转导。在一些实施方案中，提供包括使所述细胞群体与包含所述多核酸的载体接触。在一些实施方案中，该载体是病毒载体。在一些实施方案中，所述多核酸被稳定地整合到所述细胞群体的基因组中。

在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码HLA I类α链的序列。在一些实施方案中，第一重组I类或II类HLA等位基因是第一HLA I类α链，并且第二重组I类或II类HLA等位基因是第二HLA I类α链。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码β2微球蛋白的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码第一和/或第二I类或II类HLA的序列。在一些实施方案中，编码β2微球蛋白的序列通过连接体连接至编码第一和/或第二I类或II类HLA的序列。在一些实施方案中，编码β2微球蛋白的序列连接至编码第三亲和受体肽的序列。在一些实施方案中，第三亲和受体肽不同于第一和/或第二亲和受体肽。

在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码HLA II类α链和/或HLA II类β链的序列。在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码第一HLA II类α链和第二HLA II类α链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码HLA II类β链的序列。在一些实施方案中，编码第一HLA II类α链和第二HLA II类α链HLA的序列连接至编码HLA II类β链的序列。在一些实施方案中，编码第一和/或第二I类或II类HLA的序列包含编码第一HLA II类β链和第二HLA II类β链的序列。在一些实施方案中，所述方法进一步包括在所述一个或多个细胞中表达编码HLA II类α链的序列。在一些实施方案中，编码第一HLA II类β链和第二HLA II类β链的序列通过连接体连接至编码HLAII类α链的序列。在一些实施方案中，编码HLA II类β链或HLA II类α链的序列连接至编码第三种亲和受体肽的序列。在一些实施方案中，第三亲和受体肽不同于第一和/或第二亲和受体肽。

在一些实施方案中，第三亲和受体肽不同于第一亲和受体肽，并且选自生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-Glu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1、Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP)标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签及其组合；任选地，其中第一或第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，所述方法包括进行生化分析或质谱分析，如串联质谱分析。

在一些实施方案中，所述方法包括从肽数据库获得与从富集的亲和受体标记的HLA-肽复合物中分离的一种或多种肽的MS/MS谱相对应的肽序列；其中获得的一个或多个序列鉴定所述一种或多种肽的序列。

在一些实施方案中，所述细胞群体是选自HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat、Hep G2、SH-SY5Y、CACO-2、U937、U-2 OS、ExpiCHO、CHO和THP1。

在一些实施方案中，用一种或多种细胞因子、检查点抑制剂、表观遗传活性药物、IFN-γ或其组合处理所述细胞系。

在一些实施方案中，所述细胞群体包含至少10⁵个细胞、至少10⁶个细胞或至少10⁷个细胞。在一些实施方案中，所述细胞群体是树突细胞、巨噬细胞、癌细胞或B细胞的群体。在一些实施方案中，所述细胞群体包含肿瘤细胞。

在一些实施方案中，在从所述一个或多个细胞中分离第一和/或第二HLA-肽复合物之前，使所述细胞群体与试剂接触。在一些实施方案中，该试剂是炎性细胞因子、化学试剂、佐剂、治疗剂或辐射。

在一些实施方案中，第一和/或第二HLA等位基因是突变的HLA等位基因。在一些实施方案中，编码第一和/或第二HLA等位基因的序列包含条形码序列。在一些实施方案中，所述方法进一步包括测定第一和/或第二亲和受体标记的I类或II类HLA等位基因的表达。在一些实施方案中，所述测定包括对第一和/或第二亲和受体标记的I类或II类HLA等位基因进行测序，检测编码第一和/或第二亲和受体标记的I类或II类HLA等位基因RNA的RNA，检测第一和/或第二亲和受体标记的I类或II类HLA等位基因蛋白质，或其组合。在一些实施方案中，第一和第二亲和受体标记的I类或II类HLA等位基因包含独特的条形码序列。在一些实施方案中，第一序列和第二序列包含独特的条形码序列。

实施例

以下提供的实施例仅用于说明目的，并非限制本文提供的权利要求的范围。

实施例1.通用IP流程：通用单等位基因HLA-肽复合物鉴定平台

本文公开的通用免疫纯化(IP)构建体由编码通过细胞转染或转导从哺乳动物表达载体表达的亲和标记的I类或II类HLA等位基因的DNA构建体组成(图1A和图1B)。非限制性的示例性I类和II类HLA构建体示于图2中。非限制性示例性亲和标签包括生物素受体肽(BAP)或人类流感血凝素(HA)肽序列。亲和标签可以放置在HLA等位基因的N-末端或C-末端。切割序列，如图2中所示的F2A，或内部核糖体进入位点(IRES)，可以放置在α链与β2-微球蛋白之间(I类)，或者α链与β链之间(II类)。非限制性示例性载体包括如图3所示的慢病毒载体。将诸如嘌呤霉素抗性(Puro)的抗体抗性基因引入构建体中，以允许在转染或转导后进行选择。在LC-MS/MS分析之前，将用通用IP构建体转染或转导的细胞扩充(图4A)或选择并然后扩充(图4B)。用于I类和II类HLA的通用免疫纯化平台的示意图在图5中示出。

实施例2.细胞培养和HLA-肽免疫纯化和测序

通过如先前所述(Reche等人，2006)用编码单个I类HLA等位基因(例如，HLA-A*02:01、HLA-A*23:01和HLA-B*14:02，或HLA-E*01:01)和II类HLA等位基因(例如，HLA-DRB*01:01、HLA-DRB*01:02和HLA-DRB*11:01，或HLA-DRB*15:01，或HLA-DRB*07:01)的逆转录病毒载体转导B721.221、A375、JEG-3、K562、Jurkat或HEK293T、HeLa或expi293细胞来生成单等位基因HLA细胞。通过标准分子分型证实了细胞系的I类或II类HLA类型。培养细胞并进行HLA-肽免疫纯化。

I类HLA等位基因(图6C)向HEK293T细胞中的概念验证转导在图6A-6C中显示。进行了采用用于基于生物素化的通用免疫纯化的HLA-A*02:01构建体的模拟、GFP和空质粒转导，并在Western印迹中证实了生物素化(图6A)。丽春红染色的凝胶用作Western印迹分析的加样对照(图6B)。由HEK293T细胞表达的I类和II类HLA-BAP等位基因(图7C)的转染和生物素化优化在图7A-7C中示出。生物素化时程实验显示，对于表达I类和II类HLA-BAP的细胞，C-和N-末端标记的HLA-BAP生物素化均在10分钟内完成(图7A和图7B)。

当前公开的通用IP流程在多种细胞类型中进行了测试(图8A-8D)。将用于I类和II类HLA的通用IP构建体转染到HEK293T(人胚肾)(图8A)、HeLa(人宫颈癌)(图8B)、A375(人恶性黑素瘤)(图8C)和Expi293(针对高密度培养和蛋白质表达而遗传工程化的人胚肾)细胞(图8D)中。使用针对BAP标记的抗链霉亲和素和针对HA标记的抗HA进行了Western印迹分析，并使用丽春红染色的凝胶作为Western印迹的加样对照。Western印迹证实了I类和II类构建体在所有测试的细胞类型中的表达(图8A-8D)。

下面描述在该实施例中使用的材料和方法。

I类和II类HLA等位基因的通用IP(生物素)

按照标准方法转染或转导细胞以表达通用IP构建体。转导后，将细胞重悬于培养基中，并转移至50ml falcon管中。将管以1500rpm离心5分钟，然后除去培养基。然后将细胞重悬于1.5ml冷PBS中，并转移至1.5mL Eppendorf管中。然后将管离心(在4℃下550x g)5分钟。除去PBS，然后将细胞重悬于1.2ml裂解缓冲液中。将细胞重悬于缓冲液中，然后添加benzonase。将管在冰上孵育，偶尔混合。在冰上孵育15分钟后，将管离心(在4℃下15,000xg)20分钟。将上清液(500μL)转移至另一个1.5mL管(预洗涤的)中进行生物素化。通过向每个样品中添加生物素、ATP和BirA来实现细胞裂解物的生物素化。然后将样品在室温下孵育10分钟，然后在免疫沉淀之前置于冰上。

通过将预洗涤的链霉亲和素或NeutrAvidin琼脂糖树脂浆液添加到生物素化的裂解物中，进行采用NeutrAvidin或链霉亲和素珠的免疫沉淀。然后将样品置于试管架(tuberotisserie)上，并在4℃下孵育30分钟。孵育30分钟后，通过离心(1500×g，1min，4℃)使珠子沉淀，取出并丢弃上清液。然后将珠子重悬于1ml洗涤缓冲液中。然后通过离心(1,500xg，1min，4℃)将珠子沉淀，取出并丢弃洗涤缓冲液。重复该步骤，以在洗涤缓冲液中总共洗涤四次。将沉淀的珠子重悬于1mlTris缓冲液中，通过离心(1,500x g，1min，4℃)进行沉淀，然后除去Tris缓冲液。重复该步骤，以在Tris缓冲液中总共洗涤四次。最后的洗涤在MS级水中进行，方法是将珠子重悬浮在1ml质谱级水中，并离心(1,500x g，1min，4℃)以使珠子沉淀。除去上清液，并将珠子贮存在-80℃或立即进行HLA-肽洗脱和脱盐。

II类HLA等位基因的系列通用IP(HA和生物素标记)

按照标准方案转染或转导细胞以表达通用IP构建体。转导后，将细胞重悬于培养基中，并转移至50ml falcon管中。将管以1500rpm离心5分钟，然后除去培养基。然后将细胞重悬于1.5ml冷PBS中，并转移至1.5ml Eppendorf管中。然后将管离心(在4℃下550x g)5分钟。除去PBS，然后将细胞重悬于1.2ml裂解缓冲液中。将细胞重悬于缓冲液中，然后添加benzonase。将管在冰上孵育，偶尔混合。在冰上孵育15分钟后，将管离心(在4℃下15,000xg)20分钟。将上清液转移到另一个1.5ml管(预洗涤的)中进行生物素化。通过向每个样品中添加生物素、ATP和BirA来实现细胞裂解物的生物素化。然后将样品在室温下孵育10分钟，然后在免疫沉淀之前置于冰上。

通过添加预先与抗HA抗体结合的预洗涤的蛋白G琼脂糖树脂，进行HA标记的II类等位基因的免疫沉淀。然后将样品置于试管架上，并在4℃下孵育60分钟。孵育60分钟后，通过离心(1500xg，1min，4℃)使珠子沉淀，取出并丢弃上清液。将珠子用裂解缓冲液洗涤两次，并重悬于含有游离HA肽的裂解缓冲液中，并在4℃下在试管架上孵育15分钟。然后通过离心(1500xg，1min，4℃)使珠子沉淀，并将上清液转移至含有200ul预洗涤的NeutrAvidin或链霉亲和素琼脂糖珠子的1.5ml Eppendorf中。然后将样品放在试管架上，并在4℃下孵育30分钟。孵育30分钟后，通过离心(1500xg，1min，4℃)使珠子沉淀，取出并丢弃上清液。然后将珠子重悬于1ml洗涤缓冲液中。然后通过离心(1,500xg，1min，4℃)使珠子沉淀，取出并丢弃洗涤缓冲液。重复该步骤，以在洗涤缓冲液中总共洗涤四次。将沉淀的珠子重悬于1ml的Tris缓冲液中，通过离心(1,500xg，1min，4℃)进行沉淀，并除去洗涤缓冲液。重复该步骤，以在Tris缓冲液中总共洗涤四次。最后的洗涤在MS级水中进行，方法是将珠子重悬于1ml质谱级水中，并离心(1,500xg，1min，4℃)以使珠子沉淀。除去上清液，并将珠子贮存在-80℃或立即进行HLA-肽洗脱和脱盐。

HLA-肽洗脱和脱盐

从HLA复合物中洗脱肽，并在内建的Empore C18 StageTips(3M，2315)上脱盐(Rappsilber等人，2007)。在台式离心机上以1,500-3,000x g的最大速度进行样品加载、洗涤和洗脱。用两次甲醇洗涤、两次乙腈/甲酸洗涤和两次甲酸洗涤平衡StageTips。在管中，将来自HLA关联肽IP的干燥珠子在4℃下融化，在ACN/甲酸混合物中重建，并加载到StageTips上。用甲酸洗涤珠子，并采用在10％乙酸中的两轮5分钟孵育进一步洗脱肽。将合并的洗涤和洗脱体积合并，并加载到StageTips上。再次用甲酸洗涤含有IP珠子的管，并将该体积也加载到StageTips上。肽在StageTips或脱盐柱上用甲酸洗涤两次。使用ACN和甲酸混合物的分步梯度洗脱肽。合并分步洗脱液并干燥至完成。

实施例3.通过LC-MS进行的I类和II类HLA关联肽测序

所有纳米LC-ESI-MS/MS分析均采用以下所述相同的LC分离条件。使用配备有PicoFrit 75μm内径毛细管和10恤发射器的Proxeon Easy Nano LC 1000(ThermoScientific，San Jose，CA)色谱分离样品，在压力下用C18Reprosil珠子(1.9μm粒径，

孔径，Dr.Maisch GmBH)堆积至约20cm，并在分离过程中50℃加热。

将样品在ACN和甲酸混合物中加载，并用以下线性梯度洗脱肽：82min内7-30％的缓冲液B(0.1％FA或0.5％AcOH和80％或90％ACN)，6min内30-90％的缓冲液B，然后以200nL/min于90％缓冲液B保持15min(缓冲液A，0.1％FA和3％ACN)，得到约13(FA)sec的峰宽。在依赖于数据的采集过程中，在2.2kV下将洗脱的肽引入配备有纳米电喷雾源的Orbitrap Fusion Lumos Tribrid质谱仪(Thermo Scientific)。全扫描MS以30,000的分辨率从300至1,800m/z获得。每次全扫描后，使用0.7m/z的分离宽度以15,000的分辨率进行前10个依赖于数据的MS2扫描。

从表达在通用IP流程中使用的亲和标记的I类和II类HLA构建体的多种细胞类型中鉴定出的独特HLA关联肽的总数在图9A中示出。来自I类HLA单等位基因肽概况分析的独特肽的数目在图9B中示出。来自II类HLA单等位基因肽概况分析的独特肽的数目在图9C中示出。HLA关联肽的LC-MS/MS分析揭示了I类和II类HLA关联肽的特征(图10A和10B)。分离并测序的I类HLA-A*02:01关联肽和II类HLA-DRβ*11:01关联肽的序列标识表示在图10A中示出。I类HLA-A*02:01关联肽(红色)和II类HLA-DRβ*11:01关联肽(蓝色)的长度分布比较显示，I类和II类HLA关联肽均遵循预期的趋势(图10B)。

针对本文所述的单等位基因方法评估70个HLA I类等位基因和47个HLA II类等位基因。生成了70个具有亲和标签的独特HLA I类等位基因(表1A)和47个具有亲和标签的独特HLA II类等位基因(表2A)。表1B显示了使用70个独特HLA I类等位基因的96个独特实验的细节(在一些情况下，将相同的等位基因置于多个细胞系中)。表2B显示了使用47个独特HLA II类等位基因进行的54个独特实验的细节(在一些情况下，将相同的等位基因置于多个细胞系中)。

表1A.70个独特HLA I类等位基因

#	独特I类等位基因	#	独特I类等位基因
				1	A*0201	36	B*3802
2	A*0202	37	B*3901
				3	A*0203	38	B*3906
4	A*0206	39	B*4001
				5	A*0207	40	B*4002
6	A*1101	41	B*4006
				7	A*2301	42	B*4101
8	A*2501	43	B*4201
				9	A*2601	44	B*4501
10	A*3001	45	B*4601
				11	A*3002	46	B*4801
12	A*3101	47	B*4901
				13	A*3201	48	B*5001
14	A*3301	49	B*5201
				15	A*3303	50	B*5301
16	A*3402	51	B*5401
				17	A*3601	52	B*5501
18	A*6801	53	B*5703
				19	A*7401	54	B*5801
20	B*0702	55	B*5802
				21	B*0801	56	B*8101
22	B*1302	57	C*0102
				23	B*1401	58	C*0202
24	B*1402	59	C*0303
				25	B*1501	60	C*0401
26	B*1502	61	C*0602
				27	B*1503	62	C*0701
28	B*1509	63	C*0702
				29	B*1510	64	C*0704
30	B*1801	65	C*1203
				31	B*270502	66	C*1701
32	B*3502	67	C*1801
				33	B*3503	68	F*0101
34	B*3701	69	G*0101
				35	B*3801	70	E*0101

表1B.用于HLA I类等位基因的文库和细胞系

表2A.47个独特HLA II类等位基因

表2B.用于HLA II类等位基因的文库和细胞系

实施例4.具有多个亲和标签的II类HLA复合体的串联通用IP

II类HLA复合物通过α链和β链配对而形成，α链和β链各自可以用不同的亲和标签标记。使用两个亲和标签的系列IP可以将α链和β链配对解卷积，并明确地将肽结合指定给II类HLA复合物。图11A示出了针对被不同细胞类型表达以用于通用IP流程而工程化的II类HLA构建体的示意图。图11B中示出了在图11A的构建体在表达内源II类HLAα链和β链亚单位的细胞系中表达时可形成的可能的II类HLA复合物的示意图。

图12A中示出了可用于α链和β链配对的解卷积以及肽结合向特定II类HLA复合物的明确指定的系列通用IP策略的示意图。将表达双亲和标记的II类HLA构建体的细胞裂解，生物素化，并与偶联有抗HA抗体的珠子一起孵育。将具有HA标记的亚单位的II类HLA复合物分离，洗涤，并使用HA肽(YPYDVPDYA)洗脱。然后将洗脱液与偶联有NeutrAvidin或链霉亲和素的珠子一起孵育，以分离HA标记的和生物素标记的II类HLA复合物。然后洗脱与双标记的II类HLA复合物结合的肽，并通过LC-MS/MS进行测序。Western印迹和加样对照(丽春红S染色的凝胶)证明了系列通用IP流程的特异性。Western印迹在表达双标记的HLA-DRB*11:01构建体的HEK293T中验证了系列通用IP策略(图12B)。使用抗HA抗体来跟踪系列富集过程。使用丽春红S染色的凝胶作为Western印迹加样对照。图12C中示出了阴性对照实验的Western印迹，其中将表达双亲和标记的II类HLA构建体HLA-DRB*11:01的细胞裂解并与偶联有抗HA抗体的珠子一起孵育，而不进行生物素化。如图12C所示，当从系列通用IP方案中除去生物素化步骤时，未观察到富集。

实施例5.实现生物素亲和标签的单等位基因HLA-肽组概况分析方法。

图14A和14B示出了实现生物素亲和标签的单等位基因HLA-肽组概况分析方法的示意图。本公开的示例性实施方案利用了通过BirA酶在赖氨酸(K)残基上生物素化的生物素受体肽(BAP)。BAP肽序列含有在添加BirA酶、生物素和ATP后被生物素化的赖氨酸残基。生物素化产物对链霉亲和素/NeutrAvidin展现出高亲和力。链霉亲和素/NeutrAvidin珠可用来富集生物素化的BAP肽序列。

实施例6.靶向表位发现平台

目的细胞系(例如，2HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat、Hep G2、SH-SY5Y、CACO-2、U937、U-2 OS、ExpiCHO、CHO或THP1)或原代细胞(例如，来自患有疾病或状况的受试者的细胞)可以用在N-或C-末端含有标签(例如，BAP序列)的I类或II类HLA构建体转染/转导，进行或不进行选择，以富集表达HLA的细胞(图15)。然后可以用第二质粒转染或转导细胞，该第二质粒含有可以在标签标记的HLA分子上表达并呈递的表位片段或表位链。或者，可以将HLA等位基因质粒和表位质粒两者共同递送至细胞中，随后进行扩充和/或选择。然后将这些工程化细胞裂解，生物素化，并从裂解物中富集HLA分子(例如，使用链霉亲和素珠)。从HLA分子洗脱肽，并且例如通过LC-MS/MS进行分析。该方法允许分析不同等位基因是如何加工和呈递表位的。该方法也可以用来改善表位的递送和设计。

实施例7.等位基因多重化

可以将DNA构建体设计成表达含有一个或多个标签的多条I类重链或多条II类重链(图16)。每个HLA构建体可从包含核糖体跳跃序列(F2A、T2A、P2A等)或IRES元件的同一基因构建体表达。可以用该质粒转导或转染所需细胞系，以诱导被标记并随后富集的多个HLA等位基因的表达。或者，可以用各自含有单个HLA等位基因的多个质粒转导或转染细胞系。然后可以例如通过LC-MS/MS来分析与HLA等位基因结合的肽。该平台允许产生具有多个等位基因的细胞系。例如，可以使用它来匹配患者的HLA类型。这将允许产生用于不同等位基因组合的肽表位模式。

实施例8.加工和等位基因特异性结合的改进的预测。

NetMHC是一种等位基因特异的方法，其为每个等位基因的结合数据集训练单独的预测器，而NetMHCpan是一种泛等位基因方法，其输入是肽和特定MHC分子的子序列的矢量编码。传统观点认为，NetMHC在具有许多被测配体的等位基因上表现更好，而NetMHCpan在较少表征的等位基因上表现更好。然而，已经表明，当训练集中不包含相关数据时，NetMHCpan并不准确。

如本文所述的单等位基因方法(图21)发现了NetMHCpan评分较差但在生物化学上被证实为强结合物的HLA结合肽。图20A显示了使用当前描述的单等位基因方法发现的针对A*01:01、B*51:01、A*29:02和B*54:01等位基因的示例性HLA结合肽。图20B显示了在100个模拟解卷积中的错误指定率。生成了随机的六等位基因患者HLA基因型(HLA-A、HLA-B和HLA-C各2个等位基因，以US等位基因频率采样)。对于每个等位基因，对500个来自相关单等位基因实验的肽进行采样，并合并以创建模拟的、3000个肽的多等位基因数据集。将每个肽指定给产生最佳NetMHCpan％等级评分的等位基因，以确定被NetMHCpan错误指定的肽的百分比。重复该过程100次。如图22所示，加工和等位基因特异的结合预测均得到显著改善。

本公开的条目

在一些实施方案中，所述表征包括表征与来自所述富集的亲和受体标记的HLA-肽复合物结合的肽。在一些实施方案中，所述方法包括对两个或更多个I类和/或II类HLA等位基因进行该方法的步骤。在一些实施方案中，所述两个或更多个I类和/或II类HLA等位基因包含至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17，18、19、20、25、30、35、40、45或50个I类和/或II类HLA等位基因。在一些实施方案中，所述亲和受体标记的HLA-肽复合物包含跨膜结构域。在一些实施方案中，所述亲和受体标记的HLA-肽复合物包含细胞内结构域。在一些实施方案中，所述亲和受体标记的HLA-肽复合物不被分泌。在一些实施方案中，所述亲和受体标记的HLA-肽复合物在表达时并入细胞膜中。在一些实施方案中，所述亲和受体标记的HLA-肽复合物是可溶性亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体标记的HLA-肽复合物不是可溶性亲和受体标记的HLA-肽复合物。在一些实施方案中，所述方法进一步包括生成HLA等位基因特异性肽数据库。在一些实施方案中，所述重组I类或II类HLA等位基因是单个重组I类或II类HLA等位基因。

在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的细胞外部分的序列。在一些实施方案中，所编码的亲和受体肽在细胞外表达。在一些实施方案中，所编码的亲和受体肽位于重组I类或II类HLA等位基因的细胞外位点。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的N末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的细胞内部分的序列。在一些实施方案中，所编码的亲和受体肽在细胞内表达。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的C末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组I类或II类HLA等位基因的序列的内部序列，如柔性环序列。在一些实施方案中，编码亲和受体肽的序列通过连接体可操作地连接至编码重组I类或II类HLA等位基因的序列。在一些实施方案中，富集包括富集表达亲和受体标记的HLA-肽复合物的完整细胞。在一些实施方案中，所述方法不包括在富集之前裂解细胞。在一些实施方案中，所述方法进一步包括在富集之前裂解所述一个或多个细胞。在一些实施方案中，富集包括使亲和受体肽结合分子与亲和受体标记的HLA-肽复合物接触，其中所述亲和受体肽结合分子与所述亲和受体肽特异性结合。

在一些实施方案中，所述亲和受体肽结合分子不与所编码的重组I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，富集包括接触对重组I类或II类HLA等位基因的细胞外部分具有特异性的亲和分子。在一些实施方案中，富集包括接触对重组I类或II类HLA等位基因的N末端部分具有特异性的亲和分子。

在一些实施方案中，所述确定包括进行生化分析或质谱分析，如串联质谱分析。在一些实施方案中，所述确定包括从肽数据库获得与从富集的亲和受体标记的HLA-肽复合物中分离的一种或多种肽的MS/MS谱相对应的肽序列；其中获得的一个或多个序列鉴定所述一种或多种肽的序列。在一些实施方案中，所述肽数据库是无酶特异性的肽数据库，如无修饰的数据库或有修饰的数据库。在一些实施方案中，所述方法进一步包括使用反向数据库搜索策略搜索肽数据库。

在一些实施方案中，所述细胞群体是细胞系。在一些实施方案中，所述细胞群体是人细胞系。在一些实施方案中，所述细胞群体是小鼠细胞系。在一些实施方案中，所述细胞群体是CHO细胞系。在一些实施方案中，所述细胞群体是选自HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat和THP1的细胞系。在一些实施方案中，用一种或多种细胞因子、检查点抑制剂、表观遗传活性药物、IFN-γ、改变抗原加工的试剂(如肽酶抑制剂、蛋白酶体抑制剂和TAP抑制剂)或其组合处理所述细胞群体。在一些实施方案中，用一种或多种调节细胞的代谢途径或代谢状态的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调节细胞的细胞蛋白质组的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的细胞表达或转录的试剂(例如，AIRE或其CREB结合蛋白或其调节剂)处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的转录因子的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的HLA的细胞表达或转录的试剂处理所述细胞群体。在一些实施方案中，用一种或多种调整或调节细胞的蛋白质组的细胞表达或转录的试剂处理所述细胞群体。

在一些实施方案中，有利于核糖体停顿的基序包含聚脯氨酸或聚赖氨酸段。在一些实施方案中，有利于NMD的蛋白质特征选自长3’UTR、最后一个外显子：外显子连接上游超过50nt的终止密码子和肽可切割性。

在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的细胞外部分的序列。在一些实施方案中，编码亲和受体分子的序列可操作地连接至编码重组HLA等位基因的序列的N末端。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的细胞内部分的序列。在一些实施方案中，编码亲和受体肽的序列可操作地连接至编码重组HLA等位基因的序列的C末端。在一些实施方案中，编码亲和受体肽的序列通过连接体可操作地连接至编码重组HLA等位基因的序列。

在一些实施方案中，第一序列和第二序列各自可操作地连接。在一些实施方案中，第一序列和第二序列被包含在不同的多核苷酸分子上。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的细胞外部分的序列。在一些实施方案中，第一和/或第二编码的亲和受体肽在细胞外表达。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列的N末端。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的细胞内部分的序列。在一些实施方案中，所编码的第一和/或第二亲和受体肽在细胞内表达。在一些实施方案中，编码第一和/或第二亲和受体肽的序列可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列的C末端。在一些实施方案中，编码第一和/或第二亲和受体肽的序列通过连接体可操作地连接至编码第一和/或第二I类或II类HLA等位基因的序列。

在一些实施方案中，第一和/或第二亲和受体肽包含标签序列，该标签序列包含生物素受体肽(BAP)、聚组氨酸标签、聚组氨酸-甘氨酸标签、聚精氨酸标签、聚天冬氨酸标签、聚-半胱氨酸标签、聚苯丙氨酸、c-myc标签、单纯疱疹病毒糖蛋白D(gD)标签、FLAG标签、KT3表位标签、微管蛋白表位标签、T7基因10蛋白肽标签、链霉亲和素标签、链霉亲和素结合肽(SPB)标签、Strep-标签、Strep-标签II、白蛋白结合蛋白(ABP)标签、碱性磷酸酶(AP)标签、蓝舌病毒标签(B-tag)、钙调蛋白结合肽(CBP)标签、氯霉素乙酰转移酶(CAT)标签、胆碱结合域(CBD)标签、壳多糖结合域(CBD)标签、纤维素结合域(CBP)标签、二氢叶酸还原酶(DHFR)标签、半乳糖结合蛋白(GBP)标签、麦芽糖结合蛋白(MBP)、谷胱甘肽-S-转移酶(GST)、Glu-GTu(EE)标签、人类流感血凝素(HA)标签、辣根过氧化物酶(HRP)标签、NE-标签、HSV标签、酮类固醇异构酶(KSI)标签、KT3标签、LacZ标签、萤光素酶标签、NusA标签、PDZ结构域标签、AviTag、钙调蛋白标签、E-标签、S-标签、SBP-标签、Softag 1 Softag 3、TC标签、VSV-标签、Xpress标签、Isopeptag、SpyTag、SnoopTag、Profinity eXact标签、蛋白C标签、S1-标签、S-标签、生物素-羧基载体蛋白(BCCP)标签、绿色荧光蛋白(GFP))标签、小泛素样修饰物(SUMO)标签、串联亲和纯化(TAP)标签、HaloTag、Nus-标签、硫氧还蛋白标签、Fc-标签、CYD标签、HPC标签、TrpE标签、泛素标签、VSV-G表位标签、V5标签或其组合；任选地，其中第一和/或第二亲和受体肽包含标签序列的两个或更多个重复。

在一些实施方案中，富集包括用与第一和/或第二亲和受体肽特异性结合的亲和受体肽结合分子免疫沉淀第一和/或第二亲和受体标记的HLA-肽复合物。在一些实施方案中，所述亲和受体肽结合分子不与所编码的第一和/或第二I类或II类HLA的氨基酸序列特异性相互作用。在一些实施方案中，富集包括接触对第一和/或第二I类或II类HLA等位基因的细胞外部分具有特异性的亲和分子。在一些实施方案中，富集包括接触对第一和/或第二I类或II类HLA等位基因的N末端部分具有特异性的亲和分子。

在一些实施方案中，所述细胞群体是选自HEK293T、expi293、HeLa、A375、721.221、JEG-3、K562、Jurkat和THP1的细胞系。在一些实施方案中，用一种或多种细胞因子、检查点抑制剂、表观遗传活性药物、IFN-γ或其组合处理该细胞系。在一些实施方案中，所述细胞群体包含至少10⁵个细胞、至少10⁶个细胞或至少10⁷个细胞。在一些实施方案中，所述细胞群体是树突细胞、巨噬细胞、癌细胞或B细胞的群体。在一些实施方案中，所述细胞群体包含肿瘤细胞。

Claims

1.一种开发治疗剂或生成肽数据库的方法，其包括：

（a）在细胞中表达亲和受体标记的HLA蛋白，其中所述亲和受体标记的HLA蛋白包含由受试者表达的HLA等位基因所编码的序列，其中所述亲和受体标记的HLA蛋白由重组多核酸编码，该重组多核酸包含：

（i）由受试者表达的HLA等位基因的编码序列，该序列连接至

（ii）编码亲和受体肽的序列，

从而形成亲和受体标记的HLA-肽复合物，其中所述亲和受体标记的HLA-肽复合物包含跨膜结构域，不被排出，并且在表达时并入细胞膜中；

（b）鉴定所述亲和受体标记的HLA-肽复合物的HLA等位基因特异性肽或复合物；以及

（c）（i）基于所鉴定的HLA等位基因特异性肽或复合物的一个或多个序列开发治疗剂，或（ii）生成包含所鉴定的HLA等位基因特异性肽或复合物的一个或多个序列的HLA等位基因特异性肽数据库；

其中所述治疗剂包括：

（1）包含所述一个或多个序列的一种或多种肽，

（2）编码所述一种或多种肽的多核苷酸，

（3）包含所述一种或多种肽的一种或多种APC，

（4）与所述一种或多种肽复合的HLA特异性T细胞受体，和/或

（5）包含与所述一种或多种肽复合的HLA特异性T细胞受体或嵌合T细胞受体的细胞。

2.根据权利要求1所述的方法，其中所述方法包括基于所鉴定的HLA等位基因特异性肽或复合物的一个或多个序列开发治疗剂。

3.根据权利要求2所述的方法，其中所述治疗剂对受试者是特异性的。

4.根据权利要求2所述的方法，其中所述治疗剂对疾病是特异性的。

5.根据权利要求2所述的方法，其中所述方法还向患有疾病的受试者施用所述治疗剂。

6.根据权利要求1所述的方法，其中所述治疗剂的所述一种或多种肽中的至少一种与所鉴定的相应HLA等位基因特异性肽长度相同或更长。

7.根据权利要求5所述的方法，其中所述方法进一步包括向所述受试者施用佐剂。

8.根据权利要求5所述的方法，其中所述疾病是癌症、自身免疫性疾病或感染性疾病。

9.根据权利要求1所述的方法，其中所述方法进一步包括基于所鉴定的HLA等位基因特异性肽或复合物的一个或多个序列，配制对表达所述HLA等位基因的受试者具有特异性的治疗剂。

10.根据权利要求1所述的方法，其中所述亲和受体标记的HLA-肽复合物的肽被所述细胞内源加工并呈递。

11.根据权利要求1所述的方法，其中所述亲和受体标记的HLA-肽复合物的肽是内源肽。

12.根据权利要求1所述的方法，其中所述重组多核酸包含编码第一亲和受体标记的HLA的第一序列和编码第二亲和受体标记的HLA的第二序列，

其中所述第一序列包含

（a）编码第一HLA的第一HLA等位基因的序列，其连接至

（b）编码第一亲和受体肽的序列；

其中所述第二序列包含

（c）编码第二HLA的第二HLA等位基因的序列，其连接至

（d）编码第二亲和受体肽的序列；

其中所述第一HLA等位基因和所述第二HLA等位基因是不同的HLA。

13.根据权利要求1所述的方法，其中鉴定包括鉴定HLA等位基因特异性肽的序列。

14.根据权利要求1所述的方法，其中鉴定包括鉴定与受试者表达的HLA等位基因结合的HLA等位基因特异性肽。

15.根据权利要求1所述的方法，其中鉴定包括确定所述亲和受体标记的HLA-肽复合物的HLA等位基因特异性肽或复合物的来源蛋白质的表达水平。

16.根据权利要求15所述的方法，其中所述表达水平通过测量所述来源蛋白质的量或编码所述来源蛋白质的RNA的量来确定。

17.根据权利要求1所述的方法，其中鉴定包括表征所述亲和受体标记的HLA-肽复合物的HLA等位基因特异性肽或复合物。

18.根据权利要求1所述的方法，其中鉴定包括进行生化分析、质谱分析、MS分析、MS/MS分析、LC-MS/MS分析或其组合。

19.根据权利要求1所述的方法，其中鉴定包括评价与亲和受体标记的HLA-肽复合物结合的肽的序列的结合亲和力或稳定性。

20.根据权利要求1所述的方法，其中鉴定包括确定与所述亲和受体标记的HLA-肽复合物结合的肽的序列是否含有突变。

21.根据权利要求1所述的方法，其中鉴定包括评价所述亲和受体标记的HLA-肽复合物中的肽与HLA分子的缔合。

22.根据权利要求1所述的方法，其中鉴定包括进行质谱分析。

23.根据权利要求22所述的方法，其中鉴定包括进行串联质谱分析。

24.根据权利要求1所述的方法，其中鉴定包括将HLA等位基因特异性肽的MS/MS谱与包含从亲和受体标记的HLA-肽复合物中分离的肽的多个MS/MS谱的肽数据库进行比较。

25.根据权利要求1所述的方法，其中鉴定包括鉴定能够激活来自受试者的T细胞的HLA等位基因特异性复合物。

26.根据权利要求1所述的方法，其中所述细胞表达由所述细胞正常表达的HLA等位基因所编码的内源HLA蛋白。

27.根据权利要求1所述的方法，其中所述细胞是原代细胞。

28.根据权利要求27所述的方法，其中所述细胞来自患有疾病的受试者。

29.根据权利要求1所述的方法，其中所述细胞是细胞系。

30.根据权利要求29所述的方法，其中所述细胞是缺乏一种或多种内源HLA I类等位基因或一种或多种内源HLA II类等位基因的工程细胞。

31.根据权利要求1所述的方法，其中所述细胞是抗原呈递细胞APC。

32.根据权利要求1所述的方法，其中所述方法包括从所述亲和受体标记的HLA-肽复合物中分离肽。

33.根据权利要求1所述的方法，其中所述方法包括分离亲和受体标记的HLA-肽复合物或表达亲和受体标记的HLA-肽复合物的细胞。

34.根据权利要求1所述的方法，其中所述方法包括富集亲和受体标记的HLA-肽复合物。

35.根据权利要求34所述的方法，其中富集包括免疫沉淀亲和受体标记的HLA-肽复合物。

36.根据权利要求1所述的方法，其中富集包括使亲和受体肽特异性结合分子与所述细胞接触。

37.根据权利要求36所述的方法，其中所述亲和受体肽是生物素受体蛋白BAP。

38.根据权利要求37所述的方法，其中所述亲和受体肽特异性结合分子是生物素或对所述亲和受体肽具有特异性的抗体。

39.根据权利要求37所述的方法，其中富集包括接触对所述亲和受体肽特异性结合分子具有特异性的亲和分子。

40.根据权利要求39所述的方法，其中所述亲和分子是链霉亲和素或NeutrAvidin。

41.根据权利要求34所述的方法，其中富集包括从所述细胞中富集表达亲和受体标记的HLA-肽复合物的完整细胞。

42.根据权利要求34所述的方法，其中所述方法包括在富集之前裂解所述细胞。

43.根据权利要求1所述的方法，其中所述方法包括在所述细胞中表达肽文库。

44.根据权利要求43所述的方法，其中所述肽文库包括与疾病相关的肽的文库。

45.根据权利要求1所述的方法，其中所述方法包括将来自病变细胞的HLA-肽复合物与来自非病变细胞的HLA-肽复合物进行比较。

46.根据权利要求1所述的方法，其中所述方法包括生成HLA等位基因特异性肽数据库，该数据库包含所鉴定的HLA等位基因特异性肽或复合物的一个或多个序列。

47.根据权利要求46所述的方法，其中所述方法进一步包括用所述HLA等位基因特异性肽数据库训练机器。

48.根据权利要求46所述的方法，其中所述方法进一步包括生成用于鉴定HLA等位基因特异性结合肽的预测算法。

49.根据权利要求47所述的方法，其中所述机器组合一个或多个线性模型、支持向量机、决策树和神经网络。

50.根据权利要求47所述的方法，其中用来训练所述机器的变量包括一个或多个选自下组的变量：肽序列、氨基酸物理性质、肽物理性质、细胞内肽的来源蛋白质的表达水平、蛋白质稳定性、蛋白质翻译速率、泛素化位点、蛋白质降解速率、来自核糖体概况分析的翻译效率、蛋白质可切割性、蛋白质定位、促进TAP转运的宿主蛋白质基序、经历自噬的宿主蛋白质、有利于核糖体停顿的基序和有利于无义介导的降解NMD的蛋白质特征。

51.根据权利要求50所述的方法，其中所述有利于核糖体停顿的基序包含聚脯氨酸或聚赖氨酸段。

52.根据权利要求50所述的方法，其中所述有利于NMD的蛋白质特征选自长3’ UTR、最后一个外显子:外显子连接上游超过50个核酸的终止密码子和肽可切割性。