CN113593649A

CN113593649A - 一种利用hla-i候选肽库鉴定组织中提取的天然抗原肽的方法

Info

Publication number: CN113593649A
Application number: CN202110882566.1A
Authority: CN
Inventors: 罗筱筱; 梁志清; 阎萍
Original assignee: First Affiliated Hospital of Army Medical University
Current assignee: First Affiliated Hospital of Army Medical University
Priority date: 2021-08-02
Filing date: 2021-08-02
Publication date: 2021-11-02
Anticipated expiration: 2041-08-02
Also published as: CN113593649B

Abstract

本发明公开了一种利用HLA‑I候选肽库鉴定组织中提取的天然抗原肽的方法，包括以下步骤：S1：构建HLA‑I候选肽库；S2：高通量质谱鉴定HLA‑I类分子相关肽复合物；S3：基于HLA‑I候选肽库鉴定HLA‑I类分子相关肽复合物；S4：鉴定样品HLA‑I基因型；S5：基于候选肽与HLA‑I类分子结合力筛选HLA‑I类分子相关免疫肽组。本发明弥补质谱鉴定免疫肽组专用数据库的空白，解决因数据库不匹配造成的高通量质谱鉴定HLA‑I类分子相关肽组时搜索空间过大、错误发生率高的问题；克服临床上因患者HLA‑I基因型多态性分布造成的困难，实现免疫肽组的个体化鉴定；有效提高了高通量质谱鉴定HLA‑I类分子相关免疫肽组的准确性和效率，为肿瘤个体化治疗性疫苗的研发提供了高效可靠的方法，具有很高的临床实用价值。

Description

一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法

技术领域

本发明涉及分子生物学技术领域，特别是涉及一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法。

背景技术

免疫治疗是肿瘤治疗的研究热点，治疗性疫苗因靶向性和安全性的特点而备受关注。免疫系统通过肿瘤特异性或相关抗原准确识别肿瘤细胞并对其进行免疫杀伤。肿瘤治疗性疫苗旨在激活或增强机体抗肿瘤抗原的特异性免疫反应，进而靶向清除肿瘤细胞。目前FDA已批准前列腺癌和黑色素瘤的治疗性疫苗上市，并获得安全有效的临床效果，证实了治疗性疫苗的价值和前景。

肿瘤治疗性疫苗研发的关键问题是肿瘤特异性或相关抗原的鉴定。主要组织相容性复合体(Major Histocompatibility Complex，MHC)是与免疫反应密切相关的一组基因，人类MHC系统被称为人类白细胞抗原(human leukocyte antigen，HLA)。有核细胞内源性合成的蛋白抗原可通过泛素化-蛋白酶体途径被降解成短肽，并由抗原加工相关转运体转运至内质网中由氨基肽酶优化，再由钙网蛋白等伴侣分子促进肽与MHC-Ⅰ类分子形成稳定的复合物后呈递到细胞表面，使CD8⁺T细胞能够识别和消除病毒感染的细胞和/或肿瘤细胞。人肿瘤细胞表面经HLA-I类分子提呈的肽数量数以万计，被称为HLA-Ⅰ类分子相关免疫肽组，其中就包含了肿瘤治疗性疫苗关键的肿瘤相关/特异性抗原肽。

高通量质谱因具有分析复杂混合物的能力成为HLA-I相关免疫肽组析鉴定的理想策略。尽管质谱仪器分辨率和准确性不断提高，但近期的研究提示传统蛋白质组学采用的常规人类蛋白质数据库不适于鉴定仅含8-12个氨基酸的HLA-Ⅰ类分子相关免疫肽组，主要归因于常规蛋白质数据库采用非特异性的随机理论酶切，无法涵盖所有蛋白酶体剪接的产物。例如非经典阅读框和非经典裂解肽，它们均无法利用常规蛋白质数据库进行光谱分配和鉴定。同时，无法通过指定蛋白水解酶的裂解特异性来缩小潜在光谱匹配的数量，导致在估算质谱图的错误发生率升高，最终鉴定到的肽氨基酸分配组成不能完全代表样品中的真实肽。蛋白质组学研究提出，可以通过将数据库内容限制为仅可能存在于样品中的所有肽段，不仅可避免理论随机酶切早造成的氨基酸组成不可控，同时可缩小搜索空间，改善总体错误发生率。因此，构建HLA-I相关免疫肽组数据库取代常规蛋白质数据库在肽组中的鉴定，能改进现有免疫肽组鉴定的缺陷，有效提高肽组鉴定的准确性和效率。

HLA-I等位基因具有高度多态性，对每个样品建立个性化肽组数据库成本过高，不利于临床推广。同时，为避免无效搜索空间过大，也并不适用于将所有可能与HLA-I分子结合的短肽全部收录于肽组数据库。更重要的是，我们的实验发现同一蛋白抗原在不同患者体内被酶切为不同的抗原肽递呈给CD8⁺T细胞，证实了HLA-I类分子相关免疫肽组需要个体化的鉴定。为解决上述问题，我们设想构建HLA-I候选肽库，即不区分HLA-I基因型别，仅考虑HLA-I类分子结合肽的长度特征，构建8-mer～12-mer长度氨基酸序列的候选肽库，用于肽复合物的质谱数据匹配鉴定。在完成无HLA型别限制的搜索后，再对应患者的HLA-I基因型，预测候选肽与特定HLA分子结合而的亲和力，最终筛选高亲和力的肽，即为该患者个体化的HLA-I类分子相关肽组。

因此构建HLA-I候选肽库并基于此鉴定HLA-I类分子相关免疫肽组能提高肽组鉴定的效率和准确性，为肿瘤相关/特异性抗原肽的筛选提供更高效可靠的方法，从而为肿瘤治疗性疫苗的研发夯实基础。

发明内容

针对上述现有技术的不足，本专利申请所要解决的技术问题是如何提供一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，以提高肽组鉴定的效率和准确性，为肿瘤相关/特异性抗原肽的筛选提供更高效可靠的方法，从而为肿瘤治疗性疫苗的研发夯实基础。

为了解决上述技术问题，本发明采用了如下的技术方案：

一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，包括以下步骤：

S1：构建HLA-I候选肽库；

S2：高通量质谱鉴定HLA-I类分子相关肽复合物；

S3：基于HLA-I候选肽库鉴定HLA-I类分子相关肽复合物；

S4：鉴定样品HLA-I基因型；

S5：基于候选肽与HLA-I类分子结合力筛选HLA-I类分子相关免疫肽组。

其中，步骤S1中包括以下步骤：

A1：基础蛋白质数据库的选择：选择Universal protein和Human isoformprotein；

A2：构建HLA-I候选肽库，利用SeqKit工具对每个蛋白质的氨基酸序列进行虚拟酶切。

对蛋白质氨基酸序列虚拟酶切时，包括以下步骤：

A11：合并Universal Protein和Human isoformprotein数据库；

A12：使用SeqKit工具中的sliding命令虚拟酶切A11中合并的数据库中的蛋白质氨基酸，使得HLA-I类分子结合肽的氨基酸长度为固定的8-mer、9-mer、10-mer、11-mer和12-mer；

A13：将虚拟酶切所得的8-mer～12-mer长度的短肽合并成数据库，处理成fasta格式，完成HLA-I候选肽库的构建。

其中，步骤S2中，高通量质谱鉴定通过免疫亲和纯化技术萃取的HLA-I类分子相关肽复合物，质谱进样步骤如下：

N1：用20μL1％FA将冻干的肽样品复溶；

N2：上样到带有捕获柱Acclaim^TMPepMap^TM100,75μmx 15cm,C18,3μm,

Thermo Fisher Scientific的分析柱上Acclaim^TMPepMap^TM100,75μmx2cm,C18,3μm,

Thermo Fisher Scientific；

N3：通过反向色谱法进行分离，设置为106分钟梯度，流速为300nL/分钟；

N4：由溶剂A和溶剂B组成的梯度：1％B持续13分钟，1～30％B持续70分钟，30～90％B持续10分钟，90％B持续2分钟以90～1％B持续1，1％B持续10分钟，溶剂A为0.1％甲酸水溶液，溶剂B为0.1％甲酸在80％乙腈中；

N5：肽样本在2.5KV毛细管电压，300℃毛细管温度下通过纳米电子喷雾电离NSI喷雾到LTQ Orbitrap中，该纳米电子喷雾在数据依赖的模式下运行；

N6：在轨道阱中以60.000的分辨率获得了350.0m/z–1800.0m/z的分辨率；

N7：离子阱中MS/MS扫描，之后是该扫描中前16个最丰富的前体离子的乘积离子扫描，相对CID能量35，在轮廓模式下记录MS扫描，而在质心模式下记录MS/MS；

N8：在LTQ-Orbitrap Velos Pro MS光谱仪Thermo中以2.0单位的隔离宽度和35的归一化碰撞能获得产物离子扫描Fisher Scientific；

N9：在相同条件下对所有样品进行3-5次技术重复分析。

其中，步骤S3中，包括以下步骤：

M1：选择搜索工具；

M2：加载HLA-I候选肽库；

M3：进行参数设置；

M4：进行鉴定结果统计，并以Excel形式输。

其中，步骤S4中，鉴定样品HLA-I基因型采用通过CFDA认证的HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DQB1核酸分型检测试剂盒PCR-SBT法。

其中，步骤S5中，HLA-I类分子相关免疫肽组的鉴定需结合对应的HLA型别逐一进行表位预测评估。

综上，本发明公开的HLA-I候选肽库弥补了目前质谱鉴定免疫肽组专用数据库的空白，解决了因数据库不匹配造成的高通量质谱鉴定HLA-I类分子相关肽组时搜索空间过大、错误发生率高等问题。同时，先进行HLA基因不分型的搜索匹配，再根据特定HLA基因型进行结合力预测筛选的方法也克服了临床上因患者HLA-I基因型多态性分布造成的鉴定困难，实现了免疫肽组的个体化鉴定。综上，基于HLA-I候选肽库建立的整套鉴定方法有效提高了HLA-I类分子相关免疫肽组鉴定准确性和效率，为肿瘤治疗性疫苗的研发提供了更为准确和个体化的方法，具有很高的临床实用价值。

附图说明

图1为两个数据库鉴定出的HLA-I候选肽数量比较图；

图2为两个数据库鉴定的HLA-I候选肽总数比较图；

图3为正常宫颈组织中两个数据库鉴定HLA-I类分子相关免疫肽总数比较图；

图4为宫颈癌组织中两个数据库鉴定HLA-I类分子相关免疫肽总数比较图。

具体实施方式

下面结合附图对本发明作进一步的详细说明。在本发明的描述中，需要理解的是，方位词如“上、下”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制；方位词“内、外”是指相对于各部件本身的轮廓的内外。

实施例一：

S1：构建HLA-I候选肽库；

S2：高通量质谱鉴定HLA-I类分子相关肽复合物；

S3：基于HLA-I候选肽库鉴定HLA-I类分子相关肽复合物；

S4：鉴定样品HLA-I基因型；

目前并没有针对HLA-I类分子相关免疫肽组鉴定的专用数据库，仍然沿用蛋白质组学鉴定所用的常规蛋白质数据库，在鉴定中出现数据假阳性高，异型性高和无效鉴定等严重干扰实验数据的问题。因此，我们创新性的构建了HLA-I候选肽数据库，用以提高肽组鉴定的效率和准确性。其主要的优势和特点在于整个数据库中包含的对象均为符合目标肽的长度特征的候选肽，更准确的进行无酶切的搜索匹配，获得精确可靠的结果。

其中，构建HLA-I候选肽库包括以下步骤：

A1：基础蛋白质数据库的选择：HLA-I候选肽库包含的是已知序列的人类蛋白质被人工切割成特定长度的氨基酸序列集，所以人类蛋白质库是制作的基础。从数据库涵盖量和公信程度等方面考虑，采用以下两个蛋白质数据库用以构建HLA-I候选肽库：Universalprotein和Human isoform protein；

UniProt是Universal Protein的英文缩写，是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据而成。它的数据主要来自于基因组测序项目完成后，后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。本发明使用的UnIACrot数据库(UnIACrotKB)是2018年7月18日发布的版本，其中包含人类蛋白质的数据是20386条，人类蛋白同型蛋白的数据是19624条。

人类蛋白图谱的次要修订版，基于与版本18相同的数据。超过26,000种抗体，靶向来自将近17,000个人类基因(约占人类蛋白质编码基因的87％)的蛋白质。病理图集已更新，具有更多功能丰富的交互式生存散布图。由于存在各种蛋白质变异(同种型)，包括翻译后修饰，剪接变异，蛋白水解产物，遗传变异和体细胞重组，人类蛋白质组的结构空间很大且多种多样。例如，由于体细胞重组和靶向突变的复杂过程，给定时间人体中有数千万种不同的IgG分子。此外，大部分蛋白质编码基因(约80％)具有剪接变异体，可产生不同大小的蛋白质产物。类似地，作为各种蛋白质组学工作的一部分，已经报道了成千上万的翻译后修饰，许多蛋白质依赖于精确的蛋白水解作用进行激活。此外，由于“1000基因组计划”的结果，在蛋白质编码区域中，据报道，人口个体之间大约有320000个变异。总之，由于存在多种蛋白质同工型，因此极大地增加了19670种蛋白质编码基因的人类多样性。考虑到人类蛋白广泛存在剪接变体，补充该数据库作为定制肽库的基本数据。本实验采取的版本发布日期为2018年11月15日，整体版本为88.38。

A2：构建HLA-I候选肽库，利用SeqKit工具进行对每个蛋白质的氨基酸序列进行虚拟酶切。SeqKit为所有主要操作系统(包括Windows，Linux和Mac OS X)提供可执行的二进制文件，并且可以直接使用而无需任何依赖项或预先配置。与类似工具相比，SeqKit展示了在执行时间和内存使用方面的竞争性能。SeqKit的效率和可用性使研究人员能够快速完成常见的FASTA/Q文件操作。为用于FASTA/Q处理的跨平台超快速综合工具包。

该工具具有以下优势：跨平台(Linux/Windows/Mac OS X/OpenBSD/FreeBSD)；无依赖项，无编译，无配置；UltraFast支持多个CPU；28个子命令支持的实用功能；支持Bash补全；无缝解析FASTA和FASTQ格式；支持STDIN和gzIAC压缩后的输入/输出文件；使用pgzIAC包可以非常快速地写入gzIAC文件(gzIAC的10倍，pigz的4倍)；支持自定义序列ID正则表达式(对于使用ID列表进行搜索特别有用)；组织良好的源代码，易于使用且易于扩展。

综上，采用SeqKit(https://github.com/shenwei356/seqkit)工具进行对每个蛋白质的氨基酸序列进行虚拟酶切。

对蛋白氨基酸序列虚拟酶切时，包括以下步骤：

A11：合并Universal Protein和Human isoform protein数据库；

A12：使用SeqKit工具中的sliding命令虚拟酶切A11中合并的数据库中的蛋白质氨基酸，使得HLA-I类分子结合肽的氨基酸长度为固定的8-mer～

12-mer；蛋白质氨基酸序列正序方向为氮端到碳端。从氮端第1个氨基酸开始，将切割框(固定氨基酸数量的切割范围)设置为8-mer，开始虚拟酶切。每完成1次虚拟酶切，切割框立即按照正序方向依次移动1个氨基酸位置，直到该蛋白质酶切完成，然后立即进行蛋白质数据库中下一个蛋白质的虚拟酶切。此过程不断循环直至蛋白质数据库中所有蛋白质完成虚拟酶切，并保存虚拟酶切产生的每个8-mer长度的短肽。同理完成切割框为9-mer、10-mer、11-mer和12-mer长度的蛋白质数据库内所有蛋白质的虚拟酶切，同时保存各长度的短肽。

A13：将虚拟酶切所得的8-mer～12-mer长度的短肽合并成数据库，处理成fasta格式，完成HLA-I候选肽库的构建。基于虚拟酶切设置的氨基酸长度，共获得8-mer短肽共65537374条，9-mer短肽共65341171条，10-mer短肽共65145080条肽，11-mer短肽共64949111条，12-mer短肽共64753276条。因将上述5种长度的短肽数据合并后数据库内容过多，造成数据库加载困难和质谱数据比对搜索空间过大，我们将其按照长度归类，最终处理成fasta格式HLA-I候选肽库的五个部分。因虚拟酶切获得的肽并不全都能与HLA-I类分子结合，所以本数据库内包含的肽只能被认为是HLA-I类分子相关肽的候选肽，即将数据库简称为HLA-I候选肽库。

其中，步骤S2中，高通量质谱鉴定通过免疫亲和纯化技术萃取的HLA-I类分子相关肽复合物，同一样品用相同的参数和条件重复进样，弥补单次进样获得的肽复合物数据不尽完整，多次进样可以尽可能的获得更为全面的HLA-I类分子结合肽数据。质谱进样步骤和参数如下：

N1：用20μL1％FA将冻干的肽样品复溶；

N2：上样到带有捕获柱Acclaim^TMPepMap^TM100,75μmx 15cm,C18,3μm,

Thermo Fisher Scientific；

N9：在相同条件下对所有样品进行3-5次技术重复分析。

其中，基于HLA-I候选肽库鉴定HLA-I类分子相关肽复合物，高通量质谱可以鉴定通过各种提取纯化方法获得的肽复合物，但质谱技术是利用电磁学原理，使带电的样品离子按质荷比(Mass-to-charge ratio，m/z)进行分离，从而确定其分子量，利用这些质量信息对分子进行鉴定的技术。因此，高通量质谱输出的肽分子量以及各种差值，需要在对应的数据库内进行搜索，才能最终鉴定出肽的氨基酸序列。搜索过程即是将质谱所得的肽分子量与数据库内各种氨基酸序列组合的分子量进行匹配和评分，输出符合标准的可信肽氨基酸序列。包括以下步骤：

M1：选择搜索工具；搜索工具众多，各自的核心算法和优劣势各不相同，其选择主要考虑与质谱仪器型号的对应。根据本发明涉及的高分辨质谱型号(U3000nano&LTQOrbitrap Velos Pro，ThermoFisher)，使用与之匹配的Sequest HT搜索引擎(版本1.4.0.288，Thermo Fisher Scientific)加载HLA-I候选肽库，匹配质谱鉴定结果。

M2：加载HLA-I候选肽库；

在搜索引擎中加载fasta.gz格式的HLA-I候选肽数据库。因组织样本中获取的HLA-I肽长度分布为8-12mer，所以同一质谱数据需要搜索HLA-I候选肽库8-mer，9-mer，10-mer，11-mer，12-mer五个部分，最后将结果合并。

M3：进行参数设置；

(1)precursor ion mass tolerance 5ppm；

(2)fragment ion mass tolerance 0.8Da；

(3)no enzyme specificity；

(4)monoisotopic methionine oxidation/+15.995Da(M)；

(5)FDR 5％。

M4：进行鉴定结果统计，并以Excel形式输。完成HLA-I候选肽库搜索后，将结果以Excel形式输出。结果包括以下部分：Sequence(氨基酸序列)、Proteins(来源蛋白)、Modifications(修饰，如甲基化、氧化等)、q-Value等。

其中，鉴定样品HLA-I基因型，因需高分辨分型鉴定，采用通过CFDA认证的HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DQB1核酸分型检测试剂盒(PCR-SBT法)。首先根据已知人类白细胞抗原基因序列设计群组特异性和基因特异性引物，当引物序列与待测目标序列能完全匹配时，进行聚合酶链式(Polymerase Chain Reaction,PCR)反应。在反应过程中，目标核酸片段将被复制与放大，说明在样本中存在与特异性引物完全相同的基因序列，反之则否。利用琼脂糖凝胶电泳法对PCR反应结果进检测分析。当电泳胶经溴化乙锭染色后通过凝胶成像系统分析，核酸片段会因大小不同而被分开来。经过电泳初步鉴定的反应扩增物会被纯化进行下一步的测序分析以鉴定各个等位基因的序列。最后利用分型软件进行人类白细胞抗原分型鉴定分析。

其中，基于候选肽与HLA-I类分子结合力筛选HLA-I类分子相关免疫肽组，HLA-I类分子相关免疫肽组的鉴定需结合对应的HLA型别逐一进行表位预测评估。HLA-I类分子相关免疫肽组是能与HLA-I类分子结合的肽总和，因此肽与HLA-I类分子是否能结合是关键。经过前述步骤获得的HLA-I候选肽并非全能与HLA-I类分子结合，所以还需表位预测来判断肽与HLA-I分子的结合力。尤其人类HLA基因型别数量众多且呈多态分布，组合形式更是不计其数，因此HLA-I类分子相关免疫肽组的鉴定需结合对应的HLA型别逐一进行表位预测评估。

本发明中所使用的表位预测网站为互联网上公认预测效果准确性较高的表位预测网站之一，因该网站所包含的HLA表位人类HLA表位繁多的需求。NetMHCpan软件用于预测肽段与HLA-I分子的结合亲和性，v4.1为最新版本，基于人工神经网络算法，以180000多个定量结合数据和质谱衍生的MHC洗脱配体的组合作为训练集构建模型。结合亲和力的数据来自多个物种的MHC分子，如人，小鼠，猪等,包含超过55个人和小鼠的HLA等位基因。

1.表位预测的方法

网站识别fasta格式的蛋白序列，或者直接将氨基酸序列输入搜索框，选择肽长度peptide length(8-12merpeptides)，然后选择HLA allel，如HLA-A1101，每个样品有3-6个HLA allel，根据其本身的HLA typing选择好之后提交。输出结果中的Pos对应预测的肽段在原始序列上的起始位置，第一个位置从0开始计数。Core对应与MHC结合的肽段序列，和blast类似，允许插入和缺失。％Rank表示该肽段是一个天然存在的肽段的可能性，数值越小越好，网站按照Rank值来筛选结果，默认Rank值在0.5-2之间的定义为弱亲和性，小于0.5为强亲和性，基于此，最后一列的BindLevel代表亲和力的强弱水平，SB表示strongbinding，即强结合力，WB表示weak binding，即弱结合力。

2.统计学分析

以上实验获得的MHC-I相关肽的数据采用SPSS 22.0进行统计分析，两组数据之间比较采用独立样本t检验，3组以上数据比较则采用了单因素方差分析(One-Way analysisofvariance，One-Way ANOVA)。方差齐则采用Tukey事后检验，不齐则采用Dunnett’s T3事后检验。统计分析后的数据表示为平均值±标准差(mean±SD)或者平均值±标准差(mean±SEM)。一般情况认为P＜0.05有统计学意义。

实施例二：

为验证利用HLA-I候选肽库鉴定HLA-I类分子相关免疫肽组方法的优势，将免疫亲和纯化提取的HLA-I类分子相关肽复合物，用传统蛋白质组学的质谱鉴定方法和本发明的方法分别进行鉴定，并统计对比两个数据库输出的结果。

HLA-I类分子相关肽复合物样品信息

样品来源：利用免疫亲和纯化技术直接从人类宫颈癌组织和正常宫颈组织中提取HLA-I类分子相关肽复合物。

样品数量：21对宫颈癌组织和对应的正常宫颈组织来源HLA-I类分子相关肽复合物。

高通量质谱鉴定HLA-I类分子相关肽复合物

高分辨质谱鉴定21对宫颈癌组织和癌旁组织中通过免疫亲和纯化法提取的HLA-I类分子相关肽复合物，同一样品用相同的参数和条件重复进样3-5次，每次均获得文件格式为RAW的质谱数据。以NO.17号样品为例(表1)，单次进样获得的数据不尽完整，多次进样可以尽可能的获得更为全面的HLA-I类分子相关肽复合物的数据。

表1 NO.17样品的高通量质谱数据

17为样品编号，C表示宫颈癌组织，N表示正常宫颈组织，后为多次进样质谱仪器产生的随机编号。

基于两个数据库鉴定HLA-I类分子相关肽复合物

基于常规蛋白质数据库鉴定HLA-I类分子相关肽复合物

SEQUEST作为搜索软件处理上述RAW文件，根据蛋白质组学的研究方法，常规加载蛋白质数据库对样品中的肽进行比对鉴定，然后以Excel形式输出。因技术重复得到数据可以互相补充，我们将重复进样的数据合并用以分析和筛选。即每个样品重复进样3-5次，则需将获得的数据合并同时去除重复项目，用以进一步的分析。

基于HLA-I候选肽库鉴定HLA-I类分子相关肽复合物

SEQUEST加载HLA-I候选肽库搜索上述RAW文件，然后以Excel形式输出。同样，将重复进样的数据合并去重复后用以进一步的分析。

鉴定样品HLA-I基因型

因为肽与HLA-I类分子的结合力预测需要对应的HLA-I型别，我们对21位患者HLA-I的型别进行了鉴定，由结果可见(表2)。

表2 21例患者HLA-I基因型

在结果的判读中，遇到包含G或P的表示形式，具体原因及命名原则说明如下G组：在HLA的等位基因上，若在编码为肽结合区域的外显子中有着相同的核苷酸序列，这些等位基因在命名上可用号码最小的等位基因的前3码加上一个大写G作为代表。P组：HLA的对偶基因中，若在肽结合区域上是以相同的核苷酸序列编码而成相同的蛋白质序列，则这些等位基因在命名上可用号码最小的等位基因的前2码加上一个大写P作为代表。

基于候选肽与HLA-I类分子结合力筛选HLA-I类分子相关免疫肽组。

将两个数据库分别搜索出的肽利用NetMHCpan4.0预测与HLA-I分子的结合力，按照网站默认的判断肽与HLA-I分子亲和力的Rank值范围，我们统计样品中所有rank≤2％的肽。

常规蛋白质数据库的鉴定结果由于不限制酶切的原因，肽的氨基酸序列长度不定，所以需要长度筛选。根据与HLA-I类分子结合的肽长度为8-12个氨基酸，筛查出该符合长度要求的肽序列，再进行结合力预测。

HLA-I候选肽库的鉴定结果可直接进行结合力预测。

两个数据库鉴定结果对比

①HLA-I候选肽库提高了候选肽鉴定的数量

通过HLA-I候选肽库，21例癌组织以及对应的21例癌旁组织获得的候选肽的数量相较于常规蛋白质数据库的鉴定结果，均有显著的增加，如图1和图2。

Protein-DB表示常规蛋白质数据库，peptide-DB表示HLA-I候选肽库。Paracancer为癌旁正常宫颈组织，cancer为宫颈癌组织。21例正常宫颈组织和癌组织中获取的候选肽分别比较，均有显著差异(P＜0.01)。

HLA-I候选肽库在正常宫颈组织中鉴定候选肽的总数较常规蛋白质数据库鉴定肽总数提高了3.09倍，在宫颈癌组织中提高了3.11倍。

②HLA-I候选肽库提高了鉴定肽的质量

利用netMHCpan4.0的预测结果来筛选候选肽中真正的HLA-I类分子相关肽。将两个数据库过滤的肽进行结合力预测，再进行数量比较。数据显示相较常规蛋白质数据库，正常宫颈组织中搜索出的低亲和力和高亲和力的肽都得到显著的提高，如图3。同样，用HLA-I候选肽库搜索得到的宫颈癌组织中强和弱亲和力的肽数量均有显著提高，如图4。

根据netMHCpan4.0计算的％rank值，低于0.5判断为strong binder，0.5与2之间判断为weak binder。21例正常宫颈组织中经HLA-I候选肽库过滤的strong binder较常规蛋白质数据库增加了3.39倍，同时weak binder的总数增加了3.02倍。

21例癌组织中经HLA-I配体组候选肽库搜索获得的strong binder较常规蛋白质数据库增加了2.65倍，同时weak binder的总数增加了2.43倍。

以上结果说明HLA-I候选肽库较常规蛋白质数据库在针对HLA-I类分子结合肽的鉴定上具有显著的优势。不仅提高了HLA-I结合肽的鉴定数量，更为有意义的是提高了strong binder的数量。Strong binder在netMHCpan4.0的计算系统中被评估为与HLA-I分子有很强结合力的短肽，现我们通过HLA-I候选肽库大幅度的提升了这部分肽段的鉴定能力，对进一步筛选肿瘤抗原肽具有很大的意义。

最后应说明的是：本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等统计数的范围之内，则本发明也意图包含这些改动和变型。

Claims

1.一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，其特征在于，包括以下步骤：

S1：构建HLA-I候选肽库；

S2：高通量质谱鉴定HLA-I类分子相关肽复合物；

S3：基于HLA-I候选肽库鉴定HLA-I类分子相关肽复合物；

S4：鉴定样品HLA-I基因型；

2.根据权利要求1所述的一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，其特征在于，步骤S1中包括以下步骤：

A1：基础蛋白质数据库的选择：选择Universal protein和Human isoform protein；

3.根据权利要求2所述的一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，其特征在于，对蛋白质氨基酸序列虚拟酶切时，包括以下步骤：

A11：合并Universal Protein和Human isoform protein数据库；

4.根据权利要求1所述的一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，其特征在于，步骤S2中，高通量质谱鉴定通过免疫亲和纯化技术萃取的HLA-I类分子相关肽复合物，质谱进样步骤如下：

N1：用20μL1％FA将冻干的肽样品复溶；

N2：上样到带有捕获柱Acclaim^TM PepMap^TM 100,75μm x 15cm,C18,3μm,

ThermoFisher Scientific的分析柱上Acclaim^TM PepMap^TM 100,75μm x 2cm,C18,3μm,

Thermo Fisher Scientific；

N9：在相同条件下对所有样品进行3-5次技术重复分析。

5.根据权利要求1所述的一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，其特征在于，步骤S3中，包括以下步骤：

M1：选择搜索工具；

M2：加载HLA-I候选肽库；

M3：进行参数设置；

M4：进行鉴定结果统计，并以Excel形式输。

6.根据权利要求1所述的一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，其特征在于，步骤S4中，鉴定样品HLA-I基因型采用通过CFDA认证的HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DQB1核酸分型检测试剂盒PCR-SBT法。

7.根据权利要求1所述的一种利用HLA-I候选肽库鉴定组织中提取的天然抗原肽的方法，其特征在于，步骤S5中，HLA-I类分子相关免疫肽组的鉴定需结合对应的HLA型别逐一进行表位预测评估。