CN113160887A

CN113160887A - 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法

Info

Publication number: CN113160887A
Application number: CN202110443345.4A
Authority: CN
Inventors: 蒋庆华; 许召春; 王平平; 周文洋
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-23
Anticipated expiration: 2041-04-23
Also published as: CN113160887B

Abstract

本发明公开了一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，包括：基于全外显子测序数据及转录组测序数据通过软件进行质控、比对等步骤获取新生突变肽库；使用HLA分型预测软件预测HLA‑I类分型；结合单细胞TCR测序及单细胞转录组测序，通过细胞类型注释、克隆频率分析寻找癌症特异性的CD8+T细胞受体；同时，基于集成深度学习通过peptide‑TCR相互作用预测模型鉴定短肽免疫原性，提出融合单细胞TCR测序数据的肿瘤新生抗原筛选方法，解决了传统肿瘤抗原筛选方法新生抗原错选漏选率高、免疫原性不足等问题。

Description

一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法

技术领域

本发明涉及肿瘤治疗性疫苗领域，具体涉及一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法。

背景技术

肿瘤的发生经常伴有多个基因的突变，新生抗原指的是由肿瘤细胞突变所产生的表位特异性抗原，只在肿瘤细胞上表达，从而不会导致机体的免疫耐受。肿瘤免疫治疗过程中，T细胞在监测杀死病理细胞方面起着不可或缺的作用。T细胞表面的T细胞受体(TCR)识别由HLA蛋白呈现的短肽，以抗原特异性的方式应对威胁。经典的CD8+T细胞，也被称为细胞毒性T细胞，识别HLA类I(HLA I)分子呈现的短肽，而CD4+ T细胞只识别HLA类II(HLA II)分子呈现的肽。这一过程被称为抗原识别，这是引起有效免疫反应的关键步骤。已有较多的研究显示以新生抗原为靶标的免疫治疗包括细胞免疫治疗和疫苗免疫治疗，在一些癌症患者上已经取得了不错的临床效果，因此筛选鉴定出肿瘤特异性“新生抗原”是mRNA肿瘤治疗性疫苗设计的关键环节，是实现个体化免疫治疗的基础。

传统经典的肿瘤特异性新生抗原筛选策略为：首先，使用下一代测序(NGS)平台全外显子测序或全基因组测序对原发性肿瘤的非同义突变进行表征；其次，利用RNA-seq测序获得患者HLA分型；最后，通过肽段与HLA复合物(pHLA)的结合亲和力预测工具--NetMHC、NetMHCstabpan、NetMHCPan，筛选高结合亲和力的突变肽序列。此策略基于癌症活检和正常组织的外显子测序数据，通过pHLA结合亲和力大小筛选潜在的同种异型特异性HLA配体，利用转录组数据表征抗原丰度，可以大大减少候选肽的数量，从而加速新表位实验验证进程，已成功应用于黑色素瘤患者的个体化新生抗原疫苗的研发，取得了不错的临床效果。然而，传统肿瘤新生抗原筛选方法未考虑T细胞作用，未基于T细胞免疫组库测序数据分析候选肽的免疫原性，导致只有极少数的短肽能引发有效的免疫反应，对大量候选肽的免疫活性再进行免疫学实验验证，费时费力。因此，融合T细胞免疫组库测序技术，重塑肿瘤新生抗原筛选体系，以筛选鉴定T细胞反应靶向的肿瘤特异性抗原肽，这将是肿瘤治疗性疫苗设计的一个范式转变。

此外，肿瘤新生抗原精准识别模型与算法是肿瘤新生抗原筛选的核心技术，一直是肿瘤治疗性疫苗领域的研究热点、难点问题。当前肿瘤新生抗原识别算法主要基于肽与HLA的结合亲和力数据及肽质谱测序数据建立，模拟哪些肽能被HLA分子呈递，结合抗原处理与转运数据能在一定程度上提升pHLA结合精准度。然而，通过当前新生抗原识别算法预测的大多数新生抗原在活体内不能引起免疫反应，识别免疫原性肽目前仍是一个未解决的问题。原因在于，与免疫原性相关的两个特征分别为pHLA复合物的稳定性和与其相互作用的T细胞受体(TCR)的功能亲和力,当前算法只能度量pHLA复合物的稳定性，而不能预测T细胞受体与抗原肽的相互作用。与抗体及其配体相比，抗原肽与TCR间相互作用的亲和力较低，需要特别敏感的生化技术来检测。而且，对所有潜在的免疫原性多肽进行实验测试耗时、耗力、费用高。因此，开发TCR识别的免疫原性肽的高通量预测方法是当务之急，以快速准确地识别免疫原性肽,这将对传染病、疫苗设计及癌症免疫学等许多研究领域产生革命性的影响。

市场需要一种免疫原性肿瘤新生抗原智能化筛选技术，为mRNA肿瘤治疗性疫苗研发提供理论指导与技术支持，本发明解决这样的问题。

发明内容

本发明的目的是针对上述现有技术中存在的缺陷，提供一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，综合运用生物技术与信息技术，开发肿瘤新生抗原智能化筛选技术，大幅提升免疫原性肿瘤新生抗原识别的特异性和灵敏度。

为了实现上述目标，本发明采用的技术方案是：一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，包括如下步骤：

一、肿瘤患者个体化新生突变肽库的构建：获取配对肿瘤组织和癌旁组织的全外显子测序(WES)数据及转录组测序(RNA-seq)数据，并进行质控分析、单核苷酸变异分析，构建个体化新生突变肽库，用于下游抗原筛选；

二、肿瘤患者HLA(人类白细胞抗原)基因分型(HLA typing)：通过肿瘤患者全外显子测序WES数据分析，利用能预测4位精度的HLA分型算法推断患者HLA-I分型，用于下游pHLA结合亲和力预测；

三、HLA-I抗原肽的识别：结合患者HLA基因分型及个体化新生突变肽库，利用多个HLA-I抗原呈递预测软件预测HLA与新生突变肽的结合亲和力，筛选高亲和力的HLA-I抗原肽，亲和力高的标准满足以下两个条件:1)平均亲和力小于等于50nM；2)结合亲和力的百分比rank平均得分小于2；

四、分析肿瘤患者及对照组外周血PBMC单细胞5’及V(D)J测序数据，识别癌种特异性TCR簇：执行V(D)J序列组装和成对克隆型检测，获取TCRαβ链相关信息，包括：CDR3区域、V基因、克隆型以及克隆频率；分析肿瘤患者与对照的TCR克隆型及克隆频率，识别肿瘤特异性TCR CDR3αβ序列；

五、细胞类型注释，识别CD8+T细胞对应的肿瘤特异性TCR序列：分析单细胞转录组数据，进行细胞类型注释，标注CD8+T细胞，根据Cell Barcode提取相应的TCR CDR3αβ序列；进而识别CD8+T细胞对应的肿瘤特异性TCR CDR3αβ簇；

六、免疫原性肿瘤新生抗原的识别：将预测的HLA-I抗原肽与肿瘤特异性TCR CDR3αβ序列组合配对，构建肽段与TCR相互作用预测模型，进而鉴定能被CD8+T细胞识别的免疫原性肿瘤新生抗原。

上述步骤一包括如下步骤：

1)获取肿瘤组织及患者匹配的癌旁组织WES数据，并进行质控分析，去除平均Phred分数低于20的read,并剪除标准的adapter；

2)将质控后的reads与NCBI人类参考基因组hg38进行比对，再生成包含具有高质量分数的校准reads的BAM文件，标记并删除重复reads；

3)进行重新校正，以减少变异检测假阳性；执行SNV检测与indel检测；排除所有等位基因分数小于0.05或覆盖率小于10×的突变，以消除假阳性位点；

4)注释所有体细胞突变，识别包括非同义突变、插入和缺失；对于单碱基变异SNVs，基因组变化直接应用于蛋白质组参考，提取相应的突变肽和正常肽，并将其切割成9mer的短肽；对于indels突变，通过翻译突变的cDNA序列推断出突变蛋白序列，产生9mer的短肽。

上述步骤五中的细胞类型注释，识别CD8+T细胞对应的肿瘤特异性TCR序列，包括如下步骤：

1)获取单细胞转录组数据，进行数据预处理：a)原始测序数据质量控制，去除测序接头以及引物序列，过滤低质量值的测序数据，确保数据质量；b)将经过质量控制后高质量的测序数据比对到人的参考基因组上，构建基因表达矩阵。

2)细胞质量控制，过滤低质量的细胞：a)识别和去除对应于空液滴的细胞条形码；b)识别和去除双细胞；c)识别和去除文库大小和检测到基因数目较少的低质量细胞；d)识别和去除线粒体基因比例较高的低质量细胞。

3)数据标准化及混杂因素去除：a)数据标准化，消除由于文库大小不一致导致的偏差；b)回归分析，去除细胞周期、分化和衰亡等混杂因素。

4)无监督聚类及细胞注释：a)数据降维，减少背景噪声；b)无监督细胞聚类，识别不同的细胞类型；c)基于已知细胞类型的表达谱数据和标志基因表达差异对聚类得到的细胞簇进行注释。

5)根据聚类和细胞注释的结果，提取标注为CD8+T细胞相应的TCR CDR3αβ序列；识别CD8+T细胞对应的肿瘤特异性TCR CDR3αβ簇。

上述步骤六的免疫原性肿瘤新生抗原的识别，包括核心技术为peptide-TCR相互作用预测模型的构建，包括如下步骤：

1)基准数据集构建：从VDJdb、IEDB数据库收集TCR-pHLA多聚体序列数据，利用序列相似的TCR具有相似的抗原特异性原理，使用高通量聚类软件对peptide-TCR对进行聚类分析，根据聚类类别选择80％数量类内序列作为正样本；模拟VDJ重组生成

TCR的CDR3序列，生成与正样本等量的CDR3序列，并与正样本中肽配对构建负样本；同时按TCRα-与β-链划分训练集、测试集；

2)特征提取：a)采用one-hot编码方法提取peptide-TCR对序列稀疏二值特征作为深度学习模型的输入；将CDR3序列和配对肽段拼接，通过增加通配字符X将长度不一的序列扩充至长度为29的序列，并采用one-hot编码方法将其数字转化为固定长度的矢量；b)融合氨基酸物理化学属性(PCP)与one-hot编码表征peptide-TCR对序列；用通配字符'X'填充所有peptide-TCR对序列至29mer后，将一个peptide-TCR对看作是一个2通道*29行*20列的图像，第一个通道采用一个one-hot编码特征，第二个通道采用20个氨基酸物理化学性质编码特征；c)采用AAindex中氨基酸物理化学属性编码氨基酸，并利用主成分分析(PCA)降维，从大量的氨基酸指标中得出少量的正交线性组合，保留原始集合中包含的大部分有用信息；对于每个氨基酸，使用向量PC1到PCk来表示其生化特征，k为8-20之间的整数，以便前k个主成分可以解释85％以上的数据变化；CDR3s和配对肽均用通配字符'X'填充至最大长度20，然后分别形成20行和k列的矩阵；为了有效地区分普通的PCP特征和用字符'X'填充的特征，分别在每个特征矩阵的右侧增加一个由0和1组成的列；因此，一个peptide-TCR对可视为一幅有2通道*20行*(k+1)列的图像，第一个通道存储CDR3序列产生的特征，第二个通道存储与该CDR3序列配对的肽段转化的特征；

3)特征选择：通过五次交叉验证，比较基于三种不同形式特征的模型预测精准度；根据交叉验证的结果来确定何种特征提取方法有益于模型性能的提升；再选择其中最优特性，用以构建高精度预测模型；

4)肽与TCR单链相互作用集成深度学习预测模型的构建：a)以3)中生成的最优特征作为输入，分别训练全连接网络(FCN)、卷积神经网络(LeNet-5)和残差网络(ResNet-20)三种深度学习架构。i)设计一个具有五个隐藏层的FCN架构。输入层变量数量是由输入特征所决定，例如对于one-hot编码，输入层变量为29*20*1＝580,对于one-hot与物化属性PCP融合特征,输入层变量数为29*20*2＝1160,而对于PCA特征，输入层变量数为20*(k+1)*2。此外，FCN模型包括256、512、256、128、64个变量的5个全连层和修正线性单元(ReLU)激活函数，输出层具有两个变量，并采用Softmax激活函数来实现分类。ii)设计8层卷积神经网络LeNet-5。输入层与i)中输入层一致，卷积层C1有64个滤波器，滤波器大小为5，步长为1，随后是平均池化层S2，池化核大小为2，步长为2；另一个卷积层C3，有128个过滤器，过滤器大小为3，步幅为1；然后是平均池层S4，池核大小为2，步幅为2；后面连接分别含有512、256、128、64个变量的四层全连接层和ReLU激活函数；输出层含有两个变量和Softmax激活函数。iii)采用经典深度学习模型ResNet-20。此模型仅使用identity shortcuts，由6*3+2堆叠的加权层、全局平均池化层和Softmax激活函数组成，ResNet-20中所有卷积层的滤波器大小都是3。b)为了减轻FCN和LeNet-5模型潜在的过拟合，在模型最后一个隐含层和输出层添加dropout层，最后一个隐藏层中的变量以0.3的概率在训练过程中随机关闭；并在ResNet-20的全局平均池化层之后，添加注意力机制，采用Adam优化器自适应调整三个深度架构中梯度分量的大小；此外，将所有的peptide-CDR3对独立建模，并使用交叉熵损失计算每个peptide-CDR3对的损失loss(i)＝-[y_ilog(p_i)+(1-y_i)log(1-p_i)]，其中y_i是peptide-CDR3对i的类标，如果CDR3与配对肽段结合，则y_i＝1,否则,y_i＝0；而p_i代表观察样本对预测为阳性样本的可能性。c)使用召回、精度和准确性(ACC)评估预测器的性能:

其中：TP表示真阳性，即阳性样本peptide-CDR3对(CDR3与肽结合的样本)被正确识别的数量；TN为真阴性，阴性样本peptide-CDR3对(CDR3不与肽结合的样本)被正确识别的数量；FP为假阳性，阴性样本被错误识别的数量；FN为假阴性，阳性样本被错误识别的数量；此外，受试者工作特征曲线(ROC)的曲线下面积(area under the curve,AUC)是衡量所提出模型的性能评价的重要指标；d)通过前述步骤a)-c)，可获得用以预测peptide-TCRα相互作用的深度学习预测模型pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet，以及可用于预测peptide-TCRβ相互作用的深度学习预测模型pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet；随后平均每个深度学习模型的输出，将三个基分类器pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet生成peptide-TCRα(pTCRα)集成深度学习预测模型，同时，将另外三个基分类器pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet生成peptide-TCRβ(pTCRβ)集成深度学习预测模型；

5)肽与TCR配对链相互作用融合预测模型的构建：联合使用肽段与TCR单链相互作用预测模型peptide-TCRα与peptide-TCRβ，整合生成一个能预测肽段与配对TCR双链相互作用的融合模型DLpTCR，策略为：对于任一给定的peptide-CDR3αβ对，只有当CDR3α和CDR3β同时与该肽结合，才认定此TCRαβ可以识别该短肽。

本发明的有益效果：

本发明通过细胞类型注释、克隆频率分析寻找癌症特异性的CD8+T细胞受体，并基于集成深度学习开发了peptide-TCR相互作用预测模型鉴定短肽免疫原性，克服了只根据pHLA结合亲和力的传统肿瘤抗原筛选方法新生抗原错选漏选率高、免疫原性不足等问题。本发明的有益效果具体包括如下：

一、本发明以多模态深度学习为基分类器，采用集成深度学习构建了TCR与peptide相互作用集成深度学习预测模型，包括TCR单链(TCRα链或β链)与peptide及TCR双链(配对的TCRα链与β链)与peptide相互作用预测模型，实现了免疫原性肽的快速精准识别，进一步缩小了传统新生抗原识别方法获得的新生抗原候选范围，为后续肿瘤新生抗原智能化筛选方法建立提供了可靠的技术支撑。

二、本发明采用单细胞TCR测序技术，依据具有相似性的TCR能识别同一肿瘤抗原这一基本假设，采用聚类算法及克隆频率分析，可直接从样本获得完全同源、原生轻重链稳定配对的肿瘤特异性TCR序列，为高免疫原性肿瘤新生抗原智能化筛选方法提供了数据支撑，也为个性化免疫细胞疗法提供靶向识别肿瘤细胞的特异性受体。

三、本发明利用多组学数据，尤其融合了单细胞TCR测序数据，实现了免疫原性新生抗原的高效精准筛选。从转录组及全外显子或全基因组测序数据获得个体化新生多肽，通过HLA分型工具获取患者HLA基因分型，利用结合亲和力预测算法预测新生多肽与HLA结合亲和力，再基于基因表达等多种因素优化新生抗原筛选，更为重要的是，通过分析患者单细胞TCR测序数据，获取肿瘤特异性TCR，结合本发明的peptide-TCR相互作用预测模型与算法，识别出免疫原性肽，实现免疫原性肿瘤新生抗原的智能化筛选。此策略可推广至任何癌种的个体化肿瘤治疗性疫苗及细胞免疫疗法。

四、本发明是典型的生物大数据临床应用及转化的方法，以合理的高通量测序数据+大数据思维+信息技术替代了以湿实验为主的免疫原性肿瘤新生抗原筛选方案，借力大数据技术的高效便捷性，大大提升了筛选的速度，并且在方案组合、设置上实现了自主创新，具有较好的启示示范作用。

附图说明

图1是本发明融合了单细胞TCR测序数据的肿瘤新生抗原筛选流程图；

图2是本发明的免疫原性肽识别模型DLpTCR构建流程图；

图3是本发明的用以预测peptdide-TCRα相互作用的pTCRα集成深度学习模型预测性能结果图。

图4是本发明的用以预测peptdide-TCRβ相互作用的pTCRβ集成深度学习模型预测性能结果图。

图5是本发明的免疫原性肽识别模型DLpTCR整体预测性能结果图。

具体实施方式

如图1所示，一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，包括如下步骤：

S1:肿瘤患者个体化新生突变肽库构建。获取配对肿瘤组织和癌旁组织的全外显子测序(WES)数据及转录组测序(RNA-seq)数据，进行质控分析，单核苷酸变异分析，构建个体化新生突变肽库，用于下游抗原筛选；

S1.1、获取配对肿瘤组织和癌旁组织的全外显子测序(WES)数据及转录组测序(RNA-seq)数据；

S1.2、使用Trimmomatic-0.36软件对肿瘤组织及患者匹配的癌旁组织WES数据进行质控分析，去除平均Phred分数低于20的read,并剪除标准的adapter；

S1.3、使用bwa 0.5.9软件将质控后的reads与NCBI人类参考基因组hg38进行比对，由Broad Picard 2.3.0 SortSam管道排序生成包含具有高质量分数的校准reads的BAM文件，重复reads通过软件Mark-Duplicates标记、删除；

S1.4、使用GATK进行重新校正，以减少变异检测假阳性；使用Mutect2执行SNV检测；使用GATK Mutect2、Varscan2和Strelka2执行indel检测；所有等位基因分数小于0.05或覆盖率小于10×的突变均被排除，以消除假阳性位点；

S1.5、所有体细胞突变均使用集成突变效用预测器(VEP)注释，识别包括非同义突变、插入和缺失；对于单碱基变异SNVs，基因组变化直接应用于蛋白质组参考，提取一个21mer突变肽和一个正常肽，随后，以突变位点为中心，采用滑窗法将这些肽段切割成9mer的短肽；对于indels突变，通过翻译突变的cDNA序列推断出突变蛋白序列，类似产生9mer的短肽。

S2:肿瘤患者HLA基因分型(HLA typing)。基于肿瘤患者WES数据，利用能预测4位精度的HLA分型算法xHLA或OptiType推断患者HLA-I分型，用于下游pHLA结合亲和力预测；

S3:HLA-I抗原肽的识别。结合患者HLA分型数据及个体化新生突变肽库，利用多个HLA-I抗原呈递预测软件及工具NetMHC v4.0、NetMHCpan v4.0、NetMHCstabpanb v1.0预测HLA与新生突变肽的结合亲和力，筛选高亲和力的HLA-I抗原肽，亲和力高的标准满足以下两个条件:1)平均亲和力小于等于50nM；2)结合亲和力的百分比rank平均得分小于2；

S4:分析肿瘤患者及对照组外周血PBMC单细胞5’及V(D)J测序数据，识别癌种特异性TCR簇。以FASTQ文件作为输入，使用Cell Ranger管道并输入cellranger vdj命令执行V(D)J序列组装和成对克隆型检测，直接获取TCRαβ链相关信息，包括CDR3区域，V基因，克隆型及克隆频率。分析肿瘤患者与对照的TCR克隆型及克隆频率，排除两者共享的TCR CDR3αβ序列，识别肿瘤特异性TCR CDR3αβ序列；

S5:细胞类型注释，识别CD8+T细胞对应的肿瘤特异性TCR序列。分析单细胞转录组数据，利用细胞类型注释软件与工具进行细胞类型注释，标注CD8+T细胞，根据CellBarcode提取相应的TCR CDR3αβ序列；进而识别CD8+T细胞对应的肿瘤特异性TCR CDR3αβ簇；

S5.1、获取单细胞转录组数据，进行数据预处理：利用fastqc、multiqc等软件进行数据质量评估；使用cutadapt软件去除测序接头以及引物序列；调用NGS QC Toolkit软件过滤低质量的测序数据；使用Cellranger软件将测序数据比对到参考基因组上并构建基因表达矩阵；

S5.2、使用UMI-Tools识别和去除对应于空液滴的细胞条形码，纠正细胞barcode和UMIs中测序错误，提供更准确的基因表达定量；利用DropletUtils软件包识别空液滴；使用DoubletFinder软件包识别双细胞；绘制全部细胞检测到的基因数量箱线图，定位基因数偏少的离群低质量细胞，识别和去除文库大小和检测到基因数目较少的低质量细胞，使用scater软件包构建细胞质量控制矩阵并去除线粒体基因比例较高的低质量细胞，线粒体基因比较较高的标准为线粒体基因比例超过25％；

S5.3、利用R包Seurat中的NormalizeData函数进行对数转换标准化，消除文库大小不一致导致的偏差，通过标准的Seurat v3整合流程消除批次效用；在Seurat中通过CellCycleScoring功能对细胞周期等混杂因素进行评分；然后使用Seurat的ScaleData函数在数据缩放过程中对细胞周期、分化和衰亡等混杂因素得分进行回归，去除混杂因素；

S5.4、根据基因表达差异，利用Seurat软件包的FindVariableFeatures功能筛选高可变基因；基于高可变基因，使用RunPCA功能进行主成分分析；选择合适的主成分，进行数据降维，减少背景噪音；调用FindNeighbors构建KNN图；利用FindClusters进行无监督聚类；最后使用SingleR和celldex软件包基于已知细胞类型的表达谱数据和标志基因表达差异进行细胞类型注释；

S5.5、根据聚类和细胞注释的结果，提取标注为CD8+T细胞相应的TCR CDR3αβ序列；识别CD8+T细胞对应的肿瘤特异性TCR CDR3αβ簇。

S6:免疫原性肿瘤新生抗原的识别。将预测的HLA-I抗原肽与肿瘤特异性TCR CDR3αβ序列组合配对；如图2所示，构建肽段与TCR相互作用预测模型；进而鉴定能被CD8+T细胞识别的免疫原性肿瘤新生抗原；

S6.1、将S3步骤预测所得的高亲和力的HLA抗原肽与肿瘤特异性TCR CDR3αβ序列组合配对，生成peptide-CDR3αβ序列对，用于下游免疫原性肿瘤新生抗原识别分析；

S6.2、基准数据集构建。从VDJdb，IEDB数据库收集TCR-pHLA多聚体序列数据，利用序列相似的TCR具有相似的抗原特异性原理，使用高通量聚类软件iSMART对peptide-TCR对进行聚类分析，根据聚类类别选择80％数量类内序列作为正样本；模拟VDJ重组生成

TCR的CDR3序列，使用软件immuneSIM生成与正样本等量的CDR3序列，并与正样本中肽配对构建负样本；同时按TCRα-与β-链划分训练集、测试集；

S6.3、特征提取。采用三种不同的编码方式将peptide-TCR对序列转化为数值型向量；

S6.3.1、采用one-hot编码方法提取peptide-TCR对序列稀疏二值特征作为深度学习模型的输入。将CDR3序列和配对肽段拼接，通过增加通配字符X将长度不一的序列扩充至长度为29的序列，并采用one-hot编码方法将其数字转化为固定长度的矢量；

S6.3.2、融合氨基酸物理化学属性(PCP)与one-hot编码表征peptide-TCR对序列。用通配字符'X'填充所有peptide-TCR对序列至29mer后，将一个peptide-TCR对看作是一个2通道*29行*20列的图像，第一个通道采用一个one-hot编码特征，第二个通道采用20个氨基酸物理化学性质编码特征；

S6.3.3、采用AAindex(https://www.genome.jp/aaindex/)中氨基酸物理化学属性编码氨基酸，并利用主成分分析(PCA)降维，从大量的氨基酸指标中得出少量的正交线性组合，保留原始集合中包含的大部分有用信息。对于每个氨基酸，使用向量PC1到PCk来表示其生化特征，k为8-20之间的整数，以便前k分可以解释85％以上的数据变化。CDR3s和配对肽均用通配字符'X'填充至最大长度20，然后分别形成20行和k列的矩阵。为了有效地区分普通的PCP特征和用字符'X'填充的特征，分别在每个特征矩阵的右侧增加了一个由0和1组成的列。因此，一个peptide-TCR对可视为一幅有2通道*20行*(k+1)列的图像，第一个通道存储CDR3序列产生的特征，第二个通道存储与该CDR3序列配对的肽段转化的特征。

S6.4、特征选择。通过五次交叉验证，比较基于三种不同形式特征的模型预测精准度；根据交叉验证的结果，确定何种特征提取方法有益于模型性能的提升；然后，选择其中最优特性，用以构建高精度预测模型；

S6.5、肽与TCR单链相互作用集成深度学习预测模型的构建；

S6.5.1、以S6.4中生成的最优特征作为输入，分别训练全连接网络(FCN)、卷积神经网络(LeNet-5)和残差网络(ResNet-20)三种深度学习架构。a)设计了一个具有五个隐藏层的FCN架构。输入层变量数量是由输入特征所决定，例如对于one-hot编码，输入层变量为29*20*1＝580,对于one-hot与物化属性PCP融合特征,输入层变量数为29*20*2＝1160,而对于PCA特征，输入层变量数为20*(k+1)*2。此外，FCN模型包括256、512、256、128、64个变量的5个全连层和修正线性单元(ReLU)激活函数，输出层具有两个变量，并采用Softmax激活函数来实现分类。b)设计了8层卷积神经网络LeNet-5。输入层与a)中输入层一致，卷积层C1有64个滤波器，滤波器大小为5，步长为1，随后是平均池化层S2，池化核大小为2，步长为2；另一个卷积层C3，有128个过滤器，过滤器大小为3，步幅为1；然后是平均池层S4，池核大小为2，步幅为2；后面连接分别含有512、256、128、64个变量的四层全连接层和ReLU激活函数；输出层含有两个变量和Softmax激活函数。c)采用了经典深度学习模型ResNet-20。此模型仅使用identity shortcuts，由6*3+2堆叠的加权层、全局平均池化层和Softmax激活函数组成，ResNet-20中所有卷积层的滤波器大小都是3。

S6.5.2、为了减轻FCN和LeNet-5模型潜在的过拟合，在模型最后一个隐含层和输出层添加dropout层，最后一个隐藏层中的变量以0.3的概率在训练过程中随机关闭。并在ResNet-20的全局平均池化层之后，添加注意力机制，采用Adam优化器自适应调整三个深度架构中梯度分量的大小。此外，将所有的peptide-CDR3对独立建模，并使用交叉熵损失计算每个peptide-CDR3对的损失loss(i)＝-[y_ilog(p_i)+(1-y_i)log(1-p_i)]，其中y_i是peptide-CDR3对i的类标，如果CDR3与配对肽段结合，则y_i＝1,否则,y_i＝0；而p_i代表观察样本对预测为阳性样本的可能性；

S6.5.3、使用召回、精度和准确性(ACC)评估预测器的性能:

TP表示真阳性，即阳性样本peptide-CDR3对(CDR3与肽结合的样本)被正确识别的数量；TN为真阴性，阴性样本peptide-CDR3对(CDR3不与肽结合的样本)被正确识别的数量；FP，假阳性，阴性样本被错误识别的数量；FN，假阴性，阳性样本被错误识别的数量。此外，受试者工作特征曲线(ROC)的曲线下面积(area under the curve,AUC)是衡量所提出模型的性能评价的重要指标，其值越接近于1，模型预测性能越好。

S6.5.4、通过前述步骤S6.5.1、S6.5.2及S6.5.3，可获得用以预测peptide-TCRα相互作用的深度学习预测模型pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet，以及可用于预测peptide-TCRβ相互作用的深度学习预测模型pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet。

S6.5.5、采用一种简单平均集成策略，即对每个深度学习模型的输出求平均，将三个基分类器pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet生成peptide-TCRα(pTCRα)集成深度学习预测模型，同时，将另外三个基分类器pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet生成peptide-TCRβ(pTCRβ)集成深度学习预测模型；

S6.6、肽与TCR配对链相互作用融合预测模型的构建。联合使用肽段与TCR单链相互作用预测模型pTCRα与pTCRβ，整合生成一个能预测肽段与配对TCR双链相互作用的集成深度学习模型DLpTCR，具体策略为：对于任一给定的peptide-CDR3αβ对，只有当CDR3α和CDR3β同时与该肽结合，才认定此TCRαβ可以识别该短肽。肽与TCR互作用模型取得了很好的性能。预测peptdide-TCRα相互作用的pTCRα集成深度学习预测模型在测试集与独立测试集I上的AUC值分别达到了0.91与0.89，如图3所示；预测peptdide-TCRβ相互作用的pTCRβ集成深度学习预测模型在测试集与独立测试集I上的AUC值分别达到了0.90与0.93，如图4所示。预测peptide-TCRαβ相互作用的集成深度学习预测模型DLpTCR在独立测试集II上取得了82.97％的精准度，模型整体性能如图5所示。

S6.7、将S6.1中的peptide-CDR3αβ对为输入，采用S6.6中能预测肽段与配对TCR双链相互作用的集成深度学习模型DLpTCR，鉴定能被CD8+T细胞识别的免疫原性肿瘤新生抗原。

综上，本发明通过细胞类型注释、克隆频率分析寻找癌症特异性的CD8+T细胞受体，并基于集成深度学习开发了peptide-TCR相互作用预测模型鉴定短肽免疫原性，克服了只根据pHLA结合亲和力的传统肿瘤抗原筛选方法新生抗原错选漏选率高、免疫原性不足等问题。

本发明的有益效果：

本发明的有益效果具体包括如下：

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，其特征在于，包括如下步骤：

一、肿瘤患者个体化新生突变肽库的构建：获取配对肿瘤组织和癌旁组织的全外显子测序WES数据及转录组测序数据，并进行质控分析、单核苷酸变异分析，构建个体化新生突变肽库，用于下游抗原筛选；

二、肿瘤患者人类白细胞抗原HLA基因分型：通过肿瘤患者全外显子测序WES数据分析，利用能预测4位精度的HLA分型算法推断患者HLA-I分型，用于下游pHLA结合亲和力预测；

2.根据权利要求1所述的一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，其特征在于，步骤一包括如下步骤：

3.根据权利要求1所述的一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，其特征在于，步骤五中的细胞类型注释，识别CD8+T细胞对应的肿瘤特异性TCR序列，包括如下步骤：

1)获取单细胞转录组数据，进行数据预处理：a)原始测序数据质量控制，去除测序接头以及引物序列，过滤低质量值的测序数据，确保数据质量；b)将经过质量控制后高质量的测序数据比对到人的参考基因组上，构建基因表达矩阵；

2)细胞质量控制，过滤低质量的细胞：a)识别和去除对应于空液滴的细胞条形码；b)识别和去除双细胞；c)识别和去除文库大小和检测到基因数目较少的低质量细胞；d)识别和去除线粒体基因比例较高的低质量细胞；

3)数据标准化及混杂因素去除：a)数据标准化，消除由于文库大小不一致导致的偏差；b)回归分析，去除细胞周期、分化和衰亡等混杂因素；

4)无监督聚类及细胞注释：a)数据降维，减少背景噪声；b)无监督细胞聚类，识别不同的细胞类型；c)基于已知细胞类型的表达谱数据和标志基因表达差异对聚类得到的细胞簇进行注释；

4.根据权利要求1所述的一种融合了单细胞TCR测序数据的肿瘤新生抗原筛选方法，其特征在于，步骤六的免疫原性肿瘤新生抗原的识别，包括核心技术为peptide-TCR相互作用预测模型的构建，包括如下步骤：

2)特征提取：

a)采用one-hot编码方法提取peptide-TCR对序列稀疏二值特征作为深度学习模型的输入；将CDR3序列和配对肽段拼接，通过增加通配字符X将长度不一的序列扩充至长度为29的序列，并采用one-hot编码方法将其数字转化为固定长度的矢量；

b)融合氨基酸物理化学属性与one-hot编码表征peptide-TCR对序列；用通配字符'X'填充所有peptide-TCR对序列至29mer后，将一个peptide-TCR对看作是一个2通道*29行*20列的图像，第一个通道采用一个one-hot编码特征，第二个通道采用20个氨基酸物理化学性质编码特征；

c)采用AAindex中氨基酸物理化学属性编码氨基酸，并利用主成分分析降维，从大量的氨基酸指标中得出少量的正交线性组合，保留原始集合中包含的大部分有用信息；对于每个氨基酸，使用向量PC1到PCk来表示其生化特征，k为8-20之间的整数，以便前k个主成分可以解释85％以上的数据变化；CDR3s和配对肽均用通配字符'X'填充至最大长度20，然后分别形成20行和k列的矩阵；为了有效地区分普通的PCP特征和用字符'X'填充的特征，分别在每个特征矩阵的右侧增加一个由0和1组成的列；因此，一个peptide-TCR对可视为一幅有2通道*20行*(k+1)列的图像，第一个通道存储CDR3序列产生的特征，第二个通道存储与该CDR3序列配对的肽段转化的特征；

4)肽与TCR单链相互作用集成深度学习预测模型的构建：

a)以3)中生成的最优特征作为输入，分别训练全连接网络、卷积神经网络和残差网络三种深度学习架构：

i)设计一个具有五个隐藏层的FCN架构；输入层变量数量是由输入特征所决定，例如对于one-hot编码，输入层变量数为29*20*1＝580,对于one-hot与物化属性PCP融合特征,输入层变量数为29*20*2＝1160,而对于PCA特征，输入层变量数为20*(k+1)*2；此外，FCN模型包括256、512、256、128、64个变量的5个全连层和修正线性单元激活函数，输出层具有两个变量，并采用Softmax激活函数来实现分类；

ii)设计8层卷积神经网络LeNet-5；输入层与i)中输入层一致，卷积层C1有64个滤波器，滤波器大小为5，步长为1，随后是平均池化层S2，池化核大小为2，步长为2；另一个卷积层C3，有128个过滤器，过滤器大小为3，步幅为1；然后是平均池层S4，池核大小为2，步幅为2；后面连接分别含有512、256、128、64个变量的四层全连接层和ReLU激活函数；输出层含有两个变量和Softmax激活函数；

iii)采用经典深度学习模型ResNet-20，此模型仅使用identity shortcuts，由6*3+2堆叠的加权层、全局平均池化层和Softmax激活函数组成，ResNet-20中所有卷积层的滤波器大小都是3；

b)为了减轻FCN和LeNet-5模型潜在的过拟合，在模型最后一个隐含层和输出层添加dropout层，最后一个隐藏层中的变量以0.3的概率在训练过程中随机关闭；并在ResNet-20的全局平均池化层之后，添加注意力机制，采用Adam优化器自适应调整三个深度架构中梯度分量的大小；此外，将所有的peptide-CDR3对独立建模，并使用交叉熵损失计算每个peptide-CDR3对的损失loss(i)＝-[y_ilog(p_i)+(1-y_i)log(1-p_i)]，其中y_i是peptide-CDR3对i的类标，如果CDR3与配对肽段结合，则y_i＝1,否则,y_i＝0；而p_i代表观察样本对预测为阳性样本的可能性；

c)使用召回、精度和准确性(ACC)评估预测器的性能:

其中：TP表示真阳性，即阳性样本peptide-CDR3对被正确识别的数量；TN为真阴性，阴性样本peptide-CDR3对被正确识别的数量；FP为假阳性，阴性样本被错误识别的数量；FN为假阴性，阳性样本被错误识别的数量；此外，受试者工作特征曲线的曲线下面积是衡量所提出模型的性能评价的重要指标；

d)通过前述步骤a)-c)，可获得用以预测peptide-TCRα相互作用的深度学习预测模型pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet，以及可用于预测peptide-TCRβ相互作用的深度学习预测模型pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet；随后平均每个深度学习模型的输出，将三个基分类器pTCRα-FCN、pTCRα-LetNet、pTCRα-ResNet生成peptide-TCRα集成深度学习预测模型，同时，将另外三个基分类器pTCRβ-FCN、pTCRβ-LetNet、pTCRβ-ResNet生成peptide-TCRβ集成深度学习预测模型；