CN114446389A

CN114446389A - 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用

Info

Publication number: CN114446389A
Application number: CN202210117578.XA
Authority: CN
Inventors: 刘雪松; 王轩; 吴涛
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-05-06
Anticipated expiration: 2042-02-08
Also published as: CN114446389B

Abstract

本发明涉及一种肿瘤新抗原特征分析与免疫原性预测工具及其应用，属于生物信息学和肿瘤免疫治疗技术领域。本发明提供一种肿瘤新抗原特征分析与免疫原性预测方法，并应用该方法提供一种肿瘤新抗原多角度特征分析以及免疫原性预测的工具。工具从原始测序数据出发，识别出突变位点以及病人的HLA类型；预测突变多肽与HLAI以及HLAII的亲和力；突变肽相比野生肽与HLA亲和力差异；突变肽的转运效率；突变肽所在基因的表达水平等新抗原特征。该工具直接预测给定新抗原激活特异性CD8+T细胞的潜力。对肿瘤新抗原识别，肿瘤疫苗设计，肿瘤精准免疫靶点寻找开发均有重要价值。

Description

一种肿瘤新抗原特征分析与免疫原性预测工具及其应用

技术领域

本发明涉及一种肿瘤新抗原特征分析与免疫原性预测工具及其应用，属于生物信息学和肿瘤免疫治疗技术领域。

背景技术

肿瘤细胞中非同义突变会产生很多全新的肽段，也就是所谓的突变肽¹，它们中的一部分会与人类白细胞抗原(HLA)分子具有强亲和力,从而彼此结合，进而被递呈到细胞表面，然后被T细胞识别引起免疫反应造成对肿瘤细胞的杀伤。而又因为这些突变肽对机体来说是非自身肽，所以，其引起的免疫反应不会受到机体耐受机制的影响。同时因为其肿瘤特异性表达的特性，后续的免疫治疗不会影响正常的组织细胞，所以副作用会大大减少。是肿瘤免疫治疗极为理想的靶点。这种肿瘤特异性的具有免疫原性的突变肽被称为肿瘤新抗原(Neoantigen)。

近年来，随着下一代测序技术(NGS)的不断发展，识别肿瘤病人的个性化新抗原成为了可能。2017年有研究表明，辅助个性化的新抗原疫苗能够显著提高肿瘤免疫检查点抑制剂的临床治疗效果²。表明新抗原识别以及后续的新抗原疫苗具有重大的临床应用前景。

目前判断突变肽是具有免疫原性新抗原的方法，是使用生物信息工具预测突变肽和病人HLA的亲和力，但事实证明仅仅考虑这一点对于判断一个突变肽是否具有免疫原性是远远不够的^3,4。所以虽然近年来新抗原治疗取得了一些临床效果，也涌现出了一些新抗原预测工具⁵，但是如何准确判断肿瘤新抗原的免疫原性依旧是一个亟待解决的关键的科学和临床应用的问题。

参考文献：

1.Rooney,M.S.,Shukla,S.A.,Wu,C.J.,Getz,G.&Hacohen,N.Molecular andgenetic properties of tumors associated with local immune cytolyticactivity.Cell 160,48–61(2015).

2.Ott PA,Hu Z,Keskin DB,Shukla SA,Sun J,Bozym DJ,et al.An immunogenicpersonal neoantigen vaccine for patients with melanoma.Nature.2017；547:217–21.

3.Joglekar,A.V.&Li,G.T cell antigen discovery.Nat Methods 18,873–880(2021).

4.Calis,J.J.A.et al.Properties of MHC class I presented peptides thatenhance immunogenicity.PLoS Comput Biol 9,e1003266(2013).

5.Megan et al.Best practices for bioinformatic characterization ofneoantigens for clinical utility.Genome Med.2019Aug 28；11(1):56.

发明内容

本发明的目的是为解决如何准确判断肿瘤新抗原的免疫原性的技术问题。

为达到解决上述问题的目的，本发明所采取的技术方案是提供一种直接预测突变肽免疫原性的深度学习卷积神经网络模型，该模型的构建包括以下步骤：

步骤1：选择训练数据，首先从IEDB下载经过实验验证的肽段-HLA数据；并将阳性肽的标签设为1，阴性设为0；

步骤2：对数据进行清洗，去除HLA信息不完整的数据；去除肽段长度小于8或者大于11的肽段；对于长度不足11的肽段，则在肽段的中间填充X来补到11肽长；HLA序列则使用34个氨基酸长度的假序列来代表，然后对于肽和HLA序列使用经典的One-Hot编码方式来编码；

步骤3：将数据通过使用分层抽样按照8:1:1的比例划分为训练集、验证集和测试集，保证数据集中阳性肽与阴性肽的比例大致相同，同时确保任意一个肽-HLA都只存在于训练集、验证集和测试集中的任意一个集合中；

步骤4：由于阴性肽数量显著多于阳性肽，为消除这种不均衡的问题，按照阴性肽和阳性肽所占比例设置权重；

步骤5：使用NetMHCpan-4.1预测肽段与HLA的亲和力，然后在训练集中计算亲和力IC50极值，然后对训练集、测试集和验证集的亲和力IC50进行标准化；

步骤6：使用NetCTLpan-1.1预测肽段的TAP转运效率，使用上述同样方法对训练集、测试集和验证集标准化。

步骤7：根据卷积神经网络建立深度学习模型，该模型的输出为特定肽段-HLA能够引起CD8+T细胞免疫反应的概率，训练直至测试集预测性能达到最佳后停止训练，该深度模型构建完成。

优选地，所述模型包括两个并联的卷积模块，每个模块包含3个一维卷积层，每个卷积模块采用不同数量及不同大小的过滤器和步长，对两个卷积模块的输出结果进行扁平化操作，之后进入由4000个节点组成的全连接层，进一步由含有400个节点的输出层输出，之后与亲和力和转运效率数据进行合并，进入由200个节点组成的全连接层，最终由包含一个节点的输出层输出，对应能够产生免疫反应的概率。

优选地，在所述卷积模块和全连接层中，采用ReLU激活函数进行激活；输出层中采用Sigmoid激活函数来保证输出范围在0-1；损失函数采用二分类交叉熵函数，通过Adam优化算法建立优化器对其进行优化，学习率设置为0.001；批次设置为64，最大迭代次数设置为200；为防止模型过拟合，所述模型中引入了提前终止和随机丢弃策略，提前终止策略在训练模型中表现为：如果准确率或者损失函数在预定的迭代次数后没有改善，模型会提前停止训练；随机丢弃策略是在卷积层和全连接层中，随机丢弃20％的特征。

优选地，所述模型采用TensorFlow和python3.8实现。

本发明提供一种肿瘤新抗原特征分析与免疫原性预测方法，包括以下步骤：

步骤1：获取肿瘤样本WES和RNA-seq测序数据；

步骤2：利用WES数据进行体细胞突变检测；

步骤3：利用RNA-seq数据获得突变所在基因的表达情况；

步骤4：体细胞突变注释；

步骤5：HLA分型鉴定；

步骤6：应用多种现有工具进行突变肽特征预测，包括突变肽和HLA的亲和力，突变肽的转移效率和切割效率以及突变肽与对应野生型肽与HLA的亲和力差异；突变肽所在基因的表达水平；

步骤7：突变肽的免疫原性预测。

优选地，上述步骤2和步骤3中利用WES和RNA-seq测序数据包括数据质量控制、数据比对和Bam文件处理；所述数据质量控制包括调用fastp软件对DNA和RNA测序原始fastq数据进行质量控制和去接头；所述数据比对包括调用BWA软件对质量控制之后的fastq文件与参考基因组比对，得到肿瘤样本和正常样本的bam文件，RNA数据使用hisat2软件进行参考基因组比对；所述Bam文件处理为对数据比对之后的bam文件进一步处理，调用samtools、GATK软件对bam文件进行排序，标记重复序列，碱基质量重新矫正，得到过滤后的bam文件。

优选地，上述步骤4中体细胞突变注释包括使用经过处理的DNA-Bam文件，调用MuTect2、MUSE、SomaticSniper、VARSCAN2检测单碱基变异和基因融合变异，使用STAR-Fusion检测基因融合变异；调用TPMCalculator，使用RNA-bam文件计算突变位置的表达量，再调用AnnovaR对突变进行注释。

优选地，上述步骤7中突变肽的免疫原性预测是通过如上所述的一种直接预测突变肽免疫原性的深度学习卷积神经网络模型完成。

优选地，一种肿瘤新抗原特征分析与免疫原性预测方法包括预测结束后，使用突变肽与HLAI的亲和力IC50-HLAI、突变肽与HLAII的亲和力IC50-HLAII、突变位点的表达情况TPM、突变肽的转运效率TAP、野生型肽段与突变肽分别与HLAI亲和力的比值DAI-I、野生型肽段与突变肽分别与HLAII亲和力的比值DAI-II，6种指标对突变肽进行分类；对候选肽分类排序；排序方法如下：

1：首先保证突变位点表达TPM>1，不满足该条件的突变肽直接分类为Negative；

2：使用IC50-HLAI<500nM，IC50-HLAII<500nM，TAP>0，DAI-I>1，DAI-II>1，作为阈值，按照满足5种条件的数量，将候选肽自高到低分为“Strong”，“Medium”，“Weak”，“Negative”四个等级：

A)当突变肽同时满足IC50-HLAI<500nM，IC50-HLAII<500nM，TAP>0，DAI-I>1，DAI-II>1五个条件的，分类为Strong，当突变肽仅满足IC50-HLAI<500nM，IC50-HLAII<500nM，两个条件，其余不全部满足的，分类为Medium；

B)当突变肽满足IC50-HLAI<500nM，IC50-HLAII<500nM两个条件中的一个条件时，分为两种情况：首先当突变肽满足IC50-HLAI<500nM，但不满足IC50-HLAII<500nM的，当满足DAI-I>1和TAP>1其中任意一条件的，分类为Medium，否则为Weak；其次，满足IC50-HLAII<500nM，但不满足IC50-HLAI<500nM的，当满足DAI-II>1时，分类为Medium，否则为Weak；

C)当突变肽同时不满足IC50-HLAI<500nM和IC50-HLAII<500nM的，当TAP>0，DAI-I>1，DAI-II>1满足至少一项时，分类为Weak，否则为Negative；

D)当突变肽上述条件都不满足的，分类为Negative；

3：对每一种分类内部使用免疫原性排序。

本发明提供一种肿瘤新抗原特征分析与免疫原性预测方法的应用。

优选地，所述应用包括提供一种肿瘤新抗原特征分析与免疫原性预测软件程序。

优选地，所述预测软件程序为筛选工具Seq2Neo。

相比现有技术，本发明具有如下有益效果：

目前筛选肿瘤新抗原的主要依据是突变肽与病人HLA的亲和力(IC50)，据此筛选新抗原的免疫原性往往不能适应肿瘤精准治疗的实际需求。与目前已有的筛选工具相比，本发明能更加准确全面的预测新抗原的多方面特征，包括突变多肽与HLAI以及HLAII的亲和力(IC50)、突变肽的转运效率得分(TAP)、突变肽相比野生肽与HLA亲和力差异(DAI)、突变肽所在基因的表达水平等。另外本发明还创新性地利用深度学习卷积神经网络模型构建了一种全新的新抗原免疫原性预测方法，该方法可以直接预测给定新抗原激活特异性CD8+T细胞的潜力。本发明简洁易用，大大扩展了对肿瘤新抗原分析预测的精确度和灵敏度，对新抗原疫苗开发、新抗原免疫靶点设计均具有重要价值。

附图说明

图1为应用本发明方法的预测工具Seq2Neo的简要说明图；

预测工具Seq2Neo可以单独接受DNA-Seq/RNA-Seq/Peptide作为数据输入，完成新抗原预测的过程并计算免疫原性得分。

图2为应用本发明方法的预测工具Seq2Neo的详细工作流程图；

首先判断输入数据的格式，在经过预处理之后，针对不同格式的输入进行不同的处理。DNA-Seq输入使用MuTect2、MUSE、SomaticSniper、VarScan2进行单碱基变异(SNV)、小片段插入删除(INDEL)的检测，RNA-Seq输入使用STAR-fusion进行基因融合检测。检测结果经过注释，使用滑窗法获取不同长度的突变肽。同时调用HLA-HD软件进行HLA分型。使用获取的突变肽和HLA类型进行多种特征预测，并预测免疫原性得分。

图3为本发明免疫原性预测模型的模型架构图。

肽段和HLA的序列信息经过One-Hot编码分别输入一个三层的卷积神经网络，紧接着接入一个两层的全连接神经网络，输入结果与肽段-HLA亲和力、肽段转运效率一起输入一个三层的全连接神经网络，最终输出免疫原性预测得分。

图4为本发明免疫原性预测模型中训练集和测试集的性能图；

在训练集中AUROC达到0.97，在测试集中AUROC达到0.83。

图5为本发明免疫原性预测模型训练集的预测结果图；

在最佳阈值0.62的标准下预测正确的数量明显比预测错误的数量多。

图6为本发明免疫原性预测模型在完全独立的验证集TELSA数据集中与其他免疫原性预测工具的预测结果比较图。

根据预测结果排序，在TOP20中本发明提供的应用本发明方法的预测工具Seq2Neo的预测结果为真阳性的数量为4个，优于其余工具，TOP50中为7个，同样优于其他工具。证明本发明提供的方法有良好的泛化能力。

图7为本发明预测结束后对候选突变肽分类的详细流程图；

分类使用突变肽与HLAI的亲和力(IC50-HLAI)、突变肽与HLAII的亲和力(IC50-HLAII)、突变位点的表达情况(TPM)、突变肽的转运效率(TAP)、野生型肽段与突变肽分别与HLAI亲和力的比值(DAI-I)、野生型肽段与突变肽分别与HLAII亲和力的比值(DAI-II)六种指标作为标准，将候选肽分为Strong、Medium、Weak、Negative四类，分类后每一类内部使用预测得到的免疫原性排序。

具体实施方式

为使本发明更明显易懂，兹以优选实施例，并配合附图作详细说明如下：

如图1-7所示，本发明所采取的技术方案是提供一种直接预测突变肽免疫原性的深度学习卷积神经网络模型，该模型的构建包括以下步骤：

上述模型包括两个并联的卷积模块，每个模块包含3个一维卷积层，每个卷积模块采用不同数量及不同大小的过滤器和步长，对两个卷积模块的输出结果进行扁平化操作，之后进入由4000个节点组成的全连接层，进一步由含有400个节点的输出层输出，之后与亲和力和转运效率数据进行合并，进入由200个节点组成的全连接层，最终由包含一个节点的输出层输出，对应能够产生免疫反应的概率。

在所述卷积模块和全连接层中，采用ReLU激活函数进行激活；输出层中采用Sigmoid激活函数来保证输出范围在0-1；损失函数采用二分类交叉熵函数，通过Adam优化算法建立优化器对其进行优化，学习率设置为0.001；批次设置为64，最大迭代次数设置为200；为防止模型过拟合，所述模型中引入了提前终止和随机丢弃策略，提前终止策略在训练模型中表现为：如果准确率或者损失函数在预定的迭代次数后没有改善，模型会提前停止训练；随机丢弃策略是在卷积层和全连接层中，随机丢弃20％的特征。

上述模型采用TensorFlow和python3.8实现。

步骤1：获取肿瘤样本WES和RNA-seq测序数据；

步骤2：利用WES数据进行体细胞突变检测；

步骤3：利用RNA-seq数据获得突变所在基因的表达情况；

步骤4：体细胞突变注释；

步骤5：HLA分型鉴定；

步骤7：突变肽的免疫原性预测。

上述步骤2和步骤3中利用WES和RNA-seq测序数据包括数据质量控制、数据比对和Bam文件处理；所述数据质量控制包括调用fastp软件对DNA和RNA测序原始fastq数据进行质量控制和去接头；所述数据比对包括调用BWA软件对质量控制之后的fastq文件与参考基因组比对，得到肿瘤样本和正常样本的bam文件，RNA数据使用hisat2软件进行参考基因组比对；所述Bam文件处理为对数据比对之后的bam文件进一步处理，调用samtools、GATK软件对bam文件进行排序，标记重复序列，碱基质量重新矫正，得到过滤后的bam文件。

上述步骤4中体细胞突变注释包括使用经过处理的DNA-Bam文件，调用MuTect2、MUSE、SomaticSniper、VARSCAN2检测单碱基变异和基因融合变异，使用STAR-Fusion检测基因融合变异；调用TPMCalculator，使用RNA-bam文件计算突变位置的表达量，再调用AnnovaR对突变进行注释。

上述步骤7中突变肽的免疫原性预测是通过如上述的一种直接预测突变肽免疫原性的深度学习卷积神经网络模型完成。

本发明提供的一种肿瘤新抗原特征分析与免疫原性预测方法包括预测结束后，使用突变肽与HLAI的亲和力IC50-HLAI、突变肽与HLAII的亲和力IC50-HLAII、突变位点的表达情况TPM、突变肽的转运效率TAP、野生型肽段与突变肽分别与HLAI亲和力的比值DAI-I、野生型肽段与突变肽分别与HLAII亲和力的比值DAI-II，6种指标对突变肽进行分类；对候选肽分类排序；排序方法如下：

D)当突变肽上述条件都不满足的，分类为Negative；

3：对每一种分类内部使用免疫原性排序。

上述应用包括提供一种肿瘤新抗原特征分析与免疫原性预测软件程序Seq2Neo。

本发明提供一个系统全面的肿瘤新抗原预测工具即预测软件程序Seq2Neo(如图1)，本工具能够实现从原始测序数据处理到最终新抗原免疫原性预测筛选的全部流程，且支持多种突变来源(包括点突变、小片段插入删除、基因融合)的新抗原分析预测。

本发明包含两个部分，第一部分是系统全面的新抗原特征分析，包括突变多肽与HLA I以及HLAII的亲和力(IC50)、突变肽的转运效率得分(TAP)、突变肽相比野生肽与HLA亲和力差异(DAI)、突变肽所在基因的表达水平等。第二部分综合上述新抗原特征，利用深度学习卷积神经网络模型构建了一种全新的新抗原免疫原性预测工具，该工具直接预测给定新抗原激活特异性CD8+T细胞的潜力。

本发明的新抗原分析预测流程包括如下步骤(如图2)：

(1)获取肿瘤样本WES和RNA-seq测序数据；

(2)利用WES数据进行体细胞突变检测；

(3)利用RNA-seq数据获得突变所在基因的表达情况；

(4)突变注释；

(5)HLA分型鉴定；

(6)多种工具进行突变肽特征预测，包括突变肽和HLA的亲和力，突变肽的转移效率和切割效率以及突变肽与对应野生型肽与HLA的亲和力差异；

(7)突变肽的免疫原性预测。

详细步骤如下：获取肿瘤患者的肿瘤组织和正常组织DNA，通过高通量测序平台分别完成全外显子组(WES)和RNA-seq测序。进一步，上述测序获得的原始数据可以作为本发明提供的预测软件程序Seq2Neo的输入，本发明会自动判定输入数据类型格式并进行详细的后续处理，自动完成新抗原预测。包括，数据质量控制、输入比对、Bam文件处理等。

数据质量控制：Seq2Neo调用fastp软件对DNA和RNA测序原始fastq数据进行质量控制和去接头。

数据比对：Seq2Neo会调用BWA软件对质量控制之后的fastq文件与参考基因组比对，得到肿瘤样本和正常样本的bam文件，RNA数据使用hisat2软件进行参考基因组比对。

Bam文件处理：数据比对之后的bam文件需要进一步处理，Seq2Neo会调用samtools、GATK等软件对bam文件进行排序，标记重复序列、碱基质量重新矫正，得到过滤后的bam文件。

体细胞突变检测：Seq2Neo使用经过处理的DNA-Bam文件，调用MuTect2、MUSE、SomaticSniper、VARSCAN2检测单碱基变异和基因融合变异，使用STAR-Fusion检测基因融合变异。之后调用TPMCalculator，使用RNA-bam文件计算突变位置的表达量，再调用AnnovaR对突变进行注释。

多肽提取：该步骤使用滑窗模式，以8-11个氨基酸长度(可以由用户指定)，在突变位点上下游位置进行逐步滑窗提取包含突变氨基酸的多肽序列，滑窗步长为1。

使用HLA-HD进行HLA I、HLA II分子类型鉴定。

使用NetMHCpan、NetMHCIIpan、MHCflurry等多种软件进行各个特征的综合预测，包括：亲和力预测结果(IC50)、突变肽的转运效率得分(TAP)、突变肽与对应野生型肽的亲和力差异(DAI)、突变肽所在基因的表达水平，以及突变肽激活CD8+T细胞的免疫原性。最后根据上述分析预测结果对突变肽进行排序。

本发明提供一种直接预测突变肽免疫原性的深度学习卷积神经网络模型，该模型的构建包括以下步骤：

1.选择训练数据，首先从IEDB(https://www.iedb.org/)下载经过实验验证的肽段-HLA数据。并在此步骤中将阳性肽的标签设为1，阴性设为0。

2.对数据进行清洗，首先去除HLA信息不完整的数据。由于与HLA一类分子结合的肽段长度只会在8-15个氨基酸长度之间，而95％的新抗原长度都会在8-11个氨基酸之间，因此为了减少数据量，在本步骤中，去除肽段长度小于8或者大于11的肽段。对于长度不足11的肽段，则在肽的中间填充“X”来补到11肽长。HLA序列则使用34个氨基酸长度的假序列(pseudo-sequence)来代表，然后对于肽和HLA序列使用经典的One-Hot编码方式来编码。

One-Hot编码方式具体说明如下：

2a.为含有填充字符的21位氨基酸字母表中的每一个字母分配一个唯一的整数作为该字母在氨基酸字母表中的索引；以字母“A”为例，在氨基酸字母表“ACDEFGHIKLMNPQRSTVWYX”，则丙氨酸“A”，对应的的索引为0；

2b.将每个氨基酸及填充字符根据对应字母分配的整数建立一个由0和1组成的具有21个元素的独热向量，其中只有索引位置为1，其余为0。依旧以丙氨酸“A”为例，转换为One-Hot变量后为[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]；

2c.针对任意一个肽段，将其氨基酸序列中的各个氨基酸的独热向量纵向合并形成独热矩阵，完成矢量化。以肽段“FALLPLTSLVI”为例，

转化后的矩阵参见表1.

表1肽段“FALLPLTSLVI”的One-Hot矩阵

3.将数据使用分层抽样按照8:1:1的比例划分为训练集、验证集和测试集，保证两个数据集中阳性肽与阴性肽的比例大致相同，同时确保任意一个肽-HLA都只存在于训练集、验证集和测试集中的任意一个集合中。本步骤中，验证集仅用于早期停止(earlystopping)，训练集用于执行前馈和反向传播来训练网络参数，测试集用于评估性能，评估用的主要指标有灵敏度(Sensitivity)、特异度(Specificity)和受试者工作曲线下面积(Area Under Receiver Operating Characteristic Curve，AUROC)，以及最佳阈值下的混淆矩阵(如图4，图5)。

4.由于阴性肽数量显著多于阳性肽，为消除这种不均衡的问题，按照阴性肽和阳性肽所占比例设置权重。权重计算公式如下，其中N为标签为Negative的样本数量，P为标签为Positive的样本数量，T为样本总体数量。

5.使用NetMHCpan-4.1预测肽段与HLA的亲和力(IC50)，然后在训练集中计算亲和力IC50极值，然后使用如下公式对训练集、测试集和验证集的亲和力IC50进行标准化：

6.使用NetCTLpan-1.1预测肽段的TAP转运效率，使用上述同样方法对训练集、测试集和验证集标准化。

7.根据卷积神经网络建立深度学习模型，该模型的输出为特定肽段-HLA能够引起CD8+T细胞免疫反应的概率(如图3)，训练直至测试集预测性能达到最佳后停止训练，则该深度模型构建完成。

深度学习模型(如图3)由两个并联的卷积模块组成，每个模块包含3个一维卷积层，并对每个卷积模块采用不同数量及不同大小的过滤器和步长，且对两个卷积模块的输出结果进行扁平化操作，之后进入由4000个节点组成的全连接层，进一步由含有400个节点的输出层输出，之后与亲和力和转运效率数据进行合并，进入由200个节点组成的全连接层，最终由包含一个节点的输出层输出，对应能够产生免疫反应的概率。

再进一步的，在卷积模块和全连接层中，采用Rectified Linear Unit(ReLU)激活函数进行激活，输出层中采用Sigmoid激活函数来保证输出范围在0-1，损失函数采用二分类交叉熵函数，通过Adam优化算法建立优化器对其进行优化，学习率设置为0.001。批次(batch size)设置为64，最大迭代次数(epochs)设置为200。为防止模型过拟合，则所述深度学习模型中引入了提前终止和随机丢弃策略，提前终止策略在训练模型中表现为：如果准确率或者损失函数在预定的迭代次数后没有改善，模型会提前停止训练；随机丢弃策略是在卷积层和全连接层中，随机丢弃20％的特征。

整个卷积神经网络深度学习模型采用TensorFlow(v.2.5.0版本)和python3.8实现。

预测结束后，使用突变肽与HLAI的亲和力IC50-HLAI、突变肽与HLAII的亲和力IC50-HLAII、突变位点的表达情况TPM、突变肽的转运效率TAP、野生型肽段与突变肽分别与HLAI亲和力的比值DAI-I、野生型肽段与突变肽分别与HLAII亲和力的比值DAI-II；6种指标对突变肽进行分类。对候选肽分类排序。

排序方法如下(如图7)：

1.首先保证突变位点表达TPM>1，不满足该条件的突变肽直接分类为Negative。

2.使用IC50-HLAI<500nM，IC50-HLAII<500nM，TAP>0，DAI-I>1，DAI-II>1，作为阈值，按照满足5种条件的数量，将候选肽自高到低分为“Strong”，“Medium”，“Weak”，“Negative”四个等级：

A)当突变肽同时满足IC50-HLAI<500nM，IC50-HLAII<500nM，TAP>0，DAI-I>1，DAI-II>1五个条件的，分类为Strong，当突变肽仅满足IC50-HLAI<500nM，IC50-HLAII<500nM，两个条件，其余不全部满足的，分类为Medium。

B)分为两种情况，首先当突变肽满足IC50-HLAI<500nM，但不满足IC50-HLAII<500nM的，当满足DAI-I>1和TAP>1其中任意条件的，分类为Medium，否则为Weak。其次，满足IC50-HLAII<500nM，但不满足IC50-HLAI<500nM的，当满足DAI-II>1时，分类为Medium，否则为Weak。

C)当突变肽同时不满足IC50-HLAI<500nM和IC50-HLAII<500nM的，当TAP>0，DAI-I>1，DAI-II>1满足至少一项时，分类为Weak，否则为Negative。

D)当突变肽上述条件都不满足的，分类为Negative。

3.对每一种分类内部使用免疫原性(Immunogenicity)排序。

本发明预测肿瘤新抗原的具体流程图见图2所示。

实施例1：

从肿瘤新抗原选择联盟组织(Tumor Neoantigen Selection Alliance，TESLA)的研究中收集了经过实验验证的肽段-HLA数据共599例，其中经验证可以产生免疫反应的有37例。采用本发明提供的工具预测得到的真阳性值为24个，优于现有工具DeepHLApan(12个)，和IEDB推荐工具immunogenicity(22个)。在预测结果的TOP20中，真阳性有4个，TOP50中有7个，结果均优于现有的工具(如图6)。

实施例2：

1.材料准备

获取编号为SRR10801675肿瘤患者的肿瘤组织和编号为SRR10801703的正常组织，通过ILLUMINA高通量测序平台完成肿瘤组织WES测序和RNA-seq测序。

2.数据质量控制

DNA和RNA原始fastq测序数据直接作为输入，使用Seq2Neo工具会自动使用fastp工具完成数据的质量控制并去除接头，得到经过质控的数据SRR10801675_clean.fq.gz和SRR10801703_clean.fq.gz。

3.数据比对

Seq2Neo工具在质控结束后会自动使用BWA软件进行与参考基因组的比对分析，分别得到肿瘤和正常组织的DNA数据的bam文件。质控之后的RNA数据使用hisat2进行参考基因组的比对，得到肿瘤RNA数据的bam文件。

4.Bam文件处理

比对之后的bam文件需要进一步处理，Seq2Neo会调用samtools，Picard，GATK等软件对bam文件进行排序，去除重复数据，碱基质量重新矫正等，得到过滤后的bam文件。

5.体细胞突变检测与注释

完成上述预处理后，Seq2Neo使用相匹配的正常组织和肿瘤组织的bam文件作为输入，使用Mutect2，SomaticSniper，Muse，VarScan2，STAR-fusion软件进行体细胞突变检测，并使用AnnovaR对得到的突变进行注释。

6.突变多肽提取

基于以上步骤得到的体细胞突变信息，Seq2Neo会对突变位点堕胎的综合准确提取，并且相对应的提取正常野生型基因型的多肽序列。多肽提取采用了滑窗的模式，以8-11个氨基酸长度，具体以用户实际规定的长度为准，在突变位点上下游位置进行逐步滑窗提取包含突变氨基酸的多肽序列，且每次滑窗的步长为1。

7.HLA类型鉴定

Seq2Neo会使用HLAHD软件进行HLAI和HLAII分子类型的鉴定。

8.多种特征预测及免疫原性预测

基于上述步骤得到的多肽序列和HLA类型，Seq2Neo会调用NetMHCpan、NetMHCIIpan、MHCflurry、NetCTLpan多软件综合预测多种特征，同时还会使用Seq2Neo-CNN预测免疫原性得分，得到突变多肽的多种预测结果，包括：免疫原性得分、亲和力预测结果(IC50)、突变肽的转运效率得分(TAP)、突变肽与对应野生型肽的亲和力差异(DAI)。同时Seq2Neo调用TPMCalculator，使用肿瘤组织的RNA数据的bam文件计算各突变位点的表达情况。

9.对高得分突变多肽排序

根据Seq2Neo-CNN的预测结果，根据得分高低进行排序，分类为Strong且排名靠前的即为高可信度新抗原(表1)。

表1肿瘤新抗原打分排序

以上所述，仅为本发明的较佳实施例，并非对本发明任何形式上和实质上的限制，应当指出，对于本技术领域的普通技术人员，在不脱离本发明的前提下，还将可以做出若干改进和补充，这些改进和补充也应视为本发明的保护范围。凡熟悉本专业的技术人员，在不脱离本发明的精神和范围的情况下，当可利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化，均为本发明的等效实施例；同时，凡依据本发明的实质技术对上述实施例所作的任何等同变化的更动、修饰与演变，均仍属于本发明的技术方案的范围内。

Claims

1.一种直接预测突变肽免疫原性的深度学习卷积神经网络模型，其特征在于，该模型的构建包括以下步骤：

步骤6：使用NetCTLpan-1.1预测肽段的TAP转运效率，使用上述同样方法对训练集、测试集和验证集标准化；

2.如权利要求1所述的一种直接预测突变肽免疫原性的深度学习卷积神经网络模型，其特征在于：所述模型包括两个并联的卷积模块，每个模块包含3个一维卷积层，每个卷积模块采用不同数量及不同大小的过滤器和步长，对两个卷积模块的输出结果进行扁平化操作，之后进入由4000个节点组成的全连接层，进一步由含有400个节点的输出层输出，之后与亲和力和转运效率数据进行合并，进入由200个节点组成的全连接层，最终由包含一个节点的输出层输出，对应能够产生免疫反应的概率。

3.如权利要求2所述的一种直接预测突变肽免疫原性的深度学习卷积神经网络模型，其特征在于：在所述卷积模块和全连接层中，采用ReLU激活函数进行激活；输出层中采用Sigmoid激活函数来保证输出范围在0-1；损失函数采用二分类交叉熵函数，通过Adam优化算法建立优化器对其进行优化，学习率设置为0.001；批次设置为64，最大迭代次数设置为200；为防止模型过拟合，所述模型中引入了提前终止和随机丢弃策略，提前终止策略在训练模型中表现为：如果准确率或者损失函数在预定的迭代次数后没有改善，模型会提前停止训练；随机丢弃策略是在卷积层和全连接层中，随机丢弃20％的特征。

4.如权利要求3所述的一种直接预测突变肽免疫原性的深度学习卷积神经网络模型，其特征在于：所述模型采用TensorFlow和python3.8实现。

5.一种肿瘤新抗原特征分析与免疫原性预测方法，其特征在于，包括以下步骤：

步骤5.1：获取肿瘤样本WES和RNA-seq测序数据；

步骤5.2：利用WES数据进行体细胞突变检测；

步骤5.3：利用RNA-seq数据获得突变所在基因的表达情况；

步骤5.4：体细胞突变注释；

步骤5.5：HLA分型鉴定；

步骤5.6：应用多种现有工具进行突变肽特征预测，包括突变肽和HLA的亲和力，突变肽的转移效率和切割效率以及突变肽与对应野生型肽与HLA的亲和力差异；突变肽所在基因的表达水平；

步骤5.7：突变肽的免疫原性预测。

6.如权利要求5所述的一种肿瘤新抗原特征分析与免疫原性预测方法，其特征在于：所述步骤5.2和步骤5.3中利用WES和RNA-seq测序数据包括数据质量控制、数据比对和Bam文件处理；所述数据质量控制包括调用fastp软件对DNA和RNA测序原始fastq数据进行质量控制和去接头；所述数据比对包括调用BWA软件对质量控制之后的fastq文件与参考基因组比对，得到肿瘤样本和正常样本的bam文件，RNA数据使用hisat2软件进行参考基因组比对；所述Bam文件处理为对数据比对之后的bam文件进一步处理，调用samtools、GATK软件对bam文件进行排序，标记重复序列，碱基质量重新矫正，得到过滤后的bam文件。

7.如权利要求6所述的一种肿瘤新抗原特征分析与免疫原性预测方法，其特征在于：所述步骤5.4中体细胞突变注释包括使用经过处理的DNA-Bam文件，调用MuTect2、MUSE、SomaticSniper、VARSCAN2检测单碱基变异和基因融合变异，使用STAR-Fusion检测基因融合变异；调用TPMCalculator，使用RNA-bam文件计算突变位置的表达量，再调用AnnovaR对突变进行注释。

8.如权利要求7所述的一种肿瘤新抗原特征分析与免疫原性预测方法，其特征在于：所述步骤5.7中突变肽的免疫原性预测是通过如权利要求1-4中任一项所述的一种直接预测突变肽免疫原性的深度学习卷积神经网络模型完成。

9.如权利要求5所述的一种肿瘤新抗原特征分析与免疫原性预测方法，其特征在于：包括预测结束后，使用突变肽与HLAI的亲和力IC50-HLAI、突变肽与HLAII的亲和力IC50-HLAII、突变位点的表达情况TPM、突变肽的转运效率TAP、野生型肽段与突变肽分别与HLAI亲和力的比值DAI-I、野生型肽段与突变肽分别与HLAII亲和力的比值DAI-II，6种指标对突变肽进行分类；对候选肽分类排序；排序方法如下：

9.1：首先保证突变位点表达TPM>1，不满足该条件的突变肽直接分类为Negative；

9.2：使用IC50-HLAI<500nM，IC50-HLAII<500nM，TAP>0，DAI-I>1，DAI-II>1，作为阈值，按照满足5种条件的数量，将候选肽自高到低分为“Strong”，“Medium”，“Weak”，“Negative”四个等级：

D)当突变肽上述条件都不满足的，分类为Negative；

9.3：对每一种分类内部使用免疫原性排序。

10.如权利要求5-9中任一项所述的一种肿瘤新抗原特征分析与免疫原性预测方法的应用。

11.如权利要求10所述的应用，其特征在于：所述应用包括提供一种肿瘤新抗原特征分析与免疫原性预测软件程序。