CN110600077B

CN110600077B - 肿瘤新抗原的预测方法及其应用

Info

Publication number: CN110600077B
Application number: CN201910809829.9A
Authority: CN
Inventors: 徐冰; 张静波; 单光宇; 伍启熹; 王建伟; 刘倩; 唐宇
Original assignee: Beijing Usci Medical Laboratory Co ltd
Current assignee: Beijing Usci Medical Laboratory Co ltd
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-07-12
Anticipated expiration: 2039-08-29
Also published as: CN110600077A

Abstract

本发明公开了一种肿瘤新抗原的预测方法及其应用。其中，该预测方法包括以下步骤：S1，获取肿瘤患者的肿瘤样本和血浆白细胞样本，构建测序文库并且进行全基因组、全外显子组或靶向捕获RNA、DNA测序；S2，以血浆白细胞DNA作为对照，对肿瘤样本DNA进行比对及体细胞突变的检出，过滤出错义突变位点并对过滤出的错义突变位点进行注释；S3，采用血浆白细胞DNA测序数据对HLA‑I类及HLA‑II类等位基因进行分型；S4，预测可与HLA‑I类及HLA‑II类等位基因结合的抗原多肽。应用本发明的技术方案，可以更准确筛选出基因可表达的与HLA‑I类及HLA‑II类等位基因结合并引起抗肿瘤免疫反应的抗原。

Description

肿瘤新抗原的预测方法及其应用

技术领域

本发明涉及生物医学技术领域，具体而言，涉及一种肿瘤新抗原的预测方法及其应用。

背景技术

癌症免疫治疗在检查点阻断抑制临床应用中取得了巨大的成功。大规模的并行测序分析表明，肿瘤突变负荷与这类治疗反应间存在联系。为了提高对检查点阻断抑制治疗反应的预测，确定肿瘤疫苗和过继T细胞治疗的靶点，需要确定哪些肿瘤特异性突变多肽(新抗原)可以诱导抗肿瘤T细胞免疫。这些独特的抗原标记来自于大量的体细胞基因突变，只存在于肿瘤中，而不存在于正常细胞中。临床数据表明，这些突变序列表达的多肽蛋白在抗原呈递细胞表达的MHC分子中经过处理和表达后，可被免疫系统识别为非己而被消灭。Boon等人(Boon T,Cerottini J-C,Van den Eynde B,van der Bruggen P,Van PelA.Tumor antigens recognized by T lymphocytes.Annu Rev Immunol.1994；12(1):337–65)首次发现了癌症特异性多肽/MHC-I类复合物可被患者体内的CD8⁺T细胞识别。最近临床数据(Trajanoski Z,Maccalli C,Mennonna D,Casorati G,Parmiani G,DellabonaP.Somatically mutated tumor antigens in the quest for a more efficiouspatient-oriented immunotherapy of cancer.Cancer Immunol Immunother.2015；64(1):99-104)表明肿瘤突变产生的变异多肽经MHC分子处理后，可被免疫系统识别为非己，引起免疫反应。

虽然检查点阻断治疗在临床上取得了巨大的成功，但是患者特异性肿瘤疫苗仍然不能满足无治疗反应、产生耐药性或不能耐受检查点阻断药物相关副作用的患者的临床需要。新抗原通过选择性增加CD8+T细胞的频率，增强免疫系统的抗肿瘤活性，从而扩大免疫系统识别和摧毁癌细胞的能力。这一过程依赖于新抗原多肽结合HLA-I类及HLA-II类分子的亲和力及表达的能力，这是诱导免疫反应和激活CD8+T细胞的关键一步。

Benjamin Schubert等人(Schubert B,Brachvogel HP,Jürges C,KohlbacherO.EpiToolKit--a web-based workbench for vaccine design.Bioinformatics.2015；31(13):2211–2213.doi:10.1093/bioinformatics/btv116)开发了一系列免疫学方法，用于开发基于新抗原的疫苗，包括HLA配体或潜在的T细胞表位预测。

发明内容

本发明旨在提供一种肿瘤新抗原的预测方法及其应用，以提高肿瘤新抗原的预测的准确性。

为了实现上述目的，根据本发明的一个方面，提供了一种肿瘤新抗原的预测方法。该预测方法包括以下步骤：S1，获取肿瘤患者的肿瘤样本和血浆白细胞样本，分别提取肿瘤样本的RNA和DNA以及血浆白细胞样本的DNA，构建测序文库并且进行靶向捕获RNA、DNA测序；S2，以血浆白细胞DNA作为对照，对肿瘤样本DNA进行比对及体细胞突变的检出，过滤出错义突变位点并对过滤出的错义突变位点进行注释；S3，采用血浆白细胞DNA测序数据对HLA-I类及HLA-II类等位基因进行分型；S4，以HLA-I类等位基因分型为基础，结合S2得到的信息，预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。

进一步地，预测方法进一步包括：S5，将基因表达量数据及测序深度信息注释到体细胞变异检出数据中，并对与胚系突变相近的体细胞突变引起的多肽的改变进行纠正。

进一步地，基因表达量数据通过以下步骤获得：

对肿瘤组织RNA进行转录组分析，将RNA测序数据比对至人类参考基因组，分析基因的差异性表达，计算FPKM值；

其中，total exon Fragments为比对到某一转录本上的片段数目，mapped reads为比对上的所有短序列总数，exon length为转录本长度；根据FPKM值判断基因是否为表达基因，将属于表达基因的错义突变位点筛选出来作为新抗原预测的对象。

进一步地，FPKM值大于1判断为表达基因。

进一步地，S3与S4之间还包括构建FASTA文件，FASTA文件包含错义突变位点的野生型和突变型两个氨基酸序列，FASTA序列在突变氨基酸的每一侧包保留8～10个侧链氨基酸，如果突变是在转录本的头部或者尾部，则分别截取前面或后面的16～20个氨基酸来构建FASTA序列。

进一步地，S4中，应用NetMHC算法预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。

进一步地，S1和S2之间还包括：测序序列质量检查，依据碱基质量分数分布、测序质量分数分布、每条序列平均碱基含量、序列中GC碱基分布、PCR扩增问题、去除接头对测序序列进行修剪，保留高质量测序序列以供进一步分析，低质量的测序序列排除在分析之外；将测序序列比对至人类参考基因组上，标记/去除重复序列。

根据本发明的另一方面，提供了一种上述肿瘤新抗原的预测方法在疫苗筛选中的应用。

进一步地，在选择候选抗原多肽制备疫苗时，测序深度以及包含变异等位基因频率的测序序列的比例作为筛选优先级突变的标准，过滤掉正常DNA测序覆盖深度≤5，等位基因突变频率≥2％的突变位点，覆盖深度提高至20；根据血浆白细胞中肿瘤细胞的污染的可疑程度，增加等位基因突变频率的阈值，对于肿瘤DNA的覆盖深度过滤阈值为≥10及突变频率阈值为≥40％，FPKM值大于1判断为表达。

应用本发明的技术方案，以血浆白细胞DNA为正常对照，检出的肿瘤特有突变较准确，以转录组差异性表达的基因为筛选条件，可以更准确筛选出基因可表达的与HLA-I类及HLA-II类等位基因结合并引起抗肿瘤免疫反应的抗原，并进一步将测序深度等信息整合至预测的抗原多肽的信息中，提高预测的准确性。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明一实施方式中肿瘤新抗原的预测方法的流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

针对背景技术中提到的技术问题，本发明提出了下列技术方案。根据本发明一种典型的实施方式，提供一种肿瘤新抗原的预测方法。该预测方法包括以下步骤：S1，获取肿瘤患者的肿瘤样本和血浆白细胞样本，分别提取肿瘤样本的RNA和DNA以及血浆白细胞样本的DNA，构建测序文库并且进行靶向捕获RNA、DNA测序；S2，以血浆白细胞DNA作为对照，对肿瘤样本DNA进行比对及体细胞突变的检出，过滤出错义突变位点并对过滤出的错义突变位点进行注释；S3，采用血浆白细胞DNA测序数据对HLA-I类及HLA-II类等位基因进行分型；S4，以HLA-I类及HLA-II类等位基因分型为基础，结合S2得到的信息，预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。

在本发明中低频突变可以认为是组织中突变频率低于1％的突变。

应用本发明的技术方案，以血浆白细胞DNA为正常对照，检出的肿瘤特有突变较准确，以转录组差异性表达的基因为筛选条件，可以更准确筛选出基因可表达的与HLA-I类及HLA-II类等位基因结合并引起抗肿瘤免疫反应的抗原。

优选地，预测方法进一步包括：S5，将基因表达量数据及测序深度信息注释到体细胞变异检出数据中，并对与胚系突变相近的体细胞突变引起的多肽的改变进行纠正，将测序深度等信息整合至预测的抗原多肽的信息中，提高预测的准确性

在本发明一实施方式中，基因表达量数据通过以下步骤获得：

其中，total exon Fragments为比对到某一转录本上的片段数目，mapped reads为比对上的所有短序列总数，exon length为转录本长度；根据FPKM值判断基因是否为表达基因，将属于表达基因的错义突变位点筛选出来作为新抗原预测的对象。典型的，此步的FPKM值是通过Cufflinks软件计算得来，是计算基因的表达量，可以知道发生体细胞突变的基因有没有表达，用于后续筛选位于表达基因上的体细胞突变位点。FPKM值大于0的基因认为是表达的基因，为消除噪声，将FPKM的阈值提高至1。

为了数据的处理方便，优选地，S3与S4之间还包括构建FASTA文件，包含每个变异位点的野生型和突变型两个氨基酸序列，FASTA序列在突变氨基酸的每一侧包保留8～10个侧链氨基酸，如果突变是在转录本的头部或者尾部，则分别截取前面或后面的16～20个氨基酸来构建FASTA序列。

为了提高预测的准确性，在本发明一实施例中，S4中，应用NetMHC算法预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。

根据本发明一种典型的实施方式，S1和S2之间还包括：测序序列质量检查，依据碱基质量分数分布、测序质量分数分布、每条序列平均碱基含量、序列中GC碱基分布、PCR扩增问题、去除接头对测序序列进行修剪，保留高质量测序序列以供进一步分析，低质量的测序序列排除在分析之外；将测序序列比对至人类参考基因组上，标记/去除重复序列，从而进一步提高了预测的准确性。

在本发明的发明宗旨知道下，根据本发明一典型的实施方式，提供了一种上述肿瘤新抗原的预测方法在疫苗筛选中的应用。

优选地，在选择候选疫苗时，测序深度以及包含变异等位基因频率的测序序列的比例作为筛选优先级突变的标准，过滤掉正常DNA测序覆盖深度≤5，等位基因突变频率≥2％的突变位点，覆盖深度提高至20；根据血浆白细胞中肿瘤细胞的污染的可疑程度，增加等位基因突变频率的阈值，对于肿瘤DNA的覆盖深度过滤阈值为≥10及突变频率阈值为≥40％，FPKM值大于1判断为表达。

在本发明一典型的实施方式中，参考图1，肿瘤新抗原的预测方法包括以下步骤：

分别提取肿瘤样本的RNA和DNA以及血浆白细胞样本的DNA，构建测序文库并且进行靶向捕获RNA、DNA测序。

数据处理步骤如下：

步骤1：

1)血浆白细胞DNA比对：使用Fastqc(v 0.11.6)软件统计血浆白细胞DNA测序质量，使用Cutadapter(v 1.2.1)软件去除建库时连接的测序接头，去除质量分数小于10的碱基占整条序列的30％的序列及含N碱基比例较高的序列。将质控后的序列使用BWA(v0.7.17)软件MEN算法比对至人类参考基因组，获得比对结果，排序比对结果并建立Index文件，使用Picard Tools(v 2.18.4)软件标记/去除重复序列。

2)HLA-I类及HLA-II类等位基因分型：使用BWA(v 0.7.17)软件MEM算法将质控后的血浆白细胞测序数据比对至IMMUNE EPITOPE DATABASE(IEDB)数据库HLA等位基因参考序列上，得到比对数据，使用HLAscan(v 2.1.3)软件进行HLA-I类的A、B、C三种亚型及HLA-II类的DP、DQ、DR三种亚型的等位基因分型。

步骤2：

1)肿瘤组织DNA比对：使用Fastqc(v 0.11.6)软件统计肿瘤组织DNA测序质量，使用Cutadapter(v 1.2.1)软件去除建库时连接的测序接头，去除质量分数小于10的碱基占整条序列的30％的序列及含N碱基比例较高的序列。将质控后的序列使用BWA(v 0.7.17)软件MEN算法比对至人类参考基因组，获得比对结果，排序比对结果并建立Index文件，使用Picard Tools(v 2.18.4)软件标记/去除重复序列。

2)肿瘤组织体细胞突变检出：基于步骤1(1)中产生的血浆白细胞DNA比对数据，作为正常对照，使用VarScan(v 2.4.3)软件对上一步产生的肿瘤组织DNA数据进行体细胞单核苷酸变异检出，排除覆盖深度小于800X，突变频率低于1％及具有链偏好性的突变位点。

3)肿瘤组织体细胞突变注释：使用Variant Effect Predictor(v 95.3)(VEP)软件对检出的体细胞突变位点进行转录本、氨基酸序列及功能效应注释，过滤出错义突变位点。

4)将测序深度信息整合至注释文件：先使用bam-readcount(v 0.8.0)软件计算所有短测序序列上所有碱基的深度、质量及比对质量，然后使用VCF Readcount Annotator(v3.1.0)软件将bam-readcount生成的统计结果整合至VEP注释后的文件中。

步骤3：

1)肿瘤组织RNA比对：使用Fastaqc(v 0.11.6)软件统计肿瘤组织RNA测序质量，使用Cutadapter(v 1.2.1)软件去除建库时连接的测序接头，3’末端序列质量下降时需要删除以增加比对率。去除质量分数小于10的碱基占整条序列的30％的序列及含N碱基比例较高的序列，将质控后的测序数据使用Bowtie2(v 2.2.9)比对至人类参考基因组上，获得比对结果，排序比对结果。对于RNA-Seq，重复测序序列常常是高表达转录本的一种自然结果，因此对于差异分析，不进行标记/去除重复序列操作。

2)计算基因表达量：根据上一步产生的比对结果使用Cufflinks(v 2.2.1)软件进行基因的差异性表达分析，根据软件计算所得FPKM值判断基因是否表达。FPKM值大于0的基因认为是表达的基因，为消除噪声，将FPKM阈值提高至1。

3)过滤突变位点：将位于表达的基因上(即FPKM值大于1的基因)的错义突变位点筛选出来，作为后续新抗原预测的对象。

4)将基因及转录本表达信息整合至注释文件：使用VCF Expression Annotator(v3.1.0)软件将Cufflinks软件生成的差异性基因表达的分析结果整合至VEP注释后的文件中。

步骤4：

构建氨基酸FASTA文件：包含上一步产生的每个错义突变位点的野生型和突变型两种氨基酸FASTA序列，FASTA序列在突变氨基酸的前后各保留8～10个氨基酸，如果突变是在转录本的头部或者尾部，则分别截取后面及前面16～20个氨基酸来构建FASTA序列。

步骤5：

预测肿瘤新抗原：使用pVAC-Seq(v 4.0.10)软件根据以上步骤生成的VEP注释文件计算可与已分型的HLA-I类及HLA-II类等位基因高亲和力结合的抗原多肽，预测出的抗原多肽其中整合了基因表达信息及测序深度信息，可根据以上信息进行后续抗原多肽的筛选以制备多肽疫苗。

下面将结合实施例进一步说明本发明的有益效果。

实施例1

本实施例中，应用黑色素细胞瘤患者的全外显子测序和RNA-Seq数据进行测试，可以准确的对HLA-I类及HLA-II类等位基因分型，并预测可与HLA-I类及HLA-II类等位基因紧密结合的新抗原。

具体步骤如下：

获取一例黑色素瘤患者的肿瘤组织及血浆白细胞样本，提取肿瘤组织DNA、RNA及血浆白细胞DNA构建测序文库，并进行全外显子组测序，获取测序数据。

数据分析如下：

步骤1：

1)血浆白细胞DNA比对：使用Fastqc(v 0.11.6)(-t 6)软件统计血浆白细胞DNA的测序质量，使用Cutadapter(v1.2.1)软件去除建库时连接的测序接头，软件使用默认参数，去除质量分数小于10的碱基占整条序列的30％的序列及含N碱基比例较高的序列。将质控后的短测序序列使用BWA(V0.7.17)的MEM比对算法比对至hg19/GRCh37人类参考基因组上，获得比对结果，排序比对比对结果并建立Index文件，使用Picard Tools(v2.18.4)软件MarkDuplicates命令标记/去除重复序列。

2)HLA-I类及HLA-II类等位基因分型：使用BWA(v0.7.17)软件MEM比对算法将质控后的血浆白细胞测序数据比对至IMMUNE EPITOPE DATABASE(IEDB)数据库HLA等位基因参考序列上，得到比对数据，使用HLAscan(v2.1.3)软件进行HLA-I类的A、B、C三种亚型及HLA-II类的DP、DQ、DR三种亚型的等位基因分型，软件使用默认参数。

步骤2：

1)肿瘤组织DNA比对：使用Fastqc(v0.11.6)(-t6)软件统计肿瘤组织DNA的测序质量，使用Cutadapter(v1.2.1)软件去除建库时连接的测序接头，软件使用默认参数，去除质量分数小于10的碱基占整条序列的30％的序列及含N碱基比例较高的序列。将质控后的短测序序列使用BWA(V0.7.17)的MEM比对算法比对至hg19/GRCh37人类参考基因组上，获得比对结果，排序比对比对结果并建立Index文件，使用Picard Tools(v2.18.4)软件MarkDuplicates命令标记/去除重复序列。

2)肿瘤组织体细胞突变检出：基于步骤1(1)中生成的血浆白细胞DNA比对数据，作为正常对照，使用VarScan(v2.4.3)软件somatic命令(--output-snp,--somatic-p-value0.01,--min-coverage 6,--output-vcf 1,--normal-purity 1.00,--strand-filter1,--validation 1)对上一步产生的肿瘤组织DNA数据进行体细胞单核苷酸变异检出，过滤掉测序深度小于1000X，突变频率低于1％及具有链偏好性的突变位点。

3)肿瘤组织体细胞突变注释：使用Variant Effect Predictor(v95.3)软件对上一步顾虑出的体细胞突变位点进行注释(--cache,--dir_cache,--offline,-i,-o,--format vcf,--species homo_sapines,--vcf,--symbol,--term SO,--hgvs,--fasta,--plugin Downstream,--plugin Wildtype,--dir_plugs,--pick–transcript_version,--force_overwrite,--fork 6,--merged,--used_transcript_ref,--use_given_ref),筛选出注释后的错义突变位点。

4)将测序深度信息整合至注释文件：使用Bam read count(v0.8.0)(-f,-l)软件计算所有短测序序列上所有碱基的深度、质量及比对质量，然后使用VCF ReadcountAnnotator(v3.1.0)(-s<sample_name>,-t snp,-o<annotated_vcf>)软件将bam-readcount软件生成的统计结果整合至筛选出的已注释的错义突变位点的文件中.

步骤3：

1)肿瘤组织RNA比对：使用Fastqc(v0.11.6)(-t6)软件统计肿瘤组织RNA测序质量，使用Cutadapter(v1.2.1)软件去除建库时连接的测序接头，去除质量分数小于10的碱基占整条序列的30％的序列及含N碱基比例较高的序列。使用Tophat 2(v2.1.0)(-p 8,-G<homo_reference>)软件将质控后的测序数据比对至hg19/GRCh37人类参考基因组上，排序比对文件。

2)计算基因表达量：使用Cufflinks(v2.2.1)(-p 8,-G<gene_gtf>,-b<homo_genome_fasta>,-u,--no-update-check>)软件对上一步生成的比对数据进行基因的差异性表达分析，计算FPKM值，筛选出FPKM值大于1的基因上的错义突变位点。

3)将基因及转录本表达信息整合至注释文件：使用VCF Expression Annotator(v3.1.0)(默认参数)软件将上一步Cufflinks软件生成的分析结果整合至筛选出的已注释的错义突变位点文件中。

步骤4：

构建氨基酸FASTA文件：包含上一步筛选出的所有错义突变位点的野生型和突变型两种氨基酸FASTA序列，FASTA序列在突变氨基酸的前后各保留8～10个氨基酸，如果突变是在转录本的头部或者尾部，则分别截取头部后及尾部前16～20个氨基酸来构建FASTA序列。

步骤5：

预测肿瘤新抗原：使用pVac-Seq(v4.0.10)软件run命令的NetMHC算法(-e 8,9,10,--iedb-install-directory<IEDB_install_dir>,-i<additional_input_yaml_file>,--tdna-vaf 20,--net-chop-method cterm,--netmhc-stab,–top-score-metric＝lowest,-d full)预测可与分型出来的HLA等位基因高亲和力结合的抗原多肽。

预测的抗原多肽结果的部分展示如表1所示。

表1

注：Chromosome代表染色体，Start代表起始位点，Stop代表终止位点，Reference代表参考碱基，Variant代表突变碱基，Transcript代表转录本，Ensembl Gene ID：Ensembl数据库基因ID，Variant Type代表突变类型，Mutation代表氨基酸的改变，ProteinPosition代表突变引起的改变的蛋白质的位置，Gene Name代表基因名称，HLA Allele代表HLA等位基因分型，Peptide Length代表抗原多肽链的长度，Sub-peptide Position代表亚多肽位置，Mutation Position代表突变引起改变的氨基酸的位置，MT Epitope Seq代表突变型多肽链的序列，WT Epitope Seq代表野生型多肽链的序列，Best MT Score Method代表预测新抗原所用算法，Best MT Score代表突变型抗原多肽得分，Corresponding WTScore代表与突变型抗原多肽对应的野生型多肽的得分，Corresponding Fold Change野生型得分与突变型等分比值，Tumor DNA Depth代表肿瘤DNA中该突变位点的测度深度，TumorDNA VAF代表肿瘤组织DNA突变位点的突变频率，Normal Depth代表血浆白细胞DNA中该突变位点的测序深度，Normal VAF代表血浆白细胞DNA中该突变位点的突变频率，GeneExpression代表基因表达量，Transcript Expression代表转录本表达量，Median MTScore代表突变型多肽得分的中位值，Median WT Score代表野生型多肽得分的中位值，Median Fold Change代表野生型得分中位值与突变型得分中位值的比值，NetMHC WTScore代表NetMHC算法预测的突变型多肽得分，NetMHC MT Score代表NetMHC算法预测的野生型多肽得分。

从以上的描述中，可以看出，本发明上述的实施例实现了如下技术效果：

利用肿瘤患者的肿瘤组织及血浆白血胞进行全外显子基因组测序，可以对样本进行准确及高分辨的HLA等位基因分型，及预测出可与HLA等位基因高亲和力结合的抗原多肽。利用自体混合淋巴细胞-肿瘤细胞培养及其衍生的T细胞克隆，发现四种突变可编码患者特异性HLA限制性新抗原，分别为PRDM10mut(S1050F)、INSIG1mut(S238F)、MMS22Lmut(S437F)、HERPUD1mut(G161S)，检测到肿瘤抗原特异性应答的杀伤T细胞。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种肿瘤新抗原的预测方法，其特征在于，包括以下步骤：

S1，获取肿瘤患者的肿瘤样本和血浆白细胞样本，分别提取所述肿瘤样本的RNA和DNA以及所述血浆白细胞样本的DNA，构建测序文库并且进行全基因组、全外显子组或靶向捕获RNA、DNA测序；

S2，以血浆白细胞DNA作为对照，对肿瘤样本DNA进行比对及体细胞突变的检出，过滤出错义突变位点并对过滤出的所述错义突变位点进行注释；

S3，采用血浆白细胞DNA测序数据对HLA-I类及HLA-II类等位基因进行分型；

S4，以HLA-I类及HLA-II类等位基因分型为基础，结合所述S2得到的信息，预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽；

S5，将基因表达量数据及测序深度信息注释到体细胞变异检出数据中，并对与胚系突变相近的体细胞突变引起的多肽的改变进行纠正；

所述基因表达量数据通过以下步骤获得：

其中，total exon Fragments为比对到某一转录本上的片段数目，mapped reads为比对上的所有短序列总数，exon length为转录本长度；

根据FPKM值判断基因是否为表达基因，将属于表达基因的错义突变位点筛选出来作为新抗原预测的对象。

2.根据权利要求1所述的预测方法，其特征在于，所述FPKM值大于1判断为表达基因。

3.根据权利要求1所述的预测方法，其特征在于，所述S3与S4之间还包括构建FASTA文件，所述FASTA文件包含错义突变位点的野生型和突变型两个氨基酸序列，FASTA序列在突变氨基酸的每一侧包保留8～10个侧链氨基酸，如果突变是在转录本的头部或者尾部，则分别截取前面或后面的16～20个氨基酸来构建FASTA序列。

4.根据权利要求1所述的预测方法，其特征在于，所述S4中，应用NetMHC算法预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。

5.根据权利要求1所述的预测方法，其特征在于，所述S1和S2之间还包括：

测序序列质量检查，依据碱基质量分数分布、测序质量分数分布、每条序列平均碱基含量、序列中GC碱基分布、PCR扩增问题、去除接头对测序序列进行修剪，保留高质量测序序列以供进一步分析，低质量的测序序列排除在分析之外；

将测序序列比对至人类参考基因组上，标记/去除重复序列。

6.如权利要求1至5中任一项所述的肿瘤新抗原的预测方法在疫苗筛选中的应用。

7.根据权利要求6所述的应用，其特征在于，在选择候选疫苗时，测序深度以及包含变异等位基因频率的测序序列的比例作为筛选优先级突变的标准，过滤掉正常DNA测序覆盖深度≤5，等位基因突变频率≥2％的突变位点，覆盖深度提高至20；

根据血浆白细胞中肿瘤细胞的污染的可疑程度，增加等位基因突变频率的阈值，对于肿瘤DNA的覆盖深度过滤阈值为≥10及突变频率阈值为≥40％，FPKM值大于1判断基因为表达。