CN109801678B

CN109801678B - 基于全转录组的肿瘤抗原预测方法及其应用

Info

Publication number: CN109801678B
Application number: CN201910071985.XA
Authority: CN
Inventors: 叶浩; 李祥永; 韩子维; 黄建锋; 戴珩
Original assignee: Shanghai Jingzhou Gene Technology Co ltd
Current assignee: Shanghai Jingzhou Gene Technology Co ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2023-07-25
Anticipated expiration: 2039-01-25
Also published as: CN109801678A

Abstract

本发明涉及一种基于全转录组的肿瘤抗原预测方法，包括：根据肿瘤组织和相应癌旁组织的全转录组测序数据，分别进行肿瘤相关抗原的蛋白生成与肽段截取、肿瘤体细胞突变检测以及相应突变肽段截取、肿瘤特异novel转录本的生成与肽段截取、肿瘤组织中基因融合检测及融合肽段截取，获得包括肿瘤相关抗原、肿瘤体细胞突变、肿瘤novel转录本、基因融合的肿瘤特异肽段，计算所获得的肿瘤特异肽段与HLA分子的亲和力以及在各转录本中的表达量，基于肿瘤特异肽段的亲和力值和表达量TPM值，评价候选肿瘤抗原的级别。本发明还提供其应用。采用了本发明的方法及应用，有助于精确计算肿瘤抗原负荷、评估免疫治疗效果、服务后期的肿瘤疫苗设计。

Description

基于全转录组的肿瘤抗原预测方法及其应用

技术领域

本发明涉及生物信息领域，尤其涉及肿瘤免疫治疗生物标志物发现，具体是指一种基于全转录组的肿瘤抗原预测方法及其应用。

背景技术

肿瘤抗原泛指在肿瘤发生、发展过程中新出现的新生抗原或过度表达的肿瘤相关抗原。

其中，新出现的抗原也称为新生抗原，多来源于肿瘤基因组上包括SNV/Indel、基因融合、可变剪接等类型突变形成的不存在于正常细胞中的突变蛋白。新生抗原对于机体而言，是肿瘤表达出特异的全新蛋白，能介导免疫细胞精准识别杀伤肿瘤，而不会误杀其它正常组织。

肿瘤相关抗原是来源于在肿瘤组织中异常高表达且在正常组织微量表达或不表达的蛋白。例如，肿瘤胚系抗原基因是一组仅仅限制性的表达在正常人的精子细胞中，但也发现在很大一部分肿瘤组织上有表达。这可能是由于肿瘤细胞基因组的紊乱，导致这些基因上游的表观遗传修饰的改变，从而在肿瘤细胞中也检测到了这些基因的表达。这种基因组织限制表达的模式改变也会被免疫细胞所识别，从而激发免疫细胞对肿瘤细胞的初始免疫反应。著名的NY-ESO-1与MAGE-A3均属于此类肿瘤胚系抗原。

现阶段针对肿瘤抗原的预测主要集中在蛋白编码区突变形成肿瘤新生抗原，鲜有涉及与基因表达特异性相关的肿瘤相关抗原。

具体而言，现在的新生抗原预测一般有4步：1)通对全外显子测序检测蛋白编码区的体细胞突变并注释到蛋白水平上；2)截取一定长度的含有突变短肽；3)基于对照的外显子测序做HLA分子分型；4)预测突变短肽与HLA分子的亲和力。

上述测序步骤中存在3处缺陷：a)突变检测不完全，由于全外显子的捕获区域的局限，如绝大部分基因融合、可变剪接等均发生在非编码区，因而全外显子无法全面的检测到这些基因融合、可变剪接等形成的novel转录本；b)检测的突变不一定有表达，肿瘤抗原最终是在蛋白多肽水平上实现与HLA的识别，这些突变是否能表达出来是关键的一环，而全外显子测序上检测到的蛋白编码区突变，无法确定该突变是否真正有表达；c)忽略了基因限制性表达模式改变而形成的肿瘤相关抗原，使得总体肿瘤抗原负荷评估不完整。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种弥补现有工具缺陷、有助于精确计算肿瘤新生抗原负荷并评估免疫治疗效果、以及提供可靠的多肽信息服务于后期的肿瘤疫苗设计的基于全转录组的肿瘤抗原预测方法及其应用。

为了实现上述目的，本发明一方面提供了一种基于全转录组的肿瘤抗原预测方法，其具有如下构成：

所述的预测方法包括：根据肿瘤组织和相应癌旁组织的全转录组信息，分别进行肿瘤相关抗原的蛋白生成与肽段截取、肿瘤体细胞突变检测以及相应突变蛋白截取、肿瘤特异novel转录本的生成与肽段截取、肿瘤组织中基因融合检测及融合肽段截取，获得包括肿瘤相关抗原、肿瘤体细胞突变、肿瘤novel转录本、基因融合的肿瘤特异肽段，计算所获得的肿瘤特异肽段与HLA分子的亲和力以及在各转录本中的表达量，基于肿瘤特异肽段的亲和力值和表达量TPM值，评价候选肿瘤抗原的级别。

较佳地，所述的预测方法具体包括步骤：

S1：肿瘤相关抗原的蛋白生成与肽段截取；

S2：肿瘤体细胞突变检测以及相应突变肽段截取；

S3：肿瘤特异novel转录本的生成与肽段截取；

S4：肿瘤组织中基因融合检测及融合肽段截取；

S5：癌旁组织的HLA分子分型检测；

S6：肿瘤特异肽段与HLA分子的亲和力预测；

S7：肿瘤抗原负荷计算与肿瘤抗原级别确定。

较佳地，所述的步骤S1具体包括：

S1-1：分别计算肿瘤组织以及相应癌旁组织中各转录本的表达量TPM值，挑选在癌旁组织中TPM值为0且在肿瘤组织中TPM值大于1的转录本；

S1-2：通过人类各正常的非免疫豁免组织的基因表达数据库GTEx信息，过滤所挑选出的转录本，排除正常组织有表达的转录本，筛选获得肿瘤相关抗原基因转录本；

S1-3：获取所筛选出的肿瘤相关抗原基因转录本的蛋白氨基酸序列全长，从起始点开始，以8-11氨基酸长度的扫描窗口，逐步平移截取肿瘤相关抗原短肽，获得肿瘤相关抗原肽段；

优选地，在步骤S1-1中，利用RSEM工具计算表达量TPM值；

优选地，在步骤S1-2中，所述的非免疫豁免组织是指除睾丸、大脑、眼睛以外的组织；

优选地，在步骤S1-2中，过滤的具体规则为：根据需过滤的转录本x在该肿瘤样本以及GTEx数据库中正常样本的TPM表达值，计算z值以及foldchange值，

其中，Tumor TPM(x)表示转录本x在肿瘤样本中的TPM表达值；average TPM(x)inGTEx表示转录本x在GTEx数据库各正常组织样本中的TPM表达平均值；standard varianceTPM(x)in GTEx表示转录本x在GTEx数据库中各正常组织样本中TPM表达值的标准差，

仅保留z值≥2.33且foldchange值≥10的转录本，其余舍弃；

优选地，在步骤S1-3中，利用pyEnsembl工具获取蛋白氨基酸序列全长。

较佳地，所述的步骤S2具体包括：

S2-1：用GATK函数SplitNCigarReads分别对肿瘤组织以及癌旁组织的bam文件处理，将比对参考基因组的reads限定在exon区域；之后，用GATK的Mutect2函数对处理过的bam文件进行体细胞突变检测；

S2-2：用SnpEff注释将每一个体细胞基因组上的碱基突变注释到Ensembl数据库上的每一个转录本以及相应蛋白序列上，截取长度为L的突变肽，生成单突变的突变肽；

S2-3：将步骤S2-1中检测到的所有突变碱基，替换掉人类参考基因组上的碱基，按S2-2的截取方法生成含有多个突变的突变肽；

S2-4：根据肿瘤bam文件中的reads比对信息，确定突变间的关系是顺式还是反式关系，用以判断单突变及含有多突变的突变肽真伪；

S2-5；去除野生型蛋白上有发现的突变肽，获得肿瘤体细胞突变肽段；

优选地，在步骤S2-1中，进行质控过滤：a.突变频率大于5％；b.突变点的测序深度大于10；c.支持有突变的reads数大于3条。

优选地，在步骤S2-2中，对于错义突变和非移码突变，以突变坐标为中心，向5’端取L-1个氨基酸，向3’端取L-1个氨基酸，进行突变肽的截取；

优选地，在步骤S2-3中，当突变为两个时，如果两个突变为反式突变，即没有一条reads是同时包含这两个突变，则将该突变肽去除，仅保留含单个突变的突变肽；如果两个突变为顺式突变，则仅保留同时含这两个突变的突变肽。

较佳地，所述的步骤S3具体包括：

S3-1：以肿瘤组织的bam文件为输入，用StringTie工具拼接生成所有检测到的肿瘤转录本和癌旁样本的转录本，然后用gffcompare工具，比较肿瘤与癌旁样本的转录本，输出肿瘤样本所特有的转录本；

S3-2：用gffcompare工具将获得的肿瘤样本所特有的转录本与gencode注释的参考基因组转录本比较，生成肿瘤样本的novel转录本；

S3-3：判断肿瘤样本的novel转录本的蛋白编码可能性，筛选出有编码蛋白能力的novel转录本；

S3-4：将筛选出的编码蛋白的肿瘤novel转录本，依氨基酸密码子编码规则，将完整的肿瘤novel转录本翻译成蛋白氨基酸序列，从蛋白氨基酸序列全长的起始点开始，以8-11氨基酸长度的扫描窗口，逐步平移截取短肽；

S3-5：参考转录本对应的野生型蛋白序列为比对的靶序列库，用DIAMOND工具进行比对，去除与野生型蛋白序列一致的短肽，获得肿瘤特异novel转录本肽段；

优选地，在步骤S3-1中，肿瘤与癌旁的测序数据量达到100M pair-end reads；

优选地，在步骤S3-3中，采用CPAT、CPC2工具通过转录本长度、密码子偏好性以及已经蛋白的功能域相似性预测novel转录本的编码蛋白的可能性，将CPAT与CPC2均预测为“Coding”的转录本筛选为编码蛋白的novel转录本；

优选地，在步骤S3-4中，所述的完整的肿瘤novel转录本为同时拥起始密码子AUG与三个终止密码子UAA、UAG、UGA中任意一个的转录本。

较佳地，所述的步骤S4具体包括：

S4-1：分别以肿瘤bam、癌旁bam文件为输入，用STAR-Fusion检测肿瘤与癌旁样本的基因融合，获得仅在肿瘤样本上检测到的基因融合；

S4-2：用AGFusion工具注释融合5’端、3’端的基因各转录本，并生成相应完整的融合蛋白序列，然后在融合蛋白序列上截取包含融合断点的8-11氨基酸长度肽段，获得基因融合肽段。

较佳地，所述的步骤S5具体包括：

S5-1：用OpiType、Seq2HLA、arcasHLA、hla-genotyper四种工具分别对癌旁的bam文件做HLA-A、HLA-B、HLA-C的分子分型检测，每种工具均会生成一对有allele1与allele2的HLA-A、HLA-B、HLA-C；

S5-2：对于HLA-A，分别针对allele1与allele2打分，每被一种工具检测到，则加1分，当被4种工具均检测到时，得分为4，取得分最高的allele1与allele2作为可靠的HLA-A分子分型结果；并依次生成可靠的HLA-B、HLA-C分子分型。

较佳地，在所述的步骤S6中，通过开源软件NetMHC4.0、NetMHCpan4.0、NetMHCcons1.1以及MHCflurry计算每一对HLA allele-肿瘤特异肽段的亲和力。

较佳地，所述的步骤S7具体包括：

S7-1：以亲和力IC50值≤500nM为阈值，筛选出高相亲和的HLA allele-肿瘤特异肽段；

S7-2：评价筛选出的肿瘤特异肽段的级别，级别评价规则为：

High级别：有至少三种工具预测结果满足：亲和力IC50<＝500nM且肿瘤特异肽段所在的转录本的TPM值在1以上；

High_minus级别：有至少三种工具预测结果满足：亲和力IC50<＝500nM且肿瘤特异肽段所在的转录本的TPM值小于1；

Medium级别：有两种工具预测结果满足：亲和力IC50<＝500nM且肿瘤特异肽段所在的转录本中最高的TPM值在1以上；

Medium_minus级别：有两种工具预测结果满足：亲和力IC50<＝500nM且肿瘤特异肽段所在的转录本中最高的TPM值小于1；

Low级别：有一种工具预测结果满足：亲和力IC50<＝500nM且肿瘤特异肽段所在的转录本中最高的TPM值在1以上。

Low_minus级别：有一种工具预测结果满足：亲和力IC50<＝500nM且肿瘤特异肽段所在的转录本中最高的TPM值小于1。

本发明还提供了一种所述的基于全转录组的肿瘤抗原预测方法在制备抗肿瘤药物或疫苗的应用。

本发明开发的基于全转录组的肿瘤抗原方法，可以完全克服现有技术中的3个缺陷，其中全转录组是在mRNA水平上测序，检测到的突变均是有表达的突变；同时，mRNA作为可变剪接、基因融合的最终产物，通过拼接技术可以得到肿瘤特异的novel转录本，依赖于基因表达的肿瘤相关抗原，可以从全转录组数据中获得。

本发明提供的一种基于全转录组测序数据的肿瘤抗原预测方法，综合基因表达层面的肿瘤相关抗原以及基因突变层面的肿瘤新生抗原，可以用来评价总体肿瘤抗原负荷。此外，相比传统针对蛋白编码区域的新生抗原预测方法，本发明引入了来源于非编码区可变剪接/基因融合等突变形成novel转录本的新生抗原。另外，全转录组上检测到蛋白编码区体细胞突变均为有mRNA表达的突变，更接近于真实的蛋白表达情况。本发明综合基因表达量与肿瘤抗原亲和力两个因素，对预测的肿瘤抗原进行级别设定，以方便后续的肿瘤疫苗设计。

附图说明

图1为本发明提供的基于全转录组的肿瘤抗原预测方法的流程示意图。

图2为实施例1中肿瘤抗原来源分布。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进一步的描述。

本发明的目的是为了克服现有肿瘤抗原预测的缺陷，通过全转录组测序技术，分别从基因表达层面以及基因突变层面预测肿瘤相关抗原以及肿瘤新生抗原，全面评估总体肿瘤抗原负荷水平。另一方面，转录组测序在肿瘤新生抗原预测上，可准确检测有表达的的体细胞突变，以及非编码区突变基因融合、可变剪接等形成的肿瘤特异novel转录本。同时，结合基因表达以及与HLA的亲和力两个因素，对挑选的肿瘤抗原做了优先级排序用以指导肿瘤疫苗合成。

如图1所示，本发明的肿瘤抗原预测方法主要流程分为7个步骤：

S1肿瘤相关抗原的蛋白生成与肽段截取

S2肿瘤体细胞突变检测以及相应突变肽段截取

S3肿瘤特异novel转录本的生成与肽段截取

S4肿瘤组织中基因融合检测及融合肽段截取

S5癌旁组织的HLA分子分型检测

S6肿瘤特异肽段与HLA分子的亲和力预测

S7肿瘤抗原负荷计算与肿瘤抗原优先级确定

其中，步骤S1可以具体分为以下4个步骤来实现肿瘤相关抗原的蛋白生成与肽段截取

S1-1：利用RSEM工具分别计算肿瘤组织以及相应癌旁组织中各转录本的表达量TPM值(transcripts per million)，挑选在癌旁组织中TPM值为0且肿瘤组织TPM大于1的转录本，即为仅在该样本的肿瘤组织中有表达的转录本。

S1-2：排除其它正常组织中有表达的转录本，以确保S1-1中挑出的转录本仅在肿瘤组织中有表达，具体为：

通过人类各正常的非免疫豁免组织的基因表达数据库GTEx(https://gtexportal.org/home/)信息，过滤掉S1-1选出的部分转录本，具体的过滤规则为，根据需过滤的转录本x在该肿瘤样本以及GTEx数据库中正常样本的TPM表达值，计算z值以及foldchange值，

其中，Tumor TPM(x)表示转录本x在肿瘤样本中的TPM表达值；average TPM(x)inGTEx表示转录本x在GTEx数据库各正常组织样本中的TPM表达平均值；standard varianceTPM(x)in GTEx表示转录本x在GTEx数据库中各正常组织样本中TPM表达值的标准差。

若转录本x的Z≥2.33且foldchange≥10，则认为该转录本为肿瘤相关抗原基因，反之，则舍弃。

此处的非免疫豁免组织是指除睾丸、大脑、眼睛以外的其它组织。

本发明中所述的GTEx基因表达均为特指非免疫豁免组织的基因表达。

S1-3：肿瘤相关抗原短肽截取

对S1-2中筛选出来的肿瘤相关抗原基因转录本，通过pyEnsembl工具获取其蛋白氨基酸序列全长，从起始点开始，以8-11氨基酸长度的扫描窗口，逐步平移截取肿瘤相关抗原短肽。

步骤S2可以具体分为以下5步来实现肿瘤体细胞突变形成的突变短肽

S2-1：体细胞突变SNV/Indel检测

首先用GATK函数SplitNCigarReads分别对肿瘤以及癌旁bam文件处理，目的在于将比对上参考基因组的reads限定在exon区域；然后，用GATK的Mutect2函数对处理过的bam文件做体细胞突变检测。

为保证体细胞突变结果的准确性，做三处质控过滤：a.突变频率大于5％；b.突变点的测序深度大于10；c.支持有突变的reads数大于3条

S2-2：体细胞突变注释与单点突变肽生成

用SnpEff注释将每一个体细胞基因组上的碱基突变注释到Ensembl数据库上的每一个转录本以及相应蛋白序列上。然后，截取长度为L的突变肽。

对于错义突变、非移码突变而言，以突变坐标为中心，向5’端取L-1个氨基酸，向3’端取L-1个氨基酸(L为所要生成的突变肽长度，此处L长度为8-11氨基酸)。

S2-3：生成含有多个体细胞突变的突变短肽

批量将S2-1中检测到的所有突变碱基，替换掉人类参考基因组上的碱基，按S2-2的截取方法生成含有多个突变的突变短肽。

S2-4：判断S2-2与S2-3所生成的突变短肽真伪

根据肿瘤bam文件中的reads比对信息，确定突变间的关系是顺式还是反式关系，用以判断含有多突变以及单突变的突变肽真伪。

以两个突变为例，如果两个突变为反式突变，即没有一条reads是同时包含这两个突变，则将这将含有该双突肽的突变肽去除，仅保留含单个突变的突变肽。如果两个突变为顺式突变，则仅保留同时含这两个突变的突变肽。

S2-5：去除野生型蛋白上有发现的突变短肽，形成真正意义上的新生短肽。

步骤S3可以具体分为以下5步来生成novel的转录本短肽

S3-1：生成肿瘤样本特有的转录本

以肿瘤bam文件为输入，用StringTie工具拼接生成所有检测到的肿瘤转录本。依同样的方法，生成癌旁样本的转录本。然后用gffcompare工具，比较肿瘤与癌旁样本的转录本，输出肿瘤样本所特有的转录本。

为确保拼接的准确性，肿瘤与癌旁均须达到100M pair-end reads的测序数据量。如果是以Illumina 2*150测序模式测序，对应的测序量为30G。

S3-2：生成肿瘤样本上novel转录本

将S3-1中生成的肿瘤样本特有转录本，用gffcompare工具将其与gencode注释的参考基因组转录本比较，生成肿瘤样本的novel转录本。

S3-3：判断novel转录本的蛋白编码可能性

mRNA中存在相当大部分的非编码RNA，本发明提供的判断方法为：采用CPAT、CPC2工具通过转录本长度、密码子偏-好性、以及已经蛋白的功能域相似性等预测S3-2中生成novel转录本的编码蛋白的可能性。

为去除假阳性，将CPAT与CPC2均预测为“Coding”的转录本筛选出来。

S3-4：生成肿瘤novel转录本蛋白并截取长度为8-11的短肽

针对S3-3中预测的编码蛋白novel转录本，依氨基酸密码子编码规则，将完整的肿瘤novel转录本翻译成蛋白氨基酸序列。在蛋白全长序列的起始点开始，以8-11氨基酸长度的扫描窗口，逐步平移截取短肽。

其中完整的肿瘤novel转录本指同时拥起始密码子AUG与三个终止密码子UAA、UAG、UGA中任意一个的转录本。

S3-5：去除与野生型蛋白序列一致的短肽

以S3-4步中生成的短肽为输入，参考转录本对应的野生型蛋白序列为比对的靶序列库，用DIAMOND工具进行比对，筛选出与野生型蛋白序列不一致的来源于novel转录本的短肽。

步骤S4可具体分为以下4步来生成基因融合来源的新生短肽

S4-1：肿瘤特异的基因融合检测

分别以肿瘤bam、癌旁bam文件为输入，用STAR-Fusion检测肿瘤与癌旁样本的基因融合，得出仅在肿瘤样本上检测到的基因融合。

S4-2：基因融合肽生成与短肽截取

用AGFusion工具注释融合5’端、3’端的基因各转录本，并生成相应完整的融合蛋白序列，然后在融合蛋白序列上截取包含融合断点的8-11氨基酸长度肽段

步骤S5可以具体分为以下2步来计算可靠的HLA分子分型

S5-1：用OpiType、Seq2HLA、arcasHLA、hla-genotyper四种工具分别对癌旁的bam文件做HLA-A、HLA-B、HLA-C的分子分型检测，每种工具均会成一对有allele1与allele2的HLA-A、HLA-B、HLA-C。

S5-2：生成可靠的HLA分子分型结果

以HLA-A为例，分别针对allele1与allele2打分。打分规则是每被一种工具检测到，则加1分。当被4种工具均检测到时，得分为4。取得分最高的allele1与allele2作为可靠的HLA-A分子分型结果。同理，依次生成可靠的HLA-B，HLA-C分子分型。

步骤S6计算各HLA allele与肿瘤特异肽段的亲和力。

其中肿瘤特异肽段包括S1-3中的肿瘤相关抗原肽段、S2-5生成的体细胞突变肽段、S3-3生成的novel转录本肽段以及S4-2生成的基因融合肽段。

具体是通过4种开源软件NetMHC4.0、NetMHCpan4.0、NetMHCcons1.1以及MHCflurry计算每一对HLA allele-肿瘤特异肽段的亲和力。

步骤S7中肿瘤抗原负荷计算与肿瘤抗原级别确定，具体分2步来实现

S7-1：以亲和力IC50值≤500nM为阈值，分别筛选出这四种工具计算的高相亲和的HLA allele-肿瘤特异肽段对。

这些高相亲和力的HLA allele-肿瘤特异肽段称之为pMHC(Peptide-majorhistocompatibility complex)，pMHC的总数即为肿瘤抗原负荷。

S7-2：结合亲和力与表达量对pMHC进行级别设定，以方便后续肿瘤疫苗合成，本发明提供了以下优先级判断方式作为级别判断规则：

本发明的有益效果在于：

1)综合在基因表达层面的肿瘤相关抗原以及基因突变层面的肿瘤新生抗原，来评价总体肿瘤抗原负荷。

2)在传统的编码区体细胞突变以及基因融合来源的新生抗原基础上，引入非编码区可变剪接形成的novel转录本的新生抗原。

3)全转录组水平上，检测到编码区体细胞突变均为有表达的突变，更接近于真实的蛋白表达。相对传统的DNA水平的全外显子测序，更能精准捕获有表达的突变。

4)综合基因表达量与pMHC的亲和力，对pMHC进行优先级设定，方便后续的肿瘤疫苗设计。

实施例1

本实施例是以一对非小细胞肺癌样本的肿瘤-癌旁全转录组测序数据为输入，一共检测出15个肿瘤相关抗原基因、3个肿瘤特异基因融合、488个具有蛋白编码能力的肿瘤novel转录本以及127个蛋白编码区体细胞突变。

表1、表2、表3、表4分别展示的是肿瘤相关抗原基因、基因融合以及novel转录本以及体细胞突变的详细信息，因篇幅所限，仅截取top20作为举例说明。

表5列出了四种不同的HLA分子分型工具Seq2HLA、OptiType、arcasHLA以及hla-genotyper的检测结果，A*31:01、B*40:01、C*07:02这三个一致性高的allele用于此样本的肿瘤抗原亲和力预测。以亲和力低于500nM为cutoff，总共筛选到1376个肿瘤抗原，即该肿瘤样本的总体抗原负荷为1376。

表6列出了高亲和力Top20肿瘤抗原详细信息。并且，图2显示了这1376个肿瘤抗原的来源分布，发现仅1％的肿瘤抗原(共16条)是来自蛋白编码区域的体细胞突变，而来源于肿瘤novel转录本的肿瘤抗原达到了71％。此外，因表达模式改变的肿瘤相关抗原也有388个，占比约28％。该结果说明传统关注的coding区新生抗原有明显缺失的地方，基于转录本新生抗原能较为全面的评估肿瘤抗原负荷真实水平。

表1肿瘤相关抗原基因

表2肿瘤样本特异基因融合

表3肿瘤特异的具有蛋白编码能力的novel转录本

Transcrilpt ID	Chr.position	Cov	FPKM	TPM
					STRG.13687.1	chr12:52285912-52288167	453.7861	204.5447	536.682
STRG.172.2	chr1:10636737-10694412	6.277853	2.829751	7.424666
					STRG.17272.1	chr16:89575765-89595923	2.754281	1.241496	3.257422
STRG.1521.4	chr1:155963140-155989421	2.514841	1.133568	2.974242
					STRG.18191.3	chr17:50464551-50468906	2.647539	1.193382	3.131181
STRG.13103.1	chr11:117328103-117412830	2.517238	1.134649	2.977077
					STRG.17716.1	chr17:21412146-21419825	5.007489	2.257133	5.922237
STRG.14716.5	chr13:98793491-98829455	28.63726	12.90829	33.8686
					STRG.6902.1	chr5:177520056-177554495	2.664339	1.200955	3.15105
STRG.12709.1	chr11:67021752-67050811	2.635957	1.188161	3.117483
					STRG.21963.1	chr22:50201024-50217615	6.884715	3.103295	8.142387
STRG.12076.3	chr11:767259-777475	5.14822	2.320567	6.088676
					STRG.7473.6	chr6:41565749-41599959	9.88571	4.455997	11.69159
STRG.7989.1	chr6:138255453-138344524	3.593707	1.619869	4.250191
					STRG.775.1	chr1:54604396-54610373	3.0141	1.35861	3.564704
STRG.1521.4	chr1:155963140-155989421	2.514841	1.133568	2.974242
					STRG.13385.1	chr12:9417803-9433198	3.327688	1.49996	3.935577
STRG.18976.2	chr18:74434148-74480159	2.576831	1.16151	3.047556
					STRG.19407.1	chr19:13764581-13778403	25.92131	11.68407	30.65651
STRG.19370.5	chr19:11442407-11450867	22.19532	10.00457	26.24987

表4蛋白编码区的体细胞突变

表5癌旁样本的HLA分子分型结果

表6肿瘤样本的抗原详细列表(top20)。

/>

综上说明，本发明达到了预期的设计效果，能弥补现有工具缺陷，这将有助于精确计算肿瘤新生抗原负荷并评估免疫治疗效果，以及提供可靠的多肽信息服务于后期的肿瘤疫苗设计。

在此说明书中，本发明已经参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于全转录组的肿瘤抗原预测方法，其特征在于，所述的预测方法包括：根据肿瘤组织和相应癌旁组织的全转录组信息，分别进行肿瘤相关抗原的蛋白生成与肽段截取、肿瘤体细胞突变检测以及相应突变肽段截取、肿瘤特异novel转录本的生成与肽段截取、肿瘤组织中基因融合检测及融合肽段截取，获得包括肿瘤相关抗原、肿瘤体细胞突变、肿瘤novel转录本、基因融合的肿瘤特异肽段，计算所获得的肿瘤特异肽段与HLA分子的亲和力以及在各转录本中的表达量，基于肿瘤特异肽段的亲和力值和表达量TPM值，评价候选肿瘤抗原的级别；所述的预测方法具体包括步骤：

S1：肿瘤相关抗原的蛋白生成与肽段截取；

S2：肿瘤体细胞突变检测以及相应突变肽段截取；

S3：肿瘤特异novel转录本的生成与肽段截取；

S4：肿瘤组织中基因融合检测及融合肽段截取；

S5：癌旁组织的HLA分子分型检测；

S6：肿瘤特异肽段与HLA分子的亲和力预测；

S7：肿瘤抗原负荷计算与肿瘤抗原级别确定；所述的步骤S1具体包括：

S1-3：获取所筛选出的肿瘤相关抗原基因转录本的蛋白氨基酸序列全长，从起始点开始，以8-11氨基酸长度的扫描窗口，逐步平移截取肿瘤相关抗原短肽，获得肿瘤相关抗原肽段。

2.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S1-1中，利用RSEM工具计算表达量TPM值。

3.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S1-2中，所述的非免疫豁免组织是指除睾丸、大脑、眼睛以外的组织。

4.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S1-2中，过滤的具体规则为：根据需过滤的转录本x在肿瘤样本以及GTEx数据库中正常样本的TPM表达值，计算z值以及foldchange值，

仅保留z值≥2.33且foldchange值≥10的转录本，其余舍弃。

5.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S1-3中，利用pyEnsembl工具获取蛋白氨基酸序列全长。

6.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，所述的步骤S2具体包括：

S2-5；去除野生型蛋白上有发现的突变肽，获得肿瘤体细胞突变肽段。

7.根据权利要求6所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S2-1中，进行质控过滤：a.突变频率大于5％；b.突变点的测序深度大于10；c.支持有突变的reads数大于3条。

8.根据权利要求6所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S2-2中，对于错义突变和非移码突变，以突变坐标为中心，向5’端取L-1个氨基酸，向3’端取L-1个氨基酸，进行突变肽的截取。

9.根据权利要求6所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S2-3中，当突变为两个时，如果两个突变为反式突变，即没有一条reads是同时包含这两个突变，则将该突变肽去除，仅保留含单个突变的突变肽；如果两个突变为顺式突变，则仅保留同时含这两个突变的突变肽。

10.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，所述的步骤S3具体包括：

S3-5：参考转录本对应的野生型蛋白序列为比对的靶序列库，用DIAMOND工具进行比对，去除与野生型蛋白序列一致的短肽，获得肿瘤特异novel转录本肽段。

11.根据权利要求10所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S3-1中，肿瘤与癌旁的测序数据量达到100M pair-end reads。

12.根据权利要求10所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S3-3中，采用CPAT、CPC2工具通过转录本长度、密码子偏好性以及与已知蛋白的功能域相似性预测novel转录本的编码蛋白的可能性，将CPAT与CPC2均预测为“Coding”的转录本筛选为编码蛋白的novel转录本。

13.根据权利要求10所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在步骤S3-4中，所述的完整的肿瘤novel转录本为同时拥起始密码子AUG与三个终止密码子UAA、UAG、UGA中任意一个的转录本。

14.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，所述的步骤S4具体包括：

15.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，所述的步骤S5具体包括：

16.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，在所述的步骤S6中，通过开源软件NetMHC4.0、NetMHCpan4.0、NetMHCcons1.1以及MHCflurry计算每一对HLAallele-肿瘤特异肽段的亲和力。

17.根据权利要求1所述的基于全转录组的肿瘤抗原预测方法，其特征在于，所述的步骤S7具体包括：

S7-2：评价筛选出的肿瘤特异肽段的级别，级别评价规则为：

Low级别：有一种工具预测结果满足：亲和力IC50<＝500nM且肿瘤特异肽段所在的转录本中最高的TPM值在1以上；

18.一种权利要求1所述的基于全转录组的肿瘤抗原预测方法在制备抗肿瘤药物或疫苗的应用。