CN111696628A

CN111696628A - 新生抗原的鉴定方法

Info

Publication number: CN111696628A
Application number: CN201910198582.1A
Authority: CN
Inventors: 姜宁; 张文宏; 田晔
Original assignee: Mark Zhun Biotechnology Co ltd
Current assignee: Mark Zhun Biotechnology Co ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2020-09-22
Also published as: WO2020187143A1; CN113316818B; CN113316818A

Abstract

本发明涉及肿瘤免疫治疗的领域。具体而言，本发明提供了患者中肿瘤特异性新生抗原的鉴定方法和装置。通过本发明的方法或装置鉴定的新生抗原可用于开发针对所述肿瘤的疫苗或T细胞疗法。

Description

新生抗原的鉴定方法

发明领域

发明背景

癌症的特征是异常的细胞增殖。常规治疗的成功取决于癌症的类型和其被检测到的阶段。许多治疗包括昂贵和痛苦的手术和化疗，并且往往是不成功的，或只是适度延长患者的生命。正在开发的有前途的治疗方法包括肿瘤疫苗或靶向肿瘤抗原的T细胞疗法，其使患者的免疫系统能够区分肿瘤和健康细胞，并引发患者的免疫反应。

新生抗原是与患者特有的肿瘤特异性突变相关联的一类免疫原。新生抗原已经显示出其作为抗肿瘤免疫技术的靶标的良好前景，所述抗肿瘤免疫技术例如个性化肿瘤疫苗。

虽然存在通过测序和HLA分型以鉴定候选新生抗原的策略，但是存在通常假阳性率高、适用人群少等缺点，严重限制了基于新生抗原的抗肿瘤疫苗开发。因此，本领域仍然需要新的用于鉴定新生抗原的方法。

发明简述

在一方面，本发明提供了一种鉴定对象中肿瘤新生抗原的方法，所述方法包括以下步骤：

(a)分析所述对象肿瘤组织或细胞和正常组织或细胞的全外显子组测序结果，鉴定肿瘤组织特异性体细胞突变；

(b)分析所述对象肿瘤组织或细胞的转录组测序结果，对步骤(a)所鉴定的体细胞突变进行进一步筛选；

(c)分析所述对象正常组织或细胞的全外显子组测序结果，对所述患者进行HLA分型；

(d)基于步骤(b)和(c)的结果，分析对应于所述体细胞突变的突变肽与MHC的结合，从而筛选出候选的肿瘤特异性新生抗原。

在另一方面，本发明提供了一种鉴定对象中肿瘤新生抗原的装置，所述装置包括：存储器，用于存储程序；处理器，用于通过执行上述存储器存储的程序以实现本发明的鉴定对象中肿瘤新生抗原的方法。

在另一方面，本发明提供了一种计算机可读存储介质，其包括程序，该程序能够被处理器执行以实现本发明的鉴定对象中肿瘤新生抗原的方法。

在另一方面，本发明提供了一种鉴定对象中肿瘤新生抗原的装置，所述装置包括以下四个模块：基于所述对象肿瘤组织或细胞和正常组织或细胞的全外显子组测序结果鉴定肿瘤特异性体细胞突变的体细胞突变鉴定模块I)；基于所述对象肿瘤组织或细胞的转录组测序结果进一步筛选肿瘤特异性体细胞突变的肿瘤特异性体细胞突变筛选模块II)；基于所述对象正常组织或细胞的全外显子组测序结果进行HLA分型的HLA分型模块III)；和肿瘤新生抗原预测模块IV)。

附图说明

图1、示出本发明方法的流程图。

发明详述

在本发明个方面的一些实施方案中，所述测序是高通量测序，也称作二代测序(“NGS”)。二代测序在并行的测序过程中同时产生数千至数百万条序列。NGS区别于“Sanger测序”(一代测序)，后者是基于单个测序反应中的链终止产物的电泳分离。可用本发明的NGS的测序平台是商用可得的，包括但不限于Roche/454FLX、Illumina/Solexa GenomeAnalyzer和Applied Biosystems SOLID system等。

外显子组测序是利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于它具有对常见和罕见变异高灵敏度，因此仅需对2％的基因组进行测序就能发现外显子区域的大部分疾病相关变异。

转录组测序是通过二代测序平台快速全面地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录本及基因序列，可以用于研究基因表达量、基因功能、结构、可变剪接和新转录本预测等。

所述正常组织或细胞可以是任何的非肿瘤组织或细胞，例如外周血(对于非血液癌症)或是癌旁组织，优选外周血。

所述肿瘤组织或细胞包括但不限于以下的肿瘤组织或细胞：肝癌、肺癌、卵巢癌、结肠癌、直肠癌、黑色素瘤、肾癌、膀胱癌、前列腺癌、乳腺癌、淋巴瘤、恶性血液病、头颈癌、胶质瘤、胃癌、鼻咽癌、喉癌、胰腺癌、宫颈癌、食道癌、小肠癌、慢性或急性白血病和骨肉瘤。

“体细胞突变(somatic mutation)”是指生物体除生殖细胞外的体细胞发生的突变。体细胞突变不会传给后代，但可能导致当代生物体的表型，例如导致肿瘤。

如本文所使用，术语“抗原”是指诱导免疫反应的物质，例如多肽。如本文所用，术语“新生抗原”是具有至少一个使其不同于相应野生型亲本抗原的变化的抗原，例如，该变化是肿瘤细胞突变。如本文所用，术语“肿瘤新生抗原”或“肿瘤特异性新生抗原”是存在于对象的肿瘤细胞或组织中但不存在于对象的正常细胞或组织中的新生抗原。

如本文所用，“对象”意指哺乳动物，包括啮齿类动物或灵长类动物，例如小鼠、大鼠、猴、人。优选所述对象是人。

如本文所用，“MHC”是指主要组织相容性复合体(major histocompatibilitycomplex)。人类的MHC也叫做HLA(human leukocyte antigen)。本领域技术人员应当理解，当用于其他物种时，本发明中所述HLA分型，实质上指的是MHC分型，此时该术语并不限于人类。

如上所述，本发明的肿瘤新生抗原的鉴定方法包含四个主要步骤，其中第一个步骤(步骤(a))目的是准确分析肿瘤组织内肿瘤特异性体细胞突变。

通过分析配对的正常和肿瘤组织或细胞，得到的肿瘤组织特有的或者突变比例显著高于同一个体正常组织的变异，被认为是肿瘤组织产生的特异性体细胞突变。一般而言，肿瘤组织基因组是高度动态性的，其不断发展变化，存在很大的异质性。而且在肿瘤基因组测序中，不少样本的肿瘤细胞纯度达不到80％，有些甚至更低。这些造成肿瘤特异性体细胞突变难以被准确发现。

现今已经发表了多种基于不同原理的检测肿瘤体细胞突变的算法，包括但不限于：1)Strelka采用一种新颖的贝叶斯方法，它将癌和癌旁组织的等位基因频率认定为连续值，即将癌旁组织表示为生殖突变与噪声的混合物，而肿瘤组织则表示为癌旁组织和体细胞突变的混合物。因此，即使是不纯的样本，Strelka也可以保证较高的灵敏度。Strelka搜索候选的InDels用于后续的重比对(indel realignment)；然后根据重比对的信息推算somatic variant probability，再进行一系列过滤，得到可信的体细胞突变检测结果。2)MuTect2是基于GATK HaplotypeCaller模块，通过明显的变异证据，找到要进一步分析的区域，称之为ActiveRegions。然后该算法会建立一张类似De Brujin的图，重新装配ActiveRegions，检测可能出现的单倍型，使用Smith-Waterman算法重新比对。使用PairHMM算法，在读数据基础上，ActiveRegions与每一单倍型成对的比对，产生一个单倍型似然度矩阵。然后转换这一矩阵，为每一可能的变异位置产生等位基因似然度，进而推断出每个潜在变异位置体细胞突变的概率。3)Sentieon的TNHaplotyper与Mutect2检测原理一致，将癌样本和配对的癌旁样本进行co-realignment之后，通过Sentieon的TNHaplotyper模型对以上一系列操作后的比对BAM文件进行somatic SNV和Indel的变异检测。但是上述每种方法都存在检测假阳性率高，准确度差的缺点。

针对已有的肿瘤体细胞突变检测的缺点，本发明人构建了一套可以有效降低检测假阳性率，提高体细胞突变检测准确度的分析流程和策略。

首先，本发明人选择多种基于不同原理的方法，使用这些方法分别从高通量测序数据中检测肿瘤组织中的体细胞突变，然后对这些独立分析的体细胞突变检测结果取交集，大大降低检测的假阳性率。所述检测体细胞突变的方法包括但不限于Strelka1(参见https://academic.oup.com/bioinformatics/article/28/14/1811/218573)、Strelka2(参见https://www.nature.com/articles/s41592-018-0051-x)、VarScan(参见http://varscan.sourceforge.net)、Mutect2(参见http://www.broadinstitute.org/cancer/cga/mutect)和/或MuSE(参见https://bioinformatics.mdanderson.org/main/MuSE)方法。本领域已知的其他检测体细胞突变的方法也可以应用于本发明。

在本发明方法的一些实施方案中，步骤(a)通过至少3种、至少4种、至少5种，例如3种、4种、5种、6种、7种、8种、9种或10种或更多种不同的方法分别独立地从所述全外显子组测序结果中鉴定肿瘤特异性体细胞突变。

在一些实施方案中，步骤(a)通过至少3种不同的方法分别独立地从所述全外显子组测序结果中鉴定肿瘤特异性体细胞突变，并选择在所述至少3种不同的方法中均被鉴定出的肿瘤特异性体细胞突变。例如所述至少3种不同的方法选自Strelka1、Strelka2、VarScan、Mutect2和MuSE。

在一些优选实施方案中，使用至少5种不同的方法鉴定所述肿瘤特异性体细胞突变，例如，所述至少5种不同的方法包括Strelka1、Strelka2、VarScan、Mutect2和MuSE。然而，还可以进一步包括本领域已知的其他检测体细胞突变的方法。

此外，所述方法各自的参数可以根据需要进行调整，提高检测阈值，从而进一步降低检测的假阳性率。

更重要的是，本发明人令人惊奇地发现，通过设定一系列特定的过滤标准，对所得结果进行进一步的过滤，可以更加精确地获得肿瘤特异性体细胞突变。因此，在一些实施方案中，步骤(a)进一步筛选符合以下标准的体细胞突变：

1)所述肿瘤组织或细胞和正常组织或细胞的测序深度大于或等于10；

2)在所述肿瘤组织或细胞的测序数据中，包含所述突变的读段数大于或等于3；

3)在所述肿瘤组织或细胞的测序数据中，所述突变的等位基因频率大于0.1；

4)在所述正常组织或细胞的测序数据中，所述突变的等位基因频率小于或等于0.01；和

5)在包含至少100个、至少200个、至少300个或更多个，例如200-300个正常对象的正常组织或细胞的全外显子组测序结果中，所述突变的等位基因频率小于0.01。

如本文所用，“测序深度”指的是测序获得的总碱基数与待测基因组大小(碱基数)的比率。例如，对长1000bp的目标区域进行测序，总共得到200个读段(read)，每个读段长50bp，则测序深度为200x50bp/1000bp＝10。

如本文所用，“等位基因频率”指的是样本中某一特定变异在该变异位点全部等位基因中所占比率。例如，在一样本测序数据中，包含某一特定变异的读段数与该位点全部的读段数的比率为该变异的等位基因频率。

本发明的肿瘤新生抗原的鉴定方法包含的第二个步骤(步骤(b))是结合基因表达水平、所述突变的基因功能预测等信息进一步筛选候选体细胞突变位点。

在该步骤中，对通过第一个步骤获得的每一个体细胞突变，基于NCBI人类基因组注释信息数据库，对突变位点进行基因结构水平、突变功能水平(影响基因编码功能水平)的注释的分析。

NCBI注释数据库中，突变位点在基因结构水平的注释包括：exonic、splicing、ncRNA、UTR5/UTR3、intron、upstream/downstream、intergenic>unknown。在本发明的方法的一些实施方案中，其筛选优先级顺序为：exonic＝splicing>ncRNA>UTR5/UTR3>intron>upstream/downstream>intergenic>unknown。

NCBI注释数据库中，突变位点影响基因编码功能的注释包括：stopgain、stoploss、nonsynonymous SNV、synonymous SNV、unknown。在本发明的方法的一些实施方案中，其筛选优先级顺序为：stopgain>stoploss>nonsynonymous SNV>synonymous SNV>unknown。

在一些优选实施方案中，选择基因结构水平注释注释为exonic且影响基因编码功能水平注释为nonsynonymous SNV(非同义单核苷酸变异)的体细胞突变。

此外，基于肿瘤组织或细胞的转录组测序数据，可以检测NCBI人类基因组注释信息数据库中已经注释的所有约3万个蛋白编码基因的表达水平。因此，在该步骤中，还可以包括基于基因表达水平选择体细胞突变。

在一些实施方案中，其中选择位于高表达的基因内的体细胞突变，例如，所述高表达的基因的RPKM(Reads Per Kilobase per Million mapped reads)大于或等于1。RPKM是将定位到基因(外显子)的读段数除以定位到基因组上的所有读段数(以百万为单位)与基因(外显子)的长度(以kb为单位)的乘积。

通过以上步骤，可以鉴定出位于高表达基因内且改变氨基酸序列的肿瘤特异性体细胞突变。

此外，基于肿瘤组织或细胞的转录组测序数据，还可以评估对象的HLA基因、CD4基因和/或CD8基因的表达水平，从而判断所述对象是否适用于使用肿瘤新生抗原的免疫疗法。

因此，在一些实施方案中，步骤b)还包括评估所述对象中HLA基因、CD4基因和/或CD8基因的表达水平。

本发明的肿瘤新生抗原的鉴定方法包含的第三个步骤(步骤(c))是根据所述对象正常组织或细胞的全外显子组测序结果，对所述对象进行HLA分型。

HLA分型仍然是现在医学上的一个难题。临床中，目前世界卫生组织(WHO)推荐的HLA分型的“金标准”方法为PCR-SBT技术，但是其存在分型不唯一，分辨率低(4位)，耗时长(15天-20天)，成本高(2000元/样本)等问题。

本发明中，利用对象正常组织或细胞(如外周血)的外显子测序数据进行HLA分型，整合了目前已知的所有HLA I/II型基因座位上的每一个等位基因信息，通过外显子测序数据在氨基酸序列和核苷酸序列2个层次进行高精度比对分析，从而使得针对HLA I/II基因座进行的分型能做到6位(2*3)以上的精度，分析时间不超过3个小时，准确度大于98％(与“金标准”PCR-SBT技术结果比对的一致性)。

在一些实施方案中，步骤(c)中至少使用以下的一或多个、优选全部数据库进行HLA分型：ATHLATES(http://www.broadinstitute.org/scientific-community/science/projects/viral-genomics/athlates)、HLA-HD(https://www.genome.med.kyoto-u.ac.jp/HLA-HD/)、HLAVBseq(http://nagasakilab.csml.org/hla)、seq2HLA(http://bitbucket.org/sebastian_boegel/seq2hla)和HLAminer(http://www.bcgsc.ca/platform/bioinfo/software/hlaminer)。

本发明的肿瘤新生抗原的鉴定方法包含的第四个步骤(步骤(d))是基于前3个步骤的分析结果，对筛选出来的位于高表达基因上的、改变氨基酸序列的肿瘤特异性体细胞突变，针对于特定的HLA分型，预测肿瘤新生抗原。

在一些实施方案中，步骤(d)包括：

d1)提取对应所述体细胞突变的氨基酸序列，从而获得对应于所述体细胞突变的突变肽；

d2)基于步骤(c)的HLA分型结果，通过MHC结合亲和力、MHC结合稳定性、蛋白酶体酶切、质谱数据分别独立地对所提取的突变肽进行打分并排序；和

d3)基于步骤d2)的结果，通过几何平均法对所述突变肽进行打分并排序，由此选择出候选肿瘤新生抗原。

在一些实施方案中，d1)中提取对应所述体细胞突变的约8-35个氨基酸，优选约15-27个氨基酸的氨基酸序列。例如可以针对每个经前述步骤鉴定出的肿瘤特异性体细胞突变，提取以相应的突变氨基酸为中心向前和/或向后延伸约7-约17个氨基酸的全部氨基酸序列，由此获得对应于所述体细胞突变的一系列长度约8个-约35个氨基酸的突变肽。优选地，例如可以针对每个经前述步骤鉴定出的肿瘤特异性体细胞突变，提取以相应的突变氨基酸为中心向前和向后延伸约7个-约13个氨基酸的全部氨基酸序列，由此获得对应于所述体细胞突变的一系列长度约15个-约27个氨基酸的突变肽

然后，对所获的突变肽，针对相应的由前述步骤确定的HLA分型，分别从MHC结合亲和力、MHC结合稳定性、蛋白酶体切割(即所述突变肽能否通过蛋白酶体切割产生)、质谱数据角度独立地对其作为候选新生抗原的可能性进行预测打分并排序。

在一些实施方案中，步骤(d2)中使用选自NetMHCcons(http://www.cbs.dtu.dk/services/NetMHCcons)、NetMHC(http://www.cbs.dtu.dk/services/NetMHC)、NetMHCpan(http://www.cbs.dtu.dk/services/NetMHCpan)、PickPocket(http://www.cbs.dtu.dk/services/PickPocket)、MHCflurry(https://www.sciencedirect.com/science/article/pii/S2405471218302321？dgcid＝rss_sd_all)、netMHCstab(http://www.cbs.dtu.dk/services/NetMHCstab-1.0)、NetChop(www.cbs.dtu.dk/services/NetChop)的一或多种方法/工具对所提取的突变肽进行打分并排序。例如，可以使用NetMHCcons、NetMHC、NetMHCpan和/或PickPocket工具分析突变肽与特定MHC的结合亲和力；可以使用netMHCstab工具分析突变肽与特定MHC的结合稳定性；可以使用MHCflurry依赖于质谱数据预测突变肽与MHC的结合；可以使用NetChop分析蛋白酶体切割产生突变肽的可能性。

最后，基于不同角度的预测结果，通过几何平均的方法，对突变肽进行最终的综合打分排序。例如，对某一特定突变肽，其MHC结合亲和力排序打分为3，MHC结合稳定性排序打分为2，蛋白酶体切割排序打分为2，质谱数据排序打分为4，则几何平均后的排序打分为

可以依据几何平均后的打分对突变肽进行排序，并从中选择出候选肿瘤新生抗原。

通过本发明的上述方法，可以以更高的准确度鉴定肿瘤新生抗原，显著降低假阳性率。

本领域技术人员可以理解，上述方法步骤的全部或部分功能可以通过硬件的方式实现，也可以通过计算机程序的方式实现。当上述方法步骤中全部或部分功能通过计算机程序的方式实现时，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器、随机存储器、磁盘、光盘、硬盘等，通过计算机执行该程序以实现上述功能。例如，将程序存储在设备的存储器中，当通过处理器执行存储器中程序，即可实现上述全部或部分功能。另外，当上述实施方式中全部或部分功能通过计算机程序的方式实现时，该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中，通过下载或复制保存到本地设备的存储器中，或对本地设备的系统进行版本更新，当通过处理器执行存储器中的程序时，即可实现上述实施方式中全部或部分功能。

在第二方面，本发明提供一种鉴定对象中肿瘤新生抗原的装置，所述装置包括以下四个模块：肿瘤特异性体细胞突变鉴定模块I)；肿瘤特异性体细胞突变筛选模块II)；HLA分型模块III)；和肿瘤新生抗原预测模块IV)。

其中肿瘤特异性体细胞突变鉴定模块I)基于所述对象肿瘤组织或细胞和正常组织或细胞的全外显子组测序结果鉴定肿瘤特异性体细胞突变。

在一些实施方案中，肿瘤特异性体细胞突变鉴定模块I)通过至少3种不同的方法分别独立地从所述全外显子组测序结果中鉴定体细胞突变，并选择在所述至少3种不同的方法中均被鉴定出的体细胞突变。例如所述至少3种不同的方法选自Strelka1、Strelka2、VarScan、Mutect2和MuSE。

在一些优选实施方案中，肿瘤特异性体细胞突变鉴定模块I)使用至少5种不同的方法鉴定所述体细胞突变，例如，所述至少5种不同的方法包括Strelka1、Strelka2、VarScan、Mutect2和MuSE。然而，还可以进一步包括本领域已知的其他检测体细胞突变的方法。

在一些实施方案中，肿瘤特异性体细胞突变鉴定模块I)进一步筛选符合以下标准的体细胞突变：

肿瘤特异性体细胞突变筛选模块II)基于所述对象肿瘤组织或细胞的转录组测序结果进一步筛选肿瘤特异性体细胞突变。

在一些实施方案中，肿瘤特异性体细胞突变筛选模块II)基于基因表达水平选择体细胞突变。在一些实施方案中，其选择位于高表达的基因内的体细胞突变，例如，所述高表达的基因的RPKM大于等于1。

在一些实施方案中，肿瘤特异性体细胞突变筛选模块II)对所述体细胞突变进行基因结构水平和影响基因编码功能水平的选择，例如，选择基因结构水平注释为exonic且影响基因编码功能水平注释为nonsynonymous SNV的体细胞突变。

在一些实施方案中，肿瘤特异性体细胞突变筛选模块II)还任选地评估所述对象中HLA基因、CD4基因和/或CD8基因的表达水平。

HLA分型模块III)基于所述对象正常组织或细胞的全外显子组测序结果进行HLA分型。

在一些实施方案中，HLA分型模块III)至少使用以下数据库进行HLA分型：ATHLATES、HLA-HD、HLAVBseq、seq2HLA和HLAminer。

肿瘤新生抗原预测模块IV)基于前述三个步骤的结果，预测肿瘤新生抗原。

在一些实施方案中，肿瘤新生抗原预测模块IV)：

提取对应所述体细胞突变的氨基酸序列，从而获得对应于所述体细胞突变的突变肽，例如，提取对应所述体细胞突变的约8-35个氨基酸，优选约15-27个氨基酸的氨基酸序列；

基于HLA分型结果，通过MHC结合亲和力、MHC结合稳定性、蛋白酶体酶切、质谱数据分别独立地对所提取的突变肽进行打分并排序；和

通过几何平均法对所述突变肽进行综合打分并排序，由此选择出候选肿瘤新生抗原。

在一些实施方案中，使用选自NetMHCcons、NetMHC、NetMHCpan、PickPocket、MHCflurry、netMHCstab、NetChop的一或多种对所提取的突变肽进行打分并排序。

在另一方面，本发明还提供一种鉴定对象中肿瘤新生抗原的装置，所述装置包括：存储器，用于存储程序；处理器，用于通过执行上述存储器存储的程序以实现本发明第一方面的方法。

在另一方面，本发明还提供一种计算机可读存储介质，其包括程序，该程序能够被处理器执行以实现本发明第一方面的方法。

在另一方面，本发明提供根据本发明的方法或装置鉴定的肿瘤新生抗原。

在另一方面，本发明提供一种药物组合物，其包含根据本发明的方法或装置鉴定的肿瘤新生抗原，以及药学上可接受的载体。

在另一方面，本发明还提供根据本发明的方法或装置鉴定的肿瘤新生抗原或本发明的药物组合物在制备用于治疗和/或预防癌症的药物中的用途。在一些实施方案中，所述药物是肿瘤疫苗。在一些实施方案中，所述疫苗是治疗性疫苗。

所述癌症包括但不限于肝癌、肺癌、卵巢癌、结肠癌、直肠癌、黑色素瘤、肾癌、膀胱癌、前列腺癌、乳腺癌、淋巴瘤、恶性血液病、头颈癌、胶质瘤、胃癌、鼻咽癌、喉癌、胰腺癌、宫颈癌、食道癌、小肠癌、慢性或急性白血病和骨肉瘤。

下面通过具体实施例和附图对本发明作进一步详细说明。然而，其并不应该理解为对本发明的限制。

实施例

本研究以小鼠肝癌模型为例，从肿瘤组织和外周血全外显子组二代测序，和转录组二代测序结果出发，鉴定肝癌特异性新生抗原。

实施例1、准确分析肿瘤组织内中特异性体细胞突变(somatic mutation)：

1.1该实施例所需公共数据库和公开发表的算法汇总

1.2具体方法步骤：

1)肿瘤组织样本和外周血对照样本的原始测序数据获得和说明(raw data)：全外显子组测序是利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。由于它具有对常见和罕见变异高灵敏度，因此仅需对2％的基因组进行测序就能发现外显子区域的大部分疾病相关变异。全外显子组测序技术具有针对性强，覆盖度深，数据准确性高，简便、经济、高效等特点。

获取肿瘤组织样品和外周血对照样品，通过Illumina平台进行高通量外显子测序。得到的原始图像数据文件经CASAVA碱基识别(Base Calling)分析转化为测序读段(Sequenced Reads)，结果以FASTQ(简称为fq)文件格式存储，称之为Raw Reads。

FASTQ文件包含每条读段的名称、碱基序列以及其对应的测序质量信息。在FASTQ格式文件中，每个碱基对应一个碱基质量字符，每个碱基质量字符对应的ASCII码值减去33，即为该碱基的测序质量得分(Phred Quality Score)。不同Phred Quality Score代表不同的碱基测序错误率，如Phred Quality Score值为20和30分别表示碱基测序错误率为1.0％和0.1％。其中FASTQ格式示例如下：

(1)第一行以“@”开头，随后为Illumina测序标识别符(Sequence Identifiers)和描述文字(选择性部分)；

(2)第二行是碱基序列；

(3)第三行以“+”开头，随后为Illumina测序标识别符(选择性部分)；

(4)第四行是对应碱基的测序质量，该行中每个字符对应的ASCII值减去33，即为对应第二行对应碱基的测序质量值。

2)原始测序数据的质控和过滤(clean data)：利用FastQC算法对原始测序数据进行质量评估。利用Trim_galore软件对原始测序数据进行处理，标准如下：从3’端去除接头序列片段和Q值小于20的低质量片段，同时去除长度小于70bp的片段，得到的干净的高质量的测序序列片段用于后续分析(Clean data)。

3)测序数据比对到参考基因组上(alignment)：通过质控的高质量的测序数据利用Bowtie2算法比对到参考基因组上。比对结果进行排序，标记重复序列并将其去除。

4)通过与外周血对照样本的测序结果比较，在肿瘤组织样本测序数据结果中分析体细胞突变：通过Strelka1、Stralka2、VarScan、Mutect2(Sentieon)和MuSE分析算法分别检测肿瘤组织中的体细胞突变，然后对这5种独立分析的体细胞突变检测结果取交集，大大降低检测的假阳性率。并且调整了上述每个算法的参数，提高了检测阈值，进一步降低检测的假阳性率。

5)5种独立算法结果的整合和过滤(consistent and filtering)：对上面的5种独立分析的体细胞突变检测结果取交集，并过滤，得到高质量的肿瘤组织中的体细胞突变结果。过滤标准如下：(i)肿瘤组织和外周血样本的测序深度皆>＝10；(ii)在肿瘤样本数据中，支持该变异的读段数>＝3(去重数据)；(iii)在肿瘤样本数据中，该变异的等位基因频率>＝0.1；(iv)在外周血样本测序数据中，该变异的等位基因频率<＝0.01；(v)在发明人已经建立的100个正常人外周血外显子测序数据中，该变异的频率<0.01。

6)通过一代测序(Sanger测序)对选定的具体体细胞突变进行验证。结果显示，本发明所述方法鉴定体细胞突变的假阳性率相比现有技术的方法降低2-3倍。

实施例2、结合基因表达水平、突变的基因功能预测等信息筛选体细胞突变位点

对实施例1检测到的每一个体细胞突变，基于NCBI人类基因组注释信息数据库，对变异位点进行基因水平(gene-based)、功能水平(region-based)注释的分析。

(1)基因结构水平的注释信息和优先级顺序：exonic＝splicing>ncRNA>UTR5/UTR3>intron>upstream/downstream>intergenic>unknown。

(2)影响基因编码功能的注释信息和优先级顺序：stopgain>stoploss>nonsynonymous SNV>synonymous SNV>unknown。

本发明中，只筛选出位于exonic(基因结构水平)中的nonsynonymous SNV(影响基因编码功能水平)。

同时，基于转录组测序数据，检测所有NCBI人类基因组注释信息数据库中已经注释的蛋白编码基因的表达水平，从中

(1)进一步筛选出位于中高表达水平(RPKM≥1)的基因上的体细胞突变；

(2)评估样本中HLA基因/CD4/CD8的表达水平。

这样可以进一步筛选出位于中高表达水平基因上的、可以改变蛋白编码序列的体细胞突变，同时评估HLA基因/CD4/CD8的表达水平，判断患者目前是否适用于肿瘤新生抗原免疫疗法。

2.1该实施例所需公共数据库和公开发表的算法汇总

2.2具体方法步骤：

1)肿瘤组织样本转录组的原始测序数据获得和说明(raw data)：获取肿瘤组织样本，利用特征PolyA序列捕获mRNA并进行二代测序。高通量测序(Illumina)得到的原始图像数据文件经CASAVA碱基识别(Base Calling)分析转化为测序读段(Sequenced Reads)，结果以FASTQ(简称为fq)文件格式存储，称之为Raw Reads。

3)测序数据比对到参考基因组上(alignment)：通过质控的高质量的测序数据利用Tophat2算法比对到参考基因组上，比对结果进行排序。

4)基因表达水平的分析(gene expression information)：通过计算RPKM值评估每个基因的表达水平。

5)体细胞突变的功能注释分析(mutation annotation)：针对每一个体细胞突变，基于NCBI基因组注释信息数据库，对变异位点进行基因水平(gene-based)、功能水平(region-based)的注释的分析。只筛选出位于exonic(基因结构水平)中的nonsynonymousSNV(影响基因编码功能水平)。

结果如下表所示：

小鼠模型中基于基因表达水平和注释信息进一步筛选的体细胞突变。其中粗体示出每个模型进一步筛选出的体细胞突变数目。

实施例3、基于外周血外显子测序数据对检测样本进行HLA-I/II分型

3.1该实施例所需公共数据库和公开发表的算法汇总

3.2具体方法步骤：

1)原始测序数据获得以及质控和过滤：同实施例1。

2)基于5个不同的HLA基因型数据库信息，将测序数据进行严格比对到HLA基因注释区域并进行HLA分型(alignment and genotyping)。基于5个不同数据库的分析结果，判断HLA分型。

结果如下表所示，对8个个体的HLA分型结果可以看出本发明的方法能够将分型做到6位(2*3)以上，且与金标准PCR-SBT技术相比，准确度大于98％。

粗体所示两列为PCR-SBT的分型结果。

实施例4、利用优化的计算模型平台筛选个性化的肿瘤新生抗原表位

本实施例中，基于前3个实施例的分析结果，对筛选出来的位于中高表达水平基因上的、可以改变蛋白编码序列的体细胞突变，针对于特定的HLA分型，预测肿瘤新生抗原。本实施例采用从多角度分析、综合预测的策略。该策略虽然会过滤掉一些阳性结果，但是筛选保留下来的新生抗原更加准确，假阳性率低。本实施例从结合亲和力(binding affinity)、结合稳定性(binding stability)、蛋白酶体切割(proteasomal cleavages)、质谱数据(Mass spectrometry)这些角度先独立预测肿瘤特异性新生抗原，然后再整合不同角度独立分析的结果，筛选出几个角度都显著的新生抗原。最后，采用几何平均法的策略，将预测出来的新生抗原进行排序。

4.1该实施例所需公共数据库和公开发表的算法汇总

4.2具体方法步骤：

1)基于实施例1-3分析出来的体细胞突变位点，以蛋白编码区域内错义突变位点为中心，前后延伸7-13aa，提取所有氨基酸序列。

2)结合预测出来的HLA分型，使用NetMHCcons、NetMHC、NetMHCpan、PickPocket、MHCflurry、netMHCstab、NetChop分别针对结合亲和力(binding affinity)、结合稳定性(binding stability)、蛋白酶体切割(proteasomal cleavages)、质谱数据(Massspectrometry)独立预测肿瘤特异性新生抗原，根据可能性从高到底排序。

3)最后，根据不同方法的排序，采用几何平均法，将预测出来的新生抗原进行综合排序。

Claims

1.一种鉴定对象中肿瘤新生抗原的方法，所述方法包括以下步骤：

(a)分析所述对象肿瘤组织或细胞和正常组织活细胞的全外显子组测序结果，鉴定肿瘤特异性体细胞突变；

2.权利要求1的方法，其中步骤(a)通过至少3种不同的方法分别独立地从所述全外显子组测序结果中鉴定体细胞突变，并选择在所述至少3种不同的方法中均被鉴定出的体细胞突变，例如所述至少3种不同的方法选自Strelka1、Strelka2、VarScan、Mutect2和MuSE。

3.权利要求2的方法，其中步骤(a)使用至少5种不同的方法鉴定所述体细胞突变，例如，所述至少5种不同的方法包括Strelka1、Strelka2、VarScan、Mutect2和MuSE。

4.权利要求1-3中任一项的方法，其中步骤(a)进一步筛选符合以下标准的体细胞突变：

5)在包含至少100个正常对象的正常组织或细胞的全外显子组测序结果中，所述突变的等位基因频率小于0.01。

5.权利要求1-4中任一项的方法，其中步骤(b)包括基于基因表达水平选择体细胞突变。

6.权利要求5的方法，其中选择位于高表达的基因内的体细胞突变，优选地，所述高表达的基因的RPKM大于或等于1。

7.权利要求1-6中任一项的方法，其中步骤(b)包括对所述体细胞突变进行基因结构水平和影响基因编码功能水平的选择，优选地，选择基因结构水平注释为exonic且影响基因编码功能水平注释为nonsynonymous SNV的体细胞突变。

8.权利要求1-7中任一项的方法，其中步骤b)还包括评估所述对象中HLA基因、CD4基因和/或CD8基因的表达水平。

9.权利要求1-8中任一项的方法，其中步骤(c)中至少使用以下数据库进行HLA分型：ATHLATES、HLA-HD、HLAVBseq、seq2HLA和HLAminer。

10.权利要求1-9中任一项的方法，其中步骤(d)包括：

d1)提取对应所述体细胞突变的氨基酸序列，例如，提取对应所述体细胞突变的约8-35个氨基酸，优选约15-27个氨基酸的氨基酸序列，从而获得对应于所述体细胞突变的突变肽；

11.权利要求10的方法，其中步骤(d2)中使用选自NetMHCcons、NetMHC、NetMHCpan、PickPocket、MHCflurry、netMHCstab、NetChop的一或多种对所提取的突变肽进行打分并排序。

12.一种鉴定对象中肿瘤新生抗原的装置，所述装置包括：存储器，用于存储程序；处理器，用于通过执行上述存储器存储的程序以实现权利要求1-11中任一项的方法。

13.一种计算机可读存储介质，其包括程序，该程序能够被处理器执行以实现权利要求1-11中任一项的方法。

14.一种鉴定对象中肿瘤新生抗原的装置，所述装置包括以下四个模块：基于所述对象肿瘤组织或细胞和正常组织或细胞的全外显子组测序结果鉴定肿瘤特异性体细胞突变的体细胞突变鉴定模块I)；基于所述对象肿瘤组织或细胞的转录组测序结果进一步筛选肿瘤特异性体细胞突变的肿瘤特异性体细胞突变筛选模块II)；基于所述对象正常组织或细胞的全外显子组测序结果进行HLA分型的HLA分型模块III)；和肿瘤新生抗原预测模块IV)。

15.权利要求14的装置，其中体细胞突变鉴定模块I)通过至少3种不同的方法分别独立地从所述全外显子组测序结果中鉴定体细胞突变，并选择在所述至少3种不同的方法中均被鉴定出的体细胞突变，例如所述至少3种不同的方法选自Strelka1、Strelka2、VarScan、Mutect2和MuSE。

16.权利要求15的装置，体细胞突变鉴定模块I)使用至少5种不同的方法鉴定所述体细胞突变，例如，所述至少5种不同的方法包括Strelka1、Strelka2、VarScan、Mutect2和MuSE。

17.权利要求14-16中任一项的装置，体细胞突变鉴定模块I)进一步筛选符合以下标准的体细胞突变：

5)在包含至少100个、至少200个、至少300个或更多个，例如200-300个正常对象的正常组织或细胞的全外显子组二代测序结果中，所述突变的等位基因频率小于0.01。

18.权利要求14-17中任一项的装置，其中肿瘤特异性体细胞突变筛选模块II)基于基因表达水平选择体细胞突变。

19.权利要求18的装置，其中选择位于高表达的基因内的体细胞突变，例如，所述高表达的基因的RPKM大于或等于1。

20.权利要求14-19中任一项的装置，肿瘤特异性体细胞突变筛选模块II)对所述体细胞突变进行基因结构水平和影响基因编码功能水平的选择，例如，选择基因结构水平注释为exonic且影响基因编码功能水平注释为nonsynonymous SNV的体细胞突变。

21.权利要求14-20中任一项的装置，肿瘤特异性体细胞突变筛选模块II)还评估所述对象中HLA基因、CD4基因和/或CD8基因的表达水平。

22.权利要求14-21中任一项的装置，HLA分型模块III)至少使用以下数据库进行HLA分型：ATHLATES、HLA-HD、HLAVBseq、seq2HLA和HLAminer。

23.权利要求14-22中任一项的装置，肿瘤新生抗原预测模块IV)：

提取对应所述体细胞突变的氨基酸序列，例如，提取对应所述体细胞突变的约8-35个氨基酸，优选约15-27个氨基酸的氨基酸序列，从而获得对应于所述体细胞突变的突变肽；

24.权利要求23的装置，其中使用NetMHCcons、NetMHC、NetMHCpan、PickPocket、MHCflurry、netMHCstab、NetChop分别对所提取的突变肽进行打分并排序。