CN110706742B

CN110706742B - 泛癌种肿瘤新生抗原高通量预测方法及其应用

Info

Publication number: CN110706742B
Application number: CN201910941228.3A
Authority: CN
Inventors: 程旭东; 管旭东
Original assignee: Zhongsheng Kangyuan Bio Tech Beijing Co ltd
Current assignee: Zhongsheng Kangyuan Bio Tech Beijing Co ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-06-30
Anticipated expiration: 2039-09-30
Also published as: CN110706742A

Abstract

本发明公开了一种泛癌种肿瘤新生抗原高通量预测方法及其应用。本申请的预测方法以二代测序原始数据文件为基础进行突变和MHC检测，从多维度对候选肿瘤新生抗原进行打分，不仅可以降低新生抗原筛选的假阳性，而且可以把可信度高的新生抗原通过打分排序筛选出来。本发明的方法可以适用于多癌种，不需要区分癌种便可以预测肿瘤新生抗原，为基于肿瘤新生抗原的免疫治疗奠定了基础。

Description

泛癌种肿瘤新生抗原高通量预测方法及其应用

技术领域

本发明属于生物信息学和肿瘤免疫治疗领域，涉及基于高通量测序平台、核酸测序数据一站式肿瘤新生抗原预测鉴定。

背景技术

肿瘤特异性抗原(tumor-specific antigens，缩写TSAs)是指肿瘤细胞所特有的抗原，又称新生抗原(neoantigens)。肿瘤特异性抗原被提出于上世纪前半叶，之后随着分子生物学发展及对主要组织相容性复合体(major histocompatibility complex，缩写MHC)分子功能的深入认识，Boon等人首先发现在肿瘤中，有肿瘤产生的特异性肽段与MHC分子复合物可以被CD8+或者是CD4+等T细胞识别。随后的研究认识到这些能被T细胞识别的抗原来自于肿瘤的基因组变异表达成肿瘤特有的肽段(neo-epitopes)，被定义为新生抗原(neoantigens)。与肿瘤相关性抗原不同，肿瘤特异性抗原只存在于肿瘤细胞中。

肿瘤免疫疗法已经成为一种主要的治疗方式当前免疫治疗已经成为肿瘤临床治疗中不可或缺的环节，70％的癌症患者被预测到2025年将接受免疫治疗药物。以PD-1位代表的免疫检查点抑制剂疗法和以CAR-T为代表的改造T细胞疗法作为肿瘤免疫疗法2大分支近几年在肿瘤治疗领域大放异彩。以肿瘤新生抗原为代表的肿瘤疫苗方法是肿瘤免疫治疗第三种方法，虽然发展相较前2种较晚，但是近几年的研究和临床结果显示肿瘤新生抗原的广阔应用和发展前景。Rosenberg等人在2014年《science》发表一篇临床报道，利用肿瘤新生抗原免疫疗法成功治愈了一例晚期胆管癌患者。随后其又在消化道肿瘤临床实验中取得显著的疗效。

由此可见基于肿瘤新生抗原的免疫疗法前景广阔，但是基于全基因组高通量方法的肿瘤新生抗原筛选方法一直是一个难题。肿瘤新生抗原筛选往往耗费大量的时间和人工成本。鉴于此，本申请开发了一套基于测序的全基因组范围内高效准确筛选肿瘤新生抗原的高通量方法，可以显著提高肿瘤新生抗原筛选效率和准确率，大大缩短了基于肿瘤新生抗原免疫疗法的临床应用周期，极大的推动肿瘤新生抗原为基础的免疫疗法的发展和应用。

发明内容

为了克服现有技术存在的不足，本发明提供了一种基于高通量测序平台、核酸测序数据一站式肿瘤新生抗原预测鉴定的方法。本发明的方法中创造性的利用基于肿瘤新生抗原特征值的打分函数计算肿瘤新生抗原总得分值，按照总得分高低进行排序，排序在先的肿瘤新生抗原可信度高。本发明的方法可大大降低实验验证的工作量，并进一步实现肿瘤新生抗原的高效精准筛选。

根据本发明的一个方面，本发明提供了一种评估肿瘤新生抗原可信度的打分函数，所述打分函数包括如下特征值：突变多肽亲和力、多肽数量、突变多肽和正常多肽亲和力比值、突变所在位置基因或者转录本表达量、突变位点RNA的变异频率、DNA碱基突变的变异频率。

在本发明的具体实施方案中，所述打分函数如下所示：Score＝A+FC+E；

其中，A＝T-R(Med[1:n])，A表示突变多肽亲和力打分，T是候选评估多肽总体数量，Med表示求中位数函数，[1:n]表示第一个软件到第n个软件的亲和力预测值列表，R表示求排序值函数，最小为1，在此表示此突变多肽在所有多肽亲和力值排名。

FC＝T-R(MT/WT)，T是候选评估多肽总体数量，R表示求排序值函数，最小为1，在此表示此突变多肽MT和对应WT亲和力比值在所有多肽比值中排名。

E＝T-R(M*N*2+V)，T是候选评估多肽总体数量，M是突变所在位置基因或者转录本表达量，N表示突变位点RNA的变异频率，V＝VAF(DNA)/2、VAF(DNA)是DNA碱基突变的变异频率，R表示求排序值函数，最小为1，在此表示此突变多肽在所有多肽中对应值排名。

预测突变型多肽和HLA亲和力的软件包括NetMHCpan、NetMHCIIpan、NetMHC、NetMHCcons、MHCnuggets。

根据本发明的另一个方面，本发明提供了一种肿瘤新生抗原的预测方法，所述预测方法包括获取以下特征值：突变多肽亲和力、多肽数量、突变多肽和正常多肽亲和力比值、突变所在位置基因或者转录本表达量、突变位点RNA的变异频率、DNA碱基突变的变异频率。

本发明提供了一种肿瘤新生抗原的预测方法，所述预测方法包括利用前面所述的打分函数获得肿瘤新生抗原的可信度排序。

进一步，所述预测方法包括如下步骤：

(1)获取肿瘤样本WES和RNA-seq测序数据；

(2)遗传系突变和体细胞突变检测；

(3)突变位置RNA覆盖深度及表达量计算；

(4)突变注释；

(5)突变多肽提取；

(6)MHC分子类型鉴定；

(7)HLA亲和力预测；

(8)利用前面所述的打分函数获得肿瘤新生抗原的可信度排序。

步骤(1)的详细步骤如下：获取肿瘤患者的肿瘤组织或外周血，通过illumina高通量测序平台完成肿瘤组织WES和RNA-seq测序。

进一步，上述测序方法获取的原始数据需经数据质量控制、数据比对、Bam文件处理。

数据质量控制：DNA和RNA测序原始fastq数据通过FastQC软件进行质量控制得到质控过滤之后数据AO.clean.fq.gz。

数据比对：数据质量控制之后的DNA数据使用BWA软件进行与参考基因组的比对分析分别得到肿瘤样本和正常样本DNA数据的bam文件，数据质量控制之后的RNA使用hisat2软件进行参考基因组比对，得到肿瘤RNA数据的bam文件。

Bam文件处理：数据比对之后的bam文件需要进一步处理，DNA数据的bam文件使用samtools、Picard、GATK等软件进行bam文件的排序，去出重复数据、局部重新比对和碱基质量校正分析，得到过滤之后的DNA-bam文件；RNA数据bam文件进行排序和质量控制处理得到处理之后的RNA-bam文件。

优选地，利用GATK，VarScan，Strelka，Freebayes，VarDict，SomaticSniper软件检测遗传系突变和体细胞突变。

优选地，使用Bam-readcount软件计算突变位置RNA表达量。

优选地，多肽提取使用滑窗模式，具体的分别以8-11个氨基酸长度的滑窗，在突变位点上下游位置进行逐步滑窗提取包含突变氨基酸的多肽序列，滑窗的步移长度为1；

优选地，使用seq2HLA、polysolver、或BWA mem对进行MHCI和MHCII分子类型进行鉴定。

优选地，使用NetMHCpan、NetMHCIIpan、NetMHC、NetMHCcons、MHCnuggets等多种软件进行综合预测，得到突变多肽亲和力预测结果及IC50值，筛选阈值为：IC50<500nM。

步骤(8)的原理是：利用前面所述的打分函数获得肿瘤新生抗原综合打分，按照分值由高到低排序，分值高者代表其为肿瘤新生抗原的可信度更强。

根据本发明的又一个方面，本发明提供了一种预测肿瘤新生抗原的装置，所述装置包括用于存储程序的存储器以及用于执行所述程序的处理器，以实现前面所述的肿瘤新生抗原的预测方法。

根据本发明的又一个方面，本发明提供了一种计算机可读存储介质，包括程序，所述程序可被处理器执行以完成前面所述的肿瘤新生抗原的预测方法。

根据本发明的又一个方面，本发明提供了前面所述的打分函数在预测肿瘤新生抗原中的应用。

根据本发明的又一个方面，本发明提供了前面所述的打分函数在构建前面所述的肿瘤新生抗原的预测方法中的应用。

根据本发明的又一个方面，本发明提供了前面所述的打分函数在制备抗肿瘤药物或疫苗中的应用。

根据本发明的又一个方面，本发明提供了前面所述的肿瘤新生抗原的预测方法在制备抗肿瘤药物或疫苗中的应用。

如本文所用术语“肿瘤新生抗原”是指被人体抗原呈递细胞识别的原本不存于人体的“非我”新生蛋白多肽，该“非我”的新生多肽主要是由肿瘤细胞突变形成的突变蛋白凋亡而来。具体在新生抗原提呈的生物学过程上来说，分为5个步骤：(1)抗原呈递细胞(APC)可以通过胞吞肿瘤细胞，将肿瘤细胞内的蛋白(其中包括突变蛋白)裂解成短的肽段；(2)APC细胞内的转运蛋白(TAP，endosome)将这些肽段转运到内质网上；(3)内质网上表达上的HLA I类分子，-Ⅱ类分子沟槽与肽段锚定结合成稳定的复合物(I类分子结合8～11个氨基酸长度肽段，Ⅱ类分子结合13～25个氨基酸长度肽段)；(4)内质网上的MHC分子与肽段复合物经高尔基体分泌到APC细胞表面；(5)免疫T细胞的表面受体TCR识别APC表面的HLA分子-肽段复合物，激发后续免疫反应。肿瘤新生抗原是激发机体免疫系统对肿瘤细胞初始免疫反应的关键因素。

本发明的优点和有益效果：

(1)本发明创造性的构建了科学的打分函数，均衡影响肿瘤新生抗原准确度的关键因素，科学的分配权重，提高结果的真阳性率。

(2)本发明提供你了完整的肿瘤新生抗原从头预测流程，从原始测序数据开始到最终临床应用级别肿瘤特异性抗原一站式预测流程。极大的减少了冗余步骤，节省了预测时间。

(3)本发明提供的多步骤质控及综合分析，极大提高了结果的准确度，提高了新生抗原的验证率，缩短应用周期。

(4)本发明的方法可以适用于多癌种，不需要区分癌种便可以预测肿瘤新生抗原。

(5)本发明的方法不依赖于HLA类型，可以适用于MHCI和MHCII分子各种类型相关新生抗原预测分析。

(6)本发明提供的系统的高通量筛选方法，可以同时批量处理多样本、多种突变类型、多位点的特异性抗原预测，实现了肿瘤特异性抗原的高通量、高效率、高精度预测。极大地节省了相关工作人员时间和劳动成本，极好的推动肿瘤新生抗原的临床应用。

附图说明

图1是本申请实施例中基于二代测序的预测肿瘤新生抗原方法的流程框图；

图2是利用四聚体置换实验检测阳性对照多肽的流式细胞仪结果图；

图3是利用四聚体置换实验检测阴性对照多肽的流式细胞仪结果图；

图4是利用四聚体置换实验检测SLK的流式细胞仪结果图；

图5是利用四聚体置换实验检测ETAA1的流式细胞仪结果图；

图6是利用四聚体置换实验检测DOCK7的流式细胞仪结果图；

图7是利用四聚体置换实验检测CYP2C8的流式细胞仪结果图；

图8是利用四聚体置换实验检测TPR的流式细胞仪结果图。

具体实施方式

下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

实施例1预测肿瘤新生抗原

本发明预测肿瘤新生抗原的流程图见图1所示。详细过程如下：

1、材料准备

获取编号为AO001肿瘤患者(肝细胞癌患者)的肿瘤组织，通过illumina高通量测序平台完成肿瘤组织WES和RNA-seq测序。

2、数据质量控制

DNA和RNA测序原始fastq数据通过FastQC软件进行质量控制得到质控过滤之后数据AO001.clean.fq.gz。

3、数据比对

质控之后的DNA数据使用BWA软件进行与参考基因组的比对分析分别得到肿瘤和正常组织DNA数据的bam文件，质控之后的RNA使用hisat2软件进行参考基因组比对，得到肿瘤RNA数据的bam文件。

4、Bam文件处理

比对之后的bam文件需要进一步处理，DNA数据的bam文件使用samtools、Picard、GATK等软件进行bam文件的排序，去出重复数据、局部重新比对和碱基质量校正分析，得到过滤之后的DNA-bam文件。RNA数据bam文件进行排序和质量控制处理得到处理之后的RNA-bam文件。

5、遗传系突变和体细胞突变检测

使用GATK，VarScan，Strelka，Freebayes，VarDict，SomaticSniper软件综合检测肿瘤患者的遗传系突变和体细胞突变，得到包含572个突变的VCF文件。

6、突变位置RNA覆盖深度及表达量计算

使用Bam-readcount软件基于VCF文件和比对得到的bam文件计算突变点RNA丰度等特征信息，突变位点的RNA丰度需要大于1。

7、突变注释

使用VEP对检测得到的突变进行多种数据库的注释，其中包括基因注释，cosmic，clinvar等数据库的注释。

8、突变多肽提取

基于以上步骤得到遗传系突变和体细胞突变信息，进行突变位点多肽的综合准确提取，并且相对应的提取正常野生型基因型的多肽序列。多肽提取使用用滑窗模式，具体的分别以8-11个氨基酸长度的滑窗，在突变位点上下游位置进行逐步滑窗提取包含突变氨基酸的多肽序列，滑窗的步移长度为1。

9、MHC分子类型鉴定

基于RNA测序数据，使用seq2HLA进行MHCI和MHCII分子类型进行鉴定，AO001肿瘤患者分型为：HLA-A*11:01、HLA-A*26:01、HLA-B*40:01、HLA-B*38:01、HLA-C*07:02、HLA-C*12:03。

10、HLA亲合力预测

基于上述步骤得到的多肽序列和HLA类型，使用NetMHCpan、NetMHCIIpan、NetMHC、NetMHCcons、MHCnuggets多软件进行综合预测，得到突变多肽亲和力预测结果及IC50值，筛选阈值为：IC50<500nM。

11、对高亲和力突变多肽进行排序

利用打分函数：Score＝A+FC+E，计算预测的肿瘤新生抗原总得分值，Score值大小和新生抗原可信度成呈正相关关系。

其中，A＝T-R(Med[1:n])，A表示突变多肽亲和力打分，T是候选评估多肽总体数量，Med表示求中位数函数，[1:n]表示第一个软件到第n个软件的亲和力预测值列表，R表示求排序值函数，最小为1，在此表示此突变多肽在所有多肽亲和力值排名；

FC＝T-R(MT/WT)，T是候选评估多肽总体数量，是突变型多肽MT亲和力值和正常多肽WT的亲和力比值，R表示求排序值函数，最小为1，在此表示此突变多肽MT和对应WT亲和力比值在所有多肽比值中排名；

按照总得分高低进行排序，获得高可信度新生抗原(表1)。

表1肿瘤新生抗原打分排序

基因名称	HLA类型	MT表位序列	A	FC	E	Score
							MRPL9	HLA-C*12:03	KAMAPTSPL	22	21	9.5	52.5
SLK	HLA-A*11:01	QQMFENMLIK	20	17	10.5	47.5
							ETAA1	HLA-A*11:01	WSLHNIVPK	13	22	11	46
CYP2C8	HLA-A*11:01	KLRNYLIPK	17	20	1	38
							DOCK7	HLA-A*11:01	SVHTQDPYLDK	15	13	9	37
NRXN2	HLA-A*11:01	SVPAPNLPAGK	12	19	2	33
							TPR	HLA-A*11:01	KTSSEHLQK	21	5	6.5	32.5
EPB41L1	HLA-A*11:01	LTFCDTDSQK	16	10	3	29
							ANKRD49	HLA-A*11:01	HTYLLVVRTK	18	8	0.5	26.5
NUTM1	HLA-B*40:01	REPPPLPIM	9	12	5.5	26.5
							MED13	HLA-C*12:03	TSAPSLFPV	14	6	6	26
DROSHA	HLA-C*12:03	TLADRLESF	4	16	3.5	23.5
							LRP1B	HLA-A*11:01	GTFLSLVVY	8	11	1.5	20.5
AFTPH	HLA-A*11:01	LTPSTSSEEK	6	9	5	20
							XRCC6	HLA-B*40:01	IEESSKLEDL	7	3	10	20
BRWD1	HLA-A*11:01	ISGPENAWIRK	10	4	4.5	18.5
							SMG8	HLA-A*11:01	GMLHSNCRK	11	1	4	16
INSL6	HLA-A*11:01	GLLLVWFSR	1	7	2.5	10.5

实施例2候选肿瘤新生抗原验证

按照实施例1中表1的打分排序，选择部分肿瘤新生抗原通过四聚体验证实验以检测本发明的预测方法的准确性和可信度。

步骤：实验按照QuickSwitch^TM quant四聚体试剂盒的操作说明进行。

结果：得到5条阳性多肽，5条阳性多肽分别是：SLK、ETAA1、DOCK7、CYP2C8、TPR，图4-8代表上述5条阳性多肽四聚体置换实验流式细胞仪检测结果图。图2-3分别是阳性对照多肽、阴性对照多肽四聚体置换实验流式细胞仪检测结果图。

由此可见，验证获得的阳性多肽均为本发明的预测方法评定为高分的肿瘤新生抗原，故本发明的预测方法可信度高，可用于开发治疗肿瘤的药物和疫苗。

在此说明书中，本发明已经参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种评估泛癌种肿瘤新生抗原可信度的打分方法，其特征在于，所述打分方法包括如下特征值：突变多肽亲和力、多肽数量、突变多肽和正常多肽亲和力比值、突变所在位置基因或者转录本表达量、突变位点RNA的变异频率、DNA碱基突变的变异频率；

所述打分方法如下所示：Score=A+FC+E；

其中，A=T-R（Med[1: n]），A表示突变多肽亲和力打分；T是候选评估多肽总体数量；Med表示求中位数函数，[1: n]表示第一个软件到第n个软件的亲和力预测值列表；R表示求排序值函数，最小为1，表示突变多肽在所有多肽亲和力值排名；

FC=T-R(MT/WT)，T是候选评估多肽总体数量；MT表示突变多肽；WT表示正常多肽；R表示求排序值函数，最小为1，表示突变多肽和对应正常多肽亲和力比值在所有多肽比值中排名；

E=T-R（M*N*2+V），T是候选评估多肽总体数量；M是突变所在位置基因或者转录本表达量；N表示突变位点RNA的变异频率；V=VAF(DNA)/2，VAF(DNA)是DNA碱基突变的变异频率；R表示求排序值函数，最小为1，表示突变多肽在所有多肽中对应值排名。

2.根据权利要求1所述的打分方法，其特征在于，多种软件包括NetMHCpan、NetMHCIIpan、NetMHC、NetMHCcons、MHCnuggets。

3.一种泛癌种肿瘤新生抗原的预测方法，其特征在于，所述预测方法包括利用权利要求1或2所述的打分方法获得泛癌种肿瘤新生抗原的可信度排序。

4.根据权利要求3所述的预测方法，其特征在于，所述预测方法包括如下步骤：

（1）获取肿瘤样本WES和RNA-seq测序数据；

（2）遗传系突变和体细胞突变检测；

（3）突变位置RNA覆盖深度及表达量计算；

（4）突变注释；

（5）突变多肽提取；

（6）MHC分子类型鉴定；

（7）HLA亲和力预测；

（8）利用权利要求1或2所述的打分获得泛癌种肿瘤新生抗原的可信度排序。

5.根据权利要求4所述的预测方法，其特征在于，利用GATK，VarScan，Strelka，Freebayes，VarDict，SomaticSniper软件综合检测遗传系突变和体细胞突变。

6.根据权利要求4所述的预测方法，其特征在于，使用Bam-readcount软件计算突变位置RNA表达量。

7.根据权利要求4所述的预测方法，其特征在于，多肽提取使用滑窗模式，具体的分别以8-11个氨基酸长度的滑窗，在突变位点上下游位置进行逐步滑窗提取包含突变氨基酸的多肽序列，滑窗的步移长度为1。

8.根据权利要求4所述的预测方法，其特征在于，使用seq2HLA进行MHCI和MHCII分子类型的鉴定。

9.根据权利要求4所述的预测方法，其特征在于，使用NetMHCpan、NetMHCIIpan、NetMHC、NetMHCcons、MHCnuggets软件进行综合预测，得到突变多肽亲和力预测结果及IC50值，筛选阈值为：IC50<500nM。

10.一种预测泛癌种肿瘤新生抗原的装置，其特征在于，所述的装置包括用于存储程序的存储器以及用于执行所述程序的处理器，以实现权利要求3-9中任一项所述的预测方法。

11.一种计算机可读存储介质，其特征在于，包括程序，所述程序可被处理器执行以完成权利要求3-9中任一项所述的预测方法。

12.权利要求1或2所述的打分方法在预测泛癌种肿瘤新生抗原中的应用。

13.权利要求1或2所述的打分方法在构建权利要求3-9中任一项所述的预测方法中的应用。

14.权利要求1或2所述的打分方法或权利要求3-9中任一项所述的预测方法在制备抗肿瘤药物或疫苗中的应用。