CN116083587B

CN116083587B - 一种基于异常可变剪切预测肿瘤新生抗原的方法以及装置

Info

Publication number: CN116083587B
Application number: CN202310246530.3A
Authority: CN
Inventors: 程旭东; 刘永铭
Original assignee: Zhongsheng Kangyuan Bio Tech Beijing Co ltd
Current assignee: Zhongsheng Kangyuan Bio Tech Beijing Co ltd
Priority date: 2023-03-15
Filing date: 2023-03-15
Publication date: 2023-07-07
Anticipated expiration: 2043-03-15
Also published as: CN116083587A

Abstract

本申请公开了一种基于异常可变剪切预测肿瘤新生抗原的方法包括：步骤S1：体细胞变异检测，对肿瘤组织和对照组织进行全外显子测序，并基于测序数据进行体细胞变异检测；步骤S2：对肿瘤组织的RNA进行测序，并对其转录本进行分析；步骤S3：基于步骤S1和步骤S2，对肿瘤组织中的异常可变剪切位点进行鉴定；步骤S4：基于步骤S2和步骤S3，获取肿瘤组织中异常可变剪切位点对应的转录本及其氨基酸编码序列；步骤S5：鉴定肿瘤组织对应的HLA分型；步骤S6：基于步骤S4和步骤S5，针对肿瘤组织异常剪切位点对应的氨基酸编码序列进行新生抗原预测。本申请还提供一种基于异常可变剪切预测肿瘤新生抗原的装置。

Description

一种基于异常可变剪切预测肿瘤新生抗原的方法以及装置

技术领域

本申请涉及生物医学技术领域，具体而言，涉及一种基于异常可变剪切预测肿瘤新生抗原的方法以及装置。

背景技术

肿瘤发生发展过程会产生许多非同义体细胞基因变异（如错义突变、移码突变、剪切突变、融合突变等），携带变异的基因在细胞内可能会被翻译成变异蛋白，进而被递呈到肿瘤细胞表面，成为肿瘤细胞特有的抗原，这种由肿瘤细胞内基因变异导致的特殊肿瘤抗原被称为肿瘤新生抗原（neoantigen）。此类肿瘤新生抗原能够被机体的免疫系统识别，引发抗肿瘤反应。新生抗原由肿瘤细胞所特有的突变形成，在正常细胞中并不表达，因此，新生抗原非常适合作为免疫疗法的靶点，具有非常好的免疫原性，也是用于研制肿瘤新生抗原疫苗的关键。

然而，目前基于肿瘤新生抗原的疫苗研发与应用仍然面临着诸多挑战。目前肿瘤新生抗原疫苗的开发主要是基于SNV（single-nucleotide variant-单核苷酸变异）和INDEL（insertion & deletion-插入缺失）突变，在很多肿瘤突变负荷较低的肿瘤中，例如脑胶质瘤GBM、非小细胞肺癌等，能够鉴定到的基于SNV和INDEL的肿瘤新生抗原数目较少，无法满足临床治疗的需求。因此，迫切的需要增加在低肿瘤突变负荷的肿瘤中新生抗原鉴定的途径和数目。

2018年Kahles等人在Cancer Cell发表了一篇针对肿瘤可变剪切的研究文章，使用TCGA等数据库中8705个样本涉及32个肿瘤类型，论述了可变剪切在肿瘤中的变异图谱以及其作为新生抗原治疗的可能性。并通过乳腺癌和卵巢癌的临床数据证实了基于肿瘤可变剪切的新生抗原的存在，其平均数目是基于SNV的肿瘤新生抗原数目的2-3倍。因此，可变剪切能够显著的增加肿瘤新生抗原的来源，且相比于SNV或INDEL类型的新生抗原可能具有更好的免疫原性。

发明内容

针对上述问题，本申请提出了一种基于异常可变剪切的肿瘤新生抗原预测方法，创造性地提出了一种基于体细胞突变定位肿瘤特异的可变剪切的方法，体细胞突变可能导致剪切位点的丢失或获得，这种由体细胞突变导致的剪切位点的异常我们称之为异常可变剪切。这种类型的异常可变剪切往往都是肿瘤特异性的。因此，本申请提出了基于异常可变剪切预测肿瘤新生抗原的新的解决方案。至少在12%（22/176）的自有数据样本中发现了至少一例人工验证可确认的异常可变剪切。大大增加了肿瘤新生抗原的来源和数目。同时，该方法通过DNA体细胞变异层面、RNA表达数据层面多层次相互验证，能够极大地降低异常可变剪切鉴定的假阳性等问题。且具有更易操作和实现的特点，不必考虑多种类型的复杂识别或过滤限制，在提高精度的同时也提高了运行效率。

本申请提供一种基于异常可变剪切预测肿瘤新生抗原的方法，其中，包括：

步骤S1：体细胞变异检测，对肿瘤组织和对照组织进行全外显子测序，并基于测序数据进行体细胞变异检测；

步骤S2：对肿瘤组织的RNA进行测序，并对其转录本进行分析；

步骤S3：基于步骤S1和步骤S2，对肿瘤组织中的异常可变剪切位点进行鉴定；

步骤S4：基于步骤S2和步骤S3，获取肿瘤组织中异常可变剪切位点对应的转录本及其氨基酸编码序列；

步骤S5：鉴定所述肿瘤组织对应的HLA分型；

步骤S6：基于步骤S4和步骤S5，针对肿瘤组织异常剪切位点对应的氨基酸编码序列进行新生抗原预测。

进一步地，在所述步骤S1中，

获取肿瘤组织和对照组织全外显子测序数据；

对全外显子测序下机原始数据进行质控，得到质控后的数据；

将质控后的数据比对到参考基因组上，得到比对后的测序数据；

对比对后的测序数据进行排序和去除PCR重复，得到处理后的测序数据；

基于所述肿瘤组织和对照组织的所述处理后的测序数据进行体细胞基因变异检测，从而得到体细胞变异检测位点。

进一步地，在所述步骤S2中，

获取肿瘤组织的RNA测序数据；

对质控后的数据进行转录并比对到参考基因组上，得到比对后的测序数据。

进一步地，在所述步骤S3中，通过体细胞变异检测确定发生体细胞突变位置，再通过步骤S2中得到的RNA测序数据确定体细胞突变是否导致了剪切位点的丢失或获得，从而获得所述肿瘤组织中的异常可变剪切位点。

进一步地，在所述步骤S3中，

根据所述体细胞变异检测位点，对每个异常位点，在所述步骤S2中获得的比对后的测序数据中提取所述该异常位点周围所有的reads，统计在该异常位点处发生剪切的reads数目和未发生剪切的reads数目；

所述肿瘤组织中的异常可变剪切位点满足如下条件：

支持异常可变剪切的reads数目≥10。

进一步地，在所述步骤S4中，

获取所述异常可变剪切位点所在基因区域的所有reads信息；

将所述所有reads信息进行转录本组装，从而获得含有异常剪切的转录本信息；

基于所述含有异常剪切的转录本信息，采用ORF阅读框的识别，并将ORF阅读框翻译成氨基酸编码序列；

提取异常可变剪切突变位点处前15个和其后所有编码的氨基酸序列，直至遇到终止密码子，从而得到新生抗原鉴定的输入序列准备部分。

进一步地，在所述步骤S5中，将所述步骤S2获得的质控后的数据对HLA分型进行鉴定，从而得到MHC-I型和MHC-II；

所述MHC-I包括HLA-A、HLA-C以及HLA-C；

所述MHC-II型包括HLA-DQA1、HLA-DQB1以及HLA-DRB1。

进一步地，在所述步骤S6中，

对所述步骤S4得到的包含异常可变剪切的氨基酸编码序列采用滑窗的方式切分成8-15个氨基酸长度的多肽序列，要求每个切分窗口必须包含至少1个异常编码的氨基酸；

将上述步骤切分后获得多个多肽序列，结合步骤S5中的HLA分型信息，逐一进行鉴定以筛选肿瘤新生抗原。

进一步地，所述多肽序列在特定HLA分型下亲和力预测值IC50≤500时，所述多肽序列作为在特定HLA分型下预测到的肿瘤新生抗原。

本申请提供一种基于异常可变剪切预测肿瘤新生抗原的装置，其中，包括：

体细胞变异检测模块，其用于对肿瘤组织和对照组织进行全外显子测序，并基于测序数据进行体细胞变异检测；

RNA测序分析模块，其用于对肿瘤组织的RNA进行测序，并基于测序数据对其转录本进行分析；

鉴定模块，其基于所述体细胞变异检测模块和RNA测序分析模块获得数据，对肿瘤组织中的异常可变剪切位点进行鉴定；

获取信息模块，其基于RNA测序分析模块以及鉴定模块的数据，获取肿瘤组织中异常可变剪切位点对应的转录本及其氨基酸编码序列；

鉴定分型模块，其用于鉴定所述肿瘤组织对应的HLA分型；

新生抗原预测模块，其基于获取信息模块和鉴定分型模块获得的数据，针对肿瘤组织异常剪切位点对应的氨基酸编码序列进行新生抗原预测。

进一步地，所述体细胞变异检测模块包括：

第一数据采集单元，其用于获取肿瘤组织和对照组织全外显子测序数据；

第一质控单元：其用于对全外显子测序下机原始数据进行质控，得到质控后的数据；

第一比对单元：其用于将质控后的数据比对到参考基因组上，得到比对后的测序数据；

第一处理单元：其用于对比对后的测序数据进行排序和去除PCR重复，得到处理后的测序数据；

体细胞基因变异检测单元：其用于基于处理后的肿瘤组织和对照组织的所述处理后的测序数据进行体细胞基因变异检测，从而得到体细胞变异检测位点。

进一步地，所述RNA测序分析模块包括：

第二数据采集单元，其用于获取肿瘤组织的RNA测序数据；

第二质控单元：其用于对全外显子测序下机原始数据进行质控，得到质控后的数据；

第二比对单元：其用于对质控后的数据进行转录并比对到参考基因组上，得到比对后的测序数据。

进一步地，所述鉴定模块包括：

统计模块，基于所述体细胞基因变异检测单元获得的体细胞变异检测位点，对每个异常位点从所述第二比对模块中获得的比对结果提取周围跨过该异常位点的所有reads，统计在该异常位点处发生剪切的reads数目和未发生剪切的reads数目；

分析模块，当支持发生异常可变剪切的reads数目≥10，该异常位点可认定为肿瘤组织中的异常可变剪切位点。

进一步地，所述获取信息模块包括：

第三数据采集单元，其用于获取所述异常可变剪切位点所在基因区域的所有reads信息；

转录单元，其用于将所述所有reads信息进行转录本组装，从而获得含有异常剪切的转录本信息；

翻译单元，其用于基于所述含有异常剪切的转录本信息，采用ORF阅读框的识别，并将ORF阅读框翻译成氨基酸编码序列；

提取单元：用于提取异常可变剪切突变位点处前15个和其后所有编码的氨基酸序列，直至遇到终止密码子，从而得到新生抗原鉴定的输入序列准备部分。

本申请提供的基于异常可变剪切的肿瘤新生抗原预测方法，创造性地提出了一种基于体细胞突变定位肿瘤特异的可变剪切的方法，体细胞突变可能导致剪切位点的丢失或获得，这种由体细胞突变导致的剪切位点的异常我们称之为异常可变剪切。这种类型的异常可变剪切往往都是肿瘤特异性的。因此，本申请提出了基于异常可变剪切预测肿瘤新生抗原的新的解决方案。至少在12%（22/176）的自有数据样本中发现了至少一例人工验证可确认的异常可变剪切。大大增加了肿瘤新生抗原的来源和数目。同时，该方法通过DNA体细胞变异层面、RNA表达数据层面多层次相互验证，能够极大地降低异常可变剪切鉴定的假阳性等问题。且具有更易操作和实现的特点，不必考虑多种类型的复杂识别或过滤限制，在提高精度的同时也提高了运行效率。

本申请提供的基于异常可变剪切的肿瘤新生抗原预测方法中，肿瘤异常可变剪切是通过DNA测序数据+RNA测序数据多层次相互验证的方法，大大的提高了肿瘤特异性可变剪切的预测准确度。

本申请提供的基于异常可变剪切的肿瘤新生抗原预测方法可应用于多癌种，不需要区分癌种即可实现基于异常可变剪切的肿瘤新生抗原的预测。

附图说明

附图用于更好地理解本申请，不构成对本申请的不当限定。其中：

图1为本申请的基于异常可变剪切预测肿瘤新生抗原方法的流程图。

图2为本申请的实施例2中肿瘤患者的T1的Elispot斑点均数示意图，相关信息对应表1中的编号为ZSneo2。

图3为本申请的实施例2中肿瘤患者的T5的Elispot斑点均数示意图，相关信息对应表1中的编号为ZSneo10。

具体实施方式

以下对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前可变剪切主要有5大类型：内含子保留、外显子跳跃、5’端可变剪切、3’端可变剪切和互斥外显子。目前针对可变剪切的鉴定方法主要是基于二代RNA测序数据和参考基因组注释信息，根据可变剪切在reads层面的不同的表现模式进行识别。而肿瘤特异的可变剪切鉴定主要依赖于参考基因组注释文件和正常人群剪切数据库或对照样本的过滤，对数据质量有着极高的要求。RNA测序数据具有非常大的时空动态性，时间和空间上都是处于一直变化的状态，且二代RNA测序短reads无法获取到全长转录本等问题，实际的表达数据情况非常复杂。因此，目前很多基于可变剪切的鉴定软件或方法都存在非常大的假阳性等问题，无法满足基于肿瘤特有可变剪切的新生抗原鉴定或其他临床应用的需求，极大地限制了基于可变剪切的肿瘤新生抗原的应用。

因可变剪切鉴定过程中的准确率低、假阳性高和鉴定困难等问题，基于肿瘤特异性可变剪切的衍生新生抗原还未能广泛的被推广应用。而肿瘤特异的可变剪切作为新生抗原的一个重要来源，急需更好的方案或方法来解决实际应用过程中遇到的限制问题。

基于此，如图1所示，本申请提供一种基于异常可变剪切预测肿瘤新生抗原的方法，包括：

步骤S5：鉴定所述肿瘤组织对应的HLA分型；

可变剪切是Pre-mRNA通过不同的剪切方式将外显子重连，形成不同mRNA，并产生不同种类蛋白的现象，由于可变剪切的存在，使得一个基因可以编码多种不同的蛋白质。可变剪切的产生，是调控剪切蛋白和存在于内含子和外显子的顺式作用元件相互作用的结果。他们包括内含子剪切增强子、内含子剪切沉默子、外显子剪切增强子、外显子剪切沉默子和AG-exon-GT保守序列等，这些顺式作用元件能与相应的蛋白结合，调控外显子拼接的准确性和效率。另外，调控剪切蛋白表达往往会存在时空特异性，既在不同的发育阶段和组织部位，相同蛋白的表达模式也会存在差异，这样就可能产生不同的剪切类型。当这些顺式作用元件的序列发生突变，即使是点突变，也可能产生异常的剪切类型，常见的异常剪切类型包括整个或部分外显子缺失、整个或部分内含子保留、多个外显子缺失等。异常剪切的结果可能会造成外显子部分序列缺失，从而导致蛋白缺失长片段氨基酸，也可能出现非3倍数的插入或缺失，导致移码突变或产生终止信号，并最终导致正常蛋白功能的缺失。

体细胞变异是指患者某些组织或器官后天性地发生了体细胞突变。虽然不会遗传给后代，却可以通过细胞分裂遗传给子代细胞。体细胞变异对肿瘤的发生发展有关键性的作用。

HLA分型是指人白细胞抗原的分型，人白细胞抗原是人类主要组织相容性复合体的表达物，每个人的人白细胞抗原都会有所不同，所以在做器官移植以及输血时，有时受体的免疫系统会对植入物中的人白细胞抗原产生免疫应答而产生免疫因子。

在所述步骤S1中，其包括如下步骤：

步骤S1-1：获取肿瘤组织和对照组织全外显子测序数据；

步骤S1-2：对全外显子测序下机原始数据进行质控，得到质控后的数据；

步骤S1-3：将质控后的数据比对到参考基因组上，得到比对后的测序数据；

步骤S1-4：对比对后的测序数据进行排序和去除PCR重复，得到处理后的测序数据；

步骤S1-5：基于所述肿瘤组织和对照组织的所述处理后的测序数据进行体细胞基因变异检测，从而得到体细胞变异检测位点。

在所述步骤S2中，其包括如下步骤：

步骤S2-1：获取肿瘤组织的RNA测序数据；

步骤S2-2：对全外显子测序下机原始数据进行质控，得到质控后的数据；

步骤S2-3：对质控后的数据进行转录并比对到参考基因组上，得到比对后的测序数据。

在所述步骤S3中，通过体细胞变异检测确定体细胞发生突变位置，再通过步骤S2中得到的RNA测序数据确定体细胞发生的突变是否导致了剪切位点的丢失或获得，从而获得所述肿瘤组织中的异常可变剪切位点。

具体地，根据所述体细胞变异检测位点，对每个异常位点，在所述步骤S2中获得的比对后的测序数据中提取所述该异常位点周围所有的reads，统计在该异常位点处发生剪切的reads数目和未发生剪切的reads数目；

所述肿瘤组织中的异常可变剪切位点满足如下条件：

支持异常可变剪切的reads数目≥10。

进一步地，根据扫描后统计得到的支持发生可变剪切的reads数和未发生突变表型正常的reads数可以用来计算拼接指数(spliced-in index ,PSI)，PSI=splice_reads/( splice_reads+normal_reads)，

splice_reads表示支持发生异常可变剪切的reads数目，

normal_reads表示正常未发生异常可变剪切的reads数目。

正常情况下理论PSI=0，无异常可变剪切。

若PSI>0，且携带有异常的支持为异常可变剪切的reads数目，splice_reads<10，则认为没有发生异常可变剪切。

若PSI>0，且携带有异常的支持为异常可变剪切的reads数目，splice_reads≥10，则认为发生了异常可变剪切。

在splice_reads≥10的情况下，PSI值越大，PSI(spliced-in index)为拼接指数，拼接指数结合splice_reads共同作为异常可变剪切表达情况的衡量指标，splice_reads支持数越高表示含有异常可变剪切的转录本的表达量越高，对于基于新生抗原的治疗方式越有利。

根据突变所在位点在Gencode提供参考基因组注释文件和基于正常人群构建的RNA可变剪切数据库中检查是否已存在相关记录信息，过滤掉已经在参考基因组注释文件或正常人中已经存在的可变剪切。

若该异常突变位点发生于正常情况下的非剪切位点周围，则该异常类型属于剪切位点获得；若该异常突变位点发生于正常情况下的剪切位点周围，则该异常类型属于剪切位点丢失。

在所述步骤S4中，其包括如下步骤：

步骤S4-1：获取所述异常可变剪切位点所在基因区域的所有reads信息；

步骤S4-2：将所述所有reads信息进行转录本组装，从而获得含有异常剪切的转录本信息；

步骤S4-3：基于所述含有异常剪切的转录本信息，采用ORF阅读框的识别，并将ORF阅读框翻译成氨基酸编码序列；

步骤S4-4：提取异常可变剪切突变位点处前15个和其后所有编码的氨基酸序列，直至遇到终止密码子，从而得到新生抗原鉴定的输入序列准备部分。

在所述步骤S5中，将所述步骤S2获得的质控后的数据对HLA分型进行鉴定，从而得到MHC-I型和MHC-II；

所述MHC-I包括HLA-A、HLA-C以及HLA-C；

所述MHC-II型包括HLA-DQA1、HLA-DQB1以及HLA-DRB1。

在所述步骤S6中，其包括如下步骤：

步骤S6-1：对所述步骤S4得到的包含异常可变剪切的氨基酸编码序列采用滑窗的方式切分成8-15个氨基酸长度的多肽序列，要求每个切分窗口必须包含至少1个异常编码的氨基酸；

步骤S6-2：将上述步骤切分后获得的多个多肽序列，结合步骤S5中的HLA分型信息，逐一进行鉴定以筛选肿瘤新生抗原。

所述多肽序列在特定HLA分型下亲和力预测值IC50≤500时，所述多肽序列作为在特定HLA分型下预测到的肿瘤新生抗原。

鉴定模块，其基于所述体细胞变异检测模块获得数据，对肿瘤组织中的异常可变剪切位点进行鉴定；

鉴定分型模块，其用于鉴定所述肿瘤组织对应的HLA分型；

具体地，所述体细胞变异检测模块包括：

具体地，所述RNA测序分析模块包括：

第二数据采集单元，其用于获取肿瘤组织的RNA测序数据；

具体地，所述鉴定模块包括：

进一步地，所述分析模块还可以根据扫描后统计得到的支持发生可变剪切的reads数和未发生突变表型正常的reads数来计算拼接指数(spliced-in index ,PSI)，

PSI=splice_reads/( splice_reads+normal_reads)，

splice_reads表示支持发生异常可变剪切的reads数目，

normal_reads表示正常未发生异常可变剪切的reads数目。

正常情况下理论PSI=0，无异常可变剪切。

若该异常位点发生于正常情况下的非剪切位点周围，则该异常类型属于剪切位点获得；若该异常位点发生于正常情况下的剪切位点周围，则该异常类型属于剪切位点丢失。

具体地，所述获取信息模块包括：

具体地，所述新生抗原预测模块，用于对所述获取信息模块得到的包含异常可变剪切的氨基酸编码序列采用滑窗的方式切分成8-15个氨基酸长度的多肽序列，要求每个切分窗口必须包含至少1个异常编码的氨基酸；切分后获得多个多肽序列，结合所述鉴定分型模块中的HLA分型信息，逐一进行鉴定以筛选肿瘤新生抗原。

实施例

下述实施例中所使用的实验方法如无特殊要求，均为常规方法。

下述实施例中所使用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1

本实施方式中的基于异常可变剪切预测肿瘤新生抗原包括以下步骤：

本实施例中我们选取了5个有代表性的患者样本，癌种有胰腺癌、平滑肌肉瘤和脑胶质瘤，其中包括3例男性和2例女性，年龄分布在47-68岁之间。分别提取上述5个患者的肿瘤样本的DNA和RNA，以及外周血作为对照样本DNA，构建测序文库并进行WES全外显子测序和RNA测序。

数据处理步骤如下：

步骤S1：体细胞变异检测，使用fastp（v 0.20.1）分别对肿瘤组织和外周血DNA测序数据进行质控分析，软件主要处理内容包括：去除建库时连接的接头，去除含N比例比较高的，或质量评分低的测序reads序列。将质控后的序列使用BWA(v 0.7.17)软件MEM算法比对至人参考基因组，获得初步比对结果。并使用samtools（v 1.14）软件对比对结果文件进行排序和建立index，然后使用Picard Tools(v 2.18.4)软件标记/去除重复序列。最后使用GATK（v 4.3.0.0）中的Mutect2整合上述处理后的肿瘤和外周血比对结果进行体细胞变异检测。

步骤S2：肿瘤组织RNA测序数据分析，使用fastp（v 0.20.1）对肿瘤组织RNA测序数据进行质控分析，将质控后的序列使用Hisat（v 2.1.0）软件比对至人参考基因组，并使用samtools（v 1.14）软件对比对结果文件进行排序和建立index，然后最后使用Stingtie（v2.0）软件计算基因表达量，并对新转录本进行拼接组装。

步骤S3：根据内部开发软件进行异常可变剪切的鉴定。主要原理如下，根据步骤S1中的体细胞突变检测结果，对每个突变位点从步骤S2中比对结果文件提取周围跨过该突变位点的所有reads。统计在该突变位点处发生剪切的reads数目和未发生剪切的reads数目。计算拼接指数(spliced-in index ,PSI)，PSI=splice_reads/( splice_reads+normal_reads)，

splice_reads表示支持发生异常可变剪切的reads数目，

normal_reads表示正常未发生异常可变剪切的reads数目。

步骤S4：基于步骤S3中鉴定的异常可变剪切突变，并在步骤S2中Stingtie软件预测的转录本结果中提取包含突变位点的异常可变剪切转录本。使用transDecoder(v5.5.0)预测其ORF阅读框，并根据ORF阅读框最终预测结果提取异常可变剪切对应的氨基酸编码序列。

步骤S5：使用seq2HLA(v 2.2)软件基于步骤S2中质控后的RNA测序数据鉴定MHCI和MHCII分子类型。

步骤S6：HLA亲合力预测，基于步骤S4鉴定到的异常可变剪切对应氨基酸序列，将氨基酸序列分别按照长度为8-15，每次移动一个氨基酸进行滑窗处理，获得异常可变剪切对应的多肽序列。然后，结合步骤S5中鉴定的MHC分子类型，使用NetMHCpan、NetMHCIIpan、NetMHC、NetMHCcons、MHCnuggets多软件进行综合预测，得到突变多肽亲和力预测结果及IC50值，筛选阈值为：IC50<500nM。

通过进一步信息整理后，最终获得基于异常可变剪切的高可信度新生抗原(表1)

表1基于异常可变剪切预测到的MHCI型肿瘤新生抗原

。

由表1可知，5例样本（T1-T5）中分别定位到有一个基因发生异常可变剪切；共预测出12条新生抗原表位（ZSneo1- ZSneo12）；其与MHCI型HLA等位基因结合的最佳亲和力（Best Score）分布范围为10.71-143.49，该值越小表示亲和力越高；拼接指数PSI分布范围为0.22-1；支持异常可变剪切的RNA测序reads表达数量分布为23-99。对应的异常可变剪切能够产生至少1个新生抗原，患者T3同一个异常可变剪切上最多能够预测到4个新生抗原表位，极大的扩展了新生抗原表位数量。

实施例2肿瘤新生抗原表位肽诱导肿瘤患者细胞免疫应答分析

从实施例1中表1，选取其中肿瘤驱动相关基因TP53和PTEN中的ZSneo2和ZSneo10两个结果进行四聚体验证实验以检测本申请的预测方法的准确性和可信度。

2.1 患者T1外周血特异性细胞毒性T细胞Elispot检测

从患者T1（男性，68岁，胰腺癌患者）采全血，分离血浆后，按照GE标准（GEHealthcare Life Sciences，Ficoll）操作流程分离人外周血单个核细胞（PBMC），并进行计数和活率。（实验组）取一定量PBMC制备成细胞密度2×10⁶/ml的溶液，然后将实施例1所得到的ZSneo2抗原表位肽加入到PBMC中（溶液：表位肽溶液的体积比为1000:1），混匀后加入到预包被的Elispot孔板中，每组各做两复孔，设立无关肽对照（人体免疫缺陷病毒（HIV）的抗原表位肽，阴性对照NC）、PHA对照（阳性对照PC），过夜培养20小时。第二天，按试剂盒标准方法（Elispot试剂盒，达科为）进行检测，并用仪器分析检测斑点，其结果如图2所示。

2.2 患者T5外周血特异性细胞毒性T细胞Elispot检测

患者T5（女性，49岁，肝癌患者）按照与2.1相同的方法进行操作，其采用的抗原表位肽为实施例1中的ZSneo10，其结果如图3所示。

从图2和图3可以看出，与阴性对照相比，实验组中的两名患者的外周血特异性细胞毒性T细胞Elispot检测结果显示，能在其外周血中检测到针对基于异常可变剪切预测到的2种表位肽产生免疫应答的特异性杀伤型T细胞。进一步说明了基于异常可变剪切导致的新生抗原表位的真实性和治疗上的有效性。

尽管以上结合对本申请的实施方案进行了描述，但本申请并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本申请权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本申请保护之列。

Claims

1.一种基于异常可变剪切预测肿瘤新生抗原的方法，其中，包括：

步骤S1：体细胞变异检测，对肿瘤组织和对照组织进行全外显子测序，并基于测序数据进行体细胞变异检测，从而获得体细胞变异检测位点；

步骤S5：鉴定所述肿瘤组织对应的HLA分型；

步骤S6：基于步骤S4和步骤S5，针对肿瘤组织异常剪切位点对应的氨基酸编码序列进行新生抗原预测;

在所述步骤S3中，通过体细胞变异检测确定体细胞发生突变位置，再通过步骤S2中得到的RNA测序数据确定体细胞发生的突变是否导致了剪切位点的丢失或获得，从而获得所述肿瘤组织中的异常可变剪切位点；

在所述步骤S3中，

所述肿瘤组织中的异常可变剪切位点满足如下条件：

拼接指数（spliced-in index，PSI）大于0，

PSI=splice_reads/( splice_reads+normal_reads)，

splice_reads表示支持发生异常可变剪切的reads数目，

normal_reads表示正常未发生异常可变剪切的reads数目；

且支持异常可变剪切的reads数目≥10；

在所述步骤S4中，获取所述异常可变剪切位点所在基因区域的所有reads信息；

2.根据权利要求1所述的方法，其中，在所述步骤S1中，

获取肿瘤组织和对照组织全外显子测序数据；

3.根据权利要求2所述的方法，其中，在所述步骤S2中，

获取肿瘤组织的RNA测序数据；

4.根据权利要求1所述的方法，其中，在所述步骤S5中，将所述步骤S2获得的质控后的数据对HLA分型进行鉴定，从而得到MHC-I型和MHC-II型；

所述MHC-I型包括HLA-A、HLA-B以及HLA-C；

所述MHC-II型包括HLA-DQA1、HLA-DQB1以及HLA-DRB1。

5.根据权利要求4所述的方法，其中，在所述步骤S6中，

6.根据权利要求5所述的方法，其中，所述多肽序列在特定HLA分型下亲和力预测值IC50≤500时，所述多肽序列作为在特定HLA分型下预测到的肿瘤新生抗原。

7.一种基于异常可变剪切预测肿瘤新生抗原的装置，其中，包括：

体细胞变异检测模块，其用于对肿瘤组织和对照组织进行全外显子测序，并基于测序数据进行体细胞变异检测；所述体细胞变异检测模块包括第一数据采集单元、第一质控单元、第一比对单元、第一处理单元、体细胞基因变异检测单元；

RNA测序分析模块，其用于对肿瘤组织的RNA进行测序，并基于测序数据对其转录本进行分析；所述RNA测序分析模块包括：第二数据采集单元、第二质控单元以及第二比对单元；

鉴定分型模块，其用于鉴定所述肿瘤组织对应的HLA分型；

新生抗原预测模块，其基于获取信息模块和鉴定分型模块获得的数据，针对肿瘤组织异常剪切位点对应的氨基酸编码序列进行新生抗原预测；

所述鉴定模块包括：

统计模块，基于所述体细胞基因变异检测单元获得的体细胞变异检测位点，对每个异常位点从所述第二比对单元中获得的比对结果提取周围跨过该异常位点的所有reads，统计在该异常位点处发生剪切的reads数目和未发生剪切的reads数目；

分析模块，当支持发生异常可变剪切的reads数目≥10，且拼接指数（spliced-inindex，PSI）大于0，该异常位点可认定为肿瘤组织中的异常可变剪切位点；

PSI=splice_reads/( splice_reads+normal_reads)，

splice_reads表示支持发生异常可变剪切的reads数目，

normal_reads表示正常未发生异常可变剪切的reads数目；

所述获取信息模块包括：

8.根据权利要求7所述的装置，其中，

所述第一数据采集单元，其用于获取肿瘤组织和对照组织全外显子测序数据；

所述第一质控单元：其用于对全外显子测序下机原始数据进行质控，得到质控后的数据；

所述第一比对单元：其用于将质控后的数据比对到参考基因组上，得到比对后的测序数据；

所述第一处理单元：其用于对比对后的测序数据进行排序和去除PCR重复，得到处理后的测序数据；

所述体细胞基因变异检测单元：其用于基于处理后的肿瘤组织和对照组织的所述处理后的测序数据进行体细胞基因变异检测，从而得到体细胞变异检测位点。

9.根据权利要求7所述的装置，其中，

所述第二数据采集单元，其用于获取肿瘤组织的RNA测序数据；

所述第二质控单元：其用于对全外显子测序下机原始数据进行质控，得到质控后的数据；

所述第二比对单元：其用于对质控后的数据进行转录并比对到参考基因组上，得到比对后的测序数据。