CN111627497B

CN111627497B - 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用

Info

Publication number: CN111627497B
Application number: CN202010426721.4A
Authority: CN
Inventors: 万季; 刘鹏; 夏迪; 潘有东; 王奕; 宋麒
Original assignee: Shenzhen Neocura Biotechnology Corp
Current assignee: Shenzhen Neocura Biotechnology Corp
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2023-06-13
Anticipated expiration: 2040-05-19
Also published as: CN111627497A

Abstract

本发明公开了基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用。该方法包括以下步骤：S01，转录组深度测序数据比对；S02，转录本组装；S03，转录本过滤；S04，预测翻译起始密码子；S05，翻译转录本；S06，获取肿瘤特有全长新转录本蛋白序列；S07，获取肿瘤特有部分序列差异新转录本蛋白序列；S08，合并蛋白片段；S09，蛋白片段分割；S10，人类白细胞抗原基因分型；S11，肽段亲和力预测；和任选的，S12，质谱验证。通过本发明的方法发现的肿瘤新抗原，不局限于已注释的编码区，可以发现更多的新抗原；来自于非突变的高表达转录本，在不同肿瘤类型中有一定的通用性；经过质谱实验验证，有更高的概率产生免疫应答。

Description

基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用

技术领域

本发明涉及肿瘤免疫治疗领域，尤其涉及一种基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用。

背景技术

新抗原疫苗肿瘤免疫治疗方法以其治疗效果显著、适用癌种广泛和毒副作用小等特点已成为免疫治疗家族重要的成员。该治疗方法的效果严重依赖于新抗原多肽的选择，进一步新抗原多肽的选择又严重依赖于数据和预测算法。理论上新抗原的生成可能有多种来源，而在实际临床上则仅仅聚焦于DNA点突变和插入缺失相关的新抗原。尽管基于DNA点突变和插入缺失的新抗原疫苗展现出了良好的临床效果，然而有研究表明基于其他生物通路来源生成的新抗原可能具有更强的免疫原性反应。同时对于一些突变负荷较小的恶性肿瘤，仅仅基于少数几种来源会由于被预测的新抗原数据不足而限制肿瘤新抗原疫苗配方的选择。因此发掘更多的新抗原来源对于新抗原的研究和临床应用都具有重要的意义。

发明内容

针对获取肿瘤新抗原存在的上述问题，本发明充分考虑了肿瘤基因组中存在大量新转录本的事实，开发了一套获取肿瘤特异新抗原的生物信息学方法。

本发明的第一方面在于提供一种基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法，包括以下步骤：

S01，转录组深度测序数据比对；

S02，转录本组装；

S03，转录本过滤；

S04，预测翻译起始密码子；

S05，翻译转录本；

S06，获取肿瘤特有全长新转录本蛋白序列；

S07，获取肿瘤特有部分序列差异新转录本蛋白序列；

S08，合并蛋白片段；

S09，蛋白片段分割；

S10，人类白细胞抗原基因分型；

S11，肽段亲和力预测；

和任选的，S12，质谱验证。

在本发明的一些实施方式中，S01中，包括以下步骤：

S101，获取肿瘤样品和正常对照样品的包含编码RNA和非编码RNA的全转录组深度测序数据；

S102，过滤肿瘤样品和正常对照样品全转录组深度测序数据；

S103，对参考基因组构建索引；

S104，将S12得到的过滤之后的数据对S13得到的参考基因组进行比对；

优选地，S101中，采用去核糖体链特异性建库方法和小片段富集筛选建库方法建库测序；

优选地，S101中，样本数据中包括多个重叠或部分重叠的短读序列，肿瘤样品以及正常对照样品测序数据均不小于30G；

优选地，S102中，去除其中平均碱基质量低于20或者包含测序引物接头的短读序列。

在本发明的一些实施方式中，S02中，将已经将短读序列定位到参考基因组的全转录组深度测序数据对比结果组装为转录本。

在本发明的一些实施方式中，S03中，去除组装得到的转录本中存在的已知人类全长转录本和重复序列。

在本发明的一些实施方式中，S04中，包括以下步骤：

S401，计算肿瘤样品和正常对照样品的新转录本编码能力，根据编码能力的强弱分为蛋白编码转录本和非蛋白编码转录本；

S402，预测肿瘤样品和正常对照样品中蛋白编码转录本的翻译起始密码子。

在本发明的一些实施方式中，S05中，根据预测的翻译起始密码子对肿瘤样品和正常对照样品中有编码能力的新转录本进行翻译，得到蛋白序列。

在本发明的一些实施方式中，S06中，对比肿瘤样品以及正常对照样品翻译得到的蛋白序列，遍历肿瘤样品蛋白序列，获取不能在正常对照中搜寻得到的肿瘤样品特有蛋白序列。

在本发明的一些实施方式中，S07中，包括以下步骤：

S701，过滤肿瘤样品特有蛋白；

S702，将所有过滤得到的新转录蛋白和正常对照样品对应的所有转录本蛋白序列进行比对，比对结果中与正常对照样本不一致的序列将被定义为肿瘤特有部分序列差异新转录本蛋白序列。

在本发明的一些实施方式中，S08中，将S06得到的肿瘤特有全长新转录本蛋白序列以及S07得到的肿瘤特有部分序列差异新转录本蛋白序列进行合并，并过滤长度小于9的序列。

在本发明的一些实施方式中，S09中，将S08得到的蛋白序列分割，优选分割成长度为9到12个氨基酸的k-mer残基肽段。

在本发明的一些实施方式中，S11中，预测S09分割之后的k-mer残基肽段与HLA分子的亲和力，选取亲和力大于阈值的为候选新抗原。

在本发明的一些实施方式中，S12中，将肿瘤样品进行质谱实验分析，将产生的数据导入MaxQuant软件，添加候选新抗原为搜索库，最终能成功鉴定得到的肽段即为新抗原。

根据本发明的方案，提供了一种由计算机实现的基于新转录本组装结果探索肿瘤新抗原的生物信息学方法，包括由处理器执行的如下步骤：获取肿瘤样品和正常对照样品的全转录组测序数据；组装肿瘤样品和正常对照样品的转录本；获取肿瘤样品和正常对照样品的新转录本；预测肿瘤样品和正常对照样品的新转录本编码蛋白序列；获取肿瘤样品特有的新转录本蛋白序列及蛋白片段序列；计算肿瘤样品特有蛋白及蛋白片段与MHC分子结合的亲和力，得到候选肿瘤新抗原；基于质谱数据对候选的新抗原进行筛选验证。

优选的，所述样本为新鲜组织样品；作为替代，可以选用石蜡组织样品。

本发明的的第二方面在于提供第一方面所述的方法在制备提取免疫治疗新抗原的药品或医疗器械中的应用。

与现有技术相比，本发明的方案具有如下优势：

1、从来源上讲，通过本发明方案发现的肿瘤新抗原不局限于已注释的编码区，因此可以发现更多的新抗原。当前常用的方法主要采用靶向区域捕获测序或外显子组测序处理流程，识别体细胞变异后通过亲和力预测得到新抗原。这实质上是将分析区域局限在了基因组上的已知编码区。

2、本发明获得的肿瘤新抗原来自于非突变的高表达转录本(如内源性逆转录)，因此在不同肿瘤类型中有一定的通用性。

3、本发明获得的肿瘤新抗原经过质谱实验验证，得到的肽段是真实存在表达的，有更高的概率产生免疫应答。

附图说明

图1为本发明一种实施例的提取免疫治疗新抗原的流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

为使本领域技术人员更好地理解本发明，下面参照附图对本发明的实施例进行详细说明。本文具体实施例中所用的“首先”、“其次”、“再次”、“然后”、“接下来”等表达并不旨在对先后顺序进行限定。

图1是本发明实施例的提取免疫治疗新抗原的流程图，该方法包括由处理器执行的如下步骤：

S01，转录组深度测序数据比对

具体地，首先采用去核糖体链特异性建库方法和小片段富集筛选建库方法建库测序，获取肿瘤样品和正常对照样品的包含编码RNA和非编码RNA的全转录组深度测序数据，样本数据中包括多个重叠或部分重叠的短读序列，重叠程度的不同与测序的深度有关，肿瘤样品以及正常对照样品应分别获取不小于30G的测序数据。

其次，过滤肿瘤样品和正常对照样品全转录组深度测序数据，去除其中平均碱基质量低于20或者包含测序引物接头的短读序列，可以提高后续分析的准确率和效率。

再次，对参考基因组构建索引，参考基因组数据是指人类各染色体上的碱基序列数据，通常为FASTA格式，参考基因组数据可以通过UCSC下载，使用版本为hg38/GRCh38；然后将过滤之后的数据对参考基因组进行比对，进行序列比对是为了定位短读序列在参考基因组上面的位置。具体地，可以采用软件HISAT2对肿瘤样品和正常对照样品过滤后的数据进行序列比对。

S02，转录本组装

全转录组深度测序数据经比对后已经将短读序列定位到参考基因组，依赖参考基因、兼顾从头组装可以将比对结果组装为转录本。具体地，可以使用软件StringTie将肿瘤样品和正常对照样品比对结果组装成转录本。

S03，转录本过滤

组装得到的转录本中有大量的已知人类全长转录本，这部分转录本在正常组织中亦有表达，去除这部分转录本有利于提升后续分析速度。具体的，根据StringTie组装结果中的转录本编号过滤肿瘤样品和正常对照样品中的已知转录本。

其次，人类基因组中约有55％的重复序列，由于含有大量简单重复序列，在与参考基因组比对时，这部分短读序列经常会比对到基因组上错误的位置，进而影响基于比对结果的转录本组装，因此需要将重复序列进行去除。具体地，利用软件RepeatMasker对转录本序列进行评估，然后去除肿瘤样品和正常对照样品中含有重复序列的转录本。

S04，预测翻译起始密码子

具体地，首先利用软件CPAT计算肿瘤样品和正常对照样品的新转录本编码能力，根据编码能力的强弱分为蛋白编码转录本和非蛋白编码转录本；其次，预测肿瘤样品和正常对照样品中蛋白编码转录本的翻译起始密码子。

S05，翻译转录本

具体地，利用自主开发的软件根据预测的翻译起始密码子对肿瘤样品和正常对照样品中有编码能力的新转录本进行翻译，得到蛋白序列。类似地，也可以利用软件ORFfinder或者getorf对新转录本进行翻译得到蛋白序列。

S06，获取肿瘤特有全长新转录本蛋白序列

肿瘤特有蛋白序列是指仅在肿瘤样品中翻译表达、正常对照样品中不表达的蛋白。具体的，利用自主开发的软件对比肿瘤样品以及正常对照样品翻译得到的蛋白序列，遍历瘤样品蛋白序列，获取不能在正常对照中搜寻得到的肿瘤样品特有蛋白序列。

S07，获取肿瘤特有部分序列差异新转录本蛋白序列

除S06获得的全长新转录本蛋白序列之外，肿瘤样品中还存在与正常对照样品转录本有部分序列差异的新转录本。这类新转录本可能是由于剪切方式不同、插入删除变异等导致的。其翻译结果通常表现为部分蛋白序列仅在肿瘤样品中存在，这样的部分差异蛋白序列也有可能形成新抗原。具体地，首先过滤肿瘤样品特有蛋白，然后利用自主开发的软件将所有过滤得到的新转录蛋白和正常对照样品对应的所有转录本蛋白序列进行比对。比对结果中与正常对照样本不一致的序列将被定义为肿瘤特有部分序列差异新转录本蛋白序列。

S08，合并蛋白片段

具体地，将S06得到的肿瘤特有全长新转录本蛋白序列以及S07得到的肿瘤特有部分序列差异新转录本蛋白序列进行合并，并过滤长度小于9的序列。

S09，蛋白片段分割

具体地，将上一步得到的蛋白序列分割成长度较小的k-mer。k-mer是指一个字符串包含的所有可能的长度为k的子字符串集，对于一条输入蛋白序列而言，从第一个氨基酸残基开始，采用步长为1的滑动窗依次提取固定长度k的序列，这些序列就是k-mer。更具体地，利用自主开发的软件将S08得到的蛋白序列分割成长度为9到12个氨基酸的k-mer。

S10，人类白细胞抗原基因分型

人的白细胞抗原基因为6号染色体短臂一段参与免疫反应的多态性区域，是基因中等位基因多态性最高的基因复合体，所编码的MHC I类分子主要介导CD8+T细胞对抗原的识别和扑杀，II类分子则主要与CD4+T细胞结合，从而启动免疫应答。不同HLA亚型分子对同一多肽的亲和力可能不同，因此确定样品的HLA亚型是做HLA和候选新抗原结合筛选的前提条件。具体的，利用软件HLA-LA对正常对照样品的人类白细胞抗原进行基因分型。

S11，肽段亲和力预测

肿瘤细胞表达的突变蛋白不被正常细胞表达，这些异常蛋白质序列在胞内被蛋白酶体加工成短肽，然后再被人类白细胞抗原结合，呈递到细胞表面上，从而作为外来抗原被T细胞识别。通过算法预测特定HLA亚型与多肽之间的亲和性，筛选出与HLA分子亲和性强的肽段。具体地，利用软件NetMHCpan 4.0预测S09分割之后的k-mer残基肽段与HLA分子的亲和力，选取亲和力大于阈值(通常<500nm)的为候选新抗原。

S12，质谱验证

具体地，将肿瘤样品进行质谱实验分析，将产生的数据导入MaxQuant软件，添加候选新抗原为搜索库，最终能成功鉴定得到的肽段即为新抗原。

本发明所用软件具体提参数如下：

使用Trimmomatic进行原始数据的过滤，其示例命令为：

其中，trimmomatic-0.36.jar为Trimmomatic工具可执行文件，PE指明为双端测序，phred33指明碱基的质量格式，sample_1.fastq.gz与sample_2.fastq.gz为输入的原始数据，sample.clean.R1.fq.gz、sample.unpaired.R1.fq.gz、sample.clean.R2.fq.gz和sample.unpaired.R2.fq.gz是输出数据，ILLUMINACLIP:adapter.fa:2:30:10:8:true表示切除测序引物序列，参数后面分别接接头序列文件、允许的最大错配数、palindrome模式下匹配碱基数阈值、simple模式下的匹配碱基数阈值；LEADING指明切除首端碱基质量小于20的碱基；TRAILING指明切除末端碱基质量小于20的碱基；MINLEN指明最小的序列长度。

使用HISAT构建基因组索引，首先分别提取基因组注释文件中的剪切位点以及外显子序列，然后再构建基因组索引，其示例命令为：

其中hg38.fa为人类基因组序列，gencode.annotation.gtf为人类基因组注释文件。extract_splice_sites.py、extract_exons.py以及hisat2-build为HISAT2软件包中所包含的软件。

使用HISAT2对序列进行比对，其示例命令为：

其中hg38表示已经构建好的参考基因组索引，比对之后使用SAMtools工具对比对结果进行排序。samtools view表示SAMtools工具的view命令，此处用于对结果做进一步的筛选。

使用StringTie进行转录本组装，其示例命令为：

其中gencode.annotation.gtf为人类基因组注释文件。

使用RepeatMasker去除重复序列的转录本，其示例命令为：

其中首先利用软件bedtools提取已经构建好的转录本序列，然后再利用RepeatMasker标记其中的重复序列。

使用CPAT对转录本进行编码能力预测，其示例命令为：

其中-d和-x参数对应为软件构建好的模型，-o是预测结果文件。

使用自主开发软件对转录本进行翻译，其示例命令为：

使用自主开发软件寻找差异蛋白序列，其示例命令为：

其中-t是肿瘤样品的蛋白序列，-n是正常样品的蛋白序列，-out1是仅在肿瘤样品中表达的蛋白序列，-out2是正常样品和肿瘤样品中均有表达但序列有所差异的蛋白的差异部分序列。

使用HLA-LA进行HLA基因分型，其示例命令为：

其中--graph PRG_MHC_GRCh38_withIMGT指明群体基因结构索引文件，可以通过HLA-LA程序本身构建，也可以通过程序提供的下载页面进行下载。

使用netMHCpan 4.0进行肽段亲和力预测，其示例命令为：

其中-BA指明将进行二分类预测，-l指明肽段长度，-a指明HLA基因型，-inptype指明输入的是HAL基因型，-xls以及-xlsfile共同指明输出文件。

使用MaxQuant进行质谱验证，导入样品的质谱数据之后，设定Digestion mode为No digestion，Global Fasta File为候选的新抗原Fasta文件。

以上对本发明优选的具体实施方式和实施例作了详细说明，但是本发明并不限于上述实施方式和实施例，在本领域技术人员所具备的知识范围内，还可以在不脱离本发明构思的前提下作出各种变化。

Claims

1.基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法，包括以下步骤：

S01，转录组深度测序数据比对；

S02，转录本组装；

S03，转录本过滤；

S04，预测翻译起始密码子；

S05，翻译转录本；

S06，获取肿瘤特有全长新转录本蛋白序列；

S07，获取肿瘤特有部分序列差异新转录本蛋白序列；

S08，合并蛋白片段；

S09，蛋白片段分割；

S10，人类白细胞抗原基因分型；

S11，肽段亲和力预测；

S01中，包括以下步骤：

S102，过滤肿瘤样品和正常对照样品全转录组深度测序数据；

S103，对参考基因组构建索引；

S104，将S102得到的过滤之后的数据对S103得到的参考基因组进行比对；

S02中，将已经将短读序列定位到参考基因组的全转录组深度测序数据对比结果组装为转录本；

S06中，对比肿瘤样品以及正常对照样品翻译得到的蛋白序列，遍历肿瘤样品蛋白序列，获取不能在正常对照中搜寻得到的肿瘤样品特有蛋白序列；

S07中，包括以下步骤：

S701，过滤肿瘤样品特有蛋白；

S702，将所有过滤得到的新转录蛋白和正常对照样品对应的所有转录本蛋白序列进行比对，比对结果中与正常对照样本不一致的序列将被定义为肿瘤特有部分序列差异新转录本蛋白序列；

S08中，将S06得到的肿瘤特有全长新转录本蛋白序列以及S07得到的肿瘤特有部分序列差异新转录本蛋白序列进行合并，并过滤长度小于9的序列。

2.根据权利要求1所述的方法，其特征在于，还包括，S12，质谱验证。

3.根据权利要求1所述的方法，其特征在于，S101中，采用去核糖体链特异性建库方法和小片段富集筛选建库方法建库测序。

4.根据权利要求1所述的方法，其特征在于，S101中，样本数据中包括多个重叠或部分重叠的短读序列，肿瘤样品以及正常对照样品测序数据均不小于30G。

5.根据权利要求1所述的方法，其特征在于，S102中，去除其中平均碱基质量低于20或者包含测序引物接头的短读序列。

6.根据权利要求1-5任一所述的方法，其特征在于，S03中，去除组装得到的转录本中存在的已知人类全长转录本和重复序列。

7.根据权利要求1-5任一所述的方法，其特征在于，S04中，包括以下步骤：

8.根据权利要求1-5任一所述的方法，其特征在于，S05中，根据预测的翻译起始密码子对肿瘤样品和正常对照样品中有编码能力的新转录本进行翻译，得到蛋白序列。

9.根据权利要求1-5任一所述的方法，其特征在于，S09中，将S08得到的蛋白序列分割；

和/或，S11中，预测S09分割之后的k-mer残基肽段与HLA分子的亲和力，选取亲和力大于阈值的为候选新抗原；

和/或，S12中，将肿瘤样品进行质谱实验分析，将产生的数据导入MaxQuant软件，添加候选新抗原为搜索库，最终能成功鉴定得到的肽段即为新抗原。

10.根据权利要求9所述的方法，其特征在于，S09中，将S08得到的蛋白序列分割，分割成长度为9到12个氨基酸的k-mer残基肽段。

11.根据权利要求1-10任一所述的方法在制备提取免疫治疗新抗原的药品或医疗器械中的应用。