CN111599410B

CN111599410B - 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用

Info

Publication number: CN111599410B
Application number: CN202010427503.2A
Authority: CN
Inventors: 万季; 汪健; 徐韵婉; 潘有东; 王弈; 宋麒
Original assignee: Shenzhen Neocura Biotechnology Corp
Current assignee: Shenzhen Neocura Biotechnology Corp
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-06-13
Anticipated expiration: 2040-05-20
Also published as: CN111599410A; US20210363589A1

Abstract

本发明公开了一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用。该方法包括以下步骤：S1，通过整合患者DNA和RNA的测序数据，精确检测出患者的MSI；S2，对检测到的MSI所影响的开放阅读框进行翻译，得到MSI蛋白质组；S3，通过与人类正常蛋白组比较，获取样本特异蛋白质组；S4，获取样本新抗原。从MSI检测的准确度上讲，本发明整合了患者基因组和转录组的测序数据，通过对这两种来源的数据进行分析和整合，降低了MSI检测的假阳性率，进而提高了由MSI预测的新抗原疫苗的有效性，对临床免疫治疗效果的提升具有重要意义。

Description

一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用

技术领域

本发明涉及肿瘤免疫治疗领域，具体涉及整合DNA的全外显子数据和RNA的转录组数据提取微卫星不稳定性(MSI)相关的免疫治疗新抗原的方法。

背景技术

人体的免疫系统在肿瘤的疗愈过程中发挥着重要的作用。近年来围绕免疫系统所开发的肿瘤免疫治疗技术屡屡获得疗效上的突破。在机理方面，免疫治疗技术通过修饰T细胞以激活免疫系统或者抑制免疫系统的抑制通路，从而达到增强免疫系统识别和杀伤肿瘤细胞的效果。在众多类别的免疫治疗技术中，肿瘤治疗新抗原疫苗凭借其疗效显著，适用癌种丰富，开发周期短和副作用小等特点获得了广泛的探索和开发。新抗原疫苗的原理是将10到20条可能激起免疫原性反应的短肽回输人体，从而使得能识别该类短肽的T细胞增殖。由于该类短肽对应的是肿瘤细胞表面的新抗原，因此便可以增强T细胞杀伤肿瘤细胞的能力，从而达到治疗肿瘤的目。新抗原序列的预测需要借助针对组织DNA和RNA的高通量测序数据以及生物信息和人工智能技术。通用的流程是鉴定DNA的点突变和小插入缺失片段，并利用转录组数据确认突变的表达情况，并最终利用编码框翻译和整合新抗原相关的多类信息来确定新抗原是否能激起免疫原性反应。然而在细胞体内，能生成新抗原的通路不限于DNA点突变和插入缺失。微卫星不稳定(MSI)所导致的DNA重复序列也是肿瘤细胞生成突变多肽的常见来源。然而鉴于仅基于DNA的MSI预测的假阳性率很高，临床上要求更加多样的数据和严格的筛选流程来确保新抗原的有效性。因此开发高精度的基于MSI的新抗原预测方法便具有重要的意义。

发明内容

针对上述问题，本发明综合考虑了肿瘤组织中微卫星插入缺失产生的多肽成为新抗原的可能性，开发了一种获取肿瘤特异性新抗原的生物信息学方法。

本发明的第一方面在于提供一种整合多组学数据提取微卫星不稳定(MSI)免疫治疗新抗原的方法，包括以下步骤：

S1，通过整合患者DNA和RNA的测序数据，检测出患者的MSI；

S2，对检测到的MSI所影响的开放阅读框进行翻译，得到MSI蛋白质组；

S3，通过与人类正常蛋白组比较，获取样本特异蛋白质组；

S4，获取样本新抗原。

在一些实施方式中，所述S1步骤，包括以下步骤：

S101，从tumor-normal配对的DNA测序数据中获取候选的MSI；

S102，利用该患者的RNA测序数据对S101得到的MSI进行验证，得到验证之后的MSI。

在一些实施方式中，所述S101包括以下步骤：

S1011，对Tumor和Normal的测序数据进行预处理，包括：滤除低质量的reads，比对，去除PCR重复步骤；

S1012，利用Tumor和Normal的预处理之后的bam作为输入，使用MSI检测工具检测出患者的肿瘤MSI。

在一些实施方式中，所述S102包括以下步骤：

S1021，对RNA测序数据进行预处理，包括去除低质量的reads，去除adapter，比对步骤；

S1022，结合上一步的RNA比对结果，对S101中的检测结果进行一一验证，得到验证后的MSI突变。

在一些实施方式中，所述S2步骤，包括以下步骤：

S201，对经RNA数据验证之后的MSI序列进行阅读框翻译，获取MSI蛋白质序列，即MSI蛋白质组；

S202，将MSI蛋白质片段化处理。

在一些实施方式中，所述S3步骤中，在人类正常蛋白组中查找片段化处理之后得到的所有肽段，滤除在人类正常蛋白组中出现的肽段，得到全新的候选抗原肽。

在一些实施方式中，所述S4步骤，包括以下步骤：

S401，利用S1中DNA预处理之后得到的BAM文件，对该样本的人类白细胞抗原进行基因分型；

S402，预测S3中得到的所有全新的候选抗原肽与样本特异的HLA分子的亲和力；

S403，基于肽段整合信息筛选样本新抗原。

在一些实施方式中，所述S403步骤，用不同的指标以相应的权重对候选新抗原进行排序筛选，得到最终的肿瘤特异MSI新抗原；

在一些实施方式中，具体的指标选自肽段与HLA亲和力、RNA测序中包含MSI的转录本的表达量、以及正常转录本的表达量、DNA测序的Tumor和Normal两个样本中支持MSI的reads数目、肽段的物理化学性质中的一种或多种。

本发明的第二方面在于提供根据第一方面所述的方法在整合多组学数据提取微卫星不稳定免疫治疗新抗原中的应用。

与现有技术相比，本发明的方案具有如下优势：

1、从新抗原的来源上讲，当前常用的方法主要是通过识别体细胞DNA点突变和小插入缺失得到新抗原，而通过本发明方案发现的肿瘤特异新抗原来自于在多种肿瘤中广泛存在的MSI。因此本发明扩展了新抗原的筛选范围，充实了基于新抗原的免疫治疗方法的“弹药库”。

2、从MSI检测的准确度上讲，本发明整合了患者基因组全外显子组和转录组的测序数据，通过对这两种来源的数据进行分析和整合，降低了MSI检测的假阳性率，进而提高了由MSI预测的新抗原疫苗的有效性，对临床免疫治疗效果的提升具有重要意义。

附图说明

图1为本发明一种实施方式的整合DNA和RNA二代测序数据检测微卫星不稳定性(MSI)相关的免疫治疗新抗原的方法的流程图，图中长方形及箭头上的文字为处理步骤，丝带形的部分为文件。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

在进一步描述本发明具体实施方式之前，应理解，本发明的保护范围不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。

为使本领域技术人员更好地理解本发明，下面参照附图对本发明的实施进行详细说明。本文具体实施中所用的“首先”、“其次”、“再次”、“然后”、“接下来”等表达并不旨在对先后顺序进行限定。

实施例1

如图1所示，S1部分是本发明实施例的由计算机实现的基于外显子组测序获取肿瘤组织基因组MSI的流程图。该方法包括由计算机执行的以下步骤：

S101，从tumor-normal配对的DNA测序数据中获取可能的MSI。

S1011，分别对Tumor DNA测序数据和Normal DNA测序数据进行预处理；

在此预处理步骤中，主要目的为去除测序数据中的PCR重复，使得结果更加准确，并生成bam比对文件供后续分析。同时，可选步骤为去除测序平均质量值低于30或20的reads。

优选地，本发明中所述获取样本的基因组数据基于全外显子测序。

优选地，本发明中所述样本的转录组数据基于转录组测序。

优选地，在bam文件水平上对测序数据进行去重。

优选地，使用bwa软件对测序的fastq文件进行比对得到bam文件，再使用picard软件对bam文件进行去重。

命令行及参数：

1.bwa比对

2.picard去重

S1012，基于MSMutect提供的分析方法对经过预处理的Tumor和Normal的数据检测样本中的肿瘤特异MSI。

在此步骤中，根据MSMuTect提供的方案，首先利用phobos分别提取人类参考基因组中微卫星位点的序列和测序数据中存在微卫星序列的reads，将数据范围缩小，以提高结果准确度并减小计算量；然后使用MSMuTect核心程序检测肿瘤特异的MSI。

优选地，在这一步需要滤除发生在外显子之外的MSI，或者使用自动滤除外显子之外的MSI的检测工具(如MSMuTect)。

操作步骤：

1提取人类完整参考基因组中的微卫星不稳定区域序列并构建索引

(1)提取人类完整参考基因组中的微卫星不稳定区域序列

这一步骤的目的将人类基因组中微卫星位点的上游和下游的flanking碱基拼接到一起作为参考序列，重复片段本身不包含在内。具体操作如下：

a利用软件phobos检测人类基因组的微卫星不稳定区域。要求输出格式为one-per-line格式，且包含微卫星不稳定区域5'端上游和3'端下游各100bp的序列。

b编写脚本，将上一步得到的phobos的结果转换成fasta文件格式。

要求：

保留微卫星不稳定区域位于外显子的记录；

只将重复区域上下游的flanking区域拼接到一起，序列组成为：上游flanking区域+下游flanking区域，重复片段本身不包含在内；

按照重复单元的类型将不同的MSI进行分类放到相应的fasta文件中。

优选地，人类参考基因组选择GRCh38版本。

优选地，flanking区域的长度设置为上下游各100bp。

优选地，根据MSMuTect提供的方案，只关注四种典型的重复单元：A，C，AC，AG。

(2)构建微卫星区域参考序列的序列索引

对上一步得到的每一种重复单元的fasta格式的参考序列文件，均用bowtie2-build命令构建索引。

2提取测序数据中含有微卫星序列的reads并比对到微卫星参考序列

对Tumor和Normal的bam文件都经过如下的处理，得到相应的aln格式比对文件。

(1)利用bedtools将bam文件转换成fastq格式；

(2)将fastq格式数据转换成fasta格式

编写脚本，将预处理之后的得到的fastq测序数据转换成fasta格式。

(3)利用phobos提取含有微卫星序列的reads

(4)将phobos的结果转换成fasta格式

这一步骤的具体操作与提取基因组微卫星序列中的操作类似，将微卫星区域的上下游的flanking区域拼接到一起，要求上游和下游序列长度至少为10bp。

(5)比对到微卫星参考序列

使用序列比对软件bowtie2，按照不同的重复单元，将上一步得到的序列比对到对应的由第1步生成的索引中。

3检测微卫星变异

使用MSMutect对上一步得到的Tumor和Normal的aln格式比对文件进行检测肿瘤组织特有的微卫星不稳定变异。

命令行及参数：

1 bam文件格式转fastq文件格式

2构建微卫星不稳定区域的序列索引，其示例命令为：

3使用phobos检测人类基因组版本GRCh38的微卫星不稳定区域，其示例命令为：

S1021，对RNA测序数据进行预处理，得到BAM文件；

在此步骤中，主要目的为得到比对后的bam文件，略去数据质控和去除adapter等基础操作的详细描述。

优选地，选取STAR作为比对软件。

优选地，比对时人类参考基因组选择GRCh38版本。

命令行及参数：

1.STAR比对

/>

S1022，编写脚本对S101得到的微卫星变异进行验证，得到验证之后的MSI。

对S101步骤的每一条检测结果，进行如下步骤的验证：

1首先，构建这条检测结果所对应的微卫星等位基因序列。

根据这条检测结果的坐标，复原患者的微卫星等位基因序列：10bp上游序列+重复区域(检测出的重复单元×重复数)+10bp下游序列。

2然后，验证从DNA数据中得到的微卫星变异序列是否在RNA数据中表达。

根据这条检测结果的坐标，从转录组测序比对文件中提取出比对到这个区域的所有reads；

检查1中构建出的变异序列是否在这些reads中出现，且计算包含该变异序列的reads数。

图1中S2部分是获取MSI的蛋白质组的操作流程，包括以下步骤：

首先，对于验证通过的微卫星不稳定变异区域，确定能够让其得到转录的所有的开放阅读框；

然后，构建突变转录本并翻译成突变蛋白质序列。

S202，将MSI蛋白质片段化处理。

把突变肽段剪切成小片段多肽，作为肿瘤特异微卫星不稳定变异的候选新抗原肽段。

片段化处理的具体操作过程如下：

对MSI蛋白质上能够产生新抗原肽的部分，进行有重叠区域的滑窗处理。如一段含有30个氨基酸的可能产生新抗原肽的蛋白质序列，设置肽段长度为9，选取的肽段为：1-9，2-10，3-11，……，22-30。

优选地，默认设置的肽段长度为9到12个氨基酸。

优选地，在阅读框翻译到MSI的位置时需判断是否发生移框翻译，若发生移框翻译，则MSI之后的所有蛋白序列均为潜在的新抗原肽的来源，若未发生移框翻译，则只有MSI内部及附近的序列能产生新抗原肽。

图1的S3部分是本发明对患者肿瘤中的MSI产生的抗原进行过滤的分析流程，包括以下步骤：

在人类正常蛋白组中查找片段化处理之后得到的所有肽段，滤除在人类正常蛋白组中的出现的肽段，得到全新的候选抗原肽。

选择Ensembl发布的release 98版本作为人类正常蛋白组。

图1的S4部分是本发明对患者肿瘤中的MSI产生的新抗原进行筛选的分析流程，包括以下步骤：

S401，鉴定人类白细胞抗原(HLA)分子分型。

利用HLA基因分型软件HLA-LA计算人类白细胞抗原基因型。

示例命令如下：

S402，预测肽段亲和力。

利用软件netMHCpan-4.0以及人类白细胞抗原(HLA)基因分型结果对S3步骤生成的来自于患者肿瘤MSI的特异肽段进行亲和力预测。

示例命令为：

S403，基于肽段整合信息筛选样本新抗原。

编写脚本，整合肽段信息，用不同的指标以相应的权重对候选新抗原进行排序筛选，获得最终的肿瘤特异MSI新抗原。

具体地，首先明确每个候选肽段的来源，包括开放阅读框的基因名以及对应的转录本编号，并注释肽段与HLA分子的亲和力，RNA测序中包含MSI的转录本的表达量，以及正常转录本的表达量，DNA测序的Tumor和Normal两个样本中支持MSI的reads数目，以及肽段在融合蛋白质序列中的具体位置等信息。

在筛选阶段，用不同的指标以相应的权重对候选新抗原进行排序筛选，得到最终的肿瘤特异MSI新抗原。具体的指标包括肽段与HLA亲和力，RNA测序中包含MSI的转录本的表达量，以及正常转录本的表达量，DNA测序的Tumor和Normal两个样本中支持MSI的reads数目，肽段的物理化学性质等。

以上对本发明优选的具体实施方式和实施例作了详细说明，但是本发明并不限于上述实施方式和实施例，在本领域技术人员所具备的知识范围内，还可以在不脱离本发明构思的前提下作出各种变化。

Claims

1.一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法，包括以下步骤：

S1，通过整合患者DNA和RNA的测序数据，检测出患者的MSI；

S3，通过与人类正常蛋白组比较，获取样本特异蛋白质组；

S4，获取样本新抗原；

所述S1，包括以下步骤：

S101，从tumor-normal配对的DNA测序数据中获取候选的MSI；

S102，利用该患者的RNA测序数据对S101得到的MSI进行验证，得到验证之后的MSI；

所述S2，包括以下步骤：

S202，将MSI蛋白质片段化处理；

所述S3中，在人类正常蛋白组中查找片段化处理之后得到的所有肽段，滤除在人类正常蛋白组中出现的肽段，得到全新的候选抗原肽；

所述S4，包括以下步骤：

S403，基于肽段整合信息筛选样本新抗原。

2.根据权利要求1所述的方法，其特征在于，所述S101包括以下步骤：

S1011，对Tumor和Normal的测序数据进行预处理，包括：滤除低质量低的reads，比对，去除PCR重复步骤；

3.根据权利要求1或2所述的方法，其特征在于，所述S102包括以下步骤：

4.根据权利要求1或2所述的方法，其特征在于，所述S403，用不同的指标以相应的权重对候选新抗原进行排序筛选，得到最终的肿瘤特异MSI新抗原。

5.根据权利要求4所述的方法，其特征在于，具体的指标选自肽段与HLA亲和力、RNA测序中包含MSI的转录本的表达量、以及正常转录本的表达量、DNA测序的Tumor和Normal两个样本中支持MSI的reads数目、肽段的物理化学性质中的一种或多种。

6.根据权利要求1-5任一所述的方法在整合多组学数据提取微卫星不稳定免疫治疗新抗原中的应用。