CN111599410B - 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用 - Google Patents

一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用 Download PDF

Info

Publication number
CN111599410B
CN111599410B CN202010427503.2A CN202010427503A CN111599410B CN 111599410 B CN111599410 B CN 111599410B CN 202010427503 A CN202010427503 A CN 202010427503A CN 111599410 B CN111599410 B CN 111599410B
Authority
CN
China
Prior art keywords
msi
proteome
data
tumor
steps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010427503.2A
Other languages
English (en)
Other versions
CN111599410A (zh
Inventor
万季
汪健
徐韵婉
潘有东
王弈
宋麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Neocura Biotechnology Corp
Original Assignee
Shenzhen Neocura Biotechnology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Neocura Biotechnology Corp filed Critical Shenzhen Neocura Biotechnology Corp
Priority to CN202010427503.2A priority Critical patent/CN111599410B/zh
Priority to US16/992,113 priority patent/US20210363589A1/en
Publication of CN111599410A publication Critical patent/CN111599410A/zh
Application granted granted Critical
Publication of CN111599410B publication Critical patent/CN111599410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用。该方法包括以下步骤:S1,通过整合患者DNA和RNA的测序数据,精确检测出患者的MSI;S2,对检测到的MSI所影响的开放阅读框进行翻译,得到MSI蛋白质组;S3,通过与人类正常蛋白组比较,获取样本特异蛋白质组;S4,获取样本新抗原。从MSI检测的准确度上讲,本发明整合了患者基因组和转录组的测序数据,通过对这两种来源的数据进行分析和整合,降低了MSI检测的假阳性率,进而提高了由MSI预测的新抗原疫苗的有效性,对临床免疫治疗效果的提升具有重要意义。

Description

一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方 法和应用
技术领域
本发明涉及肿瘤免疫治疗领域,具体涉及整合DNA的全外显子数据和RNA的转录组数据提取微卫星不稳定性(MSI)相关的免疫治疗新抗原的方法。
背景技术
人体的免疫系统在肿瘤的疗愈过程中发挥着重要的作用。近年来围绕免疫系统所开发的肿瘤免疫治疗技术屡屡获得疗效上的突破。在机理方面,免疫治疗技术通过修饰T细胞以激活免疫系统或者抑制免疫系统的抑制通路,从而达到增强免疫系统识别和杀伤肿瘤细胞的效果。在众多类别的免疫治疗技术中,肿瘤治疗新抗原疫苗凭借其疗效显著,适用癌种丰富,开发周期短和副作用小等特点获得了广泛的探索和开发。新抗原疫苗的原理是将10到20条可能激起免疫原性反应的短肽回输人体,从而使得能识别该类短肽的T细胞增殖。由于该类短肽对应的是肿瘤细胞表面的新抗原,因此便可以增强T细胞杀伤肿瘤细胞的能力,从而达到治疗肿瘤的目。新抗原序列的预测需要借助针对组织DNA和RNA的高通量测序数据以及生物信息和人工智能技术。通用的流程是鉴定DNA的点突变和小插入缺失片段,并利用转录组数据确认突变的表达情况,并最终利用编码框翻译和整合新抗原相关的多类信息来确定新抗原是否能激起免疫原性反应。然而在细胞体内,能生成新抗原的通路不限于DNA点突变和插入缺失。微卫星不稳定(MSI)所导致的DNA重复序列也是肿瘤细胞生成突变多肽的常见来源。然而鉴于仅基于DNA的MSI预测的假阳性率很高,临床上要求更加多样的数据和严格的筛选流程来确保新抗原的有效性。因此开发高精度的基于MSI的新抗原预测方法便具有重要的意义。
发明内容
针对上述问题,本发明综合考虑了肿瘤组织中微卫星插入缺失产生的多肽成为新抗原的可能性,开发了一种获取肿瘤特异性新抗原的生物信息学方法。
本发明的第一方面在于提供一种整合多组学数据提取微卫星不稳定(MSI)免疫治疗新抗原的方法,包括以下步骤:
S1,通过整合患者DNA和RNA的测序数据,检测出患者的MSI;
S2,对检测到的MSI所影响的开放阅读框进行翻译,得到MSI蛋白质组;
S3,通过与人类正常蛋白组比较,获取样本特异蛋白质组;
S4,获取样本新抗原。
在一些实施方式中,所述S1步骤,包括以下步骤:
S101,从tumor-normal配对的DNA测序数据中获取候选的MSI;
S102,利用该患者的RNA测序数据对S101得到的MSI进行验证,得到验证之后的MSI。
在一些实施方式中,所述S101包括以下步骤:
S1011,对Tumor和Normal的测序数据进行预处理,包括:滤除低质量的reads,比对,去除PCR重复步骤;
S1012,利用Tumor和Normal的预处理之后的bam作为输入,使用MSI检测工具检测出患者的肿瘤MSI。
在一些实施方式中,所述S102包括以下步骤:
S1021,对RNA测序数据进行预处理,包括去除低质量的reads,去除adapter,比对步骤;
S1022,结合上一步的RNA比对结果,对S101中的检测结果进行一一验证,得到验证后的MSI突变。
在一些实施方式中,所述S2步骤,包括以下步骤:
S201,对经RNA数据验证之后的MSI序列进行阅读框翻译,获取MSI蛋白质序列,即MSI蛋白质组;
S202,将MSI蛋白质片段化处理。
在一些实施方式中,所述S3步骤中,在人类正常蛋白组中查找片段化处理之后得到的所有肽段,滤除在人类正常蛋白组中出现的肽段,得到全新的候选抗原肽。
在一些实施方式中,所述S4步骤,包括以下步骤:
S401,利用S1中DNA预处理之后得到的BAM文件,对该样本的人类白细胞抗原进行基因分型;
S402,预测S3中得到的所有全新的候选抗原肽与样本特异的HLA分子的亲和力;
S403,基于肽段整合信息筛选样本新抗原。
在一些实施方式中,所述S403步骤,用不同的指标以相应的权重对候选新抗原进行排序筛选,得到最终的肿瘤特异MSI新抗原;
在一些实施方式中,具体的指标选自肽段与HLA亲和力、RNA测序中包含MSI的转录本的表达量、以及正常转录本的表达量、DNA测序的Tumor和Normal两个样本中支持MSI的reads数目、肽段的物理化学性质中的一种或多种。
本发明的第二方面在于提供根据第一方面所述的方法在整合多组学数据提取微卫星不稳定免疫治疗新抗原中的应用。
与现有技术相比,本发明的方案具有如下优势:
1、从新抗原的来源上讲,当前常用的方法主要是通过识别体细胞DNA点突变和小插入缺失得到新抗原,而通过本发明方案发现的肿瘤特异新抗原来自于在多种肿瘤中广泛存在的MSI。因此本发明扩展了新抗原的筛选范围,充实了基于新抗原的免疫治疗方法的“弹药库”。
2、从MSI检测的准确度上讲,本发明整合了患者基因组全外显子组和转录组的测序数据,通过对这两种来源的数据进行分析和整合,降低了MSI检测的假阳性率,进而提高了由MSI预测的新抗原疫苗的有效性,对临床免疫治疗效果的提升具有重要意义。
附图说明
图1为本发明一种实施方式的整合DNA和RNA二代测序数据检测微卫星不稳定性(MSI)相关的免疫治疗新抗原的方法的流程图,图中长方形及箭头上的文字为处理步骤,丝带形的部分为文件。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
在进一步描述本发明具体实施方式之前,应理解,本发明的保护范围不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。
为使本领域技术人员更好地理解本发明,下面参照附图对本发明的实施进行详细说明。本文具体实施中所用的“首先”、“其次”、“再次”、“然后”、“接下来”等表达并不旨在对先后顺序进行限定。
实施例1
如图1所示,S1部分是本发明实施例的由计算机实现的基于外显子组测序获取肿瘤组织基因组MSI的流程图。该方法包括由计算机执行的以下步骤:
S101,从tumor-normal配对的DNA测序数据中获取可能的MSI。
S1011,分别对Tumor DNA测序数据和Normal DNA测序数据进行预处理;
在此预处理步骤中,主要目的为去除测序数据中的PCR重复,使得结果更加准确,并生成bam比对文件供后续分析。同时,可选步骤为去除测序平均质量值低于30或20的reads。
优选地,本发明中所述获取样本的基因组数据基于全外显子测序。
优选地,本发明中所述样本的转录组数据基于转录组测序。
优选地,在bam文件水平上对测序数据进行去重。
优选地,使用bwa软件对测序的fastq文件进行比对得到bam文件,再使用picard软件对bam文件进行去重。
命令行及参数:
1.bwa比对
Figure BDA0002499232900000041
2.picard去重
Figure BDA0002499232900000042
Figure BDA0002499232900000051
S1012,基于MSMutect提供的分析方法对经过预处理的Tumor和Normal的数据检测样本中的肿瘤特异MSI。
在此步骤中,根据MSMuTect提供的方案,首先利用phobos分别提取人类参考基因组中微卫星位点的序列和测序数据中存在微卫星序列的reads,将数据范围缩小,以提高结果准确度并减小计算量;然后使用MSMuTect核心程序检测肿瘤特异的MSI。
优选地,在这一步需要滤除发生在外显子之外的MSI,或者使用自动滤除外显子之外的MSI的检测工具(如MSMuTect)。
操作步骤:
1提取人类完整参考基因组中的微卫星不稳定区域序列并构建索引
(1)提取人类完整参考基因组中的微卫星不稳定区域序列
这一步骤的目的将人类基因组中微卫星位点的上游和下游的flanking碱基拼接到一起作为参考序列,重复片段本身不包含在内。具体操作如下:
a利用软件phobos检测人类基因组的微卫星不稳定区域。要求输出格式为one-per-line格式,且包含微卫星不稳定区域5'端上游和3'端下游各100bp的序列。
b编写脚本,将上一步得到的phobos的结果转换成fasta文件格式。
要求:
保留微卫星不稳定区域位于外显子的记录;
只将重复区域上下游的flanking区域拼接到一起,序列组成为:上游flanking区域+下游flanking区域,重复片段本身不包含在内;
按照重复单元的类型将不同的MSI进行分类放到相应的fasta文件中。
优选地,人类参考基因组选择GRCh38版本。
优选地,flanking区域的长度设置为上下游各100bp。
优选地,根据MSMuTect提供的方案,只关注四种典型的重复单元:A,C,AC,AG。
(2)构建微卫星区域参考序列的序列索引
对上一步得到的每一种重复单元的fasta格式的参考序列文件,均用bowtie2-build命令构建索引。
2提取测序数据中含有微卫星序列的reads并比对到微卫星参考序列
对Tumor和Normal的bam文件都经过如下的处理,得到相应的aln格式比对文件。
(1)利用bedtools将bam文件转换成fastq格式;
(2)将fastq格式数据转换成fasta格式
编写脚本,将预处理之后的得到的fastq测序数据转换成fasta格式。
(3)利用phobos提取含有微卫星序列的reads
(4)将phobos的结果转换成fasta格式
这一步骤的具体操作与提取基因组微卫星序列中的操作类似,将微卫星区域的上下游的flanking区域拼接到一起,要求上游和下游序列长度至少为10bp。
(5)比对到微卫星参考序列
使用序列比对软件bowtie2,按照不同的重复单元,将上一步得到的序列比对到对应的由第1步生成的索引中。
3检测微卫星变异
使用MSMutect对上一步得到的Tumor和Normal的aln格式比对文件进行检测肿瘤组织特有的微卫星不稳定变异。
命令行及参数:
1 bam文件格式转fastq文件格式
Figure BDA0002499232900000061
2构建微卫星不稳定区域的序列索引,其示例命令为:
Figure BDA0002499232900000071
3使用phobos检测人类基因组版本GRCh38的微卫星不稳定区域,其示例命令为:
Figure BDA0002499232900000072
S102,利用该患者的RNA测序数据对S101得到的MSI进行验证,得到验证之后的MSI。
S1021,对RNA测序数据进行预处理,得到BAM文件;
在此步骤中,主要目的为得到比对后的bam文件,略去数据质控和去除adapter等基础操作的详细描述。
优选地,选取STAR作为比对软件。
优选地,比对时人类参考基因组选择GRCh38版本。
命令行及参数:
1.STAR比对
Figure BDA0002499232900000081
/>
Figure BDA0002499232900000091
S1022,编写脚本对S101得到的微卫星变异进行验证,得到验证之后的MSI。
对S101步骤的每一条检测结果,进行如下步骤的验证:
1首先,构建这条检测结果所对应的微卫星等位基因序列。
根据这条检测结果的坐标,复原患者的微卫星等位基因序列:10bp上游序列+重复区域(检测出的重复单元×重复数)+10bp下游序列。
2然后,验证从DNA数据中得到的微卫星变异序列是否在RNA数据中表达。
根据这条检测结果的坐标,从转录组测序比对文件中提取出比对到这个区域的所有reads;
检查1中构建出的变异序列是否在这些reads中出现,且计算包含该变异序列的reads数。
图1中S2部分是获取MSI的蛋白质组的操作流程,包括以下步骤:
S201,对经RNA数据验证之后的MSI序列进行阅读框翻译,获取MSI蛋白质序列,即MSI蛋白质组;
首先,对于验证通过的微卫星不稳定变异区域,确定能够让其得到转录的所有的开放阅读框;
然后,构建突变转录本并翻译成突变蛋白质序列。
S202,将MSI蛋白质片段化处理。
把突变肽段剪切成小片段多肽,作为肿瘤特异微卫星不稳定变异的候选新抗原肽段。
片段化处理的具体操作过程如下:
对MSI蛋白质上能够产生新抗原肽的部分,进行有重叠区域的滑窗处理。如一段含有30个氨基酸的可能产生新抗原肽的蛋白质序列,设置肽段长度为9,选取的肽段为:1-9,2-10,3-11,……,22-30。
优选地,默认设置的肽段长度为9到12个氨基酸。
优选地,在阅读框翻译到MSI的位置时需判断是否发生移框翻译,若发生移框翻译,则MSI之后的所有蛋白序列均为潜在的新抗原肽的来源,若未发生移框翻译,则只有MSI内部及附近的序列能产生新抗原肽。
图1的S3部分是本发明对患者肿瘤中的MSI产生的抗原进行过滤的分析流程,包括以下步骤:
在人类正常蛋白组中查找片段化处理之后得到的所有肽段,滤除在人类正常蛋白组中的出现的肽段,得到全新的候选抗原肽。
选择Ensembl发布的release 98版本作为人类正常蛋白组。
图1的S4部分是本发明对患者肿瘤中的MSI产生的新抗原进行筛选的分析流程,包括以下步骤:
S401,鉴定人类白细胞抗原(HLA)分子分型。
利用HLA基因分型软件HLA-LA计算人类白细胞抗原基因型。
示例命令如下:
Figure BDA0002499232900000101
Figure BDA0002499232900000111
S402,预测肽段亲和力。
利用软件netMHCpan-4.0以及人类白细胞抗原(HLA)基因分型结果对S3步骤生成的来自于患者肿瘤MSI的特异肽段进行亲和力预测。
示例命令为:
Figure BDA0002499232900000112
S403,基于肽段整合信息筛选样本新抗原。
编写脚本,整合肽段信息,用不同的指标以相应的权重对候选新抗原进行排序筛选,获得最终的肿瘤特异MSI新抗原。
具体地,首先明确每个候选肽段的来源,包括开放阅读框的基因名以及对应的转录本编号,并注释肽段与HLA分子的亲和力,RNA测序中包含MSI的转录本的表达量,以及正常转录本的表达量,DNA测序的Tumor和Normal两个样本中支持MSI的reads数目,以及肽段在融合蛋白质序列中的具体位置等信息。
在筛选阶段,用不同的指标以相应的权重对候选新抗原进行排序筛选,得到最终的肿瘤特异MSI新抗原。具体的指标包括肽段与HLA亲和力,RNA测序中包含MSI的转录本的表达量,以及正常转录本的表达量,DNA测序的Tumor和Normal两个样本中支持MSI的reads数目,肽段的物理化学性质等。
以上对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限于上述实施方式和实施例,在本领域技术人员所具备的知识范围内,还可以在不脱离本发明构思的前提下作出各种变化。

Claims (6)

1.一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法,包括以下步骤:
S1,通过整合患者DNA和RNA的测序数据,检测出患者的MSI;
S2,对检测到的MSI所影响的开放阅读框进行翻译,得到MSI蛋白质组;
S3,通过与人类正常蛋白组比较,获取样本特异蛋白质组;
S4,获取样本新抗原;
所述S1,包括以下步骤:
S101,从tumor-normal配对的DNA测序数据中获取候选的MSI;
S102,利用该患者的RNA测序数据对S101得到的MSI进行验证,得到验证之后的MSI;
所述S2,包括以下步骤:
S201,对经RNA数据验证之后的MSI序列进行阅读框翻译,获取MSI蛋白质序列,即MSI蛋白质组;
S202,将MSI蛋白质片段化处理;
所述S3中,在人类正常蛋白组中查找片段化处理之后得到的所有肽段,滤除在人类正常蛋白组中出现的肽段,得到全新的候选抗原肽;
所述S4,包括以下步骤:
S401,利用S1中DNA预处理之后得到的BAM文件,对该样本的人类白细胞抗原进行基因分型;
S402,预测S3中得到的所有全新的候选抗原肽与样本特异的HLA分子的亲和力;
S403,基于肽段整合信息筛选样本新抗原。
2.根据权利要求1所述的方法,其特征在于,所述S101包括以下步骤:
S1011,对Tumor和Normal的测序数据进行预处理,包括:滤除低质量低的reads,比对,去除PCR重复步骤;
S1012,利用Tumor和Normal的预处理之后的bam作为输入,使用MSI检测工具检测出患者的肿瘤MSI。
3.根据权利要求1或2所述的方法,其特征在于,所述S102包括以下步骤:
S1021,对RNA测序数据进行预处理,包括去除低质量的reads,去除adapter,比对步骤;
S1022,结合上一步的RNA比对结果,对S101中的检测结果进行一一验证,得到验证后的MSI突变。
4.根据权利要求1或2所述的方法,其特征在于,所述S403,用不同的指标以相应的权重对候选新抗原进行排序筛选,得到最终的肿瘤特异MSI新抗原。
5.根据权利要求4所述的方法,其特征在于,具体的指标选自肽段与HLA亲和力、RNA测序中包含MSI的转录本的表达量、以及正常转录本的表达量、DNA测序的Tumor和Normal两个样本中支持MSI的reads数目、肽段的物理化学性质中的一种或多种。
6.根据权利要求1-5任一所述的方法在整合多组学数据提取微卫星不稳定免疫治疗新抗原中的应用。
CN202010427503.2A 2020-05-20 2020-05-20 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用 Active CN111599410B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010427503.2A CN111599410B (zh) 2020-05-20 2020-05-20 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用
US16/992,113 US20210363589A1 (en) 2020-05-20 2020-08-13 Immunotherapy using multi-omics data to extract microsatellite instability-based neoantigen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010427503.2A CN111599410B (zh) 2020-05-20 2020-05-20 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用

Publications (2)

Publication Number Publication Date
CN111599410A CN111599410A (zh) 2020-08-28
CN111599410B true CN111599410B (zh) 2023-06-13

Family

ID=72183843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010427503.2A Active CN111599410B (zh) 2020-05-20 2020-05-20 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用

Country Status (2)

Country Link
US (1) US20210363589A1 (zh)
CN (1) CN111599410B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106350578A (zh) * 2015-07-13 2017-01-25 中国人民解放军第二军医大学 Ny-eso-1在微卫星不稳定性肠癌的诊断和治疗中的应用
US20190169685A1 (en) * 2017-12-01 2019-06-06 Personal Genome Diagnostics Inc. Process for microsatellite instability detection
CN110534156A (zh) * 2019-09-02 2019-12-03 深圳市新合生物医疗科技有限公司 一种提取免疫治疗新抗原的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111315390A (zh) * 2017-09-05 2020-06-19 磨石肿瘤生物技术公司 用于t细胞疗法的新抗原鉴别

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106350578A (zh) * 2015-07-13 2017-01-25 中国人民解放军第二军医大学 Ny-eso-1在微卫星不稳定性肠癌的诊断和治疗中的应用
US20190169685A1 (en) * 2017-12-01 2019-06-06 Personal Genome Diagnostics Inc. Process for microsatellite instability detection
CN110534156A (zh) * 2019-09-02 2019-12-03 深圳市新合生物医疗科技有限公司 一种提取免疫治疗新抗原的方法及系统

Also Published As

Publication number Publication date
CN111599410A (zh) 2020-08-28
US20210363589A1 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
Pertea et al. CHESS: a new human gene catalog curated from thousands of large-scale RNA sequencing experiments reveals extensive transcriptional noise
CN109801678B (zh) 基于全转录组的肿瘤抗原预测方法及其应用
US20200243164A1 (en) Systems and methods for patient-specific identification of neoantigens by de novo peptide sequencing for personalized immunotherapy
CN110600077B (zh) 肿瘤新抗原的预测方法及其应用
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN110752041B (zh) 基于二代测序的新生抗原预测方法、装置和存储介质
CN111627497B (zh) 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用
CN110706742B (zh) 泛癌种肿瘤新生抗原高通量预测方法及其应用
CN113035272A (zh) 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置
CN111755067A (zh) 一种肿瘤新生抗原的筛选方法
Bens et al. FRAMA: from RNA-seq data to annotated mRNA assemblies
Krishnan et al. Exhaustive whole-genome tandem repeats search
CN110621785A (zh) 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置
WO2024051097A1 (zh) 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质
CN112210596B (zh) 基于基因融合事件的肿瘤新生抗原预测方法及其应用
CN111192632B (zh) 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置
CN111599410B (zh) 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用
CN114882951B (zh) 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置
JP7218019B2 (ja) 質量スペクトルからの存在物の同定の方法
CN116779028A (zh) 基于结构变异检测预测新抗原表位的方法、装置及计算机可读存储介质
Oreper et al. The peptide woods are lovely, dark and deep: hunting for novel cancer antigens
CN112750501B (zh) 一种宏病毒组流程的优化分析方法
CN116083587B (zh) 一种基于异常可变剪切预测肿瘤新生抗原的方法以及装置
CN113096735B (zh) 从离体血清中分析hbv dna整合事件的系统及方法
CN117174166B (zh) 基于三代测序数据的肿瘤新抗原预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant