CN113035272B - 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 - Google Patents

获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 Download PDF

Info

Publication number
CN113035272B
CN113035272B CN202110251696.5A CN202110251696A CN113035272B CN 113035272 B CN113035272 B CN 113035272B CN 202110251696 A CN202110251696 A CN 202110251696A CN 113035272 B CN113035272 B CN 113035272B
Authority
CN
China
Prior art keywords
tumor
screening
somatic
variation
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110251696.5A
Other languages
English (en)
Other versions
CN113035272A (zh
Inventor
万季
汪健
沈一鸣
夏迪
潘有东
王弈
宋麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Neocura Biotechnology Corp
Original Assignee
Shenzhen Neocura Biotechnology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Neocura Biotechnology Corp filed Critical Shenzhen Neocura Biotechnology Corp
Priority to CN202110251696.5A priority Critical patent/CN113035272B/zh
Publication of CN113035272A publication Critical patent/CN113035272A/zh
Application granted granted Critical
Publication of CN113035272B publication Critical patent/CN113035272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种获取基于内含子体细胞变异的免疫治疗新抗原方法和装置,涉及肿瘤免疫治疗领域,方法包括以下步骤:基于全基因组测序数据或全外显子组测序数据检测获取肿瘤组织遗传物质中,发生在内含子区域的体细胞变异,并得到相关数据;基于肿瘤组织的转录组测序数据和S1最终所得数据,确定由S1检测获取的内含子体细胞变异所导致的异常剪接事件,并重建所得异常剪接事件的转录本序列;根据所得转录本序列,获取肿瘤特异候选新抗原肽段,并从中筛选出作为肿瘤特异新抗原肽的肿瘤特异新抗原;本发明通过鉴定内含子体细胞变异导致的异常剪接事件所产生的新抗原,扩展了新抗原的选择范围。

Description

获取基于内含子体细胞变异的免疫治疗新抗原方法和装置
技术领域
本发明涉及肿瘤免疫治疗领域,具体涉及整合DNA和RNA的高通量深度测序数据检测内含子体细胞变异并提取基于内含子体细胞变异的免疫治疗新抗原的方法和装置。
背景技术
近年来,肿瘤免疫治疗方法发展迅速,与包括手术、放疗、化疗等在内的传统癌症治疗手段互相配合,取得了喜人的治疗效果。肿瘤免疫治疗,顾名思义,通过刺激或辅助患者自身的免疫系统来抑制或杀伤肿瘤细胞,从而达到治疗的目的。肿瘤新抗原疫苗是一类新的肿瘤免疫治疗方法。其原理是由肿瘤细胞由于自身基因组或表观遗传的变化所产生的且未表达于正常细胞的肽段序列,与人类白细胞抗原(Human LeukocyteAntigen,HLA)结合形成pMHC复合物并进而被杀伤性T淋巴细胞识别,从而激活人体免疫反应杀伤肿瘤细胞。高通量测序技术的发展使系统性地鉴定肿瘤新抗原成为可能,通过对患者的肿瘤组织及正常组织进行全基因组测序(Whole Genome Sequencing,WGS)或全外显子组测序(Whole ExomeSequencing,WES)检测体细胞变异(包括点突变和小插入缺失)来预测突变多肽。现有的方法主要将目光集中于蛋白质编码区域的体细胞变异,因为这类变异可以比较直观地确定对应的突变蛋白质序列,而对于非编码区域的变异关注较少。目前已有很多研究发现,肿瘤组织中内含子体细胞变异能通过影响前体mRNA(pre-mRNA)的剪接加工形成异常的信使RNA(mRNA)并转录翻译成异常蛋白质序列,并且这些异常蛋白质序列所包含的突变肽段也能引起免疫原性反应。因此,检测肿瘤患者内含子体细胞变异并提取基于内含子体细胞变异的免疫治疗新抗原对于扩大新抗原的筛选范围和提高临床应用效果具有重要的意义。
发明内容
针对上述问题,本发明综合考虑了肿瘤特异的内含子体细胞变异对转录加工过程的影响,开发了一种从异常剪接转录本中翻译筛选肿瘤特异性新抗原的生物信息学方法。
本发明的方案提供了一种由计算机实现的基于二代测序数据检测由内含子体细胞变异所影响产生的肿瘤特异性新抗原的方法和装置。技术方案为:
一种获取基于内含子体细胞变异的免疫治疗新抗原的方法,包括以下步骤:
S1.基于全基因组测序数据或全外显子组测序数据检测获取肿瘤组织遗传物质中,发生在内含子区域的体细胞变异,并得到相关数据;
S2.基于肿瘤组织的转录组测序数据和S1最终所得数据,确定由S1检测获取的内含子体细胞变异所导致的异常剪接事件,并重建所得异常剪接事件的转录本序列;
S3.根据所得转录本序列,获取肿瘤特异候选新抗原肽段,并从中筛选出作为肿瘤特异新抗原肽的肿瘤特异新抗原;
所述全基因组测序数据或全外显子组测序数据的来源包括肿瘤组织的相应遗传物质测序。
进一步地,在S1步骤中,内含子区域由于选择压力较小的缘故,倾向于发生较多的生殖系突变(Germline Mutation),因此有必要对患者肿瘤组织和正常组织同时进行测序分析,以保证获得高可信度的内含子体细胞变异(Somatic Mutation)。具体包含以下子步骤:
S101.对测序数据进行预处理;
S102.根据S101预处理所得数据,检测体细胞变异,并对检测到体细胞变异进行过滤筛选;
S103.对过滤筛选得到的体细胞变异进行注释,得到发生在内含子区域的体细胞变异相关数据;
所述测序数据为基因组测序数据或全外显子组测序数据。
所述对测序数据进行预处理,包括:a.将测序数据与参考基因组相对应的数据比对;b.校正并输出比对结果。
在本发明的一些实施例中,所述比对可使用基因组比对工具bwa分别把肿瘤组织和正常组织测序数据比对到人参考基因组数据;然后还可以用工具GATK的MarkDuplicates模块去除测序过程中由扩增导致的重复reads;所述校正比对结果,可使用工具GATK的BaseRecalibrator和ApplyBQSR模块,对基因组或外显子组中复杂区域对应的比对结果进行校正。
进一步地,S2包括以下子步骤:
S201.基于肿瘤组织的转录组测序数据,检测跨内含子的异常剪接事件;
S202.根据S1最终所得发生在内含子区域的体细胞变异相关数据,从上述异常剪接事件中筛选由内含子体细胞变异导致的异常剪接事件;
S203.在S202筛选所得异常剪接事件的基础上,根据基因转录本的外显子位置信息,重建异常剪接的转录本序列。
S201具体包括:将肿瘤组织的转录组测序数据比对到人参考基因组上,获取跨内含子剪接位点信息,检测跨内含子剪接位点信息中发生在并非已知的常见剪接位点上,会导致新型转录本的形成的位点,视为异常剪接事件。
优选地,所述将肿瘤组织的转录组测序数据比对到人参考基因组上,可使用比对软件STAR,在比对过程中使用2-pass mapping模式,在该模式下将进行两次比对,在第二次比对中利用第一次比对检测到的新型跨内含子断点信息,可以获得更多且更准确的跨内含子剪接位点的比对结果,有利于后续异常剪接的检测。
优选地,所述检测跨内含子的异常剪接事件,包括以下步骤:
1)根据肿瘤组织的转录组测序数据bam文件中reads比对的CIGAR值,提取所有跨内含子剪接位点信息;
2)从上述跨内含子剪接位点中筛选出发生在并非已知的常见剪接位点上,会导致新型转录本的形成的跨内含子剪接,视为异常剪接事件。
上述步骤1)再具体为:当CIGAR值的形式表现为“xxMxxNxxM”时,即为跨内含子剪接,其中“xx”是指碱基数量,“M”表示与参考基因组匹配,“N”表示reads中的序列从参考基因组跨越的区域,通常是内含子区域。
S202所述筛选,包括:根据S1最终所得发生在内含子区域的体细胞变异相关数据,筛选发生于其中每个突变位点上下游20bp以内的异常剪接事件,视为由内含子体细胞变异导致的异常剪接事件。
优选地,S202所述筛选,还包括对上述结果中得到的由内含子体细胞变异导致的异常剪接事件进行进一步筛选:(1)从上述结果中筛选出reads支持数至少为5条,且比对质量值均大于等于20的异常剪接事件;(2)从(1)筛选结果中进一步筛选出包含异常剪接事件的所有reads中,有超过5%的reads支持的异常剪接事件;(3)从(2)筛选结果中进一步筛选出变异碱基在发生异常剪接的reads中所占频率超过30%的异常剪接事件。
进一步地,在上述步骤(3)筛选结果基础上,如果同时具有正常组织的转录组测序数据,可使用假设检验对异常剪接事件进行测试,进一步筛选出具有统计显著性,即p值<0.05的异常剪接事件。
进一步地,S3包括以下子步骤:
S301.根据S2所得异常剪接的转录本序列,获取肿瘤特异候选新抗原肽段;
S302.使用人类白细胞抗原分子分型软件OptiType检测肿瘤患者的HLA-I类分子型别;
S303.预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合亲和力,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合稳定性;
S304.使用特定的阈值对预测的候选新抗原肽段与肿瘤患者的HLA-I类分子的结合亲和力和稳定性进行比较,筛选出的肽段作为肿瘤特异新抗原肽。
优选地,S301具体包括:根据S2所得异常剪接的转录本序列,翻译成肿瘤特异的蛋白质序列,然后根据需求生成特定长度的肽段序列,再滤除人类正常蛋白质组中存在的肽段,即可得到肿瘤特异的候选新抗原肽段。
本发明中,所述特定长度优选为8-11个氨基酸。
优选地,使用netMHCpan预测候选新抗原肽段与肿瘤患者的HLA分子之间的结合亲和力;使用netMHCstabpan预测候选新抗原肽段与肿瘤患者的HLA分子之间的结合稳定性。
优选地,S304所述筛选,常用的阈值为结合亲和力≤500nm,筛选的最后,构建一个乘法模型,上述各个指标(结合亲和力和结合稳定性)进行标准化后的乘积从大到小依次排列,选择排序靠前的肽段作为具体实验或患者治疗的肿瘤特异新抗原肽,一般选用排名前10或者20的肽段作为疫苗的候选新抗原肽。
一种获取基于内含子体细胞变异的免疫治疗新抗原的装置,包括体细胞变异检测模块、异常剪接事件和转录本序列获取模块、肿瘤特异新抗原获取模块;
体细胞变异检测模块用于基于全基因组测序数据或全外显子组测序数据检测获取肿瘤组织遗传物质中,发生在内含子区域的体细胞变异,并得到相关数据;
异常剪接事件和转录本序列获取模块用于基于肿瘤组织的转录组测序数据和体细胞变异检测模块获取的发生在内含子区域的体细胞变异相关数据,确定由内含子体细胞变异所导致的异常剪接事件,并重建所得异常剪接事件的转录本序列;
肿瘤特异新抗原获取模块用于根据所得转录本序列,获取肿瘤特异候选新抗原肽段,并从中筛选出作为肿瘤特异新抗原肽的肿瘤特异新抗原。
体细胞变异检测模块包括预处理单元、体细胞变异检测筛选单元、体细胞变异注释单元;
处理单元用于对测序数据进行预处理;
体细胞变异检测筛选单元用于根据预处理所得数据,检测体细胞变异,并对检测到体细胞变异进行过滤筛选;
体细胞变异注释单元用于对过滤筛选得到的体细胞变异进行注释,得到发生在内含子区域的体细胞变异相关数据。
异常剪接事件和转录本序列获取模块包括异常剪接事件检测单元、异常剪接事件筛选单元、转录本序列重建单元;
异常剪接事件检测单元用于基于肿瘤组织的转录组测序数据,检测跨内含子的异常剪接事件;
异常剪接事件筛选单元用于根据体细胞变异检测模块获取的发生在内含子区域的体细胞变异相关数据,从跨内含子的异常剪接事件中筛选由内含子体细胞变异导致的异常剪接事件;
转录本序列重建单元用于在异常剪接事件筛选单元筛选出的异常剪接事件的基础上,根据基因转录本的外显子位置信息,重建异常剪接的转录本序列。
肿瘤特异新抗原获取模块包括候选新抗原肽段获取单元、肿瘤特异新抗原肽筛选单元;
候选新抗原肽段获取单元用于根据所得异常剪接的转录本序列,获取肿瘤特异候选新抗原肽段;
肿瘤特异新抗原肽筛选单元用于基于预测的候选新抗原肽段与肿瘤患者的HLA-I类分子的结合亲和力和稳定性,使用特定阈值筛选出的肽段作为肿瘤特异新抗原肽;
肿瘤特异新抗原肽筛选单元还可以用于检测肿瘤患者的HLA-I类分子型别,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合亲和力,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合稳定性。
有益效果
本发明的有益效果在于:
内含子区域的变异事件对肿瘤发生和治疗的影响通常难以确定。常规的新抗原检测流程往往只考虑编码区体细胞变异,而内含子体细胞变异可以通过影响剪接加工过程形成异常转录本。这些异常转录本中也可能产生肿瘤新抗原。本发明通过鉴定内含子体细胞变异导致的异常剪接事件所产生的新抗原,扩展了新抗原的选择范围。
本发明采用了多种方式提高检测的准确性,如使用配对样本提高内含子体细胞变异检测的准确率,通过设定阈值及假设检验提高异常剪接事件的检测准确率,降低了最终所鉴定新抗原的假阳性率,进而提高了新抗原疫苗的有效性,对肿瘤患者临床免疫治疗效果的提升具有重要意义。
附图说明
图1为本发明一种实施方式的整合DNA和RNA的高通量测序数据检测内含子体细胞变异并提取基于内含子体细胞变异的免疫治疗新抗原的流程图;
图2a为异常剪接模式示意图1;
图2b为异常剪接模式示意图2;
图2c为异常剪接模式示意图3;
图3为本发明一种实施方式的整合DNA和RNA的高通量测序数据检测内含子体细胞变异并提取基于内含子体细胞变异的免疫治疗新抗原的流程图(具体步骤);
图4为本发明提供的获取基于内含子体细胞变异的免疫治疗新抗原的装置系统框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
实施例1一种获取基于内含子体细胞变异的免疫治疗新抗原的装置:
包括体细胞变异检测模块、异常剪接事件和转录本序列获取模块、肿瘤特异新抗原获取模块;
体细胞变异检测模块用于基于全基因组测序数据或全外显子组测序数据检测获取肿瘤组织遗传物质中,发生在内含子区域的体细胞变异,并得到相关数据;
异常剪接事件和转录本序列获取模块用于基于肿瘤组织的转录组测序数据和体细胞变异检测模块获取的发生在内含子区域的体细胞变异相关数据,确定由内含子体细胞变异所导致的异常剪接事件,并重建所得异常剪接事件的转录本序列;
肿瘤特异新抗原获取模块用于根据所得转录本序列,获取肿瘤特异候选新抗原肽段,并从中筛选出作为肿瘤特异新抗原肽的肿瘤特异新抗原。
实施例2一种获取基于内含子体细胞变异的免疫治疗新抗原的装置:
在实施例1的基础上,体细胞变异检测模块包括预处理单元、体细胞变异检测筛选单元、体细胞变异注释单元;
处理单元用于对测序数据进行预处理;
体细胞变异检测筛选单元用于根据预处理所得数据,检测体细胞变异,并对检测到体细胞变异进行过滤筛选;
体细胞变异注释单元用于对过滤筛选得到的体细胞变异进行注释,得到发生在内含子区域的体细胞变异相关数据。
实施例3一种获取基于内含子体细胞变异的免疫治疗新抗原的装置:
在实施例1的基础上,异常剪接事件和转录本序列获取模块包括异常剪接事件检测单元、异常剪接事件筛选单元、转录本序列重建单元;
异常剪接事件检测单元用于基于肿瘤组织的转录组测序数据,检测跨内含子的异常剪接事件;
异常剪接事件筛选单元用于根据体细胞变异检测模块获取的发生在内含子区域的体细胞变异相关数据,从跨内含子的异常剪接事件中筛选由内含子体细胞变异导致的异常剪接事件;
转录本序列重建单元用于在异常剪接事件筛选单元筛选出的异常剪接事件的基础上,根据基因转录本的外显子位置信息,重建异常剪接的转录本序列。
实施例4一种获取基于内含子体细胞变异的免疫治疗新抗原的装置:
在实施例1的基础上,肿瘤特异新抗原获取模块包括候选新抗原肽段获取单元、肿瘤特异新抗原肽筛选单元;
候选新抗原肽段获取单元用于根据所得异常剪接的转录本序列,获取肿瘤特异候选新抗原肽段;
肿瘤特异新抗原肽筛选单元用于基于预测的候选新抗原肽段与肿瘤患者的HLA-I类分子的结合亲和力和稳定性,使用特定阈值筛选出的肽段作为肿瘤特异新抗原肽;
肿瘤特异新抗原肽筛选单元还可以用于检测肿瘤患者的HLA-I类分子型别,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合亲和力,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合稳定性。
以上实施例所述装置用于实现以下实施例中的方法。
实施例5一种获取基于内含子体细胞变异的免疫治疗新抗原的方法,如图1所示,包括以下步骤:
S1.基于全基因组测序数据或全外显子组测序数据检测获取肿瘤组织遗传物质中,发生在内含子区域的体细胞变异,并得到相关数据;
S2.基于肿瘤组织的转录组测序数据和S1最终所得数据,确定由S1检测获取的内含子体细胞变异所导致的异常剪接事件,并重建所得异常剪接事件的转录本序列;
S3.根据所得转录本序列,获取肿瘤特异候选新抗原肽段,并从中筛选出作为肿瘤特异新抗原肽的肿瘤特异新抗原;
所述全基因组测序数据或全外显子组测序数据的来源包括肿瘤组织的相应遗传物质测序。
本发明通过鉴定内含子体细胞变异导致的异常剪接事件所产生的新抗原,扩展了新抗原的选择范围。
实施例6,在实施例5基础上,S1包括以下步骤:
S101.对测序数据进行预处理;
S102.根据S101预处理所得数据,检测体细胞变异,并对检测到体细胞变异进行过滤筛选;
S103.对过滤筛选得到的体细胞变异进行注释,得到发生在内含子区域的体细胞变异相关数据;
所述测序数据为基因组测序数据或全外显子组测序数据。
S101.测序数据预处理。
首先,使用基因组比对工具bwa分别把肿瘤组织样本和正常对照样本的DNA测序数据比对到人参考基因组;然后用工具GATK的MarkDuplicates模块去除测序过程中由扩增导致的重复reads;接下来使用工具GATK的BaseRecalibrator和ApplyBQSR对基因组中复杂区域的比对进行校正。
S102.根据S101预处理所得数据,检测体细胞变异,并对检测到体细胞变异进行过滤筛选。
以S101步骤获得的校正后的bam文件作为输入,用GATK的mutect2模块检测体细胞变异;然后编写程序对检测到体细胞变异进行过滤筛选以获得高可信度的结果。GATK软件的检测结果中通常包含较多的假阳性,因此需要对其进行进一步过滤。具体地过滤指标包括:肿瘤样本中突变位点的测序深度不低于30,变异碱基在正常对照样本中的reads支持数不超过3,且通过fisher精确检验(即p值小于0.05)。
S103.对过滤筛选得到的体细胞变异进行注释,得到发生在内含子区域的体细胞变异相关数据。
使用变异注释工具VEP对过滤筛选后的体细胞变异进行注释,然后筛选得到发生于内含子区域的体细胞变异。
实施例7,在实施例5基础上,S2包括以下子步骤:
S201.基于肿瘤组织的转录组测序数据,检测跨内含子的异常剪接事件;
S202.根据S1最终所得发生在内含子区域的体细胞变异相关数据,从上述异常剪接事件中筛选由内含子体细胞变异导致的异常剪接事件;
S203.在S202筛选所得异常剪接事件的基础上,根据基因转录本的外显子位置信息,重建异常剪接的转录本序列。
S201.基于肿瘤组织的转录组测序数据,检测跨内含子的异常剪接事件。
首先使用比对软件STAR将肿瘤组织样本的转录组测序数据比对到人参考基因组上,在比对过程中使用2-pass mapping模式,该模式会将转录组测序数据比对两次,在第二次比对中利用第一次比对检测到的新型跨内含子断点信息,可以获得更多且更准确的跨内含子剪接位点的比对结果,有利于后续异常剪接的检测。然后用自己开发的程序检测内含子体细胞变异导致的异常剪接事件,具体原理如下:
1)从bam文件中提取所有跨内含子剪接位点信息,每个跨内含子比对包含一对位点,分别是供体(Donor)剪接位点和受体(Accepter)剪接位点。这可以根据bam文件中reads比对的CIGAR值获得,当reads中包含了内含子前后的两个外显子序列时,CIGAR值的形式表现为“xxMxxNxxM”,其中“xx”是指碱基数量,“M”表示与参考基因组匹配,“N”表示reads中的序列从参考基因组跨越的区域,通常是内含子区域,因为成熟的信使RNA序列会剪切内含子,只保留外显子序列。
2)异常剪接是指剪接发生在并非已知的常见剪接位点上,会导致新型转录本的形成。当每对位点中至少有一个不存在于人类基因组注释文件时,视为异常剪接事件。
S202.根据S1最终所得发生在内含子区域的体细胞变异相关数据,从上述异常剪接事件中筛选由内含子体细胞变异导致的异常剪接事件。
根据S1步骤得到的内含子体细胞变异位点信息,筛选发生于该突变位点20bp以内的异常剪接位点,视为由内含子体细胞变异导致的异常剪接事件。
选择20bp作为阈值是因为内含子变异影响剪接通常是通过改变剪接位点附近的序列来影响与剪接复合物的结合来实现的,这种结合最远可距剪接位点20bp左右。
此外,为了降低检测结果的假阳性,编写程序根据以下条件对结果进行进一步过滤筛选。首先,要求每个异常剪接点位置的reads支持数至少为5条,且比对质量值均大于等于20;其次,包含异常剪接点的所有reads中,有超过5%的reads支持异常剪接事件;另外,如果内含子体细胞变异存在于异常剪接后的外显子中(如图2c所示),即转录组测序中能检测到该变异,要求变异碱基在发生异常剪接的reads中所占频率超过30%。最后,如果同时具有正常组织的转录组测序数据,使用假设检验对异常剪接事件进行测试,要求具有统计显著性,即p值<0.05。
S203.在S202筛选所得异常剪接事件的基础上,根据基因转录本的外显子位置信息,重建异常剪接的转录本序列。
发生异常剪接后的外显子变化主要有三种形式:外显子截短、外显子延伸、新生外显子。外显子截短,是由于内含子区域的变异造成剪接位点保守序列的破坏导致外显子内部成为新的剪接位点,如图2a所示。图2b表示外显子延伸,指原有外显子的一端延伸到内含子区域形成新的剪接位点。这两种方式在确定了异常剪接位点后根据基因转录本的外显子位置信息可以得到异常剪接的转录本序列。新生外显子,如图2c,是指在内含子区域由于内含子突变产生了一个新的外显子。此时需要通过软件IGV(Integrative Genomics Viewer)来确定新生外显子的另一端发生剪接的位置,然后将新生外显子序列嵌入原有正常转录本中来重构异常转录本序列。
本发明采用了多种方式提高检测的准确性,如使用配对样本提高内含子体细胞变异检测的准确率,通过设定阈值及假设检验提高异常剪接事件的检测准确率,降低了最终所鉴定新抗原的假阳性率,进而提高了新抗原疫苗的有效性,对肿瘤患者临床免疫治疗效果的提升具有重要意义。
实施例8在实施例5基础上,S3包括以下子步骤:
S301.根据S2所得异常剪接的转录本序列,获取肿瘤特异候选新抗原肽段;
S302.使用人类白细胞抗原分子分型软件OptiType检测肿瘤患者的HLA-I类分子型别;
S303.预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合亲和力,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合稳定性;
S304.使用特定的阈值对预测的候选新抗原肽段与肿瘤患者的HLA-I类分子的结合亲和力和稳定性进行比较,筛选出的肽段作为肿瘤特异新抗原肽。
S301.根据S2所得异常剪接的转录本序列,获取肿瘤特异候选新抗原肽段。
根据上一步中所获得的异常剪接转录本序列,翻译成肿瘤特异的蛋白质序列,然后根据需求生成特定长度的肽段序列,再滤除人类正常蛋白质组中存在的肽段,即可得到肿瘤特异的候选新抗原肽段。本发明中,默认的肽段序列长度为8-11。
S302.使用人类白细胞抗原分子分型软件OptiType检测肿瘤患者的HLA-I类分子型别。
S303.预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合亲和力,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合稳定性。
使用netMHCpan预测候选新抗原肽段与肿瘤患者的HLA分子之间的亲和力;使用netMHCstabpan预测候选新抗原肽段与肿瘤患者的HLA分子之间的结合稳定性。
S304.使用特定的阈值对预测的候选新抗原肽段与肿瘤患者的HLA-I类分子的结合亲和力和稳定性进行比较,筛选出的肽段作为肿瘤特异新抗原肽。
具体地,首先使用特定的阈值对预测的与HLA-I类分子的结合亲和力和稳定性进行肽段筛选,常用的阈值为结合亲和力≤500nm。最后,构建一个乘法模型,上述各个指标进行标准化后的乘积从大到小依次排列,选择排序靠前的肽段作为具体实验或患者治疗的新抗原,一般选用排名前10或者20的肽段作为疫苗的候选新抗原肽。
在一些实施方式中,本发明所用软件具体参数如下:
为了简洁明了地说明所用软件的参数,以双端测序数据为例,规定肿瘤组织DNA测序数据命名为tumor_DNA.R1.fastq.gz和tumor_DNA.R2.fastq.gz;肿瘤组织RNA测序数据命名为tumor_RNA.R1.fastq.gz和tumor_RNA.R2.fastq.gz;对照样本的DNA测序数据命名为normal_DNA.R1.fastq.gz和normal_DNA.R2.fastq.gz;对照样本的RNA测序数据命名为normal_RNA.R1.fastq.gz和normal_RNA.R2.fastq.gz。
使用bwa对肿瘤组织和对照样本基因组测序数据进行比对,其示例命令为:
其中,-R表示比对结果头文件的内容格式,-t表示运行所用的线程数,-M表示bwa专用的索引文件,tumor_DNA.R1.fastq.gz、tumor_DNA.R2.fastq.gz表示输入的原始测序数据。
依次使用GATK软件的MarkDuplicates,BaseRecalibrator,ApplyBQSR三个模块分别对肿瘤组织和对照样本的比对结果进行去重和校正,示例命令如下:
其中,-I表示输入的bam文件,-O表示输出的bam文件,-M表示去重的统计结果,--REMOVE_DUPLICATES表示在输出的bam文件删除标记为重复的reads记录。
其中,-R指明参考基因组序列文件,-I指明输入的bam文件,-O指明输出的校准信息文件,--known-sites指明人群中已知的变异信息,可从网络上下载获得。
其中,-R指明参考基因组序列文件,-I指明输入的bam文件,-O指明校正之后的bam文件,-bqsr指明校准信息文件。
使用GATK软件的mutect2模块检测体细胞变异,其示例命令为:
其中,-I指明输入的bam文件,-tumor指明肿瘤样本bam文件名,-normal指明对照样本bam文件名,-O指明输出的vcf格式文件。
使用VEP对变异进行注释以筛选内含子区域的突变,示例命令为:
其中,--input_file指明输入文件,--cache指明使用计算机本地已下载的注释文件,--dir_cache指明注释文件路径,--force_overwrite指明写入到结果文件的方式,--output_file指明注释结果,--offline表示采用离线方式运行。
使用软件STAR比对转录组测序数据,其示例命令如下:
其中,--runThreadN指明计算机运行所用的线程数,--genomeDir指明索引文件位置,--readFilesIn指明输入所需的转录组测序数据,--readFilesCommand指明文件读取命令,--outFileNamePrefix指明输出文件的前缀名,--outSAMtype BAMSortedByCoordinate指明输出输出格式为排好序的BAM文件,--quantMode指明定量方式,--twopassMode Basic指明使用2-pass mapping模式,--outSAMattributes指明要输出的属性值。
使用OptiType计算人类白细胞抗原I类分子分型,示例命令为:
其中--input指明输入的原始测序数据,--dna指明输入文件类型,--outdir指明输出路径。
分别使用软件netMHCpan和netMHCstabpan预测候选新抗原肽段与HLA-I类分子的亲和力和稳定性,其示例命令如下:
其中,-BA指明进行亲和力预测,-a指明HLA-I类分子型别,-f指明输入文件,-inptype指明输入的文件格式,-xls指明输出格式,-xlsfile指明输出文件。
其中,-a指明HLA-I类分子型别,-inptype指明输入的文件格式,-xls指明输出格式,-xlsfile指明输出文件。
以上对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限于上述实施方式和实施例,在本领域技术人员所具备的知识范围内,还可以在不脱离本发明构思的前提下作出各种变化。

Claims (10)

1.一种获取基于内含子体细胞变异的免疫治疗新抗原的方法,其特征在于:包括以下步骤:
S1.基于全基因组测序数据或全外显子组测序数据检测获取肿瘤组织遗传物质中,发生在内含子区域的体细胞变异,并得到相关数据;
S2.基于肿瘤组织的转录组测序数据和S1最终所得数据,确定由S1检测获取的内含子体细胞变异所导致的异常剪接事件,并重建所得异常剪接事件的转录本序列;
S3.根据所得转录本序列,获取肿瘤特异候选新抗原肽段,并从中筛选出作为肿瘤特异新抗原肽的肿瘤特异新抗原;
所述全基因组测序数据或全外显子组测序数据的来源包括肿瘤组织的相应遗传物质测序。
2.根据权利要求1所述的获取基于内含子体细胞变异的免疫治疗新抗原的方法,其特征在于:所述S1步骤包括以下子步骤:
S101.对测序数据进行预处理;
S102.根据S101预处理所得数据,检测体细胞变异,并对检测到体细胞变异进行过滤筛选;
S103.对过滤筛选得到的体细胞变异进行注释,得到发生在内含子区域的体细胞变异相关数据;
所述测序数据为基因组测序数据或全外显子组测序数据。
3.根据权利要求2所述的获取基于内含子体细胞变异的免疫治疗新抗原的方法,其特征在于:所述对测序数据进行预处理,包括:a.将测序数据与参考基因组相对应的数据比对;b.校正并输出比对结果。
4.根据权利要求1所述的获取基于内含子体细胞变异的免疫治疗新抗原的方法,其特征在于:所述S2包括以下子步骤:
S201.基于肿瘤组织的转录组测序数据,检测跨内含子的异常剪接事件;
S202.根据S1最终所得发生在内含子区域的体细胞变异相关数据,从上述异常剪接事件中筛选由内含子体细胞变异导致的异常剪接事件;
S203.在S202筛选所得异常剪接事件的基础上,根据基因转录本的外显子位置信息,重建异常剪接的转录本序列。
5.根据权利要求4所述的获取基于内含子体细胞变异的免疫治疗新抗原的方法,其特征在于:所述S201具体包括:将肿瘤组织的转录组测序数据比对到人参考基因组上,获取跨内含子剪接位点信息,检测跨内含子剪接位点信息中发生在并非已知的常见剪接位点上,会导致新型转录本的形成的位点,视为异常剪接事件;所述S202中的筛选,包括:根据S1最终所得发生在内含子区域的体细胞变异相关数据,筛选发生于其中每个突变位点上下游20bp以内的异常剪接事件,视为由内含子体细胞变异导致的异常剪接事件。
6.根据权利要求1所述的获取基于内含子体细胞变异的免疫治疗新抗原的方法,其特征在于:所述S3包括以下子步骤:
S301.根据S2所得异常剪接的转录本序列,获取肿瘤特异候选新抗原肽段;
S302.使用人类白细胞抗原分子分型软件OptiType检测肿瘤患者的HLA-I类分子型别;
S303.预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合亲和力,预测肿瘤特异候选新抗原肽段与肿瘤患者的HLA-I类分子之间的结合稳定性;
S304.使用特定的阈值对预测的候选新抗原肽段与肿瘤患者的HLA-I类分子的结合亲和力和稳定性进行比较,筛选出的肽段作为肿瘤特异新抗原肽。
7.一种获取基于内含子体细胞变异的免疫治疗新抗原的装置,其特征在于:包括体细胞变异检测模块、异常剪接事件和转录本序列获取模块、肿瘤特异新抗原获取模块;
体细胞变异检测模块用于基于全基因组测序数据或全外显子组测序数据检测获取肿瘤组织遗传物质中,发生在内含子区域的体细胞变异,并得到相关数据;
异常剪接事件和转录本序列获取模块用于基于肿瘤组织的转录组测序数据和体细胞变异检测模块获取的发生在内含子区域的体细胞变异相关数据,确定由内含子体细胞变异所导致的异常剪接事件,并重建所得异常剪接事件的转录本序列;
肿瘤特异新抗原获取模块用于根据所得转录本序列,获取肿瘤特异候选新抗原肽段,并从中筛选出作为肿瘤特异新抗原肽的肿瘤特异新抗原。
8.根据权利要求7所述的获取基于内含子体细胞变异的免疫治疗新抗原的装置,其特征在于:所述体细胞变异检测模块包括预处理单元、体细胞变异检测筛选单元、体细胞变异注释单元;
处理单元用于对测序数据进行预处理;
体细胞变异检测筛选单元用于根据预处理所得数据,检测体细胞变异,并对检测到体细胞变异进行过滤筛选;
体细胞变异注释单元用于对过滤筛选得到的体细胞变异进行注释,得到发生在内含子区域的体细胞变异相关数据。
9.根据权利要求7所述的获取基于内含子体细胞变异的免疫治疗新抗原的装置,其特征在于:所述异常剪接事件和转录本序列获取模块包括异常剪接事件检测单元、异常剪接事件筛选单元、转录本序列重建单元;
异常剪接事件检测单元用于基于肿瘤组织的转录组测序数据,检测跨内含子的异常剪接事件;
异常剪接事件筛选单元用于根据体细胞变异检测模块获取的发生在内含子区域的体细胞变异相关数据,从跨内含子的异常剪接事件中筛选由内含子体细胞变异导致的异常剪接事件;
转录本序列重建单元用于在异常剪接事件筛选单元筛选出的异常剪接事件的基础上,根据基因转录本的外显子位置信息,重建异常剪接的转录本序列。
10.根据权利要求7所述的获取基于内含子体细胞变异的免疫治疗新抗原的装置,其特征在于:所述肿瘤特异新抗原获取模块包括候选新抗原肽段获取单元、肿瘤特异新抗原肽筛选单元;
候选新抗原肽段获取单元用于根据所得异常剪接的转录本序列,获取肿瘤特异候选新抗原肽段;
肿瘤特异新抗原肽筛选单元用于基于预测的候选新抗原肽段与肿瘤患者的HLA-I类分子的结合亲和力和稳定性,使用特定阈值筛选出的肽段作为肿瘤特异新抗原肽。
CN202110251696.5A 2021-03-08 2021-03-08 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 Active CN113035272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110251696.5A CN113035272B (zh) 2021-03-08 2021-03-08 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110251696.5A CN113035272B (zh) 2021-03-08 2021-03-08 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置

Publications (2)

Publication Number Publication Date
CN113035272A CN113035272A (zh) 2021-06-25
CN113035272B true CN113035272B (zh) 2023-09-05

Family

ID=76468384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110251696.5A Active CN113035272B (zh) 2021-03-08 2021-03-08 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置

Country Status (1)

Country Link
CN (1) CN113035272B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593649B (zh) * 2021-08-02 2022-09-09 中国人民解放军陆军军医大学第一附属医院 一种利用hla-i候选肽库鉴定组织中提取的天然抗原肽的方法
CN115240773B (zh) * 2022-09-06 2023-07-28 深圳新合睿恩生物医疗科技有限公司 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质
CN116083587B (zh) * 2023-03-15 2023-07-07 中生康元生物科技(北京)有限公司 一种基于异常可变剪切预测肿瘤新生抗原的方法以及装置
CN116825188B (zh) * 2023-06-25 2024-04-09 北京泛生子基因科技有限公司 基于高通量测序技术在多组学层面识别肿瘤新抗原的方法、装置及计算机可读存储介质
CN117316273A (zh) * 2023-11-02 2023-12-29 聊城市人民医院 基于图神经网络的肿瘤个体化新抗原多肽筛选方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101962676A (zh) * 2010-08-31 2011-02-02 深圳市血液中心 人类白细胞抗原hla-a、b基因全长序列测定以及hla基因测序分型方法
WO2018183544A1 (en) * 2017-03-31 2018-10-04 Dana-Farber Cancer Institute, Inc. Method for identification of retained intron tumor neoantigens from patient transcriptome
WO2018224536A1 (en) * 2017-06-07 2018-12-13 The Institute Of Cancer Research: Royal Cancer Hospital Parp inhibitors for use in treating cancer
CN110423810A (zh) * 2019-09-04 2019-11-08 郑州大学第一附属医院 一种影响人肥厚型心肌病诊治的mybpc3 1624+1g>c位点变异及其应用
CN110689928A (zh) * 2018-07-07 2020-01-14 塔塔咨询服务公司 用于预测基因组变异对前mRNA剪接的影响的系统和方法
CN111192632A (zh) * 2019-12-16 2020-05-22 深圳市新合生物医疗科技有限公司 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置
CN111321140A (zh) * 2020-03-03 2020-06-23 苏州吉因加生物医学工程有限公司 一种基于单样本的肿瘤突变负荷检测方法和装置
CN112195521A (zh) * 2020-09-11 2021-01-08 翌圣生物科技(上海)有限公司 一种基于转座酶的dna/rna共建库方法、试剂盒及应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019157154A2 (en) * 2018-02-12 2019-08-15 Isommune, Llc Method of identifying tumor specific macromolecular isoforms

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101962676A (zh) * 2010-08-31 2011-02-02 深圳市血液中心 人类白细胞抗原hla-a、b基因全长序列测定以及hla基因测序分型方法
WO2018183544A1 (en) * 2017-03-31 2018-10-04 Dana-Farber Cancer Institute, Inc. Method for identification of retained intron tumor neoantigens from patient transcriptome
WO2018224536A1 (en) * 2017-06-07 2018-12-13 The Institute Of Cancer Research: Royal Cancer Hospital Parp inhibitors for use in treating cancer
CN110689928A (zh) * 2018-07-07 2020-01-14 塔塔咨询服务公司 用于预测基因组变异对前mRNA剪接的影响的系统和方法
CN110423810A (zh) * 2019-09-04 2019-11-08 郑州大学第一附属医院 一种影响人肥厚型心肌病诊治的mybpc3 1624+1g>c位点变异及其应用
CN111192632A (zh) * 2019-12-16 2020-05-22 深圳市新合生物医疗科技有限公司 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置
CN111321140A (zh) * 2020-03-03 2020-06-23 苏州吉因加生物医学工程有限公司 一种基于单样本的肿瘤突变负荷检测方法和装置
CN112195521A (zh) * 2020-09-11 2021-01-08 翌圣生物科技(上海)有限公司 一种基于转座酶的dna/rna共建库方法、试剂盒及应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
可变剪接与疾病的生物信息学研究概况;王科俊等;《生命科学研究》;第15卷(第1期);第86-94页 *

Also Published As

Publication number Publication date
CN113035272A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN113035272B (zh) 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置
CN109033749B (zh) 一种肿瘤突变负荷检测方法、装置和存储介质
CN109584960B (zh) 预测肿瘤新生抗原的方法、装置及存储介质
Ding et al. Expanding the computational toolbox for mining cancer genomes
Davis et al. Kraken: a set of tools for quality control and analysis of high-throughput sequence data
CN111445955B (zh) 新型冠状病毒变异分析方法及应用
CN112164423B (zh) 基于RNAseq数据的融合基因检测方法、装置和存储介质
CN109767810B (zh) 高通量测序数据分析方法及装置
CN111341383B (zh) 一种检测拷贝数变异的方法、装置和存储介质
CN113035273B (zh) 一种快速、超高灵敏度的dna融合基因检测方法
CN111192630B (zh) 一种宏基因组数据挖掘方法
CN111326212A (zh) 一种结构变异的检测方法
WO2018232580A1 (zh) 基于三代捕获测序对二倍体基因组单倍体分型的方法和装置
CN112735517A (zh) 一种检测染色体联合缺失的方法、装置和存储介质
CN112599188A (zh) 一种融合驱动基因单端锚定的dna融合断点注释方法
Yi et al. Genome variation in colorectal cancer patient with liver metastasis measured by whole-exome sequencing
CN115747327A (zh) 涉及移码突变的新抗原预测方法
Scheetz et al. ESTprep: preprocessing cDNA sequence reads
CN111192632B (zh) 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置
WO2024051097A1 (zh) 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质
CN116580768B (zh) 一种基于定制化策略的肿瘤微小残留病灶检测方法
CN114882951B (zh) 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
CN114898803B (zh) 突变检测分析的方法、设备、可读介质及装置
Wilmott et al. Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant