CN110600077B - 肿瘤新抗原的预测方法及其应用 - Google Patents

肿瘤新抗原的预测方法及其应用 Download PDF

Info

Publication number
CN110600077B
CN110600077B CN201910809829.9A CN201910809829A CN110600077B CN 110600077 B CN110600077 B CN 110600077B CN 201910809829 A CN201910809829 A CN 201910809829A CN 110600077 B CN110600077 B CN 110600077B
Authority
CN
China
Prior art keywords
sequencing
tumor
dna
hla
mutation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910809829.9A
Other languages
English (en)
Other versions
CN110600077A (zh
Inventor
徐冰
张静波
单光宇
伍启熹
王建伟
刘倩
唐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Usci Medical Laboratory Co ltd
Original Assignee
Beijing Usci Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Usci Medical Laboratory Co ltd filed Critical Beijing Usci Medical Laboratory Co ltd
Priority to CN201910809829.9A priority Critical patent/CN110600077B/zh
Publication of CN110600077A publication Critical patent/CN110600077A/zh
Application granted granted Critical
Publication of CN110600077B publication Critical patent/CN110600077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种肿瘤新抗原的预测方法及其应用。其中,该预测方法包括以下步骤:S1,获取肿瘤患者的肿瘤样本和血浆白细胞样本,构建测序文库并且进行全基因组、全外显子组或靶向捕获RNA、DNA测序;S2,以血浆白细胞DNA作为对照,对肿瘤样本DNA进行比对及体细胞突变的检出,过滤出错义突变位点并对过滤出的错义突变位点进行注释;S3,采用血浆白细胞DNA测序数据对HLA‑I类及HLA‑II类等位基因进行分型;S4,预测可与HLA‑I类及HLA‑II类等位基因结合的抗原多肽。应用本发明的技术方案,可以更准确筛选出基因可表达的与HLA‑I类及HLA‑II类等位基因结合并引起抗肿瘤免疫反应的抗原。

Description

肿瘤新抗原的预测方法及其应用
技术领域
本发明涉及生物医学技术领域,具体而言,涉及一种肿瘤新抗原的预测方法及其应用。
背景技术
癌症免疫治疗在检查点阻断抑制临床应用中取得了巨大的成功。大规模的并行测序分析表明,肿瘤突变负荷与这类治疗反应间存在联系。为了提高对检查点阻断抑制治疗反应的预测,确定肿瘤疫苗和过继T细胞治疗的靶点,需要确定哪些肿瘤特异性突变多肽(新抗原)可以诱导抗肿瘤T细胞免疫。这些独特的抗原标记来自于大量的体细胞基因突变,只存在于肿瘤中,而不存在于正常细胞中。临床数据表明,这些突变序列表达的多肽蛋白在抗原呈递细胞表达的MHC分子中经过处理和表达后,可被免疫系统识别为非己而被消灭。Boon等人(Boon T,Cerottini J-C,Van den Eynde B,van der Bruggen P,Van PelA.Tumor antigens recognized by T lymphocytes.Annu Rev Immunol.1994;12(1):337–65)首次发现了癌症特异性多肽/MHC-I类复合物可被患者体内的CD8+T细胞识别。最近临床数据(Trajanoski Z,Maccalli C,Mennonna D,Casorati G,Parmiani G,DellabonaP.Somatically mutated tumor antigens in the quest for a more efficiouspatient-oriented immunotherapy of cancer.Cancer Immunol Immunother.2015;64(1):99-104)表明肿瘤突变产生的变异多肽经MHC分子处理后,可被免疫系统识别为非己,引起免疫反应。
虽然检查点阻断治疗在临床上取得了巨大的成功,但是患者特异性肿瘤疫苗仍然不能满足无治疗反应、产生耐药性或不能耐受检查点阻断药物相关副作用的患者的临床需要。新抗原通过选择性增加CD8+T细胞的频率,增强免疫系统的抗肿瘤活性,从而扩大免疫系统识别和摧毁癌细胞的能力。这一过程依赖于新抗原多肽结合HLA-I类及HLA-II类分子的亲和力及表达的能力,这是诱导免疫反应和激活CD8+T细胞的关键一步。
Benjamin Schubert等人(Schubert B,Brachvogel HP,Jürges C,KohlbacherO.EpiToolKit--a web-based workbench for vaccine design.Bioinformatics.2015;31(13):2211–2213.doi:10.1093/bioinformatics/btv116)开发了一系列免疫学方法,用于开发基于新抗原的疫苗,包括HLA配体或潜在的T细胞表位预测。
发明内容
本发明旨在提供一种肿瘤新抗原的预测方法及其应用,以提高肿瘤新抗原的预测的准确性。
为了实现上述目的,根据本发明的一个方面,提供了一种肿瘤新抗原的预测方法。该预测方法包括以下步骤:S1,获取肿瘤患者的肿瘤样本和血浆白细胞样本,分别提取肿瘤样本的RNA和DNA以及血浆白细胞样本的DNA,构建测序文库并且进行靶向捕获RNA、DNA测序;S2,以血浆白细胞DNA作为对照,对肿瘤样本DNA进行比对及体细胞突变的检出,过滤出错义突变位点并对过滤出的错义突变位点进行注释;S3,采用血浆白细胞DNA测序数据对HLA-I类及HLA-II类等位基因进行分型;S4,以HLA-I类等位基因分型为基础,结合S2得到的信息,预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。
进一步地,预测方法进一步包括:S5,将基因表达量数据及测序深度信息注释到体细胞变异检出数据中,并对与胚系突变相近的体细胞突变引起的多肽的改变进行纠正。
进一步地,基因表达量数据通过以下步骤获得:
对肿瘤组织RNA进行转录组分析,将RNA测序数据比对至人类参考基因组,分析基因的差异性表达,计算FPKM值;
Figure BDA0002184792960000021
其中,total exon Fragments为比对到某一转录本上的片段数目,mapped reads为比对上的所有短序列总数,exon length为转录本长度;根据FPKM值判断基因是否为表达基因,将属于表达基因的错义突变位点筛选出来作为新抗原预测的对象。
进一步地,FPKM值大于1判断为表达基因。
进一步地,S3与S4之间还包括构建FASTA文件,FASTA文件包含错义突变位点的野生型和突变型两个氨基酸序列,FASTA序列在突变氨基酸的每一侧包保留8~10个侧链氨基酸,如果突变是在转录本的头部或者尾部,则分别截取前面或后面的16~20个氨基酸来构建FASTA序列。
进一步地,S4中,应用NetMHC算法预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。
进一步地,S1和S2之间还包括:测序序列质量检查,依据碱基质量分数分布、测序质量分数分布、每条序列平均碱基含量、序列中GC碱基分布、PCR扩增问题、去除接头对测序序列进行修剪,保留高质量测序序列以供进一步分析,低质量的测序序列排除在分析之外;将测序序列比对至人类参考基因组上,标记/去除重复序列。
根据本发明的另一方面,提供了一种上述肿瘤新抗原的预测方法在疫苗筛选中的应用。
进一步地,在选择候选抗原多肽制备疫苗时,测序深度以及包含变异等位基因频率的测序序列的比例作为筛选优先级突变的标准,过滤掉正常DNA测序覆盖深度≤5,等位基因突变频率≥2%的突变位点,覆盖深度提高至20;根据血浆白细胞中肿瘤细胞的污染的可疑程度,增加等位基因突变频率的阈值,对于肿瘤DNA的覆盖深度过滤阈值为≥10及突变频率阈值为≥40%,FPKM值大于1判断为表达。
应用本发明的技术方案,以血浆白细胞DNA为正常对照,检出的肿瘤特有突变较准确,以转录组差异性表达的基因为筛选条件,可以更准确筛选出基因可表达的与HLA-I类及HLA-II类等位基因结合并引起抗肿瘤免疫反应的抗原,并进一步将测序深度等信息整合至预测的抗原多肽的信息中,提高预测的准确性。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明一实施方式中肿瘤新抗原的预测方法的流程示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
针对背景技术中提到的技术问题,本发明提出了下列技术方案。根据本发明一种典型的实施方式,提供一种肿瘤新抗原的预测方法。该预测方法包括以下步骤:S1,获取肿瘤患者的肿瘤样本和血浆白细胞样本,分别提取肿瘤样本的RNA和DNA以及血浆白细胞样本的DNA,构建测序文库并且进行靶向捕获RNA、DNA测序;S2,以血浆白细胞DNA作为对照,对肿瘤样本DNA进行比对及体细胞突变的检出,过滤出错义突变位点并对过滤出的错义突变位点进行注释;S3,采用血浆白细胞DNA测序数据对HLA-I类及HLA-II类等位基因进行分型;S4,以HLA-I类及HLA-II类等位基因分型为基础,结合S2得到的信息,预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。
在本发明中低频突变可以认为是组织中突变频率低于1%的突变。
应用本发明的技术方案,以血浆白细胞DNA为正常对照,检出的肿瘤特有突变较准确,以转录组差异性表达的基因为筛选条件,可以更准确筛选出基因可表达的与HLA-I类及HLA-II类等位基因结合并引起抗肿瘤免疫反应的抗原。
优选地,预测方法进一步包括:S5,将基因表达量数据及测序深度信息注释到体细胞变异检出数据中,并对与胚系突变相近的体细胞突变引起的多肽的改变进行纠正,将测序深度等信息整合至预测的抗原多肽的信息中,提高预测的准确性
在本发明一实施方式中,基因表达量数据通过以下步骤获得:
对肿瘤组织RNA进行转录组分析,将RNA测序数据比对至人类参考基因组,分析基因的差异性表达,计算FPKM值;
Figure BDA0002184792960000031
其中,total exon Fragments为比对到某一转录本上的片段数目,mapped reads为比对上的所有短序列总数,exon length为转录本长度;根据FPKM值判断基因是否为表达基因,将属于表达基因的错义突变位点筛选出来作为新抗原预测的对象。典型的,此步的FPKM值是通过Cufflinks软件计算得来,是计算基因的表达量,可以知道发生体细胞突变的基因有没有表达,用于后续筛选位于表达基因上的体细胞突变位点。FPKM值大于0的基因认为是表达的基因,为消除噪声,将FPKM的阈值提高至1。
为了数据的处理方便,优选地,S3与S4之间还包括构建FASTA文件,包含每个变异位点的野生型和突变型两个氨基酸序列,FASTA序列在突变氨基酸的每一侧包保留8~10个侧链氨基酸,如果突变是在转录本的头部或者尾部,则分别截取前面或后面的16~20个氨基酸来构建FASTA序列。
为了提高预测的准确性,在本发明一实施例中,S4中,应用NetMHC算法预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。
根据本发明一种典型的实施方式,S1和S2之间还包括:测序序列质量检查,依据碱基质量分数分布、测序质量分数分布、每条序列平均碱基含量、序列中GC碱基分布、PCR扩增问题、去除接头对测序序列进行修剪,保留高质量测序序列以供进一步分析,低质量的测序序列排除在分析之外;将测序序列比对至人类参考基因组上,标记/去除重复序列,从而进一步提高了预测的准确性。
在本发明的发明宗旨知道下,根据本发明一典型的实施方式,提供了一种上述肿瘤新抗原的预测方法在疫苗筛选中的应用。
优选地,在选择候选疫苗时,测序深度以及包含变异等位基因频率的测序序列的比例作为筛选优先级突变的标准,过滤掉正常DNA测序覆盖深度≤5,等位基因突变频率≥2%的突变位点,覆盖深度提高至20;根据血浆白细胞中肿瘤细胞的污染的可疑程度,增加等位基因突变频率的阈值,对于肿瘤DNA的覆盖深度过滤阈值为≥10及突变频率阈值为≥40%,FPKM值大于1判断为表达。
在本发明一典型的实施方式中,参考图1,肿瘤新抗原的预测方法包括以下步骤:
分别提取肿瘤样本的RNA和DNA以及血浆白细胞样本的DNA,构建测序文库并且进行靶向捕获RNA、DNA测序。
数据处理步骤如下:
步骤1:
1)血浆白细胞DNA比对:使用Fastqc(v 0.11.6)软件统计血浆白细胞DNA测序质量,使用Cutadapter(v 1.2.1)软件去除建库时连接的测序接头,去除质量分数小于10的碱基占整条序列的30%的序列及含N碱基比例较高的序列。将质控后的序列使用BWA(v0.7.17)软件MEN算法比对至人类参考基因组,获得比对结果,排序比对结果并建立Index文件,使用Picard Tools(v 2.18.4)软件标记/去除重复序列。
2)HLA-I类及HLA-II类等位基因分型:使用BWA(v 0.7.17)软件MEM算法将质控后的血浆白细胞测序数据比对至IMMUNE EPITOPE DATABASE(IEDB)数据库HLA等位基因参考序列上,得到比对数据,使用HLAscan(v 2.1.3)软件进行HLA-I类的A、B、C三种亚型及HLA-II类的DP、DQ、DR三种亚型的等位基因分型。
步骤2:
1)肿瘤组织DNA比对:使用Fastqc(v 0.11.6)软件统计肿瘤组织DNA测序质量,使用Cutadapter(v 1.2.1)软件去除建库时连接的测序接头,去除质量分数小于10的碱基占整条序列的30%的序列及含N碱基比例较高的序列。将质控后的序列使用BWA(v 0.7.17)软件MEN算法比对至人类参考基因组,获得比对结果,排序比对结果并建立Index文件,使用Picard Tools(v 2.18.4)软件标记/去除重复序列。
2)肿瘤组织体细胞突变检出:基于步骤1(1)中产生的血浆白细胞DNA比对数据,作为正常对照,使用VarScan(v 2.4.3)软件对上一步产生的肿瘤组织DNA数据进行体细胞单核苷酸变异检出,排除覆盖深度小于800X,突变频率低于1%及具有链偏好性的突变位点。
3)肿瘤组织体细胞突变注释:使用Variant Effect Predictor(v 95.3)(VEP)软件对检出的体细胞突变位点进行转录本、氨基酸序列及功能效应注释,过滤出错义突变位点。
4)将测序深度信息整合至注释文件:先使用bam-readcount(v 0.8.0)软件计算所有短测序序列上所有碱基的深度、质量及比对质量,然后使用VCF Readcount Annotator(v3.1.0)软件将bam-readcount生成的统计结果整合至VEP注释后的文件中。
步骤3:
1)肿瘤组织RNA比对:使用Fastaqc(v 0.11.6)软件统计肿瘤组织RNA测序质量,使用Cutadapter(v 1.2.1)软件去除建库时连接的测序接头,3’末端序列质量下降时需要删除以增加比对率。去除质量分数小于10的碱基占整条序列的30%的序列及含N碱基比例较高的序列,将质控后的测序数据使用Bowtie2(v 2.2.9)比对至人类参考基因组上,获得比对结果,排序比对结果。对于RNA-Seq,重复测序序列常常是高表达转录本的一种自然结果,因此对于差异分析,不进行标记/去除重复序列操作。
2)计算基因表达量:根据上一步产生的比对结果使用Cufflinks(v 2.2.1)软件进行基因的差异性表达分析,根据软件计算所得FPKM值判断基因是否表达。FPKM值大于0的基因认为是表达的基因,为消除噪声,将FPKM阈值提高至1。
3)过滤突变位点:将位于表达的基因上(即FPKM值大于1的基因)的错义突变位点筛选出来,作为后续新抗原预测的对象。
4)将基因及转录本表达信息整合至注释文件:使用VCF Expression Annotator(v3.1.0)软件将Cufflinks软件生成的差异性基因表达的分析结果整合至VEP注释后的文件中。
步骤4:
构建氨基酸FASTA文件:包含上一步产生的每个错义突变位点的野生型和突变型两种氨基酸FASTA序列,FASTA序列在突变氨基酸的前后各保留8~10个氨基酸,如果突变是在转录本的头部或者尾部,则分别截取后面及前面16~20个氨基酸来构建FASTA序列。
步骤5:
预测肿瘤新抗原:使用pVAC-Seq(v 4.0.10)软件根据以上步骤生成的VEP注释文件计算可与已分型的HLA-I类及HLA-II类等位基因高亲和力结合的抗原多肽,预测出的抗原多肽其中整合了基因表达信息及测序深度信息,可根据以上信息进行后续抗原多肽的筛选以制备多肽疫苗。
下面将结合实施例进一步说明本发明的有益效果。
实施例1
本实施例中,应用黑色素细胞瘤患者的全外显子测序和RNA-Seq数据进行测试,可以准确的对HLA-I类及HLA-II类等位基因分型,并预测可与HLA-I类及HLA-II类等位基因紧密结合的新抗原。
具体步骤如下:
获取一例黑色素瘤患者的肿瘤组织及血浆白细胞样本,提取肿瘤组织DNA、RNA及血浆白细胞DNA构建测序文库,并进行全外显子组测序,获取测序数据。
数据分析如下:
步骤1:
1)血浆白细胞DNA比对:使用Fastqc(v 0.11.6)(-t 6)软件统计血浆白细胞DNA的测序质量,使用Cutadapter(v1.2.1)软件去除建库时连接的测序接头,软件使用默认参数,去除质量分数小于10的碱基占整条序列的30%的序列及含N碱基比例较高的序列。将质控后的短测序序列使用BWA(V0.7.17)的MEM比对算法比对至hg19/GRCh37人类参考基因组上,获得比对结果,排序比对比对结果并建立Index文件,使用Picard Tools(v2.18.4)软件MarkDuplicates命令标记/去除重复序列。
2)HLA-I类及HLA-II类等位基因分型:使用BWA(v0.7.17)软件MEM比对算法将质控后的血浆白细胞测序数据比对至IMMUNE EPITOPE DATABASE(IEDB)数据库HLA等位基因参考序列上,得到比对数据,使用HLAscan(v2.1.3)软件进行HLA-I类的A、B、C三种亚型及HLA-II类的DP、DQ、DR三种亚型的等位基因分型,软件使用默认参数。
步骤2:
1)肿瘤组织DNA比对:使用Fastqc(v0.11.6)(-t6)软件统计肿瘤组织DNA的测序质量,使用Cutadapter(v1.2.1)软件去除建库时连接的测序接头,软件使用默认参数,去除质量分数小于10的碱基占整条序列的30%的序列及含N碱基比例较高的序列。将质控后的短测序序列使用BWA(V0.7.17)的MEM比对算法比对至hg19/GRCh37人类参考基因组上,获得比对结果,排序比对比对结果并建立Index文件,使用Picard Tools(v2.18.4)软件MarkDuplicates命令标记/去除重复序列。
2)肿瘤组织体细胞突变检出:基于步骤1(1)中生成的血浆白细胞DNA比对数据,作为正常对照,使用VarScan(v2.4.3)软件somatic命令(--output-snp,--somatic-p-value0.01,--min-coverage 6,--output-vcf 1,--normal-purity 1.00,--strand-filter1,--validation 1)对上一步产生的肿瘤组织DNA数据进行体细胞单核苷酸变异检出,过滤掉测序深度小于1000X,突变频率低于1%及具有链偏好性的突变位点。
3)肿瘤组织体细胞突变注释:使用Variant Effect Predictor(v95.3)软件对上一步顾虑出的体细胞突变位点进行注释(--cache,--dir_cache,--offline,-i,-o,--format vcf,--species homo_sapines,--vcf,--symbol,--term SO,--hgvs,--fasta,--plugin Downstream,--plugin Wildtype,--dir_plugs,--pick–transcript_version,--force_overwrite,--fork 6,--merged,--used_transcript_ref,--use_given_ref),筛选出注释后的错义突变位点。
4)将测序深度信息整合至注释文件:使用Bam read count(v0.8.0)(-f,-l)软件计算所有短测序序列上所有碱基的深度、质量及比对质量,然后使用VCF ReadcountAnnotator(v3.1.0)(-s<sample_name>,-t snp,-o<annotated_vcf>)软件将bam-readcount软件生成的统计结果整合至筛选出的已注释的错义突变位点的文件中.
步骤3:
1)肿瘤组织RNA比对:使用Fastqc(v0.11.6)(-t6)软件统计肿瘤组织RNA测序质量,使用Cutadapter(v1.2.1)软件去除建库时连接的测序接头,去除质量分数小于10的碱基占整条序列的30%的序列及含N碱基比例较高的序列。使用Tophat 2(v2.1.0)(-p 8,-G<homo_reference>)软件将质控后的测序数据比对至hg19/GRCh37人类参考基因组上,排序比对文件。
2)计算基因表达量:使用Cufflinks(v2.2.1)(-p 8,-G<gene_gtf>,-b<homo_genome_fasta>,-u,--no-update-check>)软件对上一步生成的比对数据进行基因的差异性表达分析,计算FPKM值,筛选出FPKM值大于1的基因上的错义突变位点。
3)将基因及转录本表达信息整合至注释文件:使用VCF Expression Annotator(v3.1.0)(默认参数)软件将上一步Cufflinks软件生成的分析结果整合至筛选出的已注释的错义突变位点文件中。
步骤4:
构建氨基酸FASTA文件:包含上一步筛选出的所有错义突变位点的野生型和突变型两种氨基酸FASTA序列,FASTA序列在突变氨基酸的前后各保留8~10个氨基酸,如果突变是在转录本的头部或者尾部,则分别截取头部后及尾部前16~20个氨基酸来构建FASTA序列。
步骤5:
预测肿瘤新抗原:使用pVac-Seq(v4.0.10)软件run命令的NetMHC算法(-e 8,9,10,--iedb-install-directory<IEDB_install_dir>,-i<additional_input_yaml_file>,--tdna-vaf 20,--net-chop-method cterm,--netmhc-stab,–top-score-metric=lowest,-d full)预测可与分型出来的HLA等位基因高亲和力结合的抗原多肽。
预测的抗原多肽结果的部分展示如表1所示。
表1
Figure BDA0002184792960000081
Figure BDA0002184792960000091
注:Chromosome代表染色体,Start代表起始位点,Stop代表终止位点,Reference代表参考碱基,Variant代表突变碱基,Transcript代表转录本,Ensembl Gene ID:Ensembl数据库基因ID,Variant Type代表突变类型,Mutation代表氨基酸的改变,ProteinPosition代表突变引起的改变的蛋白质的位置,Gene Name代表基因名称,HLA Allele代表HLA等位基因分型,Peptide Length代表抗原多肽链的长度,Sub-peptide Position代表亚多肽位置,Mutation Position代表突变引起改变的氨基酸的位置,MT Epitope Seq代表突变型多肽链的序列,WT Epitope Seq代表野生型多肽链的序列,Best MT Score Method代表预测新抗原所用算法,Best MT Score代表突变型抗原多肽得分,Corresponding WTScore代表与突变型抗原多肽对应的野生型多肽的得分,Corresponding Fold Change野生型得分与突变型等分比值,Tumor DNA Depth代表肿瘤DNA中该突变位点的测度深度,TumorDNA VAF代表肿瘤组织DNA突变位点的突变频率,Normal Depth代表血浆白细胞DNA中该突变位点的测序深度,Normal VAF代表血浆白细胞DNA中该突变位点的突变频率,GeneExpression代表基因表达量,Transcript Expression代表转录本表达量,Median MTScore代表突变型多肽得分的中位值,Median WT Score代表野生型多肽得分的中位值,Median Fold Change代表野生型得分中位值与突变型得分中位值的比值,NetMHC WTScore代表NetMHC算法预测的突变型多肽得分,NetMHC MT Score代表NetMHC算法预测的野生型多肽得分。
从以上的描述中,可以看出,本发明上述的实施例实现了如下技术效果:
利用肿瘤患者的肿瘤组织及血浆白血胞进行全外显子基因组测序,可以对样本进行准确及高分辨的HLA等位基因分型,及预测出可与HLA等位基因高亲和力结合的抗原多肽。利用自体混合淋巴细胞-肿瘤细胞培养及其衍生的T细胞克隆,发现四种突变可编码患者特异性HLA限制性新抗原,分别为PRDM10mut(S1050F)、INSIG1mut(S238F)、MMS22Lmut(S437F)、HERPUD1mut(G161S),检测到肿瘤抗原特异性应答的杀伤T细胞。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种肿瘤新抗原的预测方法,其特征在于,包括以下步骤:
S1,获取肿瘤患者的肿瘤样本和血浆白细胞样本,分别提取所述肿瘤样本的RNA和DNA以及所述血浆白细胞样本的DNA,构建测序文库并且进行全基因组、全外显子组或靶向捕获RNA、DNA测序;
S2,以血浆白细胞DNA作为对照,对肿瘤样本DNA进行比对及体细胞突变的检出,过滤出错义突变位点并对过滤出的所述错义突变位点进行注释;
S3,采用血浆白细胞DNA测序数据对HLA-I类及HLA-II类等位基因进行分型;
S4,以HLA-I类及HLA-II类等位基因分型为基础,结合所述S2得到的信息,预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽;
S5,将基因表达量数据及测序深度信息注释到体细胞变异检出数据中,并对与胚系突变相近的体细胞突变引起的多肽的改变进行纠正;
所述基因表达量数据通过以下步骤获得:
对肿瘤组织RNA进行转录组分析,将RNA测序数据比对至人类参考基因组,分析基因的差异性表达,计算FPKM值;
Figure FDA0003551583710000011
其中,total exon Fragments为比对到某一转录本上的片段数目,mapped reads为比对上的所有短序列总数,exon length为转录本长度;
根据FPKM值判断基因是否为表达基因,将属于表达基因的错义突变位点筛选出来作为新抗原预测的对象。
2.根据权利要求1所述的预测方法,其特征在于,所述FPKM值大于1判断为表达基因。
3.根据权利要求1所述的预测方法,其特征在于,所述S3与S4之间还包括构建FASTA文件,所述FASTA文件包含错义突变位点的野生型和突变型两个氨基酸序列,FASTA序列在突变氨基酸的每一侧包保留8~10个侧链氨基酸,如果突变是在转录本的头部或者尾部,则分别截取前面或后面的16~20个氨基酸来构建FASTA序列。
4.根据权利要求1所述的预测方法,其特征在于,所述S4中,应用NetMHC算法预测可与HLA-I类及HLA-II类等位基因结合的抗原多肽。
5.根据权利要求1所述的预测方法,其特征在于,所述S1和S2之间还包括:
测序序列质量检查,依据碱基质量分数分布、测序质量分数分布、每条序列平均碱基含量、序列中GC碱基分布、PCR扩增问题、去除接头对测序序列进行修剪,保留高质量测序序列以供进一步分析,低质量的测序序列排除在分析之外;
将测序序列比对至人类参考基因组上,标记/去除重复序列。
6.如权利要求1至5中任一项所述的肿瘤新抗原的预测方法在疫苗筛选中的应用。
7.根据权利要求6所述的应用,其特征在于,在选择候选疫苗时,测序深度以及包含变异等位基因频率的测序序列的比例作为筛选优先级突变的标准,过滤掉正常DNA测序覆盖深度≤5,等位基因突变频率≥2%的突变位点,覆盖深度提高至20;
根据血浆白细胞中肿瘤细胞的污染的可疑程度,增加等位基因突变频率的阈值,对于肿瘤DNA的覆盖深度过滤阈值为≥10及突变频率阈值为≥40%,FPKM值大于1判断基因为表达。
CN201910809829.9A 2019-08-29 2019-08-29 肿瘤新抗原的预测方法及其应用 Active CN110600077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910809829.9A CN110600077B (zh) 2019-08-29 2019-08-29 肿瘤新抗原的预测方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910809829.9A CN110600077B (zh) 2019-08-29 2019-08-29 肿瘤新抗原的预测方法及其应用

Publications (2)

Publication Number Publication Date
CN110600077A CN110600077A (zh) 2019-12-20
CN110600077B true CN110600077B (zh) 2022-07-12

Family

ID=68856352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910809829.9A Active CN110600077B (zh) 2019-08-29 2019-08-29 肿瘤新抗原的预测方法及其应用

Country Status (1)

Country Link
CN (1) CN110600077B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111180010B (zh) * 2019-12-27 2023-07-11 北京优迅医学检验实验室有限公司 肿瘤体细胞突变位点检测方法及其装置
CN111415707B (zh) * 2020-03-10 2023-04-25 四川大学 临床个体化肿瘤新抗原的预测方法
CN111798919B (zh) * 2020-06-24 2022-11-25 上海交通大学 一种肿瘤新抗原预测方法、预测装置及存储介质
CN112071364B (zh) * 2020-07-21 2022-08-26 首都医科大学附属北京地坛医院 用于肝癌患者抗肿瘤免疫应答的个体化的可视化展示方法
CN112029861B (zh) * 2020-09-07 2021-09-21 臻悦生物科技江苏有限公司 基于捕获测序技术的肿瘤突变负荷检测装置及方法
CN112201307A (zh) * 2020-09-23 2021-01-08 温州医科大学 一种转录本注释方法以及筛选长非编码rna和内源逆转录病毒来源长非编码rna的方法
CN113160887B (zh) * 2021-04-23 2022-06-14 哈尔滨工业大学 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法
CN116825188B (zh) * 2023-06-25 2024-04-09 北京泛生子基因科技有限公司 基于高通量测序技术在多组学层面识别肿瘤新抗原的方法、装置及计算机可读存储介质
CN117174166B (zh) * 2023-10-26 2024-03-26 北京基石生命科技有限公司 基于三代测序数据的肿瘤新抗原预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018183544A1 (en) * 2017-03-31 2018-10-04 Dana-Farber Cancer Institute, Inc. Method for identification of retained intron tumor neoantigens from patient transcriptome
CN108796055A (zh) * 2018-06-12 2018-11-13 深圳裕策生物科技有限公司 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
CN109801678A (zh) * 2019-01-25 2019-05-24 上海鲸舟基因科技有限公司 基于全转录组的肿瘤抗原预测方法及其应用

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017011660A1 (en) * 2015-07-14 2017-01-19 Personal Genome Diagnostics, Inc. Neoantigen analysis
CN108491689B (zh) * 2018-02-01 2019-07-09 杭州纽安津生物科技有限公司 基于转录组的肿瘤新抗原鉴定方法
CN109706065A (zh) * 2018-12-29 2019-05-03 深圳裕策生物科技有限公司 肿瘤新生抗原负荷检测装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018183544A1 (en) * 2017-03-31 2018-10-04 Dana-Farber Cancer Institute, Inc. Method for identification of retained intron tumor neoantigens from patient transcriptome
CN108796055A (zh) * 2018-06-12 2018-11-13 深圳裕策生物科技有限公司 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
CN109801678A (zh) * 2019-01-25 2019-05-24 上海鲸舟基因科技有限公司 基于全转录组的肿瘤抗原预测方法及其应用

Also Published As

Publication number Publication date
CN110600077A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110600077B (zh) 肿瘤新抗原的预测方法及其应用
Jia et al. Local mutational diversity drives intratumoral immune heterogeneity in non-small cell lung cancer
Ballhausen et al. The shared frameshift mutation landscape of microsatellite-unstable cancers suggests immunoediting during tumor evolution
CN109801678B (zh) 基于全转录组的肿瘤抗原预测方法及其应用
Pertea et al. CHESS: a new human gene catalog curated from thousands of large-scale RNA sequencing experiments reveals extensive transcriptional noise
Schischlik et al. Mutational landscape of the transcriptome offers putative targets for immunotherapy of myeloproliferative neoplasms
CN108388773B (zh) 一种肿瘤新生抗原的鉴定方法
US20170028044A1 (en) Compositions And Methods For Viral Cancer Neoepitopes
CN109584960B (zh) 预测肿瘤新生抗原的方法、装置及存储介质
JP2018524008A (ja) ネオアンチゲン分析
CN106414768B (zh) 与癌症相关的基因融合体和基因变异体
CN111415707B (zh) 临床个体化肿瘤新抗原的预测方法
WO2019090156A1 (en) Normalizing tumor mutation burden
CN112852936A (zh) 一种应用免疫组库测序方法分析样本淋巴细胞或浆细胞的方法及其应用及其试剂盒
CN111755067A (zh) 一种肿瘤新生抗原的筛选方法
CN111534602A (zh) 一种基于高通量测序分析人类血型基因型的方法及其应用
Wu et al. Identification of clonal neoantigens derived from driver mutations in an EGFR-mutated lung cancer patient benefitting from anti-PD-1
CN109584957B (zh) 用于捕获α地中海贫血相关基因拷贝数检测试剂盒
CN115747327A (zh) 涉及移码突变的新抗原预测方法
CN112921091B (zh) Flt3基因突变在预测非小细胞肺癌患者对免疫检查点抑制剂疗法敏感性中的应用
Morazán-Fernández et al. In silico pipeline to identify tumor-specific antigens for cancer immunotherapy using exome sequencing data
Wu et al. Quantification of neoantigen-mediated immunoediting in cancer evolution
Olsen et al. Novel fusion genes and chimeric transcripts in ependymal tumors
Jurtz et al. Computational methods for identification of T cell neoepitopes in tumors
CN111192632A (zh) 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant