CN113362896A - 一种基于hpv整合的肿瘤新抗原预测方法 - Google Patents
一种基于hpv整合的肿瘤新抗原预测方法 Download PDFInfo
- Publication number
- CN113362896A CN113362896A CN202110696080.9A CN202110696080A CN113362896A CN 113362896 A CN113362896 A CN 113362896A CN 202110696080 A CN202110696080 A CN 202110696080A CN 113362896 A CN113362896 A CN 113362896A
- Authority
- CN
- China
- Prior art keywords
- hpv
- transcripts
- human
- integration
- transcript
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010354 integration Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 28
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 13
- 241000282414 Homo sapiens Species 0.000 claims abstract description 52
- 239000000427 antigen Substances 0.000 claims abstract description 35
- 108091007433 antigens Proteins 0.000 claims abstract description 35
- 102000036639 antigens Human genes 0.000 claims abstract description 35
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 31
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 30
- 229920001184 polypeptide Polymers 0.000 claims abstract description 28
- 238000013519 translation Methods 0.000 claims abstract description 22
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 18
- 239000012634 fragment Substances 0.000 claims abstract description 14
- 102000007079 Peptide Fragments Human genes 0.000 claims abstract description 12
- 108010033276 Peptide Fragments Proteins 0.000 claims abstract description 12
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 210000000265 leukocyte Anatomy 0.000 claims abstract description 8
- 108010026552 Proteome Proteins 0.000 claims abstract description 7
- 238000003559 RNA-seq method Methods 0.000 claims abstract description 5
- 238000003205 genotyping method Methods 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims description 21
- 108700026244 Open Reading Frames Proteins 0.000 claims description 10
- 108091081024 Start codon Proteins 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 7
- 238000012350 deep sequencing Methods 0.000 claims description 3
- 108020004999 messenger RNA Proteins 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 abstract description 7
- 230000008569 process Effects 0.000 abstract description 6
- 206010061818 Disease progression Diseases 0.000 abstract description 4
- 230000005750 disease progression Effects 0.000 abstract description 4
- 238000013518 transcription Methods 0.000 abstract description 3
- 230000035897 transcription Effects 0.000 abstract description 3
- 108020004414 DNA Proteins 0.000 description 8
- 108700020796 Oncogene Proteins 0.000 description 6
- 241000700605 Viruses Species 0.000 description 6
- 206010008342 Cervix carcinoma Diseases 0.000 description 5
- 102000043276 Oncogene Human genes 0.000 description 5
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 5
- 201000010881 cervical cancer Diseases 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 102000003839 Human Proteins Human genes 0.000 description 2
- 108090000144 Human Proteins Proteins 0.000 description 2
- 108010021466 Mutant Proteins Proteins 0.000 description 2
- 102000008300 Mutant Proteins Human genes 0.000 description 2
- 241001631646 Papillomaviridae Species 0.000 description 2
- 208000009608 Papillomavirus Infections Diseases 0.000 description 2
- 230000001594 aberrant effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 238000009169 immunotherapy Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- 210000001266 CD8-positive T-lymphocyte Anatomy 0.000 description 1
- 108020004705 Codon Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 241000701806 Human papillomavirus Species 0.000 description 1
- 241000341655 Human papillomavirus type 16 Species 0.000 description 1
- 102000043129 MHC class I family Human genes 0.000 description 1
- 108091054437 MHC class I family Proteins 0.000 description 1
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 1
- 208000037581 Persistent Infection Diseases 0.000 description 1
- 108020004729 UniProt protein families Proteins 0.000 description 1
- 102000006668 UniProt protein families Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000033383 cell-cell recognition Effects 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004400 mucous membrane Anatomy 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Zoology (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Wood Science & Technology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于HPV整合的肿瘤新抗原预测方法,属于生物信息学技术领域。该方法包括以下步骤:S01,组装肿瘤样品转录本;S02,筛选样本HPV整合转录本;S03,翻译HPV整合转录本为多肽;S04,获取多肽短序列片段,并过滤人类正常蛋白质组中多肽;S05,样品人类白细胞抗原基因分型;S06,肽段亲和力预测、新抗原筛选。本发明得到的新抗原是HPV整合的结果,与疾病进展过程密切相关。本发明得到的新抗原来自于RNA测序数据,是细胞转录的结果,有更高的概率翻译产生蛋白质。
Description
技术领域
本发明属于生物信息学技术领域,具体涉及一种基于人类基因组中的HPV插入片段预测新抗原的方法。
背景技术
HPV(Human papillomavirus)也叫人乳头瘤病毒,是一种DNA病毒,属于乳头瘤病毒科乳头瘤病毒属,可以感染人体表皮与粘膜组织。目前发现的HPV病毒有一百多种亚型,其中80多种跟人体密切相关。研究证实HPV感染是宫颈癌的致病因素,绝大多数宫颈癌是由高危型HPV持续感染引起,其中最具代表性的高危型HPV病毒亚型为HPV16和HPV18。从感染HPV到最终发展为宫颈癌大约需要15年的时间。在HPV感染早期,HPV基因组以游离形式存在人染色体外,在该阶段的HPV容易被免疫系统清除。随着癌前病变的进展,HPV基因组DNA会插入到人基因组当中发生整合。
现阶段关于HPV的研究大多集中在HPV E6和E7癌基因的作用,忽略了HPV整合的重要性,大多数病变进展至宫颈癌阶段都出现了HPV基因整合,因此HPV整合与疾病进展过程密切相关,并且是疾病进展的重要标志。HPV整合引起宿主细胞基因组强烈不稳定,致使整合位点附近发生大量的染色体扩增、缺失、重排和易位。与此同时,HPV整合在人类基因组并非随机发生,大部分已知整合位点位于基因组脆性位点和癌基因或者抑癌基因附近,这些整合事件会导致抑癌基因功能异常失活或者癌基因异常激活。
整合进人类基因组的HPV病毒可能产生不属于正常细胞的突变蛋白,这些异常蛋白质序列在胞内被蛋白酶体加工成短肽,然后再被人类白细胞抗原结合,呈递到细胞表面上,从而作为外来抗原即新抗原被T细胞识别。新抗原疫苗肿瘤免疫治疗方法以其治疗效果显著、适用癌种广泛和毒副作用小等特点已成为免疫治疗家族重要的成员。因此,基于HPV整合后的人类基因组病毒插入位点开发的新抗原预测算法对宫颈癌等肿瘤的研究和临床应用都具有重要意义。
发明内容
针对当前HPV研究中存在的问题,本发明充分考虑人类基因组中的HPV插入片段,开发了一套基于HPV整合的新抗原分析的生物信息学方法。
本发明在于公开一种基于HPV整合的肿瘤新抗原预测方法,包括以下步骤:
S01,组装肿瘤样品转录本;
S02,筛选样本HPV整合转录本;
S03,翻译HPV整合转录本为多肽;
S04,获取多肽短序列片段,并过滤人类正常蛋白质组中多肽;
S05,样品人类白细胞抗原基因分型;
S06,肽段亲和力预测、新抗原筛选。
优选的,所述样本为新鲜肿瘤组织样品;作为替代,可以选用外周血样品。
在本发明的一些实施方式中,S01中,包括以下步骤:
S11,建库测序,获取样品mRNA的深度测序数据;
S12,过滤测序数据,去除测序数据中平均碱基质量低或者包含测序引物接头的短读序列,并将数据格式转换为后续组装软件能够接收的形式;
S13,将过滤后的数据组装为转录本。
在本发明的一些优选的实施方式中,S11中,采用去核糖体链特异性建库方法和小片段富集筛选建库方法来建库测序。
在本发明的一些优选的实施方式中,S11中,样本数据中包括多个重叠或部分重叠的短读序列,获取样品的RNA-Seq测序数据不小于15G。
在本发明的一些优选的实施方式中,S12中,所述平均碱基质量不低于20。
在本发明的一些实施方式中,S13中,利用De novo组装软件Trinity将过滤后的数据组装为转录本;
优选地,使用De novo组装软件Trinity时,利用窗口滑动切割reads为Kmer,通过相邻Kmer之间的连接构建de Bruijn图,然后在每幅图中得到所有的剪接异构体代表路径;进一步优选,去除组装过程中的unique occurring Kmer。
在本发明的一些实施方式中,S02中,先将组装得到的转录本与HPV基因组进行比对,从中筛选出HPV阳性转录本,然后再与人类参考基因组进行比对,从中筛选能同时比对到HPV基因组和人参考基因组的转录本,即HPV整合转录本。
在本发明的一些优选的实施方式中,S02中,在分析比对结果时,过滤掉比对长度小于100bp、序列相似度小于98.0%的比对结果。
在本发明的一些实施方式中,S03中,包括以下步骤:
S31,完整阅读框翻译:若在转录本中找到完整开放阅读框ORF,则将找到的ORF进行从头翻译;
S32,起始密码子翻译:若未能在整合转录本中寻找到ORF,则在其中搜寻起始密码子ATG,然后从起始密码子开始往后进行翻译,得到多肽片段;
S33,外显子翻译:若整合位点在人外显子区域,则利用人类外显子进行辅助翻译;
S34,将S31或S32和S33得到的结果文件合并。
在本发明的一些优选的实施方式中,S04中,将得到的蛋白/多肽序列分割成长度为8~12的Kmer,并过滤人类正常蛋白质组中多肽。
在本发明的一些实施方式中,S06中,通过算法预测特定HLA亚型与多肽之间的亲和性,筛选出与HLA分子亲和性强的肽段;
优选地,利用软件NetMHC-4.0预测分割之后的Kmer残基肽段与HLA分子的亲和力,选取亲和力大于阈值的为候选新抗原。
与现有技术相比,本发明的方案具有如下优势:
一、现阶段关于HPV的研究大多集中在HPV基因组本身E6和E7癌基因的作用,忽略了HPV整合的重要性,本发明得到的新抗原是HPV整合的结果,与疾病进展过程密切相关。
二、从来源上讲,当前预测新抗原常用的方法是首先识别DNA层面的突变,再预测得到肽段。因为DNA需要先转录成RNA再翻译为蛋白质,由于发生突变的DNA片段可能没有发生转录,导致预测得到的新抗原不会产生。本发明得到的新抗原来自于RNA测序数据,是细胞转录的结果,有更高的概率翻译产生蛋白质。
附图说明
图1本发明一种实施方式的基于HPV整合的新抗原分析的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。若非特别之处,实施例和对比例为组分、组分含量、制备步骤、制备参数相同地平行试验。
实施例1
如图1所示,一种基于HPV整合的新抗原预测方法,该方法包括由处理器执行的如下步骤:
S01,组装肿瘤样品转录本
具体地,首先采用去核糖体链特异性建库方法和小片段富集筛选建库方法建库测序,获取样品mRNA的深度测序数据。样本数据中包括多个重叠或部分重叠的短读序列,重叠程度的不同与测序的深度有关,应获取样品不小于15G的RNA-Seq测序数据。
其次,过滤测序数据,去除测序数据中平均碱基质量低于20或者包含测序引物接头的短读序列,并将数据格式转换为后续组装软件能够接收的形式,具体地对组装软件Trinity而言,双端测序的read id分别应为“name/1”和“name/2”。
然后利用De novo组装软件Trinity将过滤后的数据组装为转录本,软件首先利用窗口滑动切割reads为Kmer,通过相邻Kmer之间的连接构建de Bruijn图,然后在每幅图中得到所有的剪接异构体代表路径。为降低内存消耗并且减少拼接过程中的噪音,可以去除组装过程中的unique occurring Kmer。
S02,筛选样本HPV整合转录本
HPV整合是指HPV基因组DNA插入到人基因组DNA中,从数据上看,整合后的转录本一部分比对到人基因组,另一部分比对到HPV基因组;由于HPV基因组(约7.9K)相对人基因组(约3G)较小,且相差较大,为减少比对计算资源消耗,先将组装得到的转录本与HPV基因组进行比对,从中筛选出HPV阳性转录本,然后再与人类参考基因组进行比对,从中筛选能同时比对到HPV基因组和人参考基因组的转录本,即HPV整合转录本。
参考基因组数据是指各染色体上的碱基序列数据,通常为FASTA格式,参考基因组数据可以通过UCSC或者Ensemble下载,使用版本为hg38/GRCh38;一些常见的人基因组文件中可能已经包含HPV病毒基因组序列,如GRCh38.d1.vd1.fa中就包含有189条HPV相关序列,本实施例中需要选用仅包含primary_assembly的人基因组文件,如
Homo_sapiens.GRCh38.dna.primary_assembly.fa。
在分析比对结果时,需要过滤掉比对长度较短、相似度较低的比对结果,本实施例要求最低比对长度为100bp,最低序列相似度为98.0%。
S03,翻译HPV整合转录本为多肽
对HPV整合转录本进行翻译,本实施例分为以下3种情况:
S03-1,完整阅读框翻译
若在转录本中找到完整开放阅读框(Open Reading Frame,ORF),则将找到的ORF进行从头翻译;具体地,先利用ORFFinder在整合转录本中查找开放阅读框,然后则对ORF利用密码子表进行翻译。
S03-2,起始密码子翻译
若未能在整合转录本中寻找到ORF,则在其中搜寻起始密码子(ATG),然后从起始密码子开始往后进行翻译,得到多肽片段;
S03-3,外显子翻译
若整合位点在人外显子区域,则利用人类外显子进行辅助翻译。具体来说,本实施例假设HPV序列插入到人基因外显子区域,整合位点前的人外显子序列按原有方式正常翻译,整合位点后的HPV序列紧接着翻译,得到多肽片段。需要注意的是HPV整合转录本的翻译方向由转录本比对人基因组正链还是负链以及比对的蛋白编码基因位于人基因组正链还是负链共同决定,当二者同为正链或者同为负链时,从正向翻译转录本,否者需要先对转录本取反向互补序列,然后再进行翻译。
最后,将这三个部分得到的结果文件合并。
S04,获取多肽短序列片段,并过滤人类正常蛋白质组中多肽
Kmer是值一个字符串包含的所有可能的长度为k的子字符串集,对于一条输入蛋白序列而言,从第一个氨基酸残基开始,采用步长为1的滑动窗依次提取固定长度k的序列,这些序列就是Kmer。具体地,将上一步得到的蛋白序列分割成长度较小的Kmer,利用软件将S03得到的蛋白/多肽序列分割成长度为8~12的Kmer,并过滤人类正常蛋白质组中多肽。具体地,UniProt是一个综合性的非冗余数据库,包含所有的公开的人类蛋白质序列,去除在UniProt蛋白质中的Kmer片段。
S05,样品人类白细胞抗原基因分型
人类白细胞抗原(Human Leukocyte Antigen,HLA),又被称为人类的MHC(MajorHistocompatibility Complex),是控制细胞间相互识别、调节免疫应答的一组紧密连锁基因群。HLA位于6号染色体短臂,具有高度的遗传多态性,是基因中等位基因多态性最高的基因复合体。所编码的MHC I类分子主要介导CD8+T细胞对抗原的识别和扑杀,II类分子则主要与CD4+T细胞结合,从而启动免疫应答。不同亚型HLA分子对同一多肽的亲和力可能不同,明确样品HLA亚型,可以筛选出亲和力较高的多肽作为候选新抗原。具体的,利用软件seq2HLA对样品的人类白细胞抗原进行基因分型。
S06,肽段亲和力预测、新抗原筛选
肿瘤细胞表达的突变蛋白不被正常细胞表达,这些异常蛋白质序列在胞内被蛋白酶体加工成短肽,然后再被人类白细胞抗原结合,呈递到细胞表面上,从而作为外来抗原被T细胞识别。通过算法预测特定HLA亚型与多肽之间的亲和性,筛选出与HLA分子亲和性强的肽段。具体地,利用软件NetMHC-4.0预测分割之后的Kmer残基肽段与HLA分子的亲和力,选取亲和力大于阈值的为候选新抗原。
得到候选新抗原之后,提取其测序数据覆盖度计算表达丰度,具体地,首先对组装得到的转录本建立索引,再利用比对软件将过滤后的数据回帖到转录本,然后将候选新抗原片段定位到转录本具体位置,提起特定位置的测序数据支持数,最后根据多肽的相应特征如MHC亲和力、表达丰度等进行新抗原筛选。所用软件具体提参数如下:
使用Trimmomatic进行原始数据的过滤,其示例命令为:
其中sample_1.fastq.gz与sample_2.fastq.gz为输入的原始数据,sample.clean.R1.fq.gz、sample.unpaired.R1.fq.gz、sample.clean.R2.fq.gz和sample.unpaired.R2.fq.gz是输出数据,ILLUMINACLIP:adapter.fa:2:30:10:8:true表示切除测序引物序列,参数后面分别接接头序列文件、允许的最大错配数、palindrome模式下匹配碱基数阈值、simple模式下的匹配碱基数阈值;LEADING指明切除首端碱基质量小于20的碱基;TRAILING指明切除末端碱基质量小于20的碱基;MINLEN指明最小的序列长度。
使用Trinity进行De novo组装,其示例命令为:
其中--left read1和--right read2为过滤后的原始数据,--min_kmer_cov 2表示去除组装过程中的unique occurring Kmer;--output trinity_out_dir为结果文件存放路径,需要注意的是,该路径名必须包含trinity字符。
使用Blat将组装得到的转录本比对到HPV基因组,从中提取HPV阳性转录本,然后将HPV阳性转录本比对到人基因组,再从中提取HPV整合转录本,其示例命令为:
其中assemble.fa为经De novo组装得到的转录本文件,HPV.fa为HPV基因组,Homo_sapiens.GRCh38.dna.primary_assembly.fa为人类参考基因组primary部分序列。-out=blast8表示采用类似blast m8的格式输出结果文件,共包含12列,分别为查询序列ID标识、比对上的目标序列ID标识、序列比对的一致性百分比、符合比对的比对区域长度、比对区域的错配碱基数、比对区域的碱基间隔数、比对区域在查询序列上的起始位点、比对区域在查询序列上的终止位点、比对区域在目标序列上的起始位点、比对区域在目标序列上的终止位点、比对结果期望值、比对结果的bit score值;-m 100-i 98-g 5表示最低比对长度为100bp,最低序列相似度为98.0%,最大允许间隔为5个碱基。
使用软件对HPV整合转录本进行翻译,其示例命令为:
其中integration.fa为HPV整合转录本,Homo_sapiens.gtf为人类基因组注释文件,用于定位转录本整合位点。
使用seq2HLA进行MHC基因分型,其示例命令为:
使用netMHCpan进行肽段亲和力预测,其示例命令为:
其中protein.fa为整合转录本经翻译得到的蛋白质、肽段集合,uniprot.fa为人类蛋白文件。
以上对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限于上述实施方式和实施例,在本领域技术人员所具备的知识范围内,还可以在不脱离本发明构思的前提下作出各种变化。
Claims (10)
1.一种基于HPV整合的肿瘤新抗原预测方法,其特征在于,包括以下步骤:
S01,组装肿瘤样品转录本;
S02,筛选样本HPV整合转录本;
S03,翻译HPV整合转录本为多肽;
S04,获取多肽短序列片段,并过滤人类正常蛋白质组中多肽;
S05,样品人类白细胞抗原基因分型;
S06,肽段亲和力预测、新抗原筛选。
2.根据权利要求1所述的方法,其特征在于,S01中,包括以下步骤:
S11,建库测序,获取样品mRNA的深度测序数据;
S12,过滤测序数据,去除测序数据中平均碱基质量低或者包含测序引物接头的短读序列,并将数据格式转换为后续组装软件能够接收的形式;
S13,将过滤后的数据组装为转录本。
3.根据权利要求1或2所述的方法,其特征在于,S11中,采用去核糖体链特异性建库方法和小片段富集筛选建库方法来建库测序;
和/或,S11中,样本数据中包括多个重叠或部分重叠的短读序列,获取样品的RNA-Seq测序数据不小于15G。
4.根据权利要求1-3任一所述的方法,其特征在于,S12中,所述平均碱基质量不低于20。
5.根据权利要求1-4任一所述的方法,其特征在于,S13中,利用De novo组装软件Trinity将过滤后的数据组装为转录本;
优选地,使用Denovo组装软件Trinity时,利用窗口滑动切割reads为Kmer,通过相邻Kmer之间的连接构建de Bruijn图,然后在每幅图中得到所有的剪接异构体代表路径;进一步优选,去除组装过程中的unique occurring Kmer。
6.根据权利要求1-5任一所述的方法,其特征在于,S02中,先将组装得到的转录本与HPV基因组进行比对,从中筛选出HPV阳性转录本,然后再与人类参考基因组进行比对,从中筛选能同时比对到HPV基因组和人参考基因组的转录本,即HPV整合转录本。
7.根据权利要求1-6任一所述的方法,其特征在于,S02中,在分析比对结果时,过滤掉比对长度小于100bp、序列相似度小于98.0%的比对结果。
8.根据权利要求1-7任一所述的方法,其特征在于,S03中,包括以下步骤:
S31,完整阅读框翻译:若在转录本中找到完整开放阅读框ORF,则将找到的ORF进行从头翻译;
S32,起始密码子翻译:若未能在整合转录本中寻找到ORF,则在其中搜寻起始密码子ATG,然后从起始密码子开始往后进行翻译,得到多肽片段;
S33,外显子翻译:若整合位点在人外显子区域,则利用人类外显子进行辅助翻译;
S34,将S31或S32和S33得到的结果文件合并。
9.根据权利要求1-8任一所述的方法,其特征在于,S04中,将得到的蛋白/多肽序列分割成长度为8~12的Kmer,并过滤人类正常蛋白质组中多肽。
10.根据权利要求1-9任一所述的方法,其特征在于,S06中,通过算法预测特定HLA亚型与多肽之间的亲和性,筛选出与HLA分子亲和性强的肽段;
优选地,利用软件NetMHC-4.0预测分割之后的Kmer残基肽段与HLA分子的亲和力,选取亲和力大于阈值的为候选新抗原。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696080.9A CN113362896A (zh) | 2021-06-23 | 2021-06-23 | 一种基于hpv整合的肿瘤新抗原预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696080.9A CN113362896A (zh) | 2021-06-23 | 2021-06-23 | 一种基于hpv整合的肿瘤新抗原预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113362896A true CN113362896A (zh) | 2021-09-07 |
Family
ID=77535897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110696080.9A Pending CN113362896A (zh) | 2021-06-23 | 2021-06-23 | 一种基于hpv整合的肿瘤新抗原预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113362896A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018183544A1 (en) * | 2017-03-31 | 2018-10-04 | Dana-Farber Cancer Institute, Inc. | Method for identification of retained intron tumor neoantigens from patient transcriptome |
CN110322925A (zh) * | 2019-07-18 | 2019-10-11 | 杭州纽安津生物科技有限公司 | 一种预测融合基因产生新生抗原的方法 |
CN110724765A (zh) * | 2019-10-30 | 2020-01-24 | 元码基因科技(北京)股份有限公司 | 含hpv整合位点的基因及其应用 |
CN111627497A (zh) * | 2020-05-19 | 2020-09-04 | 深圳市新合生物医疗科技有限公司 | 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用 |
-
2021
- 2021-06-23 CN CN202110696080.9A patent/CN113362896A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018183544A1 (en) * | 2017-03-31 | 2018-10-04 | Dana-Farber Cancer Institute, Inc. | Method for identification of retained intron tumor neoantigens from patient transcriptome |
CN110322925A (zh) * | 2019-07-18 | 2019-10-11 | 杭州纽安津生物科技有限公司 | 一种预测融合基因产生新生抗原的方法 |
CN110724765A (zh) * | 2019-10-30 | 2020-01-24 | 元码基因科技(北京)股份有限公司 | 含hpv整合位点的基因及其应用 |
CN111627497A (zh) * | 2020-05-19 | 2020-09-04 | 深圳市新合生物医疗科技有限公司 | 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用 |
Non-Patent Citations (1)
Title |
---|
王广志;李雨雨;谢鹭;: "个性化肿瘤新抗原疫苗中抗原肽预测研究进展", 生物化学与生物物理进展, no. 05, pages 441 - 448 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pertea et al. | CHESS: a new human gene catalog curated from thousands of large-scale RNA sequencing experiments reveals extensive transcriptional noise | |
CN109801678B (zh) | 基于全转录组的肿瘤抗原预测方法及其应用 | |
CN111627497B (zh) | 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用 | |
CN110600077B (zh) | 肿瘤新抗原的预测方法及其应用 | |
KR102381252B1 (ko) | 혈중 무세포 dna 기반 간암 치료 예후예측 방법 | |
CN111566225A (zh) | 归一化肿瘤突变负荷 | |
KR20190085667A (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
US20210375397A1 (en) | Methods and systems for determining fusion events | |
US20190362807A1 (en) | Genomic variant ranking system for clinical trial matching | |
Larson et al. | A clinician’s guide to bioinformatics for next-generation sequencing | |
CN113035272A (zh) | 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 | |
CN116631508B (zh) | 肿瘤特异性突变状态的检测方法及其应用 | |
WO2019016009A1 (en) | SCANSOFT: A METHOD FOR DETECTION OF GENOMIC DELETIONS AND DUPLICATIONS IN MASSIVE PARALLEL SEQUENCING DATA | |
CN112750501B (zh) | 一种宏病毒组流程的优化分析方法 | |
WO2024051097A1 (zh) | 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质 | |
CN113362896A (zh) | 一种基于hpv整合的肿瘤新抗原预测方法 | |
Oreper et al. | The peptide woods are lovely, dark and deep: Hunting for novel cancer antigens | |
US20230178182A1 (en) | Method for detecting chromosomal abnormality by using information about distance between nucleic acid fragments | |
CN111028888A (zh) | 一种全基因组拷贝数变异的检测方法及其应用 | |
KR102452413B1 (ko) | 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법 | |
CN110684830A (zh) | 一种石蜡切片组织rna分析方法 | |
CN113684213A (zh) | Myo15a基因突变体及其应用 | |
CN111599410B (zh) | 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用 | |
CN112442503A (zh) | Kcnq1基因突变体及其应用 | |
CN115820654A (zh) | Loxhd1基因突变体及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |