CN113533741A - 基于多肽结构性指标预测新抗原的方法 - Google Patents
基于多肽结构性指标预测新抗原的方法 Download PDFInfo
- Publication number
- CN113533741A CN113533741A CN202110696098.9A CN202110696098A CN113533741A CN 113533741 A CN113533741 A CN 113533741A CN 202110696098 A CN202110696098 A CN 202110696098A CN 113533741 A CN113533741 A CN 113533741A
- Authority
- CN
- China
- Prior art keywords
- polypeptide
- sample
- file
- protein
- sequencing data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 77
- 102000004196 processed proteins & peptides Human genes 0.000 title claims abstract description 76
- 229920001184 polypeptide Polymers 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000000427 antigen Substances 0.000 title claims abstract description 25
- 108091007433 antigens Proteins 0.000 title claims abstract description 24
- 102000036639 antigens Human genes 0.000 title claims abstract description 24
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 36
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 36
- 238000012163 sequencing technique Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 21
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 230000035772 mutation Effects 0.000 claims abstract description 16
- 241000282414 Homo sapiens Species 0.000 claims abstract description 11
- 239000012634 fragment Substances 0.000 claims abstract description 9
- 108010026552 Proteome Proteins 0.000 claims abstract description 7
- 230000000392 somatic effect Effects 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 239000000523 sample Substances 0.000 claims description 34
- 240000005499 Sasa Species 0.000 claims description 18
- 206010028980 Neoplasm Diseases 0.000 claims description 17
- 230000005847 immunogenicity Effects 0.000 claims description 12
- 239000013068 control sample Substances 0.000 claims description 8
- 238000012350 deep sequencing Methods 0.000 claims description 6
- 108010021466 Mutant Proteins Proteins 0.000 claims description 5
- 102000008300 Mutant Proteins Human genes 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000001712 DNA sequencing Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 238000000547 structure data Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 108091029795 Intergenic region Proteins 0.000 claims description 2
- 230000008826 genomic mutation Effects 0.000 claims 1
- 210000004896 polypeptide structure Anatomy 0.000 abstract description 4
- 239000013589 supplement Substances 0.000 abstract description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000002163 immunogen Effects 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000009169 immunotherapy Methods 0.000 description 5
- 210000004899 c-terminal region Anatomy 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001900 immune effect Effects 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000002904 solvent Substances 0.000 description 3
- 231100000331 toxic Toxicity 0.000 description 3
- 230000002588 toxic effect Effects 0.000 description 3
- 238000012408 PCR amplification Methods 0.000 description 2
- 150000001450 anions Chemical class 0.000 description 2
- 150000001768 cations Chemical class 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000001257 hydrogen Substances 0.000 description 2
- 230000028993 immune response Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000329 molecular dynamics simulation Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- QNRATNLHPGXHMA-XZHTYLCXSA-N (r)-(6-ethoxyquinolin-4-yl)-[(2s,4s,5r)-5-ethyl-1-azabicyclo[2.2.2]octan-2-yl]methanol;hydrochloride Chemical compound Cl.C([C@H]([C@H](C1)CC)C2)CN1[C@@H]2[C@H](O)C1=CC=NC2=CC=C(OCC)C=C21 QNRATNLHPGXHMA-XZHTYLCXSA-N 0.000 description 1
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 description 1
- 108091092195 Intron Proteins 0.000 description 1
- 108700026244 Open Reading Frames Proteins 0.000 description 1
- 102000035195 Peptidases Human genes 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 108020004729 UniProt protein families Proteins 0.000 description 1
- 102000006668 UniProt protein families Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000005859 cell recognition Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000011067 equilibration Methods 0.000 description 1
- 230000005661 hydrophobic surface Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000012846 protein folding Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 229960005486 vaccine Drugs 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
- 238000012049 whole transcriptome sequencing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6818—Sequencing of polypeptides
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Urology & Nephrology (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Biophysics (AREA)
- Hematology (AREA)
- Analytical Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Cell Biology (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Microbiology (AREA)
- Evolutionary Biology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于多肽结构性指标预测新抗原的方法,属于生物信息学技术领域。该方法包括以下步骤:S01,获取样品测序数据;S02,识别样品体细胞变异;S03,样品变异过滤;S04,翻译变异序列为蛋白质;S05,蛋白片段分割,并过滤人类正常蛋白质组中多肽;S06,预测蛋白片段结构;S07,计算相应多肽结构性指标;S08,筛选新抗原。发明基于多肽结构的指标,可以从微观层面对新抗原的性质进行刻画,从而对分子生物学特征筛选新抗原的方法是一个重要补充。
Description
技术领域
本发明属于肿瘤免疫治疗生物信息学技术领域,具体涉及一种基于多肽结构性指标预测新抗原的方法。
背景技术
恶性肿瘤是对人类危害最严重的疾病之一,针对恶性肿瘤的治疗方法在过去几十年中取得长足发展。现阶段常规的恶性肿瘤治疗方式包括手术、放疗、化疗以及靶向治疗,然而,上述治疗方式都有一定的局限性,并且容易受到毒副作用和肿瘤复发的影响。近年来,基于激活免疫系统从而抑制和杀伤肿瘤细胞的免疫治疗成为恶性肿瘤领域新的热点,其中基于新抗原的免疫治疗具有作用范围广和毒副作用小等特点。
新抗原疫苗肿瘤免疫治疗效果显著,可应用于多癌种且毒副作用较小,目前已经成为免疫治疗家族中重要的成员。该治疗方法的核心是免疫原性抗原多肽的选择,目前新抗原的预测包括分析肿瘤及正常组织的全外显子组测序和转录组测序数据,鉴定蛋白质编码区的DNA突变及人类白细胞抗原亚型,利用生物信息方法获得由突变DNA所翻译的突变多肽,并最终预测突变多肽是否能被人类白细胞抗原被提呈到细胞表面。
当前筛选潜在新抗原的依据主要是基于突变丰度,表达量和多肽与对应的HLA之间的亲和力等分子生物学特征。然而越来越多的实验结果表明存在独立于这些特征之外的因素也会影响多肽的免疫原性。对于与MHC蛋白结合的多肽而言,诸如电荷,疏水表面等特征的影响是由肽在结合槽内的构象以及各种氨基酸侧链的大小和位置决定的。因此,预测免疫原性多肽可以通过考虑多肽/MHC复合物结构特性的方法来加强。因此,为了提高对于新抗原的筛选效率和对多肽免疫原性预测的准确率,将多肽结构性指标纳入多肽免疫原性筛选方法的具有重要意义的。
发明内容
针对筛选肿瘤新抗原存在的上述问题,本发明充分考虑了多肽结构对于多肽免疫原性的影响,开发了一套基于多肽结构性指标筛选新抗原的生物信息学方法。
本发明在于公开一种基于多肽结构性指标预测新抗原的方法,包括以下步骤:
S01,获取样品测序数据;
S02,识别样品体细胞变异;
S03,样品变异过滤;
S04,翻译变异序列为蛋白质;
S05,蛋白片段分割,并过滤人类正常蛋白质组中多肽;
S06,预测蛋白片段结构;
S07,计算相应多肽结构性指标;
S08,筛选新抗原。
优选的,上述样本为新鲜肿瘤组织样品;作为替代,可以选择外周血液样本。
在本发明的一些实施方式中,,S01中,对肿瘤样品以及正常对照样品进行DNA测序,获取样品测序数据,样本测序数据中包括多个重叠或部分重叠的短读序列。
在本发明的一些优选的实施方式中,S01中,获取肿瘤样品不小于500X深度测序数据以及正常对照200X深度测序数据。
在本发明的一些优选的实施方式中,S01中,采用全外显子测序或者Panel捕获测序。
在本发明的一些优选的实施方式中,S02中,包括以下步骤:
S21,将肿瘤样品以及正常对照样品测序数据分别比对到参考基因组,定位短读序列在参考基因组上面的位置;
S22,对比对结果文件进行去除PCR重复处理;
S23,识别样品细胞变异;
优选地,还包括对样品测序数据进行过滤,去除低质量以及包含有接头或测序引物序列的reads,以及对比对结果进行碱基质量校正。
在本发明的一些实施方式中,S03中,包括以下步骤:
S31,过滤掉可信度较差的变异;
S32,根据注释结果过滤位于基因间区和内含子的变异以及同义变异;
优选地,所述可信度较差的变异包括变异支持reads数较少、同时出现在正常对照样品中的变异。
在本发明的一些实施方式中,S04中,在过滤后能产生蛋白质序列变化的变异结果中,根据基因组突变信息以及注释信息,构建突变转录本并根据翻译规则进行翻译,得到突变蛋白质序列。。
在本发明的一些实施方式中,S05中,将得到的蛋白序列分割成长度为9~12的Kmer,并过滤人类正常蛋白质组中多肽。
在本发明的一些实施方式中,S06中,利用软件pep-fold将分割后的蛋白质序列输入,根据相应算法,可以得到该多肽的三级结构图以及蛋白质三维结构数据文件。
在本发明的一些实施方式中,S07中,利用Gromacs软件得到结构性指标的结果文件,通过分析,筛选出具有免疫原性的多肽。
在本发明的一些实施方式中,S08中,包括以下步骤:
S81,利用RMSF对多肽进行初步筛选;
S82,再利用SASA进行进一步的筛选;
优选地,筛选SASA的差值在0.2到1nm2之间的多肽。
与现有技术相比,本发明的方案具有如下优势:
本发明基于多肽结构的指标,可以从微观层面对新抗原的性质进行刻画,从而对分子生物学特征筛选新抗原的方法是一个重要补充。
附图说明
图1本发明一种实施方式的基于多肽结构指标预测新抗原的方法的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。若非特别之处,实施例和对比例为组分、组分含量、制备步骤、制备参数相同地平行试验。
实施例1
如图1所示,一种基于多肽结构指标预测新抗原的方法:
S01,获取样品测序数据
具体地,对肿瘤样品以及正常对照样品进行DNA测序,获取样品测序数据,样本测序数据中包括多个重叠或部分重叠的短读序列,重叠程度的不同与测序的深度有关,应该获取肿瘤样品不小于500X深度测序数据以及正常对照200X深度测序数据。
优先地,本发明可以采用全外显子测序或者Panel捕获测序。
S02,识别样品体细胞变异
具体地,首选将肿瘤样品以及正常对照样品测序数据分别比对到参考基因组,定位短读序列在参考基因组上面的位置,具体的,可以采用BWA软件对样品过滤后的数据进行序列比对。
其次,对比对结果文件进行去除PCR重复处理,在制备文库的过程中,由于PCR扩增过程中会存在一些偏差,有的序列会被过量扩增,这些过量扩增的reads并不能作为变异检测的证据,因此要尽量去除这些由PCR扩增所形成的Duplicates。具体的,可以采用软件Picard对比对文件进行去除PCR Duplicates处理。
再次,识别样品细胞变异,体细胞变异是指除性细胞外的体细胞发生的基因突变,体细胞变异可以引起细胞的功能发生改变。具体地,可以采用软件Metcts进行样品体细胞变异识别。
优选地,可选步骤包括对样品测序数据进行过滤,去除低质量以及包含有接头或测序引物序列的reads;以及对比对结果进行碱基质量校正。
S03,样品变异过滤
具体地,首选过滤掉可信度较差的变异,比如变异支持reads数较少、同时出现在正常对照样品中的变异等;然后再根据注释结果过滤位于基因间区和内含子的变异以及同义变异,此类变异不会导致蛋白质序列发生变化。
S04,翻译变异序列为蛋白质
具体地,在过滤后能产生蛋白质序列变化的变异结果中,根据基因组突变信息以及注释信息,构建突变转录本并根据翻译规则进行翻译,得到突变蛋白质序列。
S05,蛋白片段分割,并过滤人类正常蛋白质组中多肽
具体地,首先将上一步得到的蛋白序列分割成长度较小的k-mer。k-mer是值一个字符串包含的所有可能的长度为k的子字符串集,对于一条输入蛋白序列而言,从第一个氨基酸残疾开始,采用步长为1的滑动窗依次提取固定长度k的序列,这些序列就是k-mer。更具体地,利用软件将S04得到的蛋白序列分割成9~12k-mer。
其次并过滤人类正常蛋白质组中多肽,具体地,UniProt是一个综合性的非冗余数据库,包含所有的公开的人类蛋白质序列,去除在UniProt蛋白质中的Kmer片段。
S06,预测蛋白片段结构
一般来讲,抗原先与APC上的MHC蛋白结合,再通过APC细胞将MHC-antigen呈递给T细胞表面的TCR,产生免疫反应。目前通过测序和生物信息学的方法来筛选具有免疫活性的多肽的方法,通常是通过多肽与MHC分子之间的亲和力来预测。目前越来越多的证据表明,多肽结构上的特征独立于多肽\MHC分子之间亲和力影响T细胞的识别。而蛋白质的空间折叠形式式其形式生物学活性和功能的基本单位,并且能够提供蛋白质有关功能和结合特性等方面的信息。通过算法可以准确预测多肽结构。具体地,利用软件pep-fold将分割后的蛋白质序列输入,根据相应算法,可以得到该多肽的三级结构图以及pdb文件(蛋白质三维结构数据文件)。
S07,计算相应多肽结构性指标
具体地,计算多肽相关的结构性指标,将得到的多肽的pdb文件导入Gromacs软件中,输入希望得到的相关结构性指标的命令,最终能够得到相对应得结构性指标的结果文件,通过分析,可以筛选出具有免疫原性的多肽。
S08,筛选新抗原
通常,肿瘤细胞所表达的突变蛋白不能够被正常细胞表达,这些突变蛋白在细胞内被蛋白酶加工成短肽,之后再与人类白细胞抗原结合,呈递至细胞表面上并作为外来抗原被T细胞识别。通过多肽的结构性指标可以筛选出具有免疫原性的多肽。
首先,利用RMSF对多肽进行初步筛选。根据研究结果表明,通常具有免疫活性的突变型多肽链其C端的RMSF值均小于将通过上述方法得到的RMSF值进行排序,按照RMSF从小到大排列。一般而言,C端RMSF值越大,意味着多肽C端越不稳定,与MHC蛋白结合的效率也就越低。为此,RMSF可以初步筛选得出具有可能具有免疫原性的多肽。
其次,再利用SASA进行进一步的筛选。研究表明,通常具有免疫原性的多肽具有比非免疫原性肽更大的SASA值。同时,往往具有免疫原性的突变型多肽相比其对应的野生型多肽而言,SASA值有所增加。通常,SASA的差值大于0.2nm2,小于1nm2时,SASA的差值与多肽的免疫原性呈现正相关,即SASA差值越大,突变型多肽的免疫原性越强。为此,分别计算野生型和突变型多肽的SASA,用突变型多肽的SASA值减去对应的野生型多肽SASA值,再利用所得到的差值进行排序,选择差值在0.2到1nm2之间的多肽,差值越大说明对应的突变型多肽具有较强的免疫原性的可能性越大。
所用软件具体提供参数如下:
使用BWAMEM对测序数据进行比对,其示例命令为:
其中-R代表比对结果头文件,-t代表运行线程数,-M代表所用索引文件,reference.fa代表参考基因组fasta文件,in.1.fq与in.2.fq代表测序数据。
使用Picard MarkDuplicates去除比对数据中的PCR重复,其示例命令为:
|6.java-jar picard.jar MarkDuplicates I=in.bam O=out.bam M=picard1.txt
其中I代表输入比对文件,O代表输出比对文件,M代表输出结果统计文件。使用GATK BaseRecalibrator进行碱基质量校正,其示例命令为:
其中-R代表参考基因组文件,-I代表输入BAM文件,-O代表输出统计结果文件,--known-sites代表已知突变文件。
使用Mutect2进行变异识别,其示例命令为:
其中-R代表参考基因组fasta文件,-I代表输入比对文件,-tumor/-normal代表比对文件中,肿瘤/正常样本的名称,-O代表输出的突变文件。
使用GATK FilterMutectCalls对变异结果进行初步过滤,其示例命令为:
其中-V代表输入的突变文件,-O代表输出的带有FILTER标签的突变文件。使用VEP对突变进行注释,其示例命令为:
|15.perl vep.pl-i in.vcf-o out.txt--assembly assembly--fork 10
其中-i代表输入突变文件,-o代表输出结果文件,--assembly代表参考基因组版本,--fork代表线程数
使用Gromacs软件获得拓扑文件,拓扑文件包含了所有力场参数(基于所选择的力场),计算多肽结构性指标,其示例命令为:
|16.gmx pdb2gmx-f model1.pdb-water tip3p
其中-f指定需要进行处理的蛋白质结构文件,-water指定水模型,本发明使用TIP3P水模型。该步骤会生成结构文件gro,拓扑文件top,位置限制文件itp。使用editconf命令来创建周期性的模拟盒子,其示例命令为:
|17.gmx editconf-f conf.gro–bt dodecahedron–d 1.0–o box.gro
其中-f表示输入蛋白结构,-bt创建了一个菱形十二面体盒子,因为这种盒子是接近球形,计算效率最高,-d设定分子到盒子边缘的最小距离,以nm为单位,它决定了盒子的尺寸.理论上在绝大多数系统中,-d都不能小于0.9nm,-o:输出带模拟盒子信息的结构文件。
使用gmx solvate可以向给定尺寸/类型的周期性盒子中填充恰当数目的溶剂分子并进行能量最小化,其示例命令为:
其中-cp指定需要填充水分子的体系,带模拟蛋白盒子,-cs指定使用SPC水模型进行填充,spc216是GROMACS统一的三位点水分子结构,-p修改体系的拓扑文件,加入相应水分子的物理参数,-o指定填充水分子后的输出文件。
gmx grompp(gromacs预处理器)读取分子拓扑文件,检查文件的有效性,将拓扑从分子描述扩展为原子描述。-f表示输入MD参数文件,-p表示输入拓扑文件,-c表示输入结构文件,-r表示输入结构文件,-o指定tpr文件。
gmx genion命令会将一些水分子替换为离子,-s表示输入tpr文件,-o表示输入结构文件,-p表示输入拓扑文件,-pname表示阳离子名称,-np表示阳离子个数,-nname表示阴离子名称,-nn表示阴离子个数。
如果立即启动分子动力学,水中增加的氢和断裂的氢键网络将导致相当大的力和结构变形。为了消除这些力,有必要首先运行一个简短的能量最小化。Gromacs使用一个单独的预处理程序grompp将参数、拓扑和坐标收集到一个单独的运行输入文件(em.tpr)中,然后从该文件开始模拟。gmx mdrun是GROMACS中主要的计算化学引擎,可用于计算能量最小化,-deffnm为所有文件选项设置默认文件名。
为了避免不必要的蛋白质扭曲时,分子动力学模拟开始前首先执行平衡运行,所有的重蛋白质原子被约束到他们的起始位置(使用的文件posre.itp之前生成),平衡蛋白质周围水分子,其示例命令为:
完成了两个阶段的平衡后,体系已经在需要的温度和压力下平衡好了,我们现在可以放开位置限制并运行成品MD收集数据了,其示例命令为:
|26.gmx grompp-f run.mdp-p topol.top-c pr.gro-r pr.gro-o run.tpr
|27.gmx mdrun-v-deffnm run
上述步骤所使用的mdp文件为注释文件,其中包含了在模拟过程中各个项目的注释内容。例如,指定积分算法,积分步长,电荷计算方式,指定体系温度,压强等信息。每一个mdp文件根据每一步骤的作用进行相应的调整。
相关资料表明,多肽的C端稳定性与多肽是否能引起免疫反应有关。RMSF是指原子位置的根均方涨落,可用于评价多肽C端稳定性。利用gmx rmsf计算多肽相关结构性指标C端的RMSF值其示例命令为:
其中-s表示输入tpr文件,-f表示轨道文件,-o表示输出xvgr/xmgr文件,-oq表示蛋白质数据库文件。
SASA是指溶剂可及性表面积,该指标是影响蛋白质折叠的重要因素,一般来讲,具有免疫原性的多肽的SASA要大于非免疫原性肽。利用gmx sasa可以计算多肽分子的SASA。-s表示输入结构文件tpr,-f表示输入轨迹或单一配置文件,-o表示将SASA定义为时间函数输入xvg文件,-odg表示估计溶剂自由能随时间的变化情况,-or计算每个残基的平均面积,-oa计算每个原子的平均面积。
以上对本发明优选的具体实施方式和实施例作了详细说明,但是本发明并不限于上述实施方式和实施例,在本领域技术人员所具备的知识范围内,还可以在不脱离本发明构思的前提下作出各种变化。
Claims (10)
1.基于多肽结构性指标预测新抗原的方法,其特征在于,包括以下步骤:
S01,获取样品测序数据;
S02,识别样品体细胞变异;
S03,样品变异过滤;
S04,翻译变异序列为蛋白质;
S05,蛋白片段分割,并过滤人类正常蛋白质组中多肽;
S06,预测蛋白片段结构;
S07,计算相应多肽结构性指标;
S08,筛选新抗原。
2.根据权利要求1所述的方法,其特征在于,S01中,对肿瘤样品以及正常对照样品进行DNA测序,获取样品测序数据,样本测序数据中包括多个重叠或部分重叠的短读序列。
3.根据权利要求1或2所述的方法,其特征在于,S01中,获取肿瘤样品不小于500X深度测序数据以及正常对照200X深度测序数据;
和/或,S01中,采用全外显子测序或者Panel捕获测序。
4.根据权利要求1-3任一所述的方法,其特征在于,S02中,包括以下步骤:
S21,将肿瘤样品以及正常对照样品测序数据分别比对到参考基因组,定位短读序列在参考基因组上面的位置;
S22,对比对结果文件进行去除PCR重复处理;
S23,识别样品细胞变异;
优选地,还包括对样品测序数据进行过滤,去除低质量以及包含有接头或测序引物序列的reads,以及对比对结果进行碱基质量校正。
5.根据权利要求1-4任一所述的方法,其特征在于,S03中,包括以下步骤:
S31,过滤掉可信度较差的变异;
S32,根据注释结果过滤位于基因间区和内含子的变异以及同义变异;
优选地,所述可信度较差的变异包括变异支持reads数较少、同时出现在正常对照样品中的变异。
6.根据权利要求1-5任一所述的方法,其特征在于,S04中,在过滤后能产生蛋白质序列变化的变异结果中,根据基因组突变信息以及注释信息,构建突变转录本并根据翻译规则进行翻译,得到突变蛋白质序列。
7.根据权利要求1-6任一所述的方法,其特征在于,其特征在于,S05中,将得到的蛋白序列分割成长度为9~12的Kmer,并过滤人类正常蛋白质组中多肽。
8.根据权利要求1-7任一所述的方法,其特征在于,S06中,利用软件pep-fold将分割后的蛋白质序列输入,根据相应算法,可以得到该多肽的三级结构图以及蛋白质三维结构数据文件。
9.根据权利要求1-8任一所述的方法,其特征在于,S07中,利用Gromacs软件得到结构性指标的结果文件,通过分析,筛选出具有免疫原性的多肽。
10.根据权利要求1-9任一所述的方法,其特征在于,S08中,包括以下步骤:
S81,利用RMSF对多肽进行初步筛选;
S82,再利用SASA进行进一步的筛选;
优选地,筛选SASA的差值在0.2到1nm2之间的多肽。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696098.9A CN113533741A (zh) | 2021-06-23 | 2021-06-23 | 基于多肽结构性指标预测新抗原的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110696098.9A CN113533741A (zh) | 2021-06-23 | 2021-06-23 | 基于多肽结构性指标预测新抗原的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113533741A true CN113533741A (zh) | 2021-10-22 |
Family
ID=78096411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110696098.9A Pending CN113533741A (zh) | 2021-06-23 | 2021-06-23 | 基于多肽结构性指标预测新抗原的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113533741A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825188A (zh) * | 2023-06-25 | 2023-09-29 | 北京泛生子基因科技有限公司 | 基于高通量测序技术在多组学层面识别肿瘤新抗原的方法、装置及计算机可读存储介质 |
CN117174166A (zh) * | 2023-10-26 | 2023-12-05 | 北京基石京准诊断科技有限公司 | 基于三代测序数据的肿瘤新抗原预测方法及系统 |
CN117316273A (zh) * | 2023-11-02 | 2023-12-29 | 聊城市人民医院 | 基于图神经网络的肿瘤个体化新抗原多肽筛选方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017115828A1 (ja) * | 2015-12-29 | 2017-07-06 | 国立大学法人東京工業大学 | 標的結合ペプチドの安定化方法 |
CN112309502A (zh) * | 2020-10-14 | 2021-02-02 | 深圳市新合生物医疗科技有限公司 | 一种计算肿瘤新抗原负荷的方法及系统 |
-
2021
- 2021-06-23 CN CN202110696098.9A patent/CN113533741A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017115828A1 (ja) * | 2015-12-29 | 2017-07-06 | 国立大学法人東京工業大学 | 標的結合ペプチドの安定化方法 |
CN112309502A (zh) * | 2020-10-14 | 2021-02-02 | 深圳市新合生物医疗科技有限公司 | 一种计算肿瘤新抗原负荷的方法及系统 |
Non-Patent Citations (2)
Title |
---|
BAHAREH VAKILI: "Immunoinformatics-aided design of a potential multi-epitope peptide vaccine against Leishmania infantum", INT J BIOL MACROMOL, pages 3 * |
TIMOTHY P RILEY: "Structure Based Prediction of Neoantigen Immunogenicity", FRONT IMMUNOL, vol. 10, pages 5 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825188A (zh) * | 2023-06-25 | 2023-09-29 | 北京泛生子基因科技有限公司 | 基于高通量测序技术在多组学层面识别肿瘤新抗原的方法、装置及计算机可读存储介质 |
CN116825188B (zh) * | 2023-06-25 | 2024-04-09 | 北京泛生子基因科技有限公司 | 基于高通量测序技术在多组学层面识别肿瘤新抗原的方法、装置及计算机可读存储介质 |
CN117174166A (zh) * | 2023-10-26 | 2023-12-05 | 北京基石京准诊断科技有限公司 | 基于三代测序数据的肿瘤新抗原预测方法及系统 |
CN117174166B (zh) * | 2023-10-26 | 2024-03-26 | 北京基石生命科技有限公司 | 基于三代测序数据的肿瘤新抗原预测方法及系统 |
CN117316273A (zh) * | 2023-11-02 | 2023-12-29 | 聊城市人民医院 | 基于图神经网络的肿瘤个体化新抗原多肽筛选方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113533741A (zh) | 基于多肽结构性指标预测新抗原的方法 | |
CN109801678B (zh) | 基于全转录组的肿瘤抗原预测方法及其应用 | |
Uhlén et al. | A human protein atlas for normal and cancer tissues based on antibody proteomics | |
Schaap-Johansen et al. | T cell epitope prediction and its application to immunotherapy | |
CN111627497B (zh) | 基于新转录本组装的肿瘤特异转录区域提取免疫治疗新抗原的方法和应用 | |
CN110752041B (zh) | 基于二代测序的新生抗原预测方法、装置和存储介质 | |
Mahmoodi et al. | Harnessing bioinformatics for designing a novel multiepitope peptide vaccine against breast cancer | |
CN109682978B (zh) | 一种肿瘤突变肽mhc亲和力预测方法及其应用 | |
US20210061870A1 (en) | Method and system for extracting neoantigens for immunotherapy | |
CN111755067A (zh) | 一种肿瘤新生抗原的筛选方法 | |
CN113053458B (zh) | 一种肿瘤新生抗原负荷的预测方法及装置 | |
CN114446389B (zh) | 一种肿瘤新抗原特征分析与免疫原性预测工具及其应用 | |
CN113035272A (zh) | 获取基于内含子体细胞变异的免疫治疗新抗原方法和装置 | |
CN112908410B (zh) | 一种基于snakemake流程的正选择基因的检测方法和系统 | |
CN111192632B (zh) | 整合dna和rna的深度测序数据提取基因融合免疫治疗新抗原的方法和装置 | |
CN112210596B (zh) | 基于基因融合事件的肿瘤新生抗原预测方法及其应用 | |
EP2631832A2 (en) | System and method for processing reference sequence for analyzing genome sequence | |
CN114882951B (zh) | 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置 | |
Zhang et al. | iTCep: a deep learning framework for identification of T cell epitopes by harnessing fusion features | |
WO2024051097A1 (zh) | 肿瘤特异环状rna的新抗原鉴定方法及装置、设备、介质 | |
Cao et al. | Comparison of alternative extraction methods for secretome profiling in human hepatocellular carcinoma cells | |
CN115424740B (zh) | 基于ngs和深度学习的肿瘤免疫治疗效果预测系统 | |
CN116779028A (zh) | 基于结构变异检测预测新抗原表位的方法、装置及计算机可读存储介质 | |
Si et al. | Protein language model-embedded geometric graphs power inter-protein contact prediction | |
CN114464256A (zh) | 用于检测肿瘤新抗原负荷的方法、计算设备和计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |