CN114705796B - 免疫肽的鉴定方法、终端设备和可读存储介质 - Google Patents
免疫肽的鉴定方法、终端设备和可读存储介质 Download PDFInfo
- Publication number
- CN114705796B CN114705796B CN202210348793.0A CN202210348793A CN114705796B CN 114705796 B CN114705796 B CN 114705796B CN 202210348793 A CN202210348793 A CN 202210348793A CN 114705796 B CN114705796 B CN 114705796B
- Authority
- CN
- China
- Prior art keywords
- score
- peptide
- retention time
- calculating
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 127
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 150000002500 ions Chemical class 0.000 claims abstract description 119
- 102000007079 Peptide Fragments Human genes 0.000 claims abstract description 89
- 108010033276 Peptide Fragments Proteins 0.000 claims abstract description 89
- 230000014759 maintenance of location Effects 0.000 claims description 86
- 238000004949 mass spectrometry Methods 0.000 claims description 24
- 238000001819 mass spectrum Methods 0.000 claims description 19
- 108090000623 proteins and genes Proteins 0.000 claims description 19
- 102000004169 proteins and genes Human genes 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 13
- 125000003277 amino group Chemical group 0.000 claims description 9
- 125000000118 dimethyl group Chemical group [H]C([H])([H])* 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 3
- 102000004196 processed proteins & peptides Human genes 0.000 abstract description 36
- 238000002372 labelling Methods 0.000 abstract description 21
- 210000004027 cell Anatomy 0.000 description 34
- 229920001184 polypeptide Polymers 0.000 description 25
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 12
- 239000002609 medium Substances 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 239000011347 resin Substances 0.000 description 9
- 229920005989 resin Polymers 0.000 description 9
- 210000001744 T-lymphocyte Anatomy 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 238000013467 fragmentation Methods 0.000 description 7
- 238000006062 fragmentation reaction Methods 0.000 description 7
- 239000007788 liquid Substances 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 210000004881 tumor cell Anatomy 0.000 description 7
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 6
- 150000001413 amino acids Chemical class 0.000 description 6
- 239000000427 antigen Substances 0.000 description 6
- 108091007433 antigens Proteins 0.000 description 6
- 102000036639 antigens Human genes 0.000 description 6
- 230000005847 immunogenicity Effects 0.000 description 6
- 238000000338 in vitro Methods 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 210000000265 leukocyte Anatomy 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 5
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 4
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 4
- 108700018351 Major Histocompatibility Complex Proteins 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 208000015181 infectious disease Diseases 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 108010014597 HLA-B44 Antigen Proteins 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000006285 cell suspension Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010828 elution Methods 0.000 description 3
- 238000003114 enzyme-linked immunosorbent spot assay Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 102000054766 genetic haplotypes Human genes 0.000 description 3
- 238000004811 liquid chromatography Methods 0.000 description 3
- 239000013642 negative control Substances 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000020382 suppression by virus of host antigen processing and presentation of peptide antigen via MHC class I Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- HWCKGOZZJDHMNC-UHFFFAOYSA-M tetraethylammonium bromide Chemical compound [Br-].CC[N+](CC)(CC)CC HWCKGOZZJDHMNC-UHFFFAOYSA-M 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 235000019750 Crude protein Nutrition 0.000 description 2
- YQYJSBFKSSDGFO-UHFFFAOYSA-N Epihygromycin Natural products OC1C(O)C(C(=O)C)OC1OC(C(=C1)O)=CC=C1C=C(C)C(=O)NC1C(O)C(O)C2OCOC2C1O YQYJSBFKSSDGFO-UHFFFAOYSA-N 0.000 description 2
- AVXURJPOCDRRFD-UHFFFAOYSA-N Hydroxylamine Chemical compound ON AVXURJPOCDRRFD-UHFFFAOYSA-N 0.000 description 2
- 108010066345 MHC binding peptide Proteins 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 229960000583 acetic acid Drugs 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012258 culturing Methods 0.000 description 2
- 239000008367 deionised water Substances 0.000 description 2
- 229910021641 deionized water Inorganic materials 0.000 description 2
- 238000011033 desalting Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000001976 enzyme digestion Methods 0.000 description 2
- 239000012362 glacial acetic acid Substances 0.000 description 2
- 238000004128 high performance liquid chromatography Methods 0.000 description 2
- 238000011534 incubation Methods 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 239000013612 plasmid Substances 0.000 description 2
- 239000013641 positive control Substances 0.000 description 2
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000012460 protein solution Substances 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 239000000725 suspension Substances 0.000 description 2
- 230000009261 transgenic effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- HNSDLXPSAYFUHK-UHFFFAOYSA-N 1,4-bis(2-ethylhexyl) sulfosuccinate Chemical compound CCCCC(CC)COC(=O)CC(S(O)(=O)=O)C(=O)OCC(CC)CCCC HNSDLXPSAYFUHK-UHFFFAOYSA-N 0.000 description 1
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- VHUUQVKOLVNVRT-UHFFFAOYSA-N Ammonium hydroxide Chemical compound [NH4+].[OH-] VHUUQVKOLVNVRT-UHFFFAOYSA-N 0.000 description 1
- 102000004127 Cytokines Human genes 0.000 description 1
- 108090000695 Cytokines Proteins 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 1
- 102000011786 HLA-A Antigens Human genes 0.000 description 1
- 108010075704 HLA-A Antigens Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000012404 In vitro experiment Methods 0.000 description 1
- 108010038807 Oligopeptides Proteins 0.000 description 1
- 102000015636 Oligopeptides Human genes 0.000 description 1
- 239000002033 PVDF binder Substances 0.000 description 1
- 108010019160 Pancreatin Proteins 0.000 description 1
- 229940122907 Phosphatase inhibitor Drugs 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 102000002067 Protein Subunits Human genes 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- 230000006044 T cell activation Effects 0.000 description 1
- 102000004142 Trypsin Human genes 0.000 description 1
- 108090000631 Trypsin Proteins 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 235000011114 ammonium hydroxide Nutrition 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 230000022534 cell killing Effects 0.000 description 1
- 238000001516 cell proliferation assay Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010612 desalination reaction Methods 0.000 description 1
- 238000003113 dilution method Methods 0.000 description 1
- 238000010494 dissociation reaction Methods 0.000 description 1
- 230000005593 dissociations Effects 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 239000003480 eluent Substances 0.000 description 1
- 239000012645 endogenous antigen Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000008098 formaldehyde solution Substances 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 239000001963 growth medium Substances 0.000 description 1
- 238000004896 high resolution mass spectrometry Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 208000021601 lentivirus infection Diseases 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000001294 liquid chromatography-tandem mass spectrometry Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000002934 lysing effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005087 mononuclear cell Anatomy 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002061 nanopillar Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 150000007523 nucleic acids Chemical group 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 229940055695 pancreatin Drugs 0.000 description 1
- 238000007747 plating Methods 0.000 description 1
- 229920002981 polyvinylidene fluoride Polymers 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 210000004986 primary T-cell Anatomy 0.000 description 1
- 238000001742 protein purification Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000004725 rapid separation liquid chromatography Methods 0.000 description 1
- 239000012679 serum free medium Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- BEOOHQFXGBMRKU-UHFFFAOYSA-N sodium cyanoborohydride Chemical compound [Na+].[B-]C#N BEOOHQFXGBMRKU-UHFFFAOYSA-N 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000012588 trypsin Substances 0.000 description 1
- 238000004704 ultra performance liquid chromatography Methods 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 239000012224 working solution Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N2030/022—Column chromatography characterised by the kind of separation mechanism
- G01N2030/027—Liquid chromatography
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Immunology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Signal Processing (AREA)
- Molecular Biology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本申请公开了免疫肽的鉴定方法Alpha‑DDA、终端设备、可读存储介质和肽段标记方法在免疫肽的鉴定领域的应用,涉及生物信息学技术领域,本申请提供的免疫肽的鉴定方法在传统鉴定特征的基础上加入保留时间偏差分值和离子定性特征分值,通过这些特征鉴定得到的免疫肽更准确。并且该方法的召回率和精确度均较高,还具有很好的F1值,说明该方法是优异的平衡召回率和精确度的免疫肽的鉴定方案。另外,肽段N端标记方法的应用显著增强了b离子的信号强度,提高了二级谱图的质量,进一步促进了免疫肽的准确识别。
Description
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种免疫肽的鉴定方法、终端设备和可读存储介质。
背景技术
目前,最常见的预测鉴定新生抗原的方法是在全外显子组、转录组等基因水平上将肿瘤患者的正常细胞测序结果和肿瘤细胞测序结果比对到人类参考基因组,从比对结果中鉴定出肿瘤细胞特有的体细胞突变,再根据这些突变信息预测可能存在于肿瘤细胞表面的新生抗原。然后利用亲和力预测模型等算法分析这些预测得到的新生抗原与患者自身的I型人主要组织相容性复合体——人类白细胞抗原(human leukocyte antigen,简称HLA)的结合能力,筛选出与HLA结合能力好的新生抗原,用于肿瘤治疗。但是这类预测筛选新生抗原的方法暂未能提供直接证据来证明预测的新生抗原是否真实存在。
随着高分辨率质谱技术的发展,质谱仪扫描速度的增快,谱图数据信息的采集更全面,使直接鉴定能与HLA特异性结合的抗原表位成为可能。采用质谱技术能够通过一次实验即鉴定得到数千个MHC结合肽。目前主要通过借助理论参考谱图库对鉴定得到的MHC结合肽的质谱数据进行解析。但是,低丰度的碎裂离子谱图信息限制了数据的解析的敏感度与准确度。现有的质谱数据解析软件鉴定得到的MHC多肽结果参差不齐、存在较大差异,鉴定准确度不高。而免疫肽不同于基于胰蛋白酶的蛋白质组的分析,它需要一种能够在大而多样的搜索空间中进行高度敏感肽鉴定的方法。因此,亟需一种能够提高二级谱图质量且达到高敏感度高准确度的整体鉴定方法。
发明内容
本申请的目的在于提供一种免疫肽的鉴定方法Alpha-DDA,旨在解决现有的质谱解析搜库软件用于免疫肽分析的鉴定结果间存在较大差异并且鉴定准确度较低的问题,提供一种高敏感度高精准度的鉴定方法。
为实现以上目的,本申请第一方面提供一种免疫肽的鉴定方法,包括:
将所述免疫肽质谱数据与蛋白库理论谱图进行匹配打分,筛选与所述免疫肽质谱数据匹配的理论谱图对应的肽段作为数据集,所述数据集中的每一条肽段具有肽段谱图匹配分值;
计算所述数据集中的每一条肽段的保留时间偏差分值和离子定性特征分值;
将包括所述肽段谱图匹配分值、保留时间偏差分值和离子定性特征分值在内的特征输入集成学习器模型中得到归并后的总分值;
基于所述总分值计算FDR,根据FDR阈值从所述数据集中筛选得到免疫肽结果。
在一可选实施例中,所述计算所述数据集中的每一条肽段的保留时间偏差分值,包括:
获取所述免疫肽质谱数据中的每一条肽段的实际保留时间;
计算所述数据集中的每一条肽段的预测保留时间;
根据所述实际保留时间和所述预测保留时间计算得到所述保留时间偏差分值;
优选地,所述保留时间偏差分值的计算公式为:
其中Experimental_RT为所述实际保留时间,Predicted_RT为所述预测保留时间。
在一可选实施例中,所述计算所述数据集中的每一条肽段的预测保留时间,包括:
使用保留时间预测模型软件计算所述数据集中的每一条肽段的保留时间;
以所述保留时间作为训练数据,利用线性模型对所述数据集进行线性预测,得到所述数据集中的每一条肽段的预测保留时间。
在一可选实施例中,所述计算所述数据集中的每一条肽段的离子定性特征分值,包括:
获取所述免疫肽质谱数据中的每一条肽段的实际离子集合;
计算所述数据集中的每一条肽段的预测离子集合;
根据所述实际离子集合和所述预测离子集合计算得到所述离子定性特征分值。
在一可选实施例中,所述根据所述实际离子集合和所述预测离子集合计算得到所述离子定性特征分值,包括:
计算所述实际离子集合和所述预测离子集合的交集数目、并集数目、差集数目、交并比作为所述离子定性特征分值。
在一可选实施例中,所述离子定性特征分值还包括:
所述交集数目、所述并集数目、所述差集数目、所述交并比分别除以(2*肽段长度*肽段子离子电荷数)得到的分值;
以及,所述交集数目、所述并集数目、所述差集数目、所述交并比分别除以所述实际离子集合的数目得到的分值。
在一可选实施例中,所述计算所述数据集中的每一条肽段的保留时间偏差分值和离子定性特征分值之外,还包括:
计算所述数据集中的每一条肽段的离子强度定量特征分值;
所述将包括所述肽段谱图匹配分值、保留时间偏差分值和离子定性特征分值在内的特征输入集成学习器模型中得到归并后的总分值,具体为:
将所述肽段谱图匹配分值、所述保留时间偏差分值、所述离子定性特征分值和所述离子强度定量特征分值作为特征输入集成学习器模型中得到归并后的总分值。
在一可选实施例中,所述计算所述数据集中的每一条肽段的离子强度定量特征分值,包括:
获取所述免疫肽质谱数据中的每一条肽段的实际离子强度;
计算所述数据集中的每一条肽段的预测离子强度;
根据所述实际离子强度和所述预测离子强度计算得到所述离子强度定量特征分值;
优选地,所述离子强度定量特征分值的计算函数为:
其中,P表示所述预测离子强度,M表示所述实际离子强度。
在一优选实施例中,用于得到所述免疫肽质谱数据的免疫肽样本的N端氨基和支链氨基带有TMT标记或iTRAQ标记或二甲基标记或TMTpro标记。
本申请第二方面提供一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述的一种免疫肽的鉴定方法。
本申请第三方面还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行上述的一种免疫肽的鉴定方法。
与现有技术相比,本申请的有益效果包括:
本申请提供的免疫肽的鉴定方法在传统鉴定特征的基础上加入保留时间偏差分值和离子定性特征分值,通过这些特征鉴定得到的免疫肽更准确。与现有的MaxQuant、pFind3、MSFragger等方法相比,该方法的召回率和精确度均较高,还具有最大的F1值,说明该方法是平衡召回率和精确度最佳的免疫肽鉴定方案。肽段N端标记技术在免疫肽鉴定方面的应用显著提高了b离子的信号强度,提高了免疫肽鉴定的准确度和敏感度。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了不同特征在基准数据集上肽段检测结果的韦恩图;
图2示出了洗脱时间的预测线性回归图;
图3示出了IP富集后的dot-blot结果;
图4A、4B、4C、4D示出了样本在非标LabelFree和不同标记下的肽段在不同氨基酸位置上的b/y离子强度散点图,其中图4A为TMT标记结果,图4B为iTRAQ标记结果,图4C为二甲基标记结果,图4D为非标LabelFree结果;
图5示出了样本在非标LabelFree和TMT标记下的肽段b/y离子完整度箱线图;
图6示出了Alpha-DDA鉴定的TMT标记的肽段长度分布图;
图7示出了Alpha-DDA和MaxQuant分别鉴定TMT标记样本所得独属多肽的Elispot验证免疫原性的结果;
图8A、8B分别示出了HLA-A02:01分型体外杀伤试验和HLA-B44:02体外杀伤试验结果;
图9示出了本申请的免疫肽质谱数据的鉴定方法的流程示意图;
图10示出了本申请的免疫肽质谱数据的鉴定方法的步骤示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
本申请第一方面提供一种免疫肽的鉴定方法,请参阅图10,包括:
S100:将所述免疫肽质谱数据与蛋白库理论谱图进行匹配打分,筛选与所述免疫肽质谱数据匹配的理论谱图对应的肽段作为数据集,所述数据集中的每一条肽段具有肽段谱图匹配分值。
人类白细胞抗原(human leukocyte antigen,HLA)是人类的主要组织相容性复合体(MHC)的表达产物,HLA分子包括HLA-I类分子和HLA-II类分子。HLA-I类分子为内源性抗原的递呈分子,主要结合的免疫肽为7~15个氨基酸长度;HLA-Ⅱ类分子为外源性抗原的递呈分子,主要结合的免疫肽为20~25个氨基酸长度。
因此,本申请所述的免疫肽指7~25个氨基酸长度的肽段,由于免疫肽的肽段长度仅为7~25个氨基酸,因此,使用免疫肽进行质谱鉴定时,不需要对免疫肽样品进行酶切。
所述免疫肽的来源包括:单分型HLA细胞、全分型HLA肿瘤细胞、临床组织样本或与体外合成多肽-MHC(简称pMHC)复合体结合的随机肽中的任一种或多种。所述单分型HLA细胞可以通过基因工程技术构建得到,所述全分型HLA肿瘤细胞可以为常见肿瘤细胞,临床组织样本需要先经过二代测序鉴定其HLA分型。
在一优选实施例中,用于得到所述免疫肽质谱数据的免疫肽样本的N端氨基和支链氨基带有TMT标记或二甲基标记或iTRAQ标记或TMTpro标记,用于提升多肽N端释放出来的子离子的信号强度,提升多肽谱图鉴定效率。通过实验证明,利用肽段标记方法能够显著提高二级谱图b离子的信号强度,大大改善二级谱图的质量,对免疫肽的鉴定具有促进作用。
理论谱图是在鉴定过程中搜库软件会对蛋白参考库里所有的蛋白序列进行理论酶切,得到肽段序列,再对肽段序列进行理论碎裂,形成理论谱图。通过将每一张导入搜索引擎的免疫肽质谱实验结果谱图与理论谱图进行匹配打分,可选择打分靠前的理论谱图对应的肽段作为数据集。
例如可以筛选打分前5、6、8、10、20或30等任一数值的理论谱图对应的肽段作为数据集,则数据集中的每一条肽段都具有与理论谱图的匹配分值。
通过该步骤对理论谱图进行第一步筛选,缩小理论谱图数据范围。由于仅设置一个筛选参数可能出现错配的可能,从而会降低准确性,因此本申请方案并不采用匹配打分最优的理论谱图对应的肽段作为鉴定的肽段。
蛋白参考库可以为公共数据库,也可以为自行添加或者从头构建得到的蛋白质数据库,例如swiss-prot数据库、UniProt KB数据库等。质谱数据解析可以为例如pFind3等能够获得肽段谱图匹配得分(PSM score)的搜库软件。
S200:计算所述数据集中的每一条肽段的保留时间偏差分值和离子定性特征分值。
在一可选实施例中,所述计算所述数据集中的每一条肽段的保留时间偏差分值,包括:
S211:获取所述免疫肽质谱数据中的每一条肽段的实际保留时间。实际保留时间为免疫肽在液相色谱中实际观察到的保留时间,可以从质谱原始数据中获得。
S212:计算所述数据集中的每一条肽段的预测保留时间。预测保留时间可以通过已有的保留时间预测模型来计算。
S213:根据所述实际保留时间和所述预测保留时间计算得到所述保留时间偏差分值。
优选地,所述保留时间偏差分值的计算公式为:
其中Experimental_RT为所述实际保留时间,Predicted_RT为所述预测保留时间。
在一可选实施例中,所述计算所述数据集中的每一条肽段的预测保留时间,包括:
S2121:使用Prosit或者其他软件公开的保留时间预测模型计算所述数据集中的每一条肽段的保留时间。保留时间预测模型预测得到的保留时间与液相色谱中实际观察到的保留时间单位不同,因此还需要将预测的保留时间换算成实际保留时间的单位。
S2122:以所述保留时间预测模型软件预测的保留时间作为训练数据,利用线性模型RANSACRegressor得到线性方程f(x),根据f(x)计算得到所述数据集中的每一条肽段的预测保留时间,从而与实际保留时间单位保持统一。
在一可选实施例中,所述计算所述数据集中的每一条肽段的离子定性特征分值,包括:
S221:获取所述免疫肽质谱数据中的每一条肽段的实际离子集合。实际离子集合可以从质谱原始下机数据中获得。根据质谱原始数据中的离子强度来判断是否有对应的离子。如离子强度大于0则存在离子,离子强度小于等于0则不存在离子。因此,仅涉及离子的定性判断。
S222:计算所述数据集中的每一条肽段的预测离子集合。预测离子集合可以通过已有的二级谱图预测模型软件来计算。
实际离子集合和预测离子集合中的离子均可以包括b离子、y离子和总离子,离子集合可以是b离子集合、y离子集合或总离子集合。为了说明离子集合的含义,以ABCDE五肽为例进行说明,其中A、B、C、D、E均代表氨基酸,在质谱过程中,每两个氨基酸之间都会被碎裂形成b离子和y离子,也即AB之间会碎裂形成b1离子和y1离子,BC之间会碎裂形成b2离子和y2离子,CD之间会碎裂形成b3离子和y3离子,DE之间会碎裂形成b4离子和y4离子,b离子集合仅包括b离子,y离子集合仅包括y离子,总离子集合包括b离子和y离子。
在获取实际离子集合或计算预测离子集合时,如果存在相应的离子就放到该集合中去,不存在的离子则不放入该集合,例如该五肽的实际b离子集合可以为[b1,b2,b3],而其预测b离子集合可以为[b2,b3,b4],该短肽同样还可以有y离子集合和总离子集合,在此不再赘述。
判断是否有对应的离子的方式是通过判断离子强度大于0则存在离子,离子强度小于等于0则不存在离子,因此,仅涉及离子的定性判断。
S223:根据所述实际离子集合和所述预测离子集合计算得到所述离子定性特征分值。
在一可选实施例中,根据所述实际离子集合和所述预测离子集合计算得到所述离子定性特征分值,包括:
计算所述实际离子集合和所述预测离子集合的交集数目、并集数目、差集数目、交并比作为所述离子定性特征分值。
继续以上述五肽的实际b离子集合为[b1,b2,b3],预测b离子集合为[b2,b3,b4]为例进行说明,则实际b离子集合和预测b离子集合的交集数目为2,并集数目为4,差集数目为1,交并比是指交集数目与并集数目的比值为0.5。y离子集合和总离子集合的计算方法与此类似,不再一一举例说明。
在一可选实施例中,所述离子定性特征分值还包括:
所述交集数目、所述并集数目、所述差集数目、所述交并比分别除以(2*肽段长度*肽段子离子电荷数)得到的分值;
以及,所述交集数目、所述并集数目、所述差集数目、所述交并比分别除以所述实际离子集合的数目得到的分值。
在一优选实施例中,所述计算所述数据集中的每一条肽段的保留时间偏差分值和离子定性特征分值之外,还包括:
S230:计算所述数据集中的每一条肽段的离子强度定量特征分值。
在一可选实施例中,所述计算所述数据集中的每一条肽段的离子强度定量特征分值,包括:
S231:获取所述免疫肽质谱数据中的每一条肽段的实际离子强度。所述实际离子强度存在于质谱下机数据中。
S232:计算所述数据集中的每一条肽段的预测离子强度。预测离子强度可以通过预测模型进行计算。
S233:根据所述实际离子强度和所述预测离子强度计算得到所述离子强度定量特征分值。
优选地,所述离子强度定量特征分值的计算函数为:
其中,P表示所述预测离子强度,M表示所述实际离子强度。
S300:将包括所述肽段谱图匹配分值、保留时间偏差分值和离子定性特征分值在内的特征输入集成学习器模型中得到归并后的总分值。
将包括所述肽段谱图匹配分值、保留时间偏差分值和离子定性特征分值在内的特征一并作为肽段谱图匹配的特征维度输入多神经网络的集成学习器模型中,得到归并后的总分值。
当特征为肽段谱图匹配分值、保留时间偏差分值和离子定性特征分值时,总分值是以这三个分值为特征计算后得到的。
当特征为肽段谱图匹配分值、保留时间偏差分值、离子定性特征分值和离子强度定量特征分值时,将所述肽段谱图匹配分值(PSM score)、保留时间偏差分值、离子定性特征分值和离子强度定量特征分值作为特征输入多神经网络的集成学习器模型中,得到归并后的总分值。
S400:基于所述总分值计算FDR,根据FDR阈值从所述数据集中筛选得到免疫肽结果。
在target/decoy框架下,基于所述总分值计算FDR值,筛选免疫肽结果。
本申请提供的免疫肽的鉴定方法在传统鉴定特征的基础上加入保留时间偏差分值、离子定性特征分值和离子强度定量特征分值特征,通过这些特征鉴定得到的免疫肽更准确。与现有的搜库工具MaxQuant、pFind3、MSFragger等相比,该方法的召回率和精确度均较高,具有最大的F1值,说明该方法是平衡召回率和精确度最佳的免疫肽鉴定方案。
本申请第二方面提供一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述的一种免疫肽的鉴定方法。
本申请第三方面还提供一种可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行上述的一种免疫肽的鉴定方法。
本申请第四方面还提供肽段标记方法在免疫肽鉴定方面的应用实例,用于说明肽段N端氨基标记技术提高b离子信号强度的优势在免疫肽识别应用上能够提高准确度和敏感度。
下面将结合具体实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
实施例1基准数据集验证Alpha-DDA性能
1.1 Alpha-DDA鉴定方法
本申请的免疫肽质谱数据的鉴定方法命名为Alpha-DDA,其鉴定免疫肽的较优实施例的流程示意图如图9所示,下面参阅图9进行详细说明该鉴定过程。
1、利用pFind3对质谱下机数据集进行搜库,蛋白参考库为swiss-prot数据库。“Precursor Tolerance”和“Fragment Tolerance”均为±5ppm。不添加任何固定修饰和可变修饰。FDR参数选择“spectrum”水平≤1%FDR,“Peptide Length”选择7-15,其他均为默认参数。pFind3搜库结果文件,列出了每条肽段的谱图匹配得分(PSM score)。
2、Prosit是一款利用深度学习预测肽段的保留时间和碎片离子强度的算法。将pFind3的搜库结果作为输入,利用Prosit训练好的保留时间的模型以及二级图谱的模型预测肽段的保留时间和二级碎片离子b/y的强度值。
3、获取每条肽序列在液相色谱中实际观察到的保留时间。
4、将步骤2中预测得到的保留时间与实际保留时间的单位进行统一,利用线性模型linear_model的RANSACRegressor算法对步骤2中得到的保留时间结果进行线性预测,得到预测保留时间Predicted_RT。最后利用以下公式求保留时间偏差DeltaRT:
5、利用步骤2中预测得到的b/y离子强度值,计算预测的离子集合与实际的离子集合的交集、并集、差集、交并比等离子定性特征。
6、利用步骤2中预测得到的b/y离子强度值进行离子强度定量特征打分,强度定量打分函数为:
其中,P表示预测谱,M表示测量谱,两者具有相同的维度(所有可能b/y子离子的个数,其中,子离子电荷不超过母离子电荷且最大为2)。
7、将上述保留时间偏差打分、定性打分和定量打分结合传统打分,一并作为肽段谱图匹配PSM的特征维度输入多神经网络的集成学习器模型中,得到归并后的总打分。
8、在target/decoy框架下,基于以上总打分计算FDR值。
9、根据FDR阈值筛选肽段。将fdr≦1%并且‘Target/Decoy’列为‘target’结果定为“高质量免疫肽”。将fdr≦5%并且‘Target/Decoy’列为‘target’的结果称为“所有肽段”。
1.2不同搜库方案的比较
召回率(recall)和精准率(precision)通常是一对需要相互平衡的性能度量指标。精准率从预测结果出发,度量的是预测的所有结果中真阳性结果的比例;召回率是度量所有已知真阳性结果中被检测出来的比例。我们以这两个性能指标来评估不同方法的性能。
F1分值是寻找二者之间平衡点的一个指标,可以看做是精准率和召回率的一种调和平均。F1的最大值是1,最小值是0,并且F1值越大越好。
一般F1的公式为:
F1分数=2*召回率*精准率/(精准率+召回率)
1、选择公开的并经过质谱验证的人的合成肽数据作为基准数据集。标准合成肽来源于IEDB数据库,包括HLA-A02:01、HLA-A03:01、HLA-B07:02、HLA-B44:02共4种HLA分型,每种分型最终随机选取500条肽。
2、以上合成肽去重后保留1999条基准肽段作为基准数据集,以此为标准分别计算MaxQuant(https://www.maxquant.org/maxquant/)、MSFragger3(https://msfragger.nesvilab.org/)、pFind3(Chi H,Liu C,Yang H,et al.Open-pFind enablesprecise,comprehensive and rapid peptide identification in shotgun proteomics[J].BioRxiv,2018:285395.)、pFind3+MSFragger、pnovo3(Yang H,Chi H,Zeng W F,etal.pNovo 3:precise de novo peptide sequencing using a learning-to-rankframework[J].Bioinformatics,2019,35(14):i183-i190.)+pFind3+msFragger、Alpha-DDA共6种搜库方案的召回率和精确度,计算结果见表1所示。
表1六种搜库方案的召回率和精确度
从表1中结果比较可以看出,Alpha-DDA的召回率和精准率达到了76.0%和84.2%。并且Alpha-DDA具有最大的F1值0.80,说明Alpha-DDA是平衡召回率和精确度最佳的免疫肽鉴定方案。与现有其他搜库工具相比,Alpha-DDA在肽鉴定方面具有高敏感度高准确度的优势。
1.3 Alpha-DDA不同特征的比较
除此之外,为了探究不同的特征的权重影响,分别计算了pFind3、pFind3+RT、pFind3+RT+定性打分、pFind3+RT+定性打分+定量打分四种方案下对基准数据集搜库结果的召回率和精确度,结果如图1所示。
可以看出,保留时间(RT)特征对召回率并没有明显的提高,原因在于HPLC的洗脱时间与预测洗脱时间的相关系数(R2)达到了0.94,说明RT的预测能力几乎达到最优(见图2),可见只添加保留时间特征是不够的。子离子定性(Qual.)和子离子强度定量(Quan.)两个特征的增加将召回率提高了10%,其中定性打分的增加作用尤为明显,单独增加定性打分也可以大大提供召回率。同时,也验证了保留时间+定性打分+定量打分特征的增加进一步提高了神经网络准确预测免疫肽的性能。
实施例2 Alpha-DDA鉴定分析标记肽段和非标LabelFree肽段
2.1构建HLA单分型细胞系
1、单分型HLA载体的构建
从NCBI下载HLA分型的核酸序列,添加3×Flag标签用于富集pMHC复合体。采用第三方基因合成公司体外合成HLA-A*02:01和HLA-B*44:02完整基因并搭载到相应E.coli中。此载体拥有潮霉素(Hyg)抗性,可以用作筛选阳性细胞。得到对应质粒后可进行转染。
2、单分型HLA阳性细胞的构建及筛选
1)细胞铺板:
将K562细胞接种于6孔板中(4个孔),使次日细胞融合度约70%;
2)病毒感染:
根据预实验确定的MOI值,MOI=50(每孔添加ADV-HR 2μL);
3)换液:
慢病毒感染次日,将细胞进行换液处理;
4)观察感染效率:
感染后72小时,观察感染效率,效率最低不应低于40%;
5)阳性多克隆筛选:
从感染72小时后开始于6孔板中加潮霉素(100μg/mL),每隔2天,重新换液加入单分型质粒;
6)单克隆稳转株的筛选(建立在获得多克隆稳转株基础上)——有限稀释法:
a.取24个1.5毫升EP管,每管中加入800微升完全培养基;
用胰酶将多克隆稳转株消化(90%融合度,10毫升培养基终止消化),取80微升至第一个EP管中,混合均匀;
b.从第一个EP管中取80微升至第二个EP管中,混合均匀,以此类推。
c.将EP管中的细胞悬液,以每孔100微升,接种于96孔板中;
d.过夜培养后,观察第12-24列,寻找只含有1个细胞的孔,并做好标记;
e.培养3-4周,待标记孔中细胞扩增后,消化传代扩增,即为单克隆稳转株细胞。
2.2单分型HLA细胞系pMHC复合物中免疫多肽的纯化、标记、质谱实验
1、收集细胞
收集约1×108个细胞转移至15ml离心管,低速离心,去上清,并用冷PBS清洗细胞3遍。
2、裂解细胞蛋白
细胞中加入1.5ml蛋白提取液(50mM Tris-HCl pH 7.4,150mM NaCl,0.5%SDC,1%Octyl-β-D-glucopyranoside,1%cocktail III,1%磷酸酶抑制剂),20000g高速离心10min,取上清即为全蛋白。利用BCA法测得蛋白浓度。
3、树脂预处理
树脂在水平摇床上充分重悬,取2ml(slurry 50%)的anti-Flag树脂到空柱子中,待保存液流尽。加入10V树脂体积的TBS平衡,尽量不要让树脂悬浮起来。pre-clean:准备1ml protein Aagarose,加入10V树脂体积的TBS平衡,尽量不要让树脂悬浮起来。
4、IP富集蛋白和蛋白粗纯化
取10mg蛋白液,加入到protein Aagarose柱中,收集流穿。加入1ml TBS,收集流穿至体积1-1.5ml(不超过2ml)。将蛋白液加到层析柱上,盖上柱上下端的盖子,放到旋转摇床中孵育结合过夜。打开柱两端的盖子,收集流穿。待液体流尽,用10V树脂体积的TBS wash非特异结合的蛋白。先用500μL10%冰醋酸洗脱2次,再用2ml 10%冰醋酸洗两次,洗脱液收集在一个离心管中。加入10V树脂体积的TBS,直至流出液pH呈碱性。
5、IP质控
dot-blot的结果显示(图3),IP后的流穿没有明显的信号,wash中也没有明显的信号,而在洗脱液中存在明显信号,说明IP的效率比较高。
6、肽段富集纯化和除盐
将2中蛋白粗纯液洗脱液浓缩至100μL左右,并用10%TFA调整pH至2-3。用3层C18膜的Tip柱分离肽段和HLA蛋白亚基。用100%ACN和50%ACN活化Tip柱,再用0.1%TFA平衡Tip柱两次。将调整好pH的样本上样到Tip柱中(收集流穿,再上样一次),用0.1%TFA除盐两次,用10%,20%,30%ACN(0.1%TFA)分别洗脱,合并收集。抽干洗脱液,再用0.1%TFA溶解肽段,用单层C18膜的Tip再重复做一次。抽干的样本作为没有进行标记的多肽的质谱实验样本用于后续的质谱检测。
7、N端及支链氨基标记技术
步骤6的除盐样品干燥后,TMT标记、iTRAQ标记、二甲基标记的操作分别如下:
TMT标记:用50μL的100mM TEAB复溶干燥后得到的样品,并以2:1比例分管,再分别加入溶解在100μL乙腈中的0.4mg TMT2plex(TMT126,TMT127)标记,室温放置1h,加入8μL的5%的羟胺终止反应后将分管的两个样本混在一起,干燥去除样本中用于溶解TMT的乙腈,用100μL 0.1%TFA,2%ACN重溶后利用50mg sep-pak小柱除盐,得到TMT标记多肽N端及支链氨基的质谱实验样本。
iTRAQ标记:用50μL的100mM TEAB复溶并以2:1比例分管,再分别加入溶解在100μL乙醇中的0.4mg的iTRAQ2plex(iTRAQ113,iTRAQ114)标记,室温放置1h,加入8μL的5%的羟胺终止反应后将分管的两个样本混在一起,干燥去除样本中用于溶解iTRAQ的乙醇,用100μL0.1%TFA,2%ACN重溶后利用50mg sep-pak小柱除盐,得到iTRAQ标记多肽N端及支链氨基的质谱实验样本。
二甲基化标记:用25μL的100Mm TEAB复溶并以2:1比例分管,再分别加入4μL 4%的甲醛溶液(CH2O,13CD2O),和4μL 0.6M氰基硼氢化钠(NaBH3CN,NaBD3CN),室温放置1h,加入16μL的1%的氨水终止反应后将分管的两个样本混在一起,加酸TFA至0.1%后用50mg sep-pak小柱除盐,得到二甲基化标记多肽N端及支链氨基的质谱实验样本。
8、HPLC分离与质谱分析
在Dionex U3000 UPLC系统上将肽加载到反相捕获柱(Acclaim PepMap 100,Thermo Scientific)上,然后利用反相纳米柱(Acclaim PepMap RSLC,ThermoScientific)进行肽分离,流速设置为400nL/min。梯度:0-6min:3%B;6-7min:3–5%B;7-70min:5–18%B;70-90min:18–32%B;90-100min:32-80%B;100-110min:80%B;110-120min:80-3%B(A相2%ACN(0.1%FA),B相98%ACN(0.1%FA))。通过配备2.3kV喷雾电压的纳升级ESI源的Q-Exactive HF四极杆-Orbitrap质谱仪(ThermoFisher Scientific)对肽进行LC-MSMS分析。质谱数据通过数据依赖性模式(DDA)采集,该模式首先在60,000FWHM(m/z 200Th)分辨率下对350-1200Th进行MS全扫描,自动增益控制(AGC)设置为1e6,然后选择20个最强母离子峰通过高能碰撞解离(HCD)并进行MS2扫描。归一化碰撞能量设定为27%。所有MS2谱图均以17,500FWHM分辨率获得,AGC设定为2e5。
2.3不同肽段标记技术的效果比较
在免疫肽的定性分析方面,利用肽段标记技术能够显著提高二级谱图(MS2)b离子的信号强度,大大改善二级谱图的质量,对免疫肽的鉴定具有促进作用。为了说明肽段标记对于免疫肽的鉴定具有促进作用,我们使用了2.2得到的经TMT标记的pMHC样本、iTRAQ标记的pMHC样本、二甲基标记的pMHC样本以及非标(LabelFree)的pMHC样本的质谱数据进行搜库,按照实施例1的1.1方法利用Alpha-DDA进行搜库,分别从搜库得到的二级谱图鉴定率(表2所示)、二级谱图b/y离子信号总强度(表3所示)、b/y离子强度散点分布图(图4A、图4B、图4C、图4D)和b/y离子完整度箱线图(图5)4个方面比较说明。
表2不同标记技术的谱图鉴定率结果
表3不同标记技术和非标LabelFree的b/y离子总强度结果
通过表2、表3和图4A-4D、图5可以看出,与LabelFree比较,肽段标记后:
1)y离子总强度略有提高,但b离子的总信号强度明显提高了至少1个数量级(见表3)。
2)尤其是肽段1、2、3位置上碎裂的b离子的离子强度显著增加(见图4A-4D)。通过对TMT标记和LabelFree的肽段碎裂后离子完整度进行统计,图5显示TMT标记后的b离子的完整度明显超过了LabelFree的b离子完整度。
3)二级谱图鉴定率也有所提高(见表2)。
4)比较3种标记方法的结果发现,TMT标记得到的各个结果略优于其他两种标记。
综上说明,肽段标记能够显著提高b离子信号强度,大大改善了MS2谱图的质量,显著提高肽鉴定的敏感度。几种肽段标记技术中,TMT是相对成熟,操作方便,效果最好的标记方法。
2.4 TMT标记与非标LabelFree的鉴定结果比较
统计Alpha-DDA对TMT标记的肽段的鉴定数目如表4所示。肽段长度分布(7-15)如图6所示。可以看出,Alpha-DDA鉴定TMT标记的样本能够获得比非标LabelFree更多数目的肽段,并且长度分布统计结果与文献中的一致,以长度为9的肽段为主。长期研究证明,在与I型HLA结合的多肽长度范围为7-14,并且以9长度的多肽数目最多
表4 TMT标记与非标LabelFree鉴定到的肽段数目结果
实施例3体外试验验证肽段的免疫原性和杀伤能力
分析统计K562-HLA-A02:01和K562-HLA-B44:02细胞系各2组多肽序列,一组为Alpha-DDA鉴定TMT标记样本所得多肽序列;二组为MaxQuant鉴定TMT标记样本所得多肽序列;随机分别选取两组所独有的20条多肽序列进行免疫原性和肿瘤细胞杀伤验证试验。免疫原性验证使用的试剂盒为达科为厂家的Human FN-γprecoated ELISPOT kit试剂盒,产品编号2110006。
3.1 ELISpot免疫原性验证
1、多肽配制
先配制10%的DMSO溶液,将DMSO和PBS按1:9的比例混合均匀,然后向多肽瓶中加入1ml 10%的DMSO溶液,混匀充分溶解后分装待使用。配制单肽终浓度20μg/ml/peptide。
2、多肽pool和单肽刺激培养PBMC
预包被板的活化:根据实验需要取出ELISpot板条,每孔加入200μLRPMI 1640培养基,室温静置5-10分钟后将其扣出。
加入细胞悬液:根据实验需要设置实验组别,用人类ELISpot专用无血清培养基重悬PBMC,调整细胞密度至2×106个/ml,按每孔100μL加入各实验孔中,每组设置3个复孔。
加入刺激物:每孔加入1μL多肽工作液,达到多肽终浓度5μg/ml/peptide。每次实验均设置阳性对照组、多肽实验组及阴性对照组。阳性对照组使用CEF Peptide Pool、PHA作为阳性刺激物。阴性对照不加刺激物,只加与多肽溶液浓度相同的DMSO。
孵育:将ELISpot板放入37℃二氧化碳培养箱中培养16-24h。
3、ELISpot显色
取出ELISpot板,倾倒孔内细胞及培养基。加冰冷的去离子水,200μL/孔,4℃冰箱放置10分钟低渗裂解细胞。弃去液体,用1×Wash buffer漂洗6次,最后一次拍干。每孔加入100μL生物素标记的检测抗体,37℃孵育1h。弃去液体,用1×Wash buffer漂洗6次,最后一次拍干,每孔加入100μL稀释好的链霉亲和素,37℃孵育1h。弃去液体,用1×Wash buffer漂洗6次,最后一次拍干,每孔加入100μL新鲜配制的AEC显色液,室温避光静置25mins。要终止反应,弃去孔内液体并用去离子水洗涤PVDF膜的正反两面,室温避光晾干。观察斑点结果。
4、ELISpot斑点计数
使用S6FluoroSpot Line仪器进行斑点计数,并生成数据报告。
结果如图7所示,两组独属多肽各20条,Alpha-DDA对TMT标记样本鉴定出的独属肽的免疫原性,明显高于MaxQuant鉴定TMT标记样本的多肽。
3.2体外杀伤实验验证
1、PBMC预处理及iDC、初始T细胞分离培养
采集HLA基因型为HLA-A02:01与HLA-B44:02的健康志愿者各1.5×109个白细胞,4℃避光防震运输。进行单个核细胞(简称PBMC)及初始T细胞分离培养,将PBMC培养成未成熟的DC细胞(简称iDC)。
2、抗原特异性T细胞体外激活
步骤1中的PBMC及初始T细胞分离培养,分别将供试品Alpha-DDA独属多肽和MaxQuant独属多肽以10μg/肽/mL/与DC共孵育,第6天加入细胞因子刺激诱导为成熟DC细胞(简称mDC),之后将mDC与T细胞按照1:30比例进行共刺激培养三次后收集细胞。
3、RCTA检测Alpha-DDA与MaxQuant对TMT标记样本鉴定出的独属多肽所激活的T细胞杀伤肿瘤的能力
本研究先向E-Plate检测板中加入培养基以测定背景阻抗值,再收集对数期的细胞进行计数,并调整细胞悬液浓度至2×105cells/mL后,向E-Plate检测板每孔分别加入K562-HLA-A02:01或K562-HLA-B44:02细胞2×104cells/100μL,于室温条件下在超净台内放置30min。然后将加有K562-HLA-A02:01或K562-HLA-B44:02细胞的E-Plate检测板放入检测台上进行实时动态的细胞增殖检测。最后按5:1、10:1、20:1的效靶比分别向各培养孔中分别加入已配制好的T细胞,每组3个重复,设置系统阴性对照组(不加T细胞),过夜培养24小时,并进行实时动态检测,以获得不同组的细胞效应曲线及不同时间段IC50值,设定观察总时长为72小时。结果见图8A、图8B,Alpha-DDA对TMT标记样本鉴定出的独属多肽所激活的T细胞杀伤肿瘤的能力明显优于MaxQuant所激活的T细胞,在K562-HLA-A02:01或K562-HLA-B44:02细胞中保持一致。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种免疫肽的鉴定方法,其特征在于,包括:
将免疫肽质谱数据与蛋白库理论谱图进行匹配打分,筛选与所述免疫肽质谱数据匹配的理论谱图对应的肽段作为数据集,所述数据集中的每一条肽段具有肽段谱图匹配分值;
计算所述数据集中的每一条肽段的保留时间偏差分值和离子定性特征分值;
所述计算所述数据集中的每一条肽段的离子定性特征分值,包括:
获取所述免疫肽质谱数据中的每一条肽段的实际离子集合;
计算所述数据集中的每一条肽段的预测离子集合;
根据所述实际离子集合和所述预测离子集合计算得到所述离子定性特征分值;
根据所述实际离子集合和所述预测离子集合计算得到所述离子定性特征分值,包括:
计算所述实际离子集合和所述预测离子集合的交集数目、并集数目、差集数目、交并比作为所述离子定性特征分值;
所述离子定性特征分值还包括:
所述交集数目、所述并集数目、所述差集数目、所述交并比分别除以(2*肽段长度*肽段子离子电荷数)得到的分值;
以及,所述交集数目、所述并集数目、所述差集数目、所述交并比分别除以所述实际离子集合的数目得到的分值;
将包括所述肽段谱图匹配分值、保留时间偏差分值和离子定性特征分值在内的特征输入集成学习器模型中得到归并后的总分值;
基于所述总分值计算FDR,根据FDR阈值从所述数据集中筛选得到免疫肽结果。
2.根据权利要求1所述的鉴定方法,其特征在于,所述计算所述数据集中的每一条肽段的保留时间偏差分值,包括:
获取所述免疫肽质谱数据中的每一条肽段的实际保留时间;
计算所述数据集中的每一条肽段的预测保留时间;
根据所述实际保留时间和所述预测保留时间计算得到所述保留时间偏差分值。
3.根据权利要求2所述的鉴定方法,其特征在于,所述保留时间偏差分值的计算公式为:
其中Experimental_RT为所述实际保留时间,Predicted_RT为所述预测保留时间。
4.根据权利要求2所述的鉴定方法,其特征在于,所述计算所述数据集中的每一条肽段的预测保留时间,包括:
使用保留时间预测模型软件计算所述数据集中的每一条肽段的保留时间;
以所述保留时间作为训练数据,利用线性模型对所述数据集进行线性预测,得到所述数据集中的每一条肽段的预测保留时间。
5.根据权利要求1所述的鉴定方法,其特征在于,所述计算所述数据集中的每一条肽段的保留时间偏差分值和离子定性特征分值之外,还包括:
计算所述数据集中的每一条肽段的离子强度定量特征分值;
所述将包括所述肽段谱图匹配分值、保留时间偏差分值和离子定性特征分值在内的特征输入集成学习器模型中得到归并后的总分值,具体为:
将所述肽段谱图匹配分值、所述保留时间偏差分值、所述离子定性特征分值和所述离子强度定量特征分值作为特征输入集成学习器模型中得到归并后的总分值。
6.根据权利要求5所述的鉴定方法,其特征在于,所述计算所述数据集中的每一条肽段的离子强度定量特征分值,包括:
获取所述免疫肽质谱数据中的每一条肽段的实际离子强度;
计算所述数据集中的每一条肽段的预测离子强度;
根据所述实际离子强度和所述预测离子强度计算得到所述离子强度定量特征分值;
所述离子强度定量特征分值的计算函数为:
其中,P表示所述预测离子强度,M表示所述实际离子强度。
7.根据权利要求1所述的鉴定方法,其特征在于,用于得到所述免疫肽质谱数据的免疫肽样本的N端氨基和支链氨基带有TMT标记或iTRAQ标记或二甲基标记或TMTpro标记。
8.一种终端设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至7任一项所述的一种免疫肽的鉴定方法。
9.一种可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7任一项所述的一种免疫肽的鉴定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210348793.0A CN114705796B (zh) | 2022-04-01 | 2022-04-01 | 免疫肽的鉴定方法、终端设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210348793.0A CN114705796B (zh) | 2022-04-01 | 2022-04-01 | 免疫肽的鉴定方法、终端设备和可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114705796A CN114705796A (zh) | 2022-07-05 |
CN114705796B true CN114705796B (zh) | 2023-11-07 |
Family
ID=82172867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210348793.0A Active CN114705796B (zh) | 2022-04-01 | 2022-04-01 | 免疫肽的鉴定方法、终端设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114705796B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106596760A (zh) * | 2016-12-05 | 2017-04-26 | 北京理工大学 | 一种基于两端等重标记和数据库搜索的蛋白质鉴定方法 |
WO2019173687A1 (en) * | 2018-03-08 | 2019-09-12 | The Trustees Of Indiana University | Constrained de novo sequencing of neo-epitope peptides using tandem mass spectrometry |
CN110554134A (zh) * | 2018-05-30 | 2019-12-10 | 中国科学院上海生命科学研究院 | 临床血液样本分析方法及应用 |
CN113611362A (zh) * | 2021-07-16 | 2021-11-05 | 广东药科大学 | 一种点突变birc5抗原表位肽筛选的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10553412B2 (en) * | 2010-05-24 | 2020-02-04 | Agilent Technologies, Inc. | System and method of data-dependent acquisition by mass spectrometry |
WO2020132235A1 (en) * | 2018-12-20 | 2020-06-25 | Merck Sharp & Dohme Corp. | Methods and systems for the precise identification of immunogenic tumor neoantigens |
-
2022
- 2022-04-01 CN CN202210348793.0A patent/CN114705796B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106596760A (zh) * | 2016-12-05 | 2017-04-26 | 北京理工大学 | 一种基于两端等重标记和数据库搜索的蛋白质鉴定方法 |
WO2019173687A1 (en) * | 2018-03-08 | 2019-09-12 | The Trustees Of Indiana University | Constrained de novo sequencing of neo-epitope peptides using tandem mass spectrometry |
CN110554134A (zh) * | 2018-05-30 | 2019-12-10 | 中国科学院上海生命科学研究院 | 临床血液样本分析方法及应用 |
CN113611362A (zh) * | 2021-07-16 | 2021-11-05 | 广东药科大学 | 一种点突变birc5抗原表位肽筛选的方法 |
Non-Patent Citations (1)
Title |
---|
DeepRescore: Leveraging Deep Learning to Improve Peptide Identification in Immunopeptidomics;Kai Li et al.;Proteomics;第20卷;第1900334-1至1900334-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114705796A (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pan et al. | The ATPase module of mammalian SWI/SNF family complexes mediates subcomplex identity and catalytic activity–independent genomic targeting | |
US6963807B2 (en) | Automated identification of peptides | |
Coombs | Quantitative proteomics of complex mixtures | |
CN115266962A (zh) | 蛋白标志物在制备弥漫型胃癌分子分型的产品中的应用及弥漫型胃癌分子分型的分类器 | |
Yan et al. | Index-ion triggered MS2 ion quantification: a novel proteomics approach for reproducible detection and quantification of targeted proteins in complex mixtures | |
Ryu et al. | Comparison of a label-free quantitative proteomic method based on peptide ion current area to the isotope coded affinity tag method | |
CA3198427A1 (en) | Method, system and computer program product for determining peptide immunogenicity | |
Di et al. | MdFDIA: a mass defect based four-plex data-independent acquisition strategy for proteome quantification | |
Sharpnack et al. | Proteogenomic analysis of surgically resected lung adenocarcinoma | |
EP3430161A1 (en) | Methods of isolating barrel-like proteases and identifying peptides processed thereby | |
Unwin et al. | Systematic proteome and transcriptome analysis of stem cell populations | |
WO2002021139A2 (en) | Automated identification of peptides | |
Li et al. | Deep dive on the proteome of human body fluids: a valuable data resource for biomarker discovery | |
CN114705796B (zh) | 免疫肽的鉴定方法、终端设备和可读存储介质 | |
Tian et al. | Combined CRISPRi and proteomics screening reveal a cohesin-CTCF-bound allele contributing to increased expression of RUVBL1 and prostate cancer progression | |
JP2003529605A (ja) | 高分子検出 | |
KR20200087701A (ko) | 임상적 암 평가를 위한 srm 및 dia 검정 | |
Gloghini et al. | Cell-secreted signals shape lymphoma identity | |
Kodera et al. | Establishment of a strategy for the discovery and verification of low-abundance biomarker peptides in plasma using two types of stable-isotope tags | |
Chen et al. | Multiplexed liquid chromatography-multiple reaction monitoring mass spectrometry quantification of cancer signaling proteins | |
Planatscher et al. | Identification of short terminal motifs enriched by antibodies using peptide mass fingerprinting | |
Kristjansdottir et al. | Stable-isotope labeling for protein quantitation by mass spectrometry | |
CN106255766A (zh) | 针对雄激素受体(ar)蛋白质的srm/mrm测定 | |
Kienzl-Wagner et al. | Proteomics in transplantation | |
JP2019100929A (ja) | 膠芽腫マーカー及びその使用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |