CN116465992B - 一种检测蛋白末端氨基酸序列的方法 - Google Patents
一种检测蛋白末端氨基酸序列的方法 Download PDFInfo
- Publication number
- CN116465992B CN116465992B CN202310422124.8A CN202310422124A CN116465992B CN 116465992 B CN116465992 B CN 116465992B CN 202310422124 A CN202310422124 A CN 202310422124A CN 116465992 B CN116465992 B CN 116465992B
- Authority
- CN
- China
- Prior art keywords
- peptide
- terminal
- protein
- mass
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 140
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 64
- 125000003275 alpha amino acid group Chemical group 0.000 title claims abstract 5
- 108010033276 Peptide Fragments Proteins 0.000 claims abstract description 148
- 102000007079 Peptide Fragments Human genes 0.000 claims abstract description 148
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 99
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 41
- 238000001819 mass spectrum Methods 0.000 claims abstract description 35
- 238000012216 screening Methods 0.000 claims abstract description 30
- 101800001415 Bri23 peptide Proteins 0.000 claims abstract description 29
- 101800000655 C-terminal peptide Proteins 0.000 claims abstract description 29
- 102400000107 C-terminal peptide Human genes 0.000 claims abstract description 29
- 210000004899 c-terminal region Anatomy 0.000 claims abstract description 25
- 108010067902 Peptide Library Proteins 0.000 claims abstract description 23
- 238000001976 enzyme digestion Methods 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 238000004182 chemical digestion Methods 0.000 claims abstract description 6
- 150000002500 ions Chemical class 0.000 claims description 30
- 238000012163 sequencing technique Methods 0.000 claims description 17
- 102000004190 Enzymes Human genes 0.000 claims description 8
- 108090000790 Enzymes Proteins 0.000 claims description 8
- 229940088598 enzyme Drugs 0.000 claims description 8
- 108090000631 Trypsin Proteins 0.000 claims description 7
- 102000004142 Trypsin Human genes 0.000 claims description 7
- 239000012588 trypsin Substances 0.000 claims description 7
- KDXKERNSBIXSRK-UHFFFAOYSA-N lysine Chemical compound NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 108090000317 Chymotrypsin Proteins 0.000 claims description 4
- 108090000284 Pepsin A Proteins 0.000 claims description 4
- 102000057297 Pepsin A Human genes 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 229960002376 chymotrypsin Drugs 0.000 claims description 4
- 230000006862 enzymatic digestion Effects 0.000 claims description 4
- 229940111202 pepsin Drugs 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 229960001322 trypsin Drugs 0.000 claims description 4
- 108010062010 N-Acetylmuramoyl-L-alanine Amidase Proteins 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 101800000597 N-terminal peptide Proteins 0.000 claims 1
- 102400000108 N-terminal peptide Human genes 0.000 claims 1
- 230000004048 modification Effects 0.000 abstract description 22
- 238000012986 modification Methods 0.000 abstract description 22
- 101710100170 Unknown protein Proteins 0.000 abstract description 8
- 238000012300 Sequence Analysis Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000001212 derivatisation Methods 0.000 abstract description 3
- 235000018102 proteins Nutrition 0.000 description 113
- 150000001413 amino acids Chemical group 0.000 description 24
- 238000013467 fragmentation Methods 0.000 description 16
- 238000006062 fragmentation reaction Methods 0.000 description 16
- 102000004196 processed proteins & peptides Human genes 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 11
- CSCPPACGZOOCGX-UHFFFAOYSA-N Acetone Chemical compound CC(C)=O CSCPPACGZOOCGX-UHFFFAOYSA-N 0.000 description 9
- OBMZMSLWNNWEJA-XNCRXQDQSA-N C1=CC=2C(C[C@@H]3NC(=O)[C@@H](NC(=O)[C@H](NC(=O)N(CC#CCN(CCCC[C@H](NC(=O)[C@@H](CC4=CC=CC=C4)NC3=O)C(=O)N)CC=C)NC(=O)[C@@H](N)C)CC3=CNC4=C3C=CC=C4)C)=CNC=2C=C1 Chemical compound C1=CC=2C(C[C@@H]3NC(=O)[C@@H](NC(=O)[C@H](NC(=O)N(CC#CCN(CCCC[C@H](NC(=O)[C@@H](CC4=CC=CC=C4)NC3=O)C(=O)N)CC=C)NC(=O)[C@@H](N)C)CC3=CNC4=C3C=CC=C4)C)=CNC=2C=C1 OBMZMSLWNNWEJA-XNCRXQDQSA-N 0.000 description 9
- 101710176384 Peptide 1 Proteins 0.000 description 9
- 235000001014 amino acid Nutrition 0.000 description 9
- 229940024606 amino acid Drugs 0.000 description 9
- 229920001184 polypeptide Polymers 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000004885 tandem mass spectrometry Methods 0.000 description 5
- 125000003277 amino group Chemical group 0.000 description 4
- 230000008827 biological function Effects 0.000 description 4
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 235000018417 cysteine Nutrition 0.000 description 3
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 3
- 230000029087 digestion Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 description 2
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 2
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 2
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 2
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 2
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 2
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 2
- 239000004472 Lysine Substances 0.000 description 2
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 2
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 2
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 description 2
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 2
- 230000021736 acetylation Effects 0.000 description 2
- 238000006640 acetylation reaction Methods 0.000 description 2
- 125000003178 carboxy group Chemical group [H]OC(*)=O 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 2
- 230000001590 oxidative effect Effects 0.000 description 2
- 230000004481 post-translational protein modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011895 specific detection Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000004474 valine Substances 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 1
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 1
- 102000005367 Carboxypeptidases Human genes 0.000 description 1
- 108010006303 Carboxypeptidases Proteins 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 239000004471 Glycine Substances 0.000 description 1
- 102000011782 Keratins Human genes 0.000 description 1
- 108010076876 Keratins Proteins 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- 102000007560 NF-E2-Related Factor 1 Human genes 0.000 description 1
- 108010071380 NF-E2-Related Factor 1 Proteins 0.000 description 1
- 102000000524 Nuclear Respiratory Factor 1 Human genes 0.000 description 1
- 108010016592 Nuclear Respiratory Factor 1 Proteins 0.000 description 1
- 108010078762 Protein Precursors Proteins 0.000 description 1
- 102000014961 Protein Precursors Human genes 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 239000002168 alkylating agent Substances 0.000 description 1
- 229940100198 alkylating agent Drugs 0.000 description 1
- 125000000539 amino acid group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 1
- 150000001507 asparagine derivatives Chemical class 0.000 description 1
- 229940009098 aspartate Drugs 0.000 description 1
- 235000003704 aspartic acid Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 description 1
- 229940098773 bovine serum albumin Drugs 0.000 description 1
- 239000004202 carbamide Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011033 desalting Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 230000007071 enzymatic hydrolysis Effects 0.000 description 1
- 238000006047 enzymatic hydrolysis reaction Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229930195712 glutamate Natural products 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 239000005556 hormone Substances 0.000 description 1
- 229940088597 hormone Drugs 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- 229920003259 poly(silylenemethylene) Polymers 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000013777 protein digestion Effects 0.000 description 1
- 238000000734 protein sequencing Methods 0.000 description 1
- 230000017854 proteolysis Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000009257 reactivity Effects 0.000 description 1
- 238000003259 recombinant expression Methods 0.000 description 1
- 238000005932 reductive alkylation reaction Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000006277 sulfonation reaction Methods 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 238000011191 terminal modification Methods 0.000 description 1
- 125000003396 thiol group Chemical group [H]S* 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 229910021642 ultra pure water Inorganic materials 0.000 description 1
- 239000012498 ultrapure water Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N30/06—Preparation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N2030/022—Column chromatography characterised by the kind of separation mechanism
- G01N2030/027—Liquid chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N30/06—Preparation
- G01N2030/067—Preparation by reaction, e.g. derivatising the sample
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Pathology (AREA)
- Immunology (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Theoretical Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种检测蛋白末端氨基酸序列的方法。所述方法包括:用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;用质谱分析技术分析所述肽段,得到质谱结果,根据质谱结果对所述肽段进行序列分析,得到肽段库;根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,标记N末端肽和C末端肽,获得末端候选肽库;将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分,得分最高的肽段序列即为蛋白的N末端或C末端序列。本发明的方法不依赖化学衍生化修饰,规避蛋白末端的修饰的影响,可有效应用于完全未知蛋白末端序列检测。
Description
技术领域
本发明属于蛋白质测序技术领域,涉及一种检测蛋白末端氨基酸序列的方法。
背景技术
蛋白质的末端序列与该蛋白质的生物学功能和稳定性密切相关,获悉这些序列信息有利于帮助分析蛋白质的结构和生物学功能,尤其是未知蛋白。但是蛋白质从翻译到最后执行生物学功能,经历了复杂的翻译后修饰、信号肽切除、蛋白质水解等过程,例如很多直接执行生物学功能的激素与其蛋白质前体的末端序列完全不一致。因此,很难直接从基因组数据准确推断该蛋白的末端序列信息。近年来得益于质谱技术和蛋白质组学技术的发展,相关研究手段层出不穷。
传统的蛋白末端测序采用的策略是通过酶解法或化学试剂裂解法逐级获得末端序列,例如埃德曼降解用于蛋白N端测序、羧肽酶法获得C端序列。但是这些方法不能解决N端封闭的测序问题,例如谷氨酰胺环化或者乙酰基化修饰,此外,该方法要求蛋白或多肽的纯度在95%以上,且灵敏度较低。蛋白质组非常复杂,目前基于“自下而上”策略产生的大量非末端肽会严重干扰末端肽的鉴定,因此衍生出通过在蛋白的末端引入可富集的靶标修饰,随后利用靶标的识别对蛋白质的末端肽进行富集和鉴定。
如CN101042376公开一种用于快速测定蛋白质N端序列的方法和试剂盒,该方法包括:(1)对蛋白质的氨基进行化学修饰;(2)用还原剂打开蛋白质分子中的二硫键,破坏其高级结构;用烷基化试剂封闭巯基,防止其重新形成二硫键;(3)用化学消化或酶消化法对蛋白质进行消化,产生适于质谱分析的肽段;(4)用质谱分析技术分析蛋白质末端肽段,使其裂解产生碎片离子的质谱图;通过对N端氨基的选择性磺化修饰,在质谱上既容易确定N端肽段,又可以很方便地进行测序。CN101042374公开了一种用于蛋白质末端肽段富集与测序的方法和试剂盒,该方法涉及蛋白质末端氨基的修饰、还原烷基化和胰蛋白酶酶切、末端肽段的色谱富集与质谱测序,通过对酶切肽段混合物中末端肽段的富集与测序,获得蛋白质的末端序列信息以进行蛋白质的鉴定及末端分析。但这些方法中末端羧基或氨基的未知修饰会影响富集修饰,其次羧基的反应活性较差,且仅适用于已知数据库蛋白的末端确定,无法用于未知序列蛋白的从头测序分析。
综上所述,开发高效的检测蛋白质末端氨基酸序列的方法,尤其针对未知蛋白质,对于蛋白质研究领域具有重要意义。
发明内容
针对现有技术的不足和实际需求,本发明提供一种检测蛋白末端氨基酸序列的方法,本发明开发一种新型的检测蛋白末端氨基酸序列的方法,尤其针对未知蛋白质,能够进行高效、准确地检测。
为达上述目的,本发明采用以下技术方案:
第一方面,本发明提供一种检测蛋白末端氨基酸序列的方法,所述方法包括:
用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
用质谱分析技术分析所述肽段,得到质谱结果,根据质谱结果对所述肽段进行序列分析,得到肽段库;
根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,标记N末端肽和C末端肽,获得末端候选肽库;
将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分,得分最高的肽段序列即为蛋白的N末端或C末端序列。
本发明中,流程图如图1所示,为了得到蛋白质末端序列,直接从蛋白样本进行分析,对待测蛋白进行消化,基于串联质谱技术以及从头测序算法,获得多肽序列,通过多肽序列之间的重叠度,构建N末端以及C末端候选肽库,最后通过候选肽库的理论序列离子与完整蛋白的“自顶而下”数据进行匹配打分,最终同时得到蛋白的N末端和C末端序列。
可以理解,本领域通用的蛋白消化方法均适用于本发明,不作特殊限制。
可选地,所述酶消化法包括:
将待测蛋白质与酶混合进行反应。
可选地,所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合。
可以理解,本领域通用的蛋白质的质谱分析方法均适用本发明,不作特殊限制。
优选地,所述质谱结果包括分子量和质谱图。
优选地,所述序列分析的方法包括:
基于所述质谱结果使用从头测序软件进行检索,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,得到相应匹配的肽段。
可以理解,本发明中基于质谱结果,使用从头测序软件检索以及对Uniprot数据库检索,以寻找相应匹配肽段,属于本领域技术人员公知的常规操作手段,不作特殊限制。
本发明中,所述使用从头测序软件进行检索具体可包括:
1)上传质谱原始raw文件;2)设置仪器类型及碎裂方式,质量偏差容忍范围;3)设置多肽产生的酶切方式,例如胰蛋白酶,设置蛋白样本前处理过程中引入的修饰例如半胱氨酸封闭修饰(+57Da),某些氨基酸的氧化修饰等。
本发明中,使用Uniprot数据库进行检索可包括:
1)上传质谱原始raw文件及下载好的蛋白质组数据库;2)设置仪器类型及碎裂方式,质量偏差容忍范围;3)设置多肽产生的酶切方式,例如胰蛋白酶;4)设置蛋白样本前处理过程中引入的修饰例如半胱氨酸封闭修饰(+57Da),某些氨基酸的氧化修饰等。
优选地,所述从头测序软件包括Novo、pNovo、DeepNovo或SMSNet中任意一种。
本发明中,可将从头测序软件进行检索和Uniprot数据库进行检索得到的肽段进行合并,共同作为肽段库。
优选地,所述序列分析后还包括筛选的步骤。
优选地,所述筛选的方法包括:
对肽段信号强度进行筛选,删除一级谱图中(MS1)相对强度低于5%的肽段;
对从头测序得到的肽段,根据得分信息,删除可信度低于50%的肽段;
对Uniprot数据库检索结果,删除来自已知的污染蛋白库的肽段;优选地,删除来自已知的污染蛋白库的可信度高于50%的肽段,例如酶自身降解肽段,角蛋白,牛血清白蛋白等。
本发明中,对肽段库进行筛选,进一步提高肽段库的可信度,利于后续检测。
优选地,所述筛选标记的方法包括:
在筛选标记之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的N末端,去除肽段1的N标记,重叠度低于3个的,仍保留其作为末端序列的标签;例如:肽段1为ACKLCA,肽段2为LNMACK,则去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的C末端,去除肽段1的C标记,重叠度低于3个的,仍保留其作为末端序列的标签;例如:肽段1为LNMACK,肽段2为ACKLCA,则去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;例如:肽段1为LNMACK,肽段2为LNMACKLCA,则去除肽段1的N标记和C标记,肽段2不做处理;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库。
优选地,所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。
优选地,所述匹配打分的标准包括:
a.完整待测未知蛋白的质谱结果与N末端肽和/或C末端肽对应的理论质荷比匹配的峰越多,该候选肽的得分越高;具体标准为在质量偏差为5ppm范围内匹配一个峰得分为10分,在5ppm~20ppm范围内匹配得分为8分,超出20ppm得分为0;
b.完整待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;具体标准为完整蛋白的质谱图中匹配的峰相对强度在50%以上得5分,在10%~50%得3分,其他不得分。
c.存在连续匹配的b和/或y序列离子,得分越高;具体标准为存在连续的离子依次加5分,例如连续b2/b3加5分,连续b2/b3/b4加10分,出现断续的序列离子例如b2,b4,在本次的打分中不加分;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,可以将质荷比进行整体平移,继续进行匹配打分,平移的分子量为蛋白末端修饰带来的影响,在蛋白未知得情况下,可根据本领域常用的翻译后修饰及其精确分子量信息表,人工从中遍历筛选,获取末端修饰的种类和分子量。
本发明中,所述质荷比进行整体平移指增加或者减少因某个修饰带来的整体分子分子量迁移,例如当蛋白的N端存在乙酰化修饰的时候,将N端候选肽的b序列离子,整体分子量增加42.0106Da。
本发明中,对末端候选肽库中的每个N标记肽段,基于b离子质荷比信息,构建蛋白N端序列“刻度尺”,对每个C标记肽段,基于y离子质荷比信息,构建蛋白C端序列“刻度尺”,“刻度尺”可以是一个数组,其中记录了对应的b离子或者y离子的质荷比。例如N标记肽段LNMACK,其“刻度尺”就是[X,X,X,X,X,X],其中各“X”依次对应肽段中“L”、“N”、“M”、“A”、“C”、“K”这些氨基酸的C末端断裂产生的b离子质荷比。这些“刻度尺”就组成了蛋白末端理论谱库。本发明基于bottom-up的酶切多肽序列构成了完整蛋白解析的数据库,充分利用了两点信息,1)top-down产生的碎片主要是N、C端序列离子;2)bottom-up酶切产生的N端肽或C端肽,其N端序列或C端序列与其它酶切肽段没有重叠,可以把这一类肽段作为蛋白候选的N端或C端,这些序列产生的b离子或y离子,作为“刻度尺”去匹配top-down数据,吻合程度最高的候选序列,即确定为蛋白的N端序列或C端序列。
作为优选的技术方案,所述检测蛋白末端氨基酸序列的方法包括以下步骤:
(1)用化学消化或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
(2)用质谱分析技术分析所述肽段,得到质谱结果,基于所述质谱结果使用从头测序软件进行检索,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,得到相应匹配的肽段,得到肽段库;
(3)根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,在筛选之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠,且重叠不位于肽段2的N末端,去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠,且重叠不位于肽段2的C末端,去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库;
(4)将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果按如下标准进行匹配打分:
a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多,质量偏差越小,得分越高;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;
c.存在连续匹配的b和/或y序列离子,得分越高;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,将质荷比进行整体平移,继续进行匹配打分;
得分最高的N末端肽或C末端肽即为该蛋白的末端序列。
与现有技术相比,本发明具有以下有益效果:
本发明首次开发一种高效、准确地能够检测未知蛋白末端氨基酸序列的方法,对自下而上(bottom-up)的肽段质谱分析数据进行巧妙的筛选标记,并进一步与自上而下(top-down)的完整蛋白的质谱数据进行比对,巧妙基于质荷比信息进行匹配打分,能够高效、准确地确定N端肽和C端肽,不依赖化学衍生化修饰,规避蛋白末端的修饰的影响,可有效应用于完全未知蛋白末端序列检测。
附图说明
图1为本发明流程图;
图2为实施例1中N端候选肽的碎裂谱图;
图3为实施例1中C端候选肽的碎裂谱图;
图4为实施例1中完整蛋白的碎裂谱图;
图5为实施例2中完整蛋白的碎裂谱图;
图6为实施例2中完整蛋白的碎裂谱图m/z:400-700区域局部放大浏览图;
图7为实施例3中完整蛋白的碎裂谱图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道购买获得的常规产品。
实施例1
本实施例以蛋白(MDIGINSQVQLQESGGGLVQAGGSLRLSCAASGRTHGMYAMGWFRQAPGKEREFVAV QDLTASNTHYSSAVK)为例,验证本发明检测蛋白末端氨基酸序列的方法。
(1)进行多种酶酶切并进行质谱数据采集,完整蛋白的top-down数据采集,包含完整分子量和MS/MS谱图,包括以下步骤:
1)将蛋白样本稀释至1mg/mL,取100μL蛋白,加入2μL浓度为1M的DTT,于95℃孵化15min;
2)加入6μL浓度为0.5M的IAM,黑暗条件下,37℃反应半30min;
3)在离心管中加入2.5μLPNGaseF(10U/μL),在37℃孵化90min;
4)丙酮沉淀:加入1mL的-20℃丙酮,然后置于-20℃冰箱1h;
5)离心23,000rpm,4℃离心10min,沉淀抗体;
6)小心倒掉上清的丙酮溶液,来回倒置离心管5min,通过空气使沉淀颗粒干燥;
7)用10μL 4M尿素溶液复溶蛋白,用移液枪吹打,保证样品完全溶解。将离心管放置在37℃静置10min进一步溶解样品,加入90μL超纯水至终体积100μL;
8)胃蛋白酶酶解,37℃反应45min,体系:
9)剩余6×酶解(胰蛋白酶,糜蛋白酶,天冬氨酸内切酶,赖氨酸内切酶,谷氨酸内切酶),体系:
10)涡旋,震荡,离心;
11)37℃孵化19h;
12)质谱数据采集
取除盐后的样品进行分离(喷雾电压为2.0kV)然后将分离后的样品于275℃条件下通过毛细管柱并进入质谱仪进行相关的质谱鉴定分析。我们采用DDA,top20模式对质谱数据进行收集,其中一级谱采集的相关参数为:分辨率为70000,自动增益控制(AGC)为3*106,二级质谱MS/MS采用HCD碎裂模式,其相关参数设定为:分辨率为7500,Isolationwindow为1.8m/z,目标值为50000离子,最大累积时间为50ms。进行碎片化标准碰撞的能量为27%,调查扫描中20个最强信号的离子被选择做二级碎裂。动态排除持续时间设定为40秒,触发MS/MS的最小MS信号设定为5000个计数。
Top-down实验
待测蛋白样本不经过酶切,直接在evotip上进行除盐上样,并收集数据。
(2)数据处理:质谱数据从头测序,获得肽段;肽段之间进行重叠度拼接,获得N端和C端候选序列;候选序列根据候选序列构建完整蛋白的理论末端序列离子;理论库与实验谱图匹配打分。
1)获得多肽序列库:
将多酶酶切的数据通过质谱产生的Raw文件使用从头测序软件Novo进行检索,得到谱图及其对应打分最高的肽段;同时将数据用Uniprot数据库进行检索,得到谱图相应匹配的肽段;对两种处理方式得到的肽段进行筛选,得到可信肽段库,具体筛选方法如下:
a.对肽段信号强度进行筛选,删除相对强度过低的肽段,筛选阈值为5%;
b.对从头测序得到的肽段,根据得分信息,去除可信度过低的肽段,筛选阈值为50%;
c.对搜库结果,删掉来自已知的污染蛋白库的高可信度肽段,筛选阈值为50%;
d.对上述两种方式得到的肽段进行合并,从而获得样本可信肽段库,其中包含筛选之后留下的肽段以及对应的谱数据,得到肽段145个,及其对应的谱图数871个,由于多肽呈现不同电荷状态因此谱图匹配数多于肽段数量。
2)获得候选末端肽库:
基于上述步骤得到未知蛋白可能的肽库,根据多肽之间的序列重叠(两条肽段之间有连续N个相同氨基酸时,认为它们重叠,一个可行的N的取值为3)情况进行筛选,获得末端候选肽库,在筛选之前给肽库里面的每个肽段赋予一个N标记和一个C标记,筛选标准与流程如下:
a.若肽段1的N末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的N末端,那么肽段1不会是蛋白的N末端肽,将肽段1去除N标记,重叠度低于3个的,仍保留其作为末端序列的标签;示例:肽段1GINSQVQL与肽段2MDIGINS重叠,且重叠部分GINS不位于肽段2的N末端,那么肽段1不可能是N末端序列;
b.与第一条类似,若肽段1的C末端与肽段2重叠(重叠度≥3个氨基酸),且重叠不位于肽段2的C末端,那么肽段1不会是蛋白的C末端肽,将肽段1去除C标记,重叠度低于3个的,仍保留其作为末端序列的标签;
c.如果一个肽段被另一个肽段完全包含,即其序列为另一序列的子列,去除较短的序列的所有标记,保留较长的序列,示例肽段SSAVK被肽段LTASNTHYSSAVK完全包含;
对肽库中的每一个肽段进行遍历,根据肽段序列之间的重叠关系,对肽段的标记进行更新。遍历完成后,把所有N标记和C标记都被去除的肽段进行删除,留下的肽段就组成了蛋白的末端候选肽库,共包含47个肽段,参考肽段匹配谱图数、谱图解析质量进行评分(也就是说这些肽段的PSMs数量多,MS1的相对强度也高),得分排名靠前的肽段拥有较高的谱图质量及从头测序得分,示例性展示得分前3名肽段:N端候选肽(得分前3名):MDIGINSQ,RLSCAASGRTHGMY,FRQAPGKEREF;C端候选肽(得分前3名):LTASNTHYSSAVK,SGSYNSAR,GMYAMGWF。
3)构建蛋白末端理论谱库:
对末端候选肽库中的每个N标记肽段,基于b离子质荷比信息,构建蛋白N端序列“刻度尺”,对每个C标记肽段,基于y离子质荷比信息,构建蛋白C端序列“刻度尺”,“刻度尺”为一个数组,其中记录了对应的b离子或者y离子的质荷比,参考每个氨基酸残基的分子量信息(表1),示例如表2和表3所示。
表1
氨基酸 | 简写 | 分子式 | 精确分子量 |
甘氨酸 | G | C2H3NO | 57.02146 |
丙氨酸 | A | C3H5NO | 71.03711 |
丝氨酸 | S | C3H5NO2 | 87.03203 |
脯氨酸 | P | C5H7NO | 97.05276 |
缬氨酸 | V | C5H9NO | 99.06841 |
苏氨酸 | T | C4H7NO2 | 101.0477 |
半胱氨酸 | C | C3H5NOS | 103.0092 |
亮氨酸 | L | C6H11NO | 113.0841 |
异亮氨酸 | I | C6H11NO | 113.0841 |
天冬酰胺 | N | C4H6N2O2 | 114.0429 |
天冬氨酸 | D | C4H5NO3 | 115.0269 |
谷氨酰胺 | Q | C5H8N2O2 | 128.0586 |
赖氨酸 | K | C6H12N2O | 128.095 |
谷氨酸 | E | C5H7NO3 | 129.0426 |
甲硫氨酸 | M | C5H9NOS | 131.0405 |
组氨酸 | H | C6H7N3O | 137.0589 |
苯丙氨酸 | F | C9H9NO | 147.0684 |
精氨酸 | R | C6H12N4O | 156.1011 |
酪氨酸 | Y | C9H9NO2 | 163.0633 |
色氨酸 | W | C11H10N2O | 186.0793 |
4)匹配打分:
基于步骤3)中的理论谱库与完整蛋白的top-down实验MS/MS谱图进行匹配(匹配质量偏差阈值为10ppm),理论谱库中得分最高的“刻度尺”对应的序列即为蛋白末端序列,匹配打分的基准为:
a.完整的待测未知蛋白的质谱结果在与N末端肽和/或C末端肽对应的理论质荷比检测到匹配的峰越多,该候选肽的得分越高;具体标准为在质量偏差为5ppm范围内匹配一个峰得分为10分,可认为是高匹配,在5ppm~20ppm范围内匹配得分为8分,可认为是中匹配;超出20ppm得分为0;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;具体标准为完整蛋白的质谱图中匹配的峰相对强度在50%以上得5分,在10%~50%得3分,其它不得分;
c.存在连续匹配的b和/或y序列离子,得分越高;具体标准为存在连续的离子依次加5分,例如连续b2/b3加5分,连续b2/b3/b4加10分,出现断续的序列离子例如b2,b4,在本次的打分中不加分;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,可以将质荷比进行整体平移,继续进行匹配打分,平移的分子量为蛋白末端修饰带来的影响。
N端/C端候选肽与完整蛋白的序列离子匹配最优结果如图2,图3所示,图2为N段候选肽(MDIGINS)的碎裂谱图中质荷比信息,具体见表2,图3为C端候选肽(LTASNTHYSSAVK)的碎裂谱图中质荷比信息,具体见表3,图4为完整蛋白的碎裂谱图中质荷比信息,与候选肽对比匹配及打分结果如表4和表5所示,可见,通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息,表明本发明能够对蛋白的末端氨基酸序列进行准确检测,其它候选肽段的打分结果远低于这些最优匹配,在此不一一赘述。
表2
表3
表4
表5
实施例2
本实施例以某已知蛋白核呼吸因子-1(NRF1)的重组表达片段为例,验证本发明检测蛋白末端氨基酸序列的方法,该蛋白序列如下所示:
GGIPVSVDKMTQAQLRAFIPEMLKYSTGRGKPGWGKESCKPIWWPEDIPWANVRSDVRTEEQKQRVSWTQALRTIVKNCYKQHGREDLLYAFED。
具体检测方法参照实施例1。
图5为完整蛋白的碎裂谱图中质荷比信息,其中m/z:400-700区域局部放大浏览图如图6所示,与候选肽对比匹配及打分结果如表6和表7所示,可见,通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息,表明本发明能够对蛋白的末端氨基酸序列进行准确检测,其它候选肽段的打分结果远低于这些最优匹配,在此不一一赘述。
表6
表7
实施例3
本实施例对实际生产的抗体的Fab端样本为例进行检测,验证本发明检测蛋白末端氨基酸序列的方法,该抗体的Fab端的序列如下所示:
AVLTQTPSPVSAAVGGTVTISITCRASQDIGNRLAYQQKPGQPPKLLIYLASTLASGVPDRFSGSNFGNTATISGVQYYCGRALLYCAHLGGGDDDADSAFGGGTEVVVK。
具体检测方法参照实施例1。
图7为完整蛋白的碎裂谱图中质荷比信息,与候选肽对比匹配及打分结果如表8和表9所示,可见,通过N端/C端候选肽与完整蛋白的序列离子匹配寻找到的最优结果能够准确反应蛋白末端序列信息,表明本发明能够对蛋白的末端氨基酸序列进行准确检测,其它候选肽段的打分结果远低于这些最优匹配,在此不一一赘述。
表8
表9
综上所述,本发明首次开发一种高效、准确地能够检测未知蛋白末端氨基酸序列的方法,对自下而上(bottom-up)的肽段质谱分析数据进行巧妙的筛选标记,并进一步与自上而下(top-down)的完整蛋白的质谱数据进行比对,巧妙基于质荷比信息进行匹配打分,能够高效、准确地确定N端肽和C端肽,不依赖化学衍生化修饰,规避蛋白末端的修饰的影响,可有效应用于完全未知蛋白末端序列检测。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
Claims (7)
1.一种检测蛋白末端氨基酸序列的方法,其特征在于,所述方法包括:
用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
用质谱分析技术分析所述肽段,得到质谱结果,对肽段信号强度进行筛选,删除一级谱图中相对强度低于5%的肽段,基于所述质谱结果使用从头测序软件进行检索,对从头测序得到的肽段,根据软件从头测序给出序列的得分信息,删除可信度低于50%的肽段,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,删除来自已知的污染蛋白库的肽段,得到相应匹配的肽段,得到肽段库;
根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,标记N末端肽和C末端肽,获得末端候选肽库;
将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果进行匹配打分,得分最高的肽段序列即为蛋白的N末端或C末端序列;
所述筛选标记的方法包括:
在筛选标记之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠,且重叠不位于肽段2的N末端,去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠,且重叠不位于肽段2的C末端,去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库;
所述匹配打分的标准包括:
a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多,且质量偏差越小,得分越高;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;
c.存在连续匹配的b和/或y序列离子,得分越高;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,将质荷比进行整体平移,继续进行匹配打分。
2.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述酶消化法包括:
将待测蛋白质与酶混合进行反应。
3.根据权利要求2所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合。
4.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述质谱结果包括分子量和质谱图。
5.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述从头测序软件包括Novor、pNovo、DeepNovo或SMSNet中任意一种。
6.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。
7.根据权利要求1所述的检测蛋白末端氨基酸序列的方法,其特征在于,所述方法包括以下步骤:
(1)用化学消化法或酶消化法对待测蛋白质进行消化,得到适于质谱分析的肽段;
(2)用质谱分析技术分析所述肽段,得到质谱结果,对肽段信号强度进行筛选,删除一级谱图中相对强度低于5%的肽段,基于所述质谱结果使用从头测序软件进行检索,对从头测序得到的肽段,根据软件从头测序给出序列的得分信息,删除可信度低于50%的肽段,得到对应打分最高的肽段,和/或,基于所述质谱结果使用Uniprot数据库进行检索,对Uniprot数据库检索结果,删除来自已知的污染蛋白库的肽段,得到相应匹配的肽段,得到肽段库;
(3)根据所述肽段之间的序列重叠情况在所述肽段库中进行筛选标记,在筛选之前给所述肽段库中每个肽段赋予一个N标记和一个C标记,筛选标准包括:
a.若肽段1的N末端与肽段2重叠,且重叠不位于肽段2的N末端,去除肽段1的N标记;
b.若肽段1的C末端与肽段2重叠,且重叠不位于肽段2的C末端,去除肽段1的C标记;
c.如果一个肽段被另一个肽段完全包含,去除较短的序列的所有标记,保留较长的序列;
按所述筛选标准对所述肽段库中的每一个肽段进行遍历,对肽段的标记进行更新,遍历完成后,删除所有N标记和C标记都被去除的肽段,得到末端候选肽库;
(4)将所述末端候选肽库中N末端肽的b离子质荷比信息和/或C末端肽的y离子质荷比信息与完整的待测蛋白的质谱结果按如下标准进行匹配打分:
a.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰越多,质量偏差越小,得分越高;
b.完整的待测蛋白的质谱结果在N末端肽和/或C末端肽对应的质荷比检测到的峰强度越高,得分越高;
c.存在连续匹配的b和/或y序列离子,得分越高;
d.当完整的待测蛋白的质谱结果与N末端肽和/或C末端肽的质荷比无法准确匹配时,将质荷比进行整体平移,继续进行匹配打分;
得分最高的N末端肽或C末端肽即为该蛋白的末端序列;
所述酶消化法包括:将待测蛋白质与酶混合进行反应;
所述酶包括胰蛋白酶、糜蛋白酶、胃蛋白酶、赖氨酸内切酶或天冬氨酸内切酶中任意一种或至少两种的组合;
所述质谱结果包括分子量和质谱图;
所述从头测序软件包括Novor、pNovo、DeepNovo或SMSNet中任意一种;
所述方法还包括对完整的待测蛋白质进行质谱分析的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310422124.8A CN116465992B (zh) | 2023-04-19 | 2023-04-19 | 一种检测蛋白末端氨基酸序列的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310422124.8A CN116465992B (zh) | 2023-04-19 | 2023-04-19 | 一种检测蛋白末端氨基酸序列的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116465992A CN116465992A (zh) | 2023-07-21 |
CN116465992B true CN116465992B (zh) | 2024-02-09 |
Family
ID=87174848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310422124.8A Active CN116465992B (zh) | 2023-04-19 | 2023-04-19 | 一种检测蛋白末端氨基酸序列的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116465992B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014052331A (ja) * | 2012-09-10 | 2014-03-20 | Shimadzu Corp | アミノ酸配列解析方法及び装置 |
CN104483374A (zh) * | 2014-12-02 | 2015-04-01 | 北京大学 | 一种用maldi-tot-tof质谱对蛋白质n端序列进行从头测序的方法和试剂盒 |
JP2015230262A (ja) * | 2014-06-05 | 2015-12-21 | 株式会社島津製作所 | 質量分析データ解析方法及び装置 |
CN112986570A (zh) * | 2019-12-02 | 2021-06-18 | 中国科学院大连化学物理研究所 | 基于肽段两末端准等重双标记用于氨基酸序列测定方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4543929B2 (ja) * | 2005-01-04 | 2010-09-15 | 日本電気株式会社 | タンパク質の解析方法 |
-
2023
- 2023-04-19 CN CN202310422124.8A patent/CN116465992B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014052331A (ja) * | 2012-09-10 | 2014-03-20 | Shimadzu Corp | アミノ酸配列解析方法及び装置 |
JP2015230262A (ja) * | 2014-06-05 | 2015-12-21 | 株式会社島津製作所 | 質量分析データ解析方法及び装置 |
CN104483374A (zh) * | 2014-12-02 | 2015-04-01 | 北京大学 | 一种用maldi-tot-tof质谱对蛋白质n端序列进行从头测序的方法和试剂盒 |
CN112986570A (zh) * | 2019-12-02 | 2021-06-18 | 中国科学院大连化学物理研究所 | 基于肽段两末端准等重双标记用于氨基酸序列测定方法 |
Non-Patent Citations (1)
Title |
---|
互补多酶解法在蛋白质C末端质谱检测中的应用;杨洁;姚树森;赵永强;薛燕;李萍;;分析化学;第39卷(第04期);486-490 * |
Also Published As
Publication number | Publication date |
---|---|
CN116465992A (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | Mass spectrometry-based quantitative proteomic profiling | |
US7783429B2 (en) | Peptide sequencing from peptide fragmentation mass spectra | |
JP4290003B2 (ja) | 質量標識体 | |
Quadroni et al. | Analysis of global responses by protein and peptide fingerprinting of proteins isolated by two‐dimensional gel electrophoresis: application to the sulfate‐starvation response of Escherichia coli | |
US8643274B2 (en) | Methods for Chemical Equivalence in characterizing of complex molecules | |
US9476888B2 (en) | Method and antibodies for the identification of ubiquitinated proteins and sites of ubiquitination | |
US7163803B2 (en) | Method for characterizing polypeptides | |
CN112986570B (zh) | 基于肽段两末端准等重双标记用于氨基酸序列测定方法 | |
US8497630B2 (en) | Methods of analyzing peptide mixtures | |
EP1617223A2 (en) | Serial derivatization of peptides for "de Novo" sequencing using tandem mass spectrometry | |
CN109187783A (zh) | 鹿胶特征肽及鉴定待测样品中是否包含鹿胶的方法 | |
van Striena et al. | Identification of POMC processing products in single melanotrope cells by matrix-assisted laser desorption/ionization mass spectrometry | |
CN116465992B (zh) | 一种检测蛋白末端氨基酸序列的方法 | |
Longuespée et al. | Spectroimmunohistochemistry: a novel form of MALDI mass spectrometry imaging coupled to immunohistochemistry for tracking antibodies | |
Yamamoto et al. | Middle-Down and Chemical Proteomic Approaches to Reveal Histone H4 Modification Dynamics in Cell Cycle Label-Free Semi-Quantification of Histone Tail Peptide Modifications Including Phosphorylation and Highly Sensitive Capture of Histone PTM Binding Proteins Using Photo-Reactive Crosslinkers | |
US7244411B2 (en) | Method of selective peptide isolation for the identification and quantitative analysis of proteins in complex mixtures | |
Conrotto et al. | Sulfonation chemistry as a powerful tool for MALDI TOF/TOF de novo sequencing and post-translational modification analysis | |
Schweigert | Characterisation of protein microheterogeneity and protein complexes using on-chip immunoaffinity purification-mass spectrometry | |
CN111735891A (zh) | 家禽源的特征性胶原肽及在胶原水解物和其制品检测中的应用 | |
CN117417405B (zh) | 一种基于酪氨酸衍生化的肽段标记方法及其在蛋白质检测中的应用 | |
US20040121477A1 (en) | Method for improving data dependent ion selection in tandem mass spectroscopy of protein digests | |
CN112763644B (zh) | 一种用于检测驴奶粉中掺入牛奶粉的特征肽组合物及检测方法 | |
Yagüe et al. | Oxidation of carboxyamidomethyl cysteine may add complexity to protein identification | |
CN117607307A (zh) | 一种单克隆抗体从头测序的方法及其应用 | |
KR20110121842A (ko) | 펩티드 아미노기 치환용 화합물 엔-메틸피페라진 아세트산의 동위 이성질체 및 질량 분석기를 이용한 펩티드 정량 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 200120, Room 801, 8th Floor, No. 1, Lane 795, Kangwei Road, Pudong New Area, Shanghai Applicant after: Shanghai Kuaixu Biotechnology Co.,Ltd. Address before: 200120, Building B, 5th Floor, No. 1, Lane 1238, Zhangjiang Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai Applicant before: Shanghai Kuaixu Biotechnology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |