CN115112778B - 一种疾病蛋白质生物标志物鉴定方法 - Google Patents
一种疾病蛋白质生物标志物鉴定方法 Download PDFInfo
- Publication number
- CN115112778B CN115112778B CN202110297187.6A CN202110297187A CN115112778B CN 115112778 B CN115112778 B CN 115112778B CN 202110297187 A CN202110297187 A CN 202110297187A CN 115112778 B CN115112778 B CN 115112778B
- Authority
- CN
- China
- Prior art keywords
- protein
- proteins
- target
- disease
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 182
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 180
- 238000000034 method Methods 0.000 title claims abstract description 66
- 201000010099 disease Diseases 0.000 title claims abstract description 52
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 52
- 239000000090 biomarker Substances 0.000 title claims abstract description 25
- 102000007079 Peptide Fragments Human genes 0.000 claims abstract description 42
- 108010033276 Peptide Fragments Proteins 0.000 claims abstract description 42
- 230000014759 maintenance of location Effects 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims abstract description 15
- 230000002829 reductive effect Effects 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims abstract description 10
- 201000008450 Intracranial aneurysm Diseases 0.000 claims description 32
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 30
- 210000002966 serum Anatomy 0.000 claims description 29
- 238000011002 quantification Methods 0.000 claims description 25
- 108010026552 Proteome Proteins 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 18
- 238000001819 mass spectrum Methods 0.000 claims description 16
- 239000000203 mixture Substances 0.000 claims description 14
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 14
- HWCKGOZZJDHMNC-UHFFFAOYSA-M tetraethylammonium bromide Chemical compound [Br-].CC[N+](CC)(CC)CC HWCKGOZZJDHMNC-UHFFFAOYSA-M 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 11
- DTQVDTLACAAQTR-UHFFFAOYSA-N Trifluoroacetic acid Chemical compound OC(=O)C(F)(F)F DTQVDTLACAAQTR-UHFFFAOYSA-N 0.000 claims description 10
- 238000004949 mass spectrometry Methods 0.000 claims description 10
- 102000004142 Trypsin Human genes 0.000 claims description 9
- 108090000631 Trypsin Proteins 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 229920001184 polypeptide Polymers 0.000 claims description 9
- 239000012588 trypsin Substances 0.000 claims description 9
- 238000000692 Student's t-test Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- 238000007619 statistical method Methods 0.000 claims description 7
- 108010019160 Pancreatin Proteins 0.000 claims description 6
- 208000004717 Ruptured Aneurysm Diseases 0.000 claims description 6
- 108020004729 UniProt protein families Proteins 0.000 claims description 6
- 102000006668 UniProt protein families Human genes 0.000 claims description 6
- 238000003766 bioinformatics method Methods 0.000 claims description 6
- 230000033228 biological regulation Effects 0.000 claims description 6
- VHJLVAABSRFDPM-QWWZWVQMSA-N dithiothreitol Chemical compound SC[C@@H](O)[C@H](O)CS VHJLVAABSRFDPM-QWWZWVQMSA-N 0.000 claims description 6
- PGLTVOMIXTUURA-UHFFFAOYSA-N iodoacetamide Chemical compound NC(=O)CI PGLTVOMIXTUURA-UHFFFAOYSA-N 0.000 claims description 6
- 230000037353 metabolic pathway Effects 0.000 claims description 6
- 229940055695 pancreatin Drugs 0.000 claims description 6
- 230000037361 pathway Effects 0.000 claims description 6
- 238000000751 protein extraction Methods 0.000 claims description 6
- 239000012474 protein marker Substances 0.000 claims description 6
- 238000001303 quality assessment method Methods 0.000 claims description 6
- 238000004445 quantitative analysis Methods 0.000 claims description 6
- 238000005932 reductive alkylation reaction Methods 0.000 claims description 6
- 238000000528 statistical test Methods 0.000 claims description 6
- 238000012353 t test Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000007865 diluting Methods 0.000 claims description 5
- 238000001035 drying Methods 0.000 claims description 5
- 101001018085 Lysobacter enzymogenes Lysyl endopeptidase Proteins 0.000 claims description 4
- 108091005588 alkylated proteins Proteins 0.000 claims description 4
- 238000005804 alkylation reaction Methods 0.000 claims description 4
- 239000003153 chemical reaction reagent Substances 0.000 claims description 4
- 238000006722 reduction reaction Methods 0.000 claims description 4
- 238000004366 reverse phase liquid chromatography Methods 0.000 claims description 4
- 238000010612 desalination reaction Methods 0.000 claims description 3
- 238000005194 fractionation Methods 0.000 claims description 3
- 239000003550 marker Substances 0.000 claims description 3
- 238000003068 pathway analysis Methods 0.000 claims description 3
- 238000013467 fragmentation Methods 0.000 claims description 2
- 238000006062 fragmentation reaction Methods 0.000 claims description 2
- 238000012165 high-throughput sequencing Methods 0.000 claims description 2
- 238000010200 validation analysis Methods 0.000 claims description 2
- 238000005406 washing Methods 0.000 claims description 2
- 238000009825 accumulation Methods 0.000 claims 1
- 235000018102 proteins Nutrition 0.000 description 119
- 239000000091 biomarker candidate Substances 0.000 description 18
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 102000004506 Blood Proteins Human genes 0.000 description 6
- 108010017384 Blood Proteins Proteins 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 6
- 238000000926 separation method Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 108090000790 Enzymes Proteins 0.000 description 5
- 102000004190 Enzymes Human genes 0.000 description 5
- 238000013375 chromatographic separation Methods 0.000 description 5
- 229940088598 enzyme Drugs 0.000 description 5
- 230000004907 flux Effects 0.000 description 5
- 150000002500 ions Chemical class 0.000 description 5
- 239000012071 phase Substances 0.000 description 5
- 239000000243 solution Substances 0.000 description 5
- 230000002074 deregulated effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000011835 investigation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000002552 multiple reaction monitoring Methods 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002553 single reaction monitoring Methods 0.000 description 3
- 239000003643 water by type Substances 0.000 description 3
- 206010002329 Aneurysm Diseases 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 210000001994 temporal artery Anatomy 0.000 description 2
- 230000001225 therapeutic effect Effects 0.000 description 2
- 239000000107 tumor biomarker Substances 0.000 description 2
- 108010088751 Albumins Proteins 0.000 description 1
- 102000009027 Albumins Human genes 0.000 description 1
- 241000222120 Candida <Saccharomycetales> Species 0.000 description 1
- 102000001554 Hemoglobins Human genes 0.000 description 1
- 108010054147 Hemoglobins Proteins 0.000 description 1
- 101000955249 Homo sapiens Multiple epidermal growth factor-like domains protein 8 Proteins 0.000 description 1
- AVXURJPOCDRRFD-UHFFFAOYSA-N Hydroxylamine Chemical compound ON AVXURJPOCDRRFD-UHFFFAOYSA-N 0.000 description 1
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- 102100038990 Multiple epidermal growth factor-like domains protein 8 Human genes 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000001627 cerebral artery Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 235000018417 cysteine Nutrition 0.000 description 1
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007071 enzymatic hydrolysis Effects 0.000 description 1
- 238000006047 enzymatic hydrolysis reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 239000012160 loading buffer Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 238000002414 normal-phase solid-phase extraction Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013054 parallel accumulation-serial fragmentation Methods 0.000 description 1
- 238000005191 phase separation Methods 0.000 description 1
- 230000004481 post-translational protein modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000017854 proteolysis Effects 0.000 description 1
- 238000000575 proteomic method Methods 0.000 description 1
- 238000005173 quadrupole mass spectroscopy Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000004704 ultra performance liquid chromatography Methods 0.000 description 1
- 239000011534 wash buffer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N30/06—Preparation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/26—Conditioning of the fluid carrier; Flow patterns
- G01N30/28—Control of physical parameters of the fluid carrier
- G01N30/32—Control of physical parameters of the fluid carrier of pressure or speed
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/26—Conditioning of the fluid carrier; Flow patterns
- G01N30/28—Control of physical parameters of the fluid carrier
- G01N30/34—Control of physical parameters of the fluid carrier of fluid composition, e.g. gradient
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6848—Methods of protein analysis involving mass spectrometry
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/26—Conditioning of the fluid carrier; Flow patterns
- G01N30/28—Control of physical parameters of the fluid carrier
- G01N30/32—Control of physical parameters of the fluid carrier of pressure or speed
- G01N2030/324—Control of physical parameters of the fluid carrier of pressure or speed speed, flow rate
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Hematology (AREA)
- Evolutionary Biology (AREA)
- Urology & Nephrology (AREA)
- Cell Biology (AREA)
- Medicinal Chemistry (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Food Science & Technology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Microbiology (AREA)
- Library & Information Science (AREA)
- Genetics & Genomics (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及一种疾病蛋白质生物标志物鉴定方法,包括以下步骤:S1、针对单一或复杂疾病筛选候选蛋白;S2、通过确认疾病靶蛋白,进而预测靶肽段以及其保留时间和可检出性;S3、通过预测靶肽段以及其保留时间和可检出性信息构建靶向蛋白组学方法列表;S4、进行靶向蛋白组学验证。与现有技术相比,本发明的方法可用于复杂疾病相关蛋白的独特性肽段筛选、保留时间预测以及可检出性信息获取,在大规模样本集中同时有效地精确测量大量候选蛋白质标志物。采用本发明的方法,一次PRM分析(60min)可同时采集300‑400条靶肽段,极大地缩短了时间成本与经济成本,说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作,具有广泛适用性。
Description
技术领域
本发明属于生物技术领域,尤其是涉及一种疾病蛋白质生物标志物鉴定方法。
背景技术
随着质谱技术的快速发展,蛋白质组学研究产生了数以千计的候选蛋白标志物(Polanski M,Anderson N L.A List of Candidate Cancer Biomarkers for TargetedProteomics[J].Biomarker Insights,2006,1(2):1-48.;Lee B T K,Liew L,Lim J,etal.Candidate List of yoUr Biomarker(CLUB):A Web-based Platform to Aid CancerBiomarker Research[J].Biomarker insights,2008,3(3):65-71.)。遗憾的是,寥寥无几的候选标志物能成功转化为FDA批准的临床标志物(Anderson N L.The Clinical PlasmaProteome:A Survey of Clinical Assays for Proteins in Plasma and Serum[J].Clinical Chemistry,2010,56(2):177.;Anderson,Leigh.Six decades searching formeaning in the proteome[J].Journal of Proteomics,2014,107:24-30.)。一个重要的原因是缺乏强大的蛋白质定量工具,无法在大规模样本集中同时有效地精确测量大量候选蛋白质标志物。
近年来,靶向蛋白质组学技术已成为一种功能强大的蛋白质定量工具,诸如选择反应监测(Selected Reaction Monitoring,SRM),多反应监测(Multiple ReactionMonitoring,MRM)以及平行反应监测(Parallel Reaction Monitoring,PRM)之类的靶向蛋白质组学方法越来越受欢迎,因为它们可以对预先选择的蛋白质进行灵敏而快速的分析(Shi T,Song E,Nie S,et al.Advances in targeted proteomics and applications tobiomedical research[J].other,2016,16(15-16).;Peterson A C,Russell J D,BaileyD J,et al.Parallel Reaction Monitoring for High Resolution and High MassAccuracy Quantitative,Targeted Proteomics[J].Molecular&Cellular ProteomicsMcp,2012,11(11):1475.;Picotti P,Aebersold R.Selected reaction monitoring-based proteomics:workflows,potential,pitfalls and future directions[J].NatureMethods,2012,9(6):555.)。然而,SRM和MRM两种方法都需要根据先前的实验、科学文献或以往的知识来预先选择目标蛋白的目标肽段和最佳母子离子,优化分析参数,而后进行分析检测与定量蛋白质。
尽管目前有诸多蛋白质组学数据库可供用户选择最佳母子离子,如SRMAtlas(Kusebauch U,Campbell D,Deutsch E,et al.Human SRMAtlas:A Resource of TargetedAssays to Quantify the Complete Human Proteome[J].Cell,2016,166(3):766-778.)和ProteomeTools(Zolg D P,Wilhelm M,Schnatbaum K,et al.Building ProteomeToolsbased on a complete synthetic human proteome[J].Nature Methods,2017,14(3):259-262.),然而这二者无法用于提取特定蛋白质的相关数据。PRM与上述两种方法唯一的区别是在质量分析器中每种母离子都获得了完整的MS/MS谱图,有效地解决了SRM/MRM仅能监测预定义子离子的局限性。但是,这三种方法均受到定量规模(即多路复用能力)的限制。于复杂样品而言,一次SRM/MRM/PRM分析至多可监测50条肽段(未知保留时间时),这极大地增加了大规模样品靶向定量的时间成本和经济成本。
因此,亟需开发一种经济有效、通量高且适用于所有实验室的靶向蛋白组学技术。
发明内容
为了克服目前基于传统SRM/MRM/PRM质谱检测技术成本高、耗时长、通量低等问题,本发明提供一种疾病蛋白质生物标志物鉴定方法。
本发明的疾病蛋白质生物标志物鉴定方法具有低成本、高效率、且适用于所有实验室的优势,具有广泛适用性,为一种新型靶向蛋白质组技术(DeepPRM)。
本发明疾病蛋白质生物标志物鉴定方法,主要通过机器学习方法预测靶蛋白的靶肽段,且同时获取靶肽的保留时间和可检出性,极大地缩减了时间成本并提高通量;同时该方法无需合成标准肽段来确证靶肽的真实性,极大地降低了经济成本。因此该方法特别适用于复杂疾病(如颅内动脉瘤,intracranial aneurysm,IA)的大规模样本的靶向蛋白质组学研究。
本发明的目的可以通过以下技术方案来实现:
本发明提供一种疾病蛋白质生物标志物鉴定方法,包括以下步骤:
S1、针对单一或复杂疾病筛选候选蛋白;
S2、通过确认疾病靶蛋白,进而预测靶肽段以及其保留时间和可检出性;
S3、通过预测靶肽段以及其保留时间和可检出性信息构建靶向蛋白组学方法列表;
S4、进行靶向蛋白组学验证。
在本发明的一个实施方式中,步骤S1中,联合基于疾病组织样本的潜在蛋白标志物、基于疾病血清样本的潜在蛋白标志物及基于文献调研筛选的潜在蛋白标志物来综合确定单一或复杂疾病的候选蛋白。
在本发明的一个实施方式中,步骤S1中,基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物。
在本发明的一个实施方式中,步骤S1中,基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物。
在本发明的一个实施方式中,步骤S1中,基于爬虫技术发现公开的文献,筛选与疾病相关的潜在蛋白标志物。
在本发明的一个实施方式中,步骤S1中,疾病组织蛋白组、疾病血清蛋白组候选蛋白的筛选方法包括但不限于质谱检测、试剂盒检测、芯片检测、试纸检测或其他高通量测序平台。
在本发明的一个实施方式中,步骤S2中,通过Uniprot数据库获取靶蛋白的fasta(.fasta)文件,输入到深度神经网络中,得到靶蛋白的特异性靶肽段以及其保留时间和可检出性信息;其中,靶蛋白的数量无限制。
在本发明的一个实施方式中,步骤S3中,通过预测得到的靶肽段以及其质荷比、电荷数、保留时间、可检出性等信息构建后续靶向蛋白组学方法列表,以供更加快速便捷的进行靶向蛋白组学验证。
在本发明的一个实施方式中,步骤S4中,靶向蛋白组学验证方法包括但不限于基于三重四极杆质谱仪(QqQ MS)的选择反应监测(Selected Reaction Monitoring,SRM)和多反应监测(Multiple Reaction Monitoring,MRM)、基于高分辨Orbitrap质谱仪的平行反应监测(Parallel Reaction Monitoring,PRM)以及基于tims-TOF Pro的平行反应监测-同步累积连续碎裂(PRM-PASEF)。
在本发明的一个实施方式中,基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物的方法如下:
(1)蛋白提取、还原烷基化、酶解以及肽段除盐:使用市售的iST试剂盒(PreOmicsGmbH,Germany)对疾病组织进行蛋白提取;
(2)质谱检测:
仪器型号:Orbitrap Exploris 480质谱仪(Thermo Fisher Scientific,USA);
色谱柱型号:25cm C18色谱分离柱(2μm,75μm,x 500mm,Thermo FisherScientific,USA);
流速:300nL;
分离总时间:130min。
(3)搜库分析与定量:
获得的各组分原始谱图使用Proteome discoverer软件(v2.4)加工处理进行数据库检索鉴定蛋白和相对定量分析,Protein假阳性率FDR设定为1%,其余搜库参数如下:数据库为Uniprot蛋白质数据库,胰酶酶切、一级质谱质量误差为10ppm,二级质谱质量误差为0.02Da;将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估,将定量结果进行t-test统计分析;将差异倍数≥2倍及≤0.5倍同时统计检验p值≤0.05的蛋白定义为差异蛋白,从而得到疾病组与比较组表达的变化情况。
(4)生物信息学分析:将上步所得到的差异蛋白导入String数据库进行GO功能注释和Pathway分析,确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。
在本发明的一个实施方式中,基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物的方法如下:
(1)血清样品去除高丰度蛋白;
(2)蛋白定量、还原烷基化、酶解:取上步所得样品使用市售的BCA定量试剂盒(Thermo Fisher Scientific,USA)测定样品蛋白浓度,然后取蛋白,用TEAB稀释,加入二硫苏糖醇,进行还原反应;而后向上述混合物中加入碘乙酰胺进行烷基化反应,室温避光反应,还原和烷基化的蛋白混合物洗涤、离心后用TEAB稀释,加入Lys-C,酶解,加入胰蛋白酶(Trypsin),酶解;次日,向酶解后的肽段溶液中加入三氟乙酸以终止酶解,干燥;
(3)TMT标记定量:采用TMT-6标试剂对样品进行标记反应;
(4)高pH反相分馏:为了增加蛋白质鉴定的深度,采用高pH反相液相色谱法对肽段进行分离;
(5)质谱检测:
仪器型号:Orbitrap Fusion质谱仪(Thermo Fisher Scientific,USA)
色谱柱型号:25cm C18色谱分离柱(2μm,75μm,x 250mm,Thermo FisherScientific,USA)
流速:300nL
分离总时间:120min;
(6)搜库分析与定量:
获得的各组分原始谱图使用Proteome discoverer软件(v1.4)加工处理进行数据库检索鉴定蛋白和相对定量分析,Protein假阳性率FDR设定为1%,其余搜库参数如下:数据库为Uniprot蛋白质数据库,胰酶酶切、一级质谱质量误差为10ppm,二级质谱质量误差为0.05Da;将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估,将定量结果进行t-test统计分析;将差异倍数≥1.5倍及≤0.67倍同时统计检验p值≤0.05的蛋白定义为差异蛋白,从而得到颅内动脉瘤组(UR&R)与正常组表达的变化情况,以及破裂动脉瘤组(R)独有的差异蛋白情况(R vs.UR&NC);
(7)生物信息学分析:将上步所得到的差异蛋白导入String数据库(https://string-db.org/)进行GO功能注释和Pathway分析,确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。
与现有技术相比,本发明具有以下优点及有益效果:
本发明的方法为了生成一个合适的血清谱图库,将获得的目标蛋白的fasta(.fasta)文件输入到深度神经网络中,用于预测靶蛋白的独特性肽段,以及其保留时间信息和碎片离子强度信息。本发明建立一个合适的谱图库模型,不受同一实验室或同一仪器的限制。本发明实施中以胰蛋白酶和胰蛋白酶/P为酶解酶,无漏切,保留氨基酸长度为7-50,质量为≤6000Da的肽段。
采用本发明的方法,一次PRM分析(60min)可同时采集300-400条靶肽段,极大地缩短了时间成本与经济成本,说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作。
本发明的方法可用于复杂疾病相关蛋白的独特性肽段筛选、保留时间预测以及可检出性信息获取,在大规模样本集中同时有效地精确测量大量候选蛋白质标志物。
本发明的技术优势在于:1)通量高且减少时间成本:通过机器学习预测目的肽段保留时间信息,使得单针PRM可以同时检测300-400个目的肽段,优于在未知保留时间情况下,传统PRM单针只能检测约10-20个目的肽段;2)降低经济成本:不需要依赖昂贵的标准品合成来获取目的肽段的保留时间信息,进而验证靶肽段真实性,极大地降低了科研经济成本;3)适用范围广:此方法适用于所有实验室的任何一种型号的质谱仪,只需要用以往在此台仪器上测试过的样本进行模型训练即可建立预测模型以用于后续目的肽段的保留时间预测及可检出性信息获取。
附图说明
图1颅内动脉瘤组织蛋白组丰度跨越图;
图2颅内动脉瘤组织蛋白组火山图;
图3颅内动脉瘤血清蛋白组丰度跨越图;
图4颅内动脉瘤血清蛋白组火山图:(A)为IA(UR&R)vs.NC;(B)为R vs.(UR&NC);
图5颅内动脉瘤候选蛋白生物标志物库;
图6 DeepPRM方法示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例1
构建颅内动脉瘤候选生物标志物库
为了构建一个全面的IA候选生物标志物,本发明系统地分析了疾病器官和循环系统的蛋白质组变化,并对文献报道的候选生物标志物进行了总结。血清/血浆蛋白生物标志物是应用最广泛的生物标志物,适用于疾病分类和治疗决策,并具有最广泛的诊断潜力。血清蛋白组可以分为三类:第一类是血清中的功能蛋白、第二类是组织泄漏蛋白、第三类是信号分子。对于IA组织中的失调蛋白,选择组织泄漏到血清中的差异蛋白作为候选的生物标志物。为此,联合GO数据库和SignalP数据库分析IA组织中的失调蛋白,得到373个潜在的组织泄露蛋白,被纳入IA候选生物标志物库。同样地,来源于文献调研的446个蛋白中,有239个被预测为组织泄露蛋白,并被纳入IA候选生物标志物库。
因此,373个来源于IA组织蛋白组的潜在组织泄露蛋白,144个来源于IA血清蛋白组的循环蛋白以及239个来源于文献的潜在组织泄漏蛋白共同构建为含717个候选蛋白的IA生物标志物库。
具体实验步骤如下:
1、基于Lable free技术发现颅内动脉瘤组织样本的潜在蛋白标志物
(1)蛋白提取、还原烷基化以、酶解以及肽段除盐:使用市售的iST试剂盒(PreOmics GmbH,Germany)对五例颅内动脉瘤组织(IA)和五例与之匹配的颞浅动脉组织(STA,作为正常对照)进行蛋白提取;简单地说,将0.83-2mg的微量组织装载至1.5mL EP管中,加入iST试剂盒中的Lyse缓冲液,放入95℃中反应10分钟,而后进行超声操作(30s,10个循环),然后将样品转移至StageTips中,加入iST试剂盒自带的Digest缓冲液,在37℃条件下酶解3h;之后加入Stop缓冲液以停止酶解,然后使用试剂盒中自带的两种Wash缓冲液进行肽段除盐,洗脱后的肽段经过真空离心干燥,然后使用LC-Loading缓冲液复溶样品,等待后续质谱上机检测。
(2)质谱检测:
仪器型号:Orbitrap Exploris 480质谱仪(Thermo Fisher Scientific,USA)
色谱柱型号:25cm C18色谱分离柱(2μm,75μm,x 500mm,Thermo FisherScientific,USA)
流速:300nL
分离总时间:130min
(3)搜库分析与定量:
获得的各组分原始谱图使用Proteome discoverer软件(v2.4)加工处理进行数据库检索鉴定蛋白和相对定量分析,Protein假阳性率FDR设定为1%,其余搜库参数如下:数据库为Uniprot蛋白质数据库,胰酶酶切、一级质谱质量误差为10ppm,二级质谱质量误差为0.02Da;将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估,将定量结果进行t-test统计分析;将差异倍数≥2倍及≤0.5倍同时统计检验p值≤0.05的蛋白定义为差异蛋白,从而得到颅内动脉瘤组与颞浅动脉组表达的变化情况。
(4)生物信息学分析:将上步所得到的差异蛋白导入String数据库(https://string-db.org/)进行GO功能注释和Pathway分析,确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。
2、基于TMT标记定量技术发现颅内动脉瘤血清样本的潜在蛋白标志物
(1)血清样品去除高丰度蛋白:为了更加全面地研究颅内动脉瘤血清蛋白质组的变化,我们使用60例血清样品,每10例混合设置了6个组别:10例破裂动脉瘤组(R1)、10例破裂动脉瘤组(R2)、10例未破裂动脉瘤组(UR1)、10例未破裂动脉瘤组(UR2)、10例正常人组(NC1)以及10例正常人组(NC2)。使用市售的去高丰度旋转小柱(High-SelectTM TOP12Abundant Protein Depletion Spin Columns,Thermo Fisher Scientific,USA)分别去除6组样品(R1、R2、UR1、UR2、NC1、NC2)中的高丰度蛋白。
(2)蛋白定量、还原烷基化、酶解:取上步所得6个样品使用市售的BCA定量试剂盒(Thermo Fisher Scientific,USA)测定样品蛋白浓度,然后分别取等量(100μg)蛋白,用100mM TEAB稀释至1μg/μL,加入终浓度为15mM二硫苏糖醇(DTT),在37℃条件下进行还原反应1h。而后向上述混合物中加入终浓度为30mM碘乙酰胺(IAA)进行烷基化反应,室温避光30min。还原和烷基化的蛋白混合物用100mM TEAB洗涤三次,4℃,12000g离心20分钟。然后用100mM TEAB稀释样品至1μg/μL,以质量比1:100(酶:蛋白)加入Lys-C,37℃酶解2h,以质量比1:50(酶:蛋白)加入胰蛋白酶(Trypsin),37℃过夜酶解。次日,向酶解后的肽段溶液中加入三氟乙酸(TFA,终浓度为0.5%)以终止酶解,然后在旋转真空浓缩器(Christ,德国)上干燥。
(3)TMT标记定量:采用TMT-6标试剂对上述6组样品进行标记反应(126-NC1、127-UR1、128-R1、129-NC2、130-UR2、131-R2)。具体操作如下:取0.8mg TMT试剂溶解于41μL无水乙腈中,然后加入90μg肽(溶解于100μL100 mM TEAB中),使最终乙腈浓度约为30%(v/v)。室温孵育1h后,加入8μL 5%羟胺,孵育15分钟以终止标记反应。而后将6组标记的肽段混合在一起,然后在旋转真空浓缩器(Christ,德国)上干燥,最后进行C18固相萃取脱盐(WAT023590,Waters,Milford,MA)。
(4)高pH反相分馏:为了增加蛋白质鉴定的深度,采用高pH反相液相色谱法对肽段进行分离。采用高pH RPLC柱(Waters,Xbridge C18 3.5μm,150×2.1mm),流速为200μL/min,UPLC系统(Waters,Milford,MA,USA)对540μg TMT 6-标标记肽进行分离。采用溶剂A(2%乙腈,pH 10.0)和溶剂B(98%乙腈,pH 10.0)进行多肽分离。设置70min梯度,0%-5%B,6min;5%-25%B 44min;25%-35%B 7min;35%-50%B在4分钟;50%-90%B在1分钟内;90%B,2分钟;90%-0%B在0.1min内;收集60个组分,混合到30个组分中进行蛋白质组学分析。
(5)质谱检测:
仪器型号:Orbitrap Fusion质谱仪(Thermo Fisher Scientific,USA)
色谱柱型号:25cm C18色谱分离柱(2μm,75μm,x 250mm,Thermo FisherScientific,USA)
流速:300nL
分离总时间:120min;
(6)搜库分析与定量:
获得的各组分原始谱图使用Proteome discoverer软件(v1.4)加工处理进行数据库检索鉴定蛋白和相对定量分析,Protein假阳性率FDR设定为1%,其余搜库参数如下:数据库为Uniprot蛋白质数据库,胰酶酶切、一级质谱质量误差为10ppm,二级质谱质量误差为0.05Da;将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估,将定量结果进行t-test统计分析;将差异倍数≥1.5倍及≤0.67倍同时统计检验p值≤0.05的蛋白定义为差异蛋白,从而得到颅内动脉瘤组(UR&R)与正常组表达的变化情况,以及破裂动脉瘤组(R)独有的差异蛋白情况(R vs.UR&NC);
(7)生物信息学分析:将上步所得到的差异蛋白导入String数据库(https://string-db.org/)进行GO功能注释和Pathway分析,确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。
3、基于文献调研筛选颅内动脉瘤潜在蛋白标志物
为了筛选与颅内动脉瘤相关的候选诊断标志物,系统地搜索了Web of Science和PubMed数据库,关键词包括“intracranial aneurysms”和“proteins”或“genes”。基于爬虫技术发现在2000-2020年间共发表406篇英文论文或综述,与IA相关的蛋白或基因有446个。
实验结果如图1-5所示:
图1为颅内动脉瘤组织蛋白组丰度跨越图。基于严格的质控(FDR1%),颅内动脉瘤组织蛋白组共鉴定到5915个蛋白,定量到5677个蛋白,这些蛋白的丰度跨越了六个数量级,显示出大脑动脉的深层蛋白组图谱。
经缺失值填充后,对数据集进行了统计分析(Student’s t test)。图2为颅内动脉瘤组织蛋白组火山图。当P value<0.05,Fold-change(IA/STA)>2时,在IA和STA组别中,总共得到724个差异蛋白,占据总蛋白鉴定量的12.2%,其中497(68.6%)个蛋白在IA组下调,227(31.4%)个蛋白在IA组上调。
图3为颅内动脉瘤血清蛋白组丰度跨越图。基于严格的质控(FDR1%),颅内动脉瘤血清蛋白组共鉴定到1557个蛋白,跨越11个数量级,最低丰度蛋白如MEGF8(4.3pg/mL);最高丰度的达到了50mg/mL(如血红蛋白和白蛋白)。
经缺失值填充后,对三组数据集进行了两次比较:一次比较是IA(UR&R)versusNC,旨在找出在颅内动脉瘤组中产生变化的蛋白;另一组是R vs.(UR&NC),旨在找出破裂动脉瘤独有的差异蛋白。图4为颅内动脉瘤血清蛋白组火山图。结果表明,在IA vs.NC中,得到103个差异蛋白(P.adjust<0.05),其中26个蛋白在IA中上调,74个蛋白在IA中下调(A);而在R vs.(UR&NC)中,得到53个差异蛋白,其中32个在R组中单独上调,21个在R组中下调(B)。
为了构建一个全面的IA候选生物标志物,系统地分析了疾病器官和循环系统的蛋白质组变化,并对文献报道的候选生物标志物进行了总结。血清/血浆蛋白生物标志物是应用最广泛的生物标志物,适用于疾病分类和治疗决策,并具有最广泛的诊断潜力。血清蛋白组可以分为三类:第一类是血清中的功能蛋白、第二类是组织泄漏蛋白、第三类是信号分子。对于IA组织中的失调蛋白,选择组织泄漏到血清中的差异蛋白作为候选的生物标志物。为此,联合GO数据库和SignalP数据库分析IA组织中的失调蛋白,得到373个潜在的组织泄露蛋白,被纳入IA候选生物标志物库。同样地,来源于文献调研的446个蛋白中,有239个被预测为组织泄露蛋白,并被纳入IA候选生物标志物库。图5为颅内动脉瘤生物标志物库。系统分析了疾病器官和循环系统的蛋白质组变化,并总结了文献报道的候选生物标志物,构建了一个综合性的IA候选生物标志物库(373来自IA组织蛋白组的组织泄漏蛋白,144来自IA血清蛋白组,239来自文献调研的组织泄漏蛋白)。
因此,373个来源于IA组织蛋白组的潜在组织泄露蛋白,144个来源于IA血清蛋白组的循环蛋白以及239个来源于文献的潜在组织泄漏蛋白共同构建为含717个候选蛋白的IA生物标志物库。
值得注意的是,上述实施例主要针对筛选颅内动脉瘤的候选生物标志物,有关其他疾病的候选生物标志物筛选方法同样属于本专利的保护范围内。
实施例2 DeepPRM方法
为了克服目前基于传统SRM/MRM/PRM质谱检测技术成本高、耗时长、通量低等问题,本发明提出一种低成本、高效率、且适用于所有实验室的新型靶向蛋白质组技术(DeepPRM)。通过机器学习方法预测靶蛋白的靶肽段,且同时获取靶肽的保留时间和可检出性,极大地缩减了时间成本并提高通量;同时该方法无需合成标准肽段来确证靶肽的真实性,极大地降低了经济成本。因此该方法特别适用于复杂疾病(如颅内动脉瘤,intracranial aneurysm,IA)的大规模样本的靶向蛋白质组学研究。
具体实验步骤如下:
(1)确定靶蛋白:如上述实施例颅内动脉瘤候选生物标志物库中提到的717个靶蛋白;
(2)预测靶肽段:通过Uniprot数据库获取靶蛋白的fasta(.fasta)文件,输入到深度神经网络中,得到靶蛋白的特异性靶肽段;
(3)预测保留时间:同第(2)步;
(4)预测可检出性:同第(2)步;
(5)构建PRM列表:将最终得到的特异性肽段、保留时间信息、质荷比信息、电荷数信息等等整合成PRM列表,为后续PRM验证提供必要信息;
(6)血清样品制备:(1)每个血清样本在4℃,14000g离心30min,去除血清中的脂质分子;(2)使用市售的BCA定量试剂盒(Thermo Fisher Scientific,USA)测定212例血清样品的蛋白浓度;(3)取第(2)中所述的每例样品各100μg蛋白,用100mM四乙基溴化铵(TEAB)稀释至1μg/μL;(4)蛋白酶解:向100ug蛋白中加入终浓度为15mM二硫苏糖醇(DTT),在37℃条件下进行还原反应1h。而后向上述混合物中加入终浓度为30mM碘乙酰胺(IAA)进行烷基化反应,室温避光30min。还原和烷基化的蛋白混合物用100mM TEAB洗涤三次,4℃,12000g离心20分钟。然后用100mM TEAB稀释样品至1μg/μL,以质量比1:100(酶:蛋白)加入Lys-C,37℃酶解2h,以质量比1:50(酶:蛋白)加入胰蛋白酶(Trypsin),37℃过夜酶解。次日,向酶解后的肽段溶液中加入三氟乙酸(TFA,终浓度为0.5%)以终止酶解,然后在旋转真空浓缩器(Christ,德国)上干燥。
(7)质谱仪器:Orbitrap Exploris 480质谱仪(Thermo Fisher Scientific,USA);
色谱柱型号:50cm C18色谱分离柱(2μm,75μm,x 500mm,Thermo FisherScientific,USA);
流速:200nL;
梯度:A相:0.1%FA水溶液;B相:80%ACN。分离梯度0-50%的B相,分离总时间:65min。
(8)数据分析:通过Skyline-daily软件进行数据收集与分析。
将上述717个蛋白的fasta(.fasta)文件输入到深度神经网络中,得到5740个特异性的靶肽段对应712个靶蛋白,如图6。图6为DeepPRM方法,包括预测靶蛋白的靶肽段,以及靶肽段的可检出信息和保留时间信息。
去除含有蛋氨酸、半胱氨酸或其他翻译后修饰位点的多肽,并优先选择具有更高可检出性的多肽,总共1996个独一无二的靶肽经后续PRM验证。结果表明,在混合血清(IA和NC)中最终验证出367条靶肽对应134个靶蛋白,如表1所示。
结果表明,在混合血清(IA和NC)中最终验证出367条靶肽对应134个靶蛋白。说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作。后续一针PRM分析(60min)可同时采集367条靶肽段,极大地缩短了时间成本与经济成本,说明该方法极其适用于复杂疾病成百上千候选标志物的验证工作。
表1通过DeepPRM方法验证得到的134个蛋白(367条肽段)
值得注意的是,上述实施例主要描述运用DeepPRM方法验证颅内动脉瘤的候选生物标志物,有关其他疾病的候选生物标志物使用DeepPRM验证方法同样属于本专利的保护范围内。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (9)
1.一种疾病蛋白质生物标志物鉴定方法,其特征在于,包括以下步骤:
S1、针对单一或复杂疾病筛选候选蛋白;
S2、通过确认疾病靶蛋白,进而预测靶肽段以及其保留时间和可检出性;
S3、通过预测靶肽段以及其保留时间和可检出性信息构建靶向蛋白组学方法列表;
S4、进行靶向蛋白组学验证;
步骤S2中,通过Uniprot数据库获取靶蛋白的fasta文件,输入到深度神经网络中,得到靶蛋白的特异性靶肽段以及其保留时间和可检出性信息;其中,靶蛋白的数量无限制。
2.根据权利要求1所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S1中,联合基于疾病组织样本的潜在蛋白标志物、基于疾病血清样本的潜在蛋白标志物及基于文献调研筛选的潜在蛋白标志物来综合确定单一或复杂疾病的候选蛋白。
3.根据权利要求2所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S1中,基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物。
4.根据权利要求3所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S1中,基于Lable free定量技术发现疾病组织样本的潜在蛋白标志物的方法如下:
(1)蛋白提取、还原烷基化、酶解以及肽段除盐:使用iST试剂盒对疾病组织进行蛋白提取;
(2)质谱检测:
(3)搜库分析与定量:
获得的各组分原始谱图使用Proteome discoverer 软件加工处理进行数据库检索鉴定蛋白和相对定量分析,Protein假阳性率FDR设定为1%,其余搜库参数如下:数据库为Uniprot蛋白质数据库,胰酶酶切、一级质谱质量误差为10ppm,二级质谱质量误差为0.02Da;将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估,将定量结果进行t-test统计分析;将差异倍数≥2倍及≤0.5倍同时统计检验p值≤0.05的蛋白定义为差异蛋白,从而得到疾病组与比较组表达的变化情况;
(4)生物信息学分析:将上步所得到的差异蛋白导入String数据库进行GO功能注释和Pathway分析,确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。
5.根据权利要求2所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S1中,基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物。
6.根据权利要求5所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S1中,基于TMT标记定量技术发现疾病血清样本的潜在蛋白标志物的方法如下:
(1)血清样品去除高丰度蛋白;
(2)蛋白定量、还原烷基化、酶解:取上步所得样品使用市售的BCA定量试剂盒测定样品蛋白浓度,然后取蛋白,用TEAB稀释,加入二硫苏糖醇,进行还原反应;而后向上述混合物中加入碘乙酰胺进行烷基化反应,室温避光反应,还原和烷基化的蛋白混合物洗涤、离心后用TEAB 稀释,加入Lys-C,酶解,加入胰蛋白酶,酶解;次日,向酶解后的肽段溶液中加入三氟乙酸以终止酶解,干燥;
(3)TMT标记定量:采用TMT-6标试剂对样品进行标记反应;
(4)高pH反相分馏:采用高pH反相液相色谱法对肽段进行分离;
(5)质谱检测;
(6)搜库分析与定量:
获得的各组分原始谱图使用Proteome discoverer 软件加工处理进行数据库检索鉴定蛋白和相对定量分析,Protein假阳性率FDR设定为1%,其余搜库参数如下:数据库为Uniprot蛋白质数据库,胰酶酶切、一级质谱质量误差为10ppm,二级质谱质量误差为0.05Da;将搜库得到的多肽与蛋白的定性和定量结果进行鉴定质量评估,将定量结果进行t-test统计分析;将差异倍数≥1.5倍及≤0.67倍同时统计检验p值≤0.05的蛋白定义为差异蛋白,从而得到颅内动脉瘤组与正常组表达的变化情况,以及破裂动脉瘤组独有的差异蛋白情况;
(7)生物信息学分析:将上步所得到的差异蛋白导入String数据库进行GO功能注释和Pathway分析,确定差异蛋白参与的主要生理生化代谢通路和信号调节通路。
7.根据权利要求2所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S1中,疾病组织蛋白组、疾病血清蛋白组候选蛋白的筛选方法包括但不限于质谱检测、试剂盒检测、芯片检测、试纸检测或其他高通量测序平台。
8.根据权利要求1所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S3中,通过预测得到的靶肽段以及其质荷比、电荷数、保留时间、可检出性信息构建后续靶向蛋白组学方法列表。
9.根据权利要求1所述的一种疾病蛋白质生物标志物鉴定方法,其特征在于,步骤S4中,靶向蛋白组学验证方法包括基于三重四极杆质谱仪的选择反应监测和多反应监测、基于高分辨Orbitrap质谱仪的平行反应监测以及基于tims-TOF Pro的平行反应监测-同步累积连续碎裂。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297187.6A CN115112778B (zh) | 2021-03-19 | 2021-03-19 | 一种疾病蛋白质生物标志物鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110297187.6A CN115112778B (zh) | 2021-03-19 | 2021-03-19 | 一种疾病蛋白质生物标志物鉴定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115112778A CN115112778A (zh) | 2022-09-27 |
CN115112778B true CN115112778B (zh) | 2023-08-04 |
Family
ID=83323428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110297187.6A Active CN115112778B (zh) | 2021-03-19 | 2021-03-19 | 一种疾病蛋白质生物标志物鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115112778B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002074927A2 (en) * | 2001-03-20 | 2002-09-26 | Ciphergen Biosystems, Inc. | High accuracy protein identification |
CN102567653A (zh) * | 2011-12-29 | 2012-07-11 | 北京理工大学 | 基于Pathway蛋白质组学的质谱优选肽段自动挑选方法 |
CN103884806A (zh) * | 2012-12-21 | 2014-06-25 | 中国科学院大连化学物理研究所 | 结合二级质谱和机器学习算法的蛋白质组无标记定量方法 |
CN106529203A (zh) * | 2016-12-21 | 2017-03-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法 |
CN110838340A (zh) * | 2019-10-31 | 2020-02-25 | 军事科学院军事医学研究院生命组学研究所 | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 |
CN111148844A (zh) * | 2017-09-01 | 2020-05-12 | 韦恩生物科技股份公司 | 鉴定和使用糖肽作为诊断和治疗监测的生物标记物 |
CN111781292A (zh) * | 2020-07-15 | 2020-10-16 | 四川大学华西医院 | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 |
CN112071363A (zh) * | 2020-07-21 | 2020-12-11 | 北京谷海天目生物医学科技有限公司 | 胃黏膜病变蛋白质分子分型、病变进展及胃癌相关蛋白标志物、预测病变进展风险的方法 |
CN112464804A (zh) * | 2020-11-26 | 2021-03-09 | 北京航空航天大学 | 一种基于神经网络框架的肽段信号匹配方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0724735D0 (en) * | 2007-12-19 | 2008-01-30 | Psynova Neurotech Ltd | Methods and biomarkers for diagnosing and monitoring psychotic disorders |
US20130184173A1 (en) * | 2010-04-14 | 2013-07-18 | The Royal Institution For The Advancement Of Learning/Mcgill University | Biomarkers for multiple sclerosis |
US10446259B2 (en) * | 2015-08-10 | 2019-10-15 | Massachusetts Institute Of Technology | Systems, apparatus, and methods for analyzing and predicting cellular pathways |
-
2021
- 2021-03-19 CN CN202110297187.6A patent/CN115112778B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002074927A2 (en) * | 2001-03-20 | 2002-09-26 | Ciphergen Biosystems, Inc. | High accuracy protein identification |
CN102567653A (zh) * | 2011-12-29 | 2012-07-11 | 北京理工大学 | 基于Pathway蛋白质组学的质谱优选肽段自动挑选方法 |
CN103884806A (zh) * | 2012-12-21 | 2014-06-25 | 中国科学院大连化学物理研究所 | 结合二级质谱和机器学习算法的蛋白质组无标记定量方法 |
CN106529203A (zh) * | 2016-12-21 | 2017-03-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法 |
CN111148844A (zh) * | 2017-09-01 | 2020-05-12 | 韦恩生物科技股份公司 | 鉴定和使用糖肽作为诊断和治疗监测的生物标记物 |
CN110838340A (zh) * | 2019-10-31 | 2020-02-25 | 军事科学院军事医学研究院生命组学研究所 | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 |
CN111781292A (zh) * | 2020-07-15 | 2020-10-16 | 四川大学华西医院 | 一种基于深度学习模型的尿液蛋白质组学谱图数据分析系统 |
CN112071363A (zh) * | 2020-07-21 | 2020-12-11 | 北京谷海天目生物医学科技有限公司 | 胃黏膜病变蛋白质分子分型、病变进展及胃癌相关蛋白标志物、预测病变进展风险的方法 |
CN112464804A (zh) * | 2020-11-26 | 2021-03-09 | 北京航空航天大学 | 一种基于神经网络框架的肽段信号匹配方法 |
Non-Patent Citations (2)
Title |
---|
基于稳定同位素标记和平行反应监测的蛋白质组学定量技术用于肝癌生物标志物的筛选和验证;王素兰;高华萍;张菁;叶翔;;色谱(09);全文 * |
非水溶性药物潜在靶蛋白筛选方法探索;陶定银;夏思敏;刘晋湘;张丽华;梁振;张玉奎;;中国科学:化学(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115112778A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hüttenhain et al. | Perspectives of targeted mass spectrometry for protein biomarker verification | |
CN112505228B (zh) | 用于评估受试者心血管疾病风险的代谢标志物组合及其应用 | |
Gillette et al. | Quantitative analysis of peptides and proteins in biomedicine by targeted mass spectrometry | |
Horvatovich et al. | Multidimensional chromatography coupled to mass spectrometry in analysing complex proteomics samples | |
Edwards et al. | Multiplexed quantitative proteomics for high-throughput comprehensive proteome comparisons of human cell lines | |
Plebani | Proteomics: the next revolution in laboratory medicine? | |
Han et al. | Proteomics: from hypothesis to quantitative assay on a single platform. Guidelines for developing MRM assays using ion trap mass spectrometers | |
Bowler et al. | Proteomics in pulmonary medicine | |
Wasinger et al. | Proteomic tools for biomedicine | |
JP4317083B2 (ja) | 質量分析方法及び質量分析システム | |
Dowling et al. | Recent advances in clinical proteomics using mass spectrometry | |
WO2006129401A1 (ja) | プロテオーム網羅的解析における特異的蛋白質のスクリーニング方法 | |
Feng et al. | Selected reaction monitoring to measure proteins of interest in complex samples: a practical guide | |
Merkley et al. | A proteomics tutorial | |
Smith et al. | Biological applications for LC-MS-based proteomics | |
CN115112778B (zh) | 一种疾病蛋白质生物标志物鉴定方法 | |
deVera et al. | Clinical proteomics: the promises and challenges of mass spectrometry-based biomarker discovery | |
CN116754772A (zh) | 老年痴呆早期诊断外周血蛋白标志物、应用及辅助诊断系统 | |
Núñez Galindo et al. | Analyzing cerebrospinal fluid proteomes to characterize central nervous system disorders: a highly automated mass spectrometry-based pipeline for biomarker discovery | |
WO2010094300A1 (en) | A method for determining in silico- a set of selected target epitopes | |
Kiyonami et al. | Selected reaction monitoring applied to quantitative proteomics | |
Fassbender et al. | Proteomic biomarkers for endometriosis | |
Thikekar et al. | A review on-analytical tools in proteomics | |
Vehus | Performing quantitative determination of low-abundant proteins by targeted mass spectrometry liquid chromatography | |
Ku et al. | Discovering Protein Biomarkers from Clinical Peripheral Blood Mononuclear Cells Using Data-Independent Acquisition Mass Spectrometry |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |