CN114354933A - 一种胃癌筛查血清生物标志物群及其应用 - Google Patents
一种胃癌筛查血清生物标志物群及其应用 Download PDFInfo
- Publication number
- CN114354933A CN114354933A CN202111622215.3A CN202111622215A CN114354933A CN 114354933 A CN114354933 A CN 114354933A CN 202111622215 A CN202111622215 A CN 202111622215A CN 114354933 A CN114354933 A CN 114354933A
- Authority
- CN
- China
- Prior art keywords
- gastric cancer
- cancer screening
- protein
- serum
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000005718 Stomach Neoplasms Diseases 0.000 title claims abstract description 92
- 206010017758 gastric cancer Diseases 0.000 title claims abstract description 92
- 201000011549 stomach cancer Diseases 0.000 title claims abstract description 92
- 238000012216 screening Methods 0.000 title claims abstract description 67
- 210000002966 serum Anatomy 0.000 title claims abstract description 53
- 239000000090 biomarker Substances 0.000 title claims abstract description 46
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 82
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000001819 mass spectrum Methods 0.000 claims abstract description 22
- 238000012706 support-vector machine Methods 0.000 claims abstract description 5
- 238000012353 t test Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 12
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 12
- 239000000243 solution Substances 0.000 claims description 11
- 102100027685 Hemoglobin subunit alpha Human genes 0.000 claims description 10
- 101001009007 Homo sapiens Hemoglobin subunit alpha Proteins 0.000 claims description 10
- 229920001184 polypeptide Polymers 0.000 claims description 10
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 10
- 102100040202 Apolipoprotein B-100 Human genes 0.000 claims description 9
- 101000889953 Homo sapiens Apolipoprotein B-100 Proteins 0.000 claims description 9
- 238000004949 mass spectrometry Methods 0.000 claims description 9
- 102100036774 Afamin Human genes 0.000 claims description 8
- 102100033326 Alpha-1B-glycoprotein Human genes 0.000 claims description 8
- 102100030942 Apolipoprotein A-II Human genes 0.000 claims description 8
- 102100037320 Apolipoprotein A-IV Human genes 0.000 claims description 8
- 102100036451 Apolipoprotein C-I Human genes 0.000 claims description 8
- 102100030802 Beta-2-glycoprotein 1 Human genes 0.000 claims description 8
- 102100035023 Carboxypeptidase B2 Human genes 0.000 claims description 8
- 102100027473 Cartilage oligomeric matrix protein Human genes 0.000 claims description 8
- 101710176668 Cartilage oligomeric matrix protein Proteins 0.000 claims description 8
- 102100029057 Coagulation factor XIII A chain Human genes 0.000 claims description 8
- 102100026897 Cystatin-C Human genes 0.000 claims description 8
- 102100031752 Fibrinogen alpha chain Human genes 0.000 claims description 8
- 102100024783 Fibrinogen gamma chain Human genes 0.000 claims description 8
- 102100021519 Hemoglobin subunit beta Human genes 0.000 claims description 8
- 102100039894 Hemoglobin subunit delta Human genes 0.000 claims description 8
- 101000928239 Homo sapiens Afamin Proteins 0.000 claims description 8
- 101000799853 Homo sapiens Alpha-1B-glycoprotein Proteins 0.000 claims description 8
- 101000793406 Homo sapiens Apolipoprotein A-II Proteins 0.000 claims description 8
- 101000806793 Homo sapiens Apolipoprotein A-IV Proteins 0.000 claims description 8
- 101000928628 Homo sapiens Apolipoprotein C-I Proteins 0.000 claims description 8
- 101000793425 Homo sapiens Beta-2-glycoprotein 1 Proteins 0.000 claims description 8
- 101000946518 Homo sapiens Carboxypeptidase B2 Proteins 0.000 claims description 8
- 101000918352 Homo sapiens Coagulation factor XIII A chain Proteins 0.000 claims description 8
- 101000912205 Homo sapiens Cystatin-C Proteins 0.000 claims description 8
- 101000846244 Homo sapiens Fibrinogen alpha chain Proteins 0.000 claims description 8
- 101001052043 Homo sapiens Fibrinogen gamma chain Proteins 0.000 claims description 8
- 101000899111 Homo sapiens Hemoglobin subunit beta Proteins 0.000 claims description 8
- 101001035503 Homo sapiens Hemoglobin subunit delta Proteins 0.000 claims description 8
- 101001138089 Homo sapiens Immunoglobulin kappa variable 1-39 Proteins 0.000 claims description 8
- 101000693844 Homo sapiens Insulin-like growth factor-binding protein complex acid labile subunit Proteins 0.000 claims description 8
- 101001091590 Homo sapiens Kininogen-1 Proteins 0.000 claims description 8
- 101000783723 Homo sapiens Leucine-rich alpha-2-glycoprotein Proteins 0.000 claims description 8
- 101000958390 Homo sapiens Mannosyl-oligosaccharide 1,2-alpha-mannosidase IA Proteins 0.000 claims description 8
- 101001135402 Homo sapiens Prostaglandin-H2 D-isomerase Proteins 0.000 claims description 8
- 101001094647 Homo sapiens Serum paraoxonase/arylesterase 1 Proteins 0.000 claims description 8
- 102100020910 Immunoglobulin kappa variable 1-39 Human genes 0.000 claims description 8
- 102100025515 Insulin-like growth factor-binding protein complex acid labile subunit Human genes 0.000 claims description 8
- 102100035792 Kininogen-1 Human genes 0.000 claims description 8
- 102100035987 Leucine-rich alpha-2-glycoprotein Human genes 0.000 claims description 8
- 102100038245 Mannosyl-oligosaccharide 1,2-alpha-mannosidase IA Human genes 0.000 claims description 8
- 102100033279 Prostaglandin-H2 D-isomerase Human genes 0.000 claims description 8
- 102100035476 Serum paraoxonase/arylesterase 1 Human genes 0.000 claims description 8
- 206010028980 Neoplasm Diseases 0.000 claims description 7
- 102000007079 Peptide Fragments Human genes 0.000 claims description 6
- 108010033276 Peptide Fragments Proteins 0.000 claims description 6
- 201000011510 cancer Diseases 0.000 claims description 6
- BDAGIHXWWSANSR-UHFFFAOYSA-N methanoic acid Natural products OC=O BDAGIHXWWSANSR-UHFFFAOYSA-N 0.000 claims description 6
- 102000010553 ALAD Human genes 0.000 claims description 5
- 101150082527 ALAD gene Proteins 0.000 claims description 5
- 101150072844 APOM gene Proteins 0.000 claims description 5
- 102100027211 Albumin Human genes 0.000 claims description 5
- 102100033312 Alpha-2-macroglobulin Human genes 0.000 claims description 5
- 102100022977 Antithrombin-III Human genes 0.000 claims description 5
- 102100030970 Apolipoprotein C-III Human genes 0.000 claims description 5
- 102100030760 Apolipoprotein F Human genes 0.000 claims description 5
- 102100030762 Apolipoprotein L1 Human genes 0.000 claims description 5
- 102100037324 Apolipoprotein M Human genes 0.000 claims description 5
- 102100037084 C4b-binding protein alpha chain Human genes 0.000 claims description 5
- 102100024154 Cadherin-13 Human genes 0.000 claims description 5
- 102100029058 Coagulation factor XIII B chain Human genes 0.000 claims description 5
- 102100024206 Collectin-10 Human genes 0.000 claims description 5
- 102100030152 Complement C1r subcomponent-like protein Human genes 0.000 claims description 5
- 102100035436 Complement factor D Human genes 0.000 claims description 5
- 102100035432 Complement factor H Human genes 0.000 claims description 5
- 102100037362 Fibronectin Human genes 0.000 claims description 5
- 102100030393 G-patch domain and KOW motifs-containing protein Human genes 0.000 claims description 5
- 108010000445 Glycerate dehydrogenase Proteins 0.000 claims description 5
- 102100027772 Haptoglobin-related protein Human genes 0.000 claims description 5
- 102100030500 Heparin cofactor 2 Human genes 0.000 claims description 5
- 102100032813 Hepatocyte growth factor-like protein Human genes 0.000 claims description 5
- 101100323521 Homo sapiens APOL1 gene Proteins 0.000 claims description 5
- 101000693913 Homo sapiens Albumin Proteins 0.000 claims description 5
- 101000799972 Homo sapiens Alpha-2-macroglobulin Proteins 0.000 claims description 5
- 101000757319 Homo sapiens Antithrombin-III Proteins 0.000 claims description 5
- 101000793223 Homo sapiens Apolipoprotein C-III Proteins 0.000 claims description 5
- 101000793431 Homo sapiens Apolipoprotein F Proteins 0.000 claims description 5
- 101000740685 Homo sapiens C4b-binding protein alpha chain Proteins 0.000 claims description 5
- 101000762243 Homo sapiens Cadherin-13 Proteins 0.000 claims description 5
- 101000918350 Homo sapiens Coagulation factor XIII B chain Proteins 0.000 claims description 5
- 101000909632 Homo sapiens Collectin-10 Proteins 0.000 claims description 5
- 101000794267 Homo sapiens Complement C1r subcomponent-like protein Proteins 0.000 claims description 5
- 101000737554 Homo sapiens Complement factor D Proteins 0.000 claims description 5
- 101000737574 Homo sapiens Complement factor H Proteins 0.000 claims description 5
- 101001065295 Homo sapiens Fas-binding factor 1 Proteins 0.000 claims description 5
- 101001027128 Homo sapiens Fibronectin Proteins 0.000 claims description 5
- 101001082432 Homo sapiens Heparin cofactor 2 Proteins 0.000 claims description 5
- 101001066435 Homo sapiens Hepatocyte growth factor-like protein Proteins 0.000 claims description 5
- 101100125778 Homo sapiens IGHM gene Proteins 0.000 claims description 5
- 101000961146 Homo sapiens Immunoglobulin heavy constant gamma 2 Proteins 0.000 claims description 5
- 101000840257 Homo sapiens Immunoglobulin kappa constant Proteins 0.000 claims description 5
- 101001047629 Homo sapiens Immunoglobulin kappa variable 2-30 Proteins 0.000 claims description 5
- 101001047617 Homo sapiens Immunoglobulin kappa variable 3-11 Proteins 0.000 claims description 5
- 101001054837 Homo sapiens Immunoglobulin lambda variable 1-47 Proteins 0.000 claims description 5
- 101001005365 Homo sapiens Immunoglobulin lambda variable 3-21 Proteins 0.000 claims description 5
- 101001044940 Homo sapiens Insulin-like growth factor-binding protein 2 Proteins 0.000 claims description 5
- 101000960952 Homo sapiens Interleukin-1 receptor accessory protein Proteins 0.000 claims description 5
- 101000605403 Homo sapiens Plasminogen Proteins 0.000 claims description 5
- 101000880431 Homo sapiens Serine/threonine-protein kinase 4 Proteins 0.000 claims description 5
- 101000637835 Homo sapiens Serum amyloid A-4 protein Proteins 0.000 claims description 5
- 102100039346 Immunoglobulin heavy constant gamma 2 Human genes 0.000 claims description 5
- 102100039352 Immunoglobulin heavy constant mu Human genes 0.000 claims description 5
- 102100029572 Immunoglobulin kappa constant Human genes 0.000 claims description 5
- 102100022952 Immunoglobulin kappa variable 2-30 Human genes 0.000 claims description 5
- 102100022955 Immunoglobulin kappa variable 3-11 Human genes 0.000 claims description 5
- 102100026809 Immunoglobulin lambda variable 1-47 Human genes 0.000 claims description 5
- 102100025934 Immunoglobulin lambda variable 3-21 Human genes 0.000 claims description 5
- 102100022710 Insulin-like growth factor-binding protein 2 Human genes 0.000 claims description 5
- 102100039880 Interleukin-1 receptor accessory protein Human genes 0.000 claims description 5
- 102100038124 Plasminogen Human genes 0.000 claims description 5
- 102100032016 Serum amyloid A-4 protein Human genes 0.000 claims description 5
- 101710168938 Sphingosine-1-phosphate phosphatase 2 Proteins 0.000 claims description 5
- 101150045640 VWF gene Proteins 0.000 claims description 5
- 101150055960 hemB gene Proteins 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 102100036537 von Willebrand factor Human genes 0.000 claims description 5
- OSWFIVFLDKOXQC-UHFFFAOYSA-N 4-(3-methoxyphenyl)aniline Chemical compound COC1=CC=CC(C=2C=CC(N)=CC=2)=C1 OSWFIVFLDKOXQC-UHFFFAOYSA-N 0.000 claims description 3
- 102100028313 Fibrinogen beta chain Human genes 0.000 claims description 3
- 101000917163 Homo sapiens Fibrinogen beta chain Proteins 0.000 claims description 3
- 239000007864 aqueous solution Substances 0.000 claims description 3
- 238000003766 bioinformatics method Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 235000019253 formic acid Nutrition 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 101100328463 Mus musculus Cmya5 gene Proteins 0.000 claims description 2
- 108010026552 Proteome Proteins 0.000 claims description 2
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000007865 diluting Methods 0.000 claims description 2
- 238000001035 drying Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 238000010187 selection method Methods 0.000 claims description 2
- 238000000926 separation method Methods 0.000 claims description 2
- 238000000176 thermal ionisation mass spectrometry Methods 0.000 claims description 2
- 238000013055 trapped ion mobility spectrometry Methods 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 7
- 230000035945 sensitivity Effects 0.000 abstract description 6
- 238000013399 early diagnosis Methods 0.000 abstract description 4
- 238000004393 prognosis Methods 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 150000002500 ions Chemical class 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- DTQVDTLACAAQTR-UHFFFAOYSA-N Trifluoroacetic acid Chemical compound OC(=O)C(F)(F)F DTQVDTLACAAQTR-UHFFFAOYSA-N 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000036541 health Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- INZOTETZQBPBCE-NYLDSJSYSA-N 3-sialyl lewis Chemical compound O[C@H]1[C@H](O)[C@H](O)[C@H](C)O[C@H]1O[C@H]([C@H](O)CO)[C@@H]([C@@H](NC(C)=O)C=O)O[C@H]1[C@H](O)[C@@H](O[C@]2(O[C@H]([C@H](NC(C)=O)[C@@H](O)C2)[C@H](O)[C@H](O)CO)C(O)=O)[C@@H](O)[C@@H](CO)O1 INZOTETZQBPBCE-NYLDSJSYSA-N 0.000 description 2
- ATRRKUHOCOJYRX-UHFFFAOYSA-N Ammonium bicarbonate Chemical compound [NH4+].OC([O-])=O ATRRKUHOCOJYRX-UHFFFAOYSA-N 0.000 description 2
- 229910000013 Ammonium bicarbonate Inorganic materials 0.000 description 2
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 2
- 102100025475 Carcinoembryonic antigen-related cell adhesion molecule 5 Human genes 0.000 description 2
- 108090000631 Trypsin Proteins 0.000 description 2
- 102000004142 Trypsin Human genes 0.000 description 2
- 235000012538 ammonium bicarbonate Nutrition 0.000 description 2
- 239000001099 ammonium carbonate Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- VHJLVAABSRFDPM-QWWZWVQMSA-N dithiothreitol Chemical compound SC[C@@H](O)[C@H](O)CS VHJLVAABSRFDPM-QWWZWVQMSA-N 0.000 description 2
- PGLTVOMIXTUURA-UHFFFAOYSA-N iodoacetamide Chemical compound NC(=O)CI PGLTVOMIXTUURA-UHFFFAOYSA-N 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004481 post-translational protein modification Effects 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 239000012588 trypsin Substances 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000007071 enzymatic hydrolysis Effects 0.000 description 1
- 238000006047 enzymatic hydrolysis reaction Methods 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 1
- 201000011591 microinvasive gastric cancer Diseases 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 201000002528 pancreatic cancer Diseases 0.000 description 1
- 208000008443 pancreatic carcinoma Diseases 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004850 protein–protein interaction Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及一种胃癌筛查血清生物标志物群及其应用。本发明采用t检验和SVM built‑in算法筛选蛋白质质谱定量的胃癌相关的蛋白质组合,结合机器学习中的线性支持向量机(Linear SVM)模型利用所选的蛋白组合对胃癌患者和正常人进行精准分类,可弥补临床上胃癌筛查方法灵敏度和特异性不足的缺点。同时可以作为辅助手段结合临床其他检查结果进行进一步临床决策,实现胃癌早发现、早诊断和早治疗,大大改善患者的预后。
Description
技术领域
本发明属于蛋白质组学技术领域,尤其是涉及一种胃癌筛查血清生物标志物群及其应用。
背景技术
胃癌(Gastric cancer,GC)是世界上第三大癌症死亡原因,尤其是在东亚,占全球病例的一半以上。尽管近年来死亡率有所下降,但由于其恶性程度高,预后差,严重威胁了人类健康。早期胃癌5年生存率可以达到90%,而中晚期胃癌术后5年生存率仅为30%左右。因此,对胃癌进行早发现、早诊断和早治疗是有效改善胃癌预后、降低死亡率的关键。
糖类抗原72-4(CA72-4)是目前诊断胃癌的最佳肿瘤标志物之一,在胃癌患者中的阳性率为65%-75%,若与糖类抗原19-9(CA19-9)及癌胚抗原(CEA)联合检测可以监测70%以上的胃癌。然而,CA72-4水平与胃癌的分期有明显的相关性,一般在晚期(III-IV期)才会增高,且其在结/直肠癌、胰腺癌、肝癌、肺癌、乳腺癌、卵巢癌也有一定的阳性率。因此,寻找灵敏度和特异性均高的胃癌筛查方法成为临床研究的重点和难点。
蛋白质组学是近年来兴起的一种新的生物研究手段,是在大规模水平上研究蛋白质的特征,包括蛋白质表达水平,翻译后修饰,蛋白与蛋白相互作用等,由此获得蛋白质水平上正常与疾病状态下的差异,从而进行疾病的早期诊断及鉴别。蛋白质质谱是一种通过鉴定、定量蛋白质来寻找生物标志物的有效手段,具有同时检测数千种蛋白质和翻译后修饰的能力,因此从根本上改变了对生物系统的研究方式。几十年来,质谱在测量速度、灵敏度和准确性方面都得到了极大的提高,再次推动了定量蛋白质组学的发展。然而如何利用蛋白质质谱精准对胃癌进行筛查依旧是行业亟待解决的一大难题。
发明内容
基于现有技术中缺乏利用蛋白质质谱对胃癌进行精准筛查的现状,本发明提供一种胃癌筛查血清生物标志物群及其应用。
本发明的目的可以通过以下技术方案来实现:
本发明首先提供一种胃癌筛查血清生物标志物群,选自以下蛋白中的2种或2种以上的组合:
COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,IGFBP2,TF,CDH13,FN1,A2M,CFH,APOF,ALB,ALAD,CLU,FGB,F10,VWF,MAN1A1,MST1,SPP2,CA1,C1RL,IGKV3-11,HP,SERPIND1,IGLV3-21,FGG,IGKV1-39,F13A1,HBD,AGT,APOL1,C4BPA,HBA1;HBA2,FGA,CPB2,HPR,SERPINC1,IL1RAP,C5,CFD,COLEC10,CST3,IGLV1-47,IGKV2-30,PLG,APOC3,IGHG2,APOM,IGKC,KNG1,A1BG,IGFALS,SAA4,IGHM,F13B;
每一种蛋白具体的信息如下:
在本发明的一个实施方式中,所述胃癌筛查血清生物标志物群选择为以下所有蛋白的组合:
COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,IGFBP2,TF,CDH13,FN1,A2M,CFH,APOF,ALB,ALAD,CLU,FGB,F10,VWF,MAN1A1,MST1,SPP2,CA1,C1RL,IGKV3-11,HP,SERPIND1,IGLV3-21,FGG,IGKV1-39,F13A1,HBD,AGT,APOL1,C4BPA,HBA1;HBA2,FGA,CPB2,HPR,SERPINC1,IL1RAP,C5,CFD,COLEC10,CST3,IGLV1-47,IGKV2-30,PLG,APOC3,IGHG2,APOM,IGKC,KNG1,A1BG,IGFALS,SAA4,IGHM,F13B。
在本发明的一个实施方式中,所述胃癌筛查血清生物标志物群选择为以下所有蛋白的组合:
COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,CA1,IGKV1-39,F13A1,HBD,FGB,FGG,FGA,MAN1A1,KNG1,CPB2,A1BG,IGFALS,CST3。
本发明提供的胃癌筛查血清生物标志物群可用于反映胃癌患者和正常人差异。
本发明还提供所述胃癌筛查血清生物标志物群的确定方法,包括如下步骤:
(1)在血清样本中对潜在生物标志物群进行靶向质谱定量数据采集;
(2)对质谱数据进行预处理,获得蛋白定量矩阵;
(3)特征蛋白选择,特征蛋白构成所述胃癌筛查血清生物标志物群。
在本发明的一个实施方式中,在血清样本中对潜在生物标志物群进行靶向质谱定量数据采集的方法包括以下步骤:
(1)血清样本前处理:对血清样本进行酶解,得到多肽溶液,干燥后,用质谱纯的甲酸水溶液重溶,将多肽溶液稀释,等待质谱检测;
(2)潜在生物标志物群的选择:挖掘文献筛选胃癌患者癌组织与癌旁组织差异表达蛋白,通过生物信息学分析预测可能分泌的蛋白,形成潜在生物标志物列表;
(3)蛋白定量数据采集:多肽溶液通过timTOF pro质谱仪的LC-prmPASEF模式进行数据采集得到蛋白质矩阵结果,其中蛋白质矩阵结果是对样本中检测到的蛋白进行相对定量,每个蛋白得到相应的检测强度值。
在本发明的一个实施方式中,步骤(3)中,LC-prmPASEF的色谱条件为60min梯度,质谱条件为:扫描范围:300-1400,离子淌度范围:0.65-1.35Vs/cm2,TIMS管的累积时间和分离时间均为50ms。
在本发明的一个实施方式中,对质谱数据进行预处理,获得蛋白定量矩阵的方法为:
所有的prmPASEF质谱数据均使用Skyline软件进行处理,并结合标准肽段的保留时间和离子对信息,手动检查血清样本中每个肽段的提取时间和离子对,以确保正确的峰检测和准确的积分面积,每种蛋白的定量值以峰面积进行测定。
在本发明的一个实施方式中,特征蛋白选择方法为:
以t检验比较胃癌患者与正常人的血清蛋白质组定量矩阵,初步筛选两组间存在显著差异的特征蛋白,作为新的矩阵,再利用SVM built-in算法进行进一步的特征筛选,特征蛋白构成所述胃癌筛查血清生物标志物群。
本发明还提供所述胃癌筛查血清生物标志物群在建立胃癌筛查方法或胃癌筛查模型中的应用。
本发明还提供一种胃癌筛查试剂盒,所述胃癌筛查试剂盒对血清中所述胃癌筛查血清生物标志物群进行靶向质谱定量数据采集,代入胃癌筛查模型,得出受检者患胃癌的风险程度;
所述胃癌筛查模型,采用如下方法建立:
使用所述胃癌筛查血清生物标志物群的定量矩阵作为特征属性,用于基于线性支持向量机算法的胃癌筛查模型建立。
在本发明的一个实施方式中,所述胃癌筛查模型用ROC曲线评估模型效果,具体的,ROC曲线由蒙特卡洛交叉验证产生,在每个MCCV中,2/3的样本作为训练集,1/3的样本作为验证集。
以上本发明提供的胃癌筛查试剂盒或胃癌筛查血清生物标志物群在建立胃癌筛查方法中的应用,或胃癌筛查方法不用于诊断目的,可作为辅助手段结合临床其他检查结果进行进一步临床决策。
本发明采用t检验和SVM built-in算法筛选蛋白质质谱定量的胃癌相关的蛋白质组合,结合机器学习中的线性支持向量机(Linear SVM)模型利用所选的蛋白组合对对胃癌患者和正常人进行精准分类,可弥补临床上胃癌筛查方法灵敏度和特异性不足的缺点。同时可以作为辅助手段结合临床其他检查结果进行进一步临床决策,实现胃癌早发现、早诊断和早治疗,大大改善患者的预后。
附图说明
图1:区分胃癌患者和正常人的最佳特征蛋白组合ROC曲线。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例1
本实施例利用蛋白质质谱结合机器学习模型,通过多种蛋白组合,完成对胃癌患者和正常人的分类,进而实现胃癌的筛查。该方案不用于诊断目的,可作为辅助手段结合临床其他检查结果进行进一步临床决策。该方案的非诊断目的用途比如:在体检过程中作为筛查工具,了解受检者健康状况,早期发现疾病线索和健康隐患。
本实施例首先提供一种胃癌筛查血清生物标志物群,选自以下蛋白中的2种或2种以上的组合:
COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,IGFBP2,TF,CDH13,FN1,A2M,CFH,APOF,ALB,ALAD,CLU,FGB,F10,VWF,MAN1A1,MST1,SPP2,CA1,C1RL,IGKV3-11,HP,SERPIND1,IGLV3-21,FGG,IGKV1-39,F13A1,HBD,AGT,APOL1,C4BPA,HBA1;HBA2,FGA,CPB2,HPR,SERPINC1,IL1RAP,C5,CFD,COLEC10,CST3,IGLV1-47,IGKV2-30,PLG,APOC3,IGHG2,APOM,IGKC,KNG1,A1BG,IGFALS,SAA4,IGHM,F13B;
每一种蛋白具体的信息如下:
本实施例还提供上述血清生物标志物群在建立胃癌筛查方法中的应用,具体地,是建立一个基于蛋白质组学的胃癌筛查模型。
分析样本:57例胃癌患者、74例正常人的血清样本,样本取自复旦大学附属中山医院。
本实施例的技术方案在74例正常人,57例胃癌患者的临床队列中,受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)下面积(AUC)达到0.97以上,具有特异性强,灵敏度高等特点,可以很好地弥补现有临床中胃癌筛查方法灵敏度和特异性不足的问题,为胃癌早期筛查提供新的方法和参考依据。
蛋白质质谱结合机器学习进行胃癌筛查的方法通过以下步骤实现:
(1)在血清样本中对潜在生物标志物群进行靶向质谱定量数据采集;
(2)对质谱数据进行预处理,获得蛋白定量矩阵;
(3)特征蛋白选择;
(4)机器学习模型构建及效果评估。
具体实验步骤如下:
1、在血清样本中对潜在生物标志物群进行靶向质谱定量数据采集;
(1)血清样本前处理:向5μg/μL血清稀释液中加入二硫苏糖醇(DTT)使其终浓度为10mM,置于56℃恒温震荡仪中还原30min,然后加入碘乙酰胺(IAA)使其终浓度为20mM,37℃下避光反应30min。将上述反应液用50mM碳酸氢铵(ABC)稀释至蛋白浓度为1μg/μL,随后按照1:50(酶:蛋白)的比例加入胰蛋白酶(Trypsin)在37℃恒温震荡仪上过夜酶解(12-14h)。次日,向反应液中加入三氟乙酸(TFA,终浓度0.1%)终止酶切反应,最终得到多肽溶液,然后在旋转真空浓缩器(Christ,德国)上干燥后,用质谱纯的甲酸水溶液(0.1%FA)重溶,使用市售的肽段定量试剂盒(Thermo Fisher Scientific,USA)测定酶解后的多肽浓度,根据测试结果将多肽溶液稀释成400ng/μL,等待质谱检测。
(2)潜在生物标志物群的选择:挖掘文献筛选胃癌患者癌组织与癌旁组织差异表达蛋白,通过生物信息学分析(SignalP和GO-CC)预测可能分泌的蛋白,形成潜在生物标志物列表。
(3)蛋白定量数据采集:多肽溶液通过timTOF pro质谱仪(Bruker)的LC-prmPASEF模式进行数据采集得到蛋白质矩阵结果,其中蛋白质矩阵结果是对样本中检测到的蛋白进行相对定量,每个蛋白得到相应的检测强度值。具体的,LC-prmPASEF的色谱条件为60min梯度,质谱条件为:扫描范围(m/z):300-1400,离子淌度范围(1/K0):0.65-1.35Vs/cm2,TIMS管的累积时间和分离时间均为50ms。
2、对质谱数据进行预处理,获得蛋白定量矩阵
所有的prmPASEF质谱数据均使用Skyline软件(v20.1)进行处理,并结合标准肽段的保留时间和离子对信息,手动检查血清样本中每个肽段的提取时间和离子对,以确保正确的峰检测和准确的积分面积,每种蛋白(肽段)的定量值以峰面积进行测定。
3、特征蛋白选择
以t检验比较胃癌患者与正常人(GC vs.C)的血清蛋白质组定量矩阵,初步筛选两组间存在显著差异的特征蛋白,作为新的矩阵,再利用SVM built-in算法进行进一步的特征筛选。
优选的蛋白组合举例:
组合一:上述所列所有蛋白组合;
组合二:COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,CA1,IGKV1-39,F13A1,HBD,FGB,FGG,FGA,MAN1A1,KNG1,CPB2,A1BG,IGFALS,CST3.
组合三:APOB,FGG;
4、机器学习模型构建及效果评估
使用步骤3中选择的蛋白组合的定量矩阵作为特征属性,采用线性支持向量机(Linear SVM)算法建立机器学习模型,然后用ROC曲线评估模型效果。具体的,ROC曲线由蒙特卡洛交叉验证(Monte-Carlo cross validation,MCCV)产生,区分胃癌患者和正常人的最佳特征蛋白组合ROC曲线如图1所示。在每个MCCV中,2/3的样本作为训练集,通过SVMbuilt-in算法来评估特征的重要性(https://www.metaboanalyst.ca/)。然后选取前2、27、66的重要特征建立分类模型,并在剩余的1/3的样本集中进行验证。列举的每个优选特征蛋白组合的AUC均能达到0.96以上,随着模型所用特征数目增多,AUC会相应增高,直至使用上述所有蛋白组合,AUC趋于恒定,达到0.978。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可以得出其他各种形式的产品,但不论在其结构上作任何变化,凡是具有与本申请相同或相近似的技术方案用于胃癌筛查,亦或是采用本发明列出的蛋白组合或包含其中任意2种以上蛋白用于胃癌检测/诊断/筛查,均落在本发明的保护范围之内。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (10)
1.一种胃癌筛查血清生物标志物群,其特征在于,选自以下蛋白中的2种或2种以上的组合:
COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,IGFBP2,TF,CDH13,FN1,A2M,CFH,APOF,ALB,ALAD,CLU,FGB,F10,VWF,MAN1A1,MST1,SPP2,CA1,C1RL,IGKV3-11,HP,SERPIND1,IGLV3-21,FGG,IGKV1-39,F13A1,HBD,AGT,APOL1,C4BPA,HBA1;HBA2,FGA,CPB2,HPR,SERPINC1,IL1RAP,C5,CFD,COLEC10,CST3,IGLV1-47,IGKV2-30,PLG,APOC3,IGHG2,APOM,IGKC,KNG1,A1BG,IGFALS,SAA4,IGHM,F13B;
每一种蛋白具体的信息如下:
2.根据权利要求1所述的一种胃癌筛查血清生物标志物群,其特征在于,所述胃癌筛查血清生物标志物群选择为以下所有蛋白的组合:
COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,IGFBP2,TF,CDH13,FN1,A2M,CFH,APOF,ALB,ALAD,CLU,FGB,F10,VWF,MAN1A1,MST1,SPP2,CA1,C1RL,IGKV3-11,HP,SERPIND1,IGLV3-21,FGG,IGKV1-39,F13A1,HBD,AGT,APOL1,C4BPA,HBA1;HBA2,FGA,CPB2,HPR,SERPINC1,IL1RAP,C5,CFD,COLEC10,CST3,IGLV1-47,IGKV2-30,PLG,APOC3,IGHG2,APOM,IGKC,KNG1,A1BG,IGFALS,SAA4,IGHM,F13B。
3.根据权利要求1所述的一种胃癌筛查血清生物标志物群,其特征在于,所述胃癌筛查血清生物标志物群选择为以下所有蛋白的组合:
COMP,HBB,PON1,APOC1,AFM,MPO,APOA4,APOB,C9,APOH,F2,APOA2,LRG1,PTGDS,CA1,IGKV1-39,F13A1,HBD,FGB,FGG,FGA,MAN1A1,KNG1,CPB2,A1BG,IGFALS,CST3。
4.权利要求1-3中任一项所述的胃癌筛查血清生物标志物群的确定方法,其特征在于,包括如下步骤:
(1)在血清样本中对潜在生物标志物群进行靶向质谱定量数据采集;
(2)对质谱数据进行预处理,获得蛋白定量矩阵;
(3)特征蛋白选择,特征蛋白构成所述胃癌筛查血清生物标志物群。
5.根据权利要求4所述的胃癌筛查血清生物标志物群的确定方法,其特征在于,在血清样本中对潜在生物标志物群进行靶向质谱定量数据采集的方法包括以下步骤:
(1)血清样本前处理:对血清样本进行酶解,得到多肽溶液,干燥后,用质谱纯的甲酸水溶液重溶,将多肽溶液稀释,等待质谱检测;
(2)潜在生物标志物群的选择:挖掘文献筛选胃癌患者癌组织与癌旁组织差异表达蛋白,通过生物信息学分析预测可能分泌的蛋白,形成潜在生物标志物列表;
(3)蛋白定量数据采集:多肽溶液通过timTOF pro质谱仪的LC-prmPASEF模式进行数据采集得到蛋白质矩阵结果,其中蛋白质矩阵结果是对样本中检测到的蛋白进行相对定量,每个蛋白得到相应的检测强度值。
6.根据权利要求5所述的胃癌筛查血清生物标志物群的确定方法,其特征在于,步骤(3)中,LC-prmPASEF的色谱条件为60min梯度,质谱条件为:扫描范围:300-1400,离子淌度范围:0.65-1.35Vs/cm2,TIMS管的累积时间和分离时间均为50ms。
7.根据权利要求4所述的胃癌筛查血清生物标志物群的确定方法,其特征在于,对质谱数据进行预处理,获得蛋白定量矩阵的方法为:
所有的prmPASEF质谱数据均使用Skyline软件进行处理,并结合标准肽段的保留时间和离子对信息,手动检查血清样本中每个肽段的提取时间和离子对,以确保正确的峰检测和准确的积分面积,每种蛋白的定量值以峰面积进行测定。
8.根据权利要求4所述的胃癌筛查血清生物标志物群的确定方法,其特征在于,特征蛋白选择方法为:
以t检验比较胃癌患者与正常人的血清蛋白质组定量矩阵,初步筛选两组间存在显著差异的特征蛋白,作为新的矩阵,再利用SVM built-in算法进行进一步的特征筛选,特征蛋白构成所述胃癌筛查血清生物标志物群。
9.权利要求1-3中任一项所述的胃癌筛查血清生物标志物群在建立胃癌筛查方法或胃癌筛查模型中的应用。
10.一种胃癌筛查试剂盒,其特征在于,所述胃癌筛查试剂盒对血清中权利要求1-3中任一项所述胃癌筛查血清生物标志物群进行靶向质谱定量数据采集,代入胃癌筛查模型,得出受检者患胃癌的风险程度;
所述胃癌筛查模型,采用如下方法建立:
使用所述胃癌筛查血清生物标志物群的定量矩阵作为特征属性,用于基于线性支持向量机算法的胃癌筛查模型建立。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111622215.3A CN114354933A (zh) | 2021-12-28 | 2021-12-28 | 一种胃癌筛查血清生物标志物群及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111622215.3A CN114354933A (zh) | 2021-12-28 | 2021-12-28 | 一种胃癌筛查血清生物标志物群及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114354933A true CN114354933A (zh) | 2022-04-15 |
Family
ID=81104306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111622215.3A Pending CN114354933A (zh) | 2021-12-28 | 2021-12-28 | 一种胃癌筛查血清生物标志物群及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114354933A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115954046A (zh) * | 2022-12-02 | 2023-04-11 | 上海爱谱蒂康生物科技有限公司 | 一种胃癌个性化治疗决策方法、系统及含其的存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329348A (zh) * | 2007-06-18 | 2008-12-24 | 许洋 | 检测胃癌特征蛋白的优化质谱模型及其制备方法和应用 |
CN101451975A (zh) * | 2008-12-29 | 2009-06-10 | 浙江大学 | 一种检测胃癌预后与分期血清蛋白质的方法 |
CN110716041A (zh) * | 2019-10-23 | 2020-01-21 | 郑州大学 | 一种用于胃癌早期筛查和诊断的血清蛋白标志物、试剂盒及检测方法 |
-
2021
- 2021-12-28 CN CN202111622215.3A patent/CN114354933A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329348A (zh) * | 2007-06-18 | 2008-12-24 | 许洋 | 检测胃癌特征蛋白的优化质谱模型及其制备方法和应用 |
CN101451975A (zh) * | 2008-12-29 | 2009-06-10 | 浙江大学 | 一种检测胃癌预后与分期血清蛋白质的方法 |
CN110716041A (zh) * | 2019-10-23 | 2020-01-21 | 郑州大学 | 一种用于胃癌早期筛查和诊断的血清蛋白标志物、试剂盒及检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115954046A (zh) * | 2022-12-02 | 2023-04-11 | 上海爱谱蒂康生物科技有限公司 | 一种胃癌个性化治疗决策方法、系统及含其的存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102027373B (zh) | 发现用于前列腺癌诊断和治疗之生物标志物和药物靶标的方法及其确立的生物标志物测定 | |
Drake et al. | Serum, salivary and tissue proteomics for discovery of biomarkers for head and neck cancers | |
US20180011099A1 (en) | Compositions, Methods and Kits for Diagnosis of Lung Cancer | |
Han et al. | Identification of lung cancer patients by serum protein profiling using surface-enhanced laser desorption/ionization time-of-flight mass spectrometry | |
US8518654B2 (en) | Lung cancer diagnostic polypeptide, method for detecting lung cancer, and method for evaluating therapeutic effect | |
US9403889B2 (en) | Diagnostic lung cancer panel and methods for its use | |
CN114414704B (zh) | 评估甲状腺结节恶性程度或概率的系统、模型及试剂盒 | |
US20140148349A1 (en) | Metabolite Biomarkers for the Detection of Esophageal Cancer Using NMR | |
Cho et al. | Proteomic approaches in lung cancer biomarker development | |
Pietrowska et al. | Comparison of peptide cancer signatures identified by mass spectrometry in serum of patients with head and neck, lung and colorectal cancers: association with tumor progression | |
Widlak et al. | Serum mass profile signature as a biomarker of early lung cancer | |
US20170168058A1 (en) | Compositions, methods and kits for diagnosis of lung cancer | |
Hocker et al. | Serum monitoring and phenotype identification of stage I non-small cell lung cancer patients | |
CN114354933A (zh) | 一种胃癌筛查血清生物标志物群及其应用 | |
Huang et al. | Liquid chromatography–mass spectrometry based serum peptidomic approach for renal clear cell carcinoma diagnosis | |
CN114577972B (zh) | 一种用于体液鉴定的蛋白质标志物筛选方法 | |
CN107273717A (zh) | 一种肺癌血清基因的检测模型及其构建方法和应用 | |
Massion et al. | Proteomic strategies for the characterization and the early detection of lung cancer | |
CN111273023B (zh) | 一种肺腺癌肿瘤标记物蛋白及其应用 | |
CN111748624B (zh) | 用于预测肝癌是否复发的生物标志物 | |
Lv et al. | Exploratory study on application of MALDI‑TOF‑MS to detect serum and urine peptides related to small cell lung carcinoma | |
Liu et al. | Serum protein profiling of smear-positive and smear-negative pulmonary tuberculosis using SELDI-TOF mass spectrometry | |
US20070184511A1 (en) | Method for Diagnosing a Person Having Sjogren's Syndrome | |
Lin et al. | A classification method based on principal components of SELDI spectra to diagnose of lung adenocarcinoma | |
CN114371296A (zh) | 一种肝癌筛查血清生物标志物群及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |